JP7228682B2 - 動画解析のためのゲーティングモデル - Google Patents
動画解析のためのゲーティングモデル Download PDFInfo
- Publication number
- JP7228682B2 JP7228682B2 JP2021514518A JP2021514518A JP7228682B2 JP 7228682 B2 JP7228682 B2 JP 7228682B2 JP 2021514518 A JP2021514518 A JP 2021514518A JP 2021514518 A JP2021514518 A JP 2021514518A JP 7228682 B2 JP7228682 B2 JP 7228682B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- model
- frames
- training
- implementations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 29
- 238000012549 training Methods 0.000 claims description 143
- 238000000034 method Methods 0.000 claims description 134
- 238000013527 convolutional neural network Methods 0.000 claims description 68
- 238000010801 machine learning Methods 0.000 claims description 53
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 230000033001 locomotion Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 22
- 238000004891 communication Methods 0.000 description 17
- 238000003860 storage Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 230000009183 running Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ユーザは、オンライン画像管理サービスに画像や動画をアップロードする。動画アノテーションを行うサービスもある。たとえば、動画アノテーションは、人の顔、オブジェクト(たとえば、誕生日ケーキ)、動き(たとえば、ジャンプ、走るなど)、音(たとえば、笑い声)などを示すラベルをアップロード動画に含む。プログラムに基づいた技術を用いて動画を解析することによって、動画アノテーションが生成される。
本明細書において説明する実施態様は、動画を解析して1つ以上の動画アノテーションを付加するかどうかを判断するための方法、デバイス、およびコンピュータ読み取り可能な媒体に関する。いくつかの実施態様では、コンピュータにより実現される方法は、複数のフレームおよび対応する音声から構成される動画を取得するステップを含む。この方法は、さらに、目標フレームレートに基づいてサンプリングを実行し、複数のフレームのサブセットを選択するステップを含む。いくつかの実施態様では、目標フレームレートは、動画のフレームレート以下である。この方法は、さらに、複数のフレームからなるサブセットに含まれるフレームごとに音声スペクトログラムを抽出するステップを含む。この方法は、さらに、複数のフレームからなるサブセットの解像度を下げるステップと、解像度を下げるステップの後、複数のフレームからなるサブセットおよび対応する音声スペクトログラムに機械学習ベースのゲーティングモデルを適用するステップを含む。この方法は、さらに、ゲーティングモデルの出力として、動画を解析して1つ以上の動画アノテーションを付加するかどうかについての指示を取得するステップを含む。
ユーザは、カメラ、たとえば、スマートフォンまたはその他のデバイスを用いて動画を撮影する。ユーザは、クライアントデバイスまたはサーバ、たとえば、動画ホスティングサービスを提供するサーバ上にこのような動画を格納するであろう。たとえば「ジョンの誕生日」、「マリアの卒業」、「先週末の私の野球の試合」など、キーワードまたはキーフレーズを使うことによってユーザが動画を検索することを可能にするアプリケーションが、ユーザのクライアントデバイスおよび/またはサーバを介して提供されてもよい。
Claims (20)
- 複数のフレームおよび対応する音声から構成される動画を取得するステップと、
前記動画のフレームレート以下の目標フレームレートに基づいてサンプリングを実行し、前記複数のフレームのサブセットを選択するステップと、
前記複数のフレームからなるサブセットに含まれるフレームごとに音声スペクトログラムを抽出するステップと、
前記複数のフレームからなるサブセットの解像度を下げるステップと、
前記解像度を下げるステップの後、前記複数のフレームからなるサブセットおよび対応する音声スペクトログラムに機械学習ベースのゲーティングモデルを適用するステップと、
前記ゲーティングモデルの出力として、前記動画を解析して1つ以上の動画アノテーションを付加するかどうかについての指示を取得するステップとを含む、コンピュータにより実行される方法。 - さらに、前記ゲーティングモデルを適用するステップの前に、前記動画を複数のセグメントに分割するステップを含み、各セグメントは、複数のフレームを含み、前記ゲーティングモデルを適用するステップは、前記複数のセグメントに対して順番に繰り返し行われ、前記指示は、各イテレーションにおいて生成される、請求項1に記載のコンピュータにより実行される方法。
- 前記複数のセグメントに含まれる各セグメントは、前記複数のセグメントに含まれる別のセグメントと重なり合う、請求項2に記載のコンピュータにより実行される方法。
- 特定のイテレーションにおける前記指示が前記動画を解析するという指示であった場合、前記複数のセグメントのうち1つ以上のセグメントが除外されるように前記ゲーティングモデルの適用を終了させる、請求項2または3に記載のコンピュータにより実行される方法。
- 前記ゲーティングモデルは、前記ゲーティングモデルに提供される入力動画に特定の特徴が存在するかどうかを判断するように訓練される、請求項1~4のいずれかに記載のコンピュータにより実行される方法。
- 前記特定の特徴は、人の顔、ある種類のオブジェクト、ある種類の動き、またはある種類の音声のうち、少なくとも1つを含む、請求項5に記載のコンピュータにより実行される方法。
- 前記ゲーティングモデルを適用するステップは、
特定の特徴が存在する可能性を判断する第1モデルを適用するステップと、
入力として前記特定の特徴が存在する可能性を受信し、前記動画を解析するかどうかについての前記指示を生成する第2モデルを適用するステップとを含む、請求項1~6のいずれかに記載のコンピュータにより実行される方法。 - 前記第1モデルは、
動画を解析するように訓練された複数の層を含む第1の畳み込みニューラルネットワークと、
音声を解析するように訓練された複数の層を含む第2の畳み込みニューラルネットワークと、
前記第1の畳み込みニューラルネットワークの出力および前記第2の畳み込みニューラルネットワークの出力を入力として受信し、前記特定の特徴が前記第2モデルに存在する前記可能性を提供する、複数の層を含むフュージョンネットワークとを含む、請求項7に記載のコンピュータにより実行される方法。 - 前記第2モデルは、ヒューリスティクス、再帰型ニューラルネットワーク、またはマルコフ連鎖解析手法のうち、1つ以上を用いて実装される、請求項7に記載のコンピュータにより実行される方法。
- 前記第2モデルに追加入力を提供するステップをさらに含み、前記追加入力は、
前記特定の特徴が存在すると検出された前記複数のフレームからなるサブセットのうち、特定のフレームの一部のID、
前記複数のフレームからなるサブセットに前記特定の特徴が現れている期間、または、
早期終了に関するヒューリスティクス、のうちの1つ以上を含み、
前記第2モデルは、前記追加入力を利用して前記指示を生成する、請求項7に記載のコンピュータにより実行される方法。 - 前記指示が前記動画を解析するという指示であった場合、前記動画をプログラムで解析して前記1つ以上の動画アノテーションを付加するステップをさらに含み、前記動画アノテーションは、前記動画における、顔、特定の種類のオブジェクト、特定の種類の動き、または特定の種類の音声、のうちの1つ以上の存在を示す1つ以上のラベルを含む、請求項1~10のいずれかに記載のコンピュータにより実行される方法。
- コンピューティングデバイスであって、
プロセッサと、
命令を格納したメモリとを備え、前記命令は、前記プロセッサによって実行されると、前記プロセッサに動作を実行させ、前記動作は、
複数のフレームおよび対応する音声から構成される動画を取得する動作と、
前記動画のフレームレート以下の目標フレームレートに基づいて、サンプリングを実行し、前記複数のフレームのサブセットを選択する動作と、
前記複数のフレームからなるサブセットに含まれるフレームごとに音声スペクトログラムを抽出する動作と、
前記複数のフレームからなるサブセットの解像度を下げる動作と、
前記解像度を下げるステップの後、前記複数のフレームからなるサブセットおよび対応する音声スペクトログラムに機械学習ベースのゲーティングモデルを適用する動作と、
前記ゲーティングモデルの出力として、前記動画を解析して1つ以上の動画アノテーションを付加するかどうかについての指示を取得する動作とを含む、コンピューティングデバイス。 - 前記メモリは、さらに命令を格納し、前記命令は、前記プロセッサによって実行されると、前記プロセッサにさらに動作を実行させ、前記動作は、前記ゲーティングモデルを適用する動作の前に、前記動画を複数のセグメントに分割する動作を含み、各セグメントは、複数のフレームを含み、前記ゲーティングモデルを適用する動作は、前記複数のセグメントに対して順番に繰り返し行われ、前記指示は、各イテレーションにおいて生成される、請求項12に記載のコンピューティングデバイス。
- 動画を解析して特定の特徴に対応するアノテーションを付加するかどうかについての指示を生成するように機械学習ベースのゲーティングモデルを訓練するための、コンピュータにより実行される方法であって、前記機械学習ベースのゲーティングモデルは、
前記特定の特徴が動画に存在する可能性を前記動画の動画フレームに基づいて生成する第1の畳み込みニューラルネットワークを含む第1モデルと、
入力として前記特定の特徴が前記動画に存在する可能性を受信し、前記指示を生成する第2モデルとを含み、前記方法は、
訓練セットを取得するステップを含み、前記訓練セットは、
複数の訓練動画を含み、各訓練動画は、複数のフレームを含み、各訓練動画は、対応する高解像度動画の、低解像度のサンプリングされたバージョンの動画であり、前記訓練セットは、さらに、
複数の訓練ラベルを含み、各訓練ラベルは、前記複数の訓練動画のうちの1つ以上の訓練動画に対応する前記高解像度動画における前記特定の特徴の存在を示し、前記方法は、さらに、
前記ゲーティングモデルを訓練するステップを含み、前記訓練するステップは、前記訓練セットに含まれる訓練動画ごとに、
前記第1モデルを前記訓練動画に適用することによって、前記特定の特徴が前記訓練動画に存在する可能性を生成するステップと、
前記第2モデルを適用することによって、前記訓練動画を解析して特定の特徴に対応するアノテーションを付加するかどうかについての前記指示を前記特定の特徴が前記訓練動画に存在する可能性に基づいて生成するステップと、
前記対応する高解像度動画に関連付けられた前記訓練ラベル、および前記指示に基づいて、フィードバックデータを生成するステップと、
訓練入力として、前記フィードバックデータを前記第1モデルおよび前記第2モデルに提供するステップとを含む、コンピュータにより実行される方法。 - 前記特定の特徴は、人の顔、ある種類の動き、またはある種類のオブジェクトのうち少なくとも1つを含む、請求項14に記載のコンピュータにより実行される方法。
- 前記訓練セットに含まれる前記複数の訓練動画は、前記特定の特徴が存在する少なくとも1つの動画と、前記特定の特徴が存在しない少なくとも1つの動画とを含み、前記ゲーティングモデルを訓練するステップは、前記第1モデルの前記第1の畳み込みニューラルネットワークの1つ以上のノードの重みを自動的に調整するステップ、または、前記第1モデルの前記第1の畳み込みニューラルネットワークの1つ以上の対のノード間の接続性を自動的に調整するステップのうち、1つ以上のステップを含む、請求項14または15に記載のコンピュータにより実行される方法。
- 前記第2モデルは、ヒューリスティクスを基にしたモデル、再帰型ニューラルネットワーク、またはマルコフ連鎖解析モデルのうち、1つ以上を含み、前記ゲーティングモデルを訓練するステップは、前記ヒューリスティクスを基にしたモデルの1つ以上のパラメータを自動的に調整するステップ、前記再帰型ニューラルネットワークの1つ以上のパラメータを自動的に調整するステップ、または前記マルコフ連鎖解析モデルの1つ以上のパラメータを自動的に調整するステップのうち、1つ以上のステップを含む、請求項14~16のいずれかに記載のコンピュータにより実行される方法。
- 前記ゲーティングモデルを訓練するステップは、前記訓練動画の複数のフレームをフレームからなる複数のスタックに分割するステップをさらに含み、各スタックは、少なくとも1つのフレームを含み、前記複数のスタックは、順序付けられたシーケンスに編成され、前記ゲーティングモデルを訓練するステップは、前記フレームからなる複数のスタックに含まれるフレームからなるスタックごとに順次実行される、請求項14~17のいずれかに記載のコンピュータにより実行される方法。
- 前記第2モデルは、前記生成された指示を前記訓練動画のスタックごとに格納するように構成され、特定のスタックについての前記指示を生成するステップは、前記順序付けられたシーケンスに含まれる1つ以上の前のスタックについてのそれぞれ格納された指示にさらに基づく、請求項18に記載のコンピュータにより実行される方法。
- 前記複数の訓練動画に含まれる1つ以上の訓練動画は、前記複数のフレームに対応する音声スペクトログラムをさらに含み、前記第1モデルは、さらに、
音声スペクトログラムを解析するように訓練された第2の畳み込みニューラルネットワークと、
前記第1の畳み込みニューラルネットワークおよび前記第2の畳み込みニューラルネットワークの出力を入力として受信し、前記特定の特徴が前記動画に存在する可能性を生成するフュージョンネットワークとを含む、請求項14~19のいずれかに記載のコンピュータにより実行される方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/352,605 US10984246B2 (en) | 2019-03-13 | 2019-03-13 | Gating model for video analysis |
US16/352,605 | 2019-03-13 | ||
PCT/US2019/053501 WO2020185256A1 (en) | 2019-03-13 | 2019-09-27 | Gating model for video analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022523606A JP2022523606A (ja) | 2022-04-26 |
JP7228682B2 true JP7228682B2 (ja) | 2023-02-24 |
Family
ID=68296667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021514518A Active JP7228682B2 (ja) | 2019-03-13 | 2019-09-27 | 動画解析のためのゲーティングモデル |
Country Status (6)
Country | Link |
---|---|
US (2) | US10984246B2 (ja) |
EP (1) | EP3735777A1 (ja) |
JP (1) | JP7228682B2 (ja) |
KR (1) | KR102297393B1 (ja) |
CN (1) | CN112740709B (ja) |
WO (1) | WO2020185256A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020046859A1 (en) * | 2018-08-27 | 2020-03-05 | Neuralmagic Inc. | Systems and methods for neural network convolutional layer matrix multiplication using cache memory |
US10984246B2 (en) * | 2019-03-13 | 2021-04-20 | Google Llc | Gating model for video analysis |
US11363315B2 (en) * | 2019-06-25 | 2022-06-14 | At&T Intellectual Property I, L.P. | Video object tagging based on machine learning |
CN110543943B (zh) * | 2019-09-10 | 2022-03-25 | 北京百度网讯科技有限公司 | 一种网络融合方法及装置、电子设备、存储介质 |
US11455531B2 (en) * | 2019-10-15 | 2022-09-27 | Siemens Aktiengesellschaft | Trustworthy predictions using deep neural networks based on adversarial calibration |
US20210329306A1 (en) * | 2020-04-15 | 2021-10-21 | Nvidia Corporation | Video compression using neural networks |
SG10202006357UA (en) * | 2020-07-01 | 2020-09-29 | Alipay Labs Singapore Pte Ltd | A Document Identification Method and System |
US11776273B1 (en) * | 2020-11-30 | 2023-10-03 | Amazon Technologies, Inc. | Ensemble of machine learning models for automatic scene change detection |
CN114581966A (zh) * | 2020-11-30 | 2022-06-03 | 伊姆西Ip控股有限责任公司 | 用于信息处理的方法、电子设备和计算机程序产品 |
CN112528109B (zh) * | 2020-12-01 | 2023-10-27 | 科大讯飞(北京)有限公司 | 一种数据分类方法、装置、设备及存储介质 |
US20220253990A1 (en) * | 2021-02-10 | 2022-08-11 | Adobe Inc. | Media enhancement using discriminative and generative models with feedback |
US11748988B1 (en) | 2021-04-21 | 2023-09-05 | Amazon Technologies, Inc. | Shot contras five self-supervised learning of a plurality of machine learning models for video analysis applications |
EP4089574A1 (en) * | 2021-05-14 | 2022-11-16 | Fyma OÜ | A method and system for gathering information of an object moving in an area of interest |
KR102401955B1 (ko) | 2021-05-20 | 2022-05-25 | (주)에어패스 | Fsm 특성을 활용한 ar 스포츠 게임 콘텐츠 제공시스템 |
US11671551B2 (en) * | 2021-05-24 | 2023-06-06 | Sony Group Corporation | Synchronization of multi-device image data using multimodal sensor data |
US20230164389A1 (en) * | 2021-11-19 | 2023-05-25 | Qualcomm Incorporated | Analyzing Content Of A Media Presentation |
CN114419508A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 识别方法、训练方法、装置、设备及存储介质 |
US11804245B2 (en) * | 2022-01-21 | 2023-10-31 | Kyndryl, Inc. | Video data size reduction |
WO2023243754A1 (ko) * | 2022-06-17 | 2023-12-21 | 주식회사 엔씨소프트 | 지정된 모션이 캡쳐된 시점을 추출하는 전자 장치 및 방법 |
JP7487392B1 (ja) | 2023-10-06 | 2024-05-20 | セーフィー株式会社 | システム、方法、およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170078767A1 (en) | 2015-09-14 | 2017-03-16 | Logitech Europe S.A. | Video searching for filtered and tagged motion |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101311746A (zh) * | 2007-05-24 | 2008-11-26 | 李世雄 | 可示意障碍物距离的车用障碍物检测装置 |
US8706655B1 (en) * | 2011-06-03 | 2014-04-22 | Google Inc. | Machine learned classifiers for rating the content quality in videos using panels of human viewers |
US9118886B2 (en) * | 2012-07-18 | 2015-08-25 | Hulu, LLC | Annotating general objects in video |
TWI490827B (zh) * | 2013-05-13 | 2015-07-01 | Univ Nat Cheng Kung | 即時影片註記學習系統及其方法 |
US20150032449A1 (en) * | 2013-07-26 | 2015-01-29 | Nuance Communications, Inc. | Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition |
US9620169B1 (en) * | 2013-07-26 | 2017-04-11 | Dreamtek, Inc. | Systems and methods for creating a processed video output |
EP2833325A1 (en) | 2013-07-30 | 2015-02-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for resource-adaptive object detection and tracking |
US9330171B1 (en) * | 2013-10-17 | 2016-05-03 | Google Inc. | Video annotation using deep network architectures |
US10467287B2 (en) * | 2013-12-12 | 2019-11-05 | Google Llc | Systems and methods for automatically suggesting media accompaniments based on identified media content |
US20160080835A1 (en) * | 2014-02-24 | 2016-03-17 | Lyve Minds, Inc. | Synopsis video creation based on video metadata |
US9646227B2 (en) | 2014-07-29 | 2017-05-09 | Microsoft Technology Licensing, Llc | Computerized machine learning of interesting video sections |
US9176987B1 (en) * | 2014-08-26 | 2015-11-03 | TCL Research America Inc. | Automatic face annotation method and system |
US10303768B2 (en) | 2015-05-04 | 2019-05-28 | Sri International | Exploiting multi-modal affect and semantics to assess the persuasiveness of a video |
US20160378863A1 (en) * | 2015-06-24 | 2016-12-29 | Google Inc. | Selecting representative video frames for videos |
US10733979B2 (en) * | 2015-10-09 | 2020-08-04 | Google Llc | Latency constraints for acoustic modeling |
US20170140260A1 (en) | 2015-11-17 | 2017-05-18 | RCRDCLUB Corporation | Content filtering with convolutional neural networks |
US20170178346A1 (en) | 2015-12-16 | 2017-06-22 | High School Cube, Llc | Neural network architecture for analyzing video data |
US10381022B1 (en) * | 2015-12-23 | 2019-08-13 | Google Llc | Audio classifier |
US10390082B2 (en) * | 2016-04-01 | 2019-08-20 | Oath Inc. | Computerized system and method for automatically detecting and rendering highlights from streaming videos |
CN107273782B (zh) * | 2016-04-08 | 2022-12-16 | 微软技术许可有限责任公司 | 使用递归神经网络的在线动作检测 |
US9830516B1 (en) * | 2016-07-07 | 2017-11-28 | Videoken, Inc. | Joint temporal segmentation and classification of user activities in egocentric videos |
US20180018970A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Neural network for recognition of signals in multiple sensory domains |
WO2018048945A1 (en) * | 2016-09-06 | 2018-03-15 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
US10152637B2 (en) * | 2016-09-14 | 2018-12-11 | Canon Kabushiki Kaisha | Temporal segmentation of actions using context features |
US10430661B2 (en) | 2016-12-20 | 2019-10-01 | Adobe Inc. | Generating a compact video feature representation in a digital medium environment |
US10445582B2 (en) * | 2016-12-20 | 2019-10-15 | Canon Kabushiki Kaisha | Tree structured CRF with unary potential function using action unit features of other segments as context feature |
US11044520B2 (en) * | 2016-12-29 | 2021-06-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Handling of video segments in a video stream |
US20180204064A1 (en) * | 2017-01-19 | 2018-07-19 | Adrienne Rebecca Tran | Method and system for annotating video of test subjects for behavior classification and analysis |
US20200202171A1 (en) | 2017-05-14 | 2020-06-25 | Digital Reasoning Systems, Inc. | Systems and methods for rapidly building, managing, and sharing machine learning models |
US20180373980A1 (en) * | 2017-06-27 | 2018-12-27 | drive.ai Inc. | Method for training and refining an artificial intelligence |
CN107632961B (zh) * | 2017-07-12 | 2020-12-01 | 天津大学 | 基于全相位谱分析的多频内插迭代频率估计方法及估计器 |
US10509988B2 (en) * | 2017-08-16 | 2019-12-17 | Microsoft Technology Licensing, Llc | Crime scene analysis using machine learning |
US10628486B2 (en) * | 2017-11-15 | 2020-04-21 | Google Llc | Partitioning videos |
US10740394B2 (en) * | 2018-01-18 | 2020-08-11 | Oath Inc. | Machine-in-the-loop, image-to-video computer vision bootstrapping |
CN109389055B (zh) * | 2018-09-21 | 2021-07-20 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
US10846522B2 (en) * | 2018-10-16 | 2020-11-24 | Google Llc | Speaking classification using audio-visual data |
CN109218622A (zh) * | 2018-11-01 | 2019-01-15 | 华勤通讯技术有限公司 | 照片的生成方法和设备 |
EP3654249A1 (en) * | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11636681B2 (en) * | 2018-11-21 | 2023-04-25 | Meta Platforms, Inc. | Anticipating future video based on present video |
CN109740670B (zh) * | 2019-01-02 | 2022-01-11 | 京东方科技集团股份有限公司 | 视频分类的方法及装置 |
US10984246B2 (en) * | 2019-03-13 | 2021-04-20 | Google Llc | Gating model for video analysis |
US11151386B1 (en) * | 2020-03-04 | 2021-10-19 | Amazon Technologies, Inc. | Automated identification and tagging of video content |
CN111797771B (zh) * | 2020-07-07 | 2022-09-09 | 南京理工大学 | 一种基于迭代学习的弱监督视频行为检测方法及系统 |
-
2019
- 2019-03-13 US US16/352,605 patent/US10984246B2/en active Active
- 2019-09-27 WO PCT/US2019/053501 patent/WO2020185256A1/en unknown
- 2019-09-27 KR KR1020217006604A patent/KR102297393B1/ko active IP Right Grant
- 2019-09-27 JP JP2021514518A patent/JP7228682B2/ja active Active
- 2019-09-27 CN CN201980060091.9A patent/CN112740709B/zh active Active
- 2019-09-27 EP EP19790932.8A patent/EP3735777A1/en active Pending
-
2021
- 2021-03-30 US US17/216,925 patent/US11587319B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170078767A1 (en) | 2015-09-14 | 2017-03-16 | Logitech Europe S.A. | Video searching for filtered and tagged motion |
Non-Patent Citations (1)
Title |
---|
孟洋ほか,ニュース映像アーカイブにおけるキーショットの抽出と索引付け,電子情報通信学会技術研究報告,社団法人電子情報通信学会,2005年06月09日,Vol.105,No.118,pp.55-59 |
Also Published As
Publication number | Publication date |
---|---|
US20200293783A1 (en) | 2020-09-17 |
JP2022523606A (ja) | 2022-04-26 |
CN112740709A (zh) | 2021-04-30 |
US10984246B2 (en) | 2021-04-20 |
KR20210031756A (ko) | 2021-03-22 |
US20210216778A1 (en) | 2021-07-15 |
WO2020185256A1 (en) | 2020-09-17 |
KR102297393B1 (ko) | 2021-09-02 |
CN112740709B (zh) | 2023-08-29 |
EP3735777A1 (en) | 2020-11-11 |
US11587319B2 (en) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7228682B2 (ja) | 動画解析のためのゲーティングモデル | |
US11231838B2 (en) | Image display with selective depiction of motion | |
US10599391B2 (en) | Parsing electronic conversations for presentation in an alternative interface | |
US11949848B2 (en) | Techniques to capture and edit dynamic depth images | |
US11641445B2 (en) | Personalized automatic video cropping | |
US20150130816A1 (en) | Computer-implemented methods and systems for creating multimedia animation presentations | |
US20240214542A1 (en) | Techniques to capture and edit dynamic depth images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210708 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7228682 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |