JP7096431B2 - ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 - Google Patents
ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 Download PDFInfo
- Publication number
- JP7096431B2 JP7096431B2 JP2021521512A JP2021521512A JP7096431B2 JP 7096431 B2 JP7096431 B2 JP 7096431B2 JP 2021521512 A JP2021521512 A JP 2021521512A JP 2021521512 A JP2021521512 A JP 2021521512A JP 7096431 B2 JP7096431 B2 JP 7096431B2
- Authority
- JP
- Japan
- Prior art keywords
- offset
- information
- feature
- video
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 180
- 238000000034 method Methods 0.000 title claims description 82
- 238000012549 training Methods 0.000 title claims description 47
- 238000012545 processing Methods 0.000 claims description 124
- 238000000605 extraction Methods 0.000 claims description 100
- 230000008569 process Effects 0.000 claims description 46
- 230000008878 coupling Effects 0.000 claims description 31
- 238000010168 coupling process Methods 0.000 claims description 31
- 238000005859 coupling reaction Methods 0.000 claims description 31
- 230000004913 activation Effects 0.000 claims description 27
- 238000003012 network analysis Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Description
本願は、2020年1月17日に提出された出願番号が202010053048.4である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
前記オフセット処理モジュールは、所定の次元に従って、第1多次元特徴マップから少なくとも1組の特徴情報を選択し、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含み、前記オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うように構成される。
前記オフセット情報は、第1数のオフセット値を含み、前記少なくとも1組の特徴情報は、第1数の組の第1特徴情報を含み、
前記オフセット処理モジュールは、前記オフセット情報におけるi番目の前記オフセット値を用いて、第i組の前記第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得るように構成され、前記iは、第1数以下の正整数である。
(1)
はそれぞれ、多次元にける時系列次元及び多次元における所定の次元(所定の次元は例えば、チャネル次元であってもよい)を表し、
は、ダウンサンプリング結果における
番目の要素を表し、
はそれぞれ、特徴マップの高さ及び幅を表し、
は、第1多次元特徴マップにおける
番目の要素を表す。
は、ダウンサンプリング結果を表し、
は、オフセット予測ネットワークの畳み込み層を表し、
は、オフセット予測ネットワークの1番目の全結合層を表し、
は、オフセット予測ネットワークの1番目の活性化層を表し、
は、オフセット予測ネットワークの2番目の全結合層を表し、
は、オフセット予測ネットワークの2番目の活性化層を表し、
は、オフセット情報を表す。
に制限することもできる。ここで、Tは、分析対象ビデオのフレーム数を表す。具体的には、オフセット予測ネットワークの2番目の活性化層を用いて特徴結合結果に対して非線形処理を行うことで得られたオフセット情報における各要素から0.5をそれぞれ減算し、0.5を減算した後に得られた差に分析対象ビデオのフレーム数を乗算し、制限処理されたオフセット情報を得ることができる。上記制限処理は具体的には、以下で表されてもよい。
(3)
であり、チャネル次元における上記少なくとも一部の特徴情報のチャネル数は、
である。また、オフセット情報を用いて第1多次元特徴マップの全ての特徴情報に対して時系列オフセットを行うこともでき、ここで限定しない。
である少なくとも一部の特徴情報に対して時系列オフセットを行うことで得られた特徴情報と時系列オフセットされていない、チャネル数が
である一部の特徴情報とを連結し、第2多次元特徴マップを得ることができる。
は、その数値範囲が、
で表されてもよく、且つ
である。例えば、オフセット値が0.8である場合、その数値範囲は、0から1である。又は、オフセット値が1.4である場合、その数値範囲は、1から2である。オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。上記方式により、オフセット値が小数である場合、後続の時系列オフセットの処理プロセスを簡略化することができる。
で表されてもよく、i番目のオフセット値の数値範囲が
で表される場合、第i組の第1特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットすることで得られた第i組の第3特徴情報は、
で表されてもよい。第i組の第1特徴情報を時系列次元に沿って下限値個の時系列単位でオフセットすることで得られた第i組の第4特徴情報は、
で表されてもよい。
にとって、対応する第3特徴情報は、
で表されてもよく、対応する第4特徴情報は、
で表されてもよい。また、時系列次元での、第1特徴情報の範囲は、
である。ここで、Tの値は、分析対象ビデオのフレーム数に等しい。例えば、第1特徴情報
のTは、8であり、第1特徴情報は、時系列オフセット過程において特徴情報が移り出されたことによりゼロベクトルに変わる可能性があり、それによって訓練過程において勾配消失の場合があり、該問題を軽減するために、時系列オフセット後に
時系列区間及び
時系列区間にある特徴情報のために、バッファ領域を設けることができる。これにより、特徴情報は時系列でT+1時刻からオフセットされるか又は0時刻未満である場合、バッファ領域を0に固定することができる。例えば、第1特徴情報
が
であることを例として、i番目のオフセット値が0.4である場合、それが属する数値範囲が0から1であるため、第1特徴情報を上限値個(即ち、1個)の時系列単位でオフセットし、対応する第3特徴情報
を得て、上記第1特徴情報を下限値個(即ち、0個)の時系列単位でオフセットし、対応する第4特徴情報
を得る。第1特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。
で表されることを例として、i番目のオフセット値の数値範囲が
で表される時、i番目のオフセット値
と下限値(即ち、
)との差(即ち、
)を重みとして、第i組の第3特徴情報(即ち、
)に対して重み付け処理を行い、対応する第1重み付け結果(即ち、
)を得て、上限値(即ち、
)とi番目のオフセット値
との差(即ち、
)を重みとして、第i組の第4特徴情報(
)に対して重み付け処理を行い、対応する第2重み付け結果(即ち、
)を得る。
にとって、対応する第3特徴情報は、
で表されてもよく、対応する第4特徴情報は、
で表されてもよい。これにより、第1重み付け結果は、
で表されてもよく、第2重み付け結果は、
で表されてもよい。同じく第1特徴情報
が一次元ベクトル
で表されることを例として、i番目のオフセット値が0.4である場合、対応する第3特徴情報は、
で表されてもよく、対応する第4特徴情報は、
で表されてもよい。従って、第1重み付け結果は、
で表されてもよく、第2重み付け結果は、
で表されてもよい。第1特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。
にとって、第1重み付け結果は、
で表されてもよく、第2重み付け結果は、
で表されてもよい。従って、第i組の第2特徴情報は、
で表されてもよい。依然として第1特徴情報
が一次元ベクトル
で表されることを例として、i番目のオフセット値が0.4である場合、対応する第1重み付け結果は、
で表されてもよく、対応する第2重み付け結果は、
で表されてもよい。従って、第i組の第2特徴情報は、
で表されてもよい。第1特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。
を例として、重み情報は、
であってもよい。従って、重み情報におけるj番目の重みをそれぞれ用いて、上記特徴情報におけるj番目の時系列に対応する特徴値に対して重み付け処理を行った後、対応する特徴情報
を得る。オフセット後の特徴情報、重み情報は他の数値である場合、このように類推することができ、ここで枚挙しない。
ビデオ取得モジュール81は、分析対象ビデオを取得するように構成され、
特徴抽出モジュール82は、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得るように構成され、第1多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含み、
オフセット予測モジュール83は、オフセット予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、
オフセット処理モジュール84は、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2多次元特徴マップを得るように構成され、
ネットワーク分析モジュール85は、所定のネットワークモデルを用いて第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成される。
オフセット処理モジュール84は、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得るように構成される。
オフセット予測モジュール83は更に、オフセット予測ネットワークを用いて新たな第1多次元特徴マップに対して予測を行い、新たなオフセット情報を得るように構成され、
オフセット処理モジュール84は更に、新たなオフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて、新たな第2多次元特徴マップを得るように構成され、
ネットワーク分析モジュール85は更に、所定のネットワークモデルの全結合層を用いて新たな第2多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得るように構成される。
ビデオ取得モジュール91は、サンプルビデオを取得ように構成され、サンプルビデオは、所定のアノテーション情報を含み、
特徴抽出モジュール92は、所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得るように構成され、第1サンプルの多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含み、
オフセット予測モジュール93は、オフセット予測ネットワークを用いて第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、
オフセット処理モジュール94は、オフセット情報を用いて第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2サンプルの多次元特徴マップを得るように構成され、
ネットワーク分析モジュール95は、所定のネットワークモデルを用いて第2サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得るように構成され、
損失算出モジュール96は、所定のアノテーション情報及び分析結果情報を用いて損失値を算出するように構成され、
パラメータ調整モジュール97は、損失値に基づいて、所定のネットワークモデル及びオフセット予測ネットワークのパラメータを調整するように構成される。
Claims (17)
- ビデオ分析方法であって、
分析対象ビデオを取得することと、
所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることであって、前記第1多次元特徴マップは、前記分析対象ビデオに対応する異なる時系列における特徴情報を含む、ことと、
オフセット予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、オフセット情報を得ることと、
前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得ることと、
前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることと、を含む、ビデオ分析方法。 - 前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得る前に、前記方法は、
重み予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、重み情報を得ることを更に含み、
前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得ることは、
前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことと、
前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことと、
前記重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得ることと、を含むことを特徴とする
請求項1に記載のビデオ分析方法。 - 前記第1多次元特徴マップの次元は、時系列次元及び所定の次元を含み、
前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことは、
所定の次元に従って、第1多次元特徴マップから少なくとも1組の特徴情報を選択することであって、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含む、ことと、
前記オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うことと、を含むことを特徴とする
請求項1又は2に記載のビデオ分析方法。 - 前記所定の次元は、チャネル次元であり、及び/又は、
前記オフセット情報は、第1数のオフセット値を含み、前記少なくとも1組の特徴情報は、第1数の組の第1特徴情報を含み、
前記オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うことは、
前記オフセット情報におけるi番目の前記オフセット値を用いて、第i組の前記第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得ることであって、前記iは、前記第1数以下の正整数である、ことを含むことを特徴とする
請求項3に記載のビデオ分析方法。 - 前記オフセット情報におけるi番目の前記オフセット値を用いて、第i組の前記第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得ることは、
i番目の前記オフセット値が属する数値範囲を取得することであって、前記数値範囲の上限値と下限値との差が所定の数値である、ことと、
第i組の前記第1特徴情報を前記時系列次元に沿って前記上限値個の時系列単位でオフセットし、第i組の第3特徴情報を得て、第i組の前記第1特徴情報を前記時系列次元に沿って前記下限値個の時系列単位でオフセットし、第i組の第4特徴情報を得ることと、
i番目の前記オフセット値と前記下限値との差を重みとして、第i組の前記第3特徴情報に対して重み付け処理を行い、第i組の第1重み付け結果を得て、前記上限値と前記i番目のオフセット値との差を重みとして、第i組の前記第4特徴情報に対して重み付け処理を行い、第i組の第2重み付け結果を得ることと、
前記第i組の第1重み付け結果と第i組の第2重み付け結果との和を算出して第i組の前記第2特徴情報とすることと、を含むことを特徴とする
請求項4に記載のビデオ分析方法。 - 前記分析対象ビデオは、第2数のフレームの画像を含み、前記重み情報は、第2数の重み値を含み、
前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことは、
オフセット後の各組の特徴情報に対して、前記重み情報におけるj番目の重み値をそれぞれ用いて、現在組の特徴情報におけるj番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得ることを含み、
前記jは、前記第2数以下の正整数であることを特徴とする
請求項3に記載のビデオ分析方法。 - 重み付け処理後の前記特徴情報に基づいて、第2多次元特徴マップを得ることは、
前記重み付け処理後の前記特徴情報及び前記第1多次元特徴におけるオフセットされていない特徴情報を用いて、前記第2多次元特徴マップを構成することを含むことを特徴とする
請求項2から6のうちいずれか一項に記載のビデオ分析方法。 - 重み予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、重み情報を得ることは、
前記重み予測ネットワークの第1ダウンサンプリング層を用いて、前記第1多次元特徴マップに対してダウンサンプリングを行い、第1ダウンサンプリング結果を得ることと、
前記重み予測ネットワークの第1畳み込み層を用いて、前記第1ダウンサンプリング結果に対して畳み込み処理を行い、第1特徴抽出結果を得ることと、
前記重み予測ネットワークの第1活性化層を用いて前記第1特徴抽出結果に対して非線形処理を行い、前記重み情報を得ることと、を含むことを特徴とする
請求項2から6のうちいずれか一項に記載のビデオ分析方法。 - オフセット予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、オフセット情報を得ることは、
前記オフセット予測ネットワークの第2ダウンサンプリング層を用いて、前記第1多次元特徴マップに対してダウンサンプリングを行い、第2ダウンサンプリング結果を得ることと、
前記オフセット予測ネットワークの第2畳み込み層を用いて、前記第2ダウンサンプリング結果に対して畳み込み処理を行い、第2特徴抽出結果を得ることと、
前記オフセット予測ネットワークの第1全結合層を用いて、前記第2特徴抽出結果に対して特徴結合を行い、第1特徴結合結果を得ることと、
前記オフセット予測ネットワークの第2活性化層を用いて、前記第1特徴結合結果に対して非線形処理を行い、非線形処理結果を得ることと、
前記オフセット予測ネットワークの第2全結合層を用いて前記非線形処理結果に対して特徴結合を行い、第2特徴結合結果を得ることと、
前記オフセット予測ネットワークの第3活性化層を用いて前記第2特徴結合結果に対して非線形処理を行い、前記オフセット情報を得ることと、を含むことを特徴とする
請求項1から6のうちいずれか一項に記載のビデオ分析方法。 - 前記所定のネットワークモデルは、少なくとも1つの畳み込み層を含み、所定のネットワークモデルを用いて、前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることは、
所定のネットワークモデルの畳み込み層を用いて、前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることと、
前記所定のネットワークモデルの畳み込み層の数が1より大きい場合、第2多次元特徴マップを得た後、且つ前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得る前に、前記方法は、
前記所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、前記第2多次元特徴マップに対して特徴抽出を行い、新たな第1多次元特徴マップを得ることと、
オフセット予測ネットワークを用いて前記新たな第1多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第2多次元特徴マップを得ることと、
を繰り返して実行し、前記所定のネットワークモデルの全ての畳み込み層で新たな第2多次元特徴マップの特徴抽出ステップを完了するまで継続することと、を含み、
前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることは、
前記所定のネットワークモデルの全結合層を用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることを含むことを特徴とする
請求項1から6のうちいずれか一項に記載のビデオ分析方法。 - 前記分析対象ビデオは、複数フレームの画像を含み、所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることは、
前記所定のネットワークモデルを用いて、前記複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得ることと、
前記複数の特徴マップを、前記対応する画像の分析対象ビデオにおける時系列に従って連結し、前記第1多次元特徴マップを得ることと、を含むことを特徴とする
請求項1から6のうちいずれか一項に記載のビデオ分析方法。 - ビデオ分析のためのモデル訓練方法であって、
サンプルビデオを取得することであって、前記サンプルビデオは、所定のアノテーション情報を含む、ことと、
所定のネットワークモデルを用いて前記サンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得ることであって、前記第1サンプルの多次元特徴マップは、前記サンプルビデオに対応する異なる時系列における特徴情報を含む、ことと、
オフセット予測ネットワークを用いて前記第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得ることと、
前記オフセット情報を用いて前記第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2サンプルの多次元特徴マップを得ることと、
前記所定のネットワークモデルを用いて前記第2サンプルの多次元特徴マップを分析し、前記サンプルビデオの分析結果情報を得ることと、
前記所定のアノテーション情報及び前記分析結果情報を用いて損失値を算出することと、
前記損失値に基づいて、前記所定のネットワークモデル及び前記オフセット予測ネットワークのパラメータを調整することと、を含む、ビデオ分析のためのモデル訓練方法。 - ビデオ分析装置であって、
分析対象ビデオを取得するように構成されるビデオ取得モジュールと、
所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得るように構成される特徴抽出モジュールであって、前記第1多次元特徴マップは、前記分析対象ビデオに対応する異なる時系列における特徴情報を含む、特徴抽出モジュールと、
オフセット予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、オフセット情報を得るように構成されるオフセット予測モジュールと、
前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得るように構成されるオフセット処理モジュールと、
前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成されるネットワーク分析モジュールと、を備える、ビデオ分析装置。 - ビデオ分析のためのモデル訓練装置であって、
サンプルビデオを取得ように構成されるビデオ取得モジュールであって、前記サンプルビデオは、所定のアノテーション情報を含む、ビデオ取得モジュールと、
所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得るように構成される特徴抽出モジュールであって、前記第1サンプルの多次元特徴マップは、前記サンプルビデオに対応する異なる時系列における特徴情報を含む、特徴抽出モジュールと、
オフセット予測ネットワークを用いて前記第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るように構成されるオフセット予測モジュールと、
前記オフセット情報を用いて前記第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2サンプルの多次元特徴マップを得るように構成されるオフセット処理モジュールと、
前記所定のネットワークモデルを用いて前記第2サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得るように構成されるネットワーク分析モジュールと、
前記所定のアノテーション情報及び前記分析結果情報を用いて損失値を算出するように構成される損失算出モジュールと、
前記損失値に基づいて、前記所定のネットワークモデル及び前記オフセット予測ネットワークのパラメータを調整するように構成されるパラメータ調整モジュールと、を備える、ビデオ分析のためのモデル訓練装置。 - 電子機器であって、前記電子機器は、互いに接続されるメモリ及びプロセッサを備え、前記プロセッサは、前記メモリに記憶されたプログラム命令を実行し、請求項1から11のうちいずれか一項に記載のビデオ分析方法を実現し、又は、請求項12に記載のビデオ分析のためのモデル訓練方法を実現するように構成される、電子機器。
- コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にプログラム命令が記憶されており、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに、請求項1から11のうちいずれか一項に記載のビデオ分析方法を実現させ、又は、請求項12に記載のビデオ分析のためのモデル訓練方法を実現させる、コンピュータ可読記憶媒体。
- コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサに、請求項1から11のうちいずれか一項に記載のビデオ分析方法を実行させ、又は、請求項12に記載のビデオ分析のためのモデル訓練方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010053048.4A CN111291631B (zh) | 2020-01-17 | 2020-01-17 | 视频分析方法及其相关的模型训练方法、设备、装置 |
CN202010053048.4 | 2020-01-17 | ||
PCT/CN2020/078656 WO2021142904A1 (zh) | 2020-01-17 | 2020-03-10 | 视频分析方法及其相关的模型训练方法、设备、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022520511A JP2022520511A (ja) | 2022-03-31 |
JP7096431B2 true JP7096431B2 (ja) | 2022-07-05 |
Family
ID=71025430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021521512A Active JP7096431B2 (ja) | 2020-01-17 | 2020-03-10 | ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP7096431B2 (ja) |
KR (1) | KR20210093875A (ja) |
CN (1) | CN111291631B (ja) |
TW (1) | TWI761813B (ja) |
WO (1) | WO2021142904A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695519B (zh) * | 2020-06-12 | 2023-08-08 | 北京百度网讯科技有限公司 | 关键点定位方法、装置、设备以及存储介质 |
CN112417952B (zh) * | 2020-10-10 | 2022-11-11 | 北京理工大学 | 一种车辆碰撞防控系统的环境视频信息可用性测评方法 |
CN112464898A (zh) * | 2020-12-15 | 2021-03-09 | 北京市商汤科技开发有限公司 | 事件检测方法及装置、电子设备和存储介质 |
CN112949449B (zh) * | 2021-02-25 | 2024-04-19 | 北京达佳互联信息技术有限公司 | 交错判断模型训练方法及装置和交错图像确定方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199902A (zh) | 2014-08-27 | 2014-12-10 | 中国科学院自动化研究所 | 一种线性动态系统的相似性度量计算方法 |
US20170243058A1 (en) | 2014-10-28 | 2017-08-24 | Watrix Technology | Gait recognition method based on deep learning |
CN108229280A (zh) | 2017-04-20 | 2018-06-29 | 北京市商汤科技开发有限公司 | 时域动作检测方法和系统、电子设备、计算机存储介质 |
CN108229522A (zh) | 2017-03-07 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、属性检测方法、装置及电子设备 |
US20190013798A1 (en) | 2017-07-06 | 2019-01-10 | Analog Photonics LLC | Laser frequency chirping structures, methods, and applications |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626803B2 (en) * | 2014-12-12 | 2017-04-18 | Qualcomm Incorporated | Method and apparatus for image processing in augmented reality systems |
WO2019035854A1 (en) * | 2017-08-16 | 2019-02-21 | Kla-Tencor Corporation | MACHINE LEARNING IN RELATION TO METROLOGY MEASUREMENTS |
US10395114B1 (en) * | 2018-04-20 | 2019-08-27 | Surfline\Wavetrak, Inc. | Automated detection of features and/or parameters within an ocean environment using image data |
CN109919025A (zh) * | 2019-01-30 | 2019-06-21 | 华南理工大学 | 基于深度学习的视频场景文本检测方法、系统、设备及介质 |
CN110084742B (zh) * | 2019-05-08 | 2024-01-26 | 北京奇艺世纪科技有限公司 | 一种视差图预测方法、装置及电子设备 |
CN110660082B (zh) * | 2019-09-25 | 2022-03-08 | 西南交通大学 | 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法 |
-
2020
- 2020-01-17 CN CN202010053048.4A patent/CN111291631B/zh active Active
- 2020-03-10 JP JP2021521512A patent/JP7096431B2/ja active Active
- 2020-03-10 WO PCT/CN2020/078656 patent/WO2021142904A1/zh active Application Filing
- 2020-03-10 KR KR1020217013635A patent/KR20210093875A/ko unknown
- 2020-04-21 TW TW109113378A patent/TWI761813B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199902A (zh) | 2014-08-27 | 2014-12-10 | 中国科学院自动化研究所 | 一种线性动态系统的相似性度量计算方法 |
US20170243058A1 (en) | 2014-10-28 | 2017-08-24 | Watrix Technology | Gait recognition method based on deep learning |
CN108229522A (zh) | 2017-03-07 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络的训练方法、属性检测方法、装置及电子设备 |
CN108229280A (zh) | 2017-04-20 | 2018-06-29 | 北京市商汤科技开发有限公司 | 时域动作检测方法和系统、电子设备、计算机存储介质 |
US20190013798A1 (en) | 2017-07-06 | 2019-01-10 | Analog Photonics LLC | Laser frequency chirping structures, methods, and applications |
Also Published As
Publication number | Publication date |
---|---|
CN111291631A (zh) | 2020-06-16 |
TWI761813B (zh) | 2022-04-21 |
TW202129535A (zh) | 2021-08-01 |
CN111291631B (zh) | 2023-11-07 |
KR20210093875A (ko) | 2021-07-28 |
JP2022520511A (ja) | 2022-03-31 |
WO2021142904A1 (zh) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7096431B2 (ja) | ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 | |
WO2023207163A1 (zh) | 用于消防通道占用目标检测的目标检测模型、方法及应用 | |
WO2020256704A1 (en) | Real-time video ultra resolution | |
CA3066029A1 (en) | Image feature acquisition | |
WO2022104202A1 (en) | A temporal bottleneck attention architecture for video action recognition | |
US20230048405A1 (en) | Neural network optimization method and apparatus | |
CN109543112A (zh) | 一种基于循环卷积神经网络的序列推荐方法及装置 | |
CN112801063B (zh) | 神经网络系统和基于神经网络系统的图像人群计数方法 | |
CN112883227B (zh) | 一种基于多尺度时序特征的视频摘要生成方法和装置 | |
CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
CN113780584A (zh) | 标签预测方法、设备、存储介质及程序产品 | |
WO2022088411A1 (zh) | 图像检测及相关模型训练方法、装置、设备、介质及程序 | |
CN117237756A (zh) | 一种训练目标分割模型的方法、目标分割方法及相关装置 | |
CN109508640A (zh) | 一种人群情感分析方法、装置和存储介质 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN112651267A (zh) | 识别方法、模型训练、系统及设备 | |
CN116361643A (zh) | 实现对象推荐的模型训练方法及对象推荐方法及相关装置 | |
CN112926517B (zh) | 一种人工智能监控方法 | |
CN114758190A (zh) | 训练图像识别模型的方法、图像识别方法、装置和农机 | |
CN110879952B (zh) | 一种视频帧序列的处理方法及装置 | |
CN113256556A (zh) | 一种图像选择方法及装置 | |
Seetharam | Structured Disentangling Networks for Learning Deformation Invariant Latent Spaces | |
CN114868124B (zh) | 控制方法、信息处理装置以及控制程序 | |
Roman | From Hand-crafted to Self-attention-No-reference or Blind Image Quality Assessment | |
Junsong et al. | Lightweight Steel Bar Detection Network Based on YOLOv5 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210420 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096431 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |