JP7096431B2 - ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 - Google Patents

ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 Download PDF

Info

Publication number
JP7096431B2
JP7096431B2 JP2021521512A JP2021521512A JP7096431B2 JP 7096431 B2 JP7096431 B2 JP 7096431B2 JP 2021521512 A JP2021521512 A JP 2021521512A JP 2021521512 A JP2021521512 A JP 2021521512A JP 7096431 B2 JP7096431 B2 JP 7096431B2
Authority
JP
Japan
Prior art keywords
offset
information
feature
video
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021521512A
Other languages
English (en)
Other versions
JP2022520511A (ja
Inventor
ハオ シャオ
イー リュー
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2022520511A publication Critical patent/JP2022520511A/ja
Application granted granted Critical
Publication of JP7096431B2 publication Critical patent/JP7096431B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本願は、2020年1月17日に提出された出願番号が202010053048.4である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、人工知能技術分野に関し、特にビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置に関する。
ニューラルネットワーク、深層学習などの人工知能技術の成長に伴い、ニューラルネットワークモデルを訓練し、訓練後のニューラルネットワークモデルを用いて分類、検出などのタスクを遂行するという方式は、ますます注目を集めている。
現在、ニューラルネットワークモデルは一般的には、静止画像を処理対象として設計されたものである。
本願の実施例は、ビデオ分析方法及び関連するモデル訓練方法、機器、装置を提供する。
第1態様によれば、本願の実施例は、ビデオ分析方法を提供する。前記方法は、分析対象ビデオを取得することと、所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることであって、前記第1多次元特徴マップは、前記分析対象ビデオに対応する異なる時系列における特徴情報を含む、ことと、オフセット予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、オフセット情報を得ることと、前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得ることと、前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることと、を含む。
本願の実施例は、所定のネットワークモデルにより、分析対象ビデオを処理することで、ビデオ分析の処理速度の向上に寄与し、且つ時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、ビデオ分析の正確度の向上に寄与する。
本願の幾つかの選択可能な実施例において、オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得る前に、前記方法は、重み予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、重み情報を得ることを更に含み、前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得ることは、前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことと、前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことと、前記重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得ることと、を含む。
本願の実施例の技術的解決手段は、オフセット、重み付け処理ステップにより、空間と時系列を互いに交錯させた特徴情報を直接得ることができ、ビデオ分析の処理速度及び正確度の向上に寄与する。
本願の幾つかの選択可能な実施例において、前記第1多次元特徴マップの次元は、時系列次元及び所定の次元を含み、オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことは、所定の次元に従って、第1多次元特徴マップから少なくとも1組の特徴情報を選択することであって、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含む、ことと、前記オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うことと、を含む。
本願の実施例の技術的解決手段は、所定の次元に従って第1多次元特徴マップから少なくとも1組の特徴情報を選択し、且つ各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含む。また、オフセット情報を用いて、少なくとも1組の特徴情報に対して、時系列次元でオフセットを行う。従って、オフセット処理の演算量を低減させ、ビデオ分析の処理速度の向上に更に寄与する。
本願の幾つかの選択可能な実施例において、前記所定の次元は、チャネル次元であり、及び/又は、前記オフセット情報は、第1数のオフセット値を含み、前記少なくとも1組の特徴情報は、第1数の組の第1特徴情報を含み、オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うことは、前記オフセット情報におけるi番目のオフセット値を用いて、第i組の第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得ることであって、iは、第1数以下の正整数である、ことを含む。
本願の実施例の技術的解決手段は、オフセット情報に含まれるオフセット値の数と同じである数の組の第1特徴情報に対してオフセット処理を行うことで、空間と時系列を互いに交錯させた特徴情報を直接得ることができ、ビデオ分析の処理速度及び正確度の向上に寄与する。
本願の幾つかの選択可能な実施例において、オフセット情報におけるi番目の前記オフセット値を用いて、第i組の前記第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得ることは、i番目の前記オフセット値が属する数値範囲を取得することであって、前記数値範囲の上限値と下限値との差が所定の数値である、ことと、第i組の前記第1特徴情報を前記時系列次元に沿って前記上限値個の時系列単位でオフセットし、第i組の第3特徴情報を得て、第i組の前記第1特徴情報を前記時系列次元に沿って前記下限値個の時系列単位でオフセットし、第i組の第4特徴情報を得ることと、i番目の前記オフセット値と前記下限値との差を重みとして、第i組の前記第3特徴情報に対して重み付け処理を行い、第i組の第1重み付け結果を得て、前記上限値とi番目のオフセット値との差を重みとして、第i組の前記第4特徴情報に対して重み付け処理を行い、第i組の第2重み付け結果を得ることと、第i組の第1重み付け結果と第i組の第2重み付け結果との和を算出して第i組の第2特徴情報とすることと、を含む。
本願の実施例の技術的解決手段は、第1特徴情報に対してオフセット処理を容易かつ迅速に行うことができ、ビデオ分析の処理速度の向上に寄与する。
本願の幾つかの選択可能な実施例において、前記分析対象ビデオは、第2数のフレームの画像を含み、前記重み情報は、第2数の重み値を含み、重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことは、オフセット後の各組の特徴情報に対して、前記重み情報におけるj番目の重み値をそれぞれ用いて、現在組の特徴情報におけるj番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得ることを含み、jは、第2数以下の正整数である。
本願の実施例の技術的解決手段は、オフセット後の各組の特徴情報に対して、重み情報のうちのj番目の重み値をそれぞれ用いて、現在組の特徴情報におけるj番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得る。これにより、末端の幾つかの特徴情報が移り出された場合、特徴情報を再重み付けすることができ、ビデオ分析の正確性の向上に寄与する。
本願の幾つかの選択可能な実施例において、重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得ることは、前記重み付け処理後の前記特徴情報及び前記第1多次元特徴におけるオフセットされていない特徴情報を用いて、前記第2多次元特徴マップを構成することを含む。
本願の実施例の技術的解決手段は、重み付け処理後の特徴情報と第1多次元特徴マップにおけるオフセットされていない特徴情報を組み合わせて第2多次元特徴情報を構成することで、演算負荷を低減させることができ、ビデオ分析の処理速度の向上に寄与する。
本願の幾つかの選択可能な実施例において、重み予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、重み情報を得ることは、前記重み予測ネットワークの第1ダウンサンプリング層を用いて、前記第1多次元特徴マップに対してダウンサンプリングを行い、第1ダウンサンプリング結果を得ることと、前記重み予測ネットワークの第1畳み込み層を用いて、前記第1ダウンサンプリング結果に対して畳み込み処理を行い、第1特徴抽出結果を得ることと、前記重み予測ネットワークの第1活性化層を用いて前記第1特徴抽出結果に対して非線形処理を行い、重み情報を得ることと、を含む。
本願の実施例の技術的解決手段は、第1ダウンサンプリング層、第1畳み込み層及び第1活性化層により、第1多次元特徴マップに対して段階的に層毎の処理を行うことで、重み情報を得ることができ、重み予測ネットワークのネットワーク構造を効果的に簡略化し、ネットワークパラメータを減少させることができ、ビデオ分析用モデルを訓練する時の収束速度の向上に寄与し、オーバーフィッティングの回避に寄与する。従って、ビデオ分析の正確性の向上に寄与する。
本願の幾つかの選択可能な実施例において、オフセット予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、オフセット情報を得ることは、前記オフセット予測ネットワークの第2ダウンサンプリング層を用いて、前記第1多次元特徴マップに対してダウンサンプリングを行い、第2ダウンサンプリング結果を得ることと、前記オフセット予測ネットワークの第2畳み込み層を用いて、前記第2ダウンサンプリング結果に対して畳み込み処理を行い、第2特徴抽出結果を得ることと、前記オフセット予測ネットワークの第1全結合層を用いて、前記第2特徴抽出結果に対して特徴結合を行い、第1特徴結合結果を得ることと、前記オフセット予測ネットワークの第2活性化層を用いて、前記第1特徴結合結果に対して非線形処理を行い、非線形処理結果を得ることと、前記オフセット予測ネットワークの第2全結合層を用いて前記非線形処理結果に対して特徴結合を行い、第2特徴結合結果を得ることと、前記オフセット予測ネットワークの第3活性化層を用いて前記第2特徴結合結果に対して非線形処理を行い、オフセット情報を得ることと、を含む。
本願の技術的解決手段は、オフセット予測ネットワークのネットワーク構造を効果的に簡略化し、ネットワークパラメータを減少させることができ、ビデオ分析用モデルを訓練する時の収束速度の向上に寄与し、オーバーフィッティングの回避に寄与する。従って、ビデオ分析の正確性の向上に寄与する。
本願の幾つかの選択可能な実施例において、前記所定のネットワークモデルは、少なくとも1つの畳み込み層を含み、所定のネットワークモデルを用いて、分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることは、所定のネットワークモデルの畳み込み層を用いて、前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることと、前記所定のネットワークモデルの畳み込み層の数が1より大きい場合、第2多次元特徴マップを得た後、所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得る前に、前記方法は、前記所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、前記第2多次元特徴マップに対して特徴抽出を行い、新たな第1多次元特徴マップを得ることと、オフセット予測ネットワークを用いて前記新たな第1多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第2多次元特徴マップを得ることと、を繰り返して実行し、前記所定のネットワークモデルの全ての畳み込み層で新たな第2多次元特徴マップの特徴抽出ステップを完了するまで継続することと、を含み、前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることは、前記所定のネットワークモデルの全結合層を用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることを含む。
本願の実施例の技術的解決手段は、所定のネットワークモデルに含まれる畳み込み層の数が1より大きい場合、所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて第2多次元特徴マップに対して特徴抽出を行い、新たな第1多次元特徴マップを得て、オフセット予測などのステップを再実行し、所定のネットワークモデルにおける全ての畳み込み層で新たな第2多次元特徴マップの特徴抽出ステップを完了するまで継続する。これにより、所定のネットワークモデルの全結合層を用いて第2多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得る。更に、ビデオ分析の正確性を向上させることができる。
本願の幾つかの選択可能な実施例において、前記分析対象ビデオは、複数フレームの画像を含み、所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることは、前記所定のネットワークモデルを用いて、前記複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得ることと、前記複数の特徴マップを、前記対応する画像の分析対象ビデオにおける時系列に従って連結し、前記第1多次元特徴マップを得ることと、を含む。
本願の実施例の技術的解決手段は、所定のネットワークモデルにより、分析対象ビデオの複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得る。これにより、複数の特徴マップを、対応する画像の分析対象ビデオにおける時系列に従って直接連結し、第1多次元特徴マップを得る。分析対象ビデオに対する特徴抽出の処理負荷を低減させることができ、ビデオ分析の処理速度の向上に寄与する。
第2態様によれば、本願の実施例は、ビデオ分析のためのモデル訓練方法を提供する。該方法は、サンプルビデオを取得することであって、前記サンプルビデオは、所定のアノテーション情報を含む、ことと、所定のネットワークモデルを用いて前記サンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得ることであって、前記第1サンプルの多次元特徴マップは、前記サンプルビデオに対応する異なる時系列における特徴情報を含む、ことと、オフセット予測ネットワークを用いて前記第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得ることと、前記オフセット情報を用いて前記第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2サンプルの多次元特徴マップを得ることと、前記所定のネットワークモデルを用いて前記第2サンプルの多次元特徴マップを分析し、前記サンプルビデオの分析結果情報を得ることと、前記所定のアノテーション情報及び前記分析結果情報を用いて損失値を算出することと、前記損失値に基づいて、前記所定のネットワークモデル及び前記オフセット予測ネットワークのパラメータを調整することと、を含む。
本願の実施例の技術的解決手段は、サンプルビデオの時系列情報に対してモデリングを直接行うことができ、モデル訓練時の速度の向上に寄与し、また、時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、後続で、ビデオ分析の正確度の向上に寄与する。
第3態様によれば、本願の実施例は、ビデオ分析装置を提供する。該装置は、ビデオ取得モジュールと、特徴抽出モジュールと、オフセット予測モジュールと、オフセット処理モジュールと、ネットワーク分析モジュールと、を備え、前記ビデオ取得モジュールは、分析対象ビデオを取得するように構成され、前記特徴抽出モジュールは、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得るように構成され、第1多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含み、前記オフセット予測モジュールは、オフセット予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、前記オフセット処理モジュールは、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2多次元特徴マップを得るように構成され、前記ネットワーク分析モジュールは、所定のネットワークモデルを用いて第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成される。
本願の幾つかの選択可能な実施例において、前記装置は、重み予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、重み情報を得るように構成される重み予測モジュールを更に備え、前記オフセット処理モジュールは、前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行い、前記重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得るように構成される。
本願の幾つかの選択可能な実施例において、前記第1多次元特徴マップの次元は、時系列次元及び所定の次元を含み、
前記オフセット処理モジュールは、所定の次元に従って、第1多次元特徴マップから少なくとも1組の特徴情報を選択し、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含み、前記オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うように構成される。
本願の幾つかの選択可能な実施例において、前記所定の次元は、チャネル次元であり、及び/又は、
前記オフセット情報は、第1数のオフセット値を含み、前記少なくとも1組の特徴情報は、第1数の組の第1特徴情報を含み、
前記オフセット処理モジュールは、前記オフセット情報におけるi番目の前記オフセット値を用いて、第i組の前記第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得るように構成され、前記iは、第1数以下の正整数である。
本願の幾つかの選択可能な実施例において、前記オフセット処理モジュールは、i番目の前記オフセット値が属する数値範囲を取得し、前記数値範囲の上限値と下限値との差が所定の数値であり、第i組の前記第1特徴情報を前記時系列次元に沿って前記上限値個の時系列単位でオフセットし、第i組の第3特徴情報を得て、第i組の前記第1特徴情報を前記時系列次元に沿って前記下限値個の時系列単位でオフセットし、第i組の第4特徴情報を得て、i番目の前記オフセット値と前記下限値との差を重みとして、第i組の前記第3特徴情報に対して重み付け処理を行い、第i組の第1重み付け結果を得て、前記上限値と前記i番目のオフセット値との差を重みとして、第i組の前記第4特徴情報に対して重み付け処理を行い、第i組の第2重み付け結果を得て、前記第i組の第1重み付け結果と第i組の第2重み付け結果との和を算出して第i組の前記第2特徴情報とするように構成される。
本願の幾つかの選択可能な実施例において、前記分析対象ビデオは、第2数のフレームの画像を含み、前記重み情報は、第2数の重み値を含み、前記オフセット処理モジュールは、オフセット後の各組の特徴情報に対して、前記重み情報におけるj番目の重み値をそれぞれ用いて、現在組の特徴情報におけるj番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得るように構成され、前記jは、前記第2数以下の正整数である。
本願の幾つかの選択可能な実施例において、前記オフセット処理モジュールは、前記重み付け処理後の前記特徴情報及び前記第1多次元特徴におけるオフセットされていない特徴情報を用いて、前記第2多次元特徴マップを構成するように構成される。
本願の幾つかの選択可能な実施例において、前記重み予測モジュールは、前記重み予測ネットワークの第1ダウンサンプリング層を用いて、前記第1多次元特徴マップに対してダウンサンプリングを行い、第1ダウンサンプリング結果を得て、前記重み予測ネットワークの第1畳み込み層を用いて、前記第1ダウンサンプリング結果に対して畳み込み処理を行い、第1特徴抽出結果を得て、前記重み予測ネットワークの第1活性化層を用いて前記第1特徴抽出結果に対して非線形処理を行い、前記重み情報を得るように構成される。
本願の幾つかの選択可能な実施例において、前記オフセット予測モジュールは、前記オフセット予測ネットワークの第2ダウンサンプリング層を用いて、前記第1多次元特徴マップに対してダウンサンプリングを行い、第2ダウンサンプリング結果を得て、前記オフセット予測ネットワークの第2畳み込み層を用いて、前記第2ダウンサンプリング結果に対して畳み込み処理を行い、第2特徴抽出結果を得て、前記オフセット予測ネットワークの第1全結合層を用いて、前記第2特徴抽出結果に対して特徴結合を行い、第1特徴結合結果を得て、前記オフセット予測ネットワークの第2活性化層を用いて、前記第1特徴結合結果に対して非線形処理を行い、非線形処理結果を得て、前記オフセット予測ネットワークの第2全結合層を用いて前記非線形処理結果に対して特徴結合を行い、第2特徴結合結果を得て、前記オフセット予測ネットワークの第3活性化層を用いて前記第2特徴結合結果に対して非線形処理を行い、前記オフセット情報を得るように構成される。
本願の幾つかの選択可能な実施例において、前記所定のネットワークモデルは、少なくとも1つの畳み込み層を含み、前記特徴抽出モジュールは、所定のネットワークモデルの畳み込み層を用いて、前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得るように構成され、前記所定のネットワークモデルの畳み込み層の数が1より大きい場合、更に、前記所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、前記第2多次元特徴マップに対して特徴抽出を行い、新たな第1多次元特徴マップを得るように構成され、前記オフセット予測モジュールは更に、オフセット予測ネットワークを用いて前記新たな第1多次元特徴マップに対して予測を行い、新たなオフセット情報を得るように構成され、前記オフセット処理モジュールは更に、前記新たなオフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて、新たな第2多次元特徴マップを得るように構成され、前記ネットワーク分析モジュールは更に、前記所定のネットワークモデルの全結合層を用いて前記新たな第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成される。
本願の幾つかの選択可能な実施例において、前記分析対象ビデオは、複数フレームの画像を含み、前記特徴抽出モジュールは、前記所定のネットワークモデルを用いて、前記複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得て、前記複数の前記特徴マップを、前記対応する画像の分析対象ビデオにおける時系列に従って連結し、前記第1多次元特徴マップを得るように構成される。
第4態様によれば、本願の実施例は、ビデオ分析のためのモデル訓練装置を提供する。該モデル訓練装置は、ビデオ取得モジュールと、特徴抽出モジュールと、オフセット予測モジュールと、オフセット処理モジュールと、ネットワーク分析モジュールと、損失算出モジュールと、パラメータ調整モジュールと、を備え、前記ビデオ取得モジュールは、サンプルビデオを取得ように構成され、サンプルビデオは、所定のアノテーション情報を含み、前記特徴抽出モジュールは、所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得るように構成され、第1サンプルの多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含み、前記オフセット予測モジュールは、オフセット予測ネットワークを用いて第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、前記オフセット処理モジュールは、オフセット情報を用いて第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2サンプルの多次元特徴マップを得るように構成され、前記ネットワーク分析モジュールは、所定のネットワークモデルを用いて第2サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得るように構成され、前記損失算出モジュールは、所定のアノテーション情報及び分析結果情報を用いて損失値を算出するように構成され、パラメータ調整モジュールは、損失値に基づいて、所定のネットワークモデル及びオフセット予測ネットワークのパラメータを調整するように構成される。
第5態様によれば、本願の実施例は、電子機器を提供する。前記電子機器は、互いに接続されるメモリ及びプロセッサを備え、プロセッサは、メモリに記憶されたプログラム命令を実行し、本願の実施例の上記第1態様におけるビデオ分析方法を実現させ、又は、本願の実施例の上記第2態様におけるビデオ分析のためのモデル訓練方法を実現させるように構成される。
第6態様によれば、本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にプログラム命令が記憶されており、プログラム命令がプロセッサにより実行される時、本願の実施例の上記第1態様におけるビデオ分析方法を実現させ、又は、本願の実施例の上記第2態様におけるビデオ分析のためのモデル訓練方法を実現させる。
第7態様によれば、本願の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、本願の実施例の上記第1態様におけるビデオ分析方法を実行し、又は、本願の実施例の上記第2態様におけるビデオ分析のためのモデル訓練方法を実行する。
本願の実施例の技術的解決手段は、分析対象ビデオの時系列情報に対してモデリングを直接行うことができ、ビデオ分析の処理速度の向上に寄与し、また、時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、ビデオ分析の正確度の向上に寄与する。
本願のビデオ分析方法の一実施例を示すフローチャートである。 ビデオ分析処理プロセスの一実施例を示す概略図である。 ビデオ分析の各段階の一実施例を示す概略図である。 図1におけるステップS14の一実施例を示すフローチャートである。 本願のビデオ分析方法のもう1つの実施例を示すフローチャートである。 ビデオ分析処理プロセスのもう1つの実施例を示す概略図である。 本願のビデオ分析のためのモデル訓練方法の一実施例を示すフローチャートである。 本願のビデオ分析装置の一実施例を示すブロック図である。 本願のビデオ分析のためのモデル訓練装置の一実施例を示すブロック図である。 本願の電子機器の一実施例を示すブロック図である。 本願のコンピュータ可読記憶媒体の一実施例を示すブロック図である。
以下、明細書の図面を参照しながら、本願の実施例の技術的解決手段を詳しく説明する。
以下の記述において、本願を完全に理解させるために、制限ではなく説明の目的で、特定のシステム構造や、インタフェース、技術のような具体的な細部を提供する。
本明細書において、「システム」と「ネットワーク」は相互交換可能に用いられる。本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、文字「/」は一般的には、前後関連対象が「又は」という関係であることを示す。また、本明細書における「複数」は、2つ又は2つより多いことを表す。
図1を参照すると、図1は、本願のビデオ分析方法の一実施例を示すフローチャートである。本願のビデオ分析方法は具体的には、マイクロコンピュータ、サーバ、タブレットなどの、処理機能を持つ電子機器により実行されてもよく、又は、プロセッサによりプログラムコードを実行することで実現してもよい。具体的には、下記ステップを含んでもよい。
ステップS11において、分析対象ビデオを取得する。
本願の実施例において、分析対象ビデオは、複数フレームの画像を含んでもよい。例えば、分析対象ビデオは、8フレームの画像を含む。又は、分析対象ビデオは、16フレームの画像を含む。又は、分析対象ビデオは、24フレームの画像を含む。ここで、具体的に限定しない。1つの実施シーンにおいて、分析対象ビデオは、監視カメラにより撮られた監視ビデオであってもよく、それによって、監視ビデオにおけるターゲット対象に対して行為分析を行う。例えば、ターゲット対象の転倒、ターゲット対象の通常の歩行などを分析する。もう1つの実施シーンにおいて、分析対象ビデオは、ビデオライブラリにおけるビデオであってもよく、それによって、ビデオライブラリにおけるビデオを分類する。例えば、サッカー競技ビデオ、バスケットボール競技ビデオ、スキー競技ビデオなどに対して分類を行う。
ステップS12において、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得る。
1つの具体的な実施シーンにおいて、ネットワークパラメータを更に減少させ、処理負荷を低減させ、処理速度を向上させ、訓練時の収束速度を向上させ、オーバーフィッティングを回避するために、上記所定のネットワークモデルは、例えば、ResNet-50、ResNet-101等のような二次元ニューラルネットワークモデルであってもよく、ここで、具体的に限定しない。ResNetネットワークは、残差ブロック(Residual Block)により構築され、複数のパラメータあり層を用いて入力と出力との残差を学習する。
本願の実施例において、第1多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含む。図2を参照すると、図2は、ビデオ分析処理プロセスの一実施例を示す概略図である。図2に示すように、横座標は、時系列次元Tにおける異なる時系列を表し、異なる時系列に対応する格子は、異なる時系列における特徴情報を表す。
1つの実施シーンにおいて、分析対象ビデオは、複数フレームの画像を含む。分析対象ビデオの特徴抽出の処理負荷を低減させ、ビデオ分析の処理速度を向上させるために、所定のネットワークモデルにより、分析対象ビデオの複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得て、複数の特徴マップを、対応する画像の分析対象ビデオにおける時系列に従って連結し、第1多次元特徴マップを得ることができる。例えば、分析対象ビデオは、8フレームの画像を含む場合、所定のネットワークモデルを用いて該8フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像の特徴マップを得て、8枚の特徴マップを、対応する画像の分析対象ビデオにおける時系列に従って連結し、第1多次元特徴マップを得ることができる。
ステップS13において、オフセット予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、オフセット情報を得る。
ビデオは、普通の静止画像と異なり、通常、ターゲット対象の行為動作をより注目している。ビデオの内在的時系列におけるセマンティクスをよりよく取得するために、ビデオにおける時間情報と空間情報を整合することができる。従って、本願の実施例において、オフセット予測ネットワークを用いて予測を行い、オフセット情報を得て、後続で、該オフセット情報に基づいて時系列オフセットを行い、時間情報と空間の整合を遂行する。オフセット予測ネットワークは具体的には、所定のネットワークモデルであってもよい。これにより、該所定のネットワークモデルにより、第1多次元特徴マップに対して予測を行い、オフセット情報を直接得ることができる。
1つの実施シーンにおいて、オフセット予測ネットワークは、順に接続されるダウンサンプリング層、畳み込み層、全結合層、活性化層、全結合層及び活性化層を含んでもよい。従って、オフセット予測ネットワークは、5層のみを含み、且つ、その畳み込み層及び全結合層のみはネットワークパラメータを含む場合、ネットワーク構造をある程度で簡略化し、ネットワークパラメータを減少させることができる。これにより、ネットワーク容量を低減させ、更に収束速度を向上させ、オーバーフィッティングを回避し、訓練により得られたモデルをできる限り正確にし、更にビデオ分析の正確性を向上させることができる。
例示的に、オフセット予測ネットワークのダウンサンプリング層(第2ダウンサンプリング層と記す)を用いて、第1多次元特徴マップに対してダウンサンプリングを行い、ダウンサンプリング結果(第2ダウンサンプリング結果と記す)を得ることができる。1つの具体的な実施シーンにおいて、ダウンサンプリング層は具体的には、平均プーリング層であってもよく、第1多次元特徴マップの次元は、時系列次元及び所定の次元(例えば、チャネル次元)を含む。従って、第1多次元特徴マップに対してダウンサンプリング処理を行い、ダウンサンプリング結果を得ることは、以下で表されてもよい。
Figure 0007096431000001
(1)
上記式において、
Figure 0007096431000002
はそれぞれ、多次元にける時系列次元及び多次元における所定の次元(所定の次元は例えば、チャネル次元であってもよい)を表し、
Figure 0007096431000003
は、ダウンサンプリング結果における
Figure 0007096431000004
番目の要素を表し、
Figure 0007096431000005
はそれぞれ、特徴マップの高さ及び幅を表し、
Figure 0007096431000006
は、第1多次元特徴マップにおける
Figure 0007096431000007
番目の要素を表す。
更に、オフセット予測ネットワークの畳み込み層(第2畳み込み層と記す)を用いて、ダウンサンプリング結果(即ち、第2ダウンサンプリング結果)に対して畳み込み処理を行い、特徴抽出結果(第2特徴抽出結果と記す)を得ることができる。オフセット予測ネットワークの畳み込み層は具体的には、数が分析対象ビデオのフレーム数と同じである畳み込みカーネルを含んでもよく、畳み込みカーネルのサイズは、例えば3*3であってもよい。
更に、オフセット予測ネットワークの1番目の全結合層(第1全結合層と記す)を用いて、特徴抽出結果(即ち、第2特徴抽出結果)に対して特徴結合を行い、特徴結合結果(第1特徴結合結果と記す)を得る。ここで、オフセット予測ネットワークの1番目の全結合層は、数が分析対象ビデオのフレーム数と同じであるニューロンを含んでもよい。
更に、オフセット予測ネットワークの1番目の活性化層(第2活性化層と記す)を用いて、特徴結合結果(即ち、第1特徴結合結果)に対して非線形処理を行い、非線形処理結果を得る。ここで、オフセット予測ネットワークの1番目の活性化層は、正規化線形関数(Rectified Linear Unit:ReLU)活性化層であってもよい。
更に、オフセット予測ネットワークの2番目の全結合層(第2全結合層と記す)を用いて、非線形処理結果に対して特徴結合を行い、特徴結合結果(第2特徴結合結果と記す)を得る。更に、オフセット予測ネットワークの2番目の活性化層(第3活性化層と記す)を用いて、特徴結合結果(即ち、第2特徴結合結果)に対して非線形処理を行い、オフセット情報を得る。ここで、オフセット予測ネットワークの2番目の活性化層は、Sigmoid活性化層であってもよい。これにより、オフセット情報における各要素を0から1の間に制限することができる。
上記処理プロセスは具体的には、以下で表されてもよい。
Figure 0007096431000008
(2)
上記式において、
Figure 0007096431000009
は、ダウンサンプリング結果を表し、
Figure 0007096431000010
は、オフセット予測ネットワークの畳み込み層を表し、
Figure 0007096431000011
は、オフセット予測ネットワークの1番目の全結合層を表し、
Figure 0007096431000012
は、オフセット予測ネットワークの1番目の活性化層を表し、
Figure 0007096431000013
は、オフセット予測ネットワークの2番目の全結合層を表し、
Figure 0007096431000014
は、オフセット予測ネットワークの2番目の活性化層を表し、
Figure 0007096431000015
は、オフセット情報を表す。
もう1つの実施シーンにおいて、モデルの安定性及び性能を向上させるために、上記2番目の活性化層を用いて処理を行うことで得られたオフセット情報を制限処理し、オフセット情報における各要素を
Figure 0007096431000016
に制限することもできる。ここで、Tは、分析対象ビデオのフレーム数を表す。具体的には、オフセット予測ネットワークの2番目の活性化層を用いて特徴結合結果に対して非線形処理を行うことで得られたオフセット情報における各要素から0.5をそれぞれ減算し、0.5を減算した後に得られた差に分析対象ビデオのフレーム数を乗算し、制限処理されたオフセット情報を得ることができる。上記制限処理は具体的には、以下で表されてもよい。
Figure 0007096431000017
(3)
上記式において、
Figure 0007096431000018
は、2番目の活性化層により処理を行うことで得られたオフセット情報を表し、
Figure 0007096431000019
は、分析対象ビデオのフレーム数を表し、
Figure 0007096431000020
は、
Figure 0007096431000021
に制限されたオフセット情報を表す。
ステップS14において、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2多次元特徴マップを得る。
1つの実施シーンにおいて、少なくとも一部の特徴情報における、異なる時系列に対応する情報をオフセットし、時間情報と空間情報を整合し、ビデオ分析の正確性を向上させるために、少なくとも一部の特徴情報は具体的には、所定の次元(例えば、チャネル次元)に沿って分割を行うことで得られたものであってもよい。図2に示すように、処理負荷を更に低減させるために、第1多次元特徴マップのチャネル次元におけるチャネル数は、
Figure 0007096431000022
であり、チャネル次元における上記少なくとも一部の特徴情報のチャネル数は、
Figure 0007096431000023
である。また、オフセット情報を用いて第1多次元特徴マップの全ての特徴情報に対して時系列オフセットを行うこともでき、ここで限定しない。
1つの実施シーンにおいて、オフセット情報の演算量を低減させ、ビデオ分析の処理速度を向上させるために、所定の次元(例えば、チャネル次元)に従って、第1多次元特徴マップから少なくとも1組の特徴情報を選択する。ここで、各組の特徴情報は、同一の所定の次元(例えば、チャネル次元)における異なる時系列に対応する特徴情報を含む。前記オフセット情報を用いて前記少なくとも1組の特徴情報に対して時系列次元でオフセットを行う。この場合、オフセット予測ネットワークの2番目の全結合層は、数が選択された特徴情報の組数と同じであるニューロンを含んでもよい。従って、オフセット情報における要素の数は、選択された特徴情報の組数と同じである。更に、オフセット情報における各要素を用いて、少なくとも1組の特徴情報に対して時系列次元でそれぞれオフセットを行うことができる。例えば、時系列次元で1つの時系列単位でオフセットし、又は、時系列次元で2つの時系列単位でオフセットし、ここで、具体的に限定しない。
オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行った後、時系列オフセット後の少なくとも一部の特徴情報と第1多次元特徴マップにおける時系列オフセットされていない一部の特徴情報とを連結し、第2多次元特徴マップを得ることができる。1つの具体的な実施シーンにおいて、図2を参照すると、チャネル数が
Figure 0007096431000024
である少なくとも一部の特徴情報に対して時系列オフセットを行うことで得られた特徴情報と時系列オフセットされていない、チャネル数が
Figure 0007096431000025
である一部の特徴情報とを連結し、第2多次元特徴マップを得ることができる。
ステップS15において、所定のネットワークモデルを用いて第2多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得る。
1つの実施シーンにおいて、所定のネットワークモデルの全結合層を用いて第2多次元特徴マップに対して特徴結合を行い、所定のネットワークモデルのsoftmax層を用いて回帰を行い、分析対象ビデオが属するカテゴリ(例えば、サッカー競技ビデオ、スキー競技ビデオなど)を得ることができ、又は、分析対象ビデオにおけるターゲット対象の行為カテゴリ(例えば、通常の歩行、転倒、走りなど)を得ることもできる。他の適用シーンは、このように類推してもよい。ここで、枚挙しない。
1つの実施シーンにおいて、処理しやすくするために、上記オフセット予測ネットワークは、所定のネットワークモデルの畳み込み層の前に埋め込まれてもよい。例えば、所定のネットワークモデルは、ResNet-50であり、オフセット予測ネットワークは、各残差ブロックにおける畳み込み層の前に埋め込まれてもよい。
1つの実施シーンにおいて、所定のネットワークモデルは、少なくとも1つの畳み込み層を含んでもよい。これにより、特徴抽出プロセスにおいて、所定のネットワークモデルの1つの畳み込み層を用いて分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることができる。
1つの実施シーンにおいて、ビデオ分析の正確性を向上させるために、所定のネットワークモデルの畳み込み層の数は、1より大きくてもよい。例えば、所定のネットワークモデルの畳み込み層の数は、2個、3個又は4個などであってもよい。従って、第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得る前に、所定のネットワークモデルにおける特徴抽出を実行していない畳み込み層を用いて、第2多次元特徴マップに対して特徴抽出を行い、新たな第1多次元特徴マップを得ることもでき、ここで、新たな第1多次元特徴マップは、時系列次元で次元を不変のまま保持してもよい。更に、オフセット予測ネットワークを用いて新たな第1多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第2多次元特徴マップを得、上記ステップを繰り返して実行し、所定のネットワークモデルの全ての畳み込み層で新たな第2多次元特徴マップの特徴抽出ステップを完了するまで継続する。更に、所定のネットワークモデルの全結合層を用いて、最後に得られた第2多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得る。
図3を参照すると、図3は、ビデオ分析の各段階の一実施例を示す概略図である。所定のネットワークモデルが3つの畳み込み層を含むことを例として、所定のネットワークモデルの1番目の畳み込み層により、分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得た後、上記の関係するステップにより、時系列オフセットを行い、第2多次元特徴マップを得る。所定のネットワークモデルの全結合層を用いて分析処理を行う前に、更に、該第2多次元特徴マップを2番目の畳み込み層に入力して特徴抽出を行い、新たな第1多次元特徴マップ(図面において第1多次元特徴マップと記する)を得て、上記の関係するステップにより、新たな第1多次元特徴マップに対して時系列オフセットを行い、新たな第2多次元特徴マップ(図面において第2多次元特徴マップと記す)を得ることできる。同様に、3番目の畳み込み層を用いて該新たな第2多次元特徴マップに対して特徴抽出を行い、また1つの新たな第1多次元特徴マップ(図面において第1多次元特徴マップと記する)を得て、上記の関係するステップにより、新たな第1多次元特徴マップに対して時系列オフセットを行い、新たな第2多次元特徴マップ(図面において第2多次元特徴マップと記する)を得る。この時、所定のネットワークモデルの3つの畳み込み層はいずれも、特徴抽出ステップを完了しており、所定のネットワークモデルの全結合層を用いて、新たに得られた第2多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得ることができる。勿論、他の実施例において、演算量を減少させるために、一部の畳み込み層の後ろだけに、時系列オフセットというステップを追加してもよい。
上記技術的解決手段において、分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得る。第1多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含む。また、オフセット予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、オフセット情報を得る。これにより、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて、第2多次元特徴マップを得る。更に、分析対象ビデオの時系列情報に対してモデリングを直接行うことができ、ビデオ分析の処理速度の向上に寄与し、且つ時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、ビデオ分析の正確度の向上に寄与する。
図4を参照すると、図4は、図1におけるステップS14の一実施例を示すフローチャートである。本願の実施例において、オフセット情報は、第1数のオフセット値を含む。第1多次元特徴マップの少なくとも一部を所定の次元(例えば、チャネル次元)に沿って第1数の組の第1特徴情報に分割することもできる。つまり、前記少なくとも1組の特徴情報は、第1数の組の第1特徴情報を含む。この場合、前記オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うことは、オフセット情報におけるi番目のオフセット値を用いて、第i組の第1特徴情報に対して、時系列次元でオフセットを行い、第i組の第2特徴情報を得ることであって、iは、第1数以下の正整数である、ことを含む。
図2を参照すると、第1多次元特徴マップの少なくとも一部は、2組の第1特徴情報を含み、この場合、オフセット情報における1番目のオフセット値を用いて、第1組の第1特徴情報に対して、時系列次元でオフセットを行い、第1組の第2特徴情報を得て、オフセット情報における2番目のオフセット値を用いて、第2組の第1特徴情報に対して、時系列次元でオフセットを行い、第2組の第2特徴情報を得ることができる。上記第1数が他の数値である場合、このように類推することができ、ここで枚挙しない。
具体的には、前記オフセット情報におけるi番目の前記オフセット値を用いて、第i組の前記第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得ることは、下記ステップを含んでもよい。
ステップS141において、i番目のオフセット値が属する数値範囲を取得し、数値範囲の上限値と下限値との差が所定の数値である。
1つの実施シーンにおいて、所定の数値は、1であってもよい。数値範囲の下限値は、i番目のオフセット値を切り捨てることで得られた数値であり、数値の上限値は、i番目のオフセット値を切り上げることで得られた数値である。つまり、i番目のオフセット値
Figure 0007096431000026
は、その数値範囲が、
Figure 0007096431000027
で表されてもよく、且つ
Figure 0007096431000028
である。例えば、オフセット値が0.8である場合、その数値範囲は、0から1である。又は、オフセット値が1.4である場合、その数値範囲は、1から2である。オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。上記方式により、オフセット値が小数である場合、後続の時系列オフセットの処理プロセスを簡略化することができる。
ステップS142において、第i組の第1特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットし、第i組の第3特徴情報を得て、第i組の第1特徴情報を時系列次元に沿って下限値個の時系列単位でオフセットし、第i組の第4特徴情報を得る。
本願の実施例において、第i組の第1特徴情報は、
Figure 0007096431000029
で表されてもよく、i番目のオフセット値の数値範囲が
Figure 0007096431000030
で表される場合、第i組の第1特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットすることで得られた第i組の第3特徴情報は、
Figure 0007096431000031
で表されてもよい。第i組の第1特徴情報を時系列次元に沿って下限値個の時系列単位でオフセットすることで得られた第i組の第4特徴情報は、
Figure 0007096431000032
で表されてもよい。
1つの具体的な実施シーンにおいて、各オフセット値は、小数である可能性がある。例えば、各オフセット値の数値範囲は0から1である。つまり、上記上限値は1であり、下限値は0であり、所定の数値は1であり、従って、第i組の第1特徴情報
Figure 0007096431000033
にとって、対応する第3特徴情報は、
Figure 0007096431000034
で表されてもよく、対応する第4特徴情報は、
Figure 0007096431000035
で表されてもよい。また、時系列次元での、第1特徴情報の範囲は、
Figure 0007096431000036
である。ここで、Tの値は、分析対象ビデオのフレーム数に等しい。例えば、第1特徴情報
Figure 0007096431000037
のTは、8であり、第1特徴情報は、時系列オフセット過程において特徴情報が移り出されたことによりゼロベクトルに変わる可能性があり、それによって訓練過程において勾配消失の場合があり、該問題を軽減するために、時系列オフセット後に
Figure 0007096431000038
時系列区間及び
Figure 0007096431000039
時系列区間にある特徴情報のために、バッファ領域を設けることができる。これにより、特徴情報は時系列でT+1時刻からオフセットされるか又は0時刻未満である場合、バッファ領域を0に固定することができる。例えば、第1特徴情報
Figure 0007096431000040

Figure 0007096431000041
であることを例として、i番目のオフセット値が0.4である場合、それが属する数値範囲が0から1であるため、第1特徴情報を上限値個(即ち、1個)の時系列単位でオフセットし、対応する第3特徴情報
Figure 0007096431000042
を得て、上記第1特徴情報を下限値個(即ち、0個)の時系列単位でオフセットし、対応する第4特徴情報
Figure 0007096431000043
を得る。第1特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。
ステップS143において、i番目のオフセット値と下限値との差を重みとして、第i組の第3特徴情報に対して重み付け処理を行い、第i組の第1重み付け結果を得て、上限値とi番目のオフセット値との差を重みとして、第i組の第4特徴情報に対して重み付け処理を行い、第i組の第2重み付け結果を得る。
i番目のオフセット値が
Figure 0007096431000044
で表されることを例として、i番目のオフセット値の数値範囲が
Figure 0007096431000045
で表される時、i番目のオフセット値
Figure 0007096431000046
と下限値(即ち、
Figure 0007096431000047
)との差(即ち、
Figure 0007096431000048
)を重みとして、第i組の第3特徴情報(即ち、
Figure 0007096431000049
)に対して重み付け処理を行い、対応する第1重み付け結果(即ち、
Figure 0007096431000050
)を得て、上限値(即ち、
Figure 0007096431000051
)とi番目のオフセット値
Figure 0007096431000052
との差(即ち、
Figure 0007096431000053
)を重みとして、第i組の第4特徴情報(
Figure 0007096431000054
)に対して重み付け処理を行い、対応する第2重み付け結果(即ち、
Figure 0007096431000055
)を得る。
1つの具体的な実施シーンにおいて、各オフセット値は、小数である可能性がある。例えば、各オフセット値の数値範囲は、0から1である。つまり、上記上限値は、1であり、下限値は、0であり、所定の数値は、1である。従って、第1特徴情報
Figure 0007096431000056
にとって、対応する第3特徴情報は、
Figure 0007096431000057
で表されてもよく、対応する第4特徴情報は、
Figure 0007096431000058
で表されてもよい。これにより、第1重み付け結果は、
Figure 0007096431000059
で表されてもよく、第2重み付け結果は、
Figure 0007096431000060
で表されてもよい。同じく第1特徴情報
Figure 0007096431000061
が一次元ベクトル
Figure 0007096431000062
で表されることを例として、i番目のオフセット値が0.4である場合、対応する第3特徴情報は、
Figure 0007096431000063
で表されてもよく、対応する第4特徴情報は、
Figure 0007096431000064
で表されてもよい。従って、第1重み付け結果は、
Figure 0007096431000065
で表されてもよく、第2重み付け結果は、
Figure 0007096431000066
で表されてもよい。第1特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。
ステップS144において、第i組の第1重み付け結果と第i組の第2重み付け結果との和を算出して第i組の第2特徴情報とする。
i番目のオフセット値が
Figure 0007096431000067
で表されることを例として、第1重み付け結果は、
Figure 0007096431000068
で表されてもよく、第2重み付け結果は、
Figure 0007096431000069
で表されてもよい。従って、第i組の第2特徴情報は、
Figure 0007096431000070
で表されてもよい。
1つの具体的な実施シーンにおいて、各オフセット値は、小数である可能性がある。例えば、各オフセット値の数値範囲は、0から1である。つまり、上記上限値は、1であり、下限値は、0であり、所定の数値は、1である。従って、第1特徴情報
Figure 0007096431000071
にとって、第1重み付け結果は、
Figure 0007096431000072
で表されてもよく、第2重み付け結果は、
Figure 0007096431000073
で表されてもよい。従って、第i組の第2特徴情報は、
Figure 0007096431000074
で表されてもよい。依然として第1特徴情報
Figure 0007096431000075
が一次元ベクトル
Figure 0007096431000076
で表されることを例として、i番目のオフセット値が0.4である場合、対応する第1重み付け結果は、
Figure 0007096431000077
で表されてもよく、対応する第2重み付け結果は、
Figure 0007096431000078
で表されてもよい。従って、第i組の第2特徴情報は、
Figure 0007096431000079
で表されてもよい。第1特徴情報、オフセット値が他の数値である場合、このように類推することができ、ここで枚挙しない。
また、1つの実施シーンにおいて、組を単位として各組の第1特徴情報に対して時系列オフセットを行う。従って、訓練時、対称性オフセットのポリシーを用いることができる。つまり、訓練時、半分のオフセット値のみを訓練し、変換演算(例えば、逆順にする)を行い、残りの半分のオフセット値を得る。これにより、訓練時の処理負荷を軽減することができる。
上述した実施例と異なっており、i番目の前記オフセット値が属する数値範囲を取得し、該数値範囲の上限値と下限値との差が所定の数値であり、第i組の第1特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットし、第i組の第3特徴情報を得て、第i組の第1特徴情報を時系列次元に沿って下限値個の時系列単位でオフセットし、第i組の第4特徴情報を得て、i番目のオフセット値と下限値との差を重みとして、第i組の第1特徴情報に対して重み付け処理を行い、第i組の第1重み付け結果を得て、上限値とi番目のオフセット値との差を重みとして、第i組の第4特徴情報に対して重み付け処理を行い、第i組の第2重み付け結果を得て、第i組の第1重み付け結果と第i組の第2重み付け結果との和を算出して第i組の第2特徴情報とすることにより、第1特徴情報に対してオフセット処理を容易かつ迅速に行うことができ、ビデオ分析の処理速度の向上に寄与する。
図5を参照すると、図5は、本願のビデオ分析方法のもう1つの実施例を示すブローチャートである。具体的には、下記ステップを含んでもよい。
ステップS51において、分析対象ビデオを取得する。
具体的には、上述した実施例における関連ステップを参照することができる。
ステップS52において、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得る。
本願の実施例において、第1多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含む。具体的には、上述した実施例における関連ステップを参照することができる。
ステップS53において、オフセット予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、オフセット情報を得る。
図6を参照すると、図6は、ビデオ分析処理プロセスのもう1つの実施例を示す概略図である。図6に示すように、第1多次元特徴マップは、オフセット予測ネットワークにより予測されてもよい。具体的には、上述した実施例における関連ステップを参照することができる。
ステップS54において、重み予測ネットワークを用いて、第1多次元特徴マップに対して予測を行い、重み情報を得る。
時系列オフセットプロセスにおいて、第1特徴情報の両端の特徴は移り出される可能性がある。従って、時系列オフセットされた第1特徴情報における各特徴の重要度を再評価して長範囲情報をより好適に取得するために、アテンションメカニズムを用いて、時系列オフセットされた第1特徴情報における各特徴を再重み付け処理することができる。従って、重み情報を取得する必要がある。引き続き図6を参照すると、重み予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、重み情報を得ることができる。
1つの実施シーンにおいて、重み予測ネットワークは、順に接続されるダウンサンプリング層、畳み込み層及び活性化層を含んでもよい。従って、重み予測ネットワークは、3層のみを含み、且つ、その畳み込み層のみはネットワークパラメータを含む場合、ネットワーク構造をある程度で簡略化し、ネットワークパラメータを減少させることができる。これにより、ネットワーク容量を低減させ、収束速度を向上させ、オーバーフィッティングを回避し、訓練により得られたモデルをできる限り正確にし、更にビデオ分析の正確性を向上させることができる。
幾つかの選択可能な実施例において、重み予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、重み情報を得ることは、重み予測ネットワークのダウンサンプリング層(第1ダウンサンプリング層と記す)を用いて第1多次元特徴マップに対してダウンサンプリングを行い、ダウンサンプリング結果(第1ダウンサンプリング結果と記す)を得ることと、重み予測ネットワークの畳み込み層(第1畳み込み層と記す)を用いてダウンサンプリング結果(即ち、第1ダウンサンプリング結果)に対して畳み込み処理を行い、特徴抽出結果(第1特徴抽出結果と記す)を得ることと、重み予測ネットワークの活性化層を用いて特徴抽出結果(即ち、第1特徴抽出結果)に対して非線形処理を行い、重み情報を得ることと、を含んでもよい。1つの具体的な実施シーンにおいて、ダウンサンプリング層は、平均プーリング層であってもよい。具体的には、上述した実施例における関連ステップを参照することができる。重み予測ネットワークの畳み込み層に1つの畳み込みカーネルが含まれてもよい。重み予測ネットワークの活性化層は、Sigmoid活性化層であってもよい。これにより、重み情報における各要素を0から1の間に制限することができる。
また、処理しやすくするために、本願の実施例におけるオフセット予測ネットワーク及び重み予測ネットワークは、所定のネットワークモデルの畳み込み層の前に埋め込まれてもよい。例えば、所定のネットワークモデルは、ResNet-50であり、オフセット予測ネットワーク及び重み予測ネットワークは、各残差ブロックの畳み込み層の前に埋め込まれてもよい。これにより、第1多次元特徴マップを用いて予測を行い、オフセット情報及び重み情報をそれぞれ得て、後続でオフセットと重み付け処理に用いる。これにより、ResNet-50の既存のネットワークパラメータに、少量のネットワークパラメータを追加し、時系列情報のモデリングを実現させることができ、ビデオ分析の処理負荷の軽減に寄与し、ビデオ分析の処理速度を向上させ、また、モデル訓練時の収束速度を向上させ、オーバーフィッティングを回避し、ビデオ分析の正確度を向上させることができる。所定のネットワークモデルが他のモデルである場合、このように類推することができ、ここで枚挙しない。
上記ステップS53及びステップS54は、順番に応じて実行されてもよい。例えば、まず、ステップS53を実行し、続いてステップS54を実行する。又は、まず、ステップS54を実行し、続いてステップS53を実行する。又は、ステップS53とステップS54を同時に実行してもよい。ここで限定しない。また、上記ステップS54を後続のステップS56に先行して実行すればよく、ここで限定しない。
ステップS55において、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行う。
具体的には、上述した実施例における関連ステップを参照することができる。
ステップS56において、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行う。
1つの実施シーンにおいて、分析対象ビデオは、第2数のフレームの画像を含んでもよく、重み情報は、第2数の重み値を含んでもよく、第2数は、具体的には、8、16、24等であってもよく、ここで具体的に限定しない。重み付け処理時、つまり、前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことは、オフセット後の各組の特徴情報に対して、前記重み情報におけるj番目の重み値をそれぞれ用いて、現在組の特徴情報におけるj番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得ることであって、jは、第2数以下の正整数である、ことを含む。
上記実施例におけるオフセット処理された特徴情報
Figure 0007096431000080
を例として、重み情報は、
Figure 0007096431000081
であってもよい。従って、重み情報におけるj番目の重みをそれぞれ用いて、上記特徴情報におけるj番目の時系列に対応する特徴値に対して重み付け処理を行った後、対応する特徴情報
Figure 0007096431000082
を得る。オフセット後の特徴情報、重み情報は他の数値である場合、このように類推することができ、ここで枚挙しない。
ステップS57において、重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得る。
図6を参照すると、時系列オフセット及び重み付け処理を行った後、第1多次元特徴マップに対応する第2多次元特徴マップを得ることができる。1つの実施シーンにおいて、重み付け処理後の前記特徴情報に基づいて、第2多次元特徴マップを得ることは、重み付け処理後の特徴情報及び第1多次元特徴におけるオフセットされていない特徴情報を用いて、第2多次元特徴マップを構成することを含んでもよい。
具体的には、図2を参照すると、重み付け処理後の特徴情報と第1多次元特徴マップにおけるオフセットされていない特徴情報を連結処理し、第2多次元特徴マップを得る。ことができる。得られた多次元特徴マップのサイズは、第1多次元特徴マップのサイズと同じである。また、第1多次元特徴マップにおける特徴情報が全て時系列オフセット処理された場合、重み付け処理後の特徴情報を直接組み合わせて第2多次元特徴マップとすることができる。
ステップS58において、所定のネットワークモデルを用いて第2多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得る。
具体的には、上述した実施例における関連ステップを参照することができる。
上述した実施例と異なっており、重み予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、重み情報を得て、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、且つ重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得る。従って、オフセット、重み付け処理ステップにより、空間と時系列を互いに交錯させた特徴情報を直接得ることができ、ビデオ分析の処理速度及び正確度の向上に寄与する。
図7を参照すると、図7は、本願のビデオ分析のためのモデル訓練方法の一実施例を示すフローチャートである。本願の実施例のビデオ分析のためのモデル訓練方法は具体的には、マイクロコンピュータ、サーバ、タブレットなどの、処理機能を持つ電子機器により実行されてもよく、又は、プロセッサによりプログラムコードを実行することで実現してもよい。具体的には、下記ステップを含んでもよい。
ステップS71において、サンプルビデオを取得する。
本願の実施例において、サンプルビデオは、所定のアノテーション情報を含む。ビデオに対して行為分析を行うことを例として、サンプルビデオの所定のアノテーション情報は、転倒、通常の歩行、走りなどのアノテーション情報を含んでもよいが、これらに限定されない。又は、ビデオを分類することを例として、サンプルビデオの所定のアノテーション情報は、サッカー競技ビデオ、バスケットボール競技ビデオ、スキー競技ビデオなどのアノテーション情報を含んでもよいが、これらに限定されない。他の適用シーンは、このように類推することができ、ここで枚挙しない。
本願の実施例において、サンプルビデオは、複数フレームの画像を含んでもよい。例えば、8フレームの画像を含んでもよく、又は、16フレームの画像を含んでもよく、又は、24フレームの画像を含んでもよい。ここで具体的に限定しない。
ステップS72において、所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得る。
1つの具体的な実施シーンにおいて、ネットワークパラメータを更に減少させ、処理負荷を低減させ、処理速度を向上させ、訓練時の収束速度を向上させ、オーバーフィッティングを回避するために、上記所定のネットワークモデルは、例えば、ResNet-50、ResNet-101等のような二次元ニューラルネットワークモデルであってもよく、ここで、具体的に限定しない。ResNetネットワークは、残差ブロック(Residual Block)により構築され、複数のパラメータあり層を用いて入力と出力との残差表示を学習する。
本願の実施例において、第1多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含む。図2を参照すると、図2は、ビデオ分析処理プロセスの一実施例を示す概略図である。図2に示すように、横座標は、時系列次元Tでの異なる時系列を表し、異なる時系列に対応する格子は、異なる時系列における特徴情報を表す。1つの実施シーンにおいて、分析対象ビデオは、複数フレームの画像を含む。サンプルビデオの特徴抽出の処理負荷を低減させ、ビデオ分析の処理速度を向上させるために、所定のネットワークモデルにより、サンプルビデオの複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得て、複数の特徴マップを、サンプルビデオにおける、対応する画像の時系列に応じて連結し、第1サンプルの多次元特徴マップを得ることができる。例えば、サンプルビデオは、8フレームの画像を含むと、所定のネットワークモデルを用いて該8フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像の特徴マップを得て、8枚の特徴マップを、サンプルビデオにおける、対応する画像の時系列に応じて連結し、第1サンプルの多次元特徴マップを得ることができる。
ステップS73において、オフセット予測ネットワークを用いて第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得る。
オフセット予測ネットワークのネットワーク構造は具体的には、上述した実施例における関連ステップを参照することができ、ここで詳細な説明を省略する。1つの実施シーンにおいて、重み予測ネットワークを用いて第1サンプルの多次元特徴マップに対して予測を行い、重み情報を得ることもできる。重み予測ネットワークのネットワーク構造は、上述した実施例における関連ステップを参照することができ、ここで詳細な説明を省略する。
ステップS74において、オフセット情報を用いて第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2サンプルの多次元特徴マップを得る。
オフセット情報を用いて第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うための具体的な実行ステップは、上述した実施例における関連ステップを参照することができ、ここで詳細な説明を省略する。1つの実施シーンにおいて、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第2サンプルの多次元特徴マップを得ることもできる。具体的には、上述した実施例における関連ステップを参照することができ、ここで詳細な説明を省略する。
1つの実施シーンにおいて、所定のネットワークモデルは、少なくとも1つの畳み込み層を含んでもよく、この場合、所定のネットワークモデルの1つの畳み込み層を用いて、サンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得ることができる。1つの具体的な実施シーンにおいて、所定のネットワークモデルの畳み込み層の数は、1より大きくてもよく、この場合、所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて第2サンプルの多次元特徴マップに対して特徴抽出を行い、新たな第1サンプルの多次元特徴マップを得て、また、オフセット予測ネットワークを用いて新たな第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第2サンプルの多次元特徴マップを得て、更に、上記ステップを繰り返して実行し、所定のネットワークモデルの全ての畳み込み層で新たな第2サンプルの多次元特徴マップの特徴抽出ステップを完了するまで継続する。
ステップS75において、所定のネットワークモデルを用いて第2サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得る。
具体的には、所定のネットワークモデルの全結合層を用いて第2サンプルの多次元特徴マップに対して分析を行い、サンプルビデオの分析結果情報を得ることができる。1つの実施シーンにおいて、所定のネットワークの全結合層を用いて、第2サンプルの多次元特徴マップに対して特徴結合を行い、所定のネットワークモデルのsoftmax層を用いて回帰を行い、サンプルビデオが各カテゴリ(例えば、サッカー競技ビデオ、スキー競技ビデオなど)に属する確率値を得て、又は、サンプルビデオが各行為(例えば、転倒、通常の歩行、走りなど)に属する確率値を得ることもできる。他の適用シーンは、このように類推してもよい。ここで、枚挙しない。
ステップS76において、所定のアノテーション情報及び分析結果情報を利用して損失値を算出する。
具体的には、平均二乗誤差(Mean Square Error)損失関数又はクロスエントロピー損失関数を用いて所定のアノテーション情報及び分析結果情報に対して損失値算出を行うことができ、ここで限定しない。
ステップS77において、損失値に基づいて、所定のネットワークモデル及びオフセット予測ネットワークのパラメータを調整する。
1つの実施シーンにおいて、上述したステップのように、重み予測ネットワークを用いて第1サンプルの多次元特徴マップに対して予測を行い、重み情報を得ることもできる。これにより、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第2サンプル多次元特徴情報を得る。損失値に基づいて、所定のネットワークモデル、オフセット予測ネットワーク及び重み予測ネットワークのパラメータを調整することもできる。具体的には、所定のネットワークモデルにおける畳み込み層、全結合層のパラメータを調整し、オフセット予測ネットワークにおける畳み込み層、全結合層のパラメータを調整し、重み予測ネットワークにおける畳み込み層のパラメータを調整することができる。具体的には、バッチ勾配降下法、確率的勾配降下法のような勾配降下法を用いてパラメータを調整することができる。
1つの実施シーンにおいて、パラメータを調整した後、上記ステップS72及び後続のステップを再実行し、算出された損失値が所定の訓練終了条件を満たすまで継続することができる。具体的には、所定の訓練終了条件は、損失値が所定の損失閾値未満であり、且つ損失値が減少しなくなることを含んでもよい。又は、所定の訓練終了条件は、パラメータ調整回数が所定の回数閾値に達したことを含んでもよい。又は、所定の訓練終了条件は、試験ビデオを用いて試験されたネットワーク性能が所定の要件に達した(例えば、正確率が所定の正確率閾値に達した)ことを含んでもよい。
本願の実施例の技術的解決手段によれば、サンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得て、第1サンプルの多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含み、オフセット予測ネットワークを用いて第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得て、オフセット情報を用いて第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2サンプルの多次元特徴マップを得て、更に、サンプルビデオの時系列情報に対してモデリングを直接行うことができ、モデル訓練時の速度の向上に寄与し、また、時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、後続で、ビデオ分析の正確度の向上に寄与する。
図8を参照すると、図8は、本願のビデオ分析装置80の一実施例を示すブロック図である。ビデオ分析装置80は、ビデオ取得モジュール81と、特徴抽出モジュール82と、オフセット予測モジュール83と、オフセット処理モジュール84と、ネットワーク分析モジュール85と、を備え、
ビデオ取得モジュール81は、分析対象ビデオを取得するように構成され、
特徴抽出モジュール82は、所定のネットワークモデルを用いて分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得るように構成され、第1多次元特徴マップは、分析対象ビデオに対応する異なる時系列における特徴情報を含み、
オフセット予測モジュール83は、オフセット予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、
オフセット処理モジュール84は、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2多次元特徴マップを得るように構成され、
ネットワーク分析モジュール85は、所定のネットワークモデルを用いて第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成される。
本願の実施例の技術的解決手段は、所定のネットワークモデルにより、分析対象ビデオを処理することで、ビデオ分析の処理速度の向上に寄与し、且つ時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、ビデオ分析の正確度の向上に寄与する。
幾つかの実施例において、ビデオ分析装置80は、重み予測ネットワークを用いて第1多次元特徴マップに対して予測を行い、重み情報を得るように構成される重み予測モジュールを更に備え、
オフセット処理モジュール84は、オフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、重み情報を用いて、オフセット後の特徴情報に対して重み付け処理を行い、重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得るように構成される。
幾つかの実施例において、第1多次元特徴マップの次元は、時系列次元及び所定の次元を含み、オフセット処理モジュール84は、所定の次元に従って、第1多次元特徴マップから少なくとも1組の特徴情報を選択し、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含み、オフセット情報を用いて、少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うように構成される。
幾つかの実施例において、所定の次元は、チャネル次元であり、及び/又は、オフセット情報は、第1数のオフセット値を含み、少なくとも1組の特徴情報は、第1数の組の第1特徴情報を含み、オフセット処理モジュール84は、オフセット情報におけるi番目のオフセット値を用いて、第i組の第1特徴情報に対して、時系列次元でオフセットを行い、第i組の第2特徴情報を得るように構成され、iは、第1数以下の正整数である。
幾つかの実施例において、オフセット処理モジュール84は、i番目のオフセット値が属する数値範囲を取得するように構成され、数値範囲の上限値と下限値との差が所定の数値であり、時系列オフセット処理ユニットは、第i組の第1特徴情報を時系列次元に沿って上限値個の時系列単位でオフセットし、第i組の第3特徴情報を得て、第i組の第1特徴情報を前記時系列次元に沿って下限値個の時系列単位でオフセットし、第i組の第4特徴情報を得て、i番目の前記オフセット値と下限値との差を重みとして、第i組の第3特徴情報に対して重み付け処理を行い、第i組の第1重み付け結果を得て、上限値とi番目のオフセット値との差を重みとして、第i組の第4特徴情報に対して重み付け処理を行い、第i組の第2重み付け結果を得て、第i組の第1重み付け結果と第i組の第2重み付け結果との和を算出して第i組の第2特徴情報とするように構成される時系列オフセット処理サブユニットを備える。
幾つかの実施例において、分析対象ビデオは、第2数のフレームの画像を含み、重み情報は、第2数の重み値を含み、オフセット処理モジュール84は、オフセット後の各組の特徴情報に対して、重み情報におけるj番目の重み値をそれぞれ用いて、現在組の特徴情報におけるj番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得るように構成され、jは、第2数以下の正整数である。
幾つかの実施例において、オフセット処理モジュール84は、重み付け処理後の特徴情報及び第1多次元特徴におけるオフセットされていない特徴情報を用いて、第2多次元特徴マップを構成するように構成される。
幾つかの実施例において、重み予測モジュールは、重み予測ネットワークの第1ダウンサンプリング層を用いて第1多次元特徴マップに対してダウンサンプリングを行い、第1ダウンサンプリング結果を得て、重み予測ネットワークの第1畳み込み層を用いて第1ダウンサンプリング結果に対して畳み込み処理を行い、第1特徴抽出結果を得て、重み予測ネットワークの第1活性化層を用いて第1特徴抽出結果に対して非線形処理を行い、重み情報を得るように構成される。
幾つかの実施例において、オフセット予測モジュール83は、オフセット予測ネットワークの第2ダウンサンプリング層を用いて第1多次元特徴マップに対してダウンサンプリングを行い、第2ダウンサンプリング結果を得て、オフセット予測ネットワークの第2畳み込み層を用いて第2ダウンサンプリング結果に対して畳み込み処理を行い、第2特徴抽出結果を得て、オフセット予測ネットワークの第1全結合層を用いて、第2特徴抽出結果に対して特徴結合を行い、第1特徴結合結果を得て、オフセット予測ネットワークの第2活性化層を用いて第1特徴結合結果に対して非線形処理を行い、非線形処理結果を得て、オフセット予測ネットワークの第2全結合層を用いて非線形処理結果に対して特徴結合を行い、第2特徴結合結果を得て、オフセット予測ネットワークの第3活性化層を用いて第2特徴結合結果に対して非線形処理を行い、オフセット情報を得るように構成される。
幾つかの実施例において、所定のネットワークモデルは、少なくとも1つの畳み込み層を含み、特徴抽出モジュール82は、所定のネットワークモデルの畳み込み層を用いて、分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得るように構成され、更に、所定のネットワークモデルの畳み込み層の数が1より大きい場合、所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、第2多次元特徴マップに対して特徴抽出を行い、新たな第1多次元特徴マップを得るように構成され、
オフセット予測モジュール83は更に、オフセット予測ネットワークを用いて新たな第1多次元特徴マップに対して予測を行い、新たなオフセット情報を得るように構成され、
オフセット処理モジュール84は更に、新たなオフセット情報を用いて第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて、新たな第2多次元特徴マップを得るように構成され、
ネットワーク分析モジュール85は更に、所定のネットワークモデルの全結合層を用いて新たな第2多次元特徴マップを分析し、分析対象ビデオの分析結果情報を得るように構成される。
幾つかの実施例において、分析対象ビデオは、複数フレームの画像を含み、特徴抽出モジュール82は、所定のネットワークモデルを用いて、複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得て、複数の特徴マップを、対応する画像の分析対象ビデオにおける時系列に従って連結し、第1多次元特徴マップを得るように構成される。
図9を参照すると、図9は、ビデオ分析のためのモデル訓練装置90の一実施例を示すブロック図である。ビデオ分析のためのモデル訓練装置90は、ビデオ取得モジュール91と、特徴抽出モジュール92と、オフセット予測モジュール93と、オフセット処理モジュール94と、ネットワーク分析モジュール95と、損失算出モジュール96と、パラメータ調整モジュール97と、を備え、
ビデオ取得モジュール91は、サンプルビデオを取得ように構成され、サンプルビデオは、所定のアノテーション情報を含み、
特徴抽出モジュール92は、所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得るように構成され、第1サンプルの多次元特徴マップは、サンプルビデオに対応する異なる時系列における特徴情報を含み、
オフセット予測モジュール93は、オフセット予測ネットワークを用いて第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るように構成され、
オフセット処理モジュール94は、オフセット情報を用いて第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の特徴情報に基づいて第2サンプルの多次元特徴マップを得るように構成され、
ネットワーク分析モジュール95は、所定のネットワークモデルを用いて第2サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得るように構成され、
損失算出モジュール96は、所定のアノテーション情報及び分析結果情報を用いて損失値を算出するように構成され、
パラメータ調整モジュール97は、損失値に基づいて、所定のネットワークモデル及びオフセット予測ネットワークのパラメータを調整するように構成される。
上記技術的解決手段によれば、サンプルビデオの時系列情報に対してモデリングを直接行うことができ、モデル訓練時の速度の向上に寄与し、また、時系列オフセットにより、空間情報と時系列情報を互いに交錯させることができる。従って、これに基づいて、分析処理を行い、後続で、ビデオ分析の正確度の向上に寄与する。
幾つかの実施例において、ビデオ分析のためのモデル訓練装置90は、上記ビデオ分析のためのモデル訓練方法における関連ステップを実行するように構成される他のモジュールを更に備えてもよい。具体的には、上記ビデオ分析装置の実施例における関連モジュールを参照することができ、ここで、詳細な説明を省略する。
図10を参照すると、図10は、本願の電子機器100の一実施例を示すブロック図である。電子機器100は、互いに結合されたメモリ101及びプロセッサ102を備え、プロセッサ102は、メモリ101に記憶されたプログラム命令を実行し、上記いずれか1つのビデオ分析方法の実施例のステップ又は上記いずれか1つのビデオ分析のためのモデル訓練方法の実施例のステップを実現させるように構成される。1つの具体的な実施シーンにおいて、電子機器100は、マイクロコンピュータ、サーバを含んでもよいが、これらに限定されない。また、電子機器100は、ノートパソコン、タブレットなどの携帯機器を含んでもよく、ここで限定しない。
具体的には、プロセッサ102は、その自体及びメモリ101を制御して、上記いずれか1つのビデオ分析方法の実施例のステップ又は上記いずれか1つのビデオ分析のためのモデル訓練方法の実施例のステップを実現させるように構成される。プロセッサ102は、中央演算装置(Central Processing Unit:CPU)と呼ばれてもよい。プロセッサ102は、信号処理能力を持つ集積回路チップであってもよい。プロセッサ102は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor:DSP)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)又は他のプログラマブルゲートアレイ、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。汎用プロセッサは、マイクロプロセッサであってもよく、又は、該プロセッサは、如何なる従来のプロセッサなどであってもよい。また、プロセッサ102は、集積回路チップにより共同で実現してもよい。
図11を参照すると、図11は、本願のコンピュータ可読記憶媒体110の一実施例を示すブロック図である。コンピュータ可読記憶媒体110に、プロセッサにより実行可能なプログラム命令1101が記憶されており、プログラム命令1101は、上記いずれか1つのビデオ分析方法の実施例のステップ又は上記いずれか1つのビデオ分析のためのモデル訓練方法の実施例のステップを実現させるように構成される。該コンピュータ可読記憶媒体は、揮発性又は不揮発性記憶媒体であってもよい。
本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記いずれか1つのビデオ分析方法の実施例のステップ又は上記いずれか1つのビデオ分析のためのモデル訓練方法の実施例のステップを実行する。
本願で提供される幾つかの実施例において、開示される方法及び装置は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施形態はただ例示的なもので、例えば、前記モジュール又はユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又はコンポーネントを組み合わせてもよいし、別のシステムに組み込んでもよい。又は幾つかの特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合、直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
分離部材として説明したユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットを選択することで、本実施形態の方策の目的を実現することができる。
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ソフトウェア機能ユニットとして実現してもよい。
集積したユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータ可読記憶媒体内に記憶されてもよい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現化することができ、該コンピュータソフトウェア製品は、記憶媒体に記憶してもよく、また、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク装置など)又はプロセッサ(processor)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。上述した記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる種々の媒体を含む。

Claims (17)

  1. ビデオ分析方法であって、
    分析対象ビデオを取得することと、
    所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることであって、前記第1多次元特徴マップは、前記分析対象ビデオに対応する異なる時系列における特徴情報を含む、ことと、
    オフセット予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、オフセット情報を得ることと、
    前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得ることと、
    前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることと、を含む、ビデオ分析方法。
  2. 前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得る前に、前記方法は、
    重み予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、重み情報を得ることを更に含み、
    前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得ることは、
    前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことと、
    前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことと、
    前記重み付け処理後の特徴情報に基づいて、第2多次元特徴マップを得ることと、を含むことを特徴とする
    請求項1に記載のビデオ分析方法。
  3. 前記第1多次元特徴マップの次元は、時系列次元及び所定の次元を含み、
    前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行うことは、
    所定の次元に従って、第1多次元特徴マップから少なくとも1組の特徴情報を選択することであって、各組の特徴情報は、同一の所定の次元における、異なる時系列に対応する特徴情報を含む、ことと、
    前記オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うことと、を含むことを特徴とする
    請求項1又は2に記載のビデオ分析方法。
  4. 前記所定の次元は、チャネル次元であり、及び/又は、
    前記オフセット情報は、第1数のオフセット値を含み、前記少なくとも1組の特徴情報は、第1数の組の第1特徴情報を含み、
    前記オフセット情報を用いて、前記少なくとも1組の特徴情報に対して、時系列次元でオフセットを行うことは、
    前記オフセット情報におけるi番目の前記オフセット値を用いて、第i組の前記第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得ることであって、前記iは、前記第1数以下の正整数である、ことを含むことを特徴とする
    請求項3に記載のビデオ分析方法。
  5. 前記オフセット情報におけるi番目の前記オフセット値を用いて、第i組の前記第1特徴情報に対して、前記時系列次元でオフセットを行い、第i組の第2特徴情報を得ることは、
    i番目の前記オフセット値が属する数値範囲を取得することであって、前記数値範囲の上限値と下限値との差が所定の数値である、ことと、
    第i組の前記第1特徴情報を前記時系列次元に沿って前記上限値個の時系列単位でオフセットし、第i組の第3特徴情報を得て、第i組の前記第1特徴情報を前記時系列次元に沿って前記下限値個の時系列単位でオフセットし、第i組の第4特徴情報を得ることと、
    i番目の前記オフセット値と前記下限値との差を重みとして、第i組の前記第3特徴情報に対して重み付け処理を行い、第i組の第1重み付け結果を得て、前記上限値と前記i番目のオフセット値との差を重みとして、第i組の前記第4特徴情報に対して重み付け処理を行い、第i組の第2重み付け結果を得ることと、
    前記第i組の第1重み付け結果と第i組の第2重み付け結果との和を算出して第i組の前記第2特徴情報とすることと、を含むことを特徴とする
    請求項4に記載のビデオ分析方法。
  6. 前記分析対象ビデオは、第2数のフレームの画像を含み、前記重み情報は、第2数の重み値を含み、
    前記重み情報を用いて、オフセット後の前記特徴情報に対して重み付け処理を行うことは、
    オフセット後の各組の特徴情報に対して、前記重み情報におけるj番目の重み値をそれぞれ用いて、現在組の特徴情報におけるj番目の時系列に対応する特徴値を重み付け処理し、重み付け処理後の対応する特徴情報を得ることを含み、
    前記jは、前記第2数以下の正整数であることを特徴とする
    請求項3に記載のビデオ分析方法。
  7. 重み付け処理後の前記特徴情報に基づいて、第2多次元特徴マップを得ることは、
    前記重み付け処理後の前記特徴情報及び前記第1多次元特徴におけるオフセットされていない特徴情報を用いて、前記第2多次元特徴マップを構成することを含むことを特徴とする
    請求項2から6のうちいずれか一項に記載のビデオ分析方法。
  8. 重み予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、重み情報を得ることは、
    前記重み予測ネットワークの第1ダウンサンプリング層を用いて、前記第1多次元特徴マップに対してダウンサンプリングを行い、第1ダウンサンプリング結果を得ることと、
    前記重み予測ネットワークの第1畳み込み層を用いて、前記第1ダウンサンプリング結果に対して畳み込み処理を行い、第1特徴抽出結果を得ることと、
    前記重み予測ネットワークの第1活性化層を用いて前記第1特徴抽出結果に対して非線形処理を行い、前記重み情報を得ることと、を含むことを特徴とする
    請求項2から6のうちいずれか一項に記載のビデオ分析方法。
  9. オフセット予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、オフセット情報を得ることは、
    前記オフセット予測ネットワークの第2ダウンサンプリング層を用いて、前記第1多次元特徴マップに対してダウンサンプリングを行い、第2ダウンサンプリング結果を得ることと、
    前記オフセット予測ネットワークの第2畳み込み層を用いて、前記第2ダウンサンプリング結果に対して畳み込み処理を行い、第2特徴抽出結果を得ることと、
    前記オフセット予測ネットワークの第1全結合層を用いて、前記第2特徴抽出結果に対して特徴結合を行い、第1特徴結合結果を得ることと、
    前記オフセット予測ネットワークの第2活性化層を用いて、前記第1特徴結合結果に対して非線形処理を行い、非線形処理結果を得ることと、
    前記オフセット予測ネットワークの第2全結合層を用いて前記非線形処理結果に対して特徴結合を行い、第2特徴結合結果を得ることと、
    前記オフセット予測ネットワークの第3活性化層を用いて前記第2特徴結合結果に対して非線形処理を行い、前記オフセット情報を得ることと、を含むことを特徴とする
    請求項1から6のうちいずれか一項に記載のビデオ分析方法。
  10. 前記所定のネットワークモデルは、少なくとも1つの畳み込み層を含み、所定のネットワークモデルを用いて、前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることは、
    所定のネットワークモデルの畳み込み層を用いて、前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることと、
    前記所定のネットワークモデルの畳み込み層の数が1より大きい場合、第2多次元特徴マップを得た後、且つ前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得る前に、前記方法は、
    前記所定のネットワークモデルにおける、特徴抽出を実行していない畳み込み層を用いて、前記第2多次元特徴マップに対して特徴抽出を行い、新たな第1多次元特徴マップを得ることと、
    オフセット予測ネットワークを用いて前記新たな第1多次元特徴マップに対して予測を行い、オフセット情報を得るステップ及び後続のステップを実行し、新たな第2多次元特徴マップを得ることと、
    を繰り返して実行し、前記所定のネットワークモデルの全ての畳み込み層で新たな第2多次元特徴マップの特徴抽出ステップを完了するまで継続することと、を含み、
    前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることは、
    前記所定のネットワークモデルの全結合層を用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得ることを含むことを特徴とする
    請求項1から6のうちいずれか一項に記載のビデオ分析方法。
  11. 前記分析対象ビデオは、複数フレームの画像を含み、所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得ることは、
    前記所定のネットワークモデルを用いて、前記複数フレームの画像に対してそれぞれ特徴抽出を行い、各フレームの画像に対応する特徴マップを得ることと、
    前記複数の特徴マップを、前記対応する画像の分析対象ビデオにおける時系列に従って連結し、前記第1多次元特徴マップを得ることと、を含むことを特徴とする
    請求項1から6のうちいずれか一項に記載のビデオ分析方法。
  12. ビデオ分析のためのモデル訓練方法であって、
    サンプルビデオを取得することであって、前記サンプルビデオは、所定のアノテーション情報を含む、ことと、
    所定のネットワークモデルを用いて前記サンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得ることであって、前記第1サンプルの多次元特徴マップは、前記サンプルビデオに対応する異なる時系列における特徴情報を含む、ことと、
    オフセット予測ネットワークを用いて前記第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得ることと、
    前記オフセット情報を用いて前記第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2サンプルの多次元特徴マップを得ることと、
    前記所定のネットワークモデルを用いて前記第2サンプルの多次元特徴マップを分析し、前記サンプルビデオの分析結果情報を得ることと、
    前記所定のアノテーション情報及び前記分析結果情報を用いて損失値を算出することと、
    前記損失値に基づいて、前記所定のネットワークモデル及び前記オフセット予測ネットワークのパラメータを調整することと、を含む、ビデオ分析のためのモデル訓練方法。
  13. ビデオ分析装置であって、
    分析対象ビデオを取得するように構成されるビデオ取得モジュールと、
    所定のネットワークモデルを用いて前記分析対象ビデオに対して特徴抽出を行い、第1多次元特徴マップを得るように構成される特徴抽出モジュールであって、前記第1多次元特徴マップは、前記分析対象ビデオに対応する異なる時系列における特徴情報を含む、特徴抽出モジュールと、
    オフセット予測ネットワークを用いて前記第1多次元特徴マップに対して予測を行い、オフセット情報を得るように構成されるオフセット予測モジュールと、
    前記オフセット情報を用いて前記第1多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2多次元特徴マップを得るように構成されるオフセット処理モジュールと、
    前記所定のネットワークモデルを用いて前記第2多次元特徴マップを分析し、前記分析対象ビデオの分析結果情報を得るように構成されるネットワーク分析モジュールと、を備える、ビデオ分析装置。
  14. ビデオ分析のためのモデル訓練装置であって、
    サンプルビデオを取得ように構成されるビデオ取得モジュールであって、前記サンプルビデオは、所定のアノテーション情報を含む、ビデオ取得モジュールと、
    所定のネットワークモデルを用いてサンプルビデオに対して特徴抽出を行い、第1サンプルの多次元特徴マップを得るように構成される特徴抽出モジュールであって、前記第1サンプルの多次元特徴マップは、前記サンプルビデオに対応する異なる時系列における特徴情報を含む、特徴抽出モジュールと、
    オフセット予測ネットワークを用いて前記第1サンプルの多次元特徴マップに対して予測を行い、オフセット情報を得るように構成されるオフセット予測モジュールと、
    前記オフセット情報を用いて前記第1サンプルの多次元特徴マップの少なくとも一部の特徴情報に対して時系列オフセットを行い、オフセット後の前記特徴情報に基づいて第2サンプルの多次元特徴マップを得るように構成されるオフセット処理モジュールと、
    前記所定のネットワークモデルを用いて前記第2サンプルの多次元特徴マップを分析し、サンプルビデオの分析結果情報を得るように構成されるネットワーク分析モジュールと、
    前記所定のアノテーション情報及び前記分析結果情報を用いて損失値を算出するように構成される損失算出モジュールと、
    前記損失値に基づいて、前記所定のネットワークモデル及び前記オフセット予測ネットワークのパラメータを調整するように構成されるパラメータ調整モジュールと、を備える、ビデオ分析のためのモデル訓練装置。
  15. 電子機器であって、前記電子機器は、互いに接続されるメモリ及びプロセッサを備え、前記プロセッサは、前記メモリに記憶されたプログラム命令を実行し、請求項1から11のうちいずれか一項に記載のビデオ分析方法を実現し、又は、請求項12に記載のビデオ分析のためのモデル訓練方法を実現するように構成される、電子機器。
  16. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にプログラム命令が記憶されており、前記プログラム命令がプロセッサにより実行される時、前記プロセッサに、請求項1から11のうちいずれか一項に記載のビデオ分析方法を実現させ、又は、請求項12に記載のビデオ分析のためのモデル訓練方法を実現させる、コンピュータ可読記憶媒体。
  17. コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサに、請求項1から11のうちいずれか一項に記載のビデオ分析方法を実行させ、又は、請求項12に記載のビデオ分析のためのモデル訓練方法を実行させる、コンピュータプログラム。
JP2021521512A 2020-01-17 2020-03-10 ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置 Active JP7096431B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010053048.4A CN111291631B (zh) 2020-01-17 2020-01-17 视频分析方法及其相关的模型训练方法、设备、装置
CN202010053048.4 2020-01-17
PCT/CN2020/078656 WO2021142904A1 (zh) 2020-01-17 2020-03-10 视频分析方法及其相关的模型训练方法、设备、装置

Publications (2)

Publication Number Publication Date
JP2022520511A JP2022520511A (ja) 2022-03-31
JP7096431B2 true JP7096431B2 (ja) 2022-07-05

Family

ID=71025430

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021521512A Active JP7096431B2 (ja) 2020-01-17 2020-03-10 ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置

Country Status (5)

Country Link
JP (1) JP7096431B2 (ja)
KR (1) KR20210093875A (ja)
CN (1) CN111291631B (ja)
TW (1) TWI761813B (ja)
WO (1) WO2021142904A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695519B (zh) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN112417952B (zh) * 2020-10-10 2022-11-11 北京理工大学 一种车辆碰撞防控系统的环境视频信息可用性测评方法
CN112464898A (zh) * 2020-12-15 2021-03-09 北京市商汤科技开发有限公司 事件检测方法及装置、电子设备和存储介质
CN112949449B (zh) * 2021-02-25 2024-04-19 北京达佳互联信息技术有限公司 交错判断模型训练方法及装置和交错图像确定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199902A (zh) 2014-08-27 2014-12-10 中国科学院自动化研究所 一种线性动态系统的相似性度量计算方法
US20170243058A1 (en) 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN108229280A (zh) 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN108229522A (zh) 2017-03-07 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
US20190013798A1 (en) 2017-07-06 2019-01-10 Analog Photonics LLC Laser frequency chirping structures, methods, and applications

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626803B2 (en) * 2014-12-12 2017-04-18 Qualcomm Incorporated Method and apparatus for image processing in augmented reality systems
WO2019035854A1 (en) * 2017-08-16 2019-02-21 Kla-Tencor Corporation MACHINE LEARNING IN RELATION TO METROLOGY MEASUREMENTS
US10395114B1 (en) * 2018-04-20 2019-08-27 Surfline\Wavetrak, Inc. Automated detection of features and/or parameters within an ocean environment using image data
CN109919025A (zh) * 2019-01-30 2019-06-21 华南理工大学 基于深度学习的视频场景文本检测方法、系统、设备及介质
CN110084742B (zh) * 2019-05-08 2024-01-26 北京奇艺世纪科技有限公司 一种视差图预测方法、装置及电子设备
CN110660082B (zh) * 2019-09-25 2022-03-08 西南交通大学 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199902A (zh) 2014-08-27 2014-12-10 中国科学院自动化研究所 一种线性动态系统的相似性度量计算方法
US20170243058A1 (en) 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN108229522A (zh) 2017-03-07 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练方法、属性检测方法、装置及电子设备
CN108229280A (zh) 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
US20190013798A1 (en) 2017-07-06 2019-01-10 Analog Photonics LLC Laser frequency chirping structures, methods, and applications

Also Published As

Publication number Publication date
CN111291631A (zh) 2020-06-16
TWI761813B (zh) 2022-04-21
TW202129535A (zh) 2021-08-01
CN111291631B (zh) 2023-11-07
KR20210093875A (ko) 2021-07-28
JP2022520511A (ja) 2022-03-31
WO2021142904A1 (zh) 2021-07-22

Similar Documents

Publication Publication Date Title
JP7096431B2 (ja) ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置
WO2023207163A1 (zh) 用于消防通道占用目标检测的目标检测模型、方法及应用
WO2020256704A1 (en) Real-time video ultra resolution
CA3066029A1 (en) Image feature acquisition
WO2022104202A1 (en) A temporal bottleneck attention architecture for video action recognition
US20230048405A1 (en) Neural network optimization method and apparatus
CN109543112A (zh) 一种基于循环卷积神经网络的序列推荐方法及装置
CN112801063B (zh) 神经网络系统和基于神经网络系统的图像人群计数方法
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN113780584A (zh) 标签预测方法、设备、存储介质及程序产品
WO2022088411A1 (zh) 图像检测及相关模型训练方法、装置、设备、介质及程序
CN117237756A (zh) 一种训练目标分割模型的方法、目标分割方法及相关装置
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN112651267A (zh) 识别方法、模型训练、系统及设备
CN116361643A (zh) 实现对象推荐的模型训练方法及对象推荐方法及相关装置
CN112926517B (zh) 一种人工智能监控方法
CN114758190A (zh) 训练图像识别模型的方法、图像识别方法、装置和农机
CN110879952B (zh) 一种视频帧序列的处理方法及装置
CN113256556A (zh) 一种图像选择方法及装置
Seetharam Structured Disentangling Networks for Learning Deformation Invariant Latent Spaces
CN114868124B (zh) 控制方法、信息处理装置以及控制程序
Roman From Hand-crafted to Self-attention-No-reference or Blind Image Quality Assessment
Junsong et al. Lightweight Steel Bar Detection Network Based on YOLOv5

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210420

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220623

R150 Certificate of patent or registration of utility model

Ref document number: 7096431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150