JP2022532669A

JP2022532669A - ビデオを識別するための方法及び装置

Info

Publication number: JP2022532669A
Application number: JP2021568598A
Authority: JP
Inventors: 霆姚; 涛 ▲梅▼
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2020-03-19
Publication date: 2022-07-15
Anticipated expiration: 2040-03-19
Also published as: CN111460876A; US20220215649A1; EP3958168A4; CN111460876B; EP3958168A1; US11967134B2; WO2020244279A1; JP7355851B2

Abstract

本願の実施例はビデオを識別するための方法及び装置を開示する。該方法の一具体的な実施形態は、識別対象ビデオを取得することと、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得することと、を含み、ＬＧＤモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間－時間特徴を学習する。該実施形態は、ローカル及びグローバル特徴伝播によってビデオの空間－時間特徴を学習することにより、ビデオの識別精度を向上させる。

Description

本願の実施例はコンピュータ技術分野に関し、具体的にビデオを識別するための方法及び装置に関する。

現在のデジタルコンテンツそのものはマルチメディアである。特に、センサーが豊富なモバイルデバイスの急増に伴い、画像やビデオは日常のコミュニケーションの媒体になっている。このため、マルチメディアコンテンツの理解は非常に重要になり、視覚分野における様々な技術の発展を加速する。そのうち、これらの技術を成功させるための根本的なブレークスルーは特徴学習である。これは畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）の成功によって証明されることができ、視覚的特徴における高学習能力と一般性を示す。

画像からビデオドメインへの自然な拡張は、ビデオフレームで２次元畳み込みニューラルネットワーク（２ＤＣＮＮ）を直接使用するか、ビデオセグメントで３次元畳み込みニューラルネットワーク（３ＤＣＮＮ）を使用する。しかしながら、各畳み込み操作は、隣接するピクセルのローカルウィンドウのみを処理し、受容野のグローバルビューを十分にキャプチャすることができないので、リモートピクセルの相関性を無視することを引き起こす。ビデオ情報の複雑さとビデオコンテンツは時間での長さの違いにより、このような欠陥はビデオ識別の分野でより明らかである。

本願の実施例はビデオを識別するための方法及び装置を提案する。

第１の態様では、本願の実施例はビデオを識別するための方法を提供し、識別対象ビデオを取得することと、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得することと、を含み、ＬＧＤモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間－時間特徴を学習する。

いくつかの実施例において、ＬＧＤモデルは複数のカスケードされたＬＧＤモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含む。

いくつかの実施例において、各ＬＧＤモジュールは、互いに影響を及ぼし、各空間－時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含む。

いくつかの実施例において、各ＬＧＤモジュールの伝播方向はグローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含み、グローバルからローカルへの伝播方向において、前のＬＧＤモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのローカル特徴マップを学習し、ローカルからグローバルへの伝播方向において、現在のＬＧＤモジュールのローカル特徴マップと前のＬＧＤモジュールのグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのグローバル特徴ベクトルを学習する。

いくつかの実施例において、前のＬＧＤモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのローカル特徴マップを学習することは、前のＬＧＤモジュールのグローバルパスの残差値を前のＬＧＤモジュールのローカル特徴マップに付加し、現在のＬＧＤモジュールのローカル特徴マップを生成することを含み、現在のＬＧＤモジュールのローカル特徴マップと前のＬＧＤモジュールのグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのグローバル特徴ベクトルを学習することは、前のＬＧＤモジュールのグローバル特徴ベクトルと現在のＬＧＤモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、現在のＬＧＤモジュールのグローバル特徴ベクトルを生成することを含む。

いくつかの実施例において、各ＬＧＤモジュールは少なくとも３つの射影行列によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該ＬＧＤモジュールの付加パラメータを減少する。

いくつかの実施例において、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得することは、識別対象ビデオと複数のカスケードされたＬＧＤモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習することと、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成することと、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得することと、を含む。

いくつかの実施例において、各ＬＧＤモジュールはＬＧＤ－２ＤモジュールまたはＬＧＤ－３Ｄモジュールである。

いくつかの実施例において、識別対象ビデオと複数のカスケードされたＬＧＤモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習することは、識別対象ビデオを複数の識別対象ビデオセグメントに分割することと、複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択することと、マルチフレーム識別対象ビデオフレームを複数のカスケードされたＬＧＤ－２Ｄモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とすることと、を含む。

いくつかの実施例において、複数の識別対象ビデオセグメントのうちの各識別対象ビデオセグメントは少なくとも１フレームの識別対象ビデオフレームを選択する。

いくつかの実施例において、識別対象ビデオと複数のカスケードされたＬＧＤモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習することは、識別対象ビデオを複数の識別対象ビデオセグメントに分割することと、複数の識別対象ビデオセグメントを複数のカスケードされたＬＧＤ－３Ｄモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とすることと、を含む。

いくつかの実施例において、複数のカスケードされたＬＧＤ－３Ｄモジュールは３次元学習を空間次元での２次元畳み込みと時間次元での１次元演算に分解する。

いくつかの実施例において、ローカルグローバル組み合わせ分類子は核に基づく分類子である。

第２の態様では、本願の実施例はビデオを識別するための装置を提供し、識別対象ビデオを取得するように配置される取得ユニットと、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得するように配置される識別ユニットと、を備え、ＬＧＤモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間－時間特徴を学習する。

いくつかの実施例において、識別ユニットは、識別対象ビデオと複数のカスケードされたＬＧＤモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習するように配置される学習サブユニットと、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成するように配置される合成サブユニットと、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得するように配置される識別サブユニットと、を含む。

いくつかの実施例において、学習サブユニットはさらに、識別対象ビデオを複数の識別対象ビデオセグメントに分割し、複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択し、マルチフレーム識別対象ビデオフレームを複数のカスケードされたＬＧＤ－２Ｄモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とするように配置される。

いくつかの実施例において、学習サブユニットはさらに、識別対象ビデオを複数の識別対象ビデオセグメントに分割し、複数の識別対象ビデオセグメントを複数のカスケードされたＬＧＤ－３Ｄモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とするように配置される。

第３の態様では、本願の実施例はサーバを提供し、該サーバは、１つまたは複数のプロセッサーと、１つまたは複数のプログラムが記憶される記憶装置とを含み、１つまたは複数のプログラムは１つまたは複数のプロセッサーによって実行されると、１つまたは複数のプロセッサーに第１の態様のうちのいずれかの実現形態に記載の方法を実現させる。

第４の態様では、本願の実施例はコンピュータ可読媒体を提供し、コンピュータプログラムが記憶され、該コンピュータプログラムはプロセッサーによって実行されると、第１の態様のうちのいずれかの実現形態に記載の方法を実現する。

本願の実施例によるビデオを識別するための方法及び装置は、まず、識別対象ビデオを取得し、次に、識別対象ビデオを予めトレーニングされたＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得するようにする。ローカル及びグローバル特徴伝播によってビデオの空間－時間特徴を学習することにより、ビデオの識別精度を向上させる。

以下の図面を参照して非限定的な実施例を詳細に説明することにより、本願の他の特徴、目的及び利点をより明らかにする。

本願を適用できる例示的なシステムアーキテクチである。本願によるビデオを識別するための方法の一実施例を示すフローチャートである。本願によるビデオを識別するための方法の他の実施例を示すフローチャートである。ＬＧＤモジュールの構造模式図である。ＬＧＤモジュールの学習模式図である。本願によるビデオを識別するための方法の他の実施例を示すフローチャートである。ＬＧＤ－２Ｄモジュールの構造模式図である。本願によるビデオを識別するための方法の更なる実施例を示すフローチャートである。ＬＧＤ－３Ｄモジュールの構造模式図である。本願によるビデオを識別するための装置の一実施例を示す構造模式図である。本願の実施例によるサーバを実現するために使用されるコンピュータシステムの構造模式図である。

以下、図面と実施例を組み合わせて本願をさらに詳細に説明する。理解できることとして、ここで記載されている具体的な実施例は、関連発明を解釈するためにのみ使用され、該発明を限定するものではない。また、説明する必要があることとして、記述を容易にするために、図面に関連発明に関連する部分のみを示す。

なお、衝突しない場合に、本願における実施例及び実施例における特徴を互いに組み合わせることができる。以下、図面を参照して実施例を組み合わせて本願を詳細に説明する。

図１は本願のビデオを識別するための方法またはビデオを識別するための装置を適用できる実施例の例示的なシステムアーキテクチ１００を示す。

図１に示すように、システムアーキテクチ１００は、ビデオ収集機器１０１、ネットワーク１０２及びサーバ１０３を備える。ネットワーク１０２は、ビデオ収集機器１０１とサーバ１０３との間に通信リンクの媒体を提供するために使用される。ネットワーク１０２は、有線、無線通信リンクまたは光ファイバケーブルなどの様々な接続カテゴリを含むことができる。

ビデオ収集機器１０１はネットワーク１０２を介してサーバ１０３に収集された動作ビデオを送信することができる。ビデオ収集機器１０１はハードウェアまたはソフトウェアであってもよい。ビデオ収集機器１０１はハードウェアである場合、ビデオ収集機能をサポートする様々な電子機器であってもよく、ウェブカメラ、ビデオカメラ、カメラ及びスマートフォンなどを含むが、これらに限定されない。ビデオ収集機器１０１はソフトウェアである場合、上記の電子機器に取り付けられることができる。複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで具体的に限定しない。

サーバ１０３は、ビデオ識別サーバなどの様々なサービスを提供するサーバであってもよい。ビデオ識別サーバは取得された識別対象ビデオなどのデータに対して分析などの処理を行い、処理結果（例えば識別対象ビデオのカテゴリ）を生成する。

なお、サーバ１０３は、ハードウェアまたはソフトウェアであってもよい。サーバ１０３はハードウェアである場合、複数のサーバからなる分散サーバークラスターとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ１０３はソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば分散サービスを提供するために使用される）として実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよい。ここで、具体的に限定されない。

なお、本願の実施例によるビデオを識別するための方法は、一般的にサーバ１０３により実行され、対応的に、ビデオを識別するための装置は、一般的にサーバ１０３に設けられる。

理解すべきことして、図１におけるビデオ収集機器、ネットワーク及びサーバの数は例示的なものである。実現の必要に応じて、任意の数のビデオ収集機器、ネットワーク及びサーバを備えてもよい。

図２を参照し続き、本願によるビデオを識別するための方法の一実施例のフロー２００である。該ビデオを識別するための方法は、以下のステップを含む。

ステップ２０１において、識別対象ビデオを取得する。

本実施例において、ビデオを識別するための方法の実行主体（例えば図１に示すようなサーバ１０３）は、ビデオ収集機器（例えば図１に示すようなビデオ収集機器１０１）からその収集されたビデオを取得し、識別対象ビデオとすることができる。識別対象ビデオは任意のコンテンツを含むビデオであってもよく、そのコンテンツは動作、活動、イベント等を含むが、これらに限定されない。

ステップ２０２において、識別対象ビデオを予めトレーニングされたＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得する。

本実施例において、上記実行主体は、識別対象ビデオを予めトレーニングされたＬＧＤ（ＬｏｃａｌａｎｄＧｌｏｂａｌＤｉｆｆｕｓｉｏｎ、ローカル及びグローバル特徴伝播）モデルに入力し、識別対象ビデオのカテゴリを取得することができる。

本実施例において、ＬＧＤモデルはローカル及びグローバル特徴伝播によってビデオの空間－時間特徴を学習することができる。具体的に、ＬＧＤモデルは、識別対象ビデオのローカル特徴とグローバル特徴を同期学習するための新しい３次元ニューラルネットワーク構造であってもよい。一般的に、このような構造は基本的なＬＧＤモジュールからなる。各ＬＧＤモジュールはローカル特徴とグローバル特徴の相互伝播を通じてローカル特徴とグローバル特徴を同時に更新することができる。このような伝播操作はローカルとグローバルの両方の情報を効果的に組み合わせ、それにより、より強力なビデオ特徴表現を取得する。

本願の実施例によるビデオを識別するための方法は、まず、識別対象ビデオを取得し、次に、識別対象ビデオを予めトレーニングされたＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得する。ローカル及びグローバル特徴伝播によってビデオの空間－時間特徴を学習することにより、ビデオの識別精度を向上させる。

さらに図３を参照し、本願によるビデオを識別するための方法の他の実施例のフロー３００を示す。

本実施例において、ＬＧＤモデルは複数のカスケードされたＬＧＤモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含むことができる。

本実施例において、ビデオを識別するための方法は以下のステップを含んでもよい。

ステップ３０１において、識別対象ビデオを取得する。

本実施例において、ステップ３０１の具体的な操作は図２に示すような実施例のステップ２０１では詳細に紹介され、ここで繰り返さない。

ステップ３０２において、識別対象ビデオと複数のカスケードされたＬＧＤモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習する。

本実施例において、ビデオを識別するための方法の実行主体（例えば図１に示すようなサーバ１０３）は複数のカスケードされたＬＧＤモジュールを使用して識別対象ビデオを処理し、識別対象ビデオのローカル特徴とグローバル特徴を並列学習することができる。ＬＧＤモジュールは２種の異なる構造を含むことができ、ＬＧＤ－２ＤとＬＧＤ－３Ｄと呼ばれ、異なるローカル変換関数とトレーニング戦略を有する。具体的に、図６と図８に示すような実施例において紹介する。

本実施例のいくつかの選択可能な実現形態において、各ＬＧＤモジュールは、互いに影響を及ぼし、各空間－時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含んでもよい。理解を容易にするために、図４はＬＧＤモジュールの構造模式図を示す。ＬＧＤモジュールは、ローカルパスとグローバルパスが互いに影響を及ぼすユニットであってもよい。このように、複数のカスケードされたＬＧＤモジュールを含むＬＧＤモデルは、ローカルとグローバルビデオ情報をシミュレートすることを目的とする二重パスネットワークである。２つのパスの間の伝播によって学習されたビデオ特徴を通じてリモートピクセルの相関性を効果的にキャプチャすることができる。

本実施例のいくつかの選択可能な実現形態において、各ＬＧＤモジュールの伝播方向は、グローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含むことができる。グローバルからローカルへの伝播方向において、前のＬＧＤモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのローカル特徴マップを学習する。例えば、前のＬＧＤモジュールのグローバルパスの残差値を前のＬＧＤモジュールのローカル特徴マップに付加し、現在のＬＧＤモジュールのローカル特徴マップを生成する。ローカルからグローバルへの伝播方向において、現在のＬＧＤモジュールのローカル特徴マップと前のＬＧＤモジュールのグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのグローバル特徴ベクトルを学習する。例えば、前のＬＧＤモジュールのグローバル特徴ベクトルと現在のＬＧＤモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、現在のＬＧＤモジュールのグローバル特徴ベクトルを生成する。

例えば、ＬＧＤモジュールは下記式によって２つのパスの間の相互作用をシミュレートすることができる。

式中、ｌは正の整数であり、複数のカスケードされたＬＧＤモジュールのうちのｌ番目のＬＧＤモジュールを示す。

はｌ－１番目のＬＧＤモジュールの出力ペアを示し、ｌ番目のＬＧＤモジュールの入力ペアとも呼ばれる。

はｌ番目のＬＧＤモジュールの出力ペアを示す。

はｌ番目のＬＧＤモジュールにより出力されるローカル特徴マップを示す。

はｌ番目のＬＧＤモジュールにより出力されるグローバル特徴ベクトルを示す。Ｃ、Ｔ、Ｈ及びＷはそれぞれ４Ｄデータのチャネル数、時間の長さ、高さ及び幅である。

はすべてのＣ×Ｔ×Ｈ×Ｗ次元ベクトルで構成されるベクトルグループである。

はすべてのＣ次元ベクトルで構成されるベクトルグループである。ＢはＬＧＤモジュール内部の詳細な操作を示す。

理解を容易にするために、図５はＬＧＤモジュールの学習模式図を示す。各モジュール内部の詳細な操作を以下のような２つの伝播方向に分解することができる。

１、グローバルからローカルへの伝播方向。該方向はローカル特徴マップｘ_ｌ－１からグローバル特徴ベクトルｇ_ｌ－１の優先度を有する更新されるローカル特徴マップｘ_ｌまでの変換を学習することである。目標は、グローバル優先度をグローバル残差値にカスタマイズすることである。グローバル残差値は下記式によって各位置に伝播することができる。

式中、

は射影行列である。

はすべてのＣ×Ｃ次元ベクトルで構成されるベクトルグループである。ＵＳはアップサンプリング操作であり、残差ベクトルを各位置にコピーする。Ｆはローカル変換関数（即ち３Ｄ畳み込み）である。関数の選択はネットワークアーキテクチャによって決められる。ＲｅＬＵは線形整流関数であり、修正線形ユニットとも呼ばれ、人工ニューラルネットワークで一般的に使用される活性化関数であり、通常、ランプ関数及びその変形に代表される非線形関数を指す。

２、ローカルからグローバルへの伝播方向。該方向はローカル特徴マップｘ_ｌを使用してグローバル特徴変数ｇ_ｌを更新することである。ここで、下記式によってグローバル特徴ベクトルｇ_ｌ－１とローカル特徴マップｘ_ｌのグローバル平均プーリング（ＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌｉｎｇ、ＧＡＰ）を線形に埋め込む。

式中、

と

はローカル特徴とグローバル特徴を組み合わせる射影行列である。Ｐ（ｘ_ｌ）はローカル特徴マップのグローバル平均プーリングである。

本実施例のいくつかの選択可能な実現形態において、各ＬＧＤモジュールは少なくとも３つの射影行列（例えば、Ｗ^ｘ，ｇ、Ｗ^ｇ，ｘ及びＷ^ｇ，ｇ）によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該ＬＧＤモジュールの付加パラメータを減少することができる。例えば、各射影行列の低ランク近似はＷ＝Ｗ_１Ｗ_２である。

はすべて

次元ベクトルで構成されるベクトルグループであり、

はすべての

次元ベクトルで構成されるベクトルグループである。

である場合、パラメータ及び計算コストが大幅に低減されることができる。相互検証により、

である場合、性能に悪い影響を及ぼさない。しかも、このような近似によって、各ＬＧＤモジュールの付加パラメータの数が３Ｃ^２から

まで減少する。

ステップ３０３において、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成する。

本実施例において、上記実行主体はローカルグローバル組み合わせ分類子を使用して識別対象ビデオのローカル特徴とグローバル特徴を合成し、識別対象ビデオの合併特徴を生成することができる。つまり、ローカルグローバル組み合わせ分類子はローカルパスとグローバルパスの最終特徴を一緒に組み合わせることができる。

本実施例のいくつかの選択可能な実現形態において、ローカルグローバル組み合わせ分類子は核に基づく分類子であってもよい。

例えば、２つのビデオの間の類似性測度の核表現を考慮する。形式上で、

と

を２つのビデオの最後出力ペアとして示し、ローカルとグローバル特徴上で双線形核を選択し、ニューラルネットワークではエンドツーエンドのトレーニングを行うことができる。核関数は、以下の通りであり、

式中、Ｎ＝Ｌ×Ｈ×Ｗは空間－時間位置の数である。〈・,・〉_２は双線形核である。

はｘ_Ｌのうちのｉ番目の位置の特徴ベクトルを示す。テンソルスケッチ投影によって双線形核を近似し、特徴空間の次元を効果的に減少することができる。核関数を分解することにより、特徴図は

に示されることができる。

式中、［・,・］は２つのベクトルの接続を示す。

によって

を高次元ベクトルに結合する。全体過程はニューラルネットワークではエンドツーエンドのトレーニングを行うことができる。

ステップ３０４において、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得する。

本実施例において、上記実行主体は、識別対象ビデオの合併特徴を完全接続層に入力してクラスラベル予測を行い、識別対象ビデオのカテゴリを取得する。

図３から分かるように、図２に対応する実施例と比べて、本実施例におけるビデオを識別するための方法のフロー３００はビデオを認識するステップを強調している。これにより、本実施例に記載の手段におけるＬＧＤモデルは複数のカスケードされたＬＧＤモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含むことができる。複数のカスケードされたＬＧＤモジュールを使用して識別対象ビデオのローカル特徴とグローバル特徴を並列学習し、ローカルグローバル組み合わせ分類子を利用して識別対象ビデオの合併特徴を合成し、完全接続層を利用してクラスラベルを予測する。ローカル特徴とグローバル特徴を組み合わせて、ビデオの識別精度を更に向上させる。

図６を更に参照し、本願によるビデオを識別するための方法の他の実施例のフロー６００である。

本実施例において、ＬＧＤモデルは複数のカスケードされたＬＧＤモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含むことができる。各ＬＧＤモジュールはＬＧＤ－２Ｄモジュールである。理解を容易にするために、図７は複数のカスケードされたＬＧＤ－２Ｄモジュールの構造模式図を示す。

本実施例において、ビデオを識別するための方法は、以下のステップを含む。

ステップ６０１において、識別対象ビデオを取得する。

本実施例において、ステップ６０１の具体的な操作は図３に示すような実施例におけるステップ３０１では詳細に紹介され、ここで繰り返さない。

ステップ６０２において、識別対象ビデオを複数の識別対象ビデオセグメントに分割する。

本実施例において、ビデオを識別するための方法の実行主体（例えば図１に示すようなサーバ１０３）は識別対象ビデオを複数の識別対象ビデオセグメントに分割することができる。

ステップ６０３において、複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択する。

本実施例において、上記実行主体は複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択することができる。マルチフレーム識別対象ビデオフレームは複数の非連続ビデオフレームであってもよい。通常、各識別対象ビデオセグメントは少なくとも１フレームの識別対象ビデオフレームを選択する。例えば、時間セグメントネットワーク（ＴｅｍｐｏｒａｌＳｅｇｍｅｎｔＮｅｔｗｏｒｋ、ＴＳＮ）の啓発を受けて、各識別対象ビデオセグメントは１フレームの識別対象ビデオフレームを選択する。

ステップ６０４において、マルチフレーム識別対象ビデオフレームを複数のカスケードされたＬＧＤ－２Ｄモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とする。

本実施例において、上記実行主体はマルチフレーム識別対象ビデオフレームを複数のカスケードされたＬＧＤ－２Ｄモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とすることができる。

ここで、ビデオ特徴を直接学習する方法は、２Ｄ畳み込みをローカル変換関数Ｆとして直接使用することであってもよい。このため、ＬＧＤ－２Ｄモジュールのローカルパスでは、共有された２ＤＣＮＮはバックボーンネットワークとして独立して実行されることができる。ＬＧＤ－２Ｄモジュールの入力は複数の非連続ビデオフレームであり、グローバルパスはこれらの非連続ビデオフレームのグローバル特徴を学習する。なお、初期ローカル特徴マップｘ_ｌは入力フレームに単一のローカル変換関数Ｆを適用して計算することによって実現される。そして、初期グローバル特徴ベクトルｇ_ｌ＝Ｐ（ｘ_ｌ）はｘ_ｌのグローバル平均値である。

ステップ６０５において、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成する。

ステップ６０６において、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得する。

本実施例において、ステップ６０５－６０６の具体的な操作は図３に示すような実施例におけるステップ３０３－３０４では詳細に紹介され、ここで繰り返さない。

図６から分かるように、図３に対応する実施例と比べて、本実施例におけるビデオを識別するための方法のフロー６００はビデオを認識するステップを強調する。これにより、本実施例に記載の手段はＬＧＤ－２Ｄモジュールを使用して非連続ビデオフレームのローカル特徴とグローバル特徴を並列学習することにより、ビデオのローカル特徴とグローバル特徴を取得する。

図８を更に参照し、本願によるビデオを識別するための方法の更なる実施例のフロー８００を示す。

本実施例において、ＬＧＤモデルは複数のカスケードされたＬＧＤモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含んでもよい。各ＬＧＤモジュールはＬＧＤ－３Ｄモジュールである。理解を容易にするために、図９は複数のカスケードされたＬＧＤ－３Ｄモジュールの構造模式図を示す。

ステップ８０１において、識別対象ビデオを取得する。

本実施例において、ステップ８０１の具体的な操作は図３に示すような実施例におけるステップ３０１では詳細に紹介され、ここで繰り返さない。

ステップ８０２において、識別対象ビデオを複数の識別対象ビデオセグメントに分割する。

ステップ８０３において、複数の識別対象ビデオセグメントを複数のカスケードされたＬＧＤ－３Ｄモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とする。

本実施例において、上記実行主体は複数の識別対象ビデオセグメントを複数のカスケードされたＬＧＤ－３Ｄモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とすることができる。

ここで、ビデオ特徴学習のもう１つの主要なブランチは３ＤＣＮＮである。３ＤＣＮＮプロファイル設定に従い、複数の識別対象ビデオセグメントをＬＧＤ－３Ｄモジュールに入力し、３Ｄ畳み込みをローカル変換関数として使用する。しかしながら、３ＤＣＮＮのトレーニング計算量がより大きく、モデルが２ＤＣＮＮよりも大きくなる。このため、疑似３次元畳み込みを選択し、３次元学習を空間次元での２次元畳み込みと時間次元での１次元演算に分解する。

ここで、ＲｅｓＮｅｔ－５０バックボーンに基づくＬＧＤ－３Ｄを例とすると、ＬＧＤ－３Ｄはまず、元のＲｅｓＮｅｔ－５０における各３×３畳み込み核を１つの１×３×３空間畳み込みと３×１×１時間畳み込みに置き換え、次に、各残差ユニットに基づいてＬＧＤモジュールを構築する。空間畳み込みのすべての重みは、予めトレーニングされたＲｅｓＮｅｔ－５０モデルから、初期化入力ビデオセグメントのサイズを１６×１１２×１１２と設定し、１６個の連続フレームからなり、解像度は１１２×１１２である。２つの最大プーリングレイヤーと２つの時間ステップにより、ビデオセグメントの長さが２分の１に短縮されるため、小さい入力解像度と時間合併により計算コストとトレーニング時間を効果的に減少することができる。核に基づく分類子により次元４×７×７を有する最終ローカル特徴とグローバル特徴を組み合わせる。より多くのＬＧＤモジュールを繰り替えることによって、ＲｅｓＮｅｔ－１０１以上のネットワークに容易に拡張できる。

ここで、核に基づく分類子によりネットワーク全体を最初からトレーニングすることの難しさを考慮し、ＬＧＤモデルをトレーニングするための２段階の戦略を提案し、具体的に以下の通りである。

まず、第１の段階において、トレーニング開始時に、分類子を組み合わせない場合で基本的なネットワークを最適化し、ローカル特徴とグローバル特徴を調整する。最適化関数は、

であってもよく、
式中、

は入力ビデオの最後の出力ペアを示す。ｙは入力ビデオのカテゴリを示す。Ｌ_Ｗは射影行列Ｗを有するｓｏｆｔｍａｘクロスエントロピー損失を示す。総損失はグローバル特徴とローカルを平均した後のローカル特徴の分類エラーを含む。

次に、第２の段階において、基本的なネットワークトレーニングの後、ネットワーク全体の損失を

に調整し、
式中、

は特徴映射である。

ステップ８０４において、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成する。

ステップ８０５において、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得する。

本実施例において、ステップ８０４－８０５の具体的な操作は図３に示すような実施例におけるステップ３０３－３０４では詳細に紹介され、ここで繰り返さない。

図８から分かるように、図３に対応する実施例と比べて、本実施例におけるビデオを識別するための方法のフロー８００はビデオを識別するステップを強調している。これにより、本実施例に記載の手段はＬＧＤ－３Ｄモジュールを利用してビデオセグメントのローカル特徴とグローバル特徴を並列学習することにより、ビデオのローカル特徴とグローバル特徴を取得する。

図１０を更に参照し、上記各図に示すような方法の実現として、本願はビデオを識別するための装置の一実施例を提供し、該装置の実施例は図２に示すような方法の実施例に対応し、該装置は具体的に様々な電子機器に適用できる。

図１０に示すように、本実施例によるビデオを識別するための装置１０００は、取得ユニット１００１と識別ユニット１００２を含んでもよい。取得ユニット１００１は、識別対象ビデオを取得するように配置され、識別ユニット１００２は、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得するように配置され、ＬＧＤモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間－時間特徴を学習する。

本実施例において、ビデオを識別するための装置１０００において、取得ユニット１００１と識別ユニット１００２の具体的な処理及びそのもたらす技術的効果について図２に対応する実施例におけるステップ２０１とステップ２０２の関連説明を参照することができ、ここで繰り返さない。

本実施例のいくつかの選択可能な実現形態において、ＬＧＤモデルは複数のカスケードされたＬＧＤモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含む。

本実施例のいくつかの選択可能な実現形態において、各ＬＧＤモジュールは、互いに影響を及ぼし、各空間－時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含む。

本実施例のいくつかの選択可能な実現形態において、各ＬＧＤモジュールの伝播方向はグローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含み、グローバルからローカルへの伝播方向において、前のＬＧＤモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのローカル特徴マップを学習し、ローカルからグローバルへの伝播方向において、現在のＬＧＤモジュールのローカル特徴マップと前のＬＧＤモジュールのグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのグローバル特徴ベクトルを学習する。

本実施例のいくつかの選択可能な実現形態において、前のＬＧＤモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのローカル特徴マップを学習することは、前のＬＧＤモジュールのグローバルパスの残差値を前のＬＧＤモジュールのローカル特徴マップに付加し、現在のＬＧＤモジュールのローカル特徴マップを生成することを含み、現在のＬＧＤモジュールのローカル特徴マップと前のＬＧＤモジュールのグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのグローバル特徴ベクトルを学習することは、前のＬＧＤモジュールのグローバル特徴ベクトルと現在のＬＧＤモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、現在のＬＧＤモジュールのグローバル特徴ベクトルを生成することを含む。

本実施例のいくつかの選択可能な実現形態において、各ＬＧＤモジュールは少なくとも３つの射影行列によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該ＬＧＤモジュールの付加パラメータを減少する。

本実施例のいくつかの選択可能な実現形態において、識別ユニット１００２は、識別対象ビデオと複数のカスケードされたＬＧＤモジュールに基づいて、識別対象ビデオのローカル特徴とグローバル特徴を並列学習するように配置される学習サブユニット（図示せず）と、識別対象ビデオのローカル特徴とグローバル特徴をローカルグローバル組み合わせ分類子に入力し、識別対象ビデオの合併特徴を合成するように配置される合成サブユニット（図示せず）と、識別対象ビデオの合併特徴を完全接続層に入力し、識別対象ビデオのカテゴリを取得するように配置される識別サブユニット（図示せず）と、を含む。

本実施例のいくつかの選択可能な実現形態において、各ＬＧＤモジュールはＬＧＤ－２ＤモジュールまたはＬＧＤ－３Ｄモジュールである。

本実施例のいくつかの選択可能な実現形態において、学習サブユニットはさらに、識別対象ビデオを複数の識別対象ビデオセグメントに分割し、複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択し、マルチフレーム識別対象ビデオフレームを複数のカスケードされたＬＧＤ－２Ｄモジュールに入力し、マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴及びグローバル特徴とするように配置される。

本実施例のいくつかの選択可能な実現形態において、複数の識別対象ビデオセグメントのうちの各識別対象ビデオセグメントは少なくとも１フレームの識別対象ビデオフレームを選択する。

本実施例のいくつかの選択可能な実現形態において、学習サブユニットはさらに、識別対象ビデオを複数の識別対象ビデオセグメントに分割し、複数の識別対象ビデオセグメントを複数のカスケードされたＬＧＤ－２Ｄモジュールに入力し、複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、識別対象ビデオのローカル特徴とグローバル特徴とするように配置される。

本実施例のいくつかの選択可能な実現形態において、複数のカスケードされたＬＧＤ－３Ｄモジュールは３次元学習を空間次元での２次元畳み込みと時間次元での１次元演算に分解する。

本実施例のいくつかの選択可能な実現形態において、ローカルグローバル組み合わせ分類子は核に基づく分類子である。

以下、図１１を参照し、本願の実施例のサーバ（例えば図１に示すようなサーバ１０３）を実現するために使用できるコンピュータシステム１１００の構造模式図である。図１１に示されるサーバは一例に過ぎず、本願の実施例の機能と使用範囲に対していかなる制限を構成しない。

図１１に示すように、コンピュータシステム１１００は中央処理ユニット（ＣＰＵ）１１０１を含み、読み取り専用メモリ（ＲＯＭ）１１０２に記憶されるプログラムまたは記憶部分１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされたプログラムに基づき様々な適切な動作と処理を実行することができる。ＲＡＭ１１０３には、システム１１００の操作に必要な様々なプログラムとデータが記憶されることができる。ＣＰＵ１１０１、ＲＯＭ１１０２及びＲＡＭ１１０３はバス１１０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インタフェース１１０５もバス１１０４に接続される。

キーボードやマウスなどの入力部分１１０６、ブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など及びスピーカーなどを含む出力部分１１０７、ハードディスク等を含む記憶部分１１０８、及びＬＡＮカード、モデムなどを含むネットワークインタフェースカードを含む通信部分１１０９などの部材はＩ／Ｏインタフェース１１０５に接続される。通信部分１１０９はインターネットなどのネットワークを介して通信処理を実行する。ドライバ１１１０はまた、必要に応じて、Ｉ／Ｏインタフェース１１０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア１１１１は、必要に応じてドライバ１１１０に取り付けられ、そこから読み取ったコンピュータプログラムを必要に応じて記憶部分１１０８にインストールするようにする。

特に、本開示の実施例によれば、以上でフローチャートを参照して説明した過程はコンピュータソフトウェアプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に載せられるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムはフローチャートに示すような方法を実行するためのプログラムコードを含む。このような実施例において、該コンピュータプログラムは通信部分１１０９を介してネットワークからダウンロード及びインストールされ、及び／またはリムーバブルメディア１１１１からインストールされることができる。該コンピュータプログラムは中央処理ユニット（ＣＰＵ）７０１によって実行されると、本願の方法に限定される上記機能を実行する。

なお、本願に記載のコンピュータ可読媒体はコンピュータ可読信号媒体またはコンピュータ可読記憶媒体または上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、電気的、磁気的、光学的、電磁的、赤外線、または半導体のシステム、装置またはデバイス、または以上の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つまたは複数のワイヤを有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含むまたは記憶する任意の有形媒体であってもよく、該プログラムは命令実行システム、装置またはデバイスによって使用されるか、またはそれらと組み合わせて使用することができる。本願において、コンピュータ可読信号媒体は、ベースバンドで、または搬送波の一部として伝播されるデータ信号を含むことができ、コンピュータ可読プログラムコードが載せられる。このように伝播されるデータ信号は、電磁信号、光信号または上記の任意の適切な組み合わせを含むが、これらに限定されない多くの形態を採用することができる。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は命令実行システム、装置またはデバイスにより使用されるか、またはそれらと組み合わせて使用するプログラムを送信、伝播または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送されることができ、前記媒体は無線、電線、光ケーブル、ＲＦなど、または上記の任意の適切な組み合わせを含むが、これらに限定されない。

１つ以上のプログラミング言語またはその組み合わせで本願の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向のプログラミング言語を含み、「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を更に含む。プログラムコードは完全にユーザコンピュータ上で実現され、一部はユーザコンピュータで実行され、１つの独立したソフトウェアパッケージとして実行され、一部はユーザコンピュータ上で一部はリモートコンピュータで実行され、または完全にリモートコンピュータまたはサーバ上で実行されることができる。リモートコンピュータに関する場合、リモートコンピュータはローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザコンピュータに接続され、または、外部コンピュータ（例えばインターネットサービスプロバイダーを使用してインターネットを介して接続する）に接続されてもよい。

図面のフローチャート及びブロック図は、本願の様々な実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。この点で、フローチャートまたはブロック図の各ブロックは１つのモジュール、プログラムセグメント、またはコードの一部を表すことができ、該モジュール、プログラムセグメント、またはコードの一部は規定している論理機能を実現するための１つまたは複数の実行可能な命令を含む。また、注意すべきこととして、いくつかの代替の実現では、ブロックでマークされた機能も図でマークされた順序と異なる順序で発生する可能性がある。例えば、連続して表示される２つのブロックは、実際には基本的に並列して実行でき、関連する機能によっては逆の順序で実行される場合もある。さらに、注意すべきこととして、ブロック図及び／またはフローチャートの各ブロック、及びブロック図及び／またはフローチャートのブロックの組み合わせは、規定している機能または操作を実行する専用のハードウェアに基づくシステムを使用して実現するか、または専用のハードウェアとコンピュータ命令との組み合わせを使用して実現することができる。

本願の実施例に記載の関したユニットはソフトウェアによって実現されることができ、ハードウェアによって実現されることもできる。記載されるユニットはプロセッサーに設けられてもよく、例えば、プロセッサーであって、取得ユニットと識別ユニットを含むように記載されることができる。これらのユニットの名称は、特定の状況での該ユニット自体の限定を構成するものではなく、例えば、取得ユニットは、「識別対象ビデオを取得するユニット」として記載されることもできる。

他の態様として、本願はコンピュータ可読媒体をさらに提供し、該コンピュータ可読媒体は上記実施例に記載のサーバに含まれるものであってもよいし、独立して存在でき、該サーバに搭載されないものであってもよい。上記コンピュータ可読媒体に１つまたは複数のプログラムが載せられ、上記１つまたは複数のプログラムは該サーバによって実行される場合、該サーバに、識別対象ビデオを取得させ、識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、識別対象ビデオのカテゴリを取得させ、ＬＧＤモデルはローカル及びグローバル特徴伝播によって識別対象ビデオの空間－時間特徴を学習する。

以上のものは、本願の好ましい実施例及び応用される技術原理に対する説明に過ぎる。当業者にとって、本願に関する発明範囲は、上記技術的特徴の特定の組み合わせによって形成される技術的解決手段に限定されなく、同時に上記の発明構想を逸脱することなく、上記技術的特徴またはその同等の特徴により任意に組み合わせることによって形成される技術的解決手段にも含まれるべきであるのを理解すべきである。例えば上記の特徴と本願に開示した（これに限定されない）類似の機能を有する技術特徴を互いに置き換えることによって形成される技術的解決手段である。

1001 取得ユニット
1002 識別ユニット
1105 Ｉ／Ｏインタフェース
1106 入力部分
1107 出力部分
1108 記憶部分
1109 通信部分
1110 ドライバ
1111 リムーバブルメディア

Claims

ビデオを識別するための方法であって、
識別対象ビデオを取得することと、
前記識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、前記識別対象ビデオのカテゴリを取得することと、を含み、前記ＬＧＤモデルはローカル及びグローバル特徴伝播によって前記識別対象ビデオの空間－時間特徴を学習する、ビデオを識別するための方法。
前記ＬＧＤモデルは複数のカスケードされたＬＧＤモジュール、ローカルグローバル組み合わせ分類子及び完全接続層を含む請求項１に記載の方法。
各ＬＧＤモジュールは、互いに影響を及ぼし、各空間－時間位置のローカル変化とグローバル外観を記述するためのローカルパスとグローバルパスを含む請求項２に記載の方法。
各ＬＧＤモジュールの伝播方向はグローバルからローカルへの伝播方向とローカルからグローバルへの伝播方向を含み、前記グローバルからローカルへの伝播方向において、前のＬＧＤモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのローカル特徴マップを学習し、前記ローカルからグローバルへの伝播方向において、前記現在のＬＧＤモジュールのローカル特徴マップと前記前のＬＧＤモジュールのグローバル特徴ベクトルに基づいて前記現在のＬＧＤモジュールのグローバル特徴ベクトルを学習する請求項３に記載の方法。
前のＬＧＤモジュールのローカル特徴マップとグローバル特徴ベクトルに基づいて現在のＬＧＤモジュールのローカル特徴マップを学習することは、
前記前のＬＧＤモジュールのグローバルパスの残差値を前記前のＬＧＤモジュールのローカル特徴マップに付加し、前記現在のＬＧＤモジュールのローカル特徴マップを生成することを含み、
前記現在のＬＧＤモジュールのローカル特徴マップと前記前のＬＧＤモジュールのグローバル特徴ベクトルに基づいて前記現在のＬＧＤモジュールのグローバル特徴ベクトルを学習することは、
前記前のＬＧＤモジュールのグローバル特徴ベクトルと前記現在のＬＧＤモジュールのローカル特徴マップのグローバル平均プーリングを線形に埋め込んで、前記現在のＬＧＤモジュールのグローバル特徴ベクトルを生成することを含む請求項４に記載の方法。
各ＬＧＤモジュールは少なくとも３つの射影行列によってローカル特徴マップとグローバル特徴ベクトルを生成し、各射影行列の低ランク近似を使用して該ＬＧＤモジュールの付加パラメータを減少する請求項５に記載の方法。
前記識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、前記識別対象ビデオのカテゴリを取得することは、
前記識別対象ビデオと前記複数のカスケードされたＬＧＤモジュールに基づいて、前記識別対象ビデオのローカル特徴とグローバル特徴を並列学習することと、
前記識別対象ビデオのローカル特徴とグローバル特徴を前記ローカルグローバル組み合わせ分類子に入力し、前記識別対象ビデオの合併特徴を合成することと、
前記識別対象ビデオの合併特徴を前記完全接続層に入力し、前記識別対象ビデオのカテゴリを取得することと、を含む請求項２－６のいずれか１項に記載の方法。
各ＬＧＤモジュールはＬＧＤ－２ＤモジュールまたはＬＧＤ－３Ｄモジュールである請求項７に記載の方法。
前記識別対象ビデオと前記複数のカスケードされたＬＧＤモジュールに基づいて、前記識別対象ビデオのローカル特徴とグローバル特徴を並列学習することは、
前記識別対象ビデオを複数の識別対象ビデオセグメントに分割することと、
前記複数の識別対象ビデオセグメントからマルチフレーム識別対象ビデオフレームを選択することと、
前記マルチフレーム識別対象ビデオフレームを複数のカスケードされたＬＧＤ－２Ｄモジュールに入力し、前記マルチフレーム識別対象ビデオフレームのローカル特徴とグローバル特徴を並列学習し、前記識別対象ビデオのローカル特徴とグローバル特徴とすることと、を含む請求項８に記載の方法。
前記複数の識別対象ビデオセグメントのうちの各識別対象ビデオセグメントは少なくとも１フレームの識別対象ビデオフレームを選択する請求項９に記載の方法。
前記識別対象ビデオと前記複数のカスケードされたＬＧＤモジュールに基づいて、前記識別対象ビデオのローカル特徴とグローバル特徴を並列学習することは、
前記識別対象ビデオを複数の識別対象ビデオセグメントに分割することと、
前記複数の識別対象ビデオセグメントを複数のカスケードされたＬＧＤ－３Ｄモジュールに入力し、前記複数の識別対象ビデオセグメントのローカル特徴とグローバル特徴を並列学習し、前記識別対象ビデオのローカル特徴とグローバル特徴とすることと、を含む請求項８に記載の方法。
前記複数のカスケードされたＬＧＤ－３Ｄモジュールは３次元学習を空間次元での２次元畳み込みと時間次元での１次元演算に分解する請求項１１に記載の方法。
前記ローカルグローバル組み合わせ分類子は核に基づく分類子である請求項２－６のいずれか１項に記載の方法。
ビデオを識別するための装置であって、
識別対象ビデオを取得するように配置される取得ユニットと、
前記識別対象ビデオを予めトレーニングされたローカル及びグローバル特徴伝播ＬＧＤモデルに入力し、前記識別対象ビデオのカテゴリを取得するように配置される識別ユニットと、を含み、前記ＬＧＤモデルはローカル及びグローバル特徴伝播によって前記識別対象ビデオの空間－時間特徴を学習する、ビデオを識別するための装置。
サーバであって、
１つまたは複数のプロセッサーと、
１つまたは複数のプログラムが記憶される記憶装置と、を含み、
前記１つまたは複数のプログラムは前記１つまたは複数のプロセッサーによって実行されると、前記１つまたは複数のプロセッサーに請求項１－１３のいずれかに記載の方法を実現する、サーバ。
コンピュータ可読媒体であって、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサーによって実行されると、請求項１－１３のいずれかに記載の方法を実現する、コンピュータ可読媒体。