JP6920771B2

JP6920771B2 - ３ｄ畳み込みニューラルネットワークに基づく動作識別方法及び装置

Info

Publication number: JP6920771B2
Application number: JP2020524869A
Authority: JP
Inventors: 向陽季; 嘉林呉; 武魁楊; 谷王
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-11-09
Filing date: 2018-11-08
Publication date: 2021-08-18
Anticipated expiration: 2038-11-08
Also published as: WO2019091417A1; CN107766839B; CN107766839A; JP2021502638A

Description

本開示は、ニューラルネットワークの技術分野に関し、特に、ニューラルネットワークに基づく識別方法及び装置に関する。

一般的に、動作の位置決めは、空間のみによる位置決めと、時間・空間による同時の位置決めとの2種類がある。複数の動作実行者による同時の動作が存在する長いビデオでは、異なる動作実例同士が影響し合い、重なっている。ニューラルネットワークからは、種別に関する一般化表現が得られるため、従来のニューラルネットワークに基づく位置決め方法では、それらのオーバーラップ動作を区別させることが困難であった。

従来の動作位置決め方法では、典型的なものとして、フレーム毎に移動している人物を検出し、これらの検出した人物を異なるフレーム間で連結して、1つの動作実例を形成するという2次元・時間の動作位置決めの枠組みがある。これらのアルゴリズムでは、人物を検出する際に1フレームだけの外見的特徴と動作的特徴しか考慮できないため、ニューラルネットワークにおける時間的受容野が大きく減少され、動作幅が小さい動作を背景から分離しにくくなる。また、人物を検出する各検出枠を評価する際に、アルゴリズムがフレームごとに行われるため、検出枠はネットワークを個別に経由しなければならない。これにより、計算コストが大幅に増加してしまう。また、複数の動作実例の存在により、回帰したスコアマップにおける応答がオーバーラップしているので、通常の3次元動作の位置決め方法では、複数の動作実例を位置決めすることが困難であった。

それを鑑みて、本開示は、ニューラルネットワークに基づく動作識別方法の正確率と検出効率を向上させるための、ニューラルネットワークに基づく動作識別方法及び装置を提案している。

本開示の他面によれば、識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定することと、
前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、
前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定することと、を含むニューラルネットワークに基づく動作識別方法を提供する。

可能性のある実現方式において、前記識別すべきビデオの動作抽出結果は、
前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、
前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含む。

可能性のある実現方式において、前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定することは、
前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算することと、
前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算することと、
前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定することと、を含む。

可能性のある実現方式において、前記識別すべきビデオの動作種別判別結果は、各フレーム画像におけるピクセルに対応する動作種別確率を含む。

可能性のある実現方式において、前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定することは、
各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定することと、
前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオの動作種別を特定することと、を含む。

可能性のある実現方式において、前記識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することは、
前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、を含み、
前記識別すべきビデオを、トレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することは、
前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、を含む。

本開示の他面によれば、識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別モジュールと、
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定する動作抽出結果処理モジュールと、
前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別モジュールと、
前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定する動作種別特定モジュールと、を備えたニューラルネットワークに基づく動作識別装置を提供する。

可能性のある実現方式において、前記識別すべきビデオの動作抽出結果は、
前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、
前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含む。
可能性のある実現方式において、前記動作抽出結果処理モジュールは、
前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算する動作検出枠計算サブモジュールと、
前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算するマッチング値計算サブモジュールと、
前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定する動作実例特定サブモジュールと、を備える。

可能性のある実現方式において、前記動作種別特定モジュールは、
各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定する第1の動作種別特定サブモジュールと、
前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオにおける動作種別を特定する第2の動作種別特定サブモジュールと、を備える。

可能性のある実現方式において、前記第1の3次元識別モジュールは、
前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第1の2次元識別サブモジュールと、
前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別サブモジュールと、を備え、
前記第2の3次元識別モジュールは、
前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第2の2次元識別サブモジュールと、
前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別サブモジュールと、を備える。

本開示の他面によれば、上記ニューラルネットワークに基づく動作識別方法を実行するように配置されているプロセッサと、プロセッサが実行可能な命令を記憶するためのメモリと、を含むニューラルネットワークに基づく動作識別装置を提供する。

本開示の他面によれば、プロセッサによって実行された場合、上記ニューラルネットワークに基づく動作識別方法を実現するコンピュータプログラム命令が記憶された不揮発性コンピュータ読取可能な記憶媒体を提供する。

本開示の実施例によれば、2つの3次元ニューラルネットワークモデルを用いて識別すべきビデオを処理して、動作抽出結果と動作種別判別結果をそれぞれ取得する。そのうち、動作抽出結果に基づき、識別すべきビデオにおける動作実例を特定した後、さらに、動作種別判別結果と合わせて、識別すべきビデオにおける動作種別を特定する。2つの3次元ニューラルネットワークモデルを用いて得られた異なる識別結果を合わせることにより、3次元ニューラルネットワークモデルの識別効率を向上させ、単一の3次元ニューラルネットワークモデルによる計算量を減少することができる。

以下の添付図面を参照して例示的な実施例を詳しく説明することにより、本開示の他の特徴や態様が明瞭になるだろう。

明細書に含まれて明細書の一部を構成した添付図面は、明細書とともに、本開示の例示的な実施例、特徴、および、態様を示し、かつ、本開示の原理を解釈するためのものである。
本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において単一フレーム動作検出枠を生成する模式図を示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において動作実例検出枠を生成する模式図を示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において識別すべきビデオの動作種別を特定する模式図を示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。

以下は、本開示の各種の例示的な実施例、特徴、及び態様を、添付図面を参照しながら、詳しく説明する。添付図面における同一の記号は同一または類似の機能を有する要素を示す。添付図面において、実施例の種々の態様が示されているが、特に指摘した場合を除き、添付図面は、必ずしも縮尺通りに描かれる必要がない。

ここの専門用語である「例示的」は、「例、実施例として使用される、または、説明性のある」ことを意味する。ここに、「例示的」として説明される任意の実施例は、必ずしも他の実施例よりも優れている、または、良くなると解釈される必要がない。

また、本開示をさらに良く説明するために、以下の具体的な実施の形態では、数多くの具体的な詳細が与えられる。当業者として、いくつかの具体的な詳細がなくても、本開示が同様に実施できると理解すべきである。本開示の趣旨を強調するために、幾つかの実施例では、当業者に周知の方法、手段、要素、及び、回路について、詳しく記述されないこととなる。

図1は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。図1に示すニューラルネットワークに基づく動作識別方法において、以下のステップを含める。

ステップS10：識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する。

可能性のある実現方式において、識別すべきビデオは、連続的な画像フレームで構成されたビデオを含み、画像中の人物が、ロングジャンプ、バスケットボールをプレイすること、歌を歌うことなどのような特定の動作種別を実行している。

第1の3次元ニューラルネットワークモデルは、多層3D畳み込み層と多層3Dプーリング層で構成された3D畳み込みニューラルネットワークモデルを含み、識別すべきビデオにおける空間情報と時間情報に基づいてモデル化される。そのうち、空間情報は各フレーム画像におけるピクセルポイントを含み、時間情報はビデオストリームにおける時間情報を含む。動作抽出結果は、識別すべきビデオから抽出された分解動作特徴を含む。

ステップS20：前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定する。

可能性のある実現方式において、動作実例は、時系列特徴を有する分解動作を含み、複数の動作実例が動作種別を構成する。例えば、動作種別では、ロングジャンプには、助走、踏切、着地という3つの動作実例が含まれる。動作抽出結果における分解動作特徴により、識別すべきビデオにおける各動作実例を特定する。

ステップS30：前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する。

可能性のある実現方式において、第2の3次元ニューラルネットワークモデルは、多層3D畳み込み層と多層3Dプーリング層で構成された3D畳み込みニューラルネットワークモデルを含み、識別すべきビデオにおける空間情報と時間情報に基づいてモデル化される。そのうち、空間情報は各フレーム画像におけるピクセルポイントを含み、時間情報はビデオストリームにおける時間情報を含む。動作種別判別結果は、識別すべきビデオから抽出された動作種別特徴を含む。

ステップS30は、ステップ310と同時に実行されてもよいし、ステップS10よりも前に実行されてもよいし、または、ステップS310よりも後に実行されてもよいことが理解できるだろう。

ステップS40：前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定する。

本実施例では、2つの3次元ニューラルネットワークモデルを用いて識別すべきビデオを処理して、動作抽出結果と動作種別判別結果をそれぞれ取得する。そのうち、動作抽出結果に基づき、識別すべきビデオにおける動作実例を特定した後、さらに、動作種別判別結果と合わせて、識別すべきビデオにおける動作種別を特定する。2つの3次元ニューラルネットワークモデルを用いて得られた異なる識別結果を合わせることにより、3次元ニューラルネットワークモデルの識別効率を向上させ、単一の3次元ニューラルネットワークモデルによる計算量を減少することができる。

図2は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。図2に示す方法において、図1に示した実施例を基にして、
ステップS10における前記識別すべきビデオの動作抽出結果は、前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含む。

当該実現方式において、動作開始フレームは、1つの動作実例の開始フレームと1つの動作種別の開始フレームを含む。動作終了フレームは、動作種別の終了フレームと1つの動作種別の終了フレームを含む。

動作実例は、時間的に持続して行われる1つの分解動作であり、各分解動作が複数の連続的な動作位置を有し、各分解動作における明らかな特徴を有する動作位置を抽出することで、後続の分析から、さらに正確な動作実例を取得することができる。例えば、ロングジャンプという動作種別における踏切の動作実例では、少なくとも、両足離地、踏切、最高点到達、下落、両足着地という5つの動作位置を含む。

第1の3次元ニューラルネットワークモデルのトレーニング過程において用いられるサンプルビデオには、動作開始フレーム、動作終了フレームがマークされており、画像における動作が所定の1つの動作実例内の所定の動作位置に属することがマークされている。トレーニングされた第1の3次元ニューラルネットワークモデルを用いて処理して得られた動作抽出結果は、識別すべきビデオにおける動作開始フレーム、動作終了フレーム、および、前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率を含む。例えば、識別すべきビデオ1には、20フレーム画像が含まれ、そのうち、6フレーム目が動作開始フレーム、20フレーム目が動作終了フレーム、6フレーム目が踏切となる確率は60％、12フレーム目が最高点到達となる確率は70％などである。

ステップS20は、以下のステップを含める。

ステップS21：前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算する。

可能性のある実現方式において、図5は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において単一フレーム動作検出枠を生成する模式図を示す。図5に示すように、各フレーム画像の第1の確率に基づき、各フレーム画像における当該動作位置を推測できるピクセルポイントの範囲、すなわち、動作検出枠を取得する。例えば、図5における右側の画像について、動作検出枠における主に腕部を含むピクセルに基づき、その動作位置が手を挙げることであると推測できる。

ステップS22：前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算する。

可能性のある実現方式において、各フレーム画像における動作検出枠内の動作位置の確率に基づき、各フレーム画像における検出枠マッチング値を計算することができる。例えば、動作実例1の最後1フレームにおける動作検出枠内の動作と、動作実例1の最後から2フレーム目における動作検出枠内の動作とのマッチング値がAであり、動作実例1の最後1フレーム目における動作検出枠内の動作と、動作実例2の1フレーム目における動作検出枠内の動作とのマッチング値がBである。

ステップS23：前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定する。

可能性のある実現方式において、同一の動作実例における各フレーム画像は、動作検出枠内の動作がより強い関連性がある。また、異なる動作実例間の動作同士のマッチング度が低いことが理解されやすい。そのため、上記例におけるマッチング値AがBよりも大きい。各動作実例における動作検出枠に基づき、各動作実例における動作実例検出枠を特定する。

図6は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において動作実例検出枠を生成する模式図を示す。図6に示すように、左側の4フレーム画像が同一の動作実例1に属する。左側の4フレーム画像における動作検出枠に基づき、右側の動作実例検出枠を特定し、動作実例検出枠は動作実例におけるすべてのフレームの動作検出枠を含む。

本実施例では、第1の3次元ニューラルネットワークモデルからの動作抽出結果は、識別すべきビデオにおける各フレーム画像が属する動作実例の動作位置の確率を含み、異なる動作実例を区別させる能力を補強して、後続の動作種別の判定過程をさらに正確にする。第1の3次元ニューラルネットワークモデルの動作抽出結果に基づき、識別すべきビデオにおける各動作実例検出枠を特定する。識別すべきビデオにおける各動作実例を特定した後、後続の動作種別の識別過程において、動作種別の位置決めの正確率を高めることができる。

図3は本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。図3に示した方法において、上記実施例を基にして、ステップS30における前記識別すべきビデオにおける動作種別判別結果は、各フレーム画像におけるピクセルに対応する動作種別確率を含む。

当該実施例では、第2の3次元ニューラルネットワークモデルは、識別すべきビデオにおける各フレーム画像上の各ピクセルに対応する動作種別確率を直接に与える。例えば、1フレーム目の画像におけるピクセル1に対応する動作種別が歌を歌うこととなる確率は0.3、走ることとなる確率は0.5、ボールを蹴ることとなる確率は0.2である。そして、ピクセル2に対応する動作種別がボールを蹴ることとなる確率は0.1、走ることとなる確率は0.1、歌を歌うこととなる確率は0.8である。

ステップS40は、
ステップS41：各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定することと、
ステップS42：前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオの動作種別を特定することと、を含む。

図7は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法において識別すべきビデオの動作種別を特定する模式図を示す。図7に示すように、左上の小立方体が第1の3次元ニューラルネットワークモデルの処理結果に基づいて得られた1つの動作実例検出枠であり、動作実例検出枠の空間位置が動作開始フレーム、動作終了フレーム、および、動作検出枠で構成された立方体であり、識別すべきビデオにおいて動作種別を判定する値の範囲が特定される。

左下の大立方体は、第1の3次元ニューラルネットワークモデルによる処理後の、各ピクセルがいずれも、動作種別確率を持つビデオ情報である。左上の小立方体に基づき、左下の大立方体において動作種別の判定範囲を特定し、最終的に右側の小立方体におけるピクセルの動作種別の和を取得する。そして、右側の小立方体の動作種別のうち、最も確率が大きい動作種別を、識別すべきビデオの動作種別として判定する。

本実施例において、第2の3次元ニューラルネットワークモデルからの動作種別判別結果に基づき、各フレーム画像におけるピクセルに対応する動作種別の確率を取得することができ、各ピクセルのいずれに対しても動作種別の判断を行ったので、後続の識別すべきビデオ全体の動作種別の識別結果をさらに正確にした。しかも、2つの3次元ニューラルネットワークモデルにより、時間情報と空間情報をそれぞれ同時にモデル化することで、動作の位置決めのロバストがさらに向上し、かつ、抽出された動作実例検出枠により、各フレーム画像における動作種別特徴を一つずつに計算する負担を回避し、動作識別の計算量を低減するとともに、動作の開始、動作の終了、および、動作の特定の動作位置でのモデル化に対して、異なる動作実例を区別させる能力を補強して、動作識別の結果をさらに正確にした。

図4は、本開示の一実施例に係るニューラルネットワークに基づく動作識別方法のフローチャートを示す。図4に示す方法において、図1に示した実施例を基にして、
ステップS10は、
ステップS101：前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
ステップS102：前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、を含み、
ステップS30は、
ステップS301：前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
ステップS302：前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、を含む。

当該実施例では、識別すべきビデオを2次元ニューラルネットワークモデルに入力して処理することで、一般化の特徴表現が得られ、特徴値を抽出してから、第1の3次元ニューラルネットワークモデルと第2の3次元ニューラルネットワークモデルのそれぞれに入力して処理する。

本実施例では、識別すべきビデオをまず2次元ニューラルネットワークモデルに入力し、特徴の抽出を行うことにより、3次元ニューラルネットワークモデルの処理効率を向上させ、さらに、識別すべきビデオの動作種別の判定効率を向上させることができる。

図8は、本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。図8に示すように、本実施例が提供するニューラルネットワークに基づく動作識別装置は、
識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別モジュール41と、
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定する動作抽出結果処理モジュール42と、
前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別モジュール43と、
前記識別すべきビデオの動作実例検出結果と前記識別すべきビデオの動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定する動作種別特定モジュール44と、を備える。

図9は、本開示の一実施例に係るニューラルネットワークに基づく動作識別装置のブロック図を示す。図9に示すように、図8に示した装置を基にして、
前記識別すべきビデオの動作抽出結果は、前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含む。

可能性のある実現方式において、前記動作抽出結果処理モジュール42は、
前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算する動作検出枠計算サブモジュール421と、
前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算するマッチング値計算サブモジュール422と、
前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定する動作実例特定サブモジュール423と、を備える。

可能性のある実現方式において、前記識別すべきビデオにおける動作種別判別結果は、各フレーム画像におけるピクセルに対応する動作種別確率を含む。

可能性のある実現方式において、前記動作種別特定モジュール44は、
各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定する第1の動作種別特定サブモジュール441と、
前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオにおける動作種別を特定する第2の動作種別特定サブモジュール442と、を備える。

可能性のある実現方式において、前記第1の3次元識別モジュール41は、
前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第1の2次元識別サブモジュール411と、
前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別サブモジュール412と、を備え、
前記第2の3次元識別モジュール43は、
前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第2の2次元識別サブモジュール431と、
前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別サブモジュール432と、を備える。

図10は、例示的な一実施例に係るニューラルネットワークに基づく動作識別装置1900のブロック図を示す。例えば、装置1900は、サーバとして提供されてもよい。図10を参照して、装置1900は、1つまたは複数のプロセッサを含む処理アセンブリ1922と、処理アセンブリ1922が実行可能な命令、例えば、アプリケーションプログラムを記憶するためのメモリ1932で代表されるメモリリソースと、を含む。メモリ1932に記憶されたアプリケーションプログラムは、それぞれが1組の命令に対応する1つまたは複数のモジュールを含んでもよい。また、処理アセンブリ1922は、命令を実行することで、上記方法を実行するように配置されている。

装置1900は、装置1900の電源管理を実行するように配置された電源アセンブリ1926と、装置1900をネットワークに接続するように配置された有線または無線ネットワークインターフェース1950と、入出力（I/O）インターフェース1958と、を含んでもよい。装置1900は、例えばWindows ServerTM、Mac OS XTM、UnixTM,LinuxTM、FreeBSDTMなどのメモリ1932に記憶された操作システムに基づいて動作することができる。

例示的な実施例では、たとえば装置1900の処理アセンブリ1922によって実行されることで上記方法を完成するコンピュータプログラム命令を含むメモリ1932などの不揮発性コンピュータ読取可能な記憶媒体を提供してもよい。

本開示は、システム、方法、及び／または、コンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各態様を実現させるためのコンピュータ読取可能なプログラム命令が記憶されたコンピュータ読取可能な記憶媒体を含んでもよい。

コンピュータ読取可能な記憶媒体は、命令実行デバイスで用いられる命令を保持し、記憶する有形のデバイスであってもよい。コンピュータ読取可能な記憶媒体は、例えば、電気記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意のデバイスの適切な組み合わせであってよいが、これらに限られない。コンピュータ読取可能な記憶媒体のより具体的な例 (非網羅的なリスト) として、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ (RAM)、読取専用メモリ(ROM)、消去可能なプログラマブル読取り専用メモリ (EPROMまたはフラッシュメモリ）、静的ランダムアクセスメモリ（SRAM）、コンパクトディスク読取専用メモリ（CD−ROM）、デジタル多機能ディスク（DVD）、メモリスティック、ソフトディスク、機械符号化装置、命令が記憶されたパンチカードまたは溝内隆起構造、および上記の任意のデバイスの適切な組み合わせが含まれる。ここで用いられるコンピュータ読取り可能な記憶媒体は、例えば、無線電波やその他の自由伝搬される電磁波、導波管やその他の伝送媒体を介して伝搬される電磁波（例えば、光ファイバケーブルによる光パルス）、または、電線を介して伝送される電気信号のような瞬時信号そのものとして解釈されることはない。

ここに記載のコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体から、それぞれの計算・処理装置にダウンロードされてもよく、または、例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、及び／または無線ネットワークのようなネットワークを介して、外部コンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバ伝送、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および／またはエッジサーバを含んでもよい。各計算・処理デバイスにおけるネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ読取可能なプログラム命令を受信し、当該コンピュータ読取可能なプログラム命令を各計算・処理デバイスにおけるコンピュータ読取可能な記憶媒体に転送して記憶する。

本開示の動作を実行するためのコンピュータプログラム命令は、アセンブリ命令、インストラクションセットアーキテクチャ（ISA）命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または、1つまたは複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコードまたはオブジェクトコードであってもよく、上記プログラミング言語は、Smalltalk、C++のようなオブジェクト指向プログラミング言語と、「C」言語または類似したプログラミング言語のような通常の手続き型プログラミング言語、を含む。コンピュータ読取可能なプログラム命令は、完全にユーザコンピュータにて実行されてもよいし、部分的にユーザコンピュータにて実行されてもよいし、独立したソフトウェアパッケージとして実行されてもよいし、一部がユーザコンピュータにて一部がリモートコンピュータにて実行されてもよいし、または、完全にリモートコンピュータやサーバにて実行されてもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルエリアネットワーク（LAN）またはワイドエリアネットワーク（WAN）を含む任意の種別のネットワークを介してユーザコンピュータに接続されていてもよいし、外部コンピュータに接続されていてもよい（たとえば、インターネットサービスプロバイダを利用してインターネットで接続されてもよい）。いくつかの実施例では、コンピュータ読取可能なプログラム命令の状態情報を用いて、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（FPGA）またはプログラマブル論理アレイ（PLA）などのコンピュータ読取可能なプログラム命令を実行することで本開示の各態様を実現できる電子回路をカスタマイズしてもよい。

ここに、本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照して、本開示の各態様を説明していた。理解すべきなのは、フローチャート及び／又はブロック図における各ブロックやフローチャート及び／又はブロック図における各ブロックの組み合わせは、コンピュータ読取可能なプログラム命令によって実現されてもよい。

これらのコンピュータ読取可能なプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されて、機械を製造することができ、それにより、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されたときに、フローチャートおよび／またはブロック図における1つまたは複数のブロックに規定された機能／動作を実現する装置が生じる。これらのコンピュータ読取可能なプログラム命令は、コンピュータ読取可能な記憶媒体に記憶されてもよい。これらの命令により、コンピュータ、プログラマブルデータ処理装置および／または他のデバイスが特定の方式で作動されるようになり、それにより、命令が記憶されたコンピュータ読取可能な記憶媒体は、フローチャートおよび／またはブロック図における1つまたは複数のブロックに規定された機能／動作の各態様を実現する命令を含む製造品を備える。

また、コンピュータ読取可能なプログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにロードされてもよい。それにより、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにて一連の動作ステップが実行されて、コンピュータによる実現過程が生じ、それで、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにて実行される命令によって、フローチャートおよび／またはブロック図における1つまたは複数のブロックに規定された機能/動作が実現される。

添付図面におけるフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法、およびコンピュータプログラム製品により実現可能なアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメント、または、命令の一部を代表することができ、前記モジュール、プログラムセグメント、または、命令の一部には、特定の論理機能を実現するための1つまたは複数の実行可能な命令が含まれる。いくつかの代替的な実現では、ブロックに示された機能は、添付図面にマークされた順序とは異なる順序で実行されてもよい。例えば、2つの連続的なブロックは、実際には基本的に並行して実行でき、関係する機能によっては、逆な順序で実行されることもある。また、ブロック図及び／又はフローチャートにおける各ブロック、および、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、特定の機能又は動作を実行する専用ハードウェアベースのシステムによって実現されてもよく、又は、専用ハードウェアとコンピュータ命令の組み合わせで実現されてもよいことを留意されたい。

以上、本開示の各実施例について説明していたが、上記説明は例示的なものであり、網羅的なものではなく、開示された各実施例に限定されるものでもない。説明していた各実施例の範囲および精神から逸脱しない限り、多くの修正および変更が当業者には自明なものであろう。本文で使用される用語の選択は、各実施例の原理、実際な応用、または市場での技術に対する技術的改善を最もよく説明すること、または、本文に開示された各実施例を当業者が理解できるようにすることを意図している。

Claims

ニューラルネットワークに基づく動作識別方法であって、
識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定することと、
前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、
前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定することと、を含む、
ことを特徴とするニューラルネットワークに基づく動作識別方法。
前記識別すべきビデオの動作抽出結果は、
前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、
前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含むことを特徴とする請求項1に記載のニューラルネットワークに基づく動作識別方法。
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定することは、
前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算することと、
前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算することと、
前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定することと、を含むことを特徴とする請求項2に記載のニューラルネットワークに基づく動作識別方法。
前記識別すべきビデオの動作種別判別結果は、
各フレーム画像におけるピクセルに対応する動作種別確率を含む、ことを特徴とする請求項3に記載のニューラルネットワークに基づく動作識別方法。
前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定することは、
各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定することと、
前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオの動作種別を特定することと、を含む、ことを特徴とする請求項4に記載のニューラルネットワークに基づく動作識別方法。
前記識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することは、
前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得することと、を含み、
前記識別すべきビデオを、トレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することは、
前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得することと、
前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得することと、を含む、ことを特徴とする請求項1に記載のニューラルネットワークに基づく動作識別方法。
ニューラルネットワークに基づく動作識別装置であって、
識別すべきビデオをトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別モジュールと、
前記識別すべきビデオの動作抽出結果に基づき、前記識別すべきビデオの動作実例検出結果を特定する動作抽出結果処理モジュールと、
前記識別すべきビデオをトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別モジュールと、
前記識別すべきビデオの動作実例検出結果と動作種別判別結果とに基づき、前記識別すべきビデオの動作種別を特定する動作種別特定モジュールと、を備えたことを特徴とするニューラルネットワークに基づく動作識別装置。
前記識別すべきビデオの動作抽出結果は、
前記識別すべきビデオにおける各フレーム画像が1つの動作実例内の1つの動作位置に属する第1の確率、および、
前記識別すべきビデオにおける動作開始フレームと動作終了フレーム、を含むことを特徴とする請求項7に記載のニューラルネットワークに基づく動作識別装置。
前記動作抽出結果処理モジュールは、
前記識別すべきビデオにおける各フレーム画像の第1の確率、および、前記識別すべきビデオにおける動作開始フレームと動作終了フレームに基づき、各フレーム画像における動作検出枠を計算する動作検出枠計算サブモジュールと、
前記動作検出枠に基づき、各フレーム画像間の検出枠マッチング値を計算するマッチング値計算サブモジュールと、
前記検出枠マッチング値に基づき、前記識別すべきビデオにおける動作実例検出枠を特定する動作実例特定サブモジュールと、を備えたことを特徴とする請求項8に記載のニューラルネットワークに基づく動作識別装置。
前記識別すべきビデオの動作種別判別結果は、
各フレーム画像におけるピクセルに対応する動作種別確率を含む、ことを特徴とする請求項9に記載のニューラルネットワークに基づく動作識別装置。
前記動作種別特定モジュールは、
各フレーム画像におけるピクセルに対応する動作種別確率のうち、前記動作実例検出枠におけるピクセルに対応する動作種別を特定する第1の動作種別特定サブモジュールと、
前記動作実例検出枠におけるピクセルに対応する動作種別に基づき、前記識別すべきビデオにおける動作種別を特定する第2の動作種別特定サブモジュールと、を備えた、ことを特徴とする請求項10に記載のニューラルネットワークに基づく動作識別装置。
前記第1の3次元識別モジュールは、
前記識別すべきビデオをトレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第1の2次元識別サブモジュールと、
前記特徴値をトレーニングされた第1の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作抽出結果を取得する第1の3次元識別サブモジュールと、を備え、
前記第2の3次元識別モジュールは、
前記識別すべきビデオを、トレーニングされた2次元ニューラルネットワークモデルに入力して、特徴値を取得する第2の2次元識別サブモジュールと、
前記特徴値をトレーニングされた第2の3次元ニューラルネットワークモデルに入力して処理することで、前記識別すべきビデオの動作種別判別結果を取得する第2の3次元識別サブモジュールと、を備えた、ことを特徴とする請求項7に記載のニューラルネットワークに基づく動作識別装置。
請求項1〜6のいずれか1項に記載の方法を実行するように配置されているプロセッサと、
プロセッサが実行可能な命令を記憶するためのメモリと、を含むことを特徴とするニューラルネットワークに基づく動作識別装置。
コンピュータプログラム命令が記憶された不揮発性コンピュータ読取可能な記憶媒体であって、
前記コンピュータプログラム命令は、プロセッサによって実行された場合、請求項1〜6のいずれか1項に記載の方法を実現する、ことを特徴とする不揮発性コンピュータ読取可能な記憶媒体。