JP7274048B2

JP7274048B2 - 動作認識方法、装置、コンピュータプログラム及びコンピュータデバイス

Info

Publication number: JP7274048B2
Application number: JP2022516004A
Authority: JP
Inventors: ルオ，ドォンハオ; ワン，ヤビアオ; グオ，チェンヤン; ドン，ボユアン; ワン，チョンジエ; リ，ジィリン; ホアン，フェイユエ; ウ，ヨンジエン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2019-11-20
Filing date: 2020-10-10
Publication date: 2023-05-15
Anticipated expiration: 2040-10-10
Also published as: US20220076002A1; CN110866509A; WO2021098402A1; KR20220038434A; CN110866509B; EP3992846A4; US11928893B2; JP2022551396A; EP3992846A1

Description

本出願は、２０１９年１１月２０日に中国特許局へ提出された、出願番号が２０１９１１１４３００８２、発明の名称が「動作認識方法、装置、コンピュータ可読記憶媒体並びにコンピュータデバイス」である中国特許出願の優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。

本出願は、人工知能の技術分野に関し、さらに画像処理の技術分野に関し、特に動作認識方法、装置、コンピュータプログラム及びコンピュータデバイスに関する。

コンピュータ技術や人工知能技術の発展に伴い、動作認識技術は画像分野から映像分野まで適用されるようになってきた。従来の方法において、映像データに対して動作認識を行う際に、２次元畳み込みニューラルネットワークを活用して映像データの１フレームごとに画像を認識し、最後に当該映像データの全てのフレームに対する動作認識結果を組み合わせて、映像データの動作認識結果を得る手法が一般的に用いられてきた。しかしながら、行動対象の動作変化が注目されているシナリオでは、映像データの各フレームの画像の順序を混乱させたとしても、２次元畳み込みニューラルネットワークによる映像データの動作種類への認識結果に影響を与えることはないから、２次元畳み込みニューラルネットワークを利活用した動作認識は精度が低いという問題があった。

本出願に係る各実施形態は、動作認識方法、装置、コンピュータ可読記憶媒体及びコンピュータデバイスを提供する。

本出願の一局面によれば、コンピュータデバイスによって実行される動作認識方法であって、
映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
時系列フレームのそれぞれをターゲット時系列フレームとし、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得するステップと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップとを含む、動作認識方法を提供する。

本出願の一局面によれば、コンピュータデバイスによって実行される動作認識方法であって、
リアルタイムな監視映像データを取得するステップと、
監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得するステップと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、
動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定するステップとを含む、動作認識方法を提供する。

本出願の一局面によれば、コンピュータデバイスによって配置される動作認識装置であって、
映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する画像取得モジュールと、
時系列フレームのそれぞれをターゲット時系列フレームとし、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する重み取得モジュールと、
各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する特徴特定モジュールと、
各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する時系列交互モジュールと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する動作認識モジュールとを備える、動作認識装置を提供する。

本出願の一局面によれば、コンピュータデバイスによって配置される動作認識装置であって、
リアルタイムな監視映像データを取得するとともに、監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する画像取得モジュールと、
時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する重み取得モジュールと、
行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する特徴特定モジュールと、
行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する時系列交互モジュールと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するとともに、動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定する動作認識モジュールとを備える、動作認識装置を提供する。

コンピュータ可読命令が記憶されている１つ以上のコンピュータ可読記憶媒体であって、コンピュータ可読命令が１つ以上のプロセッサによって実行されると、本出願の各実施形態における動作認識方法のステップを１つ以上のプロセッサに実行させる、コンピュータ可読記憶媒体を提供する。

コンピュータ可読命令が記憶されているメモリと、コンピュータ可読命令が実行されると、本出願の各実施形態における動作認識方法のステップを実行させる１つ以上のプロセッサとを備える、コンピュータデバイスを提供する。

本出願の１つまたは複数の実施形態の詳細について、以下の図面及び記述において説明する。本出願の明細書、図面及び特許請求の範囲に基づいて、本出願の他の特徴や目的及び利点がより明白になるであろう。

本出願の実施形態に係る技術案をより明確に説明すべく、以下で、実施形態を説明するために使用される図面について簡単に紹介する。明らかなように、以下に示す図面は、本出願の幾つかの実施形態に過ぎず、当業者は進歩性に値する労働を付することなく、これらの図面に基づいて他の図面を得ることもできる。
一実施形態に係る動作認識方法の適用シナリオを示す図面である。一実施形態に係る動作認識ネットワークモデルの構成を示す概略図である。一実施形態に係る動作認識方法のフローチャートである。一実施形態に係る時系列行動特徴マップ生成ステップの概略図である。一実施形態に係る行動情報重み演算ステップのフローチャートである。；一実施形態に係る差異情報取得ステップのフローチャートである。；一実施形態に係る行動情報重みを演算する概略図である。一実施形態に係る時系列行動特徴マップ生成ステップのフローチャートである。一実施形態に係る各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップのフローチャートである。一実施形態に係る残差ネットワーク層の構成を示す概略図である。一実施形態に係るパラメータトレーニングステップのフローチャートである。一実施形態に係るオリジナルサブ特徴マップ、行動情報特徴マップ及び時系列行動特徴マップの可視化概略図である。別の実施形態に係る動作認識方法のフローチャートである。一実施形態に係る動作認識装置の構成ブロック図である。一実施形態に係る重み取得モジュールの構成ブロック図である。一実施形態に係るコンピュータデバイスの構成ブロック図である。

本出願の目的、技術案及び利点をより明確にするために、以下で、図面及び実施形態を結合しながら、本出願についてさらに詳細に説明する。ここに記述する具体的な実施形態は、本出願を解釈するために利用されるだけで、本出願を限定するものではないことが理解されるべきであろう。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＡＩ）は、デジタルコンピュータまたはデジタルコンピュータによって制御される機器を利用し、人間の知能をシミュレート、延伸、拡充し、環境を感知し、知識を獲得し、知識を利活用して最良の結果を得るための理論、方法、技術およびアプリケーションシステムである。言い換えれば、人工知能はコンピュータサイエンスの包括的な技術であり、知能の本質を理解し、人間の知能と似た方式で反応できる新しいインテリジェントマシンを生み出すことを目指している。人工知能は、即ち様々なインテリジェントマシンの設計原理や実現方法について研究し、マシンに感知、推論及び意思決定の機能を持たせるような技術である。

人工知能技術は、幅広い分野をカバーする包括的な分野であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方を含む。人工知能の基本的な技術には、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーティング／インタラクティブシステム、メカトロニクスなどの技術が含まれている。人工知能のソフトウェア技術には、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などの主要方向が含まれている。

コンピュータビジョン（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ＣＶ）とは、マシンが「見る」方法を研究する技術であり、より詳しく言えば、カメラ及びコンピュータを利用し、ターゲットに対して識別、追跡及び測定などのマシンビジョンを行い、そして、画像処理を施し、コンピュータに、人目が観察したり機器に送信したりするのにより適合する画像に処理させる技術を指す。科学科目の一つとして、コンピュータビジョンは、関連の理論と技術とを研究し、画像や多次元データから情報を取得できる人工知能システムを構築することを目指している。コンピュータビジョン技術には、通常、画像処理、画像認識、画像意味解析、画像検索、ＯＣＲ、ビデオ処理、ビデオ意味解析、ビデオコンテンツ／動作認識、３次元オブジェクト再構築、３Ｄ技術、仮想現実、拡張現実、同期測位及び地図構築などが含まれ、さらには、一般的な顔認識、指紋認識などの生体認証技術も含まれている

図１は、一実施形態に係る動作認識方法の適用シナリオを示す図面である。図１を参照して、当該動作認識方法は、コンピュータデバイスに適用され、当該コンピュータデバイスは、端末またはサーバであり得る。図１に示すように、当該コンピュータデバイスがサーバであることを例に挙げて、コンピュータデバイスには、動作認識ネットワークモデルが搭載されており、当該動作認識ネットワークは、本出願に提供される動作認識方法に応じて構築されたネットワークモデルである。サーバは、映像データから複数の時系列フレームの画像データを抽出し、図１に示すように、映像データから抽出された複数の時系列フレームの画像データには、いずれも行動対象が含まれている。そして、サーバは、抽出された複数の時系列フレームの画像データを動作認識ネットワークモデルに入力し、動作認識ネットワークモデルは、映像データから得られた各時系列フレームの画像データに対して動作認識を行い、各時系列フレームの画像データに対応する動作種類を取得し、その後、映像データから抽出された全ての時系列フレームの画像データに対応する動作種類を組み合わせて、映像データに対する動作認識結果を得ることができる。

例えば、一の例示的な適用シナリオにおいて、映像データは、リアルタイムな監視映像であってもよい。リアルタイムな監視映像を動作認識モデルに入力して、監視映像中の各時系列フレームの画像データに含まれる監視対象のリアルタイムな動作を認識し、監視カメラ映像中の各フレームの画像データに含まれる監視対象の動作情報を取得する。これにより、監視対象へのリアルタイムな監視を実現でき、人間が映像データを見ることなく監視対象の行動動作を検知することができる。

さらに、例えば、一つの例示的な適用シナリオにおいて、映像データは、手話映像であってもよい。手話映像を動作認識モデルに入力して、手話映像中の各時系列フレームの画像データに含まれる手の動作を認識し、手話映像中の各時系列フレームの画像データに対応する手話動作情報を取得し、手話通訳を図ることができる。

図２は、一実施形態に係る動作認識ネットワークモデルの構成を示す概略図である。図２に示すように、動作認識ネットワークモデルには、マルチチャネル畳み込み層、動作情報強化モジュール、時系列交互モジュール及びバックボーンネットワーク層が含まれる。ここで、映像データから異なる時系列フレームの画像データが得られた後、マルチチャネル畳み込み層は、各時系列フレームの画像データのオリジナル特徴マップを取得するものであり、このオリジナル特徴マップには、異なる畳み込みチャネルにおけるオリジナルサブ特徴マップが含まれている。動作情報強化モジュールは、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップに対して動作情報を強化し、異なる畳み込みチャネルにおける各時系列フレームの画像データの行動情報特徴マップを得るものである。時系列交互モジュールは、前後に隣接する時系列フレームの画像データの行動情報特徴マップに対して、同一の畳み込みチャネルにおいて畳み込み演算を行い、時系列行動特徴マップを取得するものであり、この時系列行動特徴マップには、前後に隣接する時系列フレームの行動情報が融合されている。バックボーンネットワーク層は、時系列行動特徴マップに基づいて、画像データに含まれる行動対象の動作種類を取得するものである。

一実施形態において、バックボーンネットワーク層は、動作認識のための２Ｄ畳み込みネットワークであり、順次に接続された複数のネットワーク層から構成される。例えば、図２に示されている動作認識ネットワークモデルにおいて、バックボーンネットワーク層は、順次に接続された３層のサブネットワーク層から構成される。オプションとして、バックボーンネットワーク層は、ＲｅｓＮｅｔ－５０畳み込みニューラルネットワークであり得る。

図３に示すように、一実施形態において、動作認識方法が提供される。本実施形態は、主に当該方法が前記図１におけるサーバ１０２に適用されることを例に挙げて説明する。図３を参照して、当該動作認識方法は、具体的に以下のステップを含む。

ステップＳ３０２：映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各前記時系列フレームの画像データのオリジナルサブ特徴マップを取得する。

ここで、映像データは、任意の映像データであり得る。内容からみれば、映像データとは、行動対象が含まれている映像をいい、例えば、ダンス映像、監視映像、手話映像などが挙げられる。また、提供元からみれば、映像データは、防犯カメラによって撮像された監視映像であってもよいし、他の機器から送信されてきた映像データであってもよい。

ここで、異なる時系列フレームの画像データとは、時系列で映像データから抽出された画像データをいい、その中には、映像データにおける全ての時系列フレームの画像データを含んでもよいし、一部の連続的な時系列フレームの画像データを含んでもよい。映像データから異なる時系列の画像データを取得する際に、具体的には、映像データにおける画像データの並べ替え順序ごとに順次に取得してもよいし、一定のサンプリング周波数で映像データから取得してもよい。例えば、映像データの第１フレームの画像データを第１時系列フレームの画像データとし、その後、映像データにおける画像データの並べ替え順序ごとに、一定のサンプリング周波数で、後続の時系列フレームの画像データを抽出するようにする。ここで、画像データのフレーム数は、動作認識の複雑性要求に従って定まるものであるか、映像データにおける画像データのフレーム数に従って定まるものであることが理解されるべきであろう。

ここで、オリジナルサブ特徴マップとは、画像データを特徴付ける特徴量である。マルチチャネル畳み込み層とは、画像データの特徴量を取得するためのネットワークモデルを意味し、ここでいうマルチチャネル畳み込み層は、画像データの特徴量を直接的に取得することができるトレーニング済みのネットワークモデルである。ここで、マルチチャネル畳み込み層は、複数の畳み込みコアを含み、畳み込みチャネルは、マルチチャネル畳み込み層によって決定され、マルチチャネル畳み込み層のうちの画像データを抽出するための畳み込みコアの数は、即ち、畳み込みチャネル数である。具体的には、画像データをマルチチャネル畳み込み層の入力データとしてマルチチャネル畳み込み層に入力し、マルチチャネル畳み込み層の中の各々の畳み込みコアを利用して画像データに対して畳み込み演算を行い、各々の畳み込みコアに対応する畳み込みチャネルのオリジナルサブ特徴マップを取得する。

例えば、グレースケール画像を例に挙げて説明すると、映像データから取得された異なる時系列フレームの画像データをグレースケール画像とし、このグレースケール画像をマルチチャネル畳み込み層に入力し、マルチチャネル畳み込み層から出力されたオリジナル特徴マップを取得する。ここで、オリジナル特徴マップのデータ次元は、Ｃ，Ｈ，Ｗであり、Ｈ，Ｗは、オリジナル特徴マップの横軸と縦軸を表し、Ｃは、オリジナル特徴マップのチャネル次元を表す。つまり、オリジナル特徴マップには、Ｃ枚のオリジナルサブ特徴マップが含まれている。

ステップＳ３０４：時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。

ここで、次の時系列フレームとは、ターゲット時系列フレームに対して、次の時刻に対応する時系列フレームをいう。例えば、ターゲット時系列フレームは、ｔ番目のフレームとし、即ち、ターゲット時系列フレームの画像データは、映像データから取得されたｔ番目のフレームの画像データとした場合は、次の時系列フレームは、（ｔ＋１）番目のフレームであり、即ち、次の時系列フレームの画像データは、映像データから取得された（ｔ＋１）番目のフレームの画像データである。

ここで、行動情報重みとは、異なるチャネルでのターゲット時系列フレームの画像データのオリジナルサブ特徴マップへアテンションを割り当てる確率の分布を指している。行動情報重みの大きさは、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性に関わっており、即ち、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップに含まれる行動情報の多少に関わっているとも言える。ある畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性が大きく、その中に含まれる行動情報が多いほど、当該畳み込みチャネルにおけるオリジナルサブ特徴マップに割り当てられたアテンションが多く、即ち、行動情報重みが大きくなる。

映像データから取得された各時系列フレームの画像データには、動作を認識するのに重要な情報、例えば、行動対象の見かけ情報、動作を認識するのに無駄、更には逆効果を奏するノイズ情報、例えば、画像データのノイズや背景情報も含まれている。異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性、即ち、行動情報重みを取得後、行動対象の動作情報との相関性が更に高いオリジナルサブ特徴マップにおける特徴情報を増加し、即ち、当該畳み込みチャネルでのオリジナルサブ特徴マップにアテンションをより多く割り当てながら、行動対象の動作情報を少なく含み、またはノイズ情報をより多く含む、オリジナルサブ特徴マップを抑制し、即ち、当該畳み込みチャネルでのオリジナルサブ特徴マップにアテンションを比較的少なく割り当てることにより、動作の認識に有利な情報が強化され、動作の認識とは無関係で、更には不利な情報が抑制され、結果として動作認識の精度を効果的に向上させることが期待できる。

単一の時系列フレームの画像データにおいて、行動対象及び背景情報は静的なものである一方、行動は１つの動作が変化している過程である。したがって、動作認識の精度を向上させるためには、ターゲット時系列フレームの画像データ及びその次の時系列フレームの画像データを利用して、行動対象の動作変化過程を描く必要がある。具体的には、各畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴を取得後、各時系列フレームの画像データに対して、それ自体をターゲット時系列フレームの画像データとし、これにより、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップ、及び異なる畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップに対応する行動情報重みを求める。

さらに、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップに含まれている行動情報重みを取得する。具体的には、各々の畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異度を演算し、その後、各々の畳み込みチャネルにおけるオリジナルサブ特徴マップ間の差異度に従って、各畳み込みチャネルでのターゲット時系列フレームの画像データの対応する行動情報重みを特定することができる。

ステップＳ３０６：各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。

ここで、各畳み込みチャネルでのターゲット時系列フレームの行動情報重みを得た後、各畳み込みチャネルでのターゲット時系列フレームの行動情報重みを、対応する畳み込みチャネルでのオリジナルサブ特徴マップに掛けて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを得ることができる。

行動情報重みは、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性を示すものであるから、各々の畳み込みチャネルでの行動情報重みを対応するチャネルでのオリジナルサブ特徴マップに掛けて、各畳み込みチャネルにおけるターゲット時系列フレームの動作情報特徴マップを取得し、行動対象の動作情報との相関性が比較的に高いオリジナルサブ特徴マップを強化しながら、行動対象の動作情報との相関性が比較的に弱いオリジナルサブ特徴マップを抑制することによって、動作の認識に有利な情報が強化され、動作の認識とは無関係で、更には不利な情報が抑制され、結果として、動作情報特徴マップに、行動対象の動作情報をより多く含ませることになり、後続の行動対象への動作認識に寄与し、動作認識の精度を効果的に向上させることが期待できる。

ステップＳ３０８：各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。

ここで、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行する。具体的には、ターゲット時系列フレームごとに、畳み込み対象となる時系列フレームを特定し、同一の畳み込みチャネルにおけるターゲット時系列フレームと、畳み込み対象となる時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することができる。ここで、畳み込み対象となる時系列フレームとは、ターゲット時系列フレームに隣接する時系列フレームのことをいい、ターゲット時系列フレームの前後の２つの時系列フレームを含んでもよく、ターゲット時系列フレームの前に、次の４つの時系列フレームなどを含んでもよい。例えば、ターゲット時系列フレームは、ｔ番目のフレームとした場合には、畳み込み対象となる時系列フレームは、ターゲット時系列フレームの前に、次の２つの時系列フレームを含んでもよく、即ち畳み込み対象となる時系列フレームは、（ｔ－１）番目のフレーム及び（ｔ＋１）番目のフレームを含んでもよい。つまり、ｔ番目のフレームに対して、（ｔ－１）番目のフレーム、ｔ番目のフレーム及び（ｔ＋１）番目のフレームの同一の畳み込みチャネルでの行動情報特徴マップに畳み込み処理を行い、ｔ番目のフレームの各畳み込みチャネルにおける時系列行動特徴マップを得る。さらに、畳み込み対象となる時系列フレームは、ターゲット時系列フレームの前後の４つの時系列フレームを含んでもよく、即ち、畳み込み対象となる時系列フレームは、（ｔ－２）番目のフレーム、（ｔ－１）番目のフレーム、（ｔ＋１）番目のフレーム及び（ｔ＋２）番目のフレームを含んでもよい。このとき、ｔ番目のフレームに対して、（ｔ－２）番目のフレーム、（ｔ－１）番目のフレーム、ｔ番目のフレーム及び（ｔ＋１）番目のフレーム、（ｔ＋２）番目のフレームの同一の畳み込みチャネルでの行動情報特徴マップに畳み込み処理を行い、ｔ番目のフレームの各畳み込みチャネルにおける時系列行動特徴マップを得る。

具体的には、各時系列フレームの各畳み込みチャネルにおける行動情報特徴マップを取得後、ターゲット時系列フレームに隣接する時系列フレームを、畳み込み対象となる時系列フレームとして特定するとともに、ターゲット時系列フレーム及び畳み込み対象となる時系列フレームの同一の畳み込みチャネルでの行動情報特徴マップに畳み込み演算を行い、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを得ることができ、これにより、時系列行動特徴マップには、前後時系列フレームの行動特徴マップ、即ち、行動対象の動作情報が融合されているため、時系列という次元でモデリングすることが可能となる。ここで、畳み込み対象となる時系列フレームの各畳み込みチャネルでの時系列行動特徴マップの取得方法は、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップの取得方法と同じである。

図４に示すように、図４は、一実施形態において各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行し、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを生成することを示す概略図である。図中の左側の行列図は、各畳み込みチャネルにおける各時系列フレームの行動情報特徴マップを表し、右側の行列図は、各畳み込みチャネルにおける各時系列フレームの時系列行動特徴マップを表している。図示される行列図の横軸は、畳み込みチャネルの次元を表し、縦軸は、時系列フレームの次元を表す。左側の行列図を例として挙げると、図中の左側の行列図の１行目は、第１の時系列フレームの各畳み込みチャネルでの行動情報特徴図を表し、２行目は、第２の時系列フレームの各畳み込みチャネルでの行動情報特徴図を表し、これによって類推する。第２の時系列フレームをターゲット時系列フレームとし、畳み込み時系列フレームは、第２の時系列フレームの直前の時系列フレームと第２の時系列フレームの次の時系列フレームとを含むことを例に挙げると、第２の時系列フレームの時系列行動特徴マップに対して、３＊１の畳み込みコアを利用して、第１の時系列フレームの第１の畳み込みチャネルでの行動情報特徴マップ、第２の時系列フレームの第１の畳み込みチャネルでの行動情報特徴マップ及び第３の時系列フレームの第１の畳み込みチャネルでの行動情報特徴マップに対して畳み込み演算を行い、第２の時系列フレームの第１の畳み込みチャネルにおける時系列行動特徴マップを取得する。同様に、３＊１の畳み込みコアを利用して、第１の時系列フレームの第２の畳み込みチャネルでの行動情報特徴マップ（図中のＡ１）、第２の時系列フレームの第２の畳み込みチャネルでの行動情報特徴マップ（図中のＡ２）及び第３の時系列フレームの第２の畳み込みチャネルでの行動情報特徴マップ（図中のＡ３）に対して畳み込み演算を行い、第２の時系列フレームの第２の畳み込みチャネルにおける時系列行動特徴マップ（図中の３）を取得し、これによって類推して、第２の時系列フレームの各々の畳み込みチャネルにおける時系列行動特徴マップ（図中のＢ）を取得する。いずれか１つの時系列フレームに対しても、その前後に隣接する隣接時系列フレームを利用して、各々の畳み込みチャネルにおいて時間次元で畳み込み演算を行うことにより、演算された時系列行動特徴マップに、前後の時系列フレームの行動特徴マップ、即ち、行動対象の動作情報が融合されるようになる。

図４に示すように、第１の時系列フレーム及び最後の第４の時系列フレームに対して、直前の時系列フレーム又は次の時系列フレームの画像データが存在しないから、第１の時系列フレームの直前の時系列フレームと、最後の第４の時系列フレームの次の時系列フレームとに対して、０を入れるようにすればよいことが理解されるべきであろう。

ステップＳ３１０：各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。

ここで、ターゲット時系列フレームの画像データの時系列行動特徴を取得後、時系列行動特徴マップを画像データの特徴情報として利用し、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識することができる。時系列行動特徴マップには、行動と相関性が高い情報も、時系列情報も含まれているから、時系列行動特徴マップを利用して動作認識を行うことにより、動作認識の精度を効果的に向上させることが期待できる。

具体的には、時系列行動特徴マップを画像データの特徴情報とし、動作認識用の２Ｄ畳み込みネットワークに入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。その中に、２Ｄ畳み込みネットワークは、ＲｅｓＮｅｔ－５０畳み込みニューラルネットワークを含み得る。ターゲット時系列フレームの各チャネルでの時系列行動特徴マップをＲｅｓＮｅｔ－５０畳み込みニューラルネットワークに入力した後、時系列特徴マップの各動作種類に対応する確率を相応に出力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。

図２に示す動作認識ネットワークモデルを例として挙げると、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップは、バックボーンネットワーク層によって実行される。各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップをバックボーンネットワーク層に入力すると、バックボーンネットワーク層は分類器として機能し、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を出力する。ステップＳ３０２のうち異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップは、マルチチャネル畳み込み層によって実行され、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。ステップＳ３０４のうち時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップは、動作情報強化モジュールによって実行される。またステップＳ３０８のうち各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップは、時系列交互モジュールによって実行される。

前記動作認識方法において、映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得した後、時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレーム及び次の時系列フレームのオリジナルサブ特徴マップに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを取得するとともに、行動情報重みを対応する畳み込みチャネルでのオリジナルサブ特徴マップに掛けて、単一の時系列フレームのオリジナルサブ特徴マップに含まれる行動情報を強化し、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得し、その後、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップには、隣接する時系列フレームの行動情報特徴マップが融合されるようになり、時系列という次元でのモデリングを実現し、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得し、最後に、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを、ターゲット時系列フレームの画像データの特徴情報として動作認識を行い、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。この動作認識方法によれば、単一の時系列フレームにおけるオリジナルサブ特徴マップに含まれる行動情報を強化しながら、各時系列フレーム間の時系列情報をモデリングすることができ、各時系列フレーム間の順序を混乱させると、全く異なる動作認識結果が得られるため、動作認識の精度を向上させることが可能となる。

一実施形態では、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップの後に、各時系列フレームの画像データに含まれる行動対象の動作種類を取得後、各時系列フレームの動作種類に基づいて映像データの動作種類を特定するステップをさらに含む。

ここで、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を取得した後、時系列フレームの順番に従って、順次に後続の時系列フレームをターゲット時系列フレームとするとともに、その画像データに含まれる行動対象の動作種類を取得し、すべての時系列フレームの画像データに含まれる行動対象の動作種類を取得した後、最後に映像データのすべての時系列フレームの画像データに含まれる行動対象に対応する動作種類を融合することにより、当該映像データに対する動作認識結果を取得する。

一実施形態では、図５に示すように、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップは、以下のステップを含む。

ステップＳ５０２：各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する。

ここで、差異情報は、２つの時系列フレームの画像データに含まれる行動対象の動作変化の程度、即ち行動対象の動作に関する情報を示す。上述したとおり、映像データから取得された各時系列フレームの画像データには、動作を認識するのに重要な情報も、動作を認識するのに無駄、更には逆効果を奏するノイズ情報も含まれている。ところが、単一の時系列フレームの画像データにおいて、行動対象及び背景情報は静的なものである一方、行動は１つの動作が変化している過程であるから、ただ単一の時系列フレームの画像データに基づいて、なかなか行動対象の動作情報を入手することが難しい。ところが、各畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異情報は、前後時系列フレームにおける行動対象の動作変化であり、対応する畳み込みチャネルにおける前後時系列フレームのオリジナルサブ特徴マップの間の差異情報を取得すれば、各々の畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップに含まれる行動情報を得ることができる。

ここで、ある畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異情報が大きいほど、当該畳み込みチャネルでのオリジナルサブ特徴マップは、行動対象の動作情報との相関性が更に高く、オリジナルサブ特徴マップに含まれている行動関連特徴情報が更に多くなる。逆に、当該畳み込みチャネルでのオリジナルサブ特徴マップは、行動対象の動作情報との相関性が更に低く、オリジナルサブ特徴マップに含まれている行動に関する特徴情報に更に少なくなる。

具体的には、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの間の差異情報を取得する際に、具体的には、各々の畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差分値を求めることによって取得することができる。

ステップＳ５０４：活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みにマッピングさせる。

ここで、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの間の差異情報を取得後、活性化関数に従って、各畳み込みチャネルにおける差異情報に基づいて、対応する畳み込みチャネルでの行動情報重みを得ることができる。上述したとおり、ある畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異情報が大きいほど、当該畳み込みチャネルでのオリジナルサブ特徴マップの行動情報重みが大きくなる。逆に、当該畳み込みチャネルでのオリジナルサブ特徴マップは、行動対象の動作情報との相関性が低いほど、当該畳み込みチャネルでのオリジナルサブ特徴マップの行動情報重みが小さくなる。

具体的には、活性化関数は、Ｓｉｇｍｉｏｄ関数であり得る。各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの間の差異情報を取得後、活性化関数であるＳｉｇｍｉｏｄ関数に従って、各々の畳み込みチャネルでの差異情報を、０～１の重み係数にマッピングさせて、各々のチャネルでのターゲット時系列フレームのオリジナルサブ特徴マップの行動情報重みを得ることができる。

一実施形態では、図６ａに示すように、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの間の差異情報を取得するステップは、以下のステップを含む。

ステップＳ６０２：単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換する。

ここで、単位プーリング層とは、オリジナルサブ特徴マップを次元削減するためのプーリング層のことをいう。オプションとして、単位プーリング層は、平均プーリング層（ａｖｅｒａｇｅｐｏｏｌｉｎｇ）、例えばグローバル平均プーリング層を含み得る。

単位サブ特徴マップとは、横軸、縦軸の両方を１とする特徴マップを指している。具体的には、単位プーリング層によって、空間的サイズがＨ＊Ｗのオリジナルサブ特徴マップを、空間的サイズが１＊１の単位サブ特徴マップに次元削減することができる。このとき、畳み込みチャネルという次元は変わらず、即ち、生成された単位サブ特徴マップの畳み込みチャネル数は、オリジナルサブ特徴マップの畳み込みチャネル数と等しいことが理解されるべきであろう。

ステップＳ６０４：各畳み込みチャネルにおけるターゲット時系列フレームの単位サブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームの単位サブ特徴マップとのそれぞれに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを得る。

ここで、予め設定されたズーム倍数は、実際の状況に応じて設定され、オリジナルサブ特徴マップの畳み込みチャネルという次元での数と、畳み込みチャネルが次元削減された単位サブ特徴マップの畳み込みチャネルという次元での数との比に応じて定まるようにしてもよい。例えば、オリジナルサブ特徴マップの畳み込みチャネルという次元での数が２６５、畳み込みチャネルが次元削減された後、単位サブ特徴マップの畳み込みチャネルという次元での数が１６である場合には、予め設定されたズーム倍数は、１６倍になる。

各畳み込みチャネルにおけるターゲット時系列フレームの単位サブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームの単位サブ特徴マップとを取得後、次元削減畳み込み層によって、ターゲット時系列フレーム及び次の時系列フレームに対応する単位サブ特徴マップの畳み込みチャネルという次元での数を低減することができる。ここで、この次元削減畳み込み層の畳み込みコアのサイズは、１＊１であり、畳み込みコアの数は、次元削減によって目指されるべき単位サブ特徴マップの畳み込みチャネルという次元での数と等しい。

例えば、各時系列フレームのオリジナルサブ特徴マップの空間的サイズがＨ＊Ｗであり、畳み込みチャネルという次元での数がＣである場合には、即ち、空間的サイズがＨ＊Ｗであるオリジナルサブ特徴マップがＣ個含まれており、各時系列フレームの画像データのオリジナルサブ特徴マップのデータ次元はＣ＊Ｈ＊Ｗである。単位プーリング層の処理によって得られた単位サブ特徴マップの畳み込みチャネルという次元での数は変わらず、空間的サイズが１＊１に削減され、即ち、単位サブ特徴マップのデータ次元は（Ｃ＊１＊１）となった。そして、次元削減畳み込み層によって畳み込みチャネルという次元を削減し、単位サブ特徴マップの畳み込みチャネルという次元での数を（Ｃ／ｒ）に削減すれば、次元削減された単位サブ特徴マップのデータ次元は（Ｃ／ｒ＊１＊１）になった。ここで、ｒは、ズーム倍数である。

ステップＳ６０６：ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得する。

ここで、ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得する際に、具体的には、ターゲット時系列フレームの次元削減後の単位サブ特徴マップと、次の時系列フレームの次元削減後の単位サブ特徴マップとの、対応する畳み込みチャネルでの単位サブ特徴マップの差分値を求めることによって得られる。

ステップＳ６０８：次元削減差異情報に対して、予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得る。

次元削減差異情報を取得後、次元増加畳み込み層によって、次元削減差異情報の畳み込みチャネルという次元での数を、オリジナルサブ特徴マップの畳み込みチャネルでのデータと一致させるように復元することができる。ここで、この次元増加畳み込み層の畳み込みコアのサイズは、１＊１であり、畳み込みコアの数は、オリジナルサブ特徴マップの畳み込みチャネル数と等しい。

本実施形態では、単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、単位サブ特徴マップに変換するとともに、得られた単位サブ特徴マップに対して、畳み込みチャネルという次元で予め設定されたズーム倍数で次元削減を行うことにより、次元削減された単位サブ特徴マップのデータ量は、オリジナルサブ特徴マップのデータ量に比べて大幅に低減される。ターゲット時系列フレームと次の時系列フレームの各畳み込みチャネルでのオリジナルサブ特徴マップの差異情報を計算することから、ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の差異情報を計算することに変換することによって、計算量を効果的に減らし、計算速度を向上することが可能となる。

図２に示される動作認識ネットワークモデルを例として挙げると、上記の図５及び図６に示されるステップは、動作情報強化モジュールによって実行され得る。図６ｂに示すように、図６ｂは、一実施形態において各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する概略図である。図６において、Ａ、Ｂという２つの入力は、ターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとをそれぞれに表し、入力Ａ及び入力Ｂのデータ次元は、いずれもＣ＊Ｈ＊Ｗであり、Ｈ及びＷは、それぞれにオリジナルサブ特徴マップの横軸及び縦軸を示し、Ｃは、オリジナルサブ特徴マップの畳み込みチャネルという次元での数を示す。つまり、入力Ａ及び入力Ｂには、Ｃ個の畳み込みチャネルを有し、空間的サイズがＨ＊Ｗであるオリジナルサブ特徴マップが含まれている。このモジュールの計算量を減らすために、まず、単位プーリング層によって、入力Ａにおけるオリジナルサブ特徴マップ及び入力Ｂにおけるオリジナルサブ特徴マップの空間的次元をそれぞれに次元削減し、これでＣ個の畳み込みチャネルを有し、空間的サイズが１＊１である単位サブ特徴マップを得る。次いで、第１の次元削減プーリング層によって、畳み込みチャネルという次元で入力Ａに対応する単位サブ特徴マップを次元削減し、次元削減された単位サブ特徴マップのデータ次元はＣ／ｒ＊１＊１である。同様に、第２の次元削減プーリング層によって、畳み込みチャネルという次元で入力Ｂに対応する単位サブ特徴マップを次元削減し、次元削減された単位サブ特徴マップのデータ次元は同じくＣ／ｒ＊１＊１である。ここで、第１の次元削減畳み込み層と第２の次元削減畳み込み層のネットワークパラメータが一致していることが理解されるべきであろう。そして、入力Ａ、入力Ｂという２つの時系列フレームの次元削減された単位サブ特徴マップ（データ次元がＣ／ｒ＊１＊１）を減算して、行動情報を特徴付ける次元削減差異情報を得て、この次元削減差異情報のデータ次元がＣ／ｒ＊１＊１である。そして、次元増加畳み込み層によって、畳み込みチャネルの次元数を、オリジナルサブ特徴マップの畳み込みチャネル数と一致させるように復元して、データ次元がＣ＊１＊１となる差異情報を得る。最後に、ｓｉｇｍｏｉｄ関数によって、各々の畳み込みチャネルに対応する差異情報を、データ値が０～１の行動情報重みにマッピングさせる。続いて、各畳み込みチャネルの行動情報重みを、対応する畳み込みチャネルのオリジナルサブ特徴マップに掛けることにより、一部の畳み込みチャネルのオリジナルサブ特徴マップの特徴情報が様々な程度に強化され、残りの畳み込みチャネルのオリジナルサブ特徴マップの特徴情報が様々な程度に抑制され、次の時系列フレームの特徴情報で、ターゲット時系列フレームのオリジナルサブ特徴マップの中に行動情報に相関する特徴情報を強化することが実現される。ここで、最後の時系列フレームは、後に続くフレームがないことから、次の時系列フレームのオリジナルサブ特徴マップの中の特徴情報を利用して本時系列フレームを強化することができず、つまり、その行動情報特徴マップがオリジナルサブ特徴マップと一致している。

一実施形態では、図７に示すように、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップは、以下のステップを含む。

ステップＳ７０２：各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおける次の時系列フレームの行動情報特徴マップとをそれぞれ取得する。

ステップＳ７０４：時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。

ここで、直前の時系列フレームの各畳み込みチャネルにおける行動情報特徴マップおよび次の時系列フレームの各畳み込みチャネルにおける行動情報特徴マップをそれぞれ取得し、その後、時系列畳み込みコアを利用して、ターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの同一の畳み込みチャネルでの行動情報特徴マップに畳み込み演算を行い、ターゲット時系列フレームの該畳み込みチャネルでの時系列行動特徴マップを取得し、さらに、ターゲット時系列フレームのすべての畳み込みチャネルにおける時系列行動特徴マップを取得し、これで時系列行動特徴マップには、前後時系列フレームの行動特徴マップ、即ち、行動対象の動作情報が融合されるようになり、時系列という次元でモデリングすることが可能となる。

なお、各畳み込みチャネルにおける直前の時系列フレームの行動情報特徴マップ及び各畳み込みチャネルにおける次の時系列フレームの行動情報特徴マップの取得方法は、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップの取得方法と同じであることが理解されるべきであろう。例えば、ターゲット時系列フレームがｔ番目のフレームとしたとき、ターゲット時系列フレームに隣接する直前の時系列フレームが（ｔ－１）番目のフレームであり、すると、直前の時系列フレーム（（ｔ－１）番目のフレーム）の行動情報特徴マップに対して、各畳み込みチャネルにおける（ｔ－１）番目のフレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける（ｔ）番目のフレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける（ｔ－１）番目のフレームの行動情報重みを計算し、その後、各畳み込みチャネルにおける（ｔ－１）番目のフレームの行動情報重みと、各畳み込みチャネルにおける（ｔ－１）番目のフレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける（ｔ－１）番目のフレームの行動情報特徴マップを取得する。同様に、ターゲット時系列フレームに隣接する次の時系列フレームが（ｔ＋１）番目のフレームであり、次の時系列フレーム（（ｔ＋１）番目のフレーム）の行動情報特徴マップに対して、各畳み込みチャネルにおける（ｔ＋１）番目のフレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける（ｔ＋２）番目のフレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける（ｔ＋１）番目のフレームの行動情報重みを計算し、その後、各畳み込みチャネルにおける（ｔ＋１）番目のフレームの行動情報重みと、各畳み込みチャネルにおける（ｔ＋１）番目のフレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける（ｔ＋１）番目のフレームの行動情報特徴マップを取得する。

図２に示している動作認識ネットワークモデルを例として挙げると、上記の時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得るステップは、動作情報強化モジュールによって実行され得る。具体的に図４に示すように、図中の第３の時系列フレームをターゲット時系列フレームとしたとき、第３の時系列フレームの時系列行動特徴マップに対して、３＊１の畳み込みコアを利用して、第２の時系列フレーム、第３の時系列フレーム及び第４の時系列フレームの第１の畳み込みチャネルに対して畳み込み演算を行い、第３の時系列フレームの第１の畳み込みチャネルにおける時系列行動特徴マップを得る。同様に、３＊１の畳み込みコアを利用して、第２の時系列フレーム、第３の時系列フレーム及び第４の時系列フレームの第２の畳み込みチャネルに対して畳み込み演算を行い、第３の時系列フレームの第２の畳み込みチャネルにおける時系列行動特徴マップを得て、これによって類推して、第３の時系列フレームの各々の畳み込みチャネルにおける時系列行動特徴マップを得る。いずれか１つの時系列フレームに対しても、その前後に隣接する隣接時系列フレームを利用して各々の畳み込みチャネルにおいて時間次元で畳み込み演算を行うことにより、演算された時系列行動特徴マップに、前後の時系列フレームの行動特徴マップ、即ち、行動対象の動作情報が融合されるようになる。

一実施形態では、図８ａに示すように、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップは、以下のステップを含む。

ステップＳ８０２：ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を得る。

ここで、残差ネットワーク層は、時系列行動特徴マップを取得するために、さらなる特徴学習を行い、これで行動対象の動作種類をより効果的に表現できる動作特徴情報を取得するものである。

具体的には、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得た後、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを、ターゲット時系列フレームの画像データの特徴情報として、残差ネットワーク層に入力し、残差ネットワーク層によって、各時系列行動特徴マップに対して特徴学習を行い、画像データの動作特徴情報を得る。ここで、行動特徴情報の畳み込みチャネルという次元での数は、時系列行動特徴マップと一致してもよい。

ステップＳ８０４：動作特徴情報を動作分類ネットワーク層に入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。

ここで、動作分類ネットワーク層は、画像データの動作特徴情報ごとに、動作種類の認識を行うためのネットワーク構造である。ここでいう動作分類ネットワーク層は、トレーニングされた動作分類ネットワーク層であり、直接的に画像データに含まれる行動対象の動作種類を取得するように機能している。具体的には、ターゲット時系列フレームの画像データの動作特徴情報を取得後、動作特徴情報を動作分類ネットワーク層に入力して、動作分類ネットワーク層によって、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を取得する。

図２に示している動作認識ネットワークモデルを例として挙げると、上記の各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する前記ステップは、バックボーンネットワーク層によって実行され得る。その中に、バックボーンネットワーク層の中の残差ネットワーク層は、時系列行動特徴マップを取得するために、さらなる特徴学習を行い、これで行動対象の動作種類をより効果的に表現する動作特徴情報を取得するものである。またバックボーンネットワーク層の中のプーリング層及び全結合層は、動作分類ネットワーク層に相当し、入力された動作特徴情報に基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するものである。さらには、一実施形態では、残差ネットワーク層のネットワーク構造は、図８ｂに示すとおりであり、３つの畳み込みニューラルネットワークのそれぞれに、両端にある１＊１サイズの２つの２次元畳み込みニューラルネットワーク（２Ｄｃｏｎｖ）及び中間にある３＊３サイズの２次元畳み込みニューラルネットワークを含んでいる。

一実施形態では、ターゲット時系列フレームの時系列行動特徴マップを残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を得るステップの後に、さらに、動作特徴情報を、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップとして特定するステップと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップを再実行するステップとを含む。

ここで、ターゲット時系列フレームの画像データの動作特徴情報を得た後、動作特徴情報を、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップとして特定し、その後、新たに特定されたオリジナルサブ特徴マップに対して同じ操作を再開し、即ち各畳み込みチャネルにおけるオリジナルサブ特徴マップの行動情報重みを計算するとともに、行動情報重みを、対応する畳み込みチャネルのオリジナルサブ特徴マップに掛けて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。そして、時系列畳み込みコアを利用して、ターゲット時系列フレーム及び隣接する時系列フレームの同一の畳み込みチャネルにおける行動情報特徴マップを畳み込み処理し、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに、隣接する時系列フレームからの行動情報特徴マップを融合させ、これで各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。

動作特徴情報をオリジナルサブ特徴マップとして特定し、アテンション機構による行動特徴情報への情報強化、及び時系列情報へのモデリングを再開することにより、動作特徴情報で動作情報を特徴付ける能力が効果的に高まり、後続で動作特徴情報を動作の認識に用いることにより、動作認識の精度が効果的に向上され得る。

図２に示している動作認識ネットワークモデルを例として挙げると、図中の動作情報強化モジュールは、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップに対して動作情報を強化し、異なる畳み込みチャネルにおける各時系列フレームの画像データの動作情報特徴マップを得るものである。また、時系列交互モジュールは、前後に隣接する時系列フレームの画像データの動作情報特徴マップを同一の畳み込みチャネルにおいて畳み込み演算を行い、時系列行動特徴マップを得るものであり、当該時系列行動特徴マップには、前後に隣接する時系列フレームの行動情報が融合されている。また、バックボーンネットワーク層の残差ネットワーク層は、時系列行動特徴マップを取得するために、さらなる特徴学習を行い、これで行動対象の動作種類をより効果的に表現できる動作特徴情報を取得するものである。動作情報強化モジュール、時系列交互モジュール及び残差ネットワーク層は、１つの特徴抽出手段として機能することができる。複数の特徴抽出手段によって特徴学習の精度を高めることができるため、動作認識の精度を効果的に向上させることが期待できる。

さらに、動作情報強化モジュールおよび時系列交互モジュールに対して、映像データの動作認識という適用シナリオだけではなく、映像データをモデリングする必要がある任意の適用シナリオにも適用可能である。例えば、動作情報強化モジュールは、連続時系列フレームをモデリングするニューラルネットワークに埋め込められ、異なる適用シナリオによって、適用シナリオに有利な特徴情報を的確に強化し、適用シナリオに不利なノイズ情報を抑制することができる。また、時系列交互モジュールは、時系列情報をモデリングするために、任意の２Ｄ畳み込みネットワークに埋め込められ、特徴学習に寄与するものである。

一実施形態では、図９に示すように、動作認識方法は、さらに以下のステップを含む。

ステップＳ９０２：複数の異なるサンプル時系列フレームの画像サンプルと、各サンプル時系列フレームの画像サンプルに含まれる行動対象の標準動作種類とを含む、映像サンプルを取得する。

ここで、映像サンプルとは、動作認識ネットワークモデルに用いられる映像サンプルである。映像サンプルには、複数の異なるサンプル時系列フレームの画像サンプルと、各画像サンプルに対応する標準動作種類とが含まれている。

ステップＳ９０４：マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各画像サンプルのオリジナルサブ特徴マップサンプルを取得する。

ここで、画像サンプルをマルチチャネル畳み込み層の入力データとしてマルチチャネル畳み込み層に入力し、マルチチャネル畳み込み層の中の各々の畳み込みコアを利用して画像サンプルに対して畳み込み演算を行い、各々の畳み込みコアに対応する畳み込みチャネルでのオリジナルサブ特徴マップサンプルを取得する。

ステップＳ９０６：サンプル時系列フレームのそれぞれをターゲットサンプル時系列フレームとし、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとのサンプル差異情報を取得する。

ここで、サンプル差異情報は、２つのサンプル時系列フレームの画像サンプルに含まれる行動対象の動作変化の程度、即ち、行動対象の動作に関する情報を示す。映像サンプルから取得された各サンプル時系列フレームの画像サンプルには、動作を認識するのに重要な情報も、動作を認識するのに無駄、更には逆効果を奏するノイズ情報も含まれている。ところが、単一のサンプル時系列フレームの画像サンプルにおいて、行動対象及び背景情報は静的なものである一方で、行動は１つの動作が変化している過程であるから、ただ単一のサンプル時系列フレームの画像サンプルに基づいて、なかなか行動対象の動作情報を入手することが難しい。ところが、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルと、対応する畳み込みチャネルにおける次のサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルとの間の差異情報は、前後のサンプル時系列フレームの行動対象の動作変化であり、対応する畳み込みチャネルにおける前後のサンプル時系列フレームのオリジナルサブ特徴マップサンプルの間の差異情報を取得すれば、各々の畳み込みチャネルにおけるターゲットサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルに含まれる行動情報を得ることができる。

具体的には、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとの間のサンプル差異情報を取得する際に、具体的には、各々の畳み込みチャネルにおけるターゲットサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルと、対応する畳み込みチャネルにおける次のサンプル時系列フレームの画像サンプルのオリジナルサブ特徴マップサンプルとの間の差分値を求めることによって得られる。

さらに、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルに対してデータの次元削減を行い、ターゲットサンプル時系列フレームの次元削減された単位サブ特徴マップサンプルを得て、また、各畳み込みチャネルにおける次のターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルに対してデータの次元削減を行い、次のターゲットサンプル時系列フレームの次元削減された単位サブ特徴マップサンプルを得ることができる。次元削減された単位サブ特徴マップのデータ量は、オリジナルサブ特徴マップのデータ量に比べて大幅に低減される。ターゲットサンプル時系列フレーム及び次のサンプル時系列フレームの各畳み込みチャネルでのオリジナルサブ特徴マップサンプルのサンプル差異情報を計算することから、ターゲットサンプル時系列フレームの次元削減された単位サブ特徴マップサンプルと、次のサンプル時系列フレームの次元削減された単位サブ特徴マップサンプルとの間の差異情報を計算することに変換することによって、計算量を効果的に減らし、計算速度を向上することが可能となる。

ステップＳ９０８：活性化関数に従って、各畳み込みチャネルにおけるサンプル差異情報を、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルにマッピングさせる。

ここで、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとの間のサンプル差異情報を取得後、活性化関数に従って、各畳み込みチャネルにおける差異情報に基づいて、対応する畳み込みチャネルでの行動情報重みを得ることができる。具体的には、活性化関数は、Ｓｉｇｍｉｏｄ関数であり得る。各畳み込みチャネルにおけるサンプルターゲット時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとの間のサンプル差異情報を取得後、活性化関数であるＳｉｇｍｉｏｄ関数に従って、各々の畳み込みチャネルでのサンプル差異情報を、０～１の重み係数にマッピングさせて、各々のチャネルでのターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルの行動情報重みを求めることができる。

ステップＳ９１０：各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルと、オリジナルサブ特徴マップサンプルとに基づいて、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルを取得する。

ステップＳ９１２：各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルを取得する。

ここで、各サンプル時系列フレームの各畳み込みチャネルにおける行動情報特徴マップサンプルを取得した後、時系列畳み込みコアを利用して、ターゲットサンプル時系列フレームおよび隣接するサンプル時系列フレームの同一の畳み込みチャネルでの行動情報特徴マップサンプルに畳み込み演算を行い、ターゲットサンプル時系列フレームの各畳み込みチャネルでの時系列行動特徴マップサンプルを取得し、これで時系列行動特徴マップサンプルには、前後のサンプル時系列フレームの行動特徴マップサンプル、即ち、行動対象の動作情報が融合されているため、時系列という次元でモデリングすることが可能となる。

ステップＳ９１４：各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルに基づいて、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の予測動作種類を取得する。

ここで、ターゲットサンプル時系列フレームの画像データの時系列行動特徴マップサンプルを取得後、時系列行動特徴マップサンプルを画像サンプルの特徴情報として利用することによって、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の動作種類を取得することができる。具体的には、時系列行動特徴マップサンプルを動作認識用の２Ｄ畳み込みネットワークに入力して、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の予測動作種類を取得することができる。

ステップＳ９１６：予測動作種類と標準動作種類との間の差異に基づいて、マルチチャネル畳み込み層、活性化関数及び時系列畳み込みコアのパラメータを調整し、トレーニング終了条件を満足するまでトレーニングを続行させる。

ここで、画像サンプルの予測動作種類を取得後、予測動作種類と標準動作種類との間の差異をロス関数とし、トレーニング終了条件を満足するまで、マルチチャネル畳み込み層、活性化関数及び時系列畳み込みコアのパラメータを調整することができる。ここでいうトレーニング終了条件は、実際の必要に応じて調整したり設置したりすることができる。例えば、ロス関数が収束条件を満たせば、トレーニング終了条件になったと認められ、または、トレーニング回数が予め設定された回数に達すると、トレーニング終了条件になったと認められることができる。

一実施形態では、動作認識方法は、以下のステップを含む。
ステップ１：映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各前記時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
ステップ２：時系列フレームをターゲット時系列フレームのそれぞれとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
ステップ２－１：各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する。
ステップ２－１－１：単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換する。
ステップ２－１－２：それぞれに、各畳み込みチャネルにおけるターゲット時系列フレームの単位サブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームの単位サブ特徴マップに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを得る。
ステップ２－１－３：ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得する。
ステップ２－１－４：前記次元削減差異情報に対して、予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得る。
ステップ２－２：活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みにマッピングさせる。
ステップ３：各畳み込みチャネルでのターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
ステップ４：各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
ステップ４－１：各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームの行動情報特徴マップとをそれぞれ取得する。
ステップ４－２：時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。
ステップ５：各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ステップ５－１：ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を得る。
ステップ５－２：前記動作特徴情報を動作分類ネットワーク層に入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。
ステップ６：各時系列フレームの画像データに含まれる行動対象の動作種類を取得後、各時系列フレームの動作種類に基づいて、前記映像データの動作種類を特定する。

さらに、図２に示している動作認識ネットワークモデル及び図１０を参照しながら、動作認識方法について更に説明する。図１０において、左側部分は、映像から時間的に切り取られた２つの時系列フレームの画像データであり、その中に、左側部分の１列目の画像データは、ターゲット時系列フレームの画像データであり、２列目は、次の時系列フレームの画像データである。右側部分において、１列目の画像は、左側部分におけるターゲット時系列フレームの画像データに対応するオリジナルサブ特徴マップの可視化であり、２列目の画像は、オリジナルサブ特徴マップを動作情報強化モジュールで処理することによって得られた行動情報特徴マップの可視化であり、３列目の画像は、行動情報特徴マップを時系列交互モジュールで処理することによって得られた時系列行動特徴マップの可視化である。図１０から見出せるように、オリジナルサブ特徴マップには、動作を認識するのに重要な情報も、動作を認識するのに無駄、更には逆効果を奏するノイズ情報も含まれており、その中にノイズ情報が多いから、行動対象の輪郭がぼやけている。動作情報強化モジュールで処理することによって得られた行動情報特徴マップにおいては、行動対象の輪郭が明確化され、動作情報とは無関係な背景ノイズ情報がある程度に抑制される。また、時系列交互モジュールで処理することによって得られた時系列行動特徴マップにおいては、左側部分の中の１列目のターゲット時系列フレームの画像データの情報のみならず、左側部分の中の２列目の次の時系列フレームの画像データの情報も含まれているため、時系列情報をモデリングする目的が図れるようになる。

さらに、前記ステップ２～ステップ４でのデータへの操作手順は、畳み込みチャネルという次元で行われる。異なる畳み込みチャネルでの特徴マップ（オリジナルサブ特徴マップ又は行動情報特徴マップを含む）は互いに独立したものであり、隣接する畳み込みチャネルでの特徴マップの情報は混乱されたりすることはないから、演算過程での演算量が低演算量でありながら、演算速度が高い。同様に、図２における動作情報強化モジュール及び時系列交互モジュールによる操作は、いずれも畳み込みチャネルにおいて行われる。つまり、各々の畳み込みチャネルでの単一又は複数の時系列フレームの特徴マップ（オリジナルサブ特徴マップ又は行動情報特徴マップを含む）に対して、異なる畳み込みチャネルでの特徴マップは互いに独立したものであり、隣接する畳み込みチャネルでの特徴マップの情報は混乱されたりすることはないから、演算過程での演算量が低演算量でありながら、演算速度が高い。

一実施形態では、図１１に示すように、動作認識方法は、以下のステップを含む。

ステップＳ１１０２：リアルタイムな監視映像データを取得する。

ここで、本実施形態は、リアルタイムな監視カメラのシナリオに適用される。映像データとして、リアルタイムに取得された監視映像データが選択される。監視映像データは、防犯カメラによって撮像されたリアルタイムな映像であり得る。その中に、監視映像データの画像には、監視される行動対象が含まれている。

ステップＳ１１０４：監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。

ここで、異なる時系列フレームの画像データとは、撮像の時間的順序ごとに監視映像データから切り取られた画像データのことをいい、監視映像データにおける全ての時系列フレームの画像データが含まれている。映像データから異なる時系列フレームごとの画像データを取得する際に、具体的には、映像データ中の画像データの並べ替え順序ごとに順番に切り取られてもよい。

ここで、オリジナルサブ特徴マップとは、画像データを特徴付ける特徴量である。マルチチャネル畳み込み層とは、画像データの特徴量を取得するためのネットワークモデルを意味し、ここでいうマルチチャネル畳み込み層は、画像データの特徴量を直接的に取得することができるトレーニング済みのネットワークモデルである。ここで、マルチチャネル畳み込み層は、複数の畳み込みコアを含み、畳み込みチャネルは、マルチチャネル畳み込み層によって決定され、マルチチャネル畳み込み層のうちの画像データを抽出するための畳み込みコアの数は、即ち、畳み込みチャネル数である。具体的には、監視映像中の各時系列フレームの画像データをそれぞれマルチチャネル畳み込み層の入力データとしてマルチチャネル畳み込み層に入力し、マルチチャネル畳み込み層の中の各々の畳み込みコアを利用して、画像データに対して畳み込み演算を行い、各々の畳み込みコアに対応する畳み込みチャネルのオリジナルサブ特徴マップを取得する。

ステップＳ１１０６：ターゲット時系列フレームを特定し、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。

ここで、ターゲット時系列フレームとは、現時点で取得された画像データに対応する時系列フレームを指しており、次の時系列フレームとは、ターゲット時系列フレームに対して、次の時点に対応する時系列フレームを指している。

監視映像データから取得された各時系列フレームの画像データには、動作を認識するのに重要な情報、例えば、行動対象の見かけ情報も、動作を認識するのに無駄、更には逆効果を奏するノイズ情報、例えば、画像データ中のノイズや背景情報も含まれている。異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、行動対象の動作情報との相関性、即ち、行動情報重みが得られた後、行動対象の動作情報との相関性が更に高いオリジナルサブ特徴マップにおける特徴情報を増加し、即ち、当該畳み込みチャネルでのオリジナルサブ特徴マップにアテンションをより多く割り当てながら、行動対象の動作情報を比較的少なく含むか、またはノイズ情報をより多く含むオリジナルサブ特徴マップを抑制し、即ち、当該畳み込みチャネルでのオリジナルサブ特徴マップにアテンションをより少なく割り当てることにより、動作の認識に有利な情報が強化され、動作の認識とは無関係で、更には不利な情報が抑制され、結果として動作認識の精度を効果的に向上させることが期待できる。

単一の時系列フレームの画像データにおいて、行動対象及び背景情報は静的なものである一方、行動は１つの動作が変化している過程であるから、動作認識の精度を向上させるためには、ターゲット時系列フレームの画像データ及び次の時系列フレームの画像データを利用して、行動対象の動作変化過程を描く必要がある。具体的には、各畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴を取得後、各時系列フレームの画像データに対して、それ自体をターゲット時系列フレームの画像データとし、それで異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、異なる畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップに対応する行動情報重みを求める。

具体的には、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップに含まれている行動情報重みを取得する。具体的には、まず、各々の畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップと、対応する畳み込みチャネルにおける次の時系列フレームの画像データのオリジナルサブ特徴マップとの間の差異度を演算し、その後、各々の畳み込みチャネルにおけるオリジナルサブ特徴マップ間の差異度に従って、各畳み込みチャネルでのターゲット時系列フレームの画像データの対応する行動情報重みを特定することができる。

ステップＳ１１０８：各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。

ステップＳ１１１０：各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。

ここで、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して、時系列畳み込みを実行する。具体的には、ターゲット時系列フレームごとに、畳み込み対象となる時系列フレームを特定し、同一の畳み込みチャネルにおけるターゲット時系列フレームと、畳み込み対象となる時系列フレームとの行動情報特徴マップに対して畳み込みを行い、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを得ることができ、これにより、時系列行動特徴マップには、前後時系列フレームの行動特徴マップ、即ち、行動対象の前後時間での動作情報が融合されるようになり、時系列という次元でモデリングすることが可能となる。ここで、畳み込み対象となる時系列フレームの各畳み込みチャネルでの行動情報特徴マップの取得方法は、ターゲット時系列フレームの各畳み込みチャネルでの行動情報特徴マップの取得方法と同じである。

ステップＳ１１１２：各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。

ここで、具体的には、ターゲット時系列フレームの画像データの時系列行動特徴を取得後、時系列行動特徴マップを、ターゲット時系列フレームの画像データの特徴情報として特定するとともに、該特徴情報に基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識することができる。具体的には、時系列行動特徴マップを動作認識用の２Ｄ畳み込みネットワークに入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識することができる。時系列行動特徴マップには、行動との相関性が強い情報も、時系列情報も含まれているため、時系列行動特徴マップを利用して動作認識を行うことにより、動作認識の精度を効果的に向上させることが可能となる。

ステップＳ１１１４：動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定する。

ここで、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を取得後、この動作種類を、監視映像データに含まれる行動対象の動作情報として特定することにより、行動対象の行動情報をリアルタイムで更新し、監視映像を見ることなく行動対象の行動情報を把握することができ、行動対象へのリアルタイム監視を確保することができる。

さらに、この行動情報を表示装置に表示させることによって、監視作業者は監視映像に写っている行動対象の行動状態を把握することができる。

監視対象が人間であることを例に挙げて説明する。仮に監視対象が跨ぎという動作をしていることを想定した場合、リアルタイムな監視映像データから現時点で撮像されたターゲット時系列フレーム及びターゲット時系列フレームに隣接する次の時系列フレームを取得し、ターゲット時系列フレーム及び次の時系列フレームの各畳み込みチャネルでのオリジナルサブ特徴マップに基づいて、ターゲット時系列フレームの各畳み込みチャネルでの行動情報重みを取得するとともに、この行動情報重みを、ターゲット時系列フレームに対応する畳み込みチャネルでのオリジナルサブ特徴マップに掛けて、ターゲット時系列フレームの各畳み込みチャネルでの行動情報特徴マップを取得し、その後、ターゲット時系列フレームに基づいて、畳み込み対象となる時系列フレームを特定することによって、畳み込み対象となる時系列フレームの同一の畳み込みチャネルでの行動情報特徴マップを畳み込み処理し、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを取得し、最後に、ターゲット時系列フレームの各畳み込みチャネルでの時系列行動特徴マップを、ターゲット時系列フレームの画像データの特徴情報として動作認識を行い、ターゲット時系列フレームの画像データに含まれる監視対象の動作種類を取得し、このとき、監視対象の動作種類が跨ぎ動作種類に対応し、この動作種類を監視対象の動作情報として特定する。

ここで、前記フローチャートの各ステップは矢印に従って順番に表示されているが、これらのステップは必ずしも矢印で示された順序で実行されるとは限らないことは理解されるべきであろう。本明細書に明示的に記載されていない限り、これらのステップの実行は、厳密には順序に制限されず、これらのステップは他の順序で実行され得る。さらに、前記フローチャートの少なくとも一部のステップには、複数のサブステップまたは複数の段階が含まれる場合があり、これらのサブステップまたは段階は、必ずしも同時に実行されるとは限らず、異なる時点で実行される場合がある。また、これらのサブステップまたは段階の実行も必ずしも連続的であるとは限らず、他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と順番にまたは交替に実行され得る。

一実施形態では、図１２に示すように、コンピュータデバイスによって配置され、画像取得モジュール１２０２、重み取得モジュール１２０４、特徴特定モジュール１２０６、時系列交互モジュール１２０８及び動作認識モジュール１２１０を備える動作認識装置１２００が提供される。ここで、
画像取得モジュール１２０２は、映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
重み取得モジュール１２０４は、時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
特徴特定モジュール１２０６は、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
時系列交互モジュール１２０８は、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
動作認識モジュール１２１０は、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する。

一実施形態では、図１３に示すように、重み取得モジュール１２０４は、
各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する差異情報取得モジュール１２０４ａと、
活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みにマッピングさせる重みマッピングモジュール１２０４ｂとを備える。

一実施形態では、差異情報取得モジュールは、単位プーリング層によって、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換し、ターゲット時系列フレームの単位サブ特徴マップ及び次の時系列フレームの単位サブ特徴マップそれぞれに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを取得し、ターゲット時系列フレームの次元削減された単位サブ特徴マップと、次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得し、次元削減差異情報に対して、予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得る。

一実施形態では、時系列交互モジュールは、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおける次の時系列フレームの行動情報特徴マップとをそれぞれに取得し、時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、直前の時系列フレーム及び次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを得る。

一実施形態では、動作認識モジュールは、ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、ターゲット時系列フレームの画像データの動作特徴情報を取得し、動作特徴情報を動作分類ネットワーク層に入力して、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するものである。

一実施形態では、時系列交互モジュールは、さらに、動作特徴情報を、異なる畳み込みチャネルにおけるターゲット時系列フレームの画像データのオリジナルサブ特徴マップとして特定するとともに、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップを重み取得モジュール１１０４に再実行させるものである。

一実施形態では、動作認識モジュールは、さらに、各時系列フレームの画像データに含まれる行動対象の動作種類を取得後、各時系列フレームの動作種類に基づいて、映像データに対応する動作種類を特定するものである。

一実施形態では、動作認識装置は、複数の異なるサンプル時系列フレームの画像サンプルと、各サンプル時系列フレームの画像サンプルに含まれる行動対象の標準動作種類とを含む映像サンプルを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各前記画像サンプルのオリジナルサブ特徴マップサンプルを取得し、前記サンプル時系列フレームのそれぞれをターゲットサンプル時系列フレームとして、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとのサンプル差異情報を取得し、活性化関数に従って、各畳み込みチャネルにおけるサンプル差異情報を、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルにマッピングさせ、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルと、オリジナルサブ特徴マップサンプルとに基づいて、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルを取得し、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルを取得し、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルに基づいて、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の予測動作種類を取得し、前記予測動作種類とターゲットサンプル時系列フレームの標準動作種類との間の差異に基づいて、前記マルチチャネル畳み込み層、前記活性化関数及び時系列畳み込みコアのパラメータを調整し、トレーニング終了条件を満足するまでトレーニングを続行させる、トレーニングモジュールをさらに備える。

一実施形態では、コンピュータデバイスに配置され、画像取得モジュールと、重み取得モジュールと、特徴特定モジュールと、時系列交互モジュール及び動作認識モジュールとを備える、動作認識装置が提供される。ここで、
画像取得モジュールは、リアルタイムな監視映像データを取得するとともに、監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得する。
重み取得モジュールは、時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算する。
特徴特定モジュールは、行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得する。
時系列交互モジュールは、行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得する。
動作認識モジュールは、時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するとともに、動作種類を、現在の監視映像データに含まれる行動対象の動作種類として特定する。

動作認識装置に対する具体的な限定については、前記動作認識方法に対する限定を参照することができるが、ここでは重複しない。前記動作認識装置の各モジュールは、ソフトウェア、ハードウェア、およびそれらの組み合わせによって、全体的または部分的に実現され得る。プロセッサが各モジュール対応する操作を便利に実行できるように、前記各モジュールは、ハードウェアの形でコンピュータデバイスのプロセッサに埋め込まれるか別体として存在し、またはソフトウェアの形でコンピュータデバイスのメモリに格納され得る。

図１４は、一実施形態に係るコンピュータデバイスの内部ブロック図を示している。当該コンピュータデバイスは、具体的には図１におけるサーバ１０２であり得る。図１４に示すように、当該コンピュータデバイスは、システムバスによって接続されている１つ以上のプロセッサ、メモリ、ネットワークインターフェース、入力装置および表示画面を含む。ここで、メモリは、不揮発性記憶媒体および内部メモリを含む。当該コンピュータデバイスの不揮発性記憶媒体には、オペレーティングシステムが格納され、さらにコンピュータ可読命令も格納されている。このコンピュータ可読命令が１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに動作認識方法を実現させることができる。また、この内部メモリにもコンピュータ可読命令が格納され得る。このコンピュータ可読命令が１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに動作認識方法を実行させることができる。コンピュータデバイスの表示画面は、液晶表示画面または電子インク表示画面であり得る。コンピュータデバイスの入力装置は、表示画面上に覆われているタッチ層、またはコンピュータデバイスのケースに設けられたボタン、トラックボールまたはタッチパッドであり得るし、さらに、外部キーボード、トラックパッドまたはマウスなどである場合がある。

ここで、図１４に示されている構造が、本出願の方案に関連する部分構造のブロック図に過ぎず、本出願の方案が適用されるコンピュータデバイスに対する制限を構成しないが、具体的なコンピュータデバイスは、図示よりも多いまたは少ない部品を含めるか、特定の部品を組み合わせるか、異なる部品配置を有してもよいことは、当業者に理解されるべきであろう。

一実施形態では、本出願に提供される動作認識装置は、コンピュータ可読命令の形で実現され得る。コンピュータ可読命令は、図１４に示されるようにコンピュータデバイス上で実行され得る。コンピュータデバイスのメモリは、当該動作認識デバイスを構成する様々なプログラムモジュール、例えば、図１２に示される画像取得モジュール１２０２、重量取得モジュール１２０４、特徴特定モジュール１２０６、時系列交互モジュール１２０８および動作認識モジュール１２１０を格納することができる。各プログラムモジュールによって構成されるコンピュータ可読命令は、１つ以上のプロセッサに、本明細書で説明される本出願の各実施形態の動作認識方法のステップを実行させるようにする。

例えば、図１４に示されるコンピュータデバイスは、図１２に示される動作認識装置における画像取得モジュール１２０２によって、ステップＳ３０２を実行することができる。コンピュータデバイスは、重み取得モジュール１２０４によって、ステップＳ３０４を実行することができる。コンピュータデバイスは、特徴特定モジュール１２０６によって、ステップＳ３０６を実行することができる。コンピュータデバイスは、時系列交互モジュール１２０８によって、ステップＳ３０８を実行することができる。コンピュータデバイスは、動作認識モジュール１２１０によって、ステップＳ３１０を実行することができる。

一実施形態では、メモリおよび１つ以上のプロセッサを含むコンピュータデバイスが提供されている。メモリには、コンピュータ可読命令が記憶されている。コンピュータ可読命令が１つ以上のプロセッサによって実行されると、前記動作認識方法のステップを１つ以上のプロセッサに実行させるコンピュータデバイスが提供される。ここでの動作認識方法のステップは、上記の各実施形態に係る動作認識方法のステップであり得る。

一実施形態では、コンピュータ可読命令が記憶されている１つ以上のコンピュータ可読記憶媒体が提供される。コンピュータ可読命令が１つ以上のプロセッサによって実行されると、前記動作認識方法のステップを１つ以上のプロセッサに実行させる。ここでの動作認識方法のステップは、上記の各実施形態に係る動作認識方法のステップであり得る。

本出願の各実施形態における「複数」は、少なくとも２つである。

前記実施形態に係る方法の中の手順の全部または一部が、コンピュータ可読命令を介して関連するハードウェアに指示することによって実施でき、前記プログラムを不揮発性コンピュータ可読記憶媒体に格納できることは、当業者に理解されるべきであろう。このプログラムが実行されるとき、前述の方法に係る実施形態の手順を含み得る。ここで、本出願に提供される各実施形態で使用されるメモリ、ストレージ、データベースまたは他の媒体への何れかの引用は、不揮発性および／または揮発性メモリを含み得る。不揮発性メモリには、読み取り専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的にプログラム可能なＲＯＭ（ＥＰＲＯＭ）、電気的に消去可能なプログラム可能なＲＯＭ（ＥＥＰＲＯＭ）、またはフラッシュメモリが含まれている。また揮発性メモリには、ランダムアクセスメモリ（ＲＡＭ）または外部キャッシュメモリが含まれている。限定ではなく、例として、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、拡張ＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期チェーン（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）ダイレクトＲＡＭ（ＲＤＲＡＭ）、ダイレクトメモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、およびメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）などさまざまな形式で利用できる。

以上の実施形態における各々の技術的特徴を任意に組み合わせることができる。説明の便宜上、上記の実施形態における各々の技術的特徴のすべての可能な組み合わせについて記載しない。ただし、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載されている範囲内にあると認められるべきである。

以上の前記実施形態は、本出願の幾つかの実施形態を表すものに過ぎず、その説明は、比較的具体的かつ詳細であるが、本出願の特許範囲に対する制限として解釈されるべきではない。なお、当業者にとって、本出願の構想から逸脱しない限り、様々な変更や改善を行うことができ、これらはすべて本出願の保護範囲に属するものと考えられる。したがって、本出願の特許保護の範囲は、添付の特許請求の範囲を基準とすべきである。

Claims

コンピュータデバイスによって実行される動作認識方法であって、
映像データから異なる時系列フレームごとの画像データを取得し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
前記時系列フレームのそれぞれをターゲット時系列フレームとし、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける前記ターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報重みを演算するステップと、
前記行動情報重みと、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報特徴マップを取得するステップと、
前記行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおける前記ターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
前記時系列行動特徴マップに基づいて、前記ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、を含む、
動作認識方法。
各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける前記ターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報重みを演算する前記ステップは、
各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと前記次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得するステップと、
活性化関数に従って、各畳み込みチャネルにおける差異情報を、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報重みにマッピングさせるステップと、を含む、
請求項１に記載の動作認識方法。
各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと前記次の時系列フレームのオリジナルサブ特徴マップとの差異情報を取得する前記ステップは、
単位プーリング層によって、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける前記次の時系列フレームのオリジナルサブ特徴マップとを、それぞれ単位サブ特徴マップに変換するステップと、
ターゲット時系列フレームの前記単位サブ特徴マップ及び前記次の時系列フレームの前記単位サブ特徴マップのそれぞれに対して、予め設定されたズーム倍数で次元削減を行い、次元削減された単位サブ特徴マップを得るステップと、
前記ターゲット時系列フレームの次元削減された単位サブ特徴マップと、前記次の時系列フレームの次元削減された単位サブ特徴マップとの間の次元削減差異情報を取得するステップと、
前記次元削減差異情報に対して、前記予め設定されたズーム倍数で次元増加を行い、各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、前記次の時系列フレームのオリジナルサブ特徴マップとの差異情報を得るステップと、を含む、
請求項２に記載の動作認識方法。
前記行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおける前記ターゲット時系列フレームの時系列行動特徴マップを取得する前記ステップは、
各畳み込みチャネルにおけるターゲット時系列フレームに隣接する直前の時系列フレームの行動情報特徴マップと、各畳み込みチャネルにおける前記次の時系列フレームの行動情報特徴マップをそれぞれに取得するステップと、
時系列畳み込みコアを利用して、同一の畳み込みチャネルにおけるターゲット時系列フレーム、前記直前の時系列フレーム及び前記次の時系列フレームの行動情報特徴マップに対して畳み込み演算を行い、各畳み込みチャネルにおける前記ターゲット時系列フレームの時系列行動特徴マップを得るステップと、を含む、
請求項１～３の何れか１項に記載の動作認識方法。
前記時系列行動特徴マップに基づいて、前記ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識する前記ステップは、
前記ターゲット時系列フレームの時系列行動特徴マップを、残差ネットワーク層に入力して、前記ターゲット時系列フレームの画像データの動作特徴情報を得るステップと、
前記動作特徴情報を動作分類ネットワーク層に入力して、前記ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、を含む、
請求項１～４の何れか１項に記載の動作認識方法。
前記動作特徴情報を、異なる畳み込みチャネルにおける前記ターゲット時系列フレームの画像データのオリジナルサブ特徴マップとして特定するステップと、
各畳み込みチャネルにおける前記ターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおける前記ターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおける前記ターゲット時系列フレームの行動情報重みを演算するステップを再実行するステップと、をさらに含む、
請求項５に記載の動作認識方法。
各時系列フレームの画像データに含まれる行動対象の動作種類を取得した後、各前記時系列フレームの動作種類に基づいて、前記映像データに対応する動作種類を特定するステップをさらに含む、請求項１～６の何れか1項に記載の動作認識方法。
複数の異なるサンプル時系列フレームの画像サンプルと、各サンプル時系列フレームの画像サンプルに含まれる行動対象の標準動作種類とを含む映像サンプルを取得するステップと、
マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各画像サンプルのオリジナルサブ特徴マップサンプルを取得するステップと、
前記サンプル時系列フレームのそれぞれをターゲットサンプル時系列フレームとして、各畳み込みチャネルにおけるターゲットサンプル時系列フレームのオリジナルサブ特徴マップサンプルと、次のサンプル時系列フレームのオリジナルサブ特徴マップサンプルとのサンプル差異情報を取得するステップと、
活性化関数に従って、各畳み込みチャネルにおけるサンプル差異情報を、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルにマッピングさせるステップと、
各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報重みサンプルと、オリジナルサブ特徴マップサンプルとに基づいて、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルを取得するステップと、
各畳み込みチャネルにおけるターゲットサンプル時系列フレームの行動情報特徴マップサンプルに対して、時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルを取得するステップと、
各畳み込みチャネルにおけるターゲットサンプル時系列フレームの時系列行動特徴マップサンプルに基づいて、ターゲットサンプル時系列フレームの画像サンプルに含まれる行動対象の予測動作種類を取得するステップと、
前記予測動作種類とターゲットサンプル時系列フレームの標準動作種類との間の差異に基づいて、前記マルチチャネル畳み込み層、前記活性化関数及び時系列畳み込みコアのパラメータを調整し、トレーニング終了条件を満足するまでトレーニングを続行させるステップと、をさらに含む、
請求項２に記載の動作認識方法。
コンピュータデバイスによって実行される動作認識方法であって、
リアルタイムな監視映像データを取得するステップと、
前記監視映像データから異なる時系列フレームごとの画像データを抽出し、マルチチャネル畳み込み層を利用して、異なる畳み込みチャネルにおける各時系列フレームの画像データのオリジナルサブ特徴マップを取得するステップと、
前記時系列フレームのそれぞれをターゲット時系列フレームとして、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップと、各畳み込みチャネルにおけるターゲット時系列フレームに隣接する次の時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報重みを演算するステップと、
前記行動情報重みと、各畳み込みチャネルにおけるターゲット時系列フレームのオリジナルサブ特徴マップとに基づいて、各畳み込みチャネルにおけるターゲット時系列フレームの行動情報特徴マップを取得するステップと、
前記行動情報特徴マップに対して時系列畳み込みを実行することにより、各畳み込みチャネルにおけるターゲット時系列フレームの時系列行動特徴マップを取得するステップと、
時系列行動特徴マップに基づいて、ターゲット時系列フレームの画像データに含まれる行動対象の動作種類を認識するステップと、
前記動作種類を、現在の前記監視映像データに含まれる行動対象の動作種類として特定するステップと、を含む、
動作認識方法。
コンピュータデバイスに配置される動作認識装置であって、
請求項１～９の何れかに記載の動作認識方法を実行する、
動作認識装置。
コンピュータ可読媒体に記憶されており、コンピュータにより実行されると、請求項１～９のいずれか１項に記載の動作認識方法を実行させる、コンピュータプログラム。
コンピュータ可読命令が記憶されているメモリと、
前記コンピュータ可読命令が実行されると、請求項１～９のいずれか１項に記載の動作認識方法を実行させる１つ以上のプロセッサとを備える、
コンピュータデバイス。