JP2024511171A

JP2024511171A - 動作認識の方法および装置

Info

Publication number: JP2024511171A
Application number: JP2023558831A
Authority: JP
Inventors: ツァオファンチウ; インウェイパン; ティングヤオ; タオメイ
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2021-04-09
Filing date: 2022-03-30
Publication date: 2024-03-12
Also published as: CN113033458A; WO2022213857A1; CN113033458B

Abstract

本開示は、動作認識の方法および装置を開示する。この方法は、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定するステップと、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとして決定するステップと、を含む。【選択図】図２

Description

＜関連出願の相互参照＞
本開示は、２０２１年４月９日に出願された出願番号が２０２１１０３８０６３８．２で、発明の名称が「動作認識の方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本開示に組み込む。

本開示は、コンピュータ技術分野に関し、特に、動作認識の方法および装置に関するものである。

ビデオにおける検出オブジェクトに発生した動作を認識することで、ビデオの分類またはビデオの特徴認識などに有利である。関連技術でのビデオにおける検出オブジェクトに発生した動作を認識する方法は、ディープラーニング手法に基づいてトレーニングされた認識モデルを用いてビデオにおける動作を認識するか、またはビデオ画面に出現した動作の特徴およびそれと予め定義された特徴との間の類似度に基づいてビデオにおける動作を認識するものである。

本開示は、動作認識の方法、装置、電子機器、およびコンピュータ可読記憶媒体を提供する。

本開示のいくつかの実施形態において、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定するステップと、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするステップと、を含む動作認識の方法を提供する。

いくつかの実施形態において、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置は、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置を取得し、開始フレームを現在のフレームとし、複数回の反復動作によって各ビデオフレームにおけるターゲットオブジェクトの位置を決定するという手法に基づいて決定され、反復動作は、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測し、現在のフレームの次のフレームがビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、現在のフレームの次のフレームがビデオセグメントの終了フレームであると判定されたことに応答して、反復動作を停止するステップと、を含む。

いくつかの実施形態において、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続するステップは、各ビデオフレームにおいてターゲットオブジェクトを矩形枠の形態で表すステップと、各ビデオフレームにおける矩形枠を各ビデオフレームの再生順序に従って接続するステップと、を含む。

いくつかの実施形態において、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割するステップは、少なくとも２つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む。

いくつかの実施形態において、ビデオセグメントを取得するステップは、ビデオを取得し、ビデオから各ビデオセグメントを切り出すステップを含み、方法は、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む。

いくつかの実施形態において、複数の時空間グラフサブセットから最終選択サブセットを決定するステップは、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップと、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するステップと、を含む。

いくつかの実施形態において、方法は、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップと、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップと、を含み、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップは、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルと含まれる時空間グラフ間の関係特徴とに基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも１つのターゲットサブセットを決定するステップを含む。

いくつかの実施形態において、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップは、畳み込みニューラルネットワークを用いて、時空間グラフの空間的特徴および視覚的特徴を取得するステップを含む。

いくつかの実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴に基づいて、当該２つの時空間グラフ間の類似度を決定するステップと、当該２つの特徴グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化特徴を決定するステップと、を含む。

いくつかの実施形態において、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するステップは、複数のターゲットサブセットにおける各ターゲットサブセットに対して、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するステップと、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするステップと、複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、最終選択サブセットとするステップと、を含む。

本開示のいくつかの実施形態において、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定するように構成される取得ユニットと、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するように構成される作成ユニットと、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するように構成される第１の決定ユニットと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするように構成される認識ユニットと、を含む動作認識の装置を提供する。

いくつかの実施形態において、作成ユニットは、各ビデオフレームにおいてターゲットオブジェクトを矩形枠の形態で表すように構成される作成モジュールと、各ビデオフレームにおける矩形枠を各ビデオフレームの再生順序に従って接続するように構成される接続モジュールと、を含む。

いくつかの実施形態において、第１の決定ユニットは、少なくとも２つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第１の決定モジュールを含む。

いくつかの実施形態において、取得ユニットは、ビデオを取得し、ビデオから各ビデオセグメントを切り出すように構成される第１の取得モジュールを含み、装置は、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第２の決定モジュールを含む。

いくつかの実施形態において、第１の決定ユニットは、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するように構成される第１の決定サブユニットと、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するように構成される第２の決定ユニットと、を含む。

いくつかの実施形態において、動作認識の装置は、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するように構成される第２の取得モジュールと、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するように構成される第３の取得モジュールと、を含み、第１の決定ユニットは、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルと含まれる時空間グラフ間の関係特徴とに基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも１つのターゲットサブセットを決定するように構成されるクラスタリングモジュールを含む。

いくつかの実施形態において、第２の取得モジュールは、畳み込みニューラルネットワークを用いて、時空間グラフの空間的特徴および視覚的特徴を取得するように構成される畳み込みモジュールを含む。

いくつかの実施形態において、第３の取得モジュールは、複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴に基づいて、当該２つの時空間グラフ間の類似度を決定するように構成される類似度計算モジュールと、当該２つの特徴グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化特徴を決定するように構成される位置変化計算モジュールと、を含む。

いくつかの実施形態において、第２の決定ユニットは、複数のターゲットサブセットにおける各ターゲットサブセットに対して、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するように構成されるマッチングモジュールと、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするように構成されるスコアリングモジュールと、複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、最終選択サブセットとするように構成されるフィルタリングモジュールと、を含む。

本開示のいくつかの実施形態において、少なくとも１つのプロセッサと少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも１つのプロセッサによって実行可能な指令が記憶されており、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサが上記の動作認識の方法を実施する電子機器を提供する。

本開示のいくつかの実施形態において、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに上記の動作認識の方法を実行させるように構成される非一時的コンピュータ可読記憶媒体を提供する。

この部分に説明された内容は、本開示の実施形態の肝心または重要な特徴をマークするためのものではなく、本開示の範囲を限定するためのものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書によって、理解されやすくなる。

図面は、本開示をよりよく理解するためのものであり、本開示を限定するものではない。
本開示の実施形態が適用可能な例示的なシステムアーキテクチャである。本開示に係る動作認識の方法の一実施形態のフローチャートである。本開示に係る動作認識の方法の一実施形態における時空間グラフ作成方法の概略図である。本開示に係る動作認識の方法の一実施形態における時空間グラフサブセット分割方法の概略図である。本開示に係る動作認識の方法の別の実施形態の概略図である。本開示に係る動作認識の方法の別の実施形態における時空間グラフサブセット分割方法の概略図である。本開示に係る動作認識の方法のさらに別の実施形態のフローチャートである。本開示に係る動作認識の装置の一実施形態の概略構成図である。本開示の実施形態に係る動作認識の方法を実施するための電子機器のブロック図である。

発明を実現するための形態

以下、図面を参照して本開示の例示的な実施形態について説明する。理解を容易にするために、本開示の実施形態の様々な詳細について説明するが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、ここに記載された実施形態について本開示の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識すべきである。同様に、以下の説明では、明確かつ簡略化にするために、公知の機能および構造の説明を省略する。

図１は、本開示の動作認識の方法または動作認識の装置の一実施形態を適用することができる例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクを提供するための媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含んでもよい。

ユーザは、端末装置１０１、１０２、１０３を使用して、メッセージなどを受信または送信するために、ネットワーク１０４を介してサーバ１０５とインタラクションすることができる。端末装置１０１、１０２、１０３には、画像取得アプリケーション、ビデオ取得アプリケーション、画像認識アプリケーション、ビデオ認識アプリケーション、再生アプリケーション、検索アプリケーション、金融アプリケーションなどの様々なクライアントアプリケーションがインストールされていてもよい。

端末装置１０１、１０２、１０３は、ディスプレイを有し、サーバメッセージの受信をサポートする様々な電子機器であってもよく、スマートフォン、タブレット、電子ブックリーダ、電子プレーヤ、ラップトップコンピュータ、およびデスクトップコンピュータなどを含むが、これらに限定されない。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合には、様々な電子機器であってもよく、端末装置１０１、１０２、１０３がソフトウェアである場合には、上述した電子機器にインストールすることができる。これは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するための複数のソフトウェアモジュール）として実施されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実施されてもよい。ここでは具体的な限定はしない。

サーバ１０５は、端末装置１０１、１０２、１０３によって送信されたビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定すること、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成すること、作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、これらの複数の時空間グラフサブセットから最終選択サブセットを決定すること、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、当該ビデオセグメントに含まれる動作の動作カテゴリとすることができる。

なお、本開示の実施形態によって提供される動作認識の方法は、一般にサーバ１０５によって実行され、したがって、動作認識の装置は、一般にサーバ１０５内に設置される。

図１の端末装置、ネットワーク、およびサーバの数はあくまでも概略的なものにすぎないことを理解されたい。実施の需要に応じて、任意の数の端末装置、ネットワーク、およびサーバを有してもよい。

引続き図２を参照すると、本開示に係る動作認識の方法の一実施形態のフローチャート２００が示されている。当該方法は、以下のステップを含む。

ステップ２０１では、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定する。

本実施形態において、動作認識の方法の実行主体（例えば、図１に示すサーバ１０５）は、有線または無線でビデオセグメントを取得し、当該ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定することができる。ここで、ターゲットオブジェクトは、人間であってもよいし、動物であってもよいし、ビデオ画面に存在し得る任意のエンティティであってもよい。

本実施形態において、トレーニングされたオブジェクト認識モデルを用いて、ビデオセグメントにおける各ターゲットオブジェクトを認識することができる。ビデオ画面とプリセットパターンを照合・マッチングするなどして、ビデオ画面に出現したターゲットオブジェクトを認識することも可能である。

ステップ２０２では、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成する。

本実施形態において、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置を接続することで、当該ターゲットオブジェクトの時空間グラフを作成することができる。ここで、時空間グラフとは、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置を接続して形成されたビデオフレームを横切る図形である。

いくつかのオプション的な実施形態において、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置を接続するステップは、ターゲットオブジェクトを各ビデオフレームにおいて矩形枠の形態で表すステップと、各ビデオフレームにおける矩形枠を各ビデオフレームの再生順序に従って接続するステップと、を含む。

このオプション的な実施形態において、図３（ａ）に示すように、ターゲットオブジェクトを各ビデオフレームにおいてすべて矩形枠（またはオブジェクト認識を行って生成された候補枠）の形態で表し、各ビデオフレームにおける当該ターゲットオブジェクトを表す矩形枠をビデオフレームの再生順序に従って順次接続することで、図３（ｂ）に示す当該ターゲットオブジェクトの時空間グラフを形成することができる。ここで、図３（ａ）に含まれる４つの矩形枠は、それぞれターゲットオブジェクトである図の左下のプラットフォーム３０１１、馬の背３０１２、ブラシ３０１３、および人間３０１４を表す。人間を表す矩形枠は、それに重なるブラシの矩形枠と区別するために破線で表示されている。図３（ｂ）における時空間グラフ３０２１、時空間グラフ３０２２、時空間グラフ３０２３、および時空間グラフ３０２４は、それぞれプラットフォーム３０１１の時空間グラフ、馬の背３０１２の時空間グラフ、ブラシ３０１３の時空間グラフ、および人間３０１４の時空間グラフを示している。

いくつかのオプション的な実施形態において、各ビデオフレームにおけるターゲットオブジェクトの中心点の位置を、各ビデオフレームの再生順序に従って接続することで、当該ターゲットオブジェクトの時空間グラフを形成することができる。

いくつかのオプション的な実施形態において、ターゲットオブジェクトを、各ビデオフレームにおいていずれも予め設定された形状で表し、各ビデオフレームにおける当該ターゲットオブジェクトを表す形状を、ビデオフレームの再生順序に従って順次接続することで、当該ターゲットオブジェクトの時空間グラフを形成することができる。

ステップ２０３では、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定する。

本実施形態において、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定する。最終選択サブセットは、複数の時空間グラフサブセットのうちの時空間グラフを最も多く含むサブセットであってもよい。また、最終選択サブセットは、２つずつの時空間グラフサブセット間の類似度を計算する際に、他の時空間グラフサブセットのいずれは当該最終選択サブセットとの間の類似度が閾値よりも大きいサブセットであってもよい。さらに、最終選択サブセットは、含まれる時空間グラフが画面の中心領域に位置する時空間グラフサブセットであってもよい。

いくつかのオプション的な実施形態において、複数の時空間グラフサブセットから最終選択サブセットを決定するステップは、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップと、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するステップと、を含む。

このオプション的な実施形態において、まず複数の時空間グラフサブセットから複数のターゲットサブセットを決定し、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度を計算し、そして類似度計算の結果に基づいて複数のターゲットサブセットから最終選択サブセットを決定することができる。

具体的には、まず、複数の時空間グラフサブセットから複数のターゲットサブセットを決定することができる。当該複数のターゲットサブセットは、複数の時空間グラフサブセットを表すためのサブセットである。当該複数のターゲットサブセットは、複数の時空間グラフサブセットをクラスタリング演算して取得した、各クラスタの時空間グラフサブセットを表すことができる少なくとも１つのターゲットサブセットであってもよい。

各ターゲットサブセットに対して、複数の時空間グラフサブセットにおける各時空間グラフサブセットを当該ターゲットサブセットにマッチングさせることができ、マッチングする時空間グラフサブセットが最も多く得られたターゲットサブセットを最終選択サブセットとすることができる。例えば、ターゲットサブセットＡ、ターゲットサブセットＢ、および時空間グラフサブセット１、時空間グラフサブセット２、時空間グラフサブセット３が存在し、かつ時空間グラフサブセット間の類似度が８０％を超えた場合に、２つの時空間グラフサブセットがマッチングしていると判定すると予め設定する。もし時空間グラフサブセット１とターゲットサブセットＡとの間の類似度が８５％、時空間グラフサブセット１とターゲットサブセットＢとの間の類似度が２０％、時空間グラフサブセット２とターゲットサブセットＡとの間の類似度が６５％、時空間グラフサブセット２とターゲットサブセットＢとの間の類似度が９５％、時空間グラフサブセット３とターゲットサブセットＡとの間の類似度が３０％、時空間グラフサブセット３とターゲットサブセットＢとの間の類似度が９０％であれば、すべての時空間グラフサブセットにおいて、ターゲットサブセットＡにマッチングする時空間グラフサブセットの数は１つであり、ターゲットサブセットＢにマッチングする時空間グラフの数は２つであると判定することができる。この場合、ターゲットサブセットＢを最終選択サブセットとして決定することができる。

このオプション的な実施形態において、まず、ターゲットサブセットを決定し、そして複数の時空間グラフサブセットのそれぞれと、複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定することにより、最終選択サブセットを決定する精度を向上させることができる。

ステップ２０４では、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとする。

本実施形態において、時空間グラフは、連続するビデオフレームにおけるターゲットオブジェクトの空間位置を表すためのものであり、時空間グラフサブセットには、様々な組み合わせ可能な時空間グラフ間の位置関係または形態関係が含まれているため、時空間グラフサブセットは、ターゲットオブジェクト間のポジション・ポーズ関係を表すために使用することができる。一方、最終選択サブセットは、複数の時空間グラフサブセットから選択されたグローバル時空間グラフサブセットを表すことができるサブセットであるので、最終選択サブセットに含まれる時空間グラフ間の位置関係または形態関係は、グローバルターゲットオブジェクト間のポジション・ポーズ関係を表すために使用することができる。すなわち、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間のポジション・ポーズ関係によって表される動作カテゴリは、当該ビデオセグメントに含まれる動作の動作カテゴリとすることができる。

本実施形態によって提供される動作認識の方法は、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定するステップと、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするステップと、を含む。当該動作認識の方法は、時空間グラフ間の関係を用いてターゲットオブジェクト間のポジション・ポーズ関係を表すことができるほか、グローバル時空間グラフサブセットを表すことができる最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとすることにより、ビデオにおける動作を認識する精度を向上させることができる。

あるいは、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置は、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置を取得し、開始フレームを現在のフレームとし、複数回の反復動作によって各ビデオフレームにおけるターゲットオブジェクトの位置を決定するという方法によって決定される。反復動作は、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測し、現在のフレームの次のフレームがビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、現在のフレームの次のフレームがビデオセグメントの終了フレームであると判定されたことに応答して、反復動作を停止するステップと、を含む。

本実施形態において、まず、ビデオセグメントの開始フレームを取得し、当該開始フレームにおけるターゲットオブジェクトの位置を取得し、そして当該開始フレームを現在のフレームとし、さらに複数回の反復動作によって当該ビデオセグメントの各フレームにおけるターゲットオブジェクトの位置を決定することができる。反復動作において、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測する。現在のフレームの次のフレームが当該ビデオセグメントの終了フレームではないと判定された場合、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとし、今回の反復動作によって予測された対応するビデオフレームにおけるターゲットオブジェクトの位置をもって、その後のビデオフレームにおけるターゲットオブジェクトの位置を引き続き予測する。現在のフレームの次のフレームが当該ビデオセグメントの終了フレームであると判定された場合、この時点で、当該ビデオセグメントの各フレームにおけるターゲットオブジェクトの位置がすべて予測されたので、反復動作を停止することができる。

上述した予測プロセスは、ビデオセグメントの第１のフレームにおけるターゲットオブジェクトの位置が既知であり、予測モデルにより、第２のフレームにおけるターゲットオブジェクトの位置を予測し、さらに得られた第２のフレームにおけるターゲットオブジェクトの位置に基づいて、第３のフレームにおけるターゲットオブジェクトの位置を予測することである。このように、前のフレームにおけるターゲットオブジェクトの位置に基づいて、後のフレームにおけるターゲットオブジェクトの位置を予測することにより、当該ビデオセグメントのすべてのビデオフレームにおけるターゲットオブジェクトの位置を取得する。

具体的には、もしビデオセグメントの長さがＴフレームである場合、まず、予めトレーニングされたニューラルネットワークモデル（例えば、ＦａｓｔｅｒＲｅｇｉｏｎ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，高速領域畳み込みニューラルネットワーク）を用いてビデオセグメントの第１のフレームにおける人間または物体の候補枠（すなわち、ターゲットオブジェクトを表すための矩形枠）を検出し、最初のＭ個のスコアが最も高い候補枠Ｂ_１＝｛ｂ_１ ^ｍ｜ｍ＝１，…，Ｍ｝を保持する。同様に、予測モデルは、ｔ番目のフレームの候補枠セットＢ_ｔに基づいて、ｔ＋１番目のフレームのために候補枠セットＢ_ｔ＋１を生成する。すなわち、ｔ番目のフレームにおけるいずれかの候補枠ｂ_ｔ ^ｍに基づいて、ｔ番目のフレームとｔ＋１番目のフレームの同じ位置における視覚的特徴から、次のフレームにおけるｂ_ｔ ^ｍの運動傾向を推定する。

その後、プーリング動作により、ｔ番目のフレームとｔ＋１番目のフレームの同じ位置（例えば、ｍ番目の候補枠の位置）における視覚的特徴Ｆ_ｔ ^ｍとＦ_ｔ＋１ ^ｍを取得する。

最後に、コンパクトな双線形プーリング（ｃｏｍｐａｃｔｂｉｌｉｎｅａｒｐｏｏｌｉｎｇ、ＣＢＰ）動作により、２つの視覚的特徴間のペアとなる相関性を捕捉し、隣接フレーム間の空間的相互作用をシミュレートする。
（１）

ここで、Ｎは局所記述子の個数、Φ（・）は低次元マッピング関数、＜・＞は二次多項式カーネルである。最後に、ＣＢＰ層の出力特徴を予めトレーニングされた回帰モデル／回帰レイヤーに入力することにより、回帰レイヤーから出力される、ｂ_ｔ ^ｍの運動傾向に基づいて予測されたｂ_ｔ＋１ ^ｍを取得する。このように、各候補枠の運動傾向を推定することによって、後続のフレームにおける候補枠のセットを取得し、これらの候補枠を時空間グラフに接続することができる。

本実施形態において、既知のビデオセグメントにおける各ビデオフレームを用いてターゲットオブジェクトの位置を直接認識するのではなく、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置に基づいて、各ビデオフレームにおけるターゲットオブジェクトの位置を予測するので、ターゲットオブジェクト間の相互動作によってターゲットオブジェクトがあるビデオフレームにおいて遮蔽されてしまい、認識結果が、ターゲットオブジェクトがその相互動作下で実際に置かれている位置をリアルに反映することはできないという問題を回避することができ、ビデオフレームにおけるターゲットオブジェクトの位置を予測する精度を向上させることができる。

あるいは、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割するステップは、少なくとも２つの時空間グラフのうちの隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む。

本実施形態において、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割する方法は、当該少なくとも２つの時空間グラフのうちの隣接する時空間グラフを同一の時空間グラフサブセットに割り当てることであってもよい。

例えば、図４に示すように、ノードを用いて図３（ｂ）における各時空間グラフを表すことができる。すなわち、ノード４０１を用いて時空間グラフ３０２１を表し、ノード４０２を用いて時空間グラフ３０２２を表し、ノード４０３を用いて時空間グラフ３０２３を表し、ノード４０４を用いて時空間グラフ３０２４を表してもよい。隣接する時空間グラフを同一の時空間グラフサブセットに割り当てることができる。例えば、ノード４０１とノード４０２を同一の時空間グラフサブセットに割り当て、ノード４０２とノード４０３を同一の時空間グラフサブセットに割り当て、ノード４０１、ノード４０２、およびノード４０３を同一の時空間グラフサブセットに割り当て、さらに、ノード４０１、ノード４０２、ノード４０３、およびノード４０４を同一の時空間グラフサブセットに割り当てることができる。

本実施形態において、隣接する時空間グラフを同一の時空間グラフサブセットに割り当てることは、相互動作の関係を有するターゲットオブジェクトを表す時空間グラフを同一の時空間グラフサブセットに割り当てるのに有利であり、決定された各時空間グラフサブセットは、ビデオセグメントにおけるターゲットオブジェクトに存在する各動作を網羅的に表すことができ、動作認識の精度の向上に有利である。

なお、ビデオセグメントにおけるターゲットオブジェクトの時空間グラフに基づいてビデオセグメントに含まれる動作の動作カテゴリを認識する方法を明示的に説明するために、方法の各ステップを明確に記載するために、本開示では、時空間グラフをノードの形態で表す。本開示に記載された方法の実際の適用において、時空間グラフをノードで表現しなく、時空間グラフを直接用いて各ステップを実行してもよい。

なお、本開示の各実施形態によって説明される複数のノードを１つのサブグラフに分割することは、ノードによって表される時空間グラフを１つの時空間グラフサブセットに分割することである。ノードのノード特徴は、ノードによって表される時空間グラフの特徴ベクトルである。ノード間のエッジの特徴は、ノードによって表される時空間グラフ間の関係特徴である。少なくとも１つのノードからなるサブグラフは、当該少なくとも１つのノードによって表される時空間グラフからなる時空間グラフサブセットである。

引き続き図５を参照すると、以下のステップを含む、本開示に係る動作認識の方法の別の実施形態のフロー５００が示されている。

ステップ５０１では、ビデオを取得し、ビデオから各ビデオセグメントを切り出す。

本実施形態において、動作認識の方法の実行主体（例えば、図１に示すサーバ１０５）は、有線または無線で完全なビデオを取得し、ビデオセグメンテーション方法またはビデオセグメント切り出し方法によって、取得された完全なビデオから各ビデオセグメントを切り出すことができる。

ステップ５０２では、各ビデオセグメントに存在する少なくとも２つのターゲットオブジェクトを決定する。

本実施形態において、トレーニングされたオブジェクト認識モデルを用いて、各ビデオセグメントに存在する各ターゲットオブジェクトを認識することができる。また、ビデオ画面とプリセットパターンを照合・マッチングするなどして、ビデオ画面に出現するターゲットオブジェクトを認識することもできる。

ステップ５０３では、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成する。

ステップ５０４では、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに分割し、および／または、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから複数のターゲットサブセットを決定する。

本実施形態において、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当て、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てることができる。そして、複数の時空間グラフサブセットから複数のターゲットサブセットを決定する。

例えば、図６（ａ）に示すように、完全なビデオからビデオセグメント１、ビデオセグメント２、およびビデオセグメント３を抽出し、図６（ｂ）に示す各ビデオセグメントにおけるターゲットオブジェクトの時空間グラフを作成する。ターゲットオブジェクトＡ（プラットフォーム）について、ビデオセグメント１において作成された時空間グラフは６０１であり、ビデオセグメント２において作成された時空間グラフは６０５であり、ビデオセグメント３において作成された時空間グラフは６０９である。ターゲットオブジェクトＢ（馬の背）について、ビデオセグメント１において作成された時空間グラフは６０２であり、ビデオセグメント２において作成された時空間グラフは６０６であるが、ビデオセグメント３において認識されていない。ターゲットオブジェクトＣ（ブラシ）について、ビデオセグメント１において作成された時空間グラフは６０３であり、ビデオセグメント２において作成された時空間グラフは６０７であり、ビデオセグメント３において作成された時空間グラフは６１０である。ターゲットＤ（人間）について、ビデオセグメント１において作成された時空間グラフは６０４であり、ビデオセグメント２において作成された時空間グラフは６０８であり、ビデオセグメント３において作成された時空間グラフは６１１である。ビデオセグメント３には、新たなターゲットオブジェクト（背景景観）６１２が出現した。この例では、各時空間グラフは、いずれも対応するビデオセグメントにおける同じ番号のターゲットオブジェクトの時空間グラフである（例えば、ビデオセグメント１において、図６（ｂ）における時空間グラフ６０１は、図６（ａ）におけるターゲットオブジェクト６０１の時空間グラフである）。

上述した各時空間グラフをノードの形態で表すことにより、図６（ｃ）に示すビデオの完全なノード関係グラフを作成する。ここで、各ノードは、同じ番号の時空間グラフを表す（例えば、ノード６０１は時空間グラフ６０１を表す）。

図６（ｃ）に示すように、ノード６０１、ノード６０５、ノード６０６を同一のサブグラフに分割することができる。ノード６０３、ノード６０４、ノード６０７、ノード６０８を同一のサブグラフに分割することができる。

ステップ５０５では、複数の時空間グラフサブセットのそれぞれと複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定する。

ステップ５０６では、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとする。

本実施形態におけるステップ５０３、ステップ５０５、ステップ５０６の説明は、ステップ２０２、ステップ２０４、ステップ２０５の説明と一致するので、ここではこれ以上説明しない。

本実施形態によって提供される動作認識の方法は、取得された完全なビデオから各ビデオセグメントを切り出し、各ビデオセグメントに存在する各ターゲットオブジェクトを決定し、当該ターゲットオブジェクトの各ビデオセグメントに属する時空間グラフを作成し、隣接する時空間グラフを同一の時空間グラフサブセットに割り当て、および／または、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当て、そして、複数の時空間グラフサブセットから複数のターゲットサブセットを決定する。同一のビデオセグメントにおける隣接する時空間グラフは、ターゲットオブジェクト間の位置関係を表すため、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフは、ビデオ再生プロセスにおける当該ターゲットオブジェクトの位置の変化状態を表すことができる。同一のビデオセグメントにおける隣接する時空間グラフ、および／または、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てることは、ターゲットオブジェクトの動作変化を表す時空間グラフを同一の時空間グラフサブセットに割り当てることに有利であり、決定された各時空間グラフサブセットは、ビデオセグメントにおけるターゲットオブジェクトに存在する各動作を全面的に表すことができ、動作認識の精度を向上することに有利である。

引き続き図７を参照すると、以下のステップを含む、本開示に係る動作認識の方法のさらなる別の実施形態のフロー７００が示されている。

ステップ７０１では、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定する。

ステップ７０２では、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成する。

ステップ７０３では、少なくとも２つのターゲットオブジェクトに対して作成された複数の時空間グラフを複数の時空間グラフサブセットに分割する。

本実施形態において、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割する。

ステップ７０４では、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得する。

本実施形態において、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得することができる。具体的には、時空間グラフが存在するビデオセグメントを予めトレーニングされたニューラルネットワークモデルに入力することにより、当該ニューラルネットワークモデルから出力される各時空間グラフの特徴ベクトルを取得する。当該ニューラルネットワークモデルは、再帰型ニューラルネットワーク、深層ニューラルネットワーク、深層残差ニューラルネットワーク等であってもよい。

いくつかのオプション的な実施形態において、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップは、畳み込みニューラルネットワークを用いて時空間グラフの空間的特徴および視覚的特徴を取得するステップを含む。

当該オプション的な実施形態において、時空間グラフの特徴ベクトルは、時空間グラフの空間的特徴と、時空間グラフの視覚的特徴とを含む。時空間グラフが存在するビデオセグメントを、予めトレーニングされた畳み込みニューラルネットワークに入力することにより、畳み込みニューラルネットワークから出力される次元をＴ＊Ｗ＊Ｈ＊Ｄとする畳み込み特徴を取得することができる。ここで、Ｔは畳み込み特徴の時間次元、Ｗは畳み込み特徴の幅、Ｈは畳み込み特徴の高さ、Ｄは畳み込み特徴のチャネル数を表す。当該実施形態において、元のビデオの時間粒度を保持するために、畳み込みニューラルネットワークは、時間次元においてダウンサンプリング層が存在しない、すなわち、ビデオセグメントの空間的特徴をダウンサンプリングしないようにすることができる。各フレームにおける時空間グラフの境界枠の空間座標については、畳み込みニューラルネットワークから出力される畳み込み特徴に対してプーリング動作を行うことにより、当該時空間グラフの視覚的特徴ｆ_ｖ ^{ｖｉｓｕａｌ}を取得する。各フレームにおける時空間グラフの境界枠の空間位置（例えば、矩形枠形状の時空間グラフの中心点座標および矩形枠の長さ、幅、高さの４次元ベクトル
）を多層パーセプトロンに入力し、多層パーセプトロンの出力を当該時空間グラフの空間的特徴ｆ_ｖ ^{ｃｏｏｒｄ}とする。

ステップ７０５では、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得する。

本実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得することができる。ここで、関係特徴は、特徴間の類似度、特徴グラフ間の位置関係を表す特徴である。

いくつかのオプション的な実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴に基づいて、当該２つの時空間グラフ間の類似度を決定するステップと、当該２つの特徴グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化特徴を決定するステップと、を含む。

当該オプション的な実施形態において、時空間グラフ間の関係特徴は、時空間グラフ間の類似度または時空間グラフ間の位置変化特徴を含んでもよい。複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴の間の類似度に基づいて、当該２つの時空間グラフ間の類似度を決定することができる。具体的には、２つの時空間グラフ間の類似度は以下の式（２）で算出することができる。

当該オプション的な実施形態において、２つの特徴グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化情報を決定することができる。具体的には、２つの時空間グラフ間の位置変化情報は以下の式（３）で算出することができる。

ステップ７０６では、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび含まれる時空間グラフ間の関係特徴に基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも１つのターゲットサブセットを決定する。

本実施形態において、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび時空間グラフサブセットに含まれる時空間グラフ間の関係特徴に基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための各ターゲットサブセットを決定することができる。

具体的には、図６（ｃ）に示すノードグラフを、図６（ｄ）に示す複数のスケールのサブグラフに分解することができる。異なるスケールのサブグラフに含まれるノード数が異なる。各スケールのサブグラフについて、当該サブグラフに含まれる各ノードのノード特徴（ノードのノード特徴は、それが表す時空間グラフの特徴ベクトルである）と、各ノード間のエッジ特徴（２つのノード間のエッジ特徴は、２つのノードが表す２つの時空間グラフ間の関係特徴である）とを予め設定されたガウス混合モデルに入力し、ガウス混合モデルを用いて当該スケールのサブグラフをクラスタリングし、各クラスタのサブグラフのうち、当該クラスタのサブグラフを表すことができるターゲットサブグラフを決定することができる。ガウス混合モデルを用いて同一のスケールのサブグラフをクラスタリングする場合、ガウス混合モデルから出力したｋ個のガウスカーネルはｋ個のターゲットサブグラフである。

ターゲットサブグラフに含まれるノードによって表される時空間グラフは、ターゲット時空間グラフサブセットを構成していると理解されてもよい。当該ターゲット時空間グラフサブセットはこのスケールの時空間グラフサブセットを代表できるサブセットであると理解されてもよい。当該ターゲット時空間グラフサブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリは当該スケールにおける代表的な動作カテゴリであると理解されてもよい。このように、ｋ個のターゲットサブセットは当該スケールのサブセットに対応する動作カテゴリの標準パターンと見なされてもよい。

ステップ７０７では、複数の時空間グラフサブセットのそれぞれと複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定する。

本実施形態において、複数の時空間グラフサブセットのそれぞれと複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定することができる。

具体的には、図６（ｄ）に示す各サブグラフについて、まず当該サブグラフのブレンディング重みを以下の式で取得する。

ここで、式中のｘはサブグラフｘの特徴を表し、式中のｘにはサブグラフｘにおける各ノードのノード特徴とノード間のエッジの特徴が含まれる。α＝ＭＬＰ（ｘ；θ）は、パラメータをθとする多層パーセプトロンにｘを入力し、その後、多層パーセプトロンの出力を正規化指数関数ｓｏｆｔｍａｘ関数で演算し、当該サブグラフのブレンディング重みを表すためのＫ次元のベクトル
を取得することを表す。

以上の式（４）により同一の動作カテゴリに属するＮ個のサブグラフのブレンディング重みを取得した後、ガウス混合モデルにおけるｋ（１≦ｋ≦Ｋ）番目のガウスカーネルのパラメータは以下の式を用いて算出することができる。

グ重みのベクトルを表す。すべてのガウスカーネルのパラメータを取得した後、いずれかのサブグラフｘがターゲットサブセットに対応する動作カテゴリに属する確率ｐ（ｘ）（すなわち、いずれかのサブグラフｘとターゲットサブセットとの間の類似度）は、式（８）を用いて算出することができる。

ここで、｜・｜は行列の行列式を表す。

本実施形態において、各スケールにおけるＮ個のサブグラフを含むバッチ損失関数を以下のように定義することができる。

う規制するために用いられる。λは式（９）の前後２部分のバランスをとるための重みパラメータであり、必要に応じて設定することができる（例えば、０．０５に設定されてもよい）。ガウス混合層における各動作は微分可能であるので、ガウス混合層から特徴抽出ネットワークに勾配を逆伝播させることにより、ネットワークフレーム全体をエンドツーエンドで最適化することができる。

本実施形態において、上記式（８）により、いずれかのサブグラフｘが各動作カテゴリに属する確率を取得した後、各動作カテゴリについて、当該動作カテゴリに属するサブグラフの確率の平均値を、当該動作カテゴリのスコアとし、最もスコアの高い動作カテゴリをビデオに含まれる動作の動作カテゴリとしてもよい。

ステップ７０８では、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとする。

本実施形態におけるステップ７０１、ステップ７０２、ステップ７０８の説明は、ステップ２０１、ステップ２０２、ステップ２０４の説明と一致するので、ここではこれ以上説明しない。

本実施形態によって提供される動作認識の方法は、各時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび含まれる時空間グラフ間の関係特徴に基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングすることにより、クラスタカテゴリを知らない状況下で、複数の時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび含まれる時空間グラフ間の関係特徴、提示される正規分布曲線に基づいて、複数の時空間グラフサブセットをクラスタリングすることができ、クラスタリング効率およびクラスタリング精度を向上させることができる。

図７に関連して説明した上記実施形態のいくつかのオプション的な実施形態において、複数のターゲットサブセットのそれぞれについて、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度に基づいて、最終選択サブセットを決定するステップは、複数のターゲットサブセットのそれぞれについて、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するステップと、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするステップと、複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、最終選択サブセットとするステップと、を含む。

本実施形態において、複数のターゲットサブセットのそれぞれについて、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得し、すべての類似度のうちの最大の類似度を当該ターゲットサブセットのスコアとし、すべてのターゲットサブセットについて、スコアが最も大きいターゲットサブセットを最終選択サブセットとすることができる。

さらに図８を参照すると、本開示は、上述した各図に示す方法の実施形態として、様々な電子機器に具体的に適用可能な、図２、図５、または図７に示す方法の実施形態に対応する動作認識の装置の一実施形態を提供する。

図８に示すように、本実施形態に係る動作認識の装置８００は、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定するように構成される取得ユニット８０１と、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するように構成される作成ユニット８０２と、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するように構成される第１の決定ユニット８０３と、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするように構成される認識ユニット８０４と、を含む。

いくつかの実施形態において、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置は、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置を取得し、開始フレームを現在のフレームとし、複数回の反復動作によって各ビデオフレームにおけるターゲットオブジェクトの位置を決定することによって決定される。反復動作は、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測し、現在のフレームの次のフレームがビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、現在のフレームの次のフレームがビデオセグメントの終了フレームであると判定されたことに応答して、反復動作を停止するステップと、を含む。

いくつかの実施形態において、第１の決定ユニットは、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するように構成される第１の決定サブユニットと、複数の時空間グラフサブセットのそれぞれと複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するように構成される第２の決定ユニットと、を含む。

いくつかの実施形態において、動作認識の装置は、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するように構成される第２の取得モジュールと、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するように構成される第３の取得モジュールと、を含み、第１の決定ユニットは、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび含まれる時空間グラフ間の関係特徴に基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも１つのターゲットサブセットを決定するように構成されるクラスタリングモジュールを含む。

いくつかの実施形態において、第２の決定ユニットは、複数のターゲットサブセットのそれぞれについて、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するように構成されるマッチングモジュールと、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするように構成されるスコアリングモジュールと、複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、最終選択サブセットとするように構成されるフィルタリングモジュールと、を含む。

上述した装置８００の各ユニットは、図２、図５、または図７を参照して説明した方法におけるステップに対応する。したがって、動作認識の方法について説明した動作、特徴、および達成可能な技術的効果は、装置８００およびその中に含まれるユニットにも同様に適用可能であるので、ここではこれ以上説明しない。

本開示の実施形態によれば、本明細書はまた、電子機器および読み取り可能な記憶媒体を提供する。

図９に示すように、本明細書の一実施形態に係る動作認識の方法に係る電子機器９００のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、パーソナルデジタルアシスタント、携帯電話、スマート電話、ウェアラブルデバイス、および他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続と関係、およびそれらの機能はあくまでも一例にすぎず、本明細書に記載されたおよび／または要求される本開示の実施を限定することは意図されていない。

図９に示すように、当該電子機器は、１つまたは複数のプロセッサ９０１と、メモリ９０２と、高速インターフェースおよび低速インターフェースを含む様々な構成要素を接続するためのインターフェースとを備える。各部品は、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができる。当該指令は、インターフェースに結合された表示装置のような外部入出力装置上にＧＵＩのグラフィック情報を表示するためにメモリ内またはメモリ上に記憶された指令を含む。他の実施形態において、複数のプロセッサおよび／または複数のバスは、必要に応じて、複数のメモリおよび複数のメモリと共に使用されてもよい。同様に、部分的に必要な動作を（例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして）提供する複数の電子機器が接続されてもよい。図９では、１つのプロセッサ９０１を例にとる。

メモリ９０２は、本開示によって提供される非一時的コンピュータ可読記憶媒体である。ここで、メモリは、本明細書によって提供される動作認識の方法を少なくとも１つのプロセッサに実行させるために、少なくとも１つのプロセッサによって実行可能な指令を格納する。本開示の非一時的コンピュータ可読記憶媒体は、本開示によって提供される動作認識の方法をコンピュータに実行させるためのコンピュータ指令を記憶する。

メモリ９０２は、非一時的コンピュータ可読記憶媒体として、本開示実施形態における動作認識の方法に対応するプログラム指令／モジュール（例えば、図８に示す取得ユニット８０１、作成ユニット８０２、第１の決定ユニット８０３、認識ユニット８０４）のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、およびモジュールを記憶するために使用されることができる。プロセッサ９０１は、メモリ９０２に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することによって、サーバの様々な機能アプリケーションおよびデータ処理を実行し、上述した方法の実施形態における動作認識の方法を実現する。

メモリ９０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、および、情報を生成するための電子機器の使用によって生成されたデータなどを記憶することができるデータ記憶領域を含んでもよい。さらに、メモリ９０２は、高速ランダムアクセスメモリを含むことができ、少なくとも１つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ９０２は、任意に、情報を生成するための電子機器にネットワークを介して接続することができる、プロセッサ９０１に対して遠隔設定されたメモリを含むことができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信網、およびそれらの組み合わせを含むが、これらに限定されない。

動作認識の方法の電子機器は入力装置９０３、出力装置９０４、およびバス９０５をさらに含んでもよい。プロセッサ９０１、メモリ９０２、入力装置９０３、および出力装置９０４は、バス９０５を介して、または他の方法で接続されてもよい。図９では、バス９０５を介して接続されている。

入力装置９０３は、入力された数字または文字情報を受信し、ビデオセグメント抽出のための電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置９０４は、表示装置、補助照明デバイス（例えば、ＬＥＤ）、触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。この表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本明細書に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現されることができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラム内に組み込まれることを含むことができる。この１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈されることができる。このプログラマブルプロセッサは、専用プログラマブルプロセッサであっても汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび指令を受信し、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび指令を送信することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械指令を含み、かつ高度なプロセスおよび／またはオブジェクト指向プログラミング言語、および／またはアセンブリ言語／機械語を用いて実施されることができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を意味し、機械可読信号として機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを有するコンピュータ上で実施されることができる。ユーザは、キーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとのインタラクションを提供するために使用されることができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり得る。ユーザからの入力は、任意の形態（音響入力、音声入力、または触覚入力を含む）で受信されることができる。

本明細書に記載されたシステムおよび技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、またはミドルウェア構成要素を含む計算システム（例えば、アプリケーションサーバ）、またはフロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータが挙げられ、ユーザは、グラフィカルユーザインターフェースまたはウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態とインタラクションすることができる）、またはそのようなバックグラウンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組み合わせを含む計算システムにおいて実現されることができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは通常、互いに離れており、通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータ上で、互いにクライアント・サーバ関係を有するコンピュータプログラムを動作させることによって生成される。

本開示によって提供される、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定するステップと、少なくとも２つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするステップと、を含む動作認識の方法、装置は、ビデオにおける動作を認識する精度を向上させることができる。

本開示の技術によれば、既存のビデオにおける動作を認識する方法に存在する「認識精度が低い」という問題が解決される。

上記様々な形態のプロセスを用いて、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されても順次に実行されても異なる順序で実行されてもよく、本開示によって開示される技術案の所望の効果を達成さえできれば、本明細書では制限されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要求および他の要因に応じて、様々な修正、組み合わせ、再組合、および代替が可能であることが認識すべきである。本開示の趣旨および原則内で行われる任意の修正、同等の置換、および改善などは、すべて本開示の保護範囲内に含まれるべきである。

いくつかの実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴に基づいて、当該２つの時空間グラフ間の類似度を決定するステップと、当該２つの時空間グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化特徴を決定するステップと、を含む。

いくつかの実施形態において、第３の取得モジュールは、複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴に基づいて、当該２つの時空間グラフ間の類似度を決定するように構成される類似度計算モジュールと、当該２つの時空間グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化特徴を決定するように構成される位置変化計算モジュールと、を含む。

本開示のいくつかの実施形態において、コンピュータに上記の動作認識の方法を実行させるためのコンピュータプログラムを提供する。

本実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得することができる。ここで、関係特徴は、特徴間の類似度、時空間グラフ間の位置関係を表す特徴である。

いくつかのオプション的な実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴に基づいて、当該２つの時空間グラフ間の類似度を決定するステップと、当該２つの時空間グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化特徴を決定するステップと、を含む。

当該オプション的な実施形態において、２つの時空間グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化情報を決定することができる。具体的には、２つの時空間グラフ間の位置変化情報は以下の式（３）で算出することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械指令を含み、かつ高度なプロセスおよび／またはオブジェクト指向プログラミング言語、および／またはアセンブリ言語／機械語を用いて実施されることができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム、機器、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を意味し、機械可読信号として機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

Claims

ビデオセグメントを取得し、前記ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定するステップと、
前記少なくとも２つのターゲットオブジェクトのそれぞれに対して、前記ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、
前記少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、前記複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、
前記最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、前記ビデオセグメントに含まれる動作の動作カテゴリとするステップと、
を含む動作認識の方法。
前記ビデオセグメントの各ビデオフレームにおける前記ターゲットオブジェクトの位置は、
前記ビデオセグメントの開始フレームにおける前記ターゲットオブジェクトの位置を取得し、前記開始フレームを現在のフレームとし、複数回の反復動作によって前記各ビデオフレームにおける前記ターゲットオブジェクトの位置を決定することによって決定され、
前記反復動作は、
前記現在のフレームを予めトレーニングされた予測モデルに入力し、前記現在のフレームの次のフレームにおける前記ターゲットオブジェクトの位置を予測し、前記現在のフレームの次のフレームが前記ビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における前記現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、
前記現在のフレームの次のフレームが前記ビデオセグメントの終了フレームであると判定されたことに応答して、前記反復動作を停止するステップと、を含む請求項１に記載の方法。
前記ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続するステップは、
前記各ビデオフレームにおいて前記ターゲットオブジェクトを矩形枠の形態で表すステップと、
前記各ビデオフレームにおける矩形枠を前記各ビデオフレームの再生順序に従って接続するステップと、を含む請求項１に記載の方法。
前記少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割するステップは、
前記少なくとも２つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む請求項１に記載の方法。
ビデオセグメントを取得するステップは、
ビデオを取得し、前記ビデオから各ビデオセグメントを切り出すステップを含み、
前記方法は、
隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む請求項１に記載の方法。
前記複数の時空間グラフサブセットから最終選択サブセットを決定するステップは、
前記複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップと、
前記複数の時空間グラフサブセットにおける各時空間グラフサブセットと前記複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、前記複数のターゲットサブセットから最終選択サブセットを決定するステップと、を含む請求項１に記載の方法。
前記方法は、
前記時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップと、
前記時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップと、を含み、
前記複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップは、
前記時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルと含まれる時空間グラフ間の関係特徴とに基づいて、ガウス混合モデルを用いて前記複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも１つのターゲットサブセットを決定するステップを含む請求項６に記載の方法。
前記時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップは、
畳み込みニューラルネットワークを用いて、前記時空間グラフの空間的特徴および視覚的特徴を取得するステップを含む請求項７に記載の方法。
前記時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、
前記複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴に基づいて、当該２つの時空間グラフ間の類似度を決定するステップと、
当該２つの特徴グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化特徴を決定するステップと、を含む請求項７に記載の方法。
前記複数の時空間グラフサブセットにおける各時空間グラフサブセットと前記複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、前記複数のターゲットサブセットから最終選択サブセットを決定するステップは、
前記複数のターゲットサブセットのそれぞれに対して、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するステップと、
各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするステップと、
前記複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、前記最終選択サブセットとするステップと、を含む請求項６に記載の方法。
ビデオセグメントを取得し、前記ビデオセグメントにおける少なくとも２つのターゲットオブジェクトを決定するように構成される取得ユニットと、
前記少なくとも２つのターゲットオブジェクトのそれぞれに対して、前記ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するように構成される作成ユニットと、
前記少なくとも２つのターゲットオブジェクトに対して作成された少なくとも２つの時空間グラフを複数の時空間グラフサブセットに分割し、前記複数の時空間グラフサブセットから最終選択サブセットを決定するように構成される第１の決定ユニットと、
前記最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、前記ビデオセグメントに含まれる動作の動作カテゴリとするように構成される認識ユニットと、を含む動作認識の装置。
前記ビデオセグメントの各ビデオフレームにおける前記ターゲットオブジェクトの位置は、
前記ビデオセグメントの開始フレームにおける前記ターゲットオブジェクトの位置を取得し、前記開始フレームを現在のフレームとし、複数回の反復動作によって前記各ビデオフレームにおける前記ターゲットオブジェクトの位置を決定することによって決定され、
前記反復動作は、
前記現在のフレームを予めトレーニングされた予測モデルに入力し、前記現在のフレームの次のフレームにおける前記ターゲットオブジェクトの位置を予測し、前記現在のフレームの次のフレームが前記ビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における前記現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、
前記現在のフレームの次のフレームが前記ビデオセグメントの終了フレームであると判定されたことに応答して、前記反復動作を停止するステップと、を含む請求項１１に記載の装置。
前記作成ユニットは、
前記各ビデオフレームにおいて前記ターゲットオブジェクトを矩形枠の形態で表すように構成される作成モジュールと、
前記各ビデオフレームにおける矩形枠を前記各ビデオフレームの再生順序に従って接続するように構成される接続モジュールと、を含む請求項１１に記載の装置。
前記第１の決定ユニットは、
前記少なくとも２つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第１の決定モジュールを含む請求項１０に記載の装置。
前記取得ユニットは、
ビデオを取得し、前記ビデオから各ビデオセグメントを切り出すように構成される第１の取得モジュールを含み、
前記装置は、
隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第２の決定モジュールを含む請求項１０に記載の装置。
前記第１の決定ユニットは、
前記複数の時空間グラフサブセットから複数のターゲットサブセットを決定するように構成される第１の決定サブユニットと、
前記複数の時空間グラフサブセットにおける各時空間グラフサブセットと前記複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、前記複数のターゲットサブセットから最終選択サブセットを決定するように構成される第２の決定ユニットと、を含む請求項１１に記載の装置。
前記装置は、
前記時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するように構成される第２の取得モジュールと、
前記時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するように構成される第３の取得モジュールと、を含み、
前記第１の決定ユニットは、
前記時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルと含まれる時空間グラフ間の関係特徴とに基づいて、ガウス混合モデルを用いて前記複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも１つのターゲットサブセットを決定するように構成されるクラスタリングモジュールを含む請求項１６に記載の装置。
前記第２の取得モジュールは、
畳み込みニューラルネットワークを用いて、前記時空間グラフの空間的特徴および視覚的特徴を取得するように構成される畳み込みモジュールを含む請求項１７に記載の装置。
前記第３の取得モジュールは、
前記複数の時空間グラフのうちの２つずつの時空間グラフに対して、当該２つの時空間グラフの視覚的特徴に基づいて、当該２つの時空間グラフ間の類似度を決定するように構成される類似度計算モジュールと、
当該２つの特徴グラフの空間的特徴に基づいて、当該２つの時空間グラフ間の位置変化特徴を決定するように構成される位置変化計算モジュールと、を含む請求項１７に記載の装置。
前記第２の決定ユニットは、
前記複数のターゲットサブセットのそれぞれに対して、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するように構成されるマッチングモジュールと、
各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするように構成されるスコアリングモジュールと、
前記複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、前記最終選択サブセットとするように構成されるフィルタリングモジュールと、を含む請求項１６に記載の装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリに前記少なくとも１つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが請求項１～１０のいずれか１項に記載の方法を実施する、電子機器。
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は前記コンピュータに請求項１～１０のいずれか１項に記載の方法を実行させるように構成される、非一時的コンピュータ可読記憶媒体。