JP2024511171A - 動作認識の方法および装置 - Google Patents
動作認識の方法および装置 Download PDFInfo
- Publication number
- JP2024511171A JP2024511171A JP2023558831A JP2023558831A JP2024511171A JP 2024511171 A JP2024511171 A JP 2024511171A JP 2023558831 A JP2023558831 A JP 2023558831A JP 2023558831 A JP2023558831 A JP 2023558831A JP 2024511171 A JP2024511171 A JP 2024511171A
- Authority
- JP
- Japan
- Prior art keywords
- spatio
- temporal
- subset
- graph
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000009471 action Effects 0.000 title claims description 12
- 230000033001 locomotion Effects 0.000 claims abstract description 104
- 239000013598 vector Substances 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 20
- 239000000203 mixture Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000003252 repetitive effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Abstract
本開示は、動作認識の方法および装置を開示する。この方法は、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定するステップと、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとして決定するステップと、を含む。【選択図】図2
Description
<関連出願の相互参照>
本開示は、2021年4月9日に出願された出願番号が202110380638.2で、発明の名称が「動作認識の方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本開示に組み込む。
本開示は、2021年4月9日に出願された出願番号が202110380638.2で、発明の名称が「動作認識の方法および装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本開示に組み込む。
本開示は、コンピュータ技術分野に関し、特に、動作認識の方法および装置に関するものである。
ビデオにおける検出オブジェクトに発生した動作を認識することで、ビデオの分類またはビデオの特徴認識などに有利である。関連技術でのビデオにおける検出オブジェクトに発生した動作を認識する方法は、ディープラーニング手法に基づいてトレーニングされた認識モデルを用いてビデオにおける動作を認識するか、またはビデオ画面に出現した動作の特徴およびそれと予め定義された特徴との間の類似度に基づいてビデオにおける動作を認識するものである。
本開示は、動作認識の方法、装置、電子機器、およびコンピュータ可読記憶媒体を提供する。
本開示のいくつかの実施形態において、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定するステップと、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするステップと、を含む動作認識の方法を提供する。
いくつかの実施形態において、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置は、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置を取得し、開始フレームを現在のフレームとし、複数回の反復動作によって各ビデオフレームにおけるターゲットオブジェクトの位置を決定するという手法に基づいて決定され、反復動作は、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測し、現在のフレームの次のフレームがビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、現在のフレームの次のフレームがビデオセグメントの終了フレームであると判定されたことに応答して、反復動作を停止するステップと、を含む。
いくつかの実施形態において、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続するステップは、各ビデオフレームにおいてターゲットオブジェクトを矩形枠の形態で表すステップと、各ビデオフレームにおける矩形枠を各ビデオフレームの再生順序に従って接続するステップと、を含む。
いくつかの実施形態において、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割するステップは、少なくとも2つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む。
いくつかの実施形態において、ビデオセグメントを取得するステップは、ビデオを取得し、ビデオから各ビデオセグメントを切り出すステップを含み、方法は、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む。
いくつかの実施形態において、複数の時空間グラフサブセットから最終選択サブセットを決定するステップは、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップと、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するステップと、を含む。
いくつかの実施形態において、方法は、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップと、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップと、を含み、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップは、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルと含まれる時空間グラフ間の関係特徴とに基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも1つのターゲットサブセットを決定するステップを含む。
いくつかの実施形態において、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップは、畳み込みニューラルネットワークを用いて、時空間グラフの空間的特徴および視覚的特徴を取得するステップを含む。
いくつかの実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するステップと、当該2つの特徴グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するステップと、を含む。
いくつかの実施形態において、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するステップは、複数のターゲットサブセットにおける各ターゲットサブセットに対して、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するステップと、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするステップと、複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、最終選択サブセットとするステップと、を含む。
本開示のいくつかの実施形態において、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定するように構成される取得ユニットと、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するように構成される作成ユニットと、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するように構成される第1の決定ユニットと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするように構成される認識ユニットと、を含む動作認識の装置を提供する。
いくつかの実施形態において、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置は、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置を取得し、開始フレームを現在のフレームとし、複数回の反復動作によって各ビデオフレームにおけるターゲットオブジェクトの位置を決定するという手法に基づいて決定され、反復動作は、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測し、現在のフレームの次のフレームがビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、現在のフレームの次のフレームがビデオセグメントの終了フレームであると判定されたことに応答して、反復動作を停止するステップと、を含む。
いくつかの実施形態において、作成ユニットは、各ビデオフレームにおいてターゲットオブジェクトを矩形枠の形態で表すように構成される作成モジュールと、各ビデオフレームにおける矩形枠を各ビデオフレームの再生順序に従って接続するように構成される接続モジュールと、を含む。
いくつかの実施形態において、第1の決定ユニットは、少なくとも2つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第1の決定モジュールを含む。
いくつかの実施形態において、取得ユニットは、ビデオを取得し、ビデオから各ビデオセグメントを切り出すように構成される第1の取得モジュールを含み、装置は、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第2の決定モジュールを含む。
いくつかの実施形態において、第1の決定ユニットは、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するように構成される第1の決定サブユニットと、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するように構成される第2の決定ユニットと、を含む。
いくつかの実施形態において、動作認識の装置は、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するように構成される第2の取得モジュールと、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するように構成される第3の取得モジュールと、を含み、第1の決定ユニットは、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルと含まれる時空間グラフ間の関係特徴とに基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも1つのターゲットサブセットを決定するように構成されるクラスタリングモジュールを含む。
いくつかの実施形態において、第2の取得モジュールは、畳み込みニューラルネットワークを用いて、時空間グラフの空間的特徴および視覚的特徴を取得するように構成される畳み込みモジュールを含む。
いくつかの実施形態において、第3の取得モジュールは、複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するように構成される類似度計算モジュールと、当該2つの特徴グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するように構成される位置変化計算モジュールと、を含む。
いくつかの実施形態において、第2の決定ユニットは、複数のターゲットサブセットにおける各ターゲットサブセットに対して、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するように構成されるマッチングモジュールと、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするように構成されるスコアリングモジュールと、複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、最終選択サブセットとするように構成されるフィルタリングモジュールと、を含む。
本開示のいくつかの実施形態において、少なくとも1つのプロセッサと少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも1つのプロセッサによって実行可能な指令が記憶されており、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサが上記の動作認識の方法を実施する電子機器を提供する。
本開示のいくつかの実施形態において、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに上記の動作認識の方法を実行させるように構成される非一時的コンピュータ可読記憶媒体を提供する。
この部分に説明された内容は、本開示の実施形態の肝心または重要な特徴をマークするためのものではなく、本開示の範囲を限定するためのものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書によって、理解されやすくなる。
図面は、本開示をよりよく理解するためのものであり、本開示を限定するものではない。
本開示の実施形態が適用可能な例示的なシステムアーキテクチャである。
本開示に係る動作認識の方法の一実施形態のフローチャートである。
本開示に係る動作認識の方法の一実施形態における時空間グラフ作成方法の概略図である。
本開示に係る動作認識の方法の一実施形態における時空間グラフサブセット分割方法の概略図である。
本開示に係る動作認識の方法の別の実施形態の概略図である。
本開示に係る動作認識の方法の別の実施形態における時空間グラフサブセット分割方法の概略図である。
本開示に係る動作認識の方法のさらに別の実施形態のフローチャートである。
本開示に係る動作認識の装置の一実施形態の概略構成図である。
本開示の実施形態に係る動作認識の方法を実施するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施形態について説明する。理解を容易にするために、本開示の実施形態の様々な詳細について説明するが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、ここに記載された実施形態について本開示の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識すべきである。同様に、以下の説明では、明確かつ簡略化にするために、公知の機能および構造の説明を省略する。
図1は、本開示の動作認識の方法または動作認識の装置の一実施形態を適用することができる例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクを提供するための媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含んでもよい。
ユーザは、端末装置101、102、103を使用して、メッセージなどを受信または送信するために、ネットワーク104を介してサーバ105とインタラクションすることができる。端末装置101、102、103には、画像取得アプリケーション、ビデオ取得アプリケーション、画像認識アプリケーション、ビデオ認識アプリケーション、再生アプリケーション、検索アプリケーション、金融アプリケーションなどの様々なクライアントアプリケーションがインストールされていてもよい。
端末装置101、102、103は、ディスプレイを有し、サーバメッセージの受信をサポートする様々な電子機器であってもよく、スマートフォン、タブレット、電子ブックリーダ、電子プレーヤ、ラップトップコンピュータ、およびデスクトップコンピュータなどを含むが、これらに限定されない。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合には、様々な電子機器であってもよく、端末装置101、102、103がソフトウェアである場合には、上述した電子機器にインストールすることができる。これは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するための複数のソフトウェアモジュール)として実施されてもよく、単一のソフトウェアまたはソフトウェアモジュールとして実施されてもよい。ここでは具体的な限定はしない。
サーバ105は、端末装置101、102、103によって送信されたビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定すること、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成すること、作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、これらの複数の時空間グラフサブセットから最終選択サブセットを決定すること、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、当該ビデオセグメントに含まれる動作の動作カテゴリとすることができる。
なお、本開示の実施形態によって提供される動作認識の方法は、一般にサーバ105によって実行され、したがって、動作認識の装置は、一般にサーバ105内に設置される。
図1の端末装置、ネットワーク、およびサーバの数はあくまでも概略的なものにすぎないことを理解されたい。実施の需要に応じて、任意の数の端末装置、ネットワーク、およびサーバを有してもよい。
引続き図2を参照すると、本開示に係る動作認識の方法の一実施形態のフローチャート200が示されている。当該方法は、以下のステップを含む。
ステップ201では、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定する。
本実施形態において、動作認識の方法の実行主体(例えば、図1に示すサーバ105)は、有線または無線でビデオセグメントを取得し、当該ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定することができる。ここで、ターゲットオブジェクトは、人間であってもよいし、動物であってもよいし、ビデオ画面に存在し得る任意のエンティティであってもよい。
本実施形態において、トレーニングされたオブジェクト認識モデルを用いて、ビデオセグメントにおける各ターゲットオブジェクトを認識することができる。ビデオ画面とプリセットパターンを照合・マッチングするなどして、ビデオ画面に出現したターゲットオブジェクトを認識することも可能である。
ステップ202では、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成する。
本実施形態において、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置を接続することで、当該ターゲットオブジェクトの時空間グラフを作成することができる。ここで、時空間グラフとは、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置を接続して形成されたビデオフレームを横切る図形である。
いくつかのオプション的な実施形態において、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置を接続するステップは、ターゲットオブジェクトを各ビデオフレームにおいて矩形枠の形態で表すステップと、各ビデオフレームにおける矩形枠を各ビデオフレームの再生順序に従って接続するステップと、を含む。
このオプション的な実施形態において、図3(a)に示すように、ターゲットオブジェクトを各ビデオフレームにおいてすべて矩形枠(またはオブジェクト認識を行って生成された候補枠)の形態で表し、各ビデオフレームにおける当該ターゲットオブジェクトを表す矩形枠をビデオフレームの再生順序に従って順次接続することで、図3(b)に示す当該ターゲットオブジェクトの時空間グラフを形成することができる。ここで、図3(a)に含まれる4つの矩形枠は、それぞれターゲットオブジェクトである図の左下のプラットフォーム3011、馬の背3012、ブラシ3013、および人間3014を表す。人間を表す矩形枠は、それに重なるブラシの矩形枠と区別するために破線で表示されている。図3(b)における時空間グラフ3021、時空間グラフ3022、時空間グラフ3023、および時空間グラフ3024は、それぞれプラットフォーム3011の時空間グラフ、馬の背3012の時空間グラフ、ブラシ3013の時空間グラフ、および人間3014の時空間グラフを示している。
いくつかのオプション的な実施形態において、各ビデオフレームにおけるターゲットオブジェクトの中心点の位置を、各ビデオフレームの再生順序に従って接続することで、当該ターゲットオブジェクトの時空間グラフを形成することができる。
いくつかのオプション的な実施形態において、ターゲットオブジェクトを、各ビデオフレームにおいていずれも予め設定された形状で表し、各ビデオフレームにおける当該ターゲットオブジェクトを表す形状を、ビデオフレームの再生順序に従って順次接続することで、当該ターゲットオブジェクトの時空間グラフを形成することができる。
ステップ203では、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定する。
本実施形態において、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定する。最終選択サブセットは、複数の時空間グラフサブセットのうちの時空間グラフを最も多く含むサブセットであってもよい。また、最終選択サブセットは、2つずつの時空間グラフサブセット間の類似度を計算する際に、他の時空間グラフサブセットのいずれは当該最終選択サブセットとの間の類似度が閾値よりも大きいサブセットであってもよい。さらに、最終選択サブセットは、含まれる時空間グラフが画面の中心領域に位置する時空間グラフサブセットであってもよい。
いくつかのオプション的な実施形態において、複数の時空間グラフサブセットから最終選択サブセットを決定するステップは、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップと、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するステップと、を含む。
このオプション的な実施形態において、まず複数の時空間グラフサブセットから複数のターゲットサブセットを決定し、複数の時空間グラフサブセットにおける各時空間グラフサブセットと複数のターゲットサブセットにおける各ターゲットサブセットとの間の類似度を計算し、そして類似度計算の結果に基づいて複数のターゲットサブセットから最終選択サブセットを決定することができる。
具体的には、まず、複数の時空間グラフサブセットから複数のターゲットサブセットを決定することができる。当該複数のターゲットサブセットは、複数の時空間グラフサブセットを表すためのサブセットである。当該複数のターゲットサブセットは、複数の時空間グラフサブセットをクラスタリング演算して取得した、各クラスタの時空間グラフサブセットを表すことができる少なくとも1つのターゲットサブセットであってもよい。
各ターゲットサブセットに対して、複数の時空間グラフサブセットにおける各時空間グラフサブセットを当該ターゲットサブセットにマッチングさせることができ、マッチングする時空間グラフサブセットが最も多く得られたターゲットサブセットを最終選択サブセットとすることができる。例えば、ターゲットサブセットA、ターゲットサブセットB、および時空間グラフサブセット1、時空間グラフサブセット2、時空間グラフサブセット3が存在し、かつ時空間グラフサブセット間の類似度が80%を超えた場合に、2つの時空間グラフサブセットがマッチングしていると判定すると予め設定する。もし時空間グラフサブセット1とターゲットサブセットAとの間の類似度が85%、時空間グラフサブセット1とターゲットサブセットBとの間の類似度が20%、時空間グラフサブセット2とターゲットサブセットAとの間の類似度が65%、時空間グラフサブセット2とターゲットサブセットBとの間の類似度が95%、時空間グラフサブセット3とターゲットサブセットAとの間の類似度が30%、時空間グラフサブセット3とターゲットサブセットBとの間の類似度が90%であれば、すべての時空間グラフサブセットにおいて、ターゲットサブセットAにマッチングする時空間グラフサブセットの数は1つであり、ターゲットサブセットBにマッチングする時空間グラフの数は2つであると判定することができる。この場合、ターゲットサブセットBを最終選択サブセットとして決定することができる。
このオプション的な実施形態において、まず、ターゲットサブセットを決定し、そして複数の時空間グラフサブセットのそれぞれと、複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定することにより、最終選択サブセットを決定する精度を向上させることができる。
ステップ204では、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとする。
本実施形態において、時空間グラフは、連続するビデオフレームにおけるターゲットオブジェクトの空間位置を表すためのものであり、時空間グラフサブセットには、様々な組み合わせ可能な時空間グラフ間の位置関係または形態関係が含まれているため、時空間グラフサブセットは、ターゲットオブジェクト間のポジション・ポーズ関係を表すために使用することができる。一方、最終選択サブセットは、複数の時空間グラフサブセットから選択されたグローバル時空間グラフサブセットを表すことができるサブセットであるので、最終選択サブセットに含まれる時空間グラフ間の位置関係または形態関係は、グローバルターゲットオブジェクト間のポジション・ポーズ関係を表すために使用することができる。すなわち、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間のポジション・ポーズ関係によって表される動作カテゴリは、当該ビデオセグメントに含まれる動作の動作カテゴリとすることができる。
本実施形態によって提供される動作認識の方法は、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定するステップと、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするステップと、を含む。当該動作認識の方法は、時空間グラフ間の関係を用いてターゲットオブジェクト間のポジション・ポーズ関係を表すことができるほか、グローバル時空間グラフサブセットを表すことができる最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとすることにより、ビデオにおける動作を認識する精度を向上させることができる。
あるいは、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置は、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置を取得し、開始フレームを現在のフレームとし、複数回の反復動作によって各ビデオフレームにおけるターゲットオブジェクトの位置を決定するという方法によって決定される。反復動作は、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測し、現在のフレームの次のフレームがビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、現在のフレームの次のフレームがビデオセグメントの終了フレームであると判定されたことに応答して、反復動作を停止するステップと、を含む。
本実施形態において、まず、ビデオセグメントの開始フレームを取得し、当該開始フレームにおけるターゲットオブジェクトの位置を取得し、そして当該開始フレームを現在のフレームとし、さらに複数回の反復動作によって当該ビデオセグメントの各フレームにおけるターゲットオブジェクトの位置を決定することができる。反復動作において、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測する。現在のフレームの次のフレームが当該ビデオセグメントの終了フレームではないと判定された場合、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとし、今回の反復動作によって予測された対応するビデオフレームにおけるターゲットオブジェクトの位置をもって、その後のビデオフレームにおけるターゲットオブジェクトの位置を引き続き予測する。現在のフレームの次のフレームが当該ビデオセグメントの終了フレームであると判定された場合、この時点で、当該ビデオセグメントの各フレームにおけるターゲットオブジェクトの位置がすべて予測されたので、反復動作を停止することができる。
上述した予測プロセスは、ビデオセグメントの第1のフレームにおけるターゲットオブジェクトの位置が既知であり、予測モデルにより、第2のフレームにおけるターゲットオブジェクトの位置を予測し、さらに得られた第2のフレームにおけるターゲットオブジェクトの位置に基づいて、第3のフレームにおけるターゲットオブジェクトの位置を予測することである。このように、前のフレームにおけるターゲットオブジェクトの位置に基づいて、後のフレームにおけるターゲットオブジェクトの位置を予測することにより、当該ビデオセグメントのすべてのビデオフレームにおけるターゲットオブジェクトの位置を取得する。
具体的には、もしビデオセグメントの長さがTフレームである場合、まず、予めトレーニングされたニューラルネットワークモデル(例えば、Faster Region-Convolutional Neural Networks,高速領域畳み込みニューラルネットワーク)を用いてビデオセグメントの第1のフレームにおける人間または物体の候補枠(すなわち、ターゲットオブジェクトを表すための矩形枠)を検出し、最初のM個のスコアが最も高い候補枠B1={b1
m|m=1,…,M}を保持する。同様に、予測モデルは、t番目のフレームの候補枠セットBtに基づいて、t+1番目のフレームのために候補枠セットBt+1を生成する。すなわち、t番目のフレームにおけるいずれかの候補枠bt
mに基づいて、t番目のフレームとt+1番目のフレームの同じ位置における視覚的特徴から、次のフレームにおけるbt
mの運動傾向を推定する。
その後、プーリング動作により、t番目のフレームとt+1番目のフレームの同じ位置(例えば、m番目の候補枠の位置)における視覚的特徴Ft
mとFt+1
mを取得する。
最後に、コンパクトな双線形プーリング(compact bilinear pooling、CBP)動作により、2つの視覚的特徴間のペアとなる相関性を捕捉し、隣接フレーム間の空間的相互作用をシミュレートする。
(1)
(1)
ここで、Nは局所記述子の個数、Φ(・)は低次元マッピング関数、<・>は二次多項式カーネルである。最後に、CBP層の出力特徴を予めトレーニングされた回帰モデル/回帰レイヤーに入力することにより、回帰レイヤーから出力される、bt
mの運動傾向に基づいて予測されたbt+1
mを取得する。このように、各候補枠の運動傾向を推定することによって、後続のフレームにおける候補枠のセットを取得し、これらの候補枠を時空間グラフに接続することができる。
本実施形態において、既知のビデオセグメントにおける各ビデオフレームを用いてターゲットオブジェクトの位置を直接認識するのではなく、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置に基づいて、各ビデオフレームにおけるターゲットオブジェクトの位置を予測するので、ターゲットオブジェクト間の相互動作によってターゲットオブジェクトがあるビデオフレームにおいて遮蔽されてしまい、認識結果が、ターゲットオブジェクトがその相互動作下で実際に置かれている位置をリアルに反映することはできないという問題を回避することができ、ビデオフレームにおけるターゲットオブジェクトの位置を予測する精度を向上させることができる。
あるいは、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割するステップは、少なくとも2つの時空間グラフのうちの隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む。
本実施形態において、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割する方法は、当該少なくとも2つの時空間グラフのうちの隣接する時空間グラフを同一の時空間グラフサブセットに割り当てることであってもよい。
例えば、図4に示すように、ノードを用いて図3(b)における各時空間グラフを表すことができる。すなわち、ノード401を用いて時空間グラフ3021を表し、ノード402を用いて時空間グラフ3022を表し、ノード403を用いて時空間グラフ3023を表し、ノード404を用いて時空間グラフ3024を表してもよい。隣接する時空間グラフを同一の時空間グラフサブセットに割り当てることができる。例えば、ノード401とノード402を同一の時空間グラフサブセットに割り当て、ノード402とノード403を同一の時空間グラフサブセットに割り当て、ノード401、ノード402、およびノード403を同一の時空間グラフサブセットに割り当て、さらに、ノード401、ノード402、ノード403、およびノード404を同一の時空間グラフサブセットに割り当てることができる。
本実施形態において、隣接する時空間グラフを同一の時空間グラフサブセットに割り当てることは、相互動作の関係を有するターゲットオブジェクトを表す時空間グラフを同一の時空間グラフサブセットに割り当てるのに有利であり、決定された各時空間グラフサブセットは、ビデオセグメントにおけるターゲットオブジェクトに存在する各動作を網羅的に表すことができ、動作認識の精度の向上に有利である。
なお、ビデオセグメントにおけるターゲットオブジェクトの時空間グラフに基づいてビデオセグメントに含まれる動作の動作カテゴリを認識する方法を明示的に説明するために、方法の各ステップを明確に記載するために、本開示では、時空間グラフをノードの形態で表す。本開示に記載された方法の実際の適用において、時空間グラフをノードで表現しなく、時空間グラフを直接用いて各ステップを実行してもよい。
なお、本開示の各実施形態によって説明される複数のノードを1つのサブグラフに分割することは、ノードによって表される時空間グラフを1つの時空間グラフサブセットに分割することである。ノードのノード特徴は、ノードによって表される時空間グラフの特徴ベクトルである。ノード間のエッジの特徴は、ノードによって表される時空間グラフ間の関係特徴である。少なくとも1つのノードからなるサブグラフは、当該少なくとも1つのノードによって表される時空間グラフからなる時空間グラフサブセットである。
引き続き図5を参照すると、以下のステップを含む、本開示に係る動作認識の方法の別の実施形態のフロー500が示されている。
ステップ501では、ビデオを取得し、ビデオから各ビデオセグメントを切り出す。
本実施形態において、動作認識の方法の実行主体(例えば、図1に示すサーバ105)は、有線または無線で完全なビデオを取得し、ビデオセグメンテーション方法またはビデオセグメント切り出し方法によって、取得された完全なビデオから各ビデオセグメントを切り出すことができる。
ステップ502では、各ビデオセグメントに存在する少なくとも2つのターゲットオブジェクトを決定する。
本実施形態において、トレーニングされたオブジェクト認識モデルを用いて、各ビデオセグメントに存在する各ターゲットオブジェクトを認識することができる。また、ビデオ画面とプリセットパターンを照合・マッチングするなどして、ビデオ画面に出現するターゲットオブジェクトを認識することもできる。
ステップ503では、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成する。
ステップ504では、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに分割し、および/または、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから複数のターゲットサブセットを決定する。
本実施形態において、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当て、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てることができる。そして、複数の時空間グラフサブセットから複数のターゲットサブセットを決定する。
例えば、図6(a)に示すように、完全なビデオからビデオセグメント1、ビデオセグメント2、およびビデオセグメント3を抽出し、図6(b)に示す各ビデオセグメントにおけるターゲットオブジェクトの時空間グラフを作成する。ターゲットオブジェクトA(プラットフォーム)について、ビデオセグメント1において作成された時空間グラフは601であり、ビデオセグメント2において作成された時空間グラフは605であり、ビデオセグメント3において作成された時空間グラフは609である。ターゲットオブジェクトB(馬の背)について、ビデオセグメント1において作成された時空間グラフは602であり、ビデオセグメント2において作成された時空間グラフは606であるが、ビデオセグメント3において認識されていない。ターゲットオブジェクトC(ブラシ)について、ビデオセグメント1において作成された時空間グラフは603であり、ビデオセグメント2において作成された時空間グラフは607であり、ビデオセグメント3において作成された時空間グラフは610である。ターゲットD(人間)について、ビデオセグメント1において作成された時空間グラフは604であり、ビデオセグメント2において作成された時空間グラフは608であり、ビデオセグメント3において作成された時空間グラフは611である。ビデオセグメント3には、新たなターゲットオブジェクト(背景景観)612が出現した。この例では、各時空間グラフは、いずれも対応するビデオセグメントにおける同じ番号のターゲットオブジェクトの時空間グラフである(例えば、ビデオセグメント1において、図6(b)における時空間グラフ601は、図6(a)におけるターゲットオブジェクト601の時空間グラフである)。
上述した各時空間グラフをノードの形態で表すことにより、図6(c)に示すビデオの完全なノード関係グラフを作成する。ここで、各ノードは、同じ番号の時空間グラフを表す(例えば、ノード601は時空間グラフ601を表す)。
図6(c)に示すように、ノード601、ノード605、ノード606を同一のサブグラフに分割することができる。ノード603、ノード604、ノード607、ノード608を同一のサブグラフに分割することができる。
ステップ505では、複数の時空間グラフサブセットのそれぞれと複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定する。
ステップ506では、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとする。
本実施形態におけるステップ503、ステップ505、ステップ506の説明は、ステップ202、ステップ204、ステップ205の説明と一致するので、ここではこれ以上説明しない。
本実施形態によって提供される動作認識の方法は、取得された完全なビデオから各ビデオセグメントを切り出し、各ビデオセグメントに存在する各ターゲットオブジェクトを決定し、当該ターゲットオブジェクトの各ビデオセグメントに属する時空間グラフを作成し、隣接する時空間グラフを同一の時空間グラフサブセットに割り当て、および/または、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当て、そして、複数の時空間グラフサブセットから複数のターゲットサブセットを決定する。同一のビデオセグメントにおける隣接する時空間グラフは、ターゲットオブジェクト間の位置関係を表すため、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフは、ビデオ再生プロセスにおける当該ターゲットオブジェクトの位置の変化状態を表すことができる。同一のビデオセグメントにおける隣接する時空間グラフ、および/または、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てることは、ターゲットオブジェクトの動作変化を表す時空間グラフを同一の時空間グラフサブセットに割り当てることに有利であり、決定された各時空間グラフサブセットは、ビデオセグメントにおけるターゲットオブジェクトに存在する各動作を全面的に表すことができ、動作認識の精度を向上することに有利である。
引き続き図7を参照すると、以下のステップを含む、本開示に係る動作認識の方法のさらなる別の実施形態のフロー700が示されている。
ステップ701では、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定する。
ステップ702では、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成する。
ステップ703では、少なくとも2つのターゲットオブジェクトに対して作成された複数の時空間グラフを複数の時空間グラフサブセットに分割する。
本実施形態において、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割する。
ステップ704では、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得する。
本実施形態において、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得することができる。具体的には、時空間グラフが存在するビデオセグメントを予めトレーニングされたニューラルネットワークモデルに入力することにより、当該ニューラルネットワークモデルから出力される各時空間グラフの特徴ベクトルを取得する。当該ニューラルネットワークモデルは、再帰型ニューラルネットワーク、深層ニューラルネットワーク、深層残差ニューラルネットワーク等であってもよい。
いくつかのオプション的な実施形態において、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップは、畳み込みニューラルネットワークを用いて時空間グラフの空間的特徴および視覚的特徴を取得するステップを含む。
当該オプション的な実施形態において、時空間グラフの特徴ベクトルは、時空間グラフの空間的特徴と、時空間グラフの視覚的特徴とを含む。時空間グラフが存在するビデオセグメントを、予めトレーニングされた畳み込みニューラルネットワークに入力することにより、畳み込みニューラルネットワークから出力される次元をT*W*H*Dとする畳み込み特徴を取得することができる。ここで、Tは畳み込み特徴の時間次元、Wは畳み込み特徴の幅、Hは畳み込み特徴の高さ、Dは畳み込み特徴のチャネル数を表す。当該実施形態において、元のビデオの時間粒度を保持するために、畳み込みニューラルネットワークは、時間次元においてダウンサンプリング層が存在しない、すなわち、ビデオセグメントの空間的特徴をダウンサンプリングしないようにすることができる。各フレームにおける時空間グラフの境界枠の空間座標については、畳み込みニューラルネットワークから出力される畳み込み特徴に対してプーリング動作を行うことにより、当該時空間グラフの視覚的特徴fv
visualを取得する。各フレームにおける時空間グラフの境界枠の空間位置(例えば、矩形枠形状の時空間グラフの中心点座標および矩形枠の長さ、幅、高さの4次元ベクトル
)を多層パーセプトロンに入力し、多層パーセプトロンの出力を当該時空間グラフの空間的特徴fv coordとする。
)を多層パーセプトロンに入力し、多層パーセプトロンの出力を当該時空間グラフの空間的特徴fv coordとする。
ステップ705では、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得する。
本実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得することができる。ここで、関係特徴は、特徴間の類似度、特徴グラフ間の位置関係を表す特徴である。
いくつかのオプション的な実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するステップと、当該2つの特徴グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するステップと、を含む。
当該オプション的な実施形態において、時空間グラフ間の関係特徴は、時空間グラフ間の類似度または時空間グラフ間の位置変化特徴を含んでもよい。複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴の間の類似度に基づいて、当該2つの時空間グラフ間の類似度を決定することができる。具体的には、2つの時空間グラフ間の類似度は以下の式(2)で算出することができる。
当該オプション的な実施形態において、2つの特徴グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化情報を決定することができる。具体的には、2つの時空間グラフ間の位置変化情報は以下の式(3)で算出することができる。
ステップ706では、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび含まれる時空間グラフ間の関係特徴に基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも1つのターゲットサブセットを決定する。
本実施形態において、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび時空間グラフサブセットに含まれる時空間グラフ間の関係特徴に基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための各ターゲットサブセットを決定することができる。
具体的には、図6(c)に示すノードグラフを、図6(d)に示す複数のスケールのサブグラフに分解することができる。異なるスケールのサブグラフに含まれるノード数が異なる。各スケールのサブグラフについて、当該サブグラフに含まれる各ノードのノード特徴(ノードのノード特徴は、それが表す時空間グラフの特徴ベクトルである)と、各ノード間のエッジ特徴(2つのノード間のエッジ特徴は、2つのノードが表す2つの時空間グラフ間の関係特徴である)とを予め設定されたガウス混合モデルに入力し、ガウス混合モデルを用いて当該スケールのサブグラフをクラスタリングし、各クラスタのサブグラフのうち、当該クラスタのサブグラフを表すことができるターゲットサブグラフを決定することができる。ガウス混合モデルを用いて同一のスケールのサブグラフをクラスタリングする場合、ガウス混合モデルから出力したk個のガウスカーネルはk個のターゲットサブグラフである。
ターゲットサブグラフに含まれるノードによって表される時空間グラフは、ターゲット時空間グラフサブセットを構成していると理解されてもよい。当該ターゲット時空間グラフサブセットはこのスケールの時空間グラフサブセットを代表できるサブセットであると理解されてもよい。当該ターゲット時空間グラフサブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリは当該スケールにおける代表的な動作カテゴリであると理解されてもよい。このように、k個のターゲットサブセットは当該スケールのサブセットに対応する動作カテゴリの標準パターンと見なされてもよい。
ステップ707では、複数の時空間グラフサブセットのそれぞれと複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定する。
本実施形態において、複数の時空間グラフサブセットのそれぞれと複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定することができる。
具体的には、図6(d)に示す各サブグラフについて、まず当該サブグラフのブレンディング重みを以下の式で取得する。
ここで、式中のxはサブグラフxの特徴を表し、式中のxにはサブグラフxにおける各ノードのノード特徴とノード間のエッジの特徴が含まれる。α=MLP(x;θ)は、パラメータをθとする多層パーセプトロンにxを入力し、その後、多層パーセプトロンの出力を正規化指数関数softmax関数で演算し、当該サブグラフのブレンディング重みを表すためのK次元のベクトル
を取得することを表す。
を取得することを表す。
以上の式(4)により同一の動作カテゴリに属するN個のサブグラフのブレンディング重みを取得した後、ガウス混合モデルにおけるk(1≦k≦K)番目のガウスカーネルのパラメータは以下の式を用いて算出することができる。
グ重みのベクトルを表す。すべてのガウスカーネルのパラメータを取得した後、いずれかのサブグラフxがターゲットサブセットに対応する動作カテゴリに属する確率p(x)(すなわち、いずれかのサブグラフxとターゲットサブセットとの間の類似度)は、式(8)を用いて算出することができる。
ここで、|・|は行列の行列式を表す。
本実施形態において、各スケールにおけるN個のサブグラフを含むバッチ損失関数を以下のように定義することができる。
う規制するために用いられる。λは式(9)の前後2部分のバランスをとるための重みパラメータであり、必要に応じて設定することができる(例えば、0.05に設定されてもよい)。ガウス混合層における各動作は微分可能であるので、ガウス混合層から特徴抽出ネットワークに勾配を逆伝播させることにより、ネットワークフレーム全体をエンドツーエンドで最適化することができる。
本実施形態において、上記式(8)により、いずれかのサブグラフxが各動作カテゴリに属する確率を取得した後、各動作カテゴリについて、当該動作カテゴリに属するサブグラフの確率の平均値を、当該動作カテゴリのスコアとし、最もスコアの高い動作カテゴリをビデオに含まれる動作の動作カテゴリとしてもよい。
ステップ708では、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとする。
本実施形態におけるステップ701、ステップ702、ステップ708の説明は、ステップ201、ステップ202、ステップ204の説明と一致するので、ここではこれ以上説明しない。
本実施形態によって提供される動作認識の方法は、各時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび含まれる時空間グラフ間の関係特徴に基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングすることにより、クラスタカテゴリを知らない状況下で、複数の時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび含まれる時空間グラフ間の関係特徴、提示される正規分布曲線に基づいて、複数の時空間グラフサブセットをクラスタリングすることができ、クラスタリング効率およびクラスタリング精度を向上させることができる。
図7に関連して説明した上記実施形態のいくつかのオプション的な実施形態において、複数のターゲットサブセットのそれぞれについて、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度に基づいて、最終選択サブセットを決定するステップは、複数のターゲットサブセットのそれぞれについて、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するステップと、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするステップと、複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、最終選択サブセットとするステップと、を含む。
本実施形態において、複数のターゲットサブセットのそれぞれについて、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得し、すべての類似度のうちの最大の類似度を当該ターゲットサブセットのスコアとし、すべてのターゲットサブセットについて、スコアが最も大きいターゲットサブセットを最終選択サブセットとすることができる。
さらに図8を参照すると、本開示は、上述した各図に示す方法の実施形態として、様々な電子機器に具体的に適用可能な、図2、図5、または図7に示す方法の実施形態に対応する動作認識の装置の一実施形態を提供する。
図8に示すように、本実施形態に係る動作認識の装置800は、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定するように構成される取得ユニット801と、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するように構成される作成ユニット802と、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するように構成される第1の決定ユニット803と、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするように構成される認識ユニット804と、を含む。
いくつかの実施形態において、ビデオセグメントの各ビデオフレームにおけるターゲットオブジェクトの位置は、ビデオセグメントの開始フレームにおけるターゲットオブジェクトの位置を取得し、開始フレームを現在のフレームとし、複数回の反復動作によって各ビデオフレームにおけるターゲットオブジェクトの位置を決定することによって決定される。反復動作は、現在のフレームを予めトレーニングされた予測モデルに入力し、現在のフレームの次のフレームにおけるターゲットオブジェクトの位置を予測し、現在のフレームの次のフレームがビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、現在のフレームの次のフレームがビデオセグメントの終了フレームであると判定されたことに応答して、反復動作を停止するステップと、を含む。
いくつかの実施形態において、作成ユニットは、各ビデオフレームにおいてターゲットオブジェクトを矩形枠の形態で表すように構成される作成モジュールと、各ビデオフレームにおける矩形枠を各ビデオフレームの再生順序に従って接続するように構成される接続モジュールと、を含む。
いくつかの実施形態において、第1の決定ユニットは、少なくとも2つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第1の決定モジュールを含む。
いくつかの実施形態において、取得ユニットは、ビデオを取得し、ビデオから各ビデオセグメントを切り出すように構成される第1の取得モジュールを含み、装置は、隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第2の決定モジュールを含む。
いくつかの実施形態において、第1の決定ユニットは、複数の時空間グラフサブセットから複数のターゲットサブセットを決定するように構成される第1の決定サブユニットと、複数の時空間グラフサブセットのそれぞれと複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、複数のターゲットサブセットから最終選択サブセットを決定するように構成される第2の決定ユニットと、を含む。
いくつかの実施形態において、動作認識の装置は、時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するように構成される第2の取得モジュールと、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するように構成される第3の取得モジュールと、を含み、第1の決定ユニットは、時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルおよび含まれる時空間グラフ間の関係特徴に基づいて、ガウス混合モデルを用いて複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも1つのターゲットサブセットを決定するように構成されるクラスタリングモジュールを含む。
いくつかの実施形態において、第2の取得モジュールは、畳み込みニューラルネットワークを用いて、時空間グラフの空間的特徴および視覚的特徴を取得するように構成される畳み込みモジュールを含む。
いくつかの実施形態において、第3の取得モジュールは、複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するように構成される類似度計算モジュールと、当該2つの特徴グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するように構成される位置変化計算モジュールと、を含む。
いくつかの実施形態において、第2の決定ユニットは、複数のターゲットサブセットのそれぞれについて、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するように構成されるマッチングモジュールと、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするように構成されるスコアリングモジュールと、複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、最終選択サブセットとするように構成されるフィルタリングモジュールと、を含む。
上述した装置800の各ユニットは、図2、図5、または図7を参照して説明した方法におけるステップに対応する。したがって、動作認識の方法について説明した動作、特徴、および達成可能な技術的効果は、装置800およびその中に含まれるユニットにも同様に適用可能であるので、ここではこれ以上説明しない。
本開示の実施形態によれば、本明細書はまた、電子機器および読み取り可能な記憶媒体を提供する。
図9に示すように、本明細書の一実施形態に係る動作認識の方法に係る電子機器900のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、パーソナルデジタルアシスタント、携帯電話、スマート電話、ウェアラブルデバイス、および他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続と関係、およびそれらの機能はあくまでも一例にすぎず、本明細書に記載されたおよび/または要求される本開示の実施を限定することは意図されていない。
図9に示すように、当該電子機器は、1つまたは複数のプロセッサ901と、メモリ902と、高速インターフェースおよび低速インターフェースを含む様々な構成要素を接続するためのインターフェースとを備える。各部品は、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができる。当該指令は、インターフェースに結合された表示装置のような外部入出力装置上にGUIのグラフィック情報を表示するためにメモリ内またはメモリ上に記憶された指令を含む。他の実施形態において、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリおよび複数のメモリと共に使用されてもよい。同様に、部分的に必要な動作を(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)提供する複数の電子機器が接続されてもよい。図9では、1つのプロセッサ901を例にとる。
メモリ902は、本開示によって提供される非一時的コンピュータ可読記憶媒体である。ここで、メモリは、本明細書によって提供される動作認識の方法を少なくとも1つのプロセッサに実行させるために、少なくとも1つのプロセッサによって実行可能な指令を格納する。本開示の非一時的コンピュータ可読記憶媒体は、本開示によって提供される動作認識の方法をコンピュータに実行させるためのコンピュータ指令を記憶する。
メモリ902は、非一時的コンピュータ可読記憶媒体として、本開示実施形態における動作認識の方法に対応するプログラム指令/モジュール(例えば、図8に示す取得ユニット801、作成ユニット802、第1の決定ユニット803、認識ユニット804)のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、およびモジュールを記憶するために使用されることができる。プロセッサ901は、メモリ902に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することによって、サーバの様々な機能アプリケーションおよびデータ処理を実行し、上述した方法の実施形態における動作認識の方法を実現する。
メモリ902は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、および、情報を生成するための電子機器の使用によって生成されたデータなどを記憶することができるデータ記憶領域を含んでもよい。さらに、メモリ902は、高速ランダムアクセスメモリを含むことができ、少なくとも1つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ902は、任意に、情報を生成するための電子機器にネットワークを介して接続することができる、プロセッサ901に対して遠隔設定されたメモリを含むことができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信網、およびそれらの組み合わせを含むが、これらに限定されない。
動作認識の方法の電子機器は入力装置903、出力装置904、およびバス905をさらに含んでもよい。プロセッサ901、メモリ902、入力装置903、および出力装置904は、バス905を介して、または他の方法で接続されてもよい。図9では、バス905を介して接続されている。
入力装置903は、入力された数字または文字情報を受信し、ビデオセグメント抽出のための電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置904は、表示装置、補助照明デバイス(例えば、LED)、触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
本明細書に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現されることができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラム内に組み込まれることを含むことができる。この1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されることができる。このプログラマブルプロセッサは、専用プログラマブルプロセッサであっても汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信し、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび指令を送信することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械指令を含み、かつ高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ言語/機械語を用いて実施されることができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を意味し、機械可読信号として機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実施されることができる。ユーザは、キーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとのインタラクションを提供するために使用されることができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得る。ユーザからの入力は、任意の形態(音響入力、音声入力、または触覚入力を含む)で受信されることができる。
本明細書に記載されたシステムおよび技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、またはミドルウェア構成要素を含む計算システム(例えば、アプリケーションサーバ)、またはフロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータが挙げられ、ユーザは、グラフィカルユーザインターフェースまたはウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態とインタラクションすることができる)、またはそのようなバックグラウンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組み合わせを含む計算システムにおいて実現されることができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは通常、互いに離れており、通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータ上で、互いにクライアント・サーバ関係を有するコンピュータプログラムを動作させることによって生成される。
本開示によって提供される、ビデオセグメントを取得し、ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定するステップと、少なくとも2つのターゲットオブジェクトのそれぞれに対して、ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、ビデオセグメントに含まれる動作の動作カテゴリとするステップと、を含む動作認識の方法、装置は、ビデオにおける動作を認識する精度を向上させることができる。
本開示の技術によれば、既存のビデオにおける動作を認識する方法に存在する「認識精度が低い」という問題が解決される。
上記様々な形態のプロセスを用いて、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されても順次に実行されても異なる順序で実行されてもよく、本開示によって開示される技術案の所望の効果を達成さえできれば、本明細書では制限されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要求および他の要因に応じて、様々な修正、組み合わせ、再組合、および代替が可能であることが認識すべきである。本開示の趣旨および原則内で行われる任意の修正、同等の置換、および改善などは、すべて本開示の保護範囲内に含まれるべきである。
いくつかの実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するステップと、当該2つの時空間グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するステップと、を含む。
いくつかの実施形態において、第3の取得モジュールは、複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するように構成される類似度計算モジュールと、当該2つの時空間グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するように構成される位置変化計算モジュールと、を含む。
本開示のいくつかの実施形態において、コンピュータに上記の動作認識の方法を実行させるためのコンピュータプログラムを提供する。
本実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得することができる。ここで、関係特徴は、特徴間の類似度、時空間グラフ間の位置関係を表す特徴である。
いくつかのオプション的な実施形態において、時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するステップと、当該2つの時空間グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するステップと、を含む。
当該オプション的な実施形態において、2つの時空間グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化情報を決定することができる。具体的には、2つの時空間グラフ間の位置変化情報は以下の式(3)で算出することができる。
いくつかの実施形態において、第3の取得モジュールは、複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するように構成される類似度計算モジュールと、当該2つの時空間グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するように構成される位置変化計算モジュールと、を含む。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械指令を含み、かつ高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ言語/機械語を用いて実施されることができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を意味し、機械可読信号として機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
Claims (22)
- ビデオセグメントを取得し、前記ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定するステップと、
前記少なくとも2つのターゲットオブジェクトのそれぞれに対して、前記ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するステップと、
前記少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、前記複数の時空間グラフサブセットから最終選択サブセットを決定するステップと、
前記最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、前記ビデオセグメントに含まれる動作の動作カテゴリとするステップと、
を含む動作認識の方法。 - 前記ビデオセグメントの各ビデオフレームにおける前記ターゲットオブジェクトの位置は、
前記ビデオセグメントの開始フレームにおける前記ターゲットオブジェクトの位置を取得し、前記開始フレームを現在のフレームとし、複数回の反復動作によって前記各ビデオフレームにおける前記ターゲットオブジェクトの位置を決定することによって決定され、
前記反復動作は、
前記現在のフレームを予めトレーニングされた予測モデルに入力し、前記現在のフレームの次のフレームにおける前記ターゲットオブジェクトの位置を予測し、前記現在のフレームの次のフレームが前記ビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における前記現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、
前記現在のフレームの次のフレームが前記ビデオセグメントの終了フレームであると判定されたことに応答して、前記反復動作を停止するステップと、を含む請求項1に記載の方法。 - 前記ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続するステップは、
前記各ビデオフレームにおいて前記ターゲットオブジェクトを矩形枠の形態で表すステップと、
前記各ビデオフレームにおける矩形枠を前記各ビデオフレームの再生順序に従って接続するステップと、を含む請求項1に記載の方法。 - 前記少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割するステップは、
前記少なくとも2つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む請求項1に記載の方法。 - ビデオセグメントを取得するステップは、
ビデオを取得し、前記ビデオから各ビデオセグメントを切り出すステップを含み、
前記方法は、
隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるステップを含む請求項1に記載の方法。 - 前記複数の時空間グラフサブセットから最終選択サブセットを決定するステップは、
前記複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップと、
前記複数の時空間グラフサブセットにおける各時空間グラフサブセットと前記複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、前記複数のターゲットサブセットから最終選択サブセットを決定するステップと、を含む請求項1に記載の方法。 - 前記方法は、
前記時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップと、
前記時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップと、を含み、
前記複数の時空間グラフサブセットから複数のターゲットサブセットを決定するステップは、
前記時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルと含まれる時空間グラフ間の関係特徴とに基づいて、ガウス混合モデルを用いて前記複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも1つのターゲットサブセットを決定するステップを含む請求項6に記載の方法。 - 前記時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するステップは、
畳み込みニューラルネットワークを用いて、前記時空間グラフの空間的特徴および視覚的特徴を取得するステップを含む請求項7に記載の方法。 - 前記時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するステップは、
前記複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するステップと、
当該2つの特徴グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するステップと、を含む請求項7に記載の方法。 - 前記複数の時空間グラフサブセットにおける各時空間グラフサブセットと前記複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、前記複数のターゲットサブセットから最終選択サブセットを決定するステップは、
前記複数のターゲットサブセットのそれぞれに対して、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するステップと、
各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするステップと、
前記複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、前記最終選択サブセットとするステップと、を含む請求項6に記載の方法。 - ビデオセグメントを取得し、前記ビデオセグメントにおける少なくとも2つのターゲットオブジェクトを決定するように構成される取得ユニットと、
前記少なくとも2つのターゲットオブジェクトのそれぞれに対して、前記ビデオセグメントの各ビデオフレームにおける当該ターゲットオブジェクトの位置を接続し、当該ターゲットオブジェクトの時空間グラフを作成するように構成される作成ユニットと、
前記少なくとも2つのターゲットオブジェクトに対して作成された少なくとも2つの時空間グラフを複数の時空間グラフサブセットに分割し、前記複数の時空間グラフサブセットから最終選択サブセットを決定するように構成される第1の決定ユニットと、
前記最終選択サブセットに含まれる時空間グラフ間の関係が示すターゲットオブジェクト間の動作カテゴリを、前記ビデオセグメントに含まれる動作の動作カテゴリとするように構成される認識ユニットと、を含む動作認識の装置。 - 前記ビデオセグメントの各ビデオフレームにおける前記ターゲットオブジェクトの位置は、
前記ビデオセグメントの開始フレームにおける前記ターゲットオブジェクトの位置を取得し、前記開始フレームを現在のフレームとし、複数回の反復動作によって前記各ビデオフレームにおける前記ターゲットオブジェクトの位置を決定することによって決定され、
前記反復動作は、
前記現在のフレームを予めトレーニングされた予測モデルに入力し、前記現在のフレームの次のフレームにおける前記ターゲットオブジェクトの位置を予測し、前記現在のフレームの次のフレームが前記ビデオセグメントの終了フレームではないと判定されたことに応答して、今回の反復動作における前記現在のフレームの次のフレームを次回の反復動作における現在のフレームとするステップと、
前記現在のフレームの次のフレームが前記ビデオセグメントの終了フレームであると判定されたことに応答して、前記反復動作を停止するステップと、を含む請求項11に記載の装置。 - 前記作成ユニットは、
前記各ビデオフレームにおいて前記ターゲットオブジェクトを矩形枠の形態で表すように構成される作成モジュールと、
前記各ビデオフレームにおける矩形枠を前記各ビデオフレームの再生順序に従って接続するように構成される接続モジュールと、を含む請求項11に記載の装置。 - 前記第1の決定ユニットは、
前記少なくとも2つの時空間グラフにおける隣接する時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第1の決定モジュールを含む請求項10に記載の装置。 - 前記取得ユニットは、
ビデオを取得し、前記ビデオから各ビデオセグメントを切り出すように構成される第1の取得モジュールを含み、
前記装置は、
隣接するビデオセグメントにおける同一のターゲットオブジェクトの時空間グラフを同一の時空間グラフサブセットに割り当てるように構成される第2の決定モジュールを含む請求項10に記載の装置。 - 前記第1の決定ユニットは、
前記複数の時空間グラフサブセットから複数のターゲットサブセットを決定するように構成される第1の決定サブユニットと、
前記複数の時空間グラフサブセットにおける各時空間グラフサブセットと前記複数のターゲットサブセットのそれぞれとの間の類似度に基づいて、前記複数のターゲットサブセットから最終選択サブセットを決定するように構成される第2の決定ユニットと、を含む請求項11に記載の装置。 - 前記装置は、
前記時空間グラフサブセットにおける各時空間グラフの特徴ベクトルを取得するように構成される第2の取得モジュールと、
前記時空間グラフサブセットにおける複数の時空間グラフ間の関係特徴を取得するように構成される第3の取得モジュールと、を含み、
前記第1の決定ユニットは、
前記時空間グラフサブセットに含まれる時空間グラフの特徴ベクトルと含まれる時空間グラフ間の関係特徴とに基づいて、ガウス混合モデルを用いて前記複数の時空間グラフサブセットをクラスタリングし、各クラスタの時空間グラフサブセットを表すための少なくとも1つのターゲットサブセットを決定するように構成されるクラスタリングモジュールを含む請求項16に記載の装置。 - 前記第2の取得モジュールは、
畳み込みニューラルネットワークを用いて、前記時空間グラフの空間的特徴および視覚的特徴を取得するように構成される畳み込みモジュールを含む請求項17に記載の装置。 - 前記第3の取得モジュールは、
前記複数の時空間グラフのうちの2つずつの時空間グラフに対して、当該2つの時空間グラフの視覚的特徴に基づいて、当該2つの時空間グラフ間の類似度を決定するように構成される類似度計算モジュールと、
当該2つの特徴グラフの空間的特徴に基づいて、当該2つの時空間グラフ間の位置変化特徴を決定するように構成される位置変化計算モジュールと、を含む請求項17に記載の装置。 - 前記第2の決定ユニットは、
前記複数のターゲットサブセットのそれぞれに対して、各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度を取得するように構成されるマッチングモジュールと、
各時空間グラフサブセットと当該ターゲットサブセットとの間の類似度のうちの最大の類似度を、当該ターゲットサブセットのスコアとするように構成されるスコアリングモジュールと、
前記複数のターゲットサブセットのうちの最も大きいスコアを有するターゲットサブセットを、前記最終選択サブセットとするように構成されるフィルタリングモジュールと、を含む請求項16に記載の装置。 - 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリに前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~10のいずれか1項に記載の方法を実施する、電子機器。 - コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は前記コンピュータに請求項1~10のいずれか1項に記載の方法を実行させるように構成される、非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380638.2 | 2021-04-09 | ||
CN202110380638.2A CN113033458B (zh) | 2021-04-09 | 2021-04-09 | 动作识别方法和装置 |
PCT/CN2022/083988 WO2022213857A1 (zh) | 2021-04-09 | 2022-03-30 | 动作识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024511171A true JP2024511171A (ja) | 2024-03-12 |
Family
ID=76456305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023558831A Pending JP2024511171A (ja) | 2021-04-09 | 2022-03-30 | 動作認識の方法および装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2024511171A (ja) |
CN (1) | CN113033458B (ja) |
WO (1) | WO2022213857A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033458B (zh) * | 2021-04-09 | 2023-11-07 | 京东科技控股股份有限公司 | 动作识别方法和装置 |
CN113792607B (zh) * | 2021-08-19 | 2024-01-05 | 辽宁科技大学 | 基于Transformer的神经网络手语分类识别方法 |
CN114067442B (zh) * | 2022-01-18 | 2022-04-19 | 深圳市海清视讯科技有限公司 | 洗手动作检测方法、模型训练方法、装置及电子设备 |
CN115376054B (zh) * | 2022-10-26 | 2023-03-24 | 浪潮电子信息产业股份有限公司 | 一种目标检测方法、装置、设备及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3784474B2 (ja) * | 1996-11-20 | 2006-06-14 | 日本電気株式会社 | ジェスチャー認識方法および装置 |
US8244063B2 (en) * | 2006-04-11 | 2012-08-14 | Yeda Research & Development Co. Ltd. At The Weizmann Institute Of Science | Space-time behavior based correlation |
US10321208B2 (en) * | 2015-10-26 | 2019-06-11 | Alpinereplay, Inc. | System and method for enhanced video image recognition using motion sensors |
US10706336B2 (en) * | 2017-03-17 | 2020-07-07 | Nec Corporation | Recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
CN109344755B (zh) * | 2018-09-21 | 2024-02-13 | 广州市百果园信息技术有限公司 | 视频动作的识别方法、装置、设备及存储介质 |
US11200424B2 (en) * | 2018-10-12 | 2021-12-14 | Adobe Inc. | Space-time memory network for locating target object in video content |
CN109492581B (zh) * | 2018-11-09 | 2023-07-18 | 中国石油大学(华东) | 一种基于tp-stg框架的人体动作识别方法 |
CN110096950B (zh) * | 2019-03-20 | 2023-04-07 | 西北大学 | 一种基于关键帧的多特征融合行为识别方法 |
CN112131908A (zh) * | 2019-06-24 | 2020-12-25 | 北京眼神智能科技有限公司 | 基于双流网络的动作识别方法、装置、存储介质及设备 |
CN111507219A (zh) * | 2020-04-08 | 2020-08-07 | 广东工业大学 | 一种动作识别方法、装置及电子设备和存储介质 |
CN111601013B (zh) * | 2020-05-29 | 2023-03-31 | 阿波罗智联(北京)科技有限公司 | 用于处理视频帧的方法和装置 |
CN112203115B (zh) * | 2020-10-10 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种视频识别方法和相关装置 |
CN113033458B (zh) * | 2021-04-09 | 2023-11-07 | 京东科技控股股份有限公司 | 动作识别方法和装置 |
-
2021
- 2021-04-09 CN CN202110380638.2A patent/CN113033458B/zh active Active
-
2022
- 2022-03-30 JP JP2023558831A patent/JP2024511171A/ja active Pending
- 2022-03-30 WO PCT/CN2022/083988 patent/WO2022213857A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN113033458A (zh) | 2021-06-25 |
WO2022213857A1 (zh) | 2022-10-13 |
CN113033458B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11829880B2 (en) | Generating trained neural networks with increased robustness against adversarial attacks | |
US10733431B2 (en) | Systems and methods for optimizing pose estimation | |
US10796452B2 (en) | Optimizations for structure mapping and up-sampling | |
EP3686848A1 (en) | Semantic image synthesis for generating substantially photorealistic images using neural networks | |
US20220383535A1 (en) | Object Tracking Method and Device, Electronic Device, and Computer-Readable Storage Medium | |
JP2024511171A (ja) | 動作認識の方法および装置 | |
EP3198373B1 (en) | Tracking hand/body pose | |
CN111931591B (zh) | 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质 | |
US20180285778A1 (en) | Sensor data processor with update ability | |
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
WO2020159890A1 (en) | Method for few-shot unsupervised image-to-image translation | |
US20200012887A1 (en) | Attribute recognition apparatus and method, and storage medium | |
CN116686017A (zh) | 一种用于视频动作识别的时间瓶颈注意力体系结构 | |
CN112308204A (zh) | 使用适应度估计的自动化神经网络生成 | |
US20230153622A1 (en) | Method, Apparatus, and Computing Device for Updating AI Model, and Storage Medium | |
KR20220126264A (ko) | 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체 | |
JP2017523498A (ja) | 効率的なフォレストセンシングに基づくアイトラッキング | |
CN114386503A (zh) | 用于训练模型的方法和装置 | |
CN112288483A (zh) | 用于训练模型的方法和装置、用于生成信息的方法和装置 | |
JP2019086979A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN114724254B (zh) | 确定动作类别的方法、装置、设备、存储介质 | |
US20210374416A1 (en) | System and method for unsupervised scene decomposition using spatio-temporal iterative inference | |
CN111488476B (zh) | 图像推送方法、模型训练方法及对应装置 | |
CN111821688A (zh) | 虚拟现实游戏画面处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230925 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230925 |