JP7491462B2

JP7491462B2 - 因果相互作用検出装置、制御方法、及びプログラム

Info

Publication number: JP7491462B2
Application number: JP2023507356A
Authority: JP
Inventors: カレンステファン
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2024-05-28
Anticipated expiration: 2040-08-19
Also published as: WO2022038702A1; US20230316562A1; JP2023536875A

Description

本開示は全体として、複数の人物間の因果相互作用を映像から検出する技術に関する。

人物間の因果相互作用とは、二人以上の人物が関係する相互作用であり、その人々の相互作用に因果関係が存在する場合のことを表す。一人の人物の動作や状態がもう一人の人物の動作や状態に影響を与えるという、人々の間における様々な相互作用が、因果相互作用となる。

非特許文献１と非特許文献２は、人物間の因果相互作用をビデオデータから検出する技術を開示する。非特許文献１は、グランジャー因果性のコンセプトに基づいて、人物間の因果相互左方を検出するシステムを開示する。グランジャー因果性の定義によれば、時系列データ {x(t)} が他の時系列データ {y(t)} に対してグランジャー因果を持つと考えられるのは、x(t) の過去の値を知ることで y(t) をより良く推測できるようになる場合である。非特許文献１のシステムは、時系列データとして、ビデオデータ内のシーンにおける人々の頭部のキーポイントの軌跡を利用する。非特許文献１によれば、シーンにおける或る人物の頭部のキーポイントの軌跡は、シーンにおける他の人物の頭部のキーポイントとの線型結合で表され、スパースグラフを識別する問題として因果相互作用を見つける問題が考えられる。

非特許文献２は、二人の人物間の相互作用を認識するために、人物の骨格の特徴点を利用するシステムを開示する。非特許文献２では、二人の人物間の相互作用が含まれる映像を入力し、それらの相互作用を所定の相互作用クラスの一つに分類するように、サポートベクトルマシン（SVM: Support Vector Machine）が予め訓練されている。

Mustafa Ayazoglu、Burak Yilmaz、Mario Sznaier、及び Octavia Camps、「Finding Causal Interactions in Video Sequences」、2013 IEEE International Conference on Computer Vision、２０１３年１２月１日 Kiwon Yun、Jean Honorio、Debaleena Chattopadhyay、Tamara L. Berg、及び Dimitris Samaras、「Two-person interaction detection using body-pose features and multiple instance learning」、2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops、２０１２年６月１６日

上述したシステムは、人物間の種々の相互作用を検出することができない。具体的には、非特許文献１に開示されるシステムは、頭部のキーポイントの軌跡が大きく変化することなく人の骨格姿勢が大きく変化する場合における人物間の相互作用検出できない。このような問題が起こる理由は、非特許文献１が、ビデオデータのシーンの人々の一つのキーポイントのみの軌跡情報を利用するためである。ここで、一人の人物の複数のキーポイントの軌跡は、他の人々の複数のキーポイントの線型結合では表せない（関係が線型ではない）ため、非特許文献１に開示される手法を複数のキーポイントへ直接拡張することはできない。

非特許文献２については、それによって開示されるシステムが検出できる人物間の相互作用は所定の一つに限定される。なぜなら、そのシステムの SVM は、既知の種類の相互作用のうちの１つを表す訓練データを用いて予め訓練される必要があるためである。そのため、このシステムでは、未知の種類の人物間相互作用を検出することが難しい。

本開示の目的の一つは、人物間の種々の因果相互作用を検出する技術を提供することである。

本開示が提供する因果相互作用検出装置は、少なくとも一つのプロセッサと、命令が格納される記憶要素を有する。前記少なくとも一つのプロセッサは、前記命令を実行することによって、ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、複数の前記人物の１つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出するように構成される。

本開示がさらに提供する制御方法はコンピュータによって実行される。当該制御方法は、ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、複数の前記人物の１つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する、ことを含む。

本開示がさらに提供する非一時的なコンピュータ可読媒体はプログラムを格納している。当該プログラムは、本開示の制御方法をコンピュータに実行させる。

本開示によれば、人物間の種々の因果相互作用を検出する技術が提供される。

図１は、実施形態１に係る因果相互作用検出装置の概要を示す。図２は、実施形態１の因果相互作用検出装置の機能構成の例を示すブロック図である。図３は、因果相互作用検出装置を実現するコンピュータのハードウエア構成の例を示すブロック図である。図４は、実施形態１の因果相互作用検出装置によって実行される処理の流れの例を表すフローチャートである。図５は、人物の実姿勢の集合と基準動作との間の非類似度を算出する方法の例を示す。図６は、二人の人物が互いに相互作用しているケースを示す。図７Ａは人物の変化モデルを示す。図７Ｂは人物の変化モデルを示す。

以降、本開示に係る実施形態が、図面を参照しながら説明される。複数の図面に亘り、同じ要素には同じ符号が割り当てられ、冗長な説明は適宜省略される。

実施形態１
＜概要＞
図１は、実施形態１に係る因果相互作用検出装置の概要を示す。ここで、図１は、因果相互作用検出装置が行いうる動作の例を示すのみであり、因果相互作用検出装置の動作を限定しない。

因果相互作用検出装置は、ビデオデータ３０に撮像されている複数の人物２０の間の因果相互作用を検出するために利用される。人物２０の因果相互作用を検出するために、因果相互作用検出装置はビデオデータ３０を解析し、各人物２０について、姿勢の時間変化のモデル（以下、変化モデル）を生成する。さらに、因果相互作用検出装置は、複数の人物２０の変化モデルを互いに比較することで、ビデオデータ３０において、複数の人物２０について大きな姿勢変化が起こる時間の相関を特定する。そして、因果相互作用検出装置は、１つ以上の人物２０の集合（以下、検出集合）を生成する。各検出集合は、因果相互作用のある複数の人物２０を示す。具体的には、姿勢が変化する時間に互いに相関がある複数の人物２０は、互いに同一の検出集合に含まれる。例えば、因果相互作用検出装置は、複数の人物２０において姿勢変化の時間が互いに重複する場合に、それらの間に因果相互作用があることを検出する。

例えば図１において、ビデオデータ３０から、４人の人物２０－１から２０－４が検出されている。変化モデル４０－１から４０－４はそれぞれ、人物２０－１から２０－４について、姿勢の時間変化を表す。変化モデル４０－１を、その他の変化モデル４０－２から４０－４と比較することにより、その姿勢変化が大きい時間が、人物２０－１の姿勢変化が大きい時間と相関のある他の人物２０は、いないことが分かる。人物２０－２についても同様である。

一方で、変化モデル４０－３と変化モデル４０－４とを比較することにより、人物２０－４が姿勢を大きく変化させる時間と重複する時間期間において、人物２０－３が姿勢を大きく変化させていることが分かる。そのため、因果相互作用検出装置は、人物２０－３と２０－４との間に因果相互作業が存在すると特定する。

＜作用効果の例＞
実施形態１の因果相互作用検出装置によれば、姿勢の時間変化を表す変化モデル４０が、ビデオデータ３０から検出された各人物２０について生成される。生成された変化モデル４０に基づいて、因果相互作用検出装置は、姿勢変化に互いに時間相関がある複数の人物２０を検出し、それらの人物２０が因果相互作用を持つと考えられる。

この方法では、人物間の所定種類の相互作用を検出するように訓練された訓練済みのモデルを用意する必要がない。そのため、因果相互作用検出装置が検出できる因果相互作用は、所定の種類の相互作用に限定されない。さらに、後述するように、因果相互作用検出装置は、複数のキーポイントで表される姿勢を扱うことが本質的に可能である。そのため、因果相互作用検出装置が検出可能な因果相互作用は、１つのキーポイントで姿勢が表されるものに限定されない。よって、因果相互作用検出装置は、種々の因果相互作用を検出することができる。

以下、因果相互作用検出装置についてより詳細な説明が記述される。

＜機能構成の例＞
図２は、実施形態１の因果相互作用検出装置２０００の機能構成の例を示すブロック図である。因果相互作用検出装置２０００は、姿勢抽出部２０２０、モデル生成部２０４０、及び相関検出部２０６０を含む。姿勢抽出部２０２０は、ビデオデータ３０から、各人物２０についての姿勢情報を抽出する。人物２０の姿勢情報は、人物２０の姿勢を時系列で示す。モデル生成部２０４０は、各人物２０について、変化モデル４０を生成する。相関検出部２０６０は、変化モデル４０に基づいて、姿勢変化の時間に互いに相関がある複数の人物２０の集合を、１つ以上検出する。

＜因果相互作用検出装置２０００のハードウエア構成の例＞
因果相互作用検出装置２０００は、１つ以上のコンピュータで実現されうる。１つ以上のコンピュータのそれぞれは、因果相互作用検出装置２０００を実装するための専用のコンピュータであってもよいし、パーソナルコンピュータ（PC: personal computer）、サーバマシン、又は携帯型デバイスなどの汎用のコンピュータであってもよい。因果相互作用検出装置２０００は、アプリケーションをコンピュータにインストールすることで実現されうる。アプリケーションは、コンピュータを因果相互作用検出装置２０００として機能させるプログラムで実装される。言い換えれば、そのプログラムは、因果相互作用検出装置２０００の機能構成部が実装されたものである。

図３は、因果相互作用検出装置２０００を実現するコンピュータ１０００のハードウエア構成の例を示すブロック図である。図３において、コンピュータ１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を含む。

バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が相互にデータを送信及び受信するための、データ通信路である。プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、又は FPGA（Field-Programmable Gate Array）などのプロセッサである。メモリ１０６０は、RAM（Random Access Memory）や ROM（Read Only Memory）などの一次記憶要素である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、又はメモリカードなどの二次時記憶要素である。)入出力インタフェース１１００は、ポリシー生成装置１００と周辺装置（キーボード、マウス、又はディスプレイ装置など）との間のインタフェースである。ネットワークインタフェース１１２０は、ポリシー生成装置１００とネットワークとの間のインタフェースである。そのネットワークは、LAN（Local Area Network）でもよいし、WAN（Wide Area Network）でもよい。

ストレージデバイス１０８０は、前述したコンピュータプログラムを格納しうる。プロセッサ１０４０は、因果相互作用検出装置２０００の各機能構成部を実現するためにそのコンピュータプログラムを実行する。

コンピュータ１０００のハードウエア構成は、図３に示されている構成に限定されない。例えば前述したように、因果相互作用検出装置２０００は、複数のコンピュータで実現されうる。この場合、これらのコンピュータは、ネットワークを介して互いに接続されうる。

＜処理の流れ＞
図４は、実施形態１の因果相互作用検出装置２０００によって実行される処理の流れの例を表すフローチャートである。姿勢抽出部２０２０はビデオデータ３０を取得する（Ｓ１０２）。姿勢抽出部２０２０は、ビデオデータ３０から、各人物２０について姿勢情報を抽出する（Ｓ１０４）。モデル生成部２０４０は、抽出された人物２０の姿勢情報に基づいて、各人物２０について変化モデル４０を生成する（Ｓ１０６）。相関検出部２０６０は、姿勢変化の時間に互いに相関がある人物２０の１つ以上の集合を生成する（Ｓ１０８）。

＜ビデオデータ３０の取得：Ｓ１０２＞
姿勢抽出部２０２０はビデオデータ３０を取得する（Ｓ１０２）。ビデオデータ３０を取得する方法は様々である。例えば姿勢抽出部２０２０は、ビデオデータ３０を生成するカメラからビデオデータ３０を取得する。その他にも例えば、姿勢抽出部２０２０は、カメラがビデオデータ３０を格納する記憶装置から、ビデオデータ３０を取得する。

ビデオデータ３０を生成するカメラは、複数の人物２０を撮像できる任意のカメラである。例えば、監視対象の場所に設定されている監視カメラでありうる。その他にも例えば、指定された場所をパトロールする人や物体（ドローンなど）に装着されている携帯型カメラでありうる。

カメラによって生成されるビデオデータは、複数のビデオデータ３０に分割されうる。例えば、カメラによって生成される所定長（１分など）ごとの各ビデオデータが、ビデオデータ３０として扱われる。ここで、ビデオデータは、２つの隣接するビデオデータ３０の一部が互いに重複するように、複数のビデオデータ３０に分割されてもよい。

＜姿勢情報の抽出：Ｓ１０４＞
姿勢抽出部２０２０は、ビデオデータ３０から、各人物２０について姿勢情報を抽出する（Ｓ１０４）。人物２０の姿勢情報は、その人物２０の姿勢の時系列（言い換えれば、人物２０の姿勢の時間軸上の列）を表す。例えば姿勢情報は、ビデオデータ３０の各時間フレームについて、人物２０の姿勢を表す。この場合、姿勢抽出部２０２０は、ビデオデータ３０の各時間フレームについて人物２０の姿勢を算出し、算出された人物２０の姿勢の列を示す姿勢情報を生成する。なお、姿勢情報は、各フレームについて人物２０の姿勢を示すことが要求されるわけではない。例えば姿勢情報は、人物２０の姿勢を数フレームごとに示してもよい。

各人物２０の姿勢を算出するために、姿勢抽出部２０２０は、ビデオデータ３０のフレームから人物２０を検出する。例えば、検出された人物２０は、フレームにおけるその外接矩形の座標で表される。さらに姿勢抽出部２０２０は、それらの人物外接矩形を、ビデオデータ３０の複数のフレームに亘って追跡する。そうすることで、互いに同一の人物２０を表す複数の外接矩形が、複数のフレームに亘って識別される。姿勢抽出部２０２０は、検出かつ追跡された各人物２０の骨格キーポイントの座標を抽出する。結果として、姿勢抽出部２０２０は、ビデオデータ３０から検出された各人物２０について、その人物２０の骨格キーポイントの座標の時系列が含まれる姿勢情報を生成する。

ここで、動作の順序は異なってもよい。例えば、人物の外接矩形を追跡してから骨格キーポイントの座標を抽出する代わりに、骨格キーポイントの座標が、先に抽出された後にビデオデータ３０の複数のフレームに亘って追跡されてもよい。

＜変化モデルの生成：Ｓ１０６＞
モデル生成部２０４０は、人物２０について抽出された姿勢情報に基づいて、ビデオデータ３０内の各人物２０について変化モデル４０を生成する（Ｓ１０６）．具体的には、ビデオデータ３０から検出された各人物２０について、モデル生成部２０４０は、その人物２０の姿勢の変化を時間の関数としてモデル化する。

時間 t における姿勢の変化は、時間 t における姿勢 Pt を基準姿勢 Pref と比較して、姿勢 Pt がどの程度基準姿勢 Pref と異なるかを表す非類似度を算出することによってモデル化しうる。これは、時間に対して人物２０の姿勢がどの程度変化するかの追跡を可能とする。

＜＜基準姿勢についての詳細＞＞
基準姿勢 Pref は、シーンにおいて（ビデオデータ３０の一部又は全部において）通常だと考えられる人物２０の姿勢を表す。シナリオに基づいて基準姿勢を定める方法は様々である。例えば、人物２０の基準姿勢は、その人がビデオデータ３０に現れた複数のイニシャルフレームのうちの一つにおけるその人の姿勢で定義できる（例えば、その人が現れた１番目から５番目のフレームのうちの一つにおける姿勢）。この方法により、複数の人物２０のそれぞれについて基準姿勢が独立して定義される。ここで、最初の数フレームには、人物２０の骨格キーポイントの全ては含まれていない可能性がある。例えば、人物２０がフレームの端にいる場合、その人のキーポイントのうちのいくつかのみが見えうる。そこで、固定の複数のイニシャルフレームの中から選択（例えば、５番目や１０番目）をすることが好適である。

基準姿勢を定めるその他の方法は、ビデオデータ３０に撮像されているシーンに関する知識から、いくつかの動作が起こりうるそのシーンにおいて、最も一般的なものとすることである。例えば、多くの人が歩道を歩いている場所に設置されている監視カメラによって、ビデオデータ３０が生成されるとする。この場合、そのシーンにおける最も一般的な姿勢は「直立している」というものである。そのため、直立を表す姿勢を、基準姿勢として用いうる。その他にも例えば、多くの人がサイクリングをしているサイクリングレーンにおけるシーンであるとする。この場合、人の背中が曲がっており、かつ、その人の手が自転車のハンドルを握っているという「自転車を漕いでいる」を表す姿勢が、適切な基準姿勢である。これらの場合において、基準姿勢は、因果相互作用検出装置２０００からアクセス可能な記憶装置に予め格納される。

基準姿勢は、１つのフレームに基づいて定められる必要はなく、フレーム列で定められてもよい。言い換えれば、基準姿勢は姿勢列（例えば動作）で定義されてもよい。この場合、基準姿勢は、基準動作とも呼ばれうる。上記で説明された例が複数のフレームを含む場合に拡張されると、歩行や自転車を漕ぐという動作に相当しうる。具体的には、歩行が一般的な動作であるビデオデータ３０について、基準姿勢は、歩行動作（例えば、歩行における手と足の動き）を表す姿勢列によって定義されうる。一方、自転車を漕ぐことが共通の動作であるビデオデータ３０について、基準姿勢は、自転車を漕ぐ動作（例えば自転車を漕ぐ際の足の動き）を表す姿勢列によって定義されうる。

基準動作が利用される場合、人物２０の姿勢と基準動作との間の非類似度は人物２０の姿勢の集合をスライディングウインドウ形式で考えることによって算出される。図５は、人物２０の実姿勢の集合と基準動作との間の非類似度を算出する方法の例を示す。この例において、基準動作は、３つの基準姿勢の列で定義されている。そのため、スライディングウインドウのサイズは３である。また、スライディングウインドウのストライドは４である。

第一に、モデル生成部２０４０は、人物２０の１番目から３番目の実姿勢を含む人物２０の実姿勢の第１集合を基準動作と比較することで、それらの間の非類似度を算出する。具体的には、第１の実姿勢と第１の基準姿勢との距離 d11、第２の実姿勢と第２の基準姿勢との距離 d12、及び第３の実姿勢と第３の基準姿勢との距離 d13 とが、それぞれ算出される。これら算出された距離に基づいて、実姿勢の第１集合と基準姿勢との非類似度 D1 が算出される。Bこの例において、非類似度は、実姿勢と基準姿勢との距離の和として算出される。非類似度D1=d11+d12+13。

次に、モデル生成部２０４０は、同様の方法で、人物２０の実姿勢の第２集合を基準動作と比較する。この例においてストライドは４であるため、実姿勢の第２集合は、５番目から７番目の実姿勢を含む。

基準姿勢は、全てのフレームについて固定であってもよいし、時間の関数として更新されてもよい。後者の場合、人物２０の姿勢が新たな姿勢に変化し、当該新たな姿勢が長い時間継続した場合には、この新たな姿勢に基準姿勢が更新される。例えば、或る人物が歩いた後に座り、その他の動作をする前の長い時間、座っている状態が継続するとする。この場合、最初の基準姿勢は「立っている」という姿勢に相当し、その後に、基準姿勢は「座っている」に更新されうる。なぜなら、それがその人の新たな通常の状態であるためである。基準姿勢の更新は、人物２０がどの程度長い時間現在の状態を継続しているかを判断することによって行える。具体的には、例えば、人物２０の姿勢が現在の姿勢とは異なる新たな姿勢に変化し、人物２０が所定長以上の時間その新たな姿勢を継続する場合に、基準姿勢が新たな姿勢に更新される。

＜＜非類似度の詳細＞＞
人物２０の姿勢の非類似度は、例えば、その姿勢と基準姿勢との距離として算出されうる。コサイン距離や重み付き距離などのように、２つの姿勢の距離を表す方法は様々である。重み付き距離を利用する場合、人物２０の各キーポイントに対して、個別の重みが与えられる。

対象の姿勢（非類似度が算出される姿勢）と基準姿勢との間の非類似度の算出には、学習ベースの方法を利用しうる。具体的には、モデル生成部２０４０は、対象の姿勢と基準姿勢のペアを入力し、それらの間の非類似度を出力する学習済みの回帰モデルを有する。この回帰モデルは、それぞれが、対象の姿勢と基準姿勢のペアをそのペアの非類似度（言い換えれば、そのペアが入力された回帰モデルから出力されるべき非類似度）と対応づける複数の訓練データを利用して、予め訓練される。

＜因果相互作用の検出：Ｓ１０８＞
相関検出部２０６０は、姿勢変化の時間が互いに相関する複数の人物２０の集合を１つ以上検出する（Ｓ１０８）。これは、各々の姿勢に大きな変化がある人々の時刻の間の関係を、相関検出部２０６０が見つけることを意味する。複数の人々の姿勢が大きく変化する時刻の間に相関がある場合、それらの人々は高い確率で相互作用している。ここで、「大きな姿勢変化」は、非類似度が所定の閾値以上である姿勢変化として定義されうる。

例えば相関検出部２０６０は、複数の人物２０の任意の集合それぞれを順に選択し、選択された集合に含まれる複数の人物２０の姿勢変化の時間が所定の時間相関を持つか否かを、それらの変化モデル４０を比較することで判定する。それらが所定の時間相関を持つと判定された場合、相関検出部２０６０は、選択された集合を検出集合として扱う。これは、選択された集合に含まれる複数の人物２０の間に因果相互作用があると特定されることを意味する。それらが所定の時間相関を持たないと判定された場合、相関検出部２０６０は、選択された集合を検出集合として扱わない。これは、選択された集合に含まれる複数の人物２０の間に因果相互作用がないと特定されることを意味する。

因果相互作用を持つと考えられる複数の人物２０の姿勢変化における所定の時間相関としては、種々のものがありうる。そのような相関の一つの例は、時間軸上における大きな姿勢変化の重複である。例えば、或る人物２０の姿勢が或るタイムウインドウにおいて大きく変化しているとする。さらに例えば、このタイムウインドウが他の人物２０の姿勢が大きく変化しているタイムウインドウと重複しているとする。この場合、それらの人物２０の姿勢変化の時間は相関していると考えられ、それら二人の人物２０が因果相互作用を持つ可能性が高い。

そのため、相関検出部２０６０は、選択された集合における複数の人物２０の姿勢が大きく変化しているタイムウインドウが、所定長以上の時間重複しているかどうかを、それらの変化モデル４０を比較することによって判定する。それらのタイムウインドウが所定長の時間以上互いに重複していると判定された場合、相関検出部２０６０は、選択された集合を検出集合として扱う。

タイムウインドウが互いに重複する相互作用の例は、握手やハグである。これらの動作において、関係する人物２０の姿勢変化のタイムウインドウは大きく重複する。なぜなら、これらの動作はそれらによってほとんど同時に行われるためである。よって、それらの姿勢はほとんど同時に変化しうる。押す、殴る、及び蹴るなどの動作については、重複しうるが、重複の度合いは小さくなりうる。なぜなら、或る人物の動作は他の人物の動作の後に現れるからである（すなわち、結果となる姿勢変化は、必ず、原因となる姿勢変化が既に始まった後に始まる）。

前述のように、タイムウインドウの重複の長さは、人物２０の動作に依存しうる。そのため、タイムウインドウ間の重複を検出するための閾値は、因果相互作用検出装置２０００が検出すべき因果相互作用の種類に基づいて、予め定義されうる。

複数の人物２０は、それらの大きな姿勢変化のタイムウイドウが互いに重複しない場合でも、因果相互作用を持ちうる。例えば、原因の動作は、結果の動作の開始と同時又は少し前に、終了しうる。言い換えれば、原因の動作と結果の動作の間には、或る大きさのインターバルが存在しうる。そのため、「選択された集合内の人物２０について、大きな姿勢変化のタイムウインドウ間のインターバルが、所定の閾値以下である」という相関が、他の所定の時間相関として利用されうる。この場合、選択された集合における人物２０について、相関検出部２０６０は、大きな姿勢変化のあるタイムウインドを検出し、タイムウインドウ間のインターバルを算出する。算出されたインターバルが所定の閾値以下である場合、相関検出部２０６０は、選択された集合を検出集合として扱う。

＜＜相関を検出するための他の要素＞＞
相関検出部２０６０は、姿勢変化の時間相関以外の要素を利用して、人物２０間の因果相互作用の検出の精度を向上しうる。そのような要素の一つは、人物２０間の距離でありうる。人物２０の大きな姿勢変化の間に時間相関があったとしても、それらの人物が互いに離れている場合には、因果相互作用は無いであろう。そのため、相関検出部２０６０は、人物２０間の距離を考慮しうる。

例えば相関検出部２０６０は、選択された集合内の人物２０の間に因果相互作用があるか否かの判定を、それらの人物２０の間の距離が所定の閾値以下である場合にのみ行う。言い換えれば、相関検出部２０６０は、人物２０間の距離が所定の閾値より大きい場合には、姿勢変化における時間相関にかかわらず、人物２０の間に因果相互作用がないと判定する。

選択された集合内の人物２０間の距離についての判定は、人物２０の姿勢変化の時間相関についての判定の後に行われてもよい。この場合、相関検出部２０６０は、各検出集合について、検出集合内の人物２０の間の距離が所定の閾値以下であるか否かを判定する。そして、相関検出部２０６０は、検出集合内の人物２０の間の距離が所定の閾値以下である場合に、検出集合内の人物２０が因果相互作用を持つと判定する。

検出集合内の人物２０間の距離についての判定は、訓練済みのモデルを利用して行われうる。例えば、訓練済みのモデルは、人物画像のペアを用い、それらが相互作用しているかをそれらの間の距離に基づいて識別するように、訓練される。

人物２０が向いている方向も、人物２０間に因果相互作用があるか否かの検出精度を向上するための要素として利用されうる。具体的には、人物２０間に因果相互作用がある場合、人物２０が他の人物２０の方を向いている可能性が高い。一方で、人物２０が判定の方向を向いている場合、人物２０の姿勢変化が時間相関を持っていても、人物２０の間には因果相互作用がないであろう。そのため、人物２０が向いている方向を考慮することにより、人物２０間の因果相互作用の検出の精度を向上することができる。

例えば、相関検出部２０６０は、選択された集合内の人物２０の姿勢変化の間に時間相関があるかどうかの判定を、人物２０の対象部位が互いを向いている場合にのみ行う。対象部位は、例えば、人物２０の頭、胴体、又は目である。具体的には、人物２０の対象部位が互いを向いている場合、対象部位が向いている方向の差が１８０度に一致するか又は１８０度に近い。そこで例えば、相関検出部２０６０は、人物２０の対象部位が向いている方向の差分 D を算出し、D が「180-m<=D<=180+m」を満たすか否かを判定する。m は所定のマージンである。ここで、パラメータ m は、０より大きく１８０より小さい実数である（例えば、m=45）。

差分 D が上記の条件を満たす場合、相関検出部２０６０は、人物２０が互いを向いていると判定した後、それらの変化モデル４０を比較することで、それらの姿勢変化に所定の時間相関があるか否かを判定する。一方、差分 D が上記の条件を満たさない場合、相関検出部２０６０は、人物２０が互いを向いていないと判定する。そのため、それらの変化モデル４０は比較されない。なお、ビデオデータ内の人の部位（頭、胴体、又は目など）が向いている方向を算出するためには、既知の技術を適用することができる。

人物２０が互いを向いていなくても、人物２０が相互作用しているケースがありうる。例えば、相互作用している人物２０は、共通の対象へ向きうる。そのため、相関検出部２０６０は、「人物２０が互いを向いている」という条件の代わりに、「人物２０が共通の対象へ向いている」という条件を利用しうる。

選択された集合内の人物２０の間の距離に関する判定と同様に、選択された集合内の人物２０が向いている方向に関する判定は、人物２０の姿勢変化の間に時間相関があるか否かに関する判定の後に行われてもよい。また、選択された集合内の人物２０が向いている方向に関する判定は、訓練済みのモデルを利用して行われうる。例えば訓練済みモデルは、人物画像のペアを用い、それらが向いている方向に基づいてそれらが相互作用しているか否かを識別するように、訓練される。

人々の間に因果相互作用があるか否かの判定に、前述したように追加の要素を用いることは、人々の複数のグループがあり、各グループ内で人々が因果相互作用しているケースにおいて、特に有用である。距離や向きなどの特徴を考慮することは、全ての人々が互いに相互作用していて、一つのグループに所属しているというと誤検出をする代わりに、これらの人々を複数のグループに区別することに役立つ。

＜検出結果に基づく出力＞
因果相互作用検出装置２０００は、人物２０の検出集合に基づいて出力情報を生成し、出力情報を出力しうる。出力されるべき情報には様々な種類がありうる。例えば出力情報は、因果相互作用を持つと判定された人物２０の１つ以上の集合を示す。出力情報において、人物２０は、ビデオデータ３０内の対応するフレームにおける、その人物の外接矩形で表されうる。その他にも例えば、人物２０は、対応するフレームの部分画像（例えば、フレーム内のその人物の外接矩形の画像領域）で表されうる。その他にも例えば、出力情報は、出力情報によって表されるべき人物２０の人物外接矩形を示すように編集されたビデオデータ３０の各フレームを含むことにより、各人物２０を表してもよい。

出力情報は、年齢、性別、服装、又は人物２０の所持品などの追加の特徴を用いて、検出集合内の人物２０が属するソーシャルグループの種類をさらに含んでもよい。そのために、検出集合内の人物２０の画像及びシーン情報を入力として取得し、それらの人物２０を複数のソーシャルグループの１つに分類するために有用な特徴をそれから抽出する訓練済みモデルが、利用されうる。

前述した出力情報は、種々の態様で出力されうる。例えば因果相互作用検出装置２０００は、ディスプレイ装置に出力情報を出力することで、ディスプレイ装置に出力情報を表示する。ディスプレイ装置は、例えば、警備室にいる警備員によって観察される。その他にも例えば、因果相互作用検出装置２０００は、現場や警備室にいる警備員又は因果相互作用検出装置２０００の操作者によって利用される携帯端末などの他のコンピュータへ、出力情報を送信してもよい。その他にも例えば、因果相互作用検出装置２０００は、後の利用のために、出力情報を記憶装置に格納してもよい。

＜例＞
以下、因果相互作用検出装置２０００の動作例が記載される。ここで、以下に記載される因果相互作用検出装置２０００の動作は、因果相互作用検出装置２０００の種々の可能な動作の一例であり、因果相互作用検出装置２０００の動作は以下の例に限定されない。

図６は、二人の人物２０が互いに相互作用しているケースを示す。ここで考えられる相互作用は「押す」であり、人物２０－５が人物２０－６を押している。なお、以下の説明は、任意の相互作用についても同様である。

図６は、因果相互作用検出装置２０００に入力されるビデオデータ３０のいくつかのフレームを示す、相互作用が存在する。ここで、図６のビデオデータ３０は、図示を容易にするため、人物２０－５及び２０－６の周囲でクロップ及びセンタリングされている。最初は、人物２０－５と２０－６が立って静止している。その後、人物２０－５が人物２０－６へ近づき、人物２０－６を押す。この押す動作が、人物２０－６を後ろに動かす。

図６において、人物２０－５と２０－６は、それらの骨格姿勢座標で表されている。ここで、１５個の骨格キーポイントが考慮されている。すなわち、頭、鼻、首、右肩、右肘、右手首、左肩、左肘、左手首、右臀部、左臀部、右膝、左膝、右足首、及び左足首である。各キーポイントは、画像フレームにおけるそのキーポイントのピクセル位置を表す座標 (x,y) と対応づけられている。ここで、図６に示されている人物の２次元の骨格キーポイントに代えて、人物の３次元の骨格キーポイントを用いることもできる。

人物は画像の任意の位置に存在することができ、カメラからその人物までの距離に基づいて、フレーム間でスケールが異なりうる。そのため、異なる姿勢を正しく比較するために、固定のサイズに変換及びスケーリングすることで、骨格姿勢をノーマライズすることが好適である。

次に、各人物の姿勢がどのように時間変化しているかを把握するため、最初に、各人物２０について基準姿勢 Pref が選択される。この例において、１番目のフレームにおける人物２０の姿勢（直立）が、その人物２０についての基準姿勢 Pref として選択される。さらに、この例において、或るフレームにおける人物２０の姿勢と基準姿勢との非類似度（すなわち、姿勢変化の度合い）が、フレームごとに、そのフレームにおける人物２０の姿勢ベクトルと基準姿勢の姿勢ベクトルとのコサイン距離で算出される。ここで、或る姿勢における或る人物の姿勢ベクトルは、そのフレームにおけるその人物の骨格キーポイントの座標を含む行列である。前述したコサイン距離は、以下の数式を用いて算出されうる。

ここで、上記数式（１）において、p_k は k 番目のフレームにおける人物２０の姿勢ベクトルを表し、p_ref は基準姿勢 Pref の姿勢ベクトルを表し、D(p_k, p_ref）は、それらの間のコサイン距離を表す。

数式（１）は、各人物２０について、非類似度の集合をフレーム番号の関数として提供する。すなわち、D(p_1, p_ref)、D(p_2, p_ref)、...、及び D(p_N, p_ref) である。N は、ビデオデータ３０に含まれるフレームの総数である。この非類似度の集合は、各フレームにおける姿勢が基準姿勢と比較してどの程度異なるかを表す。そのため、この非類似度の集合は、変化モデル４０として利用しうる。

図７Ａ及び７Ｂは、人物２０－５と２０－６の変化モデル４０をそれぞれ表す。図７Ａから、人物２０－５の姿勢は、最初の方及び最後の方のフレームにおいては、基準姿勢と比較してあまり変化しないが、人物２０－５が２０－６を押すことにより、フレーム番号５０からフレーム番号８０までの間においては、大きく変化することが分かる。同様に、図７Ｂから、人物２０－６の姿勢は、人物２０－６が人物２０－５に押されるため、フレーム番号７０から９０にかけて急激に大きく変化することが分かる。

次に、双方の人物２０について大きな姿勢変化がある時刻を考慮することにより、図７Ａと７Ｂにおける変化モデル４０の間の時間相関が算出される。非類似度の閾値を 0.5 に設定することで、非類似度が 0.5 より大きい全てのフレームが、大きな姿勢変化を持つフレームに分類される。そのため、人物２０－５については、大きな姿勢変化がフレーム番号５０から８０の間で起こる一方、人物２０－６については、大きな姿勢変化がフレーム番号７０から９０の間で起こる。そこで、フレーム番号７０から８０の間で、人物２０－５と２０－６の双方について大きな姿勢変化が起こる（すなわち、変化モデル４０－５における大きな姿勢変化のタイムウインドウが、変化モデル４０－６における大きな姿勢変化のタイムウインドウと重複する）。そのため、フレーム７０と８０の間について、人物２０－５と２０－６の間の因果相互作用が検出される。

本開示は上述のように実施形態を参照して説明されたが、本開示は前述した実施形態に限定されない。当業者によれば、本開示における構成や詳細に対し、発明の範囲内において様々な変更を行うことが理解できる。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに提供することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、CD-ROM、CD-R、CD-R/W、半導体メモリ（例えば、マスク ROM、PROM（Programmable ROM）、EPROM（Erasable PROM）、フラッシュROM、RAM）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
＜付記＞
（付記１）
少なくとも一つのプロセッサと、
命令が格納される記憶要素を有し、
前記少なくとも一つのプロセッサは、前記命令を実行することによって、
ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、
前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、
複数の前記人物の１つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出するように構成される、因果相互作用検出装置。
（付記２）
前記少なくとも一つのプロセッサは、
第１タイムウインドウが第２タイムウインドウと重複するか否かを判定し、前記第１タイムウインドウは第１人物の姿勢変化の度合いが閾値以上である期間であり、前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記閾値以上である期間であり、
前記第１タイムウインドウが前記第２タイムウインドウと重複する場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定するように、さらに構成される、付記１に記載の因果相互作用検出装置。
（付記３）
前記少なくとも一つのプロセッサは、
第１タイムウインドウと第２タイムウインドウとの間のインターバルが第１閾値以下であるか否かを判定し、前記第１タイムウインドウは第１人物の姿勢変化の度合いが第２閾値以上である期間であり、前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記第２閾値以上である期間であり、
前記インターバルが前記第１閾値以下である場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定するように、さらに構成される、付記１に記載の因果相互作用検出装置。
（付記４）
前記少なくとも一つのプロセッサは、
第１人物と第２人物との間の距離が閾値以下であるか否かを判定し、
前記距離が前記閾値より大きいと判定される場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定するように、さらに構成される、付記１に記載の因果相互作用検出装置。
（付記５）
前記少なくとも一つのプロセッサは、
第１人物が第２人物へ向いているか否かを判定し、
前記第１人物が前記第２人物へ向いていない場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定するように、さらに構成される、付記１に記載の因果相互作用検出装置。
（付記６）
前記姿勢情報は、前記ビデオデータの或るフレームにおける前記人物の前記姿勢を、そのフレームから検出されるその人物の複数のキーポイントの座標で表す、付記１から５いずれか一項に記載の因果相互作用検出装置。
（付記７）
前記人物の前記変化モデルは、前記ビデオデータの或るフレームにおけるその人物の姿勢変化を、そのフレームにおけるその人物の前記姿勢と基準姿勢との非類似度によって表す、付記１から６いずれか一項に記載の因果相互作用検出装置。
（付記８）
前記ビデオデータの或るフレームにおける前記人物についての前記非類似度は、そのフレームにおけるその人物の前記姿勢と前記基準姿勢との距離で算出される、付記７に記載の因果相互作用検出装置。
（付記９）
ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、
前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、
複数の前記人物の１つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する、ことを含む、コンピュータによって実行される制御方法。
（付記１０）
第１タイムウインドウが第２タイムウインドウと重複するか否かを判定し、前記第１タイムウインドウは第１人物の姿勢変化の度合いが閾値以上である期間であり、前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記閾値以上である期間であり、
前記第１タイムウインドウが前記第２タイムウインドウと重複する場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定する、ことがさらに含まれる、付記９に記載の制御方法。
（付記１１）
第１タイムウインドウと第２タイムウインドウとの間のインターバルが第１閾値以下であるか否かを判定し、前記第１タイムウインドウは第１人物の姿勢変化の度合いが第２閾値以上である期間であり、前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記第２閾値以上である期間であり、
前記インターバルが前記第１閾値以下である場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定する、ことがさらに含まれる、付記９に記載の制御方法。
（付記１２）
第１人物と第２人物との間の距離が閾値以下であるか否かを判定し、
前記距離が前記閾値より大きいと判定される場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定する、ことがさらに含まれる、付記９に記載の制御方法。
（付記１３）
第１人物が第２人物へ向いているか否かを判定し、
前記第１人物が前記第２人物へ向いていない場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定する、ことがさらに含まれる、付記９に記載の制御方法。
（付記１４）
前記姿勢情報は、前記ビデオデータの或るフレームにおける前記人物の前記姿勢を、そのフレームから検出されるその人物の複数のキーポイントの座標で表す、付記９から１３いずれか一項に記載の制御方法。
（付記１５）
前記人物の前記変化モデルは、前記ビデオデータの或るフレームにおけるその人物の姿勢変化を、そのフレームにおけるその人物の前記姿勢と基準姿勢との非類似度によって表す、付記９から１４いずれか一項に記載の制御方法。
（付記１６）
前記ビデオデータの或るフレームにおける前記人物についての前記非類似度は、そのフレームにおけるその人物の前記姿勢と前記基準姿勢との距離で算出される、付記１５に記載の制御方法。
（付記１７）
ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、
前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、
複数の前記人物の１つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する、ことをコンピュータに実行させるプログラムが格納されている非一時的なコンピュータ可読媒体。
（付記１８）
前記プログラムは、
第１タイムウインドウが第２タイムウインドウと重複するか否かを判定し、前記第１タイムウインドウは第１人物の姿勢変化の度合いが閾値以上である期間であり、前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記閾値以上である期間であり、
前記第１タイムウインドウが前記第２タイムウインドウと重複する場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定する、ことを前記コンピュータにさらに実行させる、付記１７に記載の非一時的なコンピュータ可読媒体。
（付記１９）
前記プログラムは、
第１タイムウインドウと第２タイムウインドウとの間のインターバルが第１閾値以下であるか否かを判定し、前記第１タイムウインドウは第１人物の姿勢変化の度合いが第２閾値以上である期間であり、前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記第２閾値以上である期間であり、
前記インターバルが前記第１閾値以下である場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定する、ことを前記コンピュータにさらに実行させる、付記１７に記載の非一時的なコンピュータ可読媒体。
（付記２０）
前記プログラムは、
第１人物と第２人物との間の距離が閾値以下であるか否かを判定し、
前記距離が前記閾値より大きいと判定される場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定する、ことを前記コンピュータにさらに実行させる、付記１７に記載の非一時的なコンピュータ可読媒体。
（付記２１）
前記プログラムは、
第１人物が第２人物へ向いているか否かを判定し、
前記第１人物が前記第２人物へ向いていない場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定する、ことを前記コンピュータにさらに実行させる、付記１７に記載の非一時的なコンピュータ可読媒体。
（付記２２）
前記姿勢情報は、前記ビデオデータの或るフレームにおける前記人物の前記姿勢を、そのフレームから検出されるその人物の複数のキーポイントの座標で表す、付記１７から２１いずれか一項に記載の非一時的なコンピュータ可読媒体。
（付記２３）
前記人物の前記変化モデルは、前記ビデオデータの或るフレームにおけるその人物の姿勢変化を、そのフレームにおけるその人物の前記姿勢と基準姿勢との非類似度によって表す、付記１７から２２いずれか一項に記載の非一時的なコンピュータ可読媒体。
（付記２４）
前記ビデオデータの或るフレームにおける前記人物についての前記非類似度は、そのフレームにおけるその人物の前記姿勢と前記基準姿勢との距離で算出される、付記２３に記載の非一時的なコンピュータ可読媒体。

２０人物
３０ビデオデータ
４０変化モデル
１０００コンピュータ
１０２０バス
１０４０プロセッサ
１０６０メモリ
１０８０ストレージデバイス
１１００入出力インタフェース
１１２０ネットワークインタフェース
２０００因果相互作用検出装置
２０２０姿勢抽出部
２０４０モデル生成部
２０６０相関検出部

Claims

ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出する処理と、
複数の前記人物の１つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定する処理と、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する処理と、を行い、
前記判定の処理は、
第１タイムウインドウと第２タイムウインドウとの間のインターバルが第１閾値以下であるか否かを判定することを含み、
前記第１タイムウインドウは第１人物の姿勢変化の度合いが第２閾値以上である期間であり、
前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記第２閾値以上である期間であり、
前記インターバルが前記第１閾値以下である場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定することを含む、因果相互作用検出装置。
ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出する処理と、
複数の前記人物の１つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定する処理と、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する処理と、を行い、
前記判定の処理は、
第１人物が第２人物へ向いているか否かを判定することと、
前記第１人物が前記第２人物へ向いていない場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定することとを含む、因果相互作用検出装置。
前記判定の処理は、
第３人物と第４人物との間の距離が所定の閾値以下であるか否かを判定することと、
前記距離が前記所定の閾値より大きいと判定される場合に、前記第３人物は前記第４人物と因果相互作用を持たないと判定することとを含む、請求項１又は２に記載の因果相互作用検出装置。
前記姿勢情報は、前記ビデオデータの或るフレームにおける前記人物の前記姿勢を、そのフレームから検出されるその人物の複数のキーポイントの座標で表す、請求項１から３いずれか一項に記載の因果相互作用検出装置。
前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成する処理を行い、
前記人物の前記変化モデルは、前記ビデオデータの或るフレームにおけるその人物の姿勢変化を、そのフレームにおけるその人物の前記姿勢と基準姿勢との非類似度によって表す、請求項１から４いずれか一項に記載の因果相互作用検出装置。
前記ビデオデータの或るフレームにおける前記人物についての前記非類似度は、そのフレームにおけるその人物の前記姿勢と前記基準姿勢との距離で算出される、請求項５に記載の因果相互作用検出装置。
ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出するステップと、
複数の前記人物の１つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定するステップと、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出するステップと、含み、
前記判定のステップは、
第１タイムウインドウと第２タイムウインドウとの間のインターバルが第１閾値以下であるか否かを判定することを含み、
前記第１タイムウインドウは第１人物の姿勢変化の度合いが第２閾値以上である期間であり、
前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記第２閾値以上である期間であり、
前記インターバルが前記第１閾値以下である場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定することを含む、コンピュータによって実行される制御方法。
ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出するステップと、
複数の前記人物の１つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定するステップと、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出するステップと、含み、
前記判定のステップは、
第１人物が第２人物へ向いているか否かを判定することと、
前記第１人物が前記第２人物へ向いていない場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定することとを含む、コンピュータによって実行される制御方法。
ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出する処理と、
複数の前記人物の１つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定する処理と、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する処理と、をコンピュータに実行させ、
前記判定の処理は、
第１タイムウインドウと第２タイムウインドウとの間のインターバルが第１閾値以下であるか否かを判定することを含み、
前記第１タイムウインドウは第１人物の姿勢変化の度合いが第２閾値以上である期間であり、
前記第２タイムウインドウは第２人物の姿勢変化の度合いが前記第２閾値以上である期間であり、
前記インターバルが前記第１閾値以下である場合に、前記第１人物の姿勢変化の時間が前記第２人物の姿勢変化の時間と相関を持つと判定することを含む、プログラム。
ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出する処理と、
複数の前記人物の１つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定する処理と、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する処理と、をコンピュータに実行させ、
前記判定の処理は、
第１人物が第２人物へ向いているか否かを判定することと、
前記第１人物が前記第２人物へ向いていない場合に、前記第１人物は前記第２人物と因果相互作用を持たないと判定することとを含む、プログラム。