JP7491462B2 - 因果相互作用検出装置、制御方法、及びプログラム - Google Patents

因果相互作用検出装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP7491462B2
JP7491462B2 JP2023507356A JP2023507356A JP7491462B2 JP 7491462 B2 JP7491462 B2 JP 7491462B2 JP 2023507356 A JP2023507356 A JP 2023507356A JP 2023507356 A JP2023507356 A JP 2023507356A JP 7491462 B2 JP7491462 B2 JP 7491462B2
Authority
JP
Japan
Prior art keywords
person
posture
persons
change
correlated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023507356A
Other languages
English (en)
Other versions
JP2023536875A (ja
Inventor
カレン ステファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2023536875A publication Critical patent/JP2023536875A/ja
Application granted granted Critical
Publication of JP7491462B2 publication Critical patent/JP7491462B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Technology Law (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示は全体として、複数の人物間の因果相互作用を映像から検出する技術に関する。
人物間の因果相互作用とは、二人以上の人物が関係する相互作用であり、その人々の相互作用に因果関係が存在する場合のことを表す。一人の人物の動作や状態がもう一人の人物の動作や状態に影響を与えるという、人々の間における様々な相互作用が、因果相互作用となる。
非特許文献1と非特許文献2は、人物間の因果相互作用をビデオデータから検出する技術を開示する。非特許文献1は、グランジャー因果性のコンセプトに基づいて、人物間の因果相互左方を検出するシステムを開示する。グランジャー因果性の定義によれば、時系列データ {x(t)} が他の時系列データ {y(t)} に対してグランジャー因果を持つと考えられるのは、x(t) の過去の値を知ることで y(t) をより良く推測できるようになる場合である。非特許文献1のシステムは、時系列データとして、ビデオデータ内のシーンにおける人々の頭部のキーポイントの軌跡を利用する。非特許文献1によれば、シーンにおける或る人物の頭部のキーポイントの軌跡は、シーンにおける他の人物の頭部のキーポイントとの線型結合で表され、スパースグラフを識別する問題として因果相互作用を見つける問題が考えられる。
非特許文献2は、二人の人物間の相互作用を認識するために、人物の骨格の特徴点を利用するシステムを開示する。非特許文献2では、二人の人物間の相互作用が含まれる映像を入力し、それらの相互作用を所定の相互作用クラスの一つに分類するように、サポートベクトルマシン(SVM: Support Vector Machine)が予め訓練されている。
Mustafa Ayazoglu、Burak Yilmaz、Mario Sznaier、及び Octavia Camps、「Finding Causal Interactions in Video Sequences」、2013 IEEE International Conference on Computer Vision、2013年12月1日 Kiwon Yun、Jean Honorio、Debaleena Chattopadhyay、Tamara L. Berg、及び Dimitris Samaras、「Two-person interaction detection using body-pose features and multiple instance learning」、2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops、2012年6月16日
上述したシステムは、人物間の種々の相互作用を検出することができない。具体的には、非特許文献1に開示されるシステムは、頭部のキーポイントの軌跡が大きく変化することなく人の骨格姿勢が大きく変化する場合における人物間の相互作用検出できない。このような問題が起こる理由は、非特許文献1が、ビデオデータのシーンの人々の一つのキーポイントのみの軌跡情報を利用するためである。ここで、一人の人物の複数のキーポイントの軌跡は、他の人々の複数のキーポイントの線型結合では表せない(関係が線型ではない)ため、非特許文献1に開示される手法を複数のキーポイントへ直接拡張することはできない。
非特許文献2については、それによって開示されるシステムが検出できる人物間の相互作用は所定の一つに限定される。なぜなら、そのシステムの SVM は、既知の種類の相互作用のうちの1つを表す訓練データを用いて予め訓練される必要があるためである。そのため、このシステムでは、未知の種類の人物間相互作用を検出することが難しい。
本開示の目的の一つは、人物間の種々の因果相互作用を検出する技術を提供することである。
本開示が提供する因果相互作用検出装置は、少なくとも一つのプロセッサと、命令が格納される記憶要素を有する。前記少なくとも一つのプロセッサは、前記命令を実行することによって、ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、複数の前記人物の1つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出するように構成される。
本開示がさらに提供する制御方法はコンピュータによって実行される。当該制御方法は、ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、複数の前記人物の1つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する、ことを含む。
本開示がさらに提供する非一時的なコンピュータ可読媒体はプログラムを格納している。当該プログラムは、本開示の制御方法をコンピュータに実行させる。
本開示によれば、人物間の種々の因果相互作用を検出する技術が提供される。
図1は、実施形態1に係る因果相互作用検出装置の概要を示す。 図2は、実施形態1の因果相互作用検出装置の機能構成の例を示すブロック図である。 図3は、因果相互作用検出装置を実現するコンピュータのハードウエア構成の例を示すブロック図である。 図4は、実施形態1の因果相互作用検出装置によって実行される処理の流れの例を表すフローチャートである。 図5は、人物の実姿勢の集合と基準動作との間の非類似度を算出する方法の例を示す。 図6は、二人の人物が互いに相互作用しているケースを示す。 図7Aは人物の変化モデルを示す。 図7Bは人物の変化モデルを示す。
以降、本開示に係る実施形態が、図面を参照しながら説明される。複数の図面に亘り、同じ要素には同じ符号が割り当てられ、冗長な説明は適宜省略される。
実施形態1
<概要>
図1は、実施形態1に係る因果相互作用検出装置の概要を示す。ここで、図1は、因果相互作用検出装置が行いうる動作の例を示すのみであり、因果相互作用検出装置の動作を限定しない。
因果相互作用検出装置は、ビデオデータ30に撮像されている複数の人物20の間の因果相互作用を検出するために利用される。人物20の因果相互作用を検出するために、因果相互作用検出装置はビデオデータ30を解析し、各人物20について、姿勢の時間変化のモデル(以下、変化モデル)を生成する。さらに、因果相互作用検出装置は、複数の人物20の変化モデルを互いに比較することで、ビデオデータ30において、複数の人物20について大きな姿勢変化が起こる時間の相関を特定する。そして、因果相互作用検出装置は、1つ以上の人物20の集合(以下、検出集合)を生成する。各検出集合は、因果相互作用のある複数の人物20を示す。具体的には、姿勢が変化する時間に互いに相関がある複数の人物20は、互いに同一の検出集合に含まれる。例えば、因果相互作用検出装置は、複数の人物20において姿勢変化の時間が互いに重複する場合に、それらの間に因果相互作用があることを検出する。
例えば図1において、ビデオデータ30から、4人の人物20-1から20-4が検出されている。変化モデル40-1から40-4はそれぞれ、人物20-1から20-4について、姿勢の時間変化を表す。変化モデル40-1を、その他の変化モデル40-2から40-4と比較することにより、その姿勢変化が大きい時間が、人物20-1の姿勢変化が大きい時間と相関のある他の人物20は、いないことが分かる。人物20-2についても同様である。
一方で、変化モデル40-3と変化モデル40-4とを比較することにより、人物20-4が姿勢を大きく変化させる時間と重複する時間期間において、人物20-3が姿勢を大きく変化させていることが分かる。そのため、因果相互作用検出装置は、人物20-3と20-4との間に因果相互作業が存在すると特定する。
<作用効果の例>
実施形態1の因果相互作用検出装置によれば、姿勢の時間変化を表す変化モデル40が、ビデオデータ30から検出された各人物20について生成される。生成された変化モデル40に基づいて、因果相互作用検出装置は、姿勢変化に互いに時間相関がある複数の人物20を検出し、それらの人物20が因果相互作用を持つと考えられる。
この方法では、人物間の所定種類の相互作用を検出するように訓練された訓練済みのモデルを用意する必要がない。そのため、因果相互作用検出装置が検出できる因果相互作用は、所定の種類の相互作用に限定されない。さらに、後述するように、因果相互作用検出装置は、複数のキーポイントで表される姿勢を扱うことが本質的に可能である。そのため、因果相互作用検出装置が検出可能な因果相互作用は、1つのキーポイントで姿勢が表されるものに限定されない。よって、因果相互作用検出装置は、種々の因果相互作用を検出することができる。
以下、因果相互作用検出装置についてより詳細な説明が記述される。
<機能構成の例>
図2は、実施形態1の因果相互作用検出装置2000の機能構成の例を示すブロック図である。因果相互作用検出装置2000は、姿勢抽出部2020、モデル生成部2040、及び相関検出部2060を含む。姿勢抽出部2020は、ビデオデータ30から、各人物20についての姿勢情報を抽出する。人物20の姿勢情報は、人物20の姿勢を時系列で示す。モデル生成部2040は、各人物20について、変化モデル40を生成する。相関検出部2060は、変化モデル40に基づいて、姿勢変化の時間に互いに相関がある複数の人物20の集合を、1つ以上検出する。
<因果相互作用検出装置2000のハードウエア構成の例>
因果相互作用検出装置2000は、1つ以上のコンピュータで実現されうる。1つ以上のコンピュータのそれぞれは、因果相互作用検出装置2000を実装するための専用のコンピュータであってもよいし、パーソナルコンピュータ(PC: personal computer)、サーバマシン、又は携帯型デバイスなどの汎用のコンピュータであってもよい。因果相互作用検出装置2000は、アプリケーションをコンピュータにインストールすることで実現されうる。アプリケーションは、コンピュータを因果相互作用検出装置2000として機能させるプログラムで実装される。言い換えれば、そのプログラムは、因果相互作用検出装置2000の機能構成部が実装されたものである。
図3は、因果相互作用検出装置2000を実現するコンピュータ1000のハードウエア構成の例を示すブロック図である。図3において、コンピュータ1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を含む。
バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が相互にデータを送信及び受信するための、データ通信路である。プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などのプロセッサである。メモリ1060は、RAM(Random Access Memory)や ROM(Read Only Memory)などの一次記憶要素である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、又はメモリカードなどの二次時記憶要素である。)入出力インタフェース1100は、ポリシー生成装置100と周辺装置(キーボード、マウス、又はディスプレイ装置など)との間のインタフェースである。ネットワークインタフェース1120は、ポリシー生成装置100とネットワークとの間のインタフェースである。そのネットワークは、LAN(Local Area Network)でもよいし、WAN(Wide Area Network)でもよい。
ストレージデバイス1080は、前述したコンピュータプログラムを格納しうる。プロセッサ1040は、因果相互作用検出装置2000の各機能構成部を実現するためにそのコンピュータプログラムを実行する。
コンピュータ1000のハードウエア構成は、図3に示されている構成に限定されない。例えば前述したように、因果相互作用検出装置2000は、複数のコンピュータで実現されうる。この場合、これらのコンピュータは、ネットワークを介して互いに接続されうる。
<処理の流れ>
図4は、実施形態1の因果相互作用検出装置2000によって実行される処理の流れの例を表すフローチャートである。姿勢抽出部2020はビデオデータ30を取得する(S102)。姿勢抽出部2020は、ビデオデータ30から、各人物20について姿勢情報を抽出する(S104)。モデル生成部2040は、抽出された人物20の姿勢情報に基づいて、各人物20について変化モデル40を生成する(S106)。相関検出部2060は、姿勢変化の時間に互いに相関がある人物20の1つ以上の集合を生成する(S108)。
<ビデオデータ30の取得:S102>
姿勢抽出部2020はビデオデータ30を取得する(S102)。ビデオデータ30を取得する方法は様々である。例えば姿勢抽出部2020は、ビデオデータ30を生成するカメラからビデオデータ30を取得する。その他にも例えば、姿勢抽出部2020は、カメラがビデオデータ30を格納する記憶装置から、ビデオデータ30を取得する。
ビデオデータ30を生成するカメラは、複数の人物20を撮像できる任意のカメラである。例えば、監視対象の場所に設定されている監視カメラでありうる。その他にも例えば、指定された場所をパトロールする人や物体(ドローンなど)に装着されている携帯型カメラでありうる。
カメラによって生成されるビデオデータは、複数のビデオデータ30に分割されうる。例えば、カメラによって生成される所定長(1分など)ごとの各ビデオデータが、ビデオデータ30として扱われる。ここで、ビデオデータは、2つの隣接するビデオデータ30の一部が互いに重複するように、複数のビデオデータ30に分割されてもよい。
<姿勢情報の抽出:S104>
姿勢抽出部2020は、ビデオデータ30から、各人物20について姿勢情報を抽出する(S104)。人物20の姿勢情報は、その人物20の姿勢の時系列(言い換えれば、人物20の姿勢の時間軸上の列)を表す。例えば姿勢情報は、ビデオデータ30の各時間フレームについて、人物20の姿勢を表す。この場合、姿勢抽出部2020は、ビデオデータ30の各時間フレームについて人物20の姿勢を算出し、算出された人物20の姿勢の列を示す姿勢情報を生成する。なお、姿勢情報は、各フレームについて人物20の姿勢を示すことが要求されるわけではない。例えば姿勢情報は、人物20の姿勢を数フレームごとに示してもよい。
各人物20の姿勢を算出するために、姿勢抽出部2020は、ビデオデータ30のフレームから人物20を検出する。例えば、検出された人物20は、フレームにおけるその外接矩形の座標で表される。さらに姿勢抽出部2020は、それらの人物外接矩形を、ビデオデータ30の複数のフレームに亘って追跡する。そうすることで、互いに同一の人物20を表す複数の外接矩形が、複数のフレームに亘って識別される。姿勢抽出部2020は、検出かつ追跡された各人物20の骨格キーポイントの座標を抽出する。結果として、姿勢抽出部2020は、ビデオデータ30から検出された各人物20について、その人物20の骨格キーポイントの座標の時系列が含まれる姿勢情報を生成する。
ここで、動作の順序は異なってもよい。例えば、人物の外接矩形を追跡してから骨格キーポイントの座標を抽出する代わりに、骨格キーポイントの座標が、先に抽出された後にビデオデータ30の複数のフレームに亘って追跡されてもよい。
<変化モデルの生成:S106>
モデル生成部2040は、人物20について抽出された姿勢情報に基づいて、ビデオデータ30内の各人物20について変化モデル40を生成する(S106).具体的には、ビデオデータ30から検出された各人物20について、モデル生成部2040は、その人物20の姿勢の変化を時間の関数としてモデル化する。
時間 t における姿勢の変化は、時間 t における姿勢 Pt を基準姿勢 Pref と比較して、姿勢 Pt がどの程度基準姿勢 Pref と異なるかを表す非類似度を算出することによってモデル化しうる。これは、時間に対して人物20の姿勢がどの程度変化するかの追跡を可能とする。
<<基準姿勢についての詳細>>
基準姿勢 Pref は、シーンにおいて(ビデオデータ30の一部又は全部において)通常だと考えられる人物20の姿勢を表す。シナリオに基づいて基準姿勢を定める方法は様々である。例えば、人物20の基準姿勢は、その人がビデオデータ30に現れた複数のイニシャルフレームのうちの一つにおけるその人の姿勢で定義できる(例えば、その人が現れた1番目から5番目のフレームのうちの一つにおける姿勢)。この方法により、複数の人物20のそれぞれについて基準姿勢が独立して定義される。ここで、最初の数フレームには、人物20の骨格キーポイントの全ては含まれていない可能性がある。例えば、人物20がフレームの端にいる場合、その人のキーポイントのうちのいくつかのみが見えうる。そこで、固定の複数のイニシャルフレームの中から選択(例えば、5番目や10番目)をすることが好適である。
基準姿勢を定めるその他の方法は、ビデオデータ30に撮像されているシーンに関する知識から、いくつかの動作が起こりうるそのシーンにおいて、最も一般的なものとすることである。例えば、多くの人が歩道を歩いている場所に設置されている監視カメラによって、ビデオデータ30が生成されるとする。この場合、そのシーンにおける最も一般的な姿勢は「直立している」というものである。そのため、直立を表す姿勢を、基準姿勢として用いうる。その他にも例えば、多くの人がサイクリングをしているサイクリングレーンにおけるシーンであるとする。この場合、人の背中が曲がっており、かつ、その人の手が自転車のハンドルを握っているという「自転車を漕いでいる」を表す姿勢が、適切な基準姿勢である。これらの場合において、基準姿勢は、因果相互作用検出装置2000からアクセス可能な記憶装置に予め格納される。
基準姿勢は、1つのフレームに基づいて定められる必要はなく、フレーム列で定められてもよい。言い換えれば、基準姿勢は姿勢列(例えば動作)で定義されてもよい。この場合、基準姿勢は、基準動作とも呼ばれうる。上記で説明された例が複数のフレームを含む場合に拡張されると、歩行や自転車を漕ぐという動作に相当しうる。具体的には、歩行が一般的な動作であるビデオデータ30について、基準姿勢は、歩行動作(例えば、歩行における手と足の動き)を表す姿勢列によって定義されうる。一方、自転車を漕ぐことが共通の動作であるビデオデータ30について、基準姿勢は、自転車を漕ぐ動作(例えば自転車を漕ぐ際の足の動き)を表す姿勢列によって定義されうる。
基準動作が利用される場合、人物20の姿勢と基準動作との間の非類似度は人物20の姿勢の集合をスライディングウインドウ形式で考えることによって算出される。図5は、人物20の実姿勢の集合と基準動作との間の非類似度を算出する方法の例を示す。この例において、基準動作は、3つの基準姿勢の列で定義されている。そのため、スライディングウインドウのサイズは3である。また、スライディングウインドウのストライドは4である。
第一に、モデル生成部2040は、人物20の1番目から3番目の実姿勢を含む人物20の実姿勢の第1集合を基準動作と比較することで、それらの間の非類似度を算出する。具体的には、第1の実姿勢と第1の基準姿勢との距離 d11、第2の実姿勢と第2の基準姿勢との距離 d12、及び第3の実姿勢と第3の基準姿勢との距離 d13 とが、それぞれ算出される。これら算出された距離に基づいて、実姿勢の第1集合と基準姿勢との非類似度 D1 が算出される。Bこの例において、非類似度は、実姿勢と基準姿勢との距離の和として算出される。非類似度D1=d11+d12+13。
次に、モデル生成部2040は、同様の方法で、人物20の実姿勢の第2集合を基準動作と比較する。この例においてストライドは4であるため、実姿勢の第2集合は、5番目から7番目の実姿勢を含む。
基準姿勢は、全てのフレームについて固定であってもよいし、時間の関数として更新されてもよい。後者の場合、人物20の姿勢が新たな姿勢に変化し、当該新たな姿勢が長い時間継続した場合には、この新たな姿勢に基準姿勢が更新される。例えば、或る人物が歩いた後に座り、その他の動作をする前の長い時間、座っている状態が継続するとする。この場合、最初の基準姿勢は「立っている」という姿勢に相当し、その後に、基準姿勢は「座っている」に更新されうる。なぜなら、それがその人の新たな通常の状態であるためである。基準姿勢の更新は、人物20がどの程度長い時間現在の状態を継続しているかを判断することによって行える。具体的には、例えば、人物20の姿勢が現在の姿勢とは異なる新たな姿勢に変化し、人物20が所定長以上の時間その新たな姿勢を継続する場合に、基準姿勢が新たな姿勢に更新される。
<<非類似度の詳細>>
人物20の姿勢の非類似度は、例えば、その姿勢と基準姿勢との距離として算出されうる。コサイン距離や重み付き距離などのように、2つの姿勢の距離を表す方法は様々である。重み付き距離を利用する場合、人物20の各キーポイントに対して、個別の重みが与えられる。
対象の姿勢(非類似度が算出される姿勢)と基準姿勢との間の非類似度の算出には、学習ベースの方法を利用しうる。具体的には、モデル生成部2040は、対象の姿勢と基準姿勢のペアを入力し、それらの間の非類似度を出力する学習済みの回帰モデルを有する。この回帰モデルは、それぞれが、対象の姿勢と基準姿勢のペアをそのペアの非類似度(言い換えれば、そのペアが入力された回帰モデルから出力されるべき非類似度)と対応づける複数の訓練データを利用して、予め訓練される。
<因果相互作用の検出:S108>
相関検出部2060は、姿勢変化の時間が互いに相関する複数の人物20の集合を1つ以上検出する(S108)。これは、各々の姿勢に大きな変化がある人々の時刻の間の関係を、相関検出部2060が見つけることを意味する。複数の人々の姿勢が大きく変化する時刻の間に相関がある場合、それらの人々は高い確率で相互作用している。ここで、「大きな姿勢変化」は、非類似度が所定の閾値以上である姿勢変化として定義されうる。
例えば相関検出部2060は、複数の人物20の任意の集合それぞれを順に選択し、選択された集合に含まれる複数の人物20の姿勢変化の時間が所定の時間相関を持つか否かを、それらの変化モデル40を比較することで判定する。それらが所定の時間相関を持つと判定された場合、相関検出部2060は、選択された集合を検出集合として扱う。これは、選択された集合に含まれる複数の人物20の間に因果相互作用があると特定されることを意味する。それらが所定の時間相関を持たないと判定された場合、相関検出部2060は、選択された集合を検出集合として扱わない。これは、選択された集合に含まれる複数の人物20の間に因果相互作用がないと特定されることを意味する。
因果相互作用を持つと考えられる複数の人物20の姿勢変化における所定の時間相関としては、種々のものがありうる。そのような相関の一つの例は、時間軸上における大きな姿勢変化の重複である。例えば、或る人物20の姿勢が或るタイムウインドウにおいて大きく変化しているとする。さらに例えば、このタイムウインドウが他の人物20の姿勢が大きく変化しているタイムウインドウと重複しているとする。この場合、それらの人物20の姿勢変化の時間は相関していると考えられ、それら二人の人物20が因果相互作用を持つ可能性が高い。
そのため、相関検出部2060は、選択された集合における複数の人物20の姿勢が大きく変化しているタイムウインドウが、所定長以上の時間重複しているかどうかを、それらの変化モデル40を比較することによって判定する。それらのタイムウインドウが所定長の時間以上互いに重複していると判定された場合、相関検出部2060は、選択された集合を検出集合として扱う。
タイムウインドウが互いに重複する相互作用の例は、握手やハグである。これらの動作において、関係する人物20の姿勢変化のタイムウインドウは大きく重複する。なぜなら、これらの動作はそれらによってほとんど同時に行われるためである。よって、それらの姿勢はほとんど同時に変化しうる。押す、殴る、及び蹴るなどの動作については、重複しうるが、重複の度合いは小さくなりうる。なぜなら、或る人物の動作は他の人物の動作の後に現れるからである(すなわち、結果となる姿勢変化は、必ず、原因となる姿勢変化が既に始まった後に始まる)。
前述のように、タイムウインドウの重複の長さは、人物20の動作に依存しうる。そのため、タイムウインドウ間の重複を検出するための閾値は、因果相互作用検出装置2000が検出すべき因果相互作用の種類に基づいて、予め定義されうる。
複数の人物20は、それらの大きな姿勢変化のタイムウイドウが互いに重複しない場合でも、因果相互作用を持ちうる。例えば、原因の動作は、結果の動作の開始と同時又は少し前に、終了しうる。言い換えれば、原因の動作と結果の動作の間には、或る大きさのインターバルが存在しうる。そのため、「選択された集合内の人物20について、大きな姿勢変化のタイムウインドウ間のインターバルが、所定の閾値以下である」という相関が、他の所定の時間相関として利用されうる。この場合、選択された集合における人物20について、相関検出部2060は、大きな姿勢変化のあるタイムウインドを検出し、タイムウインドウ間のインターバルを算出する。算出されたインターバルが所定の閾値以下である場合、相関検出部2060は、選択された集合を検出集合として扱う。
<<相関を検出するための他の要素>>
相関検出部2060は、姿勢変化の時間相関以外の要素を利用して、人物20間の因果相互作用の検出の精度を向上しうる。そのような要素の一つは、人物20間の距離でありうる。人物20の大きな姿勢変化の間に時間相関があったとしても、それらの人物が互いに離れている場合には、因果相互作用は無いであろう。そのため、相関検出部2060は、人物20間の距離を考慮しうる。
例えば相関検出部2060は、選択された集合内の人物20の間に因果相互作用があるか否かの判定を、それらの人物20の間の距離が所定の閾値以下である場合にのみ行う。言い換えれば、相関検出部2060は、人物20間の距離が所定の閾値より大きい場合には、姿勢変化における時間相関にかかわらず、人物20の間に因果相互作用がないと判定する。
選択された集合内の人物20間の距離についての判定は、人物20の姿勢変化の時間相関についての判定の後に行われてもよい。この場合、相関検出部2060は、各検出集合について、検出集合内の人物20の間の距離が所定の閾値以下であるか否かを判定する。そして、相関検出部2060は、検出集合内の人物20の間の距離が所定の閾値以下である場合に、検出集合内の人物20が因果相互作用を持つと判定する。
検出集合内の人物20間の距離についての判定は、訓練済みのモデルを利用して行われうる。例えば、訓練済みのモデルは、人物画像のペアを用い、それらが相互作用しているかをそれらの間の距離に基づいて識別するように、訓練される。
人物20が向いている方向も、人物20間に因果相互作用があるか否かの検出精度を向上するための要素として利用されうる。具体的には、人物20間に因果相互作用がある場合、人物20が他の人物20の方を向いている可能性が高い。一方で、人物20が判定の方向を向いている場合、人物20の姿勢変化が時間相関を持っていても、人物20の間には因果相互作用がないであろう。そのため、人物20が向いている方向を考慮することにより、人物20間の因果相互作用の検出の精度を向上することができる。
例えば、相関検出部2060は、選択された集合内の人物20の姿勢変化の間に時間相関があるかどうかの判定を、人物20の対象部位が互いを向いている場合にのみ行う。対象部位は、例えば、人物20の頭、胴体、又は目である。具体的には、人物20の対象部位が互いを向いている場合、対象部位が向いている方向の差が180度に一致するか又は180度に近い。そこで例えば、相関検出部2060は、人物20の対象部位が向いている方向の差分 D を算出し、D が「180-m<=D<=180+m」を満たすか否かを判定する。m は所定のマージンである。ここで、パラメータ m は、0より大きく180より小さい実数である(例えば、m=45)。
差分 D が上記の条件を満たす場合、相関検出部2060は、人物20が互いを向いていると判定した後、それらの変化モデル40を比較することで、それらの姿勢変化に所定の時間相関があるか否かを判定する。一方、差分 D が上記の条件を満たさない場合、相関検出部2060は、人物20が互いを向いていないと判定する。そのため、それらの変化モデル40は比較されない。なお、ビデオデータ内の人の部位(頭、胴体、又は目など)が向いている方向を算出するためには、既知の技術を適用することができる。
人物20が互いを向いていなくても、人物20が相互作用しているケースがありうる。例えば、相互作用している人物20は、共通の対象へ向きうる。そのため、相関検出部2060は、「人物20が互いを向いている」という条件の代わりに、「人物20が共通の対象へ向いている」という条件を利用しうる。
選択された集合内の人物20の間の距離に関する判定と同様に、選択された集合内の人物20が向いている方向に関する判定は、人物20の姿勢変化の間に時間相関があるか否かに関する判定の後に行われてもよい。また、選択された集合内の人物20が向いている方向に関する判定は、訓練済みのモデルを利用して行われうる。例えば訓練済みモデルは、人物画像のペアを用い、それらが向いている方向に基づいてそれらが相互作用しているか否かを識別するように、訓練される。
人々の間に因果相互作用があるか否かの判定に、前述したように追加の要素を用いることは、人々の複数のグループがあり、各グループ内で人々が因果相互作用しているケースにおいて、特に有用である。距離や向きなどの特徴を考慮することは、全ての人々が互いに相互作用していて、一つのグループに所属しているというと誤検出をする代わりに、これらの人々を複数のグループに区別することに役立つ。
<検出結果に基づく出力>
因果相互作用検出装置2000は、人物20の検出集合に基づいて出力情報を生成し、出力情報を出力しうる。出力されるべき情報には様々な種類がありうる。例えば出力情報は、因果相互作用を持つと判定された人物20の1つ以上の集合を示す。出力情報において、人物20は、ビデオデータ30内の対応するフレームにおける、その人物の外接矩形で表されうる。その他にも例えば、人物20は、対応するフレームの部分画像(例えば、フレーム内のその人物の外接矩形の画像領域)で表されうる。その他にも例えば、出力情報は、出力情報によって表されるべき人物20の人物外接矩形を示すように編集されたビデオデータ30の各フレームを含むことにより、各人物20を表してもよい。
出力情報は、年齢、性別、服装、又は人物20の所持品などの追加の特徴を用いて、検出集合内の人物20が属するソーシャルグループの種類をさらに含んでもよい。そのために、検出集合内の人物20の画像及びシーン情報を入力として取得し、それらの人物20を複数のソーシャルグループの1つに分類するために有用な特徴をそれから抽出する訓練済みモデルが、利用されうる。
前述した出力情報は、種々の態様で出力されうる。例えば因果相互作用検出装置2000は、ディスプレイ装置に出力情報を出力することで、ディスプレイ装置に出力情報を表示する。ディスプレイ装置は、例えば、警備室にいる警備員によって観察される。その他にも例えば、因果相互作用検出装置2000は、現場や警備室にいる警備員又は因果相互作用検出装置2000の操作者によって利用される携帯端末などの他のコンピュータへ、出力情報を送信してもよい。その他にも例えば、因果相互作用検出装置2000は、後の利用のために、出力情報を記憶装置に格納してもよい。
<例>
以下、因果相互作用検出装置2000の動作例が記載される。ここで、以下に記載される因果相互作用検出装置2000の動作は、因果相互作用検出装置2000の種々の可能な動作の一例であり、因果相互作用検出装置2000の動作は以下の例に限定されない。
図6は、二人の人物20が互いに相互作用しているケースを示す。ここで考えられる相互作用は「押す」であり、人物20-5が人物20-6を押している。なお、以下の説明は、任意の相互作用についても同様である。
図6は、因果相互作用検出装置2000に入力されるビデオデータ30のいくつかのフレームを示す、相互作用が存在する。ここで、図6のビデオデータ30は、図示を容易にするため、人物20-5及び20-6の周囲でクロップ及びセンタリングされている。最初は、人物20-5と20-6が立って静止している。その後、人物20-5が人物20-6へ近づき、人物20-6を押す。この押す動作が、人物20-6を後ろに動かす。
図6において、人物20-5と20-6は、それらの骨格姿勢座標で表されている。ここで、15個の骨格キーポイントが考慮されている。すなわち、頭、鼻、首、右肩、右肘、右手首、左肩、左肘、左手首、右臀部、左臀部、右膝、左膝、右足首、及び左足首である。各キーポイントは、画像フレームにおけるそのキーポイントのピクセル位置を表す座標 (x,y) と対応づけられている。ここで、図6に示されている人物の2次元の骨格キーポイントに代えて、人物の3次元の骨格キーポイントを用いることもできる。
人物は画像の任意の位置に存在することができ、カメラからその人物までの距離に基づいて、フレーム間でスケールが異なりうる。そのため、異なる姿勢を正しく比較するために、固定のサイズに変換及びスケーリングすることで、骨格姿勢をノーマライズすることが好適である。
次に、各人物の姿勢がどのように時間変化しているかを把握するため、最初に、各人物20について基準姿勢 Pref が選択される。この例において、1番目のフレームにおける人物20の姿勢(直立)が、その人物20についての基準姿勢 Pref として選択される。さらに、この例において、或るフレームにおける人物20の姿勢と基準姿勢との非類似度(すなわち、姿勢変化の度合い)が、フレームごとに、そのフレームにおける人物20の姿勢ベクトルと基準姿勢の姿勢ベクトルとのコサイン距離で算出される。ここで、或る姿勢における或る人物の姿勢ベクトルは、そのフレームにおけるその人物の骨格キーポイントの座標を含む行列である。前述したコサイン距離は、以下の数式を用いて算出されうる。
Figure 0007491462000001
ここで、上記数式(1)において、p_k は k 番目のフレームにおける人物20の姿勢ベクトルを表し、p_ref は基準姿勢 Pref の姿勢ベクトルを表し、D(p_k, p_ref)は、それらの間のコサイン距離を表す。
数式(1)は、各人物20について、非類似度の集合をフレーム番号の関数として提供する。すなわち、D(p_1, p_ref)、D(p_2, p_ref)、...、及び D(p_N, p_ref) である。N は、ビデオデータ30に含まれるフレームの総数である。この非類似度の集合は、各フレームにおける姿勢が基準姿勢と比較してどの程度異なるかを表す。そのため、この非類似度の集合は、変化モデル40として利用しうる。
図7A及び7Bは、人物20-5と20-6の変化モデル40をそれぞれ表す。図7Aから、人物20-5の姿勢は、最初の方及び最後の方のフレームにおいては、基準姿勢と比較してあまり変化しないが、人物20-5が20-6を押すことにより、フレーム番号50からフレーム番号80までの間においては、大きく変化することが分かる。同様に、図7Bから、人物20-6の姿勢は、人物20-6が人物20-5に押されるため、フレーム番号70から90にかけて急激に大きく変化することが分かる。
次に、双方の人物20について大きな姿勢変化がある時刻を考慮することにより、図AとBにおける変化モデル40の間の時間相関が算出される。非類似度の閾値を 0.5 に設定することで、非類似度が 0.5 より大きい全てのフレームが、大きな姿勢変化を持つフレームに分類される。そのため、人物20-5については、大きな姿勢変化がフレーム番号50から80の間で起こる一方、人物20-6については、大きな姿勢変化がフレーム番号70から90の間で起こる。そこで、フレーム番号70から80の間で、人物20-5と20-6の双方について大きな姿勢変化が起こる(すなわち、変化モデル40-5における大きな姿勢変化のタイムウインドウが、変化モデル40-6における大きな姿勢変化のタイムウインドウと重複する)。そのため、フレーム70と80の間について、人物20-5と20-6の間の因果相互作用が検出される。
本開示は上述のように実施形態を参照して説明されたが、本開示は前述した実施形態に限定されない。当業者によれば、本開示における構成や詳細に対し、発明の範囲内において様々な変更を行うことが理解できる。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに提供することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM、CD-R、CD-R/W、半導体メモリ(例えば、マスク ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
<付記>
(付記1)
少なくとも一つのプロセッサと、
命令が格納される記憶要素を有し、
前記少なくとも一つのプロセッサは、前記命令を実行することによって、
ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、
前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、
複数の前記人物の1つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出するように構成される、因果相互作用検出装置。
(付記2)
前記少なくとも一つのプロセッサは、
第1タイムウインドウが第2タイムウインドウと重複するか否かを判定し、前記第1タイムウインドウは第1人物の姿勢変化の度合いが閾値以上である期間であり、前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記閾値以上である期間であり、
前記第1タイムウインドウが前記第2タイムウインドウと重複する場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定するように、さらに構成される、付記1に記載の因果相互作用検出装置。
(付記3)
前記少なくとも一つのプロセッサは、
第1タイムウインドウと第2タイムウインドウとの間のインターバルが第1閾値以下であるか否かを判定し、前記第1タイムウインドウは第1人物の姿勢変化の度合いが第2閾値以上である期間であり、前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記第2閾値以上である期間であり、
前記インターバルが前記第1閾値以下である場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定するように、さらに構成される、付記1に記載の因果相互作用検出装置。
(付記4)
前記少なくとも一つのプロセッサは、
第1人物と第2人物との間の距離が閾値以下であるか否かを判定し、
前記距離が前記閾値より大きいと判定される場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定するように、さらに構成される、付記1に記載の因果相互作用検出装置。
(付記5)
前記少なくとも一つのプロセッサは、
第1人物が第2人物へ向いているか否かを判定し、
前記第1人物が前記第2人物へ向いていない場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定するように、さらに構成される、付記1に記載の因果相互作用検出装置。
(付記6)
前記姿勢情報は、前記ビデオデータの或るフレームにおける前記人物の前記姿勢を、そのフレームから検出されるその人物の複数のキーポイントの座標で表す、付記1から5いずれか一項に記載の因果相互作用検出装置。
(付記7)
前記人物の前記変化モデルは、前記ビデオデータの或るフレームにおけるその人物の姿勢変化を、そのフレームにおけるその人物の前記姿勢と基準姿勢との非類似度によって表す、付記1から6いずれか一項に記載の因果相互作用検出装置。
(付記8)
前記ビデオデータの或るフレームにおける前記人物についての前記非類似度は、そのフレームにおけるその人物の前記姿勢と前記基準姿勢との距離で算出される、付記7に記載の因果相互作用検出装置。
(付記9)
ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、
前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、
複数の前記人物の1つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する、ことを含む、コンピュータによって実行される制御方法。
(付記10)
第1タイムウインドウが第2タイムウインドウと重複するか否かを判定し、前記第1タイムウインドウは第1人物の姿勢変化の度合いが閾値以上である期間であり、前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記閾値以上である期間であり、
前記第1タイムウインドウが前記第2タイムウインドウと重複する場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定する、ことがさらに含まれる、付記9に記載の制御方法。
(付記11)
第1タイムウインドウと第2タイムウインドウとの間のインターバルが第1閾値以下であるか否かを判定し、前記第1タイムウインドウは第1人物の姿勢変化の度合いが第2閾値以上である期間であり、前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記第2閾値以上である期間であり、
前記インターバルが前記第1閾値以下である場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定する、ことがさらに含まれる、付記9に記載の制御方法。
(付記12)
第1人物と第2人物との間の距離が閾値以下であるか否かを判定し、
前記距離が前記閾値より大きいと判定される場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定する、ことがさらに含まれる、付記9に記載の制御方法。
(付記13)
第1人物が第2人物へ向いているか否かを判定し、
前記第1人物が前記第2人物へ向いていない場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定する、ことがさらに含まれる、付記9に記載の制御方法。
(付記14)
前記姿勢情報は、前記ビデオデータの或るフレームにおける前記人物の前記姿勢を、そのフレームから検出されるその人物の複数のキーポイントの座標で表す、付記9から13いずれか一項に記載の制御方法。
(付記15)
前記人物の前記変化モデルは、前記ビデオデータの或るフレームにおけるその人物の姿勢変化を、そのフレームにおけるその人物の前記姿勢と基準姿勢との非類似度によって表す、付記9から14いずれか一項に記載の制御方法。
(付記16)
前記ビデオデータの或るフレームにおける前記人物についての前記非類似度は、そのフレームにおけるその人物の前記姿勢と前記基準姿勢との距離で算出される、付記15に記載の制御方法。
(付記17)
ビデオデータから検出される各人物について姿勢情報を抽出し、前記姿勢情報は前記人物の姿勢を時系列で示し、
前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成し、
複数の前記人物の1つ以上の集合それぞれについて、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定し、
姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する、ことをコンピュータに実行させるプログラムが格納されている非一時的なコンピュータ可読媒体。
(付記18)
前記プログラムは、
第1タイムウインドウが第2タイムウインドウと重複するか否かを判定し、前記第1タイムウインドウは第1人物の姿勢変化の度合いが閾値以上である期間であり、前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記閾値以上である期間であり、
前記第1タイムウインドウが前記第2タイムウインドウと重複する場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定する、ことを前記コンピュータにさらに実行させる、付記17に記載の非一時的なコンピュータ可読媒体。
(付記19)
前記プログラムは、
第1タイムウインドウと第2タイムウインドウとの間のインターバルが第1閾値以下であるか否かを判定し、前記第1タイムウインドウは第1人物の姿勢変化の度合いが第2閾値以上である期間であり、前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記第2閾値以上である期間であり、
前記インターバルが前記第1閾値以下である場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定する、ことを前記コンピュータにさらに実行させる、付記17に記載の非一時的なコンピュータ可読媒体。
(付記20)
前記プログラムは、
第1人物と第2人物との間の距離が閾値以下であるか否かを判定し、
前記距離が前記閾値より大きいと判定される場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定する、ことを前記コンピュータにさらに実行させる、付記17に記載の非一時的なコンピュータ可読媒体。
(付記21)
前記プログラムは、
第1人物が第2人物へ向いているか否かを判定し、
前記第1人物が前記第2人物へ向いていない場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定する、ことを前記コンピュータにさらに実行させる、付記17に記載の非一時的なコンピュータ可読媒体。
(付記22)
前記姿勢情報は、前記ビデオデータの或るフレームにおける前記人物の前記姿勢を、そのフレームから検出されるその人物の複数のキーポイントの座標で表す、付記17から21いずれか一項に記載の非一時的なコンピュータ可読媒体。
(付記23)
前記人物の前記変化モデルは、前記ビデオデータの或るフレームにおけるその人物の姿勢変化を、そのフレームにおけるその人物の前記姿勢と基準姿勢との非類似度によって表す、付記17から22いずれか一項に記載の非一時的なコンピュータ可読媒体。
(付記24)
前記ビデオデータの或るフレームにおける前記人物についての前記非類似度は、そのフレームにおけるその人物の前記姿勢と前記基準姿勢との距離で算出される、付記23に記載の非一時的なコンピュータ可読媒体。
20 人物
30 ビデオデータ
40 変化モデル
1000 コンピュータ
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 因果相互作用検出装置
2020 姿勢抽出部
2040 モデル生成部
2060 相関検出部

Claims (10)

  1. ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出する処理と
    複数の前記人物の1つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定する処理と
    姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する処理と、を行い、
    前記判定の処理は、
    第1タイムウインドウと第2タイムウインドウとの間のインターバルが第1閾値以下であるか否かを判定することを含み、
    前記第1タイムウインドウは第1人物の姿勢変化の度合いが第2閾値以上である期間であり、
    前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記第2閾値以上である期間であり、
    前記インターバルが前記第1閾値以下である場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定することを含む、因果相互作用検出装置。
  2. ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出する処理と、
    複数の前記人物の1つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定する処理と、
    姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する処理と、を行い、
    前記判定の処理は、
    第1人物が第2人物へ向いているか否かを判定することと、
    前記第1人物が前記第2人物へ向いていない場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定することとを含む、因果相互作用検出装置。
  3. 前記判定の処理は、
    人物と第人物との間の距離が所定の閾値以下であるか否かを判定することと
    前記距離が前記所定の閾値より大きいと判定される場合に、前記第人物は前記第人物と因果相互作用を持たないと判定することとを含む、請求項1又は2に記載の因果相互作用検出装置。
  4. 前記姿勢情報は、前記ビデオデータの或るフレームにおける前記人物の前記姿勢を、そのフレームから検出されるその人物の複数のキーポイントの座標で表す、請求項1からいずれか一項に記載の因果相互作用検出装置。
  5. 前記姿勢情報に基づいて、各前記人物について、姿勢の時間変化を表す変化モデルを生成する処理を行い
    前記人物の前記変化モデルは、前記ビデオデータの或るフレームにおけるその人物の姿勢変化を、そのフレームにおけるその人物の前記姿勢と基準姿勢との非類似度によって表す、請求項1からいずれか一項に記載の因果相互作用検出装置。
  6. 前記ビデオデータの或るフレームにおける前記人物についての前記非類似度は、そのフレームにおけるその人物の前記姿勢と前記基準姿勢との距離で算出される、請求項に記載の因果相互作用検出装置。
  7. ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出するステップと
    複数の前記人物の1つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定するステップと
    姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出するステップと、含み
    前記判定のステップは、
    第1タイムウインドウと第2タイムウインドウとの間のインターバルが第1閾値以下であるか否かを判定することを含み、
    前記第1タイムウインドウは第1人物の姿勢変化の度合いが第2閾値以上である期間であり、
    前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記第2閾値以上である期間であり、
    前記インターバルが前記第1閾値以下である場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定することを含む、コンピュータによって実行される制御方法。
  8. ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出するステップと、
    複数の前記人物の1つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定するステップと、
    姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出するステップと、含み、
    前記判定のステップは、
    第1人物が第2人物へ向いているか否かを判定することと、
    前記第1人物が前記第2人物へ向いていない場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定することとを含む、コンピュータによって実行される制御方法。
  9. ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出する処理と
    複数の前記人物の1つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定する処理と
    姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する処理と、をコンピュータに実行させ
    前記判定の処理は、
    第1タイムウインドウと第2タイムウインドウとの間のインターバルが第1閾値以下であるか否かを判定することを含み、
    前記第1タイムウインドウは第1人物の姿勢変化の度合いが第2閾値以上である期間であり、
    前記第2タイムウインドウは第2人物の姿勢変化の度合いが前記第2閾値以上である期間であり、
    前記インターバルが前記第1閾値以下である場合に、前記第1人物の姿勢変化の時間が前記第2人物の姿勢変化の時間と相関を持つと判定することを含む、プログラム。
  10. ビデオデータから検出される各人物について姿勢を時系列で示す姿勢情報を抽出する処理と、
    複数の前記人物の1つ以上の集合それぞれについて、前記姿勢情報に基づき、その集合内の前記人物の姿勢変化の時間が互いに相関するか否かを判定する処理と、
    姿勢変化の時間が互いに相関すると判定された前記人物を、互いに因果相互作用を持つ前記人物として検出する処理と、をコンピュータに実行させ、
    前記判定の処理は、
    第1人物が第2人物へ向いているか否かを判定することと、
    前記第1人物が前記第2人物へ向いていない場合に、前記第1人物は前記第2人物と因果相互作用を持たないと判定することとを含む、プログラム。
JP2023507356A 2020-08-19 2020-08-19 因果相互作用検出装置、制御方法、及びプログラム Active JP7491462B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031233 WO2022038702A1 (en) 2020-08-19 2020-08-19 Causal interaction detection apparatus, control method, and computer-readable storage medium

Publications (2)

Publication Number Publication Date
JP2023536875A JP2023536875A (ja) 2023-08-30
JP7491462B2 true JP7491462B2 (ja) 2024-05-28

Family

ID=80323532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023507356A Active JP7491462B2 (ja) 2020-08-19 2020-08-19 因果相互作用検出装置、制御方法、及びプログラム

Country Status (3)

Country Link
US (1) US20230316562A1 (ja)
JP (1) JP7491462B2 (ja)
WO (1) WO2022038702A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272533A (ja) 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International インタラクション情報出力装置、インタラクション情報出力方法、及びプログラム
JP2009519510A (ja) 2005-11-28 2009-05-14 ハネウェル・インターナショナル・インコーポレーテッド 異常な群集の行動の検出
WO2011080923A1 (ja) 2009-12-28 2011-07-07 パナソニック株式会社 関節状領域検出装置およびその方法
JP2019133530A (ja) 2018-02-01 2019-08-08 富士ゼロックス株式会社 情報処理装置
JP6887586B1 (ja) 2020-07-03 2021-06-16 三菱電機株式会社 行動特定装置、行動特定方法及び行動特定プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009519510A (ja) 2005-11-28 2009-05-14 ハネウェル・インターナショナル・インコーポレーテッド 異常な群集の行動の検出
JP2007272533A (ja) 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International インタラクション情報出力装置、インタラクション情報出力方法、及びプログラム
WO2011080923A1 (ja) 2009-12-28 2011-07-07 パナソニック株式会社 関節状領域検出装置およびその方法
JP2019133530A (ja) 2018-02-01 2019-08-08 富士ゼロックス株式会社 情報処理装置
JP6887586B1 (ja) 2020-07-03 2021-06-16 三菱電機株式会社 行動特定装置、行動特定方法及び行動特定プログラム

Also Published As

Publication number Publication date
WO2022038702A1 (en) 2022-02-24
US20230316562A1 (en) 2023-10-05
JP2023536875A (ja) 2023-08-30

Similar Documents

Publication Publication Date Title
Le et al. Human posture recognition using human skeleton provided by Kinect
JP6013241B2 (ja) 人物認識装置、及び方法
US9098740B2 (en) Apparatus, method, and medium detecting object pose
WO2021052469A1 (en) Lighttrack: system and method for online top-down human pose tracking
JP2018538631A (ja) シーン内のオブジェクトのアクションを検出する方法及びシステム
JPWO2018025831A1 (ja) 人流推定装置、人流推定方法およびプログラム
US11527000B2 (en) System and method for re-identifying target object based on location information of CCTV and movement information of object
JP6570786B2 (ja) 動作学習装置、技能判別装置および技能判別システム
US11157749B2 (en) Crowd state recognition device, learning method, and learning program
JP2007265367A (ja) 視線検出方法および装置ならびにプログラム
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
KR102138809B1 (ko) 미세한 표정변화 검출을 위한 2차원 랜드마크 기반 특징점 합성 및 표정 세기 검출 방법
Yao et al. A fall detection method based on a joint motion map using double convolutional neural networks
JP7180590B2 (ja) オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及びオブジェクト特徴量抽出プログラム
JP2022009474A5 (ja)
Lv et al. 3D human action recognition using spatio-temporal motion templates
JP7327645B2 (ja) 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム
JP7491462B2 (ja) 因果相互作用検出装置、制御方法、及びプログラム
Yanakova et al. Facial recognition technology on ELcore semantic processors for smart cameras
Kokila et al. Face recognition based person specific identification for video surveillance applications
Arunnehru et al. Difference intensity distance group pattern for recognizing actions in video using support vector machines
US20230298336A1 (en) Video-based surgical skill assessment using tool tracking
JP2018195872A (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
Ke et al. Empowering Intelligent Home Safety: Indoor Family Fall Detection with YOLOv5
Suma et al. Activity recognition in egocentric videos using bag of key action units

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240429