JP2018139100A

JP2018139100A - 集団レベル認知状態を評価するための技術

Info

Publication number: JP2018139100A
Application number: JP2017224121A
Authority: JP
Inventors: ピーター・ヘンリー・トゥ; Peter Henry Tu; タオ・ガオ; Tao Gao; ジリン・トゥ; Jilin Tu
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2016-12-06
Filing date: 2017-11-22
Publication date: 2018-09-06
Also published as: US10216983B2; CN108154236A; CA2986406A1; US20180157902A1; EP3333764A1

Abstract

【課題】環境（１６）において１つまたは複数のカメラから１人または複数の個人（１４）に関連したデータを受信する警備監視技術を提供する。【解決手段】カメラ（１２）からの入力データに基づいて、それぞれの個人（１４）の行動のモデルを生成するように各々動作するエージェントベースのシミュレータを実行し、各モデルの出力が、シミュレーション中のそれぞれの個人の内的経験を表すシンボル列である。シンボル列に基づいて、シンボル列が問合せ行動に対する問合せシンボル列と一致するときそれぞれの個人の各々に対する以降の行動を予測する。【選択図】図１

Description

本明細書に開示する主題は、集団レベル認知状態を理解するためのエージェントベースの推論に関する。

個人または群衆レベル行動を理解することは重要な研究分野であり、かつ行動検出に通じる場合がある。人の行動を検出することは、空港、鉄道駅、スポーツアリーナ、映画館等といった、典型的に群衆が集まる様々な場所で犯罪減少および／または警備強化を可能にする場合がある。人が行動を実行する前にその行動を検出する改善された技術が望ましいと現在一般に認識されている。

米国特許出願公開第２０１６／０１２４９０８号公報

当初特許請求する主題に範囲が相応する一定の実施形態の概要を以下に述べる。これらの実施形態を、特許請求する主題の範囲を限定するものと意図するのではなく、むしろこれらの実施形態を、単に本開示の考え得る形態の簡単な概要を提供するものと意図する。実際、開示する技術は、以下に述べる実施形態と同様でも、または異なってもよい各種の形態を包含することができる。

一実施形態において、環境において１つまたは複数のカメラから１人または複数の個人に関連したデータを受信するステップと、それぞれの個人の行動のモデルを生成するように各々が動作する１つまたは複数のエージェントベースのシミュレータを実行するステップであって、各モデルの出力がシミュレーション中のそれぞれの個人の内的経験を表すシンボル列であるステップと、シンボル列が問合せ行動に対する問合せシンボル列と一致するとそれぞれの個人の各々に対する以降の行動を予測するステップとを含む方法が提供される。

別の実施形態において、有形の非一時的コンピュータ可読媒体が提供される。有形の非一時的コンピュータ可読媒体は、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、環境において１つまたは複数のカメラから１人または複数の個人に関連したデータを受信し、それぞれの個人の行動を各々モデル化し、かつシミュレーション中のそれぞれの個人の内的経験を表すシンボル列を各々出力する１つまたは複数のエージェントベースのシミュレータを実行し、そしてシンボル列が問合せ行動に対する問合せシンボル列と一致するときそれぞれの個人の各々に対する以降の行動を予測させるコンピュータ命令を記憶している。

別の実施形態において、システムが提供される。システムは、環境において１人または複数の個人の行動に関連したデータを取り込む１つまたは複数のカメラと、環境において１つまたは複数のカメラから１人または複数の個人の行動に関連したデータを受信し、それぞれの個人の行動を各々モデル化し、かつシミュレーション中のそれぞれの個人の内的経験を表すシンボル列を各々出力する１つまたは複数のエージェントベースのシミュレータを実行し、そしてシンボル列が問合せ行動に対する問合せシンボル列と一致するときそれぞれの個人の各々に対する以降の行動を予測する１つまたは複数のプロセッサを備える１つまたは複数のコンピューティング装置と、１つまたは複数のコンピューティング装置に結合され、かつ以降の行動を表す指示を表示するように構成されるディスプレイとを含む。

同様の文字が図面全体を通じて同様の部分を表す添付の図面を参照しつつ以下の詳細な説明を読むことで、本開示のこれらおよび他の特徴、態様および利点をよりよく理解するようになるであろう。

実施形態に従う、社会行動認識システムの例示である。実施形態に従う、ビデオ分析ストリームを生成するのに適する工程のフロー図である。実施形態に従う、内的経験および物理状態をもつエージェントとして表される個人のブロック図である。実施形態に従う、多数のエージェント間の関係のブロック図である。実施形態に従う、エージェントベースの推論を介して行動を検出するのに適する工程のフロー図である。実施形態に従う、エージェントベースのシミュレータに含まれる性格感情および表現を含むチャートである。実施形態に従う、シミュレートしたエージェントおよびそれらの相互作用の図である。実施形態に従う、観察行動から推定されるシミュレートしたエージェントを使用する粒子フィルタリングの例である。実施形態に従う、リカレントニューラルネットワークを使用する粒子フィルタリングでシミュレートしたエージェントを実行した結果として選択される最も起こりそうな粒子の図である。

１つまたは複数の具体的な実施形態を以下に記載することにする。これらの実施形態の簡潔な記載を提供しようと努め、実際の実装のすべての特徴を本明細書に記載するわけではない。任意のそのような実際の実装の開発では、任意の工学または設計プロジェクトでのように、実装ごとに異なることがある、システム関連および業務関連の制約への準拠などの、開発者の具体的な目標を達成するために、多数の実装特有の決定をなさなければならないことを認識するべきである。その上、そのような開発努力は複雑かつ時間が掛かるかもしれないが、にもかかわらず本開示の便益を受ける当業者にとっては、設計、製作および製造の日常業務であろうことを認識するべきである。

本開示の様々な実施形態の要素を導入するとき、冠詞「ａ（ある１つの）」、「ａｎ（ある１つの）」および「ｔｈｅ（その）」を、要素の１つまたは複数があることを意味するものと意図する。用語「ｃｏｍｐｒｉｓｉｎｇ（備える）」、「ｉｎｃｌｕｄｉｎｇ（含む）」および「ｈａｖｉｎｇ（有する）」を、包括的であり、かつ列記した要素以外の追加の要素があってもよいことを意味するものと意図する。

本開示の実施形態は、概して行動認識のためのエージェントベースの推論フレームワークに関する。いくつかの実施形態において、集団レベル相互作用の進展を記す物語を統合するために、社会行動認識システムを使用してもよい。集団レベル相互作用における各個人の考え得る認知状態および遷移をモデル化してもよい。行動認識は分類の一形態として達成してもよい。さらに、観測および社会行動認識システムによって集められる物語に基づいてこれらの潜在変数を推定するために、機械学習法（たとえば、リカレントニューラルネットワーク）を使用してもよい。そのように、認識は、そのような観測に帰着したであろう認知状態の推定値に帰着することができる。

特に、いくつかの実施形態において、社会行動認識システムは、とりわけ個人の場所、注視方向、顔表情、身体ポーズ、身振り、および／または眼球運動などの多数の社会的手がかりを取り込むために、コンピュータビジョン法を使用してもよい。追加的に、内的認知状態の他に可観測物理状態をモデル化するフォワードエージェントベースのシミュレータを生成してもよい。エージェントベースのシミュレータは、取り込んだ手がかりに基づいて複数の当事者間の様々な相互作用を統合してもよい。さらに、いくつかの実施形態において、機械学習技術を伴う粒子フィルタが何千ものエージェントベースのシミュレータを実行してもよい。一団の人々の観測行為と類似した粒子フィルタを伝播してもよい。機械学習技術は、観測列を認識するために、シミュレートしたデータに基づいてリカレントニューラルネットワークを訓練することを含んでもよい。このようにして、社会行動認識システムは、観測された個人の内的状態を推論し、そして内的状態に基づいて将来の起こりそうな行動を予測してもよい。

前述のこと念頭に、図１は、実施形態に従う、社会行動認識システム１０の例示である。社会認識システム１０は、とりわけ個人の場所、顔表情、注視方向、身体姿勢、身体動作、および／または身振りなどの多種多様な視覚的手がかりを考慮してもよい。視覚的手がかりに基づいて、社会認識システム１０は、完全に自動的に複雑な集団レベル社会的状態を推定することができる。いくつかの実施形態において、社会行動認識システム１０は、潜在変数推論問題として社会的相互作用分析を評価してもよい。さらに、いくつかの実施形態において、社会行動認識システム１０は、無制約環境１６において自由に活動する複数の人々１４についてのデータを取り込むカメラ１２を含んでもよい。社会認識システム１０をビデオ分析ストリーム源として使用してもよい。より十分に下記するように、社会行動認識システム１０を、リアルタイムの、スタンドオフ（たとえば、個人と別の）エンドツーエンド社会的相互作用分析システムとしてインスタンス化してもよい。

示したように、社会行動認識システム１０は、静止画像、ビデオまたは両方とも取り込むことを可能にした１つまたは複数のカメラ１２を含む。カメラ１２は、壁、天井、床上等といった、無制約環境１６の任意の適切な場所に設置してもよい。無制約環境１６は、１人または複数の人々１４を含んでもよい。たとえば、環境１６に１人の個人１４が単独で存在してもよく、または一群の人々１４が環境１６に存在してもよい。カメラ１２は、人々１４に関連したデータを取り込むようにプログラムまたは制御してもよい。いくつかの実施形態において、カメラ１２は、クラウドベースのコンピューティングシステム１８および／またはコンピューティング装置２０に通信可能に結合してもよい。そのため、カメラ１２は、クラウドベースのコンピューティングシステム１８および／またはコンピューティング装置２０に得られたデータを送信してもよい。送信の頻度は、定期的（たとえば、１分、５分、３０分、６０分、１日、１週毎など）でも、またはストリーミング（たとえば、リアルタイムもしくは準リアルタイムで連続的）でもよい。いくつかの実施形態において、コンピューティング装置２０は、スマートフォン、スマートウォッチ、タブレット、ラップトップコンピュータ、デスクトップコンピュータ等でもよい。

カメラ１２を介して得られたデータは、クラウドベースのコンピューティングシステム１８の１つまたは複数のサーバ２２によって受信し、そしてサーバ２２の１つもしくは複数のメモリ２４に、またはサーバ２２の外部である、クラウドベースのコンピューティングシステム１８に含まれる１つもしくは複数のデータベース２６に記憶してもよい。サーバ２２は、互いに通信可能に結合してもよく、そしてより効率的にタスクを行うために、互い間で様々なタスクを分散してもよい。サーバ２２は、１つまたは複数のプロセッサ２８および通信部品３０も含んでもよい。通信部品３０は、クラウドベースのコンピューティングシステム１８、カメラ１２および／またはコンピューティング装置２０間の通信を容易にすることができる無線または有線通信部品でもよい。

プロセッサ２８は、コンピュータ実行可能コードを実行することが可能な任意の種類のコンピュータプロセッサまたはマイクロプロセッサでもよい。プロセッサ２８は、また下記する動作を行うことができる複数のプロセッサを含んでもよい。メモリ２４は、プロセッサ実行可能コード、データ、データの分析等を記憶する非一時的媒体となることができる任意の適切な製品でもよい。これらの製品は、本開示の技術を行うためにプロセッサ２８によって使用されるプロセッサ実行可能コードを記憶することができるコンピュータ可読媒体（たとえば、任意の適切な形態のメモリまたはストレージ）を表してもよい。一般に、プロセッサ２８は、詳細に下記するように、カメラ１２を介して得られたデータに基づいて行動を認識してもよい。クラウドベースのコンピューティングシステム１８におけるサーバ２２の分散性質により、サーバ２２の共有資源は、並列処理がリアルタイムフィードバックを可能にすることを可能にする。たとえば、各サーバ２２は、実質的に同時にデータの異なる部分を処理することを担ってもよく、そしてその結果は、結果を組み合わせて、コンピューティング装置２０に結果を出力する単一のサーバ２２によって収集してもよい。このようにして、どのサーバ２２にも計算コストが高いタスクが殺到することなく、そして処理時間が削減されることができる。

データベース２６は、カメラ１２によって取り込まれた画像および／またはビデオデータを記憶してもよい。また、データベース２６は、リカレントニューラルネットワークおよび行動を認識するのに十分に正確であると判定される粒子フィルタを含む認知モデルなどの、他の情報を記憶してもよい。さらに、データベース２６および／またはメモリ２４は、カメラ１２によって得られた履歴ビデオおよび／または画像データを記憶してもよい。

コンピューティング装置２０は、１人または複数の人々１４の一定の行動が検出されるかどうかの他に、人々１４に関連した任意の関連情報および／またはとられることになる行為（たとえば、緊急サービスを呼ぶ、警報器を鳴らす、警告をトリガする、メッセージを送る、警告を表示する、など）を表示するグラフィカルユーザインタフェース（ＧＵＩ）を提供するアプリケーションを記憶してもよい。すなわち、いくつかの実施形態において、アプリケーションは、行動を認識するための方法などの何の処理も行わなくてもよい。その代わりに、いくつかの実施形態において、アプリケーションは、クラウドベースのコンピューティングシステム１８によって行われる行動認識技術のデータおよび結果のフロントエンドディスプレイとして機能するだけでもよい。たとえば、クライアントサーバアーキテクチャにおいて、ウェブサイトをコンピューティング装置２０上のブラウザを介してアクセスしてもよく、そしてウェブサイトは、それが何のモデリングも実際には行うことなく、クラウドベースのコンピューティングシステム１８によって提供される情報を表示するだけであるという点でシンクライアントとして機能してもよい。しかしながら、いくつかの実施形態において、コンピューティング装置２０に記憶されるアプリケーションは、カメラ１２からデータを受信し、そして本明細書に開示する行動認識技術を行ってもよい。

上記した部品はクラウドベースのコンピューティングシステム１８のサーバ２２に関して論じたが、同様の部品がコンピューティング装置２０を構成してもよいことに留意するべきである。さらに、列記した部品が部品例として提供され、そして本明細書に記載した実施形態が図１を参照しつつ記載した部品に限定されるものではないことに留意するべきである。

カメラ１２は、固定した赤、緑、青および深度（ＲＧＢ＋Ｄ）カメラを含んでもよく、それらは場所および関節身体動作の推定値を発生する。また、カメラ１２は、高解像度顔画像を取り込むために、そのような追跡結果に基づいてタスクを与えることができるパンチルトズーム（ＰＴＺ）カメラを含んでもよい。顔器官当てはめおよび追跡を、顔表情および注視方向を抽出するように行う。社会行動認識システム１０は、人特有の手がかりのストリームを、観測された個人の形状および数から独立している現場レベル総合統計の集合に変換してもよい。そのような尺度は、情動（観測顔表情から導出される）、近接性（追跡位置から導出される）、活動動作（動作から導出される）、および従事（位置および注視方向から導出される）を含んでもよい。社会行動認識システム１０は、統計の時系列表現に帰着するこれらの統計を連続的に生成してもよい。これらの尺度を処理するために、グラフィックモデルの組をクラウドベースのコンピューティングシステム１８および／またはコンピューティング装置２０によって使用してもよく、それによって疎通性および敵対などの様々な集団レベル社会的状態の連続推定値に帰着する。

社会行動認識システム１０がそのシステムアーキテクチャのためのモジュール設計を含んでもよいことに留意するべきである。いくつかの実施形態において、社会行動認識システム１０の部品が、カメラ１２からの生のビデオフィードおよび他のモジュールによって生成されるメタデータなどの入力を消費してもよい。次いで、各モジュールは、メッセージパッシング出版および購読アーキテクチャに挿入されるメタデータを生成してもよい。複数のコンピューティングプラットフォームを使用して、リアルタイム社会行動認識システム１０は、マルチカメラ追跡、ＰＴＺ制御、顔分析、データ連結、および社会的状態推論を含んでもよい。この種類のモジュール設計は、社会行動認識システム１０への複数のサードパーティ能力の組込みを可能にすることができる。

クラウドベースのコンピューティングシステム１８および／またはコンピューティング装置２０の１つまたは複数のプロセッサは、コンピュータ命令として実装される様々なモジュールを実行してもよい。モジュールは、追跡モジュール、関節動作分析モジュール、ＰＴＺカメラ制御モジュール、顔分析モジュール、および／または推論モジュールを含んでもよい。

追跡モジュールから始めて、検出および追跡パラダイムを使用して、特有の関心領域（たとえば、環境１６）に位置する各対象（たとえば、人々１４）の場所および軌道を推定してもよい。複数のＲＧＢ＋Ｄカメラ１２をワールド座標系に関して初めに較正してもよい。各カメラ１２からの画像を使用して、人検出および関連する外観シグネチャの集合を独立して生成してもよい。これらの検出は、現存の追跡器に一致されてもよい。現存の追跡器と関連付けられない検出を使用して、新たな追跡器を初期化してもよい。新たな検出と関連付けることが持続的にできない追跡器を終了してもよい。

加えて、クラウドベースのコンピューティングシステム１８および／またはコンピューティング装置２０は、関節動作分析モジュールを実行してもよい。追跡に加えて、ＲＧＢ＋Ｄカメラ画像を使用して、「時空コーナ」と称される動作手がかりを抽出してもよい。これらの手がかりは、各対象の測定場所および高さに基づいて定義される空間ヒストグラムと関連付けてもよい。これらの空間／頻度分布は、ＰＴＣカメラ１２で取り込まれるＲＧＢ画像に基づいて関節動作体の表現として使用してもよい。

ＰＴＺカメラ制御モジュールに関して、各ＰＴＺカメラ１２の場所をワールド座標系に関して初めに測定してもよい。顔がワールド座標系における（Ｘ，Ｙ，Ｚ）に位置すれば、ＰＴＺカメラ１２からの結果的な画像が様々な形態の顔分析を可能にすることができるように、較正手順を使用して、パン（Ｐ）、チルト（Ｔ）およびズーム（Ｚ）値を（Ｘ，Ｙ，Ｚ）座標にマッピングしてもよい。追跡モジュールは、基本平面座標（Ｘ，Ｙ）における各人の場所を生成してもよい。Ｚ値は、対象高さの推定値に基づいて決定してもよい。最適化アルゴリズムを使用して、ＰＴＺにカメラ１２を追跡対象に自動的に割り当ててもよい。

顔分析モジュールに関して、ＰＴＺカメラ１２によって生成された高解像度画像が与えられれば、以下の動作を行ってもよい：（１）顔検出器を使用して対象の顔の境界ボックスを発生する、（２）目検出器を使用して対象の目を見つける、（３）両目が検出されれば、顔器官モデルを対象の顔に当てはめる、（４）当てはめた器官モデルの形状に基づいて垂直および水平注視方向の推定値を計算してもよい、（５）「注視そらし」などの事象の検出を見込んで水平眼球場所の推定値を計算する、（６）当てはめた器官モデルを使用して対象の顔の正面像を統合してもよい、そして（７）全体の顔表情モデルを使用して共通顔表情の集合を推定してもよい。

推論モジュールに関して、各人１４と関連付けられたメタデータのストリーム（たとえば、場所、関節動作、注視方向、顔表情）が与えられれば、総合社会的信号の集合を生成してもよい。疎通性および敵対などの集団レベル社会的概念を推論する目的で、グラフィックモデルを使用して、各社会的概念と関連付けられた確率分布のリアルタイム推定値に帰着する総合社会的信号について推理してもよい。

図２は、実施形態に従う、ビデオ分析ストリームを生成するのに適する工程３０のフロー図である。工程３０の以下の記載をクラウドベースのコンピューティングシステム１８の１つまたは複数のサーバ２２のプロセッサ２８を参照しつつ記載するが、コンピューティング装置２０、または社会行動認識システム１０と関連付けられる他の部品など、カメラ１２および／またはクラウドベースのコンピューティングシステム１８と通信することが可能でもよい他の装置に設けられる１つまたは複数の他のプロセッサによって、工程３０が行われてもよいことに留意するべきである。追加的に、以下の工程３０は行うことができる所定数の動作を記載するが、工程３０を各種の適切な順序で行ってもよく、また動作のすべてを行わなくてもよいことに留意するべきである。工程３０をクラウドベースのコンピューティングシステム１８のサーバ２０間で分散してもよいことを認識するべきである。工程３０を行うために様々なモジュール（たとえば、追跡、関節動作分析、ＰＴＺカメラ制御、顔分析、および／または推論）を使用してもよいことに留意するべきである。

工程３０を次に参照すると、プロセッサ２８は、環境１６においてＰＴＺカメラ１２を介して個人１４を追跡してもよい（ブロック３２）。プロセッサ２８はまた、時空関心点に基づいて各個人１４に対する動作シグネチャを生成してもよい（ブロック３４）。プロセッサ２８はまた、ＰＴＺカメラ１２を制御することによって高解像度顔画像を取り込んでもよい（ブロック３６）。また、プロセッサ２８は、顔画像に基づいて顔表情および注視方向を推定してもよい（ブロック３８）。プロセッサ２８は次いで、ビデオ分析ストリームを生成してもよい（ブロック４０）。フレームごとに、ビデオ分析ストリームは、（１）現場座標における場所、（２）動作シグネチャ、（３）表情プロファイル（喜び、恐れ、驚き、欲求不満、怒り）、並びに（４）注視方向（垂直および水平）を符号化する人記述子の集合から構成してもよい。加えて、各個人１４を、追跡ＩＤを介して以前の人観測にリンクしてもよく、これは時間分析を可能にすることができる。

ビデオ分析ストリームを使用して、クラウドベースのコンピューティングシステム１８および／またはコンピューティング装置２０は、一定の行動が認識されるかどうかを判定するエージェントベースの推論技術を行うことができる。ビデオ分析ストリームに含まれる手がかりの観測は、集団レベル相互作用の分析を可能にすることができる。さらに、集団レベル行動に参加する個人１４の物理状態を特性化するために手がかりを使用してもよい。そのような個人１４は、図３に示すように、主体的形態の内的経験４４を所有している認知エージェント４２としてモデル化することができる。

これらの内的経験４４に対するモデルは、感情、意図、目的、計画、期待、他の個人１４の表現等といった概念を含んでもよい。各個人１４はエージェント４２として見られてもよく、ここで各エージェント４２は、観測可能である（たとえば、カメラ１２によって）物理状態４６および直接観測を受け入れない潜在内的経験４４（内的状態）を有する。物理状態４６は、エージェント４２の相対位置、注視角度、表情、身振り、情動ポーズ、および／または発語を含んでもよい。追加的に、示したように、内的経験４４は物理状態４６を駆動する。

将来の内的経験４４は、現在の内的経験４４の他に、第三者エージェント４２の物理状態４６の観測に基づいてもよい。たとえば、図４は、各々自己の内的経験４４および物理状態４６をもつ３つの相互作用しているエージェント４２間のこれらの関係を示す。分析観点から、各エージェントの物理状態４６は直接観測されてもよい一方で、内的経験４４は推論されてもよい。

物理状態４６の観測に基づいて、各エージェント４２の内的経験４４の推定がなされる場合、非常により豊かな形態の行動認識が出現するであろう。しかしながら、これらの工程の非線形および確率的性質により、観測の直接反転を介してそのような潜在変数を計算することは可能でないであろう。したがって、エージェントベースの行動をモデル化し、したがってフォワードシミュレートすることができる能力に基づく推論戦略を、本開示の一定の実施形態に使用する。

一団の相互作用している個人１４（たとえば、エージェント４２）の一連の観測物理状態４６が与えられれば、いくつかの実施形態は、潜在内的経験４４の対応列を推論することができる。潜在内的経験４４および可観測物理状態４６は、シンボルの集合によって特性化してもよい。そのため、いくつかの実施形態は、観測シンボル列が与えられれば、インタレースした潜在および観測シンボルの完全列を導出することができる。内的経験４４と関連付けられる機構をモデル化することによって、エージェントベースのシミュレータを使用して、完全な潜在／可観測行動列を統合することができる。そのような統合列の巨大な集合を、次いでランダムサンプリング法を介して発生してもよい。エージェントベースのシミュレーションのいくつかの実施形態は、２種類の推論戦略：「仮説検定」および「機械学習を介する認識」を使用することができる。

仮説検定手法は、（１）多数の考え得る行動列を統合し、（２）物理シンボルのみに基づいて任意の２つの列を比較する類似尺度／公算関数を開発し、そして（３）最も類似した統合列の潜在シンボルに基づいて問合せ列の潜在シンボルを推定するという着想に基づいてもよい。統合列の巨大な集合により、いくつかの実施形態は、適切な形態の推論として「多重仮説追跡（ＭＨＴ）」を利用することができる。特に、以下に論じるように、いくつかの実施形態は、粒子フィルタリングフレームワークを使用することができる。たとえば、粒子フィルタリング法と同様に、マルコフ連鎖モンテカルロ（ＭＣＭＣ）およびギブスサンプリングなどの他の技術を使用してもよい。

エージェントベースの推論を介して行動を検出するのに適する工程５０のフロー図を、実施形態に従って図５に示す。工程５０の以下の記載をクラウドベースのコンピューティングシステム１８の１つまたは複数のサーバ２２のプロセッサ２８を参照しつつ記載するが、コンピューティング装置２０、または社会行動認識システム１０と関連付けられる他の部品など、カメラ１２および／またはクラウドベースのコンピューティングシステム１８と通信することが可能でもよい他の装置に設けられる１つまたは複数の他のプロセッサによって、工程５０が行われてもよいことに留意するべきである。追加的に、以下の工程５０は行うことができる所定数の動作を記載するが、工程５０を各種の適切な順序で行ってもよく、また動作のすべてを行わなくてもよいことに留意するべきである。いくつかの実施形態において、工程５０をクラウドベースのコンピューティングシステム１８のサーバ２２とコンピューティング装置２０との間で分散することができることを認識するべきである。

工程５０を次に参照すると、プロセッサ２８は、１つまたは複数のカメラ１２からデータを受信してもよい（ブロック５２）。データは、とりわけ個人の場所、顔表情、注視方向、身体姿勢、身体動作、および／または身振りなどの様々な手がかりを含むビデオ分析ストリームの生成を可能にすることができる。プロセッサ２８はまた、データに基づいて、内的感情４４（認知状態）の他に可観測物理状態４６をモデル化するフォワードエージェントシミュレータを開発してもよい（ブロック５４）。エージェントシミュレータをモデル化するために、いくつかの式を使用してもよい。たとえば、以下の式を使用してもよい：

式中、ｅ_i,tは時間ｔでのエージェントｉの情緒状態（隠れ）であり、Ｅ_i,tは時間ｔでのエージェントｉの観測表情（可観測）であり、Ｘ_i,tは時間ｔでのエージェントｉの場所および注視方向（可観測）であり、そしてｃ_iはエージェントｉの性格類型（隠れ）である。

プロセッサ２８はまた、個人１４間の様々な行為を統合してもよい（ブロック５６）。また、プロセッサ２８は、リカレントニューラルネットワークをもつ粒子フィルタを使用してエージェントシミュレータを実行してもよい（ブロック５８）。粒子フィルタリングは、観測列（たとえば、観測物理状態４６から導出される手がかり）が与えられて、潜在状態変数（たとえば、内的経験４４）の集合の時間進展を推定することを試みる反復工程を指すことができる。特に、時間ゼロでは、粒子の初期集合はランダムにインスタンス化してもよい。各粒子は、初期潜在変数値の推定および関連する可観測変数の予測から成ってもよい。各粒子の尤度は、予測および観測物理状態４６の類似性に基づいて計算してもよい。これらの尤度尺度に基づいて次の反復に伝播するための粒子を指定するために、サンプリング法を使用してもよい。粒子伝播は、確率的サンプリングに基づいてもよい。このようにして、観測列を追跡することができる粒子が残存するようにする。観測した行動を予測することができない粒子はその後淘汰される。出力は、したがって問合せ列の最も起こりそうな解釈である。

粒子フィルタリングは、正確な提案分布に帰着するシステムダイナミクスの正確なモデリングに依存する検索の一形態である。内的経験モデルは、それらが進化するにつれて複雑さが増すことになるので、粒子フィルタの進化を導くための機構としての認識法の使用は有益であり、かつ本開示のいくつかの実施形態によって使用されることができる。この目的で、リカレントニューラルネットワーク（ＲＮＮ）を使用してもよい。

ＲＮＮは、シンボル列認識の一形態として見られてもよい。例示の目的で、ウィリアムシェイクスピアの全作品を考える。各単語を一意のシンボルによって表すことができる。各文は、次いでシンボル列として見ることができる。シェイクスピアの脚本のコーパスは、したがって訓練データになる。一旦ＲＮＮを訓練すると、それは、わずかに単一のシンボルをもつ初期種列を与えられ得る。ＲＮＮは次いで、列における次の要素のための確率分布を発生する。次の要素を選択するために、サンプリング法を次いで使用することができる。この工程を複数回繰り返して、訓練データの性質に似ているように見える完全な列の統合に帰着することができる。たとえば、「その犬」という初期種が与えられれば、シェイクスピアのＲＮＮは、以下の文：「その犬はあそこの城から来る」を発生するであろう。

したがって、いくつかの実施形態は、エージェントベースのシミュレータを使用して、行動予測を提供すること、または観測した行動を特性化することが可能である行動ＲＮＮの構築のために必要とされる訓練データのコーパスを構成することを含んでもよい。さらに、適切に訓練したＲＮＮの確率的サンプリングが、粒子フィルタリングフレームワークに組み込まれることになる。各粒子がそれ自体の生成内的経験モデルを有する代わりに、粒子はＲＮＮを有することになる。粒子ＲＮＮは、ランダムな内的シンボルで初めに種が与えられてもよい。粒子ＲＮＮは次いで、物理シンボルの次の集合をサンプリングすることを通じて予測してもよい。これらの予測物理シンボルを、問合せ列の物理シンボルと比較してもよい。起こりそうな粒子が次の反復に遷移するようにしてもよい。この場合、遷移することは、内的シンボルの次の集合を予測することを伴ってもよい。

認識されるであろうように、潜在的に膨大な数の考え得る行動列がある一方で、概して、遭遇することがある列の大多数は、比較的少数の行動モードと関連付けることができる。このことは文：「無数の考え得る映画があるが、しかしながら、映画には１２の異なる種類しかない。」と同様である。そのため、適切な訓練データが与えられれば、そのようなモードと関連付けられる知識がＲＮＮによって要約されることになる。この推論パラダイムの成功は、高忠実度認知エージェントベースのシミュレータを発生することができる能力に基づいている。

プロセッサ２８はまた、予測シンボル列が問合せ行動に対する別のシンボル列と一致するかどうかを判定してもよい（ブロック６０）。すなわち、プロセッサ２８は、ＲＮＮをもつ粒子フィルタのシミュレーションを実行して、内的シンボルの次の集合がいつ問合せ行動の内的シンボルおよび／または物理シンボルと一致するかを予測してもよい。一致する場合、プロセッサ２８は、緊急サービスを呼ぶ、警報器を鳴らす、警告をトリガする、メッセージを表示する、メッセージを送る等といった行為を行ってもよい。

図６は、実施形態に従う、エージェントベースのシミュレータに含まれる性格感情および表情を含むチャート７０である。性格類型は、陽気、略奪、外来、憂鬱、および／または神経質を含んでもよい。各性格類型は、一定の行動を呈するようにプログラムしてもよい。たとえば、陽気性格類型はシミュレーション中にエージェントを一団の人々の中心に移動させることができ、略奪性格類型はシミュレーション中にエージェントを最も近いエージェントに接近させることができ、外来性格類型はエージェントを他のエージェントから離れさせることができ、憂鬱性格類型はエージェントをゆっくり移動させることができ、そして神経質性格類型はエージェントに空地を探させることができる。感情は、怒り、欲求不満、中立、および／または幸福を含んでもよい。さらに、観測表情７４は、関連する表情が模倣される顔の表現を含んでもよい。示したように、様々なシンボル７２がチャート７０における各性格類型および感情と関連付けられている。また、観測表情７４のためのシンボルも生成した。

図７は、実施形態に従う、シミュレートしたエージェントおよびそれらの相互作用の図８０である。示したように、シミュレートしたエージェントは、それらの性格類型（たとえば、略奪、神経質および憂鬱）に相当するように色分けしてもよい。エージェントは、上記したようにプログラムしてもよく、そしてシミュレーションは、集団設定における行動の列に関するデータを提供することができる。エージェントは、内的経験４４（感情）および物理状態４６（位置、注視角度および／または表情）を含んでもよい。前述のように、物理状態４６はカメラ１２を介して直接観測可能であるが、内的経験４４は隠されており、社会行動認識システム１０によって推論してもよい。

図８は、実施形態に従う、観測行動から推定されるシミュレートしたエージェントを使用する粒子フィルタリングの例である。上記したように、粒子フィルタリングは、観測列が与えられて、潜在変数（たとえば、感情などの内的経験４４）の集合の時間進展を推定することを試みる反復工程でもよい。そのため、示したシミュレートしたエージェント（粒子）を使用して、性格類型および表情シンボルに対する対応観測列に基づいて潜在変数シンボルの列を推定することができる。いくつかの実施形態において、粒子フィルタはリカレントニューラルネットワークを含み、そしてシンボル（性格類型および／または感情）の列の予測に成功した粒子フィルタが保たれて、不成功である粒子フィルタは取り除かれる（たとえば、終了される）。

図９は、実施形態に従う、リカレントニューラルネットワークを使用する粒子フィルタリングでシミュレートしたエージェントを実行した結果として選択される最も起こりそうな粒子９２の図９０である。最も起こりそうな粒子９２は、行動シンボルの完全列を生成するために実行し続け、それによって以降の行為の予測を可能にするようにしてもよい。上記したように、観測は、カメラ１２を介して得られたデータに基づいてもよい。

本発明の技術的な効果は、行動認識に対するエージェントベースの推論フレームワークをインスタンス化することを含む。行動認識は、警備監視で有用でありえる。人間行動は複雑であるが、カメラによって取り込まれ、そして本技術によって識別されることが可能な一定の行動パターンは、再観察または行為のために標識してもよい。さらに、一実施形態において、複数のリカレントニューラルネットワークの使用は、一定のニューラルネットワークのみを伝播し、その他を性能に基づいて終了するので、他のビデオベースの行動評価に対してより効率的かつ能率的なコンピュータ性能を可能にすることができる。

実施形態は、生成モデルを使用する分類の一形態としての行動認識が認知モデルに基づいて可観測手がかりを構築することを可能にする。したがって、行動認識は、そのような観測に帰着したであろう認知状態の推定値に帰着する。エージェントベースのシミュレータは、行動リカレントニューラルネットワークの構築のために使用する訓練データのコーパスを構成するために使用してもよい。適切に訓練したリカレントニューラルネットワークの確率的サンプリングが、粒子フィルタリングフレームワークに組み込まれてもよい。各粒子がそれ自体の生成内的経験モデルを有する代わりに、粒子はリカレントニューラルネットワークを含む。粒子リカレントニューラルネットワークは、ランダムな内的シンボルで初めに種が与えられてもよい。粒子リカレントニューラルネットワークは次いで、物理シンボルの次の集合をサンプリングすることを通じて予測してもよい。これらの予測物理シンボルを、問合せ列の物理シンボルと比較してもよい。起こりそうな粒子が次の反復に遷移するようにしてもよい。遷移することは、内的シンボルの次の集合を予測することを伴ってもよい。社会行動認識システム１０は、いかなる個人（たとえば、人々１４から離れて位置する）によっても支持されない様々なカメラ１２を使用してもよい。カメラ１２は、群衆／集団レベル相互作用における人１４の非言語的手がかり（たとえば、情動、近接性、活動／動作、従事）を取り込み、そして分析するために使用してもよい。

この書面による記載は例を使用して、最良の形態を含め、実施形態を開示し、かつまた任意の装置またはシステムを製作および使用すること、ならびに任意の組み込まれた方法を行うことを含め、当業者が開示した主題を実践することを可能にする。本主題の特許されうる範囲は請求項によって定められ、かつ当業者に想起される他の例を含んでもよい。そのような他の例は、それらが請求項の文字通りの文言と異ならない構造要素を有する場合、またはそれらが請求項の文字通りの文言から実質的に差のない同等の構造要素を含む場合、請求項の範囲内にあるものと意図される。

１０社会行動認識システム
１２カメラ
１４人々
１６環境
１８クラウドベースのコンピューティングシステム
２０コンピューティング装置
２２サーバ
２４メモリ
２６データベース
２８プロセッサ
３０通信部品
４２エージェント
４４内的経験
４６物理状態
７２シンボル
７４観測表情
９２最も起こりそうな粒子

Claims

環境（１６）において１人または複数の個人（１４）の行動に関連したデータを取り込む１つまたは複数のカメラ（１２）と、
環境（１６）において１つまたは複数のカメラ（１２）から１人または複数の個人の前記行動に関連した前記データを受信し、
それぞれの個人（１４）の前記行動を各々モデル化し、かつシミュレーション中の前記それぞれの個人の内的経験を表すシンボル列を各々出力する１つまたは複数のエージェントベースのシミュレータを実行し、そして、
前記シンボル列が問合せ行動に対する問合せシンボル列と一致するとき前記それぞれの個人の各々に対する以降の行動を予測する、
１つまたは複数のプロセッサ（２８）を備える１つまたは複数のコンピューティング装置（２０）と、
前記１つまたは複数のコンピューティング装置に結合され、かつ前記以降の行動を表す指示を表示するように構成されるディスプレイと、を備えるシステム。
前記１つまたは複数のカメラ（１２）が、場所および関節身体動作の推定値を取り込む赤、緑、青、深度（ＲＧＢ＋Ｄ）カメラ、ならびに顔画像を取り込む固定カメラおよびパンチルトズーム（ＰＴＺ）カメラを備える、請求項１記載のシステム。
前記１つまたは複数のコンピューティング装置（２０）が、スマートフォン、スマートウォッチ、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、クラウドベースのコンピューティングシステム（１８）におけるサーバ（２２）、またはそれらの何らかの組合せを備える、請求項１記載のシステム。
前記１つまたは複数のプロセッサ（２８）が、一定の以降の行動が予測されるときに、行為であって、警報器を鳴らすこと、緊急サービスを呼ぶこと、警告をトリガすること、メッセージを送ること、警告を表示すること、またはそれらの何らかの組合せを含む行為を行う、請求項３記載のシステム。
環境（１６）において１つまたは複数のカメラ（１２）から１人または複数の個人（１４）に関連したデータを受信することと、
それぞれの個人（１４）の行動のモデルを生成するように各々が動作する１つまたは複数のエージェントベースのシミュレータを実行し、各モデルの出力が、シミュレーション中の前記それぞれの個人（１４）の内的経験（４４）を表すシンボル列であることと、
前記シンボル列が問合せ行動に対する問合せシンボル列と一致するとき前記それぞれの個人の各々に対する以降の行動を予測することと、を含む方法。
各モデルが、粒子フィルタリングを使用し、そして各粒子が、前記データに基づいて前記シンボル列の時間進化を反復的に推定するリカレントニューラルネットワークを含む、請求項５記載の方法。
類似したシンボル列を含む粒子が、次の反復に遷移して、前記シンボル列の内的シンボルの次の集合を予測するようにする、請求項６記載の方法。
類似したシンボル列を含まない粒子を終了する、請求項６記載の方法。
前記リカレントニューラルネットワークを使用して、前記シンボル列に基づいて前記以降の行動を予測する、請求項６記載の方法。
前記リカレントニューラルネットワークが、ランダムな内的経験シンボルで初めに種が与えられる、請求項９記載の方法。
前記リカレントニューラルネットワークが、物理状態シンボルの次の集合をサンプリングし、そして物理シンボルの前記次の集合を前記問合せシンボル列の物理状態シンボルと比較することによって、前記以降の行動を予測する、請求項１０記載の方法。
前記１つまたは複数のカメラが、場所および関節身体動作の推定値を取り込む赤、緑、青、深度（ＲＧＢ＋Ｄ）カメラ、ならびに顔画像を取り込む固定カメラおよびパンチルトズーム（ＰＴＺ）カメラを備える、請求項５記載の方法。
前記シンボル列が、性格類型、感情、観測表情、またはそれらの何らかの組合せに対する記憶したグラフィクを含む、請求項５記載の方法。
一定の行動が予測されるときに行為を行うことを含み、前記行為が、警報器を鳴らすこと、緊急サービスを呼ぶこと、警告をトリガすること、メッセージを送ること、警告を表示すること、またはそれらの何らかの組合せを含む、請求項５記載の方法。