JP6388356B2

JP6388356B2 - 行動認識システム及び方法

Info

Publication number: JP6388356B2
Application number: JP2017519218A
Authority: JP
Inventors: カーミルヴヌク，; ニコラスジェー．ウィッチー，
Original assignee: ナントホールディングスアイピー，エルエルシー
Priority date: 2014-06-17
Filing date: 2015-06-17
Publication date: 2018-09-12
Anticipated expiration: 2035-06-17
Also published as: US20190213404A1; CN106462747A; US20150363644A1; US9547678B2; US11232292B2; JP2017525070A; US20180144186A1; WO2015195765A1; US11837027B2; JP2018198081A; US20200193151A1; US9886625B2; US20240062587A1; US10572724B2; US10216984B2; US20170091537A1; CN106462747B; US20220108105A1

Description

関連出願の相互参照
本出願は、２０１４年６月１７日に出願された米国仮特許出願６２／０１３，５０８号の利益を主張する。上記仮特許出願は、その全内容が引用によって本明細書に組み込まれる。

本開示は、広くは、行動認識技術に関する。

背景技術の説明は、本発明を理解することにおいて有用であり得る情報を含む。本明細書で提供される情報の何れかが先行技術であり若しくは本特許請求の範囲に記載された発明に関連するということは、自明なことではなく、又は具体的に若しくは暗に参照される任意の文献が先行技術であるということも自明なことではない。

ビデオデータ内で表された行動などの、観察される行動を認識することは、非常に複雑な作業である。既存の技術は、特に消費者の行動に関して、市場に浸透することができなかった。２０１２年１１月２８日に出願された「ＭｅｔｈｏｄａｎｄＳｙｓｔｅｍｆｏｒＭｅａｓｕｒｉｎｇＳｏｃｉａｌｉｎｆｌｕｅｎｃｅａｎｄＲｅｃｅｐｔｉｖｉｔｙｏｆＵｓｅｒｓ」という名称のＱｉｎらによる米国特許出願公開２０１４／０１４９４１８号によって例示されるように、何らかの労力が、ウェブでのやり取りに関するユーザの行動を特定することに費やされてきた。しかし、Ｑｉｎによって開示された技術は、観察される行動を認識することに適用できない。

行動認識のための有向グラフ（ｄｉｒｅｃｔｅｄｇｒａｐｈ）を使用することに、他の労力が費やされてきた。そのような技術の実施例は、以下の論文で説明される。すなわち、
２０１２年のＰｒｏｃｅｅｄｉｎｇｓｏｆＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）のＺｈａｎｇらによる「ＧｒａｐｈＤｅｇｒｅｅＬｉｎｋａｇｅ：ＡｇｇｌｏｍｅｒａｔｉｖｅＣｌｕｓｔｅｒｉｎｇｏｎａＤｉｒｅｃｔｅｄＧｒａｐｈ」（「Ｚｈａｎｇ２０１２」）、
ＷａｎｇらによるＣＶＰＲ２０１１‐ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ＆ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（２０１１）３１６９‐３１７６の「ＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎｂｙＤｅｎｓｅＴｒａｊｅｃｔｏｒｉｅｓ」（「Ｗａｎｇ２０１１」）、及び
Ｗａｎｇらによる２０１３ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）の「ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈＫｅｒｎｅｌｓｆｏｒＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎ」（「Ｗａｎｇ２０１３」）である。

上述のアプローチは、特別なグラフを使用して、観察される行動を認識することに関する。例えば、Ｗａｎｇ２０１３は、有向非巡回グラフ（ｄｉｒｅｃｔｅｄａｃｙｃｌｉｃｇｒａｐｈ（ＤＡＧ））を使用して行動を認識するための基礎を提供する。しかし、そのようなアプローチに必要な計算時間は、カメラ、携帯電話、タブレットコンピュータ、玩具、輸送体、及び他の消費者装置の使用などの、消費者装置の用途で使用されるには法外である。

消費者が装置（例えば、携帯電話）を介してスポーツイベント又はダンスリサイタルなどの行動を観察することを可能にし、その行動を自動的に認識し、且つ、認識した行動に基づいてその装置が動作を開始することをもたらすアプリケーションに、消費者がアクセスすることは現在できていない。更に、現在のアプローチは、行動を認識することへの影響を持ち得る文脈的な状況を考慮することができない。例えば、Ｗａｎｇ２０１３のアプローチは、ダンスと喧嘩との間の差異を認識する文脈的な解決力を欠いている。したがって、観察される文脈に敏感な、費用効果に優れた行動認識が、必要であり続けている。

本発明の主題は、既知の行動グラフに適用される文脈的なスコアリング技術を使用することを通じて、行動が装置を介して認識され得る、装置、システム、及び方法を提供する。一実施形態では、特徴検出アルゴリズムを使用して、複数の経時的な特徴が、観察される行動のデジタル表現から生成される。デジタル表現は、画像データ、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ、及び無線信号データのうちの１以上を含み得る。デジタル表現から生成された経時的な特徴の１以上のクラスタを含む観察される行動のグラフ（ｏｂｓｅｒｖｅｄａｃｔｉｖｉｔｙｇｒａｐｈ）（以下、「観察行動グラフ」）が制定され、経時的な特徴の１以上のクラスタのうちの各々が、観察行動グラフのノードを制定する。観察行動グラフのノードは、特徴の軌跡のクラスタを含み得る。少なくとも１つの文脈的に関連するスコアリング技術（ｃｏｎｔｅｘｔｕａｌｌｙｒｅｌｅｖａｎｔｓｃｏｒｉｎｇｔｅｃｈｎｉｑｕｅ）（以下、「文脈的関連スコアリング技術」）は、既知の行動グラフに対する類似性スコアリング技術から選択され、少なくとも１つの文脈的関連スコアリング技術は、デジタル表現のデバイスコンテキストの属性（ｄｅｖｉｃｅｃｏｎｔｅｘｕａｌａｔｔｒｉｂｕｔｅ）に基づいて規定されたデバイスコンテキストの基準を満たす行動摂取メタデータ（ａｃｔｉｖｉｔｙｉｎｇｅｓｔｉｏｎｍｅｔａｄａｔａ）に関連し、且つ、類似性行動スコアが、少なくとも１つの文脈的関連スコアリング技術の機能として、観察行動グラフに対して計算され、類似性行動スコアは、少なくとも１つの既知の行動グラフに関連する。類似性スコアリング技術は、ユークリッド距離（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）、リニアカーネル（ｌｉｎｅａｒｋｅｒｎｅｌ）、多項式カーネル（ｐｏｌｙｎｏｍｉａｌｋｅｒｎｅｌ）、カイ二乗カーネル（Ｃｈｉ‐ｓｑｕａｒｅｄｋｅｒｎｅｌ）、コーシー（Ｃａｕｃｈｙ）カーネル、ヒストグラムインターセクション（ｈｉｓｔｏｇｒａｍｉｎｔｅｒｓｅｃｔｉｏｎ）カーネル、ヘリンジャーズ（Ｈｅｌｌｉｎｇｅｒ’ｓ）カーネル、ジェンセンシャノン（Ｊｅｎｓｅｎ‐Ｓｈａｎｎｏｎ）カーネル、ハイパボリックタンジェント（ｓｉｇｍｏｉｄ）カーネル、有理二次（ｒａｔｉｏｎａｌｑｕａｄｒａｔｉｃ）カーネル、マルチ二次カーネル、逆（ｉｎｖｅｒｓｅ）マルチ二次カーネル、円形（ｃｉｒｃｕｌａｒ）カーネル、球形（ｓｐｈｅｒｉｃａｌ）カーネル、波形（ｗａｖｅ）カーネル、パワーカーネル、ログカーネル、スプラインカーネル、ベッセルカーネル、一般化されたＴスチューデントカーネル、ベイジアン（Ｂａｙｅｓｉａｎ）カーネル、ウェーブレット（ｗａｖｅｌｅｔ）カーネル、放射基底関数（ＲＢＦ）、指数カーネル、ラプラシアン（Ｌａｐｌａｃｉａｎ）カーネル、ＡＮＯＶＡカーネル、及びＢスプラインカーネル関数のうちの少なくとも１つを含み得る。行動認識の結果セットは、類似性行動スコアに基づいて生成され得る。

ある実施形態では、既知の行動グラフ及び観察行動グラフが、有向非巡回グラフを含み得る。

ある実施形態では、類似性行動スコアが、既知の行動グラフ内のノード及び観察行動グラフ内のノードの関数として計算され得る。

ある実施形態では、デバイスコンテキストの属性及び行動摂取メタデータが、共通のネームスペースに紐付け（ａｄｈｅｒｅｔｏ）られ得る。

ある実施形態では、行動摂取メタデータが、ドメイン特有の属性と、物体の属性と、場所属性と、時間属性、位置属性、及び方向属性のうちの少なくとも１つとを含み得る。

ある実施形態では、特徴検出アルゴリズムが、スケール不変性特徴変換（ＳＩＦＴ）、速いレティーナキーポイント（ＦＲＥＡＫ）、指向性勾配のヒストグラム（ＨＯＧ）、スピードアップロバスト特徴（ＳＵＲＦ）、ＤＡＩＳＹ、二値ロバスト不変性スケーラブルキーポイント（ＢＲＩＳＫ）、ＦＡＳＴ、二値ロバスト独立エレメンタリー特徴（ＢＲＩＥＦ）、ハリスコーナーズ（ＨａｒｒｉｓＣｏｒｎｅｒｓ）、Ｅｄｇｅｓ、勾配位置及び方向ヒストグラム（ＧＬＯＨ）、画像勾配のエネルギー（ＥＯＧ）、又は変換不変性下位構造（ＴｒａｎｓｆｏｒｍＩｎｖａｒｉａｎｔＬｏｗ−ｒａｎｋＴｅｘｔｕｒｅ）（ＴＩＬＴ）特徴検出アルゴリズムのうちの少なくとも１つを含み得る。

ある実施形態では、既知の行動グラフが、行動グラフのプリミティブ（ｐｒｉｍｉｔｉｖｅ）を含み得る。行動グラフのプリミティブは、物体のパシステンス（ｐｅｒｓｉｓｔｅｎｃｅ）、物体の変換、物体対物体の保存された相互作用（ｏｂｊｅｃｔ‐ｔｏ‐ｏｂｊｅｃｔｃｏｎｓｅｒｖｅｄｉｎｔｅｒａｃｔｉｏｎ）、物体の区分け（ｏｂｊｅｃｔｓｅｇｍｅｎｔａｔｉｏｎ）、物体のクリエーション、物体のディストラクション、及び物体のＮＵＬＬ相互作用のうちの少なくとも１つを含み得る。

ある実施形態では、既知の行動グラフが、他の既知の行動グラフを含むノードを含み得る。

ある実施形態では、既知の行動グラフが、キーフレームを含み得る。

ある実施形態では、観察行動グラフに分類が割り当てられ、分類は行動認識の結果セットを含み得る。

ある実施形態では、行動認識の結果セットが、観察行動グラフに関する行動予測を含み得る。

ある実施形態では、行動認識の結果セットが、アドレス、行動識別子、検索結果、推奨、異常、警告、区分け（ｓｅｇｍｅｎｔａｔｉｏｎ）、指示命令、ランキング、文脈的に関連する情報、コンテンツ情報、宣伝、及び広告のうちの少なくとも１つを含み得る。

ある実施形態では、デジタル表現からの静止画像のマッピングが、画像特徴を既知の行動グラフのうちの少なくとも１つのノードへマッピングすることによって、既知の行動グラフのうちの少なくとも１つのグラフスペースの中へ制定され得る。

ある実施形態では、マッピング、及び既知の行動グラフのうちの少なくとも１つのノードに基づいて、行動予測が生成され得る。

ある実施形態では、類似性スコアリング技術が、ノード文脈ベース重み付け（ｎｏｄｅｃｏｎｔｅｘｔ‐ｂａｓｅｄｗｅｉｇｈｔ）の少なくとも１つのセットを含み、ノード文脈ベース重み付けの少なくとも１つのセットは、ノード重み付けのマトリクスを含み得る。

本発明の主題の様々な目的、特徴、態様、及び利点が、類似の符号が類似の構成要素を指す添付図面と共に、好適な実施形態の以下の詳細な説明からより明らかになるだろう。

一実施形態による、行動認識のための摂取プロセスの概略図である。一実施形態による、行動認識のための摂取プロセスの例示的な動作のフロー図を示す。一実施形態による、行動認識システムの概略図である。一実施形態による、行動認識システムの例示的な動作のフロー図を示す。様々な実施形態の１以上の態様を実装するために使用され得る、例示的なクライアントサーバ関係のブロック図を示す。様々な実施形態の１以上の態様を実装するために使用され得る、分散型コンピュータシステムのブロック図を示す。

上述の図面を参照しながら本発明が説明されるが、図面は例示的なものであることが企図され、他の実施形態も本発明の精神と一致し、本発明の範囲内に含まれる。

今や様々な実施形態が添付図面を参照しながら本明細書でより完全に説明され、それらの図面は、本明細書の一部分を為し、図解を手段として本実施形態を実施する具体的な実施例を示す。しかし、本説明は、多くの異なる形態で具現化され、本明細書で説明される実施形態に限定されるものと解釈されるべきではなく、むしろ、これらの実施形態は、本説明が包括的で完全となるように、且つ、当業者に本発明の範囲を十分に伝えるように提供される。他の物事の中でとりわけ、本説明は方法又は装置として具現化され得る。したがって、本明細書の様々な実施形態のいずれも、全体がハードウェアの実施形態、全体がソフトウェアの実施形態、又はソフトウェアとハードウェアの態様を組み合わせた実施形態の形態をとり得る。したがって、以下の説明は、限定的な趣旨で理解されるべきではない。

本説明及び特許請求の範囲を通して、以下の用語は、文脈が明らかに他の意味を定義するのでなければ、明白に本明細書で関連付けられた意味を持つ。

「一実施形態では」というフレーズは、必ずしも同じ実施形態を指すものではないように本明細書で使用される。したがって、以下で説明されるように、本発明の様々な実施形態は、本発明の範囲又は精神から逸脱することなしに、容易に結合され得る。

本明細書で使用されるように、「又は（ｏｒ）」という用語は包括的な「又は（ｏｒ）」オペレータであり、文脈が明らかに他の意味を定義するのでなければ、「及び／又は（ａｎｄ／ｏｒ）」という用語と同義である。

「に基づいて」という用語は、排他的なものではなく、文脈が明らかに他の意味を定義するのでなければ、説明されていない更なる要素に基づくことを許容する。

本明細書で使用される際に、文脈が他の意味を定義するのでなければ、「連結され（接続され）」という用語は、直接的な連結（２つの要素が互いに接触した状態で連結される）及び間接的な連結（２つの要素の間に少なくとも１つの更なる要素が配置されている）の両方を含むことが企図される。したがって、「と連結（接続）され」及び「に連結（接続）され」と言う用語は、同義的に使用される。２つ以上の構成要素又は装置がデータを交換することができる、ネットワーク化された環境の文脈内では、「と連結（接続）され」及び「に連結（接続）され」という用語は、可能性としては１以上の中間物を介して「電気的に通じている」ことを意味するためにも使用され得る。

更に、説明を通して、「１つの（ａ）」、「１つの（ａｎ）」、及び「その（ｔｈｅ）」の意味は、複数への言及を含み、「内（ｉｎ）」の意味は、「内（ｉｎ）」及び「上（ｏｎ）」を含む。

以下の説明は、本発明の主題の多くの例示的な実施形態を提供する。本明細書で提示される様々な実施形態のうちの幾つかは、本発明の要素の単一の組み合わせを構成するが、本発明の主題が本開示の要素の全ての可能な組み合わせを含むと解釈されることは、理解されるべきである。そのようにして、一実施形態が要素Ａ、Ｂ、及びＣを備え、別の一実施形態が要素Ｂ及びＤを備えるならば、本発明の主題は、たとえ本明細書で明らかに説明されていなくても、Ａ、Ｂ、Ｃ、又はＤの他の残りの組み合わせも含むものと考えられ得る。

本明細書の説明で且つ以下の特許請求の範囲を通して使用される際に、システム、エンジン、サーバ、装置、モジュール、又は他の計算要素が、メモリ内のデータに対して機能を実行するように構成されているものと説明されたときに、「ように構成され」又は「ようにプログラムされ」の意味は、計算要素の１以上のプロセッサ又はコアが、メモリ内に記憶されたターゲットデータ又はデータオブジェクトに対して機能のセットを実行するように、計算要素のメモリ内に記憶されているソフトウェア指示命令のセットによってプログラムされているものと定義される。

コンピュータに向けられた任意の言語は、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、又は個別に若しくは集団的に動作する他のタイプの計算装置構造を含む、計算装置の任意の適切な組み合わせを含むように読まれるべきであることに留意されたい。計算装置が、有形の非一時的コンピュータ可読記憶媒体（例えば、ハードドライブ、ＦＰＧＡ、ＰＬＡ、半導体ドライブ、ＲＡＭ、フラッシュ、ＲＯＭなど）に記憶されたソフトウェア指示命令を実行するように構成されたプロセッサを備えることを、当業者は理解するべきである。本開示の装置に関連して以下で説明される、役割、責任、又は他の機能を提供するように、ソフトウェア指示命令が、計算装置を構成し又はプログラムする。更に、コンピュータベースのアルゴリズム、プロセス、方法の実施態様と関連する本開示のステップを実行するようにプロセッサを動作させるソフトウェア指示命令又は他の指示命令を記憶している、非一時的コンピュータ可読媒体を含む、コンピュータプログラム製品として本開示の技術は具現化され得る。ある実施形態では、可能性としてはＨＴＴＰ、ＨＴＴＰＳ、ＡＥＳに基づいて標準化されたプロトコル又はアルゴリズム、官民の鍵交換、ウェブサービスＡＰＬ、既知の金融取引プロトコル、又は他の電子情報交換方法を使用して、様々なサーバ、システム、データベース、又はインターフェースが、データを交換する。装置の間でのデータ交換は、パケット交換ネットワーク（ｐａｃｋｅｔ‐ｓｗｉｔｃｈｉｅｄｎｅｔｗｏｒｋ）、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮ、又は他のタイプのパケット交換ネットワーク、回路交換ネットワーク、セル交換ネットワーク、又は他のタイプのネットワークを介して実行され得る。

本明細書で特定される全ての出版物は、各個別の出版物又は特許出願書類が、参照されることによって組み込まれることを具体的に且つ個別に企図されているような程度において、参照されることによって組み込まれる。組み込まれた参照文献における用語の定義又は使用が、本明細書で提供される用語の定義と一貫しない又は矛盾するところでは、本明細書で提供されたその用語の定義が適用され、参照文献内のその用語の定義は適用されない。

以下の説明は、本発明を理解することにおいて有用であり得る情報を含む。本明細書で提供される情報の何れかが先行技術であり若しくは本特許請求の範囲に記載された発明に関連するということは、自明なことではなく、又は具体的に若しくは暗に参照される任意の文献が先行技術であるということも、自明なことではない。

ある実施形態では、本発明の特定の実施形態を説明し、本発明の特定の実施形態を特許請求するために使用される、構成要素の量を表す数、集中、反応状態などの特性は、「約（ａｂｏｕｔ）」という用語によってある例の中で変更されるように理解されるべきである。したがって、ある実施形態では、本説明及び添付の特許請求の範囲で説明される数値パラメータが、特定の実施形態によって得られることを求められる望ましい特性に応じて変動し得る。ある実施形態では、数値パラメータが、報告された重要な数字に照らして、且つ、通常の丸めの技術を適用することによって、解釈され得るべきである。本発明のある実施形態の広範囲を説明する数値的な範囲及びパラメータが近似であるにもかかわらず、特定の実施例で説明される数値は、現実的である程度に精密なものとして報告される。本発明のある実施形態で提示される数値は、やむを得ずそれらのそれぞれの試験的な測定値において見られる標準的な逸脱からもたらされる一定の誤差を含む場合がある。

文脈が逆の定義をしていなければ、本明細書で説明される全ての範囲は、それらのエンドポイントを含むように解釈されるべきであり、制約がない（ｏｐｅｎ‐ｅｎｄｅｄ）範囲は、商業的に実現可能な値のみを含むと解釈されるべきである。同様に、値の全てのリストは、文脈が逆を示しているのでなければ、中間的な値を含むと解釈されるべきである。

本明細書及び以下の特許請求の範囲で使用される際に、文脈が明らかにそれ以外のことを定義するのでなければ、意味として「１つの（ａ）」、「１つの（ａｎ）」、及び「その（ｔｈｅ）」は複数形を含む。また、本明細書の説明で使用される際に、文脈が明らかにそれ以外のことを定義するのでなければ、意味として「内（ｉｎ）」は「内（ｉｎ）」及び「上（ｏｎ）」を含む。

本明細書での値の範囲の列挙は、単に、その範囲に含まれる各個別の値に対する個別の参照の簡略化された方法として働くものであると企図される。本明細書でそれ以外のことが定義されているのでなければ、各個別の値は、それが本明細書で個別に列挙されているように説明文の中に組み込まれる。本明細書で説明される全ての方法は、本明細書で特に説明されていなければ又は文脈から明らかに矛盾するものでなければ、任意の適切な順序で実行され得る。任意の及び全ての実施例、又は本明細書の特定の実施形態に関して提供される例示的な言語（例えば、「〜など（ｓｕｃｈａｓ）」）の使用は、単に本発明をより良く理解させることを企図するものであり、それ以外のことが特許請求されているのでなければ本発明の範囲に対する限定をもたらすものではない。本説明で何も書かれていなければ、それは、本発明の実施に必要不可欠な任意の特許請求されていない要素を示すものと解釈されるべきである。

本明細書で開示される本発明の代替的な要素又は実施形態のグループ化は、限定として解釈されるべきではない。各グループメンバーは、個別に言及され且つ特許請求され、又はそのグループの他のメンバー若しくは本明細書で見られる他の要素との任意の組合わせで言及され且つ特許請求され得る。１つのグループの１以上のメンバーは、利便性及び／又は特許可能性を理由として、１つのグループに含まれ又は１つのグループから削除され得る。任意のそのような包含又は削除が生じるときに、本明細書の説明は、修正されたそのグループを含み、したがって、添付の特許請求の範囲内で使用される全てのマーカッシュグループの書かれた説明を満たすものと考えられる。

本開示の技術は、行動を認識する装置に対する計算上のオーバーヘッドを低減させることを含む、多くの有利な技術的効果を提供することに留意されたい。したがって、計算装置は、デジタル画像データを処理し、データ内の観察された特徴が既知の行動を表すものであるか否かを決定することができる。計算装置は、人間の能力をはるかに超えて、実質的な量のデジタルデータを処理することができる。

本開示のアプローチは、計算装置が情景のデジタル表現内で表される１以上の行動を認識するためのインフラを提供する。行動は、行動の広いスペクトルにわたる１以上の行動を含み得る。例示的な行動は、プレイ、スポーツ、ショッピング、ゲームプレイ、軍事訓練、理学療法、又は他のタイプの行動を含む。本開示の技術は、人間ではないものの行動及び物体の相互作用を認識するためにも適用されることを理解されたい。例えば、人間ではないものの行動及び物体の相互作用は、経時的な輸送体の活動、ロボット又は群れの相互作用、地質系の活動、又は他のタイプの行動及び物体の相互作用を含む。

行動は、行動グラフの使用を介して文脈ベースで認識され得る。行動グラフは、好ましくは時間を通して（例えば、期間にわたり又は時間枠内で）、対応する行動を表すノード及び辺（ｅｄｇｅ）を含むメモリ内のデータ構造である。観察される行動は、観察行動グラフへと変換され、その後、既知の行動グラフと比較され得る。観察行動グラフは、観察行動グラフが、どの程度既知の行動グラフ（すなわち、以前に認識された行動の行動グラフ）と類似するかに基づいて、スコアが割り当てられ得る。更に、観察行動グラフにスコアが与えられるやり方は、その観察の文脈に応じ得る。

図１Ａは、一実施形態による、行動認識のための摂取プロセスの概略図である。プロセス１００は、観察される行動を認識する動作の間の、行動認識装置１０５の様々な動作を示している。示されている実施例では、（行動認識装置１０５と接続され又はそれの範囲内にある）センサ１２０が、行動１１０の環境を感知することによって行動１１０を観察する。行動１１０は、様々なデジタルに観察可能な行動又は複数の物体間の相互作用を含み得る。単一のセンサ１２０（例えば、ビデオカメラセンサ）が示されているが、センサ１２０は、可能性としては複数のデータ様式にしたがって（すなわち、存在、経験、又は表現の複数のモードにしたがって）、行動の観察をデジタル表現１３０に変換することができる、１以上のセンサを表し得る。デジタル表現１３０内で表され得る例示的なデータ様式は、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ（例えば、動き、速度、加速など）、無線信号データ、又は他のタイプのデータを含む。

明瞭さ及び理解の容易さのために、デジタル表現１３０は、以下の説明においてビデオデータを含む。しかし、デジタル表現１３０が、ビデオ、静止画、音響、加速度測定値、又は他のデータの任意の組み合わせを含み得ることを、当業者は理解するだろう。そのようにして、本明細書の実施形態は、例示的なものであり、様々な他のタイプのデータを含むデジタル表現から行動を認識することに関して、徹底的であり又は限定的であること企図するものではない。例えば、デジタル表現１３０は、手袋内に配置された加速度計からの加速度測定値データも含み得る。その後、加速度測定値データは、観察され得る手のジェスチャー（例えば、手話、指示命令など）を表し得る。

示されている実施例では、アイススケート選手が環境の周りを移動するように示されている。デジタル表現１３０は、数多くのフレームを有するビデオデータストリームを含み、アイススケート選手は、フレーム毎に異なる位置に置かれ得る。アイススケート選手は、（Ｘ、Ｙ、Ｔ）空間内のあるボリューム（ｖｏｌｕｍｅ）をなぞるように移動するものと考えられ、ここで、Ｘ及びＹは画像フレームの２Ｄ空間を表し得る。時間にわたりアイススケート選手がなぞったボリューム空間は、同様に、例えば、カメラに対する深度、方向、音響の大きさ、又は他の次元などの他の次元を含み得る。

行動１１０は、１以上の特徴検出アルゴリズムを使用して摂取され、デジタル表現１３０から複数の特徴１３３を生成する。ビデオデータのフレームを処理するための例示的な特徴検出アルゴリズムは、スケール不変性特徴変換（ＳＩＦＴ）、速いレティーナキーポイント（ＦＲＥＡＫ）、指向性勾配のヒストグラム（ＨＯＧ）、スピードアップロバスト特徴（ＳＵＲＦ）、ＤＡＩＳＹ、二値ロバスト不変性スケーラブルキーポイント（ＢＲＩＳＫ）、ＦＡＳＴ、二値ロバスト独立エレメンタリー特徴（ＢＲＩＥＦ）、ハリスコーナーズ（ＨａｒｒｉｓＣｏｒｎｅｒｓ）、Ｅｄｇｅｓ、勾配位置及び方向ヒストグラム（ＧＬＯＨ）、画像勾配のエネルギー（ＥＯＧ）、又は変換不変性下位構造（ＴＩＬＴ）特徴検出アルゴリズムを含む。経時的な特徴１３５は、その位置が時間を通して追跡された、可能性としては時間と共に変動する、特徴１３３を表す。例えば、経時的な特徴１３５は、時間の経過に応じてデジタル表現のボリューム空間内で移動し、現れ又は消え、存在し又は存在しなくなり、１つのタイプの値（例えば、記述子の値）から別のタイプの値へシフトし、又は他のタイプの経時的な質（ｑｕａｌｉｔｙ）を示し得る。例示的な経時的な１つの特徴は、軌跡、すなわち、（Ｘ、Ｙ、Ｔ）空間内の経路を形成する、幾つかのフレームにわたる特徴１３３の位置であり得る。ノイズ及び変動に対するより優れた不感性（ｉｎｓｅｎｓｉｔｉｖｉｔｙ）を獲得するために、経時的な特徴１３５の別の一実施例は、類似の動き及び空間的近接を共有する軌跡のクラスタを含む。

経時的な特徴１３５は、経時的な特徴１３５のクラスタを表すノード１４１を含む１以上の行動グラフ１４０へと変換される。行動グラフ１４０は、時間内の比較可能なイベント（例えば、動き、音など）の間の経時的又は空間的な関係性を表すことができる。したがって、ノード１４１は、比較の方法によって他の信号（例えば、他のノード）と比較され得る、時間内に存在する信号である。例えば、行動グラフ１４０は、Ｗｈａｎｇらの「ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈＫｅｒｎｅｌｓｆｏｒＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎ」２０１３ＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）（本明細書において以後、「Ｗａｎｇ２０１３」と呼ばれる）によって提示された、有向非巡回グラフ（ＤＡＧ）を含み得る。しかし、Ｗａｎｇ２０１３内で説明された有向非巡回グラフは、文脈的な認識のための十分な情報を欠いている。この不備は、本明細書で説明される様々な実施形態によって補われる。

行動グラフ１４０は、Ｎ×Ｎマトリクスとしてメモリ内で表され、ここで、Ｎはグラフ内のノード１４１の数であり得る。ＤＡＧの場合に、このマトリクスは、１つのノードが有向辺を介して別の１つのノードに連結されることをセル内の１つの値が示す、非対称性を有し得る。例えば、マトリクスのセル（３、５）は、ノード３からノード５への長さ２（任意の単位）の辺を介して、ノード３がノード５に連結することを示す２という値を有し得る。しかし、マトリクスのセル（５、３）は、逆方向における辺が存在しないことを示す、０すなわちヌル（ＮＵＬＬ）という値を有し得る。

行動グラフは、経時的なノード１４１の因果関係（経時的な特徴１３５のクラスタ）を示すように解釈され得る。例えば、Ｗａｎｇ２０１３は、空間的及び経時的に近接するが時間において明らかに重ならない２つの経時的なノードの間の直接的なリンクを生成することによって、有効非巡回グラフ（ＤＡＧ）を構築することを説明している。したがって、ＤＡＧは、明らかな因果関係のみ、例えば、「ノードＡがノードＢの先にくる」又は「ノードＢがノードＡの後にくる」ことを符号化する。しかし、Ｗａｎｇ２０１３内で考慮されたものよりも複雑なグラフ関係が符号化され、特定のドメインにおけるより意味のある比較又は特定の文脈的な入力を可能にし得る。例えば、物体のアイデンティティーが知られているならば、たとえノードがビデオデータストリームの空間時間ボリューム内の空間的な近接として現れないとしても、情景内の既知の物体に関するノードが連結され得る。

Ｗａｎｇ２０１３内で説明されたＤＡＧは、その動作がＤＡＧに限定されるところの、提案されたランダムウォークグラフカーネルを利用するために選択される。ランダムウォークグラフカーネルは、グラフを通る共通の経路の数をカウントすることによって２つのグラフの間の類似性を解釈する。Ｗａｎｇ２０１３によって提案された一般化されたランダムウォークグラフカーネルは、経路に沿ったノードの比較が、二分（類似又は異なる）決定の位置にある連続的な類似性の値を有することが許容される、ＤＡＧの比較を可能にする。他の近似するグラフカーネルがＤＡＧ以外のために使用され得るが、増加する計算負荷、及びグラフトポロジー誤差に対するより大きな敏感さというコストが存在する。更に、（Ｗｈａｎ２０１３で説明されていない）枝重み（ｅｄｇｅｗｅｉｇｈｔ）が、行動グラフ内のノード関係性における強度又は信頼性を表すために使用され得る。例えば、これらの信頼性は、具体的な環境、文脈、又は位置における特定の音響及びビデオ信号の共起（ｃｏ‐ｏｃｃｕｒｒｅｎｃｅ）の既知の可能性に基づき得る。信頼性は、既知の又は認識された物体の間の予期された独立した行動も表し得る。

一実施形態では、行動グラフ１４０が、文脈的なスコアリング技術に基づく行動認識のための更なる情報を更に含む。例えば、各行動グラフ１４０は、摂取メタデータ１４５（例えば、観察される行動の属性、位置、一日のうちの時間帯など）から決定される際に、文脈に基づいて適用され得る、１以上の類似性スコアリング技術１４３を含み得る。

類似性スコアリング技術１４３は、それによって観察行動グラフと既知の行動グラフとの間の類似性が導き出され得るところの、デジタルに符号化され又は実施される、プロセッサによって実行可能なアルゴリズム、モジュール、カーネル、又は他の手順を含む。例示的な類似性スコアリング技術は、可能性としてはノード毎の比較に基づく、ノード毎の解析、ユークリッド距離を測定すること、放射基底関数（ＲＢＦ）、カイ二乗カーネル、又は他の技術を含む。ある実施形態は、ただ１つのタイプの類似性スコアリング技術を含む行動グラフ１４０を有するが、他の実施形態は、多くの異なるタイプの類似性スコアリング技術を含む行動グラフ１４０を有することに留意されたい。

ある実施形態では、類似性スコアリング技術１４３の各々が、各ノード１４１（又は対応する辺）が、類似性スコアリング技術が適用されるときに、どのようにして重み付けされるべきかを示す、ノード文脈ベース重み付けの１つのセットを更に含み得る。例えば、アイススケートの文脈内で、ただ１つの類似性スコアリング技術１４３が、摂取メタデータ１４５に基づいて利用可能であり得る。しかし、その１つの類似性スコアリング技術は、ノード文脈ベース重み付けの幾つかの異なるセットを有し得る。各セットは、それぞれのノードを強くし又は弱くするために、異なるようにノードに重み付けし得る。例えば、アイスダンスの文脈では、手の動き又は顔の表情に関連するノードが強くされ得る。一方、アイスホッケーの文脈では、身体又は脚の動きのノードが強くされ、他方では、アイスダンスと比較してアイスホッケーでは顔の表情が重要ではないだろうから、顔の表情に関連するノードは低く重み付けされ得る。複数のセンサ様式が使用されている状況では、各感知様式からくるデータの相対的な信頼性を反映するように、重み付けが利用され得る。例えば、カメラ（センサ）が速く振動している文脈では、ビデオデータから導き出された経時的な特徴から成るノードが、被写体ぶれのために信頼性が低くなり、したがって、行動比較におけるそれらの影響は、ビデオベースのノードを低く重み付けすることによって低減され得る。

ノード文脈ベース重み付けの幾つかのセットは、Ｎ個のメンバーを有するベクトルの形態をとり得る。ここで、Ｎはノードの数である。ベクトル内の各値のメンバーは、対応する類似性スコアリング技術１４３を適用するときに、ノードの貢献度を示し得る。更に、ノード文脈ベース重み付けの幾つかのセットは、行動グラフ１４０を表すマトリクスの同じ次元を有するＮ×Ｎのマトリクス形態をとり得る。そのような場合に、マトリクスのセル内の各値は、類似性スコアリング技術１４３に対する対応する辺の貢献度を表し得る。

グラフ内の重み付けされた辺及びノードは別にして、類似性スコアリング技術は、ノード１４１におけるデータのタイプに従って変動する。例えば、経時的な特徴がヒストグラムベースの記述子として符号化される場合に、カイ二乗又はヒストグラムインターセクションカーネルは、ノードの類似性を計算するためにより適切であり得る。別の一実施例では、ノード１４１が、物理装置、画素、音の強度、又はそのようなユニットのモーメントを含む、記述子ベクトルを含み得る。そのような場合に、ガウシアン（Ｇａｕｓｓｉａｎ）カーネルなどの放射基底関数は、類似性を計算するためにより適切であり得る。更に、使用される特徴及びセンサノイズの量に基づいて、カーネルパラメータ、例えば、ガウシアンカーネルのシグマ（ｓｉｇｍａ）は、異なるように調整され得る。例えば、画素から導き出された特徴は、深度測定値（例えば、メートルにおいて）から導き出された特徴とは異なるカーネルパラメータを要求し得る。別の一実施例として、静かな環境の文脈において音響特徴を比較するときに、ガウシアンカーネル内のわずかにより小さいシグマパラメータが使用され、ノイズに対する敏感さというコストのために、より近い（すなわち、より厳密な）マッチングを必要とし得る。ノイズに対してより敏感でないことが必要とされるうるさい環境内では、シグマパラメータが高められ得る。

摂取メタデータ１４５は、行動１１０の摂取に関連した目的（例えば、摂取の理由）に関する情報、及びどの類似性スコアリング技術１４３が最も関連しそうかを示す情報を含む。摂取メタデータ１４５は、自動的に生成された情報又は手動で生成された情報を含み得る。自動的に生成された情報に関して、１以上の物体認識技術が適用され、名前、物体の分類、識別子、位置、サイズ、形状、色、年／季節のうちの時期、温度、タイプ（ｍａｋｅ）、モデル、又は他の情報を含む、摂取メタデータ１４５を生成するために、行動１１０の環境内の物体を特定し得る。本発明の主題と共に使用されるように適切に順応し得る例示的な物体認識技術が、２００２年１１月５日に出願された「Ｉｍａｇｅｃａｐｕｔｕｒｅａｎｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｓｙｓｔｅｍａｎｄｐｒｏｃｅｓｓ」という名称のＢｏｎｃｙｋらによる米国特許７，０１６，５３２号、２００５年８月１５日に出願された「Ｕｓｅｏｆｉｍａｇｅ‐ｄｅｒｉｖｅｄｉｎｆｏｒｍａｔｉｏｎａｓｓｅａｒｃｈｃｒｉｔｅｒｉａｆｏｒｉｎｔｅｒｎｅｔａｎｄｏｔｈｅｒｓｅａｒｃｈｅｎｇｉｎｅｓ」という名称のＢｏｎｃｙｋらによる米国特許７，６８０，３２４、２００６年１月２６日に出願された「Ｄａｔａｃａｐｔｕｒｅａｎｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｓｙｓｔｅｍａｎｄｐｒｏｃｅｓｓ」という名称のＢｏｎｃｙｋらによる米国特許７，５６５，００８号、及び２００９年７月２０日に出願された「Ｄａｔａｃａｐｔｕｒｅａｎｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｓｙｓｔｅｍａｎｄｐｒｏｃｅｓｓ」という名称のＢｏｎｃｙｋらによる米国特許７，８８１，５２９号で開示されている。更に、摂取メタデータ１４５は、例えば、インターフェース（例えば、ウェブページ、アプリケーション、ＡＰＩなど）を介してユーザによって、類似性スコアリング技術１４３に対応するように選択され得る。したがって、摂取メタデータ１４５は、ドメイン特有の属性（例えば、医療ドメイン、健康管理ドメイン、スポーツドメイン、ゲームドメイン、ショッピングドメインなどに関連する属性）、物体の属性（例えば、物体のタイプ、物体の名前など）、環境若しくは文脈の属性（例えば、場所の属性、時間の属性、位置の属性、方向の属性など）、又は他のタイプの属性を含み得る。

好適な実施形態では、摂取メタデータ１４５が、規定された属性のネームスペース（すなわち、標準化された述語体系）に紐付けられたデータを含む。例えば、摂取メタデータ１４５は、対応する類似性スコアリング技術が適用可能なときに、関連する状態を表す属性値のペアを含み得る。例えば、「場所」の属性は、ＧＰＳ座標、アドレス、ジップコード、又は他の値を含み得る。別の例示的な１つの属性は、装置の動きの強度及び周波数、又はマイクロフォンによって記録された平均デシベルレベルを含み得る。例えば、そのような属性は、それぞれ、ビデオ又は音響チャネルから読み出された特徴の重要性の重み付けを低くするために使用され、それによって、全体の行動グラフの類似性に対するそれらの影響が、データチャネルの信頼性がより低くなり得る文脈において低減され得る。属性値のペアは、ネットワークリンク（例えば、セルラーネットワーク、インターネット、ＬＡＮ、ＷＡＮ、無線接続、ブルートゥース（登録商標）接続など）を介した容易な搬送のために、ＸＭＬ、ＹＡＭＬ、又はＪＳＯＮフォーマット内で表され得る。様々な実施形態では、規定された属性のネームスペースが、摂取メタデータ１４５を、野外観測（ｆｉｅｌｄｏｂｓｅｒｖａｔｉｏｎ）でのデバイスコンテキスト（ｄｅｖｉｃｅｃｏｎｔｅｘｔ）と比較することを可能にする。

行動１１０に関連する摂取メタデータ１４５が与えられたとして、類似性スコアリング技術と共に行動グラフ１４０が、行動データベース内に記憶され得る。データベースは、ネットワークアクセス可能データベース（例えば、ＳａａＳ、ＩａａＳ、クラウド、ウェブサービスなど）、ファイルシステム、計算装置内のメモリ内のデータ構造、又は他のデータストア（ｄａｔａｓｔｏｒｅ）を含み得る。

図１Ｂは、一実施形態による、行動認識のための摂取プロセスの例示的な動作のフロー図を示している。方法１５０は、行動認識装置１０５などの行動認識装置の本開示の役割又は責任を有するように構成され又はプログラムされた、１以上の計算装置によって実行される。例えば、行動認識装置１０５は、携帯電話、公衆電話（ｋｉｏｓｋ）、携帯情報端末、タブレットコンピュータ、玩具、輸送体、ウェブカメラ、又は他のタイプの計算装置を含み得る。更に、行動認識装置１０５は、ビデオデータの画像フレームをキャプチャーするように装備された画像キャプチャー装置（例えば、ビデオカメラ又はゲーム機）を備え得る、センサ１２０などのセンサを含み得る。

ステップ１５２において、行動は、行動の環境を感知することによって観察される。例えば、行動は、様々なデジタルに観察可能な行動又は複数の物体間の相互作用を含み得る。

ステップ１５４において、行動の観察は、可能性としては複数のデータ様式に従って（すなわち、存在、経験、又は表現の複数のモードに従って）、デジタル表現へと変換される。デジタル表現内で表され得る例示的なデータ様式は、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ（例えば、動き、速度、加速など）、無線信号データ、又は他のタイプのデータを含む。

ステップ１５６において、複数の特徴が、１以上の特徴検出アルゴリズムを使用してデジタル表現から生成される。ビデオデータのフレームを処理するための例示的な特徴検出アルゴリズムは、スケール不変性特徴変換（ＳＩＦＴ）、速いレティーナキーポイント（ＦＲＥＡＫ）、指向性勾配のヒストグラム（ＨＯＧ）、スピードアップロバスト特徴（ＳＵＲＦ）、ＤＡＩＳＹ、二値ロバスト不変性スケーラブルキーポイント（ＢＲＩＳＫ）、ＦＡＳＴ、二値ロバスト独立エレメンタリー特徴（ＢＲＩＥＦ）、ハリスコーナーズ（ＨａｒｒｉｓＣｏｒｎｅｒｓ）、Ｅｄｇｅｓ、勾配位置及び方向ヒストグラム（ＧＬＯＨ）、画像勾配のエネルギー（ＥＯＧ）、又は変換不変性下位構造（ＴＩＬＴ）特徴検出アルゴリズムを含む。

ステップ１５８において、経時的な特徴が、時間を通して特徴を追跡することによって決定される。例えば、経時的な特徴は、時間の経過に応じてデジタル表現のボリューム空間内で移動し、現れ又は消え、存在し又は存在しなくなり、１つのタイプの値（例えば、記述子の値）から別のタイプの値へシフトし、又は他のタイプの経時的な質を示し得る。

ステップ１６０において、経時的な特徴は、経時的な特徴のクラスタを表すノードを含む１以上の行動グラフへと変換される。各行動グラフは、摂取メタデータから決定される際に、文脈に基づいて適用され得る１以上の類似性スコアリング技術を含む。例えば、類似性スコアリング技術は、可能性としてはノード毎の比較に基づく、ノード毎の解析、ユークリッド距離を測定すること、放射基底関数（ＲＢＦ）、カイ二乗カーネル、又は他の技術を含む。

ステップ１６２において、１以上の行動グラフは、関連するメタデータのみならず、類似性スコアリング技術と共に行動データベース内に記憶される。

図２は、一実施形態による、行動認識システムの概略図である。行動認識システム２００は、フィールド内で観察される行動を認識するために、既知の行動グラフ情報を利用する。行動認識システム２００は、行動データベース２８０及び行動認識装置２１０を備える。行動認識装置２１０は、様々な実施形態のうちの１以上を実行するように構成された１以上のモジュール（例えば、非一時的コンピュータ可読メモリ内に記憶されたソフトウェア指示命令、及びその指示命令を実行することができるプロセッサ）を含む、計算装置を表す。行動認識装置２１０として動作することができる例示的な計算装置は、タブレットコンピュータ、パーソナルコンピュータ、サーバ、ウェブサービスサーバ、バーチャルマシン、クラウドベースのコンピュータシステム（例えば、ＩａａＳ、ＳａａＳ、ＰａａＳなどをサポートする１以上のサーバ）、カメラ、携帯電話、公衆電話、電化製品、輸送体、航空機、ロボット、ゲーム機、監視システム、玩具、又は他のタイプの計算装置を含む。

行動データベース２８０は、１以上の類似性スコアリング技術２８３を含む、既知の行動グラフ情報を記憶することができる永続メモリを有する、１以上のモジュールを備える。ある実施形態では、行動データベース２８０が、ネットワーク接続を介してアクセス可能な別個の計算装置を備える。例えば、行動データベース２８０は、行動グラフ情報、行動グラフデータオブジェクト、及び類似性スコアリング技術２８３を有する結果セット、又は既知の行動に関連する他の結果セットを提供することによって、文脈のクエリに反応するウェブサービスシステムを備え得る。他の実施形態では、行動データベース２８０が、行動認識装置２１０のメモリ構成要素内に記憶されたデータ構造を備え得る。例えば、既知の行動グラフ又は類似性スコアリング技術２８３は、対応する摂取メタデータ、ノード、又は他のスキーマ（ｓｃｈｅｍａ）に基づいて階層構造化されたツリー構造に従って記憶される。行動データベース２８０は、図１Ａに関して説明された技術に基づいて、様々な行動グラフのオブジェクトが追加され得る。

行動認識装置２１０は、行動認識のための複数のモジュールを伴って構成される。理解を容易にするために、以下の説明は、携帯装置、例えば、スマートフォン又はタブレットコンピュータの観点から、行動認識装置２１０の機能を提示する。行動認識装置２１０は、デジタル表現２２３をキャプチャーすることができる又はそれをキャプチャーするように構成された、センサ２２０に接続される。例えば、ユーザは、男性のアイススケート選手２２４のビデオシーケンスデジタル表現をキャプチャーするように、カメラが装備された携帯電話を方向付け得る。センサ２２０は、各々が異なるデータ様式をキャプチャーすることができる複数のセンサを表し得ることが、理解されるべきである。したがって、デジタル表現２２３は、画像データ（例えば、超音波、赤外線、可視スペクトルなど）、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ、被写界深度データ、３Ｄ登録データ、ラジオ若しくは無線データ、ＩＭＵデータ、又は他のデータ様式を含む、データ様式の複数の層を含み得る。各様式は、それ自身の行動グラフをもたらし、又は図１Ａで示されたように、複数の感知様式の複数のセットを結合した行動グラフ内に含まれ得る。

好適な実施形態では、デジタル表現２２３が、その下で行動認識が生じ得るところの状況の性質を反映する、デバイスコンテキストの属性２２５を含む。あるシナリオでは、デバイスコンテキストの属性２２５が、デジタル表現２２３の実際のキャプチャリングに関連する状況を反映する。他のシナリオでは、デバイスコンテキストの属性２２５が、行動認識装置２１０が動作しているところの、状況を反映し得る。また更に、デバイスコンテキストの属性２２５は、複数のシナリオを反映し得る。例えば、デジタル表現２２３が医療手順のビデオを表す一実施形態では、デバイスコンテキストの属性２２５が、可能性としては、その手順、健康管理プロバイダー、その手順の場所（例えば、病院、手術室、ＧＰＳ座標など）についての情報、又は他の情報を含む、その手順が実行される時に密接に関連する文脈的な属性を含み得る。更に、そのビデオは、その手順の後に訓練目的で使用され得る。そのような場合に、デバイスコンテキストの属性２２５は、訓練生、先生、その手順の結果、又は訓練に関して行動認識に関連する他の要素についての情報を含み得る。したがって、デバイスコンテキストの属性２２５は、行動認識装置２１０、キャプチャリング装置、又は他の装置に関連する属性を有し得る。図２で提示された実施例では、デバイスコンテキストの属性２２５が、男性のアイススケート選手２２４のビデオをキャプチャーしている携帯電話である、行動認識装置２１０の文脈を表している。

デバイスコンテキストの属性２２５は、デバイスコンテキストに関連する情報の広範なスペクトルの形態をとり得る。好適な実施形態では、デバイスコンテキストの属性２２５は、既知の行動グラフに関連する行動摂取メタデータを有する、共通のネームスペース（すなわち、標準化された述語体系）に紐付けられる。このアプローチは有利である。何故ならば、それが、デバイスコンテキストと、類似の摂取メタデータにタグ付けされた既知の行動グラフとの間のマッチング基準を規定することを可能にするからである。したがって、デバイスコンテキストの属性２２５は、摂取メタデータに関連する属性値のペアの複数のセットも含み得る。

行動認識装置２１０は、１以上の技術に従って情景のデジタル表現２２３を取得するように構成される。示されている実施例では、デジタル表現２２３が、センサ２２０（例えば、カメラ、マイクロフォン、加速度計など）からのセンサデータとして得られる。他の実施形態では、デジタル表現２２３が、ネットワークを介して取得され得る。例えば、アイススケートのイベントなどのスポーツイベントは、ケーブルネットワーク又は無線ネットワークを介して放送され、消費者は、ＤＶＲ装置又はコンピュータを使用して、アイススケートのイベントを記録し得る。それによって、コンピュータ又はＤＶＲ装置が、行動認識装置２１０となる。

一実施形態では、行動認識装置２１０が、デバイスコンテキストの属性２２５をクエリとして使用し、類似性スコアリング技術２８３又は他の既知の行動グラフのオブジェクト情報の１以上のセットにアクセスし得る。クエリは、デバイスコンテキストの基準に変換され、共通の属性のネームスペース内の関連するデバイスコンテキストの境界を示す。行動データベース２８０は、デバイスコンテキストの基準を満たす、文脈的関連スコアリング技術２８５を用いてクエリに応答し得る。行動認識装置２１０は、これもまたクエリを満たす属性を有する１以上の既知の行動グラフのオブジェクトを受信することもできることに留意されたい。クエリを行動データベース２８０に追加することによって、行動認識装置２１０は、類似性スコアリング技術２８３のセットから、文脈的関連スコアリング技術２８５を選択し得る。

一実施形態では、行動認識装置２１０が、デジタル表現２２３を解析し、デジタル表現２２３から複数の経時的な特徴を生成する。例えば、経時的な特徴は、図１Ａに関連して説明されたように、既知の行動グラフを生成するために使用される、１以上の特徴検出アルゴリズムに従って生成され得る。経時的な特徴２３０は、可能性としては、ＳＩＦＴ、ＢＲＩＳＫ、ＳＵＲＦ、ＦＡＳＴ、ＢＲＩＥＦ、ハリスコーナーズ、Ｅｄｇｅｓ、ＤＡＩＳＹ，ＧＬＯＨ、ＨＯＧ、ＥＯＧ、ＴＩＬＴ、又は経時的な性質を有し得る他のタイプの特徴を含む、経時的な態様を有する特徴又は記述子を含む。例えば、経時的な特徴２３０は、ビデオデータストリームの複数のフレームにわたる特徴の軌跡のクラスタを含み得る。

ある実施形態では、行動認識装置２１０が、生成された経時的な特徴を使用して、デジタル表現２２３内の物体を更に認識し得る。経時的な特徴又はそれらの記述子は、認識された物体２７０に関連する物体情報（例えば、名前、アイデンティティー、形状、色、コンテンツなど）を読み出すために使用され得る。例えば、物体情報は、デバイスコンテキストの属性２２５を決定し、行動認識プロセスを洗練させ、又は結果セットをフィルタリングするために更に使用され得る。

行動認識装置２１０は、経時的な特徴２３０のクラスタから構築されたノードを有する、少なくとも１つの観察行動グラフ２４０を制定する。観察行動グラフ２４０は、好ましくは、既知の行動グラフが、上述した図１Ａで制定されたのと同じ方式で構築される。前に説明したように、Ｗｈａｎｇ２０１３は、有向非巡回行動グラフを構築するための１つの技術を説明する。したがって、一実施形態では、既知の行動グラフと観察行動グラフ２４０の両方が、有向非巡回グラフを含み、有向非巡回グラフのノードは、特徴の軌跡のクラスタを含み得る。しかし、当業者は、他のタイプの行動グラフも可能であることを理解するだろう。

行動認識装置２１０は、文脈的関連スコアリング技術２８５のセットの機能として、観察行動グラフ２４０のための類似性行動スコア２５０を計算する。２以上の既知の行動グラフが、現在の行動認識作業に文脈的に関連し、各行動グラフが、複数の文脈的関連スコアリング技術２８５を有し得ることは理解されるべきである。更に、各行動グラフは、文脈的な情報に基づいて異なるスコアリング技術を有し得る。文脈的に関連するものに対する可能な既知の行動グラフの数を低減させ又はフィルタリングすることによって、結果を提供するために必要な計算資源が低減される。

類似性行動スコア２５０は、観察行動グラフ２４０内及び既知の行動グラフ内のノードの機能に基づくなど、１以上の関連するスコアリング技術（例えば、ユークリッド距離、放射基底関数（ＲＢＦ）、カイ二乗カーネルなど）に基づいて計算され得る。結果としてのスコアは、現在の文脈に関連した観察される行動グラフ２４０に最も類似する、既知の行動グラフのランキングを示し得る。そのようなランキングも文脈を反映することが、更に理解されるべきである。ある実施形態では、類似性行動スコア２５０が、ノード文脈ベース重み付け（例えば、重み付けのマトリクスなど）に基づいても計算され得る。そのようにして、行動認識装置２１０は、１以上の既知の行動と類似した観察される行動を認識することができる。

類似性行動スコア２５０に基づいて、行動認識装置２１０は、行動認識の結果セット２６０にアクセスし得る。行動認識の結果セット２６０は、少なくとも１つの更なる行動が、観察される行動の認識に基づくことを可能にするデジタルデータを表す。データ、例えば、検索結果は、類似性行動スコア２５０に従って、又はランキングＳＶＭ（サポートベクトルマシン）を含む技術に基づいてランク付けされ得る。例えば、行動認識の結果は、アドレス（例えば、ＵＲＬ、ＵＲＩ、ファイルハンドル、ＩＰアドレスなど）、行動識別子、検索結果、推奨、異常、警告、区分け、指示命令、ランキング、文脈的に関連する情報、コンテンツ情報、宣伝、広告、又は他のタイプのコンテンツ若しくは認識される行動のグラフに拘束され得る指示命令を含み得る。

ある実施形態では、既知の行動グラフが、異なる階級へと分類され得る。そのような実施形態では、行動認識装置２１０が、類似性行動スコア２５０に基づいて観察される行動の分類を生成するように更に構成され得る。例えば、既知の行動グラフは、１以上のドメイン、例えば、スポーツ、文脈的な計画通りの行動、（車の）ドライブなどへと分類され得る。その後、行動認識装置２１０は、分類を観察行動グラフ２４０に割り当て、行動認識の結果セット２６０の部分としてその分類を含み得る。ある場合に、分類情報は、第三者が階級ベースの行動認識のイベントにアクセスするための委託を可能にし得る。例えば、テレビ放映されているスポーツイベントの間に、広告主は、特定の行動、例えば、タッチダウン又はホームランが消費者の携帯電話によって観察されたときに、広告を提示する排他的な権利を購入し得る。

ある実施形態では、既知の行動グラフが、共に一続きになり又は結合して包括的な行動を形成する複数の行動の流れを示す、経時的な情報を含み得る。したがって、観察行動グラフ２４０は、既知の行動グラフと完全には合致しないだろうが、既知のグラフの部分と優れて合致し得る。その既知のグラフの部分は、サブ（ｓｕｂ‐）の行動又は動作と考えられ得る。そのような場合に、行動認識装置２１０は、類似性行動スコア２５０に基づいて、観察される行動内の次の動作を予測するように構成され得る。スコアは、次の動作が既知の行動グラフ内の次の動作とマッチングする可能性を示し得る。したがって、行動認識の結果セット２６０は、観察行動グラフ２４０に関連する予測を含み得る。使用事例として、コンピュータゲームＡＩが、本開示の技術を備えているシナリオを考える。ＡＩは、プレイヤーの行動を観察することができる。観察される行動が既知の行動の一部分とマッチングするようなときに、ＡＩは、既知の行動に従って予期され得るものに基づいて、プレイヤーの次の動作を予測しようと試みる、回避操縦（ｅｖａｓｉｖｅｍａｎｅｕｖｅｒ）を実施し得る。

図３は、一実施形態による、行動認識システムの例示的な動作のフロー図を示す。方法３００は、行動認識装置２１０などの行動認識装置の本開示の役割又は責任を有するように構成され又はプログラムされた、１以上の計算装置によって実行されることが理解されるべきである。例えば、行動認識装置は、携帯電話、公衆電話、携帯情報端末、タブレットコンピュータ、玩具、輸送体、ウェブカメラ、又は他のタイプの計算装置を備え得る。更に、行動認識装置は、ビデオデータの画像フレームをキャプチャーするように装備された画像キャプチャー装置（例えば、ビデオカメラ又はゲーム機）を備え得るセンサ、例えば、センサ２２０を含み得る。

ステップ３０２において、特徴検出アルゴリズムを使用して、複数の経時的な特徴が、観察される行動のデジタル表現から生成される。デジタル表現は、画像データ、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ、及び無線信号データのうちの１以上を含み得る。

ステップ３０４において、デジタル表現から生成された経時的な特徴の１以上のクラスタを含む観察行動グラフが制定され、経時的な特徴の１以上のクラスタのうちの各々の１つが、観察行動グラフのノードを制定する。例えば、観察行動グラフのノードは、特徴の軌跡のクラスタを含み得る。

ステップ３０６において、少なくとも１つの文脈的関連スコアリング技術が、既知の行動グラフに対する類似性スコアリング技術から選択され、少なくとも１つの文脈的関連スコアリング技術は、デジタル表現のデバイスコンテキストの属性に基づいて規定されたデバイスコンテキストの基準を満たす、行動摂取メタデータに関連する。類似性スコアリング技術は、ユークリッド距離、リニアカーネル、多項式カーネル、カイ二乗カーネル、コーシーカーネル、ヒストグラムインターセクションカーネル、ヘリンジャーズカーネル、ジェンセンシャノンカーネル、ハイパボリックタンジェント（ｓｉｇｍｏｉｄ）カーネル、有理二次カーネル、マルチ二次カーネル、逆マルチ二次カーネル、円形カーネル、球形カーネル、波形カーネル、パワーカーネル、ログカーネル、スプラインカーネル、ベッセルカーネル、一般化されたＴスチューデントカーネル、ベイジアンカーネル、ウェーブレットカーネル、放射基底関数（ＲＢＦ）、指数カーネル、ラプラシアンカーネル、ＡＮＯＶＡカーネル、及びＢスプラインカーネル関数のうちの少なくとも１つを含み得る。

ステップ３０８では、類似性行動スコアが、少なくとも１つの文脈的関連スコアリング技術の機能として、観察行動グラフのために計算され、類似性行動スコアは、少なくとも１つの既知の行動グラフと関連する。ある実施形態では、行動認識の結果セットが、類似性行動スコアに基づいて生成され得る。

Ｗａｎｇ２０１３の態様は、行動認識に関して使用されるために利用され得るが、本開示のアプローチでは顕著な差異が存在する。本開示のアプローチは、摂取メタデータに結び付けられた類似性スコアリング技術を含み、どのタイプのスコアリングが認識プロセスの間に適用されるべきかを決定する。

他の差異は、（これもまた文脈的に敏感である）グラフの辺の重み付けを介して既知のノード間の空間的な関係性を符号化すること、グラフの階層構造を使用して意味的に複雑なイベントを解釈（ｒｅａｓｏｎａｂｏｕｔ）すること、単に経時的な因果関係及び空間的な近接よりも深い関係性（例えば、特定の物体のインスタンスに関連する例示的なノードが、より大きな経時的又は空間的スペーシングにあるにもかかわらず、接続され得る）によって規定されるグラフトポロジーを可能にすること、及び複数のセンサ様式からのデータが結合されて単一の行動グラフになることを可能にすることを含む。

行動が、グラフレベル又はノードレベルにおいてさえ解析されるという観点において、行動認識装置は、個人的な情報にアクセスすることなしに行動又は既知の行動からの逸脱を認識し得る。以下の安全性シナリオを考えてみる。公共的な空間、例えば、ショッピングモール又は空港は、日毎に様々な行動を行う何千もの人々を有し得る。公共的な空間の安全性システムは、行動認識装置として動作し得る。摂取された計画通りの行動に基づいて、安全性システムは、既知の摂取された行動とマッチングしない行動を特定することを試み得る。公共的な空間内の物体（例えば、人々など）が、（例えば、加速度データに基づいて）既知の行動から逸脱し始めたときに、システムは警告を生成し得る。顕著であるのは、その解析が、特定の個人に対して認識プロセスを実行することなしに行われ、それによって、観察される個々人のプライバシーを保証し得ることである。

更に別の１つの可能性がある場合は、既知の行動グラフを理学療法の形態の部分として使用することを含む。ある実施形態では、データベースが、治療計画にわたって広がる望ましい物理的行動のセット又はスペクトルを記憶するように構築され得る。プログラムを通して患者が作業する際に、彼らの進歩は、セッションのビデオをキャプチャーすること、及びそのビデオを望ましい進歩を表す対応する行動グラフと比較することによってモニターされ得る。同じように、その技術は、訓練目的（例えば、スポーツ、軍隊、建造、手術など）のために使用され得る。そのようなアプローチは、アスリートが、彼ら自身を、そのクラスで最高のアスリート、統計的な標準、若しくは行動に対して予測された資格を表す、コンピュータが生成した行動グラフに対してでさえ、又はカスタマイズされた若しくは演出された行動と比較することを可能にする。また更に、「プレイ」（例えば、サッカーのプレイなど）に関連する既知の行動は、どんなプレイがチームによって展開されそうかを予測するために使用され得る。

様々な実施形態のうちの更に別の１つの可能性のある用途は、既知の行動グラフを、ロボットの相互作用のためのテンプレートとして使用することを含む。ロボットは、１以上の既知の行動グラフを、どのように行動をナビゲートするかについての指示命令として使用し得る。この技術は、技術の叙述的（ｐｒｅｄｉｃａｔｉｖｅ）な態様を利用する。例えば、ロボットは、自然災害の犠牲者を探索すること又はショッピングセンターで棚卸しすることなどの、特定の行動を通して受け入れ可能な経路のヴァリエーション（ｖａｒｉａｔｉｏｎ）を表す、多くの既知の行動グラフを取得することができる。ロボットが認識された行動又は状況に入る又はそれらと遭遇するときに、ロボットは、ヴァリエーションから生成された予測に基づいて行動することを試みることができる。そのようなアプローチの利点は、ヴァリエーションのおかげで、ロボットとの相互作用が、プログラム的であるというよりはむしろ、より自然な感じで現れ得ることである。

観察される行動は、コンテンツをロック解除するためにも使用され得る。あるシナリオでは、行動の観察が、消費者に対する広告又は宣伝の提示をトリガし得る。そのような場合に、ブランドマネージャーは、認識された「購入」行動に応じて、彼らのブランドメッセージを提供することに関する独占的な幾つかの形態を有するために料金を支払うことができる。特定の行動に対する権利は、時間、独占性、継続、競売、又は他の要因に基づいて、料金と引き換えにアクセスされ得る。更に、既知の行動は、コンテンツをロック解除するためのキー又は安全性（ｓｅｃｕｒｉｔｙ）トークンとして使用され得る。現在の行動が観察され又は認識されているときに、コンテンツはロック解除され又はアクセスが認められ得る。

本開示の技術に関連する、可能性がある数多くのヴァリエーションが存在する。ある実施形態では、行動グラフが、物体のプリミティブに基づいてノードを構築することによって、注記を付けられ又は物体の相互作用プリミティブから作られ得る。物体の相互作用プリミティブは、物体に関連する行動の基本セットを表す。１つのプリミティブは、物体が時間にわたり静止したままであり又は変化しない、物体のパシステンスを含み得る。別の１つのプリミティブは、第１の物体が第２の物体に変更される、物体の変換を含み得る。物体と物体の保存されている相互作用は、何時、２つの物体が相互作用を有しながらも、両者が変更されないままであるかを表し得る。また更に、物体の区分けは、何時、１つの物体が２つの物体をもたらすかを表し得る。更にプリミティブの別の１つのセットは、物体の生成又は物体の破壊を含み得る。物体のヌル（ＮＵＬＬ）相互作用は、物体が存在しないことを表すために使用され得る。非常に複雑な行動グラフは、そのようなプリミティブから構築され得る。

ある実施形態では、行動グラフが、階層構造の形態をとり得る。最も低いレベルでは、行動グラフ内のノードが、軌跡のクラスタに基づいて物体の相互作用プリミティブを表し得る。そのような行動グラフは、それ自身、大きな行動（すなわち、物体の相互作用の複雑なセット）を表し、より大きな行動グラフ内のノードになり得る。この進歩は、徐々により高いレベルのグラフを生み出し得る。例えば、映画は、情景を表すサブグラフを有する単一の行動グラフを含み得る。情景のグラフは、俳優又は物体を表す行動グラフであるノードを含み得る。今度は、これらが、物体の相互作用プリミティブによって表されるノードから成る。この階層アプローチは、グラフ構造の類似性を通して行動の異なるタイプの間のマルチスケール解析を提供する。

類似性スコアリング技術は、カーネルアプローチを利用し得る。カーネルアプローチも、既知の行動グラフを使用して、おそらく統計的に重要な数の行動を観察することに基づいて、観察される行動を解析することをもたらす。カーネルアプローチは、行動分類、リグレッション（例えば、予測動作（ｐｒｅｄｉｃｔｉｎｇａｃｔｉｏｎ）、補外法（ｅｘｔｒａｐｏｌａｔｉｎｇ）、動向（ｔｒｅｎｄｉｎｇ）など）、クラスタリング（例えば、群集行動、消費者人口解析など）、異常値の検出（例えば、異常行動、基準からの逸脱など）、ランキング（例えば、行動又はイベントの理想的なパフォーマンスに関するランキング、検索（ｒｅｔｒｉｅｖａｌ）の間の類似行動のランキング、一定量の動き、含まれる行動の数、又は感知様式の間の相互作用などの、特定の比較基準に基づいて異なる行動の類似性をランキングすること）、区分け（例えば、１つの行動の終わりと別の１つの行動の始まりとの間の区別）、又はカーネル法を利用する他の解析技術のために使用され得る。

類似性スコアリング技術は、選択された行動又はドメインに基づいて、重み付けされたり又はフィルタリングされたりもし得る。例えば、観察される屋外の情景は、選択されたドメイン、例えば、ユーザによって又はＧＰＳの測位に基づいてフィルタリングされ、それによって、そのドメインに関連しない自動車、動物、又は他の物体が、類似性行動スコアの計算において自動的にフィルタリングアウトされ得る。

本開示の技術は、更に精密化されて、メモリ又はプロセッサに束縛される埋め込まれた装置を対象にし得る。ある実施形態では、既知の行動グラフが、例えば、主成分分析（ＰＣＡ）に基づいて削除された低い値のノードを有し得る。例えば、１つの行動を他の１つの行動から区別することに対する貢献を欠いたノードが除去され得る。したがって、グラフの次元は低減され、又は低い貢献のノードを除去することによってグラフ内のノイズが低減され得る。

更に、静止画像も、行動を認識するために使用され得る。ある実施形態では、行動グラフが、ノードに関連する対応する行動を表す、１以上のキーフレームを含み得る。観察される静止画像は、そのようなキーフレームと比較されて、観察される静止画像が対応する行動グラフと合致しているか否かを決定し得る。ある実施形態では、行動認識装置は、静止画像から特徴を導き出し、その特徴を使用して、画像の特徴を既知の行動グラフのノードと比較することを通して、１以上の既知のグラフのグラフスケールへの画像のマッピングを制定することができる。静止画像は、既知のグラフの複数のノードを覆って「広げられ（ｓｐｒｅａｄ）」得ることが、理解されるべきである。例えば、画像の部分（例えば、認識された物体）は、第１の時間（ｔ０）に対応するノードに対応し、一方、他の部分（例えば、第２の認識された物体）は、異なる時間（ｔ１）における異なるノードに対応し得る。そのようなコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）及び計算された類似性行動スコアを通して、行動認識装置は、如何に優れて静止画像が、１以上の既知の行動のスナップショットに対応するかを予測することができる。

本明細書で説明されたシステム、装置、及び方法は、デジタル回路を使用して、又はよく知られたコンピュータプロセッサ、メモリユニット、記憶装置、コンピュータソフトウェア、及び他の構成要素を使用する１以上のコンピュータを使用して実装され得る。通常は、コンピュータが、指示命令を実行するためのプロセッサ、並びに指示命令及びデータを記憶するための１以上のメモリを含む。コンピュータは、１以上の磁気ディスク、内部ハードディスク及び除去可能ディスク、磁気光ディスク、光ディクスなどの、１以上の大容量記憶装置も含み得るか、又はそれらに接続され得る。

本明細書で説明されたシステム、装置、及び方法は、クライアントサーバ関係において動作するコンピュータを使用して実装され得る。通常、そのようなシステムでは、クライアントコンピュータが、サーバコンピュータから離れて配置され、ネットワークを介して相互作用する。クライアントサーバ関係は、それぞれのクライアント及びサーバコンピュータで実行されるコンピュータプログラムによって規定され、且つ、制御され得る。

本明細書で説明されたシステム、装置、及び方法を実装するために使用され得る例示的なクライアントサーバ関係の高レベルのブロック図が、図４で示されている。クライアントサーバ関係４００は、ネットワーク４３０を介してサーバ４２０と通信するクライアント４１０を含み、クライアント４１０とサーバ４２０との間の行動認識作業の１つの可能な区分けを示している。例えば、上述された様々な実施形態に従って、クライアント４１０は、サーバ４２０と通信し、観察される行動のデジタル表現を生成することによって、及び／又は観察される行動データのデジタル表現をサーバ４２０に送信することによって、行動認識検索を容易にするように構成され得る。サーバ４２０は、特徴検出アルゴリズムを使用して観察される行動のデジタル表現から複数の経時的な特徴を生成し、デジタル表現から生成された経時的な特徴の１以上のクラスタを含む観察行動グラフを制定し、既知の行動グラフに対する類似性スコアリング技術から少なくとも１つの文脈的関連スコアリング技術を選択し、且つ、少なくとも１つの文脈的関連スコアリング技術の機能として、観察行動グラフのための類似性行動スコアを計算するように構成され得る。類似性行動スコアは、少なくとも１つの既知の行動グラフに関連している。ある実施形態では、サーバ４２０が、クライアント４１０からデジタル表現データを受信し、デジタル表現データに基づいて行動認識検索を行い、行動認識の結果セットを生成し、且つ、行動認識の結果セットをクライアント４１０へ送信するように更に構成され得る。図４で示された例示的なクライアントサーバ関係は、本明細書で説明されたシステム、装置、及び方法を実装するために可能な多くのクライアントサーバ関係のうちのただ１つであることを、当業者は理解するだろう。そのようにして、図４で示されたクライアントサーバ関係は、どのようなやり方にしても、限定的に解釈されるべきではない。クライアント装置４１０の例は、携帯電話、公衆電話、携帯情報端末、タブレットコンピュータ、玩具、輸送体、ウェブカメラ、又は他のタイプの計算装置を含み得る。

本明細書で説明されたシステム、装置、及び方法は、プログラム可能プロセッサによって実行されるために、情報媒体、例えば、非一時的機械可読記憶装置内で有形に具現化された、コンピュータプログラム製品を使用して実装され得る。図１Ｂ及び図３のステップの１以上を含む、本明細書で説明された方法ステップは、そのようなプロセッサによって実行可能な１以上のコンピュータプログラムを使用して実装され得る。コンピュータプログラムは、コンピュータ内で直接的又は間接的に使用され、特定のアクティビティーを実行し又は特定の結果をもたらし得る、コンピュータプログラム指示命令の１つのセットである。コンピュータプログラムは、編集され又は解釈される言語を含む、プログラミング原語の任意の形態で書かれ得る。それは、独立型のプログラム若しくはモジュール、構成要素、サブルーチン、又は計算環境で使用されるために適切な他のユニットを含む、任意の形態で展開され得る。

本明細書で説明されたシステム、装置、及び方法を実装するために使用され得る例示的な装置の高レベルのブロック図が、図５で示されている。装置５００は、固定記憶装置５２０及び主要なメモリ装置５３０と動作可能に接続されたプロセッサ５１０を備える。プロセッサ５１０は、そのような動作を規定するコンピュータプログラム指示命令を実行することによって、装置５００の全体の動作を制御する。コンピュータプログラム指示命令は、固定記憶装置５２０又は他のコンピュータ可読媒体内に記憶され、且つ、コンピュータプログラム指示命令の実行が望ましいときに、主要なメモリ装置５３０の中へ読み込まれ得る。例えば、行動認識装置２１０及びセンサ２２０は、装置５００の１以上の構成要素を備え得る。したがって、図１Ｂ及び図３の方法ステップは、主要なメモリ装置５３０及び／又は固定記憶装置５２０内に記憶されたコンピュータプログラム指示命令によって規定され、コンピュータプログラム指示命令を実行するプロセッサ５１０によって制御され得る。例えば、コンピュータプログラム指示命令は、当業者によってプログラムされたコンピュータ実行可能コードとして実装され、図１Ｂ及び図３の方法ステップによって規定されたアルゴリズムを実行し得る。したがって、コンピュータプログラム指示命令を実行することによって、プロセッサ５１０は、図１Ｂ及び図３の方法ステップによって規定されたアルゴリズムを実行する。装置５００は、ネットワークを介して他の装置と通信するための１以上のネットワークインターフェース５８０も含む。装置５００は、装置５００とのユーザの相互作用を可能にする、１以上の入力／出力装置５９０（例えば、ディスプレイ、キーボード、マウス、スピーカ、ボタンなど）も含み得る。

プロセッサ５１０は、一般的な及び特殊目的の両方のマイクロプロセッサを含み、装置５００の単一のプロセッサ又は複数のプロセッサのうちの１つであり得る。例えば、プロセッサ５１０は、１以上の中央処理装置（ＣＰＵ）を備え得る。プロセッサ５１０、固定記憶装置５２０、及び／又は主要なメモリ装置５３０は、１以上の特定用途向け集積回路（ＡＳＩＣ）及び／又は１以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）を含み、それらによって補われ、又はそれらの中に組み込まれ得る。

固定記憶装置５２０と主要なメモリ装置５３０は、各々、有形の非一時的コンピュータ可読記憶媒体を備える。固定記憶装置５２０と主要メモリ装置５３０は、各々、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダブルデータレート同期ダイナミックランダムアクセスメモリ（ＤＤＲＲＡＭ）、又は他のランダムアクセス半導体メモリ装置などの、高速ランダムアクセスメモリを含み、且つ、内部ハードディスク及び除去可能ディクスなどの１以上の磁気ディスク記憶装置、磁気光ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、コンパクトディスクリードオンリーメモリ（ＣＤ‐ＲＯＭ）、デジタル多用途ディスクリードオンリーメモリ（ＤＶＤ‐ＲＯＭ）ディスク、又は他の不揮発性半導体記憶装置などの、半導体メモリ装置などの、不揮発性メモリを含み得る。

入力／出力装置５９０は、プリンター、スキャナー、ディスプレイスクリーンなどの、周辺機器を含み得る。例えば、入力／出力装置５９０は、情報（例えば、選択のための複数の画像変換）をユーザに表示するための陰極線管（ＣＲＴ）、プラズマ又は液晶ディスプレイ（ＬＣＤ）モニター、及びそれによってユーザが装置５００に入力を提供するところの、キーボード、マウス、又はトラックボールなどのポインティングデバイスを含み得る。

行動認識装置２１０及びセンサ２２０を含む、本明細書で説明されたシステムと装置の何れか又は全ては、装置５００などの装置によって実行され及び／又はそれらの中に組み込まれ得る。

実際のコンピュータ又はコンピュータシステムの実施態様は、他の構造を有し、同様に他の構成要素を含み得ること、且つ、図５は、例示目的のそのようなコンピュータの構成要素の幾つかの高レベルの表現であることを、当業者は理解するだろう。

以上の明細書は、あらゆる点で、例示的なものであり限定的なものではないということが理解されるべきである。本明細書で開示された本発明の範囲は、明細書から決定されるべきではく、むしろ特許法によって認められている全体に従って解釈される特許請求の範囲から決定されるべきである。本明細書で示され説明された実施形態は、本発明の原理の例示に過ぎず、本発明の範囲及び精神から逸脱することなしに、様々な変形が当業者によって実施され得ることが理解されるべきである。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。

Claims

行動認識システムであって、
既知の行動グラフに対する複数の類似性スコアリング技術であって、各々が、行動摂取メタデータに関連する、複数の類似性スコアリング技術を記憶するように構成された行動データベースと、
前記行動データベースに接続された行動認識装置とを備え、
前記行動認識装置が、
特徴検出アルゴリズムを使用して、観察される行動のデジタル表現から複数の経時的な特徴を生成し、
前記デジタル表現から生成された経時的な特徴の１以上のクラスタであって、各々が、観察行動グラフのノードを定義する、１以上のクラスタを含む前記観察行動グラフを形成し、
既知の行動グラフに対する前記複数の類似性スコアリング技術から、デバイスコンテキストの基準を満たす行動摂取メタデータと関連する少なくとも１つの文脈的に関連するスコアリング技術を選択し、且つ
前記少なくとも１つの文脈的に関連するスコアリング技術の関数として、前記観察行動グラフのための、少なくとも１つの既知の行動グラフに関連する類似性行動スコアを計算するように構成され、
前記デバイスコンテキストの基準は、前記デジタル表現のデバイスコンテキストの属性に基づいて定義され、
前記デバイスコンテキストの属性と前記行動摂取メタデータが、共通のネームスペースに紐付けられており、
前記デバイスコンテキストの基準が、前記共通のネームスペース内の関連するデバイスコンテキストの境界を示す、システム。
前記行動データベースが、前記既知の行動グラフを記憶するように更に構成されている、請求項１に記載のシステム。
前記行動認識装置が、前記既知の行動グラフ内のノード及び前記観察行動グラフ内のノードの関数として、前記類似性行動スコアを計算するように更に構成されている、請求項２に記載のシステム。
前記行動データベースが、少なくとも部分的に、前記行動認識装置のメモリ内に記憶されている、請求項１に記載のシステム。
前記行動認識装置が、タブレットコンピュータ、パーソナルコンピュータ、カメラ、携帯電話、公衆電話、電化製品、輸送体、ロボット、及びゲーム機のうちの少なくとも１つを備えている、請求項１に記載のシステム。
前記行動摂取メタデータが、ドメイン特有の属性を含む、請求項１に記載のシステム。
前記行動摂取メタデータが、物体の属性を含む、請求項１に記載のシステム。
前記行動摂取メタデータが、場所の属性、時間の属性、位置の属性、及び方向の属性のうちの少なくとも１つを含む、請求項１に記載のシステム。
前記既知の行動グラフと前記観察行動グラフが、有向非巡回グラフを含む、請求項１に記載のシステム。
前記観察行動グラフの前記ノードが、特徴の軌跡のクラスタを含む、請求項１に記載のシステム。
前記デジタル表現が、画像データ、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ、及び無線信号データのうちの１以上を含む、請求項１に記載のシステム。
前記特徴検出アルゴリズムが、スケール不変性特徴変換（ＳＩＦＴ）、速いレティーナキーポイント（ＦＲＥＡＫ）、指向性勾配のヒストグラム（ＨＯＧ）、スピードアップロバスト特徴（ＳＵＲＦ）、ＤＡＩＳＹ、二値ロバスト不変性スケーラブルキーポイント（ＢＲＩＳＫ）、ＦＡＳＴ、二値ロバスト独立エレメンタリー特徴（ＢＲＩＥＦ）、ハリスコーナーズ、Ｅｄｇｅｓ、勾配位置及び方向ヒストグラム（ＧＬＯＨ）、画像勾配のエネルギー（ＥＯＧ）、及び変換不変性下位構造（ＴＩＬＴ）特徴検出アルゴリズムのうちの少なくとも１つを含む、請求項１に記載のシステム。
前記既知の行動グラフが、行動グラフのプリミティブを含む、請求項１に記載のシステム。
前記行動グラフのプリミティブが、物体のパシステンス、物体の変換、物体対物体の保存された相互作用、物体の区分け、物体のクリエーション、物体のディストラクション、及び物体のＮＵＬＬ相互作用のうちの少なくとも１つを含む、請求項１３に記載のシステム。
前記既知の行動グラフが、他の既知の行動グラフを含むノードを含む、請求項１に記載のシステム。
前記既知の行動グラフが、キーフレームを含む、請求項１に記載のシステム。
前記行動認識装置が、前記類似性行動スコアに基づいて、行動認識の結果セットを生成するように更に構成されている、請求項１に記載のシステム。
前記行動認識装置が、前記観察行動グラフに、前記行動認識の結果セットを含む分類を割り当てるように更に構成されている、請求項１７に記載のシステム。
前記行動認識の結果セットが、前記観察行動グラフに関する行動予測を含む、請求項１７に記載のシステム。
前記行動認識の結果セットが、アドレス、行動識別子、検索結果、推奨、異常、警告、区分け、指示命令、ランキング、文脈的に関連する情報、コンテンツ情報、宣伝、及び広告のうちの少なくとも１つを含む、請求項１７に記載のシステム。
前記行動認識装置が、前記既知の行動グラフのうちの少なくとも１つのノードに対して画像特徴をマッピングすることによって、前記デジタル表現から前記既知の行動グラフのうちの前記少なくとも１つのグラフスペースの中への静止画像のマッピングを制定するように更に構成されている、請求項１に記載のシステム。
前記行動認識装置が、前記マッピング、及び前記既知の行動グラフのうちの前記少なくとも１つの前記ノードに基づいて、行動予測を生成するように更に構成されている、請求項２１に記載のシステム。
前記類似性スコアリング技術が、ユークリッド距離、リニアカーネル、多項式カーネル、カイ二乗カーネル、コーシーカーネル、ヒストグラムインターセクションカーネル、ヘリンジャーズカーネル、ジェンセンシャノンカーネル、ハイパボリックタンジェント（ｓｉｇｍｏｉｄ）カーネル、有理二次カーネル、マルチ二次カーネル、逆マルチ二次カーネル、円形カーネル、球形カーネル、波形カーネル、パワーカーネル、ログカーネル、スプラインカーネル、ベッセルカーネル、一般化されたＴスチューデントカーネル、ベイジアンカーネル、ウェーブレットカーネル、放射基底関数（ＲＢＦ）、指数カーネル、ラプラシアンカーネル、ＡＮＯＶＡカーネル、及びＢスプラインカーネル関数のうちの少なくとも１つを含む、請求項１に記載のシステム。
前記類似性スコアリング技術が、ノード文脈ベース重み付けの少なくとも１つのセットを含む、請求項１に記載のシステム。
前記ノード文脈ベース重み付けの少なくとも１つのセットが、ノード重み付けのマトリクスを含む、請求項２４に記載のシステム。
行動認識装置における行動認識の方法であって、
特徴検出アルゴリズムを使用して、観察される行動のデジタル表現から複数の経時的な特徴を生成すること、
前記デジタル表現から生成された経時的な特徴の１以上のクラスタであって、各々が、観察行動グラフのノードを制定する、１以上のクラスタを含む前記観察行動グラフを制定すること、
既知の行動グラフに対する複数の類似性スコアリング技術から、デバイスコンテキストの基準を満たす行動摂取メタデータと関連する少なくとも１つの文脈的に関連するスコアリング技術を選択すること、及び
前記少なくとも１つの文脈的に関連するスコアリング技術の関数として、前記観察行動グラフのための、少なくとも１つの既知の行動グラフに関連する類似性行動スコアを計算することを含み、
前記デバイスコンテキストの基準は、前記デジタル表現のデバイスコンテキストの属性に基づいて定義され、
前記デバイスコンテキストの属性と前記行動摂取メタデータが、共通のネームスペースに紐付けられており、
前記デバイスコンテキストの基準が、前記共通のネームスペース内の関連するデバイスコンテキストの境界を示す、方法。
行動認識のための、コンピュータプロセッサによって実行可能な指示命令を含む非一過性コンピュータ可読媒体内に埋め込まれたコンピュータプログラムであって、前記指示命令が、
特徴検出アルゴリズムを使用して、観察される行動のデジタル表現から複数の経時的な特徴を生成すること、
前記デジタル表現から生成された経時的な特徴の１以上のクラスタであって、各々が、観察行動グラフのノードを制定する、１以上のクラスタを含む前記観察行動グラフを制定すること、
既知の行動グラフに対する複数の類似性スコアリング技術から、デバイスコンテキストの基準を満たす行動摂取メタデータと関連する少なくとも１つの文脈的に関連するスコアリング技術を選択すること、及び
前記少なくとも１つの文脈的に関連するスコアリング技術の関数として、前記観察行動グラフのための、少なくとも１つの既知の行動グラフに関連する類似性行動スコアを計算することを含む、処理を実行するように前記コンピュータプロセッサによって実行可能であり、
前記デバイスコンテキストの基準は、前記デジタル表現のデバイスコンテキストの属性に基づいて定義され、
前記デバイスコンテキストの属性と前記行動摂取メタデータが、共通のネームスペースに紐付けられており、
前記デバイスコンテキストの基準が、前記共通のネームスペース内の関連するデバイスコンテキストの境界を示す、コンピュータプログラム。