JP6388356B2 - 行動認識システム及び方法 - Google Patents

行動認識システム及び方法 Download PDF

Info

Publication number
JP6388356B2
JP6388356B2 JP2017519218A JP2017519218A JP6388356B2 JP 6388356 B2 JP6388356 B2 JP 6388356B2 JP 2017519218 A JP2017519218 A JP 2017519218A JP 2017519218 A JP2017519218 A JP 2017519218A JP 6388356 B2 JP6388356 B2 JP 6388356B2
Authority
JP
Japan
Prior art keywords
behavior
graph
kernel
context
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017519218A
Other languages
English (en)
Other versions
JP2017525070A (ja
Inventor
カーミル ヴヌク,
カーミル ヴヌク,
ニコラス ジェー. ウィッチー,
ニコラス ジェー. ウィッチー,
Original Assignee
ナント ホールディングス アイピー, エルエルシー
ナント ホールディングス アイピー, エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ナント ホールディングス アイピー, エルエルシー, ナント ホールディングス アイピー, エルエルシー filed Critical ナント ホールディングス アイピー, エルエルシー
Publication of JP2017525070A publication Critical patent/JP2017525070A/ja
Application granted granted Critical
Publication of JP6388356B2 publication Critical patent/JP6388356B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

関連出願の相互参照
本出願は、2014年6月17日に出願された米国仮特許出願62/013,508号の利益を主張する。上記仮特許出願は、その全内容が引用によって本明細書に組み込まれる。
本開示は、広くは、行動認識技術に関する。
背景技術の説明は、本発明を理解することにおいて有用であり得る情報を含む。本明細書で提供される情報の何れかが先行技術であり若しくは本特許請求の範囲に記載された発明に関連するということは、自明なことではなく、又は具体的に若しくは暗に参照される任意の文献が先行技術であるということも自明なことではない。
ビデオデータ内で表された行動などの、観察される行動を認識することは、非常に複雑な作業である。既存の技術は、特に消費者の行動に関して、市場に浸透することができなかった。2012年11月28日に出願された「Method and System for Measuring Social influence and Receptivity of Users」という名称のQinらによる米国特許出願公開2014/0149418号によって例示されるように、何らかの労力が、ウェブでのやり取りに関するユーザの行動を特定することに費やされてきた。しかし、Qinによって開示された技術は、観察される行動を認識することに適用できない。
行動認識のための有向グラフ(directed graph)を使用することに、他の労力が費やされてきた。そのような技術の実施例は、以下の論文で説明される。すなわち、
2012年のProceedings of European Conference on Computer Vision(ECCV)のZhangらによる「Graph Degree Linkage:Agglomerative Clustering on a Directed Graph」(「Zhang2012」)、
WangらによるCVPR2011‐IEEE Conference on Computer Vision&Pattern Recognition(2011)3169‐3176の「Action Recognition by Dense Trajectories」(「Wang2011」)、及び
Wangらによる2013IEEE International Conference on Computer Vision(ICCV)の「Directed Acyclic Graph Kernels for Action Recognition」(「Wang2013」)である。
上述のアプローチは、特別なグラフを使用して、観察される行動を認識することに関する。例えば、Wang2013は、有向非巡回グラフ(directed acyclic graph(DAG))を使用して行動を認識するための基礎を提供する。しかし、そのようなアプローチに必要な計算時間は、カメラ、携帯電話、タブレットコンピュータ、玩具、輸送体、及び他の消費者装置の使用などの、消費者装置の用途で使用されるには法外である。
消費者が装置(例えば、携帯電話)を介してスポーツイベント又はダンスリサイタルなどの行動を観察することを可能にし、その行動を自動的に認識し、且つ、認識した行動に基づいてその装置が動作を開始することをもたらすアプリケーションに、消費者がアクセスすることは現在できていない。更に、現在のアプローチは、行動を認識することへの影響を持ち得る文脈的な状況を考慮することができない。例えば、Wang2013のアプローチは、ダンスと喧嘩との間の差異を認識する文脈的な解決力を欠いている。したがって、観察される文脈に敏感な、費用効果に優れた行動認識が、必要であり続けている。
本発明の主題は、既知の行動グラフに適用される文脈的なスコアリング技術を使用することを通じて、行動が装置を介して認識され得る、装置、システム、及び方法を提供する。一実施形態では、特徴検出アルゴリズムを使用して、複数の経時的な特徴が、観察される行動のデジタル表現から生成される。デジタル表現は、画像データ、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ、及び無線信号データのうちの1以上を含み得る。デジタル表現から生成された経時的な特徴の1以上のクラスタを含む観察される行動のグラフ(observed activity graph)(以下、「観察行動グラフ」)が制定され、経時的な特徴の1以上のクラスタのうちの各々が、観察行動グラフのノードを制定する。観察行動グラフのノードは、特徴の軌跡のクラスタを含み得る。少なくとも1つの文脈的に関連するスコアリング技術(contextually relevant scoring technique)(以下、「文脈的関連スコアリング技術」)は、既知の行動グラフに対する類似性スコアリング技術から選択され、少なくとも1つの文脈的関連スコアリング技術は、デジタル表現のデバイスコンテキストの属性(device contexual attribute)に基づいて規定されたデバイスコンテキストの基準を満たす行動摂取メタデータ(activity ingestion metadata)に関連し、且つ、類似性行動スコアが、少なくとも1つの文脈的関連スコアリング技術の機能として、観察行動グラフに対して計算され、類似性行動スコアは、少なくとも1つの既知の行動グラフに関連する。類似性スコアリング技術は、ユークリッド距離(Euclidean distance)、リニアカーネル(linear kernel)、多項式カーネル(polynomial kernel)、カイ二乗カーネル(Chi‐squared kernel)、コーシー(Cauchy)カーネル、ヒストグラムインターセクション(histogram intersection)カーネル、ヘリンジャーズ(Hellinger’s)カーネル、ジェンセンシャノン(Jensen‐Shannon)カーネル、ハイパボリックタンジェント(sigmoid)カーネル、有理二次(rational quadratic)カーネル、マルチ二次カーネル、逆(inverse)マルチ二次カーネル、円形(circular)カーネル、球形(spherical)カーネル、波形(wave)カーネル、パワーカーネル、ログカーネル、スプラインカーネル、ベッセルカーネル、一般化されたTスチューデントカーネル、ベイジアン(Bayesian)カーネル、ウェーブレット(wavelet)カーネル、放射基底関数(RBF)、指数カーネル、ラプラシアン(Laplacian)カーネル、ANOVAカーネル、及びBスプラインカーネル関数のうちの少なくとも1つを含み得る。行動認識の結果セットは、類似性行動スコアに基づいて生成され得る。
ある実施形態では、既知の行動グラフ及び観察行動グラフが、有向非巡回グラフを含み得る。
ある実施形態では、類似性行動スコアが、既知の行動グラフ内のノード及び観察行動グラフ内のノードの関数として計算され得る。
ある実施形態では、デバイスコンテキストの属性及び行動摂取メタデータが、共通のネームスペースに紐付け(adhere to)られ得る。
ある実施形態では、行動摂取メタデータが、ドメイン特有の属性と、物体の属性と、場所属性と、時間属性、位置属性、及び方向属性のうちの少なくとも1つとを含み得る。
ある実施形態では、特徴検出アルゴリズムが、スケール不変性特徴変換(SIFT)、速いレティーナキーポイント(FREAK)、指向性勾配のヒストグラム(HOG)、スピードアップロバスト特徴(SURF)、DAISY、二値ロバスト不変性スケーラブルキーポイント(BRISK)、FAST、二値ロバスト独立エレメンタリー特徴(BRIEF)、ハリスコーナーズ(Harris Corners)、Edges、勾配位置及び方向ヒストグラム(GLOH)、画像勾配のエネルギー(EOG)、又は変換不変性下位構造(Transform Invariant Low−rank Texture)(TILT)特徴検出アルゴリズムのうちの少なくとも1つを含み得る。
ある実施形態では、既知の行動グラフが、行動グラフのプリミティブ(primitive)を含み得る。行動グラフのプリミティブは、物体のパシステンス(persistence)、物体の変換、物体対物体の保存された相互作用(object‐to‐object conserved interaction)、物体の区分け(object segmentation)、物体のクリエーション、物体のディストラクション、及び物体のNULL相互作用のうちの少なくとも1つを含み得る。
ある実施形態では、既知の行動グラフが、他の既知の行動グラフを含むノードを含み得る。
ある実施形態では、既知の行動グラフが、キーフレームを含み得る。
ある実施形態では、観察行動グラフに分類が割り当てられ、分類は行動認識の結果セットを含み得る。
ある実施形態では、行動認識の結果セットが、観察行動グラフに関する行動予測を含み得る。
ある実施形態では、行動認識の結果セットが、アドレス、行動識別子、検索結果、推奨、異常、警告、区分け(segmentation)、指示命令、ランキング、文脈的に関連する情報、コンテンツ情報、宣伝、及び広告のうちの少なくとも1つを含み得る。
ある実施形態では、デジタル表現からの静止画像のマッピングが、画像特徴を既知の行動グラフのうちの少なくとも1つのノードへマッピングすることによって、既知の行動グラフのうちの少なくとも1つのグラフスペースの中へ制定され得る。
ある実施形態では、マッピング、及び既知の行動グラフのうちの少なくとも1つのノードに基づいて、行動予測が生成され得る。
ある実施形態では、類似性スコアリング技術が、ノード文脈ベース重み付け(node context‐based weight)の少なくとも1つのセットを含み、ノード文脈ベース重み付けの少なくとも1つのセットは、ノード重み付けのマトリクスを含み得る。
本発明の主題の様々な目的、特徴、態様、及び利点が、類似の符号が類似の構成要素を指す添付図面と共に、好適な実施形態の以下の詳細な説明からより明らかになるだろう。
一実施形態による、行動認識のための摂取プロセスの概略図である。 一実施形態による、行動認識のための摂取プロセスの例示的な動作のフロー図を示す。 一実施形態による、行動認識システムの概略図である。 一実施形態による、行動認識システムの例示的な動作のフロー図を示す。 様々な実施形態の1以上の態様を実装するために使用され得る、例示的なクライアントサーバ関係のブロック図を示す。 様々な実施形態の1以上の態様を実装するために使用され得る、分散型コンピュータシステムのブロック図を示す。
上述の図面を参照しながら本発明が説明されるが、図面は例示的なものであることが企図され、他の実施形態も本発明の精神と一致し、本発明の範囲内に含まれる。
今や様々な実施形態が添付図面を参照しながら本明細書でより完全に説明され、それらの図面は、本明細書の一部分を為し、図解を手段として本実施形態を実施する具体的な実施例を示す。しかし、本説明は、多くの異なる形態で具現化され、本明細書で説明される実施形態に限定されるものと解釈されるべきではなく、むしろ、これらの実施形態は、本説明が包括的で完全となるように、且つ、当業者に本発明の範囲を十分に伝えるように提供される。他の物事の中でとりわけ、本説明は方法又は装置として具現化され得る。したがって、本明細書の様々な実施形態のいずれも、全体がハードウェアの実施形態、全体がソフトウェアの実施形態、又はソフトウェアとハードウェアの態様を組み合わせた実施形態の形態をとり得る。したがって、以下の説明は、限定的な趣旨で理解されるべきではない。
本説明及び特許請求の範囲を通して、以下の用語は、文脈が明らかに他の意味を定義するのでなければ、明白に本明細書で関連付けられた意味を持つ。
「一実施形態では」というフレーズは、必ずしも同じ実施形態を指すものではないように本明細書で使用される。したがって、以下で説明されるように、本発明の様々な実施形態は、本発明の範囲又は精神から逸脱することなしに、容易に結合され得る。
本明細書で使用されるように、「又は(or)」という用語は包括的な「又は(or)」オペレータであり、文脈が明らかに他の意味を定義するのでなければ、「及び/又は(and/or)」という用語と同義である。
「に基づいて」という用語は、排他的なものではなく、文脈が明らかに他の意味を定義するのでなければ、説明されていない更なる要素に基づくことを許容する。
本明細書で使用される際に、文脈が他の意味を定義するのでなければ、「連結され(接続され)」という用語は、直接的な連結(2つの要素が互いに接触した状態で連結される)及び間接的な連結(2つの要素の間に少なくとも1つの更なる要素が配置されている)の両方を含むことが企図される。したがって、「と連結(接続)され」及び「に連結(接続)され」と言う用語は、同義的に使用される。2つ以上の構成要素又は装置がデータを交換することができる、ネットワーク化された環境の文脈内では、「と連結(接続)され」及び「に連結(接続)され」という用語は、可能性としては1以上の中間物を介して「電気的に通じている」ことを意味するためにも使用され得る。
更に、説明を通して、「1つの(a)」、「1つの(an)」、及び「その(the)」の意味は、複数への言及を含み、「内(in)」の意味は、「内(in)」及び「上(on)」を含む。
以下の説明は、本発明の主題の多くの例示的な実施形態を提供する。本明細書で提示される様々な実施形態のうちの幾つかは、本発明の要素の単一の組み合わせを構成するが、本発明の主題が本開示の要素の全ての可能な組み合わせを含むと解釈されることは、理解されるべきである。そのようにして、一実施形態が要素A、B、及びCを備え、別の一実施形態が要素B及びDを備えるならば、本発明の主題は、たとえ本明細書で明らかに説明されていなくても、A、B、C、又はDの他の残りの組み合わせも含むものと考えられ得る。
本明細書の説明で且つ以下の特許請求の範囲を通して使用される際に、システム、エンジン、サーバ、装置、モジュール、又は他の計算要素が、メモリ内のデータに対して機能を実行するように構成されているものと説明されたときに、「ように構成され」又は「ようにプログラムされ」の意味は、計算要素の1以上のプロセッサ又はコアが、メモリ内に記憶されたターゲットデータ又はデータオブジェクトに対して機能のセットを実行するように、計算要素のメモリ内に記憶されているソフトウェア指示命令のセットによってプログラムされているものと定義される。
コンピュータに向けられた任意の言語は、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、又は個別に若しくは集団的に動作する他のタイプの計算装置構造を含む、計算装置の任意の適切な組み合わせを含むように読まれるべきであることに留意されたい。計算装置が、有形の非一時的コンピュータ可読記憶媒体(例えば、ハードドライブ、FPGA、PLA、半導体ドライブ、RAM、フラッシュ、ROMなど)に記憶されたソフトウェア指示命令を実行するように構成されたプロセッサを備えることを、当業者は理解するべきである。本開示の装置に関連して以下で説明される、役割、責任、又は他の機能を提供するように、ソフトウェア指示命令が、計算装置を構成し又はプログラムする。更に、コンピュータベースのアルゴリズム、プロセス、方法の実施態様と関連する本開示のステップを実行するようにプロセッサを動作させるソフトウェア指示命令又は他の指示命令を記憶している、非一時的コンピュータ可読媒体を含む、コンピュータプログラム製品として本開示の技術は具現化され得る。ある実施形態では、可能性としてはHTTP、HTTPS、AESに基づいて標準化されたプロトコル又はアルゴリズム、官民の鍵交換、ウェブサービスAPL、既知の金融取引プロトコル、又は他の電子情報交換方法を使用して、様々なサーバ、システム、データベース、又はインターフェースが、データを交換する。装置の間でのデータ交換は、パケット交換ネットワーク(packet‐switchied network)、インターネット、LAN、WAN、VPN、又は他のタイプのパケット交換ネットワーク、回路交換ネットワーク、セル交換ネットワーク、又は他のタイプのネットワークを介して実行され得る。
本明細書で特定される全ての出版物は、各個別の出版物又は特許出願書類が、参照されることによって組み込まれることを具体的に且つ個別に企図されているような程度において、参照されることによって組み込まれる。組み込まれた参照文献における用語の定義又は使用が、本明細書で提供される用語の定義と一貫しない又は矛盾するところでは、本明細書で提供されたその用語の定義が適用され、参照文献内のその用語の定義は適用されない。
以下の説明は、本発明を理解することにおいて有用であり得る情報を含む。本明細書で提供される情報の何れかが先行技術であり若しくは本特許請求の範囲に記載された発明に関連するということは、自明なことではなく、又は具体的に若しくは暗に参照される任意の文献が先行技術であるということも、自明なことではない。
ある実施形態では、本発明の特定の実施形態を説明し、本発明の特定の実施形態を特許請求するために使用される、構成要素の量を表す数、集中、反応状態などの特性は、「約(about)」という用語によってある例の中で変更されるように理解されるべきである。したがって、ある実施形態では、本説明及び添付の特許請求の範囲で説明される数値パラメータが、特定の実施形態によって得られることを求められる望ましい特性に応じて変動し得る。ある実施形態では、数値パラメータが、報告された重要な数字に照らして、且つ、通常の丸めの技術を適用することによって、解釈され得るべきである。本発明のある実施形態の広範囲を説明する数値的な範囲及びパラメータが近似であるにもかかわらず、特定の実施例で説明される数値は、現実的である程度に精密なものとして報告される。本発明のある実施形態で提示される数値は、やむを得ずそれらのそれぞれの試験的な測定値において見られる標準的な逸脱からもたらされる一定の誤差を含む場合がある。
文脈が逆の定義をしていなければ、本明細書で説明される全ての範囲は、それらのエンドポイントを含むように解釈されるべきであり、制約がない(open‐ended)範囲は、商業的に実現可能な値のみを含むと解釈されるべきである。同様に、値の全てのリストは、文脈が逆を示しているのでなければ、中間的な値を含むと解釈されるべきである。
本明細書及び以下の特許請求の範囲で使用される際に、文脈が明らかにそれ以外のことを定義するのでなければ、意味として「1つの(a)」、「1つの(an)」、及び「その(the)」は複数形を含む。また、本明細書の説明で使用される際に、文脈が明らかにそれ以外のことを定義するのでなければ、意味として「内(in)」は「内(in)」及び「上(on)」を含む。
本明細書での値の範囲の列挙は、単に、その範囲に含まれる各個別の値に対する個別の参照の簡略化された方法として働くものであると企図される。本明細書でそれ以外のことが定義されているのでなければ、各個別の値は、それが本明細書で個別に列挙されているように説明文の中に組み込まれる。本明細書で説明される全ての方法は、本明細書で特に説明されていなければ又は文脈から明らかに矛盾するものでなければ、任意の適切な順序で実行され得る。任意の及び全ての実施例、又は本明細書の特定の実施形態に関して提供される例示的な言語(例えば、「〜など(such as)」)の使用は、単に本発明をより良く理解させることを企図するものであり、それ以外のことが特許請求されているのでなければ本発明の範囲に対する限定をもたらすものではない。本説明で何も書かれていなければ、それは、本発明の実施に必要不可欠な任意の特許請求されていない要素を示すものと解釈されるべきである。
本明細書で開示される本発明の代替的な要素又は実施形態のグループ化は、限定として解釈されるべきではない。各グループメンバーは、個別に言及され且つ特許請求され、又はそのグループの他のメンバー若しくは本明細書で見られる他の要素との任意の組合わせで言及され且つ特許請求され得る。1つのグループの1以上のメンバーは、利便性及び/又は特許可能性を理由として、1つのグループに含まれ又は1つのグループから削除され得る。任意のそのような包含又は削除が生じるときに、本明細書の説明は、修正されたそのグループを含み、したがって、添付の特許請求の範囲内で使用される全てのマーカッシュグループの書かれた説明を満たすものと考えられる。
本開示の技術は、行動を認識する装置に対する計算上のオーバーヘッドを低減させることを含む、多くの有利な技術的効果を提供することに留意されたい。したがって、計算装置は、デジタル画像データを処理し、データ内の観察された特徴が既知の行動を表すものであるか否かを決定することができる。計算装置は、人間の能力をはるかに超えて、実質的な量のデジタルデータを処理することができる。
本開示のアプローチは、計算装置が情景のデジタル表現内で表される1以上の行動を認識するためのインフラを提供する。行動は、行動の広いスペクトルにわたる1以上の行動を含み得る。例示的な行動は、プレイ、スポーツ、ショッピング、ゲームプレイ、軍事訓練、理学療法、又は他のタイプの行動を含む。本開示の技術は、人間ではないものの行動及び物体の相互作用を認識するためにも適用されることを理解されたい。例えば、人間ではないものの行動及び物体の相互作用は、経時的な輸送体の活動、ロボット又は群れの相互作用、地質系の活動、又は他のタイプの行動及び物体の相互作用を含む。
行動は、行動グラフの使用を介して文脈ベースで認識され得る。行動グラフは、好ましくは時間を通して(例えば、期間にわたり又は時間枠内で)、対応する行動を表すノード及び辺(edge)を含むメモリ内のデータ構造である。観察される行動は、観察行動グラフへと変換され、その後、既知の行動グラフと比較され得る。観察行動グラフは、観察行動グラフが、どの程度既知の行動グラフ(すなわち、以前に認識された行動の行動グラフ)と類似するかに基づいて、スコアが割り当てられ得る。更に、観察行動グラフにスコアが与えられるやり方は、その観察の文脈に応じ得る。
図1Aは、一実施形態による、行動認識のための摂取プロセスの概略図である。プロセス100は、観察される行動を認識する動作の間の、行動認識装置105の様々な動作を示している。示されている実施例では、(行動認識装置105と接続され又はそれの範囲内にある)センサ120が、行動110の環境を感知することによって行動110を観察する。行動110は、様々なデジタルに観察可能な行動又は複数の物体間の相互作用を含み得る。単一のセンサ120(例えば、ビデオカメラセンサ)が示されているが、センサ120は、可能性としては複数のデータ様式にしたがって(すなわち、存在、経験、又は表現の複数のモードにしたがって)、行動の観察をデジタル表現130に変換することができる、1以上のセンサを表し得る。デジタル表現130内で表され得る例示的なデータ様式は、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ(例えば、動き、速度、加速など)、無線信号データ、又は他のタイプのデータを含む。
明瞭さ及び理解の容易さのために、デジタル表現130は、以下の説明においてビデオデータを含む。しかし、デジタル表現130が、ビデオ、静止画、音響、加速度測定値、又は他のデータの任意の組み合わせを含み得ることを、当業者は理解するだろう。そのようにして、本明細書の実施形態は、例示的なものであり、様々な他のタイプのデータを含むデジタル表現から行動を認識することに関して、徹底的であり又は限定的であること企図するものではない。例えば、デジタル表現130は、手袋内に配置された加速度計からの加速度測定値データも含み得る。その後、加速度測定値データは、観察され得る手のジェスチャー(例えば、手話、指示命令など)を表し得る。
示されている実施例では、アイススケート選手が環境の周りを移動するように示されている。デジタル表現130は、数多くのフレームを有するビデオデータストリームを含み、アイススケート選手は、フレーム毎に異なる位置に置かれ得る。アイススケート選手は、(X、Y、T)空間内のあるボリューム(volume)をなぞるように移動するものと考えられ、ここで、X及びYは画像フレームの2D空間を表し得る。時間にわたりアイススケート選手がなぞったボリューム空間は、同様に、例えば、カメラに対する深度、方向、音響の大きさ、又は他の次元などの他の次元を含み得る。
行動110は、1以上の特徴検出アルゴリズムを使用して摂取され、デジタル表現130から複数の特徴133を生成する。ビデオデータのフレームを処理するための例示的な特徴検出アルゴリズムは、スケール不変性特徴変換(SIFT)、速いレティーナキーポイント(FREAK)、指向性勾配のヒストグラム(HOG)、スピードアップロバスト特徴(SURF)、DAISY、二値ロバスト不変性スケーラブルキーポイント(BRISK)、FAST、二値ロバスト独立エレメンタリー特徴(BRIEF)、ハリスコーナーズ(Harris Corners)、Edges、勾配位置及び方向ヒストグラム(GLOH)、画像勾配のエネルギー(EOG)、又は変換不変性下位構造(TILT)特徴検出アルゴリズムを含む。経時的な特徴135は、その位置が時間を通して追跡された、可能性としては時間と共に変動する、特徴133を表す。例えば、経時的な特徴135は、時間の経過に応じてデジタル表現のボリューム空間内で移動し、現れ又は消え、存在し又は存在しなくなり、1つのタイプの値(例えば、記述子の値)から別のタイプの値へシフトし、又は他のタイプの経時的な質(quality)を示し得る。例示的な経時的な1つの特徴は、軌跡、すなわち、(X、Y、T)空間内の経路を形成する、幾つかのフレームにわたる特徴133の位置であり得る。ノイズ及び変動に対するより優れた不感性(insensitivity)を獲得するために、経時的な特徴135の別の一実施例は、類似の動き及び空間的近接を共有する軌跡のクラスタを含む。
経時的な特徴135は、経時的な特徴135のクラスタを表すノード141を含む1以上の行動グラフ140へと変換される。行動グラフ140は、時間内の比較可能なイベント(例えば、動き、音など)の間の経時的又は空間的な関係性を表すことができる。したがって、ノード141は、比較の方法によって他の信号(例えば、他のノード)と比較され得る、時間内に存在する信号である。例えば、行動グラフ140は、Whangらの「Directed Acyclic Graph Kernels for Action Recognition」2013IEEE international Conference on Computer Vision(ICCV)(本明細書において以後、「Wang2013」と呼ばれる)によって提示された、有向非巡回グラフ(DAG)を含み得る。しかし、Wang2013内で説明された有向非巡回グラフは、文脈的な認識のための十分な情報を欠いている。この不備は、本明細書で説明される様々な実施形態によって補われる。
行動グラフ140は、N×Nマトリクスとしてメモリ内で表され、ここで、Nはグラフ内のノード141の数であり得る。DAGの場合に、このマトリクスは、1つのノードが有向辺を介して別の1つのノードに連結されることをセル内の1つの値が示す、非対称性を有し得る。例えば、マトリクスのセル(3、5)は、ノード3からノード5への長さ2(任意の単位)の辺を介して、ノード3がノード5に連結することを示す2という値を有し得る。しかし、マトリクスのセル(5、3)は、逆方向における辺が存在しないことを示す、0すなわちヌル(NULL)という値を有し得る。
行動グラフは、経時的なノード141の因果関係(経時的な特徴135のクラスタ)を示すように解釈され得る。例えば、Wang2013は、空間的及び経時的に近接するが時間において明らかに重ならない2つの経時的なノードの間の直接的なリンクを生成することによって、有効非巡回グラフ(DAG)を構築することを説明している。したがって、DAGは、明らかな因果関係のみ、例えば、「ノードAがノードBの先にくる」又は「ノードBがノードAの後にくる」ことを符号化する。しかし、Wang2013内で考慮されたものよりも複雑なグラフ関係が符号化され、特定のドメインにおけるより意味のある比較又は特定の文脈的な入力を可能にし得る。例えば、物体のアイデンティティーが知られているならば、たとえノードがビデオデータストリームの空間時間ボリューム内の空間的な近接として現れないとしても、情景内の既知の物体に関するノードが連結され得る。
Wang2013内で説明されたDAGは、その動作がDAGに限定されるところの、提案されたランダムウォークグラフカーネルを利用するために選択される。ランダムウォークグラフカーネルは、グラフを通る共通の経路の数をカウントすることによって2つのグラフの間の類似性を解釈する。Wang2013によって提案された一般化されたランダムウォークグラフカーネルは、経路に沿ったノードの比較が、二分(類似又は異なる)決定の位置にある連続的な類似性の値を有することが許容される、DAGの比較を可能にする。他の近似するグラフカーネルがDAG以外のために使用され得るが、増加する計算負荷、及びグラフトポロジー誤差に対するより大きな敏感さというコストが存在する。更に、(Whan2013で説明されていない)枝重み(edge weight)が、行動グラフ内のノード関係性における強度又は信頼性を表すために使用され得る。例えば、これらの信頼性は、具体的な環境、文脈、又は位置における特定の音響及びビデオ信号の共起(co‐occurrence)の既知の可能性に基づき得る。信頼性は、既知の又は認識された物体の間の予期された独立した行動も表し得る。
一実施形態では、行動グラフ140が、文脈的なスコアリング技術に基づく行動認識のための更なる情報を更に含む。例えば、各行動グラフ140は、摂取メタデータ145(例えば、観察される行動の属性、位置、一日のうちの時間帯など)から決定される際に、文脈に基づいて適用され得る、1以上の類似性スコアリング技術143を含み得る。
類似性スコアリング技術143は、それによって観察行動グラフと既知の行動グラフとの間の類似性が導き出され得るところの、デジタルに符号化され又は実施される、プロセッサによって実行可能なアルゴリズム、モジュール、カーネル、又は他の手順を含む。例示的な類似性スコアリング技術は、可能性としてはノード毎の比較に基づく、ノード毎の解析、ユークリッド距離を測定すること、放射基底関数(RBF)、カイ二乗カーネル、又は他の技術を含む。ある実施形態は、ただ1つのタイプの類似性スコアリング技術を含む行動グラフ140を有するが、他の実施形態は、多くの異なるタイプの類似性スコアリング技術を含む行動グラフ140を有することに留意されたい。
ある実施形態では、類似性スコアリング技術143の各々が、各ノード141(又は対応する辺)が、類似性スコアリング技術が適用されるときに、どのようにして重み付けされるべきかを示す、ノード文脈ベース重み付けの1つのセットを更に含み得る。例えば、アイススケートの文脈内で、ただ1つの類似性スコアリング技術143が、摂取メタデータ145に基づいて利用可能であり得る。しかし、その1つの類似性スコアリング技術は、ノード文脈ベース重み付けの幾つかの異なるセットを有し得る。各セットは、それぞれのノードを強くし又は弱くするために、異なるようにノードに重み付けし得る。例えば、アイスダンスの文脈では、手の動き又は顔の表情に関連するノードが強くされ得る。一方、アイスホッケーの文脈では、身体又は脚の動きのノードが強くされ、他方では、アイスダンスと比較してアイスホッケーでは顔の表情が重要ではないだろうから、顔の表情に関連するノードは低く重み付けされ得る。複数のセンサ様式が使用されている状況では、各感知様式からくるデータの相対的な信頼性を反映するように、重み付けが利用され得る。例えば、カメラ(センサ)が速く振動している文脈では、ビデオデータから導き出された経時的な特徴から成るノードが、被写体ぶれのために信頼性が低くなり、したがって、行動比較におけるそれらの影響は、ビデオベースのノードを低く重み付けすることによって低減され得る。
ノード文脈ベース重み付けの幾つかのセットは、N個のメンバーを有するベクトルの形態をとり得る。ここで、Nはノードの数である。ベクトル内の各値のメンバーは、対応する類似性スコアリング技術143を適用するときに、ノードの貢献度を示し得る。更に、ノード文脈ベース重み付けの幾つかのセットは、行動グラフ140を表すマトリクスの同じ次元を有するN×Nのマトリクス形態をとり得る。そのような場合に、マトリクスのセル内の各値は、類似性スコアリング技術143に対する対応する辺の貢献度を表し得る。
グラフ内の重み付けされた辺及びノードは別にして、類似性スコアリング技術は、ノード141におけるデータのタイプに従って変動する。例えば、経時的な特徴がヒストグラムベースの記述子として符号化される場合に、カイ二乗又はヒストグラムインターセクションカーネルは、ノードの類似性を計算するためにより適切であり得る。別の一実施例では、ノード141が、物理装置、画素、音の強度、又はそのようなユニットのモーメントを含む、記述子ベクトルを含み得る。そのような場合に、ガウシアン(Gaussian)カーネルなどの放射基底関数は、類似性を計算するためにより適切であり得る。更に、使用される特徴及びセンサノイズの量に基づいて、カーネルパラメータ、例えば、ガウシアンカーネルのシグマ(sigma)は、異なるように調整され得る。例えば、画素から導き出された特徴は、深度測定値(例えば、メートルにおいて)から導き出された特徴とは異なるカーネルパラメータを要求し得る。別の一実施例として、静かな環境の文脈において音響特徴を比較するときに、ガウシアンカーネル内のわずかにより小さいシグマパラメータが使用され、ノイズに対する敏感さというコストのために、より近い(すなわち、より厳密な)マッチングを必要とし得る。ノイズに対してより敏感でないことが必要とされるうるさい環境内では、シグマパラメータが高められ得る。
摂取メタデータ145は、行動110の摂取に関連した目的(例えば、摂取の理由)に関する情報、及びどの類似性スコアリング技術143が最も関連しそうかを示す情報を含む。摂取メタデータ145は、自動的に生成された情報又は手動で生成された情報を含み得る。自動的に生成された情報に関して、1以上の物体認識技術が適用され、名前、物体の分類、識別子、位置、サイズ、形状、色、年/季節のうちの時期、温度、タイプ(make)、モデル、又は他の情報を含む、摂取メタデータ145を生成するために、行動110の環境内の物体を特定し得る。本発明の主題と共に使用されるように適切に順応し得る例示的な物体認識技術が、2002年11月5日に出願された「Image caputure and identification system and process」という名称のBoncykらによる米国特許7,016,532号、2005年8月15日に出願された「Use of image‐derived information as search criteria for internet and other search engines」という名称のBoncykらによる米国特許7,680,324、2006年1月26日に出願された「Data capture and identification system and process」という名称のBoncykらによる米国特許7,565,008号、及び2009年7月20日に出願された「Data capture and identification system and process」という名称のBoncykらによる米国特許7,881,529号で開示されている。更に、摂取メタデータ145は、例えば、インターフェース(例えば、ウェブページ、アプリケーション、APIなど)を介してユーザによって、類似性スコアリング技術143に対応するように選択され得る。したがって、摂取メタデータ145は、ドメイン特有の属性(例えば、医療ドメイン、健康管理ドメイン、スポーツドメイン、ゲームドメイン、ショッピングドメインなどに関連する属性)、物体の属性(例えば、物体のタイプ、物体の名前など)、環境若しくは文脈の属性(例えば、場所の属性、時間の属性、位置の属性、方向の属性など)、又は他のタイプの属性を含み得る。
好適な実施形態では、摂取メタデータ145が、規定された属性のネームスペース(すなわち、標準化された述語体系)に紐付けられたデータを含む。例えば、摂取メタデータ145は、対応する類似性スコアリング技術が適用可能なときに、関連する状態を表す属性値のペアを含み得る。例えば、「場所」の属性は、GPS座標、アドレス、ジップコード、又は他の値を含み得る。別の例示的な1つの属性は、装置の動きの強度及び周波数、又はマイクロフォンによって記録された平均デシベルレベルを含み得る。例えば、そのような属性は、それぞれ、ビデオ又は音響チャネルから読み出された特徴の重要性の重み付けを低くするために使用され、それによって、全体の行動グラフの類似性に対するそれらの影響が、データチャネルの信頼性がより低くなり得る文脈において低減され得る。属性値のペアは、ネットワークリンク(例えば、セルラーネットワーク、インターネット、LAN、WAN、無線接続、ブルートゥース(登録商標)接続など)を介した容易な搬送のために、XML、YAML、又はJSONフォーマット内で表され得る。様々な実施形態では、規定された属性のネームスペースが、摂取メタデータ145を、野外観測(field observation)でのデバイスコンテキスト(device context)と比較することを可能にする。
行動110に関連する摂取メタデータ145が与えられたとして、類似性スコアリング技術と共に行動グラフ140が、行動データベース内に記憶され得る。データベースは、ネットワークアクセス可能データベース(例えば、SaaS、IaaS、クラウド、ウェブサービスなど)、ファイルシステム、計算装置内のメモリ内のデータ構造、又は他のデータストア(data store)を含み得る。
図1Bは、一実施形態による、行動認識のための摂取プロセスの例示的な動作のフロー図を示している。方法150は、行動認識装置105などの行動認識装置の本開示の役割又は責任を有するように構成され又はプログラムされた、1以上の計算装置によって実行される。例えば、行動認識装置105は、携帯電話、公衆電話(kiosk)、携帯情報端末、タブレットコンピュータ、玩具、輸送体、ウェブカメラ、又は他のタイプの計算装置を含み得る。更に、行動認識装置105は、ビデオデータの画像フレームをキャプチャーするように装備された画像キャプチャー装置(例えば、ビデオカメラ又はゲーム機)を備え得る、センサ120などのセンサを含み得る。
ステップ152において、行動は、行動の環境を感知することによって観察される。例えば、行動は、様々なデジタルに観察可能な行動又は複数の物体間の相互作用を含み得る。
ステップ154において、行動の観察は、可能性としては複数のデータ様式に従って(すなわち、存在、経験、又は表現の複数のモードに従って)、デジタル表現へと変換される。デジタル表現内で表され得る例示的なデータ様式は、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ(例えば、動き、速度、加速など)、無線信号データ、又は他のタイプのデータを含む。
ステップ156において、複数の特徴が、1以上の特徴検出アルゴリズムを使用してデジタル表現から生成される。ビデオデータのフレームを処理するための例示的な特徴検出アルゴリズムは、スケール不変性特徴変換(SIFT)、速いレティーナキーポイント(FREAK)、指向性勾配のヒストグラム(HOG)、スピードアップロバスト特徴(SURF)、DAISY、二値ロバスト不変性スケーラブルキーポイント(BRISK)、FAST、二値ロバスト独立エレメンタリー特徴(BRIEF)、ハリスコーナーズ(Harris Corners)、Edges、勾配位置及び方向ヒストグラム(GLOH)、画像勾配のエネルギー(EOG)、又は変換不変性下位構造(TILT)特徴検出アルゴリズムを含む。
ステップ158において、経時的な特徴が、時間を通して特徴を追跡することによって決定される。例えば、経時的な特徴は、時間の経過に応じてデジタル表現のボリューム空間内で移動し、現れ又は消え、存在し又は存在しなくなり、1つのタイプの値(例えば、記述子の値)から別のタイプの値へシフトし、又は他のタイプの経時的な質を示し得る。
ステップ160において、経時的な特徴は、経時的な特徴のクラスタを表すノードを含む1以上の行動グラフへと変換される。各行動グラフは、摂取メタデータから決定される際に、文脈に基づいて適用され得る1以上の類似性スコアリング技術を含む。例えば、類似性スコアリング技術は、可能性としてはノード毎の比較に基づく、ノード毎の解析、ユークリッド距離を測定すること、放射基底関数(RBF)、カイ二乗カーネル、又は他の技術を含む。
ステップ162において、1以上の行動グラフは、関連するメタデータのみならず、類似性スコアリング技術と共に行動データベース内に記憶される。
図2は、一実施形態による、行動認識システムの概略図である。行動認識システム200は、フィールド内で観察される行動を認識するために、既知の行動グラフ情報を利用する。行動認識システム200は、行動データベース280及び行動認識装置210を備える。行動認識装置210は、様々な実施形態のうちの1以上を実行するように構成された1以上のモジュール(例えば、非一時的コンピュータ可読メモリ内に記憶されたソフトウェア指示命令、及びその指示命令を実行することができるプロセッサ)を含む、計算装置を表す。行動認識装置210として動作することができる例示的な計算装置は、タブレットコンピュータ、パーソナルコンピュータ、サーバ、ウェブサービスサーバ、バーチャルマシン、クラウドベースのコンピュータシステム(例えば、IaaS、SaaS、PaaSなどをサポートする1以上のサーバ)、カメラ、携帯電話、公衆電話、電化製品、輸送体、航空機、ロボット、ゲーム機、監視システム、玩具、又は他のタイプの計算装置を含む。
行動データベース280は、1以上の類似性スコアリング技術283を含む、既知の行動グラフ情報を記憶することができる永続メモリを有する、1以上のモジュールを備える。ある実施形態では、行動データベース280が、ネットワーク接続を介してアクセス可能な別個の計算装置を備える。例えば、行動データベース280は、行動グラフ情報、行動グラフデータオブジェクト、及び類似性スコアリング技術283を有する結果セット、又は既知の行動に関連する他の結果セットを提供することによって、文脈のクエリに反応するウェブサービスシステムを備え得る。他の実施形態では、行動データベース280が、行動認識装置210のメモリ構成要素内に記憶されたデータ構造を備え得る。例えば、既知の行動グラフ又は類似性スコアリング技術283は、対応する摂取メタデータ、ノード、又は他のスキーマ(schema)に基づいて階層構造化されたツリー構造に従って記憶される。行動データベース280は、図1Aに関して説明された技術に基づいて、様々な行動グラフのオブジェクトが追加され得る。
行動認識装置210は、行動認識のための複数のモジュールを伴って構成される。理解を容易にするために、以下の説明は、携帯装置、例えば、スマートフォン又はタブレットコンピュータの観点から、行動認識装置210の機能を提示する。行動認識装置210は、デジタル表現223をキャプチャーすることができる又はそれをキャプチャーするように構成された、センサ220に接続される。例えば、ユーザは、男性のアイススケート選手224のビデオシーケンスデジタル表現をキャプチャーするように、カメラが装備された携帯電話を方向付け得る。センサ220は、各々が異なるデータ様式をキャプチャーすることができる複数のセンサを表し得ることが、理解されるべきである。したがって、デジタル表現223は、画像データ(例えば、超音波、赤外線、可視スペクトルなど)、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ、被写界深度データ、3D登録データ、ラジオ若しくは無線データ、IMUデータ、又は他のデータ様式を含む、データ様式の複数の層を含み得る。各様式は、それ自身の行動グラフをもたらし、又は図1Aで示されたように、複数の感知様式の複数のセットを結合した行動グラフ内に含まれ得る。
好適な実施形態では、デジタル表現223が、その下で行動認識が生じ得るところの状況の性質を反映する、デバイスコンテキストの属性225を含む。あるシナリオでは、デバイスコンテキストの属性225が、デジタル表現223の実際のキャプチャリングに関連する状況を反映する。他のシナリオでは、デバイスコンテキストの属性225が、行動認識装置210が動作しているところの、状況を反映し得る。また更に、デバイスコンテキストの属性225は、複数のシナリオを反映し得る。例えば、デジタル表現223が医療手順のビデオを表す一実施形態では、デバイスコンテキストの属性225が、可能性としては、その手順、健康管理プロバイダー、その手順の場所(例えば、病院、手術室、GPS座標など)についての情報、又は他の情報を含む、その手順が実行される時に密接に関連する文脈的な属性を含み得る。更に、そのビデオは、その手順の後に訓練目的で使用され得る。そのような場合に、デバイスコンテキストの属性225は、訓練生、先生、その手順の結果、又は訓練に関して行動認識に関連する他の要素についての情報を含み得る。したがって、デバイスコンテキストの属性225は、行動認識装置210、キャプチャリング装置、又は他の装置に関連する属性を有し得る。図2で提示された実施例では、デバイスコンテキストの属性225が、男性のアイススケート選手224のビデオをキャプチャーしている携帯電話である、行動認識装置210の文脈を表している。
デバイスコンテキストの属性225は、デバイスコンテキストに関連する情報の広範なスペクトルの形態をとり得る。好適な実施形態では、デバイスコンテキストの属性225は、既知の行動グラフに関連する行動摂取メタデータを有する、共通のネームスペース(すなわち、標準化された述語体系)に紐付けられる。このアプローチは有利である。何故ならば、それが、デバイスコンテキストと、類似の摂取メタデータにタグ付けされた既知の行動グラフとの間のマッチング基準を規定することを可能にするからである。したがって、デバイスコンテキストの属性225は、摂取メタデータに関連する属性値のペアの複数のセットも含み得る。
行動認識装置210は、1以上の技術に従って情景のデジタル表現223を取得するように構成される。示されている実施例では、デジタル表現223が、センサ220(例えば、カメラ、マイクロフォン、加速度計など)からのセンサデータとして得られる。他の実施形態では、デジタル表現223が、ネットワークを介して取得され得る。例えば、アイススケートのイベントなどのスポーツイベントは、ケーブルネットワーク又は無線ネットワークを介して放送され、消費者は、DVR装置又はコンピュータを使用して、アイススケートのイベントを記録し得る。それによって、コンピュータ又はDVR装置が、行動認識装置210となる。
一実施形態では、行動認識装置210が、デバイスコンテキストの属性225をクエリとして使用し、類似性スコアリング技術283又は他の既知の行動グラフのオブジェクト情報の1以上のセットにアクセスし得る。クエリは、デバイスコンテキストの基準に変換され、共通の属性のネームスペース内の関連するデバイスコンテキストの境界を示す。行動データベース280は、デバイスコンテキストの基準を満たす、文脈的関連スコアリング技術285を用いてクエリに応答し得る。行動認識装置210は、これもまたクエリを満たす属性を有する1以上の既知の行動グラフのオブジェクトを受信することもできることに留意されたい。クエリを行動データベース280に追加することによって、行動認識装置210は、類似性スコアリング技術283のセットから、文脈的関連スコアリング技術285を選択し得る。
一実施形態では、行動認識装置210が、デジタル表現223を解析し、デジタル表現223から複数の経時的な特徴を生成する。例えば、経時的な特徴は、図1Aに関連して説明されたように、既知の行動グラフを生成するために使用される、1以上の特徴検出アルゴリズムに従って生成され得る。経時的な特徴230は、可能性としては、SIFT、BRISK、SURF、FAST、BRIEF、ハリスコーナーズ、Edges、DAISY,GLOH、HOG、EOG、TILT、又は経時的な性質を有し得る他のタイプの特徴を含む、経時的な態様を有する特徴又は記述子を含む。例えば、経時的な特徴230は、ビデオデータストリームの複数のフレームにわたる特徴の軌跡のクラスタを含み得る。
ある実施形態では、行動認識装置210が、生成された経時的な特徴を使用して、デジタル表現223内の物体を更に認識し得る。経時的な特徴又はそれらの記述子は、認識された物体270に関連する物体情報(例えば、名前、アイデンティティー、形状、色、コンテンツなど)を読み出すために使用され得る。例えば、物体情報は、デバイスコンテキストの属性225を決定し、行動認識プロセスを洗練させ、又は結果セットをフィルタリングするために更に使用され得る。
行動認識装置210は、経時的な特徴230のクラスタから構築されたノードを有する、少なくとも1つの観察行動グラフ240を制定する。観察行動グラフ240は、好ましくは、既知の行動グラフが、上述した図1Aで制定されたのと同じ方式で構築される。前に説明したように、Whang2013は、有向非巡回行動グラフを構築するための1つの技術を説明する。したがって、一実施形態では、既知の行動グラフと観察行動グラフ240の両方が、有向非巡回グラフを含み、有向非巡回グラフのノードは、特徴の軌跡のクラスタを含み得る。しかし、当業者は、他のタイプの行動グラフも可能であることを理解するだろう。
行動認識装置210は、文脈的関連スコアリング技術285のセットの機能として、観察行動グラフ240のための類似性行動スコア250を計算する。2以上の既知の行動グラフが、現在の行動認識作業に文脈的に関連し、各行動グラフが、複数の文脈的関連スコアリング技術285を有し得ることは理解されるべきである。更に、各行動グラフは、文脈的な情報に基づいて異なるスコアリング技術を有し得る。文脈的に関連するものに対する可能な既知の行動グラフの数を低減させ又はフィルタリングすることによって、結果を提供するために必要な計算資源が低減される。
類似性行動スコア250は、観察行動グラフ240内及び既知の行動グラフ内のノードの機能に基づくなど、1以上の関連するスコアリング技術(例えば、ユークリッド距離、放射基底関数(RBF)、カイ二乗カーネルなど)に基づいて計算され得る。結果としてのスコアは、現在の文脈に関連した観察される行動グラフ240に最も類似する、既知の行動グラフのランキングを示し得る。そのようなランキングも文脈を反映することが、更に理解されるべきである。ある実施形態では、類似性行動スコア250が、ノード文脈ベース重み付け(例えば、重み付けのマトリクスなど)に基づいても計算され得る。そのようにして、行動認識装置210は、1以上の既知の行動と類似した観察される行動を認識することができる。
類似性行動スコア250に基づいて、行動認識装置210は、行動認識の結果セット260にアクセスし得る。行動認識の結果セット260は、少なくとも1つの更なる行動が、観察される行動の認識に基づくことを可能にするデジタルデータを表す。データ、例えば、検索結果は、類似性行動スコア250に従って、又はランキングSVM(サポートベクトルマシン)を含む技術に基づいてランク付けされ得る。例えば、行動認識の結果は、アドレス(例えば、URL、URI、ファイルハンドル、IPアドレスなど)、行動識別子、検索結果、推奨、異常、警告、区分け、指示命令、ランキング、文脈的に関連する情報、コンテンツ情報、宣伝、広告、又は他のタイプのコンテンツ若しくは認識される行動のグラフに拘束され得る指示命令を含み得る。
ある実施形態では、既知の行動グラフが、異なる階級へと分類され得る。そのような実施形態では、行動認識装置210が、類似性行動スコア250に基づいて観察される行動の分類を生成するように更に構成され得る。例えば、既知の行動グラフは、1以上のドメイン、例えば、スポーツ、文脈的な計画通りの行動、(車の)ドライブなどへと分類され得る。その後、行動認識装置210は、分類を観察行動グラフ240に割り当て、行動認識の結果セット260の部分としてその分類を含み得る。ある場合に、分類情報は、第三者が階級ベースの行動認識のイベントにアクセスするための委託を可能にし得る。例えば、テレビ放映されているスポーツイベントの間に、広告主は、特定の行動、例えば、タッチダウン又はホームランが消費者の携帯電話によって観察されたときに、広告を提示する排他的な権利を購入し得る。
ある実施形態では、既知の行動グラフが、共に一続きになり又は結合して包括的な行動を形成する複数の行動の流れを示す、経時的な情報を含み得る。したがって、観察行動グラフ240は、既知の行動グラフと完全には合致しないだろうが、既知のグラフの部分と優れて合致し得る。その既知のグラフの部分は、サブ(sub‐)の行動又は動作と考えられ得る。そのような場合に、行動認識装置210は、類似性行動スコア250に基づいて、観察される行動内の次の動作を予測するように構成され得る。スコアは、次の動作が既知の行動グラフ内の次の動作とマッチングする可能性を示し得る。したがって、行動認識の結果セット260は、観察行動グラフ240に関連する予測を含み得る。使用事例として、コンピュータゲームAIが、本開示の技術を備えているシナリオを考える。AIは、プレイヤーの行動を観察することができる。観察される行動が既知の行動の一部分とマッチングするようなときに、AIは、既知の行動に従って予期され得るものに基づいて、プレイヤーの次の動作を予測しようと試みる、回避操縦(evasive maneuver)を実施し得る。
図3は、一実施形態による、行動認識システムの例示的な動作のフロー図を示す。方法300は、行動認識装置210などの行動認識装置の本開示の役割又は責任を有するように構成され又はプログラムされた、1以上の計算装置によって実行されることが理解されるべきである。例えば、行動認識装置は、携帯電話、公衆電話、携帯情報端末、タブレットコンピュータ、玩具、輸送体、ウェブカメラ、又は他のタイプの計算装置を備え得る。更に、行動認識装置は、ビデオデータの画像フレームをキャプチャーするように装備された画像キャプチャー装置(例えば、ビデオカメラ又はゲーム機)を備え得るセンサ、例えば、センサ220を含み得る。
ステップ302において、特徴検出アルゴリズムを使用して、複数の経時的な特徴が、観察される行動のデジタル表現から生成される。デジタル表現は、画像データ、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ、及び無線信号データのうちの1以上を含み得る。
ステップ304において、デジタル表現から生成された経時的な特徴の1以上のクラスタを含む観察行動グラフが制定され、経時的な特徴の1以上のクラスタのうちの各々の1つが、観察行動グラフのノードを制定する。例えば、観察行動グラフのノードは、特徴の軌跡のクラスタを含み得る。
ステップ306において、少なくとも1つの文脈的関連スコアリング技術が、既知の行動グラフに対する類似性スコアリング技術から選択され、少なくとも1つの文脈的関連スコアリング技術は、デジタル表現のデバイスコンテキストの属性に基づいて規定されたデバイスコンテキストの基準を満たす、行動摂取メタデータに関連する。類似性スコアリング技術は、ユークリッド距離、リニアカーネル、多項式カーネル、カイ二乗カーネル、コーシーカーネル、ヒストグラムインターセクションカーネル、ヘリンジャーズカーネル、ジェンセンシャノンカーネル、ハイパボリックタンジェント(sigmoid)カーネル、有理二次カーネル、マルチ二次カーネル、逆マルチ二次カーネル、円形カーネル、球形カーネル、波形カーネル、パワーカーネル、ログカーネル、スプラインカーネル、ベッセルカーネル、一般化されたTスチューデントカーネル、ベイジアンカーネル、ウェーブレットカーネル、放射基底関数(RBF)、指数カーネル、ラプラシアンカーネル、ANOVAカーネル、及びBスプラインカーネル関数のうちの少なくとも1つを含み得る。
ステップ308では、類似性行動スコアが、少なくとも1つの文脈的関連スコアリング技術の機能として、観察行動グラフのために計算され、類似性行動スコアは、少なくとも1つの既知の行動グラフと関連する。ある実施形態では、行動認識の結果セットが、類似性行動スコアに基づいて生成され得る。
Wang2013の態様は、行動認識に関して使用されるために利用され得るが、本開示のアプローチでは顕著な差異が存在する。本開示のアプローチは、摂取メタデータに結び付けられた類似性スコアリング技術を含み、どのタイプのスコアリングが認識プロセスの間に適用されるべきかを決定する。
他の差異は、(これもまた文脈的に敏感である)グラフの辺の重み付けを介して既知のノード間の空間的な関係性を符号化すること、グラフの階層構造を使用して意味的に複雑なイベントを解釈(reason about)すること、単に経時的な因果関係及び空間的な近接よりも深い関係性(例えば、特定の物体のインスタンスに関連する例示的なノードが、より大きな経時的又は空間的スペーシングにあるにもかかわらず、接続され得る)によって規定されるグラフトポロジーを可能にすること、及び複数のセンサ様式からのデータが結合されて単一の行動グラフになることを可能にすることを含む。
行動が、グラフレベル又はノードレベルにおいてさえ解析されるという観点において、行動認識装置は、個人的な情報にアクセスすることなしに行動又は既知の行動からの逸脱を認識し得る。以下の安全性シナリオを考えてみる。公共的な空間、例えば、ショッピングモール又は空港は、日毎に様々な行動を行う何千もの人々を有し得る。公共的な空間の安全性システムは、行動認識装置として動作し得る。摂取された計画通りの行動に基づいて、安全性システムは、既知の摂取された行動とマッチングしない行動を特定することを試み得る。公共的な空間内の物体(例えば、人々など)が、(例えば、加速度データに基づいて)既知の行動から逸脱し始めたときに、システムは警告を生成し得る。顕著であるのは、その解析が、特定の個人に対して認識プロセスを実行することなしに行われ、それによって、観察される個々人のプライバシーを保証し得ることである。
更に別の1つの可能性がある場合は、既知の行動グラフを理学療法の形態の部分として使用することを含む。ある実施形態では、データベースが、治療計画にわたって広がる望ましい物理的行動のセット又はスペクトルを記憶するように構築され得る。プログラムを通して患者が作業する際に、彼らの進歩は、セッションのビデオをキャプチャーすること、及びそのビデオを望ましい進歩を表す対応する行動グラフと比較することによってモニターされ得る。同じように、その技術は、訓練目的(例えば、スポーツ、軍隊、建造、手術など)のために使用され得る。そのようなアプローチは、アスリートが、彼ら自身を、そのクラスで最高のアスリート、統計的な標準、若しくは行動に対して予測された資格を表す、コンピュータが生成した行動グラフに対してでさえ、又はカスタマイズされた若しくは演出された行動と比較することを可能にする。また更に、「プレイ」(例えば、サッカーのプレイなど)に関連する既知の行動は、どんなプレイがチームによって展開されそうかを予測するために使用され得る。
様々な実施形態のうちの更に別の1つの可能性のある用途は、既知の行動グラフを、ロボットの相互作用のためのテンプレートとして使用することを含む。ロボットは、1以上の既知の行動グラフを、どのように行動をナビゲートするかについての指示命令として使用し得る。この技術は、技術の叙述的(predicative)な態様を利用する。例えば、ロボットは、自然災害の犠牲者を探索すること又はショッピングセンターで棚卸しすることなどの、特定の行動を通して受け入れ可能な経路のヴァリエーション(variation)を表す、多くの既知の行動グラフを取得することができる。ロボットが認識された行動又は状況に入る又はそれらと遭遇するときに、ロボットは、ヴァリエーションから生成された予測に基づいて行動することを試みることができる。そのようなアプローチの利点は、ヴァリエーションのおかげで、ロボットとの相互作用が、プログラム的であるというよりはむしろ、より自然な感じで現れ得ることである。
観察される行動は、コンテンツをロック解除するためにも使用され得る。あるシナリオでは、行動の観察が、消費者に対する広告又は宣伝の提示をトリガし得る。そのような場合に、ブランドマネージャーは、認識された「購入」行動に応じて、彼らのブランドメッセージを提供することに関する独占的な幾つかの形態を有するために料金を支払うことができる。特定の行動に対する権利は、時間、独占性、継続、競売、又は他の要因に基づいて、料金と引き換えにアクセスされ得る。更に、既知の行動は、コンテンツをロック解除するためのキー又は安全性(security)トークンとして使用され得る。現在の行動が観察され又は認識されているときに、コンテンツはロック解除され又はアクセスが認められ得る。
本開示の技術に関連する、可能性がある数多くのヴァリエーションが存在する。ある実施形態では、行動グラフが、物体のプリミティブに基づいてノードを構築することによって、注記を付けられ又は物体の相互作用プリミティブから作られ得る。物体の相互作用プリミティブは、物体に関連する行動の基本セットを表す。1つのプリミティブは、物体が時間にわたり静止したままであり又は変化しない、物体のパシステンスを含み得る。別の1つのプリミティブは、第1の物体が第2の物体に変更される、物体の変換を含み得る。物体と物体の保存されている相互作用は、何時、2つの物体が相互作用を有しながらも、両者が変更されないままであるかを表し得る。また更に、物体の区分けは、何時、1つの物体が2つの物体をもたらすかを表し得る。更にプリミティブの別の1つのセットは、物体の生成又は物体の破壊を含み得る。物体のヌル(NULL)相互作用は、物体が存在しないことを表すために使用され得る。非常に複雑な行動グラフは、そのようなプリミティブから構築され得る。
ある実施形態では、行動グラフが、階層構造の形態をとり得る。最も低いレベルでは、行動グラフ内のノードが、軌跡のクラスタに基づいて物体の相互作用プリミティブを表し得る。そのような行動グラフは、それ自身、大きな行動(すなわち、物体の相互作用の複雑なセット)を表し、より大きな行動グラフ内のノードになり得る。この進歩は、徐々により高いレベルのグラフを生み出し得る。例えば、映画は、情景を表すサブグラフを有する単一の行動グラフを含み得る。情景のグラフは、俳優又は物体を表す行動グラフであるノードを含み得る。今度は、これらが、物体の相互作用プリミティブによって表されるノードから成る。この階層アプローチは、グラフ構造の類似性を通して行動の異なるタイプの間のマルチスケール解析を提供する。
類似性スコアリング技術は、カーネルアプローチを利用し得る。カーネルアプローチも、既知の行動グラフを使用して、おそらく統計的に重要な数の行動を観察することに基づいて、観察される行動を解析することをもたらす。カーネルアプローチは、行動分類、リグレッション(例えば、予測動作(predicting action)、補外法(extrapolating)、動向(trending)など)、クラスタリング(例えば、群集行動、消費者人口解析など)、異常値の検出(例えば、異常行動、基準からの逸脱など)、ランキング(例えば、行動又はイベントの理想的なパフォーマンスに関するランキング、検索(retrieval)の間の類似行動のランキング、一定量の動き、含まれる行動の数、又は感知様式の間の相互作用などの、特定の比較基準に基づいて異なる行動の類似性をランキングすること)、区分け(例えば、1つの行動の終わりと別の1つの行動の始まりとの間の区別)、又はカーネル法を利用する他の解析技術のために使用され得る。
類似性スコアリング技術は、選択された行動又はドメインに基づいて、重み付けされたり又はフィルタリングされたりもし得る。例えば、観察される屋外の情景は、選択されたドメイン、例えば、ユーザによって又はGPSの測位に基づいてフィルタリングされ、それによって、そのドメインに関連しない自動車、動物、又は他の物体が、類似性行動スコアの計算において自動的にフィルタリングアウトされ得る。
本開示の技術は、更に精密化されて、メモリ又はプロセッサに束縛される埋め込まれた装置を対象にし得る。ある実施形態では、既知の行動グラフが、例えば、主成分分析(PCA)に基づいて削除された低い値のノードを有し得る。例えば、1つの行動を他の1つの行動から区別することに対する貢献を欠いたノードが除去され得る。したがって、グラフの次元は低減され、又は低い貢献のノードを除去することによってグラフ内のノイズが低減され得る。
更に、静止画像も、行動を認識するために使用され得る。ある実施形態では、行動グラフが、ノードに関連する対応する行動を表す、1以上のキーフレームを含み得る。観察される静止画像は、そのようなキーフレームと比較されて、観察される静止画像が対応する行動グラフと合致しているか否かを決定し得る。ある実施形態では、行動認識装置は、静止画像から特徴を導き出し、その特徴を使用して、画像の特徴を既知の行動グラフのノードと比較することを通して、1以上の既知のグラフのグラフスケールへの画像のマッピングを制定することができる。静止画像は、既知のグラフの複数のノードを覆って「広げられ(spread)」得ることが、理解されるべきである。例えば、画像の部分(例えば、認識された物体)は、第1の時間(t0)に対応するノードに対応し、一方、他の部分(例えば、第2の認識された物体)は、異なる時間(t1)における異なるノードに対応し得る。そのようなコンボリューション(convolution)及び計算された類似性行動スコアを通して、行動認識装置は、如何に優れて静止画像が、1以上の既知の行動のスナップショットに対応するかを予測することができる。
本明細書で説明されたシステム、装置、及び方法は、デジタル回路を使用して、又はよく知られたコンピュータプロセッサ、メモリユニット、記憶装置、コンピュータソフトウェア、及び他の構成要素を使用する1以上のコンピュータを使用して実装され得る。通常は、コンピュータが、指示命令を実行するためのプロセッサ、並びに指示命令及びデータを記憶するための1以上のメモリを含む。コンピュータは、1以上の磁気ディスク、内部ハードディスク及び除去可能ディスク、磁気光ディスク、光ディクスなどの、1以上の大容量記憶装置も含み得るか、又はそれらに接続され得る。
本明細書で説明されたシステム、装置、及び方法は、クライアントサーバ関係において動作するコンピュータを使用して実装され得る。通常、そのようなシステムでは、クライアントコンピュータが、サーバコンピュータから離れて配置され、ネットワークを介して相互作用する。クライアントサーバ関係は、それぞれのクライアント及びサーバコンピュータで実行されるコンピュータプログラムによって規定され、且つ、制御され得る。
本明細書で説明されたシステム、装置、及び方法を実装するために使用され得る例示的なクライアントサーバ関係の高レベルのブロック図が、図4で示されている。クライアントサーバ関係400は、ネットワーク430を介してサーバ420と通信するクライアント410を含み、クライアント410とサーバ420との間の行動認識作業の1つの可能な区分けを示している。例えば、上述された様々な実施形態に従って、クライアント410は、サーバ420と通信し、観察される行動のデジタル表現を生成することによって、及び/又は観察される行動データのデジタル表現をサーバ420に送信することによって、行動認識検索を容易にするように構成され得る。サーバ420は、特徴検出アルゴリズムを使用して観察される行動のデジタル表現から複数の経時的な特徴を生成し、デジタル表現から生成された経時的な特徴の1以上のクラスタを含む観察行動グラフを制定し、既知の行動グラフに対する類似性スコアリング技術から少なくとも1つの文脈的関連スコアリング技術を選択し、且つ、少なくとも1つの文脈的関連スコアリング技術の機能として、観察行動グラフのための類似性行動スコアを計算するように構成され得る。類似性行動スコアは、少なくとも1つの既知の行動グラフに関連している。ある実施形態では、サーバ420が、クライアント410からデジタル表現データを受信し、デジタル表現データに基づいて行動認識検索を行い、行動認識の結果セットを生成し、且つ、行動認識の結果セットをクライアント410へ送信するように更に構成され得る。図4で示された例示的なクライアントサーバ関係は、本明細書で説明されたシステム、装置、及び方法を実装するために可能な多くのクライアントサーバ関係のうちのただ1つであることを、当業者は理解するだろう。そのようにして、図4で示されたクライアントサーバ関係は、どのようなやり方にしても、限定的に解釈されるべきではない。クライアント装置410の例は、携帯電話、公衆電話、携帯情報端末、タブレットコンピュータ、玩具、輸送体、ウェブカメラ、又は他のタイプの計算装置を含み得る。
本明細書で説明されたシステム、装置、及び方法は、プログラム可能プロセッサによって実行されるために、情報媒体、例えば、非一時的機械可読記憶装置内で有形に具現化された、コンピュータプログラム製品を使用して実装され得る。図1B及び図3のステップの1以上を含む、本明細書で説明された方法ステップは、そのようなプロセッサによって実行可能な1以上のコンピュータプログラムを使用して実装され得る。コンピュータプログラムは、コンピュータ内で直接的又は間接的に使用され、特定のアクティビティーを実行し又は特定の結果をもたらし得る、コンピュータプログラム指示命令の1つのセットである。コンピュータプログラムは、編集され又は解釈される言語を含む、プログラミング原語の任意の形態で書かれ得る。それは、独立型のプログラム若しくはモジュール、構成要素、サブルーチン、又は計算環境で使用されるために適切な他のユニットを含む、任意の形態で展開され得る。
本明細書で説明されたシステム、装置、及び方法を実装するために使用され得る例示的な装置の高レベルのブロック図が、図5で示されている。装置500は、固定記憶装置520及び主要なメモリ装置530と動作可能に接続されたプロセッサ510を備える。プロセッサ510は、そのような動作を規定するコンピュータプログラム指示命令を実行することによって、装置500の全体の動作を制御する。コンピュータプログラム指示命令は、固定記憶装置520又は他のコンピュータ可読媒体内に記憶され、且つ、コンピュータプログラム指示命令の実行が望ましいときに、主要なメモリ装置530の中へ読み込まれ得る。例えば、行動認識装置210及びセンサ220は、装置500の1以上の構成要素を備え得る。したがって、図1B及び図3の方法ステップは、主要なメモリ装置530及び/又は固定記憶装置520内に記憶されたコンピュータプログラム指示命令によって規定され、コンピュータプログラム指示命令を実行するプロセッサ510によって制御され得る。例えば、コンピュータプログラム指示命令は、当業者によってプログラムされたコンピュータ実行可能コードとして実装され、図1B及び図3の方法ステップによって規定されたアルゴリズムを実行し得る。したがって、コンピュータプログラム指示命令を実行することによって、プロセッサ510は、図1B及び図3の方法ステップによって規定されたアルゴリズムを実行する。装置500は、ネットワークを介して他の装置と通信するための1以上のネットワークインターフェース580も含む。装置500は、装置500とのユーザの相互作用を可能にする、1以上の入力/出力装置590(例えば、ディスプレイ、キーボード、マウス、スピーカ、ボタンなど)も含み得る。
プロセッサ510は、一般的な及び特殊目的の両方のマイクロプロセッサを含み、装置500の単一のプロセッサ又は複数のプロセッサのうちの1つであり得る。例えば、プロセッサ510は、1以上の中央処理装置(CPU)を備え得る。プロセッサ510、固定記憶装置520、及び/又は主要なメモリ装置530は、1以上の特定用途向け集積回路(ASIC)及び/又は1以上のフィールドプログラマブルゲートアレイ(FPGA)を含み、それらによって補われ、又はそれらの中に組み込まれ得る。
固定記憶装置520と主要なメモリ装置530は、各々、有形の非一時的コンピュータ可読記憶媒体を備える。固定記憶装置520と主要メモリ装置530は、各々、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、ダブルデータレート同期ダイナミックランダムアクセスメモリ(DDR RAM)、又は他のランダムアクセス半導体メモリ装置などの、高速ランダムアクセスメモリを含み、且つ、内部ハードディスク及び除去可能ディクスなどの1以上の磁気ディスク記憶装置、磁気光ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、消去可能プログラマブルリードオンリーメモリ(EPROM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、コンパクトディスクリードオンリーメモリ(CD‐ROM)、デジタル多用途ディスクリードオンリーメモリ(DVD‐ROM)ディスク、又は他の不揮発性半導体記憶装置などの、半導体メモリ装置などの、不揮発性メモリを含み得る。
入力/出力装置590は、プリンター、スキャナー、ディスプレイスクリーンなどの、周辺機器を含み得る。例えば、入力/出力装置590は、情報(例えば、選択のための複数の画像変換)をユーザに表示するための陰極線管(CRT)、プラズマ又は液晶ディスプレイ(LCD)モニター、及びそれによってユーザが装置500に入力を提供するところの、キーボード、マウス、又はトラックボールなどのポインティングデバイスを含み得る。
行動認識装置210及びセンサ220を含む、本明細書で説明されたシステムと装置の何れか又は全ては、装置500などの装置によって実行され及び/又はそれらの中に組み込まれ得る。
実際のコンピュータ又はコンピュータシステムの実施態様は、他の構造を有し、同様に他の構成要素を含み得ること、且つ、図5は、例示目的のそのようなコンピュータの構成要素の幾つかの高レベルの表現であることを、当業者は理解するだろう。
以上の明細書は、あらゆる点で、例示的なものであり限定的なものではないということが理解されるべきである。本明細書で開示された本発明の範囲は、明細書から決定されるべきではく、むしろ特許法によって認められている全体に従って解釈される特許請求の範囲から決定されるべきである。本明細書で示され説明された実施形態は、本発明の原理の例示に過ぎず、本発明の範囲及び精神から逸脱することなしに、様々な変形が当業者によって実施され得ることが理解されるべきである。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。

Claims (27)

  1. 行動認識システムであって、
    既知の行動グラフに対する複数の類似性スコアリング技術であって、各々が、行動摂取メタデータに関連する、複数の類似性スコアリング技術を記憶するように構成された行動データベースと、
    前記行動データベースに接続された行動認識装置とを備え、
    前記行動認識装置が、
    特徴検出アルゴリズムを使用して、観察される行動のデジタル表現から複数の経時的な特徴を生成し、
    前記デジタル表現から生成された経時的な特徴の1以上のクラスタであって、各々が、観察行動グラフのノードを定義する、1以上のクラスタを含む前記観察行動グラフを形成し、
    既知の行動グラフに対する前記複数の類似性スコアリング技術から、デバイスコンテキストの基準を満たす行動摂取メタデータと関連する少なくとも1つの文脈的関連するスコアリング技術を選択し、且つ
    前記少なくとも1つの文脈的関連するスコアリング技術の関数として、前記観察行動グラフのための、少なくとも1つの既知の行動グラフに関連する類似性行動スコアを計算するように構成され
    前記デバイスコンテキストの基準は、前記デジタル表現のデバイスコンテキストの属性に基づいて定義され、
    前記デバイスコンテキストの属性と前記行動摂取メタデータが、共通のネームスペースに紐付けられており、
    前記デバイスコンテキストの基準が、前記共通のネームスペース内の関連するデバイスコンテキストの境界を示す、システム。
  2. 前記行動データベースが、前記既知の行動グラフを記憶するように更に構成されている、請求項1に記載のシステム。
  3. 前記行動認識装置が、前記既知の行動グラフ内のノード及び前記観察行動グラフ内のノードの関数として、前記類似性行動スコアを計算するように更に構成されている、請求項2に記載のシステム。
  4. 前記行動データベースが、少なくとも部分的に、前記行動認識装置のメモリ内に記憶されている、請求項1に記載のシステム。
  5. 前記行動認識装置が、タブレットコンピュータ、パーソナルコンピュータ、カメラ、携帯電話、公衆電話、電化製品、輸送体、ロボット、及びゲーム機のうちの少なくとも1つを備えている、請求項1に記載のシステム。
  6. 前記行動摂取メタデータが、ドメイン特有の属性を含む、請求項1に記載のシステム。
  7. 前記行動摂取メタデータが、物体の属性を含む、請求項1に記載のシステム。
  8. 前記行動摂取メタデータが、場所の属性、時間の属性、位置の属性、及び方向の属性のうちの少なくとも1つを含む、請求項1に記載のシステム。
  9. 前記既知の行動グラフと前記観察行動グラフが、有向非巡回グラフを含む、請求項1に記載のシステム。
  10. 前記観察行動グラフの前記ノードが、特徴の軌跡のクラスタを含む、請求項1に記載のシステム。
  11. 前記デジタル表現が、画像データ、ビデオデータ、音響データ、触覚データ、運動感覚データ、温度データ、運動学的データ、及び無線信号データのうちの1以上を含む、請求項1に記載のシステム。
  12. 前記特徴検出アルゴリズムが、スケール不変性特徴変換(SIFT)、速いレティーナキーポイント(FREAK)、指向性勾配のヒストグラム(HOG)、スピードアップロバスト特徴(SURF)、DAISY、二値ロバスト不変性スケーラブルキーポイント(BRISK)、FAST、二値ロバスト独立エレメンタリー特徴(BRIEF)、ハリスコーナーズ、Edges、勾配位置及び方向ヒストグラム(GLOH)、画像勾配のエネルギー(EOG)、及び変換不変性下位構造(TILT)特徴検出アルゴリズムのうちの少なくとも1つを含む、請求項1に記載のシステム。
  13. 前記既知の行動グラフが、行動グラフのプリミティブを含む、請求項1に記載のシステム。
  14. 前記行動グラフのプリミティブが、物体のパシステンス、物体の変換、物体対物体の保存された相互作用、物体の区分け、物体のクリエーション、物体のディストラクション、及び物体のNULL相互作用のうちの少なくとも1つを含む、請求項13に記載のシステム。
  15. 前記既知の行動グラフが、他の既知の行動グラフを含むノードを含む、請求項1に記載のシステム。
  16. 前記既知の行動グラフが、キーフレームを含む、請求項1に記載のシステム。
  17. 前記行動認識装置が、前記類似性行動スコアに基づいて、行動認識の結果セットを生成するように更に構成されている、請求項1に記載のシステム。
  18. 前記行動認識装置が、前記観察行動グラフに、前記行動認識の結果セットを含む分類を割り当てるように更に構成されている、請求項17に記載のシステム。
  19. 前記行動認識の結果セットが、前記観察行動グラフに関する行動予測を含む、請求項17に記載のシステム。
  20. 前記行動認識の結果セットが、アドレス、行動識別子、検索結果、推奨、異常、警告、区分け、指示命令、ランキング、文脈的に関連する情報、コンテンツ情報、宣伝、及び広告のうちの少なくとも1つを含む、請求項17に記載のシステム。
  21. 前記行動認識装置が、前記既知の行動グラフのうちの少なくとも1つのノードに対して画像特徴をマッピングすることによって、前記デジタル表現から前記既知の行動グラフのうちの前記少なくとも1つのグラフスペースの中への静止画像のマッピングを制定するように更に構成されている、請求項1に記載のシステム。
  22. 前記行動認識装置が、前記マッピング、及び前記既知の行動グラフのうちの前記少なくとも1つの前記ノードに基づいて、行動予測を生成するように更に構成されている、請求項21に記載のシステム。
  23. 前記類似性スコアリング技術が、ユークリッド距離、リニアカーネル、多項式カーネル、カイ二乗カーネル、コーシーカーネル、ヒストグラムインターセクションカーネル、ヘリンジャーズカーネル、ジェンセンシャノンカーネル、ハイパボリックタンジェント(sigmoid)カーネル、有理二次カーネル、マルチ二次カーネル、逆マルチ二次カーネル、円形カーネル、球形カーネル、波形カーネル、パワーカーネル、ログカーネル、スプラインカーネル、ベッセルカーネル、一般化されたTスチューデントカーネル、ベイジアンカーネル、ウェーブレットカーネル、放射基底関数(RBF)、指数カーネル、ラプラシアンカーネル、ANOVAカーネル、及びBスプラインカーネル関数のうちの少なくとも1つを含む、請求項1に記載のシステム。
  24. 前記類似性スコアリング技術が、ノード文脈ベース重み付けの少なくとも1つのセットを含む、請求項1に記載のシステム。
  25. 前記ノード文脈ベース重み付けの少なくとも1つのセットが、ノード重み付けのマトリクスを含む、請求項24に記載のシステム。
  26. 行動認識装置における行動認識の方法であって、
    特徴検出アルゴリズムを使用して、観察される行動のデジタル表現から複数の経時的な特徴を生成すること、
    前記デジタル表現から生成された経時的な特徴の1以上のクラスタであって、各々が、観察行動グラフのノードを制定する、1以上のクラスタを含む前記観察行動グラフを制定すること、
    既知の行動グラフに対する複数の類似性スコアリング技術から、デバイスコンテキストの基準を満たす行動摂取メタデータと関連する少なくとも1つの文脈的関連するスコアリング技術を選択すること、及び
    前記少なくとも1つの文脈的関連するスコアリング技術の関数として、前記観察行動グラフのための、少なくとも1つの既知の行動グラフに関連する類似性行動スコアを計算することを含み、
    前記デバイスコンテキストの基準は、前記デジタル表現のデバイスコンテキストの属性に基づいて定義され、
    前記デバイスコンテキストの属性と前記行動摂取メタデータが、共通のネームスペースに紐付けられており、
    前記デバイスコンテキストの基準が、前記共通のネームスペース内の関連するデバイスコンテキストの境界を示す、方法。
  27. 行動認識のための、コンピュータプロセッサによって実行可能な指示命令を含む非一過性コンピュータ可読媒体内に埋め込まれたコンピュータプログラムであって、前記指示命令が、
    特徴検出アルゴリズムを使用して、観察される行動のデジタル表現から複数の経時的な特徴を生成すること、
    前記デジタル表現から生成された経時的な特徴の1以上のクラスタであって、各々が、観察行動グラフのノードを制定する、1以上のクラスタを含む前記観察行動グラフを制定すること、
    既知の行動グラフに対する複数の類似性スコアリング技術から、デバイスコンテキストの基準を満たす行動摂取メタデータと関連する少なくとも1つの文脈的に関連するスコアリング技術を選択すること、及び
    前記少なくとも1つの文脈的関連するスコアリング技術の関数として、前記観察行動グラフのための、少なくとも1つの既知の行動グラフに関連する類似性行動スコアを計算することを含む、処理を実行するように前記コンピュータプロセッサによって実行可能であり、
    前記デバイスコンテキストの基準は、前記デジタル表現のデバイスコンテキストの属性に基づいて定義され、
    前記デバイスコンテキストの属性と前記行動摂取メタデータが、共通のネームスペースに紐付けられており、
    前記デバイスコンテキストの基準が、前記共通のネームスペース内の関連するデバイスコンテキストの境界を示す、コンピュータプログラム。

JP2017519218A 2014-06-17 2015-06-17 行動認識システム及び方法 Active JP6388356B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462013508P 2014-06-17 2014-06-17
US62/013,508 2014-06-17
PCT/US2015/036177 WO2015195765A1 (en) 2014-06-17 2015-06-17 Activity recognition systems and methods

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018149821A Division JP2018198081A (ja) 2014-06-17 2018-08-09 行動認識ロボット装置

Publications (2)

Publication Number Publication Date
JP2017525070A JP2017525070A (ja) 2017-08-31
JP6388356B2 true JP6388356B2 (ja) 2018-09-12

Family

ID=54836416

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017519218A Active JP6388356B2 (ja) 2014-06-17 2015-06-17 行動認識システム及び方法
JP2018149821A Ceased JP2018198081A (ja) 2014-06-17 2018-08-09 行動認識ロボット装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018149821A Ceased JP2018198081A (ja) 2014-06-17 2018-08-09 行動認識ロボット装置

Country Status (4)

Country Link
US (7) US9547678B2 (ja)
JP (2) JP6388356B2 (ja)
CN (1) CN106462747B (ja)
WO (1) WO2015195765A1 (ja)

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US20160321253A1 (en) 2005-10-26 2016-11-03 Cortica, Ltd. System and method for providing recommendations based on user profiles
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US20160085733A1 (en) 2005-10-26 2016-03-24 Cortica, Ltd. System and method thereof for dynamically associating a link to an information resource with a multimedia content displayed in a web-page
US20140156901A1 (en) 2005-10-26 2014-06-05 Cortica Ltd. Computing device, a system and a method for parallel processing of data streams
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US11537636B2 (en) 2007-08-21 2022-12-27 Cortica, Ltd. System and method for using multimedia content as search queries
JPWO2015186447A1 (ja) * 2014-06-03 2017-04-20 ソニー株式会社 情報処理装置、撮影装置、画像共有システム、情報処理方法およびプログラム
CN106462747B (zh) 2014-06-17 2020-03-17 河谷控股Ip有限责任公司 活动识别系统和方法
US9760809B2 (en) * 2014-10-20 2017-09-12 Bae Systems Information And Electronic Systems Integration Inc. Systems and methods for multi-factor image recognition
US10255358B2 (en) 2014-12-30 2019-04-09 Facebook, Inc. Systems and methods for clustering items associated with interactions
KR102302621B1 (ko) * 2015-03-09 2021-09-16 한국전자통신연구원 고차 라플라시안 오브 가우시안 커널을 이용한 이미지의 특징점 추출 장치 및 방법
US9805567B2 (en) * 2015-09-14 2017-10-31 Logitech Europe S.A. Temporal video streaming and summaries
US20170076629A1 (en) * 2015-09-14 2017-03-16 Electronics And Telecommunications Research Institute Apparatus and method for supporting choreography
US11195043B2 (en) 2015-12-15 2021-12-07 Cortica, Ltd. System and method for determining common patterns in multimedia content elements based on key points
WO2017105641A1 (en) 2015-12-15 2017-06-22 Cortica, Ltd. Identification of key points in multimedia data elements
US10152560B2 (en) * 2015-12-17 2018-12-11 Business Objects Software Limited Graph database querying and visualization
US11093553B2 (en) 2015-12-17 2021-08-17 Business Objects Software Ltd Graph database visualization by node and edge type
US11599561B2 (en) * 2016-04-29 2023-03-07 Hewlett Packard Enterprise Development Lp Data stream analytics
US10395119B1 (en) * 2016-08-10 2019-08-27 Gopro, Inc. Systems and methods for determining activities performed during video capture
US9946933B2 (en) 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
US10515095B2 (en) * 2016-10-05 2019-12-24 International Business Machines Corporation Detecting clusters and relationships in large data sets
US20180203881A1 (en) * 2017-01-18 2018-07-19 Microsoft Technology Licensing, Llc Taking action based on physical graph
US10606814B2 (en) * 2017-01-18 2020-03-31 Microsoft Technology Licensing, Llc Computer-aided tracking of physical entities
US10310471B2 (en) * 2017-02-28 2019-06-04 Accenture Global Solutions Limited Content recognition and communication system
TWI617993B (zh) * 2017-03-03 2018-03-11 財團法人資訊工業策進會 辨識系統及辨識方法
WO2018165221A1 (en) * 2017-03-06 2018-09-13 The Regents Of The University Of California Joint estimation with space-time entropy regularization
US10841321B1 (en) * 2017-03-28 2020-11-17 Veritas Technologies Llc Systems and methods for detecting suspicious users on networks
US11069069B2 (en) 2017-04-10 2021-07-20 Hrl Laboratories, Llc System for predicting movements of an object of interest with an autoencoder
US10037458B1 (en) 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
WO2019008581A1 (en) 2017-07-05 2019-01-10 Cortica Ltd. DETERMINATION OF DRIVING POLICIES
US11899707B2 (en) 2017-07-09 2024-02-13 Cortica Ltd. Driving policies determination
US10434451B2 (en) 2017-07-26 2019-10-08 Nant Holdings Ip, Llc Apparatus and method of harvesting airborne moisture
US10489654B1 (en) * 2017-08-04 2019-11-26 Amazon Technologies, Inc. Video analysis method and system
US10642867B2 (en) * 2017-09-15 2020-05-05 Adobe Inc. Clustering based on a directed graph
US10587933B2 (en) * 2017-10-10 2020-03-10 Via Cogito Design Llc System and method for providing an alert on delivering digital content
US10678818B2 (en) * 2018-01-03 2020-06-09 Snap Inc. Tag distribution visualization system
US11868405B2 (en) * 2018-01-23 2024-01-09 Sony Corporation Information processor, information processing method, and recording medium
CN108268854B (zh) * 2018-02-02 2022-06-10 上海有我科技有限公司 一种基于特征识别的教学辅助大数据智能分析方法
US10594549B2 (en) 2018-05-18 2020-03-17 Nant Holdings Ip, Llc Fine grained network management to edge device features
US11521326B2 (en) * 2018-05-23 2022-12-06 Prove Labs, Inc. Systems and methods for monitoring and evaluating body movement
US10846544B2 (en) 2018-07-16 2020-11-24 Cartica Ai Ltd. Transportation prediction system and method
US10339420B1 (en) * 2018-08-30 2019-07-02 Accenture Global Solutions Limited Entity recognition using multiple data streams to supplement missing information associated with an entity
US11613261B2 (en) 2018-09-05 2023-03-28 Autobrains Technologies Ltd Generating a database and alerting about improperly driven vehicles
CN109348400B (zh) * 2018-09-16 2020-08-04 台州昉创科技有限公司 一种3d音效的主体位姿预判方法
US10853079B2 (en) 2018-09-26 2020-12-01 Side Effects Software Inc. Dependency-based streamlined processing
CN109614978A (zh) * 2018-09-29 2019-04-12 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及计算机可读存储介质
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US11126870B2 (en) * 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US11392738B2 (en) 2018-10-26 2022-07-19 Autobrains Technologies Ltd Generating a simulation scenario
US11126869B2 (en) 2018-10-26 2021-09-21 Cartica Ai Ltd. Tracking after objects
US10748038B1 (en) 2019-03-31 2020-08-18 Cortica Ltd. Efficient calculation of a robust signature of a media unit
US11904863B2 (en) 2018-10-26 2024-02-20 AutoBrains Technologies Ltd. Passing a curve
WO2020106650A1 (en) 2018-11-19 2020-05-28 Nant Holdings Ip, Llc Distributed ledger tracking of event data
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US11755923B2 (en) 2018-11-29 2023-09-12 International Business Machines Corporation Guided plan recognition
JP6867701B2 (ja) * 2018-12-03 2021-05-12 株式会社チームボックス モニタリング装置、モニタリングシステム、モニタリング方法及びモニタリングプログラム
US11199561B2 (en) * 2018-12-31 2021-12-14 Robert Bosch Gmbh System and method for standardized evaluation of activity sequences
US11170647B2 (en) 2019-02-07 2021-11-09 Cartica Ai Ltd. Detection of vacant parking spaces
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
US10665251B1 (en) 2019-02-27 2020-05-26 International Business Machines Corporation Multi-modal anomaly detection
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11580815B2 (en) 2019-03-14 2023-02-14 Nant Holdings Ip, Llc Avatar-based sports betting
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
US11443514B2 (en) * 2019-03-22 2022-09-13 Qualcomm Technologies, Inc. Recognizing minutes-long activities in videos
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US11908242B2 (en) 2019-03-31 2024-02-20 Cortica Ltd. Efficient calculation of a robust signature of a media unit
CN110110812B (zh) * 2019-05-20 2022-08-19 江西理工大学 一种用于视频动作识别的串流深度网络模型构建方法
US11704292B2 (en) 2019-09-26 2023-07-18 Cortica Ltd. System and method for enriching a concept database
CN110659392B (zh) * 2019-09-29 2022-05-06 北京市商汤科技开发有限公司 检索方法及装置、存储介质
US11416774B2 (en) 2019-10-23 2022-08-16 Samsung Electronica Da Amazonia Ltda. Method for video recognition capable of encoding spatial and temporal relationships of concepts using contextual features
US11164039B2 (en) 2019-10-23 2021-11-02 International Business Machines Corporation Framework for few-shot temporal action localization
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US11120638B2 (en) * 2019-12-26 2021-09-14 TCL Research America Inc. Director hint based auto-cinematography
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US10972655B1 (en) 2020-03-30 2021-04-06 Logitech Europe S.A. Advanced video conferencing systems and methods
US10951858B1 (en) 2020-03-30 2021-03-16 Logitech Europe S.A. Advanced video conferencing systems and methods
US10965908B1 (en) 2020-03-30 2021-03-30 Logitech Europe S.A. Advanced video conferencing systems and methods
US10904446B1 (en) 2020-03-30 2021-01-26 Logitech Europe S.A. Advanced video conferencing systems and methods
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
CN111949827B (zh) * 2020-07-29 2023-10-24 深圳神目信息技术有限公司 视频抄袭检测方法、装置、设备和介质
US11282345B1 (en) * 2020-09-22 2022-03-22 Adrenalineip Player focused wagering system
US11907293B2 (en) * 2020-12-14 2024-02-20 CACI, Inc.—Federal Reasoning from surveillance video via computer vision-based multi-object tracking and spatiotemporal proximity graphs
CN113696175A (zh) * 2020-12-23 2021-11-26 昆山市睿尔达智能科技有限公司 一种利用智能终端识别动作并控制机器人的系统
KR102559688B1 (ko) * 2021-02-09 2023-07-25 성균관대학교산학협력단 반려견 행동 추측 장치 및 그 동작방법
CN113011787B (zh) * 2021-04-22 2023-07-21 中国平安人寿保险股份有限公司 基于数据聚类的虚拟对象分配方法及相关设备
WO2022251671A1 (en) 2021-05-27 2022-12-01 Ai Thinktank Llc 3d avatar generation and robotic limbs using biomechanical analysis
US12008839B2 (en) 2021-05-28 2024-06-11 Sportsbox.ai Inc. Golf club and other object fitting using quantitative biomechanical-based analysis
US11640725B2 (en) 2021-05-28 2023-05-02 Sportsbox.ai Inc. Quantitative, biomechanical-based analysis with outcomes and context
US20220405309A1 (en) * 2021-06-09 2022-12-22 Adstra, Inc. Systems and methods for a unified matching engine
WO2023014552A1 (en) 2021-08-05 2023-02-09 Nantstudios, Llc Distributed command execution in multi-location studio environments
US20220012491A1 (en) * 2021-09-23 2022-01-13 Intel Corporation Contextual usage control of cameras
WO2023112213A1 (ja) * 2021-12-15 2023-06-22 日本電信電話株式会社 特定行動検出装置、方法およびプログラム
JP2023098483A (ja) * 2021-12-28 2023-07-10 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
CN114548188B (zh) * 2022-04-21 2022-07-26 武汉格蓝若智能技术有限公司 一种变电站内电容式电压互感器运行模式识别方法
CN118132906A (zh) * 2024-04-30 2024-06-04 中国人民解放军国防科技大学 基于太赫兹与远红外频段联合反演卷云微物理参数的方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188555A (ja) 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US7823066B1 (en) 2000-03-03 2010-10-26 Tibco Software Inc. Intelligent console for content-based interactivity
US7016532B2 (en) 2000-11-06 2006-03-21 Evryx Technologies Image capture and identification system and process
US7680324B2 (en) 2000-11-06 2010-03-16 Evryx Technologies, Inc. Use of image-derived information as search criteria for internet and other search engines
US7565008B2 (en) 2000-11-06 2009-07-21 Evryx Technologies, Inc. Data capture and identification system and process
JP2002373340A (ja) * 2001-06-14 2002-12-26 Nippon Hoso Kyokai <Nhk> 動作特徴抽出法および動作認識装置ならびに動作認識プログラム
JP2003015685A (ja) * 2001-06-28 2003-01-17 Nippon Hoso Kyokai <Nhk> グラフ変更装置及び時系列データ統合装置及びグラフ変更プログラム並びに時系列データ統合プログラム
US7236632B2 (en) * 2003-04-11 2007-06-26 Ricoh Company, Ltd. Automated techniques for comparing contents of images
US20060018516A1 (en) 2004-07-22 2006-01-26 Masoud Osama T Monitoring activity using video information
JP5028751B2 (ja) * 2005-06-09 2012-09-19 ソニー株式会社 行動認識装置
US7647198B2 (en) * 2006-05-05 2010-01-12 Accenture Global Services Gmbh Action recognition and interpretation using a precision positioning system
JP4786516B2 (ja) * 2006-12-13 2011-10-05 三菱重工業株式会社 ロボットによるサービスシステムにおけるサービス対象者判別方法と該方法を用いたロボットによるサービスシステム
BRPI0810640A2 (pt) 2007-04-13 2017-06-06 Ipharro Media Gmbh " sistema e métodos de detecção de vídeo".
US7962435B2 (en) * 2008-02-20 2011-06-14 Panasonic Corporation System architecture and process for seamless adaptation to context aware behavior models
US8452108B2 (en) * 2008-06-25 2013-05-28 Gannon Technologies Group Llc Systems and methods for image recognition using graph-based pattern matching
US8111923B2 (en) 2008-08-14 2012-02-07 Xerox Corporation System and method for object class localization and semantic class based image segmentation
WO2010083562A1 (en) * 2009-01-22 2010-07-29 National Ict Australia Limited Activity detection
US9248340B2 (en) * 2010-08-09 2016-02-02 Nike, Inc. Monitoring fitness using a mobile device
US8855361B2 (en) * 2010-12-30 2014-10-07 Pelco, Inc. Scene activity analysis using statistical and semantic features learnt from object trajectory data
US8810598B2 (en) * 2011-04-08 2014-08-19 Nant Holdings Ip, Llc Interference based augmented reality hosting platforms
US8954358B1 (en) * 2011-11-03 2015-02-10 Google Inc. Cluster-based video classification
US9015128B2 (en) 2012-11-28 2015-04-21 Sharethis, Inc. Method and system for measuring social influence and receptivity of users
CN103164694B (zh) * 2013-02-20 2016-06-01 上海交通大学 一种人体动作识别的方法
CN103198492A (zh) * 2013-03-28 2013-07-10 沈阳航空航天大学 一种人体运动捕获方法
CN103679154A (zh) * 2013-12-26 2014-03-26 中国科学院自动化研究所 基于深度图像的三维手势动作的识别方法
CN103810496B (zh) * 2014-01-09 2017-01-25 江南大学 基于图像深度信息的3d高斯空间人体行为识别方法
CN106462747B (zh) 2014-06-17 2020-03-17 河谷控股Ip有限责任公司 活动识别系统和方法

Also Published As

Publication number Publication date
US20190213404A1 (en) 2019-07-11
CN106462747A (zh) 2017-02-22
US20150363644A1 (en) 2015-12-17
US9547678B2 (en) 2017-01-17
US11232292B2 (en) 2022-01-25
JP2017525070A (ja) 2017-08-31
US20180144186A1 (en) 2018-05-24
WO2015195765A1 (en) 2015-12-23
US11837027B2 (en) 2023-12-05
JP2018198081A (ja) 2018-12-13
US20200193151A1 (en) 2020-06-18
US9886625B2 (en) 2018-02-06
US20240062587A1 (en) 2024-02-22
US10572724B2 (en) 2020-02-25
US10216984B2 (en) 2019-02-26
US20170091537A1 (en) 2017-03-30
CN106462747B (zh) 2020-03-17
US20220108105A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
JP6388356B2 (ja) 行動認識システム及び方法
US11747898B2 (en) Method and apparatus with gaze estimation
Bendali-Braham et al. Recent trends in crowd analysis: A review
Ranasinghe et al. A review on applications of activity recognition systems with regard to performance and evaluation
US8929600B2 (en) Action recognition based on depth maps
US9508009B2 (en) Fast recognition algorithm processing, systems and methods
Mocanu et al. Deep-see face: A mobile face recognition system dedicated to visually impaired people
Dubey et al. A comprehensive survey on human pose estimation approaches
Khan et al. Spatio-temporal adversarial learning for detecting unseen falls
CN114764896A (zh) 适于视频游戏的直播中的自动内容辨识和信息
Cui Social-sensed multimedia computing
Manso et al. A novel robust scene change detection algorithm for autonomous robots using mixtures of gaussians
Feng et al. Research on temporal structure for action recognition
Kumar et al. Multimodal Body Sensor for Recognizing the Human Activity Using DMOA Based FS with DL
Hossain et al. A hybrid deep learning framework for daily living human activity recognition with cluster-based video summarization
He et al. Recognition to weightlifting postures using convolutional neural networks with evaluation mechanism
Lee et al. Spatio-temporal Weight of Active Region for Human Activity Recognition
Kavuri et al. Application of Artificial Intelligence on Camera-Based Human Pose Prediction for Yoga: A Methodological Study
Sener et al. Connectionist Temporal Modeling for Weakly Supervised Action Labeling 153
Shahrokhian Syna: Emotion Recognition based on Spatio-Temporal Machine Learning
Jang et al. An approach to segmenting initial object movement in visual sensor networks
Moghimi Najafabadi Analyzing Life-logging Image Sequences
Christ A visual analysis of articulated motion complexity based on optical flow and spatial-temporal features
Pereira Humans in Action at Different Levels: the group, the whole, and the parts
Pozo et al. A Feature Selection Approach to the Group Behavior Recognition Issue Using Static Context Information

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20180717

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180809

R150 Certificate of patent or registration of utility model

Ref document number: 6388356

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250