JP2023528513A

JP2023528513A - 意図検出装置、意図検出方法及びプログラム

Info

Publication number: JP2023528513A
Application number: JP2022575247A
Authority: JP
Inventors: アレクサンダーフィーヴァイダー
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2023-07-04
Anticipated expiration: 2040-06-12
Also published as: WO2021250901A1; JP7396517B2; US20230230354A1

Abstract

意図検出装置１Ｘは、前処理部２１Ｘと、動作パターン・オブジェクト関係性特定部２２Ｘと、検出部２３Ｘと、を有する。前処理部２１Ｘは、センサが出力する検出信号を処理することで、人と関連のあるオブジェクトとに関する前処理済データを生成する。動作パターン・オブジェクト関係性特定部２２Ｘは、前処理済データに基づいて、人の動作パターンと、人と当該人にオブジェクトとの関係性とを特定する。検出部２３Ｘは、人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された動作パターンと特定された関係性とに基づき検出し、アクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う。【選択図】図１２

Description

本開示は、意図検出装置、意図検出方法及びコンピュータ読み取り可能な記憶媒体に関する。

技術システムを人間の要望により適合させようとする傾向があり、システム制御を人手により補助するため、人の挙動を検知することで関連する人の意図を解釈するシステムが提案されている。例えば、特許文献１には、ユーザの意図をユーザの最後のアクションに基づき決定し、決定したユーザの意図に基づいて処理を行うシステムが開示されている。また、特許文献２には、意図知識ベースに基づきユーザの意図を決定し、当該意図により決定されたアクションのフィードバックに基づいて、意図知識ベースを更新する推論システムが開示されている。

特開２０１９－０７９２０４号公報特開２００５－１００３９０号公報

特許文献１及び特許文献２には、いずれも、人の意図を検知するために高精度の意図知識ベース又は教師あり学習が必要となる。しかしながら、このような高精度の意図知識ベース又は教師あり学習を事前に用意又は実行するのはユーザにとって負担が大きい。

本開示は、上述した課題を鑑み、技術システムの制御を人が補助する場合の人間の意図を好適に検出することが可能な制御装置、制御方法及びコンピュータ読み取り可能な記憶媒体を提供することを目的の一つとする。

意図検出装置の一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する前処理部と、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定する動作パターン・オブジェクト関係性特定部と、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う検出部と、
を有する意図検出装置である。

意図検出方法の一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う、
意図検出方法である。

記憶媒体の一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う処理をプロセッサに実行させる命令を記憶した記憶媒体である。

本発明の１つの効果の例として、人の意図を好適に検出することができる。

第１実施形態に係る意図検出システムの構成を概略的に示したブロック図である。意図検出装置により実行される処理の概要の一例を示す。意図検出装置により検出されるべきアクティビティ、ジェスチャ、動作プリミティブ、及び動作パターンのタイムチャートを概略的に示した図である。意図検出装置のプロセッサの機能ブロック図を示す。動作パターン・オブジェクト関係性特定部のブロック図を示す。動的変動量信号の処理の具体例を示す。人の姿勢及びオブジェクト関係性のエンコード（符号化）の概要を示す図である。ローカル意図検出部のブロック図を示す。意図検出装置が実行するローカル意図検出処理を示すフローチャートの一例である。第２実施形態に係る意図検出装置のブロック図を示す。第３実施形態に係る意図検出システムを示す。第４実施形態に係る意図検出装置を示す。第４実施形態に係るフローチャートを示す。

（第１実施形態）
（１）システム構成
図１は、本開示の第１実施形態に係る意図検出システム１００の構成を概略的に示したブロック図である。意図検出システム１００は、人の動作パターン及び動作シーケンスの教師なし又は教師あり学習を行い、それにより人の意図を検出することが可能なシステムである。図示されるように、意図検出システム１００は、意図検出装置１と、入力装置５、センサ６と、データ記憶装置７とを有する。

意図検出装置１は、センサ６から供給される検出信号「Ｓ１」及び入力装置５から供給される入力信号「Ｓ２」を用いることで、対象者８の動作パターン及び動作シーケンスの教師なし又は半教師あり学習を行い、人の意図を検出する。人の意図を検出するため、意図検出装置１は、対象者８の動作パターンを検出することに加えて、対象者８に関連がある１又は複数の関連オブジェクト（関連物体）９の検出及び対象者８と関連オブジェクト９との関係性（「オブジェクト関係性」とも呼ぶ。）の検出を行う。オブジェクト関係性の具体例は、対象者８と関連オブジェクト９との距離に応じ、「遠い」、「近い」、「接近」、「保持」などが含まれる。なお、出願人は、意図検出システム１００について、高度な解釈性を有し、かつ、行動する人の近くに存在する物体は人の意図（「ローカル意図」及び「グローバル意図」を含む。詳細は後述する。）の導出に潜在的に関連すると考えられるものと仮定する。

なお、人の意図の検出後、意図検出装置１は、人の補助を行うために検出した意図に応じたさらなるロボットの制御又は他の電化製品の制御を行ってもよい。この場合、例えば、ロボット又は他の電化製品への駆動信号の生成及び供給を行うことで、意図検出装置１は、介入タスク（警察、消防など）やメンテナンスタスクや物体移動タスクなどのタスクを補助してもよい。

入力装置５は、種々のコマンド及びデータを意図検出システム１００のユーザから受け付ける１又は複数のユーザインターフェースである。入力装置５の例には、キー、スイッチ、ボタン、リモートコントローラ、音声入力装置が含まれる。センサ６は、意図検出装置１が人の意図を検出するために必要な１又は複数のセンサであり、意図検出の対象となる対象者８と対象者８の周囲に存在する関連オブジェクト９とをセンシングすることで検出信号Ｓ１を生成する。センサ６は、検出信号Ｓ１を意図検出装置１へ供給する。センサ６の例には、カメラなどのイメージングデバイス、ライダ（Light Detection and Ranging又はLaser Imaging Detection and Ranging）などのデプスセンサが含まれる。センサ６は、意図検出装置１によって制御されるロボットや他の電化製品に設けられていてもよい。

データ記憶装置７は、意図検出装置１が種々の処理を行うために必要な不揮発性メモリを含む。例えば、データ記憶装置７は、ライブラリ７１と、データベース７２とを含む。

ライブラリ７１は、対象者８の動作パターンの分類に使用され、教師なし又は半教師あり学習により徐々に拡張される。例えば、ライブラリ７１の各エントリ（レコード）には、以下のものが含まれている。
動作パターンのクラスを示すインデックス
動作パターンがクラスに属するか否か判定するためのクラス特有の判定基準
クラスに関連した語彙記述

ライブラリ７１は、オブジェクトの分類に関するライブラリ、又は／及び、オブジェクト関係性の分類に関するライブラリをさらに含んでもよい。

データベース７２は、ライブラリ７１を追加的に構築するための１又は複数のデータベースである。データベース７２は、例えば、動作パターンの語彙記述及び定義を記録した本データベースであってもよい。この本データベースは、本又は他のドキュメントから抽出されたテキストを含むテキストデータベースであってもよい。上述の本又は他のドキュメントは、例えば、処理可能な形式により利用可能であり、人間のアクティビティをその環境との関係において記述するものである。データベース７２は、オブジェクトと人間との関係性の語彙記述及び定義を示すデータベース、及び、オブジェクトの語彙記述及び定義を示すデータベースをさらに含んでもよい。

なお、ライブラリ７１とデータベース７２は、夫々異なる装置に別々に記憶されてもよい。この場合、データ記憶装置７は、２台以上の装置により実現される。また、ライブラリ７１は、意図検出装置１のメモリ３に記憶されてもよく、データベース７２は、意図検出装置１とインターネットを介してデータ通信が可能な１又は複数のサーバ装置により記憶されてもよい。

次に、意図検出装置１のハードウェア構成について説明する。意図検出装置１は、プロセッサ２と、メモリ３と、インターフェース４とを有する。

プロセッサ２は、ＣＰＵ(Central Processing Unit)、ＧＰＵ(Graphics Processing Unit)、及び量子プロセッサなどの１又は複数のプロセッサであり、意図検出装置１にとって必要な種々の処理を実行する。プロセッサ２は、メモリ３又はデータ記憶装置７に予め記憶されたプログラムを実行することで、上記の種々の処理を実現する。メモリ３は、典型的にはＲＯＭ(Read Only Memory)、ＲＡＭ(Random Access Memory)などを含み、プロセッサ２が実行するプログラムを記憶する。メモリ３は、プロセッサ２による種々の処理の実行時には作業メモリとしても機能する。

インターフェース４は、入力装置５、センサ６、及びデータ記憶装置７などの外部装置とインターフェース動作を行う。例えば、インターフェース４は、センサ６から出力される検出信号とデータ記憶装置７から取得されるデータとをプロセッサ２に供給する。

（２）処理の概要
図２は、意図検出装置１により実行される処理の概要の一例を示す。

最初に、意図検出装置１は、センサ６の出力に基づき、前処理１０を実行する。この場合、意図検出装置１は、時系列の検出信号Ｓ１を処理することで、前処理済データを生成する。意図検出装置１は、対象者８及び関連オブジェクト９の両方に関する前処理済データを生成する。

次に、前処理済データに基づいて、意図検出装置１は、動作パターン・オブジェクト関係性特定処理１１を実行する。意図検出装置１は、動作パターン・オブジェクト関係性特定処理１１を、教師なし学習又は半教師あり学習により徐々に拡張されるライブラリ７１を用いた分類を実行する。動作パターン・オブジェクト関係性特定処理１１の一部の処理として、意図検出装置１は、各動作パターンを特定するために、関連するタイミングの自動導出と、前処理済データの自動パーティショニング（分割）を行う。

その後、意図検出装置１は、アクティビティ検出・ジェスチャ検出・動作予測処理１２を実行する。これにより、意図検出装置１は、対象者８のアクティビティ、ジェスチャ、及び予測される動作を検出する。対象者８の予測される動作は、対象者８のローカル意図に対応する。ここで、「ローカル意図」は、直接的又は即時に表現された人の意図であり、腕の姿勢及び動きとオブジェクトへの接近の度合いなどに基づき推論可能である。

さらに、意図検出装置１は、意図推論処理１３を実行することで、対象者のグローバル意図を検出する。ここで「グローバル意図」は、ローカル意図より長期的に表現された人の意図であり、高レベルでの状況理解がローカル意図よりも必要となる。夕食を食べるというケースでは、ローカル意図は、例えば、「ナイフに手を伸ばす」であり、グローバル意図は、例えば、「十分な量の食事を用意する」である。意図検出装置１は、意図推論処理１３を実行するため、検出信号Ｓ１に基づく状況理解を必要に応じて行う。

そして、意図検出装置１は、検出されたグローバル意図に応じて、（技術的）システムによるヒューマン支援１４を実行する。例えば、意図検出装置１は、対象者８が取り組んでいるタスクをアシストするように、ロボット又は他の電化製品を制御する。言い換えると、意図検出装置１は、ロボット又は他の電化製品の次のオペレーションを、検出したグローバル意図に基づき決定し、決定した次のオペレーションに基づきロボット又は他の電化製品を制御する。

どのように意図検出装置１の意図推論結果が用いられるかについて具体的に考察するため、ある作業者が作業用に用いた工具を適切な収納場所へ戻したい状況について考える。この状況では、意図検出装置１は、「工具を適切な収納場所へ持っていく」という意図を検出する。ロボットの制御システムは、この意図の結果を、例えば、「工具の空間座標を決定する」、「工具の位置まで移動する」、「工具を保持する」、「工具を収納場所まで移動させる」、「工具を収納場所に置く」といったオペレーションのシーケンスに翻訳する。

なお、意図検出装置１は、必ずしもヒューマン支援１４を実行しなくともよい。例えば、意図検出装置１は、意図推論処理１３（及びアクティビティ検出、ジェスチャ検出・動作予測処理１２）の結果をディスプレイやスピーカにより出力してもよい。他の例では、意図検出装置１は、上述の結果を外部装置に供給してもよい。

なお、意図検出システム１００は、動作、ジェスチャ及びアクティビティに関して事前に用意されたライブラリ７１を必要とすることなく、上述の処理を開始することができる。この場合、最初のうちは誤分類又は曖昧性などが生じうるが、自動的にライブラリ７１を構築することができる。しばらくして、意図検出システム１００は、アプリケーションによっては、意図検出の精度を向上させるためのユーザ入力を受け付けてもよい。

代わりに、意図検出システム１００は、既に分類されて正解のジェスチャ及びアクティビティのクラスにラベル付けされた動作パターン及び動作シーケンスを示すデフォルトのエントリを有するライブラリ７１を用いて上述の処理を開始してもよい。さらに別の例では、意図検出システム１００は、全ての動作パターン等を含んでおり追加の訓練又はラベリングを必要としない完全に構築されたライブラリ７１を用いて上述の処理を開始することもできる。

図３は、意図検出装置１により検出されるべきアクティビティ、ジェスチャ、動作プリミティブ及び動作パターンのタイムチャートを概略的に示す。

図３によれば、意図検出装置１は、時刻「ｔ１」から時刻「ｔ７」までの期間（対象期間）において、８個の動作パターン「ｍｐ１」～「ｍｐ６」を検出する。なお、対象期間において１２個の動作プリミティブ「ｐｒ１」～「ｐｒ１２」を含んでおり、１つの動作パターンは、少なくとも１つの動作プリミティブを含んでいる。なお、意図検出装置１は、時刻ｔ１から時刻ｔ７までの対象期間の分割（パーティション）を行うことで、動作パターンｍｐ１～ｍｐ６を検出する。上述の分割処理の詳細については図５及び図６において記述する。

検出された動作パターンに基づいて、意図検出装置１は対象期間において２つのジェスチャ「Ｇ１」及び「Ｇ２」を検出する。ここで、「ジェスチャ」は、対象者８の動作を予測するための予測力が高い１又は複数の動作パターンを示す。即ち、１つのジェスチャは、１つのアクティビティに対応する少なくとも１つの動作パターンから構成され、ジェスチャは、１つのアクティビティの期間内に存在する他の動作パターンよりも予測力が高い動作パターンとなる。従って、同一の動作パターンがあるアクティビティにおいてはジェスチャとして分類され、他のアクティビティとにおいてはジェスチャとして分類されないということも起こり得る。

例えば、アクティビティＡ２が「パンをカットする」であり、動作パターンｍｐ２が「腕を上げる」であり、動作パターンｍｐ３が「ナイフを持ちながら腕を上下させる」であり、動作パターンｍｐ４が「腕を初期の位置に移動させる」といったケースが考えられる。この場合、「ナイフを持ちながら腕を上下させる」という動作パターンは他と比較して高い予測力を有することから、意図検出装置１は、動作パターンｍｐ３をジェスチャ（ジェスチャＧ１）として認識する。この場合、時刻ｔ４の時点において、意図検出装置１は動作パターンｍｐ４と他の将来に起こる動作パターンを、検出したジェスチャＧ１に基づき予測することが可能である。

（３）機能ブロック図
図４は、意図検出装置１のプロセッサ２の機能ブロック図を示す。プロセッサ２は、機能的には、前処理部２１と、動作パターン・オブジェクト関係性特定部２２と、ローカル意図検出部２３と、グローバル意図検出部２４とを有する。前処理部２１は、図２に示される前処理１０を実行し、動作パターン・オブジェクト関係性特定部２２は、動作パターン・オブジェクト関係性特定処理１１を実行し、ローカル意図検出部２３は、アクティビティ検出・ジェスチャ検出・動作予測処理１２を実行し、グローバル意図検出部２４は、意図推論処理１３を実行する。ヒューマン支援１４を実行する要素についてはここでは図示していない。図４において、データの授受を行う要素同士を実線により結んでいる。なお、データの授受を行う要素の組み合わせは、図４に示される組み合わせに限定されない。後述する他のブロック図においても同様である。

前処理部２１は、対象者８をセンシングするカメラなどのセンサ６が出力する時系列の検出信号Ｓ１を処理することで、対象者８の前処理済ヒューマン信号「Ｓｈ」を生成する。例えば、前処理部２１は、対象者の特定の複数の関節の位置となる仮想点（バーチャルポイント）を、センサ６が出力する画像から検出し、センサ６から出力される画像シーケンスについて各仮想点を時系列にて追跡（トラッキング）する。前処理済ヒューマン信号Ｓｈは、対象者８の動きを検出するための上記以外の任意の特徴データであってもよい。前処理部２１は、前処理済ヒューマン信号Ｓｈを生成するための任意の手法を選択してもよい。

前処理部２１は、時系列の検出信号Ｓ１を処理することで、関連オブジェクト９に関する前処理済オブジェクト信号「Ｓｏ」を生成する。例えば、任意のオブジェクト検出手法を用いて、前処理部２１は、センサ６が出力する検出信号Ｓ１（例えば時系列画像）に基づき、関連オブジェクト９の存在を認識する。この場合、前処理部２１は、関連オブジェクト９の種別又はＩＤ（識別情報）、関連オブジェクト９の姿勢、及び対象者８と関連オブジェクト９との距離についても認識する。そして、前処理部２１は、関連オブジェクト９に関する種別（又はＩＤ）、姿勢（又は向き）、及び上述した距離等を示す前処理済オブジェクト信号Ｓｏを生成する。前処理部２１は、前処理済ヒューマン信号Ｓｈと前処理済オブジェクト信号Ｓｏを、動作パターン・オブジェクト関係性特定部２２に供給する。なお、前処理済オブジェクト信号Ｓｏは、上述した種別（又はＩＤ）、姿勢（又は向き）及び距離を認識するために必要とされる関連オブジェクト９の任意の特徴データであってもよい。この場合、動作パターン・オブジェクト関係性特定部２２は、上述した種別（又はＩＤ）、姿勢（又は向き）及び距離を、前処理済オブジェクト信号Ｓｏに基づき認識する。前処理済ヒューマン信号Ｓｈ及び前処理済オブジェクト信号Ｓｏは、本開示における「前処理済データ」の一例である。

動作パターン・オブジェクト関係性特定部２２は、教師なし学習又は半教師あり学習により徐々に拡張されるライブラリ７１を用いた分類に基づき、動作パターンとオブジェクト関係性を認識する。

具体的には、動作パターン・オブジェクト関係性特定部２２は、動的変動量信号「Ｓｄ」とタイミング情報「Ｔ」とを後の処理のために生成する。動的変動量信号Ｓｄは、人体の運動量（動きの程度）を示す。例えば、動的変動量信号Ｓｄは、複数のポイント（例えば関節）に関する前処理済ヒューマン信号Ｓｈの行列をスカラ値にマッピングし、時間軸におけるその差を算出することによって、計算することができる。タイミング情報Ｔは、各動作パターンのタイムスロットを定める時刻のシーケンスを示す。

加えて、動作パターン・オブジェクト関係性特定部２２は、動作パターン及びオブジェクト関係性（以後では「ｍｐ－ｏｒ」とも表記する）に関する情報「Ｉｍｐ－ｏｒ」を生成する。ｍｐ－ｏｒ情報Ｉｍｐ－ｏｒは、ｍｐ－ｏｒのパターンの語彙記述を含む。動作パターン・オブジェクト関係性特定部２２は、ｍｐ－ｏｒ情報Ｉｍｐ－ｏｒを生成するためのユーザ入力を受け付けてもよい。動作パターン・オブジェクト関係性特定部２２は、動的変動量信号Ｓｄ、タイミング情報Ｔ、及びｍｐ－ｏｒ情報Ｉｍｐ－ｏｒを、ローカル意図検出部２３に供給する。

ローカル意図検出部２３は、動的変動量信号Ｓｄ、タイミング情報Ｔ、及びｍｐ－ｏｒ情報Ｉｍｐ－ｏｒに基づいて、対象者８のローカル意図に関連するアクティビティ、ジェスチャ、及び予測される動作を検出する。そして、ローカル意図検出部２３は、検出されたアクティビティ、検出されたジェスチャ、及び予測される動作を含むローカル意図に関する情報（「ローカル意図情報ＩＬｉ」とも呼ぶ。）をグローバル意図検出部２４に供給する。なお、教師なし学習又は半教師あり学習により、ローカル意図検出部２３は、オブジェクト関係性を用いてアクティビティの長さを決定する。

グローバル意図検出部２４は、ローカル意図情報ＩＬｉと、動的変動量信号Ｓｄと、タイミング情報Ｔと、ｍｐ－ｏｒ情報Ｉｍｐ－ｏｒとに基づき、対象者８のグローバル意図を検出する。グローバル意図検出部２４は、対象者８の長期的な行動（振る舞い）を概ね捉え、かつ、一つの動作パターンの誤分類や関連しない動作パターンに対してロバストな潜在的な表現を探索する。好適な例では、グローバル意図検出部２４は、敵対的生成ネットワーク理論に基づき実現されてもよい。この場合、グローバル意図検出部２４は、生成ネットワーク（generator）と識別ネットワーク（discriminator）を含み、検出されたジェスチャ及びアクティビティへのいくつかの変更された動作パターンの影響が可能な限り最小化されるように訓練（トレーニング）が行われる。このトレーニングでは、アクティビティとジェスチャとの再構築が難しくなるようにどの程度効率的にシステムがパターンを変更し、動作パターンをマスクしたかを評価する誤差関数、動作パターンのシーケンスと変更された動作パターンのシーケンスとの誤差を評価する誤差関数などの種々の誤差関数が用いられてもよい。この場合、前処理部２１、動作パターン・オブジェクト関係性特定部２２、及びローカル意図検出部２３は、エンコーダとして機能し、グローバル意図検出部２４はデコーダとして機能する。このように、意図検出システム１００は、長期的な意図検出用のエンコーディング・デコーディング機構を有し、エンコーダ・デコーダのディフェレンシエータスキームに好適に統合される。

なお、前処理部２１、動作パターン・オブジェクト関係性特定部２２、ローカル意図検出部２３、及びグローバル意図検出部２４は、例えば、プロセッサ２がプログラムを実行することによって実現できる。より具体的には、各構成要素は、メモリ３に格納されたプログラムを、プロセッサ２が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばＦＰＧＡ（Field-Programmable Gate Array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。以上のことは、後述する他の実施の形態においても同様である。

（４）動作パターン・オブジェクト関係性特定部の詳細
図５は、動作パターン・オブジェクト関係性特定部２２のブロック図を示す。動作パターン・オブジェクト関係性特定部２２は、主に、動的変動量信号算出ブロック３１と、特徴的時刻検出ブロック３２と、パーティショニング・正規化ブロック３３と、オブジェクト関係性検出ブロック３４と、分類ブロック３５と、統合ブロック３６とを有する。

動的変動量信号算出ブロック３１は、前処理済ヒューマン信号Ｓｈに基づき動的変動量信号Ｓｄを算出する。例えば、前処理済ヒューマン信号Ｓｈとして、動的変動量信号算出ブロック３１は、時間軸において定期的にサンプリングされるフレームのシーケンスを生成する。ここで、各フレームは、対象者８から検出された複数のポイント（例えば、関節）の運動量を含んでいる。

特徴的時刻検出ブロック３２は、動的変動量信号算出ブロック３１から供給される動的変動量信号Ｓｄに基づき特徴的な時刻を検出することで、タイミング情報Ｔを生成する。そして、特徴的時刻検出ブロック３２は、検出された特徴的な時刻を示すタイミング情報Ｔを、他のブロックに供給する。

パーティショニング・正規化ブロック３３は、前処理済ヒューマン信号Ｓｈ（即ち、前処理済データ）のパーティションを、特徴的時刻検出ブロック３２から供給されるタイミング情報Ｔに基づいて決定する。パーティショニング・正規化ブロック３３は、さらにタイミング情報Ｔに基づき分割（パーティショニング）された前処理済ヒューマン信号Ｓｈを正規化する。タイミング情報Ｔ＝［ｔ１，…，ｔｎ］に応じて分割及び正規化された前処理済ヒューマン信号Ｓｈをここでは［ｐ１，…，ｐｎ］と表記する。ここで、［ｐ１，…，ｐｎ］の各要素は、一つの動作パターンに対応する。記号「ｎ」は、ここでは自然数を表す。パーティショニング・正規化ブロック３３は、分割及び正規化された前処理済ヒューマン信号Ｓｈを分類ブロック３５へ供給する。また、パーティショニング・正規化ブロック３３は、タイミング情報Ｔをオブジェクト関係性検出ブロック３４へ供給する。

なお、前処理済データのフレームの定期的なサンプリング及びパーティショニングにより、１つの動作パターンに対して複数フレームの前処理済データが利用可能であり、事前に定義された所定枚数の正規化フレームが補間により生成される。これは、プリミティブバージョンのタイムワーピングと考えることができる。

オブジェクト関係性検出ブロック３４は、タイミング情報Ｔに応じた各タイムスロットにおけるオブジェクト関係性（即ち、対象者８と関連オブジェクト９との関係）を検出する。この場合、オブジェクト関係性検出ブロック３４は、事前に定義された対象者８と関連オブジェクト９との関係性に関する情報をデータベース７２から取得する。そして、オブジェクト関係性検出ブロック３４は、取得した情報を参照して前処理済オブジェクト信号Ｓｏを解析することで、オブジェクト関係性を検出する。ここでは、［ｏ１，…，ｏｎ］は、期間［ｔ１，…，ｔｎ］においてオブジェクト関係性検出ブロック３４から出力される関連オブジェクト９に関する情報を表し、［ｒ１，…，ｒｎ］は、同期間においてオブジェクト関係性検出ブロック３４から出力されるオブジェクト関係性に関する情報を表す。

分類ブロック３５は、教師なし学習又は半教師あり学習により徐々に拡張されるライブラリ７１に基づき、タイムワーピングを用いて動作パターンとオブジェクト関係性の分類を行う。分類ブロック３５は、ランダムフォレストアルゴリズムの修正又は拡張版に基づくものであってもよい。分類ブロック３５は、分類の結果として、タイミング情報Ｔにより定義されるタイミングごとに、動作パターン、関連のあるオブジェクト、及びオブジェクト関係性のクラスに関するラベル情報「ＩＬａ」を出力する。例えば、分類ブロック３５は、動作パターンの分類ラベル「Ｐａｉ」（ｉ＝１，…，ｎ）、関連のあるオブジェクトの分類ラベル「ｏｂｉ」、及びオブジェクト関係性の分類ラベル「ｒｃｉ」を、時刻「ｔｉ」における分類の結果として出力する。例えば、各分類ラベルは、クラスのインデックスと、関連する語彙記述とを含んでいる。この場合、分類ブロック３５は、それぞれの分類ラベルに対応する「ｐ」、「ｏ」、「ｒ」の行列を統合ブロック３６へ出力する。他の例では、分類ブロック３５は、アノテーション作業を簡易化するため、グラフィック表現を統合ブロック３６に出力してもよい。

統合ブロック３６は、分類ブロック３５が出力する分類結果であるラベル情報ＩＬａと入力装置５からの入力信号Ｓ２に応じたユーザ入力情報とを統合することで、ｍｐ－ｏｒ情報Ｉｍｐ－ｏｒを生成する。ユーザ入力情報は、例えば、分類結果に関するｍｐ－ｏｒパターンの語彙記述を含む。例えば、「動作パターンｎ」の語彙記述は、「右ひじを上げる」というユーザ入力情報により特定されてもよい。また、「動作パターンｍ」の語彙記述は、「左ひじを上げる」というユーザ入力情報により特定されてもよい。なお、語彙記述はベクトルとして解釈されてもよい。

ユーザ入力情報は、アクティビティの最中に入力されてもよく、オフライン時に入力されてもよい。後者の場合、統合ブロック３６による処理はオフラインにより開始され、バッチ処理の後、追加のユーザ入力情報が入力される。統合ブロック３６は、曖昧性を検出した場合、又は、欠けている情報を検出した場合に、ユーザ入力情報を要求してもよい。

図５によれば、上述の統合処理の後、統合ブロック３６は、次の時系列のｍｐ－ｏｒパターンを示すｍｐ－ｏｒ情報Ｉｍｐ－ｏｒを生成する。
「動作３」
「動作２」
「オブジェクト２と関係性２を有する動作１」
「オブジェクト２と関係性１を有する動作５」
「オブジェクト２と関係性１を有する動作２」

図６は、動的変動量信号算出ブロック３１、特徴的時刻検出ブロック３２、及びパーティショニング・正規化ブロック３３が実行する処理の具体例を示す。

最初に、動的変動量信号算出ブロック３１は、前処理済ヒューマン信号Ｓｈを取得し、動的変動量信号Ｓｄを算出する。そして、例えば、特徴的時刻検出ブロック３２は、前処理済ヒューマン信号Ｓｈの極小値（さらに極大値を含んでもよい）を検出することで、特徴的な時刻を検出する。そして、特徴的時刻検出ブロック３２の処理結果に基づき、パーティショニング・正規化ブロック３３は前処理済ヒューマン信号Ｓｈを動作パターンごとに分解する。なお、どのように動的変動量信号が算出されたかに応じて、動的変動量信号Ｓｄに対して所定のフィルタリングが実行されてもよい。そして、パーティショニング・正規化ブロック３３は、タイムワーピング（正規化）の原始的方法を用いて、各動作パターンを画像としてエンコードする。

なお、分類ブロック３５においてよりよい分類結果を得るため、特徴的時刻検出ブロック３２及びパーティショニング・正規化ブロック３３は、分類結果の質に関するフィードバックをパーティショニングに対して行ってもよい。このような分類スキームの適応により上述の結果の向上が期待される。

図７は、人の姿勢とオブジェクト関係性のエンコードの概要を示す。図７では、動的変動量信号Ｓｄが算出されるポイントに対応する対象者８上の箇所に丸印が付されている。

この場合、パーティショニング・正規化ブロック３３は、対象者８の各検出ポイントに関する動的変動量信号Ｓｄに基づき、対象者８の姿勢を検出し、対象者８の姿勢を特徴付ける複数の角度により姿勢をエンコードする。一方、前処理部２１又はオブジェクト関係性検出ブロック３４は、関連オブジェクト９の種別、関連オブジェクト９の姿勢、及び関連オブジェクト９と対象者８との距離「ｄ」を検出する。図７の例では、関連オブジェクト９の姿勢を特徴付ける角度「θo」が少なくとも検出されている。距離ｄは、分類され、該当するカテゴリにより表されてもよい。図７の例では、距離ｄは、「遠い」、「近い」、「接近」、「保持」の４つのカテゴリのうち「近い」に分類されている。

行列９０は、パーティショニング・正規化ブロック３３及びオブジェクト関係性検出ブロック３４による出力（アウトプット）の組み合わせの一例である。行列９０は、動作パターン、関連オブジェクト及びオブジェクト関係性に関する情報を含む時間的に正規化された時間正規化動作パターン情報を示す。行列９０は、画像に変換され、分類ブロック３５による分類に用いられる。上述の画像の例が画像９１～９３として示されている。画像９１～９３は、動作パターン及びオブジェクト関係性の異なる組み合わせを示している。

上述したように、動作パターン・オブジェクト関係性特定部２２は、動的変動量信号Ｓｄとタイミング情報Ｔを使用し、分類アルゴリズムを実行することで後段の処理に用いられるラベル情報ＩＬａを取得する。これにより、更なる言語解釈を必要とすることなく、分類アルゴリズムにより自動的に導出された、言語表現に後に変換するための定量的なラベルを得ることができる。

（５）ローカル意図検出部の詳細
図８は、ローカル意図検出部２３のブロック図を示す。ローカル意図検出部２３は、主に、エンベッドブロック４１と、非線形動的処理ブロック４３と、６個の非線形静的処理ブロック４２、４４～４８とを有する。

エンベッドブロック４１は、ｍｐ－ｏｒ情報Ｉｍｐ－ｏｒを後の処理のために数値フォーマットに変換する。具体的には、エンベッドブロック４１は、ｍｐ－ｏｒ情報Ｉｍｐ－ｏｒにより示される語彙記述（単語など）を数値のシーケンスであるベクトルに対応付ける。高次元の数学的空間の特性を用いることで、単語間の関係性（例えば、どの程度これらの意味が近いか）が表現される。エンベッドブロック４１は、Ｗｏｒｄ２Ｖｅｃや他の自然言語処理モデルに基づくものであってもよい。このエンベッド（埋め込み）処理の質の担保は、後の処理において必須となる。

非線形静的処理ブロック４２、４４～４８は、いくつかのレイヤーからなるフォワード処理を、フィードバックループのための追加的なメモリを必要とすることなく実行することで、異なるステップ間での内在的な関係を検出する。非線形静的処理ブロック４２、４４～４８は、例えば、多層パーセプトロン又はオートアソシアティブニューラルネットワーク（auto associative neural network）により実現される。

非線形静的処理ブロック４２は、動作パターン・オブジェクト関係性特定部２２から出力される動的変動量信号Ｓｄ及びタイミング情報Ｔの非線形静的処理を実行し、その処理結果を非線形静的処理ブロック４５に供給する。非線形静的処理ブロック４４は、エンベッドブロック４１から出力される数値ベクトルの非線形静的処理を実行し、その処理結果を、非線形静的処理ブロック４５に供給する。非線形静的処理ブロック４５は、非線形静的処理ブロック４２、非線形動的処理ブロック４３、及び非線形静的処理ブロック４４が出力（導出）するデータの非線形静的処理（第２非線形静的処理）を実行する。そして、非線形静的処理ブロック４５は、その処理結果を、非線形静的処理ブロック４６、非線形静的処理ブロック４７、及び非線形静的処理ブロック４８に夫々供給する。

非線形静的処理ブロック４５が出力する出力データに基づいて、非線形静的処理ブロック４６は、検出されたアクティビティ（例えば、「アクティビティ１」）の語彙記述を非線形静的処理により出力する。非線形静的処理ブロック４７は、非線形静的処理ブロック４５が出力する出力データに基づいて、検出されたジェスチャ（例えば、「動作９」）の語彙記述を非線形静的処理により出力する。非線形静的処理ブロック４５が出力する出力データに基づいて、非線形静的処理ブロック４８は、非線形静的処理により、対象者８が次に実行すると予測されるステップ（即ち、予測される次の動作、例えば「オブジェクト２と関係１を有する動作２」）の語彙記述を出力する。

非線形動的処理ブロック４３は、フィードバックループのためのメモリを用いることで、フィードバック機能により出来事のシーケンスを検出する。非線形動的処理ブロック４３は、例えば、リカーレントニューラルネットワークである。非線形動的処理ブロック４３はエンベッドブロック４１が出力する数値ベクトルを受信し、処理結果を非線形静的処理ブロック４５に供給する。

ローカル意図検出部２３の訓練について補足説明する。ローカル意図検出部２３（即ち意図検出システム１００）がビデオのシーケンスを用いてオフラインにより訓練される場合、次の動作パターンに関する情報は既に利用可能であるため、ローカル意図検出部２３には当該情報が供給されない。この場合、ジェスチャとアクティビティはより要求が厳しくなる。ローカル意図検出部２３は、第１の解決策として、ユーザ入力に基づくものとなり、アクティビティとジェスチャのみティーチングがなされる半教師あり学習により実現される。しかし、実行開始後の時間経過と共に、この部分においてもある程度自動化されると予想される。ローカル意図検出部２３の訓練の自動化スキームは、グローバル意図検出部２４の訓練と共に実行される。

（６）処理フロー
図９は、意図検出装置１により実行されるローカル意図検出処理を示すフローチャートの一例である。

まず、意図検出装置１は、検出信号Ｓ１をセンサ６から取得する（ステップＳ１０）。そして、意図検出装置１は、検出信号Ｓ１から前処理済データを生成する（ステップＳ１１）。具体的には、意図検出装置１は、対象者８に関する前処理済ヒューマン信号Ｓｈと関連オブジェクト９に関する前処理済オブジェクト信号Ｓｏとを生成する。

次に、意図検出装置１は、前処理済ヒューマン信号Ｓｈに基づき、動的変動量信号Ｓｄを算出する（ステップＳ１２）。そして、意図検出装置１は、前処理済ヒューマン信号Ｓｈの分割及び正規化を行う（ステップＳ１３）。この場合、意図検出装置１は、前処理済ヒューマン信号Ｓｈに基づき特徴的な時刻を検出することで、前処理済ヒューマン信号Ｓｈを動作パターンごとのデータに分割する。

そして、意図検出装置１は、対象者８と関連オブジェクト９とのオブジェクト関係性を前処理済オブジェクト信号Ｓｏ及びステップＳ１３の実行結果に基づき導出する（ステップＳ１４）。その後、意図検出装置１は、タイムワープを用いた分類を実行する（ステップＳ１５）。この場合、意図検出装置１は、タイムスロットごとに、動作パターン、関連オブジェクト９、及びオブジェクト関係性を夫々分類する。そして、意図検出装置１は、分類された動作パターン及びオブジェクト関係性の語彙記述であるｍｐ－ｏｒ情報Ｉｍｐ－ｏｒを生成する（ステップＳ１６）。そして、意図検出装置１は、ｍｐ－ｏｒ情報Ｉｍｐ－ｏｒのエンベッドを行う（ステップＳ１７）。これにより、意図検出装置１は、ｍｐ－ｏｒ情報Ｉｍｐ－ｏｒを数値フォーマットに変換する。その後、意図検出装置１は、非線形動的・静的処理を実行する（ステップＳ１８）。これにより、意図検出装置１は、出来事のシーケンスを検出し、異なるステップ間での内在的な関係性を探索する。そして、ステップＳ１８の処理結果として、意図検出装置１は検出されたアクティビティ、検出されたジェスチャ、及び予測される動作を示すローカル意図情報ＩＬｉを出力する（ステップＳ１９）。その後、意図検出装置１のグローバル意図検出部２４は、ステップＳ１９で出力されたローカル意図情報ＩＬｉに基づき、対象者８のグローバル意図を検出する。

意図検出装置１は、ローカル意図検出処理を終了すべきか否か判定する（ステップＳ２０）。そして、意図検出装置１は、ローカル意図検出処理を終了すべきと判定した場合（ステップＳ２０；Ｙｅｓ）、意図検出装置１は、フローチャートに基づくローカル意図検出処理を終了する。もし、意図検出装置１は、ローカル意図検出処理を終了すべきでないと判定した場合（ステップＳ２０；Ｎｏ）、意図検出装置１は、ステップＳ１０の処理に戻る。

（７）有利な効果
第１実施形態に関する有利な効果について説明する。

意図検出システム１００は、ほぼ教師なしでのパターン及びシーケンスの学習が可能な特別なアーキテクチャ及び処理構造を有している。加えて、意図検出システム１００は、データ変換（規則化、正規化、タイムワープ）を行うことで、人の動的な動作を可変時間長の基本動作パターンに分割し、基本動作パターンごとにオブジェクト関係性を導出する。これにより、意図検出システム１００は、即時的なニーズ（即ちローカル意図）と長期的なニーズ（即ちグローバル意図）と機械の操作又は機械と接している人の意図とを、高精度に（高い直観性により理解可能に）かつ命令指示の負荷を低減可能なロバストな方法により決定することができる。

意図検出システム１００は、ロボティクス、支援システム、協調ロボット、マシーンユーザインタフェースなどに適用することができる。具体的な例として、意図検出システム１００は、コンピュータ・ロボット操作システムに関するユーザ入力を必要とするタスク、介入タスク、メンテナンスタスク、一般操作タスク、又はオブジェクト移動タスクなどに適用されてもよい。しかし、本発明は、必ずしも上述したフィールドへの適用に限定されない。

（第２実施形態）
図１０は、第２実施形態に係る意図検出装置１Ａのブロック図を示す。意図検出装置１Ａは動作パターンライブラリ７Ａを参照する補間部２５をさらに備える点において、意図検出装置１Ａは、意図検出装置１と異なる。以後において、第１実施形態と同一要素については第１実施形態と同一の符号を付し、適宜その説明を省略する。

動作パターンライブラリ７Ａは、とり得る動作パターンに関する文（即ち、語彙記述又は言語ラベル）を含んでいる。動作パターンライブラリ７Ａは、データ記憶装置７に記憶されていてもよく、他の外部装置に記憶されていてもよい。

補間部２５は、ローカル意図検出部２３により検出されたローカル意図（ジェスチャ及びアクティビティを含む）に関連する動作パターンに関する語彙記述が存在しない場合に、語彙記述が欠けた動作パターンの語彙（テキスト）記述を動作パターンライブラリ７Ａから探索する。補間部２５は、欠けた動作パターンの記述に対する確率又はスコアについても算出する。さらに、補間部２５は、新たな動作パターンのラベルを学習し、経時での（即ち時間経過に伴う）動作パターンの記述の一貫性を評価する。

例えば、ローカル意図検出部２３は、次の動作シーケンスを認識したと仮定する。
「歩く」
「棚に向かって歩く」
「腕を上げる」
「手を伸ばす、本に近づく」
「腕を下げる、本を持つ」
「本を両手で持つ」
「未知の動作パターン、本を持つ」
「本を両手で持つ」
そして、上記のシーケンスに関する情報をローカル意図検出部２３から受信後、補間部２５は、動作パターンライブラリ７Ａを参照し、未知の動作パターンは、「本を２つの腕で保持して読む」であると推論する。その後、補間部２５は、結果を動作パターン・オブジェクト関係性特定部２２に供給する。

第２実施形態によれば、補間部２５は、ローカル意図検出部２３が対象者８のアクティビティとジェスチャを含むローカル意図を検出したがいくつかの動作パターンについて語彙記述（即ち言語ラベル）が存在しない状況において動作する。このような状況では、補間部２５は、正しい語彙記述を自動的に探索し、探索した語彙記述の経時での一貫性を評価する。これにより、意図検出装置１Ａは、動作パターンの欠けた記述を取得し、対象者８のアクティビティとジェスチャを含むローカル意図の検出精度を向上させることができる。

（第３実施形態）
図１１は、第３実施形態に係る意図検出システム１００Ａを示す。意図検出システム１００Ａは、意図検出装置として機能するサーバ装置１Ｂと、ユーザ入力機能、データ通信機能、及びその他の機能を備えた端末装置１Ｃとを有する。以後では、第１実施形態と同一要素については第１実施形態と同一の符号を付し、適宜その説明を省略する。

サーバ装置１Ｂは、図１に示される意図検出装置１として機能し、意図検出を実行する。サーバ装置１Ｂは、端末装置１Ｃを介し、センサ６から出力される検出信号を受信し、図２に示される処理を実行する。サーバ装置１Ｂは、プロセッサ２と、メモリ３と、インターフェース４と、データ記憶装置７と、通信インターフェースである通信部９とを含んでいる。サーバ装置１Ｂのプロセッサ２と、メモリ３と、インターフェース４と、データ記憶装置７とは、図１の意図検出装置１のプロセッサ２と、メモリ３と、インターフェース４とに夫々対応する。通信部９は、プロセッサ２の制御の下、センサ６が生成する検出信号及び端末装置１Ｃが生成するユーザ入力情報などのデータの授受を端末装置１Ｃと行う。

なお、サーバ装置１Ｂは、複数の装置により構成されてもよい。この場合、複数の装置の各々が自己に予め割り当てられたタスクを実行するために必要なデータの授受を互いに行う。

第３実施形態によっても、サーバ装置１Ｂは、対象者８の意図を好適に検出することができる。

（第４実施形態）
図１２は、第４実施形態に係る意図検出装置１Ｘを示す。意図検出装置１Ｘは、前処理部２１Ｘと、動作パターン・オブジェクト関係性特定部２２Ｘと、検出部２３Ｘと、を有する。

前処理部２１Ｘは、センサが出力する検出信号を処理することで、人と関連のあるオブジェクトとに関する前処理済データを生成する。例えば、前処理部２１Ｘは、第１実施形態～第３実施形態のいずれかの前処理部２１により実現される。

動作パターン・オブジェクト関係性特定部２２Ｘは、前処理済データに基づいて、人の動作パターンと、人と当該人に関連のあるオブジェクトとの関係性とを特定する。動作パターン・オブジェクト関係性特定部２２Ｘは、例えば、第１実施形態～第３実施形態のいずれかの動作パターン・オブジェクト関係性特定部２２により実現される。

検出部２３Ｘは、人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された動作パターンと特定された関係性とに基づき検出し、アクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う。例えば、検出部２３Ｘは、第１実施形態～第３実施形態のいずれかのローカル意図検出部２３により実現される。

図１３は、第４実施形態に係るフローチャートを示す。前処理部２１Ｘは、センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する（ステップＳ３０）。動作パターン・オブジェクト関係性特定部２２Ｘは、前処理済データに基づいて、人の動作パターンと、人とオブジェクトとの関係性とを特定する（ステップＳ３１）。検出部２３Ｘは、人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された動作パターンと特定された関係性とに基づき検出し、アクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う（ステップＳ３２）。

第４実施形態によれば、意図検出装置１Ｘは、人とオブジェクトとの関係性を考慮して人のアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを検出することができる。

なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータであるプロセッサ２に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭを含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

（付記１）
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する前処理部と、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定する動作パターン・オブジェクト関係性特定部と、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う検出部と、
を有する意図検出装置。

（付記２）
前記動作パターン・オブジェクト関係性特定部は、前記動作パターン及び前記関係性の分類を、教師なし学習又は半教師あり学習により行う、付記１に記載の意図検出装置。

（付記３）
前記動作パターン・オブジェクト関係性特定部は、前記分類により、同一のクラスに属する前記動作パターン及び前記関係性を、同一の語彙記述に対応させる、付記２に記載の意図検出装置。

（付記４）
前記動作パターン・オブジェクト関係性特定部は、前記教師なし学習又は半教師あり学習により、ライブラリを徐々に拡張し、
前記ライブラリは、前記動作パターン及び前記関係性のクラスごとに、
前記動作パターン及び前記関係性のクラスを判定する基準と、
前記クラスの語彙記述と、
を含む、付記３に記載の意図検出装置。

（付記５）
前記動作パターン・オブジェクト関係性特定部は、前記前処理済データから動的変動量信号を生成し、前記動的変動量信号に基づいて、特徴的な時刻の検出を行い、前記動作パターンの特定を行うための前記前処理済データの分割及び正規化を行う、付記１に記載の意図検出装置。

（付記６）
前記動作パターン・オブジェクト関係性特定部は、前記動作パターンと前記関係性との語彙記述を特定し、
前記検出部は、前記語彙記述を数値フォーマットのデータに変換し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、
付記１に記載の意図検出装置。

（付記７）
前記検出部は、前記数値フォーマットのデータの非線形動的処理と非線形静的処理を行い、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、付記６に記載の意図検出装置。

（付記８）
前記検出部は、前記非線形動的処理と前記非線形静的処理とにより得られたデータに対して第２の非線形静的処理を行い、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、付記７に記載の意図検出装置。

（付記９）
前記検出部は、前記前処理済データと前記動作パターンに関するタイミング情報とから生成された動的変動量信号にさらに基づき、前記第２の非線形静的処理を実行する、付記８に記載の意図検出装置。

（付記１０）
前記動作パターンの語彙記述が不明である場合、動作パターンライブラリから前記語彙記述を探索し、時間経過に伴う前記語彙記述の一貫性を評価する補間部をさらに有する、付記１に記載の意図検出装置。

（付記１１）
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う、
意図検出方法。

（付記１２）
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う処理をプロセッサに実行させる命令を記憶した記憶媒体。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

本発明は、例えば、ロボティクス、意図検出システム、協調ロボット、電化製品、及びこれらを制御するサーバ装置などのコントローラに利用することができる。

１、１Ａ、１Ｘ意図検出装置
１Ｂサーバ装置
１Ｃ端末装置
２プロセッサ
３メモリ
４インターフェース
５入力装置
６センサ
７データ記憶装置
９通信部

意図検出装置の一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する前処理手段と、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定する動作パターン・オブジェクト関係性特定手段と、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う検出手段と、
を有する意図検出装置である。

プログラムの一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う処理をプロセッサに実行させるプログラムである。

Claims

センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する前処理部と、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定する動作パターン・オブジェクト関係性特定部と、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う検出部と、
を有する意図検出装置。
前記動作パターン・オブジェクト関係性特定部は、前記動作パターン及び前記関係性の分類を、教師なし学習又は半教師あり学習により行う、請求項１に記載の意図検出装置。
前記動作パターン・オブジェクト関係性特定部は、前記分類により、同一のクラスに属する前記動作パターン及び前記関係性を、同一の語彙記述に対応させる、請求項２に記載の意図検出装置。
前記動作パターン・オブジェクト関係性特定部は、前記教師なし学習又は半教師あり学習により、ライブラリを徐々に拡張し、
前記ライブラリは、前記動作パターン及び前記関係性のクラスごとに、
前記動作パターン及び前記関係性のクラスを判定する基準と、
前記クラスの語彙記述と、
を含む、請求項３に記載の意図検出装置。
前記動作パターン・オブジェクト関係性特定部は、前記前処理済データから動的変動量信号を生成し、前記動的変動量信号に基づいて、特徴的な時刻の検出を行い、前記動作パターンの特定を行うための前記前処理済データの分割及び正規化を行う、請求項１に記載の意図検出装置。
前記動作パターン・オブジェクト関係性特定部は、前記動作パターンと前記関係性との語彙記述を特定し、
前記検出部は、前記語彙記述を数値フォーマットのデータに変換し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、
請求項１に記載の意図検出装置。
前記検出部は、前記数値フォーマットのデータの非線形動的処理と非線形静的処理を行い、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、請求項６に記載の意図検出装置。
前記検出部は、前記非線形動的処理と前記非線形静的処理とにより得られたデータに対して第２の非線形静的処理を行い、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、請求項７に記載の意図検出装置。
前記検出部は、前記前処理済データと前記動作パターンに関するタイミング情報とから生成された動的変動量信号にさらに基づき、前記第２の非線形静的処理を実行する、請求項８に記載の意図検出装置。
前記動作パターンの語彙記述が不明である場合、動作パターンライブラリから前記語彙記述を探索し、時間経過に伴う前記語彙記述の一貫性を評価する補間部をさらに有する、請求項１に記載の意図検出装置。
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う、
意図検出方法。
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う処理をプロセッサに実行させる命令を記憶した記憶媒体。