JP2023528513A - 意図検出装置、意図検出方法及びプログラム - Google Patents

意図検出装置、意図検出方法及びプログラム Download PDF

Info

Publication number
JP2023528513A
JP2023528513A JP2022575247A JP2022575247A JP2023528513A JP 2023528513 A JP2023528513 A JP 2023528513A JP 2022575247 A JP2022575247 A JP 2022575247A JP 2022575247 A JP2022575247 A JP 2022575247A JP 2023528513 A JP2023528513 A JP 2023528513A
Authority
JP
Japan
Prior art keywords
person
intention
detection device
pattern
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022575247A
Other languages
English (en)
Other versions
JP7396517B2 (ja
Inventor
アレクサンダー フィーヴァイダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2023528513A publication Critical patent/JP2023528513A/ja
Application granted granted Critical
Publication of JP7396517B2 publication Critical patent/JP7396517B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

意図検出装置1Xは、前処理部21Xと、動作パターン・オブジェクト関係性特定部22Xと、検出部23Xと、を有する。前処理部21Xは、センサが出力する検出信号を処理することで、人と関連のあるオブジェクトとに関する前処理済データを生成する。動作パターン・オブジェクト関係性特定部22Xは、前処理済データに基づいて、人の動作パターンと、人と当該人にオブジェクトとの関係性とを特定する。検出部23Xは、人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された動作パターンと特定された関係性とに基づき検出し、アクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う。【選択図】図12

Description

本開示は、意図検出装置、意図検出方法及びコンピュータ読み取り可能な記憶媒体に関する。
技術システムを人間の要望により適合させようとする傾向があり、システム制御を人手により補助するため、人の挙動を検知することで関連する人の意図を解釈するシステムが提案されている。例えば、特許文献1には、ユーザの意図をユーザの最後のアクションに基づき決定し、決定したユーザの意図に基づいて処理を行うシステムが開示されている。また、特許文献2には、意図知識ベースに基づきユーザの意図を決定し、当該意図により決定されたアクションのフィードバックに基づいて、意図知識ベースを更新する推論システムが開示されている。
特開2019-079204号公報 特開2005-100390号公報
特許文献1及び特許文献2には、いずれも、人の意図を検知するために高精度の意図知識ベース又は教師あり学習が必要となる。しかしながら、このような高精度の意図知識ベース又は教師あり学習を事前に用意又は実行するのはユーザにとって負担が大きい。
本開示は、上述した課題を鑑み、技術システムの制御を人が補助する場合の人間の意図を好適に検出することが可能な制御装置、制御方法及びコンピュータ読み取り可能な記憶媒体を提供することを目的の一つとする。
意図検出装置の一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する前処理部と、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定する動作パターン・オブジェクト関係性特定部と、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う検出部と、
を有する意図検出装置である。
意図検出方法の一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う、
意図検出方法である。
記憶媒体の一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う処理をプロセッサに実行させる命令を記憶した記憶媒体である。
本発明の1つの効果の例として、人の意図を好適に検出することができる。
第1実施形態に係る意図検出システムの構成を概略的に示したブロック図である。 意図検出装置により実行される処理の概要の一例を示す。 意図検出装置により検出されるべきアクティビティ、ジェスチャ、動作プリミティブ、及び動作パターンのタイムチャートを概略的に示した図である。 意図検出装置のプロセッサの機能ブロック図を示す。 動作パターン・オブジェクト関係性特定部のブロック図を示す。 動的変動量信号の処理の具体例を示す。 人の姿勢及びオブジェクト関係性のエンコード(符号化)の概要を示す図である。 ローカル意図検出部のブロック図を示す。 意図検出装置が実行するローカル意図検出処理を示すフローチャートの一例である。 第2実施形態に係る意図検出装置のブロック図を示す。 第3実施形態に係る意図検出システムを示す。 第4実施形態に係る意図検出装置を示す。 第4実施形態に係るフローチャートを示す。
(第1実施形態)
(1)システム構成
図1は、本開示の第1実施形態に係る意図検出システム100の構成を概略的に示したブロック図である。意図検出システム100は、人の動作パターン及び動作シーケンスの教師なし又は教師あり学習を行い、それにより人の意図を検出することが可能なシステムである。図示されるように、意図検出システム100は、意図検出装置1と、入力装置5、センサ6と、データ記憶装置7とを有する。
意図検出装置1は、センサ6から供給される検出信号「S1」及び入力装置5から供給される入力信号「S2」を用いることで、対象者8の動作パターン及び動作シーケンスの教師なし又は半教師あり学習を行い、人の意図を検出する。人の意図を検出するため、意図検出装置1は、対象者8の動作パターンを検出することに加えて、対象者8に関連がある1又は複数の関連オブジェクト(関連物体)9の検出及び対象者8と関連オブジェクト9との関係性(「オブジェクト関係性」とも呼ぶ。)の検出を行う。オブジェクト関係性の具体例は、対象者8と関連オブジェクト9との距離に応じ、「遠い」、「近い」、「接近」、「保持」などが含まれる。なお、出願人は、意図検出システム100について、高度な解釈性を有し、かつ、行動する人の近くに存在する物体は人の意図(「ローカル意図」及び「グローバル意図」を含む。詳細は後述する。)の導出に潜在的に関連すると考えられるものと仮定する。
なお、人の意図の検出後、意図検出装置1は、人の補助を行うために検出した意図に応じたさらなるロボットの制御又は他の電化製品の制御を行ってもよい。この場合、例えば、ロボット又は他の電化製品への駆動信号の生成及び供給を行うことで、意図検出装置1は、介入タスク(警察、消防など)やメンテナンスタスクや物体移動タスクなどのタスクを補助してもよい。
入力装置5は、種々のコマンド及びデータを意図検出システム100のユーザから受け付ける1又は複数のユーザインターフェースである。入力装置5の例には、キー、スイッチ、ボタン、リモートコントローラ、音声入力装置が含まれる。センサ6は、意図検出装置1が人の意図を検出するために必要な1又は複数のセンサであり、意図検出の対象となる対象者8と対象者8の周囲に存在する関連オブジェクト9とをセンシングすることで検出信号S1を生成する。センサ6は、検出信号S1を意図検出装置1へ供給する。センサ6の例には、カメラなどのイメージングデバイス、ライダ(Light Detection and Ranging又はLaser Imaging Detection and Ranging)などのデプスセンサが含まれる。センサ6は、意図検出装置1によって制御されるロボットや他の電化製品に設けられていてもよい。
データ記憶装置7は、意図検出装置1が種々の処理を行うために必要な不揮発性メモリを含む。例えば、データ記憶装置7は、ライブラリ71と、データベース72とを含む。
ライブラリ71は、対象者8の動作パターンの分類に使用され、教師なし又は半教師あり学習により徐々に拡張される。例えば、ライブラリ71の各エントリ(レコード)には、以下のものが含まれている。
動作パターンのクラスを示すインデックス
動作パターンがクラスに属するか否か判定するためのクラス特有の判定基準
クラスに関連した語彙記述
ライブラリ71は、オブジェクトの分類に関するライブラリ、又は/及び、オブジェクト関係性の分類に関するライブラリをさらに含んでもよい。
データベース72は、ライブラリ71を追加的に構築するための1又は複数のデータベースである。データベース72は、例えば、動作パターンの語彙記述及び定義を記録した本データベースであってもよい。この本データベースは、本又は他のドキュメントから抽出されたテキストを含むテキストデータベースであってもよい。上述の本又は他のドキュメントは、例えば、処理可能な形式により利用可能であり、人間のアクティビティをその環境との関係において記述するものである。データベース72は、オブジェクトと人間との関係性の語彙記述及び定義を示すデータベース、及び、オブジェクトの語彙記述及び定義を示すデータベースをさらに含んでもよい。
なお、ライブラリ71とデータベース72は、夫々異なる装置に別々に記憶されてもよい。この場合、データ記憶装置7は、2台以上の装置により実現される。また、ライブラリ71は、意図検出装置1のメモリ3に記憶されてもよく、データベース72は、意図検出装置1とインターネットを介してデータ通信が可能な1又は複数のサーバ装置により記憶されてもよい。
次に、意図検出装置1のハードウェア構成について説明する。意図検出装置1は、プロセッサ2と、メモリ3と、インターフェース4とを有する。
プロセッサ2は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、及び量子プロセッサなどの1又は複数のプロセッサであり、意図検出装置1にとって必要な種々の処理を実行する。プロセッサ2は、メモリ3又はデータ記憶装置7に予め記憶されたプログラムを実行することで、上記の種々の処理を実現する。メモリ3は、典型的にはROM(Read Only Memory)、RAM(Random Access Memory)などを含み、プロセッサ2が実行するプログラムを記憶する。メモリ3は、プロセッサ2による種々の処理の実行時には作業メモリとしても機能する。
インターフェース4は、入力装置5、センサ6、及びデータ記憶装置7などの外部装置とインターフェース動作を行う。例えば、インターフェース4は、センサ6から出力される検出信号とデータ記憶装置7から取得されるデータとをプロセッサ2に供給する。
(2)処理の概要
図2は、意図検出装置1により実行される処理の概要の一例を示す。
最初に、意図検出装置1は、センサ6の出力に基づき、前処理10を実行する。この場合、意図検出装置1は、時系列の検出信号S1を処理することで、前処理済データを生成する。意図検出装置1は、対象者8及び関連オブジェクト9の両方に関する前処理済データを生成する。
次に、前処理済データに基づいて、意図検出装置1は、動作パターン・オブジェクト関係性特定処理11を実行する。意図検出装置1は、動作パターン・オブジェクト関係性特定処理11を、教師なし学習又は半教師あり学習により徐々に拡張されるライブラリ71を用いた分類を実行する。動作パターン・オブジェクト関係性特定処理11の一部の処理として、意図検出装置1は、各動作パターンを特定するために、関連するタイミングの自動導出と、前処理済データの自動パーティショニング(分割)を行う。
その後、意図検出装置1は、アクティビティ検出・ジェスチャ検出・動作予測処理12を実行する。これにより、意図検出装置1は、対象者8のアクティビティ、ジェスチャ、及び予測される動作を検出する。対象者8の予測される動作は、対象者8のローカル意図に対応する。ここで、「ローカル意図」は、直接的又は即時に表現された人の意図であり、腕の姿勢及び動きとオブジェクトへの接近の度合いなどに基づき推論可能である。
さらに、意図検出装置1は、意図推論処理13を実行することで、対象者のグローバル意図を検出する。ここで「グローバル意図」は、ローカル意図より長期的に表現された人の意図であり、高レベルでの状況理解がローカル意図よりも必要となる。夕食を食べるというケースでは、ローカル意図は、例えば、「ナイフに手を伸ばす」であり、グローバル意図は、例えば、「十分な量の食事を用意する」である。意図検出装置1は、意図推論処理13を実行するため、検出信号S1に基づく状況理解を必要に応じて行う。
そして、意図検出装置1は、検出されたグローバル意図に応じて、(技術的)システムによるヒューマン支援14を実行する。例えば、意図検出装置1は、対象者8が取り組んでいるタスクをアシストするように、ロボット又は他の電化製品を制御する。言い換えると、意図検出装置1は、ロボット又は他の電化製品の次のオペレーションを、検出したグローバル意図に基づき決定し、決定した次のオペレーションに基づきロボット又は他の電化製品を制御する。
どのように意図検出装置1の意図推論結果が用いられるかについて具体的に考察するため、ある作業者が作業用に用いた工具を適切な収納場所へ戻したい状況について考える。この状況では、意図検出装置1は、「工具を適切な収納場所へ持っていく」という意図を検出する。ロボットの制御システムは、この意図の結果を、例えば、「工具の空間座標を決定する」、「工具の位置まで移動する」、「工具を保持する」、「工具を収納場所まで移動させる」、「工具を収納場所に置く」といったオペレーションのシーケンスに翻訳する。
なお、意図検出装置1は、必ずしもヒューマン支援14を実行しなくともよい。例えば、意図検出装置1は、意図推論処理13(及びアクティビティ検出、ジェスチャ検出・動作予測処理12)の結果をディスプレイやスピーカにより出力してもよい。他の例では、意図検出装置1は、上述の結果を外部装置に供給してもよい。
なお、意図検出システム100は、動作、ジェスチャ及びアクティビティに関して事前に用意されたライブラリ71を必要とすることなく、上述の処理を開始することができる。この場合、最初のうちは誤分類又は曖昧性などが生じうるが、自動的にライブラリ71を構築することができる。しばらくして、意図検出システム100は、アプリケーションによっては、意図検出の精度を向上させるためのユーザ入力を受け付けてもよい。
代わりに、意図検出システム100は、既に分類されて正解のジェスチャ及びアクティビティのクラスにラベル付けされた動作パターン及び動作シーケンスを示すデフォルトのエントリを有するライブラリ71を用いて上述の処理を開始してもよい。さらに別の例では、意図検出システム100は、全ての動作パターン等を含んでおり追加の訓練又はラベリングを必要としない完全に構築されたライブラリ71を用いて上述の処理を開始することもできる。
図3は、意図検出装置1により検出されるべきアクティビティ、ジェスチャ、動作プリミティブ及び動作パターンのタイムチャートを概略的に示す。
図3によれば、意図検出装置1は、時刻「t1」から時刻「t7」までの期間(対象期間)において、8個の動作パターン「mp1」~「mp6」を検出する。なお、対象期間において12個の動作プリミティブ「pr1」~「pr12」を含んでおり、1つの動作パターンは、少なくとも1つの動作プリミティブを含んでいる。なお、意図検出装置1は、時刻t1から時刻t7までの対象期間の分割(パーティション)を行うことで、動作パターンmp1~mp6を検出する。上述の分割処理の詳細については図5及び図6において記述する。
検出された動作パターンに基づいて、意図検出装置1は対象期間において2つのジェスチャ「G1」及び「G2」を検出する。ここで、「ジェスチャ」は、対象者8の動作を予測するための予測力が高い1又は複数の動作パターンを示す。即ち、1つのジェスチャは、1つのアクティビティに対応する少なくとも1つの動作パターンから構成され、ジェスチャは、1つのアクティビティの期間内に存在する他の動作パターンよりも予測力が高い動作パターンとなる。従って、同一の動作パターンがあるアクティビティにおいてはジェスチャとして分類され、他のアクティビティとにおいてはジェスチャとして分類されないということも起こり得る。
例えば、アクティビティA2が「パンをカットする」であり、動作パターンmp2が「腕を上げる」であり、動作パターンmp3が「ナイフを持ちながら腕を上下させる」であり、動作パターンmp4が「腕を初期の位置に移動させる」といったケースが考えられる。この場合、「ナイフを持ちながら腕を上下させる」という動作パターンは他と比較して高い予測力を有することから、意図検出装置1は、動作パターンmp3をジェスチャ(ジェスチャG1)として認識する。この場合、時刻t4の時点において、意図検出装置1は動作パターンmp4と他の将来に起こる動作パターンを、検出したジェスチャG1に基づき予測することが可能である。
(3)機能ブロック図
図4は、意図検出装置1のプロセッサ2の機能ブロック図を示す。プロセッサ2は、機能的には、前処理部21と、動作パターン・オブジェクト関係性特定部22と、ローカル意図検出部23と、グローバル意図検出部24とを有する。前処理部21は、図2に示される前処理10を実行し、動作パターン・オブジェクト関係性特定部22は、動作パターン・オブジェクト関係性特定処理11を実行し、ローカル意図検出部23は、アクティビティ検出・ジェスチャ検出・動作予測処理12を実行し、グローバル意図検出部24は、意図推論処理13を実行する。ヒューマン支援14を実行する要素についてはここでは図示していない。図4において、データの授受を行う要素同士を実線により結んでいる。なお、データの授受を行う要素の組み合わせは、図4に示される組み合わせに限定されない。後述する他のブロック図においても同様である。
前処理部21は、対象者8をセンシングするカメラなどのセンサ6が出力する時系列の検出信号S1を処理することで、対象者8の前処理済ヒューマン信号「Sh」を生成する。例えば、前処理部21は、対象者の特定の複数の関節の位置となる仮想点(バーチャルポイント)を、センサ6が出力する画像から検出し、センサ6から出力される画像シーケンスについて各仮想点を時系列にて追跡(トラッキング)する。前処理済ヒューマン信号Shは、対象者8の動きを検出するための上記以外の任意の特徴データであってもよい。前処理部21は、前処理済ヒューマン信号Shを生成するための任意の手法を選択してもよい。
前処理部21は、時系列の検出信号S1を処理することで、関連オブジェクト9に関する前処理済オブジェクト信号「So」を生成する。例えば、任意のオブジェクト検出手法を用いて、前処理部21は、センサ6が出力する検出信号S1(例えば時系列画像)に基づき、関連オブジェクト9の存在を認識する。この場合、前処理部21は、関連オブジェクト9の種別又はID(識別情報)、関連オブジェクト9の姿勢、及び対象者8と関連オブジェクト9との距離についても認識する。そして、前処理部21は、関連オブジェクト9に関する種別(又はID)、姿勢(又は向き)、及び上述した距離等を示す前処理済オブジェクト信号Soを生成する。前処理部21は、前処理済ヒューマン信号Shと前処理済オブジェクト信号Soを、動作パターン・オブジェクト関係性特定部22に供給する。なお、前処理済オブジェクト信号Soは、上述した種別(又はID)、姿勢(又は向き)及び距離を認識するために必要とされる関連オブジェクト9の任意の特徴データであってもよい。この場合、動作パターン・オブジェクト関係性特定部22は、上述した種別(又はID)、姿勢(又は向き)及び距離を、前処理済オブジェクト信号Soに基づき認識する。前処理済ヒューマン信号Sh及び前処理済オブジェクト信号Soは、本開示における「前処理済データ」の一例である。
動作パターン・オブジェクト関係性特定部22は、教師なし学習又は半教師あり学習により徐々に拡張されるライブラリ71を用いた分類に基づき、動作パターンとオブジェクト関係性を認識する。
具体的には、動作パターン・オブジェクト関係性特定部22は、動的変動量信号「Sd」とタイミング情報「T」とを後の処理のために生成する。動的変動量信号Sdは、人体の運動量(動きの程度)を示す。例えば、動的変動量信号Sdは、複数のポイント(例えば関節)に関する前処理済ヒューマン信号Shの行列をスカラ値にマッピングし、時間軸におけるその差を算出することによって、計算することができる。タイミング情報Tは、各動作パターンのタイムスロットを定める時刻のシーケンスを示す。
加えて、動作パターン・オブジェクト関係性特定部22は、動作パターン及びオブジェクト関係性(以後では「mp-or」とも表記する)に関する情報「Imp-or」を生成する。mp-or情報Imp-orは、mp-orのパターンの語彙記述を含む。動作パターン・オブジェクト関係性特定部22は、mp-or情報Imp-orを生成するためのユーザ入力を受け付けてもよい。動作パターン・オブジェクト関係性特定部22は、動的変動量信号Sd、タイミング情報T、及びmp-or情報Imp-orを、ローカル意図検出部23に供給する。
ローカル意図検出部23は、動的変動量信号Sd、タイミング情報T、及びmp-or情報Imp-orに基づいて、対象者8のローカル意図に関連するアクティビティ、ジェスチャ、及び予測される動作を検出する。そして、ローカル意図検出部23は、検出されたアクティビティ、検出されたジェスチャ、及び予測される動作を含むローカル意図に関する情報(「ローカル意図情報ILi」とも呼ぶ。)をグローバル意図検出部24に供給する。なお、教師なし学習又は半教師あり学習により、ローカル意図検出部23は、オブジェクト関係性を用いてアクティビティの長さを決定する。
グローバル意図検出部24は、ローカル意図情報ILiと、動的変動量信号Sdと、タイミング情報Tと、mp-or情報Imp-orとに基づき、対象者8のグローバル意図を検出する。グローバル意図検出部24は、対象者8の長期的な行動(振る舞い)を概ね捉え、かつ、一つの動作パターンの誤分類や関連しない動作パターンに対してロバストな潜在的な表現を探索する。好適な例では、グローバル意図検出部24は、敵対的生成ネットワーク理論に基づき実現されてもよい。この場合、グローバル意図検出部24は、生成ネットワーク(generator)と識別ネットワーク(discriminator)を含み、検出されたジェスチャ及びアクティビティへのいくつかの変更された動作パターンの影響が可能な限り最小化されるように訓練(トレーニング)が行われる。このトレーニングでは、アクティビティとジェスチャとの再構築が難しくなるようにどの程度効率的にシステムがパターンを変更し、動作パターンをマスクしたかを評価する誤差関数、動作パターンのシーケンスと変更された動作パターンのシーケンスとの誤差を評価する誤差関数などの種々の誤差関数が用いられてもよい。この場合、前処理部21、動作パターン・オブジェクト関係性特定部22、及びローカル意図検出部23は、エンコーダとして機能し、グローバル意図検出部24はデコーダとして機能する。このように、意図検出システム100は、長期的な意図検出用のエンコーディング・デコーディング機構を有し、エンコーダ・デコーダのディフェレンシエータスキームに好適に統合される。
なお、前処理部21、動作パターン・オブジェクト関係性特定部22、ローカル意図検出部23、及びグローバル意図検出部24は、例えば、プロセッサ2がプログラムを実行することによって実現できる。より具体的には、各構成要素は、メモリ3に格納されたプログラムを、プロセッサ2が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばFPGA(Field-Programmable Gate Array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。以上のことは、後述する他の実施の形態においても同様である。
(4)動作パターン・オブジェクト関係性特定部の詳細
図5は、動作パターン・オブジェクト関係性特定部22のブロック図を示す。動作パターン・オブジェクト関係性特定部22は、主に、動的変動量信号算出ブロック31と、特徴的時刻検出ブロック32と、パーティショニング・正規化ブロック33と、オブジェクト関係性検出ブロック34と、分類ブロック35と、統合ブロック36とを有する。
動的変動量信号算出ブロック31は、前処理済ヒューマン信号Shに基づき動的変動量信号Sdを算出する。例えば、前処理済ヒューマン信号Shとして、動的変動量信号算出ブロック31は、時間軸において定期的にサンプリングされるフレームのシーケンスを生成する。ここで、各フレームは、対象者8から検出された複数のポイント(例えば、関節)の運動量を含んでいる。
特徴的時刻検出ブロック32は、動的変動量信号算出ブロック31から供給される動的変動量信号Sdに基づき特徴的な時刻を検出することで、タイミング情報Tを生成する。そして、特徴的時刻検出ブロック32は、検出された特徴的な時刻を示すタイミング情報Tを、他のブロックに供給する。
パーティショニング・正規化ブロック33は、前処理済ヒューマン信号Sh(即ち、前処理済データ)のパーティションを、特徴的時刻検出ブロック32から供給されるタイミング情報Tに基づいて決定する。パーティショニング・正規化ブロック33は、さらにタイミング情報Tに基づき分割(パーティショニング)された前処理済ヒューマン信号Shを正規化する。タイミング情報T=[t1,…,tn]に応じて分割及び正規化された前処理済ヒューマン信号Shをここでは[p1,…,pn]と表記する。ここで、[p1,…,pn]の各要素は、一つの動作パターンに対応する。記号「n」は、ここでは自然数を表す。パーティショニング・正規化ブロック33は、分割及び正規化された前処理済ヒューマン信号Shを分類ブロック35へ供給する。また、パーティショニング・正規化ブロック33は、タイミング情報Tをオブジェクト関係性検出ブロック34へ供給する。
なお、前処理済データのフレームの定期的なサンプリング及びパーティショニングにより、1つの動作パターンに対して複数フレームの前処理済データが利用可能であり、事前に定義された所定枚数の正規化フレームが補間により生成される。これは、プリミティブバージョンのタイムワーピングと考えることができる。
オブジェクト関係性検出ブロック34は、タイミング情報Tに応じた各タイムスロットにおけるオブジェクト関係性(即ち、対象者8と関連オブジェクト9との関係)を検出する。この場合、オブジェクト関係性検出ブロック34は、事前に定義された対象者8と関連オブジェクト9との関係性に関する情報をデータベース72から取得する。そして、オブジェクト関係性検出ブロック34は、取得した情報を参照して前処理済オブジェクト信号Soを解析することで、オブジェクト関係性を検出する。ここでは、[o1,…,on]は、期間[t1,…,tn]においてオブジェクト関係性検出ブロック34から出力される関連オブジェクト9に関する情報を表し、[r1,…,rn]は、同期間においてオブジェクト関係性検出ブロック34から出力されるオブジェクト関係性に関する情報を表す。
分類ブロック35は、教師なし学習又は半教師あり学習により徐々に拡張されるライブラリ71に基づき、タイムワーピングを用いて動作パターンとオブジェクト関係性の分類を行う。分類ブロック35は、ランダムフォレストアルゴリズムの修正又は拡張版に基づくものであってもよい。分類ブロック35は、分類の結果として、タイミング情報Tにより定義されるタイミングごとに、動作パターン、関連のあるオブジェクト、及びオブジェクト関係性のクラスに関するラベル情報「ILa」を出力する。例えば、分類ブロック35は、動作パターンの分類ラベル「Pai」(i=1,…,n)、関連のあるオブジェクトの分類ラベル「obi」、及びオブジェクト関係性の分類ラベル「rci」を、時刻「ti」における分類の結果として出力する。例えば、各分類ラベルは、クラスのインデックスと、関連する語彙記述とを含んでいる。この場合、分類ブロック35は、それぞれの分類ラベルに対応する「p」、「o」、「r」の行列を統合ブロック36へ出力する。他の例では、分類ブロック35は、アノテーション作業を簡易化するため、グラフィック表現を統合ブロック36に出力してもよい。
統合ブロック36は、分類ブロック35が出力する分類結果であるラベル情報ILaと入力装置5からの入力信号S2に応じたユーザ入力情報とを統合することで、mp-or情報Imp-orを生成する。ユーザ入力情報は、例えば、分類結果に関するmp-orパターンの語彙記述を含む。例えば、「動作パターンn」の語彙記述は、「右ひじを上げる」というユーザ入力情報により特定されてもよい。また、「動作パターンm」の語彙記述は、「左ひじを上げる」というユーザ入力情報により特定されてもよい。なお、語彙記述はベクトルとして解釈されてもよい。
ユーザ入力情報は、アクティビティの最中に入力されてもよく、オフライン時に入力されてもよい。後者の場合、統合ブロック36による処理はオフラインにより開始され、バッチ処理の後、追加のユーザ入力情報が入力される。統合ブロック36は、曖昧性を検出した場合、又は、欠けている情報を検出した場合に、ユーザ入力情報を要求してもよい。
図5によれば、上述の統合処理の後、統合ブロック36は、次の時系列のmp-orパターンを示すmp-or情報Imp-orを生成する。
「動作3」
「動作2」
「オブジェクト2と関係性2を有する動作1」
「オブジェクト2と関係性1を有する動作5」
「オブジェクト2と関係性1を有する動作2」
図6は、動的変動量信号算出ブロック31、特徴的時刻検出ブロック32、及びパーティショニング・正規化ブロック33が実行する処理の具体例を示す。
最初に、動的変動量信号算出ブロック31は、前処理済ヒューマン信号Shを取得し、動的変動量信号Sdを算出する。そして、例えば、特徴的時刻検出ブロック32は、前処理済ヒューマン信号Shの極小値(さらに極大値を含んでもよい)を検出することで、特徴的な時刻を検出する。そして、特徴的時刻検出ブロック32の処理結果に基づき、パーティショニング・正規化ブロック33は前処理済ヒューマン信号Shを動作パターンごとに分解する。なお、どのように動的変動量信号が算出されたかに応じて、動的変動量信号Sdに対して所定のフィルタリングが実行されてもよい。そして、パーティショニング・正規化ブロック33は、タイムワーピング(正規化)の原始的方法を用いて、各動作パターンを画像としてエンコードする。
なお、分類ブロック35においてよりよい分類結果を得るため、特徴的時刻検出ブロック32及びパーティショニング・正規化ブロック33は、分類結果の質に関するフィードバックをパーティショニングに対して行ってもよい。このような分類スキームの適応により上述の結果の向上が期待される。
図7は、人の姿勢とオブジェクト関係性のエンコードの概要を示す。図7では、動的変動量信号Sdが算出されるポイントに対応する対象者8上の箇所に丸印が付されている。
この場合、パーティショニング・正規化ブロック33は、対象者8の各検出ポイントに関する動的変動量信号Sdに基づき、対象者8の姿勢を検出し、対象者8の姿勢を特徴付ける複数の角度により姿勢をエンコードする。一方、前処理部21又はオブジェクト関係性検出ブロック34は、関連オブジェクト9の種別、関連オブジェクト9の姿勢、及び関連オブジェクト9と対象者8との距離「d」を検出する。図7の例では、関連オブジェクト9の姿勢を特徴付ける角度「θo」が少なくとも検出されている。距離dは、分類され、該当するカテゴリにより表されてもよい。図7の例では、距離dは、「遠い」、「近い」、「接近」、「保持」の4つのカテゴリのうち「近い」に分類されている。
行列90は、パーティショニング・正規化ブロック33及びオブジェクト関係性検出ブロック34による出力(アウトプット)の組み合わせの一例である。行列90は、動作パターン、関連オブジェクト及びオブジェクト関係性に関する情報を含む時間的に正規化された時間正規化動作パターン情報を示す。行列90は、画像に変換され、分類ブロック35による分類に用いられる。上述の画像の例が画像91~93として示されている。画像91~93は、動作パターン及びオブジェクト関係性の異なる組み合わせを示している。
上述したように、動作パターン・オブジェクト関係性特定部22は、動的変動量信号Sdとタイミング情報Tを使用し、分類アルゴリズムを実行することで後段の処理に用いられるラベル情報ILaを取得する。これにより、更なる言語解釈を必要とすることなく、分類アルゴリズムにより自動的に導出された、言語表現に後に変換するための定量的なラベルを得ることができる。
(5)ローカル意図検出部の詳細
図8は、ローカル意図検出部23のブロック図を示す。ローカル意図検出部23は、主に、エンベッドブロック41と、非線形動的処理ブロック43と、6個の非線形静的処理ブロック42、44~48とを有する。
エンベッドブロック41は、mp-or情報Imp-orを後の処理のために数値フォーマットに変換する。具体的には、エンベッドブロック41は、mp-or情報Imp-orにより示される語彙記述(単語など)を数値のシーケンスであるベクトルに対応付ける。高次元の数学的空間の特性を用いることで、単語間の関係性(例えば、どの程度これらの意味が近いか)が表現される。エンベッドブロック41は、Word2Vecや他の自然言語処理モデルに基づくものであってもよい。このエンベッド(埋め込み)処理の質の担保は、後の処理において必須となる。
非線形静的処理ブロック42、44~48は、いくつかのレイヤーからなるフォワード処理を、フィードバックループのための追加的なメモリを必要とすることなく実行することで、異なるステップ間での内在的な関係を検出する。非線形静的処理ブロック42、44~48は、例えば、多層パーセプトロン又はオートアソシアティブニューラルネットワーク(auto associative neural network)により実現される。
非線形静的処理ブロック42は、動作パターン・オブジェクト関係性特定部22から出力される動的変動量信号Sd及びタイミング情報Tの非線形静的処理を実行し、その処理結果を非線形静的処理ブロック45に供給する。非線形静的処理ブロック44は、エンベッドブロック41から出力される数値ベクトルの非線形静的処理を実行し、その処理結果を、非線形静的処理ブロック45に供給する。非線形静的処理ブロック45は、非線形静的処理ブロック42、非線形動的処理ブロック43、及び非線形静的処理ブロック44が出力(導出)するデータの非線形静的処理(第2非線形静的処理)を実行する。そして、非線形静的処理ブロック45は、その処理結果を、非線形静的処理ブロック46、非線形静的処理ブロック47、及び非線形静的処理ブロック48に夫々供給する。
非線形静的処理ブロック45が出力する出力データに基づいて、非線形静的処理ブロック46は、検出されたアクティビティ(例えば、「アクティビティ1」)の語彙記述を非線形静的処理により出力する。非線形静的処理ブロック47は、非線形静的処理ブロック45が出力する出力データに基づいて、検出されたジェスチャ(例えば、「動作9」)の語彙記述を非線形静的処理により出力する。非線形静的処理ブロック45が出力する出力データに基づいて、非線形静的処理ブロック48は、非線形静的処理により、対象者8が次に実行すると予測されるステップ(即ち、予測される次の動作、例えば「オブジェクト2と関係1を有する動作2」)の語彙記述を出力する。
非線形動的処理ブロック43は、フィードバックループのためのメモリを用いることで、フィードバック機能により出来事のシーケンスを検出する。非線形動的処理ブロック43は、例えば、リカーレントニューラルネットワークである。非線形動的処理ブロック43はエンベッドブロック41が出力する数値ベクトルを受信し、処理結果を非線形静的処理ブロック45に供給する。
ローカル意図検出部23の訓練について補足説明する。ローカル意図検出部23(即ち意図検出システム100)がビデオのシーケンスを用いてオフラインにより訓練される場合、次の動作パターンに関する情報は既に利用可能であるため、ローカル意図検出部23には当該情報が供給されない。この場合、ジェスチャとアクティビティはより要求が厳しくなる。ローカル意図検出部23は、第1の解決策として、ユーザ入力に基づくものとなり、アクティビティとジェスチャのみティーチングがなされる半教師あり学習により実現される。しかし、実行開始後の時間経過と共に、この部分においてもある程度自動化されると予想される。ローカル意図検出部23の訓練の自動化スキームは、グローバル意図検出部24の訓練と共に実行される。
(6)処理フロー
図9は、意図検出装置1により実行されるローカル意図検出処理を示すフローチャートの一例である。
まず、意図検出装置1は、検出信号S1をセンサ6から取得する(ステップS10)。そして、意図検出装置1は、検出信号S1から前処理済データを生成する(ステップS11)。具体的には、意図検出装置1は、対象者8に関する前処理済ヒューマン信号Shと関連オブジェクト9に関する前処理済オブジェクト信号Soとを生成する。
次に、意図検出装置1は、前処理済ヒューマン信号Shに基づき、動的変動量信号Sdを算出する(ステップS12)。そして、意図検出装置1は、前処理済ヒューマン信号Shの分割及び正規化を行う(ステップS13)。この場合、意図検出装置1は、前処理済ヒューマン信号Shに基づき特徴的な時刻を検出することで、前処理済ヒューマン信号Shを動作パターンごとのデータに分割する。
そして、意図検出装置1は、対象者8と関連オブジェクト9とのオブジェクト関係性を前処理済オブジェクト信号So及びステップS13の実行結果に基づき導出する(ステップS14)。その後、意図検出装置1は、タイムワープを用いた分類を実行する(ステップS15)。この場合、意図検出装置1は、タイムスロットごとに、動作パターン、関連オブジェクト9、及びオブジェクト関係性を夫々分類する。そして、意図検出装置1は、分類された動作パターン及びオブジェクト関係性の語彙記述であるmp-or情報Imp-orを生成する(ステップS16)。そして、意図検出装置1は、mp-or情報Imp-orのエンベッドを行う(ステップS17)。これにより、意図検出装置1は、mp-or情報Imp-orを数値フォーマットに変換する。その後、意図検出装置1は、非線形動的・静的処理を実行する(ステップS18)。これにより、意図検出装置1は、出来事のシーケンスを検出し、異なるステップ間での内在的な関係性を探索する。そして、ステップS18の処理結果として、意図検出装置1は検出されたアクティビティ、検出されたジェスチャ、及び予測される動作を示すローカル意図情報ILiを出力する(ステップS19)。その後、意図検出装置1のグローバル意図検出部24は、ステップS19で出力されたローカル意図情報ILiに基づき、対象者8のグローバル意図を検出する。
意図検出装置1は、ローカル意図検出処理を終了すべきか否か判定する(ステップS20)。そして、意図検出装置1は、ローカル意図検出処理を終了すべきと判定した場合(ステップS20;Yes)、意図検出装置1は、フローチャートに基づくローカル意図検出処理を終了する。もし、意図検出装置1は、ローカル意図検出処理を終了すべきでないと判定した場合(ステップS20;No)、意図検出装置1は、ステップS10の処理に戻る。
(7)有利な効果
第1実施形態に関する有利な効果について説明する。
意図検出システム100は、ほぼ教師なしでのパターン及びシーケンスの学習が可能な特別なアーキテクチャ及び処理構造を有している。加えて、意図検出システム100は、データ変換(規則化、正規化、タイムワープ)を行うことで、人の動的な動作を可変時間長の基本動作パターンに分割し、基本動作パターンごとにオブジェクト関係性を導出する。これにより、意図検出システム100は、即時的なニーズ(即ちローカル意図)と長期的なニーズ(即ちグローバル意図)と機械の操作又は機械と接している人の意図とを、高精度に(高い直観性により理解可能に)かつ命令指示の負荷を低減可能なロバストな方法により決定することができる。
意図検出システム100は、ロボティクス、支援システム、協調ロボット、マシーンユーザインタフェースなどに適用することができる。具体的な例として、意図検出システム100は、コンピュータ・ロボット操作システムに関するユーザ入力を必要とするタスク、介入タスク、メンテナンスタスク、一般操作タスク、又はオブジェクト移動タスクなどに適用されてもよい。しかし、本発明は、必ずしも上述したフィールドへの適用に限定されない。
(第2実施形態)
図10は、第2実施形態に係る意図検出装置1Aのブロック図を示す。意図検出装置1Aは動作パターンライブラリ7Aを参照する補間部25をさらに備える点において、意図検出装置1Aは、意図検出装置1と異なる。以後において、第1実施形態と同一要素については第1実施形態と同一の符号を付し、適宜その説明を省略する。
動作パターンライブラリ7Aは、とり得る動作パターンに関する文(即ち、語彙記述又は言語ラベル)を含んでいる。動作パターンライブラリ7Aは、データ記憶装置7に記憶されていてもよく、他の外部装置に記憶されていてもよい。
補間部25は、ローカル意図検出部23により検出されたローカル意図(ジェスチャ及びアクティビティを含む)に関連する動作パターンに関する語彙記述が存在しない場合に、語彙記述が欠けた動作パターンの語彙(テキスト)記述を動作パターンライブラリ7Aから探索する。補間部25は、欠けた動作パターンの記述に対する確率又はスコアについても算出する。さらに、補間部25は、新たな動作パターンのラベルを学習し、経時での(即ち時間経過に伴う)動作パターンの記述の一貫性を評価する。
例えば、ローカル意図検出部23は、次の動作シーケンスを認識したと仮定する。
「歩く」
「棚に向かって歩く」
「腕を上げる」
「手を伸ばす、本に近づく」
「腕を下げる、本を持つ」
「本を両手で持つ」
「未知の動作パターン、本を持つ」
「本を両手で持つ」
そして、上記のシーケンスに関する情報をローカル意図検出部23から受信後、補間部25は、動作パターンライブラリ7Aを参照し、未知の動作パターンは、「本を2つの腕で保持して読む」であると推論する。その後、補間部25は、結果を動作パターン・オブジェクト関係性特定部22に供給する。
第2実施形態によれば、補間部25は、ローカル意図検出部23が対象者8のアクティビティとジェスチャを含むローカル意図を検出したがいくつかの動作パターンについて語彙記述(即ち言語ラベル)が存在しない状況において動作する。このような状況では、補間部25は、正しい語彙記述を自動的に探索し、探索した語彙記述の経時での一貫性を評価する。これにより、意図検出装置1Aは、動作パターンの欠けた記述を取得し、対象者8のアクティビティとジェスチャを含むローカル意図の検出精度を向上させることができる。
(第3実施形態)
図11は、第3実施形態に係る意図検出システム100Aを示す。意図検出システム100Aは、意図検出装置として機能するサーバ装置1Bと、ユーザ入力機能、データ通信機能、及びその他の機能を備えた端末装置1Cとを有する。以後では、第1実施形態と同一要素については第1実施形態と同一の符号を付し、適宜その説明を省略する。
サーバ装置1Bは、図1に示される意図検出装置1として機能し、意図検出を実行する。サーバ装置1Bは、端末装置1Cを介し、センサ6から出力される検出信号を受信し、図2に示される処理を実行する。サーバ装置1Bは、プロセッサ2と、メモリ3と、インターフェース4と、データ記憶装置7と、通信インターフェースである通信部9とを含んでいる。サーバ装置1Bのプロセッサ2と、メモリ3と、インターフェース4と、データ記憶装置7とは、図1の意図検出装置1のプロセッサ2と、メモリ3と、インターフェース4とに夫々対応する。通信部9は、プロセッサ2の制御の下、センサ6が生成する検出信号及び端末装置1Cが生成するユーザ入力情報などのデータの授受を端末装置1Cと行う。
なお、サーバ装置1Bは、複数の装置により構成されてもよい。この場合、複数の装置の各々が自己に予め割り当てられたタスクを実行するために必要なデータの授受を互いに行う。
第3実施形態によっても、サーバ装置1Bは、対象者8の意図を好適に検出することができる。
(第4実施形態)
図12は、第4実施形態に係る意図検出装置1Xを示す。意図検出装置1Xは、前処理部21Xと、動作パターン・オブジェクト関係性特定部22Xと、検出部23Xと、を有する。
前処理部21Xは、センサが出力する検出信号を処理することで、人と関連のあるオブジェクトとに関する前処理済データを生成する。例えば、前処理部21Xは、第1実施形態~第3実施形態のいずれかの前処理部21により実現される。
動作パターン・オブジェクト関係性特定部22Xは、前処理済データに基づいて、人の動作パターンと、人と当該人に関連のあるオブジェクトとの関係性とを特定する。動作パターン・オブジェクト関係性特定部22Xは、例えば、第1実施形態~第3実施形態のいずれかの動作パターン・オブジェクト関係性特定部22により実現される。
検出部23Xは、人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された動作パターンと特定された関係性とに基づき検出し、アクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う。例えば、検出部23Xは、第1実施形態~第3実施形態のいずれかのローカル意図検出部23により実現される。
図13は、第4実施形態に係るフローチャートを示す。前処理部21Xは、センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する(ステップS30)。動作パターン・オブジェクト関係性特定部22Xは、前処理済データに基づいて、人の動作パターンと、人とオブジェクトとの関係性とを特定する(ステップS31)。検出部23Xは、人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された動作パターンと特定された関係性とに基づき検出し、アクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う(ステップS32)。
第4実施形態によれば、意図検出装置1Xは、人とオブジェクトとの関係性を考慮して人のアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを検出することができる。
なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータであるプロセッサ2に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAMを含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
(付記1)
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する前処理部と、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定する動作パターン・オブジェクト関係性特定部と、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う検出部と、
を有する意図検出装置。
(付記2)
前記動作パターン・オブジェクト関係性特定部は、前記動作パターン及び前記関係性の分類を、教師なし学習又は半教師あり学習により行う、付記1に記載の意図検出装置。
(付記3)
前記動作パターン・オブジェクト関係性特定部は、前記分類により、同一のクラスに属する前記動作パターン及び前記関係性を、同一の語彙記述に対応させる、付記2に記載の意図検出装置。
(付記4)
前記動作パターン・オブジェクト関係性特定部は、前記教師なし学習又は半教師あり学習により、ライブラリを徐々に拡張し、
前記ライブラリは、前記動作パターン及び前記関係性のクラスごとに、
前記動作パターン及び前記関係性のクラスを判定する基準と、
前記クラスの語彙記述と、
を含む、付記3に記載の意図検出装置。
(付記5)
前記動作パターン・オブジェクト関係性特定部は、前記前処理済データから動的変動量信号を生成し、前記動的変動量信号に基づいて、特徴的な時刻の検出を行い、前記動作パターンの特定を行うための前記前処理済データの分割及び正規化を行う、付記1に記載の意図検出装置。
(付記6)
前記動作パターン・オブジェクト関係性特定部は、前記動作パターンと前記関係性との語彙記述を特定し、
前記検出部は、前記語彙記述を数値フォーマットのデータに変換し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、
付記1に記載の意図検出装置。
(付記7)
前記検出部は、前記数値フォーマットのデータの非線形動的処理と非線形静的処理を行い、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、付記6に記載の意図検出装置。
(付記8)
前記検出部は、前記非線形動的処理と前記非線形静的処理とにより得られたデータに対して第2の非線形静的処理を行い、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、付記7に記載の意図検出装置。
(付記9)
前記検出部は、前記前処理済データと前記動作パターンに関するタイミング情報とから生成された動的変動量信号にさらに基づき、前記第2の非線形静的処理を実行する、付記8に記載の意図検出装置。
(付記10)
前記動作パターンの語彙記述が不明である場合、動作パターンライブラリから前記語彙記述を探索し、時間経過に伴う前記語彙記述の一貫性を評価する補間部をさらに有する、付記1に記載の意図検出装置。
(付記11)
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う、
意図検出方法。
(付記12)
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う処理をプロセッサに実行させる命令を記憶した記憶媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
本発明は、例えば、ロボティクス、意図検出システム、協調ロボット、電化製品、及びこれらを制御するサーバ装置などのコントローラに利用することができる。
1、1A、1X 意図検出装置
1B サーバ装置
1C 端末装置
2 プロセッサ
3 メモリ
4 インターフェース
5 入力装置
6 センサ
7 データ記憶装置
9 通信部
意図検出装置の一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する前処理手段と、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定する動作パターン・オブジェクト関係性特定手段と、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う検出手段と、
を有する意図検出装置である。
プログラムの一態様は、
センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う処理をプロセッサに実行させるプログラムである。

Claims (12)

  1. センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成する前処理部と、
    前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定する動作パターン・オブジェクト関係性特定部と、
    前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う検出部と、
    を有する意図検出装置。
  2. 前記動作パターン・オブジェクト関係性特定部は、前記動作パターン及び前記関係性の分類を、教師なし学習又は半教師あり学習により行う、請求項1に記載の意図検出装置。
  3. 前記動作パターン・オブジェクト関係性特定部は、前記分類により、同一のクラスに属する前記動作パターン及び前記関係性を、同一の語彙記述に対応させる、請求項2に記載の意図検出装置。
  4. 前記動作パターン・オブジェクト関係性特定部は、前記教師なし学習又は半教師あり学習により、ライブラリを徐々に拡張し、
    前記ライブラリは、前記動作パターン及び前記関係性のクラスごとに、
    前記動作パターン及び前記関係性のクラスを判定する基準と、
    前記クラスの語彙記述と、
    を含む、請求項3に記載の意図検出装置。
  5. 前記動作パターン・オブジェクト関係性特定部は、前記前処理済データから動的変動量信号を生成し、前記動的変動量信号に基づいて、特徴的な時刻の検出を行い、前記動作パターンの特定を行うための前記前処理済データの分割及び正規化を行う、請求項1に記載の意図検出装置。
  6. 前記動作パターン・オブジェクト関係性特定部は、前記動作パターンと前記関係性との語彙記述を特定し、
    前記検出部は、前記語彙記述を数値フォーマットのデータに変換し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、
    請求項1に記載の意図検出装置。
  7. 前記検出部は、前記数値フォーマットのデータの非線形動的処理と非線形静的処理を行い、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、請求項6に記載の意図検出装置。
  8. 前記検出部は、前記非線形動的処理と前記非線形静的処理とにより得られたデータに対して第2の非線形静的処理を行い、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの検出を行う、請求項7に記載の意図検出装置。
  9. 前記検出部は、前記前処理済データと前記動作パターンに関するタイミング情報とから生成された動的変動量信号にさらに基づき、前記第2の非線形静的処理を実行する、請求項8に記載の意図検出装置。
  10. 前記動作パターンの語彙記述が不明である場合、動作パターンライブラリから前記語彙記述を探索し、時間経過に伴う前記語彙記述の一貫性を評価する補間部をさらに有する、請求項1に記載の意図検出装置。
  11. センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
    前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
    前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う、
    意図検出方法。
  12. センサが出力する検出信号を処理することで、人と当該人に関連のあるオブジェクトとに関する前処理済データを生成し、
    前記前処理済データに基づいて、前記人の動作パターンと、前記人と前記オブジェクトとの関係性とを特定し、
    前記人に関するアクティビティ、ジェスチャ、又は予測されるステップの少なくともいずれかを、特定された前記動作パターンと特定された前記関係性とに基づき検出し、前記アクティビティ、前記ジェスチャ、又は前記予測されるステップの少なくともいずれかの語彙記述の統合及び供給を行う処理をプロセッサに実行させる命令を記憶した記憶媒体。
JP2022575247A 2020-06-12 2020-06-12 意図検出装置、意図検出方法及びプログラム Active JP7396517B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/023268 WO2021250901A1 (en) 2020-06-12 2020-06-12 Intention detection device, intention detection method computer-readable storage medium

Publications (2)

Publication Number Publication Date
JP2023528513A true JP2023528513A (ja) 2023-07-04
JP7396517B2 JP7396517B2 (ja) 2023-12-12

Family

ID=78847155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022575247A Active JP7396517B2 (ja) 2020-06-12 2020-06-12 意図検出装置、意図検出方法及びプログラム

Country Status (3)

Country Link
US (1) US20230230354A1 (ja)
JP (1) JP7396517B2 (ja)
WO (1) WO2021250901A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3940586A1 (en) * 2020-07-17 2022-01-19 Sony Group Corporation An electronic device and a related method for detecting and counting an action

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163555A1 (ja) 2017-03-07 2018-09-13 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2020022362A1 (ja) * 2018-07-24 2020-01-30 国立研究開発法人国立精神・神経医療研究センター 動き検出装置、特性検出装置、流体検出装置、動き検出システム、動き検出方法、プログラム、および、記録媒体

Also Published As

Publication number Publication date
WO2021250901A1 (en) 2021-12-16
JP7396517B2 (ja) 2023-12-12
US20230230354A1 (en) 2023-07-20

Similar Documents

Publication Publication Date Title
Pereira et al. Quantifying behavior to understand the brain
Hu et al. Early action prediction by soft regression
JP6647573B2 (ja) 人工知能モジュール開発システム及び人工知能モジュール開発統合システム
Du et al. Hierarchical recurrent neural network for skeleton based action recognition
US7203635B2 (en) Layered models for context awareness
Várkonyi-Kóczy et al. Human–computer interaction for smart environment applications using fuzzy hand posture and gesture models
US11803974B2 (en) Automated system to measure multi-animal body part dynamics
US20210173377A1 (en) Systems and Methods for Advance Anomaly Detection in a Discrete Manufacturing Process with a Task Performed by a Human-Robot Team
JPWO2002099545A1 (ja) マン・マシン・インターフェースユニットの制御方法、並びにロボット装置及びその行動制御方法
US11825278B2 (en) Device and method for auto audio and video focusing
Mohammad et al. Unsupervised simultaneous learning of gestures, actions and their associations for human-robot interaction
CN114730407A (zh) 使用神经网络对工作环境中的人类行为进行建模
JP7396517B2 (ja) 意図検出装置、意図検出方法及びプログラム
Avsar et al. Benchmarking annotation procedures for multi-channel time series HAR dataset
Al Mahmud et al. 3D gesture recognition and adaptation for human–robot interaction
CN112257663B (zh) 一种基于贝叶斯网络的设计意图识别方法及系统
CN117592542A (zh) 用于机器学习模型的具有对比损失的专家引导半监督的系统和方法
Alibeigi et al. A fast, robust, and incremental model for learning high-level concepts from human motions by imitation
Guimarães et al. A taxonomy of Self-organizing Maps for temporal sequence processing
García et al. Dynamic facial landmarking selection for emotion recognition using Gaussian processes
Tang et al. Extracting commands from gestures: Gesture spotting and recognition for real-time music performance
JP7485217B2 (ja) 分類装置、分類方法及びプログラム
Ghosh et al. Visual Search as a Probabilistic Sequential Decision Process in Software Autonomous System
Zegarra et al. An application of machine learning methods to cutting tool path clustering and rul estimation in machining
Orovwode et al. The Use of Hand Gestures as a Tool for Presentation.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231113

R151 Written notification of patent or utility model registration

Ref document number: 7396517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151