JP6129073B2 - 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム - Google Patents

自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム Download PDF

Info

Publication number
JP6129073B2
JP6129073B2 JP2013520054A JP2013520054A JP6129073B2 JP 6129073 B2 JP6129073 B2 JP 6129073B2 JP 2013520054 A JP2013520054 A JP 2013520054A JP 2013520054 A JP2013520054 A JP 2013520054A JP 6129073 B2 JP6129073 B2 JP 6129073B2
Authority
JP
Japan
Prior art keywords
channel
robot
message
communication
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013520054A
Other languages
English (en)
Other versions
JP2013539569A (ja
Inventor
メゾニエ、ブルーノ
モンソー、ジェローム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aldebaran SAS
Original Assignee
SoftBank Robotics Europe SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Robotics Europe SAS filed Critical SoftBank Robotics Europe SAS
Publication of JP2013539569A publication Critical patent/JP2013539569A/ja
Application granted granted Critical
Publication of JP6129073B2 publication Critical patent/JP6129073B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Robotics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明はヒューマノイドロボットの分野に属する。より正確には、本発明は、ユーザの命令に基づく行為の前記ロボットによる実行と、前記ロボットによる適切な回答の提供と、より一般的なやり方では前記ロボットとその対話者または複数の対話者との「ヒューマノイド関係」の確立と、を可能にするように、この種のロボットとの対話のためのインターフェースをプログラムし採用する方法に適用される。
ロボットは、人間の外観および機能:頭、胴、両腕、任意選択的に両手、両脚、両足などのいくつかの属性を有する限りヒューマノイドと称されることがある。外観以外では、ヒューマノイドロボットが達成できる機能は、運動を行い、話し、「推論する」ためのその能力に依存する。ヒューマノイドロボットは四肢または頭を使って歩行し、身振りをすることができる。ヒューマノイドロボットが行える身振りの複雑さは引き続き増加している。
いくつかのロボットは環境からの刺激に応じて話すことができる。相互作用の可能性を著しく豊かにするいくつかのロボットと人間との対話のための機能を開発できるようにする音声認識および合成ツールの開発もなされてきた。このような言葉を使用する人間−ロボットインタフェースは、特に米国特許出願公開第2009/287678号明細書だけでなく米国特許第7,711,569号明細書により開示されている。
これらの従来技術文書では、音声認識に固有の不完全性は、データベースへのアクセスを必要とする意味論的および/または文脈論的支援に訴えることにより、学習により、認識の疑い(低認識信頼区間、偽陽性、偽陰性など)を解消できるように大きな計算資源を利用することにより、緩和される。これらの手段の利用は、移動運動などのその最重要処理を管理するようにその計算資源が経済的でなければならない多機能ヒューマノイドロボットの場合は、適切でない。
前記ロボット上に埋め込まれた計算資源を使用することにより簡単かつ効果的やり方で、不完全なままとなるセンサとソフトウェアにより行われる認識に関する疑いを解消できるヒューマノイドロボットを有することができれば有利だろう。
本発明は、回答の確認の自然なモードを使用するヒューマノイドロボットとの対話のためのインターフェースを提供することによりこの問題を解決する。
この目的のため、本発明は、異なる様式に応じた少なくとも1人の対話者とのメッセージの自然なコミュニケーションのための少なくとも2つのチャネルであってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される2つのチャネルと、2つのチャネルの入力/出力のための制御モジュールと、を含むヒューマノイドロボットを開示する。制御モジュールは、第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能とチャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能とを含む機能の群から選択された少なくとも1つの機能の実行に基づき前記ロボットにより受信されたメッセージの理解を向上させるように構成される。
有利には、前記通信チャネルは、可聴、可視、触知可能メッセージ、ロボットの少なくとも一部分の移動および/または位置に関するメッセージ、およびデジタルメッセージを送信および/または受信する為の通信チャネルの群から選択される。
有利には、第1の通信チャネルは音声送信チャネルであり、第2の通信チャネルは少なくとも前記1人の対話者によるロボットの少なくとも一部分からの移動および/または位置を受信するためのチャネルである。前記移動および/または位置は、対話者によりロボットに伝えられる入力を表し、入力の前記仕様は、第1のチャネル上で送信されたメッセージによりロボットにより対話者に対し規定される。
有利には、本発明のロボットはさらに、対話者が第2のチャネルに対し行われた入力を検証する第3の触知通信チャネル(tactile communication channel)を含む。
有利には、第1の通信チャネルは音声メッセージを受信するためのチャネルであり、第2の通信チャネルは音声メッセージを送信するためのチャネルであり、前記制御モジュールは、前記第1のチャネル上で受信された第1のメッセージの前記ロボットによる理解の信頼水準を評価し、前記第2のチャネル上にその内容が前記信頼水準に依存する少なくとも1つの第2のメッセージを生成することができる。
有利には、第1のチャネルは、それぞれが期待認識率と関連付けられた表現のリストにより、受信されたメッセージを音声認識するためフィルタを含み、第2のメッセージの内容は、第1のチャネル上の第1のメッセージの繰り返しの要求と、フィルタの表現のサブセットの第1のチャネル上で対話者により送信される第3のメッセージによる確認の要求と、少なくとも1つの第3のチャネル上の少なくとも別のメッセージにおける対話者による送信の要求と、からなる要求の群から発見的方法により選択される。
有利には、本発明のロボットは、第1と第2のチャネル上のメッセージの半二重モードでの順番を保証するように、第1のチャネル上での聴取開始信号(signal of start of listening)を第2のチャネル上で送信するように構成されている。
有利には、前記選択発見的方法は、期待認識率に基づき決定される閾値に関する実認識率(real recognition rate)の位置の関数である。
有利には、前記第3のチャネルは、触知的受信のための、またはロボットの一部から移動を受信するためのチャネルである。
有利には、本発明のロボットはさらに、電子メールシステムとインターフェースするためのモジュールを含む。この前記このモジュールは、前記第1と第2のチャネルを使用することにより、前記電子メールシステム上のアカウントのホルダが前記ロボットを、第2のチャネル上で電子メッセージを受信し/読み、第1のチャネル上で電子メッセージを書き/送り、対話により前記アカウントを管理するためのエージェントとして使用できるようにする。
有利には、前記第3のチャネルは、第1のチャネルのフィルタの表現のリストに対応する対象物の像の可視受信(visual reception)のためのチャネルであり、前記像は、前記表現と共に以前に記録された前記対象物の像のデータベースであって前記通信チャネルの入力/出力のための前記制御モジュールによりアクセス可能なデータベースと比較される。
有利には、第1の通信チャネルは可視メッセージ(visual messages)を受信するためのチャネルであり、第2の通信チャネルは音声メッセージを送信するためのチャネルであり、前記支援制御モジュールは、前記第1のチャネル上で受信される第1のメッセージの前記ロボットによる理解の前記信頼水準を評価し、その内容が信頼水準に依存する前記第2のチャネル上の少なくとも1つの第2のメッセージを生成することができる。
有利には、第1のチャネルは、それぞれが期待認識率と関連付けられた表現のリストにより、受信されたメッセージの像を認識するためのフィルタを含み、前記第2のメッセージの内容は、第1のチャネル上の前記第1のメッセージの繰り返しの要求、フィルタの表現のサブセットの音声メッセージを受信するための第3のチャネル上で対話者により送信される第3のメッセージによる確認の要求、少なくとも1つの第4のチャネル上の少なくとも1つの他のメッセージの対話者による送信の要求を含む、要求の群から発見的方法により選択される。
有利には、チャネルの少なくとも1つは、入力と出力のための前記制御モジュールによりマージされた2つのチャネルの出力を入力として受信するハイブリッドチャネルである。
本発明はまた、少なくとも1人の対話者とヒューマノイドロボットとの通信の制御方法を開示する。本方法は、異なる様式を使用する通信チャネルによるメッセージ送信の少なくとも2つの工程であってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される2つの工程と、チャネルの入力/出力を制御する工程と、を含む。制御工程は、第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能とチャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能とを含む機能の群から選択された少なくとも1つの機能の実行に基づきロボットにより受信されたメッセージの理解を向上させるように構成される。
本発明はまた、コンピュータプログラムがコンピュータ上で実行されると本発明の方法の実行を可能にするプログラムコード命令を含むコンピュータプログラムを開示する。本プログラムは、異なる様式に応じた少なくとも1人の対話者とのメッセージの自然なコミュニケーションのための少なくとも2つのチャネルであってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される2つのチャネルと、チャネルの入力/出力の制御のためのサブルーチンと、を含むヒューマノイドロボットを可能にするように構成される。制御サブルーチンは、第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能とチャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能とを含む機能の群から選択された少なくとも1つの機能の実行に基づきロボットにより受信されたメッセージの理解を向上させるように構成される。
本発明はまた、異なる様式に応じた少なくとも1人の対話者とのメッセージの自然なコミュニケーションのための少なくとも2つのチャネルであってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される2つのチャネルと、2つのチャネルの入力/出力のための制御モジュールと、を含む少なくとも1つのヒューマノイドロボットと少なくとも1人の対話者との通信インターフェースを編集し制御する方法を開示する。制御モジュールは、第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能とチャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能とを含む機能の群から選択された少なくとも1つの機能の実行に基づきロボットにより受信されたメッセージの理解を向上させるように構成される。本方法は、選択された機能をプログラムする工程をさらに含む。
有利には、前記選択された機能をプログラムする前記工程は、音声送信チャネルを装った第1の通信チャネルと、前記少なくとも1人の対話者によりロボットの少なくとも一肢の移動を受信するためのチャネルを装った第2の通信チャネルと、を規定する少なくとも1つの下位工程と、対話者によりロボットに伝達される前記移動と入力との対応を規定する下位工程と、第1のチャネル上でロボットにより対話者に送信される少なくとも1つのメッセージを生成することにより前記入力の仕様を規定する下位工程と、を含む。
有利には、本発明の編集及び制御する方法はさらに、第2のチャネルに対し行われた入力を対話者が検証する第3の触知通信チャネルを規定する下位工程を含む。
有利には、前記選択された機能をプログラムする前記工程は、音声メッセージを受信するためのチャネルを装った第1の通信チャネルと音声メッセージを送信するためのチャネルを装った第2の通信チャネルとを規定する少なくとも1つの下位工程と、前記第1のチャネル上で受信された第1のメッセージの前記ロボットによる理解の信頼水準を評価するための機能を規定する下位工程と、その内容が前記信頼水準に依存する前記第2のチャネル上の少なくとも1つの第2のメッセージの生成を規定する下位工程と、を含む。
本発明はまた、コンピュータプログラムがコンピュータ上で実行されると本発明の方法を実行するためのプログラムコード命令を含むコンピュータプログラムを開示する。コンピュータプログラムは、異なる様式に応じた少なくとも1人の対話者とのメッセージの自然なコミュニケーションのための少なくとも2つのチャネルであってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される2つのチャネルと、チャネルの入力/出力を制御するためのサブルーチンと、を含むヒューマノイドロボットをユーザがプログラムできるように構成される。本コンピュータプログラムは、ロボットにより実行される少なくとも1つの機能であって第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能と、チャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能と、を含む機能の群から選択される少なくとも1つの機能を制御するためのサブルーチン内でプログラムするためのモジュールを含む。
有利には、本発明のコンピュータプログラムはさらに、少なくとも1つのパラメータを制御ボックスに渡すことをプログラムするためのモジュールを含む。
本発明のインターフェースはさらに、例えば音声認識が何らかの有効性を持つことができるには周囲騒音が高過ぎる場合に対話が実行される環境に容易に適合化され得る多様式(multimodal)確認モードの提供という利点を提示する。したがってユーザには、接触、身振り、または特定の色または形状のディジタル符号の表示により曖昧な回答を置換/確認するようことを勧めることができる。したがってユーザは、ユーザがコンピュータに向かい合った場合またはインテリジェント電話またはタッチパッドを使用する場合に使用し慣れている従来のインターフェースを直観的やり方で置換またはエミュレートできるようにする手段を思うままに有する。
さらに、ロボットの表現のモード自体は、対話者の注意を維持するようにおよび提供される回答に関する感情またはヒントを対話者に伝えるように、特にはイントネーション、凝視、身振りを組み合わせることにより、多様式となることができる。さらに、人間同士の自然なコミュニケーションのモードに近づけることにより、本発明のインターフェースは、認識システムの結果を改良すること、「真の仮想性」に埋没されるユーザの経験(すなわち、物理的人間の化身との対話)の質を向上させること、に貢献する。
本発明はまた、その設計者により想定されなかったロボットの用途に特に適合化された新しい相互作用シナリオを極めて容易におよびほんの短い時間で作成できるようにするインターフェースを開発するための人間工学的および多目的環境を提供する。
本発明は、いくつかの例示的実施形態の以下の説明とその添付図面からより良く理解され、その様々な特性と利点が浮かび上がることになる。
本発明のいくつかの実施形態におけるヒューマノイドロボットの物理的アーキテクチャの図である。 本発明の実施形態のいくつかにおける実施に有用なセンサを含むヒューマノイドロボットの頭を示す。 本発明のいくつかの実施形態におけるロボットの機能の制御を可能にするハイレベルソフトウェアのアーキテクチャの図である。 本発明のいくつかの実施形態におけるロボットの行動/相互作用を編集しプログラムするための機能アーキテクチャの図である。 本発明のいくつかの実施形態においてヒューマノイドロボットが受ける応答/刺激のヒューマノイドロボットにより与えられる解釈を改良するために一般的なやり方で適用される処理動作の機能フローチャートである。 本発明のいくつかの実施形態におけるロボットの行動/相互作用のプログラミング論理チャートである。 本発明のいくつかの実施形態における多様式インターフェース(multimodal interface)の相互作用の論理的および時間的組み合わせを示すタイムチャートを表す。 本発明の一実施形態における対話言語を変更するための2進選択および選択肢によりヒューマノイドロボットとの対話をプログラムできるようにする一連の画面を表す。 本発明の一実施形態における対話言語を変更するための選択肢のリストとからの選択によりヒューマノイドロボットとの対話をプログラムできるようにする一連の画面を表す。 本発明の一実施形態における選択のリストのいくつかの選択肢同士を比較する音声認識試験を実行できるようにする一連の画面を表す。 本発明の一実施形態における選択のリストの選択肢を置換または補足することができるようにし、いくつかの選択肢同士を比較する新しい音声認識試験を実行できるようにする一連の画面を表す。 本発明の一実施形態における質問のものとは異なる言語で選択のリストのいくつかの選択肢同士を比較する音声認識試験を実行できるようにする一連の画面を表す。 本発明の一実施形態における選択のリストのいくつかの選択肢同士を比較する音声認識試験の閾値を検証/修正できるようにする一連の画面を表す。
図1に、本発明の一実施形態におけるヒューマノイドロボットの物理的アーキテクチャを示す。このようなロボットは、特に2009年10月15日公開の国際公開第2009/124951号パンフレットに開示されている。このプラットフォームは、本発明に至る改良のためのベースとして役立った。後の説明では、このヒューマノイドロボットはこの総称用語またはその商標NAO(商標)で呼ばれることがあるが、これにより参照の一般性が修正されることはない。
このロボットは、センサと関節を駆動するアクチュエータとを制御するためのタイプ110の電子カードを約2ダース含む。図に示すカード110は左足を制御するものである。本アーキテクチャの長所の1つは、関節を制御するカードはその大部分が交換可能であるということである。関節は通常、少なくとも2つの自由度したがって2つのモータを有する。各モータは角度で駆動される。関節はまた、いくつかの位置センサ、特にMRE(磁気回転符合器:Magnetic Rotary Encoders)を含む。電子制御カードは市販のマイクロコントローラを含む。これは、例えばMicrochip社のDSPIC(商標)であってよい。これはDSPに結合された16ビットMCUである。このMCUは、1ミリ秒のループスレービングサイクル(looped slaving cycle)を有する。ロボットはまた、他のタイプのアクチュエータ、特にその色と強度がロボットの感情を伝えることができるLED(発光ダイオード)を含むことができる。後者はまた、他のタイプの位置センサ、特に慣性ユニット、FSR(接地圧センサ)等を含むことができる。
頭160は、ロボットの知能、特に、ロボットが割り当てられた使命、特に本発明の枠組み内でゲームへの参加を達成できるようにするハイレベル機能を実行するカード130を含む。但し、カード130は、ロボット内の他のどこか例えば胴内に置かれてもよいであろう。しかしながらこの場所は、頭が着脱可能な場合、これらのハイレベル機能を交換する、したがって特にロボットの知能としたがってその使命を極めて速やかに完全に変更できるようにすることが分かるであろう。または逆に、同じ人工知能を保持する一方で1つのボデイを別のボデイと交換する(例えば、欠陥のあるボデイを欠陥の無いボデイと)ことができるようにする。頭はまた、特に言葉または画像を処理するための、または、またWAN(Wide Area Network)広域ネットワーク上の遠隔通信を確立するためにポートを開くために必要なコード化などのサービス入力/出力を処理するための特殊なカードを含むことができる。カード130のプロセッサは市販のx86プロセッサであってよい。AMD社のGeode(商標)(32ビット、500MHz)などの低消費電力プロセッサが好適なやり方で選択されることになる。カードはまた、一組のRAMとフラッシュメモリを含む。このカードはまた、通常はWiFi、WiMaxトランスミッションレイヤ上で、随意的にはVPN内の随意的にカプセル化された標準プロトコルを有するデータの移動体通信用公衆ネットワーク上で、ロボットの外部(行動サーバー(behaviors server)、他のロボットなど)との通信を管理する。プロセッサは通常、標準OSにより駆動され、これにより通常のハイレベル言語(C、C++、Python等)、またはハイレベル機能をプログラムするためのURBI(ロボット工学のための特殊なプログラミング言語)などの人工知能のための特定言語を使用できるようにする。カード120はロボットの胴内に収容される。これは、カード130により計算された命令のカード110への送信を保証する計算機が位置する場所である。このカードをロボット内の他のどこかに収容することも可能であろう。しかし胴内の場所は、頭の近くでかつ四肢の十字路に位置し、したがってこれによりこのカード130をカード120とカード110にリンクする接続配置を最小化できるので有利である。このカード120の計算機もまた市販のプロセッサである。これは100MHzクロックのARM9(商標)タイプの32ビットプロセッサであると有利である。プロセッサの型、オン/オフボタンに近いその中央位置、電源の制御へのリンクは、ロボットの電源(スタンバイモード、非常停止等)を管理するように好適に適合化されたツールとなる。カードはまた、一組のRAMとフラッシュメモリを含む。
3つのレベルを有するこのアーキテクチャは、ロボットが、連携動作と、センサの読み取りと同時にその環境内で発せられた言葉または符号を解釈し、それに反応または応答するような他の行為と、を実行できなければならない本発明の実施形態には特に有利である。
図2aと図2bに、本発明の実施形態のいくつかにおける発明の実施に有用なセンサを含むヒューマノイドロボットの頭の末端図とプロフィール図をそれぞれ表す。
図1の頭160は、本発明の実施に有用な感知能力と表現能力をロボットに備えさせるように頭200a、200bとして改善されている。
NAOは、例えばKingstate Electronics Corpにより提供されるKEEG1540PBL−Aと呼ばれる4つの全指向性マイクロホン211a、212a、213a、214a、すなわち前部には211a、裏側には214a、頭の各側面に212a、213aを備える(図2bも参照されたい)。これらは頭の内部に分散されるので、外部にアクセスするための孔だけが同図では視認可能である。マイクロホンにより行われる音声捕捉に基づき、音声分析および認識システム(例えば、Acapela(商標)社により提供されるシステムBabEAR(商標))は、本明細書内の後で提示される適切なインターフェースを有するユーザが自身の用語により豊かにすることができる所定の単語のコーパスを認識する。これらの単語は、ユーザの好みの行動、特にはロボットにより解釈される質問に対する回答をトリガできるようにする。ソフトウェア環境は本明細書の後で示されるようにいくつかの言語を支援する。NAOはまた、音声の源を検出することができこれにより何人かの対話者間の曖昧さを解消できるようにする。
NAOは、1秒当たり最大30個の画像を捕捉することができる2台のCMOS 640×480カメラ(220a)、例えば0V760と呼ばれるOmnivision(商標)ブランドのカメラ(CMOS 1/6thインチセンサ:3.6μmの画素)を通して見る。額のレベルに置かれた第1のカメラはその水平線に向けられ、口のレベルに置かれた第2のカメラはその直接環境を調査する。ソフトウェアは、NAOが見たものの写真および映像ストリームをも読み出すことができるようにする。その環境を感知し解釈するために、NAOは、ボールとより複雑な対象物とを捜し出すために、対話者を認識できるようにする一組の顔および形状の検出と認識アルゴリズムを搭載する。
NAOは、その頭蓋の頂部上に置かれた、特にこのアプリケーションのために出願人により例えば3つの区画に分割されて開発された容量センサ(230a)を備える。特定のアプリケーションでは、4区画以上を設けることができるであろう。したがって、接触により(例えば、アプリケーションにより規定された行動のトリガを可能にする一系列のボタンを押すことにより)、本発明の枠組み内で各ボタンに関連する異なる回答であってよい情報をNAOに与え、提案された選択のリストをスクロールして進み、ヘルプメニュー等にアクセスすることが可能である。システムには、接触があるかどうかを示すLEDが付随する。
NAOは、例えば明細書の後で説明されるまたはWebサイトまたはRSSストリームから検索されるモードに応じてプログラムされるその格納スペース内に局所的に存在する任意のテキストファイルを大声で読むことにより自身を表現することができる。頭の各側面上に配置された2つの拡声器210bを備えることにより、その音声合成システム(例えば、AcapelaのAcapela Mobility)はパラメタータ化可能であり、これにより特に音声の速度および/またはトーンの修正を可能にする。
NAOに音楽ファイルを送りそれを演奏させることが可能である。NAOは例えば_.wavおよび.mp3フォーマットを受け入れ、これにより本発明の枠組み内で、音声回答の付属としてまたはその代替として音楽回答または専用音声を提供できるようにする。音楽ファイル以外のフォーマットを受け入れてもよい。
図3は、本発明の一実施形態におけるロボットの機能の制御を可能にするハイレベルソフトウェアのアーキテクチャの図である。
このタイプのソフトウェアアーキテクチャは、特には2009年10月15日公開の国際公開第2009/124955号パンフレットに開示されている。このアーキテクチャは、ロボットとPCまたは遠隔場所との間の通信を管理するための、そして本発明の実施のために必要なソフトウェアインフラストラクチャを提供するソフトウェアを交換するための、基本機能を含む。このアーキテクチャは、特定のアプリケーションにおいて使用されるソフトウェア機能の特定の言及無しに包括的なやり方で以下に説明される。これらの機能は本発明のロボットの行動を管理するための任意の他のソフトウェア機能として処理されることが分かる。
図3では、例えば移動性理由のために無線リンクにより第1の遠隔端末装置TD1と通信する第1のヒューマノイドロボットRH1が極めて図式的に表される。遠隔端末装置という表現は、通信ネットワークを手段として、このタイプのヒューマノイドロボットRH1に専用化されたウェブサービスSWへのアクセスを提供するサーバープラットフォームPFSから離れた端末を意味するように意図されている。
当然、システムの要素間の通信リンクは有線ベースであってもよく、移動端末は変形形態として携帯電話または携帯型コンピュータであってもよい。
第2のヒューマノイドロボットRH2は、例えばヒューマノイドロボットRH2の移動性を妨げないように無線リンクによっても第2の遠隔端末装置TD2と通信する。
遠隔端末装置TD1、TD2とサーバープラットフォームPFSは、通信ネットワークRCを手段としてネットワーク内でリンクされる。遠隔端末装置TD1、TD2だけでなくサーバープラットフォームPFSのウェブサービスのために、またヒューマノイドロボットRH1、RH2のために、少なくとも1系列の命令を含む少なくとも1つのモジュールに専用化された単一のそれぞれの連結モジュールB5、B2、B4、B1、B3はプロセッサにより実行されるソフトウェア機能を実施する。連結モジュールB5、B2、B4、B1、B3のそれぞれのモジュールM51、M52、M21、M22、M41、M42、M11、M12、M31、M32は、この例では、連結モジュール当たりの数は2で表されるがこの数は連結モジュール毎に異なり任意であってよい。
次に、第1のヒューマノイドロボットRH1を所有する第1の遠隔端末装置TD1のユーザにより想定されるシステムの動作の全く非限定的な実施例を説明する。ユーザは例えば、第1の遠隔端末装置TD1上に搭載されたまたは第1の遠隔端末装置TD1からサーバープラットフォームPFS上にアクセス可能なソフトウェアアプリケーションによりある数の機能をロボットを介し実行することができる。
例えば、ユーザは、ソフトウェアアプリケーションのグラフィックツールにより、ロボットが10秒間歩いてから「皆さん、今日は」と言うロボットのアプリケーションを簡単に実行する。このアプリケーションは、例えばモジュール(例えば、モジュールM11)の形式で第1のヒューマノイドロボットRH1内にダウンロードされ、次に第1の遠隔端末装置TD1を手段としてユーザによりトリガされる。
第1のヒューマノイドロボットRH1は、「歩行」機能を最初に使用しなければならないモジュールM11をトリガする。次に、モジュールM11は、モジュールM11がリンクされる連結モジュールB1に要求する接続インターフェース/機能呼び出しモジュールまたはプロキシP1を使用する。連結モジュールB1は、モジュール内に有する呼び出される機能の場所でネットワーク連結モジュールが要求に応答するまで、それ自身のモジュールに向けられた要求と、反復的やり方でこの動作を繰り返すそれが直接リンクされるネットワークと結合するためのモジュール(子連結モジュール)に向けられた要求と、を行う。この要求に対する応答はまた、プロキシP1に直接リンクされた連結モジュールB1がこの機能を接続し呼び出す必要があるまで親連結モジュールにより反復的やり方で送信される(逆方向に)。例えば、要求された歩行機能は第2の遠隔端末装置TD2のモジュールM41内に置かれる。次に、連結モジュールB4は、例えばロボットが歩行する継続時間を表す秒単位の整数型の継続時間パラメータと、ロボットの排他的または非排他的歩行(すなわちロボットは歩行しながら別の行為を行うことが許容されるか否か)を表すブーリアン型の排他的パラメータと、を含む「歩行」機能の呼び出しのパラメータを返した。この例では10秒歩いた後に話すことが望ましいので、この例では歩行機能は、10秒に等しい継続時間パラメータと1秒に等しい排他的パラメータで呼び出される。
したがって接続インターフェース/呼び出しモジュールP1は、所望のパラメータを有する「歩行」機能への接続とその呼び出しとを、あたかもこの機能がローカルに存在するかのように遠隔的に行うことができる。接続インターフェースと機能呼び出しモジュールは、異なる端末またはサーバー上に配置されたモジュールの機能を呼び出すことができる相互通信ソフトウェアを使用する。この機能は、呼び出しモジュールのものとは異なるコンピュータ言語の一系列の命令により書くことができる。プロキシは、例えばSOAP相互通信ソフトウェアを使用する。これによりプラットフォーム間および言語間通信アーキテクチャを生成する。
この非局在化(delocalized)「歩行」機能が行われると、モジュールM11は「話す」機能を呼び出さなければならない。別の接続インターフェースと機能呼び出しモジュールまたはプロキシP2は、モジュールM11がリンクされる連結モジュールB1に要求をする。連結モジュールB1は、当初、格納された一連の命令の形式で実行される機能を手段として、それ自身のモジュールM11とM12に向けられた要求を行い、モジュールM11とM12は例えば、モジュールM12内のこの「話す」機能の有無を返すことになる。連結モジュールB1は接続インターフェース/機能呼び出しモジュールP2に通知し、次にこのモジュールPは、ローカル呼び出し型の呼び出しにより、パラメータとして例えば「今日は」と読まれるテキストを有するモジュールM12の「話す」機能を直接呼び出すことができる。このパラメータは連結モジュールB1によりプロキシP2に送信される。さらに、システムは、ヒューマノイドロボットRH1のこの事例では、外部事象を受信すると前記パラメータの値を更新し前記格納されたパラメータの1つの更新を先の要求に応じてモジュールに通知するように適合化された移動端末の状態を表すパラメータの格納/管理モジュールSTM(「短期記憶:Short Term Memory」の呼称)を含む。したがって予め警告を受けたモジュールは、通知されたパラメータの変更の関数として行為を引き受けることができることになる。
先に説明した例に関連して、例えば、格納/管理モジュールSTMはロボットRH1の動き検出器により検出された誰かの外観を表すパラメータの状態を格納することができる。このパラメータがロボットの直接環境内に誰もいないことを表す状態からロボットの直接環境内の誰かの存在を表す状態に移ると、モジュールM11により先に行われた要求に応じて、格納/管理モジュールSTMは事象または信号を介しこの値の変化を予め警告する。次にモジュールM11は、例えば、先に説明した逐次的トリガ(「歩行」と「話す」機能)を自動的にトリガすることができる。
図3の例では、格納/管理モジュールSTMは、遠隔端末装置TD1の一部を形成するが、変形形態として、他の遠隔端末装置TD2、サーバープラットフォームPFS、またはヒューマノイドロボットRH1またはRH2の一部を形成することができる。
格納/管理モジュールのSTMはまた、メモリ内にそれぞれの基準時間間隔にわたるいくつかのパラメータの時間的進展を格納することができる。したがってシステムのモジュールはさらに、ある継続時間からのパラメータの値の進展にアクセスし、これら取るべき行為の進展を考慮することができる。
変形形態として、呼び出される機能のモジュールは、ヒューマノイドロボットRH1、RH2上の、または通信ネットワークRCの遠隔端末装置TD1、TD2上のサーバープラットフォームPGS上に置かれてもよい。
したがって本発明は、機能に対しローカルまたは遠隔呼び出しを行うかどうかに関わらず、ネットワーク全体にプログラムを分散させ移動端末の同一動作を可能にする。
さらに、本アーキテクチャはまた、移動端末の状態を表す一組の格納パラメータを有するようにでき、いくつかの行為を自動的にトリガするようにこの状態の進展を考慮できるようにする。
さらに、格納/管理モジュールはまた、所定時間間隔中にパラメータの値の進展を記録することができ、これによりモジュールがこれらのパラメータの進展のログにアクセスできるようにする。
ロボットのインターフェースを管理するためのNAOQIと名付けられたオペレーティングシステムを構成するこれらの通信および格納機能は本発明の実施のために特に有用である。
図4は、本発明の一実施形態におけるロボットの行動を編集しプログラムするための機能アーキテクチャの図である。このようなアーキテクチャについては2010年5月25日出願の欧州特許出願第2010/057111号明細書により説明されている。前記アーキテクチャを実装できるようにするヒューマノイドロボットの行動を編集しプログラムするためのソフトウェアは、Choregraphe(商標)と商業的に命名されており、上記特許文献の一般性を損なうことなくその総称または商標のいずれかで呼ぶことがある。
このアーキテクチャにより制御されるロボットは頭、胴、四肢を有するヒューマノイドロボットであってよく、その各部品は関節で繋がれ、各関節は1つまたは複数のモータにより制御される。このアーキテクチャは、システムのユーザが、仮想ロボット上でシミュレートされ有線ベースまたは無線のリンクによりシステムにリンクされた実ロボット上で実行される行動を生成することによりこのようなロボットを制御できるようにする。
これは、そうするようにプログラムされたコンピュータの画面上の行動(例えば、歩く−真直ぐに、右へ、または左へn歩;「今日は」−頭上への片腕の動き;言葉等)と(所与の角度の頭、一肢の)動きとを視認すること、シミュレートすること、実行することを伴う。
図4は、時間的次元を有する事象によりトリガされる制御の表現を例示する処理工程のフローチャートである。事象によりトリガされる制御は、本発明の意味論では「ボックス」または「制御ボックス」410により表される。ボックスは、この後定義される以下の要素の1つまたは複数を含むことができるツリー状のプログラミング構造である。
−フレーム420の「タイムライン」または時間軸、
−「図表」またはフローチャート470、
−スクリプト490。
制御ボックスは通常、本明細書の後で詳述されるように、事象情報項目を1つのボックスから別のボックスに通常は送信する接続部により相互にリンクされる。いかなるボックスも、ロボットの行動/動きのシナリオを初期化する「ルートボックス」またはルートに直接または間接的にリンクされる。
フレーム420の時間軸は、フレームの前記時間軸が挿入されるボックス内に定義されたロボットの行動と動きとが受ける時間的制約を表す。以下の説明と特許請求範囲では、プログラミングの世界において同じ意味を持って一般的に受け入れられている、タイムラインという用語を使用する。したがってタイムラインはボックスの行動と動きの同期を行う。タイムラインは、毎秒フレーム数(FPS:Frames Per Second)の表現で定義された進捗速度に関連付けられたフレームに細切れにされる。各タイムラインのFPSはユーザによりパラメタータ化可能である。デフォルト設定では、FPSは任意の値(例えば、15FPS)で固定されてもよい。
タイムラインは次のものを含むことができる。
−それぞれが1つまたは複数の行動キーフレーム(Behavior Key Frame)または「主行動フレーム(main behavior Frames)」450を含む1つまたは複数の行動レイヤ(Behavior Layer)430であって、上記行動キーフレーム自体が、行動レイヤまたはタイムラインを通過することなく、実際はより高いレベルのボックスにも直接取り付けられることができるボックスの組である1つまたは複数のチャートまたは「フローチャート」470を含むことができる、行動レイヤ430、
−それぞれが、1つまたは複数の運動画面480を含むことができる1つまたは複数の運動キーフレームまたは「主運動フレーム」460を含む、1つまたは複数の運動レイヤ440。
行動レイヤは、一組のロボットの行動または主行動フレームを定義する。いくつかの行動レイヤが同一のボックス内に定義されてもよい。これらは次に、ボックスのタイムラインにより同期されたやり方で進行するようにプログラムされる。
行動レイヤは1つまたは複数の主行動フレームを含むことができることになる。主行動フレームは、歩く(「歩行」)、話す(「言う」)、音楽を演奏する(「音楽」)などのロボットの行動を定義する。一定数の行動は、本明細書の後で詳述されるようにライブラリからの単純な「ドラッグアンドドロップ」でユーザにより直接挿入されるように本発明のシステム内に予めプログラムされる。各主行動フレームは、タイムライン内に挿入されるフレームの開始であるトリガ事象により定義される。主行動フレームの終了は、それに続く別の主行動フレームが挿入される限りにおいてだけ、または終了事象が定義される場合に定義される。
運動レイヤは、ロボットの関節のモータの動きをグループ化する1つまたは複数の逐次的主運動フレーム(successive main motion Frames)によりプログラムされる一組のロボットの運動を定義する。実行されるこれらの動きは、本明細書の後で詳述されるアニメーション画面上の行為によりプログラムされてもよい前記モータの到来角度位置(angular positions of arrival )により定義される。同一のボックスのすべての主運動フレームはボックスのタイムラインにより同期される。主運動フレームは到来フレーム(arrival Frame)により定義される。開始フレームは、前の主運動フレームの終りのものまたはボックスの開始事象のものである。
主行動フレームと主運動フレームは主行為フレーム(main action Frame)の一般名で呼ばれる。
同じタイムラインに取り付けられているという条件で、いくつかの主行為フレーム(行動、または運動の)を並列に実行することが可能である。
フローチャートは後で詳述されるように相互に接続された一組のボックスである。ボックスのそれぞれは次に、新しい行動または運動レイヤが取り付けられる他のタイムラインを含むことができる。
スクリプトはロボットにより直接実行可能なプログラムである。本発明の枠組み内では、スクリプトは好ましいやり方でC++言語で書かれる。スクリプトを含むボックスはいかなる他の要素も含まない。
ソフトウェアは、Windows(商標)、Mac(商標)、またはLinux(商標)オペレーティングシステムを使用することにより、PC上またはパーソナルコンピュータ型の別のプラットフォーム上に埋め込まれてもよい。
本発明のヒューマノイドロボットは通常、Choregraphe(商標)ソフトウェアを使用することにより人間と相互作用できるようにプログラムされることになる。この開発アーキテクチャにより可能になる時間的および行動的論理の組み合わせは、本発明の実施のために特に有利である。本明細書の後で説明される一定数のツールは、本発明の枠組み内での自然な対話のためのインターフェースを有するヒューマノイドロボットを実現するために特に開発された。
図5は、本発明のいくつかの実施形態においてヒューマノイドロボットが受ける応答/刺激のヒューマノイドロボットにより与えられる解釈を改良するために一般的なやり方で適用される処理動作の機能フローチャートである。
長期にわたって、人間は機械と相互作用する多様な手段を開発してきた。これらの手段はテクノロジーの進化に従うので、常により効果的となる。すべての場合において、効果的であるためには、相互作用はそれが何であれプラットフォームとユーザの必要性とに適合化されなければならない。
したがってグラフィックインターフェースとウィンドウ環境は、例えばテキスト領域(テキストボックス)、OK/キャンセルボタン、チェックマークされるボックス(チェックボックス)、ラジオボタン、または複合ボックス(コンボボックス)などのグラフィックインターフェース部品とも呼ばれる一定数のインターフェース要素(GUI要素すなわちグラフィックユーザインターフェース要素)をユーザの自由意思で配置する。グラフィックインターフェースに適合されたこれらの要素は、従来の画面タイプのいかなる視覚的フィードバックも原理的に提供しないヒューマノイドロボット上などでは使用することができない。今や、ロボットとのやりとりは、コンピュータのグラフィックインターフェースとのやりとりと少なくとも同じくらい豊富でなければならない。このとき、人は、ボックスにチェックマークを付け、キーボード上でテキストを入力し、アイコンをダブルクリックし、またはアプリケーションのウィンドウ内の十字をクリックするのと同じやり方で選択肢を選択し、単語を綴る、またはアプリケーションを実行するまたはアプリケーションを離れることができることを望む。人は、人間化され自然なユーザの為のインターフェースを望むからこそこれらの既存要素を単純に複製したいとも思わない。したがって自律ヒューマノイドロボットに適合化されたユーザインターフェース要素を見つける必要がある。
これらの要素はまた、ヒューマノイドロボット行動の作成者にとって容易にパラメタータ化可能でなければならなく、またユーザの言語に容易に適合できるようにしなければならない。既存の自律ロボットは音声認識などの簡単な人間−ロボットインタフェースを導入することができるが、従来技術では、ユーザと開発者のいずれも、地域化される(多言語使用を可能にする)とともに失敗を管理するいかなる多様式(multimodal)ユーザインターフェース要素を提供されなかった。実際、今日、多重センサ捕捉および処理能力と移動運動能力とその四肢の多数の自由度とを備えた合理的な大きさと価格のヒューマノイドロボット内に埋め込むことが可能な音声認識のタイプは、ロボット上に搭載可能なコンピュータ資源と電気エネルギー資源により必然的に制限される。これらの資源は実際には、信号の捕捉の安全性と信頼性と動きの実行に必要な制御とを保証できるようにする処理動作に対する優先度により必然的に割り当てられる。したがって音声認識のこの状況における避けられない不完全性の最良の補正を可能にする人間−ロボットインタフェース要素を提供することと、特には、ロボットがユーザから受け取るメッセージに対しロボットにより与えられる解釈についての疑問と収束する対話シーケンスの枠組み内で生ずるロボットにより返される質問とを解決するためのメカニズムによりユーザに良好な相互作用を提供すること、が必要である。
ロボットは人間的基準(human references)、すなわち、人間が同じ状況においてとるであろう身振りと行動を返さないので、人間は自然なやり方でロボットに話しかけないということにも注意する必要があるだろう。相互作用はとりわけ、ロボットが人間の方向を見なければ(人間−人間相互作用における習慣的相互作用が無ければ)自然なものとはならない。さらに、人間コミュニケーションとの対比では、多機能ヒューマノイドロボットに搭載されるコンピュータ資源に適合する音声認識のタイプはそれ自体は幾人かのユーザとの相互作用の効果的管理を可能にしない。さらに、たいていのロボットは自然言語をほとんどまたは全く使用しない。音声合成は通常、ロボットが読むことになるロボット用に考案された話または人間により書かれた電子メールであったとしても、人間により予め書かれた語句によりプログラムされる。したがって音声合成は、人間−ロボット相互作用を人間−人間相互作用に可能な限り近付けるようにする要素を欠く。従来技術の人間−ロボットインタフェースは、人間−人間自然相互作用を模擬し、この相互作用の成功に貢献できるようにする十分な多様式(multi−modality)または相互作用コードを有していない。さらに、ユーザにより既に取得された知識であってユーザが日々使用する知識でもインターフェースが呼び出せば、経験は、はるかに容易となり、ユーザのその部分について少し学習する必要があるだけとなる。したがって、仮想世界の部屋全体にわたって眼を巡らすことが、コンピュータキーボード上の矢印を押すことによるよりも頭を動かすことにより仮想現実ヘルメットによりいっそう本能的に行われることになる。
本発明の解決策は、ソフトウェアとハードウェアを組み合わせた、自律ヒューマノイドロボットに適合化されたユーザインターフェース要素を提案する。上述のように使用される用語である、GUI要素をロボットの行動に置き換えることにより、BUI要素(ビヘイビアユーザインターフェース要素:Behavior User Interface Elements)、本明細書ではより一般的かつ単純にUIElementsと呼ぶことができる、を定義する。このようなUIElementsは、例えば、次のような行為を簡単なやり方でコード化するように定義されることができる。
−ロボットの頭の3つの触覚センサを同時に叩くことにより即座にアプリケーションを中止する。
−音声認識を使用することによりロボットに尋問する。
−ロボットの触覚センサのうちの1つを叩くことによりアプリケーションの次の工程に移動する。
したがってこれらの単純な要素は、ロボットのすべての行動とアプリケーションに利用可能となるようにまたは所与のプロジェクトの特定の資源を装って生成されるように一般的ライブラリに埋め込んでもよい真の相互作用コードである。
本発明のUIElementsは、行動開発者により使用され容易にパラメタータ化することができる要素である。行動をプログラムするための基本GUI要素となるのは主にChoregrapheボックスである。特に、これらのボックスのいくつかは、グラフィックインターフェース部品を開発するためのQt(商標)環境により生成されるWidgetライブラリを使用することによりC++でコード化されたChoregrapheプラグインを含む。
本発明の実施を可能にする機能アーキテクチャの簡略図を図5に表す。
ロボットが対話者とメッセージを交換する通信チャネルの入力/出力の制御モジュール510は、図1の中央ユニット120内に取り付けられるかまたはそれに関連して取り付けられる。このモジュールは、ロボットが備える特定の通信チャネルの送信/受信前処理手段を物理的または論理的に含む。
これに限定されないが、それぞれが受信チャネルと送信チャネルを有する3つのタイプのメッセージ通信チャネルを同図に表した。
タイプ1の受信チャネル521は、人間の聴覚に対応し、ロボットが音声信号(好ましくは意味論的内容を含む音声メール)を取得できるようにする。したがってロボットは図2aに表されたマイクロホン210aを備えてもよい。このチャネルの出力は通常、音声認識アルゴリズムを実行する特定の信号処理プロセッサにより前処理される。これらのアルゴリズムは、多少複雑であるかもしれなく、そして使用される環境(周囲騒音、複数の話し手など)とおおよそ完全な特定の学習の実施とに応じて変わり得る有効性を有するかもしれない。しかしながらすべての構成において、認識誤りは避けられない。
タイプ1の送信チャネル531は、人間の話し言葉に対応しており、ロボットが例えば図2bに表された拡声器210bを手段として話すことができる(すなわち意味論的内容を含む音声メールを読み上げることができる)ようにする。言語、音質、リズム、口調は、状況の関数としてそして感情を表現するために変えられてもよい。しかしながらこれらの音はまた、ビープ音、予め記録された音楽であってよい。例えばモールスシーケンスのビープ音、予め設定されたコードに従う音楽もまた、意味論的内容を有することができると理解される。
タイプ2の受信チャネル522は、人間の視覚に対応しており、ロボットがその環境をマッピングできるようにし、アクセス可能なメモリ内に格納されていれば認識できる画像を取得できるようにする。したがって、ロボットは例えば図2aに表されたCMOSカメラ220aを備えてもよい。カメラの1つは遠方視野に専用化され、他は近傍視野に専用化されることが好ましい。有利には、画像認識アルゴリズムはロボットの対話者の顔を検出または顔を実際に認識できるように適合化される。繰り返すが、認識性能が何であれ、不確実性または誤りは避けられない。画像認識はまた、その意味がコード化により定義され得るVDU上でロボットに提示される番号数字または商標などの単純な形に適用することもできる。
タイプ2の送信チャネル532は、直接的な人間の等価物の無い人工的チャネルである。このチャネルは、ロボットの体内に埋め込まれたLEDにより生成される光信号の発射を可能にする。数多くのLEDが、特に眼、耳、胴、足上に設けられてもよい。これらは、異なる色を有し、可変周波数明滅能力を備えることができる。このチャネルは、メッセージを送る単純で強力な手段をロボットに備えさせる。特に、特定コードがユーザにより定義されプログラムされてもよい。
タイプ3の受信チャネル523は人間らしさと等価なチャネルである。但しこのチャネルはその触覚領域が制限される。触覚領域は例えば、図2aに表されたセンサ230aなどの触覚センサに集中する。ロボットの対話者は、ロボットに2進(行為の確認)またはさらに複雑なタイプのメッセージを伝えるために触覚センサを作動する。このチャネルにより受信される情報は実際、ユーザにより定義される単一的コード(罰と褒美の意味をそれぞれ有する、舌打ちとなでること)またはモールス型の連続的コードのいずれかに対応することができる。このタイプの通信チャネルを定義するために特定の触覚センサが絶対的に必要ということではない。本明細書のさらに後で説明されるようにメッセージセンサがロボットの腕および/または前腕の位置により表される連続的アナログセンサであって前記位置が対話者によりロボットに伝達される数値を表す同じタイプのチャネルを、それが対話者の接触行為を受信する限り、定義してもよい。実際、いつでも、ロボットはその関節の角度位置を知っており、したがって移動の意味が予め定義されていれば対話者の行為による移動に起因する関節の角度位置の変化をメッセージとして解釈する方法を知っている。一肢(例えば、前腕)の単純な接触もまた、ロボットの関節の角度位置のセンサにより識別することができる。衝撃または持ち上げなどのより急峻な動きは、ロボットの慣性ユニットと足の裏センサ(FSR)とによりそれぞれ検出されてもよい。
タイプ3のタイプの送信チャネル533は人間の身振りと等価である。頭は、ヨー角により測定される方位角の変位とピッチ角により測定される仰角の変位との2つの自由度を与えられてもよい。これらの2つの動きは伝統的に承認(ピッチ)または拒絶(ヨー)のメッセージを定義する。これらはまた、ロボットが会話状態にある対話者の方にその視線を向けることができるようにする。肩、肘、手首の関節はピッチ、ロール(ロールまたは右/左ねじれ)、ヨー、ヨーの自由度を備えてもよい。手は開く能力と閉じる能力を備えてもよい。これらの関節の動きの組み合わせにより、このチャネルを通しロボットの対話者に伝達されるメッセージの内容を定義できるようにする。
他のメッセージ通信チャネル(図には表されない)が存在する、またはそれらが定義されてもよい。特に、ロボットは、赤外線、ブルートゥース、またはWifiリンクにより信号を送受信することができる。したがって、特に、この目的のためにプログラムされたリモコン、例えばApple(商標)のiPhone(商標)またはモーションキャプチャおよび/または測位機能を有する別の電話を使用することにより、対話者はこのチャネルを介しロボットにメッセージを送信することが可能である。
同様に、ロボットはこれらの通信ポートを介し別のロボットにメッセージを送ることができる。
本発明によると、メッセージ通信チャネルは、異なるタイプのチャネルをハイブリッド型のチャネルにマージすることにより定義されてもよい。したがって音声認識を備えた音声チャネルと画像認識を備えた可視チャネルの出力は、その出力がデータマージ処理により改良されることになる新しいチャネルを生成するように組み合わせられてもよい。このチャネルからの出力に関する出力は、別個に採取された2つの出力より高い信頼水準のアプリオリである。
ロボットの2人の対話者541と542もまた図5に表される。当然、ただ1人または3人以上の対話者が本発明の実施シナリオでは可能である。さらに、メッセージの交換に必要な可聴および/または可視信号を送信できるようにするデータリンクによりロボットが置かれた部屋にリンクされるという条件で、対話者はロボットからいくらか離れて置かれてもよい。当然、この場合、物理的接触を必要とするタイプ3の通信チャネルの利用は不可能となる。
ロボットのその対話者に対するおよびロボットのその環境に対する相対位置はまた、人間/ロボット対話の性質を特徴付けるようにおよび随意的にその進行を修正するように特定のセンサ(対話者の場所に関連する音声認識;画像認識;超音波センサ等)により測定され、例えば体積、トーン、または表情の解析により解釈され相互参照されることができる。したがって、近づき大声で話す対話者は、ロボットにより脅威と見なされ、関連する身体言語により、または相互作用の実際の修正または遮断により様々な防衛行動をトリガすることがある。
これらの様々な通信チャネルの入力/出力の論理的制御はモジュール510により行われる。
後者は、本明細書のさらに後で説明されるように同じ第1のタイプの送信チャネル上に送信されたメッセージを通して第1のタイプの受信チャネル(例えば、音声チャネル)の入力についての疑問を同一時間に解決できるようにする。上記疑問解決行為は恐らく、同じ第1のタイプのチャネルまたは第2のタイプの受信チャネル(例えば、触覚チャネル)上で対話者によりそれに応じて行われる。第1のタイプのチャネル(例えば、音声チャネル)上で受信されたメッセージについての疑問の解決を要求するメッセージはまた、第2のタイプのチャネル(例えば、LED送信による可視チャネル)上で送信することができ、対話者の疑問解決行為は第3のタイプの受信チャネル(例えば、触覚チャネル)上で行われなければならない。これらの組み合わせは純粋に非限定的例示として与えられ、様々な組み合わせが可能性である。
通信チャネル510の入力/出力の制御モジュールもまた、メッセージの入力をより簡単に組み合わせるために使用することができ、この組み合わせによりロボットの「心」の中の疑問のいかなる可能性も実質的に除去できるようにする。
受信チャネルにより受信された入力と受信チャネルにより送信された出力とを組み合わせるための機能のプログラミングは、BUIElementsを使用することにより単純なやり方で実行されてもよい。
我々は、選択タイプの制御ボックスまたは選択ボックスからなるBUIElementのタイプについて後で説明するものとする。後者は、閉じたリストから選択を行う方法を表す。それは特に、対話の枠組み内で、限定された数の単語と語句の認識に適合化され、ロボットはユーザの選択を聴く前に質問を投げかけることができる。
我々は、異なるタイプの選択ボックスとは別個のタイプのBUIElementについて以下に説明する。
我々は、整数を選択する例によりこの様式を示す。この要素に関し、ロボットは例えばタイプ1の送信チャネル531上で、ユーザに利用可能な最小数と最大数について述べ、一方の腕を対話者の方へ伸ばす。ロボットは弱くサーボ制御される。この腕は、図5のタイプ3の受信チャネル523を構成することになる。腕の低い位置は最小桁に関連付けられ、高い位置は最大桁に関連付けられる。したがってユーザは桁を選択するためのカーソルとしてロボットの腕を利用する。ロボットは、肩のピッチ関節(ShoulderPitch)上で利用可能な触角のおかげで腕の位置を知る。この相互作用を補強するために、ロボットはユーザがロボットの腕を動かしている間にその手を見る。位置の各変化によって、ロボットは選択された桁を言うことができる。ユーザは、タイプ3の別の受信チャネル523を使用することによりロボットの頭の中央の触覚センサに触れることにより、選択を検証することができる。特にセンサの精度に対し余りにも多過ぎる数の桁がある場合、一方の腕により粗調整がなされ、そして第2の腕がより正確に選択するようにしてもよい。表情の順序付きリストを数字により表してもよい。このとき上記手順は、ロボットにより告げられたドロップダウンメニューからの選択の様式になる。
桁を選択できるようにする変形形態は、触覚センサだけを使用することからなる。例えば、
−前方センサを叩くことで、桁のリストにおいて1段階下ることができるようにし、
−後方センサを叩くことで、桁のリストを上ることができるようにし、
−前方または後方センサを押したままにすることで、桁のリスト内のスクロールを加速できるようにし、
−選択は中央センサに触れることにより行われるだろう。
本発明の使用のシナリオの関数として、可能な組み合わせを大幅に変えることが可能であることが理解される。
図6は、本発明のいくつかの実施形態のロボットの行動/相互作用のプログラミング論理チャートである。
同図により示された例は、ロボットに単語のリストからの選択を提示する対話者とロボットが対話するシナリオである(例えば、なぞなぞのゲームの場合の)。このシナリオでは、タイプ1の受信チャネル、タイプ3の受信チャネル、タイプ1の送信チャネルが使用される。
図中のコード610により表される行為は、ロボットの対話者の行為:すなわち、例えばロボットにより既に告げられたリストからユーザにより告げられた選択;タイムアウト(すなわち、無選択);このリスト内の1つまたは複数の単語の理解の確認要求に対する回答「はい/いいえ」である。
図中のコード620により表される行為は、コード630により表される内部変数の状態の関数として起動されるロボットの行為である。これらの内部変数の意味は以下の通りである。
−r:選択のリストの中からユーザにより告げられた単語のロボットによる認識の確率の比、
−f:認識失敗の総数、
−t:タイムアウト(または、所定の時間後の対話者による選択が無い)の数、
−S1:認識確率比の閾値1、
−S2:認識確率比の閾値2、
−tmax:可能なタイムアウトの最大数、
−fmax:可能な失敗の最大数。
タイムアウトが処理される一般的な方法は、日々の人間生活の単純原理について投げかけられる問題へ適応「一言も言わない人は誰であろうと...ということに同意する」に相当する。
同図に表される処理動作の一般的論理について以下に説明する。
NAOはユーザ/対話者に耳を傾け、変数fとtはゼロに初期化される。所定のタイムアウト時間が経過したことを対話者が認めればタイムアウトカウンタはインクリメントされ、タイムアウトの最大数に達すれば相互作用ループが遮断される。
このアプリケーションは、開始される際にプレーヤの数を確かめるためにゲームにおいて、ユーザにより行われるロボットの尋問などの特定の行為が、または頭上の触覚センサの1つを押すことにより、このアプリケーションをトリガする決定論的状況において、または人間の存在の検出、時刻、またはより一般的には一日の事象のログ(ロボットにより格納される)などのパラメータの関数としてこのアプリケーションをトリガする人工知能の状況において、のいずれかの状況における行動で初期化されてもよい。例えば、ユーザがこのアプリケーションを呼び出し中であるということを検知すると、ロボットはユーザがそれの何を望むかおよびなぜそれを呼び出したかを知ることができるようにするアプリケーションをトリガする。別の状況では、人間の存在を検出すると、ロボット自体は、ユーザがプレーすることを大いに望み、かつユーザがプレーしてから長い時間経っているゲームを提案するためにアプリケーションをトリガすることができるようになる。
対話者がタイムアウトの終了前に選択を告げると、測定された認識確率比rは期待認識確率比の閾値S1、S2(S1<S2)と比較される。これらを判定するやり方については後で説明する。
r≦S1ならば、この単語の認識は失敗と考えられる。失敗カウンタがインクリメントされる。fmaxに達すれば、単語は未認識であると明確に宣言され、相互作用は遮断される。fmaxに達しなければ、以下の3つの場合の準備が図に示すようになされてもよい。
−第1番目の失敗(f=1)では、ロボットは「分かりませんでした」とその対話者に示し、選択のリストの繰り返しからなる機能「activateHelpWhenFailure」の1つを起動する。
−第2番目の失敗(f=2)では、ロボットはまた「分かりませんでした」と示し、対話者に選択のリストを提供することと、対話者にその触覚センサを使用するように依頼し、それをどのように使用するかを示すことからなる機能「activateHelpWhenFailure」の別のものを起動する。
−それを超える(3≦f<fmax)失敗では、ロボットは、効果的な会話の条件が満たされていないということを対話者に示す語句、例えば、通常は前記対話者を促して会話を終了させることになる「雑音が多すぎる」などを告げることができる。
S1<r≦S2であれば、ロボットは実際に聞いたものに関し疑問を抱き、同図に表された手順に従って、認識したと考える単語または表現を発声し、その対話者に「これは正しいですか?」と尋ねることにより疑問を解消する行為を取ることができる。対話者が「はい」と答えるか、またはタイムアウトの終了時に答えなければ、ロボットは回答が正しいと考える。対話者が「いいえ」と答えれば、失敗カウンタはインクリメントされ、fmaxに達すると、ロボットは、分からなかった、と明確に示し、相互作用は停止する。fmaxに達しなければ、
−第1回目の失敗(f=1)では、ロボットは、選択のリストの繰り返しからなる機能「activateHelpWhenFailure」の1つを起動することができる。
−第2回目の失敗(f=2)では、その対話者に選択のリストを提供することと、その対話者にその触覚センサを使用するように依頼し、それをどのように使用するかを示すことからなる機能「activateHelpWhenFailure」の別のものを起動する。
−第3回目からfmaxまでの失敗では、対話者は認識の確率比が改善するまで選択を繰り返さなければならない。
このようにして、音声認識の不完全性を著しく緩和することと、ロボットとその対話者との会話における流動性を改善することが可能である。
図7a、7b、7cは、本発明のいくつかの実施形態における多様式インターフェースの相互作用の論理的および時間的組み合わせを示すタイムチャートを表す。
これらの図は、図6のチャートに表されたタイプの相互作用をプログラムできるようにする選択ボックスの図である。
選択ボックスは、項目410下で示されたものなどのボックスであるが、これらは自然な対話のための特定の行動の特に効果的なプログラミングを可能にする特定タイプのものである。
これらの図面内の符号の意味は以下の通りである。
−図7aでは、
−710aはロボットまたはその対話者の行為/スピーチを示す。
−720aは触覚センサを示す。
−740aは認識ビープ音を示す。
−750aは回転するアニメ化された位置のロボットの顔のLEDを示す。
−751aはロボットの固定位置の顔のLEDを示す。
−760aはロボットの顔のLEDの点滅を示す(受信されたメッセージのロボットによる理解の関数として様々な色であってよい)。
−770aはタイムアウト機能を示す。
−780aは選択ボックスの出力を示す。
−790aは機能「触覚センサメニューに行く」(図7b)を示す。
−7A0は機能「選択のソートに行く」(図7c)を示す。
−7B0は機能「音声認識メニューに行く」を示す。
−R1、R2、R3は、ロボットが曖昧さ無しに理解した場合、ロボットが理解するがいくつかの疑問を抱く場合、ロボットが全く理解しない場合をそれぞれ示す。
−図7cでは、710cは機能「前ページのメニューに戻る」を示す。
選択ボックス内でプログラムされた処理動作の一般的論理は既に説明したものと同一である。ここで説明される追加要素は以下のとおりである。
−ロボットの顔のLEDs 750aの利用、随意的には一問一答を強調するためにLED点滅の利用。LEDは、ロボットがスピーチを検出し解析中であることを示すために固定位置751aにある。
−認識の準備ができている時を示すためにロボットにより発せられる可聴「ビープ音」の利用。実際、処理能力と電源の制限のために、そしてまた認識時のうるささを回避するために、後者は音声合成と同時には活性化されない。したがってロボットにより対話者に投げかけられた質問は後者によりあまりにも早く答えられる必要はない。「ビープ音」は、答え始めるためにピー音を発する。
−このやりとりと以前のやりとりの間にこのロボットの履歴ログとユーザのその経験とに応じていくつかの水準のヘルプを利用する可能性。
−プログラミングを容易にするためにいくつかのメニューをナビゲートする可能性。
次に説明する図面は、上の図4に対する注釈として述べたChoregrapheソフトウェアの選択ボックス部品が、表された例ではタイプ1(音声交換)の受信チャネルと送信チャネルを使用することによりNAOロボットと対話者間の単純または複雑な相互作用をプログラムするために利用される画面ショットである。
図8a、8b、8c、8d、8eは、本発明の一実施形態における対話言語を変更するための2進選択および選択肢によりヒューマノイドロボットとの対話をプログラムできるようにする一連の画面を表す。
図9a、9b、9c、9d、9eは、本発明の一実施形態における対話言語を変更するためのリストと選択肢からの選択によりヒューマノイドロボットとの対話をプログラムできるようにする一連の画面を表す。
図10a、10b、10c、10dは、本発明の一実施形態における選択のリストのいくつかの選択肢同士を比較する音声認識試験を実行できるようにする一連の画面を表す。
図11aと図11bは、本発明の一実施形態における、選択のリストの選択肢を置換または補足することができるようにし、いくつかの選択肢同士を比較する新しい音声認識試験を実行できるようにする一連の画面を表す。
図12a、12b、12c、12dは、本発明の一実施形態における、質問のものとは異なる言語で選択のリストのいくつかの選択肢同士を比較する音声認識試験を実行できるようにする一連の画面を表す。
図13a、13b、13c、13dは、本発明の一実施形態における、選択のリストのいくつかの選択肢同士を比較する音声認識試験の閾値を検証/修正できるようにする一連の画面を表す。
通常、選択ボックスは、ユーザが選択の事前定義セットの中から回答を選択できるようにする。選択ボックスは、開発者が直観的かつ可読なやり方で一組の可能な選択を書くことができるようにする表型の部品を呼び出す。開発者が予め知らなければ、選択のリストもまたボックスへの入力として入力することができる。したがって例えば、ユーザのメールを管理するアプリケーションの場合、ロボットはユーザに、別のファイル内に格納されたユーザのアドレス帳から連絡先を選択させることができる。これらのUIElementsは高度にパラメタータ化可能なツールである。したがって音声認識および/または合成を使用するUIElementsは地域化される。例えば選択ボックスは仏語と英語で編集可能である。そのプログラミングのためのグラフィックインターフェースレベルでは、ボックスを編集するための言語を変更するために使用されるWidget Qt(商標)がComboBoxであってもよい。
Choregrapheボックスの入力(及び出力)は以下のいくつかのタイプのものであってよい。
1.「バン音(bang)」:信号が送られる。
2.数字:入力は整数または浮動小数点の数を取り出す。
3.文字列:入力は文字列を取り出す。
4.動的。
動的型の入力(各々出力)はALValueを取り出す(各々出力する)。
ALValuesはNAOQIライブラリ内に記載された一般型(特には、整数、浮動小数点、配列、ブーリアン、文字列、未初期化ALValueである「bang」)の集合である。動的型の入力はアプリケーションの展開を極めて柔軟なやり方で管理する。特に、様式間および/または様式内確認モードの選択と支援の提示は、可能な選択の数に応じてそれらを起動するためにロボットの対話者に提供される。
したがって、この入力が動的型であるという条件で、python表(配列型)をChoregrapheボックスに対する入力として入力することが可能である。
本発明を実施するために使用されるChoregrapheソフトウェアは、ブーリアン型のボックス(チェックボックス)、文字列タイプのボックス(テキストボックス)、編集可能またはエンドユーザによらない文字列タイプの多肢選択のボックス(コンボボックス)、整数または浮動小数点浮動小数点型のボックス(スライダ)、または他のタイプのボックスのパラメータを含む。例えば、その行動またはアプリケーションにおいて選択ボックスを使用するプログラマは、ブーリアンパラメータ「検証された選択を繰り返す」(仏語では、「Repeter le choix valide」)のチェックマークを付けるまたはチェックマークを外す可能性を有する。これは、NAOがユーザにより検証された選択を系統的に繰り返すかどうかを定義するので、相互作用中のNAOの行動に影響を及ぼすことになる。
音声認識の欠陥を緩和するために、診断ツールは音声相互作用の成功を最大化できるようにする。したがって、選択ボックスにおいて、開発者が表中の単語のリストの書き込みを完了すると、これらの単語の百分率認識(例えばロボットにより確かに認識される単語に対応する100%、ロボットが認識しない単語に対応する0%)を示すことになるこのツールを実行することができる。この診断は、音声合成により話された単語(ユーザが話すものに近いと仮定する)と音声認識により予想される単語との比較により行われる。さらに、選択毎に相互作用の機会と自然さとを最大化するように、いくつかの表現を定義することができる。したがって、メールを送信するようにロボットに依頼するために、開発者は、ユーザの思うままに「メールを送る」、「メッセージを送る」、「電子メールを送る」などのいくつかの語句を配置することができるようになる。ユーザは、その後、最終的に同じことを言うようにこれらの様々な表現同士間の選択肢を有することになる。
本発明の解決策はまた、幾人かのユーザの存在を管理しない音声認識の問題を解決できるようにする。人間は、数人と話をする際にはコミュニケーションが困難であると認識しているので、一人ずつ話すことにより適応する。この状況は、よく知られたフランスの「tu」形式のロボットによる利用などの明確に単一ユーザ相互作用コードの存在により容易にされる。
欠点のある音声認識は、人間−ロボットインタフェースが特に失敗の状況を最もよく管理し、ユーザに正しい時に話させ(これは相互作用コードに関わる)、対話の代替であってより効果的な解決策を利用できるようにさせなければならないということを必要とする。
本発明の枠組み内では、音声診断機能がこのタイプの問題を解決できるようにする。この機能は、試験対象の単語を音声合成ソフトウェアである、text−to−speechにより発音させることにより実行する。次に、この試験対象の単語は音声認識により解析される。より正確には、同じ単語は例えば3回発音され、毎回、単語を発音するやり方の代表的サンプルを有するように音声とそのピッチの速度を変化させる。次に、音声認識により返された3つの認識率が平均化される。単語の推定百分率認識はこの値である。音声診断の2つの可能なモードがある。
その「一斉(Together)」モードは次のように動作する。選択ボックス内に記録されたすべての単語は音声認識により聴取され、次にNAOが、他で説明されるように推定認識率を計算する。
「一つずつ(One by One)」モードは次のように動作する。他のライン上の他の可能な選択肢だけでなく所与のラインに関し、解析対象の単語が音声認識により聴取されるが、それと同じライン上に置かれたその別の単語は聴取されない。この診断の利点は、2つの「同義語」が互いに似ている場合、例えば「coucou!」と「coucou toi!」、推定認識率は「一斉」モード(推定認識率は、これらが音声認識によりしばしば混同されるので極めて悪くなるであろう)ほど低くはならない。実際、2つの同義語がロボットにより混同されたとしても深刻ではない。
診断が各ラインに対して行われると、同義語が推定認識率の降順で配置され、最良の同義語の認識率はラインの終わりに記録される。
したがって選択ボックスは、ロボットがそれを正しく認識または解釈したかが定かでないときにユーザに回答を確認することを依頼するようにプログラムされる。このメカニズムは、聴力障害を有する人間または理解を困難にする環境に陥った人間により使用されるものと同一である。ロボットは、ユーザの回答の理解のレベルに応じて異なる反応を有することになる。次に、いくつかの閾値(例えば、図5に対する注釈として定義された閾値S1とS2)は、認識ソフトウェアにより計算される認識信頼度の関数として固定される。例えば、第1の認識閾値S1に達しないとき、ロボットはプレーヤに回答を繰り返すように依頼し、第1の閾値S1に達したが第2の高い認識閾値S2に達しないとき、ロボットは、それに対する回答が疑問を解消できるようにする質問を投げかけることになる。ロボットはまた、ユーザがロボットに対し正しく答えるようにヘルプを与えることができる。すなわちロボットは可能な選択のリストを与え、それとの相互作用手段を示すことができ、投げかけられた質問があればこれを繰り返すことができる。相互作用コードはまた、音声認識の欠陥を緩和するのに極めて役立つ。実際、音声認識は、ロボットが話している間はロボットに話しかけることを可能にせず、音声認識の実行とそれが実際に活性化される瞬間との間の遅延はかなり長い。したがって、音声認識が実行されると可聴コードが働き、話すことができるということをユーザに示す。その後、かなり直観的な可視コードと回転する耳のLEDが、ユーザに、ロボットは聴いているということを知らせる。音声認識を使用するUIElementsはまた、この音声認識に代替手段を提供し、繰り返される理解の問題の場合(これは例えば極めて雑音の多い環境によるかもしれない)にもユーザが成功裡にコミュニケーションできるようにする。これらの代替手段は触知可能、可聴、可視的なものであってよい。例えば、選択ボックスはユーザが触覚センサを使用することにより回答を選択できるようにし、前方センサを押すことで選択のリスト内を進むことができるようにし(このとき、ロボットは各選択を告げる)、後方センサはこのリスト内を後退できるようにし、中央センサは選択を検証できるようにする。ロボットが様々な選択を告げることと、ユーザが検証したい選択を聞いたときに「OK」と言うこと、とを構想することも可能である。または、そうでなければ、確認のために、「はい」または「いいえ」と答える代わりにユーザはロボットの一方の腕を押すことができる。図5に対する注釈として定義された様々なタイプ1、2、3の通信チャネルの入力/出力の制御モジュールは、選択ボックスの様々な入力/出力間のリンクを通してこれらの組み合わせを管理するための機能を単純かつユーザフレンドリなやり方で生成できるようにする。
通常、本発明の解決策は、インターフェースの人間化、すなわち人間−人間インターフェースの模擬形態を提案する。我々は、スピーチ(もちろん、すなわち発言された単語群)だけでなく口調と視覚的要素との3つの主要素が2人の人間同士の直接コミュニケーション中に作用し始めるということを知っている。その証しとして、それらの進展を通して、書くことまたはインスタントメッセージなどの間接コミュニケーション手段を観測することにより、対話中の情報不足が一般的な法則として、直接コミュニケーションの代用物と句読点または最近の顔文字などの代用物の追加によりどのようにして緩和されることができるということを極めて明確に理解することが可能である。すべての場合において、今日の大きな技術的進歩にもかかわらず、これらの基本要素が全体として人間−ロボットコミュニケーションのために置き換えられることは依然として難しい。但し、対話の演出を改良する人工的代用物を見つけることは可能である。ロボットの音声合成と音声認識はスピーチの等価物を可能にする。したがってこれらは人間とのコミュニケーションの柱である。ヒューマノイドロボットはさらに、対話の視覚的要素の大部分、すなわち身振りと顔の表情、を表現することができるという利点を有する。実際、その擬人的ボデイにより、その移動は車輪上のロボットほど容易でないが、その身振りは人間行動に、より簡単に基づくことができるので、人間の動きとして容易に解読することができる。このとき、コミュニケーションはより自然に実行される。
それにもかかわらず口調と顔の表情は、固定された顔と口調とを有するロボットには欠けている。但し、これらの2つの要素は、これらの要素を伝える他の機能とコードにより補償される。これらは、ユーザによる多少長い学習を必要とする。このとき、目的は、この学習を可能な限り短くし、したがってユーザが既に知っているものに対し可能な限り一貫性がありそれに近いコードにすることである。
Ben Shneidermanの著作である、「Designing the User Interface:Strategies for Effective Human−Computer Interaction」(1997年発行:http://www.cs.umd.edu/hcil/pubs/books/dtui.shtml)の中で述べられ、通常はグラフィックインターフェースに適用される人間工学の基本法則を適合化することにより、単純でかつ一貫性のあるコードとしたがって自然でかつ流動的相互作用を実現する。これらの法則は次の原理:コードとインターフェース要素との一貫性、上級ユーザのためのショートカットの存在、行われる行為に関する即時復帰の存在、対話の明確な終了、誤りの簡単な管理、フィードバックの可能性、ユーザは相互作用中は自分自身をマスターと感じるにちがいないこと、そして最後に、ユーザの短期記憶の軽い刺激について述べている。
音声認識および合成は、特に自然言語の欠落と限定数の単語だけを認識できるようにする単独ユーザ認識とにより、限定的である。本発明の解決策は、十分に自然な人間−ロボット相互作用を提供するように、ロボットによる自然言語の不使用の問題を解決する。既に、最良の使用はロボットの音声合成からなる。特に、音声合成および/または認識を使用するロボットのUIElementsのほとんどは地域化される。したがって仏語を話す(英語を話す)ユーザは仏語(英語)でロボットと対話することができこれにより相互作用の成功を最大化する。その後、最良の使用は、ロボットの反応性を改良するとともに人間−ロボットコミュニケーションの成功を容易にするために、タイミングと相互作用コードからなる。したがって、選択ボックスは、ユーザからの回答の待ち時間のようないくつかのパラメータを提案する。したがってユーザが全く答えなかったということを考慮するまでにロボットがあまり長く待たないということだけでなく、音声認識を正しい時に起動することが可能となるためにロボットが十分に長く待つことも保証される。相互作用コードは、身振り、可聴および/または可視のものであってよい。したがって音声認識の終了の可聴ビープ音は、ユーザに、ロボットがもはや聴いていないということを知らせる。
さらに、本発明の解決策では、コミュニケーションは、異なる様式のいくつかの通信チャネルの利用とロボットの一部分に関する特定の行動とによりより自然なものにされる。したがって、音の場所と顔の検出(特にその位置)との利用により、ロボットが人間の対話者の方に頭を回転できるようにする。これは別の人間に対処する際の確定事実であるように思われる。ロボットはまた、特に名前、固有の特徴(例えば、ロボットにより行われた会話と行動の履歴ログ)を利用することにより人間に対処するように、対話者識別(顔認識、音質、声紋など)を実施することができる。ロボットはまた、触覚センサをなでたかどうかに応じて行動をユーザが何と考えた(その人はその行動が好んだ)かを知ることができ、その後、例えば言語コミュニケーション中にその行動を実行することを提案する。ロボットは、状況に適合したやり方で行動しようとする。したがってロボットはアニメーションを再生し、そのLEDを使用し、音を放送することができ、これにより人間が話すときに人間がなす本能的な身振り(両手などにより話すこと)を模擬できるようにする。ロボットはまた、うなずくことができる。いくつかの検討、特にJustine Cassellの記事、「Social Dialogue With Embodied Conversational Agents」(2005年発行:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.124.9853&rep=rep1&type=pdf)においてなされた検討は、人々は、うなずきが無作為に生じた場合でも機械または化身がうなずくと機械または化身が会話にさらに興味を持っているようだと考える、ということを証明できるようにした。これらのあらゆる身振りの信号(頭、腕または手により同意または反対することなどの)、音声信号、相互作用の年表(chronology)、対話者の場所、またはそうでなければユーザの意図(ユーザは前進しているのか後退しているのか)の検出は、人間−ロボット相互作用を通常の人間の規範により近付けることによりそれをより自然かつ効果的にすることができる。したがってこれらはまた、制限的音声認識に関する問題のいくつかを解決する。これらは本発明の利点の1つである。図8〜図13の画面ショットは、NAOロボットと対話者との対話のいくつかのケースをプログラムしてもよいやり方を説明する。
行動において選択ボックスを使用するためには、選択ボックスをChoregrapheのデフォルトライブラリから図(図8a)内にドラッグアンドドロップする必要がある。質問を仏語と英語で編集できるようにするローカライズテキストボックスが追加される。質問「あなたのお気に入りの動物は何ですか?」はローカライズテキストボックスのテキストプラグイン内に英語で書き込まれる(図8b)。人はまた、質問を仏語で編集することを望む。したがって、ボックスのプラグインのコンボボックスが用いられ、仏語が選択される(図8c)。このとき、質問のテキストは、編集されないときは空であるテキストプラグイン内に仏語で書き込まれる:"Quel est ton animal prefere?"(図8d)。質問は、ロボットにより正しく管理されるように選択ボックスに入力されなければならない。ローカライズテキストボックスの出力は選択ボックスのonStart入力にリンクされる(図8e)。我々は今、選択ボックスのコンボボックスにより示されるように選択を英語で編集するものとする。デフォルトの選択がボックスから取り除かれる。第1番目の選択「センザンコウ」が表の第1行に書き込まれる(図9a)。第2行目では、別の動物「蜘蛛」が提案されるが、同義語「タランチュラ」がスラッシュ「/」により蜘蛛から区切られて追加される。これは、ロボットが蜘蛛とタランチュラが同意語であると考えることを意味する(図9b)。選択の編集は例えば「兎」と「ポニー」を追加することにより終了される。行の数は選択が追加される際に自動的に適応することに留意されたい(図9c)。コンボボックスは選択ボックスを編集するための言語を仏語に切り替えるために使用される(図9d)。英語と全く同様に、選択のリストが書き込まれ、これにより「pangolin」、「araignee/tarentule」、「lapin」、「poney」を得る(図9d)。
しかしながら、我々はロボットが実際これらの選択を認識するかどうかを知らない。次に、我々は音声診断機能を実行したい。我々は「プラス」をクリックする(図10a)。次に、我々は評価アイコンをクリックする(図10b)。行毎に、単語は評価される(図10c)。同義語の場合、最良のものが初めに配置され、示される百分率はこのときの最良同義語の結果である。音声診断は終了し、このとき「poney」は極めて不完全に認識されている危険があることが分かる(図10d)。
次に、我々は、単語を変え、「cheval」をその代りに入れることを決定する(図11a)。診断が再実行される。「Cheval」は82%の優れた得点を獲得し、我々はそれを保持する(図11b)。
我々は英語に切り替え、単語に対し診断を英語で実行する(図12a、12b)。次に、「cheval」の翻訳として同義語「馬」が「ポニー」に加えられる(図12c)。診断が再実行され、「ポニー」より良い得点を有する「馬」が第1番目の位置に自動的に配置されることに留意されたい(図12d)。
我々は、次に調整してもよいパラメータを編集する。我々は選択ボックスの左下のサムホイールキーをクリックする(図13a)。パラメタータ化ウィンドウが開く(図13b)。我々はブーリアンパラメータ「腕を動かす」にチェックマークを付ける(図13c)。したがってロボットは話している間、その腕を動かすことになる。我々は、この新しいパラメタータ化を検証するためにOKをクリックする。
行動の一般的入力はローカライズテキストボックスの入力にリンクされ、選択ボックスの出力は行動の一般的出力にリンクされる(図13d)。
上に述べた例と同様にプログラムされたソフトウェアの例示的な動作について次に説明する。
ロボットは、Choregrapheアイコン「すべてのモータのオン/オフをスレーブ化する」によってスレーブ化され、次に、姿勢ライブラリの「init pose」位置によって直立状態にされる。ロボットの言語は、そのウェブページ上に存在するパラメータによって仏語に設定される。行動は、Choregrapheのプレーアイコンによってロボット上で開始される。
腕を動かしながら、ロボットは「あなたのお気に入りの動物は何ですか?」と尋ね、次に、傾聴音声信号(listening sound signal)を発する。聴いている間、眼は耳と同様に青色になり、頭の触覚センサは青色で明滅する。
次に、ユーザは「イルカ」と答える。何が言われたかを解析している間、NAOの眼は黄色になる。NAOは回答を理解しなく、眼は2度赤色で点滅し、耳は2度青色で点滅する。NAOは、腕を動かしながら「分かりませんでした。あなたが回答できます:センザンコウ、蜘蛛、兎または馬。あなたのお気に入りの動物は何ですか?」と言い、聴取段階(listening phase)に戻る。
次に、ユーザは「兎」と答える。ロボットは確信が持てないが、センザンコウと理解したと信じる。眼が緑色で一回点滅する。次に、ロボットは活発に腕を動かしながら、「私はセンザンコウと理解しましたが、正しいですか?」と言う。ユーザは「いいえ」と答える。ロボットは眼を赤色で一回点滅し、そしてその腕を動かしながら支援を開始する。「センザンコウ、蜘蛛、兎または馬?あなたは、私の触覚センサの助けを借りて回答を選択することもできます。あなたのお気に入りの動物は何ですか?」そして傾聴モード(listening mode)に戻る。次に、ユーザは前方触覚センサを押し、ロボットはその眼を青色で一回点滅し、「センザンコウ」と言う。次に、ユーザは再度押し、ロボットはその眼を青色で点滅しながら「蜘蛛」と答える。3回目に、ロボットは眼を青色で一回点滅ながら「兎」と言う。次に、ユーザは、ロボットの選択を検証するために中央の触覚センサを押す。ロボットは眼を一度緑色で点滅し、次に「兎」と繰り返し、ボックスと行動を終了する。
以下に説明されるものなどのような、ロボットの通信チャネル間の他の相互作用が可能である。
選択ボックスは、好ましいやり方で、ユーザの選択を認識するように触覚センサと組み合わせて音声認識を利用する。別の可能性はロボットの視覚(特に画像認識)を利用することである。これは概念認識ではなく物体認識である。瓶が示されれば、画像認識は別の商標のものではなくこの同じ瓶を認識することになる。本発明を実施できるようにするバージョンの開発ソフトウェアの可能性の1つは、このソフトウェア内にロボットのカメラリターン(camera return)を有することである。ユーザはロボットに物体を示し、Choregrapheにおいて得られた画像を見て、画像内の興味のある対象物を意のままに特定することができる。ユーザはそれに名前を付ける。次に、ロボットは対象物を解析し、それを画像のデータベースに格納する。次に、ユーザは選択ボックスの可能な選択としてこれらの画像を利用することができる。例えば、ユーザが選択ボックスに「瓶」、「コップ」、「雑誌」などの対象物の名前を記入することを望む場合。ユーザは選択ボックスにこれらの単語を記入し、次に瓶、お気に入りのコップ、雑誌のカバーを取り上げ、それらをロボットが先に説明したように解析するようにロボットに示す。次に、選択ボックスはロボットの画像のデータベース全体を探索する。「コップ」と称する対象物が存在すれば、NAOはユーザの話を聴くと同時にそれを探す、等々、他の単語も同様である。こうして、ユーザは、ユーザの選択を聴くNAO上のこのボックスを開始する。ユーザは「瓶」と言ったがロボットは理解しない。2人のやり取りの後、ロボットは、「瓶」、「コップ」、「雑誌」がそのデータベース内にあるのでユーザにこれらを示すことができることを説明する。ユーザは、ロボットの話を聴きながら、記録に役立つ(または同じ商標の)瓶を示すことができる。次に、ロボットはあたかも単語「瓶」を認識していたかのように振る舞う。
本発明の枠組み内では、ロボットのユーザのメッセージングアカウントを受信する/読む、書く/送信する、管理するエージェントとして機能するようにロボットをプログラムすることも可能である。このアプリケーションについて以下に説明する。
メールアプリケーションにより、NAOは特に電子メールを読む、電子メールに応答する、または連絡先に電子メールを送信するだけでなく、受信されたメールの筆者を連絡先に加える、メッセージを削除する、メッセージを未読としてマーキングする、再読する、次のまたは前のメッセージを読むこともできる。
このアプリケーションでは3つの選択ボックスが使用され、これを不可欠の要素とする。単語は音声診断によって選択されている。
アプリケーションが実行されると、ロボットはユーザが新しいメッセージを受信したかどうかを調べることから始める。そうならば、ロボットは最初の新しいメッセージを読み、次に、質問を伴わずに選択ボックスを実行する。そうでなければ、ロボットは、この同じ選択ボックスを次の質問を伴って実行する:「あなたは私に何をして欲しいのですか?」。したがって、質問を伴うまたは伴わずに選択ボックスを実行できるということが、メールアプリケーションにおいて利用される。この選択ボックスは、ユーザがNAOの可能な行為の中から選択できるようにする。これらの行為はボックスのプラグインの表に書き込まれる。「タイムアウト」選択ボックス出力は、タイムアウトの場合にNAOが次のメッセージを読むので、役立つ。このとき、パラメータ「無返答時の最大繰り返し回数」は1に設定される。ロボットは最初のタイムアウト時にこの選択ボックスから出る。さらに、ユーザによる選択後にロボットは理解したものを明確に示す特定のアニメーションまたは行為を実行するので、パラメータ「検証された選択を繰り返す」は非活性化される。ブーリアンパラメータ「頭を動かす」、「腕を動かす」、および「脚を動かす」のおかげで、ロボットはその決定に合わせたアニメーションにより活気付けられることになる。
例えば、このボックスの可能な選択は以下のものである。
−返答を記録する/このメールに返答する/そのメールに返答する/返答する。
−再度読む/このメールを再読する/そのメールを再読する/再読する。
−次/次を読む/次のメールを読む。
−前の/前のメールを読む/前のメッセージを読む。
−未読としてマーキングする/保管する/後で再読する。
−削除する/メールを削除する/メッセージを削除する。
−メールを書く/メールを送る/送る。
−連絡先に加える。
−出る/やめる/飛ばす/停止/止める/キャンセルする/静かにする。「出る」は選択ボックスのデフォルト選択の1つであり、ここではメールアプリケーションから出られるようにする。
ユーザが「メールを書く」選択肢を選択すれば、ユーザはまずアドレス帳から連絡先を選択しなければならない。この選択機能を行うために、「あなたは誰宛に書きたいのですか?」という質問を伴った選択ボックスが入力として使用される。選択のリストは可変である。その結果、選択ボックスの表は記入されなく、連絡先リストがそれを保存するファイルから読み出され、動的タイプの選択ボックスの「choicesList」入力に送られる。この時、パラメータ「検証された選択を繰り返す」は、Naoがメッセージを誰宛に送るかを実際に理解したということをユーザに示すために活性化される。
タイムアウトの場合に誰宛にもメールを送らず実際にはメールの送信をキャンセルしメインメニューに戻ることができるように、パラメータ「無返答時の最大繰り返し回数」は例えばそのデフォルト値3に設定される。同様に、アプリケーションのデフォルト選択である「出る」と言うことにより主メニューに戻ることができるようにするヘルプ機能はユーザが連絡先をもはや思い出さない場合のためのものである。この場合、例えば触覚センサによりNAOは連絡先のリストを告げる。
メールを直接送信する場合、またはそうでなければ受信メッセージに応答する場合、ロボットはユーザのメッセージを記録することになる。
メッセージを終了すると、ロボットは記録されたメッセージを再読し、次に例えば以下の様々な相互作用を提案する選択ボックスを開始する。
−それを再生する/メッセージを再生する/私のメッセージを再生する:NAOはメッセージを再読する。
−メッセージを再記録する/私のメッセージを再記録する/それを再記録する。メッセージは、最初のものが適切でなければ再記録することができる。
−それを送信しない/送信しない/メッセージを送信しない。NAOはメッセージを送らず、アプリケーションの前のレベルに戻ることになる。
−それを送る/メッセージを送る/私のメッセージを送る。NAOはメッセージを送る。
−タイムアウトの場合、メッセージが送られる。
−「出る」要求または繰り返しに伴う失敗などのタイムアウトでないボックスから「他の」出る場合、アプリケーションは前のレベルに戻る。
パラメータは主メニューの選択ボックスのものとほぼ同じであり、パラメータ「無返答時の最大繰り返し回数」は1に設定される。何回の無返答の後にロボットはタイムアウトがあったと考えるかを示すパラメータ「音声認識タイムアウト」と、「確認時の音声認識タイムアウト」は、ユーザが何も言わずにメッセージを容易に送ることができるように例えばデフォルト設定の6秒の代わりに4秒に設定することができる。
選択ボックスはまた、ボックスの使用の継続時間全体にわたって一定であるパラメータにより静的なやり方で構成することができる。しかしながら質問を自動的に生成するシステムの利用の枠組み内では、パラメータは自動的に調整されてもよい。例えば、As An Angel社により開発されたものなどの会話型エージェントの利用の枠組み内では、前記エージェントは、それが自動的に生成することになる、質問−回答の機能として選択ボックスを構成することができる。
特に本発明の実施を容易にするように他の改良が、Choregrapheビヘイビア開発ソフトウェアに対しなされた。以下にその説明を行う。
Choregrapheボックスは、支援されるプログラミング言語の1つのスクリプトによって実施される。このボックスが、繰り返し回数、ロボットにより利用される言語、ロボットが話さなければならないテキストなどのいくつかのパラメタータ化可能な態様を有する場合、これらの情報の項目はボックスのスクリプト中に直接組み込まれる。ボックスのパラメータの修正が望まれる場合、例えばそれを違ったやり方で使用するためにそれを複製した後、その行動を変えるためにはボックスのスクリプトを修正する必要がある。これは、使用されるスクリプト言語の完全な知識の無いユーザが実行することを望むありふれた操作であって、Choregrapheユーザの生産性を改良するためのものであるので、ボックススクリプトを構成することができるように特別のインターフェースが開発された。この機能には2つの態様がある。
Choregrapheインターフェースでは、ユーザは、ボックスの入力と出力を生成することができるのと同じやり方で、ボックスの属性を編集するためのウィンドウ内に「ボックスパラメータ」を生成する可能性を有する。各「ボックスパラメータ」は、名前、説明、タイプ(ブーリアン、整数、浮動小数点、文字列の中から)を有する。各「ボックスパラメータ」はタイプの関数としてデフォルト値などの追加属性を有することができる。最後に、「ボックスパラメータ」は親ボックスから継承するものとして定義されてもよく、これは、値が決定されるやり方に影響を与えることになる。「ボックスパラメータ」が定義されると、ボックスは、その左下角の追加可視指標によりそのチャート内に表示される。ユーザがこのアイコンをクリックすると、「ボックスパラメータ」編集ダイアログが開き、ユーザは「ボックスパラメータ」の属性内に定義される随意的制約条件の枠組み内で、各「ボックスパラメータ」に関連する値を定義することができる。
ボックスのスクリプトでは、ボックスの著者は、今後、引き数として「ボックスパラメータ」と称するいくつかの機能の助けを借りて「ボックスパラメータ」にアクセスすることができる。ボックスの著者は「ボックスパラメータ」の現在値を調べて、それを変更することができる。また、ボックスの著者は、Choregraphe内に現われないがボックスのスクリプト内の一時記憶として機能することができる動的「ボックスパラメータ」を生成することができる。パラメータの現在値は、親ボックスから継承したものか否かマーキングされることに依存する。それでない場合(デフォルトの場合)、「ボックスパラメータ」はボックスに固有である。ボックスのスクリプトがそれを調べると、その現在値が単純に返される。パラメータの現在値が、継承するとしてマーキングされると、値の読み込み中に、同じ名前の「ボックスパラメータ」を含む親ボックスが見つかるまでボックスチャートの階層中の逆追跡(backtracking up)が発生する。何も見つからなければ現在のボックスの現在値が使用される。
さらに、ロボットがそのカメラの視界に入る対象物を認識できるようにするソフトウェアモジュールが、ロボットに利用可能である。但し、認識される対象物は、最初に学習段階において学ばれなければならない。この学習はChoregraphe内の特定インターフェースの助けを借りて実行される。
このインターフェースは、ロボットのカメラにより送られる映像を実時間で表示する。画像は、Choregrapheがカメラと正しく構成された映像キャプチャーモジュールとを有するロボットに接続された時だけ、利用可能である。映像ディスプレイが活性化されると、ユーザは学習をトリガすることができる。次に、カウントダウンが画像上に現われる。このときユーザはカメラの前の対象物を提示するのに例えば4秒を有する。カウントダウンの終わりに、画像が捕捉され記録される。次に、ユーザは、固定画像上にポリゴンを描くことにより画像内の興味のある対象物の輪郭を描かなければならない。ポリゴンが閉じられると、ダイアログが開き、対象物を定義するキーワードを入力するようユーザに依頼する。
各学習は、Choregrapheによりユーザコンピュータ上に保存されるデータベース内にエントリを生成する。学習が終了すると、ボタンはロボットにデータベースの縮小版を送ることができるようにする。このとき、物体認識モジュールはこのデータベースを使用することになる。対象物が認識されると、関連キーワードを含む事象がロボット上でトリガされる。
Choregrapheはまた、ロボットの行動のエディタである。図4に対する注釈として先に説明したように、行動は、ロボットにより実行され得るコンピュータプログラムと同様なオブジェクトである。これらの行動をインストールしロボット上で実行するために、ロボット上の行動を管理するためのインターフェースの開発が行われた。Choregrapheがロボットに接続されると、アプリケーションのメニューのエントリにより行動マネージャを表示できるようにする。これは、これらを操作するための一組のボタンだけでなくロボット上にインストールされる行動のリストも表示するモーダルウィンドウである。
インストールされた行動毎に、その名前と、その状態(現在実行中か実行中でないか)と、ロボットが始動されると行動が実行されなければならないかどうかを定義する属性と、が表示される。行動を開始または停止するためには、その現在状態を表示するアイコンをクリックすることで十分であり、その効果は状態をトグル切り替えすることである。行動が終了されると、状態は自動的に元に切り替えられ「停止される」。属性「スタートアップ開始」はチェックマークが付けられるボックスである。これは属性の現在値を示し、ユーザはこの値を変えるためにこれを単純にクリックすることができる。
行動のリストと共に表示されるボタンは、行動のいくつかを追加すること、行動のいくつかを削除すること、行動のいくつかをユーザコンピュータに転送することができるようにする。したがってユーザは、ロボット上にインストールされた行動を、あたかもそれらが彼のコンピュータ上のファイルかのように、極めて容易に操作することができる。特に、ユーザは、行動を、ロボット上に記録する必要無く、ダウンロードし、修正し、彼のコンピュータ上に再インストールすることができる。
このときユーザによりインストールされた行動は、時間的一致の制約条件下で、および様々な行動ボックス、行動フレーム、およびタイムラインにより定義された行動間で並行して実行することができる。
上に述べた例は本発明の実施形態の例示として与えられた。これは決して本発明の分野を限定するものではなく、本発明の分野は以下の特許請求範囲により規定される。

Claims (9)

  1. 異なる様式に応じた少なくとも1人の対話者とのメッセージの自然なコミュニケーションのための少なくとも2つのチャネルであってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される2つのチャネルと、前記チャネルの入力/出力のための制御モジュールと、を含むヒューマノイドロボットであって、
    前記制御モジュールは、第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能とチャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能とを含む機能の群から選択された少なくとも1つの機能の実行に基づき前記ロボットにより受信されたメッセージの理解を向上させるように構成され、
    前記チャネルは、可聴、可視、触知可能、身振りの、位置的、または符号メッセージを送信および/または受信するための通信チャネル群から選択され、
    第1の通信チャネルは音声送信チャネルであり、第2の通信チャネルは前記少なくとも1人の対話者による前記ロボットの少なくとも一部の身振りおよび/または位置を受信するためのチャネルであり、
    前記身振りおよび/または位置は前記対話者により前記ロボットに伝えられる入力を表し、
    前記入力の仕様は、前記第1のチャネル上で送信された前記メッセージにより、前記ロボットにより前記対話者に対し規定される、
    前記対話者が前記第2のチャネル内への前記入力を検証する第3の触知能通信チャネルをさらに含む、ヒューマノイドロボット。
  2. 異なる様式に応じた少なくとも1人の対話者とのメッセージの自然なコミュニケーションのための少なくとも2つのチャネルであってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される2つのチャネルと、前記チャネルの入力/出力のための制御モジュールと、を含むヒューマノイドロボットであって、
    前記制御モジュールは、第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能とチャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能とを含む機能の群から選択された少なくとも1つの機能の実行に基づき前記ロボットにより受信されたメッセージの理解を向上させるように構成され、
    前記チャネルは、可聴、可視、触知可能、身振りの、位置的、または符号メッセージを送信および/または受信するための通信チャネル群から選択され、
    第1の通信チャネルは音声メッセージを受信するためのチャネルであり、第2の通信チャネルは音声メッセージを送信するためのチャネルであり、
    前記制御モジュールは、前記第1のチャネル上で受信された第1のメッセージの前記ロボットによる理解の信頼水準を評価し、前記第2のチャネル上にその内容が前記信頼水準に依存する少なくとも1つの第2のメッセージを生成することができ、
    前記第1のチャネルは、それぞれが期待認識率と関連付けられた表現のリストにより、受信されたメッセージを音声認識するためのフィルタを含み、
    前記第2のメッセージの前記内容は、前記第1のチャネル上の前記第1のメッセージの繰り返しの要求と、前記フィルタの前記表現のサブセットの前記第1のチャネル上で前記対話者により送信される第3のメッセージによる確認の要求と、少なくとも1つの第3のチャネル上の少なくとも1つの他のメッセージの前記対話者による送信の要求と、からなる要求の群から発見的方法により選択される、ヒューマノイドロボット。
  3. 前記第1と第2のチャネル上の前記メッセージの半二重モードでの順番を保証するように、前記第1のチャネル上での聴取開始信号を前記第2のチャネル上で送信するようにさらに構成される、請求項に記載のヒューマノイドロボット。
  4. 前記発見的方法は前記期待認識率に基づき決定される閾値に関する実認識率の位置の関数である、請求項に記載のヒューマノイドロボット。
  5. 前記第3のチャネルは触覚的受信のためのまたは前記ロボットの一部から身振りを受信するためのチャネルである、請求項に記載のヒューマノイドロボット。
  6. 前記第3のチャネルは前記第1のチャネルの前記フィルタの表現の前記リストに対応する対象物の像の可視受信のためのチャネルであり、
    前記像は、前記表現と共に以前に記録された前記対象物の像のデータベースであって前記通信チャネルの入力/出力のための前記制御モジュールによりアクセス可能なデータベースと比較される、請求項に記載のヒューマノイドロボット。
  7. 異なる様式に応じた少なくとも1人の対話者とのメッセージの自然なコミュニケーションのための少なくとも2つのチャネルであってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される2つのチャネルと、前記チャネルの入力/出力のための制御モジュールと、を含むヒューマノイドロボットであって、
    前記制御モジュールは、第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能とチャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能とを含む機能の群から選択された少なくとも1つの機能の実行に基づき前記ロボットにより受信されたメッセージの理解を向上させるように構成される、ヒューマノイドロボットであり、
    前記チャネルは、可聴、可視、触知可能、身振りの、位置的、または符号メッセージを送信および/または受信するための通信チャネル群から選択され、
    第1の通信チャネルは可視メッセージを受信するためのチャネルであり、第2の通信チャネルは音声メッセージを送信するためのチャネルであり、
    前記制御モジュールは、前記第1のチャネル上で受信された第1のメッセージの前記ロボットによる理解の信頼水準を評価し、前記第2のチャネル上にその内容が前記信頼水準に依存する少なくとも1つの第2のメッセージを生成することができる、ヒューマノイドロボット。
  8. 前記第1のチャネルは、それぞれが期待認識率と関連付けられた表現のリストにより、受信された前記メッセージの像を認識するためのフィルタを含み、
    前記第2のメッセージの前記内容は、前記第1のチャネル上の前記第1のメッセージの繰り返しの要求と、前記フィルタの前記表現のサブセットの音声メッセージを受信するための第3のチャネル上で前記対話者により送信される第3のメッセージによる確認の要求と、少なくとも1つの第4のチャネル上の少なくとも1つの他のメッセージの前記対話者による送信の要求と、からなる要求の群から発見的方法により選択される、請求項に記載のヒューマノイドロボット。
  9. 異なる様式に応じた少なくとも1人の対話者とのメッセージの自然なコミュニケーションのための少なくとも2つのチャネルであってそれぞれが受信チャネルと送信チャネルを含むチャネルの群から選択される少なくとも2つのチャネルと、前記チャネルの入力/出力のための制御モジュールと、を含む少なくとも1つのヒューマノイドロボットと少なくとも1人の対話者との間の通信インターフェースを編集および制御する方法であって、
    前記制御モジュールは、第1のチャネルと第2のチャネル上で受信/送信されたメッセージを組み合わせる機能とチャネル上で受信された第1のメッセージに基づき生成された第2のメッセージを送信する機能とを含む機能の群から選択された少なくとも1つの機能の実行に基づき前記ロボットにより受信されたメッセージの理解を向上させるように構成され、
    前記選択された機能をプログラムする工程をさらに含む、方法であり、
    前記選択された機能をプログラムする前記工程は、音声送信チャネルを装った第1の通信チャネルと、前記少なくとも1人の対話者により前記ロボットの一肢上に加えられた少なくとも1つの身振りを受信するためのチャネルを装った第2の通信チャネルと、を規定する少なくとも1つの下位工程と、
    前記対話者により前記ロボットに伝えられた前記少なくとも1つの身振りと入力との対応を規定する下位工程と、
    前記第1のチャネル上で前記ロボットにより前記対話者に送信される少なくとも1つのメッセージを生成することにより前記入力の仕様を規定する下位工程と、を含み、
    第3の触知通信チャネルを定義し、これにより前記対話者が前記第2のチャネルに対し行われた前記入力を検証する下位工程、をさらに含む編集し制御する方法。
JP2013520054A 2010-07-23 2011-07-11 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム Active JP6129073B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1056047A FR2963132A1 (fr) 2010-07-23 2010-07-23 Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
FR1056047 2010-07-23
PCT/EP2011/061743 WO2012010451A1 (fr) 2010-07-23 2011-07-11 Robot humanoide dote d'une interface de dialogue naturel, procede de controle du robot et programme correspondant

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016186918A Division JP2017041260A (ja) 2010-07-23 2016-09-26 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム

Publications (2)

Publication Number Publication Date
JP2013539569A JP2013539569A (ja) 2013-10-24
JP6129073B2 true JP6129073B2 (ja) 2017-05-17

Family

ID=43618099

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013520054A Active JP6129073B2 (ja) 2010-07-23 2011-07-11 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム
JP2016186918A Pending JP2017041260A (ja) 2010-07-23 2016-09-26 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016186918A Pending JP2017041260A (ja) 2010-07-23 2016-09-26 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム

Country Status (8)

Country Link
US (1) US8942849B2 (ja)
EP (1) EP2596493A1 (ja)
JP (2) JP6129073B2 (ja)
KR (1) KR101880775B1 (ja)
CN (1) CN103119644B (ja)
BR (1) BR112013001711A2 (ja)
FR (1) FR2963132A1 (ja)
WO (2) WO2012010437A1 (ja)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
US9566710B2 (en) 2011-06-02 2017-02-14 Brain Corporation Apparatus and methods for operating robotic devices using selective state space training
US10866783B2 (en) * 2011-08-21 2020-12-15 Transenterix Europe S.A.R.L. Vocally activated surgical control system
KR20130021943A (ko) * 2011-08-24 2013-03-06 한국전자통신연구원 디지털 마인드 서비스 장치 및 방법
JP5982840B2 (ja) * 2012-01-31 2016-08-31 富士通株式会社 対話装置、対話プログラムおよび対話方法
FR2989209B1 (fr) 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
US20130311528A1 (en) * 2012-04-25 2013-11-21 Raanan Liebermann Communications with a proxy for the departed and other devices and services for communicaiton and presentation in virtual reality
US20150314454A1 (en) * 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
US9764468B2 (en) 2013-03-15 2017-09-19 Brain Corporation Adaptive predictor apparatus and methods
US20170206064A1 (en) * 2013-03-15 2017-07-20 JIBO, Inc. Persistent companion device configuration and deployment platform
US9037396B2 (en) * 2013-05-23 2015-05-19 Irobot Corporation Simultaneous localization and mapping for a mobile robot
US9242372B2 (en) * 2013-05-31 2016-01-26 Brain Corporation Adaptive robotic interface apparatus and methods
US9792546B2 (en) 2013-06-14 2017-10-17 Brain Corporation Hierarchical robotic controller apparatus and methods
US9314924B1 (en) 2013-06-14 2016-04-19 Brain Corporation Predictive robotic controller apparatus and methods
US9384443B2 (en) 2013-06-14 2016-07-05 Brain Corporation Robotic training apparatus and methods
JP5945732B2 (ja) * 2013-07-03 2016-07-05 パナソニックIpマネジメント株式会社 電子部品実装システムにおける伝言伝達装置
US9579789B2 (en) 2013-09-27 2017-02-28 Brain Corporation Apparatus and methods for training of robotic control arbitration
JP5996603B2 (ja) * 2013-10-31 2016-09-21 シャープ株式会社 サーバ、発話制御方法、発話装置、発話システムおよびプログラム
US9597797B2 (en) 2013-11-01 2017-03-21 Brain Corporation Apparatus and methods for haptic training of robots
US9358685B2 (en) 2014-02-03 2016-06-07 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
EP2933067B1 (en) 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
EP2933070A1 (en) * 2014-04-17 2015-10-21 Aldebaran Robotics Methods and systems of handling a dialog with a robot
CN106573378A (zh) * 2014-06-12 2017-04-19 普雷-艾公司 通过机器人反馈增强编程教育的系统和方法
US10279470B2 (en) 2014-06-12 2019-05-07 Play-i, Inc. System and method for facilitating program sharing
CN106575382B (zh) * 2014-08-07 2021-12-21 学校法人冲绳科学技术大学院大学学园 估计对象行为的计算机方法和系统、预测偏好的系统和介质
CN104267922B (zh) * 2014-09-16 2019-05-31 联想(北京)有限公司 一种信息处理方法及电子设备
US9630318B2 (en) 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
CN104493827A (zh) * 2014-11-17 2015-04-08 福建省泉州市第七中学 智能认知机器人及其认知系统
US9717387B1 (en) 2015-02-26 2017-08-01 Brain Corporation Apparatus and methods for programming and training of robotic household appliances
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
WO2016206643A1 (zh) * 2015-06-26 2016-12-29 北京贝虎机器人技术有限公司 机器人交互行为的控制方法、装置及机器人
CN106313113B (zh) * 2015-06-30 2019-06-07 芋头科技(杭州)有限公司 一种对机器人进行训练的系统及方法
CN104985599B (zh) * 2015-07-20 2018-07-10 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人控制方法、系统及智能机器人
US9828094B2 (en) * 2015-07-26 2017-11-28 John B. McMillion Autonomous cleaning system
US20170050320A1 (en) * 2015-08-18 2017-02-23 Behzad Nejat Novel robotic device with a configurable behavior image
CN105206273B (zh) * 2015-09-06 2019-05-10 上海智臻智能网络科技股份有限公司 语音传输控制方法及系统
JP5892531B1 (ja) * 2015-11-16 2016-03-23 プレンプロジェクト・ホールディングス有限会社 リンク列マッピング装置、リンク列マッピング方法、及びプログラム
CN105425648A (zh) * 2016-01-11 2016-03-23 北京光年无限科技有限公司 便携机器人及其数据处理方法和系统
CN105680972A (zh) * 2016-01-20 2016-06-15 山东大学 机器人集群协同任务网络同步控制方法
CN105808501A (zh) * 2016-03-09 2016-07-27 北京众星智联科技有限责任公司 一种人工智能学习的实现
JP6726388B2 (ja) * 2016-03-16 2020-07-22 富士ゼロックス株式会社 ロボット制御システム
EP3450118A4 (en) * 2016-04-28 2019-04-10 Fujitsu Limited ROBOT
DE102016115243A1 (de) * 2016-04-28 2017-11-02 Masoud Amri Programmieren in natürlicher Sprache
US11645444B2 (en) * 2016-05-10 2023-05-09 Trustees Of Tufts College Systems and methods enabling online one-shot learning and generalization by intelligent systems of task-relevant features and transfer to a cohort of intelligent systems
US10241514B2 (en) 2016-05-11 2019-03-26 Brain Corporation Systems and methods for initializing a robot to autonomously travel a trained route
US20170326443A1 (en) * 2016-05-13 2017-11-16 Universal Entertainment Corporation Gaming machine
US9987752B2 (en) 2016-06-10 2018-06-05 Brain Corporation Systems and methods for automatic detection of spills
US10282849B2 (en) 2016-06-17 2019-05-07 Brain Corporation Systems and methods for predictive/reconstructive visual object tracker
US10239205B2 (en) * 2016-06-29 2019-03-26 International Business Machines Corporation System, method, and recording medium for corpus curation for action manifestation for cognitive robots
US10016896B2 (en) 2016-06-30 2018-07-10 Brain Corporation Systems and methods for robotic behavior around moving bodies
CN106056109A (zh) * 2016-07-30 2016-10-26 深圳市寒武纪智能科技有限公司 一种基于计算机视觉的讲故事机器人
CN106327291A (zh) * 2016-08-10 2017-01-11 深圳市豆娱科技有限公司 一种基于虚拟现实商城的导购交互系统及其应用方法
JP6517762B2 (ja) 2016-08-23 2019-05-22 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習するロボットシステム
JP2018067100A (ja) * 2016-10-18 2018-04-26 株式会社日立製作所 ロボット対話システム
US10987804B2 (en) * 2016-10-19 2021-04-27 Fuji Xerox Co., Ltd. Robot device and non-transitory computer readable medium
US10274325B2 (en) 2016-11-01 2019-04-30 Brain Corporation Systems and methods for robotic mapping
US10001780B2 (en) 2016-11-02 2018-06-19 Brain Corporation Systems and methods for dynamic route planning in autonomous navigation
JP6713057B2 (ja) * 2016-11-08 2020-06-24 シャープ株式会社 移動体制御装置および移動体制御プログラム
US10723018B2 (en) 2016-11-28 2020-07-28 Brain Corporation Systems and methods for remote operating and/or monitoring of a robot
US11443161B2 (en) 2016-12-12 2022-09-13 Microsoft Technology Licensing, Llc Robot gesture generation
JP6795387B2 (ja) * 2016-12-14 2020-12-02 パナソニック株式会社 音声対話装置、音声対話方法、音声対話プログラム及びロボット
KR102616403B1 (ko) * 2016-12-27 2023-12-21 삼성전자주식회사 전자 장치 및 그의 메시지 전달 방법
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
US10377040B2 (en) 2017-02-02 2019-08-13 Brain Corporation Systems and methods for assisting a robotic apparatus
US10852730B2 (en) 2017-02-08 2020-12-01 Brain Corporation Systems and methods for robotic mobile platforms
JP6433525B2 (ja) * 2017-03-06 2018-12-05 政信 近藤 個人認証装置
CN110692048B (zh) * 2017-03-20 2023-08-15 电子湾有限公司 会话中任务改变的检测
JP7002143B2 (ja) * 2017-03-21 2022-01-20 国立大学法人東京工業大学 コミュニケーション解析装置およびそれに使用される測定・フィードバック装置、インタラクション装置
US10293485B2 (en) 2017-03-30 2019-05-21 Brain Corporation Systems and methods for robotic path planning
CN106920552A (zh) * 2017-03-30 2017-07-04 天津中科先进技术研究院有限公司 一种具有云端交互功能的智能机器人
JP6610610B2 (ja) * 2017-04-27 2019-11-27 トヨタ自動車株式会社 音声入出力装置、無線接続方法、音声対話システム
CN108235745B (zh) 2017-05-08 2021-01-08 深圳前海达闼云端智能科技有限公司 机器人唤醒方法、装置和机器人
CN107219849B (zh) * 2017-05-23 2020-04-07 北京理工大学 一种多途径的捡球和发球机器人控制系统
US10678338B2 (en) 2017-06-09 2020-06-09 At&T Intellectual Property I, L.P. Determining and evaluating data representing an action to be performed by a robot
US10569420B1 (en) 2017-06-23 2020-02-25 X Development Llc Interfacing with autonomous devices
CN111201566A (zh) 2017-08-10 2020-05-26 费赛特实验室有限责任公司 用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法
US20200357382A1 (en) * 2017-08-10 2020-11-12 Facet Labs, Llc Oral, facial and gesture communication devices and computing architecture for interacting with digital media content
US10083006B1 (en) * 2017-09-12 2018-09-25 Google Llc Intercom-style communication using multiple computing devices
KR102128812B1 (ko) * 2017-12-11 2020-07-02 한국전자통신연구원 로봇의 사회 지능 평가 방법 및 이를 위한 장치
US11024294B2 (en) 2017-12-29 2021-06-01 DMAI, Inc. System and method for dialogue management
US11222632B2 (en) 2017-12-29 2022-01-11 DMAI, Inc. System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
US11504856B2 (en) * 2017-12-29 2022-11-22 DMAI, Inc. System and method for selective animatronic peripheral response for human machine dialogue
US10800039B2 (en) * 2018-01-23 2020-10-13 General Electric Company Controlling and commanding an unmanned robot using natural interfaces
US20190236976A1 (en) * 2018-01-31 2019-08-01 Rnd64 Limited Intelligent personal assistant device
US11331807B2 (en) 2018-02-15 2022-05-17 DMAI, Inc. System and method for dynamic program configuration
US10832118B2 (en) * 2018-02-23 2020-11-10 International Business Machines Corporation System and method for cognitive customer interaction
CN108161955A (zh) * 2018-03-19 2018-06-15 重庆鲁班机器人技术研究院有限公司 机器人控制装置
CN110322875A (zh) * 2018-03-29 2019-10-11 富泰华工业(深圳)有限公司 机器人交互系统及方法
FR3080926B1 (fr) * 2018-05-04 2020-04-24 Spoon Procede de commande d'une pluralite d'effecteurs d'un robot
WO2019222160A1 (en) * 2018-05-14 2019-11-21 Board Of Regents, The University Of Texas System Integrated system design for a mobile manipulation robot with socially expressive abilities
JP7000253B2 (ja) * 2018-05-31 2022-01-19 国立大学法人東海国立大学機構 力覚視覚化装置、ロボットおよび力覚視覚化プログラム
CN109003612B (zh) * 2018-06-08 2021-01-29 英业达科技有限公司 基于人工智能的语音问答验证系统及其方法
CN108942926B (zh) * 2018-06-28 2020-06-19 达闼科技(北京)有限公司 一种人机交互的方法、装置和系统
US11230017B2 (en) * 2018-10-17 2022-01-25 Petoi Llc Robotic animal puzzle
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
WO2020090332A1 (ja) * 2018-10-30 2020-05-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN109262617A (zh) * 2018-11-29 2019-01-25 北京猎户星空科技有限公司 机器人控制方法、装置、设备及存储介质
CN109822581A (zh) * 2018-12-08 2019-05-31 浙江国自机器人技术有限公司 用于机房机器人的导览方法
CN109889723A (zh) * 2019-01-30 2019-06-14 天津大学 一种基于nao机器人的音视频数据采集系统
CN109828568B (zh) * 2019-02-15 2022-04-15 武汉理工大学 对RoboCup比赛的NAO机器人寻球步态优化方法
EP3894972B1 (en) 2019-04-29 2023-11-08 Google LLC Motorized computing device that autonomously adjusts device location and/or orientation of interfaces according to automated assistant requests
WO2020251074A1 (ko) * 2019-06-12 2020-12-17 엘지전자 주식회사 음성 인식 기능을 제공하는 인공 지능 로봇 및 그의 동작 방법
CN111061370B (zh) * 2019-12-16 2021-07-16 深圳市云网万店电子商务有限公司 用于智能设备的人机交互装置及方法
CN111694939B (zh) * 2020-04-28 2023-09-19 平安科技(深圳)有限公司 智能调用机器人的方法、装置、设备及存储介质
US11875362B1 (en) 2020-07-14 2024-01-16 Cisco Technology, Inc. Humanoid system for automated customer support
US11907670B1 (en) 2020-07-14 2024-02-20 Cisco Technology, Inc. Modeling communication data streams for multi-party conversations involving a humanoid
CN113222805B (zh) * 2021-05-08 2023-04-07 西北工业大学 一种快速高准确度nao型足球机器人视觉处理方法
KR102519599B1 (ko) * 2021-10-29 2023-04-11 주식회사 서큘러스 멀티모달 기반의 인터랙션 로봇, 및 그 제어 방법
WO2023090951A1 (en) * 2021-11-19 2023-05-25 Samsung Electronics Co., Ltd. Methods and systems for suggesting an enhanced multimodal interaction
CN114770514A (zh) * 2022-05-11 2022-07-22 北京睿知文峰教育科技有限公司 基于stm32的人工智能机器人控制方法及装置
CN116117834A (zh) * 2023-04-11 2023-05-16 佛山宜视智联科技有限公司 可交互的机器人变色系统

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2002261966A (ja) * 2000-09-08 2002-09-13 Matsushita Electric Works Ltd コミュニケーション支援システムおよび撮影装置
JP4765155B2 (ja) * 2000-09-28 2011-09-07 ソニー株式会社 オーサリング・システム及びオーサリング方法、並びに記憶媒体
WO2002029715A1 (en) * 2000-10-03 2002-04-11 Kent Ridge Digital Labs A system, method and language for programming behaviour in synthetic creatures
JP2004283943A (ja) * 2003-03-20 2004-10-14 Sony Corp コンテンツ選択装置及び方法並びにロボット装置
JP2004295766A (ja) * 2003-03-28 2004-10-21 Sony Corp ロボット装置及びロボットを介したユーザの認証方法
WO2005008432A2 (en) * 2003-07-11 2005-01-27 Sonolink Communications Systems, Llc System and method for advanced rule creation and management within an integrated virtual workspace
WO2005050849A2 (en) * 2003-10-01 2005-06-02 Laird Mark D Wireless virtual campus escort system
US20060031340A1 (en) * 2004-07-12 2006-02-09 Boban Mathew Apparatus and method for advanced attachment filtering within an integrated messaging platform
JP4629560B2 (ja) 2004-12-01 2011-02-09 本田技研工業株式会社 対話型情報システム
US20060122837A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Voice interface system and speech recognition method
JP2006187825A (ja) * 2005-01-05 2006-07-20 Yaskawa Electric Corp ロボット装置およびその制御方法
JP2007069302A (ja) * 2005-09-07 2007-03-22 Hitachi Ltd 動作表出装置
JP2007260864A (ja) * 2006-03-29 2007-10-11 Advanced Telecommunication Research Institute International コミュニケーションロボット
JP2008052178A (ja) * 2006-08-28 2008-03-06 Toyota Motor Corp 音声認識装置と音声認識方法
KR100827088B1 (ko) * 2006-09-07 2008-05-02 삼성전자주식회사 소프트웨어 로봇 장치
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
JP2008241933A (ja) * 2007-03-26 2008-10-09 Kenwood Corp データ処理装置及びデータ処理方法
US8706914B2 (en) * 2007-04-23 2014-04-22 David D. Duchesneau Computing infrastructure
JP2009061547A (ja) * 2007-09-06 2009-03-26 Olympus Corp ロボット制御システム、ロボット、プログラム及び情報記憶媒体
FR2930108B1 (fr) 2008-04-09 2010-07-30 Aldebaran Robotics Systeme et procede de communication distribue comprenant au moins un serveur, au moins un terminal distant, et au moins un terminal mobile capable de communiquer avec le terminal distant relie en reseau audit serveur
FR2929873B1 (fr) 2008-04-09 2010-09-03 Aldebaran Robotics Architecture de controle-commande d'un robot mobile utilisant des membres articules
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
FR2946160B1 (fr) 2009-05-26 2014-05-09 Aldebaran Robotics Systeme et procede pour editer et commander des comportements d'un robot mobile.
CN101604204B (zh) * 2009-07-09 2011-01-05 北京科技大学 智能情感机器人分布式认知系统

Also Published As

Publication number Publication date
US8942849B2 (en) 2015-01-27
CN103119644A (zh) 2013-05-22
JP2013539569A (ja) 2013-10-24
CN103119644B (zh) 2016-01-20
WO2012010451A1 (fr) 2012-01-26
KR20140000189A (ko) 2014-01-02
US20130218339A1 (en) 2013-08-22
JP2017041260A (ja) 2017-02-23
FR2963132A1 (fr) 2012-01-27
EP2596493A1 (fr) 2013-05-29
KR101880775B1 (ko) 2018-08-17
WO2012010437A1 (fr) 2012-01-26
BR112013001711A2 (pt) 2016-05-31

Similar Documents

Publication Publication Date Title
JP6129073B2 (ja) 自然な対話インターフェースを備えたヒューマノイドロボット、同ロボットを制御する方法、および対応プログラム
KR102306624B1 (ko) 지속적 컴패니언 디바이스 구성 및 전개 플랫폼
Rossi et al. An extensible architecture for robust multimodal human-robot communication
KR101604593B1 (ko) 이용자 명령에 기초하여 리프리젠테이션을 수정하기 위한 방법
JP7254772B2 (ja) ロボットインタラクションのための方法及びデバイス
JP4839838B2 (ja) 情報処理システム、情報処理方法および情報処理用プログラム
JP7260221B2 (ja) ロボット対話方法およびデバイス
EP2933796B1 (en) Executing software applications on a robot
JP2001229392A (ja) 少ないメッセージ交信により会話式キャラクタを実施する合理的アーキテクチャ
WO2017200074A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
US20130066467A1 (en) Service scenario editing apparatus for an intelligent robot, method for same, intelligent robot apparatus and service-providing method for an intelligent robot
Lamberti et al. Using semantics to automatically generate speech interfaces for wearable virtual and augmented reality applications
CN110737335B (zh) 机器人的交互方法、装置、电子设备及存储介质
Kühnel Quantifying quality aspects of multimodal interactive systems
WO2016206645A1 (zh) 为机器装置加载控制数据的方法及装置
Li et al. " BIRON, let me show you something": evaluating the interaction with a robot companion
US20200257954A1 (en) Techniques for generating digital personas
Schröder The SEMAINE API: A component integration framework for a naturally interacting and emotionally competent Embodied Conversational Agent
WO2017200077A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP2023120130A (ja) 抽出質問応答を利用する会話型aiプラットフォーム
Oka et al. Directing humanoids in a multi-modal command language
Ceralli ANALYSIS AND COMPARISON OF SPEECH-BASED TELEPORTATION TECHNIQUES FOR IMMERSIVE VIRTUAL REALITY
CN118092722A (zh) 云会议互动方法、云会议服务器、设备及介质
CN113468042A (zh) 人机交互测试系统和方法
Pettersson et al. Perspectives on Ozlab in the cloud: A literature review of tools supporting Wizard-of-Oz experimentation, including an historical overview of 1971-2013 and notes on methodological issues and supporting generic tools

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130807

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A072

Effective date: 20130924

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150512

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150811

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150914

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160926

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170411

R150 Certificate of patent or registration of utility model

Ref document number: 6129073

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150