JP2005022065A - 音声対話装置及び方法並びにロボット装置 - Google Patents

音声対話装置及び方法並びにロボット装置 Download PDF

Info

Publication number
JP2005022065A
JP2005022065A JP2003270835A JP2003270835A JP2005022065A JP 2005022065 A JP2005022065 A JP 2005022065A JP 2003270835 A JP2003270835 A JP 2003270835A JP 2003270835 A JP2003270835 A JP 2003270835A JP 2005022065 A JP2005022065 A JP 2005022065A
Authority
JP
Japan
Prior art keywords
conversation
dialogue
recognition
partner
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003270835A
Other languages
English (en)
Other versions
JP2005022065A5 (ja
JP4048492B2 (ja
Inventor
Kazumi Aoyama
一美 青山
Hideki Shimomura
秀樹 下村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003270835A priority Critical patent/JP4048492B2/ja
Priority to DE602004004324T priority patent/DE602004004324T2/de
Priority to EP04015506A priority patent/EP1494210B1/en
Priority to CNB2004100855082A priority patent/CN1312576C/zh
Priority to US10/882,360 priority patent/US8209179B2/en
Priority to CN2007100856784A priority patent/CN101030370B/zh
Priority to KR1020040051548A priority patent/KR101057705B1/ko
Publication of JP2005022065A publication Critical patent/JP2005022065A/ja
Priority to HK05103181A priority patent/HK1070727A1/xx
Publication of JP2005022065A5 publication Critical patent/JP2005022065A5/ja
Application granted granted Critical
Publication of JP4048492B2 publication Critical patent/JP4048492B2/ja
Priority to US13/473,272 priority patent/US8321221B2/en
Priority to US13/667,978 priority patent/US8538750B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manipulator (AREA)
  • Toys (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】
本発明は、エンターテインメント性を格段と向上し得る音声対話装置及び方法並びにロボット装置を実現するものである。
【解決手段】
対話相手と対話するための機能を有する音声対話装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにした。
【選択図】 図8

Description

本発明は、音声対話装置及び方法並びにロボット装置に関し、例えばエンターテインメントロボットに適用して好適なものである。
近年、一般家庭向けのエンターテインメントロボットが数多く商品化されている。そしてこのようなエンターテインメントロボットの中には、CCD(Charge Coupled Device)カメラやマイクロホン等の各種外部センサが搭載され、これら外部センサの出力に基づいて外部状況を認識し、認識結果に基づいて自律的に行動し得るようになされたものなどもある。
このようなエンターテインメントロボットにおいては、撮像された画像内から人物の顔を抽出して、当該顔をトラッキングしながら特定の個人を識別するような顔識別機能が搭載されたものや、例えば人間同士が日常的に行う対話と同様の対話をユーザとの間で行い得るような音声対話機能が搭載されたものが提案されている。
(例えば、特許文献1参照)。
特開平2003−062777号公報(第2頁〜第3頁、図1)
ところで、このようなエンターテインメントロボットにおいては、対話中にその相手が現在その場に存在するか否かを常に判断する必要があり、また現在その相手と対話中であるか否かを判断する必要がある。
しかし、現在の環境が非常に暗い場合には、対話相手の顔の色や輪郭が不明瞭となり易く、上述の顔認識機能が十分に発揮し得ないおそれがある。この場合にロボットは、自己の目前に対話相手が存在するにもかかわらず、その存在がないと判断して対話を止めてしまうおそれがあった。
また対話中にテレビジョンやラジオからの再生音が流れている場合には、対話相手がロボットに対して何も発話していなくても、上述の音声対話機能では、当該再生音と対話相手からの発話音とを区別することができず、この結果、ロボットは目前の相手が対話していないにもかかわらず、一方的に独り言を話し続けるおそれがある。
このためロボットが、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができれば、人間が普段行う場合と同様に、その自然性から考えて非常に望ましく、エンターテインメントロボットとしてのエンターテインメント性をより一層向上させ得るものと考えられる。
本発明は以上の点を考慮してなされたもので、エンターテインメント性を格段と向上し得る音声対話装置及び方法並びにロボット装置を提案しようとするものである。
かかる課題を解決するため本発明においては、対話相手と対話するための機能を有する音声対話装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにした。
この結果この音声対話装置では、各種認識処理の認識結果に基づいて、対話相手の存在を追跡しながら、対話相手と対話するようにして、対話相手の存在を総合的に判断するようにして、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することにより、人間が普段行う場合と同様な自然な対話を行うことができる。
また本発明においては、対話相手と対話するための機能を有する音声対話方法において、対話相手の発話を音声認識して得られる音声認識結果、及び当該対話相手の顔を画像認識して得られる画像認識結果の双方又は一方に基づいて、対話相手の存在を追跡する第1のステップと、当該追跡に合わせて、音声認識結果に基づき得られる対話相手との対話を続けるように制御する第2のステップとを設けるようにした。
この結果この音声対話方法では、各種認識処理の認識結果に基づいて、対話相手の存在を追跡しながら、対話相手と対話するようにして、対話相手の存在を総合的に判断するようにして、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することにより、人間が普段行う場合と同様な自然な対話を行うことができる。
さらに本発明においては、対話相手と対話するための機能を有する音声対話装置を含むロボット装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにした。
この結果このロボット装置では、各種認識処理の認識結果に基づいて、対話相手の存在を追跡しながら、対話相手と対話するようにして、対話相手の存在を総合的に判断するようにして、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することにより、人間が普段行う場合と同様な自然な対話を行うことができる。
上述のように本発明によれば、対話相手と対話するための機能を有する音声対話装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにしたことにより、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができ、この結果、人間が普段行う場合と同様な自然な対話を行うことができ、かくしてエンターテインメント性を格段と向上し得る音声対話装置を実現できる。
また本発明によれば、対話相手と対話するための機能を有する音声対話方法において、対話相手の発話を音声認識して得られる音声認識結果、及び当該対話相手の顔を画像認識して得られる画像認識結果の双方又は一方に基づいて、対話相手の存在を追跡する第1のステップと、当該追跡に合わせて、音声認識結果に基づき得られる対話相手との対話を続けるように制御する第2のステップとを設けるようにしたことにより、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができ、この結果、人間が普段行う場合と同様な自然な対話を行うことができ、かくしてエンターテインメント性を格段と向上し得る音声対話方法を実現できる。
さらに本発明によれば、対話相手と対話するための機能を有する音声対話装置を含むロボット装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにしたことにより、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができ、この結果、人間が普段行う場合と同様な自然な対話を行うことができ、かくしてエンターテインメント性を格段と向上し得るロボット装置を実現できる。
以下図面について、本発明の一実施の形態を詳述する。
(1)本実施の形態によるロボット1の構成
(1−1)ロボット1のハードウェア構成
図1は、本実施の形態によるロボット1の機能構成を模式的に示したものである。この図1に示すように、ロボット1は、全体の動作の統括的制御やその他のデータ処理を行う制御ユニット2と、入出力部3と、駆動部4と、電源部5とで構成される。
入出力部3は、入力部としてロボット1の目に相当するCCD(Charge Coupled Device)カメラ10や、耳に相当するマイクロホン11、頭部や背中などの部位に配設されてユーザの接触を感知するタッチセンサ12、あるいは五感に相当するその他の各種のセンサを含む。また、出力部として、口に相当するスピーカ13、あるいは点滅の組み合わせや点灯のタイミングにより顔の表情を形成するLEDインジケータ(目ランプ)14などを装備している。これら出力部は、音声やランプの点滅など、脚などによる機械運動パターン以外の形式でもロボット1からのユーザ・フィードバックを表現することができる。
駆動部4は、制御ユニット2が指令する所定の運動パターンに従ってロボット1の機体動作を実現する機能ブロックであり、行動制御による制御対象物である。駆動部4は、ロボット1の各関節における自由度を実現するための機能モジュールであり、それぞれの関節におけるロール、ピッチ、ヨーなど各軸毎に設けられた複数の駆動ユニット15〜15で構成される。各駆動ユニット15〜15は、所定軸回りの回転動作を行うモータ16〜16と、モータ16〜16の回転位置を検出するエンコーダ17〜17と、エンコーダ17〜17の出力に基づいてモータ16〜16の回転位置や回転速度を適応的に制御するドライバ18〜18の組み合わせで構成される。
駆動ユニットの組み合わせ方によって、ロボット1を例えば2足歩行又は4足歩行などの脚式移動ロボットとして構成することができる。
電源部5は、その字義通り、ロボット1内に各電気回路などに対して給電を行う機能モジュールである。本実施形態に係るロボット1は、バッテリを用いた自律駆動式であり、電源部5は、充電バッテリ19と、充電バッテリ20の充放電状態を管理する充放電制御部31とで構成される。
充電バッテリ19は、例えば、複数本のリチウムイオン2次電池セルをカートリッジ式にパッケージ化した「バッテリ・パック」の形態で構成される。
また、充放電制御部20は、バッテリ19の端子電圧や充電/放電電流量、バッテリ19の周囲温度などを測定することでバッテリ19の残存容量を把握し、充電の開始時期や終了時期などを決定する。充放電制御部20が決定する充電の開始及び終了時期は制御ユニット2に通知され、ロボット1が充電オペレーションを開始及び終了するためのトリガとなる。
制御ユニット2は、「頭脳」に相当し、例えばロボット1の機体頭部あるいは胴体部に搭載されている。
制御ユニット2においては、図2に示すように、メイン・コントローラとしてのCPU(Central Processing Unit)21が、メモリやその他の各回路コンポーネントや周辺機器とバス接続された構成となっている。バス27は、データ・バス、アドレス・バス、コントロール・バスなどを含む共通信号伝送路である。バス27上の各装置にはそれぞれに固有のアドレス(メモリ・アドレス又はI/Oアドレス)が割り当てられている。CPU21は、アドレスを指定することによってバス27上の特定の装置と通信することができる。
RAM(Read Access Memory)22は、DRAM(Dynamic RAM)などの揮発性メモリで構成された書き込み可能メモリであり、CPU21が実行するプログラム・コードをロードしたり、実行プログラムによる作業データの一時的な保存のために使用される。
ROM(Read Only Memory)23は、プログラムやデータを恒久的に格納する読み出し専用メモリである。ROM23に格納されるプログラム・コードには、ロボット1の電源投入時に実行する自己診断テスト・プログラムや、ロボット1の動作を規定する制御プログラムなどが挙げられる。
ロボット1の制御プログラムには、CCDカメラ10やマイクロホン11などのセンサ入力を処理してシンボルとして認識する「センサ入力・認識処理プログラム」、短期記憶や長期記憶などの記憶動作を司りながらセンサ入力と所定の行動制御モデルとに基づいてロボット1の行動を制御する「行動制御プログラム」、行動制御モデルに従って各関節モータの駆動やスピーカ12の音声出力などを制御する「駆動制御プログラム」などが含まれる。
不揮発性メモリ24は、例えばEEPROM(Electrically Erasable and Programmable ROM)のように電気的に消去再書き込みが可能なメモリ素子で構成され、逐次更新すべきデータを不揮発的に保持するために使用される。逐次更新すべきデータには、暗記鍵やその他のセキュリティ情報、出荷後にインストールすべき装置制御プログラムなどが挙げられる。
インターフェース25は、制御ユニット2外の機器と相互接続し、データ交換を可能にするための装置である。インターフェース25は、例えば、入出力部3内のカメラ10やマイクロホン11、スピーカ12との間でデータ入出力を行う。また、インターフェース25は、駆動部4内の各ドライバ18〜18との間でデータやコマンドの入出力を行う。
また、インターフェース25は、RS(Recommended Standard)−232Cなどのシリアル・インターフェース、IEEE(Institute of Electrical and Electronics Engineers )1284などのパラレル・インターフェース、USB(Universal Serial Bus)インターフェース、i−Link(IEEE1394)インターフェース、SCSI(Small
Computer System Interface )インターフェース、PCカードやメモリ・スティックを受容するメモリ・カードインターフェース(カードスロット)などのような、コンピュータの周辺機器接続用の汎用インターフェースを備え、ローカル接続された外部機器との間でプログラムやデータの移動を行い得るようにしてもよい。
また、インターフェース25の他の例として、赤外線通信(IrDA)インターフェースを備え、外部機器と無線通信を行うようにしてもよい。
さらに、制御ユニット2は、無線通信インターフェース26やネットワーク・インターフェース・カード(NIC)28などを含み、Bluetoothのような近接無線データ通信や、IEEE802.11bのような無線ネットワーク、あるいはインターネットなどの高域ネットワークを経由して、外部のさまざなホスト・コンピュータとデータ通信を行うことができる。
このようなロボット1とホスト・コンピュータ間におけるデータ通信により、遠隔のコンピュータ資源を用いて、ロボット1の複雑な動作制御を演算したり、リモート・コントロールすることができる。
(1−2)ロボット1のソフトウェア構成
図3は、ROM23に格納された制御プログラム群により構成されるロボット1の行動制御システム30の機能構成を模式的に示したものである。ロボット1は、外部刺激の認識結果や内部状態の変化に応じて行動制御を行うことができる。さらには、長期記憶機能を備え、外部刺激から内部状態の変化を連想記憶することにより、外部刺激の認識結果や内部状態の変化に応じて行動制御を行うことができる。
この行動制御システム30は、オブジェクト指向プログラミングを採り入れて実装されている。この場合、各ソフトウェアは、データとそのデータに対する処理手続きとを一体化させた「オブジェクト」というモジュール単位で扱われる。また、各オブジェクトは、メッセージ通信と共有メモリを使ったオブジェクト間通信方法によりデータの受け渡しとInvokeを行うことができる。
行動制御システム30は、入出力部3におけるCCDカメラ10、マイクロホン11及びタッチセンサ13の各センサ出力に基づいて外部環境を認識するために、視覚認識機能部31と、聴覚認識機能部32と、接触認識機能部33を備えている。
視覚認識機能部31は、CCDカメラ10のセンサ出力でなる画像信号に基づいて顔認識や色認識などの画像認識処理や特徴抽出を実行する。そして視覚認識機能部31は、かかる顔認識結果であるその人物に固有の顔ID(識別子)や、顔画像領域の位置及び大きさなどの情報と、色認識結果である色領域の位置や大きさ、特徴量などの情報とを出力する。
聴覚認識機能部32は、マイクロホン11のセンサ出力でなる音声信号に基づいて音声認識や話者認識などの各種音に関する認識処理を実行する。そして聴覚認識機能部部32は、かかる音声認識結果である認識した単語の文字列情報と、音響的特徴等に基づく話者認識処理結果であるその話者に固有の話者ID情報となどを出力する。
接触認識機能部33は、タッチセンサ13のセンサ出力でなる圧力検出信号に基づいて「なでられた」、「叩かれた」という外部刺激を認識し、認識結果を出力する。
内部状態管理部34は、本能や感情といった数種類の情動を数式モデル化して管理しており、視覚認識機能部31と、聴覚認識機能部32と、接触認識機能部33によって認識された外部刺激に応じてロボット1の本能や情動といった内部状態を管理する。
一方、行動制御システム30においては、外部刺激の認識結果や内部状態の変化に応じて行動制御を行うために、時間の経過とともに失われる短期的な記憶を行う短期記憶部35と、情報を比較的長期間保持するための長期記憶部36を備えている。短期記憶と長期記憶という記憶メカニズムの分類は神経心理学に依拠する。
短期記憶部35は、視覚認識機能部31と、聴覚認識機能部32と、接触認識機能部33によって認識されたターゲットやイベントを短期間保持する機能モジュールである。例えば、CCDカメラ10からの入力画像を約15秒程度の短い期間だけ記憶する。
また長期記憶部36は、物の名前など学習により得られた情報を長期間保持するために使用されるものであり、制御ユニット2(図2)内のRAM22や不揮発性メモリ24が利用される。
さらに行動制御システム30により生成されるロボット1の行動は、反射行動部39によって実現される「反射行動」と、状況依存行動階層38によって実現される「状況依存行動」と、熟考行動階層37によって実現される「熟考行動」に大別される。
反射的行動部39は、視覚認識機能31と、聴覚認識機能部32と、積極認識機能部33によって認識された外部刺激に応じて反射的な機体動作を実現する機能モジュールである。
反射行動とは、基本的にセンサ入力された外部情報の認識結果を直接受けて、これを分類して、出力行動を直接決定する行動のことである。例えば、人間の顔を追いかけたり、うなずくといった振る舞いは反射行動として実装することが好ましい。
状況依存行動階層38は、短期記憶部35並びに長期記憶部36の記憶内容や、内部状態管理部34によって管理される内部状態を基に、ロボット1が現在置かれている状況に即応した行動を制御する。
状況依存行動階層38は、各行動毎にステートマシンを用意しており、それ以前の行動や状況に依存して、センサ入力された外部情報の認識結果を分類して、行動を機体上で発現する。また、状況依存行動階層38は、内部状態をある範囲に保つための行動(「ホメオスタシス行動」とも呼ぶ)も実現し、内部状態が指定した範囲内を超えた場合には、その内部状態を当該範囲内に戻すための行動が出現し易くなるようにその行動を活性化させる(実際には、内部状態と外部環境の両方を考慮した形で行動が選択される)。状況依存行動は、反射行動に比し、反応時間が遅い。
熟考行動階層37は、短期記憶部35並びに長期記憶部36の記憶内容に基づいて、ロボット1の比較的長期にわたる行動計画などを行う。
熟考行動とは、与えられた状況あるいは人間からの命令により、推論やそれを実現するための計画を立てて行われる行動のことである。例えば、ロボットの位置と目標の位置から経路を検索することは熟考行動に相当する。このような推論や計画は、ロボット1がインタラクションを保つための反応時間よりも処理時間や計算負荷を要する(すなわち処理時間がかかる)可能性があるので、かかる反射行動や状況依存行動がリアルタイムで反応を返しながら、熟考行動は推論や計画を行う。
熟考行動階層37や状況依存行動階層38、反射行動部39は、ロボット1のハードウェア構成に非依存の上位のアプリケーション・プログラムとして記述することができる。これに対し、ハードウェア依存層制御部40は、これら上位アプリケーションからの命令に応じて、入出力部3のスピーカ12を介して音声を出力させたり、LED14を所定パターンで点滅駆動したり、駆動部4の対応する駆動ユニット15〜15を駆動させる。
(1−3)内部状態管理部34の構成
ここで、かかる行動制御システム30の構成要素のうち、後述する対話制御機能に直接関連する内部状態管理部34の構成について説明する。
内部状態管理部34は、上述のように数式モデル化された本能及び感情を管理しており、これら本能及び感情の状態を視覚認識機能部31、聴覚認識機能部32及び接触認識機能部33によって認識された外部刺激に応じて変化させている。
この場合、かかる本能を構成する本能的要素としては、疲れ(fatigue)、熱或いは体内温度(temperature)、痛み(pain)、食欲或いは飢え(hunger)、乾き(thirst)、愛情(affection)、好奇心(curiosity)、排泄(elimination)及び性欲(sexual)等といった9個の本能的要素があり、かかる感情を構成する情動的要素として、幸せ(happiness)、悲しみ(sadness)、怒り(anger)、驚き(surprise)、嫌悪(disgust)、恐れ(fear)、苛立ち(frustration)、退屈(boredom)、睡眠(somnolence)、社交性(gregariousness)、根気(patience)、緊張(tense)、リラックス(relaxed)、警告(alertness)、罪(guilt)、悪意(spite)、誠実さ(loyalty)、服従性(submission)及び嫉妬(jealousy)等といった18個の情動的要素がある。
そして内部状態管理部34は、これら各本能的要素及び各情動的要素をそれぞれその要素の強さを表すパラメータとして保持しており、これら各要素のパラメータ値を視覚認識機能部31、聴覚認識機能部32及び接触認識機能部33の認識結果と、経過時間となどに基づいて周期的に更新することにより、ロボット1の本能及び感情を時々刻々と変化させている。
具体的に、内部状態管理部34は、各本能的要素について、視覚認識機能部31、聴覚認識機能部32及び接触認識機能部33の認識結果と、経過時間となどに基づいて所定の演算式により算出されるそのときのその本能的要素の変動量をΔI〔k〕、現在のその本能的要素のパラメータ値をI〔k〕、その本能的要素の感度を表す係数をkiとして、所定周期で次式
Figure 2005022065
を用いて次の周期におけるその本能的要素のパラメータ値I〔k+1〕を算出し、この演算結果を現在のその本能的要素のパラメータ値I〔k〕と置き換えるようにしてその本能的要素のパラメータ値を更新する。
また内部状態管理部34は、各情動的要素について、視覚認識機能部31、聴覚認識機能部32及び接触認識機能部33の認識結果と、そのときのロボット1の行動と、前回更新してからの経過時間となどに基づき所定の演算式により算出されるそのときのその情動的要素の変動量をΔE〔t〕、現在のその情動的要素のパラメータ値をE〔t〕、その情動的要素の感度を表す係数をkeとして、次式
Figure 2005022065
を用いて次の周期におけるその情動的要素のパラメータ値E〔t+1〕を算出し、これを現在のその情動的要素のパラメータ値と置き換えるようにしてその情動的要素のパラメータ値を更新する。
なお、視覚認識機能部31、聴覚認識機能部32及び接触認識機能部33の認識結果等が各本能的要素や各情動的要素にどのような影響を与えるかは予め定められており、例えば接触認識機能部33による「撫でられた」という認識結果は本能的要素のうちの「愛情」のパラメータ値の変動量ΔI〔k〕と、情動的要素の「幸せ」のパラメータ値の変動量ΔE〔t〕とに大きな影響を与えるようになされている。
(2)ロボット1におけるトラッキングによる対話制御機能
このロボット1には、ユーザと対話を行い得る対話制御機能と、その対話相手であるユーザの存在を追跡し得るトラッキング機能とが搭載されており、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができるようになされている。
(2−1)ロボット1における対話制御機能
まず、このロボット1に搭載された対話制御機能について説明する。
このロボット1には、ユーザとの対話を通じてそのユーザや他の対象物(以下、これをまとめてユーザ等と呼ぶ)の名前や誕生日、好きなもの等の予め定められた幾つかの項目に関する情報(以下、これをその項目の値と呼ぶ)を獲得し、これを例えば図4に示す所定フォーマットで記憶すると共に、これら記憶している各項目の値を利用しながらそのユーザと対話を行い得る対話制御機能が搭載されている。
なお、図4において、列は、予め定められた各項目(「名前(Name)」、「種類(Kind)」、「顔ID(FaceID)」、「話者ID(SpeakerID)」、「誕生日(BIRTHDAY)」、「好きなもの(Favorite)」及び「友人(Friend)」)に対する値(「ゆきこ」、「人間」、「0」、「1」、「73/5/2」、「紅茶」、「かずみ」等)を示し、行は、1つの対象物について獲得した各項目の値を示す。また各行の最初の数字は、その対象物を最初に登録する際に付与されるその対象物のID(対象物ID)を示す。
この図4では、既に各対象物に関する全ての項目の値が獲得された後の状態を示しているが、各項目のうち、「名前(Name)」、「話者ID(SpeakerID)」「誕生日(BIRTHDAY)」、「好きなもの(Favorite)」及び「友人(Friend)」については、ユーザとの対話時における聴覚認識機能部32の各種音声認識処理により獲得され、「顔ID(FaceID)」及び「種類(Kind)」については、ユーザとの対話時における視覚認識機能部31の各種画像認識処理等により獲得されて、記憶されることとなる。
またこの図4において、各値の左側に記述された数値はその値に対する印象度を表す。この印象度はロボット1がその話題を今後会話に利用しても良いか否かの尺度となるものであり、例えば図4の例では、この印象度が高いほど印象が良く(次に話したくなる)、低いほど印象が悪い(話したがらない)ことを表す。
本実施の形態においては、印象度は、その項目の値を獲得する直前の内部状態管理部34における「愛情」のパラメータ値と、その項目の値を獲得した直後の当該「愛情」のパラメータ値との差分をとって付与する。
ここで、かかる対話制御機能は、主として図3について上述した行動制御システム30における状況依存行動階層38の処理により行われる。そして、この対話制御機能に関しては、図5に示すように、状況依存行動階層38内の対話制御部38Aにより行われる。
この対話制御部38Aの処理内容を機能的に分類すると、図5に示すように、ユーザ等についての各項目の値を獲得するための会話(以下、これを獲得会話と呼ぶ)を生成する記憶獲得会話生成部50と、獲得したそのユーザ等についての各項目の値を利用した会話(以下、これを利用会話と呼ぶ)を生成する記憶利用会話生成部51と、これら記憶獲得会話生成部50及び記憶利用会話生成部51の制御を司る状況判断部52とに分けることができる。
この場合、状況判断部52は、短期記憶部35(図3)を介して得られる視覚認識機能部31の認識結果や聴覚認識機能部32の認識結果に基づいて、対話相手となり得るユーザの存在を認識すると、図6に示すように、このとき視覚認識機能部31や聴覚認識機能部32の認識結果として得られるそのユーザの顔IDや話者IDを記憶獲得会話生成部50及び記憶利用会話生成部51に送出すると共に、これら記憶獲得会話生成部50及び記憶利用会話生成部51のそれぞれに対して獲得会話又は利用会話の生成が可能か否かを問い合わせる(ステップSP1A、ステップSP1B)。
このとき記憶獲得会話生成部50及び記憶利用会話生成部51は、予め定められた所定の話題生成ルール及び話題利用方法決定ルールに従って、話題の生成と、生成された話題をどのように利用して獲得会話又は利用会話を生成するかという話題の利用方法とを決定する会話生成処理を実行する(ステップSP2A、ステップSP2B)。
ここで、本実施の形態の場合、かかる話題生成ルールとして、6つのルールがある。
第1の話題生成ルールは、直前の会話で使用した話題と同じ対象物の別の任意の項目を次の話題として選択するルールであり、本実施の形態においては、印象度が最も大きい項目から順に選択する。例えば図4において直前の会話の話題が『対象物ID1』の『誕生日(BIRTHDAY)』であった場合に、同じ『対象物ID1』の他の項目の中から印象度が最も大きい項目を次の会話の話題とする場合が該当する。
また第2の話題生成ルールは、直前の会話で使用した話題と同じ対象物の関連のある項目を次の話題として選択するルールであり、例えば図4において直前の会話の話題が『対象物ID1』の『好きなもの(Favorite)』であった場合に、『対象物ID1』の『嫌いなもの(Dislike)』を次の会話の話題とする場合が該当する。
さらに第3の話題生成ルールは、直前の会話で使用した話題の項目の値から特定できる対象物の別のいずれかの項目を次の話題として選択するルールであり、本実施の形態においては、印象度が高い対象物から順に次の対象物とする。例えば図4において直前の会話の話題が『対象物ID1』の『友人(Friend)』であった場合に、その『友人(Friend)』である『対象物ID2』のいずれかの項目を次の会話の話題とする場合が該当する。
一方、第4の話題生成ルールは、直前の会話で使用した話題と同じ対象物の同じ項目を次の話題として選択するルールであり、例えば図4において直前の会話の話題が『対象物ID1』の『誕生日(BIRTHDAY)』であった場合に、同じ『対象物ID1』の同じ『誕生日(BIRTHDAY)』を次の会話の話題とする場合が該当する。
また第5の話題生成ルールは、直前の会話で使用した話題における項目の値と同じ値を有する別の対象物の同じ項目を次の話題として選択するルールであり、例えば図4において直前の会話の話題が『対象物ID1』の『好きなもの(Favorite)』であった場合に、『好きなもの(Favorite)』の値が同じ『紅茶』である『対象物ID3』の『好きなもの(Favorite)』を次の会話の話題とする場合が該当する。
さらに第6の話題生成ルールは、直前の会話で使用した話題における項目の値と関連のある値を有する別の対象物の項目を次の話題として選択するルールであり、例えば図4において直前の会話の話題が『対象物ID1』の『好きなもの(Favorite)』であった場合に、その『好きなもの(Favorite)』である『うま』から『競馬』を『好きなもの(Favorite)』の値とする『対象物ID6』を選択として、この『対象物ID6』の『好きなもの(Favorite)』を次の会話の話題とする場合が該当する。
さらに第7の話題生成ルールは、直前の会話で使用した話題と同じ項目で別の対象物を次の話題として選択するルールであり、例えば図4において直前の会話の話題が『対象物ID1』の『好きなもの(Favorite)』であった場合に、『対象物ID2』の『好きなもの(Favorite)』を次の会話の話題とする場合が該当する。
なおこれら第1〜第7の話題生成ルールのうち、第1〜第3の話題生成ルールは獲得会話の生成時及び利用会話の生成時の双方において利用することができ、第3〜第7の話題生成ルールは獲得会話の生成時には利用できないが、利用会話の生成時には有効である。
従って、記憶獲得会話生成部50は、これら第1〜第3の話題生成ルールの中から1つをランダム(任意)に選択し、記憶利用会話生成部51は、これら第1〜第7の話題生成ルールの中から1つをランダムに選択して、当該選択した話題生成ルールに従って、例えば直前の会話の話題が『対象物ID1の好きなもの(Favorite)』であった場合に、『対象物ID1の友人(Friend)』、『対象物ID1の嫌いなもの(Dislike)』、『対象物ID2の誕生日(BIRTHDAY)』、『対象物ID1の誕生日(BIRTHDAY)』、『対象物ID3の好きなもの(Favorite)』又は『対象物ID6の好きなもの(Favorite)』というかたちで次の会話の話題を生成することとなる。
一方、本実施の形態においては、話題利用方法決定ルールとして、3つのルールがある。
この場合、第1の話題利用方法決定ルールは、長期記憶部36が記憶している対応する項目の値をそのまま利用して発話を生成するルールであり、例えば話題として『対象物ID1の好きなもの(Favorite)』が生成された場合に、『ゆきこの好きなものって紅茶だよね。』や、『ゆきこの好きなものってなに?』といった発話を生成する場合が該当する。
また第2の話題利用方法決定ルールは、長期記憶部36が記憶している対応する項目の値からデータベースを検索して関連する事項を読み出し、これを利用して発話を生成するルールであり、例えば話題として『対象物ID1の誕生日(BIRTHDAY)』が生成された場合に、その『誕生日(BIRTHDAY)』の値である『73/5/2』をキーワードとして記念日データベースを検索し、得られた『交通広告の日』という事項を利用して、『5月2日は交通広告の日なんだよ。』といった発話を生成する場合が該当する。
さらに第3の話題利用方法決定ルールは、長期記憶部36が記憶している対応する項目の値から計算又は連想等される関連する値でデータベースを検索してさらに関連する事項を読み出し、これを利用して発話を生成するルールであり、例えば話題として『対象物ID1の誕生日(BIRTHDAY)』が生成された場合に、その『誕生日(BIRTHDAY)』の値である『73/5/2』から計算される『おうし座』をキーワードとして星占いデータベースを検索し、得られた『我慢強い』という事項を利用して『おうし座は我慢強い人なんだよ。』といった発話を生成する場合が該当する。
なおこれら第1〜第3の話題利用方法決定ルールのうち、第1の話題利用方法決定ルールは獲得会話の生成時及び利用会話の生成時の双方において利用することができ、第2及び第3の話題利用方法決定ルールは獲得会話の生成時には利用できないが、利用会話の生成時には有効である。
従って、記憶獲得会話生成部50は、第1の話題利用方法決定ルールを選択し、記憶利用会話生成部51は、第1〜第3の話題利用方法決定ルールの中から1つをランダムに選択して、当該選択した話題利用方法決定ルールに従って情報獲得のための発話や獲得した情報を利用した発話を生成することとなる。
そしてこれら記憶獲得会話生成部50及び記憶利用会話生成部51は、かかる話題生成処理により話題の生成及びその利用方法の決定が行えたときには、その旨並びにその話題及び利用方法を状況判断部52に通知する一方、かかる話題の生成等ができなかったときは、その旨を状況判断部52に通知する(ステップSP3A、ステップSP3B)。
一方、状況判断部52は、記憶獲得会話生成部50及び記憶利用会話生成部51の両方から話題の生成及びその利用方法の決定が行えた旨の通知が与えられたときには、そのときのその対話相手の全項目数に対する未だ値を獲得していない項目数の度合いでなる第1の度合いと、その対話相手の全項目数に対する既に値を獲得した項目数の度合いでなる第2の度合いとに基づいて、記憶獲得会話生成部50及び記憶利用会話生成部51のいずれか一方を選択する(ステップSP4)。
より具体的には、状況判断部52は、第1の度合いが第2の度合い以上のときには記憶獲得会話生成部50を選択し、第1の度合いが第2の度合いよりも小さいときには記憶利用会話生成部51を選択する。
そして状況判断部52は、この後このようにしていずれか一方を選択すると、その選択した記憶獲得会話生成部50又は記憶利用会話生成部51に対し、その話題及び利用方法に基づいて獲得会話又は利用会話を生成する処理(以下、これを会話生成処理と呼ぶ)を開始するよう指示を与える(ステップSP5)。
また状況判断部52は、記憶獲得会話生成部50及び記憶利用会話生成部51のいずれか一方からのみ話題及びその利用方法の通知が与えられたときにも、その記憶獲得会話生成部50又は記憶利用会話生成部51に対し、その話題及び利用方法に基づいて会話生成処理を開始するよう指示を与える(ステップSP5)。
かくして、かかる指示が与えられた記憶獲得会話生成部50又は記憶利用会話生成部51は、会話生成処理を開始し、まず内部状態管理部34にアクセスして本能的要素のうちの「愛情」のパラメータ値を取得し、この後上述のようにして決定した話題及びその利用方法に基づき生成される、情報を獲得するための発話(以下、これを獲得発話と呼ぶ)又は獲得した情報を利用した発話(以下、これを利用発話と呼ぶ)を含む一連の発話からなる獲得会話又は利用会話を行うための各発話内容の文字列データD1をハードウェア依存行動制御部40内の音声合成部40Aに順次送出する。
この結果、この文字列データD1に基づいて音声合成部40Aにおいて音声信号S1が生成され、これがスピーカ12(図1)に与えられることにより、例えば『ゆきこの好きなものってなに?』といった獲得発話を含む一連の発話からなる獲得会話を形成する各発話内容の音声や、『ゆきこの好きなものって紅茶だよね!』といった利用発話を含む一連の発話からなる利用会話を形成する各発話内容の音声がスピーカ12から出力されることとなる(ステップSP6)。
そしてこのとき、その話題に対するユーザの応答がマイクロホン11により集音されて行動制御システム30(図3)の聴覚認識機能部32に与えられ、当該聴覚認識機能部32により音声認識される。
かくして、ステップSP4において選択されていたのが記憶獲得会話生成部50であった場合、当該記憶獲得会話生成部50は、この聴覚認識機能部32音声認識結果に基づいて、獲得発話に対するユーザの応答の中から当該獲得発話に基づく質問の答え(すなわち、そのとき獲得しようとしていた項目の値)を抽出し、これを例えば図4について上述したフォーマットで長期記憶部36に記憶させる(ステップSP6)。
またこれと共に記憶獲得会話生成部50は、内部状態管理部34にアクセスしてこのときの「愛情」のパラメータ値を取得し、当該取得したパラメータ値と、会話の直前に取得した同じ「愛情」のパラメータ値との差分を計算し、当該計算結果をかかるユーザ等の上述のようにして獲得した項目の値の印象度として、当該値と対応付けて長期記憶部34に記憶させる(ステップSP6)。
一方、記憶獲得会話生成部50又は記憶利用会話生成部51は、獲得会話又は利用会話が終了すると、これを知らせる通知を状況判断部52に送出する(ステップSP7)。そして状況判断部52は、かかる通知を受け取ると、ステップSP4において選択した記憶獲得会話生成部50又は記憶利用会話生成部51からステップSP3A又はステップSP3Bにおいて通知された話題及びその利用方法を記憶獲得会話生成部50及び記憶利用会話生成部51にそれぞれ通知する(ステップSP8A、ステップSP8B)。
かくして記憶獲得会話生成部50及び記憶利用会話生成部51は、この通知された話題及びその利用法を会話履歴として記憶し(ステップSP9A、ステップSP9B)、この後同じ対話相手との1度の対話において、同じ話題を使用しないように、当該対話が終了するまで上述と同様にして順次獲得会話又は利用会話を生成する(ステップSP10A−ステップSP1A〜ステップSP10A、ステップSP10B−ステップSP1B〜ステップSP10B)。
このようにしてこのロボッ1トにおいては、ユーザに関する各種情報を自然なかたちで順次獲得すると共にこれを利用しつつ、自然な流れで話題を順次遷移させながら、そのユーザに特化した話題の対話を行い得るようになされている。
(2−2)ロボット1におけるトラッキング機能
次に、このロボット1に搭載されたトラッキング機能について説明する。
このロボット1には、対話相手の存在を確実に追跡し得るトラッキング機能が搭載されている。かかるトラッキング機能は、主として図3について上述した行動制御システム30における状況依存行動階層38の処理により行われる。そして、このトラッキング機能に関しては、上述した図5に示すように、状況依存行動層38内のトラッキング制御部38Bにより行われる。
このトラッキング制御部38Bの処理内容を機能的に分類すると、図5に示すように、視覚認識機能部31、聴覚認識機能部32及び接触認識機能部33の認識結果を統合する認識統合部55と、当該認識統合部55の統合結果に基づいて、対話相手の位置を予測する予測部56とに分けることができる。
この場合、認識統合部55は、視覚認識機能部31の認識結果、聴覚認識機能部32の認識結果及び接触認識機能部33の認識結果に基づいて、対話相手の顔画像、発声音及び接触状態の観点から当該対話相手の存在を認識する。
すなわち、視覚認識機能部31は、CCDカメラ10のセンサ出力でなる画像信号に基づいて行う画像認識処理のうち、肌色認識、顔認識及び個人認識の3種類の認識処理を、肌色認識処理、顔認識処理及び個人認識処理の順番で段階的に行うことにより、当該各認識処理の結果を認識統合部55に送出する。
これら肌色認識、顔認識及び個人認識の各認識処理は、それぞれ人間の顔を認識するにあたって認識レベルが異なり、このうち対象となる人物が誰であるのかを特定する個人認識処理が最も認識が困難であるため上位となり、次に人間等の顔であるか否かを認識する顔認識処理が中位となり、最も認識が容易な肌色認識処理が下位となる。
具体的に視覚認識機能部31は、画像信号に基づく画像から肌色領域を検出して、当該検出結果に基づき、画像内の対象物が人間の顔であるか否かを判断する。そして視覚認識機能部31は、人間の顔であると判断した場合には、その顔領域の画像に基づいて、対話相手が誰であるかの個人を特定した後、この認識結果を認識統合部55に送出する。
また聴覚認識機能部32は、マイクロホン11のセンサ出力でなる音声信号に基づいて行う各種音に関する認識処理のうち、ロボット1自身に対してどの方向から音声が聞こえたかを認識するための音声方向認識処理を行い、この認識結果を認識統合部55に送出する。
例えば入出力部3(図1)に複数のマイクロホン11が設けられている場合に、当該複数のマイクロホン11を用いて、入力された音声イベントの音源方向を推定する。具体的には、例えば「大賀、山崎、金田『音響システムとディジタル処理』(電子情報通信学会)p197」に記載されているように、音源方向と複数のマイクロホンで受音した信号の時間差とに一対一の関係があることを利用して音源方向を推定することができる。
すなわち、図7に示すように、θS方向から到来する平面波を、距離dだけ離れて設置された2つのマイクロホンM1、M2で受音する場合、各マイクロホンM1、M2の受音信号x1(t)とx2(t)との間には、次式
Figure 2005022065
Figure 2005022065
に示すような関係が成立する。ここで、式(1)、(2)において、cは音速であり、τSは2つのマイクロホンM1、M2で受音した信号の時間差である。
従って、受音信号x1(t)とx2(t)との間の時間差τSが分かれば、次式
Figure 2005022065
により、音波の到来方向、すなわち音源方向を求めることができる。
ここで、時間差τSは、次式
Figure 2005022065
で表されるような、受音信号x1(t)とx2(t)との間の相互相関関数φ12(τ)から求めることができる。ここで、式(4)において、E[・]は期待値である。
上述した式(1)と式(4)とから、相互相関関数φ12(τ)は、次式
Figure 2005022065
のように表される。ここで、式(5)において、φ11(τ)は受音信号x1(t)の自己相関関数である。
この自己相関関数φ11(τ)は、τ=0で最大値をとることが知られているため、式(5)より相互相関関数φ12(τ)は、τ=τSで最大値をとる。したがって、相互相関関数φ12(τ)を計算して、最大値を与えるτを求めればτSが得られ、それを上述した式(3)に代入することにより、音波の到来方向、すなわち音源方向を求めることができる。
なお聴覚認識機能部33(図5)は、マイクロホン11で収音した音イベントが音声であったか否かを判別することができる。具体的には、例えばHMM(Hidden Markov Model)法により音声と非音声とを統計的にモデル化し、その尤度を比較することによって。音イベントが音声であったか否かを判別することができる。また聴覚認識機能部は、例えば文献「F.Asano, H.Asoh and T.Matsui, “Sound Source Localization and
Separation in Near Field”, IEICE Trans. Fundamental, Vol.E83-A, No.11, 2000」に記載されているような手法で音源までの推定距離を計算することにより、音源が近いか否かを大まかに判別することができる。
さらに接触認識機能部は、タッチセンサ13のセンサ出力でなる圧力検出信号に基づいて行う外部刺激に関する認識処理のうち、ユーザによって触られたかを認識するための接触認識処理を行い、この認識結果を認識統合部55に送出する。
認識統合部55は、視覚認識機能部31の認識結果、聴覚認識機能部32の認識結果及び接触認識機能部33の認識結果を統合する。この際の統合とは、画像上の同じ領域に対して、誰だかはよくわからないが顔と肌色が認識された、といった情報統合を意味する。すなわち、視覚認識機能部31、聴覚認識機能部32及び接触認識機能部33の各認識が成功したか否かの情報と、認識が成功した場合はその認識情報が認識結果として送られ、認識が成功して認識情報が送られた場合は、その認識結果のち所定の認識結果又は1以上の認識結果から対話相手の方向を推定する。
かくして認識統合部55は、認識結果に基づいて、対話相手の存在に対してトラッキングを行うための各行動内容を表す追跡行動データD2をハードウェア依存行動制御部40内の行動発現部40Bに順次送出する。
この結果、この追跡行動データD2に基づいて行動発現部40Bにおいて行動決定信号S2が生成され、これが駆動部4(図1)の対応する駆動ユニット15〜15に与えられることにより、例えば対話相手の顔の重心等が入力画像の中心に位置するようにロボット1の首関節が動かされることとなる。
そして認識統合部55は、個人認識処理に失敗した場合には、その他の顔認識処理、肌色認識処理、音声方向認識処理又は接触認識処理のいずれかの認識結果を使用してトラッキングを継続するよう制御する。例えば、顔認識処理の認識結果を使用して対話相手の人物の顔の方向(位置)を予想する。すなわち、個人としての認識はできないものの、顔認識処理は成功しており、顔であることは認識できている場合、その顔を同一個人として該個人をまだトラッキングできているものとし、当該顔領域が入力画像の中心にくるよう駆動部4を制御する。また、顔認識処理に失敗している場合は、例えば肌色認識処理の認識結果を用い、さらに肌色認識処理も失敗したときは、音声方向認識処理の認識結果を使用し、音声方向にロボット1の正面が向くように駆動部4を制御する。
なお、認識統合部55は、各種の認識結果のいずれを優先的に使用するかは、予め設定してもよく、又はロボット1が適宜選択してもよい。例えば、個人認識処理による認識が失敗する直前の対話相手の位置(方向)と最も近い認識処理の認識結果を使用するようにしてもよい。
また予測部56は、認識統合部55の認識統合結果が供給され、各認識処理の認識結果の不安定さにより一時的に認識対象が認識できなくなった場合(認識に失敗した場合)、対象物の位置を予測するものであり、例えばいずれの認識処理からの認識結果も失敗したような場合に、失敗する直前までの認識結果に基づき現在の対象物の位置(方向)を予測する。
そして予測部56は、例えば認識統合部55から認識統合結果が常に供給され、上述のトラッキング制御部等により、対象物を認識できなくなった場合に、対象物の位置の予測を開始するよう指示されるなど、各種の認識処理の認識の回復を一定時間待つなどの制御が行われる。または、対象物が認識できなくなった場合に、認識統合部55からその直前までの認識結果が供給され、対象物の位置を予測するよう指示されてもよい。
そして、この予測部56は、対象物が認識されなくなる直前の認識結果から対象物の方向を予測し、その予測方向を駆動部4(図1)に送出する。すなわち、ロボット1がトラッキングするために必要な画像による外界認識はしばしば不安定であり、ライティング(照明条件)や、人物の顔の角度に敏感であり、これらが少し変化すると視覚認識機能部31は各種認識処理に失敗するおそれがある。また、ボール等の対象物が大きく動くと不均一な照明条件下をボールが移動することになり、認識が難しくなる。さらに自律動作が可能なロボット1は、内部状態及び外部刺激に基づき常に発現する動作が選択され、例えばトラッキング動作より例えば優先順位が高い他の動作が生じた場合には、トラッキング動作を中断し、他の動作を発現を許す場合がある。例えば、ある人物Aとの会話中に別の人物Bに呼ばれ、ロボット1が振り向いて人物Bと短い会話をした後、元の人物Aとの会話を継続しようとする場合等、一旦トラッキングを停止した後、再びトラッキングを開始したい場合が生じる。このような場合、元の人物Aの存在位置等を記憶しておくことは原理的にはできるものの、人物Aが少しでも動いたりすると認識の不安定さからトラッキングを再開できない場合がある。
このような場合においても、例えば対象物が動体であった場合は、直前の動き量から、現在の位置(方向)を予測して予測方向を求める。また、認識に失敗する直前の所定期間、対象物が静止していたと判断できるような場合は、直前の対象物の方向を予測位置とする。
そしてハードウェア依存行動制御部40内の行動発現部40Bは、認識統合部55又は予測部56からの制御情報に基づき追跡行動データD2を生成し、これを駆動部4を介して出力する。すなわちロボット1の各関節における各駆動ユニット15〜15について、当該各関節をロール、ピッチ、ヨーなど各軸を中心として回転させる回転角度や回転位置を算出し、対応するモータ16〜16を駆動制御することにより、対象物の動きに合わせてロボット1の首等を回転させるなどしてロボット1にトラッキングを行わせる。
なお、予測部56は、全ての認識処理が失敗したときに対象物の方向を予測するものとしたが、上述した認識統合部55における処理の一部を予測部56にて行わせるようにしてもよい。すなわち、上位の個人認識処理が失敗した際に、下位の顔認識処理の認識結果や音声方向認識処理の認識結果を使用してトラッキングを継続する際の処理を予測部56が行うようにしてもよい。
(3)対話相手確認処理手順
実際にロボット1では、マイクロホン11を介してユーザからの発話を受けると、制御ユニット2は、図8に示す対話相手確認処理手順RT1をステップSP20から開始し、続くステップSP21において、カウンタ(図示せず)をリセットした後、ステップSP22に進んで、対話相手の存在を上述したトラッキング機能によりトラッキングすることが可能か否かを判断する。
このステップSP22において肯定結果が得られると、このことは対話相手がロボット1の目前に存在していることを表しており、このとき制御ユニット2は、ステップSP23に進んで、当該対話相手に次の発話を続けながら、再度ステップSP21に戻って上述と同様の処理を繰り返す。
一方、ステップSP22において否定結果が得られると、このことは対話相手の存在を未だ認識していないことを表しており、このとき制御ユニット2は、ステップSP24に進んで、タッチセンサ13が数秒程度(2〜3秒)触られたか否かを判断する。
このステップSP24において肯定結果が得られると、このことは対話相手がロボット1の目前に存在していることを表しており、このとき制御ユニット2は、ステップSP23に進んで、当該対話相手に次の発話を続けながら、再度ステップSP21に戻って上述と同様の処理を繰り返す。
一方、ステップSP24において否定結果が得られると、このことは対話相手の存在を未だ認識していないことを表しており、このとき制御ユニット2は、ステップSP25に進んで、図示しないタイマの計測を開始すると共に、ユーザからの応答があったか否かを判断する。
このステップSP25において肯定結果が得られると、このことはマクロホン11を介して何らかの発話音を収音したことを表しており、このとき制御ユニット2は、ステップSP26に進んで、当該収音した発話音の内容が予想した応答内容と一致するか否かを判断する。
一方、ステップSP25において否定結果が得られると、このことは未だマイクロホン11を介して何も発話音を収音していないことを表しており、このとき制御ユニット2は、ステップSP27に進んで、タイマの開始時点から所定時間(例えば5〜7秒)経過したか否かを判断する。
このステップSP27において肯定結果が得られると、制御ユニット2は、タイムアウトと判断して、ステップSP28に進む一方、否定結果が得られると、未だタイムアウトではないと判断して再度ステップSP25に戻って上述と同様の処理を繰り返す。
続いてステップSP26において肯定結果が得られると、このことはマイクロホン11を介して収音した発話音の内容が予想した応答内容と一致することを表しており、このとき制御ユニット2は、対話相手がロボット1の目前に存在していると判断して、ステップSP23に進んで、当該対話相手に次の発話を続けながら、再度ステップSP21に戻って上述と同様の処理を繰り返す。
一方、ステップSP26において否定結果が得られると、このことはマイクロホン11を介して収音した発話音の内容が予想した応答内容と異なることを表しており、このとき制御ユニット2は、対話相手の存在を未だ認識していないと判断して、ステップSP28に進む。
このステップSP28において、制御ユニット2は、上述したステップSP21でリセットされているカウンタの数値を判断して、N(Nは任意の自然数)回未満の場合には、ステップSP29に進んで、ユーザに応答を促すように同じ意図の発話内容で話しかけながら、ステップSP30に進んで、カウンタを1つインクリメントした後、再度ステップSP22に戻って上述と同様の処理を繰り返す。
一方、ステップSP28において、制御ユニット2は、カウンタの数値がN回以上であると判断した場合には、ステップSP31に進んで、ユーザに対してタッチセンサ13への入力を依頼するような発話内容で話しかけると同時にタイマの計測を開始した後、ステップSP32に進む。
このステップSP32において、制御ユニット2は、ユーザへの話しかけを開始してから所定時間内(例えば5秒以内)にタッチセンサ13への入力があったか否かを判断し、肯定結果が得られた場合、このことは対話相手がロボット1の目前に存在していることを表しており、ステップSP23に進んで、当該対話相手に次の発話を続けながら、再度ステップSP21に戻って上述と同様の処理を繰り返す。
一方、ステップSP32において否定結果が得られると、このことは所定時間が経過した後であっても対話相手の存在を確認できなかったことを表しており、このとき制御ユニット2は、ステップSP33に進んで、対話を終了する旨の発話を生成した後、そのままステップSP34に進んで当該対話相手確認処理手順RT1を終了する。
このようにロボット1では、ユーザとの対話中にトラッキングができる間は、対話相手の存在を確認し得ることから、ユーザの発話内容が予測する応答内容と一致しなくても、次の発話を続けながらロボット1への応答の仕方を誘導することにより、ユーザとの対話を進めることができる。
まずロボット1が例えば『ゆきこさんの好きな食べ物って何?』といった発話を生成した後、ユーザから『えーと』といった発話が得られると、続いてロボット1は『ゆきこさんの好きな食べ物って何か教えてくれる?』といった発話を生成する。その後ユーザから『え?』といった発話が得られると、ロボット1は『ナニナニだよって答えてね』といった発話を生成することにより、ユーザから『りんごだよ』といった発話を得ることができる。
またロボット1において、ユーザとの対話中にトラッキングができなくなっても、ユーザの発話内容が予測する応答内容と一致する場合には、ロボット1の質問に対するユーザの応答が当該質問に沿った内容の応答であれば、ユーザが対話相手としてロボット1の目前に存在するもの判断することができ、そのままユーザとの対話を続けることができる。
例えばロボット1が『ゆきこさんの好きな食べ物って何?』といった発話を生成した後、ユーザの存在をトラッキングできなくなっても、ユーザから『りんごだよ』といったロボット1が期待する応答内容の発話を得ることができれば、当該ユーザは対話相手として存在していると判断して対話を進めることができる。
さらにロボット1において、ユーザとの対話中にトラッキングができなくなった場合であって、かつロボット1が期待する応答内容の発話が得られない場合や全く音声認識ができない場合には、何回かロボット1が質問を表す発話を繰り返し、それでも期待する応答内容の発話が得られなかった場合には、対話相手がいなくなってしまったものと判断することができ、不自然な対話を終了することができる。
例えばロボット1が『ゆきこさんの好きな食べ物って何?』といった発話を生成した後、所定時間経過した後でもユーザから全く応答がなく、さらにロボット1がこれと同じ意図の『ゆきこさんの好きな食べ物って何か教えてくれる?』といった発話をして所定時間経過した後でも、ユーザから何ら応答がない場合には、ロボット1は『あれ?いなくなっちゃったのかな?』といった対話を終了する旨の発話を生成することにより、独り言のような不自然な対話を終了することができる。
(4)本実施の形態の動作及び効果
以上の構成において、このロボット1では、各種認識処理の認識結果に基づいて、対話相手であるユーザの存在を追跡するトラッキング機能を実行しながら、ユーザに特化した話題の対話を行うための対話制御機能も実行する。
その際、ロボット1は、ユーザとの対話中に当該ユーザの存在をトラッキングができる間は、対話相手の存在を確認し得ると判断して次の発話を続けながらロボット1への応答の仕方を誘導することにより、ユーザとの対話をあたかも人間同士が行うような自然な感じで進めることができる。
一方、ロボット1は、現在の環境が非常に暗い場合のように対話相手であるユーザの存在をトラッキングができなくなった場合には、ユーザの発話内容がロボット1が予測する応答内容と一致するときのみ、ロボット1の目前に対話相手が存在するものと判断してユーザとの対話を進めても、自己の目前に対話相手が存在するにもかかわらず、その存在がないと判断して対話を止めてしまうのを有効に防止することができる。
さらにロボット1は、ユーザとの対話中にトラッキングができなくなった場合であって、かつロボット1が予測する応答内容の発話が得られない場合には、同じ意図の発話内容で何回かユーザに応答を促すことを繰り返し、それでも期待する応答内容の発話が得られなかった場合には、対話相手がいなくなってしまったものと判断してユーザとの対話を止めても、あたかも独り言のような不自然な対話を行い続けるのを回避することができる。またテレビジョンやラジオ等の雑音に反応するのを未然に回避することもできる。
以上の構成によれば、ロボット1において、各種認識処理の認識結果に基づいて、対話相手であるユーザの存在を追跡するトラッキング機能を実行しながら、ユーザに特化した話題の対話を行うための対話制御機能も実行するようにして、対話相手の存在を総合的に判断するようにしたことにより、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができ、この結果、人間が普段行う場合と同様な自然な対話を行うことができ、かくしてエンターテインメント性を格段と向上させ得ることができる。
(5)他の実施の形態
なお上述の実施の形態においては、本発明を図1〜図3のように構成されたエンターテインメントロボットに適用するようにした場合について述べたが、本発明はこれに限らず、これ以外の構成を有するエンターテインメントロボットや、これ以外のロボット、ロボット以外の各種機器又はユーザとの対話制御を行うこの他種々の対話制御装置に広く適用することができる。また例えばテレビゲーム用のソフトウェア等など各種ソフトウェアにも広く応用することができる。
また上述の実施の形態においては、図4について上述した各項目の印象度をその項目の値を獲得する際に決定し、その後は更新しないようにした場合について述べたが、本発明はこれに限らず、印象度を更新するようにしても良い。このようにすることによって、各種話題の出現頻度をも変更することができ、その分そのときそのときの状況に応じた会話を行うことができるため、ロボット1のエンターテインメント性をより一層と向上させることができる。
さらに上述の実施の形態においては、図4について上述した各項目の印象度を、その項目を獲得する前後の内部状態管理部34に保持された「愛情」のパラメータ値の差分により計算するようにした場合について述べたが、本発明はこれに限らず、内部状態管理部34に保持された他の本能的要素又は情動的要素のパラメータ値に基づいて計算するようにしても良く、これ以外の手法により得られるようにしても良い。
さらに上述の実施の形態においては、対話相手と対話するための機能を有する音声対話装置において、対話相手の発話を音声認識する音声認識手段として聴覚認識機能部32を適用し、対話相手の顔を画像認識する画像認識手段として視覚認識機能部31を適用し、対話相手の接触を認識する接触認識手段として接触認識機能部33を適用するようにした場合について述べたが、本発明はこれに限らず、対話相手の発話、顔及び接触を認識することができれば、この他種々の構成からなる各種認識手段に広く適用するようにしても良い。
さらに上述の実施の形態においては、聴覚認識機能部(音声認識手段)32の認識結果に基づいて、対話相手との対話を制御する対話制御手段として、制御ユニット2の制御の下で、状況依存行動階層38内の対話制御部38Aを適用するようにした場合について述べたが、本発明はこれに限らず、要は対話相手の発話を音声認識して得られる音声認識結果に基づいて、当該対話相手との対話を制御することができれば、この他種々の構成のものを適用するようにしても良い。
さらに上述の実施の形態においては、視覚認識機能部(画像認識手段)31の認識結果及び聴覚認識機能部(音声認識手段)32の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段として、制御ユニット2の制御の下で、状況依存行動階層38内のトラッキング制御部38Bを適用するようにした場合について述べたが、本発明はこれに限らず、要は対話相手の顔を画像認識して得られる画像認識結果及び当該対話相手の発話を音声認識して得られる音声認識結果の双方又は一方に基づいて、当該対話相手を追跡することができれば、この他種々の構成のものを適用するようにしても良い。
この場合、トラッキング制御部(トラッキング制御手段)38Bは、聴覚認識機能部(音声認識手段)32の認識結果、視覚認識機能部(画像認識手段)31の認識結果、接触認識機能部(接触認識機能部)33の認識結果の任意の組み合わせに基づいて、対話相手の存在を追跡するようにしても良い。
さらに上述の実施の形態においては、対話制御部(対話制御手段)38Aは、トラッキング制御部(トラッキング制御手段)38Bによる追跡ができないときであっても、聴覚認識機能部(音声認識手段)32の認識結果として得られる対話相手の発話内容が予測される応答内容と一致する場合には、対話を続けるように制御するようにした場合について述べたが、本発明はこれに限らず、要は、現在の環境が非常に暗い場合であっても、実際にはロボット1の目前に対話相手が存在するにもかかわらず、その存在がないと判断して対話を止めてしまうのを有効に防止することができれば、この他種々の制御方法を適用するようにしても良い。
この場合、対話制御部(対話制御手段)38Aは、トラッキング制御部(トラッキング制御手段)38Bによる追跡ができないときであっても、接触認識機能部(接触認識手段)33の認識結果として得られる対話相手の接触がある場合には、対話を続けるように制御するようにしても、上述と同様の効果を得ることができる。
さらに上述の実施の形態においては、対話制御部(対話制御手段)38Aは、トラッキング制御部(トラッキング制御手段)38Bによる追跡ができず、かつ対話相手の発話内容が予測される応答内容と一致しない場合であって、対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から応答内容が得られなかった場合には、対話を終了するように制御するようにした場合について述べたが、本発明はこれに限らず、要は、何度も対話相手に応答内容を促しても期待する結果が得られなかった場合に、対話相手がいなくなってしまったにもかかわらず、あたかも独り言のような不自然な対話を行い続けるのを回避することができれば、この他種々の制御方法を適用するようにしても良い。
この場合対話制御部(対話制御手段)38Aは、トラッキング制御部(トラッキング制御手段)38Bによる追跡ができず、かつ対話相手の発話内容が予測される応答内容と一致しない場合であって、対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から応答内容が得られなかった場合には、対話を終了するように制御する直前に、対話相手に接触認識機能部(接触認識手段)33に認識させる旨を通知した後、当該接触認識機能部(接触認識手段)33の認識結果として得られる対話相手の接触がある場合には、対話を続けるように制御するようにしても、上述と同様の効果を得ることができる。
さらに上述の実施の形態においては、対話制御部(対話制御手段)38Aは、対話相手の発話が所定時間経過後に得られない場合には、対話相手に当該応答内容を促す旨を通知するようにしてタイムアウトを設定するようにした場合について述べたが、このタイムアウトは、予測する応答内容を待つ時間として種々の時間に自由に設定するようにしても良い。
音声対話装置及び方法並びにロボット装置において、アミューズメントロボットや介護ロボットなどに適用することができる。
本実施の形態によるロボットの機能構成を模式的に示したブロック図である。 制御ユニットの構成を示すブロック図である。 ロボットのソフトウェア構成を示すブロック図である。 獲得情報の記録フォーマットの説明に供する概念図である。 対話制御機能及びトラッキング機能に関する主要部の構成を示す概念図である。 会話生成手順の説明に供する概念図である。 音声方向認識処理の説明に供する概念図である。 対話相手確認処理手順の説明に供するフローチャートである。
符号の説明
1……ロボット、2……制御ユニット2、10……CCDカメラ、11……マイクロホン、12……スピーカ、21……CPU、23……ROM、31……視覚認識機能部、32……聴覚認識機能部、33……接触認識機能部、34……内部状態管理部、36……長期記憶部、38……状況依存行動階層、40……ハードウェア依存層制御部、40A……音声合成部、40B……行動発現部、50……記憶獲得会話生成部、51……記憶利用会話生成部、52……状況判断部、55……認識統合部、56……予測部、D1……文字列データ、RT1……対話相手確認処理手順。

Claims (15)

  1. 対話相手と対話するための機能を有する音声対話装置において、
    上記対話相手の発話を音声認識する音声認識手段と、
    上記音声認識手段の認識結果に基づいて、上記対話相手との対話を制御する対話制御手段と、
    上記対話相手の顔を画像認識する画像認識手段と、
    上記画像認識手段の認識結果及び上記音声認識手段の認識結果の双方又は一方に基づいて、上記対話相手の存在を追跡するトラッキング制御手段と
    を具え、
    上記対話制御手段は、上記トラッキング制御手段による上記追跡に合わせて、上記対話を続けるように制御する
    ことを特徴とする音声対話装置。
  2. 上記対話制御手段は、
    上記トラッキング制御手段による上記追跡ができないときであっても、上記音声認識手段の認識結果として得られる上記対話相手の発話内容が予測される応答内容と一致する場合には、上記対話を続けるように制御する
    ことを特徴とする請求項1に記載の音声対話装置。
  3. 上記対話制御手段は、
    上記トラッキング制御手段による上記追跡ができず、かつ上記対話相手の発話内容が予測される応答内容と一致しない場合であって、上記対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から上記応答内容が得られなかった場合には、上記対話を終了するように制御する
    ことを特徴とする請求項2に記載の音声対話装置。
  4. 上記対話制御手段は、
    上記対話相手の発話が所定時間経過後に得られない場合には、上記対話相手に当該応答内容を促す旨を通知する
    ことを特徴とする請求項3に記載の音声対話装置。
  5. 上記対話相手の接触を認識する接触認識手段を具え、
    上記トラッキング制御手段は、
    上記音声認識手段の認識結果、上記画像認識手段の認識結果及び上記接触認識手段の認識結果の任意の組み合わせに基づいて、上記対話相手の存在を追跡する
    ことを特徴とする請求項1に記載の音声対話装置。
  6. 上記対話制御手段は、
    上記トラッキング制御手段による上記追跡ができないときであっても、上記接触認識手段の認識結果として得られる上記対話相手の接触がある場合には、上記対話を続けるように制御する
    ことを特徴とする請求項5に記載の音声対話装置。
  7. 上記対話制御手段は、
    上記トラッキング制御手段による上記追跡ができず、かつ上記対話相手の発話内容が予測される応答内容と一致しない場合であって、上記対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から上記応答内容が得られなかった場合には、上記対話を終了するように制御する直前に、上記対話相手に上記接触認識手段に認識させる旨を通知した後、当該接触認識手段の認識結果として得られる上記対話相手の接触がある場合には、上記対話を続けるように制御する
    ことを特徴とする請求項5に記載の音声対話装置。
  8. 対話相手と対話するための機能を有する音声対話方法において、
    上記対話相手の発話を音声認識して得られる音声認識結果、及び当該対話相手の顔を画像認識して得られる画像認識結果の双方又は一方に基づいて、対話相手の存在を追跡する第1のステップと、
    上記追跡に合わせて、上記音声認識結果に基づき得られる上記対話相手との対話を続けるように制御する第2のステップと
    を具えることを特徴とする音声対話方法。
  9. 上記第2のステップでは、
    上記第1のステップによる上記追跡ができないときであっても、上記音声認識結果として得られる上記対話相手の発話内容が予測される応答内容と一致する場合には、上記対話を続けるように制御する
    ことを特徴とする請求項8に記載の音声対話方法。
  10. 上記第2のステップでは、
    上記第1のステップによる上記追跡ができず、かつ上記対話相手の発話内容が予測される応答内容と一致しない場合であって、上記対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から上記応答内容が得られなかった場合には、上記対話を終了するように制御する
    ことを特徴とする請求項9に記載の音声対話方法。
  11. 上記第2のステップでは、
    上記対話相手の発話が所定時間経過後に得られない場合には、上記対話相手に当該応答内容を促す旨を通知する
    ことを特徴とする請求項10に記載の音声対話方法。
  12. 上記第1のステップでは、
    上記音声認識結果、上記画像認識結果及び上記対話相手の接触を認識する接触認識結果の任意の組み合わせに基づいて、上記対話相手の存在を追跡する
    ことを特徴とする請求項8に記載の音声対話方法。
  13. 上記第2のステップでは、
    上記第1のステップによる上記追跡ができないときであっても、上記接触認識結果として得られる上記対話相手の接触がある場合には、上記対話を続けるように制御する
    ことを特徴とする請求項12に記載の音声対話方法。
  14. 上記第2のステップでは、
    上記第1のステップによる上記追跡ができず、かつ上記対話相手の発話内容が予測される応答内容と一致しない場合であって、上記対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から上記応答内容が得られなかった場合には、上記対話を終了するように制御する直前に、上記対話相手に上記接触認識させる旨を通知した後、当該接触認識結果として得られる上記対話相手の接触がある場合には、上記対話を続けるように制御する
    ことを特徴とする請求項12に記載の音声対話方法。
  15. 対話相手と対話するための機能を有する音声対話装置を含むロボット装置において、
    上記対話相手の発話を音声認識する音声認識手段と、
    上記音声認識手段の認識結果に基づいて、上記対話相手との対話を制御する対話制御手段と、
    上記対話相手の顔を画像認識する画像認識手段と、
    上記画像認識手段の認識結果及び上記音声認識手段の認識結果の双方又は一方に基づいて、上記対話相手の存在を追跡するトラッキング制御手段と
    を具え、
    上記対話制御手段は、上記トラッキング制御手段による上記追跡に合わせて、上記対話を続けるように制御する
    ことを特徴とするロボット装置。
JP2003270835A 2003-07-03 2003-07-03 音声対話装置及び方法並びにロボット装置 Expired - Fee Related JP4048492B2 (ja)

Priority Applications (10)

Application Number Priority Date Filing Date Title
JP2003270835A JP4048492B2 (ja) 2003-07-03 2003-07-03 音声対話装置及び方法並びにロボット装置
EP04015506A EP1494210B1 (en) 2003-07-03 2004-07-01 Speech communication system and method, and robot apparatus
DE602004004324T DE602004004324T2 (de) 2003-07-03 2004-07-01 System und Verfahren zur Sprachkommunikation und Roboter
US10/882,360 US8209179B2 (en) 2003-07-03 2004-07-02 Speech communication system and method, and robot apparatus
CN2007100856784A CN101030370B (zh) 2003-07-03 2004-07-02 信息处理系统和方法、及机器人装置
KR1020040051548A KR101057705B1 (ko) 2003-07-03 2004-07-02 음성 대화 장치 및 방법 및 로봇 장치
CNB2004100855082A CN1312576C (zh) 2003-07-03 2004-07-02 语音通信系统和方法、及机器人装置
HK05103181A HK1070727A1 (en) 2003-07-03 2005-04-14 Speech communication system and method, and robot apparatus
US13/473,272 US8321221B2 (en) 2003-07-03 2012-05-16 Speech communication system and method, and robot apparatus
US13/667,978 US8538750B2 (en) 2003-07-03 2012-11-02 Speech communication system and method, and robot apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003270835A JP4048492B2 (ja) 2003-07-03 2003-07-03 音声対話装置及び方法並びにロボット装置

Publications (3)

Publication Number Publication Date
JP2005022065A true JP2005022065A (ja) 2005-01-27
JP2005022065A5 JP2005022065A5 (ja) 2005-08-11
JP4048492B2 JP4048492B2 (ja) 2008-02-20

Family

ID=33432381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003270835A Expired - Fee Related JP4048492B2 (ja) 2003-07-03 2003-07-03 音声対話装置及び方法並びにロボット装置

Country Status (7)

Country Link
US (3) US8209179B2 (ja)
EP (1) EP1494210B1 (ja)
JP (1) JP4048492B2 (ja)
KR (1) KR101057705B1 (ja)
CN (2) CN1312576C (ja)
DE (1) DE602004004324T2 (ja)
HK (1) HK1070727A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009166184A (ja) * 2008-01-17 2009-07-30 Saitama Univ ガイドロボット
JP2012227728A (ja) * 2011-04-19 2012-11-15 Toshiba Corp 電子機器および映像表示方法
JP2013059856A (ja) * 2005-09-30 2013-04-04 Irobot Corp 個人の相互交流のためのコンパニオンロボット
JP2015011621A (ja) * 2013-07-01 2015-01-19 シャープ株式会社 会話処理装置、制御方法、制御プログラム、および記録媒体
JP2017513724A (ja) * 2014-04-17 2017-06-01 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 人と人型ロボットの交流を処理するためのシステム、方法及びコンピュータプログラムプロダクト
JP2018167339A (ja) * 2017-03-29 2018-11-01 富士通株式会社 発話制御プログラム、情報処理装置及び発話制御方法

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
JP4629560B2 (ja) * 2004-12-01 2011-02-09 本田技研工業株式会社 対話型情報システム
WO2007026280A1 (en) * 2005-08-31 2007-03-08 Philips Intellectual Property & Standards Gmbh A dialogue system for interacting with a person by making use of both visual and speech-based recognition
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
KR100822880B1 (ko) * 2006-10-25 2008-04-17 한국전자통신연구원 지능형 로봇 환경에서 오디오-비디오 기반 음원추적을 통한화자 인식 시스템 및 방법
KR100846448B1 (ko) * 2006-12-07 2008-07-16 한국전자통신연구원 로봇의 화상/음성 채팅 방법 및 장치
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
CN101076060A (zh) * 2007-03-30 2007-11-21 腾讯科技(深圳)有限公司 一种聊天机器人系统及自动聊天方法
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
CN101183963B (zh) * 2007-11-09 2013-06-26 华为终端有限公司 一种视讯通信的控制方法和设备
JP4502035B2 (ja) * 2008-03-28 2010-07-14 トヨタ自動車株式会社 排気再循環装置の異常診断装置
KR20100081587A (ko) * 2009-01-06 2010-07-15 삼성전자주식회사 로봇의 소리 인식 장치 및 그 제어 방법
CN101551998B (zh) * 2009-05-12 2011-07-27 上海锦芯电子科技有限公司 一种语音互动系统以及其和人的语音互动方法
US8532989B2 (en) * 2009-09-03 2013-09-10 Honda Motor Co., Ltd. Command recognition device, command recognition method, and command recognition robot
CN102012264A (zh) * 2010-10-08 2011-04-13 矽创电子股份有限公司 可侦测环境光的照度的手持装置
CN102141812A (zh) * 2010-11-16 2011-08-03 深圳中科智酷机器人科技有限公司 机器人
CN102152312A (zh) * 2010-11-16 2011-08-17 深圳中科智酷机器人科技有限公司 机器人系统和机器人系统执行任务的方法
CN102737049A (zh) * 2011-04-11 2012-10-17 腾讯科技(深圳)有限公司 一种数据库的查询方法和系统
US8594845B1 (en) * 2011-05-06 2013-11-26 Google Inc. Methods and systems for robotic proactive informational retrieval from ambient context
CN102289556A (zh) * 2011-05-13 2011-12-21 郑正耀 一种超市购物助手机器人
US8825493B2 (en) * 2011-07-18 2014-09-02 At&T Intellectual Property I, L.P. Method and apparatus for social network communication over a media network
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9916538B2 (en) 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US11074495B2 (en) 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US11195057B2 (en) 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US11914674B2 (en) 2011-09-24 2024-02-27 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN102385389B (zh) * 2011-11-01 2014-08-06 中国科学院深圳先进技术研究院 巡逻机器人、预警系统以及巡逻机器人的监控方法
JP5828552B2 (ja) * 2011-12-22 2015-12-09 本田技研工業株式会社 物体分類装置、物体分類方法、物体認識装置及び物体認識方法
US9877462B2 (en) * 2012-03-12 2018-01-30 Meena Anurag Taneja Pet feeding robot . automatic pet wet food dispenser robot
JP2014170295A (ja) * 2013-03-01 2014-09-18 Honda Motor Co Ltd 物体認識システム及び物体認識方法
JP2014225108A (ja) * 2013-05-16 2014-12-04 ソニー株式会社 画像処理装置、画像処理方法およびプログラム
KR101531664B1 (ko) * 2013-09-27 2015-06-25 고려대학교 산학협력단 다감각정보를 이용한 정서 인지능력 검사 시스템 및 방법, 다감각정보를 이용한 정서 인지 훈련 시스템 및 방법
US10106283B2 (en) 2014-08-05 2018-10-23 Hero Health, Inc. Dispensable unit retrieval mechanism
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
KR20160112789A (ko) 2015-03-20 2016-09-28 주식회사 민토시스 유저 추종 무인기
KR101752244B1 (ko) 2015-03-20 2017-06-29 주식회사 민토시스 무인기를 활용한 유저 모니터링 시스템
KR101968548B1 (ko) 2015-03-20 2019-04-12 주식회사 민토시스 무인기를 활용한 유저 모니터링 시스템
JP6592940B2 (ja) * 2015-04-07 2019-10-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN106656945B (zh) * 2015-11-04 2019-10-01 陈包容 一种向通讯对方发起会话的方法及装置
JP6693111B2 (ja) * 2015-12-14 2020-05-13 カシオ計算機株式会社 対話装置、ロボット、対話方法及びプログラム
CN105345822B (zh) * 2015-12-17 2017-05-10 成都英博格科技有限公司 智能机器人控制方法及装置
CN105773615B (zh) * 2016-04-06 2018-05-29 成都令可科技有限公司 一种机器人系统
US10120386B2 (en) * 2016-11-18 2018-11-06 Robert Bosch Start-Up Platform North America, LLC, Series 1 Robotic creature and method of operation
JP6795387B2 (ja) * 2016-12-14 2020-12-02 パナソニック株式会社 音声対話装置、音声対話方法、音声対話プログラム及びロボット
JP6689215B2 (ja) * 2017-01-25 2020-04-28 株式会社日立製作所 システム及び対話情報の出力方法
KR101802188B1 (ko) 2017-03-03 2017-11-28 주식회사 민토시스 무인기를 활용한 유저 모니터링 시스템
WO2018163645A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US20200058319A1 (en) * 2017-05-11 2020-02-20 Sharp Kabushiki Kaisha Information processing device, electronic apparatus, control method, and storage medium
US10438587B1 (en) * 2017-08-08 2019-10-08 X Development Llc Speech recognition biasing
GB2565315B (en) * 2017-08-09 2022-05-04 Emotech Ltd Robots, methods, computer programs, computer-readable media, arrays of microphones and controllers
WO2019161229A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for reconstructing unoccupied 3d space
EP3753014A4 (en) * 2018-02-15 2021-11-17 DMAI, Inc. SYSTEM AND METHOD OF PREEMPTIVE GENERATION OF DIALOGUE CONTENT, BASED ON PREDICTION
US11455986B2 (en) 2018-02-15 2022-09-27 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
JP7109207B2 (ja) * 2018-02-23 2022-07-29 パナソニックホールディングス株式会社 相互作用装置、相互作用方法、相互作用プログラム及びロボット
WO2019183568A1 (en) * 2018-03-23 2019-09-26 Google Llc Controlling a robot based on free-form natural language input
KR102116259B1 (ko) * 2018-03-26 2020-05-29 제주대학교 산학협력단 교감형 반려식물 로봇시스템
JP2021096270A (ja) * 2018-03-27 2021-06-24 ソニーグループ株式会社 情報処理装置および情報処理方法
FR3080926B1 (fr) 2018-05-04 2020-04-24 Spoon Procede de commande d'une pluralite d'effecteurs d'un robot
CN109877864B (zh) * 2019-03-31 2022-05-17 西南科技大学 灵敏软体执行器及其应用
KR102280803B1 (ko) * 2019-07-02 2021-07-21 엘지전자 주식회사 로봇 및 그의 구동 방법
KR102331675B1 (ko) * 2019-09-09 2021-11-30 엘지전자 주식회사 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
KR20190118995A (ko) 2019-10-01 2019-10-21 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
CN111216126B (zh) * 2019-12-27 2021-08-31 广东省智能制造研究所 基于多模态感知的足式机器人运动行为识别方法及系统
KR20220099831A (ko) 2021-01-07 2022-07-14 삼성전자주식회사 전자 장치 및 전자 장치에서 사용자 발화 처리 방법

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6332624A (ja) * 1986-07-28 1988-02-12 Canon Inc 情報処理装置
US5109425A (en) * 1988-09-30 1992-04-28 The United States Of America As Represented By The United States National Aeronautics And Space Administration Method and apparatus for predicting the direction of movement in machine vision
US5228110A (en) * 1989-09-15 1993-07-13 U.S. Philips Corporation Method for recognizing N different word strings in a speech signal
US5227985A (en) * 1991-08-19 1993-07-13 University Of Maryland Computer vision system for position monitoring in three dimensions using non-coplanar light sources attached to a monitored object
US5323470A (en) * 1992-05-08 1994-06-21 Atsushi Kara Method and apparatus for automatically tracking an object
US6370475B1 (en) * 1997-10-22 2002-04-09 Intelligent Technologies International Inc. Accident avoidance system
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
JP3702978B2 (ja) * 1996-12-26 2005-10-05 ソニー株式会社 認識装置および認識方法、並びに学習装置および学習方法
JP3159242B2 (ja) * 1997-03-13 2001-04-23 日本電気株式会社 感情生成装置およびその方法
JP2000242293A (ja) * 1999-02-23 2000-09-08 Motorola Inc 音声認識装置のための方法
JP2000326274A (ja) 1999-05-24 2000-11-28 Nec Corp 自律行動ロボット
US6347261B1 (en) * 1999-08-04 2002-02-12 Yamaha Hatsudoki Kabushiki Kaisha User-machine interface system for enhanced interaction
JP3210649B2 (ja) * 1999-11-02 2001-09-17 株式会社エイ・ティ・アール知能映像通信研究所 自律移動ロボット
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
JP2001188782A (ja) 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP2001300148A (ja) 2000-04-18 2001-10-30 Casio Comput Co Ltd アクション応答システムおよびそのプログラム記録媒体
JP4656354B2 (ja) 2000-10-11 2011-03-23 ソニー株式会社 音声処理装置および音声処理方法、並びに記録媒体
CN1398214A (zh) * 2000-10-23 2003-02-19 索尼公司 有足机器人、用于有足机器人的动作控制方法、和存储介质
JP4590717B2 (ja) * 2000-11-17 2010-12-01 ソニー株式会社 顔識別装置及び顔識別方法
JP4108342B2 (ja) * 2001-01-30 2008-06-25 日本電気株式会社 ロボット、ロボット制御システム、およびそのプログラム
JP3594016B2 (ja) * 2001-01-30 2004-11-24 日本電気株式会社 ロボットのプログラム実行方法、ロボットシステムおよびプログラム処理装置
KR20020067669A (ko) * 2001-02-16 2002-08-23 산요 덴키 가부시키가이샤 로봇 시스템 및 로봇
JP3843743B2 (ja) * 2001-03-09 2006-11-08 独立行政法人科学技術振興機構 ロボット視聴覚システム
JP2002283259A (ja) * 2001-03-27 2002-10-03 Sony Corp ロボット装置のための動作教示装置及び動作教示方法、並びに記憶媒体
JP4689107B2 (ja) 2001-08-22 2011-05-25 本田技研工業株式会社 自律行動ロボット
JP4396273B2 (ja) * 2001-10-22 2010-01-13 ソニー株式会社 ロボット装置及びその制御方法
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP3558222B2 (ja) * 2002-03-15 2004-08-25 ソニー株式会社 ロボットの行動制御システム及び行動制御方法、並びにロボット装置
US7813835B2 (en) * 2002-03-15 2010-10-12 Sony Corporation Robot behavior control system, behavior control method, and robot device
JP2003296855A (ja) * 2002-03-29 2003-10-17 Toshiba Corp 監視装置
US7076430B1 (en) * 2002-05-16 2006-07-11 At&T Corp. System and method of providing conversational visual prosody for talking heads
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
US7113848B2 (en) * 2003-06-09 2006-09-26 Hanson David F Human emulation robot system
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013059856A (ja) * 2005-09-30 2013-04-04 Irobot Corp 個人の相互交流のためのコンパニオンロボット
US9452525B2 (en) 2005-09-30 2016-09-27 Irobot Corporation Companion robot for personal interaction
JP2009166184A (ja) * 2008-01-17 2009-07-30 Saitama Univ ガイドロボット
JP2012227728A (ja) * 2011-04-19 2012-11-15 Toshiba Corp 電子機器および映像表示方法
JP2015011621A (ja) * 2013-07-01 2015-01-19 シャープ株式会社 会話処理装置、制御方法、制御プログラム、および記録媒体
JP2017513724A (ja) * 2014-04-17 2017-06-01 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe 人と人型ロボットの交流を処理するためのシステム、方法及びコンピュータプログラムプロダクト
JP2018167339A (ja) * 2017-03-29 2018-11-01 富士通株式会社 発話制御プログラム、情報処理装置及び発話制御方法

Also Published As

Publication number Publication date
CN1591569A (zh) 2005-03-09
DE602004004324D1 (de) 2007-03-08
HK1070727A1 (en) 2005-06-24
KR20050004107A (ko) 2005-01-12
US8538750B2 (en) 2013-09-17
US20050043956A1 (en) 2005-02-24
US8321221B2 (en) 2012-11-27
CN1312576C (zh) 2007-04-25
US20120232891A1 (en) 2012-09-13
EP1494210A1 (en) 2005-01-05
KR101057705B1 (ko) 2011-08-18
CN101030370B (zh) 2012-07-04
EP1494210B1 (en) 2007-01-17
JP4048492B2 (ja) 2008-02-20
CN101030370A (zh) 2007-09-05
DE602004004324T2 (de) 2007-06-21
US8209179B2 (en) 2012-06-26
US20130060566A1 (en) 2013-03-07

Similar Documents

Publication Publication Date Title
JP4048492B2 (ja) 音声対話装置及び方法並びにロボット装置
EP1569129B1 (en) Dialogue control device and method, and robot device
JP6505748B2 (ja) 人間型ロボットとユーザーの間におけるマルチモード会話を実行する方法、前記方法を実装するコンピュータプログラム及び人間型ロボット
US6509707B2 (en) Information processing device, information processing method and storage medium
US8145492B2 (en) Robot behavior control system and method, and robot apparatus
WO2002045916A1 (fr) Robot, procede de commande du mouvement d'un robot et systeme de commande du mouvement d'un robot
EP1256931A1 (en) Method and apparatus for voice synthesis and robot apparatus
US20210200182A1 (en) Systems and methods to adapt and optimize human-machine interaction using multimodal user-feedback
JP2005202076A (ja) 発話制御装置及び方並びにロボット装置
JP2005059186A (ja) ロボット装置及びその制御方法
JP2005202075A (ja) 対話制御システム及びその方法並びにロボット装置
JP2005231012A (ja) ロボット装置及びその制御方法
EP4285207A1 (en) Methods and systems enabling natural language processing, understanding and generation
JP7459791B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2004195636A (ja) 対話制御装置及び方法並びにロボット装置
CN117953902A (zh) 人机交互的方法、装置和设备
JP2002239962A (ja) ロボット装置、ロボット装置の動作制御方法及びロボット装置の動作制御システム
CN117765952A (zh) 人机交互的方法、装置和设备
JP2021523472A (ja) 複数のロボットエフェクターを制御するための方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050314

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071115

R151 Written notification of patent or utility model registration

Ref document number: 4048492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees