JP2005022065A

JP2005022065A - 音声対話装置及び方法並びにロボット装置

Info

Publication number: JP2005022065A
Application number: JP2003270835A
Authority: JP
Inventors: Kazumi Aoyama; 一美青山; Hideki Shimomura; 秀樹下村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-07-03
Filing date: 2003-07-03
Publication date: 2005-01-27
Anticipated expiration: 2023-07-03
Also published as: CN1591569A; DE602004004324D1; HK1070727A1; KR20050004107A; US8538750B2; US20050043956A1; US8321221B2; CN1312576C; US20120232891A1; EP1494210A1; KR101057705B1; CN101030370B; EP1494210B1; JP4048492B2; CN101030370A; DE602004004324T2; US8209179B2; US20130060566A1

Abstract

【課題】
本発明は、エンターテインメント性を格段と向上し得る音声対話装置及び方法並びにロボット装置を実現するものである。
【解決手段】
対話相手と対話するための機能を有する音声対話装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにした。
【選択図】図８

Description

本発明は、音声対話装置及び方法並びにロボット装置に関し、例えばエンターテインメントロボットに適用して好適なものである。

近年、一般家庭向けのエンターテインメントロボットが数多く商品化されている。そしてこのようなエンターテインメントロボットの中には、ＣＣＤ（Charge Coupled Device）カメラやマイクロホン等の各種外部センサが搭載され、これら外部センサの出力に基づいて外部状況を認識し、認識結果に基づいて自律的に行動し得るようになされたものなどもある。

このようなエンターテインメントロボットにおいては、撮像された画像内から人物の顔を抽出して、当該顔をトラッキングしながら特定の個人を識別するような顔識別機能が搭載されたものや、例えば人間同士が日常的に行う対話と同様の対話をユーザとの間で行い得るような音声対話機能が搭載されたものが提案されている。
（例えば、特許文献１参照）。
特開平２００３−０６２７７７号公報（第２頁〜第３頁、図１）

ところで、このようなエンターテインメントロボットにおいては、対話中にその相手が現在その場に存在するか否かを常に判断する必要があり、また現在その相手と対話中であるか否かを判断する必要がある。

しかし、現在の環境が非常に暗い場合には、対話相手の顔の色や輪郭が不明瞭となり易く、上述の顔認識機能が十分に発揮し得ないおそれがある。この場合にロボットは、自己の目前に対話相手が存在するにもかかわらず、その存在がないと判断して対話を止めてしまうおそれがあった。

また対話中にテレビジョンやラジオからの再生音が流れている場合には、対話相手がロボットに対して何も発話していなくても、上述の音声対話機能では、当該再生音と対話相手からの発話音とを区別することができず、この結果、ロボットは目前の相手が対話していないにもかかわらず、一方的に独り言を話し続けるおそれがある。

このためロボットが、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができれば、人間が普段行う場合と同様に、その自然性から考えて非常に望ましく、エンターテインメントロボットとしてのエンターテインメント性をより一層向上させ得るものと考えられる。

本発明は以上の点を考慮してなされたもので、エンターテインメント性を格段と向上し得る音声対話装置及び方法並びにロボット装置を提案しようとするものである。

かかる課題を解決するため本発明においては、対話相手と対話するための機能を有する音声対話装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにした。

この結果この音声対話装置では、各種認識処理の認識結果に基づいて、対話相手の存在を追跡しながら、対話相手と対話するようにして、対話相手の存在を総合的に判断するようにして、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することにより、人間が普段行う場合と同様な自然な対話を行うことができる。

また本発明においては、対話相手と対話するための機能を有する音声対話方法において、対話相手の発話を音声認識して得られる音声認識結果、及び当該対話相手の顔を画像認識して得られる画像認識結果の双方又は一方に基づいて、対話相手の存在を追跡する第１のステップと、当該追跡に合わせて、音声認識結果に基づき得られる対話相手との対話を続けるように制御する第２のステップとを設けるようにした。

この結果この音声対話方法では、各種認識処理の認識結果に基づいて、対話相手の存在を追跡しながら、対話相手と対話するようにして、対話相手の存在を総合的に判断するようにして、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することにより、人間が普段行う場合と同様な自然な対話を行うことができる。

さらに本発明においては、対話相手と対話するための機能を有する音声対話装置を含むロボット装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにした。

この結果このロボット装置では、各種認識処理の認識結果に基づいて、対話相手の存在を追跡しながら、対話相手と対話するようにして、対話相手の存在を総合的に判断するようにして、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することにより、人間が普段行う場合と同様な自然な対話を行うことができる。

上述のように本発明によれば、対話相手と対話するための機能を有する音声対話装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにしたことにより、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができ、この結果、人間が普段行う場合と同様な自然な対話を行うことができ、かくしてエンターテインメント性を格段と向上し得る音声対話装置を実現できる。

また本発明によれば、対話相手と対話するための機能を有する音声対話方法において、対話相手の発話を音声認識して得られる音声認識結果、及び当該対話相手の顔を画像認識して得られる画像認識結果の双方又は一方に基づいて、対話相手の存在を追跡する第１のステップと、当該追跡に合わせて、音声認識結果に基づき得られる対話相手との対話を続けるように制御する第２のステップとを設けるようにしたことにより、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができ、この結果、人間が普段行う場合と同様な自然な対話を行うことができ、かくしてエンターテインメント性を格段と向上し得る音声対話方法を実現できる。

さらに本発明によれば、対話相手と対話するための機能を有する音声対話装置を含むロボット装置において、対話相手の発話を音声認識する音声認識手段と、音声認識手段の認識結果に基づいて、対話相手との対話を制御する対話制御手段と、対話相手の顔を画像認識する画像認識手段と、画像認識手段の認識結果及び音声認識手段の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段とを設け、対話制御手段は、トラッキング制御手段による追跡に合わせて、対話を続けるように制御するようにしたことにより、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができ、この結果、人間が普段行う場合と同様な自然な対話を行うことができ、かくしてエンターテインメント性を格段と向上し得るロボット装置を実現できる。

以下図面について、本発明の一実施の形態を詳述する。

（１）本実施の形態によるロボット１の構成
（１−１）ロボット１のハードウェア構成
図１は、本実施の形態によるロボット１の機能構成を模式的に示したものである。この図１に示すように、ロボット１は、全体の動作の統括的制御やその他のデータ処理を行う制御ユニット２と、入出力部３と、駆動部４と、電源部５とで構成される。

入出力部３は、入力部としてロボット１の目に相当するＣＣＤ（Charge Coupled Device）カメラ１０や、耳に相当するマイクロホン１１、頭部や背中などの部位に配設されてユーザの接触を感知するタッチセンサ１２、あるいは五感に相当するその他の各種のセンサを含む。また、出力部として、口に相当するスピーカ１３、あるいは点滅の組み合わせや点灯のタイミングにより顔の表情を形成するＬＥＤインジケータ（目ランプ）１４などを装備している。これら出力部は、音声やランプの点滅など、脚などによる機械運動パターン以外の形式でもロボット１からのユーザ・フィードバックを表現することができる。

駆動部４は、制御ユニット２が指令する所定の運動パターンに従ってロボット１の機体動作を実現する機能ブロックであり、行動制御による制御対象物である。駆動部４は、ロボット１の各関節における自由度を実現するための機能モジュールであり、それぞれの関節におけるロール、ピッチ、ヨーなど各軸毎に設けられた複数の駆動ユニット１５_１〜１５_ｎで構成される。各駆動ユニット１５_１〜１５_ｎは、所定軸回りの回転動作を行うモータ１６_１〜１６_ｎと、モータ１６_１〜１６_ｎの回転位置を検出するエンコーダ１７_１〜１７_ｎと、エンコーダ１７_１〜１７_ｎの出力に基づいてモータ１６_１〜１６_ｎの回転位置や回転速度を適応的に制御するドライバ１８_１〜１８_ｎの組み合わせで構成される。

駆動ユニットの組み合わせ方によって、ロボット１を例えば２足歩行又は４足歩行などの脚式移動ロボットとして構成することができる。

電源部５は、その字義通り、ロボット１内に各電気回路などに対して給電を行う機能モジュールである。本実施形態に係るロボット１は、バッテリを用いた自律駆動式であり、電源部５は、充電バッテリ１９と、充電バッテリ２０の充放電状態を管理する充放電制御部３１とで構成される。

充電バッテリ１９は、例えば、複数本のリチウムイオン２次電池セルをカートリッジ式にパッケージ化した「バッテリ・パック」の形態で構成される。

また、充放電制御部２０は、バッテリ１９の端子電圧や充電／放電電流量、バッテリ１９の周囲温度などを測定することでバッテリ１９の残存容量を把握し、充電の開始時期や終了時期などを決定する。充放電制御部２０が決定する充電の開始及び終了時期は制御ユニット２に通知され、ロボット１が充電オペレーションを開始及び終了するためのトリガとなる。

制御ユニット２は、「頭脳」に相当し、例えばロボット１の機体頭部あるいは胴体部に搭載されている。

制御ユニット２においては、図２に示すように、メイン・コントローラとしてのＣＰＵ（Central Processing Unit）２１が、メモリやその他の各回路コンポーネントや周辺機器とバス接続された構成となっている。バス２７は、データ・バス、アドレス・バス、コントロール・バスなどを含む共通信号伝送路である。バス２７上の各装置にはそれぞれに固有のアドレス（メモリ・アドレス又はＩ／Ｏアドレス）が割り当てられている。ＣＰＵ２１は、アドレスを指定することによってバス２７上の特定の装置と通信することができる。

ＲＡＭ（Read Access Memory）２２は、ＤＲＡＭ（Dynamic RAM）などの揮発性メモリで構成された書き込み可能メモリであり、ＣＰＵ２１が実行するプログラム・コードをロードしたり、実行プログラムによる作業データの一時的な保存のために使用される。

ＲＯＭ（Read Only Memory）２３は、プログラムやデータを恒久的に格納する読み出し専用メモリである。ＲＯＭ２３に格納されるプログラム・コードには、ロボット１の電源投入時に実行する自己診断テスト・プログラムや、ロボット１の動作を規定する制御プログラムなどが挙げられる。

ロボット１の制御プログラムには、ＣＣＤカメラ１０やマイクロホン１１などのセンサ入力を処理してシンボルとして認識する「センサ入力・認識処理プログラム」、短期記憶や長期記憶などの記憶動作を司りながらセンサ入力と所定の行動制御モデルとに基づいてロボット１の行動を制御する「行動制御プログラム」、行動制御モデルに従って各関節モータの駆動やスピーカ１２の音声出力などを制御する「駆動制御プログラム」などが含まれる。

不揮発性メモリ２４は、例えばＥＥＰＲＯＭ（Electrically Erasable and Programmable ROM）のように電気的に消去再書き込みが可能なメモリ素子で構成され、逐次更新すべきデータを不揮発的に保持するために使用される。逐次更新すべきデータには、暗記鍵やその他のセキュリティ情報、出荷後にインストールすべき装置制御プログラムなどが挙げられる。

インターフェース２５は、制御ユニット２外の機器と相互接続し、データ交換を可能にするための装置である。インターフェース２５は、例えば、入出力部３内のカメラ１０やマイクロホン１１、スピーカ１２との間でデータ入出力を行う。また、インターフェース２５は、駆動部４内の各ドライバ１８_１〜１８_ｎとの間でデータやコマンドの入出力を行う。

また、インターフェース２５は、ＲＳ（Recommended Standard）−２３２Ｃなどのシリアル・インターフェース、ＩＥＥＥ（Institute of Electrical and Electronics Engineers ）１２８４などのパラレル・インターフェース、ＵＳＢ（Universal Serial Bus）インターフェース、ｉ−Ｌｉｎｋ（ＩＥＥＥ１３９４）インターフェース、ＳＣＳＩ（Small
Computer System Interface ）インターフェース、ＰＣカードやメモリ・スティックを受容するメモリ・カードインターフェース（カードスロット）などのような、コンピュータの周辺機器接続用の汎用インターフェースを備え、ローカル接続された外部機器との間でプログラムやデータの移動を行い得るようにしてもよい。

また、インターフェース２５の他の例として、赤外線通信（ＩｒＤＡ）インターフェースを備え、外部機器と無線通信を行うようにしてもよい。

さらに、制御ユニット２は、無線通信インターフェース２６やネットワーク・インターフェース・カード（ＮＩＣ）２８などを含み、Ｂｌｕｅｔｏｏｔｈのような近接無線データ通信や、ＩＥＥＥ８０２．１１ｂのような無線ネットワーク、あるいはインターネットなどの高域ネットワークを経由して、外部のさまざなホスト・コンピュータとデータ通信を行うことができる。

このようなロボット１とホスト・コンピュータ間におけるデータ通信により、遠隔のコンピュータ資源を用いて、ロボット１の複雑な動作制御を演算したり、リモート・コントロールすることができる。

（１−２）ロボット１のソフトウェア構成
図３は、ＲＯＭ２３に格納された制御プログラム群により構成されるロボット１の行動制御システム３０の機能構成を模式的に示したものである。ロボット１は、外部刺激の認識結果や内部状態の変化に応じて行動制御を行うことができる。さらには、長期記憶機能を備え、外部刺激から内部状態の変化を連想記憶することにより、外部刺激の認識結果や内部状態の変化に応じて行動制御を行うことができる。

この行動制御システム３０は、オブジェクト指向プログラミングを採り入れて実装されている。この場合、各ソフトウェアは、データとそのデータに対する処理手続きとを一体化させた「オブジェクト」というモジュール単位で扱われる。また、各オブジェクトは、メッセージ通信と共有メモリを使ったオブジェクト間通信方法によりデータの受け渡しとＩｎｖｏｋｅを行うことができる。

行動制御システム３０は、入出力部３におけるＣＣＤカメラ１０、マイクロホン１１及びタッチセンサ１３の各センサ出力に基づいて外部環境を認識するために、視覚認識機能部３１と、聴覚認識機能部３２と、接触認識機能部３３を備えている。

視覚認識機能部３１は、ＣＣＤカメラ１０のセンサ出力でなる画像信号に基づいて顔認識や色認識などの画像認識処理や特徴抽出を実行する。そして視覚認識機能部３１は、かかる顔認識結果であるその人物に固有の顔ＩＤ（識別子）や、顔画像領域の位置及び大きさなどの情報と、色認識結果である色領域の位置や大きさ、特徴量などの情報とを出力する。

聴覚認識機能部３２は、マイクロホン１１のセンサ出力でなる音声信号に基づいて音声認識や話者認識などの各種音に関する認識処理を実行する。そして聴覚認識機能部部３２は、かかる音声認識結果である認識した単語の文字列情報と、音響的特徴等に基づく話者認識処理結果であるその話者に固有の話者ＩＤ情報となどを出力する。

接触認識機能部３３は、タッチセンサ１３のセンサ出力でなる圧力検出信号に基づいて「なでられた」、「叩かれた」という外部刺激を認識し、認識結果を出力する。

内部状態管理部３４は、本能や感情といった数種類の情動を数式モデル化して管理しており、視覚認識機能部３１と、聴覚認識機能部３２と、接触認識機能部３３によって認識された外部刺激に応じてロボット１の本能や情動といった内部状態を管理する。

一方、行動制御システム３０においては、外部刺激の認識結果や内部状態の変化に応じて行動制御を行うために、時間の経過とともに失われる短期的な記憶を行う短期記憶部３５と、情報を比較的長期間保持するための長期記憶部３６を備えている。短期記憶と長期記憶という記憶メカニズムの分類は神経心理学に依拠する。

短期記憶部３５は、視覚認識機能部３１と、聴覚認識機能部３２と、接触認識機能部３３によって認識されたターゲットやイベントを短期間保持する機能モジュールである。例えば、ＣＣＤカメラ１０からの入力画像を約１５秒程度の短い期間だけ記憶する。

また長期記憶部３６は、物の名前など学習により得られた情報を長期間保持するために使用されるものであり、制御ユニット２（図２）内のＲＡＭ２２や不揮発性メモリ２４が利用される。

さらに行動制御システム３０により生成されるロボット１の行動は、反射行動部３９によって実現される「反射行動」と、状況依存行動階層３８によって実現される「状況依存行動」と、熟考行動階層３７によって実現される「熟考行動」に大別される。

反射的行動部３９は、視覚認識機能３１と、聴覚認識機能部３２と、積極認識機能部３３によって認識された外部刺激に応じて反射的な機体動作を実現する機能モジュールである。

反射行動とは、基本的にセンサ入力された外部情報の認識結果を直接受けて、これを分類して、出力行動を直接決定する行動のことである。例えば、人間の顔を追いかけたり、うなずくといった振る舞いは反射行動として実装することが好ましい。

状況依存行動階層３８は、短期記憶部３５並びに長期記憶部３６の記憶内容や、内部状態管理部３４によって管理される内部状態を基に、ロボット１が現在置かれている状況に即応した行動を制御する。

状況依存行動階層３８は、各行動毎にステートマシンを用意しており、それ以前の行動や状況に依存して、センサ入力された外部情報の認識結果を分類して、行動を機体上で発現する。また、状況依存行動階層３８は、内部状態をある範囲に保つための行動（「ホメオスタシス行動」とも呼ぶ）も実現し、内部状態が指定した範囲内を超えた場合には、その内部状態を当該範囲内に戻すための行動が出現し易くなるようにその行動を活性化させる（実際には、内部状態と外部環境の両方を考慮した形で行動が選択される）。状況依存行動は、反射行動に比し、反応時間が遅い。

熟考行動階層３７は、短期記憶部３５並びに長期記憶部３６の記憶内容に基づいて、ロボット１の比較的長期にわたる行動計画などを行う。

熟考行動とは、与えられた状況あるいは人間からの命令により、推論やそれを実現するための計画を立てて行われる行動のことである。例えば、ロボットの位置と目標の位置から経路を検索することは熟考行動に相当する。このような推論や計画は、ロボット１がインタラクションを保つための反応時間よりも処理時間や計算負荷を要する（すなわち処理時間がかかる）可能性があるので、かかる反射行動や状況依存行動がリアルタイムで反応を返しながら、熟考行動は推論や計画を行う。

熟考行動階層３７や状況依存行動階層３８、反射行動部３９は、ロボット１のハードウェア構成に非依存の上位のアプリケーション・プログラムとして記述することができる。これに対し、ハードウェア依存層制御部４０は、これら上位アプリケーションからの命令に応じて、入出力部３のスピーカ１２を介して音声を出力させたり、ＬＥＤ１４を所定パターンで点滅駆動したり、駆動部４の対応する駆動ユニット１５_１〜１５_ｎを駆動させる。

（１−３）内部状態管理部３４の構成
ここで、かかる行動制御システム３０の構成要素のうち、後述する対話制御機能に直接関連する内部状態管理部３４の構成について説明する。

内部状態管理部３４は、上述のように数式モデル化された本能及び感情を管理しており、これら本能及び感情の状態を視覚認識機能部３１、聴覚認識機能部３２及び接触認識機能部３３によって認識された外部刺激に応じて変化させている。

この場合、かかる本能を構成する本能的要素としては、疲れ（fatigue）、熱或いは体内温度（temperature）、痛み（pain）、食欲或いは飢え（hunger）、乾き（thirst）、愛情（affection）、好奇心（curiosity）、排泄（elimination）及び性欲（sexual）等といった９個の本能的要素があり、かかる感情を構成する情動的要素として、幸せ（happiness）、悲しみ（sadness）、怒り（anger）、驚き（surprise）、嫌悪（disgust）、恐れ（fear）、苛立ち（frustration）、退屈（boredom）、睡眠（somnolence）、社交性（gregariousness）、根気（patience）、緊張（tense）、リラックス（relaxed）、警告（alertness）、罪（guilt）、悪意（spite）、誠実さ（loyalty）、服従性（submission）及び嫉妬（jealousy）等といった18個の情動的要素がある。

そして内部状態管理部３４は、これら各本能的要素及び各情動的要素をそれぞれその要素の強さを表すパラメータとして保持しており、これら各要素のパラメータ値を視覚認識機能部３１、聴覚認識機能部３２及び接触認識機能部３３の認識結果と、経過時間となどに基づいて周期的に更新することにより、ロボット１の本能及び感情を時々刻々と変化させている。

具体的に、内部状態管理部３４は、各本能的要素について、視覚認識機能部３１、聴覚認識機能部３２及び接触認識機能部３３の認識結果と、経過時間となどに基づいて所定の演算式により算出されるそのときのその本能的要素の変動量をΔＩ〔ｋ〕、現在のその本能的要素のパラメータ値をＩ〔ｋ〕、その本能的要素の感度を表す係数をｋｉとして、所定周期で次式

を用いて次の周期におけるその本能的要素のパラメータ値Ｉ〔ｋ＋１〕を算出し、この演算結果を現在のその本能的要素のパラメータ値Ｉ〔ｋ〕と置き換えるようにしてその本能的要素のパラメータ値を更新する。

また内部状態管理部３４は、各情動的要素について、視覚認識機能部３１、聴覚認識機能部３２及び接触認識機能部３３の認識結果と、そのときのロボット１の行動と、前回更新してからの経過時間となどに基づき所定の演算式により算出されるそのときのその情動的要素の変動量をΔＥ〔ｔ〕、現在のその情動的要素のパラメータ値をＥ〔ｔ〕、その情動的要素の感度を表す係数をｋｅとして、次式

を用いて次の周期におけるその情動的要素のパラメータ値Ｅ〔ｔ＋１〕を算出し、これを現在のその情動的要素のパラメータ値と置き換えるようにしてその情動的要素のパラメータ値を更新する。

なお、視覚認識機能部３１、聴覚認識機能部３２及び接触認識機能部３３の認識結果等が各本能的要素や各情動的要素にどのような影響を与えるかは予め定められており、例えば接触認識機能部３３による「撫でられた」という認識結果は本能的要素のうちの「愛情」のパラメータ値の変動量ΔＩ〔ｋ〕と、情動的要素の「幸せ」のパラメータ値の変動量ΔＥ〔ｔ〕とに大きな影響を与えるようになされている。

（２）ロボット１におけるトラッキングによる対話制御機能
このロボット１には、ユーザと対話を行い得る対話制御機能と、その対話相手であるユーザの存在を追跡し得るトラッキング機能とが搭載されており、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができるようになされている。

（２−１）ロボット１における対話制御機能
まず、このロボット１に搭載された対話制御機能について説明する。

このロボット１には、ユーザとの対話を通じてそのユーザや他の対象物（以下、これをまとめてユーザ等と呼ぶ）の名前や誕生日、好きなもの等の予め定められた幾つかの項目に関する情報（以下、これをその項目の値と呼ぶ）を獲得し、これを例えば図４に示す所定フォーマットで記憶すると共に、これら記憶している各項目の値を利用しながらそのユーザと対話を行い得る対話制御機能が搭載されている。

なお、図４において、列は、予め定められた各項目（「名前（Name）」、「種類（Kind）」、「顔ＩＤ（FaceＩＤ）」、「話者ＩＤ（SpeakerＩＤ）」、「誕生日（BIRTHDAY）」、「好きなもの（Favorite）」及び「友人（Friend）」）に対する値（「ゆきこ」、「人間」、「０」、「１」、「73/5/2」、「紅茶」、「かずみ」等）を示し、行は、１つの対象物について獲得した各項目の値を示す。また各行の最初の数字は、その対象物を最初に登録する際に付与されるその対象物のＩＤ（対象物ＩＤ）を示す。

この図４では、既に各対象物に関する全ての項目の値が獲得された後の状態を示しているが、各項目のうち、「名前（Name）」、「話者ＩＤ（SpeakerＩＤ）」「誕生日（BIRTHDAY）」、「好きなもの（Favorite）」及び「友人（Friend）」については、ユーザとの対話時における聴覚認識機能部３２の各種音声認識処理により獲得され、「顔ＩＤ（FaceＩＤ）」及び「種類（Kind）」については、ユーザとの対話時における視覚認識機能部３１の各種画像認識処理等により獲得されて、記憶されることとなる。

またこの図４において、各値の左側に記述された数値はその値に対する印象度を表す。この印象度はロボット１がその話題を今後会話に利用しても良いか否かの尺度となるものであり、例えば図４の例では、この印象度が高いほど印象が良く（次に話したくなる）、低いほど印象が悪い（話したがらない）ことを表す。

本実施の形態においては、印象度は、その項目の値を獲得する直前の内部状態管理部３４における「愛情」のパラメータ値と、その項目の値を獲得した直後の当該「愛情」のパラメータ値との差分をとって付与する。

ここで、かかる対話制御機能は、主として図３について上述した行動制御システム３０における状況依存行動階層３８の処理により行われる。そして、この対話制御機能に関しては、図５に示すように、状況依存行動階層３８内の対話制御部３８Ａにより行われる。

この対話制御部３８Ａの処理内容を機能的に分類すると、図５に示すように、ユーザ等についての各項目の値を獲得するための会話（以下、これを獲得会話と呼ぶ）を生成する記憶獲得会話生成部５０と、獲得したそのユーザ等についての各項目の値を利用した会話（以下、これを利用会話と呼ぶ）を生成する記憶利用会話生成部５１と、これら記憶獲得会話生成部５０及び記憶利用会話生成部５１の制御を司る状況判断部５２とに分けることができる。

この場合、状況判断部５２は、短期記憶部３５（図３）を介して得られる視覚認識機能部３１の認識結果や聴覚認識機能部３２の認識結果に基づいて、対話相手となり得るユーザの存在を認識すると、図６に示すように、このとき視覚認識機能部３１や聴覚認識機能部３２の認識結果として得られるそのユーザの顔ＩＤや話者ＩＤを記憶獲得会話生成部５０及び記憶利用会話生成部５１に送出すると共に、これら記憶獲得会話生成部５０及び記憶利用会話生成部５１のそれぞれに対して獲得会話又は利用会話の生成が可能か否かを問い合わせる（ステップＳＰ１Ａ、ステップＳＰ１Ｂ）。

このとき記憶獲得会話生成部５０及び記憶利用会話生成部５１は、予め定められた所定の話題生成ルール及び話題利用方法決定ルールに従って、話題の生成と、生成された話題をどのように利用して獲得会話又は利用会話を生成するかという話題の利用方法とを決定する会話生成処理を実行する（ステップＳＰ２Ａ、ステップＳＰ２Ｂ）。

ここで、本実施の形態の場合、かかる話題生成ルールとして、６つのルールがある。

第１の話題生成ルールは、直前の会話で使用した話題と同じ対象物の別の任意の項目を次の話題として選択するルールであり、本実施の形態においては、印象度が最も大きい項目から順に選択する。例えば図４において直前の会話の話題が『対象物ＩＤ１』の『誕生日（BIRTHDAY）』であった場合に、同じ『対象物ＩＤ１』の他の項目の中から印象度が最も大きい項目を次の会話の話題とする場合が該当する。

また第２の話題生成ルールは、直前の会話で使用した話題と同じ対象物の関連のある項目を次の話題として選択するルールであり、例えば図４において直前の会話の話題が『対象物ＩＤ１』の『好きなもの（Favorite）』であった場合に、『対象物ＩＤ１』の『嫌いなもの（Dislike）』を次の会話の話題とする場合が該当する。

さらに第３の話題生成ルールは、直前の会話で使用した話題の項目の値から特定できる対象物の別のいずれかの項目を次の話題として選択するルールであり、本実施の形態においては、印象度が高い対象物から順に次の対象物とする。例えば図４において直前の会話の話題が『対象物ＩＤ１』の『友人（Friend）』であった場合に、その『友人（Friend）』である『対象物ＩＤ２』のいずれかの項目を次の会話の話題とする場合が該当する。

一方、第４の話題生成ルールは、直前の会話で使用した話題と同じ対象物の同じ項目を次の話題として選択するルールであり、例えば図４において直前の会話の話題が『対象物ＩＤ１』の『誕生日（BIRTHDAY）』であった場合に、同じ『対象物ＩＤ１』の同じ『誕生日（BIRTHDAY）』を次の会話の話題とする場合が該当する。

また第５の話題生成ルールは、直前の会話で使用した話題における項目の値と同じ値を有する別の対象物の同じ項目を次の話題として選択するルールであり、例えば図４において直前の会話の話題が『対象物ＩＤ１』の『好きなもの（Favorite）』であった場合に、『好きなもの（Favorite）』の値が同じ『紅茶』である『対象物ＩＤ３』の『好きなもの（Favorite）』を次の会話の話題とする場合が該当する。

さらに第６の話題生成ルールは、直前の会話で使用した話題における項目の値と関連のある値を有する別の対象物の項目を次の話題として選択するルールであり、例えば図４において直前の会話の話題が『対象物ＩＤ１』の『好きなもの（Favorite）』であった場合に、その『好きなもの（Favorite）』である『うま』から『競馬』を『好きなもの（Favorite）』の値とする『対象物ＩＤ６』を選択として、この『対象物ＩＤ６』の『好きなもの（Favorite）』を次の会話の話題とする場合が該当する。

さらに第７の話題生成ルールは、直前の会話で使用した話題と同じ項目で別の対象物を次の話題として選択するルールであり、例えば図４において直前の会話の話題が『対象物ＩＤ１』の『好きなもの（Favorite）』であった場合に、『対象物ＩＤ２』の『好きなもの（Favorite）』を次の会話の話題とする場合が該当する。

なおこれら第１〜第７の話題生成ルールのうち、第１〜第３の話題生成ルールは獲得会話の生成時及び利用会話の生成時の双方において利用することができ、第３〜第７の話題生成ルールは獲得会話の生成時には利用できないが、利用会話の生成時には有効である。

従って、記憶獲得会話生成部５０は、これら第１〜第３の話題生成ルールの中から１つをランダム（任意）に選択し、記憶利用会話生成部５１は、これら第１〜第７の話題生成ルールの中から１つをランダムに選択して、当該選択した話題生成ルールに従って、例えば直前の会話の話題が『対象物ＩＤ１の好きなもの（Favorite）』であった場合に、『対象物ＩＤ１の友人（Friend）』、『対象物ＩＤ１の嫌いなもの（Dislike）』、『対象物ＩＤ２の誕生日（BIRTHDAY）』、『対象物ＩＤ１の誕生日（BIRTHDAY）』、『対象物ＩＤ３の好きなもの（Favorite）』又は『対象物ＩＤ６の好きなもの（Favorite）』というかたちで次の会話の話題を生成することとなる。

一方、本実施の形態においては、話題利用方法決定ルールとして、３つのルールがある。

この場合、第１の話題利用方法決定ルールは、長期記憶部３６が記憶している対応する項目の値をそのまま利用して発話を生成するルールであり、例えば話題として『対象物ＩＤ１の好きなもの（Favorite）』が生成された場合に、『ゆきこの好きなものって紅茶だよね。』や、『ゆきこの好きなものってなに？』といった発話を生成する場合が該当する。

また第２の話題利用方法決定ルールは、長期記憶部３６が記憶している対応する項目の値からデータベースを検索して関連する事項を読み出し、これを利用して発話を生成するルールであり、例えば話題として『対象物ＩＤ１の誕生日（BIRTHDAY）』が生成された場合に、その『誕生日（BIRTHDAY）』の値である『73/5/2』をキーワードとして記念日データベースを検索し、得られた『交通広告の日』という事項を利用して、『５月２日は交通広告の日なんだよ。』といった発話を生成する場合が該当する。

さらに第３の話題利用方法決定ルールは、長期記憶部３６が記憶している対応する項目の値から計算又は連想等される関連する値でデータベースを検索してさらに関連する事項を読み出し、これを利用して発話を生成するルールであり、例えば話題として『対象物ＩＤ１の誕生日（BIRTHDAY）』が生成された場合に、その『誕生日（BIRTHDAY）』の値である『73/5/2』から計算される『おうし座』をキーワードとして星占いデータベースを検索し、得られた『我慢強い』という事項を利用して『おうし座は我慢強い人なんだよ。』といった発話を生成する場合が該当する。

なおこれら第１〜第３の話題利用方法決定ルールのうち、第１の話題利用方法決定ルールは獲得会話の生成時及び利用会話の生成時の双方において利用することができ、第２及び第３の話題利用方法決定ルールは獲得会話の生成時には利用できないが、利用会話の生成時には有効である。

従って、記憶獲得会話生成部５０は、第１の話題利用方法決定ルールを選択し、記憶利用会話生成部５１は、第１〜第３の話題利用方法決定ルールの中から１つをランダムに選択して、当該選択した話題利用方法決定ルールに従って情報獲得のための発話や獲得した情報を利用した発話を生成することとなる。

そしてこれら記憶獲得会話生成部５０及び記憶利用会話生成部５１は、かかる話題生成処理により話題の生成及びその利用方法の決定が行えたときには、その旨並びにその話題及び利用方法を状況判断部５２に通知する一方、かかる話題の生成等ができなかったときは、その旨を状況判断部５２に通知する（ステップＳＰ３Ａ、ステップＳＰ３Ｂ）。

一方、状況判断部５２は、記憶獲得会話生成部５０及び記憶利用会話生成部５１の両方から話題の生成及びその利用方法の決定が行えた旨の通知が与えられたときには、そのときのその対話相手の全項目数に対する未だ値を獲得していない項目数の度合いでなる第１の度合いと、その対話相手の全項目数に対する既に値を獲得した項目数の度合いでなる第２の度合いとに基づいて、記憶獲得会話生成部５０及び記憶利用会話生成部５１のいずれか一方を選択する（ステップＳＰ４）。

より具体的には、状況判断部５２は、第１の度合いが第２の度合い以上のときには記憶獲得会話生成部５０を選択し、第１の度合いが第２の度合いよりも小さいときには記憶利用会話生成部５１を選択する。

そして状況判断部５２は、この後このようにしていずれか一方を選択すると、その選択した記憶獲得会話生成部５０又は記憶利用会話生成部５１に対し、その話題及び利用方法に基づいて獲得会話又は利用会話を生成する処理（以下、これを会話生成処理と呼ぶ）を開始するよう指示を与える（ステップＳＰ５）。

また状況判断部５２は、記憶獲得会話生成部５０及び記憶利用会話生成部５１のいずれか一方からのみ話題及びその利用方法の通知が与えられたときにも、その記憶獲得会話生成部５０又は記憶利用会話生成部５１に対し、その話題及び利用方法に基づいて会話生成処理を開始するよう指示を与える（ステップＳＰ５）。

かくして、かかる指示が与えられた記憶獲得会話生成部５０又は記憶利用会話生成部５１は、会話生成処理を開始し、まず内部状態管理部３４にアクセスして本能的要素のうちの「愛情」のパラメータ値を取得し、この後上述のようにして決定した話題及びその利用方法に基づき生成される、情報を獲得するための発話（以下、これを獲得発話と呼ぶ）又は獲得した情報を利用した発話（以下、これを利用発話と呼ぶ）を含む一連の発話からなる獲得会話又は利用会話を行うための各発話内容の文字列データＤ１をハードウェア依存行動制御部４０内の音声合成部４０Ａに順次送出する。

この結果、この文字列データＤ１に基づいて音声合成部４０Ａにおいて音声信号Ｓ１が生成され、これがスピーカ１２（図１）に与えられることにより、例えば『ゆきこの好きなものってなに？』といった獲得発話を含む一連の発話からなる獲得会話を形成する各発話内容の音声や、『ゆきこの好きなものって紅茶だよね!』といった利用発話を含む一連の発話からなる利用会話を形成する各発話内容の音声がスピーカ１２から出力されることとなる（ステップＳＰ６）。

そしてこのとき、その話題に対するユーザの応答がマイクロホン１１により集音されて行動制御システム３０（図３）の聴覚認識機能部３２に与えられ、当該聴覚認識機能部３２により音声認識される。

かくして、ステップＳＰ４において選択されていたのが記憶獲得会話生成部５０であった場合、当該記憶獲得会話生成部５０は、この聴覚認識機能部３２音声認識結果に基づいて、獲得発話に対するユーザの応答の中から当該獲得発話に基づく質問の答え（すなわち、そのとき獲得しようとしていた項目の値）を抽出し、これを例えば図４について上述したフォーマットで長期記憶部３６に記憶させる（ステップＳＰ６）。

またこれと共に記憶獲得会話生成部５０は、内部状態管理部３４にアクセスしてこのときの「愛情」のパラメータ値を取得し、当該取得したパラメータ値と、会話の直前に取得した同じ「愛情」のパラメータ値との差分を計算し、当該計算結果をかかるユーザ等の上述のようにして獲得した項目の値の印象度として、当該値と対応付けて長期記憶部３４に記憶させる（ステップＳＰ６）。

一方、記憶獲得会話生成部５０又は記憶利用会話生成部５１は、獲得会話又は利用会話が終了すると、これを知らせる通知を状況判断部５２に送出する（ステップＳＰ７）。そして状況判断部５２は、かかる通知を受け取ると、ステップＳＰ４において選択した記憶獲得会話生成部５０又は記憶利用会話生成部５１からステップＳＰ３Ａ又はステップＳＰ３Ｂにおいて通知された話題及びその利用方法を記憶獲得会話生成部５０及び記憶利用会話生成部５１にそれぞれ通知する（ステップＳＰ８Ａ、ステップＳＰ８Ｂ）。

かくして記憶獲得会話生成部５０及び記憶利用会話生成部５１は、この通知された話題及びその利用法を会話履歴として記憶し（ステップＳＰ９Ａ、ステップＳＰ９Ｂ）、この後同じ対話相手との１度の対話において、同じ話題を使用しないように、当該対話が終了するまで上述と同様にして順次獲得会話又は利用会話を生成する（ステップＳＰ１０Ａ−ステップＳＰ１Ａ〜ステップＳＰ１０Ａ、ステップＳＰ１０Ｂ−ステップＳＰ１Ｂ〜ステップＳＰ１０Ｂ）。

このようにしてこのロボッ１トにおいては、ユーザに関する各種情報を自然なかたちで順次獲得すると共にこれを利用しつつ、自然な流れで話題を順次遷移させながら、そのユーザに特化した話題の対話を行い得るようになされている。

（２−２）ロボット１におけるトラッキング機能
次に、このロボット１に搭載されたトラッキング機能について説明する。

このロボット１には、対話相手の存在を確実に追跡し得るトラッキング機能が搭載されている。かかるトラッキング機能は、主として図３について上述した行動制御システム３０における状況依存行動階層３８の処理により行われる。そして、このトラッキング機能に関しては、上述した図５に示すように、状況依存行動層３８内のトラッキング制御部３８Ｂにより行われる。

このトラッキング制御部３８Ｂの処理内容を機能的に分類すると、図５に示すように、視覚認識機能部３１、聴覚認識機能部３２及び接触認識機能部３３の認識結果を統合する認識統合部５５と、当該認識統合部５５の統合結果に基づいて、対話相手の位置を予測する予測部５６とに分けることができる。

この場合、認識統合部５５は、視覚認識機能部３１の認識結果、聴覚認識機能部３２の認識結果及び接触認識機能部３３の認識結果に基づいて、対話相手の顔画像、発声音及び接触状態の観点から当該対話相手の存在を認識する。

すなわち、視覚認識機能部３１は、ＣＣＤカメラ１０のセンサ出力でなる画像信号に基づいて行う画像認識処理のうち、肌色認識、顔認識及び個人認識の３種類の認識処理を、肌色認識処理、顔認識処理及び個人認識処理の順番で段階的に行うことにより、当該各認識処理の結果を認識統合部５５に送出する。

これら肌色認識、顔認識及び個人認識の各認識処理は、それぞれ人間の顔を認識するにあたって認識レベルが異なり、このうち対象となる人物が誰であるのかを特定する個人認識処理が最も認識が困難であるため上位となり、次に人間等の顔であるか否かを認識する顔認識処理が中位となり、最も認識が容易な肌色認識処理が下位となる。

具体的に視覚認識機能部３１は、画像信号に基づく画像から肌色領域を検出して、当該検出結果に基づき、画像内の対象物が人間の顔であるか否かを判断する。そして視覚認識機能部３１は、人間の顔であると判断した場合には、その顔領域の画像に基づいて、対話相手が誰であるかの個人を特定した後、この認識結果を認識統合部５５に送出する。

また聴覚認識機能部３２は、マイクロホン１１のセンサ出力でなる音声信号に基づいて行う各種音に関する認識処理のうち、ロボット１自身に対してどの方向から音声が聞こえたかを認識するための音声方向認識処理を行い、この認識結果を認識統合部５５に送出する。

例えば入出力部３（図１）に複数のマイクロホン１１が設けられている場合に、当該複数のマイクロホン１１を用いて、入力された音声イベントの音源方向を推定する。具体的には、例えば「大賀、山崎、金田『音響システムとディジタル処理』（電子情報通信学会）ｐ１９７」に記載されているように、音源方向と複数のマイクロホンで受音した信号の時間差とに一対一の関係があることを利用して音源方向を推定することができる。

すなわち、図７に示すように、θＳ方向から到来する平面波を、距離ｄだけ離れて設置された２つのマイクロホンＭ１、Ｍ２で受音する場合、各マイクロホンＭ１、Ｍ２の受音信号ｘ１(ｔ)とｘ２(ｔ)との間には、次式

に示すような関係が成立する。ここで、式（１）、（２）において、ｃは音速であり、τＳは２つのマイクロホンＭ１、Ｍ２で受音した信号の時間差である。

従って、受音信号ｘ１(ｔ)とｘ２(ｔ)との間の時間差τＳが分かれば、次式

により、音波の到来方向、すなわち音源方向を求めることができる。

ここで、時間差τＳは、次式

で表されるような、受音信号ｘ１(ｔ)とｘ２(ｔ)との間の相互相関関数φ１２(τ)から求めることができる。ここで、式（４）において、Ｅ[・]は期待値である。

上述した式（１）と式（４）とから、相互相関関数φ１２(τ)は、次式

のように表される。ここで、式（５）において、φ１１(τ)は受音信号ｘ１(ｔ)の自己相関関数である。

この自己相関関数φ１１(τ)は、τ＝０で最大値をとることが知られているため、式（５）より相互相関関数φ１２(τ)は、τ＝τＳで最大値をとる。したがって、相互相関関数φ１２(τ)を計算して、最大値を与えるτを求めればτＳが得られ、それを上述した式（３）に代入することにより、音波の到来方向、すなわち音源方向を求めることができる。

なお聴覚認識機能部３３（図５）は、マイクロホン１１で収音した音イベントが音声であったか否かを判別することができる。具体的には、例えばＨＭＭ（Hidden Markov Model）法により音声と非音声とを統計的にモデル化し、その尤度を比較することによって。音イベントが音声であったか否かを判別することができる。また聴覚認識機能部は、例えば文献「F.Asano, H.Asoh and T.Matsui, “Sound Source Localization and
Separation in Near Field”, IEICE Trans. Fundamental, Vol.E83-A, No.11, 2000」に記載されているような手法で音源までの推定距離を計算することにより、音源が近いか否かを大まかに判別することができる。

さらに接触認識機能部は、タッチセンサ１３のセンサ出力でなる圧力検出信号に基づいて行う外部刺激に関する認識処理のうち、ユーザによって触られたかを認識するための接触認識処理を行い、この認識結果を認識統合部５５に送出する。

認識統合部５５は、視覚認識機能部３１の認識結果、聴覚認識機能部３２の認識結果及び接触認識機能部３３の認識結果を統合する。この際の統合とは、画像上の同じ領域に対して、誰だかはよくわからないが顔と肌色が認識された、といった情報統合を意味する。すなわち、視覚認識機能部３１、聴覚認識機能部３２及び接触認識機能部３３の各認識が成功したか否かの情報と、認識が成功した場合はその認識情報が認識結果として送られ、認識が成功して認識情報が送られた場合は、その認識結果のち所定の認識結果又は１以上の認識結果から対話相手の方向を推定する。

かくして認識統合部５５は、認識結果に基づいて、対話相手の存在に対してトラッキングを行うための各行動内容を表す追跡行動データＤ２をハードウェア依存行動制御部４０内の行動発現部４０Ｂに順次送出する。

この結果、この追跡行動データＤ２に基づいて行動発現部４０Ｂにおいて行動決定信号Ｓ２が生成され、これが駆動部４（図１）の対応する駆動ユニット１５_１〜１５_ｎに与えられることにより、例えば対話相手の顔の重心等が入力画像の中心に位置するようにロボット１の首関節が動かされることとなる。

そして認識統合部５５は、個人認識処理に失敗した場合には、その他の顔認識処理、肌色認識処理、音声方向認識処理又は接触認識処理のいずれかの認識結果を使用してトラッキングを継続するよう制御する。例えば、顔認識処理の認識結果を使用して対話相手の人物の顔の方向（位置）を予想する。すなわち、個人としての認識はできないものの、顔認識処理は成功しており、顔であることは認識できている場合、その顔を同一個人として該個人をまだトラッキングできているものとし、当該顔領域が入力画像の中心にくるよう駆動部４を制御する。また、顔認識処理に失敗している場合は、例えば肌色認識処理の認識結果を用い、さらに肌色認識処理も失敗したときは、音声方向認識処理の認識結果を使用し、音声方向にロボット１の正面が向くように駆動部４を制御する。

なお、認識統合部５５は、各種の認識結果のいずれを優先的に使用するかは、予め設定してもよく、又はロボット１が適宜選択してもよい。例えば、個人認識処理による認識が失敗する直前の対話相手の位置（方向）と最も近い認識処理の認識結果を使用するようにしてもよい。

また予測部５６は、認識統合部５５の認識統合結果が供給され、各認識処理の認識結果の不安定さにより一時的に認識対象が認識できなくなった場合（認識に失敗した場合）、対象物の位置を予測するものであり、例えばいずれの認識処理からの認識結果も失敗したような場合に、失敗する直前までの認識結果に基づき現在の対象物の位置（方向）を予測する。

そして予測部５６は、例えば認識統合部５５から認識統合結果が常に供給され、上述のトラッキング制御部等により、対象物を認識できなくなった場合に、対象物の位置の予測を開始するよう指示されるなど、各種の認識処理の認識の回復を一定時間待つなどの制御が行われる。または、対象物が認識できなくなった場合に、認識統合部５５からその直前までの認識結果が供給され、対象物の位置を予測するよう指示されてもよい。

そして、この予測部５６は、対象物が認識されなくなる直前の認識結果から対象物の方向を予測し、その予測方向を駆動部４（図１）に送出する。すなわち、ロボット１がトラッキングするために必要な画像による外界認識はしばしば不安定であり、ライティング（照明条件）や、人物の顔の角度に敏感であり、これらが少し変化すると視覚認識機能部３１は各種認識処理に失敗するおそれがある。また、ボール等の対象物が大きく動くと不均一な照明条件下をボールが移動することになり、認識が難しくなる。さらに自律動作が可能なロボット１は、内部状態及び外部刺激に基づき常に発現する動作が選択され、例えばトラッキング動作より例えば優先順位が高い他の動作が生じた場合には、トラッキング動作を中断し、他の動作を発現を許す場合がある。例えば、ある人物Ａとの会話中に別の人物Ｂに呼ばれ、ロボット１が振り向いて人物Ｂと短い会話をした後、元の人物Ａとの会話を継続しようとする場合等、一旦トラッキングを停止した後、再びトラッキングを開始したい場合が生じる。このような場合、元の人物Ａの存在位置等を記憶しておくことは原理的にはできるものの、人物Ａが少しでも動いたりすると認識の不安定さからトラッキングを再開できない場合がある。

このような場合においても、例えば対象物が動体であった場合は、直前の動き量から、現在の位置（方向）を予測して予測方向を求める。また、認識に失敗する直前の所定期間、対象物が静止していたと判断できるような場合は、直前の対象物の方向を予測位置とする。

そしてハードウェア依存行動制御部４０内の行動発現部４０Ｂは、認識統合部５５又は予測部５６からの制御情報に基づき追跡行動データＤ２を生成し、これを駆動部４を介して出力する。すなわちロボット１の各関節における各駆動ユニット１５_１〜１５_ｎについて、当該各関節をロール、ピッチ、ヨーなど各軸を中心として回転させる回転角度や回転位置を算出し、対応するモータ１６_１〜１６_ｎを駆動制御することにより、対象物の動きに合わせてロボット１の首等を回転させるなどしてロボット１にトラッキングを行わせる。

なお、予測部５６は、全ての認識処理が失敗したときに対象物の方向を予測するものとしたが、上述した認識統合部５５における処理の一部を予測部５６にて行わせるようにしてもよい。すなわち、上位の個人認識処理が失敗した際に、下位の顔認識処理の認識結果や音声方向認識処理の認識結果を使用してトラッキングを継続する際の処理を予測部５６が行うようにしてもよい。

（３）対話相手確認処理手順
実際にロボット１では、マイクロホン１１を介してユーザからの発話を受けると、制御ユニット２は、図８に示す対話相手確認処理手順ＲＴ１をステップＳＰ２０から開始し、続くステップＳＰ２１において、カウンタ（図示せず）をリセットした後、ステップＳＰ２２に進んで、対話相手の存在を上述したトラッキング機能によりトラッキングすることが可能か否かを判断する。

このステップＳＰ２２において肯定結果が得られると、このことは対話相手がロボット１の目前に存在していることを表しており、このとき制御ユニット２は、ステップＳＰ２３に進んで、当該対話相手に次の発話を続けながら、再度ステップＳＰ２１に戻って上述と同様の処理を繰り返す。

一方、ステップＳＰ２２において否定結果が得られると、このことは対話相手の存在を未だ認識していないことを表しており、このとき制御ユニット２は、ステップＳＰ２４に進んで、タッチセンサ１３が数秒程度（２〜３秒）触られたか否かを判断する。

このステップＳＰ２４において肯定結果が得られると、このことは対話相手がロボット１の目前に存在していることを表しており、このとき制御ユニット２は、ステップＳＰ２３に進んで、当該対話相手に次の発話を続けながら、再度ステップＳＰ２１に戻って上述と同様の処理を繰り返す。

一方、ステップＳＰ２４において否定結果が得られると、このことは対話相手の存在を未だ認識していないことを表しており、このとき制御ユニット２は、ステップＳＰ２５に進んで、図示しないタイマの計測を開始すると共に、ユーザからの応答があったか否かを判断する。

このステップＳＰ２５において肯定結果が得られると、このことはマクロホン１１を介して何らかの発話音を収音したことを表しており、このとき制御ユニット２は、ステップＳＰ２６に進んで、当該収音した発話音の内容が予想した応答内容と一致するか否かを判断する。

一方、ステップＳＰ２５において否定結果が得られると、このことは未だマイクロホン１１を介して何も発話音を収音していないことを表しており、このとき制御ユニット２は、ステップＳＰ２７に進んで、タイマの開始時点から所定時間（例えば５〜７秒）経過したか否かを判断する。

このステップＳＰ２７において肯定結果が得られると、制御ユニット２は、タイムアウトと判断して、ステップＳＰ２８に進む一方、否定結果が得られると、未だタイムアウトではないと判断して再度ステップＳＰ２５に戻って上述と同様の処理を繰り返す。

続いてステップＳＰ２６において肯定結果が得られると、このことはマイクロホン１１を介して収音した発話音の内容が予想した応答内容と一致することを表しており、このとき制御ユニット２は、対話相手がロボット１の目前に存在していると判断して、ステップＳＰ２３に進んで、当該対話相手に次の発話を続けながら、再度ステップＳＰ２１に戻って上述と同様の処理を繰り返す。

一方、ステップＳＰ２６において否定結果が得られると、このことはマイクロホン１１を介して収音した発話音の内容が予想した応答内容と異なることを表しており、このとき制御ユニット２は、対話相手の存在を未だ認識していないと判断して、ステップＳＰ２８に進む。

このステップＳＰ２８において、制御ユニット２は、上述したステップＳＰ２１でリセットされているカウンタの数値を判断して、Ｎ（Ｎは任意の自然数）回未満の場合には、ステップＳＰ２９に進んで、ユーザに応答を促すように同じ意図の発話内容で話しかけながら、ステップＳＰ３０に進んで、カウンタを１つインクリメントした後、再度ステップＳＰ２２に戻って上述と同様の処理を繰り返す。

一方、ステップＳＰ２８において、制御ユニット２は、カウンタの数値がＮ回以上であると判断した場合には、ステップＳＰ３１に進んで、ユーザに対してタッチセンサ１３への入力を依頼するような発話内容で話しかけると同時にタイマの計測を開始した後、ステップＳＰ３２に進む。

このステップＳＰ３２において、制御ユニット２は、ユーザへの話しかけを開始してから所定時間内（例えば５秒以内）にタッチセンサ１３への入力があったか否かを判断し、肯定結果が得られた場合、このことは対話相手がロボット１の目前に存在していることを表しており、ステップＳＰ２３に進んで、当該対話相手に次の発話を続けながら、再度ステップＳＰ２１に戻って上述と同様の処理を繰り返す。

一方、ステップＳＰ３２において否定結果が得られると、このことは所定時間が経過した後であっても対話相手の存在を確認できなかったことを表しており、このとき制御ユニット２は、ステップＳＰ３３に進んで、対話を終了する旨の発話を生成した後、そのままステップＳＰ３４に進んで当該対話相手確認処理手順ＲＴ１を終了する。

このようにロボット１では、ユーザとの対話中にトラッキングができる間は、対話相手の存在を確認し得ることから、ユーザの発話内容が予測する応答内容と一致しなくても、次の発話を続けながらロボット１への応答の仕方を誘導することにより、ユーザとの対話を進めることができる。

まずロボット１が例えば『ゆきこさんの好きな食べ物って何？』といった発話を生成した後、ユーザから『えーと』といった発話が得られると、続いてロボット１は『ゆきこさんの好きな食べ物って何か教えてくれる？』といった発話を生成する。その後ユーザから『え？』といった発話が得られると、ロボット１は『ナニナニだよって答えてね』といった発話を生成することにより、ユーザから『りんごだよ』といった発話を得ることができる。

またロボット１において、ユーザとの対話中にトラッキングができなくなっても、ユーザの発話内容が予測する応答内容と一致する場合には、ロボット１の質問に対するユーザの応答が当該質問に沿った内容の応答であれば、ユーザが対話相手としてロボット１の目前に存在するもの判断することができ、そのままユーザとの対話を続けることができる。

例えばロボット１が『ゆきこさんの好きな食べ物って何？』といった発話を生成した後、ユーザの存在をトラッキングできなくなっても、ユーザから『りんごだよ』といったロボット１が期待する応答内容の発話を得ることができれば、当該ユーザは対話相手として存在していると判断して対話を進めることができる。

さらにロボット１において、ユーザとの対話中にトラッキングができなくなった場合であって、かつロボット１が期待する応答内容の発話が得られない場合や全く音声認識ができない場合には、何回かロボット１が質問を表す発話を繰り返し、それでも期待する応答内容の発話が得られなかった場合には、対話相手がいなくなってしまったものと判断することができ、不自然な対話を終了することができる。

例えばロボット１が『ゆきこさんの好きな食べ物って何？』といった発話を生成した後、所定時間経過した後でもユーザから全く応答がなく、さらにロボット１がこれと同じ意図の『ゆきこさんの好きな食べ物って何か教えてくれる？』といった発話をして所定時間経過した後でも、ユーザから何ら応答がない場合には、ロボット１は『あれ？いなくなっちゃったのかな？』といった対話を終了する旨の発話を生成することにより、独り言のような不自然な対話を終了することができる。

（４）本実施の形態の動作及び効果
以上の構成において、このロボット１では、各種認識処理の認識結果に基づいて、対話相手であるユーザの存在を追跡するトラッキング機能を実行しながら、ユーザに特化した話題の対話を行うための対話制御機能も実行する。

その際、ロボット１は、ユーザとの対話中に当該ユーザの存在をトラッキングができる間は、対話相手の存在を確認し得ると判断して次の発話を続けながらロボット１への応答の仕方を誘導することにより、ユーザとの対話をあたかも人間同士が行うような自然な感じで進めることができる。

一方、ロボット１は、現在の環境が非常に暗い場合のように対話相手であるユーザの存在をトラッキングができなくなった場合には、ユーザの発話内容がロボット１が予測する応答内容と一致するときのみ、ロボット１の目前に対話相手が存在するものと判断してユーザとの対話を進めても、自己の目前に対話相手が存在するにもかかわらず、その存在がないと判断して対話を止めてしまうのを有効に防止することができる。

さらにロボット１は、ユーザとの対話中にトラッキングができなくなった場合であって、かつロボット１が予測する応答内容の発話が得られない場合には、同じ意図の発話内容で何回かユーザに応答を促すことを繰り返し、それでも期待する応答内容の発話が得られなかった場合には、対話相手がいなくなってしまったものと判断してユーザとの対話を止めても、あたかも独り言のような不自然な対話を行い続けるのを回避することができる。またテレビジョンやラジオ等の雑音に反応するのを未然に回避することもできる。

以上の構成によれば、ロボット１において、各種認識処理の認識結果に基づいて、対話相手であるユーザの存在を追跡するトラッキング機能を実行しながら、ユーザに特化した話題の対話を行うための対話制御機能も実行するようにして、対話相手の存在を総合的に判断するようにしたことにより、現在の環境下に何ら影響されることなく、対話相手の存在を確実に認識することができ、この結果、人間が普段行う場合と同様な自然な対話を行うことができ、かくしてエンターテインメント性を格段と向上させ得ることができる。

（５）他の実施の形態
なお上述の実施の形態においては、本発明を図１〜図３のように構成されたエンターテインメントロボットに適用するようにした場合について述べたが、本発明はこれに限らず、これ以外の構成を有するエンターテインメントロボットや、これ以外のロボット、ロボット以外の各種機器又はユーザとの対話制御を行うこの他種々の対話制御装置に広く適用することができる。また例えばテレビゲーム用のソフトウェア等など各種ソフトウェアにも広く応用することができる。

また上述の実施の形態においては、図４について上述した各項目の印象度をその項目の値を獲得する際に決定し、その後は更新しないようにした場合について述べたが、本発明はこれに限らず、印象度を更新するようにしても良い。このようにすることによって、各種話題の出現頻度をも変更することができ、その分そのときそのときの状況に応じた会話を行うことができるため、ロボット１のエンターテインメント性をより一層と向上させることができる。

さらに上述の実施の形態においては、図４について上述した各項目の印象度を、その項目を獲得する前後の内部状態管理部３４に保持された「愛情」のパラメータ値の差分により計算するようにした場合について述べたが、本発明はこれに限らず、内部状態管理部３４に保持された他の本能的要素又は情動的要素のパラメータ値に基づいて計算するようにしても良く、これ以外の手法により得られるようにしても良い。

さらに上述の実施の形態においては、対話相手と対話するための機能を有する音声対話装置において、対話相手の発話を音声認識する音声認識手段として聴覚認識機能部３２を適用し、対話相手の顔を画像認識する画像認識手段として視覚認識機能部３１を適用し、対話相手の接触を認識する接触認識手段として接触認識機能部３３を適用するようにした場合について述べたが、本発明はこれに限らず、対話相手の発話、顔及び接触を認識することができれば、この他種々の構成からなる各種認識手段に広く適用するようにしても良い。

さらに上述の実施の形態においては、聴覚認識機能部（音声認識手段）３２の認識結果に基づいて、対話相手との対話を制御する対話制御手段として、制御ユニット２の制御の下で、状況依存行動階層３８内の対話制御部３８Ａを適用するようにした場合について述べたが、本発明はこれに限らず、要は対話相手の発話を音声認識して得られる音声認識結果に基づいて、当該対話相手との対話を制御することができれば、この他種々の構成のものを適用するようにしても良い。

さらに上述の実施の形態においては、視覚認識機能部（画像認識手段）３１の認識結果及び聴覚認識機能部（音声認識手段）３２の認識結果の双方又は一方に基づいて、対話相手の存在を追跡するトラッキング制御手段として、制御ユニット２の制御の下で、状況依存行動階層３８内のトラッキング制御部３８Ｂを適用するようにした場合について述べたが、本発明はこれに限らず、要は対話相手の顔を画像認識して得られる画像認識結果及び当該対話相手の発話を音声認識して得られる音声認識結果の双方又は一方に基づいて、当該対話相手を追跡することができれば、この他種々の構成のものを適用するようにしても良い。

この場合、トラッキング制御部（トラッキング制御手段）３８Ｂは、聴覚認識機能部（音声認識手段）３２の認識結果、視覚認識機能部（画像認識手段）３１の認識結果、接触認識機能部（接触認識機能部）３３の認識結果の任意の組み合わせに基づいて、対話相手の存在を追跡するようにしても良い。

さらに上述の実施の形態においては、対話制御部（対話制御手段）３８Ａは、トラッキング制御部（トラッキング制御手段）３８Ｂによる追跡ができないときであっても、聴覚認識機能部（音声認識手段）３２の認識結果として得られる対話相手の発話内容が予測される応答内容と一致する場合には、対話を続けるように制御するようにした場合について述べたが、本発明はこれに限らず、要は、現在の環境が非常に暗い場合であっても、実際にはロボット１の目前に対話相手が存在するにもかかわらず、その存在がないと判断して対話を止めてしまうのを有効に防止することができれば、この他種々の制御方法を適用するようにしても良い。

この場合、対話制御部（対話制御手段）３８Ａは、トラッキング制御部（トラッキング制御手段）３８Ｂによる追跡ができないときであっても、接触認識機能部（接触認識手段）３３の認識結果として得られる対話相手の接触がある場合には、対話を続けるように制御するようにしても、上述と同様の効果を得ることができる。

さらに上述の実施の形態においては、対話制御部（対話制御手段）３８Ａは、トラッキング制御部（トラッキング制御手段）３８Ｂによる追跡ができず、かつ対話相手の発話内容が予測される応答内容と一致しない場合であって、対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から応答内容が得られなかった場合には、対話を終了するように制御するようにした場合について述べたが、本発明はこれに限らず、要は、何度も対話相手に応答内容を促しても期待する結果が得られなかった場合に、対話相手がいなくなってしまったにもかかわらず、あたかも独り言のような不自然な対話を行い続けるのを回避することができれば、この他種々の制御方法を適用するようにしても良い。

この場合対話制御部（対話制御手段）３８Ａは、トラッキング制御部（トラッキング制御手段）３８Ｂによる追跡ができず、かつ対話相手の発話内容が予測される応答内容と一致しない場合であって、対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から応答内容が得られなかった場合には、対話を終了するように制御する直前に、対話相手に接触認識機能部（接触認識手段）３３に認識させる旨を通知した後、当該接触認識機能部（接触認識手段）３３の認識結果として得られる対話相手の接触がある場合には、対話を続けるように制御するようにしても、上述と同様の効果を得ることができる。

さらに上述の実施の形態においては、対話制御部（対話制御手段）３８Ａは、対話相手の発話が所定時間経過後に得られない場合には、対話相手に当該応答内容を促す旨を通知するようにしてタイムアウトを設定するようにした場合について述べたが、このタイムアウトは、予測する応答内容を待つ時間として種々の時間に自由に設定するようにしても良い。

音声対話装置及び方法並びにロボット装置において、アミューズメントロボットや介護ロボットなどに適用することができる。

本実施の形態によるロボットの機能構成を模式的に示したブロック図である。制御ユニットの構成を示すブロック図である。ロボットのソフトウェア構成を示すブロック図である。獲得情報の記録フォーマットの説明に供する概念図である。対話制御機能及びトラッキング機能に関する主要部の構成を示す概念図である。会話生成手順の説明に供する概念図である。音声方向認識処理の説明に供する概念図である。対話相手確認処理手順の説明に供するフローチャートである。

符号の説明

１……ロボット、２……制御ユニット２、１０……ＣＣＤカメラ、１１……マイクロホン、１２……スピーカ、２１……ＣＰＵ、２３……ＲＯＭ、３１……視覚認識機能部、３２……聴覚認識機能部、３３……接触認識機能部、３４……内部状態管理部、３６……長期記憶部、３８……状況依存行動階層、４０……ハードウェア依存層制御部、４０Ａ……音声合成部、４０Ｂ……行動発現部、５０……記憶獲得会話生成部、５１……記憶利用会話生成部、５２……状況判断部、５５……認識統合部、５６……予測部、Ｄ１……文字列データ、ＲＴ１……対話相手確認処理手順。

Claims

対話相手と対話するための機能を有する音声対話装置において、
上記対話相手の発話を音声認識する音声認識手段と、
上記音声認識手段の認識結果に基づいて、上記対話相手との対話を制御する対話制御手段と、
上記対話相手の顔を画像認識する画像認識手段と、
上記画像認識手段の認識結果及び上記音声認識手段の認識結果の双方又は一方に基づいて、上記対話相手の存在を追跡するトラッキング制御手段と
を具え、
上記対話制御手段は、上記トラッキング制御手段による上記追跡に合わせて、上記対話を続けるように制御する
ことを特徴とする音声対話装置。
上記対話制御手段は、
上記トラッキング制御手段による上記追跡ができないときであっても、上記音声認識手段の認識結果として得られる上記対話相手の発話内容が予測される応答内容と一致する場合には、上記対話を続けるように制御する
ことを特徴とする請求項１に記載の音声対話装置。
上記対話制御手段は、
上記トラッキング制御手段による上記追跡ができず、かつ上記対話相手の発話内容が予測される応答内容と一致しない場合であって、上記対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から上記応答内容が得られなかった場合には、上記対話を終了するように制御する
ことを特徴とする請求項２に記載の音声対話装置。
上記対話制御手段は、
上記対話相手の発話が所定時間経過後に得られない場合には、上記対話相手に当該応答内容を促す旨を通知する
ことを特徴とする請求項３に記載の音声対話装置。
上記対話相手の接触を認識する接触認識手段を具え、
上記トラッキング制御手段は、
上記音声認識手段の認識結果、上記画像認識手段の認識結果及び上記接触認識手段の認識結果の任意の組み合わせに基づいて、上記対話相手の存在を追跡する
ことを特徴とする請求項１に記載の音声対話装置。
上記対話制御手段は、
上記トラッキング制御手段による上記追跡ができないときであっても、上記接触認識手段の認識結果として得られる上記対話相手の接触がある場合には、上記対話を続けるように制御する
ことを特徴とする請求項５に記載の音声対話装置。
上記対話制御手段は、
上記トラッキング制御手段による上記追跡ができず、かつ上記対話相手の発話内容が予測される応答内容と一致しない場合であって、上記対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から上記応答内容が得られなかった場合には、上記対話を終了するように制御する直前に、上記対話相手に上記接触認識手段に認識させる旨を通知した後、当該接触認識手段の認識結果として得られる上記対話相手の接触がある場合には、上記対話を続けるように制御する
ことを特徴とする請求項５に記載の音声対話装置。
対話相手と対話するための機能を有する音声対話方法において、
上記対話相手の発話を音声認識して得られる音声認識結果、及び当該対話相手の顔を画像認識して得られる画像認識結果の双方又は一方に基づいて、対話相手の存在を追跡する第１のステップと、
上記追跡に合わせて、上記音声認識結果に基づき得られる上記対話相手との対話を続けるように制御する第２のステップと
を具えることを特徴とする音声対話方法。
上記第２のステップでは、
上記第１のステップによる上記追跡ができないときであっても、上記音声認識結果として得られる上記対話相手の発話内容が予測される応答内容と一致する場合には、上記対話を続けるように制御する
ことを特徴とする請求項８に記載の音声対話方法。
上記第２のステップでは、
上記第１のステップによる上記追跡ができず、かつ上記対話相手の発話内容が予測される応答内容と一致しない場合であって、上記対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から上記応答内容が得られなかった場合には、上記対話を終了するように制御する
ことを特徴とする請求項９に記載の音声対話方法。
上記第２のステップでは、
上記対話相手の発話が所定時間経過後に得られない場合には、上記対話相手に当該応答内容を促す旨を通知する
ことを特徴とする請求項１０に記載の音声対話方法。
上記第１のステップでは、
上記音声認識結果、上記画像認識結果及び上記対話相手の接触を認識する接触認識結果の任意の組み合わせに基づいて、上記対話相手の存在を追跡する
ことを特徴とする請求項８に記載の音声対話方法。
上記第２のステップでは、
上記第１のステップによる上記追跡ができないときであっても、上記接触認識結果として得られる上記対話相手の接触がある場合には、上記対話を続けるように制御する
ことを特徴とする請求項１２に記載の音声対話方法。
上記第２のステップでは、
上記第１のステップによる上記追跡ができず、かつ上記対話相手の発話内容が予測される応答内容と一致しない場合であって、上記対話相手に当該応答内容を促す旨の通知を所定回数繰り返した後でも、当該対話相手から上記応答内容が得られなかった場合には、上記対話を終了するように制御する直前に、上記対話相手に上記接触認識させる旨を通知した後、当該接触認識結果として得られる上記対話相手の接触がある場合には、上記対話を続けるように制御する
ことを特徴とする請求項１２に記載の音声対話方法。
対話相手と対話するための機能を有する音声対話装置を含むロボット装置において、
上記対話相手の発話を音声認識する音声認識手段と、
上記音声認識手段の認識結果に基づいて、上記対話相手との対話を制御する対話制御手段と、
上記対話相手の顔を画像認識する画像認識手段と、
上記画像認識手段の認識結果及び上記音声認識手段の認識結果の双方又は一方に基づいて、上記対話相手の存在を追跡するトラッキング制御手段と
を具え、
上記対話制御手段は、上記トラッキング制御手段による上記追跡に合わせて、上記対話を続けるように制御する
ことを特徴とするロボット装置。