JP4062591B2

JP4062591B2 - 対話処理装置及び方法並びにロボット装置

Info

Publication number: JP4062591B2
Application number: JP2002060427A
Authority: JP
Inventors: 一美青山; 秀樹下村; 敬一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-03-06
Filing date: 2002-03-06
Publication date: 2008-03-19
Anticipated expiration: 2022-03-06
Also published as: JP2003255990A

Description

【０００１】
【発明の属する技術分野】
本発明は、対話処理装置及び方法並びにロボット装置に関し、例えばエンターテインメントロボットに適用して好適なものである。
【０００２】
【従来の技術】
従来の音声対話システムとしては、例えばテレフォンショッピングの受け付けや、電話番号案内など、あるタスクの達成を目的としたものがほとんどである。かかるタスク指向の対話は、ユーザに何を聞けばよいのかが所定の一連の流れに従ってある程度決まっているので、通常は、シナリオが予め定められた対話の記述に適した状態遷移図やスロットフィリングによって対話が記述される。
【０００３】
【発明が解決しようとする課題】
ところで、近年、一般家庭向けのエンターテインメントロボットが数多く商品化されている。このようなエンターテインメントロボットに対し、例えば人間同士が日常的に行う対話と同様の対話をユーザとの間で行い得るような音声対話機能を搭載することができれば、当該エンターテインメントロボットに対するユーザの親近感を向上させてエンターテインメント性を格段的に向上させ得、さらには一人暮らしの老人の話し相手にもなり得る等、その有用性を格段的に向上させ得るものと考えられる。
【０００４】
しかしながら、人間同士の対話の中には、上述のようなある一定の目的を達成するための対話以外に対話そのものが目的となる雑談がある。そして雑談時には、ユーザが何を喋るのかを予測することが難しく、例えば状態遷移図やスロットフィリングによって、全てのユーザ発話を予測してシステムの応答を記述しておくことは大変困難であり、従来提案されている手法では実用上十分には対応し得ない問題がある。
【０００５】
またユーザとの対話では、カウンセリングを例とするような受動的に聞くというインタラクションも必要となってくるが、この際のロボットの応答の仕方にも工夫が必要であり、単にロボットが機械的にうなずいているだけでは対話が成立せず、不自然さをユーザに感じさせる問題がある。
【０００６】
本発明は以上の点を考慮してなされたもので、自然な対話を行い得る簡易な構成の対話処理装置及びロボット装置、並びに装置構成を簡易化させながら、自然な対話を行い得るようにすることができる対話処理方法を提案しようとするものである。
【０００７】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、対話処理装置において、対話相手の発話を音声認識し認識文字列を生成する音声認識手段と、対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する複数の応答生成手段と、カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各応答生成手段によりそれぞれ生成された応答候補文字列の中から１つの応答候補文字列を応答文字列として選択する選択手段と、応答文字列を基に応答音声を生成し外部に音声出力する音声出力手段とを設けるようにした。
【０００８】
この結果、この対話処理装置においては、例えば雑談等の目的のない対話にも実用上十分に対応することができ、また例えば状態遷移図やスロットフィリングによって全てのユーザ発話を予測してシステムの応答を記述しておく場合に比べて設計や構成を格段的に容易化及び簡易化させることができる。
【０００９】
また本発明においては、対話処理方法において、対話相手の発話を音声認識し認識文字列を生成する第１のステップと、認識文字列に対する応答候補文字列をそれぞれ生成する複数の応答手段が、対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する第２のステップと、応答文字列を選択する選択手段が、カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各応答候補文字列の中から１つの応答候補文字列を応答文字列として選択する第３のステップと、応答文字列を基に応答音声を生成し外部に音声出力する第４のステップとを設けるようにした。
【００１０】
この結果、この対話処理方法によれば、例えば雑談等の目的のない対話にも実用上十分に対応することができ、また例えば状態遷移図やスロットフィリングによって全てのユーザ発話を予測してシステムの応答を記述しておく場合に比べて装置の設計や構成を格段的に容易化及び簡易化させることができる。
【００１１】
さらに本発明においては、ロボット装置において、対話相手の発話を音声認識し認識文字列を生成する音声認識手段と、対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する複数の応答生成手段と、カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各応答生成手段によりそれぞれ生成された各応答候補文字列の中から１つの応答候補文字列を応答文字列として選択する選択手段と、応答文字列を基に応答音声を生成し外部に音声出力する音声出力手段とを設けるようにした。
【００１２】
この結果、このロボット装置においては、例えば雑談等の目的のない対話にも実用上十分に対応することができ、また例えば状態遷移図やスロットフィリングによって全てのユーザ発話を予測してシステムの応答を記述しておく場合に比べて設計や構成を格段的に容易化及び簡易化させることができる。
【００１３】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【００１４】
（１）本実施の形態によるロボット１の構成
図１及び図２において、１は全体として本実施の形態による２足歩行型のロボットを示し、胴体部ユニット２の上部に頭部ユニット３が配設されると共に、当該胴体部ユニット２の上部左右にそれぞれ同じ構成の腕部ユニット４Ａ、４Ｂがそれぞれ配設され、かつ胴体部ユニット２の下部左右にそれぞれ同じ構成の脚部ユニット５Ａ、５Ｂがそれぞれ所定位置に取り付けられることにより構成されている。
【００１５】
胴体部ユニット２においては、体幹上部を形成するフレーム１０及び体幹下部を形成する腰ベース１１が腰関節機構１２を介して連結することにより構成されており、体幹下部の腰ベース１１に固定された腰関節機構１２の各アクチュエータＡ_１、Ａ_２をそれぞれ駆動することによって、体幹上部を図３に示す直交するロール軸１３及びピッチ軸１４の回りにそれぞれ独立に回転させることができるようになされている。
【００１６】
また頭部ユニット３は、フレーム１０の上端に固定された肩ベース１５の上面中央部に首関節機構１６を介して取り付けられており、当該首関節機構１６の各アクチュエータＡ_３、Ａ_４をそれぞれ駆動することによって、図３に示す直交するピッチ軸１７及びヨー軸１８の回りにそれぞれ独立に回転させることができるようになされている。
【００１７】
さらに各腕部ユニット４Ａ、４Ｂは、それぞれ肩関節機構１９を介して肩ベース１５の左右に取り付けられており、対応する肩関節機構１９の各アクチュエータＡ_５、Ａ_６をそれぞれ駆動することによって図３に示す直交するピッチ軸２０及びロール軸２１の回りにそれぞれ独立に回転させることができるようになされている。
【００１８】
この場合、各腕部ユニット４Ａ、４Ｂは、それぞれ上腕部を形成するアクチュエータＡ_７の出力軸に肘関節機構２２を介して前腕部を形成するアクチュエータＡ_８が連結され、当該前腕部の先端に手部２３が取り付けられることにより構成されている。
【００１９】
そして各腕部ユニット４Ａ、４Ｂでは、アクチュエータＡ_７を駆動することによって前腕部を図３に示すヨー軸２４の回りに回転させ、アクチュエータＡ_８を駆動することによって前腕部を図３に示すピッチ軸２５の回りにそれぞれ回転させることができるようになされている。
【００２０】
これに対して各脚部ユニット５Ａ、５Ｂにおいては、それぞれ股関節機構２６を介して体幹下部の腰ベース１１にそれぞれ取り付けられており、それぞれ対応する股関節機構２６の各アクチュエータをＡ_９〜Ａ_１１それぞれ駆動することによって、図３に示す互いに直交するヨー軸２７、ロール軸２８及びピッチ軸２９の回りにそれぞれ独立に回転させることができるようになされている。
【００２１】
この場合各脚部ユニット５Ａ、５Ｂは、それぞれ大腿部を形成するフレーム３０の下端に膝関節機構３１を介して下腿部を形成するフレーム３２が連結されると共に、当該フレーム３２の下端に足首関節機構３３を介して足部３４が連結されることにより構成されている。
【００２２】
これにより各脚部ユニット５Ａ、５Ｂにおいては、膝関節機構３１を形成するアクチュエータＡ_１２を駆動することによって、下腿部を図３に示すピッチ軸３５の回りに回転させることができ、また足首関節機構３３のアクチュエータＡ_１３、Ａ_１４をそれぞれ駆動することによって、足部３４を図３に示す直交するピッチ軸３６及びロール軸３７の回りにそれぞれ独立に回転させることができるようになされている。
【００２３】
一方、胴体部ユニット２の体幹下部を形成する腰ベース１１の背面側には、図４に示すように、当該ロボット１全体の動作制御を司るメイン制御部４０と、電源回路及び通信回路などの周辺回路４１と、バッテリ４５（図５）となどがボックスに収納されてなる制御ユニット４２が配設されている。
【００２４】
そしてこの制御ユニット４２は、各構成ユニット（胴体部ユニット２、頭部ユニット３、各腕部ユニット４Ａ、４Ｂ及び各脚部ユニット５Ａ、５Ｂ）内にそれぞれ配設された各サブ制御部４３Ａ〜４３Ｄと接続されており、これらサブ制御部４３Ａ〜４３Ｄに対して必要な電源電圧を供給したり、これらサブ制御部４３Ａ〜４３Ｄと通信を行ったりすることができるようになされている。
【００２５】
また各サブ制御部４３Ａ〜４３Ｄは、それぞれ対応する構成ユニット内の各アクチュエータＡ_１〜Ａ_１４と接続されており、当該構成ユニット内の各アクチュエータＡ_１〜Ａ_１４をメイン制御部４０から与えられる各種制御コマンドに基づいて指定された状態に駆動し得るようになされている。
【００２６】
さらに頭部ユニット３には、図５に示すように、このロボット１の「目」として機能するＣＣＤ（Charge Coupled Device ）カメラ５０及び「耳」として機能するマイクロホン５１及びタッチセンサ５２などからなる外部センサ部５３と、「口」として機能するスピーカ５４となどがそれぞれ所定位置に配設され、制御ユニット４２内には、バッテリセンサ５５及び加速度センサ５６などからなる内部センサ部５７が配設されている。
【００２７】
そして外部センサ部５３のＣＣＤカメラ５０は、周囲の状況を撮像し、得られた画像信号Ｓ１Ａをメイン制御部に送出する一方、マイクロホン５１は、ユーザから音声入力として与えられる「歩け」、「伏せ」又は「ボールを追いかけろ」等の各種命令音声を集音し、かくして得られた音声信号Ｓ１Ｂをメイン制御部４０に送出するようになされている。
【００２８】
またタッチセンサ５２は、図１及び図２において明らかなように頭部ユニット３の上部に設けられており、ユーザからの「撫でる」や「叩く」といった物理的な働きかけにより受けた圧力を検出し、検出結果を圧力検出信号Ｓ１Ｃとしてメイン制御部４０に送出する。
【００２９】
さらに内部センサ部５７のバッテリセンサ５５は、バッテリ４５のエネルギ残量を所定周期で検出し、検出結果をバッテリ残量検出信号Ｓ２Ａとしてメイン制御部４０に送出する一方、加速度センサ５６は、３軸方向（ｘ軸、ｙ軸及びｚ軸）の加速度を所定周期で検出し、検出結果を加速度検出信号Ｓ２Ｂとしてメイン制御部４０に送出する。
【００３０】
メイン制御部４０は、外部センサ部５３のＣＣＤカメラ５０、マイクロホン５１及びタッチセンサ５２等からそれぞれ供給される画像信号Ｓ１Ａ、音声信号Ｓ１Ｂ及び圧力検出信号Ｓ１Ｃ等（以下、これらをまとめて外部センサ信号Ｓ１と呼ぶ）と、内部センサ部５７のバッテリセンサ５５及び加速度センサ等からそれぞれ供給されるバッテリ残量検出信号Ｓ２Ａ及び加速度検出信号Ｓ２Ｂ等（以下、これらをまとめて内部センサ信号Ｓ２と呼ぶ）に基づいて、ロボット１の周囲及び内部の状況や、ユーザからの指令、ユーザからの働きかけの有無などを判断する。
【００３１】
そしてメイン制御部４０は、この判断結果と、予め内部メモリ４０Ａに格納されている制御プログラムと、そのとき装填されている外部メモリ５８に格納されている各種制御パラメータとに基づいて続く行動を決定し、決定結果に基づく制御コマンドを対応するサブ制御部４３Ａ〜４３Ｄに送出する。この結果、この制御コマンドに基づき、そのサブ制御部４３Ａ〜４３Ｄの制御のもとに、対応するアクチュエータＡ_１〜Ａ_１４が駆動され、かくして頭部ユニット３を上下左右に揺動させたり、腕部ユニット４Ａ、４Ｂを上にあげたり、歩行するなどの行動がロボット１により発現されることとなる。
【００３２】
またこの際メイン制御部４０は、必要に応じて所定の音声信号Ｓ３をスピーカ５４に与えることにより当該音声信号Ｓ３に基づく音声を外部に出力させたり、外見上の「目」として機能する頭部ユニット３の所定位置に設けられたＬＥＤに駆動信号を出力することによりこれを点滅させる。
【００３３】
このようにしてこのロボット１においては、周囲及び内部の状況や、ユーザからの指令及び働きかけの有無などに基づいて自律的に行動することができるようになされている。
【００３４】
（２）音声対話機能に関するメイン制御部４０の処理
次にこのロボット１に搭載された音声対話機能について説明する。
【００３５】
このロボット１には、ユーザの発話に対して複数種類の応答を順次生成し、その中から１つの応答を所定の規則に従って選択して音声出力することにより、雑談等の目的のない対話にも実用上十分に対応しながら、ユーザに不自然さを感じさせずに当該対話を行わせ得る音声対話機能が搭載されている。そしてこの音声対話機能は、メイン制御部４０におけるソフトウェア処理により実現されている。
【００３６】
ここで、かかる音声対話機能に関するメイン制御部４０の処理内容を機能的に分類すると、図６に示すように、ユーザの発話を音声認識する音声認識部６０と、当該音声認識部６０の認識結果に基づいて、複数種類の応答を生成する応答生成部６１と、応答生成部６１が生成した複数種類の応答の中から１つの応答を選択する対話制御部６２と、対話制御部６２により選択された応答の音声信号を生成する音声合成部６３とに分けることができる。以下、これら音声認識部６０、応答生成部６１、対話制御部６２及び音声合成部６３の処理について説明する。
【００３７】
（２−１）音声認識部６０の処理
音声認識部６０においては、マイクロホン５１（図５）から与えられる音声信号Ｓ１Ｂに基づいてユーザの発話内容を音声認識し、当該認識結果を文字列のデータ（以下、これを認識文字列データと呼ぶ）Ｄ１として対話制御部６２を介して応答生成部６１に送出する。なお、認識文字列データＤ１には、かかる認識処理時に得られたイントネーションやアクセント等の韻律情報などのパラ言語も含まれ、例えばユーザ発話の語尾の韻律が何らかの質問をするときの韻律であると判断された場合には、「？」という文字がその発話に対する一連の文字列の最後尾に付加される。
【００３８】
（２−２）応答生成部６１の処理
応答生成部６１においては、ユーザの発話に対して相槌を打つような応答を生成する「あいづち」用の応答生成モジュール６１Ａと、ユーザの発話内容に応じて当該ユーザに次の発話を促すような応答を生成する「発話を促す」用の応答生成モジュール６１Ｂと、ユーザの発話を繰り返した応答を生成する「繰り返し」用の応答生成モジュール６１Ｃと、ユーザの発話内容に共感した応答を生成する「共感」用の応答生成モジュール６１Ｄと、ユーザからの明らかな質問に対して答えるための応答を生成する「質問応答」用の応答生成モジュール６１Ｅとから構成される。
【００３９】
この場合、各応答生成モジュール６１Ａ〜６１Ｅは、それぞれユーザの発話内容に応じてどのような応答を返すべきかを予め規定したルールのデータ（以下、このルールを応答生成ルールと呼び、そのデータを応答生成ルールデータと呼ぶ）を例えば外部メモリ５８（図５）内に有しており、音声認識部６０から認識文字列データＤ１が与えられると、対応する応答生成ルールに従って、この文認識字列データＤ１に基づき得られるユーザの発話内容に対する応答を生成し、その文字列データ（以下、これを応答文字列データと呼ぶ）Ｄ２Ａ〜Ｄ２Ｅを対話制御部６２に送出する。
【００４０】
具体的には、応答生成ルールは、例えば図７に示すように、音声認識部からの認識文字列データＤ１に基づき得られる一連の文字列内に含まれると予想される（すなわちユーザが発話すると予想される）予め登録された文字列（以下、これを登録文字列と呼ぶ）と、これに対するロボットの予め定められた応答の候補（以下、これを単に応答候補と呼ぶ）との対応付けとして規定されている。
【００４１】
この図７において、「→」の記号は登録文字列と応答候補との対応付けを意味し、これよりも上側に記述された「″″」内の「｜」で区切られた各文字列がそれぞれ登録文字列を示し、下側に記述された「″″」内の「｜」で区切られた各文字列が、それぞれ「→」によりその登録文字列に対応付けられた応答候補を示す。
【００４２】
そして各応答生成モジュール６１Ａ〜６１Ｅには、それぞれ生成すべき応答のカテゴリ（「あいづち」、「発話を促す」、「繰り返し」、「共感」又は「質問応答」）に対応させた、このような応答生成ルールがそれぞれ別個に１又は複数予め用意され、これらのデータが応答生成ルールデータとして外部メモリ５８に格納されている。
【００４３】
そして各応答生成モジュール６１Ａ〜６１Ｅは、音声認識部６０から与えられる認識文字列データＤ１に基づき得られる一連の文字列（以下、これを入力文字列と呼ぶ）内に、対応するいずれかの応答生成ルールのいずれかの登録文字列と一致する文字列が存在するか否かを、当該入力文字列と、対応する全ての登録入力文字列との文字列マッチング処理により常時監視する。さらに各応答生成モジュール６１Ａ〜６１Ｅは、この文字列マッチング処理により入力文字列内に登録文字列を検出すると、その登録文字列に対応する応答生成ルールに従って、対応する１又は複数の応答候補の中から１つの応答候補をランダムに選択し、当該選択した応答候補に基づいて応答の認識文字列データＤ２Ａ〜Ｄ２Ｅを生成して、これを対話制御部６２に送出する。
【００４４】
従って、例えば図７に示す場合において、入力文字列内に『こんにちは』又は『おっす』が含まれることを文字列マッチング処理により検出したときには、『こんにちは』又は『やあ』という応答候補の中から１つの応答候補が選択され、その文字列データが生成されて、これが応答文字列データＤ２Ａ〜Ｄ２Ｅとして対話制御部６２に送出されることとなる。
【００４５】
また登録文字列及び応答候補については正規表現が利用でき、例えば図８に示すように応答生成ルールが記述されている場合には、入力文字列内に『ごめん』、『ごめんね』、『ごめんなさい』、『ごめんよ』という文字列が含まれていることを文字列マッチング処理により検出したときには、『いや、そういうつもりじゃなかったんだ』、『そんな、あやまらなくてもいいよ』という応答候補の中から１つの応答候補が選択され、その文字列データが生成されて、応答文字列データＤ２Ａ〜Ｄ２Ｅとして対話制御部６２に送出されることとなる。
【００４６】
さらに応答生成ルールはユーザの発話を応答で引用することが可能であり、例えば図９のように応答生成ルールが記述されている場合には、「＜.+＞」でマッチした文字列が「$ADJ$」という変数に格納され、次のロボットの応答における「$ADJ$」の部分で利用される。なお、「＜.+＞」は、予め登録されたいずれかの１文字以上の文字列（以下、繰返し用登録文字列）とマッチすることを意味する。従って、入力文字列内に例えば『明日は晴れないかなあ』、『明日は晴れないかなぁ』という文字列が含まれていることを文字列マッチング処理により検出した場合において、『明日は晴れな』という文字列が繰返し用文字列として登録されていたときには、この応答生成ルールが発火して、『明日は晴れないと思っているんだ』という応答文字列データＤ２Ａ〜Ｄ２Ｅが生成されて対話制御部６３に送出されることとなる。
【００４７】
なお、各応答生成モジュールＤ２Ａ〜Ｄ２Ｅに対するいくつかの応答生成ルールの例を図１０〜図１４にそれぞれ示す。
【００４８】
この場合、図１０は、「あいづち」用の応答生成モジュール６１Ａに対して用意された応答生成ルールの一例であり、「＜.+＞$UNKNOWN ANY$」は「全ての入力文字列」を意味する。従って、「あいづち」用の応答生成モジュール６１Ａは、音声認識部からの文字列データに基づいてどのような文字列の入力があった場合においても、『へぇ』、『ふーん』、『なるほどなるほど』等の応答候補の中から１つの応答候補を選択し、その文字列データを生成して応答文字列データＤ２Ａとして対話制御部６２に送出することとなる。
【００４９】
また図１１は、「発話を促す」用の応答生成モジュール６１Ｂに対して用意される一部の応答生成ルールを例示したものであり、当該応答生成モジュール６１Ｂは、例えば入力文字列の最後（すなわちユーザが発話の語尾に相当する部分であり、「 END 」がこれを示す）に『るし』、『だし』、『ないし』という文字列を検出したときには、『うんうん。』『それで？』、『それから？』という３種類の応答候補の中から１つの応答候補をランダムに選択し、当該選択した応答候補の文字列データを生成して、これを応答文字列データＤ２Ｂとして対話制御部６２に送出することとなる。
【００５０】
さらに図１２〜図１４は、それぞれ「繰り返し」、「共感」又は「質問応答」用の各応答生成モジュール６１Ｃ〜６１Ｅに対するものであり、これら応答生成ルールに基づく各応答生成モジュール６１Ｃ〜６１Ｅの処理は上述と同様であるので、説明は省略する。
【００５１】
因みに、各応答生成モジュール６１Ａ〜６１Ｅは、入力文字列と、対応する全ての登録文字列との文字列マッチング処理によりマッチングがとれなかった（すなわち入力文字列内に、対応する全ての応答生成ルールで規定された全ての登録文字列が含まれていなかった）場合には、応答文字列データＤ２Ａ〜Ｄ２Ｅを生成することができず、この場合には「失敗」した旨の情報を対話制御部６２に通知する。
【００５２】
従って、例えば全ての応答生成モジュール６１Ａ〜６１Ｅが応答生成に失敗してしまった場合には、ロボット１が応答が返せないという事態が発生することとなるが、本実施の形態によるロボット１においては、上述のように「あいづち」用の応答生成モジュール６１Ａが音声認識部６０からの認識文字列データＤ１に基づいてどのような文字列の入力があった場合にも必ず何らかの応答文字列データＤ２Ａを対話制御部６２に送出するため、対話が不自然に途切れるのを防止することができる。
【００５３】
（２−３）対話制御部６２の処理
一方、対話制御部６２においては、全ての応答生成モジュール６１Ａ〜６１Ｅから上述のように応答文字列データＤ２Ａ〜Ｄ２Ｅ又は応答生成に失敗した旨の通知が与えられると、そのうち応答生成に成功した各応答生成モジュール６１Ａ〜６１Ｅから与えられた応答文字列データＤ２Ａ〜Ｄ２Ｅのうちの１つを選択し、これを応答データＤ３として音声合成部６３に送出する。
【００５４】
ここで、この実施の形態においては、カウンセリング分野における相手の話を聞く際のテクニックを利用して、ユーザとの対話が自然なかたちで円滑に行い得るように、対話制御部６２が応答生成に成功した各応答生成モジュール６１Ａ〜６１Ｄの出力の中から１つを選択するような工夫がなされている。
【００５５】
すなわちカウンセリング分野においては、相手の話の聞き方として、「うなずく」、「沈黙する」等のように、受動的に相手の話を聞くパッシブリスニングと呼ばれる聞き方と、相手の話を「繰り返す」、「まとめる」、「発話を促す」等のように、積極的に相手の話を聞くアクティブリスニングと呼ばれる聞き方の２種類があるとされ、これらパッシブリスニング及びアクティブリスニングを３：６の割合で行い、残り１割を相手からの明らかな質問に対する答えとする聞き方が良いとされている。
【００５６】
そこで本実施の形態においては、パッシブリスニングに該当する応答を出力する「あいづち」用の応答生成モジュール６１Ａにより生成された応答が最終的にロボット１の応答として出力される割合（以下、これを出力割合と呼ぶ）として0.3を割り当て、アクティブリスニングに該当する応答を出力する「発話を促す」用の応答生成モジュール６１Ｂ及び「繰り返し」用の応答生成モジュール６１Ｃにより生成された応答の出力割合としてそれぞれ0.35及び0.25を割り当て、残りの0.1を「共感」用の応答生成モジュール６１Ｄから出力される応答の出力割合に割り当てている。
【００５７】
そして対話制御部６２は、ユーザの発話に対して応答生成に成功した各応答生成モジュール６１Ａ〜６１Ｅからそれぞれ応答文字列データＤ２Ａ〜Ｄ２Ｅが与えられると、「質問応答」用の応答生成モジュール６１Ｅを除く残りの各応答生成モジュール６１Ａ〜６１Ｄについて、それぞれ事前設定された上述の出力割合に対する実際の出力割合を所定の評価関数を用いて評価し、この評価結果に基づいて、これら与えられた各応答文字列データＤ２Ａ〜Ｄ２Ｄの中から１つを選択するようになされている。
【００５８】
この場合、かかる評価関数としては種々のものを利用することができるが、この実施の形態においては、最小二乗誤差を利用するようになされており、例えば「あいづち」用の応答生成モジュール６１Ａについての最小二乗誤差は、そのときの応答を含めたロボット１全体としての応答回数をｎ、「あいづち」用、「発話を促す」用、「繰り返し」用又は「共感」用の各応答生成モジュール６１Ａ〜６１Ｄに対して予め設定された出力割合をそれぞれｐｍ₁、ｐｍ₂、ｐｍ３₃、ｐｍ₄、これら各応答生成モジュール６１Ａ〜６１Ｅのそのときまでの実際の出力割合をそれぞれｐｍ₁（ｎ）、ｐｍ₂（ｎ）、ｐｍ₃（ｎ）、ｐｍ₄（ｎ）として、次式
【００５９】
【数１】

【００６０】
により算出することとしている。また他の応答生成モジュール６１Ｂ〜６１Ｄについても同様である。
【００６１】
そして対話制御部６２は、このようにして得られた「質問応答」用の応答生成モジュール６１Ｅ以外の応答生成に成功した各応答生成モジュール６１Ａ〜６１Ｄについての評価結果（算出された最小二乗誤差）に基づいて、最小二乗誤差が最も小さい応答生成モジュール６１Ａ〜６１Ｄからの応答文字列データＤ２Ａ〜Ｄ２Ｄを選択し、これを応答データＤ３として音声合成部６３に送出する。なお、対話制御部６２は、応答生成に成功した応答生成モジュールが「あいづち」用の応答生成モジュール６１Ａだけであった場合には、上述のような評価を行わず、当該応答生成モジュール６１Ａからの応答文字列データＤ２Ａを応答データＤ３として音声合成部６３に送出する。
【００６２】
ただし、このような所定の評価関数を用いた評価による選択だけでは、例えばユーザからの明らかな質問に対してその質問に対する答え以外の応答が出力されると会話が不自然となる問題がある。
【００６３】
そこでこの実施の形態においては、「質問応答」用の応答生成モジュール６１Ｅを特別の応答生成モジュールとし、この応答生成モジュール６１Ｅから応答文字列データＤ２Ｅが出力された場合には、他の応答生成モジュール６１Ａ〜６１Ｄからの応答文字列データＤ２Ａ〜Ｄ２Ｄの出力の有無に拘わりなく、対話制御部６２がこれを優先的に選択して、音声合成部６３に応答データＤ３として出力するようになされている。これによりこのロボット１においては、ユーザとより自然なかたちでの対話を行い得るようになされている。
【００６４】
なお図１５に、このような応答選択処理の具体例を示す。この図１５において、例えば『ねえ、聞いてよ。』というユーザの発話に対して「あいづち」用及び「発話を促す」用の応答生成モジュール６１Ａ、６１Ｂが応答生成に成功しており、このとき対話制御部６２は、これら「あいづち」用及び「発話を促す」用の応答生成モジュール６１Ａ、６１Ｂについて、そのときの評価値を上述のように最小二乗誤差を利用して演算する。そしてこれら応答生成モジュール６１Ａ、６１Ｂに対する評価値がそれぞれ「0.685」及び「0.585」であったので、対話制御部６２は、評価値が小さい「発話を促す」用の応答生成モジュール６１Ｂからの応答文字列データＤ２Ｂを選択し、これを応答データＤ３として音声合成部６３に送出する。なおこの図１５においては、各ユーザ発話に対応する欄が空白の応答生成モジュール６１Ａ〜６１Ｅは、応答生成に失敗したことを意味する。
【００６５】
またこれに続く『昨日彼とデートしたんだけどね。』というユーザの発話に対して「あいづち」用の応答生成モジュール６１Ａのみが応答生成に成功しており、このため対話制御部６２は、この応答生成モジュール６１Ａからの応答文字列データＤ２Ａを応答データＤ３として音声合成部６３に送出する。
【００６６】
さらにこの後、『デートでけんかしちゃうなんて最悪だと思わない？』というユーザの発話に対して「質問応答」用の応答生成モジュール６１Ｅが応答生成に成功しており、このため対話制御部６２は、他の応答生成に成功した応答生成モジュール６１Ａ、６１Ｄに対する評価を行うことなく、「質問応答」用の応答生成モジュール６１Ｅからの応答文字列データＤ２Ｅを応答データＤ３として音声合成部６３に送出する。
【００６７】
この結果、このような対話制御部６２の制御により、ユーザ及びロボット１間で図１６に示すような対話が行われることとなる。
【００６８】
（２−４）音声合成部６３の処理
音声合成部６３においては、対話制御部６２から与えられる応答データＤ３に基づいて音声合成処理を行うことにより音声信号Ｓ３を生成し、これをスピーカ５４（図５）に出力する。この結果、この音声信号Ｓ３に基づいて、かかる応答データＤ３に応じた応答がロボット１から外部に出力される。
【００６９】
（３）応答生成に関する対話制御部６２の処理
ここで対話制御部６２は、図１７に示す応答処理手順ＲＴ１に従って上述のような各種処理を実行する。
【００７０】
すなわち対話制御部６２は、ロボット１の電源が投入されると、図１７に示す応答処理手順ＲＴ１をステップＳＰ０において開始し、続くステップＳＰ１において、外部メモリ５８（図５）に格納された応答生成モジュール６１Ａ〜６１Ｅごとの事前設定された出力割合のデータを読み込んだ後、ステップＳＰ２に進んで、「あいづち」用、「発話を促す」用、「繰り返し」用、「共感」用及び「質問応答」用の各対話生成モジュール６１Ａ〜６１Ｅを起動し、この後ステップＳＰ３に進んで、音声認識部６０からユーザ発話の音声認識結果（すなわち認識文字列データＤ１）が与えられるのを待ち受ける。
【００７１】
そして対話制御部６２は、やがてユーザがロボット１に話し掛けることにより音声認識部６０から認識文字列データＤ１が与えられると、ステップＳＰ４に進んで、この認識文字列データＤ１を各応答生成モジュール６１Ａ〜６１Ｅに送出し、この後ステップＳＰ５に進んで、これら全ての応答生成モジュール６１Ａ〜６１Ｅから応答文字列データＤ２Ａ〜Ｄ２Ｅ又は応答生成が失敗した旨の情報が与えられるのを待ち受ける。
【００７２】
また対話制御部６２は、やがて全ての応答生成モジュール６１Ａ〜６１Ｅから応答文字列データＤ２Ａ〜Ｄ２Ｅ又は応答生成が失敗した旨の情報が供給されると、ステップＳＰ６に進んで、「質問応答」用の応答生成モジュール６１Ｅから応答文字列データＤ２Ｅが供給されたか否かを判断する。
【００７３】
そして対話制御部６２は、このステップＳＰ６において肯定結果を得ると、ステップＳＰ７に進んで、応答データＤ３として出力すべき応答文字列データとして「質問応答」用の応答生成モジュール６１Ｅから与えられた応答文字列データＤ２Ｅを選択し、これを音声合成部６３に送出する。また対話制御部６２は、この後ステップＳＰ３に戻って、音声認識部６０から次の認識文字列データＤ１が供給されるのを待ち受ける。
【００７４】
これに対して対話制御部６２は、ステップＳＰ６において否定結果を得ると、ステップＳＰ７に進んで、「質問応答」用の応答生成モジュール６１Ｅ以外の応答生成に成功した各応答生成モジュール６１Ａ〜６１Ｄについて、上述の（１）式で与えられる評価関数ｆ（ｎ）を用いた評価値の演算処理を実行する。
【００７５】
次いで、対数制御部６２は、ステップＳＰ９に進み、ステップＳＰ８において算出した各応答生成モジュール６１Ａ〜６１Ｄの評価値に基づいて、これら応答生成に成功した各応答生成モジュール６１Ａ〜６１Ｄの中から当該評価値が最も小さい応答生成モジュール６１Ａ〜６１Ｄから与えられた応答文字列データＤ２Ａ〜Ｄ２Ｄを応答データＤ３として音声合成部６３に送出する。
【００７６】
さらに対話制御部６２は、ステップＳＰ１０に進んで、当該応答文字列データＤ２を出力した（すなわち、そのとき最も評価値が小さかった）応答生成モジュール６１Ａ〜６１Ｄに対応するカウンタのカウント値を１つ増加させた後、ステップＳＰ３に戻って、この後は上述と同様の処理を繰り返す。
【００７７】
このようにしてこのロボット１においては、対話制御部６２の制御のもとに、ユーザとの自然なかたちでの円滑な対話を行い得るようになされている。
【００７８】
（４）本実施の形態の動作及び効果
以上の構成において、このロボット１では、ユーザが発話すると、その音声認識結果が各応答生成ジュール６１Ａ〜６１Ｅに与えられ、これら各応答生成ジュール６１Ａ〜６１Ｅによりそのユーザの発話内容に応じた応答が一斉に生成される。
【００７９】
そしてこれら各応答生成ジュール６１Ａ〜６１Ｅにより生成された応答の中から１つの応答が対話制御部６２によって選択され、その選択された応答がスピーカ５４から音声出力される。
【００８０】
従ってこのロボット１では、例えば状態遷移図やスロットフィリングによって全てのユーザ発話を予測してシステムの応答を記述しておく場合に比べて設計や構成を格段的に容易化及び簡易化させることができ、また雑談等の目的のない対話にも実用上十分に対応することができる。
【００８１】
さらにこのロボット１では、この際「あいづち」用の応答生成ジュール６１Ａが必ず応答を生成するようにしているためロボット１が応答できないという事態の発生を防止することができ、その分ユーザとより自然な対話を行うことができる。
【００８２】
さらにこのロボット１では、所定の評価関数を用いてロボット１の応答全体としてシステム作成者が意図した割合で各種カテゴリ（「あいづち」、「発話を促す」等）の応答を出力させることができるため、その割合を調整することによって種種の個性を有するロボット１を容易に作製できる。
【００８３】
以上の構成によれば、ユーザ発話に対する応答を生成する応答生成モジュール６１Ａ〜６１Ｅを複数設け、これら応答生成モジュール６１Ａ〜６１Ｅが生成した応答の中から１つの応答を選択して出力するようにしたことにより、雑談等の目的のない対話にも実用上十分に対応することができ、また例えば状態遷移図やスロットフィリングによって全てのユーザ発話を予測してシステムの応答を記述しておく場合に比べて設計や構成を格段的に容易化及び簡易化させることができ、かくして自然な対話を行い得る簡易な構成のロボット１を実現できる。
【００８４】
（５）他の実施の形態
なお上述の実施の形態においては、本発明を図１〜図５のように構成されたヒューマノイド型のロボット１に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成の装置に広く適用することができる。
【００８５】
また上述の実施の形態においては、音声認識部６０の認識結果に基づき、別個の応答生成ルールに従って、対話相手の発話に対する応答を生成する複数の応答生成手段として、ユーザの発話に対して相槌を打つような応答を生成する「あいづち」用の応答生成モジュール６１Ａと、ユーザの発話内容に応じて当該ユーザに次の発話を促すような応答を生成する「発話を促す」用の応答生成モジュール６１Ｂと、ユーザの発話を繰り返した応答を生成する「繰り返し」用の応答生成モジュール６１Ｃと、ユーザの発話内容に共感した応答を生成する「共感」用の応答生成モジュール６１Ｄと、ユーザからの明らかな質問に対して答えるための応答を生成する「質問応答」用の応答生成モジュール６１Ｅとの５つの応答生成モジュール６１Ａ〜６１Ｅを設けるようにした場合について述べたが、本発明はこれに限らず、応答生成手段の数及びこれら応答生成手段がそれぞれ生成する応答のカテゴリ（「あいづち」、「発話を促す」、「繰り返し」、「共感」及び「質問応答」）として、これ以外の数及びカテゴリを適用するようにしても良い。この場合において、「冗談」というカテゴリを設け、ロボット１に適当な割合で冗談を音声出力させるようにしても良く、このようにすることによってロボット１のエンターテインメント性を向上させることができる。
【００８６】
さらに上述の実施の形態においては、応答生成ルールを図７〜図９について説明したように規定するようにした場合について述べたが、本発明はこれに限らず、これ以外の種々のルールを適用するようにしても良い。
【００８７】
さらに上述の実施の形態においては、各応答生成モジュール６１Ａ〜６１Ｅによりそれぞれ生成された応答の中から１つの応答を所定の評価関数を用いた評価結果に基づいて選択する選択手段としての対話制御部６２が、当該評価関数として最小二乗誤差の演算関数を用いる（すなわち最小二乗誤差を用いて１つの応答を選択する）ようにした場合について述べたが、本発明はこれに限らず、この他種々の評価関数を用いることができる。
【００８８】
さらに上述の実施の形態においては、対話制御部６２により選択された応答を外部に音声出力する音声出力手段を、音声合成部６３及びスピーカから構成するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成を広く適用することができる。
【００８９】
さらに上述の実施の形態においては、各応答生成モジュール６１Ａ〜６１Ｅによりそれぞれ生成された応答の中から１つの応答を選択する際に利用する評価関数を１つのみしか用いないようにした場合について述べたが、本発明はこれに限らず、例えば評価関数を複数種類用意し、対話相手の話し方の特徴を踏まえた上で、その特徴に合わせた評価関数を用いたり、又は１つの評価関数のパラメータを対話相手に応じて変化させるようにしても良い。このようにすることによって、例えばロボット１と初対面の人との会話は、なるべく自分のことを多く話すように、またロボット１自身のことをよく知っていて、自分のことを話すことが好きな人との会話では、なるべくその人の話を聞くような応答を返すといった対話相手に応じた応答を返すことができるようになる。
【００９０】
さらに上述の実施の形態においては、応答として音声出力を行うだけの場合について述べたが、本発明はこれに限らず、例えば『うんうん』という応答に併せてうなずきながら首を縦に振るというように、音声による応答と共にこの内容に応じた動作をロボット１に発現させるようにしても良い。
【００９１】
さらに上述の実施の形態においては、音声認識部６０からの認識文字列データＤ１に基づいてどのような文字列の入力があった場合にも必ず何らかの応答文字列データＤ２Ａを対話制御部６２に送出する応答生成モジュールを１つ（「あいづち」用の応答生成モジュール６１）設けるようにした場合について述べたが、本発明はこれに限らず、このような応答生成モジュールを複数設けるようにしても良い。
【００９２】
さらに上述の実施の形態においては、「質問応答」用の応答生成モジュール６１Ｅを、その出力を優先的に出力する特別の応答生成モジュールとするようにした場合について述べたが、本発明はこれに限らず、これ以外の例えば「あいさつ」用の応答生成モジュールを設けて、これを特別の応答生成モジュールとするようにしても良い。またこのような特別の応答生成モジュールを複数種類設けるようにしても良く、このようにすることによってロボット１により自然な対話を行わせるようにすることができる。
【００９３】
さらに上述の実施の形態においては、本発明を、エンターテインメント用のロボット１に適用するようにした場合について述べたが、本発明はこれに限らず、例えば医療現場におけるカウンセリング用のロボット等にも適用することができる。
【００９４】
【発明の効果】
以上のように本発明によれば、対話処理装置において、対話相手の発話を音声認識し認識文字列を生成する音声認識手段と、対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する複数の応答生成手段と、カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各応答生成手段によりそれぞれ生成された応答候補文字列の中から１つの応答候補文字列を応答文字列として選択する選択手段と、応答文字列を基に応答音声を生成し外部に音声出力する音声出力手段とを設けるようにしたことにより、雑談等の目的のない対話にも実用上十分に対応することができ、また例えば状態遷移図やスロットフィリングによって全てのユーザ発話を予測してシステムの応答を記述しておく場合に比べて設計や構成を格段的に容易化及び簡易化させることができ、かくして自然な対話を行い得る簡易な構成の対話処理装置を実現できる。
【００９５】
また本発明によれば、対話処理方法において、対話相手の発話を音声認識し認識文字列を生成する第１のステップと、認識文字列に対する応答候補文字列をそれぞれ生成する複数の応答手段が、対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する第２のステップと、応答文字列を選択する選択手段が、カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各応答候補文字列の中から１つの応答候補文字列を応答文字列として選択する第３のステップと、応答文字列を基に応答音声を生成し外部に音声出力する第４のステップとを設けるようにしたことにより、雑談等の目的のない対話にも実用上十分に対応することができ、また例えば状態遷移図やスロットフィリングによって全てのユーザ発話を予測してシステムの応答を記述しておく場合に比べて装置の設計や構成を格段的に容易化及び簡易化させることができ、かくして装置構成を簡易化させながら、自然な対話を行い得るようにすることができる対話処理方法を実現できる。
【００９６】
さらに本発明によれば、ロボット装置において、対話相手の発話を音声認識し認識文字列を生成する音声認識手段と、対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する複数の応答生成手段と、カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各応答生成手段によりそれぞれ生成された各応答候補文字列の中から１つの応答候補文字列を応答文字列として選択する選択手段と、応答文字列を基に応答音声を生成し外部に音声出力する音声出力手段とを設けるようにしたことにより、雑談等の目的のない対話にも実用上十分に対応することができ、また例えば状態遷移図やスロットフィリングによって全てのユーザ発話を予測してシステムの応答を記述しておく場合に比べて設計や構成を格段的に容易化及び簡易化させることができ、かくして自然な対話を行い得る簡易な構成のロボット装置を実現できる。
【００９７】
【図面の簡単な説明】
【図１】本実施の形態によるロボットの外部構成を示す斜視図である。
【図２】ロボットの外部構成を示す斜視図である。
【図３】ロボットの外部構成の説明に供する略線図である。
【図４】ロボットの内部構成の説明に供するブロック図である。
【図５】ロボットの内部構成の説明に供するブロック図である。
【図６】メイン制御部の処理内容の説明に供するブロック図である。
【図７】応答生成ルールの説明に供する概念図である。
【図８】応答生成ルールの説明に供する概念図である。
【図９】応答生成ルールの説明に供する概念図である。
【図１０】「あいづち」用の応答生成ルール例を示す概念図である。
【図１１】「発話を促す」用の応答生成ルール例を示す概念図である。
【図１２】「繰り返し」用の応答生成ルール例を示す概念図である。
【図１３】「共感」用の応答生成ルール例を示す概念図である。
【図１４】「質問応答」用の応答生成ルール例を示す概念図である。
【図１５】対話制御の具体例の説明に供する図表である。
【図１６】ユーザ及びロボットの対話例を示す概念図である。
【図１７】応答処理手順を示すフローチャートである。
【符号の説明】
１……ロボット、４０……メイン制御部、５１……マイクロホン、５４……スピーカ、５８……外部メモリ、６０……音声認識部、６１……応答生成部、６１Ａ〜６１Ｅ……応答生成モジュール、６２……対話制御部、６３……音声合成部、Ｄ１……認識文字列データ、Ｄ２Ａ〜Ｄ２Ｅ……応答文字列データ、Ｄ３……応答データ、Ｓ１Ｂ、Ｓ３……音声信号、ＲＴ１……応答処理手順。

Claims

対話相手の発話を音声認識し認識文字列を生成する音声認識手段と、
上記対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、上記認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する複数の応答生成手段と、
上記カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各上記応答生成手段によりそれぞれ生成された上記応答候補文字列の中から１つの上記応答候補文字列を応答文字列として選択する選択手段と、
上記応答文字列を基に応答音声を生成し外部に音声出力する音声出力手段と
を具えることを特徴とする対話処理装置。
上記複数の応答生成手段のうちの少なくとも１つの上記応答生成手段が、上記対話相手の上記発話の内容に拘わりなく、必ず上記応答候補文字列を生成する
ことを特徴とする請求項１に記載の対話処理装置。
上記選択手段は、
各上記応答生成手段に対してそれぞれ予め設定された、上記応答候補文字列が最終的に上記応答文字列として選択されるべき割合と、各上記応答生成手段の上記応答候補文字列が上記応答文字列として実際に選択された割合との誤差を縮小するよう、各上記応答生成手段によりそれぞれ生成された上記応答の中から１つの応答を選択する
ことを特徴とする請求項１に記載の対話処理装置。
上記選択手段は、
上記複数の応答生成手段のうちの特定の上記応答生成手段が上記応答候補文字列を生成したときには、上記評価関数による評価結果に拘わらず当該応答候補文字列を優先的に上記応答文字列として選択する
ことを特徴とする請求項１に記載の対話処理装置。
上記選択手段は、
上記対話相手ごとに上記評価関数を変更する
ことを特徴とする請求項１に記載の対話処理装置。
対話相手の発話を音声認識し認識文字列を生成する第１のステップと、
上記認識文字列に対する応答候補文字列をそれぞれ生成する複数の応答手段が、上記対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、上記認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する第２のステップと、
応答文字列を選択する選択手段が、上記カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各上記応答候補文字列の中から１つの上記応答候補文字列を上記応答文字列として選択する第３のステップと、
上記応答文字列を基に応答音声を生成し外部に音声出力する第４のステップと
を具えることを特徴とする対話処理方法。
対話相手の発話を音声認識し認識文字列を生成する音声認識手段と、
上記対話相手の発話内容を表す文字列に対し互いに異なるカテゴリの応答候補を表す文字列が対応付けられた別個の応答生成ルールに従って、上記認識文字列に対する応答候補文字列を生成可能な場合に当該応答候補文字列をそれぞれ生成する複数の応答生成手段と、
上記カテゴリごとに選択されるべき割合がそれぞれ割り当てられた評価関数に基づき、各上記応答生成手段によりそれぞれ生成された各上記応答候補文字列の中から１つの上記応答候補文字列を応答文字列として選択する選択手段と、
上記応答文字列を基に応答音声を生成し外部に音声出力する音声出力手段と
を具えることを特徴とするロボット装置。