JP6790791B2

JP6790791B2 - 音声対話装置および対話方法

Info

Publication number: JP6790791B2
Application number: JP2016242445A
Authority: JP
Inventors: 池野　篤司; 篤司池野; 宗明島田; 浩太畠中; 西島　敏文; 敏文西島; 史憲片岡; 刀根川　浩巳; 浩巳刀根川; 倫秀梅山
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2020-11-25
Anticipated expiration: 2036-12-14
Also published as: JP2018097201A

Description

本発明は、音声によってユーザと対話する装置に関する。

対話型ロボットシステムにおいて、自然な会話を提供するための研究が多くなされている。例えば、特許文献１には、入力された発話に対して応答を生成するための応答生成装置が開示されている。当該装置では、ある話題に対して応答文の候補が複数ある場合に、話題の豊富さと、感情の明るさの度合いに応じて、適切な応答文を選択するという特徴を有している。かかる発明によると、より適切な応答文を生成することができる。

特開２００７−２１９１４９号公報

特許文献１に係る発明では、予め蓄積されたデータの範囲でしか応答を生成することができない。すなわち、データを随時増やして対話の内容を充実させることができない。

一方で、ユーザとの会話を通して学習を行うことで、利用可能な語彙を能動的に増やす会話システムが知られている。しかし、このようなシステムでは、会話において未知の単語が出現した場合に、当該単語の意味をユーザに質問し、学習させることはできるが、学習結果に基づいて会話のバリエーションを膨らませることができない。

本発明は上記の課題を考慮してなされたものであり、ユーザと対話する装置において、バリエーション豊かな会話を提供することを目的とする。

本発明に係る音声対話装置は、音声によってユーザと対話する音声対話装置であって、
前記ユーザが発した発話を取得する音声取得手段と、応答文を生成するための複数の語彙データを記憶する語彙データベースと、前記記憶された語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語または第二の単語を前記語彙データから抽出し、当該単語に関連付いた単語を用いて応答文を生成する第一の応答生成を行うことを特徴とする。

本発明に係る音声対話装置は、語彙データベースに登録された語彙データを用いて、ユーザが行った発話に対する応答文を生成する。語彙データとは、第一の単語と、当該第一の単語に対するユーザの認識を表す単語である第二の単語とを関連付けたデータである。ユーザの認識を表す単語とは、例えば、「第一の単語に対するユーザの嗜好を表す単語」、「ユーザが第一の単語を形容した単語」、「ユーザが第一の単語の概念を説明した単語」などである。このように、第二の単語は、第一の単語に対するユーザの認識を表すものであればよく、一義的なものでなくてもよい。例えば、第一の単語が「ラーメン」であった場合、第二の単語は「麺類」といったように上位概念を表す単語であってもよく、「好き」といったように嗜好を表す単語であってもよい。また、例えば、第一の単語が「試験」であった場合、第二の単語は「緊張」といったように、ユーザが単に連想する単語であ
ってもよい。
なお、第一および第二の単語は、必ずしも一単語である必要はない。例えば、「緊張する」といったように、単語の集合（文節）であってもよい。

また、応答生成手段は、取得した発話文で言及された単語に対応する単語について、対になる単語を語彙データから取得し、応答文を生成する。例えば、ユーザがラーメンについて言及する発話を行った場合、「ラーメン」という単語を第一の単語から検索し、対応する第二の単語を用いて応答文を生成してもよい。また、例えば、ユーザが「緊張している」旨の発話を行った場合、「緊張」という単語を第二の単語から検索し、対応する第一の単語を用いて応答文を生成してもよい。

第一の単語と第二の単語は、必ずしも一対一である必要はない。例えば、特定の第一の単語に複数の第二の単語が関連付いている場合があり、特定の第二の単語に複数の第一の単語が関連付いている場合がある。かかる構成によると、単語同士の対応を辿ることで、応答文のバリエーションを膨らませることができる。

また、本発明に係る音声対話装置は、前記ユーザに対して、前記発話で言及された対象に対する認識を問う質問を行い、前記ユーザから得られた回答に基づいて、前記語彙データを生成または更新する語彙収集手段をさらに有することを特徴としてもよい。

語彙データを学習させるため、語彙収集手段が、ユーザに対して、ある単語に対する認識を問う質問を行ってもよい。質問の内容は、例えば、「○○って好き？」といったように、ユーザの嗜好を問うものであってもよいし、「○○ってどんな感じ？」といったように、単語を別の言葉でユーザに形容させるものであってもよい。また、「○○って何？」といったように、単語の概念自体を問うものであってもよい。

また、前記語彙収集手段は、前記ユーザが発した発話に、前記発話で言及された対象に対する認識を表す単語が含まれている場合に、当該単語に基づいて前記語彙データを生成または更新することを特徴としてもよい。

このように、通常の対話においてなされた発話から、第一の単語と第二の単語（すなわち、ユーザが言及している対象と、それに対するユーザの認識を表す単語）を抽出できる場合、自動的に語彙データを生成ないし更新するようにしてもよい。

また、前記語彙データベースは、前記複数の語彙データをユーザごとに関連付けて記憶し、前記応答生成手段は、対話中のユーザに関連付いた語彙データを利用することを特徴としてもよい。

語彙データをユーザごとに保持し、対話中のユーザに対応する語彙データを利用することで、パーソナライズされた受け答えをすることができる。

また、前記第二の単語は、前記第一の単語の上位概念を表す単語、前記ユーザが前記第一の単語を形容した単語、または、前記ユーザの前記第一の単語に対する嗜好を表す単語のうちのいずれかであることを特徴としてもよい。

このように、関連のある単語を結びつけて記憶することで、応答のバリエーションを広げることができる。

また、前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単
語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する第二の応答生成を行うことを特徴としてもよい。

異なる第一の単語について、同一の第二の単語が関連付いている場合がある。このような場合、第二の単語を介して別の第一の単語（関連単語）を抽出し、応答文の生成に利用してもよい。例えば、『ラーメン』と『麺類』、『うどん』と『麺類』という単語がそれぞれ関連付いて記憶されている場合であって、ラーメンに言及した発話がなされた場合、うどんについての話題を振るようにしてもよい。

また、前記第二の応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成手段は、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成することを特徴としてもよい。

例えば、『ラーメン』と『麺類』、『ラーメン』と『好き』、『うどん』と『麺類』という単語がそれぞれ関連付いて記憶されている場合であって、ラーメンに言及した発話がなされた場合、「うどんも好き？」といった応答文を生成してもよい。

なお、本発明は、上記手段の少なくとも一部を含む音声対話装置として特定することができる。また、前記音声対話装置が行う対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

本発明によれば、ユーザと対話する装置において、バリエーション豊かな会話を提供することができる。

第一の実施形態に係る対話システムのシステム構成図である。ロボット１０、制御装置２０、サーバ装置３０間のデータフロー図である。サーバ装置３０が行う処理のフローチャート図である。第一の実施形態における単語テーブルの例である。第二の実施形態における単語テーブルの例である。

以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。

（第一の実施形態）
<システム構成>
図１は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット１０と、制御装置２０と、サーバ装置３０から構成される。

ロボット１０は、スピーカやマイク、カメラ等を有しており、ユーザとのインタフェースを担う手段である。ロボット１０は、人型やキャラクター型であってもよいし、他の形状であってもよい。
制御装置２０は、ロボット１０に対して命令を発行する装置である。また、サーバ装置３０は、制御装置２０から送信された要求に応じて、ユーザに提供する応答（応答文）を
生成する装置である。
本実施形態では、ロボット１０はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理はサーバ装置３０が行う。また、ロボット１０とサーバ装置３０とを仲介する処理を制御装置２０が行う。

まず、ロボット１０について説明する。
ロボット１０は、音声入力部１１、近距離通信部１２、音声出力部１３から構成される。

音声入力部１１は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号（以下、音声データ）に変換する。取得した音声データは、後述する近距離通信部１２を介して制御装置２０へ送信される。

近距離通信部１２は、制御装置２０と近距離無線通信を行う手段である。本実施形態では、近距離通信部１２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格を利用して通信を行う。近距離通信部１２は、ペアリング先となる制御装置２０に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Ｂｌｕｅｔｏｏｔｈ規格は、ＩＥＥＥ８０２．１５．１とも呼ばれる。

音声出力部１３は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置２０から送信された音声データを音声に変換する。

次に、制御装置２０について説明する。制御装置２０は、ロボット１０とサーバ装置３０との仲介を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置２０は、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

制御装置２０は、近距離通信部２１、制御部２２、通信部２３から構成される。

近距離通信部２１が有する機能は、前述した近距離通信部１２と同様であるため、詳細な説明は省略する。

制御部２２は、ロボット１０から音声を取得し、当該取得した音声に対する応答を取得する手段である。具体的には、ロボット１０から取得した音声を、通信部２３を介してサーバ装置３０（いずれも後述）に送信し、対応する応答文をサーバ装置３０から受信する。また、音声合成機能によって、応答文を音声データに変換し、ロボット１０に送信する。ロボット１０に送信された音声は、音声出力部１３を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。

通信部２３は、通信回線（例えば無線ＬＡＮや携帯電話網）を介してネットワークにアクセスすることで、サーバ装置３０との通信を行う手段である。

サーバ装置３０は、送信された音声を認識したうえで、ユーザに提供する応答文を生成する装置であり、通信部３１、音声認識部３２、応答生成部３３からなる。
通信部３１が有する機能は、前述した通信部２３と同様であるため、詳細な説明は省略する。

音声認識部３２は、ロボットが有する音声入力部１１が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部３２には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部３３へ送信される。

応答生成部３３は、音声認識部３２から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ（対話辞書）に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。
本実施形態では、応答生成部３３は、単語を学習するための辞書であるテーブル（単語テーブル）を有しており、学習結果に応じて異なる応答文を生成することができる。詳細な処理内容については後述する。
応答生成部３３が取得した情報は、制御装置２０へテキスト形式で送信され、その後、合成音声に変換され、ロボット１０を介してユーザに向けて出力される。

サーバ装置３０も、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

<対話の流れ>
次に、図１に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図２を参照しながら説明する。

まず、ステップＳ１１で、ロボット１０が有する音声入力部１１が、マイクを通してユーザが発話した音声を取得する。取得した音声は音声データに変換され、通信部を介して、制御装置２０が有する制御部２２へ送信される。また、制御部２２は、取得した音声データを、サーバ装置３０が有する音声認識部３２へ送信する。

次に、音声認識部３２が、取得した音声データに対して音声認識を行い、テキストに変換する（ステップＳ１２）。音声認識の結果得られたテキストは、応答生成部３３へ送信される。次に、応答生成部３３が、ユーザから得られた発話の内容に基づいて応答を生成する（ステップＳ１３）。
生成された応答文は、制御装置２０へ送信され、制御部２２によって音声データに変換される（ステップＳ１４）。そして、音声データはロボット１０に送信され、音声出力部１３を介して出力（再生）される（ステップＳ１５）。

<応答の生成方法 >
次に、応答生成部３３が応答を生成する具体的な方法について説明する。図３は、応答生成部３３がステップＳ１３にて応答を生成する処理をより詳細に表したフローチャート図である。

まず、ステップＳ２１で、ユーザが言及している対象（話題としている対象。以下、当該対象を表す単語を対象語と称する）を判定する。対象語は、例えば、音声認識部３２が出力したテキストに対して形態素解析を行い、得られた複数の単語を解析することで判定することができる。例えば、ユーザが、「今日の昼ごはんはラーメンを食べた」といった発話を行った場合、ユーザがラーメン（または昼ごはん）について言及していると判定することができる。

ステップＳ２２については後述する。
ステップＳ２３では、記憶している単語テーブルを参照し、対象語が学習済みであるか否かを判定する。図４は、応答生成部３３が記憶している単語テーブルの例である。本実施形態では、単語テーブルに、第一の単語と第二の単語が関連付けられて記憶されている。第一の単語が学習した単語であり、第二の単語は、第一の単語に対するユーザの認識を表す単語である。
ユーザの認識を表す単語とは、例えば、以下のようなものが挙げられる。なお、第一の単語および第二の単語は、それぞれ一単語であってもよいし、単語の集合であってもよい。
（Ａ）第一の単語を形容した語（第一の単語から連想する語）
例えば、「うどん」に対して「つるつるする」といったように、第一の単語を他の語で形容したものである。また、例えば、「試験」に対して「緊張する」など、第一の単語から単に連想する語であってもよい。本実施形態では、いずれも形容語と称する。
（Ｂ）第一の単語の上位概念を表す語
例えば、「ラーメン」と「うどん」は、共に「麺類」という上位概念を有しているため、双方に「麺類」という単語で表すことができる。
（Ｃ）第一の単語に対するユーザの嗜好を表す語
例えば、「好き」「嫌い」「どちらかといえば好き」「とても嫌い」などである（以下、嗜好表現と称する）。
図４（Ａ）の例では、ユーザＩＤがＵ００１であるユーザについて、「テスト」という語と、「ドキドキする」という語が関連付いている。ここでは、ステップＳ２１で判定した「ラーメン」に対応する単語がテーブルに存在しない（学習済みではない）状況を例に説明を続ける。

ユーザが言及している単語が未学習の単語であった場合、ステップＳ２４へ遷移し、ユーザに対する質問を生成する。本実施形態では、ステップＳ２４で生成される質問は、以下の三種類のうちのいずれかである。質問の種類はどれであってもよい。
（１）単語をユーザに形容させる質問
例えば、「○○ってどんな感じ？」といった質問である。
（２）単語の上位概念を問う質問
例えば、「○○って何？」といった質問である。
（３）単語に対するユーザの嗜好を問う質問
例えば、「○○って好き？」といった質問である。

ステップＳ２５では、生成された質問を出力し、ユーザから当該質問に対する回答を得る。ここでは、ステップＳ１３〜Ｓ１５の処理を一時的に進めたうえで、ユーザから回答を取得する。すなわち、図２に示したフローがもう一度実行され、再度ステップＳ１３に戻ってくる。かかる処理によると、ユーザから、対象語に対応する嗜好表現、形容語、上位概念のいずれかを得ることができる。
質問の種類が、前述した（１）であった場合、当該質問に対する返答には形容語が含まれているため、これを抽出する。例えば、ユーザが行った発話のうち、単語の並びが以下のパターンに合致する語句を抽出することで、形容語を取得することができる。

例えば、「ラーメンってどんな感じ？」という質問に対して、ユーザが「つるつるしてる」と答え、「つるつる（副詞）＋する（動詞）」という解析がなされたものとする。この場合、「つるつるする」という語が、第二の単語として登録される。
図４（Ｂ）は、「ラーメンはつるつるする」というユーザの認識に基づいて、レコード（語彙データ）が追加された場合の例である。

質問の種類が、前述した（２）であった場合、当該質問に対する返答には、対象語の上位概念を表す語が含まれているため、これを抽出する。
ユーザの回答には、例えば、「○○」「○○だよ」「○○のことだね」「○○です」「それは○○」といった様々なパターンが考えられるため、変化しうる部分を正規化した表現（正規表現）によって、直接の回答となる部分を抽出すればよい。

質問の種類が、前述した（３）であった場合、当該質問に対する返答には、ユーザによる嗜好表現が含まれているため、これを抽出する。
例えば、「うん」「違う」といったように、質問が肯定されたか否定されたかを判定してもよいし、「好き」「嫌い」といった絶対的な表現を抽出してもよい。また、否定表現や二重否定表現（好きじゃない、嫌いなわけではない等）を考慮してもよい。

第一の単語と、第一の単語に対応する第二の単語が取得されると、これらの単語をセットにして単語テーブルに記録する（ステップＳ２６）。

なお、ユーザに質問を行わなくても、学習が可能な場合がある。
本実施形態では、ステップＳ２２で、取得した発話の内容だけで学習が可能か否かを判定する。例えば、発話の内容が「ラーメンが好きなんだ」といったように、発話に嗜好表現、形容語、上位概念のいずれかが含まれている場合、追加の質問をすることなく学習が可能であるため、処理はステップＳ２６へ遷移する。この場合、「ラーメン」と「好き」を関連付けて学習することができる。学習ができない場合、ステップＳ２３へ遷移する。

そして、ステップＳ２７にて、学習結果を利用して（すなわち、単語テーブルに記録された情報を用いて）応答文を生成する。ステップＳ２３にて学習済みであると判定された場合も同様である。

ステップＳ２７では、単語テーブルから対象語を検索し、当該対象語が存在した場合に、対になる単語（第一の単語であってもよいし、第二の単語であってもよい）を抽出して応答文の生成に利用する。
例えば、図４（Ａ）に示した情報が記録されていた場合であって、ユーザの発話内容が「いまドキドキしてる」といったものであった場合、「ドキドキする（第二の単語）」に
対応する単語である「テスト（第一の単語）」を抽出し、例えば、「テストでもあるの？」といった応答文を生成する。
また、ユーザが「テスト」について言及した場合、「テスト（第一の単語）」に対応する単語である「ドキドキする（第二の単語）」を抽出し、「ドキドキするね」といった応答文を生成してもよい。

なお、図４（Ａ）では形容語を例示したが、第二の単語は嗜好表現であってもよい。例えば、「ラーメン」と「好き」が関連付いている場合であって、ユーザが「ラーメン」について言及した場合、「ラーメン好きだね」といった応答文を生成してもよい。また、ユーザが「好きなもの」について言及した場合、「ラーメンとどっちが好き？」といった応答文を生成してもよい。
同様に、第二の単語は上位概念であってもよい。例えば、「ラーメン」と「麺類」が関連付いている場合であって、ユーザが「ラーメン」について言及した場合、「麺類かぁ」といった応答文を生成してもよい。また、ユーザが「麺類」について言及した場合、「ラーメンとかだね」といった応答文を生成してもよい。

なお、ステップＳ２６からステップＳ２７へ遷移した場合、直前で学習した情報を用いて応答を生成すると不自然になるため、学習したばかりの情報は用いないほうが好ましい。

説明したように、第一の実施形態では、第一の単語と、それに対するユーザの認識を表す第二の単語とを関連付けて記憶し、互いに参照することで応答文を生成する。これにより、ユーザの認識に基づいて話題を生成することができ、応答のバリエーションを豊かにすることができる。

（第二の実施形態）
第一の実施形態では、第一の単語と第二の単語を相互に参照することで応答文を生成した。これに対し、第二の実施形態は、同一の語が第二の単語として複数の第一の単語に関連づいていた場合に、同じ語が関連付いている別の第一の単語（関連単語）を抽出し、応答に用いる実施形態である。

例えば、図４（Ｃ）の例の場合、「テスト」という語と、「面接」という語に、ともに「ドキドキする」という語が関連付いている。このような場合において、ユーザが「これから面接がある」といった内容の発話を行った場合、第二の単語を介して「テスト」という関連単語を抽出し、「面接ってテストみたいにドキドキするよね」といった応答文を生成してもよい。

また、図４（Ｃ）の例の場合、「ラーメン」という語と、「つけ麺」という語に、ともに「つるつるする」という語が関連付いている。このような場合において、ユーザが「ラーメン食べようかな？」といった内容の発話を行った場合、第二の単語を介して「つけ麺」という単語を抽出し、「つけ麺もいいね！」といった応答文を生成してもよい。

以上説明したように、第二の実施形態では、第二の単語が共通する他の関連単語を抽出して応答文の生成に利用する。関連単語は、ユーザが一定の関連性を認識している単語であるため、当該ユーザにとって自然な話題を提示することができる。

（第三の実施形態）
第一および第二の実施形態では、第二の単語を一つのみ定義した。これに対し、第三の実施形態は、第二の単語を、種別ごとに複数のフィールドによって保持する実施形態である。

第三の実施形態に係る音声対話システムの構成は、第一の実施形態と同様であるため説明は省略し、利用するデータおよび処理における相違点のみを説明する。

図５は、第三の実施形態において応答生成部３３が記憶している単語テーブルの例である。本実施形態では、単語テーブルに定義された第二の単語が、「嗜好表現」「形容語」「上位概念」の三つによって表される。

また、第三の実施形態では、対話において対象語を取得した場合において、第二の実施形態と同様に、第二の単語（嗜好、形容語、上位概念のいずれか）が共通する他の単語を関連単語として抽出し、応答文の生成に利用する。

第三の実施形態における応答生成部３３の処理について、図３を参照しながら説明する。ここでは、ユーザが「新しいうどん屋ができたんだ」という発話を行い、ステップＳ２１にて、装置が「うどん」について言及していると判断したものとする。また、応答生成部３３には、図５（Ａ）に示した単語テーブルが記憶されているものとする。
この場合、ステップＳ２２およびＳ２３は否定判定となる。

第三の実施形態で、語彙データを追加する際に、ユーザの発話に基づいて何を抽出したか（嗜好表現であるか、形容語であるか、上位概念であるか）を判定し、適切なフィールドに格納するという点において第二の実施形態と相違する。
なお、第三の実施形態では、ステップＳ２４およびＳ２５を複数回繰り返し、複数種類の質問を行うようにしてもよい。例えば、上位概念と嗜好についての質問を二回行うようにしてもよい。
本例では、「うどんって何？」という質問を行った結果、「麺類だよ」といった回答が得られ、また、「うどんは好き？」という質問を行った結果、「好きだよ」といった回答が得られたものとする。この結果、単語テーブルは、図５（Ｂ）のようになる。

第三の実施形態では、ステップＳ２７で、第二の実施形態と同様に、第二の単語（嗜好表現、形容語、上位概念のいずれか）のうち、同じ語が関連付いている第一の単語を関連単語として抽出し、応答に用いる。
例えば、「うどん」について言及された発話がなされた場合、同じ上位概念を持つ「そば」という単語を取得し、そばについての話題を有する応答文を生成することができる。例えば、「うどんかぁ。麺類ならそばも良いよね」といった応答文を生成してもよい。

ところで、複数の第一の単語について、嗜好表現、形容語、上位概念のうちのどれかが共通し、その他が背反するというケースがある。これについて説明する。

例えば、図５（Ｂ）の例では、うどんは好きであるが、同じ麺類であるそばは嫌いといったように、関連付いた第二の単語のうちの一部がそれぞれ背反している。よって、ステップＳ２７にて、当該背反を話題とする応答文を生成してもよい。例えば、「うどんは好きなのに、そばは嫌いなんだね」といった応答文を生成することができる。

第三の実施形態では、このように、第二の単語を細分化して記憶し、応答文の生成に用いる。かかる構成によると、語彙データベースからより多くの単語を抽出できる。また、第二の単語のうちの一部が背反している場合、これを指摘するなど、対話にて用いる話題をさらに増やすことができる。

（変形例）
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適
宜変更して実施しうる。

例えば、実施形態の説明では、サーバ装置３０が音声認識を行ったが、音声認識を行う手段を制御装置２０に持たせてもよい。また、実施形態の説明では、サーバ装置３０が応答文の生成を行ったが、応答文を生成する手段を制御装置２０に持たせてもよい。また、制御装置２０およびサーバ装置３０を用いずに、ロボット１０が全ての処理を行うようにしてもよい。

１０・・・ロボット
１１・・・音声入力部
１２，２１・・・近距離通信部
１３・・・音声出力部
１４・・・動作制御部
２０・・・制御装置
２２・・・制御部
２３，３１・・・通信部
３０・・・サーバ装置
３２・・・音声認識部
３３・・・応答生成部

Claims

音声によってユーザと対話する音声対話装置であって、
前記ユーザが発した発話を取得する音声取得手段と、
応答文を生成するための複数の語彙データを記憶する語彙データベースと、
前記記憶された語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、
前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成手段は、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
音声対話装置。
前記ユーザに対して、前記発話で言及された対象に対する認識を問う質問を行い、前記ユーザから得られた回答に基づいて、前記語彙データを生成または更新する語彙収集手段をさらに有する、
請求項１に記載の音声対話装置。
前記語彙収集手段は、前記ユーザが発した発話に、前記発話で言及された対象に対する認識を表す単語が含まれている場合に、当該単語に基づいて前記語彙データを生成または更新する、
請求項２に記載の音声対話装置。
前記語彙データベースは、前記複数の語彙データをユーザごとに関連付けて記憶し、
前記応答生成手段は、対話中のユーザに関連付いた語彙データを利用する、
請求項２または３に記載の音声対話装置。
前記第二の単語は、前記第一の単語の上位概念を表す単語、前記ユーザが前記第一の単語を形容した単語、または、前記ユーザの前記第一の単語に対する嗜好を表す単語のうちのいずれかである、
請求項１から４のいずれかに記載の音声対話装置。
音声によってユーザと対話する音声対話装置が行う対話方法であって、
前記ユーザが発した発話を取得する音声取得ステップと、
応答文を生成するための複数の語彙データに基づいて、前記発話に対する応答文を生成する応答生成ステップと、を含み、
前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
前記応答生成ステップでは、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成ステップでは、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
対話方法。
音声によってユーザと対話する音声対話装置であって、
前記ユーザが発した発話を取得する音声取得手段と、
応答文を生成するための複数の語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、
前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成手段は、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
音声対話装置。