JP6790791B2 - 音声対話装置および対話方法 - Google Patents

音声対話装置および対話方法 Download PDF

Info

Publication number
JP6790791B2
JP6790791B2 JP2016242445A JP2016242445A JP6790791B2 JP 6790791 B2 JP6790791 B2 JP 6790791B2 JP 2016242445 A JP2016242445 A JP 2016242445A JP 2016242445 A JP2016242445 A JP 2016242445A JP 6790791 B2 JP6790791 B2 JP 6790791B2
Authority
JP
Japan
Prior art keywords
word
user
response
extracted
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016242445A
Other languages
English (en)
Other versions
JP2018097201A (ja
Inventor
池野 篤司
篤司 池野
宗明 島田
宗明 島田
浩太 畠中
浩太 畠中
西島 敏文
敏文 西島
史憲 片岡
史憲 片岡
刀根川 浩巳
浩巳 刀根川
倫秀 梅山
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016242445A priority Critical patent/JP6790791B2/ja
Publication of JP2018097201A publication Critical patent/JP2018097201A/ja
Application granted granted Critical
Publication of JP6790791B2 publication Critical patent/JP6790791B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声によってユーザと対話する装置に関する。
対話型ロボットシステムにおいて、自然な会話を提供するための研究が多くなされている。例えば、特許文献1には、入力された発話に対して応答を生成するための応答生成装置が開示されている。当該装置では、ある話題に対して応答文の候補が複数ある場合に、話題の豊富さと、感情の明るさの度合いに応じて、適切な応答文を選択するという特徴を有している。かかる発明によると、より適切な応答文を生成することができる。
特開2007−219149号公報
特許文献1に係る発明では、予め蓄積されたデータの範囲でしか応答を生成することができない。すなわち、データを随時増やして対話の内容を充実させることができない。
一方で、ユーザとの会話を通して学習を行うことで、利用可能な語彙を能動的に増やす会話システムが知られている。しかし、このようなシステムでは、会話において未知の単語が出現した場合に、当該単語の意味をユーザに質問し、学習させることはできるが、学習結果に基づいて会話のバリエーションを膨らませることができない。
本発明は上記の課題を考慮してなされたものであり、ユーザと対話する装置において、バリエーション豊かな会話を提供することを目的とする。
本発明に係る音声対話装置は、音声によってユーザと対話する音声対話装置であって、
前記ユーザが発した発話を取得する音声取得手段と、応答文を生成するための複数の語彙データを記憶する語彙データベースと、前記記憶された語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語または第二の単語を前記語彙データから抽出し、当該単語に関連付いた単語を用いて応答文を生成する第一の応答生成を行うことを特徴とする。
本発明に係る音声対話装置は、語彙データベースに登録された語彙データを用いて、ユーザが行った発話に対する応答文を生成する。語彙データとは、第一の単語と、当該第一の単語に対するユーザの認識を表す単語である第二の単語とを関連付けたデータである。ユーザの認識を表す単語とは、例えば、「第一の単語に対するユーザの嗜好を表す単語」、「ユーザが第一の単語を形容した単語」、「ユーザが第一の単語の概念を説明した単語」などである。このように、第二の単語は、第一の単語に対するユーザの認識を表すものであればよく、一義的なものでなくてもよい。例えば、第一の単語が「ラーメン」であった場合、第二の単語は「麺類」といったように上位概念を表す単語であってもよく、「好き」といったように嗜好を表す単語であってもよい。また、例えば、第一の単語が「試験」であった場合、第二の単語は「緊張」といったように、ユーザが単に連想する単語であ
ってもよい。
なお、第一および第二の単語は、必ずしも一単語である必要はない。例えば、「緊張する」といったように、単語の集合(文節)であってもよい。
また、応答生成手段は、取得した発話文で言及された単語に対応する単語について、対になる単語を語彙データから取得し、応答文を生成する。例えば、ユーザがラーメンについて言及する発話を行った場合、「ラーメン」という単語を第一の単語から検索し、対応する第二の単語を用いて応答文を生成してもよい。また、例えば、ユーザが「緊張している」旨の発話を行った場合、「緊張」という単語を第二の単語から検索し、対応する第一の単語を用いて応答文を生成してもよい。
第一の単語と第二の単語は、必ずしも一対一である必要はない。例えば、特定の第一の単語に複数の第二の単語が関連付いている場合があり、特定の第二の単語に複数の第一の単語が関連付いている場合がある。かかる構成によると、単語同士の対応を辿ることで、応答文のバリエーションを膨らませることができる。
また、本発明に係る音声対話装置は、前記ユーザに対して、前記発話で言及された対象に対する認識を問う質問を行い、前記ユーザから得られた回答に基づいて、前記語彙データを生成または更新する語彙収集手段をさらに有することを特徴としてもよい。
語彙データを学習させるため、語彙収集手段が、ユーザに対して、ある単語に対する認識を問う質問を行ってもよい。質問の内容は、例えば、「○○って好き?」といったように、ユーザの嗜好を問うものであってもよいし、「○○ってどんな感じ?」といったように、単語を別の言葉でユーザに形容させるものであってもよい。また、「○○って何?」といったように、単語の概念自体を問うものであってもよい。
また、前記語彙収集手段は、前記ユーザが発した発話に、前記発話で言及された対象に対する認識を表す単語が含まれている場合に、当該単語に基づいて前記語彙データを生成または更新することを特徴としてもよい。
このように、通常の対話においてなされた発話から、第一の単語と第二の単語(すなわち、ユーザが言及している対象と、それに対するユーザの認識を表す単語)を抽出できる場合、自動的に語彙データを生成ないし更新するようにしてもよい。
また、前記語彙データベースは、前記複数の語彙データをユーザごとに関連付けて記憶し、前記応答生成手段は、対話中のユーザに関連付いた語彙データを利用することを特徴としてもよい。
語彙データをユーザごとに保持し、対話中のユーザに対応する語彙データを利用することで、パーソナライズされた受け答えをすることができる。
また、前記第二の単語は、前記第一の単語の上位概念を表す単語、前記ユーザが前記第一の単語を形容した単語、または、前記ユーザの前記第一の単語に対する嗜好を表す単語のうちのいずれかであることを特徴としてもよい。
このように、関連のある単語を結びつけて記憶することで、応答のバリエーションを広げることができる。
また、前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単
語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する第二の応答生成を行うことを特徴としてもよい。
異なる第一の単語について、同一の第二の単語が関連付いている場合がある。このような場合、第二の単語を介して別の第一の単語(関連単語)を抽出し、応答文の生成に利用してもよい。例えば、『ラーメン』と『麺類』、『うどん』と『麺類』という単語がそれぞれ関連付いて記憶されている場合であって、ラーメンに言及した発話がなされた場合、うどんについての話題を振るようにしてもよい。
また、前記第二の応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成手段は、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成することを特徴としてもよい。
例えば、『ラーメン』と『麺類』、『ラーメン』と『好き』、『うどん』と『麺類』という単語がそれぞれ関連付いて記憶されている場合であって、ラーメンに言及した発話がなされた場合、「うどんも好き?」といった応答文を生成してもよい。
なお、本発明は、上記手段の少なくとも一部を含む音声対話装置として特定することができる。また、前記音声対話装置が行う対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、ユーザと対話する装置において、バリエーション豊かな会話を提供することができる。
第一の実施形態に係る対話システムのシステム構成図である。 ロボット10、制御装置20、サーバ装置30間のデータフロー図である。 サーバ装置30が行う処理のフローチャート図である。 第一の実施形態における単語テーブルの例である。 第二の実施形態における単語テーブルの例である。
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
(第一の実施形態)
<システム構成>
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
ロボット10は、スピーカやマイク、カメラ等を有しており、ユーザとのインタフェースを担う手段である。ロボット10は、人型やキャラクター型であってもよいし、他の形状であってもよい。
制御装置20は、ロボット10に対して命令を発行する装置である。また、サーバ装置30は、制御装置20から送信された要求に応じて、ユーザに提供する応答(応答文)を
生成する装置である。
本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理はサーバ装置30が行う。また、ロボット10とサーバ装置30とを仲介する処理を制御装置20が行う。
まず、ロボット10について説明する。
ロボット10は、音声入力部11、近距離通信部12、音声出力部13から構成される。
音声入力部11は、ユーザが発した音声を取得する手段である。具体的には、内蔵されたマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは、後述する近距離通信部12を介して制御装置20へ送信される。
近距離通信部12は、制御装置20と近距離無線通信を行う手段である。本実施形態では、近距離通信部12は、Bluetooth(登録商標)規格を利用して通信を行う。近距離通信部12は、ペアリング先となる制御装置20に関する情報を記憶しており、簡便な処理で接続を行うことができる。なお、Bluetooth規格は、IEEE802.15.1とも呼ばれる。
音声出力部13は、ユーザに提供する音声を出力する手段である。具体的には、内蔵されたスピーカを用いて、制御装置20から送信された音声データを音声に変換する。
次に、制御装置20について説明する。制御装置20は、ロボット10とサーバ装置30との仲介を行う装置であって、典型的にはモバイルコンピュータ、携帯電話、スマートフォンなどの小型のコンピュータである。制御装置20は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
制御装置20は、近距離通信部21、制御部22、通信部23から構成される。
近距離通信部21が有する機能は、前述した近距離通信部12と同様であるため、詳細な説明は省略する。
制御部22は、ロボット10から音声を取得し、当該取得した音声に対する応答を取得する手段である。具体的には、ロボット10から取得した音声を、通信部23を介してサーバ装置30(いずれも後述)に送信し、対応する応答文をサーバ装置30から受信する。また、音声合成機能によって、応答文を音声データに変換し、ロボット10に送信する。ロボット10に送信された音声は、音声出力部13を介してユーザに提供される。これにより、ユーザは、自然言語による会話を行うことができる。
通信部23は、通信回線(例えば無線LANや携帯電話網)を介してネットワークにアクセスすることで、サーバ装置30との通信を行う手段である。
サーバ装置30は、送信された音声を認識したうえで、ユーザに提供する応答文を生成する装置であり、通信部31、音声認識部32、応答生成部33からなる。
通信部31が有する機能は、前述した通信部23と同様であるため、詳細な説明は省略する。
音声認識部32は、ロボットが有する音声入力部11が取得した音声に対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部32には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部33へ送信される。
応答生成部33は、音声認識部32から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ(対話辞書)に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。
本実施形態では、応答生成部33は、単語を学習するための辞書であるテーブル(単語テーブル)を有しており、学習結果に応じて異なる応答文を生成することができる。詳細な処理内容については後述する。
応答生成部33が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
サーバ装置30も、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。
<対話の流れ>
次に、図1に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図2を参照しながら説明する。
まず、ステップS11で、ロボット10が有する音声入力部11が、マイクを通してユーザが発話した音声を取得する。取得した音声は音声データに変換され、通信部を介して、制御装置20が有する制御部22へ送信される。また、制御部22は、取得した音声データを、サーバ装置30が有する音声認識部32へ送信する。
次に、音声認識部32が、取得した音声データに対して音声認識を行い、テキストに変換する(ステップS12)。音声認識の結果得られたテキストは、応答生成部33へ送信される。次に、応答生成部33が、ユーザから得られた発話の内容に基づいて応答を生成する(ステップS13)。
生成された応答文は、制御装置20へ送信され、制御部22によって音声データに変換される(ステップS14)。そして、音声データはロボット10に送信され、音声出力部13を介して出力(再生)される(ステップS15)。
<応答の生成方法 >
次に、応答生成部33が応答を生成する具体的な方法について説明する。図3は、応答生成部33がステップS13にて応答を生成する処理をより詳細に表したフローチャート図である。
まず、ステップS21で、ユーザが言及している対象(話題としている対象。以下、当該対象を表す単語を対象語と称する)を判定する。対象語は、例えば、音声認識部32が出力したテキストに対して形態素解析を行い、得られた複数の単語を解析することで判定することができる。例えば、ユーザが、「今日の昼ごはんはラーメンを食べた」といった発話を行った場合、ユーザがラーメン(または昼ごはん)について言及していると判定することができる。
ステップS22については後述する。
ステップS23では、記憶している単語テーブルを参照し、対象語が学習済みであるか否かを判定する。図4は、応答生成部33が記憶している単語テーブルの例である。本実施形態では、単語テーブルに、第一の単語と第二の単語が関連付けられて記憶されている。第一の単語が学習した単語であり、第二の単語は、第一の単語に対するユーザの認識を表す単語である。
ユーザの認識を表す単語とは、例えば、以下のようなものが挙げられる。なお、第一の単語および第二の単語は、それぞれ一単語であってもよいし、単語の集合であってもよい。
(A)第一の単語を形容した語(第一の単語から連想する語)
例えば、「うどん」に対して「つるつるする」といったように、第一の単語を他の語で形容したものである。また、例えば、「試験」に対して「緊張する」など、第一の単語から単に連想する語であってもよい。本実施形態では、いずれも形容語と称する。
(B)第一の単語の上位概念を表す語
例えば、「ラーメン」と「うどん」は、共に「麺類」という上位概念を有しているため、双方に「麺類」という単語で表すことができる。
(C)第一の単語に対するユーザの嗜好を表す語
例えば、「好き」「嫌い」「どちらかといえば好き」「とても嫌い」などである(以下、嗜好表現と称する)。
図4(A)の例では、ユーザIDがU001であるユーザについて、「テスト」という語と、「ドキドキする」という語が関連付いている。ここでは、ステップS21で判定した「ラーメン」に対応する単語がテーブルに存在しない(学習済みではない)状況を例に説明を続ける。
ユーザが言及している単語が未学習の単語であった場合、ステップS24へ遷移し、ユーザに対する質問を生成する。本実施形態では、ステップS24で生成される質問は、以下の三種類のうちのいずれかである。質問の種類はどれであってもよい。
(1)単語をユーザに形容させる質問
例えば、「○○ってどんな感じ?」といった質問である。
(2)単語の上位概念を問う質問
例えば、「○○って何?」といった質問である。
(3)単語に対するユーザの嗜好を問う質問
例えば、「○○って好き?」といった質問である。
ステップS25では、生成された質問を出力し、ユーザから当該質問に対する回答を得る。ここでは、ステップS13〜S15の処理を一時的に進めたうえで、ユーザから回答を取得する。すなわち、図2に示したフローがもう一度実行され、再度ステップS13に戻ってくる。かかる処理によると、ユーザから、対象語に対応する嗜好表現、形容語、上位概念のいずれかを得ることができる。
質問の種類が、前述した(1)であった場合、当該質問に対する返答には形容語が含まれているため、これを抽出する。例えば、ユーザが行った発話のうち、単語の並びが以下のパターンに合致する語句を抽出することで、形容語を取得することができる。
Figure 0006790791
例えば、「ラーメンってどんな感じ?」という質問に対して、ユーザが「つるつるしてる」と答え、「つるつる(副詞)+する(動詞)」という解析がなされたものとする。この場合、「つるつるする」という語が、第二の単語として登録される。
図4(B)は、「ラーメンはつるつるする」というユーザの認識に基づいて、レコード(語彙データ)が追加された場合の例である。
質問の種類が、前述した(2)であった場合、当該質問に対する返答には、対象語の上位概念を表す語が含まれているため、これを抽出する。
ユーザの回答には、例えば、「○○」「○○だよ」「○○のことだね」「○○です」「それは○○」といった様々なパターンが考えられるため、変化しうる部分を正規化した表現(正規表現)によって、直接の回答となる部分を抽出すればよい。
質問の種類が、前述した(3)であった場合、当該質問に対する返答には、ユーザによる嗜好表現が含まれているため、これを抽出する。
例えば、「うん」「違う」といったように、質問が肯定されたか否定されたかを判定してもよいし、「好き」「嫌い」といった絶対的な表現を抽出してもよい。また、否定表現や二重否定表現(好きじゃない、嫌いなわけではない等)を考慮してもよい。
第一の単語と、第一の単語に対応する第二の単語が取得されると、これらの単語をセットにして単語テーブルに記録する(ステップS26)。
なお、ユーザに質問を行わなくても、学習が可能な場合がある。
本実施形態では、ステップS22で、取得した発話の内容だけで学習が可能か否かを判定する。例えば、発話の内容が「ラーメンが好きなんだ」といったように、発話に嗜好表現、形容語、上位概念のいずれかが含まれている場合、追加の質問をすることなく学習が可能であるため、処理はステップS26へ遷移する。この場合、「ラーメン」と「好き」を関連付けて学習することができる。学習ができない場合、ステップS23へ遷移する。
そして、ステップS27にて、学習結果を利用して(すなわち、単語テーブルに記録された情報を用いて)応答文を生成する。ステップS23にて学習済みであると判定された場合も同様である。
ステップS27では、単語テーブルから対象語を検索し、当該対象語が存在した場合に、対になる単語(第一の単語であってもよいし、第二の単語であってもよい)を抽出して応答文の生成に利用する。
例えば、図4(A)に示した情報が記録されていた場合であって、ユーザの発話内容が「いまドキドキしてる」といったものであった場合、「ドキドキする(第二の単語)」に
対応する単語である「テスト(第一の単語)」を抽出し、例えば、「テストでもあるの?」といった応答文を生成する。
また、ユーザが「テスト」について言及した場合、「テスト(第一の単語)」に対応する単語である「ドキドキする(第二の単語)」を抽出し、「ドキドキするね」といった応答文を生成してもよい。
なお、図4(A)では形容語を例示したが、第二の単語は嗜好表現であってもよい。例えば、「ラーメン」と「好き」が関連付いている場合であって、ユーザが「ラーメン」について言及した場合、「ラーメン好きだね」といった応答文を生成してもよい。また、ユーザが「好きなもの」について言及した場合、「ラーメンとどっちが好き?」といった応答文を生成してもよい。
同様に、第二の単語は上位概念であってもよい。例えば、「ラーメン」と「麺類」が関連付いている場合であって、ユーザが「ラーメン」について言及した場合、「麺類かぁ」といった応答文を生成してもよい。また、ユーザが「麺類」について言及した場合、「ラーメンとかだね」といった応答文を生成してもよい。
なお、ステップS26からステップS27へ遷移した場合、直前で学習した情報を用いて応答を生成すると不自然になるため、学習したばかりの情報は用いないほうが好ましい。
説明したように、第一の実施形態では、第一の単語と、それに対するユーザの認識を表す第二の単語とを関連付けて記憶し、互いに参照することで応答文を生成する。これにより、ユーザの認識に基づいて話題を生成することができ、応答のバリエーションを豊かにすることができる。
(第二の実施形態)
第一の実施形態では、第一の単語と第二の単語を相互に参照することで応答文を生成した。これに対し、第二の実施形態は、同一の語が第二の単語として複数の第一の単語に関連づいていた場合に、同じ語が関連付いている別の第一の単語(関連単語)を抽出し、応答に用いる実施形態である。
例えば、図4(C)の例の場合、「テスト」という語と、「面接」という語に、ともに「ドキドキする」という語が関連付いている。このような場合において、ユーザが「これから面接がある」といった内容の発話を行った場合、第二の単語を介して「テスト」という関連単語を抽出し、「面接ってテストみたいにドキドキするよね」といった応答文を生成してもよい。
また、図4(C)の例の場合、「ラーメン」という語と、「つけ麺」という語に、ともに「つるつるする」という語が関連付いている。このような場合において、ユーザが「ラーメン食べようかな?」といった内容の発話を行った場合、第二の単語を介して「つけ麺」という単語を抽出し、「つけ麺もいいね!」といった応答文を生成してもよい。
以上説明したように、第二の実施形態では、第二の単語が共通する他の関連単語を抽出して応答文の生成に利用する。関連単語は、ユーザが一定の関連性を認識している単語であるため、当該ユーザにとって自然な話題を提示することができる。
(第三の実施形態)
第一および第二の実施形態では、第二の単語を一つのみ定義した。これに対し、第三の実施形態は、第二の単語を、種別ごとに複数のフィールドによって保持する実施形態である。
第三の実施形態に係る音声対話システムの構成は、第一の実施形態と同様であるため説明は省略し、利用するデータおよび処理における相違点のみを説明する。
図5は、第三の実施形態において応答生成部33が記憶している単語テーブルの例である。本実施形態では、単語テーブルに定義された第二の単語が、「嗜好表現」「形容語」「上位概念」の三つによって表される。
また、第三の実施形態では、対話において対象語を取得した場合において、第二の実施形態と同様に、第二の単語(嗜好、形容語、上位概念のいずれか)が共通する他の単語を関連単語として抽出し、応答文の生成に利用する。
第三の実施形態における応答生成部33の処理について、図3を参照しながら説明する。ここでは、ユーザが「新しいうどん屋ができたんだ」という発話を行い、ステップS21にて、装置が「うどん」について言及していると判断したものとする。また、応答生成部33には、図5(A)に示した単語テーブルが記憶されているものとする。
この場合、ステップS22およびS23は否定判定となる。
第三の実施形態で、語彙データを追加する際に、ユーザの発話に基づいて何を抽出したか(嗜好表現であるか、形容語であるか、上位概念であるか)を判定し、適切なフィールドに格納するという点において第二の実施形態と相違する。
なお、第三の実施形態では、ステップS24およびS25を複数回繰り返し、複数種類の質問を行うようにしてもよい。例えば、上位概念と嗜好についての質問を二回行うようにしてもよい。
本例では、「うどんって何?」という質問を行った結果、「麺類だよ」といった回答が得られ、また、「うどんは好き?」という質問を行った結果、「好きだよ」といった回答が得られたものとする。この結果、単語テーブルは、図5(B)のようになる。
第三の実施形態では、ステップS27で、第二の実施形態と同様に、第二の単語(嗜好表現、形容語、上位概念のいずれか)のうち、同じ語が関連付いている第一の単語を関連単語として抽出し、応答に用いる。
例えば、「うどん」について言及された発話がなされた場合、同じ上位概念を持つ「そば」という単語を取得し、そばについての話題を有する応答文を生成することができる。例えば、「うどんかぁ。麺類ならそばも良いよね」といった応答文を生成してもよい。
ところで、複数の第一の単語について、嗜好表現、形容語、上位概念のうちのどれかが共通し、その他が背反するというケースがある。これについて説明する。
例えば、図5(B)の例では、うどんは好きであるが、同じ麺類であるそばは嫌いといったように、関連付いた第二の単語のうちの一部がそれぞれ背反している。よって、ステップS27にて、当該背反を話題とする応答文を生成してもよい。例えば、「うどんは好きなのに、そばは嫌いなんだね」といった応答文を生成することができる。
第三の実施形態では、このように、第二の単語を細分化して記憶し、応答文の生成に用いる。かかる構成によると、語彙データベースからより多くの単語を抽出できる。また、第二の単語のうちの一部が背反している場合、これを指摘するなど、対話にて用いる話題をさらに増やすことができる。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適
宜変更して実施しうる。
例えば、実施形態の説明では、サーバ装置30が音声認識を行ったが、音声認識を行う手段を制御装置20に持たせてもよい。また、実施形態の説明では、サーバ装置30が応答文の生成を行ったが、応答文を生成する手段を制御装置20に持たせてもよい。また、制御装置20およびサーバ装置30を用いずに、ロボット10が全ての処理を行うようにしてもよい。
10・・・ロボット
11・・・音声入力部
12,21・・・近距離通信部
13・・・音声出力部
14・・・動作制御部
20・・・制御装置
22・・・制御部
23,31・・・通信部
30・・・サーバ装置
32・・・音声認識部
33・・・応答生成部

Claims (7)

  1. 音声によってユーザと対話する音声対話装置であって、
    前記ユーザが発した発話を取得する音声取得手段と、
    応答文を生成するための複数の語彙データを記憶する語彙データベースと、
    前記記憶された語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、
    前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
    前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
    前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成手段は、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
    音声対話装置。
  2. 前記ユーザに対して、前記発話で言及された対象に対する認識を問う質問を行い、前記ユーザから得られた回答に基づいて、前記語彙データを生成または更新する語彙収集手段をさらに有する、
    請求項1に記載の音声対話装置。
  3. 前記語彙収集手段は、前記ユーザが発した発話に、前記発話で言及された対象に対する認識を表す単語が含まれている場合に、当該単語に基づいて前記語彙データを生成または更新する、
    請求項2に記載の音声対話装置。
  4. 前記語彙データベースは、前記複数の語彙データをユーザごとに関連付けて記憶し、
    前記応答生成手段は、対話中のユーザに関連付いた語彙データを利用する、
    請求項2または3に記載の音声対話装置。
  5. 前記第二の単語は、前記第一の単語の上位概念を表す単語、前記ユーザが前記第一の単語を形容した単語、または、前記ユーザの前記第一の単語に対する嗜好を表す単語のうちのいずれかである、
    請求項1から4のいずれかに記載の音声対話装置。
  6. 音声によってユーザと対話する音声対話装置が行う対話方法であって、
    前記ユーザが発した発話を取得する音声取得ステップと、
    応答文を生成するための複数の語彙データに基づいて、前記発話に対する応答文を生成する応答生成ステップと、を含み、
    前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
    前記応答生成ステップでは、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
    前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成ステップでは、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
    対話方法。
  7. 音声によってユーザと対話する音声対話装置であって、
    前記ユーザが発した発話を取得する音声取得手段と、
    応答文を生成するための複数の語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、
    前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
    前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
    前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成手段は、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
    音声対話装置。
JP2016242445A 2016-12-14 2016-12-14 音声対話装置および対話方法 Active JP6790791B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016242445A JP6790791B2 (ja) 2016-12-14 2016-12-14 音声対話装置および対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016242445A JP6790791B2 (ja) 2016-12-14 2016-12-14 音声対話装置および対話方法

Publications (2)

Publication Number Publication Date
JP2018097201A JP2018097201A (ja) 2018-06-21
JP6790791B2 true JP6790791B2 (ja) 2020-11-25

Family

ID=62632452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016242445A Active JP6790791B2 (ja) 2016-12-14 2016-12-14 音声対話装置および対話方法

Country Status (1)

Country Link
JP (1) JP6790791B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3617826B2 (ja) * 2001-10-02 2005-02-09 松下電器産業株式会社 情報検索装置
JP2005181358A (ja) * 2003-12-16 2005-07-07 Victor Co Of Japan Ltd 音声認識合成システム
JP2013072887A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 対話装置
JP6225012B2 (ja) * 2013-07-31 2017-11-01 日本電信電話株式会社 発話文生成装置とその方法とプログラム
JP6299563B2 (ja) * 2014-11-07 2018-03-28 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム

Also Published As

Publication number Publication date
JP2018097201A (ja) 2018-06-21

Similar Documents

Publication Publication Date Title
CN107516511B (zh) 意图识别和情绪的文本到语音学习系统
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
EP3438972B1 (en) Information processing system and method for generating speech
CN111226224B (zh) 用于翻译语音信号的方法及电子设备
RU2632424C2 (ru) Способ и сервер для синтеза речи по тексту
US11450311B2 (en) System and methods for accent and dialect modification
US9053096B2 (en) Language translation based on speaker-related information
AU2014331209B2 (en) Method for dialogue between a machine, such as a humanoid robot, and a human interlocutor; computer program product; and humanoid robot for implementing such a method
KR102420564B1 (ko) 정보 제공 방법 및 디바이스
JP6819988B2 (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
Milhorat et al. Building the next generation of personal digital assistants
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
US20180090132A1 (en) Voice dialogue system and voice dialogue method
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
JP2014106523A (ja) 音声入力対応装置及び音声入力対応プログラム
CN108470188B (zh) 基于图像分析的交互方法及电子设备
JP2020154076A (ja) 推論器、学習方法および学習プログラム
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
EP3550449A1 (en) Search method and electronic device using the method
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP6790791B2 (ja) 音声対話装置および対話方法
JP2020154378A (ja) 自己との対話装置、チャットボット、およびロボット
WO2020110744A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Šoić et al. Spoken notifications in smart environments using Croatian language
JP2020134719A (ja) 翻訳装置、翻訳方法、および翻訳プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200407

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201019

R151 Written notification of patent or utility model registration

Ref document number: 6790791

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151