JP6790791B2 - 音声対話装置および対話方法 - Google Patents
音声対話装置および対話方法 Download PDFInfo
- Publication number
- JP6790791B2 JP6790791B2 JP2016242445A JP2016242445A JP6790791B2 JP 6790791 B2 JP6790791 B2 JP 6790791B2 JP 2016242445 A JP2016242445 A JP 2016242445A JP 2016242445 A JP2016242445 A JP 2016242445A JP 6790791 B2 JP6790791 B2 JP 6790791B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- user
- response
- extracted
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
前記ユーザが発した発話を取得する音声取得手段と、応答文を生成するための複数の語彙データを記憶する語彙データベースと、前記記憶された語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語または第二の単語を前記語彙データから抽出し、当該単語に関連付いた単語を用いて応答文を生成する第一の応答生成を行うことを特徴とする。
ってもよい。
なお、第一および第二の単語は、必ずしも一単語である必要はない。例えば、「緊張する」といったように、単語の集合(文節)であってもよい。
語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する第二の応答生成を行うことを特徴としてもよい。
本実施形態に係る音声対話システムは、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
<システム構成>
図1は、第一の実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と、制御装置20と、サーバ装置30から構成される。
制御装置20は、ロボット10に対して命令を発行する装置である。また、サーバ装置30は、制御装置20から送信された要求に応じて、ユーザに提供する応答(応答文)を
生成する装置である。
本実施形態では、ロボット10はユーザインタフェースとしてのみ機能し、発話内容の認識、応答文の生成、その他の処理など、システム全体を制御する処理はサーバ装置30が行う。また、ロボット10とサーバ装置30とを仲介する処理を制御装置20が行う。
ロボット10は、音声入力部11、近距離通信部12、音声出力部13から構成される。
通信部31が有する機能は、前述した通信部23と同様であるため、詳細な説明は省略する。
本実施形態では、応答生成部33は、単語を学習するための辞書であるテーブル(単語テーブル)を有しており、学習結果に応じて異なる応答文を生成することができる。詳細な処理内容については後述する。
応答生成部33が取得した情報は、制御装置20へテキスト形式で送信され、その後、合成音声に変換され、ロボット10を介してユーザに向けて出力される。
次に、図1に示した各手段が行う処理とデータの流れについて、処理内容およびデータの流れを説明するフロー図である図2を参照しながら説明する。
生成された応答文は、制御装置20へ送信され、制御部22によって音声データに変換される(ステップS14)。そして、音声データはロボット10に送信され、音声出力部13を介して出力(再生)される(ステップS15)。
次に、応答生成部33が応答を生成する具体的な方法について説明する。図3は、応答生成部33がステップS13にて応答を生成する処理をより詳細に表したフローチャート図である。
ステップS23では、記憶している単語テーブルを参照し、対象語が学習済みであるか否かを判定する。図4は、応答生成部33が記憶している単語テーブルの例である。本実施形態では、単語テーブルに、第一の単語と第二の単語が関連付けられて記憶されている。第一の単語が学習した単語であり、第二の単語は、第一の単語に対するユーザの認識を表す単語である。
ユーザの認識を表す単語とは、例えば、以下のようなものが挙げられる。なお、第一の単語および第二の単語は、それぞれ一単語であってもよいし、単語の集合であってもよい。
(A)第一の単語を形容した語(第一の単語から連想する語)
例えば、「うどん」に対して「つるつるする」といったように、第一の単語を他の語で形容したものである。また、例えば、「試験」に対して「緊張する」など、第一の単語から単に連想する語であってもよい。本実施形態では、いずれも形容語と称する。
(B)第一の単語の上位概念を表す語
例えば、「ラーメン」と「うどん」は、共に「麺類」という上位概念を有しているため、双方に「麺類」という単語で表すことができる。
(C)第一の単語に対するユーザの嗜好を表す語
例えば、「好き」「嫌い」「どちらかといえば好き」「とても嫌い」などである(以下、嗜好表現と称する)。
図4(A)の例では、ユーザIDがU001であるユーザについて、「テスト」という語と、「ドキドキする」という語が関連付いている。ここでは、ステップS21で判定した「ラーメン」に対応する単語がテーブルに存在しない(学習済みではない)状況を例に説明を続ける。
(1)単語をユーザに形容させる質問
例えば、「○○ってどんな感じ?」といった質問である。
(2)単語の上位概念を問う質問
例えば、「○○って何?」といった質問である。
(3)単語に対するユーザの嗜好を問う質問
例えば、「○○って好き?」といった質問である。
質問の種類が、前述した(1)であった場合、当該質問に対する返答には形容語が含まれているため、これを抽出する。例えば、ユーザが行った発話のうち、単語の並びが以下のパターンに合致する語句を抽出することで、形容語を取得することができる。
図4(B)は、「ラーメンはつるつるする」というユーザの認識に基づいて、レコード(語彙データ)が追加された場合の例である。
ユーザの回答には、例えば、「○○」「○○だよ」「○○のことだね」「○○です」「それは○○」といった様々なパターンが考えられるため、変化しうる部分を正規化した表現(正規表現)によって、直接の回答となる部分を抽出すればよい。
例えば、「うん」「違う」といったように、質問が肯定されたか否定されたかを判定してもよいし、「好き」「嫌い」といった絶対的な表現を抽出してもよい。また、否定表現や二重否定表現(好きじゃない、嫌いなわけではない等)を考慮してもよい。
本実施形態では、ステップS22で、取得した発話の内容だけで学習が可能か否かを判定する。例えば、発話の内容が「ラーメンが好きなんだ」といったように、発話に嗜好表現、形容語、上位概念のいずれかが含まれている場合、追加の質問をすることなく学習が可能であるため、処理はステップS26へ遷移する。この場合、「ラーメン」と「好き」を関連付けて学習することができる。学習ができない場合、ステップS23へ遷移する。
例えば、図4(A)に示した情報が記録されていた場合であって、ユーザの発話内容が「いまドキドキしてる」といったものであった場合、「ドキドキする(第二の単語)」に
対応する単語である「テスト(第一の単語)」を抽出し、例えば、「テストでもあるの?」といった応答文を生成する。
また、ユーザが「テスト」について言及した場合、「テスト(第一の単語)」に対応する単語である「ドキドキする(第二の単語)」を抽出し、「ドキドキするね」といった応答文を生成してもよい。
同様に、第二の単語は上位概念であってもよい。例えば、「ラーメン」と「麺類」が関連付いている場合であって、ユーザが「ラーメン」について言及した場合、「麺類かぁ」といった応答文を生成してもよい。また、ユーザが「麺類」について言及した場合、「ラーメンとかだね」といった応答文を生成してもよい。
第一の実施形態では、第一の単語と第二の単語を相互に参照することで応答文を生成した。これに対し、第二の実施形態は、同一の語が第二の単語として複数の第一の単語に関連づいていた場合に、同じ語が関連付いている別の第一の単語(関連単語)を抽出し、応答に用いる実施形態である。
第一および第二の実施形態では、第二の単語を一つのみ定義した。これに対し、第三の実施形態は、第二の単語を、種別ごとに複数のフィールドによって保持する実施形態である。
この場合、ステップS22およびS23は否定判定となる。
なお、第三の実施形態では、ステップS24およびS25を複数回繰り返し、複数種類の質問を行うようにしてもよい。例えば、上位概念と嗜好についての質問を二回行うようにしてもよい。
本例では、「うどんって何?」という質問を行った結果、「麺類だよ」といった回答が得られ、また、「うどんは好き?」という質問を行った結果、「好きだよ」といった回答が得られたものとする。この結果、単語テーブルは、図5(B)のようになる。
例えば、「うどん」について言及された発話がなされた場合、同じ上位概念を持つ「そば」という単語を取得し、そばについての話題を有する応答文を生成することができる。例えば、「うどんかぁ。麺類ならそばも良いよね」といった応答文を生成してもよい。
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適
宜変更して実施しうる。
11・・・音声入力部
12,21・・・近距離通信部
13・・・音声出力部
14・・・動作制御部
20・・・制御装置
22・・・制御部
23,31・・・通信部
30・・・サーバ装置
32・・・音声認識部
33・・・応答生成部
Claims (7)
- 音声によってユーザと対話する音声対話装置であって、
前記ユーザが発した発話を取得する音声取得手段と、
応答文を生成するための複数の語彙データを記憶する語彙データベースと、
前記記憶された語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、
前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成手段は、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
音声対話装置。 - 前記ユーザに対して、前記発話で言及された対象に対する認識を問う質問を行い、前記ユーザから得られた回答に基づいて、前記語彙データを生成または更新する語彙収集手段をさらに有する、
請求項1に記載の音声対話装置。 - 前記語彙収集手段は、前記ユーザが発した発話に、前記発話で言及された対象に対する認識を表す単語が含まれている場合に、当該単語に基づいて前記語彙データを生成または更新する、
請求項2に記載の音声対話装置。 - 前記語彙データベースは、前記複数の語彙データをユーザごとに関連付けて記憶し、
前記応答生成手段は、対話中のユーザに関連付いた語彙データを利用する、
請求項2または3に記載の音声対話装置。 - 前記第二の単語は、前記第一の単語の上位概念を表す単語、前記ユーザが前記第一の単語を形容した単語、または、前記ユーザの前記第一の単語に対する嗜好を表す単語のうちのいずれかである、
請求項1から4のいずれかに記載の音声対話装置。 - 音声によってユーザと対話する音声対話装置が行う対話方法であって、
前記ユーザが発した発話を取得する音声取得ステップと、
応答文を生成するための複数の語彙データに基づいて、前記発話に対する応答文を生成する応答生成ステップと、を含み、
前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
前記応答生成ステップでは、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成ステップでは、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
対話方法。 - 音声によってユーザと対話する音声対話装置であって、
前記ユーザが発した発話を取得する音声取得手段と、
応答文を生成するための複数の語彙データに基づいて、前記発話に対する応答文を生成する応答生成手段と、を有し、
前記語彙データは、第一の単語と、前記第一の単語に対する前記ユーザの認識を表す単語である第二の単語と、を関連付けたデータであり、
前記応答生成手段は、前記発話で言及された対象に対応する前記第一の単語を前記語彙データから抽出し、かつ、関連付いている前記第二の単語が前記抽出した第一の単語と共通する他の第一の単語である関連単語を抽出し、前記関連単語を用いて応答文を生成する応答生成を行い、
前記応答生成において、前記抽出した第一の単語に関連付いた前記第二の単語が複数ある場合に、前記応答生成手段は、前記関連単語に加え、前記関連単語と直接関連付いていない前記第二の単語をさらに抽出し、前記関連単語と、前記抽出した第二の単語とを用いて応答文を生成する、
音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016242445A JP6790791B2 (ja) | 2016-12-14 | 2016-12-14 | 音声対話装置および対話方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016242445A JP6790791B2 (ja) | 2016-12-14 | 2016-12-14 | 音声対話装置および対話方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018097201A JP2018097201A (ja) | 2018-06-21 |
JP6790791B2 true JP6790791B2 (ja) | 2020-11-25 |
Family
ID=62632452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016242445A Active JP6790791B2 (ja) | 2016-12-14 | 2016-12-14 | 音声対話装置および対話方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6790791B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3617826B2 (ja) * | 2001-10-02 | 2005-02-09 | 松下電器産業株式会社 | 情報検索装置 |
JP2005181358A (ja) * | 2003-12-16 | 2005-07-07 | Victor Co Of Japan Ltd | 音声認識合成システム |
JP2013072887A (ja) * | 2011-09-26 | 2013-04-22 | Toshiba Corp | 対話装置 |
JP6225012B2 (ja) * | 2013-07-31 | 2017-11-01 | 日本電信電話株式会社 | 発話文生成装置とその方法とプログラム |
JP6299563B2 (ja) * | 2014-11-07 | 2018-03-28 | トヨタ自動車株式会社 | 応答生成方法、応答生成装置及び応答生成プログラム |
-
2016
- 2016-12-14 JP JP2016242445A patent/JP6790791B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018097201A (ja) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107516511B (zh) | 意图识别和情绪的文本到语音学习系统 | |
US10672391B2 (en) | Improving automatic speech recognition of multilingual named entities | |
EP3438972B1 (en) | Information processing system and method for generating speech | |
CN111226224B (zh) | 用于翻译语音信号的方法及电子设备 | |
RU2632424C2 (ru) | Способ и сервер для синтеза речи по тексту | |
US11450311B2 (en) | System and methods for accent and dialect modification | |
US9053096B2 (en) | Language translation based on speaker-related information | |
AU2014331209B2 (en) | Method for dialogue between a machine, such as a humanoid robot, and a human interlocutor; computer program product; and humanoid robot for implementing such a method | |
KR102420564B1 (ko) | 정보 제공 방법 및 디바이스 | |
JP6819988B2 (ja) | 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム | |
Milhorat et al. | Building the next generation of personal digital assistants | |
US10839788B2 (en) | Systems and methods for selecting accent and dialect based on context | |
US20180090132A1 (en) | Voice dialogue system and voice dialogue method | |
JP2017107078A (ja) | 音声対話方法、音声対話装置及び音声対話プログラム | |
JP2014106523A (ja) | 音声入力対応装置及び音声入力対応プログラム | |
CN108470188B (zh) | 基于图像分析的交互方法及电子设备 | |
JP2020154076A (ja) | 推論器、学習方法および学習プログラム | |
Delgado et al. | Spoken, multilingual and multimodal dialogue systems: development and assessment | |
EP3550449A1 (en) | Search method and electronic device using the method | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
JP6790791B2 (ja) | 音声対話装置および対話方法 | |
JP2020154378A (ja) | 自己との対話装置、チャットボット、およびロボット | |
WO2020110744A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Šoić et al. | Spoken notifications in smart environments using Croatian language | |
JP2020134719A (ja) | 翻訳装置、翻訳方法、および翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200407 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201019 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6790791 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |