JP6526399B2 - 音声対話装置、音声対話装置の制御方法、および制御プログラム - Google Patents

音声対話装置、音声対話装置の制御方法、および制御プログラム Download PDF

Info

Publication number
JP6526399B2
JP6526399B2 JP2014184561A JP2014184561A JP6526399B2 JP 6526399 B2 JP6526399 B2 JP 6526399B2 JP 2014184561 A JP2014184561 A JP 2014184561A JP 2014184561 A JP2014184561 A JP 2014184561A JP 6526399 B2 JP6526399 B2 JP 6526399B2
Authority
JP
Japan
Prior art keywords
user
answer
option
options
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014184561A
Other languages
English (en)
Other versions
JP2016057508A (ja
Inventor
彰則 横濱
彰則 横濱
夏希 高田
夏希 高田
秀俊 篠原
秀俊 篠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014184561A priority Critical patent/JP6526399B2/ja
Publication of JP2016057508A publication Critical patent/JP2016057508A/ja
Application granted granted Critical
Publication of JP6526399B2 publication Critical patent/JP6526399B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は音声対話装置に関する。
音声でユーザに質問を投げかけて、ユーザに音声によって選択肢を選ばせる技術としてIVR(自動音声応答)が知られている。音声対話装置が、ユーザに多数の選択肢を提示して選択を求める場合がある。このようなときに、単純に多数の選択肢を列挙されると、選択肢の読み上げが完了するまでに長い時間がかかる。また、ユーザは多数の選択肢を覚えきれないという不都合が生じる。
特許文献1には、多肢択一式の質問に関して選択肢の数に閾値を与えて少ない数の選択肢に制限し、質問の際に全ての選択肢をユーザに提示する技術が記載されている。また、音声対話または自動応答に関する技術が、特許文献2〜4に記載されている。
特開平07−092987号公報(1995年4月7日公開) 特開2004−356896号公報(2004年12月16日公開) 特開2007−232829号公報(2007年9月13日公開) 特開2010−102163号公報(2010年5月6日公開)
しかしながら、例えば、特許文献1に記載の技術では、一度に提示される選択肢の個数が制限されるため、他にどのくらいの選択肢が残っているのかユーザは認識することができない。それゆえ、ユーザは、選択肢を回答すべきか、何個あるか分からない残りの選択肢も聞くべきか、判断しにくい。
本発明は、ユーザが回答しやすいように質問を行う音声対話装置を提供することを目的とする。
本発明の一態様に係る音声対話装置は、質問に対してユーザに選択させる複数の選択肢を含む選択肢群のうち、一部の選択肢を発話内容に含ませ、さらに上記選択肢群のうちの残りの選択肢の個数を上記発話内容に含ませる発話内容生成手段と、音声によるユーザの回答から、いずれの選択肢が選択されたのかを判定する回答判定手段とを備える。
本発明の一態様によれば、ユーザは、回答すべき内容を知覚しやすくなる。それゆえ、ユーザは質問に対して回答しやすくなる。
本発明の一実施形態に係る音声対話装置の要部構成を示すブロック図である。 上記音声対話装置における音声対話の処理フローを示す図である。 上記音声対話装置とユーザとの対話例を示す図である。 上記音声対話装置とユーザとの対話例を示す図である。 上記音声対話装置とユーザとの対話例を示す図である。 上記音声対話装置とユーザとの対話例を示す図である。 上記音声対話装置とユーザとの対話例を示す図である。 上記音声対話装置とユーザとの対話例を示す図である。 上記音声対話装置とユーザとの対話例を示す図である。 上記音声対話装置とユーザとの対話例を示す図である。
以下の説明では音声対話装置の一例として、音声によってユーザとコミュニケーションを行うロボットを例にして説明を行うが、これに限定されるものではなく、音声によってユーザと自動で対話する電子機器であれば、本発明を適用することができる。電子機器(音声対話装置)としては、例えば、ロボット、スマートフォン、携帯電話、タブレット端末、家電製品(電子レンジ、洗濯機、エアコン等)、自動販売機、ATM(Automated Teller Machine)、カーナビゲーション、電話の自動音声応答装置等が含まれる。また、音声入力機能および音声出力機能を有する電子機器と通信により連携して、該電子機器の発話内容を生成する装置(例えばクラウドサーバ)も、本発明の一態様に係る音声対話装置に含まれる。
〔実施形態1〕
(音声対話装置1の構成)
図1は、本発明の一実施形態に係る音声対話装置の要部構成を示すブロック図である。音声対話装置1(音声対話システム)は、制御部2、音声入力部3、音声出力部4、および記憶部5を備える。ここでは、音声対話装置1は、ユーザと音声によってコミュニケーションを行うロボットである。このロボットは、ユーザに対して質問をし、質問に対する回答を蓄積することで、ユーザの嗜好等を学習する。これにより、ロボットは、学習した内容に応じた動作または音声対話を行うことができる。
音声入力部3は、マイク等の音声入力装置を備え、音声の入力を受け付ける。音声入力部3は、入力された音声を制御部2に出力する。音声出力部4は、スピーカ等の音声出力装置を備え、音声の出力を行う。音声出力部4は、制御部2から出力された音声信号にしたがって、音声の出力を行う。なお、音声出力部4は、制御部2から発話内容のデータを受け取り、発話内容を音声信号に変換してもよい。
記憶部5は、質問内容のテンプレート、質問において提示される選択肢群、および所定のコマンドに対応するキーワード等のデータ、ならびに制御部2が実行する制御プログラムをあらかじめ記憶している。
制御部2は、音声対話装置1の動作および処理を統括的に制御するものである。制御部2は、音声認識部11、回答解釈部12(回答判定手段)、および発話内容生成部13(発話内容生成手段、選択肢抽出手段)を含む。制御部2は、音声対話だけでなく、ロボットの動作制御も行う。
音声認識部11は、音声入力部3から入力された音声を、言葉として認識する音声認識処理を行う。音声認識処理としては既存の技術を用いることができる。音声認識部11は、例えば、ユーザが回答(入力)した音声データを、辞書等を用いて対応する文字データに変換する。音声認識部11は、音声認識処理されたユーザの回答(文字データ)を回答解釈部12に出力する。
回答解釈部12は、選択肢群および所定のコマンドに対応するキーワードのリストを参照し、ユーザの回答が何を指すのかを判定する。具体的には、回答解釈部12は、ユーザの回答が、いずれかの選択肢を指定しているものか、または、所定のコマンドを指定しているものか判定する。回答解釈部12は、ユーザの回答を解釈した結果を発話内容生成部13に出力する。
発話内容生成部13は、音声出力する発話内容を自動で生成する。発話内容生成部13は、記憶部5から、質問内容、および質問内容に対応する複数の選択肢を含む選択肢群のデータを取得する。発話内容生成部13は、取得したデータを使用して、質問内容および複数の選択肢を含む発話内容を生成する。一度にユーザに提示する選択肢の数が多くなりすぎないように、1つの発話内容に含まれる選択肢の数の上限が設定されている。発話内容生成部13は、選択肢群のうちの一部(上限個数)の選択肢を発話内容に含ませ、さらに、選択肢群のうちの残りの選択肢の個数を該発話内容に含ませる。発話内容生成部13は、生成した発話内容を音声信号に変換し、発話内容を示す音声信号を音声出力部4に出力する。また、発話内容生成部13は、ユーザに行った質問内容に対応する選択肢群を回答解釈部12に出力する。
(音声対話の処理フロー)
図2は、音声対話装置1における音声対話の処理フローを示す図である。ここでは、音声対話装置1が、複数の選択肢から1つの選択肢をユーザに選択させる質問を行う場合について説明する。ここでは、1つの発話内容に含まれる選択肢の数の上限は「3」と設定されているとする。また、質問に対する選択肢は8個あるとする。もちろん、上記上限は任意の数でよい。
発話内容生成部13は、選択肢群のうちから、一度に読み上げる3つの選択肢(第1選択肢、第2選択肢、および第3選択肢)を抽出する(S1)。選択肢群のうち読み上げられない残りの選択肢の個数は5個である。発話内容生成部13は、質問内容、全選択肢の個数「8個」の情報、抽出された3つの選択肢、および残りの選択肢の個数「5個」の情報を含む発話内容を生成する。
音声対話装置1は、生成された発話内容を音声出力し、ユーザの回答を待つ(S2)。音声出力が完了してから所定期間内にユーザの回答(音声入力)がなければ、音声対話装置1は、再度同じ発話内容を音声出力する。
ユーザの回答が音声入力されると、回答解釈部12は、上記質問の選択肢群の中に、ユーザの回答に対応する選択肢が存在するか否かを判定する(S3)。なお、回答解釈部12は、完全一致していなくても、ユーザの回答とある選択肢とが類似(部分一致)していれば、それらは対応していると判定してもよい。
選択肢群の中にユーザの回答に対応する選択肢が存在する場合(S3でYes)、回答解釈部12は、さらに、ユーザの回答が、所定のコマンドに対応するキーワード、または順番を表す言葉に対応しているか否かを判定する(S4)。例えば、「次」「他」「前」「もう一度」「キャンセル」「やめる」等のキーワードは、所定のコマンドを表す予約語としてあらかじめ記憶部5に登録されている。また、「2番目」「B」等の言葉は、選択肢の順番(複数の選択肢における位置)を表す言葉として解釈されうる。
ユーザの回答が所定のコマンドに対応するキーワードにも順番を表す言葉にも対応していない場合(S4でNo)、回答解釈部12は、ユーザの回答に対応する選択肢がユーザに指定されたと暫定的に判定する。発話内容生成部13は、確認のため、対応する選択肢がユーザの意図した選択肢(回答)か否かを質問する新たな発話内容を生成する。音声対話装置1は、該発話内容を音声出力し、ユーザの回答を待つ(S5)。音声出力が完了してから所定期間内にユーザの回答(音声入力)がなければ、音声対話装置1は、再度同じ発話内容を音声出力する。
回答解釈部12は、対応する選択肢がユーザの意図した選択肢である(ユーザの回答が肯定的である)か否かを判定する(S6)。
確認のための質問に対するユーザの回答が肯定的なものであれば(S6でYes)、回答解釈部12は、ユーザの回答は上記対応する選択肢を指定したものと判定し、選択肢の選択を確定する。音声対話装置1は、選択された選択肢に応じた動作または処理を行う(S7)。例えば、制御部2は、ユーザに選択された選択肢を、質問内容と関連付けて記憶部5に記憶し、ユーザの選択を学習する。
一方、確認のための質問に対するユーザの回答が否定的なものであれば(S6でNo)、音声対話装置1は、S2に戻り、改めて質問内容、抽出された3つの選択肢、および残りの選択肢の個数「5個」等の情報を含む発話内容を音声出力し、ユーザの回答を待つ。なお、2回目以降の発話では、重複する情報(質問内容等)は省略してもよい。
また、選択肢群の中にユーザの回答に対応する選択肢が存在しない場合(S3でNo)、回答解釈部12は、さらに、ユーザの回答が、順番を表す言葉、または所定のコマンドに対応するキーワードに対応しているか否かを判定する(S11〜S14)。
ユーザの回答が順番を表す言葉(例えば「2番目」「B」等)に対応する場合(S11でYes)、回答解釈部12は、該順番の選択肢(例えば2番目の選択肢、または項目Bの選択肢)がユーザに指定されたと暫定的に判定する。発話内容生成部13は、確認のため、該順番の選択肢がユーザの意図した選択肢か否かを質問する新たな発話内容を生成し、処理はS5に移る。
ユーザの回答が再度の読み上げを指示するコマンドに対応するキーワード(例えば「もう一度」等)に対応する場合(S12でYes)、処理はS2に戻る。音声対話装置1は、改めて質問内容、抽出された3つの選択肢、および残りの選択肢の個数「5個」等の情報を含む発話内容を音声出力し、ユーザの回答を待つ。
ユーザの回答が他の選択肢の提示を指示するコマンドに対応するキーワードに対応する場合(S13でYes)、処理はS1に戻る。例えば「他」「次」「前」等のキーワードが、他の選択肢の提示を指示するコマンドに対応する。例えば「他」「次」等のキーワードが回答された場合、発話内容生成部13は、選択肢群から次の3個の選択肢(第4選択肢、第5選択肢、第6選択肢)を抽出し、抽出された選択肢を新たな(次の)発話内容に含める。「前」等のキーワードが回答された場合、発話内容生成部13は、直前に提示した選択肢(例えば第4〜第6選択肢)の組の前に提示した3個の選択肢(第1〜第3選択肢)を選択肢群から抽出し、抽出された選択肢を新たな発話内容に含める。
ユーザの回答が質問の中止を指示するコマンドに対応するキーワードに対応する場合(S14でYes)、発話内容生成部13は質問を終了する旨の発話内容を生成し、質問を中止する。音声対話装置1は該発話内容の音声出力を行い、ユーザへの質問に関する処理を中止(終了)する。例えば「キャンセル」「やめる」「中止」等のキーワードが、質問の中止を指示するコマンドに対応する。1つのコマンドに対して複数のキーワードが対応付けられていてもよい。
一方、ユーザの回答が、順番を表す言葉にも、所定のコマンドに対応するキーワードにも対応していない場合(S11〜S14の全てにおいてNo)、音声対話装置1は、ユーザの回答に該当する選択肢およびコマンドが存在しないことを音声出力する。そして、音声対話装置1は、他の選択肢を読み上げることを音声出力し、処理はS1に戻る。発話内容生成部13は、他の選択肢の提示を指示するコマンドが指示された場合と同じように、選択肢群から次の3個の選択肢を抽出し、抽出された選択肢を新たな発話内容に含める。あるいは、再度の読み上げを指示するコマンドが指示された場合と同じように、S1に戻らずにS2に戻り、音声対話装置1は、同じ3個の選択肢を改めてユーザに提示してもよい。
また、ユーザの回答が、選択肢にも対応し、かつ、所定のコマンドに対応するキーワードまたは順番を表す言葉にも対応している場合(S4でYes)、発話内容生成部13は、ユーザの意図を確認するための新たな発話内容を生成する。具体的には、発話内容生成部13は、ユーザの回答が、ある選択肢を指しているのか、ある順番の選択肢を指しているのか、あるコマンドを指しているのかを質問する発話内容を生成する。音声対話装置1は、該発話内容を音声出力し、ユーザの回答を待つ(S8)。音声出力が完了してから所定期間内にユーザの回答(音声入力)がなければ、音声対話装置1は、再度同じ発話内容を音声出力する。
回答解釈部12は、確認のための質問に対するユーザの回答が、ある選択肢を指しているのか、ある順番の選択肢を指しているのか、あるコマンドを指しているのかのうち、いずれか1つに特定できるかを判定する。いずれか1つに特定できれば、音声対話装置1は、特定された選択肢またはコマンドに応じた上述の処理を行う(S9)。音声対話装置1は、いずれか1つに特定できるまで、確認のための質問(S8)を繰り返す。
(音声対話例:選択肢の読み上げ)
図3は、音声対話装置1とユーザとの対話例を示す図である。本図では、選択肢の読み上げに関する対話例が示されている。
(A)音声対話装置1は、質問内容、全選択肢の個数「8件」、抽出された3つの選択肢「りんご、みかん、ぶどう」、および残りの選択肢の個数「5件」を音声出力する(図2のS2)。図では質問内容は省略しているが、例えば、好きな食べ物を質問する内容等であってよい。
(B)これに対して、ユーザが「次」と回答(音声入力)すると、音声対話装置1は、選択肢群から次の3個の選択肢「もも、バナナ、ニンジン」を抽出し、残りの選択肢の個数「5件」と共に音声出力する。ここでは、一度に読み上げる3つの選択肢以外の選択肢の個数を残りの選択肢の個数(5件)としている。一方、既読の選択肢(6件)以外の選択肢の個数を残りの選択肢の個数(2件)として音声出力してもよい。ユーザは音声コマンドにより、次の選択肢の読み上げを促すことができる。なお、抽出は、最後の選択肢まで到達したら、また最初の選択肢に戻る。例えば、音声対話装置1は、第7選択肢および第8選択肢を抽出する場合、一度に読み上げる3つの選択肢として、さらに第1選択肢を加えてもよいし、加えずに2件だけ読み上げてもよい。
(C)また、ユーザが「前」と回答すると、音声対話装置1は、選択肢群から前の3個の選択肢「りんご、みかん、ぶどう」を再度抽出し、残りの選択肢の個数「5件」と共に音声出力する。ユーザは音声コマンドにより、前の選択肢の読み上げを促すことができる。
(D)また、ユーザが「もう一度」と回答すると、音声対話装置1は、同じ3つの選択肢を再度音声出力する。ユーザは音声コマンドにより、直前に読み上げられた選択肢の再度の読み上げを促すことができる。
本実施形態によれば、音声対話装置1は、一度にユーザに音声で提示する選択肢の個数を3個に制限する。さらに、音声対話装置1は、提示した選択肢以外の、残りの選択肢の個数を併せてユーザに音声で提示する。そのため、ユーザは、回答すべき内容を知覚しやすくなる。例えば、残り個数が少なければ、ユーザは提示された3件の選択肢をより慎重に考慮しようと判断することができる。残り個数が多ければ、残りの選択肢の方に回答すべき選択肢がある可能性も高いので、ユーザは提示された3件の選択肢を忘れてもよいと判断することもできる。それゆえ、より自然な音声対話での入力を実現することができる。
(音声対話例:ユーザの回答例)
図4は、音声対話装置1とユーザとの対話例(ユーザの回答例)を示す図である。
音声対話装置1の、抽出された3つの選択肢を含む発話に対して、ユーザの回答がある選択肢「りんご」に対応している。(A)音声対話装置1は、選択肢「りんご」がユーザの意図した回答であるかを確認する質問をする。これに対するユーザの回答が確認を肯定する「はい」である場合、音声対話装置1は、質問に対する選択肢として「りんご」が選ばれたと判定する。もしユーザが「いいえ」と回答すると、改めて質問内容と選択肢の提示が行われる。
図5は、音声対話装置1とユーザとの対話例(ユーザの回答例)を示す図である。本図は、音声対話装置1が提示した選択肢「りんご、みかん、ぶどう」に対して、ユーザがそれ以外の選択肢「バナナ」を回答した場合を示す。
ユーザの回答した選択肢が質問の選択肢群に含まれている場合、その選択肢「バナナ」が既に提示されていたか否かに関わらず(未提示であっても)、音声対話装置1は、ユーザの回答がその選択肢「バナナ」を指定する回答と判定する。経験したことがある質問、または選択肢が予想できる質問では、ユーザは選択肢を推測して回答することができる。そのため、ユーザは、音声対話装置1が該当の選択肢を読み上げるのを待つ必要がなく、円滑な対話を行うことができる。
図6は、音声対話装置1とユーザとの対話例(ユーザの回答例)を示す図である。本図は、音声対話装置1が提示した選択肢「りんご、みかん、ぶどう」に対して、ユーザが選択肢の順番「2つめ」を回答した場合を示す。
ユーザが選択肢の順番を回答した場合、音声対話装置1は、直前に提示された選択肢のうち該順番(2番目)の選択肢「みかん」が選択されたと判定する。そして、音声対話装置1は、確認のための質問「選択肢2の『みかん』ですね?」を音声出力する。
(選択肢の内容が順番を表す言葉と一致する場合)
図7は、音声対話装置1とユーザとの対話例を示す図である。ここでは簡単のために選択肢の総数は3個としており、残りの選択肢の個数は0個であるので、ユーザへの通知を省略している。もちろん、上述の例のように、選択肢の総数が上限の3個を超えていてもよい。本図では、質問としてクイズが出題されている。
ある選択肢の内容「さん(sun)」は、3番目の「3」と発音が同じである。このように選択肢の内容と順番を表す言葉とが一致または類似している場合、ユーザがいずれを回答したのか判断が難しい。ユーザの回答「さん」は、選択肢の内容と順番(3番目)との両方に対応している。(A)このような場合、音声対話装置1は、「選択肢3の『ふれあ』」か、「選択肢2の『さん』」か、ユーザがいずれを意図したのかを質問する。
(B)ユーザが「選択肢2の『さん』」と回答すれば、音声対話装置1は、2番目の選択肢「さん」が選ばれたと特定することができる。例えば、ユーザが再度「さん」とだけ回答した場合、いずれを意図しているのか判別できないので、音声対話装置1は、いずれを意図しているのか判別できるまで、ユーザの意図を確認する質問を繰り返す。
(選択肢の内容がコマンドに対応するキーワードと一致する場合)
図8は、音声対話装置1とユーザとの対話例を示す図である。ある選択肢の内容「キャンセル」は、質問の中止を指示するコマンドに対応するキーワード「キャンセル」と一致している。このように選択肢の内容とコマンドを表すキーワードとが一致または類似している場合、ユーザがいずれを回答したのか判断が難しい。(A)このような場合、音声対話装置1は、「選択肢1の『キャンセル』」か、「回答をキャンセルする」(音声コマンドが指定された)か、ユーザがいずれを意図したのかを質問する。
(B)ユーザが「終了します」「コマンドのキャンセル」または「回答をキャンセルする」等と回答すれば、音声対話装置1は、質問を中止するコマンドの「キャンセル」が指定されたと特定することができる。
(ユーザの回答が選択肢にも順番にもコマンドにも対応しない場合)
図9は、音声対話装置1とユーザとの対話例を示す図である。音声対話装置1は、ユーザの回答「よん」が選択肢群のいずれかに対応するかを判定する。ここでは、ユーザの回答「よん」は、選択肢群のいずれの選択肢にも対応しない。ユーザの回答「よん」は「4番目」と解釈することができるが、提示した選択肢は1〜3番目までであり、未読の選択肢をユーザが順番で指定することは考えにくい。また、ユーザの回答「よん」はコマンドを意味するいずれのキーワードにも対応しない。
この場合、音声対話装置1は、ユーザの回答「よん」に対応する選択肢は存在しないことをユーザに通知する。その上で、音声対話装置1は、他の選択肢または直前に読み上げた選択肢を改めて音声出力する。
図10は、音声対話装置1とユーザとの対話例を示す図である。音声対話装置1は、ユーザの回答「内閣総理大臣」が選択肢群のいずれかに対応するかを判定するここでは、ユーザの回答「内閣総理大臣」は、選択肢群のいずれの選択肢にも対応しない。また、ユーザの回答「内閣総理大臣」は、順番にも対応しない。また、ユーザの回答「内閣総理大臣」は、コマンドを意味するいずれのキーワードにも対応しない。
この場合、音声対話装置1は、ユーザの回答「内閣総理大臣」に対応する選択肢は存在しないことをユーザに通知する。その上で、音声対話装置1は、他の選択肢または直前に読み上げた選択肢を改めて音声出力する。
〔変形例〕
上述したように、音声入力部3、音声出力部4、音声認識部11、回答解釈部12、発話内容生成部13および記憶部5のそれぞれは、互いに通信を行う異なる複数の装置に搭載されていてもよい。例えば、電話の自動音声応答装置は、実際に音の入出力を行うのはユーザ側の電話機であり、自動音声応答装置は、電話機と電話回線で接続される。本発明の一態様に係る自動音声応答装置は、ユーザの電話機に対して、発話内容および回答に関する音声信号を送受信する。音声入力部3および音声出力部4は、外部に対して音声信号を入出力するものであってもよい。
また、本発明の一態様に係る音声対話装置は、上記一部の機能ブロックを、通信で接続された別の外部装置で実現し、外部装置の出力を受信するシステムであってもよい。
上述の説明では、発話内容生成部13が1つの発話内容に含める選択肢の個数は所定値であるとしたが、発話内容生成部13は、発話内容に含める選択肢の言葉の長さに応じて、1つの発話内容に含める選択肢の個数を変更してもよい。例えば、発話内容に含まれる選択肢の言葉の長さが長い場合、通常の3個ではなく、1つの発話内容に含める選択肢の個数を2個に減らしてもよい。例えば、発話内容生成部13は、一度に提示する選択肢の言葉の長さが所定の長さ以下に収まるように、1つの上記発話内容に含まれる選択肢の数を変更することができる。これにより、ユーザが長い選択肢の内容を多数覚えなければならない状況を改善することができる。
〔ソフトウェアによる実現例〕
音声対話装置1の制御ブロック(特に音声入力部3、音声出力部4、音声認識部11、回答解釈部12、発話内容生成部13)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、音声対話装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る音声対話装置(1)は、質問に対してユーザに選択させる複数の選択肢を含む選択肢群のうち、一部の選択肢を発話内容に含ませ、さらに上記選択肢群のうちの残りの選択肢の個数を上記発話内容に含ませる発話内容生成手段(発話内容生成部13)と、音声によるユーザの回答から、いずれの選択肢が選択されたのかを判定する回答判定手段(回答解釈部12)とを備える。
上記の構成によれば、音声対話装置は、一度にユーザに音声で提示する選択肢の個数を制限する。さらに、音声対話装置は、提示した選択肢以外の、残りの選択肢の個数を併せてユーザに音声で提示することができる。そのため、ユーザは、回答すべき内容を知覚しやすくなる。例えば、残り個数が少なければ、ユーザは提示された一部の選択肢をより慎重に考慮しようと判断することができる。残り個数が多ければ、残りの選択肢の方に回答すべき選択肢がある可能性も高いので、ユーザは提示された一部の選択肢を忘れてもよいと判断することもできる。それゆえ、より自然な音声対話での入力を実現することができる。
本発明の態様2に係る音声対話装置では、上記態様1において、上記回答判定手段は、ユーザの回答が既に提示された選択肢を示す場合だけでなく未だ提示されていない選択肢を示す場合であっても、該ユーザの回答は未だ提示されていない上記選択肢を指定する回答であると判定する構成であってもよい。
上記の構成によれば、提示されていない選択肢が予想できる場合、ユーザは、選択肢の提示を待たずに回答を行うことができる。そのため、より円滑な対話を行うことができる。
本発明の態様3に係る音声対話装置では、上記態様1または2において、上記回答判定手段は、ユーザの回答が順番を示す言葉である場合、該ユーザの回答は該順番の選択肢を指定する回答であると判定する構成であってもよい。
上記の構成によれば、ユーザはより多くの回答方法で回答を行うことができる。例えばユーザは、複雑な選択肢の内容を正確に覚えることなく、選択肢の順番を回答することができる。
本発明の態様4に係る音声対話装置では、上記態様3において、ユーザの回答が順番および選択肢の内容の両方を示す言葉である場合、上記発話内容生成手段は、ユーザの回答が上記順番を示していたのか、上記選択肢の内容を示していたのかを問い合わせる発話内容を生成する構成であってもよい。
上記の構成によれば、ユーザの回答が順番を示すのか、選択肢の内容を示すのか紛らわしい場合に、ユーザの意図を確認することができる。
本発明の態様5に係る音声対話装置では、上記態様3において、上記回答判定手段は、所定のキーワードを示すユーザの回答を、所定のコマンドを指定する回答であると判定し、上記発話内容生成手段は、上記所定のコマンドに対応した所定の処理を行い、ユーザの回答が選択肢の内容および上記所定のコマンドの両方を示しうる言葉である場合、上記発話内容生成手段は、ユーザの回答が上記所定のコマンドを示していたのか、上記選択肢の内容を示していたのかを質問する発話内容を生成する構成であってもよい。
上記の構成によれば、ユーザの回答がコマンドを示すのか、選択肢の内容を示すのか紛らわしい場合に、ユーザの意図を確認することができる。質問中であっても、ユーザは音声によって所定のコマンドを発話内容生成手段に実行させることができる。
本発明の態様6に係る音声対話装置では、上記態様5において、上記発話内容生成手段は、上記所定のコマンドに応じて、ユーザへの質問を中止する、または、残りの選択肢のうちの一部の選択肢を次の発話内容に含ませる構成であってもよい。
本発明の態様7に係る音声対話装置では、上記態様1から6において、上記発話内容生成手段は、一度に提示する選択肢の言葉の長さが所定の長さ以下に収まるように、1つの上記発話内容に含まれる選択肢の数を変更する構成であってもよい。
上記の構成によれば、ユーザが長い選択肢の内容を多数覚えなければならない状況を改善することができる。
本発明の各態様に係る音声対話装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声対話装置が備える各手段として動作させることにより上記音声対話装置をコンピュータにて実現させる音声対話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明の態様8に係る音声対話装置の制御方法は、音声出力される発話内容を自動で生成する発話内容生成ステップであって、質問に対してユーザに選択させる複数の選択肢を含む選択肢群のうち、一部の選択肢を上記発話内容に含ませ、さらに上記選択肢群のうちの残りの選択肢の個数を上記発話内容に含ませる発話内容生成ステップと、音声によるユーザの回答から、いずれの選択肢が選択されたのかを判定する回答判定ステップとを含む。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、音声対話装置に利用することができる。
1 音声対話装置
2 制御部
3 音声入力部
4 音声出力部
5 記憶部
11 音声認識部
12 回答解釈部(回答判定手段)
13 発話内容生成部(発話内容生成手段)

Claims (10)

  1. 質問に対してユーザに選択させる複数の選択肢を含む選択肢群のうち、一部の選択肢を発話内容に含ませ、さらに上記選択肢群のうちの残りの選択肢の個数を上記発話内容に含ませる発話内容生成手段と、
    音声によるユーザの回答から、いずれの選択肢が選択されたのかを判定する回答判定手段とを備え、
    上記回答判定手段は、所定のキーワードを示すユーザの回答を、所定のコマンドを指定する回答であると判定し、
    上記発話内容生成手段は、上記所定のコマンドに対応した所定の処理を行い、
    ユーザの回答が選択肢の内容および上記所定のコマンドの両方を示しうる言葉である場合、上記発話内容生成手段は、ユーザの回答が上記所定のコマンドを示していたのか、上記選択肢の内容を示していたのかを質問する発話内容を生成することを特徴とする音声対話装置。
  2. 質問に対してユーザに選択させる複数の選択肢を含む選択肢群のうち、一部の選択肢を発話内容に含ませ、さらに上記選択肢群のうちの残りの選択肢の個数を上記発話内容に含ませる発話内容生成手段と、
    音声によるユーザの回答から、いずれの選択肢が選択されたのかを判定する回答判定手段とを備え、
    上記回答判定手段は、ユーザの回答が既に提示された選択肢を示す場合だけでなく未だ提示されていない選択肢を示す場合であっても、該ユーザの回答は未だ提示されていない上記選択肢を指定する回答であると判定することを特徴とする音声対話装置。
  3. 上記回答判定手段は、ユーザの回答が順番を示す言葉である場合、該ユーザの回答は該順番の選択肢を指定する回答であると判定することを特徴とする請求項1または2に記載の音声対話装置。
  4. ユーザの回答が順番および選択肢の内容の両方を示す言葉である場合、上記発話内容生成手段は、ユーザの回答が上記順番を示していたのか、上記選択肢の内容を示していたのかを問い合わせる発話内容を生成することを特徴とする請求項3に記載の音声対話装置。
  5. 上記発話内容生成手段は、上記所定のコマンドに応じて、ユーザへの質問を中止する、または、残りの選択肢のうちの一部の選択肢を次の発話内容に含ませることを特徴とする請求項1に記載の音声対話装置。
  6. 上記発話内容生成手段は、一度に提示する選択肢の言葉の長さが所定の長さ以下に収まるように、1つの上記発話内容に含まれる選択肢の数を変更することを特徴とする請求項1から5のいずれか一項に記載の音声対話装置。
  7. 請求項1から6のいずれか一項に記載の音声対話装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。
  8. 音声出力される発話内容を自動で生成する発話内容生成ステップであって、質問に対してユーザに選択させる複数の選択肢を含む選択肢群のうち、一部の選択肢を上記発話内容に含ませ、さらに上記選択肢群のうちの残りの選択肢の個数を上記発話内容に含ませる発話内容生成ステップと、
    音声によるユーザの回答から、いずれの選択肢が選択されたのかを判定する回答判定ステップとを含み、
    上記回答判定ステップにおいて、所定のキーワードを示すユーザの回答を、所定のコマンドを指定する回答であると判定し、
    上記所定のコマンドに対応した所定の処理を行う、処理ステップをさらに含み、
    ユーザの回答が選択肢の内容および上記所定のコマンドの両方を示しうる言葉である場合、上記処理ステップにおいて、ユーザの回答が上記所定のコマンドを示していたのか、上記選択肢の内容を示していたのかを質問する発話内容を生成することを特徴とする音声対話装置の制御方法。
  9. 上記処理ステップにおいて、上記所定のコマンドに応じて、ユーザへの質問を中止する、または、残りの選択肢のうちの一部の選択肢を次の発話内容に含ませることを特徴とする請求項に記載の音声対話装置の制御方法。
  10. 音声出力される発話内容を自動で生成する発話内容生成ステップであって、質問に対してユーザに選択させる複数の選択肢を含む選択肢群のうち、一部の選択肢を上記発話内容に含ませ、さらに上記選択肢群のうちの残りの選択肢の個数を上記発話内容に含ませる発話内容生成ステップと、
    音声によるユーザの回答から、いずれの選択肢が選択されたのかを判定する回答判定ステップとを含み、
    上記回答判定ステップにおいて、ユーザの回答が既に提示された選択肢を示す場合だけでなく未だ提示されていない選択肢を示す場合であっても、該ユーザの回答は未だ提示されていない上記選択肢を指定する回答であると判定することを特徴とする音声対話装置の制御方法。
JP2014184561A 2014-09-10 2014-09-10 音声対話装置、音声対話装置の制御方法、および制御プログラム Active JP6526399B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014184561A JP6526399B2 (ja) 2014-09-10 2014-09-10 音声対話装置、音声対話装置の制御方法、および制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014184561A JP6526399B2 (ja) 2014-09-10 2014-09-10 音声対話装置、音声対話装置の制御方法、および制御プログラム

Publications (2)

Publication Number Publication Date
JP2016057508A JP2016057508A (ja) 2016-04-21
JP6526399B2 true JP6526399B2 (ja) 2019-06-05

Family

ID=55758362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014184561A Active JP6526399B2 (ja) 2014-09-10 2014-09-10 音声対話装置、音声対話装置の制御方法、および制御プログラム

Country Status (1)

Country Link
JP (1) JP6526399B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6748510B2 (ja) * 2016-08-04 2020-09-02 株式会社三菱Ufj銀行 情報提供システム、情報提供方法、および情報提供プログラム
JP2019086903A (ja) 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
CN109561225A (zh) * 2018-12-04 2019-04-02 合肥天骋电子商务有限公司 一种智能语音导航集中系统
JP7319504B2 (ja) 2019-01-30 2023-08-02 株式会社東芝 対話システム、対話方法、プログラム、及び記憶媒体
CN111590610A (zh) * 2020-04-30 2020-08-28 南京智音云数字科技有限公司 一种新型智能对话机器人控制系统及其方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792987A (ja) * 1993-09-21 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 質問文内容構成方式
JPH11153998A (ja) * 1997-11-19 1999-06-08 Canon Inc 音声応答装置及びその方法、コンピュータ可読メモリ
JPH11265196A (ja) * 1998-03-16 1999-09-28 Ricoh Co Ltd 音声出力装置
JP3818352B2 (ja) * 1998-12-25 2006-09-06 アイシン・エィ・ダブリュ株式会社 ナビゲーション装置及び記憶媒体
JP2001215995A (ja) * 2000-02-04 2001-08-10 Toyota Motor Corp 音声認識装置
JP4137399B2 (ja) * 2001-03-30 2008-08-20 アルパイン株式会社 音声検索装置
JP4004839B2 (ja) * 2002-04-15 2007-11-07 株式会社東芝 通信装置及びネットワークシステム
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
JP2009282835A (ja) * 2008-05-23 2009-12-03 Toshiba Corp 音声検索装置及びその方法
JP5378907B2 (ja) * 2009-08-07 2013-12-25 株式会社豊田中央研究所 音声対話装置及び音声対話プログラム
JP2011253304A (ja) * 2010-06-01 2011-12-15 Aisin Aw Co Ltd 入力装置、入力方法、及び入力プログラム

Also Published As

Publication number Publication date
JP2016057508A (ja) 2016-04-21

Similar Documents

Publication Publication Date Title
JP6526399B2 (ja) 音声対話装置、音声対話装置の制御方法、および制御プログラム
US9983849B2 (en) Voice command-driven database
JP5753869B2 (ja) 音声認識端末およびコンピュータ端末を用いる音声認識方法
KR20190046631A (ko) 자연어 프로세싱을 위한 시스템 및 방법
CN111933108B (zh) 一种智能网联终端智能语音交互系统自动化测试方法
US20080033724A1 (en) Method for generating a context-based voice dialogue output in a voice dialog system
US11062708B2 (en) Method and apparatus for dialoguing based on a mood of a user
US20180033427A1 (en) Speech recognition transformation system
CN111159364A (zh) 对话系统、对话装置、对话方法以及存储介质
CN109712610A (zh) 用于识别语音的方法和装置
KR102483833B1 (ko) 등록된 사용자에 의한 인증을 통해 새로운 사용자를 등록하기 위한 전자 장치 및 방법
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
CN110660393B (zh) 语音交互方法、装置、设备及存储介质
KR20210066651A (ko) 전자 장치 및 이의 제어 방법
JP2017211610A (ja) 出力制御装置、電子機器、出力制御装置の制御方法、および出力制御装置の制御プログラム
JP6929960B2 (ja) 情報処理装置及び情報処理方法
KR20180066513A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
US20220319516A1 (en) Conversation method, conversation system, conversation apparatus, and program
KR20210054246A (ko) 전자장치 및 그 제어방법
JP6359327B2 (ja) 情報処理装置および制御プログラム
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
KR20210059367A (ko) 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US10505879B2 (en) Communication support device, communication support method, and computer program product
EP3839719B1 (en) Computing device and method of operating the same
CN109597657A (zh) 针对目标应用的操作方法、装置及计算设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190508

R150 Certificate of patent or registration of utility model

Ref document number: 6526399

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150