JP4634156B2 - 音声対話方法および音声対話装置 - Google Patents

音声対話方法および音声対話装置 Download PDF

Info

Publication number
JP4634156B2
JP4634156B2 JP2005003119A JP2005003119A JP4634156B2 JP 4634156 B2 JP4634156 B2 JP 4634156B2 JP 2005003119 A JP2005003119 A JP 2005003119A JP 2005003119 A JP2005003119 A JP 2005003119A JP 4634156 B2 JP4634156 B2 JP 4634156B2
Authority
JP
Japan
Prior art keywords
dialog
voice
recognition
vocabulary
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005003119A
Other languages
English (en)
Other versions
JP2006189730A (ja
JP2006189730A5 (ja
Inventor
剛 井上
純幸 沖本
栄一 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2005003119A priority Critical patent/JP4634156B2/ja
Publication of JP2006189730A publication Critical patent/JP2006189730A/ja
Publication of JP2006189730A5 publication Critical patent/JP2006189730A5/ja
Application granted granted Critical
Publication of JP4634156B2 publication Critical patent/JP4634156B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ユーザからの音声入力に応じて対話を行う音声対話方法および音声対話装置に関する。
従来、ユーザからの音声入力に応じて対話を行う音声対話システムにおいて、ユーザの音声入力に対して正確な音声認識ができずに、円滑に対話が進まない状況に対処するために、いろいろな手法が提案されている。このような手法として、ユーザの再入力に対して、過去の認識結果の1位の語彙を認識対象から除き、過去の認識候補と、今回の処理で得た認識候補との双方を用いて認識結果を決定する音声認識装置が開示されている(例えば、特許文献1参照)。また、誤認識の回数をカウントし、そのカウント値が閾値よりも大きくなつた場合に、会話モ−ドから選択モ−ドへ変更が行われる会話音声理解方法が開示されている(例えば、特許文献2参照)。また、装置が応答を提示し終えた時刻から次に装置に音声が入力されるまでの入力間隔を用いて対話主導権を切り替える対話型情報検索システムが開示されている(例えば、特許文献3参照)。
特開平11−149294号公報 特許第2656234号 特開2003−108581号公報
しかしながら、前記のような従来の手法においては、認識対象語彙を少なくすることにより認識精度を向上させたりユーザの入力回数や入力時間を基に対話制御を変更したりすることにより対話を円滑に進めようとするものであるが、各対話状態において同一の制御を行うため、必ずしも対話を円滑に進めることができない。
例えば、選択を行うような対話状態においては、ユーザはシステムがその場面で受け付けることが可能な語彙(以下単に認識対象語彙)を発話することが多く、また認識対象語彙も少ないので特許文献1のような手法は有効であるが、検索キーワードを入力するような対話状態においては、通常ユーザはシステムがその場面で受け付けることができない語彙(以下単に認識対象外語彙)を発話することが多く、また認識対象語彙も多いので特許文献1のような手法は有効ではない。
また、特許文献2の会話音声理解方法では、誤認識の回数が一定の閾値より大きくなると対話制御を会話モードから選択モードに切り替えるが、この閾値を変更することが無いため、前記のような対話状態の違いに関係なく同じ動作をするため、無駄な聞き返しを多く行ってしまうことが生じる。
そこで、本発明はこのような従来の課題を解決するためになされたものであって、対話を円滑に進め、かつユーザの負担を軽減することができる音声対話方法および音声対話装置を提供することを目的とする。
上記目的を達成するため、本発明に係る音声対話方法は、音声を入力して対話する音声対話方法であって、入力された音声を認識して認識結果を出力する音声認識ステップと、現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、前記対話決定ステップにおいて決定された対話内容を出力する出力ステップとを含むことを特徴とする。
これによって、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担が少なく、円滑に対話制御を行うことができる。
また、前記認識語彙既知度合決定ステップでは、対象の対話状態における入力モード毎の前記認識語彙既知度合をあらかじめ格納した既知度合テーブルを用いて、前記認識語彙既知度合を決定してもよい。
これによって、簡単に認識語彙既知度合を決定することが可能となり、ユーザにとってより負担が少なく、円滑な対話を実現することができる。
また、前記認識語彙既知度合決定ステップでは、対象の対話状態における入力モード、認識語彙の変動に関する認識語彙変動情報、認識語彙の属性を示す認識語彙属性情報、全認識対象語彙数、表示認識対象語彙数、ユーザ自身の情報、ユーザのシステム使用履歴、対話進行状態、画面や応答音声による認識語彙に関する情報量の少なくとも一つを用いて、前記認識語彙既知度合を算出してもよい。
これによって、例えばユーザや現在の対話進行状況に応じて、より精度よく認識語彙既知度合を求めることが可能となり、ユーザにとってより負担が少なく、円滑な対話を実現することができる。
また、前記対話決定ステップでは、前記認識語彙既知度合を示すための表示または音声応答の少なくとも1つを作成し、前記出力ステップでは、前記対話決定ステップにより作成された前記認識語彙既知度合を示す表示または音声応答の少なくとも1つを出力してもよい。
これによって、ユーザに対して認識語彙既知度合、すなわち認識受理可能度合を伝えることになるので、ユーザの理解が深まり、円滑な対話を実現することができる。
また、前記対話決定ステップでは、前記対話内容に前記音声認識ステップにおける認識対象語彙に関する説明を含めるか否かを前記認識語彙既知度合に基づいて決定してもよい。
これによって、ユーザに適した出力が可能となり、よりユーザのレベルに応じた、円滑な対話を実現することができる。
また、前記対話決定ステップでは、前記音声認識ステップにおいて認識された前記認識結果を未知語と判定した場合、前記対話内容を再度入力を促す対話内容とするか、または詳細な対話内容とするかを前記認識語彙既知度合に基づいて決定してもよい。
また、前記対話決定ステップでは、前記再度入力を促す対話内容と決定した際、再入力回数に応じて前記音声認識ステップにおける音声認識用パラメータを変更してもよい。
また、前記対話決定ステップでは、前記詳細な対話内容と決定した際、さらに前記認識語彙既知度合に基づいて対話内容を変更してもよい。
これによって、認識語彙既知度合に応じた円滑な対話を実現することができる。
また、本発明に係る情報検索方法は、音声を入力して情報を検索する情報検索方法であって、入力された音声を認識して認識結果を出力する音声認識ステップと、現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検索する情報検索ステップとを含むことを特徴とする。
これによって、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担が少なく、円滑な対話で情報検索を行うことができる。
なお、本発明は、このような音声対話方法および情報検索方法として実現することができるだけでなく、このような音声対話方法が備える特徴的なステップを手段とする音声対話装置および情報検索装置として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
本発明に係る音声対話方法および音声対話装置によれば、ユーザが認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担の少ない円滑な対話が実現することができる。
以下、本発明の各実施の形態について、それぞれ図面を参照しながら説明する。
(実施の形態1)
図1は本発明の実施の形態1に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。
音声対話型情報検索装置は、音声を入力して対話しながら情報を検索する装置であり、図1に示すように音声認識部101、音声認識辞書102、モデル記憶部103、認識語彙既知度合決定部104、認識語彙既知度合記憶部105、対話決定部106、ユーザ情報入力部107、データベース検索部108、データベース記憶部109、および応答音声・画面出力部110を備えている。
音声認識部101は、音声認識辞書102およびモデル記憶部103を用いて、ユーザより入力された音声の音声認識を行い、認識結果を出力する。音声認識辞書102は、認識対象語彙が登録されている辞書である。モデル記憶部103は、音響モデルや言語モデルを記憶している。認識語彙既知度合記憶部105は、各対話状態においてユーザが認識対象語彙を把握している可能性を示す認識語彙既知度合を格納している認識語彙既知度合テーブルを記憶している。
認識語彙既知度合決定部104は、対話決定部106より入力される現在の対話状態に関する情報で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する。対話決定部106は、音声認識部101より入力される音声認識結果と、認識語彙既知度合決定部104より入力される認識語彙既知度合に基づいて、次の対話状態およびこの対話状態での画面と応答音声とを決定し、必要があればデータベース検索をデータベース検索部108に要求する。
ユーザ情報入力部107は、ユーザの性別や年齢などのユーザ情報を入力する。データベース検索部108は、対話決定部106からの情報検索要求に対し、データベース記憶部109に記憶されている情報検索用データベースから情報の検索を行う。データベース記憶部109は、情報検索用データベースを記憶している。応答音声・画面出力部110は、対話決定部106で決定された対話状態での画面や応答音声を出力する。
次に、上記のように構成された音声対話型情報検索装置において、番組情報を検索する際の動作について説明する。図2は音声対話型情報検索装置での対話全体の動作の流れを示すフローチャートである。
対話決定部106は対話開始の対話状態を決定し、決定した対話状態での画面と応答音声を決定し、応答音声・画面出力部110から出力することで、ユーザに対して入力要求を行う(ステップS101)。ここで、対話状態とは、対話決定部106で予め決定されているか、もしくは作成される対話の状態遷移全体における一状態を示し、多くの場合、システムの各状態に対応する。図3は具体的な出力画面例を示す図である。ここでは、例えば図3に示すように番組情報を検索する際のメニュー画面が出力され、システム応答として、エージェントの吹き出しの内容が応答音声として音声出力される。なお、吹き出し自体も画面表示してもよい。また、この例では図3における認識可能な語彙は四角で囲まれた「番組名検索」、「今放送中の番組」、…等の語彙のみである。
現在の対話状態が決定すると、認識語彙既知度合決定部104は、対話決定部106より入力される現在の対話状態で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する(ステップS102)。図4は認識語彙既知度合テーブルの具体的な例を示す図である。ここで、項目401は対話状態であり、項目402は各対話状態における認識語彙既知度合が格納されている。この例では認識語彙既知度合は0から1までを取り得るパラメータで1に近いほどユーザがシステムの受理可能な語彙、すなわち認識対象語彙を知っていることを示す。例えば、現在の対話状態が「メニュー」であるとすると、認識語彙既知度合決定部104は、対話決定部106より入力される現在の対話状態「メニュー」で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合として「0.98」を対話決定部106に出力する。
なお、この認識語彙既知度合テーブルは予め評価実験等により各対話状態に対して求めておくものである。具体的には、例えば複数人の被験者にシステムを利用してもらい、各対話状態において、どのような発声が行われたかを記録する。その記録に基づき、ユーザが各対話状態において認識可能語彙を発声した割合を計算し、それを認識語彙既知度合としても良いし、さらに、ユーザが各対話状態に遷移してからユーザが発声するまでにかかった時間を加味しても良い。また、直接ユーザに各対話状態で発声する語彙が分かるかアンケートを取りつつ評価実験を進めその結果を集計して認識語彙既知度合を求めても良い。また、評価を年齢別や性別ごとに行い、認識語彙既知度合テーブルを複数用意しても良い。その場合、対話決定部106はユーザ情報入力部107より入力されたユーザ情報を認識語彙既知度合決定部104に出力し、認識語彙既知度合決定部104は対話決定部106より入力されたユーザ情報を基にどの認識語彙既知度合テーブルを利用するか決定する。
次に、対話決定部106からの現在の対話状態で認識可能な語彙の辞書登録と音声認識実行の要求により、音声認識部101は、上記の入力要求に対して発声されたユーザの音声入力について音声認識を実行し、認識結果を出力する(ステップS103)。音声認識部101は、認識結果として複数の候補およびそれぞれの候補の詳細な情報を出力すると共に、未知語判定結果も出力する。なお、未知語とはシステムにとって未知の語、すなわちシステムの認識対象外語であり、ユーザが認識対象語彙外の発声を行ったとき、ユーザが未知語を発声したという表現をする。例えば、図3における認識可能な語彙は四角で囲まれた語彙のみであるのに対し、「今何時」と言った発声は未知語発声であるとする。
図5は音声認識部101が出力する認識結果の具体的な例を示す図である。ここで、項目501は候補順位であり認識スコア(項目506)によって順位付けされた認識結果である。項目502は認識結果文字列、項目503は認識日時、項目504は認識区間であり、ユーザの発声において音声認識に利用された音声区間の長さを示す。項目505は辞書単語数であり、認識が行われた対話状態における認識対象語彙数を示す。項目506は認識スコアであり、認識の確からしさを示す。項目507は未知語スコアであり、ユーザが認識対象外語彙を発声した可能性の度合を示す。ここでは未知語スコアが負であればユーザの発声は既知語、すなわちシステムの認識対象語であり、未知語スコアが正であれば、ユーザの発声は未知語、すなわち認識対象外語彙であると音声認識部101が判断したことを示す。
次に、対話決定部106は、認識語彙既知度合決定部104により決定された認識語彙既知度合と、音声認識部101で認識された認識結果とに基づいて、次に行う対話状態を決定する(ステップS104)。このとき対話決定部106で行われる対話制御を説明する。図6は対話決定部106の動作の流れを示すフローチャートである。
まず、対話決定部106は、認識語彙既知度合および認識結果の取得を行う(ステップS201)。次に、対話決定部106は、認識結果を基にユーザ入力音声が未知語であるか否かの判断を行う(ステップS202)。ここで、ユーザ入力音声が未知語または誤認識訂正発話でないと判断した場合(ステップS202でNO)、対話決定部106は、認識結果に基づく次の対話状態の決定を行う(ステップS203)。なお、ここで次の対話状態を決定するために情報検索等の処理が必要であれば行われる。
具体的には、図2で示す対話状態「メニュー」において、ユーザによって「番組名検索」と音声入力された場合、番組名検索を行う対話状態に対話を遷移させる。対話決定部106は、遷移させた対話状態である「番組名検索」における出力画面と応答音声とを決定する。そして、決定された出力画面と応答音声とが応答音声・画面出力部110から出力される。具体的な例として、「番組名検索」の対話状態へ進んだ場合の画面例を図7に示す。この対話状態での応答音声は「検索したい番組名を言ってください」である。
一方、上記判断おいて、ユーザ入力音声が未知語であると判断した場合(ステップS202でYES)、対話決定部106は、認識語彙既知度合が所定の第1閾値より大きいか否かの判定を行う(ステップS204)。この第1閾値は対話決定部106が保持する値であり、具体的には、例えば「0.8」であるとする。この判定により、対話制御を変更する。なお、この第1閾値も認識語彙既知度合テーブルにおける認識語彙既知度の決定方法と同じように評価実験を行い適当な値を決定することができる。ここで、認識語彙既知度合が第1閾値より大きい場合(ステップS204でYES)には、対話決定部106は対話状態を変えず、再入力を促すものと決定する(ステップS205)。一方、認識語彙既知度合が第1閾値以下である場合(ステップS204でNO)には、対話決定部106は、後述する、認識語彙既知度合に基づいた詳細対話を行うものと決定する(ステップS206)。
具体的な動作例としては、図2で示す対話状態「メニュー」において、ユーザによって「番組名検索」と音声入力されたが、音声認識部101の出力として未知語であると判定された場合、対話状態「メニュー」における認識語彙既知度合は「0.98」であるので、認識語彙既知度合>第1閾値が成立する。この場合、対話決定部106は対話状態を変えず、再入力の応答音声「すいません、もう一度御願いします」を応答音声・画面出力部110へ出力する。なお、再入力の際には対話決定部106は認識精度を向上させるため、認識用パラメータの変更や認識辞書の縮小などを行ってもよい。具体的には未知語判定の閾値を下げたり、認識用音響モデルを発声に適応することでより認識しやすくしたり、前回の1位の認識結果を辞書から取り除いたりする方法が考えられる。さらに、第1閾値の値を上げることにより、詳細対話(ステップS206)に進みやすくしてもよい。なお、これらの処理で行われた認識用パラメータの処理や第1閾値の変更は、対話状態が新たになったときにクリアされるものとする。
対話決定部106は、上記のように次の対話状態を決定すると、決定した対話状態が検索終了を示す対話状態であるか否かの判断を行う(ステップS105)。決定した対話状態が検索終了を示す対話状態である場合(ステップS105でYES)には、対話は終了する。一方、決定した対話状態が検索終了でない場合(ステップS105でNO)には、認識語彙既知度合の決定処理(ステップS102)へ進み、以後上記と同じ動作を行う。
次にデータベース検索を行う対話についての動作例を説明する。具体的には現在の対話状態が「番組名検索」である動作例を説明する。この出力画面は図7であり、応答音声は「検索したい番組名を言って下さい」である。
上記と同様に、認識語彙既知度合決定部104は、対話決定部106より入力される現在の対話状態で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する(ステップS102)。ここでは、現在の対話状態が「番組名検索」であるので、認識語彙既知度合決定部104は認識語彙既知度合「0.68」を対話決定部106に出力する。
次に、ユーザによって「宮本武蔵」と音声入力されたとすると、音声認識部101は、上記と同様に音声認識を実行し、上記と同様に例えば図5に示すような構造で認識結果を対話決定部106に出力する(ステップS103)。
対話決定部106は、認識結果と認識語彙既知度合とに基づいて、上記同様図6に示すフローチャートに従って対話状態を決定する(ステップS104)。ここで、ユーザによって入力された「宮本武蔵」が未知語ではない場合には、上記と同じく認識結果に基づく次の対話状態の決定を行う(ステップS203)。具体的には、「宮本武蔵」をキーワードとした番組検索の要求をデータベース検索部108に出力する。データベース検索部108は、対話決定部106より入力されたキーワードよる検索をデータベース記憶部109を用いて行い、検索結果を対話決定部106へ出力する。対話決定部106は、検索結果を表示した画面と、検索結果の選択を促す対話状態を次の対話状態と決定し、例えば図8に示すような画面と応答音声を応答音声・画面出力部110へ出力する。
一方、ユーザによって入力された「宮本武蔵」が未知語であると判定された場合には、対話決定部106は、現在の対話状態における認識語彙既知度合「0.68」と第1閾値「0.8」とを比較する。この場合、対話決定部106は、認識語彙既知度合は第1閾値より小さいので認識語彙既知度合に基づいた詳細対話を行うものと決定する(ステップS206)。このとき対話決定部106で行われる詳細対話の対話制御を説明する。図9は対話決定部106で詳細対話の対話制御を行う際の動作の流れを示すフローチャートである。
まず、対話決定部106は、認識語彙既知度合が上記第1閾値とは別の第2閾値より大きいか否かの判定を行う(ステップS301)。ここで、認識語彙既知度合が第2閾値より大きい場合(ステップS301でYES)には、対話決定部106はその対話状態において発声可能な語彙の情報や認識文法を説明する応答音声や例を示す応答音声を決定する(ステップS302)。具体的には「ここでは、今週1週間の番組名について、音声により発声が可能です。もう一度おっしゃってください」や「『源氏物語』や『豊臣秀吉』のように番組名をおっしゃってください」という応答音声が出力される。
一方、認識語彙既知度合が第2閾値以下である場合(ステップS301でNO)には、階層型の絞込み検索を行う対話状態を次の対話状態と決定する(ステップS303)。図10は階層型の絞込み検索の画面例を示す図である。階層型絞込み検索においては、例えば図10に示すように頭文字を選択させ番組を絞りこみ、リスト表示を行う。なお、ここでは対話制御の種類を閾値1つ(第2閾値)により判定し、2種類のどちらかに振り分けたが、さらに閾値を増やし、振り分ける対話の種類を増やしてもよい。例えば、上記例の頭文字の指定を行の単位ではなく、ひらがな1文字の単位に更に絞り込む対話を行ったり、未知語である可能性を通知するだけの「すいません、その番組は有りません」といった応答を行う対話制御を行ったり、「それは何曜日の番組ですか?」や「その番組には誰がでていますか?」といった別の属性に関する質問をする応答を行う対話制御を認識語彙既知度合に基づいて行ってもよい。また、この閾値も上記認識語彙既知度合テーブルにおける認識語彙既知度の決定方法と同じように評価実験を行い適当な値を決定することができる。
以後は上記と同じ動作を行い、検索終了まで対話を行う。
以上の動作により、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御を行うことが可能となり、ユーザにとってより負担の少ない円滑な対話が実現できる。
(実施の形態2)
上記実施の形態1によれば、各対話状態における認識語彙をユーザが把握している可能性を考慮に入れた対話制御が行えるが、認識語彙既知度合は予め学習された固定値を用いているため、日々検索対象が変わるようなコンテンツ検索の場合、すなわち認識対象語彙が一定でない場合に認識語彙既知度の精度が大きく落ちてしまい、適切な対話制御ができない。本実施の形態では、このような場合に対処するために認識語彙既知度合を算出する場合について説明する。
図11は本発明の実施の形態2に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。なお、図1に示す上記実施の形態1と同様の部分については、同一の符号を付し、説明を省略する。
この音声対話型情報検索装置は、上記実施の形態1の構成とは認識語彙既知度合決定部201の構成および対話決定部202における処理が異なるものであり、他は実施の形態1と同様である。
認識語彙既知度合決定部201は、算出部201aを備えている。この算出部201aは、対話決定部202より入力された対話状態に関する情報を用いて、それぞれの情報における認識語彙既知度合を算出する。さらに、算出部201aは、それぞれの情報における認識語彙既知度合を組み合わせて全体の認識語彙既知度合を算出する。
次に、上記のように構成された音声対話型情報検索装置において、番組情報を検索する際の動作について説明する。図12は音声対話型情報検索装置の動作の流れを示すフローチャートである。
対話決定部202は、上記実施の形態1と同様に対話開始の対話状態を決定し、決定した対話状態での画面と応答音声を決定し、応答音声・画面出力部110から出力することで、ユーザに対して入力要求を行う(ステップS401)。
次に、対話決定部202は、現在の対話状態を決定すると、認識語彙既知度合決定部201に現在の対話状態に関する情報を出力する(ステップS402)。具体的には、ある対話状態Siにおける情報として、入力モード情報、固定語彙なのか変動語彙なのか、さらに変動語彙であればどの程度の時間間隔で変動する語彙なのかを現す認識語彙変動情報、認識語彙の属性を表す認識語彙属性情報、全認識対象語彙数、および、画面で表示されている表示認識対象語彙数を出力する。
より具体的には、入力モード情報とは、例えば図2に示すような「選択型の入力画面」や例えば図7に示すような「自由型入力画面目」等の入力モード情報である。また、「固定語彙」とは、例えば図2に示すようなメニュー画面における選択用の語彙のように対象の対話状態において常に同一の認識対象語彙であり、「変動語彙」とは例えば図5に示すような番組名検索画面における日々更新される番組名のように、同一対話状態において、認識語彙が一定でない語彙である。また、認識語彙属性情報とは。例えば「コマンド」「番組名」「出演者名」「ジャンル名」「日時」「数字」といった語彙の属性を示す情報である。
次に、認識語彙既知度合決定部201の算出部201aは、対話決定部202より入力された上記各対話状態に関する情報を用いて、それぞれの情報における認識語彙既知度合を算出する。ここで、入力モード情報を用いて求めた認識語彙既知度合P1、認識語彙変動情報を用いて求めた認識語彙既知度合P2、認識語彙属性情報を用いて求めた認識語彙既知度合P3、全認識対象語彙数と表示認識対象語彙数を用いて求めた認識語彙既知度合P4とする。
具体的には、認識語彙既知度合P1は、図2に示すような選択型入力画面の方が図5に示すような自由型入力画面より高い値となる。認識語彙既知度合P2は、図2に示すような対話状態における認識対象語彙のように認識対象語彙が固定である方が図5に示すような対話状態における認識対象語彙のように変動する場合より高くなる。さらに、認識対象語彙の変動が早い方がより認識語彙既知度合P2は小さくなる。認識語彙既知度合P3は、コマンドのように共通認識度が高いものの方が番組名や出演者より高くなる。認識語彙既知度合P4は、認識対象語彙が多いほうが小さくなるが、さらに表示されていない語彙が多いほうが、小さくなる。
認識語彙既知度合決定部201の算出部201aは、上記のように各対話状態に関する情報を用いて求めた現在の対話状態における認識語彙既知度合を組み合わせて下記の式1により全体の認識語彙既知度合PK(Si)を算出する(ステップS403)。
Figure 0004634156
ここでmkは重み係数である。
認識語彙既知度合決定部201は、以上のように各対話状態に関する情報を用いて求めた認識語彙既知度合を対話決定部202に出力する。この認識語彙既知度合は、対話決定部202で上記実施の形態1と同様に対話制御の判断基準として利用される。
以降、音声認識処理(ステップS404)、次の対話状態の決定処理(ステップS405)、対話終了であるか否かの判断処理(ステップS406)については、上記実施の形態1と同様である。
なお、認識語彙既知度合決定部201は、算出部201aで算出した認識語彙既知度合PK(Si)と、上記実施の形態1と同様に認識語彙既知度合記憶部105に記憶されている認識語彙既知度合テーブルを用いて検索決定した認識語彙既知度合との2つの認識語彙既知度合から実際に対話制御で利用する認識語彙既知度合を決定しても良い。
また、対話決定部202は、認識語彙既知度合を画面や応答音声に反映させることで、ユーザに現在の対話状態においてユーザ入力の受理可能性を伝えてもよい。図9および図10は具体的な出力画面例を示す図である。図9および図10に示すように、認識語彙既知度合を受理可能性としてバー形式や、エージェントの表情でその度合を表示したり、応答音声の大きさや韻律を変更したりしてもよい。ここでは、図9では認識語彙既知度合が高く、図10では認識語彙既知度合は低い場合を示している。
以上のように、本実施の形態においては認識語彙既知度合を対話状態の各種情報から算出するので、日々検索対象が変わるような、例えば、EPGを用いた番組検索など認識対象語彙が一定でない場合においても認識語彙既知度合の精度向上が可能となる。よって、各対話状態に適した対話制御が行え、ユーザにとってより負担の少ない円滑な対話が実現できる。
(実施の形態3)
上記実施の形態2によれば、各対話状態における認識語彙をユーザが把握している可能性である認識語彙既知度合を現在の対話状態に関する情報を用いて算出し、対話制御が行えるが、ユーザや対話の進行状態によらない計算手法を用いているため、ユーザに適応した対話制御ができない。本実施の形態では、このような場合に対処するために対話履歴を用いる場合について説明する。
図15は本発明の実施の形態3に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。なお、図1に示す上記実施の形態1と同様の部分については、同一の符号を付し、説明を省略する。
この音声対話型情報検索装置は、上記実施の形態1の構成に加えてユーザ情報記憶部303および対話履歴記憶部304を備えている。また、認識語彙既知度合決定部301の構成および対話決定部302における処理が異なるものであり、他は実施の形態1および実施の形態2と同様である。従って、本実施の形態においては、認識語彙既知度合決定部301の動作と、対話決定部302における対話制御、また、対話決定部302で作成される上記実施の形態1および実施の形態2において記述の無い出力画面や応答音声方法について説明する。
対話決定部302は、現在の対話状態を決定すると、現対話状態および認識結果等を対話履歴記憶部304に記憶すると共に、認識語彙既知度合決定部301に現在の対話状態に関する情報と、ユーザに関する情報、そして対話進行状態に関する情報を出力する。
図16は対話履歴記憶部304に記憶されるデータの具体的な一例を示す図である。ここで、項目1201は対話状態名、項目1202は応答出力開始時刻、項目1203は認識結果であり、認識結果は例えば図5に示すような形で保存されている。項目1204は対話状態と再発声による停滞回数である。より具体的には状態の停滞回数はその対話状態における停滞回数で例えば、例えば図7に示すような番組名検索の対話状態が何回続いたかといった情報を持ち、再発声による停滞回数は同じ発声を何回続けて行っているかを示す情報である。
項目1205は認識語彙情報通知レベルであり、画面や応答音声により認識語彙に関する情報をどの程度伝えたかを示すレベルである。図17および図18は具体的な出力画面例を示す図である。図17および図18に示す出力画面例は、同じ対話状態における出力画面であるが、認識語彙既知度合決定部301で決定される認識語彙既知度合により認識語彙に関する情報を伝える情報量を変化させた例である。図17に示す出力画面例は例えばシステムをはじめて使うユーザのように認識語彙既知度合が低い場合の例であり、図18に示す出力画面例は、図17に示す出力画面例より認識語彙既知度合が高い場合の例である。図17に示す出力画面例では認識語彙既知度合が低いため、画面の表示と応答音声にて認識対象語彙に対する情報をなるべく多くユーザに伝え、認識語彙既知度合を上げようと動作する。図18に示す出力画面例では、認識語彙既知度合が図17に示す出力画面例での値より大きくなったユーザに対して認識対象語彙に関する情報を減らした場合である。なお、応答音声は対話時間に大きく影響するため画面での出力情報より先に出力する情報を減らしてもよい。さらに認識語彙既知度合が上がると例えば図2に示すような画面となる。
項目1205は認識語彙既知度合であり、対象対話状態において利用した認識語彙既知度合である。なお、ここでは示さなかったが、対話履歴記憶部304には、応答音声や画面に出力された検索結果、対話開始時の対話状態を基準にした階層の深さなどの情報を記憶してもよい。
これらの各項目の情報が対話履歴として、図16に示すように対話の進行に伴って1行ずつ、対話履歴記憶部304に記憶されることになる。なお、図16に示す例では、最下段の状態においては、認識語彙情報通知レベルを前の状態の「2」から「6」としたことにより、認識語彙既知度合が前の状態の「0.68」から「0.72」に上がっている例を示している。
次に、対話決定部302から認識語彙既知度合決定部301に出力される情報についてより詳細に説明する。
現在の対話状態に関する情報は、上記実施の形態2で記載の情報と同一の情報である。ユーザの情報は、ユーザ情報記憶部303で記憶されている情報で、ユーザ自身の情報と、ユーザ使用履歴に関する情報である。具体的には図19に示すように、ユーザ自身の情報としては、例えば、ユーザの年齢や性別、職業や他の機器操作の頻度などがあり、ユーザ使用履歴情報としては、例えばこれまでのシステム利用における、検索達成に関する情報や同一対話状態Siを経験した回数や対話状態Siから次の対話状態Si+1に遷移するのに必要とした平均発声回数などがある。
対話進行状態に関する情報は前述したように図16に示すような形式で対話履歴記憶部304に記憶される履歴情報を基に対話決定部302で作成される情報で、一つ前の対話状態から現在の対話状態までに要した時間や、認識結果、現在の対話状態に何回停滞しているか、現在の認識語彙情報通知レベルといった情報である。さらには特定の動き検出し、出力しても良い。具体的には、同じ対話状態に度々戻ったり、同じシーケンスを繰り返したりといった動作を検出する。
認識語彙既知度合決定部301の算出部301aは、対話制御1106より入力されたユーザ自身の情報とユーザ使用履歴情報を用いてそれぞれ認識語彙既知度合を算出する。認識語彙既知度合決定部301の算出部301aは、ユーザ自身の情報を使って計算した認識語彙既知度合P5、これまで行った全ての使用履歴情報を用いて計算した認識語彙既知度合P6、対話進行状態に関する情報を用いて計算した認識語彙既知度合P7を算出する。
そして、認識語彙既知度合決定部301の算出部301aは、上記のようにそれぞれ算出した認識語彙既知度合を組み合わせて下記の式2により全体の認識語彙既知度合PK(Si)を算出する。
Figure 0004634156
ここでmkは重み係数である。
より具体的には、この認識語彙既知度合P5は例えば高齢者や、他の情報検索システムの利用経験が少ないと小さな値となる。また、認識語彙既知度合P6はこれまでに同一対話状態の経験が少なく、その対話状態を通過するのに必要とした平均発話回数が多いほど小さな値となる。また、認識語彙既知度合P7は対話遷移に多くの時間を必要としたり、同じ対話状態に何回も停滞したりすると小さな値となる。
これらは、予め評価実験の結果や開発者の設計により、各項目における値による認識語彙既知度合の決定ルールに従い決定することができる。これは、例えば図20に示すようなテーブルを基に決定しても良いし、IF THENのルールでより細かく設定されたプログラムにより判断してもよい。先にも述べたが、各項目における値の範囲の設定などは、例えば評価実験で得られた大量のデータを基に機械学習(例えば決定木)を用いて決定することができる。
なお、認識語彙既知度合決定部301は、上記実施の形態2で記載した対話状態に関する各々の情報を用いて求めた認識語彙既知度合と、上記の認識語彙既知度合P5〜P7を組み合わせて全体の認識語彙既知度合PK(Si)を下記の式3により計算することもできる。
Figure 0004634156
以上のように、本実施の形態においては、ユーザの情報と、対話進行状態に関する情報を用いて認識語彙既知度合を計算するため各対話状態においてユーザに適応した対話制御が可能となり、ユーザにとってより負担の少ない円滑な対話が実現できる。
本発明に係る音声対話方法および音声対話装置は、音声対話型インタフェースを持つ多くの装置に対して利用可能であり、音声認識対象語彙が時間や場所に応じて変化し、ユーザが認識対象語彙外の発声を行う可能性が高いEPG番組検索装置やカーナビゲーション装置などには特に有用であり、その利用可能性は非常に大きい。
本発明の実施の形態1に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。 本発明の実施の形態1における対話全体の動作の流れを示すフローチャートである。 本発明の実施の形態1における選択入力型の出力画面例を示す図である。 本発明の実施の形態1における認識語彙既知度合記憶部に格納される認識語彙既知度合テーブルの例を示す図である。 本発明の実施の形態1における音声認識部から出力される認識結果例を示す図である。 本発明の実施の形態1における対話決定部における処理を示すフローチャートである。 本発明の実施の形態1における自由入力型の出力画面例を示す図である。 本発明の実施の形態1における検索結果の出力画面例を示す図である。 本発明の実施の形態1における対話決定部で詳細対話の対話制御を行う際の動作の流れを示すフローチャートである。 本発明の実施の形態1における階層型の絞込み検索の画面例を示す図である。 本発明の実施の形態2に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。 本発明の実施の形態2における対話全体の動作の流れを示すフローチャートである。 本発明の実施の形態2における認識語機知度合をバー形式により表示させた出力画面を示す図である。 本発明の実施の形態2における認識語機知度合をエージェントの表情により表示させた出力画面を示す図である。 本発明の実施の形態3に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。 本発明の実施の形態3における対話履歴記憶部に記憶される対話履歴データ例を示す図である。 本発明の実施の形態3における認識語彙既知度合に対応して認識語彙に関する情報を多く表示させた出力画面例を示す図である。 本発明の実施の形態3における認識語彙既知度合に対応して認識語彙に関する情報を少し表示させた出力画面例を示す図である。 本発明の実施の形態3におけるユーザ情報記憶部に記憶されるユーザ情報データ例を示す図である。 本発明の実施の形態3におけるユーザの情報の各項目における値による認識語彙既知度合の決定ルールの例を示す図である。
符号の説明
101 音声認識部
102 音声認識辞書部
103 モデル記憶部
104、201、301 認識語彙既知度合決定部
105 認識語彙既知度合記憶部
106、202、302 対話決定部
107 ユーザ情報入力部
108 データベース検索部
109 データベース記憶部
110 応答音声・画面出力部
201a、301a 算出部
303 ユーザ情報記憶部
304 対話履歴記憶部


Claims (15)

  1. ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、ユーザと対話を行う音声対話装置による音声対話方法であって、
    前記音声対話装置が、入力された音声の認識結果を出力する音声認識ステップと、
    記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記音声対話装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
    前記音声認識ステップにおいて認識された前記認識結果と、前記認識語彙既知度合決定ステップにおいて決定された、現在の対話状態における認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
    前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと
    を含むことを特徴とする音声対話方法。
  2. 前記対話決定ステップは、さらに、
    前記音声対話装置が、入力された音声を認識していないという認識結果であったとき、
    前記現在の対話状態における認識語彙既知度合が、所定値を満たすかどうかを判定する認識語彙既知度合判定ステップと、
    前記認識語彙既知度合判定ステップにより、前記現在の対話状態における認識語彙既知度合が所定値を満たしていると判定されるときは、音声による再入力を促すことを決定し、前記現在の対話状態における認識語彙既知度合が所定値を満たしていないと判定されるときは、前記現在の対話状態における認識語彙既知度合に基づく対話を行うことを決定する対話状態決定ステップと
    を含むことを特徴とする請求項1記載の音声対話方法。
  3. 前記認識語彙既知度合決定ステップでは、
    対象の対話状態における入力モード毎の前記認識語彙既知度合をあらかじめ格納した既知度合テーブルを用いて、前記認識語彙既知度合を決定する
    ことを特徴とする請求項1記載の音声対話方法。
  4. 前記認識語彙既知度合決定ステップでは、
    対象の対話状態における入力モード、認識語彙の変動に関する認識語彙変動情報、認識語彙の属性を示す認識語彙属性情報、全認識対象語彙数、表示認識対象語彙数、ユーザ自身の情報、ユーザのシステム使用履歴、対話進行状態、画面や応答音声による認識語彙に関する情報量の少なくとも一つを用いて、前記認識語彙既知度合を算出する
    ことを特徴とする請求項1記載の音声対話方法。
  5. 前記対話決定ステップでは、前記対話内容として対話の画面または音声応答の少なくとも1つを決定し、
    前記出力ステップでは、前記対話決定ステップにおいて決定された前記対話の画面または音声応答の少なくとも1つを出力する
    ことを特徴とする請求項1記載の音声対話方法。
  6. 前記対話決定ステップでは、前記認識語彙既知度合を示すための表示または音声応答の少なくとも1つを作成し、
    前記出力ステップでは、前記対話決定ステップにより作成された前記認識語彙既知度合を示す表示または音声応答の少なくとも1つを出力する
    ことを特徴とする請求項1記載の音声対話方法。
  7. 前記対話決定ステップでは、前記対話内容に前記音声認識ステップにおける認識対象語彙に関する説明を含めるか否かを前記認識語彙既知度合に基づいて決定する
    ことを特徴とする請求項1記載の音声対話方法。
  8. 前記対話決定ステップでは、前記音声認識ステップにおいて認識された前記認識結果を未知語と判定した場合、前記対話内容を再度入力を促す対話内容とするか、または詳細な対話内容とするかを前記認識語彙既知度合に基づいて決定する
    ことを特徴とする請求項1記載の音声対話方法。
  9. 前記対話決定ステップでは、前記再度入力を促す対話内容と決定した際、再入力回数に応じて前記音声認識ステップにおける音声認識用パラメータを変更する
    ことを特徴とする請求項8記載の音声対話方法。
  10. 前記対話決定ステップでは、前記詳細な対話内容と決定した際、さらに前記認識語彙既知度合に基づいて対話内容を変更する
    ことを特徴とする請求項8記載の音声対話方法。
  11. ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、情報を検索する情報検索装置による情報検索方法であって、
    前記情報検索装置が、入力された音声の認識結果を出力する音声認識ステップと、
    記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記情報検索装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
    前記音声認識ステップにおいて認識された前記認識結果と、前記認識語彙既知度合決定ステップにおいて決定された、現在の対話状態における前記認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
    前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、
    前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検
    索する情報検索ステップと
    を含むことを特徴とする情報検索方法。
  12. ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、ユーザと対話を行う音声対話装置であって、
    入力された音声の認識結果を出力する音声認識手段と、
    前記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記音声対話装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を記憶している認識語彙既知度合記憶手段と、
    前記認識語彙既知度合記憶部に記憶されている前記認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定手段と、
    前記音声認識手段で認識された前記認識結果と、前記認識語彙既知度合決定手段で決定された、現在の対話状態における認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定手段と、
    前記対話決定手段で決定された対話内容を出力する出力手段と
    を備えることを特徴とする音声対話装置。
  13. ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、情報を検索する情報検索装置であって、
    入力された音声の認識結果を出力する音声認識手段と、
    前記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記音声対話装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を記憶している認識語彙既知度合記憶手段と、
    前記認識語彙既知度合記憶部に記憶されている前記認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定手段と、
    前記音声認識手段で認識された前記認識結果と、前記認識語彙既知度合決定手段で決定された、現在の対話状態における前記認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定手段と、
    前記対話決定手段で決定された対話内容を出力する出力手段と、
    前記出力手段で出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識手段で認識された前記認識結果に基づいて情報を検索する情報検索手段と
    を備えることを特徴とする情報検索装置。
  14. ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、ユーザと対話を行う音声対話装置のためのプログラムであって、
    前記音声対話装置が、入力された音声の認識結果を出力する音声認識ステップと、
    記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記音声対話装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
    前記音声認識ステップにおいて認識された前記認識結果と、前記認識語彙既知度合決定ステップにおいて決定された、現在の対話状態における認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
    前記対話決定ステップにおいて決定された対話内容を出力する出力ステップとを前記音声対話装置に実行させる
    ことを特徴とするプログラム。
  15. ユーザに対して音声入力を促すための複数の対話状態を提示しながら、音声入力を通じて、情報を検索する情報検索装置のためのプログラムであって、
    前記情報検索装置が、入力された音声の認識結果を出力する音声認識ステップと、
    記複数の対話状態のそれぞれの状態ごとに、前記音声対話装置が認識できる語彙に対するユーザの認知度合いに基づき数値化された、前記情報検索装置が認識できる語彙に対するユーザの把握度合いの値を示す認識語彙既知度合を参照することで、現在の対話状態における認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
    前記音声認識ステップにおいて認識された前記認識結果と、前記認識語彙既知度合決定ステップにおいて決定された、現在の対話状態における前記認識語彙既知度合と、に基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
    前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、
    前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検索する情報検索ステップとを前記情報検索装置に実行させる
    ことを特徴とするプログラム。
JP2005003119A 2005-01-07 2005-01-07 音声対話方法および音声対話装置 Expired - Fee Related JP4634156B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005003119A JP4634156B2 (ja) 2005-01-07 2005-01-07 音声対話方法および音声対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005003119A JP4634156B2 (ja) 2005-01-07 2005-01-07 音声対話方法および音声対話装置

Publications (3)

Publication Number Publication Date
JP2006189730A JP2006189730A (ja) 2006-07-20
JP2006189730A5 JP2006189730A5 (ja) 2008-02-14
JP4634156B2 true JP4634156B2 (ja) 2011-02-16

Family

ID=36796996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005003119A Expired - Fee Related JP4634156B2 (ja) 2005-01-07 2005-01-07 音声対話方法および音声対話装置

Country Status (1)

Country Link
JP (1) JP4634156B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5137853B2 (ja) * 2006-12-28 2013-02-06 三菱電機株式会社 車載用音声認識装置
JP4915665B2 (ja) * 2007-04-18 2012-04-11 パナソニック株式会社 音声認識機能付き操作器
JP2013092823A (ja) * 2011-10-24 2013-05-16 Nifty Corp 情報処理装置、プログラム及び情報検索システム
JP2016206960A (ja) * 2015-04-23 2016-12-08 日本電信電話株式会社 音声映像入出力装置
JP2017167366A (ja) * 2016-03-16 2017-09-21 Kddi株式会社 通信端末、通信方法及びプログラム
JP6628853B2 (ja) * 2018-10-09 2020-01-15 日本電信電話株式会社 音声映像追跡装置
CN110450789B (zh) * 2019-08-13 2020-12-15 广州小鹏汽车科技有限公司 一种信息处理方法和装置
CN112652301B (zh) * 2019-10-12 2023-05-12 阿里巴巴集团控股有限公司 语音处理方法和分布式系统、及语音交互设备和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001296890A (ja) * 2000-04-12 2001-10-26 Auto Network Gijutsu Kenkyusho:Kk 車載機器習熟度判定装置および車載音声出力装置
JP2003177788A (ja) * 2001-12-12 2003-06-27 Fujitsu Ltd 音声対話システムおよびその方法
JP2004258233A (ja) * 2003-02-25 2004-09-16 Fujitsu Ltd 適応型音声対話システム及び方法
JP2004326198A (ja) * 2003-04-21 2004-11-18 Matsushita Electric Ind Co Ltd 嗜好情報利用型データ検索装置
JP2004333543A (ja) * 2003-04-30 2004-11-25 Matsushita Electric Ind Co Ltd 音声対話システム及び音声対話方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001296890A (ja) * 2000-04-12 2001-10-26 Auto Network Gijutsu Kenkyusho:Kk 車載機器習熟度判定装置および車載音声出力装置
JP2003177788A (ja) * 2001-12-12 2003-06-27 Fujitsu Ltd 音声対話システムおよびその方法
JP2004258233A (ja) * 2003-02-25 2004-09-16 Fujitsu Ltd 適応型音声対話システム及び方法
JP2004326198A (ja) * 2003-04-21 2004-11-18 Matsushita Electric Ind Co Ltd 嗜好情報利用型データ検索装置
JP2004333543A (ja) * 2003-04-30 2004-11-25 Matsushita Electric Ind Co Ltd 音声対話システム及び音声対話方法

Also Published As

Publication number Publication date
JP2006189730A (ja) 2006-07-20

Similar Documents

Publication Publication Date Title
US20220156039A1 (en) Voice Control of Computing Devices
US10884701B2 (en) Voice enabling applications
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
JP4604178B2 (ja) 音声認識装置及び方法ならびにプログラム
JP5089955B2 (ja) 音声対話装置
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
EP3114679B1 (en) Predicting pronunciation in speech recognition
US9275637B1 (en) Wake word evaluation
JP6203288B2 (ja) 音声を認識するシステムおよび方法
JP5066483B2 (ja) 言語理解装置
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP4634156B2 (ja) 音声対話方法および音声対話装置
EP2058800A1 (en) Method and system for recognizing speech for searching a database
WO2015151157A1 (ja) 意図理解装置および方法
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
WO2001065541A1 (fr) Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
WO2021000403A1 (zh) 智能对话系统的语音匹配方法、电子装置、计算机设备
US11605387B1 (en) Assistant determination in a skill
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
WO2009147745A1 (ja) 検索装置
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP4204042B2 (ja) ゲーム機、ゲームの実行方法、並びにプログラム
CN116543764A (zh) 一种动作机构的控制电路及车辆

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101118

R150 Certificate of patent or registration of utility model

Ref document number: 4634156

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees