JP2007322757A - 音声対話装置 - Google Patents

音声対話装置 Download PDF

Info

Publication number
JP2007322757A
JP2007322757A JP2006153070A JP2006153070A JP2007322757A JP 2007322757 A JP2007322757 A JP 2007322757A JP 2006153070 A JP2006153070 A JP 2006153070A JP 2006153070 A JP2006153070 A JP 2006153070A JP 2007322757 A JP2007322757 A JP 2007322757A
Authority
JP
Japan
Prior art keywords
noise
word
response
user
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006153070A
Other languages
English (en)
Other versions
JP5034323B2 (ja
Inventor
Takeshi Ono
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2006153070A priority Critical patent/JP5034323B2/ja
Publication of JP2007322757A publication Critical patent/JP2007322757A/ja
Application granted granted Critical
Publication of JP5034323B2 publication Critical patent/JP5034323B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】騒音による音声認識時の誤認識を減らすこと。
【解決手段】音声認識部102は、使用者から入力された発話音声を認識し、言語理解部104は、音声認識手段による認識結果に基づいて使用者による発話内容を理解する。応答生成部109は、発話内容理解手段で理解した使用者による発話内容に応じて使用者に対する応答文を生成し、さらに騒音検出手段112で検出された音声認識に対する騒音の程度に基づいて、生成した応答文の内容を変化させる。そして、音声合成部110およびGUI表示部111は、内容が変化された後の応答文を出力する。
【選択図】図1

Description

本発明は、使用者の発話内容に応じて応答を出力する音声対話装置に関する。
次のような対話理解装置が例えば特許文献1によって知られている。この対話理解装置は、周囲の雑音等の影響によって音声認識結果に誤認識が発生することを防ぐために、音声認識結果の信頼度を加味して使用者の発話内容を認識する。
特開2004−251998号公報
しかしながら、従来の装置のように、音声認識結果の信頼度のみを加味して使用者の発話内容を認識した場合には、未だに周囲の騒音等による影響を完全には排除できず、誤認識が発生する可能性があった。
本発明による音声対話装置は、使用者から入力された発話音声を認識する音声認識手段と、音声認識手段による認識結果に基づいて、使用者による発話内容を理解する発話内容理解手段と、発話内容理解手段で理解した使用者による発話内容に応じて、使用者に対する応答文を生成する応答文生成手段と、音声認識に対する騒音の程度を検出する騒音検出手段と、騒音検出手段で検出した騒音の程度に基づいて、応答文生成手段で生成した応答文の内容を変化させる内容変化手段と、内容変化手段で内容を変化させた後の応答文を出力する出力手段とを備えることを特徴とする。
本発明によれば、騒音の程度に基づいて応答文の内容を変化させて出力するようにした。これによって、使用者は、騒音に応じた応答文に対応して新たな発話を行うため、音声認識時に誤認識が発生する可能性を低下させることができる。
図1は、本実施の形態における音声対話装置の一実施の形態の構成を示すブロック図である。音声対話装置100は、音声入力部101と、音声認識部102と、信頼度生成部103と、言語理解部104と、応答生成部109と、音声合成部110と、GUI表示部111と、騒音検出部112と、認識履歴メモリ113とを備えている。
この音声対話装置100は、例えば車両に搭載されたナビゲーション装置に実装され、使用者は、当該音声対話装置100から出力される応答メッセージに従って音声入力を行うことにより、ナビゲーション装置を操作することができる。以下の説明では、使用者がナビゲーション装置上で目的地を設定するために、目的地設定用のコマンドを音声で入力する場合の処理について説明する。
音声入力部101は、マイクロホン、入力増幅器、A/Dコンバータから構成される。マイクロホンを介して入力され、入力増幅器で増幅されたアナログ音声入力信号は、A/Dコンバータでデジタル信号に変換された後、音声認識部102に出力される。
音声認識部102は、音声入力部101から入力された使用者の発話音声信号と、音声信号認識部102内に記憶してある認識対象文とのマッチング処理を行い、複数の認識結果候補文のそれぞれについて尤度を算出する。そして、複数の認識結果候補文を第1位から第N位までの尤度の高い順に配列して単語列(N−best候補)を生成し、このN−best候補に含まれる上位N候補の単語を尤度データとともに信頼度生成部103へ出力する。
なお、尤度とは認識結果から得られる音声信号列がYである時、使用者が発話した音声信号列がWである事後確率で定義される値で、「音声信号列に関する仮説Wに対し、音声信号列Yが観測される事前確率」と「音声信号列Wが発話される確率」との積と、音声信号列Yが観測される確率との比のうち最大確率である。
信頼度生成部103は、音声認識部102から入力された上位N候補の各単語の尤もらしさを示す信頼度(単語信頼度)と、それぞれの単語の分類を示すクラスの尤もらしさを示す信頼度(クラス信頼度)を出力する。クラスとは、使用者による発話内容の表現形式をカテゴリ単位に階層構造的に分類した概念である。図2は、ナビゲーション装置上で設定される目的地を示す表現形式を階層構造的に分類した例を示している。ここでカテゴリは包括する範囲が広いほうから狭いほうに順次配列され、クラスは各カテゴリに含まれる単語を内容別に分類したものである。
また、単語信頼度とは、ある単語が発話された可能性を示す指標であり、クラス信頼度とは、あるクラスの単語が発話された可能性を示す指標である。なお、単語信頼度およびクラス信頼度の詳細については公知であるため詳細な説明は省略する。
図2の例では、各単語は上位(PR)、中位(HR)、下位(LM)の3カテゴリに分類され、さらに各カテゴリ単位にそれぞれ複数のクラスに分類される。例えば、上位カテゴリには「県」の1クラスのみが含まれるが、下位カテゴリには「インターチェンジ」、「市区町村」、「駅」の3クラスが含まれる。
信頼度生成部103は、N−best候補に含まれる上位N候補の各単語の対数尤度Liを算出する。そして、N−best候補の第1位に配列された認識結果候補文(第1位候補)に含まれる単語wの信頼度Conf(w)を、単語信頼度として次式(1)によって算出する。
Figure 2007322757
なお、式(1)において、δw,iは、単語wがN−best候補中のi番目の候補に含まれる場合には1となり、単語wがN−best候補中のi番目の候補に含まれない場合には0となる変数である。
式(1)において、単語wがN−best候補の中でi番目の候補に含まれている確からしさpiは下記の次式(2)によって算出することができる。ここで、LiはN−best候補それぞれに対する対数尤度であり、αは重み計数である。
Figure 2007322757
また、上述した単語信頼度と同様に、第1位候補に含まれる各単語wのクラスCwの信頼度Conf(Cw)を、クラス信頼度として次式(3)により算出する。
Figure 2007322757
なお、式(3)において、δCwは、クラスCwがN−best候補中のi番目の候補に含まれる場合には1となり、クラスCwがN−best候補中のi番目の候補に含まれない場合には0となる変数である。
なお、式(3)においても、単語信頼度の場合と同様に、クラスCwがN−best候補の中でi番目の候補に含まれている確からしさpiは、式(2)によって算出することができる。
信頼度生成部103は、音声認識部102から入力された複数の認識結果候補文および尤度と、以上のようにして算出した単語信頼度およびクラス信頼度を言語理解部104へ出力する。また、このとき、騒音検出部112は、周囲の騒音を検出して検出結果を応答生成部109へ出力する。
言語理解部104は、クラススコア生成部105、カテゴリ理解部106、単語スコア生成部107、および理解内容生成部108の各部で構成されており、使用者からの複数回にわたる発話に伴って入力される単語と、その属するクラスの信頼度とから理解結果を生成する機能を有する。
クラススコア生成部105は、信頼度生成部103から入力されるクラス信頼度に基づいて、使用者によってどのクラスに含まれる単語が発話されたかを判定するためのスコア(クラススコア)を計算して生成する。なお、クラススコアとは、使用者の複数回の発話中におけるクラスの尤もらしさを示す値である。カテゴリ理解部106は、クラススコア生成部105で生成されたクラススコアに基づいて、クラスの分類を示すカテゴリの理解結果を判定する。すなわち、使用者によってどのカテゴリに属する単語が発話されたかを判定する。
単語スコア生成部107は、信頼度生成部103から入力される単語信頼度から、使用者によってどの単語が発話されたかを判定するためのスコア(単語スコア)を生成する。理解内容生成部108は、カテゴリ理解部106で判定されたカテゴリの理解結果、および単語スコア生成部107で生成された単語スコアに基づいて、使用者による発話内容に対する理解内容を生成する。そして、言語理解部104は、理解内容生成部108で生成された理解内容を応答生成部109に出力する。
応答生成部109は、言語理解部104から入力された理解内容に基づいて、使用者の発話に対して応答するための応答文の音声データおよびモニタ表示用データを生成する。なお、応答文を生成する過程で用いられる各種のルールは、後述するように騒音レベルに応じて変更される。応答生成部109で生成された応答文の音声データは、音声合成部110へ出力される。音声合成部110は、D/Aコンバータ、出力増幅器、およびスピーカを有しており、入力された応答文の音声データは、D/Aコンバータでデジタル信号に変換され、出力増幅器で増幅された後、スピーカを介して出力される。
また、応答文のモニタ表示用データはGUI表示部111へ出力される。GUI表示部111は、入力された応答分のモニタ表示用データを不図示の表示装置、例えば液晶モニタに表示する。これによって、音声対話装置100から出力される応答文を聴覚および視覚で認識することができる。
認識履歴メモリ113は、例えばハードディスクドライブ(HDD)などの記録装置であり、言語理解部104から出力される過去の認識状況の履歴データを記憶する。なお、履歴データとして記憶される認識状況としては、少なくとも過去に認識を行った単語と後述する単語スコア、および後述するクラススコアが含まれる。
本実施の形態では、上述したようにナビゲーション装置上で目的地を設定するために、目的地設定用のコマンドを音声で入力することができ、図2に示した各カテゴリに含まれる単語を組み合わせて発話することができる。そして、最も下位のカテゴリに含まれているインターチェンジ、駅、市区町村のいずれかを目的地として設定することができるものとする。なお、図2に示す上位、中位、下位3段階のカテゴリを、それぞれ上位カテゴリPR、中位カテゴリHR、下位カテゴリLMと呼ぶこととする。すなわち、図2に示す例では、使用者は、上位カテゴリPRでは、県(都道府県)を発話することができ、中位カテゴリHRでは自動車道、または鉄道路線を発話することができ、下位カテゴリLMではインターチェンジ、市区町村、駅を発話することができる。
本実施の形態においては、使用者が音声対話装置100と対話形式で目的地設定を行うに当たって、より柔軟な発話を行えるような応答文を使用者に提示することを目的とする。例えば使用者は、「静岡県の東名自動車道の浜松西インターチェンジ」と言うように、一度ですべてのカテゴリを発話することもできる。また第一の発話で「静岡県」と発話し、第二の発話で「東名高速の浜松西インターチェンジ」と発話するように複数回に分けて発話することも可能である。
また、使用者が複数回の発話を行う場合に、過去の発話に対してより詳細な情報を追加していく詳細化発話を可能とする。例えば、使用者は、第一の発話で「静岡県の」と発話し、第二の発話で「浜松市」と発話することによって、詳細な情報を追加して目的地を絞り込んでいくことも可能である。あるいは、使用者は、第一の発話で、「浜松市」と発話し、第二の発話で「静岡県」と発話することによって、目的地を絞り込んでいくことも可能である。
また、使用者が複数回の発話を行う場合に、音声対話装置100からの応答結果が誤っていた場合には、それを訂正する発話を行うこともできる。例えば、第一の発話「静岡県の浜松市」に対して、音声対話装置100から「静岡県の浜松西インターチェンジですか」と誤った応答がなされたとき、第二の発話で「いいえ浜松市です。」と発話して誤りを訂正することができる。また、使用者が複数回の発話を行う場合に、音声対話装置100からの応答(システム応答)が質問であったときには、それに回答する発話も可能である。例えば、第一の発話に対するシステム応答が「静岡県の何インターチェンジですか」であったとき、第二の発話で「浜松西インターチェンジです」と発話して質問に回答することも可能である。
さらに、使用者が複数回の発話を行う場合、システム応答が再入力を促す発話であったとき、それに応じて再入力を行う発話をすることもできる。例えば、第一の発話に対するシステム応答が「もう一度発話してください」であったとき、使用者は第二の発話で第一の発話と同様の発話を行うことが可能である。
図3は、本実施の形態における音声対話装置100が待ち受けることができる発話例(認識対象語)の具体例を示した図である。また、図4に音声対話装置100と使用者との間で行われる対話の具体例を示す。この図4においては、Uは使用者の発話例であり、Sはシステム応答例を示している。また、UおよびSの後に付加されている数字は発話順を示している。
次に、本実施の形態における音声対話装置100の処理を図5のフローチャートを用いて説明する。図5に示す処理は、音声対話装置100の電源がオンされることによって起動するプログラムとして、101〜112の各部によって実行される。
ステップS302において、使用者が発話開始を指示するために、不図示の音声入力スイッチ(発話スイッチ)がオン状態に操作されたことを検出した場合に、ステップS303へ進む。ここで、音声入力スイッチのオン状態への操作が検出されない場合は、この操作が検出されるまでステップ302で待ち状態となる。このとき、音声認識部102は、音声入力部101から入力されるデジタル信号の平均パワーの演算を継続して行う。
ステップS303では、音声認識部102は、音声入力部101から入力されるデジタル信号の平均パワーの演算を継続し、演算した平均パワーをメモリに記憶しておく。そして、音声入力スイッチがオンされる前から継続して演算していた平均パワーにくらべて、デジタル信号の瞬時パワーが所定値以上に大きくなった時、音声認識部102は、使用者が発話したと判断し、音声信号の取り込みを開始する。その後、ステップS304へ進む。
ステップS304では、音声認識部102は、記憶してある認識対象文と入力された音声信号とを比較して上述した尤度を演算し、複数の認識結果候補文を設定する。なおこの間も並列処理により音声信号の取り込みは継続されている。その後、デジタル化された音声信号の瞬時パワーが所定時間以上所定値以下の状態が継続した時にはステップS305へ進み、音声認識部102は、使用者の発話が終了したと判断し、音声信号の入力処理を終了する。そして、音声認識部102は複数の認識結果候補文を尤度順にならべた上位N候補(N−Best候補)を、尤度データとともに信頼度生成部103へ出力して、ステップS306へ進む。図6にこの出力結果の例を示す。図6において、XXXと記されている部分は、各単語に対する算出された尤度を示している。
ステップS306では、信頼度生成部103は、N−Best候補に含まれる各単語について、上述した単語信頼度とクラス信頼度の2種類の信頼度を算出して、ステップS307へ進む。例えば、図7に示すように単語信頼度とクラス信頼度を算出する。この図7においては、図7(a)は図6で示した音声認識部102からのN−Best候補とそれぞれの尤度の出力例であり、図7(b)が図7(a)に基づいて算出した単語信頼度とクラス信頼度の具体例を示している。
ステップS307では、クラススコア生成部105は、以上のようにして発話された単語の信頼度を求めて尤らしい単語の推定を行った後に、さらに使用者からの発話に対する単語推定の精度を向上させるために、クラス単位にクラススコアを生成する。このとき、クラススコア生成部105は、このクラススコア生成に先立ち、使用者の発話タイプの判定を行う。発話タイプとは、使用者による発話がどのような目的で行われたものかを表すものである。本実施の形態では、詳細化を行うための発話や、音声対話装置100からの質問に回答するための発話など、以前の情報に新しい情報を追加する働きがある発話タイプ(詳細化・回答の発話タイプ)と、過去に発話した内容の誤りを訂正するための発話や、同じ発話内容を再入力するための発話など、以前の情報を訂正する働きがある発話タイプ(訂正・再入力の発話タイプ)とがあるものとする。
クラススコア生成部105は、使用者からの発話内容に基づいて、使用者の発話が詳細化・回答の発話タイプおよび訂正・再入力の発話タイプのいずいれに該当するかを判定する。例えば、図8に示すような判定用のルールをあらかじめ作成しておき、クラススコア生成部105は、使用者からの発話内容が図8に示す判定材料のいずれであるかを判定して、その発話タイプが詳細化・回答の発話タイプであるか、あるいは訂正・再入力の発話タイプかを判定する。また、図8に示すルールを用いる判定方法以外に、例えば地名入力でよく用いられる部分的な言い直し発生を公知のDPマッチングによるワードスポッティング法を用いて判定するようにしてもよい。
クラススコア生成部105は、このようにして判定した発話タイプ別に異なる生成式を用いてクラススコアを生成する。したがって、図5におけるステップS307では、図9に示すように2分割された処理が行われることになる。すなわち、ステップS315において使用者の発話の発話タイプが詳細化・回答の発話タイプに該当するか否かを判定し、該当する場合はステップS316へ進み、該当しない場合、すなわち発話タイプが訂正・再入力の発話タイプである場合にはステップS317へ進む。以下、ステップS316およびステップS317における処理についてそれぞれ説明する。
まず、ステップS316における発話タイプが詳細化・回答の発話タイプの場合のクラススコア生成処理について説明する。クラススコアは、上述したように使用者の複数回の発話中におけるクラスの尤もらしさを示す値であることから、以前に理解した情報を残しつつ、新しい情報を付加することで、より適切にクラススコアを生成することができる。よって、クラススコア生成部105は、認識履歴メモリ113から同じクラスについて過去に生成されたクラススコア(旧クラススコア)を読み込んで、次式(4)によりクラススコアを生成する。
Score(c) = Score(c) * weights + Conf(c) ・・・(4)
但し、Scoreはクラススコアであり、式(4)の左辺が新たに求められたクラススコアであり、右辺が旧クラススコアに対する処理である。Confは最新の認識結果から得られたクラス信頼度である。weightsは0.0〜1.0の値をとる重みであり、実際の発話データを用いて実験的に求められている。cはスコアを生成するクラスである。重みweightsにより一定の割合で更新前のクラススコアを下げているのは、本実施の形態では「情報が古くなるごとに信頼性が低下する」という方針を適用しているからである。クラススコア生成部105は、このようにして生成したクラススコアを認識履歴メモリ113に記録する。この記録されたクラススコアは、後に同じクラスについてのクラススコアが生成される際に、旧クラススコアとして使用される。
詳細化・回答の発話タイプのクラススコア生成結果の具体例を図10に示す。使用者は、図10(a)から過去の発話で「県」(旧クラススコア=1.00)の発話を行っており、最新の発話で「駅」(新クラス信頼度=0.81)を発話していることがわかる。この場合、式(5)により、各クラスのクラススコア(更新後のクラススコア)は、図10(b)に示すように生成される。
次に、ステップS317における発話タイプが訂正・再入力の発話タイプの場合のクラススコア生成処理について説明する。この場合も、クラススコア生成部105は、認識履歴メモリ113から同じクラスについて旧クラススコアを読み込む。そして、次式(5)によりクラススコアを生成する。
Score(ca) = Score(ca) * weightt- Conf(cb) + Conf(ca) ・・・(5)
但し、Scoreはクラススコアであり、式(5)の左辺が新たに得られたクラススコアであり、右辺が旧クラススコアに対する処理である。Confは最新の認識結果から得られたクラス信頼度である。weighttは0.0〜1.0の値をとる重みであり、実際の発話データを用いて実験的に求められている。caはスコアを生成するクラスであり、cbはcaと同じカテゴリで異なる全てのクラスである。この式(5)は、上述した式(4)と比較して、同カテゴリ、異クラスの信頼度を減算している点が異なる。これによりクラスを間違えた場合にスコアが修正され易くなる。クラススコア生成部105は、このようにして生成したクラススコアを認識履歴メモリ113に記録する。この記録されたクラススコアは、後に同じクラスについてのクラススコアが生成される際に、旧クラススコアとして使用される。
訂正・再入力の発話タイプのクラス生成結果の具体例を図11に示す。図11(a)においては、クラス(c)=「県」の場合に、旧クラススコアと新クラス信頼度の両方でスコアが生成されている。このことから、使用者は、過去の発話で「県」クラスの発話を行ったが、クラススコアの値が不十分でカテゴリを特定できなかったため、音声対話装置100は「もう一度発話して下さい」というような再入力を促す応答を出力し、使用者はそれに応答して再度同じ「県」クラスの発話を行っているものと考えられる。この場合、式(6)により、各クラスのクラススコア(更新後のクラススコア)は、図11(b)に示すように生成される。
その後、ステップS308へ進み、カテゴリ理解部106は、旧クラススコアと最新の認識結果におけるクラス信頼度(新クラス信頼度)とのそれぞれについてのカテゴリスコアを算出する。カテゴリ理解部106によるカテゴリスコアの算出方法を図12を用いて説明する。カテゴリ理解部106は、図12(a)において、範囲2a内に含まれる情報に基づいて、図12(b)に示すようなカテゴリスコアを算出する。
すなわち、カテゴリ理解部106は、各クラスごとに旧クラススコア(Score(ca))×重み(weights)を算出し、その算出結果をカテゴリ内で合計したものを各カテゴリの旧カテゴリスコアとして算出する。例えば、図12(b)に示すように、Score(ca)×(weights)の算出結果をPR(上位)、HR(中位)、LM(下位)のそれぞれのカテゴリごとに合計して、旧カテゴリスコアを算出する。また、カテゴリ理解部106は、クラス信頼度(Conf(c))をPR、HR、LMのそれぞれのカテゴリごとに合計して、新カテゴリスコアを算出する。
そして、カテゴリ理解部106は、算出した旧カテゴリスコアおよび新カテゴリスコアを所定の閾値を用いて1または0に判定する。例えば、旧カテゴリスコアおよび新カテゴリスコアが0.5以上であれば1と判定し、0.5未満であれば0と判定する。これによって、図12に示したカテゴリスコアは、図13に示すように判定される。すなわち、旧カテゴリスコアに対する旧判定と、新カテゴリスコアに対する新判定が判定結果として得られる。
カテゴリ理解部106は、各カテゴリごとに旧判定と新判定との論理和をとることによって、カテゴリ理解の理解結果を得る。図13に示す例では、PRの理解結果は1、HRの理解結果は0、LMの理解結果は1となっている。ここで得られた理解結果は、現在までに発話されたカテゴリの組み合わせを示している。
その後、ステップS309へ進み、単語スコア生成部107は、(1)過去に認識した単語(認識履歴メモリ113中に既に存在する単語)、および(2)新たに出現した単語(最新の認識結果中の単語)の2つに対して、各々別々の方針を用いて単語スコアを生成する。(2)の単語は、最新の認識結果のN−Best候補に含まれる全単語が対象となる。単語スコア生成部107は、言語理解部104が信頼度生成部103から最新の単語信頼度およびクラス信頼度を獲得するたびに(1)→(2)の順番で単語スコアの生成を行う。
まず、(1)の単語に対する単語スコア生成処理について説明する。この場合、認識履歴メモリ113中に存在する単語に対しては、単語の新しさ、システムの応答内容とユーザ発話タイプ(詳細化、訂正、回答、再入力)から、既存の単語スコアを上下させて、新しい単語スコアを生成する。これには以下5種類の方針を使用する。
方針1:古い情報は、信頼性が低くなるという仮定のもとに、新しい認識結果が入力されるたびに、認識履歴中に存在する全ての単語のスコアを下げる。
方針2:認識履歴中の単語Aと認識結果単語Bが詳細化の関係にあった場合、単語Aのスコアを上げる。
方針3:認識履歴中の単語Aと認識履歴中の単語Bが訂正の関係にあった場合、単語Aのスコアを下げる。
方針4:認識結果に肯定(はい、うん等)が含まれていた場合、応答に含まれていた単語のスコアを上げる。
方針5:認識結果に否定後(いいえ、ちがう等)が含まれていた場合、応答に含まれていた単語のスコアを下げる。
認識履歴メモリ113中の単語に対する単語スコアの生成は、次式(6)による。
Score(Wd)=Score(Wd)-p1+p2*Conf(Ws)-p3*Conf(Wt)
+i*(p4*Conf(yes)-p5*Conf(no)-p6*Conf(rej)) ・・・(6)
但し、Scoreは認識履歴中の単語のスコアであり、右辺が更新前、左辺が更新後である。Wdは計算対象となる認識履歴メモリ113中の単語である。
方針1に対応する項としてはp1があり、これは単語のスコアを下げる項である。方針2と方針3に対応する項としては、p2、p3、Conf(Ws)、およびConf(Wt)がある。ここでp2、p3は重み付け変数、Confは最新の認識結果から得られる信頼度、Wsは最新の認識結果に含まれWdと詳細化の関係にある全ての単語、およびWtは最新の認識結果に含まれWdとは訂正の関係にある全ての単語を示している。方針4、方針5に対応する項としては、i、Conf(yes)、Conf(no)、およびConf(rej)がある。ここで、iは前回のシステム応答に単語が含まれている場合はi=1となり、含まれていない場合はi=0となる変数である。またyesは最新の認識結果に含まれる肯定語を示し、noは今回の認識結果に含まれる否定後を示し、rejは今回の認識結果に含まれる文末否定語を示す。また、p1ないしp6は、実際の発話データを用いて実験的に求めることができる。
次に、(2)の単語に対する単語スコア生成処理について説明する。この場合の単語のスコアの生成は、応答内容とユーザ発話タイプ(詳細化、訂正、回答、再入力)、N−Bestの順位、発話長(発話された単語の数)により、音声認識の信頼度を上下させて、単語スコアを生成する。これには以下4種類の方針を使用する。
方針6:認識結果の単語Aと応答とに含まれる単語Bが詳細化の関係にある場合、単語Aのスコアを上げる。
方針7:システム応答が質問(例、何インターチェンジですか)であって、認識結果の内容が回答である場合、認識結果の単語のスコアを上げる。
方針8:認識結果の上位には正解単語が多く含まれているので、上位に含まれる単語のスコアを上げる。
方針9:発話長が長い発話(短い発話)は認識されやすい(認識されにくい)ため、1カテゴリの結果はその単語のスコアを下げ、2カテゴリ以上の単語はそのスコアを上げる。
最新の認識結果のN−Best候補に含まれる全単語に対する単語のスコアの生成は、次式(7)よる。
Score(Wd)=Conf(Wd)+p7*Score(Ws)+p8*Conf(Wa)
+Conf(Wd)*(p9+p10*len2-p11*len1) ・・・(7)
但し、Scoreは認識履歴中の単語のスコアであり、Confは最新の認識結果から得られる信頼度である。Wdは計算対象となる認識履歴中の単語である。
方針6に対応する項としては、p7、およびConf(Ws)がある。p7は重み付け変数であり、Wsは認識履歴に含まれるWdと詳細化の関係を持つ全ての単語である。方針7に対応する項としては、p8およびConf(Wa)がある。p8は重み付け変数であり、Waは認識結果が質問に対する回答である場合の認識結果に含まれる単語である。また、方針8に対応する項としてはp9があり、これはN−Bestの順位の高さに応じた重み付け変数である。方針9に対応する項としては、p10、p11、len2、およびlen1がある。p10、およびp11はいずれも重み付け変数であり、len2は認識のカテゴリが2以上であるときlen2=1になり、len1は認識のカテゴリが1であるときlen1=1になる値である。また、p7ないしp11は、実際の発話データを用いて実験的に求めることができる。
単語スコア生成部107は、(1)で更新された単語のスコアと(2)で追加された単語およびその単語スコアとを統合された認識履歴として認識履歴メモリ113に書き込む。図14に、統合された認識結果を実際の県名、駅名等とした場合に、県名、および駅名に対して生成された単語スコアの具体例を示す。なお図14において同名が複数存在する場合(厚木、田無等)があるが、これは複数路線に含まれる駅の名称を表している。
その後、ステップS310へ進み、理解内容生成部108は、上述した処理によって得られたカテゴリ理解結果、および統合された認識履歴とから、妥当な組み合わせとして複数個の候補を生成する。すなわち、上記により得られた情報を基に本装置が理解した内容として、尤らしい候補を複数個生成する。すなわち、図13からPR、およびLMの2カテゴリが発話されていることが特定できるので、図14からPR、およびLMの2カテゴリが発話されており、かつ実際に存在する組み合わせを抽出し候補とする。
図14の例では、PR=愛知であることから、LMに含まれる駅名の中から実際に愛知県内に存在する駅名を抽出して、PRとLMの組み合わせを抽出する。その結果、ここではPR=愛知、LM=豊橋の組み合わせ、およびPR=愛知、LM=宇頭の組み合わせが抽出される。そして、理解内容生成部108は、抽出した各組み合わせの中から、カテゴリ間での単語スコアの和が最大のものを理解内容として選択する。その結果、図15に示す例では、理解結果として<PRカテゴリ=愛知、単語スコア=1.47>、<LMカテゴリ=豊橋、単語スコア=0.62>が選択される。理解内容生成部108は、選択した理解内容を押等生成部109へ出力する。
その後、ステップS311へ進み、応答生成部109は、言語理解部104(理解内容生成部108)から入力された理解内容に基づいて応答フラグを生成する。応答フラグとは、使用者に応答するための応答文を生成するために使用するフラグであり、応答生成部109は、具体的には図16に示すような種類の応答フラグを生成する。そして、生成したフラグに応じた応答パターンで使用者に対して出力する応答文を生成する。なお、図16における各ビット(a乃至Fの各ビット)が示す内容を図17に示す。
応答生成部109は、入力された理解内容に基づいて、各カテゴリに該当する単語が存在する場合、h〜k、l〜o、およびp〜sの各ビットにそれぞれのカテゴリの単語スコアに応じたフラグを立てる。具体的には、各カテゴリの単語スコアを4段階で評価し、その評価結果を4ビットのフラグで表す。すなわち、スコアが最大から最小までを評価1から評価4とし、例えば単語スコアが0.75以上のときを評価1、0.5以上0.75未満のときを評価2、0.25以上0.5未満のときを評価3、および0.25未満のときを評価4とする。そして、単語スコアの評価が評価1の場合にはフラグを1000として対応するビット位置にセットする。同様に、評価2の場合はフラグを0100とし、評価3の場合はフラグを0010とし、評価4の場合はフラグを0010とする。
また、t〜wにセットする肯定発話のスコアに応じたフラグは、次のようにして決定される。例えば、使用者の発話が「はい」であったり、「はい、豊橋駅です」であったときには、「はい」の部分の単語スコアに基づいてt〜wにセットするフラグを決定する。例えば、「はい」の部分の単語スコアが上述した評価1〜4のいずれに該当するかを判定し、その判定結果に応じて1000、0100、0010、または0010のいずれかのフラグをセットする。
同様に、x〜Aにセットする否定発話のスコアに応じたフラグは、例えば、使用者の発話が「いいえ」であったり「いいえ、宇頭駅です」であったときに、「いいえ」の部分の単語スコアを評価して決定する。また、B〜Eにセットする文末否定のスコアに応じたフラグは、例えば、使用者の発話が「豊橋駅じゃない」であったときに、「じゃない」の部分の単語スコアを評価して決定する。
なお、図16に示したフラグ、およびフラグに対する応答パターンは、以下に説明する応答方針に基づいて設定されている。すなわち、応答生成部109が理解内容に基づいてフラグを生成し、生成したフラグに応じた応答パターンとなるように応答文を生成することによって、以下の応答方針1〜11を満たす応答文が生成されるように、フラグおよび応答パターンが設定されている。以下、(A)〜(K)により各応答方針について説明する。
(A)応答方針1:了承(相槌)
下位カテゴリがなく、上位カテゴリまたは中位カテゴリのスコア評価が評価1の場合、対話をスムーズに進めるための応答を行う。
例 ユーザ発話 …「愛知県」
システム応答…「はい」
(B)応答方針2:復唱
スコア評価が2の場合や、ユーザ発話の文頭に否定後が来た場合は確認の意味も込めて復唱を行う。
例 ユーザ発話 …「愛知県」
システム応答…「愛知県」
(C)応答方針3 最終確認
下位カテゴリが発話され、信頼できる(スコア評価が1か2)場合は、最終確認を行う。
例 ユーザ発話 …「豊橋駅」
システム応答…「豊橋駅を設定してよろしいですか」
(D)応答方針4:目的地設定
前応答に下位カテゴリがあり、肯定発話が信頼できる(スコア評価が1か2)場合は、目的地に設定する。
例 システム応答…「豊橋駅を設定してよろしいですか」
ユーザ発話 …「はい」
システム応答…「目的地に設定しました」
(E)応答方針5:分からない情報のみ尋ねる
ユーザに対して分からない情報のみを尋ねる。
例 ユーザ発話…「愛知県の名古屋鉄道」 (「名古屋」部分のスコア評価が低い時)
システム応答…「愛知県の何鉄道ですか」
(F)応答方針6:自信のない情報は応答しない
上位カテゴリ(PR)と中位カテゴリ(HR)の組み合わせで、どちらか一方だけ信頼できない(スコア評価が4)場合、スコアの高いものだけ応答することで対話を進める。
例 ユーザ発話…「愛知県の名古屋鉄道」(「愛知」部分のスコア評価が低いとき)
システム応答…「名古屋鉄道」
(G)応答方針7 別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを聞くことによって認識率の向上を図る。
例 ユーザ発話…「豊橋駅」(「豊橋」部分のスコア評価が低いとき)
システム応答…「何県の駅ですか」
(H)応答方針8:次の発話を促す
上位カテゴリにつづいて肯定発話がきて、信頼できる場合(スコア評価が1か2の場合)次の発話を促す。
例 システム応答…「名古屋鉄道」
ユーザ発話 …「はい」
システム応答…「名古屋鉄道のどこですか」
(I)応答方針9:別の候補を返す
否定発話が信頼できる場合(スコア評価が1か2の場合)前回の応答に用いていない別候補を返す。
例 システム応答…「倉橋駅を設定しますか」
ユーザ発話 …「いいえ」
システム応答…「倉橋駅を設定しますか」
(J)応答方針10:前応答の繰り返し
肯定発話や否定発話が信頼できない場合(スコア評価が4の場合)
例 システム応答…「豊橋駅を設定してよろしいですか」
ユーザ発話 …「はい」 (発話全体のスコア評価が低いとき)
システム応答…「豊橋駅を設定してよろしいですか」
(K)応答方針11:聞き返し
全ての情報に対して信頼できない場合(スコア評価が4の場合)
例 ユーザ発話 …「愛知県」 (発話全体のスコア評価が低いとき)
システム応答…「もう一度発話してください」
このように生成された応答文は、上述したように音声合成部110やGUI表示部111を介して使用者に対する応答として出力される。使用者はこの応答に対してさらに発話を行うことになるが、このとき、周囲の騒音が大きい場合には、一般的に、語頭または語尾が騒音に紛れて正確に聞き取ることができないことが多く、このため誤認識が発生する可能性がある。例えば、応答方針7では、ユーザ発話「豊橋駅」に対してシステム応答は「何県の駅ですか」になっており、これに対して使用者は「愛知」または「愛知県」と発話することになる。
この例を騒音が原因で誤認識が発生しやすい例に置き換えて説明すると、ユーザ発話「追浜駅」に対してシステムが「何県の駅ですか」と応答した場合には、使用者は「神奈川」と発話することになる。このとき、図18に示すように、周囲に騒音が発生している場合には、図19に示すように「かながわ」のうち語頭に相当する「か」と語尾に相当する「わ」が雑音に紛れて認識結果から欠落してしまうことにより「なが」のみが認識され、結果として「ながの」と誤認識されてしまう可能性がある。
本実施の形態では、このような周囲の騒音に起因した語頭または語尾の欠落による誤認識を防止するために、応答生成部109は、上述した応答方針に従って生成された応答文の内容を、周囲の騒音の程度(大きさ)に応じて変化させる。すなわち、応答生成部109は、応答文生成時に騒音検出部112から入力される騒音の程度に基づいて周囲の騒音レベルを判定し、判定した騒音レベルに応じて生成した応答文の内容を変化させる。騒音レベルとは、騒音の大きさを表す指標であり、ここでは、騒音検出部112から入力される騒音の程度に基づいてレベル0(騒音最小)〜レベル5(騒音最大)の5段階で周囲の騒音レベルを判定するものとする。
以下、(a)〜(e)において、応答生成部109が上述した応答方針7に従って生成した応答文の内容を騒音レベルに応じて変化させる場合にについて説明する。なお、応答方針7以外のその他の応答方針に従って生成した応答文も、以下に説明する(a)〜(e)と同様の方針でその内容を変化させることができる。
(a)騒音レベル0(第1の騒音レベル)の場合
レベル0の場合には、音声認識の障害となる騒音はほとんど発生していないと考えられることから、応答方針7による応答文をそのまま使用する。すなわち、別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを聞くことによって認識率の向上を図る。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答は上述したように「何県の駅ですか」となる。この場合、これを受けたユーザ発話としては「愛知」が予想される。
(b)騒音レベル1(第2の騒音レベル)の場合
レベル1の場合には、音声認識の障害となる騒音が若干発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを語尾に付帯するカテゴリ名称を省略した形で聞くことによって認識率の向上を図るように、応答方針7に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「どちらの駅ですか」に変化させる。この場合、これを受けたユーザ発話としては「愛知県」が予想され、これはレベル0におけるユーザ発話「愛知」と比較して語尾切れに対して頑健な形となっている。
すなわち、このような応答文に変化させることで、応答文内で省略したカテゴリ名称までを含めた発話を使用者に対して促すことができ、認識対象単語(愛知)の語尾が発話の語尾になることを防ぐことができる。このため、騒音によって発話の語尾が欠落した場合でも、認識対象単語としての「愛知」の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。
(c)騒音レベル2(第3の騒音レベル)の場合
レベル2の場合には、騒音レベル1のときと比較すると、音声認識の障害となる騒音が大きくなっている。このため、別情報の付加情報が少なく、スコア評価が悪いときに、質問に含まれる質問項目数を増加させるため、発話されたカテゴリと上のカテゴリの両方を聞くことによって認識率の向上を図るように、応答方針7に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「何県の何駅ですか」に変化させる。この場合、これを受けたユーザ発話としては「愛知の豊橋」が予想され、これはレベル1におけるユーザ発話「愛知」と比較してさらに語尾切れに対して頑健な形となっている。
すなわち、このような応答文に変化させることで、使用者に対して、認識対象単語(愛知)の後にレベル1の場合よりも多くの語を付加して発話するように促すことができる。このため、騒音のレベルが上がって発話の語尾の欠落が複数文字に及んだ場合でも、認識対象単語としての「愛知」の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。
(d)騒音レベル3(第4の騒音レベル)の場合
レベル3の場合には、音声認識の障害となる騒音が大きく発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語尾への付帯語の付加を指示することによって認識率の向上を図るように応答方針7に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「何県の何駅に設定、とおっしゃってください」に変化させる。この場合、これを受けたユーザ発話としては「愛知県の豊橋駅に設定」が予想され、これはレベル2におけるユーザ発話と比較してさらに語尾切れに対して頑健な形となっている。
すなわち、このような応答文に変化させることで、使用者に対して、認識対象単語(愛知)の後にレベル2の場合よりもさらに多くの語を付加して発話するように促すことができる。このため、騒音レベルが上がって発話の語尾の欠落文字数が増加した場合でも、認識対象単語としての「愛知」の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。
(e)騒音レベル4(第5の騒音レベル)の場合
レベル4の場合には、音声認識の障害となる騒音がかなり大きく発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語頭および語尾への付帯語の付加を指示することによって認識率の向上を図るように応答方針7に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「目的地を何県の何駅に設定、とおっしゃってください」に変化させる。この場合、これを受けたユーザ発話としては「目的地を愛知県の豊橋駅に設定」が予想され、これはレベル3におけるユーザ発話と比較してさらに語頭切れに対して頑健な形となっている。
すなわち、このような応答文に変化させることで、レベル3の場合と同様の語尾の欠落防止効果を保持しつつ、さらに、使用者に対して、認識対象単語(愛知)の前にも単語を付加させることができる。このため、認識対象単語の語頭が発話の語頭になることを防ぐことができ、騒音によって発話の語尾だけでなく語頭の欠落が発生した場合でも、認識対象単語としての「愛知」の語頭および語尾がそれぞれ欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。
応答生成部109は、上述した応答方針に基づいた応答文を生成し、さらに騒音レベルに応じて応答文の内容を変化させるために、次のような処理を行う。まず、応答生成部109は、応答方針に基づいた応答文を生成するために、生成したフラグを、図16のフラグテーブルと照らし合わせ、フラグが最初に一致した応答パターンで応答文を生成する。例えば、最初のユーザ発話「豊橋駅」を受けた場合の応答フラグが、"1 001000 0000 0000 0001 0000 0000 0000 0"である場合には、図16においてはフラグ16aに一致することから、これに対応する応答パターン16bに基づいて応答文を生成する。
すなわち、応答パターン16bとして「何 “PRカテゴリクラス”の“LMカテゴリクラス”ですか」が選択され、その結果「何県の駅ですか」が応答文として生成される。なお、このフラグ16aは、上述した応答方針7に従って応答文を生成するためのフラグを表している。
応答生成部109は、次に、現在の周囲の騒音レベルに応じて生成した応答文の内容を変化させる(書き換える)。すなわち、応答パターン16bは、騒音レベルに応じて次のように書き換えられる。
騒音レベルがレベル0の場合には、応答パターン16bは「何 “PRカテゴリクラス”の“LMカテゴリクラス”ですか」に書き換えられ、その結果「何県の駅ですか」が応答文として生成される。騒音レベルがレベル1の場合には、応答パターン16bは「どちらの“LMカテゴリクラス”ですか」に書き換えられ、その結果「どちらの駅ですか」が応答文として生成される。騒音レベルがレベル2の場合には、応答パターン16bは「何 “PRカテゴリクラス”の何“LMカテゴリクラス”ですか」に書き換えられ、その結果「何駅ですか」が応答文として生成される。
また、騒音レベルがレベル3の場合には、応答パターン16bは「何 “PRカテゴリクラス”の何“LMカテゴリクラス”に設定、とおっしゃってください」に書き換えられ、その結果「何県の何駅に設定、とおっしゃってください」が応答文として生成される。騒音レベルがレベル4の場合には、応答パターン16bは「目的地を何 “PRカテゴリクラス”の何“LMカテゴリクラス”に設定、とおっしゃってください」に書き換えられ、その結果「目的地を何県の何駅に設定、とおっしゃってください」が応答文として生成される。
さらに、使用者によって次の発話がなされた場合には、応答生成部109はそのユーザ発話に基づいてフラグを生成し、生成したフラグに応じた応答パターンに基づいて応答文を生成する。そして、騒音レベルに応じて応答文が書き換える。例えば、次のユーザ発話を受けて応答生成部109が"1 101000 1000 0000 1000 0000 0000 0000 0"というフラグ16cを生成した場合には、応答パターン16d、すなわち「“PRカテゴリ単語”、“PRカテゴリクラス”の“LMカテゴリ単語”、“LMカテゴリクラス”を設定してよろしいですか」に基づいて、「愛知県の豊橋駅を設定してよろしいですか」が応答文として生成される。そして、応答生成部109は、上述したように、生成した応答文を騒音レベルに応じて変化させる。
応答生成部109は、以上のようにして生成した応答文の音声データを生成して音声合成部110へ出力し、応答文のモニタ表示用データを生成してGUI表示部111へ出力する。その後、ステップS312へ進む。
ステップS312では、音声合成部110は、応答文の音声データをスピーカを介して出力する。また、GUI表示部111は、応答文のモニタ表示用データをモニタに出力する。その後、ステップS313へ進み、使用者による音声入力が全て完了したか否かを判断する。具体的には、下位カテゴリ(LM)の単語が確定している場合は、音声入力が全て完了したと判断して処理を終了する。これに対して、下位カテゴリ(LM)の単語が確定していない場合には、ステップS302へ戻って処理を継続する。
例えば、システム応答として「愛知県の名古屋鉄道の豊橋駅を設定してよろしいですか」が応答されているときに、使用者によって「はい」が発話された場合には、「目的地に設定しました」の応答を行った後に処理を終了する。
以上説明した本実施の形態によれば、以下のような作用効果を得ることができる。
(1)周囲の騒音の程度に基づいて応答文の内容を変化させるようにした。これによって、使用者は、騒音に応じた応答文に対応して新たな発話を行うため、音声認識時に誤認識が発生する可能性を低下させることができる。
(2)認識対象単語の語頭または語尾が騒音に起因して欠落しないような発話を使用者に促すように、応答文の内容を変化させるようにした。これによって、周囲の騒音が大きい場合には、一般的に、語頭または語尾が騒音に紛れて欠落する可能性が高いことを加味して、語頭または語尾の欠落を防止して、誤認識が発生する可能性を低下させることができる。
(3)周囲の騒音の程度に基づいて騒音レベルを判定し、騒音レベルに応じて応答文の変更方針を変えるようにした。これによって、周囲の状況に応じた最適な応答文を生成することができる。
(4)騒音レベルが0のときには、生成された応答文をそのまま使用するようにした。これによって、音声認識の障害となる騒音がほとんど発生していない状況下では、語頭または語尾の欠落による誤認識が発生する可能性が低いことを加味して、応答文の内容を変化させる処理を省いて処理の負荷を低減することができる。
(5)騒音レベルが1のときには、別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを語尾に付帯するカテゴリ名称を省略した形で聞くことによって認識率の向上を図るように応答文の内容を変化させるようにした。これによって、使用者に対して応答文内で省略したカテゴリ名称までを含めた発話を促すことができ、認識対象単語の語尾が発話の語尾になることを防ぐことができる。このため、騒音によって発話の語尾が欠落した場合でも、認識対象単語の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。
(6)騒音レベルが2のときには、別情報の付加情報が少なく、スコア評価が悪いときに、質問に含まれる質問項目数を増加させるため、発話されたカテゴリと上のカテゴリの両方を聞くことによって認識率の向上を図るように応答文の内容を変化させるようにした。これによって、使用者に対して、認識対象単語の後にレベル1の場合よりも多くの語を付加して発話するように促すことができる。このため、騒音のレベルが上がって発話の語尾の欠落が複数文字に及んだ場合でも、認識対象単語の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。
(7)騒音レベルが3のときには、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語尾への付帯語の付加を指示することによって認識率の向上を図るように応答文の内容を変化させるようにした。これによって、使用者に対して、認識対象単語の後にレベル2の場合よりもさらに多くの語を付加して発話するように促すことができる。このため、騒音レベルが上がって発話の語尾の欠落文字数が増加した場合でも、認識対象単語の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。
(8)騒音レベルが4のときには、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語頭および語尾への付帯語の付加を指示することによって認識率の向上を図るように応答文の内容を変化させるようにした。これによって、レベル3の場合と同様の語尾の欠落防止効果を保持しつつ、さらに、使用者に対して、認識対象単語の前にも単語を付加させることができる。このため、認識対象単語の語頭が発話の語頭になることを防ぐことができ、騒音によって発話の語尾だけでなく語頭の欠落が発生した場合でも、認識対象単語の語頭および語尾のそれぞれが欠落する可能性を低下させることができ、誤認識が発生する可能性を大きく低下させることができる。
―変形例―
なお、上述した実施の形態の音声対話装置は、以下のように変形することもできる。
(1)上述した実施の形態では、音声認識部102は、図3に示したパターンを認識対象としてユーザ発話を待ち受ける例について説明した。しかしながら、音声認識部102は、応答生成部109によって生成された応答文に対応して、その他のパターンも認識対象として設定して次のユーザ発話を待ち受けるようにしてもよい。例えば、次のユーザ発話として「愛知県の豊橋駅に設定」や「目的地を愛知県の豊橋駅に設定」が予想される場合には、これらの発話も待ち受け可能となるように待ち受け文法を変更する。このとき、単語の語頭または語尾が騒音によって欠落することを想定して、あらかじめ単語の語頭または語尾を欠落させた欠落パターン(語彙)も待ち受け単語とすることでさらに騒音に対する頑健性を向上することができる。例えば、図20に示すように、語頭の「もくてきちを」の欠落パターンとして「くてきちを」および「てきちを」を用意し、語尾の「にせってい」の欠落パターンとして「にせって」、「にせ」をパターンとして待ち受けることによって、さらに語頭または語尾の欠落に頑健なシステムとすることができる。
(2)上述した実施の形態では、音声対話装置100は、車両に搭載されたナビゲーション装置に実装され、使用者がナビゲーション装置上で目的地を設定するために、目的地設定用のコマンドを音声で入力する例について説明した。しかしながら、本発明による音声対話装置100は、騒音が発生する場所で使用される音声による操作が可能なその他の機器に対しても適用可能である。
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。音声認識部102は音声認識手段に、言語理解部104は発話内容理解手段に、騒音検出部112は騒音検出手段に相当する。応答生成部109は応答文生成手段および内容変化手段に、音声合成部110およびGUI表示部111は出力手段に相当する。なお、以上の説明はあくまでも一例であり、発明を解釈する際、上記の実施形態の記載事項と特許請求の範囲の記載事項の対応関係に何ら限定も拘束もされない。
音声対話装置の一実施の形態の構成を示すブロック図である。 発話された単語の階層構造的分類法を示す図である。 認識対象語と発話タイプとの関係を示す図である。 システム、使用者間での対話の例を示す図である。 音声対話装置100の処理を示すフローチャート図である。 認識結果候補文と尤度との関係を示す図である。 認識結果候補文と尤度との関係から信頼度を求めた場合の具体例を示す図である。 発話タイプと発話タイプ判定材料の具体例を示す図である。 発話タイプによる処理の使い分けを示すフローチャート図である。 詳細化・回答発話タイプにおけるクラススコア生成例を示す図である。 訂正・再入力発話タイプにおけるクラススコア生成例を示す図である。 クラススコアの演算手順を示す図である。 カテゴリスコアの具体例を示す図である。 単語スコアの具体例を示す図である。 理解結果の具体例を示す図である。 応答フラグと応答パターンの具体例を示す図である。 フラグの各ビットが示す内容を示す図である。 囲に騒音が発生している場合を模式的に表した図である。 語頭および語尾が欠落した場合の具体例を示す図である。 単語の語頭または語尾を欠落させた欠落パターンを待ち受け可能とした場合の具体例を示す図である。
符号の説明
100 音声対話装置
101 音声入力部
102 音声認識部
103 信頼度生成部
104 言語理解部
105 クラススコア生成部
106 カテゴリ理解部
107 単語スコア生成部
108 理解内容生成部
109 応答生成部
110 音声合成部
111 GUI表示部
112 騒音検出部
113 認識履歴メモリ

Claims (9)

  1. 使用者から入力された発話音声を認識する音声認識手段と、
    前記音声認識手段による認識結果に基づいて、前記使用者による発話内容を理解する発話内容理解手段と、
    前記発話内容理解手段で理解した使用者による発話内容に応じて、使用者に対する応答文を生成する応答文生成手段と、
    音声認識に対する騒音の程度を検出する騒音検出手段と、
    前記騒音検出手段で検出した騒音の程度に基づいて、前記応答文生成手段で生成した応答文の内容を変化させる内容変化手段と、
    前記内容変化手段で内容を変化させた後の応答文を出力する出力手段とを備えることを特徴とする音声対話装置。
  2. 請求項1に記載の音声対話装置において、
    前記内容変化手段は、認識対象単語の語頭または語尾が前記騒音に起因して欠落しないような発話を使用者に促すように、前記応答文の内容を変化させることを特徴とする音声対話装置。
  3. 請求項1または2に記載の音声対話装置において、
    前記騒音の程度は、第1〜第5の騒音レベルによって5段階で表され、各騒音レベル間の前記騒音の程度の大小関係は、第1の騒音レベル<第2の騒音レベル<第3の騒音レベル<第4の騒音レベル<第5の騒音レベルであることを特徴とする音声対話装置。
  4. 請求項3に記載の音声対話装置において、
    前記内容変化手段は、前記騒音の程度が前記第1の騒音レベルである場合には、前記応答文生成手段で生成した応答文をそのまま使用することを特徴とする音声対話装置。
  5. 請求項3に記載の音声対話装置において、
    前記認識対象単語はカテゴリ単位に分類され、
    前記内容変化手段は、前記騒音の程度が前記第2の騒音レベルである場合には、前記応答文生成手段で生成した応答文が、前記認識対象単語にカテゴリ名称を付帯したものである場合に、前記カテゴリ名称を省略するように前記応答文の内容を変化させることを特徴とする音声対話装置。
  6. 請求項3に記載の音声対話装置において、
    前記内容変化手段は、前記騒音の程度が前記第3の騒音レベルである場合には、前記応答文生成手段で生成した応答文よりも使用者に対する質問項目数を増加させるように前記応答文の内容を変化させることを特徴とする音声対話装置。
  7. 請求項3に記載の音声対話装置において、
    前記内容変化手段は、前記騒音レベルが第4の騒音レベルである場合には、前記認識対象単語の後に付帯語の付加を指示するように前記応答文の内容を変化させることを特徴とする音声対話装置。
  8. 請求項3に記載の音声対話装置において、
    前記内容変化手段は、前記騒音レベルが第5の騒音レベルである場合には、前記認識対象単語の前および後のそれぞれに付帯語の付加を指示するように前記応答文の内容を変化させることを特徴とする音声対話装置。
  9. 請求項1〜8のいずれか一項に記載の音声対話装置において、
    前記音声認識手段は、単語の語頭または語尾を欠落させた語彙を音声認識時の待ち受け単語とすることを特徴とする音声対話装置。
JP2006153070A 2006-06-01 2006-06-01 音声対話装置 Expired - Fee Related JP5034323B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006153070A JP5034323B2 (ja) 2006-06-01 2006-06-01 音声対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006153070A JP5034323B2 (ja) 2006-06-01 2006-06-01 音声対話装置

Publications (2)

Publication Number Publication Date
JP2007322757A true JP2007322757A (ja) 2007-12-13
JP5034323B2 JP5034323B2 (ja) 2012-09-26

Family

ID=38855621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006153070A Expired - Fee Related JP5034323B2 (ja) 2006-06-01 2006-06-01 音声対話装置

Country Status (1)

Country Link
JP (1) JP5034323B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227237A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd コミュニケーションロボット
JP2014160168A (ja) * 2013-02-20 2014-09-04 Nippon Telegr & Teleph Corp <Ntt> 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム
JP2015148712A (ja) * 2014-02-06 2015-08-20 トヨタ自動車株式会社 音声対話装置、音声対話システム及びプログラム
KR20180107909A (ko) * 2017-03-23 2018-10-04 네이버랩스 주식회사 알림에 대한 음성 조작 방법 및 시스템
WO2019163242A1 (ja) * 2018-02-20 2019-08-29 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069291A (ja) * 1996-08-27 1998-03-10 Nissan Motor Co Ltd 音声認識装置
JPH10105192A (ja) * 1996-10-03 1998-04-24 Toyota Motor Corp 車両用音声案内装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069291A (ja) * 1996-08-27 1998-03-10 Nissan Motor Co Ltd 音声認識装置
JPH10105192A (ja) * 1996-10-03 1998-04-24 Toyota Motor Corp 車両用音声案内装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227237A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd コミュニケーションロボット
JP2014160168A (ja) * 2013-02-20 2014-09-04 Nippon Telegr & Teleph Corp <Ntt> 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム
JP2015148712A (ja) * 2014-02-06 2015-08-20 トヨタ自動車株式会社 音声対話装置、音声対話システム及びプログラム
KR20180107909A (ko) * 2017-03-23 2018-10-04 네이버랩스 주식회사 알림에 대한 음성 조작 방법 및 시스템
KR102011036B1 (ko) * 2017-03-23 2019-08-14 네이버랩스 주식회사 알림에 대한 음성 조작 방법 및 시스템
WO2019163242A1 (ja) * 2018-02-20 2019-08-29 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11694675B2 (en) 2018-02-20 2023-07-04 Sony Corporation Information processing apparatus, information processing system, and information processing method

Also Published As

Publication number Publication date
JP5034323B2 (ja) 2012-09-26

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2005208643A (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP2007114475A (ja) 音声認識機器制御装置
JP3702867B2 (ja) 音声制御装置
JP5034323B2 (ja) 音声対話装置
JP4104313B2 (ja) 音声認識装置、プログラム及びナビゲーションシステム
JPWO2020036195A1 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP4293340B2 (ja) 対話理解装置
JP4661239B2 (ja) 音声対話装置及び音声対話方法
JP2004226881A (ja) 会話システム及び会話処理プログラム
JP2018031985A (ja) 音声認識補完システム
JP2003177779A (ja) 音声認識のための話者学習法
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP4610249B2 (ja) 対話理解装置
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP3720595B2 (ja) 音声認識装置及びその方法、コンピュータ可読メモリ
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP4736423B2 (ja) 音声認識装置および音声認識方法
JP2005283646A (ja) 音声認識率推定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120618

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees