JP2007322757A

JP2007322757A - 音声対話装置

Info

Publication number: JP2007322757A
Application number: JP2006153070A
Authority: JP
Inventors: Takeshi Ono; 健大野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-06-01
Filing date: 2006-06-01
Publication date: 2007-12-13
Anticipated expiration: 2026-06-01
Also published as: JP5034323B2

Abstract

【課題】騒音による音声認識時の誤認識を減らすこと。
【解決手段】音声認識部１０２は、使用者から入力された発話音声を認識し、言語理解部１０４は、音声認識手段による認識結果に基づいて使用者による発話内容を理解する。応答生成部１０９は、発話内容理解手段で理解した使用者による発話内容に応じて使用者に対する応答文を生成し、さらに騒音検出手段１１２で検出された音声認識に対する騒音の程度に基づいて、生成した応答文の内容を変化させる。そして、音声合成部１１０およびＧＵＩ表示部１１１は、内容が変化された後の応答文を出力する。
【選択図】図１

Description

本発明は、使用者の発話内容に応じて応答を出力する音声対話装置に関する。

次のような対話理解装置が例えば特許文献１によって知られている。この対話理解装置は、周囲の雑音等の影響によって音声認識結果に誤認識が発生することを防ぐために、音声認識結果の信頼度を加味して使用者の発話内容を認識する。

特開２００４−２５１９９８号公報

しかしながら、従来の装置のように、音声認識結果の信頼度のみを加味して使用者の発話内容を認識した場合には、未だに周囲の騒音等による影響を完全には排除できず、誤認識が発生する可能性があった。

本発明による音声対話装置は、使用者から入力された発話音声を認識する音声認識手段と、音声認識手段による認識結果に基づいて、使用者による発話内容を理解する発話内容理解手段と、発話内容理解手段で理解した使用者による発話内容に応じて、使用者に対する応答文を生成する応答文生成手段と、音声認識に対する騒音の程度を検出する騒音検出手段と、騒音検出手段で検出した騒音の程度に基づいて、応答文生成手段で生成した応答文の内容を変化させる内容変化手段と、内容変化手段で内容を変化させた後の応答文を出力する出力手段とを備えることを特徴とする。

本発明によれば、騒音の程度に基づいて応答文の内容を変化させて出力するようにした。これによって、使用者は、騒音に応じた応答文に対応して新たな発話を行うため、音声認識時に誤認識が発生する可能性を低下させることができる。

図１は、本実施の形態における音声対話装置の一実施の形態の構成を示すブロック図である。音声対話装置１００は、音声入力部１０１と、音声認識部１０２と、信頼度生成部１０３と、言語理解部１０４と、応答生成部１０９と、音声合成部１１０と、ＧＵＩ表示部１１１と、騒音検出部１１２と、認識履歴メモリ１１３とを備えている。

この音声対話装置１００は、例えば車両に搭載されたナビゲーション装置に実装され、使用者は、当該音声対話装置１００から出力される応答メッセージに従って音声入力を行うことにより、ナビゲーション装置を操作することができる。以下の説明では、使用者がナビゲーション装置上で目的地を設定するために、目的地設定用のコマンドを音声で入力する場合の処理について説明する。

音声入力部１０１は、マイクロホン、入力増幅器、Ａ／Ｄコンバータから構成される。マイクロホンを介して入力され、入力増幅器で増幅されたアナログ音声入力信号は、Ａ／Ｄコンバータでデジタル信号に変換された後、音声認識部１０２に出力される。

音声認識部１０２は、音声入力部１０１から入力された使用者の発話音声信号と、音声信号認識部１０２内に記憶してある認識対象文とのマッチング処理を行い、複数の認識結果候補文のそれぞれについて尤度を算出する。そして、複数の認識結果候補文を第１位から第Ｎ位までの尤度の高い順に配列して単語列（Ｎ−ｂｅｓｔ候補）を生成し、このＮ−ｂｅｓｔ候補に含まれる上位Ｎ候補の単語を尤度データとともに信頼度生成部１０３へ出力する。

なお、尤度とは認識結果から得られる音声信号列がＹである時、使用者が発話した音声信号列がＷである事後確率で定義される値で、「音声信号列に関する仮説Ｗに対し、音声信号列Ｙが観測される事前確率」と「音声信号列Ｗが発話される確率」との積と、音声信号列Ｙが観測される確率との比のうち最大確率である。

信頼度生成部１０３は、音声認識部１０２から入力された上位Ｎ候補の各単語の尤もらしさを示す信頼度（単語信頼度）と、それぞれの単語の分類を示すクラスの尤もらしさを示す信頼度（クラス信頼度）を出力する。クラスとは、使用者による発話内容の表現形式をカテゴリ単位に階層構造的に分類した概念である。図２は、ナビゲーション装置上で設定される目的地を示す表現形式を階層構造的に分類した例を示している。ここでカテゴリは包括する範囲が広いほうから狭いほうに順次配列され、クラスは各カテゴリに含まれる単語を内容別に分類したものである。

また、単語信頼度とは、ある単語が発話された可能性を示す指標であり、クラス信頼度とは、あるクラスの単語が発話された可能性を示す指標である。なお、単語信頼度およびクラス信頼度の詳細については公知であるため詳細な説明は省略する。

図２の例では、各単語は上位（ＰＲ）、中位（ＨＲ）、下位（ＬＭ）の３カテゴリに分類され、さらに各カテゴリ単位にそれぞれ複数のクラスに分類される。例えば、上位カテゴリには「県」の１クラスのみが含まれるが、下位カテゴリには「インターチェンジ」、「市区町村」、「駅」の３クラスが含まれる。

信頼度生成部１０３は、Ｎ−ｂｅｓｔ候補に含まれる上位Ｎ候補の各単語の対数尤度Ｌｉを算出する。そして、Ｎ−ｂｅｓｔ候補の第１位に配列された認識結果候補文（第１位候補）に含まれる単語ｗの信頼度Ｃｏｎｆ(ｗ)を、単語信頼度として次式（１）によって算出する。

なお、式（１）において、δｗ，ｉは、単語ｗがＮ−ｂｅｓｔ候補中のｉ番目の候補に含まれる場合には１となり、単語ｗがＮ−ｂｅｓｔ候補中のｉ番目の候補に含まれない場合には０となる変数である。

式（１）において、単語ｗがＮ−ｂｅｓｔ候補の中でｉ番目の候補に含まれている確からしさｐｉは下記の次式（２）によって算出することができる。ここで、ＬｉはＮ−ｂｅｓｔ候補それぞれに対する対数尤度であり、αは重み計数である。

また、上述した単語信頼度と同様に、第１位候補に含まれる各単語ｗのクラスＣｗの信頼度Ｃｏｎｆ(Ｃｗ)を、クラス信頼度として次式（３）により算出する。

なお、式（３）において、δＣｗは、クラスＣｗがＮ−ｂｅｓｔ候補中のｉ番目の候補に含まれる場合には１となり、クラスＣｗがＮ−ｂｅｓｔ候補中のｉ番目の候補に含まれない場合には０となる変数である。

なお、式（３）においても、単語信頼度の場合と同様に、クラスＣｗがＮ−ｂｅｓｔ候補の中でｉ番目の候補に含まれている確からしさｐｉは、式（２）によって算出することができる。

信頼度生成部１０３は、音声認識部１０２から入力された複数の認識結果候補文および尤度と、以上のようにして算出した単語信頼度およびクラス信頼度を言語理解部１０４へ出力する。また、このとき、騒音検出部１１２は、周囲の騒音を検出して検出結果を応答生成部１０９へ出力する。

言語理解部１０４は、クラススコア生成部１０５、カテゴリ理解部１０６、単語スコア生成部１０７、および理解内容生成部１０８の各部で構成されており、使用者からの複数回にわたる発話に伴って入力される単語と、その属するクラスの信頼度とから理解結果を生成する機能を有する。

クラススコア生成部１０５は、信頼度生成部１０３から入力されるクラス信頼度に基づいて、使用者によってどのクラスに含まれる単語が発話されたかを判定するためのスコア（クラススコア）を計算して生成する。なお、クラススコアとは、使用者の複数回の発話中におけるクラスの尤もらしさを示す値である。カテゴリ理解部１０６は、クラススコア生成部１０５で生成されたクラススコアに基づいて、クラスの分類を示すカテゴリの理解結果を判定する。すなわち、使用者によってどのカテゴリに属する単語が発話されたかを判定する。

単語スコア生成部１０７は、信頼度生成部１０３から入力される単語信頼度から、使用者によってどの単語が発話されたかを判定するためのスコア（単語スコア）を生成する。理解内容生成部１０８は、カテゴリ理解部１０６で判定されたカテゴリの理解結果、および単語スコア生成部１０７で生成された単語スコアに基づいて、使用者による発話内容に対する理解内容を生成する。そして、言語理解部１０４は、理解内容生成部１０８で生成された理解内容を応答生成部１０９に出力する。

応答生成部１０９は、言語理解部１０４から入力された理解内容に基づいて、使用者の発話に対して応答するための応答文の音声データおよびモニタ表示用データを生成する。なお、応答文を生成する過程で用いられる各種のルールは、後述するように騒音レベルに応じて変更される。応答生成部１０９で生成された応答文の音声データは、音声合成部１１０へ出力される。音声合成部１１０は、Ｄ／Ａコンバータ、出力増幅器、およびスピーカを有しており、入力された応答文の音声データは、Ｄ／Ａコンバータでデジタル信号に変換され、出力増幅器で増幅された後、スピーカを介して出力される。

また、応答文のモニタ表示用データはＧＵＩ表示部１１１へ出力される。ＧＵＩ表示部１１１は、入力された応答分のモニタ表示用データを不図示の表示装置、例えば液晶モニタに表示する。これによって、音声対話装置１００から出力される応答文を聴覚および視覚で認識することができる。

認識履歴メモリ１１３は、例えばハードディスクドライブ（ＨＤＤ）などの記録装置であり、言語理解部１０４から出力される過去の認識状況の履歴データを記憶する。なお、履歴データとして記憶される認識状況としては、少なくとも過去に認識を行った単語と後述する単語スコア、および後述するクラススコアが含まれる。

本実施の形態では、上述したようにナビゲーション装置上で目的地を設定するために、目的地設定用のコマンドを音声で入力することができ、図２に示した各カテゴリに含まれる単語を組み合わせて発話することができる。そして、最も下位のカテゴリに含まれているインターチェンジ、駅、市区町村のいずれかを目的地として設定することができるものとする。なお、図２に示す上位、中位、下位３段階のカテゴリを、それぞれ上位カテゴリＰＲ、中位カテゴリＨＲ、下位カテゴリＬＭと呼ぶこととする。すなわち、図２に示す例では、使用者は、上位カテゴリＰＲでは、県（都道府県）を発話することができ、中位カテゴリＨＲでは自動車道、または鉄道路線を発話することができ、下位カテゴリＬＭではインターチェンジ、市区町村、駅を発話することができる。

本実施の形態においては、使用者が音声対話装置１００と対話形式で目的地設定を行うに当たって、より柔軟な発話を行えるような応答文を使用者に提示することを目的とする。例えば使用者は、「静岡県の東名自動車道の浜松西インターチェンジ」と言うように、一度ですべてのカテゴリを発話することもできる。また第一の発話で「静岡県」と発話し、第二の発話で「東名高速の浜松西インターチェンジ」と発話するように複数回に分けて発話することも可能である。

また、使用者が複数回の発話を行う場合に、過去の発話に対してより詳細な情報を追加していく詳細化発話を可能とする。例えば、使用者は、第一の発話で「静岡県の」と発話し、第二の発話で「浜松市」と発話することによって、詳細な情報を追加して目的地を絞り込んでいくことも可能である。あるいは、使用者は、第一の発話で、「浜松市」と発話し、第二の発話で「静岡県」と発話することによって、目的地を絞り込んでいくことも可能である。

また、使用者が複数回の発話を行う場合に、音声対話装置１００からの応答結果が誤っていた場合には、それを訂正する発話を行うこともできる。例えば、第一の発話「静岡県の浜松市」に対して、音声対話装置１００から「静岡県の浜松西インターチェンジですか」と誤った応答がなされたとき、第二の発話で「いいえ浜松市です。」と発話して誤りを訂正することができる。また、使用者が複数回の発話を行う場合に、音声対話装置１００からの応答（システム応答）が質問であったときには、それに回答する発話も可能である。例えば、第一の発話に対するシステム応答が「静岡県の何インターチェンジですか」であったとき、第二の発話で「浜松西インターチェンジです」と発話して質問に回答することも可能である。

さらに、使用者が複数回の発話を行う場合、システム応答が再入力を促す発話であったとき、それに応じて再入力を行う発話をすることもできる。例えば、第一の発話に対するシステム応答が「もう一度発話してください」であったとき、使用者は第二の発話で第一の発話と同様の発話を行うことが可能である。

図３は、本実施の形態における音声対話装置１００が待ち受けることができる発話例（認識対象語）の具体例を示した図である。また、図４に音声対話装置１００と使用者との間で行われる対話の具体例を示す。この図４においては、Ｕは使用者の発話例であり、Ｓはシステム応答例を示している。また、ＵおよびＳの後に付加されている数字は発話順を示している。

次に、本実施の形態における音声対話装置１００の処理を図５のフローチャートを用いて説明する。図５に示す処理は、音声対話装置１００の電源がオンされることによって起動するプログラムとして、１０１〜１１２の各部によって実行される。

ステップＳ３０２において、使用者が発話開始を指示するために、不図示の音声入力スイッチ（発話スイッチ）がオン状態に操作されたことを検出した場合に、ステップＳ３０３へ進む。ここで、音声入力スイッチのオン状態への操作が検出されない場合は、この操作が検出されるまでステップ３０２で待ち状態となる。このとき、音声認識部１０２は、音声入力部１０１から入力されるデジタル信号の平均パワーの演算を継続して行う。

ステップＳ３０３では、音声認識部１０２は、音声入力部１０１から入力されるデジタル信号の平均パワーの演算を継続し、演算した平均パワーをメモリに記憶しておく。そして、音声入力スイッチがオンされる前から継続して演算していた平均パワーにくらべて、デジタル信号の瞬時パワーが所定値以上に大きくなった時、音声認識部１０２は、使用者が発話したと判断し、音声信号の取り込みを開始する。その後、ステップＳ３０４へ進む。

ステップＳ３０４では、音声認識部１０２は、記憶してある認識対象文と入力された音声信号とを比較して上述した尤度を演算し、複数の認識結果候補文を設定する。なおこの間も並列処理により音声信号の取り込みは継続されている。その後、デジタル化された音声信号の瞬時パワーが所定時間以上所定値以下の状態が継続した時にはステップＳ３０５へ進み、音声認識部１０２は、使用者の発話が終了したと判断し、音声信号の入力処理を終了する。そして、音声認識部１０２は複数の認識結果候補文を尤度順にならべた上位Ｎ候補（Ｎ−Ｂｅｓｔ候補）を、尤度データとともに信頼度生成部１０３へ出力して、ステップＳ３０６へ進む。図６にこの出力結果の例を示す。図６において、ＸＸＸと記されている部分は、各単語に対する算出された尤度を示している。

ステップＳ３０６では、信頼度生成部１０３は、Ｎ−Ｂｅｓｔ候補に含まれる各単語について、上述した単語信頼度とクラス信頼度の２種類の信頼度を算出して、ステップＳ３０７へ進む。例えば、図７に示すように単語信頼度とクラス信頼度を算出する。この図７においては、図７（ａ）は図６で示した音声認識部１０２からのＮ−Ｂｅｓｔ候補とそれぞれの尤度の出力例であり、図７（ｂ）が図７（ａ）に基づいて算出した単語信頼度とクラス信頼度の具体例を示している。

ステップＳ３０７では、クラススコア生成部１０５は、以上のようにして発話された単語の信頼度を求めて尤らしい単語の推定を行った後に、さらに使用者からの発話に対する単語推定の精度を向上させるために、クラス単位にクラススコアを生成する。このとき、クラススコア生成部１０５は、このクラススコア生成に先立ち、使用者の発話タイプの判定を行う。発話タイプとは、使用者による発話がどのような目的で行われたものかを表すものである。本実施の形態では、詳細化を行うための発話や、音声対話装置１００からの質問に回答するための発話など、以前の情報に新しい情報を追加する働きがある発話タイプ（詳細化・回答の発話タイプ）と、過去に発話した内容の誤りを訂正するための発話や、同じ発話内容を再入力するための発話など、以前の情報を訂正する働きがある発話タイプ（訂正・再入力の発話タイプ）とがあるものとする。

クラススコア生成部１０５は、使用者からの発話内容に基づいて、使用者の発話が詳細化・回答の発話タイプおよび訂正・再入力の発話タイプのいずいれに該当するかを判定する。例えば、図８に示すような判定用のルールをあらかじめ作成しておき、クラススコア生成部１０５は、使用者からの発話内容が図８に示す判定材料のいずれであるかを判定して、その発話タイプが詳細化・回答の発話タイプであるか、あるいは訂正・再入力の発話タイプかを判定する。また、図８に示すルールを用いる判定方法以外に、例えば地名入力でよく用いられる部分的な言い直し発生を公知のＤＰマッチングによるワードスポッティング法を用いて判定するようにしてもよい。

クラススコア生成部１０５は、このようにして判定した発話タイプ別に異なる生成式を用いてクラススコアを生成する。したがって、図５におけるステップＳ３０７では、図９に示すように２分割された処理が行われることになる。すなわち、ステップＳ３１５において使用者の発話の発話タイプが詳細化・回答の発話タイプに該当するか否かを判定し、該当する場合はステップＳ３１６へ進み、該当しない場合、すなわち発話タイプが訂正・再入力の発話タイプである場合にはステップＳ３１７へ進む。以下、ステップＳ３１６およびステップＳ３１７における処理についてそれぞれ説明する。

まず、ステップＳ３１６における発話タイプが詳細化・回答の発話タイプの場合のクラススコア生成処理について説明する。クラススコアは、上述したように使用者の複数回の発話中におけるクラスの尤もらしさを示す値であることから、以前に理解した情報を残しつつ、新しい情報を付加することで、より適切にクラススコアを生成することができる。よって、クラススコア生成部１０５は、認識履歴メモリ１１３から同じクラスについて過去に生成されたクラススコア（旧クラススコア）を読み込んで、次式（４）によりクラススコアを生成する。
Score(c) = Score(c) * weight_s + Conf(c) ・・・（４）

但し、Scoreはクラススコアであり、式（４）の左辺が新たに求められたクラススコアであり、右辺が旧クラススコアに対する処理である。Confは最新の認識結果から得られたクラス信頼度である。weight_sは0.0〜1.0の値をとる重みであり、実際の発話データを用いて実験的に求められている。cはスコアを生成するクラスである。重みweight_sにより一定の割合で更新前のクラススコアを下げているのは、本実施の形態では「情報が古くなるごとに信頼性が低下する」という方針を適用しているからである。クラススコア生成部１０５は、このようにして生成したクラススコアを認識履歴メモリ１１３に記録する。この記録されたクラススコアは、後に同じクラスについてのクラススコアが生成される際に、旧クラススコアとして使用される。

詳細化・回答の発話タイプのクラススコア生成結果の具体例を図１０に示す。使用者は、図１０（ａ）から過去の発話で「県」（旧クラススコア＝１．００）の発話を行っており、最新の発話で「駅」（新クラス信頼度＝０．８１）を発話していることがわかる。この場合、式（５）により、各クラスのクラススコア（更新後のクラススコア）は、図１０（ｂ）に示すように生成される。

次に、ステップＳ３１７における発話タイプが訂正・再入力の発話タイプの場合のクラススコア生成処理について説明する。この場合も、クラススコア生成部１０５は、認識履歴メモリ１１３から同じクラスについて旧クラススコアを読み込む。そして、次式（５）によりクラススコアを生成する。
Score(ca) = Score(ca) * weight_t- Conf(cb) + Conf(ca) ・・・（５）

但し、Scoreはクラススコアであり、式（５）の左辺が新たに得られたクラススコアであり、右辺が旧クラススコアに対する処理である。Confは最新の認識結果から得られたクラス信頼度である。weight_tは0.0〜1.0の値をとる重みであり、実際の発話データを用いて実験的に求められている。caはスコアを生成するクラスであり、cbはcaと同じカテゴリで異なる全てのクラスである。この式（５）は、上述した式（４）と比較して、同カテゴリ、異クラスの信頼度を減算している点が異なる。これによりクラスを間違えた場合にスコアが修正され易くなる。クラススコア生成部１０５は、このようにして生成したクラススコアを認識履歴メモリ１１３に記録する。この記録されたクラススコアは、後に同じクラスについてのクラススコアが生成される際に、旧クラススコアとして使用される。

訂正・再入力の発話タイプのクラス生成結果の具体例を図１１に示す。図１１（ａ）においては、クラス（ｃ）＝「県」の場合に、旧クラススコアと新クラス信頼度の両方でスコアが生成されている。このことから、使用者は、過去の発話で「県」クラスの発話を行ったが、クラススコアの値が不十分でカテゴリを特定できなかったため、音声対話装置１００は「もう一度発話して下さい」というような再入力を促す応答を出力し、使用者はそれに応答して再度同じ「県」クラスの発話を行っているものと考えられる。この場合、式（６）により、各クラスのクラススコア（更新後のクラススコア）は、図１１（ｂ）に示すように生成される。

その後、ステップＳ３０８へ進み、カテゴリ理解部１０６は、旧クラススコアと最新の認識結果におけるクラス信頼度（新クラス信頼度）とのそれぞれについてのカテゴリスコアを算出する。カテゴリ理解部１０６によるカテゴリスコアの算出方法を図１２を用いて説明する。カテゴリ理解部１０６は、図１２（ａ）において、範囲２ａ内に含まれる情報に基づいて、図１２（ｂ）に示すようなカテゴリスコアを算出する。

すなわち、カテゴリ理解部１０６は、各クラスごとに旧クラススコア（Score(ca)）×重み（weight_s)を算出し、その算出結果をカテゴリ内で合計したものを各カテゴリの旧カテゴリスコアとして算出する。例えば、図１２（ｂ）に示すように、Score(ca)×（weight_s)の算出結果をＰＲ（上位）、ＨＲ（中位）、ＬＭ（下位）のそれぞれのカテゴリごとに合計して、旧カテゴリスコアを算出する。また、カテゴリ理解部１０６は、クラス信頼度(Conf(c))をＰＲ、ＨＲ、ＬＭのそれぞれのカテゴリごとに合計して、新カテゴリスコアを算出する。

そして、カテゴリ理解部１０６は、算出した旧カテゴリスコアおよび新カテゴリスコアを所定の閾値を用いて１または０に判定する。例えば、旧カテゴリスコアおよび新カテゴリスコアが０．５以上であれば１と判定し、０．５未満であれば０と判定する。これによって、図１２に示したカテゴリスコアは、図１３に示すように判定される。すなわち、旧カテゴリスコアに対する旧判定と、新カテゴリスコアに対する新判定が判定結果として得られる。

カテゴリ理解部１０６は、各カテゴリごとに旧判定と新判定との論理和をとることによって、カテゴリ理解の理解結果を得る。図１３に示す例では、ＰＲの理解結果は１、ＨＲの理解結果は０、ＬＭの理解結果は１となっている。ここで得られた理解結果は、現在までに発話されたカテゴリの組み合わせを示している。

その後、ステップＳ３０９へ進み、単語スコア生成部１０７は、（１）過去に認識した単語（認識履歴メモリ１１３中に既に存在する単語）、および（２）新たに出現した単語（最新の認識結果中の単語）の２つに対して、各々別々の方針を用いて単語スコアを生成する。（２）の単語は、最新の認識結果のＮ−Ｂｅｓｔ候補に含まれる全単語が対象となる。単語スコア生成部１０７は、言語理解部１０４が信頼度生成部１０３から最新の単語信頼度およびクラス信頼度を獲得するたびに（１）→（２）の順番で単語スコアの生成を行う。

まず、（１）の単語に対する単語スコア生成処理について説明する。この場合、認識履歴メモリ１１３中に存在する単語に対しては、単語の新しさ、システムの応答内容とユーザ発話タイプ（詳細化、訂正、回答、再入力）から、既存の単語スコアを上下させて、新しい単語スコアを生成する。これには以下５種類の方針を使用する。

方針１：古い情報は、信頼性が低くなるという仮定のもとに、新しい認識結果が入力されるたびに、認識履歴中に存在する全ての単語のスコアを下げる。
方針２：認識履歴中の単語Ａと認識結果単語Ｂが詳細化の関係にあった場合、単語Ａのスコアを上げる。
方針３：認識履歴中の単語Ａと認識履歴中の単語Ｂが訂正の関係にあった場合、単語Ａのスコアを下げる。
方針４：認識結果に肯定（はい、うん等）が含まれていた場合、応答に含まれていた単語のスコアを上げる。
方針５：認識結果に否定後（いいえ、ちがう等）が含まれていた場合、応答に含まれていた単語のスコアを下げる。

認識履歴メモリ１１３中の単語に対する単語スコアの生成は、次式（６）による。
Score(Wd)=Score(Wd)-p1+p2*Conf(Ws)-p3*Conf(Wt)
+i*(p4*Conf(yes)-p5*Conf(no)-p6*Conf(rej)) ・・・（６）
但し、Scoreは認識履歴中の単語のスコアであり、右辺が更新前、左辺が更新後である。Ｗｄは計算対象となる認識履歴メモリ１１３中の単語である。

方針１に対応する項としてはｐ１があり、これは単語のスコアを下げる項である。方針２と方針３に対応する項としては、ｐ２、ｐ３、Conf(Ws)、およびConf(Wt)がある。ここでｐ２、ｐ３は重み付け変数、Confは最新の認識結果から得られる信頼度、Ｗｓは最新の認識結果に含まれＷｄと詳細化の関係にある全ての単語、およびＷｔは最新の認識結果に含まれＷｄとは訂正の関係にある全ての単語を示している。方針４、方針５に対応する項としては、ｉ、Conf(yes)、Conf(no)、およびConf(rej)がある。ここで、ｉは前回のシステム応答に単語が含まれている場合はｉ＝１となり、含まれていない場合はｉ＝０となる変数である。またyesは最新の認識結果に含まれる肯定語を示し、noは今回の認識結果に含まれる否定後を示し、rejは今回の認識結果に含まれる文末否定語を示す。また、p1ないしp6は、実際の発話データを用いて実験的に求めることができる。

次に、（２）の単語に対する単語スコア生成処理について説明する。この場合の単語のスコアの生成は、応答内容とユーザ発話タイプ（詳細化、訂正、回答、再入力）、Ｎ−Ｂｅｓｔの順位、発話長（発話された単語の数）により、音声認識の信頼度を上下させて、単語スコアを生成する。これには以下４種類の方針を使用する。

方針６：認識結果の単語Ａと応答とに含まれる単語Ｂが詳細化の関係にある場合、単語Ａのスコアを上げる。
方針７：システム応答が質問（例、何インターチェンジですか）であって、認識結果の内容が回答である場合、認識結果の単語のスコアを上げる。
方針８：認識結果の上位には正解単語が多く含まれているので、上位に含まれる単語のスコアを上げる。
方針９：発話長が長い発話（短い発話）は認識されやすい（認識されにくい）ため、１カテゴリの結果はその単語のスコアを下げ、２カテゴリ以上の単語はそのスコアを上げる。

最新の認識結果のＮ−Ｂｅｓｔ候補に含まれる全単語に対する単語のスコアの生成は、次式（７）よる。
Score(Wd)=Conf(Wd)+p7*Score(Ws)+p8*Conf(Wa)
+Conf(Wd)*(p9+p10*len2-p11*len1) ・・・（７）
但し、Scoreは認識履歴中の単語のスコアであり、Confは最新の認識結果から得られる信頼度である。Ｗｄは計算対象となる認識履歴中の単語である。

方針６に対応する項としては、ｐ７、およびConf(Ws)がある。ｐ７は重み付け変数であり、Wsは認識履歴に含まれるWdと詳細化の関係を持つ全ての単語である。方針７に対応する項としては、ｐ８およびConf(Wa)がある。ｐ８は重み付け変数であり、Waは認識結果が質問に対する回答である場合の認識結果に含まれる単語である。また、方針８に対応する項としてはｐ９があり、これはＮ−Ｂｅｓｔの順位の高さに応じた重み付け変数である。方針９に対応する項としては、ｐ１０、ｐ１１、ｌｅｎ２、およびｌｅｎ１がある。ｐ１０、およびｐ１１はいずれも重み付け変数であり、ｌｅｎ２は認識のカテゴリが２以上であるときｌｅｎ２＝１になり、ｌｅｎ１は認識のカテゴリが１であるときｌｅｎ１＝１になる値である。また、p7ないしp11は、実際の発話データを用いて実験的に求めることができる。

単語スコア生成部１０７は、（１）で更新された単語のスコアと（２）で追加された単語およびその単語スコアとを統合された認識履歴として認識履歴メモリ１１３に書き込む。図１４に、統合された認識結果を実際の県名、駅名等とした場合に、県名、および駅名に対して生成された単語スコアの具体例を示す。なお図１４において同名が複数存在する場合（厚木、田無等）があるが、これは複数路線に含まれる駅の名称を表している。

その後、ステップＳ３１０へ進み、理解内容生成部１０８は、上述した処理によって得られたカテゴリ理解結果、および統合された認識履歴とから、妥当な組み合わせとして複数個の候補を生成する。すなわち、上記により得られた情報を基に本装置が理解した内容として、尤らしい候補を複数個生成する。すなわち、図１３からＰＲ、およびＬＭの２カテゴリが発話されていることが特定できるので、図１４からＰＲ、およびＬＭの２カテゴリが発話されており、かつ実際に存在する組み合わせを抽出し候補とする。

図１４の例では、ＰＲ＝愛知であることから、ＬＭに含まれる駅名の中から実際に愛知県内に存在する駅名を抽出して、ＰＲとＬＭの組み合わせを抽出する。その結果、ここではＰＲ＝愛知、ＬＭ＝豊橋の組み合わせ、およびＰＲ＝愛知、ＬＭ＝宇頭の組み合わせが抽出される。そして、理解内容生成部１０８は、抽出した各組み合わせの中から、カテゴリ間での単語スコアの和が最大のものを理解内容として選択する。その結果、図１５に示す例では、理解結果として＜ＰＲカテゴリ＝愛知、単語スコア＝１．４７＞、＜ＬＭカテゴリ＝豊橋、単語スコア＝０．６２＞が選択される。理解内容生成部１０８は、選択した理解内容を押等生成部１０９へ出力する。

その後、ステップＳ３１１へ進み、応答生成部１０９は、言語理解部１０４（理解内容生成部１０８）から入力された理解内容に基づいて応答フラグを生成する。応答フラグとは、使用者に応答するための応答文を生成するために使用するフラグであり、応答生成部１０９は、具体的には図１６に示すような種類の応答フラグを生成する。そして、生成したフラグに応じた応答パターンで使用者に対して出力する応答文を生成する。なお、図１６における各ビット（ａ乃至Ｆの各ビット）が示す内容を図１７に示す。

応答生成部１０９は、入力された理解内容に基づいて、各カテゴリに該当する単語が存在する場合、ｈ〜ｋ、ｌ〜ｏ、およびｐ〜ｓの各ビットにそれぞれのカテゴリの単語スコアに応じたフラグを立てる。具体的には、各カテゴリの単語スコアを４段階で評価し、その評価結果を４ビットのフラグで表す。すなわち、スコアが最大から最小までを評価１から評価４とし、例えば単語スコアが０．７５以上のときを評価１、０．５以上０．７５未満のときを評価２、０．２５以上０．５未満のときを評価３、および０．２５未満のときを評価４とする。そして、単語スコアの評価が評価１の場合にはフラグを１０００として対応するビット位置にセットする。同様に、評価２の場合はフラグを０１００とし、評価３の場合はフラグを００１０とし、評価４の場合はフラグを００１０とする。

また、ｔ〜ｗにセットする肯定発話のスコアに応じたフラグは、次のようにして決定される。例えば、使用者の発話が「はい」であったり、「はい、豊橋駅です」であったときには、「はい」の部分の単語スコアに基づいてｔ〜ｗにセットするフラグを決定する。例えば、「はい」の部分の単語スコアが上述した評価１〜４のいずれに該当するかを判定し、その判定結果に応じて１０００、０１００、００１０、または００１０のいずれかのフラグをセットする。

同様に、ｘ〜Ａにセットする否定発話のスコアに応じたフラグは、例えば、使用者の発話が「いいえ」であったり「いいえ、宇頭駅です」であったときに、「いいえ」の部分の単語スコアを評価して決定する。また、Ｂ〜Ｅにセットする文末否定のスコアに応じたフラグは、例えば、使用者の発話が「豊橋駅じゃない」であったときに、「じゃない」の部分の単語スコアを評価して決定する。

なお、図１６に示したフラグ、およびフラグに対する応答パターンは、以下に説明する応答方針に基づいて設定されている。すなわち、応答生成部１０９が理解内容に基づいてフラグを生成し、生成したフラグに応じた応答パターンとなるように応答文を生成することによって、以下の応答方針１〜１１を満たす応答文が生成されるように、フラグおよび応答パターンが設定されている。以下、（Ａ）〜（Ｋ）により各応答方針について説明する。

（Ａ）応答方針１：了承（相槌）
下位カテゴリがなく、上位カテゴリまたは中位カテゴリのスコア評価が評価１の場合、対話をスムーズに進めるための応答を行う。
例ユーザ発話 …「愛知県」
システム応答…「はい」

（Ｂ）応答方針２：復唱
スコア評価が２の場合や、ユーザ発話の文頭に否定後が来た場合は確認の意味も込めて復唱を行う。
例ユーザ発話 …「愛知県」
システム応答…「愛知県」

（Ｃ）応答方針３最終確認
下位カテゴリが発話され、信頼できる（スコア評価が１か２）場合は、最終確認を行う。
例ユーザ発話 …「豊橋駅」
システム応答…「豊橋駅を設定してよろしいですか」

（Ｄ）応答方針４：目的地設定
前応答に下位カテゴリがあり、肯定発話が信頼できる（スコア評価が１か２）場合は、目的地に設定する。
例システム応答…「豊橋駅を設定してよろしいですか」
ユーザ発話 …「はい」
システム応答…「目的地に設定しました」

（Ｅ）応答方針５：分からない情報のみ尋ねる
ユーザに対して分からない情報のみを尋ねる。
例ユーザ発話…「愛知県の名古屋鉄道」（「名古屋」部分のスコア評価が低い時）
システム応答…「愛知県の何鉄道ですか」

（Ｆ）応答方針６：自信のない情報は応答しない
上位カテゴリ（ＰＲ）と中位カテゴリ（ＨＲ）の組み合わせで、どちらか一方だけ信頼できない（スコア評価が４）場合、スコアの高いものだけ応答することで対話を進める。
例ユーザ発話…「愛知県の名古屋鉄道」（「愛知」部分のスコア評価が低いとき）
システム応答…「名古屋鉄道」

（Ｇ）応答方針７別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを聞くことによって認識率の向上を図る。
例ユーザ発話…「豊橋駅」（「豊橋」部分のスコア評価が低いとき）
システム応答…「何県の駅ですか」

（Ｈ）応答方針８：次の発話を促す
上位カテゴリにつづいて肯定発話がきて、信頼できる場合（スコア評価が１か２の場合）次の発話を促す。
例システム応答…「名古屋鉄道」
ユーザ発話 …「はい」
システム応答…「名古屋鉄道のどこですか」

（Ｉ）応答方針９：別の候補を返す
否定発話が信頼できる場合（スコア評価が１か２の場合）前回の応答に用いていない別候補を返す。
例システム応答…「倉橋駅を設定しますか」
ユーザ発話 …「いいえ」
システム応答…「倉橋駅を設定しますか」

（Ｊ）応答方針１０：前応答の繰り返し
肯定発話や否定発話が信頼できない場合（スコア評価が４の場合）
例システム応答…「豊橋駅を設定してよろしいですか」
ユーザ発話 …「はい」（発話全体のスコア評価が低いとき）
システム応答…「豊橋駅を設定してよろしいですか」

（Ｋ）応答方針１１：聞き返し
全ての情報に対して信頼できない場合（スコア評価が４の場合）
例ユーザ発話 …「愛知県」（発話全体のスコア評価が低いとき）
システム応答…「もう一度発話してください」

このように生成された応答文は、上述したように音声合成部１１０やＧＵＩ表示部１１１を介して使用者に対する応答として出力される。使用者はこの応答に対してさらに発話を行うことになるが、このとき、周囲の騒音が大きい場合には、一般的に、語頭または語尾が騒音に紛れて正確に聞き取ることができないことが多く、このため誤認識が発生する可能性がある。例えば、応答方針７では、ユーザ発話「豊橋駅」に対してシステム応答は「何県の駅ですか」になっており、これに対して使用者は「愛知」または「愛知県」と発話することになる。

この例を騒音が原因で誤認識が発生しやすい例に置き換えて説明すると、ユーザ発話「追浜駅」に対してシステムが「何県の駅ですか」と応答した場合には、使用者は「神奈川」と発話することになる。このとき、図１８に示すように、周囲に騒音が発生している場合には、図１９に示すように「かながわ」のうち語頭に相当する「か」と語尾に相当する「わ」が雑音に紛れて認識結果から欠落してしまうことにより「なが」のみが認識され、結果として「ながの」と誤認識されてしまう可能性がある。

本実施の形態では、このような周囲の騒音に起因した語頭または語尾の欠落による誤認識を防止するために、応答生成部１０９は、上述した応答方針に従って生成された応答文の内容を、周囲の騒音の程度（大きさ）に応じて変化させる。すなわち、応答生成部１０９は、応答文生成時に騒音検出部１１２から入力される騒音の程度に基づいて周囲の騒音レベルを判定し、判定した騒音レベルに応じて生成した応答文の内容を変化させる。騒音レベルとは、騒音の大きさを表す指標であり、ここでは、騒音検出部１１２から入力される騒音の程度に基づいてレベル０（騒音最小）〜レベル５（騒音最大）の５段階で周囲の騒音レベルを判定するものとする。

以下、（ａ）〜（ｅ）において、応答生成部１０９が上述した応答方針７に従って生成した応答文の内容を騒音レベルに応じて変化させる場合にについて説明する。なお、応答方針７以外のその他の応答方針に従って生成した応答文も、以下に説明する（ａ）〜（ｅ）と同様の方針でその内容を変化させることができる。

（ａ）騒音レベル０（第１の騒音レベル）の場合
レベル０の場合には、音声認識の障害となる騒音はほとんど発生していないと考えられることから、応答方針７による応答文をそのまま使用する。すなわち、別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを聞くことによって認識率の向上を図る。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答は上述したように「何県の駅ですか」となる。この場合、これを受けたユーザ発話としては「愛知」が予想される。

（ｂ）騒音レベル１（第２の騒音レベル）の場合
レベル１の場合には、音声認識の障害となる騒音が若干発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを語尾に付帯するカテゴリ名称を省略した形で聞くことによって認識率の向上を図るように、応答方針７に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「どちらの駅ですか」に変化させる。この場合、これを受けたユーザ発話としては「愛知県」が予想され、これはレベル０におけるユーザ発話「愛知」と比較して語尾切れに対して頑健な形となっている。

すなわち、このような応答文に変化させることで、応答文内で省略したカテゴリ名称までを含めた発話を使用者に対して促すことができ、認識対象単語（愛知）の語尾が発話の語尾になることを防ぐことができる。このため、騒音によって発話の語尾が欠落した場合でも、認識対象単語としての「愛知」の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。

（ｃ）騒音レベル２（第３の騒音レベル）の場合
レベル２の場合には、騒音レベル１のときと比較すると、音声認識の障害となる騒音が大きくなっている。このため、別情報の付加情報が少なく、スコア評価が悪いときに、質問に含まれる質問項目数を増加させるため、発話されたカテゴリと上のカテゴリの両方を聞くことによって認識率の向上を図るように、応答方針７に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「何県の何駅ですか」に変化させる。この場合、これを受けたユーザ発話としては「愛知の豊橋」が予想され、これはレベル１におけるユーザ発話「愛知」と比較してさらに語尾切れに対して頑健な形となっている。

すなわち、このような応答文に変化させることで、使用者に対して、認識対象単語（愛知）の後にレベル１の場合よりも多くの語を付加して発話するように促すことができる。このため、騒音のレベルが上がって発話の語尾の欠落が複数文字に及んだ場合でも、認識対象単語としての「愛知」の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。

（ｄ）騒音レベル３（第４の騒音レベル）の場合
レベル３の場合には、音声認識の障害となる騒音が大きく発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語尾への付帯語の付加を指示することによって認識率の向上を図るように応答方針７に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「何県の何駅に設定、とおっしゃってください」に変化させる。この場合、これを受けたユーザ発話としては「愛知県の豊橋駅に設定」が予想され、これはレベル２におけるユーザ発話と比較してさらに語尾切れに対して頑健な形となっている。

すなわち、このような応答文に変化させることで、使用者に対して、認識対象単語（愛知）の後にレベル２の場合よりもさらに多くの語を付加して発話するように促すことができる。このため、騒音レベルが上がって発話の語尾の欠落文字数が増加した場合でも、認識対象単語としての「愛知」の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。

（ｅ）騒音レベル４（第５の騒音レベル）の場合
レベル４の場合には、音声認識の障害となる騒音がかなり大きく発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語頭および語尾への付帯語の付加を指示することによって認識率の向上を図るように応答方針７に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「目的地を何県の何駅に設定、とおっしゃってください」に変化させる。この場合、これを受けたユーザ発話としては「目的地を愛知県の豊橋駅に設定」が予想され、これはレベル３におけるユーザ発話と比較してさらに語頭切れに対して頑健な形となっている。

すなわち、このような応答文に変化させることで、レベル３の場合と同様の語尾の欠落防止効果を保持しつつ、さらに、使用者に対して、認識対象単語（愛知）の前にも単語を付加させることができる。このため、認識対象単語の語頭が発話の語頭になることを防ぐことができ、騒音によって発話の語尾だけでなく語頭の欠落が発生した場合でも、認識対象単語としての「愛知」の語頭および語尾がそれぞれ欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。

応答生成部１０９は、上述した応答方針に基づいた応答文を生成し、さらに騒音レベルに応じて応答文の内容を変化させるために、次のような処理を行う。まず、応答生成部１０９は、応答方針に基づいた応答文を生成するために、生成したフラグを、図１６のフラグテーブルと照らし合わせ、フラグが最初に一致した応答パターンで応答文を生成する。例えば、最初のユーザ発話「豊橋駅」を受けた場合の応答フラグが、"1 001000 0000 0000 0001 0000 0000 0000 0"である場合には、図１６においてはフラグ１６ａに一致することから、これに対応する応答パターン１６ｂに基づいて応答文を生成する。

すなわち、応答パターン１６ｂとして「何 “PRカテゴリクラス”の“LMカテゴリクラス”ですか」が選択され、その結果「何県の駅ですか」が応答文として生成される。なお、このフラグ１６ａは、上述した応答方針７に従って応答文を生成するためのフラグを表している。

応答生成部１０９は、次に、現在の周囲の騒音レベルに応じて生成した応答文の内容を変化させる（書き換える）。すなわち、応答パターン１６ｂは、騒音レベルに応じて次のように書き換えられる。

騒音レベルがレベル０の場合には、応答パターン１６ｂは「何 “PRカテゴリクラス”の“LMカテゴリクラス”ですか」に書き換えられ、その結果「何県の駅ですか」が応答文として生成される。騒音レベルがレベル１の場合には、応答パターン１６ｂは「どちらの“LMカテゴリクラス”ですか」に書き換えられ、その結果「どちらの駅ですか」が応答文として生成される。騒音レベルがレベル２の場合には、応答パターン１６ｂは「何 “PRカテゴリクラス”の何“LMカテゴリクラス”ですか」に書き換えられ、その結果「何駅ですか」が応答文として生成される。

また、騒音レベルがレベル３の場合には、応答パターン１６ｂは「何 “PRカテゴリクラス”の何“LMカテゴリクラス”に設定、とおっしゃってください」に書き換えられ、その結果「何県の何駅に設定、とおっしゃってください」が応答文として生成される。騒音レベルがレベル４の場合には、応答パターン１６ｂは「目的地を何 “PRカテゴリクラス”の何“LMカテゴリクラス”に設定、とおっしゃってください」に書き換えられ、その結果「目的地を何県の何駅に設定、とおっしゃってください」が応答文として生成される。

さらに、使用者によって次の発話がなされた場合には、応答生成部１０９はそのユーザ発話に基づいてフラグを生成し、生成したフラグに応じた応答パターンに基づいて応答文を生成する。そして、騒音レベルに応じて応答文が書き換える。例えば、次のユーザ発話を受けて応答生成部１０９が"1 101000 1000 0000 1000 0000 0000 0000 0"というフラグ１６ｃを生成した場合には、応答パターン１６ｄ、すなわち「“ＰＲカテゴリ単語”、“ＰＲカテゴリクラス”の“ＬＭカテゴリ単語”、“ＬＭカテゴリクラス”を設定してよろしいですか」に基づいて、「愛知県の豊橋駅を設定してよろしいですか」が応答文として生成される。そして、応答生成部１０９は、上述したように、生成した応答文を騒音レベルに応じて変化させる。

応答生成部１０９は、以上のようにして生成した応答文の音声データを生成して音声合成部１１０へ出力し、応答文のモニタ表示用データを生成してＧＵＩ表示部１１１へ出力する。その後、ステップＳ３１２へ進む。

ステップＳ３１２では、音声合成部１１０は、応答文の音声データをスピーカを介して出力する。また、ＧＵＩ表示部１１１は、応答文のモニタ表示用データをモニタに出力する。その後、ステップＳ３１３へ進み、使用者による音声入力が全て完了したか否かを判断する。具体的には、下位カテゴリ（ＬＭ）の単語が確定している場合は、音声入力が全て完了したと判断して処理を終了する。これに対して、下位カテゴリ（ＬＭ）の単語が確定していない場合には、ステップＳ３０２へ戻って処理を継続する。

例えば、システム応答として「愛知県の名古屋鉄道の豊橋駅を設定してよろしいですか」が応答されているときに、使用者によって「はい」が発話された場合には、「目的地に設定しました」の応答を行った後に処理を終了する。

以上説明した本実施の形態によれば、以下のような作用効果を得ることができる。
（１）周囲の騒音の程度に基づいて応答文の内容を変化させるようにした。これによって、使用者は、騒音に応じた応答文に対応して新たな発話を行うため、音声認識時に誤認識が発生する可能性を低下させることができる。

（２）認識対象単語の語頭または語尾が騒音に起因して欠落しないような発話を使用者に促すように、応答文の内容を変化させるようにした。これによって、周囲の騒音が大きい場合には、一般的に、語頭または語尾が騒音に紛れて欠落する可能性が高いことを加味して、語頭または語尾の欠落を防止して、誤認識が発生する可能性を低下させることができる。

（３）周囲の騒音の程度に基づいて騒音レベルを判定し、騒音レベルに応じて応答文の変更方針を変えるようにした。これによって、周囲の状況に応じた最適な応答文を生成することができる。

（４）騒音レベルが０のときには、生成された応答文をそのまま使用するようにした。これによって、音声認識の障害となる騒音がほとんど発生していない状況下では、語頭または語尾の欠落による誤認識が発生する可能性が低いことを加味して、応答文の内容を変化させる処理を省いて処理の負荷を低減することができる。

（５）騒音レベルが１のときには、別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを語尾に付帯するカテゴリ名称を省略した形で聞くことによって認識率の向上を図るように応答文の内容を変化させるようにした。これによって、使用者に対して応答文内で省略したカテゴリ名称までを含めた発話を促すことができ、認識対象単語の語尾が発話の語尾になることを防ぐことができる。このため、騒音によって発話の語尾が欠落した場合でも、認識対象単語の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。

（６）騒音レベルが２のときには、別情報の付加情報が少なく、スコア評価が悪いときに、質問に含まれる質問項目数を増加させるため、発話されたカテゴリと上のカテゴリの両方を聞くことによって認識率の向上を図るように応答文の内容を変化させるようにした。これによって、使用者に対して、認識対象単語の後にレベル１の場合よりも多くの語を付加して発話するように促すことができる。このため、騒音のレベルが上がって発話の語尾の欠落が複数文字に及んだ場合でも、認識対象単語の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。

（７）騒音レベルが３のときには、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語尾への付帯語の付加を指示することによって認識率の向上を図るように応答文の内容を変化させるようにした。これによって、使用者に対して、認識対象単語の後にレベル２の場合よりもさらに多くの語を付加して発話するように促すことができる。このため、騒音レベルが上がって発話の語尾の欠落文字数が増加した場合でも、認識対象単語の語尾が欠落する可能性を低下させることができ、誤認識が発生する可能性を低下させることができる。

（８）騒音レベルが４のときには、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語頭および語尾への付帯語の付加を指示することによって認識率の向上を図るように応答文の内容を変化させるようにした。これによって、レベル３の場合と同様の語尾の欠落防止効果を保持しつつ、さらに、使用者に対して、認識対象単語の前にも単語を付加させることができる。このため、認識対象単語の語頭が発話の語頭になることを防ぐことができ、騒音によって発話の語尾だけでなく語頭の欠落が発生した場合でも、認識対象単語の語頭および語尾のそれぞれが欠落する可能性を低下させることができ、誤認識が発生する可能性を大きく低下させることができる。

―変形例―
なお、上述した実施の形態の音声対話装置は、以下のように変形することもできる。
（１）上述した実施の形態では、音声認識部１０２は、図３に示したパターンを認識対象としてユーザ発話を待ち受ける例について説明した。しかしながら、音声認識部１０２は、応答生成部１０９によって生成された応答文に対応して、その他のパターンも認識対象として設定して次のユーザ発話を待ち受けるようにしてもよい。例えば、次のユーザ発話として「愛知県の豊橋駅に設定」や「目的地を愛知県の豊橋駅に設定」が予想される場合には、これらの発話も待ち受け可能となるように待ち受け文法を変更する。このとき、単語の語頭または語尾が騒音によって欠落することを想定して、あらかじめ単語の語頭または語尾を欠落させた欠落パターン（語彙）も待ち受け単語とすることでさらに騒音に対する頑健性を向上することができる。例えば、図２０に示すように、語頭の「もくてきちを」の欠落パターンとして「くてきちを」および「てきちを」を用意し、語尾の「にせってい」の欠落パターンとして「にせって」、「にせ」をパターンとして待ち受けることによって、さらに語頭または語尾の欠落に頑健なシステムとすることができる。

（２）上述した実施の形態では、音声対話装置１００は、車両に搭載されたナビゲーション装置に実装され、使用者がナビゲーション装置上で目的地を設定するために、目的地設定用のコマンドを音声で入力する例について説明した。しかしながら、本発明による音声対話装置１００は、騒音が発生する場所で使用される音声による操作が可能なその他の機器に対しても適用可能である。

なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。音声認識部１０２は音声認識手段に、言語理解部１０４は発話内容理解手段に、騒音検出部１１２は騒音検出手段に相当する。応答生成部１０９は応答文生成手段および内容変化手段に、音声合成部１１０およびＧＵＩ表示部１１１は出力手段に相当する。なお、以上の説明はあくまでも一例であり、発明を解釈する際、上記の実施形態の記載事項と特許請求の範囲の記載事項の対応関係に何ら限定も拘束もされない。

音声対話装置の一実施の形態の構成を示すブロック図である。発話された単語の階層構造的分類法を示す図である。認識対象語と発話タイプとの関係を示す図である。システム、使用者間での対話の例を示す図である。音声対話装置１００の処理を示すフローチャート図である。認識結果候補文と尤度との関係を示す図である。認識結果候補文と尤度との関係から信頼度を求めた場合の具体例を示す図である。発話タイプと発話タイプ判定材料の具体例を示す図である。発話タイプによる処理の使い分けを示すフローチャート図である。詳細化・回答発話タイプにおけるクラススコア生成例を示す図である。訂正・再入力発話タイプにおけるクラススコア生成例を示す図である。クラススコアの演算手順を示す図である。カテゴリスコアの具体例を示す図である。単語スコアの具体例を示す図である。理解結果の具体例を示す図である。応答フラグと応答パターンの具体例を示す図である。フラグの各ビットが示す内容を示す図である。囲に騒音が発生している場合を模式的に表した図である。語頭および語尾が欠落した場合の具体例を示す図である。単語の語頭または語尾を欠落させた欠落パターンを待ち受け可能とした場合の具体例を示す図である。

符号の説明

１００音声対話装置
１０１音声入力部
１０２音声認識部
１０３信頼度生成部
１０４言語理解部
１０５クラススコア生成部
１０６カテゴリ理解部
１０７単語スコア生成部
１０８理解内容生成部
１０９応答生成部
１１０音声合成部
１１１ＧＵＩ表示部
１１２騒音検出部
１１３認識履歴メモリ

Claims

使用者から入力された発話音声を認識する音声認識手段と、
前記音声認識手段による認識結果に基づいて、前記使用者による発話内容を理解する発話内容理解手段と、
前記発話内容理解手段で理解した使用者による発話内容に応じて、使用者に対する応答文を生成する応答文生成手段と、
音声認識に対する騒音の程度を検出する騒音検出手段と、
前記騒音検出手段で検出した騒音の程度に基づいて、前記応答文生成手段で生成した応答文の内容を変化させる内容変化手段と、
前記内容変化手段で内容を変化させた後の応答文を出力する出力手段とを備えることを特徴とする音声対話装置。
請求項１に記載の音声対話装置において、
前記内容変化手段は、認識対象単語の語頭または語尾が前記騒音に起因して欠落しないような発話を使用者に促すように、前記応答文の内容を変化させることを特徴とする音声対話装置。
請求項１または２に記載の音声対話装置において、
前記騒音の程度は、第１〜第５の騒音レベルによって５段階で表され、各騒音レベル間の前記騒音の程度の大小関係は、第１の騒音レベル＜第２の騒音レベル＜第３の騒音レベル＜第４の騒音レベル＜第５の騒音レベルであることを特徴とする音声対話装置。
請求項３に記載の音声対話装置において、
前記内容変化手段は、前記騒音の程度が前記第１の騒音レベルである場合には、前記応答文生成手段で生成した応答文をそのまま使用することを特徴とする音声対話装置。
請求項３に記載の音声対話装置において、
前記認識対象単語はカテゴリ単位に分類され、
前記内容変化手段は、前記騒音の程度が前記第２の騒音レベルである場合には、前記応答文生成手段で生成した応答文が、前記認識対象単語にカテゴリ名称を付帯したものである場合に、前記カテゴリ名称を省略するように前記応答文の内容を変化させることを特徴とする音声対話装置。
請求項３に記載の音声対話装置において、
前記内容変化手段は、前記騒音の程度が前記第３の騒音レベルである場合には、前記応答文生成手段で生成した応答文よりも使用者に対する質問項目数を増加させるように前記応答文の内容を変化させることを特徴とする音声対話装置。
請求項３に記載の音声対話装置において、
前記内容変化手段は、前記騒音レベルが第４の騒音レベルである場合には、前記認識対象単語の後に付帯語の付加を指示するように前記応答文の内容を変化させることを特徴とする音声対話装置。
請求項３に記載の音声対話装置において、
前記内容変化手段は、前記騒音レベルが第５の騒音レベルである場合には、前記認識対象単語の前および後のそれぞれに付帯語の付加を指示するように前記応答文の内容を変化させることを特徴とする音声対話装置。
請求項１〜８のいずれか一項に記載の音声対話装置において、
前記音声認識手段は、単語の語頭または語尾を欠落させた語彙を音声認識時の待ち受け単語とすることを特徴とする音声対話装置。