JP2008134502A

JP2008134502A - 音声認識装置、および音声認識方法

Info

Publication number: JP2008134502A
Application number: JP2006321295A
Authority: JP
Inventors: Keiko Katsuragawa; 景子桂川; Minoru Togashi; 実冨樫; Takeshi Ono; 健大野; Daisuke Saito; 大介斎藤; Eiji Tonozuka; 英治外塚
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-11-29
Filing date: 2006-11-29
Publication date: 2008-06-12
Anticipated expiration: 2026-11-29
Also published as: JP4867622B2; US20080262843A1; US8108215B2

Abstract

【課題】使用者の発話内容を音声認識すること。
【解決手段】音声認識処理部１１３は、認識対象語句に含まれるキーワードを待ち受け単語として、マイク１３０を介して入力された発話音声に含まれるキーワードを認識する。そして、音声認識処理部１１３は、認識対象語句を待ち受け単語として、マイク１３０を介して入力された発話音声を再認識する。理解結果生成部１１５は、キーワードの認識結果、および再認識結果に基づいて、使用者によって認識対象語句の言い換え語が発話された可能性があるか否かを判断し、言い換え語が発話された可能性があると判断した場合には、言い換え語に対応する認識対象語句を発話音声の音声認識結果として決定する。
【選択図】図１

Description

本発明は、音声を認識するための音声認識装置、および音声認識方法に関する。

次のような音声認識装置が知られている。この音声認識装置は、音声入力された地名を都道府県別に用意した辞書データを用いて音声認識するものである（例えば、特許文献１）。

特開２００１−３０６０８８号公報

しかしながら、従来の音声認識装置では、音声入力された地名を都道府県別に用意した辞書データを用いて音声認識するため、発話者が辞書データに登録されている地名を異なる呼び方に言い換えて発話した場合には、その地名を音声認識することができない。

本発明は、認識対象語句に含まれるキーワードを待ち受け単語として、入力された発話音声に含まれるキーワードを認識し、認識対象語句を待ち受け単語として、発話音声を認識し、キーワードの認識結果、および発話音声の認識結果に基づいて、使用者によって認識対象語句の言い換え語が発話された可能性があるか否かを判断し、言い換え語が発話されたと判断した場合には、認識したキーワードに基づいて、言い換え語に対応する認識対象語句を特定し、特定した認識対象語句を発話音声の音声認識結果として決定することを特徴とする。

本発明によれば、使用者が認識対象語句を他の呼び方に言い換えて発話した場合でも正しく認識することができる。

図1は、本実施の形態における音声認識装置の一実施の形態の構成を示すブロック図である。音声認識装置１００は、例えば、車両に搭載されたナビゲーション装置に搭載され、使用者は、当該音声認識装置１００から出力される応答メッセージに従って音声入力を行うことにより、ナビゲーション装置を操作することができる。

音声認識装置１００は、使用者が音声認識開始を指示するための発話開始スイッチ１２０と、使用者の発話音声を入力するマイク１３０と、マイク１３０を介して入力された音声データを音声認識し、その内容に応じて使用者へ応答を返す制御装置１１０と、地図データやガイダンス音声の音声データ、および音声認識処理の際に使用する音声認識用辞書・文法を格納するディスク１４１を読み取るディスク読取装置１４０と、ナビゲーション装置が出力する地図やメニュー画面、および音声認識装置１００が出力する音声認識結果を表示するモニタ１５０と、音声を出力するスピーカ１６０とを備えている。

制御装置１１０は、ＣＰＵ、メモリ、およびその他の周辺回路からなり、入力制御部１１１と、音声バッファ１１２と、音声認識処理部１１３と、音声認識用辞書・文法１１４と、理解結果生成部１１５と、応答生成部１１６と、ＧＵＩ表示制御部１１７と、音声合成部１１８とを備えている。

使用者によって音声認識開始スイッチ１２０が操作され、音声認識開始合図が入力されると、入力制御部１１１がこれを受け取り、音声認識処理部１１３に音声取り込み開始を指示する。マイク１３０から音声の取り込みが開始されると、取り込まれた音声データは音声バッファ１１２に蓄えられる。さらに、音声認識処理部１１３は、音声認識用辞書・文法１１４を使用して取り込まれた音声データの音声認識処理を実行する。なお、音声認識用辞書・文法１１４は、ディスク１４１に記録されている音声認識実行時の待ち受け単語を記録するためのメモリである。本実施の形態における音声認識装置１００では、以下の（Ａ）〜（Ｄ）の４種類の待ち受け単語の少なくともいずれか１つを音声認識用辞書・文法１１４に記録する。

（Ａ）システム文法
システム文法とは、ナビゲーション装置を操作するための操作コマンド（システムコマンド）、例えば「はい」、「いいえ」、「自宅に帰る」、および「キャンセル」などを音声認識するために用いる待ち受け単語である。

（Ｂ）認識対象語句
認識対象語句とは、音声認識の対象となる地名、施設名、道路名などの固有名詞を待ち受けるための待ち受け単語である。

（Ｃ）キーワード文法
キーワード文法とは、複数の認識対象語句に共通して含まれる音節であるキーワード、すなわち複数の認識対象単語に共通して含まれる音響的に共通する部分であるキーワードと、それ以外の部分を吸収するＧａｒｂａｇｅとからなるワードスポット文法である。

（Ｄ）再認識用文法
再認識用文法とは、キーワード文法を含む認識対象語句を再認識するために用いる待ち受け単語である。すなわち、上述したキーワード文法を用いてキーワードを音声認識した後、さらにそのキーワードを含む認識対象語句を音声認識するために用いられる。

理解結果生成部１１５は、音声認識処理部１１３による音声認識結果に基づいて理解結果生成処理を実行する。応答生成部１１６は、使用者に対する応答文を生成してＧＵＩ表示制御部１１７および音声合成部１１８へ出力する。ＧＵＩ表示制御部１１７は応答文のＧＵＩデータを生成してモニタ１５０へ出力し、音声合成部１１８は応答文の音声データを生成してスピーカ１６０を介して出力する。なお、入力制御部１１１〜音声合成部１１８の各要素は、上述した処理を目的地設定や施設検索など、ナビゲーション装置上での一連のタスクが終了するまで繰り返し実行する。

以下、図２に示すフローチャートに従って、制御装置１１０によって実行される音声認識処理について説明する。なお、この図２に示す処理は、使用者によって発話開始スイッチ１２０が操作されて発話の開始が指示されると起動するプログラムとして実行される。

ステップＳ１において、制御装置１１０は、上述したキーワード文法をディスク読み取り装置１４０を介してディスク１４１から音声認識用辞書・文法１１４へロードして、ステップＳ２へ進む。ステップＳ２では、入力制御部１１１は、マイク１３０から入力される音声の取り込みを開始し、音声バッファ１１２へ音声データを蓄積していく。その後、ステップＳ３へ進み、入力制御部１１１は、使用者による発話が完了したか否かを判断する。例えば、入力制御部１１１は、マイク１３０からの音声信号の入力状況を監視し、所定時間、音声信号の入力がなかった場合には、発話が完了したと判断する。発話が完了したと判断した場合には、ステップＳ４へ進む。

ステップＳ４では、音声認識処理部１１３は、上述したキーワード文法を使用してキーワード認識処理を実行する。例えば、音声認識用辞書・文法１１４には、図３（ａ）に示すように、キーワード文法２０１として「パーク」、「センター」、「イソゴ」、「ヤクショ」、および「ヨコハマ」が格納されている。このとき、使用者が「磯子区役所（イソゴクヤクショ）」と発話した場合には、音声認識処理部１１３は、キーワード文法２０１と使用者の発話音声の音声データとをマッチング処理して音声認識を行う。

例えば、音声認識処理部１１３は、入力された音声データとキーワード文法２０１に含まれる各キーワードとの音響的な近さである認識尤度から得られる認識スコアを算出し、そのスコアが高い認識結果から順番に第一位の認識結果、第二位の認識結果というように認識結果に順位をつける。そして、音声認識処理部１１３は、第一位の認識結果をキーワード認識処理の認識結果として決定する。例えば、認識結果の順位が図３（ｂ）に示すように算出された場合には、音声認識処理部１１３は、第一位の認識結果である「イソゴＧａｒｂａｇｅヤクショ」をキーワード認識処理の認識結果として決定する。

その後、ステップＳ５へ進み、音声認識処理部１１３は、キーワード認識処理の認識結果に基づいて、入力された音声データの再認識が必要であるか否かを判断する。すなわち、入力された音声データに対して、上述した再認識用文法を用いた再認識処理を実行する必要があるか否かを判断する。具体的には、音声認識処理部１１３は、キーワード認識処理で認識結果が得られた場合には、再認識が必要であると判断し、キーワード認識処理で認識結果が得られなかった場合には、再認識処理は不要であると判断する。

再認識処理が必要でないと判断した場合には、ステップＳ１０へ進み、理解結果生成部１１５は、キーワード認識処理で認識結果が得られなかった旨を理解結果として生成して応答生成部１１６へ出力し、後述するステップＳ１１へ進む。これに対して、再認識処理が必要であると判断した場合にはステップＳ６へ進み、制御装置１１０は、キーワード認識処理で認識したキーワードを含む認識対象語句を再認識用文法としてディスク読み取り装置１４０を介してディスク１４１から音声認識用辞書・文法１１４へロードする。

図３（ａ）に示す例では、キーワード認識処理の認識結果である「イソゴＧａｒｂａｇｅヤクショ」に含まれるキーワード、すなわち「イソゴ」と「ヤクショ」とを含む再認識用文法として“イソゴ”文法２０２と“ヤクショ”文法２０３とがロードされている。“イソゴ”文法２０２には、キーワード「イソゴ」を含む認識対象語句、例えば「磯子警察署」、「横浜市磯子区役所」、および「磯子保健所」などの「磯子」を含む施設名が含まれる。また、“ヤクショ”文法２０３には、キーワード「ヤクショ」を含む認識対象語句、例えば「横浜市役所」、「横浜市磯子区役所」、および「伊勢市役所」などの「役所」を含む施設名が含まれる。

その後、ステップＳ７へ進み、音声認識処理部１１３は、音声バッファ１１２に蓄えておいた音声データを、“イソゴ”文法２０２と“ヤクショ”文法２０３とを使って再認識する。具体的には、音声認識処理部１１３は、音声データと“イソゴ”文法２０２、および“ヤクショ”文法２０３に含まれる各待ち受け単語との音響的な近さである認識尤度から得られる認識スコアを算出し、そのスコアが高い認識結果から順番に第一位の認識結果、第二位の認識結果というように認識結果に順位をつける。

そして、音声認識処理部１１３は、第一位の認識結果をキーワード認識処理の認識結果として決定する。例えば、認識結果の順位が図３（ｃ）に示すように算出された場合には、音声認識処理部１１３は、第一位の認識結果である「磯子保健所」を再認識処理の認識結果として決定する。音声認識処理部１１３はキーワード認識処理の認識結果、およびその認識スコアと、再認識処理の認識結果、およびその認識スコアを理解結果生成部１１５へ出力する。

その後、ステップＳ８へ進み、理解結果生成部１１５は、音声認識処理部１１３からの出力結果に基づいて、使用者によって言い換え語が発話された可能性があるか否かを判断する。言い換え語とは、ある認識対象語句と同じ意味を持つが、音響的に異なる単語のことをいう。例えば、図３に示す例では、使用者が発話した「磯子区役所」は、“イソゴ”文法２０２と“ヤクショ”文法２０３とにそれぞれ含まれる「横浜市磯子区役所」の言い換え語に該当する。

本実施の形態では、理解結果生成部１１５は、再認識処理の認識結果の認識スコアがキーワード認識処理の認識結果の認識スコアよりも所定以上低い場合、例えば半分以下である場合に、言い換え語が発話された可能性があると判断する。例えば、図３（ｃ）においては、再認識処理の認識結果として得られた「磯子保健所」の認識スコアは４０であり、これは、図３（ｂ）に示したキーワード認識処理の認識結果である「イソゴ Garbage ヤクショ」のスコア８０と比較すると半分のスコアとなっている。このような場合に、理解結果生成部１１５は、言い換え語が発話された可能性があると判断する。

言い換え語が発話された可能性がないと判断された場合には、ステップＳ１０へ進み、理解結果生成部１１５は、再認識処理の認識結果を理解結果として生成して応答生成部１１６へ出力し、後述するステップＳ１１へ進む。これに対して、言い換え語が発話された可能性があると判断された場合には、ステップＳ９へ進む。ステップＳ９では、理解結果生成部１１５は、図４で後述する言い換え対象語句検索処理を実行して、ステップＳ１０へ進み、後述するように、言い換え対象語句検索処理の実行結果に基づいて理解結果を生成する。理解結果生成部１１５は、生成した理解結果を応答生成部１１６へ出力し、ステップＳ１１へ進む。

ステップＳ１１では、応答生成部１１６は、理解結果生成部１１５から出力された理解結果に応じて、あらかじめ設定されたルールに従って、使用者に対して応答するための応答文を生成する。そして、生成した応答文のデータをＧＵＩ表示制御部１１７および音声合成部１１８へ出力し、ステップＳ１２へ進む。ステップＳ１２では、ＧＵＩ表示制御部１１７は、入力された応答文のデータに基づいて、応答文のＧＵＩデータを生成してモニタ１５０へ出力する。また、音声合成部１１８は応答文のデータに基づいて、応答文の音声データを生成してスピーカ１６０を介して出力する。その後、処理を終了する。

次に、図４を用いてステップＳ９で実行される言い換え対象語句検索処理について説明する。なお、図４は、再認識用文法として施設名称を待ち受け、使用者が認識対象である施設名称のうち、どの施設名称の言い換え語を発話したかを調べる処理の具体例を示すフローチャートである。再認識用文法の待ち受け単語が施設名称以外である場合には、その待ち受け単語を対象として図４に示す処理を実行すればよい。

図４に示す処理においては、ステップＳ２１〜ステップＳ２５の処理で、まず、言い換え語が発話された可能性が高い施設名（認識対象語句）の候補を音声認識用辞書・文法１１４から抽出するための検索式を作成する。具体的には、ステップＳ２１において、理解結果生成部１１５は、今回の発話以前にすでに使用者によって地名が発話されて指定されているか否かを判断する。すでに地名が指定されていると判断した場合には、ステップＳ２２へ進み、指定されている地名に応じた地域で抽出対象の施設名を限定するための条件を検索式に追加する。

次に、ステップＳ２３において、理解結果生成部１１５は、今回の発話以前にすでに使用者によって施設種別が発話されて指定されているかどうかを判断する。すでに施設種別が指定されていると判断した場合には、ステップＳ２４へ進み、指定されている施設種別で抽出対象の施設名を限定するための条件を検索式に追加する。その後、ステップＳ２５へ進む。

ステップＳ２５では、理解結果生成部１１５は、キーワード認識処理で認識されたキーワード群（例えば、キーワード認識処理の認識結果が「イソゴ Garbage ヤクショ」の場合には「イソゴ」と「ヤクショ」の２つのキーワードを含む。以下、「認識キーワード群」と呼ぶ）に含まれるキーワードの中から検索にかけるキーワード（ＫＷ）の組み合わせを選択する。ここでは、原則として認識キーワード群に関連する認識対象語句を検索するためのキーワードの組み合わせを選択する。すなわち、認識キーワード群に含まれる全てのキーワードに関連する認識対象語句を検索するためのキーワードの組み合わせを選択する。

しかしながら、認識キーワード群に含まれるキーワードの中に、互いに意味的な矛盾を生じさせるキーワードの組が含まれている場合には、その矛盾を生じさせるキーワードが同じ組み合わせに含まれないようにキーワードの組み合わせを選択する。例えば、全く異なる二つの地名が認識された場合には、二つの地名が同一のキーワードの組み合わせ内に含まれないようにする。

具体的には、地名を表すキーワード「トウキョウ」と「キョウト」が、「トショカン」というキーワードとともに一発話の認識で認識された場合について考える。この場合、一般的に、「東京」と「京都」の両方を含む単語はないと考えられるため、「トウキョウ」と「キョウト」が同じ組み合わせに含まれないようにする。すなわち、理解結果生成部１１５は、認識キーワード群から「キョウト」を除外し「トウキョウ」と「トショカン」の組み合わせ、および「トウキョウ」を除外した「キョウト」と「トショカン」の組み合わせの２つの組み合わせを選択する。

なお、使用者は、施設を限定するために施設名称の前に地名をつけて発話することがある。このため、「キョウト」と「トショカン」が認識された場合には、「キョウト」と「トショカン」の２つのキーワードを含む語の言い換え語である可能性とともに、京都市内にある「トショカン」の言い換え語である可能性もある。

このために、ステップＳ２６では、理解結果生成部１１５は、ステップＳ２１〜Ｓ２４で作成した検索式に、選択したキーワードの組み合わせごとの検索条件をそれぞれ追加した検索式を作成する。検索式の具体例については、図５で後述する。そして、理解結果生成部１１５は、作成した検索式を用いて音声認識用辞書・文法１１４に記録されている認識対象語句を検索する。なお、認識対象語句は、あらかじめディスク１４１から音声認識用辞書・文法１１４へ読み込んでおく。

その後、ステップＳ２７へ進み、理解結果生成部１１５は、ステップＳ２６で検索を行なった結果、認識対象語句が抽出されたか否かを判断する。認識対象語句が抽出されなかったと判断した場合には、ステップＳ２８へ進み、理解結果生成部１１５は、認識キーワード群に含まれるキーワードの数を調べる。

その結果、キーワードが２個以上であると判断した場合には、ステップＳ２９に進んで、理解結果生成部１１５は、キーワードの認識信頼度を計算し、認識キーワード群から信頼度が低いキーワードを取り除く。ここでは、信頼度が所定値以下のキーワードを全て除外するようにしてもよく、最も信頼度が低い１つのキーワードを除外するようにしてもよい。なお、信頼度計算については、例えば特開２００１−０３４２９２号公報に記載されているように公知の技術であるため、詳細についての説明は省略する。そして、ステップＳ２５へ戻って、信頼度の低いキーワードを取り除いた後の認識キーワード群を対象としてキーワードの組み合わせを再度選択する。

これに対して、キーワードが１個以下であると判断した場合には、図２に示す処理に復帰する。この場合には、図２のステップＳ１１で、理解結果生成部１１５は、使用者によって言い換え語は発話されなかったと判断して、キーワード認識処理による認識結果を応答生成部１１６へ出力する。

一方、ステップＳ２７で認識対象語句が抽出されたと判断した場合には、抽出された全ての認識対象語句を言い換え対象語句として、ステップＳ３０へ進む。なお、言い換え対象語句は、使用者が発話した可能性がある言い換え語に対応する認識対象語句に相当する。ステップＳ３０では、理解結果生成部１１５は、各言い換え対象語句ごとに、認識キーワード群に含まれる各キーワードの出現順序（「イソゴ Garbage ヤクショ」の場合には「イソゴ」が１番目、「ヤクショ」が２番目）と、言い換え対象語句内に含まれるキーワード群（候補キーワード群）における各キーワードの出現順序とを比較する。

そして、認識キーワード群と候補キーワード群とのそれぞれに含まれるキーワードのうち、同じキーワード同士の出現順序が近似している方が重み値が大きくなるように各言い換え対象語句に対して重み付けを行う。すなわち、認識キーワード群に含まれる各キーワードの出現順序に近い順序で各キーワードを含む言い換え対象語句の重み値が大きくなるように重み付けを行う。

その後、ステップＳ３１へ進み、理解結果生成部１１５は、候補キーワード群に含まれるキーワードの数が、認識キーワード群に含まれるキーワードの数に近い方が、重み値が大きくなるように、各言い換え対象語句に対して重み付けを行う。なお、ステップＳ３０およびステップＳ３１の重み付けの具体例については、図５で後述する。その後、図２に示す処理に復帰し、ステップＳ１０において、理解結果生成部１１５は、最も重み値が大きい言い換え対象語句を理解結果として生成して応答生成部１１６へ出力する。

これによって、使用者が発話した言い換え語に対応する認識対象語句（＝言い換え対象語句）を特定することができる。換言すれば、使用者は、最も重み値が大きい言い換え対象語句の言い換え語を発話したものと特定することができる。

図５は、言い換え対象語句検索処理の具体例を模式的に示した図である。この図５に示す例では、使用者が施設名としての「那須国際カントリークラブ」の言い換え語として「那須国際ゴルフクラブ」と発話した場合の例を示している。この場合のキーワード認識処理による認識結果４０１は、「ナスコクサイゴルフクラブシガ Garbage」となっている。すなわち、キーワード認識処理による認識結果４０１には、認識キーワード群４１０として、ナス４１１、コクサイ４１２、ゴルフ４１３、クラブ４１４、およびシガ４１５が含まれている。

なお、認識結果４０１においては、使用者が発話していない「シガ」が発話の語尾に誤認識されて付加されている。これは、キーワード文法２０１に「シガ」のような短いキーワードが待ち受け単語として記録されている場合には、雑音がこの短いキーワードとして誤認識される可能性があるためである。

図４に示したフローチャートでは、ステップＳ２１〜ステップＳ２４で、今回の発話以前にすでに使用者によって地名や施設種別が発話されていれば、それらに応じて検索式を追加しているが、ここでは説明の簡略化のため、事前にこれらの発話はないものとする。ステップＳ２５において、理解結果生成部１１５は、認識キーワード群から言い換え対象語句を検索するためのキーワードの組み合わせを選択し、ステップＳ２６で各組み合わせに対応した検索式４２１〜４２８をそれぞれ作成する。以下、検索式４２１〜４２８についてそれぞれ説明する。

上述したように、原則としては、認識キーワード群に含まれる全てのキーワードに関連する認識対象語句を検索するためのキーワードの組み合わせを選択して検索式を作成する。しかしながら、図５に示す例では、認識キーワード群４１０に含まれるナス（那須）４１１とシガ（滋賀）４１２は、地理条件として矛盾するため、ひとつの検索式ではどちらか一方のみを扱うようにする。すなわち、認識キーワード群４１０からシガ４１５を除いたキーワードの組み合わせを選択して検索式４２１を作成し、認識キーワード群４１０からナス４１１を除いた組み合わせを選択して検索式４２２を作成する。

また、ナス（那須）４１１とシガ（滋賀）４１２は地名であるため、施設名に含まれるキーワードではなく、施設名にかかる限定句である可能性もある。よって、これらのキーワードを施設の存在する地域に対する限定句として使用した検索式４２３および条件式４２４を作成する。ここで、検索式４２１は、「ナス」、「コクサイ」、「ゴルフ」、および「クラブ」の４つのキーワードを含む施設名を検索するものであるのに対して、検索式４２３では、「那須」地域にあって、「コクサイ」、「ゴルフ」、「クラブ」の３つのキーワードを含む施設名を検索するものである。

さらに、「ゴルフ」および「クラブ」で構成される「ゴルフクラブ」という語句は施設種別を表すキーワードであるため、これらのキーワードは施設名に含まれるキーワードではなく、施設名にかかる限定句である可能性もある。このため、「ゴルフ」および「クラブ」というキーワードを「ゴルフクラブ」という施設の種別に関する限定句として使用した検索式４２５および４２６を作成する。同様に、地域と施設種別の両方が限定句である場合の検索式４２７および４２８を作成する。

これらの検索式を使ってステップＳ２６で検索を行なった結果、検索結果４３１が得られる。この検索結果４３１では、検索結果として「那須国際カントリークラブ」および「滋賀国際ゴルフ」の２つの認識対象語句が言い換え対象語句として抽出されている。理解結果生成部１１５は、この２つの言い換え対象語句に対して、ステップＳ３０およびステップＳ３１で重み付けを行う。

まず、ステップＳ３０では、理解結果生成部１１５は、各キーワードの出現順序に応じた重み付けを行う。具体的には、１つ目の言い換え対象語句である「那須国際カントリークラブ」のキーワードの出現順序は、「ナス、コクサイ、クラブ」であり、これは認識キーワード群におけるナス４１１、コクサイ４１２、およびクラブ４１４の出現順序と一致している。このように、出現順序が認識キーワード群と一致しているキーワードの重み値は１とする。これに対して、２つ目の言い換え対象語句である「滋賀国際ゴルフ」のキーワードの出現順序は、「シガ、コクサイ、クラブ」であり、これは認識キーワード群におけるコクサイ４１２、クラブ４１４、およびシガ４１１の出現順序と比べると、「シガ」の出現位置が異なっている。このように出現順序が認識キーワード群と一致していないキーワードの重み値は１／２とする。

本実施の形態では、理解結果生成部１１５は、ステップＳ３０で各言い換え対象語句に含まれるキーワードの重み値の平均値を各言い換え対象語句の重み値として算出する。すなわち、ステップＳ３０における各言い換え対象語句の重み値は次式（１）および（２）のように算出される。
「那須国際カントリークラブ」の重み値＝（「ナス」の重み値＋「コクサイ」の重み値＋「クラブ」の重み値）×１／３＝（１＋１＋１）×１／３＝１・・・（１）
「滋賀国際ゴルフ」の重み値＝（「シガ」の重み値＋「コクサイ」の重み値＋「ゴルフ」の重み値）×１／３＝（１／２＋１＋１）×１／３＝５／６≒０．８３・・・（２）

また、理解結果生成部１１５は、ステップＳ３１では、認識キーワード群４１０に含まれるキーワードの数に対する言い換え対象語句に含まれるキーワードの数の割合を各言い換え対象語句の重み値として算出する。すなわち、認識キーワード群４１０に含まれるキーワードの数が５であるのに対して、「那須国際カントリークラブ（ナス、コクサイ、クラブ）」および「滋賀国際ゴルフ（シガ、コクサイ、クラブ）」のいずれも言い換え対象語句内に３つのキーワードを含んでいることから、それぞれの重み値は３／５（０．６）となる。

そして、図２のステップＳ１０においては、理解結果生成部１１５は、ステップＳ３０で算出した重み値とステップＳ３１で算出した重み値とをかけて、その結果得られる判定用重み値が大きい方の言い換え対象語句を理解結果として生成する。例えば、図５の検索結果４３１においては、次式（３）および（４）によって各言い換え対象語句の判定用重み値を算出する。
「那須国際カントリークラブ」の判定用重み値＝１×０．６＝０．６・・・（３）
「滋賀国際ゴルフ」の判定用重み値＝０．８３×０．６≒０．５・・・（４）

この式（３）および（４）より、図５に示す例では、理解結果生成部１１５は、「那須国際カントリークラブ」を理解結果として生成して、応答生成部１１６へ出力する。すなわち、理解結果生成部１１５は、使用者によって発話された「那須国際ゴルフクラブ」という言い換え語に対応する認識対象語句「那須国際カントリークラブ」を発話音声の音声認識結果として決定する。これによって、使用者によって言い換え語が発話された場合でも、それに対応する認識対象語句を発話音声の認識結果として正しく認識することができる。

以上説明した本実施の形態によれば、以下のような作用効果を得ることができる。
（１）キーワード認識処理による認識結果と再認識処理による認識結果とに基づいて、使用者によって認識対象語句の言い換え語が発話されたか否かを判断し、言い換え語が発話されたと判断した場合には、キーワード認識処理で認識したキーワードに基づいて、言い換え語に対応する認識対象語句を発話音声の音声認識結果として決定するようにした。これによって、使用者が言い換え語を発話した場合でも正しく音声認識をすることができる。

（２）キーワード認識処理による認識結果に基づいて発話音声の再認識が必要であるか否かを判断し、再認識が必要であると判断した場合には、認識したキーワードを含む認識対象語句を待ち受け単語として再認識処理を行うようにした。これによって、キーワード認識処理の結果に応じて、再認識処理時の待ち受け単語を絞り込むことができ、待ち受け単語を記録するためのメモリ容量を少なくすることができる。

（３）複数の認識対象語句に共通して含まれる音節をキーワードとするようにした。これによって、意味的なキーワードを含まない語、あるいは音節中に含まれる意味的なキーワードと認識対象語句の実態とが一致していない語であっても、キーワードと認識対象語句との対応をとることができる。

（４）再認識処理による認識結果として得られる認識スコアが、キーワード認識処理による認識結果として得られる認識スコアよりも所定以上低い場合に、言い換え語が発話されたと判断するようにした。これによって、発話者が認識対象語句そのものを正しく発話しなかった場合でも、発話内容の一部にキーワードを含んでいれば、言い換え語が発話されたことを検出することができる。

（５）発話音声から複数のキーワードが認識キーワード群として認識された場合には、認識キーワード群に関連する認識対象語句、すなわち複数のキーワードの全てに関連する認識対象語句を使用者が発話した言い換え語に対応する認識対象語句として特定するようにした。これによって、それぞれのキーワードに関連する認識対象語句が複数ある場合でも、全てのキーワードに関連する認識対象語句のみを対象とすればよいため、発話内容を絞り込むことができる。

（６）キーワード認識処理によって発話音声から複数のキーワードが認識されたとき、複数のキーワードの中に意味的な矛盾を生じさせるキーワードの組が含まれている場合には、キーワードの組の中からいずれか１つのキーワード以外を除外した。そして、除外後のキーワード群に関連する認識対象語句、すなわち除外後に残った全てのキーワードに関連する認識対象語句を使用者が発話した言い換え語に対応する認識対象語句として特定するようにした。これによって、誤検出された可能性が高いキーワードを除外することができ、キーワードの誤検出による影響を受けにくくすることができる。

（７）言い換え語に対応する認識対象語句が複数特定された場合には、発話音声に含まれるキーワードの出現順序に近い順序で各キーワードを含む認識対象語句の重み値が高くなるように重み付けを行なった。また、認識キーワード群に含まれるキーワードの数に対する言い換え語に対応する認識対象語句の中に含まれるキーワードの数の割合が高い認識対象語句の重み値が高くなるように重み付けを行なった。そして、それぞれの重み値をかけて１つの認識対象語句を言い換え語に対応する認識対象語句として特定するようにした。これによって、使用者が発話した言い換え語に対応する認識対象語句を精度高く特定することができる。

（８）複数のキーワードの全てに関連する認識対象語句が抽出できない場合には、複数のキーワードの中から１つ以上のキーワードを除外し、残った全てのキーワードに関連する認識対象語句を使用者が発話した言い換え語に対応する認識対象語句として特定するようにした。これによって、全てのキーワードに関連する認識対象語句がない場合には、キーワードの数を減らして対象とする認識対象語句を増やすことができる。

（９）キーワードを除外するに当たっては、各キーワードの認識信頼度を算出し、算出したキーワードが低い１つ以上のキーワードを除外するようにした。これによって、誤検出された可能性が高いキーワードを除外することができ、キーワードの誤検出による影響を受けにくくすることができる。

―変形例―
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
（１）上述した実施の形態では、音声認識装置１００をナビゲーション装置に搭載する例について説明した。しかしながら、使用者による発話を受け付けて音声認識を行う他の装置に搭載することも可能である。例えば音声によって操作可能なオーディオ装置などに搭載してもよい。

（２）上述した実施の形態では、キーワード文法に含むキーワードとして、複数の認識対象語句に共通して含まれる音節、すなわち音節キーワードを用いる例について説明した。しかしながら、認識対象語句を表す特徴的な語をキーワードとしてもよい。例えば、地名やジャンル名といった施設を限定するのに使用される特徴的な語をキーワードとしてもよい。これによって、使用者が、認識対象語句と意味的に類似する語句を誤って発話した場合でも、キーワードと認識対象語句との対応をとることができる。

（３）上述した実施の形態では、音声認識処理部１１３は、キーワード認識処理を行った後、認識したキーワードを含む認識対象語句を再認識用文法として再認識処理を行う例について説明した。しかしながら、認識対象語句の数が少ない場合には、あらかじめ全ての認識対象語句を音声認識用辞書・文法１１４にロードしておき、キーワード文法２０１によるキーワード認識処理と並行して全ての認識対象語句を対象とした認識処理を行なってもよい。このように処理を並行して実行することによって、処理にかかる時間を短縮することができる。なお、この場合には、キーワード認識処理の結果として得られる認識スコアと、全ての認識対象語句を対象とした認識処理の結果として得られる認識スコアとを比較することで、言い換え語が発話された可能性があるか否かを判定すればよい。

（４）上述した実施の形態では、理解結果生成部１１５は、再認識処理の認識結果の認識スコアがキーワード認識処理の認識結果の認識スコアよりも所定以上低い場合に、言い換え語が発話された可能性があると判断する例について説明した。しかしながら、キーワード認識処理の認識結果の認識スコアに関わらず、再認識処理の認識結果の認識スコアが所定の閾値を超えない場合には、言い換え語が発話された可能性があると判断するようにしてもよい。これによって、より正確に言い換え語が発話された可能性を判断することができる。

（５）上述した実施の形態では、理解結果生成部１１５は、言い換え語に対応する認識対象語句が複数特定された場合には、図４のステップＳ３０でキーワードの出現順序に基づく重み付けを行い、ステップＳ３１でキーワードの数に基づく重み付けを行なった。そして、ステップＳ３０で算出した重み値とステップＳ３１で算出した重み値とをかけて、１つの言い換え語に対応する認識対象語句を特定するようにした。しかしながら、ステップＳ３０およびステップＳ３１のうち、いずれか一方の重み付け処理のみを行って、いずれか一方の重み値に基づいて１つの言い換え語に対応する認識対象語句を特定するようにしてもよい。

なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク１３０は音声入力手段に、音声認識処理部１１３は第１の認識手段、第２の認識手段、および再認識判断手段に相当する。理解結果生成部１１５は言い換え語判断手段、および認識結果決定手段に相当する。なお、以上の説明はあくまでも一例であり、発明を解釈する際、上記の実施形態の記載事項と特許請求の範囲の記載事項の対応関係に何ら限定も拘束もされない。

音声認識装置の一実施の形態の構成を示すブロック図である。音声認識処理のフローチャート図である。音声認識処理の具体例を模式的に示した図である。言い換え対象語句検索処理のフローチャート図である。言い換え対象語句検索処理の具体例を模式的に示した図である。

符号の説明

１００音声認識装置
１１０制御装置
１１１入力制御部
１１２音声バッファ
１１３音声認識処理部
１１４音声認識用辞書・文法
１１５理解結果生成部
１１６応答生成部
１１７ＧＵＩ表示制御部
１１８音声合成部
１２０発話開始スイッチ
１３０マイク
１４０ディスク読取装置
１４１ディスク
１５０モニタ
１６０スピーカ

Claims

使用者の発話音声を入力する音声入力手段と、
認識対象語句に含まれるキーワードを待ち受け単語として、入力された前記発話音声に含まれるキーワードを認識する第１の認識手段と、
前記認識対象語句を待ち受け単語として、前記発話音声を認識する第２の認識手段と、
前記第１の認識手段による認識結果、および前記第２の認識手段による認識結果に基づいて、使用者によって前記認識対象語句の言い換え語が発話された可能性があるか否かを判断する言い換え語判断手段と、
前記言い換え語判断手段で前記言い換え語が発話された可能性があると判断した場合には、前記第１の認識手段で認識したキーワードに基づいて、前記言い換え語に対応する前記認識対象語句を特定し、特定した前記認識対象語句を前記発話音声の音声認識結果として決定する認識結果決定手段とを備えることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記第１の認識手段による認識結果に基づいて、前記発話音声の再認識が必要であるか否かを判断する再認識判断手段をさらに備え、
前記第２の認識手段は、前記再認識判断手段で再認識が必要であると判断した場合に、前記第１の認識手段で認識したキーワードを含む認識対象語句を待ち受け単語として、前記発話音声を認識することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記第１の認識手段による認識処理、および前記第２の認識手段による認識処理を並行して行なうことを特徴とする音声認識装置。
請求項１〜３のいずれか一項に記載の音声認識装置において、
複数の前記認識対象語句に共通して含まれる音節を前記キーワードとすることを特徴とする音声認識装置。
請求項１〜３のいずれか一項に記載の音声認識装置において、
前記認識対象語句を表す特徴的な語を前記キーワードとすることを特徴とする音声認識装置。
請求項１〜５のいずれか一項に記載の音声認識装置において、
前記言い換え語判断手段は、前記第２の認識手段による認識結果として得られる認識スコアが、前記第１の認識手段による認識結果として得られる認識スコアよりも所定以上低い場合に、前記言い換え語が発話された可能性があると判断することを特徴とする音声認識装置。
請求項１〜５のいずれか一項に記載の音声認識装置において、
前記言い換え語判断手段は、前記第２の認識手段による認識結果の認識スコアが所定の閾値を超えない場合に、前記言い換え語が発話された可能性があると判断することを特徴とする音声認識装置。
請求項１〜７のいずれか一項に記載の音声認識装置において、
前記認識結果決定手段は、前記第１の認識手段によって前記発話音声から複数のキーワードがキーワード群として認識された場合には、前記キーワード群に関連する前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。
請求項１〜７のいずれか一項に記載の音声認識装置において、
前記認識結果決定手段は、前記第１の認識手段によって前記発話音声から複数のキーワードが認識されたとき、前記複数のキーワードの中に意味的な矛盾を生じさせるキーワードの組が含まれている場合には、前記キーワードの組の中からいずれか１つのキーワード以外を除外したキーワード群に関連する前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。
請求項８または９に記載の音声認識装置において、
前記認識結果決定手段は、前記言い換え語に対応する前記認識対象語句が複数特定された場合には、前記発話音声に含まれるキーワードの出現順序に近い順序で各キーワードを含む１つの前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。
請求項８〜１０のいずれか一項に記載の音声認識装置において、
前記認識結果決定手段は、前記言い換え語に対応する前記認識対象語句が複数特定された場合には、前記キーワード群に含まれるキーワードの数に対する前記言い換え語に対応する前記認識対象語句の中に含まれるキーワードの数の割合が高い１つの前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。
請求項８〜１１のいずれか一項に記載の音声認識装置において、
前記認識結果決定手段は、前記キーワード群に関連する前記認識対象語句を抽出できない場合には、前記キーワード群から１つ以上のキーワードを除外して、除外後のキーワード群に関連する前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。
請求項１２に記載の音声認識装置において、
前記認識結果決定手段は、前記キーワード群に関連する前記認識対象語句が抽出できない場合には、前記キーワード群に含まれる各キーワードの認識信頼度を算出し、算出した認識信頼度が低い１つ以上のキーワードを前記キーワード群から除外することを特徴とする音声認識装置。
認識対象語句に含まれるキーワードを待ち受け単語として、入力された発話音声に含まれるキーワードを認識し、
前記認識対象語句を待ち受け単語として、前記発話音声を認識し、
前記キーワードの認識結果、および前記発話音声の認識結果に基づいて、使用者によって前記認識対象語句の言い換え語が発話された可能性があるか否かを判断し、
前記言い換え語が発話されたと判断した場合には、認識した前記キーワードに基づいて、前記言い換え語に対応する前記認識対象語句を特定し、特定した前記認識対象語句を前記発話音声の音声認識結果として決定することを特徴とする音声認識方法。