JP2006039383A

JP2006039383A - 音声認識装置

Info

Publication number: JP2006039383A
Application number: JP2004221824A
Authority: JP
Inventors: Takeshi Ono; 健大野; Minoru Togashi; 実冨樫
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-07-29
Filing date: 2004-07-29
Publication date: 2006-02-09

Abstract

【課題】キーワードによる認識対象語の絞り込みを適切に行って最適な語彙数の辞書を再構築し、その後の音声認識処理で適切な認識結果を得られるようにする。
【解決手段】信号処理装置６の認識処理手段１１が、第１の音声認識処理でユーザ発話文から抽出したキーワードを検索キーワードとして用いて、辞書再構築のための認識対象語の絞り込みを行う。このとき、絞り込み度合い判断手段１２が認識処理手段１１による認識対象語の絞り込み度合いを判断し、絞り込みが過剰であると判断された場合には、絞り込み条件を緩和した上で認識対象語の絞り込みを再度行う。そして、最適な語彙数に絞り込まれた認識対象語で辞書を再構築し、再構築した辞書を用いた第２の音声認識処理により、ユーザ発話文に対する最終的な認識結果を得る。
【選択図】図１

Description

本発明は、ユーザからの発話音声を認識する音声認識装置に関するものであり、特に、ユーザ発話文に対する第１の音声認識処理の結果得られたキーワードを検索キーワードとして用いて認識対象語の絞り込みを行い、絞り込んだ認識対象語で辞書を再構築して、再構築した辞書を用いた第２の音声認識処理により認識結果を得る音声認識装置の改良に関する。

従来、ユーザからの発話音声と、予め記憶された認識対象語の標準発話音声パターンとを対比することで、ユーザが発話した音声の認識を行う音声認識技術が知られており、例えば、車両のナビゲーションシステムにおける各種設定入力等に応用されている。

このような音声認識技術では、ユーザからの発話に対して１回の音声認識処理のみで認識結果を得ようとすると、膨大な数の認識対象語を比較対象として音声パターンのマッチングを行う必要があり、演算負荷が増大するばかりか、誤認識を生じる可能性も大きくなる。そこで、このような問題への対策の一つとして、ワードスポッティングと呼ばれる技術を用いてユーザの発話文からキーワードを抽出し、抽出したキーワードを用いて認識対象語を絞り込んで辞書を再構築し、これを用いて再度音声認識処理を行うことで、最終的な認識結果を得るようにした音声認識装置が提案されている（例えば、特許文献１等を参照。）。

前記特許文献１には、第１の音声認識処理でキーワードを抽出し、抽出したキーワードを用いてユーザからの発話文の話題を確定し、確定した話題から語彙数を限定した認識対象語の辞書を再構築して、再構築した辞書を用いた第２の音声認識処理により認識結果を得るという技術が記載されている。
特開２００１−３４２９２号公報

ところで、ワードスポッティングによりユーザ発話文から抽出したキーワードを用いて認識対象語の絞り込みを行い、認識対象語の辞書を再構築する場合、通常は、ユーザ発話文から抽出したキーワードをＡＮＤ条件で結んで、これを検索条件として認識対象語のデータベースを検索し、データベースから検索条件に合致する認識対象語を抽出して辞書を再構築するようにしているのが一般的である。したがって、検索に用いるキーワード（以下、検索キーワードと呼ぶ。）の数が多いほど認識対象語の辞書の語彙数をより絞り込めることになり、その分、後の音声認識処理での演算負荷を低減することが可能となる。

しかしながら、一般的にワードスポッティング技術の認識率は十分でないこともあり、ワードスポッティングにより抽出したキーワードには誤認識したキーワードが含まれている可能性もある。そして、認識対象語を絞り込む際に用いる検索キーワードの数を増やすと、誤認識したキーワードで認識対象語を過剰に絞り込んでしまう可能性も高くなり、このような場合には、所望の語彙が辞書から外れてしまってその後の音声認識処理でも誤認識が生じ、適切な認識結果が得られなくなるといった問題が生じる。

本発明は、以上のような従来技術の有する問題点を解消すべく創案されたものであって、キーワードによる認識対象語の絞り込みを適切に行って最適な語彙数の辞書を再構築し、その後の音声認識処理で適切な認識結果を得られるようにした音声認識装置を提供することを目的としている。

本発明に係る音声認識装置は、ユーザ発話文に対する第１の音声認識処理の結果得られたキーワードを検索キーワードとして用いて認識対象語の絞り込みを行い、絞り込んだ認識対象語で辞書を再構築して、再構築した辞書を用いた第２の音声認識処理により認識結果を得るものである。このような音声認識装置において、本発明では、前記目的を達成するために、検索キーワードによる認識対象語の絞り込み度合いを判断する絞り込み度合い判断手段を備える。そして、この絞り込み度合い判断手段により認識対象語の絞り込みが過剰であると判断された場合には、絞り込み条件を緩和させて、認識対象語の絞り込みを再度行うようにしている。

本発明に係る音声認識装置によれば、検索キーワードによる認識対象語の絞り込み度合いが過剰な場合には、絞り込み条件を緩和させて認識対象語の絞り込みを再度行うようにしているので、認識対象語の絞り込みを適切に行って最適な語彙数の辞書を再構築することができ、その後の音声認識処理での認識精度を向上させることができる。

以下、本発明の具体的な実施形態について、図面を参照しながら詳細に説明する。

本実施形態の音声認識装置は、例えば、車両に搭載される音声入力型ナビゲーションシステム等に適用されるものであり、図１に示すようなハード構成で実現される。すなわち、この音声認識装置は、マイク１、ディスプレイ２、スピーカ３、入力装置４及び信号処理ユニット５を備えて構成される。

マイク１は、ユーザからの発話音声が入力されるものであり、このマイク１に入力されたユーザ発話音声は信号処理ユニット５へと送られる。ディスプレイ２は、信号処理ユニット５の処理結果等を文字情報として表示するものであり、スピーカ３は、信号処理ユニット５の処理結果等を音声で出力するものである。また、入力装置４は、ユーザの各種操作入力を受け付けるものであり、音声認識処理の開始を指示するための発話スイッチ４ａと、誤認識した場合の訂正を指示するための訂正スイッチ４ｂとを有している。なお、この入力装置４の訂正スイッチ４ｂは、ユーザがこれを一定期間押し続けたときに、音声認識処理の中断を指示する機能も有している。

信号処理ユニット５は、本実施形態の音声認識装置における主要な処理を実行するものであり、各種信号処理を行う信号処理装置６や、信号処理装置６での音声認識処理で音声認識の対象となる認識対象語を記憶している外部記憶装置（データベース）７、マイク１からアナログ信号として信号処理ユニット５に入力されたユーザ発話音声の音声信号をデジタル信号に変換するＡ／Ｄコンバータ８、信号処理装置６での処理結果をアナログ信号に変換するＤ／Ａコンバータ９、Ｄ／Ａコンバータ９の出力に応じてスピーカ２を作動させる出力アンプ１０等を有して構成される。

信号処理装置６は、ＣＰＵやＲＯＭ、ＲＡＭ、入出力インターフェース等がバスを介して相互に接続されたマイクロプロセッサ構成を有しており、ＣＰＵがＲＡＭをワークエリアとして利用してＲＯＭに格納されている各種のプログラムを実行することで、様々な機能を実現するものである。特に、本実施形態の音声認識装置では、この信号処理装置６において、ユーザの発話文を認識するための音声認識処理を行う認識処理手段１１としての機能と、認識処理手段１１で辞書の再構築を行うための認識対象語の絞り込みを行った際にその絞り込み度合いを判断する絞り込み度合い判断手段１２としての機能とが実現されるようになっている。

本実施形態の音声認識装置において、信号処理装置６で実現される認識処理手段１１は、２段階での音声認識処理によりユーザが入力した発話文の内容を認識する。すなわち、認識処理手段１１は、第１の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードを検索キーワードとして用いて認識対象語の絞り込みを行い、絞り込んだ認識対象語で辞書を再構築して、再構築した辞書を用いた第２の音声認識処理で最終的な認識結果を得るようにしている。

具体的に説明すると、認識処理手段１１は、先ず、ユーザからの発話を待ち受ける待ち受け設定によって、外部記憶装置７に認識対象語として記憶されている多数の単語のうちでユーザが発話する可能性の高いキーワード候補となる単語を選択し、選択したキーワード候補となる単語及びその標準発話音声パターンを信号処理装置６内のＲＡＭに読み込んで認識対象語の辞書を構築する。例えば、本実施形態の音声認識装置が車載ナビゲーションシステムに適用され、音声認識によって車両の目的地等の設定を行う場合には、ユーザは目的地として設定したい地点の名称をその属性を表すキーワード（都道府県名や路線名等）で特定しながら発話することが多いので、認識処理手段１１はこのようなキーワードの候補となる単語を選択して信号処理装置６内のＲＡＭに読み込み、図２に示すように、これらのキーワード候補群で認識対象語の辞書を構築する。

なお、本実施形態の音声認識装置で認識対象語のデータベースとして用いられる外部記憶装置７には、例えば、車載ナビゲーションシステムにおける目的地設定等の対象となる各種地点の名称が、その名称の属性を表すキーワード（都道府県名や路線名等）と関連づけられて、その標準発話音声パターンとともに記憶されている。

そして、マイク１に入力されたユーザの発話音声がＡ／Ｄコンバータ８でデジタル信号に変換されて信号処理装置６に入力されると、認識処理手段１１は、先ず、第１の音声認識処理を行い、ワードスポッティングと呼ばれる技術を用いて、ユーザから発話された一連の発話文の中からキーワードを抽出する処理を行う。ワードスポッティングによりユーザの発話文からキーワードを抽出する処理は、前記特許文献１にも記載されているように公知の技術であるのでここでは詳細な説明は省略するが、その概要は、ユーザの発話文の中で単語の発話と思われる部分の音声パターンと、図２に示すような辞書に含まれる認識対象語（キーワード候補）の標準発話音声パターンとを対比してその一致度を演算し、一致度の高い単語をユーザの発話文に含まれるキーワードと認識するというものである。

ワードスポッティングによりユーザの発話文に含まれるキーワードを抽出すると、認識処理手段１１は、次に、ユーザ発話文から抽出したキーワードを検索キーワードとして用いて、第２の音声認識処理で用いる辞書再構築のための認識対象語の絞り込みを行う。具体的には、認識処理手段１１は、ユーザ発話文から抽出した各キーワードをＡＮＤ条件で結び、これを検索条件として外部記憶装置７を検索して、検索条件に合致する認識対象語を抽出する。

ここで、通常は、以上のように第１の音声認識処理でユーザ発話文から抽出したキーワードを検索キーワードとして絞り込んだ認識対象語により、第２の音声認識処理で用いる辞書を再構築するが、このように、ユーザ発話文から抽出したキーワードで認識対象語を絞り込んで辞書を再構築した場合、必ずしも再構築された辞書の語彙数が適切な数になるとは限らず、場合によっては再構築された辞書の語彙数が数個程度と過小になることも想定される。この場合、第１の音声認識処理で誤認識が生じていなければ、数個程度の語彙の中に目的とする単語が含まれている可能性が高く、第２の音声認識処理で適切な認識結果が得られるものと期待されるが、一般的にワードスポッティング技術の認識率は十分でないこともあり、第１の音声認識処理で誤認識が生じている場合も考えられる。このような場合には、誤ったキーワードで認識対象語の絞り込みが行われ、目的とする単語が辞書から外れてしまって第２の音声認識処理でも誤認識が生じ、適切な認識結果が得られなくなるといった問題が生じる。また、第１の音声認識処理で誤認識が生じていない場合であっても、ユーザが誤ったキーワードを発話してこれを検索キーワードとして絞り込みを行った場合には、目的とする単語が辞書から外れてしまって第２の音声認識処理で誤認識が生じ、適切な認識結果が得られなくなることも想定される。

そこで、本実施形態の音声認識装置においては、認識処理手段１１がユーザ発話文から抽出したキーワードを検索キーワードとして用いて認識対象語の絞り込みを行ったときに、その絞り込みの度合いを、絞り込み度合い判断手段１２が判断するようにしている。そして、絞り込み度合い判断手段１２により認識対象語の絞り込みが過剰であると判断された場合には、認識処理手段１１は、絞り込み条件を緩和させた上で、認識対象語の絞り込みを再度行うようにしている。

具体的には、絞り込み度合い判断手段１２は、ユーザ発話文から抽出したキーワード全てを検索キーワードとして用いて認識対象語の絞り込みを行った場合に、再構築される辞書の語彙数として予め設定した所定値の語彙数が確保できるかどうかを判断する。そして、絞り込み度合い判断手段１２により再構築される辞書の語彙数が所定値以下になると判断された場合には、認識処理手段１１が検索キーワードの数を変更し、再構築される辞書が所定値の語彙数を確保できるような数の検索キーワードを用いて、認識対象語の絞り込みを再度行うようにしている。

ここで、検索キーワード数の変更による絞り込み条件緩和の具体的手法としては、以下の２つが挙げられる。１つは、ユーザ発話文から抽出したキーワードのうちの何れかを検索キーワードから除外する方法である。ユーザ発話文から抽出したキーワードを検索キーワードとする場合、これらは上述したようにＡＮＤ条件で結ばれるので、これらのうちの何れかを検索キーワードから除外することで、絞り込み条件が緩和されることになる。

また、他の１つは、ユーザ発話文から抽出したキーワードのうちの何れかと同じカテゴリに属する他のキーワード候補を検索キーワードに加える方法である。ここで、カテゴリとはキーワード候補となる単語をその種類別に分類した際の分類をいい、例えば、図２に示した例で「千葉県」がキーワードとして抽出された場合、これと同じカテゴリに属する他のキーワード候補としては、「埼玉県」、「東京都」、「神奈川県」、「静岡県」が挙げられる。この例では、ユーザ発話文から抽出した各キーワードをＡＮＤ条件で結ぶとともに、何れかのキーワードと同じカテゴリに属する他のキーワード候補とをＯＲ条件で結んで検索条件とすることで、絞り込みの条件が緩和されることになる。

認識処理手段１１は、絞り込み度合い判断手段１２によって認識対象語の絞り込みが過剰であると判断された場合には、第１の音声認識処理でユーザ発話文から抽出したキーワードの数等に応じて、以上の２つの手法を選択的に、或いはこれら２つの手法を組み合わせて、認識対象語を絞り込む際の絞り込み条件を緩和させるようにすればよい。

認識対象語の絞り込みが適正に行われたら、認識処理手段１１は、次に、絞り込んだ認識対象語及びその標準発話音声パターンを外部記憶装置７から信号処理装置６内のＲＡＭに転送し、これらの認識対象語で第２の音声認識処理のための辞書を再構築する。そして、この再構築された辞書を用いて第２の音声認識処理を行い、ユーザ発話文の中で第１の音声認識処理により認識されなかった部分の音声パターンと再構築された辞書に含まれる単語の標準発話音声パターンとを対比してその一致度を演算し、一致度の高いものをユーザの発話文に含まれる単語として認識し、最終的な認識結果を得る。

認識処理手段１１での第２の音声認識処理により最終的な認識結果が得られると、その認識結果がＤ／Ａコンバータ９にてアナログ信号に変換され、出力アンプ１０で増幅されてスピーカ３から音声出力される。また、認識処理手段１１による認識結果は、必要に応じてディスプレイ２に送られて文字情報として表示される。そして、この認識処理手段１１での認識結果をユーザが確認した上で、入力装置４の訂正スイッチ４ｂの押圧操作がなければ、所定時間経過後にこの認識処理手段１１での認識結果に応じて、例えば車載ナビゲーションシステムにおける目的地設定等の各種処理が行われることになる。

次に、本実施形態の音声認識装置の動作概要について、車載ナビゲーションシステムに適用した場合における具体的な例を挙げながら、図３のフローチャートに沿って説明する。車載ナビゲーションシステムに適用された本実施形態の音声認識装置は、例えば車両のイグニッションキー操作によって起動され、図３に示す処理フローを開始させる。

すなわち、本実施形態の音声認識装置は、先ずステップＳ１において、ユーザにより入力装置４の発話スイッチ４ａが押圧操作されたかを監視する。そして、ユーザが入力装置４の発話スイッチ４ａを操作すると、そのスイッチオン信号が信号処理装置６に入力されて、信号処理装置６が処理を開始する。

次に、ステップＳ２において、信号処理装置６が音声認識処理のための待ち受け設定を行う。この待ち受け設定によって、外部記憶装置７に記憶されている認識対象語のうちで、ユーザが発話する可能性の高いキーワード候補となる認識対象語が選択的に読み出され、その標準発話音声パターンとともに信号処理装置６のＲＡＭに転送されて認識対象語の辞書が構築される。

次に、ステップＳ３において、信号処理装置６は、プロンプトすなわち処理を開始した旨をユーザに知らせるために、ユーザ告知用の定型文のデータをディスプレイ２に出力して、ディスプレイ２に例えば「音声を入力して下さい。」といった文字情報を表示させ、また、告知音声信号をＤ／Ａコンバータ９及び出力アンプ１０を介してスピーカ３に出力し、スピーカ３から例えば「音声を入力して下さい。」といったアナウンスを出力させる。なお、これらユーザ告知用の定型文のデータや音声信号は、例えば外部記憶装置７に記憶されており、ここから読み出されてディスプレイ２やスピーカ３に送られる。ユーザは、このような告知を受けて信号処理装置６が処理を開始したことを認識し、マイク１を用いて、例えば車載ナビゲーションシステムでの目的地設定等のための音声入力を行う。

マイク１に入力されたユーザの発話文は、Ａ／Ｄコンバータ８でデジタル信号に変換され、信号処理装置６に入力される。信号処理装置６では、入力装置４の発話スイッチ４ａの操作がなされるまでは、Ａ／Ｄコンバータ８を介して入力されるデジタル信号の平均パワーを演算しており、発話スイッチ４ａの操作が行われた後、Ａ／Ｄコンバータ８を介して入力されるデジタル信号の瞬間パワーが前記平均パワーよりも所定値以上大きくなったとき、ユーザが音声入力を開始したと判断して、音声取り込みを開始する。

次に、信号処理装置６は、ステップＳ４において、デジタル信号として入力されたユーザ発話文に対する第１の音声認識処理を行い、ワードスポッティングによりユーザ発話文に含まれるキーワードを抽出する。具体的には、信号処理装置６は、ユーザ発話文の中で単語の発話と思われる部分の音声パターンと、ステップＳ２の待ち受け設定で構築した辞書に含まれる認識対象語（キーワード候補群）の標準発話音声パターンとを対比してそれらの一致度を演算する。この一致度、すなわちユーザ発話文の中で単語の発話と思われる部分と個々の認識対象語とがどの程度似ているかは、スコアとして得られる。このスコアは、例えば一致度が高いほど大きな値で表され、スコアの十分大きいキーワードがここでの認識結果として記憶されることになる。

なお、本ステップの一致度演算を行っている間も、並行処理により音声取り込みは継続されている。また、キーワードの一致度演算は再起的に行われ、最終的に第１の音声認識処理での認識結果としては、複数のキーワードとキーワード以外の部分（以下、未知語と呼ぶ。）との連接が得られる。その後、ステップＳ５において、Ａ／Ｄコンバータ８を介して入力されるデジタル信号の瞬間パワーが所定値を下回った状態が所定時間以上継続したときに、信号処理装置６はユーザの音声入力が終了したと判断して、音声取り込みを終了する。

次に、信号処理装置６は、ステップＳ６において、ステップＳ４の第１の音声認識処理でユーザ発話文から抽出したキーワードを検索キーワードとして用いて、認識対象語の絞り込みを行う。そして、ステップＳ７において、認識対象語の絞り込み度合いが適正であるかどうかを判断し、絞り込みが過剰となっている場合には、ステップＳ８において絞り込み条件を緩和した上でステップＳ６に戻り、認識対象語の絞り込みを再度行う。そして、ステップＳ７で認識対象語の絞り込み度合いが適正であると判断された段階でステップＳ９に進み、ステップＳ９において、絞り込んだ認識対象語で辞書を再構築する。

ここで、ユーザ発話文が「東名自動車動の海老名ＳＡ（エスエー）」であった場合を例に挙げて、信号処理装置６における前記ステップＳ４〜ステップＳ８までの処理をより具体的に説明する。

以上のようなユーザ発話文に対してステップＳ４での第１の音声認識処理を行った結果、ユーザ発話文からキーワードとして「自動車道」、「ＳＡ」が抽出されて、ステップＳ５で音声取り込みが終了したとする。この場合、信号処理装置６は、ステップＳ６において、ユーザ発話文から抽出したキーワード「自動車道」、「ＳＡ」をＡＮＤ条件で結び、これを検索条件として、外部記憶装置７に記憶されている認識対象語の中から検索条件に合致する認識対象語を抽出する。そして、次のステップＳ７において、検索条件に合致する認識対象語の語彙数が適切であるか、すなわち、これらの認識対象語で再構築される辞書の語彙数として所定値が確保できるかどうかを判断する。

本例の場合、ステップＳ６での絞り込みによって、各自動車道の各サービスエリアが検索条件に合致する認識対象語として抽出されることになり、語彙数としては適正な値となることが予想されるので、ステップＳ７の判定がＹｅｓとなり、次のステップＳ８において、各自動車道の各サービスエリアの名前を認識対象語として持つ辞書が再構築されることになる。

一方、上述したユーザ発話文に対してステップＳ４での第１の音声認識処理を行った結果、ユーザ発話文からキーワードとして「常磐」、「自動車道」、「ＳＡ」が抽出されて、ステップＳ５で音声取り込みが終了したとする。この場合には、信号処理装置６は、ステップＳ６において、ユーザ発話文から抽出したキーワード「常磐」、「自動車道」、「ＳＡ」をＡＮＤ条件で結び、これを検索条件として、外部記憶装置７に記憶されている認識対象語の中から検索条件に合致する認識対象語を抽出する。そして、次のステップＳ７において、検索条件に合致する認識対象語の語彙数が適切であるか、すなわち、これらの認識対象語で再構築される辞書の語彙数として所定値が確保できるかどうかを判断する。

本例の場合、ステップＳ６での絞り込みによって、常磐自動車道のサービスエリアが検索条件に合致する認識対象語として抽出されることになり、認識対象語の語彙数が所定値以下となることが予想されるので、ステップＳ７の判定がＮｏとなる。この場合、ステップＳ９において絞り込み条件の緩和が行われる。

絞り込み条件緩和の具体的手法としては、上述したように、ユーザ発話文から抽出したキーワードのうちの何れかを検索キーワードから除外する方法と、ユーザ発話文から抽出したキーワードのうちの何れかと同じカテゴリに属する他のキーワード候補を検索キーワードに加える方法がある。

先ず、前者の方法を採用した場合の例を説明する。この場合、ユーザ発話文から抽出した３つのキーワード「常磐」、「自動車道」、「ＳＡ」のうちで、一致度を表すスコアが最も低いものを除外する。本例の場合、「常磐」というキーワードが誤認識されているキーワードであり、このキーワードのスコアが最も低いことが予想されるので、検索キーワードから「常磐」を除外する。そして、残ったキーワード「自動車道」、「ＳＡ」をＡＮＤ条件で結んで新たな検索条件として、ステップＳ６での認識対象語の絞り込みを再度行う。その結果、上述した例と同様に、検索条件に合致する認識対象語が適正な語彙数となることが予想されるので、ステップＳ７の判定がＹｅｓとなり、次のステップＳ８において、各自動車道の各サービスエリアの名前を認識対象語として持つ辞書が再構築されることになる。

次に、後者の方法を採用した場合の例を説明する。この場合、先ず、ユーザ発話文から抽出した３つのキーワード「常磐」、「自動車道」、「ＳＡ」のうちで、一致度を表すスコアが最も低いものを選択する。本例の場合、「常磐」というキーワードが誤認識されているキーワードであり、このキーワードのスコアが最も低いことが予想されるので、「常磐」というキーワードが選択されることになる。そして、選択した「常磐」というキーワードと同じカテゴリに属する他のキーワード候補のスコアを確認する。ここでは、「常磐」というキーワードと同じカテゴリに属する他のキーワード候補として「東名」、「中央」、「東北」、「京葉」等が挙げられ、これらのキーワード候補の中で「東名」のスコアが最も高いことが予想される。そこで、この「東名」というキーワード候補を検索キーワードに加え、「常磐」と「東名」をＯＲ条件で結ぶとともに、これらと「自動車道」、「ＳＡ」をＡＮＤ条件で結んで新たな検索条件とし、ステップＳ６での認識対象語の絞り込みを再度行う。そして、絞り込みの結果、認識対象語の語彙数が所定値に達していなければ、同様の手法で次にスコアの高いキーワード候補、例えば「東北」等のキーワード候補を検索キーワードに順次加えていき、所定値の語彙数が確保できた段階でステップＳ８に進む。その結果、ステップＳ８において、検索キーワードとして用いられた各自動車道の各サービスエリアの名前を認識対象語として持つ辞書が再構築されることになる。

以上のようにして認識対象語の辞書の再構築が行われると、次に、信号処理装置６は、ステップＳ１０において、再構築された辞書を用いて第２の音声認識処理を行い、第１の音声認識処理で未知語とされた部分の音声パターンと、再構築された辞書に含まれる音声認識語の標準発話音声パターンとを対比してそれらの一致度を演算する。或いは、キーワードと未知語との連接であるユーザ発話文全体の音声パターンと、キーワードの標準発話音声パターンと再構築された辞書に含まれる音声認識語の標準音声パターンとを連結したものとの一致度を演算するようにしてもよい。いずれの場合も、このステップＳ１０での第２の音声認識処理によりユーザ発話文全体に対する一致度が演算され、一致度が高いものが最終的なユーザ発話文の認識結果とされる。

ステップＳ１０での第２の音声認識処理により最終的な認識結果が得られると、次のステップＳ１１において、その認識結果が図示しない音声合成処理機能によって音声信号に変換され、その音声信号がＤ／Ａコンバータ９、出力アンプ１０を経てスピーカ３に送られて、スピーカ３から音声出力される。また、認識処理手段１１による認識結果は、必要に応じてディスプレイ２に送られて文字情報として表示される。

その後、信号処理装置６は、ユーザにより入力装置４の訂正スイッチ４ｂが押圧操作されたかを監視し（ステップＳ１２）、所定時間内に訂正スイッチ４ｂの押圧操作がなければユーザが認識結果を容認したものと判断して、次のステップＳ１３において、認識結果に応じた各種処理を実行させる。その結果、上述した例では、東名自動車道の海老名ＳＡが車載ナビゲーションシステムにおける目的地として設定されることになる。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声認識装置では、ユーザ発話文から抽出したキーワードを検索キーワードとして用いて認識対象語の絞り込みを行う際に、その絞り込み度合いを判断して、絞り込みが過剰であると判断した場合には、絞り込み条件を緩和させて認識対象語の絞り込みを再度行うようにしているので、適正な語彙数に絞り込まれた認識対象語で辞書を再構築することができる。そして、このように適正な語彙数の認識対象語で再構築された辞書を用いてその後の音声認識処理が行われるので、ユーザ発話文を効率的且つ高精度に認識することができる。

本発明を適用した音声認識装置のハード構成を示す構成図である。キーワード候補群で構成される認識対象語の辞書の一形態を示す図である。本発明を適用した音声認識装置により実行される処理の流れを示すフローチャートである。

符号の説明

１マイク
２ディスプレイ
３スピーカ
４入力装置
５信号処理ユニット
６信号処理装置
７外部記憶装置
１１認識処理手段
１２絞り込み度合い判断手段

Claims

ユーザ発話文に対する第１の音声認識処理の結果得られたキーワードを検索キーワードとして用いて認識対象語の絞り込みを行い、絞り込んだ認識対象語で辞書を再構築して、再構築した辞書を用いた第２の音声認識処理により認識結果を得る音声認識装置において、
前記検索キーワードによる認識対象語の絞り込み度合いを判断する絞り込み度合い判断手段を備え、
前記絞り込み度合い判断手段により認識対象語の絞り込みが過剰であると判断された場合には、絞り込み条件を緩和させて、認識対象語の絞り込みを再度行うことを特徴とする音声認識装置。
前記絞り込みにより再構築される辞書の語彙数が所定値以下になると判断される場合に、絞り込みに用いる検索キーワードの数を変更し、前記所定値の語彙数を確保できる数の検索キーワードを用いて、認識対象語の絞り込みを再度行うことを特徴とする請求項１に記載の音声認識装置。
前記絞り込みにより再構築される辞書の語彙数が所定値以下になると判断される場合に、前記第１の音声認識処理によりユーザ発話文から抽出したキーワードのうちの何れかを検索キーワードから除外して、認識対象語の絞り込みを再度行うことを特徴とする請求項２に記載の音声認識装置。
前記絞り込みにより再構築される辞書の語彙数が所定値以下になると判断される場合に、前記第１の音声認識処理によりユーザ発話文から抽出したキーワードのうちの何れかと同じカテゴリに属する他のキーワード候補を検索キーワードに付加して、認識対象語の絞り込みを再度行うことを特徴とする請求項２に記載の音声認識装置。