JP2006039383A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2006039383A JP2006039383A JP2004221824A JP2004221824A JP2006039383A JP 2006039383 A JP2006039383 A JP 2006039383A JP 2004221824 A JP2004221824 A JP 2004221824A JP 2004221824 A JP2004221824 A JP 2004221824A JP 2006039383 A JP2006039383 A JP 2006039383A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- speech recognition
- dictionary
- keyword
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】キーワードによる認識対象語の絞り込みを適切に行って最適な語彙数の辞書を再構築し、その後の音声認識処理で適切な認識結果を得られるようにする。
【解決手段】信号処理装置6の認識処理手段11が、第1の音声認識処理でユーザ発話文から抽出したキーワードを検索キーワードとして用いて、辞書再構築のための認識対象語の絞り込みを行う。このとき、絞り込み度合い判断手段12が認識処理手段11による認識対象語の絞り込み度合いを判断し、絞り込みが過剰であると判断された場合には、絞り込み条件を緩和した上で認識対象語の絞り込みを再度行う。そして、最適な語彙数に絞り込まれた認識対象語で辞書を再構築し、再構築した辞書を用いた第2の音声認識処理により、ユーザ発話文に対する最終的な認識結果を得る。
【選択図】図1
【解決手段】信号処理装置6の認識処理手段11が、第1の音声認識処理でユーザ発話文から抽出したキーワードを検索キーワードとして用いて、辞書再構築のための認識対象語の絞り込みを行う。このとき、絞り込み度合い判断手段12が認識処理手段11による認識対象語の絞り込み度合いを判断し、絞り込みが過剰であると判断された場合には、絞り込み条件を緩和した上で認識対象語の絞り込みを再度行う。そして、最適な語彙数に絞り込まれた認識対象語で辞書を再構築し、再構築した辞書を用いた第2の音声認識処理により、ユーザ発話文に対する最終的な認識結果を得る。
【選択図】図1
Description
本発明は、ユーザからの発話音声を認識する音声認識装置に関するものであり、特に、ユーザ発話文に対する第1の音声認識処理の結果得られたキーワードを検索キーワードとして用いて認識対象語の絞り込みを行い、絞り込んだ認識対象語で辞書を再構築して、再構築した辞書を用いた第2の音声認識処理により認識結果を得る音声認識装置の改良に関する。
従来、ユーザからの発話音声と、予め記憶された認識対象語の標準発話音声パターンとを対比することで、ユーザが発話した音声の認識を行う音声認識技術が知られており、例えば、車両のナビゲーションシステムにおける各種設定入力等に応用されている。
このような音声認識技術では、ユーザからの発話に対して1回の音声認識処理のみで認識結果を得ようとすると、膨大な数の認識対象語を比較対象として音声パターンのマッチングを行う必要があり、演算負荷が増大するばかりか、誤認識を生じる可能性も大きくなる。そこで、このような問題への対策の一つとして、ワードスポッティングと呼ばれる技術を用いてユーザの発話文からキーワードを抽出し、抽出したキーワードを用いて認識対象語を絞り込んで辞書を再構築し、これを用いて再度音声認識処理を行うことで、最終的な認識結果を得るようにした音声認識装置が提案されている(例えば、特許文献1等を参照。)。
前記特許文献1には、第1の音声認識処理でキーワードを抽出し、抽出したキーワードを用いてユーザからの発話文の話題を確定し、確定した話題から語彙数を限定した認識対象語の辞書を再構築して、再構築した辞書を用いた第2の音声認識処理により認識結果を得るという技術が記載されている。
特開2001−34292号公報
ところで、ワードスポッティングによりユーザ発話文から抽出したキーワードを用いて認識対象語の絞り込みを行い、認識対象語の辞書を再構築する場合、通常は、ユーザ発話文から抽出したキーワードをAND条件で結んで、これを検索条件として認識対象語のデータベースを検索し、データベースから検索条件に合致する認識対象語を抽出して辞書を再構築するようにしているのが一般的である。したがって、検索に用いるキーワード(以下、検索キーワードと呼ぶ。)の数が多いほど認識対象語の辞書の語彙数をより絞り込めることになり、その分、後の音声認識処理での演算負荷を低減することが可能となる。
しかしながら、一般的にワードスポッティング技術の認識率は十分でないこともあり、ワードスポッティングにより抽出したキーワードには誤認識したキーワードが含まれている可能性もある。そして、認識対象語を絞り込む際に用いる検索キーワードの数を増やすと、誤認識したキーワードで認識対象語を過剰に絞り込んでしまう可能性も高くなり、このような場合には、所望の語彙が辞書から外れてしまってその後の音声認識処理でも誤認識が生じ、適切な認識結果が得られなくなるといった問題が生じる。
本発明は、以上のような従来技術の有する問題点を解消すべく創案されたものであって、キーワードによる認識対象語の絞り込みを適切に行って最適な語彙数の辞書を再構築し、その後の音声認識処理で適切な認識結果を得られるようにした音声認識装置を提供することを目的としている。
本発明に係る音声認識装置は、ユーザ発話文に対する第1の音声認識処理の結果得られたキーワードを検索キーワードとして用いて認識対象語の絞り込みを行い、絞り込んだ認識対象語で辞書を再構築して、再構築した辞書を用いた第2の音声認識処理により認識結果を得るものである。このような音声認識装置において、本発明では、前記目的を達成するために、検索キーワードによる認識対象語の絞り込み度合いを判断する絞り込み度合い判断手段を備える。そして、この絞り込み度合い判断手段により認識対象語の絞り込みが過剰であると判断された場合には、絞り込み条件を緩和させて、認識対象語の絞り込みを再度行うようにしている。
本発明に係る音声認識装置によれば、検索キーワードによる認識対象語の絞り込み度合いが過剰な場合には、絞り込み条件を緩和させて認識対象語の絞り込みを再度行うようにしているので、認識対象語の絞り込みを適切に行って最適な語彙数の辞書を再構築することができ、その後の音声認識処理での認識精度を向上させることができる。
以下、本発明の具体的な実施形態について、図面を参照しながら詳細に説明する。
本実施形態の音声認識装置は、例えば、車両に搭載される音声入力型ナビゲーションシステム等に適用されるものであり、図1に示すようなハード構成で実現される。すなわち、この音声認識装置は、マイク1、ディスプレイ2、スピーカ3、入力装置4及び信号処理ユニット5を備えて構成される。
マイク1は、ユーザからの発話音声が入力されるものであり、このマイク1に入力されたユーザ発話音声は信号処理ユニット5へと送られる。ディスプレイ2は、信号処理ユニット5の処理結果等を文字情報として表示するものであり、スピーカ3は、信号処理ユニット5の処理結果等を音声で出力するものである。また、入力装置4は、ユーザの各種操作入力を受け付けるものであり、音声認識処理の開始を指示するための発話スイッチ4aと、誤認識した場合の訂正を指示するための訂正スイッチ4bとを有している。なお、この入力装置4の訂正スイッチ4bは、ユーザがこれを一定期間押し続けたときに、音声認識処理の中断を指示する機能も有している。
信号処理ユニット5は、本実施形態の音声認識装置における主要な処理を実行するものであり、各種信号処理を行う信号処理装置6や、信号処理装置6での音声認識処理で音声認識の対象となる認識対象語を記憶している外部記憶装置(データベース)7、マイク1からアナログ信号として信号処理ユニット5に入力されたユーザ発話音声の音声信号をデジタル信号に変換するA/Dコンバータ8、信号処理装置6での処理結果をアナログ信号に変換するD/Aコンバータ9、D/Aコンバータ9の出力に応じてスピーカ2を作動させる出力アンプ10等を有して構成される。
信号処理装置6は、CPUやROM、RAM、入出力インターフェース等がバスを介して相互に接続されたマイクロプロセッサ構成を有しており、CPUがRAMをワークエリアとして利用してROMに格納されている各種のプログラムを実行することで、様々な機能を実現するものである。特に、本実施形態の音声認識装置では、この信号処理装置6において、ユーザの発話文を認識するための音声認識処理を行う認識処理手段11としての機能と、認識処理手段11で辞書の再構築を行うための認識対象語の絞り込みを行った際にその絞り込み度合いを判断する絞り込み度合い判断手段12としての機能とが実現されるようになっている。
本実施形態の音声認識装置において、信号処理装置6で実現される認識処理手段11は、2段階での音声認識処理によりユーザが入力した発話文の内容を認識する。すなわち、認識処理手段11は、第1の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードを検索キーワードとして用いて認識対象語の絞り込みを行い、絞り込んだ認識対象語で辞書を再構築して、再構築した辞書を用いた第2の音声認識処理で最終的な認識結果を得るようにしている。
具体的に説明すると、認識処理手段11は、先ず、ユーザからの発話を待ち受ける待ち受け設定によって、外部記憶装置7に認識対象語として記憶されている多数の単語のうちでユーザが発話する可能性の高いキーワード候補となる単語を選択し、選択したキーワード候補となる単語及びその標準発話音声パターンを信号処理装置6内のRAMに読み込んで認識対象語の辞書を構築する。例えば、本実施形態の音声認識装置が車載ナビゲーションシステムに適用され、音声認識によって車両の目的地等の設定を行う場合には、ユーザは目的地として設定したい地点の名称をその属性を表すキーワード(都道府県名や路線名等)で特定しながら発話することが多いので、認識処理手段11はこのようなキーワードの候補となる単語を選択して信号処理装置6内のRAMに読み込み、図2に示すように、これらのキーワード候補群で認識対象語の辞書を構築する。
なお、本実施形態の音声認識装置で認識対象語のデータベースとして用いられる外部記憶装置7には、例えば、車載ナビゲーションシステムにおける目的地設定等の対象となる各種地点の名称が、その名称の属性を表すキーワード(都道府県名や路線名等)と関連づけられて、その標準発話音声パターンとともに記憶されている。
そして、マイク1に入力されたユーザの発話音声がA/Dコンバータ8でデジタル信号に変換されて信号処理装置6に入力されると、認識処理手段11は、先ず、第1の音声認識処理を行い、ワードスポッティングと呼ばれる技術を用いて、ユーザから発話された一連の発話文の中からキーワードを抽出する処理を行う。ワードスポッティングによりユーザの発話文からキーワードを抽出する処理は、前記特許文献1にも記載されているように公知の技術であるのでここでは詳細な説明は省略するが、その概要は、ユーザの発話文の中で単語の発話と思われる部分の音声パターンと、図2に示すような辞書に含まれる認識対象語(キーワード候補)の標準発話音声パターンとを対比してその一致度を演算し、一致度の高い単語をユーザの発話文に含まれるキーワードと認識するというものである。
ワードスポッティングによりユーザの発話文に含まれるキーワードを抽出すると、認識処理手段11は、次に、ユーザ発話文から抽出したキーワードを検索キーワードとして用いて、第2の音声認識処理で用いる辞書再構築のための認識対象語の絞り込みを行う。具体的には、認識処理手段11は、ユーザ発話文から抽出した各キーワードをAND条件で結び、これを検索条件として外部記憶装置7を検索して、検索条件に合致する認識対象語を抽出する。
ここで、通常は、以上のように第1の音声認識処理でユーザ発話文から抽出したキーワードを検索キーワードとして絞り込んだ認識対象語により、第2の音声認識処理で用いる辞書を再構築するが、このように、ユーザ発話文から抽出したキーワードで認識対象語を絞り込んで辞書を再構築した場合、必ずしも再構築された辞書の語彙数が適切な数になるとは限らず、場合によっては再構築された辞書の語彙数が数個程度と過小になることも想定される。この場合、第1の音声認識処理で誤認識が生じていなければ、数個程度の語彙の中に目的とする単語が含まれている可能性が高く、第2の音声認識処理で適切な認識結果が得られるものと期待されるが、一般的にワードスポッティング技術の認識率は十分でないこともあり、第1の音声認識処理で誤認識が生じている場合も考えられる。このような場合には、誤ったキーワードで認識対象語の絞り込みが行われ、目的とする単語が辞書から外れてしまって第2の音声認識処理でも誤認識が生じ、適切な認識結果が得られなくなるといった問題が生じる。また、第1の音声認識処理で誤認識が生じていない場合であっても、ユーザが誤ったキーワードを発話してこれを検索キーワードとして絞り込みを行った場合には、目的とする単語が辞書から外れてしまって第2の音声認識処理で誤認識が生じ、適切な認識結果が得られなくなることも想定される。
そこで、本実施形態の音声認識装置においては、認識処理手段11がユーザ発話文から抽出したキーワードを検索キーワードとして用いて認識対象語の絞り込みを行ったときに、その絞り込みの度合いを、絞り込み度合い判断手段12が判断するようにしている。そして、絞り込み度合い判断手段12により認識対象語の絞り込みが過剰であると判断された場合には、認識処理手段11は、絞り込み条件を緩和させた上で、認識対象語の絞り込みを再度行うようにしている。
具体的には、絞り込み度合い判断手段12は、ユーザ発話文から抽出したキーワード全てを検索キーワードとして用いて認識対象語の絞り込みを行った場合に、再構築される辞書の語彙数として予め設定した所定値の語彙数が確保できるかどうかを判断する。そして、絞り込み度合い判断手段12により再構築される辞書の語彙数が所定値以下になると判断された場合には、認識処理手段11が検索キーワードの数を変更し、再構築される辞書が所定値の語彙数を確保できるような数の検索キーワードを用いて、認識対象語の絞り込みを再度行うようにしている。
ここで、検索キーワード数の変更による絞り込み条件緩和の具体的手法としては、以下の2つが挙げられる。1つは、ユーザ発話文から抽出したキーワードのうちの何れかを検索キーワードから除外する方法である。ユーザ発話文から抽出したキーワードを検索キーワードとする場合、これらは上述したようにAND条件で結ばれるので、これらのうちの何れかを検索キーワードから除外することで、絞り込み条件が緩和されることになる。
また、他の1つは、ユーザ発話文から抽出したキーワードのうちの何れかと同じカテゴリに属する他のキーワード候補を検索キーワードに加える方法である。ここで、カテゴリとはキーワード候補となる単語をその種類別に分類した際の分類をいい、例えば、図2に示した例で「千葉県」がキーワードとして抽出された場合、これと同じカテゴリに属する他のキーワード候補としては、「埼玉県」、「東京都」、「神奈川県」、「静岡県」が挙げられる。この例では、ユーザ発話文から抽出した各キーワードをAND条件で結ぶとともに、何れかのキーワードと同じカテゴリに属する他のキーワード候補とをOR条件で結んで検索条件とすることで、絞り込みの条件が緩和されることになる。
認識処理手段11は、絞り込み度合い判断手段12によって認識対象語の絞り込みが過剰であると判断された場合には、第1の音声認識処理でユーザ発話文から抽出したキーワードの数等に応じて、以上の2つの手法を選択的に、或いはこれら2つの手法を組み合わせて、認識対象語を絞り込む際の絞り込み条件を緩和させるようにすればよい。
認識対象語の絞り込みが適正に行われたら、認識処理手段11は、次に、絞り込んだ認識対象語及びその標準発話音声パターンを外部記憶装置7から信号処理装置6内のRAMに転送し、これらの認識対象語で第2の音声認識処理のための辞書を再構築する。そして、この再構築された辞書を用いて第2の音声認識処理を行い、ユーザ発話文の中で第1の音声認識処理により認識されなかった部分の音声パターンと再構築された辞書に含まれる単語の標準発話音声パターンとを対比してその一致度を演算し、一致度の高いものをユーザの発話文に含まれる単語として認識し、最終的な認識結果を得る。
認識処理手段11での第2の音声認識処理により最終的な認識結果が得られると、その認識結果がD/Aコンバータ9にてアナログ信号に変換され、出力アンプ10で増幅されてスピーカ3から音声出力される。また、認識処理手段11による認識結果は、必要に応じてディスプレイ2に送られて文字情報として表示される。そして、この認識処理手段11での認識結果をユーザが確認した上で、入力装置4の訂正スイッチ4bの押圧操作がなければ、所定時間経過後にこの認識処理手段11での認識結果に応じて、例えば車載ナビゲーションシステムにおける目的地設定等の各種処理が行われることになる。
次に、本実施形態の音声認識装置の動作概要について、車載ナビゲーションシステムに適用した場合における具体的な例を挙げながら、図3のフローチャートに沿って説明する。車載ナビゲーションシステムに適用された本実施形態の音声認識装置は、例えば車両のイグニッションキー操作によって起動され、図3に示す処理フローを開始させる。
すなわち、本実施形態の音声認識装置は、先ずステップS1において、ユーザにより入力装置4の発話スイッチ4aが押圧操作されたかを監視する。そして、ユーザが入力装置4の発話スイッチ4aを操作すると、そのスイッチオン信号が信号処理装置6に入力されて、信号処理装置6が処理を開始する。
次に、ステップS2において、信号処理装置6が音声認識処理のための待ち受け設定を行う。この待ち受け設定によって、外部記憶装置7に記憶されている認識対象語のうちで、ユーザが発話する可能性の高いキーワード候補となる認識対象語が選択的に読み出され、その標準発話音声パターンとともに信号処理装置6のRAMに転送されて認識対象語の辞書が構築される。
次に、ステップS3において、信号処理装置6は、プロンプトすなわち処理を開始した旨をユーザに知らせるために、ユーザ告知用の定型文のデータをディスプレイ2に出力して、ディスプレイ2に例えば「音声を入力して下さい。」といった文字情報を表示させ、また、告知音声信号をD/Aコンバータ9及び出力アンプ10を介してスピーカ3に出力し、スピーカ3から例えば「音声を入力して下さい。」といったアナウンスを出力させる。なお、これらユーザ告知用の定型文のデータや音声信号は、例えば外部記憶装置7に記憶されており、ここから読み出されてディスプレイ2やスピーカ3に送られる。ユーザは、このような告知を受けて信号処理装置6が処理を開始したことを認識し、マイク1を用いて、例えば車載ナビゲーションシステムでの目的地設定等のための音声入力を行う。
マイク1に入力されたユーザの発話文は、A/Dコンバータ8でデジタル信号に変換され、信号処理装置6に入力される。信号処理装置6では、入力装置4の発話スイッチ4aの操作がなされるまでは、A/Dコンバータ8を介して入力されるデジタル信号の平均パワーを演算しており、発話スイッチ4aの操作が行われた後、A/Dコンバータ8を介して入力されるデジタル信号の瞬間パワーが前記平均パワーよりも所定値以上大きくなったとき、ユーザが音声入力を開始したと判断して、音声取り込みを開始する。
次に、信号処理装置6は、ステップS4において、デジタル信号として入力されたユーザ発話文に対する第1の音声認識処理を行い、ワードスポッティングによりユーザ発話文に含まれるキーワードを抽出する。具体的には、信号処理装置6は、ユーザ発話文の中で単語の発話と思われる部分の音声パターンと、ステップS2の待ち受け設定で構築した辞書に含まれる認識対象語(キーワード候補群)の標準発話音声パターンとを対比してそれらの一致度を演算する。この一致度、すなわちユーザ発話文の中で単語の発話と思われる部分と個々の認識対象語とがどの程度似ているかは、スコアとして得られる。このスコアは、例えば一致度が高いほど大きな値で表され、スコアの十分大きいキーワードがここでの認識結果として記憶されることになる。
なお、本ステップの一致度演算を行っている間も、並行処理により音声取り込みは継続されている。また、キーワードの一致度演算は再起的に行われ、最終的に第1の音声認識処理での認識結果としては、複数のキーワードとキーワード以外の部分(以下、未知語と呼ぶ。)との連接が得られる。その後、ステップS5において、A/Dコンバータ8を介して入力されるデジタル信号の瞬間パワーが所定値を下回った状態が所定時間以上継続したときに、信号処理装置6はユーザの音声入力が終了したと判断して、音声取り込みを終了する。
次に、信号処理装置6は、ステップS6において、ステップS4の第1の音声認識処理でユーザ発話文から抽出したキーワードを検索キーワードとして用いて、認識対象語の絞り込みを行う。そして、ステップS7において、認識対象語の絞り込み度合いが適正であるかどうかを判断し、絞り込みが過剰となっている場合には、ステップS8において絞り込み条件を緩和した上でステップS6に戻り、認識対象語の絞り込みを再度行う。そして、ステップS7で認識対象語の絞り込み度合いが適正であると判断された段階でステップS9に進み、ステップS9において、絞り込んだ認識対象語で辞書を再構築する。
ここで、ユーザ発話文が「東名自動車動の海老名SA(エスエー)」であった場合を例に挙げて、信号処理装置6における前記ステップS4〜ステップS8までの処理をより具体的に説明する。
以上のようなユーザ発話文に対してステップS4での第1の音声認識処理を行った結果、ユーザ発話文からキーワードとして「自動車道」、「SA」が抽出されて、ステップS5で音声取り込みが終了したとする。この場合、信号処理装置6は、ステップS6において、ユーザ発話文から抽出したキーワード「自動車道」、「SA」をAND条件で結び、これを検索条件として、外部記憶装置7に記憶されている認識対象語の中から検索条件に合致する認識対象語を抽出する。そして、次のステップS7において、検索条件に合致する認識対象語の語彙数が適切であるか、すなわち、これらの認識対象語で再構築される辞書の語彙数として所定値が確保できるかどうかを判断する。
本例の場合、ステップS6での絞り込みによって、各自動車道の各サービスエリアが検索条件に合致する認識対象語として抽出されることになり、語彙数としては適正な値となることが予想されるので、ステップS7の判定がYesとなり、次のステップS8において、各自動車道の各サービスエリアの名前を認識対象語として持つ辞書が再構築されることになる。
一方、上述したユーザ発話文に対してステップS4での第1の音声認識処理を行った結果、ユーザ発話文からキーワードとして「常磐」、「自動車道」、「SA」が抽出されて、ステップS5で音声取り込みが終了したとする。この場合には、信号処理装置6は、ステップS6において、ユーザ発話文から抽出したキーワード「常磐」、「自動車道」、「SA」をAND条件で結び、これを検索条件として、外部記憶装置7に記憶されている認識対象語の中から検索条件に合致する認識対象語を抽出する。そして、次のステップS7において、検索条件に合致する認識対象語の語彙数が適切であるか、すなわち、これらの認識対象語で再構築される辞書の語彙数として所定値が確保できるかどうかを判断する。
本例の場合、ステップS6での絞り込みによって、常磐自動車道のサービスエリアが検索条件に合致する認識対象語として抽出されることになり、認識対象語の語彙数が所定値以下となることが予想されるので、ステップS7の判定がNoとなる。この場合、ステップS9において絞り込み条件の緩和が行われる。
絞り込み条件緩和の具体的手法としては、上述したように、ユーザ発話文から抽出したキーワードのうちの何れかを検索キーワードから除外する方法と、ユーザ発話文から抽出したキーワードのうちの何れかと同じカテゴリに属する他のキーワード候補を検索キーワードに加える方法がある。
先ず、前者の方法を採用した場合の例を説明する。この場合、ユーザ発話文から抽出した3つのキーワード「常磐」、「自動車道」、「SA」のうちで、一致度を表すスコアが最も低いものを除外する。本例の場合、「常磐」というキーワードが誤認識されているキーワードであり、このキーワードのスコアが最も低いことが予想されるので、検索キーワードから「常磐」を除外する。そして、残ったキーワード「自動車道」、「SA」をAND条件で結んで新たな検索条件として、ステップS6での認識対象語の絞り込みを再度行う。その結果、上述した例と同様に、検索条件に合致する認識対象語が適正な語彙数となることが予想されるので、ステップS7の判定がYesとなり、次のステップS8において、各自動車道の各サービスエリアの名前を認識対象語として持つ辞書が再構築されることになる。
次に、後者の方法を採用した場合の例を説明する。この場合、先ず、ユーザ発話文から抽出した3つのキーワード「常磐」、「自動車道」、「SA」のうちで、一致度を表すスコアが最も低いものを選択する。本例の場合、「常磐」というキーワードが誤認識されているキーワードであり、このキーワードのスコアが最も低いことが予想されるので、「常磐」というキーワードが選択されることになる。そして、選択した「常磐」というキーワードと同じカテゴリに属する他のキーワード候補のスコアを確認する。ここでは、「常磐」というキーワードと同じカテゴリに属する他のキーワード候補として「東名」、「中央」、「東北」、「京葉」等が挙げられ、これらのキーワード候補の中で「東名」のスコアが最も高いことが予想される。そこで、この「東名」というキーワード候補を検索キーワードに加え、「常磐」と「東名」をOR条件で結ぶとともに、これらと「自動車道」、「SA」をAND条件で結んで新たな検索条件とし、ステップS6での認識対象語の絞り込みを再度行う。そして、絞り込みの結果、認識対象語の語彙数が所定値に達していなければ、同様の手法で次にスコアの高いキーワード候補、例えば「東北」等のキーワード候補を検索キーワードに順次加えていき、所定値の語彙数が確保できた段階でステップS8に進む。その結果、ステップS8において、検索キーワードとして用いられた各自動車道の各サービスエリアの名前を認識対象語として持つ辞書が再構築されることになる。
以上のようにして認識対象語の辞書の再構築が行われると、次に、信号処理装置6は、ステップS10において、再構築された辞書を用いて第2の音声認識処理を行い、第1の音声認識処理で未知語とされた部分の音声パターンと、再構築された辞書に含まれる音声認識語の標準発話音声パターンとを対比してそれらの一致度を演算する。或いは、キーワードと未知語との連接であるユーザ発話文全体の音声パターンと、キーワードの標準発話音声パターンと再構築された辞書に含まれる音声認識語の標準音声パターンとを連結したものとの一致度を演算するようにしてもよい。いずれの場合も、このステップS10での第2の音声認識処理によりユーザ発話文全体に対する一致度が演算され、一致度が高いものが最終的なユーザ発話文の認識結果とされる。
ステップS10での第2の音声認識処理により最終的な認識結果が得られると、次のステップS11において、その認識結果が図示しない音声合成処理機能によって音声信号に変換され、その音声信号がD/Aコンバータ9、出力アンプ10を経てスピーカ3に送られて、スピーカ3から音声出力される。また、認識処理手段11による認識結果は、必要に応じてディスプレイ2に送られて文字情報として表示される。
その後、信号処理装置6は、ユーザにより入力装置4の訂正スイッチ4bが押圧操作されたかを監視し(ステップS12)、所定時間内に訂正スイッチ4bの押圧操作がなければユーザが認識結果を容認したものと判断して、次のステップS13において、認識結果に応じた各種処理を実行させる。その結果、上述した例では、東名自動車道の海老名SAが車載ナビゲーションシステムにおける目的地として設定されることになる。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声認識装置では、ユーザ発話文から抽出したキーワードを検索キーワードとして用いて認識対象語の絞り込みを行う際に、その絞り込み度合いを判断して、絞り込みが過剰であると判断した場合には、絞り込み条件を緩和させて認識対象語の絞り込みを再度行うようにしているので、適正な語彙数に絞り込まれた認識対象語で辞書を再構築することができる。そして、このように適正な語彙数の認識対象語で再構築された辞書を用いてその後の音声認識処理が行われるので、ユーザ発話文を効率的且つ高精度に認識することができる。
1 マイク
2 ディスプレイ
3 スピーカ
4 入力装置
5 信号処理ユニット
6 信号処理装置
7 外部記憶装置
11 認識処理手段
12 絞り込み度合い判断手段
2 ディスプレイ
3 スピーカ
4 入力装置
5 信号処理ユニット
6 信号処理装置
7 外部記憶装置
11 認識処理手段
12 絞り込み度合い判断手段
Claims (4)
- ユーザ発話文に対する第1の音声認識処理の結果得られたキーワードを検索キーワードとして用いて認識対象語の絞り込みを行い、絞り込んだ認識対象語で辞書を再構築して、再構築した辞書を用いた第2の音声認識処理により認識結果を得る音声認識装置において、
前記検索キーワードによる認識対象語の絞り込み度合いを判断する絞り込み度合い判断手段を備え、
前記絞り込み度合い判断手段により認識対象語の絞り込みが過剰であると判断された場合には、絞り込み条件を緩和させて、認識対象語の絞り込みを再度行うことを特徴とする音声認識装置。 - 前記絞り込みにより再構築される辞書の語彙数が所定値以下になると判断される場合に、絞り込みに用いる検索キーワードの数を変更し、前記所定値の語彙数を確保できる数の検索キーワードを用いて、認識対象語の絞り込みを再度行うことを特徴とする請求項1に記載の音声認識装置。
- 前記絞り込みにより再構築される辞書の語彙数が所定値以下になると判断される場合に、前記第1の音声認識処理によりユーザ発話文から抽出したキーワードのうちの何れかを検索キーワードから除外して、認識対象語の絞り込みを再度行うことを特徴とする請求項2に記載の音声認識装置。
- 前記絞り込みにより再構築される辞書の語彙数が所定値以下になると判断される場合に、前記第1の音声認識処理によりユーザ発話文から抽出したキーワードのうちの何れかと同じカテゴリに属する他のキーワード候補を検索キーワードに付加して、認識対象語の絞り込みを再度行うことを特徴とする請求項2に記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004221824A JP2006039383A (ja) | 2004-07-29 | 2004-07-29 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004221824A JP2006039383A (ja) | 2004-07-29 | 2004-07-29 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006039383A true JP2006039383A (ja) | 2006-02-09 |
Family
ID=35904420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004221824A Pending JP2006039383A (ja) | 2004-07-29 | 2004-07-29 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006039383A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
CN111223487A (zh) * | 2019-12-31 | 2020-06-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
-
2004
- 2004-07-29 JP JP2004221824A patent/JP2006039383A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
CN111223487A (zh) * | 2019-12-31 | 2020-06-02 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN111223487B (zh) * | 2019-12-31 | 2023-06-23 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
US8700397B2 (en) | Speech recognition of character sequences | |
EP1162602B1 (en) | Two pass speech recognition with active vocabulary restriction | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US6751595B2 (en) | Multi-stage large vocabulary speech recognition system and method | |
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US8108215B2 (en) | Speech recognition apparatus and method | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP2006039382A (ja) | 音声認識装置 | |
JP4475380B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2006039383A (ja) | 音声認識装置 | |
JP5201973B2 (ja) | 音声検索装置 | |
JP4282354B2 (ja) | 音声認識装置 | |
JP3039453B2 (ja) | 音声認識装置 | |
JP6991409B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 | |
JP2008083165A (ja) | 音声認識処理プログラム及び音声認識処理方法 | |
KR100930248B1 (ko) | 소리로부터 얻은 정보를 이용하여 인터넷을 검색하는 장치및 그 방법 | |
JP2000305590A (ja) | 音声認識方法 | |
JP3748429B2 (ja) | 音声入力型複合名詞の検索装置および音声入力型複合名詞の検索方法 | |
JP2008107641A (ja) | 音声データ検索装置 |