JP2007127896A

JP2007127896A - 音声認識装置及び音声認識方法

Info

Publication number: JP2007127896A
Application number: JP2005321428A
Authority: JP
Inventors: Takeshi Ono; 健大野
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2005-11-04
Filing date: 2005-11-04
Publication date: 2007-05-24

Abstract

【課題】一度行った訂正要求を再度行わなければならなくなる頻度を低減することができる音声認識装置を提供する。
【解決手段】音声認識装置は、過去の発話についての音声認識候補のうち、訂正意図に応じて、信号処理装置１４によって生成されたシステム応答とは異なる第１位以外の候補が採用された音声認識候補のパターンを、当該第１位以外の候補と関連付けてメモリ２２に記憶しておく。そして、信号処理装置１４は、今回の発話についての音声認識候補のパターンが、メモリ２２に記憶されている過去の発話についての音声認識候補のパターンと同一である場合には、当該第１位以外の候補を音声認識結果として採用する。
【選択図】図３

Description

本発明は、入力された音声を認識する音声認識装置及び音声認識方法に関する。

従来から、入力された音声を認識することにより、その音声に基づく所定の処理を行うことが可能な音声認識装置が提案されている。また、音声認識装置としては、ユーザからの要求に応じて誤認識を容易に訂正することができるものも提案されている（例えば、特許文献１等参照。）。
特開２０００−３１５０９６号公報

しかしながら、従来の音声認識装置においては、以前誤認識した状況と同様の音響条件のもとで同様の発話を行った場合には、同様の誤認識の発生を招来してしまうという問題があった。そのため、ユーザは、音響条件が変化しない状況で発話する場合には、毎回、誤認識の訂正要求を行わなければならないことがあった。

そこで、本発明は、上述した実情に鑑みて提案されたものであり、一度行った訂正要求を再度行わなければならなくなる頻度を低減することができる音声認識装置及び音声認識方法を提供することを目的とする。

本発明にかかる音声認識装置は、音声認識手段による過去の発話についての音声認識候補のうち、訂正意図に応じて、当該音声認識手段によって生成されたシステム応答とは異なる第１位以外の候補が採用された音声認識候補のパターンを、当該第１位以外の候補と関連付けて記憶手段に記憶し、今回の発話についての音声認識候補のパターンが、記憶手段に記憶されている過去の発話についての音声認識候補のパターンと同一である場合には、当該第１位以外の候補を音声認識結果として採用することにより、上述の課題を解決する。

また、本発明にかかる音声認識方法は、音声認識工程における過去の発話についての音声認識候補のうち、訂正意図に応じて、システム応答とは異なる第１位以外の候補が採用された音声認識候補のパターンを、当該第１位以外の候補と関連付けて記憶手段に記憶し、今回の発話についての音声認識候補のパターンが、記憶手段に記憶されている過去の発話についての音声認識候補のパターンと同一である場合には、当該第１位以外の候補を音声認識結果として採用することにより、上述の課題を解決する。

本発明にかかる音声認識装置及び音声認識方法においては、今回の発話についての音声認識候補のパターンが、記憶手段に記憶されている過去の発話についての音声認識候補のパターンと同一である場合には、過去に採用されたシステム応答とは異なる第１位以外の候補を音声認識結果として採用することから、一度行った訂正要求を再度行わなければならなくなる頻度を低減することができる。

以下、本発明の実施の形態について図面を参照して説明する。

この実施の形態として示す音声認識装置は、車両や、携帯端末装置などに搭載されるナビゲーション装置に適用した場合の構成である。この音声認識装置をナビゲーション装置に適用すると、ナビゲーション装置で要求される各種機能を、ユーザとシステムとのインタラクティブな対話によって動作させることができる。

なお、本発明は、これに限定されるものではなく、各種情報処理装置に搭載されて、各種機能をインタラクティブに段階的に動作させることができる、どのようなアプリケーションにも適用することができる。

［第１の実施の形態］
［音声認識装置の構成］
まず、図１を用いて、本発明の第１の実施の形態として示す音声認識装置の構成について説明をする。

音声認識装置は、信号処理ユニット１と、マイク２と、スピーカ３と、入力装置４と、タッチパネルディスプレイ５とを備えている。なお、本発明にかかわる主要構成要素ではないことから、図示しないが、携帯端末装置のナビゲーション装置であれば、他に送受信手段を備えた構成であってもよく、また、車両に搭載されたナビゲーション装置であれば、送受信手段または通信接続手段などを備えた構成であってもよい。

信号処理ユニット１は、マイク２から入力されるユーザによって発話された音声をデジタル音声信号に変換して出力するＡ／Ｄコンバータ１１と、システム応答として信号処理装置１４から出力されるデジタル音声信号をアナログ音声信号に変換して出力するＤ／Ａコンバータ１２と、Ｄ／Ａコンバータ１２から出力されるアナログ音声信号を増幅する出力アンプ１３と、信号処理装置１４と、外部記憶装置１５とを備えている。

信号処理装置１４は、ＣＰＵ（Central Processing Unit）２１と、メモリ２２とを備えており、マイク２から、Ａ／Ｄコンバータ１１を介して入力されるユーザによって発話された音声の音声認識処理を実行し、音声認識結果に応じたシステム応答を生成して出力する。また、信号処理装置１４は、バージイン機能を備えており、当該信号処理装置１４によるシステム応答に割り込むように入力されたユーザの発話音声に対しても音声認識処理を実行することができる。さらに、信号処理装置１４は、タッチパネルディスプレイ５を用いて入力された情報を認識し、認識結果に応じたシステム応答を生成して出力する。

ＣＰＵ２１は、信号処理装置１４を統括的に制御する制御手段である。ＣＰＵ２１は、メモリ２２に記憶されている処理プログラムを読み出して実行し、音声認識処理を制御したり、バージイン機能の制御を行ったりする。

通常、バージイン機能は、有効となっておらず機能していない。バージイン機能は、システム応答に対して、ユーザによる割り込み発話がなされると予測された場合にのみ有効となり、割り込み発話に対する音声認識処理が実行される。

メモリ２２は、ＣＰＵ２１で実行される処理プログラムや、使用頻度の高い各種データなどをあらかじめ記憶している。また、メモリ２２は、ＣＰＵ２１によって音声認識処理が実行される場合には、外部記憶装置１５から読み出された認識対象語及びその音響モデルが格納されることにより、認識対象語の辞書が構築される。

信号処理装置１４のＣＰＵ２１は、このメモリ２２に構築された辞書を参照して、ユーザによって発話された発話音声の音声特徴パターンと、認識対象語の音響モデルの音声パターンとの一致度を演算することで音声認識処理を行う。

外部記憶装置１５は、ナビゲーション装置で使用される各種データや、信号処理装置１４で実行される音声認識処理で使用される認識対象データや、システム応答用の音声データなどを記憶している。外部記憶装置１５は、認識対象データとして、音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらに、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを記憶している。認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものである。

認識対象語の音響モデルは、音響的に意味を持つ部分単語モデルを定義したものであり、一般的な発話速度で発話される際の通常発話と、通常発話を一旦行った際に誤認識されたと判断した後に、ユーザによって発話される訂正発話（言い直し発話）とのそれぞれ対応した音響モデルが用意されている。

また、ネットワーク文法とは、認識対象語の接続関係を規定するためのルールであり、例えば、図２に示すような階層構造で表すことができる。図２に示す例では、認識対象語である“駅名”を下位の階層Ｂとし、この下位の階層Ｂに接続される上位の階層Ａとして“都道府県名”を規定している。

信号処理装置１４は、図２に示すように認識対象語に対して規定された階層構造をなすネットワーク文法を用いることで、ユーザによって、例えば、「神奈川県の鶴見駅」といったような発話がなされた場合でも、音声認識をすることができる。

また、“都道府県名”と、“駅名”とを、それぞれ個別に有するネットワーク文法を切り替えて用いれば、「神奈川県」で発話が一旦完了され、その後「鶴見駅」と発話された場合でも音声認識をすることができる。

マイク２は、ユーザの発話音声を、当該音声認識装置に入力する。マイク２から入力されたユーザの発話音声は、電気信号である音声信号に変換され、Ａ／Ｄコンバータ１１でデジタル音声信号に変換されて信号処理装置１４に供給される。

スピーカ３は、システムの発話として、信号処理装置１４から出力され、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅されたアナログ音声信号を音声として出力する。

入力装置４は、ユーザによって押下される発話スイッチ４ａ及び訂正スイッチ４ｂを備えている。発話スイッチ４ａは、音声認識の開始指示を行うためのスイッチである。一方、訂正スイッチ４ｂは、ユーザによって発話された音声が、システムにおいて誤認識された場合に、訂正を行うためのスイッチである。なお、この訂正スイッチ４ｂを一定期間押し続けると、音声認識処理を途中で終了させることができる。

タッチパネルディスプレイ５は、例えばＬＣＤ（液晶表示装置）などで実現され、ナビゲーションの行き先や、探索条件設定時のガイダンス表示を行ったり、経路誘導などの画面を表示したり、信号処理装置１４による音声認識処理結果である応答画像を表示させたりする。また、タッチパネルディスプレイ５は、ユーザが表示画面を接触操作することにより、表示された項目の選択操作や文字の手書き入力など、各種情報の入力を行うことが可能とされ、入力内容に応じた信号を信号処理装置１４に供給する。

［音声認識装置の動作］
このような構成からなる音声認識装置は、図３に示す一連の手順にしたがった処理動作を行う。なお、同図においては、ナビゲーション装置の所定の機能を動作させる場合に、ユーザが、要求される設定事項を音声認識装置を介して入力し、ナビゲーション装置を動作させるまでの一連の処理工程を示している。

まず、音声認識装置における信号処理装置１４は、ステップＳ１において、ユーザによる発話スイッチ４ａの操作によって発話開始が指示されたことに応じて、発話された音声に対する音声認識処理を開始する。

続いて、信号処理装置１４は、ステップＳ２において、認識対象語として待ち受ける文法（言語モデル）を読み出し、メモリ２２に設定する。すなわち、信号処理装置１４は、認識対象データとして外部記憶装置１５に記憶されている音声認識処理で音声認識の対象となる認識対象語や、認識対象語の音響モデル、さらには、認識対象語とその接続関係を規定したネットワーク文法などの言語モデルを読み出し、メモリ２２に設定する。ここで、認識対象語は、例えば図４に示すように、複数階層構造からなる。そして、信号処理装置１４は、例えば図５に示すように、行き先設定を行うための「行き先」、経路の探索条件を設定するための「探索条件」、所望の施設の情報を表示するための「施設表示」、所望の電話番号を入力して発呼するための「電話番号」、操作マニュアルなどを表示するための「ヘルプ」といった、車両用のナビゲーション装置及び車両用の電子機器に対する指示からなる複数の認識対象語を音声によって択一的に入力させるための各種メニュー項目スイッチをタッチパネルディスプレイ５に表示させる。なお、タッチパネルディスプレイ５に表示されるメニュー項目スイッチに対応する認識対象語は、図４に示した複数階層構造のうち、最上位階層に規定されているものである。

ユーザは、このようなタッチパネルディスプレイ５に表示されたメニュー項目スイッチを視認することにより、どのような認識対象語を発話すればよいかを把握することができる。なお、図５においては、５つの認識対象語がメニュー項目スイッチとして表示されている様子を示しているが、これらは代表例であり、信号処理装置１４は、これら以外のメニュー項目スイッチを選択肢としてタッチパネルディスプレイ５に表示させてもよい。また、同図中５ａは、音声認識結果を表示する認識結果表示領域である。信号処理装置１４は、どの語彙が認識されたかをユーザに報知するために、認識結果表示領域５ａに音声認識候補の１位となった語彙を表示させる。これにより、ユーザは、表示されている語彙以外の語彙が音声認識結果となった場合などには、後述するように訂正を行うことが可能となる。

信号処理装置１４は、このようにして認識対象語として待ち受ける文法をメモリ２２に設定すると、図３中ステップＳ３において、外部記憶装置１５に記憶された告知音声データを読み出して、Ｄ／Ａコンバータ１２、出力アンプ１３、スピーカ３を介して出力させることで、プロンプト、すなわち、処理を開始した旨をユーザに告知し、発話要求を行う。

すなわち、ユーザは、スピーカ３を介して出力される、信号処理装置１４による処理が開始された旨を知らせる告知音声を聞いたことに応じて、認識対象データに含まれる認識対象語の発話を開始する。ユーザによって発話され、マイク２を介して入力された音声は、Ａ／Ｄコンバータ１１でデジタル音声信号に変換されて、信号処理装置１４に出力される。

そして、信号処理装置１４は、ユーザによって発話された音声の取り込みを開始する。

通常、信号処理装置１４は、発話スイッチ４ａの操作がなされるまでは、Ｄ／Ａコンバータ１２の出力（デジタル音声信号）の平均パワーを演算している。信号処理装置１４は、上述したステップＳ１において、発話スイッチ４ａの操作がなされると、演算された平均パワーと、入力されたデジタル音声信号の瞬間パワーとを比較する。そして、信号処理装置１４は、入力されたデジタル音声信号が、演算された平均パワーよりも所定値以上大きくなった場合に、ユーザが発話をした音声区間であると判断して、音声の取り込みを開始する。その後も、信号処理装置１４は、平均パワーの演算を継続して実行し、平均パワーが所定値よりも小さくなった場合に、ユーザの発話が終了したと判断をする。

続いて、信号処理装置１４は、ステップＳ４において、取り込まれた発話音声と、外部記憶装置１５からメモリ２２に読み込まれた認識対象語との一致度演算を開始する。一致度は、音声区間部分のデジタル音声信号と、個々の認識対象語がどの程度似ているのかをスコアとして示したものである。例えば、信号処理装置１４は、スコアの値が大きい認識対象語ほど一致度が高いと評価する。なお、信号処理装置１４は、この一致度演算を実行している間も、並列処理により音声取り込みを継続して実行する。

そして、信号処理装置１４は、ステップＳ５において、デジタル音声信号の瞬間パワーが所定時間以上、所定値以下となったことに応じて、ユーザの発話が終了したと判断し、音声取り込みを終了する。

信号処理装置１４は、音声取り込みを終了すると、ステップＳ６において、ステップＳ４における一致度演算が終了するまで待機し、一致度が大きい順序で複数の音声認識候補を求め、システム応答として出力する。ここで、最も一致度が大きい音声認識候補が「行き先」であったものとすると、信号処理装置１４は、システム応答として「行き先」を出力する。具体的には、信号処理装置１４は、図示しない音声合成処理機能を用いて音声認識結果である「行き先」を音声信号に変換する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

この後、信号処理装置１４は、ステップＳ７乃至ステップＳ１３において、過去の発話について誤認識が発生したときの音声認識候補のパターンである誤認識パターンに基づく処理を行う。なお、この処理については、後述するものとする。

そして、信号処理装置１４は、ステップＳ１４において、出力された認識対象語よりも下位階層の語彙があるか否かを判定する。ここで、信号処理装置１４は、下位階層の語彙があった場合には、ステップＳ２へと処理を戻し、下位階層に応じた待ち受け処理、すなわち、メモリ２２への代表語彙の提示と認識対象語の設定を行う。信号処理装置１４は、このような発話をともなうステップＳ２乃至ステップＳ１４の処理を繰り返し行い、図４に示した階層構造にしたがって、下位の階層まで処理を進める。そして、信号処理装置１４は、下位階層の語彙がない場合には、ステップＳ１５において、音声認識結果を決定し、その音声認識結果に応じた処理を行う。なお、信号処理装置１４は、第１階層で「行き先」が選択されて開始された入力系列については、音声認識結果に応じた処理として、行き先設定処理を行う。

さて、信号処理装置１４は、上述したように、ステップＳ７乃至ステップＳ１３において、過去の誤認識パターンに基づく処理を行う。

まず、過去の誤認識パターンに対する正解候補の登録処理について説明する。

ここでは、ユーザは、行き先設定を行うことを目的として図４に示した階層を進み、行き先としての駅名の発話を完了しているものとする。具体的には、信号処理装置１４は、図６中Ａに示すように、ユーザが駅名として発話した「穴内」について、図３中ステップＳ２乃至ステップＳ６の処理を行い、図７に示す音声認識候補Ａを得ているものとする。すなわち、信号処理装置１４は、第１位の候補として、スコアが０．３４４となった「阿波海南」を求める一方で、正解の「穴内」についてはスコアを０．２２５として第３位の候補として求め、誤認識が発生している状態である。

この場合、信号処理装置１４は、図３中ステップＳ７において、過去の誤認識パターンを参照し、今回の誤認識パターンが過去の誤認識パターンと同一であるか否かを判定する。ここでは、過去の誤認識パターンが存在しないことから、信号処理装置１４は、ステップＳ８へと処理を移行する。

信号処理装置１４は、ステップＳ８へと処理を移行すると、図示しない音声合成処理機能を用いて音声認識結果である「阿波海南」を音声信号に変換し、例えば図６中Ｂに示すように、「阿波海南を行き先にします」といった内容のメッセージからなる音声信号を生成する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

続いて、信号処理装置１４は、図３中ステップＳ９において、ユーザによる訂正スイッチ４ｂの押下があるか否かを所定時間待ち受ける。すなわち、音声認識装置においては、ユーザによる発話音声「穴内」に対して誤認識が発生した場合には、音声認識結果に応じたシステム応答を訂正する意図を入力する訂正意図入力手段としての訂正スイッチ４ｂの押下に応じて、音声認識処理以前の状態に戻ることができる。ここで、信号処理装置１４は、訂正スイッチ４ｂの押下がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ１０へと処理を移行する一方で、訂正スイッチ４ｂの押下があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ１２へと処理を移行する。なお、ここでは、ユーザによる発話音声「穴内」に対して、システム応答が「阿波海南」となったことを受けて、図６中Ｃに示すように、ユーザによって訂正スイッチ４ｂの押下がなされ、図３中ステップＳ１２へと処理を移行したものとする。

そして、信号処理装置１４は、ステップＳ１２へと処理を移行すると、図６中Ｄに示すように、誤認識パターンとして、図７に示した音声認識候補Ａをメモリ２２に記憶させた上で、図３中ステップＳ３へと処理を移行し、図６中Ｅに示すように、外部記憶装置１５に記憶された「もう一度発話してください」といった内容からなるシステムメッセージの音声データを読み出して、Ｄ／Ａコンバータ１２、出力アンプ１３、スピーカ３を介して出力させることで、ユーザに駅名の再発話要求を行う。

ここで、ユーザは、訂正発話として、図６中Ｆに示すように、「穴内」という語彙を再度発話する。このとき、ユーザは、訂正発話である旨を意識し、「穴内」という語彙をはっきりと且つゆっくり発話したものとし、信号処理装置１４は、かかる発話内容について、図３中ステップＳ３乃至ステップＳ６の処理を行い、図７に示す音声認識候補Ｂを得たものとする。すなわち、信号処理装置１４は、正解の「穴内」について、スコアを０．２８１として第１位の候補として正しく認識したものとする。

この場合、信号処理装置１４は、今回の発話が訂正発話であるため、通常のユーザの発話からの変形度合いが大きいことから、図３中ステップＳ７において、過去の誤認識パターンとの照合の結果、一致する誤認識パターンが存在しないと判定し、ステップＳ８へと処理を移行し、図示しない音声合成処理機能を用いて音声認識結果である「穴内」を音声信号に変換し、例えば図６中Ｇに示すように、「穴内を行き先にします」といった内容のメッセージからなる音声信号を生成する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

そして、信号処理装置１４は、図３中ステップＳ９において、ユーザによる訂正スイッチ４ｂの押下があるか否かを所定時間待ち受けるが、ここでは、「穴内」という正しい音声認識結果が得られたことから、ユーザが音声認識結果を認容して訂正スイッチ４ｂの押下を行わず、ステップＳ１０へと処理を移行する。

続いて、信号処理装置１４は、ステップＳ１０において、今回の発話が前回の発話に対する訂正発話であるか否かを判定する。ここで、信号処理装置１４は、訂正発話でない場合には、ステップＳ３からの処理を繰り返す一方で、訂正発話である場合には、ステップＳ１３へと処理を移行する。なお、ここでは、前回の発話に対して訂正スイッチ４ｂの押下がなされた後の訂正発話であることから、信号処理装置１４は、ステップＳ１３へと処理を移行することになる。

そして、信号処理装置１４は、ステップＳ１３において、図６中Ｈに示すように、今回の音声認識結果「穴内」を訂正結果としてメモリ２２に記憶させ、図３中ステップＳ３からの処理を繰り返す。このとき、信号処理装置１４は、訂正結果を、図７に示した音声認識候補Ａと関連付けてメモリ２２に記憶させ、以降の発話時に参照する誤認識パターンとして用いる。

信号処理装置１４は、このような一連の処理を行うことにより、過去の誤認識パターンに対する正解候補を登録することができる。

つぎに、過去の誤認識パターン、及びこの誤認識パターンに対する正解候補が存在する場合における処理について説明する。

ここでも、ユーザは、行き先設定を行うことを目的として図４に示した階層を進み、行き先としての駅名の発話を完了しているものとする。具体的には、信号処理装置１４は、図８中Ａに示すように、ユーザが駅名として発話した「穴内」について、図３中ステップＳ２乃至ステップＳ６の処理を行い、図９に示す音声認識候補Ｃを得ているものとする。すなわち、信号処理装置１４は、第１位の候補として、スコアが０．３１０となった「阿波海南」を求める一方で、正解の「穴内」についてはスコアを０．２４５として第３位の候補として求め、誤認識が発生している状態である。

この場合、信号処理装置１４は、図３中ステップＳ７において、過去の誤認識パターンを参照し、今回の誤認識パターンが過去の誤認識パターンと同一であるか否かを判定する。具体的には、信号処理装置１４は、図７に示した音声認識候補Ａが誤認識パターンとして存在していることから、図８中Ｂに示すように、その音声認識候補Ａと図９に示す音声認識候補Ｃとの比較を行い、共通する音声認識候補の個数、その音声認識候補の出現順位、その音声認識候補のスコア（尤度値）の差などに基づいて、今回の誤認識パターンが過去の誤認識パターンと同一であるか否かを判定する。

ここで、音声認識候補Ａ，Ｃは、それぞれの音声認識候補のうち、「阿波海南」、「穴内」、「吾野」、「阿南」、「穴太」、「浜」という６つの候補が共通であり、所定個数以上の候補が共通であるという条件を満たす。また、音声認識候補Ａ，Ｃは、これら共通する候補の出現順位も略同一であり、これら共通する候補のスコア差も所定値以内である。そのため、信号処理装置１４は、これら音声認識候補Ａ，Ｃを同一パターンであると判定し、図３中ステップＳ１１へと処理を移行する。

信号処理装置１４は、ステップＳ１１へと処理を移行すると、図８中Ｃに示すように、音声認識候補Ａと関連付けてメモリ２２に記憶されている訂正結果（正解候補）である「穴内」を読み出し、図３中ステップＳ８へと処理を移行する。

そして、信号処理装置１４は、ステップＳ８において、図示しない音声合成処理機能を用いて音声認識結果である「穴内」を音声信号に変換し、例えば図８中Ｄに示すように、「穴内を行き先にします」といった内容のメッセージからなる音声信号を生成する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

信号処理装置１４は、過去の誤認識パターン、及びこの誤認識パターンに対する正解候補が存在する場合には、このような一連の処理を行うことにより、一度行った訂正要求を再度行わなければならなくなる頻度を低減した上で、ナビゲーション装置の所定の機能を動作させることができる。

［第１の実施の形態の効果］
以上詳細に説明したように、第１の実施の形態として示した音声認識装置においては、信号処理装置１４により、過去の発話についての音声認識候補のうち、訂正意図に応じて、システム応答とは異なる第１位以外の候補が採用された音声認識候補のパターンを、当該第１位以外の候補と関連付けてメモリ２２に記憶させておき、今回の発話についての音声認識候補のパターンが、メモリ２２に記憶されている過去の発話についての音声認識候補のパターンと同一である場合には、当該第１位以外の候補を音声認識結果として採用する。

このように、この音声認識装置においては、今回の発話についての音声認識候補のパターンが、メモリ２２に記憶されている過去の発話についての音声認識候補のパターンと同一である場合には、過去に採用されたシステム応答とは異なる第１位以外の候補を音声認識結果として採用することから、一度行った訂正要求を再度行わなければならなくなる頻度を低減することができる。

また、この音声認識装置においては、信号処理装置１４により、メモリ２２に記憶されている過去の発話についての音声認識候補のパターンと、今回の発話についての音声認識候補のパターンとの比較を行い、共通する音声認識候補の個数が所定個数以上である場合には、当該過去の発話についての音声認識候補のパターンと、当該今回の発話についての音声認識候補のパターンとが同一であると判定することにより、誤判定を確実に回避することができる。

さらに、この音声認識装置においては、信号処理装置１４により、共通する音声認識候補の個数とともに、その出現順位に基づいて、当該過去の発話についての音声認識候補のパターンと、当該今回の発話についての音声認識候補のパターンとが同一であると判定することにより、かかる判定を適切且つ高精度に行うことができる。

さらに、この音声認識装置においては、信号処理装置１４により、共通する音声認識候補の個数とともに、その尤度値差に基づいて、当該過去の発話についての音声認識候補のパターンと、当該今回の発話についての音声認識候補のパターンとが同一であると判定することにより、かかる判定を適切且つ高精度に行うことができる。

［第２の実施の形態］
つぎに、本発明の第２の実施の形態として示す音声認識装置について説明をする。

この第２の実施の形態として示す音声認識装置は、図１を用いて説明した第１の実施の形態として示す音声認識装置と同一の構成である。したがって、第２の実施の形態として示す音声認識装置の構成については、同一符号を付すことによってその説明を省略する。

また、この第２の実施の形態として示す音声認識装置は、上述した第１の実施の形態として示した音声認識装置と同様に、一度行った訂正要求を再度行わなければならなくなる頻度を低減することができるものであり、その処理動作は、第１の実施の形態として示した音声認識装置の処理動作として図３に示したフローチャートのうち、過去の誤認識パターンに対する正解候補の登録処理の内容が異なるだけである。したがって、以下では、第２の実施の形態として示す音声認識装置の処理動作のうち、同一の処理内容については、同一ステップ番号を付すことによってその説明を省略し、変更があったステップ番号の処理内容についてのみ説明するものとする。

［音声認識装置の動作］
音声認識装置における信号処理装置１４は、図１０に示す一連の手順にしたがった処理動作を行う。このとき、信号処理装置１４は、以下のようにして、過去の誤認識パターンに対する正解候補を登録する。

なお、ここでは、ユーザは、行き先設定を行うことを目的として図４に示した階層を進み、行き先としての駅名の発話を完了しているものとする。具体的には、信号処理装置１４は、図１１中Ａに示すように、ユーザが駅名として発話した「穴内（あなない）」について、図１０中ステップＳ２乃至ステップＳ６の処理を行い、図７に示した音声認識候補Ａを得ているものとする。すなわち、信号処理装置１４は、第１位の候補として、スコアが０．３４４となった「阿波海南（あわかいなん）」を求める一方で、正解の「穴内」についてはスコアを０．２２５として第３位の候補として求め、誤認識が発生している状態である。

この場合、信号処理装置１４は、図１０中ステップＳ８において、図示しない音声合成処理機能を用いて音声認識結果である「あわかいなん」を音声信号に変換し、例えば図１１中Ｂに示すように、「阿波海南を行き先にします」といった内容のメッセージからなる音声信号を生成する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

そして、信号処理装置１４は、図１０中ステップＳ９において、ユーザによる訂正スイッチ４ｂの押下があるか否かを所定時間待ち受ける。ここで、信号処理装置１４は、ユーザによる発話音声「あなない」に対して、システム応答が「あわかいなん」となったことを受けて、ユーザによって訂正スイッチ４ｂの押下がなされた場合には、図１０中ステップＳ２１へと処理を移行する。

続いて、信号処理装置１４は、ステップＳ２１において、ユーザによるタッチパネルディスプレイ５の操作があるか否かを所定時間待ち受ける。すなわち、音声認識装置においては、ユーザによる発話音声「あなない」に対して誤認識が発生した場合には、音声認識結果に応じたシステム応答を訂正する意図を入力する訂正意図入力手段としてのタッチパネルディスプレイ５による手操作入力を行うことによって誤認識を訂正することができる。ここで、信号処理装置１４は、タッチパネルディスプレイ５の操作がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ１４へと処理を移行する一方で、タッチパネルディスプレイ５の操作があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ２２へと処理を移行する。

なお、ここでは、図１１中Ｃに示すように、ユーザがタッチパネルディスプレイ５を用いて正しい駅名である「あなない」を入力することによって訂正を試みるものとする。具体的には、信号処理装置１４は、例えば図１２に示すように、認識結果表示領域５ａに音声認識候補の１位となった「あわかいなん」という語彙を誤表示した状態で、全ての平仮名文字に対応した文字スイッチを５０音順に配列してタッチパネルディスプレイ５に表示させ、ユーザに他の語彙を入力させる。これに応じて、ユーザは、「あなない」に訂正するために、図１３に示すように、「あ」、「な」、「な」、「い」という４つの文字スイッチを順次選択操作（図１３中点線枠で図示）することにより、訂正を試みる。信号処理装置１４は、ユーザによって文字スイッチが選択操作されると、図示しない音声合成処理機能を用いて音声認識結果である「穴内」を音声信号に変換し、例えば図１１中Ｄに示すように、「穴内を行き先にします」といった内容のメッセージからなる音声信号を生成し、Ｄ／Ａコンバータ１２、出力アンプ１３、スピーカ３を介して音声として出力させる。

そして、信号処理装置１４は、図１０中ステップＳ２２へと処理を移行すると、図１１中Ｅに示すように、誤認識パターンとして、図７に示した音声認識候補Ａをメモリ２２に記憶させた上で、図１０中ステップＳ２３へと処理を移行し、図１１中Ｆに示すように、タッチパネルディスプレイ５を用いた入力結果「あなない」を訂正結果としてメモリ２２に記憶させ、ステップＳ１４へと処理を移行する。このとき、信号処理装置１４は、訂正結果を、図７に示した音声認識候補Ａと関連付けてメモリ２２に記憶させ、以降の発話時に参照する誤認識パターンとして用いる。

信号処理装置１４は、このような一連の処理を行うことにより、過去の誤認識パターンに対する正解候補を登録することができる。そして、信号処理装置１４は、このようにして登録した過去の誤認識パターン、及びこの誤認識パターンに対する正解候補が存在する場合には、第１の実施の形態として示した音声認識装置と同様の処理を行うことにより、一度行った訂正要求を再度行わなければならなくなる頻度を低減するとともに、手操作による訂正を再度行わなければならなくなる頻度も低減し、ナビゲーション装置の所定の機能を動作させることができる。

［第２の実施の形態の効果］
以上詳細に説明したように、第２の実施の形態として示した音声認識装置においては、システム応答を訂正する意図を入力する手段として、手操作によって情報の入力を行うことが可能とされるタッチパネルディスプレイ５を用い、過去の発話についての音声認識結果に応じたシステム応答を採用せずに、タッチパネルディスプレイ５を介して入力された情報を第１位以外の候補として採用したときの音声認識候補のパターンを、当該第１位以外の候補と関連付けてメモリ２２に記憶することにより、過去の誤認識パターンに対する正解候補の登録を行う。

これにより、この音声認識装置においては、一度行った訂正要求を再度行わなければならなくなる頻度を低減するとともに、手操作による訂正を再度行わなければならなくなる頻度も低減することができる。

［第３の実施の形態］
つぎに、本発明の第３の実施の形態として示す音声認識装置について説明をする。

この第３の実施の形態として示す音声認識装置は、図１を用いて説明した第１の実施の形態として示す音声認識装置と同一の構成である。したがって、第３の実施の形態として示す音声認識装置の構成については、同一符号を付すことによってその説明を省略する。

また、この第３の実施の形態として示す音声認識装置は、上述した第１の実施の形態及び第２の実施の形態として示した音声認識装置と同様に、一度行った訂正要求を再度行わなければならなくなる頻度を低減することができるものであり、その処理動作は、第１の実施の形態及び第２の実施の形態として示した音声認識装置の処理動作として図３及び図１０に示したフローチャートのうち、過去の誤認識パターンに対する正解候補の登録処理の内容が異なるだけである。したがって、以下では、第３の実施の形態として示す音声認識装置の処理動作のうち、同一の処理内容については、同一ステップ番号を付すことによってその説明を省略し、変更があったステップ番号の処理内容についてのみ説明するものとする。

［音声認識装置の動作］
音声認識装置における信号処理装置１４は、図１４に示す一連の手順にしたがった処理動作を行う。このとき、信号処理装置１４は、以下のようにして、過去の誤認識パターンに対する正解候補を登録する。

なお、ここでは、ユーザは、行き先設定を行うことを目的として図４に示した階層を進み、行き先としての駅名の発話を完了しているものとする。具体的には、信号処理装置１４は、図１５中Ａに示すように、ユーザが駅名として発話した「穴内」について、図１４中ステップＳ２乃至ステップＳ６の処理を行い、図７に示した音声認識候補Ａを得ているものとする。すなわち、信号処理装置１４は、第１位の候補として、スコアが０．３４４となった「阿波海南」を求める一方で、正解の「穴内」についてはスコアを０．２２５として第３位の候補として求め、誤認識が発生している状態である。

この場合、信号処理装置１４は、図１４中ステップＳ８において、図示しない音声合成処理機能を用いて音声認識結果である「阿波海南」を音声信号に変換し、例えば図１５中Ｂに示すように、「阿波海南を行き先にします」といった内容のメッセージからなる音声信号を生成する。この音声信号は、Ｄ／Ａコンバータ１２でアナログ音声信号に変換され、出力アンプ１３で信号増幅された上で、スピーカ３を介して音声として出力される。

そして、信号処理装置１４は、図１４中ステップＳ３１において、ユーザによる訂正対話があるか否かを所定時間待ち受ける。すなわち、音声認識装置においては、ユーザによる発話音声「穴内」に対して誤認識が発生した場合には、音声認識結果に応じたシステム応答を訂正する意図を入力する訂正意図入力手段としての訂正対話を行うことにより、誤認識を訂正することができる。ここで、信号処理装置１４は、訂正対話がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ１４へと処理を移行する一方で、訂正対話があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ３２へと処理を移行する。なお、ここでは、図１５中Ｃに示すように、ユーザが「ちがう穴内」と訂正対話することによって訂正を試みるものとする。

これに応じて、信号処理装置１４は、図１４中ステップＳ３２において、図示しない音声合成処理機能を用いて音声認識結果であり且つ訂正結果である「穴内」を音声信号に変換し、例えば図１５中Ｄに示すように、「穴内を行き先にします」といった内容のメッセージからなる音声信号を生成し、Ｄ／Ａコンバータ１２、出力アンプ１３、スピーカ３を介して音声として出力させる。

続いて、信号処理装置１４は、訂正発話を行ったユーザ自身の誤認識の可能性を排除するために、図１４中ステップＳ３３において、訂正対話があるか否かを再度所定時間待ち受ける。ここで、信号処理装置１４は、訂正対話がなかった場合には、音声認識結果をユーザが認容したと判断し、ステップＳ３４へと処理を移行する一方で、訂正対話があった場合には、音声認識結果をユーザが否定したと判断し、ステップＳ３２へと処理を移行する。

そして、信号処理装置１４は、訂正対話がなかった場合には、ステップＳ３４へと処理を移行すると、図１５中Ｅに示すように、誤認識パターンとして、図７に示した音声認識候補Ａをメモリ２２に記憶させた上で、図１４中ステップＳ３５へと処理を移行し、図１５中Ｆに示すように、今回の音声認識結果「穴内」を訂正結果としてメモリ２２に記憶させ、ステップＳ１４へと処理を移行する。このとき、信号処理装置１４は、訂正結果を、図７に示した音声認識候補Ａと関連付けてメモリ２２に記憶させ、以降の発話時に参照する誤認識パターンとして用いる。

信号処理装置１４は、このような一連の処理を行うことにより、過去の誤認識パターンに対する正解候補を登録することができる。そして、信号処理装置１４は、このようにして登録した過去の誤認識パターン、及びこの誤認識パターンに対する正解候補が存在する場合には、第１の実施の形態および第２の実施の形態として示した音声認識装置と同様の処理を行うことにより、一度行った訂正要求を再度行わなければならなくなる頻度を低減するとともに、手操作による訂正を再度行わなければならなくなる頻度も低減し、ナビゲーション装置の所定の機能を動作させることができる。

［第３の実施の形態の効果］
以上詳細に説明したように、第３の実施の形態として示した音声認識装置においては、システム応答を訂正する意図を入力する手段として訂正対話を用い、過去の発話についての音声認識結果に応じたシステム応答を採用せずに、訂正対話を介して入力された情報に基づいて、第１位以外の候補を採用したときの音声認識候補のパターンを、当該第１位以外の候補と関連付けてメモリ２２に記憶することにより、過去の誤認識パターンに対する正解候補の登録を行う。

なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施の形態に限定されることはなく、この実施の形態以外の形態であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計などに応じて種々の変更が可能であることは勿論である。

本発明の実施の形態として示す音声認識装置の構成について説明するブロック図である。ネットワーク文法について説明するための図である。本発明の第１の実施の形態として示す音声認識装置の処理動作について説明するフローチャートである。本発明の第１の実施の形態として示す音声認識装置の処理動作について説明するための図であり、複数階層構造からなる認識対象語について説明するための図である。本発明の第１の実施の形態として示す音声認識装置の処理動作について説明するための図であり、メニュー項目スイッチが表示されたタッチパネルディスプレイの表示内容の具体例について説明するための図である。本発明の第１の実施の形態として示す音声認識装置の処理動作について説明するための図であり、当該音声認識装置における過去の誤認識パターンに対する正解候補の登録処理動作と、ユーザの動作との対応について説明するための図である。本発明の第１の実施の形態として示す音声認識装置の処理動作について説明するための図であり、過去の誤認識パターンに対する正解候補の登録処理動作にて求められる音声認識候補の具体例について説明するための図である。本発明の第１の実施の形態として示す音声認識装置の処理動作について説明するための図であり、当該音声認識装置における過去の誤認識パターン、及びこの誤認識パターンに対する正解候補が存在する場合における処理動作と、ユーザの動作との対応について説明するための図である。本発明の第１の実施の形態として示す音声認識装置の処理動作について説明するための図であり、過去の誤認識パターン、及びこの誤認識パターンに対する正解候補が存在する場合における処理動作にて求められる音声認識候補の具体例について説明するための図である。本発明の第２の実施の形態として示す音声認識装置の処理動作について説明するフローチャートである。本発明の第２の実施の形態として示す音声認識装置の処理動作について説明するための図であり、当該音声認識装置における過去の誤認識パターンに対する正解候補の登録処理動作と、ユーザの動作との対応について説明するための図である。本発明の第２の実施の形態として示す音声認識装置の処理動作について説明するための図であり、文字スイッチが表示されたタッチパネルディスプレイの表示内容の具体例について説明するための図である。本発明の第２の実施の形態として示す音声認識装置の処理動作について説明するための図であり、文字スイッチを選択した様子を説明するための図である。本発明の第３の実施の形態として示す音声認識装置の処理動作について説明するフローチャートである。本発明の第３の実施の形態として示す音声認識装置の処理動作について説明するための図であり、当該音声認識装置における過去の誤認識パターンに対する正解候補の登録処理動作と、ユーザの動作との対応について説明するための図である。

符号の説明

１信号処理ユニット
２マイク
３スピーカ
４入力装置
４ａ発話スイッチ
４ｂ訂正スイッチ
５タッチパネルディスプレイ
５ａ認識結果表示領域
１１Ａ／Ｄコンバータ
１２Ｄ／Ａコンバータ
１３出力アンプ
１４信号処理装置
１５外部記憶装置
２１ＣＰＵ
２２メモリ

Claims

発話音声を入力する音声入力手段と、
前記音声入力手段によって入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識手段と、
前記音声認識手段によって生成された前記システム応答を出力する出力手段と、
前記音声認識手段によって生成された前記システム応答を訂正する意図を入力する訂正意図入力手段と、
前記音声認識手段による過去の発話についての音声認識候補のうち、前記訂正意図入力手段を介した訂正意図に応じて、前記システム応答とは異なる第１位以外の候補が採用された音声認識候補のパターンを、当該第１位以外の候補と関連付けて記憶する記憶手段とを備え、
前記音声認識手段は、今回の発話についての音声認識候補のパターンが、前記記憶手段に記憶されている過去の発話についての音声認識候補のパターンと同一である場合には、前記第１位以外の候補を音声認識結果として採用すること
を特徴とする音声認識装置。
前記訂正意図入力手段は、手操作によって情報の入力を行うことが可能とされる手操作入力手段であり、
前記記憶手段は、前記音声認識手段による過去の発話についての音声認識結果に応じたシステム応答を採用せずに、前記手操作入力手段を介して入力された情報を前記第１位以外の候補として採用したときの音声認識候補のパターンを、当該第１位以外の候補と関連付けて記憶すること
を特徴とする請求項１記載の音声認識装置。
前記訂正意図入力手段は、訂正対話を行うための訂正対話手段であり、
前記記憶手段は、前記音声認識手段による過去の発話についての音声認識結果に応じたシステム応答を採用せずに、前記訂正対話手段を介して入力された情報に基づいて、前記第１位以外の候補を採用したときの音声認識候補のパターンを、当該第１位以外の候補と関連付けて記憶すること
を特徴とする請求項１記載の音声認識装置。
前記音声認識手段は、前記記憶手段に記憶されている過去の発話についての音声認識候補のパターンと、今回の発話についての音声認識候補のパターンとの比較を行い、共通する音声認識候補の個数が所定個数以上である場合には、当該過去の発話についての音声認識候補のパターンと、当該今回の発話についての音声認識候補のパターンとが同一であると判定すること
を特徴とする請求項１記載の音声認識装置。
前記音声認識手段は、前記記憶手段に記憶されている過去の発話についての音声認識候補のパターンと、今回の発話についての音声認識候補のパターンとの比較を行い、共通する音声認識候補の出現順位が略同一である場合には、当該過去の発話についての音声認識候補のパターンと、当該今回の発話についての音声認識候補のパターンとが同一であると判定すること
を特徴とする請求項４記載の音声認識装置。
前記音声認識手段は、前記記憶手段に記憶されている過去の発話についての音声認識候補のパターンと、今回の発話についての音声認識候補のパターンとの比較を行い、共通する音声認識候補の尤度値差が所定値以内である場合には、当該過去の発話についての音声認識候補のパターンと、当該今回の発話についての音声認識候補のパターンとが同一であると判定すること
を特徴とする請求項４又は請求項５記載の音声認識装置。
入力された発話音声を音声認識し、音声認識結果に応じたシステム応答を生成する音声認識工程と、
前記音声認識工程にて生成された前記システム応答を出力する出力工程と、
前記音声認識工程にて生成された前記システム応答を訂正する意図を入力する訂正意図入力工程と、
前記音声認識工程における過去の発話についての音声認識候補のうち、前記訂正意図入力工程にてなされた訂正意図に応じて、前記システム応答とは異なる第１位以外の候補が採用された音声認識候補のパターンを、当該第１位以外の候補と関連付けて記憶手段に記憶する記憶工程と、
前記音声認識工程における今回の発話についての音声認識候補のパターンが、前記記憶手段に記憶されている過去の発話についての音声認識候補のパターンと同一である場合には、前記第１位以外の候補を音声認識結果として採用する処理工程とを備えること
を特徴とする音声認識方法。