JP4604377B2

JP4604377B2 - 音声認識装置

Info

Publication number: JP4604377B2
Application number: JP2001090373A
Authority: JP
Inventors: 邦雄横井; 教英北岡
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2001-03-27
Filing date: 2001-03-27
Publication date: 2011-01-05
Anticipated expiration: 2021-03-27
Also published as: JP2002287792A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えばナビゲーションシステムにおける目的地の設定などを音声によって入力できるようにする場合であって、特に誤認識の場合の訂正入力への対応に適した音声認識技術に関する。
【０００２】
【従来の技術】
従来より、入力された音声を予め記憶されている複数の比較対象パターン候補と比較し、一致度合の高いものを認識結果とする音声認識装置が既に実用化されており、例えばナビゲーションシステムにおいて設定すべき目的地を利用者が地名を音声で入力するためなどに用いられている。特に車載ナビゲーションシステムを運転手自身が利用する場合、音声入力であればボタン操作や画面注視が伴わないため、車両の走行中に行っても安全性が高いため有効である。
【０００３】
このような機能を満たすためには、十分詳細な地点の指定が容易にできなくてはならない。具体的には、県や市のレベルではなく、市の下の町名のレベルや、町村における大字といったレベルまで入力できる必要がある。さらに、利用者が例えば「愛知県刈谷市昭和町」と設定したい場合に、「愛知県」「刈谷市」「昭和町」というように県市町というレベル毎に区切って発音しなくてはならないとすると利用者にとって煩わしいので、ひと続きで入力（一括入力）できるようにすることが好ましい。
【０００４】
但し、このように一括入力に対応する構成とした場合には、逆に利用者にとって使い勝手が悪くなる状況も想定される。それは、設定すべき目的地を利用者が再度入力しなくてはならない場合である。つまり、現在の認識技術ではその認識結果が完全に正確なものとは言い切れないため、一度の音声入力で必ずしも正確に認識されるとは限らないからである。例えば利用者が「愛知県刈谷市昭和（しょうわ）町」と音声で入力した場合に、例えば「愛知県刈谷市松栄（しょうえい）町」と誤って認識してしまうことが考えられる。そして、このような誤認識の場合には、再度「愛知県刈谷市昭和町」と音声入力する必要がある。
【０００５】
しかしながら、日常生活における会話などを考えると、このような誤認識の場合には、「愛知県刈谷市昭和町」と音声入力するのではなく、誤認識された町名だけを修正することが自然である。つまり、２回目は「昭和町」だけを音声入力できるようにすることが好ましいと考えられる。
【０００６】
このような問題を解決するためになされたものとして、特開平１１−３８９９４号公報に開示された音声認識装置がある。この技術によれば、複数の語を階層的につなぎ合わせた比較対象パターン候補の上位階層を構成する語又は語群が、認識処理時の省略対象として設定されている場合には、その設定されている上位階層構成語又は語群を省略したものも一時的に比較対象パターン候補と見なした上で、入力音声に対する比較を実行して認識処理を行う。そのため、例えば利用者が「愛知県刈谷市昭和（しょうわ）町」と音声で入力したにもかかわらず、音声認識装置「愛知県刈谷市松栄（しょうえい）町」と誤って認識してしまった場合、利用者が再度音声入力する際に「愛知県刈谷市昭和町」と音声入力するのではなく、「昭和町」だけを音声入力するだけでよくなる。
【０００７】
【発明が解決しようとする課題】
このようにユーザの使い勝手は向上することが期待できる従来技術ではあるが、その一方で、認識率の低下が懸念される。なぜなら、従来技術の場合には、全ての階層からの言い直しに対応するために、言い直しの可能性のある全ての途中階層も認識開始点とみなす手法を採用したため、比較対象パターン候補が非常に増えてしまうからである。
【０００８】
なお、このような問題は、上述した県市町…からなる地名には限らず、同じように複数の語を階層的につなぎ合わせたものとして設定されるものであれば同様に適用できる。
そこで本発明は、音声認識装置への音声入力の対象が階層的構造の場合に、誤認識されて訂正のために再度音声を入力する際、上位階層から全て音声入力しなくてもよくすることで利用者の負担を軽減し、使い勝手をより向上させることができ、且つ認識率の低下を防止することを目的とする。
【０００９】
【課題を解決するための手段及び発明の効果】
請求項１に記載の音声認識装置によれば、利用者が音声入力手段を介して音声を入力すると、認識手段が、その入力された音声を予め辞書手段に記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とし、報知手段によって認識結果を報知する。そして、認識結果が報知された後に所定の確定指示がなされた場合には、確定後処理手段が、その認識結果を確定したものとして所定の確定後処理を実行する。ここで、辞書手段に記憶されている複数の比較対象パターン候補の内の少なくとも一つは、複数の語を階層的につなぎ合わせたものとして設定されている。
【００１０】
このような前提において、音声情報保持手段が、前回の発声時に入力された音声情報を保持しておき、認識結果報知後に所定の確定指示がなされずに音声入力があった場合には、今回発声時に入力された音声情報と前記保持された前回発声時の音声情報とを比較し、今回発声時の音声情報が前回発声時の音声情報のどの部分と最も近いかを判定して、その最も近い部分を訂正箇所とする。そしてさらに、訂正個所と判定された部分が、複数の語を階層的につなぎ合わせた比較対象パターン候補の一部の階層に相当する場合は、認識手段が、その一部の階層に含まれうる全ての語又は語群を一時的に比較対象パターン候補とみなした上で、今回発声時に入力された音声に対する比較を実行する。
【００１１】
このように、予め辞書手段に設定されている比較対象パターン候補以外であっても、階層構造の比較対象パターン候補については当該一部階層の構成語又は語群も一時的に比較対象パターン候補とみなされて認識処理に用いられるため、その一部階層部分のみを訂正のために言い直すことができる。例えば利用者が「愛知県刈谷市昭和（しょうわ）町」と音声で入力したにもかかわらず、音声認識装置「愛知県刈谷市松栄（しょうえい）町」と誤って認識してしまった場合、利用者が再度音声入力する際に「愛知県刈谷市昭和町」と音声入力するのではなく、「昭和町」だけを音声入力するだけでよくなる。装置側に誤認識された場合に、その誤認識された部分（上述の例では「昭和町」という町名）だけを修正することは、日常生活における会話などの習慣から考えると、ごく自然である。音声認識装置を利用する場合に限って特別な注意を払うことを強制するのは使い勝手の点で好ましくない。したがって、本発明の音声認識装置のように、誤認識の部分だけ修正するという日常会話の習慣においてごく自然な振舞いに対応できることによって、上位階層を省略した方が自然な場合であっても上位階層から音声入力しなくてはならないという利用者の負担を軽減し、使い勝手をより向上させることができる。
【００１２】
そしてさらに、このような言い直し（訂正）に対応できながら、上述した従来技術の場合よりも誤認識を低減できる。なぜなら、従来技術の場合には、全ての階層からの言い直しに対応するために可能性のある全ての途中階層も認識開始点とみなす思想であるため、非常に比較対象パターン候補が増えてしまう。それに対して本発明の場合には、予め訂正個所を特定しておき、その特定された訂正箇所に対応する部分のみを比較対象パターン候補とするため、相対的に少ない数で済む。例えば上述例であれば、愛知県刈谷市までは訂正がないため、その下位階層である町名部分に含まれうる全ての町名（具体的には、昭和町、松栄町……など）のみを比較対象パターン候補とすればよい。つまり、愛知県刈谷市を上位階層としない比較対象パターン候補は全て対象外となるため、相対的には非常に少ない数で済む。比較対象パターン候補が少なくなるということは、誤認識の可能性の低減、認識処理時間の短縮化にも寄与する。
【００１３】
なお、利用者の負担軽減、使い勝手の向上という観点からは、一部の誤認識の場合に全部言い直しさせるのは好ましくないが、誤認識防止の観点からは、認識対象が多い方がマッチングし易くなる。したがって、両者のメリットのトレードオフとなるが、誤認識となっている階層以下は全て訂正入力させれば、後端が特定できるため、認識精度の向上が期待できる。その場合には、請求項２に示すように、今回発声時の音声情報と前回発声時の音声情報とを比較する際、音声情報の最後尾から行えばよい。
【００１４】
なお、この場合には、利用者がそのような訂正方法を遵守することが実効性をあげるために不可欠であるため、請求項３に示すように、そのような訂正方法を利用者に報知することが好ましい。この報知タイミングとしては、装置を起動した時点などが考えられる。もちろん、定期的に報知するようにしてもよい。
【００１５】
一方、電話番号などは市外局番−市内局番−＊＊＊＊となっている。それらで３階層と捉えてもよいが、数字入力に関しては１桁ずつがそれぞれ階層であると扱うこともできる。その場合には、例えば１桁分の数字が誤認識の際にその１桁だけ訂正入力すると、新たな誤認識を招きやすい。つまり、同じ数字が他の桁にもある可能性があるからである。したがって、その前後の数字（例えば前後１けたずつ加えて３桁）を訂正入力することが好ましい。つまり、例えば最低３桁程度で入力すれば、該当部分の特定が容易になると考えられる。
【００１６】
この場合にも、利用者がそのような訂正方法を遵守しなければ実効性があがらないので、請求項４に示すように、そのような訂正方法を利用者に報知することが好ましい。
なお、訂正箇所判定手段にて比較する今回発声時の音声情報と前回発声時の音声情報としては、請求項５に示すように音声の波形情報であってもよいし、請求項６に示すように音声の特徴パラメータであってもよい。また、これらの比較に際しては、請求項７に示すようにＤＰマッチング法を用いて行ってもよいし、請求項８に示すように隠れマルコフモデルを用いて行ってもよい。
【００１７】
ところで、訂正個所と判定された部分が比較対象パターン候補の一部の階層に相当する場合に、その一部階層の構成語又は語群を一時的に比較対象パターン候補とみなすことで、「通常の入力」だけでなく「訂正のための入力」にも対応できるようにしたが、請求項９に示すようにしてもよい。つまり、訂正動作検出手段によって、今回の発声が前回の発声内容の訂正であることを示す利用者の所定の動作を検出した場合に、その「一時的に比較対象パターン候補とみなした一部の階層に含まれうる全ての語又は語群のみ」を用いて認識を行うのである。つまり、前回の訂正であることが分かっていれば、「通常の入力」に対応させる必要がないため、それだけ比較対象パターン候補が少なくなり、誤認識をより低減させることができる。
【００１８】
また、訂正のために利用者が行う音声入力方法が複数の内から選択できる場合には、請求項１０に示すように、その選択された訂正方法に応じて訂正箇所判定手段が訂正個所の判定を行えば、より精度の高い認識が行える。例えば、これまで説明した例で言えば、訂正したい部分だけ入力する方法、訂正したい部分を含んで最後まで入力する方法、訂正したい部分の前後を含んで入力する方法などが考えられるため、利用者の選択に応じてこれらのいずれの訂正にも対応できるようにしておくのである。
【００１９】
なお、認識結果の報知後に所定の確定指示がなされた場合には、その認識結果を確定したものとして所定の確定後処理へ移行すると説明したが、この「所定の確定後処理」とは、例えばカーナビゲーションシステムに用いられた場合には、認識結果としての目的地を設定する処理自体あるいは目的地設定処理を実行する装置側へその目的地を設定するよう指示する処理などが考えられる。また、認識結果の報知後の「所定の確定指示」に関しては、やはり音声で入力（例えば「はい」と発声することで入力）したり、スイッチ類の操作によって指示したりすることが考えられる。
【００２０】
さらに、前記認識結果の報知に関しては、請求項１１に示すように、所定の音声発生装置から認識結果の内容を音声にて出力することにより行うことが考えられる。カーナビゲーションシステムなどの車載機器用として用いる場合には、音声で出力されれば、ドライバーは視点を表示装置にずらしたりする必要がないので、安全運転のより一層の確保の点では有利であると言える。但し、音声出力に限定されるものではなく、請求項１１に示すように、例えば画面上に文字または記号を表示できる表示装置に、認識結果の内容を、文字または記号による画像にて表示することにより行ったり、音声及び画像の両方にて報知するようにしてもよいし、それら以外の報知の手法を採用してもよい。車載機器として適用する場合に音声出力が有利であることを述べたが、もちろん車両が走行中でない状況もあるので、音声及び画像の両方で報知すれば、ドライバーは表示による確認と音声による確認との両方が可能となる。
【００２１】
なお、訂正のための音声入力がなされた場合の認識結果を表示によって報知する場合には、例えば請求項１３に示すように、最初の認識結果あるいは前回の認識結果から訂正された部分を、それ以外の部分と区別可能なように表示態様を変えて表示することも好ましい。例えば色を変えたり・文字を大きくしたりといったことである。このようにすれば、全体の中での訂正部分が明確になる。
【００２２】
なお、以上説明した音声認識装置の適用先としては例えばナビゲーションシステムが考えられる。この場合には、音声認識装置と、ナビゲーション装置とを備え、音声認識装置の音声入力手段は、少なくともナビゲーション装置がナビゲート処理をする上で指定される必要のある所定のナビゲート処理関連データの指示を利用者が音声にて入力するために用いられるものであり、確定後処理手段は、認識手段による認識結果をナビゲーション装置に出力するよう構成することが考えられる。この場合の「所定のナビゲート処理関連データ」としては、目的地が代表的なものとして挙げられるが、それ以外にもルート探索に関する条件選択など、ナビゲート処理をする上で指定の必要のある指示が含まれる。そしてこの場合は、認識結果としてのナビゲート処理関連情報を報知することとなるが、上述したように、一度音声入力した地名の一部が誤認識されていた場合に、その誤っている箇所を再入力すればよくなるなど、利用者の使い勝手が向上する。
【００２３】
【発明の実施の形態】
以下、本発明が適用された実施例について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施例に何ら限定されることなく、本発明の技術的範囲に属する限り、種々の形態を採り得ることは言うまでもない。
【００２４】
図１は、音声認識機能を備えた制御装置１を含むシステムの構成を表すブロック図である。なお、本実施例の制御装置１は、自動車（車両）に搭載されて、使用者としての車両の乗員（主に、運転者）と音声にて対話しながら、その車両に搭載されたナビゲーション装置１５を制御するものである。
【００２５】
図１に示すように、本実施例の制御装置１は、使用者が各種の指令やデータなどを外部操作によって入力するためのスイッチ装置３と、画像を表示するための表示装置５と、音声を入力するためのマイクロフォン７と、音声入力時に操作するトークスイッチ９と、音声を出力するためのスピーカ１１と、車両の現在位置（現在地）の検出や経路案内などを行う周知のナビゲーション装置１５とに接続されている。
【００２６】
なお、ナビゲーション装置１５は、車両の現在位置を検出するための周知のＧＰＳ装置や、地図データ，地名データ，施設名データなどの経路案内用データを記憶したＣＤ−ＲＯＭ、そのＣＤ−ＲＯＭからデータを読み出すためのＣＤ−ＲＯＭドライブ、及び、使用者が指令を入力するための操作キーなどを備えている。そして、ナビゲーション装置１５は、例えば、使用者から操作キーを介して、目的地と目的地までの経路案内を指示する指令とが入力されると、車両の現在位置と目的地へ至るのに最適な経路とを含む道路地図を、表示装置５に表示させて経路案内を行う。また、表示装置５には、ナビゲーション装置１５によって経路案内用の道路地図が表示されるだけでなく、情報検索用メニューなどの様々な画像が表示される。
【００２７】
そして、制御装置１は、ＣＰＵ，ＲＯＭ，及びＲＡＭなどからなるマイクロコンピュータを中心に構成された制御部５０と、その制御部５０にスイッチ装置３からの指令やデータを入力する入力部２３と、制御部５０から出力された画像データをアナログの画像信号に変換して表示装置５に出力し、画面上に画像を表示させる画面出力部２５と、マイクロフォン７から入力された音声信号をデジタルデータに変換する音声入力部２７と、音声入力部２７を介して入力される音声信号から、使用者が発話した言葉としてのキーワード（以下、発話キーワードともいう）を認識して取得するための音声認識部３０と、同じく音声入力部２７を介して入力される音声信号から、使用者前回の発話内容及び今回の発話内容から訂正個所を判定する訂正個所判定部４０と、制御部５０から出力されたテキストデータをアナログの音声信号に変換してスピーカ１１に出力し、スピーカ１１を鳴動させる音声出力部２８と、上記ナビゲーション装置１５と制御部５０とをデータ通信可能に接続する機器制御インタフェース（機器制御Ｉ／Ｆ）２９とを備えている。
【００２８】
なお、音声入力部２７は、入力した音声の特徴量を分析するため、例えば数１０ｍｓ程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。マイク７から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行なう。この判定方法としては従来より多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部３０に出力されることとなる。
【００２９】
ここで、音声認識部３０、訂正個所判定部４０及び制御部５０の構成について、図２を参照してさらに詳しく説明する。
音声認識部３０は、照合部３１、辞書部３２、前回結果記憶部３３及び辞書制御部３４とを備えている。辞書部３２は、使用者が発話すると想定され且つ当該制御装置１が認識すべき複数のキーワード（比較対照パターン候補）毎のＩＤとその構造から構成された辞書データを記憶している。そして、照合部３１では、音声入力部２７から入力した音声データと辞書部３２の辞書データを用いて照合（認識）を行い、認識尤度の最も大きなキーワードのＩＤを認識結果として制御部５０へ出力する。この認識結果は前回結果記憶部３３にも記憶される。なお、前回結果記憶部３３は、照合部３１にて得られた認識結果を更新しながら記憶する。したがって、前回の認識結果のみをそして、辞書制御部３４は、前記結果記憶部３３に記憶された前回の認識結果と、訂正個所判定部４０にて判定された訂正個所とに基づいて、辞書部３２の辞書を制御する。この辞書制御の内容については後述する。
【００３０】
一方、訂正個所判定部４０は、音声情報保持部４１と比較・判定部４２とを備えている。音声情報保持部４１は、音声入力部２７から入力された音声情報を保持しておき、比較・判定部４２は、音声入力部２７から今回入力された音声情報と音声情報保持部４１に保持しておいた前回の音声情報とを比較して、両者の似ている部分を判定する。この比較に際しては、音声波形そのものを比較してもよいし、音声の特徴パラメータであってもよい。また、比較に際しては、ＤＰマッチング法や隠れマルコフモデルを用いて行う。そして、この似ている部分を訂正個所であると判定して、音声認識部３０の辞書制御部３４へ出力する。なお、この訂正個所についての情報は、制御部５０へも出力される。
【００３１】
制御部５０は、認識結果記憶部５１と、最終認識結果確定部５２と後処理部５３などを備えている。認識結果記憶部５１は、音声認識部３０から出力された認識結果を記憶しておく。ここに記憶される認識結果は、削除されるまで記憶されている。そして、最終結果確定部５２は、この認識結果記憶部５１に記憶された１以上の認識結果及び訂正個所判定部４０から入力した訂正個所に基づいて、最終的な認識結果を確定する。なお、認識結果記憶部５１に記憶された１以上の認識結果は、所定の確定指示がなされた場合にクリア（削除）される。
【００３２】
そして、後処理部３２ｃでは、例えば上記所定の確定指示がなされた場合に、機器制御Ｉ／Ｆ２９を介してナビゲーション装置１５へデータを送って所定の処理をするように指示する「確定後処理」を実行したり、あるいは音声認識部３０から出力された認識結果をテキストデータとして音声出力部２８へ送り、スピーカ１１から発音させるように指示する処理を実行する。
【００３３】
なお、音声認識部３０から制御部５０へ送る認識結果としては、最終的な認識結果としての上位比較対象パターンの全てでもよいし、あるいはその内の最上位のものだけでもよい。但し、以下の説明では、理解を容易にするため、特に断らない限り最上位のもの一つだけを送ることを前提として進める。
【００３４】
また、本実施例においては、利用者がトークスイッチ９を押すと、その後に音声入力が可能となる。なお、トークスイッチ９を押したのに音声入力がされない場合も想定されるため、トークスイッチ９が押されて音声入力が可能となった後に所定時間以上の無音区間があれば、音声入力が不可能な状態に移行する。なお、音声入力部２７はトークスイッチ９が押されたタイミングを監視しており、押されたことを検知するだけで十分であるが、音声認識部３０及び訂正個所判定部４０は、トークスイッチ９が押されたタイミング及び押された状態が継続した時間を監視しており、トークスイッチ９がクリック操作なのかダブルクリック操作なのかも判断できるようにされている。具体的には、トークスイッチ９がオンされた後の比較的短い時間（例えば０．５秒以内）にオフされた場合にはそれをクリック操作とみなす。そして、そのクリック操作が所定間隔以内（例えば０．５秒以内）に２回連続して行われた場合にダブルクリック操作とみなす。本実施例のシステムでは、通常の音声入力の場合はクリック操作をし、訂正のための音声入力の場合にはダブルクリック操作をする使用方法となっているため、これらのいずれの入力であるかを音声認識部３０及び訂正個所判定部４０は検知し、それに応じた処理を実行する。なお、ダブルクリック操作に代えていわゆる長押し操作（例えば２秒以上押し続けるといった操作）がされた場合に、訂正入力であるとしてもよい。
【００３５】
次に、本実施例システムの動作について、ナビゲーション装置１５にて経路探索をするための目的地を音声入力する場合を例にとり、図３、４のフローチャートを参照して説明する。
まず、図３の最初のステップであるＳ１０では、トークスイッチ９がオンされたか（押下されたか）否かを判断し、トークスイッチ９がオンされた場合には（Ｓ１０：ＹＥＳ）、音声抽出処理を行う（Ｓ２０）。この音声抽出処理は、音声入力部２７において、マイク７を介して入力された音声データに基づき音声区間であるか雑音区間であるかを判定し、音声区間のデータを抽出して音声認識部３０及び訂正個所判定部４０へ出力する処理である。
【００３６】
次に、音声認識処理を行う（Ｓ３０）。この音声認識処理の詳細を図４を参照して説明する。
上述したように、音声認識部３０及び訂正個所判定部４０は、トークスイッチ９が押されたタイミング及び押された状態が継続した時間を監視しているため、まずは、トークスイッチ９がクリック操作されたか否かを判断する（Ｓ３１）。そして、クリック操作であれば（Ｓ３１：ＹＥＳ）、通常の音声入力であるため、そのまま認識処理を実行する（Ｓ３２）。一方、クリック操作でなければ（Ｓ３１：ＮＯ）、例えばダブルクリックや長押しがされた場合であって、訂正のための入力であるため、訂正個所判定部４０において訂正個所を判定し（Ｓ３４）、音声認識部３０では、その判定された訂正個所に基づいて辞書を制御する（Ｓ３５）。この場合は、その制御された辞書を用いてＳ３２の認識処理が実行されることとなる。
【００３７】
ここで、Ｓ３５の辞書制御について説明する。
まずは、本実施例の辞書部３２に記憶されている辞書データについて説明する。辞書データは、比較対象パターン候補となる語彙そのもののデータだけでなく、その比較対象パターンとなる語彙が複数の語を階層的につなぎ合わせたものである場合には、その階層構造を示すデータも記憶されている。具体的には、語彙を構成する音節データが図５に示すように木（tree）構造の各辺（図５において矢印（→）で示す）に割り付けられている。なお、図５において、一重丸（○）は頂点を表し、二重丸（◎）は受理頂点、すなわち単語に対する頂点を表す。そして、図５中の矢印Ａで示す頂点が「根」となり、そこから先行順走査（preorder traversal）にしたがって各辺に割り付けられ音節を辿ることで単語が完成する。ここで「先行順走査」とは、根を訪問し、次に子を根とする部分木を順番に走査（この走査も先行順走査である。）していくことを指す。なお、ここで、「親」とは直前の頂点、「子」とは次の頂点、「兄弟」とは同じ親を持つ頂点同士をそれぞれ意味する。
【００３８】
つまり、図５に示す具体例では、「根」となる頂点（矢印Ａで示す）から順に辿ると「あいちけん」となって矢印Ｂで示す受理頂点となる。したがって、「あいちけん（愛知県）」で一つの認識対象単語となる。そして、さらにその矢印Ｂで示す受理頂点を経由して「かりやし」となって矢印Ｃで示す受理頂点となる。したがって、あいちけんかりやし（愛知県刈谷市）」でも一つの認識対象単語となる。さらにその矢印Ｃで示す受理頂点を経由して「子」の頂点がある。図５には図示しないが例えば「しょうわちょう」と辿ることができて受理頂点があるため、「あいちけんかりやししょうわちょう（愛知県刈谷市昭和町）」でも一つの認識対象単語である。
【００３９】
この場合には、例えば「あいちけんかりやししょうわちょう（愛知県刈谷市昭和町）」という一つの認識対象単語は、「あいちけん（愛知県）」と「かりやし（刈谷市）」と「しょうわちょう（昭和町）」という３つの語が階層的につなぎ合わせたものである。したがって、このように３階層となっているということが図５に矢印Ｂ，Ｃで示す受理頂点の存在によって判る。つまり、受理頂点はそこまで辿ってきた音節データで単語が構成されることを示すが、逆にその受理頂点から下流側にさらに音節データがある場合には、その受理頂点よりも上流側が上位階層となり、下流側が下位階層となる。例えば、図５に矢印Ｂで示す受理頂点を考えると、上流側の「あいちけん（愛知県）」が上位階層であり、下流側の「かりやし（刈谷市）……」が下位階層である。つまり、この場合には県を示す語が上位階層で、市レベル以下を示す語が下位階層となる。また、図５に矢印Ｃで示す受理頂点を考えると、上流側の「あいちけんかりやし（愛知県刈谷市）」が上位階層であり、図５には示していないが下流側の例えば「しょうわちょう（昭和町）」が下位階層となる。
【００４０】
以上は辞書部３２に記憶されている辞書データの説明として、愛知県刈谷市昭和町という具体例で説明したが、基本的には都道府県を最上位階層とし、市レベルを２番目の階層、町レベルを３番目の階層として他の地名についてもデータが設定されている。なお、「基本的に」といったのは、県の次の市レベルで「町」や「村」が来る地名もあるからである。
【００４１】
このような辞書データに対して、図４のＳ３４では次のような辞書制御を行う。すなわち、訂正個所判定部４０にて、前回入力された音声情報中でどこが訂正個所かが分かるため、音声認識部３０の辞書制御部３４では、前回結果記憶部３３に記憶されている認識結果も用いて、その特定された訂正箇所に対応する部分のみを比較対象パターン候補とする。例えば利用者が「愛知県刈谷市昭和（しょうわ）町」と音声で入力したにもかかわらず、音声認識部３０が「愛知県刈谷市松栄（しょうえい）町」と誤って認識して状況を想定する。利用者は訂正のために「昭和町」とだけ音声入力すると、訂正個所判定部４０では、音声情報保持部４１に保持されている前回の音声情報（利用者が「あいちけんかりやししょうわちょう」と発声したもの）と、今回の音声情報（利用者が「しょうわちょう」と発声したもの）とを比較し、どの前回の音声情報の内のどの部分に対応する入力であったかを判定する。この訂正個所についての情報を得た音声認識装置３０の辞書制御部３４では、前回結果記憶部３３に記憶されている「愛知県刈谷市松栄町」という認識結果にも基づくことで、前回の音声認識結果に対して、愛知県刈谷市までは訂正がなく、その下位階層である町名部分の訂正であることが分かるため、愛知県刈谷市に続く町名部分（具体的には、昭和町、松栄町……など）のみを比較対象パターン候補とする。これが辞書制御の内容である。
【００４２】
なお、逆に言えば、Ｓ３１にて肯定判断、すなわち通常の入力の場合には、このような辞書制御をすることなく、認識処理（Ｓ３２）を実行する。
認識処理後は、音声認識部３０では、その認識結果を前回結果記憶部３３に記憶すると共に、制御部５０へ出力して（Ｓ３３）、図３のＳ４０へ移行する。
【００４３】
図３のフローチャートの説明に戻り、Ｓ４０では、認識結果をトークバック及び表示する。このトークバックは、制御部５０が音声出力部２８を制御し、認識した結果を音声によりスピーカ１１から出力させると共に、画面出力部２５を制御し、認識した結果を示す文字などを表示装置５に表示させる。なお、この場合のトークバックは、音声認識部３０において直前に認識した部分のみについて行う。つまり、上述例で言えば、最初の音声入力に対しては、「愛知県刈谷市松栄町ですね」とトークバックし、訂正入力に対しては、「昭和町ですね」とトークバックする。一方、表示の場合には、訂正入力に対して同様に訂正部分のみを表示しても良いが、例えば「愛知県刈谷市昭和町ですね」と表示し、その「昭和町」の部分のみ色を変えて表示するといった手法も採用できる。
【００４４】
その後、正しい認識であったか否かを、利用者からの指示に基づいて判断する（Ｓ５０）。具体的には、利用者によるスイッチ装置３に対する操作に基づいてもよいし、あるいはマイク７からの音声入力に基づいてもよい。例えば「はい」という肯定的な内容を示す音声入力があれば正しい認識であったと判断できるし、「いいえ」「違う」などの否定的な内容を示す音声入力があれば誤った認識であったと判断できる。
【００４５】
そして、誤った認識であった場合には（Ｓ５０：ＮＯ）、その認識結果が所定カテゴリに属するものであるかどうかを判断する（Ｓ９０）。本実施例では経路案内のための目的地を設定する処理を前提としているので、この所定カテゴリとは地名に関するカテゴリである。所定カテゴリであれば（Ｓ９０：ＹＥＳ）、Ｓ１００へ移行して、その認識結果を制御部５０の認識結果記憶部５１に一時的に記憶しておく。なお、このようにして認識結果記憶部５１に一時的に記憶された認識結果は、Ｓ８０での削除処理が実行されない限り記憶されている。つまり、何度も訂正入力する場合には、Ｓ１００の処理を複数回実行する可能性があり、その場合は、全て記憶しておくという意味である。
【００４６】
次に、訂正方法の報知を行う（Ｓ１１０）。これは、誤った認識がされた状態であり、利用者が訂正のための入力を再度行うことが予想されることに対応するため、その訂正方法を了知させるために行うものである。訂正方法については、例えば「誤認識となっている階層以下は全て訂正入力する」方法が考えられる。つまり、「愛知県刈谷市昭和町」と音声入力して「愛知県岡崎市昭和町」と誤認識した場合に、誤認識部分のみの訂正として「刈谷市」とだけ音声入力するのではなく、「刈谷市昭和町」と音声入力させる方法である。これは、誤認識防止の観点からは、認識対象が多い方がマッチングし易くなるという知見に基づいている。また、誤認識となっている階層以下は全て訂正入力させれば、後端が特定できるため、認識精度の向上が期待できる。このような訂正入力ルールに基づく場合には、訂正個所判定部４０において、今回発声時の音声情報と前回発声時の音声情報とを、一律にその音声情報の最後尾から行うことができる。したがって、より精度良く訂正個所（再度入力された個所）を判定できる。この場合には、利用者がそのような訂正方法を遵守することが実効性をあげるために不可欠であるため、図３のＳ１１０では、そのような訂正方法を利用者に報知する。
【００４７】
また、所定カテゴリでなければ（Ｓ９０：ＮＯ）、Ｓ１２０へ移行してその他の処理を実行する。Ｓ１１０あるいはＳ１２０の処理の後はＳ１０へ戻って、処理を繰り返す。
一方、Ｓ５０で肯定判断、すなわち正しい認識であると判断した場合には、制御部５０の最終認識結果確定部５２にて認識結果を確定する（Ｓ６０）。訂正入力がなく、認識結果記憶部５１に一の認識結果しか記憶されていなければ、それを最終認識結果として確定する。また、複数の認識結果が記憶されている場合には、それを総合的に判断して最終認識結果を確定する。上述した具体例で言えば、「愛知県刈谷市昭和町」と音声入力して「愛知県刈谷市松栄町」と誤認識し、誤認識部分のみの訂正として「昭和町」と音声入力して「昭和町」と正しく認識された場合には、認識結果記憶部５１に、「愛知県刈谷市松栄町」と「昭和町」の２つの認識結果が記憶されていることとなる。訂正個所判定部４０からの訂正個所を特定する情報は制御部５０にも出力されるため、最初に記憶した「愛知県刈谷市松栄町」の内の「愛知県刈谷市」部分と２回目に記憶した「昭和町」とを組み合わせて、「愛知県刈谷市昭和町」を最終認識結果と確定する。
【００４８】
なお、２回以上の訂正入力があり、３つ以上の認識結果が認識結果記憶部５１に記憶されている場合であっても、同様の考え方で最終認識結果を確定できる。つまり、訂正は１回だけに限られず最終的に正しく認識されるまで何度行っても良い。したがって、利用者としては、Ｓ４０でトークバック等された認識結果が正しくなければ、何度でも訂正入力をすればよい。
【００４９】
認識結果が確定すると、次に所定の確定後処理を実行する（Ｓ９０）。この場合の確定後処理とは、認識結果としての「経路案内のための目的地」に関するデータを、機器制御Ｉ／Ｆ２９を介してナビゲーション装置１５へ出力したり、音声認識部３０における辞書制御を元に戻す処理などである。上述の辞書制御は、あくまで訂正のための対応策であるので、最終的に正しい認識ができた場合には、辞書を制限的にしない方がよいため、元に戻す。
【００５０】
そして、音声認識部３０の前回結果記憶部３３及び制御部５０の認識結果記憶部５１に一時的に記憶されていた認識結果を削除（クリア）する（Ｓ８０）。このような認識結果の一時的な記憶も訂正のための対応策であるので、最終的に正しい認識ができた場合には不要となる。また、逆にこのような認識結果が残っていると、別の内容の音声入力を認識する場合に不都合だからである。Ｓ８０の処理の後はＳ１０へ戻って、処理を繰り返す。
【００５１】
以上が、経路案内のための目的地を音声入力する場合を例にとった場合の動作説明であるが、本発明の音声認識に係る特徴及び効果をより明確に理解するために、上述のフローチャートの処理説明でも触れたが、目的地として「愛知県刈谷市昭和（しょうわ）町」を指定するという具体例で説明を続ける。
【００５２】
利用者がマイク７を介して「愛知県刈谷市昭和町」と音声入力したとする。音声認識の精度が１００％でない場合には誤認識してしまう可能性がある。例えば「愛知県刈谷市松栄（しょうえい）町」と誤って認識してしまった場合には、その音声をスピーカ１１を介して出力する。
【００５３】
これにより利用者は誤って認識されていることが判るので、訂正のための音声入力を再度する必要があるが、その場合、利用者が再度「愛知県刈谷市昭和町」と音声入力しなくても、「昭和町」だけを音声入力するだけでよくなる。このように、誤認識された部分（上述の例では「昭和町」という町名）だけを修正することは、日常生活における会話などの習慣から考えると、ごく自然である。音声認識装置を利用する場合に限って特別な注意を払うことを強制するのは使い勝手の点で好ましくない。したがって、本実施例のように、誤認識の部分だけ修正するという日常会話の習慣においてごく自然な振舞いに対応できることにより、上位階層を省略した方が自然な場合であっても上位階層から音声入力しなくてはならないという利用者の負担を軽減し、使い勝手をより向上させることができる。
【００５４】
そしてさらに、このような言い直し（訂正）に対応できながら、誤認識を低減できる。上述した従来技術の場合には、全ての階層からの言い直しに対応するために可能性のある全ての途中階層も認識開始点をみなす思想であるため、比較対象パターン候補が増えてしまうのに対して本実施例の場合には、訂正個所判定部４０において予め訂正個所を特定しておき、その特定された訂正箇所に対応する部分のみを比較対象パターン候補とするため、相対的に少ない数で済む。上述例であれば、愛知県刈谷市までは訂正がないため、その下位階層である町名部分（具体的には、昭和町、松栄町……など）のみを比較対象パターン候補とすればよい。つまり、愛知県刈谷市を上位階層としない比較対象パターン候補は全て対象外となるため、相対的には非常に少ない数で済む。比較対象パターン候補が少なくなるということは、誤認識の可能性の低減、認識処理時間の短縮化にも寄与する。
【００５５】
なお、本実施例の場合には、マイク７、音声入力部２７が「音声入力手段」に相当し、音声出力部２８、スピーカ１１、画面出力部２５、表示装置５が「報知手段」及び「訂正方法報知手段」に相当する。また、音声認識部３０が「認識手段」に相当し、その音声認識部３０内の辞書部３２が「辞書手段」に相当する。また、制御部５０が「確定後処理手段」に相当する。また、訂正個所判定部４０中の音声情報保持部４１が「音声情報保持手段」に相当し、比較・判定部４２が「訂正箇所判定手段」に相当する。また、トークスイッチ９、音声入力部２７、音声認識部３０、訂正個所判定部４０が「訂正動作検出手段」及び「訂正方法検出手段」に相当する。
【００５６】
［別実施例］
以上図１〜図５を参照して、一実施例を説明したが、別のいくつかの実施例について説明する。
（１）上記実施例では、誤認識防止の観点を重要視して、訂正入力の場合、誤認識となっている階層以下は全て訂正入力するルールとした。しかし、利用者の負担軽減、使い勝手の向上という観点からは、誤認識部分のみ訂正入力することが好ましい。これらのいずれを採用するかは、両者のメリットのトレードオフとなるが、例えば利用者がいずれかの方法を選択できるようにしてもよい。その場合には、図３のＳ３０での音声認識処理として、上述した図４に示す処理に代えて図６に示す処理を実行することが考えられる。
【００５７】
ここでは、２種類の訂正方法を認めることとし、それをトークスイッチ９の操作方法で区別している。つまり、トークスイッチ９がクリックされた場合には（Ｓ２３１：ＹＥＳ）、通常の認識処理を行うが、トークスイッチ９がクリックでない場合には（Ｓ２３１：ＮＯ）、さらにトークスイッチ９がダブルクリックされたか否かで、訂正入力の方法を区別する。ダブルクリックの場合には（Ｓ２３４：ＹＥＳ）、通常の訂正個所判定を実行し（Ｓ２３５）、ダブルクリックでない場合（例えばトリプルクリックや長押し）には（Ｓ２３４：ＮＯ）、上記実施例で説明したような「入力された音声情報の後端部から比較」して訂正個所を判定する（Ｓ２３７）。
【００５８】
Ｓ２３７のように後端から比較すれば認識精度が相対的に向上するが、その訂正方法を利用者が遵守する必要がある。一方、Ｓ２３６の場合には、訂正箇所のみの訂正入力であってもよいため、利用者の負担軽減、使い勝手の向上が相対的に向上する。もちろん、Ｓ２３６の場合には自由な訂正方法ができるため、訂正個所以外の部分を再度入力することもできる。
【００５９】
なお、これ以外のステップは図４の場合と同じである。つまり図６のＳ２３２，Ｓ２３３は図４のＳ３２，Ｓ３３と同じ内容の処理であり、図６のＳ２３６は図４のＳ３５と同じ内容の処理である。
また、この場合には、図３のＳ１１０における訂正方法の報知において、２つの訂正方法を選択できる旨とその指定方法を報知する。
【００６０】
（２）上記実施例では住所を例にとったが、それ以外にも、複数の語を階層的につなぎ合わせたものとして扱える場合には同様に適用できる。その一つとして電話番号が想定できる。電話番号は一般的に市外局番−市内局番−＊＊＊＊となっているため、３階層と捉えてもよいが、数字入力に関しては１桁ずつがそれぞれ階層であると扱ってもよい。但し。１桁分の数字が誤認識の際にその１桁だけ訂正入力すると、同じ数字が他の桁にも存在する可能性があって新たな誤認識を招きやすい。したがって、その前後の数字（例えば前後１けたずつ加えて３桁）を訂正入力することが好ましい。つまり、例えば最低３桁程度で入力すれば、該当部分の特定が容易になると考えられるため、その場合もやはり訂正方法を報知することが好ましい。
【００６１】
（３）上記実施例では、図３のＳ９０の処理においては、認識結果が所定カテゴリに属するものであるかどうかを判断するものとし、その所定カテゴリとは目的地の設定を前提にするため地名に関するカテゴリであると説明した。しかしながら、本発明の主旨はこのような地名等に限定されるものではなく、抽象的に言えば、認識結果を出力し、利用者の確認を得てから正式に確定する必要があるような情報に関するカテゴリということである。具体的に上述のカーナビゲーションシステムで言うならば、ナビゲート処理をする上で指定される必要のある所定のナビゲート処理関連情報の指示ということとなる。この「所定のナビゲート処理関連情報」の代表的なものが目的地であるが、それ以外にもルート探索に関する条件選択など、ナビゲート処理をする上で指定の必要のある指示が含まれる。
【００６２】
（４）上記実施例では、音声認識装置をカーナビゲーションシステムに適用した例として説明したが、適用先としては、上述したカーナビゲーションシステム２には限定されない。例えば音声認識装置を空調システム用として用いる場合には、設定温度の調整、空調モード（冷房・暖房・ドライ）の選択、あるいは風向モードの選択を音声入力によって行うようにすることが考えられる。例えば設定温度について言えば、「設定温度を２５度にする」や「設定温度を５度下げる」というように、設定温度に関する指示であるが、その指示内容について複数存在する場合である。本発明を適用すれば、「設定温度を２５度にする」と入力したのに「設定温度を２２度にする」と誤認識した場合には、再度の音声入力では「２５度にする」だけ入力すればよくなり、やはり利用者の使い勝手が向上する。
空調モードや風向モードなどについても同様である。
【００６３】
また、カーナビゲーションシステムや空調システムは、車載機器として用いられる場合だけではなく、例えば携帯型ナビゲーション装置や屋内用空調装置などでもよい。但し、これまで説明したように車載機器用として用いる場合には利用者がドライバーであることが考えられ、その場合には運転自体が最重要であり、それ以外の車載機器については、なるべく運転に支障がないことが好ましい。したがって、車載機器としてのカーナビゲーションシステムや空調システムを前提とした音声認識装置の場合には、より一層の利点がある。もちろん、このような視点で考えるならば、ナビゲーションシステムや空調システム以外の車載機器に対しても同様に利用することができる。例えば、カーオーディオ機器などは有効である。また、いわゆるパワーウインドウの開閉やミラー角度の調整などを音声によって指示するような構成を考えれば、そのような状況でも有効である。
【００６４】
（５）上記実施例にて説明した音声認識機能（訂正個所判定機能なども含む）は制御装置１が備えたプログラムを実行することで実現することができる。このようなプログラムは、記録媒体に記録して流通させたり、ネットワークを介して提供することができ、記録媒体やネットワークからコンピュータにロードして実行することができる。
【図面の簡単な説明】
【図１】実施例システムの概略構成を示すブロック図である。
【図２】実施例システムの音声認識部、訂正個所判定部及び制御部の構成を示すブロック図である。
【図３】実施例システムにおける音声認識及び対話制御に係る処理を示すフローチャートである。
【図４】図４中で実行される音声認識処理を示すフローチャートである。
【図５】音声認識部内の辞書部に記憶されている辞書データを示す説明図である。
【図６】音声認識処理の別実施例を示すフローチャートである。
【符号の説明】
１…制御装置、３…スイッチ装置、５…表示装置、７…マイクロフォン、９…トークスイッチ、１１…スピーカ、１５…ナビゲーション装置、２３…入力部、２５…画面出力部、２７…音声入力部、２８…音声出力部、２９…機器制御Ｉ／Ｆ、３０…音声認識部、３１…照合部、３２…辞書部、３３…前回結果記憶部、３４…辞書制御部、４０…訂正個所判定部、４１…音声情報保持部、４２…比較・判定部、５０…制御部、５１…認識結果記憶部、５２…最終認識結果確定部、５３…後処理部

Claims

音声を入力するための音声入力手段と、
該音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする認識手段と、
該認識手段による認識結果を報知する報知手段と、
該報知手段によって認識結果が報知された後に所定の確定指示がなされた場合には、当該認識結果を確定したものとして所定の確定後処理を実行する確定後処理手段とを備え、
前記辞書手段に記憶されている前記複数の比較対象パターン候補の内の少なくとも一つは、複数の語を階層的につなぎ合わせたものとして設定されている音声認識装置であって、
前記音声入力手段を介して前回の発声時に入力された音声情報を保持しておく音声情報保持手段と、
前記報知手段による認識結果報知後に所定の確定指示がなされずに、前記音声入力手段を介した音声入力があった場合には、前記音声入力手段を介して今回の発声時に入力された音声情報と前記音声情報保持手段に保持された前回の発声時の音声情報とを比較し、今回発声時の音声情報が前回発声時の音声情報のどの部分と最も近いかを判定して、その最も近い部分を訂正箇所とする訂正箇所判定手段とを備え、
前記訂正箇所判定手段によって訂正個所と判定された部分が、前記複数の語を階層的につなぎ合わせた比較対象パターン候補の一部の階層に相当する場合は、前記認識手段が、
その一部の階層に含まれうる全ての語又は語群を一時的に前記比較対象パターン候補とみなした上で、前記入力音声に対する比較を実行するよう構成されていることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記訂正箇所判定手段は、
前記今回発声時の音声情報と前回発声時の音声情報とを比較する際、当該音声情報の最後尾から行うことを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
さらに、訂正のために利用者が行うべき音声入力方法を報知するための訂正方法報知手段を備え、当該訂正方法報知手段は、訂正を所望する部分を含んで最後まで入力するよう報知することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
さらに、訂正のために利用者が行うべき音声入力方法を報知するための訂正方法報知手段を備え、当該訂正方法報知手段は、訂正を所望する部分の前後を含んで入力するよう報知することを特徴とする音声認識装置。
請求項１〜４のいずれかに記載の音声認識装置において、
前記訂正箇所判定手段にて比較する前記今回発声時の音声情報と前回発声時の音声情報は、音声の波形情報であることを特徴とする音声認識装置。
請求項１〜４のいずれかに記載の音声認識装置において、
前記訂正箇所判定手段にて比較する前記今回発声時の音声情報と前回発声時の音声情報は、音声の特徴パラメータであることを特徴とする音声認識装置。
請求項１〜６のいずれかに記載の音声認識装置において、
前記訂正箇所判定手段は、前記今回発声時の音声情報と前回発声時の音声情報との比較を、ＤＰマッチング法を用いて行うことを特徴とする音声認識装置。
請求項１〜６のいずれかに記載の音声認識装置において、
前記訂正箇所判定手段は、前記今回発声時の音声情報と前回発声時の音声情報との比較を、隠れマルコフモデルを用いて行うことを特徴とする音声認識装置。
請求項１〜８のいずれかに記載の音声認識装置において、
さらに、今回の発声が前回の発声内容の訂正であることを示す利用者の所定の動作を検出する訂正動作検出手段を備え、
前記訂正動作検出手段によって所定の動作を検出した場合、前記認識手段は、前記一時的に前記比較対象パターン候補とみなした前記一部の階層に含まれうる全ての語又は語群のみを用いて、前記入力音声に対する比較を実行するよう構成されていることを特徴とする音声認識装置。
請求項１〜９のいずれかに記載の音声認識装置において、
さらに、訂正のために利用者が行うことのできる複数の音声入力方法の内でどの方法を選択したかを示す利用者の所定の動作を検出する訂正方法検出手段を備え、
前記訂正方法検出手段によって検出された訂正方法に応じて、前記訂正箇所判定手段が前記訂正個所の判定を行うことを特徴とする音声認識装置。
請求項１〜１０のいずれかに記載の音声認識装置において、
前記報知手段は、前記認識結果の内容を、音声として出力することによって行うことを特徴とする音声認識装置。
請求項１〜１１のいずれかに記載の音声認識装置において、
前記報知手段は、前記認識結果の内容を、文字・記号などで表示することによって行うことを特徴とする音声認識装置。
請求項１２に記載の音声認識装置において、
前記報知手段は、前記訂正のための音声入力がなされた場合の認識結果を表示する際、最初の認識結果あるいは前回の認識結果から訂正された部分を、それ以外の部分と区別可能なように表示態様を変えて表示することを特徴とする音声認識装置。