JP4604377B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP4604377B2 JP4604377B2 JP2001090373A JP2001090373A JP4604377B2 JP 4604377 B2 JP4604377 B2 JP 4604377B2 JP 2001090373 A JP2001090373 A JP 2001090373A JP 2001090373 A JP2001090373 A JP 2001090373A JP 4604377 B2 JP4604377 B2 JP 4604377B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- correction
- input
- recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
【発明の属する技術分野】
本発明は、例えばナビゲーションシステムにおける目的地の設定などを音声によって入力できるようにする場合であって、特に誤認識の場合の訂正入力への対応に適した音声認識技術に関する。
【0002】
【従来の技術】
従来より、入力された音声を予め記憶されている複数の比較対象パターン候補と比較し、一致度合の高いものを認識結果とする音声認識装置が既に実用化されており、例えばナビゲーションシステムにおいて設定すべき目的地を利用者が地名を音声で入力するためなどに用いられている。特に車載ナビゲーションシステムを運転手自身が利用する場合、音声入力であればボタン操作や画面注視が伴わないため、車両の走行中に行っても安全性が高いため有効である。
【0003】
このような機能を満たすためには、十分詳細な地点の指定が容易にできなくてはならない。具体的には、県や市のレベルではなく、市の下の町名のレベルや、町村における大字といったレベルまで入力できる必要がある。さらに、利用者が例えば「愛知県刈谷市昭和町」と設定したい場合に、「愛知県」「刈谷市」「昭和町」というように県市町というレベル毎に区切って発音しなくてはならないとすると利用者にとって煩わしいので、ひと続きで入力(一括入力)できるようにすることが好ましい。
【0004】
但し、このように一括入力に対応する構成とした場合には、逆に利用者にとって使い勝手が悪くなる状況も想定される。それは、設定すべき目的地を利用者が再度入力しなくてはならない場合である。つまり、現在の認識技術ではその認識結果が完全に正確なものとは言い切れないため、一度の音声入力で必ずしも正確に認識されるとは限らないからである。例えば利用者が「愛知県刈谷市昭和(しょうわ)町」と音声で入力した場合に、例えば「愛知県刈谷市松栄(しょうえい)町」と誤って認識してしまうことが考えられる。そして、このような誤認識の場合には、再度「愛知県刈谷市昭和町」と音声入力する必要がある。
【0005】
しかしながら、日常生活における会話などを考えると、このような誤認識の場合には、「愛知県刈谷市昭和町」と音声入力するのではなく、誤認識された町名だけを修正することが自然である。つまり、2回目は「昭和町」だけを音声入力できるようにすることが好ましいと考えられる。
【0006】
このような問題を解決するためになされたものとして、特開平11−38994号公報に開示された音声認識装置がある。この技術によれば、複数の語を階層的につなぎ合わせた比較対象パターン候補の上位階層を構成する語又は語群が、認識処理時の省略対象として設定されている場合には、その設定されている上位階層構成語又は語群を省略したものも一時的に比較対象パターン候補と見なした上で、入力音声に対する比較を実行して認識処理を行う。そのため、例えば利用者が「愛知県刈谷市昭和(しょうわ)町」と音声で入力したにもかかわらず、音声認識装置「愛知県刈谷市松栄(しょうえい)町」と誤って認識してしまった場合、利用者が再度音声入力する際に「愛知県刈谷市昭和町」と音声入力するのではなく、「昭和町」だけを音声入力するだけでよくなる。
【0007】
【発明が解決しようとする課題】
このようにユーザの使い勝手は向上することが期待できる従来技術ではあるが、その一方で、認識率の低下が懸念される。なぜなら、従来技術の場合には、全ての階層からの言い直しに対応するために、言い直しの可能性のある全ての途中階層も認識開始点とみなす手法を採用したため、比較対象パターン候補が非常に増えてしまうからである。
【0008】
なお、このような問題は、上述した県市町…からなる地名には限らず、同じように複数の語を階層的につなぎ合わせたものとして設定されるものであれば同様に適用できる。
そこで本発明は、音声認識装置への音声入力の対象が階層的構造の場合に、誤認識されて訂正のために再度音声を入力する際、上位階層から全て音声入力しなくてもよくすることで利用者の負担を軽減し、使い勝手をより向上させることができ、且つ認識率の低下を防止することを目的とする。
【0009】
【課題を解決するための手段及び発明の効果】
請求項1に記載の音声認識装置によれば、利用者が音声入力手段を介して音声を入力すると、認識手段が、その入力された音声を予め辞書手段に記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とし、報知手段によって認識結果を報知する。そして、認識結果が報知された後に所定の確定指示がなされた場合には、確定後処理手段が、その認識結果を確定したものとして所定の確定後処理を実行する。ここで、辞書手段に記憶されている複数の比較対象パターン候補の内の少なくとも一つは、複数の語を階層的につなぎ合わせたものとして設定されている。
【0010】
このような前提において、音声情報保持手段が、前回の発声時に入力された音声情報を保持しておき、認識結果報知後に所定の確定指示がなされずに音声入力があった場合には、今回発声時に入力された音声情報と前記保持された前回発声時の音声情報とを比較し、今回発声時の音声情報が前回発声時の音声情報のどの部分と最も近いかを判定して、その最も近い部分を訂正箇所とする。そしてさらに、訂正個所と判定された部分が、複数の語を階層的につなぎ合わせた比較対象パターン候補の一部の階層に相当する場合は、認識手段が、その一部の階層に含まれうる全ての語又は語群を一時的に比較対象パターン候補とみなした上で、今回発声時に入力された音声に対する比較を実行する。
【0011】
このように、予め辞書手段に設定されている比較対象パターン候補以外であっても、階層構造の比較対象パターン候補については当該一部階層の構成語又は語群も一時的に比較対象パターン候補とみなされて認識処理に用いられるため、その一部階層部分のみを訂正のために言い直すことができる。例えば利用者が「愛知県刈谷市昭和(しょうわ)町」と音声で入力したにもかかわらず、音声認識装置「愛知県刈谷市松栄(しょうえい)町」と誤って認識してしまった場合、利用者が再度音声入力する際に「愛知県刈谷市昭和町」と音声入力するのではなく、「昭和町」だけを音声入力するだけでよくなる。装置側に誤認識された場合に、その誤認識された部分(上述の例では「昭和町」という町名)だけを修正することは、日常生活における会話などの習慣から考えると、ごく自然である。音声認識装置を利用する場合に限って特別な注意を払うことを強制するのは使い勝手の点で好ましくない。したがって、本発明の音声認識装置のように、誤認識の部分だけ修正するという日常会話の習慣においてごく自然な振舞いに対応できることによって、上位階層を省略した方が自然な場合であっても上位階層から音声入力しなくてはならないという利用者の負担を軽減し、使い勝手をより向上させることができる。
【0012】
そしてさらに、このような言い直し(訂正)に対応できながら、上述した従来技術の場合よりも誤認識を低減できる。なぜなら、従来技術の場合には、全ての階層からの言い直しに対応するために可能性のある全ての途中階層も認識開始点とみなす思想であるため、非常に比較対象パターン候補が増えてしまう。それに対して本発明の場合には、予め訂正個所を特定しておき、その特定された訂正箇所に対応する部分のみを比較対象パターン候補とするため、相対的に少ない数で済む。例えば上述例であれば、愛知県刈谷市までは訂正がないため、その下位階層である町名部分に含まれうる全ての町名(具体的には、昭和町、松栄町……など)のみを比較対象パターン候補とすればよい。つまり、愛知県刈谷市を上位階層としない比較対象パターン候補は全て対象外となるため、相対的には非常に少ない数で済む。比較対象パターン候補が少なくなるということは、誤認識の可能性の低減、認識処理時間の短縮化にも寄与する。
【0013】
なお、利用者の負担軽減、使い勝手の向上という観点からは、一部の誤認識の場合に全部言い直しさせるのは好ましくないが、誤認識防止の観点からは、認識対象が多い方がマッチングし易くなる。したがって、両者のメリットのトレードオフとなるが、誤認識となっている階層以下は全て訂正入力させれば、後端が特定できるため、認識精度の向上が期待できる。その場合には、請求項2に示すように、今回発声時の音声情報と前回発声時の音声情報とを比較する際、音声情報の最後尾から行えばよい。
【0014】
なお、この場合には、利用者がそのような訂正方法を遵守することが実効性をあげるために不可欠であるため、請求項3に示すように、そのような訂正方法を利用者に報知することが好ましい。この報知タイミングとしては、装置を起動した時点などが考えられる。もちろん、定期的に報知するようにしてもよい。
【0015】
一方、電話番号などは市外局番−市内局番−****となっている。それらで3階層と捉えてもよいが、数字入力に関しては1桁ずつがそれぞれ階層であると扱うこともできる。その場合には、例えば1桁分の数字が誤認識の際にその1桁だけ訂正入力すると、新たな誤認識を招きやすい。つまり、同じ数字が他の桁にもある可能性があるからである。したがって、その前後の数字(例えば前後1けたずつ加えて3桁)を訂正入力することが好ましい。つまり、例えば最低3桁程度で入力すれば、該当部分の特定が容易になると考えられる。
【0016】
この場合にも、利用者がそのような訂正方法を遵守しなければ実効性があがらないので、請求項4に示すように、そのような訂正方法を利用者に報知することが好ましい。
なお、訂正箇所判定手段にて比較する今回発声時の音声情報と前回発声時の音声情報としては、請求項5に示すように音声の波形情報であってもよいし、請求項6に示すように音声の特徴パラメータであってもよい。また、これらの比較に際しては、請求項7に示すようにDPマッチング法を用いて行ってもよいし、請求項8に示すように隠れマルコフモデルを用いて行ってもよい。
【0017】
ところで、訂正個所と判定された部分が比較対象パターン候補の一部の階層に相当する場合に、その一部階層の構成語又は語群を一時的に比較対象パターン候補とみなすことで、「通常の入力」だけでなく「訂正のための入力」にも対応できるようにしたが、請求項9に示すようにしてもよい。つまり、訂正動作検出手段によって、今回の発声が前回の発声内容の訂正であることを示す利用者の所定の動作を検出した場合に、その「一時的に比較対象パターン候補とみなした一部の階層に含まれうる全ての語又は語群のみ」を用いて認識を行うのである。つまり、前回の訂正であることが分かっていれば、「通常の入力」に対応させる必要がないため、それだけ比較対象パターン候補が少なくなり、誤認識をより低減させることができる。
【0018】
また、訂正のために利用者が行う音声入力方法が複数の内から選択できる場合には、請求項10に示すように、その選択された訂正方法に応じて訂正箇所判定手段が訂正個所の判定を行えば、より精度の高い認識が行える。例えば、これまで説明した例で言えば、訂正したい部分だけ入力する方法、訂正したい部分を含んで最後まで入力する方法、訂正したい部分の前後を含んで入力する方法などが考えられるため、利用者の選択に応じてこれらのいずれの訂正にも対応できるようにしておくのである。
【0019】
なお、認識結果の報知後に所定の確定指示がなされた場合には、その認識結果を確定したものとして所定の確定後処理へ移行すると説明したが、この「所定の確定後処理」とは、例えばカーナビゲーションシステムに用いられた場合には、認識結果としての目的地を設定する処理自体あるいは目的地設定処理を実行する装置側へその目的地を設定するよう指示する処理などが考えられる。また、認識結果の報知後の「所定の確定指示」に関しては、やはり音声で入力(例えば「はい」と発声することで入力)したり、スイッチ類の操作によって指示したりすることが考えられる。
【0020】
さらに、前記認識結果の報知に関しては、請求項11に示すように、所定の音声発生装置から認識結果の内容を音声にて出力することにより行うことが考えられる。カーナビゲーションシステムなどの車載機器用として用いる場合には、音声で出力されれば、ドライバーは視点を表示装置にずらしたりする必要がないので、安全運転のより一層の確保の点では有利であると言える。但し、音声出力に限定されるものではなく、請求項11に示すように、例えば画面上に文字または記号を表示できる表示装置に、認識結果の内容を、文字または記号による画像にて表示することにより行ったり、音声及び画像の両方にて報知するようにしてもよいし、それら以外の報知の手法を採用してもよい。車載機器として適用する場合に音声出力が有利であることを述べたが、もちろん車両が走行中でない状況もあるので、音声及び画像の両方で報知すれば、ドライバーは表示による確認と音声による確認との両方が可能となる。
【0021】
なお、訂正のための音声入力がなされた場合の認識結果を表示によって報知する場合には、例えば請求項13に示すように、最初の認識結果あるいは前回の認識結果から訂正された部分を、それ以外の部分と区別可能なように表示態様を変えて表示することも好ましい。例えば色を変えたり・文字を大きくしたりといったことである。このようにすれば、全体の中での訂正部分が明確になる。
【0022】
なお、以上説明した音声認識装置の適用先としては例えばナビゲーションシステムが考えられる。この場合には、音声認識装置と、ナビゲーション装置とを備え、音声認識装置の音声入力手段は、少なくともナビゲーション装置がナビゲート処理をする上で指定される必要のある所定のナビゲート処理関連データの指示を利用者が音声にて入力するために用いられるものであり、確定後処理手段は、認識手段による認識結果をナビゲーション装置に出力するよう構成することが考えられる。この場合の「所定のナビゲート処理関連データ」としては、目的地が代表的なものとして挙げられるが、それ以外にもルート探索に関する条件選択など、ナビゲート処理をする上で指定の必要のある指示が含まれる。そしてこの場合は、認識結果としてのナビゲート処理関連情報を報知することとなるが、上述したように、一度音声入力した地名の一部が誤認識されていた場合に、その誤っている箇所を再入力すればよくなるなど、利用者の使い勝手が向上する。
【0023】
【発明の実施の形態】
以下、本発明が適用された実施例について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施例に何ら限定されることなく、本発明の技術的範囲に属する限り、種々の形態を採り得ることは言うまでもない。
【0024】
図1は、音声認識機能を備えた制御装置1を含むシステムの構成を表すブロック図である。なお、本実施例の制御装置1は、自動車(車両)に搭載されて、使用者としての車両の乗員(主に、運転者)と音声にて対話しながら、その車両に搭載されたナビゲーション装置15を制御するものである。
【0025】
図1に示すように、本実施例の制御装置1は、使用者が各種の指令やデータなどを外部操作によって入力するためのスイッチ装置3と、画像を表示するための表示装置5と、音声を入力するためのマイクロフォン7と、音声入力時に操作するトークスイッチ9と、音声を出力するためのスピーカ11と、車両の現在位置(現在地)の検出や経路案内などを行う周知のナビゲーション装置15とに接続されている。
【0026】
なお、ナビゲーション装置15は、車両の現在位置を検出するための周知のGPS装置や、地図データ,地名データ,施設名データなどの経路案内用データを記憶したCD−ROM、そのCD−ROMからデータを読み出すためのCD−ROMドライブ、及び、使用者が指令を入力するための操作キーなどを備えている。そして、ナビゲーション装置15は、例えば、使用者から操作キーを介して、目的地と目的地までの経路案内を指示する指令とが入力されると、車両の現在位置と目的地へ至るのに最適な経路とを含む道路地図を、表示装置5に表示させて経路案内を行う。また、表示装置5には、ナビゲーション装置15によって経路案内用の道路地図が表示されるだけでなく、情報検索用メニューなどの様々な画像が表示される。
【0027】
そして、制御装置1は、CPU,ROM,及びRAMなどからなるマイクロコンピュータを中心に構成された制御部50と、その制御部50にスイッチ装置3からの指令やデータを入力する入力部23と、制御部50から出力された画像データをアナログの画像信号に変換して表示装置5に出力し、画面上に画像を表示させる画面出力部25と、マイクロフォン7から入力された音声信号をデジタルデータに変換する音声入力部27と、音声入力部27を介して入力される音声信号から、使用者が発話した言葉としてのキーワード(以下、発話キーワードともいう)を認識して取得するための音声認識部30と、同じく音声入力部27を介して入力される音声信号から、使用者前回の発話内容及び今回の発話内容から訂正個所を判定する訂正個所判定部40と、制御部50から出力されたテキストデータをアナログの音声信号に変換してスピーカ11に出力し、スピーカ11を鳴動させる音声出力部28と、上記ナビゲーション装置15と制御部50とをデータ通信可能に接続する機器制御インタフェース(機器制御I/F)29とを備えている。
【0028】
なお、音声入力部27は、入力した音声の特徴量を分析するため、例えば数10ms程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。マイク7から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行なう。この判定方法としては従来より多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部30に出力されることとなる。
【0029】
ここで、音声認識部30、訂正個所判定部40及び制御部50の構成について、図2を参照してさらに詳しく説明する。
音声認識部30は、照合部31、辞書部32、前回結果記憶部33及び辞書制御部34とを備えている。辞書部32は、使用者が発話すると想定され且つ当該制御装置1が認識すべき複数のキーワード(比較対照パターン候補)毎のIDとその構造から構成された辞書データを記憶している。そして、照合部31では、音声入力部27から入力した音声データと辞書部32の辞書データを用いて照合(認識)を行い、認識尤度の最も大きなキーワードのIDを認識結果として制御部50へ出力する。この認識結果は前回結果記憶部33にも記憶される。なお、前回結果記憶部33は、照合部31にて得られた認識結果を更新しながら記憶する。したがって、前回の認識結果のみをそして、辞書制御部34は、前記結果記憶部33に記憶された前回の認識結果と、訂正個所判定部40にて判定された訂正個所とに基づいて、辞書部32の辞書を制御する。この辞書制御の内容については後述する。
【0030】
一方、訂正個所判定部40は、音声情報保持部41と比較・判定部42とを備えている。音声情報保持部41は、音声入力部27から入力された音声情報を保持しておき、比較・判定部42は、音声入力部27から今回入力された音声情報と音声情報保持部41に保持しておいた前回の音声情報とを比較して、両者の似ている部分を判定する。この比較に際しては、音声波形そのものを比較してもよいし、音声の特徴パラメータであってもよい。また、比較に際しては、DPマッチング法や隠れマルコフモデルを用いて行う。そして、この似ている部分を訂正個所であると判定して、音声認識部30の辞書制御部34へ出力する。なお、この訂正個所についての情報は、制御部50へも出力される。
【0031】
制御部50は、認識結果記憶部51と、最終認識結果確定部52と後処理部53などを備えている。認識結果記憶部51は、音声認識部30から出力された認識結果を記憶しておく。ここに記憶される認識結果は、削除されるまで記憶されている。そして、最終結果確定部52は、この認識結果記憶部51に記憶された1以上の認識結果及び訂正個所判定部40から入力した訂正個所に基づいて、最終的な認識結果を確定する。なお、認識結果記憶部51に記憶された1以上の認識結果は、所定の確定指示がなされた場合にクリア(削除)される。
【0032】
そして、後処理部32cでは、例えば上記所定の確定指示がなされた場合に、機器制御I/F29を介してナビゲーション装置15へデータを送って所定の処理をするように指示する「確定後処理」を実行したり、あるいは音声認識部30から出力された認識結果をテキストデータとして音声出力部28へ送り、スピーカ11から発音させるように指示する処理を実行する。
【0033】
なお、音声認識部30から制御部50へ送る認識結果としては、最終的な認識結果としての上位比較対象パターンの全てでもよいし、あるいはその内の最上位のものだけでもよい。但し、以下の説明では、理解を容易にするため、特に断らない限り最上位のもの一つだけを送ることを前提として進める。
【0034】
また、本実施例においては、利用者がトークスイッチ9を押すと、その後に音声入力が可能となる。なお、トークスイッチ9を押したのに音声入力がされない場合も想定されるため、トークスイッチ9が押されて音声入力が可能となった後に所定時間以上の無音区間があれば、音声入力が不可能な状態に移行する。なお、音声入力部27はトークスイッチ9が押されたタイミングを監視しており、押されたことを検知するだけで十分であるが、音声認識部30及び訂正個所判定部40は、トークスイッチ9が押されたタイミング及び押された状態が継続した時間を監視しており、トークスイッチ9がクリック操作なのかダブルクリック操作なのかも判断できるようにされている。具体的には、トークスイッチ9がオンされた後の比較的短い時間(例えば0.5秒以内)にオフされた場合にはそれをクリック操作とみなす。そして、そのクリック操作が所定間隔以内(例えば0.5秒以内)に2回連続して行われた場合にダブルクリック操作とみなす。本実施例のシステムでは、通常の音声入力の場合はクリック操作をし、訂正のための音声入力の場合にはダブルクリック操作をする使用方法となっているため、これらのいずれの入力であるかを音声認識部30及び訂正個所判定部40は検知し、それに応じた処理を実行する。なお、ダブルクリック操作に代えていわゆる長押し操作(例えば2秒以上押し続けるといった操作)がされた場合に、訂正入力であるとしてもよい。
【0035】
次に、本実施例システムの動作について、ナビゲーション装置15にて経路探索をするための目的地を音声入力する場合を例にとり、図3、4のフローチャートを参照して説明する。
まず、図3の最初のステップであるS10では、トークスイッチ9がオンされたか(押下されたか)否かを判断し、トークスイッチ9がオンされた場合には(S10:YES)、音声抽出処理を行う(S20)。この音声抽出処理は、音声入力部27において、マイク7を介して入力された音声データに基づき音声区間であるか雑音区間であるかを判定し、音声区間のデータを抽出して音声認識部30及び訂正個所判定部40へ出力する処理である。
【0036】
次に、音声認識処理を行う(S30)。この音声認識処理の詳細を図4を参照して説明する。
上述したように、音声認識部30及び訂正個所判定部40は、トークスイッチ9が押されたタイミング及び押された状態が継続した時間を監視しているため、まずは、トークスイッチ9がクリック操作されたか否かを判断する(S31)。そして、クリック操作であれば(S31:YES)、通常の音声入力であるため、そのまま認識処理を実行する(S32)。一方、クリック操作でなければ(S31:NO)、例えばダブルクリックや長押しがされた場合であって、訂正のための入力であるため、訂正個所判定部40において訂正個所を判定し(S34)、音声認識部30では、その判定された訂正個所に基づいて辞書を制御する(S35)。この場合は、その制御された辞書を用いてS32の認識処理が実行されることとなる。
【0037】
ここで、S35の辞書制御について説明する。
まずは、本実施例の辞書部32に記憶されている辞書データについて説明する。辞書データは、比較対象パターン候補となる語彙そのもののデータだけでなく、その比較対象パターンとなる語彙が複数の語を階層的につなぎ合わせたものである場合には、その階層構造を示すデータも記憶されている。具体的には、語彙を構成する音節データが図5に示すように木(tree)構造の各辺(図5において矢印(→)で示す)に割り付けられている。なお、図5において、一重丸(○)は頂点を表し、二重丸(◎)は受理頂点、すなわち単語に対する頂点を表す。そして、図5中の矢印Aで示す頂点が「根」となり、そこから先行順走査(preorder traversal)にしたがって各辺に割り付けられ音節を辿ることで単語が完成する。ここで「先行順走査」とは、根を訪問し、次に子を根とする部分木を順番に走査(この走査も先行順走査である。)していくことを指す。なお、ここで、「親」とは直前の頂点、「子」とは次の頂点、「兄弟」とは同じ親を持つ頂点同士をそれぞれ意味する。
【0038】
つまり、図5に示す具体例では、「根」となる頂点(矢印Aで示す)から順に辿ると「あいちけん」となって矢印Bで示す受理頂点となる。したがって、「あいちけん(愛知県)」で一つの認識対象単語となる。そして、さらにその矢印Bで示す受理頂点を経由して「かりやし」となって矢印Cで示す受理頂点となる。したがって、あいちけんかりやし(愛知県刈谷市)」でも一つの認識対象単語となる。さらにその矢印Cで示す受理頂点を経由して「子」の頂点がある。図5には図示しないが例えば「しょうわちょう」と辿ることができて受理頂点があるため、「あいちけんかりやししょうわちょう(愛知県刈谷市昭和町)」でも一つの認識対象単語である。
【0039】
この場合には、例えば「あいちけんかりやししょうわちょう(愛知県刈谷市昭和町)」という一つの認識対象単語は、「あいちけん(愛知県)」と「かりやし(刈谷市)」と「しょうわちょう(昭和町)」という3つの語が階層的につなぎ合わせたものである。したがって、このように3階層となっているということが図5に矢印B,Cで示す受理頂点の存在によって判る。つまり、受理頂点はそこまで辿ってきた音節データで単語が構成されることを示すが、逆にその受理頂点から下流側にさらに音節データがある場合には、その受理頂点よりも上流側が上位階層となり、下流側が下位階層となる。例えば、図5に矢印Bで示す受理頂点を考えると、上流側の「あいちけん(愛知県)」が上位階層であり、下流側の「かりやし(刈谷市)……」が下位階層である。つまり、この場合には県を示す語が上位階層で、市レベル以下を示す語が下位階層となる。また、図5に矢印Cで示す受理頂点を考えると、上流側の「あいちけんかりやし(愛知県刈谷市)」が上位階層であり、図5には示していないが下流側の例えば「しょうわちょう(昭和町)」が下位階層となる。
【0040】
以上は辞書部32に記憶されている辞書データの説明として、愛知県刈谷市昭和町という具体例で説明したが、基本的には都道府県を最上位階層とし、市レベルを2番目の階層、町レベルを3番目の階層として他の地名についてもデータが設定されている。なお、「基本的に」といったのは、県の次の市レベルで「町」や「村」が来る地名もあるからである。
【0041】
このような辞書データに対して、図4のS34では次のような辞書制御を行う。すなわち、訂正個所判定部40にて、前回入力された音声情報中でどこが訂正個所かが分かるため、音声認識部30の辞書制御部34では、前回結果記憶部33に記憶されている認識結果も用いて、その特定された訂正箇所に対応する部分のみを比較対象パターン候補とする。例えば利用者が「愛知県刈谷市昭和(しょうわ)町」と音声で入力したにもかかわらず、音声認識部30が「愛知県刈谷市松栄(しょうえい)町」と誤って認識して状況を想定する。利用者は訂正のために「昭和町」とだけ音声入力すると、訂正個所判定部40では、音声情報保持部41に保持されている前回の音声情報(利用者が「あいちけんかりやししょうわちょう」と発声したもの)と、今回の音声情報(利用者が「しょうわちょう」と発声したもの)とを比較し、どの前回の音声情報の内のどの部分に対応する入力であったかを判定する。この訂正個所についての情報を得た音声認識装置30の辞書制御部34では、前回結果記憶部33に記憶されている「愛知県刈谷市松栄町」という認識結果にも基づくことで、前回の音声認識結果に対して、愛知県刈谷市までは訂正がなく、その下位階層である町名部分の訂正であることが分かるため、愛知県刈谷市に続く町名部分(具体的には、昭和町、松栄町……など)のみを比較対象パターン候補とする。これが辞書制御の内容である。
【0042】
なお、逆に言えば、S31にて肯定判断、すなわち通常の入力の場合には、このような辞書制御をすることなく、認識処理(S32)を実行する。
認識処理後は、音声認識部30では、その認識結果を前回結果記憶部33に記憶すると共に、制御部50へ出力して(S33)、図3のS40へ移行する。
【0043】
図3のフローチャートの説明に戻り、S40では、認識結果をトークバック及び表示する。このトークバックは、制御部50が音声出力部28を制御し、認識した結果を音声によりスピーカ11から出力させると共に、画面出力部25を制御し、認識した結果を示す文字などを表示装置5に表示させる。なお、この場合のトークバックは、音声認識部30において直前に認識した部分のみについて行う。つまり、上述例で言えば、最初の音声入力に対しては、「愛知県刈谷市松栄町ですね」とトークバックし、訂正入力に対しては、「昭和町ですね」とトークバックする。一方、表示の場合には、訂正入力に対して同様に訂正部分のみを表示しても良いが、例えば「愛知県刈谷市昭和町ですね」と表示し、その「昭和町」の部分のみ色を変えて表示するといった手法も採用できる。
【0044】
その後、正しい認識であったか否かを、利用者からの指示に基づいて判断する(S50)。具体的には、利用者によるスイッチ装置3に対する操作に基づいてもよいし、あるいはマイク7からの音声入力に基づいてもよい。例えば「はい」という肯定的な内容を示す音声入力があれば正しい認識であったと判断できるし、「いいえ」「違う」などの否定的な内容を示す音声入力があれば誤った認識であったと判断できる。
【0045】
そして、誤った認識であった場合には(S50:NO)、その認識結果が所定カテゴリに属するものであるかどうかを判断する(S90)。本実施例では経路案内のための目的地を設定する処理を前提としているので、この所定カテゴリとは地名に関するカテゴリである。所定カテゴリであれば(S90:YES)、S100へ移行して、その認識結果を制御部50の認識結果記憶部51に一時的に記憶しておく。なお、このようにして認識結果記憶部51に一時的に記憶された認識結果は、S80での削除処理が実行されない限り記憶されている。つまり、何度も訂正入力する場合には、S100の処理を複数回実行する可能性があり、その場合は、全て記憶しておくという意味である。
【0046】
次に、訂正方法の報知を行う(S110)。これは、誤った認識がされた状態であり、利用者が訂正のための入力を再度行うことが予想されることに対応するため、その訂正方法を了知させるために行うものである。訂正方法については、例えば「誤認識となっている階層以下は全て訂正入力する」方法が考えられる。つまり、「愛知県刈谷市昭和町」と音声入力して「愛知県岡崎市昭和町」と誤認識した場合に、誤認識部分のみの訂正として「刈谷市」とだけ音声入力するのではなく、「刈谷市昭和町」と音声入力させる方法である。これは、誤認識防止の観点からは、認識対象が多い方がマッチングし易くなるという知見に基づいている。また、誤認識となっている階層以下は全て訂正入力させれば、後端が特定できるため、認識精度の向上が期待できる。このような訂正入力ルールに基づく場合には、訂正個所判定部40において、今回発声時の音声情報と前回発声時の音声情報とを、一律にその音声情報の最後尾から行うことができる。したがって、より精度良く訂正個所(再度入力された個所)を判定できる。この場合には、利用者がそのような訂正方法を遵守することが実効性をあげるために不可欠であるため、図3のS110では、そのような訂正方法を利用者に報知する。
【0047】
また、所定カテゴリでなければ(S90:NO)、S120へ移行してその他の処理を実行する。S110あるいはS120の処理の後はS10へ戻って、処理を繰り返す。
一方、S50で肯定判断、すなわち正しい認識であると判断した場合には、制御部50の最終認識結果確定部52にて認識結果を確定する(S60)。訂正入力がなく、認識結果記憶部51に一の認識結果しか記憶されていなければ、それを最終認識結果として確定する。また、複数の認識結果が記憶されている場合には、それを総合的に判断して最終認識結果を確定する。上述した具体例で言えば、「愛知県刈谷市昭和町」と音声入力して「愛知県刈谷市松栄町」と誤認識し、誤認識部分のみの訂正として「昭和町」と音声入力して「昭和町」と正しく認識された場合には、認識結果記憶部51に、「愛知県刈谷市松栄町」と「昭和町」の2つの認識結果が記憶されていることとなる。訂正個所判定部40からの訂正個所を特定する情報は制御部50にも出力されるため、最初に記憶した「愛知県刈谷市松栄町」の内の「愛知県刈谷市」部分と2回目に記憶した「昭和町」とを組み合わせて、「愛知県刈谷市昭和町」を最終認識結果と確定する。
【0048】
なお、2回以上の訂正入力があり、3つ以上の認識結果が認識結果記憶部51に記憶されている場合であっても、同様の考え方で最終認識結果を確定できる。つまり、訂正は1回だけに限られず最終的に正しく認識されるまで何度行っても良い。したがって、利用者としては、S40でトークバック等された認識結果が正しくなければ、何度でも訂正入力をすればよい。
【0049】
認識結果が確定すると、次に所定の確定後処理を実行する(S90)。この場合の確定後処理とは、認識結果としての「経路案内のための目的地」に関するデータを、機器制御I/F29を介してナビゲーション装置15へ出力したり、音声認識部30における辞書制御を元に戻す処理などである。上述の辞書制御は、あくまで訂正のための対応策であるので、最終的に正しい認識ができた場合には、辞書を制限的にしない方がよいため、元に戻す。
【0050】
そして、音声認識部30の前回結果記憶部33及び制御部50の認識結果記憶部51に一時的に記憶されていた認識結果を削除(クリア)する(S80)。このような認識結果の一時的な記憶も訂正のための対応策であるので、最終的に正しい認識ができた場合には不要となる。また、逆にこのような認識結果が残っていると、別の内容の音声入力を認識する場合に不都合だからである。S80の処理の後はS10へ戻って、処理を繰り返す。
【0051】
以上が、経路案内のための目的地を音声入力する場合を例にとった場合の動作説明であるが、本発明の音声認識に係る特徴及び効果をより明確に理解するために、上述のフローチャートの処理説明でも触れたが、目的地として「愛知県刈谷市昭和(しょうわ)町」を指定するという具体例で説明を続ける。
【0052】
利用者がマイク7を介して「愛知県刈谷市昭和町」と音声入力したとする。音声認識の精度が100%でない場合には誤認識してしまう可能性がある。例えば「愛知県刈谷市松栄(しょうえい)町」と誤って認識してしまった場合には、その音声をスピーカ11を介して出力する。
【0053】
これにより利用者は誤って認識されていることが判るので、訂正のための音声入力を再度する必要があるが、その場合、利用者が再度「愛知県刈谷市昭和町」と音声入力しなくても、「昭和町」だけを音声入力するだけでよくなる。このように、誤認識された部分(上述の例では「昭和町」という町名)だけを修正することは、日常生活における会話などの習慣から考えると、ごく自然である。音声認識装置を利用する場合に限って特別な注意を払うことを強制するのは使い勝手の点で好ましくない。したがって、本実施例のように、誤認識の部分だけ修正するという日常会話の習慣においてごく自然な振舞いに対応できることにより、上位階層を省略した方が自然な場合であっても上位階層から音声入力しなくてはならないという利用者の負担を軽減し、使い勝手をより向上させることができる。
【0054】
そしてさらに、このような言い直し(訂正)に対応できながら、誤認識を低減できる。上述した従来技術の場合には、全ての階層からの言い直しに対応するために可能性のある全ての途中階層も認識開始点をみなす思想であるため、比較対象パターン候補が増えてしまうのに対して本実施例の場合には、訂正個所判定部40において予め訂正個所を特定しておき、その特定された訂正箇所に対応する部分のみを比較対象パターン候補とするため、相対的に少ない数で済む。上述例であれば、愛知県刈谷市までは訂正がないため、その下位階層である町名部分(具体的には、昭和町、松栄町……など)のみを比較対象パターン候補とすればよい。つまり、愛知県刈谷市を上位階層としない比較対象パターン候補は全て対象外となるため、相対的には非常に少ない数で済む。比較対象パターン候補が少なくなるということは、誤認識の可能性の低減、認識処理時間の短縮化にも寄与する。
【0055】
なお、本実施例の場合には、マイク7、音声入力部27が「音声入力手段」に相当し、音声出力部28、スピーカ11、画面出力部25、表示装置5が「報知手段」及び「訂正方法報知手段」に相当する。また、音声認識部30が「認識手段」に相当し、その音声認識部30内の辞書部32が「辞書手段」に相当する。また、制御部50が「確定後処理手段」に相当する。また、訂正個所判定部40中の音声情報保持部41が「音声情報保持手段」に相当し、比較・判定部42が「訂正箇所判定手段」に相当する。また、トークスイッチ9、音声入力部27、音声認識部30、訂正個所判定部40が「訂正動作検出手段」及び「訂正方法検出手段」に相当する。
【0056】
[別実施例]
以上図1〜図5を参照して、一実施例を説明したが、別のいくつかの実施例について説明する。
(1)上記実施例では、誤認識防止の観点を重要視して、訂正入力の場合、誤認識となっている階層以下は全て訂正入力するルールとした。しかし、利用者の負担軽減、使い勝手の向上という観点からは、誤認識部分のみ訂正入力することが好ましい。これらのいずれを採用するかは、両者のメリットのトレードオフとなるが、例えば利用者がいずれかの方法を選択できるようにしてもよい。その場合には、図3のS30での音声認識処理として、上述した図4に示す処理に代えて図6に示す処理を実行することが考えられる。
【0057】
ここでは、2種類の訂正方法を認めることとし、それをトークスイッチ9の操作方法で区別している。つまり、トークスイッチ9がクリックされた場合には(S231:YES)、通常の認識処理を行うが、トークスイッチ9がクリックでない場合には(S231:NO)、さらにトークスイッチ9がダブルクリックされたか否かで、訂正入力の方法を区別する。ダブルクリックの場合には(S234:YES)、通常の訂正個所判定を実行し(S235)、ダブルクリックでない場合(例えばトリプルクリックや長押し)には(S234:NO)、上記実施例で説明したような「入力された音声情報の後端部から比較」して訂正個所を判定する(S237)。
【0058】
S237のように後端から比較すれば認識精度が相対的に向上するが、その訂正方法を利用者が遵守する必要がある。一方、S236の場合には、訂正箇所のみの訂正入力であってもよいため、利用者の負担軽減、使い勝手の向上が相対的に向上する。もちろん、S236の場合には自由な訂正方法ができるため、訂正個所以外の部分を再度入力することもできる。
【0059】
なお、これ以外のステップは図4の場合と同じである。つまり図6のS232,S233は図4のS32,S33と同じ内容の処理であり、図6のS236は図4のS35と同じ内容の処理である。
また、この場合には、図3のS110における訂正方法の報知において、2つの訂正方法を選択できる旨とその指定方法を報知する。
【0060】
(2)上記実施例では住所を例にとったが、それ以外にも、複数の語を階層的につなぎ合わせたものとして扱える場合には同様に適用できる。その一つとして電話番号が想定できる。電話番号は一般的に市外局番−市内局番−****となっているため、3階層と捉えてもよいが、数字入力に関しては1桁ずつがそれぞれ階層であると扱ってもよい。但し。1桁分の数字が誤認識の際にその1桁だけ訂正入力すると、同じ数字が他の桁にも存在する可能性があって新たな誤認識を招きやすい。したがって、その前後の数字(例えば前後1けたずつ加えて3桁)を訂正入力することが好ましい。つまり、例えば最低3桁程度で入力すれば、該当部分の特定が容易になると考えられるため、その場合もやはり訂正方法を報知することが好ましい。
【0061】
(3)上記実施例では、図3のS90の処理においては、認識結果が所定カテゴリに属するものであるかどうかを判断するものとし、その所定カテゴリとは目的地の設定を前提にするため地名に関するカテゴリであると説明した。しかしながら、本発明の主旨はこのような地名等に限定されるものではなく、抽象的に言えば、認識結果を出力し、利用者の確認を得てから正式に確定する必要があるような情報に関するカテゴリということである。具体的に上述のカーナビゲーションシステムで言うならば、ナビゲート処理をする上で指定される必要のある所定のナビゲート処理関連情報の指示ということとなる。この「所定のナビゲート処理関連情報」の代表的なものが目的地であるが、それ以外にもルート探索に関する条件選択など、ナビゲート処理をする上で指定の必要のある指示が含まれる。
【0062】
(4)上記実施例では、音声認識装置をカーナビゲーションシステムに適用した例として説明したが、適用先としては、上述したカーナビゲーションシステム2には限定されない。例えば音声認識装置を空調システム用として用いる場合には、設定温度の調整、空調モード(冷房・暖房・ドライ)の選択、あるいは風向モードの選択を音声入力によって行うようにすることが考えられる。例えば設定温度について言えば、「設定温度を25度にする」や「設定温度を5度下げる」というように、設定温度に関する指示であるが、その指示内容について複数存在する場合である。本発明を適用すれば、「設定温度を25度にする」と入力したのに「設定温度を22度にする」と誤認識した場合には、再度の音声入力では「25度にする」だけ入力すればよくなり、やはり利用者の使い勝手が向上する。
空調モードや風向モードなどについても同様である。
【0063】
また、カーナビゲーションシステムや空調システムは、車載機器として用いられる場合だけではなく、例えば携帯型ナビゲーション装置や屋内用空調装置などでもよい。但し、これまで説明したように車載機器用として用いる場合には利用者がドライバーであることが考えられ、その場合には運転自体が最重要であり、それ以外の車載機器については、なるべく運転に支障がないことが好ましい。したがって、車載機器としてのカーナビゲーションシステムや空調システムを前提とした音声認識装置の場合には、より一層の利点がある。もちろん、このような視点で考えるならば、ナビゲーションシステムや空調システム以外の車載機器に対しても同様に利用することができる。例えば、カーオーディオ機器などは有効である。また、いわゆるパワーウインドウの開閉やミラー角度の調整などを音声によって指示するような構成を考えれば、そのような状況でも有効である。
【0064】
(5)上記実施例にて説明した音声認識機能(訂正個所判定機能なども含む)は制御装置1が備えたプログラムを実行することで実現することができる。このようなプログラムは、記録媒体に記録して流通させたり、ネットワークを介して提供することができ、記録媒体やネットワークからコンピュータにロードして実行することができる。
【図面の簡単な説明】
【図1】実施例システムの概略構成を示すブロック図である。
【図2】実施例システムの音声認識部、訂正個所判定部及び制御部の構成を示すブロック図である。
【図3】実施例システムにおける音声認識及び対話制御に係る処理を示すフローチャートである。
【図4】図4中で実行される音声認識処理を示すフローチャートである。
【図5】音声認識部内の辞書部に記憶されている辞書データを示す説明図である。
【図6】音声認識処理の別実施例を示すフローチャートである。
【符号の説明】
1…制御装置、3…スイッチ装置、5…表示装置、7…マイクロフォン、9…トークスイッチ、11…スピーカ、15…ナビゲーション装置、23…入力部、25…画面出力部、27…音声入力部、28…音声出力部、29…機器制御I/F、30…音声認識部、31…照合部、32…辞書部、33…前回結果記憶部、34…辞書制御部、40…訂正個所判定部、41…音声情報保持部、42…比較・判定部、50…制御部、51…認識結果記憶部、52…最終認識結果確定部、53…後処理部
Claims (13)
- 音声を入力するための音声入力手段と、
該音声入力手段を介して入力された音声を、予め辞書手段に記憶されている複数の比較対象パターン候補と比較して一致度合の高いものを認識結果とする認識手段と、
該認識手段による認識結果を報知する報知手段と、
該報知手段によって認識結果が報知された後に所定の確定指示がなされた場合には、当該認識結果を確定したものとして所定の確定後処理を実行する確定後処理手段とを備え、
前記辞書手段に記憶されている前記複数の比較対象パターン候補の内の少なくとも一つは、複数の語を階層的につなぎ合わせたものとして設定されている音声認識装置であって、
前記音声入力手段を介して前回の発声時に入力された音声情報を保持しておく音声情報保持手段と、
前記報知手段による認識結果報知後に所定の確定指示がなされずに、前記音声入力手段を介した音声入力があった場合には、前記音声入力手段を介して今回の発声時に入力された音声情報と前記音声情報保持手段に保持された前回の発声時の音声情報とを比較し、今回発声時の音声情報が前回発声時の音声情報のどの部分と最も近いかを判定して、その最も近い部分を訂正箇所とする訂正箇所判定手段とを備え、
前記訂正箇所判定手段によって訂正個所と判定された部分が、前記複数の語を階層的につなぎ合わせた比較対象パターン候補の一部の階層に相当する場合は、前記認識手段が、
その一部の階層に含まれうる全ての語又は語群を一時的に前記比較対象パターン候補とみなした上で、前記入力音声に対する比較を実行するよう構成されていることを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記訂正箇所判定手段は、
前記今回発声時の音声情報と前回発声時の音声情報とを比較する際、当該音声情報の最後尾から行うことを特徴とする音声認識装置。 - 請求項2に記載の音声認識装置において、
さらに、訂正のために利用者が行うべき音声入力方法を報知するための訂正方法報知手段を備え、当該訂正方法報知手段は、訂正を所望する部分を含んで最後まで入力するよう報知することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
さらに、訂正のために利用者が行うべき音声入力方法を報知するための訂正方法報知手段を備え、当該訂正方法報知手段は、訂正を所望する部分の前後を含んで入力するよう報知することを特徴とする音声認識装置。 - 請求項1〜4のいずれかに記載の音声認識装置において、
前記訂正箇所判定手段にて比較する前記今回発声時の音声情報と前回発声時の音声情報は、音声の波形情報であることを特徴とする音声認識装置。 - 請求項1〜4のいずれかに記載の音声認識装置において、
前記訂正箇所判定手段にて比較する前記今回発声時の音声情報と前回発声時の音声情報は、音声の特徴パラメータであることを特徴とする音声認識装置。 - 請求項1〜6のいずれかに記載の音声認識装置において、
前記訂正箇所判定手段は、前記今回発声時の音声情報と前回発声時の音声情報との比較を、DPマッチング法を用いて行うことを特徴とする音声認識装置。 - 請求項1〜6のいずれかに記載の音声認識装置において、
前記訂正箇所判定手段は、前記今回発声時の音声情報と前回発声時の音声情報との比較を、隠れマルコフモデルを用いて行うことを特徴とする音声認識装置。 - 請求項1〜8のいずれかに記載の音声認識装置において、
さらに、今回の発声が前回の発声内容の訂正であることを示す利用者の所定の動作を検出する訂正動作検出手段を備え、
前記訂正動作検出手段によって所定の動作を検出した場合、前記認識手段は、前記一時的に前記比較対象パターン候補とみなした前記一部の階層に含まれうる全ての語又は語群のみを用いて、前記入力音声に対する比較を実行するよう構成されていることを特徴とする音声認識装置。 - 請求項1〜9のいずれかに記載の音声認識装置において、
さらに、訂正のために利用者が行うことのできる複数の音声入力方法の内でどの方法を選択したかを示す利用者の所定の動作を検出する訂正方法検出手段を備え、
前記訂正方法検出手段によって検出された訂正方法に応じて、前記訂正箇所判定手段が前記訂正個所の判定を行うことを特徴とする音声認識装置。 - 請求項1〜10のいずれかに記載の音声認識装置において、
前記報知手段は、前記認識結果の内容を、音声として出力することによって行うことを特徴とする音声認識装置。 - 請求項1〜11のいずれかに記載の音声認識装置において、
前記報知手段は、前記認識結果の内容を、文字・記号などで表示することによって行うことを特徴とする音声認識装置。 - 請求項12に記載の音声認識装置において、
前記報知手段は、前記訂正のための音声入力がなされた場合の認識結果を表示する際、最初の認識結果あるいは前回の認識結果から訂正された部分を、それ以外の部分と区別可能なように表示態様を変えて表示することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001090373A JP4604377B2 (ja) | 2001-03-27 | 2001-03-27 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001090373A JP4604377B2 (ja) | 2001-03-27 | 2001-03-27 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002287792A JP2002287792A (ja) | 2002-10-04 |
JP4604377B2 true JP4604377B2 (ja) | 2011-01-05 |
Family
ID=18945164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001090373A Expired - Fee Related JP4604377B2 (ja) | 2001-03-27 | 2001-03-27 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4604377B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4604178B2 (ja) | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US20110131040A1 (en) * | 2009-12-01 | 2011-06-02 | Honda Motor Co., Ltd | Multi-mode speech recognition |
US20130179166A1 (en) * | 2010-09-29 | 2013-07-11 | Nec Casio Mobile Communications, Ltd. | Voice conversion device, portable telephone terminal, voice conversion method, and record medium |
JP5158174B2 (ja) | 2010-10-25 | 2013-03-06 | 株式会社デンソー | 音声認識装置 |
JP5851740B2 (ja) * | 2011-07-05 | 2016-02-03 | クラリオン株式会社 | ナビゲーション装置、ナビゲーション装置を用いた音声認識方法、および、プログラム |
CN104123930A (zh) * | 2013-04-27 | 2014-10-29 | 华为技术有限公司 | 喉音识别方法及装置 |
JP6605995B2 (ja) | 2016-03-16 | 2019-11-13 | 株式会社東芝 | 音声認識誤り修正装置、方法及びプログラム |
JP6678545B2 (ja) | 2016-09-12 | 2020-04-08 | 株式会社東芝 | 修正システム、修正方法及びプログラム |
JP6672209B2 (ja) | 2017-03-21 | 2020-03-25 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01237597A (ja) * | 1988-03-17 | 1989-09-22 | Fujitsu Ltd | 音声認識訂正装置 |
JPH04181299A (ja) * | 1990-11-16 | 1992-06-29 | Seiko Epson Corp | 音声認識訂正装置 |
JPH07248792A (ja) * | 1994-03-11 | 1995-09-26 | Ricoh Co Ltd | 音声認識装置 |
JPH10254489A (ja) * | 1997-03-11 | 1998-09-25 | Philips Electron Nv | 数字用音声認識システム |
JPH1138994A (ja) * | 1997-07-17 | 1999-02-12 | Denso Corp | 音声認識装置及びナビゲーションシステム |
JPH11149294A (ja) * | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置および音声認識方法 |
JPH11175094A (ja) * | 1997-12-09 | 1999-07-02 | Hitachi Ltd | 音声認識装置 |
JP2000293195A (ja) * | 1999-04-09 | 2000-10-20 | Hitachi Ltd | 音声入力装置 |
-
2001
- 2001-03-27 JP JP2001090373A patent/JP4604377B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01237597A (ja) * | 1988-03-17 | 1989-09-22 | Fujitsu Ltd | 音声認識訂正装置 |
JPH04181299A (ja) * | 1990-11-16 | 1992-06-29 | Seiko Epson Corp | 音声認識訂正装置 |
JPH07248792A (ja) * | 1994-03-11 | 1995-09-26 | Ricoh Co Ltd | 音声認識装置 |
JPH10254489A (ja) * | 1997-03-11 | 1998-09-25 | Philips Electron Nv | 数字用音声認識システム |
JPH1138994A (ja) * | 1997-07-17 | 1999-02-12 | Denso Corp | 音声認識装置及びナビゲーションシステム |
JPH11149294A (ja) * | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置および音声認識方法 |
JPH11175094A (ja) * | 1997-12-09 | 1999-07-02 | Hitachi Ltd | 音声認識装置 |
JP2000293195A (ja) * | 1999-04-09 | 2000-10-20 | Hitachi Ltd | 音声入力装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2002287792A (ja) | 2002-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6400109B2 (ja) | 音声認識システム | |
JP4859982B2 (ja) | 音声認識装置 | |
JP4304952B2 (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
JP2002091466A (ja) | 音声認識装置 | |
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
JP4104313B2 (ja) | 音声認識装置、プログラム及びナビゲーションシステム | |
JP3702867B2 (ja) | 音声制御装置 | |
JP4604377B2 (ja) | 音声認識装置 | |
JP2003114698A (ja) | コマンド受付装置及びプログラム | |
US6879953B1 (en) | Speech recognition with request level determination | |
JP2006208486A (ja) | 音声入力装置 | |
CN110556104B (zh) | 语音识别装置、语音识别方法以及存储程序的存储介质 | |
JP2011203434A (ja) | 音声認識装置及び音声認識方法 | |
JP5157596B2 (ja) | 音声認識装置 | |
JP3718088B2 (ja) | 音声認識修正方式 | |
JP2007101892A (ja) | 音声認識装置 | |
JP2007057805A (ja) | 車両用情報処理装置 | |
JP3654262B2 (ja) | 音声認識装置及びナビゲーションシステム | |
JP3358498B2 (ja) | 音声認識装置及びナビゲーションシステム | |
JP2009251470A (ja) | 車載情報システム | |
KR101875440B1 (ko) | 차량 및 그 제어방법 | |
JP2004333703A (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
JP2003330488A (ja) | 音声認識装置 | |
JP2006251059A (ja) | 音声対話装置および音声対話方法 | |
JP2006023444A (ja) | 音声対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100920 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |