JP2013134302A

JP2013134302A - 音声認識装置

Info

Publication number: JP2013134302A
Application number: JP2011283333A
Authority: JP
Inventors: Ryuichi Suzuki; 竜一鈴木
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2013-07-08
Anticipated expiration: 2031-12-26
Also published as: JP5637131B2; US20130166290A1; US9123327B2

Abstract

【課題】コマンドを別途入力する煩わしさを低減すると共に、一括入力による音声認識の音声認識率を向上させる。
【解決手段】音声のうちのコマンドに対応する部分の音声認識結果を出力するコマンド対応音声認識手段と、音声のうちのデータに対応する部分の音声認識結果を出力するデータ対応音声認識手段とを備え、データ対応音声認識手段は、複数のデータ分野対応辞書をそれぞれ使用して音声を音声認識する複数のデータ分野対応音声認識手段を有し、さらに、コマンド対応音声認識手段によるコマンド対応の音声認識結果に基づいて複数のデータ分野対応音声認識手段による複数の音声認識結果の中から１つを選択するように構成した。
【選択図】図２

Description

本発明は、例えばナビゲーション装置においてコマンドや目的地等を音声で入力する際に使用される音声認識装置に関する。

従来より、入力された音声を予め記憶されている複数の比較対象パターン候補と比較し、一致度合の高いものを認識結果とする音声認識装置が既に実用化されており、例えばナビゲーション装置において設定すべき目的地をユーザが地名を音声で入力する際に用いられている。特に、車両用のナビゲーション装置を運転者自身が利用する場合、音声入力であればボタン操作や画面注視を伴わないため、車両の走行中に行っても安全性が高いため有効である。

このような機能を満たすためには、十分詳細な地点の指定が容易にできることが望まれる。具体的には、県や市のレベルではなく、市の下の町名のレベルや、町村における大字あるいは小字といったレベルまで入力できるようにすることが好ましい。さらに、利用者が例えば「愛知県刈谷市昭和町」と設定したい場合に、「愛知県」「刈谷市」「昭和町」というように県市町というレベル毎に区切って発音しなくてはならないとすると煩わしいので、ひと続きで入力（一括入力）できるようにすることが好ましい。

そこで、一括入力による音声認識を可能とするために、特許文献１では認識対象となる複数の語を階層的につなぎ合わせる形のいわゆる木構造の認識辞書を用いて、階層ごとに認識語彙を絞ることで一括入力の音声認識を可能としている。また、特許文献２では、特許文献1のような木構造認識辞書に対応できないような米国の住所入力などに対して、通常の上位階層から下位階層の順に複数の語を階層的につなぎ合わせるのではなく、下位階層から上位階層の順に複数の語を階層的につなぎ合わせる形の認識方法で一括入力の音声認識を可能としている。

特開２００１−３０６０８８号公報特開２００３−１１４６９６号公報

しかし、一括入力による音声認識では、通常の階層的な入力による音声認識よりも膨大な認識語彙を認識する必要がある。ただし、一般に、音声認識は認識語彙が増えれば増えるほど、認識率は低下していく方向に進んでしまう。そのため、従来構成では、一括入力による音声認識は、住所などの１つの分野のデータを入力する場合だけ一括入力音声認識を行うようにして、音声認識率を向上させている。このような構成の場合、一括入力による音声認識を実行する前に、上記１つの分野のデータを入力するモードに移行するためのコマンドを別途入力する必要がある。しかし、音声認識を使い慣れているユーザは、１回でも入力する操作が多くなることについて、煩わしいと感じてしまうおそれがあった。

そこで、本発明の目的は、コマンドを別途入力する煩わしさを低減すると共に、一括入力による音声認識の音声認識率を向上させることができる音声認識装置を提供することにある。

請求項１の発明によれば、音声のうちのコマンドに対応する部分の音声認識結果を出力するコマンド対応音声認識手段と、音声のうちのデータに対応する部分の音声認識結果を出力するデータ対応音声認識手段とを備え、データ対応音声認識手段は、複数のデータ分野対応辞書をそれぞれ使用して音声を音声認識する複数のデータ分野対応音声認識手段を有し、さらに、コマンド対応音声認識手段によるコマンド対応の音声認識結果に基づいて複数のデータ分野対応音声認識手段による複数の音声認識結果の中から１つを選択する構成としたので、コマンドを別途入力する煩わしさを低減できると共に、一括入力による音声認識の音声認識率を向上できる。

請求項２の発明によれば、音声認識結果選択手段は、複数のデータ分野対応音声認識手段による音声認識結果の中に選択するものがないときには、前記コマンド対応音声認識手段によるコマンド対応の音声認識結果を選択する構成としたので、音声認識率を向上できる。

請求項３の発明によれば、コマンド対応音声認識手段と、データ対応音声認識手段の複数のデータ分野対応音声認識手段とは、同時に音声認識処理を実行する構成としたので、音声認識処理に要する時間を短縮することができる。

また、請求項４の発明のように、複数のデータ分野対応辞書は、住所対応辞書、楽曲対応辞書及び電話帳対応辞書であり、複数のデータ分野対応音声認識手段は、住所対応音声認識手段、楽曲対応音声認識手段及び電話帳対応音声認識手段であることが好ましい。

また、請求項５の発明のように、音声認識結果選択手段は、コマンド対応音声認識手段によるコマンド対応の音声認識結果が住所に関連するコマンドであったときには、住所対応音声認識手段による住所対応の音声認識結果を選択し、コマンド対応の音声認識結果が楽曲に関連するコマンドであったときには、楽曲対応音声認識手段による楽曲対応の音声認識結果を選択し、コマンド対応の音声認識結果が電話に関連するコマンドであったときには、電話帳対応音声認識手段による電話帳対応の音声認識結果を選択するように構成することが好ましい。

本発明の一実施形態を示すナビゲーション装置のブロック図音声認識部及び制御部のブロック図音声認識処理のフローチャート音声認識処理の具体例１を説明する図音声認識処理の具体例２を説明する図音声認識処理の具体例３を説明する図音声認識処理の具体例４を説明する図

以下、本発明を車両に搭載されるナビゲーション装置に適用した一実施形態について、図１ないし図７を参照して説明する。図１は、音声認識機能を備えたナビゲーション装置１の全体概略構成を示す機能ブロック図である。この図１に示すように、ナビゲーション装置１は、位置検出器２、データ入力器３、操作スイッチ群４、通信装置５、外部メモリ６、表示装置７、リモコンセンサ８、車内ＬＡＮ９、音声認識ユニット１０、及び、これらに接続された制御回路１１を備えている。なお、制御回路１１は、通常のコンピュータとして構成されており、内部には、周知のＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏ及びこれらの構成を接続するバスラインを備えている。

位置検出器２は、周知のジャイロスコープ１２、距離センサ１３及び衛星からの電波に基づいて車両の位置を検出するためのＧＰＳ受信機１４を有している。これらのセンサ等は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各転動輪の車輪センサ等を用いてもよい。

データ入力器３は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識ユニット１０において認識処理を行う際に用いる辞書データを入力するための装置である。記憶媒体としては、そのデータ量からハードディスクやＤＶＤを用いるのが一般的であると考えられるが、ＣＤ−ＲＯＭ等の他の媒体を用いても良い。データ記憶媒体としてＤＶＤを用いた場合には、このデータ入力器３はＤＶＤプレーヤとなる。

表示装置７は、カラー表示装置であり、この表示装置７の画面には、位置検出器２から入力された車両現在位置マークと、地図データ入力器３より入力された地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。

操作スイッチ群４は、例えば、表示装置７と一体になったタッチスイッチもしくはメカニカルなスイッチ等で構成されており、各種コマンドの入力に利用される。通信装置５は、設定された連絡先通信情報によって特定される連絡先との通信を行うためのものであり、例えば携帯電話機等の移動体通信機によって構成される。通信装置５は、制御回路１１から発信先の電話番号および発信指示を受けると、その電話番号に発信し、音声認識ユニット１０の後述するスピーカ２０とマイク２１を使用して相手先と通話することが可能な構成となっている。

また、ナビゲーション装置１は、リモートコントロール端末（以下、リモコンと称する）１５を介してリモコンセンサ８から、あるいは操作スイッチ群４により目的地の位置を入力すると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成し表示する、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法は、ダイクストラ法等の手法が知られている。

車内ＬＡＮ９には、車両に搭載された各種の車載装置、例えばオーディオ装置１６が接続されている。制御回路１１は、曲の名称と曲の再生指示を車内ＬＡＮ９を介してオーディオ装置１６へ指示することにより、オーディオ装置１６は指示された曲を再生出力することが可能な構成となっている。尚、ナビゲーション装置１にオーディオ装置を直接組み込むように構成しても良い。

そして、音声認識ユニット１０は、上記操作スイッチ群４あるいはリモコン１５が手動操作により各種コマンド等入力のために用いられるのに対して、ユーザが音声で入力することによっても同様に各種コマンド等を入力できるようにするための装置（音声認識装置）である。

この音声認識ユニット１０は、音声合成部１７と、音声認識部１８と、制御部１９と、スピーカ２０と、マイク２１（音声入力手段）と、ＰＴＴスイッチ２２とを備えている。
音声合成部１７は、波形データベース内に格納されている音声波形を用いて、制御部１９からの応答音声の出力指示に基づく音声を合成し、この合成音声をスピーカ２０から出力させるように構成されている。

音声認識部１８は、マイク２１から入力された音声データについて、制御部１９からの指示により音声認識処理を行い、その音声認識結果を制御部１９に返す。即ち、マイク２１から取得した音声データに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを制御部１９へ出力する。

入力音声中の単語系列の認識は、入力された音声データを音響モデルと順次音響分析して音響的特徴量（例えばケプストラム）を抽出する。この音響分析によって得られた音響的特徴量時系列データを得る。そして、周知のＨＭＭ（隠れマルコフモデル）、ＤＰマッチング法あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。尚、音声認識部１８の具体的構成については、後述する。

制御部１９は、音声認識部１８における音声認識結果に基づき、音声合成部１７への応答音声の出力指示、あるいは、ナビゲーション装置１自体の処理を実行する制御回路１１に対して例えばナビゲート処理のために必要な目的地やコマンドなどを通知して目的地の設定やコマンドを実行させるよう指示する処理などを行う。このような処理の結果として、この音声認識ユニット１０を利用すれば、上記操作スイッチ群４あるいはリモコン１５を手動操作しなくても、音声入力によりナビゲーション装置１に対する目的地の指示などが実行可能となる。制御部１９の具体的構成については、後述する。

また、本実施形態においては、利用者がＰＴＴスイッチ２２を押しながらマイク２１を介して音声を入力するという利用方法である。具体的には、制御部１９がＰＴＴスイッチ２２が押されたタイミングや戻されたタイミング及び押された状態が継続した時間を監視しており、ＰＴＴスイッチ２２が押された場合には音声認識部１８に対して処理の実行を指示する。一方、ＰＴＴスイッチ２２が押されていない場合には、その処理を実行させないようにしている。したがって、ＰＴＴスイッチ２２が押されている間にマイク２１を介して入力された音声データが音声認識部１８へ出力されることとなる。

このような構成を有することによって、本実施形態のナビゲーション装置１では、ユーザがコマンドや目的地等を入力することによって、経路設定や経路案内あるいは施設検索や施設表示など各種の処理を実行することができる。

ここで、音声認識部１８と制御部１９について、図２を参照して詳しく説明する。図２に示すように、音声認識部１８は、コマンド対応音声認識部２３（コマンド対応音声認識手段）とデータ対応音声認識部２４（データ対応音声認識手段）とを備えている。コマンド対応音声認識部２３は、音声認識処理で使用するコマンド対応辞書２５と、コマンドの音声認識結果を出力するコマンド対応認識結果出力部２６とを備えている。

データ対応音声認識部２４は、住所対応音声認識部２７（住所対応音声認識手段）と、楽曲対応音声認識部２８（楽曲対応音声認識手段）と、電話帳対応音声認識部２９（電話帳対応音声認識手段）とを備える。更に、データ対応音声認識部２４は、各音声認識部２７、２８、２９での認識処理で使用する住所対応辞書３０と、楽曲対応辞書３１と、電話帳対応辞書３２と、各音声認識部２７、２８、２９による音声認識結果を出力する住所対応認識結果出力部３３と、楽曲対応認識結果出力部３４と、電話帳対応認識結果出力部３５とを備える。住所対応辞書３０、楽曲対応辞書３１、電話帳対応辞書３２は、住所、楽曲、電話という３つのデータ分野（種類）にそれぞれ対応する辞書であり、複数のデータ分野対応辞書を構成する。

加えて、データ対応音声認識部２４は、各認識結果出力部３３、３４、３５から出力された音声認識結果の中から、最適な１つの音声認識結果を選択するデータ対応認識結果出力選択部３６を備えている。

制御部１９は、コマンド認識結果格納部３７と、データ認識結果格納部３８と、データ対応認識結果出力選択判定部３９とを備えている。コマンド認識結果格納部３７は、音声認識部１８のコマンド対応認識結果出力部２６から出力されたコマンド音声認識結果を格納する。データ認識結果格納部３８は、音声認識部１８のデータ対応認識結果出力選択部３６から出力されたデータ音声認識結果を格納する。データ認識結果出力選択判定部３９は、コマンド認識結果格納部３７に格納されたコマンド音声認識結果に基づいて、３つの認識結果出力部３３、３４、３５から出力された３つの音声認識結果の中から最適な１つの音声認識結果を選択（判定）する。データ対応認識結果出力選択判定部３９及びデータ対応認識結果出力選択部３６が音声認識結果選択手段としての機能を有する。

そして、音声認識部１８では、マイク２１より入力された音声について、コマンド対応音声認識部２３でコマンド対応辞書２５を使用して音声認識を行うと共に、データ対応音声認識部２４でデータ対応辞書（即ち、住所対応辞書３０、楽曲対応辞書３１、電話帳対応辞書３２）を使用して音声認識を行う。更に、コマンド対応音声認識部２３から出力されたコマンド対応の音声認識結果に基づいてデータ認識結果出力選択判定部３９は、データ対応音声認識部２４の３つの認識結果出力部３３、３４、３５から出力された３つの音声認識結果の中から最適な１つの音声認識結果の選択判定を行い、ここで選択判定された音声認識結果がデータ対応認識結果出力選択部３６により選択されてデータ認識結果格納部３８に格納され、その格納（選択）された音声認識結果が制御回路１１および音声合成部１７に渡される。また、データ認識結果出力選択判定部３９において、３つの認識結果出力部３３、３４、３５から出力された３つの音声認識結果の中から選択する音声認識結果が１つもないと判定された場合には、コマンド対応音声認識部２３によるコマンド認識結果が制御回路１１および音声合成部１７に渡される。

次に、上記構成の音声認識部１８及び制御部１９の作用、即ち、音声認識処理の制御について、図３のフローチャートを参照して説明する。まず、図３のステップＳ１０において、マイク２１を介して音声が入力されると、ステップＳ２０及びステップＳ３０へ同時に進む、即ち、ステップＳ２０の音声認識処理とステップＳ３０の音声認識処理とが同時に実行される（即ち、２つの音声認識処理が平行処理される）。

ステップＳ２０では、コマンド対応音声認識部２３によりコマンド対応辞書２５を使用してコマンドを音声認識する処理が実行される。ステップＳ３０では、データ対応音声認識部２４の３つの音声認識部２７、２８、２９により３つの辞書３０、３１、３２を使用して３つのデータ分野（住所、楽曲、電話）のデータを音声認識する３つの処理が同時に実行される（即ち、３つの音声認識処理が平行処理される）。この場合、ステップＳ２０の１つの音声認識処理と、ステップＳ３０の３つの音声認識処理とが同時に実行（平行処理）される。尚、これら４つの音声認識処理の平行処理は、マルチプロセッサ（４つのプロセッサ）で実行することが好ましい。

上記ステップＳ２０の音声認識処理が完了すると、ステップＳ４０へ進み、ここでは、ステップＳ２０で音声認識処理されたコマンド対応の音声認識結果がコマンド対応認識結果出力部２６により出力され、コマンド認識結果格納部３７に格納される。

また、ステップＳ３０の音声認識処理が完了すると、ステップＳ５０へ進み、ここでは、ステップＳ３０で音声認識処理された、即ち、３つの音声認識部２７、２８、２９でそれぞれ音声認識処理された３つのデータ対応の音声認識結果が３つの認識結果出力部３３、３４、３５により出力される。

続いて、上記ステップＳ４０の処理が完了し、ステップＳ６０へ進むと、ここでは、コマンド認識結果格納部３７に格納されたコマンド対応の音声認識結果に基づいて、データ認識結果出力選択判定部３９によりデータ認識結果出力選択判定結果（即ち、データ対応音声認識部２４の３つの認識結果出力部３３、３４、３５から出力された３つの音声認識結果の中から最適な１つの音声認識結果がどれであるかを判定した判定結果の情報）が出力され、データ対応認識結果出力選択部３６へ与えられる。

次いで、ステップＳ７０へ進むと、ここでは、ステップＳ６０で出力されたデータ認識結果出力選択判定結果に基づいて、上記３つの認識結果出力部３３、３４、３５から出力された３つの音声認識結果の中に、最適な１つの音声認識結果があるか否かを判断する。このステップＳ７０において、最適な１つの音声認識結果があると判断された場合は、ステップＳ８０へ進み、ここでは、上記データ認識結果出力選択判定結果に基づいてデータ対応認識結果出力選択部３６によりデータ対応の３つの音声認識結果の中から最適な１つの音声認識結果を選択して出力し、データ認識結果格納部３８に格納する処理を実行する。続いて、ステップＳ１００へ進み、ここでは、データ認識結果格納部３８に格納されたデータ対応の音声認識結果を最終的な音声認識結果として出力し、制御回路１１および音声合成部１７に渡す。

一方、上記ステップＳ７０において、最適な１つの音声認識結果がないと判断された場合は、ステップＳ９０へ進み、ここでは、コマンド認識結果格納部３７に格納されたコマンド対応の音声認識結果を最終的な音声認識結果として出力し、制御回路１１および音声合成部１７に渡す。このようにして、一連の音声認識処理を終了する。

次に、図４ないし図７を参照して、本実施形態の音声認識部１８及び制御部１９による音声認識処理の具体例１〜４を説明する。まず、図４に示す具体例１は、ユーザが「住所で探す愛知県刈谷市昭和町１−１」という音声を発話した場合の音声認識処理である。この場合、コマンド対応音声認識部２３によるコマンド対応の音声認識結果は「住所で探す＊＊＊」となり、上記コマンド対応の音声認識結果が住所に関連するコマンドであるから、データ認識結果出力選択判定部３９によるデータ認識結果出力選択判定結果は、「データ分野が住所データに対応する音声認識結果」となる。即ち、データ対応音声認識部２４の３つの住所対応音声認識部２７、楽曲対応音声認識部２８及び電話帳対応音声認識部２９の中から、住所対応音声認識部２７による住所対応の音声認識結果（「＊＊＊愛知県刈谷市昭和町１−１」）が選択されて出力される。この結果、図４に示すように、音声合成部１７により「愛知県刈谷市昭和町１−１で探します」という音声が合成されてスピーカ２０から音声出力される。

また、図５に示す具体例２は、ユーザが「曲名で再生する上を向いて歩こう」という音声を発話した場合の音声認識処理である。この場合、コマンド対応音声認識部２３によるコマンド対応の音声認識結果は「曲名で再生する＊＊＊」となり、上記コマンド対応の音声認識結果が楽曲に関連するコマンドであるから、データ認識結果出力選択判定部３９によるデータ認識結果出力選択判定結果は、「データ分野が楽曲のデータに対応する音声認識結果」となる。即ち、データ対応音声認識部２４の３つの住所対応音声認識部２７、楽曲対応音声認識部２８及び電話帳対応音声認識部２９の中から、楽曲対応音声認識部２８による楽曲対応の音声認識結果（「＊＊＊上を向いて歩こう」）が選択されて出力される。この結果、図５に示すように、音声合成部１７により「上を向いて歩こうを再生します」という音声が合成されてスピーカ２０から音声出力される。

また、図６に示す具体例３は、ユーザが「電話をかける鈴木太郎」という音声を発話した場合の音声認識処理である。この場合、コマンド対応音声認識部２３によるコマンド対応の音声認識結果は「電話をかける＊＊＊」となり、上記コマンド対応の音声認識結果が電話に関連するコマンドであるから、データ認識結果出力選択判定部３９によるデータ認識結果出力選択判定結果は、「データ分野が電話のデータに対応する音声認識結果」となる。即ち、データ対応音声認識部２４の３つの住所対応音声認識部２７、楽曲対応音声認識部２８及び電話帳対応音声認識部２９の中から、電話帳対応音声認識部２９による電話帳対応の音声認識結果（「＊＊＊鈴木太郎」）が選択されて出力される。この結果、図６に示すように、音声合成部１７により「鈴木太郎に電話をかけます」という音声が合成されてスピーカ２０から音声出力される。

また、図７に示す具体例４は、ユーザが「自宅へ帰る」という音声を発話した場合の音声認識処理である。この場合、コマンド対応音声認識部２３によるコマンド対応の音声認識結果は「自宅へ帰る」となり、「その他」となり、上記コマンド対応の音声認識結果が住所、楽曲及び電話に関連するコマンドでない。このため、データ認識結果出力選択判定部３９によるデータ認識結果出力選択判定結果は、「データ対応の音声認識結果なし」となり、「データ対応の音声認識結果は使用せず、コマンド対応の音声認識結果を使用する」となる。即ち、データ対応音声認識部２４の３つの住所対応音声認識部２７、楽曲対応音声認識部２８及び電話帳対応音声認識部２９による各音声認識結果を使用せずに、コマンド対応音声認識部２３によるコマンド対応の音声認識結果（「自宅へ帰る」）が出力される。この結果、図７に示すように、音声合成部１７により「自宅を目的地に設定します」という音声が合成されてスピーカ２０から音声出力される。

このような構成の本実施形態によれば、ユーザがひと続きで発声した音声を入力（一括入力）して音声認識する場合に、コマンド対応音声認識部２３で音声のうちのコマンド対応部分を音声認識し、データ対応音声認識部２４で音声のうちのデータ対応部分を音声認識するように構成したので、一括入力の音声認識、即ち、大語彙の音声認識であっても、コマンド対応部分とデータ対応部分に分けることで、認識語彙を絞ることが可能となり、コマンド対応部分及びデータ対応部分の各音声認識率を高くすることができる。そして、本実施形態では、データ対応音声認識部２４に、データ分野別に３つの住所対応音声認識部２７、楽曲対応音声認識部２８及び電話帳対応音声認識部２９を設け、これら３つの音声認識部２７、２８、２９で音声のうちのデータ対応部分を音声認識し、更に、データ認識結果出力選択判定部３９によって、コマンド対応音声認識部２３によるコマンド対応部分の音声認識結果に基づいて上記３つの音声認識部２７、２８、２９による音声認識結果の中から最適な１つを選択するように構成した。この構成によれば、データの分野（種類）によって音声認識部を３つに分けることで、認識語彙を大幅に絞ることが可能となり、しかも、３つの音声認識結果の中から最適な１つを選択することから、音声認識率をより一層向上させることができ、また、コマンドを入力する操作を少なくし得る（即ち、コマンドを別途入力する煩わしさを低減できる）。

加えて、本実施形態では、コマンド対応音声認識部２３の音声認識処理と、データ対応音声認識部２４の３つの住所対応音声認識部２７、楽曲対応音声認識部２８及び電話帳対応音声認識部２９の各音声認識処理とを、同時に実行（平行処理）するように構成したので、音声認識処理に要する時間を大幅に短縮することができ、音声認識処理の応答性を非常に良好なものとすることができる。

尚、上記実施形態では、データ対応音声認識部２４に、３つの住所対応音声認識部２７、楽曲対応音声認識部２８及び電話帳対応音声認識部２９を設けたが、これに限られるものではなく、４つ以上の音声認識部（及び４つ以上のデータ対応辞書）を設けるように構成しても良い。反対に、２つまたは１つの音声認識部（及び２つまたは１つのデータ対応辞書）を設けるように構成しても良い。

また、上記実施形態では、コマンド対応音声認識部２３の音声認識処理と、データ対応音声認識部２４の３つの住所対応音声認識部２７、楽曲対応音声認識部２８及び電話帳対応音声認識部２９の各音声認識処理とを、同時に実行するように構成したが、これに代えて、各音声認識処理を逐次処理しても良いし、４つの音声認識処理のうちの２つまたは３つを適宜平行処理するように構成しても良い。

図面中、１はナビゲーション装置、２は位置検出器、３はデータ入力器、４は操作スイッチ群、５は通信装置、６は外部メモリ、７は表示装置、８はリモコンセンサ、９は車内ＬＡＮ、１０は音声認識ユニット、１１は制御回路、１２はジャイロスコープ、１３は距離センサ、１４はＧＰＳ受信機、１５はリモコン、１６はオーディオ装置、１７は音声合成部、１８は音声認識部、１９は制御部、２０はスピーカ、２１はマイク、２２はＰＴＴスイッチ、２３はコマンド対応音声認識部、２４はデータ対応音声認識部、２５はコマンド対応辞書、２６はコマンド対応認識結果出力部、２７は住所対応音声認識部、２８は楽曲対応音声認識部、２９は電話帳対応音声認識部、３０は住所対応辞書、３１は楽曲対応辞書、３２は電話帳対応辞書、３３は住所対応認識結果出力部、３４は楽曲対応認識結果出力部、３５は電話帳対応認識結果出力部、３６はデータ対応認識結果出力選択部、３７はコマンド認識結果格納部、３８はデータ認識結果格納部、３９はデータ認識結果出力選択判定部である。

Claims

コマンドとデータとを含む音声を一括入力する音声入力手段と、
コマンド対応辞書を使用して前記音声入力手段により入力された音声を音声認識して、前記音声のうちのコマンドに対応する部分の音声認識結果を出力するコマンド対応音声認識手段と、
データ対応辞書を使用して前記音声を音声認識して、前記音声のうちのデータに対応する部分の音声認識結果を出力するデータ対応音声認識手段とを備えた音声認識装置であって、
前記データ対応辞書は、複数のデータ分野に対応する複数のデータ分野対応辞書を有し、
前記データ対応音声認識手段は、前記複数のデータ分野対応辞書をそれぞれ使用して前記音声を音声認識する複数のデータ分野対応音声認識手段を有し、
前記コマンド対応音声認識手段によるコマンド対応の音声認識結果に基づいて前記複数のデータ分野対応音声認識手段による複数の音声認識結果の中から１つを選択する音声認識結果選択手段を備えたことを特徴とする音声認識装置。
前記音声認識結果選択手段は、前記複数のデータ分野対応音声認識手段による音声認識結果の中に選択するものがないときには、前記コマンド対応音声認識手段によるコマンド対応の音声認識結果を選択することを特徴とする請求項１記載の音声認識装置。
前記コマンド対応音声認識手段と、前記データ対応音声認識手段の前記複数のデータ分野対応音声認識手段とは、同時に音声認識処理を実行することを特徴とする請求項１または２記載の音声認識装置。
前記複数のデータ分野対応辞書は、住所対応辞書、楽曲対応辞書及び電話帳対応辞書であり、
前記複数のデータ分野対応音声認識手段は、住所対応音声認識手段、楽曲対応音声認識手段及び電話帳対応音声認識手段であることを特徴とする請求項１ないし３のいずれかに記載の音声認識装置。
前記音声認識結果選択手段は、前記コマンド対応音声認識手段によるコマンド対応の音声認識結果が住所に関連するコマンドであったときには、前記住所対応音声認識手段による住所対応の音声認識結果を選択し、前記コマンド対応の音声認識結果が楽曲に関連するコマンドであったときには、前記楽曲対応音声認識手段による楽曲対応の音声認識結果を選択し、前記コマンド対応の音声認識結果が電話に関連するコマンドであったときには、前記電話帳対応音声認識手段による電話帳対応の音声認識結果を選択することを特徴とする請求項４記載の音声認識装置。