JP3764302B2

JP3764302B2 - 音声認識装置

Info

Publication number: JP3764302B2
Application number: JP22142399A
Authority: JP
Inventors: 秀樹椎名
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-08-04
Filing date: 1999-08-04
Publication date: 2006-04-05
Anticipated expiration: 2019-08-04
Also published as: JP2001042894A

Description

【０００１】
【発明の属する技術分野】
本発明は、事前に特定の操作をした後に発声した言葉を認識するプッシュトークモードと、事前の特定の操作無しに発声した言葉を認識するハンズフリーモードとの両認識モードを有する音声認識装置に関する。
【０００２】
【従来の技術】
この種のプッシュトークモードとハンズフリーモードの両認識モードを備えた音声認識装置は従来から知られている。
しかし従来の音声認識装置では、ユーザの使用時にはモードが固定されていたり、ユーザがモードを指定しなければならなかった。このため、例えばユーザ（話者）の手が空いていない状況において事前の特定操作が不要なハンズフリーモードを使用したくても、プッシュトークモードに設定されている場合には、当該プッシュトークモードからハンズフリーモードに切り替えるための操作（例えばボタン操作）が必要となり、現実にはモード切り替えができないという問題があった。
【０００３】
また従来の音声認識装置では、ハンズフリーモード自体は話者にとって事前の特定操作が不要なため便利であるものの、話者の発声した音声の区間の検出が困難であるため、プッシュトークモードに比べて認識率が悪いという問題があった。特に、ノイズが大きいといった、周囲の状況（環境）が悪い状態でハンズフリーモードを使用した場合には、この問題は一層顕著となる。
【０００４】
【発明が解決しようとする課題】
上記したように、プッシュトークモードとハンズフリーモードの両認識モードを備えた従来の音声認識装置では、話者の手が空いているためにボタン押下等の操作が行える状況にあったり、逆に手が塞がっていてボタン押下等の操作が行えない状況にあるといった、話者の状況や、ノイズが少ない静かな環境、或いはノイズが大きいうるさい環境といった、周囲の状況を考慮した設定は何もなされていなかった。
このため従来の音声認識装置では、話者の状況や周囲の状況に適さないモードでの使用、或いは認識率を犠牲にした使用等を防止することは困難であった。
【０００５】
本発明は上記事情を考慮してなされたものでその目的は、話者の状況または周囲の状況を自動的に反映した音声認識処理が可能な音声認識装置を提供することにある。
【０００６】
【課題を解決するための手段】
本発明は、事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、プッシュトークモードとハンズフリーモードとで、少なくとも一部の認識語彙を異にして音声認識処理を行う音声認識手段を備えたことを特徴とする。ここで、少なくとも一部の認識語彙を異にして音声認識処理を行うのに、プッシュトークモードでの音声認識に用いられるプッシュトーク用辞書と、ハンズフリーモードでの音声認識に用いられ、プッシュトーク用辞書とは少なくとも一部の認識語彙を異にするハンズフリー用辞書とを設け、プッシュトークモードではプッシュトーク用辞書を用いて音声認識処理を行い、ハンズフリーモードではハンズフリー用辞書を用いて音声認識処理を行うとよい。
【０００７】
このような構成においては、設定されている認識モード（プッシュトークモード／ハンズフリーモード）に応じて、（少なくとも一部が）異なる認識語彙を対象とする認識処理が行われるため、認識モードに固有の認識語彙に制限した認識処理が可能となり、認識率が向上する。特に、ハンズフリーモードではプッシュトークモードに比べて音声区間を誤検出する可能性が高いため、プッシュトークモードの場合より認識語彙を少なく設定することで、認識率の低下を防止することが可能となる。
【０００８】
また本発明は、音声認識装置の利用者の状況、または音声認識装置が使用される環境を検出する検出手段と、この検出手段の検出結果に応じてプッシュトークモードまたはハンズフリーモードを自動設定する認識モード切り替え手段とを備えたことをも特徴とする。
【０００９】
このような構成においては、音声認識装置の利用者（話者）の状況、または音声認識装置が使用される環境に合わせて認識モードが自動的に切り替え設定できる。このため、利用者が事前に特定の操作をしにくい状況では、音声区間の検出精度は犠牲となるものの、事前に特定の操作を必要としないハンズフリーモードを自動設定することで利用者の負担を減らし、利用者が事前に特定の操作をしやすい状況では、音声区間が高精度に検出できるプッシュトークモードを自動設定することで、認識率の向上を図るといったことが可能となる。
【００１０】
ここで利用者の状況としては、利用者が現在どのような場所（例えば、事前に特定の操作がしやすい居間、手が塞がりがちなため事前に特定の操作をしにくい台所など）にいるかや、利用者が現在どのような姿勢（事前に特定の操作がしやすい「立っている」姿勢、事前に特定の操作をしにくい「横になっている」姿勢など）をとっているかがある。そこで、上記検出手段として、音声認識装置の利用者の位置を検出する位置検出手段（位置センサ、或いは姿勢測定センサ等の位置検出手段）を用いるならば、利用者の状況を検出することが可能となる。
【００１１】
一方、音声認識装置が使用される環境としては、音声認識装置が現在存在する位置（音声認識装置が搭載されたカーナビゲーションシステムであれば、走行中の車両の位置、或いは目的地に近いか否かといった相対位置）がある。そこで、音声認識装置が使用される環境の検出手段として、ＧＰＳ（Global Positioning System）を用いるならば、音声認識装置が現在存在する位置を検出できる。ここで、音声認識装置が搭載されたカーナビゲーションシステムの例では、目的地に近付いてから目的地に到着するまでの期間が、ユーザにとって位置の確認等のコマンドを多く発声する可能性が高い。そこで、音声認識装置が事前に設定された位置に近付いてから目的地に到着するまではハンズフリーモードに自動設定し、それ以外はプッシュトークモードに自動設定するならば、ユーザの負担が少ないカーナビゲーションシステムを実現できる。ここでは、目的地に近付いてから目的地に到着するまでの期間に発声されるコマンドの数は比較的少ないため、ハンズフリーモードでの認識語彙を少なく設定することも可能である。このようにすると、ハンズフリーモードのために音声区間が誤検出しやすいとしても、認識率の低下を防止することが可能となる。
【００１２】
この他に、音声認識装置が使用される環境としては、周囲のノイズがある。そこで、音声認識装置が使用される環境の検出手段として、音声認識装置の周囲のノイズを計測するノイズ測定手段を用いることが可能である。
【００１３】
ここで、ノイズ測定手段による周囲ノイズ計測結果に応じて認識モードを自動設定するのに、周囲ノイズの大小により自動設定する手法、或いは周囲ノイズの性質、例えば周囲ノイズが定常的であるか非定常的であるかにより自動設定する手法が適用可能である。
【００１４】
周囲ノイズの大小により認識モードを設定する手法では、ノイズが大きい場合には、ハンズフリーモードでは音声区間を検出するのが難しいため、プッシュトークモードに自動設定し、周囲ノイズが小さいか存在しない場合には、ハンズフリーモードでも音声区間の検出が可能なため、利用者の負担の少ないハンズフリーモードに自動設定するとよい。また、周囲ノイズの性質により認識モードを設定する手法では、周囲ノイズが定常的な場合には、ノイズ除去が可能なため、ノイズ除去手段を設けることにより、利用者の負担の少ないハンズフリーモードに自動設定し、非定常的な場合には、ノイズ除去が難しいため、音声区間の検出が容易なプッシュトークモードに自動設定するとよい。
【００１６】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【００１７】
［第１の実施形態］
図１は本発明の第１の実施形態に係る音声認識装置の全体構成を示すブロック図である。
【００１８】
図１の音声認識装置は事前に特定の操作をした後に発声した音声（言葉）を認識するプッシュトークモードと、事前の特定の操作無しに発声した音声（言葉）を認識するハンズフリーモードとの両認識モードを有しており、マイクロホン１１１を含む音声入力部１１と、（プッシュトークモードにおける）音声の入力開始など、音声認識に関する処理の開始を、話者が当該装置に指示するための例えばスイッチ（ボタンスイッチ）１２と、音声認識（での照合）処理に用いられる認識辞書１３と、音声認識部１４とから構成される。
【００１９】
認識辞書１３は、プッシュトークモード時の音声認識処理に用いられるプッシュトーク用辞書１３１と、ハンズフリーモード時の音声認識処理に用いられるハンズフリー用辞書１３２とから構成される。プッシュトーク用辞書１３、ハンズフリー用辞書１４には、それぞれプッシュトークモード、ハンズフリーモードに固有の認識語彙毎の音声モデルが登録されている。ここでは、ハンズフリー用辞書１４に登録される認識語彙の数は、プッシュトーク用辞書１３に登録される認識語彙の数より少なく設定されている。
【００２０】
音声認識部１４は、音声入力部１１により入力された音声データを音響分析して特徴パラメータ系列を求め、その特徴パラメータ系列を、その際の認識モード（プッシュトークモードまたはハンズフリーモード）で決まる辞書１３１または１３２に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する。この音声認識部１４には、図１の音声認識装置の周囲の状況（装置環境）を予め定められた項目について表す情報（ステータス）に基づいてプッシュトークモードまたはハンズフリーモードを自動的に切り替え設定する認識モード切り替え部１４１が付加されている。
【００２１】
次に、図１の構成の音声認識装置の動作を、当該音声認識装置が車両に搭載されたカーナビゲーションシステム（音声認識装置付きカーナビゲーションシステム）に適用された場合を例に説明する。
【００２２】
まず、認識モード切り替え部１４１には、音声認識装置の周囲の状況（環境）を表す情報として、当該音声認識装置を持つカーナビゲーションシステムが搭載されている車両の状態、例えば走行中か停止中かを表す情報が与えられる。
【００２３】
認識モード切り替え部１４１は、車両の走行中は（話者となる運転者がスイッチ操作を行わなくて済むように）スイッチ１２の操作が不要なハンズフリーモードに設定し、車両の停止中は（スイッチ操作を行うことに何ら問題はないことから）スイッチ１２の操作を必要とするものの、音声区間が高精度に検出できるプッシュトークモードに設定する。
【００２４】
音声認識部１４は、認識モード切り替え部１４１によりプッシュトークモードが設定されている場合、プッシュトーク用辞書１３１を読み込んで、認識する語彙を設定する。そして音声認識部１４は、スイッチ１２が押された直後に、マイクロホン１１１を介して音声入力部１１から入力された音声信号、即ちマイクロホン１１１から入力されて音声入力部１１内の図示せぬＡ／Ｄ変換器によりアナログ／デジタル変換された音声データを音響分析して特徴パラメータ系列を求め、その特徴パラメータ系列を音声区間の特徴パラメータ系列であるとして、先に読み込んだプッシュトーク用辞書１３１に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する。
【００２５】
一方、認識モード切り替え部１４１によりハンズフリーモードが設定されている場合、音声認識部１４はハンズフリー用辞書１３２を読み込んで、認識する語彙を設定する。次に音声認識部１４は、スイッチ１２の操作とは無関係に、マイクロホン１１１を介して音声入力部１１から入力された音声信号を音響分析して特徴パラメータ系列を求め、その特徴パラメータ系列から算出されるパワーの分布から音声区間を検出する。そして音声認識部１４は、検出した音声区間の特徴パラメータ系列を、先に読み込んだハンズフリー用辞書１３２に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する。
【００２６】
このように本実施形態においては、音声認識装置が置かれている周囲の環境（音声認識装置付きカーナビゲーションシステムの例では、車両が停止中であるか、或いは走行中であるか）に応じて、ユーザ（話者）にとって負担の少ないハンズフリーモードで認識したり、確実に音声区間を検出できる（つまり精度よく照合処理が行える）プッシュトークモードで認識したりすることができる。
【００２７】
しかも本実施形態においては、プッシュトークモードとハンズフリーモードとで、認識（照合）処理に用いる辞書が異なるため、それぞれ音声認識装置が置かれている周囲の環境に適合した認識語彙を対象とする認識処理が行える。この効果について、上記の音声認識装置付きカーナビゲーションシステムを例に具体的に説明する。
【００２８】
まず、音声認識装置付きカーナビゲーションシステムにおいては、話者（ユーザ）は車両の走行中はコマンドを発声し、停止中は目的地などを発声する場合が多く、走行中と停止中とで、発声する内容、つまり認識すべき語彙が、（少なくとも）一部異なるのが一般的である。したがって、走行中に対応して自動設定されるハンズフリーモードと、停止中に対応して自動設定されるプッシュトークモードの各認識モードにおいて、本実施形態のようにプッシュトーク用辞書１３１とハンズフリー用辞書１３２とを使い分けて、それぞれ固有の認識語彙を設定するならば、不要な認識語彙（の音声モデル）を対象とする照合処理を行わずに済み、認識率の向上と認識時間の短縮を図ることができる。
【００２９】
特に、走行中（ハンズフリーモード）の発声は、位置の確認等のコマンドの入力など、停止中（プッシュトークモード）の場合に比べて限られているため、ハンズフリー用辞書１３２に登録される認識語彙の数を少なく設定できる。このように、ハンズフリーモードにおいて認識語彙数を少なく設定した場合、プッシュトークモードに比べて音声区間を誤検出する可能性が高いにも拘わらず、少ない認識語彙の範囲内で認識処理が行われることにより、認識率が低下するのを防止できる。一方、プッシュトークモードでは、音声区間を確実に検出して高精度に照合処理が行えるため、認識語彙数が多くても、高い認識率を確保することができる。
【００３０】
以上は、認識モードが音声認識装置の周囲の状況に応じて自動設定される場合について説明したが、ユーザ操作により設定されるものであっても構わない。要は、プッシュトーク用辞書１３１とハンズフリー用辞書１３２の両方の辞書を用意し、ハンズフリー用辞書１３２に含まれる認識語彙の数が、プッシュトーク用辞書１３１に含まれる認識語彙の数より少なくなるように、辞書設定がなされていればよい。
【００３１】
［第２の実施形態］
図２は本発明の第２の実施形態に係る音声認識装置の全体構成を示すブロック図であり、図１と同一部分には同一符号を付してある。
【００３２】
図２の音声認識装置は、音声入力部１１と、スイッチ（ボタンスイッチ）１２と、認識辞書２３と、音声認識部２４と、音声認識装置自体の位置、またはユーザ（話者）の位置を検出する位置検出装置２５とから構成される。
【００３３】
音声認識部２４は、位置検出装置２５の位置検出結果に応じて認識モード、つまりプッシュトークモードまたはハンズフリーモードを自動設定する認識モード切り替え部２４１を有する。
【００３４】
次に、図２の構成の音声認識装置の動作を説明する。
まず、位置検出装置２５は、音声認識装置の位置、または当該音声認識装置のユーザ（話者）の位置を検出し、その位置情報を音声認識部２４内の認識モード切り替え部２４１に通知する。
【００３５】
認識モード切り替え部２４１は、事前に例えばユーザにより設定された、位置（音声認識装置位置またはユーザ位置）と認識モード（プッシュトークモード／ハンズフリーモード）との対応表を有している。認識モード切り替え部２４１は、位置検出装置２５から通知された位置情報により上記対応表を参照することで、その位置情報に対応した認識モードを決定し、その決定した認識モードを自動設定する。
【００３６】
音声認識部２４は、認識モード切り替え部２４１によりプッシュトークモードが設定されている場合、スイッチ１２が押された直後にマイクロホン１１１を介して音声入力部１１から入力された音声データについて、認識辞書２３を用いて認識処理を行う。一方、認識モード切り替え部２４１によりハンズフリーモードが設定されている場合、スイッチ１２の操作に無関係に、マイクロホン１１１を介して音声入力部１１から入力された音声データについて、認識辞書２３を用いて認識処理を行う。
【００３７】
このように本実施形態においては、位置検出装置２５により検出される位置に応じて認識モードが自動設定される。これにより、位置によって発声スタイルが限定される場合には、最適な認識モードの自動設定が実現できる。
【００３８】
なお、上記認識辞書２３には、前記第１の実施形態と異なって、必ずしもプッシュトーク用辞書１３１とハンズフリー用辞書１３２の２種を用意する必要はなく、プッシュトークモードとハンズフリーモードとで同一の辞書を共用するものであっても構わない。但し、認識辞書２３を、前記第１の実施形態と同様に、プッシュトーク用辞書と当該辞書より認識語彙数が少ないハンズフリー用辞書とで構成し、認識モードに応じて使い分けるならば、ハンズフリーモードでの認識率の低下を防止することができる。
【００３９】
次に、位置検出装置２５の具体例について図３を参照して説明する。
まず、図３（ａ）はＧＰＳ２５１を用いた位置検出装置２５の実現例を示す。
【００４０】
図３（ａ）の位置検出装置２５を、図２の音声認識装置に適用した場合、この音声認識装置の位置が位置検出装置２５（を構成するＧＰＳ２５１）により検出される。ここでは、認識モード切り替え部２４１は、位置検出装置２５（ＧＰＳ２５１）の位置検出結果により、音声認識装置が事前設定された位置に（ある誤差の範囲内で）近付いたと判断すると、予め設定されている認識モードに切り替える。このモード切り替えの効果について、前記第１の実施形態と同様に、音声認識装置付きカーナビゲーションシステムを例に説明する。
【００４１】
まず、音声認識装置付きカーナビゲーションシステムにおいては、同じ走行中でも、目的地に近付いてから目的地に到着するまでの期間が、ユーザにとって位置の確認等のコマンドを多く発声する可能性が高い。このような状況では、発声されるコマンドは比較的小語彙である。そこで、音声認識装置が事前設定された位置に近付いてから目的地に到着するまではハンズフリーモードに自動設定し、それ以外はプッシュトークモードに自動設定するならば、ユーザの負担が少ないカーナビゲーションシステムを実現できる。
【００４２】
次に、図３（ｂ）にユーザ位置を検出するための複数の位置センサ２５２を用いた位置検出装置２５の実現例を示す。
【００４３】
図３（ｂ）の位置検出装置２５を、図２の音声認識装置に適用した場合、各位置センサ２５２が配置（設置）されている位置（場所）のいずれにユーザが存在するかが、位置検出装置２５（を構成する複数の位置センサ２５２のうちの対応する位置センサ２５２）により検出される。ここでは、認識モード切り替え部２４１は、位置検出装置２５（位置センサ２５２）の位置検出結果により、事前設定されたユーザ位置と認識モード（プッシュトークモード／ハンズフリーモード）との対応表を参照することで、ユーザ位置に対応した認識モードを自動設定する。この認識モードの自動設定の効果について、上記位置センサ２５２が家の各部屋に設置され、当該位置センサ２５２によりユーザのいる部屋が検出されるシステムを例に説明する。
【００４４】
なお、図３（ｂ）の位置検出装置２５を図２の音声認識装置に適用する場合、図２中のマイクロホン１１１内蔵の音声入力部１１及びスイッチ１２は位置センサ２５２と組をなして各部屋に設置される。但し、後述するように、ハンズフリーモードが設定される部屋には、スイッチ１２を必ずしも設ける必要がない。ここでは、音声入力部１１、スイッチ１２及び位置センサ２５２は、いずれもｌＥＥＥ１３９４に準拠したバス型のネットワーク（ｌＥＥＥ１３９４バスネットワーク）などの信号線により音声認識部２４と結合されているものとする。この他に、無線信号により音声認識部２４と結合することも可能である。
【００４５】
今、位置センサ２５２が設置されている複数の部屋のいずれかに、ユーザが入室したものとする。この場合、ユーザが入室した部屋に設置されている位置センサ２５２は、ユーザの存在を検出し、その検出結果を音声認識部２４の認識モード切り替え部２４１に有線または無線により通知する。
【００４６】
認識モード切り替え部２４１は、複数の位置センサ２５２のいずれかからユーザの存在を検出したことが通知されると、その位置センサ２５２（の設置箇所）から決まる部屋、つまりユーザが存在する部屋（ユーザ位置）に対応した認識モードを自動設定する。ここで、各部屋（ユーザ位置）と認識モード（プッシュトークモード／ハンズフリーモード）との対応表を、各部屋の特徴を考慮して設定することで、ユーザが、例えば書斎などのようなノイズの影響の少ない静かな部屋にいる場合や、台所など手が塞がりやすい部屋（環境）にいる場合には、スイッチ１２を操作する必要のないハンズフリーモードに自動設定し、居間のようにノイズの多い部屋にいる場合には、音声区間を確実に検出できるプッシュトークモードに自動設定して、この設定した認識モードで認識することにより、ユーザにとって使用環境に適合した使いやすい音声認識装置が実現できる。ここでは、各部屋にユーザが同時に存在し、それぞれのユーザが発声しても、各部屋毎に設けられた音声入力部１１から入力される音声に対し、各部屋毎に設定される認識モードで並列に認識処理を行うことが可能である。なお、音声入力部１１のマイクロホン１１１以外の要素（ここではＡ／Ｄ変換器など）は、音声認識部２４側に持たせても構わない。
【００４７】
［第３の実施形態］
図４は本発明の第３の実施形態に係る音声認識装置の全体構成を示すブロック図であり、図２と同一部分には同一符号を付してある。
【００４８】
図４の音声認識装置は、音声入力部１１と、スイッチ（ボタンスイッチ）１２と、認識辞書２３と、音声認識部４４とから構成される。
音声認識部４４は、音声認識装置の周囲のノイズ環境に応じて、認識モード、つまりプッシュトークモードまたはハンズフリーモードを自動設定する認識モード切り替え部４４１と、音声入力部１１から入力される音声データ（音響データ）を音響分析して特徴パラメータ系列を求める音響分析部４４２と、音響分析部４４２により求められた特徴パラメータ系列を認識辞書２３に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する照合部４４３とから構成される。
【００４９】
音響分析部４４２は、音声入力部１１により入力される音響データ（音声データ）の特徴パラメータ系列からパワー（例えば平均パワー）を一定時間毎に算出するパワー計算部４４２ａを有する。
【００５０】
認識モード切り替え部４４１は、パワー計算部４４２ａにより算出された一定時間毎の入力音響データのパワーの変化と値とから周囲ノイズを、ノイズの有無と大きさについて検出し、その検出結果から一定レベル以上のノイズの有無を判定するノイズ判定部４４１ａを有する。認識モード切り替え部４４１は、このノイズ判定部４１４ａの判定結果に応じて認識モードを自動設定する。
【００５１】
次に、図４の構成の音声認識装置の動作を説明する。
まず、音声認識装置の周囲のノイズはマイクロホン１１１により音声入力部１１内に入力され、デジタルの音響データに変換されて音響分析部４４２に送られる。音響分析部４４２は入力音響データを音響分析して特徴パラメータ系列を求める。音響分析部４４２内のパワー計算部４４２ａは、この特徴パラメータ系列から入力音響データの例えば平均パワーを一定時間毎に算出し、その算出結果を認識モード切り替え部４４１内のノイズ判定部４４１ａに渡す。ノイズ判定部４１４ａは、入力音響データのパワーの時間変化から、そのパワーが基準レベル以上変化しているか否かにより音声のパワーの変化と区別して、一定レベル以上の周囲ノイズの有無を判定する。
【００５２】
認識モード切り替え部４４１は、ノイズ判定部４４１ａにより一定レベル以上のノイズの存在が検出された場合には、ハンズフリーモードでは音声区間を検出するのが極めて難しいことから、プッシュトークモードに自動設定する。これに対し、ノイズ判定部４４１ａにより（一定レベル以上の）ノイズが存在しないことが検出された場合には、認識モード切り替え部４４１は、ハンズフリーモードでも音声区間の検出が可能であることから、ユーザの負担の少ないハンズフリーモードに自動設定する。これにより、ユーザにとって使いやすい、使用環境に適合した使いやすい音声認識装置が実現できる。
【００５３】
なお、以上の実施形態では、認識モード切り替え部４４１内のノイズ判定部４４１ａによりノイズの大きさが判定される場合について説明したが、これに限るものではない。
【００５４】
例えば、図５の変形例に示すように、認識モード切り替え部４４１に代えて、ノイズの大きさではなくて、ノイズの性質（ここでは、ノイズ除去が可能な定常的なノイズであるか否か）を判定（検出）するノイズ性質判定部５４１ａを持つ認識モード切り替え部５４１を用い、この認識モード切り替え部５４１を内蔵した音声認識部５４を音声認識部４４に代えて用いるようにしてもよい。ここでは、音声入力部１１と音声認識部５４内の音響分析部４４２との間に、ノイズ除去用のノイズ除去部５４４を設け、ノイズ性質判定部５４１ａによりノイズ除去が可能な性質のノイズ（ここでは定常的なノイズ）であると判定された場合に、その判定結果に応じてノイズ除去部５４４によるノイズ除去動作が行われる構成を適用している。
【００５５】
次に、図５の構成の音声認識装置の動作を説明する。
まず、ノイズ性質判定部５４１ａは、音響分析部４４２内のパワー計算部４４２ａから送られる入力音響データの一定時間毎の平均パワーから、一定レベル以上の周囲ノイズの有無と、ノイズがある場合には、そのノイズが定常的なノイズであるか、或いは非定常的なノイズであるかを判定する。
【００５６】
認識モード切り替え部５４１は、ノイズ性質判定部５４１ａにより、一定レベル以上の周囲ノイズが存在し、且つ当該ノイズが定常的なノイズであると判定された場合には、ノイズを除去することが容易であり、したがってノイズが存在しないことを前提とするハンズフリーモードで音声区間を検出することが可能であるとして、周囲ノイズが存在しない場合と同様に、ハンズフリーモードに自動設定する。これに対し、ノイズ性質判定部５４１ａにより、一定レベル以上の周囲ノイズが存在し、且つ当該ノイズが非定常的なノイズであると判定された場合には、ノイズを除去することが難しいことから、認識モード切り替え部５４１は、音声区間が確実に検出できるプッシュトークモードを自動設定する。
【００５７】
ノイズ性質判定部５４１ａは、一定レベル以上の周囲ノイズが存在し、且つ当該ノイズが定常的なノイズであると判定した場合、その旨をノイズ除去部５４４に通知して、当該ノイズ除去部５４４によるノイズ除去機能を働かせる。これによりノイズ除去部５４４は、音声入力部１１から送られる入力音声データ（音響データ）からスペクトルサブトラクション等の周知の手法によりノイズを除去し、音響分析部４４２に送る。
【００５８】
音響分析部４４２は、ハンズフリーモードでは、ノイズ除去部５４４により定常的ノイズが除去された音声データを、スイッチ１２の操作とは無関係に音響分析して特徴パラメータ系列を求める。音響分析部４４２は、この特徴パラメータ系列に基づいて、パワー計算部４４２ａにより入力音声のパワーを計算し、そのパワーの分布から音声区間を検出する。そして音響分析部４４２は、検出した音声区間の特徴パラメータ系列を照合部４４３に送る。
【００５９】
一方、プッシュトークモードでは、音響分析部４４２はスイッチ１２が押されることで動作を開始し、それ以降音声入力部１１から（ノイズ除去部５４４を介して）入力される音声データを音響分析して特徴パラメータ系列を求める。そして音響分析部４４２は、この特徴パラメータ系列を（音声区間の特徴パラメータ系列として）照合部４４３に送る。なお、プッシュトークモードにおいても、音響分析部４４２にて定常的に音響分析動作を行って特徴パラメータ系列を求め、その中から、スイッチ１２が押された時点以降の特徴パラメータ系列を選択して照合部４４３に送るようにしても構わない。
【００６０】
照合部４４３は、音響分析部４４２から送られた音声区間の特徴パラメータ系列を認識辞書２３に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する。
【００６１】
このように、図５の構成の音声認識装置においては、ノイズ除去部５４４を設け、定常的なノイズのときは、当該ノイズ除去部５４４によるノイズ除去が可能であることを考慮して、ノイズのない場合と同様にハンズフリーモードに自動設定することにより、ユーザの負担を減らすことができ、ユーザにとって使いやすい音声認識装置が実現できる。
【００６２】
［第４の実施形態］
図６は本発明の第４の実施形態に係る音声認識装置の全体構成を示すブロック図であり、図２と同一部分には同一符号を付してある。
【００６３】
図６の音声認識装置は、複数の音声入力部１１と、複数のスイッチ（ボタンスイッチ）１２と、認識辞書２３と、音声認識部６４と、複数の姿勢測定センサ６５とから構成される。ここで、音声入力部１１、スイッチ１２及び姿勢測定センサ６５は、それぞれ組をなして、例えば各部屋に設置されており、それぞれｌＥＥＥ１３９４バスネットワークなどの信号線により音声認識部６４と結合されているものとする。
【００６４】
各姿勢測定センサ６５は、（ユーザの対応する部屋における存在と）ユーザの「横になっている」「立っている」「座っている」といった姿勢を検出する。
【００６５】
音声認識部６４は、各姿勢測定センサ６５のユーザ姿勢検出結果に応じて、部屋毎にユーザ姿勢に適合した認識モード、つまりプッシュトークモードまたはハンズフリーモードを自動設定する。
【００６６】
次に、図６の構成の音声認識装置の動作を説明する。
まず、各姿勢測定センサ６５は、ユーザが存在する場合、そのユーザの「横になっている」「立っている」「座っている」といった姿勢を検出する。この姿勢測定センサ６５の姿勢検出結果は、上記信号線を介して音声認識部６４に通知される。なお、無線信号により音声認識部６４に通知することも可能である。
【００６７】
認識モード切り替え部６４１は、事前に例えばユーザにより設定された、各ユーザ姿勢と認識モード（プッシュトークモード／ハンズフリーモード）との対応表を有している。認識モード切り替え部６４１は、姿勢測定センサ６５により検出されたユーザ姿勢により上記対応表を参照することで、そのユーザ姿勢に対応した認識モードを決定し、その決定した認識モードを当該姿勢測定センサ６５が設置されている部屋に対応して自動設定する。ここでは、ユーザがスイッチ１２を操作しにくい姿勢をとっている場合、例えば「横になっている」場合には、スイッチ１２の操作が不要なハンズフリーモードに自動設定する。これに対しユーザがスイッチ１２を操作しやすい姿勢をとっている場合、例えば「立っている」或いは「座っている」場合には、スイッチ１２の操作が必要であるものの音声区間が確実に検出できるプッシュトークモードに自動設定する。これにより、各部屋のユーザにとって使いやすい音声認識装置が実現できる。
【００６８】
［第５の実施形態］
図７は本発明の第５の実施形態に係る音声認識装置の全体構成を示すブロック図であり、図２と同一部分には同一符号を付してある。
【００６９】
図７の音声認識装置は、音声入力部１１と、スイッチ（ボタンスイッチ）１２と、認識辞書２３と、音声認識部７４と、モード提示部７５とから構成される。
音声認識部７４は、前記第１乃至第４の実施形態のいずれかで適用された手法で認識モードを切り替え設定する認識モード切り替え部７４１を有している。この認識モード切り替え部７４１は、認識モードが切り替わった際に、その旨をモード提示部７５によりユーザに提示する。また認識モード切り替え部７４１は、現在の有効な認識モードを認識モード切り替え部７４１によりユーザに提示する。
【００７０】
次に、図７の構成の音声認識装置の動作を説明する。
認識モード切り替え部７４１は、現在設定されている認識モードを認識モード切り替え部７４１によりユーザに提示している。このような状態で、前記第１乃至第４の実施形態のいずれかで適用された手法により、現在の認識モードとは異なるモード（プッシュトークモード→ハンズフリーモード、またはハンズフリーモード→プッシュトークモード）に切り替え設定する条件が成立した場合、認識モード切り替え部７４１は、認識モードを該当するモードに切り替え設定する。同時に認識モード切り替え部７４１は、認識モードが切り替わったことをモード提示部７５によりユーザに提示する。また、認識モード切り替え部７４１は、切り替え設定後のモードを現在の有効なモードとしてモード提示部７５によりユーザに提示する。
【００７１】
このように、モード提示部７５を用いたユーザへの提示を行うことで、ユーザの音声認識装置に対する認識モードの思い込みによる誤使用をなくすことができる。
【００７２】
ここで、モード提示部７５としては、音声による提示機能、或いは表示パネルへの文字列表示による提示機能、或いは両者を併用した提示機能を持つものが適用可能である。この他、設定される認識モード（プッシュトークモード／ハンズフリーモード）に応じて異なる点灯手法を適用するモード提示部７５であっても構わない。ここで、点灯手法としては、モードによって点灯箇所を変更する手法（つまり、モードで決まる固有の箇所を光らせる手法）、モードによって点灯色を切り替える手法（つまり、モードで決まる固有の色で光らせる手法）、モードによって点滅のパターンを切り替える手法などが適用可能である。
【００７３】
【発明の効果】
以上詳述したように本発明によれば、利用者（話者）の状況または周囲の状況を自動的に反映した音声認識処理を行うことができるため、利用者の状況や周囲の状況に適さないモードでの使用、或いは認識率を犠牲にした使用等を防止し、利用者の負担を少なくし、且つ認識率の低下を防止することが可能となる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る音声認識装置の全体構成を示すブロック図。
【図２】本発明の第２の実施形態に係る音声認識装置の全体構成を示すブロック図。
【図３】図２中の位置検出装置２５の構成例を示す図。
【図４】本発明の第３の実施形態に係る音声認識装置の全体構成を示すブロック図。
【図５】図４の音声認識装置の変形例を示すブロック図。
【図６】本発明の第４の実施形態に係る音声認識装置の全体構成を示すブロック図。
【図７】本発明の第５の実施形態に係る音声認識装置の全体構成を示すブロック図。
【符号の説明】
１１…音声入力部
１２…スイッチ（ボタンスイッチ）
１３，２３…認識辞書
１４，２４，４４，５４，６４，７４…音声認識部
２５…位置検出装置（検出手段、位置検出手段）
６５…姿勢測定センサ（検出手段、姿勢検出手段）
７５…モード提示部
１３１…プッシュトーク用辞書
１３２…ハンズフリー用辞書
１４１，２４１，４４１，５４１，６４１，７４１…認識モード切り替え部
２５１…ＧＰＳ（検出手段、位置検出手段）
２５２…位置センサ（検出手段、位置検出手段）
４４１ａ…ノイズ判定部（ノイズ測定手段）
４４２…音響分析部
４４２ａ…パワー計算部
４４３…照合部
５４１ａ…ノイズ性質判定部（ノイズ測定手段）

Claims

事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、
前記音声認識装置の位置を検出する位置検出手段と、
前記音声認識装置の予め定められた位置毎に、小語彙を発声する可能性の高い位置であるか否かに応じて前記ハンズフリーモードまたは前記プッシュトークモードが設定されたテーブルと、
前記位置検出手段の位置検出結果により前記テーブルを参照し、当該位置検出結果の示す位置に対応した前記ハンズフリーモードまたは前記プッシュトークモードを自動設定する認識モード切り替え手段とを具備することを特徴とする音声認識装置。
前記音声認識装置はカーナビゲーションシステムに適用され、
前記テーブルには、小語彙を発声する可能性の高い、予め定められた位置から目的地までの位置範囲に対応付けて前記ハンズフリーモードが設定され、それ以外の位置範囲に対応付けて前記プッシュトークモードが設定されている
ことを特徴とする請求項１記載の音声認識装置。
事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、
前記音声認識装置の利用者の位置を検出する位置検出手段と、
前記音声認識装置の利用者の予め定められた位置毎に、ノイズの影響が少ない位置であるか否かに応じて前記ハンズフリーモードまたは前記プッシュトークモードが設定されたテーブルと、
前記位置検出手段の位置検出結果により前記テーブルを参照し、当該位置検出結果の示す位置に対応した前記ハンズフリーモードまたは前記プッシュトークモードを自動設定する認識モード切り替え手段とを具備することを特徴とする音声認識装置。
事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、
前記音声認識装置の利用者の位置を検出する位置検出手段と、
前記音声認識装置の予め定められた利用者の位置毎に、利用者の操作が困難となる位置であるか否かに応じて前記ハンズフリーモードまたは前記プッシュトークモードが設定されたテーブルと、
前記位置検出手段の位置検出結果により前記テーブルを参照し、当該位置検出結果の示す位置に対応した前記ハンズフリーモードまたは前記プッシュトークモードを自動設定する認識モード切り替え手段とを具備することを特徴とする音声認識装置。
前記プッシュトークモードでの音声認識に用いられるプッシュトーク用辞書と、
前記ハンズフリーモードでの音声認識に用いられ、前記プッシュトーク用辞書とは少なくとも一部の認識語彙を異にするハンズフリー用辞書とを更に具備し、
前記音声認識手段は、前記プッシュトークモードでは前記プッシュトーク用辞書を用いて音声認識処理を行い、前記ハンズフリーモードでは前記ハンズフリー用辞書を用いて音声認識処理を行う
ことを特徴とする請求項１、請求項３または請求項４に記載の音声認識装置。
事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、
前記音声認識装置の利用者の姿勢が予め定められた複数の姿勢のいずれであるかを検出する姿勢検出手段と、
前記予め定められた姿勢毎に前記プッシュトークモードまたは前記ハンズフリーモードが設定されるテーブルであって、利用者の操作が容易な姿勢に対応付けて前記プッシュトークモードが設定され、利用者の操作が困難な姿勢に対応付けて前記ハンズフリーモードが設定されるテーブルと、
前記姿勢検出手段により検出された利用者の姿勢により前記テーブルを参照し、当該姿勢に対応した前記プッシュトークモードまたは前記ハンズフリーモードを自動設定する認識モード切り替え手段とを具備することを特徴とする音声認識装置。