JP3764302B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP3764302B2 JP3764302B2 JP22142399A JP22142399A JP3764302B2 JP 3764302 B2 JP3764302 B2 JP 3764302B2 JP 22142399 A JP22142399 A JP 22142399A JP 22142399 A JP22142399 A JP 22142399A JP 3764302 B2 JP3764302 B2 JP 3764302B2
- Authority
- JP
- Japan
- Prior art keywords
- mode
- hands
- recognition
- voice
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、事前に特定の操作をした後に発声した言葉を認識するプッシュトークモードと、事前の特定の操作無しに発声した言葉を認識するハンズフリーモードとの両認識モードを有する音声認識装置に関する。
【0002】
【従来の技術】
この種のプッシュトークモードとハンズフリーモードの両認識モードを備えた音声認識装置は従来から知られている。
しかし従来の音声認識装置では、ユーザの使用時にはモードが固定されていたり、ユーザがモードを指定しなければならなかった。このため、例えばユーザ(話者)の手が空いていない状況において事前の特定操作が不要なハンズフリーモードを使用したくても、プッシュトークモードに設定されている場合には、当該プッシュトークモードからハンズフリーモードに切り替えるための操作(例えばボタン操作)が必要となり、現実にはモード切り替えができないという問題があった。
【0003】
また従来の音声認識装置では、ハンズフリーモード自体は話者にとって事前の特定操作が不要なため便利であるものの、話者の発声した音声の区間の検出が困難であるため、プッシュトークモードに比べて認識率が悪いという問題があった。特に、ノイズが大きいといった、周囲の状況(環境)が悪い状態でハンズフリーモードを使用した場合には、この問題は一層顕著となる。
【0004】
【発明が解決しようとする課題】
上記したように、プッシュトークモードとハンズフリーモードの両認識モードを備えた従来の音声認識装置では、話者の手が空いているためにボタン押下等の操作が行える状況にあったり、逆に手が塞がっていてボタン押下等の操作が行えない状況にあるといった、話者の状況や、ノイズが少ない静かな環境、或いはノイズが大きいうるさい環境といった、周囲の状況を考慮した設定は何もなされていなかった。
このため従来の音声認識装置では、話者の状況や周囲の状況に適さないモードでの使用、或いは認識率を犠牲にした使用等を防止することは困難であった。
【0005】
本発明は上記事情を考慮してなされたものでその目的は、話者の状況または周囲の状況を自動的に反映した音声認識処理が可能な音声認識装置を提供することにある。
【0006】
【課題を解決するための手段】
本発明は、事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、プッシュトークモードとハンズフリーモードとで、少なくとも一部の認識語彙を異にして音声認識処理を行う音声認識手段を備えたことを特徴とする。ここで、少なくとも一部の認識語彙を異にして音声認識処理を行うのに、プッシュトークモードでの音声認識に用いられるプッシュトーク用辞書と、ハンズフリーモードでの音声認識に用いられ、プッシュトーク用辞書とは少なくとも一部の認識語彙を異にするハンズフリー用辞書とを設け、プッシュトークモードではプッシュトーク用辞書を用いて音声認識処理を行い、ハンズフリーモードではハンズフリー用辞書を用いて音声認識処理を行うとよい。
【0007】
このような構成においては、設定されている認識モード(プッシュトークモード/ハンズフリーモード)に応じて、(少なくとも一部が)異なる認識語彙を対象とする認識処理が行われるため、認識モードに固有の認識語彙に制限した認識処理が可能となり、認識率が向上する。特に、ハンズフリーモードではプッシュトークモードに比べて音声区間を誤検出する可能性が高いため、プッシュトークモードの場合より認識語彙を少なく設定することで、認識率の低下を防止することが可能となる。
【0008】
また本発明は、音声認識装置の利用者の状況、または音声認識装置が使用される環境を検出する検出手段と、この検出手段の検出結果に応じてプッシュトークモードまたはハンズフリーモードを自動設定する認識モード切り替え手段とを備えたことをも特徴とする。
【0009】
このような構成においては、音声認識装置の利用者(話者)の状況、または音声認識装置が使用される環境に合わせて認識モードが自動的に切り替え設定できる。このため、利用者が事前に特定の操作をしにくい状況では、音声区間の検出精度は犠牲となるものの、事前に特定の操作を必要としないハンズフリーモードを自動設定することで利用者の負担を減らし、利用者が事前に特定の操作をしやすい状況では、音声区間が高精度に検出できるプッシュトークモードを自動設定することで、認識率の向上を図るといったことが可能となる。
【0010】
ここで利用者の状況としては、利用者が現在どのような場所(例えば、事前に特定の操作がしやすい居間、手が塞がりがちなため事前に特定の操作をしにくい台所など)にいるかや、利用者が現在どのような姿勢(事前に特定の操作がしやすい「立っている」姿勢、事前に特定の操作をしにくい「横になっている」姿勢など)をとっているかがある。そこで、上記検出手段として、音声認識装置の利用者の位置を検出する位置検出手段(位置センサ、或いは姿勢測定センサ等の位置検出手段)を用いるならば、利用者の状況を検出することが可能となる。
【0011】
一方、音声認識装置が使用される環境としては、音声認識装置が現在存在する位置(音声認識装置が搭載されたカーナビゲーションシステムであれば、走行中の車両の位置、或いは目的地に近いか否かといった相対位置)がある。そこで、音声認識装置が使用される環境の検出手段として、GPS(Global Positioning System)を用いるならば、音声認識装置が現在存在する位置を検出できる。ここで、音声認識装置が搭載されたカーナビゲーションシステムの例では、目的地に近付いてから目的地に到着するまでの期間が、ユーザにとって位置の確認等のコマンドを多く発声する可能性が高い。そこで、音声認識装置が事前に設定された位置に近付いてから目的地に到着するまではハンズフリーモードに自動設定し、それ以外はプッシュトークモードに自動設定するならば、ユーザの負担が少ないカーナビゲーションシステムを実現できる。ここでは、目的地に近付いてから目的地に到着するまでの期間に発声されるコマンドの数は比較的少ないため、ハンズフリーモードでの認識語彙を少なく設定することも可能である。このようにすると、ハンズフリーモードのために音声区間が誤検出しやすいとしても、認識率の低下を防止することが可能となる。
【0012】
この他に、音声認識装置が使用される環境としては、周囲のノイズがある。そこで、音声認識装置が使用される環境の検出手段として、音声認識装置の周囲のノイズを計測するノイズ測定手段を用いることが可能である。
【0013】
ここで、ノイズ測定手段による周囲ノイズ計測結果に応じて認識モードを自動設定するのに、周囲ノイズの大小により自動設定する手法、或いは周囲ノイズの性質、例えば周囲ノイズが定常的であるか非定常的であるかにより自動設定する手法が適用可能である。
【0014】
周囲ノイズの大小により認識モードを設定する手法では、ノイズが大きい場合には、ハンズフリーモードでは音声区間を検出するのが難しいため、プッシュトークモードに自動設定し、周囲ノイズが小さいか存在しない場合には、ハンズフリーモードでも音声区間の検出が可能なため、利用者の負担の少ないハンズフリーモードに自動設定するとよい。また、周囲ノイズの性質により認識モードを設定する手法では、周囲ノイズが定常的な場合には、ノイズ除去が可能なため、ノイズ除去手段を設けることにより、利用者の負担の少ないハンズフリーモードに自動設定し、非定常的な場合には、ノイズ除去が難しいため、音声区間の検出が容易なプッシュトークモードに自動設定するとよい。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【0017】
[第1の実施形態]
図1は本発明の第1の実施形態に係る音声認識装置の全体構成を示すブロック図である。
【0018】
図1の音声認識装置は事前に特定の操作をした後に発声した音声(言葉)を認識するプッシュトークモードと、事前の特定の操作無しに発声した音声(言葉)を認識するハンズフリーモードとの両認識モードを有しており、マイクロホン111を含む音声入力部11と、(プッシュトークモードにおける)音声の入力開始など、音声認識に関する処理の開始を、話者が当該装置に指示するための例えばスイッチ(ボタンスイッチ)12と、音声認識(での照合)処理に用いられる認識辞書13と、音声認識部14とから構成される。
【0019】
認識辞書13は、プッシュトークモード時の音声認識処理に用いられるプッシュトーク用辞書131と、ハンズフリーモード時の音声認識処理に用いられるハンズフリー用辞書132とから構成される。プッシュトーク用辞書13、ハンズフリー用辞書14には、それぞれプッシュトークモード、ハンズフリーモードに固有の認識語彙毎の音声モデルが登録されている。ここでは、ハンズフリー用辞書14に登録される認識語彙の数は、プッシュトーク用辞書13に登録される認識語彙の数より少なく設定されている。
【0020】
音声認識部14は、音声入力部11により入力された音声データを音響分析して特徴パラメータ系列を求め、その特徴パラメータ系列を、その際の認識モード(プッシュトークモードまたはハンズフリーモード)で決まる辞書131または132に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する。この音声認識部14には、図1の音声認識装置の周囲の状況(装置環境)を予め定められた項目について表す情報(ステータス)に基づいてプッシュトークモードまたはハンズフリーモードを自動的に切り替え設定する認識モード切り替え部141が付加されている。
【0021】
次に、図1の構成の音声認識装置の動作を、当該音声認識装置が車両に搭載されたカーナビゲーションシステム(音声認識装置付きカーナビゲーションシステム)に適用された場合を例に説明する。
【0022】
まず、認識モード切り替え部141には、音声認識装置の周囲の状況(環境)を表す情報として、当該音声認識装置を持つカーナビゲーションシステムが搭載されている車両の状態、例えば走行中か停止中かを表す情報が与えられる。
【0023】
認識モード切り替え部141は、車両の走行中は(話者となる運転者がスイッチ操作を行わなくて済むように)スイッチ12の操作が不要なハンズフリーモードに設定し、車両の停止中は(スイッチ操作を行うことに何ら問題はないことから)スイッチ12の操作を必要とするものの、音声区間が高精度に検出できるプッシュトークモードに設定する。
【0024】
音声認識部14は、認識モード切り替え部141によりプッシュトークモードが設定されている場合、プッシュトーク用辞書131を読み込んで、認識する語彙を設定する。そして音声認識部14は、スイッチ12が押された直後に、マイクロホン111を介して音声入力部11から入力された音声信号、即ちマイクロホン111から入力されて音声入力部11内の図示せぬA/D変換器によりアナログ/デジタル変換された音声データを音響分析して特徴パラメータ系列を求め、その特徴パラメータ系列を音声区間の特徴パラメータ系列であるとして、先に読み込んだプッシュトーク用辞書131に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する。
【0025】
一方、認識モード切り替え部141によりハンズフリーモードが設定されている場合、音声認識部14はハンズフリー用辞書132を読み込んで、認識する語彙を設定する。次に音声認識部14は、スイッチ12の操作とは無関係に、マイクロホン111を介して音声入力部11から入力された音声信号を音響分析して特徴パラメータ系列を求め、その特徴パラメータ系列から算出されるパワーの分布から音声区間を検出する。そして音声認識部14は、検出した音声区間の特徴パラメータ系列を、先に読み込んだハンズフリー用辞書132に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する。
【0026】
このように本実施形態においては、音声認識装置が置かれている周囲の環境(音声認識装置付きカーナビゲーションシステムの例では、車両が停止中であるか、或いは走行中であるか)に応じて、ユーザ(話者)にとって負担の少ないハンズフリーモードで認識したり、確実に音声区間を検出できる(つまり精度よく照合処理が行える)プッシュトークモードで認識したりすることができる。
【0027】
しかも本実施形態においては、プッシュトークモードとハンズフリーモードとで、認識(照合)処理に用いる辞書が異なるため、それぞれ音声認識装置が置かれている周囲の環境に適合した認識語彙を対象とする認識処理が行える。この効果について、上記の音声認識装置付きカーナビゲーションシステムを例に具体的に説明する。
【0028】
まず、音声認識装置付きカーナビゲーションシステムにおいては、話者(ユーザ)は車両の走行中はコマンドを発声し、停止中は目的地などを発声する場合が多く、走行中と停止中とで、発声する内容、つまり認識すべき語彙が、(少なくとも)一部異なるのが一般的である。したがって、走行中に対応して自動設定されるハンズフリーモードと、停止中に対応して自動設定されるプッシュトークモードの各認識モードにおいて、本実施形態のようにプッシュトーク用辞書131とハンズフリー用辞書132とを使い分けて、それぞれ固有の認識語彙を設定するならば、不要な認識語彙(の音声モデル)を対象とする照合処理を行わずに済み、認識率の向上と認識時間の短縮を図ることができる。
【0029】
特に、走行中(ハンズフリーモード)の発声は、位置の確認等のコマンドの入力など、停止中(プッシュトークモード)の場合に比べて限られているため、ハンズフリー用辞書132に登録される認識語彙の数を少なく設定できる。このように、ハンズフリーモードにおいて認識語彙数を少なく設定した場合、プッシュトークモードに比べて音声区間を誤検出する可能性が高いにも拘わらず、少ない認識語彙の範囲内で認識処理が行われることにより、認識率が低下するのを防止できる。一方、プッシュトークモードでは、音声区間を確実に検出して高精度に照合処理が行えるため、認識語彙数が多くても、高い認識率を確保することができる。
【0030】
以上は、認識モードが音声認識装置の周囲の状況に応じて自動設定される場合について説明したが、ユーザ操作により設定されるものであっても構わない。要は、プッシュトーク用辞書131とハンズフリー用辞書132の両方の辞書を用意し、ハンズフリー用辞書132に含まれる認識語彙の数が、プッシュトーク用辞書131に含まれる認識語彙の数より少なくなるように、辞書設定がなされていればよい。
【0031】
[第2の実施形態]
図2は本発明の第2の実施形態に係る音声認識装置の全体構成を示すブロック図であり、図1と同一部分には同一符号を付してある。
【0032】
図2の音声認識装置は、音声入力部11と、スイッチ(ボタンスイッチ)12と、認識辞書23と、音声認識部24と、音声認識装置自体の位置、またはユーザ(話者)の位置を検出する位置検出装置25とから構成される。
【0033】
音声認識部24は、位置検出装置25の位置検出結果に応じて認識モード、つまりプッシュトークモードまたはハンズフリーモードを自動設定する認識モード切り替え部241を有する。
【0034】
次に、図2の構成の音声認識装置の動作を説明する。
まず、位置検出装置25は、音声認識装置の位置、または当該音声認識装置のユーザ(話者)の位置を検出し、その位置情報を音声認識部24内の認識モード切り替え部241に通知する。
【0035】
認識モード切り替え部241は、事前に例えばユーザにより設定された、位置(音声認識装置位置またはユーザ位置)と認識モード(プッシュトークモード/ハンズフリーモード)との対応表を有している。認識モード切り替え部241は、位置検出装置25から通知された位置情報により上記対応表を参照することで、その位置情報に対応した認識モードを決定し、その決定した認識モードを自動設定する。
【0036】
音声認識部24は、認識モード切り替え部241によりプッシュトークモードが設定されている場合、スイッチ12が押された直後にマイクロホン111を介して音声入力部11から入力された音声データについて、認識辞書23を用いて認識処理を行う。一方、認識モード切り替え部241によりハンズフリーモードが設定されている場合、スイッチ12の操作に無関係に、マイクロホン111を介して音声入力部11から入力された音声データについて、認識辞書23を用いて認識処理を行う。
【0037】
このように本実施形態においては、位置検出装置25により検出される位置に応じて認識モードが自動設定される。これにより、位置によって発声スタイルが限定される場合には、最適な認識モードの自動設定が実現できる。
【0038】
なお、上記認識辞書23には、前記第1の実施形態と異なって、必ずしもプッシュトーク用辞書131とハンズフリー用辞書132の2種を用意する必要はなく、プッシュトークモードとハンズフリーモードとで同一の辞書を共用するものであっても構わない。但し、認識辞書23を、前記第1の実施形態と同様に、プッシュトーク用辞書と当該辞書より認識語彙数が少ないハンズフリー用辞書とで構成し、認識モードに応じて使い分けるならば、ハンズフリーモードでの認識率の低下を防止することができる。
【0039】
次に、位置検出装置25の具体例について図3を参照して説明する。
まず、図3(a)はGPS251を用いた位置検出装置25の実現例を示す。
【0040】
図3(a)の位置検出装置25を、図2の音声認識装置に適用した場合、この音声認識装置の位置が位置検出装置25(を構成するGPS251)により検出される。ここでは、認識モード切り替え部241は、位置検出装置25(GPS251)の位置検出結果により、音声認識装置が事前設定された位置に(ある誤差の範囲内で)近付いたと判断すると、予め設定されている認識モードに切り替える。このモード切り替えの効果について、前記第1の実施形態と同様に、音声認識装置付きカーナビゲーションシステムを例に説明する。
【0041】
まず、音声認識装置付きカーナビゲーションシステムにおいては、同じ走行中でも、目的地に近付いてから目的地に到着するまでの期間が、ユーザにとって位置の確認等のコマンドを多く発声する可能性が高い。このような状況では、発声されるコマンドは比較的小語彙である。そこで、音声認識装置が事前設定された位置に近付いてから目的地に到着するまではハンズフリーモードに自動設定し、それ以外はプッシュトークモードに自動設定するならば、ユーザの負担が少ないカーナビゲーションシステムを実現できる。
【0042】
次に、図3(b)にユーザ位置を検出するための複数の位置センサ252を用いた位置検出装置25の実現例を示す。
【0043】
図3(b)の位置検出装置25を、図2の音声認識装置に適用した場合、各位置センサ252が配置(設置)されている位置(場所)のいずれにユーザが存在するかが、位置検出装置25(を構成する複数の位置センサ252のうちの対応する位置センサ252)により検出される。ここでは、認識モード切り替え部241は、位置検出装置25(位置センサ252)の位置検出結果により、事前設定されたユーザ位置と認識モード(プッシュトークモード/ハンズフリーモード)との対応表を参照することで、ユーザ位置に対応した認識モードを自動設定する。この認識モードの自動設定の効果について、上記位置センサ252が家の各部屋に設置され、当該位置センサ252によりユーザのいる部屋が検出されるシステムを例に説明する。
【0044】
なお、図3(b)の位置検出装置25を図2の音声認識装置に適用する場合、図2中のマイクロホン111内蔵の音声入力部11及びスイッチ12は位置センサ252と組をなして各部屋に設置される。但し、後述するように、ハンズフリーモードが設定される部屋には、スイッチ12を必ずしも設ける必要がない。ここでは、音声入力部11、スイッチ12及び位置センサ252は、いずれもlEEE1394に準拠したバス型のネットワーク(lEEE1394バスネットワーク)などの信号線により音声認識部24と結合されているものとする。この他に、無線信号により音声認識部24と結合することも可能である。
【0045】
今、位置センサ252が設置されている複数の部屋のいずれかに、ユーザが入室したものとする。この場合、ユーザが入室した部屋に設置されている位置センサ252は、ユーザの存在を検出し、その検出結果を音声認識部24の認識モード切り替え部241に有線または無線により通知する。
【0046】
認識モード切り替え部241は、複数の位置センサ252のいずれかからユーザの存在を検出したことが通知されると、その位置センサ252(の設置箇所)から決まる部屋、つまりユーザが存在する部屋(ユーザ位置)に対応した認識モードを自動設定する。ここで、各部屋(ユーザ位置)と認識モード(プッシュトークモード/ハンズフリーモード)との対応表を、各部屋の特徴を考慮して設定することで、ユーザが、例えば書斎などのようなノイズの影響の少ない静かな部屋にいる場合や、台所など手が塞がりやすい部屋(環境)にいる場合には、スイッチ12を操作する必要のないハンズフリーモードに自動設定し、居間のようにノイズの多い部屋にいる場合には、音声区間を確実に検出できるプッシュトークモードに自動設定して、この設定した認識モードで認識することにより、ユーザにとって使用環境に適合した使いやすい音声認識装置が実現できる。ここでは、各部屋にユーザが同時に存在し、それぞれのユーザが発声しても、各部屋毎に設けられた音声入力部11から入力される音声に対し、各部屋毎に設定される認識モードで並列に認識処理を行うことが可能である。なお、音声入力部11のマイクロホン111以外の要素(ここではA/D変換器など)は、音声認識部24側に持たせても構わない。
【0047】
[第3の実施形態]
図4は本発明の第3の実施形態に係る音声認識装置の全体構成を示すブロック図であり、図2と同一部分には同一符号を付してある。
【0048】
図4の音声認識装置は、音声入力部11と、スイッチ(ボタンスイッチ)12と、認識辞書23と、音声認識部44とから構成される。
音声認識部44は、音声認識装置の周囲のノイズ環境に応じて、認識モード、つまりプッシュトークモードまたはハンズフリーモードを自動設定する認識モード切り替え部441と、音声入力部11から入力される音声データ(音響データ)を音響分析して特徴パラメータ系列を求める音響分析部442と、音響分析部442により求められた特徴パラメータ系列を認識辞書23に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する照合部443とから構成される。
【0049】
音響分析部442は、音声入力部11により入力される音響データ(音声データ)の特徴パラメータ系列からパワー(例えば平均パワー)を一定時間毎に算出するパワー計算部442aを有する。
【0050】
認識モード切り替え部441は、パワー計算部442aにより算出された一定時間毎の入力音響データのパワーの変化と値とから周囲ノイズを、ノイズの有無と大きさについて検出し、その検出結果から一定レベル以上のノイズの有無を判定するノイズ判定部441aを有する。認識モード切り替え部441は、このノイズ判定部414aの判定結果に応じて認識モードを自動設定する。
【0051】
次に、図4の構成の音声認識装置の動作を説明する。
まず、音声認識装置の周囲のノイズはマイクロホン111により音声入力部11内に入力され、デジタルの音響データに変換されて音響分析部442に送られる。音響分析部442は入力音響データを音響分析して特徴パラメータ系列を求める。音響分析部442内のパワー計算部442aは、この特徴パラメータ系列から入力音響データの例えば平均パワーを一定時間毎に算出し、その算出結果を認識モード切り替え部441内のノイズ判定部441aに渡す。ノイズ判定部414aは、入力音響データのパワーの時間変化から、そのパワーが基準レベル以上変化しているか否かにより音声のパワーの変化と区別して、一定レベル以上の周囲ノイズの有無を判定する。
【0052】
認識モード切り替え部441は、ノイズ判定部441aにより一定レベル以上のノイズの存在が検出された場合には、ハンズフリーモードでは音声区間を検出するのが極めて難しいことから、プッシュトークモードに自動設定する。これに対し、ノイズ判定部441aにより(一定レベル以上の)ノイズが存在しないことが検出された場合には、認識モード切り替え部441は、ハンズフリーモードでも音声区間の検出が可能であることから、ユーザの負担の少ないハンズフリーモードに自動設定する。これにより、ユーザにとって使いやすい、使用環境に適合した使いやすい音声認識装置が実現できる。
【0053】
なお、以上の実施形態では、認識モード切り替え部441内のノイズ判定部441aによりノイズの大きさが判定される場合について説明したが、これに限るものではない。
【0054】
例えば、図5の変形例に示すように、認識モード切り替え部441に代えて、ノイズの大きさではなくて、ノイズの性質(ここでは、ノイズ除去が可能な定常的なノイズであるか否か)を判定(検出)するノイズ性質判定部541aを持つ認識モード切り替え部541を用い、この認識モード切り替え部541を内蔵した音声認識部54を音声認識部44に代えて用いるようにしてもよい。ここでは、音声入力部11と音声認識部54内の音響分析部442との間に、ノイズ除去用のノイズ除去部544を設け、ノイズ性質判定部541aによりノイズ除去が可能な性質のノイズ(ここでは定常的なノイズ)であると判定された場合に、その判定結果に応じてノイズ除去部544によるノイズ除去動作が行われる構成を適用している。
【0055】
次に、図5の構成の音声認識装置の動作を説明する。
まず、ノイズ性質判定部541aは、音響分析部442内のパワー計算部442aから送られる入力音響データの一定時間毎の平均パワーから、一定レベル以上の周囲ノイズの有無と、ノイズがある場合には、そのノイズが定常的なノイズであるか、或いは非定常的なノイズであるかを判定する。
【0056】
認識モード切り替え部541は、ノイズ性質判定部541aにより、一定レベル以上の周囲ノイズが存在し、且つ当該ノイズが定常的なノイズであると判定された場合には、ノイズを除去することが容易であり、したがってノイズが存在しないことを前提とするハンズフリーモードで音声区間を検出することが可能であるとして、周囲ノイズが存在しない場合と同様に、ハンズフリーモードに自動設定する。これに対し、ノイズ性質判定部541aにより、一定レベル以上の周囲ノイズが存在し、且つ当該ノイズが非定常的なノイズであると判定された場合には、ノイズを除去することが難しいことから、認識モード切り替え部541は、音声区間が確実に検出できるプッシュトークモードを自動設定する。
【0057】
ノイズ性質判定部541aは、一定レベル以上の周囲ノイズが存在し、且つ当該ノイズが定常的なノイズであると判定した場合、その旨をノイズ除去部544に通知して、当該ノイズ除去部544によるノイズ除去機能を働かせる。これによりノイズ除去部544は、音声入力部11から送られる入力音声データ(音響データ)からスペクトルサブトラクション等の周知の手法によりノイズを除去し、音響分析部442に送る。
【0058】
音響分析部442は、ハンズフリーモードでは、ノイズ除去部544により定常的ノイズが除去された音声データを、スイッチ12の操作とは無関係に音響分析して特徴パラメータ系列を求める。音響分析部442は、この特徴パラメータ系列に基づいて、パワー計算部442aにより入力音声のパワーを計算し、そのパワーの分布から音声区間を検出する。そして音響分析部442は、検出した音声区間の特徴パラメータ系列を照合部443に送る。
【0059】
一方、プッシュトークモードでは、音響分析部442はスイッチ12が押されることで動作を開始し、それ以降音声入力部11から(ノイズ除去部544を介して)入力される音声データを音響分析して特徴パラメータ系列を求める。そして音響分析部442は、この特徴パラメータ系列を(音声区間の特徴パラメータ系列として)照合部443に送る。なお、プッシュトークモードにおいても、音響分析部442にて定常的に音響分析動作を行って特徴パラメータ系列を求め、その中から、スイッチ12が押された時点以降の特徴パラメータ系列を選択して照合部443に送るようにしても構わない。
【0060】
照合部443は、音響分析部442から送られた音声区間の特徴パラメータ系列を認識辞書23に登録されている各認識語彙毎の音声モデルと照合することで認識結果を取得する。
【0061】
このように、図5の構成の音声認識装置においては、ノイズ除去部544を設け、定常的なノイズのときは、当該ノイズ除去部544によるノイズ除去が可能であることを考慮して、ノイズのない場合と同様にハンズフリーモードに自動設定することにより、ユーザの負担を減らすことができ、ユーザにとって使いやすい音声認識装置が実現できる。
【0062】
[第4の実施形態]
図6は本発明の第4の実施形態に係る音声認識装置の全体構成を示すブロック図であり、図2と同一部分には同一符号を付してある。
【0063】
図6の音声認識装置は、複数の音声入力部11と、複数のスイッチ(ボタンスイッチ)12と、認識辞書23と、音声認識部64と、複数の姿勢測定センサ65とから構成される。ここで、音声入力部11、スイッチ12及び姿勢測定センサ65は、それぞれ組をなして、例えば各部屋に設置されており、それぞれlEEE1394バスネットワークなどの信号線により音声認識部64と結合されているものとする。
【0064】
各姿勢測定センサ65は、(ユーザの対応する部屋における存在と)ユーザの「横になっている」「立っている」「座っている」といった姿勢を検出する。
【0065】
音声認識部64は、各姿勢測定センサ65のユーザ姿勢検出結果に応じて、部屋毎にユーザ姿勢に適合した認識モード、つまりプッシュトークモードまたはハンズフリーモードを自動設定する。
【0066】
次に、図6の構成の音声認識装置の動作を説明する。
まず、各姿勢測定センサ65は、ユーザが存在する場合、そのユーザの「横になっている」「立っている」「座っている」といった姿勢を検出する。この姿勢測定センサ65の姿勢検出結果は、上記信号線を介して音声認識部64に通知される。なお、無線信号により音声認識部64に通知することも可能である。
【0067】
認識モード切り替え部641は、事前に例えばユーザにより設定された、各ユーザ姿勢と認識モード(プッシュトークモード/ハンズフリーモード)との対応表を有している。認識モード切り替え部641は、姿勢測定センサ65により検出されたユーザ姿勢により上記対応表を参照することで、そのユーザ姿勢に対応した認識モードを決定し、その決定した認識モードを当該姿勢測定センサ65が設置されている部屋に対応して自動設定する。ここでは、ユーザがスイッチ12を操作しにくい姿勢をとっている場合、例えば「横になっている」場合には、スイッチ12の操作が不要なハンズフリーモードに自動設定する。これに対しユーザがスイッチ12を操作しやすい姿勢をとっている場合、例えば「立っている」或いは「座っている」場合には、スイッチ12の操作が必要であるものの音声区間が確実に検出できるプッシュトークモードに自動設定する。これにより、各部屋のユーザにとって使いやすい音声認識装置が実現できる。
【0068】
[第5の実施形態]
図7は本発明の第5の実施形態に係る音声認識装置の全体構成を示すブロック図であり、図2と同一部分には同一符号を付してある。
【0069】
図7の音声認識装置は、音声入力部11と、スイッチ(ボタンスイッチ)12と、認識辞書23と、音声認識部74と、モード提示部75とから構成される。
音声認識部74は、前記第1乃至第4の実施形態のいずれかで適用された手法で認識モードを切り替え設定する認識モード切り替え部741を有している。この認識モード切り替え部741は、認識モードが切り替わった際に、その旨をモード提示部75によりユーザに提示する。また認識モード切り替え部741は、現在の有効な認識モードを認識モード切り替え部741によりユーザに提示する。
【0070】
次に、図7の構成の音声認識装置の動作を説明する。
認識モード切り替え部741は、現在設定されている認識モードを認識モード切り替え部741によりユーザに提示している。このような状態で、前記第1乃至第4の実施形態のいずれかで適用された手法により、現在の認識モードとは異なるモード(プッシュトークモード→ハンズフリーモード、またはハンズフリーモード→プッシュトークモード)に切り替え設定する条件が成立した場合、認識モード切り替え部741は、認識モードを該当するモードに切り替え設定する。同時に認識モード切り替え部741は、認識モードが切り替わったことをモード提示部75によりユーザに提示する。また、認識モード切り替え部741は、切り替え設定後のモードを現在の有効なモードとしてモード提示部75によりユーザに提示する。
【0071】
このように、モード提示部75を用いたユーザへの提示を行うことで、ユーザの音声認識装置に対する認識モードの思い込みによる誤使用をなくすことができる。
【0072】
ここで、モード提示部75としては、音声による提示機能、或いは表示パネルへの文字列表示による提示機能、或いは両者を併用した提示機能を持つものが適用可能である。この他、設定される認識モード(プッシュトークモード/ハンズフリーモード)に応じて異なる点灯手法を適用するモード提示部75であっても構わない。ここで、点灯手法としては、モードによって点灯箇所を変更する手法(つまり、モードで決まる固有の箇所を光らせる手法)、モードによって点灯色を切り替える手法(つまり、モードで決まる固有の色で光らせる手法)、モードによって点滅のパターンを切り替える手法などが適用可能である。
【0073】
【発明の効果】
以上詳述したように本発明によれば、利用者(話者)の状況または周囲の状況を自動的に反映した音声認識処理を行うことができるため、利用者の状況や周囲の状況に適さないモードでの使用、或いは認識率を犠牲にした使用等を防止し、利用者の負担を少なくし、且つ認識率の低下を防止することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の全体構成を示すブロック図。
【図2】本発明の第2の実施形態に係る音声認識装置の全体構成を示すブロック図。
【図3】図2中の位置検出装置25の構成例を示す図。
【図4】本発明の第3の実施形態に係る音声認識装置の全体構成を示すブロック図。
【図5】図4の音声認識装置の変形例を示すブロック図。
【図6】本発明の第4の実施形態に係る音声認識装置の全体構成を示すブロック図。
【図7】本発明の第5の実施形態に係る音声認識装置の全体構成を示すブロック図。
【符号の説明】
11…音声入力部
12…スイッチ(ボタンスイッチ)
13,23…認識辞書
14,24,44,54,64,74…音声認識部
25…位置検出装置(検出手段、位置検出手段)
65…姿勢測定センサ(検出手段、姿勢検出手段)
75…モード提示部
131…プッシュトーク用辞書
132…ハンズフリー用辞書
141,241,441,541,641,741…認識モード切り替え部
251…GPS(検出手段、位置検出手段)
252…位置センサ(検出手段、位置検出手段)
441a…ノイズ判定部(ノイズ測定手段)
442…音響分析部
442a…パワー計算部
443…照合部
541a…ノイズ性質判定部(ノイズ測定手段)
Claims (6)
- 事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、
前記音声認識装置の位置を検出する位置検出手段と、
前記音声認識装置の予め定められた位置毎に、小語彙を発声する可能性の高い位置であるか否かに応じて前記ハンズフリーモードまたは前記プッシュトークモードが設定されたテーブルと、
前記位置検出手段の位置検出結果により前記テーブルを参照し、当該位置検出結果の示す位置に対応した前記ハンズフリーモードまたは前記プッシュトークモードを自動設定する認識モード切り替え手段とを具備することを特徴とする音声認識装置。 - 前記音声認識装置はカーナビゲーションシステムに適用され、
前記テーブルには、小語彙を発声する可能性の高い、予め定められた位置から目的地までの位置範囲に対応付けて前記ハンズフリーモードが設定され、それ以外の位置範囲に対応付けて前記プッシュトークモードが設定されている
ことを特徴とする請求項1記載の音声認識装置。 - 事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、
前記音声認識装置の利用者の位置を検出する位置検出手段と、
前記音声認識装置の利用者の予め定められた位置毎に、ノイズの影響が少ない位置であるか否かに応じて前記ハンズフリーモードまたは前記プッシュトークモードが設定されたテーブルと、
前記位置検出手段の位置検出結果により前記テーブルを参照し、当該位置検出結果の示す位置に対応した前記ハンズフリーモードまたは前記プッシュトークモードを自動設定する認識モード切り替え手段とを具備することを特徴とする音声認識装置。 - 事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、
前記音声認識装置の利用者の位置を検出する位置検出手段と、
前記音声認識装置の予め定められた利用者の位置毎に、利用者の操作が困難となる位置であるか否かに応じて前記ハンズフリーモードまたは前記プッシュトークモードが設定されたテーブルと、
前記位置検出手段の位置検出結果により前記テーブルを参照し、当該位置検出結果の示す位置に対応した前記ハンズフリーモードまたは前記プッシュトークモードを自動設定する認識モード切り替え手段とを具備することを特徴とする音声認識装置。 - 前記プッシュトークモードでの音声認識に用いられるプッシュトーク用辞書と、
前記ハンズフリーモードでの音声認識に用いられ、前記プッシュトーク用辞書とは少なくとも一部の認識語彙を異にするハンズフリー用辞書とを更に具備し、
前記音声認識手段は、前記プッシュトークモードでは前記プッシュトーク用辞書を用いて音声認識処理を行い、前記ハンズフリーモードでは前記ハンズフリー用辞書を用いて音声認識処理を行う
ことを特徴とする請求項1、請求項3または請求項4に記載の音声認識装置。 - 事前に特定の操作をした後に発声した音声を認識するプッシュトークモードと、事前の特定の操作なしに発声した音声を認識するハンズフリーモードとが切り替え設定可能な音声認識装置において、
前記音声認識装置の利用者の姿勢が予め定められた複数の姿勢のいずれであるかを検出する姿勢検出手段と、
前記予め定められた姿勢毎に前記プッシュトークモードまたは前記ハンズフリーモードが設定されるテーブルであって、利用者の操作が容易な姿勢に対応付けて前記プッシュトークモードが設定され、利用者の操作が困難な姿勢に対応付けて前記ハンズフリーモードが設定されるテーブルと、
前記姿勢検出手段により検出された利用者の姿勢により前記テーブルを参照し、当該姿勢に対応した前記プッシュトークモードまたは前記ハンズフリーモードを自動設定する認識モード切り替え手段とを具備することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22142399A JP3764302B2 (ja) | 1999-08-04 | 1999-08-04 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22142399A JP3764302B2 (ja) | 1999-08-04 | 1999-08-04 | 音声認識装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001042894A JP2001042894A (ja) | 2001-02-16 |
JP2001042894A5 JP2001042894A5 (ja) | 2004-12-16 |
JP3764302B2 true JP3764302B2 (ja) | 2006-04-05 |
Family
ID=16766520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22142399A Expired - Fee Related JP3764302B2 (ja) | 1999-08-04 | 1999-08-04 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3764302B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378737B2 (en) | 2012-11-05 | 2016-06-28 | Mitsubishi Electric Corporation | Voice recognition device |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006215418A (ja) * | 2005-02-07 | 2006-08-17 | Nissan Motor Co Ltd | 音声入力装置及び音声入力方法 |
JP4802522B2 (ja) * | 2005-03-10 | 2011-10-26 | 日産自動車株式会社 | 音声入力装置および音声入力方法 |
US8385963B2 (en) | 2005-12-20 | 2013-02-26 | Nec Corporation | Portable terminal apparatus, its control method, and program |
JP4779000B2 (ja) * | 2008-09-26 | 2011-09-21 | 株式会社日立製作所 | 音声認識による機器制御装置 |
JP2013080015A (ja) * | 2011-09-30 | 2013-05-02 | Toshiba Corp | 音声認識装置および音声認識方法 |
US10276161B2 (en) | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
-
1999
- 1999-08-04 JP JP22142399A patent/JP3764302B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378737B2 (en) | 2012-11-05 | 2016-06-28 | Mitsubishi Electric Corporation | Voice recognition device |
Also Published As
Publication number | Publication date |
---|---|
JP2001042894A (ja) | 2001-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230178077A1 (en) | Techniques for wake-up work recognition and related systems and methods | |
US5255341A (en) | Command input device for voice controllable elevator system | |
EP1933303B1 (en) | Speech dialog control based on signal pre-processing | |
JP6227209B2 (ja) | 車載用音声認識装置および車載機器 | |
JP5601419B2 (ja) | エレベーターの呼び登録装置 | |
JP5137853B2 (ja) | 車載用音声認識装置 | |
JP2004126413A (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
JPH0962293A (ja) | 音声認識対話装置および音声認識対話処理方法 | |
CN104692198A (zh) | 电梯语音呼梯登记装置 | |
JPH0373775A (ja) | エレベータの情報入力装置 | |
JP3764302B2 (ja) | 音声認識装置 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6827536B2 (ja) | 音声認識装置および音声認識方法 | |
JP3654045B2 (ja) | 音声認識装置 | |
JP2001013994A (ja) | 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両 | |
JPH03284589A (ja) | エレベータの音声登録装置 | |
JP2000163098A (ja) | 音声認識装置 | |
JP3082618B2 (ja) | エレベータの音声入力装置 | |
JP4026198B2 (ja) | 音声認識装置 | |
JP4320880B2 (ja) | 音声認識装置及び車載ナビゲーションシステム | |
JP2001042894A5 (ja) | ||
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
JP7172120B2 (ja) | 音声認識装置及び音声認識方法 | |
JP4635683B2 (ja) | 音声認識装置および方法 | |
JP2013160877A (ja) | エレベータの音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060119 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100127 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110127 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120127 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130127 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130127 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140127 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |