JP2003114699A

JP2003114699A - 車載音声認識システム

Info

Publication number: JP2003114699A
Application number: JP2001307698A
Authority: JP
Inventors: Akinori Usami; 彰規宇佐美
Original assignee: Sumitomo Wiring Systems Ltd; AutoNetworks Technologies Ltd; Sumitomo Electric Industries Ltd
Current assignee: Sumitomo Wiring Systems Ltd; AutoNetworks Technologies Ltd; Sumitomo Electric Industries Ltd
Priority date: 2001-10-03
Filing date: 2001-10-03
Publication date: 2003-04-18

Abstract

(57)【要約】【課題】音声認識において誤認識を少なくする。【解決手段】マイクロホンアレイ２で話者の位置を特
定し、話者識別装置５で話者識別したりしながら、各話
者毎に異なる音声データをそれぞれ音声認識する。話者
が同時に発音している場合であっても、音声データが混
在していない状態で音声認識できるので、誤認識が少な
くなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、車両内の搭乗者
の発音を音声認識する車載音声認識システムに関する。

【０００２】

【従来の技術】複数の音声情報を連続的に発声し、同時
に情報を表示する表示画面上に表示させる表示数を指定
すると、音声を指定した表示数から構成させる複数の単
語とみなして音声認識を行う技術がある（従来例：特開
平９−２３７０９８号）。

【０００３】

【発明が解決しようとする課題】上記の従来例では、複
数の単語を連続的に認識する場合に、認識処理を行う瞬
間において、発声単語が１つであることを前提としてい
る。

【０００４】しかしながら、２名以上の人が同時に発声
した場合、音声認識する対象の語彙が２名以上によって
同時に発声されることになるため、２つ以上の音声が重
畳してしまい、認識すべき音声として処理することが困
難となって誤認識するおそれがある。

【０００５】そこで、この発明の課題は、同時に複数の
話者が発声しているときにも誤認識が生じにくい車載音
声認識システムを提供することにある。

【０００６】

【課題を解決するための手段】上記課題を解決すべく、
請求項１に記載の発明は、車両内の搭乗者の発音を音声
認識する車載音声認識システムであって、複数のマイク
ロホンが配置されてなるマイクロホンアレイと、前記マ
イクロホンアレイについて指定された指向特性を実現さ
せて、遅延または進み処理を行うことにより複数の音声
または雑音を分離し必要な音声データのみを分離する信
号処理装置と、前記マイクロホンアレイで採取した各話
者の音声データの識別を行って各話者の特定を行う話者
識別装置と、前記信号処理装置で分離されたそれぞれの
前記音声データを用いて音声識別を行う音声認識装置と
を備えるものである。

【０００７】請求項２に記載の発明は、請求項１に記載
の車載音声認識システムであって、前記信号処理装置
が、１フレームずつ前記音声を分離し、前記音声認識装
置が、音声認識で得られる探索途中結果を各発声データ
毎に一時的に保存しつつ、当該探索途中結果を切り替え
ながら、複数の発声データを時間差で音声認識処理する
ものである。

【０００８】請求項３に記載の発明は、請求項１に記載
の車載音声認識システムであって、前記信号処理装置で
分離された音声データのそれぞれにつき、複数の音声認
識装置で各々音声認識処理するものである。

【０００９】請求項４に記載の発明は、請求項１ないし
請求項３のいずれかに記載の車載音声認識システムであ
って、前記信号処理装置は、マイクロホンアレイの指向
性を所定の位置の方向に対応するよう設定するものであ
る。

【００１０】請求項５に記載の発明は、請求項４に記載
の車載音声認識システムであって、前記所定の位置が、
運転席の位置及び助手席の位置を含むものである。

【００１１】請求項６に記載の発明は、請求項１ないし
請求項３のいずれかに記載の車載音声認識システムであ
って、前記信号処理装置は、任意の方向にいる複数の話
者を音源探索により方向を特定し、それぞれの特定した
方向に指向性が向くように設定された指向特性を用い
て、前記マイクロホンアレイの指向性を設定するもので
ある。

【００１２】請求項７に記載の発明は、請求項１ないし
請求項６のいずれかに記載の車載音声認識システムであ
って、前記音声データに話者の発音した音声が含まれて
いなかった場合に、前記音声認識装置が、前記音声デー
タの音声認識処理を休止するものである。

【００１３】請求項８に記載の発明は、請求項１ないし
請求項７のいずれかに記載の車載音声認識システムであ
って、所定の外部通信機器を接続するためのハンズフリ
ー装置をさらに備え、前記ハンズフリー装置が、前記話
者識別装置で特定された話者の音声データを前記外部通
信機器に転送するものである。

【００１４】請求項９に記載の発明は、請求項８に記載
の車載音声認識システムであって、前記話者識別装置
が、予め登録されている称呼に基づいて話者を特定する
ものである。

【００１５】請求項１０に記載の発明は、請求項８に記
載の車載音声認識システムであって、前記外部通信機器
を用いて前記ハンズフリー装置で車室内の複数の話者と
通話を行う場合、前記信号処理装置で分離された音声デ
ータについて常に音声パワーの比較を行い、一番パワー
が強いデータのみを転送させるものである。

【００１６】

【発明の実施の形態】一般に、自動車内の運転席、助手
席または任意位置で同時に１話者以上の話者が音声認識
語彙を発声しマイクロホンで音を収録した場合、複数の
音声が重畳したデータとなる。この発明は、２個以上の
マイクロホンを規則的または不規則に配置し、各マイク
ロホンの出力信号に対して遅延または進みの操作を行う
ことで特定方向に強い指向特性を持たせ、収録した音を
発声話者方向毎に分離するものである。

【００１７】＜構成＞図１はこの発明の一の実施の形態
に係る車載音声認識システムを示すブロック図である。
この車載音声認識システムは、図１の如く、システム全
体の制御を司る中央制御部１と、複数のマイクロホン２
ａ，２ｂ，…２ｍが等間隔または不規則に一直線上また
は平面上にあるいは立体的に配置されてなるマイクロホ
ンアレイ２と、このマイクロホンアレイ２の各マイクロ
ホン２ａ，２ｂ，…２ｍで変換されたアナログ波形をデ
ジタル信号に変換するＡ／Ｄ変換装置３と、指定された
指向特性を実現させ、複数の音声または雑音を分離し必
要な音声データのみを分離する信号処理装置４と、発声
した話者の識別を行って各話者の特定を行う話者識別装
置５と、信号処理装置４で信号処理を行った音声波形デ
ータを用いて音声識別を行う音声認識装置６と、音声を
再生するスピーカ７と、スピーカ７への音声再生のため
デジタル信号からアナログ信号に変換するＤ／Ａ変換装
置８と、外部通信を行うための携帯電話装置９（外部通
信機器）と接続させて外部との通話を可能とするハンズ
フリー装置１０とを備える。

【００１８】中央制御部１は、ＲＯＭ及びＲＡＭが接続
されたＣＰＵが使用され、ＲＯＭ等内に予め格納された
ソフトウェアプログラムに従って動作する機能要素であ
る。この中央制御部１のソフトウェアプログラムによっ
て定義される動作機能としては、例えば、パワーシート
などの各種の車載電子装置１２を制御する車載制御装置
１１から音声入力開始要求があったか否かを判定する機
能と、Ａ／Ｄ変換装置３への動作開始要求を行ってマイ
クロホンアレイ２で受音した波形のＡ／Ｄ変換値（図２
中の符号２１）を取得する機能と、それぞれの話者方向
に指向性が強く成るようＡ／Ｄ変換装置３から取得した
Ａ／Ｄ変換値２１を信号処理装置４に渡すとともに話者
位置探索要求を行う機能と、信号処理装置４で分離され
た話者それぞれの発声データ結果を得る機能と、この発
声データ結果のそれぞれを音声認識装置６に渡す機能
と、音声認識装置６での音声認識結果を取得する機能
と、この音声認識結果に基づいて各種の車載電子装置１
２の制御を行うよう車載制御装置１１に指令する機能
（図２中の車載電子機器制御処理２２）と、信号処理装
置４で信号処理（図２中の符号２３）を行った後のデー
タを例えばハンズフリー装置１０を通じて携帯電話装置
９に転送する機能とがある。

【００１９】信号処理装置４は、図２中の信号処理２３
を司るものであり、ＲＯＭ及びＲＡＭが接続されたＣＰ
Ｕが使用され、ＲＯＭ等内に予め格納されたソフトウェ
アプログラムに従って動作する機能要素である。この信
号処理装置４のソフトウェアプログラムによって定義さ
れる動作機能としては、中央制御部１から話者位置探索
要求があったか否かの判定を行う機能と、この話者位置
探索要求があったときにＡ／Ｄ変換装置３で変換された
結果を用いて指向特性を連続的に変化させながら音声情
報が含まれているか確認をし、音声情報が含まれている
場合に、その方向を獲得して発声している全ての話者の
方向についての情報（図２中の話者位置情報２４）を検
出する機能と、検出した全ての話者位置情報について、
これらの話者方向または固定方向に対し指向性を持たせ
るための信号処理２３を行って、当該信号処理結果とし
て得られた音声データを話者発声データ（図２中の音声
波形２５ａ〜２５ｃ）として中央制御部１に渡す機能と
がある。

【００２０】話者識別装置５は、ＲＯＭ及びＲＡＭが接
続されたＣＰＵが使用され、ＲＯＭ等内に予め格納され
たソフトウェアプログラムに従って動作する機能要素で
ある。この話者識別装置５のソフトウェアプログラムに
よって定義される動作機能としては、話者の肉声の特徴
パラメータを予めデータベース化して記憶部（図示せ
ず）内に格納しておき、例えばハンズフリー装置１０か
ら中央制御部１を通じて要求があったときに、データベ
ース内の話者の肉声の特徴パラメータをハンズフリー装
置１０に出力する機能がある。また、話者識別装置５
は、予め登録されている氏名やニックネーム等の称呼が
音声認識装置６で認識されたときに、その認識結果に基
づいて話者を特定する機能をも有している。

【００２１】音声認識装置６は、ＲＯＭ及びＲＡＭが接
続されたＣＰＵが使用され、ＲＯＭ等内に予め格納され
たソフトウェアプログラムに従って動作する機能要素で
ある。この音声認識装置６のソフトウェアプログラムに
よって定義される動作機能としては、全ての話者につい
て、分離した話者の１フレーム分の音声データを取得し
て音声認識処理（図２中の符号２６）を行う機能と、こ
の１フレーム分の処理を行った時の探索途中結果を分離
された各話者の探索途中結果２７ａ，２７ｂ，…２７ｎ
として保存しつつ、これと併せて１つ前に行った時に得
られた分離話者探索途中結果２７ａ，２７ｂ，…２７ｎ
を全ての話者について音声認識処理２６時に利用させる
機能と、これらの音声認識結果を中央制御部１に送信す
る機能とがある。

【００２２】ハンズフリー装置１０は、所定のクレード
ルに携帯電話装置９を設置したときに当該携帯電話装置
９に接続して相互に信号の受け渡しを行う装置であり、
ＲＯＭ及びＲＡＭが接続されたＣＰＵが内蔵されてお
り、ＲＯＭ等内に予め格納されたソフトウェアプログラ
ムに従って図２中のハンズフリー処理２８を行う機能要
素である。このハンズフリー装置１０のソフトウェアプ
ログラムによって定義される動作機能としては、通話す
べき話者の位置が特定されているか否かを判定する機能
と、話者の位置が分かっている場合に信号処理装置４に
よって分離された話者の１フレーム分の音声データから
話者方向に対応した音声データを選択し携帯電話装置９
（外部通信機器）にデータを転送する機能と、話者の特
定ができていない場合に分離した各音声データに基づい
て話者識別装置５から与えられた特徴パラメータを算出
し、ゆう度計算（ゆう度関数を最大にするパラメータ値
を求めて推論を行う演算）に基づいて、予め記憶してい
る基準情報と比較することにより通話すべき話者を特定
し、この特定した話者に対応した音声データを選択し携
帯電話等の外部通信機器にデータを転送する機能と、話
者を特定することができなかった場合に、各発声話者の
特徴パラメータから隠れマルコフモデル（ＨＭＭ）また
はガウス混合モデル（ＧＭＭ）を作成して登録を行う機
能とがある。尚、隠れマルコフモデル（ＨＭＭ）または
ガウス混合モデル（ＧＭＭ）は、これより後刻に話者特
定を行う際のゆう度計算にこれらのモデルを利用できる
ようにするためのものである。

【００２３】＜動作＞上記構成の車載音声認識システム
の動作を説明する。まず、図３のステップＳＡ０１にお
いて、車載制御装置１１から音声入力開始要求があった
ときに、中央制御部１がその旨を判定し、Ａ／Ｄ変換装
置３にＡ／Ｄ変換動作の開始要求を発する。Ａ／Ｄ変換
装置３では、ステップＳＡ０３において、マイクロホン
アレイ２の各マイクロホン２ａ，２ｂ，…２ｍで採取さ
れたアナログ式の音声情報をＡ／Ｄ変換し、中央制御部
１はＡ／Ｄ変換装置３から出力されるＡ／Ｄ変換値２１
を取得する（図２中のＡ／Ｄ値取得処理３１）。

【００２４】次のステップＳＡ０４で、中央制御部１
は、Ａ／Ｄ変換値２１を信号処理装置４に渡すとともに
話者位置探索要求を行って指向性の信号処理を行う。

【００２５】この信号処理装置４における指向性の信号
処理の具体的な処理手順を図４に示す。まずステップＳ
Ｂ０１において、信号処理装置４は、中央制御部１から
話者位置探索要求があったかどうかを判断する。そし
て、話者位置探索要求があった場合には、次のステップ
ＳＢ０２に進み、中央制御部１からＡ／Ｄ変換値２１
（Ａ／Ｄ値）を取得した後、全ての領域を走査したかど
うかを判断し（ステップＳＢ０３）、走査すべき領域が
存在している場合に、ステップＳＢ０４に進む。ステッ
プＳＢ０４では、マイクロホンアレイ２の各マイクロホ
ン２ａ，２ｂ，…２ｍの指向特性を連続的に変化させな
がら、ステップＳＢ０５のように中央制御部１からのＡ
／Ｄ変換値２１としての音声情報が含まれているか否か
を確認する（図２中の音源探索処理２９）。そして、音
声情報が含まれている場合に、その方向を算出して獲得
し、ＲＡＭ（図示せず）内に登録した後にステップＳＢ
０２に戻る。尚、ステップＳＢ０５で音声情報が含まれ
ていないと判断した場合には、ステップＳＢ０６の処理
を省略してステップＳＢ０２に戻る。

【００２６】ここで、信号処理装置４における指向性に
ついては、初期的には、事前に運転席側、助手席側に指
向性が向くように設定された指向特性を用いる。このよ
うにすることで、効率の良い指向性の特定を行うことが
できる。

【００２７】このようにして、全ての領域の走査を終了
した場合には（ステップＳＡ０３）ステップＳＢ０７に
進み、発声している話者の方向を分離できているかどう
かを確認する。ただし、ステップＳＢ０３からステップ
ＳＢ０７に進んだ時点では、まだ話者の分離が行われて
いないため、ステップＳＢ０８に進み、分離したい話者
の方向に指向特性を実現するためのマイクロホンアレイ
処理（アレー処理）を行う（指向性の特定）。このマイ
クロホンアレイ処理は、複数のマイクロホン２ａ，２
ｂ，…２ｍの出力信号（Ａ／Ｄ変換値２１）を用いて、
これらのマイクロホン２ａ，２ｂ，…２ｍの物理的な位
置及び方向を変化させずに、音声データの位相差等を利
用した信号処理によって目的とする方向に指向特性を強
くする既知の技術である。

【００２８】そして、ステップＳＢ０９において、検出
した全ての話者位置情報２４について、これらの話者方
向または固定方向に対し指向性を持たせるための信号処
理２３を行って、当該信号処理結果として得られた音声
データを話者発声データ（図２中の音声波形２５ａ〜２
５ｃ）としてＲＡＭ（図示せず）内に書き込み、これを
中央制御部１に渡す。

【００２９】再び図３に戻り、中央制御部１は、ステッ
プＳＡ０５において、車載制御装置１１から音声認識開
始要求があったか否かを判断する。音声認識開始要求が
あったと判断した場合は、ステップＳＡ０６に進む。

【００３０】そして、ステップＳＡ０６で音声認識処理
（図２中の符号２６参照）を実行する。

【００３１】この音声認識処理２６の具体的な処理手順
を図５に示す。まずステップＳＣ０１において、音声認
識装置６は、１フレーム分の分離した話者発声データ２
５ａ〜２５ｃを中央制御部１から取得し、ステップＳＣ
０２で取得したフレームが先頭かどうかを判断する。そ
して、判断結果が肯定的であった場合には、次のステッ
プＳＣ０３に進み、予め保有している音声パターンデー
タに対するパターン認識を行うことで音声認識動作を行
う。

【００３２】ここで、音声データは１フレーム毎に与え
られることから、その１フレームの音声データに対し
て、当該音声データの音声パターンに基づいて、音声認
識対象となる音声データに話者の発音した音声が含まれ
ていないかどうかを判断する。そして、音声データに話
者の発音した音声が含まれていなかった場合には、音声
認識装置６は、音声データの音声認識処理を休止する。
これにより、ノイズを音声認識してしまう事態を防止し
て、できるだけ誤認識を抑制しながら、しかも処理負荷
低減を行うことができる。

【００３３】そして、音声認識処理が終了したか否かを
判断し（ステップＳＣ０４）、終了していないと判断し
た場合には、ステップＳＣ０５で、分離した話者の音声
認識の探索途中結果（図２中の符号２７ａ〜２７ｎ参
照）を一旦保存する。そして、ステップＳＣ０６におい
て、全ての話者について処理を終了したか否かを判断す
る。ここで、まだ全ての話者についての処理を終了して
いないと判断した場合には、再びステップＳＣ０１に戻
り、１フレーム分の分離した話者発声データ２５ａ〜２
５ｃを中央制御部１から取得する。そして、ステップＳ
Ｃ０２で取得したフレームが先頭でない場合に、ステッ
プＳＣ０７に進み、ステップＳＣ０５で保存した分離し
た話者の音声認識の探索途中結果２７ａ〜２７ｎを設定
し、これに後続する音声データの音声認識動作を続行す
る（ステップＳＣ０３）。

【００３４】このようにしてステップＳＣ０１〜ＳＣ０
７の動作を繰り返し行い、ステップＳＣ０４で音声認識
動作を終了したと判断した場合に、ステップＳＣ０８に
進んで、分離した話者の音声認識結果を中央制御部１に
転送する。そして、ステップＳＣ０６で、さらに他の話
者について音声認識すべきかどうかを判断する。そし
て、ステップＳＣ０１〜ＳＣ０８の動作を繰り返し行
い、全ての話者について音声認識動作が終了した時点
で、音声認識装置６の処理が完了する。

【００３５】再び図３に戻り、中央制御部１は、ステッ
プＳＡ０７において全ての音声認識処理２６が終了した
か否かを判断する。そして、終了していなければ、ステ
ップＳＡ０３〜ステップＳＡ０７の動作を繰り返す。そ
して、音声認識処理が終了した時点で、ステップＳＡ０
８でＡ／Ｄ変換装置３に対してＡ／Ｄ変換の停止を要求
する。そして、ステップＳＡ０９で、音声認識結果に基
づいて車載制御装置１１に対して制御要求を行い、これ
に従って車載制御装置１１が各車載電子装置１２の制御
を行う（図２中の車載電子機器制御処理２２）。この場
合は、図７のステップＳＥ１のように、まず音声認識結
果に基づいて、動作させるべき車載電子装置１２を選択
し、ステップＳＥ２で、選択した車載電子装置１２（機
器）に種々の設定要求を行えばよい。

【００３６】次に、信号処理装置４で信号処理（図２中
の符号２３）を行った後のデータをハンズフリー装置１
０を通じて携帯電話装置９に転送する動作について説明
する。

【００３７】まず図３中のステップＳＡ０５おいて、音
声認識開始要求がなされなかった場合、ステップＳＡ１
０に進み、中央制御部１はハンズフリー装置１０からハ
ンズフリー開始要求があるか否かを判断する。ハンズフ
リー開始要求があると判断した場合は、次のステップＳ
Ａ１１に進み、ハンズフリー処理（図２中の符号２８）
を実行する。

【００３８】図６はハンズフリー装置１０でのハンズフ
リー処理２８の動作手順を示すフローチャートである。
まずステップＳＤ０１において、ハンズフリー装置１０
は、通話すべき話者の位置が特定されているか否かを判
定する。そして、通話すべき話者の位置が特定されてい
ないと判定した場合は、ステップＳＤ０２に進み、話者
識別処理（図２中の符号３２）が終了しているかどうか
を判断する。そして、ステップＳＤ０２で話者識別が終
了していなければ、各話者の特徴パラメータを話者識別
装置５に要求し、これに呼応して与えられた話者の肉声
の特徴パラメータを算出し（ステップＳＤ０３）、ゆう
度計算（ステップＳＤ０４）を行って予め記憶している
基準情報と比較して話者識別を行い、ステップＳＤ０２
に戻って、再び話者識別が終了したか否かを判断する。
このゆう度計算結果を用いて話者を識別する際には、話
者識別装置５が、予め登録されている氏名やニックネー
ム等の称呼が音声認識装置６で認識されたときに、その
認識結果に基づいて話者を特定するのが望ましい。

【００３９】次に、ステップＳＤ０５において、話者識
別の結果として、既知の話者の識別ができたか否かを確
認する。その結果が肯定的であった場合には、その既知
の話者について、信号処理装置４によって分離された話
者についての１フレーム分の話者発声データ２５ａ〜２
５ｃを選択して取得し、ステップＳＤ０７で、ハンズフ
リー装置１０を通じて携帯電話装置９（外部通信機器）
に話者発声データ２５ａ〜２５ｃを転送する。これによ
り、自動的に話者を認識して携帯電話装置９での通話を
行うことができる。

【００４０】一方、ステップＳＤ０５において、既知の
話者の識別を行うことができなかった場合は、ステップ
ＳＤ０８に進む。

【００４１】ステップＳＤ０８では、既知の話者を特定
することができなかった場合の処理として、各発声話者
の特徴パラメータを算出し（ステップＳＤ０９）、隠れ
マルコフモデル（ＨＭＭ）またはガウス混合モデル（Ｇ
ＭＭ）を算出（ステップＳＤ１０）して、その登録を行
う（ステップＳＤ０１１）。そして、後刻に話者特定を
行う場合に、ステップＳＤ０４のゆう度計算にこれらの
モデルを利用すればよい。

【００４２】これらのハンズフリー処理２８において
は、携帯電話装置９から通話のための音声データが与え
られたときに、ハンズフリー装置１０及び中央制御部１
を通じて音声データがＤ／Ａ変換装置８に与えられ、こ
のＤ／Ａ変換装置８で音声データがＤ／Ａ変換され（図
２中のＤ／Ａ値出力処理３３）、スピーカ７で音声再生
される。

【００４３】また、１つの携帯電話装置９を用いてハン
ズフリー装置１０で車室内の複数の話者と通話を行う場
合、信号処理装置４で分離された音声データについて常
に音声パワーの比較を行い、一番パワーが強いデータの
みを転送させ、通話話者以外の音声やエンジン雑音、ロ
ード雑音を取り除いた状態で通信品質の高い音声で外部
との通信を行うようにする。これにより、通話話者のみ
の音声を取得して、容易に通信品質を向上させることが
できる。

【００４４】以上のように、マイクロホンアレイ２で複
数の話者の音声を採取したときに、それぞれの話者につ
いての発声データとして分離した後、その分離した音声
データについて音声認識等を行うので、例えば図８に示
すように、運転席４１や助手席４２等にそれぞれ話者４
３，４４が搭乗している場合に、マイクロホンアレイ２
の指向特性範囲４５〜４７を容易に変化させながら音声
データを採取し、これに基づいてそれぞれの話者４３，
４４毎に容易に音声認識を行うことができる。したがっ
て、音声認識における誤認識の発生率を大幅に低減でき
る。

【００４５】特に、分離した各話者毎の音声認識処理時
に生成される１フレーム分の探索途中結果を保存しなが
ら、各話者について切り替えながらタイムシェアリング
で全ての話者についての音声認識を行うので、１つの音
声認識装置６を用いて複数の話者の発声データを認識す
ることが可能となる。

【００４６】尚、上記実施の形態では、探索途中結果を
保存しながらタイムシェアリングで全ての単一の音声を
音声認識装置６で音声認識していたが、複数の音声認識
装置６を搭乗者数に対応して設置しておき、分離された
音声データをそれぞれの音声認識装置６で音声認識して
もよい。

【００４７】

【発明の効果】請求項１に記載の発明によれば、マイク
ロホンアレイで複数の話者の音声を採取したときに、そ
れぞれの話者についての発声データとして分離した後、
その分離した音声データについて音声認識等を行うの
で、例えば運転席や助手席等にそれぞれ話者が搭乗して
いる場合に、マイクロホンアレイの指向特性範囲を容易
に変化させながら音声データを採取し、これに基づいて
それぞれの話者毎に容易に音声認識を行うことができ
る。したがって、音声認識における誤認識の発生率を大
幅に低減できる。

【００４８】請求項２に記載の発明によれば、分離した
各話者毎の音声認識処理時に生成される１フレーム分の
探索途中結果を保存しながら、各話者について切り替え
ながらタイムシェアリングで全ての話者についての音声
認識を行うので、単一の音声認識装置を用いて複数の話
者の発声データを認識することが可能となる。

【００４９】請求項３に記載の発明によれば、同時に複
数の音声認識装置で各音声データを音声認識処理できる
ので、処理負荷効率及び処理時間効率を向上できる。

【００５０】請求項４及び請求項５に記載の発明によれ
ば、運転席や助手席等の予め定められた位置に対応する
ようにマイクロホンアレイの指向性を設定するので、効
率の良い指向性の特定を行うことができる。

【００５１】請求項６に記載の発明によれば、任意の方
向にいる複数の話者を音源探索により方向を特定し、そ
れぞれの特定した方向に指向性が向くように設定された
指向特性を用いて、マイクロホンアレイの指向性を設定
しているので、任意の位置の話者を容易に特定すること
ができる。

【００５２】請求項７に記載の発明によれば、音声認識
対象となる音声データに話者の発音した音声が含まれて
いないかどうかを判断し、音声データに話者の発音した
音声が含まれていなかった場合に、音声認識装置が、音
声データの音声認識処理を休止するようにしているの
で、ノイズを音声認識してしまう事態を防止して、でき
るだけ誤認識を抑制しながら、処理負荷低減を行うこと
ができる。

【００５３】請求項８に記載の発明によれば、話者識別
装置で特定された話者の音声データを、ハンズフリー装
置により外部通信機器に転送するので、聞き取りやすい
音声データを外部通信機器に転送することができる。

【００５４】請求項９に記載の発明によれば、話者識別
装置により、容易に話者を識別することができる。

【００５５】請求項１０に記載の発明によれば、信号処
理装置で分離された音声データについて常に音声パワー
の比較を行い、一番パワーが強いデータのみを外部通信
機器に転送させることができるので、常に中心となって
発声している話者の音声を転送することができ便利であ
る。

【図面の簡単な説明】

【図１】この発明の一の実施の形態に係る車載音声認識
システムを示すブロック図である。

【図２】この発明の一の実施の形態に係る車載音声認識
システムのソフトウェア構成を示すブロック図である。

【図３】この発明の一の実施の形態に係る車載音声認識
システムの動作を示すフローチャートである。

【図４】この発明の一の実施の形態に係る車載音声認識
システムの動作を示すフローチャートである。

【図５】この発明の一の実施の形態に係る車載音声認識
システムの動作を示すフローチャートである。

【図６】この発明の一の実施の形態に係る車載音声認識
システムの動作を示すフローチャートである。

【図７】車載電子装置を制御する際の動作を示すフロー
チャートである。

【図８】マイクロホンアレイの指向性を示す図である。

【符号の説明】

１中央制御部２マイクロホンアレイ２ａ〜２ｍマイクロホン３Ａ／Ｄ変換装置４信号処理装置５話者識別装置６音声認識装置７スピーカ８Ｄ／Ａ変換装置９携帯電話装置１０ハンズフリー装置１１車載制御装置１２車載電子装置２１Ａ／Ｄ変換値２２車載電子機器制御処理２３信号処理２４話者位置情報２５ａ〜２５ｃ話者発声データ２６音声認識処理２７ａ〜２７ｎ探索途中結果２８ハンズフリー処理３１Ａ／Ｄ値取得処理３３Ｄ／Ａ値出力処理

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 21/02 Ｇ１０Ｌ 3/00 ５７１ＣＨ０４Ｍ 1/00 ５１１ 1/725 ５５１ＪＨ０４Ｒ 1/40 ３２０ 3/02 ３０１Ｅ (72)発明者宇佐美彰規愛知県名古屋市南区菊住１丁目７番10号株式会社オートネットワーク技術研究所内Ｆターム(参考） 5D015 DD02 KK01 LL09 5K027 AA16 HH20

Claims

【特許請求の範囲】

【請求項１】車両内の搭乗者の発音を音声認識する車
載音声認識システムであって、複数のマイクロホンが配置されてなるマイクロホンアレ
イと、前記マイクロホンアレイについて指定された指向特性を
実現させて、遅延または進み処理を行うことにより複数
の音声または雑音を分離し必要な音声データのみを分離
する信号処理装置と、前記信号処理装置で分離されたそれぞれの前記音声デー
タを用いて音声識別を行う音声認識装置とを備える車載
音声認識システム。
【請求項２】請求項１に記載の車載音声認識システム
であって、前記信号処理装置が、１フレームずつ前記音声を分離
し、前記音声認識装置が、音声認識で得られる探索途中結果
を各発声データ毎に一時的に保存しつつ、当該探索途中
結果を切り替えながら、複数の発声データを時間差で音
声認識処理することを特徴とする車載音声認識システ
ム。
【請求項３】請求項１に記載の車載音声認識システム
であって、前記信号処理装置で分離された音声データのそれぞれに
つき、複数の音声認識装置で各々音声認識処理すること
を特徴とする車載音声認識システム。
【請求項４】請求項１ないし請求項３のいずれかに記
載の車載音声認識システムであって、前記信号処理装置は、マイクロホンアレイの指向性を所
定の位置の方向に対応するよう設定することを特徴とす
る車載音声認識システム。
【請求項５】請求項４に記載の車載音声認識システム
であって、前記所定の位置が、運転席の位置及び助手席の位置を含
むことを特徴とする車載音声認識システム。
【請求項６】請求項１ないし請求項３のいずれかに記
載の車載音声認識システムであって、前記信号処理装置は、任意の方向にいる複数の話者を音
源探索により方向を特定し、それぞれの特定した方向に
指向性が向くように設定された指向特性を用いて、前記
マイクロホンアレイの指向性を設定することを特徴とす
る車載音声認識システム。
【請求項７】請求項１ないし請求項６のいずれかに記
載の車載音声認識システムであって、前記音声データに話者の発音した音声が含まれていなか
った場合に、前記音声認識装置が、前記音声データの音
声認識処理を休止することを特徴とする車載音声認識シ
ステム。
【請求項８】請求項１ないし請求項７のいずれかに記
載の車載音声認識システムであって、前記マイクロホンアレイで採取した各話者の音声データ
の識別を行って各話者の特定を行う話者識別装置と、所定の外部通信機器を接続するためのハンズフリー装置
をさらに備え、前記ハンズフリー装置が、前記話者識別装置で特定され
た話者の音声データを前記外部通信機器に転送すること
を特徴とする車載音声認識システム。
【請求項９】請求項８に記載の車載音声認識システム
であって、前記話者識別装置が、予め登録されている称呼に基づい
て話者を特定することを特徴とする車載音声認識システ
ム。
【請求項１０】請求項８に記載の車載音声認識システ
ムであって、前記外部通信機器を用いて前記ハンズフリー装置で車室
内の複数の話者と通話を行う場合、前記信号処理装置で
分離された音声データについて常に音声パワーの比較を
行い、一番パワーが強いデータのみを転送させることを
特徴とする車載音声認識システム。