JP2006030447A

JP2006030447A - 音声認識システムと該音声認識システムを備える移動体及び車両

Info

Publication number: JP2006030447A
Application number: JP2004207073A
Authority: JP
Inventors: Yoichi Kitano; 陽一北野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-07-14
Filing date: 2004-07-14
Publication date: 2006-02-02

Abstract

【課題】実環境に対応してより正確に音声認識を実行する音声認識システムと該音声認識システムを備えて利用者の利便性を向上する移動体及び車両を提供する。
【解決手段】特徴合成部８は、車速センサ１０、エアコンＥＣＵ１１、オーディオＥＣＵ１２、ヨーレートセンサ１３、明度センサ１４から、車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する。次に、取得した車速、エアコン風量、オーディオ音量、ヨーレート、車内明度の値と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声及び画像の特徴量を音声認識に利用することが可能か否かを示す信頼度を判定する。そして、特徴合成部８は、利用者の音声の特徴量及び画像の特徴量を信頼度に基づく重み付けにより合成してパターン認識部１５へ出力し、パターン認識部１５は音声の認識処理を行う。
【選択図】図１

Description

本発明は、利用者の音声を認識するための音声認識システムと該音声認識システムを備える移動体及び車両に関する。

従来、実環境により適した音声認識システムとして、利用者（話者）の音声と該利用者の顔の画像を利用して音声を認識するものがある。具体的には、このシステムでは、音声の信号対雑音電力比（Ｓ／Ｎ比）が低い状況でも、利用者の発話音声信号から、出力尤度が最大となるように音声隠れマルコフモデル（ＨＭＭ）を生成する手段と、利用者の唇周辺の画像信号から出力尤度が最大となるように画像隠れマルコフモデル（ＨＭＭ）を生成する手段と、音声ＨＭＭと画像ＨＭＭのそれぞれの状態の全ての組み合わせにおいて音声と画像の出力確率の積を計算して、各状態で出力確率の積を含む合成された合成ＨＭＭを生成する合成手段と、発話音声信号の特徴量と画像信号の特徴量とを抽出する抽出手段と、抽出された発話音声信号の特徴量及び画像信号の特徴量に基づいて、合成ＨＭＭを用いて音声認識を実行する。これにより、音声のみを用いる場合に比較して高い認識性能を得ることができる（例えば、特許文献１参照。）。
特開２００２−１６９５８６号公報

ところで、車両等の移動体に搭載される車載機器の音声認識システムには、より高い耐ノイズ性が求められる。具体的に説明すると、例えば、従来技術のように利用者の発話音声信号の特徴量及び画像信号の特徴量に基づいて音声認識をする場合でも、移動体において音声認識を実行する場合には、利用者の発話音声に影響を与える移動体自身が発生する音、あるいは装備品の作動音、更には利用者がいる場所の明るさ等、利用者を取り巻く実環境は様々で、移動体の状態にはいろいろな場合があるため、音声認識率を向上させるために、より実環境に応じた音声認識を実行する必要がある。

本発明は、上記課題に鑑みてなされたもので、移動体を取り巻く実環境に対応してより正確に音声認識を実行する音声認識システムと該音声認識システムを備えて利用者の利便性を向上する移動体及び車両を提供することを目的とする。

上記課題を解決するために、請求項１の発明に係る音声認識システムは、移動体の状態を検出する状態検出手段（例えば後述する実施例の車速センサ１０、エアコンＥＣＵ１１、オーディオＥＣＵ１２、ヨーレートセンサ１３、明度センサ１４）と、話者の音声を含む話者の情報を入力するための情報入力手段（例えば後述する実施例のマイク３、ＣＣＤカメラ６）と、前記情報から前記話者に係る特徴量を取得するために複数個用意された特徴取得手段（例えば後述する実施例の音声特徴抽出部５、画像特徴抽出部７）と、前記移動体の状態に基づき前記特徴取得手段により取得された複数の特徴量の各々の信頼度を算出する信頼度算出手段（例えば後述する実施例の特徴合成部８が実行するステップＳ３の処理）と、前記信頼度に基づき前記複数の特徴量を合成して合成特徴量を算出する合成特徴量算出手段（例えば後述する実施例の特徴合成部８が実行するステップＳ４の処理）と、前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段（例えば後述する実施例のパターン認識部１５）とを備えることを特徴とする。

以上の構成を備えた音声認識システムは、まず、状態検出手段により移動体の状態を検出すると共に、情報入力手段により話者の音声を含む話者に関する情報を取得する。そして、複数個用意された特徴取得手段により話者に関する情報から話者に係る複数の特徴量を取得し、移動体の状態に基づき、信頼度算出手段が特徴取得手段により取得された複数の特徴量の各々の信頼度を算出すると共に、更に該信頼度に基づき合成特徴量算出手段により複数の特徴量を合成して合成特徴量を算出し、音声認識手段が、該合成特徴量に基づき音声の音声認識を行うことで、話者に係る複数の特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。

請求項２の発明に係る音声認識システムは、移動体の状態を検出する状態検出手段（例えば後述する実施例の車速センサ１０、エアコンＥＣＵ１１、オーディオＥＣＵ１２、ヨーレートセンサ１３、明度センサ１４）と、話者の音声を入力するための音声入力手段（例えば後述する実施例のマイク３）と、話者を撮影した画像を入力するための画像入力手段（例えば後述する実施例のＣＣＤカメラ６）と、前記音声から音声特徴量を取得するための音声特徴取得手段（例えば後述する実施例の音声特徴抽出部５）と、前記画像から画像特徴量を取得するための画像特徴取得手段（例えば後述する実施例の画像特徴抽出部７）と、前記移動体の状態に基づき前記音声特徴量及び前記画像特徴量の各々の信頼度を算出する信頼度算出手段（例えば後述する実施例の特徴合成部８が実行するステップＳ３の処理）と、前記信頼度に基づき前記音声特徴量と前記画像特徴量とを合成して合成特徴量を算出する合成特徴量算出手段（例えば後述する実施例の特徴合成部８が実行するステップＳ４の処理）と、前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段（例えば後述する実施例のパターン認識部１５）とを備えることを特徴とする。

以上の構成を備えた音声認識システムは、まず、状態検出手段により移動体の状態を検出すると共に、音声入力手段により話者の音声を取得し、更に画像入力手段により話者に関する画像を取得する。そして、音声特徴取得手段により話者の音声から音声特徴量を取得し、一方画像特徴取得手段により話者の画像から画像特徴量を取得し、移動体の状態に基づき、信頼度算出手段が音声特徴量及び画像特徴量の各々の信頼度を算出すると共に、更に該信頼度に基づき合成特徴量算出手段により音声特徴量と画像特徴量とを合成して合成特徴量を算出し、音声認識手段が、該合成特徴量に基づき音声の音声認識を行うことで、話者に係る音声特徴量及び画像特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る音声特徴量と画像特徴量との合成方法を変更して適切に音声特徴量と画像特徴量とを合成することができる。

請求項３の発明に係る音声認識システムは、請求項１、または請求項２に記載の音声認識システムにおいて、前記移動体が車両であることを特徴とする。

以上の構成を備えた音声認識システムは、話者に係る特徴量を用いた音声認識を実行する場合に、車両の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。

請求項４の発明に係る移動体は、請求項１、または請求項２に記載の音声認識システムを備えることを特徴とする。

以上の構成を備えた移動体は、請求項１、または請求項２に記載の音声認識システムを備えることにより、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができる。

請求項５の発明に係る車両は、請求項３に記載の音声認識システムを備えることを特徴とする。

以上の構成を備えた車両は、請求項３に記載の音声認識システムを備えることにより、利用者に、例えば車載機器の操作を、音声により正確に実行させることができる。

請求項１に記載の音声認識システムによれば、話者に係る複数の特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する話者に係る複数の特徴量を移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。

請求項２に記載の音声認識システムによれば、話者に係る音声特徴量及び画像特徴量を用いた音声認識を実行する場合に、移動体の状態に基づく信頼度を用いて、話者に係る音声特徴量と画像特徴量との合成方法を変更して適切に音声特徴量と画像特徴量とを合成することができる。
従って、音声認識に利用する話者に係る音声特徴量と画像特徴量とを移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。

請求項３に記載の音声認識システムによれば、話者に係る特徴量を用いた音声認識を実行する場合に、車両の状態に基づく信頼度を用いて、話者に係る特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する話者に係る複数の特徴量を車両の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。

請求項４に記載の移動体によれば、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができる。
従って、移動体を利用する利用者の利便性を向上することができるという効果が得られる。

請求項５に記載の車両によれば、利用者に、例えば車載機器の操作を、音声により正確に実行させることができる。
従って、車両を利用する利用者の利便性を向上することができるという効果が得られる。

以下、図面を参照して本発明の実施例について説明する。

（装置構成）
図１は、本発明の一実施例の音声認識システムの全体構成を示すブロック図である。本実施例の音声認識システムは、移動体に搭載して利用することが有用であるが、説明の簡単化のために、一例としてここでは音声認識システムが車両に搭載された場合について説明する。
図１において、本実施例の音声認識システムは、音声入力時に利用者により操作される入力開始スイッチ１と、入力開始スイッチ１からの信号を取得して利用者による音声入力が開始されたことを検知する入力検知部２とを備えている。

また、本実施例の音声認識システムは、利用者の音声を入力するためのマイク３を備えており、マイク３から入力された利用者のアナログ音声はＡ／Ｄ変換部４を介してデジタル化された後、音声特徴抽出部５に入力される。そして、音声特徴抽出部５では、例えばケプストラム分析が行われ利用者の音声の特徴量が抽出される。

一方、本実施例の音声認識システムは、利用者の顔、特に口元の画像を撮影するためのＣＣＤカメラ６を備えており、ＣＣＤカメラ６から入力された利用者の画像は、画像特徴抽出部７に入力される。そして、画像特徴抽出部７では、音声特徴抽出部５と同様に、例えばケプストラム分析が行われ利用者の画像の特徴量が抽出される。
また、入力検知部２と、音声特徴抽出部５と、画像特徴抽出部７は、特徴合成部８に接続されており、入力検知部２が利用者による音声入力が開始されたことを検知すると、音声特徴抽出部５から入力された利用者の音声の特徴量と画像特徴抽出部７から入力された利用者の画像の特徴量とが、本実施例の音声認識システムが搭載された車両の状態に基づいて合成される。

具体的には、しきい値記憶部９に予め記憶されている、例えば音声及び画像それぞれについての車速しきい値、エアコン風量しきい値、オーディオ音量しきい値、ヨーレートしきい値、明度しきい値等、車両状態を示す対象項目毎に決められた音声及び画像についてのしきい値と、例えば車速センサ１０、エアコンＥＣＵ１１、オーディオＥＣＵ１２、ヨーレートセンサ１３、明度センサ１４からそれぞれ取得した、実際の車両状態を示す車両状態数値である車速、エアコン風量、オーディオ音量、ヨーレート、車内明度とが比較されて利用者の音声の特徴量、あるいは利用者の画像の特徴量の信頼度が判定されると共に、判定された信頼度に基づく重み付けにより、利用者の音声の特徴量と利用者の画像の特徴量とが合成される。なお、利用者の音声の特徴量と利用者の画像の特徴量との合成方法の詳細は後述する。

なお、車速センサ１０は、本実施例の音声認識システムが搭載された車両の走行速度を検出するセンサである。また、エアコンＥＣＵ１１は、本実施例の音声認識システムが搭載された車両の車室内の空調装置を制御するＥＣＵ（Electronic Control Unit ）である。同様に、オーディオＥＣＵ１２は、本実施例の音声認識システムが搭載された車両の車室内の音響装置を制御するＥＣＵである。更に、ヨーレートセンサ１３は、本実施例の音声認識システムが搭載された車両のヨーレートを検出するセンサある。そして、明度センサ１４は、本実施例の音声認識システムが搭載された車両の車内明度を検出するセンサである。

また、特徴合成部８において合成された利用者の特徴量は、パターン認識部１５に入力される。そして、パターン認識部１５では、入力された利用者の特徴量と音響モデルに基づいて入力された音素を決定すると共に、決定された音素から、入力されたディジタル音声信号を認識し、結果は結果格納部１６へ格納される。

（音声認識処理）
次に、本実施例の音声認識システムの動作について図面を参照して詳細に説明する。図２は、本実施例の音声認識システムの音声認識処理動作を示すフローチャートである。
図２において、まず入力検知部２が、マイク３から利用者による音声入力が開始されたことを検知すると（ステップＳ１）、特徴合成部８は、車速センサ１０、エアコンＥＣＵ１１、オーディオＥＣＵ１２、ヨーレートセンサ１３、明度センサ１４から、実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する（ステップＳ２）。

次に、特徴合成部８は、内部に設けられた音声認識部及び画像認識部それぞれにおいて、各センサあるいはＥＣＵから取得した実際の車両状態を示す車両状態数値である車速、エアコン風量、オーディオ音量、ヨーレート、車内明度と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を算出する（ステップＳ３）。

具体的に、ステップＳ３では、下記表１、表２に示すように、ステップＳ１で取得した実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度と、しきい値記憶部９に予め記憶されている、音声及び画像それぞれについての車速しきい値、エアコン風量しきい値、オーディオ音量しきい値、ヨーレートしきい値、明度しきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を判定する。なお、下記表１は、利用者の音声の特徴量の信頼度が低い場合の例であって、表２は、利用者の音声の特徴量及び利用者の画像の特徴量共に信頼度が高い場合の例である。

例えば、表１では、音声についての車速のしきい値は最大６０であるのに対して、車速センサ１０の出力値が６５であるので、音声に関する判定は「×」である。一方、画像についての車速のしきい値は最大８０であるのに対して、車速センサ１０の出力値が６５であるので、画像に関する判定は「○」である。そして、表１の例では、音声に関して「×」が２つあるので、利用者の音声の特徴量の信頼度は低いと判定する。

そして、特徴合成部８は、利用者の音声の特徴量と利用者の画像の特徴量とを、判定した信頼度に基づく重み付けにより合成し、パターン認識部１５へ出力する（ステップＳ４）。具体的には、利用者の音声の特徴量をＡｆ、利用者の画像の特徴量をＧｆとすると、利用者の音声の特徴量Ａｆ及び利用者の画像の特徴量Ｇｆの信頼度が共に高い場合、合成特徴量Ｍｆは、下記（１）式により算出する。

Ｍｆ＝Ａｆ＋Ｇｆ・・・（１）

また、利用者の音声の特徴量Ａｆの信頼度が低く、利用者の画像の特徴量Ｇｆの信頼度が高い場合、合成特徴量Ｍｆは、下記（２）式により算出する。

Ｍｆ＝０．５×Ａｆ＋Ｇｆ・・・（２）

また、利用者の音声の特徴量Ａｆの信頼度が高く、利用者の画像の特徴量Ｇｆの信頼度が低い場合、合成特徴量Ｍｆは、下記（３）式により算出する。

Ｍｆ＝Ａｆ・・・（３）

例えば、利用者の音声の特徴量Ａｆ＝｛４、６、４、２｝とし、利用者の画像の特徴量Ｇｆ＝｛２、１、３、３｝とした場合、（１）式の結果は以下のようになる。

Ｍｆ＝Ａｆ＋Ｇｆ＝｛４＋２、６＋１、４＋３、２＋３｝＝｛６、７、７、５｝

また、（２）式の結果は以下のようになる。

Ｍｆ＝０．５×Ａｆ＋Ｇｆ＝｛２＋２、３＋１、２＋３、１＋３｝＝｛４、４、５、４｝

また、（３）式の結果は以下のようになる。

Ｍｆ＝Ａｆ＝｛２、１、３、３｝

そして、最後にパターン認識部１５が認識処理を行い、結果格納部１６に音声の認識結果を格納する（ステップＳ５）。

なお、本実施例では、音声特徴抽出部５、画像特徴抽出部７、特徴合成部８、及びパターン認識部１５のいずれか、あるいは全ては、必ずしも車両に搭載されている必要はなく、車両と無線通信によって接続された情報センタに配置されても良い。すなわち、入力された利用者の音声や画像、あるいは利用者の音声の特徴量、利用者の画像の特徴量、更には車速センサ１０、エアコンＥＣＵ１１、オーディオＥＣＵ１２、ヨーレートセンサ１３、明度センサ１４が出力する実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度、そして音声の認識結果を、情報センタに配置された構成要素の内容や種類に基づき、必要に応じて無線通信装置により情報センタへ送信したり、情報センタから受信したりして、本実施例で説明した情報の流れを構成することにより、車両側で実行するには車両の電源等の設備に負荷が大きすぎる処理や、音声認識処理自体を短時間で完了させるために高速化する必要がある処理を情報センタ側で実行し、音声認識処理の性能を向上させることができる。

また、本実施例では、説明の簡単化のために、音声認識に利用する利用者（話者）の情報を、利用者の音声と画像の特徴量として説明したが、音声認識に利用する利用者（話者）の情報は、利用者の音声の特徴量と利用者の画像の特徴量のいずれか一方でも良いし、あるいは利用者の特徴を示すその他の特徴量だけでも良いし、あるいは利用者の音声や画像の特徴量と利用者の特徴を示すその他の特徴量との組み合わせでも良い。
また、音声認識に利用する利用者（話者）の情報を１つの情報とする場合は、１つの情報に対して抽出アルゴリズムを変更した複数の特徴量を算出し、これを車両の状態に応じたそれぞれの信頼度に基づいて適切に合成することにより、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させるようにする。

更に、本実施例では、説明の簡単化のために、本実施例の音声認識システムを搭載する移動体を車両として説明したが、移動体は車両に限らず、船舶や飛行機等、どのような移動体であっても良い。

また、本実施例では、特徴合成部８が、信頼度算出手段と、合成特徴量算出手段とを備えている。具体的には、特徴合成部８が実行するステップＳ３の処理が信頼度算出手段に相当し、特徴合成部８が実行するステップＳ４の処理が合成特徴量算出手段に相当する。

以上説明したように、本実施例の音声認識システムによれば、入力検知部２が、マイク３から利用者による音声入力が開始されたことを検知すると、特徴合成部８は、車速センサ１０、エアコンＥＣＵ１１、オーディオＥＣＵ１２、ヨーレートセンサ１３、明度センサ１４から、実際の車両状態を示す車速、エアコン風量、オーディオ音量、ヨーレート、車内明度を取得する。次に、特徴合成部８は、各センサあるいはＥＣＵから取得した車速、エアコン風量、オーディオ音量、ヨーレート、車内明度等の実際の車両状態を示す車両状態数値と、車両状態を示す対象項目毎に決められた音声及び画像それぞれについてのしきい値とを比較して、入力された利用者の音声の特徴量、及び利用者の画像の特徴量を音声認識に利用することが可能であるか否かを示す信頼度を判定する。そして、特徴合成部８は、利用者の音声の特徴量と利用者の画像の特徴量とを、判定した信頼度に基づく重み付けにより合成してパターン認識部１５へ出力し、パターン認識部１５は認識処理を行い、結果格納部１６に音声の認識結果を格納する。

このように、本実施例の音声認識システムは、利用者（話者）に係る複数の特徴量を用いた音声認識を実行する場合に、車両等の移動体の状態に基づく信頼度を用いて、利用者に係る複数の特徴量の合成方法を変更して適切に複数の特徴量を合成することができる。
従って、音声認識に利用する利用者に係る複数の特徴量を移動体の状態に応じて適切に合成し、利用者を取り巻く実環境の変化にかかわらず音声認識率を向上させることができるという効果が得られる。

また、本実施例の音声認識システムを搭載した車両等の移動体では、利用者に、例えば移動体に搭載された機器の操作を、音声により正確に実行させることができるようになり、移動体を利用する利用者の利便性を向上することができるという効果が得られる。

本発明の一実施例の音声認識システムの全体構成を示すブロック図である。同実施例の音声認識システムの音声認識処理動作を示すフローチャートである。

符号の説明

３マイク（情報入力手段、音声入力手段）
５音声特徴抽出部（特徴取得手段、音声特徴取得手段）
６ＣＣＤカメラ（情報入力手段、画像入力手段）
７画像特徴抽出部（特徴取得手段、画像特徴取得手段）
８特徴合成部
１０車速センサ（状態検出手段）
１１エアコンＥＣＵ（状態検出手段）
１２オーディオＥＣＵ（状態検出手段）
１３ヨーレートセンサ（状態検出手段）
１４明度センサ（状態検出手段）
１５パターン認識部（音声認識手段）
Ｓ３信頼度算出手段
Ｓ４合成特徴量算出手段

Claims

移動体の状態を検出する状態検出手段と、
話者の音声を含む話者の情報を入力するための情報入力手段と、
前記情報から前記話者に係る特徴量を取得するために複数個用意された特徴取得手段と、
前記移動体の状態に基づき前記特徴取得手段により取得された複数の特徴量の各々の信頼度を算出する信頼度算出手段と、
前記信頼度に基づき前記複数の特徴量を合成して合成特徴量を算出する合成特徴量算出手段と、
前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段と
を備えることを特徴とする音声認識システム。
移動体の状態を検出する状態検出手段と、
話者の音声を入力するための音声入力手段と、
話者を撮影した画像を入力するための画像入力手段と、
前記音声から音声特徴量を取得するための音声特徴取得手段と、
前記画像から画像特徴量を取得するための画像特徴取得手段と、
前記移動体の状態に基づき前記音声特徴量及び前記画像特徴量の各々の信頼度を算出する信頼度算出手段と、
前記信頼度に基づき前記音声特徴量と前記画像特徴量とを合成して合成特徴量を算出する合成特徴量算出手段と、
前記合成特徴量に基づき前記音声の音声認識を行う音声認識手段と
を備えることを特徴とする音声認識システム。
前記移動体が車両である
ことを特徴とする請求項１、または請求項２に記載の音声認識システム。
請求項１、または請求項２に記載の音声認識システムを備えることを特徴とする移動体。
請求項３に記載の音声認識システムを備えることを特徴とする車両。