JP6603919B2

JP6603919B2 - 音声認識装置、および音声認識方法

Info

Publication number: JP6603919B2
Application number: JP2015122843A
Authority: JP
Inventors: 一博中臺; 武志水本; 圭佑中村; 将行瀧ヶ平
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2019-11-13
Anticipated expiration: 2035-06-18
Also published as: US20160372134A1; US9697832B2; JP2017009701A

Description

本発明は、音声認識装置、および音声認識方法に関する。

車両において、ナビゲーションシステム等を音声によるコマンドで操作する音声認識装置が提案されている。
このような音声認識装置では、座席シートの位置毎に、座席シートに着席している話者の音声の音源位置を予めプリセット情報として記憶させておく。そして、音声認識装置では、センサによって検出した座席シートの位置に基づいてプリセット情報を検索し、検索されたプリセット情報を参照して、運転席と助手席それぞれに着席している話者の音声を分離して音声認識を行うことが提案されている（例えば、特許文献１参照）。

再公表ＷＯ２００６／０２５１０６号公報

しかしながら、特許文献１に記載の技術では、車両の状態応じて発生するノイズを音声と認識してしまい、音声認識の精度が落ちるという課題があった。ここで、車両の状態とは、車速に応じた走行状態、ドアの開閉状態やワイパーの動作状態などである。

本発明は上記の点に鑑みてなされたものであり、車両の状態応じて発生するノイズの影響を低減することができる音声認識装置、および音声認識方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る音声認識装置は、音響信号を収音する収音部と、前記収音部によって収音された前記音響信号から空間スペクトルを算出し、算出した前記空間スペクトルを用いて音源定位を行う音源定位部と、音声区間を判定するための閾値と車両の状態との関係は非線形の関数であり、前記閾値を前記車両の状態毎に表形式で記憶する閾値記憶部と、前記車両の状態に対応する閾値を前記閾値記憶部から読み出し、前記音源定位部によって算出された前記空間スペクトルのパワーが、前記閾値記憶部から読み出した前記閾値を超えた区間を判定する音声区間判定部と、前記音声区間判定部が判定した区間の音響信号について音声認識を行う音声認識部と、を備え、前記閾値記憶部は、運転席に着席する運転者の音声信号に対応する閾値と、助手席に着席する乗員の音声信号に対応する閾値を、それぞれ表形式で記憶し、前記音源定位部によって音源定位された結果に基づいて、前記運転者の音声信号と前記乗員の音声信号を分離する音源分離部、を備え、前記音声区間判定部は、前記音源分離部によって分離された音声信号が前記運転者の音声信号の場合、前記運転者の音声信号に対応する閾値の中から前記車両の状態に対応する閾値を読み出し、前記空間スペクトルのパワーが、前記運転者の音声信号に対応する閾値の中から前記車両の状態に対応する前記閾値を超えた区間を判定し、前記音源分離部によって分離された音声信号が前記乗員の音声信号の場合、前記乗員の音声信号に対応する閾値の中から前記車両の状態に対応する閾値を読み出し、前記空間スペクトルのパワーが、前記乗員の音声信号に対応する閾値の中から前記車両の状態に対応する前記閾値を超えた区間を判定する。

（２）また、本発明の一態様に係る音声認識装置において、前記車両の状態は、前記車両の走行状態および前記車両の動作状態のうち、少なくとも１つの状態であるようにしてもよい。

（３）また、本発明の一態様に係る音声認識装置において、前記車両の走行状態は、車速に基づく状態であり、前記車両の動作状態は、パワーウィンドの開閉状態、ドアの開閉状態、およびワイパーの動作状態のうち、少なくとも１つの状態であるようにしてもよい。

（４）また、本発明の一態様に係る音声認識装置において、前記所定の閾値は、車速と、前記車両の動作状態と、前記運転者または前記乗員の音源とに対応付けられているようにしてもよい。

（５）また、本発明の一態様に係る音声認識装置において、前記所定の閾値は、前記運転者の音源に対する前記所定の閾値の方が、前記乗員の音源に対する前記所定の閾値より大きいようにしてもよい。

（６）上記目的を達成するため、本発明の一態様に係る音声認識方法は、音声区間を判定するための閾値と車両の状態との関係は非線形の関数であり、音声区間を判定するための閾値を車両の状態毎に表形式で記憶する閾値記憶部を有し、前記閾値記憶部は、運転席に着席する運転者の音声信号に対応する閾値と、助手席に着席する乗員の音声信号に対応する閾値を、それぞれ表形式で記憶する音声認識装置における音声認識方法であって、収音部が、音響信号を収音する収音手順と、音源定位部が、前記収音手順によって収音された前記音響信号から空間スペクトルを算出し、算出した前記空間スペクトルを用いて音源定位を行う音源定位手順と、音声区間判定部が、前記車両の状態に対応する閾値を前記閾値記憶部から読み出す閾値読出手順と、前記音声区間判定部が、前記音源定位手順によって算出された前記空間スペクトルのパワーが、前記閾値読出手順によって読み出した前記閾値を超えた区間を判定する音声区間判定手順と、音声認識部が、前記音声区間判定手順が判定した区間の音響信号について音声認識を行う音声認識手順と、音源分離部が、前記音源定位手順によって音源定位された結果に基づいて、前記運転者の音声信号と前記乗員の音声信号を分離する音源分離手順と、を含み、前記音声区間判定手順は、前記音源分離手順によって分離された音声信号が前記運転者の音声信号の場合、前記運転者の音声信号に対応する閾値の中から前記車両の状態に対応する閾値を読み出し、前記空間スペクトルのパワーが、前記運転者の音声信号に対応する閾値の中から前記車両の状態に対応する前記閾値を超えた区間を判定し、前記音源分離手順によって分離された音声信号が前記乗員の音声信号の場合、前記乗員の音声信号に対応する閾値の中から前記車両の状態に対応する閾値を読み出し、前記空間スペクトルのパワーが、前記乗員の音声信号に対応する閾値の中から前記車両の状態に対応する前記閾値を超えた区間を判定する。

（１）または（６）の構成によれば、車両の状態応じて発生するノイズの影響を低減することができる。
また、（２）の構成によれば、車両の走行状態または動作状態のうちの少なくとも１つの状態に応じた閾値を用いて、音源の発話区間を検出することができる。

また、（３）の構成によれば、車速に基づく状態、パワーウィンドの開閉状態、ドアの開閉状態、およびワイパーの動作状態のうち、少なくとも１つの状態に応じた閾値を用いて、音源の発話区間を検出することができる。
また、（１）または（６）の構成によれば、音源分離された運転者または乗員の発話のうち、閾値以上の発話の区間の音声信号を用いて音声認識を行うことで、車両の状態応じて発生するノイズの影響を低減することができる。

また、（４）の構成によれば、車速毎かつ車両の動作状態毎かつ運転者または乗員毎の閾値を用いて、運転者または乗員の発話区間を適切に検出することができる。
また、（５）の構成によれば、運転者の音声を乗員の音声より優先して音声認識することができる。

実施形態に係る音声認識装置の構成を示すブロック図である。実施形態に係る車両が備える構成の例を示す図である。実施形態に係る音声認識装置が行う処理のフローチャートである。実施形態に係る運転席に着席している運転者による音声信号の空間スペクトルの時間変化の例を示す図である。実施形態に係る助手席に着席している乗員による音声信号の空間スペクトルの時間変化の例を示す図である。実施形態に係る閾値記憶部に記憶されている運転席に着席している運転者の音声信号に対する閾値の例を示す図である。本実施形態に係る閾値記憶部に記憶されている助手席に着席している乗員の音声信号に対する閾値の例を示す図である。実施形態に係る車速ｖと、閾値Ｔ_ｄ（ｖ）および閾値Ｔ_ｐ（ｖ）との例を示す図である。実施形態に係る運転席に着席している運転者の音声信号におけるパワーと閾値との時間変化の例を示す図である。本実施形態に係る助手席に着席している乗員の音声信号におけるパワーと閾値との時間変化の例を示す図である。

以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、音声認識装置を車両に設置する例について説明を行う。

＜音声認識装置の構成＞
図１は、本実施形態に係る音声認識装置１の構成を示すブロック図である。図２は、本実施形態に係る車両２が備える構成の例を示す図である。
図１に示すように、音声認識装置１は車両２に設置されている。

まず、車両２が備える構成について、図１と図２を用いて説明する。
図２に示すように、車両２は、収音部１０、運転席２０１、助手席２０２、ステアリングホイール２１１、シフトレバー２１２、パーキングブレーキ・ブレーキペダル２１３、アクセルペダル２１４、車輪２２１、パワーウィンド２３１、ドア２３２等を含んで構成される。

また、車両２は、図１に示すように、走行装備２０、車載用装置３０、動作情報出力部４０、操作入力部５１、および操作入力部５２を備えている。
操作入力部５１は、車両２の走行に関する入力部であり、例えばステアリングホイール２１１、シフトレバー２１２、パーキングブレーキ・ブレーキペダル２１３、アクセルペダル２１４、クラッチペダル２１５等である。操作入力部５１は、入力された結果を走行装備２０に出力する。

操作入力部５２は、車両の走行以外の動作についての操作指示に関する入力部であり、パワーウィンド２３１を開閉する操作ボタン、ドア２３２を開閉するハンドル、ワイパー２３３の動作のオン状態とオフ状態を切り替える切り替えスイッチ等である。操作入力部５２は、入力された結果を車載用装置３０に出力する。

走行装備２０は、走行制御部２１、走行機構２２、および走行状態検出部２３を備える。
走行機構２２は、動力伝達装置、走行装置、制御装置等であり、例えばドライブシャフト、車輪２２１、ブレーキドラム等である。
走行制御部２１は、操作入力部５１が出力した結果に応じて、走行機構２２を制御する。また、走行制御部２１は、制御した制御結果を走行状態検出部２３に出力する。

走行状態検出部２３は、走行制御部２１が出力した制御結果に基づいて、車両２の走行状態を検出し、検出した走行状態を示す走行状態情報を動作情報出力部４０に出力する。なお、走行状態とは、走行中であるか否か、車速が何ｋｍ／ｈ（時間）であるか等の状態である。

車載用装置３０は、動作制御部３１、動作機構３２、および動作状態検出部３３を備える。
動作機構３２は、パワーウィンド２３１の開閉機構、ドア２３２の開閉機構、ワイパー２３３の動作機構等である。
動作制御部３１は、操作入力部５２が出力した結果に応じて、動作機構３２を制御する。また、動作制御部３１は、制御した制御結果を動作状態検出部３３に出力する。

動作状態検出部３３は、動作制御部３１が出力した制御結果に基づいて、動作機構３２の状態を検出し、検出した動作状態を示す動作状態情報を動作情報出力部４０に出力する。なお、動作状態とは、パワーウィンド２３１の開閉状態、ドア２３２の開閉状態、ワイパー２３３の動作状態等である。

動作情報出力部４０は、走行状態検出部２３が出力した走行状態情報と、動作状態検出部３３が出力した動作状態情報とを用いて動作情報を生成し、生成した動作情報を、ＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）６０を介して音声認識装置１に出力する。なお、ＣＡＮは、ＣＡＮ規格に準拠した相互接続された機器間のデータ転送に用いられるネットワークである。また、動作情報には、走行状態情報および動作状態情報のうち、少なくとも１つの情報が含まれている。

なお、走行制御部２１、走行状態検出部２３、動作制御部３１、動作状態検出部３３、および動作情報出力部は、例えばＥＣＵ（電子制御ユニット）である。ＥＣＵは、ＣＡＮを介して、動作情報を音声認識装置１に出力する。

次に、音声認識装置１が備える構成について説明する。
図１に示すように、音声認識装置１は、収音部１０、音声信号取得部１１、伝達関数記憶部１２、音源定位部１３、音源分離部１４、動作情報取得部１５、閾値記憶部１６、音声区間判定部１７、特徴量算出部１８、および音声認識部１９を備えている。

収音部１０は、マイクロホンであり、マイクロホン１００−１〜１００−Ｎ（Ｎは２以上の整数）を備える。なお、収音部１０は、マイクロホンアレイである。なお、マイクロホン１００−１〜１００−Ｎのうちいずれか１つを特定しない場合は、マイクロホン１００という。収音部１０は、収音した音声信号を電気信号に変換して、変換した音声信号を音声信号取得部１１に出力する。なお、収音部１０は、収録したＮチャネルの音声信号を音声信号取得部１１に無線で送信してもよいし、有線で送信してもよい。送信の際にチャネル間で音声信号が同期していればよい。

音声信号取得部１１は、収音部１０のＮ個のマイクロホン１００によって収録されたＮチャネルの音声信号を取得する。音声信号取得部１１は、取得したＮチャネルの音声信号をチャネルｉ毎の音声信号ｘ_ｉ（ｋ）（ｋは、サンプル時刻を表す整数、ｉは、１≦ｉ≦Ｎとなる整数）に対して、例えば離散フーリエ変換（ＤＦＴ；ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行って周波数領域信号ｘ_ｉ（ω）（ωは、周波数）を生成し、生成した周波数領域信号ｘ_ｉ（ω）を音源定位部１３に出力する。

伝達関数記憶部１２には、方位毎にマイクロホン１００から所定の位置までの伝達関数ａ_φｉ（ω）が記憶されている。なお、伝達関数ａ_φｉ（ω）を要素とするＮ次元のベクトル［ａ_φ１（ω），ａ_φ２（ω），…，ａ_φＮ（ω）］を伝達関数ベクトルｖａ_φ（ω）と呼ぶ。

音源定位部１３は、音声信号取得部１１から入力されたＮチャネルの音声信号に対して、伝達関数記憶部１２に記憶されている伝達関数を用いて、後述するように、空間スペクトルを算出する。音源定位部１３は、算出した空間スペクトルに基づいて音源の方位角の推定（音源定位を行うともいう）を行う。音源定位部１３は、推定した音源の方位角情報と、入力されたＮチャネルの音声信号を音源分離部１４に出力する。音源定位部１３は、例えば、ＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いて方位角を推定する。なお、方位角の推定には、ビームフォーミング（Ｂｅａｍｆｏｒｍｉｎｇ）法、ＷＤＳ−ＢＦ（ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ；重み付き遅延和ビームフォーミング）法、一般化特異値展開を用いたＭＵＳＩＣ（ＧＳＶＤ−ＭＵＳＩＣ；ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ−ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法等の他の音源方向推定方式を用いてもよい。
また、音源定位部１３は、音源定位された運転席２０１に着席している運転者の発話（第１音源）の空間スペクトルと、助手席２０２に着席している乗員の発話（第２音源）の空間スペクトルを、例えばフレーム毎に音声区間判定部１７に出力する。ここで、フレームとは、解析されるデータの単位であり、例えばフレーム長が２５（ｍｓｅｃ）、フレームの間隔が１０（ｍｓｅｃ）である。

音源分離部１４は、音源定位部１３が出力したＮチャネルの音響信号および推定された音源の方位角情報を取得する。音源分離部１４は、取得した方位角に対応する伝達関数を伝達関数記憶部１２から読み出す。音源分離部１４は、読み出した伝達関数と、例えばブラインド分離とビームフォーミングのハイブリッドであるＧＨＤＳＳ−ＡＳ（ＧｅｏｍｅｔｒｉｃａｌｌｙｃｏｎｓｔｒａｉｎｅｄＨｉｇｈｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎｗｉｔｈＡｄａｐｔｉｖｅＳｔｅｐｓｉｚｅｃｏｎｔｒｏｌ）法を用いて、取得したＮチャネルの音響信号から音源毎の音声信号を分離する。音源分離部１４は、分離した音声信号を特徴量算出部１８に出力する。なお、音源分離部１４は、例えばビームフォーミング法等を用いて、音源分離処理を行ってもよい。

動作情報取得部１５は、動作情報出力部４０が出力した動作情報を取得し、取得した動作情報を音声区間判定部１７に出力する。

閾値記憶部１６には、音声区間を判定するための閾値が、走行状態毎かつ動作状態毎に記憶されている。なお、閾値については、後述する。

音声区間判定部１７は、動作情報取得部１５が出力した動作情報に対応する閾値を閾値記憶部１６から読み出して、車速に対する閾値を設定する。音声区間判定部１７は、音源定位部１３が出力した空間スペクトルが、設定した閾値以上の区間を発話区間であると判定し、判定した結果を音声区間判定結果として音源毎に抽出する。音声区間判定結果には、音源毎かつフレーム毎に発話の有りまたは無しを示す情報が含まれている。音声区間判定部１７は、抽出した音源毎の音声区間判定結果を特徴量算出部１８に出力する。

特徴量算出部１８は、音源分離部１４が出力した音源毎の音声信号から、音声区間判定部１７が出力した音源毎の音声区間判定結果に基づいて音源毎の発話区間の音響特徴量を算出し、算出した音源毎の音響特徴量を音声認識部１９に出力する。特徴量算出部１８は、例えば、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーを、所定時間（例えば、１０ｍｓ）毎に算出することで音響特徴量を算出する。なお、ＭＳＬＳは、音響認識の特徴量としてスペクトル特徴量を用い、ＭＦＣＣ（メル周波数ケプストラム係数；ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を逆離散コサイン変換することによって得られる。

音声認識部１９は、特徴量算出部１８が出力した音源毎の音響特徴量を用いて音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。なお、音声認識部１９は、例えば、音響モデルである隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）と単語辞書を備える。音声認識部１９は、認識した認識結果を外部装置（不図示）に出力する。外部装置は、例えばカーナビゲーションシステム等である。

＜音声認識装置１が行う処理＞
次に、音声認識装置１が行う処理手順を説明する。
図３は、本実施形態に係る音声認識装置１が行う処理のフローチャートである。

（ステップＳ１０１）音源定位部１３は、音声信号取得部１１から入力されたＮチャネルの音声信号に対して、伝達関数記憶部１２に記憶されている伝達関数を用いて、空間スペクトルを算出する。続けて、音源定位部１３は、算出した空間スペクトルに基づいて、例えばＭＵＳＩＣ法によって音源定位を行う。

（ステップＳ１０２）音源分離部１４は、音源定位部１３によって推定された方位角に対応する伝達関数記憶部１２に記憶されている伝達関数と、例えばＧＨＤＳＳ−ＡＳ法を用いて、音源定位部１３が出力したＮチャネルの音響信号から音源毎の音声信号を分離する。

（ステップＳ１０３）動作情報取得部１５は、動作情報出力部４０が出力した動作情報を取得する。続けて、音声区間判定部１７は、動作情報取得部１５が出力した動作情報に対応する閾値を閾値記憶部１６から読み出して、車速ｖに対する閾値Ｔ_ｄ（ｖ）およびＴ_ｐ（ｖ）を設定する。

（ステップＳ１０４）音声区間判定部１７は、音源定位部１３が出力した空間スペクトルが、設定した閾値以上の区間を発話区間であると判定し、判定した結果を音声区間判定結果として音源毎に抽出する。

（ステップＳ１０５）特徴量算出部１８は、音源分離部１４が出力した音源毎の音声信号から、音声区間判定部１７が出力した音源毎の音声区間判定結果に基づいて音源毎の発話区間の音響特徴量を算出する。

（ステップＳ１０６）音声認識部１９は、特徴量算出部１８が出力した音源毎の音響特徴量を用いて音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。続けて、音声認識部１９は、認識した認識結果を外部装置（不図示）に出力する。

＜空間スペクトルの算出、音源定位の推定＞
ここで、ＭＵＳＩＣ法（例えば、参考文献１参照）による空間スペクトルの算出と、音源定位の推定の概略を説明する。
音源定位部１３は、周波数ω毎にチャネル間の周波数領域信号ｘ_ｉ（ω）の相互相関（ｃｒｏｓｓｃｏｒｒｅｌａｔｉｏｎ）を要素とするＮ行Ｎ列の相関行列（ｃｏｒｒｅｌａｔｉｏｎｍａｔｒｉｘ）Ｒ（ω）を、例えば次式（１）によって算出する。

式（１）において、Ｅ［…］は、…の期待値を表す。ｖｘ（ω）は、周波数領域信号ｘ_ｉ（ω）を要素とするＮ次元のベクトル［ｘ_１（ω），ｘ_２（ω），…，ｘ_Ｎ（ω）］である。Ｈは、ベクトル又は行列の共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を表す。
音源定位部１３は、相関行列Ｒ（ω）を固有値展開して、Ｎ個の固有値λ_ｉ（ω）及び固有ベクトルｅ_ｉ（ω）を算出する。なお、相関行列Ｒ（ω）と固有値λ_ｉ（ω）ならびに固有ベクトルｅ_ｉ（ω）は、次式（２）に示される関係を満たす。

式（２）において、Ｅ（ω）は、固有ベクトルｅ_ｉ（ω）を要素とするＮ行Ｎ列の行列［ｅ_１（ω），ｅ_２（ω），…，ｅ_Ｎ（ω）］である。Λ（ω）は、対角要素としてＮ個の固有値λ_１（ω），λ_２（ω），…，λ_Ｎ（ω）を含むＮ行Ｎ列の対角行列である。ここで、インデックスｉは、行列Ｅ（ω）における固有ベクトルｅ_ｉ（ω）の順序、行列Λ（ω）における固有値λ_ｉ（ω）の順序を表す。音源定位部１３は、インデックスｉを、最大の固有値λ_ｉ（ω）に対して１であり、最小の固有値λ_ｉ（ω）に対してＮとなるように、固有値λｉ（ω）の降順に定める。

音源定位部１３は、伝達関数記憶部１２に記憶されている音源方向φ毎の伝達関数ベクトルｖａ_φ（ω）と算出した固有ベクトルｅ_ｉ（ω）に基づいて、周波数毎に指標値としてＭＵＳＩＣ評価値（ＭＵＳＩＣｅｓｔｉｍａｔｏｒ）Ｐ（ω，φ）を、例えば次式（３）によって算出する。

式（３）において、Ｌは、予め定めた音源の数であって、１又は１よりも大きく、Ｎよりも小さい整数である。また、ｅ_ｉ（ω）は、固有ベクトルである。
音源定位部１３は、ＭＵＳＩＣ評価値Ｐ（ω，φ）と最大固有値λ_１（ω）を用いて、検出した音源方向φ毎に、予め定めた音声の周波数帯域における空間スペクトルＰ（φ）を、例えば次式（４）によって算出する。

式（４）において、ω_ｍｉｎは、当該周波数帯域の最低周波数を表し、ω_ｍａｘは、最高周波数を表す。即ち、式（４）は、ＭＵＳＩＣ評価値Ｐ（ω，φ）と最大固有値λ１（ω）の平方根の乗算値を、当該周波数成分にわたって加算して空間スペクトルＰ（φ）を算出することを表す。

音源定位部１３は、空間スペクトルＰ（φ）のうち、所定の閾値以上の値を抽出する。音源定位部１３は、抽出した値それぞれ対応する音源方向φを表す方位角情報を生成する。

参考文献１：Schmidt, 1986; Dan`es et al., 2010

＜空間スペクトルの例＞
次に、運転席２０１と助手席２０２における空間スペクトルの時間変化の例を説明する。
図４は、本実施形態に係る運転席２０１に着席している運転者による音声信号の空間スペクトルの時間変化の例を示す図である。図５は、本実施形態に係る助手席２０２に着席している乗員による音声信号の空間スペクトルの時間変化の例を示す図である。図４および図５において、横軸は時刻、縦軸はパワーを表している。

図４において、曲線ｐ０１は、運転席２０１に着席している運転者の音声信号の空間スペクトルのパワーの時間変化を表している。図４に示す例では、時刻ｔ_１のときのパワーが極大値ｐ_１ｍａｘであり、時刻ｔ_２のときのパワーが極小値ｐ_１ｍｉｎである。
図５において、曲線ｐ０２は、助手席２０２に着席している乗員の音声信号の空間スペクトルのパワーの時間変化を表している。図５に示す例では、時刻ｔ_０のとき、パワーが極小値ｐ_２ｍｉｎであり、時刻ｔ_１１のとき、パワーが極大値ｐ_２ｍａｘである。

＜音声区間検出に用いられる閾値＞
次に、閾値記憶部１６に記憶されている閾値の例を説明する。
図６は、本実施形態に係る閾値記憶部１６に記憶されている運転席２０１に着席している運転者の音声信号に対する閾値の例を示す図である。図７は、本実施形態に係る閾値記憶部１６に記憶されている助手席２０２に着席している乗員の音声信号に対する閾値の例を示す図である。

図６および図７に示す例は、走行状態として車速、動作状態としてワイパー２３３（図２）の動作に対応つけられている閾値の例である。
図６および図７に示すように、車速毎にワイパー２３３がＯＮ（オン）状態の閾値と、ＯＦＦ（オフ）状態の閾値とが、音源毎に対応つけられている。

図６のように、運転者の音声信号に対して、車速が１０ｋｍ／ｈ以下の場合は、ワイパー２３３がＯＮ状態の閾値として２９．０ｄＢと、ワイパー２３３がＯＦＦ状態の閾値として２９．０ｄＢが対応つけられている。車速が１０ｋｍ／ｈより速く３０ｋｍ／ｈ以下の場合は、ワイパー２３３がＯＮ状態の閾値として２９．０ｄＢと、ワイパー２３３がＯＦＦ状態の閾値として３０．５ｄＢが対応つけられている。車速が３０ｋｍ／ｈより速く５０ｋｍ／ｈ以下の場合は、ワイパー２３３がＯＮ状態の閾値として３０．０ｄＢと、ワイパー２３３がＯＦＦ状態の閾値として３０．５ｄＢが対応つけられている。車速が５０ｋｍ／ｈより速い場合は、ワイパー２３３がＯＮ状態の閾値として３０．５ｄＢと、ワイパー２３３がＯＦＦ状態の閾値として３０．５ｄＢが対応つけられている。

図７のように、乗員の音声信号について、車速が１０ｋｍ／ｈ以下の場合は、ワイパー２３３がＯＮ状態の閾値として２８．０ｄＢと、ワイパー２３３がＯＦＦ状態の閾値として２８．０ｄＢが対応つけられている。車速が１０ｋｍ／ｈより速く３０ｋｍ／ｈ以下の場合は、ワイパー２３３がＯＮ状態の閾値として２８．０ｄＢと、ワイパー２３３がＯＦＦ状態の閾値として２８．５ｄＢが対応つけられている。車速が３０ｋｍ／ｈより速く５０ｋｍ／ｈ以下の場合は、ワイパー２３３がＯＮ状態の閾値として２９．０ｄＢと、ワイパー２３３がＯＦＦ状態の閾値として２９．５ｄＢが対応つけられている。車速が５０ｋｍ／ｈより速い場合は、ワイパー２３３がＯＮ状態の閾値として２９．５ｄＢと、ワイパー２３３がＯＦＦ状態の閾値として２９．５ｄＢが対応つけられている。

図６および図７に示すように、本実施形態では、運転者の音声信号より、運転席２０１に着席している運転者の音声信号に対する同じ車速の場合の閾値を、高く設定している。この理由は、運転者の音声信号を、乗員の音声信号に対して優先して認識するためである。
このため、運転席と助手席に対するぞれぞれの閾値の大小関係を、認識した音声の用途に応じて、例えば利用者（運転者または乗員）が切り替えるようにしてもよい。

また、図６および図７に示した各閾値は、例えば、車両２の各車速ｖにおける雑音を収音部１０によって収音した音声信号（音響信号ともいう）の空間スペクトルのパワーに基づいて設定するようにしてもよい。

また、図６および図７に示した例では、行動状態の例としてワイパー２３３のＯＮ状態とＯＦＦ状態を説明したが、これに限られない。閾値記憶部１６には、車速に、パワーウィンド２３１が開かれた状態と閉じられた状態が対応付けられた閾値が記憶され、車速に、ドア２３２が開かれた状態と閉じられた状態が対応付けられた閾値が記憶されている。
さらに、閾値記憶部１６に記憶されている閾値は、表形式に限られず、車速ｖの閾値Ｔ_ｄ（ｖ）および閾値Ｔ_ｐ（ｖ）それぞれの数式が記憶されていてもよい。

ここで、車速ｖと、閾値Ｔ_ｄ（ｖ）および閾値Ｔ_ｐ（ｖ）との関係の例を、図６〜図８を用いて説明する。
なお、閾値Ｔ_ｄ（ｖ）とは、運転席２０１に着席している運転者の音声信号におけるパワーに対する閾値である。閾値Ｔ_ｐ（ｖ）とは、助手席２０２に着席している乗員の音声信号におけるパワーに対する閾値である。
図８は、本実施形態に係る車速ｖと、閾値Ｔ_ｄ（ｖ）および閾値Ｔ_ｐ（ｖ）との例を示す図である。図８において、グラフｇ１０１は、車速ｖと時刻との関係を表すグラフであり、グラフｇ１０２は、閾値Ｔ_ｄ（ｖ）および閾値Ｔ_ｐ（ｖ）と時刻との関係を表すグラフである。グラフｇ１０１およびグラフｇ１０２において、横軸は時刻である。グラフｇ１０１において、縦軸は車速ｖである。グラフｇ１０２において、縦軸は閾値ｄＢである。また、グラフｇ１０２に示した閾値Ｔ_ｄ（ｖ）および閾値Ｔ_ｐ（ｖ）は、ワイパー２３３がＯＮ状態である。

グラフｇ１０１の曲線ｖ０１のように、時刻ｔ_０から時刻ｔ_２１にかけて、３２ｋｍ／ｈから５０ｋｍ／ｈに車速ｖが加速し、時刻ｔ_２１から時刻ｔ_２２にかけて、５０ｋｍ／ｈから５５ｋｍ／ｈに車速ｖが加速している。そして、時刻ｔ_２２から時刻ｔ_２３にかけて、５５ｋｍ／ｈから５０ｋｍ／ｈに車速ｖが減速し、時刻ｔ_２３以降、５０ｋｍ／ｈからさらに車速ｖが減速している。

図６に示したように、ワイパーがＯＮ状態の場合、運転者の発話に対する閾値Ｔ_ｄ（ｖ）は、車速ｖが３０ｋｍ／ｈより速く５０ｋｍ／ｈの場合に３０．０ｄＢであり、車速ｖが５０ｋｍ／ｈ以上の場合に３０．５ｄＢである。このため、グラフｇ１０２のように、時刻ｔ_０〜ｔ_２１の区間の閾値Ｔ_ｄ（ｖ）は３０．０ｄＢであり、時刻ｔ_２１〜ｔ_２３の区間の閾値Ｔ_ｄ（ｖ）は３０．５ｄＢである。

また、図７に示したように、ワイパーがＯＮ状態の場合、乗員の発話に対する閾値Ｔ_ｐ（ｖ）は、車速ｖが３０ｋｍ／ｈより速く５０ｋｍ／ｈの場合に２９．０ｄＢであり、車速ｖが５０ｋｍ／ｈ以上の場合に２９．５ｄＢである。このため、グラフｇ１０２のように、時刻ｔ_０〜ｔ_２１の区間の閾値Ｔ_ｐ（ｖ）は２９．０ｄＢであり、時刻ｔ_２１〜ｔ_２３の区間の閾値Ｔ_ｐ（ｖ）は２９．５ｄＢである。

＜音声区間の検出＞
次に、音声区間判定部１７による音声区間の例を説明する。
図９は、本実施形態に係る運転席２０１に着席している運転者の音声信号におけるパワーと閾値との時間変化の例を示す図である。図１０は、本実施形態に係る助手席２０２に着席している乗員の音声信号におけるパワーと閾値との時間変化の例を示す図である。図９および図１０において、横軸は時刻、縦軸はパワーと閾値である。なお、図９および図１０において、時刻ｔ_０〜ｔ_２３における時刻に対する時速ｖの変化は、図８と同じである。このため、閾値Ｔ_ｄ（ｖ）と閾値Ｔ_ｐ（ｖ）も図８と同様である。

図９に示す例では、時刻ｔ_３１〜ｔ_２１の区間、運転者の発話ｐ０１が閾値Ｔ_ｄ（ｖ）を超え、他の区間の発話ｐ０１が閾値Ｔ_ｄ（ｖ）より小さい。このため、音声区間判定部１７は、時刻ｔ_３１〜ｔ_２１の区間を運転者の発話区間であると判定する。
図１０に示す例では、時刻ｔ_０〜ｔ_２３の区間、乗員の発話ｐ０２が閾値Ｔ_ｐ（ｖ）より小さい。このため、音声区間判定部１７は、時刻ｔ_０〜ｔ_２３において、乗員の発話区間がないと判定する。

なお、図８〜図１０に示した閾値は一例であり、これに限られない。閾値記憶部１６に記憶されている閾値Ｔ_ｄ（ｖ）およびＴ_ｐ（ｖ）が、車速ｖに関する関数である場合、閾値Ｔ_ｄ（ｖ）およびＴ_ｐ（ｖ）は、例えば図８の曲線ｖ０１に基づく曲線であってもよい。

また、上述した例では、音声区間判定部１７が、音声区間判定結果を特徴量算出部１８に出力する例を説明したが、これに限られない。音声区間判定部１７は、音声区間判定結果を音声認識部１９に出力するようにしてもよい。この場合、特徴量算出部１８が音源毎に音響特徴量を算出し、音声認識部１９は、音声区間判定結果に基づいて、音源毎の発話区間の音響特徴量を用いて音声認識を行うようにしてもよい。

以上のように、本実施形態の音声認識装置１は、音響信号を収音する収音部１０と、収音部によって収音された音響信号から空間スペクトルを算出し、算出した空間スペクトルを用いて音源定位を行う音源定位部１３と、音源定位部によって算出された空間スペクトルのパワーが、車両の状態に基づく所定の閾値を超えた区間を判定する音声区間判定部１７と、音声区間判定部が判定した区間の音響信号について音声認識を行う音声認識部１９と、を備える。

この構成によって、車両の状態に基づく閾値を用いて発話区間を検出することができる。これにより、本実施形態では、車両の状態に応じたノイズより大きい音声信号を抽出することができる。この結果、本実施形態の音声認識装置１は、車両の状態応じて発生するノイズの影響を低減することができる。

また、本実施形態の音声認識装置１において、車両の状態は、車両の走行状態および車両の動作状態のうち、少なくとも１つの状態である。
この構成によって、本実施形態では、車両の走行状態または動作状態のうちの少なくとも１つの状態に応じた閾値を用いて、音源の発話区間を検出することができる。本実施形態では、このように検出された発話区間の音声信号の音声認識を行うことで、車両の走行状態または動作状態のうちの少なくとも１つの状態に応じたノイズより大きい音声信号を抽出することができる。この結果、本実施形態の音声認識装置１は、車両の走行状態または動作状態のうちの少なくとも１つの状態応じて発生するノイズの影響を低減することができる。

また、本実施形態の音声認識装置１において、車両の走行状態は、車速に基づく状態であり、車両の動作状態は、パワーウィンド２３１の開閉状態、ドア２３２の開閉状態、およびワイパー２３３の動作状態のうち、少なくとも１つの状態である。

この構成によって、本実施形態では、車速に基づく状態、パワーウィンドの開閉状態、ドアの開閉状態、およびワイパーの動作状態のうち、少なくとも１つの状態に応じた閾値を用いて、音源の発話区間を検出することができる。本実施形態では、このように検出された発話区間の音声信号の音声認識を行うことで、車速に基づく状態、パワーウィンドの開閉状態、ドアの開閉状態、およびワイパーの動作状態のうちの少なくとも１つの状態に応じたノイズより大きい音声信号を抽出することができる。この結果、本実施形態の音声認識装置１は、車速に基づく状態、パワーウィンドの開閉状態、ドアの開閉状態、およびワイパーの動作状態のうちの少なくとも１つの状態応じて発生するノイズの影響を低減することができる。

また、本実施形態の音声認識装置１は、音源定位部１３によって音源定位された結果に基づいて、運転席２０１に着席する運転者と、助手席２０２に着席する乗員の音声信号を分離する音源分離部１４、を備え、音声認識部１９は、音源分離部によって分離された運転者または乗員の音声信号それぞれについて、空間スペクトルのパワーが、車両の状態に基づく所定の閾値を超えた区間を判定する。

この構成によって、本実施形態では、音源分離された運転者または乗員の発話のうち、閾値以上の発話の区間の音声信号を用いて音声認識を行うことで、車両の状態応じて発生するノイズの影響を低減することができる。

また、本実施形態の音声認識装置１において、所定の閾値（Ｔ_ｄ（ｖ）またはＴ_ｐ（ｖ））は、車速ｖと、車両２の動作状態と、運転者または乗員の音源とに対応付けられている。
この構成によって、本実施形態では、車速毎かつ車両の動作状態毎かつ運転者または乗員毎の閾値を用いて、運転者または乗員の発話区間を適切に検出することができる。本実施形態では、このように検出された発話区間の音声信号の音声認識を行うことで、車両の状態に応じたノイズより大きい音声信号を抽出することができる。この結果、本実施形態の音声認識装置１は、車両の状態応じて発生するノイズの影響を低減することができる。

また、本実施形態の音声認識装置１において、所定の閾値（Ｔ_ｄ（ｖ）またはＴ_ｐ（ｖ））は、運転者の音源に対する所定の閾値の方が、乗員の音源に対する所定の閾値より大きい。
この構成によって、本実施形態では、運転者の音声を乗員の音声より優先して音声認識することができる。

なお、本実施形態の音声認識装置１の一部または全ての構成要素を、スマートフォン、携帯端末、携帯ゲーム機器等によって実現してもよい。

また、本実施形態では、音声認識装置１が車両２に取り付けられている例を説明したが、これに限られない。雑音成分と発話のパワーの関係が搭載される装置の状態によって変化する環境であればよく、例えば列車、飛行機、船舶、家の部屋、店舗等に音声認識装置１を適用することも可能である。

なお、本発明における音声認識装置１の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声区間の検出、音声認識塔を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１…音声認識装置、２…車両、１０…収音部、１１…音声信号取得部、１２…伝達関数記憶部、１３…音源定位部、１４…音源分離部、１５…動作情報取得部、１６…閾値記憶部、１７…音声区間判定部、１８…特徴量算出部、１９…音声認識部、２０…走行装備、２１…走行制御部、２２…走行機構、２３…走行状態検出部、３０…車載用装置、３１…動作制御部、３２…動作機構、３３…動作状態検出部、４０…動作情報出力部、５１…操作入力部、５２…操作入力部、Ｔ_ｐ（ｖ）…運転者の発話に対する閾値、Ｔ_ｐ（ｖ）…乗員の発話に対する閾値

Claims

音響信号を収音する収音部と、
前記収音部によって収音された前記音響信号から空間スペクトルを算出し、算出した前記空間スペクトルを用いて音源定位を行う音源定位部と、
音声区間を判定するための閾値と車両の状態との関係は非線形の関数であり、前記閾値を前記車両の状態毎に表形式で記憶する閾値記憶部と、
前記車両の状態に対応する閾値を前記閾値記憶部から読み出し、前記音源定位部によって算出された前記空間スペクトルのパワーが、前記閾値記憶部から読み出した前記閾値を超えた区間を判定する音声区間判定部と、
前記音声区間判定部が判定した区間の音響信号について音声認識を行う音声認識部と、
を備え、
前記閾値記憶部は、運転席に着席する運転者の音声信号に対応する閾値と、助手席に着席する乗員の音声信号に対応する閾値を、それぞれ表形式で記憶し、
前記音源定位部によって音源定位された結果に基づいて、前記運転者の音声信号と前記乗員の音声信号を分離する音源分離部、を備え、
前記音声区間判定部は、
前記音源分離部によって分離された音声信号が前記運転者の音声信号の場合、前記運転者の音声信号に対応する閾値の中から前記車両の状態に対応する閾値を読み出し、前記空間スペクトルのパワーが、前記運転者の音声信号に対応する閾値の中から前記車両の状態に対応する前記閾値を超えた区間を判定し、
前記音源分離部によって分離された音声信号が前記乗員の音声信号の場合、前記乗員の音声信号に対応する閾値の中から前記車両の状態に対応する閾値を読み出し、前記空間スペクトルのパワーが、前記乗員の音声信号に対応する閾値の中から前記車両の状態に対応する前記閾値を超えた区間を判定する、音声認識装置。
前記車両の状態は、
前記車両の走行状態および前記車両の動作状態のうち、少なくとも１つの状態である請求項１に記載の音声認識装置。
前記車両の走行状態は、車速に基づく状態であり、
前記車両の動作状態は、パワーウィンドの開閉状態、ドアの開閉状態、およびワイパーの動作状態のうち、少なくとも１つの状態である請求項１または請求項２に記載の音声認識装置。
前記所定の閾値は、
車速と、前記車両の動作状態と、前記運転者または前記乗員の音源とに対応付けられている請求項１に記載の音声認識装置。
前記所定の閾値は、
前記運転者の音源に対する前記所定の閾値の方が、前記乗員の音源に対する前記所定の閾値より大きい請求項１または請求項４に記載の音声認識装置。
音声区間を判定するための閾値と車両の状態との関係は非線形の関数であり、音声区間を判定するための閾値を車両の状態毎に表形式で記憶する閾値記憶部を有し、前記閾値記憶部は、運転席に着席する運転者の音声信号に対応する閾値と、助手席に着席する乗員の音声信号に対応する閾値を、それぞれ表形式で記憶する音声認識装置における音声認識方法であって、
収音部が、音響信号を収音する収音手順と、
音源定位部が、前記収音手順によって収音された前記音響信号から空間スペクトルを算出し、算出した前記空間スペクトルを用いて音源定位を行う音源定位手順と、
音声区間判定部が、前記車両の状態に対応する閾値を前記閾値記憶部から読み出す閾値読出手順と、
前記音声区間判定部が、前記音源定位手順によって算出された前記空間スペクトルのパワーが、前記閾値読出手順によって読み出した前記閾値を超えた区間を判定する音声区間判定手順と、
音声認識部が、前記音声区間判定手順が判定した区間の音響信号について音声認識を行う音声認識手順と、
音源分離部が、前記音源定位手順によって音源定位された結果に基づいて、前記運転者の音声信号と前記乗員の音声信号を分離する音源分離手順と、
を含み、
前記音声区間判定手順は、
前記音源分離手順によって分離された音声信号が前記運転者の音声信号の場合、前記運転者の音声信号に対応する閾値の中から前記車両の状態に対応する閾値を読み出し、前記空間スペクトルのパワーが、前記運転者の音声信号に対応する閾値の中から前記車両の状態に対応する前記閾値を超えた区間を判定し、
前記音源分離手順によって分離された音声信号が前記乗員の音声信号の場合、前記乗員の音声信号に対応する閾値の中から前記車両の状態に対応する閾値を読み出し、前記空間スペクトルのパワーが、前記乗員の音声信号に対応する閾値の中から前記車両の状態に対応する前記閾値を超えた区間を判定する、
音声認識方法。