JP6833147B2

JP6833147B2 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: JP6833147B2
Application number: JP2020564014A
Authority: JP
Inventors: 政人土屋; 利行花澤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2021-02-24
Anticipated expiration: 2039-01-11
Also published as: JPWO2020144857A1; WO2020144857A1

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。

複数の信号を入力として何らかの認識処理結果等を出力させる方式をマルチモーダルという。一般的に一つの信号のみを用いて処理を行うユニモーダルと比べてマルチモーダルはシステムとしての性能が高くなり、信号ノイズに対してロバストになる傾向がある。

例えば、音響信号と、画像信号とを用いているシステムであれば、音響雑音が強い場合は、より画像信号を用いて認識するように処理することでロバストな認識結果を得ることができる。このような機構は適応型ノイズ抑圧と呼ばれる。

従来の適応型ノイズ抑圧の手法には、例えば、特許文献１に記載されているように、汎用的なデータセットで学習したモデルに対して、使用する環境でのノイズを含む信号で誤認識が少なくなるように再学習させる手法がある。

特開２００２−１６９５８６号公報

しかしながら、従来の手法は、例えば、既存の人検出技術を組み合わせ、「近辺に音響雑音となりうる人がいなければ画像信号は使用しない方が良い」等といった人間の事前知識を組み込んで、信号の信頼性を調整するような柔軟なシステム設計を行うのは困難である。

そこで、本発明の１又は複数の態様は、信号の信頼性を判定することにより、よりノイズ環境下に強い信号処理を行うことができるようにすることを目的とする。

本発明の１態様に係る情報処理装置は、対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部と、前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部と、前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部と、前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部と、前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部と、を備える情報処理装置であって、前記情報処理装置は、車に搭載され、前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすることを特徴とする。

本発明の１態様に係るプログラムは、コンピュータを、対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部、前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部、前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部、前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部、及び、前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部、として機能させるプログラムであって、前記コンピュータは、車に搭載され、前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすることを特徴とする。

本発明の１態様に係る情報処理方法は、車に乗っている対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出し、前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出し、前記車の速度が早いほど、前記音声信号の信頼性を示す音声信頼性を低く判定し、及び、前記車に搭乗している搭乗者の数が多いほど、前記画像信号の信頼性を示す画像信頼性を低く判定し、前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出し、前記音声信号に対して、前記発話区間において音声認識を実行することを特徴とする。

本発明の一態様によれば、信号の信頼性を判定することにより、よりノイズ環境下に強い信号処理を行うことができる。

実施の形態に係る音声認識装置の構成を概略的に示すブロック図である。実施の形態に係る音声認識装置を含む、車載用の音声認識システムの概略図である。環境情報判定部の構成を概略的に示すブロック図である。一人の搭乗者の発話リストの一例を示す概略図である。実施の形態に係る音声認識装置のハードウェア構成を概略的に示すブロック図である。実施の形態に係る音声認識装置の動作の流れを示すフローチャートである。

図１は、実施の形態に係る情報処理装置である音声認識装置１００の構成を概略的に示すブロック図である。
音声認識装置１００は、インターフェース部（以下、Ｉ／Ｆ部という）１０１と、音声信号処理部１０２と、音声発話尤度算出部１０３と、画像発話尤度算出部１０４と、環境情報判定部１０５と、発話区間検出部１０８と、音声認識部１０９とを備える。

実施の形態に係る音声認識装置１００は、例えば、図２に示されているように、車載用の音声認識システム１２０に含まれる。
音声認識システム１２０は、音声認識装置１００と、集音装置としてのＮ個のマイクロホン１２１_１、１２１_２、・・・、１２１_Ｎと、撮像装置としてのカメラ１２２と、車速計１２３とを備える。本実施の形態では、音声認識システム１２０は、搭乗者をモニタリングするためのカメラ１２２が搭載された車内環境における車載音声認識システムとなっている。
ここで、Ｎは、１以上の整数である。本実施の形態では、Ｎは、音声認識システム１２０が搭載されている車１３０に設けられている座席数Ｍ（Ｍは１以上の整数）以上の数となっている。図２の例では、Ｎ≧Ｍ、Ｍ＝４となっている。
マイクロホン１２１_１、１２１_２、・・・、１２１_Ｎの各々を特に区別する必要がない場合には、マイクロホン１２１という。

マイクロホン１２１は、車１３０内の音声を示すアナログ信号である音声アナログ信号を生成する。
本実施の形態においては、１つのマイクロホン１２１は、無指向性のマイクロホンであり、Ｎ個のマイクロホン１２１_１、１２１_２、・・・、１２１_Ｎを一定間隔に配置することにより、アレイマイクが構成されているものとする。そして、Ｎ個のマイクロホン１２１_１、１２１_２、・・・、１２１_Ｎにより、車１３０のＭ人の搭乗者の音声を取得したＮ個の音声アナログ信号Ｓ_１、Ｓ_２、・・・、Ｓ_Ｎが取得される。言い換えると、音声アナログ信号Ｓ_１、Ｓ_２、・・・、Ｓ_Ｎは、マイクロホン１２１_１、１２１_２、・・・、１２１_Ｎと一対一に対応する。

なお、マイクロホン１２１の構成は、このような例に限定されない。マイクロホン１２１は、車１３０の搭乗者の音声を示す音声信号を生成することができれば、どのような構成であってもよい。例えば、１つのマイクロホンを指向性のマイクロホンとして、Ｎ個のマイクロホン１２１_１、１２１_２、・・・、１２１_Ｎが、車１３０の座席の前に配置されてもよい。また、マイクロホン１２１の設置場所は、座席に着座する全ての搭乗者の音声を取得できる場所であれば、どの場所でもよい。

カメラ１２２は、搭乗者をモニタリングするために、車１３０内の画像を示す画像信号Ｖを生成する。
カメラ１２２は、車１３０内の搭乗者の顔が撮影されるような画角を有する向きに設置されている。カメラ１２２は、可視光カメラでもよく、赤外線カメラでもよい。カメラ１２２として赤外線カメラが使用される場合には、付近に設置された発光ダイオード（図示せず）から、搭乗者に赤外線を照射し、その反射光を観測するタイプのアクティブ型であってもよい。
なお、全搭乗者の顔を撮像するために、複数のカメラ１２２が車１３０内に設置されていてもよい。

車速計１２３は、車１３０の走行速度を計測する計測器であり、車１３０の走行速度を示す速度情報Ｃを生成する。例えば、車速計１２３は、ドアメーター等の車載モジュールが接続されたＣＡＮバスと呼ばれる通信線を通じて、車１３０の運行を制御するシステムから車速を取得することができる。

図１に戻り、Ｉ／Ｆ部１０１は、マイクロホン１２１から音声アナログ信号Ｓ_１〜Ｓ_Ｎ、カメラ１２２から画像信号Ｖ、及び、車速計１２３から速度情報Ｃの入力を受け付ける。そして、Ｉ／Ｆ部１０１は、マイクロホン１２１からの音声アナログ信号Ｓ_１〜Ｓ_Ｎを音声信号処理部１０２に与え、カメラ１２２からの画像信号Ｖを画像発話尤度算出部１０４及び環境情報判定部１０５に与え、車速計１２３からの速度情報Ｃを環境情報判定部１０５に与える。

音声信号処理部１０２は、マイクロホン１２１により出力された音声アナログ信号Ｓ_１〜Ｓ_Ｎのそれぞれに対して、アナログ／デジタル変換（以下「Ａ／Ｄ変換」を行うことで、音声デジタル信号を生成する。そして、音声信号処理部１０２は、音声デジタル信号に対して、音声認識を行う対象となる搭乗者の発話音声を強調する処理である音声信号処理を行うことで、音声信号ＳＳ_１〜ＳＳ_Ｍを生成する。

なお、以下では、Ｍ人の搭乗者のうち、音声認識を行う対象となる搭乗者を、対象者とする。
また、１〜Ｍの整数の各々は、１つの座席に対応付けられているものとする。「１」の下付き文字が付された要素、例えば、音声信号ＳＳ_１は、「１」で識別される座席に対応付けられているものとする。このため、音声信号ＳＳ_１は、「１」で識別される座席の搭乗者に対応付けられているともいえる。なお、符号ｉは、１以上、Ｍ以下の任意の整数とする。

音声信号処理部１０２は、Ｎ個の音声デジタル信号の各々に含まれている成分のうち、対象者が発話した音声と異なる音声に対応する成分（以下「ノイズ成分」という。）を除去する。また、後段の音声認識部１０９で、Ｍ人の搭乗者の各々を対象者として、独立して音声認識を実行できるように、Ｍ個の音声認識対象座席の各々に着座したＭ人の搭乗者の各々の音声のみを、それぞれ抽出したＭ個の音声信号ＳＳ_１〜ＳＳ_Ｍを生成する。そして、音声信号処理部１０２は、生成された音声信号ＳＳ_１〜ＳＳ_Ｍを、音声発話尤度算出部１０３、環境情報判定部１０５及び音声認識部１０９に与える。

ノイズ成分は、例えば、車１３０の走行により発生した騒音に対応する成分、及び、対象者以外の搭乗者により発話された音声に対応する成分等を含むものである。音声信号処理部１０２におけるノイズ成分の除去には、ビームフォーミング法、バイナリマスキング法、又は、スペクトルサブトラクション法等の公知の種々の方法を用いることができる。このため、音声信号処理部１０２におけるノイズ成分の除去についての詳細な説明は省略する。

なお、音声信号処理部１０２は、独立成分分析等のブラインド音声分離技術を利用することで、Ｎ個の音声デジタル信号からＭ個の音声信号ＳＳ_１〜ＳＳ_Ｍを分離してもよい。但し、このブラインド音声分離技術を利用する場合は、搭乗者数に対応する音源数が必要となるため、例えば、画像発話尤度算出部１０４が、カメラ１２２から得られる画像信号Ｖで示される画像から搭乗者数を検知して、音声信号処理部１０２に伝える必要がある。なお、画像信号Ｖが音声信号処理部１０２に入力されて、音声信号処理部１０２が搭乗者数を検知してもよい。

音声発話尤度算出部１０３は、音声認識の前処理として発話区間検出を行うために、音声信号ＳＳ_１〜ＳＳ_Ｍのそれぞれから、音声信号ＳＳ_１〜ＳＳ_Ｍのそれぞれにおいて対象者が発話している確率を示す音声発話尤度を算出する。音声発話尤度は、音声に基づく発話らしさを示す確率でもある。

音声発話尤度の算出方法は、過去様々な手法が提案されてきた。例えば、発話時と非発話時のＳＴＦＴ（Ｓｈｏｒｔ−ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）スペクトル及びＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）係数を、それぞれＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）で学習し、音声信号を各ＧＭＭへ入力した際の、音響の対数尤度Ｓｃｏｒｅを音声発話尤度とする方法等がある。音声発話尤度算出部１０３は、Ｍ人の搭乗者のそれぞれに対応する音声信号ＳＳ_１〜ＳＳ_Ｍから、Ｍ人の搭乗者のそれぞれに対応する音声発話尤度ＡＦ_１〜ＡＦ_Ｍを算出する。算出された音声発話尤度ＡＦ_１〜ＡＦ_Ｍは、発話区間検出部１０８に与えられる。

画像発話尤度算出部１０４は、音声発話尤度算出部１０３と同じように発話区間検出を行うために、画像信号Ｖにおいて対象者が発話している確率を示す画像発話尤度を、その画像信号Ｖから算出する。画像発話尤度は、画像に基づく発話らしさを示す確率でもある。

画像発話尤度の算出方法は、例えば、顔パーツ辞書の勾配ベクトルの分布を学習し、複数の学習モデルを組み合わせて口の開き具合を算出した開口度を、画像発話尤度とする方法等がある。なお、画像発話尤度算出部１０４も、Ｍ人の搭乗者のそれぞれに対応する画像発話尤度ＶＦ_１〜ＶＦ_Ｍを生成する。そして、画像発話尤度算出部１０４は、生成された画像発話尤度ＶＦ_１〜ＶＦ_Ｍを、発話区間検出部１０８に与える。

環境情報判定部１０５は、音声信号処理部１０２から受け取った、搭乗者の発話が強調された音声信号ＳＳ_１〜ＳＳ_Ｍ、カメラ１２２から受け取った画像信号Ｖ、及び、車速計１２３から受け取った速度情報Ｃから、音声信号ＳＳ_１〜ＳＳ_Ｍの信頼性Ｘ_１〜Ｘ_Ｍ（以下、音声信頼性ともいう）及び画像信号Ｖの信頼性Ｙ_１〜Ｙ_Ｍ（以下、画像信頼性ともいう）を算出する。

図３は、環境情報判定部１０５の構成を概略的に示すブロック図である。
環境情報判定部１０５は、搭乗者有無判定部１０６と、信頼性判定部１０７とを備える。

搭乗者有無判定部１０６は、画像信号Ｖで示される画像から、車１３０に設けられている座席毎に人の有無を判定し、その座席毎に人の有無を示すバイナリ信号である搭乗者有無判定結果信号Ｅ_１〜Ｅ_Ｍを生成する。搭乗者有無判定部１０６は、人の有無の判定結果を示すバイナリ信号である搭乗者有無判定結果信号Ｅ_１〜Ｅ_Ｍを信頼性判定部１０７に与える。

人の有無を判定する手段は、人検出アルゴリズムとして過去多数提案されており、それら既存技術を用いることができる。搭乗者有無判定部１０６は、画像信号Ｖの代わりに、座席に設けられた体重計（図示せず）で検出された検出値である体重を示す体重情報を受け取り、その体重情報に基づいて、各座席に搭乗者が存在しているかを判断してもよい。

信頼性判定部１０７は、搭乗者有無判定部１０６からの搭乗者有無判定結果信号Ｅ_１〜Ｅ_Ｍ、車速計１２３からの速度情報Ｃ、及び、音声信号処理部１０２からの音声信号ＳＳ_１〜ＳＳ_Ｍを受け取り、音声信号ＳＳ_１〜ＳＳ_Ｍ及び画像信号Ｖのそれぞれの信頼性Ｘ_１〜Ｘ_Ｍ、Ｙ_１〜Ｙ_Ｍを算出する。

ここで、信頼性Ｘ_１〜Ｘ_Ｍは、音声信号ＳＳ_１〜ＳＳ_Ｍに対する信頼性、信頼性Ｙ_１〜Ｙ_Ｍは、画像信号Ｖに対する信頼性を表すパラメータである。
各信号の信頼性Ｘ_１〜Ｘ_Ｍ、Ｙ_１〜Ｙ_Ｍは、例えば以下のような算出方式が考えられる。

時刻ｔの音声信号ＳＳ_１〜ＳＳ_Ｍの信頼性Ｘ_１，ｔ〜Ｘ_Ｍ，ｔは、車が速度を上げるほど音声に雑音が入り込みやすくなっていくことを考慮し、信頼性判定部１０７は、車の速度が速いほど、信頼性Ｘ_１，ｔ〜Ｘ_Ｍ，ｔを低くする。例えば、時刻ｔの車速計の値Ｃｔに負の指数関数として比例すると仮定した場合、以下の（１）式により、信頼性Ｘ_１，ｔ〜Ｘ_Ｍ，ｔを算出することができる。

また、対象となる搭乗者以外の搭乗者がいれば、当然、認識対象ではない発話が増え、音声信号ＳＳ_１〜ＳＳ_Ｍの信頼性が下がり、相対的に画像信号Ｖの信頼性はあがると考えられる。このため、信頼性判定部１０７は、車１３０に搭乗している搭乗者の数が多いほど、信頼性Ｙ_１，ｔ〜Ｙ_Ｍ，ｔを低くする。例えば、信頼性判定部１０７は、下記に示されている（２）式及び（３）式により、信頼性Ｙ_１，ｔ〜Ｙ_Ｍ，ｔを算出する。

但し、ｊは、搭乗者の各々を識別する識別番号であり、ここでは、ｊ＝１，２，・・・，Ｍである。また、δ（ｉ≠ｊ）は、搭乗者ｉと搭乗者ｊとが異なる場合のみ１になる関数である。

図１に戻り、発話区間検出部１０８は、音声発話尤度ＡＦ_１〜ＡＦ_Ｍ、画像発話尤度ＶＦ_１〜ＶＦ_Ｍ、信頼性Ｘ_１〜Ｘ_Ｍ、及び、信頼性Ｙ_１〜Ｙ_Ｍから、対象者毎に、発話が行われている区間の時刻を推定し、対象者毎に発話が行われている区間の時刻を示す区間情報である発話リストを生成する。例えば、発話区間検出部１０８は、対応する信頼性Ｘ_ｉが高いほど対応する音声発話尤度ＡＦ_ｉの重みを重くし、対応する画像信頼性Ｙ_ｉが高いほど対応する画像発話尤度ＶＦ_ｉの重みを重くして、対応する音声発話尤度ＡＦ_ｉ及び対応する画像発話尤度ＶＦ_ｉを用いて、対応する音声信号ＳＳ_ｉ及び画像信号Ｖにおいて対象者が発話している確率を示す発話尤度を算出し、算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する。そして、発話区間検出部１０８は、生成された区間情報を音声認識部１０９に与える。

発話が行われている区間の時刻の推定は、以下のように行われる。
まず、発話区間検出部１０８は、下記の（４）式及び（５）式に示されているソフトマックス関数に従って、搭乗者ｉ及び時刻ｔにおける信頼性Ｘ_ｉ，ｔ，Ｙ_ｉ，ｔから、搭乗者ｉ及び時刻ｔにおける各信号への重みＷ_ｉ，t ^Ａ及び重みＷ_ｉ，t ^Ｖを算出する。Ｗ_ｉ，t ^Ａは、音声信号ＳＳ_ｉの重みとしての音声重み、Ｗ_ｉ，t ^Ｖは、画像信号Ｖの重みとしての画像重みである。

次に、発話区間検出部１０８は、最終的な発話尤度Ｓ_{（ｉ，ｔ）}を算出する。発話尤度Ｓ_{（ｉ，ｔ）}は、時刻ｔにおいて、搭乗者ｉが発話している確率である。発話尤度Ｓ_{（ｉ，ｔ）}は、下記の（６）式のように、時刻ｔの音声発話尤度ＡＦ_ｉ，ｔ及び画像発話尤度ＶＦ_ｉ，ｔに重みを乗算した値から求まるものとする。

（６）式によれば、音声信頼性が高いほど重みが大きくなる音声重みを音声発話尤度に乗算した値と、画像信頼性が高いほど重みが大きくなる画像重みを画像発話尤度に乗算した値とを乗算することで、発話尤度が算出される。

発話区間検出部１０８は、こうして算出された発話尤度Ｓ_{（ｉ，ｔ）}に対して、予め定められた閾値以上の区間を発話している区間として検出することにより、搭乗者毎の発話リストＵ_１〜Ｕ_Ｍを生成することができる。
図４は、一人の搭乗者の発話リストＵの一例を示す概略図である。
発話リストＵ＃は、発話区間列Ｕ＃１と、始端時刻列Ｕ＃２と、終端時刻列Ｕ＃３とを備えるテーブル情報である。
発話区間列Ｕ＃１は、検出された発話区間を識別するための発話区間識別情報を格納する。
始端時刻列Ｕ＃２は、検出された発話区間の開始時刻を示す。
終端時刻列Ｕ＃３は、検出された発話区間の終了時刻を示す。

発話区間検出部１０８が最終的な発話尤度Ｓ_{（ｉ，ｔ）}を算出する方法については、上記の（６）式に限定されない。例えば、発話尤度Ｓ_{（ｉ，ｔ）}を過去の状態列、音声発話尤度及び画像発話尤度に重みを乗算した値、並びに、状態遷移テーブルσから求まるものとした場合、発話区間検出部１０８は、下記の（７）式により、発話尤度Ｓ_{（ｉ，ｔ）}を算出することができる。

但し、状態遷移テーブルσは、過去の状態遷移列と、現在の音声発話尤度及び画像発話尤度とから一意な状態を返す関数であるものとする。
このため、（７）式によれば、音声信頼性が高いほど重みが大きくなる音声重みを音声発話尤度に乗算した値、画像信頼性が高いほど重みが大きくなる画像重みを画像発話尤度に乗算した値、及び、過去に算出された発話尤度を変数とする予め定められた関数から、発話尤度が算出されることになる。

音声認識部１０９は、対象者毎に、対応する音声信号ＳＳ_１〜ＳＳ_Ｍに対して、対応する発話リストＵ_１〜Ｕ_Ｍで示される発話区間において、音声認識を実行する。音声認識は、例えば、音声認識用の特徴量を抽出し、抽出された特徴量を用いることで行われる。

音声認識処理には、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）等の公知の種々の音響モデルを用いることができる。なお、音声認識部１０９は、各搭乗者を対象者として、独立して音声認識を実行し、搭乗者毎に、発話区間を検出した音声認識結果と音声認識結果の信頼度（以下、音声認識スコアという）とを出力する。
なお、音声認識スコアは、音響モデルの出力確率と言語モデルの出力確率との双方を考慮した値でもよいし、音響モデルの出力確率のみの音響スコアであってもよい。

なお、音声認識装置１００の構成要素は、ネットワーク上のサーバ、スマートフォン等の携帯端末、又は、車載器に分散されてもよい。

図５は、実施の形態に係る音声認識装置１００のハードウェア構成を概略的に示すブロック図である。
音声認識装置１００のハードウェアは、メモリ１５０と、プロセッサ１５１と、音声インターフェース（以下、音声Ｉ／Ｆという）１５２と、画像インターフェース（以下、画像Ｉ／Ｆという）１５３と、車状態インターフェース（以下、車状態Ｉ／Ｆという）１５４と、ネットワークインターフェース（以下、ネットワークＩ／Ｆという）１５５とを備えるコンピュータで実現できる。

メモリ１５０は、音声信号処理部１０２、音声発話尤度算出部１０３、画像発話尤度算出部１０４、環境情報判定部１０５、発話区間検出部１０８及び音声認識部１０９として機能するプログラムが記憶されている。メモリ１５０は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）若しくはＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）等の半導体メモリ、又は、磁気ディスク、光ディスク若しくは光磁気ディスク等を用いた記憶装置である。

プロセッサ１５１は、メモリ１５０からの音声信号処理部１０２、音声発話尤度算出部１０３、環境情報判定部１０５、画像発話尤度算出部１０４、発話区間検出部１０８及び音声認識部１０９として機能するプログラムを読み出し、そのプログラムを実行する。プロセッサ１５１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロプロセッサ、マイクロコントローラ又はＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等である。

音声Ｉ／Ｆ１５２は、マイクロホン１２１からの音声アナログ信号Ｓ_１〜Ｓ_Ｍをマルチチャネルで受けとるための音声入力インターフェースである。また、音声認識結果として、車又はエアコンを搭乗員と対話的に制御するための自然言語をスピーカー（図示せず）から出力する場合には、音声Ｉ／Ｆ１５２は、音声出力インターフェースとしても機能する。スピーカーによる出力を必要としない構成となっていれば、音声出力インターフェースとしての機能は不要である。

画像Ｉ／Ｆ１５３は、カメラ１２２からの画像信号Ｖを受け取るための画像入力インターフェースである。また、音声認識部１０９の最終的な音声認識結果を受けて搭乗員に必要な情報をモニタ等の表示装置（図示せず）を使ってテキスト又は画像表示で通知する場合には、画像Ｉ／Ｆ１５３は、画像出力インターフェースとしても機能する。表示装置での表示を必要としない構成となっていれば、画像出力インターフェースとしての機能は不要である。

車状態Ｉ／Ｆ１５４は、車速計１２３が測定した速度情報Ｃを受け取るための入力インターフェースである。また、車状態Ｉ／Ｆ１５４は、車速に限らずドアの開閉状態等の車の現在の状態に関する情報を取得することもできる。

ネットワークＩ／Ｆ１５５は、音声認識部１０９を使用する代わりにインターネットのクラウド上で公開されている音声認識サービスを利用して音声認識を実行する際に、通信するためのインターフェースである。また、ネットワークＩ／Ｆ１５５は、コネクテッドカーとして近辺の車とＰ２Ｐ（ＰｅｅｒｔｏＰｅａｒ）通信を行ったり、基地局と通信しナビゲーションを実行したりするため等に利用するインターフェースでもある。ネットワークＩ／Ｆ１５５は、通信を必要としない構成となっていれば、不要である。

図１に示されているＩ／Ｆ部１０１は、音声Ｉ／Ｆ１５２、画像Ｉ／Ｆ１５３、車状態Ｉ／Ｆ１５４又はネットワークＩ／Ｆ１５５により実現することができる。

なお、図５において、メモリ１５０は、音声認識装置１００の内部に配置されているが、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の外部メモリを接続して、プログラム又はデータを読み込むように構成してもよい。また、装置内のメモリ及び外部メモリを共に使用する構成としてもよい。

図６は、実施の形態に係る音声認識装置１００の動作の流れを示すフローチャートである。
まず、音声信号処理部１０２は、マイクロホン１２１からの音声アナログ信号Ｓ_１〜Ｓ_Ｎに対して、Ａ／Ｄ変換を行うことで、音声デジタル信号を生成し、その音声デジタル信号に対して、音声を取得する対象者の発話音声を強調して、音声信号ＳＳ_１〜ＳＳ_Ｍを生成する（Ｓ１０）。例えば、車１３０内に運転席、助手席、後席左、後席右に４人の搭乗者が着座しており、その全ての座席が音声認識対象座席であるとすると、音声信号処理部１０２は、これら４つの方向からの音声をそれぞれ強調する。音声信号処理部１０２は、音声信号ＳＳ_１〜ＳＳ_Ｍを音声発話尤度算出部１０３、環境情報判定部１０５及び音声認識部１０９に与える。

次に、音声発話尤度算出部１０３は、音声信号ＳＳ_１〜ＳＳ_Ｍのそれぞれから音声発話尤度ＡＦ_１〜ＡＦ_Ｍを算出する（Ｓ１１）。
次に、画像発話尤度算出部１０４は、画像信号Ｖで示される画像から画像発話尤度ＶＦ_１〜ＶＦ_Ｍを算出する（Ｓ１２）。

次に、環境情報判定部１０５は、音声信号処理部１０２から受け取った、搭乗者の発話が強調された音声信号ＳＳ_１〜ＳＳ_Ｍ、カメラ１２２から受け取った画像信号Ｖ、及び、車速計１２３から受け取った速度情報Ｃから、音声信号ＳＳ_１〜ＳＳ_Ｍの音声信頼性Ｘ_１〜Ｘ_Ｍ及び画像信号Ｖの画像信頼性Ｙ_１〜Ｙ_Ｍを算出する（Ｓ１３）。

次に、発話区間検出部１０８は、音声発話尤度ＡＦ_１〜ＡＦ_Ｍ、画像発話尤度ＶＦ_１〜ＶＦ_Ｍ、音声信頼性Ｘ_１〜Ｘ_Ｍ及び画像信頼性Ｙ_１〜Ｙ_Ｍから、搭乗者毎に、発話が行われている区間の時刻を推定し、搭乗者毎に発話が行われている発話区間を検出する（Ｓ１４）。そして、発話区間検出部１０８は、検出された発話区間の開始時刻と終了時刻とを含む発話リストＵ_１〜Ｕ_Ｍを音声認識部１０９に与える。

音声認識部１０９は、対象者に対応する音声信号ＳＳ_ｉに対して、対象者に対応する発話リストＵ_ｉで示される発話区間において、音声認識用の特徴量を抽出し、抽出された特徴量を用いて音声認識を実行する（Ｓ１５）。そして、音声認識部１０９は、音声認識結果を出力する。

以上のように、本実施の形態によれば、信号の信頼性を判定することにより、よりノイズ環境下に強い信号処理を行うことができる。

以上に記載された音声認識装置１００は、ナビゲーションシステム、運転者用のメータディスプレイも含む統合コックピットシステム、ＰＣ、タブレットＰＣ、又は、スマートフォン等の携帯情報端末に適用することができる。

１００音声認識装置、１０１Ｉ／Ｆ部、１０２音声信号処理部、１０３音声発話尤度算出部、１０４画像発話尤度算出部、１０５環境情報判定部、１０６搭乗者有無判定部、１０７信頼性判定部、１０８発話区間検出部、１０９音声認識部、１２０音声認識システム、１２１マイクロホン、１２２カメラ、１２３車速計、１３０車。

Claims

対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部と、
前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部と、
前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部と、
前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部と、
前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部と、を備える情報処理装置であって、
前記情報処理装置は、車に搭載され、
前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすること
を特徴とする情報処理装置。
マイクロホンから入力された音声アナログ信号に対して、アナログ／デジタル変換を行うことにより音声デジタル信号を生成し、前記音声デジタル信号から、ノイズ成分を除去することにより前記音声信号を生成する音声信号処理部をさらに備えること
を特徴とする請求項１に記載の情報処理装置。
前記環境情報判定部は、前記画像信号で示される前記画像から前記搭乗者の数を検出すること
を特徴とする請求項１に記載の情報処理装置。
前記環境情報判定部は、前記車の座席に設置されている体重計の検出値により、前記搭乗者の数を検出すること
を特徴とする請求項１に記載の情報処理装置。
前記発話区間検出部は、前記音声信頼性が高いほど重みが大きくなる音声重みを前記音声発話尤度に乗算した値と、前記画像信頼性が高いほど重みが大きくなる画像重みを前記画像発話尤度に乗算した値とを乗算することで、前記発話尤度を算出すること
を特徴とする請求項１から４の何れか一項に記載の情報処理装置。
前記発話区間検出部は、前記音声信頼性が高いほど重みが大きくなる音声重みを前記音声発話尤度に乗算した値、前記画像信頼性が高いほど重みが大きくなる画像重みを前記画像発話尤度に乗算した値、及び、過去に算出された前記発話尤度を変数とする予め定められた関数から、前記発話尤度を算出すること
を特徴とする請求項１から４の何れか一項に記載の情報処理装置。
コンピュータを、
対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出する音声発話尤度算出部、
前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出する画像発話尤度算出部、
前記音声信号の信頼性を示す音声信頼性、及び、前記画像信号の信頼性を示す画像信頼性を判定する環境情報判定部、
前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出する発話区間検出部、及び、
前記音声信号に対して、前記発話区間において音声認識を実行する音声認識部、として機能させるプログラムであって、
前記コンピュータは、車に搭載され、
前記環境情報判定部は、前記車の速度が速いほど、前記音声信頼性を低くし、前記車に搭乗している搭乗者の数が多いほど、前記画像信頼性を低くすること
を特徴とするプログラム。
車に乗っている対象者の音声を含む音声信号から、前記音声信号において前記対象者が発話している確率を示す音声発話尤度を算出し、
前記対象者を含む画像を示す画像信号から、前記画像信号において前記対象者が発話している確率を示す画像発話尤度を算出し、
前記車の速度が早いほど、前記音声信号の信頼性を示す音声信頼性を低く判定し、及び、前記車に搭乗している搭乗者の数が多いほど、前記画像信号の信頼性を示す画像信頼性を低く判定し、
前記音声信頼性が高いほど前記音声発話尤度の重みを重くし、前記画像信頼性が高いほど前記画像発話尤度の重みを重くして、前記音声発話尤度及び前記画像発話尤度を用いて、前記音声信号及び前記画像信号において前記対象者が発話している確率を示す発話尤度を算出し、前記算出された発話尤度が予め定められた閾値以上となっている区間を、発話区間として検出し、
前記音声信号に対して、前記発話区間において音声認識を実行すること
を特徴とする情報処理方法。