JP2011191423A

JP2011191423A - 発話認識装置、発話認識方法

Info

Publication number: JP2011191423A
Application number: JP2010056266A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Takami Yoshida; 尚水吉田
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2010-03-12
Filing date: 2010-03-12
Publication date: 2011-09-29

Abstract

【課題】精度良く発話区間の検出を行い、発話認識を行える発話認識装置、発話認識方法を提供することを課題としている。
【解決手段】音響を集音する音響集音部と、映像を撮像する映像撮像部と、集音された音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部と、撮像された画像情報に基づき顔領域の特徴量と唇領域の特徴量を抽出する唇特徴量抽出部と、抽出された唇領域の特徴量に基づき唇の横方向の長さに関する視覚特徴量を抽出し、抽出された所定区間の視覚特徴量に対して３次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部と、生成された視覚特徴量と抽出された音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部と、発話区間検出部が検出した発話区間の発話を認識する音声認識部とを備える。
【選択図】図１

Description

本発明は、発話認識装置、発話認識方法に関する。

話者が発話した音声をマイク等によって集音して、集音した音声を音声認識し文字データに変換したり、集音した音声を音声認識しコンピュータを操作したりする音声認識技術が知られている。音声認識を行う場合、話者が話している文節の解析の行いやすさや、認識における演算量の削減などのために、発話区間を検出し、検出した発話区間の音声を認識することで発話を認識する手法が用いられている。

音声情報から発話区間を検出し、検出した発話区間の雑音による誤認識を話者の唇の動きの映像情報を用いて防止して、発話認識を行う発話認識装置が提案されている（例えば、特許文献１参照）。また、話者の唇を含む画像を撮像し、撮像した唇の変形度合いを算出し、算出した変化度合いと集音した音声情報のレベルに基づいて発話区間を認識して発話認識を行う発話認識装置が提案されている（例えば、特許文献２参照）。

特開２００７−１５６４９３号公報特開２００８−１５２１２５号公報

しかしながら、特許文献１及び特許文献２の従来技術では、唇の動き検出のために唇を含む画像を高い解像度で撮像する必要があるという問題点がった。また、撮像に用いるカメラにより画像の解像度が変化する場合、また、話者とカメラとの距離が変化することで唇部分の解像度が変化する場合など、解像度が変化してしまうため唇の動き検出を用いて精度良く発話区間を検出することが困難な場合があるという問題点があった。

本発明は、上記の問題点に鑑みてなされたものであって、精度良く発話区間の検出を行い、発話認識を行える発話認識装置、発話認識方法を提供することを課題としている。

上記目的を達成するため、本発明の発話認識装置が、音響を集音する音響集音部（例えば、実施例におけるマイク２、２１、２２）と、映像を撮像する映像撮像部（例えば、実施例におけるカメラ１）と、前記音響集音部が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部（例えば、実施例における音声特徴量抽出部４）と、前記映像撮像部が撮像した画像情報に基づき唇領域の特徴量を抽出する唇特徴量抽出部（例えば、実施例における唇検出部３２）と、前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する視覚特徴量を抽出し、抽出した所定区間の前記視覚特徴量に対して３次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部（例えば、実施例における画像特徴量による唇の縦横長抽出部３３）と、前記生成された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部（例えば、実施例における視聴覚統合発話区間検出部５）と、前記発話区間検出部が検出した発話区間の発話を認識する音声認識部（例えば、実施例における視聴覚統合音声認識部６）とを備えることを特徴としている。

また、本発明の発話認識装置おいて、前記発話区間検出部は、前記平滑化された前記視覚特徴量と前記抽出された前記音響情報の特徴量とをベイジアンネットワークを用いて統合して発話確率を算出することで前記発話区間を検出するようにしてもよい。

また、本発明の発話認識装置おいて、前記視覚特徴量生成部は、前記３次以上の関数の係数を前記視覚特徴量とするようにしてもよい。

また、本発明の発話認識装置において、前記音声認識部は、前記音響特徴量抽出部が抽出した前記音響情報の特徴量と、前記視覚特徴量生成部が生成した前記視覚特徴量と、前記発話区間検出部が検出した前記発話区間とに基づき前記発話を認識するようにしてもよい。

また、本発明の発話認識装置において、前記視覚特徴量生成部は、前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の縦方向の長さに関する唇領域における視覚特徴量を更に抽出し、抽出した所定区間の前記唇の縦方向の長さに関する視覚特徴量に対して３次以上の関数により時間軸方向にフィッティングして平滑化することで唇の縦方向の長さに関する視覚特徴量を生成し、前記発話区間検出部が前記生成された前記唇の縦方向の長さに関する前記視覚特徴量を更に用いて前記発話区間を検出するようにしてもよい。

また、本発明の発話認識装置において、前記画像特徴量抽出部は、前記撮像された画像情報に基づき顔領域を抽出し、抽出した顔領域の信頼度を算出し、前記発話区間検出部が算出された顔領域の信頼度をさらに用いて前記発話区間を検出するようにしてもよい。

また、本発明の発話認識装置において、前記音響特徴量抽出部は、前記音響集音部が集音した音響信号を用いて、音源方向を推定し、推定した音源方向に基づき前記集音された音響信号を分離し、前記分離した音響信号に基づき音響情報の特徴量を抽出し、前記発話区間検出部が抽出された前記分離された音響信号に基づき音響情報の特徴量を用いて前記発話区間の検出を行うようにしてもよい。

また、本発明の発話認識装置において、前記発話区間検出部は、検出された前記発話区間に所定のマージンを付加するようにしてもよい。

上記目的を達成するため、本発明の発話認識装置の発話認識方法において、発話認識装置における発話認識方法において、音響集音部（例えば、実施例におけるマイク２、２１、２２）が、音響を集音する音響集音工程と、映像撮像部（例えば、実施例におけるカメラ１）が、映像を撮像する映像撮像工程と、音響特徴量抽出部（例えば、実施例における音声特徴量抽出部４）が、前記音響集音工程が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出工程と、画像特徴量抽出部（例えば、実施例における画像特徴量抽出３）が、前記映像撮像工程が撮像した画像情報に基づき唇領域の特徴量を抽出する画像特徴量抽出工程と、視覚特徴量生成部（例えば、実施例における画像特徴量による唇検出部３２）が、前記画像特徴量抽出工程が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する視覚特徴量を抽出し、抽出した所定区間の前記唇の横方向の長さに関する前記視覚特徴量に対して３次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する特徴量平滑工程と、発話区間検出部（例えば、実施例における視聴覚統合発話区間検出部５）が、前記生成された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出工程と、音声認識部（例えば、実施例における視聴覚統合音声認識部６）が、前記発話区間検出部が検出した発話区間の発話を認識する発話認識工程とを備えることを特徴としている。

本発明によれば、集音された音響情報に基づく音響情報の特徴量と撮像された画像情報に基づく唇特徴量を時間軸方向に平滑化した視覚特徴量とを統合して発話区間を検出し、検出された発話区間に基づき発話を認識するので、精度良く発話区間の検出を行うことができるので精度良く発話認識を行うことが可能になる。

また、本発明によれば、視覚特徴量と音響情報の特徴量とをベイジアンネットワークを用いて統合することで発話確率を算出して発話区間を検出するので、さらに精度良く発話区間の検出を行うことが可能になる。

また、本発明によれば、音響情報の特徴量と視覚特徴量と発話区間とに基づき発話を認識するため、さらに精度良く発話認識を行うことが可能になる。

また、本発明によれば、唇領域の特徴量に基づき唇の縦方向の長さに関する唇領域における視覚特徴量を更に抽出して、抽出された唇の縦方向の長さに関する唇領域における視覚特徴量を平滑化した視覚特徴量も用いて発話区間を検出するため、さらに精度良く発話区間の検出を行ことが可能になる。

また、本発明によれば、抽出された顔領域の信頼度を算出し、算出された顔領域の信頼度をさらに用いて発話区間を検出するため、さらに精度良く発話区間の検出を行ことが可能になる。

また、本発明によれば、音源方向を推定し、推定した音源方向に基づき集音された音響信号を分離し、分離した音響信号に基づき音響情報の特徴量を抽出して発話区間を検出するため、さらに精度良く発話区間の検出を行うことが可能になる。

また、本発明によれば、発話区間検出部は、発話区間検出時に検出される発話区間に所定のマージンを付加するようにしたので、発話区間の開始部分と終了部分とが誤って検出されることによる発話区間の欠けを防ぐことができ、さらに精度良く発話区間の検出を行うことが可能になる。

本発明の実施形態に係る発話認識装置のブロック図である。本発明の実施形態に係る顔検出部と唇検出を説明する図である。本発明の実施形態に係る唇の縦横長さの検出を説明する図と唇の大きさを検出するためのスムージングを説明する図である。本発明の実施形態に係るベイジアンネットワークを用いた発話区間検出を説明する図である。本発明の実施形態に係る移動平均処理を説明する図である。本発明の実施形態に係る発話検出区間にマージンを付加する説明図である。本発明の実施形態に係る評価１及び評価２の受信者動作特性を示す図である。本発明の実施形態に係る音声認識実験の結果を示す図である。本発明の実施形態に係るＡＳＲ性能における顔サイズ変化に対するロバスト性の評価の一例の図である。

以下、図１〜図９を用いて本発明の実施形態について詳細に説明する。なお、本発明は斯かる実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。

［第１実施形態］
図１は、本実施形態における発話認識装置のブロック図である。図１のように、本発話認識装置は、カメラ１、マイク２、画像特徴量抽出３、音声特徴量抽出部４、視聴覚統合発話区間検出部５及び視聴覚統合音声認識部６を備えている。また、画像特徴量抽出３は、顔検出部３１、唇検出部３２、唇の縦横長抽出部３３及び画像特徴量による発話区間検出部３４を備えている。また、音声特徴量抽出部４は、音源方向推定部４１、音源分離部４２、ＭＳＬＳ抽出部４３、音声特徴量による発話区間検出部４４を備えている。また、視聴覚統合発話区間検出部５は、画像・音声特徴量による発話区間検出部５１を備え、視聴覚統合音声認識部６は、音声認識部６１を備えている。

カメラ１は、画像を撮像し、撮像した画像情報を画像特徴量抽出３に出力する。また、カメラ１は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサを内蔵し、ＣＣＤイメージセンサ上に結像した画像を示す画像情報を画像特徴量抽出３に出力する。なお、カメラ１は、所定の間隔、例えば１秒間に３３回（約３０［ｍｓｅｃ］間隔）で画像を取り込む。
マイク２は、マイク２１とマイク２２を備え、音声を集音し、集音した音声を音声特徴量抽出部４に出力する。なお、マイク２１と２２は、所定の間隔、例えば１秒間に１００回（１０［ｍｓｅｃ］間隔）で音声を取り込む。また、マイク２は、マイク２１〜２２だけではなく、例えば８本使用してもよい。また、マイク２は、音声のみではなく他の音が混じっている音響信号を集音しても良い。

画像特徴量抽出３の顔検出部３１には、撮像された画像情報が入力され、入力された画像情報から図２（ａ）のように顔領域の画像情報を検出し、検出した顔領域の画像情報を唇検出部３２に出力する。図２は、顔検出部と唇検出を説明する図である。顔領域検出は、例えばＦａｃｉａｌＦｅａｔｕｒｅＴｒａｃｋｉｎｇＳＤＫが提供する検出モジュールを用いる。

唇検出部３２には、検出された顔領域の画像情報が入力され、入力された顔領域の画像情報から図２（ｂ）のように唇領域の画像情報を検出する。唇検出部３２は、検出した唇領域の画像情報から図３（ａ）のように、唇の特徴量を抽出し、抽出した特徴量に基づき周辺部分の所定箇所の特徴点の位置、例えば唇周辺の８点（左Ｌ１、右Ｌ８、上Ｌ３、下Ｌ６、左上Ｌ２、左下Ｌ５、右上Ｌ４、右下Ｌ７）を検出する。図３は、唇の縦横長さの検出を説明する図と唇の大きさを検出するためのスムージングを説明する図である。さらに、唇検出部３２は、検出した唇の特徴点情報を唇の縦横長抽出部３３と画像特徴量による発話区間検出部３４とに出力する。唇領域検出及び唇の所定箇所の特徴点検出は、例えばＦａｃｉａｌＦｅａｔｕｒｅＴｒａｃｋｉｎｇＳＤＫが提供する検出モジュールを用いる。

唇の縦横長抽出部３３には、検出された唇の特徴点情報と顔領域の画像情報が入力され、入力された唇の特徴点情報を用いて、唇の縦方向（長手方向）の長さＨ［ｔ］と唇の横方向の長さＷ［ｔ］を抽出する。なお、唇の縦方向（長手方向）の長さＨ［ｔ］は、検出された唇周辺の８点の特徴点のうち、上Ｌ３と下Ｌ６との差により算出する。また、唇の横方向の長さＷ［ｔ］は、検出された唇周辺の８点の特徴点のうち、左Ｌ１と右Ｌ８との差により算出する。また、唇の縦横長抽出部３３は、話者との距離変化に対応するため、顔検出部３１が検出した顔サイズに基づき、抽出した唇の縦方向の長さＨ［ｔ］と唇の横方向の長さＷ［ｔ］を正規化する。さらに、唇の縦横長抽出部３３は、後述する方法で検出された唇の特徴点情報から視覚特徴量を抽出し、抽出した視覚特徴量と顔領域の画像情報を視聴覚統合音声認識部６に出力する。なお、視覚特徴量とは、後述するように、唇周辺の特徴量に基づく特徴量である。

画像特徴量による発話区間検出部３４には、検出された唇の特徴点情報と顔領域の画像情報が入力され、入力された顔領域の画像情報に基づき顔検出の信頼度ｘ_ｆａｃｅを検出し、入力された唇の特徴点情報に基づき視覚特徴量ｘ_ｌｉｐを検出する。そして、画像特徴量による発話区間検出部３４は、検出した顔検出の信頼度ｘ_ｆａｃｅと視覚特徴量ｘ_ｌｉｐを視聴覚統合発話区間検出部５に出力する。顔検出の信頼度ｘ_ｆａｃｅと視覚特徴量ｘ_ｌｉｐは、既存の手法、例えば汎用大語彙連続音声認識エンジンであるオープンソースのＪｕｌｉｕｓ（http://julius.sourceforge.jp/）を用いて算出する。
なお、音声情報と画像情報とのフレームレートが異なるため、本実施形態では、得られた画像特徴量（顔検出の信頼度ｘ_ｆａｃｅと視覚特徴量ｘ_ｌｉｐ）に対してアップサンプリングを行い、音声特徴量（非発話の対数尤度ｘ_ｄｖａｄ）との同期を行っている。アップサンプリングは、例えば、キュービックスプライン補間（ｃｕｂｉｃｓｐｌｉｎｅｉｎｔｅｒｐｏｌａｔｉｏｎ）を用いる。

音声特徴量抽出部４の音源方向推定部４１には、マイク２１と２２から音声情報が入力され、入力された音声情報を用いて、既存の手法で音源方向を推定し、推定した音源方向情報と音声情報を音源分離部４２に出力する。音源方向の推定は、既存の手法、例えば話者位置推定法であるＭＵＳＩＣ(ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；電波到来方向推定)法などを用いる。

音源分離部４２には、推定された音源方向情報と音声情報が入力され、入力された音源方向情報と音声情報を用いて、音声情報から同時発話の場合等の分離を行い、分離した音源情報をＭＳＬＳ抽出部４３と音声特徴量による発話区間検出部４４に出力する。音源の分離は、既存の手法、例えばＧＳＳ（ＧｅｏｍｅｔｒｉｃＳｏｕｎｄＳｅｐａｒａｔｉｏｎ；幾何学的音源分離）法などを用いる。また、ＧＳＳは、音源分離時に音源とマイクの位置関係である推定された音源方向情報を制約条件として利用する。

ＭＳＬＳ（ＭｅｌＳｃａｌｅＬｏｇａｒｉｔｈｍｉｃＳｐｅｃｔｒｕｍ；メルスケール対数スペクトル）抽出部４３には、分離された音声情報が入力され、入力された音声情報から音声特徴量であるＭＳＬＳを抽出し、抽出したＭＳＬＳ情報を視聴覚統合音声認識部６に出力する。ＭＳＬＳは、音声認識の特徴量としてスペクトル特徴量を用い、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ；メル周波数ケプストラム係数）を逆離散コサイン変換することによって得られる。ＭＦＣＣは、音声分離した分離音に分離歪みが生じて特徴量に影響を与えるが、ＭＳＬＳは周波数領域の特徴量のため、分離歪みによる影響が特定の周波数バンドにしか影響を与えないという利点がある。

音声特徴量による発話区間検出部４４には、分離された音声情報が入力され、入力された音声情報に基づき発話と発話との間、すなわち無音期間である非発話の対数尤度ｘ_ｄｖａｄを算出し、算出した非発話の対数尤度ｘ_ｄｖａｄを視聴覚統合発話区間検出部５に出力する。非発話の対数尤度ｘ_ｄｖａｄの算出は、既存の手法、例えばデータベース発話区間検出法を用いる。すなわち、本実施形態では、音声情報による発話区間検出（ＡｕｄｉｏＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）；Ａ−ＶＡＤ）の途中結果である非発話の対数尤度ｘ_ｄｖａｄを用いていることに特徴がある。また、本実施形態では、従来のモデルには登録されていなかった無音単語（ｓｐ）を無音部としてモデル登録することで、無音らしさを確認して非発話の対数尤度ｘ_ｄｖａｄを算出することに特徴がある。

視聴覚統合発話区間検出部５の画像・音声特徴量による発話区間検出部５１には、検出された画像特徴量である顔検出の信頼度ｘ_ｆａｃｅと特徴量ｘ_ｌｉｐ、及び音声特徴量である非発話の対数尤度ｘ_ｄｖａｄが入力される。また、画像・音声特徴量による発話区間検出部５１は、入力された顔検出の信頼度ｘ_ｆａｃｅと視覚特徴量ｘ_ｌｉｐ及び非発話の対数尤度ｘ_ｄｖａｄをそれぞれＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；混合正規分布）法とＥＭアルゴリズム（Ｅｘｐｅｃｔａｔｉｏｎ−ｍａｘｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ）を用いて、顔検出の信頼度ｘ_ｆａｃｅと視覚特徴量ｘ_ｌｉｐ及び非発話の対数尤度ｘ_ｄｖａｄの各確からしさ（確率）を算出する。さらに、画像・音声特徴量による発話区間検出部５１は、算出した各確からしさに基づき、不確かな出来事の連鎖について確率の相互作用を集計する手法であるベイジアンネットワーク（ＢａｙｅｓｉａｎＮｅｔｗｏｒｋ）を用いて、顔検出の信頼度ｘ_ｆａｃｅと視覚特徴量ｘｌｉｐ及び非発話の対数尤度ｘ_ｄｖａｄを統合し、その結果に基づき非発話・発話区間を検出し、検出した非発話・発話区間情報を視聴覚統合音声認識部６に出力する。すなわち、本実施形態は、ベイジアンネットワークを用いて画像特徴量と音声特徴量を統合して、非発話・発話区間を検出していることに特徴がある。

視聴覚統合音声認識部６の音声認識部６１は、画像・音声特徴量による発話区間検出部５１により検出された非発話・発話区間情報と、唇の縦横長抽出部３３により抽出された視覚特徴量と、ＭＳＬＳ抽出部４３により抽出された音声特徴量のＭＳＬＳ情報とが入力される。そして、音声認識部６１は、入力された発話区間情報と視覚特徴量と音声特徴量のＭＳＬＳ情報とを用いて発話認識を行う。発話認識は、例えば、汎用大語彙連続音声認識エンジンであるストリーム重み付を指定で可能なマルチバンドＪｕｌｉｕｓ（Y. Nishimura, et al., “Speech recognition for a humanoid with motor noise utilizing missing feature theory,”Humanoids 2006, pp. 26-33）を用いる。
さらに、音声認識部６１は、認識した発話情報を、非図示の表示部、記憶部、処理部等に出力する。

次に、本発話認識装置の動作の一例について詳細に説明する。
カメラ１で撮像された画像情報が画像特徴量抽出３に入力される。画像特徴量抽出３の顔検出部３１は、図２（ａ）のように、入力された画像情報から顔領域および顔サイズをＦａｃｉａｌＦｅａｔｕｒｅＴｒａｃｋｉｎｇＳＤＫが提供する検出モジュールを用いて検出する。
次に、唇検出部３２は、図２（ｂ）のように、検出された顔領域から唇領域をＦａｃｉａｌＦｅａｔｕｒｅＴｒａｃｋｉｎｇＳＤＫが提供する検出モジュールを用いて検出する。また、唇検出部３２は、検出した唇領域から図３（ａ）のように、唇周辺の８点（Ｌ１〜Ｌ８）の特徴量を用いて、唇の縦方向の長さＨ［ｔ］と唇の横方向の長さＷ［ｔ］を抽出する。さらに、唇の縦横長抽出部３３は、顔検出部３１が検出した顔サイズを用いて抽出した唇の縦横長さを正規化する。

さらに、唇の縦横長抽出部３３は、図３（ｂ）のように、唇周辺の８点（Ｌ１〜Ｌ８）の特徴量のうち上下左右の特徴量Ｌ１、Ｌ３、Ｌ６、Ｌ８の４点を用いて画像情報を３０［ｍｓｅｃ］間隔で５回分用いて最小自乗法により３次関数にフィッティングを行うことで平滑化する。この処理を行う理由は、唇の動きは比較的穏やかであり、視覚特徴量は高周波成分を含まないため、視覚特徴量に含まれる高周波成分を雑音と見なすことができる。このため、この高周波成分である雑音を除去するために平滑化を行う。平滑化は、時刻ｋフレームにおける唇の縦長をｈ［ｋ］、唇の横長をｗ［ｋ］とする。このとき、区間ｔ_ｋ−２〜ｔ_ｋ＋２に含まれる５フレームのｈ［ｋ］、ｗ［ｋ］を用いて最小自乗方に基づき、擬似逆行列を用いて唇の縦長、唇の横長を次式（１）、式（２）を用いて３次関数にフィッティングを行う。

Ｗ［ｔ］＝ａ_０＋ａ_１（ｔ−ｔ_ｋ）＋ａ_２（ｔ−ｔ_ｋ）^２＋ａ_３（ｔ−ｔ_ｋ）^３…（１）

Ｈ［ｔ］＝ｂ_０＋ｂ_１（ｔ−ｔ_ｋ）＋ｂ_２（ｔ−ｔ_ｋ）^２＋ｂ_３（ｔ−ｔ_ｋ）^３…（２）

さらに、唇の縦横長抽出部３３は、式（１）と式（２）を用いて、ａ_０〜ａ_３，ｂ_０〜ｂ_３の８個の係数を算出する。なお、ａ_０〜ａ_３，ｂ_０〜ｂ_３の８個の係数が視覚特徴量ｘ_ｌｉｐである。そして、唇の縦横長抽出部３３は、抽出した視覚特徴量ｘ_ｌｉｐを視聴覚統合発話区間検出部５６に出力する。

次に、画像特徴量による発話区間検出部３４は、検出された顔領域の画像情報からＪｕｌｉｕｓを用いて、顔検出時に求められた顔検出の信頼度ｘ_ｆａｃｅを検出する。なお、顔検出の信頼度とは、切り出した領域が顔である信頼度を示す値であり、例えば、０〜１である。
顔検出の信頼度が低い場合、検出された顔に基づく特徴量の信頼度も低いため、顔検出の信頼度ｘ_ｆａｃｅを発話区間検出に反映している。また、画像特徴量による発話区間検出部３４は、検出した顔検出の信頼度ｘ_ｆａｃｅを視聴覚統合発話区間検出部５に出力する。

マイク２１〜２２で集音された音声データが音声特徴量抽出部４に入力される。音源方向推定部４１は、入力された音声データに対してＨＡＲＫ（ＨｏｎｄａＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅＪａｐａｎＡｕｄｉｔｉｏｎｆｏｒＲｏｂｏｔｓｗｉｔｈＫｙｏｔｏＵｎｉｖｅｒｓｉｔｙ；http://winnie.kuis.kyoto-u.ac.jp/HARK/）によるＭＵＳＩＣ法を用いて、音源とマイクの位置関係である音源の方向を推定する。なお、ＨＡＲＫは、多くの多チャンネル音響信号入力デバイスをサポートしており、音源定位、追跡、分離や分離音の認識といったロボット聴覚に必要とされるモジュールが一通り用意されている。
音源分離部４２は、推定された音源方向情報を制約条件として利用し、ＧＳＳ法を用いて音源の分離を行う。音源の分離とは、例えば多数の話者が同時に発話した場合、個別に認識を行えるように分離することである。

次に、音声特徴量による発話区間検出部４４は、分離された音声情報からデータベース発話区間検出法を用いて非発話の対数尤度ｘ_ｄｖａｄ（デコーダベースの特徴量）を、次式（３）を用いて算出する。非発話・発話区間を検出するには、発話と発話の間、すなわち無音の状態を検出することが重要である。このため、本実施形態では、予め無音単語ｓｐ（ｓｈｏｒｔｐａｕｓｅ）として検索エンジンに学習させ登録しておく。

ｘ_ｄｖａｄ＝ｌｏｇ（ｐ（ω_０｜ｘ））・・・（３）

（３）において、ｘは音声情報を表し、ω_０は非発話に対応する仮説を表している。そして、無音単語以外の対数尤度と、無音単語時の対数尤度とを比較することで音声区間検出ができ、この手法はすでにＪｕｌｉｕｓに実装されている。本実施形態では、この処理過程で算出される対数尤度ｘ_ｄｖａｄを音声情報の特徴量として用いる。また、音声特徴量による発話区間検出部４４は、算出した対数尤度ｘ_ｄｖａｄを視聴覚統合発話区間検出部５に出力する。

次に、ＭＳＬＳ抽出部４３は、分離された音声情報から周波数領域の特徴量であるＭＳＬＳを抽出する。まず、スペクトルの周波数軸をメルスケールに変換し、変換されたメルスケールスペクトルからＭＳＬＳ特徴量を抽出する。さらに、ＭＳＬＳ特徴量の対雑音ロバスト性を向上させるため正規化を行い、ＭＳＬＳ特徴量から一次線形回帰を用いて、Δ 特徴量を算出する。本実施形態では、１３次元ＭＳＬＳと１３次元ΔＭＳＬＳと１次元Δｌｏｇｐｏｗｅｒの２７次元特徴量を使用する。なお、Δｌｏｇｐｏｗｅｒは、フレーム中の信号のパワーを計算し、そのｌｏｇ（対数）をとってdBに直してｌｏｇｐｏｗｅｒ算出し、算出に用いたフレームと後前後２フレームずつ計５フレームを使って線形回帰を行い、Δｌｏｇｐｏｗｅｒを算出する。

次に、画像・音声特徴量による発話区間検出部５１は、画像特徴量抽出３から入力された視覚特徴量ｘ_ｌｉｐと顔検出の信頼度ｘ_ｆａｃｅと、音声特徴量抽出部４から入力された非発話の対数尤度ｘ_ｄｖａｄに対して、図４のように、ベイジアンネットワークを用いて画像特徴量と音声特徴量とを統合して非発話・発話区間を検出する。ベイジアンネットワークは、不確かな出来事の連鎖について、確率の相互作用を集計する手法であり、すなわち各特徴量を用いて各発話の確率を算出し、算出した各発話の確率を統合して発話の確率を算出する。図４は、ベイジアンネットワークを用いた発話区間検出を説明する図である。
まず、画像・音声特徴量による発話区間検出部５１は、視覚特徴量ｘ_ｌｉｐに対応する条件付き確率ｐ（ｘ_ｌｉｐ｜ω_ｊ）を、４混合ＧＭＭを用いて近似し、さらに、確率モデルのパラメータを最尤法に基づいて推定する手法であるＥＭアルゴリズムを用いて学習により求める。発話区間の仮説ω_ｊは、ω_０とω_１であり、ω_０は非発話に対する仮説、ω_１は発話に対する仮説を表している。
次に、画像・音声特徴量による発話区間検出部５１は、視覚特徴量ｘ_ｌｉｐに対応する発話確率を、ベイズの公式である次式（４）を用いて算出する。

式（４）において、ｘ＝［ｘ_ｄｖａｄ，ｘ_ｌｉｐ，ｘ_ｆａｃｅ］である。

次に、画像・音声特徴量による発話区間検出部５１は、顔検出の信頼度ｘ_ｆａｃｅに対応する条件付き確率ｐ（ｘ_ｆａｃｅ｜ω_ｊ）を、４混合ＧＭＭを用いて近似し、さらに、ＥＭアルゴリズムを用いて学習により求める。次に、画像・音声特徴量による発話区間検出部５１は、顔検出の信頼度ｘ_ｆａｃｅに対応する発話確率を、ベイズの公式である式（４）を用いて算出する。

次に、画像・音声特徴量による発話区間検出部５１は、非発話の対数尤度ｘ_ｄｖａｄに対応する条件付き確率ｐ（ｘ_ｄｖａｄ｜ω_ｊ）を、４混合ＧＭＭを用いて近似し、さらに、ＥＭアルゴリズムを用いて学習により求める。次に、画像・音声特徴量による発話区間検出部５１は、非発話の対数尤度ｘ_ｄｖａｄに対応する発話確率を、ベイズの公式である式（４）を用いて算出する。

次に、画像・音声特徴量による発話区間検出部５１は、算出した各確率ｐ（ω_ｊ｜ｘ）を用いて、統合した発話確率Ｐ（ω_ｊ｜ｘ_ｖｄａｄ，ｘ_ｌｉｐ，ｘ_ｆａｃｅ）を、次式（５）を用いて算出する。

また、画像・音声特徴量による発話区間検出部５１は、この発話確率Ｐ（ω_ｊ｜ｘ_ｖｄａｄ，ｘｌ_ｉｐ，ｘ_ｆａｃｅ）をフレーム毎に算出する。

次に、画像・音声特徴量による発話区間検出部５１は、算出した発話確率Ｐ（ω_ｊ｜ｘ_ｖｄａｄ，ｘ_ｌｉｐ，ｘ_ｆａｃｅ）に対して移動平均処理により平滑化を行う。これは、発話確率Ｐ（ω_ｊ｜ｘ_ｖｄａｄ，ｘ_ｌｉｐ，ｘ_ｆａｃｅ）に含まれている高周波成分を除去するためであり、移動平均にしきい値を用いて、次式（６）により発話区間か非発話区間かを判別する。式（６）のように、ω［ｔ］がθ未満の場合を発話区間と判定し、それ以外の場合を非発話区間と判定する。

式（６）において、τはマージンであり、Ｔは移動平均長であり、ｋは時刻ｋのフレームであり、θはしきい値であり、ｘは［ｘ_ｄｖａｄ，ｘ_ｌｉｐ，ｘ_ｆａｃｅ］である。
図５は、移動平均処理を説明する図である。図５（ａ）と図５（ｂ）において、横軸はフレーム数であり、縦軸は算出した発話確率を正規化した値である。図５（ａ）のように、統合した特徴量から算出した発話確率には、雑音の影響による高周波成分が含まれ、非発話区間中において、例えばスパイク状のノイズ５０１を発話区間として誤検出してしまう場合もある。図５（ｂ）のように、しきい値０．８で移動平均処理を行うと高周波成分が減少し、ある程度まとまった発話と判別される区間のみを検出することができる。図５（ｂ）においては、画像・音声特徴量による発話区間検出部５１は、時刻ｔ１からｔ２までの区間が発話区間として検出し、他の区間を非発話区間として検出する。

図６および式（６）のように、算出する発話区間の前後に付加している。図６は、発話検出区間にマージンを付加する説明図である。図６（ａ）は、図５（ａ）と同様に、正規化された発話区間の確率と、移動平均を行った発話区間の確率であり、図６（ｂ）は、移動平均を行った発話区間の確率とマージンを付加した発話区間の確率である。マージンの効果は、発話区間の開始部分と終了部分とが誤って検出されることによる欠けを防ぐためであり、例えば１００ｍｓｅｃである。なお、このマージンは発話認識装置や環境に合わせて設定しても良く、例えば２００ｍｓｅｃでも良く、０〜５００ｍｓｅｃの間の値でも良い。
画像・音声特徴量による発話区間検出部５１は、以上のようにして算出した発話区間か非発話区間か示す情報（以下、非発話・発話区間情報という）を視聴覚統合音声認識部６に出力する。

次に、音声認識部６１は、画像特徴量抽出３から視覚特徴量が入力され、音声特徴量抽出部４から音声特徴量であるＭＳＬＳ情報が入力され、視聴覚統合発話区間検出部５から非発話・発話区間情報が入力される。また、音声認識部６１は、入力された視覚特徴量と、音声特徴量であるＭＳＬＳ情報と、非発話・発話区間情報を用いて、ストリーム重み付を指定で可能なマルチバンドＪｕｌｉｕｓを用いて発話認識を行う。なお、ストリーム重み付けは、例えば、認識率が高くなるような重みを実験により予め求めて用いる。
重み付けの算出は、例えば、以下のように行う。８次元の視覚特徴量と２７次元の聴覚特徴量を一つの３５次元の特徴量ベクトルとして生成し、そして、フレームごとに、生成したこの３５次元の特徴量ベクトルを音声認識部６１に入力する。音声認識部６１内では、発話区間情報を用いて、発話区間に該当する３５次元の特徴量ベクトルにのみ認識処理を行う。認識処理はミッシングフィーチャ理論を適用したＪｕｌｉｕｓつまり、マルチバンドＪｕｌｉｕｓのオンライン処理版を用いている。マルチバンドＪｕｌｉｕｓのマスクの部分にストリーム重みを用いることで視覚、聴覚の重みづけが可能になっている。

以下に、本発話認識装置の評価のためにおこなった評価結果の一例を説明する。各評価では、男性１０人、1 人当たり２６６単語（ＡＴＲ（ＡｄｖａｎｃｅｄＴｅｌｅｃｏｍｍｉｎｉｃａｔｉｏｎｓＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅＩｎｔｅｒｎａｔｉｏｎａｌ）音素バランス単語２１６単語とＡＴＲ重要単語データはクリーンな環境で１６ｂｉｔ、１６ＫＨｚサンプリングで収録し、画像データはクリーンな環境で８ｂｉｔモノクロ,６４０×４８０ピクセル、１００Ｈｚで収録した。ＡＶ−ＶＡＤ（音声情報と画像情報とによる発話区間検出）モデルは、視聴覚データセットのうちＡＴＲ音素バランス単語２１６単語、話者５人分のクリーンデータを使用し学習を行った。ＡＶＳＲの音響モデルは、視聴覚データセットのうちＡＴＲ音素バランス単語２１６単語、話者１０人分のクリーンデータ（ＣＬ）を使用し学習を行った。

測定した伝達関数を音声データに畳みこみ、正面（０度方向）からの発話を８ｃｈマイクアレイで収録したデータを作成した。その後、雑音として音楽データを話者と６０度をなす方向から来るように作成し、ＳＮＲが２０ｄＢから−５ｄＢまで５ｄＢ刻みとなるように調整して音声データに加えた。画像データは、一般のカメラのフレームレートに近い３３Ｈｚとして使用した。評価は、学習用データには含まれないデータセットから作成した８ｃｈ視聴覚データセットを用いた。評価用データは、学習に用いたデータセットに含まれる話者５人が発話したＡＴＲ重要単語５０単語を使用した（話者クローズ、単語オープンテスト）。
評価１（視聴覚発話区間検出評価）では、Ａ−ＶＡＤ（マイクアレイ処理なし）、Ａ−ＶＡＤ（マイクアレイ処理あり）、ＡＶ−ＶＡＤ（マイクアレイ処理なし）、ＡＶ−ＶＡＤ（マイクアレイ処理あり）の組み合わせ４通りの条件でＶＡＤ（発話区間検出）を行った。この視聴覚統合には、十分な解像度の画像データを使用した。評価２（音声認識評価結果）では、ＡＳＲ、ＶＳＲ、ＡＶＳＲの孤立単語認識の性能比較を行った。なお、Ａ−ＶＡＤは音声情報のみによる発話区間検出、ＡＳＲ（ＡｕｄｉｏＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）は音声情報による発話認識であり、ＶＳＲ（ＶｉｓｕａｌＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）は画像情報による発話認識、ＡＶＳＲ（Ａｕｄｉｏ−ＶｉｓｕａｌＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）は音声情報と画像情報による発話認識である。

図７は、評価１及び評価２の受信者動作特性を示す図である。図７（ａ）はＳＮＲが２０ｄＢ時の受信者動作特性、図７（ｂ）はＳＮＲが１５ｄＢ時の受信者動作特性、図７（ｃ）はＳＮＲが１０ｄＢ時の受信者動作特性、図７（ｄ）はＳＮＲが５ｄＢ時の受信者動作特性、図７（ｅ）はＳＮＲが０ｄＢ時の受信者動作特性、図７（ｆ）はＳＮＲが−５ｄＢ時の受信者動作特性である。図７のように、音声発話区間検出は、ＳＮＲ（信号対ノイズ比）が低くなるにつれ性能が悪化するが、視聴覚統合により大きく性能が向上している。マイクアレイ処理はＳＮＲを改善するため、マイクアレイ処理を行わない場合に比べ性能が向上している。この結果は、ＶＡＤにおける視聴覚統合の有効性、および本稿で提案する視聴覚統合とマイクアレイ処理を組み合わせた手法が性能をより向上させることを示している。

図８は、音声認識実験の結果を示す図である。図８（ａ）は、マイク１本使用時のマイクアレイ処理なしの音声認識実験の結果であり、図８（ｂ）は、マイク８本使用時のマイクアレイ処理ありの音声認識実験の結果である。図８のように、ＡＶＳＲの性能がＡＳＲ、ＶＳＲに比べ向上している。単語に関してオープンな条件で評価であるが、提案手法では７０％の単語正解精度が得られている。音声入力にマイクアレイ処理を行わない場合、視聴覚統合により１６．７ポイント性能が向上した。音声入力にマイクアレイ処理を行った場合、ＳＮＲ改善によりＡＳＲの性能が向上したにも関わらず、さらに９．８ポイント性能が向上している。

図９は、ＡＳＲ性能における顔サイズ変化に対するロバスト性の評価の一例の図である。図９において、横軸はＳＮＲを示し、縦軸は発話認識率を示している。また、ＣＬ（Ｃｌｅａｎ）は、雑音がない音声情報の場合である。さらに、奥行き方向は、音声情報のみ（ＡｕｄｉｏＯｎｌｙ）、顔サイズがフルサイズ（ｆｕｌｌｓｉｚｅ）、顔サイズが半分（ｈａｌｆｓｉｚｅ；１／２）、顔サイズが三分の一（Ｏｎｅ−ｔｈｉｒｄ；１／３）、顔サイズが四分の一（Ｑｕａｒｔｅｒ；１／４）、顔サイズが五分の一（Ｏｎｅ−ｆｉｆｔｈ；１／５）、顔サイズが六分の一（Ｏｎｅ−ｓｉｘｔｈ；１／６）を表している。なお、顔サイズとは、カメラ１により撮像された画像中に占める顔の大きさであり、例えば顔サイズが四分の一とは、画面中の１／４のサイズを顔領域の画像である。
例えば、顔サイズが１／６について、各ＳＮＲについて比較すると、ノイズがないＣＬでは顔サイズに影響されずに単語認識率は約１００％である。ＳＮＲが下がる程、単語認識率も低下するが、音声情報だけの認識手法と比較して、本実施形態による発話認識の認識率は高い。すなわち、本実施形態による発話認識装置は、認識に用いる画像中の顔サイズが小さい（解像度が低い）場合でも、従来の手法と比較して発話認識率を改善することが可能になる。

以上のように、検出した唇の特徴点に基づきフィッティングを行って視覚特徴量を抽出し、音声情報から音声特徴量を抽出し、抽出された視覚特徴量と音声特徴量とをベイジアンネットワークを用いて統合して非発話・発話区間を検出し、検出された非発話・発話区間と視覚特徴量と音声特徴量に基づき発話認識を行うようにしたので、精度良く発話区間の検出を行い、発話認識を行うことが可能になる。

また、本実施形態では、唇の縦横長抽出部３３は、唇の縦長さと横長さを抽出し、式（１）、式（２）を用いて３次関数にフィッティングを行う例を説明したが、唇の横長さを抽出し、式（１）を用いて３次関数にフィッティングを行い、ａ_０〜ａ_３の４個の係数を算出し、算出したａ_０〜ａ_３の４個の係数を唇に関する画像情報の特徴量ｘ_ｌｉｐとしてもよい。

また、本実施形態では、唇の縦横長抽出部３３は、唇周辺の８点（Ｌ１〜Ｌ８）の特徴量のうち上下左右の特徴量Ｌ１、Ｌ３、Ｌ６、Ｌ８の４点を用いて画像情報を３０［ｍｓｅｃ］間隔で５回分用いて３次関数にフィッティングを行う例を説明したが、用いる視覚特徴量の箇所はこれに限られず、他の箇所も用いるようにしても良く、またフィッティングを行う関数も３次以上であっても良く、さらに用いる画像情報も５フレーム分に限られなくてもよい。

また、本実施形態では、視聴覚統合発話区間検出部５は、顔検出の信頼度ｘ_ｆａｃｅを用いて非発話・発話区間を検出する例を説明したが、顔検出の信頼度ｘ_ｆａｃｅを用いなくても非発話・発話区間の検出は可能である。顔検出の信頼度ｘ_ｆａｃｅを用いない場合は、図４において、視覚特徴量ｘ_ｌｉｐに対応する条件付き確率ｐ（ｘ_ｌｉｐ｜ω_ｊ）のみを、４混合ＧＭＭを用いて近似し、さらに、確率モデルのパラメータを最尤法に基づいて推定する手法であるＥＭアルゴリズムを用いて学習により求める。次に、画像・音声特徴量による発話区間検出部５１は、視覚特徴量ｘ_ｌｉｐに対応する発話確率のみを、式（４）を用いて算出する。なお、式（４）〜式（６）において、ｘ＝［ｘ_ｄｖａｄ，ｘ_ｌｉｐ］である。次に、画像・音声特徴量による発話区間検出部５１は、算出した各確率ｐ（ω_ｊ｜ｘ）を用いて、統合した発話確率Ｐ（ω_ｊ｜ｘ_ｖｄａｄ，ｘ_ｌｉｐ）を、式（５）を用いて算出する。次に、画像・音声特徴量による発話区間検出部５１は、この発話確率Ｐ（ω_ｊ｜ｘ_ｖｄａｄ，ｘｌ_ｉｐ）をフレーム毎に算出する。次に、画像・音声特徴量による発話区間検出部５１は、算出した発話確率Ｐ（ω_ｊ｜ｘ_ｖｄａｄ，ｘ_ｌｉｐ）に対して平滑化を行い、式（６）により発話区間か非発話区間かを判別する。

なお、本発話認識装置をヒト型ロボット等に適用することも可能であり、この場合、例えば、カメラをヒト型ロボットの目に相当する位置に配置し、マイク２１と２２をヒト型ロボットの耳に相当する位置に配置するようにしても良く、マイクの本数は２本でなくとも例えば左右に４本ずつ８本備えるようにしても良く、カメラとマイクを配置する位置もロボットの形状や環境に応じて認識に最適な位置であってもよい。

なお、実施形態の図１の各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ等の可搬媒体、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）Ｉ／Ｆ（インタフェース）を介して接続されるＵＳＢメモリー、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１・・・カメラ（映像撮像部）
２、２１、２２・・・マイク（音響集音部）
３・・・画像特徴量抽出
４・・・音声特徴量抽出部（音響特徴量抽出部）
５・・・視聴覚統合発話区間検出部（発話区間検出部）
６・・・視聴覚統合音声認識部（音声認識部）
３１・・・顔検出部
３２・・・唇検出部（唇特徴量抽出部）
３３・・・唇の縦横長抽出部（視覚特徴量生成部）
３４・・・画像特徴量による発話区間検出部
４１・・・音源方向推定部
４２・・・音源分離部
４３・・・ＭＳＬＳ抽出部
４４・・・音声特徴量による発話区間検出部
５１・・・画像・音声特徴量による発話区間検出部
６１・・・音声認識部

Claims

音響を集音する音響集音部と、
映像を撮像する映像撮像部と、
前記音響集音部が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出部と、
前記映像撮像部が撮像した画像情報に基づき唇領域の特徴量を抽出する唇特徴量抽出部と、
前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する前記特徴量を抽出し、抽出した所定区間の前記唇の横方向の長さに関する特徴量に対して３次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成部と、
前記生成された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出部と、
前記発話区間検出部が検出した発話区間の発話を認識する音声認識部と、
を備えることを特徴とする発話認識装置。
前記発話区間検出部は、
前記平滑化された前記視覚特徴量と前記抽出された前記音響情報の特徴量とをベイジアンネットワークを用いて統合して発話確率を算出することで前記発話区間を検出する
ことを特徴とする請求項１に記載の発話認識装置。
前記視覚特徴量生成部は、
前記３次以上の関数の係数を前記視覚特徴量とする
ことを特徴とする請求項１または請求項２に記載の発話認識装置。
前記音声認識部は、
前記音響特徴量抽出部が抽出した前記音響情報の特徴量と、前記視覚特徴量生成部が生成した前記視覚特徴量と、前記発話区間検出部が検出した前記発話区間とに基づき前記発話を認識する
ことを特徴とする請求項１から請求項３のいずれか１項に記載の発話認識装置。
前記視覚特徴量生成部は、
前記画像特徴量抽出部が抽出した前記唇領域の特徴量に基づき、唇の縦方向の長さに関する唇領域における視覚特徴量を更に抽出し、抽出した所定区間の前記唇の縦方向の長さに関する視覚特徴量に対して３次以上の関数により時間軸方向にフィッティングして平滑化することで唇の縦方向の長さに関する視覚特徴量を生成し、
前記発話区間検出部が前記生成された前記唇の縦方向の長さに関する前記視覚特徴量を更に用いて前記発話区間を検出する
ことを特徴とする請求項１から請求項４のいずれか１項に記載の発話認識装置。
前記画像特徴量抽出部は、
前記撮像された画像情報に基づき顔領域を抽出し、抽出した顔領域の信頼度を算出し、
前記発話区間検出部が算出された顔領域の信頼度をさらに用いて前記発話区間を検出する
ことを特徴とする請求項１から請求項５のいずれか１項に記載の発話認識装置。
前記音響特徴量抽出部は、
前記音響集音部が集音した音響信号を用いて、音源方向を推定し、推定した音源方向に基づき前記集音された音響信号を分離し、前記分離した音響信号に基づき音響情報の特徴量を抽出し、
前記発話区間検出部が抽出された前記分離された音響信号に基づき音響情報の特徴量を用いて前記発話区間の検出を行う
ことを特徴とする請求項１から請求項５のいずれか１項に記載の発話認識装置。
前記発話区間検出部は、
検出された前記発話区間に所定のマージンを付加する
ことを特徴とする請求項１から請求項７のいずれか１項に記載の発話認識装置。
発話認識装置における発話認識方法において、
音響集音部が、音響を集音する音響集音工程と、
映像撮像部が、映像を撮像する映像撮像工程と、
音響特徴量抽出部が、前記音響集音工程が集音した音響信号に基づき音響情報の特徴量を抽出する音響特徴量抽出工程と、
画像特徴量抽出部が、前記映像撮像工程が撮像した画像情報に基づき唇領域の特徴量を抽出する画像特徴量抽出工程と、
視覚特徴量生成部が、前記画像特徴量抽出工程が抽出した前記唇領域の特徴量に基づき、唇の横方向の長さに関する視覚特徴量を抽出し、抽出した所定区間の前記唇の横方向の長さに関する前記視覚特徴量に対して３次以上の関数により時間軸方向にフィッティングして平滑化することで視覚特徴量を生成する視覚特徴量生成工程と、
発話区間検出部が、前記平滑化された前記視覚特徴量と前記抽出された前記音響情報の特徴量とを統合して算出した発話確率に基づき発話区間を検出する発話区間検出工程と、
音声認識部が、前記発話区間検出部が検出した発話区間の発話を認識する発話認識工程と、
を備えることを特徴とする発話認識方法。