JP2008152125A

JP2008152125A - 発話検出装置及び発話検出方法

Info

Publication number: JP2008152125A
Application number: JP2006341568A
Authority: JP
Inventors: Takashi Naito; 貴志内藤
Original assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Current assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Priority date: 2006-12-19
Filing date: 2006-12-19
Publication date: 2008-07-03
Anticipated expiration: 2026-12-19
Also published as: JP4715738B2

Abstract

【課題】精度よく発話区間を検出できる発話検出装置及び発話検出方法を提供する。
【解決手段】カメラ１２により、話者の唇を含んだ画像を連続的に撮像すると共に、マイク１４により話者が発話した音声を集音し、画像処理部１８により、連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいてカメラ１２から話者までの距離及びカメラ１２に対する話者の顔の向きを導出し、閾値決定部２０により、導出した距離が所定範囲内で且つ導出された顔の向きがカメラ１２に対して所定角度範囲内であると共にマイク１４により集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、発話区間検出部２２により、決定した閾値を用いて導出した変形量から発話区間を検出する。
【選択図】図１

Description

本発明は、発話検出装置及び発話検出方法に係り、特に、話者の唇を含んだ画像を連続的に撮像し、唇の形状の変形した度合いから話者の発話区間を検出する発話検出装置及び発話検出方法に関する。

従来から話者が発話した音声をマイク等によって集音して文字データに変換したり、コンピュータを操作したりする音声認識技術が知られている。この音声認識技術では、周囲の騒音などに影響され、話者が発話をしていなくても騒音をもとに音声認識が行われて結果的に誤認識をしてしまう場合がある。

この誤認識を低減させる技術として、話者の唇を含んだ領域の画像をカメラにより連続的に撮像し、撮像された画像の唇の動きから話者が発話している発話区間を検出する技術が研究されている。例えば、特許文献１には、唇の輪郭の垂直方向の距離と基準値との差、あるいは唇の輪郭の曲率値から口の開閉を検出し、複数の対象者の中から発話している話者を特定する技術が開示されており、この技術では、検出された差や曲率値が予め定められた閾値以上でれば発話区間であると判断している。

また、非特許文献１には、現在の口唇パターンと、Ｎフレーム前の口唇パターンとの差から発話評価値を求めて発話状態を判定する技術が開示されており、現在の発話評価値が一定時間（非特許文献１では、１秒）前の発話評価値の２倍以上になると発話が開始されたと判断し、半分以下になると発話が終了したと判断している。
特開２０００−３３８９８７号公報村井ほか、「口周囲画像による頑強な発話検出」、音声言語情報処理３４−１３、２０００

しかしながら、上記特許文献１及び非特許文献１の技術では、精度よく発話区間を判別できない場合がある、という問題点があった。

すなわち、発話する際の唇の動きには個人差があり、発話の際の口の開閉の大きさが異なる場合がある。このため、特許文献１の技術を適用した場合、唇の動きが小さい話者の発話区間を精度よく判別できない場合がある。そこで、唇の動きが小さい話者に合わせて閾値を定めた場合、発話時以外の唇の小さな動きも発話区間と誤判別してしまう場合がある。また、同じ話者が同じ唇の動きをした場合であっても、撮像時の明るさ等の撮像環境の違いによって、検出される前記基準値との差や前記曲率値が異なる場合があり、精度よく発話区間を判別できない場合がある。

また、一般的な会話では、発話の途中で唇の動きが一時的に停止する場合がある。このため、非特許文献１の技術を適用した場合、発話の途中で頻繁に発話開始、発話終了の判定がなされてしまい、結果として精度よく発話区間を判別できない場合がある。

本発明は、上記問題点を解消するためになされたものであり、精度よく発話区間を検出できる発話検出装置及び発話検出方法を提供することを目的とする。

上記目的を達成するため、請求項１に記載の発話検出装置は、話者の唇を含んだ画像を連続的に撮像する撮像手段と、前記話者が発話した音声を集音する音声集音手段と、前記撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出する変形量導出手段と、前記撮像手段により撮像された画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出する話者状態導出手段と、前記話者状態導出手段により導出された前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に前記音声集音手段により集音された前記音声の強度が所定レベル以上である場合に、前記変形量導出手段によって導出された変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定する決定手段と、前記決定手段により決定された閾値を用いて前記変形量導出手段により導出された変形量から発話区間を検出する検出手段と、を備えている。

請求項１記載の発明によれば、撮像手段により、話者の唇を含んだ画像が連続的に撮像され、音声集音手段により、話者が発話した音声が集音され、変形量導出手段により、撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量が導出され、話者状態導出手段により、撮像手段により撮像された画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きが導出される。

そして、本発明によれば、決定手段により、話者状態導出手段によって導出された距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に音声集音手段により集音された音声の強度が所定レベル以上である場合に、変形量導出手段によって導出された変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値が決定され、検出手段により、決定手段によって決定された閾値を用いて変形量導出手段により導出された変形量から発話区間が検出される。

このように、請求項１記載の発明によれば、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に話者が発話した音声を集音し、連続的に撮像した画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、導出した距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した閾値を用いて導出した変形量から発話区間を検出しているので、精度よく発話区間を検出できる。

なお、本発明は、請求項２記載の発明のように、周囲の騒音を集音する騒音集音手段をさらに備え、前記決定手段が、さらに前記騒音集音手段により集音された前記騒音の強度が予め定められたレベル未満である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。

また、本発明は、請求項３記載の発明のように、前記音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段をさらに備え、前記決定手段が、さらに前記音声認識手段より出力された前記精度情報により示される認識精度が予め定められた精度以上である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。

また、本発明は、請求項４記載の発明のように、前記音声集音手段は、２つ以上のマイクにより構成され、各マイクにより集音された音声情報に基づいて前記撮像手段に対する音源の方向を推定する音源推定手段と、前記撮像手段により撮像された画像に基づいて当該撮像手段に対する前記話者の方向を導出する話者方向導出手段と、をさらに備え、前記決定手段は、さらに前記音源推定手段により推定された音源の方向と前記話者方向導出手段により導出された話者の方向の差が所定範囲内である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。

一方、上記目的を達成するため、請求項５に記載の発話検出方法は、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に前記話者が発話した音声を集音し、連続的に撮像した前記画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出し、導出した前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に集音した前記音声の強度が所定レベル以上である場合に導出した変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した前記閾値を用いて導出した前記変形量から発話区間を検出する。

よって、請求項５に記載の発明は、請求項１記載の発明と同様に作用するので、請求項１記載の発明と同様に、精度よく発話区間を検出できる。

以上説明したように、本発明によれば、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に話者が発話した音声を集音し、連続的に撮像した画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、導出した距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した閾値を用いて導出した変形量から発話区間を検出しているので、精度よく発話区間を検出できる、という優れた効果を有する。

以下、図面を参照して本発明の実施の形態について詳細に説明する。なお、以下では、本発明を音声認識装置に適用した場合について説明する。

図１には、本実施の形態に係る音声認識装置１０の構成を示すブロック図が示されている。

同図に示されるように、音声認識装置１０は、ＣＣＤ（Charge Coupled Device）イメージセンサを内蔵し、当該ＣＣＤイメージセンサ上に結像した画像を示す画像情報を出力するカメラ１２と、入力した音声の強度に応じた音声信号を出力する２個のマイク１４、１６と、カメラ１２より出力された画像情報に対して各種の画像処理を行う画像処理部１８と、話者が発話している否かの判別に用いる閾値を決定する閾値決定部２０と、画像処理部１８によって処理された情報に基づいて撮像された話者が発話している発話区間の検出を行う発話区間検出部２２と、マイク１４から出力された音声信号に基づいて音声認識を行う音声認識部２４と、を備えている。

カメラ１２は、話者が所定位置に位置した際に、当該話者の顔を所定サイズ範囲内で撮像可能な位置に設置されている。マイク１４は、前記所定位置に位置した話者が発話した音声を集音可能な位置に設置されている。マイク１６は、周囲の騒音を集音するため、前記所定位置から所定距離だけ離れた位置に設置されている。

カメラ１２は、前記所定位置に位置した話者の顔を、例えば、毎秒３０フレームで連続的に撮像するものとされており、撮像によって得られた各フレーム画像を示す画像情報を画像処理部１８へ順次出力する。

マイク１４は、所定位置に位置した話者が発声した音声を集音するものとされており、話者が発声した音声を示す音声信号を閾値決定部２０及び音声認識部２４へそれぞれ出力する。

マイク１６は、周囲の騒音を集音するものとされており、騒音を示す音声信号を閾値決定部２０へ出力する。

画像処理部１８は、カメラ１２から順次入力される各画像情報により示される各フレーム画像に基づいて唇の形状が変形した度合いを示す変形量を順次導出する。なお、本実施の形態に係る画像処理部１８は、この変形量として、順次入力される各画像情報により示される各フレーム画像に含まれる話者の唇形状を特定し、入力された画像情報により示されるフレーム画像とその画像情報の直前に入力された１または複数の画像情報により示される各画像フレームの唇形状を比較することにより唇の変動量Ｅを導出している。この唇の変動量Ｅを導出する技術は、本出願人が特願２００５−２６２７５１に提案しているので、ここでの詳細な説明を省略する。なお、画像処理部１８は、唇の変動量Ｅに代えて、上述した特許文献１に記載のように、唇の輪郭の垂直方向の距離と基準値との差、あるいは唇の輪郭の曲率値を上記変形量として導出するものとしてもよい。

画像処理部１８は、導出した変動量Ｅを示す変動量情報を閾値決定部２０及び発話区間検出部２２へ順次出力する。

また、画像処理部１８は、フレーム画像内での話者の顔領域のサイズに応じてカメラ１２から話者までの距離を仮定した距離情報を不図示の記憶部に予め記憶しており、当該距離情報に基づいて、順次入力される画像情報により示される各フレーム画像内の話者の顔領域の大きさからカメラ１２から話者までの距離ｄを導出する。なお、本実施の形態では、画像処理部１８に距離情報を予め記憶しておき、フレーム画像内での話者の顔領域の大きさから距離ｄを導出するものとしたが、例えば、カメラ１２の他に当該カメラ１２から所定距離を隔てて同じ領域を撮像するカメラを設け、画像処理部１８が当該２台のカメラにより撮像された画像からステレオ法により距離ｄを導出するものとしてもよく、また、例えば、レーザーレーダ等を用いて距離ｄを導出するものとしてもよい。

さらに、画像処理部１８は、カメラ１２から順次入力される画像情報により示される各フレーム画像内での話者の顔領域に対して、固有空間法等によるパターンマッチングを行うことにより、カメラ１２に対して話者の顔が正面を向いている場合を基準として、顔が水平方向に回転した水平回転角度θ（所謂、パン角。）及び垂直方向に回転した垂直回転角度φ（所謂、チルト角。）を導出している。なお、本実施の形態では、固有空間法によるパターンマッチングを行うことによりカメラ１２に対する話者の顔の向きを導出しているが、その他のパターンマッチング技術等の技術を用いて話者の顔の向きを導出するものとしてもよい。

画像処理部１８は、導出した距離ｄ、水平回転角度θ及び垂直回転角度φを話者状態情報として閾値決定部２０へ出力する。

閾値決定部２０は、後述する閾値決定処理を行って、画像処理部１８から入力された話者状態情報及び変動量情報によりそれぞれ示される距離ｄ、水平回転角度θ、垂直回転角度φ、変動量Ｅや、マイク１４から入力された話者の音声を示す音声信号の強度ｉ_ｖ、マイク１６より入力する騒音を示す音声信号の強度ｉ_ｅ、後述する音声認識部２４から入力される尤度情報により示される尤度ｐに基づいて、発話区間の判別に用いる閾値Ｅ_Ｔｈを決定するものとされており、決定した閾値Ｅ_Ｔｈを示す閾値情報を発話区間検出部２２へ出力する。

発話区間検出部２２は、閾値決定部２０より閾値情報を入力されたことをトリガーとして、閾値決定部２０より入力した閾値情報により示される閾値Ｅ_Ｔｈを用いて、画像処理部１８より入力される変動量情報により示される変動量Ｅを判定して発話区間検出信号の出力を開始する。発話区間検出部２２は、変動量Ｅが閾値Ｅ_Ｔｈ以上であった場合に発話区間であることを示す発話区間検出信号を音声認識部２４へ出力し、変動量Ｅが閾値Ｅ_Ｔｈ未満であった場合に非発話区間であることを示す発話区間検出信号を音声認識部２４へ出力する。

音声認識部２４は、発話区間検出部２２から発話区間検出信号が入力している場合、当該発話区間検出信号が発話区間であることを示している間のみ、マイク１４より入力される音声信号により示される音声の認識を行って文字データに変換し、発話区間検出部２２からの発話区間検出信号が未入力の場合、音声信号により示される音声を順次認識して文字データに変換する。

また、音声認識部２４は、音声を認識して文字データに変換する際に、変換した文字データの認識精度を示す尤度ｐを導出する。この尤度ｐとは、認識した結果のもっともらしさを示す値である。本実施の形態に係る音声認識部２４は、音声を認識すると、例えば、「私」「若い」「たわし」などの変換候補毎にそれぞれに尤度ｐを導出して最も尤度の高い変換候補に変換している。

音声認識部２４は、変換した文字データを図示しない外部装置へ出力し、また、導出した尤度ｐを示す尤度情報を閾値決定部２０へ出力する。

次に、本実施の形態に係る音声認識装置１０の作用を説明する。

カメラ１２は、常時連続的に撮像を行っており、発話者の顔が撮像領域内に入ると、当該発話者の顔を含んだ各フレーム画像を示す画像情報を画像処理部１８へ順次出力する。

画像処理部１８は、カメラ１２から順次入力された画像情報に対して各種の画像処理を行って、当該画像情報により示されるフレーム画像に含まれる話者の唇の変動量Ｅや、カメラ１２から話者までの距離ｄ、カメラ１２に対する話者の顔の水平回転角度θ及び垂直回転角度φを導出し、変動量Ｅを閾値決定部２０及び発話区間検出部２２へそれぞれ出力する共に、距離ｄ、水平回転角度θ及び垂直回転角度φを話者状態情報として閾値決定部２０へ出力する。
。

一方、マイク１４及びマイク１６は、常時音声の集音を行っており、マイク１４は話者が発声した音声を示す音声信号を閾値決定部２０及び音声認識部２４へそれぞれ出力し、マイク１６は周囲の騒音を示す音声信号を閾値決定部２０へ出力する。

音声認識部２４は、マイク１４より入力した音声信号により示される音声を認識して文字データに変換すると共に尤度ｐを導出し、尤度情報を閾値決定部２０へ出力する。

閾値決定部２０は、カメラ１２によって話者が撮像されて画像処理部１８から最初に話者状態情報及び変動量情報が入力されると、以下に示す閾値決定処理を実行する。

図２には、閾値決定部２０において実行される閾値決定処理の流れを示すフローチャートが示されている。

同図のステップ１００では、初期処理として、カウンタＣ及び最大の変動量を記憶するための変数ＭＥをそれぞれ０に初期化する。

次にステップ１０２では、話者状態情報、変動量情報、尤度情報、音声信号の入力待ちを行い、次のステップ１０４では、入力された話者状態情報により示される距離ｄ、水平回転角度θ、垂直回転角度φが以下の（１）式〜（３）式に示される全ての条件を満たしているか否かを判定することにより、カメラ１２によって撮像された話者の顔の位置が発話の検出に適した範囲内にあるか否かを判定し、肯定判定となった場合はステップ１０６へ移行し、否定判定となった場合は上記ステップ１０２へ戻る。

Ｄ_ＭＩＮ＜ｄかつｄ＜Ｄ_ＭＡＸ・・・（１）
θ_ＭＩＮ＜θ かつ θ＜θ_ＭＡＸ・・・（２）
φ_ＭＩＮ＜φ かつ φ＜φ_ＭＡＸ・・・（３）

すなわち、カメラ１２から話者までの距離ｄが遠い場合、話者の唇の動きを精度良く検出できず、また、距離ｄが極端に近い場合、顔の輪郭などを捉えきれなくなるなどにより、画像処理で唇を識別できなくなる場合がある。

また、カメラ１２に対して顔を正面とした場合を基準として、顔が水平方向や垂直方向に大きく傾いていた場合、話者の唇の動きを精度良く検出できない場合がある。

このため、本実施の形態では、カメラ１２の解像度や撮像範囲等に応じて、フレーム画像内での話者の唇のサイズが検出に適したサイズとなるように範囲Ｄ_ＭＩＮ、Ｄ_ＭＡＸを予め定めており、また、フレーム画像内で唇が精度良く検出できるように角度範囲θ_ＭＩＮ、θ_ＭＡＸ及びφ_ＭＩＮ、φ_ＭＡＸを予め定めている。

ステップ１０６では、マイク１４より入力された音声信号の強度ｉ_ｖ、マイク１６より入力された音声信号の強度ｉ_ｅ、尤度情報により示される尤度ｐが以下の（４）式〜（６）式に示される全ての条件を満たしているか否かを判定することにより、話者が実際に発話状態であるか否かを判定し、肯定判定となった場合はステップ１０８へ移行し、否定判定となった場合は上記ステップ１０２へ戻る。

ｉ_Ｖ＞Ｉ_Ｖ・・・（４）
ｐ＞Ｐ_０・・・（５）
ｉ_ｅ＜Ｉ_ｅ・・・（６）

すなわち、マイク１４より入力される音声の強度ｉ_Ｖが低い場合や、尤度ｐが低い場合、話者が実際には発話していない場合がある。また、マイク１６より入力される騒音の強度ｉ_ｅが高い場合、話者が発話した音声を十分に集音できない場合がある。

このため、本実施の形態では、話者が実際には発話していると判別できる強度に発話判定レベルＩ_Ｖ及び発話判定尤度Ｐ_０を予め定めており、また、話者が発話した音声を十分に集音できる強度に騒音判定レベルＩ_ｅを予め定めている。

ステップ１０８では、入力した変動量情報により示される変動量Ｅが変数ＭＥの値よりも大きいか否かを判定し、肯定判定となった場合はステップ１１０へ移行し、否定判定となった場合はステップ１１２へ移行する。

ステップ１１０では、変数ＭＥに変動量Ｅの値を代入し、次のステップ１１２では、カウンタＣの値をインクリメントする。

次のステップ１１４では、カウンタＣの値が所定値Ｎ（例えば、１０００）よりも大きくなったか否かを判定し、肯定判定となった場合はステップ１１６へ移行し、否定判定となった場合は上記ステップ１０２へ戻る。

すなわち、上述したステップ１０２〜ステップ１１４の処理を繰り返すことにより、変数ＭＥには、本閾値決定処理が開始した以降に話者が実際に発話した際の唇の変動量Ｅの最大値が記憶される。

次のステップ１１６では、変数ＭＥの値を以下の（７）式に代入することにより、閾値Ｅ_Ｔｈを算出し、算出した閾値Ｅ_Ｔｈを示す閾値情報を発話区間検出部２２へ出力して、本閾値決定処理は終了となる。

Ｅ_Ｔｈ＝α×ＭＥ・・・（７）
ただし、０＜α＜１

このように、本閾値決定処理によれば、話者が実際に発話した際の唇の変動量Ｅの最大値に基づいて閾値Ｅ_Ｔｈを定めているので、話者の発話を精度良く検出することができる。なお、本実施の形態では、αを０．３としている。

発話区間検出部２２は、閾値決定部２０より閾値情報が入力されると、入力された当該閾値情報により示される閾値Ｅ_Ｔｈを用いて画像処理部１８より入力される変動量情報により示される変動量Ｅの判定を開始し、変動量Ｅが閾値Ｅ_Ｔｈ以上であった場合に発話区間であることを示す発話区間検出信号を音声認識部２４へ出力する一方、変動量Ｅが閾値Ｅ_Ｔｈ未満であった場合に非発話区間であることを示す発話区間検出信号を音声認識部２４へ出力する。

音声認識部２４は、発話区間検出信号が入力されると、入力された当該発話区間検出信号により発話区間と判定されている間のみ入力した音声信号により示される音声を順次認識して文字データに変換し、変換した文字データを図示しない外部装置へ出力する。

以上のように本実施の形態によれば、撮像手段（ここでは、カメラ１２）により、話者の唇を含んだ画像を連続的に撮像し、音声集音手段（ここでは、マイク１４）により、話者が発話した音声を集音し、変形量導出手段（ここでは、画像処理部１８）により、撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出し、話者状態導出手段（ここでは、画像処理部１８）により、撮像手段により撮像された画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、決定手段（ここでは、閾値決定部２０）により、話者状態導出手段により導出された距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に音声集音手段により集音された音声の強度が所定レベル以上である場合に、変形量導出手段によって導出された変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、検出手段により、決定手段によって決定された閾値を用いて変形量導出手段により導出された変形量から発話区間を検出しているので、精度よく発話区間を検出できる。

また、本実施の形態によれば、周囲の騒音を集音する騒音集音手段（ここでは、マイク１６）をさらに備え、決定手段は、さらに騒音集音手段により集音された騒音の強度が予め定められたレベル未満である場合に、変形量導出手段によって導出された変形量に基づいて閾値を決定しているので、話者の発話した音声を十分に集音して閾値が決定できる。

さらに、本実施の形態によれば、音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段（ここでは、音声認識部２４）をさらに備え、決定手段は、さらに音声認識手段より出力された精度情報により示される認識精度が予め定められた精度以上である場合に、変形量導出手段によって導出された変形量に基づいて閾値を決定しているので、話者が発話した音声のうち認識精度の高い音声を発生した際の変動量に基づいて閾値が決定されるため、音声認識の精度が向上する。

ところで、マイク１４により話者が発話した音声以外の音源からの音を集音してしまう場合がある。このため、話者に対して２つ以上のマイク１４を所定間隔を隔て水平に配置して、閾値決定部２０において各マイク１４により集音された音声信号の強度の差からカメラ１２に対する音源の水平方向の角度ψ_ｉを推定すると共に、画像処理部１８において、カメラ１２から順次入力される画像情報により示される各フレーム画像からカメラ１２に対する話者の顔領域の水平方向の角度ψ_Ｓをさらに導出して話者状態情報として閾値決定部２０へ出力させるものとし、閾値決定部２０において実行される閾値決定処理のステップ１０６において上述した（４）式〜（６）式に示される判定に加えて以下の（８）式の条件を満たしているか否かの判定を加えてもよい。

｜ψ_Ｓ−ψ_ｉ｜＜Ψ_ｄ・・・（８）

すなわち、音源が話者であると判別できる角度に角度閾値Ψ_ｄを定めておき、推定された音源の角度ψ_ｉと導出された話者の顔領域の角度ψ_Ｓとの差が当該角度閾値Ψ_ｄ内である場合に音源が話者であると判定し、条件が満たされる場合の唇の変動量Ｅの値を変数ＭＥに変動量Ｅに代入する。

これにより、話者が発話した音声以外の音源からの音がマイク１４で集音されて閾値Ｅ_Ｔｈを算出されてしまうことを防止することができる。

さらに、画像処理部１８は、各フレーム画像からカメラ１２に対する話者の顔領域の水平方向の角度ψ_Ｓに加えてカメラ１２に対する話者の顔領域の垂直方向の角度ζ_Ｓを導出することも可能であり、また、マイク１４の個数や配置位置を変えることにより、閾値決定部２０においてカメラ１２に対する音源の垂直方向の角度ζ_ｉを推定するも可能である。このため、閾値決定処理のステップ１０６において、（８）式に代えて、あるいは、加えて以下の（９）式の条件を満たしているか否かの判定を行うようにしてもよい。

｜ζ_Ｓ−ζ_ｉ｜＜Ζ_ｄ・・・（９）

この角度閾値Ζ_ｄは、角度閾値Ψ_ｄと同様に、音源が話者であると判別できる角度に定めておけばよい。

なお、本実施の形態では、閾値Ｅ_Ｔｈを唇の変動量Ｅの最大値の所定の割合とした場合について説明したが、本発明はこれに限定されるものではなく、例えば、閾値決定処理のステップ１０２〜ステップ１１４の１回のループ毎にそれぞれ求めらる変動量Ｅの平均値としてもよく、また、当該ループ毎にそれぞれ求めらる変動量Ｅの最小値としてもよい。

また、本実施の形態で説明した音声認識装置１０の構成（図１参照。）は、一例であり、本発明の主旨を逸脱しない範囲内において適宜変更可能であることは言うまでもない。

また、本実施の形態で説明したる閾値決定処理の流れ（図２参照。）も一例であり、本発明の主旨を逸脱しない範囲内において適宜変更可能であることは言うまでもない。

実施の形態に係る音声認識装置の概略構成を示すブロック図である。実施の形態に係る閾値決定処理の流れを示すフローチャートである。

符号の説明

１０音声認識装置
１２カメラ
１４マイク
１６マイク
１８画像処理部
２０閾値決定部
２２発話区間判別部
２４音声認識部

Claims

話者の唇を含んだ画像を連続的に撮像する撮像手段と、
前記話者が発話した音声を集音する音声集音手段と、
前記撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出する変形量導出手段と、
前記撮像手段により撮像された画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出する話者状態導出手段と、
前記話者状態導出手段により導出された前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に前記音声集音手段により集音された前記音声の強度が所定レベル以上である場合に、前記変形量導出手段によって導出された変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定する決定手段と、
前記決定手段により決定された閾値を用いて前記変形量導出手段により導出された変形量から発話区間を検出する検出手段と、
を備えた発話検出装置。
周囲の騒音を集音する騒音集音手段をさらに備え、
前記決定手段は、さらに前記騒音集音手段により集音された前記騒音の強度が予め定められたレベル未満である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項１記載の発話検出装置。
前記音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段をさらに備え、
前記決定手段は、さらに前記音声認識手段より出力された前記精度情報により示される認識精度が予め定められた精度以上である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項１又は請求項２記載の発話検出装置。
前記音声集音手段は、２つ以上のマイクにより構成され、
各マイクにより集音された音声情報に基づいて前記撮像手段に対する音源の方向を推定する音源推定手段と、
前記撮像手段により撮像された画像に基づいて当該撮像手段に対する前記話者の方向を導出する話者方向導出手段と、をさらに備え、
前記決定手段は、さらに前記音源推定手段により推定された音源の方向と前記話者方向導出手段により導出された話者の方向の差が所定範囲内である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
請求項１乃至請求項３の何れか１項記載の発話検出装置。
話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に前記話者が発話した音声を集音し、
連続的に撮像した前記画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出し、
導出した前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に集音した前記音声の強度が所定レベル以上である場合に導出した変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、
決定した前記閾値を用いて導出した前記変形量から発話区間を検出する
発話検出方法。