JP2008152125A - 発話検出装置及び発話検出方法 - Google Patents

発話検出装置及び発話検出方法 Download PDF

Info

Publication number
JP2008152125A
JP2008152125A JP2006341568A JP2006341568A JP2008152125A JP 2008152125 A JP2008152125 A JP 2008152125A JP 2006341568 A JP2006341568 A JP 2006341568A JP 2006341568 A JP2006341568 A JP 2006341568A JP 2008152125 A JP2008152125 A JP 2008152125A
Authority
JP
Japan
Prior art keywords
speaker
deformation amount
derived
deriving
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006341568A
Other languages
English (en)
Other versions
JP4715738B2 (ja
Inventor
Takashi Naito
貴志 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Toyota Central R&D Labs Inc
Original Assignee
Toyota Motor Corp
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp, Toyota Central R&D Labs Inc filed Critical Toyota Motor Corp
Priority to JP2006341568A priority Critical patent/JP4715738B2/ja
Publication of JP2008152125A publication Critical patent/JP2008152125A/ja
Application granted granted Critical
Publication of JP4715738B2 publication Critical patent/JP4715738B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】精度よく発話区間を検出できる発話検出装置及び発話検出方法を提供する。
【解決手段】カメラ12により、話者の唇を含んだ画像を連続的に撮像すると共に、マイク14により話者が発話した音声を集音し、画像処理部18により、連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいてカメラ12から話者までの距離及びカメラ12に対する話者の顔の向きを導出し、閾値決定部20により、導出した距離が所定範囲内で且つ導出された顔の向きがカメラ12に対して所定角度範囲内であると共にマイク14により集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、発話区間検出部22により、決定した閾値を用いて導出した変形量から発話区間を検出する。
【選択図】図1

Description

本発明は、発話検出装置及び発話検出方法に係り、特に、話者の唇を含んだ画像を連続的に撮像し、唇の形状の変形した度合いから話者の発話区間を検出する発話検出装置及び発話検出方法に関する。
従来から話者が発話した音声をマイク等によって集音して文字データに変換したり、コンピュータを操作したりする音声認識技術が知られている。この音声認識技術では、周囲の騒音などに影響され、話者が発話をしていなくても騒音をもとに音声認識が行われて結果的に誤認識をしてしまう場合がある。
この誤認識を低減させる技術として、話者の唇を含んだ領域の画像をカメラにより連続的に撮像し、撮像された画像の唇の動きから話者が発話している発話区間を検出する技術が研究されている。例えば、特許文献1には、唇の輪郭の垂直方向の距離と基準値との差、あるいは唇の輪郭の曲率値から口の開閉を検出し、複数の対象者の中から発話している話者を特定する技術が開示されており、この技術では、検出された差や曲率値が予め定められた閾値以上でれば発話区間であると判断している。
また、非特許文献1には、現在の口唇パターンと、Nフレーム前の口唇パターンとの差から発話評価値を求めて発話状態を判定する技術が開示されており、現在の発話評価値が一定時間(非特許文献1では、1秒)前の発話評価値の2倍以上になると発話が開始されたと判断し、半分以下になると発話が終了したと判断している。
特開2000−338987号公報 村井ほか、「口周囲画像による頑強な発話検出」、音声言語情報処理34−13、2000
しかしながら、上記特許文献1及び非特許文献1の技術では、精度よく発話区間を判別できない場合がある、という問題点があった。
すなわち、発話する際の唇の動きには個人差があり、発話の際の口の開閉の大きさが異なる場合がある。このため、特許文献1の技術を適用した場合、唇の動きが小さい話者の発話区間を精度よく判別できない場合がある。そこで、唇の動きが小さい話者に合わせて閾値を定めた場合、発話時以外の唇の小さな動きも発話区間と誤判別してしまう場合がある。また、同じ話者が同じ唇の動きをした場合であっても、撮像時の明るさ等の撮像環境の違いによって、検出される前記基準値との差や前記曲率値が異なる場合があり、精度よく発話区間を判別できない場合がある。
また、一般的な会話では、発話の途中で唇の動きが一時的に停止する場合がある。このため、非特許文献1の技術を適用した場合、発話の途中で頻繁に発話開始、発話終了の判定がなされてしまい、結果として精度よく発話区間を判別できない場合がある。
本発明は、上記問題点を解消するためになされたものであり、精度よく発話区間を検出できる発話検出装置及び発話検出方法を提供することを目的とする。
上記目的を達成するため、請求項1に記載の発話検出装置は、話者の唇を含んだ画像を連続的に撮像する撮像手段と、前記話者が発話した音声を集音する音声集音手段と、前記撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出する変形量導出手段と、前記撮像手段により撮像された画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出する話者状態導出手段と、前記話者状態導出手段により導出された前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に前記音声集音手段により集音された前記音声の強度が所定レベル以上である場合に、前記変形量導出手段によって導出された変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定する決定手段と、前記決定手段により決定された閾値を用いて前記変形量導出手段により導出された変形量から発話区間を検出する検出手段と、を備えている。
請求項1記載の発明によれば、撮像手段により、話者の唇を含んだ画像が連続的に撮像され、音声集音手段により、話者が発話した音声が集音され、変形量導出手段により、撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量が導出され、話者状態導出手段により、撮像手段により撮像された画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きが導出される。
そして、本発明によれば、決定手段により、話者状態導出手段によって導出された距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に音声集音手段により集音された音声の強度が所定レベル以上である場合に、変形量導出手段によって導出された変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値が決定され、検出手段により、決定手段によって決定された閾値を用いて変形量導出手段により導出された変形量から発話区間が検出される。
このように、請求項1記載の発明によれば、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に話者が発話した音声を集音し、連続的に撮像した画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、導出した距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した閾値を用いて導出した変形量から発話区間を検出しているので、精度よく発話区間を検出できる。
なお、本発明は、請求項2記載の発明のように、周囲の騒音を集音する騒音集音手段をさらに備え、前記決定手段が、さらに前記騒音集音手段により集音された前記騒音の強度が予め定められたレベル未満である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。
また、本発明は、請求項3記載の発明のように、前記音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段をさらに備え、前記決定手段が、さらに前記音声認識手段より出力された前記精度情報により示される認識精度が予め定められた精度以上である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。
また、本発明は、請求項4記載の発明のように、前記音声集音手段は、2つ以上のマイクにより構成され、各マイクにより集音された音声情報に基づいて前記撮像手段に対する音源の方向を推定する音源推定手段と、前記撮像手段により撮像された画像に基づいて当該撮像手段に対する前記話者の方向を導出する話者方向導出手段と、をさらに備え、前記決定手段は、さらに前記音源推定手段により推定された音源の方向と前記話者方向導出手段により導出された話者の方向の差が所定範囲内である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定してもよい。
一方、上記目的を達成するため、請求項5に記載の発話検出方法は、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に前記話者が発話した音声を集音し、連続的に撮像した前記画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出し、導出した前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に集音した前記音声の強度が所定レベル以上である場合に導出した変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した前記閾値を用いて導出した前記変形量から発話区間を検出する。
よって、請求項5に記載の発明は、請求項1記載の発明と同様に作用するので、請求項1記載の発明と同様に、精度よく発話区間を検出できる。
以上説明したように、本発明によれば、話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に話者が発話した音声を集音し、連続的に撮像した画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、導出した距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に集音した音声の強度が所定レベル以上である場合に導出した変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、決定した閾値を用いて導出した変形量から発話区間を検出しているので、精度よく発話区間を検出できる、という優れた効果を有する。
以下、図面を参照して本発明の実施の形態について詳細に説明する。なお、以下では、本発明を音声認識装置に適用した場合について説明する。
図1には、本実施の形態に係る音声認識装置10の構成を示すブロック図が示されている。
同図に示されるように、音声認識装置10は、CCD(Charge Coupled Device)イメージセンサを内蔵し、当該CCDイメージセンサ上に結像した画像を示す画像情報を出力するカメラ12と、入力した音声の強度に応じた音声信号を出力する2個のマイク14、16と、カメラ12より出力された画像情報に対して各種の画像処理を行う画像処理部18と、話者が発話している否かの判別に用いる閾値を決定する閾値決定部20と、画像処理部18によって処理された情報に基づいて撮像された話者が発話している発話区間の検出を行う発話区間検出部22と、マイク14から出力された音声信号に基づいて音声認識を行う音声認識部24と、を備えている。
カメラ12は、話者が所定位置に位置した際に、当該話者の顔を所定サイズ範囲内で撮像可能な位置に設置されている。マイク14は、前記所定位置に位置した話者が発話した音声を集音可能な位置に設置されている。マイク16は、周囲の騒音を集音するため、前記所定位置から所定距離だけ離れた位置に設置されている。
カメラ12は、前記所定位置に位置した話者の顔を、例えば、毎秒30フレームで連続的に撮像するものとされており、撮像によって得られた各フレーム画像を示す画像情報を画像処理部18へ順次出力する。
マイク14は、所定位置に位置した話者が発声した音声を集音するものとされており、話者が発声した音声を示す音声信号を閾値決定部20及び音声認識部24へそれぞれ出力する。
マイク16は、周囲の騒音を集音するものとされており、騒音を示す音声信号を閾値決定部20へ出力する。
画像処理部18は、カメラ12から順次入力される各画像情報により示される各フレーム画像に基づいて唇の形状が変形した度合いを示す変形量を順次導出する。なお、本実施の形態に係る画像処理部18は、この変形量として、順次入力される各画像情報により示される各フレーム画像に含まれる話者の唇形状を特定し、入力された画像情報により示されるフレーム画像とその画像情報の直前に入力された1または複数の画像情報により示される各画像フレームの唇形状を比較することにより唇の変動量Eを導出している。この唇の変動量Eを導出する技術は、本出願人が特願2005−262751に提案しているので、ここでの詳細な説明を省略する。なお、画像処理部18は、唇の変動量Eに代えて、上述した特許文献1に記載のように、唇の輪郭の垂直方向の距離と基準値との差、あるいは唇の輪郭の曲率値を上記変形量として導出するものとしてもよい。
画像処理部18は、導出した変動量Eを示す変動量情報を閾値決定部20及び発話区間検出部22へ順次出力する。
また、画像処理部18は、フレーム画像内での話者の顔領域のサイズに応じてカメラ12から話者までの距離を仮定した距離情報を不図示の記憶部に予め記憶しており、当該距離情報に基づいて、順次入力される画像情報により示される各フレーム画像内の話者の顔領域の大きさからカメラ12から話者までの距離dを導出する。なお、本実施の形態では、画像処理部18に距離情報を予め記憶しておき、フレーム画像内での話者の顔領域の大きさから距離dを導出するものとしたが、例えば、カメラ12の他に当該カメラ12から所定距離を隔てて同じ領域を撮像するカメラを設け、画像処理部18が当該2台のカメラにより撮像された画像からステレオ法により距離dを導出するものとしてもよく、また、例えば、レーザーレーダ等を用いて距離dを導出するものとしてもよい。
さらに、画像処理部18は、カメラ12から順次入力される画像情報により示される各フレーム画像内での話者の顔領域に対して、固有空間法等によるパターンマッチングを行うことにより、カメラ12に対して話者の顔が正面を向いている場合を基準として、顔が水平方向に回転した水平回転角度θ(所謂、パン角。)及び垂直方向に回転した垂直回転角度φ(所謂、チルト角。)を導出している。なお、本実施の形態では、固有空間法によるパターンマッチングを行うことによりカメラ12に対する話者の顔の向きを導出しているが、その他のパターンマッチング技術等の技術を用いて話者の顔の向きを導出するものとしてもよい。
画像処理部18は、導出した距離d、水平回転角度θ及び垂直回転角度φを話者状態情報として閾値決定部20へ出力する。
閾値決定部20は、後述する閾値決定処理を行って、画像処理部18から入力された話者状態情報及び変動量情報によりそれぞれ示される距離d、水平回転角度θ、垂直回転角度φ、変動量Eや、マイク14から入力された話者の音声を示す音声信号の強度i、マイク16より入力する騒音を示す音声信号の強度i、後述する音声認識部24から入力される尤度情報により示される尤度pに基づいて、発話区間の判別に用いる閾値EThを決定するものとされており、決定した閾値EThを示す閾値情報を発話区間検出部22へ出力する。
発話区間検出部22は、閾値決定部20より閾値情報を入力されたことをトリガーとして、閾値決定部20より入力した閾値情報により示される閾値EThを用いて、画像処理部18より入力される変動量情報により示される変動量Eを判定して発話区間検出信号の出力を開始する。発話区間検出部22は、変動量Eが閾値ETh以上であった場合に発話区間であることを示す発話区間検出信号を音声認識部24へ出力し、変動量Eが閾値ETh未満であった場合に非発話区間であることを示す発話区間検出信号を音声認識部24へ出力する。
音声認識部24は、発話区間検出部22から発話区間検出信号が入力している場合、当該発話区間検出信号が発話区間であることを示している間のみ、マイク14より入力される音声信号により示される音声の認識を行って文字データに変換し、発話区間検出部22からの発話区間検出信号が未入力の場合、音声信号により示される音声を順次認識して文字データに変換する。
また、音声認識部24は、音声を認識して文字データに変換する際に、変換した文字データの認識精度を示す尤度pを導出する。この尤度pとは、認識した結果のもっともらしさを示す値である。本実施の形態に係る音声認識部24は、音声を認識すると、例えば、「私」「若い」「たわし」などの変換候補毎にそれぞれに尤度pを導出して最も尤度の高い変換候補に変換している。
音声認識部24は、変換した文字データを図示しない外部装置へ出力し、また、導出した尤度pを示す尤度情報を閾値決定部20へ出力する。
次に、本実施の形態に係る音声認識装置10の作用を説明する。
カメラ12は、常時連続的に撮像を行っており、発話者の顔が撮像領域内に入ると、当該発話者の顔を含んだ各フレーム画像を示す画像情報を画像処理部18へ順次出力する。
画像処理部18は、カメラ12から順次入力された画像情報に対して各種の画像処理を行って、当該画像情報により示されるフレーム画像に含まれる話者の唇の変動量Eや、カメラ12から話者までの距離d、カメラ12に対する話者の顔の水平回転角度θ及び垂直回転角度φを導出し、変動量Eを閾値決定部20及び発話区間検出部22へそれぞれ出力する共に、距離d、水平回転角度θ及び垂直回転角度φを話者状態情報として閾値決定部20へ出力する。
一方、マイク14及びマイク16は、常時音声の集音を行っており、マイク14は話者が発声した音声を示す音声信号を閾値決定部20及び音声認識部24へそれぞれ出力し、マイク16は周囲の騒音を示す音声信号を閾値決定部20へ出力する。
音声認識部24は、マイク14より入力した音声信号により示される音声を認識して文字データに変換すると共に尤度pを導出し、尤度情報を閾値決定部20へ出力する。
閾値決定部20は、カメラ12によって話者が撮像されて画像処理部18から最初に話者状態情報及び変動量情報が入力されると、以下に示す閾値決定処理を実行する。
図2には、閾値決定部20において実行される閾値決定処理の流れを示すフローチャートが示されている。
同図のステップ100では、初期処理として、カウンタC及び最大の変動量を記憶するための変数MEをそれぞれ0に初期化する。
次にステップ102では、話者状態情報、変動量情報、尤度情報、音声信号の入力待ちを行い、次のステップ104では、入力された話者状態情報により示される距離d、水平回転角度θ、垂直回転角度φが以下の(1)式〜(3)式に示される全ての条件を満たしているか否かを判定することにより、カメラ12によって撮像された話者の顔の位置が発話の検出に適した範囲内にあるか否かを判定し、肯定判定となった場合はステップ106へ移行し、否定判定となった場合は上記ステップ102へ戻る。
MIN<d かつ d<DMAX ・・・(1)
θMIN<θ かつ θ<θMAX ・・・(2)
φMIN<φ かつ φ<φMAX ・・・(3)
すなわち、カメラ12から話者までの距離dが遠い場合、話者の唇の動きを精度良く検出できず、また、距離dが極端に近い場合、顔の輪郭などを捉えきれなくなるなどにより、画像処理で唇を識別できなくなる場合がある。
また、カメラ12に対して顔を正面とした場合を基準として、顔が水平方向や垂直方向に大きく傾いていた場合、話者の唇の動きを精度良く検出できない場合がある。
このため、本実施の形態では、カメラ12の解像度や撮像範囲等に応じて、フレーム画像内での話者の唇のサイズが検出に適したサイズとなるように範囲DMIN、DMAXを予め定めており、また、フレーム画像内で唇が精度良く検出できるように角度範囲θMIN、θMAX及びφMIN、φMAXを予め定めている。
ステップ106では、マイク14より入力された音声信号の強度i、マイク16より入力された音声信号の強度i、尤度情報により示される尤度pが以下の(4)式〜(6)式に示される全ての条件を満たしているか否かを判定することにより、話者が実際に発話状態であるか否かを判定し、肯定判定となった場合はステップ108へ移行し、否定判定となった場合は上記ステップ102へ戻る。
>I ・・・(4)
p>P ・・・(5)
<I ・・・(6)
すなわち、マイク14より入力される音声の強度iが低い場合や、尤度pが低い場合、話者が実際には発話していない場合がある。また、マイク16より入力される騒音の強度iが高い場合、話者が発話した音声を十分に集音できない場合がある。
このため、本実施の形態では、話者が実際には発話していると判別できる強度に発話判定レベルI及び発話判定尤度Pを予め定めており、また、話者が発話した音声を十分に集音できる強度に騒音判定レベルIを予め定めている。
ステップ108では、入力した変動量情報により示される変動量Eが変数MEの値よりも大きいか否かを判定し、肯定判定となった場合はステップ110へ移行し、否定判定となった場合はステップ112へ移行する。
ステップ110では、変数MEに変動量Eの値を代入し、次のステップ112では、カウンタCの値をインクリメントする。
次のステップ114では、カウンタCの値が所定値N(例えば、1000)よりも大きくなったか否かを判定し、肯定判定となった場合はステップ116へ移行し、否定判定となった場合は上記ステップ102へ戻る。
すなわち、上述したステップ102〜ステップ114の処理を繰り返すことにより、変数MEには、本閾値決定処理が開始した以降に話者が実際に発話した際の唇の変動量Eの最大値が記憶される。
次のステップ116では、変数MEの値を以下の(7)式に代入することにより、閾値EThを算出し、算出した閾値EThを示す閾値情報を発話区間検出部22へ出力して、本閾値決定処理は終了となる。
Th=α×ME・・・(7)
ただし、0<α<1
このように、本閾値決定処理によれば、話者が実際に発話した際の唇の変動量Eの最大値に基づいて閾値EThを定めているので、話者の発話を精度良く検出することができる。なお、本実施の形態では、αを0.3としている。
発話区間検出部22は、閾値決定部20より閾値情報が入力されると、入力された当該閾値情報により示される閾値EThを用いて画像処理部18より入力される変動量情報により示される変動量Eの判定を開始し、変動量Eが閾値ETh以上であった場合に発話区間であることを示す発話区間検出信号を音声認識部24へ出力する一方、変動量Eが閾値ETh未満であった場合に非発話区間であることを示す発話区間検出信号を音声認識部24へ出力する。
音声認識部24は、発話区間検出信号が入力されると、入力された当該発話区間検出信号により発話区間と判定されている間のみ入力した音声信号により示される音声を順次認識して文字データに変換し、変換した文字データを図示しない外部装置へ出力する。
以上のように本実施の形態によれば、撮像手段(ここでは、カメラ12)により、話者の唇を含んだ画像を連続的に撮像し、音声集音手段(ここでは、マイク14)により、話者が発話した音声を集音し、変形量導出手段(ここでは、画像処理部18)により、撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出し、話者状態導出手段(ここでは、画像処理部18)により、撮像手段により撮像された画像に基づいて撮像手段から話者までの距離及び撮像手段に対する話者の顔の向きを導出し、決定手段(ここでは、閾値決定部20)により、話者状態導出手段により導出された距離が所定範囲内で且つ導出された顔の向きが撮像手段に対して所定角度範囲内であると共に音声集音手段により集音された音声の強度が所定レベル以上である場合に、変形量導出手段によって導出された変形量に基づいて話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、検出手段により、決定手段によって決定された閾値を用いて変形量導出手段により導出された変形量から発話区間を検出しているので、精度よく発話区間を検出できる。
また、本実施の形態によれば、周囲の騒音を集音する騒音集音手段(ここでは、マイク16)をさらに備え、決定手段は、さらに騒音集音手段により集音された騒音の強度が予め定められたレベル未満である場合に、変形量導出手段によって導出された変形量に基づいて閾値を決定しているので、話者の発話した音声を十分に集音して閾値が決定できる。
さらに、本実施の形態によれば、音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段(ここでは、音声認識部24)をさらに備え、決定手段は、さらに音声認識手段より出力された精度情報により示される認識精度が予め定められた精度以上である場合に、変形量導出手段によって導出された変形量に基づいて閾値を決定しているので、話者が発話した音声のうち認識精度の高い音声を発生した際の変動量に基づいて閾値が決定されるため、音声認識の精度が向上する。
ところで、マイク14により話者が発話した音声以外の音源からの音を集音してしまう場合がある。このため、話者に対して2つ以上のマイク14を所定間隔を隔て水平に配置して、閾値決定部20において各マイク14により集音された音声信号の強度の差からカメラ12に対する音源の水平方向の角度ψを推定すると共に、画像処理部18において、カメラ12から順次入力される画像情報により示される各フレーム画像からカメラ12に対する話者の顔領域の水平方向の角度ψをさらに導出して話者状態情報として閾値決定部20へ出力させるものとし、閾値決定部20において実行される閾値決定処理のステップ106において上述した(4)式〜(6)式に示される判定に加えて以下の(8)式の条件を満たしているか否かの判定を加えてもよい。
|ψ−ψ|<Ψ ・・・(8)
すなわち、音源が話者であると判別できる角度に角度閾値Ψを定めておき、推定された音源の角度ψと導出された話者の顔領域の角度ψとの差が当該角度閾値Ψ内である場合に音源が話者であると判定し、条件が満たされる場合の唇の変動量Eの値を変数MEに変動量Eに代入する。
これにより、話者が発話した音声以外の音源からの音がマイク14で集音されて閾値EThを算出されてしまうことを防止することができる。
さらに、画像処理部18は、各フレーム画像からカメラ12に対する話者の顔領域の水平方向の角度ψに加えてカメラ12に対する話者の顔領域の垂直方向の角度ζを導出することも可能であり、また、マイク14の個数や配置位置を変えることにより、閾値決定部20においてカメラ12に対する音源の垂直方向の角度ζを推定するも可能である。このため、閾値決定処理のステップ106において、(8)式に代えて、あるいは、加えて以下の(9)式の条件を満たしているか否かの判定を行うようにしてもよい。
|ζ−ζ|<Ζ ・・・(9)
この角度閾値Ζは、角度閾値Ψと同様に、音源が話者であると判別できる角度に定めておけばよい。
なお、本実施の形態では、閾値EThを唇の変動量Eの最大値の所定の割合とした場合について説明したが、本発明はこれに限定されるものではなく、例えば、閾値決定処理のステップ102〜ステップ114の1回のループ毎にそれぞれ求めらる変動量Eの平均値としてもよく、また、当該ループ毎にそれぞれ求めらる変動量Eの最小値としてもよい。
また、本実施の形態で説明した音声認識装置10の構成(図1参照。)は、一例であり、本発明の主旨を逸脱しない範囲内において適宜変更可能であることは言うまでもない。
また、本実施の形態で説明したる閾値決定処理の流れ(図2参照。)も一例であり、本発明の主旨を逸脱しない範囲内において適宜変更可能であることは言うまでもない。
実施の形態に係る音声認識装置の概略構成を示すブロック図である。 実施の形態に係る閾値決定処理の流れを示すフローチャートである。
符号の説明
10 音声認識装置
12 カメラ
14 マイク
16 マイク
18 画像処理部
20 閾値決定部
22 発話区間判別部
24 音声認識部

Claims (5)

  1. 話者の唇を含んだ画像を連続的に撮像する撮像手段と、
    前記話者が発話した音声を集音する音声集音手段と、
    前記撮像手段により連続的に撮像された画像に基づいて唇の形状が変形した度合いを示す変形量を導出する変形量導出手段と、
    前記撮像手段により撮像された画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出する話者状態導出手段と、
    前記話者状態導出手段により導出された前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に前記音声集音手段により集音された前記音声の強度が所定レベル以上である場合に、前記変形量導出手段によって導出された変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定する決定手段と、
    前記決定手段により決定された閾値を用いて前記変形量導出手段により導出された変形量から発話区間を検出する検出手段と、
    を備えた発話検出装置。
  2. 周囲の騒音を集音する騒音集音手段をさらに備え、
    前記決定手段は、さらに前記騒音集音手段により集音された前記騒音の強度が予め定められたレベル未満である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
    請求項1記載の発話検出装置。
  3. 前記音声集音手段により集音された音声の音声認識を行って認識精度を示す精度情報を出力する音声認識手段をさらに備え、
    前記決定手段は、さらに前記音声認識手段より出力された前記精度情報により示される認識精度が予め定められた精度以上である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
    請求項1又は請求項2記載の発話検出装置。
  4. 前記音声集音手段は、2つ以上のマイクにより構成され、
    各マイクにより集音された音声情報に基づいて前記撮像手段に対する音源の方向を推定する音源推定手段と、
    前記撮像手段により撮像された画像に基づいて当該撮像手段に対する前記話者の方向を導出する話者方向導出手段と、をさらに備え、
    前記決定手段は、さらに前記音源推定手段により推定された音源の方向と前記話者方向導出手段により導出された話者の方向の差が所定範囲内である場合に、前記変形量導出手段によって導出された前記変形量に基づいて前記閾値を決定する
    請求項1乃至請求項3の何れか1項記載の発話検出装置。
  5. 話者の唇を含んだ画像を撮像手段により連続的に撮像すると共に前記話者が発話した音声を集音し、
    連続的に撮像した前記画像に基づいて唇の形状が変形した度合いを示す変形量を導出すると共に当該画像に基づいて前記撮像手段から前記話者までの距離及び前記撮像手段に対する前記話者の顔の向きを導出し、
    導出した前記距離が所定範囲内で且つ導出された前記顔の向きが前記撮像手段に対して所定角度範囲内であると共に集音した前記音声の強度が所定レベル以上である場合に導出した変形量に基づいて前記話者が発話している発話区間の判別に用いる当該変形量の閾値を決定し、
    決定した前記閾値を用いて導出した前記変形量から発話区間を検出する
    発話検出方法。
JP2006341568A 2006-12-19 2006-12-19 発話検出装置及び発話検出方法 Expired - Fee Related JP4715738B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006341568A JP4715738B2 (ja) 2006-12-19 2006-12-19 発話検出装置及び発話検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006341568A JP4715738B2 (ja) 2006-12-19 2006-12-19 発話検出装置及び発話検出方法

Publications (2)

Publication Number Publication Date
JP2008152125A true JP2008152125A (ja) 2008-07-03
JP4715738B2 JP4715738B2 (ja) 2011-07-06

Family

ID=39654327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006341568A Expired - Fee Related JP4715738B2 (ja) 2006-12-19 2006-12-19 発話検出装置及び発話検出方法

Country Status (1)

Country Link
JP (1) JP4715738B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010098546A2 (ko) * 2009-02-27 2010-09-02 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP2012014394A (ja) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP2016033530A (ja) * 2014-07-30 2016-03-10 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
WO2016098228A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 音声認識装置および音声認識方法
WO2017031860A1 (zh) * 2015-08-24 2017-03-02 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
CN108154140A (zh) * 2018-01-22 2018-06-12 北京百度网讯科技有限公司 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
CN110634505A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人
JP2020003783A (ja) * 2018-06-21 2020-01-09 カシオ計算機株式会社 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット
JP2021021749A (ja) * 2019-07-24 2021-02-18 富士通株式会社 検出プログラム、検出方法、検出装置
CN112578338A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
CN112581981A (zh) * 2020-11-04 2021-03-30 北京百度网讯科技有限公司 人机交互方法、装置、计算机设备和存储介质
CN113194333A (zh) * 2021-03-01 2021-07-30 招商银行股份有限公司 视频剪辑方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844385A (ja) * 1994-08-02 1996-02-16 Sanyo Electric Co Ltd 雑音区間検出装置
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2005276230A (ja) * 2005-04-18 2005-10-06 Toshiba Corp 画像認識装置
JP2006039267A (ja) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd 音声入力装置
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844385A (ja) * 1994-08-02 1996-02-16 Sanyo Electric Co Ltd 雑音区間検出装置
JP2000338987A (ja) * 1999-05-28 2000-12-08 Mitsubishi Electric Corp 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム
JP2006039267A (ja) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd 音声入力装置
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置
JP2005276230A (ja) * 2005-04-18 2005-10-06 Toshiba Corp 画像認識装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9431029B2 (en) 2009-02-27 2016-08-30 Korea University Industrial & Academic Collaboration Foundation Method for detecting voice section from time-space by using audio and video information and apparatus thereof
WO2010098546A3 (ko) * 2009-02-27 2010-10-21 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
WO2010098546A2 (ko) * 2009-02-27 2010-09-02 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP2012014394A (ja) * 2010-06-30 2012-01-19 Nippon Hoso Kyokai <Nhk> ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
JP2016033530A (ja) * 2014-07-30 2016-03-10 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
WO2016098228A1 (ja) * 2014-12-18 2016-06-23 三菱電機株式会社 音声認識装置および音声認識方法
JPWO2016098228A1 (ja) * 2014-12-18 2017-04-27 三菱電機株式会社 音声認識装置および音声認識方法
CN107004405A (zh) * 2014-12-18 2017-08-01 三菱电机株式会社 语音识别装置和语音识别方法
WO2017031860A1 (zh) * 2015-08-24 2017-03-02 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
CN108154140A (zh) * 2018-01-22 2018-06-12 北京百度网讯科技有限公司 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
JP2019128938A (ja) * 2018-01-22 2019-08-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体
US10810413B2 (en) 2018-01-22 2020-10-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Wakeup method, apparatus and device based on lip reading, and computer readable medium
CN110634505A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人
JP2020003783A (ja) * 2018-06-21 2020-01-09 カシオ計算機株式会社 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット
JP7351105B2 (ja) 2018-06-21 2023-09-27 カシオ計算機株式会社 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット
JP2021021749A (ja) * 2019-07-24 2021-02-18 富士通株式会社 検出プログラム、検出方法、検出装置
JP7331523B2 (ja) 2019-07-24 2023-08-23 富士通株式会社 検出プログラム、検出方法、検出装置
CN112578338A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
CN112578338B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
CN112581981A (zh) * 2020-11-04 2021-03-30 北京百度网讯科技有限公司 人机交互方法、装置、计算机设备和存储介质
CN112581981B (zh) * 2020-11-04 2023-11-03 北京百度网讯科技有限公司 人机交互方法、装置、计算机设备和存储介质
CN113194333A (zh) * 2021-03-01 2021-07-30 招商银行股份有限公司 视频剪辑方法、装置、设备及计算机可读存储介质
CN113194333B (zh) * 2021-03-01 2023-05-16 招商银行股份有限公司 视频剪辑方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
JP4715738B2 (ja) 2011-07-06

Similar Documents

Publication Publication Date Title
JP4715738B2 (ja) 発話検出装置及び発話検出方法
US6185529B1 (en) Speech recognition aided by lateral profile image
JP4847022B2 (ja) 発声内容認識装置
US9595259B2 (en) Sound source-separating device and sound source-separating method
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
JP4204541B2 (ja) 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP6230726B2 (ja) 音声認識装置および音声認識方法
JP4286860B2 (ja) 動作内容判定装置
JP2007156493A (ja) 音声区間検出装置及び方法並びに音声認識システム
CN107221324B (zh) 语音处理方法及装置
JP4825552B2 (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP2011191423A (ja) 発話認識装置、発話認識方法
JP2006251266A (ja) 視聴覚連携認識方法および装置
JP2011101110A (ja) 撮像装置
CN110750152A (zh) 一种基于唇部动作的人机交互方法和系统
CN111933136A (zh) 一种辅助语音识别控制方法和装置
JP2012242609A (ja) 音声認識装置、ロボット、及び音声認識方法
WO2020250828A1 (ja) 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
JP2014060491A (ja) 視聴状況判定装置、識別器構築装置、視聴状況判定方法、識別器構築方法およびプログラム
JP2005165887A (ja) 単語認識装置
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
JP2019049829A (ja) 目的区間判別装置、モデル学習装置、及びプログラム
KR20170052082A (ko) 적외선 검출 기반 음성인식 방법 및 장치
JP4017748B2 (ja) 発話速度計測システム、方法および記録媒体
JP5465166B2 (ja) 発声内容認識装置および発声内容認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090703

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20091111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110314

R151 Written notification of patent or utility model registration

Ref document number: 4715738

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees