JP5215826B2

JP5215826B2 - 複数信号区間推定装置とその方法とプログラム

Info

Publication number: JP5215826B2
Application number: JP2008303615A
Authority: JP
Inventors: 健太郎石塚; 章子荒木; 和弘大塚; 雅清藤本; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-11-28
Filing date: 2008-11-28
Publication date: 2013-06-19
Anticipated expiration: 2028-11-28
Also published as: JP2010130411A

Description

この発明は、会議や会話のような、一人以上が参加する談話を記録したデータから、どの参加者がいつ発話したかを推定する複数信号区間推定装置とその方法と、プログラムに関する。

会議や会話等の人と人とが行う談話の音声や映像のデータを収録して、これらのデータを自動的に分析して適切なインデックスを付与することが出来れば、必要な情報への効率的なアクセスが可能となり、会議録や要約の自動生成を行う技術の実現につながる。このような自動インデックス付与を行うための最も基本的な情報としては、談話中に「誰がいつ話したか？」を捉える必要がある。この内「いつ」を検出するには、観測データの中から発話の無い区間を排除し、発話のある区間を検出する必要がある。また、「誰が」を検出するには、発話区間検出により得られた発話区間の内、どの区間がどの発話者によるものかを分類する必要がある。

このような技術は話者決定技術と言われ、マイクロホンアレイで収録された音響情報を用いて、発話区間検出を行って得られた発話区間に対し、話者の分類を行う技術（非特許文献１）や、発話区間検出と話者分類技術を確率的に統合する技術（非特許文献２）等が従来提案されて来た。
Tranter,S.E.and Reynolds,D.A.,"An overview of automatic speaker diarization systems,"IEEE Trans.on Audio,Speech,and Language Processing,vol.14,pp.1557-1565,2006. Araki,S.,Fujimoto,M.,Ishizuka,K.,Sawada,H.,and Makino,S."A DOA based speaker diarization system for real meetings,"Proceedings of the 5th Joint Workshop on Hands-free Speech Communication and Microphone Arrays,pp.29-32,2008.

しかし、音声のみを用いた話者決定技術は、話者が音声を発さずに移動した場合などで精度が落ちる問題があった。その問題を解決するために、談話参加者が発話のない状況で移動後に再び発話した場合、発話直後に発話者が居るかどうかを判定するための処理が必要であった。また、音響情報に加えて映像信号も同時に使用することにより、発話者の追跡の精度を向上させる方法も考えられている。例えば、人物の動きの有無と発話の有無に基づいて高精度に人物追跡を行う技術、検出精度の高さに応じて映像と音声の情報のどちらを用いるか優先付けする技術、音声尤度と映像尤度の両方を用いることで話者の位置を検出する技術、顔画像を分析して会議で注目を集めている人間を推定して注目されている人間が発話しているか否かを検出することで会議を記録する技術等がある。しかし、このような技術では、発話区間検出や移動物体検出等の要素技術から得られる情報を確定的に扱っており、精度の低い要素技術の性能が後段の処理に波及し（ボトルネックとなり）、システム全体の性能が低下する問題があった。

この発明は、このような点に鑑みてなされたものであり、マイクロホンで観測される音響信号から得られる情報と、カメラで観測される映像信号から得られる情報を統合することで、発話者の追跡精度を向上させた複数信号区間推定装置とその方法と、プログラムを提供することを目的とする。

この発明の複数信号区間推定装置は、センサ部と、音声信号区間推定部と、信号到来方向算出部と、発話者方向推定部と、顔位置検出部と、情報統合部とを具備する。センサ部は、同一の水平面上に配置された複数のマイクロホンと１台以上のカメラを備え、音響信号と映像信号を出力する。音声信号区間推定部は、マイクロホンからの音響信号を周波数分析して得られる周波数ビン毎のスペクトルを用いて雑音信号のパワーを推定し、当該雑音信号のパワーから当該周波数ビン毎のスペクトルが目的信号を含まない尤度と雑音信号中に目的信号を含む尤度との比である尤度比を求め、当該尤度比から求めた当該周波数ビン毎のスペクトルにおける音声の存在確率を、上記水平面の全領域における音声の存在確率として推定する。信号到来方向算出部は、上記周波数ビン毎のスペクトルについて、上記複数のマイクロホン中の予め定めた基準マイクロホンで観測された音響信号に対応するスペクトルとの位相差および複数のマイクロホンの配置情報を用いて、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向を求める。発話者方向推定部は、上記水平面の全領域を上記基準マイクロホンを中心とする複数の領域に分割したときの各領域ｒについて、上記周波数ビンに対応する音響信号の到来方向を用いて当該領域ｒから到来する音響信号のパワーを推定し、推定した各領域ｒから到来する音響信号のパワーに基づいて上記複数の領域ｒを予め定めた数のクラスタに分類し、上記各領域ｒにおける発話者の存在確率を、当該領域ｒを含むクラスタのうち、上記基準マイクロホンから見た当該話者を表すクラスタの重心の方向と、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向との差が所定の閾値より小さくなるような上記周波数ビンの数に比例する値を、上記各領域ｒにおける発話者の存在確率として推定する。顔位置検出部は、カメラからの映像信号を入力として、上記基準マイクロホンから見た談話参加者の顔の方向角θ_ｎ ^Ｖ（τ）を求め、引数を上記基準マイクロホンから見た領域ｒの方向角とするガウス分布関数の平均に上記顔の方向角θ_ｎ ^Ｖ（τ）を代入した値を、上記各領域ｒにおける上記談話参加者の存在確率として推定する。情報統合部は、上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率とを統合した確率値を、当該領域ｒに顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率として算出する。

従来の音響信号のみを用いた技術では、発話のない状況下で談話参加者が移動するとその位置を追跡することができない。この発明では、顔位置検出部が映像信号を入力として談話参加者の存在確率を推定するので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することが可能になる。よって、移動後に再び発話をした際の発話者が居るかどうかの判定処理が不要になり、各話者の話し始めの時点から話者の有無を高精度に検出できるようになる。また、情報統合部が、音声の存在確率と発話者の存在確率と談話参加者の存在確率とを統合して談話参加者が発話した確率を算出するので、精度の低い要素技術の性能によってシステム全体の性能が低下してしまう問題も発生し難くすることも出来る。

〔この発明の基本的な考え〕
この発明の複数信号区間推定装置は、複数のマイクロホンと１台以上のカメラを備えたセンサ部を中心とした平面空間をＲ個の離散的な領域に分割し、各領域ｒ＝１，２，…，Ｒにおいて、談話参加者の有無を２値で表すｑ_ｒ（ｑ_ｒ＝０ならば領域ｒには談話参加者が不在、ｑ_ｒ＝１ならば領域ｒに談話参加者が存在）と発話の有無を２値で表すa_ｒ（ａ_ｒ＝０ならば領域ｒでは発話が無く、ａ_ｒ＝１ならば領域ｒで発話が有る）を導入する。また、領域ｒから得られる音響信号の周波数スペクトルＸ_ｒ、領域ｒから得られる音響信号の空間パワー分布をＤ_ｒ、及び領域ｒから得られる観測映像信号をＶ_ｒとし、それらの観測が得られたときにｑ_ｒ＝１かつａ_ｒ＝１となる条件付確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を求め、これを閾値処理することにより、センサ部から見てどの方向にいつ発話があったかを推定する。なお、センサ部から見てどの方向にいつ発話があったかを推定するための閾値処理を行う際に利用する閾値や、センサ部を中心とした平面空間をＲ個に分割するためのＲの値については予め定めておき、例えば複数信号区間推定装置内の記憶部（図１には不記載）に予め記録しておくこととしても良い。

この条件付確率で発話を推定する方法を、この発明の基本的な考えとして以下説明する。条件付確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）は、周波数スペクトルＸ_ｒ、空間パワー分布をＤ_ｒ、観測映像信号をＶ_ｒとし、それぞれが相互に独立と仮定すると、式（１）で記述することができる。

ここで式（２）と仮定すると条件付確率ｐは式（３）で表せる。

更に式（４）と仮定すると式（５）で表せる。

式（５）にベイズの定理を適用し、事前確率ｐ（ｑ_ｒ＝１）とｐ（ａ_ｒ＝１）が共に定数であることを仮定することで、近似式（６）が成り立つ。なお、上記条件付確率ｐは、領域ｒに談話参加者が居る確率が高ければ高いほど、且つ、領域ｒで発話がある確率が高ければ高いほど大きな値を取る。

この発明の複数信号区間推定装置は、音声の存在確率ｐ（ａ_ｒ＝１｜Ｘ_ｒ）と、発話者の存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）と、談話参加者の存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）をそれぞれ算出して乗算した値を、談話参加者が存在し、発話が有る条件付確率の近似値とする。そして、その条件付確率の近似値に閾値処理を施すことで発話者を特定する。（なお、近似値に閾値処理を施した結果は、領域ｒに談話参加者が存在し、発話が有るかどうかの判定結果であり、この判定結果に後述の式（２０）に示す様な分類処理を行う事で、発話者を特定することができる。）
このようにこの発明によれば、映像信号Ｖ_ｒから求めた談話参加者の存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を、音響信号から求めた音声の存在確率ｐ（ａ_ｒ＝１｜Ｘ_ｒ）と発話者の存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）とを統合して発話した確率を算出するので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することが可能になる。また、３つの確率値を統合する（複数個の確率値を算出する際、１つの確率値を算出する毎に算出した確率値に対して閾値処理等の判断処理を行うのではなく、３つの確率値をすべて算出して算出した確率値全てを利用する）ので、１つの確率値の信頼度が低い場合でもその信頼度の低さがボトルネックになることがない。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには
同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の複数信号区間推定装置１００の機能構成例を示す。図２にその動作フ
ローを示す。複数信号区間推定装置１００は、センサ部３と、音声信号区間推定部４と、
発話者方向推定部５と、顔位置検出部６と、情報統合部７とを具備する。センサ部３を除
く各部は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラ
ムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

センサ部３は、複数のマイクロホン１と１台以上のカメラ２を備え、音響信号と映像信
号を出力する（ステップＳ３、図２）。音響信号は、例えば同一の水平面上に配置された３本のマイクロホンで収音された音を１６ｋＨｚでサンプリングしたディジタル信号である。映像信号は、例えばセンサ部３を中心とした空間の全方位を撮影できるように配置された１台以上のカメラで撮影された３０フレーム/秒のディジタル信号である。

音響信号と映像信号の観測信号は、例えば時間軸方向に１６ｍｓずつ移動しながら、３
２ｍｓの時間長の信号を窓関数を乗じることで１フレームとして切り出される。例えば式
（７）に示すハニング窓ｗ（ｎ）を乗じて切り出す。

ここでｎはｎ番目のサンプル点を表し、Ｌは切り出し波形のサンプル点数を表す。Ｌは
例えば５１２点である。このフレームとして切り出された観測信号に対し、離散フーリエ
変換を行い、時間領域の信号波形から周波数領域の周波数スペクトルに変換する。ｉ番目
のフレームの観測信号をｘ_i（ｎ）とすると、その周波数スペクトルＸ_ｉ（ｋ）は式（８）で求められる。

ここでｊは虚数単位を表し、ｋはサンプリング周波数をＫ等分した離散点（周波数ビン）を表す。Ｋは例えばフレーム長Ｌ以上の大きさである５１２を用いる。なお、図１において、センサ部３と、音声信号区間推定部４と発話者方向推定部５顔位置検出部６との間に設けられるＡ/Ｄ変換器と、離散フーリエ変換手段については省略している。

音声信号区間推定部４は、周波数分析された音響信号を入力として、センサ部３を中心とする平面を複数の領域ｒに分割し、各領域における音響信号の周波数スペクトルＸ_ｉ（ｋ）を用いて各領域における音声の存在確率ｐ（ａ_ｒ＝１｜Ｘ_ｉ（ｋ））を推定する（ステップＳ４）。発話者方向推定部５は、周波数分析された音響信号を入力として、各領域における音響信号の空間パワー分布を用いて各領域における発話者の存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）を推定する（ステップＳ５）。

顔位置検出部６は、周波数分析された映像信号を入力として、談話参加者の顔の重心の方向に基づき各領域における談話参加者の存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を推定する（ステップＳ６）。情報統合部７は、音声の存在確率ｐ（ａ_ｒ＝１｜Ｘ_ｒ）と発話者の存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）と談話参加者の存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を入力として各領域内の特定領域において談話参加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を算出する（ステップＳ７）。

このようにして求めた談話参加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）は、映像信号を用いているので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することを可能にする。次に各確率値の具体的な求め方について説明する。

〔音声信号区間推定部〕
図３に音声信号区間推定部４の機能構成例を示す。音声信号区間推定部４は、事前・事後ＳＮ比算出手段４０と、尤度比Λ算出手段４１と、音声存在確率算出手段４２を備える。事前・事後ＳＮ比算出手段４０は、周波数スペクトルＸ_ｉ（ｋ）を用いて、カルマンフィルタ等を利用することによって雑音信号のフレームｉにおけるパワーλ_ｉ ^Ｎ（ｋ）を推定し、これを元に式（９）に示す事後信号対雑音比（事後ＳＮ比）γ_ｉ（ｋ）と式（１０）に示す事前信号対雑音比（事前ＳＮ比）ξ_ｉ（ｋ）を求める。

尤度比Λ算出手段４１は、このようにして求めた事後ＳＮ比γ_ｉ（ｋ）と事前ＳＮ比ξ_ｉ（ｋ）を用いて目的信号の存在する度合いを表す尤度比Λを出力する。この尤度比Λは、周波数ｋのｉ番目のフレームが目的信号を含まない尤度ｐ（Ｘ_ｉ（ｋ）｜Ｈ_０）と、雑音中に目的信号を含む尤度ｐ（Ｘ_ｉ（ｋ）｜Ｈ_１）の比で表せる。それぞれの尤度は式（１１）と式（１２）で定義される。

ここでλ_ｉ ^Ｓ（ｋ）は、ｉ番目のフレームにおける目的信号の周波数ｋにおけるパワーで
ある。これらの尤度の比を取ることで、尤度比Λ_ｉ（ｋ）が計算される（式（１３））。

ここで、事前ＳＮ比ξ_ｉ（ｋ）の定義を式（１４）に示す。λ_ｉ ^Ｓ（ｋ）を直接求めるこ
とが出来ないため、事前ＳＮ比ξ_ｉ（ｋ）を上記の手段で求めている。尤度比Λ算出手段４１は、このようにして得られた尤度比Λ_ｉ（ｋ）を例えば全周波数ｋに対して平均した値を尤度比Λ_ｉとして出力する（式（１５））。

音声存在確率算出手段４２は、尤度比Λ_ｉを入力として全領域に対する音声の存在確率を式（１６）によって推定する。

〔発話者方向推定部〕
図４に発話者方向推定部５の機能構成例を示す。発話者方向推定部５は、信号到来方向
算出手段５０と、分類手段５１と、発話者存在確率算出手段５２を備える。信号到来方向
算出手段５０は、周波数スペクトルＸ_ｉ（ｋ）を入力として、各周波数ビン（ｋ）において信号到来方向を算出する。まず、式（１７）に示す音響信号の到達時間差τ_i ^ｍ（ｋ）と式（１８）に示す到達時間差ベクトルτ_i（ｋ）^→を求める。（変数名の表記は式中の表記が正しい。）

ここでｆは周波数ビン（ｋ）に対する周波数（Ｈｚ）である。Ｘ_ｉ ^ｍ（ｋ）はマイクロホンｍ（ｍ＝１…Ｍ）で観測された信号の周波数スペクトルである。Ｏ番目のマイクロホンを基準マイクロホンとし、その基準マイクロホンと他のマイクロホンとの距離ベクトルを式（１９）として到達時間差ベクトルτ_i（ｋ）^→を用いると式（１９）に示す関係から音響信号が到来する方位角θ_i（ｋ）と仰角φ_ｉ（ｋ）を求めることが出来る。なお、Ｍはマイクロホンの総数である。Ｍの値については予め定めて複数信号区間推定装置１００内の記録部に記録しておき、発話者方向推定部５が記録部よりマイクロホンの総数Ｍを読み出すこととしても良い。また、何番目のマイクを基準マイクロホンとするかについても予め定めて記録部に基準マイクロホンを特定する情報を予め記録しておき、発話者方向推定部５がこの基準マイクロホンを特定する情報を読み出すこととしても良い。

ここでｖ_ｓは音速（約３４４ｍ/秒）、Ｄ^-1はＤの一般化逆行列である。

信号到来方向算出手段５０は、このようにして求めた音響信号の到来方向を方位角θ_ｉ
（ｋ）と仰角φ_ｉ（ｋ）で出力する。以後、簡単のために方位角のみを信号到来方向として用いる。

分類手段５１は、式（２０）に示すように方位角θ_ｉ（ｋ）を分類する。

ここでθ_ｎはｎ番目の話者を表すクラスタの重心を表す。Thresholdは外部から入力し
て与え、例えば１５度を用いる。なお、このThresholdも予め定めて複数信号区間推定装
置１００内の記録部に記録しておき、分類手段が記録部から読み出すこととしても良い。
なお、各クラスタは、後述するように音声の存在確率が高いフレームにおいて推定された
空間パワー分布に基づいて生成することも可能である。

発話者存在確率算出手段５２は、各クラスタＣ_ｎ（θ_ｉ（ｋ））を入力として発話者の
存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）を式（２１）で算出する。

ここでＫは離散フーリエ変換の結果得られる周波数スペクトルの周波数ビンの総数を表
す。Ｃ_ｎはｎ番目の話者が存在するクラスタを表す。例えば、ｎ番目の話者が領域ｒ１〜
ｒ２に存在する場合、領域ｒ１〜ｒ２がＣ_ｎとなる。

〔顔位置検出部〕
図５に顔位置検出部６の機能構成例を示す。顔位置検出部６は、顔位置検出・追跡手段
６０と談話参加者存在確率算出手段６１を備え、映像信号を入力として談話参加者の存在
確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を推定する。

顔位置検出・追跡手段６０は、例えば２つの魚眼レンズを装備した全方位カメラで全方
位をカバーした映像信号を入力として談話参加者の顔の重心の方向θ_ｎを出力する。談話
参加者の顔の重心方向は、例えば参考文献「Mateo Lozano, O. and Otsuka, k,“Simultaneous and fast 3D tracking of multiple faces in video sequences by using a particle filter”J.Signal Processing Systems,DOI 10.1007/s11265-008-0250-2,in press」に記載されたテンプレートマッチングとパーティクルフィルタを用いた顔検出・追跡方法を用いることで求めることが可能である。

談話参加者存在確率算出手段６１は、談話参加者の顔の重心方向θ_ｎ ^Ｖ（τ）を入力として、ガウス分布関数Ｎ（θ_ｎ ^Ｖ（τ），σ^２）を用いて式（２２）に示すように存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を計算する。

〔情報統合部〕
情報統合部７は、音声信号区間推定部４で推定した音声の存在確率と、発話者方向推定
部５で推定した発話者の存在確率と、顔位置検出部６が推定した談話参加者の存在確率を
入力とし、各確率値を統合することで特定領域において談話参加者が発話した確率ｐ（ａ
_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を算出する。

特定領域において談話参加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）は、例えば各確率を式（２３）に示すように乗算することで求める。

なお、各確率値の信頼度に応じて式（２４）に示すように重みを与えて求めても良い。

また、談話参加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を式（２５）に示すように対数の和で求めても良い。

図６にこの発明の実施例２の複数信号区間推定装置１６０の機能構成例を示す。複数信
号区間推定装置１６０は、実施例１の発話者方向推定部５と音声信号区間推定部４の動作
を変更したものである。

複数信号区間推定装置１６０の発話者方向推定部６０は、センサ部３を中心とする平面
を複数の領域に分割し、各領域における音響信号の空間パワー分布を算出して各領域にお
ける発話者の存在確率を推定する。発話者方向推定部６０は、まず、信号到来方向算出手
段５０が出力する方位角θ_i（ｋ）を用いて、一定範囲から到来する信号のみを抽出するため式（２６）に示す時間周波数マスクMask_i(ｋ，ｒ)を生成する。

ここでΘ_ｒは抽出対象となる信号の到来方向の一定範囲を表し、ｒは特定の信号の到来
方向の一定範囲を表すインデックスである（ｒ＝１…Ｒ）。一定範囲の信号を抜き出すた
めには、ａに例えば０を用い、ｂには例えば１を用いる。

次に、周波数スペクトルＸ_ｉ（ｋ）と、時間周波数マスクMask_i(ｋ，ｒ)を用いて、各信号到来方向から到来する信号パワー分布（信号の空間内パワー分布）を推定する範囲ｒから到来する音響信号のパワーをＰ_ｉ（ｒ）とすると、式（２７）で計算出来る。

全領域について式（２７）を計算することで空間パワー分布を推定する。

音声信号区間推定部６１は、空間パワー分布を用いて実施例１と同じ計算をすることで
音声の存在確率を推定する。実施例２の情報統合部７は、空間パワー分布を用いて談話参
加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を求める。

なお、時間周波数マスクMask_i(ｋ，ｒ)を生成する考えを実施例１の音声信号区間推定部４に導入し、領域ｒ毎に音声の存在確率を推定するようにしても良い。この場合、音声信号区間推定部４でも領域ｒについて確率を推定するため、複数信号区間推定装置１００の発話確率の推定精度を向上させる効果が期待出来る。

また、情報統合部７の出力する確率を用いて各領域ｒにおいて談話参加者が発話してい
るか否かを判定させる目的信号有無判別部８を設けるようにしても良い。目的信号有無判
別部８は、発話の有無を判定する発話閾値Ｔを持ち、談話参加者が発話した確率ｐ（ａ_ｒ
＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）が発話閾値Ｔを超えていれば、談話参加者が領域ｒで発話しているとして“１”を出力し、超えていなければ発話が無いとして“０”を出力する。このような目的信号有無判別部８を設けた方が、複数信号区間推定装置としてより使い易いものにすることが出来る。なお、発話閾値Ｔは固定値でも良いし、時間と共に変化する値にしても良い。

〔評価実験〕
この発明の効果を確認する目的で、３本のマイクロホンと２台のカメラを用いて観測し
た音響信号と映像信号を、この発明の複数信号区間推定装置１００で分析する評価実験を
行った。実験条件を説明する。図７に音響信号と映像信号の収録環境を示す。残響時間が
約３５０ｍｓの会議室内で円卓７０を囲んで談話する４名音響信号と映像信号を収録した。円卓７０の中央に３本の全指向性マイクロホン１ａ，１ｂ，１ｃを例えば1辺が４ｃｍの正三角形の頂点にそれぞれ配置し、その正三角形を中心として魚眼レンズを装備した２台のカメラ２ａ，２ｂを、全方位がカバー出来るように配置した。

音響信号のサンプリングレートは１６ｋＨｚ、映像信号は３０フレーム/秒である。信号分析のフレーム長は６４ｍｓでフレームシフトは３２ｍｓである。話者の分類に用いる
Thresholdは１５度とした。評価尺度としては話者決定不正解率（ＤＥＲ:Diarization
Error Rate）を用いた。ＤＥＲは、誤検出時間（ＦＳＴ：False-alarm Speech Time）、誤棄却時間（ＭＳＴ：Missed Speech Time）、話者誤り時間（ＳＥＴ：Speaker Error Time）の３種の誤り時間を合計し、それを総発話時間で除算する式（２８）で求めた。

その結果を表１に示す。

この発明の方法で、話者決定不正解率ＤＥＲが３.５％改善された。この時に目的信号有無判別部８が出力した結果を図８に示す。図８の横軸は時間（秒）、縦軸は方向（度）である。●が発話有りを示している。

以上説明したこの発明の複数信号区間推定装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、空間パワー分布を推定するのに、時間周波数マスクを用いる代わりに遅延和法（参考文献「大賀寿郎、山崎芳男、金田豊、“音響システムとディジタル処理”、社団法人電子情報通信学会」）等によって得られた空間スペクトルを用いても良い。

また、上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ
（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ
（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。また、予め定めて複数信号区間推定装置内の記録部に記録しておいても良いとした値については、例えば複数信号区間推定装置内が入出力部（図１には不記載）を介して外部から入力値を取得し、入力された各値を用いる各処理機能が入力部を介して入力値を取得し、各処理機能内のメモリ等に入力された値を記録しておくこととしても良い。

この発明の複数信号区間推定装置１００の機能構成例を示す図。複数信号区間推定装置１００の動作フローを示す図。音声信号区間推定部４の機能構成例を示す図。発話者方向推定部５の機能構成例を示す図。顔位置検出部６の機能構成例を示す図。複数信号区間推定装置１６０の機能構成例を示す図。評価実験の音響信号と映像信号の収録環境を示す図。評価実験で目的信号有無判別部８が出力した結果を示す図。

Claims

同一の水平面上に配置された複数のマイクロホンと１台以上のカメラを備えるセンサ部と、
上記マイクロホンからの音響信号を周波数分析して得られる周波数ビン毎のスペクトルを用いて雑音信号のパワーを推定し、当該雑音信号のパワーから当該周波数ビン毎のスペクトルが目的信号を含まない尤度と雑音信号中に目的信号を含む尤度との比である尤度比を求め、当該尤度比から求めた当該周波数ビン毎のスペクトルにおける音声の存在確率を、上記水平面の全領域における音声の存在確率とする音声信号区間推定部と、
上記周波数ビン毎のスペクトルについて、上記複数のマイクロホン中の予め定めた基準マイクロホンで観測された音響信号に対応するスペクトルと上記基準マイクロホン以外の上記複数のマイクロホンの各々で観測された音響信号に対応するスペクトルとの位相差および上記複数のマイクロホンの配置情報を用いて、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向を求める信号到来方向算出部と、
上記水平面の全領域を上記基準マイクロホンを中心とする複数の領域に分割したときの各領域ｒについて、上記周波数ビンに対応する音響信号の到来方向を用いて当該領域ｒから到来する音響信号のパワーを推定し、推定した各領域ｒから到来する音響信号のパワーに基づいて上記複数の領域ｒを予め定めた数のクラスタに分類し、上記各領域ｒにおける発話者の存在確率を、当該領域ｒを含むクラスタのうち、上記基準マイクロホンから見た当該話者を表すクラスタの重心の方向と、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向との差が所定の閾値より小さくなるような上記周波数ビンの数に比例する値を、上記各領域ｒにおける発話者の存在確率として推定する発話者方向推定部と、
上記カメラからの映像信号を入力として、上記基準マイクロホンから見た談話参加者の顔の方向角θ_ｎ ^Ｖ（τ）を求め、引数を上記基準マイクロホンから見た領域ｒの方向角とするガウス分布関数の平均に上記顔の方向角θ_ｎ ^Ｖ（τ）を代入した値を、上記各領域ｒにおける上記談話参加者の存在確率として推定する顔位置検出部と、
上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率と上記各領域ｒにおける上記顔位置検出部が検出した談話参加者の存在確率とを統合した確率値を、当該領域ｒに上記顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率として算出する情報統合部と、
を具備する複数信号区間推定装置。
請求項１記載の複数信号区間推定装置において、
上記情報統合部は、
（ａ）上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率と上記各領域ｒにおける談話参加者の存在確率との積である確率値、または、
（ｂ）上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率と上記各領域ｒにおける談話参加者の存在確率とを所定の重みを付して掛け合わせた値である確率値、または、
（ｃ）上記水平面の全領域における音声の存在確率の対数と上記各領域ｒにおける発話者の存在確率の対数と上記各領域ｒにおける談話参加者の存在確率の対数とを所定の重みを付して足し合わせた値である確率値、
のいずれかを、上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率と上記各領域ｒにおける談話参加者の存在確率とを統合した確率値とする、
ことを特徴とする複数信号区間推定装置。
請求項２記載の複数信号区間推定装置において、
上記周波数ビンの番号をｋとし、上記マイクロホンからの音響信号のフレーム番号をｉとしたとき、
上記音声信号区間推定部は、
上記雑音信号のパワーをλ_ｉ ^Ｎ（ｋ）とし、上記周波数ビン毎のスペクトルＸ_ｉ（ｋ）と上記雑音信号のパワーとの比である事後信号対雑音比γ_ｉ（ｋ）と、上記事後信号対雑音比γ_ｉ（ｋ）から定数を減じた値である事前信号対雑音比ξ_ｉ（ｋ）とを求める事前・事後ＳＮ比算出手段と、
上記周波数ビン毎のスペクトルＸ_ｉ（ｋ）が目的信号を含まない尤度であるｐ（Ｘ_ｉ（ｋ）｜Ｈ_０）と雑音信号中に目的信号を含む尤度であるｐ（Ｘ_ｉ（ｋ）｜Ｈ_１）とを、ξ_ｉ（ｋ）＝λ_ｉ ^Ｓ（ｋ）/λ_ｉ ^Ｎ（ｋ）として、

により算出し、

により、周波数ビン毎の尤度比Λ _ｉ（ｋ）を算出し、求めた周波数ビン毎の尤度比Λ _ｉ（ｋ）の全ての周波数ビンについての総和を上記尤度比Λ_ｉとして求める尤度比Λ算出手段と、
当該尤度比Λ_ｉから

であるｐ（ａ_ｒ＝１｜Ｘ_ｉ）を上記センサ部を中心とする上記水平面の全領域を複数の領域ｒに分割したときの当該各領域ｒにおける音声の存在確率とする音声存在確率算出手段と、
を備えることを特徴とする複数信号区間推定装置。
請求項１乃至３の何れか1項に記載した複数信号区間推定装置において、
上記領域ｒに上記顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率が予め定めた閾値を越えていれば上記各領域において上記顔位置検出部が検出した談話参加者が発話していると判定し、当該確率が上記予め定めた閾値を超えていなければ発話が無いと判定する目的信号有無判別部を、
更に具備することを特徴とする複数信号区間推定装置。
センサ部が、同一の水平面上に配置された複数のマイクロホンと１台以上のカメラにより音響信号と映像信号を観測するセンシング過程と、
音声信号区間推定部が、上記マイクロホンからの音響信号を周波数分析して得られる周波数ビン毎のスペクトルを用いて雑音信号のパワーを推定し、当該雑音信号のパワーから当該周波数ビン毎のスペクトルが目的信号を含まない尤度と雑音信号中に目的信号を含む尤度との比である尤度比を求め、当該尤度比から求めた当該周波数ビン毎のスペクトルにおける音声の存在確率を、上記水平面の全領域における音声の存在確率とする音声信号区間推定過程と、
信号到来方向算出部が、上記周波数ビン毎のスペクトルについて、上記複数のマイクロホン中の予め定めた基準マイクロホンで観測された音響信号に対応するスペクトルと上記基準マイクロホン以外の上記複数のマイクロホンの各々で観測された音響信号に対応するスペクトルとの位相差および上記複数のマイクロホンの配置情報を用いて、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向を求める信号到来方向算出過程と、
発話者方向推定部が、上記水平面の全領域を上記基準マイクロホンを中心とする複数の領域に分割したときの各領域ｒについて、上記周波数ビンに対応する音響信号の到来方向を用いて当該領域ｒから到来する音響信号のパワーを推定し、推定した各領域ｒから到来する音響信号のパワーに基づいて上記複数の領域ｒを予め定めた数のクラスタに分類し、上記各領域ｒにおける発話者の存在確率を、当該領域ｒを含むクラスタのうち、上記基準マイクロホンから見た当該話者を表すクラスタの重心の方向と、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向との差が所定の閾値より小さくなるような上記周波数ビンの数に比例する値を、上記各領域ｒにおける発話者の存在確率として推定する発話者方向推定過程と、
顔位置検出部が、上記カメラからの映像信号を入力として、上記基準マイクロホンから見た談話参加者の顔の方向角θ_ｎ ^Ｖ（τ）を求め、引数を上記基準マイクロホンから見た領域ｒの方向角とするガウス分布関数の平均に上記顔の方向角θ_ｎ ^Ｖ（τ）を代入した値を、上記各領域ｒにおける上記談話参加者の存在確率として推定する顔位置検出過程と、
情報統合部が、上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率と上記各領域ｒにおける上記顔位置検出部が検出した談話参加者の存在確率とを統合した確率値を、当該領域ｒに上記顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率として算出する情報統合過程と、
を含む複数信号区間推定方法。
請求項５記載の複数信号区間推定方法において、
上記情報統合過程は、
（ａ）上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率と上記各領域ｒにおける談話参加者の存在確率との積である確率値、または、
（ｂ）上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率と上記各領域ｒにおける談話参加者の存在確率とを所定の重みを付して掛け合わせた値である確率値、または、
（ｃ）上記水平面の全領域における音声の存在確率の対数と上記各領域ｒにおける発話者の存在確率の対数と上記各領域ｒにおける談話参加者の存在確率の対数とを所定の重みを付して足し合わせた値である確率値、
のいずれかを、上記水平面の全領域における音声の存在確率と上記各領域ｒにおける発話者の存在確率と上記各領域ｒにおける談話参加者の存在確率とを統合した確率値とする過程である、
ことを特徴とする複数信号区間推定方法。
請求項６記載の複数信号区間推定方法において、
上記周波数ビンの番号をｋとし、上記マイクロホンからの音響信号のフレーム番号をｉとしたとき、
上記音声信号区間推定過程は、
上記雑音信号のパワーをλ_ｉ ^Ｎ（ｋ）とし、上記周波数ビン毎のスペクトルＸ_ｉ（ｋ）と上記雑音信号のパワーとの比である事後信号対雑音比γ_ｉ（ｋ）と、上記事後信号対雑音比γ_ｉ（ｋ）から定数を減じた値である事前信号対雑音比ξ_ｉ（ｋ）とを求める事前・事後ＳＮ比算出ステップと、
上記周波数ビン毎のスペクトルＸ_ｉ（ｋ）が目的信号を含まない尤度であるｐ（Ｘ_ｉ（ｋ）｜Ｈ_０）と雑音信号中に目的信号を含む尤度であるｐ（Ｘ_ｉ（ｋ）｜Ｈ_１）とを、ξ_ｉ（ｋ）＝λ_ｉ ^Ｓ（ｋ）/λ_ｉ ^Ｎ（ｋ）として、

により算出し、

により、周波数ビン毎の尤度比Λ _ｉ（ｋ）を算出し、求めた周波数ビン毎の尤度比Λ _ｉ（ｋ）の全ての周波数ビンについての総和を上記尤度比Λ_ｉとして求める尤度比Λ算出ステップと、
当該尤度比Λ_ｉから

であるｐ（ａ_ｒ＝１｜Ｘ_ｉ）を上記センサ部を中心とする上記水平面の全領域を複数の領域ｒに分割したときの当該各領域ｒにおける音声の存在確率とする音声存在確率算出ステップ手段と、
を含むことを特徴とする複数信号区間推定方法。
請求項５乃至７の何れか1項に記載した複数信号区間推定方法において、
上記領域ｒに上記顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率が予め定めた閾値を越えていれば上記各領域において上記顔位置検出部が検出した談話参加者が発話していると判定し、当該確率が上記予め定めた閾値を超えていなければ発話が無いと判定する目的信号有無判別過程を、
更に含むことを特徴とする複数信号区間推定方法。
請求項１乃至４の何れかに記載した複数信号区間推定装置としてコンピュータを機能させるためのプログラム。