JP2010130411A

JP2010130411A - 複数信号区間推定装置とその方法とプログラム

Info

Publication number: JP2010130411A
Application number: JP2008303615A
Authority: JP
Inventors: Kentaro Ishizuka; 健太郎石塚; Akiko Araki; 章子荒木; Kazuhiro Otsuka; 和弘大塚; Masakiyo Fujimoto; 雅清藤本; Tomohiro Nakatani; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-11-28
Filing date: 2008-11-28
Publication date: 2010-06-10
Anticipated expiration: 2028-11-28
Also published as: JP5215826B2

Abstract

【課題】発話者の追跡の精度を向上させる。
【解決手段】この発明の複数信号区間推定装置は、センサ部と、音声信号区間推定部と、発話者方向推定部と、顔位置検出部と、情報統合部とを具備する。音声信号区間推定部はマイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、センサ部を中心とする平面の全領域に対する音声の存在確率を推定する。発話者方向推定部は音響信号の周波数スペクトルを用いて各領域における発話者の存在確率を推定する。顔位置検出部はカメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき各領域における談話参加者の存在確率を推定する。情報統合部は音声の存在確率と発話者の存在確率と談話参加者の存在確率を入力として各領域内の特定領域において談話参加者が発話した確率を算出する。
【選択図】図１

Description

この発明は、会議や会話のような、一人以上が参加する談話を記録したデータから、どの参加者がいつ発話したかを推定する複数信号区間推定装置とその方法と、プログラムに関する。

会議や会話等の人と人とが行う談話の音声や映像のデータを収録して、これらのデータを自動的に分析して適切なインデックスを付与することが出来れば、必要な情報への効率的なアクセスが可能となり、会議録や要約の自動生成を行う技術の実現につながる。このような自動インデックス付与を行うための最も基本的な情報としては、談話中に「誰がいつ話したか？」を捉える必要がある。この内「いつ」を検出するには、観測データの中から発話の無い区間を排除し、発話のある区間を検出する必要がある。また、「誰が」を検出するには、発話区間検出により得られた発話区間の内、どの区間がどの発話者によるものかを分類する必要がある。

このような技術は話者決定技術と言われ、マイクロホンアレイで収録された音響情報を用いて、発話区間検出を行って得られた発話区間に対し、話者の分類を行う技術（非特許文献１）や、発話区間検出と話者分類技術を確率的に統合する技術（非特許文献２）等が従来提案されて来た。
Tranter,S.E.and Reynolds,D.A.,"An overview of automatic speaker diarization systems,"IEEE Trans.on Audio,Speech,and Language Processing,vol.14,pp.1557-1565,2006. Araki,S.,Fujimoto,M.,Ishizuka,K.,Sawada,H.,and Makino,S."A DOA based speaker diarization system for real meetings,"Proceedings of the 5th Joint Workshop on Hands-free Speech Communication and Microphone Arrays,pp.29-32,2008.

しかし、音声のみを用いた話者決定技術は、話者が音声を発さずに移動した場合などで精度が落ちる問題があった。その問題を解決するために、談話参加者が発話のない状況で移動後に再び発話した場合、発話直後に発話者が居るかどうかを判定するための処理が必要であった。また、音響情報に加えて映像信号も同時に使用することにより、発話者の追跡の精度を向上させる方法も考えられている。例えば、人物の動きの有無と発話の有無に基づいて高精度に人物追跡を行う技術、検出精度の高さに応じて映像と音声の情報のどちらを用いるか優先付けする技術、音声尤度と映像尤度の両方を用いることで話者の位置を検出する技術、顔画像を分析して会議で注目を集めている人間を推定して注目されている人間が発話しているか否かを検出することで会議を記録する技術等がある。しかし、このような技術では、発話区間検出や移動物体検出等の要素技術から得られる情報を確定的に扱っており、精度の低い要素技術の性能が後段の処理に波及し（ボトルネックとなり）、システム全体の性能が低下する問題があった。

この発明は、このような点に鑑みてなされたものであり、マイクロホンで観測される音響信号から得られる情報と、カメラで観測される映像信号から得られる情報を統合することで、発話者の追跡精度を向上させた複数信号区間推定装置とその方法と、プログラムを提供することを目的とする。

この発明の複数信号区間推定装置は、センサ部と、音声信号区間推定部と、発話者方向推定部と、顔位置検出部と、情報統合部とを具備する。センサ部は、複数のマイクロホンと１台以上のカメラを備え、音響信号と映像信号を出力する。音声信号区間推定部は、マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面の全領域に対する音声の存在確率を推定する。発話者方向推定部は、上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する。顔位置検出部は、カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する。情報統合部は、音声の存在確率と発話者の存在確率と談話参加者の存在確率を入力として各領域内の特定領域において談話参加者が発話した確率を算出する。

従来の音響信号のみを用いた技術では、発話のない状況下で談話参加者が移動するとその位置を追跡することができない。この発明では、顔位置検出部が映像信号を入力として談話参加者の存在確率を推定するので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することが可能になる。よって、移動後に再び発話をした際の発話者が居るかどうかの判定処理が不要になり、各話者の話し始めの時点から話者の有無を高精度に検出できるようになる。また、情報統合部が、音声の存在確率と発話者の存在確率と談話参加者の存在確率とを統合して談話参加者が発話した確率を算出するので、精度の低い要素技術の性能によってシステム全体の性能が低下してしまう問題も発生し難くすることも出来る。

〔この発明の基本的な考え〕
この発明の複数信号区間推定装置は、複数のマイクロホンと１台以上のカメラを備えたセンサ部を中心とした平面空間をＲ個の離散的な領域に分割し、各領域ｒ＝１，２，…，Ｒにおいて、談話参加者の有無を２値で表すｑ_ｒ（ｑ_ｒ＝０ならば領域ｒには談話参加者が不在、ｑ_ｒ＝１ならば領域ｒに談話参加者が存在）と発話の有無を２値で表すa_ｒ（ａ_ｒ＝０ならば領域ｒでは発話が無く、ａ_ｒ＝１ならば領域ｒで発話が有る）を導入する。また、領域ｒから得られる音響信号の周波数スペクトルＸ_ｒ、領域ｒから得られる音響信号の空間パワー分布をＤ_ｒ、及び領域ｒから得られる観測映像信号をＶ_ｒとし、それらの観測が得られたときにｑ_ｒ＝１かつａ_ｒ＝１となる条件付確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を求め、これを閾値処理することにより、センサ部から見てどの方向にいつ発話があったかを推定する。なお、センサ部から見てどの方向にいつ発話があったかを推定するための閾値処理を行う際に利用する閾値や、センサ部を中心とした平面空間をＲ個に分割するためのＲの値については予め定めておき、例えば複数信号区間推定装置内の記憶部（図１には不記載）に予め記録しておくこととしても良い。

この条件付確率で発話を推定する方法を、この発明の基本的な考えとして以下説明する。条件付確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）は、周波数スペクトルＸ_ｒ、空間パワー分布をＤ_ｒ、観測映像信号をＶ_ｒとし、それぞれが相互に独立と仮定すると、式（１）で記述することができる。

ここで式（２）と仮定すると条件付確率ｐは式（３）で表せる。

更に式（４）と仮定すると式（５）で表せる。

式（５）にベイズの定理を適用し、事前確率ｐ（ｑ_ｒ＝１）とｐ（ａ_ｒ＝１）が共に定数であることを仮定することで、近似式（６）が成り立つ。なお、上記条件付確率ｐは、領域ｒに談話参加者が居る確率が高ければ高いほど、且つ、領域ｒで発話がある確率が高ければ高いほど大きな値を取る。

この発明の複数信号区間推定装置は、音声の存在確率ｐ（ａ_ｒ＝１｜Ｘ_ｒ）と、発話者の存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）と、談話参加者の存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）をそれぞれ算出して乗算した値を、談話参加者が存在し、発話が有る条件付確率の近似値とする。そして、その条件付確率の近似値に閾値処理を施すことで発話者を特定する。（なお、近似値に閾値処理を施した結果は、領域ｒに談話参加者が存在し、発話が有るかどうかの判定結果であり、この判定結果に後述の式（２０）に示す様な分類処理を行う事で、発話者を特定することができる。）
このようにこの発明によれば、映像信号Ｖ_ｒから求めた談話参加者の存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を、音響信号から求めた音声の存在確率ｐ（ａ_ｒ＝１｜Ｘ_ｒ）と発話者の存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）とを統合して発話した確率を算出するので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することが可能になる。また、３つの確率値を統合する（複数個の確率値を算出する際、１つの確率値を算出する毎に算出した確率値に対して閾値処理等の判断処理を行うのではなく、３つの確率値をすべて算出して算出した確率値全てを利用する）ので、１つの確率値の信頼度が低い場合でもその信頼度の低さがボトルネックになることがない。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには
同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の複数信号区間推定装置１００の機能構成例を示す。図２にその動作フ
ローを示す。複数信号区間推定装置１００は、センサ部３と、音声信号区間推定部４と、
発話者方向推定部５と、顔位置検出部６と、情報統合部７とを具備する。センサ部３を除
く各部は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラ
ムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

センサ部３は、複数のマイクロホン１と１台以上のカメラ２を備え、音響信号と映像信
号を出力する（ステップＳ３、図２）。音響信号は、例えば同一の水平面上に配置された３本のマイクロホンで収音された音を１６ｋＨｚでサンプリングしたディジタル信号である。映像信号は、例えばセンサ部３を中心とした空間の全方位を撮影できるように配置された１台以上のカメラで撮影された３０フレーム/秒のディジタル信号である。

音響信号と映像信号の観測信号は、例えば時間軸方向に１６ｍｓずつ移動しながら、３
２ｍｓの時間長の信号を窓関数を乗じることで１フレームとして切り出される。例えば式
（７）に示すハニング窓ｗ（ｎ）を乗じて切り出す。

ここでｎはｎ番目のサンプル点を表し、Ｌは切り出し波形のサンプル点数を表す。Ｌは
例えば５１２点である。このフレームとして切り出された観測信号に対し、離散フーリエ
変換を行い、時間領域の信号波形から周波数領域の周波数スペクトルに変換する。ｉ番目
のフレームの観測信号をｘ_i（ｎ）とすると、その周波数スペクトルＸ_ｉ（ｋ）は式（８）で求められる。

ここでｊは虚数単位を表し、ｋはサンプリング周波数をＫ等分した離散点（周波数ビン）を表す。Ｋは例えばフレーム長Ｌ以上の大きさである５１２を用いる。なお、図１において、センサ部３と、音声信号区間推定部４と発話者方向推定部５顔位置検出部６との間に設けられるＡ/Ｄ変換器と、離散フーリエ変換手段については省略している。

音声信号区間推定部４は、周波数分析された音響信号を入力として、センサ部３を中心とする平面を複数の領域ｒに分割し、各領域における音響信号の周波数スペクトルＸ_ｉ（ｋ）を用いて各領域における音声の存在確率ｐ（ａ_ｒ＝１｜Ｘ_ｉ（ｋ））を推定する（ステップＳ４）。発話者方向推定部５は、周波数分析された音響信号を入力として、各領域における音響信号の空間パワー分布を用いて各領域における発話者の存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）を推定する（ステップＳ５）。

顔位置検出部６は、周波数分析された映像信号を入力として、談話参加者の顔の重心の方向に基づき各領域における談話参加者の存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を推定する（ステップＳ６）。情報統合部７は、音声の存在確率ｐ（ａ_ｒ＝１｜Ｘ_ｒ）と発話者の存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）と談話参加者の存在確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を入力として各領域内の特定領域において談話参加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を算出する（ステップＳ７）。

このようにして求めた談話参加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）は、映像信号を用いているので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することを可能にする。次に各確率値の具体的な求め方について説明する。

〔音声信号区間推定部〕
図３に音声信号区間推定部４の機能構成例を示す。音声信号区間推定部４は、事前・事後ＳＮ比算出手段４０と、尤度比Λ算出手段４１と、音声存在確率算出手段４２を備える。事前・事後ＳＮ比算出手段４０は、周波数スペクトルＸ_ｉ（ｋ）を用いて、カルマンフィルタ等を利用することによって雑音信号のフレームｉにおけるパワーλ_ｉ ^Ｎ（ｋ）を推定し、これを元に式（９）に示す事後信号対雑音比（事後ＳＮ比）γ_ｉ（ｋ）と式（１０）に示す事前信号対雑音比（事前ＳＮ比）ξ_ｉ（ｋ）を求める。

尤度比Λ算出手段４１は、このようにして求めた事後ＳＮ比γ_ｉ（ｋ）と事前ＳＮ比ξ_ｉ（ｋ）を用いて目的信号の存在する度合いを表す尤度比Λを出力する。この尤度比Λは、周波数ｋのｉ番目のフレームが目的信号を含まない尤度ｐ（Ｘ_ｉ（ｋ）｜Ｈ_０）と、雑音中に目的信号を含む尤度ｐ（Ｘ_ｉ（ｋ）｜Ｈ_１）の比で表せる。それぞれの尤度は式（１１）と式（１２）で定義される。

ここでλ_ｉ ^Ｓ（ｋ）は、ｉ番目のフレームにおける目的信号の周波数ｋにおけるパワーで
ある。これらの尤度の比を取ることで、尤度比Λ_ｉ（ｋ）が計算される（式（１３））。

ここで、事前ＳＮ比ξ_ｉ（ｋ）の定義を式（１４）に示す。λ_ｉ ^Ｓ（ｋ）を直接求めるこ
とが出来ないため、事前ＳＮ比ξ_ｉ（ｋ）を上記の手段で求めている。尤度比Λ算出手段４１は、このようにして得られた尤度比Λ_ｉ（ｋ）を例えば全周波数ｋに対して平均した値を尤度比Λ_ｉとして出力する（式（１５））。

音声存在確率算出手段４２は、尤度比Λ_ｉを入力として全領域に対する音声の存在確率を式（１６）によって推定する。

〔発話者方向推定部〕
図４に発話者方向推定部５の機能構成例を示す。発話者方向推定部５は、信号到来方向
算出手段５０と、分類手段５１と、発話者存在確率算出手段５２を備える。信号到来方向
算出手段５０は、周波数スペクトルＸ_ｉ（ｋ）を入力として、各周波数ビン（ｋ）において信号到来方向を算出する。まず、式（１７）に示す音響信号の到達時間差τ_i ^ｍ（ｋ）と式（１８）に示す到達時間差ベクトルτ_i（ｋ）^→を求める。（変数名の表記は式中の表記が正しい。）

ここでｆは周波数ビン（ｋ）に対する周波数（Ｈｚ）である。Ｘ_ｉ ^ｍ（ｋ）はマイクロホンｍ（ｍ＝１…Ｍ）で観測された信号の周波数スペクトルである。Ｏ番目のマイクロホンを基準マイクロホンとし、その基準マイクロホンと他のマイクロホンとの距離ベクトルを式（１９）として到達時間差ベクトルτ_i（ｋ）^→を用いると式（１９）に示す関係から音響信号が到来する方位角θ_i（ｋ）と仰角φ_ｉ（ｋ）を求めることが出来る。なお、Ｍはマイクロホンの総数である。Ｍの値については予め定めて複数信号区間推定装置１００内の記録部に記録しておき、発話者方向推定部５が記録部よりマイクロホンの総数Ｍを読み出すこととしても良い。また、何番目のマイクを基準マイクロホンとするかについても予め定めて記録部に基準マイクロホンを特定する情報を予め記録しておき、発話者方向推定部５がこの基準マイクロホンを特定する情報を読み出すこととしても良い。

ここでｖ_ｓは音速（約３４４ｍ/秒）、Ｄ^-1はＤの一般化逆行列である。

信号到来方向算出手段５０は、このようにして求めた音響信号の到来方向を方位角θ_ｉ
（ｋ）と仰角φ_ｉ（ｋ）で出力する。以後、簡単のために方位角のみを信号到来方向として用いる。

分類手段５１は、式（２０）に示すように方位角θ_ｉ（ｋ）を分類する。

ここでθ_ｎはｎ番目の話者を表すクラスタの重心を表す。Thresholdは外部から入力し
て与え、例えば１５度を用いる。なお、このThresholdも予め定めて複数信号区間推定装
置１００内の記録部に記録しておき、分類手段が記録部から読み出すこととしても良い。
なお、各クラスタは、後述するように音声の存在確率が高いフレームにおいて推定された
空間パワー分布に基づいて生成することも可能である。

発話者存在確率算出手段５２は、各クラスタＣ_ｎ（θ_ｉ（ｋ））を入力として発話者の
存在確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｄ_ｒ）を式（２１）で算出する。

ここでＫは離散フーリエ変換の結果得られる周波数スペクトルの周波数ビンの総数を表
す。Ｃ_ｎはｎ番目の話者が存在するクラスタを表す。例えば、ｎ番目の話者が領域ｒ１〜
ｒ２に存在する場合、領域ｒ１〜ｒ２がＣ_ｎとなる。

〔顔位置検出部〕
図５に顔位置検出部６の機能構成例を示す。顔位置検出部６は、顔位置検出・追跡手段
６０と談話参加者存在確率算出手段６１を備え、映像信号を入力として談話参加者の存在
確率ｐ（ｑ_ｒ＝１｜Ｖ_ｒ）を推定する。

顔位置検出・追跡手段６０は、例えば２つの魚眼レンズを装備した全方位カメラで全方
位をカバーした映像信号を入力として談話参加者の顔の重心の方向θ_ｎを出力する。談話
参加者の顔の重心方向は、例えば参考文献「Mateo Lozano, O. and Otsuka, k,“Simultaneous and fast 3D tracking of multiple faces in video sequences by using a particle filter”J.Signal Processing Systems,DOI 10.1007/s11265-008-0250-2,in press」に記載されたテンプレートマッチングとパーティクルフィルタを用いた顔検出・追跡方法を用いることで求めることが可能である。

談話参加者存在確率算出手段６１は、談話参加者の顔の重心方向θ_ｎを入力として、ガ
ウス分布関数Ｎ（θ_ｎ（τ），σ^２）を用いて式（２２）に示すように存在確率ｐ（ｑ_ｒ
＝１｜Ｖ_ｒ）を計算する。

〔情報統合部〕
情報統合部７は、音声信号区間推定部４で推定した音声の存在確率と、発話者方向推定
部５で推定した発話者の存在確率と、顔位置検出部６が推定した談話参加者の存在確率を
入力とし、各確率値を統合することで特定領域において談話参加者が発話した確率ｐ（ａ
_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を算出する。

特定領域において談話参加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）は、例えば各確率を式（２３）に示すように乗算することで求める。

なお、各確率値の信頼度に応じて式（２４）に示すように重みを与えて求めても良い。

また、談話参加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を式（２５）に示すように対数の和で求めても良い。

図６にこの発明の実施例２の複数信号区間推定装置１６０の機能構成例を示す。複数信
号区間推定装置１６０は、実施例１の発話者方向推定部５と音声信号区間推定部４の動作
を変更したものである。

複数信号区間推定装置１６０の発話者方向推定部６０は、センサ部３を中心とする平面
を複数の領域に分割し、各領域における音響信号の空間パワー分布を算出して各領域にお
ける発話者の存在確率を推定する。発話者方向推定部６０は、まず、信号到来方向算出手
段５０が出力する方位角θ_i（ｋ）を用いて、一定範囲から到来する信号のみを抽出するため式（２６）に示す時間周波数マスクMask_i(ｋ，ｒ)を生成する。

ここでΘ_ｒは抽出対象となる信号の到来方向の一定範囲を表し、ｒは特定の信号の到来
方向の一定範囲を表すインデックスである（ｒ＝１…Ｒ）。一定範囲の信号を抜き出すた
めには、ａに例えば０を用い、ｂには例えば１を用いる。

次に、周波数スペクトルＸ_ｉ（ｋ）と、時間周波数マスクMask_i(ｋ，ｒ)を用いて、各信号到来方向から到来する信号パワー分布（信号の空間内パワー分布）を推定する範囲ｒから到来する音響信号のパワーをＰ_ｉ（ｒ）とすると、式（２７）で計算出来る。

全領域について式（２７）を計算することで空間パワー分布を推定する。

音声信号区間推定部６１は、空間パワー分布を用いて実施例１と同じ計算をすることで
音声の存在確率を推定する。実施例２の情報統合部７は、空間パワー分布を用いて談話参
加者が発話した確率ｐ（ａ_ｒ＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）を求める。

なお、時間周波数マスクMask_i(ｋ，ｒ)を生成する考えを実施例１の音声信号区間推定部４に導入し、領域ｒ毎に音声の存在確率を推定するようにしても良い。この場合、音声信号区間推定部４でも領域ｒについて確率を推定するため、複数信号区間推定装置１００の発話確率の推定精度を向上させる効果が期待出来る。

また、情報統合部７の出力する確率を用いて各領域ｒにおいて談話参加者が発話してい
るか否かを判定させる目的信号有無判別部８を設けるようにしても良い。目的信号有無判
別部８は、発話の有無を判定する発話閾値Ｔを持ち、談話参加者が発話した確率ｐ（ａ_ｒ
＝１，ｑ_ｒ＝１｜Ｘ_ｒ，Ｄ_ｒ，Ｖ_ｒ）が発話閾値Ｔを超えていれば、談話参加者が領域ｒで発話しているとして“１”を出力し、超えていなければ発話が無いとして“０”を出力する。このような目的信号有無判別部８を設けた方が、複数信号区間推定装置としてより使い易いものにすることが出来る。なお、発話閾値Ｔは固定値でも良いし、時間と共に変化する値にしても良い。

〔評価実験〕
この発明の効果を確認する目的で、３本のマイクロホンと２台のカメラを用いて観測し
た音響信号と映像信号を、この発明の複数信号区間推定装置１００で分析する評価実験を
行った。実験条件を説明する。図７に音響信号と映像信号の収録環境を示す。残響時間が
約３５０ｍｓの会議室内で円卓７０を囲んで談話する４名音響信号と映像信号を収録した。円卓７０の中央に３本の全指向性マイクロホン１ａ，１ｂ，１ｃを例えば1辺が４ｃｍの正三角形の頂点にそれぞれ配置し、その正三角形を中心として魚眼レンズを装備した２台のカメラ２ａ，２ｂを、全方位がカバー出来るように配置した。

音響信号のサンプリングレートは１６ｋＨｚ、映像信号は３０フレーム/秒である。信号分析のフレーム長は６４ｍｓでフレームシフトは３２ｍｓである。話者の分類に用いる
Thresholdは１５度とした。評価尺度としては話者決定不正解率（ＤＥＲ:Diarization
Error Rate）を用いた。ＤＥＲは、誤検出時間（ＦＳＴ：False-alarm Speech Time）、誤棄却時間（ＭＳＴ：Missed Speech Time）、話者誤り時間（ＳＥＴ：Speaker Error Time）の３種の誤り時間を合計し、それを総発話時間で除算する式（２８）で求めた。

その結果を表１に示す。

この発明の方法で、話者決定不正解率ＤＥＲが３.５％改善された。この時に目的信号有無判別部８が出力した結果を図８に示す。図８の横軸は時間（秒）、縦軸は方向（度）である。●が発話有りを示している。

以上説明したこの発明の複数信号区間推定装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、空間パワー分布を推定するのに、時間周波数マスクを用いる代わりに遅延和法（参考文献「大賀寿郎、山崎芳男、金田豊、“音響システムとディジタル処理”、社団法人電子情報通信学会」）等によって得られた空間スペクトルを用いても良い。

また、上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ
（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ
（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。また、予め定めて複数信号区間推定装置内の記録部に記録しておいても良いとした値については、例えば複数信号区間推定装置内が入出力部（図１には不記載）を介して外部から入力値を取得し、入力された各値を用いる各処理機能が入力部を介して入力値を取得し、各処理機能内のメモリ等に入力された値を記録しておくこととしても良い。

この発明の複数信号区間推定装置１００の機能構成例を示す図。複数信号区間推定装置１００の動作フローを示す図。音声信号区間推定部４の機能構成例を示す図。発話者方向推定部５の機能構成例を示す図。顔位置検出部６の機能構成例を示す図。複数信号区間推定装置１６０の機能構成例を示す図。評価実験の音響信号と映像信号の収録環境を示す図。評価実験で目的信号有無判別部８が出力した結果を示す図。

Claims

複数のマイクロホンと１台以上のカメラを備えるセンサ部と、
上記マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面の全領域に対する音声の存在確率を推定する音声信号区間推定部と、
上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する発話者方向推定部と、
上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出部と、
上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合部と、
を具備する複数信号区間推定装置。
複数のマイクロホンと１台以上のカメラを備えるセンサ部と、
上記マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面を複数の領域に分割した各領域における音声の存在確率を推定する音声信号区間推定部と、
上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する発話者方向推定部と、
上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出部と、
上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合部と、
を具備する複数信号区間推定装置。
複数のマイクロホンと１台以上のカメラを備えるセンサ部と、
上記マイクロホンからの音響信号を入力として、上記センサ部を中心とする平面を複数の領域に分割し、上記各領域における音響信号の空間パワー分布を算出して上記各領域における発話者の存在確率を推定する発話者方向推定部と、
上記空間パワー分布を入力として上記各領域における音声の存在確率を推定する音声信号区間推定部と、
上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出部と、
上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合部と、
を具備する複数信号区間推定装置。
請求項１乃至３の何れかに記載した複数信号区間推定装置において、
上記談話参加者が発話した確率を入力として、上記各領域において上記談話参加者が発話しているか否かを判定する目的信号有無判別部を、
更に具備することを特徴とする複数信号区間推定装置。
センサ部が、複数のマイクロホンと１台以上のカメラにより音響信号と映像信号を観測するセンシング過程と、
音声信号区間推定部が、上記マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面の全領域に対する音声の存在確率を推定する音声信号区間推定過程と、
発話者方向推定部が、上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する発話者方向推定過程と、
顔位置検出部が、上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出過程と、
情報統合部が、上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合過程と、
を含む複数信号区間推定方法。
センサ部が、複数のマイクロホンと１台以上のカメラにより音響信号と映像信号を観測するセンシング過程と、
音声信号区間推定部が、上記マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面を複数の領域に分割した各領域における音声の存在確率を推定する音声信号区間推定過程と、
発話者方向推定部が、上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する発話者方向推定過程と、
顔位置検出部が、上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出過程と、
情報統合部が、上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合過程と、
を含む複数信号区間推定方法。
センサ部が、複数のマイクロホンと１台以上のカメラにより音響信号と映像信号を観測するセンシング過程と、
発話者方向推定部が、上記マイクロホンからの音響信号を入力として、上記センサ部を中心とする平面を複数の領域に分割し、上記各領域における音響信号の空間パワー分布を算出して上記各領域における発話者の存在確率を推定する発話者方向推定過程と、
音声信号区間推定部が、上記空間パワー分布を入力として上記各領域における音声の存在確率を推定する音声信号区間推定過程と、
顔位置検出部が、上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出過程と、
情報統合部が、上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合過程と、
を含む複数信号区間推定方法。
請求項５乃至７の何れかに記載した複数信号区間推定方法において、
目的信号有無判別部が、上記談話参加者が発話した確率を入力として、上記各領域において上記談話参加者が発話しているか否かを判定する目的信号有無判別過程を、
更に含むことを特徴とする複数信号区間推定方法。
請求項１乃至４の何れかに記載した複数信号区間推定装置としてコンピュータを機能させるための装置プログラム。