JP2007233239A

JP2007233239A - 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム

Info

Publication number: JP2007233239A
Application number: JP2006057611A
Authority: JP
Inventors: Futoshi Asano; 太浅野
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2006-03-03
Filing date: 2006-03-03
Publication date: 2007-09-13
Anticipated expiration: 2026-03-03
Also published as: JP4565162B2

Abstract

【課題】会議中の発話のかぶりを取り除いて発話内容を話者毎に高精度で分離することができる、発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラムを提供する。
【解決手段】会議中の連続した区間に当該会議の場で収録された多チャネルの音声データから時刻毎の音源方向を推定する。そして、音源となる話者の存在範囲を推定して時刻毎にどの話者が発話しているかを同定する。これから目的話者の位置ベクトルを推定するとともに、他の話者の雑音空間相関行列を計算して、目的話者の位置ベクトルと、目的話者に対する他の話者の雑音空間行列に基づいてフィルタを生成し、当該フィルタを用いて目的話者のみの発話を分離して出力する。
【選択図】図１

Description

本発明は、会議中に同時発話や相槌など発話が重なった場合に発話イベントを分離するための発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラムに関する。

従来、企業における顧客との打ち合わせや、公共機関における委員会などの会議においては会議の内容を記録しておくために、人手による会議録を作成する方法が一般に用いられているが、特に中・小規模の会議では、コストに見合わない場合が少なくない。

そこで、近年では、音声認識によって、自動的に会議録を作成する手法も研究・開発され、製品化もなされているが、自然な発話に対する認識率は6割程度に過ぎず、音声認識により得られた結果を人手により修正する作業が必要となっていた。

また、ビデオやレコーダーなどで会議の音声や画像を記録する方法も広く用いられているが、会議中にどのような議論がなされたかを把握するためには、録音・録画内容をすべて再生する必要があり、効率が悪い。

そこで、録音・録画した内容を解析し、だれが、どのような発言をおこなったかといった情報を付加することにより、所望の録音・録画内容に効率的にアクセスするための研究も行われている。（非特許文献１参照。）
Jitendra Ajmera, et al. "Clustering and Segmenting speakers and their locations in meetning," Proc. ICASSP 2004, Vol.I, pp.605-608, 2004。

図５は、このような研究における一般的な会議録コンテンツの作成手順を示す流れ図であって、会議において録音・録画された内容は解析され、いつ、だれが発言したかの情報を取り出す処理がなされる。なお、ここでは、このような処理を「構造化」と呼ぶ。

構造化され、発言者ごとに分けられた(セグメンテーション)音声は、音声認識によってその発言内容が解析され、さらに、キーワードの抽出やトピックの分類、意味の要約などにより、高度な情報が付加されて会議録コンテンツが製作される。

ここで、高精度で音声認識を行うためには、発話内容がクリアでなければならないが、参加者が自由に発言できるような会議の場では、ある話者（目的話者）の発言中に、他の話者の相槌や割り込み発言、咳払い等があると、目的話者の発話内容に他の話者（競合話者）の発話が重畳する、いわゆる「かぶり」が生じるため、音声認識の精度が著しく低下してしまう問題があった。

従来における複数の音源を分離する研究においては、音声インターフェースなどへの応用を目的に、雑音（例えば、テレビやラジオの音）がある中で、発話者の発言を分離する問題を扱っていた。
この場合、図６に示すように雑音源と目的音源（発話）との重畳区間が十分に長ければ、独立成分分析(ICA)を用いたブラインド音源分離（BSS）など、従来周知の方法によって雑音と話者の発話とを分離することが可能である。（例えば、非特許文献２参照。）
Te-Won Lee, "Independent Component Analysis," Kluwer Academic Publishers, 1998

しかしながら、会議における音声のかぶりは、相槌や咳払い等、図７に示すように、重畳区間が非常に短い場合が多いため、このような雑音と発話との分離には、前述したBSS法のような従来方法は適用できない。

一方、適応ビームフォーマを用いた音源分離の方法も提案されているが、これを用いるためには発話者の位置から録音に用いる複数のマイクロホンまでの到達時間の情報を含んだ「話者の位置ベクトル」を与えなければならない。（例えば、非特許文献３参照。）
Don Johnson and Dan Dudgeon, "Array signal processing," Prentice hall, 1993

適応ビームフォーマによる方法においては、一般的に、予想される話者位置（例えば、マイクロホン中心として、その中心角5度おき）に仮想的な音源を配置し、この位置での位置ベクトルを測定により求めておき、実際の会議音声においては、このあらかじめ求めておいた位置ベクトルの候補の中から、一番近いものを用いる手法が用いられている。

この作業はキャリブレーションとよばれ、録音に用いる複数のマイクのセット（以下、マイクロホンアレイと呼ぶ。）ごとに測定作業を行う必要があり、入力装置を大量生産する上では、非常に不利となる。

さらに、雑音の空間情報を含む、雑音空間相関行列も与える必要があり、従来においては、周囲の雑音が定常であると仮定して、話者の発話の休止区間からこの相関行列を推定していた。しかしながら、会議においては、雑音源としての競合する話者は一定ではなく、絶えず変化するため、このような方法を用いることができなかった。

そこで、本発明は、前述したような、従来の適応ビームフォーマが有していた問題点を解消し、会議中の発話のかぶりを取り除いて、発話内容を話者毎に高精度で分離することができる、発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラムを提供することを目的とする。

前記目的を達成するために、本発明の会議録における発話イベント分離方法は、会議中の連続した区間に当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第１のステップと、前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第２のステップと、前記時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第３のステップと、第３のステップで得られたデータから目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第４のステップと、第３のステップで得られたデータから他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する第５のステップと、第４のステップで推定された話者の位置ベクトルと、第５のステップで計算された雑音空間相関行列からフィルタを生成する第６のステップと、前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力する第７のステップとからなるものである。

また、本発明の発話イベント分離システムは、会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する音源方向推定手段と、前記音源方向推定手段で検出されたピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する話者範囲推定手段と、前記音源方向推定手段ならびに話者範囲推定手段によって得られた時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する話者同定手段と、前記話者同定手段で得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する話者位置ベクトル推定手段と、前記話者同定手段で得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する雑音空間相関行列計算手段と、前記話者位置ベクトル推定手段によって推定された位置ベクトルと、前記雑音空間相関行列計算手段によって計算された雑音空間相関行列からフィルタを生成するフィルタ生成手段と、前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力するフィルタリング手段とを備えたものである。

本発明の発話イベント分離システムにおいては、複数のマイクロフォンを放射状に配置して構成されたマイクロフォンアレイを用いて多チャネルの音声データを収録することが望ましい。

また、本発明の発話イベント分離プログラムは、会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データがコンピュータに入力されてそのメモリに記憶され、前記コンピュータに、前記音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第１のステップと、前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第２のステップと、前記時刻毎に推定された音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第３のステップと、第３のステップで得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第４のステップと、第３のステップで得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を算出する第５のステップと、第４のステップで推定された話者の位置ベクトルと、第５のステップで計算された雑音空間相関行列からフィルタデータを生成する第６のステップと、前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタデータに基づいてフィルタリングを行わせ、目的とする話者のみの発話を分離して出力する第７のステップとを実行させるものである。

請求項１記載の発明によれば、会議中に目的話者の発話に他の話者の相槌や割り込み等の発話が重畳している場合においても、目的話者の発話内容を高精度に分離・抽出することができる発話イベント分離方法を提供することができる。

また、本発明方法を用いることにより、会議中に収録した音声から、音声認識によって自動的に会議録を作成する場合等において、音声認識の認識率を向上させることができるので、自動作成された会議録の修正に費やす手間と時間を低減することができる。

請求項２記載の発明によれば、請求項１に記載された発話イベント分離方法を実現するための発話イベント分離システムを提供することができる。

請求項３記載の発明によれば、複数のマイクロフォンを放射状に配置して構成された一台のマイクロフォンアレイを会議テーブルの中央に置いて音声を収録することができるので、従来のように会議の参加者全員の胸元にタイピン型のマイクロフォンを付けさせて音声の収録を行うものと比較して配線を簡潔にできるともに、参加者のマイクロフォンの付け忘れ等により録音内容が不完全になる恐れもない。

また、請求項４記載の発明によれば、発話イベント分離システムをノートパソコン等のコンピュータを用いて、簡単に且つ低コストで実現することができるコンピュータプログラムを提供することができる。

以下、本発明を実施する場合の形態について図面を参照して説明する。図１は、本発明の会議録における発話イベント分離方法を実施するための発話イベント分離システムの１実施形態を示すシステム構成図である。

同図に示すように、発話イベント分離システム１は、複数のマイクロフォン２Ａからなるマイクロフォンアレイ２に接続されて用いられるものであって、それぞれのマイクロフォン２Ａが捉えた音声は個別の多チャネルアナログ信号として、マイクロフォンアレイ２からケーブル３を介してアナログ／デジタル信号変換手段４に入力され、ここでデジタル信号に変換されて、当該発話イベント分離システム１に入力されるようになっている。

本実施形態においては、マイクロフォンアレイ２は、複数のマイクロフォン２Ａを筒型のケースの周面に放射状に配置して構成され、これを会議のテーブルの中央に一台設置して音声を収録するようにしている。

従来の会議等での音声の収録においては、マイクロホンでの信号対雑音比を少しでも向上させるために、会議の参加者全員に、胸元にタイピン型のマイクロホンを付けさせるなどの方法をとっていた。

しかし、参加者全員にマイクロホンを付けさせた場合、マイクロフォンのケーブル配線等が煩雑になり、また、参加者がマイクロフォンをつけ忘れたために、録音内容が不完全となる場合も少なくなかった。

これに対し、本実施形態においては、音声を収録する装置として、それぞれ異なる方向に放射状に向けた複数のマイクロフォン２Ａからなるマイクロフォンアレイ２を用いているため、会議の参加者がそれぞれタイピン型のマイクロフォンを付ける煩わしさから解放されるとともに、周囲全方向からの音を収録できる利点がある。

なお、マイクロフォンアレイは、本実施形態のものに限定するものではなく、会議テーブルの形状や会議参加者の席の配置に応じて、マイクロフォンを直線状や円弧状に適宜本数並べて構成してもよい。

一方、発話イベント分離システム１の内部には、アナログ／デジタル信号変換手段４から入力されるデジタル音声データを会議中の時間内の必要な区間にわたって収録しておくための記憶手段５が組み込まれている。

記憶手段５にはハードディスク等を用いることができ、本実施形態においては、発話イベント分離システム１を構成する装置の内部に組み込んでいるが、アナログ／デジタル信号変換手段４と同様に独立したユニットとして外部に設けてもよい。また、アナログ／デジタル信号変換手段４とともに、発話イベント分離システム１を構成する装置内に組み込んでもよい。

なお、本発明の発話イベント分離システム１には、前段の「構造化」の処理を行うための音源方向推定手段６、話者範囲推定手段７、話者同定手段８と、後段の「発話分離」の処理を行うための話者位置ベクトル推定手段９、雑音相関行列計算手段１０、フィルタ生成手段１１、及び、フィルタリング手段１２が含まれている。

図２は、発話イベント分離システム１による処理の概要を示すフロー図であって、本発明においては、同図にステップＳ１〜ステップＳ３で示す前段の「構造化」の処理で得られた情報を用いて、ステップＳ４〜ステップＳ７で示す後段の「発話分離」の処理を行うことを特徴としている。

前段の「構造化」の処理段階では、マイクロフォンアレイ２に入力された多チャネルの音声入力を解析し、会議中に誰が何時発言したかを推定する。特に、本発明においては、発話のかぶりを除去して目的話者の発話のみを分離することが目的であるので、目的話者が発言中に競合話者が入れる相槌などの小さな発話イベントまで詳細に分析する必要がある。

そこで、「構造化」の処理段階においては、まず記憶手段５に収録されている音声データを読み出し、音源方向推定手段６で音源定位によりマイクロフォンアレイ２で収録した多チャネル音声入力を解析して時刻毎に音の到来方向を推定する。（図２のステップＳ１）

音源定位には、従来周知の一般的な音源定位の手法（例えば、Don Johnson and Dan Dudgeon, “Array signal processing,” Prentice hall, 1993参照）を用いることが可能である。しかしながら、本実施形態においては、より性能を高めるため、MUSIC法（R.O.Schmidt,”Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol.AP-24, No.3, pp.276-280, 1986参照）を広帯域に拡張した方法（F.Asano et al. “Fusion of audio and video information for detecting speech events,” Proc. Fusion2003, pp.386-393, 2003）を用いている。

次いで、音源方向推定手段６により検出された時刻毎の音のピーク値のデータは、話者範囲推定手段７に入力される。話者範囲推定手段７では、音の空間スペクトルのピークを会議全体、もしくは、会議中の必要な区間に対して集積して図３に示すヒストグラムデータを生成し、このヒストグラムデータに対し、k-means法（例えば、R. Duda, E. Hart and D. Sort, “Pattern Classification,” Wiley-Interscience publication 2001参照）によりクラスタリングを行う。

ここで、クラスタリングに必要なクラスタ数は、会議参加者数とする。クラスタリング結果により得られたクラスタ中心±R°を話者の存在範囲として推定する。（ステップＳ２）ここで、Rは任意の角度（例えば２０°）であり、会議毎に、その参加人数などに応じて設定する。

次に、話者同定手段８では、音源方向推定手段６により得られた音源定位の結果と、話者範囲推定手段７により推定された話者範囲から、各時刻にどの話者が発話しているかを推定する。例えば、ある時刻において、空間スペクトルのピークがある話者の範囲に入っていれば、当該話者が発話していたものと同定する。（ステップＳ３）

前述したような「構造化」の処理に続く後段の「発話分離」の処理では、「構造化」の処理段階で得られた情報をもとに、発話が重畳している（かぶさっている）部分についての話者分離を行う。発話イベントの分離には、適応ビームフォーマの一種である最尤推定法（例えば、Don Johnson and Dan Dudgeon, “Array signal processing,” Prentice hall, 1993参照）が用いられる。

最尤推定法では、目的話者に対する位置ベクトルと、雑音（競合話者）に対する相関行列（雑音空間相関行列）の２つの情報が必要となる。話者位置ベクトル推定手段９では、目的話者に対する位置ベクトルを、前述した「構造化」の処理段階で得られた情報に基づいて推定する。

図４は、話者位置ベクトル及び雑音空間相関行列の推定手順を説明する図であって、「構造化」の処理段階で得られた情報を用いて、会議中に目的話者が単独で発話しているブロックを探し出す。なお、ここでは、通常０．５秒程度の短い時間単位を「ブロック」と呼び、処理はブロック単位で実行される。

話者位置ベクトル推定手段９は、単独発話しているブロックから相関行列を計算し、これに対し、固有値分解（G.Strang, “Linear Algebra and its applications,” Harcourt Brace Jovanovich College Publishers, 1988参照）を行い、固有値と固有ベクトルを計算する。

音源が単独の場合は、最大固有値に対する固有ベクトルがその音源に対する位置ベクトルとなる性質（Don Johnson and Dan Dudgeon, “Array signal processing,” Prentice hall, 1993参照。）を利用し、最大固有値に対応する固有ベクトルを取り出し、このブロックの話者位置ベクトルの候補とする。

図４に示すように、会議中に目的話者が単独で発話しているブロックは複数あるので、話者位置ベクトル推定手段９は、これらのブロックについて計算した話者位置ベクトルの候補から、最適なものを話者位置ベクトルとして推定する。

その規範としては、まず、発話がかぶっているブロックの目的話者の方向と、話者位置ベクトルの候補となっているブロックの話者方向との差が最小のものを選び、それでも複数の候補がある場合は、単独発話の指標が最大のものを選択する。（ステップＳ４）
なお、単独発話の指標としては、すでに計算した固有値のうち、最大固有値と２番目に大きい固有値との比を、周波数軸上で平均したものを用いる。

一方、雑音空間相関行列計算手段１０は、話者位置ベクトル推定手段９における話者位置ベクトルの推定手順と同様に、ここでは競合話者が単独で発話しているブロックを探し出す。そして、該当するブロックにおいて雑音空間相関行列を計算する。また、競合話者が単独で発話している他のブロックについても同様に雑音空間相関行列を計算する。（ステップＳ５）

次に、フィルタ生成手段１１は、話者位置ベクトル推定手段９によって推定された目的話者の位置ベクトルと、雑音空間相関行列計算手段１０によって競合話者が単独で発話しているブロック毎に計算された雑音空間相関行列のそれぞれについて発話分離を行う最尤推定法のフィルタを生成して、これを分離対象である発話がかぶっているブロックに対して適用し、これらのフィルタの中から出力パワーが最小となるものを最終的なフィルタとして生成する。（ステップＳ６）

フィルタリング手段１２は、フィルタ生成手段１１で構築されたフィルタをアナログ／デジタル信号変換手段４から送られてくるデジタル音声信号に適用して、フィルタ出力として目的話者の発話情報のみを分離して出力する。（ステップＳ７）

なお、前述した発話イベント分離システム１は、専用のハードウェアによって構築することもできるが、例えばノートパソコン等の汎用のコンピュータで発話イベント分離プログラムを実行させることによっても実現可能である。

前記発話イベント分離プログラムは、コンピュータを、図１における音源方向推定手段６、話者範囲推定手段７、話者同定手段８、話者位置ベクトル推定手段９、雑音空間相関行列計算手段１０、フィルタ生成手段１１、及び、フィルタリング手段１０として動作させるものであって、アナログ／デジタル信号変換手段４からの出力信号は、ＵＳＢ（Universal Serial Bus Specification Rev.2.0)あるいは、ＰＣＩ（Peripheral Component Interconnect）等の入出力インターフェイスを経由してコンピュータに入力することができる。
また、アナログ／デジタル信号変換手段４は、信号変換モジュールとしてコンピュータに組み込んであってもよい。

前記発話イベント分離プログラムは、オペレーティングシステムとともにコンピュータの記憶装置（例えば、ハードディスクや光ディスク等）に予めインストールされており、当該プログラムが起動されると、ＣＰＵによってコンピュータのＲＡＭ（Random Access Memory）に読み込まれて前述した図２に示す各ステップの処理を実行する。

ここで、コンピュータを用いる場合には、アナログ／デジタル信号変換手段４を介してコンピュータに入力されるデジタル音声データは、会議中の記録に必要な区間にわたってコンピュータに内蔵もしくは外付けされたハードディスク等の記憶手段に蓄積される。

発話イベント分離プログラムは、前記蓄積されたデータを用いて前述した各ステップを実行し、最終的に目的話者の発話のみを分離し、その音声データは、出力インターフェイスを介して外部に出力する。なお、発話分離した音声データは、ハードディスク等に出力して保存できるようにしてもよい。

本発明の発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラムは、小規模の会議で収録した音声のデータから、音声認識により自動的に会議録を作成する場合等において利用可能である。

本発明の発話イベント分離方法を実施するための、発話イベント分離システムの１実施形態を示すシステム構成図である。本発明の発話イベント分離システム１による処理の概要を示すフロー図である。話者範囲推定に用いるヒストグラムとクラスタリング結果から推定された話者範囲を表す図である。話者位置ベクトル及び雑音相関行列の推定手順を説明する図である。従来の一般的な会議録コンテンツの作成手順を示すフロー図である。目的音源と雑音源との重畳区間が長い状態を模式的に示す図である。目的話者と競合話者の発話が短区間重畳している状態を模式的に示す図である。

符号の説明

１発話イベント分離システム
２マイクロフォンアレイ
２Ａマイクロフォン
３ケーブル
４アナログ／デジタル信号変換手段
５記憶手段
６音源方向推定手段
７話者範囲推定手段
８話者同定手段
９話者位置ベクトル推定手段
１０雑音相関行列計算手段
１１フィルタ生成手段
１２フィルタリング手段

Claims

会議中の連続した区間に当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第１のステップと、
前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第２のステップと、
前記時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第３のステップと、
第３のステップで得られたデータから目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第４のステップと、
第３のステップで得られたデータから他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する第５のステップと、
第４のステップで推定された話者の位置ベクトルと、第５のステップで計算された雑音空間相関行列からフィルタを生成する第６のステップと、
前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力する第７のステップとからなることを特徴とする発話イベント分離方法。
会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する音源方向推定手段と、
前記音源方向推定手段で検出されたピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する話者範囲推定手段と、
前記音源方向推定手段ならびに話者範囲推定手段によって得られた時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する話者同定手段と、
前記話者同定手段で得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する話者位置ベクトル推定手段と、
前記話者同定手段で得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する雑音空間相関行列計算手段と、
前記話者位置ベクトル推定手段によって推定された位置ベクトルと、前記雑音空間相関行列計算手段によって計算された雑音空間相関行列からフィルタを生成するフィルタ生成手段と、
前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力するフィルタリング手段とを備えたことを特徴とする発話イベント分離システム。
複数のマイクロフォンを放射状に配置して構成されたマイクロフォンアレイを用いて多チャネルの音声データを収録することを特徴とする請求項２記載の発話イベント分離システム。
会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データがコンピュータに入力されてそのメモリに記憶され、
前記コンピュータに、
前記音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第１のステップと、
前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第２のステップと、
前記時刻毎に推定された音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第３のステップと、
第３のステップで得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第４のステップと、
第３のステップで得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を算出する第５のステップと、
第４のステップで推定された話者の位置ベクトルと、第５のステップで計算された雑音空間相関行列からフィルタデータを生成する第６のステップと、
前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタデータに基づいてフィルタリングを行わせ、目的とする話者のみの発話を分離して出力する第７のステップとを実行させることを特徴とする発話イベント分離プログラム。