JP2007233239A - 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム - Google Patents

発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム Download PDF

Info

Publication number
JP2007233239A
JP2007233239A JP2006057611A JP2006057611A JP2007233239A JP 2007233239 A JP2007233239 A JP 2007233239A JP 2006057611 A JP2006057611 A JP 2006057611A JP 2006057611 A JP2006057611 A JP 2006057611A JP 2007233239 A JP2007233239 A JP 2007233239A
Authority
JP
Japan
Prior art keywords
speaker
sound source
block
section
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006057611A
Other languages
English (en)
Other versions
JP4565162B2 (ja
Inventor
Futoshi Asano
太 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2006057611A priority Critical patent/JP4565162B2/ja
Publication of JP2007233239A publication Critical patent/JP2007233239A/ja
Application granted granted Critical
Publication of JP4565162B2 publication Critical patent/JP4565162B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 会議中の発話のかぶりを取り除いて発話内容を話者毎に高精度で分離することができる、発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラムを提供する。
【解決手段】 会議中の連続した区間に当該会議の場で収録された多チャネルの音声データから時刻毎の音源方向を推定する。そして、音源となる話者の存在範囲を推定して時刻毎にどの話者が発話しているかを同定する。これから目的話者の位置ベクトルを推定するとともに、他の話者の雑音空間相関行列を計算して、目的話者の位置ベクトルと、目的話者に対する他の話者の雑音空間行列に基づいてフィルタを生成し、当該フィルタを用いて目的話者のみの発話を分離して出力する。
【選択図】 図1

Description

本発明は、会議中に同時発話や相槌など発話が重なった場合に発話イベントを分離するための発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラムに関する。
従来、企業における顧客との打ち合わせや、公共機関における委員会などの会議においては会議の内容を記録しておくために、人手による会議録を作成する方法が一般に用いられているが、特に中・小規模の会議では、コストに見合わない場合が少なくない。
そこで、近年では、音声認識によって、自動的に会議録を作成する手法も研究・開発され、製品化もなされているが、自然な発話に対する認識率は6割程度に過ぎず、音声認識により得られた結果を人手により修正する作業が必要となっていた。
また、ビデオやレコーダーなどで会議の音声や画像を記録する方法も広く用いられているが、会議中にどのような議論がなされたかを把握するためには、録音・録画内容をすべて再生する必要があり、効率が悪い。
そこで、録音・録画した内容を解析し、だれが、どのような発言をおこなったかといった情報を付加することにより、所望の録音・録画内容に効率的にアクセスするための研究も行われている。(非特許文献1参照。)
Jitendra Ajmera, et al. "Clustering and Segmenting speakers and their locations in meetning," Proc. ICASSP 2004, Vol.I, pp.605-608, 2004。
図5は、このような研究における一般的な会議録コンテンツの作成手順を示す流れ図であって、会議において録音・録画された内容は解析され、いつ、だれが発言したかの情報を取り出す処理がなされる。なお、ここでは、このような処理を「構造化」と呼ぶ。
構造化され、発言者ごとに分けられた(セグメンテーション)音声は、音声認識によってその発言内容が解析され、さらに、キーワードの抽出やトピックの分類、意味の要約などにより、高度な情報が付加されて会議録コンテンツが製作される。
ここで、高精度で音声認識を行うためには、発話内容がクリアでなければならないが、参加者が自由に発言できるような会議の場では、ある話者(目的話者)の発言中に、他の話者の相槌や割り込み発言、咳払い等があると、目的話者の発話内容に他の話者(競合話者)の発話が重畳する、いわゆる「かぶり」が生じるため、音声認識の精度が著しく低下してしまう問題があった。
従来における複数の音源を分離する研究においては、音声インターフェースなどへの応用を目的に、雑音(例えば、テレビやラジオの音)がある中で、発話者の発言を分離する問題を扱っていた。
この場合、図6に示すように雑音源と目的音源(発話)との重畳区間が十分に長ければ、独立成分分析(ICA)を用いたブラインド音源分離(BSS)など、従来周知の方法によって雑音と話者の発話とを分離することが可能である。(例えば、非特許文献2参照。)
Te-Won Lee, "Independent Component Analysis," Kluwer Academic Publishers, 1998
しかしながら、会議における音声のかぶりは、相槌や咳払い等、図7に示すように、重畳区間が非常に短い場合が多いため、このような雑音と発話との分離には、前述したBSS法のような従来方法は適用できない。
一方、適応ビームフォーマを用いた音源分離の方法も提案されているが、これを用いるためには発話者の位置から録音に用いる複数のマイクロホンまでの到達時間の情報を含んだ「話者の位置ベクトル」を与えなければならない。(例えば、非特許文献3参照。)
Don Johnson and Dan Dudgeon, "Array signal processing," Prentice hall, 1993
適応ビームフォーマによる方法においては、一般的に、予想される話者位置(例えば、マイクロホン中心として、その中心角5度おき)に仮想的な音源を配置し、この位置での位置ベクトルを測定により求めておき、実際の会議音声においては、このあらかじめ求めておいた位置ベクトルの候補の中から、一番近いものを用いる手法が用いられている。
この作業はキャリブレーションとよばれ、録音に用いる複数のマイクのセット(以下、マイクロホンアレイと呼ぶ。)ごとに測定作業を行う必要があり、入力装置を大量生産する上では、非常に不利となる。
さらに、雑音の空間情報を含む、雑音空間相関行列も与える必要があり、従来においては、周囲の雑音が定常であると仮定して、話者の発話の休止区間からこの相関行列を推定していた。しかしながら、会議においては、雑音源としての競合する話者は一定ではなく、絶えず変化するため、このような方法を用いることができなかった。
そこで、本発明は、前述したような、従来の適応ビームフォーマが有していた問題点を解消し、会議中の発話のかぶりを取り除いて、発話内容を話者毎に高精度で分離することができる、発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラムを提供することを目的とする。
前記目的を達成するために、本発明の会議録における発話イベント分離方法は、会議中の連続した区間に当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第1のステップと、前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第2のステップと、前記時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第3のステップと、第3のステップで得られたデータから目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第4のステップと、第3のステップで得られたデータから他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する第5のステップと、第4のステップで推定された話者の位置ベクトルと、第5のステップで計算された雑音空間相関行列からフィルタを生成する第6のステップと、前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力する第7のステップとからなるものである。
また、本発明の発話イベント分離システムは、会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する音源方向推定手段と、前記音源方向推定手段で検出されたピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する話者範囲推定手段と、前記音源方向推定手段ならびに話者範囲推定手段によって得られた時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する話者同定手段と、前記話者同定手段で得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する話者位置ベクトル推定手段と、前記話者同定手段で得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する雑音空間相関行列計算手段と、前記話者位置ベクトル推定手段によって推定された位置ベクトルと、前記雑音空間相関行列計算手段によって計算された雑音空間相関行列からフィルタを生成するフィルタ生成手段と、前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力するフィルタリング手段とを備えたものである。
本発明の発話イベント分離システムにおいては、複数のマイクロフォンを放射状に配置して構成されたマイクロフォンアレイを用いて多チャネルの音声データを収録することが望ましい。
また、本発明の発話イベント分離プログラムは、会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データがコンピュータに入力されてそのメモリに記憶され、前記コンピュータに、前記音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第1のステップと、前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第2のステップと、前記時刻毎に推定された音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第3のステップと、第3のステップで得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第4のステップと、第3のステップで得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を算出する第5のステップと、第4のステップで推定された話者の位置ベクトルと、第5のステップで計算された雑音空間相関行列からフィルタデータを生成する第6のステップと、前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタデータに基づいてフィルタリングを行わせ、目的とする話者のみの発話を分離して出力する第7のステップとを実行させるものである。
請求項1記載の発明によれば、会議中に目的話者の発話に他の話者の相槌や割り込み等の発話が重畳している場合においても、目的話者の発話内容を高精度に分離・抽出することができる発話イベント分離方法を提供することができる。
また、本発明方法を用いることにより、会議中に収録した音声から、音声認識によって自動的に会議録を作成する場合等において、音声認識の認識率を向上させることができるので、自動作成された会議録の修正に費やす手間と時間を低減することができる。
請求項2記載の発明によれば、請求項1に記載された発話イベント分離方法を実現するための発話イベント分離システムを提供することができる。
請求項3記載の発明によれば、複数のマイクロフォンを放射状に配置して構成された一台のマイクロフォンアレイを会議テーブルの中央に置いて音声を収録することができるので、従来のように会議の参加者全員の胸元にタイピン型のマイクロフォンを付けさせて音声の収録を行うものと比較して配線を簡潔にできるともに、参加者のマイクロフォンの付け忘れ等により録音内容が不完全になる恐れもない。
また、請求項4記載の発明によれば、発話イベント分離システムをノートパソコン等のコンピュータを用いて、簡単に且つ低コストで実現することができるコンピュータプログラムを提供することができる。
以下、本発明を実施する場合の形態について図面を参照して説明する。図1は、本発明の会議録における発話イベント分離方法を実施するための発話イベント分離システムの1実施形態を示すシステム構成図である。
同図に示すように、発話イベント分離システム1は、複数のマイクロフォン2Aからなるマイクロフォンアレイ2に接続されて用いられるものであって、それぞれのマイクロフォン2Aが捉えた音声は個別の多チャネルアナログ信号として、マイクロフォンアレイ2からケーブル3を介してアナログ/デジタル信号変換手段4に入力され、ここでデジタル信号に変換されて、当該発話イベント分離システム1に入力されるようになっている。
本実施形態においては、マイクロフォンアレイ2は、複数のマイクロフォン2Aを筒型のケースの周面に放射状に配置して構成され、これを会議のテーブルの中央に一台設置して音声を収録するようにしている。
従来の会議等での音声の収録においては、マイクロホンでの信号対雑音比を少しでも向上させるために、会議の参加者全員に、胸元にタイピン型のマイクロホンを付けさせるなどの方法をとっていた。
しかし、参加者全員にマイクロホンを付けさせた場合、マイクロフォンのケーブル配線等が煩雑になり、また、参加者がマイクロフォンをつけ忘れたために、録音内容が不完全となる場合も少なくなかった。
これに対し、本実施形態においては、音声を収録する装置として、それぞれ異なる方向に放射状に向けた複数のマイクロフォン2Aからなるマイクロフォンアレイ2を用いているため、会議の参加者がそれぞれタイピン型のマイクロフォンを付ける煩わしさから解放されるとともに、周囲全方向からの音を収録できる利点がある。
なお、マイクロフォンアレイは、本実施形態のものに限定するものではなく、会議テーブルの形状や会議参加者の席の配置に応じて、マイクロフォンを直線状や円弧状に適宜本数並べて構成してもよい。
一方、発話イベント分離システム1の内部には、アナログ/デジタル信号変換手段4から入力されるデジタル音声データを会議中の時間内の必要な区間にわたって収録しておくための記憶手段5が組み込まれている。
記憶手段5にはハードディスク等を用いることができ、本実施形態においては、発話イベント分離システム1を構成する装置の内部に組み込んでいるが、アナログ/デジタル信号変換手段4と同様に独立したユニットとして外部に設けてもよい。また、アナログ/デジタル信号変換手段4とともに、発話イベント分離システム1を構成する装置内に組み込んでもよい。
なお、本発明の発話イベント分離システム1には、前段の「構造化」の処理を行うための音源方向推定手段6、話者範囲推定手段7、話者同定手段8と、後段の「発話分離」の処理を行うための話者位置ベクトル推定手段9、雑音相関行列計算手段10、フィルタ生成手段11、及び、フィルタリング手段12が含まれている。
図2は、発話イベント分離システム1による処理の概要を示すフロー図であって、本発明においては、同図にステップS1〜ステップS3で示す前段の「構造化」の処理で得られた情報を用いて、ステップS4〜ステップS7で示す後段の「発話分離」の処理を行うことを特徴としている。
前段の「構造化」の処理段階では、マイクロフォンアレイ2に入力された多チャネルの音声入力を解析し、会議中に誰が何時発言したかを推定する。特に、本発明においては、発話のかぶりを除去して目的話者の発話のみを分離することが目的であるので、目的話者が発言中に競合話者が入れる相槌などの小さな発話イベントまで詳細に分析する必要がある。
そこで、「構造化」の処理段階においては、まず記憶手段5に収録されている音声データを読み出し、音源方向推定手段6で音源定位によりマイクロフォンアレイ2で収録した多チャネル音声入力を解析して時刻毎に音の到来方向を推定する。(図2のステップS1)
音源定位には、従来周知の一般的な音源定位の手法(例えば、Don Johnson and Dan Dudgeon, “Array signal processing,” Prentice hall, 1993参照)を用いることが可能である。しかしながら、本実施形態においては、より性能を高めるため、MUSIC法(R.O.Schmidt,”Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol.AP-24, No.3, pp.276-280, 1986参照)を広帯域に拡張した方法(F.Asano et al. “Fusion of audio and video information for detecting speech events,” Proc. Fusion2003, pp.386-393, 2003)を用いている。
次いで、音源方向推定手段6により検出された時刻毎の音のピーク値のデータは、話者範囲推定手段7に入力される。話者範囲推定手段7では、音の空間スペクトルのピークを会議全体、もしくは、会議中の必要な区間に対して集積して図3に示すヒストグラムデータを生成し、このヒストグラムデータに対し、k-means法(例えば、R. Duda, E. Hart and D. Sort, “Pattern Classification,” Wiley-Interscience publication 2001参照)によりクラスタリングを行う。
ここで、クラスタリングに必要なクラスタ数は、会議参加者数とする。クラスタリング結果により得られたクラスタ中心±R°を話者の存在範囲として推定する。(ステップS2)ここで、Rは任意の角度(例えば20°)であり、会議毎に、その参加人数などに応じて設定する。
次に、話者同定手段8では、音源方向推定手段6により得られた音源定位の結果と、話者範囲推定手段7により推定された話者範囲から、各時刻にどの話者が発話しているかを推定する。例えば、ある時刻において、空間スペクトルのピークがある話者の範囲に入っていれば、当該話者が発話していたものと同定する。(ステップS3)
前述したような「構造化」の処理に続く後段の「発話分離」の処理では、「構造化」の処理段階で得られた情報をもとに、発話が重畳している(かぶさっている)部分についての話者分離を行う。発話イベントの分離には、適応ビームフォーマの一種である最尤推定法(例えば、Don Johnson and Dan Dudgeon, “Array signal processing,” Prentice hall, 1993参照)が用いられる。
最尤推定法では、目的話者に対する位置ベクトルと、雑音(競合話者)に対する相関行列(雑音空間相関行列)の2つの情報が必要となる。話者位置ベクトル推定手段9では、目的話者に対する位置ベクトルを、前述した「構造化」の処理段階で得られた情報に基づいて推定する。
図4は、話者位置ベクトル及び雑音空間相関行列の推定手順を説明する図であって、「構造化」の処理段階で得られた情報を用いて、会議中に目的話者が単独で発話しているブロックを探し出す。なお、ここでは、通常0.5秒程度の短い時間単位を「ブロック」と呼び、処理はブロック単位で実行される。
話者位置ベクトル推定手段9は、単独発話しているブロックから相関行列を計算し、これに対し、固有値分解(G.Strang, “Linear Algebra and its applications,” Harcourt Brace Jovanovich College Publishers, 1988参照)を行い、固有値と固有ベクトルを計算する。
音源が単独の場合は、最大固有値に対する固有ベクトルがその音源に対する位置ベクトルとなる性質(Don Johnson and Dan Dudgeon, “Array signal processing,” Prentice hall, 1993参照。)を利用し、最大固有値に対応する固有ベクトルを取り出し、このブロックの話者位置ベクトルの候補とする。
図4に示すように、会議中に目的話者が単独で発話しているブロックは複数あるので、話者位置ベクトル推定手段9は、これらのブロックについて計算した話者位置ベクトルの候補から、最適なものを話者位置ベクトルとして推定する。
その規範としては、まず、発話がかぶっているブロックの目的話者の方向と、話者位置ベクトルの候補となっているブロックの話者方向との差が最小のものを選び、それでも複数の候補がある場合は、単独発話の指標が最大のものを選択する。(ステップS4)
なお、単独発話の指標としては、すでに計算した固有値のうち、最大固有値と2番目に大きい固有値との比を、周波数軸上で平均したものを用いる。
一方、雑音空間相関行列計算手段10は、話者位置ベクトル推定手段9における話者位置ベクトルの推定手順と同様に、ここでは競合話者が単独で発話しているブロックを探し出す。そして、該当するブロックにおいて雑音空間相関行列を計算する。また、競合話者が単独で発話している他のブロックについても同様に雑音空間相関行列を計算する。(ステップS5)
次に、フィルタ生成手段11は、話者位置ベクトル推定手段9によって推定された目的話者の位置ベクトルと、雑音空間相関行列計算手段10によって競合話者が単独で発話しているブロック毎に計算された雑音空間相関行列のそれぞれについて発話分離を行う最尤推定法のフィルタを生成して、これを分離対象である発話がかぶっているブロックに対して適用し、これらのフィルタの中から出力パワーが最小となるものを最終的なフィルタとして生成する。(ステップS6)
フィルタリング手段12は、フィルタ生成手段11で構築されたフィルタをアナログ/デジタル信号変換手段4から送られてくるデジタル音声信号に適用して、フィルタ出力として目的話者の発話情報のみを分離して出力する。(ステップS7)
なお、前述した発話イベント分離システム1は、専用のハードウェアによって構築することもできるが、例えばノートパソコン等の汎用のコンピュータで発話イベント分離プログラムを実行させることによっても実現可能である。
前記発話イベント分離プログラムは、コンピュータを、図1における音源方向推定手段6、話者範囲推定手段7、話者同定手段8、話者位置ベクトル推定手段9、雑音空間相関行列計算手段10、フィルタ生成手段11、及び、フィルタリング手段10として動作させるものであって、アナログ/デジタル信号変換手段4からの出力信号は、USB(Universal Serial Bus Specification Rev.2.0)あるいは、PCI(Peripheral Component Interconnect)等の入出力インターフェイスを経由してコンピュータに入力することができる。
また、アナログ/デジタル信号変換手段4は、信号変換モジュールとしてコンピュータに組み込んであってもよい。
前記発話イベント分離プログラムは、オペレーティングシステムとともにコンピュータの記憶装置(例えば、ハードディスクや光ディスク等)に予めインストールされており、当該プログラムが起動されると、CPUによってコンピュータのRAM(Random Access Memory)に読み込まれて前述した図2に示す各ステップの処理を実行する。
ここで、コンピュータを用いる場合には、アナログ/デジタル信号変換手段4を介してコンピュータに入力されるデジタル音声データは、会議中の記録に必要な区間にわたってコンピュータに内蔵もしくは外付けされたハードディスク等の記憶手段に蓄積される。
発話イベント分離プログラムは、前記蓄積されたデータを用いて前述した各ステップを実行し、最終的に目的話者の発話のみを分離し、その音声データは、出力インターフェイスを介して外部に出力する。なお、発話分離した音声データは、ハードディスク等に出力して保存できるようにしてもよい。
本発明の発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラムは、小規模の会議で収録した音声のデータから、音声認識により自動的に会議録を作成する場合等において利用可能である。
本発明の発話イベント分離方法を実施するための、発話イベント分離システムの1実施形態を示すシステム構成図である。 本発明の発話イベント分離システム1による処理の概要を示すフロー図である。 話者範囲推定に用いるヒストグラムとクラスタリング結果から推定された話者範囲を表す図である。 話者位置ベクトル及び雑音相関行列の推定手順を説明する図である。 従来の一般的な会議録コンテンツの作成手順を示すフロー図である。 目的音源と雑音源との重畳区間が長い状態を模式的に示す図である。 目的話者と競合話者の発話が短区間重畳している状態を模式的に示す図である。
符号の説明
1 発話イベント分離システム
2 マイクロフォンアレイ
2A マイクロフォン
3 ケーブル
4 アナログ/デジタル信号変換手段
5 記憶手段
6 音源方向推定手段
7 話者範囲推定手段
8 話者同定手段
9 話者位置ベクトル推定手段
10 雑音相関行列計算手段
11 フィルタ生成手段
12 フィルタリング手段

Claims (4)

  1. 会議中の連続した区間に当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第1のステップと、
    前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第2のステップと、
    前記時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第3のステップと、
    第3のステップで得られたデータから目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第4のステップと、
    第3のステップで得られたデータから他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する第5のステップと、
    第4のステップで推定された話者の位置ベクトルと、第5のステップで計算された雑音空間相関行列からフィルタを生成する第6のステップと、
    前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力する第7のステップとからなることを特徴とする発話イベント分離方法。
  2. 会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する音源方向推定手段と、
    前記音源方向推定手段で検出されたピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する話者範囲推定手段と、
    前記音源方向推定手段ならびに話者範囲推定手段によって得られた時刻毎の音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する話者同定手段と、
    前記話者同定手段で得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する話者位置ベクトル推定手段と、
    前記話者同定手段で得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を計算する雑音空間相関行列計算手段と、
    前記話者位置ベクトル推定手段によって推定された位置ベクトルと、前記雑音空間相関行列計算手段によって計算された雑音空間相関行列からフィルタを生成するフィルタ生成手段と、
    前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタを適用してフィルタリングを行い、目的とする話者のみの発話を分離して出力するフィルタリング手段とを備えたことを特徴とする発話イベント分離システム。
  3. 複数のマイクロフォンを放射状に配置して構成されたマイクロフォンアレイを用いて多チャネルの音声データを収録することを特徴とする請求項2記載の発話イベント分離システム。
  4. 会議中の連続した区間に、当該会議の場で収録された多チャネルの音声データがコンピュータに入力されてそのメモリに記憶され、
    前記コンピュータに、
    前記音声データから音源定位を行い、その空間スペクトルのピーク値を検出して前記区間中の時刻毎の音源方向を推定する第1のステップと、
    前記ピーク値を前記区間全体にわたってクラスタリングして、音源となる話者の存在する範囲を推定する第2のステップと、
    前記時刻毎に推定された音源方向と話者の存在する範囲から各時刻にどの話者が発話しているかを同定する第3のステップと、
    第3のステップで得られたデータから、目的とする話者が前記区間内に単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者の位置ベクトルを推定する第4のステップと、
    第3のステップで得られたデータから、他の話者が前記区間内で単独で発話しているブロックを探し出し、当該ブロックから前記目的とする話者に対する当該他の話者の雑音空間相関行列を算出する第5のステップと、
    第4のステップで推定された話者の位置ベクトルと、第5のステップで計算された雑音空間相関行列からフィルタデータを生成する第6のステップと、
    前記目的とする話者と他の話者との発話が重畳しているブロックに対して前記フィルタデータに基づいてフィルタリングを行わせ、目的とする話者のみの発話を分離して出力する第7のステップとを実行させることを特徴とする発話イベント分離プログラム。
JP2006057611A 2006-03-03 2006-03-03 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム Expired - Fee Related JP4565162B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006057611A JP4565162B2 (ja) 2006-03-03 2006-03-03 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006057611A JP4565162B2 (ja) 2006-03-03 2006-03-03 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム

Publications (2)

Publication Number Publication Date
JP2007233239A true JP2007233239A (ja) 2007-09-13
JP4565162B2 JP4565162B2 (ja) 2010-10-20

Family

ID=38553864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006057611A Expired - Fee Related JP4565162B2 (ja) 2006-03-03 2006-03-03 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム

Country Status (1)

Country Link
JP (1) JP4565162B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム
JP2013011744A (ja) * 2011-06-29 2013-01-17 Mizuho Information & Research Institute Inc 議事録作成システム、議事録作成方法及び議事録作成プログラム
WO2014082445A1 (zh) * 2012-11-29 2014-06-05 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统
JP2015064473A (ja) * 2013-09-25 2015-04-09 株式会社グラモ 音声認識装置、方法、及びコンピュータプログラム
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
JP2018169473A (ja) * 2017-03-29 2018-11-01 本田技研工業株式会社 音声処理装置、音声処理方法及びプログラム
CN108922553A (zh) * 2018-07-19 2018-11-30 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及系统
JP2019066339A (ja) * 2017-10-02 2019-04-25 株式会社日立製作所 音による診断装置、診断方法、および診断システム
CN111370018A (zh) * 2020-02-28 2020-07-03 维沃移动通信有限公司 音频数据的处理方法、电子设备及介质
CN111739553A (zh) * 2020-06-02 2020-10-02 深圳市未艾智能有限公司 会议声音采集、会议记录以及会议记录呈现方法和装置
WO2021246304A1 (ja) * 2020-06-01 2021-12-09 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
WO2022145015A1 (ja) * 2020-12-28 2022-07-07 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308908B (zh) * 2017-07-27 2021-04-30 深圳市冠旭电子股份有限公司 一种语音交互方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258788A (ja) * 1996-03-19 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 音声分離方法およびこの方法を実施する装置
JP2006227328A (ja) * 2005-02-18 2006-08-31 Hitachi Ltd 音声処理装置
JP2007047427A (ja) * 2005-08-10 2007-02-22 Hitachi Ltd 音声処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258788A (ja) * 1996-03-19 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 音声分離方法およびこの方法を実施する装置
JP2006227328A (ja) * 2005-02-18 2006-08-31 Hitachi Ltd 音声処理装置
JP2007047427A (ja) * 2005-08-10 2007-02-22 Hitachi Ltd 音声処理装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム
JP2013011744A (ja) * 2011-06-29 2013-01-17 Mizuho Information & Research Institute Inc 議事録作成システム、議事録作成方法及び議事録作成プログラム
WO2014082445A1 (zh) * 2012-11-29 2014-06-05 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统
US8838447B2 (en) 2012-11-29 2014-09-16 Huawei Technologies Co., Ltd. Method for classifying voice conference minutes, device, and system
JP2015064473A (ja) * 2013-09-25 2015-04-09 株式会社グラモ 音声認識装置、方法、及びコンピュータプログラム
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
US9626970B2 (en) 2014-12-19 2017-04-18 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
JP2018169473A (ja) * 2017-03-29 2018-11-01 本田技研工業株式会社 音声処理装置、音声処理方法及びプログラム
US10748544B2 (en) 2017-03-29 2020-08-18 Honda Motor Co., Ltd. Voice processing device, voice processing method, and program
JP2019066339A (ja) * 2017-10-02 2019-04-25 株式会社日立製作所 音による診断装置、診断方法、および診断システム
CN108922553A (zh) * 2018-07-19 2018-11-30 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及系统
CN108922553B (zh) * 2018-07-19 2020-10-09 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及系统
CN111370018A (zh) * 2020-02-28 2020-07-03 维沃移动通信有限公司 音频数据的处理方法、电子设备及介质
CN111370018B (zh) * 2020-02-28 2023-10-24 维沃移动通信有限公司 音频数据的处理方法、电子设备及介质
WO2021246304A1 (ja) * 2020-06-01 2021-12-09 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
CN111739553A (zh) * 2020-06-02 2020-10-02 深圳市未艾智能有限公司 会议声音采集、会议记录以及会议记录呈现方法和装置
CN111739553B (zh) * 2020-06-02 2024-04-05 深圳市未艾智能有限公司 会议声音采集、会议记录以及会议记录呈现方法和装置
WO2022145015A1 (ja) * 2020-12-28 2022-07-07 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム

Also Published As

Publication number Publication date
JP4565162B2 (ja) 2010-10-20

Similar Documents

Publication Publication Date Title
JP4565162B2 (ja) 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
CN112088315B (zh) 多模式语音定位
Heittola et al. Supervised model training for overlapping sound events based on unsupervised source separation
US9626970B2 (en) Speaker identification using spatial information
Zmolikova et al. Neural target speech extraction: An overview
CN110111808B (zh) 音频信号处理方法及相关产品
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
Guo et al. Localising speech, footsteps and other sounds using resource-constrained devices
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
Abdelaziz NTCD-TIMIT: A new database and baseline for noise-robust audio-visual speech recognition.
US9460714B2 (en) Speech processing apparatus and method
US20190341053A1 (en) Multi-modal speech attribution among n speakers
CN111863005A (zh) 声音信号获取方法和装置、存储介质、电子设备
CN108781310A (zh) 使用视频的图像来选择要增强的视频的音频流
WO2013132216A1 (en) Method and apparatus for determining the number of sound sources in a targeted space
CN115810209A (zh) 一种基于多模态特征融合网络的说话人识别方法和装置
CN115691539A (zh) 基于视觉导引的两阶段语音分离方法及系统
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
WO2021164001A1 (en) Method and system to improve voice separation by eliminating overlap
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
Shiroma et al. Investigation on spatial and frequency-based features for asynchronous acoustic scene analysis
JP5672155B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
Peng et al. Multi frame size feature extraction for acoustic event detection
Asano et al. Detection and separation of speech events in meeting recordings.
Rozgic et al. Multimodal speaker segmentation in presence of overlapped speech segments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100707

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees