JP7471139B2

JP7471139B2 - 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法

Info

Publication number: JP7471139B2
Application number: JP2020079958A
Authority: JP
Inventors: 翔太堀口
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2024-04-19
Anticipated expiration: 2040-04-30
Also published as: JP2021173952A; WO2021220789A1

Description

本発明は、話者ダイアライゼーション装置、及び話者ダイアライゼーション方法に関する。

特許文献１には、最適なダイアライゼーションの実行等を目的として構成された信号分析装置について記載されている。信号分析装置は、複数の音源位置候補についての時間区間であるフレーム毎の各音源位置候補から信号が到来する確率からなる音源位置生起確率行列Ｑを、複数の音源についての音源毎の各音源位置候補から信号が到来する確率からなる音源位置確率行列Ｂと、フレーム毎の各音源からの信号の存在確率からなる音源存在確率行列Ａと、の積でモデル化し、このモデル化に基づき、音源位置確率行列Ｂ及び音源存在確率行列Ａの少なくとも一方を推定する。

非特許文献１には、話者ダイアライゼーションを行う手法について記載されている。この手法は、モノラルマイクで収録した音声における音声区間を細かいセグメントに分割し、各セグメントから話者性を含む特徴量を抽出し、この特徴量をクラスタリングし、クラスタリングの結果から話者ダイアライゼーションを行う。

特開２０１９－１８４７４７号公報

Sell, et al. "Diarization is Hard: Some Experiences and Lessons Learned for the JHU Team in the Inaugural DIHARD Challenge," in Proc. INTERSPEECH, 2018, pp. 2808-2812.

特許文献１では、予め定められた位置に配置されたマイクロフォン（以下、「マイク」と称する。）を用いて収録された音声から音源の方向を推定し、異なる方向から到来した音声は異なる話者であるとして話者ダイアライゼーション（Speaker diarisation）を行
う。しかし特許文献１では、話者ダイアライゼーションに際し、マイクの配置が既知であることを利用し、実測データを用いて事前に準備された音源位置候補毎の周波数ビンに対する特徴ベクトルの確率分布を用いている。そのため、マイクの配置が未知であり確率分布のような学習データが存在しない場合は話者ダイアライゼーションを行うことができない。

また、非特許文献１では、１つのモノラルマイクを用いるため、音声区間を分割して得られる各セグメントがいずれかの話者に割り当てられることになる。そのため、例えば、複数の話者が同時に発話した場合、どの話者をそのセグメントに割り当てるべきか判定することができない。さらに、全ての話者の音声が１つのモノラルマイクで収録されるため、全ての話者がモノラルマイクの近くで発話する必要もある。

本発明はこうした背景に鑑みてなされたものであり、複数の話者が同時に発話する場合でも精度よく話者ダイアライゼーションを行うことが可能な、話者ダイアライゼーション装置及び話者ダイアライゼーション方法を提供することを目的とする。

上記目的を達成するための本発明の一つは、話者ダイアライゼーション装置であって、情報処理装置を用いて構成され、複数の音声信号の入力部の夫々から取得される複数の信号を、夫々、所定時間幅の複数のセグメントに分割する信号分割部と、前記セグメントの夫々から特徴量を抽出する特徴量抽出部と、前記複数の信号の夫々のセグメントから抽出された前記特徴量を一括してクラスタリングするクラスタリング部と、前記クラスタリングの結果に基づき話者ダイアライゼーションを行う話者ダイアライゼーション部と、を備え、前記特徴量抽出部によって抽出された前記特徴量の中から、前記クラスタリングの対象とする前記特徴量を選択する特徴量選択部をさらに備え、前記クラスタリング部は、選択された前記特徴量をクラスタリングする。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、複数の話者が同時に発話するような場合であっても、精度よく話者ダイアライゼーションを行うことができる。

第１実施形態の話者ダイアライゼーション装置のハードウェア構成図である。話者ダイアライゼーション実行部の詳細を説明する図である。クラスタリングの結果と話者ダイアライゼーションの結果を説明する模式図である。話者ダイアライゼーション処理を説明するフローチャートである。第２実施形態の話者ダイアライゼーション実行部の詳細を説明する図である。話者ダイアライゼーション処理を説明するフローチャートである。話者ダイアライゼーション実行部の変形例を示す図である。話者ダイアライゼーション処理を説明するフローチャートである。第３実施形態の話者ダイアライゼーション実行部の詳細を説明する図である。話者とマイクの配置例を示す図である。特徴量空間における特徴量の分布を説明する模式図である。クラスタリングの結果を説明する模式図である。話者ダイアライゼーション処理を説明するフローチャートである。

以下、実施形態について、図面を用いて詳細に説明する。但し、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。また、同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。但し、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。また、本明細書等における「第１」、「第２」、「第３」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨
げるものではない。以下の説明において、符号の前に付した「Ｓ」の文字は処理ステップの意味である。

［第１実施形態］
図１に、第１実施形態として説明する、話者ダイアライゼーション（Speaker diarisation）を行う装置（以下、「話者ダイアライゼーション装置１」と称する。）のハードウ
ェア構成を示している。話者ダイアライゼーション装置１は、情報処理装置（コンピュータ）であり、プロセッサ１１、ＲＯＭ１２（ROM:Read Only Memory）、ＲＡＭ１３（RAM:Random Access Memory）、２つの信号入力装置１４ａ，１４ｂを備える。これらはバス１０等を通して互いに通信可能に接続されている。尚、例示する話者ダイアライゼーション装置１は、２つの信号入力装置１４ａ，１４ｂを備えるが、話者ダイアライゼーション装置１は、３つ以上の信号入力装置を備えていてもよい。信号入力装置１４ａ，１４ｂは、マイクロフォン（以下、「マイク」と称する。）等の音声入力装置でもよいし、残響除去や音源分離等が行われた後の音声信号を出力する装置でもよい。ＲＡＭ１３には、話者ダイアライゼーション装置１の機能（以下、「話者ダイアライゼーション実行部１３１」と称する。）を実現するためのプログラムが格納されている。

話者ダイアライゼーション装置１は、通信可能に接続された複数の情報処理装置を用いて構成してもよい。また、話者ダイアライゼーション装置１は、その全部または一部を、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現してもよい。また、話者ダイアライゼーション装置１によって提供される機能の全部または一部を、例えば、クラウドシステムがＡＰＩ（Application Programming Interface）等を介して提供
するサービスによって実現してもよい。また、話者ダイアライゼーション装置１が備える話者ダイアライゼーション実行部１３１等の機能は、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ等のハードウェアによっ
て実現してもよい。

図２は、話者ダイアライゼーション実行部１３１の詳細を説明する図である。同図に示すように、話者ダイアライゼーション実行部１３１は、信号入力部１００１ａ，１００１ｂ、信号分割部１００２ａ，１００２ｂ、特徴量抽出部１００３ａ，１００３ｂ、クラスタリング部１００７、話者ダイアライゼーション部１００８の各機能を含む。

信号入力部１００１ａには、信号入力装置１４ａから信号が入力される。また、信号入力部１００１ｂには、信号入力装置１４ｂから信号が入力される。尚、信号入力装置１４ａから信号が入力される信号について、信号入力部１００１ａ、信号分割部１００２ａ、及び特徴量抽出部１００３ａが行う処理と、信号入力装置１４ｂから信号が入力される信号について、信号入力部１００１ｂ、信号分割部１００２ｂ、及び特徴量抽出部１００３ｂが行う処理は基本的に同様であるので、以下では、とくに必要でない限り、前者についてのみ説明し、後者については説明を省略する。また、とくに区別する必要がない限り、これらを区別するための添え字（「ａ」、「ｂ」）の記載を省略する。尚、本実施形態では、話者ダイアライゼーション装置１が２つの信号入力装置１４を備える場合について説明するが、信号入力部１００１、信号分割部１００２、及び特徴量抽出部１００３の組は、信号入力装置１４の数に応じて設けられる。

信号入力部１００１は、信号入力装置１４から入力される信号（以下、「入力信号」と称する。）を取得する。入力信号は、例えば、不図示のＡＤ変換部によってアナログ値からデジタル値に変換されている。また、入力信号は、信号入力装置１４がマイクの場合には単に収録された音声信号となる。入力信号は、例えば、予め残響除去や音声強調、音源
分離が行われた後の音声信号でもよい。信号入力部１００１が信号入力装置１４から取得した信号ｘ_mは、例えば、以下のように表記することができる。
ここで、ｍは信号入力装置の数を示し、ｔは時刻を示している。２つの信号入力装置１４ａ，１４ｂの夫々に入力される信号は、必ずしも開始時刻ｔ_m,start及び終了時刻ｔ_m,endが同じである必要はない。つまり、信号入力装置１４ａ，１４ｂの夫々の開始時刻ｔ_m,start及び終了時刻ｔ_m,endは異なっていてもよい。

信号分割部１００２は、信号入力部１００１から取得した信号を、所定時間幅を有する複数のセグメントに分割する。セグメントｓにおける信号入力装置１４から取得した信号は、以下のように表記することができる。
ここで、各セグメントｓの開始時刻ｔ_s,start及び終了時刻ｔ_s,endは、信号入力装置１４に依存しない変数として定められる。また、セグメントｓの時間幅は、以下のように表記される。

セグメントｓの時間幅は、例えば、１．５秒程度に定められるが、これに限定されない。例えば、セグメントｓの時間幅として１．５秒よりも長い時間幅を採用すれば、後段の特徴量抽出部１００３において話者性を表す特徴量を抽出する際により多くの信号を用いることができ、特徴量の信頼性を向上させることができる。また、セグメントｓの時間幅として１．５秒よりも短い時間幅を採用すれば、話者ダイアライゼーションを行う時間単位が短くなり、後段の話者ダイアライゼーション部１００８において粒度の高い話者ダイアライゼーションを実現することができる。

また、各セグメントｓは、上記のように同一の時間幅で単に分割されることに限定されず、隣り合うセグメントｓ同士の一部が重複するようにしてもよい。例えば、隣り合うセグメントｓ同士の重複する時間幅をセグメントｓ自体の時間幅よりも短く設定すれば，話者性を表す特徴量の信頼性を損なうことなく、粒度の高い話者ダイアライゼーションを実現することができる。

特徴量抽出部１００３は、信号分割部１００２で得られた各セグメントｓから話者性を表す特徴量を抽出する。特徴量抽出部１００３が抽出する話者性を表す特徴量として、例えば、基本周波数やフォルマント周波数を要素に持つベクトル、ＧＭＭ（Gaussian Mixture Model）スーパーベクトル、ＨＭＭ（Hidden Markov Model）スーパーベクトル、i-vector、d-vector、x-vectorや、これらを組み合わせたもの等がある。

２つの信号入力装置１４ａ，１４ｂが、例えば、部屋の中に分散して配置されるマイクである場合、例えば、スマートスピーカのように各マイクが数センチメートル程度しか離れていないようなマイクアレイとは異なり、夫々のマイクによって同一の発話が大きく異なる音圧で収録され得る。つまり、発話が話者に近い側のマイクで収録された場合には音圧が大きく、話者から遠い側のマイクで収録された場合には音圧が小さく収録される。そこで、マイクと話者との相対的位置を表す特徴量として、マイクで収録された音圧を並べたベクトルや、それを主成分分析などによって次元削減したベクトルなどを用いてもよい
。また、話者性を表す特徴量と、マイク及び話者の相対的位置を表す特徴量とを連結した特徴量等を用いてもよい。このようにして特徴量抽出部１００３によって抽出された特徴量ｖ_m,sは、以下のように表記することができる。
ここでＳ_mは、信号入力装置１４の収録区間に含まれるセグメントsの集合である。

クラスタリング部１００７は、特徴量抽出部１００３ａ，１００３ｂの夫々によって抽出された特徴量を一括してクラスタリングする。つまり、信号入力装置１４ａ，１４ｂが、例えば、マイクである場合、その集合をＭとして、次式で表されるベクトルを一度にクラスタリングする。
上記のクラスタリングの手法は必ずしも限定されないが、例えば、K-meansクラスタリ
ング、Mean-shiftクラスタリング、凝集型階層的クラスタリング等を用いることができる。

図３は、信号入力装置１４として３つのマイク１～３が用意され、２人の話者Ａ，Ｂが発話する場合における、話者ダイアライゼーション装置１によるクラスタリングの結果と話者ダイアライゼーションの結果を模式的に示した図である。

同図左側に示すように、マイク１～３によって収録された音声は、クラスタＡ（斜線で示す領域）とクラスタＢ（ドットで示す領域）の２つにクラスタリングされる。ここでクラスタリング部１００７は、３つのマイク１～３を通して収録された音声から抽出された特徴量を一括してクラスタリングするため、話者の音声はいずれかのマイクによって十分大きな音圧で収録されていればよく、１つのマイクを用いる場合に比べて、より広い空間での話者ダイアライゼーションが可能となる。また、特徴量を一括してクラスタリングすることで、同一時刻に異なるマイクを通して取得された各セグメントｓに別のクラスタを割り当てることができ、発話のオーバーラップを考慮した話者ダイアライゼーションが可能になる。

話者ダイアライゼーション部１００８は、クラスタリング部１００７によってクラスタリングされた結果に基づき話者ダイアライゼーションを行う。クラスタリング部１００７によるクラスタリングの結果を用いることで、話者ダイアライゼーションの結果Ｄは、以下の式から求めることができる。

ここでΩ_cはクラスタcに属する特徴量の集合、Ｓはセグメント数、Ｃはクラスタ数（話者数）である。以上のようにして、同図右側に示すように話者ダイアライゼーションが行われる。

図４は、話者ダイアライゼーション装置１が行う処理（以下、「話者ダイアライゼーション処理Ｓ２０００」と称する。）を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理Ｓ２０００について説明する。

まず信号入力部１００１が、信号入力装置１４から取得した入力信号を信号分割部１００２に入力し、信号分割部１００２が入力信号を所定時間幅の複数のセグメントに分割する（Ｓ２００１）。

続いて、信号分割部１００２が、分割した複数のセグメントを特徴量抽出部１００３に入力し、特徴量抽出部１００３が複数のセグメントの夫々から特徴量を抽出し、抽出した特徴量をクラスタリング部１００７に入力する（Ｓ２００２）。

続いて、クラスタリング部１００７は、特徴量抽出部１００３（１００３ａ，１００３ｂ）の夫々から入力された特徴量を一括してクラスタリングし、その結果を話者ダイアライゼーション部１００８に入力する（Ｓ２００３）。

続いて、話者ダイアライゼーション部１００８が、入力されたクラスタリングの結果に基づき話者ダイアライゼーションを行う（Ｓ２００４）。以上で話者ダイアライゼーション処理Ｓ２０００は終了する。

以上に説明したように、本実施形態の話者ダイアライゼーション装置１によれば、複数の話者が同時に発話する場合でも、精度よく話者ダイアライゼーションを行うことができる。

［第２実施形態］
第２実施形態の話者ダイアライゼーション装置１は、信号入力部１００１が、取得した入力信号を信号分割部１００２に入力する前に音声区間を検出する機能を有する点で第１実施形態の話者ダイアライゼーション装置１と異なる。第２実施形態の話者ダイアライゼーション装置１のその他の構成については、基本的に第１実施形態と同様である。以下、第１実施形態と相違する点を中心に説明する。

図５は、第２実施形態として示す話者ダイアライゼーション装置１の話者ダイアライゼーション実行部１３１の詳細を説明する図である。同図に示すように、第２実施形態の話者ダイアライゼーション実行部１３１は、信号入力部１００１と信号分割部１００２との間に音声区間検出部１００５が介在する構成を有する点で第１実施形態の話者ダイアライゼーション実行部１３１と異なる。

音声区間検出部１００５は、信号入力部１００１から入力される入力信号について音声区間を検出し、検出した音声区間の信号を信号分割部１００２に出力する。音声区間検出部１００５は、例えば、信号入力部１００１から入力される入力信号について、音圧が所定の閾値を超える区間を音声区間として検出する。また、音声区間検出部１００５は、例えば、ＤＮＮ（Deep Neural Network）等の手法を用いて学習した機械学習モデル（音声
区間検出器）に入力信号を入力することにより音声区間を検出する。

信号分割部１００２は、音声区間検出部１００５から入力された信号を対象として当該音声区間を複数のセグメントに分割し、得られたセグメントを特徴量抽出部１００３に入力し、特徴量抽出部１００３は、入力されたセグメントから特徴量を抽出する。

図６は、第２実施形態の話者ダイアライゼーション装置１が行う処理（以下、「話者ダ
イアライゼーション処理Ｓ２１００」と称する。）を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理Ｓ２１００について説明する。

まず信号入力部１００１が、信号入力装置１４から取得した入力信号を音声区間検出部１００５に入力し、音声区間検出部１００５が入力信号から音声区間を検出し、検出した音声区間の信号を信号分割部１００２に入力する（Ｓ２１０１）。

続いて、信号分割部１００２が、音声区間検出部１００５から入力された信号を対象として当該音声区間を複数のセグメントに分割し、得られたセグメントを特徴量抽出部１００３に入力する（Ｓ２１０２）。

続いて、特徴量抽出部１００３は、入力されたセグメントから特徴量を抽出し、抽出した特徴量をクラスタリング部１００７に入力する（Ｓ２１０３）。

続くＳ２１０４～Ｓ２１０５の処理は、図４のＳ２００３～Ｓ２００４の処理と同様であるので説明を省略する。

尚、以上では、図５に示すように、音声区間検出部１００５を、信号入力部１００１と信号分割部１００２の間に介在させているが、音声区間検出部１００５は、他の態様で実装することもできる。

例えば、図７に示すように、音声区間検出部１００５は、信号分割部１００２と特徴量抽出部１００３との間、即ち信号分割部１００２の後段に介在させてもよい。この場合、音声区間検出部１００５は、信号分割部１００２で分割された複数のセグメントから音声区間を検出する。音声区間検出部１００５は、検出された音声区間の信号を特徴量抽出部１００３に入力する。特徴量抽出部１００３は、音声区間検出部１００５から取得した音声区間を含むセグメントから特徴量を抽出してクラスタリング部１００７に入力する。クラスタリング部１００７は、特徴量抽出部１００３ａ，１００３ｂから入力される特徴量を一括してクラスタリングし、その結果を話者ダイアライゼーション部１００８に入力する。話者ダイアライゼーション部１００８は、入力されるクラスタリングの結果に基づき話者ダイアライゼーションを行う。

図８は、図７に示した話者ダイアライゼーション実行部１３１が行う処理（以下、「話者ダイアライゼーション処理Ｓ２２００」と称する。）を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理Ｓ２２００について説明する。

まずＳ２２０１の処理は、図４に示した第１実施形態の話者ダイアライゼーション処理Ｓ２２００のＳ２００１と同様であり、信号分割部１００２は、信号入力部１００１で取得した信号を複数のセグメントに分割し、分割した複数のセグメントを音声区間検出部１００５に入力する。

続いて、音声区間検出部１００５が、信号分割部１００２から入力される複数のセグメントの中から音声区間を含むセグメントを検出し、検出された音声区間を含むセグメントを特徴量抽出部１００３に出力する（Ｓ２２０２）。

続いて、特徴量抽出部１００３が、音声区間検出部１００５から入力される音声区間を含んだセグメントから特徴量を抽出し、抽出した特徴量をクラスタリング部１００７に入力する（Ｓ２２０３）。

続くＳ２２０４～Ｓ２２０５の処理は、図６のＳ２１０４～Ｓ２１０５と同様である。

以上のように、第２実施形態の話者ダイアライゼーション装置１は、信号入力部１００１で取得した信号から音声区間を検出し、検出した音声区間を対象として特徴量を抽出する。そのため、非音声区間が特徴量の抽出対象から除外され、クラスタリングを短い時間で効率よく行うことができる。また、無音区間やノイズ区間といった非音声区間が特徴量の抽出対象から除外され、話者ダイアライゼーションの精度を向上することができる。

［第３実施形態］
第１実施形態及び第２実施形態における話者ダイアライゼーション装置１は、いずれも特徴量抽出部１００３によって抽出された全ての特徴量を一括してクラスタリングし、クラスタリングの結果に基づき話者ダイアライゼーションを行う。これに対し第３実施形態の話者ダイアライゼーション装置１は、特徴量抽出部１００３によって抽出された特徴量の中からクラスタリングに用いる特徴量を選択し、選択した特徴量を用いてクラスタリングを行う。以下、第３実施形態の話者ダイアライゼーション装置１について、第１実施形態の話者ダイアライゼーション装置１と相違する点を中心として説明する。尚、第３実施形態の話者ダイアライゼーション装置１は、第２実施形態の話者ダイアライゼーション装置１の構成を備えていてもよい。

図９は、第３実施形態の話者ダイアライゼーション実行部１３１の詳細を説明する図である。同図に示すように、第３実施形態の話者ダイアライゼーション実行部１３１は、特徴量抽出部１００３とクラスタリング部１００７との間、即ちクラスタリング部１００７の前段に特徴量選択部１００６が介在する点で第１実施形態と構成が異なる。

特徴量選択部１００６は、特徴量抽出部１００３ａ，１００３ｂによって抽出された特徴量の中から、クラスタリングに用いる特徴量を選択する。クラスタリング部１００７は、特徴量選択部１００６によって選択された特徴量を用いてクラスタリングを行う。特徴量選択部１００６は、例えば、次のようにして特徴量を選択する。

図１０は、特徴量選択部１００６が特徴量を選択する方法を説明する図であり、２人の話者Ａ、Ｂと、３つのマイク（１）～（３）を配置した例である。マイク（１）～（３）は、話者Ａと話者Ｂの間の空間に配置されている。マイク（１）は、話者Ａに最も近い位置に配置され、マイク（３）は、話者Ｂに最も近い位置に配置され、マイク（２）は、マイク（１）とマイク（３）の間の空間に配置されている。

図１０の配置において、話者Ａと話者Ｂが同時に発話する場合を考える。この場合、マイク（１）では話者Ａの音声の方が話者Ｂの音声よりも大きい音圧で収録され、マイク（３）では話者Ｂの音声の方が話者Ａの音声よりも大きい音圧で収録されることが期待される。

図１１は、特徴量空間における特徴量の分布を説明する模式図である。マイク（１）～（３）で収録された音声から抽出された話者を表す特徴量を夫々、特徴量（１）～（３）とすれば、特徴量（１）～（３）は、特徴量空間において話者Ａと話者Ｂの音声の混合割合に応じて実質的に一列に並ぶことが期待される。これらの特徴量は、マイクの数が増加するほどこの列に密に並ぶことになるが、これら全ての特徴量を用いてクラスタリングを行うとクラスタリングに悪影響を及ぼす可能性がある。即ち、例えば、話者Ａのクラスタの中心は特徴量（１）の付近に存在し、話者Ｂのクラスタの中心は特徴量（３）の付近に存在するが、特徴量（２）についてもクラスタリングに用いると、クラスタの中心が特徴量（２）方向に移動してしまうことになる。そこで、本実施形態では、クラスタリングに用いる特徴量を適切に選択することで、この問題の解決を図る。

まず信号入力部１００１で取得した信号で、セグメントsにおける特徴量の集合Ｖ_sは次式で表される。
この集合の要素数が信号入力部１００１で取得した信号に含まれる話者数よりも多い場合、その中から話者数（Ｃで表記する）の特徴量を選択する。特徴量の選択は、例えば、次式に従って行う。
ここで、ｄｉｓｔ（ｖ_i，ｖ_j）は特徴量同士の距離を表す関数であり、例えば、ユークリッド距離などを用いることができる。

図１１の例では、話者ダイアライゼーション実行部１３１は、特徴量抽出部１００３で抽出された特徴量のうち、最も離れた２つの特徴量を選択してクラスタリングを行う。即ち、話者ダイアライゼーション実行部１３１は、特徴量空間における差が最大となる特徴量（１）と特徴量（３）の組を選択し、選択した特徴量の組に基づきクラスタリングを行う。これにより各話者Ａ、Ｂの音声が支配的に収録されているセグメントから抽出された特徴量のみを用いてクラスタリングが行われることになる。

図１２は、第３実施形態の話者ダイアライゼーション装置によるクラスタリング結果の一例を示す模式図である。同図において、斜線で示す領域は話者Ａの特徴量をグループ化したクラスタであり、ドットで示す領域は話者Ｂの特徴量をグループ化したクラスタである。黒塗りで示す領域はクラスタリングに用いられない領域である。

図１３は、第３実施形態の話者ダイアライゼーション装置が行う話者ダイアライゼーション処理Ｓ２３００を説明するフローチャートである。以下、同図とともに話者ダイアライゼーション処理Ｓ２３００について説明する。

まず同図におけるＳ２３０１～Ｓ２３０２までの処理は、図４に示した話者ダイアライゼーション処理Ｓ２０００におけるＳ２００１～Ｓ２００２までの処理と同様であるので説明を省略する。尚、Ｓ２３０２では、特徴量抽出部１００３が複数のセグメントの夫々から特徴量を抽出し、抽出した特徴量を特徴量選択部１００６に入力する。

続くＳ２３０３では、特徴量選択部１００６が、入力された特徴量の中から、特徴量空間での差が最大となる特徴量の組を選択し、選択した特徴量の組をクラスタリング部１００７に入力する。

続いて、クラスタリング部１００７が、入力された特徴量の組についてクラスタリングを行い、クラスタリングの結果を話者ダイアライゼーション部１００８に入力する（Ｓ２３０４）。

続いて、話者ダイアライゼーション部１００８が、入力されたクラスタリングの結果に基づき話者ダイアライゼーションを行う（Ｓ２３０５）。以上で話者ダイアライゼーション処理Ｓ２３００は終了する。

以上のように、第３実施形態の話者ダイアライゼーション装置１は、特徴量抽出部１０
０３が抽出した全ての特徴量をクラスタリングに用いるのではなく、特徴量選択部１００６が選択した特徴量を用いてクラスタリングするため、信頼性の高い話者ダイアライゼーションを実現することができる。

尚、以上では、特徴量抽出部１００３が抽出した特徴量のうち、選択する特徴量の数を話者数Ｃとしたが、セグメント毎に話者数の推定を行い、推定された話者数を代わりに用いてもよい。話者数の推定を行う場合、例えば、話者に近い特徴を順次グループ化していく、いわゆるボトムアップ型のクラスタリング手法を用いることができる。これにより、信号入力部１００１で取得した信号全体に存在する話者数Ｃに比べて選択する特徴量が少なくなり、２話者の混合比が０に近くなるような、即ち２話者の音声が同程度の音圧で混合されている特徴量がクラスタリングに使われてしまうのを抑制することができる。

また、特徴量選択部１００６による特徴量の選択は、音圧を元にした方法により行ってもよい。例えば、信号入力部１００１で取得した信号の音圧が小さい場合、信号対雑音比が小さいため、話者性を表す特徴量を抽出した場合にその信頼性が低くなることが予想される。従って、特徴量選択部１００６は、特徴量空間での差が最大となる音圧が大きい順に話者数分の特徴量を選択するようにしてもよい。これにより信頼性の高い特徴のみを用いてクラスタリングを行うことができる。尚、特徴量選択部１００６が、上記の２つの特徴量選択の方法を組み合わせて用いてもよい。

以上、本発明の実施形態につき説明したが、本発明は以上に説明した実施形態に限定されるものではなく、様々な変形例が含まれる。また、例えば、以上に説明した実施形態は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。

例えば、以上に説明した話者ダイアライゼーション装置１の機能は、例えば、分散モノラルマイクを用いた音声認識システムにおける音声区間検出や話者ダイアライゼーションを行う処理部分に用いることができる。また、話者ダイアライゼーション装置１の機能は、例えば、上記の音声認識システムにおいて、音声認識結果が得られた後に誰の発話であったのかを判定する処理部分に適用することもできる。

１話者ダイアライゼーション装置
１４、１５信号入力装置
１３１話者ダイアライゼーション実行部
１００１信号入力部
１００２信号分割部
１００３特徴量抽出部
１００５音声区間検出部
１００６特徴量選択部
１００７クラスタリング部
１００８話者ダイアライゼーション部

Claims

情報処理装置を用いて構成され、
複数の音声信号の入力部の夫々から取得される複数の信号を、夫々、所定時間幅の複数のセグメントに分割する信号分割部と、
前記セグメントの夫々から特徴量を抽出する特徴量抽出部と、
前記複数の信号の夫々のセグメントから抽出された前記特徴量を一括してクラスタリングするクラスタリング部と、
前記クラスタリングの結果に基づき話者ダイアライゼーションを行う話者ダイアライゼーション部と、
を備え、
前記特徴量抽出部によって抽出された前記特徴量の中から、前記クラスタリングの対象とする前記特徴量を選択する特徴量選択部をさらに備え、
前記クラスタリング部は、選択された前記特徴量をクラスタリングする、
話者ダイアライゼーション装置。
請求項１に記載の話者ダイアライゼーション装置であって、
前記特徴量抽出部は、前記特徴量として、話者性を含む特徴量を抽出する、
話者ダイアライゼーション装置。
請求項１に記載の話者ダイアライゼーション装置であって、
前記特徴量抽出部は、前記特徴量として、音圧を含む特徴量を抽出する、
話者ダイアライゼーション装置。
請求項１に記載の話者ダイアライゼーション装置であって、
前記複数の信号の夫々から音声信号を含む区間である音声区間を検出する音声区間検出部をさらに備え、
前記信号分割部は、前記複数の信号の夫々の前記音声区間を対象として前記セグメントへの分割を行い、
前記特徴量抽出部は、前記分割により得られた前記セグメントの夫々から前記特徴量を抽出する、
話者ダイアライゼーション装置。
請求項１に記載の話者ダイアライゼーション装置であって、
前記複数の信号の夫々から音声信号を含む区間である音声区間を検出する音声区間検出部をさらに備え、
前記信号分割部は、前記複数の信号を、夫々、複数の前記セグメントに分割し、
前記音声区間検出部は、前記セグメントが音声区間であるか否かを判定し、
前記特徴量抽出部は、音声区間であると判定された前記セグメントを対象として前記特徴量を抽出する、
話者ダイアライゼーション装置。
請求項１に記載の話者ダイアライゼーション装置であって、
前記特徴量選択部は、前記特徴量抽出部によって抽出された、同一時刻における複数の前記特徴量の中から、特徴量空間における差が最大となる所定数の前記特徴量を前記クラスタリングの対象として選択する、
話者ダイアライゼーション装置。
請求項１に記載の話者ダイアライゼーション装置であって、
前記特徴量選択部は、前記特徴量抽出部によって抽出された、同一時刻における複数の前記特徴量の中から、抽出元の前記信号の音圧が大きい順に所定数の前記特徴量を前記クラスタリングの対象として選択する、
話者ダイアライゼーション装置。
情報処理装置が、
複数の音声信号の入力部の夫々から取得される複数の信号を、夫々、所定時間幅の複数のセグメントに分割するステップと、
前記セグメントの夫々から特徴量を抽出するステップと、
前記複数の信号の夫々のセグメントから抽出された前記特徴量を一括してクラスタリングするステップと、
前記クラスタリングの結果に基づき話者ダイアライゼーションを行うステップと、
抽出された前記特徴量の中から、前記クラスタリングの対象とする前記特徴量を選択するステップと、
選択された前記特徴量をクラスタリングするステップと、
を実行する、話者ダイアライゼーション方法。
請求項８に記載の話者ダイアライゼーション方法であって、
前記情報処理装置が、
前記複数の信号の夫々から音声信号を含む区間である音声区間を検出するステップと、
前記複数の信号の夫々の前記音声区間を対象として前記セグメントへの分割を行うステップと、
前記分割により得られた前記セグメントの夫々から前記特徴量を抽出するステップと、
をさらに実行する、話者ダイアライゼーション方法。
請求項８に記載の話者ダイアライゼーション方法であって、
前記情報処理装置が、
前記複数の信号の夫々から音声信号を含む区間である音声区間を検出するステップと、
前記複数の信号を、夫々、複数の前記セグメントに分割するステップと、
前記セグメントが音声区間であるか否かを判定するステップと、
音声区間であると判定された前記セグメントを対象として前記特徴量を抽出するステップと、
をさらに実行する、話者ダイアライゼーション方法。
請求項８に記載の話者ダイアライゼーション方法であって、
前記情報処理装置が、
抽出された、同一時刻における複数の前記特徴量の中から、特徴量空間における差が最大となる所定数の前記特徴量を前記クラスタリングの対象として選択するステップ、
をさらに実行する、話者ダイアライゼーション方法。
請求項８に記載の話者ダイアライゼーション方法であって、
前記情報処理装置が、
抽出された、同一時刻における複数の前記特徴量の中から、抽出元の前記信号の音圧が大きい順に所定数の前記特徴量を前記クラスタリングの対象として選択するステップ、
をさらに実行する、話者ダイアライゼーション方法。