JP5105097B2

JP5105097B2 - 音声分類装置、音声分類方法及びプログラム

Info

Publication number: JP5105097B2
Application number: JP2009012746A
Authority: JP
Inventors: 清一三木; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-01-23
Filing date: 2009-01-23
Publication date: 2012-12-19
Anticipated expiration: 2029-01-23
Also published as: JP2010169924A

Description

本発明は、音声分類装置及び音声分類方法、特には、会議等のように話者の発話順や発話頻度に偏りが存在する場合の音声データを対象とする、音声分類装置及び音声分類方法に関し、更には、これらを実現するためのプログラムに関する。

従来から、会議音声データ等を対象として、無音区間等を元に発話を分割し、類似する発話毎にクラスにまとめて、話者毎の分類が行われている。このような音声分類技術（話者分類技術）は、会議録等の作成や、音声認識において有用である。

また、発話毎にまとめられたクラス毎にラベリングが行われ、音声データ中の同一話者による発話に対しては、同一の話者ラベルが付与されることから、音声分類技術は、話者ラベリング技術とも呼ばれている。このような従来からの音声分類技術（話者ラベリング技術）を用いたシステムの一例が、非特許文献１に記載されている。

具体的には、非特許文献１に開示されたシステムは、入力された音声データに含まれる各発話に対して、その音響的類似度に基づく距離を計算し、この距離を元にクラスタリングを行う。その際、非特許文献１に開示されたシステムは、音響的類似度を用いるだけでなく、「時間的に連続する発話セグメントは同一話者による発声である可能性が高い」というヒューリスティックを導入することで発話セグメントのクラスタリング精度を高めている。

即ち、非特許文献１に開示されたシステムは、２つの発話セグメント間の距離を計算する際に、音響的類似度に基づき算出される距離を、対象とする発話セグメント同士が時間的に隣接しているかどうかに基づいて補正する。例えば発話セグメント同士が隣接する場合は、距離がより小さくなるように補正が行われ、クラスタリング精度が向上すると考えられる。

H. Jin, et al. "Automatic Speaker Clustering", Proc. Of the 1997 DARPA Speech Recognition Workshop

しかしながら、上記非特許文献に開示されたシステムには、例えば会議等でよく見られる、一定時間一人の話者が質問者として発言し、その合間に別の一又は複数の話者が答弁者として回答するスタイルの音声データに対して、適切に動作しないという問題がある。その理由は以下の通りである。

つまり、上記非特許文献に開示されたシステムでは、音響的類似度に基づいた距離の算出は、発話セグメント同士の時間的な隣接関係のみを考慮して行われ、発話セグメントをまとめて得られた話者クラスタ同士の関係は考慮されていない。このため、上述の同じ質問者の発話が別の異なる答弁者の発話を挟んだ状態にある音声データの場合、同じ話者に属する発話セグメントが時間的に離れているため、それらに適切な距離を与えることができなくなり、適切な話者クラスタの構成が困難となる。この結果、話者ラベリングが正しく付与されず、上記非特許文献に開示されたシステムは、適切に動作しない状態となる。

本発明の目的は、上記問題を解消し、一定時間、一人の話者が主要な話者となる音声データが対象となる場合であっても、精度良く話者の分類を行い得る、音声分類装置、音声分類方法、及びこれらを実現するためのプログラムを提供することにある。

上記目的を達成するため、本発明における音声分類装置は、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行う音声分類装置であって、
前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するクラスタ数計測部と、
計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する距離算出部と、
算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するクラスタリング部とを、備えることを特徴とする。

また、上記目的を達成するため、本発明における音声分類方法は、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行うための音声分類方法であって、
（ａ）前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
（ｂ）前記（ａ）のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
（ｃ）前記（ｂ）のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、有することを特徴とする。

更に、上記目的を達成するため、本発明におけるプログラムは、コンピュータに、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対するクラスタリングを行わせ、クラスタリング結果に基づいた音声分類を行わせるためのプログラムであって、
前記コンピュータに、
（ａ）前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
（ｂ）前記（ａ）のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
（ｃ）前記（ｂ）のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、実行させることを特徴とする。

以上の特徴により、本発明における音声分類装置、音声分類方法、及びプログラムによれば、一定時間、一人の話者が主要な話者となる音声データが対象となる場合であっても、精度良く話者の分類を行うことができる。

図１は、本発明の実施の形態における音声分類装置の概略構成を示すブロック図である。図２は、本発明の実施の形態において分類対象となる音声データの一例を示す図である。図３は、図１に示す音声分類装置によるクラスタリングによって得られた木構造の一例を示す図である。図４は、本発明の実施の形態における音声分類方法で行われる処理を示すフロー図である。

（実施の形態）
以下、本発明の実施の形態における音声分類装置、音声分類方法及びプログラムについて、図１〜図４を参照しながら説明する。最初に、本実施の形態における音声分類装置の概略構成について図１を用いて説明する。図１は、本発明の実施の形態における音声分類装置の概略構成を示すブロック図である。

図１に示す本実施の形態における音声分類装置１０は、二以上の話者が発話を行っている音声データ（図２参照）を対象とし、それに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行う装置である。

図１に示すように、音声分類装置１０は、クラスタ数計測部２と、距離算出部３と、クラスタリング部４とを備えている。クラスタ数計測部２は、複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測する。距離算出部３は、計測されたクラスタの数を用いて、二つの発話セグメント間の音響的類似度に基づく距離を算出する。クラスタリング部４は、算出された距離を用いて、複数の発話セグメントのクラスタリングを実行する（図３参照）。

このように、音声分類装置１０では、上記非特許文献に開示されたシステムと異なり、音響的類似度に基づく距離の算出に際して、発話セグメントをまとめて得られるクラスタ同士の関係が考慮される。よって、同じ話者に属する発話セグメントが時間的に離れていても、それらに適切な距離を与えることができる。

これにより、音声分類装置１０は、一定時間、一人の話者が主要な話者となる音声データが対象となる場合において、主要な話者のクラスタは、他の話者のクラスタと交互に出現することが多いという性質を加味して、音声分類を実施できる。この結果、音声分類装置１０によれば、一定時間、一人の話者がアンカーパーソンとなる音声データが対象となる場合であっても、精度良く話者の分類を行うことができる。

ここで、本実施の形態における音声分類装置１０の構成及び動作について、図２及び図３を用いて、更に具体的に説明する。図２は、本発明の実施の形態において分類対象となる音声データの一例を示す図である。図３は、図１に示す音声分類装置によるクラスタリングによって得られた木構造の一例を示す図である。

図２に示す音声データは、話者Ａによる質問が行われ、それに対して話者Ｂ又はＣによる答弁が行われた会議を録音して得られている。また、図２に示す音声データには、複数の発話セグメントＳ１〜Ｓ１１が含まれている。このうち、発話セグメントＳ１、Ｓ２、Ｓ３、Ｓ６、Ｓ７、Ｓ１０、及びＳ１１は、話者Ａの発話セグメントである。また、発話セグメントＳ４及びＳ５は話者Ｂの発話セグメントであり、発話セグメントＳ８及びＳ９は話者Ｃの発話セグメントである。

図１に示すように、本実施の形態では、音声分類装置１０は、更に、外部からの音声データの入力を受け付ける入力受付部１と、クラスタリング部４によるクラスタリングの結果を用いて、話者の分類（音声分類）を行う話者分類部５とを備えている。入力受付部１は、外部からのデータの入力を受け付けるインターフェイスとしての機能の他に、音声データに含まれる話者セグメントを抽出し、抽出した話者セグメントをクラスタ数計測部２に出力する機能も備えている。具体的には、入力受付部１は、例えば、無音区間で区切ら
れた音声データを特定し、この無音区間で区切られた音声データを一つの発話セグメントとして抽出する。

更に、本実施の形態では、クラスタ数計測部２による計測、距離算出部３による算出、及びクラスタリング部４によるクラスタリングは、複数回実行される。具体的には、クラスタ数計測部２は、クラスタリング部４によるクラスタリングの実行後、それによって形成されたクラスタを対象として、二つの発話セグメントの間に存在するクラスタの数を新たに計測する。また、距離算出部３は、新たに計測されたクラスタの数を用いて、二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出する。そして、クラスタリング部は、新たに算出された距離を用いて、再度、クラスタリングを実行する。なお、図４を用いて後述するように、距離算出部３による算出は、二回目以降においては、補正のみであっても良い。

また、クラスタ数計測部２による計測、距離算出部３による算出、及びクラスタリング部４によるクラスタリングは、クラスタリング部４によるクラスタリングによって、図３に示す、複数のセグメントの木構造が完成するまで行われる。そして、最後のクラスタリングが終了すると、話者分類部５は、図３に示す木構造を適切な位置（例えば、図３において破線で示す位置）で切断し、そのときのクラスタの状態に基づいて、話者を分類する。なお、図３中の破線で木構造を切断した場合は、話者の分類結果は、図２に示された分類と一致することとなる。

また、クラスタ数計測部２は、クラスタ数を計測するため、二つの発話セグメントを選択する。本実施の形態では、最初、音声データに含まれる全ての発話セグメントによる全ての組み合わせが選択される。具体的には、図２及び図３の例では、発話セグメントＳ１〜Ｓ１１から選択可能な全てのペアが選択される。

ここで、二つの発話セグメントの間に存在するクラスタとは、開始時刻が早い方の発話セグメントの終了時から、他方の発話セグメントの開始時までの間に存在するクラスタをいう。また、本実施の形態では、クラスタ数計測部２は、クラスタの数として、クラスタの時間フラグメントの数や、クラスタの種類の数を計測することもできる。

クラスタリング部４によるクラスタリングが未だ一度も実行されていない場合は、クラスタが未だ形成されていない状態である。この場合、本実施の形態では、クラスタ数計測部２は、複数の発話セグメントそれぞれを一つのクラスタとみなして、二つの発話セグメント間に存在するクラスタの数を計測する。

一方、クラスタリング部４によるクラスタリングが一度以上実行され、ニ以上の発話セグメントを含むクラスタが形成された場合は、クラスタ数計測部２は、同一のクラスタに属すると判断された発話セグメント同士については計測対象外とすることもできる。具体的には、図３に示すように、例えば、一回目のクラスタリングが終了した後では、発話セグメントＳ２とＳ３との間についてクラスタ数の計測は行われない。

また、発話セグメントとクラスタとの間、更にはクラスタ間についてクラスタ数の計測が行われるが、この場合は、クラスタに属する、最も開始時が早い発話セグメントの開始時、又は最も終了時の遅い発話セグメントの終了時が、計測の終点又は起点となる。具体的には、クラスタ数計測部２は、発話セグメントＳ１〜Ｓ３が一つのクラスタとなった時点では、発話セグメントＳ３の終了時と発話セグメントＳ６の開始時の間に存在するクラスタの数を計測する。このとき、図２及び図３に示すように、クラスタの数は「１」となる。

距離算出部３は、上述したように、計測されたクラスタの数を用いて、二つの発話セグメント間の音響的類似度に基づく距離（以下、「距離」とする。）を算出する。本実施の形態では、距離の算出は、二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの特徴ベクトルを用いて行われる。つまり、距離算出部３は、例えば、上述した非特許文献１に開示のシステムと同様に、ケプストラムから得られるガウス分布によって距離を算出することができる。

また、本実施の形態では、距離は、特徴ベクトルから算出された後、クラスタの数に応じて補正される。本実施の形態において、「クラスタの数を用いて、距離を算出する」とは、距離を算出した後に補正（補正計数の乗算等）を行うことを意味し、更に、補正のみを行うことも意味する。

具体的には、距離の算出は、以下の（例１）又は（例２）に従って行うことができる。以下の（例１）及び（例２）はクラスタＡとクラスタＢとの間の距離を算出する場合について説明しているが、クラスタの要素が、一つの発話セグメントのみである場合も同様に算出できる。

また、（例１）及び（例２）において、クラスタＡに属する発話セグメントの特徴ベクトルをＸ_ｎ（ｎ＝１、２，３・・Ｎ_１）とし、クラスタＢに属する発話セグメントの特徴ベクトルをＹ_ｎ（ｎ＝１、２，３・・Ｎ_２）とする。但し、Ｎ_１はクラスタＡの要素数であり、Ｎ_２はクラスタＢの要素数であるとする。

（例１）
例１において、クラスタＡとクラスタＢとの距離をｄ_ｃｏｖとすると、距離ｄ_ｃｏｖは下記の（数１）〜（数５）から求めることができる。なお、下記の（数２）において、Ｓ_１及びＳ_２は、クラスタＡ及びクラスタＢに含まれる発話セグメントの標本共分散行列を表している。

（例２）
例２において、クラスタＡとクラスタＢとの距離をｄ_ＭＥＡＮとすると、距離ｄ_ＭＥＡＮは下記の（数６）及び（数７）から求めることができる。なお、下記の（数７）において、ベクトルＸ_１及びベクトルＸ_２は、クラスタＡ及びクラスタＢに含まれる発話セグメントの平均ベクトルを表している。

また、距離算出部３は、上述したように、距離の算出において、計測されたクラスタの数を用いて、算出された距離の補正を行う。例えば、距離算出部３は、二つの発話セグメント間に存在するクラスタの数が小さいほど、距離が短くなるように、距離を補正することができる。

具体的には、計測されたクラスタの数が「０（ゼロ）」又は「１」の場合は、下記の（数８）を用いて補正が行われ、クラスタの数が「０」及び「１」以外の場合は、補正が行われない態様が挙げられる。なお、下記の（数８）において、ｄは補正前の算出された距離を示し、ｄ´は補正後の距離を示している。また、ａは任意の１より小さい正の数であり、その大きさは適宜設定される。また、補正が行われない場合は、ｄ＝ｄ´となる。

例えば、図３において、発話セグメントＳ１〜Ｓ３が一つのクラスタとなった時点で、発話セグメントＳ３と発話セグメントＳ６との間におけるクラスの数は「１」となる。この場合、発話セグメントＳ３とＳ６との距離は、算出された値よりも小さくなるように補正される。

また、反対に、距離算出部３は、クラスタの数に正比例して距離が長くなるように、距離を補正することもできる。具体的には、下記の（数９）を用いて補正が行われる態様が挙げられる。なお、下記の（数９）においても、ｄは補正前の算出された距離を示し、ｄ´は補正後の距離を示している。ｋは、計測されたクラスタの数を示している。

また、本実施の形態では、距離算出部３は、クラスタリング処理の初期においてはクラスタの数が多いことから、クラスタの数が一定値以下になるまで、二つの発話セグメント間のクラスタの数を用いた補正を実行しない態様であっても良い。

具体的には、距離算出部３は、距離の算出時において、クラスタリング部４によるクラスタリングが実行されていない場合は、複数の発話セグメントの全数と閾値とを対比する。更に、距離算出部３は、距離の算出時において、クラスタリング部によるクラスタリングが実行された場合は、それによって形成されたクラスタの全数と閾値とを対比する。そして、対比の結果、複数の発話セグメントの全数またはクラスタの全数が閾値より小さい場合にのみ、距離算出部３は、距離の算出にクラスタの数を用いる（クラスタの数による補正を行う）ことができる。

更に、本実施の形態では、距離算出部３は、計測されたクラスタの数による補正に加え、上述の非特許文献１に開示されている、隣接関係を用いた補正を実行することもできる。この場合は、よりいっそう話者分類の精度の向上が期待できる。また、距離算出部３は、基本的には、全てのセグメント同士の組み合わせを対象として、距離の算出を行うが、例えば、予め、話者が同一であることが特定されている話者セグメント同士間等については、処理速度の向上の点から、距離の算出を省略することもできる。

クラスタリング部４は、上述したように、距離算出部３によって得られた発話セグメント間の距離に従って、クラスタリングを行う。本実施の形態において、クラスタリング部４で行われるクラスタリング処理は、特に限定されるものではなく、上述した非特許文献１に開示されている方式を用いたクラスタリング処理であっても良い。

具体的には、クラスタリング部４は、先ず、ある着目した発話セグメントについて、それと二つ以上の発話セグメント（又は着目した発話セグメントが属していないクラスタ）
との距離を比較する。そして、クラスタリング部４は、着目した発話セグメントとの距離が最も小さい発話セグメントを特定し、それと着目した発話セグメントとでクラスタを構成する。また、着目した発話セグメントが既にクラスタに含まれている場合は、クラスタリング部４は、距離が最も小さい発話セグメントもこのクラスタに含まれるものとする。

反対に、距離が最も小さい発話セグメントが既にクラスタに含まれている場合は、クラスタリング４は、着目した発話セグメントがこのクラスタに含まれるものとする。更に、着目した発話セグメントと、距離が最も小さい発話セグメントとが、共に、別々のクラスタに含まれている場合は、クラスタリング４は、両者のクラスタを一つに統一する。

また、本実施の形態において、クラスタリング部４による距離の比較は、例えば、従来から既知の最近隣法、最遠隣法、又は群平均法等を用いて行うことができる。なお、上記における「着目した発話セグメントとクラスタとの距離」は、着目した発話セグメントと、クラスタに含まれる発話セグメントとの距離を意味している。

クラスタリング４によるクラスタリングが繰り返し行われると、図３に示すように、発話セグメントＳ１〜Ｓ１１による木構造が形成される。その後、話者分類部５は、木構造を適切な位置で切断し、話者の分類を行う。この切断位置は、例えば、予め、各発話セグメントの話者が明らかなテストデータを用いた実験によって得ることができる。話者分類部５による分類の結果、２つの発話セグメントを時間順にみた場合に、その間に何人の話者が存在したかが明確となる。

次に、本発明の実施の形態における音声分類方法について図４を用いて説明する。図４は、本発明の実施の形態における音声分類方法で行われる処理を示すフロー図である。本実施の形態における音声分類方法、図１に示した本実施の形態における音声分類装置を動作させることによって実施される。このため、本実施の形態における音声分類方法の説明は、適宜図１〜図３を参酌しながら、音声分類装置１０の動作を説明しながら行う。

最初に、図４に示すように、先ず、初期化処理として、距離算出部３は、音声データ（図２参照）が入力されると、全ての発話セグメント同士の組み合わせ（ペア）を対象として、二つの発話セグメント間の音響的類似度に基づく距離を算出する（ステップＡ１）。

なお、ステップＡ１は、次に説明するステップＡ２の後に実行しても良い。但し、その場合は、二回目以降のステップＡ２が実行されたときは、ステップＡ１はスキップされる。また、ステップＡ１では、予め、話者が同一であることが特定されている話者セグメント同士間等については、処理速度の向上の点から、距離の算出の省略が可能である。

次に、クラスタ数計測部２は、二つの発話セグメント間に存在するクラスタの数を計測する（ステップＡ２）。なお、クラスタリングが未だ一度も実行されていない場合は、クラスタが未だ形成されていない状態である。この場合、本実施の形態では、クラスタ数計測部２は、複数の発話セグメントそれぞれを一つのクラスタとみなして、二つの発話セグメント間に存在するクラスタの数を計測する。

次に、距離算出部３は、ステップＡ１で算出された距離に対して、ステップＡ２で計測されたクラスタの数を用いて補正を実行し、補正による距離の算出を実行する（ステップＡ３）。これにより、セグメント間の距離の値は、クラスタ同士の関係が考慮された値となる。

次いで、クラスタリング部４は、着目した各発話セグメントについて、それとの距離が最も小さい発話セグメント（又はクラスタ）を特定し（ステップＡ４）、クラスタの形成
を行う（ステップＡ５）。ステップＡ５におけるクラスタの形成は、例えば、着目した発話セグメントと距離が最も小さい発話セグメントとでクラスタを構成したり、着目した発話セグメントを含むクラスタに、距離が最も小さい発話セグメントを含ませたりすること等によって行われる。

次に、ステップＡ５の終了後、クラスタリング部４は、クラスタリング処理によって木構造（図３参照）が完成し、クラスタが一つになったかどうかを判定する（ステップＡ６）。判定の結果、クラスタが未だ一つになっていない場合は、再度、ステップＡ２〜Ａ５が実行される。一方、クラスタが一つになっている場合は、話者分類部５は、木構造を適切な位置で切断し、話者の分類を行う（ステップＡ７）。その後、全ての処理が終了する。

このように、本実施の形態における音声分類方法では、音響的類似度に基づく距離の算出に際して、発話セグメントをまとめて得られるクラスタ同士の関係が考慮されている。よって、同じ話者に属する発話セグメントが時間的に離れていても、それらに適切な距離が与えられ、一定時間、一人の話者がアンカーパーソンとなる音声データが対象となる場合であっても、精度の高い話者分類が可能となる。

また、本実施の形態におけるプログラムは、コンピュータに、図４に示すステップＡ１〜Ａ７を実行させるプログラムであれば良い。そして、本実施の形態におけるプログラムをコンピュータにインストールし、これを実行させれば、本実施の形態における音声分類装置１０及び音声分類方法を具現化できる。この場合、コンピュータのＣＰＵ（central processing unit）は、入力受付部１、クラスタ数計測部２、距離算出部３、クラスタリング部４、話者分類部５としてとして機能し、処理を行なう。

以上のように、本発明によれば、精度の高い話者分類を提供することができる。よって、本発明は、発言者のラベリングを支援するための会議録作成装置や、音声認識装置等に有効であり、産業上の利用可能性を有している。

１入力受付部
２クラスタ数計測部
３距離算出部
４クラスタリング部
５話者分類部
１０音声分類装置

Claims

二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行う音声分類装置であって、
前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するクラスタ数計測部と、
計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する距離算出部と、
算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するクラスタリング部とを、備えることを特徴とする音声分類装置。
前記クラスタ数計測部が、前記クラスタリング部によるクラスタリングの実行後、それによって形成されたクラスタを対象として、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
前記距離算出部が、新たに計測された前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
前記クラスタリング部が、新たに算出された前記距離を用いて、再度、前記クラスタリングを実行する、請求項１に記載の音声分類装置。
前記クラスタ数計測部が、前記クラスタリング部によるクラスタリングが実行されていない場合に、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
前記クラスタリング部によるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記クラスタ数計測部による計測、前記距離算出部による算出、及び前記クラスタリング部によるクラスタリングが、複数回実行される、請求項２に記載の音声分類装置。
前記距離算出部が、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項１〜３のいずれかに記載の音声分類装置。
前記距離算出部が、前記距離の算出時において、
前記クラスタリング部によるクラスタリングが実行されていない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記クラスタリング部によるクラスタリングが実行されている場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項１〜４のいずれかに記載の音声分類装置。
前記距離算出部が、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項１〜５のいずれかに記載の音声分類装置。
二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行うための音声分類方法であって、
（ａ）前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
（ｂ）前記（ａ）のステップで計測された前記クラスタの数を用いて、前記二つの発話セ
グメント間の音響的類似度に基づく距離を算出するステップと、
（ｃ）前記（ｂ）のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、有することを特徴とする音声分類方法。
前記（ｃ）のステップによるクラスタリングの実行後、それによって形成されたクラスタを対象として、前記（ａ）のステップを新たに実行し、新たな前記（ａ）のステップで、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
新たな前記（ａ）のステップが実行された後、前記（ｂ）のステップを新たに実行し、新たに計測した前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
新たな前記（ｂ）のステップを実行し後、新たに算出した前記距離を用いて、再度、前記（ｃ）のステップにおける前記クラスタリングを実行する、請求項７に記載の音声分類方法。
前記（ｃ）のステップによるクラスタリングを実行していない場合に、前記（ａ）のステップにおいて、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
前記（ｃ）のステップによるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記（ａ）のステップによる計測、前記（ｂ）のステップによる算出、及び前記（ｃ）のステップによるクラスタリングを、複数回実行する、請求項８に記載の音声分類方法。
前記（ｂ）のステップで、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項７〜９のいずれかに記載の音声分類方法。
前記（ｂ）のステップにおける前記距離の算出時において、
前記（ｃ）のステップによるクラスタリングを実行していない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記（ｃ）のステップによるクラスタリングを実行している場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項７〜１０のいずれかに記載の音声分類方法。
前記（ｂ）のステップで、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項７〜１１のいずれかに記載の音声分類方法。
コンピュータに、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対するクラスタリングを行わせ、クラスタリング結果に基づいた音声分類を行わせるためのプログラムであって、
前記コンピュータに、
（ａ）前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
（ｂ）前記（ａ）のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
（ｃ）前記（ｂ）のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、実行させることを特徴とするプログラム。
前記（ｃ）のステップによるクラスタリングの実行後、それによって形成されたクラス
タを対象として、前記（ａ）のステップを新たに実行し、新たな前記（ａ）のステップで、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
新たな前記（ａ）のステップが実行された後、前記（ｂ）のステップを新たに実行し、新たに計測した前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
新たな前記（ｂ）のステップを実行し後、新たに算出した前記距離を用いて、再度、前記（ｃ）のステップにおける前記クラスタリングを実行する、請求項１３に記載のプログラム。
前記（ｃ）のステップによるクラスタリングを実行していない場合に、前記（ａ）のステップにおいて、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
前記（ｃ）のステップによるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記（ａ）のステップによる計測、前記（ｂ）のステップによる算出、及び前記（ｃ）のステップによるクラスタリングを、複数回実行する、請求項１４に記載のプログラム。
前記（ｂ）のステップで、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項１３〜１５のいずれかに記載のプログラム。
前記（ｂ）のステップにおける前記距離の算出時において、
前記（ｃ）のステップによるクラスタリングを実行していない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記（ｃ）のステップによるクラスタリングを実行している場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項１３〜１６のいずれかに記載のプログラム。
前記（ｂ）のステップで、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項１３〜１７のいずれかに記載のプログラム。