JP5105097B2 - 音声分類装置、音声分類方法及びプログラム - Google Patents

音声分類装置、音声分類方法及びプログラム Download PDF

Info

Publication number
JP5105097B2
JP5105097B2 JP2009012746A JP2009012746A JP5105097B2 JP 5105097 B2 JP5105097 B2 JP 5105097B2 JP 2009012746 A JP2009012746 A JP 2009012746A JP 2009012746 A JP2009012746 A JP 2009012746A JP 5105097 B2 JP5105097 B2 JP 5105097B2
Authority
JP
Japan
Prior art keywords
clustering
distance
clusters
segments
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009012746A
Other languages
English (en)
Other versions
JP2010169924A (ja
Inventor
清一 三木
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009012746A priority Critical patent/JP5105097B2/ja
Publication of JP2010169924A publication Critical patent/JP2010169924A/ja
Application granted granted Critical
Publication of JP5105097B2 publication Critical patent/JP5105097B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音声分類装置及び音声分類方法、特には、会議等のように話者の発話順や発話頻度に偏りが存在する場合の音声データを対象とする、音声分類装置及び音声分類方法に関し、更には、これらを実現するためのプログラムに関する。
従来から、会議音声データ等を対象として、無音区間等を元に発話を分割し、類似する発話毎にクラスにまとめて、話者毎の分類が行われている。このような音声分類技術(話者分類技術)は、会議録等の作成や、音声認識において有用である。
また、発話毎にまとめられたクラス毎にラベリングが行われ、音声データ中の同一話者による発話に対しては、同一の話者ラベルが付与されることから、音声分類技術は、話者ラベリング技術とも呼ばれている。このような従来からの音声分類技術(話者ラベリング技術)を用いたシステムの一例が、非特許文献1に記載されている。
具体的には、非特許文献1に開示されたシステムは、入力された音声データに含まれる各発話に対して、その音響的類似度に基づく距離を計算し、この距離を元にクラスタリングを行う。その際、非特許文献1に開示されたシステムは、音響的類似度を用いるだけでなく、「時間的に連続する発話セグメントは同一話者による発声である可能性が高い」というヒューリスティックを導入することで発話セグメントのクラスタリング精度を高めている。
即ち、非特許文献1に開示されたシステムは、2つの発話セグメント間の距離を計算する際に、音響的類似度に基づき算出される距離を、対象とする発話セグメント同士が時間的に隣接しているかどうかに基づいて補正する。例えば発話セグメント同士が隣接する場合は、距離がより小さくなるように補正が行われ、クラスタリング精度が向上すると考えられる。
H. Jin, et al. "Automatic Speaker Clustering", Proc. Of the 1997 DARPA Speech Recognition Workshop
しかしながら、上記非特許文献に開示されたシステムには、例えば会議等でよく見られる、一定時間一人の話者が質問者として発言し、その合間に別の一又は複数の話者が答弁者として回答するスタイルの音声データに対して、適切に動作しないという問題がある。その理由は以下の通りである。
つまり、上記非特許文献に開示されたシステムでは、音響的類似度に基づいた距離の算出は、発話セグメント同士の時間的な隣接関係のみを考慮して行われ、発話セグメントをまとめて得られた話者クラスタ同士の関係は考慮されていない。このため、上述の同じ質問者の発話が別の異なる答弁者の発話を挟んだ状態にある音声データの場合、同じ話者に属する発話セグメントが時間的に離れているため、それらに適切な距離を与えることができなくなり、適切な話者クラスタの構成が困難となる。この結果、話者ラベリングが正しく付与されず、上記非特許文献に開示されたシステムは、適切に動作しない状態となる。
本発明の目的は、上記問題を解消し、一定時間、一人の話者が主要な話者となる音声データが対象となる場合であっても、精度良く話者の分類を行い得る、音声分類装置、音声分類方法、及びこれらを実現するためのプログラムを提供することにある。
上記目的を達成するため、本発明における音声分類装置は、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行う音声分類装置であって、
前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するクラスタ数計測部と、
計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する距離算出部と、
算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するクラスタリング部とを、備えることを特徴とする。
また、上記目的を達成するため、本発明における音声分類方法は、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行うための音声分類方法であって、
(a)前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
(b)前記(a)のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
(c)前記(b)のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、有することを特徴とする。
更に、上記目的を達成するため、本発明におけるプログラムは、コンピュータに、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対するクラスタリングを行わせ、クラスタリング結果に基づいた音声分類を行わせるためのプログラムであって、
前記コンピュータに、
(a)前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
(b)前記(a)のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
(c)前記(b)のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、実行させることを特徴とする。
以上の特徴により、本発明における音声分類装置、音声分類方法、及びプログラムによれば、一定時間、一人の話者が主要な話者となる音声データが対象となる場合であっても、精度良く話者の分類を行うことができる。
図1は、本発明の実施の形態における音声分類装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態において分類対象となる音声データの一例を示す図である。 図3は、図1に示す音声分類装置によるクラスタリングによって得られた木構造の一例を示す図である。 図4は、本発明の実施の形態における音声分類方法で行われる処理を示すフロー図である。
(実施の形態)
以下、本発明の実施の形態における音声分類装置、音声分類方法及びプログラムについて、図1〜図4を参照しながら説明する。最初に、本実施の形態における音声分類装置の概略構成について図1を用いて説明する。図1は、本発明の実施の形態における音声分類装置の概略構成を示すブロック図である。
図1に示す本実施の形態における音声分類装置10は、二以上の話者が発話を行っている音声データ(図2参照)を対象とし、それに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行う装置である。
図1に示すように、音声分類装置10は、クラスタ数計測部2と、距離算出部3と、クラスタリング部4とを備えている。クラスタ数計測部2は、複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測する。距離算出部3は、計測されたクラスタの数を用いて、二つの発話セグメント間の音響的類似度に基づく距離を算出する。クラスタリング部4は、算出された距離を用いて、複数の発話セグメントのクラスタリングを実行する(図3参照)。
このように、音声分類装置10では、上記非特許文献に開示されたシステムと異なり、音響的類似度に基づく距離の算出に際して、発話セグメントをまとめて得られるクラスタ同士の関係が考慮される。よって、同じ話者に属する発話セグメントが時間的に離れていても、それらに適切な距離を与えることができる。
これにより、音声分類装置10は、一定時間、一人の話者が主要な話者となる音声データが対象となる場合において、主要な話者のクラスタは、他の話者のクラスタと交互に出現することが多いという性質を加味して、音声分類を実施できる。この結果、音声分類装置10によれば、一定時間、一人の話者がアンカーパーソンとなる音声データが対象となる場合であっても、精度良く話者の分類を行うことができる。
ここで、本実施の形態における音声分類装置10の構成及び動作について、図2及び図3を用いて、更に具体的に説明する。図2は、本発明の実施の形態において分類対象となる音声データの一例を示す図である。図3は、図1に示す音声分類装置によるクラスタリングによって得られた木構造の一例を示す図である。
図2に示す音声データは、話者Aによる質問が行われ、それに対して話者B又はCによる答弁が行われた会議を録音して得られている。また、図2に示す音声データには、複数の発話セグメントS1〜S11が含まれている。このうち、発話セグメントS1、S2、S3、S6、S7、S10、及びS11は、話者Aの発話セグメントである。また、発話セグメントS4及びS5は話者Bの発話セグメントであり、発話セグメントS8及びS9は話者Cの発話セグメントである。
図1に示すように、本実施の形態では、音声分類装置10は、更に、外部からの音声データの入力を受け付ける入力受付部1と、クラスタリング部4によるクラスタリングの結果を用いて、話者の分類(音声分類)を行う話者分類部5とを備えている。入力受付部1は、外部からのデータの入力を受け付けるインターフェイスとしての機能の他に、音声データに含まれる話者セグメントを抽出し、抽出した話者セグメントをクラスタ数計測部2に出力する機能も備えている。具体的には、入力受付部1は、例えば、無音区間で区切ら
れた音声データを特定し、この無音区間で区切られた音声データを一つの発話セグメントとして抽出する。
更に、本実施の形態では、クラスタ数計測部2による計測、距離算出部3による算出、及びクラスタリング部4によるクラスタリングは、複数回実行される。具体的には、クラスタ数計測部2は、クラスタリング部4によるクラスタリングの実行後、それによって形成されたクラスタを対象として、二つの発話セグメントの間に存在するクラスタの数を新たに計測する。また、距離算出部3は、新たに計測されたクラスタの数を用いて、二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出する。そして、クラスタリング部は、新たに算出された距離を用いて、再度、クラスタリングを実行する。なお、図4を用いて後述するように、距離算出部3による算出は、二回目以降においては、補正のみであっても良い。
また、クラスタ数計測部2による計測、距離算出部3による算出、及びクラスタリング部4によるクラスタリングは、クラスタリング部4によるクラスタリングによって、図3に示す、複数のセグメントの木構造が完成するまで行われる。そして、最後のクラスタリングが終了すると、話者分類部5は、図3に示す木構造を適切な位置(例えば、図3において破線で示す位置)で切断し、そのときのクラスタの状態に基づいて、話者を分類する。なお、図3中の破線で木構造を切断した場合は、話者の分類結果は、図2に示された分類と一致することとなる。
また、クラスタ数計測部2は、クラスタ数を計測するため、二つの発話セグメントを選択する。本実施の形態では、最初、音声データに含まれる全ての発話セグメントによる全ての組み合わせが選択される。具体的には、図2及び図3の例では、発話セグメントS1〜S11から選択可能な全てのペアが選択される。
ここで、二つの発話セグメントの間に存在するクラスタとは、開始時刻が早い方の発話セグメントの終了時から、他方の発話セグメントの開始時までの間に存在するクラスタをいう。また、本実施の形態では、クラスタ数計測部2は、クラスタの数として、クラスタの時間フラグメントの数や、クラスタの種類の数を計測することもできる。
クラスタリング部4によるクラスタリングが未だ一度も実行されていない場合は、クラスタが未だ形成されていない状態である。この場合、本実施の形態では、クラスタ数計測部2は、複数の発話セグメントそれぞれを一つのクラスタとみなして、二つの発話セグメント間に存在するクラスタの数を計測する。
一方、クラスタリング部4によるクラスタリングが一度以上実行され、ニ以上の発話セグメントを含むクラスタが形成された場合は、クラスタ数計測部2は、同一のクラスタに属すると判断された発話セグメント同士については計測対象外とすることもできる。具体的には、図3に示すように、例えば、一回目のクラスタリングが終了した後では、発話セグメントS2とS3との間についてクラスタ数の計測は行われない。
また、発話セグメントとクラスタとの間、更にはクラスタ間についてクラスタ数の計測が行われるが、この場合は、クラスタに属する、最も開始時が早い発話セグメントの開始時、又は最も終了時の遅い発話セグメントの終了時が、計測の終点又は起点となる。具体的には、クラスタ数計測部2は、発話セグメントS1〜S3が一つのクラスタとなった時点では、発話セグメントS3の終了時と発話セグメントS6の開始時の間に存在するクラスタの数を計測する。このとき、図2及び図3に示すように、クラスタの数は「1」となる。
距離算出部3は、上述したように、計測されたクラスタの数を用いて、二つの発話セグメント間の音響的類似度に基づく距離(以下、「距離」とする。)を算出する。本実施の形態では、距離の算出は、二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの特徴ベクトルを用いて行われる。つまり、距離算出部3は、例えば、上述した非特許文献1に開示のシステムと同様に、ケプストラムから得られるガウス分布によって距離を算出することができる。
また、本実施の形態では、距離は、特徴ベクトルから算出された後、クラスタの数に応じて補正される。本実施の形態において、「クラスタの数を用いて、距離を算出する」とは、距離を算出した後に補正(補正計数の乗算等)を行うことを意味し、更に、補正のみを行うことも意味する。
具体的には、距離の算出は、以下の(例1)又は(例2)に従って行うことができる。以下の(例1)及び(例2)はクラスタAとクラスタBとの間の距離を算出する場合について説明しているが、クラスタの要素が、一つの発話セグメントのみである場合も同様に算出できる。
また、(例1)及び(例2)において、クラスタAに属する発話セグメントの特徴ベクトルをX(n=1、2,3・・N)とし、クラスタBに属する発話セグメントの特徴ベクトルをY(n=1、2,3・・N)とする。但し、NはクラスタAの要素数であり、NはクラスタBの要素数であるとする。
(例1)
例1において、クラスタAとクラスタBとの距離をdcovとすると、距離dcovは下記の(数1)〜(数5)から求めることができる。なお、下記の(数2)において、S及びSは、クラスタA及びクラスタBに含まれる発話セグメントの標本共分散行列を表している。









(例2)
例2において、クラスタAとクラスタBとの距離をdMEANとすると、距離dMEANは下記の(数6)及び(数7)から求めることができる。なお、下記の(数7)において、ベクトルX及びベクトルXは、クラスタA及びクラスタBに含まれる発話セグメントの平均ベクトルを表している。




また、距離算出部3は、上述したように、距離の算出において、計測されたクラスタの数を用いて、算出された距離の補正を行う。例えば、距離算出部3は、二つの発話セグメント間に存在するクラスタの数が小さいほど、距離が短くなるように、距離を補正することができる。
具体的には、計測されたクラスタの数が「0(ゼロ)」又は「1」の場合は、下記の(数8)を用いて補正が行われ、クラスタの数が「0」及び「1」以外の場合は、補正が行われない態様が挙げられる。なお、下記の(数8)において、dは補正前の算出された距離を示し、d´は補正後の距離を示している。また、aは任意の1より小さい正の数であり、その大きさは適宜設定される。また、補正が行われない場合は、d=d´となる。


例えば、図3において、発話セグメントS1〜S3が一つのクラスタとなった時点で、発話セグメントS3と発話セグメントS6との間におけるクラスの数は「1」となる。この場合、発話セグメントS3とS6との距離は、算出された値よりも小さくなるように補正される。
また、反対に、距離算出部3は、クラスタの数に正比例して距離が長くなるように、距離を補正することもできる。具体的には、下記の(数9)を用いて補正が行われる態様が挙げられる。なお、下記の(数9)においても、dは補正前の算出された距離を示し、d´は補正後の距離を示している。kは、計測されたクラスタの数を示している。


また、本実施の形態では、距離算出部3は、クラスタリング処理の初期においてはクラスタの数が多いことから、クラスタの数が一定値以下になるまで、二つの発話セグメント間のクラスタの数を用いた補正を実行しない態様であっても良い。
具体的には、距離算出部3は、距離の算出時において、クラスタリング部4によるクラスタリングが実行されていない場合は、複数の発話セグメントの全数と閾値とを対比する。更に、距離算出部3は、距離の算出時において、クラスタリング部によるクラスタリングが実行された場合は、それによって形成されたクラスタの全数と閾値とを対比する。そして、対比の結果、複数の発話セグメントの全数またはクラスタの全数が閾値より小さい場合にのみ、距離算出部3は、距離の算出にクラスタの数を用いる(クラスタの数による補正を行う)ことができる。
更に、本実施の形態では、距離算出部3は、計測されたクラスタの数による補正に加え、上述の非特許文献1に開示されている、隣接関係を用いた補正を実行することもできる。この場合は、よりいっそう話者分類の精度の向上が期待できる。また、距離算出部3は、基本的には、全てのセグメント同士の組み合わせを対象として、距離の算出を行うが、例えば、予め、話者が同一であることが特定されている話者セグメント同士間等については、処理速度の向上の点から、距離の算出を省略することもできる。
クラスタリング部4は、上述したように、距離算出部3によって得られた発話セグメント間の距離に従って、クラスタリングを行う。本実施の形態において、クラスタリング部4で行われるクラスタリング処理は、特に限定されるものではなく、上述した非特許文献1に開示されている方式を用いたクラスタリング処理であっても良い。
具体的には、クラスタリング部4は、先ず、ある着目した発話セグメントについて、それと二つ以上の発話セグメント(又は着目した発話セグメントが属していないクラスタ)
との距離を比較する。そして、クラスタリング部4は、着目した発話セグメントとの距離が最も小さい発話セグメントを特定し、それと着目した発話セグメントとでクラスタを構成する。また、着目した発話セグメントが既にクラスタに含まれている場合は、クラスタリング部4は、距離が最も小さい発話セグメントもこのクラスタに含まれるものとする。
反対に、距離が最も小さい発話セグメントが既にクラスタに含まれている場合は、クラスタリング4は、着目した発話セグメントがこのクラスタに含まれるものとする。更に、着目した発話セグメントと、距離が最も小さい発話セグメントとが、共に、別々のクラスタに含まれている場合は、クラスタリング4は、両者のクラスタを一つに統一する。
また、本実施の形態において、クラスタリング部4による距離の比較は、例えば、従来から既知の最近隣法、最遠隣法、又は群平均法等を用いて行うことができる。なお、上記における「着目した発話セグメントとクラスタとの距離」は、着目した発話セグメントと、クラスタに含まれる発話セグメントとの距離を意味している。
クラスタリング4によるクラスタリングが繰り返し行われると、図3に示すように、発話セグメントS1〜S11による木構造が形成される。その後、話者分類部5は、木構造を適切な位置で切断し、話者の分類を行う。この切断位置は、例えば、予め、各発話セグメントの話者が明らかなテストデータを用いた実験によって得ることができる。話者分類部5による分類の結果、2つの発話セグメントを時間順にみた場合に、その間に何人の話者が存在したかが明確となる。
次に、本発明の実施の形態における音声分類方法について図4を用いて説明する。図4は、本発明の実施の形態における音声分類方法で行われる処理を示すフロー図である。本実施の形態における音声分類方法、図1に示した本実施の形態における音声分類装置を動作させることによって実施される。このため、本実施の形態における音声分類方法の説明は、適宜図1〜図3を参酌しながら、音声分類装置10の動作を説明しながら行う。
最初に、図4に示すように、先ず、初期化処理として、距離算出部3は、音声データ(図2参照)が入力されると、全ての発話セグメント同士の組み合わせ(ペア)を対象として、二つの発話セグメント間の音響的類似度に基づく距離を算出する(ステップA1)。
なお、ステップA1は、次に説明するステップA2の後に実行しても良い。但し、その場合は、二回目以降のステップA2が実行されたときは、ステップA1はスキップされる。また、ステップA1では、予め、話者が同一であることが特定されている話者セグメント同士間等については、処理速度の向上の点から、距離の算出の省略が可能である。
次に、クラスタ数計測部2は、二つの発話セグメント間に存在するクラスタの数を計測する(ステップA2)。なお、クラスタリングが未だ一度も実行されていない場合は、クラスタが未だ形成されていない状態である。この場合、本実施の形態では、クラスタ数計測部2は、複数の発話セグメントそれぞれを一つのクラスタとみなして、二つの発話セグメント間に存在するクラスタの数を計測する。
次に、距離算出部3は、ステップA1で算出された距離に対して、ステップA2で計測されたクラスタの数を用いて補正を実行し、補正による距離の算出を実行する(ステップA3)。これにより、セグメント間の距離の値は、クラスタ同士の関係が考慮された値となる。
次いで、クラスタリング部4は、着目した各発話セグメントについて、それとの距離が最も小さい発話セグメント(又はクラスタ)を特定し(ステップA4)、クラスタの形成
を行う(ステップA5)。ステップA5におけるクラスタの形成は、例えば、着目した発話セグメントと距離が最も小さい発話セグメントとでクラスタを構成したり、着目した発話セグメントを含むクラスタに、距離が最も小さい発話セグメントを含ませたりすること等によって行われる。
次に、ステップA5の終了後、クラスタリング部4は、クラスタリング処理によって木構造(図3参照)が完成し、クラスタが一つになったかどうかを判定する(ステップA6)。判定の結果、クラスタが未だ一つになっていない場合は、再度、ステップA2〜A5が実行される。一方、クラスタが一つになっている場合は、話者分類部5は、木構造を適切な位置で切断し、話者の分類を行う(ステップA7)。その後、全ての処理が終了する。
このように、本実施の形態における音声分類方法では、音響的類似度に基づく距離の算出に際して、発話セグメントをまとめて得られるクラスタ同士の関係が考慮されている。よって、同じ話者に属する発話セグメントが時間的に離れていても、それらに適切な距離が与えられ、一定時間、一人の話者がアンカーパーソンとなる音声データが対象となる場合であっても、精度の高い話者分類が可能となる。
また、本実施の形態におけるプログラムは、コンピュータに、図4に示すステップA1〜A7を実行させるプログラムであれば良い。そして、本実施の形態におけるプログラムをコンピュータにインストールし、これを実行させれば、本実施の形態における音声分類装置10及び音声分類方法を具現化できる。この場合、コンピュータのCPU(central processing unit)は、入力受付部1、クラスタ数計測部2、距離算出部3、クラスタリング部4、話者分類部5としてとして機能し、処理を行なう。
以上のように、本発明によれば、精度の高い話者分類を提供することができる。よって、本発明は、発言者のラベリングを支援するための会議録作成装置や、音声認識装置等に有効であり、産業上の利用可能性を有している。
1 入力受付部
2 クラスタ数計測部
3 距離算出部
4 クラスタリング部
5 話者分類部
10 音声分類装置

Claims (18)

  1. 二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行う音声分類装置であって、
    前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するクラスタ数計測部と、
    計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する距離算出部と、
    算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するクラスタリング部とを、備えることを特徴とする音声分類装置。
  2. 前記クラスタ数計測部が、前記クラスタリング部によるクラスタリングの実行後、それによって形成されたクラスタを対象として、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
    前記距離算出部が、新たに計測された前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
    前記クラスタリング部が、新たに算出された前記距離を用いて、再度、前記クラスタリングを実行する、請求項1に記載の音声分類装置。
  3. 前記クラスタ数計測部が、前記クラスタリング部によるクラスタリングが実行されていない場合に、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
    前記クラスタリング部によるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記クラスタ数計測部による計測、前記距離算出部による算出、及び前記クラスタリング部によるクラスタリングが、複数回実行される、請求項2に記載の音声分類装置。
  4. 前記距離算出部が、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項1〜3のいずれかに記載の音声分類装置。
  5. 前記距離算出部が、前記距離の算出時において、
    前記クラスタリング部によるクラスタリングが実行されていない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記クラスタリング部によるクラスタリングが実行されている場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
    対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項1〜4のいずれかに記載の音声分類装置。
  6. 前記距離算出部が、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項1〜5のいずれかに記載の音声分類装置。
  7. 二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対してクラスタリングを行い、クラスタリング結果に基づいて、音声分類を行うための音声分類方法であって、
    (a)前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
    (b)前記(a)のステップで計測された前記クラスタの数を用いて、前記二つの発話セ
    グメント間の音響的類似度に基づく距離を算出するステップと、
    (c)前記(b)のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、有することを特徴とする音声分類方法。
  8. 前記(c)のステップによるクラスタリングの実行後、それによって形成されたクラスタを対象として、前記(a)のステップを新たに実行し、新たな前記(a)のステップで、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
    新たな前記(a)のステップが実行された後、前記(b)のステップを新たに実行し、新たに計測した前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
    新たな前記(b)のステップを実行し後、新たに算出した前記距離を用いて、再度、前記(c)のステップにおける前記クラスタリングを実行する、請求項7に記載の音声分類方法。
  9. 前記(c)のステップによるクラスタリングを実行していない場合に、前記(a)のステップにおいて、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
    前記(c)のステップによるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記(a)のステップによる計測、前記(b)のステップによる算出、及び前記(c)のステップによるクラスタリングを、複数回実行する、請求項8に記載の音声分類方法。
  10. 前記(b)のステップで、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項7〜9のいずれかに記載の音声分類方法。
  11. 前記(b)のステップにおける前記距離の算出時において、
    前記(c)のステップによるクラスタリングを実行していない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記(c)のステップによるクラスタリングを実行している場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
    対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項7〜10のいずれかに記載の音声分類方法。
  12. 前記(b)のステップで、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項7〜11のいずれかに記載の音声分類方法。
  13. コンピュータに、二以上の話者が発話を行っている音声データに含まれる複数の発話セグメントに対するクラスタリングを行わせ、クラスタリング結果に基づいた音声分類を行わせるためのプログラムであって、
    前記コンピュータに、
    (a)前記複数の発話セグメントが時間軸に沿って配置されたときに、二つの発話セグメント間に存在するクラスタの数を計測するステップと、
    (b)前記(a)のステップで計測された前記クラスタの数を用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出するステップと、
    (c)前記(b)のステップで算出された前記距離を用いて、前記複数の発話セグメントのクラスタリングを実行するステップとを、実行させることを特徴とするプログラム。
  14. 前記(c)のステップによるクラスタリングの実行後、それによって形成されたクラス
    タを対象として、前記(a)のステップを新たに実行し、新たな前記(a)のステップで、前記二つの発話セグメントの間に存在するクラスタの数を新たに計測し、
    新たな前記(a)のステップが実行された後、前記(b)のステップを新たに実行し、新たに計測した前記クラスタの数を用いて、前記二つの発話セグメントの間の音響的類似度に基づく距離を新たに算出し、
    新たな前記(b)のステップを実行し後、新たに算出した前記距離を用いて、再度、前記(c)のステップにおける前記クラスタリングを実行する、請求項13に記載のプログラム。
  15. 前記(c)のステップによるクラスタリングを実行していない場合に、前記(a)のステップにおいて、前記複数の発話セグメントそれぞれを一つのクラスタとみなして、前記二つの発話セグメント間に存在するクラスタの数を計測し、
    前記(c)のステップによるクラスタリングによって、前記複数のセグメントの木構造が完成するまで、前記(a)のステップによる計測、前記(b)のステップによる算出、及び前記(c)のステップによるクラスタリングを、複数回実行する、請求項14に記載のプログラム。
  16. 前記(b)のステップで、前記二つの発話セグメント間に存在するクラスタの数が小さいほど、前記距離が短くなるように、前記距離を補正する、請求項13〜15のいずれかに記載のプログラム。
  17. 前記(b)のステップにおける前記距離の算出時において、
    前記(c)のステップによるクラスタリングを実行していない場合は、前記複数の発話セグメントの全数と閾値とを対比し、前記(c)のステップによるクラスタリングを実行している場合は、それによって形成されたクラスタの全数と前記閾値とを対比し、
    対比の結果、前記複数の発話セグメントの全数または前記クラスタの全数が前記閾値より小さい場合にのみ、前記距離の算出に前記クラスタの数を用いる、請求項13〜16のいずれかに記載のプログラム。
  18. 前記(b)のステップで、前記二つの発話セグメントそれぞれの特徴ベクトルを求め、求めたそれぞれの前記特徴ベクトルを用いて、前記二つの発話セグメント間の音響的類似度に基づく距離を算出する、請求項13〜17のいずれかに記載のプログラム。
JP2009012746A 2009-01-23 2009-01-23 音声分類装置、音声分類方法及びプログラム Active JP5105097B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009012746A JP5105097B2 (ja) 2009-01-23 2009-01-23 音声分類装置、音声分類方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009012746A JP5105097B2 (ja) 2009-01-23 2009-01-23 音声分類装置、音声分類方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010169924A JP2010169924A (ja) 2010-08-05
JP5105097B2 true JP5105097B2 (ja) 2012-12-19

Family

ID=42702142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009012746A Active JP5105097B2 (ja) 2009-01-23 2009-01-23 音声分類装置、音声分類方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5105097B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109361995A (zh) * 2018-09-25 2019-02-19 深圳创维-Rgb电子有限公司 一种电器设备的音量调节方法、装置、电器设备和介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5486565B2 (ja) * 2011-08-05 2014-05-07 日本電信電話株式会社 話者クラスタリング方法、話者クラスタリング装置、プログラム
CN106504780A (zh) * 2016-10-09 2017-03-15 努比亚技术有限公司 一种实现音频信息处理的方法及装置
CN108881652B (zh) * 2018-07-11 2021-02-26 北京大米科技有限公司 回音检测方法、存储介质和电子设备
JP7259307B2 (ja) * 2018-12-14 2023-04-18 コニカミノルタ株式会社 議事録出力装置および議事録出力装置の制御プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3081108B2 (ja) * 1994-08-11 2000-08-28 株式会社トレンディ 話者分類処理装置及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109361995A (zh) * 2018-09-25 2019-02-19 深圳创维-Rgb电子有限公司 一种电器设备的音量调节方法、装置、电器设备和介质
CN109361995B (zh) * 2018-09-25 2021-07-30 深圳创维-Rgb电子有限公司 一种电器设备的音量调节方法、装置、电器设备和介质

Also Published As

Publication number Publication date
JP2010169924A (ja) 2010-08-05

Similar Documents

Publication Publication Date Title
US9536547B2 (en) Speaker change detection device and speaker change detection method
US9536525B2 (en) Speaker indexing device and speaker indexing method
US20130035933A1 (en) Audio signal processing apparatus and audio signal processing method
US9043207B2 (en) Speaker recognition from telephone calls
Ramdinmawii et al. Gender identification from speech signal by examining the speech production characteristics
JP5105097B2 (ja) 音声分類装置、音声分類方法及びプログラム
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
EP3979240A1 (en) Signal extraction system, signal extraction learning method, and signal extraction learning program
US11250860B2 (en) Speaker recognition based on signal segments weighted by quality
JP5050698B2 (ja) 音声処理装置およびプログラム
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
JP2020067566A (ja) 情報処理方法、情報処理装置、及び、プログラム
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
JP2011053569A (ja) 音響処理装置およびプログラム
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP5936378B2 (ja) 音声区間検出装置
JPWO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム
Chen et al. System and keyword dependent fusion for spoken term detection
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
JP5936377B2 (ja) 音声区間検出装置
CN112053686A (zh) 一种音频中断方法、装置以及计算机可读存储介质
Bharathi et al. GMM and i-vector based speaker verification using speaker-specific-text for short utterances
Anguera et al. Frame purification for cluster comparison in speaker diarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120905

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120918

R150 Certificate of patent or registration of utility model

Ref document number: 5105097

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3