JP2011191542A

JP2011191542A - 音声分類装置、音声分類方法、及び音声分類用プログラム

Info

Publication number: JP2011191542A
Application number: JP2010058004A
Authority: JP
Inventors: Yoshifumi Onishi; 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-03-15
Filing date: 2010-03-15
Publication date: 2011-09-29

Abstract

【課題】分類の個数を事前に指定しなくても、音声を分類することができ、得られた分類結果の音声の種類を判別できるようにする。
【解決手段】本発明による音声分類装置は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング手段と、前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出するクラスタラベル判別情報算出手段と、前記逐次クラスタリング手段が算出した前記クラスタ情報と、前記クラスタラベル判別情報算出手段が算出した前記クラスタラベル判別情報とを用いて、前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するクラスタラベル判別手段と、を備えたことを特徴とする。
【選択図】図５

Description

本発明は、音声データを分類する音声分類装置、音声分類方法、及び音声分類用プログラムに関する。

講演会や会議等で入力された音声データを分類して、音声認識や話者分類等の用途に用いることが行われている。例えば、関連する技術として、音声データを分割してクラスタリングを行い、分割データ毎にクラスタに分類する音声分類装置の一例が、非特許文献1に記載されている。

T. Kemp, M. Schmidt, M. Westphal and A. Waibel, "Strategies for Automatic Segmentation of Audio Data", Proc. ICASSP 2000, vol. 3, pp.1423-1426, 2000.

図6は、非特許文献1等に記載された音声分類装置の構成の一例を示すブロック図である。図6に示すように、音声分類装置900は、音声信号入力部901と、音声信号分割部902と、分割データ記憶部903と、分割データクラスタリング部904と、クラスタリング結果記憶部905と、クラスタモデル学習部906と、クラスタ判別部907と、クラスタ判別結果出力部908とを含む。このような構成を有する音声分類装置900は、以下のように動作する。

音声信号入力部901は、音声データとして、音声の特徴量時系列データを入力する。音声信号分割部902は、音声信号入力部901が入力した音声の特徴量時系列データを、一定時間間隔の音声信号データに分割する。また、音声信号分割部902は、分割した音声信号データを分割データ記憶部903に記憶させる。

分割データクラスタリング部904は、分割データ記憶部903に記憶されたデータを、類似した部分毎に、事前に指定したN個のクラスタにまとめ上げてクラスタリングを行う。そして、分割データクラスタリング部904は、クラスタリング結果（クラスタリング情報）をクラスタリング結果記憶部905に記憶させる。

クラスタモデル学習部906は、クラスタリング結果記憶部905に記憶されたクラスタリング情報に基づいて、クラスタ毎に学習処理を行うことによってモデルをN個学習する。クラスタ判別部907は、クラスタモデル学習部906が学習したN個のモデルと、分割データ記憶部903に記憶された分割データとを比較し、分割データ毎にどのクラスタのモデルから生成したとみなせるかを判別する。そして、クラスタ判別結果出力部908は、クラスタ判別部907の判別結果を出力する。

ここで、分割データクラスタリング部904は、分割されたデータ間の距離に基づいて、ボトムアップにN個のクラスタになるまで、分割されたデータのまとめ上げを行う。また、クラスタモデル学習部906は、クラスタ毎に、クラスタに属する分割データを用いて、事前に指定したM混合の混合ガウス分布モデル（GMM）等を用いた学習処理を行い、N個のモデルを学習する。また、クラスタ判別部907は、分割されたデータそれぞれについてN個のモデルとの尤度を比較することにより、どのモデルとの当てはまりがよいかを算出して、どのクラスタに分類すべきかの判別を行う。

このような非特許文献1等に記載された音声分類装置では、特に各分類結果が同類で均質な音声データとなることを利用して、音声認識システムと組み合わせることにより、音声認識システムの性能を改善させる目的で使用される。

しかし、非特許文献1等に記載された音声分類装置では、分類の個数を事前に指定しておく必要がある。そのため、入力した音声データを分割した分割データがどの程度の個数のクラスタに分類されるかを予め予測するのが難しい場合には、適切な分類を行うことができない。従って、実際の分類数が予め指定した個数に一致せず、分類性能が十分に得られず、また得られた分類結果の音声の種類が不明となる場合が生じうるという課題がある。

そこで、本発明は、分類の個数を事前に指定しなくても、音声を分類することができ、得られた分類結果の音声の種類を判別することができる音声分類装置、音声分類方法、及び音声分類用プログラムを提供することを目的とする。

本発明による音声分類装置は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング手段と、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出するクラスタラベル判別情報算出手段と、逐次クラスタリング手段が算出したクラスタ情報と、クラスタラベル判別情報算出手段が算出したクラスタラベル判別情報とを用いて、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するクラスタラベル判別手段と、を備えたことを特徴とする。

本発明による音声分類装置の他の態様は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング手段と、逐次クラスタリング手段が算出したクラスタ情報を記憶するクラスタ情報記憶手段と、音声データに対して音声認識を行い、音声認識結果に基づいて、音声データの音声区間に対応するラベルを算出する音声認識手段と、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出して、算出したクラスタラベル判別情報をクラスタ情報記憶手段に記憶させるクラスタラベル判別情報算出手段と、を備え、クラスタラベル判別情報算出手段は、クラスタ情報記憶手段が記憶するクラスタ情報と、今回判別対象とする音声区間以前の音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報と、音声認識手段が算出したラベルとを用いて、今回判別対象とする音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報を算出し、逐次クラスタリング手段が算出したクラスタ情報と、クラスタ情報記憶手段が記憶するクラスタラベル判別情報とを用いて、今回判別対象とする音声区間のクラスタがいずれのクラスタラベルに対応するかを判別するクラスタラベル判別手段をさらに備えたことを特徴とする。

本発明による音声分類方法は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出し、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出し、算出したクラスタ情報と、算出したクラスタラベル判別情報とを用いて、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別することを特徴とする。

本発明による音声分類方法の他の態様は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出し、算出したクラスタ情報をクラスタ情報記憶手段に記憶させ、音声データに対して音声認識を行い、音声認識結果に基づいて、音声データの音声区間に対応するラベルを算出し、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出して、算出したクラスタラベル判別情報をクラスタ情報記憶手段に記憶させ、クラスタラベル判別情報を算出するときに、クラスタ情報記憶手段が記憶するクラスタ情報と、今回判別対象とする音声区間以前の音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報と、算出したラベルとを用いて、今回判別対象とする音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報を算出し、算出したクラスタ情報と、クラスタ情報記憶手段が記憶するクラスタラベル判別情報とを用いて、今回判別対象とする音声区間のクラスタがいずれのクラスタラベルに対応するかを判別することを特徴とする。

本発明による音声分類用プログラムは、コンピュータに、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング処理と、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出するクラスタラベル判別情報算出処理と、算出したクラスタ情報と、算出したクラスタラベル判別情報とを用いて、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するクラスタラベル判別処理とを実行させるためのものである。

本発明による音声分類用プログラムの他の態様は、コンピュータに、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング処理と、算出したクラスタ情報をクラスタ情報記憶手段に記憶させるクラスタ情報記憶処理と、音声データに対して音声認識を行い、音声認識結果に基づいて、音声データの音声区間に対応するラベルを算出する音声認識処理と、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出して、算出したクラスタラベル判別情報をクラスタ情報記憶手段に記憶させるクラスタラベル判別情報算出処理と、を実行させ、クラスタラベル判別情報算出処理において、クラスタ情報記憶手段が記憶するクラスタ情報と、今回判別対象とする音声区間以前の音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報と、音声認識処理で算出したラベルとを用いて、今回判別対象とする音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報を算出する処理を実行させ、算出したクラスタ情報と、クラスタ情報記憶手段が記憶するクラスタラベル判別情報とを用いて、今回判別対象とする音声区間のクラスタがいずれのクラスタラベルに対応するかを判別するクラスタラベル判別処理をさらに実行させるためのものである。

本発明によれば、分類の個数を事前に指定しなくても、音声を分類することができ、得られた分類結果の音声の種類を判別することができる。

本発明による音声分類装置の構成の一例を示すブロック図である。音声認識部がチャンクのラベルを判定するためのルールを示す表の具体例を示す説明図である。音声分類装置が行う音声分類処理の一例を示す流れ図である。音声分類装置が行う音声分類処理の具体例を示す説明図である。音声分類装置の最小の構成例を示すブロック図である。非特許文献1等に記載された音声分類装置の構成の一例を示すプロック図である。

実施形態１．
以下、本発明の第1の実施形態について図面を参照して説明する。本発明は、音声データを分類する音声分類装置、音声分類方法、及び音声分類用プログラムに関し、特に雑音等を含む音声対して音声を分類する機能を有する音声分類装置、音声分類方法、及び音声分類用プログラムに関する。

図1は、本発明による音声分類装置の構成の一例を示すブロック図である。なお、本実施形態において、音声分類装置100は、ハードウェア、ソフトウェア、及びこれらの組み合わせにより実現することができ、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。

音声分類装置100は、音声信号入力部101と、音声信号分割部102と、逐次クラスタリング部103と、クラスタラベル判別部104と、音声認識部105と、クラスタラベル判別情報算出部106と、クラスタ情報記憶部107と、ラベル判別結果出力部108とを含む。

音声信号入力部101は、具体的には、プログラムに従って動作する情報処理装置のCPU及び入出力インタフェース部によって実現される。音声信号入力部101は、音声データとして、音声の特徴量時系列データを入力する機能を備える。なお、具体的には、音声信号入力部101は、例えば、マイクロフォン等の音声入力装置から音声データを入力してもよいし、音声データを含むファイルをファイル入力してもよく、様々な入力形態で音声データを入力することが可能である。

音声信号分割部102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。音声信号分割部102は、音声信号入力部101が入力した音声データを、一定時間間隔に分割する機能を備える。なお、音声信号分割部102が分割したこの一定時間間隔の音声データの塊を、以下、チャンクと呼ぶ。

逐次クラスタリング部103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。逐次クラスタリング部103は、音声信号分割部102がチャンクに分割した音声データに対して、逐次クラスリングを行う機能を備える。

ここで、逐次クラスタリング部103は、クラスタ個数が未知のデータに対し、チャンク毎に逐次所属するクラスタを確率的に算出することによって、逐次クラスタリングを行う。すなわち、逐次クラスタリング部103は、現時刻tのチャンクのデータｄ_ｔが、時刻t以前に既出のクラスタ若しくは新たなクラスタに属する確率を、式（1）を用いて算出する。

Ｐ（ｃ｜ｄ_ｔ，ｄ_１ ^ｔ−１），ｃ∈｛１，２，．．．，Ｍ_ｔ｝式（1）

ここで、式（1）において、ｄ_１ ^ｔ−１は時刻t-1までのチャンクデータ集合であり、Ｍ_ｔは時刻tまでに出現したクラスタ総数である。

クラスタ情報記憶部107は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置によって実現される。クラスタ情報記憶部107は、逐次クラスタリング部103が式（１）を用いて算出した確率値をクラスタ情報として記憶する。

音声認識部105は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。音声認識部105は、後述するクラスタラベル判別部104が認識対象（クラスタラベルの判別対象）とした時間が連続するチャンク集合の音声データに対して、音声認識を行って、音声認識結果及び音声認識の信頼度を算出する機能を備える。また、音声認識部105は、音声認識結果及び信頼度の算出結果に基づいて、チャンク毎にラベル集合Λに含まれるラベルを求めて出力する。

ここで、音声認識部105は、例えば、大語彙音声認識システムや、音節又は音素認識システムを用いて、音声認識を行えばよい。この場合、音声認識部105は、各チャンクに対応する時刻区間において、例えば、音声認識結果に基づいて、音声発話区間とみなされるか、無音あるいは雑音区間とみなされるかにより、各チャンクのデータを音声及び非音声に分類する。また、音声認識部105は、その区間の音声認識の信頼度が、事前に指定した閾値と比較して高いか低いかを分類する。そして、音声認識部105は、例えば、図2の表に示すルールに従って、音声区間と判断されることを示すラベルS、非音声区間と判断されることを示すラベルN、又は判断が困難な区間ラベルXSあるいはXNのいずれに該当するかを判定し、判定したラベルを出力する。

なお、ここで、ラベル集合Λが図2に示す4種類のラベルを含む場合を示したが（Λ＝｛S,N,XS,XN｝）、ラベル集合Λは、本実施形態で示したものに限らず、これに制約される必要はない。また、時刻sにおけるラベルをLsとする。なお、図2に示すようなラベルの判定ルールは、例えば、音声分類装置100を管理するシステム管理者等によって予め作成され、音声分類装置100の記憶部に記憶されているものとする。

クラスタラベル判別情報算出部106は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。クラスタラベル判別情報算出部106は、音声認識部105が出力した時刻sのチャンクのラベルと、クラスタ情報記憶部107に記憶された時刻sのクラスタ情報及び時刻s-1のクラスタラベル判別情報（すなわち、前回算出したクラスタラベル判別情報）とを用いて、時刻sのクラスタラベルを判別するためのクラスタラベル判別情報を、式（2）を用いて算出する機能を備える。また、クラスタラベル判別情報算出部106は、算出した時刻sのクラスタラベル判別情報をクラスタ情報記憶部107に記憶させる機能を備える。

なお、ラベルとは前述の通り、音声もしくは非音声といった音の種類を表す。また、クラスタラベル判別情報は、音声区間（チャンク）系列をクラスタリングした結果の各クラスタが、それぞれどのラベルに対応するかを判別するための情報である。本実施形態では、後述するクラスタラベル判別部104によって、新たに入力された音声区間（チャンク）が、逐次クラスタリング部103によってクラスタリングされ、その入力音声区間（チャンク）が属するクラスタに対応するラベルを、クラスタ情報記憶部107に記憶された情報を用いて判別することによって、その入力音声区間（チャンク）のラベルすなわち種類を判別する。

例えば、時刻s-1におけるクラスタラベル判別情報が式（3）で表されるものとする。

Ｉ（Ｌ，ｃ，ｓ−１），Ｌ∈Λ，ｃ∈｛１，２，．．．，Ｍ_ｓ−１｝式（3）

この場合、クラスタラベル判別情報算出部106は、式（2）を用いて、時刻sのクラスタラベル判別情報を算出する。ここで、時刻0におけるIの値を0として初期化して予めクラスタ情報記憶部107に記憶しておくことにより、クラスタラベル判別情報算出部106は、順次、式（2）を用いて任意の時刻にクラスタラベル判別情報を算出可能である。なお、時刻sのクラスタラベル判別情報をクラスタ情報記憶部107に記憶させた後、時刻s-1以前のクラスタ情報及びクラスタラベル判別情報をクラスタ情報記憶部107に保持しておく必要はない。

なお、クラスタラベル判別情報算出部106は、音声認識部105によって出力されたラベルと一致しないラベルに対する情報は、更新しない、すなわち今回処理している区間の1つ前の区間におけるクラスタラベル判別情報をそのまま継承する。

また、クラスタラベル判別情報算出部106は、音声認識部105によって出力されたラベルと一致するラベルに対しては、次の判別処理を行う。（1）クラスタラベル判別情報算出部106は、今回処理している区間の1つ前の区間において、既に存在しているクラスタについて、今回処理している区間の1つ前の区間におけるクラスタラベル判別情報と、逐次クラスタリング部103によって算出された確率値との和を、クラスタラベル判別情報として求める。（2）クラスタラベル判別情報算出部106は、今回処理している区間の1つ前の区間において存在していなかった新たなクラスタについて、逐次クラスタリング部103によって算出された確率値をクラスタラベル判別情報として求める。

クラスタラベル判別部104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。クラスタラベル判別部104は、逐次クラスタリング部103が算出したクラスタ情報と、クラスタ情報記憶部107に記憶されたクラスタラベル判別情報とを用いて、クラスタラベルの判別を行う機能を備える。

ここで、逐次クラスタリング部103によって式（1）を用いて時刻tのチャンクのクラスタ情報が得られた状況で、クラスタ情報記憶部107に式（2）を用いて求められた時刻sのクラスタラベル判別情報が記憶されているものとする。なお、一般に、音声認識に処理時間が必要であるため、s≦tである。このとき、クラスタラベル判別部104は、クラスタラベル判別結果を、式（4）を用いて、確率値として算出する。

ここで、式（4）において、下段に示した式は、s<tのときに、時刻s+1から時刻tまでの間に新たに出現したクラスタの判別結果が未定値となることを意味している。それら新たなクラスタに対応するラベルの情報が一度も得られていないためである。

また、クラスタラベル判別部104は、式（4）を用いて算出したラベルLが雑音ラベルとなる確率値が、予め指定した閾値より大きいと判断した場合には、雑音であると判定できる。そのため、音声認識部105は、雑音であると判定された音声データを音声認識対象から除外し、それ以外の音声データ（未定値の場合も含む）について音声認識対象として、音声認識処理を行う。

なお、クラスタラベル判別部104は、今回着目している区間（判別対象の区間）の分割された音声データに対して、逐次クラスタリング部103によって算出されたクラスタ情報と、クラスタ情報記憶部107に記憶されたクラスタラベル情報とを用いて、判別処理を行う。この場合、クラスタラベル判別部104は、クラスタラベル情報が算出されている区間において、算出されたクラスタ情報に存在していない新たなクラスタがあれば、クラスタラベル判別結果を未定値として求める。また、クラスタラベル判別部104は、新たなクラスタがなければ、クラスタラベル情報のその全ラベルに対する和を求めた値で乗算して正規化した値を、クラスタ情報の確率値を用いてクラスタに対して周辺化（marginalization：例えば、周辺分布を計算する処理）を行う。そして、クラスタラベル判別部104は、ラベル出現に対する期待値を求めて、今回着目する区間の分割されたデータのラベル判別結果として算出する。

ラベル判別結果出力部108は、具体的には、プログラムに従って動作する情報処理装置のCPU、及びディスプレイ装置等の出力装置によって実現される。ラベル判別結果出力部108は、逐次クラスタリング部103が算出したクラスタ情報と、クラスタラベル判別部104が算出したクラスタラベル判別結果とを出力する機能を備える。例えば、ラベル判別結果出力部108は、クラスタ情報及びクラスタラベル判別結果を、ディスプレイ装置等の表示装置に表示する。なお、ラベル判別結果出力部108の出力方法は、本実施形態に示したものに限らず、例えば、ラベル判別結果出力部108は、クラスタ情報及びクラスタラベル判別結果を含むファイルをファイル出力してもよい。

なお、本実施形態において、音声分類装置100の記憶装置は、音声データを分類するための各種プログラムを記憶している。例えば、音声分類装置100の記憶装置は、コンピュータに、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング処理と、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出するクラスタラベル判別情報算出処理と、算出したクラスタ情報と、算出したクラスタラベル判別情報とを用いて、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するクラスタラベル判別処理とを実行させるための音声分類用プログラムを記憶している。

次に、動作について説明する。図3は、音声分類装置100が行う音声分類処理の一例を示す流れ図である。ユーザは、例えば、講演会や会議等の音声の分類を行いたい場合、音声分類装置100を用いて音声データの入力操作を行う。すると、音声分類装置100の音声信号入力部101は、ユーザの操作に従って、音声データの入力を開始し（ステップS10）、音声分類処理が開始される。

次いで、音声信号分割部102は、音声信号入力部101が入力した音声データをチャンクに分割する（ステップS11）。次いで、逐次クラスタリング部103は、音声信号分割部102がチャンク単位に分割した音声データに対して逐次クラスタリングを行う（ステップS12）。そして、逐次クラスタリング部103は、クラスタリング処理で式（1）を用いて算出した確率値をクラスタ情報としてクラスタ情報記憶部107に記憶させる。

次いで、音声認識部105は、クラスタラベル判別部104が認識対象とした時間が連続するチャンク集合の音声データに対して音声認識を行い、音声認識結果を算出するとともに、その音声認識の信頼度を算出する（ステップS13）。なお、音声データを最初に入力して音声分類処理を開始した段階では、まだクラスタラベル判別部104による判別処理が行われていない。この場合には、例えば、音声認識部105は、入力した音声データのうち、予め定めたデフォルトの長さ分のチャンク集合の音声データに対して音声認識を行い、音声認識結果及び信頼度を算出すればよい。また、音声認識部105は、算出した音声認識結果及び信頼度に基づいて、図2に示すルールに従って、チャンクのラベルを判定して出力する。

次いで、クラスタラベル判別情報算出部106は、音声認識部105が出力した時刻sのチャンクのラベルと、クラスタ情報記憶部107が記憶する時刻sのクラスタ情報及び時刻s-1のクラスタラベル判別情報（すなわち、前回算出したクラスタラベル判別情報）とを用いて、時刻sのクラスタラベル判別情報を算出する（ステップS14）。そして、クラスタラベル判別情報算出部106は、算出した時刻sのクラスタラベル判別情報をクラスタ情報記憶部107に記憶させる。

また、クラスタラベル判別部104は、逐次クラスタリング部103が算出したクラスタ情報と、クラスタ情報記憶部107が記憶するクラスタラベル判別情報とを用いて、クラスタラベルの判別を行う（ステップS15）。なお、このときクラスタラベル判別部104がクラスタラベルの判別対象（認識対象）とした時間が連続するチャンク集合の音声データが、音声認識部105が音声認識を次回行うときの対象データとなる。

そして、ラベル判別結果出力部108は、逐次クラスタリング部103が算出したクラスタ情報と、クラスタラベル判別部104が算出したクラスタ判別結果とを出力する（ステップS16）。例えば、ラベル判別結果出力部108は、クラスタ情報及びクラスタラベル判別結果を、ディスプレイ装置等の表示装置に表示する。なお、ラベル判別結果出力部108は、例えば、クラスタラベル判別部104がクラスタラベル判別結果を算出する毎に、クラスタ情報及びクラスタラベル判別結果を逐次出力してもよい。また、ラベル判別結果出力部108は、例えば、入力した音声データの全区間についてクラスタラベル判別結果を算出してから、全てのクラスタ情報及びクラスタラベル判別結果をまとめて出力してもよい。

なお、ここでステップＳ１３ならびにステップＳ１４の処理と、ステップＳ１５ならびにステップＳ１６の処理は同期する必要はなく、待ち合わせることなく、それぞれ独自に処理を進めて構わない。

以上に説明したように、本実施形態によれば、未知の種類の雑音を含む場合等、事前に分類個数が分からない場合においても、分割された音声データを逐次的にクラスタに分類し、さらに発話区間かあるいは雑音区間かといったクラスタラベルの判別確率を算出する。従って、分類の個数を事前に指定しなくても、音声を分類することができ、得られた分類結果の音声の種類を判別することができる。

なお、本実施形態において、クラスタラベル判別結果が式（4）の下段に示した式の条件に合致する場合には未定値となってしまう。しかし、この場合においても、その区間のみにおいては、時刻s=tにおける音声認識部105が判定するラベルが得られ次第、クラスタラベル判別結果を再度算出することにより、判別結果を確定させることが可能であり、音声データ全体を用いる必要はない。

また、本実施形態によれば、咳や拍手等の音声データ中に断続的に出現するノイズに対して、ある程度データが蓄積されると、ノイズのクラスタが構成されて、そのクラスタに関してはラベルNと判定される確率が高くなり、高性能にノイズを分類して除去することができる。

さらに、本実施形態によれば、逐次クラスタリング及びクラスタラベル判別を行う時刻tと、音声認識結果に基づきラベルを求めクラスタラベル判別情報を算出する時刻sとが同じ時刻になるように一致させる必要はない。そのため、音声認識処理の結果を待つ必要はなく、逐次的にクラスタラベル判別結果を得ることができる。

実施形態２．
次に、本発明の第2の実施形態について図面を参照して説明する。なお、本実施形態に示す音声分類装置は、第1の実施形態で示した音声分類装置100をより具体的な例を用いて示したものに相当する。

本実施形態では、音声信号入力部101は、例えば、MFCC（Mel-Frequency Cepstrum Coefficient）系列等の音声特徴量時系列データを入力する。また、音声信号分割部102は、例えば、MFCCの時系列の各フレーム毎あるいは100ms分といった一定量のフレーム単位に、音声信号入力部101が入力した音声特徴量時系列データの分割を行う。

逐次クラスタリング部103は、例えば、各クラスタのデータが正規分布に従って出現しているものとして、一般化した尤度比を用いてクラスタリングする手法を用いた処理を逐次実行することによって、逐次クラスタリングを行う。なお、各クラスタのデータが正規分布に従って出現しているものとしてクラスタリングを行う技術は、例えば、文献A（D. Liu and F. Kubala, “Online Speaker Clustering”, Proc. ICASSP 2004, vol. 1, pp333-336, 2004.）に記載されている。

また、逐次クラスタリング部103は、例えば、エルゴディックHMM（Hidden Markov Model）をインクリメンタル学習する方法を用いて逐次クラスタリングを行ってもよい。なお、エルゴディックHMMをインクリメンタル学習する方法は、例えば、文献B（T. Koshinaka, K. Nagatomo and K. Shinoda, “Online Speaker Clustering Using Incremental Learning Of An Ergodic Hidden Markov Model”, Proc. ICASSP 2009, pp.4093-4096, 2009.）に記載されている。

また、逐次クラスタリング部103は、例えば、ディリクレ過程混合モデルを粒子フィルタ法で学習する方法を用いて逐次クラスタリングを行ってもよい。なお、ディリクレ過程混合モデルを粒子フィルタ法で学習する方法は、例えば、文献C（P. Fearnhead, “Particle Filters for Mixture Models with an Unknown Number of Components”, Statistics and Computing, vol 14, pp.11-21, 2004. ）に記載されている。

例えば、逐次クラスタリングとして、各時刻のチャンクが1つのクラスタのみ確率1で分類される決定的な方法を用いる場合を考える。また、入力された音声データは、図4の具体例で示す音声データ301のように、「無音→拍手→発話→拍手・・・」という態様で音声状態が続くものとする。この場合、時刻tまで逐次クラスタリング部103によってクラスタリングされたクラスタリング結果は、図4に示すクラスタリング結果302のようになる。また、時刻sまで音声認識部105によって判定されたラベル情報は、図4に示すラベル列303のようになる。

また、この場合、クラスタラベル判別情報I(L,c,s)は、クラスタラベル判別情報算出部106によって式（2）を用いて、図4に示すクラスタラベル判別情報304のようになる。また、この場合、時刻tにおけるチャンクのクラスタ情報はc=2であり、クラスタラベル判別部104は、式（4）を用いてクラスタラベル判別結果を、図4に示す判別結果305のように算出し、雑音区間であると判定することができる。

次に、本発明による音声分類装置の最小構成について説明する。図5は、音声分類装置の最小の構成例を示すブロック図である。図5に示すように、音声分類装置100は、最小の構成要素として、逐次クラスタリング部103、クラスタラベル判別情報算出部106、及びクラスタラベル判別部104を含む。

図5に示す最小構成の音声分類装置100において、逐次クラスタリング部103は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する機能を備える。また、クラスタラベル判別情報算出部106は、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出する機能を備える。また、クラスタラベル判別部104は、逐次クラスタリング部103が算出したクラスタ情報と、クラスタラベル判別情報算出部106が算出したクラスタラベル判別情報とを用いて、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別する機能を備える。

図5に示す最小構成の音声分類装置100によれば、分類の個数を事前に指定しなくても、音声を分類することができ、得られた分類結果の音声の種類を判別することができる。

なお、上記に示した各実施形態では、以下の(1)〜(5)に示すような音声分類装置の特徴的構成が示されている。

(1) 音声分類装置は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング手段（例えば、逐次クラスタリング部103によって実現される）と、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出するクラスタラベル判別情報算出手段（例えば、クラスタラベル判別情報算出部106によって実現される）と、逐次クラスタリング手段が算出したクラスタ情報と、クラスタラベル判別情報算出手段が算出したクラスタラベル判別情報とを用いて、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するクラスタラベル判別手段（例えば、クラスタラベル判別部104によって実現される）と、を備えたことを特徴とする。

(2) 音声分類装置の他の態様は、複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング手段（例えば、逐次クラスタリング部103によって実現される）と、逐次クラスタリング手段が算出したクラスタ情報を記憶するクラスタ情報記憶手段（例えば、クラスタ情報記憶部107によって実現される）と、音声データに対して音声認識を行い、音声認識結果に基づいて、音声データの音声区間に対応するラベルを算出する音声認識手段（例えば、音声認識部105によって実現される）と、音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出して、算出したクラスタラベル判別情報をクラスタ情報記憶手段に記憶させるクラスタラベル判別情報算出手段（例えば、クラスタラベル判別情報算出部106によって実現される）と、を備え、クラスタラベル判別情報算出手段は、クラスタ情報記憶手段が記憶するクラスタ情報と、今回判別対象とする音声区間以前の音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報と、音声認識手段が算出したラベルとを用いて、今回判別対象とする音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報を算出し、逐次クラスタリング手段が算出したクラスタ情報と、クラスタ情報記憶手段が記憶するクラスタラベル判別情報とを用いて、今回判別対象とする音声区間のクラスタがいずれのクラスタラベルに対応するかを判別するクラスタラベル判別手段（例えば、クラスタラベル判別部104によって実現される）をさらに備えたことを特徴とする。

(3) 音声分類装置において、逐次クラスタリング手段は、各クラスタに属する確率値をクラスタ情報として算出し、クラスタラベル判別情報算出手段は、音声認識手段が算出したラベルと一致するラベルに対しては、今回判別対象とする音声区間の１つ前の音声区間において、既に存在しているクラスタについて、今回判別対象とする音声区間の１つ前の音声区間におけるクラスタラベル判別情報と、逐次クラスタリング手段が算出した確率値との和を、クラスタラベル判別情報として算出し、今回判別対象とする音声区間の１つ前の音声区間において存在していなかった新たなクラスタについて、逐次クラスタリング手段が算出した確率値をクラスタラベル判別情報として算出するように構成されていてもよい。

(4) 音声分類装置において、クラスタラベル判別情報算出手段は、音声認識手段が算出したラベルと一致しないラベルに対しては、今回判別対象とする音声区間の１つ前の音声区間におけるクラスタラベル判別情報と同じクラスタラベル判別情報を算出するように構成されていてもよい。

(5) 音声分類装置において、クラスタラベル判別手段は、逐次クラスタリング手段によって今回判別対象とする音声区間に対して算出されたクラスタ情報と、クラスタ情報記憶手段が記憶するクラスタラベル判別情報とを用いて、クラスタ情報にクラスタラベル情報に示されていない新たなクラスタがある場合には、クラスタラベル判別結果を未定値として求め、新たなクラスタがない場合には、クラスタラベル判別情報を、当該クラスタラベル判別情報に示される全ラベルに対する和を求めた値で乗算して正規化した値を、クラスタ情報としての確率値を用いて周辺化を行い、ラベル出現に対する期待値を求めて、今回判別対象とする音声区間のラベル判別結果として算出するように構成されていてもよい。

本発明は、音声認識や話者分類を行うための雑音区間除去装置といった用途に適用できる。

100 音声分類装置
101 音声信号入力部
102 音声信号分離部
103 逐次クラスタリング部
104 クラスタラベル判別部
105 音声認識部
106 クラスタラベル判別情報算出部
107 クラスタ情報記憶部
108 ラベル判別結果出力部

Claims

複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング手段と、
前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出するクラスタラベル判別情報算出手段と、
前記逐次クラスタリング手段が算出した前記クラスタ情報と、前記クラスタラベル判別情報算出手段が算出した前記クラスタラベル判別情報とを用いて、前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するクラスタラベル判別手段と、を備えた
ことを特徴とする音声分類装置。
複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング手段と、
前記逐次クラスタリング手段が算出した前記クラスタ情報を記憶するクラスタ情報記憶手段と、
前記音声データに対して音声認識を行い、音声認識結果に基づいて、前記音声データの音声区間に対応するラベルを算出する音声認識手段と、
前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出して、算出した前記クラスタラベル判別情報を前記クラスタ情報記憶手段に記憶させるクラスタラベル判別情報算出手段と、を備え、
前記クラスタラベル判別情報算出手段は、前記クラスタ情報記憶手段が記憶する前記クラスタ情報と、今回判別対象とする音声区間以前の音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報と、前記音声認識手段が算出したラベルとを用いて、今回判別対象とする音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報を算出し、
前記逐次クラスタリング手段が算出した前記クラスタ情報と、前記クラスタ情報記憶手段が記憶する前記クラスタラベル判別情報とを用いて、今回判別対象とする音声区間のクラスタがいずれのクラスタラベルに対応するかを判別するクラスタラベル判別手段をさらに備えた
ことを特徴とする音声分類装置。
前記逐次クラスタリング手段は、各クラスタに属する確率値をクラスタ情報として算出し、
前記クラスタラベル判別情報算出手段は、前記音声認識手段が算出したラベルと一致するラベルに対しては、今回判別対象とする音声区間の１つ前の音声区間において、既に存在しているクラスタについて、今回判別対象とする音声区間の１つ前の音声区間におけるクラスタラベル判別情報と、前記逐次クラスタリング手段が算出した確率値との和を、クラスタラベル判別情報として算出し、今回判別対象とする音声区間の１つ前の音声区間において存在していなかった新たなクラスタについて、前記逐次クラスタリング手段が算出した確率値をクラスタラベル判別情報として算出する
請求項２記載の音声分類装置。
前記クラスタラベル判別情報算出手段は、前記音声認識手段が算出したラベルと一致しないラベルに対しては、今回判別対象とする音声区間の１つ前の音声区間におけるクラスタラベル判別情報と同じクラスタラベル判別情報を算出する
請求項３記載の音声分類装置。
前記クラスタラベル判別手段は、前記逐次クラスタリング手段によって今回判別対象とする音声区間に対して算出されたクラスタ情報と、前記クラスタ情報記憶手段が記憶するクラスタラベル判別情報とを用いて、前記クラスタ情報に前記クラスタラベル情報に示されていない新たなクラスタがある場合には、クラスタラベル判別結果を未定値として求め、新たなクラスタがない場合には、前記クラスタラベル判別情報を、当該クラスタラベル判別情報に示される全ラベルに対する和を求めた値で乗算して正規化した値を、前記クラスタ情報としての確率値を用いて周辺化を行い、ラベル出現に対する期待値を求めて、今回判別対象とする音声区間のラベル判別結果として算出する
請求項３又は請求項４記載の音声分類装置。
複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出し、
前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出し、
算出した前記クラスタ情報と、算出した前記クラスタラベル判別情報とを用いて、前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別する
ことを特徴とする音声分類方法。
複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出し、
算出した前記クラスタ情報をクラスタ情報記憶手段に記憶させ、
前記音声データに対して音声認識を行い、音声認識結果に基づいて、前記音声データの音声区間に対応するラベルを算出し、
前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出して、算出した前記クラスタラベル判別情報を前記クラスタ情報記憶手段に記憶させ、
前記クラスタラベル判別情報を算出するときに、前記クラスタ情報記憶手段が記憶する前記クラスタ情報と、今回判別対象とする音声区間以前の音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報と、算出したラベルとを用いて、今回判別対象とする音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報を算出し、
算出した前記クラスタ情報と、前記クラスタ情報記憶手段が記憶する前記クラスタラベル判別情報とを用いて、今回判別対象とする音声区間のクラスタがいずれのクラスタラベルに対応するかを判別する
ことを特徴とする音声分類方法。
コンピュータに、
複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング処理と、
前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出するクラスタラベル判別情報算出処理と、
算出した前記クラスタ情報と、算出した前記クラスタラベル判別情報とを用いて、前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するクラスタラベル判別処理と
を実行させるための音声分類用プログラム。
コンピュータに、
複数の音声区間に分割された音声データを逐次的にクラスタリングして、クラスタリング結果をクラスタ情報として算出する逐次クラスタリング処理と、
算出した前記クラスタ情報をクラスタ情報記憶手段に記憶させるクラスタ情報記憶処理と、
前記音声データに対して音声認識を行い、音声認識結果に基づいて、前記音声データの音声区間に対応するラベルを算出する音声認識処理と、
前記音声データ中の音声区間がいずれのクラスタラベルに対応するかを判別するための情報であるクラスタラベル判別情報を算出して、算出した前記クラスタラベル判別情報を前記クラスタ情報記憶手段に記憶させるクラスタラベル判別情報算出処理と、を実行させ、
前記クラスタラベル判別情報算出処理において、前記クラスタ情報記憶手段が記憶する前記クラスタ情報と、今回判別対象とする音声区間以前の音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報と、前記音声認識処理で算出したラベルとを用いて、今回判別対象とする音声区間がいずれのクラスタラベルに対応するかを判別するために用いるクラスタラベル判別情報を算出する処理を実行させ、
算出した前記クラスタ情報と、前記クラスタ情報記憶手段が記憶する前記クラスタラベル判別情報とを用いて、今回判別対象とする音声区間のクラスタがいずれのクラスタラベルに対応するかを判別するクラスタラベル判別処理をさらに実行させる
ための音声分類用プログラム。