JP6171544B2

JP6171544B2 - 音声処理装置、音声処理方法及びプログラム

Info

Publication number: JP6171544B2
Application number: JP2013098683A
Authority: JP
Inventors: 井手　博康; 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2013-05-08
Filing date: 2013-05-08
Publication date: 2017-08-02
Anticipated expiration: 2033-05-08
Also published as: CN104143332B; CN104143332A; US10037759B2; US20140337027A1; JP2014219557A

Description

本発明は、音声処理装置、音声処理方法及びプログラムに関する。

ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）レコーダをはじめとする小型録音機器の普及により、会議や座談会といった、不規則に入れ替わる複数の話者の音声を録音する機会が増えている。録音した音声データを効率的に利用するため、音声データにおいて何時、誰が発話したか特定する技術が開発されている（例えば、特許文献１など）。この技術は、話者特定（ＳｐｅａｋｅｒＤｉａｒｉｚａｔｉｏｎ）と呼ばれている。

特許文献１が開示する技術では、録音データの音声区間の特徴量と予め記録した話者の音声の特徴量とを比較して、話者を特定する。

特開２００４−１４５１６１号公報

特許文献１の技術では、話者を特定するために、予め対象となる話者の音声特徴量を記録しておかなければならない。すなわち、登録されていない未知の話者を処理対象にできなかった。

本発明は、上記問題に鑑みてなされたものであって、事前に話者を登録することなく、話者特定を容易に実行する音声処理装置、音声処理方法、及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明の音声処理装置は、
音声データに含まれる母音区間の特徴量を取得する取得手段と、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
を備えることを特徴とする。

本発明によれば、事前に話者を登録することなく、話者特定を容易に実行できる。

この発明の実施形態１に係る音声処理装置の機能構成を示すブロック図である。音声処理装置の物理構成を示すブロック図である。（Ａ）は、音声データにおける音素認識の処理を説明するための図である。（Ｂ）は、特徴量テーブルの例を示す図である。（Ａ）は、特徴量のクラスタリング処理の概念図である。（Ｂ）は、クラスタリングテーブルの例を示す図である。（Ａ）は、頻度をカウントする処理を説明するための図である。（Ｂ）は、頻度テーブル及びペアスコアテーブルの例を示す図である。（Ａ）は、組合せスコアの算出方法を説明するための図である。（Ｂ）は、組合せスコアテーブルの例を示す図である。決定組合せテーブルの例を示す図である。（Ａ）は、仮話者番号を付与する処理を説明するための図である。（Ｂ）は、仮話者テーブルの例を示す図である。（Ａ）確定話者番号を決定する処理を説明するための図である。（Ｂ）は、確定話者テーブルの例を示す図である。話者情報出力処理の一例を示すフローチャートである。ダイアライゼーション処理の一例を示すフローチャートである。ペアスコア決定処理の一例を示すフローチャートである。組合せ決定処理の一例を示すフローチャートである。区分処理の一例を示すフローチャートである。変形例に係る頻度をカウントする処理を説明するための図である。

以下、本発明を実施するための形態に係る音声処理装置を、図を参照して説明する。なお、図中同一又は相当する部分には同一符号を付す。

（実施形態１）
実施形態１に係る音声処理装置１は、ｉ）音声をマイクを用いて録音する録音機能、ｉｉ）録音した音声データから音声区間の特徴量を抽出する特徴量抽出機能、ｉｉｉ）抽出した特徴量に基づいて音声区間を話者別に区分けする区分機能、ｉｖ)区分結果を出力する出力機能、等を備える。

音声処理装置１は図１に示すようにマイク１０と、情報処理部２０と、表示部３０と、出力部４０と、入力部５０と、操作部６０と、を備える。

マイク１０は、音波を電気信号に変換する変換部と、変換した電気信号を情報処理部２０に伝達する伝達部を有するマイクロフォンである。マイク１０はこのような物理構成により複数の話者が発した音声を電気信号に変換して情報処理部２０伝達する。以下、マイク１０が「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の５つの母音を含む日本語を用いた複数話者の会話を録音した場合を例にとって説明する。

情報処理部２０は、物理的には、図２に示すようにＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２と、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）２３と、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）部２４と、外部記憶装置２５と、内部バス２６と、から構成される。

ＣＰＵ２１は、音声処理装置１の諸機能を制御する中央演算装置であり、ＲＯＭ２３からＲＡＭ２２にロードされたプログラムを実行して、後述する処理を実行する。

ＲＡＭ２２は、ＣＰＵ２１が実行するプログラムや中間データを一時的に保存し、ＣＰＵ２１が各種処理を行う際の作業領域として使用する揮発性メモリである。
ＲＯＭ２３は、ＣＰＵ２１が実行するプログラムを格納している不揮発性メモリである。

Ｉ／Ｏ部２４は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やシリアルポート、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）アダプタ等のインターフェース機器から構成され、情報処理部２０に接続された表示部３０、操作部６０やその他外部装置等との情報の入出力を実現する。Ｉ／Ｏ部２４は、図１の入力部５０や出力部４０として機能する。

外部記憶装置２５は、ハードディスクドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等の不揮発性記憶装置であり、音響モデル等の後述する処理に用いるデータを記憶している。
なお、ＣＰＵ２１と、ＲＡＭ２２と、ＲＯＭ２３と、Ｉ／Ｏ部２４と、外部記憶装置２５とは内部バス２６によってそれぞれ接続され、相互に情報の送信が可能である。

情報処理部２０は、上記物理構成により音声データ記憶部２１０と、特徴量抽出部２２０と、特徴量分類部２３０と、ペアスコア決定部２４１０及び組合せスコア決定部２４２０を含む組合せ決定部２４０と、区分部２５０と、として機能する。情報処理部２０の詳細については後述する。

表示部３０は、液晶ディスプレイ等から構成され、情報処理部２０から伝達された情報を表示する。

出力部４０は、情報処理部２０から音声データや、後述する話者特定結果を示す情報といった出力データを受け取り、外部装置に出力する。

入力部５０は、外部装置から音声データや特徴量データといった入力データを受け取り、情報処理部２０に伝達する。後述する母音区間の特徴量を入力データとして受け取る場合は、入力部５０は特徴量を取得する取得手段として機能する。

操作部６０は、タッチパネル、キーボード、ボタン、ポインティングデバイス等の、ユーザの操作を受付ける操作受付装置と、操作受付装置が受け付けた操作の情報を情報処理部２０に伝達する伝達部と、から構成される。操作部６０はこのような物理構成によりユーザの操作を受け付けて、操作情報を情報処理部２０に伝達する。

次に、情報処理部２０の機能について説明する。情報処理部２０は、図１にしめすように、機能単位として音声データ記憶部２１０と、特徴量抽出部２２０と、特徴量分類部２３０と、ペアスコア決定部２４１０及び組合せスコア決定部２４２０を含む組合せ決定部２４０と、区分部２５０と、を含む。
音声データ記憶部２１０は、マイク１０から伝達された信号（音声信号）を音声データとして記録する。又は、入力部５０が外部機器から受け取った音声データを記録する。音声データ記憶部２１０は、記録した処理対象となる音声データを特徴量抽出部２２０に伝達する。

特徴量抽出部２２０は、音声データ記憶部２１０から伝達された音声データに含まれる母音区間の特徴量を取得する。母音区間の特徴量を取得するため、まず特徴量抽出部２２０は音声データに対して音素認識を実行する。具体的には、音声データのうち音量（パワー）が所定の閾値を越える部分を音声区間と推定して、音響特徴量を抽出する。そして、音響モデルに含まれる各音素の特徴量と比較して、最も類似している音素をその音声区間の音素として決定する（図３（Ａ））。このとき、最も類似している音素との類似度が所定の閾値よりも低い場合は、非音声区間として処理対象から排除してもよい。

例えば、個人差・性差を超えて音素を決定できるように、多数の話者の音声に基づいて作成された一般的な音響モデルを、予めＲＯＭ２３又は外部記憶装置２５に記録しておく。この音響モデルは話者の用いる言語（ここでは日本語）に含まれる各母音及び子音の特徴量をそれぞれ含む。

ここでは簡単のために、音声データの話者は全員が音声処理装置１が記憶する一つの音響モデルに対応する言語を発話したとする。一つの音声処理装置１で複数の言語を処理可能とするためには、複数の言語にそれぞれ対応する複数の音響モデルを用意し、ユーザの設定操作に基づいて最適な音響モデルを選択すれば良い。また、話者の性別・年齢毎に応じた音声モデルを選択可能としてもよい。

特徴量抽出部２２０は、音声認識の結果特定された母音の音声区間（母音区間）の特徴量を抽出する。ここでは、特徴量として１６次元のＩＳＰｓ（ＩｍｍｉｔｔａｎｃｅＳｐｅｃｔｒａｌＰａｉｒｓ）を抽出する。そして抽出した母音区間の特徴量と、時間情報と、母音の種別と、を関連付けた情報（図３（Ｂ）参照）を特徴量分類部２３０に伝達する。特徴量抽出部２２０は、音声データに含まれる母音区間の特徴量を取得するので、取得手段とも言う。

なお、ここでは複数の母音区間で話者個人の特徴が保たれる程度が高いことを重視してＩＳＰｓを特量として採用した。しかし、本発明ではこれに限らず、ＬＳＰｓ（ＬｉｎｅＳｐｅｃｔｒａｌＰａｉｒｓ）やＭＦＣＣｓ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）など任意の特徴量を採用してもよい。

例えば、図３（Ａ）に示したように、音声データにおける時刻ｔ１〜ｔ２（母音区間ＶＩ１）に母音「ａ」が、時刻ｔ３〜ｔ４（母音区間ＶＩ２）に母音「ｉ」が、それぞれ録音されていたとする。この場合、特徴量抽出部２２０は、母音区間毎に、母音を特定する情報（例えば、母音区間ＶＩ１について「ａ」）と、音声区間の情報（ＶＩ１、ＶＩ２…）と、その音声区間の特徴量と、を特定する。母音区間の情報は、その音声区間のタイミングを示す情報（例えば、ＶＩ１ついて開始時刻ｔ１と終了時刻ｔ２）を含む。そして、特定した情報を特徴量テーブルＦＴ（図３（Ｂ））に対応付けて記憶する。音声データに現れる全母音の情報を特徴量テーブルに記録した後、特徴量抽出部２２０は生成した特徴量テーブルＦＴを特徴量分類部２３０に伝達する。

特徴量分類部２３０は、取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する。なお、特徴量分類部２３０は入力部５０を介して外部装置から母音区間の特徴量を取得してもよい。
具体的には、まず特徴量抽出部２２０から伝達された特徴量テーブルに含まれる特徴量を、母音別（日本語であれば「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の五種類）に分割する。そして、分割した特徴量テーブル毎に、クラスタリングを実行して、特徴空間上で特徴量を既知の話者人数のクラスタに分割する。クラスタリングは、予め正解となる教師データを用いない教師無し学習（ＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ）によって、特徴量を話者の人数分のクラスタに分類する（教師なし分類：ＵｎｓｕｐｅｒｖｉｓｅｄＣｌａｓｓｉｆｉｃａｔｉｏｎ）処理である。
本実施の形態では、話者の人数は予めユーザが操作部６０を用いて入力するものとする。入力された話者数は設定情報としてＲＡＭ２２に記憶される。

図４（Ａ）は、特徴量分類部２３０が実行するクラスタリングの概念図である。図４（Ａ）では、２次元の特徴量空間ＦＰ上で、黒いドットで示された特徴量の配置に応じてクラスタリングを行い、点線で区切られた３つのクラスタに特徴量を分類した結果を示している。このとき、特徴量空間ＦＰの座標軸は、特徴量のパラメータに対応する。あるいは、主成分分析により次元削減をする場合には、各座標軸がそれぞれ主成分スコアに対応する空間に座標変換を行ったうえで特徴量をクラスタリングする。この場合には、ｎ次元の特徴量空間ＦＰの座標軸は、それぞれ第１〜第ｎ主成分スコアの何れかに対応する。

本実施の形態では、母音毎に集めた特徴量をＬＢＧ（Ｌｉｎｄｅ−Ｂｕｚｏ−Ｇｒａｙ）法によりベクトル量子化して、ＶＱ（ＶｅｃｔｏｒＱｕａｎｔｉｓａｔｉｏｎ）テーブルを作成することによりクラスタリングを行う。ＶＱテーブルはコードブックとも呼ばれる。
作成したＶＱテーブルは、特徴空間における各話者の母音特徴量の代表ベクトルを含む。各母音区間の特徴量は、ＶＱテーブルに含まれる代表値のうち、距離（例えばマハラノビス距離）が最も近い代表値に量子化される。すなわち、代表ベクトルをクラスタと考えれば、各特徴量は複数のクラスタの何れかに分類される。

なお、クラスタリングの方法はこれに限らない。例えば、ＬＢＧ法の変わりに、ＰＮＮ（ＰａｉｒｗｉｓｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）法によりＶＱテーブルを作成してもよい。あるいは、群平均法やウォード法といった階層的クラスタリングや、ＳＯＭ（Ｓｅｌｆ−ＯｒｇａｎｉｚｉｎｇＭａｐｓ）を用いたクラスリング方法など、教師無しでクラスタ分析するための既知の任意の方法で代用することが出来る。どの方法でクラスタリングしても、クラスタリング結果として得られるクラスタは、それぞれ処理対象となった母音の特徴量を、話者毎に分別したものとなる。理想的には、各クラスタに含まれる特徴量の母音区間は、すべて一人の話者が発したものとなる。そして、クラスタの代表値は、その話者の母音特徴量であるといえる。

全母音についてクラスタリングを終えると、特徴量分類部２３０はクラスタリング結果を組合せ決定部２４０に伝達する。例えば、母音「ａ」の特徴量を図４（Ａ）で模式的に示したように特徴量空間ＦＴ上で３つのクラスタＡ１〜Ａ３に分割した場合は、特徴量抽出部２２０は例えば図４（Ｂ）に示すようなクラスタテーブルＣＴを作成する。
クラスタテーブルＣＴは、母音の種別に応じて時系列順に割り当てられた「母音ＩＤ」（図４（Ｂ）ではａ１〜ａ３…）と、その母音が現れる音声データ上の区間「母音区間」（図４（Ｂ）ではＶＩ１、ＶＩｋ、ＶＩｊ…）と、その母音区間の特徴量が属するクラスタ（図４（Ｂ）ではＡ１〜Ａ３）と、が対応づけて記録されている。特徴量分類部２３０は、「ａ」〜「ｏ」の全母音についてクラスタリングを実行し、クラスタテーブルＣＴを作成する。そして、作成したクラスタテーブルＣＴを組合せ決定部２４０に伝達する。

このように、特徴量分類部２３０は、同一の母音に対応する特徴量を教師無し分類法で複数のクラスタに分類する処理を、話者が用いた言語に含まれる各母音について実行する。教師無し分類法を用いるため、登録されてない話者（音声の特徴量が未知の話者）についても分類の処理対象に出来る。また、予めユーザが入力した話者の数を用いてクラスタリングするため、話者数を推定する処理が省略できるため処理量が少なくなる。さらに、話者数の推定誤差によるクラスタリング精度の低下を防ぐことが出来る。特に、会話を録音したユーザにとっては会話に参加した人数（話者数）は既知である場合が多いので、話者数の設定するとしても、ユーザの負担は小さい。

また、特徴量分類部２３０は、クラスタリング処理を母音別に行う。即ち、クラスタリング対象を同一の音素（母音）の特徴量に限定出来るため、異なる特徴を持つ複数の音素について一括でクラスタリングする場合よりも、クラスタリングの精度が高くなる。つまり、クラスタリングによって生成されるクラスタに含まれる特徴量が、同一話者が発音した母音区間の特徴量である割合が高い。言い換えれば、分類によって生成したクラスタが同一の話者に対応する程度が高くなる。
また、話者個人の特徴が強く現れる母音の特徴量に絞ってクラスタリングを実行するため、処理対象となる特徴量を低減出来る。さらに、話者個人の特徴が現れない（現れる割合が小さい）環境音や子音の影響でクラスタリングの精度が低下することを防止することができる。

組合せ決定部２４０は、特徴量分類部２３０が分類したクラスタに含まれる特徴量の母音区間が出現する音声データにおけるタイミングに基づいて、分類したクラスタの組合せのうち同一の話者に対応する組合せ（対応組合せ）を決定する。

対応組合せとは、母音毎に一つずつクラスタを抽出した組合せのうち、全クラスタが同一の話者に対応する組合せである。
上述したクラスタリング処理の結果、各母音区間の特徴量は話者毎に別々のクラスタに分類される。しかしながら、母音毎にクラスタリングしているので、ある母音のあるクラスタの話者が、他の母音のどのクラスタに対応するか、その対応関係が明らかではない。そこで、本実施の形態では、組合せ決定部２４０が各話者に対応するクラスタの組合せを決定する。

組合せを決定するにあたっては、まずペアスコア決定部２４１０が、特徴量分類部２３０が異なる２つの母音（母音ペア）について分類したクラスタから一つずつ抽出したクラスタのペアについて、同一の話者に対応する程度を示すペアスコアを決定する。

本例のように特徴量分類部２３０が日本語に含まれる５つの母音についてそれぞれ特徴量をクラスタリングした場合には、母音ペアは、｛「ａ」,「ｉ」｝、｛「ａ」、「ｕ」｝、…、｛「ｅ」，「ｏ」｝といった、_５Ｃ_２＝１０とおり存在する。ペアスコア決定部２４１０は、特徴量分類部２３０が分類処理を行った母音から２つを抽出した母音ペアの、全組合せ（本例では１０とおり）について後述のペアスコアを求める処理を実行する。

一つの母音ペアは、特徴量分類部２３０が分類処理を実行した異なる２つの母音を含む。ペアスコア決定部２４１０は、その片方の母音について分類した結果のクラスタ集合と、もう一方の母音について分類した結果のクラスタ集合と、から一つずつ抽出したクラスタのペア（クラスタペア）について、ペアスコアを決定する。母音ペアが「ａ」と「ｉ」であり、それぞれ３つのクラスタに分類した場合には、「クラスタＡ１」と「クラスタＩ１」、「クラスタＡ１」と「クラスタＩ２」、…「クラスタＡ３」と「クラスタＩ３」の９つである（図５（Ｂ）参照）。母音数をＮ、クラスタ数（話者数）をＭとすると、合計で_ｎＣ_２×Ｍ×Ｍ（個）のクラスタペアが定義される。ペアスコア決定部２４１０は、この各クラスタペアについて後述する方法でペアスコアを求める。

本実施の形態では、ペアスコア決定部２４１０は、一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が音声データの部分区間に共に現れる頻度に基づいて、ペアスコアを決定する。ペアスコアの求め方の具体例を、図５を参照して説明する。ペアスコア決定部２４１０は音声データに対して、所定数の音素を含む部分区間を、１音素分ずつずらしながら定義する（図５（Ａ）のＰＩ１、ＰＩ２…）。そして、同一の部分区間で、クラスタペアに含まれる母音区間が共に出現する頻度をカウントする。なお、部分区間に含まれる音素の数は５〜１０の範囲から１つを選んで設定するのが適当である。

例えば、ある部分区間ＰＩｋで、クラスタペアの一方（例えばクラスタＡ１）に属する特徴量を持つ母音区間と他方（例えばクラスタＩ１）に属する特徴量を持つ母音区間が現れた場合、個数がいくつあってもＡ１とＩ１の共存回数は１回として頻度をカウントする。

あるいは、例えば１〜ｍ秒を部分区間ＰＩ１、ｍ＋１〜２ｍ秒を部分区間ＰＩ２，といったように時間で等分に区切って部分区間を定義した上で、次のようにカウントしてもよい。ある部分区間ＰＩｋで、クラスタペアの一方（例えばクラスタＡ１）に属する特徴量を持つ母音区間がａ個、他方（例えばクラスタＩ１）に属する特徴量を持つ母音区間がｂ個、それぞれ現れる場合を考える。この場合、両方の母音区間が共存している頻度は、（ａ＋ｂ）回、（ａ×ｂ）回、といったように複数の定義が可能である。そこで片方のクラスタペアから母音区間を一つずつ抽出した組合せの合計であるａ×ｂ／２回を部分区間ＰＩ１で共に出現している頻度とする。例えば、ａ＋ｂの値が１００と大きい場合でも、ａ＝９９、ｂ＝１といったように一方に偏っている場合には、両方のクラスタが同一人物に対応する程度は低いと考えられる。そこで、ａ×ｂ／２回とすることによって、同一人物に対応する程度をより反映した形で頻度を計測できる。

ペアスコア決定部２４１０は、各部分区間についてクラスタペアの母音区間が共存している頻度をカウントする。カウントした頻度は、例えば図５（Ｂ）のペア頻度テーブルＰＦＴのように示すことが出来る。図５（Ｂ）のペア頻度テーブルＰＦＴでは、母音ペア｛「ａ」，「ｉ」｝のクラスタペアのうち、｛Ａ２，Ｉ１｝が１０３９と最も共に出現する頻度が多い。頻度が多いペアほど、そのペアに含まれる２つのクラスタに含まれる母音区間が時間的に接近して現れる程度が高い。会話において話者が変化する頻度は新たな母音が発音される頻度よりもずっと低い。そのため、音声データにおいて接近して現れる母音区間の特徴量は、同一の話者の特徴量である蓋然性が高い。そこで、本実施の形態ではカウントした頻度が高いクラスタペアほど、同一の話者に対応する程度が高いとしてクラスタスコアを設定する。

本実施形態では、処理負担を減らすため、ペア頻度テーブルＰＦＴにおける頻度の順位を、そのままペアスコアとして扱う。具体的には、ペアスコア決定部２４１０は、図５（Ｂ）のようにペア頻度テーブルＰＦＴの各セルについて、頻度の値が大きい順に１から数値を振りなおして、ペアスコアテーブルＰＳＴに変換する。この場合、ペアスコアが低い方が同一の話者に対応する程度が高くなる。

なお、頻度からペアスコアを求める方法は、頻度が高いほど同一の話者に対応する程度が高くなる他の方法を用いて求めることが出来る。例えば、頻度の値をｆｔとしたときに、ペアスコアｐｓを下記の式（１）を用いて算出してもよい。
ｐｓ＝１／ｌｏｇ（ｆｔ）…（１）

また、ペアスコアが高いほど同一の話者に対応する程度が高い、とする構成も可能である。この場合、例えば下記の式（２）を用いてペアスコアを算出できる。
ｐｓ＝ｌｏｇ（ｆｔ）…（２）

組合せ決定部２４０は、ペアスコア決定部２４１０が求めたペアスコアに基づいて、全母音から一つずつ抽出したクラスタの組合せについて、同一話者に対応する程度を示すスコア（組合せスコア）を決定する。具体的には、組合せスコア決定部２４２０は、組合せ各母音のクラスタ集合から一つずつ抽出したクラスタの組合せの全てを、同一話者に対応する組合せの候補とする。そして、各候補について、後述する方法で組合せスコアを求める。その後、求めた組合せスコアが最も高い組合せを、同一話者に対応する対応組合せとして決定する。

組合せスコア決定部２４２０は、候補となる各組合せについて、組合せに含まれるクラスタペアを全て抽出する。例えば、現在処理対象となっている候補組合せが、図６（Ａ）に示す組合せＣ１（クラスタＡ１，クラスタＩ１，クラスタＵ１，クラスタＥ１及びクラスタＯ１を含む）である場合には、｛Ａ１、Ｉ１｝、｛Ａ１、Ｕ１｝、…、｛Ｅ１、Ｏ１｝の１０個のクラスタペアを抽出する。そして、抽出したクラスタペアのクラスタスコアを加算した値を、候補組合せの組合せスコアとする（図６（Ａ）参照）。

候補組合せは、母音の数をｎ、話者数をｍとすると、Ｎ＝ｍ＾ｎ個定義できる。例えば、母音の数ｎ＝５、話者数ｍ＝３の場合に、Ｎ＝３＾５＝２４３個の候補組合せが定義できる。組合せスコア決定部２４２０は、定義した候補組合せ（Ｃ１〜ＣＮ）のそれぞれについて、クラスタスコアを決定する。決定結果は、例えば図６（Ｂ）のような、組合せＩＤと、組合せに含まれるクラスタＩＤと、組合せスコアと、を対応付けた組合せスコアテーブルＣＳＴに記憶される。

本実施形態では、ペアスコアが小さいほどそのクラスタペアは同一の話者に対応する程度が高い。そのため、候補組み合わせのうち、含まれるクラスタペアのペアスコアが最も低い組合せが、最も同一の話者に対応する程度が高いといえる。そこで、本実施形態の組合せ決定部２４０は、図６（Ｂ）の組合せスコアテーブルＣＳＴのうち最も組合せスコアが小さいものを最初の対応組合せとして決定する。なお、ペアスコアが大きいほど同一の話者に対応する程度が高い場合には、組合せスコアが最も大きい組合せを、対応組合せとして決定すればよい。以下同様である。
次に、すでに決定した対応組合せに含まれるクラスタを含まない候補組合せのうち、最も組合せスコアが小さい組合せを、次の対応組合せとして決定する。このように、組合せ決定部２４０は話者数分の対応組合せを決定する。決定した各対応組合せは、それぞれ音声データｂの話者のいずれか一人について、全母音の特徴量に対応する組合せとなる。そのため、決定した各組合せについて、話者番号を振り分けることができる。組合せ決定部２４０による決定結果は、例えば図７にしめす決定組合せテーブルＤＣＴのように示すことが出来る。

区分部２５０は、組合せ決定部２４０が決定した各対応組合せのクラスタに含まれる特徴量の母音区間が、音声データに現れるタイミングに基づいて、音声データの音声区間を話者別に区分けする。

具体的には、区分部２５０は、まず各母音区間に対して、その特徴量が含むクラスタが何れの話者番号の対応組合せに属するかに応じて、仮話者番号を付与する。例えば、図８（Ａ）に示すように、母音区間ＶＩ１（母音ａ１）が、クラスタＡ１に含まれる場合には、クラスタＡ１が属する対応組合せの話者番号Ｐ３が仮話者番号として設定される。以下、音声データに含まれる各母音区間について、同様に仮話者番号を割り当てる。割り当てた結果は、例えば図８（Ｂ）に示したように、母音のＩＤと、母音区間を示す情報と、仮話者番号と、を対応付けた仮話者テーブルＰＴに記憶する。

仮話者番号は、クラスタリング結果を用いて、スムージングせずにそのまま話者特定を行った結果である。例えば特徴量分類部２３０が行ったクラスタリング結果に誤差があった場合、実際には話者が交換していなくてもその特徴量の箇所で話者が交換したと決定されてしまう。クラスタリング結果に全く誤差が無いことは期待できないので、このまままでは話者特定の結果の精度が低くなってしまう。

次に、区分部２５０は、各音声区間について割り当てた仮話者番号に基づいて、各音声区間(母音区間と子音区間）を、話者毎に区分する。例えば、区分部２５０は各母音区間について、その前後ｘ個の母音区間に割り振られた仮話者番号の最頻値を特定する。そして、特定した話者番号を、その音声区間の確定話者番号とする。

この処理を、図９（Ａ）を例にとって説明する。図９（Ａ）では、音声データ上に白抜き長方形で示した母音区間と、黒塗り長方形で示した子音区間と、の２種類の音声区間について話者特定を行っている。
例えば、図９（Ａ）にしめす母音区間ＶＩｋでは、前後４つの母音区間（母音区間ＶＩｋ−４〜ＶＩｋ＋４）に対して仮話者番号Ｐ１が５つ、ＰＩ２が２つ、ＰＩ３が１つ割り振られている。この場合、最頻値のＰ１が、母音区間ＶＩｋの確定話者番号となる。同様に、母音区間ＶＩｋ＋１については、前後４つの母音区間（母音区間ＶＩｋ−３〜ＶＩｋ＋５）の最頻値であるＰ１が確定話者番号となる。

このような処理により、最初に実行した話者特定の結果を、前後の母音区間の情報を用いてスムージングをすることができる。そのため、特徴量分類部２３０が行ったクラスタリング結果に多少の誤差があっても、前後の所定期間の情報に基づいて誤った話者交換点を補正ことができる。そのため、精度が高い話者特定を実現できる。

各母音区間について確定話者番号を割り振ると、区分部２５０は次に子音区間の話者特定を行う。本実施形態では、処理対象となる子音区間の前後の母音区間に対して決定された確定話者番号に基づいて、子音区間の確定話者番号を割り振る。例えば、図９（Ａ）（Ｂ）のＣＩｊのように、子音区間が、母音区間が同じ確定話者番号が割り振られた母音区間に囲まれている場合には、前後の母音区間と同じ話者番号を割りふる。もし、前後の母音区間について異なる確定話者番号が決定されている場合には、時間距離が近い母音区間について決定された確定話者番号を、その子音区間の確定話者番号として決定する。

区分部２５０は、確定話者番号を各音声区間に割り振ることで、話者特定を行う。話者特定の結果は、例えば図９（Ｂ）に示したように、音声区間を示す情報と、確定話者番号と、を対応付けた確定話者テーブルＤＳＴに記憶する。そして、確定話者テーブルＤＳＴを出力部４０が出力する。あるいは、表示部３０が話者確定テーブルＤＳＴを示す画面を表示する。

次に、音声処理装置１が実行する処理に付いて、フローチャートを参照して説明する。音声処理装置１は、ユーザがマイク１０を用いて音声を録音するか、入力部５０を用いて取り込むか、何れかの方法で音声データを音声データ記憶部２１０に記憶した後に、話者特定の実行を指示する操作を操作部６０を用いて実行した場合に、図１０に示す話者情報出力処理を開始する。

話者情報出力処理では、まず特徴量抽出部２２０が音声データ記憶部２１０に記憶された音声データを取得する（ステップＳ１０１）。そして、取得した音声データについて、音声区間を特定し、音素認識を実行する（ステップＳ１０２）。

次に、特徴量抽出部２２０は音素認識の結果特定された各母音区間について、１６次元のＩＳＰｓを抽出する（ステップＳ１０３）。抽出した特徴量（ＩＳＰｓ）は、特徴量テーブルＦＴに記憶される。

ステップＳ１０３が終わると、特徴量分類部２３０がダイアライゼーション処理を開始する(ステップＳ１０４）。

ステップＳ１０４で実行されるダイアライゼーション処理について、図１１を参照して説明する。ダイアライゼーション処理では、まず特徴量分類部２３０が話者の人数を取得する（ステップＳ２０１）。話者の人数は、ユーザが予め操作部６０を用いて入力し、ＲＡＭ２２に記憶されているものとする。

ステップＳ２０１が終わると、特徴量分類部２３０が、設定された言語に含まれる母音のうち、現在のループで処理対象となる注目母音を選択する（ステップＳ２０２）。

次に、特徴量分類部２３０は特徴量テーブルＦＴから、注目母音の特徴量を抽出する（ステップＳ２０３）。例えば、注目母音が「ａ」であるばあいに、特徴量テーブルＦＴから母音種別「ａ」の行だけを収集して、新たな特徴量テーブルを作成すればよい。新たな特徴量テーブルは、同一の母音に対応する特徴量だけが記憶されている。

次に、特徴量分類部２３０は抽出した注目母音の特徴量を、ステップＳ２０１で取得した数のクラスタに分類する（ステップＳ２０４）。クラスタリングは、ＬＢＧ法でＶＱテーブルを作成することにより実現する。

注目母音についてクラスタリングを終えると、次に特徴量分類部２３０は処理対象となる全ての母音についてクラスタリング処理を終了したか判別する（ステップＳ２０５）。未処理の母音がある場合には（ステップＳ２０５；Ｎｏ）、次の未処理の母音を注目母音として、ステップＳ２０２から処理を繰り返す。一方、全母音について処理済である場合には（ステップＳ２０５；Ｙｅｓ）、ペアスコア決定部２４１０がペアスコア決定処理を開始する（ステップＳ２０６）。

ステップＳ２０６で実行されるペアスコア決定処理について、図１２を参照して説明する。ペアスコア決定処理では、まずペアスコア決定部２４１０が音声データを、時間的に部分区間に分割する（ステップＳ３０１）。

次に、ペアスコア決定部２４１０は、特徴量分類部２３０がクラスタリングした全母音に対して定義可能な母音ペアの全てについて、ペア頻度テーブルＰＦＴのひな型を作成する（ステップＳ３０２）。例えば、日本語の母音５つについてクラスタリングした場合には、ＲＡＭ２２の所定領域に_５Ｃ_２＝１０個のペア頻度テーブルを作成すればよい。ペア頻度テーブルは、図５（Ｂ）に示すように、母音ペアに対して定義されるクラスタペアのそれぞれに対応して、一方の母音のクラスタ数×他方の母音のクラスタ数に相当する数の頻度値を記録するセルが含まれる。本実施形態では、この数は話者人数の二乗に等しい。

次に、ペアスコア決定部２４１０は、ステップＳ３０１の分割により作成した部分区間のうち、未処理の一つを注目部分区間として選択する（ステップＳ３０３）。例えば、音声データの先頭から一つずつ後ろに向かって選択していけばよい。

次に、ペアスコア決定部２４１０は、ペア頻度テーブルに定義された各クラスタペアに含まれる特徴量の母音区間が注目部分区間に共に現れる頻度に基づいて、全ペア頻度テーブルを更新する（ステップＳ３０４）。
具体的には、各ペア頻度テーブルの各セルに対応するクラスタペアについて、注目部分区間に、両方のクラスタに含まれる特徴量の母音区間が共存する場合に出現頻度のカウントを＋１更新する。この処理を、全セルについて実行して、一つのペア頻度テーブルを更新する。なお、上述したように、時間で等分に区切って部分区間を定義した場合には、一方のクラスタに含まれる特徴量の母音区間が現れる数ａと、一方のクラスタに含まれる特徴量の母音区間が現れる数ｂと、を共に数え、カウントしたａとｂを用いて、ａ×ｂ／２の値を注目部分区間におけるクラスタペアの共出現頻度として、現在のセルに加算するようにしてもよい。

ステップＳ３０４で全ペア頻度テーブルを更新すると、次にペアスコア決定部２４１０は、ステップＳ３０１で定義した全部分区間について上記処理済であるか否か判別する（ステップＳ３０５）。未処理の部分区間がある場合には（ステップＳ３０５；Ｎｏ）、次の未処理の部分区間についてステップＳ３０３から処理を繰り返す。一方、全部分区間について処理済みの場合には（ステップＳ３０５；Ｙｅｓ）、頻度のカウントが終わり、ペア頻度テーブルＰＦＴが完成したので、ステップＳ３０６に移行する。

ステップＳ３０６では、ペアスコア決定部２４１０が、ペア頻度テーブルＰＦＴに記録されている頻度に基づいて、ペアスコアを決定する（ステップＳ３０６）。具体的には、各ペア頻度テーブルＰＦＴについて、頻度の値が大きい順に１から数値を振りなおして、ペアスコアテーブルＰＳＴに変換する。このようにして、ペアスコアを全て決定する。

図１１にもどって、ステップＳ２０６でペアスコアが全て決定されると、次に組合せ決定部２４０が組合せ決定処理を開始する（ステップＳ２０７）。

ステップＳ２０７で実行される組合せ決定処理について、図１３を参照して説明する。組合せ決定処理では、まず組合せスコア決定部２４２０が、生成されたクラスタ集合の、各母音から一つずつ抽出した全組合せを、候補組合せとして抽出する（ステップＳ４０１）。

候補組合せを抽出すると、次に組合せスコア決定部２４２０が、抽出した候補組合せのうち、現在のループで処理対象となる注目組合せを選択する（ステップＳ４０２）。そして、選択した注目組合せについて、図６で説明したように組合せスコアを決定する（ステップＳ４０３）。

次に、組合せスコア決定部２４２０はステップＳ４０１で抽出した全候補組合せについて組合せスコアを決定する処理済みであるか否か判別する（ステップＳ４０４）。未処理の候補組合せがある場合には（ステップＳ４０４；Ｎｏ）、次の未処理の候補組合せについてステップＳ４０２から処理を繰り返す。一方、全候補組合せについて組合せスコアを決定済みである場合には（ステップＳ４０４；Ｙｅｓ）、処理はステップＳ４０５に進む。

次に、組合せ決定部２４０は決定した組合せスコアに基づいて各話者に対応する対応組合せを決定する（ステップＳ４０５〜Ｓ４０８）。まず、組合せ決定部２４０は候補となる組合せのうち、未決定クラスタの組合せであって、かつ同一の話者に対応する尤度が最も高い組合せ（最尤組合せ）を決定する（ステップＳ４０５）。なお、未決定クラスタの組合せとは、後述する決定済みフラグがセットされているクラスタを一つも含まない組合せを言う。最初のループでは、何れのクラスタにも決定済みフラグはセットされていないので、組合せスコアテーブルに記録されたうちもっとも組合せスコアが小さい組合せを、最尤組合せとして決定する。

次に、組合せ決定部２４０は決定した最尤組合せに話者番号を割当てる（ステップＳ４０６）。話者番号は、ループ毎にユニークな番号であれば良いが、ここではループ毎にＰ１，Ｐ２、…といった番号を順に割り当てる。例えば、最初にクラスタＡ１、Ｉ１，Ｕ２、Ｅ２及びＯ１を含む組合せを最尤組合せとして決定した場合には、図７に示すように、その組合せに話者番号Ｐ１を関連付けて決定組合せテーブルＤＣＴに記憶すればよい。

次に、組合せ決定部２４０は最尤組合せに含まれるクラスタに決定済フラグをセットする（ステップＳ４０７）。この場合、クラスタＡ１、Ｉ１，Ｕ２、Ｅ２及びＯ１に対して決定済フラグをセットする。以後、ステップＳ４０５〜Ｓ４０８のループにおいて、決定済フラグがセットされたクラスタを一つでも含む候補組合せは、ステップＳ４０５の決定対象から排除される。

このような処理により、母音毎にクラスタリングした結果から、尤度が高い順に同一人物に対応する母音の特徴量の組合せを、クラスタの重複なく決定することが出来る。
そのため、クラスタリング処理を母音毎に実行して精度を高めるとともに、それぞれの話者が複数の母音をどのような特徴量をもって発生するかについて、少ない計算量で特定することができる。

次に、組合せ決定部２４０は、ダイアライゼーション処理（図１１）のステップＳ２０１で取得した人数の全話者分の対応組合せを決定済みであるか否か判別する（ステップＳ４０８）。全話者分決定していない場合には（ステップＳ４０８；Ｎｏ）、決定済フラグが立っていないクラスタの組合せである候補組合せついて、ステップＳ４０５から処理を繰り返す。一方、全話者分を決定済みである場合には（ステップＳ４０８；Ｙｅｓ）、組合せ決定処理を終了する。

図１１にもどって、ステップＳ２０７で対応組合せが全て決定されると、次に区分部２５０が区分処理を開始する（ステップＳ２０８）。

ステップＳ２０８で実行される区分処理について、図１４を参照して説明する。区分処理では、まず区分部２５０が、各母音区間に仮話者番号を付与する（ステップＳ５０１）。具体的には、図８で説明したように、区分部２５０が各母音区間に対して、その特徴量を含むクラスタが何れの話者番号の対応組合せに属するかに応じて、仮話者番号を付与する。

そして、区分部２５０が各母音区間に対して確定話者番号を特定する(ステップＳ５０２）。具体的には、図９で説明したように、区分部２５０は各母音区間について、その前後４個の母音区間に割り振られた仮話者番号の最頻値を、確定話者番号として特定する。

次に、区分部２５０が各子音区間に対して確定話者番号を特定する(ステップＳ５０３）。具体的には、図９で説明したように、区分部２５０は各子音区間について、その前後の母音区間に割り振られた仮話者番号に基づいて、確定話者番号を特定する。そして、区分処理を終了する。

図１１に戻って、ステップＳ２０８で区分処理が終了すると、ダイアライゼーション処理は終了する。

図１０にもどって、ステップＳ１０４でダイアライゼーション処理を終えると、出力部４０が話者特定の結果を示す情報（確定話者テーブルＤＳＴ）を出力する（ステップＳ１０５）。
そして、話者情報出力処理は終了する。

以上説明したとおり、本実施形態の音声処理装置１は、同一の母音に対応する特徴量を、分類部２３０が教師無し分類法で複数のクラスタに分類する。そして、組合せ決定部２４０が、分類した特徴量のうち同一の話者に対応する組合せを決定する。事前に話者の登録をせず話者特定を行うにあたっては、同一の話者が発音した区間の特徴量を特定することの困難性が、特に課題となる。その点、本実施形態の音声処理装置１では、組合せ決定部２４０が決定した組合せのクラスタに含まれる特徴量の母音区間は、同一の話者が発声したものであるとみなすことが出来るので、話者特定が容易になる。

特に、教師無し分類法により特徴量を分類する場合、音声の特徴量を音素に関わらず一括してクラスタリングするとクラスタリング精度が低下する。しかしながら、別々にクラスタリングした場合には、それぞれのクラスタと話者との対応が解らないため話者特定が困難となる。ここで、本実施形態では、クラスタリングを同じ母音に対応する特徴量について実施した上で、同一の話者に対応するクラスタの組合せを決定することにより、クラスタリング精度を保ちながら話者特定を容易にすることが出来る。

また、本実施形態の音声処理装置１は、組合せ決定部２４０が決定した組合せのクラスタに含まれる音声区間が音声データに現れるタイミングに基づいて、区分部２５０が音声データの音声区間を話者別に区分する。そして、区分結果を出力する。このため、事前に話者を登録することなく、話者特定を実行できる。

本実施形態の音声処理装置１は、同一の母音に対応する特徴量毎にクラスタリングするため、クラスタリングの精度が高い。そのため、音素の区別無くクラスタリングする場合よりも、精度のよい話者特定が実現できる。また、クラスタリング処理を母音毎に実行して精度を高めるとともに、それぞれの話者が、どのような特徴量の母音を発するかを、少ない計算量で特定することができる。

また、複数の母音についてそれぞれクラスタリングした結果に基づいて話者特定を行うことで、クラスタリング精度が低い母音があっても他の母音で補うことが出来るので、話者特定の精度の低下を押さえることが出来る。

また、話者特定に当たって、クラスタリングの対象を話者毎に特徴がはっきりしている母音に限定している。そのため、話者毎に差が出にくい子音や雑音によって話者同士の差異が薄まることがないため、話者特定の精度が高い。また、処理対象となる音声区間が母音区間に絞られるので、必要計算量が小さい。

また、母音毎にクラスタリングした結果から、分類したクラスタのそれぞれに含まれる特徴量の母音区間が音声データに出現するタイミングに基づいて、対応組合せを決定する。会話においては、同一の話者が発話する母音区間同士は、そうでない母音区間同士よりも時間的に接近している割合が高い。そのため、出現タイミングに基づいてクラスタ同士を対応付けることにより、話者とクラスタの対応を適切に決定することができる。

具体的には、複数の候補となる組合のそれぞれに対して、同一の話者に対応する程度を示す組合せスコアを決定して、決定した組合せスコアに応じて対応組合せを決定する。このような構成によれば、候補を立てずに組合せ決めうちする場合よりも、正確に対応する組合せを決定することが出来る。

特に本実施形態では、候補組合せに含まれるクラスタペアについてペアスコアを決定し、決定したペアスコアに基づいて組合せスコアを決定する。２つの特徴量のクラスタについては、上述したように単純かつ計算量の少ない方法で同一話者に対応する程度を求めることが出来る。本実施形態では、このような方法を用いることで、対応組合せを高い精度で、かつ少ない計算量で決定することが出来る。その結果、少ない計算量で高い精度の話者特定を実現できる。
なお、複数のペアスコアから組合せスコアを求める構成は、候補組合せが複数のクラスタペアを含んでいる場合に有効である。すなわち、候補組合せが少なくとも３つのクラスタを含んでいる場合に有効である。

本実施形態では、クラスタペアのうち一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が音声データの部分区間に共に現れる頻度に基づいて、ペアスコアを決定する。両クラスタの特徴量の母音区間の頻度をカウントする処理は、単純かつ計算量が少ない上に、同一の話者に対応する程度の指標として優れている。このような方法でペアスコアを決定することにより、対応組合せを高い精度で、かつ少ない計算量で決定することが出来る。その結果、少ない計算量で高い精度の話者特定を実現できる。

（変形例）
以上、本発明の実施形態１について説明したが、本発明の実施形態はこれに限られない。

例えば、上記実施形態では、５つの母音を含む日本語の会話を録音した音声データについての処理について主に説明した。しかし、本発明は日本語に限らず、英語・中国語・フランス語など、任意の言語について応用可能である。この場合でも、特徴量分類部及び組合せ決定部が処理する母音の数・組合せの数がその言語の母音数によって増減するだけで、同様に処理することができる。

また上記実施形態では、使用言語に含まれる全ての母音毎にクラスタリング・組合せ決定処理を実行したが、本発明はこれに限らず、使用言語の一部の母音について上記処理を実行する構成でも効果を奏する。特に英語のように母音数が多い場合などに、その言語に含まれる全ての母音についてクラスタリング・及び組合せ決定処理を実行すると処理量が大きくなる場合がある。そこで、「ａ」(非円唇前舌広母音)と「ae」(準開前舌非円唇母音)といった類似の母音を一つの母音としてクラスタリング等の処理を実行してもよい。あるいは、個人の特徴量が明確に出る母音についてのみ、上記処理を実行しても良い。

上記実施形態では、話者数を既知の数値としてクラスタリングを実行した。しかし、本発明は話者数が未知の場合でも応用可能である。例えば、ダイアライゼーション処理（図１１）のステップＳ２０４にて、母音毎に特徴量のクラスタ数を推定する。そして、母音毎に推定したクラスタリング数の最頻値を、話者数と推定し、改めて推定した話者数のクラスタに分類すればよい。例えば推定したクラスタ数として、母音「ａ」について４、母音「ｉ」について４、母音「ｕ」について３、母音「ｅ」について３、母音「ｏ」について４、がそれぞれ得られた場合には、最頻値の４を話者数とする。そして、最頻値と異なる母音（この例では母音「ｕ」と母音「ｅ」）を、最頻値の４つのクラスタに分類する。なお、話者数の推定方法はこれに限らない。他の方法としては、話者の特徴が明確な母音（例えば、「ａ」又は「ｉ」）について話者数を推定した値を他の母音にも適用する方法が挙げられる。なお、クラスタの数は、ウォード法、ＵｐｐｅｒＴａｉｌ法、Ｘ−ｍｅａｎｓ法などの既知の方法を用いて推定することができる。

また、出力情報は図９（Ｂ）に限らず、話者特定の結果を含むものであれば、ユーザが所望する任意の情報であってよい。出力情報は違う形でもよい。例えば、話者変更点タイミングと交代後の話者番号とを対応づけたファイルや、話者毎に分割された音声データであってもよい。

また、同一の話者に対応する組合せを決定する方法は、上記実施形態の例に限られない。例えば、ペアスコアを求めるに当たって、クラスタペアの頻度をカウントする方法は上記実施形態で例示した方法に限られない。例えば、各母音区間を中心に、所定時間（例えば１０秒）を部分区間として、頻度を計算してもよい。例えば、図１５（Ａ）のように、クラスタＡ１に含まれる母音区間ａ１を注目母音区間とすると、ａ１を中心に部分区間１を定義して、部分区間１に他の母音のクラスタの母音区間が現れる数を数える。この場合、部分区間１には、Ｉ１が１回、Ｕ２が１回、Ｅ２が２回、Ｅ３が１回、Ｏ１が１回、それぞれ現れる。そこで、頻度テーブルのうち、Ａ１−Ｉ１のセルに１を、Ａ１−Ｕ２のセルに１を、Ａ１−Ｅ２のセルに２を、Ａ１−Ｅ３のセルに１を、Ａ１−Ｏ１のセルに１を、それぞれ加える。このようなカウント処理を、各母音区間を中心に実行することにより頻度を求めてもよい。

また、ペアスコアを求めるにあたって、そのペアに含まれる２つのクラスタに含まれる母音区間が接近して現れるほど、同一人物に対応する程度が高くなる他の方法を用いて求めても良い。例えば、両クラスタに含まれる母音区間の距離に基づいてペアスコアを決定することも可能である。具体的には、頻度に変わって、クラスタペアの母音区間どうしの距離の平均値を、クラスタスコアとしてもよい。この場合には、クラスタスコアが小さいほど、同一人物に対応する程度が高い。

また、ペアスコアから組合せスコアを求める方法も、上記実施形態で例示した方法に限られない。例えば、上記実施形態では、各ペアスコアを均等に評価して組合せスコアを求めた。しかし、母音ペア毎に異なる重みを用いて、重み付き加算した値を組合せスコアとしてもよい。例えば、日本語の母音のうち「ａ」と「ｉ」は話者毎に明確に特徴があわられる一方、「ｕ」については正確なクラスタリングが困難である。そこで、「ａ」と「ｉ」を含む母音ペアのペアスコアは１．５、「ｕ」を含む母音ペアのペアスコアは０．７を重み付けして、組合せスコアを求めてもよい。このような構成によれば、音素毎の性質を反映した、より精度の高い話者特定を実現できる。

また、候補となる組合せについて組合せスコアを求める以外の方法を採用することもできる。例えば、全ペアスコアテーブルのうち最も頻度が高いクラスタペアを一つ特定する。そして、特定したクラスタペアに含まれるクラスタを含む他のクラスタペアのうち、最も頻度が高いクラスタペアを特定する。以下、全母音について、最も頻度が高い組合せを決定する事により、同一話者に対応する組合せを簡便に決定することが出来る。以下、特定したクラスタを除いて、残ったテーブルのうち最も頻度が高いクラスタペアを特定していくことにより、各話者に対応する組合せを決定することが出来る。このような構成によれば、少ない計算量で対応組合せを決定することが出来る。

尚、本発明は、実施形態１、若しくはその変形例に係る音声処理装置１として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータなど、汎用の計算機を音声処理装置１として機能させることもできる。すなわち、音声処理装置１による各機能構成を実現させるためのテキスト検索プログラムを、既存のテキスト検索装置を制御するコンピュータ（ＣＰＵなど）が実行できるように適用することで、実施形態１、若しくは変形例に係る音声処理装置１として機能させることができる。

このようなプログラムの配布方法は任意であり、例えば、メモリカード、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）又はＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの記録媒体に格納して配布できる他、インタネットなどの通信媒体を介して配布することもできる。また、再配置ＣＴＤ及び転置インデックス等の上記処理に必要なデータの一部又は全部は、外部サーバに記憶されており、通信機能によりこれらのデータを取得して上記処理を実行する構成も可能である。

また、本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。つまり、本発明のいくつかの実施形態を説明したが、上述した実施形態は本発明を説明するためのものであり、本発明の範囲を限定するものではない。本発明の範囲は、実施形態ではなく、特許請求の範囲に記載された発明とその均等の範囲を含む。
以下に本願出願の当初の特許請求の範囲に記載された発明を付記する。

（付記１）
音声データに含まれる母音区間の特徴量を取得する取得手段と、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
を備えることを特徴とする音声処理装置。

（付記２）
前記決定した対応組合せのクラスタに含まれる特徴量の母音区間が前記音声データに現れるタイミングに基づいて、前記音声データの音声区間を話者別に区分けする区分手段と、
前記区分けした結果を示す情報を出力する出力手段と、
を更に備えることを特徴とする付記１に記載の音声処理装置。

（付記３）
前記決定手段は、前記分類したクラスタのそれぞれに含まれる特徴量の母音区間が前記音声データに出現するタイミングに基づいて、前記対応組合せを決定する、
ことを特徴とする付記１又は２に記載の音声処理装置。

（付記４）
前記決定手段は、
前記対応組合せの候補となる複数の組合せのそれぞれに対して、同一の話者に対応する程度を示す組合せスコアを決定し、
前記決定した組合せスコアに応じて前記対応組合せを決定する、
ことを特徴とする付記１乃至３の何れかに記載の音声処理装置。

（付記５）
前記分類手段は、前記話者が用いた言語に含まれる母音のうち少なくとも３つの母音について、前記分類する処理を実行し、
前記決定手段は、
前記分類手段が異なる２つの母音について分類したクラスタから一つずつ抽出したクラスタのペアについて、同一の話者に対応する程度を示すペアスコアを決定し、
前記分類手段が分類する処理を実行した母音毎に一つずつクラスタを抽出して前記候補となる組合せを生成し、
該生成した候補となる組合せに含まれるクラスタのペアについて決定したペアスコアに基づいて、前記組合せスコアを決定する、
ことを特徴とする付記４に記載の音声処理装置。

（付記６）
前記決定手段は、前記クラスタのペアのうち一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が前記音声データの部分区間に共に現れる頻度に基づいて、前記ペアスコアを決定する、
ことを特徴とする付記５に記載の音声処理装置。

（付記７）
音声データに含まれる母音区間の特徴量を取得し、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類し、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する、
ことを特徴とする音声処理方法。

（付記８）
コンピュータに、
音声データに含まれる母音区間の特徴量を取得する処理、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する処理、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する処理、
を実行させるためのプログラム。

１…音声処理装置、１０…マイク、２０…情報処理部、２１…ＣＰＵ、２２…ＲＡＭ、２３…ＲＯＭ、２４…Ｉ／Ｏ部、２５…外部記憶装置、２６…内部バス、２１０…音声データ記憶部、２２０…特徴量抽出部、２３０…特徴量分類部、２４０…組合せ決定部、２４１０…ペアスコア決定部、２４２０…組合せスコア決定部、２５０…区分部、３０…表示部、４０…出力部、５０…入力部、６０…操作部

Claims

音声データに含まれる母音区間の特徴量を取得する取得手段と、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する分類手段と、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する決定手段と、
を備えることを特徴とする音声処理装置。
前記決定した対応組合せのクラスタに含まれる特徴量の母音区間が前記音声データに現れるタイミングに基づいて、前記音声データの音声区間を話者別に区分けする区分手段と、
前記区分けした結果を示す情報を出力する出力手段と、
を更に備えることを特徴とする請求項１に記載の音声処理装置。
前記決定手段は、前記分類したクラスタのそれぞれに含まれる特徴量の母音区間が前記音声データに出現するタイミングに基づいて、前記対応組合せを決定する、
ことを特徴とする請求項１又は２に記載の音声処理装置。
前記決定手段は、
前記対応組合せの候補となる複数の組合せのそれぞれに対して、同一の話者に対応する程度を示す組合せスコアを決定し、
前記決定した組合せスコアに応じて前記対応組合せを決定する、
ことを特徴とする請求項１乃至３の何れかに記載の音声処理装置。
前記分類手段は、前記話者が用いた言語に含まれる母音のうち少なくとも３つの母音について、前記分類する処理を実行し、
前記決定手段は、
前記分類手段が異なる２つの母音について分類したクラスタから一つずつ抽出したクラスタのペアについて、同一の話者に対応する程度を示すペアスコアを決定し、
前記分類手段が分類する処理を実行した母音毎に一つずつクラスタを抽出して前記候補となる組合せを生成し、
該生成した候補となる組合せに含まれるクラスタのペアについて決定したペアスコアに基づいて、前記組合せスコアを決定する、
ことを特徴とする請求項４に記載の音声処理装置。
前記決定手段は、前記クラスタのペアのうち一方のクラスタに含まれる特徴量の母音区間と、他方のクラスタに含まれる特徴量の母音区間と、が前記音声データの部分区間に共に現れる頻度に基づいて、前記ペアスコアを決定する、
ことを特徴とする請求項５に記載の音声処理装置。
音声データに含まれる母音区間の特徴量を取得し、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類し、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する、
ことを特徴とする音声処理方法。
コンピュータに、
音声データに含まれる母音区間の特徴量を取得する処理、
前記取得した特徴量のうち、同一の母音に対応する特徴量を、教師無し分類法で複数のクラスタに分類する処理、
前記分類したクラスタの組合せであって、同一の話者に対応する対応組合せを決定する処理、
を実行させるためのプログラム。