JP2009053430A

JP2009053430A - 音声処理装置およびプログラム

Info

Publication number: JP2009053430A
Application number: JP2007219929A
Authority: JP
Inventors: Yasuo Yoshioka; 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-08-27
Filing date: 2007-08-27
Publication date: 2009-03-12
Anticipated expiration: 2027-08-27
Also published as: JP4967928B2

Abstract

【課題】ＶＱ符号帳の信頼性が低い場合でも音声間の類否を高い精度で判定できる指標を算定する。
【解決手段】記憶装置３０は、音声信号ＶAの特徴ベクトル系列ＸAおよびＶＱ符号帳ＣAと音声信号ＶBの特徴ベクトル系列ＸBおよびＶＱ符号帳ＣBとを記憶する。第１算定部１６１は、ＶＱ符号帳ＣAと特徴ベクトル系列ＸBとのＶＱ歪ＤAB、ＶＱ符号帳ＣBと特徴ベクトル系列ＸAとのＶＱ歪ＤBA、ＶＱ符号帳ＣAと特徴ベクトル系列ＸAとのＶＱ歪ＤAA、ＶＱ符号帳ＣBと特徴ベクトル系列ＸBとのＶＱ歪ＤBBを算定する。第２算定部１６２は、ＶＱ歪ＤABやＶＱ歪ＤBAが大きいほどＶＱクロス歪ＤCが大きく、ＶＱ歪ＤAAやＶＱ歪BBが大きいほどＶＱクロス歪ＤCが小さくなるように、第１算定部１６１による算定の結果から、音声信号ＶAと音声信号ＶBとの類否の指標となるＶＱクロス歪ＤCを算定する。
【選択図】図１

Description

本発明は、複数の音声信号の類否の指標を算定する技術に関する。

話者照合や話者識別といった各種の音声処理技術では、複数の音声の音響的な特徴の類否を判定する必要がある。音声間の特徴量の類否の指標としてＶＱ（Vector Quantization）歪が従来から利用されている（例えば特許文献１や特許文献２参照）。ＶＱ歪は、基準となる音声の音響的な特徴量のベクトルの時系列（以下「特徴ベクトル系列」という）から生成されたＶＱ符号帳（コードブック）と、話者照合や話者識別の対象となる入力音声から抽出された特徴ベクトル系列とに基づいて算定される。
特開平７−２４８７９１号公報特開平１１−８５１８２号公報

しかし、例えばＶＱ符号帳の生成に使用された特徴ベクトル系列の要素数が少ない場合（すなわち基準となる音声が短い場合）、ＶＱ符号帳には音声の本来的な特性が忠実に反映されない。このように信頼性の低いＶＱ符号帳を使用して音声間の類否の指標を算定した場合には、話者照合や話者識別の精度が低下するという問題がある。以上の事情に鑑みて、本発明は、ＶＱ符号帳の信頼性が低い場合でも音声間の類否を高い精度で判定できる指標を算定するという課題の解決をひとつの目的としている。

以上の課題を解決するために、本発明に係る音声処理装置は、第１音声信号と第２音声信号との類否の指標となるＶＱクロス歪を算定する装置であって、第１音声信号（例えば図１の音声信号ＶA）および第２音声信号（例えば図１の音声信号ＶB）の各々について特徴ベクトル系列と当該特徴ベクトル系列に対応したＶＱ符号帳とを記憶する記憶手段と、第１音声信号のＶＱ符号帳と第２音声信号の特徴ベクトル系列との第１ＶＱ歪（例えば図１のＶＱ歪ＤAB）、第２音声信号のＶＱ符号帳と第１音声信号の特徴ベクトル系列との第２ＶＱ歪（例えば図１のＶＱ歪ＤBA）、第１音声信号のＶＱ符号帳と当該第１音声信号の特徴ベクトル系列との第３ＶＱ歪（例えば図１のＶＱ歪ＤAA）、および、第２音声信号のＶＱ符号帳と当該第２音声信号の特徴ベクトル系列との第４ＶＱ歪（例えば図１のＶＱ歪ＤBB）を算定する第１算定手段と、第１ＶＱ歪または第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、第３ＶＱ歪または第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、第１ＶＱ歪と第２ＶＱ歪と第３ＶＱ歪と第４ＶＱ歪とに基づいてＶＱクロス歪を算定する第２算定手段とを具備する。

以上の構成によれば、第１ＶＱ歪または第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、第３ＶＱ歪または第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるようにＶＱクロス歪が算定されるから、例えば第１音声信号や第２音声信号のＶＱ符号帳の作成に使用された音声信号が短い場合（特徴ベクトル系列を構成する特徴ベクトルが少ない場合）であっても、第１音声信号と第２音声信号との類否を正確に判定し得るＶＱクロス歪が算定される。

本発明の好適な態様において、第２算定手段は、第１ＶＱ歪から第３ＶＱ歪を減算した数値と第２ＶＱ歪から第４ＶＱ歪を減算した数値との加算に基づいてＶＱクロス歪を算定する。以上の構成によれば、簡素な演算でＶＱクロス歪が算定されるという利点がある。ただし、第２算定手段による演算の内容は任意である。例えば、第１ＶＱ歪を第３ＶＱ歪で除算した数値と第２ＶＱ歪を第４ＶＱ歪で除算した数値との加算に基づいて第２算定手段がＶＱクロス歪を算定する構成も採用される。

本発明の第１の態様に係る音声処理装置は、音声信号を時間軸上で可変長に区分した複数の区間を複数のクラスタに分類する装置であって、複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したＶＱ符号帳とを記憶する記憶手段と、複数の区間の分類先となる対象クラスタを順次に指定するクラスタ指定手段と、対象クラスタに分類された区間の特徴ベクトル系列とＶＱ符号帳とを含むクラスタ情報を生成するクラスタ情報生成手段と、対象クラスタの指定中に未分類の各区間を時間の長い順番で順次に選択区間として選択する区間選択手段と、選択区間のＶＱ符号帳と対象クラスタの特徴ベクトル系列との第１ＶＱ歪、対象クラスタのＶＱ符号帳と選択区間の特徴ベクトル系列との第２ＶＱ歪、選択区間のＶＱ符号帳と当該選択区間の特徴ベクトル系列との第３ＶＱ歪、および、対象クラスタのＶＱ符号帳と当該対象クラスタの特徴ベクトル系列との第４ＶＱ歪を算定する第１算定手段と、第１ＶＱ歪または第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、第３ＶＱ歪または第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、第１ＶＱ歪と第２ＶＱ歪と第３ＶＱ歪と第４ＶＱ歪とに基づいて、選択区間と対象クラスタとのＶＱクロス歪を算定する第２算定手段と、選択区間と対象クラスタとのＶＱクロス歪が閾値を下回る場合に当該選択区間を当該対象クラスタに分類する区間分類手段と、選択区間と対象クラスタとのＶＱクロス歪が閾値を下回る場合に、選択区間の特徴ベクトル系列に基づいて対象クラスタのクラスタ情報を更新する更新手段とを具備する。

以上の構成によれば、選択区間と対象クラスタとの音声信号の類否をＶＱクロス歪に応じて高精度に判定することが可能である。また、未分類の区間が時間の長い順番で選択されたうえで、対象クラスタに分類された選択区間の特徴ベクトル系列がクラスタ情報の更新に使用されるから、例えば時間の短い順番や時系列の順番で未分類の区間が選択される構成と比較して、対象クラスタのＶＱ符号帳の信頼性を早期に高めて各区間を高精度に分類することが可能となる。なお、本態様の具体例は第２実施形態や第３実施形態として後述される。

本発明の好適な態様において、クラスタ情報生成手段は、未分類で最長の区間内の音声信号の特徴量に基づいて音響モデルを生成する（例えば図５や図８のステップＳA2からステップＳA4）。本態様によれば、未分類で最短の区間や時間的に最先にある区間を対象クラスタのクラスタ情報の作成に使用する構成と比較して、クラスタ情報（ＶＱ符号帳）の信頼性を早期に高めることができる。

本発明の具体的な態様において、対象クラスタのクラスタ情報は、当該対象クラスタに分類された区間の時間長に応じた分類区間長を含み、クラスタ情報内の分類区間長に応じて閾値を可変に設定する閾値設定手段（例えば図５や図８のステップＳA7）を具備する。以上の態様によれば、ＶＱクロス歪と対比される閾値が可変に制御されるから、分類漏れまたは類否の誤判定を有効に防止できるという利点がある。

本発明の好適な態様に係る音声処理装置は、話者数を特定する話者数特定手段を具備し、話者数に応じた個数のクラスタに各区間が分類された段階で分類を終了する。別の態様に係る音声処理装置は、話者数を特定する話者数特定手段と、各区間を分類したクラスタの総数が話者数を上回る場合に、クラスタの総数が話者数以下となるまで複数のクラスタを併合するクラスタ併合手段とを具備する。以上の各態様によれば、話者数に応じた個数のクラスタに各区間を容易に分類することができる。

さらに好適な態様に係る音声処理装置は、区間分類手段が何れのクラスタにも分類しなかった未分類区間を、既存の複数のクラスタのうち当該未分類区間とのＶＱクロス歪が最小となるクラスタに分類する未分類区間処理手段を具備する。本態様によれば、各区間の分類漏れを有効に防止できるという利点がある。

本発明の第２の態様に係る音声処理装置は、音声信号を時間軸上で区分した複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したＶＱ符号帳とを記憶する記憶手段と、
複数の区間のなかから第１区間と第２区間とを選択する複数の組合せの各々について、第１区間のＶＱ符号帳と第２区間の特徴ベクトル系列との第１ＶＱ歪、第２区間のＶＱ符号帳と第１区間の特徴ベクトル系列との第２ＶＱ歪、第１区間のＶＱ符号帳と当該第１区間の特徴ベクトル系列との第３ＶＱ歪、および、第２区間のＶＱ符号帳と当該第２区間の特徴ベクトル系列との第４ＶＱ歪を算定する第１算定手段と、複数の組合せの各々について第１区間と第２区間とにおける音声信号の類否の指標となるＶＱクロス歪を算定する手段であって、第１ＶＱ歪または第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、第３ＶＱ歪または第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、第１ＶＱ歪と第２ＶＱ歪と第３ＶＱ歪と第４ＶＱ歪とに基づいてＶＱクロス歪を算定する第２算定手段と、複数の区間の各々と当該区間に対するＶＱクロス歪が最も小さい区間とが同じクラスタに属するように複数の区間を複数のクラスタに分類する区間分類手段とを具備する。

以上の構成によれば、複数の区間の各々と当該区間に対するＶＱクロス歪が最も小さい区間とが同じクラスタに分類されるから、ＶＱクロス歪と所定の閾値との比較は原理的には不要である。したがって、音声信号の収録時の条件（例えば音声や雑音の音量）が分類の精度に与える影響を低減して複数の区間を正確に分類することが可能となる。

本発明の好適な態様において、音声分類手段は、複数の区間のうち、他の総ての区間の各々に対するＶＱクロス歪が非類似を示す区間（例えば、類似度の順位が所定値を下回る区間や類似度が他の各区間について最下位にある区間）を、他の総ての区間とは別個の集合に分類する。本態様によれば、例えばひとりの発声者がひとつの区間のみで発声したような場合であっても、当該発声の区間を他の区間とは別の集合に分類することが可能である。

以上の各態様に係る音声処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、第１音声信号のＶＱ符号帳と第２音声信号の特徴ベクトル系列との第１ＶＱ歪、第２音声信号のＶＱ符号帳と第１音声信号の特徴ベクトル系列との第２ＶＱ歪、第１音声信号のＶＱ符号帳と当該第１音声信号の特徴ベクトル系列との第３ＶＱ歪、および、第２音声信号のＶＱ符号帳と当該第２音声信号の特徴ベクトル系列との第４ＶＱ歪を算定する第１算定処理と、第１ＶＱ歪または第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、第３ＶＱ歪または第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、第１ＶＱ歪と第２ＶＱ歪と第３ＶＱ歪と第４ＶＱ歪とに基づいてＶＱクロス歪を算定する第２算定処理とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。なお、本発明は、コンピュータを第１の態様に係る音声処理装置や第２の態様に係る音声処理装置として機能させるためのプログラムとしても特定される。

本発明は、音声を処理する方法としても特定される。本発明のひとつの態様に係る音声処理方法は、第１音声信号のＶＱ符号帳と第２音声信号の特徴ベクトル系列との第１ＶＱ歪、第２音声信号のＶＱ符号帳と第１音声信号の特徴ベクトル系列との第２ＶＱ歪、第１音声信号のＶＱ符号帳と当該第１音声信号の特徴ベクトル系列との第３ＶＱ歪、および、第２音声信号のＶＱ符号帳と当該第２音声信号の特徴ベクトル系列との第４ＶＱ歪を算定する第１算定過程と、第１ＶＱ歪または第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、第３ＶＱ歪または第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、第１ＶＱ歪と第２ＶＱ歪と第３ＶＱ歪と第４ＶＱ歪とに基づいてＶＱクロス歪を算定する第２算定過程とを含む。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。

＜Ａ：第１実施形態＞
本発明の第１実施形態に係る音声処理装置について図１を参照して説明する。本形態の音声処理装置１００は、２種類の音声（音声信号ＶAおよび音声信号ＶB）の類否の指標となるＶＱクロス歪を算定する。図１に示すように、音声処理装置１００は、制御装置１０と記憶装置３０とを具備するコンピュータシステムである。制御装置１０は、プログラムを実行する演算処理装置である。記憶装置３０は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置３０として任意に採択される。

記憶装置３０は、特徴ベクトル系列Ｘ（ＸA，ＸB）とＶＱ符号帳Ｃ（ＣA，ＣB）とを音声信号ＶAおよび音声信号ＶBの各々について記憶する。特徴ベクトル系列ＸAは、音声信号ＶAを時間軸上で区分したｎA個（ｎAは自然数）のフレームから抽出された特徴ベクトルｘA(1)〜ｘA(nA)の時系列である。同様に、特徴ベクトル系列ＸBは、音声信号ＶBを区分したｎB個（ｎBは自然数）のフレームから抽出された特徴ベクトルｘB(1)〜ｘB(nB)の時系列である。特徴ベクトルｘA(1)〜ｘA(nA)は音声信号ＶAが表す音声の音響的な特徴量を表し、特徴ベクトルｘB(1)〜ｘB(nB)は音声信号ＶBが表す音声の音響的な特徴量を表す。例えばＭＦＣＣ（Mel Frequency Cepstrum Coefficient）が特徴ベクトルｘA(1)〜ｘA(nA)および特徴ベクトルｘB(1)〜ｘB(nB)として好適に採用される。もっとも、ｘA(1)〜ｘA(nA)および特徴ベクトルｘB(1)〜ｘB(nB)はＭＦＣＣに限定されない。

ＶＱ符号帳ＣAは、特徴ベクトル系列ＸAの特徴ベクトルｘA(1)〜ｘA(nA)の分布に対応した|ＣA|個のコードベクトル（セントロイドベクトル）ＣA(1)〜ＣA(|CA|)を定義する。ＶＱ符号帳ＣBは、特徴ベクトル系列ＸBの特徴ベクトルｘB(1)〜ｘB(nB)の分布に対応した|ＣB|個のコードベクトルＣB(1)〜ＣB(|CB|)を定義する。特徴ベクトル系列Ｘに応じたＶＱ符号帳Ｃの生成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。

制御装置１０は、音声信号ＶAと音声信号ＶBとの類否（発声者の異同）の指標となるＶＱクロス歪ＤCを算定するＶＱクロス歪算定部１６として機能する。図１に示すように、ＶＱクロス歪算定部１６は、第１算定部１６１および第２算定部１６２とで構成される。なお、第１算定部１６１および第２算定部１６２はＤＳＰなどの電子回路によっても実現される。また、第１算定部１６１と第２算定部１６２とは別個の集積回路に分散して実装されてもよい。

第１算定部１６１は、記憶装置３０に格納されたＶＱ符号帳Ｃと特徴ベクトル系列Ｘとの総ての組合せについてＶＱ歪を算定する。すなわち、第１算定部１６１は、音声信号ＶAのＶＱ符号帳ＣAと音声信号ＶBの特徴ベクトル系列ＸBとからＶＱ歪ＤABを算定し、音声信号ＶBのＶＱ符号帳ＣBと音声信号ＶAの特徴ベクトル系列ＸAとからＶＱ歪ＤBAを算定し、音声信号ＶAのＶＱ符号帳ＣAと当該音声信号ＶAの特徴ベクトル系列ＸAとからＶＱ歪ＤAAを算定し、音声信号ＶBのＶＱ符号帳ＣBと当該音声信号ＶBの特徴ベクトル系列ＸBとからＶＱ歪ＤBBを算定する。

以上の４種類のＶＱ歪Ｄ（ＤAB，ＤBA，ＤAA，ＤBB）は、例えば以下の式(1)〜(4)で算定される。

式(1)〜(4)におけるｄ(v,u)は、ベクトルｖとベクトルｕとの距離（例えばユークリッド距離）を意味する。式(1)に示すように、ＶＱ歪ＤABは、特徴ベクトル系列ＸBの特徴ベクトルｘB(j)とＶＱ符号帳ＣAの|ＣA|個のコードベクトルとの距離の最小値（min）をｎB個の特徴ベクトルｘB(1)〜ｘB(nB)について平均化した数値である。したがって、ＶＱ符号帳ＣAの表す音響的な特徴と特徴ベクトル系列ＸBの表す音響的な特徴とが類似するほどＶＱ歪ＤABは小さくなる。他のＶＱ歪Ｄ（ＤBA，ＤAA，ＤBB）についても以上の関係が同様に成立する。

第２算定部１６２は、第１算定部１６１が算定した４種類のＶＱ歪Ｄ（ＤAB，ＤBA，ＤAA，ＤBB）に基づいてＶＱクロス歪ＤCを算定する。ＶＱクロス歪ＤCを算定するための演算式は、ＶＱ歪ＤABまたはＶＱ歪ＤBAが大きいほどＶＱクロス歪ＤCが増加し、ＶＱ歪ＤAAまたはＶＱ歪ＤBBが大きいほどＶＱクロス歪ＤCが減少するように設定される。第２算定部１６２は、例えば以下の式(5)を使用してＶＱクロス歪ＤCを算定する。

式(5)で算定されたＶＱクロス歪ＤCは音声信号ＶAと音声信号ＶBとが類似するほど小さい数値となる。したがって、音声信号ＶAと音声信号ＶBとの類否を判定する基準としてＶＱクロス歪ＤCが好適に採用され得る。例えば、制御装置１０は、ＶＱクロス歪ＤCが所定の閾値Ｄthを下回る場合には音声信号ＶAと音声信号ＶBとが類似すると判定し、ＶＱクロス歪ＤCが閾値Ｄthを上回る場合には音声信号ＶAと音声信号ＶBとが類似しないと判定する。

本願発明者の試験によれば、ＶＱクロス歪ＤCを利用した場合には、例えばＶＱ歪ＤABやＶＱ歪ＤBAのみを利用した場合と比較して、音声信号ＶAと音声信号ＶBとの類否を高精度に判定できるという知見が得られた。音声の類否を判定する精度がＶＱクロス歪ＤCの利用によって向上する理由は以下のように推測される。

いま、音声信号ＶAから生成されるＶＱ符号帳ＣAのひとつのコードベクトルＣA(i)に着目する。音声信号ＶAの時間長が短い場合や音声信号ＶAに雑音が含まれる場合、音声信号ＶAから生成されるコードベクトルＣA(i)には誤差が発生し易い。例えば、音声信号ＶAの本来の特性からすれば図２のベクトルＶ0がコードベクトルＣA(i)として特定されるべきであるにも拘わらず、音声信号ＶAの時間長の不足や雑音の影響で、図２のベクトルＶEがコードベクトルＣA(i)として特定される場合がある。

音声信号ＶAと音声信号ＶBとで発声者が同一人である場合、音声信号ＶBの特徴ベクトルｘB(j)は図２のベクトルＶ0に近接する。しかし、実際にはベクトルＶEがコードベクトルＣA(i)として特定されているから、ＶＱ符号帳ＣAと特徴ベクトル系列ＸBとから算定されるＶＱ歪ＤABは大きい数値となる。したがって、例えば音声信号ＶAと音声信号ＶBとの類否の判定にＶＱ歪ＤABのみを使用した場合には、音声信号ＶAと音声信号ＶBとで発声者が別人であると誤判定される可能性が高まる。

一方、ＶＱ歪ＤAAは、コードベクトルＣA(i)が本来のベクトルＶ0から乖離するほど大きい数値となる。したがって、ＶＱ歪ＤABからＶＱ歪ＤAAを減算した数値は、音声信号ＶAと音声信号ＶBとで発声者が同一人であれば充分に小さい数値となる。換言すると、ＶＱ歪ＤABからＶＱ歪ＤAAを減算した数値は、音声信号ＶAの本来のベクトルＶ0（音声信号ＶAの時間長が充分に確保されて雑音が重畳されていないと仮定した場合のコードベクトル）をコードベクトルＣA(i)と仮定したＶＱ符号帳ＣAと特徴ベクトル系列ＸBとから算定されるＶＱ歪に近い数値となる。以上の性質はＶＱ歪ＤBAからＶＱ歪ＤBBを減算した数値についても妥当する。すなわち、ＶＱクロス歪ＤCは、音声信号ＶAまたは音声信号ＶBの時間長が短い場合や雑音が重畳されている場合であっても、音声信号ＶAと音声信号ＶBとで音響的な特性が類似すれば（典型的には発声者が同一人であれば）小さい数値になるという性質がある。したがって、音声信号ＶAと音声信号ＶBとの類否を判定する精度が向上するという前述の効果が奏される。

なお、音声信号ＶAおよび音声信号ＶBの一方に時間長の不足や雑音の重畳がある場合、ＶＱ歪ＤABからＶＱ歪ＤAAを減算した数値（またはＶＱ歪ＤABのみ）のみに基づいて音声信号ＶAと音声信号ＶBとの類否を判定する構成や、ＶＱ歪ＤBAからＶＱ歪ＤBBを減算した数値（またはＶＱ歪ＤBAのみ）のみに基づいて音声信号ＶAと音声信号ＶBとの類否を判定する構成では誤判定が発生する場合がある。図１の構成においては、ＶＱ歪ＤABおよびＶＱ歪ＤAAの差分値とＶＱ歪ＤBAおよびＶＱ歪ＤBBの差分値との加算値がＶＱクロス歪ＤCとして音声信号ＶAと音声信号ＶBとの類否の判定に使用されるから、音声信号ＶAおよび音声信号ＶBの一方における時間長の不足や雑音の影響を緩和して高精度な判定が実現されるという利点がある。

＜Ｂ：第２実施形態＞
図３は、第２実施形態に係る音声処理装置１０１の構成を示すブロック図である。同図に示すように、音声処理装置１０１は、１実施形態と同様の制御装置１０と記憶装置３０とを具備する。制御装置１０には入力装置４２と出力装置４４とが接続される。入力装置４２は、利用者による操作の内容を制御装置１０に通知する。出力装置４４は、制御装置１０による制御のもとに各種の画像を表示する表示機器である。

記憶装置３０は、音声の時間軸上における波形を表す音声信号Ｖを記憶する。図４の部分(A)には、音声信号Ｖの時間軸上の波形が例示されている。本形態の音声信号Ｖが表す音声は、複数の参加者が随時に発言する会議において収音機器を利用して収録された音声である。

図３の制御装置１０は、記憶装置３０に格納されたプログラムを実行することで音声信号Ｖから会議の議事録を作成する。議事録は、各参加者の発言の内容を参加者毎に時系列に配列した会議の記録である。図３に示すように、制御装置１０は、図１のＶＱクロス歪算定部１６に加えて、音声区分部１２と特徴抽出部１４と分類処理部２２と音声認識部２４として機能する。なお、制御装置１０の各機能は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、制御装置１０は、複数の集積回路に分散して実装されてもよい。

音声区分部１２は、図４の部分(D)に示すように、記憶装置３０に格納された音声信号Ｖを、時間軸上で複数の発音区間ＰA（ＰA1，ＰA2，……）と複数の非発音区間ＰBとに区分する。各発音区間ＰAは、ひとりの発声者が連続して発声したと推定される可変長の区間である。非発音区間ＰBは、発声音の音量が充分に小さい（または発声音が存在しない）可変長の区間である。

音声区分部１２は、第１処理と第２処理とを実行する。第１処理は、図４の部分(B)に示すように、音声信号ＶのうちＳ/Ｎ比や音量（振幅）が閾値を上回る区間を発音区間ＰAとして検出する処理である。発音区間ＰA以外の区間が非発音区間ＰBとなる。

複数の発声者による発声が間隔をあけずに連続する場合や部分的に重複する場合、第１処理だけでは音声信号Ｖを発声者毎に区分することは困難である。そこで、音声区分部１２は、図４の部分(C)および部分(D)に示すように、音声信号Ｖの波形の包絡線（エンベロープ）Ｅに現れる複数の谷部Ｄの各々を境界として各発音区間ＰAを区分する第２処理を実行する。人間による一連の発話には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。したがって、谷部Ｄを境界として発音区間ＰAを区分する構成によれば、複数の発話が連続または重複する場合であっても、各発声者による発声は別個の発音区間ＰAに区分される。音声区分部１２による区分後の発音区間ＰA（ＰA1，ＰA2，……）の総数を以下ではＫ個（Ｋは２以上の正数）とする。なお、図４の部分(D)に示すように、非発音区間ＰBは、内部に谷部Ｄがあっても第２処理では分割されない。

図３の特徴抽出部１４は、Ｋ個の発音区間ＰAの各々について特徴ベクトル系列ＸとＶＱ符号帳Ｃとを生成して記憶装置３０に格納する。ひとつの発音区間ＰAの特徴ベクトル系列Ｘは、当該発音区間ＰAを区分した各フレームの音声信号Ｖから抽出された特徴ベクトルｘ（例えばＭＦＣＣ）の時系列である。ＶＱ符号帳Ｃは、特徴ベクトル系列Ｘから生成される。ＶＱクロス歪算定部１６は、特徴抽出部１４による抽出の結果に基づいてＶＱクロス歪ＤCを算定する。

分類処理部２２は、音声区分部１２が画定したＫ個の発音区間ＰAを、ＶＱクロス歪算定部１６が算定したＶＱクロス歪ＤCに基づいて発声者毎に分類する。Ｋ個の発音区間ＰAのうち発声者が共通する可能性の高い複数の発音区間ＰA（相互間のＶＱクロス歪ＤCが小さい複数の発音区間ＰA）は共通の集合（クラスタ）に分類される。非発音区間ＰBは分類の対象から除外される。

音声認識部２４は、分類処理部２２による分類後の各発音区間ＰAの音声信号Ｖから発声者毎の発言の内容を文字として特定する。各発音区間ＰAの音声信号Ｖから文字を認識する処理には、公知の音声認識技術が任意に採用される。例えば、音声認識部２４は、第１に、ひとつのクラスタに分類された各発音区間ＰAの音声信号Ｖの音響的な特徴量に応じて初期的な音響モデルを更新（話者適応）することで、当該クラスタに対応した発声者の特徴を固有に反映した音響モデルを生成し、第２に、話者適応後の音響モデルとクラスタ内の各発音区間ＰAの音声信号Ｖから抽出された特徴量を対比することで、発声者が発言した文字を特定する。制御装置１０は、音声認識部２４による処理の結果を出力装置４４に出力する。出力装置４４は、発声の時刻と、発声者の識別符号（例えば発声者の氏名）と、当該発声の内容について音声認識部２４が同定した文字とを時系列に配列した議事録の画像を表示する。なお、制御装置１０が作成した議事録を印刷する印刷装置を出力装置４４として採用してもよい

次に、図５を参照して音声処理装置１０１の動作（特に分類処理部２２の動作）について詳述する。入力装置４２に対する操作によって利用者が議事録の作成を指示すると、音声区分部１２による音声信号Ｖの区分と特徴抽出部１４による特徴ベクトル系列ＸおよびＶＱ符号帳Ｃの生成とに続いて図５の処理が開始される。

議事録の作成を指示すると、利用者は、入力装置４２を適宜に操作することで音声信号Ｖの収録時における話者数Ｍを入力する。分類処理部２２は、利用者が入力した話者数Ｍを入力装置４２から取得する（ステップＳA0）。さらに、分類処理部２２は、各発音区間ＰAに分類先の候補となるクラスタの番号（以下「クラスタ番号」という）ｎを「１」に初期化する（ステップＳA1）。すなわち、分類処理部２２は、クラスタ番号ｎが「１」であるクラスタＣL1を指定する。分類処理部２２が現に指定しているクラスタを以下では特に「対象クラスタ」と表記する。

次いで、分類処理部２２は、現段階で何れのクラスタにも分類されていない発音区間ＰAのうち時間長が最長であるひとつの発音区間ＰAを選択する（ステップＳA2）。そして、分類処理部２２は、ステップＳA2で選択した発音区間ＰAを対象クラスタＣLnに分類する（ステップＳA3）。すなわち、分類処理部２２は、ステップＳA2で選択した発音区間ＰAの始点および終点の時刻と現段階のクラスタ番号ｎとを対応させて記憶装置３０に格納する。図４の部分(E1)には、図５の処理を開始した直後のステップＳA3にて発音区間ＰA4を対象クラスタＣL1に分類した状態が例示されている。

さらに、分類処理部２２は、対象クラスタＣLnのクラスタ情報ＣINF[n]を新規に作成して記憶装置３０に格納する（ステップＳA4）。ひとつのクラスタ情報ＣINF[n]は、図６に示すように、特徴ベクトル系列ＸCLとＶＱ符号帳ＣCLと分類区間長Ｔとを含む。特徴ベクトル系列ＸCLは、対象クラスタＣＬnに分類された各発音区間ＰAについて特徴抽出部１４が抽出した特徴ベクトル系列Ｘの集合である。ＶＱ符号帳ＣCLは、特徴ベクトル系列ＸCLに対応した複数のコードベクトルを定義する符号帳である。また、分類区間長Ｔは、対象クラスタＣLnに分類された発音区間ＰAの時間長の総和である。ステップＳA4の段階ではステップＳA2で選択した発音区間ＰAのみが対象クラスタＣLnに分類されているから、当該発音区間ＰAの特徴ベクトル系列ＸおよびＶＱ符号帳Ｃが対象クラスタＣLnの特徴ベクトル系列ＸCLおよびＶＱ符号帳ＣCLに選定され、当該発音区間ＰAの時間長が分類区間長Ｔに選定される。

以上の手順で新規なクラスタ情報ＣINF[n]を作成すると、分類処理部２２は、現段階で何れのクラスタにも分類されていない発音区間ＰAのなかから時間長が最長であるひとつの発音区間ＰAを選択する（ステップＳA5）。次いで、ＶＱクロス歪算定部１６は、ステップＳA5で選択した発音区間ＰA（以下では特に「選択区間ＰA」という）について記憶装置３０に格納された特徴ベクトル系列ＸおよびＶＱ符号帳Ｃと、クラスタ情報ＣINF[n]の特徴ベクトル系列ＸCLおよびＶＱ符号帳ＣCLとに基づいて、第１実施形態と同様の方法でＶＱクロス歪ＤCを算定する（ステップＳA6）。

ＶＱクロス歪ＤCは、選択区間ＰAの音声信号Ｖを音声信号ＶAとし、対象クラスタＣLnに分類された各発音区間ＰAの音声信号Ｖを音声信号ＶBとすることで第１実施形態と同様に算定される。さらに詳述すると、ＶＱクロス歪算定部１６の第１算定部１６１は、選択区間ＰAのＶＱ符号帳Ｃと対象クラスタＣLnの特徴ベクトル系列ＸCLとのＶＱ歪ＤAB、対象クラスタＣLnのＶＱ符号帳ＣCLと選択区間ＰAの特徴ベクトル系列ＸCLとのＶＱ歪ＤBA、選択区間ＰAのＶＱ符号帳Ｃと当該選択区間ＰAの特徴ベクトル系列ＸとのＶＱ歪ＤAA、および、対象クラスタＣLnのＶＱ符号帳ＣCLと当該対象クラスタＣLnの特徴ベクトル系列ＸCLとのＶＱ歪ＤBBを前述の式(1)〜式(4)で算定する。また、第２算定部１６２は、ＶＱ歪ＤABとＶＱ歪ＤBAとＶＱ歪ＤAAとＶＱ歪ＤBBとを式(5)に代入することで、選択区間ＰA内の音声信号Ｖ（ＶA）と対象クラスタＣLnに分類された各発音区間ＰAの音声信号Ｖ（ＶB）との類否の指標となるＶＱクロス歪ＤCを算定する。

次いで、分類処理部２２は、対象クラスタＣLnのクラスタ情報ＣINF[n]内の分類区間長Ｔに応じて閾値Ｄthを設定する（ステップＳA7）。なお、閾値Ｄthの設定については後述する。分類処理部２２は、ステップＳA6にて算定したＶＱクロス歪ＤCが閾値Ｄthを下回るか否かを判定する（ステップＳA8）。ステップＳA8の結果が肯定である場合（すなわち、対象クラスタＣLnに分類された発音区間ＰAの音声信号Ｖと選択区間ＰA内の音声信号Ｖとが類似する場合）、分類処理部２２は、選択区間ＰAを対象クラスタＣLnに分類する（ステップＳA9）。すなわち、分類処理部２２は、選択区間ＰAの始点および終点の時刻と現段階のクラスタ番号ｎとを対応させて記憶装置３０に格納する。図４の部分(E2)には、発音区間ＰA5を対象クラスタＣL1に分類した状態が例示されている。

さらに、分類処理部２２は、対象クラスタＣLnのクラスタ情報ＣINF[n]を選択区間ＰAの特徴ベクトル系列Ｘに基づいて更新する（ステップＳA10）。すなわち、分類処理部２２は、ステップＳA10の直前におけるクラスタ情報ＣINF[n]の特徴ベクトル系列ＸCLに選択区間ＰAの特徴ベクトル系列Ｘの各特徴ベクトルｘを追加する。また、分類処理部２２は、追加後の特徴ベクトル系列ＸCLに対応した新たなＶＱ符号帳ＣCLを生成し、クラスタ情報ＣINF[n]のＶＱ符号帳ＣCLを新たなＶＱ符号帳ＣCLに更新する。さらに、分類処理部２２は、クラスタ情報ＣINF[n]の分類区間長Ｔに今回の選択区間ＰAの時間長を加算する。

一方、ＶＱクロス歪ＤCが閾値Ｄth以上である場合（すなわち、対象クラスタＣLnに分類された発音区間ＰAの音声信号Ｖと選択区間ＰA内の音声信号Ｖとが類似しない場合）、分類処理部２２は、ステップＳA9およびステップＳA10を経ずにステップＳA11に処理を移行する。すなわち、対象クラスタＣLnに分類された音声信号Ｖに音響的な特徴が類似しない発音区間ＰAは、当該対象クラスタＣLnには分類されない。

ステップＳA11において、分類処理部２２は、未分類の総ての発音区間ＰAについてステップＳA5からステップＳA10までの処理を完了したか否かを判定する。ステップＳA11の結果が否定である場合、分類処理部２２は、未選択で最長の発音区間ＰAをステップＳA5にて新たな選択区間ＰAとして選択したうえで、ステップＳA6以降の処理を実行する。図４の部分(E3)には、２回目以降のステップＳA9にて発音区間ＰA1を対象クラスタＣL1に分類した状態が例示されている。以上のように、分類処理部２２は、ひとつの対象クラスタＣLnの指定中に、未分類の各発音区間ＰAを時間の長い順番で順次に選択区間ＰAとして選択し、選択区間ＰAが対象クラスタＣLnに分類されるたびに、当該選択区間ＰAの特徴ベクトル系列Ｘに基づいて対象クラスタＣLnのクラスタ情報ＣINF[n]を更新する。

ところで、対象クラスタＣLnのクラスタ情報ＣINF[n]の分類区間長Ｔが長いほど（すなわち、対象クラスタＣLnの特徴ベクトル系列ＸCLを構成する特徴ベクトルｘが多いほど）、当該クラスタ情報ＣINF[n]のＶＱ符号帳ＣCLの信頼性が高まるから、対象クラスタＣLnに分類された各発音区間ＰAの音声信号Ｖと選択区間ＰA内の音声信号Ｖとが類似の場合と非類似の場合とでＶＱクロス歪ＤCの相違は拡大する。そこで、分類処理部２２は、ステップＳA7において、分類区間長Ｔが長いほど閾値Ｄthを大きい数値に設定する。以上の構成によれば、分類区間長Ｔが長く確保されるほど、特定の発声者による発声音の特性（音高や音量）が変化した場合であってもステップＳA8にて類似（YES）と判定できる可能性が高まる。したがって、発音区間ＰAの分類の漏れ（本来ならば対象クラスタＣLnに分類されるべき発音区間ＰAが分類されない状態）を防止することが可能である。

ステップＳA11において未分類の総ての発音区間ＰAの処理が完了したと判定すると、分類処理部２２は、クラスタ番号ｎに「１」を加算する（ステップＳA12）。すなわち、未分類の総ての発音区間ＰAについてステップＳA5からステップＳA11までの処理を完了するたびに新たな対象クラスタＣLnが順次に指定される。

次に、分類処理部２２は、ステップＳA12における加算後のクラスタ番号ｎが、ステップＳA0にて取得した話者数Ｍを上回るか否かを判定する（ステップＳA13）。ステップＳA13の結果が否定である場合、分類処理部２２は、ステップＳA12における更新後のクラスタ番号ｎについてステップＳA2以降の処理を実行することで各発音区間ＰAを新たな対象クラスタＣLnに分類する。

例えば、ステップＳA12で新たな対象クラスタＣL2が選択された直後のステップＳA3においては、図４の部分(E4)のように未分類で最長の発音区間ＰA2が対象クラスタＣL2に分類される。そして、直後のステップＳA4においてはクラスタ情報ＣINF[2]が記憶装置３０に生成される。すなわち、新規な対象クラスタＣLnが指定されるたびに、図６のように新規なクラスタ情報ＣINF[n]が順次に記憶装置３０に生成される。また、図４の部分(E5)には、対象クラスタＣL2の指定中のステップＳA9にて発音区間ＰA3を当該対象クラスタＣL2に分類した状態が例示されている。

一方、ステップＳA13の結果が肯定である場合（すなわち発音区間ＰAが話者数Ｍのクラスタに分類された場合）、分類処理部２２は処理をステップＳA14に移行する。ステップＳA14において、分類処理部２２は、未だ何れのクラスタにも分類されていない発音区間ＰA（以下では特に「未分類区間ＰA」という）を、既存のＭ個のクラスタＣL1〜ＣLMのうち未分類区間ＰAの音声信号Ｖに最も類似する音声信号Ｖが分類されたクラスタＣLに分類する未分類区間処理を実行する。以下では図７を参照して未分類区間処理の具体的な内容を説明する。

未分類区間処理を開始すると、分類処理部２２は、未分類区間ＰAが存在するか否かを判定する（ステップＳB1）。ステップＳB1の結果が肯定である場合、ＶＱクロス歪算定部１６は、Ｍ個のクラスタＣL1〜ＣLMの各々について、当該クラスタＣLの特徴ベクトル系列ＸCLおよびＶＱ符号帳ＣCLと未分類区間ＰAの特徴ベクトル系列ＸおよびＶＱ符号帳Ｃとに基づいて第１実施形態と同様の手順でＶＱクロス歪ＤCを算定する（ステップＳB2）。次いで、分類処理部２２は、ステップＳB2にて算定したＭ個のＶＱクロス歪ＤCのなかから最小値Ｄminを選定し（ステップＳB3）、最小値Ｄminが閾値ＴＨを下回るか否かを判定する（ステップＳB4）。閾値ＴＨは、ステップＳA7で設定される閾値Ｄthよりも大きい数値に設定される。

ステップＳB4の結果が肯定である場合（類似）、分類処理部２２は、ＶＱクロス歪ＤCが最小値ＤminとなったクラスタＣLに未分類区間ＰAを分類する（ステップＳB5）。一方、ステップＳB4の結果が否定である場合、分類処理部２２はステップＳB5を実行しない。すなわち、未分類区間ＰAは何れのクラスタＣL1〜ＣLMにも分類されず、非発音区間ＰBと同等に処理される。ステップＳB2からステップＳB5の処理は総ての未分類区間ＰAについて反復される。分類処理部２２は、総ての未分類区間ＰAについて処理が完了した段階（ステップＳB1：NO）で未分類区間処理を終了する。

以上に説明したように、本形態においては、対象クラスタＣLnに分類された各発音区間ＰAの音声信号Ｖと選択区間ＰAの音声信号Ｖとの類否の判定にＶＱクロス歪ＤCが使用されるから、複数の発音区間ＰAを高い精度で発声者毎に分類することが可能である。したがって、音声信号Ｖから正確な議事録を作成することができる。

さらに、未分類の発音区間ＰAが時間の長い順番で選択区間ＰAとして順次に選択され、対象クラスタＣLnに分類された選択区間ＰAがクラスタ情報ＣINF[n]の更新に使用される。時間長が長い発音区間ＰAほど特徴ベクトル系列Ｘ内の特徴ベクトルｘの総数が多いから、例えば未分類の発音区間ＰAを時間の短い順番や時系列の順番に選択区間ＰAとして選択する構成と比較して迅速に、クラスタ情報ＣINF[n]のＶＱ符号帳ＣCLを、多数の特徴ベクトルｘを反映した信頼性の高いＶＱ符号帳ＣCL（すなわち各発声者の実際の発声音の特性を忠実に反映した符号帳）に更新することが可能である。また、ステップＳA4におけるクラスタ情報ＣINF[n]の新規作成には、未分類で最長の発音区間ＰAが使用されるから、例えば時間長が最短の発音区間ＰAや時間的に最先の発音区間ＰAがクラスタ情報ＣINF[n]の作成に使用される構成と比較して、ステップＳA4で新規に作成されるＶＱ符号帳ＣCLの信頼性も高い。以上のように分類の早期の段階でＶＱ符号帳ＣCLの信頼性が確保されるから、本形態によれば各発音区間ＰAを高精度に分類できるという利点がある。

また、本形態においては、発音区間ＰAの分類数が話者数Ｍに到達した段階で分類が終了するから、発音区間ＰAを現実の発声者の総数に分類することが容易である。さらに、分類の終了時における未分類区間ＰAは、音響的な特性が最も類似するクラスタＣLに分類されるから、例えば未分類区間ＰAを破棄する構成（ステップＳA14を省略した構成）と比較して、発音区間ＰAの分類の漏れが有効に抑制される。会議の議事録においては発言の欠落（記載漏れ）が特に重大な問題となり得るから、未分類区間処理による以上の効果は格別に有効である。

なお、本形態においては、分類区間長Ｔが長いほど閾値Ｄthを大きい数値に設定することで分類漏れを防止する場合を例示したが、類否の判定の厳格化を優先させるべき場合には閾値Ｄthを分類区間長Ｔに対して以上の例示とは逆方向に変化させてもよい。すなわち、分類区間長Ｔが長いほど分類処理部２２が閾値Ｄthを減少させる構成によれば、別人の音声が類似すると誤判定される可能性を低減することが可能である。なお、対象クラスタＣLnに分類された発音区間ＰA内の特徴ベクトルｘの総数や当該発音区間ＰA内のフレームの総数を分類区間長Ｔとして利用してもよい。

＜Ｃ：第３実施形態＞
次に、本発明の第３実施形態について説明する。第２実施形態においては、発音区間ＰAの分類数（クラスタ数）が話者数Ｍに到達した段階で分類を終了する構成を例示した。これに対し、本形態においては、Ｋ個の発音区間ＰAの総てが何れかのクラスタＣLに分類されるまで発音区間ＰAの分類が継続される。

図８は、分類処理部２２の動作を示すフローチャートである。同図に示すように、ステップＳA0からステップＳA12までの処理は第２実施形態と同様である。ステップＳA12に続いて、分類処理部２２は、全部（Ｋ個）の発音区間ＰAを分類し終えたか否かを判定する（ステップＳA15）。ステップＳA15の結果が否定である場合、分類処理部２２は、直前のステップＳA12にて新たに指定した対象クラスタＣLnについてステップＳA2以降の処理を実行する。すなわち、総ての発音区間ＰAが何れかのクラスタＣLに分類されるまでステップＳA2からステップＳA12の処理が反復される。したがって、最終的な分類数（クラスタ数）Ｎは話者数Ｍを上回る可能性がある。

ステップＳA15の結果が肯定である場合、分類処理部２２は、現段階における分類数ＮがステップＳA0にて特定された話者数Ｍを上回るか否かを判定する（ステップＳA16）。ステップＳA16の結果が否定である場合（すなわち発音区間ＰAが話者数Ｍのクラスタに分類された場合）、分類処理部２２は図８の処理を終了する。一方、ステップＳA16の結果が肯定である場合、分類処理部２２は、分類数Ｎが話者数Ｍ以下となるまで複数のクラスタを順次に併合する（ステップＳA17およびステップＳA18）。

ステップＳA17において、分類処理部２２は、Ｎ個のなかから２個のクラスタＣLを選択する全通り（_NＣ₂通り）の組合せについてＶＱクロス歪ＤCを算定する。すなわち、ひとつのクラスタＣLのクラスタ情報ＣINF内の特徴ベクトル系列ＸCLおよびＶＱ符号帳ＣCLと、別のクラスタＣLのクラスタ情報ＣINF内の特徴ベクトル系列ＸCLおよびＶＱ符号帳ＣCLとから第１実施形態と同様の手順でＶＱクロス歪ＤCが算定される。

ステップＳA18において、分類処理部２２は、_NＣ₂通りの組合せのうちＶＱクロス歪ＤCが最小となる組合せに属する２個のクラスタＣLを併合したうえで分類数Ｎから「１」を減算する。さらに詳述すると、分類処理部２２は、ＶＱクロス歪ＤCが最小となる２個のクラスタＣLの各々の特徴ベクトル系列ＸCLの集合である新たな特徴ベクトル系列ＸCLと、新たな特徴ベクトル系列ＸCLに対応したＶＱ符号帳ＣCLをクラスタ情報ＣINFに格納する。以上に説明したクラスタＣLの併合が反復されることでステップＳA16の結果が否定に変化する。本形態においても第２実施形態と同様の効果が奏される。

＜Ｄ：第４実施形態＞
図９は、本発明の第４実施形態に係る音声処理装置１０１のＶＱクロス歪算定部１６および分類処理部２２の動作を示すフローチャートである。音声区分部１２がＫ個の発音区間ＰAを画定し、特徴抽出部１４が各発音区間Ｐについて特徴ベクトル系列ＸおよびＶＱ符号帳Ｃを生成して記憶装置３０に格納すると、第２実施形態における図５の処理の代わりに図９の処理が実行される。Ｋ個の発音区間ＰAの各々には固有の識別子（番号）が付与される。

図９に示すように、分類処理部２２は、Ｋ個の発音区間ＰAのなかからひとつの発音区間ＰA（以下では特に「選択区間ＰA」という）を選択する（ステップＳC1）。ＶＱクロス歪算定部１６は、選択区間ＰAと選択区間ＰA以外の総て（(Ｋ−１)個）の発音区間ＰA（以下では選択区間ＰAと区別するために特に「対比区間ＰA」と表記する場合がある）の各々とのＶＱクロス歪ＤCを算定する（ステップＳC2）。

ＶＱクロス歪ＤCは、選択区間ＰA内の音声信号Ｖを音声信号ＶAとし、対比区間ＰA内の音声信号Ｖを音声信号ＶBとすることで第１実施形態と同様の手順で算定される。さらに詳述すると、ＶＱクロス歪算定部１６の第１算定部１６１は、(Ｋ−１)個の対比区間ＰAの各々について、選択区間ＰAのＶＱ符号帳Ｃと対比区間ＰAの特徴ベクトル系列ＸとのＶＱ歪ＤAB、対比区間ＰAのＶＱ符号帳Ｃと選択区間ＰAの特徴ベクトル系列ＸとのＶＱ歪ＤBA、選択区間ＰAのＶＱ符号帳Ｃと当該選択区間ＰAの特徴ベクトル系列ＸとのＶＱ歪ＤAA、および、対比区間ＰAのＶＱ符号帳Ｃと当該対比区間ＰAの特徴ベクトル系列ＸとのＶＱ歪ＤBBを式(1)〜式(4)で算定する。また、第２算定部１６２は、ＶＱ歪ＤABとＶＱ歪ＤBAとＶＱ歪ＤAAとＶＱ歪ＤBBとを式(5)に代入することで、選択区間ＰA内の音声信号Ｖ（ＶA）と対比区間ＰA内の音声信号Ｖ（ＶB）との類否の指標となるＶＱクロス歪ＤCを算定する。

次いで、分類処理部２２は、(Ｋ−１)個の対比区間ＰAの各々の識別子を、選択区間ＰAとのＶＱクロス歪ＤCが小さい順番（すなわち類似度が高い順番）にソートする（ステップＳC3）。例えば、識別子「１」の選択区間ＰAに対して識別子「13」の対比区間ＰAのＶＱクロス歪ＤCが最小値であって識別子「16」の対比区間ＰAのＶＱクロス歪ＤCが最大値であるとすれば、図１０に示すように、識別子「１」の選択区間ＰAについては識別子「13」が最上位で識別子「16」が最下位となるように(Ｋ−１)個の識別子が配列される。

ステップＳC4において、分類処理部２２は、Ｋ個の発音区間ＰAについてステップＳC1からステップＳC3の処理を完了したか否かを判定する。ステップＳC4の結果が否定である場合、分類処理部２２は、現段階とは別の発音区間ＰAを新たな選択区間ＰAとして選択したうえで（ステップＳC1）、(Ｋ−１)個の対比区間ＰAの各々に対するＶＱクロス歪ＤCの算定（ステップＳC2）と各対比区間ＰAの識別子の並べ替え（ステップＳC3）とを実行する。したがって、ステップＳC4の結果が肯定となる段階では、Ｋ個の発音区間ＰAのなかから２個の発音区間ＰA（選択区間ＰAと対比区間ＰA）を選択する総ての組合せの各々についてＶＱクロス歪ＤCが算定される。そして、図１０に示すように、Ｋ個（図１０ではＫ＝１６）の発音区間ＰAの各々について、他の(Ｋ−１)個の発音区間ＰAの識別子をＶＱクロス歪ＤCの昇順に配列したテーブル（以下「類似度マップ」という）ＭＰが完成する。

類似度マップＭＰを作成すると、分類処理部２２は、Ｋ個の発音区間ＰAの各々と当該発音区間ＰAに対するＶＱクロス歪ＤCが最小となる発音区間ＰAとが同じクラスタＣLに属するように、類似度マップＭＰを参照してＫ個の発音区間ＰAを複数のクラスタＣLに分類する（ステップＳC5）。すなわち、分類処理部２２は、ひとつの発音区間ＰAと、類似度マップＭＰにて当該発音区間ＰAに対して最上位に位置する識別子の発音区間ＰAとを同じクラスタＣLに含ませる。例えば、図１０に例示した類似度マップＭＰにおいて、識別子「１」の発音区間ＰAに対しては識別子「13」が最上位に位置し、識別子「９」の発音区間ＰAに対しては識別子「13」が最上位に位置し、識別子「13」の発音区間ＰAに対しては識別子「９」が最上位に位置する。したがって、分類処理部２２は、識別子「１」，「９」および「13」の３個の発音区間ＰAを同じクラスタＣL1に分類する。同様に、識別子「２」，「３」，「４」および「14」の４個の発音区間ＰAはクラスタＣL2に分類され、識別子「５」および「10」の２個の発音区間ＰAはクラスタＣL3に分類される。

ところで、ステップＳC5においては各発音区間ＰAに対するＶＱクロス歪ＤCが最小となる発音区間ＰAを同じクラスタＣLに分類するから、例えばひとりの発声者がひとつの発音区間ＰAのみで発声した場合であっても、当該発音区間ＰAは、ＶＱクロス歪ＤCが最小となる他の発音区間ＰA（別の発声者の発音区間ＰA）と同じクラスタＣLに分類される。そこで、分類処理部２２は、Ｋ個の発音区間ＰAのうち自身以外の(Ｋ−１)個の発音区間ＰAに対する類似度が所定値を下回る順位にある発音区間ＰA（他の発音区間ＰAとのＶＱクロス歪ＤCが大きい発音区間ＰA）については、ステップＳC5にて分類されたクラスタＣLから除外して単独でひとつのクラスタＣLに分類する（ステップＳC6）。

例えば、図１０の場合において、識別子「16」の発音区間ＰAに対しては識別子「12」が最上位にある（すなわち、(Ｋ−１)個の発音区間ＰAのなかでは識別子「12」の発音区間ＰAの音声信号Ｖに最も類似する）から、ステップＳC5の段階では識別子「16」の発音区間ＰAは識別子「12」の発音区間ＰAと同じクラスタＣL4に分類される。しかし、識別子「16」は、他の総ての識別子「１」〜「15」の発音区間ＰAに対して類似度マップＭの最下位に設定されている。すなわち、識別子「16」の発音区間ＰA内の音声信号Ｖは、他の何れの発音区間ＰAの音声信号Ｖにも類似しない。したがって、分類処理部２２は、識別子「16」の発音区間ＰAを、ステップＳC5にて分類されたクラスタＣL4から除外して独立のクラスタＣL6に分類する。以上の構成によれば、特定の発声者が発生した唯一の発音区間ＰA（識別子「16」）を他の発声者のクラスタＣLと混合することなく適切に分類することが可能である。

ＶＱクロス歪ＤCを固定の閾値と比較することで音声信号Ｖの類否を判定する場合、音声信号Ｖの収録時の環境（例えば発声長やＳ/Ｎ比といった音響的な条件）によっては類否を正確に判定できない場合がある。これに対して本形態においては、ＶＱクロス歪ＤCが最小となる各発音区間ＰAが同じクラスタＣLに分類されるから、ＶＱクロス歪ＤCと所定の閾値との比較は不要である。したがって、音声信号Ｖの収録時の環境に拘わらず各発音区間ＰAの音声信号Ｖを発声者毎に正確に分類することが可能となり、会議における各発言が参加者毎に適切に区別された議事録を作成することができる。

また、各発音区間ＰAとのＶＱクロス歪ＤCが最小となる発音区間ＰAが特定されるだけではなく、各発音区間ＰAに対する類似度の順位を示す類似度マップＭＰが作成される。したがって、他の発音区間ＰAに対する類似度の順位が下位にある発音区間ＰA（例えば図１０の識別子「16」の発音区間ＰA）を図９のステップＳC6にてクラスタＣLから除外するといった具合に、類似度マップＭＰを参照することで各発音区間ＰAの分類の精度を高めることが可能となる。なお、図９のステップＳC5に先立ってステップＳC6を実行してもよい。

＜Ｅ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
第２実施形態から第４実施形態においては、ＶＱクロス歪ＤCに基づいて複数の発音区間ＰAを複数のクラスタＣLに分類したが、ＶＱクロス歪ＤCを利用する音声処理は発音区間ＰAの分類に限定されない。例えば、以下に例示するように話者照合や話者識別にＶＱクロス歪ＤCを利用してもよい。

［Ａ：話者照合］
記憶装置３０は、正規の利用者が事前に入力した音声信号Ｖ（以下「登録音声信号」という）の特徴ベクトル系列ＸとＶＱ符号帳Ｃとを記憶する。音声処理の対象となる音声信号（以下「対象音声信号」という）が収音機器（図示略）から入力されると、制御装置１０は、対象音声信号から特徴ベクトル系列ＸとＶＱ符号帳Ｃとを生成し、登録音声信号の特徴ベクトル系列ＸおよびＶＱ符号帳Ｃと対象音声信号の特徴ベクトル系列ＸおよびＶＱ符号帳ＣとからＶＱクロス歪ＤCを算定する。制御装置１０は、ＶＱクロス歪ＤCが閾値Ｄth（固定値または可変値）を下回る場合には対象音声信号の入力者を正規の利用者と判定する一方、ＶＱクロス歪ＤCが閾値Ｄthを上回る場合には対象音声信号の入力者を詐称者と判定する。

［Ｂ：話者識別］
記憶装置３０は、音声信号Ｖの特徴ベクトル系列ＸおよびＶＱ符号帳Ｃを識別子に対応させた話者情報を複数の利用者の各々について記憶する。制御装置１０は、収音機器に入力された対象音声信号から特徴ベクトル系列ＸとＶＱ符号帳Ｃとを生成し、複数の話者情報の各々について、当該話者情報の特徴ベクトル系列ＸおよびＶＱ符号帳Ｃと対象音声信号の特徴ベクトル系列ＸおよびＶＱ符号帳ＣとからＶＱクロス歪ＤCを算定する。制御装置１０は、ＶＱクロス歪ＤCが最小となる話者情報を特定し、当該話者情報に含まれる識別子を画像や音声として出力する。

（２）変形例２
式(5)においては、ＶＱ歪ＤABからＶＱ歪ＤAAを減算した数値（ＤAB−ＤAA）とＶＱ歪ＤBAからＶＱ歪ＤBBを減算した数値（ＤBA−ＤBB）との加算に基づいてＶＱクロス歪ＤCを算定したが、ＶＱクロス歪ＤCの算定の方法は適宜に変更される。例えば、以下の式(6)に示すように、ＶＱ歪ＤABをＶＱ歪ＤAAで除算した数値（ＤAB／ＤAA）とＶＱ歪ＤBAをＶＱ歪ＤBBで除算した数値（ＤBA／ＤBB）との加算に基づいて第２算定部１６２がＶＱクロス歪ＤCを算定する構成も好適である。

すなわち、ＶＱ歪ＤABまたはＶＱ歪ＤBAが大きいほどＶＱクロス歪ＤCが増加し、ＶＱ歪ＤAAまたはＶＱ歪ＤBBが大きいほどＶＱクロス歪ＤCが減少するように、ＶＱ歪ＤABとＶＱ歪ＤBAとＶＱ歪ＤAAとＶＱ歪ＤBBとに基づいてＶＱクロス歪ＤCを算定する構成が好適である。

（３）変形例３
第２実施形態から第４実施形態においては、複数の発音区間ＰAの分類前に総ての発音区間ＰAについて特徴ベクトル系列ＸとＶＱ符号帳Ｃとを生成したが、発音区間ＰAの分類時に特徴ベクトル系列ＸとＶＱ符号帳Ｃとが順次に生成される構成も好適である。例えば、図５のステップＳA2やステップＳA5にて発音区間ＰAを選択するたびに当該発音区間ＰAの特徴ベクトル系列ＸとＶＱ符号帳Ｃとが生成される。したがって、総ての発音区間ＰAの特徴ベクトル系列ＸとＶＱ符号帳Ｃとが同時に記憶装置３０に格納されている必要はない。

（４）変形例４
第２実施形態や第３実施形態においては分類区間長Ｔに応じて閾値Ｄthを制御したが、閾値Ｄthを決定する基準となる数値は分類区間長Ｔに限定されない。例えば、音声信号ＶのＳ/Ｎ比に基づいて閾値Ｄthを制御する構成も採用される。すなわち、分類処理部２２は、ステップＳA5にて選択した選択区間ＰAの音声信号ＶからＳ/Ｎ比を算定し、Ｓ/Ｎ比が低いほど閾値Ｄthを大きい数値に設定する。音声信号Ｖの特徴ベクトルｘは雑音の影響を受けるから、閾値Ｄthが固定であるとすれば、音声信号ＶのＳ/Ｎ比が低いほど、実際には類似する音声信号ＶがステップＳA8にて非類似と誤判定される可能性が高い。Ｓ/Ｎ比に応じて閾値Ｄthを可変に制御する構成によれば、Ｓ/Ｎ比に起因した誤判定の可能性が低減されるという利点がある。

（５）変形例５
音声信号Ｖの区分には、以上の例示の他にも公知の技術が任意に採用される。例えば、Ｓ/Ｎ比や音量と閾値との大小のみに応じて音声信号Ｖを発音区間ＰAと非発音区間ＰBとに区分する構成（音声区分部１２が第１処理のみを実行する構成）も採用される。また、発音区間ＰAと非発音区間ＰBとを区別する必要は必ずしもない。例えば、包絡線Ｅの谷部Ｄのみを境界として音声信号Ｖを複数の区間に区分する構成（音声区分部１２が第２処理のみを実行する構成）も採用される。

（６）変形例６
以上の各形態においては記憶装置３０に予め記憶された音声信号Ｖを処理の対象としたが、収音装置（マイクロホン）から供給される音声信号Ｖや通信網を経由して順次に供給される音声信号Ｖを対象として実時間的に処理を実行してもよい。

（７）変形例７
音声信号Ｖが表す音の種類は人間の発声音に限定されない。例えば、複数種の楽器が順次に演奏されたときの演奏音を採取した音声信号Ｖを音声処理装置による処理の対象とすれば、各楽器の演奏音の区間を楽器の種類毎に複数のクラスタに分類することが可能となる。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。第１実施形態の効果を説明するための概念図である。本発明の第２実施形態に係る音声処理装置の構成を示すブロック図である。音声区分部および分類処理部の動作の具体例を説明するための概念図である。分類処理部の動作を示すフローチャートである。クラスタ情報の内容を説明するための概念図である。未分類区間処理の内容を示すフローチャートである。本発明の第３実施形態における分類処理部の動作を示すフローチャートである。本発明の第４実施形態における分類処理部の動作を示すフローチャートである。類似度マップの内容を示す概念図である。

符号の説明

１００，１０１……音声処理装置、１０……制御装置、１２……音声区分部、１４……特徴抽出部、１６……ＶＱクロス歪算定部、１６１……第１算定部、１６２……第２算定部、２２……分類処理部、２４……音声認識部、３０……記憶装置、４２……入力装置、４４……出力装置、Ｖ……音声信号、ＰA（ＰA1，ＰA2，…）……発音区間、ＣINF[n]……クラスタ情報、ＣL（ＣL1，ＣL2，…）……クラスタ、Ｘ（ＸA，ＸB）……特徴ベクトル系列、Ｃ（ＣA，ＣB）……ＶＱ符号帳、ＤC……ＶＱクロス歪、Ｔ……分類区間長。

Claims

第１音声信号と第２音声信号との類否の指標となるＶＱクロス歪を算定する装置であって、
前記第１音声信号および前記第２音声信号の各々について特徴ベクトル系列と当該特徴ベクトル系列に対応したＶＱ符号帳とを記憶する記憶手段と、
前記第１音声信号のＶＱ符号帳と前記第２音声信号の特徴ベクトル系列との第１ＶＱ歪、前記第２音声信号のＶＱ符号帳と前記第１音声信号の特徴ベクトル系列との第２ＶＱ歪、前記第１音声信号のＶＱ符号帳と当該第１音声信号の特徴ベクトル系列との第３ＶＱ歪、および、前記第２音声信号のＶＱ符号帳と当該第２音声信号の特徴ベクトル系列との第４ＶＱ歪を算定する第１算定手段と、
前記第１ＶＱ歪または前記第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、前記第３ＶＱ歪または前記第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、前記第１ＶＱ歪と前記第２ＶＱ歪と前記第３ＶＱ歪と前記第４ＶＱ歪とに基づいてＶＱクロス歪を算定する第２算定手段と
を具備する音声処理装置。
前記第２算定手段は、前記第１ＶＱ歪から前記第３ＶＱ歪を減算した数値と前記第２ＶＱ歪から前記第４ＶＱ歪を減算した数値との加算に基づいてＶＱクロス歪を算定する
請求項１の音声処理装置。
前記第２算定手段は、前記第１ＶＱ歪を前記第３ＶＱ歪で除算した数値と前記第２ＶＱ歪を前記第４ＶＱ歪で除算した数値との加算に基づいてＶＱクロス歪を算定する
請求項１の音声処理装置。
音声信号を時間軸上で可変長に区分した複数の区間を複数のクラスタに分類する装置であって、
前記複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したＶＱ符号帳とを記憶する記憶手段と、
前記複数の区間の分類先となる対象クラスタを順次に指定するクラスタ指定手段と、
前記対象クラスタに分類された区間の特徴ベクトル系列とＶＱ符号帳とを含むクラスタ情報を生成するクラスタ情報生成手段と、
前記対象クラスタの指定中に未分類の前記各区間を時間の長い順番で順次に選択区間として選択する区間選択手段と、
前記選択区間のＶＱ符号帳と前記対象クラスタの特徴ベクトル系列との第１ＶＱ歪、前記対象クラスタのＶＱ符号帳と前記選択区間の特徴ベクトル系列との第２ＶＱ歪、前記選択区間のＶＱ符号帳と当該選択区間の特徴ベクトル系列との第３ＶＱ歪、および、前記対象クラスタのＶＱ符号帳と当該対象クラスタの特徴ベクトル系列との第４ＶＱ歪を算定する第１算定手段と、
前記第１ＶＱ歪または前記第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、前記第３ＶＱ歪または前記第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、前記第１ＶＱ歪と前記第２ＶＱ歪と前記第３ＶＱ歪と前記第４ＶＱ歪とに基づいて、前記選択区間と前記対象クラスタとのＶＱクロス歪を算定する第２算定手段と、
前記選択区間と前記対象クラスタとの前記ＶＱクロス歪が閾値を下回る場合に当該選択区間を当該対象クラスタに分類する区間分類手段と、
前記選択区間と前記対象クラスタとの前記ＶＱクロス歪が閾値を下回る場合に、前記選択区間の特徴ベクトル系列に基づいて前記対象クラスタのクラスタ情報を更新する更新手段と
を具備する音声処理装置。
音声信号を時間軸上で区分した複数の区間の各々について音声信号の特徴ベクトル系列と当該特徴ベクトル系列に対応したＶＱ符号帳とを記憶する記憶手段と、
前記複数の区間のなかから第１区間と第２区間とを選択する複数の組合せの各々について、前記第１区間のＶＱ符号帳と前記第２区間の特徴ベクトル系列との第１ＶＱ歪、前記第２区間のＶＱ符号帳と前記第１区間の特徴ベクトル系列との第２ＶＱ歪、前記第１区間のＶＱ符号帳と当該第１区間の特徴ベクトル系列との第３ＶＱ歪、および、前記第２区間のＶＱ符号帳と当該第２区間の特徴ベクトル系列との第４ＶＱ歪を算定する第１算定手段と、
前記複数の組合せの各々について前記第１区間と前記第２区間とにおける音声信号の類否の指標となるＶＱクロス歪を算定する手段であって、前記第１ＶＱ歪または前記第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、前記第３ＶＱ歪または前記第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、前記第１ＶＱ歪と前記第２ＶＱ歪と前記第３ＶＱ歪と前記第４ＶＱ歪とに基づいてＶＱクロス歪を算定する第２算定手段と、
前記複数の区間の各々と当該区間に対するＶＱクロス歪が最も小さい区間とが同じクラスタに属するように前記複数の区間を複数のクラスタに分類する区間分類手段と
を具備する音声処理装置。
第１音声信号のＶＱ符号帳と第２音声信号の特徴ベクトル系列との第１ＶＱ歪、前記第２音声信号のＶＱ符号帳と前記第１音声信号の特徴ベクトル系列との第２ＶＱ歪、前記第１音声信号のＶＱ符号帳と当該第１音声信号の特徴ベクトル系列との第３ＶＱ歪、および、前記第２音声信号のＶＱ符号帳と当該第２音声信号の特徴ベクトル系列との第４ＶＱ歪を算定する第１算定処理と、
前記第１ＶＱ歪または前記第２ＶＱ歪が大きいほどＶＱクロス歪が大きく、前記第３ＶＱ歪または前記第４ＶＱ歪が大きいほどＶＱクロス歪が小さくなるように、前記第１ＶＱ歪と前記第２ＶＱ歪と前記第３ＶＱ歪と前記第４ＶＱ歪とに基づいてＶＱクロス歪を算定する第２算定処理と
をコンピュータに実行させるプログラム。