JP5083951B2

JP5083951B2 - 音声処理装置およびプログラム

Info

Publication number: JP5083951B2
Application number: JP2007184872A
Authority: JP
Inventors: 三樹夫東山; 道子風間; 靖雄吉岡
Original assignee: Waseda University; Yamaha Corp
Current assignee: Waseda University; Yamaha Corp
Priority date: 2007-07-13
Filing date: 2007-07-13
Publication date: 2012-11-28
Anticipated expiration: 2027-07-13
Also published as: JP2009020458A

Description

本発明は、音声信号を時間軸上で区分した複数の区間を発声者ごとに分類（クラスタリング）する技術に関する。

複数の発声者が随時に発声する環境（例えば会議）で収録された音声信号を発声者ごとに区分および分類できれば、例えば会議の議事録の作成などに利用できて便利である。特許文献１には、音声信号を時間軸上で区分した複数の区間の各々について音響的な特徴量を抽出し、特徴量の照合度（類似度）が閾値を上回る複数の区間を同じ発声者の音声信号として分類する技術が開示されている。
特開２００５−３２１５３０号公報

しかし、特許文献１の技術においては、照合度を対比する閾値が固定値であるため、発声時の条件（例えば発声の長さやＳ/Ｎ比など）によっては各区間の音声信号を正確に分類できない場合がある。発声時の条件に応じて閾値を可変に制御することも考えられるが、発声時の多様な条件に応じて最適な閾値を設定することは困難である。以上の事情に鑑みて、本発明は、音声信号を区分した複数の区間を発声者ごとに正確に分類するという課題の解決を目的としている。

以上の課題を解決するために、本発明に係る音声処理装置は、音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出手段と、複数の区間のなかから２個の区間を選択する複数の組合せについて、２個の区間における特徴量の相互相関値を算定し、複数の区間の各々（以下「選択区間」という）について、当該選択区間以外の各区間を、選択区間との相互相関値が大きい順番にソートする指標算定手段と、複数の区間の各々と当該区間に対するソート後の順位が最上位に位置する区間とが同じ集合に属するように、各区間の相互相関値に基づいて複数の区間を複数の集合に分類する音声分類手段とを具備する。以上の構成によれば、複数の区間の各々と当該区間に特徴量が最も類似する区間とが同じ集合に分類されるから、相互相関値と所定の閾値との比較は原理的には不要である。したがって、発声時の条件（例えば音声や雑音の音量）が分類の精度に与える影響を低減して複数の区間を正確に分類することが可能となる。

本発明の好適な態様において、指標算定手段は、２個の区間の特徴量の相互相関値を類否指標値として算定する。本態様によれば、類否指標値を算定する処理の負荷が低減されるという利点がある。もっとも、類否指標値は特徴量の相互相関値に限定されない。例えば、特徴抽出手段が、複数の区間の各々について音声信号の特徴ベクトルの時系列を特徴量として抽出する態様においては、２個の区間のうち一方の区間の特徴ベクトルの分布を複数の確率分布でモデル化した混合モデルから他方の区間の各特徴ベクトルが出現する尤度の平均値を指標算定手段が類否指標値として算定する構成や、２個の区間のうち一方の区間の特徴ベクトルの時系列をベクトル量子化したコードブックと他方の区間の各特徴ベクトルとのベクトル量子化歪の平均値を指標算定手段が類否指標値として算定する構成が採用される。

本発明の好適な態様において、音声分類手段は、複数の区間のうち、他の総ての区間の各々に対する類否指標値が非類似を示す区間（例えば、類似度の順位が所定値を下回る区間や類似度が他の各区間について最下位にある区間）を、他の総ての区間とは別個の集合に分類する。本態様によれば、例えばひとりの発声者がひとつの区間のみで発声したような場合であっても、当該発声の区間を他の区間とは別の集合に分類することが可能である。

本発明の好適な態様に係る音声処理装置は、音声信号の波形の包絡線における各谷部を境界として音声信号を複数の区間に区分する音声区分手段を具備する。本態様によれば、音声信号の包絡線の各谷部を境界として音声信号が複数の区間に区分されるから、例えば複数の発声者が殆ど間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間に区分することが可能である。したがって、音声分類部による分類の精度を高めることができる。

本発明に係る音声処理装置は、音声の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出処理（例えば図３のステップＳ2）と、複数の区間のなかから２個の区間を選択する複数の組合せについて、２個の区間における特徴量の相互相関値を算定し、複数の区間の各々（以下「選択区間」という）について、当該選択区間以外の各区間を、選択区間との相互相関値が大きい順番にソートする指標算定処理（例えば図３のステップＳ5およびステップＳ6）と、複数の区間の各々と当該区間に対する前記ソート後の順位が最上位に位置する区間とが同じ集合に属するように、各区間の相互相関値に基づいて複数の区間を複数の集合に分類する音声分類処理（例えば図３のステップＳ8）とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明は、音声を処理する方法としても特定される。本発明のひとつの態様に係る音声処理方法は、音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出手順と、複数の区間のなかから２個の区間を選択する複数の組合せについて、２個の区間における特徴量の類否を示す類否指標値を算定する指標算定手順と、複数の区間の各々と当該区間に特徴量が最も類似する区間とが同じ集合に属するように、各区間の類否指標値に基づいて複数の区間を複数の集合に分類する音声分類手順とを含む。以上の方法によれば、本発明に係る音声処理装置と同様の作用および効果が奏される。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置１００は、制御装置１０と記憶装置２０とを具備するコンピュータシステムである。制御装置１０は、プログラムを実行する演算処理装置である。記憶装置２０は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置２０として任意に採用される。制御装置１０には出力装置３０が接続される。本形態の出力装置３０は、制御装置１０による制御のもとに各種の画像を表示する表示機器である。

記憶装置２０は、音声の時間軸上における波形を表す音声信号Ｓを記憶する。本形態の音声信号Ｓが表す音声は、複数の参加者が随時に発言する会議において収音機器を利用して採取された音声である。図２には、音声信号Ｓの時間軸上の波形が例示されている。

図１の制御装置１０は、記憶装置２０に格納されたプログラムを実行することで音声信号Ｓから会議の議事録を作成する。議事録は、各参加者の発言の内容を参加者ごとに時系列で配列した会議の記録である。図１に示すように、制御装置１０は、音声区分部１２と分類処理部１４と音声認識部１６として機能する。なお、図１の制御装置１０の各機能は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、制御装置１０は、複数の集積回路に分散して実装されてもよい。

音声区分部１２は、図２に示すように、時間軸に沿って音声信号Ｓを複数の区間Ｂに区分する。ひとつの区間Ｂは、ひとりの発声者が連続して発言した可能性が高いと推定される期間である。人間による一連の発話（特に会議における発言）には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。以上の傾向を考慮して、本形態の音声区分部１２は、図２に示すように、音声信号Ｓの波形の包絡線（エンベロープ）Ｅに現れる複数の谷部Ｄの各々を境界として音声信号Ｓを複数の区間Ｂに区分する。

以上の構成によれば、例えばひとりの発声者の発声の最後の部分と別の発声者の発声の最初の部分とが重複する場合や、複数の発声者が間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間Ｂに区分することが可能である。なお、以下では音声信号ＳがＮ個（Ｎは自然数）の区間Ｂに区分された場合を想定する。Ｎ個の区間Ｂの各々には固有の識別子（番号）が付与される。

図１の分類処理部１４は、音声区分部１２が音声信号Ｓを区分したＮ個の区間Ｂを発声者（会議の参加者）ごとに分類するための手段である。すなわち、音声信号Ｓのうち同じ発声者が発声した可能性の高い区間Ｂは共通の集合（クラスタ）に分類される。分類処理部１４は、分類の結果を記憶装置２０に格納する。すなわち、分類処理部１４は、複数の発声者の各々の識別符号と、当該発声者のクラスタに分類された各区間Ｂの始点および終点の時刻と、当該各区間Ｂの音声信号Ｓとを対応させて記憶装置２０に格納する。

図１の音声認識部１６は、各クラスタに分類された音声信号Ｓの各区間Ｂに基づいて発声者ごとの発言の内容を文字として特定する。各区間Ｂの音声信号Ｓから文字を認識する処理には、公知の音声認識技術が任意に採用される。例えば、音声認識部１６は、第１に、ひとつのクラスタに分類された各区間Ｂの音声信号Ｓの音響的な特徴量に応じて初期的な音響モデルを更新（話者適応）することで、当該クラスタに対応した発声者の特徴を固有に反映した音響モデルを生成し、第２に、話者適応後の音響モデルとクラスタ内の各区間Ｂの音声信号Ｓから抽出された特徴量とを対比することで、発声者が発言した文字を特定する。

制御装置１０は、音声認識部１６による処理の結果を出力装置３０に出力する。出力装置３０は、発言の時刻と、発声者の識別符号（例えば発声者の氏名）と、当該発声の内容について音声認識部１６が特定した文字とが時系列に配列された議事録の画像を表示する。

次に、分類処理部１４について詳述する。図１に示すように、分類処理部１４は、特徴抽出部４１と指標算定部４３と音声分類部４５とを含む。特徴抽出部４１は、Ｎ個の区間Ｂの各々について音声信号Ｓの平均的なパワースペクトル（以下「平均パワースペクトル」という）を音響的な特徴量として抽出する。指標算定部４３は、Ｎ個の区間Ｂから２個の区間Ｂを選択する総ての組合せ（_NＣ₂通り）について、当該２個の区間Ｂにおける平均パワースペクトルの相互相関値Ｃorを算定する。相互相関値Ｃorは、２種類の平均パワースペクトルの形状の類否の指標となる数値（類否指標値）である。音声分類部４５は、平均パワースペクトルが相互に類似する各区間Ｂが同じクラスタに属するように、各区間Ｂの相互相関値Ｃorに基づいてＮ個の区間Ｂを複数のクラスタに分類（クラスタリング）する。

図３は、分類処理部１４の具体的な動作を示すフローチャートである。議事録の作成の指示を契機として音声区分部１２が音声信号ＳをＮ個の区間Ｂに区分すると図３の処理が開始される。特徴抽出部４１はステップＳ1からステップＳ3を実行し、指標算定部４３はステップＳ4からステップＳ7を実行し、音声分類部４５はステップＳ8およびステップＳ9を実行する。

図３に示すように、特徴抽出部４１は、Ｎ個のなかからひとつの区間Ｂを選択するとともに当該区間Ｂ内の音声信号Ｓを記憶装置２０から取得する（ステップＳ1）。そして、特徴抽出部４１は、ステップＳ1で選択した区間Ｂの平均パワースペクトルを特徴量として抽出する（ステップＳ2）。すなわち、特徴抽出部４１は、区間Ｂを分割した複数のフレームの各々の音声信号ＳにＦＦＴ（Fast Fourier Transform）処理を含む周波数分析を実行することで各フレームのパワースペクトルを算定し、当該区間Ｂ内の総てのフレームについてパワースペクトルを平均化することで平均パワースペクトルを算定する。ステップＳ2で算定される平均パワースペクトルのうち特定の周波数における強度は、区間Ｂ内の各フレームのパワースペクトルにおける当該周波数での強度の平均値である。ステップＳ1およびステップＳ2の処理はＮ個の区間Ｂの各々について反復される（ステップＳ3）。以上の処理によってＮ個の区間Ｂの総てについて平均パワースペクトル（Ｎ種類）が算定されると、処理はステップＳ4に移行する。

ステップＳ4において、指標算定部４３は、Ｎ個の区間Ｂのなかからひとつの区間Ｂ（以下では特に「選択区間Ｂ」という）を選択する。そして、指標算定部４３は、選択区間Ｂの平均パワースペクトルと選択区間Ｂ以外の総て（(Ｎ−１)個）の区間Ｂ（以下では選択区間Ｂと区別するために特に「対比区間Ｂ」と表記する場合がある）の各々の平均パワースペクトルとの相互相関値Ｃorを類否指標値として算定する（ステップＳ5）。選択区間Ｂの平均パワースペクトルＳＰaとひとつの対比区間Ｂの平均パワースペクトルＳＰbとの相互相関値Ｃorは、例えば以下の式(1)で算定される。

式(1)におけるＳＰa(i)は、複数の周波数（または周波数帯域）のうち変数ｉ（Ｆ1≦ｉ≦Ｆ2）で指定される周波数における平均パワースペクトルＳＰaの強度であり、ＳＰa_AVEは、周波数Ｆ1から周波数Ｆ2までの帯域における平均パワースペクトルＳＰaの強度の平均値である。同様に、ＳＰb(i)は、変数ｉに対応した周波数における平均パワースペクトルＳＰbの強度であり、ＳＰb_AVEは、周波数Ｆ1から周波数Ｆ2までの帯域における平均パワースペクトルＳＰbの強度の平均値である。平均パワースペクトルＳＰaと平均パワースペクトルＳＰbとが完全に合致する場合に相互相関値Ｃorは最大値「１」となり、両者の相違が増大するほど相互相関値Ｃorは減少していく。なお、周波数Ｆ1および周波数Ｆ2は、平均パワースペクトルにおいて発声者ごとの相違が顕著となり易い周波数帯域の下限値（Ｆ1）および上限値（Ｆ2）となるように統計的または実験的に設定される。

次いで、指標算定部４３は、(Ｎ−１)個の対比区間Ｂの各々の識別子を、選択区間Ｂとの相互相関値Ｃorが大きい順番（すなわち類似度が高い順番）にソートする（ステップＳ6）。例えば、識別子「１」の選択区間Ｂに対して識別子「13」の区間Ｂの相互相関値Ｃorが最大値であって識別子「16」の区間Ｂの相互相関値Ｃorが最小値であるとすれば、図４に示すように、識別子「１」の選択区間Ｂについては識別子「13」が最上位で識別子「16」が最下位となるように(Ｎ−１)個の識別子が配列される。

ステップＳ7において、指標算定部４３は、Ｎ個の区間ＢについてステップＳ4からステップＳ6の処理を完了したか否かを判定する。ステップＳ7の結果が否定である場合、指標算定部４３は、現段階とは別の区間Ｂを新たな選択区間Ｂとして選択したうえで（ステップＳ4）、(Ｎ−１)個の対比区間Ｂとの相互相関値Ｃorの算定（ステップＳ5）と各対比区間Ｂの識別子の並べ替え（ステップＳ6）とを実行する。したがって、ステップＳ7の結果が肯定となる段階（すなわちＮ個の区間ＢについてステップＳ4からステップＳ6の処理が完了した段階）では、図４に示すように、Ｎ個（図４ではＮ＝１６）の区間Ｂの各々について、他の(Ｎ−１)個の区間Ｂの識別子を相互相関値Ｃorの大きい順番に配列したテーブル（以下「類似度マップ」という）Ｍが完成する。

類似度マップＭが作成されると、音声分類部４５は、Ｎ個の区間Ｂの各々と当該区間Ｂに対する相互相関値Ｃor（類否指標値）が最大となる区間Ｂとが同じクラスタに属するように、類似度マップＭを参照してＮ個の区間Ｂを複数のクラスタに分類する（ステップＳ8）。すなわち、音声分類部４５は、ひとつの区間Ｂと、類似度マップＭにて当該区間Ｂに対して最上位に位置する識別子の区間Ｂとを同じクラスタに含ませる。例えば、図４に例示した類似度マップＭにおいて、識別子「１」の区間Ｂに対しては識別子「13」が最上位に位置し（すなわち識別子「１」の区間Ｂの平均パワースペクトルには識別子「13」の区間Ｂの平均パワースペクトルが最も類似する）、識別子「９」の区間Ｂに対しては識別子「13」が最上位に位置し、識別子「13」の区間Ｂに対しては識別子「９」が最上位に位置する。したがって、音声分類部４５は、識別子「１」，「９」および「13」の３個の区間Ｂを同じクラスタＧ1に分類する。同様に、識別子「２」，「３」，「４」および「14」の４個の区間ＢはクラスタＧ2に分類され、識別子「５」および「10」の２個の区間ＢはクラスタＧ3に分類される。

ところで、ステップＳ8においては各区間Ｂに対する相互相関値Ｃorが最大となる区間Ｂを同じクラスタに分類するから、例えばひとりの発声者がひとつの区間Ｂのみで発声した場合であっても、当該区間Ｂは、相互相関値Ｃorが最大となる他の区間Ｂ（別の発声者が発声した区間Ｂ）と同じクラスタに分類される。そこで、音声分類部４５は、Ｎ個の区間Ｂのうち自身以外の(Ｎ−１)個の区間Ｂに対する類似度が所定値を下回る順位にある区間Ｂ（他の区間との類似度が低い区間Ｂ）については、ステップＳ8にて分類されたクラスタから除外して単独でひとつのクラスタに分類する（ステップＳ9）。

例えば、図４の場合において、識別子「16」の区間Ｂに対しては識別子「12」が最上位にある（すなわち、Ｎ個の区間Ｂのなかでは識別子「12」の区間Ｂの平均パワースペクトルが識別子「16」の区間Ｂの平均パワースペクトルに類似する）から、ステップＳ8の段階では識別子「16」の区間Ｂは識別子「12」と同じクラスタＧ4に分類される。しかし、識別子「16」は、他の総ての識別子「１」〜「15」の区間Ｂに対して類似度マップＭの最下位に設定されている。すなわち、識別子「16」の区間Ｂの平均パワースペクトルは、他の何れの区間Ｂの平均パワースペクトルに対しても相関が低い。したがって、音声分類部４５は、識別子「16」の区間Ｂを、ステップＳ8にて分類されたクラスタＧ4から除外して独立のクラスタＧ6に分類する。以上の構成によれば、特定の発声者が発声した唯一の区間Ｂ（識別子「16」）を他の発声者のクラスタと混合することなく適切に分類することが可能である。

以上に説明したように、平均パワースペクトルの相互相関値Ｃorが最大となる各区間Ｂは同じクラスタに分類されるから、相互相関値Ｃorと所定の閾値との比較は不要である。したがって、発声時の条件に拘わらず各区間Ｂの音声信号Ｓを発声者ごとに正確に分類することが可能となり、会議における各発言が参加者ごとに忠実に区別された適切な議事録を作成することができる。

また、各選択区間Ｂとの相互相関値Ｃorが最大となる区間Ｂが特定されるだけではなく、各区間Ｂに対する類似度の順位を示す類似度マップＭが作成される。したがって、他の区間Ｂに対する類似度の順位が下位である区間Ｂ（例えば図４の識別子「16」の区間Ｂ）を図３のステップＳ9にてクラスタから除外するといった具合に、類似度マップＭを参照することで各区間Ｂの分類の精度を高めることが可能となる。

なお、第１実施形態において相互相関値Ｃorを算定する方法は適宜に変更される。例えば、平均パワースペクトルを周波数軸上で区分した複数の周波数帯域の各々における相互相関値の加算値（または加重和）を相互相関値Ｃorとして算定してもよい。すなわち、指標算定部４３は、平均パワースペクトル（ＳＰa，ＳＰb）における特定の帯域を対象として相互相関値Ｃor_aを算定するとともに別の帯域を対象として相互相関値Ｃor_bを算定し、両者の加算値や加重和を相互相関値Ｃor（Ｃor＝α・Ｃor_a＋β・Ｃor_b：αおよびβは定数）として演算する。以上の構成によれば、平均パワースペクトルのうち発声者ごとの相違が特に顕著に現れる帯域の特性を相互相関値Ｃorに対して仔細かつ有効に反映させることが可能となる。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。第１実施形態においては各区間Ｂの類否指標値として平均パワースペクトルの相互相関値Ｃorを例示した。これに対して本形態においては、各区間Ｂの音声信号Ｓを表現する混合モデルと他の各区間Ｂの特徴量とを照合した結果（平均尤度）を類否指標値として採用する。なお、以下の各形態において作用や機能が第１実施形態と同様である要素については、図１と同じ符号を付して各々の詳細な説明を適宜に省略する。

特徴抽出部４１は、図３のステップＳ2において、ステップＳ1で選択した区間Ｂの音声信号Ｓについて周波数分析を実行し、当該区間Ｂ内の各フレームにおけるＭＦＣＣ(Mel Frequency Cepstral Coefficient)のベクトル（以下「特徴ベクトル」という）ｘの時系列を特徴量として抽出する。さらに、特徴抽出部４１は、ステップＳ2において、区間Ｂ内の複数の特徴ベクトルｘの分布をＭ個の正規分布の加重和としてモデル化する混合モデルλを生成する（Ｍは自然数）。混合モデルλの生成には、ＥＭ（Expectation-Maximization）アルゴリズムなど公知の技術が任意に採用される。以上の処理がＮ回にわたって反復されることで、音声区分部１２が画定したＮ個の区間Ｂの各々について特徴ベクトルｘの時系列と混合モデルλとが特定される。

混合モデルλは、例えば以下の式(2)で表現される。
λ＝｛ｐi，μi，Σi｝（ｉ＝１〜Ｍ） ……(2)
式(2)のｐiは、第ｉ番目の正規分布の加重値（重み値）である。加重値ｐ1〜ｐMの総和は１である。式(2)のμiは第ｉ番目の正規分布の平均ベクトルであり、Σiは第ｉ番目の正規分布の共分散行列である。なお、式(2)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号（文字上の右向き矢印）を省略する。

図３のステップＳ5において、指標算定部４３は、ステップＳ4で選択した選択区間Ｂの混合モデルλと、(Ｎ−１)個の各対比区間Ｂから抽出された特徴ベクトルｘの時系列とに基づいて、(Ｎ−１)個の対比区間Ｂの各々について平均尤度Ｌを類否指標値として算定する。平均尤度Ｌは、以下に詳述するように、選択区間Ｂの混合モデルλから他の対比区間Ｂ内の特徴ベクトルｘが出現する確率（尤度）を当該対比区間Ｂ内の複数の特徴ベクトルｘについて平均した数値である。

いま、ひとつの特徴ベクトルｘをＤ次元のベクトルとすると、混合モデルλから特徴ベクトルｘが出現する尤度は以下の式(3)で算定される。

指標算定部４３は、選択区間Ｂ以外のひとつの対比区間Ｂについて特徴抽出部４１が抽出したＫ個の特徴ベクトルｘ（ｘ1〜ｘK）を式(4)に代入することで平均尤度Ｌ（対比区間Ｂの特徴ベクトルｘ1〜ｘKが選択区間Ｂの混合モデルλから出現する確率の平均値）を算定する。

以上の説明から理解されるように、選択区間Ｂの音声信号Ｓと対比区間Ｂの音声信号Ｓとで特徴ベクトルｘが類似するほど平均尤度Ｌは大きくなる。したがって、第１実施形態と同様に、指標算定部４３は、図３のステップＳ6において、(Ｎ−１)個の対比区間Ｂの各々の識別子を、平均尤度Ｌが大きい順番（すなわち類似度が高い順番）にソートする。平均尤度Ｌの算定（ステップＳ5）と識別子のソート（ステップＳ6）とがＮ回にわたって反復されることで、第１実施形態と同様の類似度マップＭが完成する。音声分類部４５の動作（ステップＳ8およびステップＳ9）は第１実施形態と同様である。本形態においても第１実施形態と同様の効果が奏される。

＜Ｃ：第３実施形態＞
本発明の第３実施形態について説明する。本形態においては、各区間Ｂの音声信号Ｓをベクトル量子化したときのコードブックと他の各区間Ｂの特徴量とを対比した結果（ＶＱ（Vector Quantization）歪）を類否指標値として採用する。

特徴抽出部４１は、図３のステップＳ2において、ステップＳ1で選択した区間Ｂの音声信号Ｓについて第２実施形態と同様の方法で特徴ベクトルｘ（例えばＭＦＣＣ）の時系列を特徴量として抽出し、当該区間Ｂ内の複数の特徴ベクトルｘの時系列からコードブックＣ^Aを作成する。特徴ベクトルｘのベクトル量子化には、k-means法やＬＢＧアルゴリズムなど公知の技術が任意に採用される。ステップＳ2がＮ回にわたって反復されることで、音声区分部１２が画定したＮ個の区間Ｂの各々について特徴ベクトルｘの時系列とコードブックＣ^Aとが特定される。

図３のステップＳ5において、指標算定部４３は、ステップＳ4で選択した選択区間ＢのコードブックＣ^Aと、(Ｎ−１)個の各対比区間Ｂの特徴ベクトルｘとに基づいて、(Ｎ−１)個の対比区間Ｂの各々についてＶＱ歪Ｄを類否指標値として算定する。ＶＱ歪Ｄは、例えば以下の式(5)で算定される。

式(5)における|Ｃ^A|は、選択区間ＢのコードブックＣ^Aのサイズであり、Ｃ^A(i)は、コードブックＣ^Aにおける第ｉ番目のコードベクトル（セントロイドベクトル）である。また、ｘjは、対比区間Ｂから抽出されたｎ_B個（対比区間Ｂ内のフレーム数）の特徴ベクトルｘ1〜ｘn_Bのなかの第ｊ番目（ｊ＝１〜ｎ_B）を意味する。ｄ（X,Y）は、ベクトルＸとベクトルＹとのユークリッド距離である。すなわち、ＶＱ歪Ｄは、選択区間ＢのコードブックＣ^A内の|Ｃ^A|個のセントロイドベクトルと対比区間Ｂの特徴ベクトルｘとの最小値（min）をｎ_B個の特徴ベクトルｘ1〜ｘn_Bにわたって平均化した数値である。したがって、選択区間Ｂの音声信号Ｓと対比区間Ｂの音声信号Ｓとで特徴ベクトルｘが類似するほどＶＱ歪Ｄは小さくなる。

指標算定部４３は、図３のステップＳ6において、(Ｎ−１)個の対比区間Ｂの各々の識別子を、ＶＱ歪Ｄが小さい順番（すなわち類似度が高い順番）にソートする。ＶＱ歪Ｄの算定（ステップＳ5）と識別子のソート（ステップＳ6）とがＮ回にわたって反復されることで第１実施形態と同様の類似度マップＭが完成する。音声分類部４５の動作は第１実施形態と同様である。本形態においても第１実施形態と同様の効果が奏される。

＜Ｄ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から２以上の態様を任意に選択して組合わせてもよい。

（１）変形例１
以上の各形態においては音声信号Ｓを区分したＮ個の区間Ｂの全部を分類の対象としたが、Ｎ個の区間Ｎを発音区間と非発音区間（音声を収録する環境内の雑音のみが存在する区間）とに選別し、発音区間のみを分類の対象としてもよい。音声区分部１２は、例えば、Ｎ個の区間Ｂのうちピーク値が閾値を下回る区間Ｂを非発音区間として分類の対象から除外する。

（２）変形例２
以上の各形態によって区間Ｂの分類に閾値の使用が不要になるとは言っても、区間Ｂの分類に閾値を使用する構成を本発明の範囲から除外する趣旨ではない。例えば、ひとつの区間Ｂに最も類似する区間Ｂ（類似度マップＭにおいて識別子が最上位に位置する区間Ｂ）を図３のステップＳ8にて選択すると、音声分類部４５は、両者間の類否指標値が閾値を上回る場合（類似度が高い場合）に限って両区間Ｂを同じクラスタに分類し、類否指標値が閾値を下回る場合には同じクラスタに分類しない。本変形例においても、類否指標値と閾値とを比較した結果のみに基づいて各区間Ｂを分類する従来の構成と比較すると、音声信号Ｓの収録時の条件（例えば雑音の大小）が各区間Ｂの分類の精度に与える影響は低減される。

（３）変形例３
特徴抽出部４１が抽出する特徴量は以上の例示に限定されない。例えば、第１実施形態において、特徴抽出部４１は、区間Ｂ内の各フレームから抽出されたＭＦＣＣの当該区間Ｂにおける平均を、平均パワースペクトルの代わりに特徴量として抽出してもよい。また、第２実施形態や第３実施形態において、区間Ｂ内における音声信号Ｓの強度の平均値や最大値や基本周波数を特徴量として算定してもよい。

（４）変形例４
以上の各形態において、図３のステップＳ8に先立ってステップＳ9を実行してもよい。すなわち、音声分類部４５は、Ｎ個の区間Ｂのうち自身以外の(Ｎ−１)個の区間Ｂに対する類似度が所定値を下回る順位にある区間Ｂを単独でひとつのクラスタに分類し（ステップＳ9）、当該区間Ｂ以外の区間Ｂ（すなわち他の何れかの区間Ｂとの類似度が所定の順位を上回る区間Ｂ）を対象としてステップＳ8の分類を実行する。

（５）変形例５
音声処理装置１００が作成した議事録を印刷する印刷装置を出力装置３０として採用してもよい。もっとも、音声処理装置１００による処理の結果が議事録（文字）の形式で出力される必要はなく、例えば分類処理部１４による分類の結果を出力することも可能である。例えば、音声区分部１２が区分した複数の区間Ｂのうち利用者が指定した時刻を含む区間Ｂ内の音声信号Ｓを放音装置（例えばスピーカ）から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、以上の形態においては音声区分部１２が音声信号Ｓを複数の区間Ｂに区分する構成を例示したが、音声信号Ｓが複数の区間Ｂに事前に区分された状態で記憶装置２０に格納されてもよい。以上のように、音声区分部１２や音声認識部１６は音声処理装置１００にとって必須の要素ではない。

（６）変形例６
以上の各形態においては記憶装置２０に予め記憶された音声信号Ｓを処理の対象としたが、収音装置（マイクロホン）から供給される音声信号Ｓや通信網を経由して順次に供給される音声信号Ｓを対象として実時間的に処理を実行してもよい。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。音声区分部の動作の内容を示す概念図である。音声分類部の動作の内容を示すフローチャートである。類似度マップの内容を示す概念図である。

符号の説明

１００……音声処理装置、１０……制御装置、１２……音声区分部、１４……分類処理部、４１……特徴抽出部、４３……指標算定部、４５……音声分類部、１６……音声認識部、２０……記憶装置、３０……出力装置、Ｓ……音声信号、Ｂ……区間。

Claims

音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出手段と、
前記複数の区間のなかから２個の区間を選択する複数の組合せについて、前記２個の区間における前記特徴量の相互相関値を算定し、複数の区間の各々（以下「選択区間」という）について、当該選択区間以外の各区間を、前記選択区間との相互相関値が大きい順番にソートする指標算定手段と、
前記複数の区間の各々と当該区間に対する前記ソート後の順位が最上位に位置する区間とが同じ集合に属するように、前記各区間の相互相関値に基づいて前記複数の区間を複数の集合に分類する音声分類手段と
を具備する音声処理装置。
前記音声分類手段は、前記複数の区間のうち、自身以外の各区間に対する相互相関値が所定値を下回る順位にある区間を、単独でひとつの集合に分類する
請求項１の音声処理装置。
前記音声分類手段は、前記複数の区間のうち、自身以外の各区間に対する相互相関値が最下位である区間を、単独でひとつの集合に分類する
請求項２の音声処理装置。
前記音声信号の波形の包絡線における各谷部を境界として前記音声信号を前記複数の区間に区分する音声区分手段
を具備する請求項１から請求項３の何れかの音声処理装置。
コンピュータに、
音声信号を時間軸上で区分した複数の区間の各々について特徴量を抽出する特徴抽出処理と、
前記複数の区間のなかから２個の区間を選択する複数の組合せについて、前記２個の区間における前記特徴量の相互相関値を算定し、複数の区間の各々（以下「選択区間」という）について、当該選択区間以外の各区間を、前記選択区間との相互相関値が大きい順番にソートする指標算定処理と、
前記複数の区間の各々と当該区間に対する前記ソート後の順位が最上位に位置する区間とが同じ集合に属するように、前記各区間の相互相関値に基づいて前記複数の区間を複数の集合に分類する音声分類処理と
を実行させるプログラム。