JP2010032792A

JP2010032792A - 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体

Info

Publication number: JP2010032792A
Application number: JP2008195136A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Yoshikazu Yamaguchi; 義和山口; Hirokazu Masataki; 浩和政瀧; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-07-29
Filing date: 2008-07-29
Publication date: 2010-02-12
Anticipated expiration: 2028-07-29
Also published as: JP5052449B2

Abstract

【課題】事前の話者登録を無くす。
【解決手段】この発明の発話区間話者分類装置は、音量音声区間分割部と、特徴量分析部と、代表特徴量抽出部と、セグメント分類部と、セグメント統合部と、を具備する。音量音声区間分割部は、離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する。特徴量分析部は、音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する。代表特徴量抽出部は、音響特徴量から音声区間セグメントの代表特徴量を抽出する。セグメント分類部は、代表特徴量のそれぞれの間の距離を計算して距離に基づいて音声区間セグメントをクラスタに分類する。セグメント統合部は、隣接する上記音声区間セグメントが同一クラスタに属する場合に、隣接する音声区間セグメントを１個のセグメントとして統合する。
【選択図】図１

Description

この発明は、入力音声信号の発話区間を話者毎に分類する発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体に関する。

従来、複数話者による音声信号を話者毎に分類するためには、話者毎の音響特徴量を事前に登録する必要があった。図１４に従来方法による発話区間検索装置の機能構成を示して簡単に説明する（特許文献１）。発話区間検索装置１０は、入力部１０１、候補映像音声提示部１０２、登録用音声合成部１０３、特徴量抽出部１０４、特徴量格納部１０５、映像音声切り出し部１０６、検索部１０７、検索結果処理部１０８、話者情報格納部１０９、表示部１１０、端末表示装置２０を備える。

話者毎の音響特徴量を登録する時、候補映像音声提示部１０２は、入力された映像音声から一人が連続して一定時間話す区間を検出して利用者に提示する。利用者は登録する話者を選択する。登録用音声合成部１０３は、選択された複数人の登録話者音声から任意の組み合わせの音声を合成して特徴量抽出部１０４に出力する。特徴量抽出部１０４は、任意の組み合わせの登録話者音声の音響特徴量を抽出して、特徴量格納部１０５に記録する。

話者を分類する時、映像音声切り出し部１０６は入力された映像音声を短時間毎に区切って切り出し、特徴量抽出部１０４に出力する。特徴量抽出部１０４は、切り出された音声の音響特徴量を抽出する。検索部１０７は、切り出された音声の音響特徴量と、特徴量格納部１０５に記録された登録話者音声の音響特徴量との類似計算を行い最も類似度が高い登録話者を話者とする。話者情報は話者情報格納部１０９に記録される。
特開２００４−１４５１６１号公報（図３）

従来の発話区間検索装置では、複数の発話者の音声からなる音声信号を話者毎に分類するために事前に話者音声登録が必要であり、そのためのコストが発生していた。また必然的に特定話者に対応するので汎用性に欠ける問題点もあった。

この発明は、このような問題点に鑑みてなされたものであり、事前の話者登録が無くても不特定話者に対応可能な発話区間話者分類装置とその方法と、また、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体を提供することを目的とする。

この発明の発話区間話者分類装置は、音量音声区間分割部と、特徴量分析部と、代表特徴量抽出部と、セグメント分類部と、セグメント統合部と、を具備する。音量音声区間分割部は、離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する。特徴量分析部は、音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する。代表特徴量抽出部は、音響特徴量から音声区間セグメントの代表特徴量を抽出する。セグメント分類部は、代表特徴量のそれぞれの間の距離を計算して距離に基づいて音声区間セグメントをクラスタに分類する。セグメント統合部は、隣接する上記音声区間セグメントが同一クラスタに属する場合に、隣接する音声区間セグメントを１個のセグメントとして統合する。

また、この発明の音声認識装置は、この発明の発話区間話者分類装置を含み、発話区間話者分類装置が出力するクラスタ毎に話者適応化処理を行う。

この発明の発話区間話者分類装置は、音声信号を音声区間セグメントに分割し、各音声区間セグメントを代表する音響特徴量を代表特徴量として抽出する。そして、代表特徴量間の距離に基づいてクラスタに分類する。したがって、音声区間セグメントが音響特徴量に基づいて話者毎に分類される。つまり、事前に話者登録をすることなく自動的に話者分類を行うことが可能になる。

また、この発明の音声認識装置は、事前に話者登録をしなくとも認識率の良い音声認識装置とすることが可能である。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の発話区間話者分類装置１２０の機能構成例を示す。その動作フローを図２に示す。発話区間話者分類装置１２０は、Ａ/Ｄ変換部１２と、音量音声区間分割部１３と、特徴量分析部１４と、代表特徴量抽出部１５と、セグメント分類部１６と、セグメント統合部１７と、制御部１８とを備える。発話区間話者分類装置１２０は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

Ａ/Ｄ変換部１２は、入力されるアナログ信号の音声を、例えばサンプリング周波数１６ｋＨｚで離散的なディジタル信号に変換する。音量音声区間分割部１３は、ディジタル信号に変換された音声信号を、例えば３２０個の音声信号を１フレーム（２０ｍｓ）としてフレーム毎に音量（パワー）に基づくに音声区間検出を行い、音声区間の始りと終わりに時刻情報を付した音声区間セグメントとして出力する。（ステップＳ１３）。音量に基づく音声区間検出とは、ここでは、例えばフレームの平均パワーが閾値以上となったフレームの時刻を開始時刻、フレームの平均パワーが閾値未満となったフレーム時刻を終了時刻とした一区間を、音声区間セグメントとして出力することである。開始時刻と終了時刻をフレーム毎に判定すると、音声区間が細かくなり過ぎるのと、誤判定の原因になるので、開始時刻の前、終了時刻の後に例えば０.５秒程度の無音区間を含むようにする。

特徴量分析部１４は、音声区間セグメントのフレーム毎に、例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析によって抽出された音響特徴量Ｏ_ｔを出力する（ステップＳ１４）。音響特徴量Ｏ_ｔはベクトルであり、以降、ベクトルは式内では太字、本文中ではＯ_ｔ ^→のように変数の右肩に→を表記して表す。音響特徴量Ｏ_ｔ ^→は、ＭＦＣＣ、ＰＯＷ、ΔＭＦＣＣ、ΔＰＯＷ等の音声認識などに用いられる一般的なものである。

代表特徴量抽出部１５は、フレーム毎の音響特徴量から音声区間セグメントの代表特徴量を、式（１）によって抽出する（ステップＳ１５）。

ここで、Ｔは音声区間セグメントの時間幅、＊は転置である。式（１）から明らかなように、代表特徴量は音声区間セグメントの特徴量の平均μ^→と分散Ｕ^→である（ステプＳ１５０）。代表特徴量は、分散Ｕ^→を用いずに平均μ^→だけを用いても良い。この代表特徴量（μ^→，Ｕ^→）は、音声区間セグメントが更新（ステップＳ１５１）され、全てのセグメントについて求められる（ステップＳ１５２のＹ）。

セグメント分類部１６は、全ての音声区間セグメント間の代表特徴量の距離に基づいて、音声区間セグメントをクラスタに分類する。ここで距離とは、代表特徴量を表すガウス分布（μ^→，Ｕ^→）の分布間の距離である。ガウス分布間の距離には、分布間の対数尤度比（差分）に基づくＫ-Ｌダイバージェンス（K-L Divergence）や、２つの分布の重なり度合いに基づく距離であるバタチャリア（Bhattacharyya）距離等の一般的な分布間距離尺度を用いる。例えばバタチャリア距離ｄ_Ｂは、式（２）で計算できる。式（２）では、クラスタｋの分散行列Ｕｋは対角共分散行列としており、Ｉは次元数、第ｉ次の平均，分散をμ_ｋｉ，σ^２ _ｋｉと表記している。

分布間距離尺度については、例えば参考文献、「音響モデルの分布数削減のための混合重み計数を考慮した分布間距離尺度」小川厚徳、高橋敏、電子情報通信学会論文誌 D Vol.J90-D No.10 pp.2940-2944に記載されている。

分類手段１６２は、最もよく知られた分類方法の一つである例えばk-means法等を用いて、代表特徴量間の距離で音声区間セグメントをクラスタに分類する（ステップＳ１６２）k-means法については、例えば参考文献、「パターン認識と学習の統計学」甘利俊一ほか著、岩波書店、pp60にＫ-平均法として記載されている。

分類手順の一例を説明する。最初に、分類手段１６２のクラスタ初期値設定手段１６２ａが、全ての音声区間セグメント間の代表特徴量の距離を求め、最も距離が離れた２つの音声区間セグメントの代表特徴量を、２個の初期クラスタの中心値（セントロイド）とする（ステップＳ１６２ａ）。以降、全ての音声区間セグメントに対して、分類対象の音声区間セグメントの代表特徴量と、２個のクラスタの中心値との距離を計算し、近い方のクラスタに分類対象の音声区間セグメントを分類する（ステップＳ１６２）。全ての音声区間セグメントの分類が終わったら、各クラスタの代表特徴量を、各クラスタに所属する音声区間セグメントの代表特徴量とセグメント長に基づいて更新する。以上の動作をクラスタ間で音声区間セグメントの移動が無くなるまで行う。次に、２つのクラスタの中心値から最も離れた音声区間セグメントの代表特徴量を新たなクラスタの中心値として同様の分類を行い、クラスタ数を２から３へ増加させる。以上の処理をクラスタ数を増加させて、外部から与えられる最大話者数になるまで繰り返す（ステップＳ１６２０）。

なお、外部から与えた最大話者数に基づいて分類過程（ステップＳ１６）の分類動作を終了させる例で説明したが、音声信号内に含まれる話者数が、与えられた最大話者数よりも少ない場合には、余分なクラスタが出来てしまう。そこで、例えば、クラスタ数の増減により、各クラスタに所属する音声区間セグメントの代表特徴量と、各クラスタの中心値との距離の総和の変動が、与えられた閾値以下になった時に分類動作を終了させるようにしても良い。

また、分類方法としては、全音声区間セグメントを初期クラスタとして距離の近いクラスタを統合してクラスタ数を減少させて行く方法もある。分類方法は、クラスタ数を増やして行くトップダウンクラスタリングでも、クラスタ数を減らして行くボトムアップクラスタリングでのどちらでも構わない。ただ、一般的な会議の場面を想定すると発話者が５人程度に限定される場合が多いので、クラスタを増加させるトップダウンクラスタリングの方が、音声区間セグメントの数が多い場合に効率的である。

音声区間セグメントの時間幅が長いほど、音声区間セグメントを利用する例えば特に話者正規化や話者適応を行う音声認識装置の音声認識率を向上させることが出来る。そこで、セグメント統合部１７は、同一クラスタに属する時刻情報が連続する音声区間セグメントを１個の音声区間セグメントとして統合（ステップＳ１７）し、話者分類出力情報を出力する。話者分類出力情報とは、音声区間セグメントと、その開始/終了時刻情報と、クラスタ番号である。また、話者分類出力情報に話者交代信号を含めても良い。話者交代信号は、図３に示すようにクラスタ番号を出力する間のタイミングに出力しても良いし、音声区間セグメントにその情報を持たせるようにしても良い。

以上説明した発話区間話者分類動作は、制御部１８が動作終了を指示する信号を出力するまで継続される（ステップＳ１８０のＮ）。このように実施例１の発話区間話者分類装置１２０によれば、事前に話者登録をすることなく自動的に話者分類を行うことが可能である。

図３に、以上説明した動作過程を示す。図３の横方向は経過時間であり、縦方向に上から順に、音声信号、音声区間セグメント、音声区間セグメント特徴量、代表特徴量、セグメント統合部１７の出力を表す。音声信号は、経過時間軸上の３箇所に分散している。その音声信号は、音量音声区間分割部１３において時刻情報が付された音声区間セグメントＳ_１〜Ｓ_４として出力される。３個目の音声信号の塊は、２つの音声区間セグメントＳ_３とＳ_４とからなる。各音声区間セグメントの前後には無音区間が付加されている。特徴量分析部１４において、各音声区間セグメントを構成する各フレームの音響特徴量Ｏ_ｔ ^Ｓ１→，Ｏ_ｔ ^Ｓ２→，Ｏ_ｔ ^Ｓ３→，が求められる。

代表特徴量抽出部１５において、各音声区間セグメントの代表特徴量が式（１）で抽出される。音声区間セグメントＳ_１の代表特徴量は（μ_S1 ^→，Ｕ_S1 ^→）、音声区間セグメントＳ_２の代表特徴量は（μ_S2 ^→，Ｕ_S2 ^→）、音声区間セグメントＳ_３とＳ_４の代表特徴量は（μ_S3 ^→，Ｕ_S3 ^→）、（μ_S4 ^→，Ｕ_S4 ^→）である。音声区間セグメントＳ_３とＳ_４とは、同一の話者が発話を一時中断した後に再び発話した場合の例である。

図３に示す例では、音声区間セグメントＳ_１がクラスタＣ１に、音声区間セグメントＳ_２がクラスタＣ２に、音声区間セグメントＳ_３とＳ_４がクラスタＣ３に分類される。クラスタは、音声区間セグメントの集合であるので、クラスタも代表特徴量を持つ。実際のクラスタは、複数の音声区間セグメントを含み、クラスタの代表特徴量の平均は、音声区間セグメントの代表特徴量の平均をセグメント長で重み付け平均した値となる。

セグメント統合部１７は、同一クラスタＣ３に属する音声区間セグメントＳ_３とＳ_４の時刻情報が連続するので１個の音声区間セグメントとして統合する。上記した例では、全ての音声区間セグメントを分類対象として説明を行ったが、時間幅の短い音声区間セグメントではフレーム数が少ないので平均や分散を安定して計算出来ない。よって、時間幅の短い音声区間セグメントから分類を始めると、その不安定性から適切な分類が行えない場合がある。そこで、初めに所定時間幅以上の音声区間セグメントについて分類を行う変形例を次に示して説明する。

〔変形例１〕
変形例１の発話区間話者分類装置１２１の機能構成例を図１に示す。その動作フローを図２に示す。実施例１と異なる点は、セグメント分類部１６に分類対象セグメント選択手段１６０を備える点である。分類対象セグメント選択手段１６０を図１中に破線で示す。動作フローも同じである。

分類対象セグメント選択手段１６０は、予め定められた最低セグメント長以上の時間幅の音声区間セグメントを対象に分類手段１６２に分類させる（ステップＳ１６０のＹ）。最低セグメント長は、可変可能な値として外部から設定できるようにしても良いし、分類対象セグメント選択手段１６０に固定値として設定しておいても良い。例えば最低セグメント長を３秒に設定すると、最初に３秒以上の時間幅の音声区間セグメントがクラスタに分類されるので、クラスタの代表特徴量は話者の音響特徴量を反映した値になる。つまり、分類する音声区間セグメントの時間長が、一定幅以上あった方が、クラスタの中心値（セントロイド）が適切に設定されることになる。図２の動作フローでは省略しているが、クラスタの中心値（セントロイド）を適切に設定した後、時間幅の短い音声区間セグメントは、そのクラスタに対して分類される。

このように所定時間幅以上の音声区間セグメントについて最初に分類することで、クラスタの中心値（セントロイド）が話者の音響特徴量に近い適切な値に設定される効果を奏する。

〔変形例２〕
変形例１では、最低セグメント長を例えば３秒に設定した場合で説明を行ったが、その場合、例えば３秒以上連続した音声信号が無い場合は、全く分類されなくなってしまう。そこで、音量音声区間分割部１３が出力する全ての音声区間セグメントの統計量を求め、その統計量から最低セグメント長を設定する方法が考えられる。その方法を変形例２として説明する。音声区間セグメントの統計量は、一般的な方法で計算できるので動作フローは省略する。

変形例２の発話区間話者分類装置１２２の機能構成例を図１に示す。変形例１と異なる点は、セグメント分類部１６にセグメント統計量算出手段１６３を備える点である。セグメント統計量算出部１６３は、音量音声区間分割部１３が出力した音声区間セグメントの例えば平均値を算出するものである。その平均値は、分類対象セグメント選択手段１６０の最低セグメント長として設定される。統計量は平均値でなくても良い。例えば音声区間セグメントの時間幅の統計量の５０％以上の任意の時間幅を最低セグメント長に設定しても良い。

この変形例２によれば、実際の音声区間セグメントの時間長の統計量を基に最低セグメント長が設定されるので、クラスタの中心値（セントロイド）を適切に求めることが可能である。

〔変形例３〕
変形例３の発話区間話者分類装置１２３の機能構成例を図１に示す。その動作フローを図４に示す。変形例１，２と異なる点は、分類手段１６２が隣接セグメント分類手段１６２ｂを備える点である。変形例３の発話区間話者分類装置１２３は、最小セグメント長未満（ステップＳ１６０のＮ）の短音声区間セグメントを時刻情報が隣接する音声区間セグメントが属するクラスタに分類（ステップＳ１６２ｂ）する点が異なる。この考えは、短音声区間セグメントは隣接する時間幅の長い音声区間セグメントに連結する可能性が高いとの前提に立って分類するものである。

隣接セグメント分類手段１６２ｂは、時刻情報が隣接する前後の音声区間セグメントが属するクラスタのどちらに短音声区間セグメントを分類しても構わない。直前又は直後のどちらにするかは、事前に設定しておく。又は、隣接セグメント分類手段１６２ｂが、短音声区間セグメントが隣接する短音声区間セグメントで無い２つの音声区間セグメントが属するクラスタの代表特徴量と、短音声区間セグメントの代表特徴量との間の距離を比較し、近い方のクラスタに短音声区間セグメントを分類するようにしても良い。このようにすることで、短時間音声区間セグメントの発生を抑圧することが出来る。

〔変形例４〕
変形例４の発話区間話者分類装置１２４の機能構成例を図１に示す。その動作フローを図５に示す。変形例３と異なる点は、分類手段１６２が、隣接セグメント分類手段１６２ａに替えて最近距離クラスタ分類手段１６２ｃを備える点である。最近距離クラスタ分類手段１６２ｃは、最小セグメント長未満（ステップＳ１６０のＮ）の短音声区間セグメントの代表特徴量と各クラスタの代表特徴量との距離を計算して、距離の最も近い最近距離クラスタに短音声区間セグメントを分類する。このようにすることで、変形例３よりも音響的に近いクラスタに短時間音声区間セグメントを分類することが出来る。

〔変形例５〕
変形例５の発話区間話者分類装置１２５の機能構成例を図１に示す。その動作フローを図６に示す。変形例１乃至４と異なる点は、セグメント分類部１６が隣接セグメント所属クラスタ間距離計算手段１６４と、非隣接セグメント所属クラスタ間最小距離計算手段１６５とを備える点である。隣接セグメント所属クラスタ間距離計算手段１６４は、分類対象の最低セグメント長未満の短音声区間セグメントＳ_Ｓｎの時刻情報と時刻情報が隣接する音声区間セグメントを含むクラスタの代表特徴量との間の距離である隣接距離ｎ_ｄＤを計算する（ステップＳ１６４）。

非隣接セグメント所属クラスタ間最小距離計算手段１６５は、短音声区間セグメントの代表特徴量と全てのクラスタの代表特徴量との距離から、時刻情報が隣接しない音声区間セグメントを含むクラスタ間との最小非隣接距離ｈｎ_ｄＤを計算する（ステップＳ１６５）。分類手段１６２は、最小非隣接距離に１より大きな重み係数を乗算した拡大非隣接距離と、上記隣接距離とを比較する（ステップＳ１６６）。隣接距離ｎ_ｄＤが非隣接距離ｈｎ_ｄＤ以下の場合は、短音声区間セグメントＳ_Ｓｎを隣接距離ｎ_ｄＤのクラスタｋｎ_ｄＤに分類する（ステップＳ１６７）。逆に隣接距離ｎ_ｄＤが非隣接距離ｈｎ_ｄＤよりも大きい場合は、短音声区間セグメントＳ_Ｓｎを非隣接距離ｈｎ_ｄＤのクラスタｋｈｎ_ｄＤに分類する（ステップＳ１６８）。つまり、時刻情報が隣接する音声区間セグメントを含むクラスタに分類し易くする。

このようにすることで短音声区間セグメントをより適切に分類することが可能である。以上述べた実施例１と各変形例は、音声区間セグメントの代表特徴量を１個のガウス分布で表現する例で説明したが、代表特徴量を混合正規分布モデル（音声ＧＭＭ）で表現しても良い。混合正規分布モデルを用いた発話区間話者分類装置１２６は、音響モデルパラメータメモリ２１を備える。代表特徴量抽出部１５′は、音響特徴量Ｏ_ｔ ^Ｓｎ→に対する音響モデルの出力確率スコアと、各混合正規分布モデルの事後確率値γとから適応化処理によって代表特徴量を抽出する。出力確率スコアＳ_sp（Ｏ_ｔ ^Ｓｎ→）は式（３）、事後確率値γ（Ｏ_ｔ ^Ｓｎ→，ｍ）は式（４）で計算出来る。

ここでｍは分布番号、Ｍは混合分布数、ｃは混合分布重み係数である。適応後のセグメ
ント代表特徴量の平均ベクトルμ^adapt→は式（５）、分散ベクトルＵ^adapt→は式（６）、混合重み係数ｃ^adaptは式（７）で計算出来る。＊は転置である。

このように混合正規分布モデルを用いて求めた代表特徴量は、１個のガウス分布から求
めた値よりも、より音響特徴量Ｏ_ｔ ^Ｓｎ→に対応した精度の高い値にすることが出来る。その結果、話者分類の精度も向上させることが出来る。

図７に音響モデルを用いて音声区間セグメントのフレーム毎に音声/非音声判定を行うようにした発話区間話者分類装置２２０の機能構成例を示す。動作フローを図８に示す。発話区間話者分類装置２２０は、音響モデル記録部７０と、音声/非音声判定部７１とを備える点が実施例１と異なる。他の構成は実施例１と同じである。音声/非音声判定部７１は、特徴量分析部１４から入力される音響特徴量Ｏ_ｔ ^→に対してフレーム毎に音響モデル記録部７０に記録された音声モデルと非音声モデルとを用いて音声/非音声判定を行う。その音声/非音声判定結果に基づいて、音量音声区間分割部１３は時刻情報を付した音声区間セグメントに分割する。

音声/非音声判定部７１は、フレーム毎の音響特徴量Ｏ_ｔ ^→に対して音声モデルの出力確率スコアＳ_ｓｐ（Ｏ_ｔ ^→）を式（８）で計算する（ステップＳ７１０）。同様に、非音声モデルの出力確率スコアＳ_ｎｓｐ（Ｏ_ｔ ^→）を式（９）で計算する（ステップＳ７１１）。

ここでｍは分布番号、Ｍは混合分布数、Ｊは状態数、ｊは状態番号、ｃは混合分布重み計数、Ｎ（・）は平均μと分散Ｕの正規分布に基づく音響特徴量Ｏ_ｔ ^→から得られるスコアである。音声モデルの出力確率スコアＳ_ｓｐ（Ｏ_ｔ ^→）と、非音声モデルの出力確率スコアＳ_ｎｓｐ（Ｏ_ｔ ^→）とを比較し、出力確率スコアＳ_ｓｐ（Ｏ_ｔ ^→）が大きければ音声区間と判定（ステップＳ７１２のＹ）し、非音声区間を計数する非音声連続時間Ｎｓｔをリセット（ステップＳ７１３）して、音量音声区間分割部１３に音声区間のスタートを指示する（ステップＳ７１４）。そしてフレームを更新（ステップＳ７１９）して、次フレームの出力確率スコアを計算する（ステップＳ７１０，Ｓ７１１）。

音声モデルの出力確率スコアＳ_ｓｐ（Ｏ_ｔ ^→）よりも、非音声モデルの出力確率スコアＳ_ｎｓｐ（Ｏ_ｔ ^→）が大きい場合は非音声区間と判定（ステップＳ７１２のＮ）し、非音声区間が所定時間のＴＮｓｔ（閾値）以上か否かを判断する（ステップＳ７１５）。ＴＮｓｔは例えば０.３秒程度の時間である。非音声区間がＴＮｓｔ未満の場合は、非音声連続時間Ｎｓｔにフレーム時刻ｔを加算（ステップＳ７１６）して次フレームの処理を行う。非音声連続時間ＮｓｔがＴＮｓｔ以上の場合（ステップＳ７１５のＹ）は、非音声連続時間Ｎｓｔをリセットして音量音声区間分割部１３に音声区間の終了を指示する（ステップＳ７１８）。このように音声/非音声判定部７１が動作することで、非音声モデルの出力確率スコアＳ_ｎｓｐ（Ｏ_ｔ ^→）の大きいフレームが非音声連続時間Ｎｓｔ以上の時間継続すると、１個の音声区間セグメントが出力される。つまり、非音声区間がＴＮｓｔ以上の時間連続して初めて音声区間セグメントが終了する。一方音声区間セグメントの開始は、この例の場合、音声モデルの出力確率スコアＳ_ｓｐ（Ｏ_ｔ ^→）が大であれば、そのフレームが直ちに音声区間セグメントのスタートとされる。

以上のように音声/非音声の判定を音響モデルを用いて行うことで、パワーの大小で音声区間セグメントを分割した実施例１よりも精度の高い音声区間セグメントを生成することが可能である。この実施例２の方法で音声区間セグメントを生成した一例を図９に示す。図９の横方向は経過時間であり、縦方向は音声信号のパワーである。音声信号がある時間内に密集している。実施例１の方法では１個の音声区間セグメントとして出力したこの音声信号も、実施例２の方法であれば例えば４個の音声区間セグメントとして出力することが可能である。図９は、経過時間順の代表特徴量が（μ_S1 ^→，Ｕ_S1 ^→）、（μ_S1 ^→，Ｕ_S1 ^→）、
（μ_S3 ^→，Ｕ_S3 ^→）、（μ_S2 ^→，Ｕ_S2 ^→）と変化する様子を例示している。

〔音声認識装置〕
上記した発話区間話者分類装置は、音声認識装置に応用が可能である。図１０に、音声区間話者分類装置１２０乃至１２５の何れか１つを用いて音声認識装置５００を構成した場合の機能構成例を示す。音声認識装置５００は、発話区間話者分類装置と、音声認識部９０と、言語モデルパラメータメモリ９１と、音響モデルパラメータメモリ９２と、制御部９５とを備える。音声認識装置５００は、この発明の音声区間話者分類装置を用いたところに特徴があり、他の構成は一般的な音声認識装置と同じである。この発明の音声認識装置は、音響モデルの適応化処理方法に特徴がある。

その適応化処理方法を動作フローを示して説明する。図１１に発話区間話者分類装置が分類したクラスタ毎に適応化処理を行う動作フローを示す。発話区間話者分類装置で話者分類した結果のクラスタは、話者に対応しているので、そのクラスタ毎に話者正規化/適応を行って（ステップＳ９０、図１１）、音声認識（ステップＳ９１）することで認識精度を向上させることが可能になる。

また、話者正規化/適応をクラスタ内の音声区間セグメント毎に行う方法も考えられえる。音声区間セグメント毎に適応化処理（ステップＳ９０′、図１２）行うことで異なる話者の音響データが混入する危険を減少させられる。その結果、より認識精度を向上させることが可能になる。

また、最低セグメント長以下の短音声区間セグメントについては、フレーム数が少ないので平均や分散を安定して計算出来ないことから分類誤りが発生し易い。そこで、短音声区間セグメントについては適応化処理を行わないようにすることで、分類誤りの影響を低減することが可能である。その考えの動作フローを図１３に示す。ステップＳ９２で最低セグメント長を確認して最低セグメント長以上（ステップＳ９２のＹ）の音声区間セグメントを用いて適応化処理（ステップＳ９３）を行う。このようにすることで、認識精度を向上させることが可能である。このようにこの発明の発話区間話者分類装置を利用することで、事前の話者登録をしなくても認識精度の高い音声認識装置を実現することが出来る。

この発明の技術思想に基づく発話区間話者分類装置とその方法と、それを用いた音声認識装置は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の発話区間話者分類装置１２０〜１２５の機能構成例を示す図。発話区間話者分類装置１２０の動作フローを示す図。発話区間話者分類装置１２０の動作過程を図形として示す図。発話区間話者分類装置１２３のセグメント分類過程の動作フローを示す図。発話区間話者分類装置１２４のセグメント分類過程の動作フローを示す図。発話区間話者分類装置１２５のセグメント分類過程の動作フローを示す図。この発明の発話区間話者分類装置２２０の機能構成例を示す図。発話区間話者分類装置２２０の音声/非音声判定部７１の動作フローを示す図。実施例２の方法で音声区間セグメントを生成した一例を示す図。音声認識装置５００の機能構成例を示す図。音声認識装置５００の音響モデルの適応化処理方法の一例を示す図。音声認識装置５００の音響モデルの適応化処理方法の一例を示す図。音声認識装置５００の音響モデルの適応化処理方法の一例を示す図。従来方法の発話区間検索装置１０の機能構成を示す図。

Claims

離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する音量音声区間分割部と、
上記音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する特徴量分析部と、
上記音響特徴量から上記音声区間セグメントの代表特徴量を抽出する代表特徴量抽出部と、
上記音声区間セグメントについて、それぞれの上記代表特徴量間の距離を計算して上記距離に基づいて上記音声区間セグメントをクラスタに分類するセグメント分類部と、
隣接する上記音声区間セグメントが同一クラスタに属する場合に、隣接する上記音声区間セグメントを１個の音声セグメントとして統合するセグメント統合部と、
を具備する発話区間話者分類装置。
請求項１に記載した発話区間話者分類装置において、
上記セグメント分類部は、分類対象セグメント選択手段を備え、
上記分類対象セグメント選択手段が、予め定められた最低セグメント長以上の時間幅の上記音声区間セグメントを選択する、
上記セグメント分類部が、上記選択した音声区間セグメントの代表特徴量を含む上記クラスタに、上記選択した音声区間セグメントを分類することを特徴とする発話区間話者分類装置。
請求項２に記載した発話区間話者分類装置において、
上記セグメント分類部は、セグメント統計量算出手段を備え、
上記セグメント統計量算出手段が、全ての上記音声区間セグメントの統計量から上記最低セグメント長を算出することを特徴とする発話区間話者分類装置。
請求項２又は３に記載した発話区間話者分類装置において、
上記セグメント分類部は、隣接セグメント分類手段を備え、
上記分類対象セグメント選択手段が、予め定められた最低セグメント長未満の時間幅の短音声区間セグメントを選択し、
隣接セグメント分類手段は、上記短音声区間セグメントを、時刻情報が隣接する音声区間セグメントが属する上記クラスタに分類することを特徴とする発話区間話者分類装置。
請求項２又は３に記載した発話区間話者分類装置において、
上記セグメント分類部は、
最近距離クラスタ分類手段を備え、
上記分類対象セグメント選択手段が、予め定められた最低セグメント長未満の時間幅の短音声区間セグメントを選択し、
上記最近距離クラスタ分類部は、上記短音声区間セグメントの代表特徴量と、複数の上記クラスタの代表特徴量との間の距離を比較し、上記距離の最も近い最近距離クラスタに上記短音声区間セグメントを分類することを特徴とする発話区間話者分類装置。
請求項５に記載した発話区間話者分類装置において、
上記セグメント分類部は、
隣接セグメント所属クラスタ間距離計算手段と、非隣接セグメント所属クラスタ間最小距離計算手段とを備え、
上記隣接セグメント所属クラスタ間距離計算手段は、上記短音声区間セグメントと時刻情報が隣接する音声区間セグメントを含むクラスタの代表特徴量との間の距離である隣接距離を計算する、
上記非隣接セグメント所属クラスタ間最小距離計算手段は、上記短音声区間セグメントの代表特徴量と分類済みのクラスタの代表特徴量との距離から最小非隣接距離を計算する、
上記最近距離クラスタ分類手段は、上記最小非隣接距離に１より大きな重み係数を乗算した拡大非隣接距離と上記隣接距離とを比較して小さい方の音声区間セグメントが属する最近距離クラスタに、上記短音声区間セグメントを分類する、
ことを特徴とする発話区間話者分類装置。
請求項１乃至６の何れかに記載した発話区間話者分類装置において、
上記セグメント代表特徴抽出部は、上記代表特徴量を混合正規分布モデルで表現することを特徴とする発話区間話者分類装置。
請求項１乃至７の何れかに記載した発話区間話者分類装置において、
音声モデルと非音声モデルとを記録した音響モデル記録部と、
上記音声モデルと非音声モデルを用いて音声/非音声判定を行う音声/非音声判定部と、
を備え、
上記音量音声区間分割部は、上記音声/非音声判定部の上記音声/非音声判定結果に基づいて上記音声セグメントを更に分割するものであることを特徴とする発話区間話者分類装置。
請求項１乃至８の何れかに記載した発話区間話者分類装置と、
上記発話区間話者分類装置が出力するクラスタ毎に話者適応化処理を行う音声認識部と、
を具備する音声認識装置。
請求項９に記載した音声認識装置において、
上記音声認識部は、クラスタ内の上記音声区間セグメント毎に話者適応化処理を行うことを特徴とする音声認識装置。
音量音声区間分割部が、離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する音量音声区間分割過程と、
特徴量分析部が、上記音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する特徴量分析過程と、
代表特徴量抽出部が、上記音響特徴量から上記音声区間セグメントの代表特徴量を抽出する代表特徴量抽出過程と、
セグメント分類部が、上記音声区間セグメントについて、それぞれの上記代表特徴量間の距離を計算して上記距離に基づいて上記音声区間セグメントをクラスタに分類するセグメント分類過程と、
セグメント統合部が、隣接する上記音声セグメントが同一クラスタに属する場合に、隣接する上記音声セグメントを１個の音声セグメントとして統合するセグメント統合過程と、
を含む発話区間話者分類方法。
請求項１１に記載した発話区間話者分類方法において、
上記セグメント分類過程は、分類対象セグメント選択ステップを含み、
上記分類対象セグメント選択ステップが、予め定められた最低セグメント長以上の時間幅の上記音声区間セグメントを選択し、
上記セグメント分類過程が、上記選択した音声区間セグメントの代表特徴量を含む上記クラスタに、上記選択した音声区間セグメントを分類する過程であることを特徴とする発話区間話者分類方法。
請求項１２に記載した発話区間話者分類方法において、
上記セグメント分類過程は、セグメント統計量算出ステップを含み、
上記セグメント統計量算出ステップが、全ての上記音声区間セグメントの統計量から上記最低セグメント長を算出するステップであることを特徴とする発話区間話者分類方法。
請求項１２又は１３に記載した発話区間話者分類方法において、
上記セグメント分類過程は、隣接セグメント分類ステップを含み、
上記分類対象セグメント選択ステップが、予め定められた最低セグメント長未満の時間幅の短音声区間セグメントを選択し、
上記隣接セグメント分類ステップは、上記短音声区間セグメントを、時刻情報が隣接する音声区間セグメントが属する上記クラスタに分類するステップであることを特徴とする発話区間話者分類方法。
請求項１２又は１３に記載した発話区間話者分類方法において、
上記セグメント分類過程は、最近距離クラスタ分類ステップを含み、
上記分類対象セグメント選択ステップが、予め定められた最低セグメント長未満の時間幅の短音声区間セグメントを選択し、
上記最近距離クラスタ分類ステップは、上記短音声区間セグメントの代表特徴量と、複数の上記クラスタの代表特徴量との間の距離を比較し、上記距離の最も近い最近距離クラスタに上記短音声区間セグメントを分類するステップであることを特徴とする発話区間話者分類方法。
請求項１５に記載した発話区間話者分類方法において、
上記セグメント分類過程は、
隣接セグメント所属クラスタ距離計算ステップと、非隣接セグメント所属クラスタ間最小距離計算ステップとを含み、
上記隣接セグメント所属クラスタ間距離計算ステップは、上記短音声区間セグメントと時刻情報が隣接する音声区間セグメントを含むクラスタの代表特徴量との間の距離である隣接距離を計算するステップであり、
上記非隣接セグメント所属クラスタ間最小距離計算手段は、上記短音声区間セグメントの代表特徴量と分類済みのクラスタの代表特徴量との距離から最小非隣接距離を計算するステップであり、
上記最近距離クラスタ分類ステップは、上記最小非隣接距離に１より大きな重み係数を乗算した拡大非隣接距離と上記隣接距離とを比較して小さい方の音声区間セグメントが属する最近距離クラスタに、上記短音声区間セグメントを分類するステップであることを特徴とする発話区間話者分類方法。
請求項１１乃至１６の何れかに記載した発話区間話者分類装置において、
上記代表特徴量抽出過程は、上記代表特徴量を混合正規分布モデルで表現する過程であることを特徴とする発話区間話者分類方法。
請求項１１乃至１７の何れかに記載した発話区間話者分類方法と、
音声/非音声判定部が、上記音声モデルと非音声モデルを用いて音声/非音声判定を行う音声/非音声判定過程を含み、
上記音量音声区間分割過程は、上記音声/非音声判定過程の上記音声/非音声判定結果に基づいて上記音声セグメントを更に分割する過程であることを特徴とする発話区間話者分類方法。
請求項１１乃至１８の何れかに記載した発話区間話者分類方法と、
音声認識部が、上記発話区間話者分類方法で分類したクラスタ毎に話者適応化処理を行う音声認識過程と、
を含む音声認識方法。
請求項１乃至８の何れかに記載した発話区間話者分類装置としてコンピュータを機能させるための装置プログラム。
請求項９又は１０に記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
請求項２０と２１に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。