JP2008233759A

JP2008233759A - 混合モデル生成装置、音処理装置およびプログラム

Info

Publication number: JP2008233759A
Application number: JP2007076580A
Authority: JP
Inventors: Yasuo Yoshioka; 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-03-23
Filing date: 2007-03-23
Publication date: 2008-10-02
Anticipated expiration: 2027-03-23
Also published as: JP4765971B2

Abstract

【課題】混合モデルの生成に必要な記憶容量を削減する。
【解決手段】特徴抽出部４２は、登録区間ＴRにわたって連続する音信号Ｓを区分した複数の単位区間Ｔの各々について複数の特徴量ｘを順次に抽出する。記憶回路３０は、ひとつの単位区間Ｔの複数の特徴量ｘを記憶する領域Ａ1と、複数の確率分布の加重和である更新混合モデルλBを記憶する領域Ａ2とを含む。モデル生成部５２は、領域Ａ1の複数の特徴量ｘの単位区間モデルλAを単位区間Ｔごとに生成する。モデル合成部５４は、単位区間モデルλAと領域Ａ2の更新混合モデルλBとを合成する。更新部５６は、領域Ａ2の更新混合モデルλBを、モデル合成部５４が生成した新規な更新混合モデルλBに更新する。更新部５６による複数回にわたる更新後の更新混合モデルλBが混合モデルλとして話者認証や話者識別に使用される。
【選択図】図１

Description

本発明は、多数の特徴量の分布を複数の確率分布の加重和でモデル化する混合モデル（例えばガウス混合モデル）を生成する技術に関する。

音声や画像を認識する技術では混合モデルが利用される。例えば非特許文献１には、テキスト非依存型の話者識別（話者認識）のためにガウス混合モデルを採用した構成が開示されている。ガウス混合モデルは、音声を収音した入力信号の多数の特徴量の分布を統計的に処理することで生成される。
D. A. Reynolds, R. C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", 1995, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.3, NO.1 PP.72-83

ガウス混合モデルは、その生成に使用される入力信号の時間長が長いほど入力信号の所期の特性を忠実に反映した内容となる。しかし、長時間にわたる入力信号をガウス混合モデルの生成に使用するためには、入力信号から抽出される膨大な特徴量を記憶し得る大容量の記憶装置が必要になるという問題がある。以上の事情を背景として、本発明は、混合モデルの生成に必要な記憶容量を削減するという課題の解決をひとつの目的としている。

以上の課題を解決するために、本発明のひとつの形態に係る混合モデル生成装置は、所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第１記憶手段（例えば図１の領域Ａ1）と、複数の確率分布の加重和である混合モデルを記憶する第２記憶手段（例えば図１の領域Ａ2）と、第１記憶手段が記憶する複数の特徴量の混合モデル（例えば図２の単位区間モデルλA）を単位区間ごとに生成する生成手段と、第２記憶手段が記憶する混合モデルと生成手段が生成する混合モデルとを合成して新規な混合モデル（例えば図２の更新混合モデルλB）を順次に生成する合成手段と、合成手段が生成した新規な混合モデルを第２記憶手段に格納する更新手段とを具備する。

以上の構成においては、入力信号の各単位区間から抽出された複数の特徴量について単位区間ごとに混合モデルが生成されて第２記憶手段の混合モデルの更新に使用されるから、所定の時間長の全体にわたる入力信号の特徴量を第１記憶手段に格納する必要はない。したがって、混合モデルの生成に必要な記憶容量を削減することができる。

本発明の好適な態様において、合成手段は、第２記憶手段が記憶する混合モデルと生成手段が生成する混合モデルとにおいて相互に近似する確率分布を併合することで新規な混合モデルを生成する。本態様においては、相互に近似する確率分布が併合されるから、何れかの確率分布が単純に削除される構成と比較して、入力信号を忠実に反映した混合モデルの生成が可能となる。さらに好適な態様において、合成手段は、新規な混合モデルの確率分布の混合数が所定値となるまで、第２記憶手段が記憶する混合モデルと生成手段が生成する混合モデルとの確率分布の併合を反復する。

本発明の好適な態様において、合成手段は、第２記憶手段が記憶する混合モデルの複数の確率分布と生成手段が生成する混合モデルの複数の確率分布とのなかで加重値が小さい確率分布を削除する。以上の態様によれば、確率分布の個数が削減されることで合成手段の処理量が軽減されるとともに、雑音などの外乱の影響を抑制した混合モデルを生成することが可能となる。

本発明の好適な態様において、第２記憶手段は、当該第２記憶手段が記憶する混合モデルの各確率分布に属する特徴量の個数を記憶し、合成手段は、第２記憶手段が記憶する特徴量の個数と生成手段が生成する混合モデルの各確率分布に属する特徴量の個数とに基づいて、新規な混合モデルの各確率分布の加重値を算定する。本態様によれば、第２記憶手段が記憶する混合モデルの各確率分布に属する特徴量の個数に基づいて新規な混合モデルの各確率分布の加重値が算定されるから、生成手段の生成した最新の混合モデルが第２記憶手段の混合モデルに過剰に影響することは抑制される。したがって、入力信号の本来の特性を忠実に反映した混合モデルを生成することが可能となる。

以上の各態様に係るモデル生成装置が生成した混合モデルの典型的な利用例は話者認証や話者識別である。本発明のひとつの形態に係る音処理装置は、音声を採取した音信号から混合モデルを生成する以上の各態様に係る混合モデル生成装置に加えて、複数の単位区間についての更新後に第２記憶手段に記憶されている最新の混合モデルと照合対象の音信号の特徴量とを照合する音声照合手段とを具備する。本発明の各形態に係る混合モデル生成装置によれば、特徴量を記憶する容量を削減した場合であっても、充分な時間長にわたる信号を混合モデルの生成に利用することができる。したがって、混合モデル生成装置を利用した音処理装置においては、信号の特性を忠実に反映した混合モデルを利用して高精度な話者認証や話者識別を実現することが可能である。

以上の各態様に係る混合モデル生成装置は、混合モデルの生成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出して第１記憶手段に記憶する特徴抽出処理（例えば図３のステップＳA1）と、第１記憶手段が記憶する複数の特徴量を複数の確率分布の加重和でモデル化する混合モデルを単位区間ごとに生成する生成処理（例えば図４のステップＳB1）と、第２記憶手段が記憶する混合モデルと生成処理で生成した混合モデルとを合成して新規な混合モデルを順次に生成する合成処理（例えば図４のステップＳB4〜ＳB9）と、合成処理で生成した新規な混合モデルを第２記憶手段に格納する更新処理（例えば図４のステップＳB10）とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る混合モデル生成装置と同様の作用および効果が奏される。なお、本発明のプログラムは、ＣＤ−ＲＯＭなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明は、以上の各態様に係る混合モデル生成装置の動作方法（混合モデル生成方法）としても特定される。本発明のひとつの態様に係る混合モデル生成方法は、所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出して第１記憶手段に記憶する特徴抽出過程（例えば図３のステップＳA1）と、第１記憶手段が記憶する複数の特徴量を複数の確率分布の加重和でモデル化する混合モデルを単位区間ごとに生成する生成過程（例えば図４のステップＳB1）と、第２記憶手段が記憶する混合モデルと生成過程で生成した混合モデルとを合成して新規な混合モデルを順次に生成する合成過程（例えば図４のステップＳB4〜ＳB9）と、合成過程で生成した新規な混合モデルを第２記憶手段に格納する更新過程（例えば図４のステップＳB10）とを含む。以上の方法によれば、本発明に係る混合モデル生成装置と同様の作用および効果が奏される。

＜Ａ：音処理装置＞
図１は、本発明のひとつの形態に係る音処理装置の構成を示すブロック図である。音処理装置１００は、発声者の音声の特徴量に基づいて当該発声者の正当性（予め登録された正規の利用者であるか否か）を判定する話者認証のための装置である。図１に示すように、音処理装置１００の入力端子１２にはマイクロホン２０が接続される。マイクロホン２０は、周囲の音響の時間的な波形を示す音信号Ｓを生成する。

音処理装置１００は、記憶回路３０と制御回路４０とを具備する。記憶回路３０は、制御回路４０が実行するプログラムや制御回路４０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など任意の記憶装置が記憶回路３０として採用される。図１に示すように、記憶回路３０には領域Ａ1と領域Ａ2とが設定される。なお、領域Ａ1と領域Ａ2とが別個の記憶回路に設定された構成も採用される。

制御回路４０は、プログラムを実行することで特徴抽出部４２と照合部４４とモデル登録部４６として機能するＣＰＵなどの演算処理装置である。なお、制御回路４０は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、図１に例示した制御回路４０の各部が複数の集積回路に分散して配置された構成としてもよい。

特徴抽出部４２は、入力端子１２から供給される音信号Ｓを区分した各フレームについて特徴量を算定する手段である。本形態の特徴抽出部４２は、ＦＦＴ（Fast Fourier Transform）処理を含む周波数分析を実行することでメルケプストラム係数のベクトル列（以下「特徴ベクトル」という）ｘを特徴量として算定する。照合部４４は、特徴抽出部４２が算定した特徴ベクトルｘと記憶回路３０の領域Ａ2に格納された混合モデルλとを照合することで発声者の正当性を認証する。

混合モデルλは、音信号Ｓから抽出された特徴ベクトルｘの分布をＭ個の正規分布の加重和（線形結合）としてモデル化した関数であり、以下の式(1)で表現される。
λ＝｛ｐi，μi，Σi｝（ｉ＝１〜Ｍ） ……(1)
式(1)のｐiは、第ｉ番目の正規分布の加重値（重み値）である。加重値ｐ1〜ｐMの総和は１である。式(1)のμiは第ｉ番目の正規分布の平均ベクトルであり、Σiは第ｉ番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号（文字上の右向き矢印）を省略する。

音信号Ｓから抽出された特徴ベクトルｘをＤ次元のベクトルとすると、特徴ベクトルｘが出現する確率（尤度）は、混合モデルλを利用した式(2)で算定される。

照合部４４は、特徴抽出部４２が時系列に抽出したＫ個の特徴ベクトルｘ（ｘ1〜ｘK）を式(3)に代入することで尤度（特徴ベクトルｘ1〜ｘKが混合モデルλから出現する確率）Ｌを算定する。

照合部４４は、式(3)で算定した尤度Ｌを所定の閾値と比較し、尤度Ｌが閾値を上回る場合には発声者を正当な利用者として認証し、尤度Ｌが閾値を下回る場合には発声者の認証を拒絶する。照合部４４は、照合の結果（認証の可否）を画像または音声として報知するための信号を出力端子１４から出力する。

図１のモデル登録部４６は、照合部４４による話者認証に先立って混合モデルλを生成する手段である。混合モデルλは、正当な利用者がマイクロホン２０に対して発声した音声に基づいて生成される。すなわち、特徴抽出部４２が抽出した特徴ベクトルｘは、話者認証時には照合部４４に供給されて混合モデルλとの照合に利用され、混合モデルλの登録時にはモデル登録部４６に供給されて混合モデルλの生成に利用される。

図２は、混合モデルλを生成する手順を模式的に示す概念図である。同図に示すように、混合モデルλは、所定の時間長（例えば３０秒）にわたる登録区間ＴR内で連続する音信号Ｓに基づいて生成される。登録区間ＴRは所定の時間長（例えば２秒）の複数の単位区間Ｔに区分される。各単位区間Ｔは複数のフレームＦを含む。したがって、単位区間Ｔごとに複数の特徴ベクトルｘが順次に算定される。

図１に示すように、本形態のモデル登録部４６は、モデル生成部５２とモデル合成部５４と更新部５６とを含む。モデル生成部５２は、図２に示すように、単位区間Ｔ内の音信号Ｓについて特徴抽出部４２が算定した複数の特徴ベクトルｘに基づいて混合モデル（以下では特に「単位区間モデル」という）λAを単位区間Ｔごとに順次に生成する。モデル合成部５４は、第２番目以後の各単位区間Ｔについてモデル生成部５２が生成した単位区間モデルλAと記憶回路３０が記憶している混合モデル（以下では特に「更新混合モデル」という）λBとを合成する。更新部５６は、登録区間ＴRの第１番目の単位区間Ｔについてモデル生成部５２が生成した単位区間モデルλAを更新混合モデルλBとして記憶回路３０の領域Ａ2に格納し、第２番目以後の各単位区間Ｔの単位区間モデルλAからモデル合成部５４が新規な更新混合モデルλBを生成するたびに、領域Ａ2の更新混合モデルλBを新規な更新混合モデルλBに更新する。登録区間ＴRの全部の単位区間Ｔについて以上の処理が完了した段階で領域Ａ2に格納されている最新の更新混合モデルλBが混合モデルλとして実際に話者認証に使用される。

図３は、制御回路４０が混合モデルλを生成するための処理の内容を示すフローチャートである。図３の処理は、例えば、混合モデルλの登録の開始を利用者が操作子（図示略）から指示することで開始される。混合モデルλの登録を指示すると、利用者は、所定の時間長（登録区間ＴR）にわたって継続的にマイクロホン２０に対して発声する。

同図に示すように、特徴抽出部４２は、音信号ＳのひとつのフレームＦについて特徴ベクトルｘを算定して記憶回路３０の領域Ａ1に格納する（ステップＳA1）。次いで、制御回路４０は、単位区間Ｔ内の全部のフレームＦについて特徴ベクトルｘの算定および記憶が完了したか否かを判定する（ステップＳA2）。例えば、制御回路４０は、今回の単位区間ＴについてステップＳA1を開始してから単位区間Ｔの時間長（例えば２秒）が経過したか否かをステップＳA2にて判定する。

ステップＳA2の結果が否定である場合、特徴抽出部４２は、ステップＳA1における特徴ベクトルｘの算定および記憶を反復する。一方、ステップＳA2の結果が肯定に変化すると、制御回路４０は、ステップＳA3に処理を移行する。したがって、ステップＳA3が開始される段階では、ひとつの単位区間Ｔ内のフレームＦの総数に相当するｎvec個の特徴ベクトルｘの集合（例えば２秒分の音信号Ｓから抽出された特徴ベクトルｘの集合）が領域Ａ1に格納されている。

ステップＳA3において、モデル登録部４６は、領域Ａ1に格納されたｎvec個の特徴ベクトルｘに基づいて新規な更新混合モデルλBを生成して領域Ａ2に格納する。ステップＳA3の処理が完了すると、制御回路４０は、領域Ａ1に格納されたｎvec個の特徴ベクトルｘを消去する（ステップＳA4）。次いで、制御回路４０は、登録区間ＴR内の全部の単位区間ＴについてステップＳA1〜ＳA4を実行したか否かを判定する（ステップＳA5）。ステップＳA5の結果が否定である場合、制御回路４０は、音信号Ｓの次の単位区間ＴについてステップＳA1以後の処理を反復する。一方、ステップＳA5の結果が肯定に変化すると、制御回路４０は、現段階で領域Ａ2に格納されている最新の更新混合モデルλBを話者認証用の混合モデルλとして確定したうえで（ステップＳA6）、混合モデルλの登録のための処理を終了する。

次に、図４を参照して、図３のステップＳA3の処理の具体例を説明する。ステップＳA3の処理が開始すると、モデル生成部５２は、現時点で領域Ａ1に格納されているｎvec個の特徴ベクトルｘの集合をモデル化する単位区間モデルλAを生成する（ステップＳB1）。単位区間モデルλAは、式(4)に示すように、式(1)と同様の３種類の変数（ｐi，μi，Σi）と、第ｉ番目の正規分布に属する特徴ベクトルｘの個数ｎiとで表現される。
λA＝｛ｐi，μi，Σi，ｎi｝（ｉ＝１〜Ｍ） ……(4)

図５は、ステップＳB1の処理の具体例を示すフローチャートである。同図に示すように、モデル生成部５２は、領域Ａ1に格納されたｎvec個の特徴ベクトルｘをＭ個にクラスタリングする（ステップＳC1）。特徴ベクトルｘのクラスタリングには、k-means法に代表される公知のクラスタ分析技術が任意に採用される。さらに、モデル生成部５２は、Ｍ個のクラスタの各々の中心ベクトルを単位区間モデルλAにおける各正規分布の平均ベクトルμ1〜μMとして算定する（ステップＳC2）。

モデル生成部５２は、ｎvec個の特徴ベクトルｘの各々を、Ｍ個の平均ベクトルμ1〜μMのうち当該特徴ベクトルｘに最も近似した平均ベクトルμiの正規分布に分類し、Ｍ個の正規分布の各々に分類された特徴ベクトルｘの個数ｎ1〜ｎMを計数する（ステップＳC3）。

モデル生成部５２は、Ｍ個の正規分布の各々について加重値ｐ1〜ｐMを算定する（ステップＳC4）。第ｉ番目の正規分布の加重値ｐiは、ステップＳC3にて当該正規分布に分類された特徴ベクトルｘの個数ｎiと単位区間Ｔ内の特徴ベクトルｘの総数ｎvecとの相対比（ｐi＝ｎi／ｎvec）として算定される。さらに、モデル生成部５２は、Ｍ個の正規分布の各々に分類された特徴ベクトルｘに基づいて各正規分布の共分散行列Σ1〜ΣMを算定する（ステップＳC5）。以上のように４種類の変数（ｐi，μi，Σi，ｎi）をＭ個の正規分布の各々について算定することで単位区間モデルλAが特定される。もっとも、単位区間モデルλAと更新混合モデルλBとで正規分布の混合数が相違する構成も採用される。

図４のステップＳB1における単位区間モデルλAの算定に続いて、制御回路４０は、更新混合モデルλBが領域Ａ2に既に格納されているか否かを判定する（ステップＳB2）。図３の処理を開始してから最初にステップＳA3を実行する段階で更新混合モデルλBは未だ生成されていない（ステップＳB2：NO）。したがって、更新部５６は、図２に示すように、直前のステップＳB1で生成した単位区間モデルλAを更新混合モデルλBとして領域Ａ2に格納する（ステップＳB3）。

一方、登録区間ＴRの第２番目以後の単位区間Ｔについて図４の処理を開始した段階では、図２に示すように、直前の単位区間Ｔについて生成された更新混合モデルλBが領域Ａ2に格納されている（ステップＳB2：YES）。したがって、モデル合成部５４は、今回の単位区間Ｔについてモデル生成部５２がステップＳB1にて生成した単位区間モデルλAと領域Ａ2に格納された最新の更新混合モデルλBとを合成することで新規な更新混合モデルλBを生成する（ステップＳB4〜ＳB9）。

まず、モデル合成部５４は、単位区間モデルλAと更新混合モデルλBとを加算することで混合モデルλtmpを生成する（ステップＳB4）。単位区間モデルλAおよび更新混合モデルλBの何れも混合数はＭであるから、ステップＳB4の時点で混合モデルλtmpを構成する正規分布の総数（混合数）Ｎは２Ｍとなる。

モデル合成部５４は、混合モデルλtmpのＮ個の正規分布から２個の正規分布を選択する全通りの組合せについて各正規分布間の距離ｄを算定する（ステップＳB5）。本形態の距離ｄは、２個の正規分布の平均ベクトル間のユークリッド距離である。次いで、モデル合成部５４は、ステップＳB5にて算定した距離ｄが最小となる２個の正規分布（すなわち混合モデルλtmpのなかで最も近似する２個の正規分布）を選択して両者を併合する（ステップＳB6）。また、２個の正規分布の併合によって混合モデルλtmpのひとつの正規分布が減少するから、モデル合成部５４は、混合数Ｎを１だけ減少させる（ステップＳB7）。

第ｑ番目の正規分布（ｐq，μq，Σq，ｎq）と第ｒ番目（ｒ≠ｑ）の正規分布（ｐr，μr，Σr，ｎr）との距離ｄが最小であると判定された場合、ステップＳB6の併合後の正規分布における平均ベクトルμj（ｊ＝１〜Ｎ）と共分散行列Σjと特徴ベクトルｘの総数ｎjとは以下の各式で算定される。なお、Ｔは転置を意味する。
ｎj＝ｎq＋ｎr
μj＝ｆ1・μq＋ｆ2・μr
Σj＝ｆ1・Σq＋ｆ2・Σr＋ｆ1・ｆ2・（μq−μr）（μq−μr）^Ｔ
ｆ1＝ｎq／（ｎq＋ｎr）
ｆ2＝ｎr／（ｎq＋ｎr）

モデル合成部５４は、ステップＳB7における減算後の混合数Ｎが所期の混合数Ｍに合致するか否かを判定する（ステップＳB8）。ステップＳB8の結果が否定であれば処理はステップＳB5に移行する。すなわち、混合モデルλtmpの混合数Ｎが所定個Ｍに減少するまで、各正規分布間の距離ｄの算定（ステップＳB5）と距離ｄが最小となる正規分布の併合（ステップＳB6，ＳB7）とが反復される。

ステップＳB8の結果が肯定となる段階では、混合モデルλtmpのＭ個の正規分布の各々について平均ベクトルμiと共分散行列Σiと特徴ベクトルｘの個数ｎiとが算定されている。モデル合成部５４は、各正規分布の加重値ｐiを、特徴ベクトルｘの個数ｎiに基づいて以下の式(5)で算定する（ステップＳB9）。

更新部５６は、以上の処理でモデル合成部５４が生成した混合モデルλtmp（λtmp＝｛ｐi，μi，Σi，ｎi｝）を新規な更新混合モデルλBとして領域Ａ2に格納する（ステップＳB10）。すなわち、領域Ａ2の更新混合モデルλBが新規な混合モデルλtmpに更新される。以上が更新混合モデルλBを更新するための具体的な方法である。

以上のように本形態においては、混合モデルλの確定に必要な登録区間ＴRを区分した各単位区間Ｔについて特徴ベクトルｘの算定と更新混合モデルλBの更新とが順次に実行されるから、登録区間ＴRの全部にわたる特徴ベクトルｘを記憶回路３０に保持する必要がない。したがって、記憶回路３０の領域Ａ1の容量は、単位区間Ｔ内のｎvec個の特徴ベクトルｘを格納し得る容量で足りる。すなわち、本形態によれば、登録区間ＴRの全部にわたる特徴ベクトルｘが記憶回路３０に格納される構成と比較して、記憶回路３０に要求される容量や特徴ベクトルｘから混合モデルλを算定する処理量が削減される。

＜Ｂ：変形例＞
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）変形例１
以上の形態においては、混合モデルλtmpのうち相互に近似する正規分布が併合される構成を例示したが、混合モデルλtmpにおける正規分布の個数Ｎを所定の混合数Ｍまで減少させる方法（単位区間モデルλAと更新混合モデルλBとを合成する方法）は適宜に変更される。具体的には、正規分布を併合する処理（図４のステップＳB5〜ＳB7）の開始前に、混合モデルλtmpを構成するＮ個の正規分布のうち加重値ｐj（ｊ＝１〜N）が小さい正規分布を混合モデルλtmpから削除してもよい。例えば、混合モデルλtmpのうち加重値ｐjが小さい順番に選択した所定個の正規分布を削除する構成や、混合モデルλtmpのうち加重値ｐjが閾値を下回るひとつまたは複数の正規分布を削除する構成が採用される。

話者認証や話者識別の精度を低下させ得る突発的な雑音（例えば発声者の咳払いの音やリップノイズや口中音など）の特徴ベクトルｘから算定された正規分布は加重値ｐjが小さいという傾向がある。以上の例示のように加重値ｐjが小さい正規分布が事前に排除される構成によれば、図４のステップＳB5〜ＳB7の処理の対象となる正規分布の個数が減少することでモデル合成部５４の処理量が削減されるとともに、混合モデルλに対する雑音の影響が抑制されることで話者認証や話者識別の精度が向上するという利点がある。

なお、以上においては削除の対象となる正規分布が加重値ｐjに基づいて選択される構成を例示したが、混合モデルλtmpのＮ個の正規分布のうち特徴ベクトルｘの個数ｎjが小さい正規分布を削除する構成も採用される。また、図４のステップＳB5〜ＳB7を実行する代わりに、混合モデルλtmpのＮ個の正規分布のうち加重値ｐjが小さい順番に選択されたＭ個の正規分布を削除することで更新混合モデルλBを生成してもよい。すなわち、正規分布の併合は本発明において必須の要件ではない。

（２）変形例２
以上の形態においては、特徴ベクトルｘをクラスタリングすることで単位区間モデルλAを算定する構成を例示したが、単位区間モデルλAの算定には公知の技術が任意に採用され得る。例えば、図４のステップＳB1にて単位区間Ｔ内の特徴ベクトルｘに対してＥＭ（Expectation- Maximization）アルゴリズムを実行することで各正規分布の加重値ｐiと平均ベクトルμiと共分散行列Σiとを算定する構成も採用される。各正規分布に属する特徴ベクトルｘの個数ｎiは、加重値ｐiと単位区間Ｔ内の特徴ベクトルｘの総数ｎvecとの乗算値として算定される。

（３）変形例３
図４のステップＳB5にて算定される距離ｄはユークリッド距離に限定されない。例えば、第ｑ番目の正規分布と第ｒ番目の正規分布とのマハラノビス距離ｄを以下の式で算定してもよい。

もっとも、ステップＳB6での併合の対象となる正規分布を選定するための数値は距離に限定されない。例えば、各正規分布の類似度をステップＳB5にて算定し、類似度の高い２個の正規分布をステップＳB6にて併合する構成も採用される。すなわち、ステップＳB5にて算定される数値は、２個の正規分布が類似または相違する程度の指標となり得る数値であれば足りる。

（４）変形例４
以上の形態においては更新混合モデルλBの加重値ｐiが個数ｎiに基づいて式(5)で算定される構成を例示したが、ステップＳB6における併合後の正規分布の重み値ｐjを併合前の２個の正規分布の各加重値（ｐq，pr）から算定する構成も採用される。例えば、第ｑ番目の正規分布の加重値ｐqと第ｒ番目の正規分布の加重値ｐrとの加算値または乗算値に応じた数値が併合後の正規分布の加算値ｐjとして算定される。

もっとも、本変形例の構成においては、更新混合モデルλBが過去の総ての単位区間Ｔの特徴ベクトルｘを反映しているのに対して単位区間モデルλAはひとつの単位区間Ｔの特徴ベクトルｘしか反映していないにも拘わらず、更新混合モデルλBの加重値ｐiが単位区間モデルλAに過剰に影響されるという問題がある。例えばいま、本変形例のもとで単位区間モデルλAの正規分布（加重値ｐq）と更新混合モデルλBの正規分布（加重値ｐr）とが併合される場合を想定する。単位区間モデルλAの加重値ｐqが更新混合モデルλBの加重値ｐrと比較して充分に大きい場合、併合後の正規分布の加重値ｐjは加重値ｐrと比較して過大な数値となる。これに対して本形態においては、更新混合モデルλBの更新のたび（ステップＳB6における正規分布の併合のたび）に累算される個数ｎiに基づいて加重値ｐiが算定される。したがって、登録区間ＴRの全体にわたる特徴ベクトルｘを均一的に反映した適切な加重値ｐiを算定することができる。

（５）変形例５
以上の形態においては、更新混合モデルλBの各正規分布に属する特徴ベクトルｘの個数ｎiがステップＳB6にて算定されて記憶回路３０に格納される構成を例示したが、更新混合モデルλBの各正規分布の個数ｎiに代えて、更新混合モデルλBでモデル化された特徴ベクトルｘの総数ｎT（総ての正規分布に属する特徴ベクトルｘの個数ｎ1〜ｎMの総和）を記憶回路３０に保持してもよい。

モデル合成部５４は、図４のステップＳB6において、更新混合モデルλBについては各正規分布の加重値ｐiと総数ｎTとの乗算値を当該正規分布の特徴ベクトルｘの個数ｎiとし、単位区間モデルλAについては各正規分布の加重値ｐiと所定の個数ｎvecとの乗算値を当該正規分布の特徴ベクトルｘの個数ｎiとして、併合後の正規分布に属する特徴ベクトルｘの個数ｎjを算定する。以上の構成によれば、単位区間モデルλAや更新混合モデルλBについて各正規分布の特徴ベクトルｘの個数ｎiを保持する必要がないから、記憶回路３０に要求される容量が低減されるという利点がある。

（６）変形例６
以上の形態においては単位区間Ｔが固定長とされた構成を例示したが、単位区間Ｔの長短が可変に制御される構成も採用される。例えば、制御回路４０は、利用者による操作子（図示略）への操作に応じて単位区間Ｔの時間長を設定する。領域Ａ1に必要となる容量は単位区間Ｔが短いほど低減され、登録区間ＴRにおける更新混合モデルλBの更新の回数は単位区間Ｔが長いほど削減される。したがって、記憶回路３０（領域Ａ1）の容量の削減を優先すべき場合には単位区間Ｔを短い区間に設定し、制御回路４０（モデル合成部５４）の処理量の削減を優先すべき場合には単位区間Ｔを長い区間に設定するといった制御が可能となる。

なお、以上の形態においては、単位区間Ｔの時間長が経過したか否かを図３のステップＳA2にて判定する場合を例示したが、例えば、ひとつの単位区間ＴについてステップＳA1を開始してから特徴抽出部４２が算定した特徴ベクトルｘの個数が所定値ｎvecを上回るか否かを制御回路４０が判定してもよい。

（７）変形例７
混合モデルλを構成する確率分布は正規分布（ガウス分布）に限定されない。したがって、領域Ａ2に格納される確率分布の変数も以上の例示（加重値ｐi，平均ベクトルμi，共分散行列Σi）から適宜に変更される。また、特徴抽出部４２が音信号Ｓから抽出する特徴量が複数の次元のベクトルで表現される必要は必ずしもない。したがって、確率分布が多次元である構成も本発明においては必須ではない。さらに、メルケプストラム係数は特徴量（特徴ベクトルｘ）の例示に過ぎない。例えば、各フレームＦにおける音信号Ｓの強度の平均値または最大値や基本周波数を特徴量（確率変数）として単位区間モデルλAや更新混合モデルλBを算定する構成も採用される。

（８）変形例８
以上の形態においては、発声者の正当性を混合モデルλに基づいて認証する構成を例示したが、混合モデルλの用途（照合部４４の処理の内容）は適宜に変更される。例えば、事前に混合モデルλを生成した複数の登録者のなかから実際の発声者を判別する話者識別にも本発明が適用される。照合部４４は、音信号Ｓから抽出された特徴ベクトルｘを式(2)に代入することで複数の混合モデルλの各々について尤度Ｌを算定し、尤度Ｌが最大となる混合モデルλに対応した登録者を発声者として識別する。

以上の形態においては、人間の音声から抽出された特徴量の混合モデルλの生成を例示したが、混合モデルλでモデル化される音声の種類は任意である。例えば楽器の演奏音から混合モデルλを生成すれば、利用者が実際に演奏した楽器の演奏音と混合モデルλとを照合部４４が照合することで楽器を識別することが可能である。また、各種の機械の動作音から混合モデルλを生成すれば、機械が実際に作動しているときの動作音と混合モデルλとを照合部４４が照合することで機械の動作の異常を検出することが可能である。さらに、発声者の属性（性別や年齢）や楽曲の種類の識別および言語や声質の識別にも混合モデルλは利用される。

また、以上の形態と同様の方法で混合モデルλが生成される事象は音声に限定されない。例えば、画像の内容を指定する画像信号から抽出された特徴量について混合モデルλを生成してもよい。例えば、画像から抽出された特徴点のベクトルから以上の形態と同様の方法で混合モデルλを生成し、実際に入力された画像信号と混合モデルλとを照合することで、画像信号の示す画像が事前に登録された画像に合致するか否かを判定するといった構成が採用される。

本発明のひとつの形態に係る音処理装置の構成を示すブロック図である。混合モデルλを生成する手順を模式的に示す概念図である。混合モデルλを生成する処理の内容を示すフローチャートである。更新混合モデルλBを更新する処理の内容を示すフローチャートである。単位区間モデルλAを生成する処理の内容を示すフローチャートである。

符号の説明

１００……音処理装置、２０……マイクロホン、３０……記憶回路、４０……制御回路、４２……特徴抽出部、４４……照合部、４６……モデル登録部、５２……モデル生成部、５４……モデル合成部、５６……更新部、ＴR……登録区間、Ｔ……単位区間、Ｓ……音信号、λ……混合モデル、λA……単位区間モデル、λB……更新混合モデル、ｘ……特徴ベクトル。

Claims

所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、
前記特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第１記憶手段と、
複数の確率分布の加重和である混合モデルを記憶する第２記憶手段と、
前記第１記憶手段が記憶する複数の特徴量の混合モデルを単位区間ごとに生成する生成手段と、
前記第２記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとを合成して新規な混合モデルを順次に生成する合成手段と、
前記合成手段が生成した新規な混合モデルを前記第２記憶手段に格納する更新手段と
を具備する混合モデル生成装置。
前記合成手段は、前記第２記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとにおいて相互に近似する確率分布を併合することで前記新規な混合モデルを生成する
請求項１の混合モデル生成装置。
前記合成手段は、前記新規な混合モデルの確率分布の混合数が所定値となるまで、前記第２記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとの確率分布の併合を反復する
請求項２の混合モデル生成装置。
前記合成手段は、前記第２記憶手段が記憶する混合モデルの複数の確率分布と前記生成手段が生成する混合モデルの複数の確率分布とのなかで加重値が小さい確率分布を削除する
請求項１から請求項３の何れかの混合モデル生成装置。
前記第２記憶手段は、当該第２記憶手段が記憶する混合モデルの各確率分布に属する特徴量の個数を記憶し、
前記合成手段は、前記第２記憶手段が記憶する特徴量の個数と前記生成手段が生成する混合モデルの各確率分布に属する特徴量の個数とに基づいて、前記新規な混合モデルの各確率分布の加重値を算定する
請求項１から請求項４の何れかの混合モデル生成装置。
所定の時間長にわたって連続する音信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、
前記特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第１記憶手段と、
複数の確率分布の加重和である混合モデルを記憶する第２記憶手段と、
前記第１記憶手段が記憶する複数の特徴量の混合モデルを単位区間ごとに生成する生成手段と、
前記第２記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとを合成して新規な混合モデルを順次に生成する合成手段と、
前記合成手段が生成した新規な混合モデルを前記第２記憶手段に格納する更新手段と、
前記複数の単位区間についての更新後に前記第２記憶手段に記憶されている最新の混合モデルと照合対象の音信号の特徴量とを照合する照合手段と
を具備する音処理装置。
コンピュータに、
所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出して第１記憶手段に記憶する特徴抽出処理と、
前記第１記憶手段が記憶する複数の特徴量を複数の確率分布の加重和でモデル化する混合モデルを単位区間ごとに生成する生成処理と、
第２記憶手段が記憶する混合モデルと前記生成処理で生成した混合モデルとを合成して新規な混合モデルを順次に生成する合成処理と、
前記合成処理で生成した新規な混合モデルを前記第２記憶手段に格納する更新処理と
を実行させるプログラム。