JP2008233759A - 混合モデル生成装置、音処理装置およびプログラム - Google Patents

混合モデル生成装置、音処理装置およびプログラム Download PDF

Info

Publication number
JP2008233759A
JP2008233759A JP2007076580A JP2007076580A JP2008233759A JP 2008233759 A JP2008233759 A JP 2008233759A JP 2007076580 A JP2007076580 A JP 2007076580A JP 2007076580 A JP2007076580 A JP 2007076580A JP 2008233759 A JP2008233759 A JP 2008233759A
Authority
JP
Japan
Prior art keywords
mixed model
unit
model
feature
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007076580A
Other languages
English (en)
Other versions
JP4765971B2 (ja
Inventor
Yasuo Yoshioka
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007076580A priority Critical patent/JP4765971B2/ja
Publication of JP2008233759A publication Critical patent/JP2008233759A/ja
Application granted granted Critical
Publication of JP4765971B2 publication Critical patent/JP4765971B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】混合モデルの生成に必要な記憶容量を削減する。
【解決手段】特徴抽出部42は、登録区間TRにわたって連続する音信号Sを区分した複数の単位区間Tの各々について複数の特徴量xを順次に抽出する。記憶回路30は、ひとつの単位区間Tの複数の特徴量xを記憶する領域A1と、複数の確率分布の加重和である更新混合モデルλBを記憶する領域A2とを含む。モデル生成部52は、領域A1の複数の特徴量xの単位区間モデルλAを単位区間Tごとに生成する。モデル合成部54は、単位区間モデルλAと領域A2の更新混合モデルλBとを合成する。更新部56は、領域A2の更新混合モデルλBを、モデル合成部54が生成した新規な更新混合モデルλBに更新する。更新部56による複数回にわたる更新後の更新混合モデルλBが混合モデルλとして話者認証や話者識別に使用される。
【選択図】図1

Description

本発明は、多数の特徴量の分布を複数の確率分布の加重和でモデル化する混合モデル(例えばガウス混合モデル)を生成する技術に関する。
音声や画像を認識する技術では混合モデルが利用される。例えば非特許文献1には、テキスト非依存型の話者識別(話者認識)のためにガウス混合モデルを採用した構成が開示されている。ガウス混合モデルは、音声を収音した入力信号の多数の特徴量の分布を統計的に処理することで生成される。
D. A. Reynolds, R. C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", 1995, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.3, NO.1 PP.72-83
ガウス混合モデルは、その生成に使用される入力信号の時間長が長いほど入力信号の所期の特性を忠実に反映した内容となる。しかし、長時間にわたる入力信号をガウス混合モデルの生成に使用するためには、入力信号から抽出される膨大な特徴量を記憶し得る大容量の記憶装置が必要になるという問題がある。以上の事情を背景として、本発明は、混合モデルの生成に必要な記憶容量を削減するという課題の解決をひとつの目的としている。
以上の課題を解決するために、本発明のひとつの形態に係る混合モデル生成装置は、所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第1記憶手段(例えば図1の領域A1)と、複数の確率分布の加重和である混合モデルを記憶する第2記憶手段(例えば図1の領域A2)と、第1記憶手段が記憶する複数の特徴量の混合モデル(例えば図2の単位区間モデルλA)を単位区間ごとに生成する生成手段と、第2記憶手段が記憶する混合モデルと生成手段が生成する混合モデルとを合成して新規な混合モデル(例えば図2の更新混合モデルλB)を順次に生成する合成手段と、合成手段が生成した新規な混合モデルを第2記憶手段に格納する更新手段とを具備する。
以上の構成においては、入力信号の各単位区間から抽出された複数の特徴量について単位区間ごとに混合モデルが生成されて第2記憶手段の混合モデルの更新に使用されるから、所定の時間長の全体にわたる入力信号の特徴量を第1記憶手段に格納する必要はない。したがって、混合モデルの生成に必要な記憶容量を削減することができる。
本発明の好適な態様において、合成手段は、第2記憶手段が記憶する混合モデルと生成手段が生成する混合モデルとにおいて相互に近似する確率分布を併合することで新規な混合モデルを生成する。本態様においては、相互に近似する確率分布が併合されるから、何れかの確率分布が単純に削除される構成と比較して、入力信号を忠実に反映した混合モデルの生成が可能となる。さらに好適な態様において、合成手段は、新規な混合モデルの確率分布の混合数が所定値となるまで、第2記憶手段が記憶する混合モデルと生成手段が生成する混合モデルとの確率分布の併合を反復する。
本発明の好適な態様において、合成手段は、第2記憶手段が記憶する混合モデルの複数の確率分布と生成手段が生成する混合モデルの複数の確率分布とのなかで加重値が小さい確率分布を削除する。以上の態様によれば、確率分布の個数が削減されることで合成手段の処理量が軽減されるとともに、雑音などの外乱の影響を抑制した混合モデルを生成することが可能となる。
本発明の好適な態様において、第2記憶手段は、当該第2記憶手段が記憶する混合モデルの各確率分布に属する特徴量の個数を記憶し、合成手段は、第2記憶手段が記憶する特徴量の個数と生成手段が生成する混合モデルの各確率分布に属する特徴量の個数とに基づいて、新規な混合モデルの各確率分布の加重値を算定する。本態様によれば、第2記憶手段が記憶する混合モデルの各確率分布に属する特徴量の個数に基づいて新規な混合モデルの各確率分布の加重値が算定されるから、生成手段の生成した最新の混合モデルが第2記憶手段の混合モデルに過剰に影響することは抑制される。したがって、入力信号の本来の特性を忠実に反映した混合モデルを生成することが可能となる。
以上の各態様に係るモデル生成装置が生成した混合モデルの典型的な利用例は話者認証や話者識別である。本発明のひとつの形態に係る音処理装置は、音声を採取した音信号から混合モデルを生成する以上の各態様に係る混合モデル生成装置に加えて、複数の単位区間についての更新後に第2記憶手段に記憶されている最新の混合モデルと照合対象の音信号の特徴量とを照合する音声照合手段とを具備する。本発明の各形態に係る混合モデル生成装置によれば、特徴量を記憶する容量を削減した場合であっても、充分な時間長にわたる信号を混合モデルの生成に利用することができる。したがって、混合モデル生成装置を利用した音処理装置においては、信号の特性を忠実に反映した混合モデルを利用して高精度な話者認証や話者識別を実現することが可能である。
以上の各態様に係る混合モデル生成装置は、混合モデルの生成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出して第1記憶手段に記憶する特徴抽出処理(例えば図3のステップSA1)と、第1記憶手段が記憶する複数の特徴量を複数の確率分布の加重和でモデル化する混合モデルを単位区間ごとに生成する生成処理(例えば図4のステップSB1)と、第2記憶手段が記憶する混合モデルと生成処理で生成した混合モデルとを合成して新規な混合モデルを順次に生成する合成処理(例えば図4のステップSB4〜SB9)と、合成処理で生成した新規な混合モデルを第2記憶手段に格納する更新処理(例えば図4のステップSB10)とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る混合モデル生成装置と同様の作用および効果が奏される。なお、本発明のプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明は、以上の各態様に係る混合モデル生成装置の動作方法(混合モデル生成方法)としても特定される。本発明のひとつの態様に係る混合モデル生成方法は、所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出して第1記憶手段に記憶する特徴抽出過程(例えば図3のステップSA1)と、第1記憶手段が記憶する複数の特徴量を複数の確率分布の加重和でモデル化する混合モデルを単位区間ごとに生成する生成過程(例えば図4のステップSB1)と、第2記憶手段が記憶する混合モデルと生成過程で生成した混合モデルとを合成して新規な混合モデルを順次に生成する合成過程(例えば図4のステップSB4〜SB9)と、合成過程で生成した新規な混合モデルを第2記憶手段に格納する更新過程(例えば図4のステップSB10)とを含む。以上の方法によれば、本発明に係る混合モデル生成装置と同様の作用および効果が奏される。
<A:音処理装置>
図1は、本発明のひとつの形態に係る音処理装置の構成を示すブロック図である。音処理装置100は、発声者の音声の特徴量に基づいて当該発声者の正当性(予め登録された正規の利用者であるか否か)を判定する話者認証のための装置である。図1に示すように、音処理装置100の入力端子12にはマイクロホン20が接続される。マイクロホン20は、周囲の音響の時間的な波形を示す音信号Sを生成する。
音処理装置100は、記憶回路30と制御回路40とを具備する。記憶回路30は、制御回路40が実行するプログラムや制御回路40が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など任意の記憶装置が記憶回路30として採用される。図1に示すように、記憶回路30には領域A1と領域A2とが設定される。なお、領域A1と領域A2とが別個の記憶回路に設定された構成も採用される。
制御回路40は、プログラムを実行することで特徴抽出部42と照合部44とモデル登録部46として機能するCPUなどの演算処理装置である。なお、制御回路40は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、図1に例示した制御回路40の各部が複数の集積回路に分散して配置された構成としてもよい。
特徴抽出部42は、入力端子12から供給される音信号Sを区分した各フレームについて特徴量を算定する手段である。本形態の特徴抽出部42は、FFT(Fast Fourier Transform)処理を含む周波数分析を実行することでメルケプストラム係数のベクトル列(以下「特徴ベクトル」という)xを特徴量として算定する。照合部44は、特徴抽出部42が算定した特徴ベクトルxと記憶回路30の領域A2に格納された混合モデルλとを照合することで発声者の正当性を認証する。
混合モデルλは、音信号Sから抽出された特徴ベクトルxの分布をM個の正規分布の加重和(線形結合)としてモデル化した関数であり、以下の式(1)で表現される。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
音信号Sから抽出された特徴ベクトルxをD次元のベクトルとすると、特徴ベクトルxが出現する確率(尤度)は、混合モデルλを利用した式(2)で算定される。
Figure 2008233759
照合部44は、特徴抽出部42が時系列に抽出したK個の特徴ベクトルx(x1〜xK)を式(3)に代入することで尤度(特徴ベクトルx1〜xKが混合モデルλから出現する確率)Lを算定する。
Figure 2008233759

照合部44は、式(3)で算定した尤度Lを所定の閾値と比較し、尤度Lが閾値を上回る場合には発声者を正当な利用者として認証し、尤度Lが閾値を下回る場合には発声者の認証を拒絶する。照合部44は、照合の結果(認証の可否)を画像または音声として報知するための信号を出力端子14から出力する。
図1のモデル登録部46は、照合部44による話者認証に先立って混合モデルλを生成する手段である。混合モデルλは、正当な利用者がマイクロホン20に対して発声した音声に基づいて生成される。すなわち、特徴抽出部42が抽出した特徴ベクトルxは、話者認証時には照合部44に供給されて混合モデルλとの照合に利用され、混合モデルλの登録時にはモデル登録部46に供給されて混合モデルλの生成に利用される。
図2は、混合モデルλを生成する手順を模式的に示す概念図である。同図に示すように、混合モデルλは、所定の時間長(例えば30秒)にわたる登録区間TR内で連続する音信号Sに基づいて生成される。登録区間TRは所定の時間長(例えば2秒)の複数の単位区間Tに区分される。各単位区間Tは複数のフレームFを含む。したがって、単位区間Tごとに複数の特徴ベクトルxが順次に算定される。
図1に示すように、本形態のモデル登録部46は、モデル生成部52とモデル合成部54と更新部56とを含む。モデル生成部52は、図2に示すように、単位区間T内の音信号Sについて特徴抽出部42が算定した複数の特徴ベクトルxに基づいて混合モデル(以下では特に「単位区間モデル」という)λAを単位区間Tごとに順次に生成する。モデル合成部54は、第2番目以後の各単位区間Tについてモデル生成部52が生成した単位区間モデルλAと記憶回路30が記憶している混合モデル(以下では特に「更新混合モデル」という)λBとを合成する。更新部56は、登録区間TRの第1番目の単位区間Tについてモデル生成部52が生成した単位区間モデルλAを更新混合モデルλBとして記憶回路30の領域A2に格納し、第2番目以後の各単位区間Tの単位区間モデルλAからモデル合成部54が新規な更新混合モデルλBを生成するたびに、領域A2の更新混合モデルλBを新規な更新混合モデルλBに更新する。登録区間TRの全部の単位区間Tについて以上の処理が完了した段階で領域A2に格納されている最新の更新混合モデルλBが混合モデルλとして実際に話者認証に使用される。
図3は、制御回路40が混合モデルλを生成するための処理の内容を示すフローチャートである。図3の処理は、例えば、混合モデルλの登録の開始を利用者が操作子(図示略)から指示することで開始される。混合モデルλの登録を指示すると、利用者は、所定の時間長(登録区間TR)にわたって継続的にマイクロホン20に対して発声する。
同図に示すように、特徴抽出部42は、音信号SのひとつのフレームFについて特徴ベクトルxを算定して記憶回路30の領域A1に格納する(ステップSA1)。次いで、制御回路40は、単位区間T内の全部のフレームFについて特徴ベクトルxの算定および記憶が完了したか否かを判定する(ステップSA2)。例えば、制御回路40は、今回の単位区間TについてステップSA1を開始してから単位区間Tの時間長(例えば2秒)が経過したか否かをステップSA2にて判定する。
ステップSA2の結果が否定である場合、特徴抽出部42は、ステップSA1における特徴ベクトルxの算定および記憶を反復する。一方、ステップSA2の結果が肯定に変化すると、制御回路40は、ステップSA3に処理を移行する。したがって、ステップSA3が開始される段階では、ひとつの単位区間T内のフレームFの総数に相当するnvec個の特徴ベクトルxの集合(例えば2秒分の音信号Sから抽出された特徴ベクトルxの集合)が領域A1に格納されている。
ステップSA3において、モデル登録部46は、領域A1に格納されたnvec個の特徴ベクトルxに基づいて新規な更新混合モデルλBを生成して領域A2に格納する。ステップSA3の処理が完了すると、制御回路40は、領域A1に格納されたnvec個の特徴ベクトルxを消去する(ステップSA4)。次いで、制御回路40は、登録区間TR内の全部の単位区間TについてステップSA1〜SA4を実行したか否かを判定する(ステップSA5)。ステップSA5の結果が否定である場合、制御回路40は、音信号Sの次の単位区間TについてステップSA1以後の処理を反復する。一方、ステップSA5の結果が肯定に変化すると、制御回路40は、現段階で領域A2に格納されている最新の更新混合モデルλBを話者認証用の混合モデルλとして確定したうえで(ステップSA6)、混合モデルλの登録のための処理を終了する。
次に、図4を参照して、図3のステップSA3の処理の具体例を説明する。ステップSA3の処理が開始すると、モデル生成部52は、現時点で領域A1に格納されているnvec個の特徴ベクトルxの集合をモデル化する単位区間モデルλAを生成する(ステップSB1)。単位区間モデルλAは、式(4)に示すように、式(1)と同様の3種類の変数(pi,μi,Σi)と、第i番目の正規分布に属する特徴ベクトルxの個数niとで表現される。
λA={pi,μi,Σi,ni} (i=1〜M) ……(4)
図5は、ステップSB1の処理の具体例を示すフローチャートである。同図に示すように、モデル生成部52は、領域A1に格納されたnvec個の特徴ベクトルxをM個にクラスタリングする(ステップSC1)。特徴ベクトルxのクラスタリングには、k-means法に代表される公知のクラスタ分析技術が任意に採用される。さらに、モデル生成部52は、M個のクラスタの各々の中心ベクトルを単位区間モデルλAにおける各正規分布の平均ベクトルμ1〜μMとして算定する(ステップSC2)。
モデル生成部52は、nvec個の特徴ベクトルxの各々を、M個の平均ベクトルμ1〜μMのうち当該特徴ベクトルxに最も近似した平均ベクトルμiの正規分布に分類し、M個の正規分布の各々に分類された特徴ベクトルxの個数n1〜nMを計数する(ステップSC3)。
モデル生成部52は、M個の正規分布の各々について加重値p1〜pMを算定する(ステップSC4)。第i番目の正規分布の加重値piは、ステップSC3にて当該正規分布に分類された特徴ベクトルxの個数niと単位区間T内の特徴ベクトルxの総数nvecとの相対比(pi=ni/nvec)として算定される。さらに、モデル生成部52は、M個の正規分布の各々に分類された特徴ベクトルxに基づいて各正規分布の共分散行列Σ1〜ΣMを算定する(ステップSC5)。以上のように4種類の変数(pi,μi,Σi,ni)をM個の正規分布の各々について算定することで単位区間モデルλAが特定される。もっとも、単位区間モデルλAと更新混合モデルλBとで正規分布の混合数が相違する構成も採用される。
図4のステップSB1における単位区間モデルλAの算定に続いて、制御回路40は、更新混合モデルλBが領域A2に既に格納されているか否かを判定する(ステップSB2)。図3の処理を開始してから最初にステップSA3を実行する段階で更新混合モデルλBは未だ生成されていない(ステップSB2:NO)。したがって、更新部56は、図2に示すように、直前のステップSB1で生成した単位区間モデルλAを更新混合モデルλBとして領域A2に格納する(ステップSB3)。
一方、登録区間TRの第2番目以後の単位区間Tについて図4の処理を開始した段階では、図2に示すように、直前の単位区間Tについて生成された更新混合モデルλBが領域A2に格納されている(ステップSB2:YES)。したがって、モデル合成部54は、今回の単位区間Tについてモデル生成部52がステップSB1にて生成した単位区間モデルλAと領域A2に格納された最新の更新混合モデルλBとを合成することで新規な更新混合モデルλBを生成する(ステップSB4〜SB9)。
まず、モデル合成部54は、単位区間モデルλAと更新混合モデルλBとを加算することで混合モデルλtmpを生成する(ステップSB4)。単位区間モデルλAおよび更新混合モデルλBの何れも混合数はMであるから、ステップSB4の時点で混合モデルλtmpを構成する正規分布の総数(混合数)Nは2Mとなる。
モデル合成部54は、混合モデルλtmpのN個の正規分布から2個の正規分布を選択する全通りの組合せについて各正規分布間の距離dを算定する(ステップSB5)。本形態の距離dは、2個の正規分布の平均ベクトル間のユークリッド距離である。次いで、モデル合成部54は、ステップSB5にて算定した距離dが最小となる2個の正規分布(すなわち混合モデルλtmpのなかで最も近似する2個の正規分布)を選択して両者を併合する(ステップSB6)。また、2個の正規分布の併合によって混合モデルλtmpのひとつの正規分布が減少するから、モデル合成部54は、混合数Nを1だけ減少させる(ステップSB7)。
第q番目の正規分布(pq,μq,Σq,nq)と第r番目(r≠q)の正規分布(pr,μr,Σr,nr)との距離dが最小であると判定された場合、ステップSB6の併合後の正規分布における平均ベクトルμj(j=1〜N)と共分散行列Σjと特徴ベクトルxの総数njとは以下の各式で算定される。なお、Tは転置を意味する。
nj=nq+nr
μj=f1・μq+f2・μr
Σj=f1・Σq+f2・Σr+f1・f2・(μq−μr)(μq−μr)
f1=nq/(nq+nr)
f2=nr/(nq+nr)
モデル合成部54は、ステップSB7における減算後の混合数Nが所期の混合数Mに合致するか否かを判定する(ステップSB8)。ステップSB8の結果が否定であれば処理はステップSB5に移行する。すなわち、混合モデルλtmpの混合数Nが所定個Mに減少するまで、各正規分布間の距離dの算定(ステップSB5)と距離dが最小となる正規分布の併合(ステップSB6,SB7)とが反復される。
ステップSB8の結果が肯定となる段階では、混合モデルλtmpのM個の正規分布の各々について平均ベクトルμiと共分散行列Σiと特徴ベクトルxの個数niとが算定されている。モデル合成部54は、各正規分布の加重値piを、特徴ベクトルxの個数niに基づいて以下の式(5)で算定する(ステップSB9)。
Figure 2008233759
更新部56は、以上の処理でモデル合成部54が生成した混合モデルλtmp(λtmp={pi,μi,Σi,ni})を新規な更新混合モデルλBとして領域A2に格納する(ステップSB10)。すなわち、領域A2の更新混合モデルλBが新規な混合モデルλtmpに更新される。以上が更新混合モデルλBを更新するための具体的な方法である。
以上のように本形態においては、混合モデルλの確定に必要な登録区間TRを区分した各単位区間Tについて特徴ベクトルxの算定と更新混合モデルλBの更新とが順次に実行されるから、登録区間TRの全部にわたる特徴ベクトルxを記憶回路30に保持する必要がない。したがって、記憶回路30の領域A1の容量は、単位区間T内のnvec個の特徴ベクトルxを格納し得る容量で足りる。すなわち、本形態によれば、登録区間TRの全部にわたる特徴ベクトルxが記憶回路30に格納される構成と比較して、記憶回路30に要求される容量や特徴ベクトルxから混合モデルλを算定する処理量が削減される。
<B:変形例>
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)変形例1
以上の形態においては、混合モデルλtmpのうち相互に近似する正規分布が併合される構成を例示したが、混合モデルλtmpにおける正規分布の個数Nを所定の混合数Mまで減少させる方法(単位区間モデルλAと更新混合モデルλBとを合成する方法)は適宜に変更される。具体的には、正規分布を併合する処理(図4のステップSB5〜SB7)の開始前に、混合モデルλtmpを構成するN個の正規分布のうち加重値pj(j=1〜N)が小さい正規分布を混合モデルλtmpから削除してもよい。例えば、混合モデルλtmpのうち加重値pjが小さい順番に選択した所定個の正規分布を削除する構成や、混合モデルλtmpのうち加重値pjが閾値を下回るひとつまたは複数の正規分布を削除する構成が採用される。
話者認証や話者識別の精度を低下させ得る突発的な雑音(例えば発声者の咳払いの音やリップノイズや口中音など)の特徴ベクトルxから算定された正規分布は加重値pjが小さいという傾向がある。以上の例示のように加重値pjが小さい正規分布が事前に排除される構成によれば、図4のステップSB5〜SB7の処理の対象となる正規分布の個数が減少することでモデル合成部54の処理量が削減されるとともに、混合モデルλに対する雑音の影響が抑制されることで話者認証や話者識別の精度が向上するという利点がある。
なお、以上においては削除の対象となる正規分布が加重値pjに基づいて選択される構成を例示したが、混合モデルλtmpのN個の正規分布のうち特徴ベクトルxの個数njが小さい正規分布を削除する構成も採用される。また、図4のステップSB5〜SB7を実行する代わりに、混合モデルλtmpのN個の正規分布のうち加重値pjが小さい順番に選択されたM個の正規分布を削除することで更新混合モデルλBを生成してもよい。すなわち、正規分布の併合は本発明において必須の要件ではない。
(2)変形例2
以上の形態においては、特徴ベクトルxをクラスタリングすることで単位区間モデルλAを算定する構成を例示したが、単位区間モデルλAの算定には公知の技術が任意に採用され得る。例えば、図4のステップSB1にて単位区間T内の特徴ベクトルxに対してEM(Expectation- Maximization)アルゴリズムを実行することで各正規分布の加重値piと平均ベクトルμiと共分散行列Σiとを算定する構成も採用される。各正規分布に属する特徴ベクトルxの個数niは、加重値piと単位区間T内の特徴ベクトルxの総数nvecとの乗算値として算定される。
(3)変形例3
図4のステップSB5にて算定される距離dはユークリッド距離に限定されない。例えば、第q番目の正規分布と第r番目の正規分布とのマハラノビス距離dを以下の式で算定してもよい。
Figure 2008233759
もっとも、ステップSB6での併合の対象となる正規分布を選定するための数値は距離に限定されない。例えば、各正規分布の類似度をステップSB5にて算定し、類似度の高い2個の正規分布をステップSB6にて併合する構成も採用される。すなわち、ステップSB5にて算定される数値は、2個の正規分布が類似または相違する程度の指標となり得る数値であれば足りる。
(4)変形例4
以上の形態においては更新混合モデルλBの加重値piが個数niに基づいて式(5)で算定される構成を例示したが、ステップSB6における併合後の正規分布の重み値pjを併合前の2個の正規分布の各加重値(pq,pr)から算定する構成も採用される。例えば、第q番目の正規分布の加重値pqと第r番目の正規分布の加重値prとの加算値または乗算値に応じた数値が併合後の正規分布の加算値pjとして算定される。
もっとも、本変形例の構成においては、更新混合モデルλBが過去の総ての単位区間Tの特徴ベクトルxを反映しているのに対して単位区間モデルλAはひとつの単位区間Tの特徴ベクトルxしか反映していないにも拘わらず、更新混合モデルλBの加重値piが単位区間モデルλAに過剰に影響されるという問題がある。例えばいま、本変形例のもとで単位区間モデルλAの正規分布(加重値pq)と更新混合モデルλBの正規分布(加重値pr)とが併合される場合を想定する。単位区間モデルλAの加重値pqが更新混合モデルλBの加重値prと比較して充分に大きい場合、併合後の正規分布の加重値pjは加重値prと比較して過大な数値となる。これに対して本形態においては、更新混合モデルλBの更新のたび(ステップSB6における正規分布の併合のたび)に累算される個数niに基づいて加重値piが算定される。したがって、登録区間TRの全体にわたる特徴ベクトルxを均一的に反映した適切な加重値piを算定することができる。
(5)変形例5
以上の形態においては、更新混合モデルλBの各正規分布に属する特徴ベクトルxの個数niがステップSB6にて算定されて記憶回路30に格納される構成を例示したが、更新混合モデルλBの各正規分布の個数niに代えて、更新混合モデルλBでモデル化された特徴ベクトルxの総数nT(総ての正規分布に属する特徴ベクトルxの個数n1〜nMの総和)を記憶回路30に保持してもよい。
モデル合成部54は、図4のステップSB6において、更新混合モデルλBについては各正規分布の加重値piと総数nTとの乗算値を当該正規分布の特徴ベクトルxの個数niとし、単位区間モデルλAについては各正規分布の加重値piと所定の個数nvecとの乗算値を当該正規分布の特徴ベクトルxの個数niとして、併合後の正規分布に属する特徴ベクトルxの個数njを算定する。以上の構成によれば、単位区間モデルλAや更新混合モデルλBについて各正規分布の特徴ベクトルxの個数niを保持する必要がないから、記憶回路30に要求される容量が低減されるという利点がある。
(6)変形例6
以上の形態においては単位区間Tが固定長とされた構成を例示したが、単位区間Tの長短が可変に制御される構成も採用される。例えば、制御回路40は、利用者による操作子(図示略)への操作に応じて単位区間Tの時間長を設定する。領域A1に必要となる容量は単位区間Tが短いほど低減され、登録区間TRにおける更新混合モデルλBの更新の回数は単位区間Tが長いほど削減される。したがって、記憶回路30(領域A1)の容量の削減を優先すべき場合には単位区間Tを短い区間に設定し、制御回路40(モデル合成部54)の処理量の削減を優先すべき場合には単位区間Tを長い区間に設定するといった制御が可能となる。
なお、以上の形態においては、単位区間Tの時間長が経過したか否かを図3のステップSA2にて判定する場合を例示したが、例えば、ひとつの単位区間TについてステップSA1を開始してから特徴抽出部42が算定した特徴ベクトルxの個数が所定値nvecを上回るか否かを制御回路40が判定してもよい。
(7)変形例7
混合モデルλを構成する確率分布は正規分布(ガウス分布)に限定されない。したがって、領域A2に格納される確率分布の変数も以上の例示(加重値pi,平均ベクトルμi,共分散行列Σi)から適宜に変更される。また、特徴抽出部42が音信号Sから抽出する特徴量が複数の次元のベクトルで表現される必要は必ずしもない。したがって、確率分布が多次元である構成も本発明においては必須ではない。さらに、メルケプストラム係数は特徴量(特徴ベクトルx)の例示に過ぎない。例えば、各フレームFにおける音信号Sの強度の平均値または最大値や基本周波数を特徴量(確率変数)として単位区間モデルλAや更新混合モデルλBを算定する構成も採用される。
(8)変形例8
以上の形態においては、発声者の正当性を混合モデルλに基づいて認証する構成を例示したが、混合モデルλの用途(照合部44の処理の内容)は適宜に変更される。例えば、事前に混合モデルλを生成した複数の登録者のなかから実際の発声者を判別する話者識別にも本発明が適用される。照合部44は、音信号Sから抽出された特徴ベクトルxを式(2)に代入することで複数の混合モデルλの各々について尤度Lを算定し、尤度Lが最大となる混合モデルλに対応した登録者を発声者として識別する。
以上の形態においては、人間の音声から抽出された特徴量の混合モデルλの生成を例示したが、混合モデルλでモデル化される音声の種類は任意である。例えば楽器の演奏音から混合モデルλを生成すれば、利用者が実際に演奏した楽器の演奏音と混合モデルλとを照合部44が照合することで楽器を識別することが可能である。また、各種の機械の動作音から混合モデルλを生成すれば、機械が実際に作動しているときの動作音と混合モデルλとを照合部44が照合することで機械の動作の異常を検出することが可能である。さらに、発声者の属性(性別や年齢)や楽曲の種類の識別および言語や声質の識別にも混合モデルλは利用される。
また、以上の形態と同様の方法で混合モデルλが生成される事象は音声に限定されない。例えば、画像の内容を指定する画像信号から抽出された特徴量について混合モデルλを生成してもよい。例えば、画像から抽出された特徴点のベクトルから以上の形態と同様の方法で混合モデルλを生成し、実際に入力された画像信号と混合モデルλとを照合することで、画像信号の示す画像が事前に登録された画像に合致するか否かを判定するといった構成が採用される。
本発明のひとつの形態に係る音処理装置の構成を示すブロック図である。 混合モデルλを生成する手順を模式的に示す概念図である。 混合モデルλを生成する処理の内容を示すフローチャートである。 更新混合モデルλBを更新する処理の内容を示すフローチャートである。 単位区間モデルλAを生成する処理の内容を示すフローチャートである。
符号の説明
100……音処理装置、20……マイクロホン、30……記憶回路、40……制御回路、42……特徴抽出部、44……照合部、46……モデル登録部、52……モデル生成部、54……モデル合成部、56……更新部、TR……登録区間、T……単位区間、S……音信号、λ……混合モデル、λA……単位区間モデル、λB……更新混合モデル、x……特徴ベクトル。

Claims (7)

  1. 所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、
    前記特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第1記憶手段と、
    複数の確率分布の加重和である混合モデルを記憶する第2記憶手段と、
    前記第1記憶手段が記憶する複数の特徴量の混合モデルを単位区間ごとに生成する生成手段と、
    前記第2記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとを合成して新規な混合モデルを順次に生成する合成手段と、
    前記合成手段が生成した新規な混合モデルを前記第2記憶手段に格納する更新手段と
    を具備する混合モデル生成装置。
  2. 前記合成手段は、前記第2記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとにおいて相互に近似する確率分布を併合することで前記新規な混合モデルを生成する
    請求項1の混合モデル生成装置。
  3. 前記合成手段は、前記新規な混合モデルの確率分布の混合数が所定値となるまで、前記第2記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとの確率分布の併合を反復する
    請求項2の混合モデル生成装置。
  4. 前記合成手段は、前記第2記憶手段が記憶する混合モデルの複数の確率分布と前記生成手段が生成する混合モデルの複数の確率分布とのなかで加重値が小さい確率分布を削除する
    請求項1から請求項3の何れかの混合モデル生成装置。
  5. 前記第2記憶手段は、当該第2記憶手段が記憶する混合モデルの各確率分布に属する特徴量の個数を記憶し、
    前記合成手段は、前記第2記憶手段が記憶する特徴量の個数と前記生成手段が生成する混合モデルの各確率分布に属する特徴量の個数とに基づいて、前記新規な混合モデルの各確率分布の加重値を算定する
    請求項1から請求項4の何れかの混合モデル生成装置。
  6. 所定の時間長にわたって連続する音信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、
    前記特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第1記憶手段と、
    複数の確率分布の加重和である混合モデルを記憶する第2記憶手段と、
    前記第1記憶手段が記憶する複数の特徴量の混合モデルを単位区間ごとに生成する生成手段と、
    前記第2記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとを合成して新規な混合モデルを順次に生成する合成手段と、
    前記合成手段が生成した新規な混合モデルを前記第2記憶手段に格納する更新手段と、
    前記複数の単位区間についての更新後に前記第2記憶手段に記憶されている最新の混合モデルと照合対象の音信号の特徴量とを照合する照合手段と
    を具備する音処理装置。
  7. コンピュータに、
    所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出して第1記憶手段に記憶する特徴抽出処理と、
    前記第1記憶手段が記憶する複数の特徴量を複数の確率分布の加重和でモデル化する混合モデルを単位区間ごとに生成する生成処理と、
    第2記憶手段が記憶する混合モデルと前記生成処理で生成した混合モデルとを合成して新規な混合モデルを順次に生成する合成処理と、
    前記合成処理で生成した新規な混合モデルを前記第2記憶手段に格納する更新処理と
    を実行させるプログラム。
JP2007076580A 2007-03-23 2007-03-23 混合モデル生成装置、音処理装置およびプログラム Expired - Fee Related JP4765971B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007076580A JP4765971B2 (ja) 2007-03-23 2007-03-23 混合モデル生成装置、音処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007076580A JP4765971B2 (ja) 2007-03-23 2007-03-23 混合モデル生成装置、音処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008233759A true JP2008233759A (ja) 2008-10-02
JP4765971B2 JP4765971B2 (ja) 2011-09-07

Family

ID=39906579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007076580A Expired - Fee Related JP4765971B2 (ja) 2007-03-23 2007-03-23 混合モデル生成装置、音処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4765971B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128496A (ja) * 2007-11-21 2009-06-11 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体
JP2016166927A (ja) * 2015-03-09 2016-09-15 日本電信電話株式会社 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
US11348575B2 (en) 2019-12-11 2022-05-31 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0580792A (ja) * 1991-09-20 1993-04-02 Mitsubishi Electric Corp 確率演算装置及び確率演算方法
JPH06259089A (ja) * 1993-03-09 1994-09-16 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方法
JP2003076390A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 話者認証システム及び方法
JP2005091758A (ja) * 2003-09-17 2005-04-07 Seiichi Nakagawa 話者認識システム及び方法
JP2005321660A (ja) * 2004-05-10 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0580792A (ja) * 1991-09-20 1993-04-02 Mitsubishi Electric Corp 確率演算装置及び確率演算方法
JPH06259089A (ja) * 1993-03-09 1994-09-16 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方法
JP2003076390A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 話者認証システム及び方法
JP2005091758A (ja) * 2003-09-17 2005-04-07 Seiichi Nakagawa 話者認識システム及び方法
JP2005321660A (ja) * 2004-05-10 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128496A (ja) * 2007-11-21 2009-06-11 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体
JP2016166927A (ja) * 2015-03-09 2016-09-15 日本電信電話株式会社 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
US11348575B2 (en) 2019-12-11 2022-05-31 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus
US11763805B2 (en) 2019-12-11 2023-09-19 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus

Also Published As

Publication number Publication date
JP4765971B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
WO2017113658A1 (zh) 基于人工智能的声纹认证方法以及装置
JP2015180966A (ja) 音声処理システム
US7653534B2 (en) Apparatus and method for determining a type of chord underlying a test signal
Tsunoo et al. Beyond timbral statistics: Improving music classification using percussive patterns and bass lines
CN106898339B (zh) 一种歌曲的合唱方法及终端
CN109346043B (zh) 一种基于生成对抗网络的音乐生成方法及装置
JP6743425B2 (ja) 音信号処理方法および音信号処理装置
JP2021152682A (ja) 音声処理装置、音声処理方法、およびプログラム
JP5050698B2 (ja) 音声処理装置およびプログラム
JP4765971B2 (ja) 混合モデル生成装置、音処理装置およびプログラム
JPH10207484A (ja) 抑制標準パターン選択式話者認識装置
JP5083951B2 (ja) 音声処理装置およびプログラム
CN108829739A (zh) 一种信息推送方法及装置
CN110516103B (zh) 基于分类器的歌曲节奏生成方法、设备、存储介质及装置
Ullrich et al. Music transcription with convolutional sequence-to-sequence models
Regnier et al. Singer verification: singer model. vs. song model
KR101813704B1 (ko) 사용자 음색 분석 장치 및 음색 분석 방법
Soni et al. Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization
Han et al. Detecting fingering of overblown flute sound using sparse feature learning
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
Arora et al. Instrument identification using PLCA over stretched manifolds
Xing et al. Modeling of the latent embedding of music using deep neural network
JP2004117662A (ja) 音声合成システム
JP2017161572A (ja) 音信号処理方法および音信号処理装置
Zhao et al. Violinist identification using note-level timbre feature distributions

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110530

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees