JP2008233759A - 混合モデル生成装置、音処理装置およびプログラム - Google Patents
混合モデル生成装置、音処理装置およびプログラム Download PDFInfo
- Publication number
- JP2008233759A JP2008233759A JP2007076580A JP2007076580A JP2008233759A JP 2008233759 A JP2008233759 A JP 2008233759A JP 2007076580 A JP2007076580 A JP 2007076580A JP 2007076580 A JP2007076580 A JP 2007076580A JP 2008233759 A JP2008233759 A JP 2008233759A
- Authority
- JP
- Japan
- Prior art keywords
- mixed model
- unit
- model
- feature
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】特徴抽出部42は、登録区間TRにわたって連続する音信号Sを区分した複数の単位区間Tの各々について複数の特徴量xを順次に抽出する。記憶回路30は、ひとつの単位区間Tの複数の特徴量xを記憶する領域A1と、複数の確率分布の加重和である更新混合モデルλBを記憶する領域A2とを含む。モデル生成部52は、領域A1の複数の特徴量xの単位区間モデルλAを単位区間Tごとに生成する。モデル合成部54は、単位区間モデルλAと領域A2の更新混合モデルλBとを合成する。更新部56は、領域A2の更新混合モデルλBを、モデル合成部54が生成した新規な更新混合モデルλBに更新する。更新部56による複数回にわたる更新後の更新混合モデルλBが混合モデルλとして話者認証や話者識別に使用される。
【選択図】図1
Description
D. A. Reynolds, R. C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", 1995, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.3, NO.1 PP.72-83
図1は、本発明のひとつの形態に係る音処理装置の構成を示すブロック図である。音処理装置100は、発声者の音声の特徴量に基づいて当該発声者の正当性(予め登録された正規の利用者であるか否か)を判定する話者認証のための装置である。図1に示すように、音処理装置100の入力端子12にはマイクロホン20が接続される。マイクロホン20は、周囲の音響の時間的な波形を示す音信号Sを生成する。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
照合部44は、式(3)で算定した尤度Lを所定の閾値と比較し、尤度Lが閾値を上回る場合には発声者を正当な利用者として認証し、尤度Lが閾値を下回る場合には発声者の認証を拒絶する。照合部44は、照合の結果(認証の可否)を画像または音声として報知するための信号を出力端子14から出力する。
λA={pi,μi,Σi,ni} (i=1〜M) ……(4)
nj=nq+nr
μj=f1・μq+f2・μr
Σj=f1・Σq+f2・Σr+f1・f2・(μq−μr)(μq−μr)T
f1=nq/(nq+nr)
f2=nr/(nq+nr)
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
以上の形態においては、混合モデルλtmpのうち相互に近似する正規分布が併合される構成を例示したが、混合モデルλtmpにおける正規分布の個数Nを所定の混合数Mまで減少させる方法(単位区間モデルλAと更新混合モデルλBとを合成する方法)は適宜に変更される。具体的には、正規分布を併合する処理(図4のステップSB5〜SB7)の開始前に、混合モデルλtmpを構成するN個の正規分布のうち加重値pj(j=1〜N)が小さい正規分布を混合モデルλtmpから削除してもよい。例えば、混合モデルλtmpのうち加重値pjが小さい順番に選択した所定個の正規分布を削除する構成や、混合モデルλtmpのうち加重値pjが閾値を下回るひとつまたは複数の正規分布を削除する構成が採用される。
以上の形態においては、特徴ベクトルxをクラスタリングすることで単位区間モデルλAを算定する構成を例示したが、単位区間モデルλAの算定には公知の技術が任意に採用され得る。例えば、図4のステップSB1にて単位区間T内の特徴ベクトルxに対してEM(Expectation- Maximization)アルゴリズムを実行することで各正規分布の加重値piと平均ベクトルμiと共分散行列Σiとを算定する構成も採用される。各正規分布に属する特徴ベクトルxの個数niは、加重値piと単位区間T内の特徴ベクトルxの総数nvecとの乗算値として算定される。
以上の形態においては更新混合モデルλBの加重値piが個数niに基づいて式(5)で算定される構成を例示したが、ステップSB6における併合後の正規分布の重み値pjを併合前の2個の正規分布の各加重値(pq,pr)から算定する構成も採用される。例えば、第q番目の正規分布の加重値pqと第r番目の正規分布の加重値prとの加算値または乗算値に応じた数値が併合後の正規分布の加算値pjとして算定される。
以上の形態においては、更新混合モデルλBの各正規分布に属する特徴ベクトルxの個数niがステップSB6にて算定されて記憶回路30に格納される構成を例示したが、更新混合モデルλBの各正規分布の個数niに代えて、更新混合モデルλBでモデル化された特徴ベクトルxの総数nT(総ての正規分布に属する特徴ベクトルxの個数n1〜nMの総和)を記憶回路30に保持してもよい。
以上の形態においては単位区間Tが固定長とされた構成を例示したが、単位区間Tの長短が可変に制御される構成も採用される。例えば、制御回路40は、利用者による操作子(図示略)への操作に応じて単位区間Tの時間長を設定する。領域A1に必要となる容量は単位区間Tが短いほど低減され、登録区間TRにおける更新混合モデルλBの更新の回数は単位区間Tが長いほど削減される。したがって、記憶回路30(領域A1)の容量の削減を優先すべき場合には単位区間Tを短い区間に設定し、制御回路40(モデル合成部54)の処理量の削減を優先すべき場合には単位区間Tを長い区間に設定するといった制御が可能となる。
混合モデルλを構成する確率分布は正規分布(ガウス分布)に限定されない。したがって、領域A2に格納される確率分布の変数も以上の例示(加重値pi,平均ベクトルμi,共分散行列Σi)から適宜に変更される。また、特徴抽出部42が音信号Sから抽出する特徴量が複数の次元のベクトルで表現される必要は必ずしもない。したがって、確率分布が多次元である構成も本発明においては必須ではない。さらに、メルケプストラム係数は特徴量(特徴ベクトルx)の例示に過ぎない。例えば、各フレームFにおける音信号Sの強度の平均値または最大値や基本周波数を特徴量(確率変数)として単位区間モデルλAや更新混合モデルλBを算定する構成も採用される。
以上の形態においては、発声者の正当性を混合モデルλに基づいて認証する構成を例示したが、混合モデルλの用途(照合部44の処理の内容)は適宜に変更される。例えば、事前に混合モデルλを生成した複数の登録者のなかから実際の発声者を判別する話者識別にも本発明が適用される。照合部44は、音信号Sから抽出された特徴ベクトルxを式(2)に代入することで複数の混合モデルλの各々について尤度Lを算定し、尤度Lが最大となる混合モデルλに対応した登録者を発声者として識別する。
Claims (7)
- 所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、
前記特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第1記憶手段と、
複数の確率分布の加重和である混合モデルを記憶する第2記憶手段と、
前記第1記憶手段が記憶する複数の特徴量の混合モデルを単位区間ごとに生成する生成手段と、
前記第2記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとを合成して新規な混合モデルを順次に生成する合成手段と、
前記合成手段が生成した新規な混合モデルを前記第2記憶手段に格納する更新手段と
を具備する混合モデル生成装置。 - 前記合成手段は、前記第2記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとにおいて相互に近似する確率分布を併合することで前記新規な混合モデルを生成する
請求項1の混合モデル生成装置。 - 前記合成手段は、前記新規な混合モデルの確率分布の混合数が所定値となるまで、前記第2記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとの確率分布の併合を反復する
請求項2の混合モデル生成装置。 - 前記合成手段は、前記第2記憶手段が記憶する混合モデルの複数の確率分布と前記生成手段が生成する混合モデルの複数の確率分布とのなかで加重値が小さい確率分布を削除する
請求項1から請求項3の何れかの混合モデル生成装置。 - 前記第2記憶手段は、当該第2記憶手段が記憶する混合モデルの各確率分布に属する特徴量の個数を記憶し、
前記合成手段は、前記第2記憶手段が記憶する特徴量の個数と前記生成手段が生成する混合モデルの各確率分布に属する特徴量の個数とに基づいて、前記新規な混合モデルの各確率分布の加重値を算定する
請求項1から請求項4の何れかの混合モデル生成装置。 - 所定の時間長にわたって連続する音信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、
前記特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第1記憶手段と、
複数の確率分布の加重和である混合モデルを記憶する第2記憶手段と、
前記第1記憶手段が記憶する複数の特徴量の混合モデルを単位区間ごとに生成する生成手段と、
前記第2記憶手段が記憶する混合モデルと前記生成手段が生成する混合モデルとを合成して新規な混合モデルを順次に生成する合成手段と、
前記合成手段が生成した新規な混合モデルを前記第2記憶手段に格納する更新手段と、
前記複数の単位区間についての更新後に前記第2記憶手段に記憶されている最新の混合モデルと照合対象の音信号の特徴量とを照合する照合手段と
を具備する音処理装置。 - コンピュータに、
所定の時間長にわたって連続する入力信号を区分した複数の単位区間の各々について複数の特徴量を順次に抽出して第1記憶手段に記憶する特徴抽出処理と、
前記第1記憶手段が記憶する複数の特徴量を複数の確率分布の加重和でモデル化する混合モデルを単位区間ごとに生成する生成処理と、
第2記憶手段が記憶する混合モデルと前記生成処理で生成した混合モデルとを合成して新規な混合モデルを順次に生成する合成処理と、
前記合成処理で生成した新規な混合モデルを前記第2記憶手段に格納する更新処理と
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076580A JP4765971B2 (ja) | 2007-03-23 | 2007-03-23 | 混合モデル生成装置、音処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076580A JP4765971B2 (ja) | 2007-03-23 | 2007-03-23 | 混合モデル生成装置、音処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008233759A true JP2008233759A (ja) | 2008-10-02 |
JP4765971B2 JP4765971B2 (ja) | 2011-09-07 |
Family
ID=39906579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007076580A Expired - Fee Related JP4765971B2 (ja) | 2007-03-23 | 2007-03-23 | 混合モデル生成装置、音処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4765971B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009128496A (ja) * | 2007-11-21 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
JP2016166927A (ja) * | 2015-03-09 | 2016-09-15 | 日本電信電話株式会社 | パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム |
US11348575B2 (en) | 2019-12-11 | 2022-05-31 | Samsung Electronics Co., Ltd. | Speaker recognition method and apparatus |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0580792A (ja) * | 1991-09-20 | 1993-04-02 | Mitsubishi Electric Corp | 確率演算装置及び確率演算方法 |
JPH06259089A (ja) * | 1993-03-09 | 1994-09-16 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声認識方法 |
JP2003076390A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 話者認証システム及び方法 |
JP2005091758A (ja) * | 2003-09-17 | 2005-04-07 | Seiichi Nakagawa | 話者認識システム及び方法 |
JP2005321660A (ja) * | 2004-05-10 | 2005-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 |
-
2007
- 2007-03-23 JP JP2007076580A patent/JP4765971B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0580792A (ja) * | 1991-09-20 | 1993-04-02 | Mitsubishi Electric Corp | 確率演算装置及び確率演算方法 |
JPH06259089A (ja) * | 1993-03-09 | 1994-09-16 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声認識方法 |
JP2003076390A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 話者認証システム及び方法 |
JP2005091758A (ja) * | 2003-09-17 | 2005-04-07 | Seiichi Nakagawa | 話者認識システム及び方法 |
JP2005321660A (ja) * | 2004-05-10 | 2005-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009128496A (ja) * | 2007-11-21 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
JP2016166927A (ja) * | 2015-03-09 | 2016-09-15 | 日本電信電話株式会社 | パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム |
US11348575B2 (en) | 2019-12-11 | 2022-05-31 | Samsung Electronics Co., Ltd. | Speaker recognition method and apparatus |
US11763805B2 (en) | 2019-12-11 | 2023-09-19 | Samsung Electronics Co., Ltd. | Speaker recognition method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP4765971B2 (ja) | 2011-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017113658A1 (zh) | 基于人工智能的声纹认证方法以及装置 | |
JP2015180966A (ja) | 音声処理システム | |
US7653534B2 (en) | Apparatus and method for determining a type of chord underlying a test signal | |
Tsunoo et al. | Beyond timbral statistics: Improving music classification using percussive patterns and bass lines | |
CN106898339B (zh) | 一种歌曲的合唱方法及终端 | |
CN109346043B (zh) | 一种基于生成对抗网络的音乐生成方法及装置 | |
JP6743425B2 (ja) | 音信号処理方法および音信号処理装置 | |
JP2021152682A (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JP4765971B2 (ja) | 混合モデル生成装置、音処理装置およびプログラム | |
JPH10207484A (ja) | 抑制標準パターン選択式話者認識装置 | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
CN108829739A (zh) | 一种信息推送方法及装置 | |
CN110516103B (zh) | 基于分类器的歌曲节奏生成方法、设备、存储介质及装置 | |
Ullrich et al. | Music transcription with convolutional sequence-to-sequence models | |
Regnier et al. | Singer verification: singer model. vs. song model | |
KR101813704B1 (ko) | 사용자 음색 분석 장치 및 음색 분석 방법 | |
Soni et al. | Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization | |
Han et al. | Detecting fingering of overblown flute sound using sparse feature learning | |
JP3934556B2 (ja) | 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置 | |
Arora et al. | Instrument identification using PLCA over stretched manifolds | |
Xing et al. | Modeling of the latent embedding of music using deep neural network | |
JP2004117662A (ja) | 音声合成システム | |
JP2017161572A (ja) | 音信号処理方法および音信号処理装置 | |
Zhao et al. | Violinist identification using note-level timbre feature distributions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110530 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |