JP4765971B2 - 混合モデル生成装置、音処理装置およびプログラム - Google Patents
混合モデル生成装置、音処理装置およびプログラム Download PDFInfo
- Publication number
- JP4765971B2 JP4765971B2 JP2007076580A JP2007076580A JP4765971B2 JP 4765971 B2 JP4765971 B2 JP 4765971B2 JP 2007076580 A JP2007076580 A JP 2007076580A JP 2007076580 A JP2007076580 A JP 2007076580A JP 4765971 B2 JP4765971 B2 JP 4765971B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- model
- mixed model
- section
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
D. A. Reynolds, R. C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models", 1995, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.3, NO.1 PP.72-83
図1は、本発明のひとつの形態に係る音処理装置の構成を示すブロック図である。音処理装置100は、発声者の音声の特徴量に基づいて当該発声者の正当性(予め登録された正規の利用者であるか否か)を判定する話者認証のための装置である。図1に示すように、音処理装置100の入力端子12にはマイクロホン20が接続される。マイクロホン20は、周囲の音響の時間的な波形を示す音信号Sを生成する。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
照合部44は、式(3)で算定した尤度Lを所定の閾値と比較し、尤度Lが閾値を上回る場合には発声者を正当な利用者として認証し、尤度Lが閾値を下回る場合には発声者の認証を拒絶する。照合部44は、照合の結果(認証の可否)を画像または音声として報知するための信号を出力端子14から出力する。
λA={pi,μi,Σi,ni} (i=1〜M) ……(4)
nj=nq+nr
μj=f1・μq+f2・μr
Σj=f1・Σq+f2・Σr+f1・f2・(μq−μr)(μq−μr)T
f1=nq/(nq+nr)
f2=nr/(nq+nr)
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
以上の形態においては、混合モデルλtmpのうち相互に近似する正規分布が併合される構成を例示したが、混合モデルλtmpにおける正規分布の個数Nを所定の混合数Mまで減少させる方法(単位区間モデルλAと更新混合モデルλBとを合成する方法)は適宜に変更される。具体的には、正規分布を併合する処理(図4のステップSB5〜SB7)の開始前に、混合モデルλtmpを構成するN個の正規分布のうち加重値pj(j=1〜N)が小さい正規分布を混合モデルλtmpから削除してもよい。例えば、混合モデルλtmpのうち加重値pjが小さい順番に選択した所定個の正規分布を削除する構成や、混合モデルλtmpのうち加重値pjが閾値を下回るひとつまたは複数の正規分布を削除する構成が採用される。
以上の形態においては、特徴ベクトルxをクラスタリングすることで単位区間モデルλAを算定する構成を例示したが、単位区間モデルλAの算定には公知の技術が任意に採用され得る。例えば、図4のステップSB1にて単位区間T内の特徴ベクトルxに対してEM(Expectation- Maximization)アルゴリズムを実行することで各正規分布の加重値piと平均ベクトルμiと共分散行列Σiとを算定する構成も採用される。各正規分布に属する特徴ベクトルxの個数niは、加重値piと単位区間T内の特徴ベクトルxの総数nvecとの乗算値として算定される。
以上の形態においては更新混合モデルλBの加重値piが個数niに基づいて式(5)で算定される構成を例示したが、ステップSB6における併合後の正規分布の重み値pjを併合前の2個の正規分布の各加重値(pq,pr)から算定する構成も採用される。例えば、第q番目の正規分布の加重値pqと第r番目の正規分布の加重値prとの加算値または乗算値に応じた数値が併合後の正規分布の加算値pjとして算定される。
以上の形態においては、更新混合モデルλBの各正規分布に属する特徴ベクトルxの個数niがステップSB6にて算定されて記憶回路30に格納される構成を例示したが、更新混合モデルλBの各正規分布の個数niに代えて、更新混合モデルλBでモデル化された特徴ベクトルxの総数nT(総ての正規分布に属する特徴ベクトルxの個数n1〜nMの総和)を記憶回路30に保持してもよい。
以上の形態においては単位区間Tが固定長とされた構成を例示したが、単位区間Tの長短が可変に制御される構成も採用される。例えば、制御回路40は、利用者による操作子(図示略)への操作に応じて単位区間Tの時間長を設定する。領域A1に必要となる容量は単位区間Tが短いほど低減され、登録区間TRにおける更新混合モデルλBの更新の回数は単位区間Tが長いほど削減される。したがって、記憶回路30(領域A1)の容量の削減を優先すべき場合には単位区間Tを短い区間に設定し、制御回路40(モデル合成部54)の処理量の削減を優先すべき場合には単位区間Tを長い区間に設定するといった制御が可能となる。
混合モデルλを構成する確率分布は正規分布(ガウス分布)に限定されない。したがって、領域A2に格納される確率分布の変数も以上の例示(加重値pi,平均ベクトルμi,共分散行列Σi)から適宜に変更される。また、特徴抽出部42が音信号Sから抽出する特徴量が複数の次元のベクトルで表現される必要は必ずしもない。したがって、確率分布が多次元である構成も本発明においては必須ではない。さらに、メルケプストラム係数は特徴量(特徴ベクトルx)の例示に過ぎない。例えば、各フレームFにおける音信号Sの強度の平均値または最大値や基本周波数を特徴量(確率変数)として単位区間モデルλAや更新混合モデルλBを算定する構成も採用される。
以上の形態においては、発声者の正当性を混合モデルλに基づいて認証する構成を例示したが、混合モデルλの用途(照合部44の処理の内容)は適宜に変更される。例えば、事前に混合モデルλを生成した複数の登録者のなかから実際の発声者を判別する話者識別にも本発明が適用される。照合部44は、音信号Sから抽出された特徴ベクトルxを式(2)に代入することで複数の混合モデルλの各々について尤度Lを算定し、尤度Lが最大となる混合モデルλに対応した登録者を発声者として識別する。
Claims (3)
- 入力信号の登録区間を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、
前記特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第1記憶手段と、
複数の確率分布の加重和である混合モデルを記憶する第2記憶手段と、
前記第1記憶手段が記憶する複数の特徴量の混合モデルを単位区間モデルとして生成する生成処理と、更新混合モデルを生成する合成処理と、前記合成処理で生成した更新混合モデルを前記第2記憶手段に格納する更新処理とを、前記特徴抽出手段が1個の単位区間について複数の特徴量を抽出するたびに実行し、前記生成処理と前記合成処理と前記更新処理とを前記登録区間内の複数の単位区間について反復した時点の前記第2記憶手段内の更新混合モデルを照合用の混合モデルとする登録手段とを具備し、
前記各単位区間に対応する前記合成処理において、前記登録手段は、当該単位区間について前記生成処理で生成した単位区間モデルと、直前の単位区間に対応する前記合成処理で生成されて前記更新処理により前記第2記憶手段に格納された更新混合モデルとの合成で新規な更新混合モデルを生成する
混合モデル生成装置。 - 入力信号の登録区間を区分した複数の単位区間の各々について複数の特徴量を順次に抽出する特徴抽出手段と、
前記特徴抽出手段が各単位区間について抽出した複数の特徴量を記憶する第1記憶手段と、
複数の確率分布の加重和である混合モデルを記憶する第2記憶手段と、
前記第1記憶手段が記憶する複数の特徴量の混合モデルを単位区間モデルとして生成する生成処理と、更新混合モデルを生成する合成処理と、前記合成処理で生成した更新混合モデルを前記第2記憶手段に格納する更新処理とを、前記特徴抽出手段が1個の単位区間について複数の特徴量を抽出するたびに実行し、前記生成処理と前記合成処理と前記更新処理とを前記登録区間内の複数の単位区間について反復した時点の前記第2記憶手段内の更新混合モデルを照合用の混合モデルとする登録手段と、
前記照合用の混合モデルと照合対象の音信号の特徴量とを照合する照合手段とを具備し、
前記各単位区間に対応する前記合成処理において、前記登録手段は、当該単位区間について前記生成処理で生成した単位区間モデルと、直前の単位区間に対応する前記合成処理で生成されて前記更新処理により前記第2記憶手段に格納された更新混合モデルとの合成で新規な更新混合モデルを生成する
音処理装置。 - コンピュータを、
入力信号の登録区間を区分した複数の単位区間の各々について複数の特徴量を順次に抽出して第1記憶手段に格納する特徴抽出手段、および、
前記第1記憶手段が記憶する複数の特徴量を複数の確率分布の加重和でモデル化する混合モデルを単位区間モデルとして生成する生成処理と、更新混合モデルを生成する合成処理と、前記合成処理で生成した更新混合モデルを第2記憶手段に格納する更新処理とを、前記特徴抽出手段が1個の単位区間について複数の特徴量を抽出するたびに実行し、前記生成処理と前記合成処理と前記更新処理とを前記登録区間内の複数の単位区間について反復した時点の前記第2記憶手段内の更新混合モデルを照合用の混合モデルとする登録手段
として機能させるプログラムであって、
前記各単位区間に対応する前記合成処理において、前記登録手段は、当該単位区間について前記生成処理で生成した単位区間モデルと、直前の単位区間に対応する前記合成処理で生成されて前記更新処理により前記第2記憶手段に格納された更新混合モデルとの合成で新規な更新混合モデルを生成する
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076580A JP4765971B2 (ja) | 2007-03-23 | 2007-03-23 | 混合モデル生成装置、音処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076580A JP4765971B2 (ja) | 2007-03-23 | 2007-03-23 | 混合モデル生成装置、音処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008233759A JP2008233759A (ja) | 2008-10-02 |
JP4765971B2 true JP4765971B2 (ja) | 2011-09-07 |
Family
ID=39906579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007076580A Expired - Fee Related JP4765971B2 (ja) | 2007-03-23 | 2007-03-23 | 混合モデル生成装置、音処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4765971B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5006768B2 (ja) * | 2007-11-21 | 2012-08-22 | 日本電信電話株式会社 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
JP6280068B2 (ja) * | 2015-03-09 | 2018-02-14 | 日本電信電話株式会社 | パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム |
KR20210073975A (ko) | 2019-12-11 | 2021-06-21 | 삼성전자주식회사 | 화자를 인식하는 방법 및 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2734828B2 (ja) * | 1991-09-20 | 1998-04-02 | 三菱電機株式会社 | 確率演算装置及び確率演算方法 |
JPH0769711B2 (ja) * | 1993-03-09 | 1995-07-31 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識方法 |
JP4440502B2 (ja) * | 2001-08-31 | 2010-03-24 | 富士通株式会社 | 話者認証システム及び方法 |
JP4391179B2 (ja) * | 2003-09-17 | 2009-12-24 | 聖一 中川 | 話者認識システム及び方法 |
JP2005321660A (ja) * | 2004-05-10 | 2005-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 |
-
2007
- 2007-03-23 JP JP2007076580A patent/JP4765971B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008233759A (ja) | 2008-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ittichaichareon et al. | Speech recognition using MFCC | |
US7653534B2 (en) | Apparatus and method for determining a type of chord underlying a test signal | |
CN111009248B (zh) | 说话者识别装置、说话者识别方法及记录介质 | |
JP6743425B2 (ja) | 音信号処理方法および音信号処理装置 | |
CN106898339B (zh) | 一种歌曲的合唱方法及终端 | |
JP2021152682A (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Tsunoo et al. | Beyond timbral statistics: Improving music classification using percussive patterns and bass lines | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JP4765971B2 (ja) | 混合モデル生成装置、音処理装置およびプログラム | |
Hsu et al. | Local wavelet acoustic pattern: A novel time–frequency descriptor for birdsong recognition | |
Saritha et al. | A comprehensive review on speaker recognition | |
Singh et al. | Implementing musical instrument recognition using cnn and svm | |
CN111737515B (zh) | 音频指纹提取方法、装置、计算机设备和可读存储介质 | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
CN110516103B (zh) | 基于分类器的歌曲节奏生成方法、设备、存储介质及装置 | |
Ullrich et al. | Music transcription with convolutional sequence-to-sequence models | |
Regnier et al. | Singer verification: singer model. vs. song model | |
Soni et al. | Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization | |
Han et al. | Detecting fingering of overblown flute sound using sparse feature learning | |
JP3934556B2 (ja) | 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置 | |
CN113366567A (zh) | 一种声纹识别方法、歌手认证方法、电子设备及存储介质 | |
Zhao et al. | Violinist identification using note-level timbre feature distributions | |
JP2017161572A (ja) | 音信号処理方法および音信号処理装置 | |
CN114694689A (zh) | 声音信号处理评估方法和装置 | |
JP6711343B2 (ja) | 音声処理装置、音声処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101224 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110530 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |