JP6649474B2 - 声紋識別方法、装置及びバックグラウンドサーバ - Google Patents
声紋識別方法、装置及びバックグラウンドサーバ Download PDFInfo
- Publication number
- JP6649474B2 JP6649474B2 JP2018514332A JP2018514332A JP6649474B2 JP 6649474 B2 JP6649474 B2 JP 6649474B2 JP 2018514332 A JP2018514332 A JP 2018514332A JP 2018514332 A JP2018514332 A JP 2018514332A JP 6649474 B2 JP6649474 B2 JP 6649474B2
- Authority
- JP
- Japan
- Prior art keywords
- test
- voiceprint
- voice
- user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000012360 testing method Methods 0.000 claims description 207
- 239000000203 mixture Substances 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 57
- 230000009467 reduction Effects 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 42
- 230000000694 effects Effects 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 24
- 230000007246 mechanism Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 description 15
- 238000000556 factor analysis Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 206010013952 Dysphonia Diseases 0.000 description 2
- 208000010473 Hoarseness Diseases 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/39—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using genetic algorithms
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- User Interface Of Digital Computer (AREA)
Description
本願は2017年2月16日に提出されて出願番号が中国特許出願第201710083629.0号であって名称が『声紋識別方法及び装置』である中国特許出願の優先権を享受し、該中国特許出願の全体内容は参照により本願に組み入れられる。
本発明はバイオメトリック特徴の身分識別技術分野に関し、特に声紋識別方法、装置、記憶媒体及びバックグラウンドサーバに関する。
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信することと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定することと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
クライアントが前記判断結果を受信して表示することと、
を含む声紋識別方法である。
ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信するためのクライアントと、
前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのバックグラウンドサーバと、
前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのバックグラウンドサーバと、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するためのバックグラウンドサーバと、
前記判断結果を受信して表示するためのクライアントと、を含む声紋識別装置を提供する。
メモリと、プロセッサと、前記メモリに記憶されてかつ前記プロセッサによって動作可能なコンピュータプログラムと、を含み、前記プロセッサは、前記コンピュータプログラムを実行する際に、上述の声紋識別方法におけるバックグラウンドサーバが実行するステップを実現するバックグラウンドサーバを提供する。
図1は本実施形態による声紋識別方法のフロー図である。該声紋識別方法は、クライアント及びバックグラウンドサーバに応用されて、クライアントが採集したテスト音声に対して身分識別を行うことを実現する。図1に示すように、該声紋識別方法は、以下のステップを含む。
ここで、クライアントは、スマホ、ノートパソコン、デスクトップコンピュータ等のバックグラウンドサーバに接続して通信することができる端末を含み、クライアントにテスト音声を採集するためのマイク又は外付けマイクのインターフェースが設けられている。ユーザIDはユーザの身分を一意に識別するためのものであり、本実施形態においてテスト音声とユーザIDとを関連付けて、テスト音声に対応したユーザを特定するためのものである。クライアントはユーザに対してサンプリング録音を行って、wavオーディオフォーマットのテスト音声を取得し、テスト音声及びユーザIDに基づき音声識別要求を形成し、かつバックグラウンドサーバに音声識別要求を送信する。
さらに、クライアントは携帯電話端末である場合、マルチスレッド方式でテスト音声を採集し、クライアントはウェブ端末である場合、バックグラウンドサーバと通信する際にユーザの操作を中断せずにテスト要求の採集スピードを向上させることを実現するために、Ajax非同期リフレッシュ方式でテスト音声を採集する。Ajax(Asynchronous JavaScript(登録商標) and XML、非同期JavaScript(登録商標)とXML)は、クライアントスクリプトを使用してWebサーバとデータを交換するWebアプリケーション開発方法である。
ここで、バックグラウンドサーバは、少なくとも一つのクライアントが送信した音声識別要求を受信し、かつ少なくとも一つの音声識別要求をメッセージキューに入れて処理を待たせる。バックグラウンドサーバは、非同期メカニズムを採用してメッセージキューにおける少なくとも一つの音声識別要求に対してスケジューリングを行うことにより、メッセージキューにおける各メッセージを処理する際に送信側と受信側を互いに独立させて相手の応答を待つ必要がなくなる。メッセージキュー及び非同期メカニズムを採用して少なくとも一つの音声識別要求に対してスケジューリングを行うことで処理待ちの音声識別要求を取得することにより、バックグラウンドサーバが同時に大量の音声識別要求を受信するだけではなく、また処理待ちの任意の音声識別要求の処理時間が長すぎることが原因で他の大量の音声識別要求がなくなることを避けることができる。もう一方で、メッセージキュー及び非同期メカニズムを採用すると、バックグラウンドサーバに分散システムを構築することもでき、音声識別要求のピーク処理能力及び柔軟性を向上させ、プロセス間の結合度を低下させ、各音声識別要求がいずれも処理されることを保証できる。
具体的に、目標声紋特徴は、予めバックグラウンドサーバに記憶されてユーザIDに対応したユーザの声紋特徴である。テスト声紋特徴は音声識別要求におけるテスト音声に対応した声紋特徴である。ここで、声紋(Voiceprint)は、電子音響機器で表示されて言語情報を持っている音響スペクトルである。従って、声紋特徴は、例えば、スペクトル、ケプストラム、共振ピーク、基音、反射係数等のような人類の発音メカニズムの解剖学構造に関する音響的特徴、鼻音、深呼吸音、嗄声、笑い声を含むが、これらに限定されない。
S31:処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得する。
具体的に、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を検索するために、予め声紋特徴データベースに少なくとも1セットのユーザID及びユーザIDと関連づけられる目標声紋特徴を記憶している。
ここで、ガウス混合モデル−汎用背景モデル(つまりGaussian Mixture Model−Universal Background Model,GMM−UBMと略称する)は、話者と関係ない上位GMMであり、話者の訓練音声に基づいて自行対応して訓練し、つまり音声モデルが話者の自分の音声でモデルに含まない発音状況を反映し、話者と関係ない音声特徴分布で近似的に記述するためのものであり、識別率が高いという特徴を有する。
具体的に、バックグラウンドサーバは受信した音声識別要求をメッセージキューに入れて処理を待たせており、アイドルプロセスがある場合、メッセージキューから処理待ちの音声識別要求を取り出してバックグラウンドServletコンテナに渡して処理する。Servletコンテナは、HttpRequestオブジェクトを作成して、送信されたメッセージをこのオブジェクトにパッキングする同時に、HttpResponseオブジェクトを作成し、HttpRequest及びHttpResponseをパラメータとしてHttpServletオブジェクトに伝送して、HttpServletオブジェクトのservice方法を呼び出す。service方法にガウス混合モデル−汎用背景モデルを呼び出してテスト音声に対して処理を行うことでテスト声紋特徴を取得する。
目標声紋特徴が予め声紋特徴データベースに記憶されてユーザIDと関連づけられる声紋特徴であり、テスト声紋特徴が、クライアントが採集したユーザIDと関連づけられるテスト音声に対応した声紋特徴であるため、両方が同じ又は近似度がプリセットされた類似閾値に達する場合、両方が同一ユーザであると判断でき、クライアントに両方が同一ユーザ又は異なるユーザであるという判断結果を出力する。
S41:PLDAアルゴリズムを採用してそれぞれ目標声紋特徴及びテスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得する。
ここで、PLDA(Probabilistic Linear Discriminant Analysis)アルゴリズムは、チャネル補償アルゴリズムである。PLDAは、I−vector特徴に基づくアルゴリズムであり、I−vector特徴が話者の差異情報だけでなくまたチャネル差異情報を含むが、話者の情報だけを考慮すべきであるため、チャネル補償の必要がある。PLDAアルゴリズムは、チャネル補償能力がLDAアルゴリズムよりもっとよい。
ここで、PLDAアルゴリズムは具体的に、
(1)μとWを初期化することと、
(2)
(3)
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数である。
具体的に、余弦測度関数は、
具体的に、score(wtrain,wtest)>Kの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザであり、逆に、score(wtrain,wtest)≦Kの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザではない。そのうち、Kは、類似閾値であり、50%より大きい定数であってもよい。
該判断結果は、テスト音声に対応したテスト声紋特徴が声紋特徴データベースに記憶された目標声紋特徴に対応した話者と同一ユーザであるという判断結果であってもよく、または同一ユーザではないという判断結果であってもよい。
本発明が提供した声紋識別方法において、バックグラウンドサーバは、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に基づいてテスト声紋特徴を取得し、目標声紋特徴をテスト声紋特徴と比較することで、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定するため、音声を迅速に識別する効果を達成し、音声識別効率を向上させることができる。また、バックグラウンドサーバはメッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するため、大量の音声識別要求の処理効率を向上させ、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを避ける。
S51:訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得する。
ここで、MFCC(Mel Frequency Cepstrum Coefficients)は、メル周波数ケプストラム係数である。訓練音声に対してMFCC特徴抽出を行う過程は、訓練音声に対してプリエンファシス、フレーム分割及びウィンドウ処理を行うことと、各短時間分析ウィンドウに対してFFT(Fast Fourier Transform、高速フーリエ変換)により対応したスペクトルを取得することと、上述スペクトルに対してMelフィルタバンクによりMel周波数を得ることと、Melスペクトルにケプストラム分析(対数を取ること、逆変換すること;実際に逆変換は通常DCT離散コサイン変換により実現され、DCT後の第2番目から第13番目までの係数をMFCC係数とする)を行って、Mel周波数ケプストラム係数MFCCを取得して、MFCC音響的特徴を取得することと、を含む。
ここで、音声活動検出は、音声活動検出(Voice Activity detection,VAD)アルゴリズムにより音声及びノイズの異なる特徴に対して音声及びノイズ判断を行うことで、連続的にサンプリングして取得したデジタル信号から音声信号部分及びノイズ信号部分を検出し、かつ音声信号部分のMFCC音響的特徴でガウス混合モデル(Gaussian Mixture Modeモデル、GMMモデルと略称する)のパラメータセットを推定する。具体的に、音声活動検出アルゴリズムにより短時間エネルギー、短時間ゼロクロス率、短時間自己相関等の音声特徴パラメータを計算することでミューティング信号及び非音声信号を取り除き、非ミューティング音声信号を保留してガウス混合モデルパラメータを推定する。本実施形態において、MFCC音響的特徴のゼロオーダ、1オーダ及び2オーダでガウス混合モデルのパラメータを推定する。
本実施形態において、ガウス混合モデルパラメータに対して汎用背景モデルにより因子分析を行って、ガウス混合モデル−汎用背景モデルを取得する。具体的に、汎用背景モデルの因子分析アルゴリズムは、s=m+Twを含み、そのうち、mは平均音声であり、つまり平均値ベクトルであり、Tは声紋空間マッピング行列であり、wは、声紋差異ベクトルであり、つまりI−vector特徴である。因子分析アルゴリズムによりガウス混合モデルで表示された音響的特徴に対して因子分析を行って、音響的特徴の平均値ベクトル(平均値)から声紋差異ベクトル(残量)を分離ことにより、I−vector特徴を取得する。該因子分析アルゴリズムは異なる音声間の声紋差異ベクトルを分離し、異なる音声間の声紋特異性をより簡単に抽出することができる。
本実施形態において、クライアントは、ユーザが入力した声紋登録要求を受信し、かつ該声紋登録要求をサーバに送信し、サーバは該声紋登録要求を受信する。
具体的に、サーバは、訓練済みのガウス混合モデル−汎用背景モデルで目標訓練音声に対して特徴抽出を行って、目標声紋特徴を取得する。つまり先ず目標訓練音声に対してMFCC特徴を抽出して、対応した目標MFCC音響的特徴を取得し、その後、目標MFCC音響的特徴に対して音声活動検出を行って、さらに音声活動検出後のMFCC音響的特徴を訓練済みのガウス混合モデル−汎用背景モデルに入れて特徴抽出を行って、目標声紋特徴を取得する。
本実施形態において、ユーザ身分識別の必要がある場合にユーザIDに基づいて対応した目標声紋特徴を呼び出すために、声紋登録要求におけるユーザID及び目標訓練音声に基づいて取得した目標声紋特徴を声紋特徴データベースに記憶する。
図2は本実施形態による声紋識別装置の原理ブロック図である。該声紋識別装置は、クライアントと、バックグラウンドサーバと、を含み、クライアントが採集したテスト音声に対して身分識別を行うことを実現することができる。図2に示すように、該声紋識別装置は、クライアント10と、バックグラウンドサーバ20と、を含む。
クライアント10は、ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザIDとテスト音声とを含む音声識別要求を送信するためのものである。
ここで、クライアント10は、スマホ、ノートパソコン、デスクトップコンピュータ等のバックグラウンドサーバに接続して通信することができる端末を含み、クライアントにテスト音声を採集するためのマイク又は外付けマイクのインターフェースが設けられている。ユーザIDはユーザの身分を一意に識別するためのものであり、本実施形態においてテスト音声とユーザIDとを関連付けて、テスト音声に対応したユーザを特定するためのものである。クライアントはユーザに対してサンプリング録音を行って、wavオーディオフォーマットのテスト音声を取得し、テスト音声及びユーザIDに基づき音声識別要求を形成し、かつバックグラウンドサーバに音声識別要求を送信する。
バックグラウンドサーバ20は、音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのものである。
ここで、バックグラウンドサーバ20は、少なくとも一つのクライアントが送信した音声識別要求を受信し、かつ少なくとも一つの音声識別要求をメッセージキューに入れて処理を待たせる。バックグラウンドサーバは、非同期メカニズムを採用してメッセージキューにおける少なくとも一つの音声識別要求に対してスケジューリングを行うことにより、メッセージキューにおける各メッセージを処理する際に送信側と受信側を互いに独立させて相手の応答を待つ必要がなくなる。メッセージキュー及び非同期メカニズムを採用して少なくとも一つの音声識別要求に対してスケジューリングを行うことで処理待ちの音声識別要求を取得することにより、バックグラウンドサーバが同時に大量の音声識別要求を受信するだけではなく、また処理待ちの任意の音声識別要求の処理時間が長すぎることが原因で他の大量の音声識別要求がなくなることを避けることができる。もう一方で、メッセージキュー及び非同期メカニズムを採用すると、バックグラウンドサーバに分散システムを構築することもでき、音声識別要求のピーク処理能力及び柔軟性を向上させ、プロセス間の結合度を低下させ、各音声識別要求がいずれも処理されることを保証できる。
バックグラウンドサーバ20は、処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのものである。
具体的に、目標声紋特徴は、予めバックグラウンドサーバに記憶されてユーザIDに対応したユーザの声紋特徴である。テスト声紋特徴は、音声識別要求におけるテスト音声に対応した声紋特徴である。ここで、声紋(Voiceprint)は、電子音響機器で表示されて言語情報を持っている音響スペクトルである。従って、声紋特徴は、例えば、スペクトル、ケプストラム、共振ピーク、基音、反射係数等のような人類の発音メカニズムの解剖学構造に関する音響的特徴、鼻音、深呼吸音、嗄声、笑い声を含むが、これらに限定されない。
特徴照会ユニット211は、処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を取得するためのものである。
具体的に、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を検索するために、予め声紋特徴データベースに少なくとも1セットのユーザID及びユーザIDと関連づけられる目標声紋特徴を記憶している。
特徴処理ユニット212は、ガウス混合モデル−汎用背景モデルで処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのものである。
ここで、ガウス混合モデル−汎用背景モデル(つまりGaussian Mixture Model−Universal Background Model,GMM−UBMと略称する)は、話者と関係ない上位GMMであり、話者の訓練音声に基づいて自行対応して訓練し、つまり音声モデルが話者の自分の音声でモデルに含まない発音状況を反映し、話者と関係ない音声特徴分布で近似的に記述するためのものであり、識別率が高いという特徴を有する。
具体的に、バックグラウンドサーバ20は、受信した音声識別要求をメッセージキューに入れて処理を待たせており、アイドルプロセスがある場合、メッセージキューから処理待ちの音声識別要求を取り出してバックグラウンドServletコンテナに渡して処理する。Servletコンテナは、HttpRequestオブジェクトを作成して、送信されたメッセージをこのオブジェクトにパッキングする同時に、HttpResponseオブジェクトを作成し、HttpRequest及びHttpResponseをパラメータとしてHttpServletオブジェクトに伝送して、HttpServletオブジェクトのservice方法を呼び出す。service方法にガウス混合モデル−汎用背景モデルを呼び出してテスト音声に対して処理を行うことでテスト声紋特徴を取得する。
バックグラウンドサーバ20は、目標声紋特徴及びテスト声紋特徴に基づいて同一ユーザに対応するかどうかを判断し、かつクライアントに判断結果を出力する。
目標声紋特徴が予め声紋特徴データベースに記憶されてユーザIDと関連づけられる声紋特徴であり、テスト声紋特徴がクライアントが採集した、ユーザIDと関連づけられるテスト音声に対応した声紋特徴であるため、両方が同じ又は近似度がプリセットされた類似閾値に達する場合、両方が同一ユーザであると判断でき、クライアントに両方が同一ユーザ又は異なるユーザであるという判断結果を出力する。
特徴次元低減ユニット221は、PLDAアルゴリズムを採用してそれぞれ目標声紋特徴及びテスト声紋特徴に対して次元低減を行って目標次元低減値及びテスト次元低減値を取得するためのものである。
ここで、PLDA(Probabilistic Linear Discriminant Analysis)アルゴリズムは、チャネル補償アルゴリズムである。PLDAは、I−vector特徴に基づくアルゴリズムであり、I−vector特徴が話者の差異情報だけでなくまたチャネル差異情報を含むが、話者の情報だけを考慮すべきであるため、チャネル補償の必要がある。PLDAアルゴリズムは、チャネル補償能力がLDAアルゴリズムよりもっとよい。
ここで、PLDAアルゴリズムは具体的に、
(1)μとWを初期化することと、
(2)
(3)
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数である。
具体的に、余弦測度関数は、
具体的に、score(wtrain,wtest)>Kの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザであり、逆に、score(wtrain,wtest)≦Kの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザではない。そのうち、Kは、類似閾値であり、50%より大きい定数であってもよい。
該判断結果は、テスト音声に対応したテスト声紋特徴が声紋特徴データベースに記憶された目標声紋特徴に対応した話者と同一ユーザであるという判断結果であってもよく、または同一ユーザではないという判断結果であってもよい。
本発明が提供した声紋識別装置において、バックグラウンドサーバは、処理待ちの音声識別要求のユーザIDに基づいて対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に基づいてテスト声紋特徴を取得し、目標声紋特徴をテスト声紋特徴と比較することで、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定するため、音声を迅速に識別する効果を達成し、音声識別効率を向上させることができる。また、バックグラウンドサーバはメッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するため、大量の音声識別要求の処理効率を向上させ、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを避ける。
音響的特徴抽出ユニット231は、訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得するためのものである。
ここで、MFCC(Mel Frequency Cepstrum Coefficients)は、メル周波数ケプストラム係数である。訓練音声に対してMFCC特徴抽出を行う過程は、訓練音声に対してプリエンファシス、フレーム分割及びウィンドウ処理を行うことと、各短時間分析ウィンドウに対してFFT(Fast Fourier Transform、高速フーリエ変換)により対応したスペクトルを取得することと、上述スペクトルに対してMelフィルタバンクによりMel周波数を得ることと、Melスペクトルにケプストラム分析(対数を取ること、逆変換すること;実際に逆変換は通常DCT離散コサイン変換により実現され、DCT後の第2番目から第13番目までの係数をMFCC係数とする)を行って、Mel周波数ケプストラム係数MFCCを取得して、MFCC音響的特徴を取得することと、を含む。
ここで、音声活動検出は、音声活動検出(Voice Activity detection,VAD)アルゴリズムにより音声とノイズとの異なる特徴に対して音声及びノイズ判断を行うことで、連続的にサンプリングして取得したデジタル信号から音声信号部分及びノイズ信号部分を検出し、かつ音声信号部分のMFCC音響的特徴をガウス混合モデル(Gaussian Mixture Modeモデル、GMMモデルと略称する)のパラメータセットとする。具体的に、音声活動検出アルゴリズムにより短時間エネルギー、短時間ゼロクロス率、短時間自己相関等の音声特徴パラメータを計算することでミューティング信号及び非音声信号を取り除き、非ミューティング音声信号を保留してガウス混合モデルパラメータを推定する。本実施形態において、非ミューティング信号のMFCC音響的特徴のゼロオーダ、1オーダ及び2オーダでガウス混合モデルのパラメータを推定する。
本実施形態において、ガウス混合モデルパラメータに対して汎用背景モデルにより因子分析を行って、ガウス混合モデル−汎用背景モデルを取得する。具体的に、汎用背景モデルの因子分析アルゴリズムは、s=m+Twを含み、そのうち、mは平均音声であり、つまり平均値ベクトルであり、Tは声紋空間マッピング行列であり、wは、声紋差異ベクトルであり、つまりI−vector特徴である。因子分析アルゴリズムでガウス混合モデルにより表示された音響的特徴に対して因子分析を行って、音響的特徴の平均値ベクトル(平均値)から声紋差異ベクトル(残量)を分離ことにより、I−vector特徴を取得する。該因子分析アルゴリズムは、異なる音声間の声紋差異ベクトルを分離し、異なる音声間の声紋特異性をより簡単に抽出することができる。
(付記1)
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信することと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定することと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
クライアントが前記判断結果を受信して表示することと、を含む、
ことを特徴とする声紋識別方法。
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記1に記載の声紋識別方法。
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得することと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記2に記載の声紋識別方法。
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記1に記載の声紋識別方法。
前記PLDAアルゴリズムは、
μとWを初期化することと、
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、
ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
ことを特徴とする付記4に記載の声紋識別方法。
ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信するためのクライアントと、
前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのバックグラウンドサーバと、
前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのバックグラウンドサーバと、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するためのバックグラウンドサーバと、
前記判断結果を受信して表示するためのクライアントと、を含む、
ことを特徴とする声紋識別装置。
前記バックグラウンドサーバは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得するための特徴照会ユニットと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するための特徴処理ユニットと、を含む、
ことを特徴とする付記6に記載の声紋識別装置。
バックグラウンドサーバは、
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得するための音響的特徴抽出ユニットと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定するための音声活動検出ユニットと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得するためのモデル訓練ユニットと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信するための登録音声受信ユニットと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得するための目標声紋特徴取得ユニットと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶するための目標声紋特徴記憶ユニットと、を含む、
ことを特徴とする付記7に記載の声紋識別装置。
前記バックグラウンドサーバは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得するための特徴次元低減ユニットと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得するための余弦測度処理ユニットと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断するためのユーザ識別判断ユニットと、を含む、
ことを特徴とする付記6に記載の声紋識別装置。
前記PLDAアルゴリズムは、
μとWを初期化することと、
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、
ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
ことを特徴とする付記9に記載の声紋識別装置。
メモリと、プロセッサと、前記メモリに記憶されてかつ前記プロセッサによって動作可能なコンピュータプログラムと、を含むバックグラウンドサーバであって、
前記プロセッサは、前記コンピュータプログラムを実行する際に、
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信するステップと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するステップと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するステップと、
クライアントが前記判断結果を受信して表示するステップと、を実現する、
ことを特徴とするバックグラウンドサーバ。
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記11に記載のバックグラウンドサーバ。
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得することと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記12に記載のバックグラウンドサーバ。
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断するステップは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記11に記載のバックグラウンドサーバ。
前記PLDAアルゴリズムは、
μとWを初期化することと、
ここで、μは平均値声紋ベクトルであり、Wはクラス間距離であり、wは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、
ここで、wtrainは目標声紋特徴であり、wtestはテスト声紋特徴であり、tは時間である、
ことを特徴とする付記14に記載のバックグラウンドサーバ。
コンピュータプログラムが記憶されたコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムはプロセッサにより実行される際に、
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信するステップと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するステップと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するステップと、
クライアントが前記判断結果を受信して表示するステップと、を実現する、
ことを特徴とするコンピュータ読取可能記憶媒体。
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記16に記載のコンピュータ読取可能記憶媒体。
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得することと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記17に記載のコンピュータ読取可能記憶媒体。
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断するステップは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記16に記載のコンピュータ読取可能記憶媒体。
Claims (17)
- クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信することと、
バックグラウンドサーバが前記音声識別要求を受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定することと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
クライアントが前記判断結果を受信して表示することと、を含む、
ことを特徴とする声紋識別方法。 - 前記クライアントがユーザのテスト音声を採集することは、前記ユーザによる前記クライアントの操作が可能な状態のまま前記操作と非同期に実行される、
ことを特徴とする請求項1に記載の声紋識別方法。 - 前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする請求項1または2に記載の声紋識別方法。 - 訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得することと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする請求項3に記載の声紋識別方法。 - 前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする請求項1から4のいずれか1項に記載の声紋識別方法。 - クライアントとバックグラウンドサーバとを備える声紋識別装置であって、
前記クライアントは、
ユーザのテスト音声を採集してかつ前記バックグラウンドサーバにユーザIDと前記テスト音声とを含む音声識別要求を送信し、
前記バックグラウンドサーバは、
前記音声識別要求を受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定し、
前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得し、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力し、
前記クライアントは、
前記判断結果を前記バックグラウンドサーバから受信して表示する、
ことを特徴とする声紋識別装置。 - 前記クライアントがユーザのテスト音声を採集することは、前記ユーザによる前記クライアントの操作が可能な状態のまま前記操作と非同期に実行される、
ことを特徴とする請求項7に記載の声紋識別装置。 - 前記バックグラウンドサーバは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得するための特徴照会ユニットと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するための特徴処理ユニットと、を含む、
ことを特徴とする請求項7または8に記載の声紋識別装置。 - 前記バックグラウンドサーバは、
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得するための音響的特徴抽出ユニットと、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定するための音声活動検出ユニットと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得するためのモデル訓練ユニットと、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信するための登録音声受信ユニットと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得するための目標声紋特徴取得ユニットと、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶するための目標声紋特徴記憶ユニットと、を含む、
ことを特徴とする請求項9に記載の声紋識別装置。 - 前記バックグラウンドサーバは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得するための特徴次元低減ユニットと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得するための余弦測度処理ユニットと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断するためのユーザ識別判断ユニットと、を含む、
ことを特徴とする請求項7から10のいずれか1項に記載の声紋識別装置。 - メモリと、プロセッサと、を含むバックグラウンドサーバであって、
前記プロセッサは、
ユーザIDと、クライアントが採集したユーザのテスト音声と、を含む音声識別要求を前記クライアントから受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定し、
前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得し、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力する、
ことを特徴とするバックグラウンドサーバ。 - 前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
前記処理待ちの音声識別要求のユーザIDにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザIDに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする請求項13に記載のバックグラウンドサーバ。 - 前記プロセッサは、さらに、
訓練音声に対してMFCC特徴抽出を行うことでMFCC音響的特徴を取得し、
前記MFCC音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定し、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得し、
ユーザIDと目標訓練音声とを含む声紋登録要求を受信し、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得し、
前記ユーザID及び前記目標声紋特徴を前記声紋特徴データベースに記憶する、
ことを特徴とする請求項14に記載のバックグラウンドサーバ。 - 前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
PLDAアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする請求項13から15のいずれか1項に記載のバックグラウンドサーバ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710083629.0A CN106847292B (zh) | 2017-02-16 | 2017-02-16 | 声纹识别方法及装置 |
CN201710083629.0 | 2017-02-16 | ||
PCT/CN2017/090046 WO2018149077A1 (zh) | 2017-02-16 | 2017-06-26 | 声纹识别方法、装置、存储介质和后台服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019510248A JP2019510248A (ja) | 2019-04-11 |
JP6649474B2 true JP6649474B2 (ja) | 2020-02-19 |
Family
ID=59128377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018514332A Active JP6649474B2 (ja) | 2017-02-16 | 2017-06-26 | 声紋識別方法、装置及びバックグラウンドサーバ |
Country Status (8)
Country | Link |
---|---|
US (1) | US10629209B2 (ja) |
EP (1) | EP3584790A4 (ja) |
JP (1) | JP6649474B2 (ja) |
KR (1) | KR20180104595A (ja) |
CN (1) | CN106847292B (ja) |
AU (2) | AU2017341161A1 (ja) |
SG (1) | SG11201803895RA (ja) |
WO (1) | WO2018149077A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106847292B (zh) | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
US10170112B2 (en) * | 2017-05-11 | 2019-01-01 | Google Llc | Detecting and suppressing voice queries |
CN107492379B (zh) * | 2017-06-30 | 2021-09-21 | 百度在线网络技术(北京)有限公司 | 一种声纹创建与注册方法及装置 |
CN109215643B (zh) * | 2017-07-05 | 2023-10-24 | 阿里巴巴集团控股有限公司 | 一种交互方法、电子设备及服务器 |
CN107527620B (zh) * | 2017-07-25 | 2019-03-26 | 平安科技(深圳)有限公司 | 电子装置、身份验证的方法及计算机可读存储介质 |
CN107623614B (zh) * | 2017-09-19 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109584884B (zh) * | 2017-09-29 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
CN107978311B (zh) * | 2017-11-24 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
US11893999B1 (en) * | 2018-05-13 | 2024-02-06 | Amazon Technologies, Inc. | Speech based user recognition |
CN108777146A (zh) * | 2018-05-31 | 2018-11-09 | 平安科技(深圳)有限公司 | 语音模型训练方法、说话人识别方法、装置、设备及介质 |
CN108899032A (zh) * | 2018-06-06 | 2018-11-27 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN108986792B (zh) * | 2018-09-11 | 2021-02-12 | 苏州思必驰信息科技有限公司 | 用于语音对话平台的语音识别模型的训练调度方法及系统 |
KR20190067135A (ko) | 2019-05-27 | 2019-06-14 | 박경훈 | 묶을 수 있는 끈이 일체형으로 직조 된 망사 자루 연속 자동화 제조방법 및 그로써 직조 된 망사 자루 |
CN110491370A (zh) * | 2019-07-15 | 2019-11-22 | 北京大米科技有限公司 | 一种语音流识别方法、装置、存储介质及服务器 |
CN110364182B (zh) * | 2019-08-01 | 2022-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种声音信号处理方法及装置 |
CN110610709A (zh) * | 2019-09-26 | 2019-12-24 | 浙江百应科技有限公司 | 基于声纹识别的身份辨别方法 |
CN111048100B (zh) * | 2019-11-21 | 2023-09-08 | 深圳市东进银通电子有限公司 | 一种大数据并行化声纹辨认系统和方法 |
CN111081261B (zh) * | 2019-12-25 | 2023-04-21 | 华南理工大学 | 一种基于lda的文本无关声纹识别方法 |
CN111370000A (zh) * | 2020-02-10 | 2020-07-03 | 厦门快商通科技股份有限公司 | 声纹识别算法评估方法、系统、移动终端及存储介质 |
CN111312259B (zh) * | 2020-02-17 | 2022-12-30 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111210829B (zh) * | 2020-02-19 | 2024-07-30 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、系统、设备和计算机可读存储介质 |
CN111554303B (zh) * | 2020-05-09 | 2023-06-02 | 福建星网视易信息系统有限公司 | 一种歌曲演唱过程中的用户身份识别方法及存储介质 |
CN112000570A (zh) * | 2020-07-29 | 2020-11-27 | 北京达佳互联信息技术有限公司 | 应用测试方法、装置、服务器及存储介质 |
CN111951791B (zh) * | 2020-08-26 | 2024-05-17 | 上海依图网络科技有限公司 | 声纹识别模型训练方法、识别方法、电子设备及存储介质 |
CN112185395B (zh) * | 2020-09-04 | 2021-04-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于差分隐私的联邦声纹识别方法 |
CN112185362A (zh) * | 2020-09-24 | 2021-01-05 | 苏州思必驰信息科技有限公司 | 针对用户个性化服务的语音处理方法及装置 |
CN112214298B (zh) * | 2020-09-30 | 2023-09-22 | 国网江苏省电力有限公司信息通信分公司 | 基于声纹识别的动态优先级调度方法及系统 |
US11522994B2 (en) | 2020-11-23 | 2022-12-06 | Bank Of America Corporation | Voice analysis platform for voiceprint tracking and anomaly detection |
CN112669820B (zh) * | 2020-12-16 | 2023-08-04 | 平安科技(深圳)有限公司 | 基于语音识别的考试作弊识别方法、装置及计算机设备 |
CN114780787A (zh) * | 2022-04-01 | 2022-07-22 | 杭州半云科技有限公司 | 声纹检索方法、身份验证方法、身份注册方法和装置 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU670379B2 (en) | 1993-08-10 | 1996-07-11 | International Standard Electric Corp. | System and method for passive voice verification in a telephone network |
US7047196B2 (en) | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
JP2002304379A (ja) * | 2001-04-05 | 2002-10-18 | Sharp Corp | 個人認証方法および個人認証システム |
US6853716B1 (en) * | 2001-04-16 | 2005-02-08 | Cisco Technology, Inc. | System and method for identifying a participant during a conference call |
JP2003114617A (ja) * | 2001-10-03 | 2003-04-18 | Systemfrontier Co Ltd | 音声による認証システム及び音声による認証方法 |
US7240007B2 (en) * | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
JP2005115921A (ja) * | 2003-09-17 | 2005-04-28 | Moss Institute Co Ltd | 音声情報管理方法,音声情報管理システム,音声情報管理プログラム及び音声データ管理装置 |
US20060015335A1 (en) * | 2004-07-13 | 2006-01-19 | Ravigopal Vennelakanti | Framework to enable multimodal access to applications |
CN1936967A (zh) | 2005-09-20 | 2007-03-28 | 吴田平 | 声纹考勤机 |
CN101197131B (zh) * | 2006-12-07 | 2011-03-30 | 积体数位股份有限公司 | 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法 |
JP2009230267A (ja) * | 2008-03-19 | 2009-10-08 | Future Vision:Kk | 会議室設備及び会議室設備を用いた会議記録システム |
JP2009237774A (ja) * | 2008-03-26 | 2009-10-15 | Advanced Media Inc | 認証サーバ、サービス提供サーバ、認証方法、通信端末、およびログイン方法 |
US8442824B2 (en) * | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
JP2010182076A (ja) * | 2009-02-05 | 2010-08-19 | Nec Corp | 認証システム、認証サーバ、証明方法およびプログラム |
CN101923855A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 文本无关的声纹识别系统 |
CN102402985A (zh) | 2010-09-14 | 2012-04-04 | 盛乐信息技术(上海)有限公司 | 提高声纹识别安全性的声纹认证系统及其实现方法 |
CN102324232A (zh) | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN102509547B (zh) * | 2011-12-29 | 2013-06-19 | 辽宁工业大学 | 基于矢量量化的声纹识别方法及系统 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
WO2014040124A1 (en) * | 2012-09-11 | 2014-03-20 | Auraya Pty Ltd | Voice authentication system and method |
CN103035245A (zh) * | 2012-12-08 | 2013-04-10 | 大连创达技术交易市场有限公司 | 以太网声纹识别系统 |
JP6276523B2 (ja) | 2013-06-28 | 2018-02-07 | 株式会社フジクラ | 酸化物超電導導体及び酸化物超電導導体の製造方法 |
WO2015011867A1 (ja) * | 2013-07-26 | 2015-01-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報管理方法 |
EP3261087A1 (en) * | 2013-09-03 | 2017-12-27 | Panasonic Intellectual Property Corporation of America | Voice interaction control method |
GB2517952B (en) * | 2013-09-05 | 2017-05-31 | Barclays Bank Plc | Biometric verification using predicted signatures |
CN103730114A (zh) | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于联合因子分析模型的移动设备声纹识别方法 |
EP3373176B1 (en) * | 2014-01-17 | 2020-01-01 | Cirrus Logic International Semiconductor Limited | Tamper-resistant element for use in speaker recognition |
CN103915096A (zh) * | 2014-04-15 | 2014-07-09 | 胡上杰 | 警务声纹识别方法 |
WO2016137042A1 (ko) | 2015-02-27 | 2016-09-01 | 삼성전자 주식회사 | 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스 |
CN104835498B (zh) | 2015-05-25 | 2018-12-18 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN106297806A (zh) * | 2016-08-22 | 2017-01-04 | 安徽工程大学机电学院 | 基于声纹的智能传声系统 |
CN106847292B (zh) | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
-
2017
- 2017-02-16 CN CN201710083629.0A patent/CN106847292B/zh active Active
- 2017-06-26 EP EP17857669.0A patent/EP3584790A4/en not_active Ceased
- 2017-06-26 SG SG11201803895RA patent/SG11201803895RA/en unknown
- 2017-06-26 US US15/772,801 patent/US10629209B2/en active Active
- 2017-06-26 AU AU2017341161A patent/AU2017341161A1/en active Pending
- 2017-06-26 KR KR1020187015547A patent/KR20180104595A/ko not_active Application Discontinuation
- 2017-06-26 AU AU2017101877A patent/AU2017101877A4/en active Active
- 2017-06-26 JP JP2018514332A patent/JP6649474B2/ja active Active
- 2017-06-26 WO PCT/CN2017/090046 patent/WO2018149077A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
AU2017341161A1 (en) | 2018-08-30 |
JP2019510248A (ja) | 2019-04-11 |
EP3584790A4 (en) | 2021-01-13 |
CN106847292A (zh) | 2017-06-13 |
AU2017101877A4 (en) | 2020-04-23 |
CN106847292B (zh) | 2018-06-19 |
SG11201803895RA (en) | 2018-09-27 |
KR20180104595A (ko) | 2018-09-21 |
US20190272829A1 (en) | 2019-09-05 |
WO2018149077A1 (zh) | 2018-08-23 |
EP3584790A1 (en) | 2019-12-25 |
US10629209B2 (en) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6649474B2 (ja) | 声紋識別方法、装置及びバックグラウンドサーバ | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN112562691B (zh) | 一种声纹识别的方法、装置、计算机设备及存储介质 | |
WO2018166187A1 (zh) | 服务器、身份验证方法、系统及计算机可读存储介质 | |
US8731936B2 (en) | Energy-efficient unobtrusive identification of a speaker | |
CN110265037B (zh) | 身份验证方法、装置、电子设备及计算机可读存储介质 | |
WO2020181824A1 (zh) | 声纹识别方法、装置、设备以及计算机可读存储介质 | |
WO2018223727A1 (zh) | 识别声纹的方法、装置、设备及介质 | |
CN108766446A (zh) | 声纹识别方法、装置、存储介质及音箱 | |
WO2019019256A1 (zh) | 电子装置、身份验证的方法、系统及计算机可读存储介质 | |
CN109360572B (zh) | 通话分离方法、装置、计算机设备及存储介质 | |
CN108694954A (zh) | 一种性别年龄识别方法、装置、设备及可读存储介质 | |
US20120102066A1 (en) | Method, Devices and a Service for Searching | |
Jeevan et al. | Robust speaker verification using GFCC based i-vectors | |
WO2021051572A1 (zh) | 语音识别方法、装置以及计算机设备 | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
CN109947971B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN113223536A (zh) | 声纹识别方法、装置及终端设备 | |
CN111161713A (zh) | 一种语音性别识别方法、装置及计算设备 | |
TW202018696A (zh) | 語音識別方法、裝置及計算設備 | |
WO2019218512A1 (zh) | 服务器、声纹验证的方法及存储介质 | |
WO2019196305A1 (zh) | 电子装置、身份验证的方法及存储介质 | |
Savchenko | Method for reduction of speech signal autoregression model for speech transmission systems on low-speed communication channels | |
WO2019218515A1 (zh) | 服务器、基于声纹的身份验证方法及存储介质 | |
CN110875037A (zh) | 语音数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180316 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190416 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6649474 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |