JP6649474B2

JP6649474B2 - 声紋識別方法、装置及びバックグラウンドサーバ

Info

Publication number: JP6649474B2
Application number: JP2018514332A
Authority: JP
Inventors: 健宗王; 卉郭; 継程宋; 京肖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-02-16
Filing date: 2017-06-26
Publication date: 2020-02-19
Anticipated expiration: 2037-06-26
Also published as: AU2017341161A1; JP2019510248A; EP3584790A4; CN106847292A; AU2017101877A4; CN106847292B; SG11201803895RA; KR20180104595A; US20190272829A1; WO2018149077A1; EP3584790A1; US10629209B2

Description

（関連出願の相互参照）
本願は２０１７年２月１６日に提出されて出願番号が中国特許出願第２０１７１００８３６２９．０号であって名称が『声紋識別方法及び装置』である中国特許出願の優先権を享受し、該中国特許出願の全体内容は参照により本願に組み入れられる。

（技術分野）
本発明はバイオメトリック特徴の身分識別技術分野に関し、特に声紋識別方法、装置、記憶媒体及びバックグラウンドサーバに関する。

声紋識別（ＶｏｉｃｅｐｒｉｎｔＲｅｃｏｇｎｉｔｉｏｎ）は、声に含まれる話者のバイオメトリック特徴により、話者を識別する身分識別技術を指す。声紋識別は、安全・確実性を有するため、身分識別を必要とするほとんどの安全性保護分野及びパーソナライズドアプリケーションの場合に使用されている。例えば、銀行、証券、保険等の金融機関の業務量が持続的に拡大すると同時に、大量の身分識別のニーズが生まれている。従来の身分識別技術に比べ、声紋識別の長所は、声紋抽出過程が簡単でありコストが低く、かつ各人の声紋特徴が他人の声紋特徴と異なり一意性を有するため、偽造しにくいという点にある。声紋識別は、安全、確実、便利等の特徴を備えるため、身分識別を必要とする場合に幅広く応用されている。しかしながら、現在の声紋識別過程にかかる時間が長いため、大量の音声識別要求を処理する際に、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを引き起こし、声紋識別技術のアプリケーションに影響を与えてしまう。

本発明が解決しようとする技術的課題は、従来技術の欠陥に対して声紋識別方法、装置、記憶媒体及びバックグラウンドサーバを提供し、大量の音声識別要求の処理効率を向上させ、処理時間を短縮させることにある。

本発明が技術的課題を解決するために採用した技術的手段は、
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザＩＤと前記テスト音声とを含む音声識別要求を送信することと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定することと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
クライアントが前記判断結果を受信して表示することと、
を含む声紋識別方法である。

本発明はまた、
ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザＩＤと前記テスト音声とを含む音声識別要求を送信するためのクライアントと、
前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのバックグラウンドサーバと、
前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのバックグラウンドサーバと、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するためのバックグラウンドサーバと、
前記判断結果を受信して表示するためのクライアントと、を含む声紋識別装置を提供する。

本発明はまた、
メモリと、プロセッサと、前記メモリに記憶されてかつ前記プロセッサによって動作可能なコンピュータプログラムと、を含み、前記プロセッサは、前記コンピュータプログラムを実行する際に、上述の声紋識別方法におけるバックグラウンドサーバが実行するステップを実現するバックグラウンドサーバを提供する。

本発明はまた、コンピュータプログラムを記憶しており、前記コンピュータプログラムはプロセッサに実行される際に、上述の声紋識別方法におけるバックグラウンドサーバが実行するステップを実現するコンピュータ読取可能な記憶媒体を提供する。

本発明は従来技術に比べ、以下の利点を有する。本発明が提供した声紋識別方法及び装置において、バックグラウンドサーバは、処理待ちの音声識別要求のユーザＩＤに基づいて対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に基づいて対応したテスト声紋特徴を取得し、目標声紋特徴をテスト声紋特徴と比較することで、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定するため、音声を迅速に識別する効果を達成し、音声識別効率を向上させることができる。また、バックグラウンドサーバはメッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するため、大量の音声識別要求の処理効率を向上させ、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを避ける。

以下、図面及び実施形態を合わせて本発明をより詳細に説明する。

本発明の第一実施形態による声紋識別方法のフロー図である。本発明の第二実施形態による声紋識別装置の原理ブロック図である。本発明の一つの実施形態が提供したバックグラウンドサーバの概略図である。

本発明の技術的特徴、目的及び効果をより明らかにするために、以下、図面と合わせて本発明の具体的な実施態様をより詳細に説明する。

（第一実施形態）
図１は本実施形態による声紋識別方法のフロー図である。該声紋識別方法は、クライアント及びバックグラウンドサーバに応用されて、クライアントが採集したテスト音声に対して身分識別を行うことを実現する。図１に示すように、該声紋識別方法は、以下のステップを含む。

Ｓ１０：クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザＩＤとテスト音声とを含む音声識別要求を送信する。
ここで、クライアントは、スマホ、ノートパソコン、デスクトップコンピュータ等のバックグラウンドサーバに接続して通信することができる端末を含み、クライアントにテスト音声を採集するためのマイク又は外付けマイクのインターフェースが設けられている。ユーザＩＤはユーザの身分を一意に識別するためのものであり、本実施形態においてテスト音声とユーザＩＤとを関連付けて、テスト音声に対応したユーザを特定するためのものである。クライアントはユーザに対してサンプリング録音を行って、ｗａｖオーディオフォーマットのテスト音声を取得し、テスト音声及びユーザＩＤに基づき音声識別要求を形成し、かつバックグラウンドサーバに音声識別要求を送信する。
さらに、クライアントは携帯電話端末である場合、マルチスレッド方式でテスト音声を採集し、クライアントはウェブ端末である場合、バックグラウンドサーバと通信する際にユーザの操作を中断せずにテスト要求の採集スピードを向上させることを実現するために、Ａｊａｘ非同期リフレッシュ方式でテスト音声を採集する。Ａｊａｘ（ＡｓｙｎｃｈｒｏｎｏｕｓＪａｖａＳｃｒｉｐｔ（登録商標）ａｎｄＸＭＬ、非同期ＪａｖａＳｃｒｉｐｔ（登録商標）とＸＭＬ）は、クライアントスクリプトを使用してＷｅｂサーバとデータを交換するＷｅｂアプリケーション開発方法である。

Ｓ２０：バックグラウンドサーバが音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定する。
ここで、バックグラウンドサーバは、少なくとも一つのクライアントが送信した音声識別要求を受信し、かつ少なくとも一つの音声識別要求をメッセージキューに入れて処理を待たせる。バックグラウンドサーバは、非同期メカニズムを採用してメッセージキューにおける少なくとも一つの音声識別要求に対してスケジューリングを行うことにより、メッセージキューにおける各メッセージを処理する際に送信側と受信側を互いに独立させて相手の応答を待つ必要がなくなる。メッセージキュー及び非同期メカニズムを採用して少なくとも一つの音声識別要求に対してスケジューリングを行うことで処理待ちの音声識別要求を取得することにより、バックグラウンドサーバが同時に大量の音声識別要求を受信するだけではなく、また処理待ちの任意の音声識別要求の処理時間が長すぎることが原因で他の大量の音声識別要求がなくなることを避けることができる。もう一方で、メッセージキュー及び非同期メカニズムを採用すると、バックグラウンドサーバに分散システムを構築することもでき、音声識別要求のピーク処理能力及び柔軟性を向上させ、プロセス間の結合度を低下させ、各音声識別要求がいずれも処理されることを保証できる。

Ｓ３０：バックグラウンドサーバが処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得する。
具体的に、目標声紋特徴は、予めバックグラウンドサーバに記憶されてユーザＩＤに対応したユーザの声紋特徴である。テスト声紋特徴は音声識別要求におけるテスト音声に対応した声紋特徴である。ここで、声紋（Ｖｏｉｃｅｐｒｉｎｔ）は、電子音響機器で表示されて言語情報を持っている音響スペクトルである。従って、声紋特徴は、例えば、スペクトル、ケプストラム、共振ピーク、基音、反射係数等のような人類の発音メカニズムの解剖学構造に関する音響的特徴、鼻音、深呼吸音、嗄声、笑い声を含むが、これらに限定されない。

本実施形態において、好ましい目標声紋特徴及びテスト声紋特徴はＩ−ｖｅｃｔｏｒ（つまりｉｄｅｎｔｉｆｙｉｎｇｖｅｃｔｏｒ、識別ベクトル）特徴である。従って、任意のＩ−ｖｅｃｔｏｒ特徴はいずれもＩ−ｖｅｃｔｏｒアルゴリズムにより取得されることができる。Ｉ−ｖｅｃｔｏｒアルゴリズムは、隠れた変数を推定する方法であり、固定長を有する低次元ベクトルで一部の音声を表示し、Ｉ−ｖｅｃｔｏｒ特徴抽出過程においてクラス内及びクラス間の分散値を分けて処理せず、それを一つの部分空間、つまり総変数空間（ｔｏｔａｌｖａｒｉａｂｌｉｔｙｓｐａｃｅ）に入れて処理することにより、監督の無い方法で訓練を行うことができるし、総変数空間から言語種類と関係しない情報を取り除くこともでき、次元を低減してノイズを除去するとともに最大限に言語種類に関係する音響的情報を保留している。

さらに、ステップＳ３０は、具体的に以下のステップを含む。
Ｓ３１：処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得する。
具体的に、処理待ちの音声識別要求のユーザＩＤに基づいて対応した目標声紋特徴を検索するために、予め声紋特徴データベースに少なくとも１セットのユーザＩＤ及びユーザＩＤと関連づけられる目標声紋特徴を記憶している。

Ｓ３２：ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得する。
ここで、ガウス混合モデル−汎用背景モデル（つまりＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ−ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ，ＧＭＭ−ＵＢＭと略称する）は、話者と関係ない上位ＧＭＭであり、話者の訓練音声に基づいて自行対応して訓練し、つまり音声モデルが話者の自分の音声でモデルに含まない発音状況を反映し、話者と関係ない音声特徴分布で近似的に記述するためのものであり、識別率が高いという特徴を有する。
具体的に、バックグラウンドサーバは受信した音声識別要求をメッセージキューに入れて処理を待たせており、アイドルプロセスがある場合、メッセージキューから処理待ちの音声識別要求を取り出してバックグラウンドＳｅｒｖｌｅｔコンテナに渡して処理する。Ｓｅｒｖｌｅｔコンテナは、ＨｔｔｐＲｅｑｕｅｓｔオブジェクトを作成して、送信されたメッセージをこのオブジェクトにパッキングする同時に、ＨｔｔｐＲｅｓｐｏｎｓｅオブジェクトを作成し、ＨｔｔｐＲｅｑｕｅｓｔ及びＨｔｔｐＲｅｓｐｏｎｓｅをパラメータとしてＨｔｔｐＳｅｒｖｌｅｔオブジェクトに伝送して、ＨｔｔｐＳｅｒｖｌｅｔオブジェクトのｓｅｒｖｉｃｅ方法を呼び出す。ｓｅｒｖｉｃｅ方法にガウス混合モデル−汎用背景モデルを呼び出してテスト音声に対して処理を行うことでテスト声紋特徴を取得する。

Ｓ４０：バックグラウンドサーバが目標声紋特徴及びテスト声紋特徴に基づいて同一ユーザに対応するかどうかを判断し、かつクライアントに判断結果を出力する。
目標声紋特徴が予め声紋特徴データベースに記憶されてユーザＩＤと関連づけられる声紋特徴であり、テスト声紋特徴が、クライアントが採集したユーザＩＤと関連づけられるテスト音声に対応した声紋特徴であるため、両方が同じ又は近似度がプリセットされた類似閾値に達する場合、両方が同一ユーザであると判断でき、クライアントに両方が同一ユーザ又は異なるユーザであるという判断結果を出力する。

さらに、Ｓ４０は、具体的に以下のステップを含む。
Ｓ４１：ＰＬＤＡアルゴリズムを採用してそれぞれ目標声紋特徴及びテスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得する。
ここで、ＰＬＤＡ（ＰｒｏｂａｂｉｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ）アルゴリズムは、チャネル補償アルゴリズムである。ＰＬＤＡは、Ｉ−ｖｅｃｔｏｒ特徴に基づくアルゴリズムであり、Ｉ−ｖｅｃｔｏｒ特徴が話者の差異情報だけでなくまたチャネル差異情報を含むが、話者の情報だけを考慮すべきであるため、チャネル補償の必要がある。ＰＬＤＡアルゴリズムは、チャネル補償能力がＬＤＡアルゴリズムよりもっとよい。
ここで、ＰＬＤＡアルゴリズムは具体的に、
（１）μとＷを初期化することと、
（２）

によりｗを計算することと、
（３）

によりＷを再度計算し、かつ

によりｗを計算するというステップに戻ることで、ｗが指定閾値より小さくなるまで計算することと、を含む。
ここで、μは平均値声紋ベクトルであり、Ｗはクラス間距離であり、ｗは声紋特徴であり、ｉは反復回数である。

Ｓ４２：余弦測度関数を採用して目標次元低減値及びテスト次元低減値に対して余弦測度を行って、余弦測度値を取得する。
具体的に、余弦測度関数は、

を含み、そのうち、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、ｔは時間である。余弦測度関数を採用することにより、目標声紋特徴とテスト声紋特徴との間の距離を簡単に判断することができ、目標声紋特徴及びテスト声紋特徴が指定された有限次元空間内に展開できる場合、該余弦測度関数は計算が比較的簡単でありかつ効果が比較的直接で有効である。

Ｓ４３：余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断する。
具体的に、ｓｃｏｒｅ（ｗ_train,ｗ_test）＞Ｋの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザであり、逆に、ｓｃｏｒｅ（ｗ_train,ｗ_test）≦Ｋの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザではない。そのうち、Ｋは、類似閾値であり、５０％より大きい定数であってもよい。

Ｓ５０：クライアントが判断結果を受信して表示する。
該判断結果は、テスト音声に対応したテスト声紋特徴が声紋特徴データベースに記憶された目標声紋特徴に対応した話者と同一ユーザであるという判断結果であってもよく、または同一ユーザではないという判断結果であってもよい。
本発明が提供した声紋識別方法において、バックグラウンドサーバは、処理待ちの音声識別要求のユーザＩＤに基づいて対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に基づいてテスト声紋特徴を取得し、目標声紋特徴をテスト声紋特徴と比較することで、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定するため、音声を迅速に識別する効果を達成し、音声識別効率を向上させることができる。また、バックグラウンドサーバはメッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するため、大量の音声識別要求の処理効率を向上させ、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを避ける。

具体的な実施態様において、該声紋識別方法は、また以下のステップを含む。
Ｓ５１：訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得する。
ここで、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）は、メル周波数ケプストラム係数である。訓練音声に対してＭＦＣＣ特徴抽出を行う過程は、訓練音声に対してプリエンファシス、フレーム分割及びウィンドウ処理を行うことと、各短時間分析ウィンドウに対してＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、高速フーリエ変換）により対応したスペクトルを取得することと、上述スペクトルに対してＭｅｌフィルタバンクによりＭｅｌ周波数を得ることと、Ｍｅｌスペクトルにケプストラム分析（対数を取ること、逆変換すること；実際に逆変換は通常ＤＣＴ離散コサイン変換により実現され、ＤＣＴ後の第２番目から第１３番目までの係数をＭＦＣＣ係数とする）を行って、Ｍｅｌ周波数ケプストラム係数ＭＦＣＣを取得して、ＭＦＣＣ音響的特徴を取得することと、を含む。

Ｓ５２：ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定する。
ここで、音声活動検出は、音声活動検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ，ＶＡＤ）アルゴリズムにより音声及びノイズの異なる特徴に対して音声及びノイズ判断を行うことで、連続的にサンプリングして取得したデジタル信号から音声信号部分及びノイズ信号部分を検出し、かつ音声信号部分のＭＦＣＣ音響的特徴でガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅモデル、ＧＭＭモデルと略称する）のパラメータセットを推定する。具体的に、音声活動検出アルゴリズムにより短時間エネルギー、短時間ゼロクロス率、短時間自己相関等の音声特徴パラメータを計算することでミューティング信号及び非音声信号を取り除き、非ミューティング音声信号を保留してガウス混合モデルパラメータを推定する。本実施形態において、ＭＦＣＣ音響的特徴のゼロオーダ、１オーダ及び２オーダでガウス混合モデルのパラメータを推定する。

Ｓ５３：ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、ガウス混合モデル−汎用背景モデルを取得する。
本実施形態において、ガウス混合モデルパラメータに対して汎用背景モデルにより因子分析を行って、ガウス混合モデル−汎用背景モデルを取得する。具体的に、汎用背景モデルの因子分析アルゴリズムは、ｓ＝ｍ＋Ｔｗを含み、そのうち、ｍは平均音声であり、つまり平均値ベクトルであり、Ｔは声紋空間マッピング行列であり、ｗは、声紋差異ベクトルであり、つまりＩ−ｖｅｃｔｏｒ特徴である。因子分析アルゴリズムによりガウス混合モデルで表示された音響的特徴に対して因子分析を行って、音響的特徴の平均値ベクトル（平均値）から声紋差異ベクトル（残量）を分離ことにより、Ｉ−ｖｅｃｔｏｒ特徴を取得する。該因子分析アルゴリズムは異なる音声間の声紋差異ベクトルを分離し、異なる音声間の声紋特異性をより簡単に抽出することができる。

Ｓ５４：ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信する。
本実施形態において、クライアントは、ユーザが入力した声紋登録要求を受信し、かつ該声紋登録要求をサーバに送信し、サーバは該声紋登録要求を受信する。

Ｓ５５：ガウス混合モデル−汎用背景モデルで目標訓練音声に対して特徴抽出を行って、目標声紋特徴を取得する。
具体的に、サーバは、訓練済みのガウス混合モデル−汎用背景モデルで目標訓練音声に対して特徴抽出を行って、目標声紋特徴を取得する。つまり先ず目標訓練音声に対してＭＦＣＣ特徴を抽出して、対応した目標ＭＦＣＣ音響的特徴を取得し、その後、目標ＭＦＣＣ音響的特徴に対して音声活動検出を行って、さらに音声活動検出後のＭＦＣＣ音響的特徴を訓練済みのガウス混合モデル−汎用背景モデルに入れて特徴抽出を行って、目標声紋特徴を取得する。

Ｓ５６：ユーザＩＤ及び目標声紋特徴を前記声紋特徴データベースに記憶する。
本実施形態において、ユーザ身分識別の必要がある場合にユーザＩＤに基づいて対応した目標声紋特徴を呼び出すために、声紋登録要求におけるユーザＩＤ及び目標訓練音声に基づいて取得した目標声紋特徴を声紋特徴データベースに記憶する。

具体的な該実施方式において、訓練音声に対してＭＦＣＣ特徴抽出及び音声活動検出を行うことによりガウス混合モデルパラメータを推定し、かつガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、訓練済みのガウス混合モデル−汎用背景モデルを取得し、該ガウス混合モデル−汎用背景モデルは、識別率が高いという利点を有する。さらに、声紋登録要求を受信して、声紋登録要求における目標訓練音声に対して訓練済みのガウス混合モデル−汎用背景モデルにより特徴抽出を行って、目標声紋特徴を取得し、かつ目標声紋特徴及びユーザＩＤを声紋特徴データベースに記憶し、これで、音声識別過程に処理待ちの音声識別要求におけるユーザＩＤに基づいて対応した目標声紋特徴を取得してテスト声紋特徴と比較し、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定して、音声識別効果に達する。

（第二実施形態）
図２は本実施形態による声紋識別装置の原理ブロック図である。該声紋識別装置は、クライアントと、バックグラウンドサーバと、を含み、クライアントが採集したテスト音声に対して身分識別を行うことを実現することができる。図２に示すように、該声紋識別装置は、クライアント１０と、バックグラウンドサーバ２０と、を含む。
クライアント１０は、ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザＩＤとテスト音声とを含む音声識別要求を送信するためのものである。
ここで、クライアント１０は、スマホ、ノートパソコン、デスクトップコンピュータ等のバックグラウンドサーバに接続して通信することができる端末を含み、クライアントにテスト音声を採集するためのマイク又は外付けマイクのインターフェースが設けられている。ユーザＩＤはユーザの身分を一意に識別するためのものであり、本実施形態においてテスト音声とユーザＩＤとを関連付けて、テスト音声に対応したユーザを特定するためのものである。クライアントはユーザに対してサンプリング録音を行って、ｗａｖオーディオフォーマットのテスト音声を取得し、テスト音声及びユーザＩＤに基づき音声識別要求を形成し、かつバックグラウンドサーバに音声識別要求を送信する。

さらに、クライアントは携帯電話端末である場合、マルチスレッド方式でテスト音声を採集し、クライアントはウェブ端末である場合、バックグラウンドサーバと通信する際にユーザの操作を中断せずにテスト要求の採集スピードを向上させることを実現するために、Ａｊａｘ非同期リフレッシュ方式でテスト音声を採集する。Ａｊａｘ（ＡｓｙｎｃｈｒｏｎｏｕｓＪａｖａＳｃｒｉｐｔ（登録商標）ａｎｄＸＭＬ、非同期ＪａｖａＳｃｒｉｐｔ（登録商標）とＸＭＬ）は、クライアントスクリプトを使用してＷｅｂサーバとデータを交換するＷｅｂアプリケーション開発方法である。
バックグラウンドサーバ２０は、音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのものである。
ここで、バックグラウンドサーバ２０は、少なくとも一つのクライアントが送信した音声識別要求を受信し、かつ少なくとも一つの音声識別要求をメッセージキューに入れて処理を待たせる。バックグラウンドサーバは、非同期メカニズムを採用してメッセージキューにおける少なくとも一つの音声識別要求に対してスケジューリングを行うことにより、メッセージキューにおける各メッセージを処理する際に送信側と受信側を互いに独立させて相手の応答を待つ必要がなくなる。メッセージキュー及び非同期メカニズムを採用して少なくとも一つの音声識別要求に対してスケジューリングを行うことで処理待ちの音声識別要求を取得することにより、バックグラウンドサーバが同時に大量の音声識別要求を受信するだけではなく、また処理待ちの任意の音声識別要求の処理時間が長すぎることが原因で他の大量の音声識別要求がなくなることを避けることができる。もう一方で、メッセージキュー及び非同期メカニズムを採用すると、バックグラウンドサーバに分散システムを構築することもでき、音声識別要求のピーク処理能力及び柔軟性を向上させ、プロセス間の結合度を低下させ、各音声識別要求がいずれも処理されることを保証できる。
バックグラウンドサーバ２０は、処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのものである。
具体的に、目標声紋特徴は、予めバックグラウンドサーバに記憶されてユーザＩＤに対応したユーザの声紋特徴である。テスト声紋特徴は、音声識別要求におけるテスト音声に対応した声紋特徴である。ここで、声紋（Ｖｏｉｃｅｐｒｉｎｔ）は、電子音響機器で表示されて言語情報を持っている音響スペクトルである。従って、声紋特徴は、例えば、スペクトル、ケプストラム、共振ピーク、基音、反射係数等のような人類の発音メカニズムの解剖学構造に関する音響的特徴、鼻音、深呼吸音、嗄声、笑い声を含むが、これらに限定されない。

さらに、バックグラウンドサーバ２０は、特徴照会ユニット２１１と、特徴処理ユニット２１２と、を含む。
特徴照会ユニット２１１は、処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、処理待ちの音声識別要求のユーザＩＤに基づいて対応した目標声紋特徴を取得するためのものである。
具体的に、処理待ちの音声識別要求のユーザＩＤに基づいて対応した目標声紋特徴を検索するために、予め声紋特徴データベースに少なくとも１セットのユーザＩＤ及びユーザＩＤと関連づけられる目標声紋特徴を記憶している。
特徴処理ユニット２１２は、ガウス混合モデル−汎用背景モデルで処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのものである。
ここで、ガウス混合モデル−汎用背景モデル（つまりＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ−ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ，ＧＭＭ−ＵＢＭと略称する）は、話者と関係ない上位ＧＭＭであり、話者の訓練音声に基づいて自行対応して訓練し、つまり音声モデルが話者の自分の音声でモデルに含まない発音状況を反映し、話者と関係ない音声特徴分布で近似的に記述するためのものであり、識別率が高いという特徴を有する。
具体的に、バックグラウンドサーバ２０は、受信した音声識別要求をメッセージキューに入れて処理を待たせており、アイドルプロセスがある場合、メッセージキューから処理待ちの音声識別要求を取り出してバックグラウンドＳｅｒｖｌｅｔコンテナに渡して処理する。Ｓｅｒｖｌｅｔコンテナは、ＨｔｔｐＲｅｑｕｅｓｔオブジェクトを作成して、送信されたメッセージをこのオブジェクトにパッキングする同時に、ＨｔｔｐＲｅｓｐｏｎｓｅオブジェクトを作成し、ＨｔｔｐＲｅｑｕｅｓｔ及びＨｔｔｐＲｅｓｐｏｎｓｅをパラメータとしてＨｔｔｐＳｅｒｖｌｅｔオブジェクトに伝送して、ＨｔｔｐＳｅｒｖｌｅｔオブジェクトのｓｅｒｖｉｃｅ方法を呼び出す。ｓｅｒｖｉｃｅ方法にガウス混合モデル−汎用背景モデルを呼び出してテスト音声に対して処理を行うことでテスト声紋特徴を取得する。
バックグラウンドサーバ２０は、目標声紋特徴及びテスト声紋特徴に基づいて同一ユーザに対応するかどうかを判断し、かつクライアントに判断結果を出力する。
目標声紋特徴が予め声紋特徴データベースに記憶されてユーザＩＤと関連づけられる声紋特徴であり、テスト声紋特徴がクライアントが採集した、ユーザＩＤと関連づけられるテスト音声に対応した声紋特徴であるため、両方が同じ又は近似度がプリセットされた類似閾値に達する場合、両方が同一ユーザであると判断でき、クライアントに両方が同一ユーザ又は異なるユーザであるという判断結果を出力する。

さらに、バックグラウンドサーバ２０は、具体的に特徴次元低減ユニット２２１と、余弦測度処理ユニット２２２と、ユーザ識別判断ユニット２２３と、を含む。
特徴次元低減ユニット２２１は、ＰＬＤＡアルゴリズムを採用してそれぞれ目標声紋特徴及びテスト声紋特徴に対して次元低減を行って目標次元低減値及びテスト次元低減値を取得するためのものである。
ここで、ＰＬＤＡ（ＰｒｏｂａｂｉｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ）アルゴリズムは、チャネル補償アルゴリズムである。ＰＬＤＡは、Ｉ−ｖｅｃｔｏｒ特徴に基づくアルゴリズムであり、Ｉ−ｖｅｃｔｏｒ特徴が話者の差異情報だけでなくまたチャネル差異情報を含むが、話者の情報だけを考慮すべきであるため、チャネル補償の必要がある。ＰＬＤＡアルゴリズムは、チャネル補償能力がＬＤＡアルゴリズムよりもっとよい。
ここで、ＰＬＤＡアルゴリズムは具体的に、
（１）μとＷを初期化することと、
（２）

によりｗを計算することと、
（３）

によりＷを再度計算し、かつ

余弦測度処理ユニット２２２は、余弦測度関数を採用して目標次元低減値及びテスト次元低減値に対して余弦測度を行って余弦測度値を取得するためのものである。
具体的に、余弦測度関数は、

を含み、そのうち、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、tは時間である。余弦測度関数を採用することにより、目標声紋特徴とテスト声紋特徴との間の距離を簡単に判断することができ、目標声紋特徴及びテスト声紋特徴が指定された有限次元空間内に展開できる場合、該余弦測度関数は、計算が比較的簡単でありかつ効果が比較的直接で有効である。

ユーザ識別判断ユニット２２３は、余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断するためのものである。
具体的に、ｓｃｏｒｅ（ｗ_train,ｗ_test）＞Ｋの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザであり、逆に、ｓｃｏｒｅ（ｗ_train,ｗ_test）≦Ｋの場合、目標声紋特徴に対応した話者は、テスト声紋特徴に対応した話者と同一ユーザではない。そのうち、Ｋは、類似閾値であり、５０％より大きい定数であってもよい。

クライアント１０は、判断結果を受信して表示するためのものである。
該判断結果は、テスト音声に対応したテスト声紋特徴が声紋特徴データベースに記憶された目標声紋特徴に対応した話者と同一ユーザであるという判断結果であってもよく、または同一ユーザではないという判断結果であってもよい。
本発明が提供した声紋識別装置において、バックグラウンドサーバは、処理待ちの音声識別要求のユーザＩＤに基づいて対応した目標声紋特徴を取得し、かつ処理待ちの音声識別要求のテスト音声に基づいてテスト声紋特徴を取得し、目標声紋特徴をテスト声紋特徴と比較することで、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定するため、音声を迅速に識別する効果を達成し、音声識別効率を向上させることができる。また、バックグラウンドサーバはメッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するため、大量の音声識別要求の処理効率を向上させ、処理時間が長すぎることが原因で一部の音声識別要求がなくなることを避ける。

具体的な実施態様において、該声紋識別装置は、音響的特徴抽出ユニット２３１と、音声活動検出ユニット２３２と、モデル訓練ユニット２３３と、登録音声受信ユニット２３４と、目標声紋特徴取得ユニット２３５と、目標声紋特徴記憶ユニット２３６と、をさらに含む。
音響的特徴抽出ユニット２３１は、訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得するためのものである。
ここで、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）は、メル周波数ケプストラム係数である。訓練音声に対してＭＦＣＣ特徴抽出を行う過程は、訓練音声に対してプリエンファシス、フレーム分割及びウィンドウ処理を行うことと、各短時間分析ウィンドウに対してＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、高速フーリエ変換）により対応したスペクトルを取得することと、上述スペクトルに対してＭｅｌフィルタバンクによりＭｅｌ周波数を得ることと、Ｍｅｌスペクトルにケプストラム分析（対数を取ること、逆変換すること；実際に逆変換は通常ＤＣＴ離散コサイン変換により実現され、ＤＣＴ後の第２番目から第１３番目までの係数をＭＦＣＣ係数とする）を行って、Ｍｅｌ周波数ケプストラム係数ＭＦＣＣを取得して、ＭＦＣＣ音響的特徴を取得することと、を含む。

音声活動検出ユニット２３２は、ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定するためのものである。
ここで、音声活動検出は、音声活動検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ，ＶＡＤ）アルゴリズムにより音声とノイズとの異なる特徴に対して音声及びノイズ判断を行うことで、連続的にサンプリングして取得したデジタル信号から音声信号部分及びノイズ信号部分を検出し、かつ音声信号部分のＭＦＣＣ音響的特徴をガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅモデル、ＧＭＭモデルと略称する）のパラメータセットとする。具体的に、音声活動検出アルゴリズムにより短時間エネルギー、短時間ゼロクロス率、短時間自己相関等の音声特徴パラメータを計算することでミューティング信号及び非音声信号を取り除き、非ミューティング音声信号を保留してガウス混合モデルパラメータを推定する。本実施形態において、非ミューティング信号のＭＦＣＣ音響的特徴のゼロオーダ、１オーダ及び２オーダでガウス混合モデルのパラメータを推定する。

モデル訓練ユニット２３３は、ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、ガウス混合モデル−汎用背景モデルを取得するためのものである。
本実施形態において、ガウス混合モデルパラメータに対して汎用背景モデルにより因子分析を行って、ガウス混合モデル−汎用背景モデルを取得する。具体的に、汎用背景モデルの因子分析アルゴリズムは、ｓ＝ｍ＋Ｔｗを含み、そのうち、ｍは平均音声であり、つまり平均値ベクトルであり、Ｔは声紋空間マッピング行列であり、ｗは、声紋差異ベクトルであり、つまりＩ−ｖｅｃｔｏｒ特徴である。因子分析アルゴリズムでガウス混合モデルにより表示された音響的特徴に対して因子分析を行って、音響的特徴の平均値ベクトル（平均値）から声紋差異ベクトル（残量）を分離ことにより、Ｉ−ｖｅｃｔｏｒ特徴を取得する。該因子分析アルゴリズムは、異なる音声間の声紋差異ベクトルを分離し、異なる音声間の声紋特異性をより簡単に抽出することができる。

登録音声受信ユニット２３４は、ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信するためのものである。本実施形態において、クライアントは、ユーザが入力した声紋登録要求を受信し、かつ該声紋登録要求をサーバに送信し、サーバは該声紋登録要求を受信する。

目標声紋特徴取得ユニット２３５は、ガウス混合モデル−汎用背景モデルで目標訓練音声に対して訓練を行って、目標声紋特徴を取得するためのものである。具体的に、サーバは、訓練済みのガウス混合モデル−汎用背景モデルで目標訓練音声に対して特徴抽出を行って、目標声紋特徴を取得する。つまり先ず目標訓練音声に対してＭＦＣＣ特徴を抽出して、対応した目標ＭＦＣＣ音響的特徴を取得し、その後、目標ＭＦＣＣ音響的特徴に対して音声活動検出を行って、さらに音声活動検出後のＭＦＣＣ音響的特徴を訓練済みのガウス混合モデル−汎用背景モデルに入れて特徴抽出を行って、目標声紋特徴を取得する。

目標声紋特徴記憶ユニット２３６は、ユーザＩＤ及び目標声紋特徴を前記声紋特徴データベースに記憶するためのものである。本実施形態において、ユーザ身分識別の必要がある場合にユーザＩＤに基づいて対応した目標声紋特徴を呼び出すために、声紋登録要求におけるユーザＩＤ及び目標訓練音声に基づいて取得した目標声紋特徴を声紋特徴データベースに記憶する。

該具体的な実施態様が提供した声紋識別装置において、訓練音声に対してＭＦＣＣ特徴抽出及び音声活動検出を行うことにより、ガウス混合モデルパラメータを推定し、かつガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、訓練済みのガウス混合モデル−汎用背景モデルを取得し、該ガウス混合モデル−汎用背景モデルは、識別率が高いという利点を有する。さらに、声紋登録要求を受信して、声紋登録要求における目標訓練音声に対して訓練済みのガウス混合モデル−汎用背景モデルにより特徴抽出を行って、目標声紋特徴を取得し、かつ目標声紋特徴及びユーザＩＤを声紋特徴データベースに記憶し、これで、音声識別過程に処理待ちの音声識別要求におけるユーザＩＤに基づいて対応した目標声紋特徴を取得してテスト声紋特徴と比較し、目標声紋特徴とテスト声紋特徴の話者が同一ユーザであるかどうかを確定して、音声識別効果に達する。

図３は本発明のある実施形態が提供したバックグラウンドサーバの概略図である。図３に示すように、該実施形態のバックグラウンドサーバ３は、プロセッサ３０と、メモリ３１と、前記メモリ３１に記憶されてかつ前記プロセッサ３０によって動作可能なコンピュータプログラム３２（例えば、上述の声紋識別方法を実行するプログラム）と、を含む。前記プロセッサ３０は、前記コンピュータプログラム３２を実行する際に上述の声紋識別方法の実施形態における例えば図１に示されるＳ１０からＳ５０までの各ステップを実現する。または、前記プロセッサ３０は、前記コンピュータプログラム３２を実行する際に、上述の各装置の実施形態の各モジュール／ユニットの機能、例えば図２に示されるバックグラウンドサーバ２０の各ユニットの機能を実現する。

例示的に、前記コンピュータプログラム３２は、一つ又は複数のモジュール／ユニットに分割されても良く、前記一つ又は複数のモジュール／ユニットは、前記メモリ３１に記憶され、かつ前記プロセッサ３０に実行されることで本発明を実現する。前記一つ又は複数のモジュール／ユニットは、特定機能を実現できる一連のコンピュータプログラムの指令セグメントであってもよく、該指令セグメントは、前記コンピュータプログラム３２が前記バックグラウンドサーバ３に実行される過程を記述するためのものである。

前記バックグラウンドサーバ３は、ローカルサーバ、クラウドサーバ等の計算装置であってもよい。前記バックグラウンドサーバは、プロセッサ３０と、メモリ３１と、を含んでもよいが、それらに限定されない。本分野の当業者は、図３がバックグラウンドサーバ３の例示だけに過ぎず、バックグラウンドサーバ３を限定するものでなく、図面よりもっと多くの又はもっと少ない部品を含んでもよく、又はある部品或いは異なる部品と組合せてもよく、例えば、前記バックグラウンドサーバは、また入出力装置、インターネットアクセス装置、バス等を含んでも良いという点を理解すべきである。

プロセッサ３０は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵ）だけではなく、また汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，ＤＳＰ）、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、フィールドブログラマブルゲートアレイ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡ）又は他のブログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネント等であってもよい。汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサ等であってもよい。

前記メモリ３１は、前記バックグラウンドサーバ３の内部記憶ユニット、例えば、ハードディスク又は内部メモリであってもよい。前記メモリ３１は、また前記バックグラウンドサーバ３の外部記憶装置、例えば、前記バックグラウンドサーバ３に配置されたソケット式ハードディスク、スマートメディアカード（ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ，ＳＭＣ）、安全デジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ，ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）等であってもよい。さらに、前記メモリ３１は、前記バックグラウンドサーバ３の内部記憶ユニットだけではなく、また外部記憶装置を含んでも良い。前記メモリ３１は、前記コンピュータプログラム及び前記バックグラウンドサーバにとって必要な他のプログラム及びデータを記憶するためのものである。前記メモリ３１は、既に出力した又はすぐ出力するデータを一時的に記憶することに用いられても良い。

いくつかの具体的な実施形態によって本発明を説明したが、本分野の当業者は、本発明の範囲から逸脱することなく本発明に対して様々な変更及び取替を行うこともできるのを理解すべきである。また特定のケース又は具体的な状況について、本発明に対して様々な変更を行うことができるとともに、本発明の範囲から逸脱することはない。従って、本発明は、開示されている具体的な実施形態に限定されず、特許請求の範囲内に含まれる全ての実施態様を含むべきである。

（付記）
（付記１）
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザＩＤと前記テスト音声とを含む音声識別要求を送信することと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定することと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
クライアントが前記判断結果を受信して表示することと、を含む、
ことを特徴とする声紋識別方法。

（付記２）
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
前記処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記１に記載の声紋識別方法。

（付記３）
訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得することと、
前記ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザＩＤ及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記２に記載の声紋識別方法。

（付記４）
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
ＰＬＤＡアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記１に記載の声紋識別方法。

（付記５）
前記ＰＬＤＡアルゴリズムは、
μとＷを初期化することと、

によりｗを計算することと、

によりＷを再度計算し、かつ

によりｗを計算するというステップに戻ることで、ｗが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Ｗはクラス間距離であり、ｗは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、

を含み、
ここで、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、ｔは時間である、
ことを特徴とする付記４に記載の声紋識別方法。

（付記６）
ユーザのテスト音声を採集してかつバックグラウンドサーバにユーザＩＤと前記テスト音声とを含む音声識別要求を送信するためのクライアントと、
前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するためのバックグラウンドサーバと、
前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するためのバックグラウンドサーバと、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するためのバックグラウンドサーバと、
前記判断結果を受信して表示するためのクライアントと、を含む、
ことを特徴とする声紋識別装置。

（付記７）
前記バックグラウンドサーバは、
前記処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得するための特徴照会ユニットと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するための特徴処理ユニットと、を含む、
ことを特徴とする付記６に記載の声紋識別装置。

（付記８）
バックグラウンドサーバは、
訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得するための音響的特徴抽出ユニットと、
前記ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定するための音声活動検出ユニットと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得するためのモデル訓練ユニットと、
ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信するための登録音声受信ユニットと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得するための目標声紋特徴取得ユニットと、
前記ユーザＩＤ及び前記目標声紋特徴を前記声紋特徴データベースに記憶するための目標声紋特徴記憶ユニットと、を含む、
ことを特徴とする付記７に記載の声紋識別装置。

（付記９）
前記バックグラウンドサーバは、
ＰＬＤＡアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得するための特徴次元低減ユニットと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得するための余弦測度処理ユニットと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断するためのユーザ識別判断ユニットと、を含む、
ことを特徴とする付記６に記載の声紋識別装置。

（付記１０）
前記ＰＬＤＡアルゴリズムは、
μとＷを初期化することと、

によりｗを計算することと、

によりＷを再度計算し、かつ

を含み、
ここで、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、ｔは時間である、
ことを特徴とする付記９に記載の声紋識別装置。

（付記１１）
メモリと、プロセッサと、前記メモリに記憶されてかつ前記プロセッサによって動作可能なコンピュータプログラムと、を含むバックグラウンドサーバであって、
前記プロセッサは、前記コンピュータプログラムを実行する際に、
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザＩＤと前記テスト音声とを含む音声識別要求を送信するステップと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するステップと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するステップと、
クライアントが前記判断結果を受信して表示するステップと、を実現する、
ことを特徴とするバックグラウンドサーバ。

（付記１２）
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップは、
前記処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記１１に記載のバックグラウンドサーバ。

（付記１３）
訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得することと、
前記ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザＩＤ及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記１２に記載のバックグラウンドサーバ。

（付記１４）
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断するステップは、
ＰＬＤＡアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記１１に記載のバックグラウンドサーバ。

（付記１５）
前記ＰＬＤＡアルゴリズムは、
μとＷを初期化することと、

によりｗを計算することと、

によりＷを再度計算し、かつ

によりｗを計算するというステップに戻ることで、ｗが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Ｗはクラス間距離であり、ｗは声紋特徴であり、ｉは反復回数であり、
前記余弦測度関数は、

を含み、
ここで、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、ｔは時間である、
ことを特徴とする付記１４に記載のバックグラウンドサーバ。

（付記１６）
コンピュータプログラムが記憶されたコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムはプロセッサにより実行される際に、
クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザＩＤと前記テスト音声とを含む音声識別要求を送信するステップと、
バックグラウンドサーバが前記音声識別要求を受信し、メッセージキュー及び非同期メカニズムを採用して処理待ちの音声識別要求を特定するステップと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力するステップと、
クライアントが前記判断結果を受信して表示するステップと、を実現する、
ことを特徴とするコンピュータ読取可能記憶媒体。

（付記１７）
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するステップは、
前記処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする付記１６に記載のコンピュータ読取可能記憶媒体。

（付記１８）
訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得することと、
前記ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザＩＤ及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする付記１７に記載のコンピュータ読取可能記憶媒体。

（付記１９）
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断するステップは、
ＰＬＤＡアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする付記１６に記載のコンピュータ読取可能記憶媒体。

（付記２０）
前記ＰＬＤＡアルゴリズムは、
μとＷを初期化することと、

によりｗを計算することと、

によりＷを再度計算し、かつ

を含み、
ここで、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、ｔは時間である、
ことを特徴とする付記１９に記載のコンピュータ読取可能記憶媒体。

Claims

クライアントがユーザのテスト音声を採集し、かつバックグラウンドサーバにユーザＩＤと前記テスト音声とを含む音声識別要求を送信することと、
バックグラウンドサーバが前記音声識別要求を受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定することと、
バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、
バックグラウンドサーバが前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力することと、
クライアントが前記判断結果を受信して表示することと、を含む、
ことを特徴とする声紋識別方法。
前記クライアントがユーザのテスト音声を採集することは、前記ユーザによる前記クライアントの操作が可能な状態のまま前記操作と非同期に実行される、
ことを特徴とする請求項１に記載の声紋識別方法。
前記バックグラウンドサーバが前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
前記処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする請求項１または２に記載の声紋識別方法。
訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得することと、
前記ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定することと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得することと、
ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信することと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得することと、
前記ユーザＩＤ及び前記目標声紋特徴を前記声紋特徴データベースに記憶することと、をさらに含む、
ことを特徴とする請求項３に記載の声紋識別方法。
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
ＰＬＤＡアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする請求項１から４のいずれか１項に記載の声紋識別方法。
前記ＰＬＤＡアルゴリズムは、
μとＷを初期化することと、

によりｗを計算することと、

によりＷを再度計算し、かつ

によりｗを計算するというステップに戻ることで、ｗが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Ｗはクラス間距離であり、ｗは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、

を含み、
ここで、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、ｔは時間である、
ことを特徴とする請求項５に記載の声紋識別方法。
クライアントとバックグラウンドサーバとを備える声紋識別装置であって、
前記クライアントは、
ユーザのテスト音声を採集してかつ前記バックグラウンドサーバにユーザＩＤと前記テスト音声とを含む音声識別要求を送信し、
前記バックグラウンドサーバは、
前記音声識別要求を受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定し、
前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得し、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力し、
前記クライアントは、
前記判断結果を前記バックグラウンドサーバから受信して表示する、
ことを特徴とする声紋識別装置。
前記クライアントがユーザのテスト音声を採集することは、前記ユーザによる前記クライアントの操作が可能な状態のまま前記操作と非同期に実行される、
ことを特徴とする請求項７に記載の声紋識別装置。
前記バックグラウンドサーバは、
前記処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得するための特徴照会ユニットと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得するための特徴処理ユニットと、を含む、
ことを特徴とする請求項７または８に記載の声紋識別装置。
前記バックグラウンドサーバは、
訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得するための音響的特徴抽出ユニットと、
前記ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定するための音声活動検出ユニットと、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得するためのモデル訓練ユニットと、
ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信するための登録音声受信ユニットと、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得するための目標声紋特徴取得ユニットと、
前記ユーザＩＤ及び前記目標声紋特徴を前記声紋特徴データベースに記憶するための目標声紋特徴記憶ユニットと、を含む、
ことを特徴とする請求項９に記載の声紋識別装置。
前記バックグラウンドサーバは、
ＰＬＤＡアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得するための特徴次元低減ユニットと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得するための余弦測度処理ユニットと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断するためのユーザ識別判断ユニットと、を含む、
ことを特徴とする請求項７から１０のいずれか１項に記載の声紋識別装置。
前記ＰＬＤＡアルゴリズムは、
μとＷを初期化することと、

によりｗを計算することと、

によりＷを再度計算し、かつ

によりｗを計算するというステップに戻ることで、ｗが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Ｗはクラス間距離であり、ｗは声紋特徴であり、iは反復回数であり、
前記余弦測度関数は、

を含み、
ここで、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、ｔは時間である、
ことを特徴とする請求項１１に記載の声紋識別装置。
メモリと、プロセッサと、を含むバックグラウンドサーバであって、
前記プロセッサは、
ユーザＩＤと、クライアントが採集したユーザのテスト音声と、を含む音声識別要求を前記クライアントから受信し、受信した前記音声識別要求をメッセージキューに入れて処理を待たせ、前記メッセージキューにおける前記音声識別要求に対してスケジューリングを行い、かつ非同期メカニズムを採用することにより、処理待ちの音声識別要求を特定し、
前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得し、
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断し、かつ前記クライアントに判断結果を出力する、
ことを特徴とするバックグラウンドサーバ。
前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得し、かつ前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することは、
前記処理待ちの音声識別要求のユーザＩＤにより声紋特徴データベースを照会することで、前記処理待ちの音声識別要求のユーザＩＤに対応した目標声紋特徴を取得することと、
ガウス混合モデル−汎用背景モデルで前記処理待ちの音声識別要求のテスト声紋特徴に対して処理を行うことにより、前記処理待ちの音声識別要求のテスト音声に対応したテスト声紋特徴を取得することと、を含む、
ことを特徴とする請求項１３に記載のバックグラウンドサーバ。
前記プロセッサは、さらに、
訓練音声に対してＭＦＣＣ特徴抽出を行うことでＭＦＣＣ音響的特徴を取得し、
前記ＭＦＣＣ音響的特徴に対して音声活動検出を行って、ガウス混合モデルパラメータを推定し、
前記ガウス混合モデルパラメータを利用して汎用背景モデルに対して訓練を行って、前記ガウス混合モデル−汎用背景モデルを取得し、
ユーザＩＤと目標訓練音声とを含む声紋登録要求を受信し、
前記ガウス混合モデル−汎用背景モデルで前記目標訓練音声に対して訓練を行って、目標声紋特徴を取得し、
前記ユーザＩＤ及び前記目標声紋特徴を前記声紋特徴データベースに記憶する、
ことを特徴とする請求項１４に記載のバックグラウンドサーバ。
前記目標声紋特徴及び前記テスト声紋特徴に基づいて、同一ユーザに対応するかどうかを判断することは、
ＰＬＤＡアルゴリズムを採用して、それぞれ前記目標声紋特徴及び前記テスト声紋特徴に対して次元低減を行って、目標次元低減値及びテスト次元低減値を取得することと、
余弦測度関数を採用して前記目標次元低減値及び前記テスト次元低減値に対して余弦測度を行って、余弦測度値を取得することと、
前記余弦測度値が類似閾値より大きいかどうかを判断して、イエスの場合、同一ユーザと判断し、ノーの場合、同一ユーザではないと判断することと、を含む、
ことを特徴とする請求項１３から１５のいずれか１項に記載のバックグラウンドサーバ。
前記ＰＬＤＡアルゴリズムは、
μとＷを初期化することと、

によりｗを計算することと、

によりＷを再度計算し、かつ

によりｗを計算するというステップに戻ることで、ｗが指定閾値より小さくなるまで計算することと、を含み、
ここで、μは平均値声紋ベクトルであり、Ｗはクラス間距離であり、ｗは声紋特徴であり、ｉは反復回数であり、
前記余弦測度関数は、

を含み、
ここで、ｗ_trainは目標声紋特徴であり、ｗ_testはテスト声紋特徴であり、ｔは時間である、
ことを特徴とする請求項１６に記載のバックグラウンドサーバ。