JP6429945B2

JP6429945B2 - 音声データを処理するための方法及び装置

Info

Publication number: JP6429945B2
Application number: JP2017109505A
Authority: JP
Inventors: ツァンイェ; イーユィポン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2016-11-18
Filing date: 2017-06-01
Publication date: 2018-11-28
Anticipated expiration: 2037-06-01
Also published as: US20190066665A1; JP2018081297A; US20180144742A1; CN106782564A; US10140984B2; US10825452B2; CN106782564B

Description

本出願はコンピュータ技術分野に関し、具体的にデータ処理の技術分野に関し、特に、音声データを処理するための方法及び装置に関する。

近年では、声紋識別という新しいバイオメトリクス手段は、その安全性や利便性のため大きく注目されている。声紋識別とは、異なる人の発声器官、例えば肺、気管、声帯、口腔、鼻腔、咽頭等の寸法と形態上の生理的差異に基づいて、各人の音声に含まれる独特な情報を用いて、個人身元の識別と認証を行うことである。しかし、実際には、各人の音声の音響的特徴は一定で不変なものでなく、環境、使用装置等の外部要素と個人の身の状態、気分の変動、言語スタイルの変化等の内部要因等の共同影響によって変化するものである。また、研究によれば、人の音声学的特徴が、さらに加齢とともに変化する。従って、ユーザの声紋特徴の動的変化に対して追跡することで、ユーザの声紋モデルが、追加する声サンプルに基づいて適応更新を行うことができ、これは声紋識別システムの特性向上に対して極めて重要である。

現在、ユーザに対して身元認証を行う時に、ユーザが登録する時に入力した音声データに基づいて生成された声紋モデルをよく使用するが、このモデルは適応的に更新することができず、このようなユーザ身元の認証方法によれば、認証結果の精度が経時的に低下する。

本願は、上記背景技術に記載の技術的問題を解決するために、改良した音声データを処理するための方法及び装置を提供することを目的とする。

第１態様では、本願は、音声データを処理するための方法を提供し、この方法は、ユーザ端末から送信された音声データを受信するステップと、音声データにおける声紋特徴ベクトルを抽出するステップと、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成するステップと、マッチング度が予め設定した更新閾値以上であるかどうかを決定するステップと、マッチング度が予め設定した更新閾値以上であると決定したことに応答して、声紋特徴ベクトルと音声データとによって登録声紋ベクトルを更新するステップと、を含む。

いくつかの実施例では、音声データにおける声紋特徴ベクトルを抽出するステップにおいては、音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得するステップと、中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するステップと、を含む。

いくつかの実施例では、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングするステップの前に、登録声紋ベクトルを生成するステップをさらに含んでおり、登録声紋ベクトルを生成するステップにおいては、ユーザが入力した所定数の登録音声データを取得するステップと、所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得するステップと、所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得するステップと、所定数の登録声紋特徴ベクトルを融合し、ユーザの登録声紋ベクトルを生成するステップと、を含む。

いくつかの実施例では、声紋特徴ベクトルと音声データとによって登録声紋ベクトルを更新するステップにおいては、ユーザが入力した登録音声データの数と、ユーザが記憶した各声紋特徴ベクトルとを取得するステップと、ユーザが記憶した各声紋特徴ベクトル、ユーザが記憶した音声データの数、登録音声データの数及び登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するステップと、を含む。

いくつかの実施例では、ユーザが記憶した各声紋特徴ベクトル、ユーザが記憶した音声データの数、登録音声データの数及び登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するステップにおいては、ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、ユーザが記憶した声紋特徴ベクトルの和を求めるステップと、登録音声データの数に登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得するステップと、声紋特徴ベクトルの和と登録声紋ベクトルの積とのベクトル和を計算するとともに、ユーザが記憶した音声データの数と登録音声データの数との数の和を計算し、数の和でベクトル和を割って更新した登録声紋ベクトルを取得するステップと、を含む。

いくつかの実施例では、登録声紋ベクトルを更新するステップの後に、ユーザが記憶した音声データを削除するステップを含む。

いくつかの実施例では、ユーザが入力した所定数の登録音声データを取得するステップにおいては、ユーザが記憶した音声データと、音声データの入力時点を含む音声データの関連情報とを取得するステップと、入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとするステップと、を含む。

いくつかの実施例では、ユーザが入力した所定数の登録音声データを取得するステップにおいては、クラスタリングアルゴリズムによってユーザが記憶した音声データをクラスタリングし、少なくとも１つの記憶した音声データのクラスタを生成するステップと、各クラスタの中心点を取得するステップと、距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算するステップと、距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとするステップと、をさらに含む。

いくつかの実施例では、関連情報は、音声データの収集装置タイプ、音声データの入力場所のうちの少なくとも１つをさらに含み、少なくとも１つの記憶した音声データのクラスタを生成するステップの後に、各クラスタにおける音声データと、各クラスタにおける音声データの関連情報とを取得するステップと、各クラスタの音声データによってユーザの各登録声紋ベクトルを再生成し、各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成するステップと、をさらに含む。

いくつかの実施例では、ユーザ端末から送信された音声データを受信するステップの後に、音声データの関連情報を取得するステップをさらに含んでおり、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルをマッチングするステップにおいては、音声データの関連情報と各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択するステップと、声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングするステップと、を含む。

いくつかの実施例では、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成するステップの後に、マッチング度が予め設定した成功閾値以上であるかどうかを決定するステップと、マッチング度が予め設定した成功閾値以上であると決定したことに応答して、ユーザ身元認証が成功したと決定して認証成功に対応する操作を実行するステップと、をさらに含む。

第２態様では、本願は、声データを処理するための装置を提供し、この装置は、ユーザ端末から送信された音声データを受信するように配置される受信ユニットと、音声データにおける声紋特徴ベクトルを抽出するように配置される抽出ユニットと、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成するように配置されるマッチングユニットと、マッチング度が予め設定した更新閾値以上であるかどうかを決定するように配置される第１決定ユニットと、マッチング度が予め設定した更新閾値以上であると決定したことに応答して、声紋特徴ベクトルと音声データとによって登録声紋ベクトルを更新するように配置される更新ユニットと、を備える。

いくつかの実施例では、抽出ユニットは、音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得するように配置されるマッピングモジュールと、中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するように配置される変換モジュールと、を備える。

いくつかの実施例では、生成ユニットをさらに備えており、生成ユニットは、ユーザが入力した所定数の登録音声データを取得するように配置される取得モジュールと、所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得するように配置されるマッピングモジュールと、所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得するように配置される変換モジュールと、所定数の登録声紋特徴ベクトルを融合し、ユーザの登録声紋ベクトルを生成するように配置される融合モジュールと、を備える。

いくつかの実施例では、更新ユニットは、ユーザが入力した登録音声データの数と、ユーザが記憶した各声紋特徴ベクトルとを取得するように配置される取得モジュールと、ユーザが記憶した各声紋特徴ベクトル、ユーザが記憶した音声データの数、登録音声データの数及び登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するように配置される更新モジュールと、を備える。

いくつかの実施例では、更新モジュールは、ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、ユーザが記憶した声紋特徴ベクトルの和を求めるように配置される第１計算サブモジュールと、登録音声データの数に登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得するように配置される第２計算サブモジュールと、声紋特徴ベクトルの和と登録声紋ベクトルの積とのベクトル和を計算し、ユーザが記憶した音声データの数と登録音声データの数との数の和を計算し、数の和でベクトル和を割って更新した登録声紋ベクトルを取得するように配置される更新サブモジュールと、を備える。

いくつかの実施例では、更新ユニットは、さらに、ユーザが記憶した音声データを削除するように配置される。

いくつかの実施例では、取得モジュールは、ユーザが記憶した音声データと、音声データの入力時点を含む音声データの関連情報とを取得するように配置される第１取得サブモジュールと、入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとするように配置される第１削除サブモジュールと、を備える。

いくつかの実施例では、取得モジュールは、クラスタリングアルゴリズムによってユーザが記憶した音声データをクラスタリングし、少なくとも１つの記憶した音声データのクラスタを生成するように配置される生成サブモジュールと、各クラスタの中心点を取得するように配置される第２取得サブモジュールと、距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算するように配置される計算サブモジュールと、距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとするように配置される第２削除サブモジュールと、を備える。

いくつかの実施例では、関連情報は、音声データの収集装置タイプ、音声データの入力場所のうちの少なくとも１つをさらに含み、装置は、各クラスタにおける音声データと、各クラスタにおける音声データの関連情報とを取得するように配置される第１取得ユニットと、各クラスタの音声データによってユーザの各登録声紋ベクトルを再生成し、各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成するように配置される再生成ユニットと、をさらに備える。

いくつかの実施例では、音声データの関連情報を取得するように配置される第２取得ユニットをさらに備えており、マッチングユニットは、音声データの関連情報と各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択するように配置される選択モジュールと、声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングするように配置されるマッチングモジュールと、を備える。

いくつかの実施例では、マッチング度が予め設定した成功閾値以上であるかどうかを決定するように配置される第２決定ユニットと、マッチング度が予め設定した成功閾値以上であると決定したことに応答して、ユーザ身元認証が成功と決定して認証成功に対応する操作を実行するように配置される実行ユニットと、を備える。

本願に係る音声データを処理するための方法及び装置は、ユーザ端末から送信された音声データにおける声紋特徴ベクトルを抽出し、声紋特徴ベクトルと予め生成した当該ユーザの登録声紋ベクトルとマッチングし、マッチング度が予め設定した更新閾値以上である場合、当該声紋特徴ベクトルと当該音声データとによって登録声紋ベクトルを更新することによって、ユーザの音声データを効果的に高め、ユーザの登録声紋ベクトルの正確性を向上させる。

以下の図面を参照しながら行った非限定的な実施例についての詳細な説明に基づいて、本願の他の特徴、目的や利点はより明瞭になる。

本願を適用できる例示的なシステムアーキテクチャ図である。本願に係る音声データを処理するための方法の一実施例のフローチャートである。本願の図２のステップ２０３においてユーザの登録声紋ベクトルの生成方法の実現方式のフローチャートである。本願に係る音声データを処理するための方法の別実施例のフローチャートである。本願に係る音声データを処理するための装置の一実施例の構造模式図である。本願の実施例を実現するためのサーバに適用されるコンピュータシステムの構造模式図である。

以下、図面及び実施例を参照しながら本願をより詳細に説明する。ここで説明する具体的な実施例は、かかる発明を説明するものに過ぎず、当該発明を限定するものではないと理解すべきである。ただし、説明の便宜上、図面に発明に関連する部分のみが示されている。

なお、矛盾しない場合、本願の実施例及び実施例の特徴を相互に組み合せてもよい。以下、図面及び実施例を参照しながら本願を詳細に説明する。

図１は本願のユーザ認証の方法又はユーザ認証の装置の実施例を適用できる例示的なシステムアーキテクチャ１００である。

図１に示されるように、システムアーキテクチャ１００は端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５、１０６を備えてもよい。ネットワーク１０４は端末装置１０１、１０２、１０３とサーバ１０５、１０６との間に通信リンクを提供する媒体に用いられている。ネットワーク１０４は各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバーケーブル等を含んでもよい。

ユーザ１１０は端末装置１０１、１０２、１０３でネットワーク１０４を介してサーバ１０５、１０６と対話して、メッセージを送受信することができる。端末装置１０１、１０２、１０３に各種の通信クライアントアプリケーション、例えばショッピングアプリケーション、検索アプリケーション、ウェブブラウザアプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルソフトウェアプラットフォームソフトウェア、支払ソフトウェア等がインストールされてもよい。

端末装置１０１、１０２、１０３はディスプレイスクリーンを有してデータの送受信をサポートするとともに、マイクロホンを備える各種の電子機器であってもよく、スマートフォン、タブレットＰＣ、スマートウォッチ、ラップトップ型コンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。

サーバ１０５は各種のサービスを提供するサーバ、例えば端末装置１０１、１０２、１０３において送信される音声データをサポートするバックグラウンドサーバであってもよい。バックグラウンドサーバは受信された音声データ等のデータに分析などの処理を行い、且つ処理結果（例えば、ログイン成功ページ又はログイン失敗ページ）を端末装置にフィードバックすることができる。

本願の実施例に係る音声データを処理するための方法は通常にサーバ１０５、１０６で実行される。それに対応して、音声データを処理するための装置は通常にサーバ１０５、１０６に設置されることを理解すべきである。

なお、図１における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。必要に応じて、端末装置、ネットワーク及びサーバの数が任意であってもよい。

次に、本願に係る音声データを処理するための方法の一実施例のプロセス２００である図２を参照する。前記音声データを処理するための方法は、ステップ２０１〜２０５を含む。

ステップ２０１：ユーザ端末から送信された音声データを受信する。

本実施例では、音声データを処理するための方法が実行されている電子機器（例えば図１に示されるサーバ）は有線接続又は無線接続でユーザによってユーザ身元認証のために使われる端末から音声データを受信することができ、上記音声データは、ユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、前記文字列は、上記電子機器がランダムに生成した文字列であってもよく、上記ユーザが身元認証用のシステムアカウントを登録する時に選択した文字列集合における文字列であってもよい。なお、上記無線接続方式は３Ｇ／４Ｇ接続、ＷｉＦｉ接続、ブルートゥース（登録商標）接続、ＷｉＭＡＸ接続、Ｚｉｇｂｅｅ（登録商標）接続、ＵＷＢ（ｕｌｔｒａｗｉｄｅｂａｎｄ）接続、現在で知られている又は将来開発されるほかの無線接続方式を含むが、それらに制限されない。

ステップ２０２：音声データにおける声紋特徴ベクトルを抽出する。

本実施例では、上記電子機器はステップ２０１において受信した音声データにおける声紋特徴ベクトルを抽出することができる。声紋は電気音響機器によって表示されて言葉情報を有する音波スペクトルである。現代の科学研究によれば、声紋が特定性を有するだけではなく、相対的安定性を有することを示す。声紋特徴ベクトルはユーザの声紋スペクトル特徴をマークするベクトルであってもよい。

本実施例のいくつかの任意選択の実施形態では、上記電子機器は上記音声データを予めトレーニングしたユニバーサルバックグラウンドモデル（ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ、ＵＢＭ）に導入しマッピングを行って中間ベクトルを取得し、次に、上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するようにしてもよい。ユーザ身元認証が成功又は成功しない場合、ほかの個体の特定性に偏るモデルに比べて、上記ユニバーサルバックグラウンドモデルはバイオメトリック認証システムにおいて一般性と個体汎用性に偏るモデルであり、例えば、ユーザ音声認証システムにおいて、上記ユニバーサルバックグラウンドモデルは、男女平均の異なる発話者の大量の音声サンプルからトレーニングされた、発話者と独立したガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、ＧＭＭ）であり、上記ユニバーサルバックグラウンドモデルは音声データと中間ベクトルの対応関係を特徴付けすることに用いられてもよい。接合因子分析方法（ＪｏｉｎｔＦａｃｔｏｒＡｎａｌｙｓｉｓ、ＪＦＡ）によって、上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するようにしてもよく、上記接合因子分析方法は、声紋認証アルゴリズムにおける、チャネル補償に対する効率的なアルゴリズムであり、発話者空間とチャネル空間が独立したものであり、且つそれぞれ２つの低次元因子空間で説明されることができると仮定することによって、チャネル因子を推定する。また、チャネル補償アルゴリズムであり、確率形式の線形判別分析アルゴリズム（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＬＤＡ）である確率的線形判別分析アルゴリズム（ＰｒｏｂａｂｉｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＰＬＤＡ）によって、上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するようにしてもよい。さらに、認識ベクトル（ＩｄｅｎｔｉｆｙｉｎｇＶｅｃｔｏｒ、Ｉ−Ｖｅｃｔｏｒ）によって、上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するようにしてもよい。

ステップ２０３：声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成する。

本実施例では、上記電子機器は上記ステップ２０２において抽出した声紋特徴ベクトルと予め記憶した上記ユーザの登録声紋ベクトルとをマッチングし、上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を生成するようにしてもよい。上記予め記憶した登録声紋ベクトルは予め生成した登録声紋ベクトルであってもよく、更新した登録声紋ベクトルであってもよい。上記登録声紋ベクトルは上記電子機器自体で生成したものであってもよく、上記電子機器が既に上記ユーザの登録声紋ベクトルを生成したほかの装置から取得したものであってもよい。上記ユーザ音声データにおける声紋特徴ベクトルを抽出した後に、上記電子機器は、先ず装置自体に上記ユーザの登録声紋ベクトルが記憶されたかどうかを検出することができ、装置自体に上記ユーザの登録声紋ベクトルが記憶されたと検出した場合、上記声紋特徴ベクトルと当該登録声紋ベクトルとをマッチングし、装置自体に上記ユーザの登録声紋ベクトルが記憶されていないと検出した場合、上記ユーザの登録声紋ベクトルを取得するリクエストをほかの装置へ送信し、ほかの装置から送信された上記ユーザの登録声紋ベクトルを受信した場合、上記声紋特徴ベクトルと当該登録声紋ベクトルとをマッチングし、ほかの装置から送信された上記ユーザの登録声紋ベクトルを受信していない場合、上記電子機器はユーザが登録した時に入力した複数の音声データに基づいて当該ユーザの登録声紋ベクトルを生成する。上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を計算する時に、マンハッタン距離（ＭａｎｈａｔｔａｎＤｉｓｔａｎｃｅ）で計算してもよく、ミンコフスキー距離（ＭｉｎｋｏｗｓｋｉＤｉｓｔａｎｃｅ）で計算してもよく、さらにコサイン類似度（ＣｏｓｉｎｅＳｉｍｉｌａｒｉｔｙ）で計算してもよい。

本実施例のいくつかの任意選択の実施形態では、上記関連情報は音声データの収集装置タイプ（例えば、携帯電話、コンピュータやスマートウォッチ等）を含んでもよく、上記関連情報はさらに音声データの入力場所を含んでもよく、外部環境ノイズの大きさに応じて入力場所をノイズが大きい場所（例えば、地下鉄、マーケット、娯楽場等）と、ノイズが小さい場所（例えば図書館、教室等）とに分けることができる。上記電子機器はクラスタリングアルゴリズムによって上記ユーザが記憶した音声データをクラスタリングし、少なくとも１つの記憶した音声データのクラスタを生成し、次に、各クラスタにおける音声データ及び当該音声データの関連情報を取得し、次に、各クラスタの音声データによって上記ユーザの各登録声紋ベクトルを再生成して、上記各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成することができる。上記クラスタはクラスタクラスと呼ばれてもよく、類似するオブジェクトで構成される複数のクラスを指し、クラスタリングによって生成されたクラスタは一組のデータオブジェクトの集合であり、これらのオブジェクトが同じクラスタにおけるオブジェクトとは類似するが、ほかのクラスタにおけるオブジェクトと異なる。例として、１つのクラスタにおいて入力場所がノイズの大きい場所での音声データの数は、当該クラスタにおけるすべての音声データの数の８０％である場合、当該クラスタの音声データで生成した登録声紋ベクトルの関連情報における入力場所情報をノイズが大きい場所として設定することができる。

本実施例のいくつかの任意選択の実施形態では、上記電子機器は音声データを処理する時に、さらに音声データの関連情報を取得することができ、次に、上記音声データの関連情報と上記ユーザの各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択することができ、例えば、音声データの入力場所がバーであることを取得した場合、関連情報にノイズが大きい場所を含む登録声紋ベクトルを選択することができ、音声データの収集装置がスマートウォッチであることを取得した場合、関連情報にスマートウォッチを含む登録声紋ベクトルを選択することができ、最後に、当該声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングし、マッチングする結果を取得する。

ステップ２０４：マッチング度が予め設定した更新閾値以上であるかどうかを決定する。

本実施例では、上記電子機器はステップ２０３において生成したマッチング度と、予め設定した更新閾値とを比較し、上記マッチング度が上記更新閾値以上であるかどうかを決定することができ、上記更新閾値は、動的で且つ個性化されるものであり、ユーザによって異なる。また、上記更新閾値は、記憶した音声データと声紋特徴ベクトルとに基づいて上記電子機器がユーザの登録声紋ベクトルを更新するように、予め設定した割合の音声データと声紋特徴ベクトルとを記憶するために設定されるものであり、例えば、予め設定した割合が８０％である場合、上記更新閾値によれば、ユーザが入力したすべての音声データの８０％の音声データを記憶することができる。

ステップ２０５：マッチング度が予め設定した更新閾値以上であると決定したことに応答して、声紋特徴ベクトルと音声データで登録声紋ベクトルを更新する。

本実施例では、上記マッチング度が予め設定した更新閾値以上であると決定した場合、上記電子機器はステップ２０１において受信した音声データとステップ２０２において抽出した声紋特徴ベクトルとによって上記ユーザの登録声紋ベクトルを更新することができる。

本実施例のいくつかの任意選択の実施形態では、上記マッチング度が予め設定した成功閾値以上であると決定した場合、上記電子機器は上記ユーザ身元認証が成功したと決定し、認証成功に対応する操作を実行することができ、例えば、ユーザがウエブサイトログイン時の身元認証を行う時に、上記ユーザに対してログイン成功ページを戻すことができ、ユーザがパスワードロックのアンロック操作を行う時に、パスワードロックを解除することができ。

本願の上記実施例に係る方法は、ユーザ音声データにおける声紋特徴ベクトルと当該ユーザの登録声紋ベクトルとをマッチングし、マッチング度が更新閾値以上の音声データと声紋特徴ベクトルとによってユーザの登録声紋ベクトルを更新することによって、ユーザの登録声紋ベクトルの正確性を向上させる。

次に、図２のステップ２０３においてユーザの登録声紋ベクトルの生成方法の実施形態のプロセス３００である図３を参照する。当該ユーザの登録声紋ベクトルを生成するプロセス３００は、ステップ３０１〜ステップ３０４を含む。

ステップ３０１：ユーザが入力した所定数の登録音声データを取得する。

本実施例では、音声データを処理するための方法が実行されている電子機器（例えば図１に示されるサーバ）はユーザが身元認証用のシステムアカウントを登録した時に入力した所定数の登録音声データを取得することができ、ここで、上記登録音声データはユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、上記文字列は上記電子機器がランダムに生成した文字列であってもよい、上記ユーザが文字列集合から選択した文字列であってもよい。

本実施例のいくつかの任意選択の実施形態では、上記電子機器は上記ユーザが記憶した音声データと、音声データの入力時点を含む当該音声データの関連情報とを取得し、次に、上記入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとし、当該登録音声データによって登録声紋ベクトルを生成することができる。例として、予め設定した時間分割点が２０１６年６月１日である場合、入力時点が２０１６年６月１日より早いデータを削除する。

本実施例のいくつかの任意選択の実施形態では、上記電子機器は、先ず分割型クラスタリングアルゴリズム（例えばｋ−ｍｅａｎｓアルゴリズム）、階層的クラスタリングアルゴリズム（例えば階層手法を用いたバランスのとれた反復削減とクラスタリング（ＢａｌａｎｃｅｄＩｔｅｒａｔｉｖｅＲｅｄｕｃｉｎｇａｎｄＣｌｕｓｔｅｒｉｎｇＵｓｉｎｇＨｉｅｒａｒｃｈｉｅｓ、ＢＩＲＣＨ））及び密度ベースのクラスタリングアルゴリズム（例えばＤＢＳＣＡＮアルゴリズム）等を含むクラスタリングアルゴリズムによって、上記ユーザが記憶した音声データをクラスタリングし、少なくとも１つの記憶した音声データのクラスタを生成し、次に、各クラスタの中心点を取得することができ、ｋ−ｍｅａｎｓアルゴリズムを例として、Ｋ値とＫ個のクラスタの初期中心点が与えられた場合、各点を最も近い中心点の代表したクラスタに割り当て、すべての点が割り当てられた後に、１つのクラスタにおけるすべての点を改めて計算（例えば平均値計算）して当該クラスタの中心点を取得し、次に、クラスタの中心点の変化が非常に小さくなったり指定された反復回数に達したりするまで、点の割り当てとクラスタの中心点の更新のステップを反復して行い、さらに、各クラスタにおける中心点を取得し、次に、ユークリッド距離アルゴリズムを含んでもよい距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算し、最終的に、上記距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとし、当該登録音声データによって登録声紋ベクトルを生成することができる。

本実施例のいくつかの任意選択の実施形態では、上記電子機器は音声データ入力時点が予め設定した時間分割点より早い音声データ及び上記距離が予め設定した距離閾値より大きい音声データをすべて削除し、残った音声データを登録音声データとし、当該登録音声データで登録声紋ベクトルを生成するようにしてもよい。

ステップ３０２：所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得する。

本実施例では、上記電子機器は上記所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得することができる。上記ユニバーサルバックグラウンドモデルは、男女平均の異なる発話者の大量の音声サンプルからトレーニングされた、発話者と独立したガウス混合モデルであり、上記ユニバーサルバックグラウンドモデルは音声データと中間ベクトルの対応関係を特徴付けすることに用いられてもよい。

ステップ３０３：所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得する。

本実施例では、上記電子機器は接合因子分析方法、確率的線形判別分析アルゴリズム及び認識ベクトル等のアルゴリズムによって上記所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得することができる。

ステップ３０４：所定数の登録声紋特徴ベクトルを融合し、ユーザの登録声紋ベクトルを生成する。

本実施例では、上記電子機器は上記所定数の登録声紋特徴ベクトルを融合し、上記ユーザの登録声紋ベクトルを生成することができる。例えば、ユーザＡが登録過程でＫ個の登録音声データを入力すれば、Ｋ個の登録声紋特徴ベクトルを抽出でき、下記式１によって上記Ｋ個の登録声紋特徴ベクトルを融合して上記ユーザの登録声紋ベクトルを取得することができる。

ここで、Ｖはユーザの登録声紋ベクトルであり、Ｋは登録音声データの数であり、ｖ_ｉはユーザが入力したｉ番目の登録声紋特徴ベクトルであり、ｎｏｒｍ（ｖ_ｉ）はｖ_ｉに対するデータ正規化（長さ正規化）操作であり、
は
に対するデータ正規化（長さ正規化）操作である。

本願の上記ユーザの登録声紋ベクトルを生成する方法は、ユーザの登録音声データに対してマッピング、特徴変換及び融合等の処理を行うことで、当該ユーザの登録声紋ベクトルを生成することによって、当該登録声紋ベクトルを基準とし、当該ユーザの身元認証結果を決定し、正確なユーザ身元識別を実現する。

さらに、音声データを処理するための方法の別の実施例のプロセス４００である図４を参照する。当該音声データを処理するための方法のプロセス４００は、ステップ４０１〜ステップ４０８を含む、

ステップ４０１：ユーザ端末から送信された音声データを受信する。

本実施例では、音声データを処理するための方法を実行する電子機器（例えば図１に示されるサーバ）はユーザがユーザ身元認証を行うために使われる端末から有線接続又は無線接続で音声データを受信することができ、上記音声データはユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、上記文字列は上記電子機器がランダムに生成した文字列であってもよく、上記ユーザが身元認証用のシステムアカウントを登録した時に選択した文字列集合における文字列であってもよい。

ステップ４０２：音声データにおける声紋特徴ベクトルを抽出する。

本実施例では、上記電子機器はステップ４０１において受信した音声データにおける声紋特徴ベクトルを抽出することができる。声紋は、電気音響機器により表示され言葉情報を有する音波スペクトルである。現代の科学研究によれば、声紋が特定性を有し、且つ相対的安定性を有することを示す。声紋特徴ベクトルはユーザの声紋スペクトル特徴をマークするベクトルであってもよい。

ステップ４０３：声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成する。

本実施例では、上記電子機器は上記ステップ４０２において抽出した声紋特徴ベクトルと予め記憶した上記ユーザの登録声紋ベクトルとをマッチングし、上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を生成することができる。上記予め記憶した登録声紋ベクトルは予め生成した登録声紋ベクトルであってもよく、更新した登録声紋ベクトルであってもよい。上記登録声紋ベクトルは上記電子機器自体で生成したものであってもよく、上記電子機器が上記ユーザの登録声紋ベクトルを生成したほかの装置から取得したものであってもよい。マンハッタン距離、ミンコフスキー距離及びコサイン類似度等によって上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を計算することができる。

ステップ４０４：マッチング度が予め設定した更新閾値以上であるかどうかを決定する。

本実施例では、上記電子機器はステップ４０３において生成したマッチング度と、予め設定した更新閾値とを比較し、上記マッチング度が上記更新閾値以上であるかどうかを決定することができ、上記更新閾値は、動的で且つ個性化されるものであり、ユーザによって異なる。また、上記更新閾値は、記憶した音声データと声紋特徴ベクトルとに基づいて上記電子機器がユーザの登録声紋ベクトルを更新するように、予め設定した割合の音声データと声紋特徴ベクトルとを記憶するために設定されるものであり、例えば、予め設定した割合が９０％である場合、上記更新閾値によれば、ユーザが入力したすべての音声データの９０％の音声データを記憶することができる。

本実施例では、上記電子機器はユーザの各登録声紋ベクトルに対して、登録声紋ベクトルごとに異なる更新閾値を設定することができる。声紋特徴ベクトルと、選択した登録声紋ベクトルとをマッチングする時に、取得されたマッチング度と選択した登録声紋ベクトルに対応する更新閾値を比較することができ、ここで、前記登録声紋ベクトルと前記更新閾値とが１対１対応する。

ステップ４０５：マッチング度が予め設定した更新閾値以上であると決定したことに応答して、ユーザが入力した登録音声データの数とユーザが記憶した各声紋特徴ベクトルとを取得する。

本実施例では、上記マッチング度が予め設定した更新閾値以上であると決定した場合、上記電子機器はユーザが入力した登録音声データの数とユーザが記憶した各声紋特徴ベクトルとを取得することができる。上記マッチング度が予め設定した更新閾値以上であると決定した後に、上記電子機器は、先ずユーザが記憶した音声データの数を取得してもよく、状態を未使用とマークした音声データの数を取得してもよく、次に、取得した数が予め設定した数の閾値以上であるかどうかを決定し、予め設定した数の閾値より大きい場合、又は予め設定した時点に達した場合、上記電子機器は上記登録音声データの数と上記ユーザが記憶した各声紋特徴ベクトルとを取得することができ、ここで、上記数の閾値は予め設定され、記憶した音声データの数が数の閾値より大きい時に上記登録声紋ベクトルの更新に供するものである。

ステップ４０６：ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、ユーザが記憶した声紋特徴ベクトルの和を求める。

本実施例では、上記電子機器は上記ユーザが記憶した各声紋特徴ベクトルに対して、主にデータ走化性同一処理（data synchronously chemotactic processing）と無次元化処理（nondimensionalized processing）の２つを含むデータ正規化演算（又は長さ正規化計算）を行い、データ正規化演算後のベクトルを加算し、上記ユーザが記憶した声紋特徴ベクトルの和を求めることができる。データ走化性同一処理は、主に異なる性質のデータの問題を解決し、異なる性質の指標を直接合計することは異なる作用による統合的な結果を正確に反映できないので、まず逆指標のデータ性質を変えてすべての指標による評価手段への作用の走化性を同一にし、さらに合計して正確な結果を取得するという考慮に入れなければならない。データ無次元化処理は、主にデータの比較可能性を解決する。データ正規化方法は複数種あり、通常、「Ｍｉｎ−Ｍａｘ標準化（minimum-maximum standardization）」、「Ｚ−ｓｃｏｒｅ標準化（Z-score standardization）」及び「１０進位取り標準化（standardization by decimal scaling）」等を用いる。

ステップ４０７：登録音声データの数に登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得する。

本実施例では、上記電子機器は上記登録音声データの数に上記登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得することができる。

ステップ４０８：声紋特徴ベクトルの和と登録声紋ベクトルの積とのベクトル和を計算するとともに、ユーザが記憶した音声データの数と登録音声データの数との数の和を計算し、ベクトル和を数の和で割って更新した登録声紋ベクトルを取得する。

本実施例では、上記電子機器は上記ステップ４０６において取得された上記声紋特徴ベクトルの和と上記ステップ４０７において取得された登録声紋ベクトルの積とのベクトル和を計算し、上記ユーザが記憶した音声データの数と上記登録音声データの数との数の和を計算し、上記ベクトル和を上記数の和で割って更新した登録声紋ベクトルを取得することができる。具体的には、下記式２によって更新した登録声紋ベクトルを取得することができる。

ここで、Ｖ_ｎｅｗは更新した登録声紋ベクトルであり、ｎは登録音声データの数であり、Ｖは登録声紋ベクトルであり、Ｋは記憶した音声データの数であり、ｖ_ｉはｉ番目の記憶した声紋特徴ベクトルであり、ｎｏｒｍ（ｖ_ｉ）はｖ_ｉに対するデータ正規化（長さ正規化）操作である。

本実施例のいくつかの任意選択の実施形態では、式２のＫが１である場合、上記登録声紋ベクトルはオンラインでリアルタイムに更新されることができる。

本実施例のいくつかの任意選択の実施形態では、登録声紋ベクトルを更新した後に、使用した音声データが繰り返して更新に用いられることを避けるために、上記電子機器は上記ユーザが記憶した音声データを削除したり、又はその状態を使用済みとしてマークしたりすることができる。

図４から分かるように、図２に対応する実施例に比べて、本実施例における音声データを処理するための方法のプロセス４００は、登録声紋ベクトルを更新する具体的なステップを強調する。そのため、本実施例で説明した手段はユーザが登録した時に入力した音声データとマッチング度が予め設定した更新閾値以上の音声データとによってユーザの登録声紋ベクトルを更新することによって、より正確な登録声紋ベクトルを取得することができる。

さらに図５に示されるとおり、上記各図に示される方法の実現手段として、本願は音声データを処理するための装置の一実施例を提供し、当該装置の実施例は図２に示される方法の実施例に対応し、当該装置は具体的には各種の電子機器に適用することができる。

図５に示すように、本実施例の音声データを処理するための装置５００は、受信ユニット５０１、抽出ユニット５０２、マッチングユニット５０３、第１決定ユニット５０４及び更新ユニット５０５を備える。受信ユニット５０１はユーザ端末から送信された音声データを受信するように配置され、抽出ユニット５０２は音声データにおける声紋特徴ベクトルを抽出するように配置され、マッチングユニット５０３は声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成するように配置され、第１決定ユニット５０４は前記マッチング度が予め設定した更新閾値以上であるかどうかを決定するように配置され、更新ユニット５０５は前記マッチング度が予め設定した更新閾値以上であると決定したことに応答して、前記声紋特徴ベクトルと前記音声データとによって前記登録声紋ベクトルを更新するように配置される。

本実施例では、音声データを処理するための装置５００の受信ユニット５０１は、ユーザがユーザ身元認証を行うために使われる端末から有線接続又は無線接続で音声データを受信することができ、上記音声データはユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、上記文字列は上記電子機器がランダムに生成した文字列であってもよく、上記ユーザが身元認証用のシステムアカウントを登録した時に選択した文字列集合における文字列であってもよい。

本実施例では、受信ユニット５０１が受信した音声データに基づいて、上記抽出ユニット５０２は上記音声データにおける声紋特徴ベクトルを抽出することができる。声紋は電気音響機器によって表示され言葉情報を有する音波スペクトルである。現代の科学研究によれば、声紋が特定性を有し、且つ相対的安定性を有することを示す。声紋特徴ベクトルはユーザの声紋スペクトル特徴を識別するベクトルであってもよい。

本実施例では、抽出ユニット５０２が抽出した声紋特徴ベクトルに基づいて、上記マッチングユニット５０３は上記声紋特徴ベクトルと予め記憶した上記ユーザの登録声紋ベクトルとをマッチングし、上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を生成することができる。上記予め記憶した登録声紋ベクトルは予め生成した登録声紋ベクトルであってもよく、更新した登録声紋ベクトルであってもよい。上記登録声紋ベクトルは上記電子機器自体で生成したものであってもよく、上記電子機器が上記ユーザの登録声紋ベクトルを生成したほかの装置から取得したものであってもよい。上記マッチングユニット５０３はマンハッタン距離、ミンコフスキー距離及びコサイン類似度で上記声紋特徴ベクトルと上記登録声紋ベクトルのマッチング度を計算することができる。

本実施例では、マッチングユニット５０３が生成したマッチング度に基づいて、上記第１決定ユニット５０４は上記マッチング度と予め設定した更新閾値とを比較し、上記マッチング度が上記更新閾値以上であるかどうかと決定することができ、上記更新閾値は動的で且つ個性化されるものであり、ユーザによって異なる。また、上記更新閾値は、記憶した音声データと声紋特徴ベクトルとに基づいて上記電子機器がユーザの登録声紋ベクトルを更新するように、予め設定した割合の音声データと声紋特徴ベクトルとを記憶するために設定される。

本実施例では、上記マッチング度が予め設定した更新閾値以上であると決定した場合、上記更新ユニット５０５は上記受信ユニット５０１が受信した音声データと上記抽出ユニット５０２が抽出した声紋特徴ベクトルとによって上記ユーザの登録声紋ベクトルを更新することができる。

本実施例のいくつかの任意選択の実施形態では、上記抽出ユニット５０２はマッピングモジュール（図示せず）と変換モジュール（図示せず）とを備えてもよい。上記マッピングモジュールは上記音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得し、次に、上記変換モジュールは上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得することができる。ユーザ音声認証システムにおいて、上記ユニバーサルバックグラウンドモデルは男女平均の異なる発話者の大量の音声サンプルからトレーニングされた、発話者と独立したガウス混合モデルであり、上記ユニバーサルバックグラウンドモデルは音声データと中間ベクトルの対応関係を特徴付けすることに用いられてもよい。

本実施例のいくつかの任意選択の実施形態では、音声データを処理するための装置５００はさらに、生成ユニット（図示せず）を備えてもよい。上記生成ユニットは取得モジュール（図示せず）、マッピングモジュール（図示せず）、変換モジュール（図示せず）及び融合モジュール（図示せず）を備えてもよい。上記取得モジュールはユーザが身元認証用のシステムアカウントを登録した時に入力した所定数の登録音声データを取得することができ、上記登録音声データはユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、上記マッピングモジュールは上記所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得することができ、上記ユニバーサルバックグラウンドモデルは男女平均の異なる発話者の大量の音声サンプルからトレーニングされた、発話者と独立したガウス混合モデルであり、上記ユニバーサルバックグラウンドモデルは音声データと中間ベクトルの対応関係を特徴付けすることに用いられてもよく、上記変換モジュールは接合因子分析方法、確率的線形判別分析アルゴリズムや認識ベクトル等のアルゴリズムによって上記所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得し、上記融合モジュールは上記所定数の登録声紋特徴ベクトルを融合し、上記ユーザの登録声紋ベクトルを生成することができる。

本実施例のいくつかの任意選択の実施形態では、上記更新ユニット５０５はさらに取得モジュール（図示せず）と更新モジュール（図示せず）とを備えてもよい。上記取得モジュールは上記登録音声データの数と上記ユーザが記憶した各声紋特徴ベクトルとを取得することができ、上記更新モジュールは上記ユーザが記憶した各声紋特徴ベクトル、上記ユーザが記憶した音声データの数、上記登録音声データの数及び上記登録声紋ベクトルに基づいて、登録声紋ベクトルを更新することができる。

本実施例のいくつかの任意選択の実施形態では、上記更新モジュールは第１計算サブモジュール（図示せず）、第２計算サブモジュール（図示せず）及び更新サブモジュール（図示せず）を備えてもよい。上記第１計算サブモジュールは上記ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、上記ユーザが記憶した声紋特徴ベクトルの和を求めることができ、上記第２計算サブモジュールは上記登録音声データの数に上記登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得することができ、上記更新サブモジュールは上記第１計算サブモジュールで取得された上記声紋特徴ベクトルの和と上記第２計算サブモジュールで取得された登録声紋ベクトルの積とのベクトル和を計算し、上記ユーザが記憶した音声データの数と上記登録音声データの数との数の和を計算し、上記ベクトル和を上記数の和で割って更新した登録声紋ベクトルを取得することができる。

本実施例のいくつかの任意選択の実施形態では、登録声紋ベクトルを更新した後に、使用した音声データが繰り返して更新に用いられることを避けるように、上記更新ユニットは上記ユーザが記憶した音声データを削除したり、又はその状態を使用済みとしてマークしたりすることができる。

本実施例のいくつかの任意選択の実施形態では、上記取得モジュールは第１取得サブモジュール（図示せず）と第１削除サブモジュール（図示せず）とを備えてもよい。上記第１取得サブモジュールは上記ユーザが記憶した音声データと、音声データの入力時点を含む当該音声データの関連情報とを取得し、次に、上記第１削除サブモジュールは上記入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとし、当該登録音声データで登録声紋ベクトルを生成することができる。

本実施例のいくつかの任意選択の実施形態では、上記取得モジュールはさらに生成サブモジュール（図示せず）、第２取得サブモジュール（図示せず）、計算サブモジュール（図示せず）及び第２削除サブモジュール（図示せず）を備えてもよい。上記生成サブモジュールは分割型クラスタリングアルゴリズム、階層的クラスタリングアルゴリズム及び密度ベースのクラスタリングアルゴリズム等を含むクラスタリングアルゴリズムによって上記ユーザが記憶した音声データをクラスタリングし、少なくとも１つの記憶した音声データのクラスタを生成し、次に、上記第２取得サブモジュールは各クラスタの中心点を取得することができ、ｋ−ｍｅａｎｓアルゴリズムを例として、Ｋ値とＫ個のクラスタの初期中心点が与えられた場合、各点を最も近い中心点の代表したクラスタに割り当て、すべての点の割り当てが終わった後に、１つのクラスタにおけるすべての点を改めて計算（例えば平均値計算）して当該クラスタの中心点を取得し、次に、クラスタの中心点の変化が非常に小さくなり又は指定された反復回数に達したまで、点の割り当てとクラスタの中心点の更新のステップを反復して行い、各クラスタにおける中心点を取得し、次に、上記計算サブモジュールはユークリッド距離アルゴリズムを含んでもよい距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算し、最終的に、上記第２削除サブモジュールは上記距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとし、当該登録音声データで登録声紋ベクトルを生成することができる。

本実施例のいくつかの任意選択の実施形態では、上記関連情報は音声データの収集装置タイプ（例えば、携帯電話、コンピュータやスマートウォッチ等）を含んでもよく、上記関連情報はさらに音声データの入力場所を含んでもよく、外部環境ノイズの大きさに応じて入力場所をノイズが大きい場所（例えば、地下鉄、マーケット、娯楽場等）と、ノイズが小さい場所（例えば図書館、教室等）とに分けることができる。音声データを処理するための装置５００はさらに第１取得ユニット（図示せず）と再生成ユニット（図示せず）とを備えてもよい。上記第１取得ユニットは各クラスタにおける音声データ及び当該音声データの関連情報を取得し、次に、上記再生成ユニットは各クラスタの音声データによって上記ユーザの各登録声紋ベクトルを再生成し、上記各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成することができる。

本実施例のいくつかの任意選択の実施形態では、音声データを処理するための装置５００はさらに第２取得ユニット（図示せず）を備えてもよく、上記第２取得ユニットは音声データを処理する時に、さらに音声データの関連情報を取得することができ、上記マッチングユニット５０３は選択モジュール（図示せず）とマッチングモジュール（図示せず）とを備えてもよく、上記音声データの関連情報と上記ユーザの各登録声紋ベクトルの関連情報とのマッチング度に基づいて、上記選択モジュールは登録声紋ベクトルを選択することができ、例えば、音声データの入力場所がバーであることを取得した場合、関連情報にノイズが大きい場所を含む登録声紋ベクトルを選択することができ、音声データの収集装置がスマートウォッチであることを取得した場合、関連情報にスマートウォッチを含む登録声紋ベクトルを選択することができ、最後に、上記マッチングモジュールは当該声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングし、マッチング結果を取得することができる。

本実施例のいくつかの任意選択の実施形態では、音声データを処理するための装置５００はさらに第２決定ユニット（図示せず）と実行ユニット（図示せず）とを備えてもよい。上記第２決定ユニットは上記マッチング度が予め設定した成功閾値以上であると決定した場合、上記実行ユニットは上記ユーザ身元認証が成功したと決定し、認証成功に対応する操作を実行することができ、例えば、ユーザがウエブサイトログイン時の身元認証を行う時に、上記ユーザに対してログイン成功ページを戻すことができ、ユーザがパスワードロックのアンロック操作を行う時に、パスワードロックを解除することができる。

以下、本願の実施例を実現するためのサーバに適用されるコンピュータシステム６００を示す構造模式図である図６を参照する。

図６に示すように、コンピュータシステム６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているプログラム又は記憶部６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに基づいて様々な適当な動作及び処理を実行することができる中央処理装置（ＣＰＵ）６０１を備える。ＲＡＭ６０３には、システム６００の操作に必要な様々なプログラム及びデータが更に記憶されている。ＣＰＵ６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

キーボード、マウスなどを含む入力部６０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む出力部６０７、ハードディスクなどを含む記憶部６０８、及びＬＡＮカード、モデムなどを含むネットワークインターフェースカードの通信部６０９は、Ｉ／Ｏインターフェース６０５に接続されている。通信部６０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ６１０は、必要に応じてＩ／Ｏインターフェース６０５に接続される。リムーバブルメディア６１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ６１０に取り付けられ、したがって、ドライバ６１０から読み出されたコンピュータプログラムが必要に応じて記憶部６０８にインストールされる。

特に、本願の実施例によれば、フローチャートを参照しながら記載された上記のプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部６０９を介してネットワークからダウンロードされてインストールされてもよく、及び／又はリムーバブルメディア６１１からインストールされてもよい。

図面におけるフローチャート及びブロック図は、本願の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各枠は、１つのモジュール、プログラムセグメント、又はコードの一部を代表してもよく、前記モジュール、プログラムセグメント、又はコードの一部は、規定された論理機能を達成するための１つ以上の実行可能な命令を含む。また、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された２つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。また、ブロック図及び／又はフローチャートにおける各枠と、ブロック図及び／又はフローチャートにおける枠の組合せは、規定された機能又は操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。

本願の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「受信ユニット、抽出ユニット、マッチングユニット、第１決定ユニット及び更新ユニットを備えるプロセッサ」として記載されてもよい。その中でも、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、受信ユニットは、「ユーザ端末から送信された音声データを受信するユニット」として記載されてもよい。

一方、本願は、不揮発性コンピュータ記憶媒体を更に提供し、当該不揮発性コンピュータ記憶媒体は、上記実施例の装置に含まれる不揮発性コンピュータ記憶媒体であってもよく、独立に存在して端末に組み立てられていない不揮発性コンピュータ記憶媒体であってもよい。不揮発性コンピュータ記憶媒体は、１つ以上のプログラムが記憶され、１つ以上のプログラムが１つの機器により実行された場合、機器に、ユーザ端末から送信された音声データを受信し、音声データにおける声紋特徴ベクトルを抽出し、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成し、マッチング度が予め設定した更新閾値以上であるかどうかを決定し、マッチング度が予め設定した更新閾値以上であると決定したことに応答して、声紋特徴ベクトルと音声データとによって登録声紋ベクトルを更新するようにさせる。

以上の記載は、本願の好ましい実施例、及び使用された技術的原理の説明に過ぎない。本願に係る特許請求の範囲が、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本願の趣旨を逸脱しない範囲で、上記の技術的特徴又は同などの特徴の任意の組合せからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本願に開示された類似の機能を持っている技術的特徴（これらに限定されていない）とを互いに置き換えてなる技術案が挙げられる。

Claims

ユーザ端末から送信された音声データを受信するステップと、
前記音声データにおける声紋特徴ベクトルを抽出するステップと、
前記声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、前記声紋特徴ベクトルと前記登録声紋ベクトルとのマッチング度を生成するステップと、
前記マッチング度が予め設定した更新閾値以上であるかどうかを決定するステップと、
前記マッチング度が予め設定した更新閾値以上であると決定したことに応答して、前記声紋特徴ベクトルと前記音声データとによって前記登録声紋ベクトルを更新するステップと、を含み、
前記声紋特徴ベクトルと前記音声データとによって前記登録声紋ベクトルを更新するステップは、
ユーザが入力した登録音声データの数と、前記ユーザが記憶した各声紋特徴ベクトルとを取得するステップと、
前記ユーザが記憶した各声紋特徴ベクトル、前記ユーザが記憶した音声データの数、前記登録音声データの数及び前記登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するステップと、を含む
ことを特徴とする音声データを処理するための方法。
前記音声データにおける声紋特徴ベクトルを抽出するステップにおいては、
前記音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得するステップと、
前記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記声紋特徴ベクトルと予め記憶した前記ユーザの登録声紋ベクトルとをマッチングするステップの前に、
登録声紋ベクトルを生成するステップをさらに含んでおり、
前記の登録声紋ベクトルを生成するステップにおいては、
前記ユーザが入力した所定数の登録音声データを取得するステップと、
前記所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得するステップと、
前記所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得するステップと、
前記所定数の登録声紋特徴ベクトルを融合し、前記ユーザの登録声紋ベクトルを生成するステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記ユーザが記憶した各声紋特徴ベクトル、前記ユーザが記憶した音声データの数、前記登録音声データの数及び前記登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するステップにおいては、
前記ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、前記ユーザが記憶した声紋特徴ベクトルの和を求めるステップと、
前記登録音声データの数に前記登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得するステップと、
前記声紋特徴ベクトルの和と前記登録声紋ベクトルの積とのベクトル和を計算するとともに、前記ユーザが記憶した音声データの数と前記登録音声データの数との数の和を計算し、前記数の和で前記ベクトル和を割って更新した登録声紋ベクトルを取得するステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記の登録声紋ベクトルを更新するステップの後に、
前記ユーザが記憶した音声データを削除するステップを含む
ことを特徴とする請求項１に記載の方法。
前記ユーザが入力した所定数の登録音声データを取得するステップにおいては、
前記ユーザが記憶した音声データと、音声データの入力時点を含む前記音声データの関連情報とを取得するステップと、
前記入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとするステップと、を含む
ことを特徴とする請求項３に記載の方法。
前記ユーザが入力した所定数の登録音声データを取得するステップにおいては、
クラスタリングアルゴリズムによって前記ユーザが記憶した音声データをクラスタリングし、少なくとも１つの記憶した音声データのクラスタを生成するステップと、
各クラスタの中心点を取得するステップと、
距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算するステップと、
前記距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとするステップと、をさらに含む
ことを特徴とする請求項３に記載の方法。
前記関連情報は、音声データの収集装置タイプ、音声データの入力場所のうちの少なくとも１つをさらに含み、
前記の少なくとも１つの記憶した音声データのクラスタを生成するステップの後に、
各クラスタにおける音声データと、前記各クラスタにおける音声データの関連情報とを取得するステップと、
各クラスタの音声データによって前記ユーザの各登録声紋ベクトルを再生成し、前記各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成するステップと、をさらに含む
ことを特徴とする請求項６に記載の方法。
前記のユーザ端末から送信された音声データを受信するステップの後に、
前記音声データの関連情報を取得するステップをさらに含んでおり、
前記声紋特徴ベクトルと予め記憶した前記ユーザの登録声紋ベクトルをマッチングするステップにおいては、
前記音声データの関連情報と各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択するステップと、
前記声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングするステップと、を含む
ことを特徴とする請求項８に記載の方法。
前記声紋特徴ベクトルと前記登録声紋ベクトルとのマッチング度を生成するステップの後に、
前記マッチング度が予め設定した成功閾値以上であるかどうかを決定するステップと、
前記マッチング度が予め設定した成功閾値以上であると決定したことに応答して、ユーザ身元認証が成功したと決定して認証成功に対応する操作を実行するステップと、をさらに含む
ことを特徴とする請求項１に記載の方法。
ユーザ端末から送信された音声データを受信するように配置される受信ユニットと、
前記音声データにおける声紋特徴ベクトルを抽出するように配置される抽出ユニットと、
前記声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、前記声紋特徴ベクトルと前記登録声紋ベクトルとのマッチング度を生成するように配置されるマッチングユニットと、
前記マッチング度が予め設定した更新閾値以上であるかどうかを決定するように配置される第１決定ユニットと、
前記マッチング度が予め設定した更新閾値以上であると決定したことに応答して、前記声紋特徴ベクトルと前記音声データとによって前記登録声紋ベクトルを更新するように配置される更新ユニットと、を備え、
前記更新ユニットは、
ユーザが入力した登録音声データの数と、前記ユーザが記憶した各声紋特徴ベクトルとを取得するように配置される取得モジュールと、
前記ユーザが記憶した各声紋特徴ベクトル、前記ユーザが記憶した音声データの数、前記登録音声データの数及び前記登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するように配置される更新モジュールと、を備える
ことを特徴とする音声データを処理するための装置。
前記抽出ユニットは、
前記音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得するように配置されるマッピングモジュールと、
前記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するように配置される変換モジュールと、を備える
ことを特徴とする請求項１１に記載の装置。
生成ユニットをさらに備えており、
前記生成ユニットは、
前記ユーザが入力した所定数の登録音声データを取得するように配置される取得モジュールと、
前記所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得するように配置されるマッピングモジュールと、
前記所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得するように配置される変換モジュールと、
前記所定数の登録声紋特徴ベクトルを融合し、前記ユーザの登録声紋ベクトルを生成するように配置される融合モジュールと、を備える
ことを特徴とする請求項１１に記載の装置。
前記更新モジュールは、
前記ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、前記ユーザが記憶した声紋特徴ベクトルの和を求めるように配置される第１計算サブモジュールと、
前記登録音声データの数に前記登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得するように配置される第２計算サブモジュールと、
前記声紋特徴ベクトルの和と前記登録声紋ベクトルの積とのベクトル和を計算し、前記ユーザが記憶した音声データの数と前記登録音声データの数との数の和を計算し、前記数の和で前記ベクトル和を割って更新した登録声紋ベクトルを取得するように配置される更新サブモジュールと、を備える
ことを特徴とする請求項１１に記載の装置。
前記更新ユニットは、さらに、
前記ユーザが記憶した音声データを削除するように配置される
ことを特徴とする請求項１１に記載の装置。
前記取得モジュールは、
前記ユーザが記憶した音声データと、音声データの入力時点を含む前記音声データの関連情報とを取得するように配置される第１取得サブモジュールと、
前記入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとするように配置される第１削除サブモジュールと、を備える
ことを特徴とする請求項１３に記載の装置。
前記取得モジュールは、
クラスタリングアルゴリズムによって前記ユーザが記憶した音声データをクラスタリングし、少なくとも１つの記憶した音声データのクラスタを生成するように配置される生成サブモジュールと、
各クラスタの中心点を取得するように配置される第２取得サブモジュールと、
距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算するように配置される計算サブモジュールと、
前記距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとするように配置される第２削除サブモジュールと、を備える
ことを特徴とする請求項１３に記載の装置。
前記関連情報は、音声データの収集装置タイプ、音声データの入力場所のうちの少なくとも１つをさらに含み、
前記装置は、
各クラスタにおける音声データと、前記各クラスタにおける音声データの関連情報とを取得するように配置される第１取得ユニットと、
各クラスタの音声データによって前記ユーザの各登録声紋ベクトルを再生成し、前記各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成するように配置される再生成ユニットと、をさらに備える
ことを特徴とする請求項１６に記載の装置。
前記音声データの関連情報を取得するように配置される第２取得ユニットをさらに備えており、
前記マッチングユニットは、
前記音声データの関連情報と各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択するように配置される選択モジュールと、
前記声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングするように配置されるマッチングモジュールと、を備える
ことを特徴とする請求項１８に記載の装置。
前記マッチング度が予め設定した成功閾値以上であるかどうかを決定するように配置される第２決定ユニットと、
前記マッチング度が予め設定した成功閾値以上であると決定したことに応答して、ユーザ身元認証が成功と決定して認証成功に対応する操作を実行するように配置される実行ユニットと、を備える
ことを特徴とする請求項１１に記載の装置。