JP6682523B2

JP6682523B2 - 声紋認証処理方法及び装置

Info

Publication number: JP6682523B2
Application number: JP2017519504A
Authority: JP
Inventors: チャオリ; ベングウ; リンヂュ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2015-12-30
Filing date: 2016-07-04
Publication date: 2020-04-15
Anticipated expiration: 2036-07-04
Also published as: EP3296991B1; EP3296991A4; CN105513597A; US10685658B2; EP3296991A1; KR101870093B1; JP2018508799A; US20180293990A1; CN105513597B; WO2017113680A1

Description

本発明は、声紋認証技術分野に関し、特に声紋認証処理方法及び装置に関する。

技術の不断の進歩に伴い、声紋認識（ＶｏｉｃｅｐｒｉｎｔＲｅｃｏｇｎｉｔｉｏｎ、ＶＰＲ）技術の応用分野が広がってきている。

声紋認識は、ある音声断片が特定の人により発話されたか否かを確認することができ、例えば、勤務をレコーダする時、又は銀行で取引する時、ユーザの声を確認する必要がある。声紋認識前に、先ず話者の声紋に対してモデリングを行う必要があり、これはいわゆる「訓練」又は「学習」過程である。

現在の声紋認識の訓練過程は、共通のモデルで声紋の訓練及び認識を行い、精度が高くない。

本発明の目的は、関連技術における一つの問題を少なくともある程度解決することにある。

そのため、本発明の第一の目的は、声紋認証処理方法を提出することにあり、当該方法は、性別を区分する声紋認証処理モデルを構築することにより、声紋認証の効率及び精度を向上させる。

本発明の第二の目的は、声紋認証処理装置を提供することにある。

本発明の第三の目的は、記憶媒体を提供することにある。

本発明の第四の目的は、声紋認証処理設備を提供することにある。

上述の目的を達成するため、本発明の第一側面の実施例は、声紋認証処理方法を提出し、前記方法は、性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用し、訓練集合における各音声断片の第１特徴ベクトルを抽出するステップと、前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練するステップと、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップとを含む。

本発明の実施例の声紋認証処理方法は、性別を混合する深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用することにより、訓練集合における各音声断片の第１特徴ベクトルを抽出し、前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練し、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。これにより、性別を区分する声紋認証処理モデルを構築し、声紋認証の効率及び精度を向上させる。

上述の目的を達成するため、本発明の第二側面の実施例は、声紋認証処理装置を提出し、前記声紋認証処理装置は、性別を混合する深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用することにより、訓練集合における各音声断片の第１特徴ベクトルを抽出するための、抽出モジュール、前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するための、生成モジュールと、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練するための、第１訓練モジュールと、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するための、第２訓練モジュールと、を含む。

本発明の実施例の声紋認証処理装置は、性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用することにより、訓練集合における各音声断片の第１特徴ベクトルを抽出し、前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練し、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。これにより、性別を区分する声紋認証処理モデルを構築し、声紋認証の効率及び精度を向上させる。

上述の目的を実現するため、本発明の第三側面の実施例の記憶媒体は、アプリケーションを記憶するためのものであり、前記アプリケーションは、本発明の第一側面の実施例に記載の声紋認証処理方法を実行するためのものである。

上述の目的を実現するため、本発明の第四側面の実施例の声紋認証処理設備は、一つ又は複数のプロセッサと、メモリと、一つ又は複数のモジュールとを備え、前記一つ又は複数のモジュールは、前記メモリに記憶され、前記一つ又は複数のプロセッサによって実行された時、以下の操作を行う。性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用し、訓練集合における各音声断片の第１特徴ベクトルを抽出し、前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練し、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。

本発明の上述および／または付加的な特徴と利点は、下記の添付図面を参照した実施形態に対する説明により、明らかになり、理解されることが容易になる。その中、
本発明の一つの実施例の声紋認証処理方法のフローチャートである。性別分類器の生成概略図である。男性声紋認証処理モデルの生成概略図である。女性声紋認証処理モデルの生成概略図である。本発明のもう一つの実施例の声紋認証処理方法のフローチャートである。本発明のもう一つの実施例の声紋認証処理方法のフローチャートである。本発明の一つの実施例の声紋認証処理装置の構造概略図である。本発明のもう一つの実施例の声紋認証処理装置の構造概略図である。本発明のもう一つの実施例の声紋認証処理装置の構造概略図である。

次に、図面に示された実施例について詳しく説明する。下記の記述で図面を引用するとき、別に表示がない限り、異なる図面の同じ数字は同じ要素、または類似的要素を示す。図面を参照しながら説明する下記の実施例は、本発明の解釈の例示であり、本発明を制限するものではない。

次に、図面を参照して本発明の実施例の声紋認証処理方法及び装置を説明する。

図１は、本発明の一つの実施例の声紋認証処理方法のフローチャートである。

図１に示すように、当該声紋認証処理方法は、ステップ１０１とステップ１０２を含む。

ステップ１０１は、性別を混合した深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）声紋ベースラインシステムを利用し、訓練集合における各音声断片の第１特徴ベクトルを抽出する。

ステップ１０２は、前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練する。

具体的に、性別を区分する声紋認証処理モデルを構築することを訓練するため、まず、性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用し、性別を生成し、性別分類器を訓練することにより、性別分類器を訓練することで認識された、入力された声の性別を利用し、入力された声に対して性別タグを分配する。

図２は、性別分類器の生成概略図であり、図２を参照して如何に性別を混合したＤＮＮ声紋ベースラインシステムを利用して性別分類器を生成することを説明し、具体的には、以下のよう作動する。

複数の音声断片を含む訓練集合を予め設置し、訓練集合における各音声データのいずれにも、対応する性別情報が予め標識され、例えば、第１音声データが対応する性別は、男性データであり、第２音声データが対応する性別は、女性データである。

訓練集合における各音声データを、性別を混合したＤＮＮ声紋ベースラインシステムに入力し、ＤＮＮ声紋ベースラインシステムを利用して各音声データに対してデータ処理を行い、各音声に対応する第１特徴ベクトルを抽出する。

さらに、各音声断片の第１特徴ベクトル及び予め標識された各音声の性別によって、性別分類器を訓練することにより、性別分類器を訓練することで認識された、入力された声の性別を利用し、入力された声に対して性別タグを分配する。

ステップ１０３は、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練する。

具体的に、訓練集合における性別が異なる音声データ及び予め設置された深層ニューラルネットワークアルゴリズムによって、性別が異なるＤＮＮモデルをそれぞれ訓練し、即ち、男性ＤＮＮモデル及び女性ＤＮＮモデルをそれぞれ訓練する。

その中、男性ＤＮＮモデルは、男性の音声データを受信し、当該男性音声データに対応する事後確率を出力するためのものであり、女性ＤＮＮモデルは、女性の音声データを受信し、当該女性音声データに対応する事後確率を出力するためのものである。

ステップ１０４は、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。

具体的に、性別が異なるＤＮＮモデル及び訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。

その中、各モデルの機能に対する説明は、以下のようである。
統一背景モデルは、ＤＮＮモデルに出力された事後確率に対して正規化処理を行うためのものである。
特徴ベクトル抽出モデルは、ＤＮＮモデルに出力された事後確率及びユーザに入力された音声データを受信し、且つ予め設置されたアルゴリズムによって音声データの第２特徴ベクトルを抽出するためのものである。
確率線形判別分析モデルは、ユーザに入力された音声データの第２特徴ベクトルと予め記憶された声紋登録テンプレートとの類似度を比較するためのものである。

図３は、男性声紋認証処理モデルの生成概略図であり、図３を参照し、具体的には、男性のＤＮＮモデルを利用し、訓練集合における男性の音声データに対して処理を行い、事後確率を出力し、且つ出力された事後確率に対して正規化処理を行い、男性声紋認証処理モデルにおける統一背景モデルを訓練する。

ＤＮＮモデルに出力された事後確率及び男性音声データを取得し、予め設置されたアルゴリズムによって、男性音声データの第２特徴ベクトルを抽出し、男性声紋認証処理モデルにおける特徴ベクトル抽出モデルを訓練する。

男性音声データの第２特徴ベクトルと予め記憶された男性声紋登録テンプレートとの類似度を比較し、男性声紋認証処理モデルにおける確率線形判別分析モデルを訓練する。

図４は、女性声紋認証処理モデルの生成概略図であり、図４を参照し、具体的には、女性のＤＮＮモデルを利用し、訓練集合における女性の音声データに対して処理を行い、事後確率を出力し、かつ出力された事後確率に対して正規化処理を行い、女性声紋認証処理モデルにおける統一背景モデルを訓練する。

ＤＮＮモデルに出力された事後確率及び女性音声データを取得し、予め設置されたアルゴリズムによって、女性音声データの第２特徴ベクトルを抽出し、女性声紋認証処理モデルにおける特徴ベクトル抽出モデルを訓練する。

女性音声データの第２特徴ベクトルと予め記憶された女性声紋登録テンプレートとの類似度を比較し、女性声紋認証処理モデルにおける確率線形判別分析モデルを訓練する。

本実施例の声紋認証処理方法は、性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用し、訓練集合における各音声断片の第１特徴ベクトルを抽出し、前記各音声断片の第１特徴ベクトル及び予め標識された性別によって性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練し、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。これにより、性別を区分する声紋認証処理モデルを構築し、声紋認証の効率及び精度を向上させる。

図５は、本発明のもう一つの実施例の声紋認証処理方法のフローチャートである。

図５を参照し、ステップ１０４の後、当該声紋認証処理方法は、声紋登録ステップ２０１〜ステップ２０６をさらに含む。

ステップ２０１は、ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信する。

ステップ２０２は、ユーザにより送信された声紋登録用の複数の音声断片を取得し、第１音声断片の第１特徴ベクトルを抽出し、前記性別分類器を利用して前記第１特徴ベクトルの性別タグを取得する。

具体的に、声紋認証を要求するユーザは、声紋認証処理モデルに声紋を予め登録する必要がある。まず、ユーザは声紋認証処理モデルに、ユーザ識別子を有する声紋登録要求を送信する必要がある。

声紋認証処理モデルは、ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信した後、ユーザに、音声の入力を提示する。ユーザは、声紋認証処理モデルに、声紋登録用の複数の音声断片を送信する。

声紋認証処理モデルは、第１音声断片の第１特徴ベクトルを抽出し、かつ第１特徴ベクトルを予め生成された性別分類器に送信する。性別分類器は、第１特徴ベクトルに対して分析を行い、前記第１特徴ベクトルの性別タグ、即ち第１音声の性別タグを取得する。

ステップ２０３は、前記性別タグに対応するＤＮＮモデルに基づいて各音声断片の事後確率を取得する。

ステップ２０４は、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声断片の第２特徴ベクトルをそれぞれ抽出する。

ステップ２０５は、前記複数の音声断片に対応する複数の第２特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得する。

ステップ２０６は、前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに記憶する。

具体的に、性別分類器により返信された、第１音声に対応する性別タグに基づいて、ユーザに入力された複数の音声断片を、対応する性別のＤＮＮモデルに送信する。即ち、第１音声が対応するのは男性音声である場合に、複数の音声断片を男性ＤＮＮモデルに送信する。第１音声が対応するのは女性音声である場合に、複数の音声断片を女性ＤＮＮモデルに送信する。

性別タグに対応するＤＮＮモデルに基づいて、各音声が対応する複数の事後確率を取得する。

性別タグに対応する統一背景モデルによって、各事後確率に対して正規化処理を行い、予め訓練された特徴ベクトル抽出モデルを利用し、各音声、及び対応する正規化された事後確率によって、各音声断片の第２特徴ベクトルをそれぞれ抽出する。

前記複数の音声断片に対応する複数の第２特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得し、取得方法が多くあり、異なる応用要求に応じて選択することができ、例えば、複数の第２特徴ベクトルの平均特徴ベクトルを前記ユーザの声紋登録モデルとして取得する。

さらに、ユーザが登録を要求するユーザ識別子、当該ユーザの性別タグ、及び声紋登録モデルの対応関係を、声紋登録データベースに記録することにより、以後に当該声紋登録モデルによって声紋認識を行うようになる。

本実施例の声紋認証処理方法は、まず、性別分類器を利用してユーザに入力された第１音声の性別タグを取得し、性別タグに対応するＤＮＮモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声断片の第２特徴ベクトルをそれぞれ抽出し、複数の第２特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得し、前記ユーザ識別子と、前記性別タグと、及び前記声紋登録モデルとの対応関係を声紋登録データベースに登録する。これにより、性別を区分する声紋登録過程を実現し、これにより、性別を区分する声紋認証処理モデルを利用し、声紋認証の効率及び精度を向上させる。

図６は、本発明のもう一つの実施例の声紋認証処理方法のフローチャートである。

図６を参照し、当該声紋認証処理方法は、ステップ３０１〜ステップ３０６を含む。

ステップ３０１は、ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信する。

ステップ３０２は、前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得する。

具体的に、声紋認識を要求するユーザは、声紋認証処理モデルにユーザ識別子を入力し、かつユーザ識別子を有する声紋認識要求を送信する必要がある。

ユーザにより送信された声紋認識要求に対して解析を行い、ユーザ識別子を取得し、前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得し、これにより、当該ユーザの性別タグ及び声紋登録モデルを取得する。

ステップ３０３は、ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応するＤＮＮモデルに基づいて、前記音声の事後確率を取得する。

具体的に、ユーザにより送信された声紋認識用の音声を取得し、当該音声をユーザの性別タグに対応するＤＮＮモデルに送信し、ＤＮＮモデルは、当該音声に処理を行い、当該音声の事後確率を取得する。

ステップ３０４は、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、前記音声の第２特徴ベクトルを抽出する。

具体的に、当該音声の事後確率を、前記性別タグに対応する統一背景モデルに送信する。統一背景モデルは、各事後確率に対して正規化処理を行い、予め訓練された特徴ベクトル抽出モデルを利用し、当該音声、及び対応する正規化された事後確率によって、当該音声の第２特徴ベクトルを抽出する。

ステップ３０５は、前記性別タグに対応する確率線形判別分析モデルを利用し、前記音声の第２特徴ベクトルと前記声紋登録モデルとの類似度を比較する。

ステップ３０６は、前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する。

具体的に、当該音声の第２特徴ベクトルを、性別タグに対応する確率線形判別分析モデルに送信し、確率線形判別分析モデルは、当該音声の第２特徴ベクトルと予め記憶された当該ユーザの声紋登録モデルとの類似度を比較する。

前記類似度と予め設置された閾値の大きさとを比較する。

前記類似度が予め設置された閾値以上であると確認された場合、声紋認識が成功されたと返信する。

前記類似度が予め設置された閾値よりも小さいと確認された場合、声紋認識が失敗されたと返信する。

本実施例の声紋認証処理方法は、まず、声紋登録データベースを照会し、ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得し、性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、音声の第２特徴ベクトルを抽出し、確率線形判別分析モデルを応用し、音声の第２特徴ベクトルと声紋登録モデルとの類似度を比較し、前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する。これにより、性別を区分する声紋認証過程を実現し、声紋認証の効率及び精度を向上させる。

上述の実施例を実現するため、本発明は、さらに声紋認証処理装置を提出する。

図７は、本発明の一つの実施例の声紋認証処理装置の構造概略図である。

図７に示すように、当該声紋認証処理装置は、抽出モジュール１１と、生成モジュール１２と、第１訓練モジュール１３と、第２訓練モジュール１４と、を含む。

抽出モジュール１１は、性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用し、セットにおける各音声断片の第１特徴ベクトルを抽出するためのものである。

生成モジュール１２は、前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するためのものである。

第１訓練モジュール１３は、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練するためのものである。

第２訓練モジュール１４は、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するためのものである。

なお、前述声紋認証処理方法実施例に対する説明は、当該実施例の声紋認証処理装置にも利用するので、ここで説明を省略する。

本発明実施例の声紋認証処理装置は、性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用し、訓練集合における各音声断片の第１特徴ベクトルを抽出し、前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練し、性別が異なるＤＮＮモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。これにより、性別を区分する声紋認証処理モデルを構築し、声紋認証の効率及び精度を向上させる。

図８は、本発明のもう一つの実施例の声紋認証処理装置の構造概略図であり、図８に示すように、図７に示す実施例に基づき、第１受信モジュール１５と、性別標識モジュール１６と、第１処理モジュール１７と、取得モジュール１８と、登録モジュール１９と、をさらに含む。

第１受信モジュール１５は、ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信するためのものである。

性別標識モジュール１６は、ユーザにより送信された声紋登録用の複数の音声断片を取得し、第１音声断片の第１特徴ベクトルを抽出し、前記性別分類器を利用して前記第１特徴ベクトルの性別タグを取得するためのものである。

第１処理モジュール１７は、前記性別タグに対応するＤＮＮモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声断片の第２特徴ベクトルをそれぞれ抽出するためのものである。

取得モジュール１８は、前記複数の音声断片に対応する複数の第２特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得するためのものである。

登録モジュール１９は、前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに登録するためのものである。

一つの実施例において、前記取得モジュール１８は、
前記複数の第２特徴ベクトルの平均特徴ベクトルを前記ユーザの声紋登録モデルとして取得するためのものである。

本発明の実施例の声紋認証処理装置は、まず、性別分類器を利用してユーザに入力された第１音声の性別タグを取得し、性別タグに対応するＤＮＮモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声断片の第２特徴ベクトルをそれぞれ抽出し、複数の第２特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得し、前記ユーザ識別子と、前記性別タグと、及び前記声紋登録モデルとの対応関係を声紋登録データベースに記録する。これにより、性別を区分する声紋登録過程を実現し、性別を区分する声紋認証処理モデルを利用し、声紋認証の効率及び精度を向上させる。

図９は、本発明のもう一つの実施例の声紋認証処理装置の構造概略図であり、図９に示すように、図８に示す実施例に基づき、第２受信モジュール２０と、照会モジュール２１と、第２処理モジュール２２と、比較モジュール２３と、認識モジュール（識別モジュール）２４と、をさらに含む。

第２受信モジュール２０は、ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信するためのものである。

照会モジュール２１は、前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得するためのものである。

第２処理モジュール２２は、ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応するＤＮＮモデルに基づいて、前記音声の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、前記音声の第２特徴ベクトルを抽出するためのものである。

比較モジュール２３は、前記性別タグに対応する確率線形判別分析モデルを利用し、前記音声の第２特徴ベクトルと前記声紋登録モデルとの類似度を比較するためのものである。

認識モジュール２４は、前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信するためのものである。

その中、前記認識モジュール２４は、
前記類似度と予め設置された閾値の大きさとを比較し、
前記類似度が予め設置された閾値以上であると確認された場合、声紋認識が成功されたと返信し、
前記類似度が予め設置された閾値よりも小さいと確認された場合、声紋認識が失敗されたと返信する。

本発明の実施例の声紋認証処理装置は、まず、声紋登録データベースを照会し、ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得し、性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、音声の第２特徴ベクトルを抽出し、確率線形判別分析モデルを利用し、音声の第２特徴ベクトルと声紋登録モデルとの類似度を比較し、前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する。これにより、性別を区分する声紋認証過程を実現し、声紋認証の効率及び精度を向上させる。

上述の実施例を実現するため、本発明の第三側面の実施例の記憶媒体は、アプリケーション（アプリケーションプログラム）を記憶するためのものであり、前記アプリケーションは、本発明の第一側面の実施例に記載の声紋認証処理方法を実行するためのものである。

上述の実施例を実現するため、本発明の第四側面の実施例の声紋認証処理設備は、一つ又は複数のプロセッサと、メモリと、一つ又は複数のモジュールとを備え、前記一つ又は複数のモジュールは、前記メモリに記憶（格納）され、前記一つ又は複数のプロセッサにより実行される時、操作Ｓ１０１’と、Ｓ１０２’と、Ｓ１０３’と、Ｓ１０４’とを実行する。

Ｓ１０１’は、性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用し、訓練集合における各音声断片の第１特徴ベクトルを抽出する。

Ｓ１０２’は、各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練する。

Ｓ１０３’は、訓練集合における性別が異なる音声データに基づき、性別が異なるＤＮＮモデルをそれぞれ訓練する。

Ｓ１０４’は、性別が異なるＤＮＮモデル及び訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。

本発明の説明において、「一つの実施形態」、「一部の実施形態」、「例示的な実施形態」、「示例」、「具体的な示例」、或いは「一部の示例」などの用語を参考した説明とは、該実施形態或いは示例に結合して説明された具体的な特徴、構成、材料或いは特徴が、本発明の少なくとも一つの実施形態或いは示例に含まれることである。本明細書において、上記用語に対する例示的な描写は、必ずしも同じ実施形態或いは示例を示すことではない。又、説明された具体的な特徴、構成、材料或いは特徴は、いずれか一つ或いは複数の実施形態又は示例において適切に結合することができる。

なお、「第１」、「第２」の用語は目的を説明するためだけに用いられるものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。そこで、「第１」、「第２」が限定されている特徴は一つ又はより多くの前記特徴を含むことを明示又は暗示するものである。本発明の説明において、明確且つ具体的な限定がない限り、「複数」とは、二つ又は二つ以上のことを意味する。

フローチャートまたは他の方式で説明した過程や方法は、一つまたは複数の、判定ロジック性能または過程のステップの実行できるコマンドのコードのモジュール、セクターあるいは部分を含む。本発明の望ましい実施方式の範囲は、他の実現を含み、表示または説明の順序に従わなくてもよい。述べられた機能に基づいて基本的に同様な方式または逆の順序で、その機能を実行することができる。これは、本発明実施例の所属技術領域の技術者に理解される。

フローチャートの中で示し又は本明細書に他の方法で記載したロジック及び／又はステップは、例えば論理機能を実施するのに使用される実行可能命令のシーケンスリストと見なすことができ、とりわけ使用する命令実行システム、装置、又はデバイス（コンピュータベースのシステム、プロセッサを含むシステム、命令実行システム、装置、又はデバイスから命令を抽出し、その命令を実行することができる他のシステム等）用の任意のコンピュータ可読媒体の中に実装することができ、又はこれらの命令実行システム、装置、若しくはデバイスと組み合わせて使用される。この説明では、「コンピュータ可読媒体」は、使用する命令実行システム、装置、又はデバイス用のプログラムを含む、記憶する、伝える、伝搬する、又は伝送することができる任意の装置、又はこれらの命令実行システム、装置、若しくはデバイスと組み合わせて使用される任意の装置であり得る。コンピュータ可読媒体のより具体的な例（非網羅的一覧）には、１つ又は複数の配線を有する電気接続部（電子装置）、携帯型コンピュータディスクボックス（磁気装置）、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去及びプログラム可能読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ装置、及び携帯型ＣＤ読み取り専用メモリ（ＣＤＲＯＭ）が含まれる。

また、本発明の各部分は、ハードウェア、ソフトウェア、部品またはそれらの組み合わせで実現できる。前記実施例には、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたは部品で実現される。たとえば、ハードウェアで実現する場合、他の実施方式と同じように、本技術分野で周知の下記の任意の一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する個別のロジック回路、ロジックゲート回路を組み合わせた適当な専用ＩＣ、プログラマブルゲートアレイ（ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、以下、ＰＧＡと略す）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、以下、ＦＰＧＡと略す）などである。

前記実施例の方法にある全部または一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、当業者に理解される。前記プログラムは一つの計算機の読み出し書き込み可能な記憶メディアに記憶される。当プログラムを実行するとき、実施例に記載した方法のステップの一つまたはそれらの組み合わせを含む。

なお、本発明の各実施例の各機能モジュールを一つの処理モジュールに集中し、または、単独に存在し、あるいは、二つまたは二つ以上のモジュールを一つの処理モジュールに集中することができる。前記集成したモジュールは、ハードウェアの形式、または、ソフトウェアの形式で実現される。前記集成したモジュールは、ソフトウェアの形式で実現し、また、独立の製品として販売や使用するとき、計算機の読み出し書き込み可能な記憶メディアに記憶されることができる。

以上本発明の実施形態を示して説明したが、上記の実施形態は例示的なものであり、本発明を制限するように解釈すべきではないことは当業者にとって理解できることである。本発明の原理と要旨から逸脱しない範囲で、これらの実施形態に対し様々な変更、修正、置換および変形をすることができる。

Claims

性別を混合した深層ニューラルネットワークＤＮＮ声紋のベースラインシステムを利用して、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第１特徴ベクトルを抽出するステップと、
前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、
前記訓練集合における性別が異なる音声データに基づいて、男性ＤＮＮモデルと女性ＤＮＮモデルをそれぞれ訓練するステップと、
男性ＤＮＮモデルと女性ＤＮＮモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップと、を含む、
ことを特徴とする声紋認証処理方法。
ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信するステップと、
ユーザにより送信された声紋登録用の複数の音声断片を取得し、第１音声断片の第１特徴ベクトルを抽出し、前記性別分類器を利用して前記第１特徴ベクトルの性別タグを取得するステップと、
前記性別タグに対応する男性ＤＮＮモデルと女性ＤＮＮモデルとにおけるＤＮＮモデルに基づいて、各音声断片の事後確率を取得するステップと、
前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声の第２特徴ベクトルをそれぞれ抽出するステップと、
前記複数の音声に対応する複数の第２特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得するステップと、
前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに記憶するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
前記複数の音声に対応する複数の第２特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得するステップは、
前記複数の第２特徴ベクトルの平均特徴ベクトルを、前記ユーザの声紋登録モデルとして取得するステップを含む、
ことを特徴とする請求項２に記載の方法。
ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信するステップと、
前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得するステップと、
ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応する男性ＤＮＮモデルと女性ＤＮＮモデルとにおけるＤＮＮモデルに基づいて、前記音声の事後確率を取得するステップと、
前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、前記音声の第２特徴ベクトルを抽出するステップと、
前記性別タグに対応する確率線形判別分析モデルを利用して、前記音声の第２特徴ベクトルと前記声紋登録モデルとの類似度を比較するステップと、
前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信するステップと、をさらに含む、
ことを特徴とする請求項２または３に記載の方法。
前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信するステップは、
前記類似度と予め設置された閾値の大きさとを比較するステップと、
前記類似度が予め設置された閾値以上であると確認された場合、声紋認識が成功されたと返信するステップと、
前記類似度が予め設置された閾値よりも小さいと確認された場合、声紋認識が失敗されたと返信するステップとを、含む、
ことを特徴とする請求項４に記載の方法。
性別を混合した深層ニューラルネットワークＤＮＮ声紋のベースラインシステムを利用することにより、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第１特徴ベクトルを抽出する抽出モジュールと、
前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練する生成モジュールと、
前記訓練集合における性別が異なる音声データに基づいて、男性ＤＮＮモデルと女性ＤＮＮモデルをそれぞれ訓練する第１訓練モジュールと、
男性ＤＮＮモデルと女性ＤＮＮモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する第２訓練モジュールと、を含む、
ことを特徴とする声紋認証処理装置。
ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信する第１受信モジュールと、
ユーザにより送信された声紋登録用の複数の音声断片を取得し、第１音声断片の第１特徴ベクトルを抽出し、前記性別分類器を利用して前記第１特徴ベクトルの性別タグを取得する性別標識モジュールと、
前記性別タグに対応する男性ＤＮＮモデルと女性ＤＮＮモデルとにおけるＤＮＮモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声の第２特徴ベクトルをそれぞれ抽出する第１処理モジュールと、
前記複数の音声に対応する複数の第２特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得する取得モジュールと、
前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに登録する登録モジュールと、
を更に含む、
ことを特徴とする請求項６に記載の装置。
前記取得モジュールは、
前記複数の第２特徴ベクトルの平均特徴ベクトルを前記ユーザの声紋登録モデルとして取得する、
ことを特徴とする請求項７に記載の装置。
ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信する第２受信モジュールと、
前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得する照会モジュールと、
ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応する男性ＤＮＮモデルと女性ＤＮＮモデルとにおけるＤＮＮモデルに基づいて、前記音声の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用して、前記音声の第２特徴ベクトルを抽出する第２処理モジュールと、
前記性別タグに対応する確率線形判別分析モデルを利用して、前記音声の第２特徴ベクトルと前記声紋登録モデルとの類似度を比較する比較モジュールと、
前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する認識モジュールと、
をさらに含む、
ことを特徴とする請求項７または８に記載の装置。
前記認識モジュールは、
前記類似度と予め設置された閾値の大きさとを比較し、
前記類似度が予め設置された閾値以上であると確認できた場合、声紋認識が成功されたと返信し、
前記類似度が予め設置された閾値よりも小さいと確認できた場合、声紋認識が失敗されたと返信する、
ことを特徴とする請求項９に記載の装置。
アプリケーションプログラムを記憶するための記憶媒体であって、
前記アプリケーションプログラムは、請求項１ないし５のいずれかに記載の声紋認証処理方法を実行するためのものである、
ことを特徴とする記憶媒体。
一つ又は複数のプロセッサと、
メモリと、
前記メモリに格納される一つ又は複数のモジュールと、を含み、
前記一つ又は複数のモジュールが前記一つ又は複数のプロセッサにより実行される場合、
性別を混合した深層ニューラルネットワークＤＮＮ声紋ベースラインシステムを利用して、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第１特徴ベクトルを抽出するステップと、
前記各音声断片の第１特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、
前記訓練集合における性別が異なる音声データに基づいて、男性ＤＮＮモデルと女性ＤＮＮモデルをそれぞれ訓練するステップと、
男性ＤＮＮモデルと女性ＤＮＮモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップと、
を実行する、
ことを特徴とする声紋認証処理設備。