JP2021173987A

JP2021173987A - 声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体

Info

Publication number: JP2021173987A
Application number: JP2020156101A
Authority: JP
Inventors: グオドゥツァイ; Guodu Cai; シンワン; Xin Wang; イーフェンワン; Yifeng Wang
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-04-22
Filing date: 2020-09-17
Publication date: 2021-11-01
Anticipated expiration: 2040-09-17
Also published as: KR102603466B1; JP7221258B2; CN111524521A; CN111524521B; US20210335368A1; EP3901948A1; KR20210131211A

Abstract

【課題】声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体の提供。【解決手段】声紋抽出モデル訓練方法であって、前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、前記方法。【選択図】図１

Description

（関連出願の相互参照）
本出願は、２０２０年４月２２日付の中国特許出願第２０２０１０３２４１１２８号に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。

本出願は、声紋処理技術分野に関し、特に声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体に関する。

音声技術の継続的な進歩に伴い、声紋認識は、生体認証技術として、種々のインテリジェント機器に適用されつつある。声紋推薦システム、声紋ロッキング機能、声紋支払い等はよく知られている。音声には、一般的にチャネル情報、環境雑音情報及び話者情報が含まれているが、声紋認識技術にとって、話者情報のみが必要である。しかしながら、これらの情報の完全な分離は困難であるため、現在の声紋認識システムは、チャネルによる影響が大きいである。異なる録音装置が異なるチャネル情報を取り入れているため、異なる装置の間での適用は、効果が低い。

話者情報（即ち、話者の声紋特徴）と種々の雑音情報を好適に分離するための方法が望まれている。

関連技術における課題を解決するために、本出願は、声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体を提供する。

本出願の実施例の第１態様によれば、声紋抽出モデル訓練方法を提供する。前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。

ここで、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含む。

ここで、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含む。

ここで、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、前記声紋特徴情報を処理することを含む。

本出願の第２態様によれば、声紋認識方法を提供する。前記方法は、上記声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、前記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む。

ここで、前記方法は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含む。

本出願の実施例の第３態様によれば、声紋抽出モデル訓練装置を提供する。前記装置は、ニューラルネットワークモデルに適用され、前記装置は、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であるように構成される音声取得モジュールと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。

ここで、前記損失関数取得モジュールは更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成される。

ここで、前記損失関数取得モジュールは更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成される。

ここで、前記損失関数取得モジュールは更に、
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成される。

本出願の実施例の第４態様によれば、声紋認識装置を提供する。前記装置は、
ユーザの音声を取得するように構成される、上記訓練された声紋抽出モデルが設けられた音声取得装置と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュールとを備える。

ここで、前記装置は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成される。

本出願の第５態様によれば、声紋認識装置を提供する。該装置は、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。

本出願の実施例の第６態様によれば、非一時的コンピュータ可読記憶媒体を提供する。前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、前記方法は、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。

本出願の第７態様によれば、声紋抽出モデル訓練装置を提供する。該装置は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを実現させるように構成される。

本出願の実施例の第８態様によれば、非一時的コンピュータ可読記憶媒体を提供する。前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、前記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む。
例えば、本願は以下の項目を提供する。
（項目１）
声紋抽出モデル訓練方法であって、上記声紋抽出モデルは、ニューラルネットワークモデルであり、上記方法は、
Ｔ個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記方法。
（項目２）
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
上記声紋特徴情報及びチャネル雑音情報に基づいて、上記差異損失関数を算出することとを含むことを特徴とする
上記項目に記載の方法。
（項目３）
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を上記ニューラルネットワークモデルのドメイン分類器に入力することと、
上記ドメイン分類器の分類結果と、上記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、上記類似損失関数を取得することとを含むことを特徴とする
上記項目いずれか一項に記載の方法。
（項目４）
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、上記声紋特徴情報を処理することを含むことを特徴とする
上記項目いずれか一項に記載の方法。
（項目５）
声紋認識方法であって、上記方法は、上記項目いずれか一項に記載の声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、上記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを含むことを特徴とする、上記方法。
（項目６）
上記方法は、
決定された上記声紋特徴と上記ユーザ情報との対応関係をメモリに記憶することを更に含み、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することは、
上記ユーザ情報に基づいて、上記メモリから、上記ユーザの声紋特徴を取得することを含むことを特徴とする
上記項目いずれか一項に記載の方法。
（項目７）
声紋抽出モデル訓練装置であって、ニューラルネットワークモデルに適用され、上記装置は、
Ｔ個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であるように構成される音声取得モジュールと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記装置。
（項目８）
上記損失関数取得モジュールは更に、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
上記声紋特徴情報及びチャネル雑音情報に基づいて、上記差異損失関数を算出するように構成されることを特徴とする
上記項目に記載の装置。
（項目９）
上記損失関数取得モジュールは更に、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を上記ニューラルネットワークモデルのドメイン分類器に入力し、
上記ドメイン分類器の分類結果と、上記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、上記類似損失関数を取得するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
（項目１０）
上記損失関数取得モジュールは更に、
勾配反転により、上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
（項目１１）
声紋認識装置であって、
ユーザの音声を取得するように構成される、上記項目いずれか一項に記載の訓練された声紋抽出モデルが設けられた音声取得装置と、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うように構成される認識モジュールとを備えることを特徴とする、上記装置。
（項目１２）
上記装置は、
決定された上記声紋特徴と上記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
上記声紋取得モジュールは更に、上記ユーザ情報に基づいて、上記メモリから、上記ユーザの声紋特徴を取得するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
（項目１３）
声紋認識装置であって、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
上記プロセッサは、上記実行可能な命令を実行する時、
Ｔ個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記装置。
（項目１４）
非一時的コンピュータ可読記憶媒体であって、上記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、上記方法は、
Ｔ個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、上記非一時的コンピュータ可読記憶媒体。
（項目１５）
声紋抽出モデル訓練装置であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
上記プロセッサは、上記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを実現させるように構成されることを特徴とする、上記装置。
（項目１６）
非一時的コンピュータ可読記憶媒体であって、上記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、上記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを含む、上記非一時的コンピュータ可読記憶媒体。
（摘要）
本出願は、声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体に関する。声紋抽出モデル訓練方法は、Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。該方法によれば、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。

本出願は、声紋認識方法を提供する。該方法において、音声取得装置により、ユーザの音声を取得する。前記音声取得装置には、訓練された声紋抽出モデルが設けられている。前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。前記ユーザに対して声紋認識の時に、ユーザ情報を取得し、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。続いて、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。本出願は、声紋抽出モデル訓練方法を更に提供する。該方法により訓練された声紋抽出モデルは、取得したユーザ音声からユーザの声紋特徴を抽出することができ、声紋特徴とチャネル雑音とを好適に分離させることを実現する。

本出願の声紋認識方法において、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。また、ユーザが使用する時、１台の装置で登録すれば、他の装置で利用可能になり、ユーザの使用体験を向上させる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。

一例示的な実施例による声紋抽出モデル訓練方法を示すフローチャートである。一例示的な実施例による声紋抽出モデルのネットワーク構造を示す概略図である。一例示的な実施例による声紋認識方法を示すフローチャートである。一例示的な実施例による声紋認識方法を示すフローチャートである。一例示的な実施例による声紋抽出モデル訓練装置を示すブロック図である。一例示的な実施例による声紋認識装置を示すブロック図である。一例示的な実施例による装置を示すブロック図である。一例示的な実施例による装置を示すブロック図である。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。

ここで、例示的な実施例を詳細に説明し、その例を図面に示す。以下の記述が図面に係る場合、別途にて示さない限り、異なる図面における同じ数字は、同じまたは類似する要素を示す。以下の例示的な実施例において記述する実施形態は、本発明の実施例に合致するすべての実施形態を代表するものではない。一方、それらは、添付された特許請求の範囲に詳細に記載されたような、本発明の一部の形態に合致する装置及び方法の例に過ぎない。

現在の声紋認識システムは、チャネルから大きな影響を受けている。異なる録音装置が異なるチャネル情報を取り入れているするため、異なる装置の間での適用は、効果が低い。

上記課題に対して、現在、異なるチャネル間のマッピング関係を学習することで、声紋マッピングモデルを確立し、１つの録音装置で得られた音声に対してい、話者特徴を抽出し、当該ユーザとバインディングし、異なる装置の間での声紋マッピングモデルに基づいて、他の装置における該音声の深度特徴を得て、即ち他の録音装置における該ユーザの話者特徴を得るという方法が利用されている。

しかしながら、該方法において、異なる装置の間のマッピング関係を別途１つずつ学習する必要がある。装置が多い時、多くの声紋マッピングモデルを確立する必要がある。インテリジェント機器がどんどん増加するにつれて、各装置に対して声紋モデルを確立する必要があり、また、常にメンテナンスする必要があり、作業負荷が極めて大きい。また、ユーザが利用する時、各装置に登録する必要があり、処理を繰り返して行い、また煩雑である。

図１は、一例示的な実施例による声紋抽出モデル訓練方法を示すフローチャートである。前記声紋抽出モデルは、ニューラルネットワークモデルである。図１に示すように、該方法は、下記ステップを含む。

ステップ１０１、Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数である。

ステップ１０２、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得する。

ステップ１０３、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定する。

ここで、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。

該方法における声紋抽出モデルは、深層ニューラルネットワークモデルのような、当業者に既知のニューラルネットワークである。該声紋抽出モデルは、装置と無関係の汎用のモデルである。該モデルにおいて、異なるチャネルからのデータに対して、共有スペースとプライベートスペースをそれぞれ確立する。共有スペースは、異なるチャネルに共有され、共有特徴、即ち話者の声紋特徴を学習するために用いられる。プライベートスペースは、各チャネルに使用されるように限定されるものであり、各装置のプライベート特徴、即ち、各装置により生じされるチャネル雑音を学習するために用いられる。従って、オーディオデータが共有スペースにおいて表されるものは、チャネルと無関係の話者声紋特徴であり、つまり、装置と無関係の話者声紋特徴である。

本出願で用いられる深層ニューラルネットワークモデルは図２に示すとおりである。その各モジュールに関する説明は、以下のとおりである。

Ｘ_{１，２，…，Ｔ}は、訓練セットである。ただし、Ｔは、装置の総数を表す。

Ｅ_ｃ（ｘ）は、共有スペースのエンコーダであり、異なる装置の共有特徴ｈ_ｃを抽出するためのものである。

Ｅ_ｐ（ｘ）は、プライベートスペースのエンコーダであり、異なる装置のプライベート特徴ｈ_ｐをそれぞれ抽出するためのものである。

Ｄ（ｈ）は、エンコーダにより抽出された隠れ特徴ｈを復号して再構築するためのデコーダである。

Ｇ（ｈ）は、エンコーダにより抽出された隠れ特徴ｈに対して予測し、予測タグ

を得るための予測器である。

は、入力Ｘをエンコードしてから復号して再構築することを表す。

は、入力Ｘをエンコードしてから予測することを表す。

はそれぞれ、共有スペースエンコーダ、プライベートスペースエンコーダにより装置のサブスペースをエンコードしてから得られた隠れ層特徴行列を表す。

Ｌ_{ｃｌａｓｓ}は、最終的な出力タグを予測するための分類損失関数である。

Ｌ_{ｒｅｃｏｎ}は、プライベートスペース特徴を学習対象に作用させることを確保するための再構築損失関数である。

Ｌ_{ｄｉｆｆｅｒｅｎｃｅ}は、共有スペースとプライベートスペースとの直交性を表すための差異損失関数である。

Ｌ_{ｓｉｍｉｌａｒｉｔｙ}は、ネットワークが異なる装置の類似性特徴を抽出できることを確保するための類似損失関数である。

当業者であれば、深層ニューラルネットワークモデルにより、差異損失関数及び類似損失関数以外の上記各モジュールを取得することができるため、ここで、詳細な説明を省略する。

本出願の深層ニューラルネットワークモデルの損失関数Ｌは、下記式で表されてもよい。

ただし、λ、α、β、γはそれぞれ、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の重みである。これらの重みは、深層ニューラルネットワークモデルの訓練過程において更新され、重みの更新により、各回の訓練の損失関数を取得する。ここで、重みの更新は、当業者により深層ニューラルネットワークモデルの訓練に基づいて実現されてもよく、ここで、詳細な説明を省略する。

本方法において、深層ニューラルネットワークモデルの損失関数に差異損失関す及び類似損失関数を引き入れることで、声紋特徴とチャネル雑音を好適に分離させる。

任意選択的な実施形態において、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含む。

差異損失関数Ｌ_{ｄｉｆｆｅｒｅｎｃｅ}は、下記式により算出される。

ただし、

は、Ｆ−ノルムの二乗を表す。当然ながら、他のタイプのノルムにより算出してもい。

はそれぞれ、ニューラルネットワークモデルの毎回の訓練により得られた声紋特徴行列及びチャネル雑音行列である。該差異損失関数により、声紋特徴とチャネル雑音との直交性を得ることができる。２つのパラメータ同士間の直交性は、２つのパラメータ同士が互いに依存しないことを表す。従って、声紋特徴とチャネル雑音との直交性が小さいほど、声紋特徴とチャネル雑音との分離が好適になる。

任意選択な実施形態において、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含む。

異なるサブスペース間が移行可能であることを確保するために、共有特徴

の分布が類似性を持つことを確保する必要がある。従って、声紋特徴情報を処理し、声紋特徴情報と所属チャネルとの関連性を除去し、続いて、ドメイン分類器に入力する。従って、ドメイン分類器は、入力がどのサブ空間からのものであるかを判別付かないようにし、これにより、ネットワークが異なる装置の類似性特徴を抽出することができる。つまり、入力される共通特徴である共有特徴を取得する。類似損失関数の定義は、以下のとおりである。

ただし、ｄは、ドメイン分類器が話者の音声における各センテンスを分類した結果（共有特徴を所属の装置、即ちチャネルの中に分類した結果）を表し、その値は、０又は１である。正確に分類した場合、その値は、１である。正確に分類しなかった場合、その値は、０である。

は、ニューラルネットワークモデルから出力された分類の正確率を表し、その値は、０〜１の間にある。

任意選択的な実施形態において、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、前記声紋特徴情報を処理することを含む。

勾配反転は、ネットワークの訓練過程において同期して行うことができる。声紋特徴情報を勾配反転してから、ネットワーク全体は、入力された音声がどの装置からのものであるかを判別することができなくなる。それによって、入力された音声の共有特徴を取得するという目的を達成する。

また、分類損失関数Ｌ_{ｃｌａｓｓ}は以下のとおりである。

ただし、Ｎは、取得された話者の音声に含まれたセンテンスの数を表す。

は、入力された実の音声を表し、

は、モデルにより予測された音声を表す。

再構築損失関数Ｌ_{ｒｅｃｏｎ}は、下記式により算出される。

ただし、

は、スケール不変平均二乗誤差損失関数を表し、下記式により算出される。

ただし、ｋは、入力ｘの次元数を表し、

は、要素が１であり、長さがｋである行列を表し、

は、Ｌ_２−ノルムを表す。勿論、他のタイプのノルムにより算出してもよい。

分類損失関数及び再構築損失関数は、いずれも従来方法により算出される。ここで、分類損失関数は、ｓｏｆｔｍａｘであってもよいし、Ａ−Ｓｏｆｔｍａｘ、Ｌ−Ｓｏｆｔｍａｘ、ＡＭ−Ｓｏｆｔｍａｘのような、ｓｏｆｔｍａｘの最適化した変形であってもよい。同様に、再構築損失関数は、スケール不変平均二乗誤差損失関数以外の他の関数であってもよく、ここでこれを制限しない。

本出願は、声紋認識方法を更に提供する。図３に示すように、該方法は、以下を含む。

ステップ３０１、訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得する。

ステップ３０２、前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。

ステップ３０３、前記ユーザに対して声紋認識の時に、ユーザ情報を取得する。

ステップ３０４、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。

ステップ３０５、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。

該声紋認識方法は、上記声紋抽出モデル訓練方法で訓練された声紋抽出モデルにより実現する。つまり、ステップ３０１における訓練された声紋抽出モデルは、上記声紋抽出モデル訓練方法で訓練された。上記声紋抽出モデルは、訓練された後に、声紋特徴とチャネル雑音を好適に分離させることができる。従って、ユーザの音声を訓練された声紋抽出モデルに入力してから、ユーザの声紋特徴を取得することができる。該声紋特徴とユーザ情報を一対一に対応付ける。続いて、上記訓練された声紋抽出モデルを異なる音声取得装置で共有する。ユーザが１つの装置に登録する時、ユーザ登録情報に基づいて、該情報に一対一に対応する声紋特徴を取得し、該声紋特徴により、ユーザに対して声紋認識を行う。

任意選択的な実施形態において、前記方法は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含む
ここのメモリは、クラウドメモリであってもよい。ユーザが他の装置で声紋認識を行う場合、クラウド側のユーザ情報とのマッチングを行い、該ユーザを認識し、ユーザの音声命令に基づいて、対応する操作を完了する。

以下、具体的な適用シナリオを参照しながら、本出願の具体的な実施例を説明する。該実施例において、声紋抽出モデルは、深層ニューラルネットワークモデルである。図４に示すように、該方法は下記ステップを含む。

ステップ４０１、５つの装置におけるユーザの音声データを取得し、これらの音声データに基づいて、訓練データ集合を構築する。

ステップ４０２、訓練データ集合を深層ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練する。

ステップ４０３、毎回の訓練の損失関数を取得する。

ステップ４０４、損失関数が収束する時、深層ニューラルネットワークモデルの訓練が完了したと判定する。

ステップ４０５、訓練された深層ニューラルネットワークモデルを複数の音声取得装置に設ける。

ステップ４０６、訓練された深層ニューラルネットワークモデルが設けられた音声取得装置により、ユーザの音声を取得する。

ステップ４０７、前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、ユーザとその声紋特徴との対応関係をクラウドメモリに記憶する。

ステップ４０８、前記ユーザに対して声紋認識の時に、ユーザ情報を取得する。

ステップ４０９、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。

ステップ４１０、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行い、更に、対応する操作を実行する。

本出願は、声紋抽出モデル訓練装置を更に提供する。前記装置は、ニューラルネットワークモデルに適用され、図５に示すように、前記装置は、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であるように構成される音声取得モジュール５０１と、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュール５０２と、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュール５０３と、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュール５０４とを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。

任意選択的な実施形態において、前記損失関数取得モジュール５０３は更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成される。

任意選択的な実施形態において、前記損失関数取得モジュール５０３は更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成される。

任意選択的な実施形態において、前記損失関数取得モジュール５０３は更に、
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成される。

本出願は、声紋認識装置を更に提供する。図６に示すように、前記装置は、
ユーザの音声を取得するように構成される、訓練された声紋抽出モデルが設けられた音声取得装置６０１と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュール６０２と、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュール６０３と、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュール６０４と、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュール６０５とを備える。

任意選択的な実施形態において、前記装置は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成される。

上記実施例における装置について、各モジュールによる操作実行の具体的な形態は、該方法に関わる実施例において詳しく説明したため、ここで詳しく説明しないようにする。

図７は、一例示的な実施例による声紋抽出モデル訓練装置７００を示すブロック図である。

図７を参照すると、装置７００は、処理ユニット７０２、メモリ７０４、電源ユニット７０６、マルチメディアユニット７０８、オーディオユニット７１０、入力／出力（Ｉ／Ｏ）インタフェース７１２、センサユニット７１４及び通信ユニット７１６のうちの１つ又は複数を備えてもよい。

処理ユニット７０２は一般的には、装置７００の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット７０２は、指令を実行するための１つ又は複数のプロセッサ７２０を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット７０２は、他のユニットとのインタラクションのために、１つ又は複数のモジュールを備えてもよい。例えば、処理ユニット７０２はマルチメディアモジュールを備えることで、マルチメディアユニット７０８と処理ユニット７０２とのインタラクションに寄与する。

メモリ７０４は、各種のデータを記憶することで装置７００における操作をサポートするように構成される。これらのデータの例として、装置７００上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ７０４は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、電気的に消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、読出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。

電源ユニット７０６は装置７００の様々なユニットに電力を提供する。電源ユニット７０６は、電源管理システム、１つ又は複数の電源、及び装置７００のための電力生成、管理、分配に関連する他のユニットを備えてもよい。

マルチメディアユニット７０８は、上記装置７００とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する１つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット７０８は、フロントカメラ及び／又はリアカメラを備える。装置７００が、撮影モード又は映像モードのような操作モードであれば、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。

オーディオユニット７１０は、オーディオ信号を出力／入力するように構成される。例えば、オーディオユニット７１０は、マイクロホン（ＭＩＣ）を備える。装置７００が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ７０４に記憶するか、又は通信ユニット７１６を経由して送信することができる。幾つかの実施例において、オーディオユニット７１０は、オーディオ信号を出力するように構成されるスピーカーを更に備える。

Ｉ／Ｏインタフェース７１２は、処理ユニット７０２と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。

センサユニット７１４は、１つ又は複数のセンサを備え、装置７００のために様々な状態の評価を行うように構成される。例えば、センサユニット７１４は、装置７００のオン／オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが装置７００のディスプレイ及びキーパッドである。センサユニット７１４は装置７００又は装置７００における１つのユニットの位置の変化、ユーザと装置８００との接触の有無、装置７００の方位又は加速／減速及び装置７００の温度の変動を検出することもできる。センサユニット７１４は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット７１４は、ＣＭＯＳ又はＣＣＤ画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット７１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。

通信ユニット７１６は、装置７００と他の機器との有線又は無線方式の通信に寄与するように構成される。装置７００は、ＷｉＦｉ、２Ｇ又は３Ｇ又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット７１６は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット７１６は、近接場通信（ＮＦＣ）モジュールを更に備えることで近距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術に基づいて実現される。

例示的な実施例において、装置７００は、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。

例示的な実施例において、命令を記憶したメモリ７０４のような非一時的コンピュータ可読記憶媒体を更に提供する。上記命令は、装置７００のプロセッサ７２０により実行され上記方法を完了する。例えば、前記非一時的コンピュータ可読記憶媒体はＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記憶装置等であってもよい。

非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が携帯端末のプロセッサにより実行される場合、携帯端末に声紋抽出モデル訓練方法を実行させ、前記方法は、Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。

図８は、一例示的な実施例による声紋抽出モデル訓練装置８００を示すブロック図である。例えば、装置８００は、サーバとして提供されてもよい。図８を参照すると、装置８００は、処理ユニットを８２２を含む。それは1つ又は複数のプロセッサと、メモリ８３２で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット８２２により実行される命令を記憶するためのものである。メモリ８３２に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する１つ又は1つ以上のモジュールを含んでもよい。なお、処理ユニット８２２は、命令を実行して、上記方法を実行するように構成される。該方法は、Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。

装置８００は、装置８００の電源管理を実行するように構成される電源ユニット８２６と、装置８００をネットワークに接続するように構成される有線又は無線ネットワークインタフェース８５０と、入力出力（Ｉ／Ｏ）インタフェース８５８を更に備えてもよい。装置８００は、Ｗｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標），Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭ又は類似したものような、メモリ８３２に記憶されているオペレーティングシステムを実行することができる。

当業者は明細書を検討し、ここで開示した発明を実践した後、本発明のその他の実施方案を容易に思いつくことができる。本発明の実施例は、本発明の実施例のいかなる変形、用途、又は適応的な変化を含むことを目的としており、いかなる変形、用途、又は適応的な変化は、本発明の一般原理に基づいて、且つ本発明の実施例において公開されていない本技術分野においての公知常識又は慣用技術手段を含む。明細書及び実施例は、例示的なものを開示しており、本発明の保護範囲と主旨は、特許請求の範囲に記述される。

本発明の実施例は、上記で説明した、また図面において示した精確な構造に限定されず、その範囲を逸脱しない前提のもとで種々の変更及び修正を行うことができることを理解すべきである。本発明の実施例の範囲は付された特許請求の範囲によってのみ限定される。

Claims

声紋抽出モデル訓練方法であって、前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、前記方法。
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含むことを特徴とする
請求項１に記載の方法。
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含むことを特徴とする
請求項１に記載の方法。
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、前記声紋特徴情報を処理することを含むことを特徴とする
請求項３に記載の方法。
声紋認識方法であって、前記方法は、請求項１−４のいずれか１項に記載の声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、前記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含むことを特徴とする、前記方法。
前記方法は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含むことを特徴とする
請求項５に記載の方法。
声紋抽出モデル訓練装置であって、ニューラルネットワークモデルに適用され、前記装置は、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であるように構成される音声取得モジュールと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、前記装置。
前記損失関数取得モジュールは更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成されることを特徴とする
請求項７に記載の装置。
前記損失関数取得モジュールは更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成されることを特徴とする
請求項７に記載の装置。
前記損失関数取得モジュールは更に、
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成されることを特徴とする
請求項９に記載の装置。
声紋認識装置であって、
ユーザの音声を取得するように構成される、請求項７−１０いずれか１項に記載の訓練された声紋抽出モデルが設けられた音声取得装置と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュールとを備えることを特徴とする、前記装置。
前記装置は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成されることを特徴とする
請求項１１に記載の装置。
声紋認識装置であって、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、前記装置。
非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、前記方法は、
Ｔ個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Ｔが２以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、前記非一時的コンピュータ可読記憶媒体。
声紋抽出モデル訓練装置であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを実現させるように構成されることを特徴とする、前記装置。
非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、前記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む、前記非一時的コンピュータ可読記憶媒体。