JP2022536190A

JP2022536190A - 声紋を認識する方法、装置、設備、および記憶媒体

Info

Publication number: JP2022536190A
Application number: JP2021574348A
Authority: JP
Inventors: ▲ユエ▼超郭; 軼軒 ▲チァオ▼; 義君唐; 俊王; 鵬高; 国▲トン▼ 謝
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-28
Filing date: 2020-12-24
Publication date: 2022-08-12
Anticipated expiration: 2040-12-24
Also published as: WO2021217979A1; US12002473B2; CN111524524B; JP7184236B2; CN111524524A; US20220254349A1

Abstract

本出願は、人工知能の分野に関し、声紋認識中に認識精度が低下するという問題を解決するための声紋認識方法を開示する。少なくとも１つのオブジェクトに対応する音声情報を含む被認識目標音声情報集合を取得することと、予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて目標特徴情報を最適化して第１の声紋認識結果を得ることと、目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得することと、チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて目標特徴ベクトルを最適化して第２の声紋認識結果を得ることと、第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定することと、を含む。本出願はさらに、ブロックチェーンの技術に関し、前記目標音声情報集合がブロックチェーンに記憶されている。【選択図】図１

Description

本出願は、２０２０年４月２８日に中国特許局に提出された、「声紋を認識する方法、装置、設備および記憶媒体」と題する中国特許出願第２０２０１０３５００８４．７号の優先権を主張し、その内容は全て参照により本出願に組み込まれている。

本出願は、人工知能の声紋認識の技術分野に関し、特に、声紋を認識する方法、装置、設備、および記憶媒体に関する。

声紋認識は、生体認識技術の一種であり、話者認識とも呼ばれ、話者認識と話者識別に分けられている。現在よく使われている声紋認識システムには、従来の特徴工学に基づくｉ－ｖｅｃｔｏｒ浅層ネットワークシステムとｘ－ｖｅｃｔｏｒ深層ネットワークシステム、および近年主流となっているエンドツーエンドのｄ－ｖｅｃｔｏｒ深層ネットワークシステムなどがある。これらのシステムは、基本には、話者の音声の長時間特徴を捉え、それを低次元のベクトル表現に符号化することで、認識問題を効果的に解決する。具体的には、話者の音声情報をネットワークにレイヤーごとに埋め込み、一定次元のベクトル（例えば５１２次元）を得て、次に異なる話者のベクトル表現間のコサイン類似度を計算し、さらに話者の識別や確認などの操作を行う。

本発明者は、ｇｏｏｇｌｅのＧＥ２Ｅシステムなど、現在のエンドツーエンドの声紋認識システムは、エンドツーエンドの声紋タスクの訓練と推論を完璧に実現することができるが、これらのシステムの損失関数は、音声のチャネル情報に含まれるノイズを処理しないため、深層ネットワークは、訓練中にチャネルの関連情報を知覚することができず、さらに訓練後に認識した声紋情報の精度が低下するということに気が付いた。

本出願は、声紋認識中で認識精度が低下するという問題を解決することを主な目的とする。

上記の目的を実現するために、本出願の第１の態様は、声紋認識方法を提供し、少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得することと、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得ることと、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得することと、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得ることと、前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定することと、を含む。

本出願の第２の態様は、声紋認識設備を提供し、メモリと、プロセッサと、前記メモリ上に記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令とを含み、前記プロセッサが前記コンピュータ可読命令を実行すると、以下のようなステップ、すなわち、少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得るステップと、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得るステップと、前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、を実現する。

本出願の第３の態様は、コンピュータ命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータ上で実行されると、コンピュータに、以下のようなステップ、すなわち、少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得るステップと、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得るステップと、前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、を実行させる。

本出願の第４の態様は、声紋認識装置を提供し、少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第１の取得モジュールと、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得るための第１の最適化モジュールと、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第２の取得モジュールと、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得るための第２の最適化モジュールと、前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュールと、を含む。

本出願が提供する技術的解決手段では、少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得し、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得し、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得て、そして、前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定する。本出願の実施例では、サーバは、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第１の声紋認識結果および第２の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。

本出願の実施例における声紋認識方法の一実施例の模式図である。本出願の実施例における声紋認識方法の別の実施例の模式図である。本出願の実施例における声紋認識装置の一実施例の模式図である。本出願の実施例における声紋認識装置の別の実施例の模式図である。本出願の実施例における声紋認識設備の一実施例の模式図である。

本出願の実施例は、声紋を認識する方法、装置、設備、および記憶媒体を提供し、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第１の声紋認識結果および第２の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。

本出願の明細書、特許請求の範囲、および上記の図面における「第１」、「第２」、「第３」、「第４」（存在する場合）などの用語は、特定の順序または優先順序を説明するためのものではなく、類似した対象物を区別するために使用されている。このように使用されるデータは、適切な場合には交換可能であり、これによって、本明細書に記載されている実施例は、本明細書に図示または記載されているものと異なる順序で実行することができることを理解すべきである。さらに、「含む」または「有する」という用語およびその変型は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含む過程、方法、システム、製品または設備は、明確に記載されたそれらのステップまたはユニットに限定される必要はなく、明確に記載されていない他のステップまたはユニットを含むか、それらの過程、方法、製品または設備に固有のステップまたはユニットを含んでもよい。

理解を容易にするために、本出願の実施例の具体的な流れを以下に説明し、図１を参照すると、本出願の実施例における声紋認識方法の一実施例は、以下の１０１、１０２、１０３、１０４および１０５を含む。

１０１、少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得する。

理解されるように、本出願の実行主体は、声紋認識装置だけでなく、端末やサーバであってもよく、ここでは具体的に限定されない。本出願の実施例は、サーバを実行主体として説明する。

サーバは、被認識目標音声情報集合を取得し、ここでの目標音声情報集合には少なくとも１つのオブジェクトに対応する音声情報が含まれ、１つのオブジェクトの音声情報は１つ以上であってもよく、ここでは目標オブジェクトの数および目標オブジェクトの音声情報の数を限定しない。また、ここでの音声情報は、前処理された後に得られる。上記の目標音声情報集合のプライバシーとセキュリティをさらに確保するために、上記の目標音声情報集合をブロックチェーンのノードに記憶してもよいことを強調する必要がある。

説明されるように、サーバは、１つのオブジェクトの音声信号を受信した後に、当該音声信号を前処理する必要があり、これにより、前処理された信号がよりよく分析され、最後にサーバにより正確な情報を認識させることができる。ここでの前処理とは、プリエンファシス処理、フレーム分割およびウィンドウ処理を指す。これらの操作の目的は、人間の発声器官自体や、音声信号を収集するための設備によるエイリアシング、高調波歪み、高周波など、に起因する音声信号の品質への影響を排除することである。後続の音声処理で得られる信号をできるだけ均質かつ滑らかにし、信号パラメータの抽出に高品質のパラメータを提供することで、音声処理の品質を向上させる。

１０２、予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて目標特徴情報を最適化して第１の声紋認識結果を得る。

サーバは、前処理された目標音声情報集合を得た後、予め設定されたアルゴリズムを用いて、目標音声情報集合から音声情報の目標特徴情報を抽出し、かつ抽出された目標特徴情報を第１の損失関数に基づいて最適化することで、第１の声紋認識結果を得る。

理解されるように、音声信号には非常に豊富な特徴パラメータが含まれており、異なる特徴ベクトルは異なる物理的・音響的な意味を表現する。サーバで抽出された特徴パラメータは、声紋認識システムの成否を左右する重要なものであり、適切な特徴パラメータを選択すれば、認識率を向上させることに役立つ。目標特徴情報を抽出するために、音声信号における認識に関係のない情報の影響を可能な限り除去または軽減し、後続の認識段階で被処理データ量を低減し、音声信号で運ばれる声紋認識オブジェクト情報を表現するための特徴パラメータを生成する必要がある。音声特徴の用途によって異なる特徴パラメータを抽出する必要があり、それによって、認識の精度を確保する。目標特徴情報を抽出した後、サーバは、声紋認識をより正確に行うために、当該目標特徴情報の類似度行列を計算し、対応するマッピング情報を得る必要があり、最後はマッピング情報と第１の損失関数を用いて損失を最適化し、第１の声紋認識結果を得る。

１０３、目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得する。

サーバは、目標音声チャネルの目標音声チャネル情報を取得し、ここでの目標音声チャネルは、目標音声情報集合を伝送するためのチャネルであり、伝送中にチャネルで一定の目標音声チャネル情報、すなわちノイズ情報が発生する。

理解されるように、声紋認識オブジェクトの音声情報は、チャネルでの伝送時に一定のノイズ、すなわちチャネルノイズの影響を受けてしまうが、チャネルノイズは、通信の効果を防げ、通信の信頼性を低下させ、声紋認識結果に大きな影響を与える可能性がある。そこで、本出願では、声紋認識中に音声情報を伝送するためのチャネルを処理することで、ノイズの干渉を低減する。

１０４、チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて目標特徴ベクトルを最適化して第２の声紋認識結果を得る。

サーバは、目標音声チャネルに含まれる目標音声チャネル情報を取得した後、つまり、目標音声チャネルのチャネルノイズ情報から目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて目標特徴ベクトルを最適化することで、第２の声紋認識結果を得る。

説明されるように、目標音声チャネル情報を最適化する際に、ほとんどの信号処理理論では、目標音声チャネル情報に含まれるチャネルノイズ情報を、音声チャネルの先験情報であるガウスホワイトノイズとしているため、ここで利用される第２の損失関数は最小平均二乗誤差（ｍｉｎｉｍｕｍｍｅａｎｓｑｕａｒｅｄｅｒｒｏｒ、ＭＭＳＥ）であり、ＭＭＳＥは、予測値と真値の誤差の二乗の期待値（平均値）を最小化することで、予測値を真値にできるだけ近づけ、両者の差をできるだけ小さくし、このアルゴリズムにより、ノイズ含有データでも予測モデルの精度が高く（最大確率モデル）、ｆ（ｘ）＝ｙに達するようにすることができる。本出願では、目標音声チャネル情報に含まれるチャネルノイズを最適化することで、深層ネットワークに音声ノイズ除去方法を学習させ、より精度の高い声紋認識情報、すなわち第２の声紋認識結果を得る。

１０５、第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定する。

サーバは、得られた第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定する。サーバは、２回最適化された声紋情報を融合して、より正確な声紋認識結果を得る。

サーバは、目標チャネル音声情報および声紋認識オブジェクトの音声情報を最適化すると、声紋情報を認識する際に発生するノイズが基本的に除去され、声紋認識オブジェクトの音声情報を明確に認識することができ、両者を融合すると、最後の声紋認識結果を得ることができる。

本出願の実施例では、サーバは、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第１の声紋認識結果および第２の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。

図２を参照すると、本出願の実施例における声紋認識方法の別の実施例は、２０１、２０２、２０３、２０４、２０５、２０６、および２０７を含む。

２０１、少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得する。

サーバは、被認識目標音声情報集合を取得し、ここでの目標音声情報集合には少なくとも１つのオブジェクトに対応する音声情報が含まれ、１つのオブジェクトの音声情報は１つ以上であってもよく、ここでは目標オブジェクトの数および目標オブジェクトの音声情報の数を限定しない。また、ここでの音声情報は、前処理された後に得られる。具体的には、
まず、サーバは、被処理音声情報を取得し、かつ予め設定された処理式を用いて被処理音声情報ｓ（ｎ）をプリエンファシス処理して、処理された音声情報ｓ’（ｎ）を得て、予め設定された処理式は

であり、ここで、αはプリエンファシス処理係数であり、ｓ（ｎ－１）は被処理音声情報のすぐ前の音声情報であり、その後、サーバは、処理された音声情報をフレーム分割処理し、最後に処理された音声情報の各フレームにウィンドウ処理を行い、最終的に目標音声情報集合を得て、ここでの目標音声情報集合は、少なくとも１つのオブジェクトに対応する音声情報を含み、１つのオブジェクトの音声情報は、１つ以上であり得る。

さらに、ここでのプリエンファシス処理とは、音声信号ｓ（ｎ）の平均パワースペクトルが声門励振と口鼻放射の影響を受けると、高域側が約８００Ｈｚ以上で６ｄＢ／ｏｃｔ（オクターブ）で減衰し、周波数が高いほど対応する成分が小さくなるため、音声信号ｓ（ｎ）を分析する前にその高域部分をブーストする必要があることを指す。プリエンファシス処理をデジタルフィルタで実現するのが一般的で、プリエンファシス処理ネットワークの出力と入力音声信号は、予め設定された処理式で、

のように表すことができ、ここで、αはプリエンファシス処理係数であり、通常０．９とされ、ｓ（ｎ－１）は被処理音声情報のすぐ前の音声情報であり、ｓ’（ｎ）は処理された音声情報である。音声信号に重み付けをすると、音声信号は時間的に変化する特性を持っているが、短い時間内ではその特性がほとんど変化しない、つまり比較的安定しているため、それを準定常状態プロセスとみなすことができ、つまり、音声信号は短時間の安定性を有する。したがって、あらゆる音声信号の分析と処理は、「短時間」に基づくべきであり、すなわち「短時間分析」を行い、音声信号をセグメント化してその特徴パラメータを分析し、ここで、各セグメントは一「フレーム」と呼ばれ、フレーム長は一般的に１０－３０ｍｓとされている。このように、音声信号全体に対して、各フレームの特徴パラメータで構成される特徴パラメータの時系列が分析される。サーバは、フレーム分割処理した後、さらに音声信号をウィンドウ処理する必要があり、ウィンドウ処理の目的は、サンプル付近の音声波形を強調し、それ以外の波形を減衰させることである。音声信号の各短いセグメントへの処理は、実際には、各短いセグメントに適用される変換または演算である。最もよく使われている窓関数は、矩形窓、ハミング窓とハニング窓の３つであり、本出願では、使用される窓関数を限定せず、実際の状況に応じて窓関数を選択することができる。

２０２、予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出する。

サーバは、目標音声情報集合を取得した後、目標音声情報集合から目標特徴情報を抽出する。具体的には、
サーバは、まず、予め設定されたアルゴリズムを用いて、目標音声情報集合に含まれる音声シーケンスを収集し、同時に音声シーケンスの振幅スペクトルを取得し、その後、フィルタによって音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得て、最後に、音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、最終的に目標特徴情報を得る。

ここでサーバは、周波数ケプストラム係数（ｍｅｌｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔ、ＭＦＣＣ）を用いて特徴情報を抽出し、Ｍｅｌ周波数ケプストラム係数を用いて、人間の耳による異なる周波数の音声の知覚をシミュレートし、音声信号から目標特徴情報を抽出する。Ｍｅｌ周波数は、人間の耳の聴覚特性に基づいて抽出され、Ｈｚ周波数と非線形に対応しており、人間の耳で音の周波数を識別するプロセスは、対数演算のようなものであり、例えば、Ｍｅｌ周波数領域では、人間のピッチを知覚する能力は線形であり、２つの音声セグメントのＭｅｌ周波数が２倍離れる場合、人間の知覚も２倍離れることになる。ＭＦＣＣは、このような関係を利用して、計算して得られたＨｚスペクトル特徴である。ＭＦＣＣパラメータは、人の聴覚特性に基づいて、人間の聴覚の臨界帯域効果を利用してＭｅｌスケール周波数域で抽出されたケプストラム特徴パラメータである。

例えば、サーバはまず、予め設定されたアルゴリズムを用いて、目標音声情報集合に含まれる音声シーケンス

を収集し、かつ音声シーケンスに対して高速フーリエ変換を行い、

ここで、Ｎはフレーム長であり、ｊは虚数であり、Ｘ[ｋ]はＮ点の一連の複素数であり、その後、サーバは、Ｘ[ｋ]に対してモジュロ演算を行い、音声シーケンスの振幅スペクトルを得て、次に、サーバは、三角フィルタバンクを構成し、かつ信号振幅スペクトルのフィルタリングを行った後の各三角形フィルタの出力を計算して、音声シーケンスのフィルタリング出力結果を得て、すなわち、

に対応するフィルタのフィルタ係数であり、ｏ（ｌ）、ｃ（ｌ）、ｈ（ｌ）は、実際の周波数軸上における対応するフィルタの下限周波数、中心周波数と上限周波数であり、ｆ_ｏ（ｌ）、ｆ_ｃ（ｌ），ｆ_ｈ（ｌ）は、それぞれ下限周波数フィルタ値、中心周波数フィルタ値、および上限周波数フィルタ値であり、ｆ_ｓはサンプリングレートであり、Ｌはフィルタの総数であり、ｌはフィルタの番号であり、Ｎはフレーム長であり、最後に、サーバは、全てのフィルタ出力に対して対数演算を行い、さらに離散コサイン変換を行って、目標特徴情報を得て、すなわち、

ここで、Ｑは、目標特徴情報の次数で、一般的には１３とし、Ｌはフィルタの総数であり、ｌはフィルタの番号であり、Ｎはフレーム長であり、Ｆ（Ｌ）は音声シーケンスのフィルタリング出力結果であり、こうして、目標特徴情報が得られる。

２０３、予め設定された式に基づいて目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得る。

サーバは、目標音声情報集合から目標特徴情報を抽出した後、予め設定された式に基づいて目標特徴情報の類似度行列を計算し、それによって、目標特徴情報のマッピング情報を得る。具体的には、
サーバは、取得された目標特徴情報を、低次元で目標特徴情報を表すベクトルである低次元ベクトルに変換し、サーバは、変換された低次元ベクトルと予め設定された式に基づいて目標特徴情報の類似度行列を計算し、ここでは複数の類似度行列があり、かつ類似度行列を計算するオブジェクトは同じであっても異なっていてもよく、最後に目標特徴情報のマッピング情報を得る。

サーバは、目標特徴情報の抽出を終了した後、ＬＳＴＭまたは他のニューラルネットワークによって目標特徴情報を低次元ベクトルに変換し、低次元ベクトルを用いて対応する目標特徴情報を表し、このように目標特徴情報を低次元ベクトルに変換することで、類似度行列の計算が容易になる。ここで、サーバは、目標特徴情報の類似度行列として、同一の声紋認識オブジェクトの異なる音声情報間の類似度行列、および異なる声紋認識オブジェクト間の類似度行列を計算し、複数の類似度行列を計算した後、各声紋認識オブジェクトの類似度行列によって損失を最適化することができる。

２０４、マッピング情報と第１の損失関数に基づいて目標音声情報集合の損失を最適化して、第１の声紋認識結果を得る。

サーバは、目標特徴情報のマッピング情報、および第１の損失関数に基づいて、目標音声情報集合の損失を最適化することで、第１の声紋認識結果を得る。

例えば、サーバは、３つの異なる声紋認識オブジェクトを取得し、各声紋認識オブジェクトには３つの異なる音声情報があり、音声情報をそれぞれ前処理して目標音声情報集合を得て、その後、予め設定された式を用いて目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得て、ここで、予め設定された式は以下に示され、

式において、Ｓ_ｊｉ，ｋは、声紋認識オブジェクトｋのｊ番目の声紋認識オブジェクトのｉ番目の音声情報の目標特徴情報の類似度行列を表し、ｋは声紋認識オブジェクトを表し、ｅ_ｊｉは、ｊ番目の声紋認識オブジェクトのｉ番目の音声情報、すなわち目標特徴情報で変換された低次元ベクトルを表し、ωおよびｂは、大量の訓練によって得られた変数を表し、Ｍは、声紋認識オブジェクトの数を表し、ｃ_ｊは、ｊ番目の声紋認識オブジェクトからｉ番目の音声情報を除いた残りの音声情報のセントロイド（平均値）を表し、その計算式は以下に示され、

式において、Ｍは声紋認識オブジェクトの数を表し、ｅ_ｊｍは、ｊ番目の声紋認識オブジェクトのｍ番目の音声情報を表し、最後に、サーバは、第１の損失関数とマッピング情報の最適化損失を計算し、ここでの第１の損失関数は以下に示され、

式において、Ｓ_ｊｉ，ｊは、声紋認識オブジェクトのｉ番目の音声情報と当該声紋認識オブジェクトの他の音声情報との間の類似度行列を表し、Ｓ_ｊｉ，ｋは、声紋認識オブジェクトの音声情報と他の声紋認識オブジェクトの音声情報との間の類似度行列を表し、Ｎは、各声紋認識オブジェクトの音声情報の数を表し、このように、サーバは第１の声紋認識結果を算出する。

２０５、目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得する。

２０６、チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて目標特徴ベクトルを最適化して第２の声紋認識結果を得る。

サーバは、目標音声チャネルに含まれる目標音声チャネル情報を取得した後、つまり、目標音声チャネル情報のチャネルノイズ情報から目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて目標特徴ベクトルを最適化することで、第２の声紋認識結果を得る。具体的には、
サーバは、目標音声チャネル情報に含まれる目標特徴ベクトルを抽出し、かつ複数の目標特徴ベクトルの平均値を計算し、その後、目標特徴ベクトルの平均値と第２の損失関数に基づいて目標音声チャネル情報の最小平均二乗誤差行列を計算し、さらに第２の声紋認識結果を得る。

説明されるように、目標チャネル音声情報を最適化するステップは、目標音声情報集合を最適化した後に行われており、目標音声情報集合の最適化ステップを始める時に、ネットワーク訓練の平均値が非常にランダムであり、目標チャネル音声情報を最適化する平均値アイテムを捉えることができないことで、目標音声情報集合を最適化する複数のステップを訓練してから、さらに目標チャネル音声情報を最適化するステップを実行する必要があり、この時の訓練ネットワークが安定し、チャネルノイズをよりよく捉えることができ、目標音声情報集合を最適化する具体的なステップ数は、実際の状況に応じて分析する必要がある。例えば、声紋認識を行う過程では、全ての訓練データが１０Ｗの訓練ステップを必要とする場合、６Ｗの訓練ステップを行った後に目標チャネル音声情報の最適化を開始することができる。

例えば、サーバは、目標音声チャネル情報に含まれる目標特徴ベクトルを抽出した後、目標特徴ベクトルを用いて目標特徴ベクトルの平均値を計算し、目標特徴ベクトルの平均値の計算式は以下に示され、

式において、ＬＣ_ｊ，ｔは、ｔステップでの目標特徴ベクトルの平均値であり、ｅ_ｊｉは、ｊ番目の声紋認識オブジェクトのｉ番目の音声情報、つまり目標特徴ベクトルを表し、βは重み付け係数を表し、Ｍは、各声紋認識オブジェクトの音声情報の数を表し、ＬＣ_j,t-1は、ｔ－１ステップでの目標特徴ベクトルの平均値を表し、サーバは、目標特徴ベクトルの平均値を計算した後、さらに目標音声チャネル情報の最小平均二乗誤差行列計算し、最小平均二乗誤差行列の計算式は以下に示され、

式において、ＭＭＳＥ_ｊは最小平均二乗誤差行列を表し、ＬＣ_ｊ，ｔは、ｔステップでの目標特徴ベクトルの平均値であり、Ｍは、各声紋認識オブジェクトの音声情報の数を表し、ｅ_ｊｉは、ｊ番目の声紋認識オブジェクトのｉ番目の音声情報を表し、μはスケーリング係数を表し、θはバイアス係数を表し、いずれも訓練して得られたもので、一般的にはμの初期値は１であり、θの初期値は０であり、第２の声紋認識結果が得られる。

２０７、第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定する。
サーバは、得られた第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定する。サーバは、２回最適化された声紋情報を融合して、より正確な声紋認識結果を得る。具体的には、
サーバは、第１の声紋認識結果および第２の声紋認識結果をそれぞれ取得し、その後、融合式を用いて第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定し、融合式は以下に示され、

式において、Ｌは声紋認識を融合した結果を表し、Ｌ_１は第１の声紋認識結果を表し、Ｌ_２は第２の声紋認識結果を表し、ｋは声紋認識オブジェクトを表し、Ｎは、各声紋認識オブジェクトの音声情報の数を表す。

サーバは、目標チャネル音声情報および声紋認識オブジェクトの音声情報を最適化すると、声紋情報を認識する際に発生するノイズが基本的に除去され、声紋認識オブジェクトの音声情報を明確に認識することができ、両者を融合すると、最後の声紋認識結果を得ることができる。
例えば、サーバは、第１の声紋認識結果と第２の声紋認識結果を得た後、融合式により両者を融合し、融合式は以下に示され、

式において、Ｌは、融合後の最後の声紋認識結果を表し、Ｌ_１は第１の声紋認識結果を表し、Ｌ_２は第２の声紋認識結果を表し、ｋは声紋認識オブジェクトを表し、Ｎは、各声紋認識オブジェクトの音声情報の数を表し、γは調整係数を表す。ステップ２０４とステップ２０６により、第１の声紋認識結果Ｌ_１と第２の声紋認識結果Ｌ_２の式が得られ、両者を融合式に代入すると、以下の式を得ることができ、

式において、Ｌ（ｅ_ｊｉ）は、ｊ番目の声紋認識オブジェクトのｉ番目の音声情報の声紋認識結果を表し、Ｓ_ｊｉ，ｊは、声紋認識オブジェクトのｉ番目の音声情報と当該声紋認識オブジェクトの他の音声情報との間の類似度行列を表し、Ｓ_ｊｉ，ｋは、声紋認識オブジェクトの音声情報と他の声紋認識オブジェクトの音声情報との間の類似度行列を表し、ここで、

式において、ｋは声紋認識オブジェクトを表し、ｅ_ｊｉは、ｊ番目の声紋認識オブジェクトのｉ番目の音声情報、すなわち目標特徴情報で変換された低次元ベクトルを表し、ωおよびｂは、大量の訓練によって得られた変数を表し、ｃ_ｊは、ｊ番目の声紋認識オブジェクトからｉ番目の音声情報を除いた残りの音声情報のセントロイド（平均値）を表し、その計算式は以下に示され、

式において、Ｍは声紋認識オブジェクトの数を表し、ｅ_ｊｍは、ｊ番目の声紋認識オブジェクトのｍ番目の音声情報を表し、Ｎは、各声紋認識オブジェクトの音声情報の数を表し、γは、ＭＭＳＥ_ｊ全体の損失関数部分の大きさを調整するための調整係数を表し、ＭＭＳＥ_ｊは最小平均二乗誤差行列を表し、かつ、ＭＭＳＥ_ｊの式は以下に示され、

式において、μはスケーリング係数を表し、θはバイアス係数を表し、Ｍは、各声紋認識オブジェクトの音声情報の数を表し、ｅ_ｊｉは、ｊ番目の声紋認識オブジェクトのｉ番目の音声情報を表し、ＬＣ_ｊ，ｔは、ｔステップでの目標特徴ベクトルの平均値であり、ここで、ＬＣ_ｊ，ｔの式は以下に示され、

式において、ｅ_ｊｉは、ｊ番目の声紋認識オブジェクトのｉ番目の音声情報、すなわち目標特徴ベクトルを表し、βは重み付け係数を表し、Ｍは各声紋認識オブジェクトの音声情報の数を表し、ＬＣ_{ｊ，ｔ－１}は、ｔステップでの目標特徴ベクトルの平均値であり、こうして、最後の声紋認識結果が得られ、音声情報がさらに最適化され、より正確な音声情報が認識される。

以上は、本出願の実施例における声紋認識方法を説明したが、以下は、本出願の実施例における声紋認識装置を説明し、図３を参照すると、本出願の実施例における声紋認識装置の一実施例は、
少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第１の取得モジュール３０１と、
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて目標特徴情報を最適化して第１の声紋認識結果を得るための第１の最適化モジュール３０２と、
目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第２の取得モジュール３０３と、
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて目標特徴ベクトルを最適化して第２の声紋認識結果を得るための第２の最適化モジュール３０４と、
第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュール３０５と、を含む。

本出願の実施例では、サーバは、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第１の声紋認識結果および第２の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。上記の目標音声情報集合のプライバシーとセキュリティをさらに確保するために、上記の目標音声情報集合をブロックチェーンのノードに記憶してもよいことを強調する必要がある。

図４を参照すると、本出願の実施例における声紋認識装置の別の実施例は、
少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第１の取得モジュール３０１と、
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて目標特徴情報を最適化して第１の声紋認識結果を得るための第１の最適化モジュール３０２と、
目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第２の取得モジュール３０３と、
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて目標特徴ベクトルを最適化して第２の声紋認識結果を得るための第２の最適化モジュール３０４と、
第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュール３０５と、を含む。

任意選択的に、第１の最適化モジュール３０２は、
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出するための抽出ユニット３０２１と、
予め設定された式に基づいて目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得るための計算ユニット３０２２と、
マッピング情報と第１の損失関数に基づいて目標音声情報集合の損失を最適化して、第１の声紋認識結果を得るための最適化ユニット３０２３と、を含む。

任意選択的に、抽出ユニット３０２１はさらに、具体的に、
予め設定されたアルゴリズムを用いて、目標音声情報集合に含まれる音声シーケンスを収集し、かつ音声シーケンスの振幅スペクトルを取得することと、
フィルタによって音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得ることと、
音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得ることと、に使用され得る。

任意選択的に、計算ユニット３０２２は、さらに、具体的に、
目標特徴情報を、低次元で目標特徴情報を表すベクトルである低次元ベクトルに変換することと、
低次元ベクトルと予め設定された式に基づいて、目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得ることと、に使用され得る。

任意選択的に、第２の最適化モジュール３０４はさらに、具体的に、
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ目標特徴ベクトルの平均値を計算することと、
目標特徴ベクトルの平均値と第２の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第２の声紋認識結果を得ることと、に使用され得る。

任意選択的に、融合モジュール３０５はさらに、具体的に、
第１の声紋認識結果および第２の声紋認識結果を取得することと、
融合式を用いて第１の声紋認識結果と第２の声紋認識結果を融合して、最後の声紋認識結果を決定することと、に使用され得、融合式は以下に示され、

式において、Ｌは、融合後の最後の声紋認識結果を表し、Ｌ_１は第１の声紋認識結果を表し、Ｌ_２は第２の声紋認識結果を表し、ｋは声紋認識オブジェクトを表し、Ｎは、各声紋認識オブジェクトの音声情報の数を表し、γは調整係数を表す。

任意選択的に、第１の取得モジュール３０１はさらに、具体的に、被処理音声情報を取得し、かつ予め設定された処理式により、被処理音声情報ｓ（ｎ）をプリエンファシス処理し、処理された音声情報ｓ’（ｎ）を得ることと、ここで、予め設定された処理式は

であり、αはプリエンファシス処理係数であり、ｓ（ｎ－１）は、被処理音声情報のすぐ前の音声情報であり、処理された音声情報に対してフレーム分割処理を行い、かつ処理された各フレームの音声情報に対してウィンドウ処理を行い、少なくとも１つのオブジェクトに対応する音声情報を含む目標音声情報集合を得ることと、に使用され得る。

上記の図３および図４では、モジュール機能体の観点から本出願の実施例における声紋認識装置を詳細に説明し、以下は、ハードウェア処理の観点から本出願の実施例における声紋認識設備を詳細に説明する。

図５は、本出願の実施例で提供される声紋認識設備の構造模式図であり、当該声紋認識設備５００は、構成や性能によって差異が比較的大きい可能性があり、１つ以上のプロセッサ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）５１０（例えば、１つ以上のプロセッサ）と、メモリ５２０と、アプリケーション５３３やデータ５３２を記憶する１つ以上の記憶媒体５３０（例えば、１つ以上の大容量記憶設備）を含み得る。ここで、メモリ５２０および記憶媒体５３０は、短期記憶または永続記憶のものであり得る。記憶媒体５３０に記憶されたプログラムは、１つ以上のモジュール（図示せず）を含み得、各モジュールは、声紋認識設備５００における一連の命令操作を含み得る。さらに、プロセッサ５１０は、記憶媒体５３０と通信して、記憶媒体５３０における一連の命令操作を声紋認識設備５００上で実行するように設定してもよい。

声紋認識設備５００はさらに、１つ以上の電源５４０と、１つ以上の有線または無線ネットワークインターフェース５５０と、１つ以上の入出力インターフェース５６０、および／または、ＷｉｎｄｏｗｓＳｅｒｖｅ、ＭａｃＯＳＸ、Ｕｎｉｘ、Ｌｉｎｕｘ、ＦｒｅｅＢＳＤなどの１つ以上のオペレーティングシステム５３１を含み得る。当業者であれば、図５に示す声紋認識設備の構造は、声紋認識設備を限定するものではなく、図示したものよりも多くのまたは少ない部品を含んでもよいし、特定の部品を組み合わせてもよいし、部品の異なる配置であってもよいことを理解できるであろう。

本出願はさらに、声紋認識設備を提供し、命令が記憶されたメモリと、少なくとも１つのプロセッサとを含み、前記メモリと前記少なくとも１つのプロセッサは、回線によって相互に接続されており、前記少なくとも１つのプロセッサが前記メモリ内の前記命令を呼び出して、前記声紋認識設備に、上記の声紋認識方法におけるステップを実行させる。

本出願はさらに、コンピュータ可読記憶媒体を提供し、当該コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってもよいし、揮発性コンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体にはコンピュータ命令が記憶されており、前記コンピュータ命令がコンピュータ上で実行されると、
少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得るステップと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得るステップと、
前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、をコンピュータに実行させる。

当業者であれば分かるように、説明の便宜上、上述したシステム、装置、およびユニットの具体的な作業プロセスは、上述した方法実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。

本出願でいうブロックチェーンは、分散型データストレージ、ピアツーピア伝送、コンセンサスメカニズム、暗号アルゴリズムなどのコンピュータ技術の新しい応用モデルである。ブロックチェーン（Ｂｌｏｃｋｃｈａｉｎ）は、実質的には分散型データベースであり、暗号化方法で関連付けて生成されたデータブロックであり、各データブロックには、１回のネットワークトランザクションに関する情報が含まれており、その情報の有効性（偽造防止）を検証し、次のブロックを生成するために使用される。ブロックチェーンは、基礎となるブロックチェーンプラットフォーム、プラットフォーム製品サービス層、およびアプリケーションサービス層などを含み得る。前記統合ユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用される場合には、コンピュータ可読取記憶媒体に記憶されてもよい。この理解に基づいて、本出願の技術的解決手段は、本質的にまたは従来技術に寄与するその一部、または当該技術的解決手段の全部または一部が、ソフトウェア製品の形で具現化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ設備（パーソナルコンピュータ、サーバやネットワーク設備など）に、本出願の各実施例に記載の方法のステップの全部または一部を実行させるためのいくつかの命令を含む。前述の記憶媒体には、ＵＳＢメモリ、モバイルハードディスク、読み取り専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、ディスクまたは光ディスクなど、プログラムコードを記憶できる媒介が含まれている。

前述のように、上記の実施例は、本出願の技術的解決手段を説明するためのものに過ぎず、それらを限定するものではなく、上記の実施例を参照して本出願を詳細に説明したが、当業者であれば分かるように、上記の各実施例に記載された技術的解決手段を修正したり、その技術的特徴の一部を同等のものに置き換えたりすることは可能であり、そのような修正または置き換えは、対応する技術的解決手段の本質を本出願の各実施例の技術的解決手段の精神と範囲から逸脱させるものではない。

Claims

少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得することと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得ることと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得することと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得ることと、
前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定することと、を含む声紋認識方法。
前記目標音声情報集合がブロックチェーンに記憶され、上述した予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得ることは、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出することと、
予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることと、
前記マッピング情報と第１の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第１の声紋認識結果を得ることとを、含む請求項１に記載の声紋認識方法。
上述した予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出することは、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得することと、
フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得ることと、
前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得ることと、を含む請求項２に記載の声紋認識方法。
上述した予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることは、
目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換することと、
前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることと、を含む請求項２に記載の声紋認識方法。
上述した、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得ることは、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算することと、
前記目標特徴ベクトルの平均値と第２の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第２の声紋認識結果を得ることと、を含む請求項１に記載の声紋認識方法。
上述した、前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定することは、
前記第１の声紋認識結果および前記第２の声紋認識結果を取得することと、
融合式を用いて前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定することとを含み、融合式は以下に示され、

式において、Ｌは、融合後の最後の声紋認識結果を表し、Ｌ_１は第１の声紋認識結果を表し、Ｌ_２は第２の声紋認識結果を表し、ｋは声紋認識オブジェクトを表し、Ｎは、各声紋認識オブジェクトの音声情報の数を表し、γは調整係数を表す、
請求項１に記載の声紋認識方法。
上述した、少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得することは、
被処理音声情報を取得し、かつ予め設定された処理式により、前記被処理音声情報ｓ（ｎ）をプリエンファシス処理し、処理された音声情報ｓ’（ｎ）を得ることと、ここで、前記予め設定された処理式は

であり、αはプリエンファシス処理係数であり、ｓ（ｎ－１）は、被処理音声情報のすぐ前の音声情報であり、
前記処理された音声情報に対してフレーム分割処理を行い、かつ前記処理された各フレームの音声情報に対してウィンドウ処理を行い、少なくとも１つのオブジェクトに対応する音声情報を含む目標音声情報集合を得ることと、を含む請求項１～６のいずれか１項に記載の声紋認識方法。
メモリと、プロセッサと、前記メモリ上に記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令とを含み、前記プロセッサが前記コンピュータ可読命令を実行すると、
少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得るステップと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得るステップと、
前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、を実現する声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出するステップと、
予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、
前記マッピング情報と第１の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第１の声紋認識結果を得るステップと、を実現する請求項８に記載の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得するステップと、
フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得るステップと、
前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得るステップと、を実現する請求項９に記載の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換するステップと、
前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、を実現する請求項９に記載の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算するステップと、
前記目標特徴ベクトルの平均値と第２の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第２の声紋認識結果を得るステップと、を実現する請求項８に記載の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
前記第１の声紋認識結果および前記第２の声紋認識結果を取得するステップと、
融合式を用いて前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定するステップとを実現し、融合式は以下に示され、

式において、Ｌは、融合後の最後の声紋認識結果を表し、Ｌ_１は第１の声紋認識結果を表し、Ｌ_２は第２の声紋認識結果を表し、ｋは声紋認識オブジェクトを表し、Ｎは、各声紋認識オブジェクトの音声情報の数を表し、γは調整係数を表す、
請求項８に記載の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、被処理音声情報を取得し、かつ予め設定された処理式により、前記被処理音声情報ｓ（ｎ）をプリエンファシス処理し、処理された音声情報ｓ’（ｎ）を得るステップと、ここで、前記予め設定された処理式は

であり、αはプリエンファシス処理係数であり、ｓ（ｎ－１）は、被処理音声情報のすぐ前の音声情報であり、前記処理された音声情報に対してフレーム分割処理を行い、かつ前記処理された各フレームの音声情報に対してウィンドウ処理を行い、少なくとも１つのオブジェクトに対応する音声情報を含む目標音声情報集合を得るステップと、を実現する請求項８～１３のいずれか１項に記載の声紋認識設備。
コンピュータ命令が記憶され、前記コンピュータ命令がコンピュータ上で実行されると、
少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得るステップと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得るステップと、
前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、をコンピュータに実行させるコンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、さらに、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出するステップと、
予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、
前記マッピング情報と第１の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第１の声紋認識結果を得るステップと、をコンピュータに実行させる請求項１５に記載のコンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、さらに、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得するステップと、
フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得るステップと、
前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得るステップと、をコンピュータに実行させる請求項１６に記載のコンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、さらに、
目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換するステップと、
前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、をコンピュータに実行させる請求項１６に記載のコンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、さらに、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算するステップと、
前記目標特徴ベクトルの平均値と第２の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第２の声紋認識結果を得るステップと、をコンピュータに実行させる請求項１５に記載のコンピュータ可読記憶媒体。
少なくとも１つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第１の取得モジュールと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第１の損失関数に基づいて前記目標特徴情報を最適化して第１の声紋認識結果を得るための第１の最適化モジュールと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第２の取得モジュールと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第２の損失関数に基づいて前記目標特徴ベクトルを最適化して第２の声紋認識結果を得るための第２の最適化モジュールと、
前記第１の声紋認識結果と前記第２の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュールと、を含む声紋認識装置。