JP2022536190A - 声紋を認識する方法、装置、設備、および記憶媒体 - Google Patents

声紋を認識する方法、装置、設備、および記憶媒体 Download PDF

Info

Publication number
JP2022536190A
JP2022536190A JP2021574348A JP2021574348A JP2022536190A JP 2022536190 A JP2022536190 A JP 2022536190A JP 2021574348 A JP2021574348 A JP 2021574348A JP 2021574348 A JP2021574348 A JP 2021574348A JP 2022536190 A JP2022536190 A JP 2022536190A
Authority
JP
Japan
Prior art keywords
information
voiceprint recognition
target
recognition result
target feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021574348A
Other languages
English (en)
Other versions
JP7184236B2 (ja
Inventor
▲ユエ▼超 郭
軼軒 ▲チァオ▼
義君 唐
俊 王
鵬 高
国▲トン▼ 謝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2022536190A publication Critical patent/JP2022536190A/ja
Application granted granted Critical
Publication of JP7184236B2 publication Critical patent/JP7184236B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本出願は、人工知能の分野に関し、声紋認識中に認識精度が低下するという問題を解決するための声紋認識方法を開示する。少なくとも1つのオブジェクトに対応する音声情報を含む被認識目標音声情報集合を取得することと、予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて目標特徴情報を最適化して第1の声紋認識結果を得ることと、目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得することと、チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化して第2の声紋認識結果を得ることと、第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定することと、を含む。本出願はさらに、ブロックチェーンの技術に関し、前記目標音声情報集合がブロックチェーンに記憶されている。【選択図】図1

Description

本出願は、2020年4月28日に中国特許局に提出された、「声紋を認識する方法、装置、設備および記憶媒体」と題する中国特許出願第202010350084.7号の優先権を主張し、その内容は全て参照により本出願に組み込まれている。
本出願は、人工知能の声紋認識の技術分野に関し、特に、声紋を認識する方法、装置、設備、および記憶媒体に関する。
声紋認識は、生体認識技術の一種であり、話者認識とも呼ばれ、話者認識と話者識別に分けられている。現在よく使われている声紋認識システムには、従来の特徴工学に基づくi-vector浅層ネットワークシステムとx-vector深層ネットワークシステム、および近年主流となっているエンドツーエンドのd-vector深層ネットワークシステムなどがある。これらのシステムは、基本には、話者の音声の長時間特徴を捉え、それを低次元のベクトル表現に符号化することで、認識問題を効果的に解決する。具体的には、話者の音声情報をネットワークにレイヤーごとに埋め込み、一定次元のベクトル(例えば512次元)を得て、次に異なる話者のベクトル表現間のコサイン類似度を計算し、さらに話者の識別や確認などの操作を行う。
本発明者は、googleのGE2Eシステムなど、現在のエンドツーエンドの声紋認識システムは、エンドツーエンドの声紋タスクの訓練と推論を完璧に実現することができるが、これらのシステムの損失関数は、音声のチャネル情報に含まれるノイズを処理しないため、深層ネットワークは、訓練中にチャネルの関連情報を知覚することができず、さらに訓練後に認識した声紋情報の精度が低下するということに気が付いた。
本出願は、声紋認識中で認識精度が低下するという問題を解決することを主な目的とする。
上記の目的を実現するために、本出願の第1の態様は、声紋認識方法を提供し、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得することと、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得ることと、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得することと、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得ることと、前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定することと、を含む。
本出願の第2の態様は、声紋認識設備を提供し、メモリと、プロセッサと、前記メモリ上に記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令とを含み、前記プロセッサが前記コンピュータ可読命令を実行すると、以下のようなステップ、すなわち、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るステップと、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るステップと、前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、を実現する。
本出願の第3の態様は、コンピュータ命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータ上で実行されると、コンピュータに、以下のようなステップ、すなわち、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るステップと、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るステップと、前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、を実行させる。
本出願の第4の態様は、声紋認識装置を提供し、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第1の取得モジュールと、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るための第1の最適化モジュールと、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第2の取得モジュールと、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るための第2の最適化モジュールと、前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュールと、を含む。
本出願が提供する技術的解決手段では、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得し、予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得、前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得し、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得て、そして、前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定する。本出願の実施例では、サーバは、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第1の声紋認識結果および第2の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。
本出願の実施例における声紋認識方法の一実施例の模式図である。 本出願の実施例における声紋認識方法の別の実施例の模式図である。 本出願の実施例における声紋認識装置の一実施例の模式図である。 本出願の実施例における声紋認識装置の別の実施例の模式図である。 本出願の実施例における声紋認識設備の一実施例の模式図である。
本出願の実施例は、声紋を認識する方法、装置、設備、および記憶媒体を提供し、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第1の声紋認識結果および第2の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。
本出願の明細書、特許請求の範囲、および上記の図面における「第1」、「第2」、「第3」、「第4」(存在する場合)などの用語は、特定の順序または優先順序を説明するためのものではなく、類似した対象物を区別するために使用されている。このように使用されるデータは、適切な場合には交換可能であり、これによって、本明細書に記載されている実施例は、本明細書に図示または記載されているものと異なる順序で実行することができることを理解すべきである。さらに、「含む」または「有する」という用語およびその変型は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含む過程、方法、システム、製品または設備は、明確に記載されたそれらのステップまたはユニットに限定される必要はなく、明確に記載されていない他のステップまたはユニットを含むか、それらの過程、方法、製品または設備に固有のステップまたはユニットを含んでもよい。
理解を容易にするために、本出願の実施例の具体的な流れを以下に説明し、図1を参照すると、本出願の実施例における声紋認識方法の一実施例は、以下の101、102、103、104および105を含む。
101、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得する。
理解されるように、本出願の実行主体は、声紋認識装置だけでなく、端末やサーバであってもよく、ここでは具体的に限定されない。本出願の実施例は、サーバを実行主体として説明する。
サーバは、被認識目標音声情報集合を取得し、ここでの目標音声情報集合には少なくとも1つのオブジェクトに対応する音声情報が含まれ、1つのオブジェクトの音声情報は1つ以上であってもよく、ここでは目標オブジェクトの数および目標オブジェクトの音声情報の数を限定しない。また、ここでの音声情報は、前処理された後に得られる。上記の目標音声情報集合のプライバシーとセキュリティをさらに確保するために、上記の目標音声情報集合をブロックチェーンのノードに記憶してもよいことを強調する必要がある。
説明されるように、サーバは、1つのオブジェクトの音声信号を受信した後に、当該音声信号を前処理する必要があり、これにより、前処理された信号がよりよく分析され、最後にサーバにより正確な情報を認識させることができる。ここでの前処理とは、プリエンファシス処理、フレーム分割およびウィンドウ処理を指す。これらの操作の目的は、人間の発声器官自体や、音声信号を収集するための設備によるエイリアシング、高調波歪み、高周波など、に起因する音声信号の品質への影響を排除することである。後続の音声処理で得られる信号をできるだけ均質かつ滑らかにし、信号パラメータの抽出に高品質のパラメータを提供することで、音声処理の品質を向上させる。
102、予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて目標特徴情報を最適化して第1の声紋認識結果を得る。
サーバは、前処理された目標音声情報集合を得た後、予め設定されたアルゴリズムを用いて、目標音声情報集合から音声情報の目標特徴情報を抽出し、かつ抽出された目標特徴情報を第1の損失関数に基づいて最適化することで、第1の声紋認識結果を得る。
理解されるように、音声信号には非常に豊富な特徴パラメータが含まれており、異なる特徴ベクトルは異なる物理的・音響的な意味を表現する。サーバで抽出された特徴パラメータは、声紋認識システムの成否を左右する重要なものであり、適切な特徴パラメータを選択すれば、認識率を向上させることに役立つ。目標特徴情報を抽出するために、音声信号における認識に関係のない情報の影響を可能な限り除去または軽減し、後続の認識段階で被処理データ量を低減し、音声信号で運ばれる声紋認識オブジェクト情報を表現するための特徴パラメータを生成する必要がある。音声特徴の用途によって異なる特徴パラメータを抽出する必要があり、それによって、認識の精度を確保する。目標特徴情報を抽出した後、サーバは、声紋認識をより正確に行うために、当該目標特徴情報の類似度行列を計算し、対応するマッピング情報を得る必要があり、最後はマッピング情報と第1の損失関数を用いて損失を最適化し、第1の声紋認識結果を得る。
103、目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得する。
サーバは、目標音声チャネルの目標音声チャネル情報を取得し、ここでの目標音声チャネルは、目標音声情報集合を伝送するためのチャネルであり、伝送中にチャネルで一定の目標音声チャネル情報、すなわちノイズ情報が発生する。
理解されるように、声紋認識オブジェクトの音声情報は、チャネルでの伝送時に一定のノイズ、すなわちチャネルノイズの影響を受けてしまうが、チャネルノイズは、通信の効果を防げ、通信の信頼性を低下させ、声紋認識結果に大きな影響を与える可能性がある。そこで、本出願では、声紋認識中に音声情報を伝送するためのチャネルを処理することで、ノイズの干渉を低減する。
104、チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化して第2の声紋認識結果を得る。
サーバは、目標音声チャネルに含まれる目標音声チャネル情報を取得した後、つまり、目標音声チャネルのチャネルノイズ情報から目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化することで、第2の声紋認識結果を得る。
説明されるように、目標音声チャネル情報を最適化する際に、ほとんどの信号処理理論では、目標音声チャネル情報に含まれるチャネルノイズ情報を、音声チャネルの先験情報であるガウスホワイトノイズとしているため、ここで利用される第2の損失関数は最小平均二乗誤差(minimum mean squared error、MMSE)であり、MMSEは、予測値と真値の誤差の二乗の期待値(平均値)を最小化することで、予測値を真値にできるだけ近づけ、両者の差をできるだけ小さくし、このアルゴリズムにより、ノイズ含有データでも予測モデルの精度が高く(最大確率モデル)、f(x)=yに達するようにすることができる。本出願では、目標音声チャネル情報に含まれるチャネルノイズを最適化することで、深層ネットワークに音声ノイズ除去方法を学習させ、より精度の高い声紋認識情報、すなわち第2の声紋認識結果を得る。
105、第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定する。
サーバは、得られた第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定する。サーバは、2回最適化された声紋情報を融合して、より正確な声紋認識結果を得る。
サーバは、目標チャネル音声情報および声紋認識オブジェクトの音声情報を最適化すると、声紋情報を認識する際に発生するノイズが基本的に除去され、声紋認識オブジェクトの音声情報を明確に認識することができ、両者を融合すると、最後の声紋認識結果を得ることができる。
本出願の実施例では、サーバは、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第1の声紋認識結果および第2の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。
図2を参照すると、本出願の実施例における声紋認識方法の別の実施例は、201、202、203、204、205、206、および207を含む。
201、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得する。
サーバは、被認識目標音声情報集合を取得し、ここでの目標音声情報集合には少なくとも1つのオブジェクトに対応する音声情報が含まれ、1つのオブジェクトの音声情報は1つ以上であってもよく、ここでは目標オブジェクトの数および目標オブジェクトの音声情報の数を限定しない。また、ここでの音声情報は、前処理された後に得られる。具体的には、
まず、サーバは、被処理音声情報を取得し、かつ予め設定された処理式を用いて被処理音声情報s(n)をプリエンファシス処理して、処理された音声情報s’(n)を得て、予め設定された処理式は
Figure 2022536190000002
であり、ここで、αはプリエンファシス処理係数であり、s(n-1)は被処理音声情報のすぐ前の音声情報であり、その後、サーバは、処理された音声情報をフレーム分割処理し、最後に処理された音声情報の各フレームにウィンドウ処理を行い、最終的に目標音声情報集合を得て、ここでの目標音声情報集合は、少なくとも1つのオブジェクトに対応する音声情報を含み、1つのオブジェクトの音声情報は、1つ以上であり得る。
説明されるように、サーバは、1つのオブジェクトの音声信号を受信した後に、当該音声信号を前処理する必要があり、これにより、前処理された信号がよりよく分析され、最後にサーバにより正確な情報を認識させることができる。ここでの前処理とは、プリエンファシス処理、フレーム分割およびウィンドウ処理を指す。これらの操作の目的は、人間の発声器官自体や、音声信号を収集するための設備によるエイリアシング、高調波歪み、高周波など、に起因する音声信号の品質への影響を排除することである。後続の音声処理で得られる信号をできるだけ均質かつ滑らかにし、信号パラメータの抽出に高品質のパラメータを提供することで、音声処理の品質を向上させる。
さらに、ここでのプリエンファシス処理とは、音声信号s(n)の平均パワースペクトルが声門励振と口鼻放射の影響を受けると、高域側が約800Hz以上で6dB/oct(オクターブ)で減衰し、周波数が高いほど対応する成分が小さくなるため、音声信号s(n)を分析する前にその高域部分をブーストする必要があることを指す。プリエンファシス処理をデジタルフィルタで実現するのが一般的で、プリエンファシス処理ネットワークの出力と入力音声信号は、予め設定された処理式で、
Figure 2022536190000003
のように表すことができ、ここで、αはプリエンファシス処理係数であり、通常0.9とされ、s(n-1)は被処理音声情報のすぐ前の音声情報であり、s’(n)は処理された音声情報である。音声信号に重み付けをすると、音声信号は時間的に変化する特性を持っているが、短い時間内ではその特性がほとんど変化しない、つまり比較的安定しているため、それを準定常状態プロセスとみなすことができ、つまり、音声信号は短時間の安定性を有する。したがって、あらゆる音声信号の分析と処理は、「短時間」に基づくべきであり、すなわち「短時間分析」を行い、音声信号をセグメント化してその特徴パラメータを分析し、ここで、各セグメントは一「フレーム」と呼ばれ、フレーム長は一般的に10-30msとされている。このように、音声信号全体に対して、各フレームの特徴パラメータで構成される特徴パラメータの時系列が分析される。サーバは、フレーム分割処理した後、さらに音声信号をウィンドウ処理する必要があり、ウィンドウ処理の目的は、サンプル付近の音声波形を強調し、それ以外の波形を減衰させることである。音声信号の各短いセグメントへの処理は、実際には、各短いセグメントに適用される変換または演算である。最もよく使われている窓関数は、矩形窓、ハミング窓とハニング窓の3つであり、本出願では、使用される窓関数を限定せず、実際の状況に応じて窓関数を選択することができる。
202、予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出する。
サーバは、目標音声情報集合を取得した後、目標音声情報集合から目標特徴情報を抽出する。具体的には、
サーバは、まず、予め設定されたアルゴリズムを用いて、目標音声情報集合に含まれる音声シーケンスを収集し、同時に音声シーケンスの振幅スペクトルを取得し、その後、フィルタによって音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得て、最後に、音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、最終的に目標特徴情報を得る。
ここでサーバは、周波数ケプストラム係数(mel frequency cepstrum coefficient、MFCC)を用いて特徴情報を抽出し、Mel周波数ケプストラム係数を用いて、人間の耳による異なる周波数の音声の知覚をシミュレートし、音声信号から目標特徴情報を抽出する。Mel周波数は、人間の耳の聴覚特性に基づいて抽出され、Hz周波数と非線形に対応しており、人間の耳で音の周波数を識別するプロセスは、対数演算のようなものであり、例えば、Mel周波数領域では、人間のピッチを知覚する能力は線形であり、2つの音声セグメントのMel周波数が2倍離れる場合、人間の知覚も2倍離れることになる。MFCCは、このような関係を利用して、計算して得られたHzスペクトル特徴である。MFCCパラメータは、人の聴覚特性に基づいて、人間の聴覚の臨界帯域効果を利用してMelスケール周波数域で抽出されたケプストラム特徴パラメータである。
例えば、サーバはまず、予め設定されたアルゴリズムを用いて、目標音声情報集合に含まれる音声シーケンス
Figure 2022536190000004
を収集し、かつ音声シーケンスに対して高速フーリエ変換を行い、
Figure 2022536190000005
ここで、Nはフレーム長であり、jは虚数であり、X[k]はN点の一連の複素数であり、その後、サーバは、X[k]に対してモジュロ演算を行い、音声シーケンスの振幅スペクトルを得て、次に、サーバは、三角フィルタバンクを構成し、かつ信号振幅スペクトルのフィルタリングを行った後の各三角形フィルタの出力を計算して、音声シーケンスのフィルタリング出力結果を得て、すなわち、
Figure 2022536190000006
に対応するフィルタのフィルタ係数であり、o(l)、c(l)、h(l)は、実際の周波数軸上における対応するフィルタの下限周波数、中心周波数と上限周波数であり、f(l)、f(l),f(l)は、それぞれ下限周波数フィルタ値、中心周波数フィルタ値、および上限周波数フィルタ値であり、fはサンプリングレートであり、Lはフィルタの総数であり、lはフィルタの番号であり、Nはフレーム長であり、最後に、サーバは、全てのフィルタ出力に対して対数演算を行い、さらに離散コサイン変換を行って、目標特徴情報を得て、すなわち、
Figure 2022536190000007
ここで、Qは、目標特徴情報の次数で、一般的には13とし、Lはフィルタの総数であり、lはフィルタの番号であり、Nはフレーム長であり、F(L)は音声シーケンスのフィルタリング出力結果であり、こうして、目標特徴情報が得られる。
203、予め設定された式に基づいて目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得る。
サーバは、目標音声情報集合から目標特徴情報を抽出した後、予め設定された式に基づいて目標特徴情報の類似度行列を計算し、それによって、目標特徴情報のマッピング情報を得る。具体的には、
サーバは、取得された目標特徴情報を、低次元で目標特徴情報を表すベクトルである低次元ベクトルに変換し、サーバは、変換された低次元ベクトルと予め設定された式に基づいて目標特徴情報の類似度行列を計算し、ここでは複数の類似度行列があり、かつ類似度行列を計算するオブジェクトは同じであっても異なっていてもよく、最後に目標特徴情報のマッピング情報を得る。
サーバは、目標特徴情報の抽出を終了した後、LSTMまたは他のニューラルネットワークによって目標特徴情報を低次元ベクトルに変換し、低次元ベクトルを用いて対応する目標特徴情報を表し、このように目標特徴情報を低次元ベクトルに変換することで、類似度行列の計算が容易になる。ここで、サーバは、目標特徴情報の類似度行列として、同一の声紋認識オブジェクトの異なる音声情報間の類似度行列、および異なる声紋認識オブジェクト間の類似度行列を計算し、複数の類似度行列を計算した後、各声紋認識オブジェクトの類似度行列によって損失を最適化することができる。
204、マッピング情報と第1の損失関数に基づいて目標音声情報集合の損失を最適化して、第1の声紋認識結果を得る。
サーバは、目標特徴情報のマッピング情報、および第1の損失関数に基づいて、目標音声情報集合の損失を最適化することで、第1の声紋認識結果を得る。
例えば、サーバは、3つの異なる声紋認識オブジェクトを取得し、各声紋認識オブジェクトには3つの異なる音声情報があり、音声情報をそれぞれ前処理して目標音声情報集合を得て、その後、予め設定された式を用いて目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得て、ここで、予め設定された式は以下に示され、
Figure 2022536190000008
式において、Sji,kは、声紋認識オブジェクトkのj番目の声紋認識オブジェクトのi番目の音声情報の目標特徴情報の類似度行列を表し、kは声紋認識オブジェクトを表し、ejiは、j番目の声紋認識オブジェクトのi番目の音声情報、すなわち目標特徴情報で変換された低次元ベクトルを表し、ωおよびbは、大量の訓練によって得られた変数を表し、Mは、声紋認識オブジェクトの数を表し、cは、j番目の声紋認識オブジェクトからi番目の音声情報を除いた残りの音声情報のセントロイド(平均値)を表し、その計算式は以下に示され、
Figure 2022536190000009
式において、Mは声紋認識オブジェクトの数を表し、ejmは、j番目の声紋認識オブジェクトのm番目の音声情報を表し、最後に、サーバは、第1の損失関数とマッピング情報の最適化損失を計算し、ここでの第1の損失関数は以下に示され、
Figure 2022536190000010
式において、Sji,jは、声紋認識オブジェクトのi番目の音声情報と当該声紋認識オブジェクトの他の音声情報との間の類似度行列を表し、Sji,kは、声紋認識オブジェクトの音声情報と他の声紋認識オブジェクトの音声情報との間の類似度行列を表し、Nは、各声紋認識オブジェクトの音声情報の数を表し、このように、サーバは第1の声紋認識結果を算出する。
205、目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得する。
サーバは、目標音声チャネルの目標音声チャネル情報を取得し、ここでの目標音声チャネルは、目標音声情報集合を伝送するためのチャネルであり、伝送中にチャネルで一定の目標音声チャネル情報、すなわちノイズ情報が発生する。
理解されるように、声紋認識オブジェクトの音声情報は、チャネルでの伝送時に一定のノイズ、すなわちチャネルノイズの影響を受けてしまうが、チャネルノイズは、通信の効果を防げ、通信の信頼性を低下させ、声紋認識結果に大きな影響を与える可能性がある。そこで、本出願では、声紋認識中に音声情報を伝送するためのチャネルを処理することで、ノイズの干渉を低減する。
206、チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化して第2の声紋認識結果を得る。
サーバは、目標音声チャネルに含まれる目標音声チャネル情報を取得した後、つまり、目標音声チャネル情報のチャネルノイズ情報から目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化することで、第2の声紋認識結果を得る。具体的には、
サーバは、目標音声チャネル情報に含まれる目標特徴ベクトルを抽出し、かつ複数の目標特徴ベクトルの平均値を計算し、その後、目標特徴ベクトルの平均値と第2の損失関数に基づいて目標音声チャネル情報の最小平均二乗誤差行列を計算し、さらに第2の声紋認識結果を得る。
説明されるように、目標チャネル音声情報を最適化するステップは、目標音声情報集合を最適化した後に行われており、目標音声情報集合の最適化ステップを始める時に、ネットワーク訓練の平均値が非常にランダムであり、目標チャネル音声情報を最適化する平均値アイテムを捉えることができないことで、目標音声情報集合を最適化する複数のステップを訓練してから、さらに目標チャネル音声情報を最適化するステップを実行する必要があり、この時の訓練ネットワークが安定し、チャネルノイズをよりよく捉えることができ、目標音声情報集合を最適化する具体的なステップ数は、実際の状況に応じて分析する必要がある。例えば、声紋認識を行う過程では、全ての訓練データが10Wの訓練ステップを必要とする場合、6Wの訓練ステップを行った後に目標チャネル音声情報の最適化を開始することができる。
例えば、サーバは、目標音声チャネル情報に含まれる目標特徴ベクトルを抽出した後、目標特徴ベクトルを用いて目標特徴ベクトルの平均値を計算し、目標特徴ベクトルの平均値の計算式は以下に示され、
Figure 2022536190000011
式において、LCj,tは、tステップでの目標特徴ベクトルの平均値であり、ejiは、j番目の声紋認識オブジェクトのi番目の音声情報、つまり目標特徴ベクトルを表し、βは重み付け係数を表し、Mは、各声紋認識オブジェクトの音声情報の数を表し、LCj,t-1は、t-1ステップでの目標特徴ベクトルの平均値を表し、サーバは、目標特徴ベクトルの平均値を計算した後、さらに目標音声チャネル情報の最小平均二乗誤差行列計算し、最小平均二乗誤差行列の計算式は以下に示され、
Figure 2022536190000012
式において、MMSEは最小平均二乗誤差行列を表し、LCj,tは、tステップでの目標特徴ベクトルの平均値であり、Mは、各声紋認識オブジェクトの音声情報の数を表し、ejiは、j番目の声紋認識オブジェクトのi番目の音声情報を表し、μはスケーリング係数を表し、θはバイアス係数を表し、いずれも訓練して得られたもので、一般的にはμの初期値は1であり、θの初期値は0であり、第2の声紋認識結果が得られる。
207、第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定する。
サーバは、得られた第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定する。サーバは、2回最適化された声紋情報を融合して、より正確な声紋認識結果を得る。具体的には、
サーバは、第1の声紋認識結果および第2の声紋認識結果をそれぞれ取得し、その後、融合式を用いて第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定し、融合式は以下に示され、
Figure 2022536190000013
式において、Lは声紋認識を融合した結果を表し、Lは第1の声紋認識結果を表し、Lは第2の声紋認識結果を表し、kは声紋認識オブジェクトを表し、Nは、各声紋認識オブジェクトの音声情報の数を表す。
サーバは、目標チャネル音声情報および声紋認識オブジェクトの音声情報を最適化すると、声紋情報を認識する際に発生するノイズが基本的に除去され、声紋認識オブジェクトの音声情報を明確に認識することができ、両者を融合すると、最後の声紋認識結果を得ることができる。
例えば、サーバは、第1の声紋認識結果と第2の声紋認識結果を得た後、融合式により両者を融合し、融合式は以下に示され、
Figure 2022536190000014
式において、Lは、融合後の最後の声紋認識結果を表し、Lは第1の声紋認識結果を表し、Lは第2の声紋認識結果を表し、kは声紋認識オブジェクトを表し、Nは、各声紋認識オブジェクトの音声情報の数を表し、γは調整係数を表す。ステップ204とステップ206により、第1の声紋認識結果Lと第2の声紋認識結果Lの式が得られ、両者を融合式に代入すると、以下の式を得ることができ、
Figure 2022536190000015
式において、L(eji)は、j番目の声紋認識オブジェクトのi番目の音声情報の声紋認識結果を表し、Sji,jは、声紋認識オブジェクトのi番目の音声情報と当該声紋認識オブジェクトの他の音声情報との間の類似度行列を表し、Sji,kは、声紋認識オブジェクトの音声情報と他の声紋認識オブジェクトの音声情報との間の類似度行列を表し、ここで、
Figure 2022536190000016
式において、kは声紋認識オブジェクトを表し、ejiは、j番目の声紋認識オブジェクトのi番目の音声情報、すなわち目標特徴情報で変換された低次元ベクトルを表し、ωおよびbは、大量の訓練によって得られた変数を表し、cは、j番目の声紋認識オブジェクトからi番目の音声情報を除いた残りの音声情報のセントロイド(平均値)を表し、その計算式は以下に示され、
Figure 2022536190000017
式において、Mは声紋認識オブジェクトの数を表し、ejmは、j番目の声紋認識オブジェクトのm番目の音声情報を表し、Nは、各声紋認識オブジェクトの音声情報の数を表し、γは、MMSE全体の損失関数部分の大きさを調整するための調整係数を表し、MMSEは最小平均二乗誤差行列を表し、かつ、MMSEの式は以下に示され、
Figure 2022536190000018
式において、μはスケーリング係数を表し、θはバイアス係数を表し、Mは、各声紋認識オブジェクトの音声情報の数を表し、ejiは、j番目の声紋認識オブジェクトのi番目の音声情報を表し、LCj,tは、tステップでの目標特徴ベクトルの平均値であり、ここで、LCj,tの式は以下に示され、
Figure 2022536190000019
式において、ejiは、j番目の声紋認識オブジェクトのi番目の音声情報、すなわち目標特徴ベクトルを表し、βは重み付け係数を表し、Mは各声紋認識オブジェクトの音声情報の数を表し、LCj,t-1は、tステップでの目標特徴ベクトルの平均値であり、こうして、最後の声紋認識結果が得られ、音声情報がさらに最適化され、より正確な音声情報が認識される。
本出願の実施例では、サーバは、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第1の声紋認識結果および第2の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。
以上は、本出願の実施例における声紋認識方法を説明したが、以下は、本出願の実施例における声紋認識装置を説明し、図3を参照すると、本出願の実施例における声紋認識装置の一実施例は、
少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第1の取得モジュール301と、
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて目標特徴情報を最適化して第1の声紋認識結果を得るための第1の最適化モジュール302と、
目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第2の取得モジュール303と、
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化して第2の声紋認識結果を得るための第2の最適化モジュール304と、
第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュール305と、を含む。
本出願の実施例では、サーバは、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第1の声紋認識結果および第2の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。上記の目標音声情報集合のプライバシーとセキュリティをさらに確保するために、上記の目標音声情報集合をブロックチェーンのノードに記憶してもよいことを強調する必要がある。
図4を参照すると、本出願の実施例における声紋認識装置の別の実施例は、
少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第1の取得モジュール301と、
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて目標特徴情報を最適化して第1の声紋認識結果を得るための第1の最適化モジュール302と、
目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第2の取得モジュール303と、
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化して第2の声紋認識結果を得るための第2の最適化モジュール304と、
第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュール305と、を含む。
任意選択的に、第1の最適化モジュール302は、
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出するための抽出ユニット3021と、
予め設定された式に基づいて目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得るための計算ユニット3022と、
マッピング情報と第1の損失関数に基づいて目標音声情報集合の損失を最適化して、第1の声紋認識結果を得るための最適化ユニット3023と、を含む。
任意選択的に、抽出ユニット3021はさらに、具体的に、
予め設定されたアルゴリズムを用いて、目標音声情報集合に含まれる音声シーケンスを収集し、かつ音声シーケンスの振幅スペクトルを取得することと、
フィルタによって音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得ることと、
音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得ることと、に使用され得る。
任意選択的に、計算ユニット3022は、さらに、具体的に、
目標特徴情報を、低次元で目標特徴情報を表すベクトルである低次元ベクトルに変換することと、
低次元ベクトルと予め設定された式に基づいて、目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得ることと、に使用され得る。
任意選択的に、第2の最適化モジュール304はさらに、具体的に、
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ目標特徴ベクトルの平均値を計算することと、
目標特徴ベクトルの平均値と第2の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第2の声紋認識結果を得ることと、に使用され得る。
任意選択的に、融合モジュール305はさらに、具体的に、
第1の声紋認識結果および第2の声紋認識結果を取得することと、
融合式を用いて第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定することと、に使用され得、融合式は以下に示され、
Figure 2022536190000020
式において、Lは、融合後の最後の声紋認識結果を表し、Lは第1の声紋認識結果を表し、Lは第2の声紋認識結果を表し、kは声紋認識オブジェクトを表し、Nは、各声紋認識オブジェクトの音声情報の数を表し、γは調整係数を表す。
任意選択的に、第1の取得モジュール301はさらに、具体的に、被処理音声情報を取得し、かつ予め設定された処理式により、被処理音声情報s(n)をプリエンファシス処理し、処理された音声情報s’(n)を得ることと、ここで、予め設定された処理式は
Figure 2022536190000021
であり、αはプリエンファシス処理係数であり、s(n-1)は、被処理音声情報のすぐ前の音声情報であり、処理された音声情報に対してフレーム分割処理を行い、かつ処理された各フレームの音声情報に対してウィンドウ処理を行い、少なくとも1つのオブジェクトに対応する音声情報を含む目標音声情報集合を得ることと、に使用され得る。
本出願の実施例では、サーバは、目標音声情報集合と目標音声チャネル情報の損失をそれぞれ最適化し、さらに損失が最適化された第1の声紋認識結果および第2の声紋認識結果を融合させ、それによって、深層ネットワークが音声チャネルノイズを除去する方法を学習し、声紋認識の精度が向上する。
上記の図3および図4では、モジュール機能体の観点から本出願の実施例における声紋認識装置を詳細に説明し、以下は、ハードウェア処理の観点から本出願の実施例における声紋認識設備を詳細に説明する。
図5は、本出願の実施例で提供される声紋認識設備の構造模式図であり、当該声紋認識設備500は、構成や性能によって差異が比較的大きい可能性があり、1つ以上のプロセッサ(central processing units、CPU)510(例えば、1つ以上のプロセッサ)と、メモリ520と、アプリケーション533やデータ532を記憶する1つ以上の記憶媒体530(例えば、1つ以上の大容量記憶設備)を含み得る。ここで、メモリ520および記憶媒体530は、短期記憶または永続記憶のものであり得る。記憶媒体530に記憶されたプログラムは、1つ以上のモジュール(図示せず)を含み得、各モジュールは、声紋認識設備500における一連の命令操作を含み得る。さらに、プロセッサ510は、記憶媒体530と通信して、記憶媒体530における一連の命令操作を声紋認識設備500上で実行するように設定してもよい。
声紋認識設備500はさらに、1つ以上の電源540と、1つ以上の有線または無線ネットワークインターフェース550と、1つ以上の入出力インターフェース560、および/または、Windows Serve、Mac OS X、Unix、Linux、FreeBSDなどの1つ以上のオペレーティングシステム531を含み得る。当業者であれば、図5に示す声紋認識設備の構造は、声紋認識設備を限定するものではなく、図示したものよりも多くのまたは少ない部品を含んでもよいし、特定の部品を組み合わせてもよいし、部品の異なる配置であってもよいことを理解できるであろう。
本出願はさらに、声紋認識設備を提供し、命令が記憶されたメモリと、少なくとも1つのプロセッサとを含み、前記メモリと前記少なくとも1つのプロセッサは、回線によって相互に接続されており、前記少なくとも1つのプロセッサが前記メモリ内の前記命令を呼び出して、前記声紋認識設備に、上記の声紋認識方法におけるステップを実行させる。
本出願はさらに、コンピュータ可読記憶媒体を提供し、当該コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってもよいし、揮発性コンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体にはコンピュータ命令が記憶されており、前記コンピュータ命令がコンピュータ上で実行されると、
少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るステップと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るステップと、
前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、をコンピュータに実行させる。
当業者であれば分かるように、説明の便宜上、上述したシステム、装置、およびユニットの具体的な作業プロセスは、上述した方法実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。
本出願でいうブロックチェーンは、分散型データストレージ、ピアツーピア伝送、コンセンサスメカニズム、暗号アルゴリズムなどのコンピュータ技術の新しい応用モデルである。ブロックチェーン(Blockchain)は、実質的には分散型データベースであり、暗号化方法で関連付けて生成されたデータブロックであり、各データブロックには、1回のネットワークトランザクションに関する情報が含まれており、その情報の有効性(偽造防止)を検証し、次のブロックを生成するために使用される。ブロックチェーンは、基礎となるブロックチェーンプラットフォーム、プラットフォーム製品サービス層、およびアプリケーションサービス層などを含み得る。前記統合ユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用される場合には、コンピュータ可読取記憶媒体に記憶されてもよい。この理解に基づいて、本出願の技術的解決手段は、本質的にまたは従来技術に寄与するその一部、または当該技術的解決手段の全部または一部が、ソフトウェア製品の形で具現化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ設備(パーソナルコンピュータ、サーバやネットワーク設備など)に、本出願の各実施例に記載の方法のステップの全部または一部を実行させるためのいくつかの命令を含む。前述の記憶媒体には、USBメモリ、モバイルハードディスク、読み取り専用メモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、ディスクまたは光ディスクなど、プログラムコードを記憶できる媒介が含まれている。
前述のように、上記の実施例は、本出願の技術的解決手段を説明するためのものに過ぎず、それらを限定するものではなく、上記の実施例を参照して本出願を詳細に説明したが、当業者であれば分かるように、上記の各実施例に記載された技術的解決手段を修正したり、その技術的特徴の一部を同等のものに置き換えたりすることは可能であり、そのような修正または置き換えは、対応する技術的解決手段の本質を本出願の各実施例の技術的解決手段の精神と範囲から逸脱させるものではない。

Claims (20)

  1. 少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得することと、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得ることと、
    前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得することと、
    前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得ることと、
    前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定することと、を含む声紋認識方法。
  2. 前記目標音声情報集合がブロックチェーンに記憶され、上述した予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得ることは、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出することと、
    予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることと、
    前記マッピング情報と第1の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第1の声紋認識結果を得ることとを、含む請求項1に記載の声紋認識方法。
  3. 上述した予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出することは、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得することと、
    フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得ることと、
    前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得ることと、を含む請求項2に記載の声紋認識方法。
  4. 上述した予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることは、
    目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換することと、
    前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることと、を含む請求項2に記載の声紋認識方法。
  5. 上述した、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得ることは、
    前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算することと、
    前記目標特徴ベクトルの平均値と第2の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第2の声紋認識結果を得ることと、を含む請求項1に記載の声紋認識方法。
  6. 上述した、前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定することは、
    前記第1の声紋認識結果および前記第2の声紋認識結果を取得することと、
    融合式を用いて前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定することとを含み、融合式は以下に示され、
    Figure 2022536190000022
    式において、Lは、融合後の最後の声紋認識結果を表し、Lは第1の声紋認識結果を表し、Lは第2の声紋認識結果を表し、kは声紋認識オブジェクトを表し、Nは、各声紋認識オブジェクトの音声情報の数を表し、γは調整係数を表す、
    請求項1に記載の声紋認識方法。
  7. 上述した、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得することは、
    被処理音声情報を取得し、かつ予め設定された処理式により、前記被処理音声情報s(n)をプリエンファシス処理し、処理された音声情報s’(n)を得ることと、ここで、前記予め設定された処理式は
    Figure 2022536190000023
    であり、αはプリエンファシス処理係数であり、s(n-1)は、被処理音声情報のすぐ前の音声情報であり、
    前記処理された音声情報に対してフレーム分割処理を行い、かつ前記処理された各フレームの音声情報に対してウィンドウ処理を行い、少なくとも1つのオブジェクトに対応する音声情報を含む目標音声情報集合を得ることと、を含む請求項1~6のいずれか1項に記載の声紋認識方法。
  8. メモリと、プロセッサと、前記メモリ上に記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令とを含み、前記プロセッサが前記コンピュータ可読命令を実行すると、
    少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るステップと、
    前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
    前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るステップと、
    前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、を実現する声紋認識設備。
  9. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出するステップと、
    予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、
    前記マッピング情報と第1の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第1の声紋認識結果を得るステップと、を実現する請求項8に記載の声紋認識設備。
  10. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得するステップと、
    フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得るステップと、
    前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得るステップと、を実現する請求項9に記載の声紋認識設備。
  11. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換するステップと、
    前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、を実現する請求項9に記載の声紋認識設備。
  12. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算するステップと、
    前記目標特徴ベクトルの平均値と第2の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第2の声紋認識結果を得るステップと、を実現する請求項8に記載の声紋認識設備。
  13. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    前記第1の声紋認識結果および前記第2の声紋認識結果を取得するステップと、
    融合式を用いて前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップとを実現し、融合式は以下に示され、
    Figure 2022536190000024
    式において、Lは、融合後の最後の声紋認識結果を表し、Lは第1の声紋認識結果を表し、Lは第2の声紋認識結果を表し、kは声紋認識オブジェクトを表し、Nは、各声紋認識オブジェクトの音声情報の数を表し、γは調整係数を表す、
    請求項8に記載の声紋認識設備。
  14. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、被処理音声情報を取得し、かつ予め設定された処理式により、前記被処理音声情報s(n)をプリエンファシス処理し、処理された音声情報s’(n)を得るステップと、ここで、前記予め設定された処理式は
    Figure 2022536190000025
    であり、αはプリエンファシス処理係数であり、s(n-1)は、被処理音声情報のすぐ前の音声情報であり、前記処理された音声情報に対してフレーム分割処理を行い、かつ前記処理された各フレームの音声情報に対してウィンドウ処理を行い、少なくとも1つのオブジェクトに対応する音声情報を含む目標音声情報集合を得るステップと、を実現する請求項8~13のいずれか1項に記載の声紋認識設備。
  15. コンピュータ命令が記憶され、前記コンピュータ命令がコンピュータ上で実行されると、
    少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るステップと、
    前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
    前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るステップと、
    前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、をコンピュータに実行させるコンピュータ可読記憶媒体。
  16. 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出するステップと、
    予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、
    前記マッピング情報と第1の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第1の声紋認識結果を得るステップと、をコンピュータに実行させる請求項15に記載のコンピュータ可読記憶媒体。
  17. 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得するステップと、
    フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得るステップと、
    前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得るステップと、をコンピュータに実行させる請求項16に記載のコンピュータ可読記憶媒体。
  18. 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
    目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換するステップと、
    前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、をコンピュータに実行させる請求項16に記載のコンピュータ可読記憶媒体。
  19. 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
    前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算するステップと、
    前記目標特徴ベクトルの平均値と第2の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第2の声紋認識結果を得るステップと、をコンピュータに実行させる請求項15に記載のコンピュータ可読記憶媒体。
  20. 少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第1の取得モジュールと、
    予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るための第1の最適化モジュールと、
    前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第2の取得モジュールと、
    前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るための第2の最適化モジュールと、
    前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュールと、を含む声紋認識装置。
JP2021574348A 2020-04-28 2020-12-24 声紋を認識する方法、装置、設備、および記憶媒体 Active JP7184236B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010350084.7A CN111524524B (zh) 2020-04-28 2020-04-28 声纹识别方法、装置、设备及存储介质
CN202010350084.7 2020-04-28
PCT/CN2020/111464 WO2021217979A1 (zh) 2020-04-28 2020-12-24 声纹识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022536190A true JP2022536190A (ja) 2022-08-12
JP7184236B2 JP7184236B2 (ja) 2022-12-06

Family

ID=71902950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021574348A Active JP7184236B2 (ja) 2020-04-28 2020-12-24 声紋を認識する方法、装置、設備、および記憶媒体

Country Status (4)

Country Link
US (1) US12002473B2 (ja)
JP (1) JP7184236B2 (ja)
CN (1) CN111524524B (ja)
WO (1) WO2021217979A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524524B (zh) * 2020-04-28 2021-10-22 平安科技(深圳)有限公司 声纹识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351487A1 (en) * 2016-06-06 2017-12-07 Cirrus Logic International Semiconductor Ltd. Voice user interface
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法
CN109378002A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 声纹验证的方法、装置、计算机设备和存储介质
WO2020003533A1 (en) * 2018-06-29 2020-01-02 Nec Corporation Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181017B1 (en) * 2001-03-23 2007-02-20 David Felsher System and method for secure three-party communications
KR100776803B1 (ko) * 2006-09-26 2007-11-19 한국전자통신연구원 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법
CN106448684A (zh) * 2016-11-16 2017-02-22 北京大学深圳研究生院 基于深度置信网络特征矢量的信道鲁棒声纹识别系统
CN108877809B (zh) * 2018-06-29 2020-09-22 北京中科智加科技有限公司 一种说话人语音识别方法及装置
CN109215665A (zh) * 2018-07-20 2019-01-15 广东工业大学 一种基于3d卷积神经网络的声纹识别方法
CN109285538B (zh) * 2018-09-19 2022-12-27 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN109559749B (zh) * 2018-12-24 2021-06-18 思必驰科技股份有限公司 用于语音识别系统的联合解码方法及系统
CN109767783B (zh) * 2019-02-15 2021-02-02 深圳市汇顶科技股份有限公司 语音增强方法、装置、设备及存储介质
CN110232928B (zh) * 2019-06-13 2021-05-25 思必驰科技股份有限公司 文本无关说话人验证方法和装置
CN110992974B (zh) * 2019-11-25 2021-08-24 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN111312283B (zh) * 2020-02-24 2023-03-21 中国工商银行股份有限公司 跨信道声纹处理方法及装置
CN111524524B (zh) * 2020-04-28 2021-10-22 平安科技(深圳)有限公司 声纹识别方法、装置、设备及存储介质
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351487A1 (en) * 2016-06-06 2017-12-07 Cirrus Logic International Semiconductor Ltd. Voice user interface
WO2020003533A1 (en) * 2018-06-29 2020-01-02 Nec Corporation Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium
CN109378002A (zh) * 2018-10-11 2019-02-22 平安科技(深圳)有限公司 声纹验证的方法、装置、计算机设备和存储介质
CN109326302A (zh) * 2018-11-14 2019-02-12 桂林电子科技大学 一种基于声纹比对和生成对抗网络的语音增强方法

Also Published As

Publication number Publication date
WO2021217979A1 (zh) 2021-11-04
US12002473B2 (en) 2024-06-04
CN111524524B (zh) 2021-10-22
JP7184236B2 (ja) 2022-12-06
CN111524524A (zh) 2020-08-11
US20220254349A1 (en) 2022-08-11

Similar Documents

Publication Publication Date Title
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN108281146B (zh) 一种短语音说话人识别方法和装置
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
JP4177755B2 (ja) 発話特徴抽出システム
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN110111769B (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
WO2019232826A1 (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN112382300A (zh) 声纹鉴定方法、模型训练方法、装置、设备及存储介质
WO2019232833A1 (zh) 语音区分方法、装置、计算机设备及存储介质
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
US20020062211A1 (en) Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition
WO2019232867A1 (zh) 语音区分方法、装置、计算机设备及存储介质
CN113160852A (zh) 语音情绪识别方法、装置、设备及存储介质
JP7184236B2 (ja) 声紋を認識する方法、装置、設備、および記憶媒体
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
CN110767238B (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质
Campbell et al. Feature extraction of automatic speaker recognition, analysis and evaluation in real environment
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN111341327A (zh) 一种基于粒子群算法的说话人语音识别方法、装置和设备
CN117079666A (zh) 歌曲打分方法、装置、终端设备以及存储介质
Gajic Auditory based methods for robust speech feature extraction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221109

R150 Certificate of patent or registration of utility model

Ref document number: 7184236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150