JP2022536189A - オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 - Google Patents

オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 Download PDF

Info

Publication number
JP2022536189A
JP2022536189A JP2021574347A JP2021574347A JP2022536189A JP 2022536189 A JP2022536189 A JP 2022536189A JP 2021574347 A JP2021574347 A JP 2021574347A JP 2021574347 A JP2021574347 A JP 2021574347A JP 2022536189 A JP2022536189 A JP 2022536189A
Authority
JP
Japan
Prior art keywords
data
voiceprint feature
audio data
voiceprint
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021574347A
Other languages
English (en)
Other versions
JP7242912B2 (ja
Inventor
▲ユエ▼超 郭
軼軒 ▲チァオ▼
義君 唐
俊 王
鵬 高
国▲トン▼ 謝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2022536189A publication Critical patent/JP2022536189A/ja
Application granted granted Critical
Publication of JP7242912B2 publication Critical patent/JP7242912B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本出願は、人工知能の分野に関し、話者オリジナル音声データ認識モデルの情報損失とシステムの複雑性を低減するための、オリジナル音声の声紋認識方法を開示する。オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得ることと、予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、声紋特徴データを得ることと、予め設定されたディープニューラルネットワークによって、声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることと、ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得ることと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得ることと、を含む。本出願はさらに、ブロックチェーンの技術に関し、前記声紋特徴データがブロックチェーンに記憶されている。【選択図】図1

Description

本出願は、2020年4月28日に中国特許局に提出された、「オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体」と題する中国特許出願第202010351208.3の優先権を主張し、その全ての内容は、参考により本出願に組み込まれている。
本出願は、音声信号処理の分野に関し、特に、オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体に関する。
現在、話者オリジナル音声データ認識モデルは、話者オリジナル音声データを人工特徴工学により特徴抽出して特徴情報を得て、特徴情報のベクトルデータを生成し、かつベクトルデータに対してチャネルノイズフィッティング処理を行い、フィッティング処理データを得て、フィッティング処理データに対して話者認識を行い、対応する話者情報を得る。
本発明者は、得られたベクトルデータが同一話者または異なる話者間のチャネル情報の違いの識別に直接使用できず、得られたベクトルデータに対してさらにチャネルノイズフィッティング処理を行ってフィッティング処理データを得て、フィッティング処理データおよび他のデータに対して話者認識のための計算および分析のバックエンド再処理を行う必要があり、これによって、データ処理システムの複雑性を増やし、かつ話者オリジナル音声データを人工特徴工学により特徴抽出する場合、一部の情報が失われるため、既存の話者オリジナル音声データ認識モデルでは情報損失が大きく、システムが非常に複雑になるという問題があることに気付いた。
本出願の主な目的は、既存の話者オリジナル音声データ認識モデルにおける情報損失度が大きく、システムが非常に複雑であるという問題を解決することである。
上記の目的を実現するために、本出願の第1の態様は、オリジナル音声の声紋認識方法を提供し、オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得ることと、予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることと、予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることと、前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得ることと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得ることと、を含む。
本出願の第2の態様は、オリジナル音声の声紋認識設備を提供し、メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータ可読命令とを備え、前記プロセッサが前記コンピュータ可読命令を実行すると、以下のようなステップ、すなわち、オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、を実現する。
本出願の第3の態様は、コンピュータ命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータ上で実行されると、コンピュータに、以下のようなステップ、すなわち、オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、を実行させる。
本出願の第4の態様は、オリジナル音声の声紋認識装置を提供し、オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るための分割モジュールと、予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るための第1の処理モジュールと、予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第2の処理モジュールと、前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第3の処理モジュールと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュールと、を含む。
本出願が提供する技術的解決手段は、オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得て、予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、声紋特徴データを得、かつ、予め設定されたディープニューラルネットワークによって、声紋特徴データをプーリング処理し、ターゲット声紋特徴を得てから、ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、声紋特徴ベクトルを得、そして、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得る。本出願では、新たな損失関数により、オリジナル音声データにおける声紋特徴情報を認識するチャネルのノイズ情報を除去することで、情報損失が低減され、予め設定された畳み込みフィルタバンクを、オリジナル音声データに対するフロントエンド前処理の構造として用いて声紋特徴データを取得し、また、予め設定されたディープニューラルネットワークを用いて声紋特徴データをプーリング処理し、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルを処理して類似度行列または埋め込みベクトルの形のターゲット声紋データを得て、入力側を話者のオリジナル音声データとし、出力側を類似度行列または埋め込みベクトルの形のターゲット声紋データとする構成により、システムの構造が簡略化され、変数の計算が低減され、話者オリジナル音声データ認識モデルの精度が向上し、システムの複雑性が低減され、それによって、本出願では、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性が低減される。
本出願の実施例におけるオリジナル音声の声紋認識方法の一実施例の模式図である。 本出願の実施例におけるオリジナル音声の声紋認識方法の別の実施例の模式図である。 本出願の実施例におけるオリジナル音声の声紋認識装置の一実施例の模式図である。 本出願の実施例におけるオリジナル音声の声紋認識装置の別の実施例の模式図である。 本出願の実施例におけるオリジナル音声の声紋認識設備の一実施例の模式図である。
本出願の実施例は、オリジナル音声の声紋を認識する方法、装置、設備、および記憶媒体を提供し、新たな損失関数により、オリジナル音声データにおける声紋特徴情報を認識するチャネルのノイズ情報を除去することで、情報損失が低減され、予め設定された畳み込みフィルタバンクを、オリジナル音声データに対するフロントエンド前処理の構造として用いて声紋特徴データを取得し、また、予め設定されたディープニューラルネットワークを用いて声紋特徴データをプーリング処理し、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルを処理して類似度行列または埋め込みベクトルの形のターゲット声紋データを得て、入力側を話者のオリジナル音声データとし、出力側を類似度行列または埋め込みベクトルの形のターゲット声紋データとする構成により、システムの構造が簡略化され、変数の計算が低減され、話者オリジナル音声データ認識モデルの精度が向上し、システムの複雑性が低減され、それによって、本出願の実施例では、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性が低減される。
本出願の明細書、特許請求の範囲、および上記の図面における「第1」、「第2」、「第3」、「第4」(存在する場合)などの用語は、特定の順序又は優先順位を説明するためのものではなく、類似した対象物を区別するために使用されている。このように使用されるデータは、適切な場合には交換可能であり、これによって、本明細書に記載されている実施例は、本明細書に図示または記載されているものと異なる順序で実行することができることを理解すべきである。さらに、「含む」または「有する」という用語およびその変型は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含む過程、方法、システム、製品または設備は、明確に記載されたそれらのステップまたはユニットに限定される必要はなく、明確に記載されていない他のステップまたはユニットを含むか、それらの過程、方法、製品または設備に固有のステップまたはユニットを含んでもよい。
理解を容易にするために、本出願の実施例の具体的な流れを以下に説明し、図1を参照すると、本出願の実施例におけるオリジナル音声の声紋認識方法の一実施例は、以下の101、102、103、104および105を含む。
101では、オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得る。
理解されるように、本出願の実行主体は、オリジナル音声の声紋認識装置であってよく、端末やサーバであってもよく、ここでは具体的に限定されない。本出願の実施例は、サーバを実行主体として説明する。
クライアント側でオリジナル音声データが入力されると、サーバは、予め設定されたサンプラーを呼び出し、予め設定されたサンプラーにより当該オリジナル音声データをサンプリングしてオリジナルオーディオデータを得て、かつ予め設定されたサンプラーのサンプリング周波数を取得し、当該サンプリング周波数の逆数を計算してサンプリング時間を取得し、サンプリング時間を所定の時間長とし、サンプラーは取得されたオリジナルオーディオデータと所定の時間長をサーバのデータベースに送信し、サーバは、データベースから当該オリジナルオーディオデータを抽出して、所定の時間長に応じて当該オリジナルオーディオデータを分割して分割音声データを得て、各分割音声データは同じデータ長を持つ。オリジナル音声データを分割することで、その後のオリジナル音声データの処理を容易にし、オリジナル音声データが前処理された後に情報損失があるか否かを判断するための根拠を提供する。
102では、予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得る。
サーバが分割音声データを取得した後、ここで、分割音声データは合計でT個あり、各分割音声データのデータ長はHであり、T個の分割音声データを予め設定されたKグループの畳み込みフィルタ(すなわち、予め設定された畳み込みフィルタバンク)に入力し、Kグループの畳み込みフィルタを用いて、予め設定されたテールバイティング畳み込み符号により各分割音声データに対して多層構造のテールバイティング畳み込み符号化処理を行う、分割音声データに対して最初の特徴抽出処理を行い、浅い表現を持つ候補声紋特徴データを得て、ここで、各候補声紋特徴データのデータ形式は全て(T,K,H)である。予め設定された離散フーリエ変換式によって候補声紋特徴データを計算して声紋特徴データを得て、ここで、各声紋特徴データのデータ長はHであり、各声紋特徴データのデータ形式は依然として(T,K,H)であり、全ての声紋特徴データを組み合わせたデータ形式は依然として(N,M,T,K,H)であり、Nは、オリジナル音声データにおける話者の数を表し、Mは、各話者に対応する声紋特徴データの数を表す。
ここで、予め設定された離散フーリエ変換式のDFT変換区間の長さはH(すなわち、各分割音声データのデータ長H)である。Kグループの畳み込みフィルタにより分割音声データのテールバイティング畳み込み符号化処理と離散フーリエ変換処理を行った後、得られた候補声紋データのデータ長は変化しないため、符号化率低下の問題を克服し、畳み込み符号のエラーチェック特性に影響を与えず、分割音声データを特徴抽出する際の情報損失を防止し、その特徴の品質を確保する一方で、候補声紋特徴データを時間領域データから簡潔な周波数領域データに変換することで、演算量が減り、その後の声紋特徴データの処理が容易になる。上記の声紋特徴データのプライバシーとセキュリティをさらに確保するために、上記の声紋特徴データをブロックチェーンのノードに記憶してもよいことを強調する必要がある。
103では、予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得る。
サーバは、予め設定されたディープニューラルネットワークにおけるプーリング層によって、予め設定されたスライドウィンドウを用いて分割音声データに対応する声紋特徴データの配列で生成された配列テーブルの左上から、分割音声データに対応する声紋特徴データの配列テーブルを、左から右へ、上から下への順にスライドすることで、当該スライドウィンドウに対応するウィンドウデータを取得し、ここで、配列テーブルでのスライドウィンドウの1つの位置は1つのウィンドウデータに対応し、各ウィンドウデータのうちの最大値を判断して各ウィンドウデータのうちの最大値を得ることで、最大値プーリング処理を実現し、各ウィンドウデータの平均値を計算し、各ウィンドウデータに対応する平均値を算出し、これにより、平均値プーリング処理を実現し、さらに、最大値プーリング処理と平均値プーリング処理後のターゲット声紋特徴を得る。プーリング処理により、予め設定されたディープニューラルネットワークの空間のサイズ、および学習が必要なネットワークパラメータを減少し、オーバーフィッティングを防止する。
104では、ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得る。
サーバは、予め設定されたスキップグラムモデルSkip-gramの隠れ層の重み行列によってターゲット声紋特徴を計算し、勾配降下処理した候補声紋特徴ベクトルを得て、Skip-gramモデルの出力層の回帰分類器によって候補声紋特徴ベクトルに対して回帰分類処理を行い、対応する声紋特徴ベクトルを得て、または、予め設定された深層文脈に基づく単語表現(embedding from language model、ELMO)モデルのうち多層双方向言語モデルである前方と後方最大言語モデルの共同尤度関数によって、ターゲット声紋特徴を計算し、候補声紋特徴ベクトルを得て、かつ候補声紋ベクトルを重みに統合して、対応する声紋特徴ベクトルを得て、ここで、当該声紋特徴ベクトルは、単語埋め込みベクトル、または文埋め込みベクトルのいずれかであり得る。Skip-gramモデルとELMOモデルで得られた声紋特徴ベクトルは単語埋め込みベクトルであり、予め設定されたニューラルバッグオブワーズモデルで、単語埋め込みベクトルの声紋特徴ベクトルを平均化または合計することにより、または、予め設定された再帰型ニューラルネットワークで予め設定された外部トポロジー構造(例えば、コンポーネント構文ツリー)に応じて単語埋め込みベクトルの声紋特徴ベクトルを再帰的に処理することにより、文埋め込みベクトルの声紋特徴ベクトルを得ることで、ターゲット声紋特徴に対する埋め込みベクトル変換の表現representation処理を実行する。
105では、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得る。
サーバは、声紋特徴ベクトルを得た後、予め設定された損失関数におけるコサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルデータを計算して第1の初期ベクトルデータと第2の初期ベクトルデータを得て、予め設定されたネットワーク訓練関数によって、第2の初期ベクトルデータを計算して第2のベクトルデータを得て、そして、第1の初期ベクトルデータと第2のベクトルデータの加重平均値を計算してターゲット声紋データを得る。
ここで、予め設定されたネットワーク訓練関数は、最小平均二乗誤差行列MMSE損失関数部分全体の大きさを調整する調整ルールであり、予め設定されたネットワーク訓練関数は、勾配降下アルゴリズムまたは共役勾配アルゴリズムであってもよく、勾配降下アルゴリズムまたは共役勾配アルゴリズムによって第2の初期ベクトルデータの誤差最小化処理を実行する。サーバは、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって声紋特徴ベクトルデータをそれぞれ計算し、第1の初期ベクトルデータと第2の初期ベクトルデータを得て、最小平均二乗誤差行列損失関数は全体平均で計算され、また、全体平均のランダム性が高く、チャネルノイズの情報を正確に捉えることができないため、予め設定されたネットワーク関数ネットワークによって、第2の初期ベクトルデータを計算して第2のベクトルデータを得て、第1の初期ベクトルデータと第2のベクトルデータの加重平均値を計算して、重み値計算を含む類似度行列または埋め込みベクトルを得る必要があり、それによって、チャネルのノイズ情報の除去とシステムの複雑性の低減を実現した上で、相対的に正確な類似度行列を得ることができることで、取得された埋め込みベクトルデータの精度が向上する。
コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、音声チャネル情報をモデル化するための損失項を追加することで、予め設定された畳み込みフィルタバンクとディープニューラルネットワークで構成される構造ネットワークが、話者情報の長時間特徴表現(声紋情報)だけでなく、チャネルからノイズ情報を除去する方法も学習することができ、認識の精度を向上させ、話者情報を含む類似度行列または埋め込みベクトルを直接出力し、オリジナル音声データを処理するための操作ステップを減らし、システムの複雑性を低減する。
本出願の実施例では、新たな損失関数により、オリジナル音声データにおける声紋特徴情報を認識するチャネルのノイズ情報を除去することで、情報損失が低減され、予め設定された畳み込みフィルタバンクを、オリジナル音声データに対するフロントエンド前処理の構造として用いて声紋特徴データを取得し、また、予め設定されたディープニューラルネットワークを用いて声紋特徴データをプーリング処理し、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルを処理して類似度行列または埋め込みベクトルの形のターゲット声紋データを得て、入力側を話者のオリジナル音声データとし、出力側を類似度行列または埋め込みベクトルの形のターゲット声紋データとする構成により、システムの構造が簡略化され、変数の計算が低減され、話者オリジナル音声データ認識モデルの精度が向上し、システムの複雑性が低減され、それによって、本出願の実施例では、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性が低減される。
図2を参照すると、本出願の実施例におけるオリジナル音声の声紋認識方法の別の実施例は、以下の201、202、203、204、205および206を含む。
201では、オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得る。
具体的には、サーバはオリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得ることは、オリジナル音声データを取得し、オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、を含み得る。
サーバは、オリジナル音声データを分割する前に、オリジナル音声データに信号処理を実行してエネルギーマップを得て、オリジナル音声データにおける音声フレームごとに短時間フレームエネルギーと短時間フレームゼロ交差率を計算し、短時間フレームエネルギーに応じて第1の閾値を設定し、バックグラウンドノイズの平均エネルギーを計算し、バックグラウンドノイズの平均エネルギーに応じて第2の閾値を設定し、第2の閾値を第1の閾値よりも小さくし、第1の閾値、第2の閾値、および短時間フレームゼロ交差率に応じてエネルギーマップを分析とスクリーニングし、それによって、オリジナル音声データに対して有効な音声検出を実行し、静音がスクリーニングされ、かつノイズがグレイディングした話者に対する有効な音声データ(すなわち、候補音声データ)を得て、また、候補音声データに対してクロスチャネル相関検出を実行することで、オリジナル音声データにおけるクロストーク音声を検出と分類し、異なるチャネル分類の音声データを得る。オリジナル音声データに対して、音声信号エネルギーとゼロ交差率に基づくブレイクアウト検出、チャネル検出、および話者係数の抽出とラベリングを行うことで、オリジナル音声データの品質を確保する一方で、その後のオリジナル音声データを処理する時の利便性を向上させる。
202では、予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得る。
具体的には、サーバが予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得ることは、分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得することと、分割音声データのセグメント総数、所定の時間長、および畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、テールバイティング畳み込み符号を畳み込みフィルタバンクの畳み込みエンコーダグループに記憶することと、畳み込みエンコーダグループによって、分割音声データを符号化し、分割音声データに対応する候補声紋特徴データを得ることと、候補声紋特徴データに対して離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得ることと、を含み得る。
ここで、所定の時間長をテールバイティング畳み込み符号の制約長とし、分割音声データのセグメント数を毎回畳み込みエンコーダに入力されたビット数とし、予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を出力されるグループ符号語の次元数とし、分割音声データの数を出力されるグループ符号語の次元数で割った値を符号化率とすると、得られたテールバイティング畳み込み符号は(T,K,H)となる。セグメント数、所定の時間長と数に応じてテールバイティング畳み込み符号を設定することで、声紋特徴抽出を行う際の分割音声データの情報損失を防止する。分割音声データに対してテールバイティング畳み込み処理を行った後、双方向ビタビアルゴリズムを用いて、ダイナミックプランニングにより候補声紋特徴データを復号する最短経路を実現し、復号された声紋特徴データを得て、さらに復号された声紋特徴データに対して離散フーリエ変換処理を行うことで、分割音声データに対応する声紋特徴データを得ることができる。
203では、予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得る。
具体的には、サーバが予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることは、予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得ることと、複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、各グループのウィンドウデータの最大値を第1の話者特徴とし、各グループのウィンドウデータの平均値を第2の話者特徴とすることと、第1の話者特徴と第2の話者特徴を融合して、ターゲット声紋特徴を得ることと、を含み得る。
サーバは、分割音声データに対応する声紋特徴データに対応する各グループのウィンドウデータの最大値と平均値を取得した後、全てのウィンドウデータの最大値と平均値をそれぞれ融合concatenateして最大値融合データと平均値融合データを得て、かつ最大値融合データと平均値融合データを、予め設定されたディープニューラルネットワークによって分割音声データに対応する声紋特徴データをプーリング処理して得られたターゲット声紋特徴として使用する。平均値融合データを例に挙げて説明する場合、オリジナル音声データの分割音声データに対応する声紋特徴データのデータ形式は(T,K,H)であり、分割音声データに対応する声紋特徴データのT次元に対して平均プーリング処理を行い、各グッループのウィンドウデータの平均値のデータ形式(K,H)を得て、K次元の分割音声データに対応する声紋特徴データを融合し、データ形式が(1,KH)の平均値融合データを得て、もし特定のバッチbatchのオリジナル音声データにS人の話者が存在し、各話者がD個のオリジナル音声データを有する場合、平均プーリング処理によってデータ形式が(SD, KH)のターゲット声紋特徴を得る。
204では、ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得る。
サーバは、予め設定されたスキップグラムモデルSkip-gramの隠れ層の重み行列によってターゲット声紋特徴を計算し、勾配降下処理した候補声紋特徴ベクトルを得て、Skip-gramモデルの出力層の回帰分類器によって候補声紋特徴ベクトルに対して回帰分類処理を行い、対応する声紋特徴ベクトルを得て、または、予め設定された深層文脈に基づく単語表現(embedding from language model、ELMO)モデルのうち多層双方向言語モデルである前方と後方最大言語モデルの共同尤度関数によって、ターゲット声紋特徴を計算し、候補声紋特徴ベクトルを得て、かつ候補声紋ベクトルを重みに統合して、対応する声紋特徴ベクトルを得て、ここで、当該声紋特徴ベクトルは、単語埋め込みベクトル、または文埋め込みベクトルのいずれかであり得る。Skip-gramモデルとELMOモデルで得られた声紋特徴ベクトルは単語埋め込みベクトルであり、予め設定されたニューラルバッグオブワーズモデルで、単語埋め込みベクトルの声紋特徴ベクトルを平均化または合計することにより、または、予め設定された再帰型ニューラルネットワークで予め設定された外部トポロジー構造(例えば、コンポーネント構文ツリー)に応じて単語埋め込みベクトルの声紋特徴ベクトルを再帰的に処理することにより、文埋め込みベクトルの声紋特徴ベクトルを得ることで、ターゲット声紋特徴に対する埋め込みベクトル変換の表現representation処理を実行する。
205では、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得る。
サーバは、声紋特徴ベクトルを得た後、予め設定された損失関数におけるコサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルデータを計算して第1の初期ベクトルデータと第2の初期ベクトルデータを得て、予め設定されたネットワーク訓練関数によって、第2の初期ベクトルデータを計算して第2のベクトルデータを得て、そして、第1の初期ベクトルデータと第2のベクトルデータの加重平均値を計算してターゲット声紋データを得る。
ここで、予め設定されたネットワーク訓練関数は、最小平均二乗誤差行列MMSE損失関数部分全体の大きさを調整する調整ルールであり、予め設定されたネットワーク訓練関数は、勾配降下アルゴリズムまたは共役勾配アルゴリズムであってもよく、勾配降下アルゴリズムまたは共役勾配アルゴリズムによって第2の初期ベクトルデータの誤差最小化処理を実行する。サーバは、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって声紋特徴ベクトルデータをそれぞれ計算し、第1の初期ベクトルデータと第2の初期ベクトルデータを得て、最小平均二乗誤差行列損失関数は全体平均で計算され、また、全体平均のランダム性が高く、チャネルノイズの情報を正確に捉えることができないため、予め設定されたネットワーク関数ネットワークによって、第2の初期ベクトルデータを計算して第2のベクトルデータを得て、第1の初期ベクトルデータと第2のベクトルデータの加重平均値を計算して、重み値計算を含む類似度行列または埋め込みベクトルを得る必要があり、それによって、チャネルのノイズ情報の除去とシステムの複雑性の低減を実現した上で、相対的に正確な類似度行列を得ることができることで、取得された埋め込みベクトルデータの精度が向上する。
具体的には、予め設定された損失関数は、
Figure 2022536189000002
であり、
コサイン類似度行列損失関数は、
Figure 2022536189000003
であり、
最小平均二乗誤差行列損失関数は、
Figure 2022536189000004
であり、
ここで、ajiは、j番目の話者のi番目の声紋特徴ベクトルを表し、γは、最小平均二乗誤差行列MMSE損失関数部分全体の大きさを調整するための調整係数を表し、Nは、各話者に対応する声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSE)値を表し、c (-i)とcはいずれも、i番目の声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の声紋特徴ベクトルのうちj番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、声紋特徴ベクトルに対応する話者の数を表す。
206では、予め設定されたデータベースから、ターゲット声紋データに対応する履歴処理データを取得し、履歴処理データをクラスタリングし、クラスタリングされた結果に応じて、ターゲット声紋データの後続の推奨処理手段を取得する。
ここで、履歴処理データは、過去で記憶された、取得した声紋データをその後の他の種類のデータ分析に用いて生成された処理データであり、例えば、会議でのオリジナル音声データを処理して声紋データを得て、得られた声紋データに話者の役割をタグ付けし、話者の役割に応じて、話者の役割をタグ付けされた話者データを分類して分類データを得て、音声のトーンの変化に応じて分析して、分類データの重要な内容を区画し、会議音声分類メモ情報を得る。サーバは、ターゲット声紋データを得た後、ターゲット声紋データのキー値を作成し、当該キー値を用いて予め設定されたデータベースを検索し、キー値と同一または類似の、その後のデータ分析に使用される履歴処理データを得て、履歴処理データの重み値を取得し、かつ重み値の大きさに応じて履歴処理データをソートしてスクリーニングし、予め設定された範囲内にソートされた履歴処理データを取得し、処理データを得て、そして、K-MEANSクラスタリングアルゴリズムにより、処理データに対して初期クラスタリング処理を行い、初期クラスタリング手段を得る。ガウス混合モデル(GMM)に基づく期待値最大化(EM)クラスタリングアルゴリズムにより、初期クラスタリング手段へのディープクラスタリングを行い、処理タイプを得る。処理タイプに応じて、過去で記憶された処理手段情報から、処理タイプと同一または類似の処理手段情報を取得し、処理手段情報の重み値を得て、かつ処理手段情報の重み値を大きい順にソートし、予め設定されたソート範囲内にある処理手段情報を、ターゲット声紋データの後続の推奨処理手段として使用する。
任意選択的に、サーバは、ターゲット声紋データの後続の推奨処理手段情報を取得した後、ターゲット声紋データを予め設定されたディザスタリカバリセンターに記憶し、かつ外ターゲット声紋データの後続の推奨処理手段情報を実行する要求をクライアント側に送信し、所定時間内にクライアント側からの受信要求を受信する場合、ターゲット声紋データの後続の推奨処理手段に応じて、ターゲット声紋データへの後続のデータ分析処理を実行する。インテリジェントな推奨処理手段情報を使用することで、オリジナル音声の声紋認識モデルの情報損失およびシステムの複雑性を低減するとともに、オリジナル音声の声紋認識モデルによるオリジナル音声データの処理際のインテリジェンス、自律性、および利便性も向上させる。
本出願の実施例では、インテリジェントな推奨処理手段情報を使用することで、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性を低減するとともに、話者オリジナル音声データ認識モデルによるオリジナル音声データの処理際のインテリジェンス、自律性、および利便性を向上させる。
以上は、本出願の実施例におけるオリジナル音声の声紋認識方法を説明したが、以下は、本出願の実施例におけるオリジナル音声の声紋認識装置を説明し、図3を参照すると、本出願の実施例におけるオリジナル音声の声紋認識装置の一実施例は、
オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得るための分割モジュール301と、
予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得るための第1の処理モジュール302と、
予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第2の処理モジュール303と、
ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第3の処理モジュール304と、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュール305と、を含む。
本出願の実施例では、新たな損失関数により、オリジナル音声データにおける声紋特徴情報を認識するチャネルのノイズ情報を除去することで、情報損失が低減され、予め設定された畳み込みフィルタバンクを、オリジナル音声データに対するフロントエンド前処理の構造として用いて声紋特徴データを取得し、また、予め設定されたディープニューラルネットワークを用いて声紋特徴データをプーリング処理し、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルを処理して類似度行列または埋め込みベクトルの形のターゲット声紋データを得て、入力側を話者のオリジナル音声データとし、出力側を類似度行列または埋め込みベクトルの形のターゲット声紋データとする構成により、システムの構造が簡略化され、変数の計算が低減され、話者オリジナル音声データ認識モデルの精度が向上し、システムの複雑性が低減され、それによって、本出願の実施例では、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性が低減される。
図4を参照すると、本出願の実施例におけるオリジナル音声の声紋認識装置の別の実施例は、
オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得るための分割モジュール301と、
予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得るための第1の処理モジュール302と、
予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第2の処理モジュール303と、
ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第3の処理モジュール304と、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュール305と、
予め設定されたデータベースから、ターゲット声紋データに対応する履歴処理データを取得し、履歴処理データをクラスタリングし、クラスタリングされた結果に応じて、ターゲット声紋データの後続の推奨処理手段を取得するための第4の処理モジュール306と、を含む。
任意選択的に、第1の処理モジュール302はさらに、具体的に、
オリジナル音声データを取得し、オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、に使用され得る。
任意選択的に、第1の処理モジュール302はさらに、具体的に、
分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得することと、
分割音声データのセグメント総数、所定の時間長、および畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、テールバイティング畳み込み符号を畳み込みフィルタバンクにおける畳み込みエンコーダグループに記憶することと、
畳み込みエンコーダグループによって、分割音声データを符号化し、分割音声データに対応する候補声紋特徴データを得ることと、
候補声紋特徴データに対して離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得ることと、に使用され得る。上記の声紋特徴データのプライバシーとセキュリティをさらに確保するために、上記の声紋特徴データをブロックチェーンのノードに記憶してもよいことを強調する必要がある。
任意選択的に、第2の処理モジュール303はさらに、具体的に、
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得ることと、
複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、各グループのウィンドウデータの最大値を第1の話者特徴とし、各グループのウィンドウデータの平均値を第2の話者特徴とすることと、
第1の話者特徴と第2の話者特徴を融合して、ターゲット声紋特徴を得ることと、に使用され得る。
任意選択的に、オリジナル音声の声紋認識装置における、予め設定された損失関数は、
Figure 2022536189000005
であり、
コサイン類似度行列損失関数は、
Figure 2022536189000006
であり、
最小平均二乗誤差行列損失関数は、
Figure 2022536189000007
であり、
ここで、ajiは、j番目の話者のi番目の声紋特徴ベクトルを表し、γは調整係数を表し、Nは、各話者に対応する声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSE)値を表し、c (-i)とcはいずれも、i番目の声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の声紋特徴ベクトルのうちj番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、声紋特徴ベクトルに対応する話者の数を表す。
本出願の実施例では、インテリジェントな推奨処理手段情報を使用することで、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性を低減するとともに、話者オリジナル音声データ認識モデルによるオリジナル音声データの処理際のインテリジェンス、自律性、および利便性を向上させる。
上記の図3および図4では、モジュール機能体の観点から本出願の実施例におけるオリジナル音声の声紋認識装置を詳細に説明し、以下は、ハードウェア処理の観点から本出願の実施例におけるオリジナル音声の声紋認識設備を詳細に説明する。
図5は、本出願の実施例で提供されるオリジナル音声の声紋認識設備の構造模式図であり、当該オリジナル音声の声紋認識設備500は、構成や性能によって差異が比較的大きい可能性があり、1つ以上のプロセッサ(central processing units、CPU)510(例えば、1つ以上のプロセッサ)と、メモリ520と、アプリケーション533やデータ532を記憶する1つ以上の記憶媒体530(例えば、1つ以上の大容量記憶設備)を含み得る。ここで、メモリ520および記憶媒体530は、短期記憶または永続記憶のものであり得る。記憶媒体530に記憶されたプログラムは、1つ以上のモジュール(図示せず)を含み得、各モジュールは、オリジナル音声の声紋認識設備500に対する一連の命令操作を含み得る。さらに、プロセッサ510は、記憶媒体530と通信し、記憶媒体530における一連の命令操作をオリジナル音声の声紋認識設備500上で実行するように構成してもよい。
オリジナル音声の声紋認識設備500はさらに、1つ以上の電源540と、1つ以上の有線または無線ネットワークインターフェース550と、1つ以上の入出力インターフェース560、および/または、Windows Serve、Mac OS X、Unix、Linux、FreeBSDなどの1つ以上のオペレーティングシステム531を含み得る。当業者であれば、図5に示すオリジナル音声の声紋認識設備構造は、オリジナル音声の声紋認識設備を限定するものではなく、図示したものよりも多くのまたは少ない部品を含んでもよいし、特定の部品を組み合わせてもよいし、部品の異なる配置であってもよいことを理解できるであろう。
本出願はさらに、オリジナル音声の声紋認識設備を提供し、命令が記憶されたメモリと、少なくとも1つのプロセッサとを含み、前記メモリと前記少なくとも1つのプロセッサは、回線によって相互に接続されており、前記少なくとも1つのプロセッサが前記メモリ内の前記命令を呼び出して、前記オリジナル音声の声紋認識設備に、上記のオリジナル音声の声紋認識方法のステップを実行させる。
本出願はさらに、コンピュータ可読記憶媒体を提供し、当該コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってもよいし、揮発性コンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体にはコンピュータ命令が記憶されており、前記コンピュータ命令がコンピュータ上で実行されると、
オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、をコンピュータに実行させる。
本出願でいうブロックチェーンは、分散型データストレージ、ピアツーピア伝送、コンセンサスメカニズム、暗号アルゴリズムなどのコンピュータ技術の新しい応用モデルである。ブロックチェーン(Blockchain)は、実質的には分散型データベースであり、暗号化方法で相関して生成されたデータブロックであり、各データブロックには、1回のネットワークトランザクションに関する情報が含まれており、その情報の有効性(偽造防止)を検証し、次のブロックを生成するために使用される。ブロックチェーンは、基礎となるブロックチェーンプラットフォーム、プラットフォーム製品サービス層、およびアプリケーションサービス層などを含み得る。当業者であれば分かるように、説明の便宜上、上述したシステム、装置、およびユニットの具体的な動作プロセスは、上述した方法実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。
前記統合ユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用される場合には、コンピュータ可読取記憶媒体に記憶されてもよい。この理解に基づいて、本出願の技術的解決手段は、実質的に又は従来技術に寄与するその一部、または当該技術的解決手段の全部または一部は、ソフトウェア製品の形で具現化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ設備(パーソナルコンピュータ、サーバやネットワーク設備など)に、本出願の各実施例に記載の方法のステップの全部または一部を実行させるためのいくつかの命令を含む。前述の記憶媒体には、USBメモリー、ポータブルハードディスク、読み取り専用メモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、ディスクまたは光ディスクなど、プログラムコードを記憶できる媒介が含まれている。
前述のように、上記の実施例は、本出願の技術的解決手段を説明するためのものに過ぎず、それらを限定するものではなく、上記の実施例を参照して本出願を詳細に説明したが、当業者であれば分かるように、上記の各実施例に記載された技術的解決手段を修正したり、その技術的特徴の一部を同等のものに置き換えたりすることは可能であり、そのような修正または置き換えは、対応する技術的解決手段の本質を本出願の各実施例の技術的解決手段の精神と範囲から逸脱させるものではない。

Claims (20)

  1. オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得ることと、
    予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることと、
    予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることと、
    前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得ることと、
    予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得ることと、を含む、オリジナル音声の声紋認識方法。
  2. 上述したオリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得ることは、
    オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
    前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
    所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、を含む、請求項1に記載のオリジナル音声の声紋認識方法。
  3. 上述した声紋特徴データはブロックチェーンに記憶され、上述した予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることは、
    前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得することと、
    前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶することと、
    前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得ることと、
    前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることと、を含む、請求項2に記載のオリジナル音声の声紋認識方法。
  4. 上述した予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることは、
    予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得ることと、
    前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第1の話者特徴とし、前記各グループのウィンドウデータの平均値を第2の話者特徴とすることと、
    前記第1の話者特徴と前記第2の話者特徴を融合して、ターゲット声紋特徴を得ることと、を含む、請求項3に記載のオリジナル音声の声紋認識方法。
  5. 前記予め設定された損失関数は、
    Figure 2022536189000008
    であり、
    前記コサイン類似度行列損失関数は、
    Figure 2022536189000009
    であり、
    前記最小平均二乗誤差行列損失関数は、
    Figure 2022536189000010
    であり、
    ここで、ajiは、j番目の話者のi番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Nは、各話者に対応する前記声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSE)値を表し、c (-i)とcはいずれも、i番目の前記声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の前記声紋特徴ベクトルのうち、j番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項1に記載のオリジナル音声の声紋認識方法。
  6. 上述した予め設定された損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得た後、さらに、
    予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得することを含む、請求項1から5のいずれか1項に記載のオリジナル音声の声紋認識方法。
  7. メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータ可読命令とを備え、前記プロセッサが前記コンピュータ可読命令を実行すると、
    オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
    予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
    予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
    前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
    予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、を実現する、オリジナル音声の声紋認識設備。
  8. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得るステップと、
    前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得るステップと、
    所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得るステップと、を実現する、請求項7に記載のオリジナル音声の声紋認識設備。
  9. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得するステップと、
    前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶するステップと、
    前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得るステップと、
    前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、を実現する、請求項8に記載のオリジナル音声の声紋認識設備。
  10. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得るステップと、
    前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第1の話者特徴とし、前記各グループのウィンドウデータの平均値を第2の話者特徴とするステップと、
    前記第1の話者特徴と前記第2の話者特徴を融合して、ターゲット声紋特徴を得るステップと、を実現する、請求項9に記載のオリジナル音声の声紋認識設備。
  11. 前記プロセッサが前記コンピュータプログラムを実行すると、以下のステップを実現し、かつ関連する関数に関して、
    前記予め設定された損失関数は、
    Figure 2022536189000011
    であり、
    前記コサイン類似度行列損失関数は、
    Figure 2022536189000012
    であり、
    前記最小平均二乗誤差行列損失関数は、
    Figure 2022536189000013
    であり、
    ここで、ajiは、j番目の話者のi番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Nは、各話者に対応する前記声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSE)値を表し、c (-i)とcはいずれも、i番目の前記声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の前記声紋特徴ベクトルのうちj番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項7に記載のオリジナル音声の声紋認識設備。
  12. 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
    予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得するステップを実現する、請求項7から11のいずれか1項に記載のオリジナル音声の声紋認識設備。
  13. コンピュータ命令が記憶されており、前記コンピュータ命令がコンピュータ上で実行されると、
    オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
    予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
    予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
    前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
    予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、をコンピュータに実行させる、コンピュータ可読記憶媒体。
  14. 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
    オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得るステップと、
    前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得るステップと、
    所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得るステップと、をコンピュータに実行させる、請求項13に記載のコンピュータ可読記憶媒体。
  15. 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
    前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得するステップと、
    前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶するステップと、
    前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得るステップと、
    前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、をコンピュータに実行させる、請求項14に記載のコンピュータ可読記憶媒体。
  16. 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
    予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得るステップと、
    前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第1の話者特徴とし、前記各グループのウィンドウデータの平均値を第2の話者特徴とするステップと、
    前記第1の話者特徴と前記第2の話者特徴を融合して、ターゲット声紋特徴を得るステップと、をコンピュータに実行させる、請求項15に記載のコンピュータ可読記憶媒体。
  17. 前記コンピュータ命令がコンピュータ上で実行されると、以下のステップを実行する時に、関連する関数に関して、
    前記予め設定された損失関数は、
    Figure 2022536189000014
    であり、
    前記コサイン類似度行列損失関数は、
    Figure 2022536189000015
    であり、
    前記最小平均二乗誤差行列損失関数は、
    Figure 2022536189000016
    であり、
    ここで、ajiは、j番目の話者のi番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Nは、各話者に対応する前記声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSE)値を表し、c (-i)とcはいずれも、i番目の前記声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の前記声紋特徴ベクトルのうちj番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項13に記載のコンピュータ可読記憶媒体。
  18. 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
    予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得するステップをコンピュータに実行させる、請求項13から17のいずれか一項に記載のコンピュータ可読記憶媒体。
  19. オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るための分割モジュールと、
    予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るための第1の処理モジュールと、
    予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第2の処理モジュールと、
    前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第3の処理モジュールと、
    予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュールと、を含む、オリジナル音声の声紋認識装置。
  20. 前記分割モジュールは、具体的には、
    オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
    前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
    所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、に使用されることを特徴とする、請求項19に記載のオリジナル音声の声紋認識装置。
JP2021574347A 2020-04-28 2020-08-26 オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 Active JP7242912B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010351208.3 2020-04-28
CN202010351208.3A CN111524525B (zh) 2020-04-28 2020-04-28 原始语音的声纹识别方法、装置、设备及存储介质
PCT/CN2020/111439 WO2021217978A1 (zh) 2020-04-28 2020-08-26 原始语音的声纹识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022536189A true JP2022536189A (ja) 2022-08-12
JP7242912B2 JP7242912B2 (ja) 2023-03-20

Family

ID=71905020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021574347A Active JP7242912B2 (ja) 2020-04-28 2020-08-26 オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体

Country Status (4)

Country Link
US (1) US11798563B2 (ja)
JP (1) JP7242912B2 (ja)
CN (1) CN111524525B (ja)
WO (1) WO2021217978A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524525B (zh) 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN112017670B (zh) * 2020-08-13 2021-11-02 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
CN111933124B (zh) * 2020-09-18 2021-04-30 电子科技大学 一种可支持自定唤醒词的关键词检测方法
CN112071322B (zh) * 2020-10-30 2022-01-25 北京快鱼电子股份公司 一种端到端的声纹识别方法、装置、存储介质及设备
CN112565242B (zh) * 2020-12-02 2023-04-07 携程计算机技术(上海)有限公司 基于声纹识别的远程授权方法、系统、设备及存储介质
CN112712790B (zh) * 2020-12-23 2023-08-15 平安银行股份有限公司 针对目标说话人的语音提取方法、装置、设备及介质
CN113129908B (zh) * 2021-03-24 2022-07-26 中国科学院声学研究所南海研究站 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
CN113257266B (zh) * 2021-05-21 2021-12-24 特斯联科技集团有限公司 基于声纹多特征融合的复杂环境门禁方法及装置
CN114001827A (zh) * 2021-09-30 2022-02-01 武汉市公用电子工程有限责任公司 温度测量方法、装置、设备及存储介质
CN114299957A (zh) * 2021-11-29 2022-04-08 北京百度网讯科技有限公司 声纹分离方法、装置、电子设备以及存储介质
CN114299953B (zh) * 2021-12-29 2022-08-23 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN114694650A (zh) * 2022-03-29 2022-07-01 青岛海尔科技有限公司 智能设备的控制方法和装置、存储介质及电子设备
CN114648978A (zh) * 2022-04-27 2022-06-21 腾讯科技(深圳)有限公司 一种语音验证处理的方法以及相关装置
CN116610062B (zh) * 2023-07-20 2023-11-03 钛玛科(北京)工业科技有限公司 一种传感器自动对中的语音控制系统
CN116825114B (zh) * 2023-08-31 2023-11-10 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180038219A (ko) * 2016-10-06 2018-04-16 국방과학연구소 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备
CN110853656A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于改进神经网络的音频篡改识别算法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140848B2 (en) * 2004-07-01 2012-03-20 Digimarc Corporation Digital watermark key generation
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
CN107492382B (zh) * 2016-06-13 2020-12-18 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053518A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN107993071A (zh) * 2017-11-21 2018-05-04 平安科技(深圳)有限公司 电子装置、基于声纹的身份验证方法及存储介质
CN108899037B (zh) * 2018-07-05 2024-01-26 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN110164452B (zh) 2018-10-10 2023-03-10 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109524014A (zh) * 2018-11-29 2019-03-26 辽宁工业大学 一种基于深度卷积神经网络的声纹识别分析方法
CN109493847B (zh) * 2018-12-14 2019-10-18 广州一玛网络科技有限公司 声音识别系统以及声音识别装置
CN109637545B (zh) * 2019-01-17 2023-05-30 哈尔滨工程大学 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
KR102294638B1 (ko) * 2019-04-01 2021-08-27 한양대학교 산학협력단 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
CN110120223A (zh) * 2019-04-22 2019-08-13 南京硅基智能科技有限公司 一种基于时延神经网络tdnn的声纹识别方法
KR102316537B1 (ko) * 2019-06-21 2021-10-22 한양대학교 산학협력단 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
US11276410B2 (en) * 2019-09-13 2022-03-15 Microsoft Technology Licensing, Llc Convolutional neural network with phonetic attention for speaker verification
WO2020035085A2 (en) * 2019-10-31 2020-02-20 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics
CN110660399A (zh) * 2019-11-11 2020-01-07 广州国音智能科技有限公司 声纹识别的训练方法、装置、终端及计算机存储介质
WO2021178675A1 (en) * 2020-03-05 2021-09-10 Pindrop Security, Inc. Systems and methods of speaker-independent embedding for identification and verification from audio
US10706857B1 (en) * 2020-04-20 2020-07-07 Kaizen Secure Voiz, Inc. Raw speech speaker-recognition
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
US11996116B2 (en) * 2020-08-24 2024-05-28 Google Llc Methods and systems for implementing on-device non-semantic representation fine-tuning for speech classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180038219A (ko) * 2016-10-06 2018-04-16 국방과학연구소 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN110853656A (zh) * 2019-09-06 2020-02-28 南京工程学院 基于改进神经网络的音频篡改识别算法
CN110767239A (zh) * 2019-09-20 2020-02-07 平安科技(深圳)有限公司 一种基于深度学习的声纹识别方法、装置及设备

Also Published As

Publication number Publication date
CN111524525B (zh) 2023-06-16
JP7242912B2 (ja) 2023-03-20
US20220254350A1 (en) 2022-08-11
WO2021217978A1 (zh) 2021-11-04
CN111524525A (zh) 2020-08-11
US11798563B2 (en) 2023-10-24

Similar Documents

Publication Publication Date Title
JP7242912B2 (ja) オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体
CN110162669B (zh) 视频分类处理方法、装置、计算机设备及存储介质
Hajibabaei et al. Unified hypersphere embedding for speaker recognition
CN111444382B (zh) 一种音频处理方法、装置、计算机设备以及存储介质
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
WO2016119604A1 (zh) 一种语音信息搜索方法、装置及服务器
CN113066499B (zh) 一种陆空通话说话人身份识别方法及装置
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN113129908B (zh) 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
CN113948090A (zh) 语音检测方法、会话记录产品及计算机存储介质
CN116844573A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
KR102429365B1 (ko) 음성감성 분석 시스템 및 방법
CN114913871A (zh) 目标对象分类方法、系统、电子设备及存储介质
CN111326161B (zh) 一种声纹确定方法及装置
CN114898773A (zh) 基于深度自注意力神经网络分类器的合成语音检测方法
CN106971725B (zh) 一种具有优先级的声纹识方法和系统
CN113793598B (zh) 语音处理模型的训练方法和数据增强方法、装置及设备
Nagajyothi et al. Voice Recognition Based on Vector Quantization Using LBG
CN117059092B (zh) 基于区块链的智慧医疗交互式智能分诊方法及系统
CN113449510B (zh) 文本识别方法、装置、设备及存储介质
CN112786050B (zh) 一种语音识别的方法、装置及设备
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230111

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242912

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150