JP2022536190A - 声紋を認識する方法、装置、設備、および記憶媒体 - Google Patents
声紋を認識する方法、装置、設備、および記憶媒体 Download PDFInfo
- Publication number
- JP2022536190A JP2022536190A JP2021574348A JP2021574348A JP2022536190A JP 2022536190 A JP2022536190 A JP 2022536190A JP 2021574348 A JP2021574348 A JP 2021574348A JP 2021574348 A JP2021574348 A JP 2021574348A JP 2022536190 A JP2022536190 A JP 2022536190A
- Authority
- JP
- Japan
- Prior art keywords
- information
- voiceprint recognition
- target
- recognition result
- target feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 90
- 230000006870 function Effects 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000015556 catabolic process Effects 0.000 abstract 1
- 238000006731 degradation reaction Methods 0.000 abstract 1
- 238000012549 training Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
まず、サーバは、被処理音声情報を取得し、かつ予め設定された処理式を用いて被処理音声情報s(n)をプリエンファシス処理して、処理された音声情報s’(n)を得て、予め設定された処理式は
サーバは、まず、予め設定されたアルゴリズムを用いて、目標音声情報集合に含まれる音声シーケンスを収集し、同時に音声シーケンスの振幅スペクトルを取得し、その後、フィルタによって音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得て、最後に、音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、最終的に目標特徴情報を得る。
サーバは、取得された目標特徴情報を、低次元で目標特徴情報を表すベクトルである低次元ベクトルに変換し、サーバは、変換された低次元ベクトルと予め設定された式に基づいて目標特徴情報の類似度行列を計算し、ここでは複数の類似度行列があり、かつ類似度行列を計算するオブジェクトは同じであっても異なっていてもよく、最後に目標特徴情報のマッピング情報を得る。
サーバは、目標音声チャネル情報に含まれる目標特徴ベクトルを抽出し、かつ複数の目標特徴ベクトルの平均値を計算し、その後、目標特徴ベクトルの平均値と第2の損失関数に基づいて目標音声チャネル情報の最小平均二乗誤差行列を計算し、さらに第2の声紋認識結果を得る。
サーバは、得られた第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定する。サーバは、2回最適化された声紋情報を融合して、より正確な声紋認識結果を得る。具体的には、
サーバは、第1の声紋認識結果および第2の声紋認識結果をそれぞれ取得し、その後、融合式を用いて第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定し、融合式は以下に示され、
例えば、サーバは、第1の声紋認識結果と第2の声紋認識結果を得た後、融合式により両者を融合し、融合式は以下に示され、
少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第1の取得モジュール301と、
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて目標特徴情報を最適化して第1の声紋認識結果を得るための第1の最適化モジュール302と、
目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第2の取得モジュール303と、
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化して第2の声紋認識結果を得るための第2の最適化モジュール304と、
第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュール305と、を含む。
少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第1の取得モジュール301と、
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて目標特徴情報を最適化して第1の声紋認識結果を得るための第1の最適化モジュール302と、
目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第2の取得モジュール303と、
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて目標特徴ベクトルを最適化して第2の声紋認識結果を得るための第2の最適化モジュール304と、
第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュール305と、を含む。
予め設定されたアルゴリズムを用いて、目標音声情報集合から目標特徴情報を抽出するための抽出ユニット3021と、
予め設定された式に基づいて目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得るための計算ユニット3022と、
マッピング情報と第1の損失関数に基づいて目標音声情報集合の損失を最適化して、第1の声紋認識結果を得るための最適化ユニット3023と、を含む。
予め設定されたアルゴリズムを用いて、目標音声情報集合に含まれる音声シーケンスを収集し、かつ音声シーケンスの振幅スペクトルを取得することと、
フィルタによって音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得ることと、
音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得ることと、に使用され得る。
目標特徴情報を、低次元で目標特徴情報を表すベクトルである低次元ベクトルに変換することと、
低次元ベクトルと予め設定された式に基づいて、目標特徴情報の類似度行列を計算し、目標特徴情報のマッピング情報を得ることと、に使用され得る。
チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ目標特徴ベクトルの平均値を計算することと、
目標特徴ベクトルの平均値と第2の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第2の声紋認識結果を得ることと、に使用され得る。
第1の声紋認識結果および第2の声紋認識結果を取得することと、
融合式を用いて第1の声紋認識結果と第2の声紋認識結果を融合して、最後の声紋認識結果を決定することと、に使用され得、融合式は以下に示され、
少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るステップと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るステップと、
前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、をコンピュータに実行させる。
Claims (20)
- 少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得することと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得ることと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得することと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得ることと、
前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定することと、を含む声紋認識方法。 - 前記目標音声情報集合がブロックチェーンに記憶され、上述した予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得ることは、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出することと、
予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることと、
前記マッピング情報と第1の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第1の声紋認識結果を得ることとを、含む請求項1に記載の声紋認識方法。 - 上述した予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出することは、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得することと、
フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得ることと、
前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得ることと、を含む請求項2に記載の声紋認識方法。 - 上述した予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることは、
目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換することと、
前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得ることと、を含む請求項2に記載の声紋認識方法。 - 上述した、前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得ることは、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算することと、
前記目標特徴ベクトルの平均値と第2の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第2の声紋認識結果を得ることと、を含む請求項1に記載の声紋認識方法。 - 上述した、少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得することは、
被処理音声情報を取得し、かつ予め設定された処理式により、前記被処理音声情報s(n)をプリエンファシス処理し、処理された音声情報s’(n)を得ることと、ここで、前記予め設定された処理式は
前記処理された音声情報に対してフレーム分割処理を行い、かつ前記処理された各フレームの音声情報に対してウィンドウ処理を行い、少なくとも1つのオブジェクトに対応する音声情報を含む目標音声情報集合を得ることと、を含む請求項1~6のいずれか1項に記載の声紋認識方法。 - メモリと、プロセッサと、前記メモリ上に記憶され、かつ前記プロセッサ上で実行可能なコンピュータ可読命令とを含み、前記プロセッサが前記コンピュータ可読命令を実行すると、
少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るステップと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るステップと、
前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、を実現する声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出するステップと、
予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、
前記マッピング情報と第1の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第1の声紋認識結果を得るステップと、を実現する請求項8に記載の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得するステップと、
フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得るステップと、
前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得るステップと、を実現する請求項9に記載の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換するステップと、
前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、を実現する請求項9に記載の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算するステップと、
前記目標特徴ベクトルの平均値と第2の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第2の声紋認識結果を得るステップと、を実現する請求項8に記載の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、被処理音声情報を取得し、かつ予め設定された処理式により、前記被処理音声情報s(n)をプリエンファシス処理し、処理された音声情報s’(n)を得るステップと、ここで、前記予め設定された処理式は
- コンピュータ命令が記憶され、前記コンピュータ命令がコンピュータ上で実行されると、
少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するステップと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るステップと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するステップと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るステップと、
前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するステップと、をコンピュータに実行させるコンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出するステップと、
予め設定された式に基づいて前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、
前記マッピング情報と第1の損失関数に基づいて前記目標音声情報集合の損失を最適化して、第1の声紋認識結果を得るステップと、をコンピュータに実行させる請求項15に記載のコンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合に含まれる音声シーケンスを収集し、かつ前記音声シーケンスの振幅スペクトルを取得するステップと、
フィルタによって前記音声シーケンスの振幅スペクトルをフィルタリングして、音声シーケンスのフィルタリング出力結果を得るステップと、
前記音声シーケンスのフィルタリング出力結果に対して離散コサイン変換を行い、目標特徴情報を得るステップと、をコンピュータに実行させる請求項16に記載のコンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
目標特徴情報を、低次元で前記目標特徴情報を表すベクトルである低次元ベクトルに変換するステップと、
前記低次元ベクトルと予め設定された式に基づいて、前記目標特徴情報の類似度行列を計算し、前記目標特徴情報のマッピング情報を得るステップと、をコンピュータに実行させる請求項16に記載のコンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ前記目標特徴ベクトルの平均値を計算するステップと、
前記目標特徴ベクトルの平均値と第2の損失関数に基づいて、チャネルノイズ情報の最小平均二乗誤差行列を計算し、第2の声紋認識結果を得るステップと、をコンピュータに実行させる請求項15に記載のコンピュータ可読記憶媒体。 - 少なくとも1つのオブジェクトに対応する、前処理された音声情報を含む被認識目標音声情報集合を取得するための第1の取得モジュールと、
予め設定されたアルゴリズムを用いて、前記目標音声情報集合から目標特徴情報を抽出し、かつ第1の損失関数に基づいて前記目標特徴情報を最適化して第1の声紋認識結果を得るための第1の最適化モジュールと、
前記目標音声情報集合を伝送するための目標音声チャネルの、チャネルノイズ情報を含む目標音声チャネル情報を取得するための第2の取得モジュールと、
前記チャネルノイズ情報に含まれる目標特徴ベクトルを抽出し、かつ第2の損失関数に基づいて前記目標特徴ベクトルを最適化して第2の声紋認識結果を得るための第2の最適化モジュールと、
前記第1の声紋認識結果と前記第2の声紋認識結果を融合して、最後の声紋認識結果を決定するための融合モジュールと、を含む声紋認識装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350084.7A CN111524524B (zh) | 2020-04-28 | 2020-04-28 | 声纹识别方法、装置、设备及存储介质 |
CN202010350084.7 | 2020-04-28 | ||
PCT/CN2020/111464 WO2021217979A1 (zh) | 2020-04-28 | 2020-12-24 | 声纹识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022536190A true JP2022536190A (ja) | 2022-08-12 |
JP7184236B2 JP7184236B2 (ja) | 2022-12-06 |
Family
ID=71902950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021574348A Active JP7184236B2 (ja) | 2020-04-28 | 2020-12-24 | 声紋を認識する方法、装置、設備、および記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12002473B2 (ja) |
JP (1) | JP7184236B2 (ja) |
CN (1) | CN111524524B (ja) |
WO (1) | WO2021217979A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524524B (zh) * | 2020-04-28 | 2021-10-22 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170351487A1 (en) * | 2016-06-06 | 2017-12-07 | Cirrus Logic International Semiconductor Ltd. | Voice user interface |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109378002A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备和存储介质 |
WO2020003533A1 (en) * | 2018-06-29 | 2020-01-02 | Nec Corporation | Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7181017B1 (en) * | 2001-03-23 | 2007-02-20 | David Felsher | System and method for secure three-party communications |
KR100776803B1 (ko) * | 2006-09-26 | 2007-11-19 | 한국전자통신연구원 | 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
CN108877809B (zh) * | 2018-06-29 | 2020-09-22 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN109215665A (zh) * | 2018-07-20 | 2019-01-15 | 广东工业大学 | 一种基于3d卷积神经网络的声纹识别方法 |
CN109285538B (zh) * | 2018-09-19 | 2022-12-27 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN109559749B (zh) * | 2018-12-24 | 2021-06-18 | 思必驰科技股份有限公司 | 用于语音识别系统的联合解码方法及系统 |
CN109767783B (zh) * | 2019-02-15 | 2021-02-02 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
CN110232928B (zh) * | 2019-06-13 | 2021-05-25 | 思必驰科技股份有限公司 | 文本无关说话人验证方法和装置 |
CN110992974B (zh) * | 2019-11-25 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN111312283B (zh) * | 2020-02-24 | 2023-03-21 | 中国工商银行股份有限公司 | 跨信道声纹处理方法及装置 |
CN111524524B (zh) * | 2020-04-28 | 2021-10-22 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
CN111524525B (zh) * | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
-
2020
- 2020-04-28 CN CN202010350084.7A patent/CN111524524B/zh active Active
- 2020-12-24 JP JP2021574348A patent/JP7184236B2/ja active Active
- 2020-12-24 WO PCT/CN2020/111464 patent/WO2021217979A1/zh active Application Filing
- 2020-12-24 US US17/617,314 patent/US12002473B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170351487A1 (en) * | 2016-06-06 | 2017-12-07 | Cirrus Logic International Semiconductor Ltd. | Voice user interface |
WO2020003533A1 (en) * | 2018-06-29 | 2020-01-02 | Nec Corporation | Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium |
CN109378002A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 声纹验证的方法、装置、计算机设备和存储介质 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021217979A1 (zh) | 2021-11-04 |
US12002473B2 (en) | 2024-06-04 |
CN111524524B (zh) | 2021-10-22 |
JP7184236B2 (ja) | 2022-12-06 |
CN111524524A (zh) | 2020-08-11 |
US20220254349A1 (en) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019232829A1 (zh) | 声纹识别方法、装置、计算机设备及存储介质 | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
WO2021139425A1 (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN108281146B (zh) | 一种短语音说话人识别方法和装置 | |
CN108922544B (zh) | 通用向量训练方法、语音聚类方法、装置、设备及介质 | |
JP4177755B2 (ja) | 発話特徴抽出システム | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN110111769B (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
WO2019232826A1 (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
WO2019232833A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
US20020062211A1 (en) | Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition | |
WO2019232867A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN113160852A (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
JP7184236B2 (ja) | 声紋を認識する方法、装置、設備、および記憶媒体 | |
CN112309404B (zh) | 机器语音的鉴别方法、装置、设备及存储介质 | |
CN110767238B (zh) | 基于地址信息的黑名单识别方法、装置、设备及存储介质 | |
Campbell et al. | Feature extraction of automatic speaker recognition, analysis and evaluation in real environment | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
CN111341327A (zh) | 一种基于粒子群算法的说话人语音识别方法、装置和设备 | |
CN117079666A (zh) | 歌曲打分方法、装置、终端设备以及存储介质 | |
Gajic | Auditory based methods for robust speech feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7184236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |