JP2022536189A - オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 - Google Patents
オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 Download PDFInfo
- Publication number
- JP2022536189A JP2022536189A JP2021574347A JP2021574347A JP2022536189A JP 2022536189 A JP2022536189 A JP 2022536189A JP 2021574347 A JP2021574347 A JP 2021574347A JP 2021574347 A JP2021574347 A JP 2021574347A JP 2022536189 A JP2022536189 A JP 2022536189A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voiceprint feature
- audio data
- voiceprint
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 168
- 238000012545 processing Methods 0.000 claims abstract description 119
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000011176 pooling Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 94
- 230000008569 process Effects 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 5
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 62
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
Description
コサイン類似度行列損失関数は、
最小平均二乗誤差行列損失関数は、
ここで、ajiは、j番目の話者のi番目の声紋特徴ベクトルを表し、γは、最小平均二乗誤差行列MMSE損失関数部分全体の大きさを調整するための調整係数を表し、Nは、各話者に対応する声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSEj)値を表し、cj (-i)とckはいずれも、i番目の声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の声紋特徴ベクトルのうちj番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、声紋特徴ベクトルに対応する話者の数を表す。
オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得るための分割モジュール301と、
予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得るための第1の処理モジュール302と、
予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第2の処理モジュール303と、
ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第3の処理モジュール304と、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュール305と、を含む。
オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得るための分割モジュール301と、
予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得るための第1の処理モジュール302と、
予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第2の処理モジュール303と、
ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第3の処理モジュール304と、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュール305と、
予め設定されたデータベースから、ターゲット声紋データに対応する履歴処理データを取得し、履歴処理データをクラスタリングし、クラスタリングされた結果に応じて、ターゲット声紋データの後続の推奨処理手段を取得するための第4の処理モジュール306と、を含む。
オリジナル音声データを取得し、オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、に使用され得る。
分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得することと、
分割音声データのセグメント総数、所定の時間長、および畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、テールバイティング畳み込み符号を畳み込みフィルタバンクにおける畳み込みエンコーダグループに記憶することと、
畳み込みエンコーダグループによって、分割音声データを符号化し、分割音声データに対応する候補声紋特徴データを得ることと、
候補声紋特徴データに対して離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得ることと、に使用され得る。上記の声紋特徴データのプライバシーとセキュリティをさらに確保するために、上記の声紋特徴データをブロックチェーンのノードに記憶してもよいことを強調する必要がある。
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得ることと、
複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、各グループのウィンドウデータの最大値を第1の話者特徴とし、各グループのウィンドウデータの平均値を第2の話者特徴とすることと、
第1の話者特徴と第2の話者特徴を融合して、ターゲット声紋特徴を得ることと、に使用され得る。
コサイン類似度行列損失関数は、
最小平均二乗誤差行列損失関数は、
ここで、ajiは、j番目の話者のi番目の声紋特徴ベクトルを表し、γは調整係数を表し、Nは、各話者に対応する声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSEj)値を表し、cj (-i)とckはいずれも、i番目の声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の声紋特徴ベクトルのうちj番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、声紋特徴ベクトルに対応する話者の数を表す。
オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、をコンピュータに実行させる。
Claims (20)
- オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得ることと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得ることと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得ることと、を含む、オリジナル音声の声紋認識方法。 - 上述したオリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得ることは、
オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、を含む、請求項1に記載のオリジナル音声の声紋認識方法。 - 上述した声紋特徴データはブロックチェーンに記憶され、上述した予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることは、
前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得することと、
前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶することと、
前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得ることと、
前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることと、を含む、請求項2に記載のオリジナル音声の声紋認識方法。 - 上述した予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることは、
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得ることと、
前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第1の話者特徴とし、前記各グループのウィンドウデータの平均値を第2の話者特徴とすることと、
前記第1の話者特徴と前記第2の話者特徴を融合して、ターゲット声紋特徴を得ることと、を含む、請求項3に記載のオリジナル音声の声紋認識方法。 - 前記予め設定された損失関数は、
前記コサイン類似度行列損失関数は、
前記最小平均二乗誤差行列損失関数は、
ここで、ajiは、j番目の話者のi番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Nは、各話者に対応する前記声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSEj)値を表し、cj (-i)とckはいずれも、i番目の前記声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の前記声紋特徴ベクトルのうち、j番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項1に記載のオリジナル音声の声紋認識方法。 - 上述した予め設定された損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得た後、さらに、
予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得することを含む、請求項1から5のいずれか1項に記載のオリジナル音声の声紋認識方法。 - メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータ可読命令とを備え、前記プロセッサが前記コンピュータ可読命令を実行すると、
オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、を実現する、オリジナル音声の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得るステップと、
前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得るステップと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得るステップと、を実現する、請求項7に記載のオリジナル音声の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得するステップと、
前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶するステップと、
前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得るステップと、
前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、を実現する、請求項8に記載のオリジナル音声の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得るステップと、
前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第1の話者特徴とし、前記各グループのウィンドウデータの平均値を第2の話者特徴とするステップと、
前記第1の話者特徴と前記第2の話者特徴を融合して、ターゲット声紋特徴を得るステップと、を実現する、請求項9に記載のオリジナル音声の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、以下のステップを実現し、かつ関連する関数に関して、
前記予め設定された損失関数は、
前記コサイン類似度行列損失関数は、
前記最小平均二乗誤差行列損失関数は、
ここで、ajiは、j番目の話者のi番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Nは、各話者に対応する前記声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSEj)値を表し、cj (-i)とckはいずれも、i番目の前記声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の前記声紋特徴ベクトルのうちj番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項7に記載のオリジナル音声の声紋認識設備。 - 前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得するステップを実現する、請求項7から11のいずれか1項に記載のオリジナル音声の声紋認識設備。 - コンピュータ命令が記憶されており、前記コンピュータ命令がコンピュータ上で実行されると、
オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、をコンピュータに実行させる、コンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得るステップと、
前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得るステップと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得るステップと、をコンピュータに実行させる、請求項13に記載のコンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得するステップと、
前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶するステップと、
前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得るステップと、
前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、をコンピュータに実行させる、請求項14に記載のコンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得るステップと、
前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第1の話者特徴とし、前記各グループのウィンドウデータの平均値を第2の話者特徴とするステップと、
前記第1の話者特徴と前記第2の話者特徴を融合して、ターゲット声紋特徴を得るステップと、をコンピュータに実行させる、請求項15に記載のコンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、以下のステップを実行する時に、関連する関数に関して、
前記予め設定された損失関数は、
前記コサイン類似度行列損失関数は、
前記最小平均二乗誤差行列損失関数は、
ここで、ajiは、j番目の話者のi番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Nは、各話者に対応する前記声紋特徴ベクトルの数を表し、kは、k番目のexp(MMSEj)値を表し、cj (-i)とckはいずれも、i番目の前記声紋特徴ベクトルを除くj番目の話者の他の声紋特徴ベクトルの平均値を表し、w、b、μ、θおよびβは、予め設定されたランダム変数を表し、LCj,tは、t時点の前記声紋特徴ベクトルのうちj番目の話者に対応する声紋特徴ベクトルの平均値を表し、Mは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項13に記載のコンピュータ可読記憶媒体。 - 前記コンピュータ命令がコンピュータ上で実行されると、さらに、
予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得するステップをコンピュータに実行させる、請求項13から17のいずれか一項に記載のコンピュータ可読記憶媒体。 - オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るための分割モジュールと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るための第1の処理モジュールと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第2の処理モジュールと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第3の処理モジュールと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュールと、を含む、オリジナル音声の声紋認識装置。 - 前記分割モジュールは、具体的には、
オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、に使用されることを特徴とする、請求項19に記載のオリジナル音声の声紋認識装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010351208.3 | 2020-04-28 | ||
CN202010351208.3A CN111524525B (zh) | 2020-04-28 | 2020-04-28 | 原始语音的声纹识别方法、装置、设备及存储介质 |
PCT/CN2020/111439 WO2021217978A1 (zh) | 2020-04-28 | 2020-08-26 | 原始语音的声纹识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022536189A true JP2022536189A (ja) | 2022-08-12 |
JP7242912B2 JP7242912B2 (ja) | 2023-03-20 |
Family
ID=71905020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021574347A Active JP7242912B2 (ja) | 2020-04-28 | 2020-08-26 | オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11798563B2 (ja) |
JP (1) | JP7242912B2 (ja) |
CN (1) | CN111524525B (ja) |
WO (1) | WO2021217978A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524525B (zh) | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
CN112017670B (zh) * | 2020-08-13 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 一种目标账户音频的识别方法、装置、设备及介质 |
CN111933124B (zh) * | 2020-09-18 | 2021-04-30 | 电子科技大学 | 一种可支持自定唤醒词的关键词检测方法 |
CN112071322B (zh) * | 2020-10-30 | 2022-01-25 | 北京快鱼电子股份公司 | 一种端到端的声纹识别方法、装置、存储介质及设备 |
CN112565242B (zh) * | 2020-12-02 | 2023-04-07 | 携程计算机技术(上海)有限公司 | 基于声纹识别的远程授权方法、系统、设备及存储介质 |
CN112712790B (zh) * | 2020-12-23 | 2023-08-15 | 平安银行股份有限公司 | 针对目标说话人的语音提取方法、装置、设备及介质 |
CN113129908B (zh) * | 2021-03-24 | 2022-07-26 | 中国科学院声学研究所南海研究站 | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 |
CN113257266B (zh) * | 2021-05-21 | 2021-12-24 | 特斯联科技集团有限公司 | 基于声纹多特征融合的复杂环境门禁方法及装置 |
CN114001827A (zh) * | 2021-09-30 | 2022-02-01 | 武汉市公用电子工程有限责任公司 | 温度测量方法、装置、设备及存储介质 |
CN114299957A (zh) * | 2021-11-29 | 2022-04-08 | 北京百度网讯科技有限公司 | 声纹分离方法、装置、电子设备以及存储介质 |
CN114299953B (zh) * | 2021-12-29 | 2022-08-23 | 湖北微模式科技发展有限公司 | 一种结合嘴部运动分析的话者角色区分方法与系统 |
CN114694650A (zh) * | 2022-03-29 | 2022-07-01 | 青岛海尔科技有限公司 | 智能设备的控制方法和装置、存储介质及电子设备 |
CN114648978A (zh) * | 2022-04-27 | 2022-06-21 | 腾讯科技(深圳)有限公司 | 一种语音验证处理的方法以及相关装置 |
CN116610062B (zh) * | 2023-07-20 | 2023-11-03 | 钛玛科(北京)工业科技有限公司 | 一种传感器自动对中的语音控制系统 |
CN116825114B (zh) * | 2023-08-31 | 2023-11-10 | 深圳市声扬科技有限公司 | 声纹识别方法、装置、电子设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180038219A (ko) * | 2016-10-06 | 2018-04-16 | 국방과학연구소 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
CN110767239A (zh) * | 2019-09-20 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种基于深度学习的声纹识别方法、装置及设备 |
CN110853656A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于改进神经网络的音频篡改识别算法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140848B2 (en) * | 2004-07-01 | 2012-03-20 | Digimarc Corporation | Digital watermark key generation |
US9401148B2 (en) * | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
WO2018053518A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
CN110310647B (zh) * | 2017-09-29 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
CN108899037B (zh) * | 2018-07-05 | 2024-01-26 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及电子设备 |
CN110164452B (zh) | 2018-10-10 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN109493847B (zh) * | 2018-12-14 | 2019-10-18 | 广州一玛网络科技有限公司 | 声音识别系统以及声音识别装置 |
CN109637545B (zh) * | 2019-01-17 | 2023-05-30 | 哈尔滨工程大学 | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 |
CN109801635A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种基于注意力机制的声纹特征提取方法及装置 |
KR102294638B1 (ko) * | 2019-04-01 | 2021-08-27 | 한양대학교 산학협력단 | 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 |
CN110120223A (zh) * | 2019-04-22 | 2019-08-13 | 南京硅基智能科技有限公司 | 一种基于时延神经网络tdnn的声纹识别方法 |
KR102316537B1 (ko) * | 2019-06-21 | 2021-10-22 | 한양대학교 산학협력단 | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 |
US11276410B2 (en) * | 2019-09-13 | 2022-03-15 | Microsoft Technology Licensing, Llc | Convolutional neural network with phonetic attention for speaker verification |
WO2020035085A2 (en) * | 2019-10-31 | 2020-02-20 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for determining voice characteristics |
CN110660399A (zh) * | 2019-11-11 | 2020-01-07 | 广州国音智能科技有限公司 | 声纹识别的训练方法、装置、终端及计算机存储介质 |
WO2021178675A1 (en) * | 2020-03-05 | 2021-09-10 | Pindrop Security, Inc. | Systems and methods of speaker-independent embedding for identification and verification from audio |
US10706857B1 (en) * | 2020-04-20 | 2020-07-07 | Kaizen Secure Voiz, Inc. | Raw speech speaker-recognition |
CN111524525B (zh) * | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
US11996116B2 (en) * | 2020-08-24 | 2024-05-28 | Google Llc | Methods and systems for implementing on-device non-semantic representation fine-tuning for speech classification |
-
2020
- 2020-04-28 CN CN202010351208.3A patent/CN111524525B/zh active Active
- 2020-08-26 US US17/617,296 patent/US11798563B2/en active Active
- 2020-08-26 JP JP2021574347A patent/JP7242912B2/ja active Active
- 2020-08-26 WO PCT/CN2020/111439 patent/WO2021217978A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180038219A (ko) * | 2016-10-06 | 2018-04-16 | 국방과학연구소 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
CN110853656A (zh) * | 2019-09-06 | 2020-02-28 | 南京工程学院 | 基于改进神经网络的音频篡改识别算法 |
CN110767239A (zh) * | 2019-09-20 | 2020-02-07 | 平安科技(深圳)有限公司 | 一种基于深度学习的声纹识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111524525B (zh) | 2023-06-16 |
JP7242912B2 (ja) | 2023-03-20 |
US20220254350A1 (en) | 2022-08-11 |
WO2021217978A1 (zh) | 2021-11-04 |
CN111524525A (zh) | 2020-08-11 |
US11798563B2 (en) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7242912B2 (ja) | オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体 | |
CN110162669B (zh) | 视频分类处理方法、装置、计算机设备及存储介质 | |
Hajibabaei et al. | Unified hypersphere embedding for speaker recognition | |
CN111444382B (zh) | 一种音频处理方法、装置、计算机设备以及存储介质 | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN113066499B (zh) | 一种陆空通话说话人身份识别方法及装置 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
CN113948090A (zh) | 语音检测方法、会话记录产品及计算机存储介质 | |
CN116844573A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
KR102429365B1 (ko) | 음성감성 분석 시스템 및 방법 | |
CN114913871A (zh) | 目标对象分类方法、系统、电子设备及存储介质 | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN114898773A (zh) | 基于深度自注意力神经网络分类器的合成语音检测方法 | |
CN106971725B (zh) | 一种具有优先级的声纹识方法和系统 | |
CN113793598B (zh) | 语音处理模型的训练方法和数据增强方法、装置及设备 | |
Nagajyothi et al. | Voice Recognition Based on Vector Quantization Using LBG | |
CN117059092B (zh) | 基于区块链的智慧医疗交互式智能分诊方法及系统 | |
CN113449510B (zh) | 文本识别方法、装置、设备及存储介质 | |
CN112786050B (zh) | 一种语音识别的方法、装置及设备 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230111 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7242912 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |