JP7396376B2 - なりすまし検出装置、なりすまし検出方法、及びプログラム - Google Patents
なりすまし検出装置、なりすまし検出方法、及びプログラム Download PDFInfo
- Publication number
- JP7396376B2 JP7396376B2 JP2021576631A JP2021576631A JP7396376B2 JP 7396376 B2 JP7396376 B2 JP 7396376B2 JP 2021576631 A JP2021576631 A JP 2021576631A JP 2021576631 A JP2021576631 A JP 2021576631A JP 7396376 B2 JP7396376 B2 JP 7396376B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrogram
- channel
- spoofing detection
- detection device
- cqt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 96
- 238000012549 training Methods 0.000 claims description 54
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 24
- 238000012952 Resampling Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする。
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする。
コンピュータに、
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、
ことを特徴とする。
本発明は、CQTと高速フーリエ変換(FFT)スペクトログラムとの融合をニューラルネットワークにおけるマルチチャネル入力として機能させて、互いに補完し、且つ、スプーフィング検出システムの頑健性を保証するようにすることである。
以下、図面を参照しながら、本発明の実施の形態について詳細に説明する。
最初に、実施の形態における、なりすまし検出装置100の構成について図1を用いて説明する。図1は、本発明の実施の形態における、なりすまし検出装置の構成を概略的に示すブロック図である。
図6から図10を用いて、本発明の実施の形態におけるなりすまし検出装置100によって実行される処理について説明する。図1~図5は、必要に応じて、以下の説明で参照される。また、実施の形態では、なりすまし検出方法は、なりすまし検出装置を動作させることによって実行される。従って、なりすまし検出装置100によって実行される以下の動作の説明は、実施の形態におけるなりすまし検出方法の説明に代える。
本実施の形態では、種類の異なるスペクトログラム、例えば、FFT及びCQTが、互いに補完するように、マルチチャネル3次元スペクトログラムに融合される。本実施の形態によれば、人間の聴覚システムの解像度を反映するCQTの利点を得るだけでなく、堅牢性の欠如という問題を解決できる。従って、本実施の形態は、なりすまし検出のための音声発話のより正確でロバストな表現を提供することができる。
本発明の他の例について、上記と同じブロック図(図1及び図2)とフロー図(図6~図8)を用いて説明する。本変形例では、マルチチャネルスペクトログラム生成部10は、種類の異なるスペクトログラムを、それらを積み重ねるのではなく、それらを連結し、これによってマルチチャネルスペクトログラムを生成する。また、本変形例では、FFT及びCQTなどの抽出されたスペクトログラムは、それらのサイズを変えることなく直接使用される。
実施の形態におけるプログラムは、コンピュータに、図6に示すステップA01及びA02、図7に示すステップB01~B05、そして図8に示すステップC01~C04を実行させるプログラムであれば良い。本実施の形態におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態における、なりすまし検出装置100となりすまし検出方法とが実現される。この場合、コンピュータのプロセッサは、マルチチャネルスペクトログラム生成部10、分類器訓練部20、及び評価部40として機能し、処理を行なう。
ここで、実施の形態におけるプログラムを実行することによって、なりすまし検出装置を実現するコンピュータについて図11を用いて説明する。図11は、本発明の実施の形態における、なりすまし検出装置を実現するコンピュータの一例を示すブロック図である。
音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする、なりすまし検出装置。
付記1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、分類器訓練手段を、
更に備えている、
ことを特徴とする、なりすまし検出装置。
付記1又は2に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、なりすまし検出装置。
付記1又は2に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、なりすまし検出装置。
付記1から4のいずれかに記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出装置。
付記1から4のいずれかに記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出装置。
付記1から6のいずれかに記載のなりすまし検出装置であって、
種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、なりすまし検出装置。
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする、なりすまし検出方法。
付記8に記載のなりすまし検出方法であって、
(c)マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、ステップを更に有する、
ことを特徴とする、なりすまし検出方法。
付記8又は9に記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、なりすまし検出方法。
付記8又は9に記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、なりすまし検出方法。
付記8から11のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出方法。
付記8から11のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出方法。
付記8から13のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、なりすまし検出方法。
コンピュータに、
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、プログラム。
付記15に記載のプログラムであって、
前記コンピュータに、
(c)マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、ステップを更に実行させる、
ことを特徴とする、プログラム。
付記15又は16に記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、プログラム。
付記15又は16に記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、プログラム。
付記15から18のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、プログラム。
付記15から18のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、プログラム。
付記15から20のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、プログラム。
11 CQT抽出部
12 FFT抽出部
13a リサンプリング部
13b リサンプリング部
14 スペクトログラムスタッキング部
15a ゼロ埋め部
15b ゼロ埋め部
20 分類器訓練部
30 記憶部
40 評価部
100 なりすまし検出装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
Claims (6)
- 音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする、なりすまし検出装置。 - 請求項1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、分類器訓練手段を、
更に備えている、
ことを特徴とする、なりすまし検出装置。 - 請求項1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、前記CQTスペクトログラム及び前記FFTスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出装置。 - 請求項1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、前記CQTスペクトログラム及び前記FFTスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出装置。 - (a)音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする、なりすまし検出方法。 - コンピュータに、
(a)音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/025893 WO2020261552A1 (en) | 2019-06-28 | 2019-06-28 | Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022546663A JP2022546663A (ja) | 2022-11-07 |
JP7396376B2 true JP7396376B2 (ja) | 2023-12-12 |
Family
ID=74061553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021576631A Active JP7396376B2 (ja) | 2019-06-28 | 2019-06-28 | なりすまし検出装置、なりすまし検出方法、及びプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11798564B2 (ja) |
EP (1) | EP3991168A4 (ja) |
JP (1) | JP7396376B2 (ja) |
CN (1) | CN114041184A (ja) |
BR (1) | BR112021025892A2 (ja) |
WO (1) | WO2020261552A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3991168A4 (en) * | 2019-06-28 | 2022-07-27 | NEC Corporation | SPOOFING DETECTION DEVICE, SPOOFING DETECTION METHOD AND COMPUTER READABLE STORAGE MEDIUM |
CN113284508B (zh) * | 2021-07-21 | 2021-11-09 | 中国科学院自动化研究所 | 基于层级区分的生成音频检测系统 |
CN118212937A (zh) * | 2024-03-18 | 2024-06-18 | 哈尔滨工程大学 | 一种基于特征融合和单分类的语音欺诈检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160196343A1 (en) | 2015-01-02 | 2016-07-07 | Gracenote, Inc. | Audio matching based on harmonogram |
US20180254046A1 (en) | 2017-03-03 | 2018-09-06 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767806B2 (en) * | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
US9978379B2 (en) * | 2011-01-05 | 2018-05-22 | Nokia Technologies Oy | Multi-channel encoding and/or decoding using non-negative tensor factorization |
EP4047551A1 (en) * | 2014-10-15 | 2022-08-24 | NEC Corporation | Impersonation detection device, impersonation detection method, and recording medium |
CN106485192B (zh) * | 2015-09-02 | 2019-12-06 | 富士通株式会社 | 用于图像识别的神经网络的训练方法和装置 |
WO2017108097A1 (en) * | 2015-12-22 | 2017-06-29 | Huawei Technologies Duesseldorf Gmbh | Localization algorithm for sound sources with known statistics |
US10817719B2 (en) * | 2016-06-16 | 2020-10-27 | Nec Corporation | Signal processing device, signal processing method, and computer-readable recording medium |
US10096321B2 (en) * | 2016-08-22 | 2018-10-09 | Intel Corporation | Reverberation compensation for far-field speaker recognition |
JP6908045B2 (ja) | 2016-09-14 | 2021-07-21 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
JP2018051945A (ja) * | 2016-09-29 | 2018-04-05 | 三星ダイヤモンド工業株式会社 | ダイヤモンドツール及びそのスクライブ方法 |
US20200323484A1 (en) * | 2017-12-14 | 2020-10-15 | Vocalis Health | Method and system for screening for covid-19 with a vocal biomarker |
US11462209B2 (en) * | 2018-05-18 | 2022-10-04 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
US10593336B2 (en) * | 2018-07-26 | 2020-03-17 | Accenture Global Solutions Limited | Machine learning for authenticating voice |
EP3608918B1 (en) * | 2018-08-08 | 2024-05-22 | Tata Consultancy Services Limited | Parallel implementation of deep neural networks for classifying heart sound signals |
US11222641B2 (en) * | 2018-10-05 | 2022-01-11 | Panasonic Intellectual Property Corporation Of America | Speaker recognition device, speaker recognition method, and recording medium |
US11030292B2 (en) * | 2018-12-11 | 2021-06-08 | Advanced New Technologies Co., Ltd. | Authentication using sound based monitor detection |
KR20200119377A (ko) * | 2019-03-25 | 2020-10-20 | 삼성전자주식회사 | 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치 |
US11501532B2 (en) * | 2019-04-25 | 2022-11-15 | International Business Machines Corporation | Audiovisual source separation and localization using generative adversarial networks |
EP3991168A4 (en) * | 2019-06-28 | 2022-07-27 | NEC Corporation | SPOOFING DETECTION DEVICE, SPOOFING DETECTION METHOD AND COMPUTER READABLE STORAGE MEDIUM |
US11276410B2 (en) * | 2019-09-13 | 2022-03-15 | Microsoft Technology Licensing, Llc | Convolutional neural network with phonetic attention for speaker verification |
US20220335950A1 (en) * | 2019-10-18 | 2022-10-20 | Nec Corporation | Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium |
US20230020631A1 (en) * | 2021-07-01 | 2023-01-19 | The Florida State University Research Foundation, Inc. | Ear canal deformation based continuous user identification system using ear wearables |
US20230053026A1 (en) * | 2021-08-12 | 2023-02-16 | SmileDirectClub LLC | Systems and methods for providing displayed feedback when using a rear-facing camera |
-
2019
- 2019-06-28 EP EP19935550.4A patent/EP3991168A4/en not_active Withdrawn
- 2019-06-28 JP JP2021576631A patent/JP7396376B2/ja active Active
- 2019-06-28 WO PCT/JP2019/025893 patent/WO2020261552A1/en active Application Filing
- 2019-06-28 CN CN201980097898.XA patent/CN114041184A/zh active Pending
- 2019-06-28 BR BR112021025892A patent/BR112021025892A2/pt unknown
- 2019-06-28 US US17/621,766 patent/US11798564B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160196343A1 (en) | 2015-01-02 | 2016-07-07 | Gracenote, Inc. | Audio matching based on harmonogram |
US20180254046A1 (en) | 2017-03-03 | 2018-09-06 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
Non-Patent Citations (2)
Title |
---|
LIU Meng et al., REPLAY ATTACK DETECTION USING MAGNITUDE AND PHASE INFORMATION WITH ATTENTION-BASED ADAPTIVE FILTERS,ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP),2019年04月17日,pp. 6201-6205 |
MUCKENHIRN Hannah et al.,Long-Term Spectral Statistics for Voice Presentation Attack Detection,IEEE/ACM Transactions on Audio, Speech,and Language Processing,Vol. 25,2017年08月23日,pp. 2098-2111 |
Also Published As
Publication number | Publication date |
---|---|
WO2020261552A1 (en) | 2020-12-30 |
EP3991168A4 (en) | 2022-07-27 |
JP2022546663A (ja) | 2022-11-07 |
US11798564B2 (en) | 2023-10-24 |
EP3991168A1 (en) | 2022-05-04 |
CN114041184A (zh) | 2022-02-11 |
US20220358934A1 (en) | 2022-11-10 |
BR112021025892A2 (pt) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Todisco et al. | A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients. | |
JP7396376B2 (ja) | なりすまし検出装置、なりすまし検出方法、及びプログラム | |
Boles et al. | Voice biometrics: Deep learning-based voiceprint authentication system | |
JP6621536B2 (ja) | 電子装置、身元認証方法、システム及びコンピュータ読み取り可能な記憶媒体 | |
CN106887225B (zh) | 基于卷积神经网络的声学特征提取方法、装置和终端设备 | |
Liu et al. | An MFCC‐based text‐independent speaker identification system for access control | |
JP7367862B2 (ja) | ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム | |
US11688412B2 (en) | Multi-modal framework for multi-channel target speech separation | |
KR102374343B1 (ko) | 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템 | |
CN111816166A (zh) | 声音识别方法、装置以及存储指令的计算机可读存储介质 | |
US20220070207A1 (en) | Methods and devices for detecting a spoofing attack | |
CN114596879A (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
Cai et al. | Identifying source speakers for voice conversion based spoofing attacks on speaker verification systems | |
CN110232927B (zh) | 说话人验证反欺骗方法和装置 | |
CN111667839A (zh) | 注册方法和设备、说话者识别方法和设备 | |
Gupta et al. | Replay spoof detection using energy separation based instantaneous frequency estimation from quadrature and in-phase components | |
Liu et al. | Golden gemini is all you need: Finding the sweet spots for speaker verification | |
Nguyen-Vu et al. | On the defense of spoofing countermeasures against adversarial attacks | |
Wang et al. | Audio keyword reconstruction from on-device motion sensor signals via neural frequency unfolding | |
CN115699170A (zh) | 文本回声消除 | |
Wang et al. | Using multi-resolution feature maps with convolutional neural networks for anti-spoofing in ASV | |
Chakravarty et al. | Feature extraction using GTCC spectrogram and ResNet50 based classification for audio spoof detection | |
Zong et al. | Black-box audio adversarial example generation using variational autoencoder | |
KR20200107707A (ko) | 화자 인식을 위한 등록 방법 및 장치 | |
Dong et al. | Utterance clustering using stereo audio channels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231113 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7396376 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |