JP7396376B2 - なりすまし検出装置、なりすまし検出方法、及びプログラム - Google Patents

なりすまし検出装置、なりすまし検出方法、及びプログラム Download PDF

Info

Publication number
JP7396376B2
JP7396376B2 JP2021576631A JP2021576631A JP7396376B2 JP 7396376 B2 JP7396376 B2 JP 7396376B2 JP 2021576631 A JP2021576631 A JP 2021576631A JP 2021576631 A JP2021576631 A JP 2021576631A JP 7396376 B2 JP7396376 B2 JP 7396376B2
Authority
JP
Japan
Prior art keywords
spectrogram
channel
spoofing detection
detection device
cqt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021576631A
Other languages
English (en)
Other versions
JP2022546663A (ja
Inventor
チョンチョン ワン
コン エイク リー
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2022546663A publication Critical patent/JP2022546663A/ja
Application granted granted Critical
Publication of JP7396376B2 publication Critical patent/JP7396376B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明は、音声からなりすましを検出するための、なりすまし検出装置、なりすまし検出方法、及びこれらを実現するためのプログラムに関する。
話者認識では、人の声から人物を認識する。自動話者認識(ASV)は、個人認証において、フレキシブルなバイオメトリックソリューションを提供する。自動話者認識は、テレフォンバンキング及びコールセンタといった電話ベースのサービス、法医学、多くのマスマーケットにおける消費者向け製品において、適用される機会が増えている。
但し、ASVテクノロジの適用可能性は、なりすましとして知られる意図的な迂回に対するレジレンスによる。他のバイオメトリック技術と同様に、ASVはなりすましに対して脆弱である。ASVに関わる、よく知られているなりすまし攻撃には、なりすまし、再生、テキスト読み上げ、音声合成、音声変換などがある(例えば非特許文献1参照)。詐欺師は、なりすまし攻撃を利用して、バイオメトリックテクノロジを用いて保護されたシステム又はサービスに侵入できる。
従って、バイオメトリック認証におけるASVの有用性を保証するために、なりすまし防止テクノロジが必要となる。混合ガウスモデル(GMM: Gaussian Mixture Model)による定数Qケプストラム係数(CQCC:Constant Q Cepstral coefficient)機能は、ASVでのなりすまし検出のための標準システムである。近年、ディープニューラルネットワーク(DNN)、特に畳み込みニューラルネットワーク(CNN)と共に、CQCC機能が抽出される定数Q変換(CQT:constant Q transform)スペクトログラムを直接使用することによって、より高い精度が達成されている。
Galina Lavrentyeva, et al. "Audio replay attack detection with deep learning frameworks", INTERSPEECH 2017, August 20-24, 2017.
CQTは、時間領域信号x(n)を時間周波数領域に変換して、各周波数ビンの中心周波数が幾何学的に離れ、且つ、品質係数Q、すなわち各ウィンドウの帯域幅に対する中心周波数の比が一定に保たれるようにする。従って、CQTは低周波数ではより優れた周波数分解能を、高周波数ではより優れた時間分解能を有する。CQTは、人間の聴覚システムにおける解像度を反映しており、なりすましの検出に適していると考えられる。
しかしながら、高解像度又は低解像度の設定では、特に、評価の条件が、訓練データと異なる場合に、誤認識が生じることがある。
本発明の目的の一例は、上記問題を解決し、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制し得る、なりすまし検出装置、なりすまし検出方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面における、なりすまし検出装置は、
音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする。
上記目的を達成するため、本発明の一側面における、なりすまし検出方法は、
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする。
上記目的を達成するため、本発明の一側面における、プログラムは、
コンピュータに、
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、
ことを特徴とする。
以上のように本発明によれば、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制することができる。
図面は、詳細な説明とともに、本発明のなりすまし検出方法の原理を説明するのに役立つ。図面は説明のためのものであり、技術の適用を制限するものではない。
図1は、本発明の実施の形態における、なりすまし検出装置の構成を概略的に示すブロック図である。 図2は、本発明の実施の形態における、なりすまし検出装置の詳細構成を示すブロック図である。 図3は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の一例を示すブロック図である。 図4は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の他の例を示すブロック図である。 図5は、本発明の実施の形態における、なりすまし検出装置の動作のフェーズを示す図であり、図5(a)は訓練フェーズを示し、図5(b)はなりすまし検出フェーズを示している。 図6は、本発明の実施の形態における、なりすまし検出装置の全体の動作の一例を示すフロー図である。 図7は、本発明の実施の形態における、なりすまし検出装置の訓練フェーズの特定の動作を示すフロー図である。 図8は、本発明の実施の形態における、なりすまし検出フェーズの特定の動作を示すフロー図である。 図9は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の動作の一例を示すフロー図である。 図10は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の動作の他の例を示すフロー図である。 図11は、本発明の実施の形態における、なりすまし検出装置を実現するコンピュータの一例を示すブロック図である。
以下、本発明の各実施の形態について図面を参照しながら説明する。以下の詳細な説明は、本質的に例示に過ぎず、本発明または本発明の用途および使用を限定することを意図するものではない。更に、本発明の上述の背景又は以下の詳細な説明に提示されたいかなる理論によっても拘束されることを意図するものではない。
(発明の概要)
本発明は、CQTと高速フーリエ変換(FFT)スペクトログラムとの融合をニューラルネットワークにおけるマルチチャネル入力として機能させて、互いに補完し、且つ、スプーフィング検出システムの頑健性を保証するようにすることである。
本発明によれば、本発明のなりすまし検出装置、方法、およびプログラムは、なりすまし検出のための音声発話のより正確でロバストな表現を提供することができる。これは、本発明が、マルチチャネルスペクトログラムとしての複数のスペクトログラムの新しい融合を提供し、それによってDNNがすべてのスペクトログラムから有効な情報を自動的に学習することができるためである。
(実施の形態)
以下、図面を参照しながら、本発明の実施の形態について詳細に説明する。
[装置構成]
最初に、実施の形態における、なりすまし検出装置100の構成について図1を用いて説明する。図1は、本発明の実施の形態における、なりすまし検出装置の構成を概略的に示すブロック図である。
図1に示すように、実施の形態における、なりすまし検出装置は、マルチチャネルスペクトログラム生成部10と、評価部40と、を備えている。マルチチャネルスペクトログラム生成部10は、音声データから種類の異なる複数のスペクトログラムを抽出する。また、マルチチャネルスペクトログラム生成部10は、種類の異なる複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する。
評価部は、生成されたマルチチャネルスペクトログラムを分類器に適用することによって、生成されたマルチチャネルスペクトログラムに対する評価を行う。分類器は、ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築されている。評価部は、生成されたマルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する。
このように、本実施の形態では、複数種類のスペクトログラムを統合して得られたマルチチャネルスペクトログラムが、分類器に適用されて評価が行われる。このため、本実施の形態によれば、話者認識でのなりすまし検出において、誤認識の発生が抑制される。
続いて、図2から図4を用いて、実施の形態における、なりすまし検出装置の構成をより具体的に説明する。図2は、本発明の実施の形態における、なりすまし検出装置の詳細構成を示すブロック図である。
図2に示すように、本実施の形態では、なりすまし検出装置100は、上述したマルチチャネルスペクトログラム生成部10及び評価部40に加えて、分類器訓練部20と、記憶部30とを更に備えている。
上述したように、マルチチャネルスペクトログラム生成部10は、入力された音声データ毎にマルチチャネルスペクトログラムを生成する。ここで、マルチチャネルスペクトログラム生成部10の構成について、図3及び図4を用いて詳細に説明する。
図3は、本実施の形態に係るマルチチャネルスペクトログラム生成部の一例を示すブロック図である。図3において、マルチチャネルスペクトログラム生成部10は、CQT抽出部11と、FFT抽出部12と、リサンプリング部13aと、リサンプリング部13bと、スペクトログラムスタッキング部14とを備えている。
CQT抽出部11は、入力音声データから、CQTスペクトログラムを抽出する。FFT抽出部12は、入力音声データからFFTスペクトログラムを抽出する。同じ音声データのFFTスペクトログラムとCQTスペクトログラムとは、それらの抽出パラメータを制御することによって同じ数のフレーム(時間における次元と呼ばれる)を有する。
FFTスペクトログラムとCQTスペクトログラムとの周波数の次元は、しばしば互いに異なっている。リサンプリング部13aは、周波数の次元が指定された数と同数となるように、CQTスペクトログラムをリサンプリングする。リサンプリング部13bは、周波数の次元が指定された数と同数となるようにFFTスペクトログラムをリサンプリングする。指定される数は、抽出されたCQTスペクトログラム又はFFTスペクトログラムのいずれかの周波数の次元と同数であっても良い。この場合、周波数の次元が指定された数と同数である、抽出済のスペクトログラムは、リサンプリング部を通過しない。スペクトログラムスタッキング部14は、リサンプリング部13a及び13bからの同じサイズのスペクトログラムを2チャンネルのスペクトログラムに重ねて出力する。
図4は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の他の例を示すブロック図である。図4において、マルチチャネルスペクトログラム生成部10は、CQT抽出部11と、FFT抽出部と、ゼロ埋め部15aと、ゼロ埋め部15bと、スペクトログラムスタッキング部14とを備えている。
CQT抽出部11は、入力音声データからCQTスペクトログラムを抽出する。FFT抽出部12は、入力音声データから、FFTスペクトログラムを抽出する。FFTスペクトログラムとCQTスペクトログラムとは、それらの抽出パラメータを制御することによって同じ数のフレームを有する。
FFTスペクトログラムとCQTスペクトログラムの周波数サンプルの数は、多くの場合、互いに異なっている。ゼロ埋め部15aは、周波数における次元が指定された数と同じになるように、CQTスペクトログラムにゼロ埋め、即ち、追加のゼロ要素の配置を行う。ゼロ埋め部15bは、周波数における次元が指定された数と同じになるように、FFTスペクトログラムにゼロ埋めを行う。指定された数は、抽出されたCQTスペクトログラム又はFFTスペクトログラムのいずれかの周波数における次元と同じであっても良い。その場合、周波数における次元が指定された数と同数である、抽出済のスペクトログラムは、ゼロ埋め部を通過しない。スペクトログラムスタッキング部14は、ゼロ埋め部15a及び15bからのリサンプリングされたスペクトログラムを2チャネルスペクトログラムに重ねて出力する。
本実施の形態におけるなりすまし検出装置の動作には、訓練フェーズと、なりすまし検出フェーズとの2つフェーズがある。図5は、本発明の実施の形態におけるなりすまし検出装置の動作のフェーズを示す図であり、図5(a)は訓練フェーズを示し、図5(b)はなりすまし検出フェーズを示している。
図5に示すように、訓練フェーズでは、分類器訓練部20は、マルチチャネルスペクトログラム生成部10に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させる。そして、分類器訓練部20は、生成されたマルチチャネルスペクトログラムと、元の音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する。分類器訓練部20は、構築した分類器のパラメータを、記憶部30に格納する。詳細を以下に示す。
図5(a)に示す訓練フェーズでは、図2又は図3に示すマルチチャネルスペクトログラム生成部10によってマルチチャネルスペクトログラムが生成された後、マルチチャネルスペクトログラムは、それらが対応する「本物」又は「なりすまし」のラベルと共に、訓練データとして、分類器訓練部20に入力される。分類器訓練部20は、分類器を訓練し、学習された分類器のパラメータを、記憶部30に格納する。例えば、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)は、分類器の1つである。分類器訓練部20は、記憶部30内のCNNのパラメータを計算する。
CNN分類器の一例では、CNNは、1つの入力層、1つの出力層、および複数の隠れ層を有する。出力層は2つのノード、即ち、「本物」ノードと「なりすまし」ノードとを含む。このようなCNN分類器を訓練するために、分類器訓練部20は、マルチチャネルスペクトログラム生成部10からのマルチチャネルスペクトログラムを入力層に渡す。
分類器訓練部20は、また、「本物」又は「なりすまし」のラベルを、CNNの出力層に渡す。ここで、「本物」及び「なりすまし」は、それぞれ、[0、1]及び[1、0]といった2次元ベクトルの形式で出力層に提示される。そして、分類器訓練部20は、CNNを訓練して、隠れ層のパラメータを取得し、それらを記憶部30に格納する。
出力ノードの数は1に設定されていても良く、出力は訓練データが「なりすまし」であるかどうかを示す。この場合、「本物」と「なりすまし」とは、それぞれスカラー0と1として表される。
図5(b)に示す、なりすまし検出フェーズにおいて、マルチチャネルスペクトログラム生成部10は、入力されたテスト音声データに対してマルチチャネルスペクトログラムを生成する。図3及び図4における、マルチチャネルスペクトログラム生成部10の2つの例は、訓練フェーズにおけるものと同じである。評価部40は、パラメータが記憶部30に格納されている訓練済の分類器に従って、マルチチャネルスペクトログラム生成部10からの、テスト音声データのマルチチャネルスペクトログラムを評価し、なりすましスコアを出力する。なりすましスコアは、予め設定された閾値と比較される。なりすましスコアが閾値より大きい場合、テストデータは「なりすまし」スピーチとして評価され、そうでない場合は「本物の」スピーチとして評価される。
CNN分類器の例では、評価部40は、分類器の記憶部30から、CNNの隠れ層のパラメータを読み取る。評価部40は、マルチチャネルスペクトログラム生成部10からのマルチチャネルスペクトログラムを入力層に渡す。評価部40は、出力層における事後的な「なりすまし」ノードをスコアとして取得する。
[装置動作]
図6から図10を用いて、本発明の実施の形態におけるなりすまし検出装置100によって実行される処理について説明する。図1~図5は、必要に応じて、以下の説明で参照される。また、実施の形態では、なりすまし検出方法は、なりすまし検出装置を動作させることによって実行される。従って、なりすまし検出装置100によって実行される以下の動作の説明は、実施の形態におけるなりすまし検出方法の説明に代える。
図6を用いて、本実施の形態におけるなりすまし検出装置100の動作の全体について説明する。図6は、本発明の実施の形態における、なりすまし検出装置の全体の動作の一例を示すフロー図である。図6に示すように、なりすまし検出装置100の全体の動作は、訓練フェーズ(ステップA01)の動作と、なりすまし検出フェーズ(ステップA02)の動作と、を含む。但し、これは一例であり、訓練の動作となりすまし検出の動作とは連続して実行されても良いし、時間間隔が挿入されていても良いし、更には、なりすまし検出の動作は、他の訓練の動作と一緒に実行されていても良い。
まず、図6に示すように、なりすまし検出装置100は、訓練フェーズを実行する。訓練フェーズにおいて、マルチチャネルスペクトログラム生成部10は、入力された音声データ毎に、マルチチャネルスペクトログラムを生成する。分類器訓練部20は、分類器を訓練し、分類器のパラメータを、分類器のパラメータのストレージである記憶部30に格納する(ステップA01)。
次に、なりすまし検出装置100は、なりすまし検出フェーズを実行する。なりすまし検出フェーズにおいて、マルチチャネルスペクトログラム生成部10は、入力されたテスト音声データ毎に、マルチチャネルスペクトログラムを生成し、生成したマルチチャネルスペクトログラムを、評価部40に入力する(ステップA02)。
図7を用いて、訓練フェーズについて具体的に説明する。図7は、本発明の実施の形態における、なりすまし検出装置の訓練フェーズの特定の動作を示すフロー図である。
まず、図7に示すように、マルチチャネルスペクトログラム生成部10は、音声データを読み込む(ステップB01)。そして、マルチチャネルスペクトログラム生成部10は、入力された音声データから、マルチチャネルスペクトログラムを生成する(ステップB02)。
次に、分類器訓練部20は、対応するラベル「本物/なりすまし」を読み込む(ステップB03)。分類器訓練部20は、分類器を訓練する(ステップB04)。最後に、分類器訓練部20は、訓練された分類器のパラメータを、記憶部30に格納する(ステップB05)。
図8を用いて、なりすまし検出フェーズについて具体的に説明する。図8は、本発明の実施の形態における、なりすまし検出フェーズの特定の動作を示すフロー図である。
まず、評価部40は、訓練フェーズで記憶部30に格納されている、分類器のパラメータを読み込む(ステップC01)。次に、マルチチャネルスペクトログラム生成部10は、入力された音声データを読み込む(ステップC02)。そして、マルチチャネルスペクトログラム生成部10は、入力された音声データから、マルチチャネルスペクトログラムを生成する(ステップC03)。その後、評価部40は、なりすましスコアを取得する(ステップC04)。
マルチチャネルスペクトログラム生成部10は、図3及び図4に示したように、2つの例を有する。それらの具体的な動作は、それぞれ図9及び図10のフロー図に示される。
図9は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部(図3参照)の動作の一例を示すフロー図である。訓練フェーズとなりすまし検出フェーズとの両方の入力に対して、CQT抽出部11は、CQTスペクトログラムを抽出し(ステップD01)、FFT抽出部12は、FFTスペクトログラムを抽出する(ステップD02)。
次に、リサンプリング部13aは、周波数における次元が指定された次元と同数となるように、CQTスペクトログラムをリサンプリングする(ステップD03)。次に、リサンプリング部13bは、周波数における次元が指定された次元と同数となるように、FFTスペクトログラムをリサンプリングする(ステップD04)。最後に、スペクトログラムスタッキング部14は、リサンプルしたCQTスペクトログラムとFFTスペクトログラムとを重ねる(ステップD05)。
図10は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部(図4参照)の動作の他の例を示すフロー図である。訓練フェーズとなりすまし検出フェーズとの両方の入力に対して、CQT抽出部11は、CQTスペクトログラムを抽出し(ステップE01)、FFT抽出部12がFFTスペクトログラムを抽出する(ステップE02)。
次に、ゼロ埋め部15aは、周波数における次元が指定された次元と同数となるように、CQTスペクトログラムにゼロ埋めを行う(ステップE03)。ゼロ埋め部15bは、周波数における次元が指定された次元と同数となるように、FFTスペクトログラムにゼロ埋めを行う(ステップE04)。最後に、スペクトログラムスタッキング部14は、ゼロ埋めされたCQTスペクトログラムとFFTスペクトログラムとを重ねる(ステップE05)。
[実施の形態における効果]
本実施の形態では、種類の異なるスペクトログラム、例えば、FFT及びCQTが、互いに補完するように、マルチチャネル3次元スペクトログラムに融合される。本実施の形態によれば、人間の聴覚システムの解像度を反映するCQTの利点を得るだけでなく、堅牢性の欠如という問題を解決できる。従って、本実施の形態は、なりすまし検出のための音声発話のより正確でロバストな表現を提供することができる。
[変形例]
本発明の他の例について、上記と同じブロック図(図1及び図2)とフロー図(図6~図8)を用いて説明する。本変形例では、マルチチャネルスペクトログラム生成部10は、種類の異なるスペクトログラムを、それらを積み重ねるのではなく、それらを連結し、これによってマルチチャネルスペクトログラムを生成する。また、本変形例では、FFT及びCQTなどの抽出されたスペクトログラムは、それらのサイズを変えることなく直接使用される。
[プログラム]
実施の形態におけるプログラムは、コンピュータに、図6に示すステップA01及びA02、図7に示すステップB01~B05、そして図8に示すステップC01~C04を実行させるプログラムであれば良い。本実施の形態におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態における、なりすまし検出装置100となりすまし検出方法とが実現される。この場合、コンピュータのプロセッサは、マルチチャネルスペクトログラム生成部10、分類器訓練部20、及び評価部40として機能し、処理を行なう。
本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、マルチチャネルスペクトログラム生成部10、分類器訓練部20、及び評価部40のいずれかとして機能しても良い。
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、なりすまし検出装置を実現するコンピュータについて図11を用いて説明する。図11は、本発明の実施の形態における、なりすまし検出装置を実現するコンピュータの一例を示すブロック図である。
図11に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
CPU111は、記憶装置113に格納された、実施の形態におけるプログラム(コード群)をメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
本実施の形態における、なりすまし検出装置100は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、なりすまし検出装置100は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記21)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする、なりすまし検出装置。
(付記2)
付記1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、分類器訓練手段を、
更に備えている、
ことを特徴とする、なりすまし検出装置。
(付記3)
付記1又は2に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、なりすまし検出装置。
(付記4)
付記1又は2に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、なりすまし検出装置。
(付記5)
付記1から4のいずれかに記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出装置。
(付記6)
付記1から4のいずれかに記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出装置。
(付記7)
付記1から6のいずれかに記載のなりすまし検出装置であって、
種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、なりすまし検出装置。
(付記8)
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする、なりすまし検出方法。
(付記9)
付記8に記載のなりすまし検出方法であって、
(c)マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、ステップを更に有する、
ことを特徴とする、なりすまし検出方法。
(付記10)
付記8又は9に記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、なりすまし検出方法。
(付記11)
付記8又は9に記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、なりすまし検出方法。
(付記12)
付記8から11のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出方法。
(付記13)
付記8から11のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出方法。
(付記14)
付記8から13のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、なりすまし検出方法。
(付記15)
コンピュータに、
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、プログラム。
(付記16)
付記15に記載のプログラムであって、
記コンピュータに、
(c)マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、ステップを更に実行させる、
ことを特徴とする、プログラム
(付記17)
付記15又は16に記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、プログラム
(付記18)
付記15又は16に記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、プログラム
(付記19)
付記15から18のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、プログラム
(付記20)
付記15から18のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、プログラム
(付記21)
付記15から20のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、プログラム
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
以上のように、本発明によれば、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制することができる。本発明は、話者認証といった分野において有用である。
10 マルチチャネルスペクトログラム生成部
11 CQT抽出部
12 FFT抽出部
13a リサンプリング部
13b リサンプリング部
14 スペクトログラムスタッキング部
15a ゼロ埋め部
15b ゼロ埋め部
20 分類器訓練部
30 記憶部
40 評価部
100 なりすまし検出装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (6)

  1. 音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
    ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
    を備えている、ことを特徴とする、なりすまし検出装置。
  2. 請求項1に記載のなりすまし検出装置であって、
    前記マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、分類器訓練手段を、
    更に備えている、
    ことを特徴とする、なりすまし検出装置。
  3. 請求項1に記載のなりすまし検出装置であって、
    前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、前記CQTスペクトログラム及び前記FFTスペクトログラムを同じサイズへとリサンプリングする、
    ことを特徴とする、なりすまし検出装置。
  4. 請求項1に記載のなりすまし検出装置であって、
    前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、前記CQTスペクトログラム及び前記FFTスペクトログラムを同じサイズへとゼロ埋めする、
    ことを特徴とする、なりすまし検出装置。
  5. (a)音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
    (b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
    を有する、ことを特徴とする、なりすまし検出方法。
  6. コンピュータに、
    (a)音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
    (b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
    を実行させる、プログラム。
JP2021576631A 2019-06-28 2019-06-28 なりすまし検出装置、なりすまし検出方法、及びプログラム Active JP7396376B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/025893 WO2020261552A1 (en) 2019-06-28 2019-06-28 Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium

Publications (2)

Publication Number Publication Date
JP2022546663A JP2022546663A (ja) 2022-11-07
JP7396376B2 true JP7396376B2 (ja) 2023-12-12

Family

ID=74061553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021576631A Active JP7396376B2 (ja) 2019-06-28 2019-06-28 なりすまし検出装置、なりすまし検出方法、及びプログラム

Country Status (6)

Country Link
US (1) US11798564B2 (ja)
EP (1) EP3991168A4 (ja)
JP (1) JP7396376B2 (ja)
CN (1) CN114041184A (ja)
BR (1) BR112021025892A2 (ja)
WO (1) WO2020261552A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3991168A4 (en) * 2019-06-28 2022-07-27 NEC Corporation SPOOFING DETECTION DEVICE, SPOOFING DETECTION METHOD AND COMPUTER READABLE STORAGE MEDIUM
CN113284508B (zh) * 2021-07-21 2021-11-09 中国科学院自动化研究所 基于层级区分的生成音频检测系统
CN118212937A (zh) * 2024-03-18 2024-06-18 哈尔滨工程大学 一种基于特征融合和单分类的语音欺诈检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196343A1 (en) 2015-01-02 2016-07-07 Gracenote, Inc. Audio matching based on harmonogram
US20180254046A1 (en) 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
US9978379B2 (en) * 2011-01-05 2018-05-22 Nokia Technologies Oy Multi-channel encoding and/or decoding using non-negative tensor factorization
EP4047551A1 (en) * 2014-10-15 2022-08-24 NEC Corporation Impersonation detection device, impersonation detection method, and recording medium
CN106485192B (zh) * 2015-09-02 2019-12-06 富士通株式会社 用于图像识别的神经网络的训练方法和装置
WO2017108097A1 (en) * 2015-12-22 2017-06-29 Huawei Technologies Duesseldorf Gmbh Localization algorithm for sound sources with known statistics
US10817719B2 (en) * 2016-06-16 2020-10-27 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
US10096321B2 (en) * 2016-08-22 2018-10-09 Intel Corporation Reverberation compensation for far-field speaker recognition
JP6908045B2 (ja) 2016-09-14 2021-07-21 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
JP2018051945A (ja) * 2016-09-29 2018-04-05 三星ダイヤモンド工業株式会社 ダイヤモンドツール及びそのスクライブ方法
US20200323484A1 (en) * 2017-12-14 2020-10-15 Vocalis Health Method and system for screening for covid-19 with a vocal biomarker
US11462209B2 (en) * 2018-05-18 2022-10-04 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
US10593336B2 (en) * 2018-07-26 2020-03-17 Accenture Global Solutions Limited Machine learning for authenticating voice
EP3608918B1 (en) * 2018-08-08 2024-05-22 Tata Consultancy Services Limited Parallel implementation of deep neural networks for classifying heart sound signals
US11222641B2 (en) * 2018-10-05 2022-01-11 Panasonic Intellectual Property Corporation Of America Speaker recognition device, speaker recognition method, and recording medium
US11030292B2 (en) * 2018-12-11 2021-06-08 Advanced New Technologies Co., Ltd. Authentication using sound based monitor detection
KR20200119377A (ko) * 2019-03-25 2020-10-20 삼성전자주식회사 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치
US11501532B2 (en) * 2019-04-25 2022-11-15 International Business Machines Corporation Audiovisual source separation and localization using generative adversarial networks
EP3991168A4 (en) * 2019-06-28 2022-07-27 NEC Corporation SPOOFING DETECTION DEVICE, SPOOFING DETECTION METHOD AND COMPUTER READABLE STORAGE MEDIUM
US11276410B2 (en) * 2019-09-13 2022-03-15 Microsoft Technology Licensing, Llc Convolutional neural network with phonetic attention for speaker verification
US20220335950A1 (en) * 2019-10-18 2022-10-20 Nec Corporation Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium
US20230020631A1 (en) * 2021-07-01 2023-01-19 The Florida State University Research Foundation, Inc. Ear canal deformation based continuous user identification system using ear wearables
US20230053026A1 (en) * 2021-08-12 2023-02-16 SmileDirectClub LLC Systems and methods for providing displayed feedback when using a rear-facing camera

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196343A1 (en) 2015-01-02 2016-07-07 Gracenote, Inc. Audio matching based on harmonogram
US20180254046A1 (en) 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU Meng et al., REPLAY ATTACK DETECTION USING MAGNITUDE AND PHASE INFORMATION WITH ATTENTION-BASED ADAPTIVE FILTERS,ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP),2019年04月17日,pp. 6201-6205
MUCKENHIRN Hannah et al.,Long-Term Spectral Statistics for Voice Presentation Attack Detection,IEEE/ACM Transactions on Audio, Speech,and Language Processing,Vol. 25,2017年08月23日,pp. 2098-2111

Also Published As

Publication number Publication date
WO2020261552A1 (en) 2020-12-30
EP3991168A4 (en) 2022-07-27
JP2022546663A (ja) 2022-11-07
US11798564B2 (en) 2023-10-24
EP3991168A1 (en) 2022-05-04
CN114041184A (zh) 2022-02-11
US20220358934A1 (en) 2022-11-10
BR112021025892A2 (pt) 2022-02-08

Similar Documents

Publication Publication Date Title
Todisco et al. A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients.
JP7396376B2 (ja) なりすまし検出装置、なりすまし検出方法、及びプログラム
Boles et al. Voice biometrics: Deep learning-based voiceprint authentication system
JP6621536B2 (ja) 電子装置、身元認証方法、システム及びコンピュータ読み取り可能な記憶媒体
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
Liu et al. An MFCC‐based text‐independent speaker identification system for access control
JP7367862B2 (ja) ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム
US11688412B2 (en) Multi-modal framework for multi-channel target speech separation
KR102374343B1 (ko) 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
CN111816166A (zh) 声音识别方法、装置以及存储指令的计算机可读存储介质
US20220070207A1 (en) Methods and devices for detecting a spoofing attack
CN114596879A (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Cai et al. Identifying source speakers for voice conversion based spoofing attacks on speaker verification systems
CN110232927B (zh) 说话人验证反欺骗方法和装置
CN111667839A (zh) 注册方法和设备、说话者识别方法和设备
Gupta et al. Replay spoof detection using energy separation based instantaneous frequency estimation from quadrature and in-phase components
Liu et al. Golden gemini is all you need: Finding the sweet spots for speaker verification
Nguyen-Vu et al. On the defense of spoofing countermeasures against adversarial attacks
Wang et al. Audio keyword reconstruction from on-device motion sensor signals via neural frequency unfolding
CN115699170A (zh) 文本回声消除
Wang et al. Using multi-resolution feature maps with convolutional neural networks for anti-spoofing in ASV
Chakravarty et al. Feature extraction using GTCC spectrogram and ResNet50 based classification for audio spoof detection
Zong et al. Black-box audio adversarial example generation using variational autoencoder
KR20200107707A (ko) 화자 인식을 위한 등록 방법 및 장치
Dong et al. Utterance clustering using stereo audio channels

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231113

R151 Written notification of patent or utility model registration

Ref document number: 7396376

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151