JP7396376B2

JP7396376B2 - なりすまし検出装置、なりすまし検出方法、及びプログラム

Info

Publication number: JP7396376B2
Application number: JP2021576631A
Authority: JP
Inventors: チョンチョンワン; コンエイクリー; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2023-12-12
Anticipated expiration: 2039-06-28
Also published as: WO2020261552A1; EP3991168A4; JP2022546663A; US11798564B2; EP3991168A1; CN114041184A; US20220358934A1; BR112021025892A2

Description

本発明は、音声からなりすましを検出するための、なりすまし検出装置、なりすまし検出方法、及びこれらを実現するためのプログラムに関する。

話者認識では、人の声から人物を認識する。自動話者認識（ＡＳＶ）は、個人認証において、フレキシブルなバイオメトリックソリューションを提供する。自動話者認識は、テレフォンバンキング及びコールセンタといった電話ベースのサービス、法医学、多くのマスマーケットにおける消費者向け製品において、適用される機会が増えている。

但し、ＡＳＶテクノロジの適用可能性は、なりすましとして知られる意図的な迂回に対するレジレンスによる。他のバイオメトリック技術と同様に、ＡＳＶはなりすましに対して脆弱である。ＡＳＶに関わる、よく知られているなりすまし攻撃には、なりすまし、再生、テキスト読み上げ、音声合成、音声変換などがある（例えば非特許文献１参照）。詐欺師は、なりすまし攻撃を利用して、バイオメトリックテクノロジを用いて保護されたシステム又はサービスに侵入できる。

従って、バイオメトリック認証におけるＡＳＶの有用性を保証するために、なりすまし防止テクノロジが必要となる。混合ガウスモデル（ＧＭＭ： Gaussian Mixture Model）による定数Ｑケプストラム係数（ＣＱＣＣ：Constant Q Cepstral coefficient）機能は、ＡＳＶでのなりすまし検出のための標準システムである。近年、ディープニューラルネットワーク（ＤＮＮ）、特に畳み込みニューラルネットワーク（ＣＮＮ）と共に、ＣＱＣＣ機能が抽出される定数Ｑ変換（ＣＱＴ：constant Q transform）スペクトログラムを直接使用することによって、より高い精度が達成されている。

Galina Lavrentyeva, et al. "Audio replay attack detection with deep learning frameworks", INTERSPEECH 2017, August 20-24, 2017.

ＣＱＴは、時間領域信号ｘ（ｎ）を時間周波数領域に変換して、各周波数ビンの中心周波数が幾何学的に離れ、且つ、品質係数Ｑ、すなわち各ウィンドウの帯域幅に対する中心周波数の比が一定に保たれるようにする。従って、ＣＱＴは低周波数ではより優れた周波数分解能を、高周波数ではより優れた時間分解能を有する。ＣＱＴは、人間の聴覚システムにおける解像度を反映しており、なりすましの検出に適していると考えられる。

しかしながら、高解像度又は低解像度の設定では、特に、評価の条件が、訓練データと異なる場合に、誤認識が生じることがある。

本発明の目的の一例は、上記問題を解決し、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制し得る、なりすまし検出装置、なりすまし検出方法、及びプログラムを提供することにある。

上記目的を達成するため、本発明の一側面における、なりすまし検出装置は、
音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする。

上記目的を達成するため、本発明の一側面における、なりすまし検出方法は、
（ａ）音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
（ｂ）ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする。

上記目的を達成するため、本発明の一側面における、プログラムは、
コンピュータに、
（ａ）音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
（ｂ）ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、
ことを特徴とする。

以上のように本発明によれば、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制することができる。

図面は、詳細な説明とともに、本発明のなりすまし検出方法の原理を説明するのに役立つ。図面は説明のためのものであり、技術の適用を制限するものではない。
図１は、本発明の実施の形態における、なりすまし検出装置の構成を概略的に示すブロック図である。図２は、本発明の実施の形態における、なりすまし検出装置の詳細構成を示すブロック図である。図３は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の一例を示すブロック図である。図４は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の他の例を示すブロック図である。図５は、本発明の実施の形態における、なりすまし検出装置の動作のフェーズを示す図であり、図５（ａ）は訓練フェーズを示し、図５（ｂ）はなりすまし検出フェーズを示している。図６は、本発明の実施の形態における、なりすまし検出装置の全体の動作の一例を示すフロー図である。図７は、本発明の実施の形態における、なりすまし検出装置の訓練フェーズの特定の動作を示すフロー図である。図８は、本発明の実施の形態における、なりすまし検出フェーズの特定の動作を示すフロー図である。図９は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の動作の一例を示すフロー図である。図１０は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の動作の他の例を示すフロー図である。図１１は、本発明の実施の形態における、なりすまし検出装置を実現するコンピュータの一例を示すブロック図である。

以下、本発明の各実施の形態について図面を参照しながら説明する。以下の詳細な説明は、本質的に例示に過ぎず、本発明または本発明の用途および使用を限定することを意図するものではない。更に、本発明の上述の背景又は以下の詳細な説明に提示されたいかなる理論によっても拘束されることを意図するものではない。

（発明の概要）
本発明は、ＣＱＴと高速フーリエ変換（ＦＦＴ）スペクトログラムとの融合をニューラルネットワークにおけるマルチチャネル入力として機能させて、互いに補完し、且つ、スプーフィング検出システムの頑健性を保証するようにすることである。

本発明によれば、本発明のなりすまし検出装置、方法、およびプログラムは、なりすまし検出のための音声発話のより正確でロバストな表現を提供することができる。これは、本発明が、マルチチャネルスペクトログラムとしての複数のスペクトログラムの新しい融合を提供し、それによってＤＮＮがすべてのスペクトログラムから有効な情報を自動的に学習することができるためである。

（実施の形態）
以下、図面を参照しながら、本発明の実施の形態について詳細に説明する。

［装置構成］
最初に、実施の形態における、なりすまし検出装置１００の構成について図１を用いて説明する。図１は、本発明の実施の形態における、なりすまし検出装置の構成を概略的に示すブロック図である。

図１に示すように、実施の形態における、なりすまし検出装置は、マルチチャネルスペクトログラム生成部１０と、評価部４０と、を備えている。マルチチャネルスペクトログラム生成部１０は、音声データから種類の異なる複数のスペクトログラムを抽出する。また、マルチチャネルスペクトログラム生成部１０は、種類の異なる複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する。

評価部は、生成されたマルチチャネルスペクトログラムを分類器に適用することによって、生成されたマルチチャネルスペクトログラムに対する評価を行う。分類器は、ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築されている。評価部は、生成されたマルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する。

このように、本実施の形態では、複数種類のスペクトログラムを統合して得られたマルチチャネルスペクトログラムが、分類器に適用されて評価が行われる。このため、本実施の形態によれば、話者認識でのなりすまし検出において、誤認識の発生が抑制される。

続いて、図２から図４を用いて、実施の形態における、なりすまし検出装置の構成をより具体的に説明する。図２は、本発明の実施の形態における、なりすまし検出装置の詳細構成を示すブロック図である。

図２に示すように、本実施の形態では、なりすまし検出装置１００は、上述したマルチチャネルスペクトログラム生成部１０及び評価部４０に加えて、分類器訓練部２０と、記憶部３０とを更に備えている。

上述したように、マルチチャネルスペクトログラム生成部１０は、入力された音声データ毎にマルチチャネルスペクトログラムを生成する。ここで、マルチチャネルスペクトログラム生成部１０の構成について、図３及び図４を用いて詳細に説明する。

図３は、本実施の形態に係るマルチチャネルスペクトログラム生成部の一例を示すブロック図である。図３において、マルチチャネルスペクトログラム生成部１０は、ＣＱＴ抽出部１１と、ＦＦＴ抽出部１２と、リサンプリング部１３ａと、リサンプリング部１３ｂと、スペクトログラムスタッキング部１４とを備えている。

ＣＱＴ抽出部１１は、入力音声データから、ＣＱＴスペクトログラムを抽出する。ＦＦＴ抽出部１２は、入力音声データからＦＦＴスペクトログラムを抽出する。同じ音声データのＦＦＴスペクトログラムとＣＱＴスペクトログラムとは、それらの抽出パラメータを制御することによって同じ数のフレーム（時間における次元と呼ばれる）を有する。

ＦＦＴスペクトログラムとＣＱＴスペクトログラムとの周波数の次元は、しばしば互いに異なっている。リサンプリング部１３ａは、周波数の次元が指定された数と同数となるように、ＣＱＴスペクトログラムをリサンプリングする。リサンプリング部１３ｂは、周波数の次元が指定された数と同数となるようにＦＦＴスペクトログラムをリサンプリングする。指定される数は、抽出されたＣＱＴスペクトログラム又はＦＦＴスペクトログラムのいずれかの周波数の次元と同数であっても良い。この場合、周波数の次元が指定された数と同数である、抽出済のスペクトログラムは、リサンプリング部を通過しない。スペクトログラムスタッキング部１４は、リサンプリング部１３ａ及び１３ｂからの同じサイズのスペクトログラムを２チャンネルのスペクトログラムに重ねて出力する。

図４は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の他の例を示すブロック図である。図４において、マルチチャネルスペクトログラム生成部１０は、ＣＱＴ抽出部１１と、ＦＦＴ抽出部と、ゼロ埋め部１５ａと、ゼロ埋め部１５ｂと、スペクトログラムスタッキング部１４とを備えている。

ＣＱＴ抽出部１１は、入力音声データからＣＱＴスペクトログラムを抽出する。ＦＦＴ抽出部１２は、入力音声データから、ＦＦＴスペクトログラムを抽出する。ＦＦＴスペクトログラムとＣＱＴスペクトログラムとは、それらの抽出パラメータを制御することによって同じ数のフレームを有する。

ＦＦＴスペクトログラムとＣＱＴスペクトログラムの周波数サンプルの数は、多くの場合、互いに異なっている。ゼロ埋め部１５ａは、周波数における次元が指定された数と同じになるように、ＣＱＴスペクトログラムにゼロ埋め、即ち、追加のゼロ要素の配置を行う。ゼロ埋め部１５ｂは、周波数における次元が指定された数と同じになるように、ＦＦＴスペクトログラムにゼロ埋めを行う。指定された数は、抽出されたＣＱＴスペクトログラム又はＦＦＴスペクトログラムのいずれかの周波数における次元と同じであっても良い。その場合、周波数における次元が指定された数と同数である、抽出済のスペクトログラムは、ゼロ埋め部を通過しない。スペクトログラムスタッキング部１４は、ゼロ埋め部１５ａ及び１５ｂからのリサンプリングされたスペクトログラムを２チャネルスペクトログラムに重ねて出力する。

本実施の形態におけるなりすまし検出装置の動作には、訓練フェーズと、なりすまし検出フェーズとの２つフェーズがある。図５は、本発明の実施の形態におけるなりすまし検出装置の動作のフェーズを示す図であり、図５（ａ）は訓練フェーズを示し、図５（ｂ）はなりすまし検出フェーズを示している。

図５に示すように、訓練フェーズでは、分類器訓練部２０は、マルチチャネルスペクトログラム生成部１０に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させる。そして、分類器訓練部２０は、生成されたマルチチャネルスペクトログラムと、元の音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する。分類器訓練部２０は、構築した分類器のパラメータを、記憶部３０に格納する。詳細を以下に示す。

図５（ａ）に示す訓練フェーズでは、図２又は図３に示すマルチチャネルスペクトログラム生成部１０によってマルチチャネルスペクトログラムが生成された後、マルチチャネルスペクトログラムは、それらが対応する「本物」又は「なりすまし」のラベルと共に、訓練データとして、分類器訓練部２０に入力される。分類器訓練部２０は、分類器を訓練し、学習された分類器のパラメータを、記憶部３０に格納する。例えば、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）は、分類器の１つである。分類器訓練部２０は、記憶部３０内のＣＮＮのパラメータを計算する。

ＣＮＮ分類器の一例では、ＣＮＮは、１つの入力層、１つの出力層、および複数の隠れ層を有する。出力層は２つのノード、即ち、「本物」ノードと「なりすまし」ノードとを含む。このようなＣＮＮ分類器を訓練するために、分類器訓練部２０は、マルチチャネルスペクトログラム生成部１０からのマルチチャネルスペクトログラムを入力層に渡す。

分類器訓練部２０は、また、「本物」又は「なりすまし」のラベルを、ＣＮＮの出力層に渡す。ここで、「本物」及び「なりすまし」は、それぞれ、［０、１］及び［１、０］といった２次元ベクトルの形式で出力層に提示される。そして、分類器訓練部２０は、ＣＮＮを訓練して、隠れ層のパラメータを取得し、それらを記憶部３０に格納する。

出力ノードの数は１に設定されていても良く、出力は訓練データが「なりすまし」であるかどうかを示す。この場合、「本物」と「なりすまし」とは、それぞれスカラー０と１として表される。

図５（ｂ）に示す、なりすまし検出フェーズにおいて、マルチチャネルスペクトログラム生成部１０は、入力されたテスト音声データに対してマルチチャネルスペクトログラムを生成する。図３及び図４における、マルチチャネルスペクトログラム生成部１０の２つの例は、訓練フェーズにおけるものと同じである。評価部４０は、パラメータが記憶部３０に格納されている訓練済の分類器に従って、マルチチャネルスペクトログラム生成部１０からの、テスト音声データのマルチチャネルスペクトログラムを評価し、なりすましスコアを出力する。なりすましスコアは、予め設定された閾値と比較される。なりすましスコアが閾値より大きい場合、テストデータは「なりすまし」スピーチとして評価され、そうでない場合は「本物の」スピーチとして評価される。

ＣＮＮ分類器の例では、評価部４０は、分類器の記憶部３０から、ＣＮＮの隠れ層のパラメータを読み取る。評価部４０は、マルチチャネルスペクトログラム生成部１０からのマルチチャネルスペクトログラムを入力層に渡す。評価部４０は、出力層における事後的な「なりすまし」ノードをスコアとして取得する。

［装置動作］
図６から図１０を用いて、本発明の実施の形態におけるなりすまし検出装置１００によって実行される処理について説明する。図１～図５は、必要に応じて、以下の説明で参照される。また、実施の形態では、なりすまし検出方法は、なりすまし検出装置を動作させることによって実行される。従って、なりすまし検出装置１００によって実行される以下の動作の説明は、実施の形態におけるなりすまし検出方法の説明に代える。

図６を用いて、本実施の形態におけるなりすまし検出装置１００の動作の全体について説明する。図６は、本発明の実施の形態における、なりすまし検出装置の全体の動作の一例を示すフロー図である。図６に示すように、なりすまし検出装置１００の全体の動作は、訓練フェーズ（ステップＡ０１）の動作と、なりすまし検出フェーズ（ステップＡ０２）の動作と、を含む。但し、これは一例であり、訓練の動作となりすまし検出の動作とは連続して実行されても良いし、時間間隔が挿入されていても良いし、更には、なりすまし検出の動作は、他の訓練の動作と一緒に実行されていても良い。

まず、図６に示すように、なりすまし検出装置１００は、訓練フェーズを実行する。訓練フェーズにおいて、マルチチャネルスペクトログラム生成部１０は、入力された音声データ毎に、マルチチャネルスペクトログラムを生成する。分類器訓練部２０は、分類器を訓練し、分類器のパラメータを、分類器のパラメータのストレージである記憶部３０に格納する（ステップＡ０１）。

次に、なりすまし検出装置１００は、なりすまし検出フェーズを実行する。なりすまし検出フェーズにおいて、マルチチャネルスペクトログラム生成部１０は、入力されたテスト音声データ毎に、マルチチャネルスペクトログラムを生成し、生成したマルチチャネルスペクトログラムを、評価部４０に入力する（ステップＡ０２）。

図７を用いて、訓練フェーズについて具体的に説明する。図７は、本発明の実施の形態における、なりすまし検出装置の訓練フェーズの特定の動作を示すフロー図である。

まず、図７に示すように、マルチチャネルスペクトログラム生成部１０は、音声データを読み込む（ステップＢ０１）。そして、マルチチャネルスペクトログラム生成部１０は、入力された音声データから、マルチチャネルスペクトログラムを生成する（ステップＢ０２）。

次に、分類器訓練部２０は、対応するラベル「本物／なりすまし」を読み込む（ステップＢ０３）。分類器訓練部２０は、分類器を訓練する（ステップＢ０４）。最後に、分類器訓練部２０は、訓練された分類器のパラメータを、記憶部３０に格納する（ステップＢ０５）。

図８を用いて、なりすまし検出フェーズについて具体的に説明する。図８は、本発明の実施の形態における、なりすまし検出フェーズの特定の動作を示すフロー図である。

まず、評価部４０は、訓練フェーズで記憶部３０に格納されている、分類器のパラメータを読み込む（ステップＣ０１）。次に、マルチチャネルスペクトログラム生成部１０は、入力された音声データを読み込む（ステップＣ０２）。そして、マルチチャネルスペクトログラム生成部１０は、入力された音声データから、マルチチャネルスペクトログラムを生成する（ステップＣ０３）。その後、評価部４０は、なりすましスコアを取得する（ステップＣ０４）。

マルチチャネルスペクトログラム生成部１０は、図３及び図４に示したように、２つの例を有する。それらの具体的な動作は、それぞれ図９及び図１０のフロー図に示される。

図９は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部（図３参照）の動作の一例を示すフロー図である。訓練フェーズとなりすまし検出フェーズとの両方の入力に対して、ＣＱＴ抽出部１１は、ＣＱＴスペクトログラムを抽出し（ステップＤ０１）、ＦＦＴ抽出部１２は、ＦＦＴスペクトログラムを抽出する（ステップＤ０２）。

次に、リサンプリング部１３ａは、周波数における次元が指定された次元と同数となるように、ＣＱＴスペクトログラムをリサンプリングする（ステップＤ０３）。次に、リサンプリング部１３ｂは、周波数における次元が指定された次元と同数となるように、ＦＦＴスペクトログラムをリサンプリングする（ステップＤ０４）。最後に、スペクトログラムスタッキング部１４は、リサンプルしたＣＱＴスペクトログラムとＦＦＴスペクトログラムとを重ねる（ステップＤ０５）。

図１０は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部（図４参照）の動作の他の例を示すフロー図である。訓練フェーズとなりすまし検出フェーズとの両方の入力に対して、ＣＱＴ抽出部１１は、ＣＱＴスペクトログラムを抽出し（ステップＥ０１）、ＦＦＴ抽出部１２がＦＦＴスペクトログラムを抽出する（ステップＥ０２）。

次に、ゼロ埋め部１５ａは、周波数における次元が指定された次元と同数となるように、ＣＱＴスペクトログラムにゼロ埋めを行う（ステップＥ０３）。ゼロ埋め部１５ｂは、周波数における次元が指定された次元と同数となるように、ＦＦＴスペクトログラムにゼロ埋めを行う（ステップＥ０４）。最後に、スペクトログラムスタッキング部１４は、ゼロ埋めされたＣＱＴスペクトログラムとＦＦＴスペクトログラムとを重ねる（ステップＥ０５）。

［実施の形態における効果］
本実施の形態では、種類の異なるスペクトログラム、例えば、ＦＦＴ及びＣＱＴが、互いに補完するように、マルチチャネル３次元スペクトログラムに融合される。本実施の形態によれば、人間の聴覚システムの解像度を反映するＣＱＴの利点を得るだけでなく、堅牢性の欠如という問題を解決できる。従って、本実施の形態は、なりすまし検出のための音声発話のより正確でロバストな表現を提供することができる。

［変形例］
本発明の他の例について、上記と同じブロック図（図１及び図２）とフロー図（図６～図８）を用いて説明する。本変形例では、マルチチャネルスペクトログラム生成部１０は、種類の異なるスペクトログラムを、それらを積み重ねるのではなく、それらを連結し、これによってマルチチャネルスペクトログラムを生成する。また、本変形例では、ＦＦＴ及びＣＱＴなどの抽出されたスペクトログラムは、それらのサイズを変えることなく直接使用される。

［プログラム］
実施の形態におけるプログラムは、コンピュータに、図６に示すステップＡ０１及びＡ０２、図７に示すステップＢ０１～Ｂ０５、そして図８に示すステップＣ０１～Ｃ０４を実行させるプログラムであれば良い。本実施の形態におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態における、なりすまし検出装置１００となりすまし検出方法とが実現される。この場合、コンピュータのプロセッサは、マルチチャネルスペクトログラム生成部１０、分類器訓練部２０、及び評価部４０として機能し、処理を行なう。

本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、マルチチャネルスペクトログラム生成部１０、分類器訓練部２０、及び評価部４０のいずれかとして機能しても良い。

［物理構成］
ここで、実施の形態におけるプログラムを実行することによって、なりすまし検出装置を実現するコンピュータについて図１１を用いて説明する。図１１は、本発明の実施の形態における、なりすまし検出装置を実現するコンピュータの一例を示すブロック図である。

図１１に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていても良い。

ＣＰＵ１１１は、記憶装置１１３に格納された、実施の形態におけるプログラム（コード群）をメインメモリ１１２に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体が挙げられる。

本実施の形態における、なりすまし検出装置１００は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、なりすまし検出装置１００は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）～（付記２１）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする、なりすまし検出装置。

（付記２）
付記１に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、分類器訓練手段を、
更に備えている、
ことを特徴とする、なりすまし検出装置。

（付記３）
付記１又は２に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、なりすまし検出装置。

（付記４）
付記１又は２に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、なりすまし検出装置。

（付記５）
付記１から４のいずれかに記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出装置。

（付記６）
付記１から４のいずれかに記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出装置。

（付記７）
付記１から６のいずれかに記載のなりすまし検出装置であって、
種類の異なるスペクトログラムは、ＦＦＴスペクトログラム、及びＣＱＴスペクトログラムを含む、
ことを特徴とする、なりすまし検出装置。

（付記８）
（ａ）音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
（ｂ）ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする、なりすまし検出方法。

（付記９）
付記８に記載のなりすまし検出方法であって、
（ｃ）マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、ステップを更に有する、
ことを特徴とする、なりすまし検出方法。

（付記１０）
付記８又は９に記載のなりすまし検出方法であって、
前記（ａ）のステップにおいて、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、なりすまし検出方法。

（付記１１）
付記８又は９に記載のなりすまし検出方法であって、
前記（ａ）のステップにおいて、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、なりすまし検出方法。

（付記１２）
付記８から１１のいずれかに記載のなりすまし検出方法であって、
前記（ａ）のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出方法。

（付記１３）
付記８から１１のいずれかに記載のなりすまし検出方法であって、
前記（ａ）のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出方法。

（付記１４）
付記８から１３のいずれかに記載のなりすまし検出方法であって、
前記（ａ）のステップにおいて、種類の異なるスペクトログラムは、ＦＦＴスペクトログラム、及びＣＱＴスペクトログラムを含む、
ことを特徴とする、なりすまし検出方法。

（付記１５）
コンピュータに、
（ａ）音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
（ｂ）ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、プログラム。

（付記１６）
付記１５に記載のプログラムであって、
前記コンピュータに、
（ｃ）マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、ステップを更に実行させる、
ことを特徴とする、プログラム。

（付記１７）
付記１５又は１６に記載のプログラムであって、
前記（ａ）のステップにおいて、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、プログラム。

（付記１８）
付記１５又は１６に記載のプログラムであって、
前記（ａ）のステップにおいて、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、プログラム。

（付記１９）
付記１５から１８のいずれかに記載のプログラムであって、
前記（ａ）のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、プログラム。

（付記２０）
付記１５から１８のいずれかに記載のプログラムであって、
前記（ａ）のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、プログラム。

（付記２１）
付記１５から２０のいずれかに記載のプログラムであって、
前記（ａ）のステップにおいて、種類の異なるスペクトログラムは、ＦＦＴスペクトログラム、及びＣＱＴスペクトログラムを含む、
ことを特徴とする、プログラム。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

以上のように、本発明によれば、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制することができる。本発明は、話者認証といった分野において有用である。

１０マルチチャネルスペクトログラム生成部
１１ＣＱＴ抽出部
１２ＦＦＴ抽出部
１３ａリサンプリング部
１３ｂリサンプリング部
１４スペクトログラムスタッキング部
１５ａゼロ埋め部
１５ｂゼロ埋め部
２０分類器訓練部
３０記憶部
４０評価部
１００なりすまし検出装置
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

音声データからＣＱＴスペクトログラム及びＦＦＴスペクトログラムを抽出し、抽出した前記ＣＱＴスペクトログラム及び前記ＦＦＴスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする、なりすまし検出装置。
請求項１に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、分類器訓練手段を、
更に備えている、
ことを特徴とする、なりすまし検出装置。
請求項１に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、前記ＣＱＴスペクトログラム及び前記ＦＦＴスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出装置。
請求項１に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、前記ＣＱＴスペクトログラム及び前記ＦＦＴスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出装置。
（ａ）音声データからＣＱＴスペクトログラム及びＦＦＴスペクトログラムを抽出し、抽出した前記ＣＱＴスペクトログラム及び前記ＦＦＴスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
（ｂ）ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする、なりすまし検出方法。
コンピュータに、
（ａ）音声データからＣＱＴスペクトログラム及びＦＦＴスペクトログラムを抽出し、抽出した前記ＣＱＴスペクトログラム及び前記ＦＦＴスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
（ｂ）ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、プログラム。