JP5201053B2

JP5201053B2 - 合成音声判別装置、方法及びプログラム

Info

Publication number: JP5201053B2
Application number: JP2009084194A
Authority: JP
Inventors: 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2009-03-31
Filing date: 2009-03-31
Publication date: 2013-06-05
Anticipated expiration: 2029-03-31
Also published as: JP2010237364A

Description

本発明は、合成音声判別装置、方法及びプログラムに関し、例えば、音声合成装置により合成された合成音声と人間による実際の発声音声とを判別する合成音声判別装置、方法及びプログラムに適用し得るものである。

近年、音声合成技術の進展により、無個性で機械的な合成音声ではなく、個人の特性や感情表現、発話の自然性等といった、より本人性を再現した合成音声を生成することができ、このような音声合成技術は様々な場面において利用されている。

しかしながら、音声合成技術を悪用し、電話などを通じて他人への「なりすまし」が容易に可能となり、例えば、音声での発声者の識別や、照合する話者認識あるいは話者照合技術を意味のないものにしてしまい、声紋分析による犯罪捜査などへも影響を与えることが懸念されるため、合成音声と人間による発生音声とを判別する技術が強く求められている。

従来、このような合成音声判別技術としては、特許文献１及び特許文献２に記載されるような技術がある。

特許文献１の記載技術は、例えば、ある周波数帯域の信号パワーを変更することにより、合成音声であることを示す判別情報を合成音声信号に付加する技術である。

特許文献２の記載技術は、例えば、所定周波数の信号について所定周期のパターンを繰り返した情報信号を合成音声信号に付加する技術である。

特開２００２−２９７１９９号公報特開平１１−１９０９９６号公報

しかしながら、上述した特許文献１及び特許文献２の記載技術は、音声信号の伝送前に、合成音声信号であることを判別するための判別情報等を取り除いた場合、合成音声の判別ができなくなってしまい、上記の問題点が生じてしまう課題がある。

そこで、本発明は、合成音声に判別情報を付加することなく、例えば、電話等の受信側で、受信した音声（肉声か合成音かが不明な音声のこと）から、事前に設定したテキストに対応する複数の音声を取得し、抽出された特徴量を用いて、取得した各音声同士の類似度合いから、合成音声信号であるか肉声であるかを判別することを目的とする。

第１の本発明の合成音声判別装置は、入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置において、（１）入力された音声信号をテキストに変換する音声認識手段と、（２）音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段とを備え、合成音声判別手段が、音声認識手段により変換されたテキストから対象テキストに該当する音声部分を入力音声信号から切り出し、対象テキストに該当する複数の音声を蓄積する音声蓄積部と、音声蓄積部に蓄積されている複数の音声の特徴を抽出する特徴抽出部と、特徴抽出部により抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別部とを有することを特徴とする。

第２の本発明の合成音声判別方法は、入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置の合成音声判別方法において、（１）音声認識手段が、入力された音声信号をテキストに変換する音声認識工程と、（２）合成音声判別手段が、音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別工程とを有し、合成音声判別手段が、音声認識手段により変換されたテキストから対象テキストに該当する音声部分を入力音声信号から切り出し、対象テキストに該当する複数の音声を蓄積する音声蓄積工程と、音声蓄積工程で蓄積される複数の音声の特徴を抽出する特徴抽出工程と、特徴抽出工程で抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別工程とを有することを特徴とする。

第３の本発明の合成音声判別プログラムは、入力された音声信号が合成音声信号であるか否かを判別する合成音声判別プログラムにおいて、コンピュータを、（１）入力された音声信号をテキストに変換する音声認識手段、（２）音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段として機能させ、合成音声判別手段が、音声認識手段により変換されたテキストから対象テキストに該当する音声部分を入力音声信号から切り出し、対象テキストに該当する複数の音声を蓄積する音声蓄積部と、音声蓄積部に蓄積されている複数の音声の特徴を抽出する特徴抽出部と、特徴抽出部により抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別部として機能することを特徴とする。

本発明によれば、合成音声に判別情報を付加することなく、入力音声から、事前に設定したテキストに対応する複数の音声を取得し、抽出された音声の特徴量を用いて各音声同士の類似度合いから、合成音声信号であるか肉声であるかを判別することができる。

第１の実施形態の合成音声判別装置の機能を示す機能ブロック図である。第１の実施形態の合成音声判別処理の動作を示すフローチャートである。第１の実施形態の対象テキストに該当する音声を切り出す処理を説明する説明図である。第１の実施形態の対象テキストに該当する音声を対応付ける対応表を説明する説明図である。第１の実施形態の音声同士の特徴距離に基づくグループ化を説明する説明図である。第１の実施形態のグループ個数に基づいて合成音声又は肉声を判別する処理を説明する説明図である。

（Ａ）第１の実施形態
以下では、本発明の合成音声判別装置、方法及びプログラムの第１の実施形態を、図面を参照しながら説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の合成音声判別装置１０の機能を示す機能ブロック図である。

ここで、第１の実施形態の合成音声判別装置１０は、例えば、電話機（携帯電話機や通話機能を有する携帯端末を含む概念）、いわゆるソフトフォン機能を有するパーソナルコンピュータ等に搭載されるものであり、合成音声判別装置１０の機能は、ソフトウェア処理により実現することができ、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ等のハードウェア構成を備える情報処理装置において、ＲＯＭに格納される処理プログラムをＣＰＵが読み出し実行することにより、これらの機能が実現される。

図１において、第１の実施形態の合成音声判別装置１０は、音声認識部１、音声蓄積部２、特徴抽出部３、判別部４、音響モデル記憶部５、辞書６、対象テキスト記憶部７を少なくとも有するものである。

音声認識部１は、音響モデル記憶部５及び辞書６を参照しながら、入力された音声信号を認識し、テキストに変換するものである。ここで、音声認識技術は、既存の技術を広く適用することができ、例えば、入力音声信号と音響モデルとを比較しながら、最も特徴の近い言語列を認識する方法を適用することができる。

ここで、音響モデル記憶部５には、音素の周波数特性を示す音響モデルを記憶するものであり、辞書６には、音響モデルに対応する言語列を記憶するものである。音響モデルは、例えば隠れマルコフモデル等の統計的に構築されたものを適用することができる。

入力音声信号が音声認識部１に入力される時点では、合成音声の判別前であるため、合成音声信号又は人間による発声音声信号のいずれかである。また、第１の実施形態では、音声認識部１が漢字仮名テキストに変換する場合を示す。

対象テキスト記憶部７には、予め設定された１又は複数の対象テキストを記憶するものである。第１の実施形態では、対象テキストが漢字仮名テキストの場合を例示するので、音声認識部１において、音声蓄積部２で音声を切り出す際に、対象テキストと対応すべき箇所を検索するために、入力音声をあらかじめ漢字仮名テキストヘ変換する。

音声蓄積部２は、音声認識部１により音声認識されたテキストのうち、対象テキスト記憶部７に事前に記憶されている対象テキストに該当する音声を蓄積するものである。

ここで、音声蓄積部２による対象テキストに該当する部分の音声を蓄積する方法としては、音声蓄積部２が、入力音声波形の周波数特性を利用して有音区間及び無音区間を判別し、音声認識部１が認識した各テキストとこれらに対応する音声部分の位置関係を認識しており、音声認識部１の認識したテキストのうち、対象テキストに該当する音声部分を切り出して蓄積する。

特徴抽出部３は、音声蓄積部２に蓄積されている音声の特徴量を抽出するものである。

ここで、特徴量とは、音声の特性を表すメルケプストラム、声の高さを表す基本周波数、さらに、音の長さを表すための音素の長さをいう。ただし、音素の長さを抽出する際は、音声認識を用いることで自動セグメンテーションを行うことが可能である。

判別部４は、特徴抽出部３が求めた対象テキストに該当する音声の各特徴量の距離を求め、各特徴量の距離に応じたグループを構成し、そのグループの個数に基づいて、入力音声が合成音声信号であるか又は人間による発声音声信号（肉声）であるかを判別するものである。

ここで、第１の実施形態による合成音声信号の判別方法は、以下の動作の項において詳細に説明するが、例えば受信側が受信した音声を使用して、予め設定した対象テキストと一致した複数の音声同士の類似度合いから、合成音声信号であるか又は肉声であるかを判別するというものである。

これは、合成音声に関する技術開発は進んでいるが、限られた情報を用いて合成音声を生成することになるため、肉声に比べて感情やイントネーションなどの特徴のばらつきが小さいものとなる傾向を利用したものである。

つまり、肉声の場合、合成音声に比べて、様々な感情やイントネーションを含んだ発声方法を行うため、切り出した音声同士の特徴距離にばらつきが生じやすい。これに対して、合成音声の場合、上記のように限定された感情やイントネーションを用いて生成されるため、切り出した音声同士の特徴距離にばらつきはあまり生じないという相違点がある。そこで、第１の実施形態では、同じ文字列の音声を切り出し、その音声同士の特徴距離を利用して、切り出した音声が肉声か合成音声かを判別する。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の合成音声判別方法の処理の動作について図面を参照しながら詳細に説明する。

図２は、第１の実施形態の合成音声判別処理の動作を示すフローチャートである。

まず、音声信号が音声認識部１に入力されると（ステップＳ１０１）、音声認識部１は、不特定多数の音声特徴から統計的に構築された音響モデル記憶部５の音響モデル及び辞書６の言語列を用いて、入力音声信号を漢字仮名テキストに変換する（ステップＳ１０２）
音声認識部１が入力音声信号を漢字仮名テキストに変換すると、音声蓄積部２により、音声認識部１からの漢字仮名テキストのうち、対象テキストに該当する音声部分が切り出され、この切り出した音声が音声蓄積部２に蓄積される（ステップＳ１０３）。

ここで、対象テキストに該当する音声部分の切り出しについて図３及び図４を参照しながら説明する。

対象テキストは、対象テキスト記憶部７に事前に設定されたテキスト（言語列）である。対象テキストは、例えば、相手と通話中に相手がよく発するキーワードなどの文字列が該当する。

図３（Ａ）に示すように、音声認識部１は、入力音声波形について、音声の無音位置を区切り箇所として音声の有音区間を管理する。図３（Ａ）では、黒く塗りつぶした区間が無音区間である。

音声蓄積部２は、入力音声波形のうち無音区間を位置に基づいて、「ｓ１−ｅ１」の有音区間、「ｓ２−ｅ２」の有音区間、「ｓ３−ｅ３」の有音区間…のように有音区間の位置関係を認識し、音声認識部１からの漢字仮名テキストを構成する各文字列とこれらに対応する有音区間の位置関係を、図４に例示するような対応表を用いて認識しておく。

例えば、図３の例では、音声認識部１からの漢字仮名テキストのうち、最初に出現する「なるほどー。そうですね。」が有音区間「ｓ１−ｅ１」に対応し、「昨日から、…。」が有音区間「ｓ２−ｅ２」に対応し、次に出現する「なるほどー。そうですね。」が有音区間「ｓ３−ｅ３」に対応するものとする。

この場合、音声蓄積部２は、図４に示すように、出現した文字列とこれに対応する入力音声波形の位置関係を、最初に出現した「なるほどー。そうですね。」は「開始（位置）ｓ１：終了（位置）ｅ１」の区間の音声に対応し、「昨日から、…。」は「開始（位置）ｓ２：終了（位置）ｅ２」の区間の音声に対応し、次に出現した「なるほどー。そうですね。」は「開始（位置）ｓ３：終了（位置）ｅ３」の区間の音声に対応付けておく。

次に、音声蓄積部２は、音声認識部１からの漢字仮名テキストから、対象テキストと完全一致するテキストの有無を判断する。そして、対象テキストと一致するテキストが音声認識部１からの漢字仮名テキストに存在する場合、音声蓄積部２は、図４に示す対応表を用いて、対象テキストに該当する有音区間の音声を切り出して蓄積する。

例えば、対象テキストを「なるほど。そうですね。」とする場合、音声蓄積部２は、対象テキスト「なるほど。そうですね。」について、入力音声波形から音声区間「ｓ１：ｅ１」及び音声区間「ｓ３：ｅ３」の音声を切り出して蓄積する。

ここで、音声蓄積部２は、予め設定された所定量の切り出し音声を蓄積した場合、終了フラグを立てるようにする。なお、終了フラグは、対象テキストに該当する音声が、合成音声の判別を行うために充分な量が音声蓄積部２に蓄積された場合に立てられるようにすればよい。そのため、例えば、受話者が電話機を操作することにより、終了フラグを立てられるようにしてもよい。

音声蓄積部２からの終了フラグが特徴抽出部３により検知されると、音声蓄積部２に蓄積される対象テキストに該当する音声は、特徴抽出部３により特徴量が抽出される（ステップＳ１０５）。

上述したように、特徴抽出部３は、音声蓄積部２に蓄積される音声の特徴量として、音声の特性を表すメルケプストラム、声の高さを表す基本周波数、さらに、音の長さを表すための音素の長さを抽出する。

そして、判別部４は、特徴抽出部３により抽出された音声の特徴量を用いて、音声の特徴量同士の距離を求める。

ここで、判別部４が特徴抽出部３からの各音声の特徴量の距離を求める方法の一例を説明する。

まず、判別部４は、特徴抽出部３から各音声のメルケプストラムを受け取ると、例えば動的時間伸縮法（ＤＴＷ：Dynamic Time Warping）等により、音声同士の時間長が同じになるように調整する。

そして、メルケプストラムの距離ｍｅｌ−ＣＤは、式（１）のようにして、ユークリッド距離で求め、全フレームの平均値としても求める。

ここで、ｔはフレーム、ｄは次元係数、ｍｃは音声のメルケプストラム、ｘとｙは各音声波形を示す。

また、判別部４は、特徴抽出部３から各音声の基本周波数を受け取ると、メルケプストラムと同様にＤＴＷ等により、音声同士の時間長が同じになるように調整する。

そして、基本周波数の距離は、式（２）及び式（３）のようにして、対数変換されたＦ０の平均値μの差と、分散σの差とをとることで求める。

さらに、判別部４は、特徴抽出部３から各音声の音素の長さを受け取ると、式（４）のようにして、各々の差の平均値により音素の長さの距離ｄを求める。

ここで、ｐは音素数、ｄは音素長、ＰＸとＰＹは各音素を示す。

そして、判別部４は、各音声のメルケプストラムの距離ｍｅｌ−ＣＤ、基本周波数の距離μ及びσ、音素の長さの距離ｄを用いて、全体の音声の特徴量同士の距離を式（５）のようにして求める。

Ｄ＝ｗ_１・ｍｅｌ−ＣＤ＋ｗ_２・μ＋ｗ_３・σ＋ｗ_４・ｄ …（５）
ここで、ｗ_１、ｗ_２、ｗ_３、ｗ_４は重み係数であり、ｗ１＋ｗ２＋ｗ３＋ｗ４＝１の関係がある。

次に、判別部４は、式（５）で求めた距離に基づいてグループを構成する（ステップＳ１０７）。

ここで、判別部４によるグループの構成方法としては、事前に設定した分割閾値と、上記（５）で求めた距離との比較を用いることでグループ分けを行う。つまり、判別部４は、上記のようにして求めた距離が、分割閾値を超えていれば別グループとして、分割閾値以下であれば同一グループとすることで、各音声のグループ化を行う。

図５は、判別部４によるグループの構成方法を説明する説明図である。図５では、分割閾値をＴＨとしたときの３個の音声ファイル（音声）ａ、ｂ、ｃのグループ化を例示して説明する。

まず、音声ファイルａは距離を求めることができないので、グループＡとする（図５（Ａ））。

次に、音声ファイルｂの場合、音声ファイルｂ及び音声ファイルａ間の距離を求める。ここで、音声ファイルｂ及び音声ファイルａ間の距離ｄ１が分割閾値ＴＨを超えているとすると、音声ファイルｂをグループＢに含める。

次に、音声ファイルｃの場合、音声ファイルｃ及び音声ファイルａ間の距離と、音声ファイルｃ及び音声ファイルｂ間の距離とを求める。

このとき、音声ファイルｃ及び音声ファイルａ間の距離ｄ２が分割閾値ＴＨ未満であり、かつ、音声ファイルｃ及び音声ファイルｂ間の距離ｄ３が分割閾値ＴＨを超えているとき、音声ファイルｃをグループＡに含める。

このようにして、音声蓄積部２に蓄積される対象テキストに該当する各音声同士の特徴量の距離を用いた類似度に基づいてグループ化を行う。

次に、判別部４は、グループ構成後、グループの個数に基づいて、当該入力音声信号が合成音声信号であるか又は発生音声（肉声）であるかの判別を行う（ステップＳ１０８）。

この判別部４による判定方法は、事前に設定した判定閾値とグループ個数との比較を行い、グループ個数が、判定閾値以上のとき人間による発声音声であると判定し、判定閾値未満のとき合成音声であると判定する。

図６は、判別部４による合成音声判定を説明する説明図である。上述したように、人間による発声音声（肉声）の場合、様々な感情やイントネーションを含んでいるから、音声同士の特徴距離はばらつき易く、図６（Ａ）に示すように、グループ数が多くなる傾向がある。

一方、合成音声の場合、限定された感情やイントネーションを用いているから、肉声の場合に比べて、音声同士の特徴距離のばらつきが少なく、図６（Ｂ）に示すように、グループ数が少なくなる傾向にある。

そのため、判別部４は、グループ個数が、判定閾値以上のとき人間による「発生音声（肉声）」と判定し、判定閾値より少ないとき「合成音声」と判定することができる。

例えば、図６において、判定閾値を「４」とした場合、図６（Ａ）のとき、グループ個数が「５（グループＡ〜Ｅ）」であるから肉声と判定し、図６（Ｂ）のとき、グループ個数が「２（グループＡ、Ｂ）」であるから合成音声と判定する。

そして、判別部４は、入力した音声信号が合成音声であるか又は肉声であるかの判別結果を所定の方法により出力する（ステップＳ１０９）。この判別結果の出力方法としては、搭載する電話機やコンピュータ等に応じて異なるが、例えば、表示部に音声合成であることを表示するようにしても良いし、合成音声である旨を示す情報を音や音声などで出力するようにしても良い。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態では、音声合成装置による合成音声と人間による実際の発声音声とを判別することが可能なため、音声合成技術を悪用した他人への「なりすまし」を発見できるといった効果がある。

（Ｂ）他の実施形態
（Ｂ−１）第１の実施形態では、合成音声判別装置１０による合成音声判別方法を詳細に説明したが、本発明の合成音声判別装置１０を電話端末（例えば電話機やソフトフォン搭載のコンピュータ等）に搭載した場合の実施形態を例示する。

例えば、ユーザＡが所持する電話端末に第１の実施形態の合成音声判別装置１０を搭載する。このとき、ユーザＢからユーザＡに対して、電話がかかってきたとする。

この場合、ユーザＡはまず、合成音声判別装置１０を稼動するためのスイッチを押す（このとき、呼の確立をトリガとして自動的にスイッチが入る構成でもかまわない）。

ユーザＢとの通話が開始し、ユーザＢからの音声が入力されると、音声合成装置１０は、ユーザＢが発声している音声を認識しはじめる。

このとき、ユーザＡは予め設定した対象テキストを、出来るだけユーザＢに発声させるように会話を進める。

ある程度、対象テキストに対応した音声ファイルを蓄積した時点で、ユーザＡは終了フラグを発火させる（あらかじめ蓄積する音声ファイル数を設定しておき、その音声ファイル数に達したら自動的に終了フラグが入力される構成でもよい）。

その後、音声合成判別装置１０は判定処理を行う。ユーザＡは電話を切らずに、音声合成判別装置１０からの判定結果を待つ。判定結果は音声合成判別装置１０に具備される表示手段（図示せず）に表示する。または受話者のみに聞こえる音声信号等で判定結果を知らせるようにしてもよい。

ここで、肉声か、合成音声か、または、見知らぬ人が合成音声を使用しているかなどを知ることで、事前に心構えをすることができる。

また、判定結果を表示手段に表示する構成の場合は、ユーザＡは電話を切った後であってもユーザＢが「肉声」であったか「合成音声」であったかを知ることができるようにしてもよい。

（Ｂ−２）第１の実施形態では、１つの対象テキスト（例えば「なるほどー。そうですね。）の音声同士の特徴距離に基づくグループ化により、判別する場合を例示したが、複数の対象テキストを用いるようにしても良い。

この場合、同一の対象テキストの音声同士の特徴距離に基づくグループ化を行うことが望ましいので、１つの対象テキストに対して３個以上の音声の切り出すことが望ましい。

また、複数の対象テキストに対するグループ化を行った場合、複数の対象テキストの判別結果のうち、少なくとも１つの対象テキストに合成音声とする判別結果が得られたときに音声合成とするようにしても良いし、また１つの対象テキストだけでなく、所定数以上の対象テキストに関して合成音声とする判別結果が得られた場合に合成音声であると判定するようにしても良い。

（Ｂ−３）第１の実施形態では、入力音声が日本語の場合を例示したが、言語は日本語に限定されるものではなく、英語、フランス語、ドイツ語、中国語、韓国語などあらゆる言語にも適用できる。

（Ｂ−４）第１の実施形態では、受信側が入力した音声に対して行う場合を例示したが、録音された音声（例えば、留守番電話の音声等）を入力音声として音声解析や声紋解析する場合にも適用できる。

１…音声認識部、２…音声蓄積部、３…特徴抽出部、４…判別部、５…音響モデル記憶部、６…辞書、７…対象テキスト記憶部、１０…合成音声判別装置。

Claims

入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置において、
入力された音声信号をテキストに変換する音声認識手段と、
上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段と
を備え、
上記合成音声判別手段が、
上記音声認識手段により変換されたテキストから上記対象テキストに該当する音声部分を入力音声信号から切り出し、上記対象テキストに該当する複数の音声を蓄積する音声蓄積部と、
上記音声蓄積部に蓄積されている複数の音声の特徴を抽出する特徴抽出部と、
上記特徴抽出部により抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別部と
を有する
ことを特徴とする合成音声判別装置。
上記判別部が、上記各音声間の特徴量の距離と分割閾値との比較により上記グループを構成するものであり、上記グループ個数と判別閾値とを比較することにより合成音声信号か否かを判別するものであることを特徴とする請求項１に記載の合成音声判別装置。
入力された音声信号が合成音声信号であるか否かを判別する合成音声判別装置の合成音声判別方法において、
音声認識手段が、入力された音声信号をテキストに変換する音声認識工程と、
合成音声判別手段が、上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別工程と
を有し、
上記合成音声判別手段が、
上記音声認識手段により変換されたテキストから上記対象テキストに該当する音声部分を入力音声信号から切り出し、上記対象テキストに該当する複数の音声を蓄積する音声蓄積工程と、
上記音声蓄積工程で蓄積される複数の音声の特徴を抽出する特徴抽出工程と、
上記特徴抽出工程で抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別工程と
を有する
ことを特徴とする合成音声判別方法。
入力された音声信号が合成音声信号であるか否かを判別する合成音声判別プログラムにおいて、
コンピュータを、
入力された音声信号をテキストに変換する音声認識手段、
上記音声認識手段により変換されたテキストから、対象テキストに該当する複数の音声を切り出し、この複数の音声間の類似度合いに応じて合成音声信号か否かを判別する合成音声判別手段
として機能させ、
上記合成音声判別手段が、
上記音声認識手段により変換されたテキストから上記対象テキストに該当する音声部分を入力音声信号から切り出し、上記対象テキストに該当する複数の音声を蓄積する音声蓄積部と、
上記音声蓄積部に蓄積されている複数の音声の特徴を抽出する特徴抽出部と、
上記特徴抽出部により抽出された各音声の特徴量の距離を求め、各音声の特徴量の距離に基づきグループ化を行い、このグループの個数に応じて合成音声信号か否かを判別する判別部と
して機能する
ことを特徴とする合成音声判別プログラム。