JP4328423B2

JP4328423B2 - 音声識別装置

Info

Publication number: JP4328423B2
Application number: JP28265299A
Authority: JP
Inventors: 和義福士
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 1999-10-04
Filing date: 1999-10-04
Publication date: 2009-09-09
Anticipated expiration: 2019-10-04
Also published as: JP2001109494A

Description

【０００１】
【発明の属する技術分野】
本発明は入力音声の評価を行う装置に関し、特に、入力音声について、今まさに発声した生音声であるか録音後の再生音声であるかを識別する装置に関する。
【０００２】
【従来の技術】
音声識別装置には様々な用途が考えられるが、ここでは１つの適用例として、音声を用いた個人ID装置を説明する。一般に、音声個人ID装置は、利用者の音声を予め登録し、マイクからの入力音声が登録音声と同一であるか否かを自動的に識別する装置である。
【０００３】
従来技術について具体的に説明すると、まず利用者毎に予め決められた発声内容の音声が登録される。これを登録音声又は照合用音声と呼ぶ。実際には、利用者により音声が入力されると、その音声信号から例えばスペクトル包絡情報が抽出され、それが照合時のリファレンス用データとして保存される。
【０００４】
入力音声の照合時には、利用者により入力された音声信号から、登録時と同様の分析によりスペクトル包絡情報が抽出され、記憶してあるリファレンス用データとのマッチング処理が行われる。そのマッチング処理の結果、リファレンス用データとの違いが一定の閾値以上であれば当該入力音声を他人のものであるとして棄却し、その違いが一定の閾値以内であれば登録話者の音声と同一の音声であると判断し、扉に設けた電気錠の解錠等所定の処理を実行する。
【０００５】
ところが、登録時などにおいて、登録話者本人の発声した音声を、背後から、あるいは装置に隠しマイクを設置する等により録音しておき、その後、その録音音声をスピーカ等から再生すると、スペクトル包絡情報が酷似した音声の入力を行い得る。このようにして入力された音声は、マイクやスピーカーの設置位置あるいは方向などを微妙に調節する必要があるものの、登録音声と同一視される可能性を否定できない。なお、これを録音画策と呼び、以下のように各種の対策が施されている。
【０００６】
従来、このような画策行為を防止する方法として、特開平５−３２３９９０号には、システムが認証の度に異なった発声内容を入力するよう指示を与えるものが記載されている。また、特開平９−１２７９７４号には、システムが毎回異なった音響信号を出力し、入力音声に重畳させるようにし、入力された音声内にシステムが出力した音響信号を除去した後の信号を用いるものが記載されている。
【０００７】
【発明が解決しようとする課題】
しかし、上記の従来手法では、入力された音声の発声内容を変えたり特定の音響信号を重畳して用いている為、発声の度に発声内容や重畳する音響信号を変えなければならないという問題がある。
【０００８】
本発明は、上記従来の課題に鑑みなされたものであり、その目的は、信頼性の高い入力音声の識別を実現することにある。
【０００９】
本発明の他の目的は、入力音声が生音声であるか再生音声であるか高精度に判別することにある。
【００１０】
本発明の更に他の目的は、生音声とその再生音声の性質の違いを音声の評価に利用することにある。
【００１１】
【課題を解決するための手段】
（１）手段の説明
上記目的を達成するために、本発明は、音声を入力するための音声入力手段と、前記音声入力手段に入力された音声から位相情報を抽出する位相情報抽出手段と、照合用音声の位相情報と入力音声の位相情報との比較により、入力音声を評価する評価手段と、を含むことを特徴とする。
【００１２】
本発明者の各種実験によれば、生音声とそれを録音し再生した音声（再生音声）と間には信号波形の相違、具体的には位相情報の相違が認められた。これは録音系・再生系（特にスピーカ）の位相特性の影響によるものと推察される。本発明は、その現象を利用して、入力音声の評価を行うものであり、望ましくは、入力音声が生音声であるか再生音声であるかを識別するものである。本発明によれば、発声内容を変更させる必然性ななく、また他の音の重畳も不要であり、簡便で信頼性の高い入力音声の評価システムを実現できる。
【００１３】
上記の位相情報は、望ましくは、基本波と高調波との間の位相差（あるいは高調波同士の位相差）であるが、これ以外にも、位相情報としては位相比、信号相関値、位相変化など、入力音声と再生音声の位相の相違を指標する情報であれば各種のものを利用可能である。更に、波形自体の直接比較によって、位相情報の比較を行うようにしてもよい。
【００１４】
望ましくは、前記評価手段は、前記２つの位相情報の比較に基づいて、前記入力音声が再生音声であるか否かを識別する手段を含む。すなわち、上記のように入力音声と再生音声の間における波形の相違を位相情報の比較によって抽出し、これにより録音画策を判定する。
【００１５】
望ましくは、前記位相情報は、音声の基本波と高調波の間の位相差及び高調波間の位相差の内の少なくとも１つに関する情報である。位相は相対的なもので、基本的に２つの位相の差（位相差）が物理的に意味をもつ。よって、基本波と高調波との間における位相差などを比較対象として利用するのが望ましい。その場合に、パワーの大きな基本波と、高調波の中でもパワーの大きい次数の低い高調波と、の間の位相差などを利用すれば精度良く評価を行い得る。
【００１６】
望ましくは、前記位相情報抽出手段は、前記照合用音声の位相情報として、前記照合用音声の基本波とそのｍ次高調波との間の位相差Ａｍ、及び、前記照合用音声の基本波とそのｎ次高調波との間の位相差Ａｎを求める手段と、前記入力音声の位相情報として、前記入力音声の基本波とそのｍ次高調波の間の位相差Ｂｍ、及び、前記入力音声の基本波とそのｎ次高調波の間の位相差Ｂｎを求める手段と、を含み、前記識別手段は、前記位相差Ａｍと前記位相差Ｂｍとの間の差分と、前記位相差Ａｎと前記位相差Ｂｎとの間の位相差との間の差分と、に基づいて、前記入力音声の識別を行う。
【００１７】
上記のように、複数の位相差を求めて相互比較すれば、より精度良く入力音声の評価を行える。なお、上記のｍ、ｎは２以上の整数であって、ｍとｎは非同一である。
【００１８】
望ましくは、前記位相情報抽出手段は、前記入力音声の基本波を推定する予備分析手段と、前記推定された基本波を基礎として前記入力音声の周波数解析を行う本分析手段と、前記本分析手段の周波数解析結果から前記位相情報を抽出する抽出手段と、を含む。
【００１９】
上記構成によれば、最初に基本波を推定して、その基本波の周期（周波数）を基礎として次の本分析を実行できるので、本分析の処理条件を最適化可能であり、結果として分析精度を高められる。
【００２０】
望ましくは、前記予備分析手段は、固定長の窓幅を有する固定時間窓によって前記入力音声をフレーム単位で切り出して周波数解析を行い、前記本分析手段は、前記推定された基本波に基づいて可変設定される窓幅を有する可変時間窓を設定し、その可変時間窓によって前記入力音声をフレーム単位で切り出して周波数解析を行う。
【００２１】
上記可変時間窓は、男性の声の平均的周波数、女性の声の平均的周波数を考慮して、例えば３波長程度の大きさに設定するのが望ましい。しかし、その長さが短すぎると、十分なデータのサンプリング（切り出し）を行えず、一方、その長さが長すぎると、窓内における周波数シフトの影響を大きく受け、分析精度が低下するおそれがある。予備分析により、基本波が推定されれば、それに基づいて最適な可変時間窓を設定でき、すなわち、本分析での周波数解析を適切に行える。予備分析及び本分析ではＦＦＴ演算などが実行されるが、それ以外にも各種の手法を利用可能である。
【００２２】
望ましくは、前記音声信号の内で所定の安定条件を持たすフレームから前記位相情報が抽出される。不安定な状態で音声信号を切り出すと、位相情報を適切に抽出できないおそれがある。そこで、安定状態を確認の上、位相情報の抽出を行うものである。
【００２３】
望ましくは、音声識別装置が、生音声とそれを録音し再生した再生音声との間で相互に位相情報が異なることを利用して、入力音声が生音声であるか再生音声であるかを識別する。この構成は防犯用装置において有用であり、それ以外にも各種の応用が考えられる。
【００２４】
望ましくは、音声識別装置が、照合用音声と入力音声の個人同一性を判定する判定手段と、前記同一性が判定された入力音声について、その位相情報により再生音声であるか否かを識別する識別手段と、を含む。
【００２５】
（２）原理説明
図１には、生音声と再生音声のそれぞれの信号波形が示されている。上段の（Ａ１）〜（Ｄ１）が再生音声（すなわち録音音声）であり、下段の（Ａ２）〜（Ｄ２）が生音声である。ここで、再生音声は、同一話者が同一の発声内容を発声した音声を一度録音した後に再生したものである。各音声信号は、説明の便宜上、低域通過フィルタを通過した後のものである。また、図１の（Ａ）〜（Ｄ）は、一定の期間にわたる音声信号を４分割して上から順番に並べたものであり、横軸は時間軸、縦軸は振幅を表している。
【００２６】
生音声と再生音声とを比較すると、声の高さに相当する波形の繰返し周期(基本周波数)は相互に一致しているのに対し、ピーク位置や繰返しの基本単位である波形の形状が生音声と再生音声とでは若干異なっていることがわかる。
【００２７】
図２及び図３に示すように、一般に、音声信号の母音部は、基本周波数(声の高さ)を与える基本波と、その２倍，３倍，．．．の周波数をもつ高調波の重ね合わせで構成されている。その形状は、位相と呼ばれる個々の正弦波の相対的な位置関係で決定されている。例えば、図２及び図３の比較から明かなように、３つの周波数信号の合成を考えると、同じ周波数であってもいずれかの信号の位相が異なれば、合成波形は大きく変化する。
【００２８】
再生音声と生音声の波形形状が異なるのは、録音・再生の過程において上記位相の相対的な位置関係が崩れた結果であり、主に再生系（特にスピーカ）の影響が大きいことが経験的にわかっている。
【００２９】
そこで、本発明は、同一話者が同一の発声内容を発声した場合であっても、再生音声と生音声とでは、信号波形（具体的には位相）が変化することを利用し、再生音声と生音声とを高精度に識別するものである。
【００３０】
【発明の実施の形態】
以下、本発明に係る原理を音声による個人ID装置に適用した場合について説明する。もちろん、本発明は個人ID装置以外にも適用可能である。
【００３１】
図４は、本実施形態に係る個人ID装置の全体構成を示すブロック図である。入力部１は音声を装置に入力するための手段であり、マイク、 A/D変換器、増幅器などで構成される。特徴量抽出部２は、入力部１により入力されデジタル化された音声信号に対して高速フーリエ変換(FFT; Fast Fourier Transformation)や線形予測(LPC; Linear Prediction Coding)分析を行い、周波数領域の特徴量を抽出するものである。照合部３は、現在入力されている音声と登録時に発声された音声を、公知のＤＰマッチング等の手法を用いて比較する手段である。記憶部４は、抽出された特徴量を記憶するメモリである。利用者が登録時に発声した音声から抽出した特徴量はここに記憶され、照合時に入力された音声と比較する為のリファレンス用データとして用いられる。出力部５は、例えば、照合部３において照合された結果、同一話者の生音声であると判断された場合に、電気錠に対して解錠信号を出力する回路である。一方、同一話者でないと判断された場合又は再生音声であると判定された場合には、必要に応じて、利用者に対して棄却された旨の信号をブザー音やモニタ画面にて提示し、また、必要に応じて、棄却された音声を記憶部４に記憶しておく。なお、特徴量抽出部２及び照合部３はハードウエアで構成することもできるが、実質的にソフトウエアで構成することもできる。
【００３２】
次に、図５及び図６を用いて、音声個人ID装置の登録時及び照合時の処理の流れについて説明する。
【００３３】
図５には登録時の処理の流れがフローチャートとして示されている。音声が入力されると、まず、入力部１にてデジタル化された信号系列から、波形の振幅の大きさや基本周波数の有無等の情報を用いて、音声信号が含まれている区間（発声区間）を切り出す（Ｓ１）。次に、入力された音声をフレーム分析し、スペクトル包絡情報を表すパラメータを抽出する（Ｓ２）。ここでスペクトル包絡情報とは、ある瞬間において音声信号に含まれている各周波数成分の分布の概形のことであり、分析フレーム毎にFFTやLPCケプストラムを算出することにより求めることができる。抽出されたパラメータは記憶部４に記憶され（Ｓ３）、照合時にリファレンス用データとして用いる。以上は従来装置でも同様である。
【００３４】
次に、位相情報の抽出方法を説明する。
【００３５】
位相をより精度よく求めるためには、FFT分析の際に用いる分析窓の中に基本周期波形が幾つ含まれているかが重要となる。経験的には３個程度含まれていると精度良く分析できることがわかっている。そこで、登録時において、以下に説明するように、「予備分析（Ｓ１００）」と「本分析（Ｓ１０１）」の２段階の分析を行う。なお、識別精度があまり要求されないような場合には後者の本分析のみを実行するようにしてもよい。
【００３６】
まず、予備分析においては、固定長の窓幅(例えば40ms程度)を利用して、音声信号の基本周期を推定する（Ｓ４）。この固定長の分析窓によると、精度は落ちるものの、男性の低い声(70Hz程度)から女性の高い声(500Hz程度)まで幅広く対応することができる。分析窓は時間軸に沿って連続的にスキャンされ、各位置において基本周期が推定される。この予備分析では、望ましくはＦＦＴ演算が実行されるが、その他に自己相関演算を実行するようにしてもよい。
【００３７】
次に、本分析において、予備分析の結果として得られた基本周期の３倍の大きさを持つ分析窓を用いて再度分析を行う。すなわち、前述したスペクトル包絡情報は予備分析すなわち基本周期を考慮していない固定長の窓幅による分析により取得していたが、本分析では、予備分析により求められた基本周期が３個程度含まれる窓幅を新たに設定して周波数解析を実行し、それにより位相情報を抽出する（Ｓ５）。
【００３８】
ここで、検定フレームについて説明する。一般に、音声のうち母音部は子音部に比べて定常的である為、スペクトル情報や基本周波数等の音声パラメータを安定に抽出することができる。しかし、位相情報をより高精度に抽出する為には、母音部の中でも更に基本周波数が推移している部分や、高調波の振幅レベルが小さい部分を分析対象から除かなければなない。この為、振幅及び位相に関する以下の２つの条件が満たされている場合に限り、その分析フレームを位相差情報の抽出に用いるフレーム(検定フレーム)とすることにする。
【００３９】
[振幅に関する条件]
基本波、２倍高調波、３倍高調波の振幅レベル（Ａ_K，Ａ_2K，Ａ_3K）の最大値と最小値との比が所定の範囲(例えば20dB)内に入っていること（あるいは最小値が所定値以上であること）。
【００４０】
ここで、図７（Ａ）、図８（Ａ）には、ＦＦＴ分析後の各周波数におけるパワーが示されており、横軸はＦＦＴポイント数（周波数）に相当し、縦軸は対数振幅値を示している。図７（Ｂ）、図８（Ｂ）には、ＦＦＴ分析結果に対してアンラップ処理を施して得られる位相分布が示されており、横軸はＦＦＴポイント数に相当し、縦軸は位相を示している。図７の例は基本周波数が安定している場合を示し、図８は基本周波数が遷移している場合を示している。なお、ＦＦＴ分析結果は複素数として得られ、複素平面上におけるベクトル角度が位相に相当する。本来、位相は−π〜＋πの間において不連続に存在しているが、ここでは直線位相成分を取り去った後の位相の周期性を考慮して、位相を連続的な数値に変換している。すなわち、図７（Ｂ）、図８（Ｂ）は公知のアンラップ処理を施したものである。
【００４１】
図７における、左のピークから順に基本波Ａ_K(55ポイント付近[約320Hz])、２倍高調波Ａ_2K(110ポイント付近[約640Hz])、３倍高調波Ａ_3K(170ポイント付近[約980Hz])である。添字Ｋは、基本周波数(図８では約320Hz)に相当するFFTのポイント数を示している。なお、図７（Ａ）及び図８（Ａ）には連続スペクトルが示されているが、実際には複数の線スペクトルとして存在しており、ＦＦＴの分析窓が有限長のため連続スペクトルとして観測されている。
【００４２】
上記の第１条件により、これらのうち何れかのレベルが低い場合には、位相差の抽出誤差が大きくなるため、検定フレームから除外される。
【００４３】
[位相に関する条件]
次式により与えられるｗ_j (j=1,2,3)が、全て一定の閾値内に入っていること（各jはそれぞれ基本波, ２倍高調波, ３倍高調波に相当）。
【００４４】
【数１】

ここで、ＰjはFFTの第lポイントにおける位相を、Ｋは基本周波数に相当するFFTのポイント数を表している。また、Ｐ_2K,Ｐ_3Kはそれぞれ２倍高調波，３倍高調波の位相を表している。Ｍは分析フレーム長Ｎにより決まる整数で、
【数２】

により与えられる。ここで[x]はxを越えない最大の整数を表す。ＬはFFTの窓幅すなわちポイント数である。
【００４５】
上記の図７の例は、基本波、２倍高調波、３倍高調波が安定しており、位相差抽出に適したものである。一方、図８の例は、基本波、２倍高調波、３倍高調波ともに安定しておらず、位相差抽出には一般に適さない。
【００４６】
上記の式(1)は、図７（Ｂ）及び図８（Ｂ）において、基本波, ２倍高調波, ３倍高調波の各周波数近傍(前後Ｍポイント)における位相の安定性を示す尺度である。この値は、理想的な信号すなわちノイズ成分を含まない正弦波を合成した波形では、極めて小さくなる。従って、ｗ_jの値が大きい場合には基本周波数が不安定、すなわち推移していると判断できる。
【００４７】
具体的には、図７（Ｂ）において、基本周波数(55ポイント近傍)とその２倍高調波(110ポイント近傍)，３倍高調波(170ポイント近傍)に相当する周波数近傍における位相の値はかなり安定していることが分かる。一方、図８（Ｂ）においては、位相の値は基本周波数(50ポイント近傍)以外は安定しておらず、基本周波数が遷移していることが分かる。
【００４８】
図５の本分析（Ｓ１０１）においては、上記条件を満たし、安定に位相情報を抽出することができる定常的なフレームを検定フレームとしてラベリングしておき（Ｓ６）、位相差情報を算出する（Ｓ７）。算出された位相差情報は、照合時のリファレンス用データとして記憶される（Ｓ８）。
【００４９】
図６には、照合時の処理の流れがフローチャートとして示されている。照合工程は、大別して、音声の周波数的特徴を用いて音声の個人性及び音韻性を識別するスペクトルマッチングと、波形的特徴を用いて録音・再生音声であるか否かを識別する位相マッチングの２工程で構成される。
【００５０】
スペクトルマッチング時には、音声が入力されると、分析フレーム単位で算出された上記パラメータを、DPマッチングを行うことにより登録音声及び入力音声の各分析フレームとの間で対応付けを取りつつ両者の距離を算出する（Ｓ３）。得られた距離を所定の閾値と比較し（Ｓ４）、閾値以上であれば、両音声は、異なる話者が発声したものであると判断し、棄却する（Ｓ５）。これは従来同様である。
【００５１】
距離が閾値以下である場合には、更に位相情報に着目し、入力音声が再生音声であるか否かの判断を行う(位相マッチング)。
【００５２】
ちなみに、発声が間延びした等により登録音声の検定フレームに複数の入力音声フレームが対応した場合には、対応する入力音声フレームから検定フレーム数と同数個のフレームを選択する。逆に、早口等により複数の検定フレームが同一の入力音声フレームに対応した場合には、連続する検定フレームのうち中央近傍に位置するフレームのみを用いる。
【００５３】
ここで、対応する入力音声フレームが検定フレームとしての条件を満たしているかを再度判断しても良く、その際に条件を満たしていない場合には、前後数フレームで条件を満たすものをが存在するか調べ、存在する場合には対応フレームの代りに当該フレームを用いることも可能である。
【００５４】
次に、上記において求めた検定フレームを用いて、基本波(周期T)と２倍高調波の位相差を求める方法について説明する（Ｓ６）。FFT等の分析結果に基づいて、分析窓の中央における基本波の位相，２倍高調波の位相をそれぞれ求める。分析窓内の位置は、基本波及び２倍高調波において一致している必要があり、また分析窓の両端では誤差が大きくなるので中央位置を用いるのが好ましい。
【００５５】
図９は、位相差の定義を説明するための図である。上側の波形は基本波を、下側の波形は位相がδだけ遅れた２倍高調波をそれぞれ示している。
【００５６】
基本波の位相(θ₁)は、
【数３】

で与えられる。ここで、ｄ₁は分析窓の中央から波形のピーク位置までのポイント数である。同様に、２倍高調波の位相(θ₂)は、
【数４】

で与えられる。位相差ｕは、図１０のδにあたる量を２倍高調波の周期で正規化した値として以下のように定義される。
【００５７】
【数５】

基本波と３倍高調波の位相差(ｖ)も同様して求めることができる。
【００５８】
【数６】

登録音声の検定フレームとそれに対応する入力音声のフレームとの間で、（ｕ，ｖ）の各値の差分を演算し、それに基づいて入力された音声が録音音声であるか生音声であるかを判定する。検定フレームｉでの評価値として、以下のＤ_iを用いる（Ｓ７）。
【００５９】
【数７】

全ての検定フレームにおいて、それぞれ上記Ｄ_iを算出する。再生音声であるか否かの判断は、これらの和の値が所定の閾値以下である、あるいは個々の評価値が全て所定の閾値以下である等の条件を用いて行う（Ｓ８）。上記の計算式では、入力音声と登録音声との間で、基本波と２倍高調波の位相差についての差分（第１差分）、及び、基本波と３倍高調波の位相差についての差分（第２差分）を加算したものを評価値としたが、第１差分又は第２差分の一方を評価値としてもよい。但し、再生系によっては、いずれかの差分がそれほど大きくならない可能性があるため、上記計算式のように複数の差分を考慮するのが望ましい。
【００６０】
マッチングの結果、リファレンス用データとの違いが閾値以上であれば棄却し（Ｓ９）、閾値以内であれば登録話者と同一音声であるとして受理し、例えば扉の電気鍵の解錠信号を出力する（Ｓ１０）。このように、２段階のマッチングにおいて同一であると判断された音声のみが受理される。なお、Ｓ９の判定手法としては各種のものをあげることができ、例えば、マッチングの結果が閾値以上となる回数が所定個以上になった場合に棄却判定を行うようにしてもよく、あるいは、マッチングの結果に対して各種の統計的処理を施し、それを評価するようにしてもよい。
【００６１】
図１０に男性話者音声の位相情報を分析して得られた評価値の例を示す。横軸は分析フレームの番号を、縦軸は評価値をそれぞれ表している。図において、生音声同士を比較した結果は全て評価値が0.20以下の領域に集まっているのに対し、生音声と録音再生音声とを比較した結果は全て評価値が0.60以上の領域に集まっており、録音再生音声と生音声が明確に分離できていることが分かる。
【００６２】
図１１に女性話者音声の位相情報を分析して得らえた評価値の例を示す。男性音声に比べ録音再生音声と生音声との評価値の差が若干小さくなっているものの、男性音声の場合同様確実に分離できていることがわかる。
【００６３】
本実施例では基本波とその２倍高調波,３倍高調波の間の位相差を用いているが、これに限定されるものではない。２倍高調波と３倍高調波との間の位相差を用いてもよいし、あるいは４倍高調波以上を用いることも可能である。
【００６４】
スペクトルマッチングに用いる特徴量に関しても、スペクトル包絡情報以外に基本周波数の変化パターン等、一般に音声による個人ID装置に用いられている特徴量を用いることが可能である。また、上記にて説明したDPマッチングにより分析フレームの対応をとる手法以外に、HMM(Hidden Markov Model)等を用いて音声の母音部分を抽出し、この部分において検定フレームの条件を満たすフレームのうち、より条件に適している上位数フレームをスペクトルマッチング及び位相マッチングに用いることも可能である。
【００６５】
【発明の効果】
以上詳細に説明したように、本発明によれば、信頼性の高い入力音声の識別を実現できる。また本発明によれば、入力音声が生音声であるか再生音声であるか高精度に判別できる。更に本発明によれば、生音声とその再生音声の性質の違いを音声の評価に利用できる。
【図面の簡単な説明】
【図１】録音後の再生音声と生音声の信号波形を示す波形図である。
【図２】３つの信号の合成を示す説明図である。
【図３】３つの信号の合成を示す説明図である。
【図４】音声識別装置の基本的な構成を示すブロック図である。
【図５】音声登録時の処理の流れを示すフローチャートである。
【図６】音声照合時の処理の流れを示すフローチャートである。
【図７】ＦＦＴ分析結果とアンラップ処理結果を示す図である。
【図８】ＦＦＴ分析結果とアンラップ処理結果を示す図である。
【図９】位相差の定義を説明するための図である。
【図１０】位相情報の分析結果を示す図である。
【図１１】位相情報の分析結果を示す図である。
【符号の説明】
１入力部、２特徴量抽出部、３照合部、４記憶部、５出力部。

Claims

音声を入力するための音声入力手段と、
前記音声入力手段に入力された入力音声から位相情報を抽出する位相情報抽出手段と、
照合用音声の位相情報と前記入力音声の位相情報との比較により、前記入力音声を評価する評価手段と、
を含み、
前記照合用音声及び前記入力音声の各位相情報は、音声の基本波と高調波の間の位相差及び高調波間の位相差の内の少なくとも１つに関する情報であることを特徴とする音声識別装置。
音声を入力するための音声入力手段と、
前記音声入力手段に入力された入力音声から位相情報を抽出する位相情報抽出手段と、
照合用音声の位相情報と前記入力音声の位相情報との比較により、前記入力音声を評価する評価手段と、
を含み、
前記評価手段は、前記照合用音声の位相情報と前記入力音声の位相情報の比較に基づいて、前記入力音声が再生音声であるか否かを識別する識別手段を含むことを特徴とする音声識別装置。
音声を入力するための音声入力手段と、
前記音声入力手段に入力された入力音声から位相情報を抽出する位相情報抽出手段と、
照合用音声の位相情報と前記入力音声の位相情報との比較により、前記入力音声を評価する評価手段と、
を含み、
前記照合用音声及び前記入力音声の各位相情報は、音声の基本波と高調波の間の位相差及び高調波間の位相差の内の少なくとも１つに関する情報であり、
前記評価手段は、前記照合用音声の位相情報と前記入力音声の位相情報の比較に基づいて、前記入力音声が再生音声であるか否かを識別する識別手段を含むことを特徴とする音声識別装置。
請求項２又は３記載の装置において、
前記位相情報抽出手段は、
前記照合用音声の位相情報として、前記照合用音声の基本波とそのｍ次高調波との間の位相差Ａｍ、及び、前記照合用音声の基本波とそのｎ次高調波との間の位相差Ａｎを求める手段と、
前記入力音声の位相情報として、前記入力音声の基本波とそのｍ次高調波の間の位相差Ｂｍ、及び、前記入力音声の基本波とそのｎ次高調波の間の位相差Ｂｎを求める手段と、
を含み、
前記識別手段は、前記位相差Ａｍと前記位相差Ｂｍとの間の差分と、前記位相差Ａｎと前記位相差Ｂｎとの間の位相差との間の差分と、に基づいて、前記入力音声の識別を行うことを特徴とする音声識別装置。
請求項１乃至３のいずれか１項に記載の装置において、
前記位相情報抽出手段は、
前記入力音声の基本波を推定する予備分析手段と、
前記推定された基本波を基礎として前記入力音声の周波数解析を行う本分析手段と、
前記本分析手段の周波数解析結果から前記位相情報を抽出する抽出手段と、
を含むことを特徴とする音声識別装置。
請求項５記載の装置において、
前記予備分析手段は、固定長の窓幅を有する固定時間窓によって前記入力音声をフレーム単位で切り出して周波数解析を行い、
前記本分析手段は、前記推定された基本波に基づいて可変設定される窓幅を有する可変時間窓を設定し、その可変時間窓によって前記入力音声をフレーム単位で切り出して周波数解析を行うことを特徴とする音声識別装置。
請求項６記載の装置において、
前記入力音声の内で所定の安定条件を満たすフレームから前記位相情報が抽出されることを特徴とする音声識別装置。
請求項２又は３記載の装置において、
更に、前記照合用音声のスペクトル包絡情報と前記入力音声のスペクトル包絡情報とを比較して個人同一性を判定する判定手段を含み、
前記識別手段は、前記個人同一性が判定された入力音声について、再生音声であるか否かを識別することを特徴とする音声識別装置。