JP4328423B2 - 音声識別装置 - Google Patents
音声識別装置 Download PDFInfo
- Publication number
- JP4328423B2 JP4328423B2 JP28265299A JP28265299A JP4328423B2 JP 4328423 B2 JP4328423 B2 JP 4328423B2 JP 28265299 A JP28265299 A JP 28265299A JP 28265299 A JP28265299 A JP 28265299A JP 4328423 B2 JP4328423 B2 JP 4328423B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- phase information
- phase
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は入力音声の評価を行う装置に関し、特に、入力音声について、今まさに発声した生音声であるか録音後の再生音声であるかを識別する装置に関する。
【0002】
【従来の技術】
音声識別装置には様々な用途が考えられるが、ここでは1つの適用例として、音声を用いた個人ID装置を説明する。一般に、音声個人ID装置は、利用者の音声を予め登録し、マイクからの入力音声が登録音声と同一であるか否かを自動的に識別する装置である。
【0003】
従来技術について具体的に説明すると、まず利用者毎に予め決められた発声内容の音声が登録される。これを登録音声又は照合用音声と呼ぶ。実際には、利用者により音声が入力されると、その音声信号から例えばスペクトル包絡情報が抽出され、それが照合時のリファレンス用データとして保存される。
【0004】
入力音声の照合時には、利用者により入力された音声信号から、登録時と同様の分析によりスペクトル包絡情報が抽出され、記憶してあるリファレンス用データとのマッチング処理が行われる。そのマッチング処理の結果、リファレンス用データとの違いが一定の閾値以上であれば当該入力音声を他人のものであるとして棄却し、その違いが一定の閾値以内であれば登録話者の音声と同一の音声であると判断し、扉に設けた電気錠の解錠等所定の処理を実行する。
【0005】
ところが、登録時などにおいて、登録話者本人の発声した音声を、背後から、あるいは装置に隠しマイクを設置する等により録音しておき、その後、その録音音声をスピーカ等から再生すると、スペクトル包絡情報が酷似した音声の入力を行い得る。このようにして入力された音声は、マイクやスピーカーの設置位置あるいは方向などを微妙に調節する必要があるものの、登録音声と同一視される可能性を否定できない。なお、これを録音画策と呼び、以下のように各種の対策が施されている。
【0006】
従来、このような画策行為を防止する方法として、特開平5−323990号には、システムが認証の度に異なった発声内容を入力するよう指示を与えるものが記載されている。また、特開平9−127974号には、システムが毎回異なった音響信号を出力し、入力音声に重畳させるようにし、入力された音声内にシステムが出力した音響信号を除去した後の信号を用いるものが記載されている。
【0007】
【発明が解決しようとする課題】
しかし、上記の従来手法では、入力された音声の発声内容を変えたり特定の音響信号を重畳して用いている為、発声の度に発声内容や重畳する音響信号を変えなければならないという問題がある。
【0008】
本発明は、上記従来の課題に鑑みなされたものであり、その目的は、信頼性の高い入力音声の識別を実現することにある。
【0009】
本発明の他の目的は、入力音声が生音声であるか再生音声であるか高精度に判別することにある。
【0010】
本発明の更に他の目的は、生音声とその再生音声の性質の違いを音声の評価に利用することにある。
【0011】
【課題を解決するための手段】
(1)手段の説明
上記目的を達成するために、本発明は、音声を入力するための音声入力手段と、前記音声入力手段に入力された音声から位相情報を抽出する位相情報抽出手段と、照合用音声の位相情報と入力音声の位相情報との比較により、入力音声を評価する評価手段と、を含むことを特徴とする。
【0012】
本発明者の各種実験によれば、生音声とそれを録音し再生した音声(再生音声)と間には信号波形の相違、具体的には位相情報の相違が認められた。これは録音系・再生系(特にスピーカ)の位相特性の影響によるものと推察される。本発明は、その現象を利用して、入力音声の評価を行うものであり、望ましくは、入力音声が生音声であるか再生音声であるかを識別するものである。本発明によれば、発声内容を変更させる必然性ななく、また他の音の重畳も不要であり、簡便で信頼性の高い入力音声の評価システムを実現できる。
【0013】
上記の位相情報は、望ましくは、基本波と高調波との間の位相差(あるいは高調波同士の位相差)であるが、これ以外にも、位相情報としては位相比、信号相関値、位相変化など、入力音声と再生音声の位相の相違を指標する情報であれば各種のものを利用可能である。更に、波形自体の直接比較によって、位相情報の比較を行うようにしてもよい。
【0014】
望ましくは、前記評価手段は、前記2つの位相情報の比較に基づいて、前記入力音声が再生音声であるか否かを識別する手段を含む。すなわち、上記のように入力音声と再生音声の間における波形の相違を位相情報の比較によって抽出し、これにより録音画策を判定する。
【0015】
望ましくは、前記位相情報は、音声の基本波と高調波の間の位相差及び高調波間の位相差の内の少なくとも1つに関する情報である。位相は相対的なもので、基本的に2つの位相の差(位相差)が物理的に意味をもつ。よって、基本波と高調波との間における位相差などを比較対象として利用するのが望ましい。その場合に、パワーの大きな基本波と、高調波の中でもパワーの大きい次数の低い高調波と、の間の位相差などを利用すれば精度良く評価を行い得る。
【0016】
望ましくは、前記位相情報抽出手段は、前記照合用音声の位相情報として、前記照合用音声の基本波とそのm次高調波との間の位相差Am、及び、前記照合用音声の基本波とそのn次高調波との間の位相差Anを求める手段と、前記入力音声の位相情報として、前記入力音声の基本波とそのm次高調波の間の位相差Bm、及び、前記入力音声の基本波とそのn次高調波の間の位相差Bnを求める手段と、を含み、前記識別手段は、前記位相差Amと前記位相差Bmとの間の差分と、前記位相差Anと前記位相差Bnとの間の位相差との間の差分と、に基づいて、前記入力音声の識別を行う。
【0017】
上記のように、複数の位相差を求めて相互比較すれば、より精度良く入力音声の評価を行える。なお、上記のm、nは2以上の整数であって、mとnは非同一である。
【0018】
望ましくは、前記位相情報抽出手段は、前記入力音声の基本波を推定する予備分析手段と、前記推定された基本波を基礎として前記入力音声の周波数解析を行う本分析手段と、前記本分析手段の周波数解析結果から前記位相情報を抽出する抽出手段と、を含む。
【0019】
上記構成によれば、最初に基本波を推定して、その基本波の周期(周波数)を基礎として次の本分析を実行できるので、本分析の処理条件を最適化可能であり、結果として分析精度を高められる。
【0020】
望ましくは、前記予備分析手段は、固定長の窓幅を有する固定時間窓によって前記入力音声をフレーム単位で切り出して周波数解析を行い、前記本分析手段は、前記推定された基本波に基づいて可変設定される窓幅を有する可変時間窓を設定し、その可変時間窓によって前記入力音声をフレーム単位で切り出して周波数解析を行う。
【0021】
上記可変時間窓は、男性の声の平均的周波数、女性の声の平均的周波数を考慮して、例えば3波長程度の大きさに設定するのが望ましい。しかし、その長さが短すぎると、十分なデータのサンプリング(切り出し)を行えず、一方、その長さが長すぎると、窓内における周波数シフトの影響を大きく受け、分析精度が低下するおそれがある。予備分析により、基本波が推定されれば、それに基づいて最適な可変時間窓を設定でき、すなわち、本分析での周波数解析を適切に行える。予備分析及び本分析ではFFT演算などが実行されるが、それ以外にも各種の手法を利用可能である。
【0022】
望ましくは、前記音声信号の内で所定の安定条件を持たすフレームから前記位相情報が抽出される。不安定な状態で音声信号を切り出すと、位相情報を適切に抽出できないおそれがある。そこで、安定状態を確認の上、位相情報の抽出を行うものである。
【0023】
望ましくは、音声識別装置が、生音声とそれを録音し再生した再生音声との間で相互に位相情報が異なることを利用して、入力音声が生音声であるか再生音声であるかを識別する。この構成は防犯用装置において有用であり、それ以外にも各種の応用が考えられる。
【0024】
望ましくは、音声識別装置が、照合用音声と入力音声の個人同一性を判定する判定手段と、前記同一性が判定された入力音声について、その位相情報により再生音声であるか否かを識別する識別手段と、を含む。
【0025】
(2)原理説明
図1には、生音声と再生音声のそれぞれの信号波形が示されている。上段の(A1)〜(D1)が再生音声(すなわち録音音声)であり、下段の(A2)〜(D2)が生音声である。ここで、再生音声は、同一話者が同一の発声内容を発声した音声を一度録音した後に再生したものである。各音声信号は、説明の便宜上、低域通過フィルタを通過した後のものである。また、図1の(A)〜(D)は、一定の期間にわたる音声信号を4分割して上から順番に並べたものであり、横軸は時間軸、縦軸は振幅を表している。
【0026】
生音声と再生音声とを比較すると、声の高さに相当する波形の繰返し周期(基本周波数)は相互に一致しているのに対し、ピーク位置や繰返しの基本単位である波形の形状が生音声と再生音声とでは若干異なっていることがわかる。
【0027】
図2及び図3に示すように、一般に、音声信号の母音部は、基本周波数(声の高さ)を与える基本波と、その2倍,3倍,...の周波数をもつ高調波の重ね合わせで構成されている。その形状は、位相と呼ばれる個々の正弦波の相対的な位置関係で決定されている。例えば、図2及び図3の比較から明かなように、3つの周波数信号の合成を考えると、同じ周波数であってもいずれかの信号の位相が異なれば、合成波形は大きく変化する。
【0028】
再生音声と生音声の波形形状が異なるのは、録音・再生の過程において上記位相の相対的な位置関係が崩れた結果であり、主に再生系(特にスピーカ)の影響が大きいことが経験的にわかっている。
【0029】
そこで、本発明は、同一話者が同一の発声内容を発声した場合であっても、再生音声と生音声とでは、信号波形(具体的には位相)が変化することを利用し、再生音声と生音声とを高精度に識別するものである。
【0030】
【発明の実施の形態】
以下、本発明に係る原理を音声による個人ID装置に適用した場合について説明する。もちろん、本発明は個人ID装置以外にも適用可能である。
【0031】
図4は、本実施形態に係る個人ID装置の全体構成を示すブロック図である。入力部1は音声を装置に入力するための手段であり、マイク、 A/D変換器、増幅器などで構成される。特徴量抽出部2は、入力部1により入力されデジタル化された音声信号に対して高速フーリエ変換(FFT; Fast Fourier Transformation)や線形予測(LPC; Linear Prediction Coding)分析を行い、周波数領域の特徴量を抽出するものである。照合部3は、現在入力されている音声と登録時に発声された音声を、公知のDPマッチング等の手法を用いて比較する手段である。記憶部4は、抽出された特徴量を記憶するメモリである。利用者が登録時に発声した音声から抽出した特徴量はここに記憶され、照合時に入力された音声と比較する為のリファレンス用データとして用いられる。出力部5は、例えば、照合部3において照合された結果、同一話者の生音声であると判断された場合に、電気錠に対して解錠信号を出力する回路である。一方、同一話者でないと判断された場合又は再生音声であると判定された場合には、必要に応じて、利用者に対して棄却された旨の信号をブザー音やモニタ画面にて提示し、また、必要に応じて、棄却された音声を記憶部4に記憶しておく。なお、特徴量抽出部2及び照合部3はハードウエアで構成することもできるが、実質的にソフトウエアで構成することもできる。
【0032】
次に、図5及び図6を用いて、音声個人ID装置の登録時及び照合時の処理の流れについて説明する。
【0033】
図5には登録時の処理の流れがフローチャートとして示されている。音声が入力されると、まず、入力部1にてデジタル化された信号系列から、波形の振幅の大きさや基本周波数の有無等の情報を用いて、音声信号が含まれている区間(発声区間)を切り出す(S1)。次に、入力された音声をフレーム分析し、スペクトル包絡情報を表すパラメータを抽出する(S2)。ここでスペクトル包絡情報とは、ある瞬間において音声信号に含まれている各周波数成分の分布の概形のことであり、分析フレーム毎にFFTやLPCケプストラムを算出することにより求めることができる。抽出されたパラメータは記憶部4に記憶され(S3)、照合時にリファレンス用データとして用いる。以上は従来装置でも同様である。
【0034】
次に、位相情報の抽出方法を説明する。
【0035】
位相をより精度よく求めるためには、FFT分析の際に用いる分析窓の中に基本周期波形が幾つ含まれているかが重要となる。経験的には3個程度含まれていると精度良く分析できることがわかっている。そこで、登録時において、以下に説明するように、「予備分析(S100)」と「本分析(S101)」の2段階の分析を行う。なお、識別精度があまり要求されないような場合には後者の本分析のみを実行するようにしてもよい。
【0036】
まず、予備分析においては、固定長の窓幅(例えば40ms程度)を利用して、音声信号の基本周期を推定する(S4)。この固定長の分析窓によると、精度は落ちるものの、男性の低い声(70Hz程度)から女性の高い声(500Hz程度)まで幅広く対応することができる。分析窓は時間軸に沿って連続的にスキャンされ、各位置において基本周期が推定される。この予備分析では、望ましくはFFT演算が実行されるが、その他に自己相関演算を実行するようにしてもよい。
【0037】
次に、本分析において、予備分析の結果として得られた基本周期の3倍の大きさを持つ分析窓を用いて再度分析を行う。すなわち、前述したスペクトル包絡情報は予備分析すなわち基本周期を考慮していない固定長の窓幅による分析により取得していたが、本分析では、予備分析により求められた基本周期が3個程度含まれる窓幅を新たに設定して周波数解析を実行し、それにより位相情報を抽出する(S5)。
【0038】
ここで、検定フレームについて説明する。一般に、音声のうち母音部は子音部に比べて定常的である為、スペクトル情報や基本周波数等の音声パラメータを安定に抽出することができる。しかし、位相情報をより高精度に抽出する為には、母音部の中でも更に基本周波数が推移している部分や、高調波の振幅レベルが小さい部分を分析対象から除かなければなない。この為、振幅及び位相に関する以下の2つの条件が満たされている場合に限り、その分析フレームを位相差情報の抽出に用いるフレーム(検定フレーム)とすることにする。
【0039】
[振幅に関する条件]
基本波、2倍高調波、3倍高調波の振幅レベル(AK,A2K,A3K)の最大値と最小値との比が所定の範囲(例えば20dB)内に入っていること(あるいは最小値が所定値以上であること)。
【0040】
ここで、図7(A)、図8(A)には、FFT分析後の各周波数におけるパワーが示されており、横軸はFFTポイント数(周波数)に相当し、縦軸は対数振幅値を示している。図7(B)、図8(B)には、FFT分析結果に対してアンラップ処理を施して得られる位相分布が示されており、横軸はFFTポイント数に相当し、縦軸は位相を示している。図7の例は基本周波数が安定している場合を示し、図8は基本周波数が遷移している場合を示している。なお、FFT分析結果は複素数として得られ、複素平面上におけるベクトル角度が位相に相当する。本来、位相は−π〜+πの間において不連続に存在しているが、ここでは直線位相成分を取り去った後の位相の周期性を考慮して、位相を連続的な数値に変換している。すなわち、図7(B)、図8(B)は公知のアンラップ処理を施したものである。
【0041】
図7における、左のピークから順に基本波AK(55ポイント付近[約320Hz])、2倍高調波A2K(110ポイント付近[約640Hz])、3倍高調波A3K(170ポイント付近[約980Hz])である。添字Kは、基本周波数(図8では約320Hz)に相当するFFTのポイント数を示している。なお、図7(A)及び図8(A)には連続スペクトルが示されているが、実際には複数の線スペクトルとして存在しており、FFTの分析窓が有限長のため連続スペクトルとして観測されている。
【0042】
上記の第1条件により、これらのうち何れかのレベルが低い場合には、位相差の抽出誤差が大きくなるため、検定フレームから除外される。
【0043】
[位相に関する条件]
次式により与えられるwj (j=1,2,3)が、全て一定の閾値内に入っていること(各jはそれぞれ基本波, 2倍高調波, 3倍高調波に相当)。
【0044】
【数1】
ここで、PjはFFTの第lポイントにおける位相を、Kは基本周波数に相当するFFTのポイント数を表している。また、P2K,P3Kはそれぞれ2倍高調波,3倍高調波の位相を表している。Mは分析フレーム長Nにより決まる整数で、
【数2】
により与えられる。ここで[x]はxを越えない最大の整数を表す。LはFFTの窓幅すなわちポイント数である。
【0045】
上記の図7の例は、基本波、2倍高調波、3倍高調波が安定しており、位相差抽出に適したものである。一方、図8の例は、基本波、2倍高調波、3倍高調波ともに安定しておらず、位相差抽出には一般に適さない。
【0046】
上記の式(1)は、図7(B)及び図8(B)において、基本波, 2倍高調波, 3倍高調波の各周波数近傍(前後Mポイント)における位相の安定性を示す尺度である。この値は、理想的な信号すなわちノイズ成分を含まない正弦波を合成した波形では、極めて小さくなる。従って、wjの値が大きい場合には基本周波数が不安定、すなわち推移していると判断できる。
【0047】
具体的には、図7(B)において、基本周波数(55ポイント近傍)とその2倍高調波(110ポイント近傍),3倍高調波(170ポイント近傍)に相当する周波数近傍における位相の値はかなり安定していることが分かる。一方、図8(B)においては、位相の値は基本周波数(50ポイント近傍)以外は安定しておらず、基本周波数が遷移していることが分かる。
【0048】
図5の本分析(S101)においては、上記条件を満たし、安定に位相情報を抽出することができる定常的なフレームを検定フレームとしてラベリングしておき(S6)、位相差情報を算出する(S7)。算出された位相差情報は、照合時のリファレンス用データとして記憶される(S8)。
【0049】
図6には、照合時の処理の流れがフローチャートとして示されている。照合工程は、大別して、音声の周波数的特徴を用いて音声の個人性及び音韻性を識別するスペクトルマッチングと、波形的特徴を用いて録音・再生音声であるか否かを識別する位相マッチングの2工程で構成される。
【0050】
スペクトルマッチング時には、音声が入力されると、分析フレーム単位で算出された上記パラメータを、DPマッチングを行うことにより登録音声及び入力音声の各分析フレームとの間で対応付けを取りつつ両者の距離を算出する(S3)。得られた距離を所定の閾値と比較し(S4)、閾値以上であれば、両音声は、異なる話者が発声したものであると判断し、棄却する(S5)。これは従来同様である。
【0051】
距離が閾値以下である場合には、更に位相情報に着目し、入力音声が再生音声であるか否かの判断を行う(位相マッチング)。
【0052】
ちなみに、発声が間延びした等により登録音声の検定フレームに複数の入力音声フレームが対応した場合には、対応する入力音声フレームから検定フレーム数と同数個のフレームを選択する。逆に、早口等により複数の検定フレームが同一の入力音声フレームに対応した場合には、連続する検定フレームのうち中央近傍に位置するフレームのみを用いる。
【0053】
ここで、対応する入力音声フレームが検定フレームとしての条件を満たしているかを再度判断しても良く、その際に条件を満たしていない場合には、前後数フレームで条件を満たすものをが存在するか調べ、存在する場合には対応フレームの代りに当該フレームを用いることも可能である。
【0054】
次に、上記において求めた検定フレームを用いて、基本波(周期T)と2倍高調波の位相差を求める方法について説明する(S6)。FFT等の分析結果に基づいて、分析窓の中央における基本波の位相,2倍高調波の位相をそれぞれ求める。分析窓内の位置は、基本波及び2倍高調波において一致している必要があり、また分析窓の両端では誤差が大きくなるので中央位置を用いるのが好ましい。
【0055】
図9は、位相差の定義を説明するための図である。上側の波形は基本波を、下側の波形は位相がδだけ遅れた2倍高調波をそれぞれ示している。
【0056】
基本波の位相(θ1)は、
【数3】
で与えられる。ここで、d1は分析窓の中央から波形のピーク位置までのポイント数である。同様に、2倍高調波の位相(θ2)は、
【数4】
で与えられる。位相差uは、図10のδにあたる量を2倍高調波の周期で正規化した値として以下のように定義される。
【0057】
【数5】
基本波と3倍高調波の位相差(v)も同様して求めることができる。
【0058】
【数6】
登録音声の検定フレームとそれに対応する入力音声のフレームとの間で、(u,v)の各値の差分を演算し、それに基づいて入力された音声が録音音声であるか生音声であるかを判定する。検定フレームiでの評価値として、以下のDiを用いる(S7)。
【0059】
【数7】
全ての検定フレームにおいて、それぞれ上記Diを算出する。再生音声であるか否かの判断は、これらの和の値が所定の閾値以下である、あるいは個々の評価値が全て所定の閾値以下である等の条件を用いて行う(S8)。上記の計算式では、入力音声と登録音声との間で、基本波と2倍高調波の位相差についての差分(第1差分)、及び、基本波と3倍高調波の位相差についての差分(第2差分)を加算したものを評価値としたが、第1差分又は第2差分の一方を評価値としてもよい。但し、再生系によっては、いずれかの差分がそれほど大きくならない可能性があるため、上記計算式のように複数の差分を考慮するのが望ましい。
【0060】
マッチングの結果、リファレンス用データとの違いが閾値以上であれば棄却し(S9)、閾値以内であれば登録話者と同一音声であるとして受理し、例えば扉の電気鍵の解錠信号を出力する(S10)。このように、2段階のマッチングにおいて同一であると判断された音声のみが受理される。なお、S9の判定手法としては各種のものをあげることができ、例えば、マッチングの結果が閾値以上となる回数が所定個以上になった場合に棄却判定を行うようにしてもよく、あるいは、マッチングの結果に対して各種の統計的処理を施し、それを評価するようにしてもよい。
【0061】
図10に男性話者音声の位相情報を分析して得られた評価値の例を示す。横軸は分析フレームの番号を、縦軸は評価値をそれぞれ表している。図において、生音声同士を比較した結果は全て評価値が0.20以下の領域に集まっているのに対し、生音声と録音再生音声とを比較した結果は全て評価値が0.60以上の領域に集まっており、録音再生音声と生音声が明確に分離できていることが分かる。
【0062】
図11に女性話者音声の位相情報を分析して得らえた評価値の例を示す。男性音声に比べ録音再生音声と生音声との評価値の差が若干小さくなっているものの、男性音声の場合同様確実に分離できていることがわかる。
【0063】
本実施例では基本波とその2倍高調波,3倍高調波の間の位相差を用いているが、これに限定されるものではない。2倍高調波と3倍高調波との間の位相差を用いてもよいし、あるいは4倍高調波以上を用いることも可能である。
【0064】
スペクトルマッチングに用いる特徴量に関しても、スペクトル包絡情報以外に基本周波数の変化パターン等、一般に音声による個人ID装置に用いられている特徴量を用いることが可能である。また、上記にて説明したDPマッチングにより分析フレームの対応をとる手法以外に、HMM(Hidden Markov Model)等を用いて音声の母音部分を抽出し、この部分において検定フレームの条件を満たすフレームのうち、より条件に適している上位数フレームをスペクトルマッチング及び位相マッチングに用いることも可能である。
【0065】
【発明の効果】
以上詳細に説明したように、本発明によれば、信頼性の高い入力音声の識別を実現できる。また本発明によれば、入力音声が生音声であるか再生音声であるか高精度に判別できる。更に本発明によれば、生音声とその再生音声の性質の違いを音声の評価に利用できる。
【図面の簡単な説明】
【図1】 録音後の再生音声と生音声の信号波形を示す波形図である。
【図2】 3つの信号の合成を示す説明図である。
【図3】 3つの信号の合成を示す説明図である。
【図4】 音声識別装置の基本的な構成を示すブロック図である。
【図5】 音声登録時の処理の流れを示すフローチャートである。
【図6】 音声照合時の処理の流れを示すフローチャートである。
【図7】 FFT分析結果とアンラップ処理結果を示す図である。
【図8】 FFT分析結果とアンラップ処理結果を示す図である。
【図9】 位相差の定義を説明するための図である。
【図10】 位相情報の分析結果を示す図である。
【図11】 位相情報の分析結果を示す図である。
【符号の説明】
1 入力部、2 特徴量抽出部、3 照合部、4 記憶部、5 出力部。
Claims (8)
- 音声を入力するための音声入力手段と、
前記音声入力手段に入力された入力音声から位相情報を抽出する位相情報抽出手段と、
照合用音声の位相情報と前記入力音声の位相情報との比較により、前記入力音声を評価する評価手段と、
を含み、
前記照合用音声及び前記入力音声の各位相情報は、音声の基本波と高調波の間の位相差及び高調波間の位相差の内の少なくとも1つに関する情報であることを特徴とする音声識別装置。 - 音声を入力するための音声入力手段と、
前記音声入力手段に入力された入力音声から位相情報を抽出する位相情報抽出手段と、
照合用音声の位相情報と前記入力音声の位相情報との比較により、前記入力音声を評価する評価手段と、
を含み、
前記評価手段は、前記照合用音声の位相情報と前記入力音声の位相情報の比較に基づいて、前記入力音声が再生音声であるか否かを識別する識別手段を含むことを特徴とする音声識別装置。 - 音声を入力するための音声入力手段と、
前記音声入力手段に入力された入力音声から位相情報を抽出する位相情報抽出手段と、
照合用音声の位相情報と前記入力音声の位相情報との比較により、前記入力音声を評価する評価手段と、
を含み、
前記照合用音声及び前記入力音声の各位相情報は、音声の基本波と高調波の間の位相差及び高調波間の位相差の内の少なくとも1つに関する情報であり、
前記評価手段は、前記照合用音声の位相情報と前記入力音声の位相情報の比較に基づいて、前記入力音声が再生音声であるか否かを識別する識別手段を含むことを特徴とする音声識別装置。 - 請求項2又は3記載の装置において、
前記位相情報抽出手段は、
前記照合用音声の位相情報として、前記照合用音声の基本波とそのm次高調波との間の位相差Am、及び、前記照合用音声の基本波とそのn次高調波との間の位相差Anを求める手段と、
前記入力音声の位相情報として、前記入力音声の基本波とそのm次高調波の間の位相差Bm、及び、前記入力音声の基本波とそのn次高調波の間の位相差Bnを求める手段と、
を含み、
前記識別手段は、前記位相差Amと前記位相差Bmとの間の差分と、前記位相差Anと前記位相差Bnとの間の位相差との間の差分と、に基づいて、前記入力音声の識別を行うことを特徴とする音声識別装置。 - 請求項1乃至3のいずれか1項に記載の装置において、
前記位相情報抽出手段は、
前記入力音声の基本波を推定する予備分析手段と、
前記推定された基本波を基礎として前記入力音声の周波数解析を行う本分析手段と、
前記本分析手段の周波数解析結果から前記位相情報を抽出する抽出手段と、
を含むことを特徴とする音声識別装置。 - 請求項5記載の装置において、
前記予備分析手段は、固定長の窓幅を有する固定時間窓によって前記入力音声をフレーム単位で切り出して周波数解析を行い、
前記本分析手段は、前記推定された基本波に基づいて可変設定される窓幅を有する可変時間窓を設定し、その可変時間窓によって前記入力音声をフレーム単位で切り出して周波数解析を行うことを特徴とする音声識別装置。 - 請求項6記載の装置において、
前記入力音声の内で所定の安定条件を満たすフレームから前記位相情報が抽出されることを特徴とする音声識別装置。 - 請求項2又は3記載の装置において、
更に、前記照合用音声のスペクトル包絡情報と前記入力音声のスペクトル包絡情報とを比較して個人同一性を判定する判定手段を含み、
前記識別手段は、前記個人同一性が判定された入力音声について、再生音声であるか否かを識別することを特徴とする音声識別装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28265299A JP4328423B2 (ja) | 1999-10-04 | 1999-10-04 | 音声識別装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28265299A JP4328423B2 (ja) | 1999-10-04 | 1999-10-04 | 音声識別装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001109494A JP2001109494A (ja) | 2001-04-20 |
JP4328423B2 true JP4328423B2 (ja) | 2009-09-09 |
Family
ID=17655310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28265299A Expired - Fee Related JP4328423B2 (ja) | 1999-10-04 | 1999-10-04 | 音声識別装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4328423B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101124623B (zh) | 2005-02-18 | 2011-06-01 | 富士通株式会社 | 语音认证系统及语音认证方法 |
JP4573792B2 (ja) | 2006-03-29 | 2010-11-04 | 富士通株式会社 | ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム |
JP2008224911A (ja) * | 2007-03-10 | 2008-09-25 | Toyohashi Univ Of Technology | 話者認識システム |
JP6089830B2 (ja) | 2013-03-18 | 2017-03-08 | 富士通株式会社 | 映像特徴生成システム、映像特徴生成方法、映像特徴生成プログラム、映像照合システム、映像照合方法、映像照合プログラム |
JP6220304B2 (ja) * | 2014-03-28 | 2017-10-25 | セコム株式会社 | 音声識別装置 |
-
1999
- 1999-10-04 JP JP28265299A patent/JP4328423B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001109494A (ja) | 2001-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7877254B2 (en) | Method and apparatus for enrollment and verification of speaker authentication | |
Singh et al. | MFCC and prosodic feature extraction techniques: a comparative study | |
Mowlaee et al. | Interspeech 2014 special session: Phase importance in speech processing applications | |
EP2860706A2 (en) | Anti-spoofing | |
Matrouf et al. | Effect of speech transformation on impostor acceptance | |
US20080046241A1 (en) | Method and system for detecting speaker change in a voice transaction | |
Patel et al. | Cochlear filter and instantaneous frequency based features for spoofed speech detection | |
US20100145697A1 (en) | Similar speaker recognition method and system using nonlinear analysis | |
WO2011046474A2 (ru) | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания | |
Kamble et al. | Novel energy separation based instantaneous frequency features for spoof speech detection | |
Bhangale et al. | Synthetic speech spoofing detection using MFCC and radial basis function SVM | |
Pati et al. | Subsegmental, segmental and suprasegmental processing of linear prediction residual for speaker information | |
EP2507794B1 (en) | Obfuscated speech synthesis | |
Patel et al. | Significance of source–filter interaction for classification of natural vs. spoofed speech | |
Wang et al. | Verification of hidden speaker behind transformation disguised voices | |
Kumar et al. | Hybrid of wavelet and MFCC features for speaker verification | |
JP4328423B2 (ja) | 音声識別装置 | |
Patil et al. | Development of TEO phase for speaker recognition | |
Král | Discrete Wavelet Transform for automatic speaker recognition | |
Jayanna et al. | Fuzzy vector quantization for speaker recognition under limited data conditions | |
VH et al. | A study on speech recognition technology | |
JP2008224911A (ja) | 話者認識システム | |
Singh et al. | Features and techniques for speaker recognition | |
Guntur | Feature extraction algorithms for speaker recognition system and fuzzy logic | |
Krishnamoorthy et al. | Application of combined temporal and spectral processing methods for speaker recognition under noisy, reverberant or multi-speaker environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060130 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090526 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090615 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120619 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4328423 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120619 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130619 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |