JP2002244697A - 音声認証装置、音声認証方法、及びプログラム - Google Patents

音声認証装置、音声認証方法、及びプログラム

Info

Publication number
JP2002244697A
JP2002244697A JP2001040456A JP2001040456A JP2002244697A JP 2002244697 A JP2002244697 A JP 2002244697A JP 2001040456 A JP2001040456 A JP 2001040456A JP 2001040456 A JP2001040456 A JP 2001040456A JP 2002244697 A JP2002244697 A JP 2002244697A
Authority
JP
Japan
Prior art keywords
voice
matching
extracting
feature
cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001040456A
Other languages
English (en)
Other versions
JP4244524B2 (ja
Inventor
Hiroyasu Ide
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2001040456A priority Critical patent/JP4244524B2/ja
Publication of JP2002244697A publication Critical patent/JP2002244697A/ja
Application granted granted Critical
Publication of JP4244524B2 publication Critical patent/JP4244524B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明の課題は、認証に有用な音声部分を的
確に抽出して認証率を向上することが可能な音声認証装
置、音声認証方法、及びプログラムを提供することであ
る。 【解決手段】 特徴抽出処理部11bは入力音声の音声
区間について細かい精度でケプストラムを算出し、その
高ケフレンシー部に現れるピーク値に基づいて音声部分
(有声音)を抽出し、抽出された音声部分についてやや
粗いメルケプストラムを算出し、その低ケフレンシー部
を特徴データとして抽出し、登録データバッファ11c
に記憶する。新たに音声が入力された場合は、特徴抽出
処理部11bにて入力音声の音声部分についての新規特
徴データを抽出し、特徴照合部11dによりこの新規特
徴データと前記登録特徴データとをDPマッチングによ
り照合し、照合結果に基づいて新規音声が登録音声と同
一であるか認証する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認証装置、音
声認証方法、及びプログラムに係り、詳細には、発話者
により発話される音声によって個人を認証する音声認証
装置、音声認証方法、及びプログラムに関する。
【0002】
【従来の技術】従来より、コンピュータシステムやネッ
トワークシステムを使用する際に本人であることを確認
するため、認証処理が行われている。このような認証の
手法の一つとして、音声による個人認証がある。また、
音声認証処理をコンピュータ等により行わせるための音
声認証装置が開発されている。
【0003】この種の音声認証装置では、入力されたア
ナログ音声信号をデジタル音声信号に変換し、このデジ
タル音声信号から音声区間を切り出し、切り出された音
声区間について夫々特徴データを抽出し、予め登録され
ている音声についての特徴データと照合することによ
り、入力された音声が、同一人物による音声であるかを
認証する。
【0004】このような音声認証装置において、入力さ
れた音声信号から音声区間を切り出す際は、一般に音声
信号のエネルギー値がある程度大きい区間を音声区間と
して切り出している。そのため、例えば、発話されるま
での非音声区間や、音と音の間の非音声区間については
エネルギー値が低いため照合の対象から外すことができ
る。
【0005】
【発明が解決しようとする課題】しかしながら、上述の
ような方法で音声区間を切り出す場合には、エネルギー
値に基づいて音声区間であるか非音声区間であるかを判
別するため、例えば、マイクに息がかかる等、エネルギ
ー値が大きいにも関わらず音声でない部分については照
合の対象から外すことはできなかった。そのため、認証
に有用でない音声部分についても認証の対象としてしま
い、認証率を損なわせていた。
【0006】本発明の課題は、認証に有用な音声部分を
的確に抽出して認証率を向上することが可能な音声認証
装置、音声認証方法、及びプログラムを提供することで
ある。
【0007】
【課題を解決するための手段】このような課題を解決す
るため、請求項1記載の発明は、入力された音声信号に
ついて、所定の精度でケプストラムを算出し、その高ケ
フレンシー部に表れるピーク値に基づいて音声部分を抽
出する音声部分抽出手段(例えば、図2に示す特徴抽出
処理部11b、図4の111b〜113b、118b、
図7のS21〜S25)と、この音声部分抽出手段によ
り抽出された音声部分における音声信号について、前記
精度より粗い精度でメルケプストラムを算出し、その低
ケフレンシー部を音声の特徴データとして抽出する特徴
抽出手段(例えば、図2に示す特徴抽出処理部11b、
図4の114b〜117b,図7のS26〜S31)
と、この特徴抽出手段により抽出された特徴データを登
録する登録手段(例えば、図2に示す登録データバッフ
ァ11c、図5のS6)と、新規入力された音声信号に
ついて前記音声部分抽出手段及び前記特徴抽出手段によ
って特徴データを抽出し、この新規入力音声信号の特徴
データと前記登録手段により予め登録されている特徴デ
ータとをDPマッチングにより照合し、その照合結果に
基づいて新規入力された音声信号を認証する認証手段
(例えば、図2に示す特徴照合部11d、図5のS7、
図9のS61〜S67)と、を備えることを特徴として
いる。
【0008】ここで、所定の精度とは、ケプストラムの
高ケフレンシー部のピークにおよそ80Hz以上の音声、
即ち低い声のデータが表れる程度の精度をいう。例え
ば、11kHzで音声信号をサンプリングした場合は、ケ
プストラムを算出する際にフーリエ変換(FFT)を5
12点とればよい。また、粗い精度とは、メルケプスト
ラムの低ケフレンシー部に個人差が表れる程度とするこ
とが望ましい。具体的には、例えば11kHzで音声信号
をサンプリングした場合は、メルケプストラムを算出す
る際にフーリエ変換を128点とればよい。
【0009】請求項1記載の発明によれば、音声部分抽
出手段と、特徴抽出手段と、登録手段と、によって、入
力された音声信号から所定の精度でケプストラムを算出
し、その高ケフレンシー部に表れるピーク値に基づいて
音声部分を抽出し、抽出された音声部分における音声信
号について前記精度より粗い精度でメルケプストラムを
算出し、その低ケフレンシー部を音声の特徴データとし
て抽出し、この特徴データを登録特徴データとして登録
する。また、認証手段によって、新規入力された音声信
号について前記音声部分抽出手段及び前記特徴抽出手段
によって音声部分の特徴データを抽出し、この新規入力
音声信号の特徴データと前記登録特徴データとをDPマ
ッチングにより照合し、その照合結果に基づいて新規入
力された音声を認証する。
【0010】従って、ケプストラムの高ケフレンシー部
に表れる音声の基本周波数を表すピーク値に基づいて音
声部分を抽出するため、認証に有用な音声部分を的確に
抽出できる。また、その抽出した音声部分について、あ
る程度粗い精度で特徴データを抽出するため音声の個人
差をよく表せる。そのため、個人の認証に有用な音声部
分を用いて特徴データを照合することが可能になり、認
証率を向上できる。
【0011】
【発明の実施の形態】以下、図を参照して本発明に係る
音声認証装置の実施の形態を詳細に説明する。
【0012】まず構成を説明する。図1は、本願発明の
音声認証装置の回路構成図である。本実施の形態におい
て音声認証装置1は、CPU(Central Processing Uni
t)10、入力部12、表示部13、通信制御部14、
音声入力部15、RAM(Random Access Memory)1
6、ROM(Read Only Memory)17、外部記憶装置1
8、及び記録媒体19によって構成されており、記録媒
体19を除く各部はバス20によって接続されている。
【0013】CPU10は、ROM17または外部記憶
装置18に記憶されている当該音声認証装置1に対応す
る各種アプリケーションプログラムの中から指定された
アプリケーションプログラム、入力部12または音声入
力部15から入力される各種指示をRAM16内のワー
クメモリに格納し、この入力指示及び入力データに応じ
てRAM16内に格納したアプリケーションプログラム
に従って各種処理を実行し、その処理結果をRAM16
内のワークメモリに格納するとともに、表示部13に表
示する。そして、ワークメモリに格納した処理結果を入
力部12から指示される外部記憶装置18内の保存先に
保存する。
【0014】また、CPU10は、音声入力部15から
入力された音声について認証処理を実行する音声認証処
理部11を備える。図2は、音声認証処理部11の構成
を示す機能ブロック図である。図2に示すように、音声
認証処理部11は、音声区間切り出し処理部11a、特
徴抽出処理部11b、登録データバッファ11c、及び
特徴照合部11dにより構成される。
【0015】音声認証処理部11には、デジタル化され
た音声信号が入力音声として入力される。入力音声は、
まず音声区間切り出し処理部11aによってエネルギー
値に基づいて音声区間が切り出され、その後、特徴抽出
処理部11bによって、その音声区間の特徴データが抽
出される。抽出された特徴データは、登録モードであれ
ば登録データバッファ11cに送出され保存される。ま
た、認証モードであれば特徴照合部11dに送出され、
登録データバッファ11cに予め保存されている特徴デ
ータと照合されて、その照合結果が出力される。
【0016】照合の結果、入力された音声と登録されて
いる音声の各特徴データが同一と照合された場合は、同
一人物による音声であると認証するとともに、新たに入
力された音声の特徴データを登録データバッファ11c
に送り、登録されている特徴データに代えて更新登録す
る。
【0017】図3は音声区間切り出し処理部11aの具
体的な構成例、及びエネルギーのスレッシュ値の一例を
説明する図である。
【0018】図3(a)に示すように、音声区間切り出
し処理部11aは、ハイパスフィルタ111a、エネル
ギー算出処理部112a、及び音声区間切り出し部11
3aによって構成される。入力音声は、まずハイパスフ
ィルタ111aによってその直流成分が除去される。こ
のとき100Hz程度のハイパスフィルタをかけることで
定常ノイズを除去する。ハイパスフィルタ111aは、
例えば次式(1)で表されるものを用いればよい。
【0019】 H(z)=(0.46-0.93z-1+0.46z-2)/(1-1.91z-1+0.91z-2) ・・・・(1)
【0020】ハイパスフィルタ111aにより定常ノイ
ズが除去された入力音声は、次に、エネルギー算出処理
部112aにより、一定サンプル毎、即ち各信号区間毎
にエネルギー値の対数が計算される。以下の説明におい
て一定サンプルの各信号区間をフレームという。各フレ
ームのエネルギー値Eの算出式を次式(2)に示す。
【0021】
【数1】
【0022】ここで、Siはサンプル値、nは各フレー
ムのサンプル数を示し、例えば、n=100等とすれば
よい。エネルギー値Eを算出する際に対数をとること
で、音声区間を精度よく切り出すことができる。
【0023】エネルギー算出処理部112aは、上式
(2)を入力音声の全信号(全フレーム)にわたって計
算する。発話者がマイク(音声入力部15)に十分接近
して発声している場合には、音声区間は非音声区間に比
べて十分にエネルギーが高い。そこで、エネルギー算出
処理部112aは、各フレームのエネルギーEのレンジ
を計算し、算出したエネルギー値Eからスレッシュ値E
tを算出する。
【0024】図3(b)にエネルギーのスレッシュ値E
tの一例を示す。図3(b)に示すように、例えば、全
フレームのエネルギー値Eのレンジ(Emin≦E≦Ema
x)の1/2以上のエネルギーを持つフレームを音声区
間とみなす場合には、スレッシュ値Etは以下の式
(3)で表される。
【0025】 Et=(Emax-Emin)/2+Emin ・・・・・・(3) ここで、Emaxはエネルギーの最大値であり、Eminはエ
ネルギーの最小値である。なお、この例ではエネルギー
のスレッシュ値Etを全フレームにおけるエネルギーの
レンジの1/2としているが、これに限定されるもので
はない。
【0026】次に音声区間切出し部113aはエネルギ
ー算出処理部112aにより算出された各フレームのエ
ネルギー値Eをスレッシュ値Etと比較し、エネルギー
Eがスレッシュ値Etより大きいフレームを音声区間と
みなし、またスレッシュ値Et以下となるフレームを非
音声区間とみなす。そして、音声区間とみなされたフレ
ームを切出し、特徴抽出処理部11bへ出力する。
【0027】特徴抽出処理部11bは、音声の特徴デー
タとしてケプストラムC(τ)及びメルケプストラムを
算出する。ケプストラムとは、波形の短時間スペクトル
の対数の逆フーリエ変換として定義され、次式(4)で
表される。ケプストラムの横軸はケフレンシーと呼ばれ
る。また、メルケプストラムとはメル軸に変換されたケ
プストラムをいい、聴力特性に近似した特徴を表すこと
が知られている。
【0028】 C(τ)=IFFT(LOG|FFT(x(t))|) ・・・・・(4) ここで、FFT()はフーリエ変換、IFFT()は逆フーリエ変
換、x(t)は入力信号である。
【0029】図4は、特徴抽出処理部11bによる特徴
抽出の手順を示す図である。まず、入力音声x(t)をフ
ーリエ変換(FFT;Fast Fourier Transform)する
(111b)。ここでは、ケプストラムの高ケフレンシ
ー部に表れるピークに、80Hz程度の低い音声まで表現
可能とするため、ある程度細かい精度でフーリエ変換す
る。具体的には、例えば11kHzでサンプリングした音
声信号であれば512点のフーリエ変換を行えばよい。
【0030】次に、フーリエ変換されたスペクトルの絶
対値|X(t)|の対数を取り、逆フーリエ変換して、ケプ
ストラムC(τ)を算出する(112b)。ケプストラム
の高ケフレンシー部には入力信号の基本周波数がピーク
として表れる。そこで、特徴抽出処理部11bはケプス
トラムの高ケフレンシー部を抽出し(113b)、その
高ケフレンシー部に表れるピーク値が所定のスレッシュ
値よりも小さければ基本周波数が存在しない、即ち音声
でない(有声音でない)と判定する。ピーク値が所定の
スレッシュ値以上であれば音声部分(有声音)と判定す
る。
【0031】具体的には、例えばケプストラムの30次
以降を高ケフレンシー部とし、ピーク値のスレッシュ値
は0.1とすればよい。音声部分と判定された音声信号
はその後、特徴データの抽出対象となる(118b)。
【0032】一方、ケプストラムC(τ)の低ケフレンシ
ー部にはスペクトラム包絡の情報が含まれ、やや粗くケ
プストラムを算出する方が個人差を表現しやすい。
【0033】そこで、特徴抽出処理部11bは、高ケフ
レンシー部に現れるピーク値に基づき音声部分として抽
出された音声信号について、やや粗いケプストラムを算
出し(114b、115b)、そのケプストラムを聴力
特性と近似するためにメル軸に変換し(116b)、変
換されたメル軸のケプストラム(以下、メルケプストラ
ムという)の低ケフレンシー部を抽出し(117b)、
特徴データとして音声認証に利用する。
【0034】粗いケプストラムを算出するため、具体的
には、例えば図4に示すように、細かいケプストラムを
算出した際に既に算出されているフーリエ変換の結果を
ダウンサンプリングし(111b→114b)、その値
を利用してケプストラムを算出する。
【0035】メルケプストラム係数は、ケプストラム係
数Cnにより次の再帰式を用いて近似的に算出される。
メルケプストラムの算出式を次式(5)に示す。
【0036】
【数2】
【0037】ここで、Cnはケプストラム係数、Nはケ
プストラムの次元数、i,jは夫々{i|0,1,…,N}、
{j|0,1,…,N}である。また、αはサンプリング周波
数に依存した値であり、サンプリング周波数が8kHzの
ときはα=0.31、10kHzのときはα=0.35に設定する。
この再帰式を計算すると、MCk 0にメルケプストラムが代
入される。ここではメルケプストラムの例えば30次ま
でを低ケフレンシー部とする。
【0038】特徴抽出処理部11bは、抽出された音声
部分のやや粗く算出されたメルケプストラムの低ケフレ
ンシー部を音声の特徴データとし、登録モードであれば
登録データバッファ11cに送出し、認証モードであれ
ば特徴照合部11dに送出する。
【0039】登録データバッファ11cには、やや粗く
算出されたメルケプストラムの低ケフレンシー部が登録
特徴データとして記憶される。
【0040】特徴照合部11dは、特徴抽出処理部11
bから供給される新たに入力された音声についての特徴
データ(やや粗く算出されたメルケプストラムの低ケフ
レンシー部)を、登録データバッファ11cに登録され
ている登録特徴データと照合する。
【0041】ここで、特徴照合処理について説明する。
特徴照合にはDPマッチングを利用する。DPマッチン
グとは、時間長の変動を動的計画法(DP:Dynamic Pr
ogramming)を用いて時間正規化する手法である。以
下、DPマッチングについて簡単に説明する。
【0042】対応すべき2つのベクトルの系列を次のよ
うに表す。 A=a1,a2,…,aI B=b1,b2,…,bJ
【0043】A,B両パターンの時間軸の対応付けは、
ベクトルA、Bからなる平面の格子点の系列で表され
る。即ち、マッチングでは、(a1,b1)から始まり、
(aI,bJ)まで到達する交点の系列を算出する。交点
の系列Fは次のように表される。 F=c1,c2,…,ck,…,cK ck=(ik,jk)
【0044】また、A,B間の各ベクトルの組(ai,
bj)間の距離をd(i,j)で表すと、交点の系列F
に沿ったA,Bの距離の総和D(F)は次の式(6)で
表される。
【0045】
【数3】
【0046】ここで、wkは重み付け関数である。この
D(F)の値が小さいほど、AとBの対応付けがよいこ
ととなる。
【0047】単調連続性条件として、 0≦ik−ik-1≦1 0≦jk−jk-1≦1 境界条件として、 i1=j1=1 iK=I,jK=J を導入し、これらの条件を満たす範囲で、上式(6)に
示すD(F)が最小となる交点系列Fを算出すればよ
い。
【0048】DPマッチング時の重みとして、市街化距
離を採用すると、 wk=(ik−ik-1)+(jk−jk-1),(i0=j0
0) となる。このとき、D(F)は次の式(7)に簡略化さ
れる。
【0049】
【数4】
【0050】DPマッチングにより最小のD(F)を算
出し、この算出した結果値が所定のスレッシュ値未満と
なる場合は、新規入力された音声が登録されている音声
に一致すると判定する。例えば、10kHz程度でサンプ
リングした音声についてユークリッド距離を採用し、そ
の重み付けとして市街化距離を採用したDPマッチング
を行う場合は、スレッシュ値を0.7程度とすればよ
い。
【0051】以上の説明がDPマッチングの簡単な説明
である。本実施の形態では、照合すべきデータは予め登
録された登録特徴データ(ベクトル列)と新規入力音声
の特徴データ(ベクトル列)である。まず、特徴照合部
11dは各特徴データの各点(ベクトル)間の距離d
(i,j)を算出する。ベクトル間距離は、例えばユー
クリッド距離を用いる。各ベクトルの要素を a={x1,…,xN} b={y1,…,yN} とすると、ユークリッド距離dは、以下の式(8)で表
される。
【0052】
【数5】
【0053】上述のDPマッチングの説明では(a1,b
1)から(aI,bJ)までのD(F)を算出することとし
ているが、これはベクトル列AとBの長さだけが異な
り、始点と終点が一致している場合に適用するものであ
る。
【0054】ところが、音声では「サ行」や「シャ行」
のように徐々にフェードインし、音声区間の切り出し方
によって、照合すべき2つの音声の始点が必ずしも一致
しない場合がある。そのため、本実施の形態では、特徴
照合部11dはDPマッチングの始点付近の複数の点群
(以下、初期点群という)から最適な始点を選択する。
【0055】即ち、(a1,b1)だけでなく、(a1,
b2),…,(a1,bs)や、(a2,b1),…,(a
s,b1)等の所定範囲内に含まれる複数の点を初期点群
とし、この初期点群に含まれる各点については、ベクト
ル間距離を算出する際に各点に適した重み付けを行う。
例えば点(ap,bq)でのベクトル間距離d(ap,b
q)に対して、(p+q)の重みを掛ける。即ち、点
(ap,bq)でのスコアは、(p+q)×d(ap,b
q)として算出される。そして、上記初期点群の各点に
ついてスコアを計算し、最小の値を最適な初期値とし、
その点を始点として選択する。
【0056】また、延音で終わる単語は照合すべき2つ
の音声の終点が必ずしも一致しない場合がある。そのた
め、特徴照合部11dはDPマッチングの終点付近の複
数の点群(以下、終点群という)から終点として最適な
点を選択し、その点におけるDPマッチングの値をその
点に適した重み付けで正規化し、DPマッチングの結果
とする。
【0057】即ち、(aI,bJ)だけでなく、(aI,
bJ-1),…,(aI,bJ-s)や、(aI-1,bJ),
…,(aI-s,bJ)等の所定範囲内に含まれる複数の点
を終点群とし、終点群に含まれる各点までのDPマッチ
ングの結果(スコア)を算出し、それらスコアを比較し
て最小となる点を終点として選択する。また、選択され
た終点に適した重み付けでその点におけるDPマッチン
グの結果値を正規化する。例えば、点(ap,bq)を終
点とした場合には、その点のスコアSを(p+q)で割
る、即ちS/(p+q)を計算することにより正規化
し、DPマッチングの結果とする。
【0058】また、上記初期点群、終点群の範囲、即ち
上記のsの値はFFT窓のシフト量に依存するが、例え
ば、1/100sec程度の点を取ることにすればよい。
【0059】特徴照合部11dは、登録特徴データと、
新規入力された音声の特徴データと、について上述のよ
うなDPマッチングによる照合処理を行い、その照合結
果をCPU10に出力する。CPU10は照合結果に応
じた処理を実行する。
【0060】照合結果により両特徴データが同一である
と認証された場合は、新規入力された音声の特徴データ
を、予め登録されている登録特徴データに代えて登録デ
ータバッファ11cに更新登録させる。また、照合結果
により両特徴データが同一でないと認証された場合は、
例えばこの音声認証装置1に接続されたコンピュータシ
ステムの利用を禁止させる処理等を実行する。
【0061】入力部12は、カーソルキー、数字入力キ
ー及び各種機能キー等を備えたキーボード、及びマウス
を含み、キーボードで押下された押下信号やマウスの位
置信号をCPU10に出力する。
【0062】表示部13は、CRT(Cathode Ray Tub
e)、またはLCD(Liquid CrystalDisplay)等により
構成され、CPU10から入力される表示指示に従って
各種表示データの画面表示を行う。
【0063】通信制御部14は、モデム(MODEM:
MOdulator/DEModulator )またはターミナルアダプタ
(TA:Terminal Adapter)等によって構成され、通信
回線を介して外部機器との通信を行うための制御を行
う。
【0064】音声入力部15は、マイク、及びA/D変
換器により構成され、発話者によりマイクに対して入力
された音声のアナログ信号をデジタル音声信号に変換
し、音声認証処理部11へ出力する。
【0065】RAM16は、指定されたアプリケーショ
ンプログラム、入力指示、入力データ及び処理結果等を
格納するメモリ領域を有する。
【0066】ROM17は、音声認証装置1に対応する
基本プログラムを格納している。すなわち、音声認証装
置1の電源がON状態にされた際に実行する初期プログ
ラム、各種演算プログラム、各処理モードにおいて実行
される処理プログラム等の書き換え不要な基本プログラ
ムを格納している。
【0067】外部記憶装置18は、プログラム、データ
等が予め記憶されており、この外部記憶装置18は磁気
的、光学的記録媒体、若しくは半導体メモリ等CPUで
読取り可能な記録媒体19を含んだ構成である。この記
録媒体19はCD−ROM、メモリカード等の可搬型の
媒体やハードディスク等の固定的な媒体を含む。また、
この記録媒体19に格納するプログラム、データ等は、
その一部若しくは全部をサーバやクライアントからWA
N、LANなどのネットワークを介して通信制御部14
から受信する構成にしてもよく、更に、前記記録媒体1
9はネットワーク上に構築されたサーバやクライアント
の記録媒体であってもよい。
【0068】次に動作を説明する。後述する各フローチ
ャートは本願発明の音声認証装置を構成するコンピュー
タに各機能を実現させるためのプログラムを説明するた
めのものである。このプログラムはCPU10が読取り
可能なプログラムコードの形態で前記記録媒体19に格
納されている例で説明するが、全ての機能を前記記録媒
体19に格納する必要はなく、必要に応じて、その一部
若しくは全部をネットワークを介して通信制御部14か
ら受信して実現するようにしてもよい。
【0069】図5は音声認証装置1における音声認証処
理の全体的な流れを説明するフローチャートである。
【0070】まず、ユーザは音声入力部15に対して所
定の音声を発話する(ステップS1)。音声入力部15
は入力された音声のアナログ信号を所定のサンプリング
周波数で標本化し、量子化し、符号化することにより、
デジタル音声信号に変換し、変換されたデジタル音声信
号を入力音声として音声認証処理部11へ送出する(ス
テップS2)。
【0071】音声認証処理部11では、まず音声区間切
り出し処理部11aにより入力音声からエネルギー値に
基づいて音声区間を切り出す処理を行う(ステップS
3)。ここで、音声区間切り出し処理について図6を参
照して説明する。図6は音声区間切り出し処理を説明す
るフローチャートである。図6に示すように、音声区間
切り出し処理では、まず、ハイパスフィルタ111aに
より入力音声から直流成分、及び定常ノイズを除去する
(ステップS11)。次に、エネルギー算出部112a
によって入力音声の一定サンプル毎の各区間(フレー
ム)のエネルギー値を算出し(ステップS12)、対数
処理を行う(ステップS13)。例えば、100サンプ
ル毎の区間(フレーム)に区切り、エネルギー値を算出
する(上式(2)参照)。
【0072】入力音声の信号全域に渡って、各フレーム
のエネルギー値を算出すると(ステップS14;Ye
s)、次に音声区間切り出し処理部11aは、算出した
各フレームのエネルギー値から、音声区間か或いは非音
声区間かのスレッシュ値Etを算出する(ステップS1
5)。スレッシュ値Etは、エネルギー値のレンジ(Em
in≦E≦Emax)の例えば1/2とすればよい(上式
(3)参照)。
【0073】そして、音声区間切り出し部113aは各
フレームのエネルギー値Eがスレッシュ値Etより大き
いか否かを判別し(ステップS16)、スレッシュ値E
tより大きければ(ステップS16;Yes)、そのフ
レームを音声区間として切り出す(ステップS17)。
また、エネルギー値Eがスレッシュ値Et以下であれ
ば、そのフレームは非音声区間であるとみなし、以降の
ケプストラム計算の対象としない。
【0074】全区間(フレーム)についてエネルギー値
に基づく音声区間の切り出しが終了すると(ステップS
18;Yes)、一連の音声区間切り出し処理を終了
し、図5のステップS4へ移行する。
【0075】音声区間として切り出された音声信号は次
に特徴抽出処理部11bによって特徴データが抽出され
る(ステップS4)。ここで、特徴抽出処理について図
7を参照して説明する。図7は特徴抽出処理を説明する
フローチャートである。まず、切り出された音声信号に
ついてケプストラムを算出するため、フーリエ変換(F
FT処理)を行う(ステップS21)。ここで、低い声
(80Hz程度)でも高ケフレンシー部にピークが表れる
ようにするため、ある程度細かくフーリエ変換をとる。
例えばサンプリング周波数が11kHzの音声信号であれ
ば512点のフーリエ変換を行えばよい。ここで算出さ
れたフーリエ変換の結果はRAM16に保存される(ス
テップS22)
【0076】次に、フーリエ変換された値の絶対値の対
数をとり、逆フーリエ変換を計算することによりケプス
トラムを算出する(ステップS23)。特徴抽出処理部
11bでは、算出したケプストラムの例えば30次以降
を高ケフレンシー部として抽出する(ステップS2
4)。そして高ケフレンシー部に現れるピーク値が所定
のスレッシュ値(例えば、0.1)より大きいか判定す
ることによりその音声信号が有声音(音声部分)である
か判別する(ステップS25)。マイクに息がかかる
等、有声音でない場合は高ケフレンシー部のピーク値が
所定のスレッシュ値(例えば、0.1)以下になるため
音声部分でないと判別される。以降の処理(ステップS
27〜S31)では音声部分と判別された音声信号のみ
特徴抽出(メルケプストラム計算)の対象とし(ステッ
プS26;Yes)、音声部分でない音声信号は特徴抽
出の対象としない(ステップS26;No)。
【0077】ステップS25において音声部分と判別さ
れた音声信号について、特徴抽出処理部11bはステッ
プS23において算出したケプストラムよりも粗くケプ
ストラムを算出する。ここでは、RAM16に保存した
FFT処理結果を読み出し(ステップS27)、ダウン
サンプリングする(ステップS28)。ダウンダンプリ
ングは例えば128点とすればよい。次に、ダウンサン
プリングしたFFTの結果の対数を計算し、逆フーリエ
変換することによりやや粗いケプストラムを算出する
(ステップS29)。
【0078】次に、算出したやや粗いケプストラムをメ
ル軸に変換することにより、メルケプストラムを算出す
る(ステップS30)。メルケプストラム算出処理につ
いて図8を参照して説明する。図8はメルケプストラム
算出処理を説明するフローチャートである。このフロー
チャートにおいて、Nはケプストラムの次元数、C[0,
…,N]は求められているケプストラムの値、MC[0,…,N]
[0,…,N+1]は計算に用いるバッファであり、αはサンプ
リング周波数に依存した定数である。
【0079】まず、バッファMC[0][N+1],MC[1][N+1],
…,MC[N][N+1]に「0」を代入し初期化する(ステップ
S41)。また、カウンタnにNを代入し初期化する
(ステップS42)。次に、C[n]+α×MC[0][n+1]を計
算し、バッファMC[0][n]に代入する(ステップS4
3)。この計算をカウンタnが0になるまで、即ちN+
1回繰り返す(ステップS44;No→ステップS45
→ステップS43)。カウンタnが0になった場合は
(ステップS44;Yes)、再度カウンタnにNを代
入して初期化し(ステップS46)、次に、式(1-α^2)
×MC[0][n+1]+α×MC[1][n+1]を計算し、バッファMC[1]
[n]に代入する(ステップS47)。この計算をカウン
タnが0になるまで、即ちN+1回繰り返す(ステップ
S48;No→ステップS49→ステップS47)。
【0080】次に、カウンタkに2を代入し(ステップ
S50)、カウンタnにNを代入して(ステップS5
1)、初期化する。次に、MC[k-1][n+1]+α×(MC[k][n+
1]-MC[k-1][n])を計算し、バッファMC[k][n]に代入する
(ステップS52)。この計算をカウンタnが0になる
まで、即ちN+1回繰り返す(ステップS53;No→
ステップS54→ステップS52)。また、ステップS
51〜S53の計算をカウンタkがNになるまで(即
ち、N−1回)繰り返す(ステップS55;No→ステ
ップS56→ステップS51〜S53)。以上の計算が
終了すると(ステップS55;Yes)、MC[0][0],MC
[1][0],…,MC[N][0]に、メルケプストラムの値が夫々代
入されている。
【0081】メルケプストラムが算出されると、図7の
ステップS31に戻り、算出されたメルケプストラムの
うち、低ケフレンシー部を抽出する。ここでは、例えば
30次までのメルケプストラムを低ケフレンシー部とす
る(ステップS31)。全音声区間について特徴抽出処
理が終了すると(ステップS32;Yes)図5のステ
ップS5に移行する。CPU10は登録モードであるか
認証モードであるか判別する。
【0082】登録モードであれば(ステップS5;登
録)、特徴抽出処理部11bにより抽出されたメルケプ
ストラムの低ケフレンシー部を登録特徴データとして、
登録データバッファ11cに記憶させる(ステップS
6)。認証モードであれば(ステップS5;認証)、特
徴抽出処理部11bにより抽出されたメルケプストラム
の低ケフレンシー部を新規特徴データとして、特徴照合
部11dに出力し、特徴照合処理を行わせる(ステップ
S7)。
【0083】ここで、特徴照合処理について図9を参照
して説明する。図9は特徴照合処理を説明するフローチ
ャートである。図9に示すように、特徴照合部11d
は、登録データバッファ11cに登録されている登録特
徴データを読出し、この登録特徴データと特徴抽出処理
部11bから供給される新規特徴データとをDPマッチ
ングにより照合する。
【0084】DPマッチングではまず、登録特徴データ
(例えば30次のベクトル列で表される)の各点(各要
素)と新規特徴データ(例えば30次のベクトル列で表
される)の各点(各要素)とのベクトル間距離を算出す
る(上式(8)参照)(ステップS61)。次に、所定
の初期点群については、ベクトル間距離に各点に適切な
重み付けを行ってスコアを求める(ステップS62)。
そして、DPマッチングを実行する(ステップS6
3)。
【0085】また、所定の終点群について、その点に適
した重み付けで正規化した、各点におけるDPマッチン
グの結果(スコア)を求め、それらの結果の中から最適
なものを選択する(ステップS64)。その値を所定の
スレッシュ値と比較し(ステップS65)、スレッシュ
値以上であれば(ステップS65;No)、他人による
音声と判定して(ステップS66)、その照合結果をC
PU10に出力する。また、DPマッチングの結果がス
レッシュ値未満であれば(ステップS65;Yes)、
同一人物による音声と判定して(ステップS67)、そ
の照合結果をCPU10に出力する。
【0086】同一人物による音声であると認証された場
合は、CPU10は登録データバッファ11cに登録さ
れている特徴データに代えて、新規特徴データを登録特
徴データとして更新登録し(ステップS68)、一連の
音声認証処理を終了する。
【0087】以上説明したように、本実施の形態の音声
認証装置1は、音声認証処理部11として、音声区間切
り出し処理部11a、特徴抽出処理部11b、登録デー
タバッファ11c、及び特徴照合部11dを備え、音声
区間切り出し処理部11aによって入力音声からエネル
ギー値に基づいて音声区間を切り出し、その音声区間に
ついての特徴データ(メルケプストラム)を特徴抽出処
理部11bによって算出する。特徴データを算出する際
は、まず、80Hz程度の低い音声まで基本周波数が検出
できるように細かくフーリエ変換し、ケプストラムを算
出し、その高ケフレンシー部に現れるピーク値が所定の
スレッシュ値より大きい場合はその区間を音声部分(有
声音)と判断して抽出する。次に、その抽出された音声
部分について、個人の特徴がよく現れるようにやや粗く
フーリエ変換し、ケプストラムを算出し、更にメル軸に
変換してメルケプストラムを算出し、その低ケフレンシ
ー部を特徴データとして抽出する。そして、抽出した特
徴データを登録データバッファ11cに記憶しておく。
【0088】また、新たに音声が入力された場合は、音
声区間切り出し処理部11a、及び特徴抽出処理部11
bにて同様の処理を行って、入力音声の音声部分につい
てのメルケプストラムの低ケフレンシー部を新規特徴デ
ータとして抽出する。そして、特徴照合部11dによ
り、その新規特徴データと登録データバッファ11cに
予め登録されている登録特徴データとをDPマッチング
により照合し、照合結果に基づいて新規音声が登録音声
と同一であるか認証する。
【0089】従って、音声から特徴データを抽出する際
に、まずケプストラムを細かく算出して高ケフレンシー
部に現れるピーク値に基づいて音声部分であるか否かを
判別するため音声部分を的確に抽出できる。つまり、マ
イクに息がかかったときのようにエネルギー値が大きい
が音声でない部分を認証の対象から削除できる。その
後、粗いメルケプストラムを算出するため個人差をよく
表すことができる。そのため、音声認証に有用な音声部
分について個人の特徴をよく表した特徴データで各音声
を照合できるため、高性能な音声認証を行うことができ
る。
【0090】また、特徴抽出処理部11bでは、粗いメ
ルケプストラムを算出する際に、ケプストラムの高ケフ
レンシー部抽出の際に細かく計算したフーリエ変換の値
をダウンサンプリングして用いるので、フーリエ変換の
演算量を削減して高速な処理を行える。
【0091】また、音声区間切り出し処理部11aによ
り、音声のエネルギー値に基づいて予め音声認証の処理
対象とする音声区間を切り出し、非音声区間についての
ケプストラム計算等の処理を省略できるため、一般に演
算に時間のかかるケプストラムの計算量を削減でき、よ
り高速な処理を行える。
【0092】また、特徴照合部11dでは、特徴データ
をDPマッチングにより照合する際に、所定の初期点群
については各点に適当な重み付けを行ってスコアを算出
し、その中で最適な始点を決定する。つまり音声の始点
に幅を持たせたDPマッチングを行えるため、「サ行」
や「シャ行」のように、フェードインする音声の照合率
を向上できる。
【0093】更に、音声の終点についても、所定の終点
群については各点においてその点に適した重み付けで正
規化したDPマッチングの結果を比較して最適なものを
選択する。つまり、終点に幅を持たせたDPマッチング
を行えるため、延音で終わる音声の照合率を向上でき
る。
【0094】また、認証の結果、新たに入力された音声
と登録された音声とが同一人物による音声であることが
認証された場合は、その新たに入力された音声の特徴デ
ータを予め登録されている登録特徴データに代えて更新
登録するため、音声の経年変化に追従した認証を行うこ
とが可能となり、認証率を向上できる。
【0095】なお、上述の実施の形態では、粗い精度で
メルケプストラムを算出する際に予め細かく算出されて
いるフーリエ変換の値をダウンサンプリングして用いる
こととしたが、これに限定されるものではなく、入力音
声から粗い精度でフーリエ変換を計算し直すようにして
もよい。
【0096】また、特徴照合部11dでは、DPマッチ
ングに用いるベクトル間距離としてユークリッド距離を
用いる例を示したが、これに限定されるものではなく、
例えばハミング距離 d=(1/N)Σ|(xn−yn)| や、チェビシェフ距離 d=max|(xn−yn)| を用いることとしてもよい。
【0097】その他、上述の実施の形態に示した各種ス
レッシュ値(エネルギーのスレッシュ値、ケプストラム
の高ケフレンシー部のピーク値のスレッシュ値、DPマ
ッチングの結果のスレッシュ値等)の具体的な数値は夫
々一例を示したものであり、本発明の趣旨を逸脱しない
範囲で適宜変更可能である。
【0098】
【発明の効果】請求項1、7、及び8記載の発明によれ
ば、ケプストラムの高ケフレンシー部に表れる音声の基
本周波数を表すピーク値に基づいて音声部分を抽出する
ため、認証に有用な音声部分を的確に抽出できる。ま
た、その抽出した音声部分について、ある程度粗い精度
で特徴データを抽出するため音声の個人差をよく表せ
る。そのため、個人の認証に有用な音声部分を用いて特
徴データを照合することが可能になり、認証率を向上で
きる。
【0099】請求項2記載の発明によれば、ケプストラ
ムを算出する際に予め計算されているフーリエ変換の値
をダウンサンプリングして、粗い精度のメルケプストラ
ムの計算を行うので、演算量を削減でき、高速に認証処
理を行うことができる。
【0100】請求項3記載の発明によれば、予めエネル
ギー値に基づいて音声区間を切出し、切出された音声区
間について音声部分を抽出するので、一般に演算に時間
のかかるケプストラムの計算量を削減でき、高速に認証
処理を行うことができる。
【0101】請求項4記載の発明によれば、DPマッチ
ングの終点付近の所定範囲内にある複数の点について、
各点までのDPマッチングの計算値をその点に適した重
み付けで正規化し、正規化された各DPマッチングの計
算値のうち最適なものを選択してDPマッチングの結果
とするので、DPマッチングの終点に幅を持たせた照合
が可能となり、延音で終わる音声の照合率を向上でき
る。
【0102】請求項5記載の発明によれば、DPマッチ
ングの始点付近の所定範囲内にある複数の点における各
特徴データの距離をその点に適した値で重み付けし、そ
の重み付けされた距離のうち最適なものを選択してDP
マッチングの始点値とするので、DPマッチングの始点
に幅を持たせた照合が可能となり、例えばサ行やシャ行
等のフェードインする音声の照合率を向上できる。
【0103】請求項6記載の発明によれば、認証の結
果、新規入力された音声信号の特徴データが前記登録特
徴データと同一であると認証された場合は、その新規入
力された音声信号の特徴データを登録特徴データとして
更新登録するので、日々変化する音声に追従した音声認
証を可能とし、音声認証装置の性能を向上できる。
【図面の簡単な説明】
【図1】本願発明の音声認証装置の回路構成図である。
【図2】音声認証処理部11の構成を示す機能ブロック
図である。
【図3】(a)は音声区間切り出し処理部11aの構成
例、(b)はエネルギーのスレッシュ値Etの一例を説
明する図である。
【図4】特徴抽出処理部11bによる特徴抽出の手順を
示す図である。
【図5】音声認証処理の全体的な流れを説明するフロー
チャートである。
【図6】音声区間切り出し処理を説明するフローチャー
トである。
【図7】特徴抽出処理を説明するフローチャートであ
る。
【図8】メルケプストラム算出処理を説明するフローチ
ャートである。
【図9】特徴照合処理を説明するフローチャートであ
る。
【符号の説明】
1 音声認証装置 10 CPU 11 音声認証処理部 11a 音声区間切り出し処理部 111a ハイパスフィルタ 112a エネルギー算出処理部 113a 音声区間切り出し部 11b 特徴抽出処理部 11c 登録データバッファ 11d 特徴照合部 12 入力部 13 表示部 14 通信制御部 15 音声入力部 16 RAM 17 ROM 18 外部記憶装置 19 記録媒体 20 バス
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/20 G10L 3/00 521P 21/02 521H 15/02 533C // G10L 101:04 3/02 301D 101:16 9/16 301A

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】入力された音声信号について、所定の精度
    でケプストラムを算出し、その高ケフレンシー部に表れ
    るピーク値に基づいて音声部分を抽出する音声部分抽出
    手段と、 この音声部分抽出手段により抽出された音声部分におけ
    る音声信号について、前記精度より粗い精度でメルケプ
    ストラムを算出し、その低ケフレンシー部を音声の特徴
    データとして抽出する特徴抽出手段と、 この特徴抽出手段により抽出された特徴データを登録す
    る登録手段と、 新規入力された音声信号について前記音声部分抽出手段
    及び前記特徴抽出手段によって特徴データを抽出し、こ
    の新規入力音声信号の特徴データと前記登録手段により
    予め登録されている特徴データとをDPマッチングによ
    り照合し、その照合結果に基づいて新規入力された音声
    信号を認証する認証手段と、 を備えることを特徴とする音声認証装置。
  2. 【請求項2】前記特徴抽出手段は、 前記音声部分抽出手段によるケプストラム算出の際に計
    算されるフーリエ変換の結果をダウンサンプリングし、
    このダウンサンプリングした値からメルケプストラムを
    算出することを特徴とする請求項1記載の音声認証装
    置。
  3. 【請求項3】入力された音声信号から定常ノイズを除去
    するフィルタと、 フィルタにより定常ノイズが除去された音声信号につい
    て所定の信号区間毎にエネルギー値を算出するエネルギ
    ー算出手段と、 エネルギー算出手段により算出されたエネルギー値に基
    づいてケプストラム算出の対象とする信号区間を切り出
    す対象区間切出手段と、を更に備え、 前記音声部分抽出手段は、前記対象区間切出手段により
    切出された信号区間について、前記ケプストラムを算出
    することを特徴とする請求項1記載の音声認証装置。
  4. 【請求項4】前記認証手段は、前記各特徴データを照合
    する際、DPマッチングの終点付近の所定範囲内にある
    複数の点について、各点までのDPマッチングの計算値
    をその点に適した重み付けで正規化し、正規化された各
    DPマッチングの計算値のうち最適なものを選択してD
    Pマッチングの結果とすることを特徴とする請求項1記
    載の音声認証装置。
  5. 【請求項5】前記認証手段は、前記各特徴データを照合
    する際、DPマッチングの始点付近の所定範囲内にある
    複数の点における各特徴データの距離をその点に適した
    値で重み付けし、その重み付けされた距離のうち最適な
    ものを選択してDPマッチングの始点値とすることを特
    徴とする請求項1記載の音声認証装置。
  6. 【請求項6】前記認証手段による認証の結果、新規入力
    された音声信号の特徴データが前記登録特徴データと同
    一であると認証された場合は、その新規入力された音声
    信号の特徴データを登録特徴データとして、予め登録さ
    れている登録特徴データに代えて更新登録する更新登録
    手段を更に備えることを特徴とする請求項1から5の何
    れかに記載の音声認証装置。
  7. 【請求項7】入力された音声信号について、所定の精度
    でケプストラムを算出し、その高ケフレンシー部に表れ
    るピーク値に基づいて音声部分を抽出する音声部分抽出
    工程と、 この音声部分抽出工程により抽出された音声部分におけ
    る音声信号について、前記精度より粗い精度でメルケプ
    ストラムを算出し、その低ケフレンシー部を音声の特徴
    データとして抽出する特徴抽出工程と、 この特徴抽出工程により抽出された特徴データを登録す
    る登録工程と、 新規入力された音声信号について前記音声部分抽出工程
    及び前記特徴抽出工程によって特徴データを抽出し、こ
    の新規入力音声信号の特徴データと前記登録工程により
    予め登録されている特徴データとをDPマッチングによ
    り照合し、その照合結果に基づいて新規入力された音声
    信号を認証する認証工程と、 を含むことを特徴とする音声認証方法。
  8. 【請求項8】コンピュータに、 入力された音声信号について、所定の精度でケプストラ
    ムを算出し、その高ケフレンシー部に表れるピーク値に
    基づいて音声部分を抽出する音声部分抽出機能と、 この音声部分抽出機能により抽出された音声部分におけ
    る音声信号について、前記精度より粗い精度でメルケプ
    ストラムを算出し、その低ケフレンシー部を音声の特徴
    データとして抽出する特徴抽出機能と、 この特徴抽出機能により抽出された特徴データを登録す
    る登録機能と、 新規入力された音声信号について前記音声部分抽出機能
    及び前記特徴抽出機能によって特徴データを抽出し、こ
    の新規入力音声信号の特徴データと前記登録機能により
    予め登録されている特徴データとをDPマッチングによ
    り照合し、その照合結果に基づいて新規入力された音声
    信号を認証する認証機能と、 を実現させるためのプログラム。
JP2001040456A 2001-02-16 2001-02-16 音声認証装置、音声認証方法、及びプログラム Expired - Fee Related JP4244524B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001040456A JP4244524B2 (ja) 2001-02-16 2001-02-16 音声認証装置、音声認証方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001040456A JP4244524B2 (ja) 2001-02-16 2001-02-16 音声認証装置、音声認証方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2002244697A true JP2002244697A (ja) 2002-08-30
JP4244524B2 JP4244524B2 (ja) 2009-03-25

Family

ID=18903060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001040456A Expired - Fee Related JP4244524B2 (ja) 2001-02-16 2001-02-16 音声認証装置、音声認証方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP4244524B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078654A (ja) * 2004-09-08 2006-03-23 Embedded System:Kk 音声認証装置及び方法並びにプログラム
JP2007094002A (ja) * 2005-09-29 2007-04-12 Konami Digital Entertainment:Kk 音声情報処理装置、音声情報処理方法、ならびに、プログラム
JP2010276697A (ja) * 2009-05-26 2010-12-09 Waseda Univ 音声処理装置およびプログラム
JP2017187676A (ja) * 2016-04-07 2017-10-12 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
JP2018509649A (ja) * 2015-02-05 2018-04-05 北京得意音通技▲術▼有限▲責▼任公司Beijing D−Ear Technologies Co., Ltd. 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5713493A (en) * 1980-06-27 1982-01-23 Hitachi Ltd Speaker recognizing device
JPS58120296A (ja) * 1982-01-11 1983-07-18 日本電信電話株式会社 系列パターン・マッチング方法
JPS63127295A (ja) * 1986-11-18 1988-05-31 株式会社リコー 音声区間検出方式
JPH0256600A (ja) * 1988-08-23 1990-02-26 Ricoh Co Ltd 音声ダイヤリング方式
JPH04230800A (ja) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 音声信号処理装置
JPH11231895A (ja) * 1998-02-17 1999-08-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びその装置
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5713493A (en) * 1980-06-27 1982-01-23 Hitachi Ltd Speaker recognizing device
JPS58120296A (ja) * 1982-01-11 1983-07-18 日本電信電話株式会社 系列パターン・マッチング方法
JPS63127295A (ja) * 1986-11-18 1988-05-31 株式会社リコー 音声区間検出方式
JPH0256600A (ja) * 1988-08-23 1990-02-26 Ricoh Co Ltd 音声ダイヤリング方式
JPH04230800A (ja) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 音声信号処理装置
JPH11231895A (ja) * 1998-02-17 1999-08-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びその装置
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078654A (ja) * 2004-09-08 2006-03-23 Embedded System:Kk 音声認証装置及び方法並びにプログラム
JP2007094002A (ja) * 2005-09-29 2007-04-12 Konami Digital Entertainment:Kk 音声情報処理装置、音声情報処理方法、ならびに、プログラム
JP4722653B2 (ja) * 2005-09-29 2011-07-13 株式会社コナミデジタルエンタテインメント 音声情報処理装置、音声情報処理方法、ならびに、プログラム
JP2010276697A (ja) * 2009-05-26 2010-12-09 Waseda Univ 音声処理装置およびプログラム
JP2018509649A (ja) * 2015-02-05 2018-04-05 北京得意音通技▲術▼有限▲責▼任公司Beijing D−Ear Technologies Co., Ltd. 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法
JP2017187676A (ja) * 2016-04-07 2017-10-12 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム

Also Published As

Publication number Publication date
JP4244524B2 (ja) 2009-03-25

Similar Documents

Publication Publication Date Title
JP4218982B2 (ja) 音声処理
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
JP5106371B2 (ja) 話認認証の検証のための方法および装置、話者認証システム
US20050060153A1 (en) Method and appratus for speech characterization
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
JPS62231997A (ja) 音声認識システム及びその方法
JPH0743598B2 (ja) 音声認識方法
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
GB2347775A (en) Method of extracting features in a voice recognition system
JP4318475B2 (ja) 話者認証装置及び話者認証プログラム
JP2955297B2 (ja) 音声認識システム
JP4244524B2 (ja) 音声認証装置、音声認証方法、及びプログラム
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JP2817429B2 (ja) 音声認識装置
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JPH09198086A (ja) 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置
JP4603727B2 (ja) 音響信号分析方法及び装置
JP2001083978A (ja) 音声認識装置
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
JP3868798B2 (ja) 音声認識装置
JP3007357B2 (ja) 音声認識装置の辞書更新方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081229

R150 Certificate of patent or registration of utility model

Ref document number: 4244524

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees