JP3442553B2 - 話者認識システムおよび話者認識方法 - Google Patents

話者認識システムおよび話者認識方法

Info

Publication number
JP3442553B2
JP3442553B2 JP30667995A JP30667995A JP3442553B2 JP 3442553 B2 JP3442553 B2 JP 3442553B2 JP 30667995 A JP30667995 A JP 30667995A JP 30667995 A JP30667995 A JP 30667995A JP 3442553 B2 JP3442553 B2 JP 3442553B2
Authority
JP
Japan
Prior art keywords
speaker
sound
speaker recognition
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30667995A
Other languages
English (en)
Other versions
JPH09127974A (ja
Inventor
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP30667995A priority Critical patent/JP3442553B2/ja
Priority to US08/733,394 priority patent/US5893057A/en
Publication of JPH09127974A publication Critical patent/JPH09127974A/ja
Application granted granted Critical
Publication of JP3442553B2 publication Critical patent/JP3442553B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者認識を行なう
話者認識システムおよび話者認識方法に関する。
【0002】
【従来の技術】従来、銀行などにおいて、本人であるこ
とを確認するために、暗証番号などを利用者に入力させ
るようにしている。また、コンピュータでは、パスワー
ドと称して、暗証番号と同様の暗証文字列を利用者に入
力させることによって本人の確認を行なっている。しか
しながら、このような暗証番号や暗証文字列などの入力
による確認は、他人が、暗証番号や暗証文字列を知りさ
えすれば、難無く、これを盗用することができる。しか
も、暗証番号や暗証文字列は、それを登録した者(本人)
の生年月日や記念日、あるいは電話番号、氏名の綴りな
どを利用したものが多く、他人がこれを見破ることは差
程難しいことではない。
【0003】暗証番号や暗証文字列のこのような欠点を
回避するため、近年、声によって本人か否かを判定す
る、いわゆる話者認識が着目されている。この話者認識
は、ある話者が発声した音声の特徴パターンが、予め登
録されているこの話者の音声標準パターンと一致するか
否かを調べることにより、本人か否かを判定(認識)する
ものである。すなわち、話者の音声から抽出した特徴量
(特徴パターン)とこの話者の音声標準パターンとの類似
度を計算し、類似度の高低によって本人か否かを判定す
るものであり、人間の肉体的特徴を利用するものである
ことから、音声は、暗証番号や暗証文字列に比べて他人
がこれを真似ることは難かしく、従って、他人の盗用を
より有効に防止することができる。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の話者認識システムでは、正規の話者本人が話者
認識システムを利用しているときに(例えば話者認識の
ための音声を発声しているときに)、他人がその音声を
録音しておけば、この他人は、正規の話者本人の録音を
再生して話者認識装置に入力することで、正規の話者本
人になりすますことができ、他人によって悪用されると
いう問題がある。
【0005】このような問題を解決するために、例えば
特開平1−302297号に示されているように、話者
認識システムが発声すべき言葉を複数用意しておいて、
そのときに応じて発声を要求する言葉を利用者に対して
指定し、指定した以外の言葉では認識しないようにする
ことが考えられる。しかし、この話者認識システムで
は、複数の言葉を利用者本人に予め発声させて話者認識
システムに登録しておく必要があり、さらに、それらの
言葉の特徴パターンは最新の状態に更新しておかねば、
認識精度が低下することから、利用者は、所定の期間経
過ごとに、複数の言葉の標準パターンを再登録(更新)す
る必要があり、従って、利用者に相当の操作負担がかか
るという欠点があった。また、利用者のこのような負担
を軽減するためには、言葉の数をそれほど多くすること
ができず、従って、録音した1つの言葉の音声を再生し
て、他人が本人になりすます場合にも、何回かに1度は
成功してしまうという欠点があった。
【0006】本発明は、正規の話者本人の音声を他人が
録音してこれを悪用することを有効に防止可能な話者認
識システムおよび話者認識方法を提供することを目的と
している。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、話者を認識するための話者
認識システムにおいて、所定音響を発生する音響発生手
段と、話者の音声とともに前記音響発生手段からの音響
が入力されるとき、前記音響発生手段から発生し入力し
た音響成分を除去する信号除去手段とを備え、信号除去
手段によって音響発生手段からの入力音響成分が除去さ
れた信号を用いて話者認識を行なうことを特徴としてい
る。
【0008】また、請求項2記載の発明は、請求項1記
載の話者認識システムにおいて、音響発生手段は、連続
音響または断続音響を発生させるものであることを特徴
としている。
【0009】また、請求項3記載の発明は、請求項1記
載の話者認識システムにおいて、信号除去手段は、入力
音響成分を所定の相殺用信号により相殺するよう構成さ
れており、入力音響成分と相殺用信号との位相のずれが
最小となるように制御するための制御手段がさらに設け
られていることを特徴としている。
【0010】また、請求項4記載の発明は、請求項1記
載の話者認識システムにおいて、音響発生手段は、話者
認識システムが使用される度に、音響の周波数を変化さ
せることを特徴としている。
【0011】また、請求項5記載の発明は、請求項1記
載の話者認識システムにおいて、音響発生手段は、音響
として、可聴帯域外、あるいは、それに近い周波数の音
響を発生させることを特徴としている。
【0012】
【0013】
【0014】
【0015】また、請求項6記載の発明は、話者を認識
するための話者認識方法において、話者の音声が入力す
るときに、該音声とともに所定の音響を入力させ、次い
で、入力された信号から音響成分を除去した後、該信号
を用いて話者認識を行なうことを特徴としている。
【0016】
【発明の実施の形態】図1は一般的な話者認識システム
の構成例を示す図である。図1を参照すると、この話者
認識システムは、例えば銀行などにおける本人の確認を
話者認識により行なうためのものであって、利用者の音
声を入力するための音声入力手段(例えば、マイクロフ
ォン)1と、利用者に所定の指定情報を入力させるため
の指定手段(例えばキーボード)2と、音声入力手段1か
ら入力された信号の中から話者の音声の部分のみを音声
区間として検出する音声区間検出部3と、音声区間検出
部3で検出した音声区間内の音声信号から特徴量(特徴
パターン)を抽出する特徴抽出部4と、話者認識を行な
うに先立って話者の音声の標準的な特徴量(特徴パター
ン)を標準パターンとして話者認識用情報記憶部5に予
め登録する登録部6と、利用者(話者)の音声の特徴量
(特徴パターン)と話者認識用情報記憶部5に登録されて
いる標準パターンとを照合し、その類似度に基づいて話
者認識を行なう話者認識部7と、標準パターンの登録を
行なう登録モードと話者認識を行なう認識モードとの切
替を行なう切替部(例えばスイッチ)8とを有している。
【0017】ここで、特徴抽出部4は、音声信号を特徴
量(特徴パターン)として、スペクトルに変換しても良い
し、あるいはLPCケプストラムに変換しても良く、特
徴量の種類については特に限定するものではない。な
お、スペクトルに変換するためには、特徴量変換にはF
FTを用い、また、LPCケプストラムに変換するため
にはLPC分析などを用いるのがよい。
【0018】また、標準パターンの登録時(登録モード
時)において、登録部6は、ある話者が発声した音声に
基づいて特徴抽出部4で抽出された特徴量(特徴パター
ン)を標準パターンとして話者認識用情報記憶部5に登
録する際、図2に示すように、この話者により指定手段
2から入力された指定情報(例えば、この話者の名前や
生年月日,あるいはこの話者の暗証番号など)と対応付
けて、標準パターンを話者認識用情報記憶部5に登録す
ることができる。換言すれば、話者認識用情報記憶部5
には、話者認識に必要な話者認識用の情報が登録される
ようになっており、また、この話者認識用情報記憶部5
には、複数の話者(例えば利用者A,B,C,D,…)の
話者認識用情報が登録可能となっている。
【0019】また、話者認識用情報記憶部5に登録され
る音声の標準パターンとしては、この話者認識システム
の使用形態等に応じて、各利用者(話者)に予め言葉を発
声させたものであっても良いし、各利用者ごとにそれぞ
れ自由に所望の言葉を発声させたものであっても良い。
【0020】また、話者認識部7は、例えば、古井著
「ディジタル音声処理」(東海出版会)などに記載されて
いるように、現在の話者の音声の特徴パターンが話者認
識用情報記憶部5に登録されている複数の話者の標準パ
ターンのうちのどれに最も類似しているかを判定し、登
録されている複数の話者のうちから1人の話者を識別す
る話者識別方式のものであっても良いし、話者認識用情
報記憶部5に登録されている複数の話者の標準パターン
から現在の話者に対応する標準パターンを取り出し、こ
の標準パターンと現在の話者の特徴パターンとを照合
し、その類似度が所定基準値(しきい値)よりも高いか低
いかにより現在の話者が正規の話者本人であるか否かを
判定する話者照合方式のものであっても良い。
【0021】さらに、話者認識部7は、話者認識用情報
記憶部5に登録される音声の標準パターンが各利用者
(話者)に予め言葉を発声させたものである場合には、こ
れに対応した認識を行なうものにすることができ、ま
た、話者認識用情報記憶部5に登録される音声の標準パ
ターンが各利用者ごとにそれぞれ自由に所望の言葉を発
声させたものである場合には、これに対応した認識を行
なうものにすることができる。但し、各利用者(話者)に
予め決められた言葉を発声させて話者認識を行なう場
合、類似の判定基準(しきい値)を各話者に対して全て一
定値にすることができるが、各利用者ごとにそれぞれ所
望の言葉を発声させて話者認識を行なう場合には、類似
の判定基準(しきい値)を各話者ごとに相違させることも
できる。
【0022】以下では、説明の便宜上、この話者認識シ
ステムは、各利用者(話者)に予め決められた言葉(特定
の言葉)を発声させるものとし、また、話者認識部7で
は、話者照合方式の話者認識がなされるとする。なお、
話者認識部7において、話者照合方式の話者認識がなさ
れる場合、この話者認識時に、利用者(話者)は、指定手
段2から登録モード時に入力した指定情報と同じ指定情
報を入力する必要がある。これにより、話者認識部7で
は、話者認識用情報記憶部5に登録されている複数の話
者の標準パターンのうちから現在の話者に対応する標準
パターンを取り出すことができ、この標準パターンと現
在の話者の音声の特徴パターンとの照合を行なうことが
できる。
【0023】このような構成の話者認識システムを利用
者(例えばD)が始めて利用する場合、この利用者(話者)
Dは、先ず、自己の音声を標準パターンとして登録する
必要がある。このため、この利用者Dは、切替部(例え
ばスイッチ)8を操作して、特徴抽出部4を登録部6に
接続し、登録モードに設定する。
【0024】次いで、利用者(話者)Dは、指定手段2か
ら所定の指定情報,例えば(利用者D)を入力する。ま
た、この際、利用者は、予め決められた特定の言葉を発
声する。この音声は、音声入力手段1から入力し、音声
区間検出部3,特徴抽出部4により、特徴量(特徴パタ
ーン)に変換され、この話者の音声の標準パターンとし
て、登録部6に与えられる。
【0025】これにより、登録部6は、この利用者(話
者)Dの音声の標準パターンを指定手段2から入力され
た指定情報と対応付けて、話者認識用情報記憶部5に登
録する。例えば過去に、この話者認識用情報記憶部5に
複数の利用者(異なる利用者)A,B,Cが自己の音声を
標準パターンとして登録しており、現在の利用者Dが上
記のように自己の音声を標準パターンとして登録すると
き、この標準パターンは、話者認識用情報記憶部5に図
2に示すように記憶(登録)される。
【0026】このようにして、この音声の標準パターン
が話者認識用情報記憶部5に記憶されると、利用者D
は、この話者認識システムにより、利用者Dについての
話者認識を行なわせることができる。すなわち、この利
用者Dは、このシステムを用いて、いま利用している利
用者が利用者D本人であるか否かの判定を行なわせるこ
とができる。
【0027】具体的に、利用者Dが以後、このシステム
を利用する場合、利用者Dは、切替部8を操作して、特
徴抽出部4を話者認識部7に接続し、このシステムを認
識モードに設定する。
【0028】次いで、利用者Dは、指定手段2から所定
の指定情報,例えば(利用者D)を入力する。また、この
際、利用者Dは、予め決められた特定の言葉を発声す
る。この音声は、音声入力手段1から入力し、音声区間
検出部3,特徴抽出部4により、特徴量(特徴パターン)
に変換されて、話者認識部7に与えられる。
【0029】これにより、話者認識部7は、指定手段2
から入力された指定情報(利用者D)に対応させて登録さ
れている標準パターンを話者認識用情報記憶部5から取
り出し、この標準パターンと特徴抽出部4からの特徴パ
ターンとを照合して、その類似度を算出し、この類似度
が所定基準値よりも高いか低いかを判定する。この結
果、類似度が低いと判定されたときには、利用者が正規
の話者本人Dではないと判別し、この利用者による利用
を拒絶する。これに対し、類似度が高いと判定されたと
きには、利用者が正規の話者本人Dであると判別し、利
用者による利用を許可する。すなわち、利用者によるア
プリケーション(例えば入出金,残高照会などの処理)の
利用を許可する。
【0030】ところで、図1のような話者認識システム
では、前述したように、正規の話者本人が話者認識シス
テムを利用しているときに(例えば話者認識のための音
声を発声しているときに)、他人がその音声を録音して
おけば、この他人は、正規の話者本人の録音を再生して
話者認識システムに入力することで、正規の話者本人に
なりすますことができ、他人によって悪用されるという
問題がある。
【0031】図3はこのような問題を回避するための本
発明に係る話者認識システムの構成例を示す図である。
図3の話者認識システムでは、図1の話者認識システム
において、音声入力手段1に利用者の音声以外に、所定
の音響を入力させるための音響発生手段20が設けら
れ、また、例えば特徴抽出部4と切替部8との間には、
音声入力手段1に入力した音信号から音響発生手段20
によって出力された音響成分を除去するための信号除去
部21が設けられている。
【0032】ここで、図3の例では、音響発生手段20
は、特定の周波数信号を発生する発振器23と、発振器
23からの周波数信号を増幅する増幅器24と、音声入
力手段1の近くに配置され、増幅器24で増幅された周
波数信号に対応する周波数の音響を発生し、音声入力手
段1に入力させるスピーカ25とにより構成されてい
る。
【0033】なお、この音響発生手段20は、常時、音
響を発生するよう構成されていても良いが、この話者認
識システムが利用者に利用され始める時点(例えば指定
手段2から指定情報が入力された時点(すなわち、これ
から音声入力手段1に話者の音声が入力されようとする
時点)から、この利用者による利用が終了する時点(例え
ば、指定手段2によって利用を終了する旨のデータが入
力された時点)までの期間のみ、音響を発生するよう
に、制御することもできる。
【0034】次にこのような構成の話者認識システムの
動作について説明する。話者認識用情報(例えば標準パ
ターン)の登録時には、前述したと同様に、例えば、利
用者Dは、切替部(例えばスイッチ)8を操作して、特徴
抽出部4を登録部6に接続し、登録モードに設定する。
【0035】次いで、利用者(話者)Dは、指定手段2か
ら所定の指定情報,例えば(利用者D)を入力する。ま
た、この際、利用者は、予め決められた特定の言葉を発
声する。この際、図3のシステムでは、音響発生手段2
0から音響を発生させることができる。また、音響発生
手段20から音響を発生させるときは、信号除去部21
を作動させる。
【0036】このように、図3の話者認識システムで
は、利用者は、自己の音声の標準パターンを登録するた
めに、音声(言葉)を発声するが、この音声は、音響発生
手段20からの音響と重畳して音声入力手段1に入力
し、音響が重畳した音声信号は、音声区間検出部3を介
して特徴抽出部4で特徴量に変換される。従って、特徴
抽出部4においては、音響が重畳した音声信号の特徴量
(特徴パターン)が抽出されるが、このうち、音響成分
は、信号除去部21により除去され、従って、登録部6
には、話者の音声のみの特徴パターンが標準パターンと
して送られ、登録部6は、この標準パターンを話者認識
用情報記憶部5に登録する。
【0037】このように、音響発生手段20からの音響
が話者の発声した標準パターン登録用の音声に重畳して
音声入力手段1に加わっても、音響発生手段20からの
音響成分は、信号除去部21によって除去され、従っ
て、話者認識用情報記憶部5には、音響発生手段20か
らの音響成分を含まない、図1の話者認識システムと同
様の話者の音声成分の特徴量(特徴パターン)のみからな
る標準パターンを登録させることができる。
【0038】また、例えば、この話者認識システムに話
者認識を行なわせるときには、前述したと同様に、切替
部8を話者認識部7側に設定し、このシステムを認識モ
ードに設定する。
【0039】次いで、利用者Dは、指定手段2から所定
の指定情報,例えば(利用者D)を入力する。また、この
際、利用者Dは、予め決められた特定の言葉を発声する
が、この音声は、音響発生手段20からの音響と重畳し
て音声入力手段1に入力し、音響が重畳した音声信号
は、音声区間検出部3を介して特徴抽出部4で特徴量に
変換される。従って、特徴抽出部4においては、音響が
重畳した音声信号の特徴量(特徴パターン)が抽出される
が、このうち、音響成分は、信号除去部21により除去
され、従って、話者認識部7には、話者の音声のみの特
徴パターンが送られる。
【0040】これにより、話者認識部7は、指定手段2
から入力された指定情報(利用者D)に対応させて登録さ
れている標準パターンを話者認識用情報記憶部5から取
り出し、この標準パターンと特徴抽出部4からの特徴パ
ターンとを照合して、その類似度を算出し、この類似度
が所定基準値よりも高いか低いかを判定する。この結
果、類似度が低いと判定されたときには、利用者が正規
の話者本人Dではないと判別し、この利用者による利用
を拒絶する。これに対し、類似度が高いと判定されたと
きには、利用者が正規の話者本人Dであると判別し、利
用者による利用を許可する。すなわち、利用者によるア
プリケーション(例えば入出金,残高照会などの処理)の
利用を許可する。
【0041】このように、図3の話者認識システムで
は、正規の話者本人が自分の声で音声入力する場合に
は、音響発生手段20から音響が発生されていても、こ
の音響成分は、信号除去部21で除去されるので、標準
パターンの登録時に、音響を含まない話者本人の音声の
みの標準パターンを登録することができ、また、話者認
識時に、音響を含まない話者本人の音声のみの特徴パタ
ーンと標準パターンとの照合を行なうことができる。
【0042】これに対し、正規の話者本人以外の他人
が、音声入力手段1の近くで、標準パターンの登録時あ
るいは話者認識時に音声入力手段1に入力される正規の
話者本人の音声を録音し、本人になりすまして話者認識
等を行なうため、この録音を後で再生し音声入力手段1
に入力して、正規の話者本人の情報を盗用しようとする
場合、図3の話者認識システムにおいては、話者の音声
に音響発生手段20からの音響が重畳するので、他人
が、正規の話者本人の音声を音声入力手段1の近くで録
音すると、その録音結果は、正規の話者本人の音声に音
響発生手段20からの音響が重畳したものとなる。
【0043】従って、この他人が後で、正規の話者本人
になりすまして話者認識等を行なうため、この録音結果
を音声入力手段1のところで再生出力すると、音声入力
手段1には、録音されている正規の話者本人の音声(録
音音声)とこれに重畳している録音時の音響(録音音響)
とともに、音響発生手段20からの現時点での音響とが
入力し、録音音響,現時点の音響が重畳した音声信号
が、音声区間検出部3を介して特徴抽出部4に送られ
る。
【0044】この場合、特徴抽出部4においては、録音
音響と現時点の音響とが重畳した音声信号の特徴量(特
徴パターン)が抽出されるが、このうち、現時点の音響
成分は、例えば音響発生手段20と協働して(例えば同
期して)作動する信号除去部21によって除去される。
しかしながら、録音音響成分は、現時点の音響成分と一
般に位相を異にしていたり、あるいは、現時点の音響成
分と位相が一致する場合には音響成分の全体の大きさが
非常に大きなものとなったりすることによって、信号除
去部21によっては取り除かれず、残ってしまう。
【0045】すなわち、話者認識時に、録音結果を音声
入力手段1に入力させる場合には、話者認識部7には、
信号除去部21で完全には取り除かれなかった音響成分
の重畳した音声の特徴パターンが送られることになり、
従って、話者認識部7では、この特徴パターンと標準パ
ターンとの照合を行なうとき、特徴パターンに含まれて
いる音響成分によって正しく話者認識を行なうことがで
きない。
【0046】これによって、正規の話者本人の音声が録
音され、この録音音声が再生されて音声入力手段1に入
力されても、録音音響成分が残留することにより、再生
された録音音声の特徴パターンと標準パターンとの類似
度は低く、相違したものと判定され、正規の話者本人の
音声を録音した他人が正規の話者本人になりすまして、
正規の話者本人の情報を盗用することを有効に防止する
ことができる。
【0047】上述の構成例において、音響発生手段20
の発振器23としては、例えば50Hzの正弦波信号を
出力するものを用い、スピーカ24から、例えば50H
zの正弦波音響信号を出力させることができる。この場
合、音響発生手段20から発生した50Hzの正弦波音
響は話者の音声に重畳して音声入力手段1に入力し、特
徴抽出部4において抽出した特徴量信号には、50Hz
の雑音が混じっていることになる。
【0048】従って、この場合、信号除去部21として
は、特徴抽出部4において抽出された特徴量に含まれる
50Hzの信号を減衰させるものが用いられ、例えば特
徴量としてスペクトルが用いられる場合、信号除去部2
1を、例えば図4に示すような特性をもつフィルタで構
成することができる。このフィルタは、50Hzで−6
dBのゲインに設定されており、例えば、50Hzの音
響を発生させない場合は、スピーカ25から発生する5
0Hzの音響は、6dB下げた時にほとんど無視できる
状態のレベルに合わせておくことが望ましい。そうでな
い時は、特にレベルを厳密に設定する必要はない。な
お、図3の例では、信号除去部21は、特徴抽出部7の
後段に設けられているが(例えば特徴量がスペクトルで
あることを考慮し)、特徴抽出部7の前段に設けること
もできる。
【0049】音響発生手段20から例えば50Hzの連
続音響(例えば正弦波音響)を発生させる場合、図4に示
すような特性のフィルタで信号除去部21を構成するこ
とにより、例えば話者認識時に、正規の話者本人が自分
の声で音声を発生し、これに音響発生手段20からの5
0Hzの正弦波音響が重畳しても、この正弦波音響成分
は信号除去部21により除去され、従って、話者認識部
7には、正規の話者本人の音声の特徴パターンのみが与
えられ、これにより、話者認識部7では、話者認識を音
響成分に影響されずに正しく行なうことができる。
【0050】一方、正規の話者本人以外の他人が、上記
の話者本人になりすまして話者認識を行なうため、音声
入力手段1の近くで、あるいは音声入力手段1の出力信
号を傍受して正規の話者本人の音声を録音器によって録
音したとしても、録音結果には、50Hzの正弦波音響
が含まれている。従って、この他人が録音結果を再生し
て音声入力手段1に入力させるときには、音声入力手段
1には、この録音結果(録音音声,50Hzの正弦波録
音音響)とともに、現時点で音響発生手段20から発生
する50Hzの正弦波音響も入力する。このように、5
0Hzの正弦波録音音響と現時点の50Hzの正弦波音
響とが重畳して入力すると、多くの場合、この重畳の結
果、50Hzの正弦波音響の成分は大きなものとなり、
信号除去部21では、50Hzの正弦波音響成分を十分
には低減できず、話者認識用の特徴パターンに妨害の信
号として残ってしまう。
【0051】このため、話者照合の結果、正規の話者本
人の録音音声を使っても、話者認識システムは、話者本
人ではないとの結果を出力することができ、偽りの使用
を有効に防止することができる。
【0052】なお、上述の例では、周波数が50Hzで
あるとしたが、発振器23の周波数としては50Hzに
限定されず、任意の周波数のものを用いることができ
る。また、上述の例では、連続音響が正弦波音響である
としたが、正弦波以外の波形の連続音響であっても良
い。
【0053】但し、上述の例のように、音響発生手段2
0から発生する音響が例えば正弦波のような連続音響で
ある場合、録音音響の再生時の位相が現時点の音響の位
相とずれると、録音音響と現時点の音響とが干渉して、
これらを重畳した結果の音響成分全体のレベルが低下し
てしまい、これが信号除去部21で除去されて、正規の
話者本人が使っている場合と同様の結果を出してしまう
ことがある。すなわち、正しく話者認識がなされてしま
うことがある。
【0054】このような事態が生じるのを低減するた
め、音響発生手段20の発振器23として、例えば所定
周期,所定パルス幅のパルス信号を出力するものを用
い、スピーカ25から所定周期,所定幅の断続音響(パ
ルス音響)を発生させることもできる。
【0055】図5は音響発生手段20からこのような断
続音響を発生する話者認識システムの具体例を示す図で
ある。この例では、発振器23にパルス発振器を用い、
このパルス発振器23からのパルス信号によって断続音
をスピーカ25から出力するとともに、このパルス信号
の位相を反転して、信号除去部21としての加算器に加
え、この加算器21において音声信号に加えるようにな
っている(音声信号からパルス信号を減算するようにな
っている)。なお、特徴量としてスペクトルを用いる場
合、位相を考慮する必要がないことから、特徴抽出部4
の後段に、信号除去部(加算部)21を設けることができ
るが、特徴量としてスペクトルを用いない場合は、特徴
抽出部4の前段に信号除去部(加算部)21を設けること
ができる。
【0056】図5の話者認識システムでは、正規の話者
本人がこのシステムを使用している時に、他人が録音器
によって正規の話者本人の音声を録音する場合、録音結
果には、正規の話者本人の音声とともに音響発生手段2
0からのパルス音響が含まれる。この他人が、正規の話
者本人になりすまして話者認識を行なうため、この録音
結果(録音音声,録音パルス音声)を音声入力手段1のと
ころで、再生したとする。この時も、音響発生手段21
からはパルス音響が出力されており、この現時点のパル
ス音響成分は信号除去部21で除去されるが、録音パル
ス音響成分は除去されずに話者認識部7に送られ、これ
を話者認識に対して妨害の信号として残すことができ
る。
【0057】図6(a),(b),(c)はこの様子を示す図
である。なお、図6(a)は音声入力手段1に入力する音
響を示す図、図6(b)は信号除去部21に加わる反転パ
ルス信号P1 *を示す図、図6(c)は信号除去部21の出
力を示す図であり、図6(a),(b)では、簡単のため、
話者の音声については示されていない。
【0058】図6(a)からわかるように、音声入力手段
1には、現時点のパルス音響P1とともに録音パルス音
響P2が入力する。この際、パルス信号の周期Tが十分
に大きく、またパルス幅が小さいときには、現時点のパ
ルス音響P1と録音パルス音響P2との位相TPがずれる
場合、これらは重なり合わない。
【0059】図6(a)のような音響が音声入力手段1に
入力し、信号除去部21に加わるとき、信号除去部21
では、現時点のパルス音響P1と位相が同期した図6
(b)に示す反転パルス信号P1 *によって現時点のパルス
音響P1のみを除去することができる。従って、信号除
去部21からは、図6(c)のように、録音パルス音響P
2をそのレベルを低下させずに話者認識部7に与えるこ
とができ、この録音パルス音響P2が正規の話者本人の
特徴パターンに重畳していることにより、正規の話者本
人の録音音声を使っても、話者認識部7では、話者照合
の結果、正規の話者本人ではないとの結果を出力するこ
とができ、偽りの使用を有効に防止することができる。
【0060】ところで、図5の構成例では、信号除去部
(加算部)21において、音声入力手段21からの現時点
のパルス音響P1と反転パルス信号P1 *との位相がうま
く一致しない場合がある。この問題を回避するため、図
7に示すように、信号制御手段(コントローラ)30を設
け、利用者の使用に先立って、現時点のパルス音響信号
1から反転パルス信号P1 *を減算した信号が最小にな
るような操作、すなわち信号P1と信号P1 *との位相の
ずれが最小になるような操作を信号制御手段30により
行なうことができる。
【0061】すなわち、図7の構成例では、発振器23
からの信号を、増幅器24を介してスピーカ25に与え
るとともに、コントローラ30を介して、この信号を逆
相にして(反転して)、信号除去部(加算部)21に与え、
この信号除去部21の出力をモニタしながら、この出力
が最小になるようにコントローラ30の特性を変えるこ
とにより、パルス音響信号P1と反転パルス信号P1 *
の位相をできる限り一致させることができる。
【0062】この場合に、パルス音響信号P1と反転パ
ルス信号P1 *との位相のずれを最小にする手段として、
例えばB. Widrow & Samuel D. Stearns著の文献「Adapt
iveSignal Processing(Prentice-Hall. Inc, 1985)」に
示されているようなLMS(Least-Mean-Square)アルゴ
リズムを用いることができる。
【0063】このLMSアルゴリズムを用いる場合、図
8に示すように、音声信号をS(t)とし、パルス音響信
号をP1(t)とし、反転パルス信号をP1 *(t)とすると
き(なお、説明を簡単にするため、録音音響P2(t)は音
声信号S(t)に含まれているとする)、〔(S(t)+P
1(t))−P1 *(t)〕2の時間平均E〔((S+P1)−P1 *)
2〕をとり(E{・}は時間平均を表わす)、この二乗誤
差時間平均が最小となるように、コントローラ30によ
って制御することで、パルス音響信号P1(t)と反転パ
ルス信号P1 *(t)との位相のずれを最小にすることがで
きる。
【0064】すなわち、上記二乗誤差時間平均E〔((S
+P1)−P1 *)2〕は、次式のように展開される。
【0065】
【数1】E〔((S+P1)−P1 *)2〕=E〔S2〕+E
〔2S(P1−P1 *)〕+E〔(P1−P1 *)2
【0066】ここで、E〔2S(P1−P1 *)〕は、Sと
1,P1 *との相関がないので、“0”となり、従っ
て、数1は、次式のようになる。
【0067】
【数2】E〔((S+P1)−P1 *)2〕=E〔S2〕+E
〔(P1−P1 *)2
【0068】数2からわかるように、二乗誤差時間平均
E〔((S+P1)−P1 *)2〕を最小にすることは、(P1
1 *)を“0”とすることであり、従って、二乗誤差時
間平均E〔((S+P1)−P1 *)2〕を最小にすることで、
(P1−P1 *)を“0”にすることができる。すなわち、
1とP1 *との位相のずれを最小にすることができる(P
1 *の位相をP1に合わせることができる)。
【0069】このように、例えば実際の使用(話者認識)
を行なうに先立って、P1とP1 *との位相のずれが最小
となるようなコントローラ30の特性を決定し、P1
1 *との位相のずれを最小にするコントローラ30の特
性が決定されたときに、これを固定して、以後、用い
る。これにより、実際の話者認識時には、このコントロ
ーラ30の制御下で、パルス音響信号P1と反転パルス
信号P1 *との位相のずれを常に最小にし、現時点のパル
ス音響成分P1を反転パルス信号P1 *によって確実に相
殺することが可能となる。
【0070】なお、上述の例では、例えば図5の構成例
に適用する場合、すなわち、パルス音響信号と反転パル
ス信号との位相のずれを最小にする場合について説明し
たが、音響信号が正弦波のような連続的な信号である場
合にも図7の構成例を適用することができる。
【0071】すなわち、例えば、図3の構成例におい
て、さらに図7に示したようなコントローラ30を設
け、発振器23からの連続信号に基づきスピーカ25か
ら発生する連続音響信号と発振器23からの連続信号を
反転した反転連続信号との信号除去部21における位相
のずれを最小にすることで、現時点の連続音響成分を反
転音響信号によって確実に相殺することが可能となる。
【0072】また、上述の各構成例において、音響発生
手段20から発生する音響の周波数を使用毎に、その都
度変化させることもできる。
【0073】図9は音響発生手段20から発生する音響
の周波数を可変にすることのできる話者認識システムの
構成例を示す図である。図9を参照すると、この構成例
では、例えば、予め用意された複数の周波数のうちから
1つの周波数を選択して決定したり、あるいは、乱数発
生などによって周波数を例えばランダムに決定する周波
数決定部50がさらに設けられており、この周波数決定
部50からの周波数を発振器23に与え、発振器23か
らこの周波数の信号(連続信号あるいはパルス信号)を発
生させるようになっている。
【0074】また、図9の構成例において、信号除去部
21は、デジタルフィルタとして構成され、このデジタ
ルフィルタのカット周波数(フィルタ係数)が周波数決定
部50からの周波数に応じて可変に設定されるようにな
っている。
【0075】このような構成では、この話者認識システ
ムの音響発生手段20から発生している周波数の音響
は、信号除去部21のデジタルフィルタによって除去で
きるが、録音音声に含まれている周波数の録音音響は、
信号除去部21のデジタルフィルタの現在のカット周波
数とカット周波数が異なるために、雑音として残ってし
まい、認識を妨害することになる。これにより、偽りの
使用を有効に防止することができる。
【0076】また、上述の各構成例において、話者認識
システムを使用する時に、常にスピーカ25から音響が
出力されると、利用者にとって騒音となり、また、利用
者は不思議に思い、その音源付近にカバーをしたりして
しまうことも考えられる。そこで、音響発生手段20か
ら発生する音響として、可聴帯域外の音響、もしくはそ
れに近い周波数の音響を発生させるようにすることもで
きる。例えば、図3の構成例において、音響発生手段2
0の発振器23の周波数と信号除去部21のフィルタの
カット周波数とを20kHz以上、あるいは、20Hz
以下に設定することで、可聴帯域外の音響を発生させる
ことができる。
【0077】また、上述の各構成例では、正規の話者本
人の音声を録音したものを再生したときには、以後の利
用を拒絶することもできるし、あるいは、この話者認識
システムを動作させない、あるいは、悪用されていると
みなして予め決められた動作をさせるようにしてもよ
い。予め決められた動作として、例えば、警告を発した
り、正規の利用者への連絡(例えば、予め記憶されてい
る正規の利用者の電話番号へ電話をかける)等を行なう
ことができる。
【0078】警告を行なう場合、警告は、例えば、予め
メモリに登録された警告メッセージ音声を再生したり、
あるいは、表示装置に警告メッセージを文字表示するこ
とにより行なうことができる。あるいは、メッセージの
かわりに、ブザーやサイレン音のような音を発して警告
を行なうこともできる。また、電話をかける場合には、
電話で「**様の**が何者かに使用されています」と
いうようなメッセージを出すことができる。
【0079】なお、上述の各構成例では、標準パターン
の登録時,話者認識時のいずれの場合にも、音響発生手
段20から音響を発生させるようにしているが、例え
ば、標準パターンの登録時には、音響発生手段20から
音響を発生させないようにすることもできる。
【0080】また、上述の各構成例において、音響発生
手段20(スピーカ25)は、集音器としての音声入力手
段1(例えばマイクロフォン)の近辺に設置されれば良
く、音声入力手段1(マイクロフォン)と別体に構成され
ていても良いし、音声入力手段1(マイクロフォン)と一
体に構成されていても良い。
【0081】また、上述の構成例では、音声区間検出部
3の後に、特徴抽出部4が設けられているが、これのか
わりに、音声区間検出部3の前に、特徴抽出部4が設け
られていても良い。
【0082】また、本発明において、話者認識システム
とは、話者認識装置をも含む広い概念のものであること
に留意すべきである。
【0083】
【発明の効果】以上に説明したように、請求項1乃至
求項6記載の発明によれば、話者の音声が入力するとき
に、該音声とともに所定の音響を入力させ、次いで、入
力された信号から音響成分を除去した後、該信号を用い
て話者認識を行なうので、正規の話者本人の音声を他人
が録音してこれを悪用することを有効に防止することが
できる。
【図面の簡単な説明】
【図1】一般的な話者認識システムの構成例を示す図で
ある。
【図2】話者認識用情報記憶部の構成例を示す図であ
る。
【図3】本発明に係る話者認識システムの構成例を示す
図である。
【図4】信号除去部をフィルタで構成する場合に、この
フィルタの特性例を示す図である。
【図5】本発明の話者認識システムの変形例を示す図で
ある。
【図6】図5の話者認識システムの動作を説明するため
の図である。
【図7】本発明の話者認識システムの変形例を示す図で
ある。
【図8】図7の話者認識システムの動作原理を説明する
ための図である。
【図9】本発明の話者認識システムの変形例を示す図で
ある。
【符号の説明】
1 音声入力手段 2 指示手段 3 音声区間検出部 4 特徴抽出部 5 話者認識用情報記憶部 6 登録部 7 話者認識部 8 切替部 20 音響発生手段 21 信号除去部 23 発振器 24 増幅器 25 スピーカ 30 コントローラ 50 周波数決定部

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 話者を認識するための話者認識システム
    において、所定音響を発生する音響発生手段と、話者の
    音声とともに前記音響発生手段からの音響が入力される
    とき、前記音響発生手段から発生し入力した音響成分を
    除去する信号除去手段とを備え、信号除去手段によって
    音響発生手段からの入力音響成分が除去された信号を用
    いて話者認識を行なうことを特徴とする話者認識システ
    ム。
  2. 【請求項2】 請求項1記載の話者認識システムにおい
    て、前記音響発生手段は、連続音響または断続音響を発
    生させるものであることを特徴とする話者認識システ
    ム。
  3. 【請求項3】 請求項1記載の話者認識システムにおい
    て、前記信号除去手段は、前記入力音響成分を所定の相
    殺用信号により相殺するよう構成されており、前記入力
    音響成分と前記相殺用信号との位相のずれが最小となる
    ように制御するための制御手段がさらに設けられている
    ことを特徴とする話者認識システム。
  4. 【請求項4】 請求項1記載の話者認識システムにおい
    て、前記音響発生手段は、話者認識システムが使用され
    る度に、前記音響の周波数を変化させることを特徴とす
    る話者認識システム。
  5. 【請求項5】 請求項1記載の話者認識システムにおい
    て、前記音響発生手段は、前記音響として、可聴帯域
    外、あるいは、それに近い周波数の音響を発生させるこ
    とを特徴とする話者認識システム。
  6. 【請求項6】 話者を認識するための話者認識方法にお
    いて、話者の音声が入力するときに、該音声とともに所
    定の音響を入力させ、次いで、入力された信号から前記
    音響成分を除去した後、該信号を用いて話者認識を行な
    うことを特徴とする話者認識方法。
JP30667995A 1995-10-24 1995-10-31 話者認識システムおよび話者認識方法 Expired - Fee Related JP3442553B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP30667995A JP3442553B2 (ja) 1995-10-31 1995-10-31 話者認識システムおよび話者認識方法
US08/733,394 US5893057A (en) 1995-10-24 1996-10-18 Voice-based verification and identification methods and systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30667995A JP3442553B2 (ja) 1995-10-31 1995-10-31 話者認識システムおよび話者認識方法

Publications (2)

Publication Number Publication Date
JPH09127974A JPH09127974A (ja) 1997-05-16
JP3442553B2 true JP3442553B2 (ja) 2003-09-02

Family

ID=17960020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30667995A Expired - Fee Related JP3442553B2 (ja) 1995-10-24 1995-10-31 話者認識システムおよび話者認識方法

Country Status (1)

Country Link
JP (1) JP3442553B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4836501B2 (ja) * 2005-06-20 2011-12-14 富士通株式会社 個人認証システム、個人認証方法、個人認証プログラム
JP4573792B2 (ja) 2006-03-29 2010-11-04 富士通株式会社 ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
JP6179337B2 (ja) * 2013-10-17 2017-08-16 富士通株式会社 音声認証装置、音声認証方法及び音声認証プログラム
JP7073910B2 (ja) * 2018-05-24 2022-05-24 日本電気株式会社 音声型認証装置、音声型認証方法、及びプログラム

Also Published As

Publication number Publication date
JPH09127974A (ja) 1997-05-16

Similar Documents

Publication Publication Date Title
US5893057A (en) Voice-based verification and identification methods and systems
JP4573792B2 (ja) ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
Shiota et al. Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification
JP4359887B2 (ja) 個人認証システム
JP2002514318A (ja) 録音された音声を検出するシステムおよび方法
WO2010047816A1 (en) Speaker verification methods and apparatus
WO2010047817A1 (en) Speaker verification methods and systems
JPH0354600A (ja) 不明人物の同一性検証方法
JP2015191076A (ja) 音声識別装置
JP3442553B2 (ja) 話者認識システムおよび話者認識方法
US5499318A (en) Method and apparatus for access control based on an audible uttering and timing of the audible uttering
EP1445760B1 (en) Speaker verifying apparatus
JP3251460B2 (ja) 話者照合方法および装置
JP4440414B2 (ja) 話者照合装置及び方法
JP3592415B2 (ja) 話者認識システム
JP4263439B2 (ja) 本人認証装置および本人認証方法、コンピュータプログラム
JPH0430040B2 (ja)
JP2001350494A (ja) 照合装置及び照合方法
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
JP3097764B2 (ja) ガイダンス音声付き音声入力装置
JPS5914769B2 (ja) 音声機器
JPH01302297A (ja) 話者認識装置
JP2006053459A (ja) 話者認識装置
JPH09244684A (ja) 本人認証装置
JPH06318099A (ja) 話者認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080620

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090620

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090620

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100620

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110620

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120620

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130620

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees