JP3442553B2

JP3442553B2 - 話者認識システムおよび話者認識方法

Info

Publication number: JP3442553B2
Application number: JP30667995A
Authority: JP
Inventors: 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-10-31
Filing date: 1995-10-31
Publication date: 2003-09-02
Anticipated expiration: 2015-10-31
Also published as: JPH09127974A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者認識を行なう
話者認識システムおよび話者認識方法に関する。

【０００２】

【従来の技術】従来、銀行などにおいて、本人であるこ
とを確認するために、暗証番号などを利用者に入力させ
るようにしている。また、コンピュータでは、パスワー
ドと称して、暗証番号と同様の暗証文字列を利用者に入
力させることによって本人の確認を行なっている。しか
しながら、このような暗証番号や暗証文字列などの入力
による確認は、他人が、暗証番号や暗証文字列を知りさ
えすれば、難無く、これを盗用することができる。しか
も、暗証番号や暗証文字列は、それを登録した者(本人)
の生年月日や記念日、あるいは電話番号、氏名の綴りな
どを利用したものが多く、他人がこれを見破ることは差
程難しいことではない。

【０００３】暗証番号や暗証文字列のこのような欠点を
回避するため、近年、声によって本人か否かを判定す
る、いわゆる話者認識が着目されている。この話者認識
は、ある話者が発声した音声の特徴パターンが、予め登
録されているこの話者の音声標準パターンと一致するか
否かを調べることにより、本人か否かを判定(認識)する
ものである。すなわち、話者の音声から抽出した特徴量
(特徴パターン)とこの話者の音声標準パターンとの類似
度を計算し、類似度の高低によって本人か否かを判定す
るものであり、人間の肉体的特徴を利用するものである
ことから、音声は、暗証番号や暗証文字列に比べて他人
がこれを真似ることは難かしく、従って、他人の盗用を
より有効に防止することができる。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た従来の話者認識システムでは、正規の話者本人が話者
認識システムを利用しているときに(例えば話者認識の
ための音声を発声しているときに)、他人がその音声を
録音しておけば、この他人は、正規の話者本人の録音を
再生して話者認識装置に入力することで、正規の話者本
人になりすますことができ、他人によって悪用されると
いう問題がある。

【０００５】このような問題を解決するために、例えば
特開平１−３０２２９７号に示されているように、話者
認識システムが発声すべき言葉を複数用意しておいて、
そのときに応じて発声を要求する言葉を利用者に対して
指定し、指定した以外の言葉では認識しないようにする
ことが考えられる。しかし、この話者認識システムで
は、複数の言葉を利用者本人に予め発声させて話者認識
システムに登録しておく必要があり、さらに、それらの
言葉の特徴パターンは最新の状態に更新しておかねば、
認識精度が低下することから、利用者は、所定の期間経
過ごとに、複数の言葉の標準パターンを再登録(更新)す
る必要があり、従って、利用者に相当の操作負担がかか
るという欠点があった。また、利用者のこのような負担
を軽減するためには、言葉の数をそれほど多くすること
ができず、従って、録音した１つの言葉の音声を再生し
て、他人が本人になりすます場合にも、何回かに１度は
成功してしまうという欠点があった。

【０００６】本発明は、正規の話者本人の音声を他人が
録音してこれを悪用することを有効に防止可能な話者認
識システムおよび話者認識方法を提供することを目的と
している。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、話者を認識するための話者
認識システムにおいて、所定音響を発生する音響発生手
段と、話者の音声とともに前記音響発生手段からの音響
が入力されるとき、前記音響発生手段から発生し入力し
た音響成分を除去する信号除去手段とを備え、信号除去
手段によって音響発生手段からの入力音響成分が除去さ
れた信号を用いて話者認識を行なうことを特徴としてい
る。

【０００８】また、請求項２記載の発明は、請求項１記
載の話者認識システムにおいて、音響発生手段は、連続
音響または断続音響を発生させるものであることを特徴
としている。

【０００９】また、請求項３記載の発明は、請求項１記
載の話者認識システムにおいて、信号除去手段は、入力
音響成分を所定の相殺用信号により相殺するよう構成さ
れており、入力音響成分と相殺用信号との位相のずれが
最小となるように制御するための制御手段がさらに設け
られていることを特徴としている。

【００１０】また、請求項４記載の発明は、請求項１記
載の話者認識システムにおいて、音響発生手段は、話者
認識システムが使用される度に、音響の周波数を変化さ
せることを特徴としている。

【００１１】また、請求項５記載の発明は、請求項１記
載の話者認識システムにおいて、音響発生手段は、音響
として、可聴帯域外、あるいは、それに近い周波数の音
響を発生させることを特徴としている。

【００１２】

【００１３】

【００１４】

【００１５】また、請求項６記載の発明は、話者を認識
するための話者認識方法において、話者の音声が入力す
るときに、該音声とともに所定の音響を入力させ、次い
で、入力された信号から音響成分を除去した後、該信号
を用いて話者認識を行なうことを特徴としている。

【００１６】

【発明の実施の形態】図１は一般的な話者認識システム
の構成例を示す図である。図１を参照すると、この話者
認識システムは、例えば銀行などにおける本人の確認を
話者認識により行なうためのものであって、利用者の音
声を入力するための音声入力手段(例えば、マイクロフ
ォン)１と、利用者に所定の指定情報を入力させるため
の指定手段(例えばキーボード)２と、音声入力手段１か
ら入力された信号の中から話者の音声の部分のみを音声
区間として検出する音声区間検出部３と、音声区間検出
部３で検出した音声区間内の音声信号から特徴量(特徴
パターン)を抽出する特徴抽出部４と、話者認識を行な
うに先立って話者の音声の標準的な特徴量(特徴パター
ン)を標準パターンとして話者認識用情報記憶部５に予
め登録する登録部６と、利用者(話者)の音声の特徴量
(特徴パターン)と話者認識用情報記憶部５に登録されて
いる標準パターンとを照合し、その類似度に基づいて話
者認識を行なう話者認識部７と、標準パターンの登録を
行なう登録モードと話者認識を行なう認識モードとの切
替を行なう切替部(例えばスイッチ)８とを有している。

【００１７】ここで、特徴抽出部４は、音声信号を特徴
量(特徴パターン)として、スペクトルに変換しても良い
し、あるいはＬＰＣケプストラムに変換しても良く、特
徴量の種類については特に限定するものではない。な
お、スペクトルに変換するためには、特徴量変換にはＦ
ＦＴを用い、また、ＬＰＣケプストラムに変換するため
にはＬＰＣ分析などを用いるのがよい。

【００１８】また、標準パターンの登録時(登録モード
時)において、登録部６は、ある話者が発声した音声に
基づいて特徴抽出部４で抽出された特徴量(特徴パター
ン)を標準パターンとして話者認識用情報記憶部５に登
録する際、図２に示すように、この話者により指定手段
２から入力された指定情報(例えば、この話者の名前や
生年月日，あるいはこの話者の暗証番号など)と対応付
けて、標準パターンを話者認識用情報記憶部５に登録す
ることができる。換言すれば、話者認識用情報記憶部５
には、話者認識に必要な話者認識用の情報が登録される
ようになっており、また、この話者認識用情報記憶部５
には、複数の話者(例えば利用者Ａ，Ｂ，Ｃ，Ｄ，…)の
話者認識用情報が登録可能となっている。

【００１９】また、話者認識用情報記憶部５に登録され
る音声の標準パターンとしては、この話者認識システム
の使用形態等に応じて、各利用者(話者)に予め言葉を発
声させたものであっても良いし、各利用者ごとにそれぞ
れ自由に所望の言葉を発声させたものであっても良い。

【００２０】また、話者認識部７は、例えば、古井著
「ディジタル音声処理」(東海出版会)などに記載されて
いるように、現在の話者の音声の特徴パターンが話者認
識用情報記憶部５に登録されている複数の話者の標準パ
ターンのうちのどれに最も類似しているかを判定し、登
録されている複数の話者のうちから１人の話者を識別す
る話者識別方式のものであっても良いし、話者認識用情
報記憶部５に登録されている複数の話者の標準パターン
から現在の話者に対応する標準パターンを取り出し、こ
の標準パターンと現在の話者の特徴パターンとを照合
し、その類似度が所定基準値(しきい値)よりも高いか低
いかにより現在の話者が正規の話者本人であるか否かを
判定する話者照合方式のものであっても良い。

【００２１】さらに、話者認識部７は、話者認識用情報
記憶部５に登録される音声の標準パターンが各利用者
(話者)に予め言葉を発声させたものである場合には、こ
れに対応した認識を行なうものにすることができ、ま
た、話者認識用情報記憶部５に登録される音声の標準パ
ターンが各利用者ごとにそれぞれ自由に所望の言葉を発
声させたものである場合には、これに対応した認識を行
なうものにすることができる。但し、各利用者(話者)に
予め決められた言葉を発声させて話者認識を行なう場
合、類似の判定基準(しきい値)を各話者に対して全て一
定値にすることができるが、各利用者ごとにそれぞれ所
望の言葉を発声させて話者認識を行なう場合には、類似
の判定基準(しきい値)を各話者ごとに相違させることも
できる。

【００２２】以下では、説明の便宜上、この話者認識シ
ステムは、各利用者(話者)に予め決められた言葉(特定
の言葉)を発声させるものとし、また、話者認識部７で
は、話者照合方式の話者認識がなされるとする。なお、
話者認識部７において、話者照合方式の話者認識がなさ
れる場合、この話者認識時に、利用者(話者)は、指定手
段２から登録モード時に入力した指定情報と同じ指定情
報を入力する必要がある。これにより、話者認識部７で
は、話者認識用情報記憶部５に登録されている複数の話
者の標準パターンのうちから現在の話者に対応する標準
パターンを取り出すことができ、この標準パターンと現
在の話者の音声の特徴パターンとの照合を行なうことが
できる。

【００２３】このような構成の話者認識システムを利用
者(例えばＤ)が始めて利用する場合、この利用者(話者)
Ｄは、先ず、自己の音声を標準パターンとして登録する
必要がある。このため、この利用者Ｄは、切替部(例え
ばスイッチ)８を操作して、特徴抽出部４を登録部６に
接続し、登録モードに設定する。

【００２４】次いで、利用者(話者)Ｄは、指定手段２か
ら所定の指定情報，例えば(利用者Ｄ)を入力する。ま
た、この際、利用者は、予め決められた特定の言葉を発
声する。この音声は、音声入力手段１から入力し、音声
区間検出部３，特徴抽出部４により、特徴量(特徴パタ
ーン)に変換され、この話者の音声の標準パターンとし
て、登録部６に与えられる。

【００２５】これにより、登録部６は、この利用者(話
者)Ｄの音声の標準パターンを指定手段２から入力され
た指定情報と対応付けて、話者認識用情報記憶部５に登
録する。例えば過去に、この話者認識用情報記憶部５に
複数の利用者(異なる利用者)Ａ，Ｂ，Ｃが自己の音声を
標準パターンとして登録しており、現在の利用者Ｄが上
記のように自己の音声を標準パターンとして登録すると
き、この標準パターンは、話者認識用情報記憶部５に図
２に示すように記憶(登録)される。

【００２６】このようにして、この音声の標準パターン
が話者認識用情報記憶部５に記憶されると、利用者Ｄ
は、この話者認識システムにより、利用者Ｄについての
話者認識を行なわせることができる。すなわち、この利
用者Ｄは、このシステムを用いて、いま利用している利
用者が利用者Ｄ本人であるか否かの判定を行なわせるこ
とができる。

【００２７】具体的に、利用者Ｄが以後、このシステム
を利用する場合、利用者Ｄは、切替部８を操作して、特
徴抽出部４を話者認識部７に接続し、このシステムを認
識モードに設定する。

【００２８】次いで、利用者Ｄは、指定手段２から所定
の指定情報，例えば(利用者Ｄ)を入力する。また、この
際、利用者Ｄは、予め決められた特定の言葉を発声す
る。この音声は、音声入力手段１から入力し、音声区間
検出部３，特徴抽出部４により、特徴量(特徴パターン)
に変換されて、話者認識部７に与えられる。

【００２９】これにより、話者認識部７は、指定手段２
から入力された指定情報(利用者Ｄ)に対応させて登録さ
れている標準パターンを話者認識用情報記憶部５から取
り出し、この標準パターンと特徴抽出部４からの特徴パ
ターンとを照合して、その類似度を算出し、この類似度
が所定基準値よりも高いか低いかを判定する。この結
果、類似度が低いと判定されたときには、利用者が正規
の話者本人Ｄではないと判別し、この利用者による利用
を拒絶する。これに対し、類似度が高いと判定されたと
きには、利用者が正規の話者本人Ｄであると判別し、利
用者による利用を許可する。すなわち、利用者によるア
プリケーション(例えば入出金，残高照会などの処理)の
利用を許可する。

【００３０】ところで、図１のような話者認識システム
では、前述したように、正規の話者本人が話者認識シス
テムを利用しているときに(例えば話者認識のための音
声を発声しているときに)、他人がその音声を録音して
おけば、この他人は、正規の話者本人の録音を再生して
話者認識システムに入力することで、正規の話者本人に
なりすますことができ、他人によって悪用されるという
問題がある。

【００３１】図３はこのような問題を回避するための本
発明に係る話者認識システムの構成例を示す図である。
図３の話者認識システムでは、図１の話者認識システム
において、音声入力手段１に利用者の音声以外に、所定
の音響を入力させるための音響発生手段２０が設けら
れ、また、例えば特徴抽出部４と切替部８との間には、
音声入力手段１に入力した音信号から音響発生手段２０
によって出力された音響成分を除去するための信号除去
部２１が設けられている。

【００３２】ここで、図３の例では、音響発生手段２０
は、特定の周波数信号を発生する発振器２３と、発振器
２３からの周波数信号を増幅する増幅器２４と、音声入
力手段１の近くに配置され、増幅器２４で増幅された周
波数信号に対応する周波数の音響を発生し、音声入力手
段１に入力させるスピーカ２５とにより構成されてい
る。

【００３３】なお、この音響発生手段２０は、常時、音
響を発生するよう構成されていても良いが、この話者認
識システムが利用者に利用され始める時点(例えば指定
手段２から指定情報が入力された時点(すなわち、これ
から音声入力手段１に話者の音声が入力されようとする
時点)から、この利用者による利用が終了する時点(例え
ば、指定手段２によって利用を終了する旨のデータが入
力された時点)までの期間のみ、音響を発生するよう
に、制御することもできる。

【００３４】次にこのような構成の話者認識システムの
動作について説明する。話者認識用情報(例えば標準パ
ターン)の登録時には、前述したと同様に、例えば、利
用者Ｄは、切替部(例えばスイッチ)８を操作して、特徴
抽出部４を登録部６に接続し、登録モードに設定する。

【００３５】次いで、利用者(話者)Ｄは、指定手段２か
ら所定の指定情報，例えば(利用者Ｄ)を入力する。ま
た、この際、利用者は、予め決められた特定の言葉を発
声する。この際、図３のシステムでは、音響発生手段２
０から音響を発生させることができる。また、音響発生
手段２０から音響を発生させるときは、信号除去部２１
を作動させる。

【００３６】このように、図３の話者認識システムで
は、利用者は、自己の音声の標準パターンを登録するた
めに、音声(言葉)を発声するが、この音声は、音響発生
手段２０からの音響と重畳して音声入力手段１に入力
し、音響が重畳した音声信号は、音声区間検出部３を介
して特徴抽出部４で特徴量に変換される。従って、特徴
抽出部４においては、音響が重畳した音声信号の特徴量
(特徴パターン)が抽出されるが、このうち、音響成分
は、信号除去部２１により除去され、従って、登録部６
には、話者の音声のみの特徴パターンが標準パターンと
して送られ、登録部６は、この標準パターンを話者認識
用情報記憶部５に登録する。

【００３７】このように、音響発生手段２０からの音響
が話者の発声した標準パターン登録用の音声に重畳して
音声入力手段１に加わっても、音響発生手段２０からの
音響成分は、信号除去部２１によって除去され、従っ
て、話者認識用情報記憶部５には、音響発生手段２０か
らの音響成分を含まない、図１の話者認識システムと同
様の話者の音声成分の特徴量(特徴パターン)のみからな
る標準パターンを登録させることができる。

【００３８】また、例えば、この話者認識システムに話
者認識を行なわせるときには、前述したと同様に、切替
部８を話者認識部７側に設定し、このシステムを認識モ
ードに設定する。

【００３９】次いで、利用者Ｄは、指定手段２から所定
の指定情報，例えば(利用者Ｄ)を入力する。また、この
際、利用者Ｄは、予め決められた特定の言葉を発声する
が、この音声は、音響発生手段２０からの音響と重畳し
て音声入力手段１に入力し、音響が重畳した音声信号
は、音声区間検出部３を介して特徴抽出部４で特徴量に
変換される。従って、特徴抽出部４においては、音響が
重畳した音声信号の特徴量(特徴パターン)が抽出される
が、このうち、音響成分は、信号除去部２１により除去
され、従って、話者認識部７には、話者の音声のみの特
徴パターンが送られる。

【００４０】これにより、話者認識部７は、指定手段２
から入力された指定情報(利用者Ｄ)に対応させて登録さ
れている標準パターンを話者認識用情報記憶部５から取
り出し、この標準パターンと特徴抽出部４からの特徴パ
ターンとを照合して、その類似度を算出し、この類似度
が所定基準値よりも高いか低いかを判定する。この結
果、類似度が低いと判定されたときには、利用者が正規
の話者本人Ｄではないと判別し、この利用者による利用
を拒絶する。これに対し、類似度が高いと判定されたと
きには、利用者が正規の話者本人Ｄであると判別し、利
用者による利用を許可する。すなわち、利用者によるア
プリケーション(例えば入出金，残高照会などの処理)の
利用を許可する。

【００４１】このように、図３の話者認識システムで
は、正規の話者本人が自分の声で音声入力する場合に
は、音響発生手段２０から音響が発生されていても、こ
の音響成分は、信号除去部２１で除去されるので、標準
パターンの登録時に、音響を含まない話者本人の音声の
みの標準パターンを登録することができ、また、話者認
識時に、音響を含まない話者本人の音声のみの特徴パタ
ーンと標準パターンとの照合を行なうことができる。

【００４２】これに対し、正規の話者本人以外の他人
が、音声入力手段１の近くで、標準パターンの登録時あ
るいは話者認識時に音声入力手段１に入力される正規の
話者本人の音声を録音し、本人になりすまして話者認識
等を行なうため、この録音を後で再生し音声入力手段１
に入力して、正規の話者本人の情報を盗用しようとする
場合、図３の話者認識システムにおいては、話者の音声
に音響発生手段２０からの音響が重畳するので、他人
が、正規の話者本人の音声を音声入力手段１の近くで録
音すると、その録音結果は、正規の話者本人の音声に音
響発生手段２０からの音響が重畳したものとなる。

【００４３】従って、この他人が後で、正規の話者本人
になりすまして話者認識等を行なうため、この録音結果
を音声入力手段１のところで再生出力すると、音声入力
手段１には、録音されている正規の話者本人の音声(録
音音声)とこれに重畳している録音時の音響(録音音響)
とともに、音響発生手段２０からの現時点での音響とが
入力し、録音音響，現時点の音響が重畳した音声信号
が、音声区間検出部３を介して特徴抽出部４に送られ
る。

【００４４】この場合、特徴抽出部４においては、録音
音響と現時点の音響とが重畳した音声信号の特徴量(特
徴パターン)が抽出されるが、このうち、現時点の音響
成分は、例えば音響発生手段２０と協働して(例えば同
期して)作動する信号除去部２１によって除去される。
しかしながら、録音音響成分は、現時点の音響成分と一
般に位相を異にしていたり、あるいは、現時点の音響成
分と位相が一致する場合には音響成分の全体の大きさが
非常に大きなものとなったりすることによって、信号除
去部２１によっては取り除かれず、残ってしまう。

【００４５】すなわち、話者認識時に、録音結果を音声
入力手段１に入力させる場合には、話者認識部７には、
信号除去部２１で完全には取り除かれなかった音響成分
の重畳した音声の特徴パターンが送られることになり、
従って、話者認識部７では、この特徴パターンと標準パ
ターンとの照合を行なうとき、特徴パターンに含まれて
いる音響成分によって正しく話者認識を行なうことがで
きない。

【００４６】これによって、正規の話者本人の音声が録
音され、この録音音声が再生されて音声入力手段１に入
力されても、録音音響成分が残留することにより、再生
された録音音声の特徴パターンと標準パターンとの類似
度は低く、相違したものと判定され、正規の話者本人の
音声を録音した他人が正規の話者本人になりすまして、
正規の話者本人の情報を盗用することを有効に防止する
ことができる。

【００４７】上述の構成例において、音響発生手段２０
の発振器２３としては、例えば５０Ｈｚの正弦波信号を
出力するものを用い、スピーカ２４から、例えば５０Ｈ
ｚの正弦波音響信号を出力させることができる。この場
合、音響発生手段２０から発生した５０Ｈｚの正弦波音
響は話者の音声に重畳して音声入力手段１に入力し、特
徴抽出部４において抽出した特徴量信号には、５０Ｈｚ
の雑音が混じっていることになる。

【００４８】従って、この場合、信号除去部２１として
は、特徴抽出部４において抽出された特徴量に含まれる
５０Ｈｚの信号を減衰させるものが用いられ、例えば特
徴量としてスペクトルが用いられる場合、信号除去部２
１を、例えば図４に示すような特性をもつフィルタで構
成することができる。このフィルタは、５０Ｈｚで−６
ｄＢのゲインに設定されており、例えば、５０Ｈｚの音
響を発生させない場合は、スピーカ２５から発生する５
０Ｈｚの音響は、６ｄＢ下げた時にほとんど無視できる
状態のレベルに合わせておくことが望ましい。そうでな
い時は、特にレベルを厳密に設定する必要はない。な
お、図３の例では、信号除去部２１は、特徴抽出部７の
後段に設けられているが(例えば特徴量がスペクトルで
あることを考慮し)、特徴抽出部７の前段に設けること
もできる。

【００４９】音響発生手段２０から例えば５０Ｈｚの連
続音響(例えば正弦波音響)を発生させる場合、図４に示
すような特性のフィルタで信号除去部２１を構成するこ
とにより、例えば話者認識時に、正規の話者本人が自分
の声で音声を発生し、これに音響発生手段２０からの５
０Ｈｚの正弦波音響が重畳しても、この正弦波音響成分
は信号除去部２１により除去され、従って、話者認識部
７には、正規の話者本人の音声の特徴パターンのみが与
えられ、これにより、話者認識部７では、話者認識を音
響成分に影響されずに正しく行なうことができる。

【００５０】一方、正規の話者本人以外の他人が、上記
の話者本人になりすまして話者認識を行なうため、音声
入力手段１の近くで、あるいは音声入力手段１の出力信
号を傍受して正規の話者本人の音声を録音器によって録
音したとしても、録音結果には、５０Ｈｚの正弦波音響
が含まれている。従って、この他人が録音結果を再生し
て音声入力手段１に入力させるときには、音声入力手段
１には、この録音結果(録音音声，５０Ｈｚの正弦波録
音音響)とともに、現時点で音響発生手段２０から発生
する５０Ｈｚの正弦波音響も入力する。このように、５
０Ｈｚの正弦波録音音響と現時点の５０Ｈｚの正弦波音
響とが重畳して入力すると、多くの場合、この重畳の結
果、５０Ｈｚの正弦波音響の成分は大きなものとなり、
信号除去部２１では、５０Ｈｚの正弦波音響成分を十分
には低減できず、話者認識用の特徴パターンに妨害の信
号として残ってしまう。

【００５１】このため、話者照合の結果、正規の話者本
人の録音音声を使っても、話者認識システムは、話者本
人ではないとの結果を出力することができ、偽りの使用
を有効に防止することができる。

【００５２】なお、上述の例では、周波数が５０Ｈｚで
あるとしたが、発振器２３の周波数としては５０Ｈｚに
限定されず、任意の周波数のものを用いることができ
る。また、上述の例では、連続音響が正弦波音響である
としたが、正弦波以外の波形の連続音響であっても良
い。

【００５３】但し、上述の例のように、音響発生手段２
０から発生する音響が例えば正弦波のような連続音響で
ある場合、録音音響の再生時の位相が現時点の音響の位
相とずれると、録音音響と現時点の音響とが干渉して、
これらを重畳した結果の音響成分全体のレベルが低下し
てしまい、これが信号除去部２１で除去されて、正規の
話者本人が使っている場合と同様の結果を出してしまう
ことがある。すなわち、正しく話者認識がなされてしま
うことがある。

【００５４】このような事態が生じるのを低減するた
め、音響発生手段２０の発振器２３として、例えば所定
周期，所定パルス幅のパルス信号を出力するものを用
い、スピーカ２５から所定周期，所定幅の断続音響(パ
ルス音響)を発生させることもできる。

【００５５】図５は音響発生手段２０からこのような断
続音響を発生する話者認識システムの具体例を示す図で
ある。この例では、発振器２３にパルス発振器を用い、
このパルス発振器２３からのパルス信号によって断続音
をスピーカ２５から出力するとともに、このパルス信号
の位相を反転して、信号除去部２１としての加算器に加
え、この加算器２１において音声信号に加えるようにな
っている(音声信号からパルス信号を減算するようにな
っている)。なお、特徴量としてスペクトルを用いる場
合、位相を考慮する必要がないことから、特徴抽出部４
の後段に、信号除去部(加算部)２１を設けることができ
るが、特徴量としてスペクトルを用いない場合は、特徴
抽出部４の前段に信号除去部(加算部)２１を設けること
ができる。

【００５６】図５の話者認識システムでは、正規の話者
本人がこのシステムを使用している時に、他人が録音器
によって正規の話者本人の音声を録音する場合、録音結
果には、正規の話者本人の音声とともに音響発生手段２
０からのパルス音響が含まれる。この他人が、正規の話
者本人になりすまして話者認識を行なうため、この録音
結果(録音音声，録音パルス音声)を音声入力手段１のと
ころで、再生したとする。この時も、音響発生手段２１
からはパルス音響が出力されており、この現時点のパル
ス音響成分は信号除去部２１で除去されるが、録音パル
ス音響成分は除去されずに話者認識部７に送られ、これ
を話者認識に対して妨害の信号として残すことができ
る。

【００５７】図６(ａ)，(ｂ)，(ｃ)はこの様子を示す図
である。なお、図６(ａ)は音声入力手段１に入力する音
響を示す図、図６(ｂ)は信号除去部２１に加わる反転パ
ルス信号Ｐ₁ ^*を示す図、図６(ｃ)は信号除去部２１の出
力を示す図であり、図６(ａ)，(ｂ)では、簡単のため、
話者の音声については示されていない。

【００５８】図６(ａ)からわかるように、音声入力手段
１には、現時点のパルス音響Ｐ₁とともに録音パルス音
響Ｐ₂が入力する。この際、パルス信号の周期Ｔが十分
に大きく、またパルス幅が小さいときには、現時点のパ
ルス音響Ｐ₁と録音パルス音響Ｐ₂との位相Ｔ_Pがずれる
場合、これらは重なり合わない。

【００５９】図６(ａ)のような音響が音声入力手段１に
入力し、信号除去部２１に加わるとき、信号除去部２１
では、現時点のパルス音響Ｐ₁と位相が同期した図６
(ｂ)に示す反転パルス信号Ｐ₁ ^*によって現時点のパルス
音響Ｐ₁のみを除去することができる。従って、信号除
去部２１からは、図６(ｃ)のように、録音パルス音響Ｐ
₂をそのレベルを低下させずに話者認識部７に与えるこ
とができ、この録音パルス音響Ｐ₂が正規の話者本人の
特徴パターンに重畳していることにより、正規の話者本
人の録音音声を使っても、話者認識部７では、話者照合
の結果、正規の話者本人ではないとの結果を出力するこ
とができ、偽りの使用を有効に防止することができる。

【００６０】ところで、図５の構成例では、信号除去部
(加算部)２１において、音声入力手段２１からの現時点
のパルス音響Ｐ₁と反転パルス信号Ｐ₁ ^*との位相がうま
く一致しない場合がある。この問題を回避するため、図
７に示すように、信号制御手段(コントローラ)３０を設
け、利用者の使用に先立って、現時点のパルス音響信号
Ｐ₁から反転パルス信号Ｐ₁ ^*を減算した信号が最小にな
るような操作、すなわち信号Ｐ₁と信号Ｐ₁ ^*との位相の
ずれが最小になるような操作を信号制御手段３０により
行なうことができる。

【００６１】すなわち、図７の構成例では、発振器２３
からの信号を、増幅器２４を介してスピーカ２５に与え
るとともに、コントローラ３０を介して、この信号を逆
相にして(反転して)、信号除去部(加算部)２１に与え、
この信号除去部２１の出力をモニタしながら、この出力
が最小になるようにコントローラ３０の特性を変えるこ
とにより、パルス音響信号Ｐ₁と反転パルス信号Ｐ₁ ^*と
の位相をできる限り一致させることができる。

【００６２】この場合に、パルス音響信号Ｐ₁と反転パ
ルス信号Ｐ₁ ^*との位相のずれを最小にする手段として、
例えばB. Widrow & Samuel D. Stearns著の文献「Adapt
iveSignal Processing(Prentice-Hall. Inc, 1985)」に
示されているようなＬＭＳ(Least-Mean-Square)アルゴ
リズムを用いることができる。

【００６３】このＬＭＳアルゴリズムを用いる場合、図
８に示すように、音声信号をＳ(ｔ)とし、パルス音響信
号をＰ₁(ｔ)とし、反転パルス信号をＰ₁ ^*(ｔ)とすると
き(なお、説明を簡単にするため、録音音響Ｐ₂(ｔ)は音
声信号Ｓ(ｔ)に含まれているとする)、〔(Ｓ(ｔ)＋Ｐ
₁(ｔ))−Ｐ₁ ^*(ｔ)〕²の時間平均Ｅ〔((Ｓ＋Ｐ₁)−Ｐ₁ ^*)
²〕をとり(Ｅ｛・｝は時間平均を表わす)、この二乗誤
差時間平均が最小となるように、コントローラ３０によ
って制御することで、パルス音響信号Ｐ₁(ｔ)と反転パ
ルス信号Ｐ₁ ^*(ｔ)との位相のずれを最小にすることがで
きる。

【００６４】すなわち、上記二乗誤差時間平均Ｅ〔((Ｓ
＋Ｐ₁)−Ｐ₁ ^*)²〕は、次式のように展開される。

【００６５】

【数１】Ｅ〔((Ｓ＋Ｐ₁)−Ｐ₁ ^*)²〕＝Ｅ〔Ｓ²〕＋Ｅ
〔２Ｓ(Ｐ₁−Ｐ₁ ^*)〕＋Ｅ〔(Ｐ₁−Ｐ₁ ^*)²〕

【００６６】ここで、Ｅ〔２Ｓ(Ｐ₁−Ｐ₁ ^*)〕は、Ｓと
Ｐ₁，Ｐ₁ ^*との相関がないので、“０”となり、従っ
て、数１は、次式のようになる。

【００６７】

【数２】Ｅ〔((Ｓ＋Ｐ₁)−Ｐ₁ ^*)²〕＝Ｅ〔Ｓ²〕＋Ｅ
〔(Ｐ₁−Ｐ₁ ^*)²〕

【００６８】数２からわかるように、二乗誤差時間平均
Ｅ〔((Ｓ＋Ｐ₁)−Ｐ₁ ^*)²〕を最小にすることは、(Ｐ₁−
Ｐ₁ ^*)を“０”とすることであり、従って、二乗誤差時
間平均Ｅ〔((Ｓ＋Ｐ₁)−Ｐ₁ ^*)²〕を最小にすることで、
(Ｐ₁−Ｐ₁ ^*)を“０”にすることができる。すなわち、
Ｐ₁とＰ₁ ^*との位相のずれを最小にすることができる(Ｐ
₁ ^*の位相をＰ₁に合わせることができる)。

【００６９】このように、例えば実際の使用(話者認識)
を行なうに先立って、Ｐ₁とＰ₁ ^*との位相のずれが最小
となるようなコントローラ３０の特性を決定し、Ｐ₁と
Ｐ₁ ^*との位相のずれを最小にするコントローラ３０の特
性が決定されたときに、これを固定して、以後、用い
る。これにより、実際の話者認識時には、このコントロ
ーラ３０の制御下で、パルス音響信号Ｐ₁と反転パルス
信号Ｐ₁ ^*との位相のずれを常に最小にし、現時点のパル
ス音響成分Ｐ₁を反転パルス信号Ｐ₁ ^*によって確実に相
殺することが可能となる。

【００７０】なお、上述の例では、例えば図５の構成例
に適用する場合、すなわち、パルス音響信号と反転パル
ス信号との位相のずれを最小にする場合について説明し
たが、音響信号が正弦波のような連続的な信号である場
合にも図７の構成例を適用することができる。

【００７１】すなわち、例えば、図３の構成例におい
て、さらに図７に示したようなコントローラ３０を設
け、発振器２３からの連続信号に基づきスピーカ２５か
ら発生する連続音響信号と発振器２３からの連続信号を
反転した反転連続信号との信号除去部２１における位相
のずれを最小にすることで、現時点の連続音響成分を反
転音響信号によって確実に相殺することが可能となる。

【００７２】また、上述の各構成例において、音響発生
手段２０から発生する音響の周波数を使用毎に、その都
度変化させることもできる。

【００７３】図９は音響発生手段２０から発生する音響
の周波数を可変にすることのできる話者認識システムの
構成例を示す図である。図９を参照すると、この構成例
では、例えば、予め用意された複数の周波数のうちから
１つの周波数を選択して決定したり、あるいは、乱数発
生などによって周波数を例えばランダムに決定する周波
数決定部５０がさらに設けられており、この周波数決定
部５０からの周波数を発振器２３に与え、発振器２３か
らこの周波数の信号(連続信号あるいはパルス信号)を発
生させるようになっている。

【００７４】また、図９の構成例において、信号除去部
２１は、デジタルフィルタとして構成され、このデジタ
ルフィルタのカット周波数(フィルタ係数)が周波数決定
部５０からの周波数に応じて可変に設定されるようにな
っている。

【００７５】このような構成では、この話者認識システ
ムの音響発生手段２０から発生している周波数の音響
は、信号除去部２１のデジタルフィルタによって除去で
きるが、録音音声に含まれている周波数の録音音響は、
信号除去部２１のデジタルフィルタの現在のカット周波
数とカット周波数が異なるために、雑音として残ってし
まい、認識を妨害することになる。これにより、偽りの
使用を有効に防止することができる。

【００７６】また、上述の各構成例において、話者認識
システムを使用する時に、常にスピーカ２５から音響が
出力されると、利用者にとって騒音となり、また、利用
者は不思議に思い、その音源付近にカバーをしたりして
しまうことも考えられる。そこで、音響発生手段２０か
ら発生する音響として、可聴帯域外の音響、もしくはそ
れに近い周波数の音響を発生させるようにすることもで
きる。例えば、図３の構成例において、音響発生手段２
０の発振器２３の周波数と信号除去部２１のフィルタの
カット周波数とを２０ｋＨｚ以上、あるいは、２０Ｈｚ
以下に設定することで、可聴帯域外の音響を発生させる
ことができる。

【００７７】また、上述の各構成例では、正規の話者本
人の音声を録音したものを再生したときには、以後の利
用を拒絶することもできるし、あるいは、この話者認識
システムを動作させない、あるいは、悪用されていると
みなして予め決められた動作をさせるようにしてもよ
い。予め決められた動作として、例えば、警告を発した
り、正規の利用者への連絡(例えば、予め記憶されてい
る正規の利用者の電話番号へ電話をかける)等を行なう
ことができる。

【００７８】警告を行なう場合、警告は、例えば、予め
メモリに登録された警告メッセージ音声を再生したり、
あるいは、表示装置に警告メッセージを文字表示するこ
とにより行なうことができる。あるいは、メッセージの
かわりに、ブザーやサイレン音のような音を発して警告
を行なうこともできる。また、電話をかける場合には、
電話で「＊＊様の＊＊が何者かに使用されています」と
いうようなメッセージを出すことができる。

【００７９】なお、上述の各構成例では、標準パターン
の登録時，話者認識時のいずれの場合にも、音響発生手
段２０から音響を発生させるようにしているが、例え
ば、標準パターンの登録時には、音響発生手段２０から
音響を発生させないようにすることもできる。

【００８０】また、上述の各構成例において、音響発生
手段２０(スピーカ２５)は、集音器としての音声入力手
段１(例えばマイクロフォン)の近辺に設置されれば良
く、音声入力手段１(マイクロフォン)と別体に構成され
ていても良いし、音声入力手段１(マイクロフォン)と一
体に構成されていても良い。

【００８１】また、上述の構成例では、音声区間検出部
３の後に、特徴抽出部４が設けられているが、これのか
わりに、音声区間検出部３の前に、特徴抽出部４が設け
られていても良い。

【００８２】また、本発明において、話者認識システム
とは、話者認識装置をも含む広い概念のものであること
に留意すべきである。

【００８３】

【発明の効果】以上に説明したように、請求項１乃至請
求項６記載の発明によれば、話者の音声が入力するとき
に、該音声とともに所定の音響を入力させ、次いで、入
力された信号から音響成分を除去した後、該信号を用い
て話者認識を行なうので、正規の話者本人の音声を他人
が録音してこれを悪用することを有効に防止することが
できる。

【図面の簡単な説明】

【図１】一般的な話者認識システムの構成例を示す図で
ある。

【図２】話者認識用情報記憶部の構成例を示す図であ
る。

【図３】本発明に係る話者認識システムの構成例を示す
図である。

【図４】信号除去部をフィルタで構成する場合に、この
フィルタの特性例を示す図である。

【図５】本発明の話者認識システムの変形例を示す図で
ある。

【図６】図５の話者認識システムの動作を説明するため
の図である。

【図７】本発明の話者認識システムの変形例を示す図で
ある。

【図８】図７の話者認識システムの動作原理を説明する
ための図である。

【図９】本発明の話者認識システムの変形例を示す図で
ある。

【符号の説明】

１音声入力手段２指示手段３音声区間検出部４特徴抽出部５話者認識用情報記憶部６登録部７話者認識部８切替部２０音響発生手段２１信号除去部２３発振器２４増幅器２５スピーカ３０コントローラ５０周波数決定部

Claims

(57)【特許請求の範囲】

【請求項１】話者を認識するための話者認識システム
において、所定音響を発生する音響発生手段と、話者の
音声とともに前記音響発生手段からの音響が入力される
とき、前記音響発生手段から発生し入力した音響成分を
除去する信号除去手段とを備え、信号除去手段によって
音響発生手段からの入力音響成分が除去された信号を用
いて話者認識を行なうことを特徴とする話者認識システ
ム。
【請求項２】請求項１記載の話者認識システムにおい
て、前記音響発生手段は、連続音響または断続音響を発
生させるものであることを特徴とする話者認識システ
ム。
【請求項３】請求項１記載の話者認識システムにおい
て、前記信号除去手段は、前記入力音響成分を所定の相
殺用信号により相殺するよう構成されており、前記入力
音響成分と前記相殺用信号との位相のずれが最小となる
ように制御するための制御手段がさらに設けられている
ことを特徴とする話者認識システム。
【請求項４】請求項１記載の話者認識システムにおい
て、前記音響発生手段は、話者認識システムが使用され
る度に、前記音響の周波数を変化させることを特徴とす
る話者認識システム。
【請求項５】請求項１記載の話者認識システムにおい
て、前記音響発生手段は、前記音響として、可聴帯域
外、あるいは、それに近い周波数の音響を発生させるこ
とを特徴とする話者認識システム。
【請求項６】話者を認識するための話者認識方法にお
いて、話者の音声が入力するときに、該音声とともに所
定の音響を入力させ、次いで、入力された信号から前記
音響成分を除去した後、該信号を用いて話者認識を行な
うことを特徴とする話者認識方法。