JP3506293B2

JP3506293B2 - 話者識別システム

Info

Publication number: JP3506293B2
Application number: JP30683395A
Authority: JP
Inventors: 潤一郎藤本; 敦柴田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-10-30
Filing date: 1995-10-30
Publication date: 2004-03-15
Anticipated expiration: 2015-10-30
Also published as: JPH09127976A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者識別を行なう
話者識別システムに関する。

【０００２】

【従来の技術】従来、銀行などにおいて、本人であるこ
とを確認するために、暗証番号などを利用者に入力させ
るようにしている。また、コンピュータでは、パスワー
ドと称して、暗証番号と同様の暗証文字列を利用者に入
力させることによって本人の確認を行なっている。しか
しながら、このような暗証番号や暗証文字列などの入力
による確認は、他人が、暗証番号や暗証文字列を知りさ
えすれば、難無く、これを盗用することができる。しか
も、暗証番号や暗証文字列は、それを登録した者(本人)
の生年月日や記念日、あるいは電話番号、氏名の綴りな
どを利用したものが多く、他人がこれを見破ることは差
程難しいことではない。

【０００３】暗証番号や暗証文字列のこのような欠点を
回避するため、近年、声によって本人か否かを判定す
る、話者認識を用いた話者識別が着目されている。この
話者認識を用いた話者識別は、ある話者が発声した音声
の特徴パターンが、予め登録されているこの話者の音声
標準パターンと一致するか否かを調べることにより、本
人か否かを判定するものである。すなわち、話者の音声
から抽出した特徴量(特徴パターン)とこの話者の音声標
準パターンとの類似度を計算し、類似度の高低によって
本人か否かを判定するものであり、人間の肉体的特徴を
利用するものであることから、音声は、暗証番号や暗証
文字列に比べて他人がこれを真似ることは難かしく、従
って、他人の盗用をより有効に防止することができる。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
たような従来の話者識別システムにおいては、利用者の
音声が、風邪などによって突然変化すると、話者認識を
用いた話者識別を行なうことができなくなってしまうと
いう問題があった。

【０００５】本発明は、風邪などによって声が突然変化
して、話者認識を全く使えなくなった場合にも、このよ
うな事態に対処することの可能な話者識別システムを提
供することを目的としている。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、話者識別用情報が記憶され
る話者識別用情報記憶手段と、利用者を特定するための
特定用情報を入力するための特定用情報入力手段と、話
者の音声を入力するための音声入力手段と、音声入力手
段から入力された話者の音声の特徴と前記話者識別用情
報記憶手段に記憶されている話者の音声特徴のうち前記
特定用情報入力手段から入力された特定用情報に対応す
る音声特徴とが類似しているか否かの照合を行なう照合
手段と、前記照合の結果、類似していないと判別された
ときに、利用者に確認をとるための確認手段とを備えて
おり、前記確認手段は、前記照合の結果、類似していな
いと判別したときに、利用者に対して、正しい第２の特
定用情報を含む複数のダミーの特定用情報を提示し、利
用者にそのうちの１つを選択させるようになっているこ
とを特徴としている。

【０００７】

【０００８】

【０００９】

【００１０】

【００１１】

【００１２】また、請求項２記載の発明は、話者識別用
情報が記憶される話者識別用情報記憶手段と、利用者を
特定するための特定用情報を入力するための特定用情報
入力手段と、話者の音声を入力するための音声入力手段
と、音声入力手段から入力された話者の音声の特徴と前
記話者識別用情報記憶手段に記憶されている話者の音声
特徴のうち前記特定用情報入力手段から入力された特定
用情報に対応する音声特徴とが類似しているか否かの照
合を行なう照合手段と、前記照合の結果、類似していな
いと判別されたときに、利用者に確認をとるための確認
手段とを備えており、前記確認手段による確認の結果、
正規の利用者であるとの確認がとれなかった場合に、現
在の利用者の音声を再生可能に保存する音声記憶手段が
さらに設けられていることを特徴としている。

【００１３】

【００１４】

【００１５】

【００１６】

【００１７】

【発明の実施の形態】図１は本発明に係る話者識別シス
テムの構成例を示す図である。図１を参照すると、この
話者識別システムは、例えば銀行などにおける本人の確
認を話者認識により行なうためのものであって、利用者
の音声を入力するための音声入力手段(例えば、マイク
ロフォン)１と、利用者を特定するための特定用情報を
入力させるための特定用情報入力手段(例えばキーボー
ド)２と、音声入力手段１から入力された信号の中から
話者の音声の部分のみを音声区間として検出する音声区
間検出部３と、音声区間検出部３で検出した音声区間内
の音声信号から特徴量(特徴パターン)を抽出する特徴抽
出部４と、話者認識を行なうに先立って話者の音声の標
準的な特徴量(特徴パターン)を標準パターンとして話者
認識用情報記憶部５に予め登録する登録部６と、利用者
(話者)の音声の特徴量(特徴パターン)と話者認識用情報
記憶部５に登録されている標準パターンとを照合し、そ
の類似度に基づいて話者認識を行なう話者認識部７と、
標準パターンの登録を行なう登録モードと話者認識を行
なう認識モードとの切替を行なう切替部(例えばスイッ
チ)８とを有している。

【００１８】ここで、特徴抽出部４は、音声信号を特徴
量(特徴パターン)として、スペクトルに変換しても良い
し、あるいはＬＰＣケプストラムに変換しても良く、特
徴量の種類については特に限定するものではない。な
お、スペクトルに変換するためには、特徴量変換にはＦ
ＦＴを用い、また、ＬＰＣケプストラムに変換するため
にはＬＰＣ分析などを用いるのがよい。

【００１９】また、標準パターンの登録時(登録モード
時)において、登録部６は、ある話者が発声した音声に
基づいて特徴抽出部４で抽出された特徴量(特徴パター
ン)を標準パターンとして話者認識用情報記憶部５に登
録する際、図２に示すように、この話者により特定用情
報入力手段２から入力された特定用情報(例えば、この
話者の名前や生年月日，あるいはこの話者の暗証番号な
ど)と対応付けて、標準パターンを話者認識用情報記憶
部５に登録することができる。換言すれば、話者認識用
情報記憶部５には、話者識別に必要な話者認識用の情報
が登録されるようになっており、また、この話者認識用
情報記憶部５には、複数の話者(例えば利用者Ａ，Ｂ，
Ｃ，Ｄ，…)の話者認識用情報が登録可能となってい
る。

【００２０】また、話者認識用情報記憶部５に登録され
る音声の標準パターンとしては、この話者識別システム
の使用形態等に応じて、各利用者(話者)に予め言葉を発
声させたものであっても良いし、各利用者ごとにそれぞ
れ自由に所望の言葉を発声させたものであっても良い。

【００２１】また、話者認識部７には、話者認識用情報
記憶部５に登録されている複数の話者の標準パターンか
ら現在の話者に対応する標準パターンを取り出し、この
標準パターンと現在の話者の特徴パターンとを照合し、
その類似度が所定基準値(しきい値)よりも高いか低いか
により現在の話者が正規の話者本人であるか否かを判定
する話者照合方式のものを用いることができる。

【００２２】なお、話者認識部７において、話者照合方
式の話者認識がなされる場合、この話者認識時に、利用
者(話者)は、特定用情報入力手段２から登録モード時に
入力した特定用情報と同じ特定用情報を入力する必要が
ある。これにより、話者認識部７では、話者認識用情報
記憶部５に登録されている複数の話者の標準パターンの
うちから現在の話者に対応する標準パターンを取り出す
ことができ、この標準パターンと現在の話者の音声の特
徴パターンとの照合を行なうことができる。

【００２３】さらに、話者認識部７は、話者認識用情報
記憶部５に登録される音声の標準パターンが各利用者
(話者)に予め言葉を発声させたものである場合には、こ
れに対応した認識を行なうものにすることができ、ま
た、話者認識用情報記憶部５に登録される音声の標準パ
ターンが各利用者ごとにそれぞれ自由に所望の言葉を発
声させたものである場合には、これに対応した認識を行
なうものにすることができる。但し、各利用者(話者)に
予め決められた言葉を発声させて話者認識を行なう場
合、類似の判定基準(しきい値)を各話者に対して全て一
定値にすることができるが、各利用者ごとにそれぞれ所
望の言葉を発声させて話者認識を行なう場合には、類似
の判定基準(しきい値)を各話者ごとに相違させることも
できる。

【００２４】このような構成の話者識別システムを利用
者(例えばＤ)が始めて利用する場合、この利用者(話者)
Ｄは、先ず、自己の音声を標準パターンとして登録する
必要がある。このため、この利用者Ｄは、切替部(例え
ばスイッチ)８を操作して、特徴抽出部４を登録部６に
接続し、登録モードに設定する。

【００２５】次いで、利用者(話者)Ｄは、特定用情報入
力手段２から所定の特定用情報，例えば(利用者Ｄ)を入
力する。また、この際、利用者は、予め決められた特定
の言葉を発声する。この音声は、音声入力手段１から入
力し、音声区間検出部３，特徴抽出部４により、特徴量
(特徴パターン)に変換され、この話者の音声の標準パタ
ーンとして、登録部６に与えられる。

【００２６】これにより、登録部６は、この利用者(話
者)Ｄの音声の標準パターンを特定用情報入力手段２か
ら入力された特定用情報と対応付けて、話者認識用情報
記憶部５に登録する。例えば過去に、この話者認識用情
報記憶部５に複数の利用者(異なる利用者)Ａ，Ｂ，Ｃが
自己の音声を標準パターンとして登録しており、現在の
利用者Ｄが上記のように自己の音声を標準パターンとし
て登録するとき、この標準パターンは、話者認識用情報
記憶部５に図２に示すように記憶(登録)される。

【００２７】このようにして、この音声の標準パターン
が話者認識用情報記憶部５に記憶されると、利用者Ｄ
は、この話者識別システムにより、利用者Ｄについての
話者認識を行なわせることができる。すなわち、この利
用者Ｄは、このシステムを用いて、いま利用している利
用者が利用者Ｄ本人であるか否かの判定を行なわせるこ
とができる。

【００２８】具体的に、利用者Ｄが以後、このシステム
を利用する場合、利用者Ｄは、切替部８を操作して、特
徴抽出部４を話者認識部７に接続し、このシステムを認
識モードに設定する。

【００２９】次いで、利用者Ｄは、特定用情報入力手段
２から所定の特定用情報，例えば(利用者Ｄ)を入力す
る。また、この際、利用者Ｄは、予め決められた特定の
言葉を発声する。この音声は、音声入力手段１から入力
し、音声区間検出部３，特徴抽出部４により、特徴量
(特徴パターン)に変換されて、話者認識部７に与えられ
る。

【００３０】これにより、話者認識部７は、特定用情報
入力手段２から入力された特定用情報(利用者Ｄ)に対応
させて登録されている標準パターンを話者認識用情報記
憶部５から取り出し、この標準パターンと特徴抽出部４
からの特徴パターンとを照合して、その類似度を算出
し、この類似度が所定基準値よりも高いか低いかを判定
する。この結果、類似度が低いと判定されたときには、
利用者が正規の話者本人Ｄではないと判別し、この利用
者による利用を拒絶する。これに対し、類似度が高いと
判定されたときには、利用者が正規の話者本人Ｄである
と判別し、利用者による利用を許可する。すなわち、利
用者によるアプリケーション(例えば入出金，残高照会
などの処理)の利用を許可する。

【００３１】ところで、このような話者識別システムに
おいては、前述したように、利用者(話者)の音声が、風
邪などによって突然変化すると、本人の音声であるにも
かかわらず、本人ではないと判定され、話者識別を行な
うことができなくなってしまう。

【００３２】このような不都合を解決するため、図１の
話者識別システムには、音声入力手段１から入力された
話者の音声の特徴と前記話者識別用情報記憶部５に記憶
されている話者の音声特徴のうち特定用情報入力手段２
から入力された特定用情報に対応する音声特徴とが類似
しているか否かの照合を行なった結果、類似していない
と判別されたときに、さらに、利用者に確認をとるため
の確認手段１１が設けられており、この確認手段１１に
よって、利用者が正規の話者本人であることが確認され
たときには、話者認識部７における話者照合の結果、類
似していないと判別されても、現在の利用者が正規の話
者本人であると識別するようになっている。

【００３３】図３は確認手段１１の一構成例を示す図で
ある。図３の例では、確認手段１１は、利用者を特定す
るための特定用情報に対応付けて付随情報が記憶される
付随情報記憶部１２と、話者認識部７における話者照合
の結果、類似していないと判別されたときに、特定用情
報入力手段２から入力された特定用情報に対応付けて付
随情報記憶部１２に記憶されている付随情報に従って利
用者に確認のための通知を行なう通知部１３と、通知部
１３によって利用者に通知がなされ、利用者から確認の
ための応答があったときに、該応答に基づき、利用者が
正規の話者本人であるか否かを判別する判別部１４とを
有している。

【００３４】図４は付随情報記憶部１２の構成例を示す
図であり、図４の例では、付随情報記憶部１２には、付
随情報として、利用者への通知の仕方が記憶されるよう
になっている。例えば正規の利用者の電話番号、あるい
は、この話者識別システムの例えば表示装置にガイダン
スなどを表示する旨などが記憶されるようになってい
る。

【００３５】さらに、図４の例では、付随情報記憶部１
２には、特定用情報入力手段２から入力された特定用情
報と対応付けて、付随情報として、利用者を特定するた
めの第２の特定用情報が記憶されるようになっている。

【００３６】ここで、第２の特定用情報としては、特定
用情報とは異なるものを用いることができる。なお、以
下では、特定用情報を、第２の特定用情報と区別するた
め、第１の特定用情報と呼ぶことにする。この場合、第
１の特定用情報としては、前述のように、例えば、利用
者の名前や生年月日、あるいは暗証番号(以下、第１の
暗証番号と呼ぶ)などを用いることができ、また、第２
の特定用情報としては、例えば、上記第１の暗証番号と
は異なる第２の暗証番号を用いることができる。

【００３７】なお、このような各種の付随情報は、例え
ば、利用者Ｄが自己の音声の標準パターンを新規に登録
する際に、特定用情報入力手段２から特定用情報ととも
に、入力することができ、これによって、付随情報記憶
部１２には、利用者Ｄの特定用情報に対応させて、利用
者Ｄの付随情報が登録される。

【００３８】また、通知部１３としては、上記付随情報
記憶部１２に付随情報として記憶される利用者への通知
の仕方に応じて、種々の形態のものを用いることができ
る。例えば、利用者への通知の仕方が、利用者に電話に
かけるものである場合(付随情報として、電話番号が設
定されている場合)には、通知部１３としては、通信装
置(電話装置やパソコン通信機能をもつ端末など)を用い
ることができる。また、利用者への通知の仕方が、この
システムにおいて利用者にその旨をガイダンスなどで知
らせる場合には、通知部１３としては、この話者識別シ
ステムに備わった表示装置や音声合成出力装置などを用
いることができる。

【００３９】このようにして、通知部１３から確認のた
めの通知があったときに、利用者は、この通知に対する
応答として、例えば、第２の特定用情報を入力したり、
あるいは音声等で返答したりすることができる。なお、
第２の特定用情報を入力する場合、第２の特定用情報の
入力は、例えば特定用情報入力手段２を用いて(兼用し
て)行なうこともできるし、あるいは、特定用情報入力
手段２以外の入力手段から行なうこともできる。

【００４０】また、判別部１４は、通知部１３からの通
知に対する利用者の応答として、第２の特定用情報が入
力されると、利用者によって入力された第２の特定用情
報と特定用情報入力手段２から入力された特定用情報に
対応させて付随情報記憶部１２に記憶されている第２の
特定用情報とを照合して、正規の利用者か否かの判別を
行なうようになっている。

【００４１】図５乃至図８は本発明の話者識別システム
の種々の使用形態例を示す図である。図５の使用形態例
は、図３の構成例において、音声入力手段１，特定用情
報入力手段２，音声区間検出部３，特徴抽出部４，話者
認識用情報記憶部５，登録部６，話者認識部７，切替部
８，付随情報記憶部１２，通知部１３，判別部１４，さ
らには表示装置１６が、例えば、話者認識装置ユニット
３０として、銀行の窓口などに設置されるものとなって
いる。

【００４２】図５の使用形態例では、標準パターンの新
規登録，変更あるいは更新，話者認識を行なうために、
利用者は、例えば銀行の窓口などに設置されている話者
認識装置ユニット３０のところに出向き、この話者認識
装置ユニット３０によって、標準パターンの新規登録操
作，話者認識操作，標準パターンの変更あるいは更新操
作を、前述したようにして行なうことができる。なお、
この話者認識装置ユニット３０に、標準パターンの自動
更新機能が備わっているときには、利用者は、標準パタ
ーンの変更あるいは更新操作を行なうことなく、標準パ
ターンは自動更新される。

【００４３】また、図５の使用形態例では、この話者認
識ユニット３０によって利用者が例えば標準パターンの
新規登録操作を行なう際、利用者は、これとともに、付
随情報の入力を行ない、入力された付随情報を付随情報
記憶部１２に記憶させることができる。すなわち、この
場合、付随情報記憶部１２には、付随情報として、例え
ば、各利用者ごとの第２の特定用情報とともに、利用者
への通知の仕方として、例えば表示装置１６へガイダン
スを表示する旨などが記憶される。

【００４４】このようにして、標準パターンの新規登録
あるいは、変更，更新がなされ、認識モード時におい
て、例えば利用者Ｄが話者認識を行なうために特定用情
報入力手段２から第１の特定用情報を入力し、音声入力
手段１から音声を入力するとき、話者認識部７は、音声
入力手段１から入力された音声の特徴パターンと特定用
情報入力手段２から入力された第１の特定用情報に対応
した標準パターン(例えば利用者Ｄの標準パターン)とを
照合し、これらが類似しているか否かを判別する。

【００４５】この結果、入力された音声の特徴パターン
と利用者Ｄの標準パターンとが類似していると判別され
たときには、利用者が正規の利用者Ｄ本人であると識別
し、この利用者に対して、例えば、利用者Ｄ用のアプリ
ケーション(入出金，残高照会等のアプリケーション)の
利用を許可する。

【００４６】これに対し、入力された音声の特徴パター
ンと利用者Ｄの標準パターンとが類似していないと判別
されたときには、正規の利用者Ｄか否かの確認をとる。
すなわち、通知部１３は、この利用者への通知の仕方を
付随情報記憶部１２から読出し、この通知の仕方が、例
えば表示装置１６へのガイダンス表示である場合、第２
の特定用情報を利用者に入力させる旨のガイダンス、例
えば「第２の特定用情報を入力して下さい」などのガイ
ダンスを、この話者認識装置ユニット３０の表示装置１
６に画面表示し、利用者に知らせる。利用者が、これに
応答して、例えば特定用情報入力手段２から第２の特定
用情報を入力するとき、判別部１４では、いま入力され
た第２の特定用情報と付随情報記憶部１２に記憶されて
いる利用者Ｄの第２の特定用情報とを照合する。この結
果、これらが一致したときには、利用者が正規の利用者
Ｄ本人であると識別し、この利用者に対して、例えば、
利用者Ｄ用のアプリケーション(入出金，残高照会等の
アプリケーション)の利用を許可する。

【００４７】これに対し、判別部１４における照合の結
果、これらが一致しないときには、この利用者に対し
て、例えば、利用者Ｄ用のアプリケーションの利用を禁
止する。

【００４８】このように、正規の利用者Ｄの音声が例え
ば風邪などによって突然変化し、入力された音声の特徴
パターンと利用者Ｄの標準パターンとが類似しないもの
となっても、この正規の利用者Ｄが第２の特定用情報を
正しく入力することで、利用者が利用者Ｄであると識別
され、この利用者Ｄに対するアプリケーションの利用を
許可することができる。また、利用者Ｄ以外の他人，例
えばＥが、利用者Ｄの第１の特定用情報を知得しても、
利用者Ｄの第２の特定用情報を知得しない限り、この他
人Ｅは、利用者Ｄ用のアプリケーションを利用すること
ができないので、悪意のある他人によって正規の利用者
用のアプリケーションが利用されてしまうという事態を
も、有効に防止することができる。

【００４９】また、図６の使用形態例では、図５の使用
形態例において、利用者への通知を例えばオペレーショ
ンセンタ８０を介して行なうものとなっている。この場
合、通知部１３は、オペレーションセンタ８０に設置さ
れているアクセス受動部２４と、アクセス受動部２４に
アクセスするためのアクセス部２３とを有している。す
なわち、図６の使用形態例では、図３の構成例におい
て、音声入力手段１，特定用情報入力手段２，音声区間
検出部３，特徴抽出部４，話者認識用情報記憶部５，登
録部６，話者認識部７，切替部８，通知部１３のアクセ
ス部２３，判別部１４は、図５の使用形態例と同様に、
例えば話者認識装置ユニット３０として銀行の窓口など
に設置されているが、通知部１３のアクセス受動部２４
は、例えば電話装置としてオペレーションセンタ８０の
管理者によって管理され、アクセス受動部２４がアクセ
ス部２３によってアクセスされたとき、オペレーション
センタ８０の管理者が、別途、利用者の携帯電話などに
確認のための電話などを行なうように構成されている。
また、オペレーションセンタ８０から利用者へ確認のた
めの通知を行なうため、付随情報記憶部１２も、オペレ
ーションセンタ８０側に設けられている。

【００５０】図６の使用形態例では、話者認識装置ユニ
ット３０において、利用者の入力された音声の特徴パタ
ーンと例えば利用者Ｄの音声の標準パターンとの照合の
結果、これらが類似していないと判別されたとき、話者
認識装置ユニット３０のアクセス部２３は、オペレーシ
ョンセンタ８０のアクセス受動部２４を例えば電話で呼
出し、例えば、「利用者Ｄに確認をとって下さい」など
の音声ガイドを流し、アクセス受動部２４の受話器から
オペレーションセンタ８０の管理者に伝える。これによ
り、オペレーションセンタ８０の管理者は、付随情報記
憶部１２から利用者Ｄに対応する付随情報，例えば利用
者Ｄの電話番号を検索し、利用者Ｄに例えば電話で連絡
する。この結果、利用者Ｄ本人が話者認識を行なってい
るとの確認が得られると、管理者は、アクセス受動部２
４の送話器から例えば「利用者Ｄである」旨のメッセー
ジを発声する。あるいは、「利用者Ｄである」旨をアク
セス受動部２４の所定の機能キー，例えば“＊”で通知
する。これにより、アクセス部２３はこれを受信して、
利用者に対し利用者Ｄ用のアプリケーションの利用を許
可する。

【００５１】これに対し、利用者Ｄ本人が話者認識を行
なっているとの確認が得られない場合には、オペレーシ
ョンセンタ８０の管理者は、アクセス受動部２４の送話
器から例えば「利用者Ｄではない」旨のメッセージを発
声する。あるいは、「利用者Ｄではない」旨をアクセス
受動部２４の所定の機能キー，例えば“＃”で通知す
る。これにより、アクセス部２３はこれを受信して、利
用者に対し利用者Ｄ用のアプリケーションの利用を禁止
する。

【００５２】このように、図６の使用形態例において
も、図５の使用形態例と同様に、正規の利用者Ｄの音声
が例えば風邪などによって突然変化し、入力された音声
の特徴パターンと利用者Ｄの標準パターンとが類似しな
いものとなっても、この正規の利用者Ｄが第２の特定用
情報を正しく入力することで、利用者が利用者Ｄである
と識別され、この利用者Ｄに対するアプリケーションの
利用を許可することができる。また、利用者Ｄ以外の他
人，例えばＥが、利用者Ｄの第１の特定用情報を知得し
ても、利用者Ｄの第２の特定用情報を知得しない限り、
この他人Ｅは、利用者Ｄ用のアプリケーションを利用す
ることができないので、悪意のある他人によって正規の
利用者用のアプリケーションが利用されてしまうという
事態をも、有効に防止することができる。

【００５３】なお、図６の使用形態例では、オペレーシ
ョンセンタ８０の管理者が利用者Ｄ本人に直接問い合せ
することができるので、このときには、利用者から第２
の特定用情報を入力させずとも、利用者が利用者Ｄ本人
であるかを直接確認することができる。従って、この場
合には、判別部１４は設けずとも良い。但し、この場合
であっても、さらに、利用者から第２の特定用情報を入
力させることもでき、このときには、判別部１４は設け
る必要がある。また、この場合、話者認識ユニット３０
側にも付随情報記憶部１２を設けることができる。

【００５４】また、図７の使用形態例は、図３の構成例
において、利用者が端末によって話者認識等の操作を行
なうものとなっている。すなわち、図７の例では、音声
入力手段１，特定用情報入力手段２，音声区間検出部
３，特徴抽出部４が、利用者の家庭や会社等に設置され
ている端末３１(例えばパソコンや電話装置など)で実現
されており、切替部８，話者認識用情報記憶部５，登録
部６，話者認識部７，付随情報記憶部１２，判別部１４
が、例えば、銀行の窓口などに設置されている話者認識
装置ユニット３２で実現されている。また、この場合、
通知部１３は、端末３１側に設けられているアクセス受
動部２４と、話者認識装置ユニット３２に設けられ、端
末３１のアクセス受動部２４にアクセスするアクセス部
２３とにより実現されている。

【００５５】この場合、付随情報記憶部１２には、各利
用者ごとのアクセス受動部２４の電話番号などが付随情
報(利用者への通知の仕方)として予め記憶されている。
また、利用者側の端末３１と銀行などに設置されている
話者認識装置ユニット３２とは、通信手段３３，例えば
通信回線(有線)あるいは無線によって、互いに情報の送
受信がなされるようになっている。

【００５６】なお、図７の例では、１つの端末３１が話
者認識装置ユニット３２に通信手段３３を介して接続さ
れている場合のみが示されているが、話者認識装置ユニ
ット３２には、１つのみならず、複数の端末を送受信可
能に接続することができる。また、図７では、音声入力
手段１，特定用情報入力手段２，アクセス受動部２４が
一体のユニット(端末)として構成されているが、これら
は別々の装置として設置されていても良い。

【００５７】図７の使用形態例では、標準パターンの新
規登録，変更あるいは更新，話者認識を行なうために、
利用者は、利用者の家庭や会社等に設置されている端末
３１を操作することによって、例えば銀行の窓口などに
設置されている話者認識装置ユニット３２に対し、標準
パターンの新規登録操作，話者認識操作，標準パターン
の変更あるいは更新操作を、前述したと同様にして行な
うことができる。但し、図７の使用形態例では、登録モ
ードにするか認識モードにするかの切替指示は、例え
ば、端末の特定用情報入力手段２から与えることがで
き、端末の特定用情報入力手段２から登録モードにする
か認識モードにするかの指示が通信手段３３を介して伝
送されるとき、話者認識装置ユニット３２側では、この
指示に応じて、切替部８の切替制御を行なうようになっ
ている。また、この話者認識装置ユニット３２に、標準
パターンの自動更新機能が備わっているときには、利用
者は、標準パターンの変更あるいは更新操作を行なうこ
となく、標準パターンは自動更新される。

【００５８】図７の使用形態例では、認識モード時に、
話者認識装置ユニット３２の話者認識部７において、入
力された利用者の音声の特徴パターンと正規の利用者Ｄ
の標準パターンとを照合した結果、これらが類似してい
ないときには、話者認識装置ユニット３２のアクセス部
２３は、利用者Ｄの付随情報(例えば電話番号)を、付随
情報記憶部１２から読出し、この利用者Ｄの付随情報
(電話番号)によって利用者Ｄのアクセス受動部２４を呼
出し、例えば、「確認のため、第２の特定用情報を入力
して下さい」などの音声ガイドを流し、アクセス受動部
２４の受話器から利用者Ｄに与える。利用者Ｄが、これ
に応答して、アクセス受動部２４の送話器から例えば、
第２の特定用情報を発声するとき、あるいは、第２の特
定用情報をアクセス受動部２４のキー操作によりプッシ
ュトーン等で通知し、アクセス部２３がこれを受信する
とき、判別部１４は、受信した第２の特定用情報を付随
情報記憶部１２に記憶されている利用者Ｄの第２の特定
用情報と照合する。この結果、これらが一致すると、利
用者に対し利用者Ｄ用のアプリケーションの利用を許可
する。

【００５９】これに対し、利用者から入力された第２の
特定用情報と付随情報記憶部１２に記憶されている利用
者Ｄの第２の特定用情報とが一致しないとき、この利用
者に対し利用者Ｄ用のアプリケーションの利用を禁止す
る。

【００６０】これにより、図５，図６の使用形態例と同
様に、正規の利用者Ｄの音声が例えば風邪などによって
突然変化し、入力された音声の特徴パターンと利用者Ｄ
の標準パターンとが類似しないものとなっても、この正
規の利用者Ｄが第２の特定用情報を正しく入力すること
で、利用者が利用者Ｄであると識別され、この利用者Ｄ
に対するアプリケーションの利用を許可することができ
る。また、利用者Ｄ以外の他人，例えばＥが、利用者Ｄ
の第１の特定用情報を知得しても、利用者Ｄの第２の特
定用情報を知得しない限り、この他人Ｅは、利用者Ｄ用
のアプリケーションを利用することができないので、悪
意のある他人によって正規の利用者用のアプリケーショ
ンが利用されてしまうという事態をも、有効に防止する
ことができる。

【００６１】なお、図７の使用形態例においては、話者
認識装置ユニット３０の管理者から利用者Ｄ本人に直接
確認のための電話等を行ない、利用者Ｄ本人に直接問い
合せることもできるので、このときには、利用者Ｄから
第２の特定用情報を入力させずとも、利用者が利用者Ｄ
本人であるか否かを直接確認することができる。従っ
て、この場合には、判別部１４は設けずとも良い。但
し、この場合であっても、さらに、利用者から第２の特
定用情報を入力させることもでき、このときには、判別
部１４は設ける必要がある。また、この場合、話者認識
ユニット３０側にも付随情報記憶部１２を設けることが
できる。

【００６２】また、図８の使用形態例は、図７の使用形
態例において、アクセス受動部２４が例えばオペレーシ
ョンセンタ８０に設置されたものとなっており、この場
合の操作，動作については、図６の使用形態例とほぼ同
様になされる。

【００６３】また、例えば図７(あるいは図８)の使用形
態例において、音声入力手段１，特定用情報入力手段
２，アクセス受動部２４を例えば、図９に示すように、
１つの電話装置(あるいはパソコン通信装置)３５として
共用することもできる。すなわち、この電話装置(ある
いはパソコン通信装置)３５としては、利用者の家庭や
会社等にある既存のもの(例えばプッシュホン電話器)を
用いることができ、この場合、電話装置３５のハンドセ
ットの送話器を音声入力手段１として用い、また、ハン
ドセットの受話器をアクセス受動部２４において例えば
音声ガイドの受信部として用い、また、電話装置３５の
操作部(テンキー部)を特定用情報入力手段２として用い
ることができる。また、アクセス受動部２４において、
確認の発信を例えば音声メッセージで行なうようになっ
ている場合、上記ハンドセットの送話器をアクセス受動
部２４の確認発信部として用いることができ、また、ア
クセス受動部２４において第２の特定用情報の発信をプ
ッシュトーンで行なうようになっている場合、電話装置
３５の操作部(テンキー部)をアクセス受動部２４の確認
発信部としても用いることができる。

【００６４】このように、例えば図７の使用形態例にお
いて、音声入力手段１，特定用情報入力手段２，アクセ
ス受動部２４は、１つの電話装置(あるいはパソコン通
信装置)３５で実現することが可能であり、この場合、
利用者は、別途、話者認識用の装置(音声入力手段１，
特定用情報入力手段２)を用意せずに済む。

【００６５】なお、音声入力手段１，アクセス受動部２
４をこのように１つの電話装置(あるいはパソコン通信
装置)３５で実現する場合、利用者が話者認識を行なう
ときには、この電話装置３５のハンドセットが持ち上げ
られ、この電話装置３５は、通話状態となっていること
から、話者の確認を行なうためアクセス部２３がアクセ
ス受動部２４をアクセスするとき、利用者が正規の利用
者(話者本人)である場合には、利用者先のアクセス受動
部すなわち電話装置３５は、通話中となっている。

【００６６】このことに着目し、アクセス部２３がアク
セス受動部２４をアクセスしたときに通話中である場合
に、いま話者認識を行なっている利用者が正規の話者本
人であると判定し、確認を行なうこともできる。

【００６７】また、図７，図８の構成例では、アクセス
部２３，アクセス受動部２４が設けられているが、これ
らを設けずに、確認手段１１を実現することも可能であ
る。

【００６８】すなわち、話者識別を行なうために、利用
者が自己の端末(例えば電話装置あるいはパソコン通信
装置)によって、例えば銀行等に設置されている話者認
識装置ユニットをアクセスするのに必要な電話番号を入
力し、この電話番号が自己の端末からデジタル信号で送
出されるとき、銀行等に設置されている話者認識装置ユ
ニットでは、利用者端末からデジタル信号で送出された
電話番号を例えば表示するように構成することもでき
る。

【００６９】この場合、利用者が、銀行等に設置されて
いる話者認識装置ユニットをアクセスした後、端末の特
定用情報入力手段２から特定用情報を入力し、また、音
声入力手段１から音声を発生し、音声入力手段１から入
力された利用者の音声の特徴パターンと利用者Ｄの標準
パターンとの照合を行なわせた結果、これらが類似して
いないと判別されたときには、この時点で、話者認識装
置ユニット側のオペレータ(例えば銀行等の係員)は、上
記のように表示されている電話番号と上記のように入力
された特定用情報に対応させて付随情報記憶部１２に予
め登録されている正規の利用者の電話番号とを照合し、
この結果、一致したときには、利用者が正規の利用者で
あると確認することができる。これに対し、一致しない
ときには、利用者が正規の利用者ではないと判断するこ
とができる。

【００７０】このように、銀行等の話者認識装置ユニッ
トから利用者のアクセス受動部２４にアクセスせずと
も、確認を行なうことも可能である。

【００７１】また、上述の各構成例において、利用者が
正規の利用者Ｄではなく、利用者Ｄ以外の他人であると
確認されたときに、さらに、この他人が誰であったかが
履歴として残れば、より都合良い。話者認識(すなわ
ち、話者識別)を行なうための音声特徴パターンには、
利用者の声の情報が含まれていることからこれを履歴と
して保存することもできるが、通常、音声特徴パターン
は、元の音声信号に対し、データ量が圧縮されているた
め、これに基づいて誰であるかを判定することは難かし
い。

【００７２】そこで、確認手段１１による確認の結果、
正規の利用者でないと確認された場合、現話者の音声標
準パターンではなく、現話者の元の音声を再生可能に保
存するようにすることができる。

【００７３】図１０は現話者の音声を再生可能に保存す
る機能を備えた話者識別システムの構成例を示す図であ
る。図１０を参照すると、この話者識別システムでは、
認識モード時に、音声入力手段１から入力された音声信
号あるいは、音声区間検出後の音声信号(音声区間内の
音声信号)を再生可能に記憶する音声記憶手段(メモリ)
５０がさらに設けられており、確認手段１１において、
現話者が正規の話者本人であると確認されたときには、
この音声記憶手段５０に記憶された音声信号を例えば確
認手段１１からの制御によって消去する一方、現話者が
正規の話者本人ではないと判断されたときには、この音
声記憶手段５０に記憶された音声信号を履歴として保存
するようになっている。

【００７４】このような構成の話者識別システムでは、
利用者が認識モード時に音声を発声するとき、音声入力
手段１からの入力音声信号は、音声記憶手段５０に記憶
される。しかる後、確認手段１１によって前述したよう
な種々の仕方で現話者が正規の話者本人であるか否かを
確認し、最終的に正規の話者本人でないと判断されたと
きには、音声記憶手段５０にいま記憶された音声信号を
履歴とて保存し、この音声を後で再生することで、誰が
本人になりすまして利用しようとしたかを割り出すこと
ができる。

【００７５】なお、この構成例において、音声入力手段
１から音声信号を音声記憶手段５０に直接記憶させても
良いが、音声記憶手段５０の容量を節約する場合には、
音声区間検出後の音声信号(音声区間内の音声信号)を記
憶させるのが良い。また、記憶すべき音声信号として、
ＰＣＭにするか、ＡＤＰＣＭを使うか、帯域をどの程度
まで残すかによって、音声のデータの量が決まるが、音
声記憶手段５０には、話者の音声をできるだけ良い音質
で記憶するのがよい。

【００７６】また、上述の例では、利用者が正規の話者
本人であると確認されたときは、メモリ容量を節約する
ため、音声記憶手段５０に蓄積した音声信号を消去する
としたが、正規の話者本人であることが確認されたとき
にも、音声記憶手段５０に蓄積した音声信号を消去せず
に、そのまま残しておき、例えば、正規の話者本人が次
に利用するときに、これに上書きするようにしてもよ
い。これにより、装置が誤って正規の話者本人と判断し
たときにも、音声記憶手段５０に蓄積された音声信号に
基づき、本人にかわって誰が利用したかを割り出すこと
ができる。

【００７７】また、図１０の構成例では、利用者の音声
を履歴として保存するようにしているが、利用者の映像
を履歴として残すことも可能である。すなわち、確認手
段１１による確認の結果、正規の利用者でないと確認さ
れた場合、利用者の映像を保存するようにすることも可
能である。

【００７８】図１１は利用者の映像を保存する機能を備
えた話者識別システムの構成例を示す図である。図１１
を参照すると、この話者識別システムでは、利用者の映
像を撮像する撮像手段(例えばカメラ)５２と、撮像手段
５２からの映像信号をＡ／Ｄ変換するＡ／Ｄ変換部５３
と、Ａ／Ｄ変換部５３によりデジタル変換された映像信
号を記憶する映像記憶手段５４とがさらに設けられてお
り、確認手段１１において、現話者が正規の話者本人で
あると確認されたときには、この映像記憶手段５４に記
憶された映像信号を例えば確認手段１１の制御によって
消去する一方、現話者が正規の話者本人ではないと判断
されたときには、この映像記憶手段５４に記憶された映
像信号を履歴として保存するようになっている。

【００７９】このような構成の話者識別システムでは、
利用者が認識のための操作を行なうとき、撮像手段５２
からの映像信号は、映像記憶手段５４に記憶される。し
かる後、確認手段１１によって前述したような種々の仕
方で現話者が正規の話者本人であるか否かを確認し、正
規の話者本人でないと判断されたときには、映像記憶手
段５４にいま記憶された映像信号を履歴とて保存し、こ
の映像を後で再生することで、誰が本人になりすまして
利用しようとしたかを割り出すことができる。

【００８０】上述の例では、利用者が正規の話者本人で
あると確認されたときは、メモリ容量を節約するため、
映像記憶手段５４に蓄積した映像信号を消去するとした
が、正規の話者本人であることが確認されたときにも、
映像記憶手段５４に蓄積した映像信号を消去せずに、そ
のまま残しておき、例えば、正規の話者本人が次に利用
するときに、これに上書きするようにしてもよい。これ
により、装置が誤って正規の話者本人と判断したときに
も、映像記憶手段５４に蓄積された映像信号に基づき、
本人にかわって誰が利用したかを割り出すことができ
る。

【００８１】なお、この構成例において、撮像手段５２
は動画用のものであっても、静止用のものであっても良
く、必要に応じて、映像記憶手段５４に保存されている
映像を見ることによって前回の使用者の映像を見ること
ができる。

【００８２】このようにして利用者の音声や映像を再生
可能に保存することで、他人が誰かを後で知ることがで
きる。なお、図１０，図１１の構成例では、音声あるい
は映像のいずれか一方を履歴として残すようになってい
るが、図１０と図１１とを組合せ、音声と映像との両方
を履歴として残すように構成することもできる。

【００８３】また、上述の各構成例において、利用者の
風邪などによる声の変化は頻繁に起こるものではないた
め、利用者に第２の特定用情報を入力させる場合、利用
者が第２の特定用情報を正確に覚えていないことがあ
る。このような場合を考慮して、音声入力手段１から入
力された利用者の音声の特徴パターンと特定用情報入力
手段２から入力された特定用情報(第１の特定用情報)に
対応した利用者(例えば利用者Ｄ)の音声の標準パターン
とが類似していないと判別されたときに、利用者に対し
て、正しい第２の特定用情報を含む複数のダミーの特定
用情報を提示し、利用者にそのうちの１つを選択させる
こともできる。

【００８４】図１２は正しい第２の特定用情報を含む複
数のダミーの特定用情報を利用者に提示し、利用者にそ
のうちの１つを選択させる機能を備えた話者識別システ
ムの構成例を示す図である。図１２の構成例では、話者
認識部７において入力音声の特徴パターンと標準パター
ンとを照合の結果、これらが類似していないと判定した
場合は、第１の特定用情報に対応した第２の特定用情報
を付随情報記憶部から取り出し、取り出した第２の特定
用情報を含む複数の（例えば２０個程度の)ダミーの特
定用情報を発生し、これらを、例えば表示装置１６に表
示するダミー特定用情報発生部２９がさらに設けられて
いる。

【００８５】このような構成では、例えば表示装置１６
に表示された複数のダミーの特定用情報のうちのいずれ
か１つを利用者に選択させる。利用者によって１つの特
定用情報が選択されると、判別部１４では、利用者によ
り選択された特定用情報と付随情報記憶部１２に記憶さ
れている利用者Ｄの第２の特定用情報とを照合し、これ
らが一致したら、利用者が正規の利用者であると確認
し、この利用者にアプリケーションの利用を許可する。
これによって、利用者は、仮に第２の特定用情報を正確
に覚えていなくても、提示された複数の特定用情報の中
から正しい第２の特定用情報を見出し、これを選択する
ことができる。

【００８６】なお、複数のダミー特定用情報として、例
えば、２０個程度を表示すれば、他人が正しい第２の特
定用情報を選択する確率も５％程度しかないため、実用
上、第３者が第２の特定用情報を選択することを有効に
防止できる。また、このときに提示する複数のダミー特
定用情報は、ダミー特定用情報発生部２９において、一
定の規則をもたせて、常に同じものが用いられるのが望
ましい。すなわち、正しい第２の特定用情報以外のダミ
ー特定用情報をランダムに発生させていると、正しい第
２の特定用情報以外の特定用情報については、毎回変わ
るので、例えば、複数のダミー特定用情報を２回表示さ
せて、両方に共通の特定用情報があればそれが正しい第
２の特定用情報であると他人にわかってしまう。

【００８７】このように、図１２の構成例では、風邪な
どで声が変わった時でも、しかも、第２の特定用情報を
正確に覚えていなくても、正しく利用することが可能と
なる。

【００８８】上述の各構成例では、話者認識用情報記憶
部５とは別に、付随情報記憶部１２が設けられている
が、例えば図１３に示すように、付随情報記憶部１２の
機能を話者認識用情報記憶部５にもたせることもでき
る。この場合には、通知部１３，判別部１４は、話者認
識用情報記憶部５から利用者への通知の仕方，第２の特
定用情報等を読出して、用いることができる。

【００８９】また、上述の構成例では、音声区間検出部
３の後に、特徴抽出部４が設けられているが、これのか
わりに、音声区間検出部３の前に、特徴抽出部４が設け
られていても良い。

【００９０】さらに、図７，図８の構成例では、端末側
に音声区間検出部３，特徴抽出部４が設けられている
が、これらの一方あるいは両方を端末側ではなく、銀行
等に設置されている話者認識装置ユニット側に設けるこ
とも可能である。

【００９１】また、図７，図８の構成例では、話者認識
装置ユニット側に話者認識部７が設けられているが、こ
れを、話者認識装置ユニット側ではなく、端末側に設け
ることも可能である。

【００９２】

【発明の効果】以上に説明したように、請求項１乃至請
求項２記載の発明によれば、音声入力手段から入力され
た話者の音声の特徴と話者識別用情報記憶手段に記憶さ
れている話者の音声特徴のうち特定用情報入力手段から
入力された特定用情報に対応する音声特徴とが類似して
いないと判別されたときに、利用者に確認をとるように
しているので、風邪などによって利用者の声が突然変化
しても、話者識別を行なうことができる。

【図面の簡単な説明】

【図１】本発明に係る話者識別システムの構成例を示す
図である。

【図２】話者認識用情報記憶部の構成例を示す図であ
る。

【図３】確認手段の構成例を示す図である。

【図４】付随情報記憶部の構成例を示す図である。

【図５】本発明の話者識別システムの使用形態例を示す
図である。

【図６】本発明の話者識別システムの使用形態例を示す
図である。

【図７】本発明の話者識別システムの使用形態例を示す
図である。

【図８】本発明の話者識別システムの使用形態例を示す
図である。

【図９】本発明の話者識別システムの使用形態例を示す
図である。

【図１０】現話者の音声を再生可能に保存する機能を備
えた話者識別システムの構成例を示す図である。

【図１１】利用者の映像を保存する機能を備えた話者識
別システムの構成例を示す図である。

【図１２】本発明に係る話者識別システムの他の構成例
を示す図である。

【図１３】話者認識用情報記憶部の他の構成例を示す図
である。

【符号の説明】

１音声入力手段２指示手段３音声区間検出部４特徴抽出部５話者認識用情報記憶部６登録部７話者認識部８切替部１１確認手段１２付随情報記憶部１３通知部１４判別部１６表示装置２３アクセス部２４アクセス受動部３０話者認識装置ユニット３１端末３２話者認識装置ユニット３３通信手段３５電話装置(あるいはパソコン通信装
置) ５０音声記憶手段５２撮像手段５３Ａ／Ｄ変換部５４映像記憶手段８０オペレーションセンタ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭63−85698（ＪＰ，Ａ) 特開平３−164974（ＪＰ，Ａ) 特開昭62−134750（ＪＰ，Ａ) 特開平４−88472（ＪＰ，Ａ) 特開平６−314362（ＪＰ，Ａ) 特開平７−65088（ＪＰ，Ａ) 特開平３−260864（ＪＰ，Ａ) 特開平９−106470（ＪＰ，Ａ) 特開平５−67244（ＪＰ，Ａ) 特開平７−192164（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 G06F 15/00 330

Claims

(57)【特許請求の範囲】

【請求項１】話者識別用情報が記憶される話者識別用
情報記憶手段と、利用者を特定するための特定用情報を
入力するための特定用情報入力手段と、話者の音声を入
力するための音声入力手段と、音声入力手段から入力さ
れた話者の音声の特徴と前記話者識別用情報記憶手段に
記憶されている話者の音声特徴のうち前記特定用情報入
力手段から入力された特定用情報に対応する音声特徴と
が類似しているか否かの照合を行なう照合手段と、前記
照合の結果、類似していないと判別されたときに、利用
者に確認をとるための確認手段とを備えており、前記確
認手段は、前記照合の結果、類似していないと判別した
ときに、利用者に対して、正しい第２の特定用情報を含
む複数のダミーの特定用情報を提示し、利用者にそのう
ちの１つを選択させるようになっていることを特徴とす
る話者識別システム。
【請求項２】話者識別用情報が記憶される話者識別用
情報記憶手段と、利用者を特定するための特定用情報を
入力するための特定用情報入力手段と、話者の音声を入
力するための音声入力手段と、音声入力手段から入力さ
れた話者の音声の特徴と前記話者識別用情報記憶手段に
記憶されている話者の音声特徴のうち前記特定用情報入
力手段から入力された特定用情報に対応する音声特徴と
が類似しているか否かの照合を行なう照合手段と、前記
照合の結果、類似していないと判別されたときに、利用
者に確認をとるための確認手段とを備えており、前記確
認手段による確認の結果、正規の利用者であるとの確認
がとれなかった場合に、現在の利用者の音声を再生可能
に保存する音声記憶手段がさらに設けられていることを
特徴とする話者識別システム。