JPH09120293A

JPH09120293A - 話者認識システムおよび話者認識方法

Info

Publication number: JPH09120293A
Application number: JP7298927A
Authority: JP
Inventors: Junichiro Fujimoto; 潤一郎藤本; Tatsuo Miyaji; 達生宮地
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-10-24
Filing date: 1995-10-24
Publication date: 1997-05-06
Anticipated expiration: 2015-10-24
Also published as: JP3601631B2

Abstract

(57)【要約】【課題】利用者が例えば銀行の窓口などに出向かずと
も、話者認識を行なうことができ、銀行などで提供され
ている入出金，残高照会などのアプリケーションを利用
することが可能である。【解決手段】この話者認識システムは、少なくとも１
つの端末１１−１〜１１−ｎと中央装置１２とが、情報
を送受信可能に設けられている。ここで、音声入力手段
１(あるいは、さらに、音声区間検出部３)が端末側に設
けられ、また、特徴抽出手段４，話者認識管理手段１
０，話者認識部７が中央装置１２に設けられたものとな
っている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者認識を行なう
話者認識システムおよび話者認識方法に関する。

【０００２】

【従来の技術】従来、銀行などにおいて、例えば入出
金，残高照会などのアプリケーションを利用者が利用す
る際、この利用者が正規の利用者本人であることを確認
するために、暗証番号などを利用者に入力させるように
している。また、コンピュータでは、パスワードと称し
て、暗証番号と同様の暗証文字列を利用者に入力させる
ことによって本人の確認を行なっている。しかしなが
ら、このような暗証番号や暗証文字列などの入力による
確認は、他人が、暗証番号や暗証文字列を知りさえすれ
ば、難無く、これを盗用することができる。しかも、暗
証番号や暗証文字列は、それを登録した者(本人)の生年
月日や記念日、あるいは電話番号、氏名の綴りなどを利
用したものが多く、他人がこれを見破ることは差程難し
いことではない。

【０００３】暗証番号や暗証文字列のこのような欠点を
回避するため、近年、声によって本人か否かを判定す
る、いわゆる話者認識が着目されている。この話者認識
は、ある話者が発声した音声の特徴量(特徴パターン)
が、予め登録されているこの話者の音声標準パターンと
一致するか否かを調べることにより、本人か否かを判定
(認識)するものである。すなわち、話者の音声から抽出
した特徴量(特徴パターン)とこの話者の音声標準パター
ンとの類似度を計算し、類似度の高低によって本人か否
かを判定するものであり、人間の肉体的特徴を利用する
ものであることから、音声は、暗証番号や暗証文字列に
比べて他人がこれを真似ることは難かしく、従って、他
人の盗用をより有効に防止することができる。

【０００４】

【発明が解決しようとする課題】しかしながら、このよ
うな話者認識システムは、従来一般的に、例えば銀行の
窓口などに設置され、従って、話者認識を行なうために
は、利用者は、その都度、銀行の窓口等へ出向かなけれ
ばならないという問題があった。

【０００５】本発明は、利用者が例えば銀行の窓口など
に出向かずとも、話者認識を行なうことができ、銀行な
どで提供されている入出金，残高照会などのアプリケー
ションを利用することの可能な話者認識システムおよび
話者認識方法を提供することを目的としている。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、少なくとも１つの端末と中
央装置とが、情報を送受信可能に設けられており、端末
には、話者の音声を入力し音声信号とする音声入力手段
が設けられ、また、中央装置には、音声信号の特徴量を
抽出する特徴抽出手段と、話者認識用の情報を管理する
話者認識管理手段と、特徴抽出手段から話者の音声の特
徴量と話者認識管理手段によって管理されている話者認
識用情報とを照合して話者認識を行なう話者認識手段と
が設けられており、端末から中央装置に、音声信号を転
送するようになっていることを特徴としている。

【０００７】また、請求項２記載の発明は、少なくとも
１つの端末と中央装置とが、情報を送受信可能に設けら
れており、端末には、話者の音声を入力し音声信号とす
る音声入力手段と、音声信号の特徴量を抽出する特徴抽
出手段とが設けられ、また、中央装置には、話者認識用
の情報を管理する話者認識管理手段と、話者の音声の特
徴量と該話者認識管理手段によって管理されている話者
認識用情報とを照合して話者認識を行なう話者認識手段
とが設けられており、端末から中央装置に、話者の音声
の特徴量を転送するようになっていることを特徴として
いる。

【０００８】また、請求項３記載の発明は、請求項２記
載の話者認識システムにおいて、さらに、中央装置から
端末には、所定の情報が転送され、端末に設けられてい
る特徴抽出手段は、中央装置から提供された情報に基づ
いて、入力された音声を特徴量に変換することを特徴と
している。

【０００９】また、請求項４記載の発明は、請求項１ま
たは請求項２記載の話者認識システムにおいて、端末に
は、音声入力手段からの音声信号または特徴抽出手段か
らの特徴量を所定の暗号情報に基づいて暗号化する暗号
化手段がさらに設けられており、端末は、音声入力手段
からの音声信号または特徴抽出手段からの特徴量を所定
の暗号情報に基づいて暗号化して、中央装置に転送する
ことを特徴としている。

【００１０】また、請求項５記載の発明は、請求項４記
載の話者認識システムにおいて、中央装置には、暗号情
報を生成する暗号情報生成手段と、復号化手段とが設け
られており、端末の暗号化手段は、中央装置の暗号情報
生成手段によって生成された暗号情報が中央装置から提
供されるとき、該暗号情報に基づいて、音声入力手段か
らの音声信号または特徴抽出手段からの特徴量に暗号化
を施し、また中央装置では、端末から暗号化された音声
信号または特徴量が転送されるとき、該暗号化された音
声信号または特徴量を暗号情報に基づいて復号化手段に
よって復号化するようになっていることを特徴としてい
る。

【００１１】また、請求項６記載の発明は、請求項４ま
たは請求項５記載の話者認識システムにおいて、暗号情
報は、端末から中央装置への通信毎に、異なるものが用
いられることを特徴としている。

【００１２】また、請求項７記載の発明は、少なくとも
１つの端末と中央装置とが、情報を送受信可能に設けら
れており、端末に話者が音声を入力すると、話者の音声
信号は中央装置に転送され、中央装置では、端末から転
送された話者の音声信号から特徴量を抽出し、該特徴量
と該中央装置に予め管理されている話者認識用情報とを
照合して話者認識を行なうことを特徴としている。

【００１３】また、請求項８記載の発明は、少なくとも
１つの端末と中央装置とが、情報を送受信可能に設けら
れており、端末に話者が音声を入力すると、話者の音声
信号は特徴量に変換されて中央装置に転送され、中央装
置では、端末から転送された話者の音声の特徴量と該中
央装置に予め管理されている話者認識用情報とを照合し
て話者認識を行なうことを特徴としている。

【００１４】また、請求項９記載の発明は、請求項８記
載の話者認識方法において、端末において特徴量の変換
処理がなされるに先立って、中央装置から端末には所定
の情報が転送され、端末は、中央装置から提供された情
報に基づいて、入力された音声信号を特徴量に変換する
ことを特徴としている。

【００１５】また、請求項１０記載の発明は、請求項７
または請求項８記載の話者認識方法において、端末は、
さらに、音声信号または特徴量に所定の暗号情報に基づ
いて暗号化を施して、中央装置に転送することを特徴と
している。

【００１６】

【発明の実施の形態】図１は一般的な話者認識システム
の構成例を示す図である。図１を参照すると、この話者
認識システムは、例えば銀行などにおける本人の確認を
話者認識により行なうためのものであって、利用者の音
声を入力するための音声入力手段(例えば、マイクロフ
ォン)１と、利用者に所定の指定情報を入力させるため
の指定手段(例えばキーボード)２と、音声入力手段１か
ら入力された信号の中から話者の音声の部分のみを音声
区間として検出する音声区間検出部３と、音声区間検出
部３で検出した音声区間内の音声信号から特徴量(特徴
パターン)を抽出する特徴抽出部４と、話者認識を行な
うに先立って話者の音声の標準的な特徴量(特徴パター
ン)を標準パターンとして話者認識用情報記憶部５に予
め登録する登録部６と、利用者(話者)の音声の特徴量
(特徴パターン)と話者認識用情報記憶部５に登録されて
いる標準パターンとを照合し、その類似度に基づいて話
者認識を行なう話者認識部７と、標準パターンの登録を
行なう登録モードと話者認識を行なう認識モードとの切
替を行なう切替部(例えばスイッチ)８とを有している。

【００１７】ここで、特徴抽出部４は、音声信号を特徴
量(特徴パターン)として、スペクトルに変換しても良い
し、あるいはＬＰＣケプストラムに変換しても良く、特
徴量の種類については特に限定するものではない。な
お、スペクトルに変換するためには、特徴量変換にはＦ
ＦＴを用い、また、ＬＰＣケプストラムに変換するため
にはＬＰＣ分析などを用いるのがよい。

【００１８】また、標準パターンの登録時(登録モード
時)において、登録部６は、ある話者が発声した音声に
基づいて特徴抽出部４で抽出された特徴量(特徴パター
ン)を標準パターンとして話者認識用情報記憶部５に登
録する際、図２に示すように、この話者により指定手段
２から入力された指定情報(例えば、この話者の名前や
生年月日，あるいはこの話者の暗証番号など)と対応付
けて、標準パターンを話者認識用情報記憶部５に登録す
ることができる。換言すれば、話者認識用情報記憶部５
には、話者認識に必要な話者認識用の情報が登録される
ようになっており、また、この話者認識用情報記憶部５
には、複数の話者(例えば利用者Ａ，Ｂ，Ｃ，Ｄ，…)の
話者認識用情報が登録可能となっている。

【００１９】また、話者認識用情報記憶部５に登録され
る音声の標準パターンとしては、この話者認識システム
の使用形態等に応じて、各利用者(話者)に予め言葉を発
声させたものであっても良いし、各利用者ごとにそれぞ
れ自由に所望の言葉を発声させたものであっても良い。

【００２０】また、話者認識部７は、例えば、古井著
「ディジタル音声処理」(東海出版会)などに記載されて
いるように、現在の話者の音声の特徴パターンが話者認
識用情報記憶部５に登録されている複数の話者の標準パ
ターンのうちのどれに最も類似しているかを判定し、登
録されている複数の話者のうちから１人の話者を識別す
る話者識別方式のものであっても良いし、話者認識用情
報記憶部５に登録されている複数の話者の標準パターン
から現在の話者に対応する標準パターンを取り出し、こ
の標準パターンと現在の話者の特徴パターンとを照合
し、その類似度が所定基準値(しきい値)よりも高いか低
いかにより現在の話者が正規の話者本人であるか否かを
判定する話者照合方式のものであっても良い。

【００２１】さらに、話者認識部７は、話者認識用情報
記憶部５に登録される音声の標準パターンが各利用者
(話者)に予め言葉を発声させたものである場合には、こ
れに対応した認識を行なうものにすることができ、ま
た、話者認識用情報記憶部５に登録される音声の標準パ
ターンが各利用者ごとにそれぞれ自由に所望の言葉を発
声させたものである場合には、これに対応した認識を行
なうものにすることができる。但し、各利用者(話者)に
予め決められた言葉を発声させて話者認識を行なう場
合、類似の判定基準(しきい値)を各話者に対して全て一
定値にすることができるが、各利用者ごとにそれぞれ所
望の言葉を発声させて話者認識を行なう場合には、類似
の判定基準(しきい値)を各話者ごとに相違させることも
できる。

【００２２】以下では、説明の便宜上、話者認識システ
ムは、各利用者(話者)に予め決められた言葉(特定の言
葉)を発声させるものとし、また、話者認識部７では、
話者照合方式の話者認識がなされるとする。なお、話者
認識部７において、話者照合方式の話者認識がなされる
場合、この話者認識時に、利用者(話者)は、指定手段２
から登録モード時に入力した指定情報と同じ指定情報を
入力する必要がある。これにより、話者認識部７では、
話者認識用情報記憶部５に登録されている複数の話者の
標準パターンのうちから現在の話者に対応する標準パタ
ーンを取り出すことができ、この標準パターンと現在の
話者の音声の特徴パターンとの照合を行なうことができ
る。

【００２３】このような構成の話者認識システムを利用
者(例えばＤ)が始めて利用する場合、この利用者(話者)
Ｄは、先ず、自己の音声を標準パターンとして登録する
必要がある。このため、この利用者Ｄは、切替部(例え
ばスイッチ)８を操作して、特徴抽出部４を登録部６に
接続し、登録モードに設定する。

【００２４】次いで、利用者(話者)Ｄは、指定手段２か
ら所定の指定情報，例えば(利用者Ｄ)を入力する。ま
た、この際、利用者は、予め決められた特定の言葉を発
声する。この音声は、音声入力手段１から入力し、音声
区間検出部３，特徴抽出部４により、特徴量(特徴パタ
ーン)に変換され、この話者の音声の標準パターンとし
て、登録部６に与えられる。

【００２５】これにより、登録部６は、この利用者(話
者)Ｄの音声の標準パターンを指定手段２から入力され
た指定情報と対応付けて、話者認識用情報記憶部５に登
録する。例えば過去に、この話者認識用情報記憶部５に
複数の利用者(異なる利用者)Ａ，Ｂ，Ｃが自己の音声を
標準パターンとして登録しており、現在の利用者Ｄが上
記のように自己の音声を標準パターンとして登録すると
き、この標準パターンは、話者認識用情報記憶部５に図
２に示すように記憶(登録)される。

【００２６】このようにして、この音声の標準パターン
が話者認識用情報記憶部５に記憶されると、利用者Ｄ
は、この話者認識システムにより、利用者Ｄについての
話者認識を行なわせることができる。すなわち、この利
用者Ｄは、このシステムを用いて、いま利用している利
用者が利用者Ｄ本人であるか否かの判定を行なわせるこ
とができる。

【００２７】具体的に、利用者Ｄが以後、このシステム
を利用する場合、利用者Ｄは、切替部８を操作して、特
徴抽出部４を話者認識部７に接続し、このシステムを認
識モードに設定する。

【００２８】次いで、利用者Ｄは、指定手段２から所定
の指定情報，例えば(利用者Ｄ)を入力する。また、この
際、利用者Ｄは、予め決められた特定の言葉を発声す
る。この音声は、音声入力手段１から入力し、音声区間
検出部３，特徴抽出部４により、特徴量(特徴パターン)
に変換されて、話者認識部７に与えられる。

【００２９】これにより、話者認識部７は、指定手段２
から入力された指定情報(利用者Ｄ)に対応させて登録さ
れている標準パターンを話者認識用情報記憶部５から取
り出し、この標準パターンと特徴抽出部４からの特徴パ
ターンとを照合して、その類似度を算出し、この類似度
が所定基準値よりも高いか低いかを判定する。この結
果、類似度が低いと判定されたときには、利用者が正規
の話者本人Ｄではないと判別し、この利用者による利用
を拒絶する。これに対し、類似度が高いと判定されたと
きには、利用者が正規の話者本人Ｄであると判別し、利
用者による利用を許可する。すなわち、利用者によるア
プリケーション(例えば入出金，残高照会などの処理)の
利用を許可する。

【００３０】ところで、図１のような話者認識システム
は、従来一般的に、例えば銀行の窓口などに設置され、
従って、話者認識を行なうためには、利用者は、その都
度、銀行の窓口等へ出向かなければならないという問題
があった。

【００３１】本発明は、このような問題を回避し、利用
者が、利用者の自宅において、あるいは利用者の会社等
において、話者認識を行ない、銀行などのアプリケーシ
ョン(入出金，残高照会などのアプリケーション)等を利
用できるようにすることを意図している。

【００３２】図３は本発明に係る話者認識システムの第
１の構成例を示す図である。この第１の構成例では、話
者認識システムは、少なくとも１つの端末１１−１〜１
１−ｎと中央装置１２とが、情報を送受信可能に設けら
れている(例えば有線あるいは無線の通信手段１３−１
〜１３−ｎによって通信可能に設けられている)。ここ
で、各端末１１−１〜１１−ｎは、説明の便宜上、同じ
構成のものであるとする。

【００３３】図３の構成例では、図１の構成例におい
て、音声入力手段１(あるいは、さらに、音声区間検出
部３)が端末側に設けられ、また、特徴抽出手段４，話
者認識管理手段１０，話者認識部７が中央装置１２に設
けられたものとなっている。なお、ここで、話者認識管
理手段１０は、図１の話者認識用情報記憶部５，登録部
６の機能を有し、さらに、これに話者認識全体の管理，
制御機能、さらには、切替部８の機能をももたせること
もできる。すなわち、ここでは、話者認識管理手段１０
とは、話者認識に関する管理，制御する機能を総称した
包括的な手段であるとする。

【００３４】図４は図３の話者認識システムの具体例を
示す図である。なお、図４では、簡単のため、１つの端
末１１−１だけが図示されているが、他の端末１１−２
〜１１−ｎも、端末１１−１と同様の構成のものである
とする。図４を参照すると、端末１１−１には、音声入
力手段１，指定手段２，音声区間検出部３が設けられ、
さらに、端末１１−１には、中央装置１２との間で情報
を通信手段(例えば電話回線あるいは無線)１３−１を介
して送受信するための送受信インタフェース部１４−１
が設けられている。また、中央装置１２には、特徴抽出
部４，話者認識用情報記憶部５，登録部６，話者認識部
７，切替部８が設けられ、さらに中央装置１２には、各
端末１１−１〜１１−ｎとの間で情報を送受信するため
の送受信インタフェース部１５がさらに設けられてい
る。

【００３５】ここで、各端末１１−１〜１１−ｎとして
は、例えば電話機やパソコン(マイクロフォン，Ａ／Ｄ
変換などの音声取込機能を備えたパソコン)を用いるこ
とが可能であって、各端末１１−１〜１１−ｎの利用者
は、自己の端末を、例えば自宅や会社において、保有す
ることができる。

【００３６】また、図４の構成例において、中央装置１
２の送受信インタフェース１５には、例えば交換器を用
いることができる。また、特徴抽出部４，登録部６，話
者認識部７は、この中央装置に搭載される特徴抽出ソフ
ト，登録ソフト，話者認識ソフト(話者認識プログラム)
として実現され、話者認識用情報記憶部５には、中央装
置１２に設けられているメモリを用いることができる。
また、切替部８は、例えば、端末からの指示が標準パタ
ーンの登録(あるいは変更)であるか、話者認識であるか
に応じて、登録ソフトを実行するか、話者認識ソフトを
実行するかを選択する選択プログラムとして構成でき
る。

【００３７】また、図４の構成例において、話者認識用
情報記憶部５には、図５に示すように、標準パターンの
他に、標準パターンの更新日時，類似度のしきい値など
の各種の付随情報が記憶されても良い。この場合、例え
ば、話者認識部７は、ある話者の音声の特徴パターン
を、話者認識用情報記憶部５に記憶されている標準パタ
ーンと照合して、この話者の特徴パターンと標準パター
ンとの類似度を求めたとき、この標準パターンに対応す
るしきい値(付随情報)を話者認識用情報記憶部５から読
出し、上記類似度がこのしきい値よりも高いか低いかに
より、この話者が本人であるか否かを判別することがで
きる。

【００３８】このような第１の構成例の話者認識システ
ムでは、標準パターンの登録(さらには標準パターンの
変更あるいは更新)や話者認識を行なうために、利用者
は、利用者の家庭や会社等に設置されている端末を操作
することによって、例えば銀行の窓口などに設置されて
いる中央装置(例えば話者認識装置ユニット)に対し、標
準パターンの登録操作，話者認識操作を、前述したと同
様にして行なうことができる。

【００３９】例えば、話者認識を行なうとき、利用者
が、自己の端末，例えば１１−１の指定手段２から、例
えば、話者認識を行なう旨の指示を入力すると、この指
定情報は、通信手段１３−１を介して中央装置１２に伝
えられ、中央装置１２では、切替部８を話者認識部７側
に切替設定する。次いで、この利用者が、指定手段２か
ら所定の指定情報，例えば(利用者Ｄ)を入力すると、こ
の指定情報は、通信手段１３−１を介して中央装置１２
に伝えられる。また、この際、利用者Ｄは、予め決めら
れた特定の言葉を発声する。この音声は、音声入力手段
１から入力し、例えば音声区間検出部３から音声信号と
して出力され、通信手段１３−１を介して中央装置１２
に伝えられる。中央装置１２では、伝送された音声信号
を特徴抽出部４により、特徴量(特徴パターン)に変換
し、話者認識部７に与える。

【００４０】これにより、話者認識部７は、指定手段２
から伝送された指定情報(利用者Ｄ)に対応させて登録さ
れている標準パターンを話者認識用情報記憶部５から取
り出し、この標準パターンと特徴抽出部４からの特徴パ
ターンとを照合して、その類似度を算出し、この類似度
が所定基準値(しきい値)よりも高いか低いかを判定す
る。この結果、類似度が低いと判定されたときには、利
用者が正規の話者本人Ｄではないと判別し、この利用者
による利用を拒絶する。これに対し、類似度が高いと判
定されたときには、利用者が正規の話者本人Ｄであると
判別し、利用者による利用を許可する。すなわち、利用
者によるアプリケーション(例えば入出金，残高照会な
どの処理)の利用を許可する。

【００４１】このように、第１の構成例の話者認識シス
テムでは、利用者の自宅あるいは会社等に設置されてい
る端末(例えば電話装置)を用いて、銀行などに設置され
ている中央装置(例えば話者認識装置ユニット)にアクセ
スして、話者認識を行なわせ、話者認識の結果、本人で
あることが確認された後、入出金，残高照会などのアプ
リケーションを利用することができる。すなわち、利用
者は、銀行等にその都度出向かずとも、自宅や会社など
から銀行等の話者認識装置ユニットに話者認識を行なわ
せ、銀行等のアプリケーションを利用することができ
る。

【００４２】特に、この第１の構成例では、利用者側の
端末としては、単に、音声入力手段１(あるいは、これ
とともに指定手段２)だけが備わったものであっても良
く、従って、端末として、通常の電話器，携帯電話を用
いることができる。すなわち、電話器のハンドセットの
送話器を音声入力手段１として用い、また、電話器の操
作部(プッシュホン電話器のテンキー部)を指定手段２と
して用いることができる。

【００４３】但し、この第１の構成例では、音声入力手
段１(あるいは音声区間検出部３)からの音声信号を通信
手段(例えば電話回線や無線)を介して中央装置１２に送
信するため、通信手段(電話回線や無線)の品質や通信環
境などが悪い場合には、通信手段を伝送中に、音声信号
に雑音が混入したり、音声信号が劣化し、中央装置１２
において話者認識を正しく行なうことができず、本人で
あるにもかかわらず、本人でないと判別されてアプリケ
ーションを利用できないといった事態が考えられる。ま
た、音声信号には、これをデジタル信号に変換してもデ
ータ量が多く、従って、音声信号を通信手段(電話回線)
を介して中央装置に送信する場合、相当の伝送時間を要
してしまうという問題も考えられる。

【００４４】図６は本発明に係る話者認識システムの第
２の構成例を示す図であり、この第２の構成例では、第
１の構成例における上記のような問題を回避することを
意図している。すなわち、この第２の構成例において
も、少なくとも１つの端末３１−１〜３１−ｎと中央装
置３２とが、情報を送受信可能に設けられている(例え
ば有線あるいは無線の通信手段３３−１〜３３−ｎによ
って通信可能に設けられている)が、この第２の構成例
では、音声入力手段１(さらには音声区間検出部３)，特
徴抽出部４が端末側に設けられ、また、話者認識管理手
段１０，話者認識部７が中央装置３２に設けられてい
る。

【００４５】図７は図６の話者認識システムの具体例を
示す図である。なお、図７では、簡単のため、１つの端
末３１−１だけが図示されているが、他の端末３１−２
〜３１−ｎも、端末３１−１と同様の構成のものである
とする。図７を参照すると、端末３１−１には、音声入
力手段１，指定手段２，音声区間検出部３，特徴抽出部
４が設けられ、さらに、端末３１−１には、中央装置３
２との間で情報を通信手段３３−１を介して送受信する
ための送受信インタフェース部３４−１が設けられてい
る。また、中央装置３２には、話者認識用情報記憶部
５，登録部６，話者認識部７，切替部８が設けられ、さ
らに、中央装置３２には、各端末３１−１〜３１−ｎと
の間で情報を送受信するための送受信インタフェース部
３５が設けられている。

【００４６】ここで、各端末３１−１〜３１−ｎとして
は、例えばパソコン(マイクロフォン，Ａ／Ｄ変換など
の音声取込機能を備えたパソコン)を用いることが可能
であって、各端末３１−１〜３１−ｎの利用者は、自己
の端末を、例えば自宅や会社において、保有することが
できる。より具体的に、各端末３１−１〜３１−ｎに
は、既存のパソコン(パソコン通信機能を備えたパソコ
ン)を用いることができ、この場合、図７の構成例にお
いて、端末３１−１の送受信インタフェース部３４−１
は、例えば、パソコンに内蔵されているモデムとして実
現され、また、音声入力手段１は、パソコンに設けられ
ているマイクロフォンで実現され、指定手段２はパソコ
ンのコンソールで実現され、音声区間検出部３，特徴抽
出部４は、パソコンに搭載されるソフトウェア，例え
ば、音声区間検出ソフト，特徴抽出ソフトとして実現さ
れる。

【００４７】また、図７の構成例において、中央装置３
２の送受信インタフェース３５には、例えば交換器を用
いることができる。また、登録部６，話者認識部７は、
この中央装置に搭載される登録ソフト，話者認識ソフト
(話者認識プログラム)として実現され、話者認識用情報
記憶部５には、中央装置３２に設けられているメモリを
用いることができる。また、切替部８は、例えば、端末
からの指示が標準パターンの登録(あるいは変更)である
か、話者認識であるかに応じて、登録ソフトを実行する
か、話者認識ソフトを実行するかを選択する選択プログ
ラムとして構成できる。

【００４８】また、図７の構成例においても、図４の構
成例と同様、話者認識用情報記憶部５には、図５に示し
たように、標準パターンの他に、標準パターンの更新日
時，類似度のしきい値などの各種の付随情報が記憶され
ても良い。この場合、例えば、話者認識部７は、ある話
者の音声の特徴パターンを、話者認識用情報記憶部５に
記憶されている標準パターンと照合して、この話者の特
徴パターンと標準パターンとの類似度を求めたとき、こ
の標準パターンに対応するしきい値(付随情報)を話者認
識用情報記憶部５から読出し、上記類似度がこのしきい
値よりも高いか低いかにより、この話者が本人であるか
否かを判別することができる。

【００４９】このような第２の構成例の話者認識システ
ムにおいても、標準パターンの登録(さらには標準パタ
ーンの変更あるいは更新)，話者認識を行なうために、
利用者は、利用者の家庭や会社等に設置されている端末
を操作することによって、例えば銀行の窓口などに設置
されている話者認識装置ユニットに対し、標準パターン
の登録操作，話者認識操作を、前述したと同様にして行
なうことができる。

【００５０】例えば、話者認識を行なうとき、利用者
は、自己の端末，例えば３１−１の指定手段２から、例
えば、話者認識を行なう旨の指示を入力すると、この指
定情報は、通信手段３３−１を介して中央装置３２に伝
えられ、中央装置３２では、切替部８を話者認識部７側
に切替設定する。次いで、この利用者が、指定手段２か
ら所定の指定情報，例えば(利用者Ｄ)を入力すると、こ
の指定情報は、通信手段３３−１を介して中央装置３２
に伝えられる。また、この際、利用者Ｄは、予め決めら
れた特定の言葉を発声する。この音声は、音声入力手段
１から入力し、例えば音声区間検出部３から音声信号と
して出力され、特徴抽出部４で特徴量に変換されて、通
信手段３３−１を介して中央装置３２に伝えられる。中
央装置３２では、伝送された特徴量(特徴パターン)信号
を話者認識部７に与える。

【００５１】これにより、話者認識部７は、指定手段２
から伝送された指定情報(利用者Ｄ)に対応させて登録さ
れている標準パターンを話者認識用情報記憶部５から取
り出し、この標準パターンと特徴量(特徴パターン)とを
照合して、その類似度を算出し、この類似度が所定基準
値よりも高いか低いかを判定する。この結果、類似度が
低いと判定されたときには、利用者が正規の話者本人Ｄ
ではないと判別し、この利用者による利用を拒絶する。
これに対し、類似度が高いと判定されたときには、利用
者が正規の話者本人Ｄであると判別し、利用者による利
用を許可する。すなわち、利用者によるアプリケーショ
ン(例えば入出金，残高照会などの処理)の利用を許可す
る。

【００５２】このように、第２の構成例の話者認識シス
テムにおいても、利用者の自宅あるいは会社等に設置さ
れている端末(例えばパソコン)を用いて、銀行などに設
置されている中央装置(例えば話者認識装置ユニット)に
アクセスして、話者認識を行なわせ、話者認識の結果、
本人であることが確認された後、入出金，残高照会など
のアプリケーションを利用することができる。すなわ
ち、利用者は、銀行等にその都度出向かずとも、自宅や
会社などから銀行等の話者認識装置ユニットに話者認識
を行なわせ、銀行等のアプリケーションを利用すること
ができる。

【００５３】また、この第２の構成例では、利用者側の
端末として、既存のパソコン(パソコン通信機能を備え
たパソコン)を用いることができる。

【００５４】さらに、この第２の構成例では、特徴抽出
部４からの特徴量(特徴パターン)を通信手段(例えば電
話回線や無線など)を介して中央装置３２に送信するよ
うにしているので、通信手段(電話回線や無線など)の品
質や通信環境が多少悪い場合でも、特徴量(特徴パター
ン)信号は、音声信号を送信する場合に比べて、影響を
受けにくく、従って、中央装置３２において、話者認識
をより正しく行なうことができる。また、特徴量(特徴
パターン)信号は、音声信号に比べてデータ量がはるか
に少なく、特徴量(特徴パターン)信号を中央装置３２に
送信する場合には、音声信号を送信する場合に比べて、
送信時間を著しく短縮することができる。

【００５５】さらに、この第２の構成例では、端末側
に、音声区間検出部３，特徴抽出部４が設けられている
ことによって、利用者は、自己の声の特性に適合するよ
う、音声区間検出部３の特性，特徴抽出部４の特性を管
理することができる。例えば、自己の声の音量や音質に
合わせて、音声区間検出の感度(声の大きさのしきい値)
などを調整したりすることができる。

【００５６】また、上述の第１，第２の構成例において
は、話者認識部７(話者認識ソフト)については、端末側
ではなく、中央装置側に設けられていることによって
(すなわち、話者認識部７に関しては中央装置の１ヵ所
で一括(集中)管理することによって)、例えば、利用者
側の端末の性能(例えば端末に搭載されるソフトウェア
の性能)によって認識結果が左右されたりするのを回避
し、どのような精度，性能の端末が用いられる場合で
も、中央装置側において、常に、一定の認識精度で話者
認識を行なうことができる。

【００５７】また、新たな話者認識方式が開発され、こ
の新たな話者認識方式を導入する場合、中央装置の話者
認識部７，すなわち中央装置の話者認識ソフトを入れ替
えるだけで、以後全ての認識を新たな認識方式で行なう
ことができて、この新たな話者認識方式の導入，すなわ
ちバージョンアップを簡単に(容易に)行なうことができ
る。

【００５８】このように、上述の構成例では、仮に端末
に話者認識ソフトが搭載されていたとしても、あるい
は、話者認識ソフトが搭載されていなくても、中央装置
側の話者認識ソフトを利用するため、安定した信頼度の
高い話者認識が可能になる。また、中央装置側の話者認
識ソフトを入れ替えるだけで、以後全ての認識を新しい
話者認識ソフトで行なうことができることから、そのメ
ンテナンス(例えばバージョンアップ)をも容易に行なう
ことができる。

【００５９】なお、第１，第２の構成例では、上述した
ように、端末側に、音声区間検出部３，特徴抽出部４が
設けられていることによって、利用者は、自己の声の特
性に適合するよう、音声区間検出部３の特性，特徴抽出
部４の特性を管理することができるという利点を有して
いるが、その反面、音声区間検出，特徴抽出等の処理と
話者認識の処理とが、端末側と中央装置側とで分散して
なされるため、中央装置側の管理者は、正規の利用者を
正規の利用者と認めなかったり、他人を正規の利用者と
認識したりする、いわゆる誤認識が発生する場合に、こ
の原因を中央装置側だけで一括管理することができな
い。例えば、この原因が、端末の音声区間検出，特徴抽
出によるものか、中央装置の話者認識によるものかを、
中央装置側だけで判別することができない。

【００６０】誤認識を生じさせる原因としては、例え
ば、話者が発生した言葉の語頭や語尾が弱く、音声区間
検出が正常に行なわれず、特徴パターン上で、この部分
が欠落していることがあり、話者がこれに気付かずに何
回言い直しても同じような結果になってしまうという場
合があり、このときには、何回やり直しても正しい認識
ができない。

【００６１】このような問題を回避するため、第１，第
２の構成例において、例えば中央装置３２(例えば話者
認識管理手段１０または話者認識部７)から端末，例え
ば３１−１に所定の情報を提供し、端末３１−１の音声
区間検出部３や特徴抽出部４は、中央装置３２から提供
された情報に基づいて、音声区間検出や特徴量変換を行
なうことも可能である。

【００６２】例えば、中央装置３２側からは、情報とし
て、例えば音声区間検出の感度指示情報を提供すること
ができる。

【００６３】この場合、端末側において、利用者が当初
音声を発声し、この音声が音声区間検出されるときに、
音声区間と判定された前後に、例えば０．５秒程度のデ
ータを付加し、このデータをも含めた音声区間内の音声
信号を、そのまま端末側のファイル(図示せず)に保存す
る。このようにして、端末側で利用者の音声信号がファ
イルに保存された後、これを特徴量(特徴パターン)に変
換して中央装置に送信し、中央装置の話者認識部７で話
者認識を行なわせる。話者認識の結果、利用者本人では
ないと判定された場合、中央装置３２側では、例えば、
話者認識用情報記憶部５に付随情報として記憶されてい
る音声区間検出の感度(声の大きさのしきい値等)を高め
て、これを端末側に、情報として提供(送信)し、端末側
において、ファイルに保存されている音声信号に対して
再度、音声区間検出を行なわせる。また、話者認識用情
報記憶部５に付随情報として記憶されている音声区間検
出の感度を下げて、これを端末側に、情報として提供
(送信)し、端末側において、ファイルに保存されている
音声信号に対して再度、音声区間検出を行なわせる。

【００６４】このようにして、音声区間検出の感度を高
めた場合と下げた場合とで、それぞれ話者認識を行な
い、いずれかで正しい話者であることが判定されれば、
この利用者を正しい話者であると認識することができ
る。このように、音声区間検出の感度を高めることによ
って、例えば話者の声が小さい場合に、音声区間が正し
く検出されないという事態(検出漏れを起こすという事
態)が生じていたのを、改善することができ、また、音
声区間検出の感度を下げることによって、例えば話者の
音声の前後に雑音が生じるような場合に、音声区間検出
部が実際よりも長い音声を検出してしまうという事態が
生じていたのを、改善することができる。

【００６５】上述の例では、中央装置３２側から端末側
に提供する情報として、音声区間検出の感度を例にとっ
たが、第２の構成例においては、特徴量変換のサンプリ
ング周波数を情報として端末側に提供することもでき、
この場合には、端末側では、中央装置３２からの情報に
よって特徴量変換のサンプリング周波数を変えることが
できる。さらに、中央装置３２側から端末側には、上記
以外の種々の情報を提供することもできる。

【００６６】このように、端末に、中央装置から所定情
報を与えることで、話者認識のみならず、必要に応じ
て、話者認識のための音声区間検出や特徴抽出などを
も、中央装置側から管理，制御することができる。

【００６７】上述の各構成例の説明では、話者認識を行
なう場合について述べたが、標準パターンの新規登録や
変更，更新についても、端末側から同様にして行なうこ
とができる。なお、中央装置側において、話者認識に用
いたデータによって、自動的に標準パターンを更新する
機能が備わっている場合は、端末側からの操作を行なわ
ずとも、中央装置側で、自動的に標準パターンの更新を
行なうことができる。

【００６８】また、上述した各構成例において、ある端
末から中央装置に通信手段(有線あるいは無線)を介して
伝送される音声信号あるいは特徴量(特徴パターン)信号
を、この端末の利用者以外の他人が例えば通信手段から
盗聴し、盗聴した音声信号あるいは特徴量(特徴パター
ン)信号を、この他人が正規の利用者になりすまして、
中央装置に送信して話者認識を行ない、正規の話者用の
アプリケーションを利用したりすることも考えられる。

【００６９】このような他人による悪用を防止するた
め、上述の各構成例において、端末から音声信号あるい
は特徴量(特徴パターン)信号を、通信手段によって、中
央装置に送信する際、端末側において、送信しようとす
る音声信号あるいは特徴量(特徴パターン)信号を暗号化
し、暗号化した音声信号あるいは特徴量(特徴パターン)
信号を、通信手段を介して、中央装置に送信するように
することもできる。

【００７０】図８は図３の話者認識システム(第１の構
成例の話者認識システム)において、音声入力手段１(あ
るいは音声区間検出手段２)から出力される音声信号を
暗号化して中央装置に送信する話者認識システムの構成
例を示す図である。図８を参照すると、この話者認識シ
ステムでは、端末において、音声入力手段１(あるいは
音声区間検出手段２)から出力される音声信号を暗号化
するための暗号化手段６０がさらに設けられている。

【００７１】また、図９は図８の具体例を示すものであ
り、図４の話者認識装置に対応したものとなっている。
図９を参照すると、この話者認識システムでは、端末，
例えば１１−１において、暗号化手段６０が音声区間検
出部３の後段に設けられている。

【００７２】また、図８，図９において、中央装置１２
には、端末の暗号化手段６０に与えるための暗号情報を
生成する暗号情報生成手段６１と、端末の暗号化手段６
０によって暗号化されて端末から送信された音声信号を
暗号情報生成手段６１によって生成された暗号情報に基
づいて復号化する復号化手段６２とが、さらに設けられ
ている。

【００７３】このような構成の話者認識システムでは、
中央装置１２は、端末，例えば１１−１から話者認識の
対象となる音声信号が送信されるに先立って、暗号情報
生成手段６１で暗号情報(例えば、暗号鍵)を生成し、音
声信号が送信されようとしている端末１１−１に暗号情
報を提供する。なお、端末１１−１に提供した暗号情報
は、この端末１１−１からの音声信号(この暗号情報に
より暗号化された音声信号)に対して復号化処理を施す
ために、中央装置１２において保存される。

【００７４】このようにして、中央装置１２から端末１
１−１に暗号情報が提供された後、端末の暗号化手段６
０では、中央装置１２から提供された暗号情報に基づい
て音声信号を暗号化して中央装置１２に送信する。中央
装置１２では、この端末からの暗号化された音声信号を
受信すると、復号化手段６２により、端末１１−１に提
供されたと同じ暗号情報を用いて、暗号化された音声信
号を元の音声信号に復元し、しかる後、この音声信号か
ら特徴量(特徴パターン)を抽出して、話者認識を行な
う。

【００７５】このように、この構成例では、端末１１−
１から音声信号を暗号化して、通信手段１３−１を介
し、中央装置１２に送信するので、他人が通信手段１３
−１からこれを盗聴しても、この他人は暗号情報を知ら
ない限り、これから音声信号を抽出することができず、
従って、利用者の音声信号が他人に盗まれて他人によっ
て悪用されるという事態を有効に防止することができ
る。

【００７６】なお、中央装置１２において、暗号情報
(暗号鍵)は、端末との通信の度に更新(変更)生成され
て、端末に提供され、また、復号化手段６２で用いられ
るのが望ましい。これにより、端末からの音声信号は、
毎回、異なった暗号情報によって暗号化され、従って、
盗聴によって盗まれた信号は、次回以後、中央装置１２
によって正しく復号化(復元)されず、正しい話者認識が
できなくなるので、他人による盗用を確実に防止するこ
とができる。

【００７７】図１０は図６の話者認識システム(第２の
構成例の話者認識システム)において、特徴抽出部４か
ら出力される特徴量(特徴パターン)信号を暗号化して中
央装置に送信する話者認識システムの構成例を示す図で
ある。図１０を参照すると、この話者認識システムで
は、端末において、特徴抽出部４から出力される特徴量
(特徴パターン)信号を暗号化する暗号化手段７０がさら
に設けられている。

【００７８】また、図１１は図１０の具体例を示すもの
であり、図７の話者認識装置に対応したものとなってい
る。図１１を参照すると、この話者認識システムでは、
端末，例えば３１−１において、暗号化手段７０が特徴
抽出部４の後段に設けられている。また、中央装置３２
においては、端末の暗号化手段７０に与えるための暗号
情報を生成する暗号情報生成手段７１と、端末の暗号化
手段７０によって暗号化されて端末から送信された特徴
量(特徴パターン)信号を暗号情報生成手段７１によって
生成された暗号情報に基づいて復号化する復号化手段７
２とが、さらに設けられている。

【００７９】このような構成の話者認識システムでは、
中央装置３２は、端末，例えば３１−１から話者認識の
対象となる特徴量(特徴パターン)信号が送信されるに先
立って、暗号情報生成手段７１で暗号情報(例えば、暗
号鍵)を生成し、特徴量(特徴パターン)信号が送信され
ようとしている端末３１−１に暗号情報を提供する。な
お、端末３２−１に提供した暗号情報は、この端末から
の特徴量(特徴パターン)信号(この暗号情報により暗号
化された特徴量(特徴パターン)信号)に対して復号化処
理を施すために、中央装置３２において保存される。

【００８０】このようにして、中央装置３２から端末３
１−１に暗号情報が提供された後、端末３１−１の暗号
化手段７０では、中央装置３２から提供された暗号情報
に基づいて特徴量(特徴パターン)信号を暗号化して中央
装置３２に送信する。中央装置３２では、この端末３１
−１からの暗号化された特徴量(特徴パターン)信号を受
信すると、復号化手段７２により、端末３１−１に提供
されたと同じ暗号情報を用いて、暗号化された特徴量
(特徴パターン)信号を元の特徴量(特徴パターン)信号に
復元し、しかる後、この特徴量(特徴パターン)信号によ
り、話者認識を行なう。

【００８１】このように、この構成例では、端末３１−
１から特徴量(特徴パターン)信号を暗号化して、通信手
段３３−１を介し、中央装置３２に送信するので、他人
が通信手段３３−１からこれを盗聴しても、この他人は
暗号情報を知らない限り、これから特徴量(特徴パター
ン)信号を抽出することができず、従って、利用者の特
徴量(特徴パターン)信号が他人に盗まれて他人によって
悪用されるという事態を有効に防止することができる。

【００８２】また、中央装置３２において、暗号情報
(暗号鍵)は、端末との通信の度に更新(変更)生成され
て、端末に提供され、また、復号化手段７２で用いられ
るのが望ましい。これにより、端末からの特徴量(特徴
パターン)信号は、毎回、異なった暗号情報によって暗
号化され、従って、盗聴によって盗まれた信号は、次回
以後、中央装置３２によって正しく復号化(復元)され
ず、正しい話者認識ができなくなるので、他人による盗
用を確実に防止することができる。

【００８３】上述の各構成例では、音声区間抽出部３の
後に、特徴抽出部４が設けられているが、必要に応じ、
音声区間抽出部３の前に、特徴抽出部４が設けられるよ
うに構成することも可能である。

【００８４】また、上述の各構成例において、端末１１
−１，３１−１は、中央装置１２，３２に音声信号ある
いは特徴量(特徴パターン)信号を送信する際、音声信号
あるいは特徴量(特徴パターン)信号を一旦ファイルに蓄
積し、ファイルに蓄積した音声信号あるいは特徴量(特
徴パターン)信号を中央装置１２，３２に送信するよう
になっていても良い。また、この場合、図８乃至図１１
の構成例において、暗号化手段６０，７０では、ファイ
ルの前段に設けられても良いし、ファイルの後段に設け
られても良い。

【００８５】また、図８〜図１１の各構成例において、
暗号情報として暗号鍵を用いた暗号化の手法には、すで
に実用化されている様々な方法が利用可能である。例え
ば、図１０，図１１の構成例の場合、中央装置３２から
は、暗号鍵として１つの数字を送信することができ、こ
の場合、端末では、この数字の値に基づいて特徴量情報
の並び替えを行なえば良い。簡単な方法としては、例え
ば、特徴量情報がｐ₁，…，ｐ_i，…，ｐ_nのｎ個の数値
で構成され、中央装置３２から暗号鍵として数値Ｃが送
信されてきた場合、端末は特徴量情報をＣ番目の数値か
ら順に、ｐ_C，ｐ_C+1，…のように送信し、ｐ_nまで到達
したらｐ₁に戻り、ｐ_C-1までｎ個の数値を送信するとい
うように、特徴量情報に対して暗号化を施すことができ
る。

【００８６】より具体的に、例えば、特徴量情報が
ｐ₁，…，ｐ₁₆の１６個の数値で構成され、暗号鍵とし
て中央装置３２から“５”が送信されてきた場合、端末
は１６個の数値を、ｐ₅，ｐ₆，ｐ₇，ｐ₈，ｐ₉，ｐ₁₀，
ｐ₁₁，ｐ₁₂，ｐ₁₃，ｐ₁₄，ｐ₁₅，ｐ₁₆，ｐ₁，ｐ₂，
ｐ₃，ｐ₄のように順番を入れ替えて送信する。

【００８７】上記例では、簡単な暗号化の例を示した
が、暗号化の手法はこの例に限定されるものではなく、
さらに高度な暗号化の手法を利用すれば、盗用に対して
より効果的な防護を行なうことが可能となる。

【００８８】例えば、公開鍵方式と呼ばれる手法では、
２つの暗号鍵ＣとＣ’を用い、受信側はこれらの２つの
鍵を作成し、１つ(公開鍵)を送信側へ暗号化のために伝
送し、他方を手元に復号化のために保管する。これらの
２つの暗号鍵は、互いに他方の鍵によって暗号化された
情報を復号することは可能であるが、自身によって暗号
化された情報は復号することは出来ず、また一方の暗号
鍵から他方の暗号鍵を作成・類推することは困難である
ように構成されている。

【００８９】従って、本発明に公開鍵方式を応用するに
は、中央装置の暗号情報生成手段でこれら２つの鍵を生
成し、そのうちの１つＣを端末へ送信し、もう１つの鍵
Ｃ’を復号化手段で復号化に使用するために保管する。
端末では音声信号あるいは音声の特徴量信号を中央装置
からの鍵Ｃによって暗号化し、中央装置へ送信する。中
央装置では、保管されている鍵Ｃ’を用いて、端末から
の暗号化された音声信号あるいは音声の特徴量信号を復
号化する。この構成により、盗聴などの行為によって、
端末からの暗号化された音声信号あるいは音声の特徴量
信号のみならず、中央装置から端末への暗号情報(暗号
鍵)が盗まれたとしても、鍵Ｃは復号化を行うことは出
来ないから、中央装置に保管されている鍵Ｃ’が盗まれ
ない限り、端末からの暗号化された音声信号あるいは音
声の特徴量信号は復元できず、暗号情報(暗号鍵)の送信
毎の更新と組み合わせることで、盗用に対してより効果
的な防護を行うことが可能になる。

【００９０】また、上述の説明では、話者認識の対象と
なる音声信号あるいは特徴量(特徴パターン)信号に対し
て暗号化を施すとしたが、標準パターン登録用の音声信
号あるいは特徴量(特徴パターン)信号に対しても同様に
して暗号化を施して中央装置に送信することができる。
さらに、話者認識システムが、標準パターンの変更，更
新を端末側からの操作によって行なう機能を有している
場合には、標準パターンの変更，更新用の音声信号ある
いは特徴量(特徴パターン)信号に対しても同様にして暗
号化を施して中央装置に送信することができる。

【００９１】

【発明の効果】以上に説明したように、請求項１乃至請
求項１０記載の発明によれば、例えば利用者の自宅ある
いは会社等に設置されている端末を用いて、銀行などに
設置されている中央装置にアクセスして、話者認識を行
なわせ、話者認識の結果、本人であることが確認された
後、入出金，残高照会などのアプリケーションを利用す
ることができる。また、仮に端末に話者認識ソフトが搭
載されていたとしても、あるいは、話者認識ソフトが搭
載されていなくても、中央装置側の話者認識ソフトを利
用するため、安定した信頼度の高い話者認識が可能にな
る。また、中央装置側の話者認識ソフトを入れ替えるだ
けで、以後全ての認識を新しい話者認識ソフトで行なう
ことができることから、そのメンテナンス(例えばバー
ジョンアップ)をも容易に行なうことができる。

【００９２】特に、請求項１，請求項７記載の発明によ
れば、端末としては、単に、音声入力手段(あるいは、
これとともに指定手段)だけが備わったものであっても
良く、従って、端末として、通常の電話器，携帯電話を
用いることができる。

【００９３】また、請求項２，請求項８記載の発明によ
れば、特徴抽出部からの特徴量(特徴パターン)を通信手
段(例えば電話回線や無線など)を介して中央装置に送信
するようにしているので、通信手段(電話回線や無線な
ど)の品質や通信環境が多少悪い場合でも、特徴量(特徴
パターン)信号は、音声信号を送信する場合に比べて、
影響を受けにくく、従って、中央装置において、話者認
識をより正しく行なうことができる。また、特徴量(特
徴パターン)信号は、音声信号に比べてデータ量がはる
かに少なく、特徴量(特徴パターン)信号を中央装置に送
信する場合には、音声信号を送信する場合に比べて、送
信時間を著しく短縮することができる。

【００９４】また、請求項３，請求項９記載の発明によ
れば、端末に、中央装置から所定情報を与えることで、
話者認識のみならず、必要に応じて、話者認識のための
音声区間検出や特徴抽出などをも、中央装置側から管
理，制御することができる。

【００９５】また、請求項４，請求項５，請求項１０記
載の発明によれば、端末において音声信号あるいは特徴
量(特徴パターン)信号を暗号化して中央装置に送信する
ので、他人が通信手段からこれを盗聴しても、この他人
は暗号情報を知らない限り、これから音声信号，特徴量
(特徴パターン)信号を抽出することができず、従って、
利用者の音声信号，特徴量(特徴パターン)信号が他人に
盗まれて他人によって悪用されるという事態を有効に防
止することができる。

【００９６】また、請求項６記載の発明によれば、端末
からの音声信号あるいは特徴量(特徴パターン)信号は、
毎回、異なった暗号情報によって暗号化され、従って、
盗聴によって盗まれた信号は、次回以後、中央装置によ
って正しく復号化(復元)されず、正しい話者認識ができ
なくなるので、他人による盗用を確実に防止することが
できる。

【図面の簡単な説明】

【図１】一般的な話者認識システムの構成例を示す図で
ある。

【図２】話者認識用情報記憶部の構成例を示す図であ
る。

【図３】本発明に係る話者認識システムの第１の構成例
を示す図である。

【図４】図３の話者認識システムの具体例を示す図であ
る。

【図５】話者認識用情報記憶部の構成例を示す図であ
る。

【図６】本発明に係る話者認識システムの第２の構成例
を示す図である。

【図７】図６の話者認識システムの具体例を示す図であ
る。

【図８】本発明に係る話者認識システムの他の構成例を
示す図である。

【図９】図８の話者認識システムの具体例を示す図であ
る。

【図１０】本発明に係る話者認識システムの他の構成例
を示す図である。

【図１１】図１０の話者認識システムの具体例を示す図
である。

【符号の説明】

１音声入力手段２指示手段３音声区間検出部４特徴抽出部５話者認識用情報記憶部６登録部７話者認識部８切替部１０話者認識管理手段１１，３１端末１２，３２中央装置１３，３３通信手段６０，７０暗号化手段６１，７１暗号情報生成手段６２，７２復号化手段

Claims

【特許請求の範囲】

【請求項１】少なくとも１つの端末と中央装置とが、
情報を送受信可能に設けられており、前記端末には、話
者の音声を入力し音声信号とする音声入力手段が設けら
れ、また、前記中央装置には、音声信号の特徴量を抽出
する特徴抽出手段と、話者認識用の情報を管理する話者
認識管理手段と、前記特徴抽出手段から話者の音声の特
徴量と前記話者認識管理手段によって管理されている話
者認識用情報とを照合して話者認識を行なう話者認識手
段とが設けられており、前記端末から前記中央装置に、
音声信号を転送するようになっていることを特徴とする
話者認識システム。
【請求項２】少なくとも１つの端末と中央装置とが、
情報を送受信可能に設けられており、前記端末には、話
者の音声を入力し音声信号とする音声入力手段と、音声
信号の特徴量を抽出する特徴抽出手段とが設けられ、ま
た、前記中央装置には、話者認識用の情報を管理する話
者認識管理手段と、話者の音声の特徴量と該話者認識管
理手段によって管理されている話者認識用情報とを照合
して話者認識を行なう話者認識手段とが設けられてお
り、前記端末から中央装置に、話者の音声の特徴量を転
送するようになっていることを特徴とする話者認識シス
テム。
【請求項３】請求項２記載の話者認識システムにおい
て、さらに、前記中央装置から端末には、所定の情報が
転送され、前記端末に設けられている特徴抽出手段は、
中央装置から提供された情報に基づいて、入力された音
声を特徴量に変換することを特徴とする話者認識システ
ム。
【請求項４】請求項１または請求項２記載の話者認識
システムにおいて、前記端末には、音声入力手段からの
音声信号または特徴抽出手段からの特徴量を所定の暗号
情報に基づいて暗号化する暗号化手段がさらに設けられ
ており、前記端末は、音声入力手段からの音声信号また
は特徴抽出手段からの特徴量を所定の暗号情報に基づい
て暗号化して、前記中央装置に転送することを特徴とす
る話者認識システム。
【請求項５】請求項４記載の話者認識システムにおい
て、前記中央装置には、暗号情報を生成する暗号情報生
成手段と、復号化手段とが設けられており、前記端末の
暗号化手段は、前記中央装置の暗号情報生成手段によっ
て生成された暗号情報が中央装置から提供されるとき、
該暗号情報に基づいて、音声入力手段からの音声信号ま
たは特徴抽出手段からの特徴量に暗号化を施し、また前
記中央装置では、端末から暗号化された音声信号または
特徴量が転送されるとき、該暗号化された音声信号また
は特徴量を前記暗号情報に基づいて復号化手段によって
復号化するようになっていることを特徴とする話者認識
システム。
【請求項６】請求項４または請求項５記載の話者認識
システムにおいて、前記暗号情報は、前記端末から前記
中央装置への通信毎に、異なるものが用いられることを
特徴とする話者認識システム。
【請求項７】少なくとも１つの端末と中央装置とが、
情報を送受信可能に設けられており、前記端末に話者が
音声を入力すると、話者の音声信号は中央装置に転送さ
れ、前記中央装置では、前記端末から転送された話者の
音声信号から特徴量を抽出し、該特徴量と該中央装置に
予め管理されている話者認識用情報とを照合して話者認
識を行なうことを特徴とする話者認識方法。
【請求項８】少なくとも１つの端末と中央装置とが、
情報を送受信可能に設けられており、前記端末に話者が
音声を入力すると、話者の音声信号は特徴量に変換され
て中央装置に転送され、前記中央装置では、前記端末か
ら転送された話者の音声の特徴量と該中央装置に予め管
理されている話者認識用情報とを照合して話者認識を行
なうことを特徴とする話者認識方法。
【請求項９】請求項８記載の話者認識方法において、
前記端末において特徴量の変換処理がなされるに先立っ
て、前記中央装置から端末には所定の情報が転送され、
前記端末は、中央装置から提供された情報に基づいて、
入力された音声信号を特徴量に変換することを特徴とす
る話者認識方法。
【請求項１０】請求項７または請求項８記載の話者認
識方法において、前記端末は、さらに、音声信号または
特徴量に所定の暗号情報に基づいて暗号化を施して、前
記中央装置に転送することを特徴とする話者認識方法。