JP3601631B2

JP3601631B2 - 話者認識システムおよび話者認識方法

Info

Publication number: JP3601631B2
Application number: JP29892795A
Authority: JP
Inventors: 潤一郎藤本; 達生宮地
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-10-24
Filing date: 1995-10-24
Publication date: 2004-12-15
Anticipated expiration: 2015-10-24
Also published as: JPH09120293A

Description

【０００１】
【発明の属する技術分野】
本発明は、話者認識を行なう話者認識システムおよび話者認識方法に関する。
【０００２】
【従来の技術】
従来、銀行などにおいて、例えば入出金，残高照会などのアプリケーションを利用者が利用する際、この利用者が正規の利用者本人であることを確認するために、暗証番号などを利用者に入力させるようにしている。また、コンピュータでは、パスワードと称して、暗証番号と同様の暗証文字列を利用者に入力させることによって本人の確認を行なっている。しかしながら、このような暗証番号や暗証文字列などの入力による確認は、他人が、暗証番号や暗証文字列を知りさえすれば、難無く、これを盗用することができる。しかも、暗証番号や暗証文字列は、それを登録した者（本人）の生年月日や記念日、あるいは電話番号、氏名の綴りなどを利用したものが多く、他人がこれを見破ることは差程難しいことではない。
【０００３】
暗証番号や暗証文字列のこのような欠点を回避するため、近年、声によって本人か否かを判定する、いわゆる話者認識が着目されている。この話者認識は、ある話者が発声した音声の特徴量（特徴パターン）が、予め登録されているこの話者の音声標準パターンと一致するか否かを調べることにより、本人か否かを判定（認識）するものである。すなわち、話者の音声から抽出した特徴量（特徴パターン）とこの話者の音声標準パターンとの類似度を計算し、類似度の高低によって本人か否かを判定するものであり、人間の肉体的特徴を利用するものであることから、音声は、暗証番号や暗証文字列に比べて他人がこれを真似ることは難かしく、従って、他人の盗用をより有効に防止することができる。
【０００４】
【発明が解決しようとする課題】
しかしながら、このような話者認識システムは、従来一般的に、例えば銀行の窓口などに設置され、従って、話者認識を行なうためには、利用者は、その都度、銀行の窓口等へ出向かなければならないという問題があった。
【０００５】
本発明は、利用者が例えば銀行の窓口などに出向かずとも、話者認識を行なうことができ、銀行などで提供されている入出金，残高照会などのアプリケーションを利用することの可能な話者認識システムおよび話者認識方法を提供することを目的としている。
【０００６】
【課題を解決するための手段】
上記目的を達成するために、請求項１記載の発明は、少なくとも１つの端末と中央装置とが、情報を送受信可能に設けられており、端末には、話者の音声を入力し音声信号とする音声入力手段と、音声信号の特徴量を抽出する特徴抽出手段とが設けられ、また、中央装置には、話者認識用の情報を管理する話者認識管理手段と、話者の音声の特徴量と該話者認識管理手段によって管理されている話者認識用情報とを照合して話者認識を行なう話者認識手段とが設けられており、端末から中央装置には、話者の音声の特徴量を転送し、中央装置では、転送された特徴量に基づいて話者認識を行なうようになっており、話者認識の結果、利用者本人ではないと判定された場合、中央装置は、音声区間検出の感度または特徴量変換のサンプリング周波数を変えたものを情報として端末側に提供し、端末側では、提供された上記情報に基づき、利用者の音声信号を特徴量に変換して中央装置に送信することを特徴としている。
【０００９】
また、請求項２記載の発明は、請求項１記載の話者認識システムにおいて、端末には、音声入力手段からの音声信号または特徴抽出手段からの特徴量を所定の暗号情報に基づいて暗号化する暗号化手段がさらに設けられており、端末は、音声入力手段からの音声信号または特徴抽出手段からの特徴量を所定の暗号情報に基づいて暗号化して、中央装置に転送することを特徴としている。
【００１０】
また、請求項３記載の発明は、請求項２記載の話者認識システムにおいて、中央装置には、暗号情報を生成する暗号情報生成手段と、復号化手段とが設けられており、端末の暗号化手段は、中央装置の暗号情報生成手段によって生成された暗号情報が中央装置から提供されるとき、該暗号情報に基づいて、音声入力手段からの音声信号または特徴抽出手段からの特徴量に暗号化を施し、また中央装置では、端末から暗号化された音声信号または特徴量が転送されるとき、該暗号化された音声信号または特徴量を暗号情報に基づいて復号化手段によって復号化するようになっていることを特徴としている。
【００１１】
また、請求項４記載の発明は、請求項２または請求項３記載の話者認識システムにおいて、暗号情報は、端末から中央装置への通信毎に、異なるものが用いられることを特徴としている。
【００１３】
また、請求項５記載の発明は、少なくとも１つの端末と中央装置とが、情報を送受信可能に設けられており、前記端末に話者が音声を入力すると、前記端末は、話者の音声信号を特徴量に変換して中央装置に転送し、中央装置では、転送された特徴量に基づいて話者認識を行ない、話者認識の結果、利用者本人ではないと判定された場合、中央装置は、音声区間検出の感度または特徴量変換のサンプリング周波数を変えたものを情報として端末側に提供し、端末側では、提供された上記情報に基づき、利用者の音声信号を特徴量に変換して中央装置に送信することを特徴としている。
【００１５】
また、請求項６記載の発明は、請求項５記載の話者認識方法において、端末は、さらに、音声信号または特徴量に所定の暗号情報に基づいて暗号化を施して、中央装置に転送することを特徴としている。
【００１６】
【発明の実施の形態】
図１は一般的な話者認識システムの構成例を示す図である。図１を参照すると、この話者認識システムは、例えば銀行などにおける本人の確認を話者認識により行なうためのものであって、利用者の音声を入力するための音声入力手段（例えば、マイクロフォン）１と、利用者に所定の指定情報を入力させるための指定手段（例えばキーボード）２と、音声入力手段１から入力された信号の中から話者の音声の部分のみを音声区間として検出する音声区間検出部３と、音声区間検出部３で検出した音声区間内の音声信号から特徴量（特徴パターン）を抽出する特徴抽出部４と、話者認識を行なうに先立って話者の音声の標準的な特徴量（特徴パターン）を標準パターンとして話者認識用情報記憶部５に予め登録する登録部６と、利用者（話者）の音声の特徴量（特徴パターン）と話者認識用情報記憶部５に登録されている標準パターンとを照合し、その類似度に基づいて話者認識を行なう話者認識部７と、標準パターンの登録を行なう登録モードと話者認識を行なう認識モードとの切替を行なう切替部（例えばスイッチ）８とを有している。
【００１７】
ここで、特徴抽出部４は、音声信号を特徴量（特徴パターン）として、スペクトルに変換しても良いし、あるいはＬＰＣケプストラムに変換しても良く、特徴量の種類については特に限定するものではない。なお、スペクトルに変換するためには、特徴量変換にはＦＦＴを用い、また、ＬＰＣケプストラムに変換するためにはＬＰＣ分析などを用いるのがよい。
【００１８】
また、標準パターンの登録時（登録モード時）において、登録部６は、ある話者が発声した音声に基づいて特徴抽出部４で抽出された特徴量（特徴パターン）を標準パターンとして話者認識用情報記憶部５に登録する際、図２に示すように、この話者により指定手段２から入力された指定情報（例えば、この話者の名前や生年月日，あるいはこの話者の暗証番号など）と対応付けて、標準パターンを話者認識用情報記憶部５に登録することができる。換言すれば、話者認識用情報記憶部５には、話者認識に必要な話者認識用の情報が登録されるようになっており、また、この話者認識用情報記憶部５には、複数の話者（例えば利用者Ａ，Ｂ，Ｃ，Ｄ，…）の話者認識用情報が登録可能となっている。
【００１９】
また、話者認識用情報記憶部５に登録される音声の標準パターンとしては、この話者認識システムの使用形態等に応じて、各利用者（話者）に予め言葉を発声させたものであっても良いし、各利用者ごとにそれぞれ自由に所望の言葉を発声させたものであっても良い。
【００２０】
また、話者認識部７は、例えば、古井著「ディジタル音声処理」（東海出版会）などに記載されているように、現在の話者の音声の特徴パターンが話者認識用情報記憶部５に登録されている複数の話者の標準パターンのうちのどれに最も類似しているかを判定し、登録されている複数の話者のうちから１人の話者を識別する話者識別方式のものであっても良いし、話者認識用情報記憶部５に登録されている複数の話者の標準パターンから現在の話者に対応する標準パターンを取り出し、この標準パターンと現在の話者の特徴パターンとを照合し、その類似度が所定基準値（しきい値）よりも高いか低いかにより現在の話者が正規の話者本人であるか否かを判定する話者照合方式のものであっても良い。
【００２１】
さらに、話者認識部７は、話者認識用情報記憶部５に登録される音声の標準パターンが各利用者（話者）に予め言葉を発声させたものである場合には、これに対応した認識を行なうものにすることができ、また、話者認識用情報記憶部５に登録される音声の標準パターンが各利用者ごとにそれぞれ自由に所望の言葉を発声させたものである場合には、これに対応した認識を行なうものにすることができる。但し、各利用者（話者）に予め決められた言葉を発声させて話者認識を行なう場合、類似の判定基準（しきい値）を各話者に対して全て一定値にすることができるが、各利用者ごとにそれぞれ所望の言葉を発声させて話者認識を行なう場合には、類似の判定基準（しきい値）を各話者ごとに相違させることもできる。
【００２２】
以下では、説明の便宜上、話者認識システムは、各利用者（話者）に予め決められた言葉（特定の言葉）を発声させるものとし、また、話者認識部７では、話者照合方式の話者認識がなされるとする。なお、話者認識部７において、話者照合方式の話者認識がなされる場合、この話者認識時に、利用者（話者）は、指定手段２から登録モード時に入力した指定情報と同じ指定情報を入力する必要がある。これにより、話者認識部７では、話者認識用情報記憶部５に登録されている複数の話者の標準パターンのうちから現在の話者に対応する標準パターンを取り出すことができ、この標準パターンと現在の話者の音声の特徴パターンとの照合を行なうことができる。
【００２３】
このような構成の話者認識システムを利用者（例えばＤ）が始めて利用する場合、この利用者（話者）Ｄは、先ず、自己の音声を標準パターンとして登録する必要がある。このため、この利用者Ｄは、切替部（例えばスイッチ）８を操作して、特徴抽出部４を登録部６に接続し、登録モードに設定する。
【００２４】
次いで、利用者（話者）Ｄは、指定手段２から所定の指定情報，例えば（利用者Ｄ）を入力する。また、この際、利用者は、予め決められた特定の言葉を発声する。この音声は、音声入力手段１から入力し、音声区間検出部３，特徴抽出部４により、特徴量（特徴パターン）に変換され、この話者の音声の標準パターンとして、登録部６に与えられる。
【００２５】
これにより、登録部６は、この利用者（話者）Ｄの音声の標準パターンを指定手段２から入力された指定情報と対応付けて、話者認識用情報記憶部５に登録する。例えば過去に、この話者認識用情報記憶部５に複数の利用者（異なる利用者）Ａ，Ｂ，Ｃが自己の音声を標準パターンとして登録しており、現在の利用者Ｄが上記のように自己の音声を標準パターンとして登録するとき、この標準パターンは、話者認識用情報記憶部５に図２に示すように記憶（登録）される。
【００２６】
このようにして、この音声の標準パターンが話者認識用情報記憶部５に記憶されると、利用者Ｄは、この話者認識システムにより、利用者Ｄについての話者認識を行なわせることができる。すなわち、この利用者Ｄは、このシステムを用いて、いま利用している利用者が利用者Ｄ本人であるか否かの判定を行なわせることができる。
【００２７】
具体的に、利用者Ｄが以後、このシステムを利用する場合、利用者Ｄは、切替部８を操作して、特徴抽出部４を話者認識部７に接続し、このシステムを認識モードに設定する。
【００２８】
次いで、利用者Ｄは、指定手段２から所定の指定情報，例えば（利用者Ｄ）を入力する。また、この際、利用者Ｄは、予め決められた特定の言葉を発声する。この音声は、音声入力手段１から入力し、音声区間検出部３，特徴抽出部４により、特徴量（特徴パターン）に変換されて、話者認識部７に与えられる。
【００２９】
これにより、話者認識部７は、指定手段２から入力された指定情報（利用者Ｄ）に対応させて登録されている標準パターンを話者認識用情報記憶部５から取り出し、この標準パターンと特徴抽出部４からの特徴パターンとを照合して、その類似度を算出し、この類似度が所定基準値よりも高いか低いかを判定する。この結果、類似度が低いと判定されたときには、利用者が正規の話者本人Ｄではないと判別し、この利用者による利用を拒絶する。これに対し、類似度が高いと判定されたときには、利用者が正規の話者本人Ｄであると判別し、利用者による利用を許可する。すなわち、利用者によるアプリケーション（例えば入出金，残高照会などの処理）の利用を許可する。
【００３０】
ところで、図１のような話者認識システムは、従来一般的に、例えば銀行の窓口などに設置され、従って、話者認識を行なうためには、利用者は、その都度、銀行の窓口等へ出向かなければならないという問題があった。
【００３１】
本発明は、このような問題を回避し、利用者が、利用者の自宅において、あるいは利用者の会社等において、話者認識を行ない、銀行などのアプリケーション（入出金，残高照会などのアプリケーション）等を利用できるようにすることを意図している。
【００３２】
図３は本発明に係る話者認識システムの第１の構成例を示す図である。この第１の構成例では、話者認識システムは、少なくとも１つの端末１１−１〜１１−ｎと中央装置１２とが、情報を送受信可能に設けられている（例えば有線あるいは無線の通信手段１３−１〜１３−ｎによって通信可能に設けられている）。ここで、各端末１１−１〜１１−ｎは、説明の便宜上、同じ構成のものであるとする。
【００３３】
図３の構成例では、図１の構成例において、音声入力手段１（あるいは、さらに、音声区間検出部３）が端末側に設けられ、また、特徴抽出手段４，話者認識管理手段１０，話者認識部７が中央装置１２に設けられたものとなっている。なお、ここで、話者認識管理手段１０は、図１の話者認識用情報記憶部５，登録部６の機能を有し、さらに、これに話者認識全体の管理，制御機能、さらには、切替部８の機能をももたせることもできる。すなわち、ここでは、話者認識管理手段１０とは、話者認識に関する管理，制御する機能を総称した包括的な手段であるとする。
【００３４】
図４は図３の話者認識システムの具体例を示す図である。なお、図４では、簡単のため、１つの端末１１−１だけが図示されているが、他の端末１１−２〜１１−ｎも、端末１１−１と同様の構成のものであるとする。図４を参照すると、端末１１−１には、音声入力手段１，指定手段２，音声区間検出部３が設けられ、さらに、端末１１−１には、中央装置１２との間で情報を通信手段（例えば電話回線あるいは無線）１３−１を介して送受信するための送受信インタフェース部１４−１が設けられている。また、中央装置１２には、特徴抽出部４，話者認識用情報記憶部５，登録部６，話者認識部７，切替部８が設けられ、さらに中央装置１２には、各端末１１−１〜１１−ｎとの間で情報を送受信するための送受信インタフェース部１５がさらに設けられている。
【００３５】
ここで、各端末１１−１〜１１−ｎとしては、例えば電話機やパソコン（マイクロフォン，Ａ／Ｄ変換などの音声取込機能を備えたパソコン）を用いることが可能であって、各端末１１−１〜１１−ｎの利用者は、自己の端末を、例えば自宅や会社において、保有することができる。
【００３６】
また、図４の構成例において、中央装置１２の送受信インタフェース１５には、例えば交換器を用いることができる。また、特徴抽出部４，登録部６，話者認識部７は、この中央装置に搭載される特徴抽出ソフト，登録ソフト，話者認識ソフト（話者認識プログラム）として実現され、話者認識用情報記憶部５には、中央装置１２に設けられているメモリを用いることができる。また、切替部８は、例えば、端末からの指示が標準パターンの登録（あるいは変更）であるか、話者認識であるかに応じて、登録ソフトを実行するか、話者認識ソフトを実行するかを選択する選択プログラムとして構成できる。
【００３７】
また、図４の構成例において、話者認識用情報記憶部５には、図５に示すように、標準パターンの他に、標準パターンの更新日時，類似度のしきい値などの各種の付随情報が記憶されても良い。この場合、例えば、話者認識部７は、ある話者の音声の特徴パターンを、話者認識用情報記憶部５に記憶されている標準パターンと照合して、この話者の特徴パターンと標準パターンとの類似度を求めたとき、この標準パターンに対応するしきい値（付随情報）を話者認識用情報記憶部５から読出し、上記類似度がこのしきい値よりも高いか低いかにより、この話者が本人であるか否かを判別することができる。
【００３８】
このような第１の構成例の話者認識システムでは、標準パターンの登録（さらには標準パターンの変更あるいは更新）や話者認識を行なうために、利用者は、利用者の家庭や会社等に設置されている端末を操作することによって、例えば銀行の窓口などに設置されている中央装置（例えば話者認識装置ユニット）に対し、標準パターンの登録操作，話者認識操作を、前述したと同様にして行なうことができる。
【００３９】
例えば、話者認識を行なうとき、利用者が、自己の端末，例えば１１−１の指定手段２から、例えば、話者認識を行なう旨の指示を入力すると、この指定情報は、通信手段１３−１を介して中央装置１２に伝えられ、中央装置１２では、切替部８を話者認識部７側に切替設定する。次いで、この利用者が、指定手段２から所定の指定情報，例えば（利用者Ｄ）を入力すると、この指定情報は、通信手段１３−１を介して中央装置１２に伝えられる。また、この際、利用者Ｄは、予め決められた特定の言葉を発声する。この音声は、音声入力手段１から入力し、例えば音声区間検出部３から音声信号として出力され、通信手段１３−１を介して中央装置１２に伝えられる。中央装置１２では、伝送された音声信号を特徴抽出部４により、特徴量（特徴パターン）に変換し、話者認識部７に与える。
【００４０】
これにより、話者認識部７は、指定手段２から伝送された指定情報（利用者Ｄ）に対応させて登録されている標準パターンを話者認識用情報記憶部５から取り出し、この標準パターンと特徴抽出部４からの特徴パターンとを照合して、その類似度を算出し、この類似度が所定基準値（しきい値）よりも高いか低いかを判定する。この結果、類似度が低いと判定されたときには、利用者が正規の話者本人Ｄではないと判別し、この利用者による利用を拒絶する。これに対し、類似度が高いと判定されたときには、利用者が正規の話者本人Ｄであると判別し、利用者による利用を許可する。すなわち、利用者によるアプリケーション（例えば入出金，残高照会などの処理）の利用を許可する。
【００４１】
このように、第１の構成例の話者認識システムでは、利用者の自宅あるいは会社等に設置されている端末（例えば電話装置）を用いて、銀行などに設置されている中央装置（例えば話者認識装置ユニット）にアクセスして、話者認識を行なわせ、話者認識の結果、本人であることが確認された後、入出金，残高照会などのアプリケーションを利用することができる。すなわち、利用者は、銀行等にその都度出向かずとも、自宅や会社などから銀行等の話者認識装置ユニットに話者認識を行なわせ、銀行等のアプリケーションを利用することができる。
【００４２】
特に、この第１の構成例では、利用者側の端末としては、単に、音声入力手段１（あるいは、これとともに指定手段２）だけが備わったものであっても良く、従って、端末として、通常の電話器，携帯電話を用いることができる。すなわち、電話器のハンドセットの送話器を音声入力手段１として用い、また、電話器の操作部（プッシュホン電話器のテンキー部）を指定手段２として用いることができる。
【００４３】
但し、この第１の構成例では、音声入力手段１（あるいは音声区間検出部３）からの音声信号を通信手段（例えば電話回線や無線）を介して中央装置１２に送信するため、通信手段（電話回線や無線）の品質や通信環境などが悪い場合には、通信手段を伝送中に、音声信号に雑音が混入したり、音声信号が劣化し、中央装置１２において話者認識を正しく行なうことができず、本人であるにもかかわらず、本人でないと判別されてアプリケーションを利用できないといった事態が考えられる。また、音声信号には、これをデジタル信号に変換してもデータ量が多く、従って、音声信号を通信手段（電話回線）を介して中央装置に送信する場合、相当の伝送時間を要してしまうという問題も考えられる。
【００４４】
図６は本発明に係る話者認識システムの第２の構成例を示す図であり、この第２の構成例では、第１の構成例における上記のような問題を回避することを意図している。すなわち、この第２の構成例においても、少なくとも１つの端末３１−１〜３１−ｎと中央装置３２とが、情報を送受信可能に設けられている（例えば有線あるいは無線の通信手段３３−１〜３３−ｎによって通信可能に設けられている）が、この第２の構成例では、音声入力手段１（さらには音声区間検出部３），特徴抽出部４が端末側に設けられ、また、話者認識管理手段１０，話者認識部７が中央装置３２に設けられている。
【００４５】
図７は図６の話者認識システムの具体例を示す図である。なお、図７では、簡単のため、１つの端末３１−１だけが図示されているが、他の端末３１−２〜３１−ｎも、端末３１−１と同様の構成のものであるとする。図７を参照すると、端末３１−１には、音声入力手段１，指定手段２，音声区間検出部３，特徴抽出部４が設けられ、さらに、端末３１−１には、中央装置３２との間で情報を通信手段３３−１を介して送受信するための送受信インタフェース部３４−１が設けられている。また、中央装置３２には、話者認識用情報記憶部５，登録部６，話者認識部７，切替部８が設けられ、さらに、中央装置３２には、各端末３１−１〜３１−ｎとの間で情報を送受信するための送受信インタフェース部３５が設けられている。
【００４６】
ここで、各端末３１−１〜３１−ｎとしては、例えばパソコン（マイクロフォン，Ａ／Ｄ変換などの音声取込機能を備えたパソコン）を用いることが可能であって、各端末３１−１〜３１−ｎの利用者は、自己の端末を、例えば自宅や会社において、保有することができる。より具体的に、各端末３１−１〜３１−ｎには、既存のパソコン（パソコン通信機能を備えたパソコン）を用いることができ、この場合、図７の構成例において、端末３１−１の送受信インタフェース部３４−１は、例えば、パソコンに内蔵されているモデムとして実現され、また、音声入力手段１は、パソコンに設けられているマイクロフォンで実現され、指定手段２はパソコンのコンソールで実現され、音声区間検出部３，特徴抽出部４は、パソコンに搭載されるソフトウェア，例えば、音声区間検出ソフト，特徴抽出ソフトとして実現される。
【００４７】
また、図７の構成例において、中央装置３２の送受信インタフェース３５には、例えば交換器を用いることができる。また、登録部６，話者認識部７は、この中央装置に搭載される登録ソフト，話者認識ソフト（話者認識プログラム）として実現され、話者認識用情報記憶部５には、中央装置３２に設けられているメモリを用いることができる。また、切替部８は、例えば、端末からの指示が標準パターンの登録（あるいは変更）であるか、話者認識であるかに応じて、登録ソフトを実行するか、話者認識ソフトを実行するかを選択する選択プログラムとして構成できる。
【００４８】
また、図７の構成例においても、図４の構成例と同様、話者認識用情報記憶部５には、図５に示したように、標準パターンの他に、標準パターンの更新日時，類似度のしきい値などの各種の付随情報が記憶されても良い。この場合、例えば、話者認識部７は、ある話者の音声の特徴パターンを、話者認識用情報記憶部５に記憶されている標準パターンと照合して、この話者の特徴パターンと標準パターンとの類似度を求めたとき、この標準パターンに対応するしきい値（付随情報）を話者認識用情報記憶部５から読出し、上記類似度がこのしきい値よりも高いか低いかにより、この話者が本人であるか否かを判別することができる。
【００４９】
このような第２の構成例の話者認識システムにおいても、標準パターンの登録（さらには標準パターンの変更あるいは更新），話者認識を行なうために、利用者は、利用者の家庭や会社等に設置されている端末を操作することによって、例えば銀行の窓口などに設置されている話者認識装置ユニットに対し、標準パターンの登録操作，話者認識操作を、前述したと同様にして行なうことができる。
【００５０】
例えば、話者認識を行なうとき、利用者は、自己の端末，例えば３１−１の指定手段２から、例えば、話者認識を行なう旨の指示を入力すると、この指定情報は、通信手段３３−１を介して中央装置３２に伝えられ、中央装置３２では、切替部８を話者認識部７側に切替設定する。次いで、この利用者が、指定手段２から所定の指定情報，例えば（利用者Ｄ）を入力すると、この指定情報は、通信手段３３−１を介して中央装置３２に伝えられる。また、この際、利用者Ｄは、予め決められた特定の言葉を発声する。この音声は、音声入力手段１から入力し、例えば音声区間検出部３から音声信号として出力され、特徴抽出部４で特徴量に変換されて、通信手段３３−１を介して中央装置３２に伝えられる。中央装置３２では、伝送された特徴量（特徴パターン）信号を話者認識部７に与える。
【００５１】
これにより、話者認識部７は、指定手段２から伝送された指定情報（利用者Ｄ）に対応させて登録されている標準パターンを話者認識用情報記憶部５から取り出し、この標準パターンと特徴量（特徴パターン）とを照合して、その類似度を算出し、この類似度が所定基準値よりも高いか低いかを判定する。この結果、類似度が低いと判定されたときには、利用者が正規の話者本人Ｄではないと判別し、この利用者による利用を拒絶する。これに対し、類似度が高いと判定されたときには、利用者が正規の話者本人Ｄであると判別し、利用者による利用を許可する。すなわち、利用者によるアプリケーション（例えば入出金，残高照会などの処理）の利用を許可する。
【００５２】
このように、第２の構成例の話者認識システムにおいても、利用者の自宅あるいは会社等に設置されている端末（例えばパソコン）を用いて、銀行などに設置されている中央装置（例えば話者認識装置ユニット）にアクセスして、話者認識を行なわせ、話者認識の結果、本人であることが確認された後、入出金，残高照会などのアプリケーションを利用することができる。すなわち、利用者は、銀行等にその都度出向かずとも、自宅や会社などから銀行等の話者認識装置ユニットに話者認識を行なわせ、銀行等のアプリケーションを利用することができる。
【００５３】
また、この第２の構成例では、利用者側の端末として、既存のパソコン（パソコン通信機能を備えたパソコン）を用いることができる。
【００５４】
さらに、この第２の構成例では、特徴抽出部４からの特徴量（特徴パターン）を通信手段（例えば電話回線や無線など）を介して中央装置３２に送信するようにしているので、通信手段（電話回線や無線など）の品質や通信環境が多少悪い場合でも、特徴量（特徴パターン）信号は、音声信号を送信する場合に比べて、影響を受けにくく、従って、中央装置３２において、話者認識をより正しく行なうことができる。また、特徴量（特徴パターン）信号は、音声信号に比べてデータ量がはるかに少なく、特徴量（特徴パターン）信号を中央装置３２に送信する場合には、音声信号を送信する場合に比べて、送信時間を著しく短縮することができる。
【００５５】
さらに、この第２の構成例では、端末側に、音声区間検出部３，特徴抽出部４が設けられていることによって、利用者は、自己の声の特性に適合するよう、音声区間検出部３の特性，特徴抽出部４の特性を管理することができる。例えば、自己の声の音量や音質に合わせて、音声区間検出の感度（声の大きさのしきい値）などを調整したりすることができる。
【００５６】
また、上述の第１，第２の構成例においては、話者認識部７（話者認識ソフト）については、端末側ではなく、中央装置側に設けられていることによって（すなわち、話者認識部７に関しては中央装置の１ヵ所で一括（集中）管理することによって）、例えば、利用者側の端末の性能（例えば端末に搭載されるソフトウェアの性能）によって認識結果が左右されたりするのを回避し、どのような精度，性能の端末が用いられる場合でも、中央装置側において、常に、一定の認識精度で話者認識を行なうことができる。
【００５７】
また、新たな話者認識方式が開発され、この新たな話者認識方式を導入する場合、中央装置の話者認識部７，すなわち中央装置の話者認識ソフトを入れ替えるだけで、以後全ての認識を新たな認識方式で行なうことができて、この新たな話者認識方式の導入，すなわちバージョンアップを簡単に（容易に）行なうことができる。
【００５８】
このように、上述の構成例では、仮に端末に話者認識ソフトが搭載されていたとしても、あるいは、話者認識ソフトが搭載されていなくても、中央装置側の話者認識ソフトを利用するため、安定した信頼度の高い話者認識が可能になる。また、中央装置側の話者認識ソフトを入れ替えるだけで、以後全ての認識を新しい話者認識ソフトで行なうことができることから、そのメンテナンス（例えばバージョンアップ）をも容易に行なうことができる。
【００５９】
なお、第１，第２の構成例では、上述したように、端末側に、音声区間検出部３，特徴抽出部４が設けられていることによって、利用者は、自己の声の特性に適合するよう、音声区間検出部３の特性，特徴抽出部４の特性を管理することができるという利点を有しているが、その反面、音声区間検出，特徴抽出等の処理と話者認識の処理とが、端末側と中央装置側とで分散してなされるため、中央装置側の管理者は、正規の利用者を正規の利用者と認めなかったり、他人を正規の利用者と認識したりする、いわゆる誤認識が発生する場合に、この原因を中央装置側だけで一括管理することができない。例えば、この原因が、端末の音声区間検出，特徴抽出によるものか、中央装置の話者認識によるものかを、中央装置側だけで判別することができない。
【００６０】
誤認識を生じさせる原因としては、例えば、話者が発生した言葉の語頭や語尾が弱く、音声区間検出が正常に行なわれず、特徴パターン上で、この部分が欠落していることがあり、話者がこれに気付かずに何回言い直しても同じような結果になってしまうという場合があり、このときには、何回やり直しても正しい認識ができない。
【００６１】
このような問題を回避するため、第１，第２の構成例において、例えば中央装置３２（例えば話者認識管理手段１０または話者認識部７）から端末，例えば３１−１に所定の情報を提供し、端末３１−１の音声区間検出部３や特徴抽出部４は、中央装置３２から提供された情報に基づいて、音声区間検出や特徴量変換を行なうことも可能である。
【００６２】
例えば、中央装置３２側からは、情報として、例えば音声区間検出の感度指示情報を提供することができる。
【００６３】
この場合、端末側において、利用者が当初音声を発声し、この音声が音声区間検出されるときに、音声区間と判定された前後に、例えば０．５秒程度のデータを付加し、このデータをも含めた音声区間内の音声信号を、そのまま端末側のファイル（図示せず）に保存する。このようにして、端末側で利用者の音声信号がファイルに保存された後、これを特徴量（特徴パターン）に変換して中央装置に送信し、中央装置の話者認識部７で話者認識を行なわせる。話者認識の結果、利用者本人ではないと判定された場合、中央装置３２側では、例えば、話者認識用情報記憶部５に付随情報として記憶されている音声区間検出の感度（声の大きさのしきい値等）を高めて、これを端末側に、情報として提供（送信）し、端末側において、ファイルに保存されている音声信号に対して再度、音声区間検出を行なわせる。また、話者認識用情報記憶部５に付随情報として記憶されている音声区間検出の感度を下げて、これを端末側に、情報として提供（送信）し、端末側において、ファイルに保存されている音声信号に対して再度、音声区間検出を行なわせる。
【００６４】
このようにして、音声区間検出の感度を高めた場合と下げた場合とで、それぞれ話者認識を行ない、いずれかで正しい話者であることが判定されれば、この利用者を正しい話者であると認識することができる。このように、音声区間検出の感度を高めることによって、例えば話者の声が小さい場合に、音声区間が正しく検出されないという事態（検出漏れを起こすという事態）が生じていたのを、改善することができ、また、音声区間検出の感度を下げることによって、例えば話者の音声の前後に雑音が生じるような場合に、音声区間検出部が実際よりも長い音声を検出してしまうという事態が生じていたのを、改善することができる。
【００６５】
上述の例では、中央装置３２側から端末側に提供する情報として、音声区間検出の感度を例にとったが、第２の構成例においては、特徴量変換のサンプリング周波数を情報として端末側に提供することもでき、この場合には、端末側では、中央装置３２からの情報によって特徴量変換のサンプリング周波数を変えることができる。さらに、中央装置３２側から端末側には、上記以外の種々の情報を提供することもできる。
【００６６】
このように、端末に、中央装置から所定情報を与えることで、話者認識のみならず、必要に応じて、話者認識のための音声区間検出や特徴抽出などをも、中央装置側から管理，制御することができる。
【００６７】
上述の各構成例の説明では、話者認識を行なう場合について述べたが、標準パターンの新規登録や変更，更新についても、端末側から同様にして行なうことができる。なお、中央装置側において、話者認識に用いたデータによって、自動的に標準パターンを更新する機能が備わっている場合は、端末側からの操作を行なわずとも、中央装置側で、自動的に標準パターンの更新を行なうことができる。
【００６８】
また、上述した各構成例において、ある端末から中央装置に通信手段（有線あるいは無線）を介して伝送される音声信号あるいは特徴量（特徴パターン）信号を、この端末の利用者以外の他人が例えば通信手段から盗聴し、盗聴した音声信号あるいは特徴量（特徴パターン）信号を、この他人が正規の利用者になりすまして、中央装置に送信して話者認識を行ない、正規の話者用のアプリケーションを利用したりすることも考えられる。
【００６９】
このような他人による悪用を防止するため、上述の各構成例において、端末から音声信号あるいは特徴量（特徴パターン）信号を、通信手段によって、中央装置に送信する際、端末側において、送信しようとする音声信号あるいは特徴量（特徴パターン）信号を暗号化し、暗号化した音声信号あるいは特徴量（特徴パターン）信号を、通信手段を介して、中央装置に送信するようにすることもできる。
【００７０】
図８は図３の話者認識システム（第１の構成例の話者認識システム）において、音声入力手段１（あるいは音声区間検出手段２）から出力される音声信号を暗号化して中央装置に送信する話者認識システムの構成例を示す図である。図８を参照すると、この話者認識システムでは、端末において、音声入力手段１（あるいは音声区間検出手段２）から出力される音声信号を暗号化するための暗号化手段６０がさらに設けられている。
【００７１】
また、図９は図８の具体例を示すものであり、図４の話者認識装置に対応したものとなっている。図９を参照すると、この話者認識システムでは、端末，例えば１１−１において、暗号化手段６０が音声区間検出部３の後段に設けられている。
【００７２】
また、図８，図９において、中央装置１２には、端末の暗号化手段６０に与えるための暗号情報を生成する暗号情報生成手段６１と、端末の暗号化手段６０によって暗号化されて端末から送信された音声信号を暗号情報生成手段６１によって生成された暗号情報に基づいて復号化する復号化手段６２とが、さらに設けられている。
【００７３】
このような構成の話者認識システムでは、中央装置１２は、端末，例えば１１−１から話者認識の対象となる音声信号が送信されるに先立って、暗号情報生成手段６１で暗号情報（例えば、暗号鍵）を生成し、音声信号が送信されようとしている端末１１−１に暗号情報を提供する。なお、端末１１−１に提供した暗号情報は、この端末１１−１からの音声信号（この暗号情報により暗号化された音声信号）に対して復号化処理を施すために、中央装置１２において保存される。
【００７４】
このようにして、中央装置１２から端末１１−１に暗号情報が提供された後、端末の暗号化手段６０では、中央装置１２から提供された暗号情報に基づいて音声信号を暗号化して中央装置１２に送信する。中央装置１２では、この端末からの暗号化された音声信号を受信すると、復号化手段６２により、端末１１−１に提供されたと同じ暗号情報を用いて、暗号化された音声信号を元の音声信号に復元し、しかる後、この音声信号から特徴量（特徴パターン）を抽出して、話者認識を行なう。
【００７５】
このように、この構成例では、端末１１−１から音声信号を暗号化して、通信手段１３−１を介し、中央装置１２に送信するので、他人が通信手段１３−１からこれを盗聴しても、この他人は暗号情報を知らない限り、これから音声信号を抽出することができず、従って、利用者の音声信号が他人に盗まれて他人によって悪用されるという事態を有効に防止することができる。
【００７６】
なお、中央装置１２において、暗号情報（暗号鍵）は、端末との通信の度に更新（変更）生成されて、端末に提供され、また、復号化手段６２で用いられるのが望ましい。これにより、端末からの音声信号は、毎回、異なった暗号情報によって暗号化され、従って、盗聴によって盗まれた信号は、次回以後、中央装置１２によって正しく復号化（復元）されず、正しい話者認識ができなくなるので、他人による盗用を確実に防止することができる。
【００７７】
図１０は図６の話者認識システム（第２の構成例の話者認識システム）において、特徴抽出部４から出力される特徴量（特徴パターン）信号を暗号化して中央装置に送信する話者認識システムの構成例を示す図である。図１０を参照すると、この話者認識システムでは、端末において、特徴抽出部４から出力される特徴量（特徴パターン）信号を暗号化する暗号化手段７０がさらに設けられている。
【００７８】
また、図１１は図１０の具体例を示すものであり、図７の話者認識装置に対応したものとなっている。図１１を参照すると、この話者認識システムでは、端末，例えば３１−１において、暗号化手段７０が特徴抽出部４の後段に設けられている。また、中央装置３２においては、端末の暗号化手段７０に与えるための暗号情報を生成する暗号情報生成手段７１と、端末の暗号化手段７０によって暗号化されて端末から送信された特徴量（特徴パターン）信号を暗号情報生成手段７１によって生成された暗号情報に基づいて復号化する復号化手段７２とが、さらに設けられている。
【００７９】
このような構成の話者認識システムでは、中央装置３２は、端末，例えば３１−１から話者認識の対象となる特徴量（特徴パターン）信号が送信されるに先立って、暗号情報生成手段７１で暗号情報（例えば、暗号鍵）を生成し、特徴量（特徴パターン）信号が送信されようとしている端末３１−１に暗号情報を提供する。なお、端末３２−１に提供した暗号情報は、この端末からの特徴量（特徴パターン）信号（この暗号情報により暗号化された特徴量（特徴パターン）信号）に対して復号化処理を施すために、中央装置３２において保存される。
【００８０】
このようにして、中央装置３２から端末３１−１に暗号情報が提供された後、端末３１−１の暗号化手段７０では、中央装置３２から提供された暗号情報に基づいて特徴量（特徴パターン）信号を暗号化して中央装置３２に送信する。中央装置３２では、この端末３１−１からの暗号化された特徴量（特徴パターン）信号を受信すると、復号化手段７２により、端末３１−１に提供されたと同じ暗号情報を用いて、暗号化された特徴量（特徴パターン）信号を元の特徴量（特徴パターン）信号に復元し、しかる後、この特徴量（特徴パターン）信号により、話者認識を行なう。
【００８１】
このように、この構成例では、端末３１−１から特徴量（特徴パターン）信号を暗号化して、通信手段３３−１を介し、中央装置３２に送信するので、他人が通信手段３３−１からこれを盗聴しても、この他人は暗号情報を知らない限り、これから特徴量（特徴パターン）信号を抽出することができず、従って、利用者の特徴量（特徴パターン）信号が他人に盗まれて他人によって悪用されるという事態を有効に防止することができる。
【００８２】
また、中央装置３２において、暗号情報（暗号鍵）は、端末との通信の度に更新（変更）生成されて、端末に提供され、また、復号化手段７２で用いられるのが望ましい。これにより、端末からの特徴量（特徴パターン）信号は、毎回、異なった暗号情報によって暗号化され、従って、盗聴によって盗まれた信号は、次回以後、中央装置３２によって正しく復号化（復元）されず、正しい話者認識ができなくなるので、他人による盗用を確実に防止することができる。
【００８３】
上述の各構成例では、音声区間抽出部３の後に、特徴抽出部４が設けられているが、必要に応じ、音声区間抽出部３の前に、特徴抽出部４が設けられるように構成することも可能である。
【００８４】
また、上述の各構成例において、端末１１−１，３１−１は、中央装置１２，３２に音声信号あるいは特徴量（特徴パターン）信号を送信する際、音声信号あるいは特徴量（特徴パターン）信号を一旦ファイルに蓄積し、ファイルに蓄積した音声信号あるいは特徴量（特徴パターン）信号を中央装置１２，３２に送信するようになっていても良い。また、この場合、図８乃至図１１の構成例において、暗号化手段６０，７０では、ファイルの前段に設けられても良いし、ファイルの後段に設けられても良い。
【００８５】
また、図８〜図１１の各構成例において、暗号情報として暗号鍵を用いた暗号化の手法には、すでに実用化されている様々な方法が利用可能である。例えば、図１０，図１１の構成例の場合、中央装置３２からは、暗号鍵として１つの数字を送信することができ、この場合、端末では、この数字の値に基づいて特徴量情報の並び替えを行なえば良い。簡単な方法としては、例えば、特徴量情報がｐ_１，…，ｐ_ｉ，…，ｐ_ｎのｎ個の数値で構成され、中央装置３２から暗号鍵として数値Ｃが送信されてきた場合、端末は特徴量情報をＣ番目の数値から順に、ｐ_Ｃ，ｐ_Ｃ＋１，…のように送信し、ｐ_ｎまで到達したらｐ_１に戻り、ｐ_Ｃ−１までｎ個の数値を送信するというように、特徴量情報に対して暗号化を施すことができる。
【００８６】
より具体的に、例えば、特徴量情報がｐ_１，…，ｐ_１６の１６個の数値で構成され、暗号鍵として中央装置３２から“５”が送信されてきた場合、端末は１６個の数値を、ｐ_５，ｐ_６，ｐ_７，ｐ_８，ｐ_９，ｐ_１０，ｐ_１１，ｐ_１２，ｐ_１３，ｐ_１４，ｐ_１５，ｐ_１６，ｐ_１，ｐ_２，ｐ_３，ｐ_４のように順番を入れ替えて送信する。
【００８７】
上記例では、簡単な暗号化の例を示したが、暗号化の手法はこの例に限定されるものではなく、さらに高度な暗号化の手法を利用すれば、盗用に対してより効果的な防護を行なうことが可能となる。
【００８８】
例えば、公開鍵方式と呼ばれる手法では、２つの暗号鍵ＣとＣ’を用い、受信側はこれらの２つの鍵を作成し、１つ（公開鍵）を送信側へ暗号化のために伝送し、他方を手元に復号化のために保管する。これらの２つの暗号鍵は、互いに他方の鍵によって暗号化された情報を復号することは可能であるが、自身によって暗号化された情報は復号することは出来ず、また一方の暗号鍵から他方の暗号鍵を作成・類推することは困難であるように構成されている。
【００８９】
従って、本発明に公開鍵方式を応用するには、中央装置の暗号情報生成手段でこれら２つの鍵を生成し、そのうちの１つＣを端末へ送信し、もう１つの鍵Ｃ’を復号化手段で復号化に使用するために保管する。端末では音声信号あるいは音声の特徴量信号を中央装置からの鍵Ｃによって暗号化し、中央装置へ送信する。中央装置では、保管されている鍵Ｃ’を用いて、端末からの暗号化された音声信号あるいは音声の特徴量信号を復号化する。この構成により、盗聴などの行為によって、端末からの暗号化された音声信号あるいは音声の特徴量信号のみならず、中央装置から端末への暗号情報（暗号鍵）が盗まれたとしても、鍵Ｃは復号化を行うことは出来ないから、中央装置に保管されている鍵Ｃ’が盗まれない限り、端末からの暗号化された音声信号あるいは音声の特徴量信号は復元できず、暗号情報（暗号鍵）の送信毎の更新と組み合わせることで、盗用に対してより効果的な防護を行うことが可能になる。
【００９０】
また、上述の説明では、話者認識の対象となる音声信号あるいは特徴量（特徴パターン）信号に対して暗号化を施すとしたが、標準パターン登録用の音声信号あるいは特徴量（特徴パターン）信号に対しても同様にして暗号化を施して中央装置に送信することができる。さらに、話者認識システムが、標準パターンの変更，更新を端末側からの操作によって行なう機能を有している場合には、標準パターンの変更，更新用の音声信号あるいは特徴量（特徴パターン）信号に対しても同様にして暗号化を施して中央装置に送信することができる。
【００９１】
【発明の効果】
以上に説明したように、請求項１乃至請求項６記載の発明によれば、例えば利用者の自宅あるいは会社等に設置されている端末を用いて、銀行などに設置されている中央装置にアクセスして、話者認識を行なわせ、話者認識の結果、本人であることが確認された後、入出金，残高照会などのアプリケーションを利用することができる。また、仮に端末に話者認識ソフトが搭載されていたとしても、あるいは、話者認識ソフトが搭載されていなくても、中央装置側の話者認識ソフトを利用するため、安定した信頼度の高い話者認識が可能になる。また、中央装置側の話者認識ソフトを入れ替えるだけで、以後全ての認識を新しい話者認識ソフトで行なうことができることから、そのメンテナンス（例えばバージョンアップ）をも容易に行なうことができる。
【００９３】
また、請求項１乃至請求項６記載の発明によれば、特徴抽出部からの特徴量（特徴パターン）を通信手段（例えば電話回線や無線など）を介して中央装置に送信するようにしているので、通信手段（電話回線や無線など）の品質や通信環境が多少悪い場合でも、特徴量（特徴パターン）信号は、音声信号を送信する場合に比べて、影響を受けにくく、従って、中央装置において、話者認識をより正しく行なうことができる。また、特徴量（特徴パターン）信号は、音声信号に比べてデータ量がはるかに少なく、特徴量（特徴パターン）信号を中央装置に送信する場合には、音声信号を送信する場合に比べて、送信時間を著しく短縮することができる。
【００９４】
また、請求項１乃至請求項６記載の発明によれば、端末に、中央装置から所定情報を与えることで、話者認識のみならず、必要に応じて、話者認識のための音声区間検出や特徴抽出などをも、中央装置側から管理，制御することができる。
【００９５】
また、請求項２，請求項３，請求項６記載の発明によれば、端末において音声信号あるいは特徴量（特徴パターン）信号を暗号化して中央装置に送信するので、他人が通信手段からこれを盗聴しても、この他人は暗号情報を知らない限り、これから音声信号，特徴量（特徴パターン）信号を抽出することができず、従って、利用者の音声信号，特徴量（特徴パターン）信号が他人に盗まれて他人によって悪用されるという事態を有効に防止することができる。
【００９６】
また、請求項４記載の発明によれば、端末からの音声信号あるいは特徴量（特徴パターン）信号は、毎回、異なった暗号情報によって暗号化され、従って、盗聴によって盗まれた信号は、次回以後、中央装置によって正しく復号化（復元）されず、正しい話者認識ができなくなるので、他人による盗用を確実に防止することができる。
【図面の簡単な説明】
【図１】一般的な話者認識システムの構成例を示す図である。
【図２】話者認識用情報記憶部の構成例を示す図である。
【図３】本発明に係る話者認識システムの第１の構成例を示す図である。
【図４】図３の話者認識システムの具体例を示す図である。
【図５】話者認識用情報記憶部の構成例を示す図である。
【図６】本発明に係る話者認識システムの第２の構成例を示す図である。
【図７】図６の話者認識システムの具体例を示す図である。
【図８】本発明に係る話者認識システムの他の構成例を示す図である。
【図９】図８の話者認識システムの具体例を示す図である。
【図１０】本発明に係る話者認識システムの他の構成例を示す図である。
【図１１】図１０の話者認識システムの具体例を示す図である。
【符号の説明】
１音声入力手段
２指示手段
３音声区間検出部
４特徴抽出部
５話者認識用情報記憶部
６登録部
７話者認識部
８切替部
１０話者認識管理手段
１１，３１端末
１２，３２中央装置
１３，３３通信手段
６０，７０暗号化手段
６１，７１暗号情報生成手段
６２，７２復号化手段

Claims

少なくとも１つの端末と中央装置とが、情報を送受信可能に設けられており、前記端末には、話者の音声を入力し音声信号とする音声入力手段と、音声信号の特徴量を抽出する特徴抽出手段とが設けられ、また、前記中央装置には、話者認識用の情報を管理する話者認識管理手段と、話者の音声の特徴量と該話者認識管理手段によって管理されている話者認識用情報とを照合して話者認識を行なう話者認識手段とが設けられており、前記端末から中央装置には、話者の音声の特徴量を転送し、中央装置では、転送された特徴量に基づいて話者認識を行なうようになっており、話者認識の結果、利用者本人ではないと判定された場合、中央装置は、音声区間検出の感度または特徴量変換のサンプリング周波数を変えたものを情報として端末側に提供し、端末側では、提供された上記情報に基づき、利用者の音声信号を特徴量に変換して中央装置に送信することを特徴とする話者認識システム。
請求項１記載の話者認識システムにおいて、前記端末には、音声入力手段からの音声信号または特徴抽出手段からの特徴量を所定の暗号情報に基づいて暗号化する暗号化手段がさらに設けられており、前記端末は、音声入力手段からの音声信号または特徴抽出手段からの特徴量を所定の暗号情報に基づいて暗号化して、前記中央装置に転送することを特徴とする話者認識システム。
請求項２記載の話者認識システムにおいて、前記中央装置には、暗号情報を生成する暗号情報生成手段と、復号化手段とが設けられており、前記端末の暗号化手段は、前記中央装置の暗号情報生成手段によって生成された暗号情報が中央装置から提供されるとき、該暗号情報に基づいて、音声入力手段からの音声信号または特徴抽出手段からの特徴量に暗号化を施し、また前記中央装置では、端末から暗号化された音声信号または特徴量が転送されるとき、該暗号化された音声信号または特徴量を前記暗号情報に基づいて復号化手段によって復号化するようになっていることを特徴とする話者認識システム。
請求項２または請求項３記載の話者認識システムにおいて、前記暗号情報は、前記端末から前記中央装置への通信毎に、異なるものが用いられることを特徴とする話者認識システム。
少なくとも１つの端末と中央装置とが、情報を送受信可能に設けられており、前記端末に話者が音声を入力すると、前記端末は、話者の音声信号を特徴量に変換して中央装置に転送し、中央装置では、転送された特徴量に基づいて話者認識を行ない、話者認識の結果、利用者本人ではないと判定された場合、中央装置は、音声区間検出の感度または特徴量変換のサンプリング周波数を変えたものを情報として端末側に提供し、端末側では、提供された上記情報に基づき、利用者の音声信号を特徴量に変換して中央装置に送信することを特徴とする話者認識方法。
請求項５記載の話者認識方法において、前記端末は、さらに、音声信号または特徴量に所定の暗号情報に基づいて暗号化を施して、前記中央装置に転送することを特徴とする話者認識方法。