JP4213716B2

JP4213716B2 - 音声認証システム

Info

Publication number: JP4213716B2
Application number: JP2005507393A
Authority: JP
Inventors: 太介伊藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-07-31
Filing date: 2003-07-31
Publication date: 2009-01-21
Anticipated expiration: 2023-07-31
Also published as: US20060020460A1; US7447632B2; WO2005013263A1; JPWO2005013263A1

Description

本発明は、音声を入力させ、予め登録されている話者本人の声と照合することによって入力音声が本人の音声であるか否かを判断する音声認証システムに関し、特に、登録時と認証時に同じ発話内容を用いて本人認証を行う、いわゆるテキスト依存型の音声認証システムに関する。

近年、ネットワーク経由での商取引やサービス利用が普及してきたことに伴い、「なりすまし」を防止するための方策として、キーワードや暗証番号の代わりに、身体的な特徴など個人に固有の情報を利用して本人確認を行うバイオメトリクス認証が注目を集めている。このようなバイオメトリクス認証の一例として、音声認証がある。
また、音声認証方式の一つとして、登録時と認証時に同じ発話内容を用いて本人認証を行う、いわゆるテキスト依存型の音声認証方式が知られている。テキスト依存型の音声認証は、登録時に登録した発話内容を認証時に用いるものであり、テキスト従属方式、パスワード方式、キーワード方式、あるいはキーフレーズ方式と称されることもある。テキスト依存型の音声認証では、あらかじめ決められた発話内容（キーワード）または正規利用者が自由に決めた発話内容の音声をシステムに登録しておく。そして、認証を受けようとする者が、そのキーワードを音声で入力すると、入力音声が、その話者の音声として登録されている音声の特徴と一致するか否かで本人認証がなされる。このとき、入力音声の発話内容が、登録されている発話内容と一致するか否かのチェックが行われる場合もある。
例えば、テキスト依存型の音声認証の従来例として、特開２００２−３０４３７９号公報に、被認証者単位で複数の言葉とこれらの言葉を被認証者に発声させたときの声紋データを予め記憶媒体に記憶させておき、否認証者から入力されたＩＤデータに対応する複数の言葉のうちの任意の１つとそれに対応する声紋データを選択し、その言葉を被認証者に提示して発声させ、声紋を解析して予め記憶させた声紋データと照合することにより、被認証者を個人認証するシステムが開示されている。
ここで、図５および図６を参照し、従来の音声認証方式について説明する。
図５は、音声認証用の標準テンプレートの作成・登録を行うための従来の音声登録システムの概略構成を示す。図５に示すように、音声登録時には、従来の音声登録システム１０４は、正規利用者として登録される利用者１０１により音声入力部１０６に対して発声された入力音声を、特徴抽出部１０７において特徴パラメータの時系列に変換し、標準テンプレート作成部１０８において標準テンプレートを作成する。作成された標準テンプレートは、その利用者に与えられる個人ＩＤ（図５の例では＃Ｍ）に関連付けて、標準テンプレート記憶部１０９に記憶する。
図６は、図５に示した音声登録システムで登録された正規利用者の登録音声を用いる従来の音声認証システムの概略構成を示す。この認証システム２０４の標準テンプレート記憶部２０７には、音声登録システム１０４の標準テンプレート記憶部１０９のデータ、すなわち、正規利用者の個人ＩＤと関連づけられた標準テンプレートが格納されている。
図６に示すように、認証時には、認証を受けようとする利用者２０１は、認証システム２０４の個人ＩＤ入力部２０５に対し、個人ＩＤ（図６の例では＃Ｍ）を入力すると共に、音声入力部２０８に対して音声を入力する。入力された音声は、特徴抽出部２０９において特徴パラメータの時系列に変換される。入力された個人ＩＤは、標準テンプレート選択部２０６へ送られる。標準テンプレート選択部２０６は、入力された個人ＩＤに対応する標準テンプレートを、標準テンプレート記憶部２０７から選択し、類似度算出部２１０へ送る。
類似度算出部は、特徴抽出部２０９で得られた特徴パラメータの時系列と、標準テンプレート選択部２０６で選択された標準テンプレートとの類似度を計算する。判定部２１１は、計算された類似度と、予め決められている閾値とを比較することにより、利用者２０１を本人であるとして受理するか他人であるとして棄却するかの判断を下し、判定結果を出力する。
テキスト依存型の音声認証方式を採用する場合は、音声登録システム１０４への音声登録時に、音声登録システムまたは各利用者がキーワードを決めてそのキーワードを発声して登録し、認証時には、利用者は、記憶しているそのキーワードを発声して認証を行うこととなる。
しかし、音声登録システムへ音声の登録を行ってから、実際に認証システムを利用するまでに時間が経過すると、たとえ登録した本人であっても、発声の変形が起こり得る。発声の変形とは、音声のピッチ周波数、イントネーション、パワー、発声速度、スペクトルなどの情報が変化することをいう。発声の変形が起こると、類似度算出部２１０において算出される類似度が下がるので、本人であるにも関わらず、他人であると誤って判断されることが多くなる。このように、登録時と認証時のキーワードの発声に変形が起こったことが原因で認証精度が劣化してしまうという問題は、従来より、テキスト依存型の音声認証方式の解決課題であった。

本発明は、上記の問題を鑑み、認証を受けようとする利用者に対して、登録音声に関する情報を提示することにより、認証時に登録音声に近い発声の再現が可能となり認証精度を向上することが可能な、テキスト依存型の音声認証システムを提供することを目的とする。
上記の目的を達成するために、本発明にかかる音声認証システムは、正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部と、認証を受けようとする利用者に識別子を入力させる識別子入力部と、認証を受けようとする利用者に音声を入力させる音声入力部と、前記識別子入力部より入力された識別子に対応する標準テンプレートを前記標準テンプレート記憶部より選択する標準テンプレート選択部と、前記標準テンプレート選択部により選択された標準テンプレートを参照し、前記音声入力部より入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定部と、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出部と、前記提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力部とを備え、前記提示用情報が、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定部において判定基準として用いられる情報とは異なる情報であり、前記判定部において提示用情報を出力すると判定した場合は、前記提示用情報抽出部により提示用情報を抽出し、抽出した提示用情報を前記提示用情報出力部により出力することを特徴とする。
上記の構成によれば、登録時から時間が経過することによって発声の変形が起こったとしても、認証を行う際に登録音声に関する情報を提示することで、認証を受けようとする利用者は、この情報を参照することによって登録時の発声方法に近い発声を再現し易くなり、入力音声の類似度が高くなる。また、前記提示用情報が、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定部において判定の基準として用いられる情報とは異なる情報であることにより、他人の棄却率を低下させることなく、本人の受理率を向上させることができるので、認証精度を向上させることができる。
前記音声認証システムにおいて、前記提示用情報は、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声の音声特性に関する情報、登録音声のピッチ周波数の情報を含む信号、登録音声の音韻情報を含む信号、登録音声のパワーの情報を含む信号、発声速度の情報を含む信号、および、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声の発話内容を表すテキスト、のうち少なくとも一つを含むことが好ましい。
前記音声認証システムにおいて、前記判定部において判定基準として用いられる音声特性としては、音声のスペクトル包絡の情報を用いることができる。
前記音声認証システムにおいて、本人認証に失敗し、前記提示用情報出力部により提示用情報を利用者に対して出力した後に、前記音声入力部より再度の音声入力をさせると共に、再度入力された音声に基づいて、前記判定部において再度の判定をする際、判定基準となる閾値を前回の判定時よりも所定の値だけ高く設定することが好ましい。
前記音声認証システムにおいて、提示用情報抽出部が、複数種類の提示用情報から、利用者に対して提示すべき提示用情報を選択して抽出し、前記判定部が、提示用情報の種類に応じた判定基準を持ち、前記提示用情報抽出部により抽出された提示用情報の種類に応じて、前記判定部における判定基準を変更することが好ましい。
なお、上記の構成において、利用者に、提示を求める提示用情報の種類を選択入力させ、その選択入力結果に従って提示用情報抽出部が提示用情報を選択・抽出する態様としても良いし、提示用情報抽出部が、所定の規則に従ってあるいはランダムに、提示用情報の種類を選択する態様としても良い。
また、上記の目的を達成するために、本発明にかかる音声認証方法は、認証を受けようとする利用者に識別子を入力させる工程と、認証を受けようとする利用者に音声を入力させる工程と、正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とを含み、前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とする。
上記の音声認証方法において、提示用情報抽出工程および提示用情報出力工程は、認証を受けようとする利用者に最初に音声を入力させる前にあっても良いし、最初に入力した音声に基づいて前記判定工程により正規利用者本人の声でないと判定された後にあっても良い。
また、上記の目的を達成するために、本発明にかかるコンピュータプログラムは、認証を受けようとする利用者に識別子を入力させる工程と、認証を受けようとする利用者に音声を入力させる工程と、正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とをコンピュータに実行させる命令を含み、前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とする。
さらに、上記の目的を達成するために、本発明にかかるコンピュータ読み取りが可能な記録媒体は、認証を受けようとする利用者に識別子を入力させる工程と、認証を受けようとする利用者に音声を入力させる工程と、正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とをコンピュータに実行させる命令を含み、前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とする。

図１は、本発明の一実施形態にかかる音声認証装置の構成例を示すブロック図である。
図２は、本発明の一実施形態にかかる音声認証装置の動作を示すフローチャートである。
図３は、本発明の他の実施形態にかかる音声認証装置の動作を示すフローチャートである。
図４は、本発明のさらに他の実施形態にかかる音声認証装置の動作を示すフローチャートである。
図５は、音声認証用の標準テンプレートの作成・登録を行うための従来の音声登録システムの概略構成を示すブロック図である。
図６は、図５に示した音声登録システムで登録された正規利用者の登録音声を用いる従来の音声認証システムの概略構成を示すブロック図である。

以下、本発明の実施形態を、図面を参照して詳細に説明する。
（第１の実施形態）
図１は、本発明の一実施形態にかかる音声認証装置の構成例を示すブロック図である。
図１に示すように、本実施形態にかかる音声認証装置は、利用者が入力した音声の発話内容と音声特性との両方に基づいて、当該入力音声が正規利用者として予め登録されている者の声であるか否かを判定することにより、利用者が本人であるか否かの認証を行う、テキスト依存型の音声認証装置である。このため、本音声認証装置は、登録音声記憶部１０、音声入力部１１、特徴抽出部１２、類似度算出部１３、判定部１４、識別子入力部１５、標準テンプレート・登録音声選択部１６、標準テンプレート記憶部１７、提示用情報出力部１８、提示用情報抽出部１９を備えている。
なお、図１には、本発明にかかる音声認証システムを１筐体のハードウェア（音声認証装置）として構成した例を示したが、本発明にかかる音声認証システムは、複数個のハードウェアから構成することもできる。その場合、例えば、利用者に対するインタフェースとなる音声入力部１１、識別子入力部１５、および提示用情報出力部１８を、利用者が直接アクセス可能なハードウェア構成（例えば携帯電話、ＰＤＡ、またはパーソナルコンピュータなど）とし、その他のブロックに無線または有線の通信媒体を介して接続する構成とすることも可能である。
ここで、上記の各ブロックの機能について簡単に説明する。
登録音声記憶部１０は、正規利用者の登録音声を、各正規利用者の識別子に関連づけて記憶している。標準テンプレート記憶部１７は、正規利用者の登録音声から作成された標準テンプレートを記憶している。標準テンプレートは、登録音声の音声特性で特徴付けられた情報であり、例えば、登録音声から得られたＬＰＣ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）ケプストラムの分布をＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）のような方法によりモデル化することにより生成される。標準テンプレートは、登録音声の発話内容（テキスト）の情報および音声特性で特徴付けても良い。
音声入力部１１は、例えばマイクなどを含み、認証を受けようとする利用者の音声を入力する。
特徴抽出部１２は、音声入力部１１から入力された音声を特徴パラメータの時系列に変換する。特徴抽出部１２で得られる特徴パラメータは、例えば、ＬＰＣケプストラムまたはＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）などのスペクトラム包絡情報である。すなわち、ＬＰＣケプストラムを用いる場合、特徴抽出部１２は、入力された音声から、ＬＰＣケプストラムの時系列を得る。また、ＭＦＣＣを用いる場合、特徴抽出部１２は、入力された音声から、ＭＦＣＣの時系列を得る。
類似度算出部１３は、特徴抽出部１２で得られた特徴パラメータの時系列と標準テンプレートとの類似度を計算する。例えば特徴パラメータとしてＬＰＣケプストラムのスペクトラム包絡情報を用いる場合、類似度算出部１３は、入力された音声から得られたＬＰＣケプストラムの、予め登録された正規利用者の標準テンプレートに対する類似度を計算する。
判定部１４は、類似度算出部１３で得られた類似度と、予め定められている閾値とを比較し、利用者が本人であるとして受理するか、あるいは利用者が本人ではないとして棄却するかの判定結果を出力する。
識別子入力部１５は、認証を受けようとする利用者に識別子を入力させる部分であり、テンキーなどを含むプッシュボタン、キーボード、タッチパネルなどで実現可能であるが、これら以外に、音声認識によって識別子を入力する構成や、ＩＤカード等の情報記録媒体から識別子を磁気的、電気的、あるいは光学的に読み込む構成であっても良い。なお、この識別子は、正規利用者毎に予め設定されており、各正規利用者を一意に特定することが可能であることを条件として、数字、文字、あるいはこれらの組み合わせなどからなる任意の識別子を用いることができる。本実施形態では、個人ＩＤを用いるものとする。
標準テンプレート・登録音声選択部１６は、識別子入力部１５により入力された識別子に対応する標準テンプレートを標準テンプレート記憶部１７から選択すると共に、当該識別子に対応する登録音声を登録音声記憶部１０から選択する。
提示用情報抽出部１９は、識別子入力部１５より入力された識別子に対応する正規利用者の登録音声から、判定部１４にて判定の基準として参照される音声特性とは異なる音声特性に関する情報、あるいは、登録音声の発話内容を表すテキストを生成する。この情報が、認証を受けようとする利用者に対して提示される提示用情報である。
提示用情報出力部１８は、提示用情報抽出部１９により抽出された提示用情報を、認証を受けようとする利用者に対して出力するものであり、提示用情報の種類に応じて、適宜のハードウェアを用いて実現される。例えば、提示用情報が視覚的に認識され得るものであればディスプレイを用いれば良いし、提示用情報が聴覚により認識され得るものであればスピーカを用いれば良い。あるいは、ディスプレイとスピーカとの組み合わせであっても良い。
登録音声から生成される提示用情報としては、例えば、（１）登録音声のピッチ周波数の情報を含む信号、（２）登録音声のパワーの情報を含む信号、（３）登録音声の音韻情報を含む信号、（４）登録音声の発声速度の情報を含む信号、（５）登録音声の発話内容（キーワード）を表すテキスト、などがある。
例えば、（１）のピッチ周波数の情報を含む信号は、提示用情報抽出部１９において、登録音声に対してＬＰＣ分析を行い、スペクトルの逆フィルタをかけることで得られる残差信号として、生成することができる。あるいは、登録音声に対してピッチ抽出を行い、このピッチ周期で並べられたパルス列として生成することもできる。前記ピッチ抽出は、音声から抽出されたケプストラムの高ケフレンシーでピークとなる部分をピッチ周期とする方法によって、実現できる。
このような、ピッチ周波数の情報を含む信号を、提示用情報として利用者に聞かせることにより、利用者は、登録時のピッチ周波数とイントネーションに近い発声方法を再現できる。これにより、入力音声の類似度が高くなり、本人が誤って棄却される可能性が少なくなる。
また、（２）の登録音声のパワーの情報を含む信号は、提示用情報抽出部１９において、例えば、登録音声のパワーの時間変化の情報が保持された（つまり、パワー情報の操作を行わない）信号を作成すれば良く、このときに、ピッチ周波数、音韻情報などの他の情報が失われていたとしても構わない。
このような、パワーの情報を含む信号を、提示用情報として利用者に聞かせる（あるいは見せる）ことにより、利用者は、登録時のパワーに近い発声方法を再現できる。これにより、入力音声の類似度が高くなり、本人が誤って棄却される可能性が少なくなる。また、提示用情報に音韻情報を含まないようにすれば、キーワードを隠蔽できるという利点がある。
また、（３）の登録音声の音韻情報を含む信号は、提示用情報抽出部１９において、例えば、音声認識により登録音声の発声内容（キーワード）を得て、このキーワードに従い規則合成を行うことにより得られる。あるいは、登録音声をフーリエ変換して得られたスペクトルを、周波数軸上で伸縮させ、逆フーリエ変換することによっても得られる。さらに他の方法としては、登録音声のピッチ抽出を行い、１ピッチ波形を時間軸上で伸縮させることによって得ることもできる。
このような、登録音声の音韻情報を含む信号を、提示用情報として利用者に聞かせることにより、利用者は、登録時の音韻と同じ発声を再現できる。これにより、入力音声の類似度が高くなり、本人が誤って棄却される可能性が少なくなる。
さらに、（４）の登録音声の発声速度の情報を含む信号は、提示用情報抽出部１９において、例えば、登録音声の発声速度の情報が保持された（つまり、時間軸の伸縮を行わない）信号を作成すれば良く、このときに、ピッチ周波数、音韻情報などの他の情報が失われていたとしても構わない。
このような、登録音声の発声速度を含む信号を、提示用情報として利用者に聞かせることにより、利用者は、登録時と同じ速度で発声できる。これにより、入力音声の類似度が高くなり、本人が誤って棄却される可能性が少なくなる。
また、（５）の登録音声の発話内容（キーワード）を表すテキストを提示することにより、正規利用者本人が登録音声のキーワードを忘れてしまった場合でも、誤って棄却されてしまう可能性が少なくなる。
以下、上述の構成にかかる音声認証装置による認証処理の手順について、図２のフローチャートを参照しながら説明する。
音声認証装置は、まず、初期化処理を行った後、例えば「ＩＤを入力して下さい」のような指示を出し、認証を受けようとする利用者に、識別子（個人ＩＤ）を識別子入力部１５より入力させる（ステップＳ４０１）。なお、前記の初期化処理では、提示用情報の提示回数を表すカウンタの値を０に設定すると共に、提示用情報の提示回数の上限値をｎ（ｎ：自然数）に設定する。なお、このｎの値は、必要とされる認証精度等に応じて適宜に設定すれば良い。
続いて、音声認証装置は、例えば「キーワードを発声して下さい」のような指示を出し、利用者にキーワードを発声させ、音声入力部１１よりその音声を入力する（ステップＳ４０２）。
音声入力部１１は、入力音声を特徴抽出部１２へ送る。特徴抽出部１２は、入力音声を特徴パラメータの時系列に変換する。そして、類似度算出部１３が、特徴抽出部１２で得られた特徴パラメータの時系列と、利用者が入力した個人ＩＤに対応する標準テンプレートとの類似度を計算する。さらに、判定部１４が、類似度算出部１３で得られた類似度と、予め定められている判定用の閾値とを比較する（ステップＳ４０３）。ここで、特徴抽出部１２で得られる特徴パラメータは、例えば、ＬＰＣ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）ケプストラムやＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）などのスペクトラム包絡の情報である。
類似度が判定用閾値よりも大きい場合は（ステップＳ４０３の結果がＹＥＳ）、認証を受けようとする利用者を、正規利用者本人であるとして、受理する（ステップＳ４０４）。
一方、類似度が判定用閾値以下であれば（ステップＳ４０３の結果がＮＯ）、判定部１４は、類似度算出部１３で得られた類似度を、提示用の閾値と比較する（ステップＳ４０５）。提示用の閾値は、最初、利用者が正規利用者本人であるとして受理されるための基準となる前記判定用閾値よりも低い値であって、かつ、利用者が明らかに正規利用者本人ではないと判断される値に初期設定されている。
類似度が提示用の閾値以下である場合（ステップＳ４０５の結果がＮＯ）、認証を受けようとする利用者を、正規利用者本人ではないとして、棄却し（ステップＳ４０７）、当該利用者に対する認証処理を終了する。
一方、類似度が提示用の閾値より大きい場合（ステップＳ４０５の結果がＹＥＳ）、提示用情報の提示回数のカウンタ値が上限値ｎを超えていないか判定し（ステップＳ４０６）、超えていなければ（ステップＳ４０６の結果がＹＥＳ）、提示用情報抽出部１９が、識別子入力部１５より入力された個人ＩＤに対応する登録音声を登録音声記憶部１０から受け取り、その登録音声から提示用情報を抽出し、提示用情報出力部１８へ渡す。これにより、提示用情報出力部１８により、利用者に対して提示用情報を出力すると共に、提示用情報の提示回数のカウンタに１を加算する（ステップＳ４０８）。なお、ステップＳ４０８で登録音声から抽出して出力する提示用情報としては、例えば、（１）登録音声のピッチ周波数の情報を含む信号、（２）登録音声のパワーの情報を含む信号、（３）登録音声の音韻情報を含む信号、（４）登録音声の発声速度の情報を含む信号、（５）登録音声の発話内容を表すテキスト、のいずれかを用いる。
なお、提示用情報を提示するタイミングは、一度認証に失敗した後であって再度認証を行わせる前に限定されない。すなわち、利用者が個人ＩＤを入力した後、最初の認証前に提示用情報を提示するようにしても良い。
そして、判定用閾値および提示用閾値の値を所定の値の分だけ引き上げ（ステップＳ４０９）、ステップＳ４０２へ戻って利用者に再度の音声入力を許可する。
以降、ステップＳ４０２〜Ｓ４０９の処理を、利用者が受理または棄却されるか、あるいは、提示用情報の提示回数が上限値ｎを超えるまで、繰り返す。提示用情報の提示回数が上限値ｎを超えた場合は（ステップＳ４０６の結果がＮＯ）、利用者を棄却する（ステップＳ４０７）。
なお、図２のフローチャートは、本発明の一実施形態としての音声認証装置の動作例を示したものに過ぎず、本発明を限定するものではない。例えば、この例では、判定用閾値の他に提示用閾値を設定し、提示用閾値を基準として、利用者を棄却するか再度の音声入力を行わせるかを決定するものとしたが、提示用閾値を設けず、受理されなかった場合は無条件に提示用情報を利用者に提示し、提示回数が上限値ｎに達するまで、再度の音声入力および再判定を行うようにしても良い。また、図２の例では、再度の音声入力の前に、判定用閾値および提示用閾値を引き上げるステップ（ステップＳ４０９）を含むが、認証精度が許容範囲であれば、このステップは必須ではない。あるいは、判定用閾値は一定に保持し、類似度を計算する際の重み付け等を変更することも考えられる。
一方、図２に示した手順よりも好ましい態様として、ステップＳ４０８を二度目以降に実行する場合、それまでに提示した提示用情報とは異なる種類の提示用情報を出力することが考えられる。例えば、１回目の提示用情報として、前記（１）の登録音声のピッチ周波数の情報を含む信号を用いた場合、２回目の提示用情報としては、例えば、前記（２）の登録音声のパワーの情報を含む信号を用いるなどとすれば良い。
さらに、提示回数に応じてだけでなく、提示用情報の種類に応じて、判定用閾値の値を変化させることも好ましい。例えば、前記（３）の音韻情報や（５）の登録音声の発話内容を表すテキストを提示用情報として出力して音声を再入力させた場合、他の提示用情報を出力した場合よりも、再入力された音声と登録音声との類似度が向上し易いと考えられる。従って、類似度が向上し易い提示用情報を出力した後は、他人を受理してしまう危険性を回避するために、判定用閾値を高めに設定することが好ましい。
また、図２のフローチャートに示した手順では、最初の音声入力時は提示用情報を提示せず、利用者の記憶のみに基づいてキーワードの発声をさせるものとしているが、最初の音声入力時から、例えば利用者が提示用情報の出力を希望した場合に（あるいは無条件に）、提示用情報の提示を行うようにしても構わない。
以上のように、本実施形態によれば、音声登録時から時間が経過したことなどによって、利用者の発声の変形があったとしても、登録音声から生成した提示用情報を、認証を受けようとする利用者へ提示することにより、利用者は、提示用情報を真似ることにより、登録音声に近い発声を行うことが可能となる。
なお、提示用情報を出力しても、必ずしも、他人が正規利用者になりすますことが容易になる訳ではない。例えば、他人が登録音声のピッチ周波数などを真似したからといって、声紋（音声のスペクトル包絡の情報）が登録音声に近づく訳ではない。しかし、正規利用者本人が登録音声のピッチ周波数などを真似すると、声紋も登録音声のものに近づけることが可能である。換言すると、他人が登録音声のピッチ周波数などを真似した時の類似度の上がり具合よりも、本人が登録音声のピッチ周波数などを真似した時の類似度の上がり具合の方が大きい。従って、提示用情報を出力することによって、他人のなりすましを的確に棄却しつつ、かつ、本人の認証精度を向上させることが可能である。ただし、特に高い認証精度が要求される場合は、図２を参照して前述したように、提示用情報を出力した後に、再入力される音声の判定用閾値を引き上げることが好ましい。
（第２の実施形態）
本発明にかかる音声認証装置の第２の実施形態について説明する。第２の実施形態にかかる音声認証装置の構成は、第１の実施形態で説明した図１と同様であるため、詳細な説明は省略する。
以下、本実施形態にかかる音声認証装置による認証処理の手順について、図３のフローチャートを参照しながら説明する。
本実施形態にかかる音声認証装置は、まず、例えば「ＩＤを入力して下さい」のような指示を出し、認証を受けようとする利用者に、識別子（個人ＩＤ）を識別子入力部１５より入力させる（ステップＳ５０１）。
次に、音声認証装置は、利用者に、提示を求める提示用情報の種類を選択して入力させる（ステップＳ５０２）。提示用情報の選択肢としては、例えば、（１）登録音声のピッチ周波数の情報を含む信号、（２）登録音声のパワーの情報を含む信号、（３）登録音声の音韻情報を含む信号、（４）登録音声の発声速度の情報を含む信号、（５）登録音声の発話内容（キーワード）を表すテキスト、などがある。なお、ここでは、提示用情報の種類を利用者に選択入力させるものとしたが、これに限定されず、提示用情報の種類を音声認証装置が適宜に選択する構成としても良い。
続いて、提示用情報抽出部１９が、識別子入力部１５より入力された個人ＩＤに対応する登録音声を登録音声記憶部１０から受け取り、その登録音声から、ステップＳ５０２で利用者が選択した種類の提示用情報を抽出し、提示用情報出力部１８へ渡す。これにより、提示用情報出力部１８により、利用者が選択した種類の提示用情報を出力する（ステップＳ５０３）。
この後、判定部１４が、判定の際に用いる判定用閾値を通常よりも引き上げるが（ステップＳ５０４）、ステップＳ５０２で利用者が選択した提示用情報の種類に応じて、引き上げ量を異ならせることが好ましい。例えば、上記の（１）〜（５）の提示用情報を用いる場合、判定用閾値の引き上げ量は、（３）の音韻情報または（５）のキーワードを提示した場合に最も大きくし、（１）のピッチ周波数を提示した場合は中程度、（４）の発声速度または（２）のパワーを提示した場合に最も小さくすると良い。これは、（３）の音韻情報または（５）のキーワードを提示用情報として提示した場合に、その提示用情報を真似ることにより、登録音声に対する類似度が最も大きく向上するので、判定用閾値を比較的大きく引き上げなければ、他人を受理してしまう確率が高くなるからである。
続いて、音声認証装置は、例えば「キーワードを発声して下さい」のような指示を出し、利用者にキーワードを発声させ、音声入力部１１よりその音声を入力する（ステップＳ５０５）。
音声入力部１１は、入力音声を特徴抽出部１２へ送る。特徴抽出部１２は、入力音声を特徴パラメータの時系列に変換する。そして、類似度算出部１３が、特徴抽出部１２で得られた特徴パラメータの時系列と、その利用者の個人ＩＤに対応する標準テンプレートとの類似度を計算する。さらに、判定部１４が、類似度算出部１３で得られた類似度と判定用閾値とを比較する（ステップＳ５０６）。ここでも、特徴抽出部１２で得られる特徴パラメータとしては、例えば、ＬＰＣ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）ケプストラムやＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）などのスペクトラム包絡の情報を用いることができる。
類似度が判定用閾値よりも大きい場合は（ステップＳ５０６の結果がＹＥＳ）、認証を受けようとする利用者を、正規利用者本人であるとして、受理する（ステップＳ５０７）。一方、類似度が判定用閾値以下であれば（ステップＳ５０６の結果がＮＯ）、判定部１４は、認証を受けようとする利用者を、正規利用者ではないとして棄却する（ステップＳ５０８）。
以上のように、図３のフローチャートに示す手順によれば、利用者に提示する情報の内容（種類）に応じて、本人受理の条件（判定用閾値）を適切に変更することにより、提示された情報をもとに、他人が登録時の音声に近い発声を再現しても、その他人を誤って受理してしまう事態を防止できる。
なお、図３のフローチャートは、本発明の一実施形態としての音声認証装置の動作例を示したものに過ぎず、本発明を限定するものではない。例えば、ステップＳ５０２において、「提示用情報は不要」との選択肢をさらに設け、利用者がこれを選択した場合は、ステップＳ５０３およびＳ５０４をスキップし、ステップＳ５０５へ進むようにしても良い。
あるいは、利用者に、提示を求める提示用情報の種類を選択入力させるのではなく、提示用情報抽出部１９が、提示用情報を抽出する毎あるいは数回毎に、所定の規則に従ってあるいはランダムに、抽出すべき提示用情報の種類を決定する態様としても良い。
（第３の実施形態）
本発明にかかる音声認証装置の第３の実施形態について説明する。第３の実施形態にかかる音声認証装置の構成は、第１の実施形態で説明した図１と同様であるため、詳細な説明は省略する。
以下、本実施形態にかかる音声認証装置による認証処理の手順について、図４のフローチャートを参照しながら説明する。
本実施形態にかかる音声認証装置は、まず、例えば「ＩＤを入力して下さい」のような指示を出し、認証を受けようとする利用者に、識別子（個人ＩＤ）を識別子入力部１５より入力させる（ステップＳ６０１）。
続いて、音声認証装置は、例えば「キーワードを発声して下さい」のような指示を出し、利用者にキーワードを発声させ、音声入力部１１よりその音声を入力する（ステップＳ６０２）。
音声入力部１１は、入力音声を特徴抽出部１２へ送る。特徴抽出部１２は、入力音声を特徴パラメータの時系列に変換する。そして、類似度算出部１３が、特徴抽出部１２で得られた特徴パラメータの時系列と、利用者が入力した個人ＩＤに対応する標準テンプレートとの類似度を計算する。さらに、判定部１４が、類似度算出部１３で得られた類似度と、予め定められている判定用の閾値とを比較する（ステップＳ６０３）。ここで、特徴抽出部１２で得られる特徴パラメータとしては、例えば、ＬＰＣ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）ケプストラムやＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）などのスペクトラム包絡の情報を用いることができる。
類似度が判定用閾値よりも大きい場合は（ステップＳ６０３の結果がＹＥＳ）、認証を受けようとする利用者を、正規利用者本人であるとして、受理する（ステップＳ６０４）。
一方、類似度が判定用閾値以下であれば（ステップＳ６０３の結果がＮＯ）、判定部１４は、類似度算出部１３で得られた類似度を、提示用の閾値と比較する（ステップＳ６０５）。提示用の閾値は、最初、利用者が正規利用者本人であるとして受理されるための基準となる前記判定用閾値よりも低い値であって、かつ、利用者が明らかに正規利用者本人ではないと判断される値に初期設定されている。
類似度が提示用の閾値以下である場合（ステップＳ６０５の結果がＮＯ）、認証を受けようとする利用者を、正規利用者本人ではないとして、棄却し（ステップＳ６０７）、当該利用者に対する認証処理を終了する。
一方、類似度が提示用の閾値より大きい場合（ステップＳ６０５の結果がＹＥＳ）、提示用情報抽出部１８において、登録音声の発声長ｔ１とステップＳ６０２で入力された音声の発声長ｔ２との比ｔ１／ｔ２を計算する（ステップＳ６０６）。そして、ｔ１／ｔ２が１よりも小さければ「もっと速く発声して下さい」というメッセージを提示用情報出力部１８より出力し、ｔ１／ｔ２が１よりも大きければ「もっとゆっくり発声して下さい」というメッセージを提示用情報出力部１８より出力する（ステップＳ６０８）。なお、ここで、ｔ１／ｔ２の閾値を１としたが、これはあくまでも一例であり、種々の変更が可能である。例えば、ｔ１／ｔ２の値が第１の閾値（例えば０．８）未満であれば「もっと速く発声して下さい」、第２の閾値（例えば１．２）以上であれば「もっとゆっくり発声して下さい」というメッセージをステップＳ６０８で出力するものとして、それ以外であれば、ステップＳ６０８をスキップするようにしても良い。
そして、判定用閾値および提示用閾値の値を引き上げ（ステップＳ６０９）、ステップＳ６０２へ戻って利用者に再度の音声入力を許可する。以降、ステップＳ６０２〜Ｓ６０９の処理を、利用者が受理または棄却されるまで、繰り返す。
このように、登録音声の発声速度と認証時の入力音声の発声速度との違いを利用者に認識させた上で、音声の再入力をさせることにより、認証精度を向上させることができる。
なお、図４のフローチャートは、本発明の一実施形態としての音声認証装置の動作例を示したものに過ぎず、本発明を限定するものではない。例えば、この例では、ステップＳ６０８において、提示用情報として、発声速度に関するテキストメッセージを表示出力あるいは音声出力するものとしたが、提示用情報はこのようなテキストメッセージに限らない。また、第１の実施形態で説明したように、閾値を引き上げるステップ（ステップＳ６０９）は、認証精度が許容範囲であれば、必須ではない。
また、上記の説明では、ステップＳ６０５の結果がＹＥＳであった場合、ステップＳ６０６においてｔ１／ｔ２を計算し、その結果により発声速度に関する情報を提示（ステップＳ６０８）するものとした。しかし、ステップＳ６０６及びステップＳ６０８の変形例として、以下のような処理例も考えられる。
まず、第１の変形例として、ステップＳ６０６において、ピッチ周波数の距離が閾値以上であるか否かを判定し、閾値以上であれば、ステップＳ６０８でピッチ周波数の情報を提示することが考えられる。ステップＳ６０８での「ピッチ周波数の情報を提示する」とは、例えば、登録音声のピッチ周波数の情報を含む信号を提示することや、「もっと高い声で発声してください」というメッセージを出力することをいう。ここで、ピッチ周波数の距離とは、入力音声のピッチ包絡と登録音声のピッチ包絡についてのＤＰ（ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）距離である。
また、第２の変形例として、ステップＳ６０６において、パワーの距離が閾値以上であるか否かを判定し、閾値以上であれば、ステップＳ６０８でパワーの情報を提示することが考えられる。ステップＳ６０８での「パワーの情報を提示する」とは、登録音声のパワーの情報を含む信号を出力すること等をいう。ここで、パワーの距離とは、入力音声のパワー包絡と登録音声のパワー包絡についてのＤＰ（ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）距離である。
さらに、第３の変形例として、ステップＳ６０６において、ステップＳ６０２で入力された音声に対して音声認識を行ったときに、認識結果がキーワードと一致するか否かを判定し、一致しないと判定された場合に、ステップＳ６０８で音韻情報またはキーワードを提示することが考えられる。
なお、上記の実施形態では、音声認証装置が、正規利用者の登録音声を記憶した登録音声記憶部を備え、必要の都度、提示用情報抽出部が登録音声記憶部から必要な提示用情報を生成するものとした。しかし、本発明はこれに限定されず、正規利用者の登録音声から提示用情報を予め生成して音声認証装置内の適宜の記憶媒体に記憶させておき、提示用情報抽出部がその記憶媒体から利用者の識別子に応じた提示用情報を抽出するようにしても良い。あるいは、キーワードや発声速度に関するパラメータなどの信号以外は予め作成して音声認証装置内の適宜の記憶媒体に記憶させておき、キーワードや発声速度に関するパラメータなどは認証時に生成するようにしても良い。
なお、上述では、本発明の実施形態として、ハードウェアによる構成例を図１に示したが、本発明の一側面として、コンピュータによって例えば図１に例示したような音声認証装置を実現するためのプログラムおよびそのプログラムを記録した記録媒体もある。すなわち、例えば図２〜図４に示したような処理手順をコンピュータに実行させるためのコンピュータプログラムおよびそれを記録したコンピュータ読み取りが可能な任意の記録媒体も、本発明の一実施形態に含まれる。

以上のように、本発明によれば、認証を受けようとする利用者に対して、登録音声に関する情報を提示することにより、認証時に登録音声に近い発声の再現を可能として認証精度を向上することが可能な、テキスト依存型の音声認証システムを提供できる。

Claims

正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部と、
認証を受けようとする利用者に識別子を入力させる識別子入力部と、
認証を受けようとする利用者に音声を入力させる音声入力部と、
前記識別子入力部より入力された識別子に対応する標準テンプレートを前記標準テンプレート記憶部より選択する標準テンプレート選択部と、
前記標準テンプレート選択部により選択された標準テンプレートを参照し、前記音声入力部より入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定部と、
前記識別子入力部より入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出部と、
前記提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力部とを備え、
前記提示用情報が、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定部において判定基準として用いられる情報とは異なる情報であり、
前記判定部において提示用情報を出力すると判定した場合は、前記提示用情報抽出部により提示用情報を抽出し、抽出した提示用情報を前記提示用情報出力部により出力することを特徴とする音声認証システム。
前記提示用情報が、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声の音声特性に関する情報、登録音声のピッチ周波数の情報を含む信号、登録音声の音韻情報を含む信号、登録音声のパワーの情報を含む信号、発声速度の情報を含む信号、および、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声の発話内容を表すテキスト、のうち少なくとも一つを含む、請求の範囲１に記載の音声認証システム。
前記判定部において判定基準として用いられる音声特性が、音声のスペクトル包絡の情報である、請求の範囲１または２に記載の音声認証システム。
前記提示用情報出力部により提示用情報を利用者に対して出力した後に、前記音声入力部より再度の音声入力をさせると共に、
再度入力された音声に基づいて、前記判定部において再度の判定をする際、判定基準となる閾値を前回の判定時よりも所定の値だけ高く設定する、請求の範囲１〜３のいずれか一項に記載の音声認証システム。
前記提示用情報抽出部が、複数種類の提示用情報から、利用者に対して提示すべき提示用情報を選択して抽出し、
前記判定部が、提示用情報の種類に応じた判定基準を持ち、前記提示用情報抽出部により抽出された提示用情報の種類に応じて、前記判定部における判定基準を変更する、請求の範囲１〜４のいずれか一項に記載の音声認証システム。
認証を受けようとする利用者に識別子を入力させる工程と、
認証を受けようとする利用者に音声を入力させる工程と、
正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、
前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、
前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とを含み、
前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とする音声認証方法。
認証を受けようとする利用者に識別子を入力させる工程と、
認証を受けようとする利用者に音声を入力させる工程と、
正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、
前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、
前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とをコンピュータに実行させる命令を含み、
前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とするコンピュータプログラム。
認証を受けようとする利用者に識別子を入力させる工程と、
認証を受けようとする利用者に音声を入力させる工程と、
正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、
前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、
前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とをコンピュータに実行させる命令を含み、
前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とするコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。