JP4213716B2 - 音声認証システム - Google Patents
音声認証システム Download PDFInfo
- Publication number
- JP4213716B2 JP4213716B2 JP2005507393A JP2005507393A JP4213716B2 JP 4213716 B2 JP4213716 B2 JP 4213716B2 JP 2005507393 A JP2005507393 A JP 2005507393A JP 2005507393 A JP2005507393 A JP 2005507393A JP 4213716 B2 JP4213716 B2 JP 4213716B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- presentation information
- user
- input
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
Description
また、音声認証方式の一つとして、登録時と認証時に同じ発話内容を用いて本人認証を行う、いわゆるテキスト依存型の音声認証方式が知られている。テキスト依存型の音声認証は、登録時に登録した発話内容を認証時に用いるものであり、テキスト従属方式、パスワード方式、キーワード方式、あるいはキーフレーズ方式と称されることもある。テキスト依存型の音声認証では、あらかじめ決められた発話内容(キーワード)または正規利用者が自由に決めた発話内容の音声をシステムに登録しておく。そして、認証を受けようとする者が、そのキーワードを音声で入力すると、入力音声が、その話者の音声として登録されている音声の特徴と一致するか否かで本人認証がなされる。このとき、入力音声の発話内容が、登録されている発話内容と一致するか否かのチェックが行われる場合もある。
例えば、テキスト依存型の音声認証の従来例として、特開2002−304379号公報に、被認証者単位で複数の言葉とこれらの言葉を被認証者に発声させたときの声紋データを予め記憶媒体に記憶させておき、否認証者から入力されたIDデータに対応する複数の言葉のうちの任意の1つとそれに対応する声紋データを選択し、その言葉を被認証者に提示して発声させ、声紋を解析して予め記憶させた声紋データと照合することにより、被認証者を個人認証するシステムが開示されている。
ここで、図5および図6を参照し、従来の音声認証方式について説明する。
図5は、音声認証用の標準テンプレートの作成・登録を行うための従来の音声登録システムの概略構成を示す。図5に示すように、音声登録時には、従来の音声登録システム104は、正規利用者として登録される利用者101により音声入力部106に対して発声された入力音声を、特徴抽出部107において特徴パラメータの時系列に変換し、標準テンプレート作成部108において標準テンプレートを作成する。作成された標準テンプレートは、その利用者に与えられる個人ID(図5の例では#M)に関連付けて、標準テンプレート記憶部109に記憶する。
図6は、図5に示した音声登録システムで登録された正規利用者の登録音声を用いる従来の音声認証システムの概略構成を示す。この認証システム204の標準テンプレート記憶部207には、音声登録システム104の標準テンプレート記憶部109のデータ、すなわち、正規利用者の個人IDと関連づけられた標準テンプレートが格納されている。
図6に示すように、認証時には、認証を受けようとする利用者201は、認証システム204の個人ID入力部205に対し、個人ID(図6の例では#M)を入力すると共に、音声入力部208に対して音声を入力する。入力された音声は、特徴抽出部209において特徴パラメータの時系列に変換される。入力された個人IDは、標準テンプレート選択部206へ送られる。標準テンプレート選択部206は、入力された個人IDに対応する標準テンプレートを、標準テンプレート記憶部207から選択し、類似度算出部210へ送る。
類似度算出部は、特徴抽出部209で得られた特徴パラメータの時系列と、標準テンプレート選択部206で選択された標準テンプレートとの類似度を計算する。判定部211は、計算された類似度と、予め決められている閾値とを比較することにより、利用者201を本人であるとして受理するか他人であるとして棄却するかの判断を下し、判定結果を出力する。
テキスト依存型の音声認証方式を採用する場合は、音声登録システム104への音声登録時に、音声登録システムまたは各利用者がキーワードを決めてそのキーワードを発声して登録し、認証時には、利用者は、記憶しているそのキーワードを発声して認証を行うこととなる。
しかし、音声登録システムへ音声の登録を行ってから、実際に認証システムを利用するまでに時間が経過すると、たとえ登録した本人であっても、発声の変形が起こり得る。発声の変形とは、音声のピッチ周波数、イントネーション、パワー、発声速度、スペクトルなどの情報が変化することをいう。発声の変形が起こると、類似度算出部210において算出される類似度が下がるので、本人であるにも関わらず、他人であると誤って判断されることが多くなる。このように、登録時と認証時のキーワードの発声に変形が起こったことが原因で認証精度が劣化してしまうという問題は、従来より、テキスト依存型の音声認証方式の解決課題であった。
上記の目的を達成するために、本発明にかかる音声認証システムは、正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部と、認証を受けようとする利用者に識別子を入力させる識別子入力部と、認証を受けようとする利用者に音声を入力させる音声入力部と、前記識別子入力部より入力された識別子に対応する標準テンプレートを前記標準テンプレート記憶部より選択する標準テンプレート選択部と、前記標準テンプレート選択部により選択された標準テンプレートを参照し、前記音声入力部より入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定部と、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出部と、前記提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力部とを備え、前記提示用情報が、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定部において判定基準として用いられる情報とは異なる情報であり、前記判定部において提示用情報を出力すると判定した場合は、前記提示用情報抽出部により提示用情報を抽出し、抽出した提示用情報を前記提示用情報出力部により出力することを特徴とする。
上記の構成によれば、登録時から時間が経過することによって発声の変形が起こったとしても、認証を行う際に登録音声に関する情報を提示することで、認証を受けようとする利用者は、この情報を参照することによって登録時の発声方法に近い発声を再現し易くなり、入力音声の類似度が高くなる。また、前記提示用情報が、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定部において判定の基準として用いられる情報とは異なる情報であることにより、他人の棄却率を低下させることなく、本人の受理率を向上させることができるので、認証精度を向上させることができる。
前記音声認証システムにおいて、前記提示用情報は、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声の音声特性に関する情報、登録音声のピッチ周波数の情報を含む信号、登録音声の音韻情報を含む信号、登録音声のパワーの情報を含む信号、発声速度の情報を含む信号、および、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声の発話内容を表すテキスト、のうち少なくとも一つを含むことが好ましい。
前記音声認証システムにおいて、前記判定部において判定基準として用いられる音声特性としては、音声のスペクトル包絡の情報を用いることができる。
前記音声認証システムにおいて、本人認証に失敗し、前記提示用情報出力部により提示用情報を利用者に対して出力した後に、前記音声入力部より再度の音声入力をさせると共に、再度入力された音声に基づいて、前記判定部において再度の判定をする際、判定基準となる閾値を前回の判定時よりも所定の値だけ高く設定することが好ましい。
前記音声認証システムにおいて、提示用情報抽出部が、複数種類の提示用情報から、利用者に対して提示すべき提示用情報を選択して抽出し、前記判定部が、提示用情報の種類に応じた判定基準を持ち、前記提示用情報抽出部により抽出された提示用情報の種類に応じて、前記判定部における判定基準を変更することが好ましい。
なお、上記の構成において、利用者に、提示を求める提示用情報の種類を選択入力させ、その選択入力結果に従って提示用情報抽出部が提示用情報を選択・抽出する態様としても良いし、提示用情報抽出部が、所定の規則に従ってあるいはランダムに、提示用情報の種類を選択する態様としても良い。
また、上記の目的を達成するために、本発明にかかる音声認証方法は、認証を受けようとする利用者に識別子を入力させる工程と、認証を受けようとする利用者に音声を入力させる工程と、正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とを含み、前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とする。
上記の音声認証方法において、提示用情報抽出工程および提示用情報出力工程は、認証を受けようとする利用者に最初に音声を入力させる前にあっても良いし、最初に入力した音声に基づいて前記判定工程により正規利用者本人の声でないと判定された後にあっても良い。
また、上記の目的を達成するために、本発明にかかるコンピュータプログラムは、認証を受けようとする利用者に識別子を入力させる工程と、認証を受けようとする利用者に音声を入力させる工程と、正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とをコンピュータに実行させる命令を含み、前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とする。
さらに、上記の目的を達成するために、本発明にかかるコンピュータ読み取りが可能な記録媒体は、認証を受けようとする利用者に識別子を入力させる工程と、認証を受けようとする利用者に音声を入力させる工程と、正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とをコンピュータに実行させる命令を含み、前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とする。
図2は、本発明の一実施形態にかかる音声認証装置の動作を示すフローチャートである。
図3は、本発明の他の実施形態にかかる音声認証装置の動作を示すフローチャートである。
図4は、本発明のさらに他の実施形態にかかる音声認証装置の動作を示すフローチャートである。
図5は、音声認証用の標準テンプレートの作成・登録を行うための従来の音声登録システムの概略構成を示すブロック図である。
図6は、図5に示した音声登録システムで登録された正規利用者の登録音声を用いる従来の音声認証システムの概略構成を示すブロック図である。
(第1の実施形態)
図1は、本発明の一実施形態にかかる音声認証装置の構成例を示すブロック図である。
図1に示すように、本実施形態にかかる音声認証装置は、利用者が入力した音声の発話内容と音声特性との両方に基づいて、当該入力音声が正規利用者として予め登録されている者の声であるか否かを判定することにより、利用者が本人であるか否かの認証を行う、テキスト依存型の音声認証装置である。このため、本音声認証装置は、登録音声記憶部10、音声入力部11、特徴抽出部12、類似度算出部13、判定部14、識別子入力部15、標準テンプレート・登録音声選択部16、標準テンプレート記憶部17、提示用情報出力部18、提示用情報抽出部19を備えている。
なお、図1には、本発明にかかる音声認証システムを1筐体のハードウェア(音声認証装置)として構成した例を示したが、本発明にかかる音声認証システムは、複数個のハードウェアから構成することもできる。その場合、例えば、利用者に対するインタフェースとなる音声入力部11、識別子入力部15、および提示用情報出力部18を、利用者が直接アクセス可能なハードウェア構成(例えば携帯電話、PDA、またはパーソナルコンピュータなど)とし、その他のブロックに無線または有線の通信媒体を介して接続する構成とすることも可能である。
ここで、上記の各ブロックの機能について簡単に説明する。
登録音声記憶部10は、正規利用者の登録音声を、各正規利用者の識別子に関連づけて記憶している。標準テンプレート記憶部17は、正規利用者の登録音声から作成された標準テンプレートを記憶している。標準テンプレートは、登録音声の音声特性で特徴付けられた情報であり、例えば、登録音声から得られたLPC(linear predictive coding)ケプストラムの分布をGMM(Gaussian Mixture Model)のような方法によりモデル化することにより生成される。標準テンプレートは、登録音声の発話内容(テキスト)の情報および音声特性で特徴付けても良い。
音声入力部11は、例えばマイクなどを含み、認証を受けようとする利用者の音声を入力する。
特徴抽出部12は、音声入力部11から入力された音声を特徴パラメータの時系列に変換する。特徴抽出部12で得られる特徴パラメータは、例えば、LPCケプストラムまたはMFCC(Mel−Frequency Cepstral Coefficients)などのスペクトラム包絡情報である。すなわち、LPCケプストラムを用いる場合、特徴抽出部12は、入力された音声から、LPCケプストラムの時系列を得る。また、MFCCを用いる場合、特徴抽出部12は、入力された音声から、MFCCの時系列を得る。
類似度算出部13は、特徴抽出部12で得られた特徴パラメータの時系列と標準テンプレートとの類似度を計算する。例えば特徴パラメータとしてLPCケプストラムのスペクトラム包絡情報を用いる場合、類似度算出部13は、入力された音声から得られたLPCケプストラムの、予め登録された正規利用者の標準テンプレートに対する類似度を計算する。
判定部14は、類似度算出部13で得られた類似度と、予め定められている閾値とを比較し、利用者が本人であるとして受理するか、あるいは利用者が本人ではないとして棄却するかの判定結果を出力する。
識別子入力部15は、認証を受けようとする利用者に識別子を入力させる部分であり、テンキーなどを含むプッシュボタン、キーボード、タッチパネルなどで実現可能であるが、これら以外に、音声認識によって識別子を入力する構成や、IDカード等の情報記録媒体から識別子を磁気的、電気的、あるいは光学的に読み込む構成であっても良い。なお、この識別子は、正規利用者毎に予め設定されており、各正規利用者を一意に特定することが可能であることを条件として、数字、文字、あるいはこれらの組み合わせなどからなる任意の識別子を用いることができる。本実施形態では、個人IDを用いるものとする。
標準テンプレート・登録音声選択部16は、識別子入力部15により入力された識別子に対応する標準テンプレートを標準テンプレート記憶部17から選択すると共に、当該識別子に対応する登録音声を登録音声記憶部10から選択する。
提示用情報抽出部19は、識別子入力部15より入力された識別子に対応する正規利用者の登録音声から、判定部14にて判定の基準として参照される音声特性とは異なる音声特性に関する情報、あるいは、登録音声の発話内容を表すテキストを生成する。この情報が、認証を受けようとする利用者に対して提示される提示用情報である。
提示用情報出力部18は、提示用情報抽出部19により抽出された提示用情報を、認証を受けようとする利用者に対して出力するものであり、提示用情報の種類に応じて、適宜のハードウェアを用いて実現される。例えば、提示用情報が視覚的に認識され得るものであればディスプレイを用いれば良いし、提示用情報が聴覚により認識され得るものであればスピーカを用いれば良い。あるいは、ディスプレイとスピーカとの組み合わせであっても良い。
登録音声から生成される提示用情報としては、例えば、(1)登録音声のピッチ周波数の情報を含む信号、(2)登録音声のパワーの情報を含む信号、(3)登録音声の音韻情報を含む信号、(4)登録音声の発声速度の情報を含む信号、(5)登録音声の発話内容(キーワード)を表すテキスト、などがある。
例えば、(1)のピッチ周波数の情報を含む信号は、提示用情報抽出部19において、登録音声に対してLPC分析を行い、スペクトルの逆フィルタをかけることで得られる残差信号として、生成することができる。あるいは、登録音声に対してピッチ抽出を行い、このピッチ周期で並べられたパルス列として生成することもできる。前記ピッチ抽出は、音声から抽出されたケプストラムの高ケフレンシーでピークとなる部分をピッチ周期とする方法によって、実現できる。
このような、ピッチ周波数の情報を含む信号を、提示用情報として利用者に聞かせることにより、利用者は、登録時のピッチ周波数とイントネーションに近い発声方法を再現できる。これにより、入力音声の類似度が高くなり、本人が誤って棄却される可能性が少なくなる。
また、(2)の登録音声のパワーの情報を含む信号は、提示用情報抽出部19において、例えば、登録音声のパワーの時間変化の情報が保持された(つまり、パワー情報の操作を行わない)信号を作成すれば良く、このときに、ピッチ周波数、音韻情報などの他の情報が失われていたとしても構わない。
このような、パワーの情報を含む信号を、提示用情報として利用者に聞かせる(あるいは見せる)ことにより、利用者は、登録時のパワーに近い発声方法を再現できる。これにより、入力音声の類似度が高くなり、本人が誤って棄却される可能性が少なくなる。また、提示用情報に音韻情報を含まないようにすれば、キーワードを隠蔽できるという利点がある。
また、(3)の登録音声の音韻情報を含む信号は、提示用情報抽出部19において、例えば、音声認識により登録音声の発声内容(キーワード)を得て、このキーワードに従い規則合成を行うことにより得られる。あるいは、登録音声をフーリエ変換して得られたスペクトルを、周波数軸上で伸縮させ、逆フーリエ変換することによっても得られる。さらに他の方法としては、登録音声のピッチ抽出を行い、1ピッチ波形を時間軸上で伸縮させることによって得ることもできる。
このような、登録音声の音韻情報を含む信号を、提示用情報として利用者に聞かせることにより、利用者は、登録時の音韻と同じ発声を再現できる。これにより、入力音声の類似度が高くなり、本人が誤って棄却される可能性が少なくなる。
さらに、(4)の登録音声の発声速度の情報を含む信号は、提示用情報抽出部19において、例えば、登録音声の発声速度の情報が保持された(つまり、時間軸の伸縮を行わない)信号を作成すれば良く、このときに、ピッチ周波数、音韻情報などの他の情報が失われていたとしても構わない。
このような、登録音声の発声速度を含む信号を、提示用情報として利用者に聞かせることにより、利用者は、登録時と同じ速度で発声できる。これにより、入力音声の類似度が高くなり、本人が誤って棄却される可能性が少なくなる。
また、(5)の登録音声の発話内容(キーワード)を表すテキストを提示することにより、正規利用者本人が登録音声のキーワードを忘れてしまった場合でも、誤って棄却されてしまう可能性が少なくなる。
以下、上述の構成にかかる音声認証装置による認証処理の手順について、図2のフローチャートを参照しながら説明する。
音声認証装置は、まず、初期化処理を行った後、例えば「IDを入力して下さい」のような指示を出し、認証を受けようとする利用者に、識別子(個人ID)を識別子入力部15より入力させる(ステップS401)。なお、前記の初期化処理では、提示用情報の提示回数を表すカウンタの値を0に設定すると共に、提示用情報の提示回数の上限値をn(n:自然数)に設定する。なお、このnの値は、必要とされる認証精度等に応じて適宜に設定すれば良い。
続いて、音声認証装置は、例えば「キーワードを発声して下さい」のような指示を出し、利用者にキーワードを発声させ、音声入力部11よりその音声を入力する(ステップS402)。
音声入力部11は、入力音声を特徴抽出部12へ送る。特徴抽出部12は、入力音声を特徴パラメータの時系列に変換する。そして、類似度算出部13が、特徴抽出部12で得られた特徴パラメータの時系列と、利用者が入力した個人IDに対応する標準テンプレートとの類似度を計算する。さらに、判定部14が、類似度算出部13で得られた類似度と、予め定められている判定用の閾値とを比較する(ステップS403)。ここで、特徴抽出部12で得られる特徴パラメータは、例えば、LPC(linear predictive coding)ケプストラムやMFCC(Mel−Frequency Cepstral Coefficients)などのスペクトラム包絡の情報である。
類似度が判定用閾値よりも大きい場合は(ステップS403の結果がYES)、認証を受けようとする利用者を、正規利用者本人であるとして、受理する(ステップS404)。
一方、類似度が判定用閾値以下であれば(ステップS403の結果がNO)、判定部14は、類似度算出部13で得られた類似度を、提示用の閾値と比較する(ステップS405)。提示用の閾値は、最初、利用者が正規利用者本人であるとして受理されるための基準となる前記判定用閾値よりも低い値であって、かつ、利用者が明らかに正規利用者本人ではないと判断される値に初期設定されている。
類似度が提示用の閾値以下である場合(ステップS405の結果がNO)、認証を受けようとする利用者を、正規利用者本人ではないとして、棄却し(ステップS407)、当該利用者に対する認証処理を終了する。
一方、類似度が提示用の閾値より大きい場合(ステップS405の結果がYES)、提示用情報の提示回数のカウンタ値が上限値nを超えていないか判定し(ステップS406)、超えていなければ(ステップS406の結果がYES)、提示用情報抽出部19が、識別子入力部15より入力された個人IDに対応する登録音声を登録音声記憶部10から受け取り、その登録音声から提示用情報を抽出し、提示用情報出力部18へ渡す。これにより、提示用情報出力部18により、利用者に対して提示用情報を出力すると共に、提示用情報の提示回数のカウンタに1を加算する(ステップS408)。なお、ステップS408で登録音声から抽出して出力する提示用情報としては、例えば、(1)登録音声のピッチ周波数の情報を含む信号、(2)登録音声のパワーの情報を含む信号、(3)登録音声の音韻情報を含む信号、(4)登録音声の発声速度の情報を含む信号、(5)登録音声の発話内容を表すテキスト、のいずれかを用いる。
なお、提示用情報を提示するタイミングは、一度認証に失敗した後であって再度認証を行わせる前に限定されない。すなわち、利用者が個人IDを入力した後、最初の認証前に提示用情報を提示するようにしても良い。
そして、判定用閾値および提示用閾値の値を所定の値の分だけ引き上げ(ステップS409)、ステップS402へ戻って利用者に再度の音声入力を許可する。
以降、ステップS402〜S409の処理を、利用者が受理または棄却されるか、あるいは、提示用情報の提示回数が上限値nを超えるまで、繰り返す。提示用情報の提示回数が上限値nを超えた場合は(ステップS406の結果がNO)、利用者を棄却する(ステップS407)。
なお、図2のフローチャートは、本発明の一実施形態としての音声認証装置の動作例を示したものに過ぎず、本発明を限定するものではない。例えば、この例では、判定用閾値の他に提示用閾値を設定し、提示用閾値を基準として、利用者を棄却するか再度の音声入力を行わせるかを決定するものとしたが、提示用閾値を設けず、受理されなかった場合は無条件に提示用情報を利用者に提示し、提示回数が上限値nに達するまで、再度の音声入力および再判定を行うようにしても良い。また、図2の例では、再度の音声入力の前に、判定用閾値および提示用閾値を引き上げるステップ(ステップS409)を含むが、認証精度が許容範囲であれば、このステップは必須ではない。あるいは、判定用閾値は一定に保持し、類似度を計算する際の重み付け等を変更することも考えられる。
一方、図2に示した手順よりも好ましい態様として、ステップS408を二度目以降に実行する場合、それまでに提示した提示用情報とは異なる種類の提示用情報を出力することが考えられる。例えば、1回目の提示用情報として、前記(1)の登録音声のピッチ周波数の情報を含む信号を用いた場合、2回目の提示用情報としては、例えば、前記(2)の登録音声のパワーの情報を含む信号を用いるなどとすれば良い。
さらに、提示回数に応じてだけでなく、提示用情報の種類に応じて、判定用閾値の値を変化させることも好ましい。例えば、前記(3)の音韻情報や(5)の登録音声の発話内容を表すテキストを提示用情報として出力して音声を再入力させた場合、他の提示用情報を出力した場合よりも、再入力された音声と登録音声との類似度が向上し易いと考えられる。従って、類似度が向上し易い提示用情報を出力した後は、他人を受理してしまう危険性を回避するために、判定用閾値を高めに設定することが好ましい。
また、図2のフローチャートに示した手順では、最初の音声入力時は提示用情報を提示せず、利用者の記憶のみに基づいてキーワードの発声をさせるものとしているが、最初の音声入力時から、例えば利用者が提示用情報の出力を希望した場合に(あるいは無条件に)、提示用情報の提示を行うようにしても構わない。
以上のように、本実施形態によれば、音声登録時から時間が経過したことなどによって、利用者の発声の変形があったとしても、登録音声から生成した提示用情報を、認証を受けようとする利用者へ提示することにより、利用者は、提示用情報を真似ることにより、登録音声に近い発声を行うことが可能となる。
なお、提示用情報を出力しても、必ずしも、他人が正規利用者になりすますことが容易になる訳ではない。例えば、他人が登録音声のピッチ周波数などを真似したからといって、声紋(音声のスペクトル包絡の情報)が登録音声に近づく訳ではない。しかし、正規利用者本人が登録音声のピッチ周波数などを真似すると、声紋も登録音声のものに近づけることが可能である。換言すると、他人が登録音声のピッチ周波数などを真似した時の類似度の上がり具合よりも、本人が登録音声のピッチ周波数などを真似した時の類似度の上がり具合の方が大きい。従って、提示用情報を出力することによって、他人のなりすましを的確に棄却しつつ、かつ、本人の認証精度を向上させることが可能である。ただし、特に高い認証精度が要求される場合は、図2を参照して前述したように、提示用情報を出力した後に、再入力される音声の判定用閾値を引き上げることが好ましい。
(第2の実施形態)
本発明にかかる音声認証装置の第2の実施形態について説明する。第2の実施形態にかかる音声認証装置の構成は、第1の実施形態で説明した図1と同様であるため、詳細な説明は省略する。
以下、本実施形態にかかる音声認証装置による認証処理の手順について、図3のフローチャートを参照しながら説明する。
本実施形態にかかる音声認証装置は、まず、例えば「IDを入力して下さい」のような指示を出し、認証を受けようとする利用者に、識別子(個人ID)を識別子入力部15より入力させる(ステップS501)。
次に、音声認証装置は、利用者に、提示を求める提示用情報の種類を選択して入力させる(ステップS502)。提示用情報の選択肢としては、例えば、(1)登録音声のピッチ周波数の情報を含む信号、(2)登録音声のパワーの情報を含む信号、(3)登録音声の音韻情報を含む信号、(4)登録音声の発声速度の情報を含む信号、(5)登録音声の発話内容(キーワード)を表すテキスト、などがある。なお、ここでは、提示用情報の種類を利用者に選択入力させるものとしたが、これに限定されず、提示用情報の種類を音声認証装置が適宜に選択する構成としても良い。
続いて、提示用情報抽出部19が、識別子入力部15より入力された個人IDに対応する登録音声を登録音声記憶部10から受け取り、その登録音声から、ステップS502で利用者が選択した種類の提示用情報を抽出し、提示用情報出力部18へ渡す。これにより、提示用情報出力部18により、利用者が選択した種類の提示用情報を出力する(ステップS503)。
この後、判定部14が、判定の際に用いる判定用閾値を通常よりも引き上げるが(ステップS504)、ステップS502で利用者が選択した提示用情報の種類に応じて、引き上げ量を異ならせることが好ましい。例えば、上記の(1)〜(5)の提示用情報を用いる場合、判定用閾値の引き上げ量は、(3)の音韻情報または(5)のキーワードを提示した場合に最も大きくし、(1)のピッチ周波数を提示した場合は中程度、(4)の発声速度または(2)のパワーを提示した場合に最も小さくすると良い。これは、(3)の音韻情報または(5)のキーワードを提示用情報として提示した場合に、その提示用情報を真似ることにより、登録音声に対する類似度が最も大きく向上するので、判定用閾値を比較的大きく引き上げなければ、他人を受理してしまう確率が高くなるからである。
続いて、音声認証装置は、例えば「キーワードを発声して下さい」のような指示を出し、利用者にキーワードを発声させ、音声入力部11よりその音声を入力する(ステップS505)。
音声入力部11は、入力音声を特徴抽出部12へ送る。特徴抽出部12は、入力音声を特徴パラメータの時系列に変換する。そして、類似度算出部13が、特徴抽出部12で得られた特徴パラメータの時系列と、その利用者の個人IDに対応する標準テンプレートとの類似度を計算する。さらに、判定部14が、類似度算出部13で得られた類似度と判定用閾値とを比較する(ステップS506)。ここでも、特徴抽出部12で得られる特徴パラメータとしては、例えば、LPC(linear predictive coding)ケプストラムやMFCC(Mel−Frequency Cepstral Coefficients)などのスペクトラム包絡の情報を用いることができる。
類似度が判定用閾値よりも大きい場合は(ステップS506の結果がYES)、認証を受けようとする利用者を、正規利用者本人であるとして、受理する(ステップS507)。一方、類似度が判定用閾値以下であれば(ステップS506の結果がNO)、判定部14は、認証を受けようとする利用者を、正規利用者ではないとして棄却する(ステップS508)。
以上のように、図3のフローチャートに示す手順によれば、利用者に提示する情報の内容(種類)に応じて、本人受理の条件(判定用閾値)を適切に変更することにより、提示された情報をもとに、他人が登録時の音声に近い発声を再現しても、その他人を誤って受理してしまう事態を防止できる。
なお、図3のフローチャートは、本発明の一実施形態としての音声認証装置の動作例を示したものに過ぎず、本発明を限定するものではない。例えば、ステップS502において、「提示用情報は不要」との選択肢をさらに設け、利用者がこれを選択した場合は、ステップS503およびS504をスキップし、ステップS505へ進むようにしても良い。
あるいは、利用者に、提示を求める提示用情報の種類を選択入力させるのではなく、提示用情報抽出部19が、提示用情報を抽出する毎あるいは数回毎に、所定の規則に従ってあるいはランダムに、抽出すべき提示用情報の種類を決定する態様としても良い。
(第3の実施形態)
本発明にかかる音声認証装置の第3の実施形態について説明する。第3の実施形態にかかる音声認証装置の構成は、第1の実施形態で説明した図1と同様であるため、詳細な説明は省略する。
以下、本実施形態にかかる音声認証装置による認証処理の手順について、図4のフローチャートを参照しながら説明する。
本実施形態にかかる音声認証装置は、まず、例えば「IDを入力して下さい」のような指示を出し、認証を受けようとする利用者に、識別子(個人ID)を識別子入力部15より入力させる(ステップS601)。
続いて、音声認証装置は、例えば「キーワードを発声して下さい」のような指示を出し、利用者にキーワードを発声させ、音声入力部11よりその音声を入力する(ステップS602)。
音声入力部11は、入力音声を特徴抽出部12へ送る。特徴抽出部12は、入力音声を特徴パラメータの時系列に変換する。そして、類似度算出部13が、特徴抽出部12で得られた特徴パラメータの時系列と、利用者が入力した個人IDに対応する標準テンプレートとの類似度を計算する。さらに、判定部14が、類似度算出部13で得られた類似度と、予め定められている判定用の閾値とを比較する(ステップS603)。ここで、特徴抽出部12で得られる特徴パラメータとしては、例えば、LPC(linear predictive coding)ケプストラムやMFCC(Mel−Frequency Cepstral Coefficients)などのスペクトラム包絡の情報を用いることができる。
類似度が判定用閾値よりも大きい場合は(ステップS603の結果がYES)、認証を受けようとする利用者を、正規利用者本人であるとして、受理する(ステップS604)。
一方、類似度が判定用閾値以下であれば(ステップS603の結果がNO)、判定部14は、類似度算出部13で得られた類似度を、提示用の閾値と比較する(ステップS605)。提示用の閾値は、最初、利用者が正規利用者本人であるとして受理されるための基準となる前記判定用閾値よりも低い値であって、かつ、利用者が明らかに正規利用者本人ではないと判断される値に初期設定されている。
類似度が提示用の閾値以下である場合(ステップS605の結果がNO)、認証を受けようとする利用者を、正規利用者本人ではないとして、棄却し(ステップS607)、当該利用者に対する認証処理を終了する。
一方、類似度が提示用の閾値より大きい場合(ステップS605の結果がYES)、提示用情報抽出部18において、登録音声の発声長t1とステップS602で入力された音声の発声長t2との比t1/t2を計算する(ステップS606)。そして、t1/t2が1よりも小さければ「もっと速く発声して下さい」というメッセージを提示用情報出力部18より出力し、t1/t2が1よりも大きければ「もっとゆっくり発声して下さい」というメッセージを提示用情報出力部18より出力する(ステップS608)。なお、ここで、t1/t2の閾値を1としたが、これはあくまでも一例であり、種々の変更が可能である。例えば、t1/t2の値が第1の閾値(例えば0.8)未満であれば「もっと速く発声して下さい」、第2の閾値(例えば1.2)以上であれば「もっとゆっくり発声して下さい」というメッセージをステップS608で出力するものとして、それ以外であれば、ステップS608をスキップするようにしても良い。
そして、判定用閾値および提示用閾値の値を引き上げ(ステップS609)、ステップS602へ戻って利用者に再度の音声入力を許可する。以降、ステップS602〜S609の処理を、利用者が受理または棄却されるまで、繰り返す。
このように、登録音声の発声速度と認証時の入力音声の発声速度との違いを利用者に認識させた上で、音声の再入力をさせることにより、認証精度を向上させることができる。
なお、図4のフローチャートは、本発明の一実施形態としての音声認証装置の動作例を示したものに過ぎず、本発明を限定するものではない。例えば、この例では、ステップS608において、提示用情報として、発声速度に関するテキストメッセージを表示出力あるいは音声出力するものとしたが、提示用情報はこのようなテキストメッセージに限らない。また、第1の実施形態で説明したように、閾値を引き上げるステップ(ステップS609)は、認証精度が許容範囲であれば、必須ではない。
また、上記の説明では、ステップS605の結果がYESであった場合、ステップS606においてt1/t2を計算し、その結果により発声速度に関する情報を提示(ステップS608)するものとした。しかし、ステップS606及びステップS608の変形例として、以下のような処理例も考えられる。
まず、第1の変形例として、ステップS606において、ピッチ周波数の距離が閾値以上であるか否かを判定し、閾値以上であれば、ステップS608でピッチ周波数の情報を提示することが考えられる。ステップS608での「ピッチ周波数の情報を提示する」とは、例えば、登録音声のピッチ周波数の情報を含む信号を提示することや、「もっと高い声で発声してください」というメッセージを出力することをいう。ここで、ピッチ周波数の距離とは、入力音声のピッチ包絡と登録音声のピッチ包絡についてのDP(dynamic programming)距離である。
また、第2の変形例として、ステップS606において、パワーの距離が閾値以上であるか否かを判定し、閾値以上であれば、ステップS608でパワーの情報を提示することが考えられる。ステップS608での「パワーの情報を提示する」とは、登録音声のパワーの情報を含む信号を出力すること等をいう。ここで、パワーの距離とは、入力音声のパワー包絡と登録音声のパワー包絡についてのDP(dynamic programming)距離である。
さらに、第3の変形例として、ステップS606において、ステップS602で入力された音声に対して音声認識を行ったときに、認識結果がキーワードと一致するか否かを判定し、一致しないと判定された場合に、ステップS608で音韻情報またはキーワードを提示することが考えられる。
なお、上記の実施形態では、音声認証装置が、正規利用者の登録音声を記憶した登録音声記憶部を備え、必要の都度、提示用情報抽出部が登録音声記憶部から必要な提示用情報を生成するものとした。しかし、本発明はこれに限定されず、正規利用者の登録音声から提示用情報を予め生成して音声認証装置内の適宜の記憶媒体に記憶させておき、提示用情報抽出部がその記憶媒体から利用者の識別子に応じた提示用情報を抽出するようにしても良い。あるいは、キーワードや発声速度に関するパラメータなどの信号以外は予め作成して音声認証装置内の適宜の記憶媒体に記憶させておき、キーワードや発声速度に関するパラメータなどは認証時に生成するようにしても良い。
なお、上述では、本発明の実施形態として、ハードウェアによる構成例を図1に示したが、本発明の一側面として、コンピュータによって例えば図1に例示したような音声認証装置を実現するためのプログラムおよびそのプログラムを記録した記録媒体もある。すなわち、例えば図2〜図4に示したような処理手順をコンピュータに実行させるためのコンピュータプログラムおよびそれを記録したコンピュータ読み取りが可能な任意の記録媒体も、本発明の一実施形態に含まれる。
Claims (8)
- 正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部と、
認証を受けようとする利用者に識別子を入力させる識別子入力部と、
認証を受けようとする利用者に音声を入力させる音声入力部と、
前記識別子入力部より入力された識別子に対応する標準テンプレートを前記標準テンプレート記憶部より選択する標準テンプレート選択部と、
前記標準テンプレート選択部により選択された標準テンプレートを参照し、前記音声入力部より入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定部と、
前記識別子入力部より入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出部と、
前記提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力部とを備え、
前記提示用情報が、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定部において判定基準として用いられる情報とは異なる情報であり、
前記判定部において提示用情報を出力すると判定した場合は、前記提示用情報抽出部により提示用情報を抽出し、抽出した提示用情報を前記提示用情報出力部により出力することを特徴とする音声認証システム。 - 前記提示用情報が、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声の音声特性に関する情報、登録音声のピッチ周波数の情報を含む信号、登録音声の音韻情報を含む信号、登録音声のパワーの情報を含む信号、発声速度の情報を含む信号、および、前記識別子入力部より入力された識別子に対応する正規利用者の登録音声の発話内容を表すテキスト、のうち少なくとも一つを含む、請求の範囲1に記載の音声認証システム。
- 前記判定部において判定基準として用いられる音声特性が、音声のスペクトル包絡の情報である、請求の範囲1または2に記載の音声認証システム。
- 前記提示用情報出力部により提示用情報を利用者に対して出力した後に、前記音声入力部より再度の音声入力をさせると共に、
再度入力された音声に基づいて、前記判定部において再度の判定をする際、判定基準となる閾値を前回の判定時よりも所定の値だけ高く設定する、請求の範囲1〜3のいずれか一項に記載の音声認証システム。 - 前記提示用情報抽出部が、複数種類の提示用情報から、利用者に対して提示すべき提示用情報を選択して抽出し、
前記判定部が、提示用情報の種類に応じた判定基準を持ち、前記提示用情報抽出部により抽出された提示用情報の種類に応じて、前記判定部における判定基準を変更する、請求の範囲1〜4のいずれか一項に記載の音声認証システム。 - 認証を受けようとする利用者に識別子を入力させる工程と、
認証を受けようとする利用者に音声を入力させる工程と、
正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、
前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、
前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とを含み、
前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とする音声認証方法。 - 認証を受けようとする利用者に識別子を入力させる工程と、
認証を受けようとする利用者に音声を入力させる工程と、
正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、
前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、
前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とをコンピュータに実行させる命令を含み、
前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とするコンピュータプログラム。 - 認証を受けようとする利用者に識別子を入力させる工程と、
認証を受けようとする利用者に音声を入力させる工程と、
正規利用者の登録音声から作成された、当該登録音声の音声特性で特徴付けられた標準テンプレートを、当該正規利用者の識別子に関連づけて予め記憶した標準テンプレート記憶部から、前記入力された識別子に対応する標準テンプレートを選択し、選択された標準テンプレートを参照し、前記入力された音声が、正規利用者本人の声であるか否かと提示用情報を出力するか否かを所定の判定基準により判定する判定工程と、
前記入力された識別子に対応する正規利用者の登録音声に関する情報を、前記認証を受けようとする利用者に対して提示する提示用情報として抽出する提示用情報抽出工程と、
前記判定工程において提示用情報を出力すると判定した場合は、前記提示用情報抽出工程により抽出された提示用情報を、前記認証を受けようとする利用者に対して出力する提示用情報出力工程とをコンピュータに実行させる命令を含み、
前記提示用情報が、前記入力された識別子に対応する正規利用者の登録音声から得られる情報であって、前記判定工程において判定の基準として用いられる情報とは異なる情報であることを特徴とするコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/009768 WO2005013263A1 (ja) | 2003-07-31 | 2003-07-31 | 音声認証システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2005013263A1 JPWO2005013263A1 (ja) | 2006-09-28 |
JP4213716B2 true JP4213716B2 (ja) | 2009-01-21 |
Family
ID=34113476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005507393A Expired - Fee Related JP4213716B2 (ja) | 2003-07-31 | 2003-07-31 | 音声認証システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7447632B2 (ja) |
JP (1) | JP4213716B2 (ja) |
WO (1) | WO2005013263A1 (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6725050B1 (en) * | 2000-05-25 | 2004-04-20 | Sprint Communications Company L.P. | Wireless communication system for an enterprise |
US8443197B2 (en) * | 2005-09-30 | 2013-05-14 | The Invention Science Fund I, Llc | Voice-capable system and method for authentication using prior entity user interaction |
US8234494B1 (en) | 2005-12-21 | 2012-07-31 | At&T Intellectual Property Ii, L.P. | Speaker-verification digital signatures |
US7861159B2 (en) | 2006-04-07 | 2010-12-28 | Pp Associates, Lp | Report generation with integrated quality management |
US8396711B2 (en) * | 2006-05-01 | 2013-03-12 | Microsoft Corporation | Voice authentication system and method |
KR100826875B1 (ko) * | 2006-09-08 | 2008-05-06 | 한국전자통신연구원 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
US20080195395A1 (en) * | 2007-02-08 | 2008-08-14 | Jonghae Kim | System and method for telephonic voice and speech authentication |
US20080256613A1 (en) * | 2007-03-13 | 2008-10-16 | Grover Noel J | Voice print identification portal |
US8817964B2 (en) * | 2008-02-11 | 2014-08-26 | International Business Machines Corporation | Telephonic voice authentication and display |
JP5075664B2 (ja) * | 2008-02-15 | 2012-11-21 | 株式会社東芝 | 音声対話装置及び支援方法 |
US8917718B2 (en) * | 2008-10-13 | 2014-12-23 | Centurylink Intellectual Property Llc | System, method, and apparatus for user-initiated provisioning of a communication device |
DE112009004357B4 (de) * | 2009-01-30 | 2019-06-13 | Mitsubishi Electric Corp. | Spracherkennungssystem |
US8775179B2 (en) * | 2010-05-06 | 2014-07-08 | Senam Consulting, Inc. | Speech-based speaker recognition systems and methods |
US9372979B2 (en) * | 2011-01-07 | 2016-06-21 | Geoff Klein | Methods, devices, and systems for unobtrusive mobile device user recognition |
WO2014186019A1 (en) * | 2013-02-19 | 2014-11-20 | Max Sound Corporation | Biometric audio security |
US9942396B2 (en) * | 2013-11-01 | 2018-04-10 | Adobe Systems Incorporated | Document distribution and interaction |
GB2520532A (en) * | 2013-11-22 | 2015-05-27 | Zzish Ltd | System for authenticating multiple users |
US9544149B2 (en) | 2013-12-16 | 2017-01-10 | Adobe Systems Incorporated | Automatic E-signatures in response to conditions and/or events |
US10008208B2 (en) * | 2014-09-18 | 2018-06-26 | Nuance Communications, Inc. | Method and apparatus for performing speaker recognition |
CN105575391B (zh) | 2014-10-10 | 2020-04-03 | 阿里巴巴集团控股有限公司 | 声纹信息管理方法、装置以及身份认证方法、系统 |
US9703982B2 (en) | 2014-11-06 | 2017-07-11 | Adobe Systems Incorporated | Document distribution and interaction |
US9531545B2 (en) | 2014-11-24 | 2016-12-27 | Adobe Systems Incorporated | Tracking and notification of fulfillment events |
US9432368B1 (en) | 2015-02-19 | 2016-08-30 | Adobe Systems Incorporated | Document distribution and interaction |
CN104916015B (zh) * | 2015-05-25 | 2018-02-06 | 安恒世通(北京)网络科技有限公司 | 一种声控锁具的方法 |
US9935777B2 (en) | 2015-08-31 | 2018-04-03 | Adobe Systems Incorporated | Electronic signature framework with enhanced security |
US9626653B2 (en) | 2015-09-21 | 2017-04-18 | Adobe Systems Incorporated | Document distribution and interaction with delegation of signature authority |
US20170337558A1 (en) * | 2016-05-19 | 2017-11-23 | Mastercard International Incorporated | Method and system for voice authenticated distribution of payment credentials |
US10347215B2 (en) | 2016-05-27 | 2019-07-09 | Adobe Inc. | Multi-device electronic signature framework |
CN110024027A (zh) * | 2016-12-02 | 2019-07-16 | 思睿逻辑国际半导体有限公司 | 说话人识别 |
US10720165B2 (en) * | 2017-01-23 | 2020-07-21 | Qualcomm Incorporated | Keyword voice authentication |
US10360916B2 (en) * | 2017-02-22 | 2019-07-23 | Plantronics, Inc. | Enhanced voiceprint authentication |
US10503919B2 (en) | 2017-04-10 | 2019-12-10 | Adobe Inc. | Electronic signature framework with keystroke biometric authentication |
CN107481736A (zh) * | 2017-08-14 | 2017-12-15 | 广东工业大学 | 一种声纹身份认证装置及其认证优化方法和系统 |
US20200211570A1 (en) * | 2018-12-28 | 2020-07-02 | At&T Intellectual Property I, L.P. | Interactive voice fraud detection and handling |
CN114093368A (zh) * | 2020-07-07 | 2022-02-25 | 华为技术有限公司 | 跨设备声纹注册方法、电子设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5722294A (en) * | 1980-07-16 | 1982-02-05 | Hitachi Ltd | Speaker recognizing system |
JPS59178700A (ja) | 1983-03-29 | 1984-10-09 | Shimadzu Corp | デ−タ処理装置 |
JPS59178700U (ja) * | 1983-05-13 | 1984-11-29 | オムロン株式会社 | 話者照合装置 |
JPS6227398A (ja) | 1985-07-29 | 1987-02-05 | Sumitomo Electric Ind Ltd | 二重るつぼ単結晶引上げ装置 |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
JP2001022385A (ja) * | 1999-07-07 | 2001-01-26 | Yoshimi Baba | 声紋による本人認証及びその強化法 |
JP4440414B2 (ja) * | 2000-03-23 | 2010-03-24 | 富士通株式会社 | 話者照合装置及び方法 |
JP2002304379A (ja) * | 2001-04-05 | 2002-10-18 | Sharp Corp | 個人認証方法および個人認証システム |
-
2003
- 2003-07-31 JP JP2005507393A patent/JP4213716B2/ja not_active Expired - Fee Related
- 2003-07-31 WO PCT/JP2003/009768 patent/WO2005013263A1/ja active Application Filing
-
2005
- 2005-09-29 US US11/237,691 patent/US7447632B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20060020460A1 (en) | 2006-01-26 |
US7447632B2 (en) | 2008-11-04 |
WO2005013263A1 (ja) | 2005-02-10 |
JPWO2005013263A1 (ja) | 2006-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4213716B2 (ja) | 音声認証システム | |
US10950245B2 (en) | Generating prompts for user vocalisation for biometric speaker recognition | |
US11735191B2 (en) | Speaker recognition with assessment of audio frame contribution | |
JP4672003B2 (ja) | 音声認証システム | |
AU2013203139B2 (en) | Voice authentication and speech recognition system and method | |
CN111566729A (zh) | 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识 | |
AU2013203139A1 (en) | Voice authentication and speech recognition system and method | |
JP2007133414A (ja) | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 | |
Reynolds | Automatic speaker recognition: Current approaches and future trends | |
Mansour et al. | Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
CN104462912B (zh) | 改进的生物密码安全 | |
JP4318475B2 (ja) | 話者認証装置及び話者認証プログラム | |
JPWO2018088534A1 (ja) | 電子機器、電子機器の制御方法及び電子機器の制御プログラム | |
KR102098956B1 (ko) | 음성인식장치 및 음성인식방법 | |
JP2021064110A (ja) | 音声認証装置、音声認証システム、および音声認証方法 | |
US20200143801A1 (en) | Dynamic Voice Authentication | |
JP4245948B2 (ja) | 音声認証装置、音声認証方法及び音声認証プログラム | |
KR20110079161A (ko) | 이동 단말기에서 화자 인증 방법 및 장치 | |
JP4440414B2 (ja) | 話者照合装置及び方法 | |
US7289957B1 (en) | Verifying a speaker using random combinations of speaker's previously-supplied syllable units | |
Gupta et al. | Text dependent voice based biometric authentication system using spectrum analysis and image acquisition | |
JP3818063B2 (ja) | 個人認証装置 | |
JPWO2006027844A1 (ja) | 話者照合装置 | |
JP2001350494A (ja) | 照合装置及び照合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081030 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131107 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |