JP2004279770A - Speaker authentication device and discriminant function setting method - Google Patents

Speaker authentication device and discriminant function setting method Download PDF

Info

Publication number
JP2004279770A
JP2004279770A JP2003071577A JP2003071577A JP2004279770A JP 2004279770 A JP2004279770 A JP 2004279770A JP 2003071577 A JP2003071577 A JP 2003071577A JP 2003071577 A JP2003071577 A JP 2003071577A JP 2004279770 A JP2004279770 A JP 2004279770A
Authority
JP
Japan
Prior art keywords
speaker
score
utterance
authentication
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003071577A
Other languages
Japanese (ja)
Other versions
JP4163979B2 (en
Inventor
Tsuneo Kato
恒夫 加藤
Toru Shimizu
徹 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2003071577A priority Critical patent/JP4163979B2/en
Publication of JP2004279770A publication Critical patent/JP2004279770A/en
Application granted granted Critical
Publication of JP4163979B2 publication Critical patent/JP4163979B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speaker authentication technique ensuring preset authentication accuracy. <P>SOLUTION: A pattern specifying unit specifies mutually different speech patterns for speaker authentication a plurality of up to (n) times. A score calculator 7a calculates scores of a speaker's speech corresponding to (i)th speech pattern specification and a speaker model as (i)th scores. A set including as elements (k) scores corresponding to speech pattern specifications of a plurality of (k) times is regarded as total scores. A total speaker decision unit 7d regards the total scores as an input to a discriminant function of a (k)-dimensional plane and decides whether the speaker is the identical person or not from the sign of the discriminant function. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、発話者の入力音声に基づいて発話者が本人か他人かを判定する話者認証装置及びそれに用いる判別関数を設定する方法に関する。入力音声には、例えば、数字やアルファベットなどの記号や単語が複数連続した連続単語の複数の発声が用いられる。
【0002】
【従来の技術】
話者認証技術の第1の従来例として、例えば、特開平9−244684号公報に記載されている装置が知られている。この話者認証技術は、発話者の入力音声に基づいて本人の認証を行うものであり、予め登録されている特徴量と該入力音声から抽出した特徴量とから、発話者が既登録の話者本人か、他人(特に詐称者)かを判定する。発話者の入力音声としては、個人IDやパスワード等の特定の既知キーワードが使用される。
【0003】
しかし、上述した第1の従来例では、認証時の入力音声として個人IDパスワード等の既知キーワードを使用するために、登録話者本人の音声を予め、例えば認証時に録音しておき、その再生音声を第3者が用いることにより、本人詐称が行われやすいという問題がある。
【0004】
この問題に対処するために、認証時に利用者に多数のキーワードを発声してもらい、入力音声として使用するキーワードを増やす方法があるが、この方法では利用者の負担が増大する。更に、入力音声として使用するキーワードを増やした場合は、認証時間が長くなり、認証効率が低下するという問題もある。
【0005】
一方、話者認証技術の第2の従来例として、特開2000−99090号公報に記載された方法が知られている。この話者認証技術では、話者登録時に複数の記号(数字またはアルファベット)を特定話者毎に発声させて、特定話者のモデル(話者モデル)を登録しておき、話者認証時にはシステム側から上記複数の記号中の任意に記号列を指定して発話者に発声させることで、登録されている話者モデルと入力音声から、発話者が本人(登録話者本人)であるか否かを判定する。これによれば、第3者が登録話者本人の音声を認証時に録音しておいても、その再生音声は指定された記号列の発声にならないため、本人詐称が行われ難いという利点がある。
【0006】
しかし、上述した第2の従来例には、認証効率に改善の余地がある。
【0007】
【特許文献1】
特開平9−244684号公報
【特許文献2】
特開2000−99090号公報
【0008】
【発明が解決しようとする課題】
本発明は、このような事情を考慮してなされたものであり、その目的は、本人詐称を防止するとともに、予め設定した認証精度を保証でき、効率良く認証を行うことができる話者認証技術を提供することにある。
【0009】
【課題を解決するための手段】
第1発明は、上記課題を解決するため話者認証装置であり、発話者の発声と話者モデルとの類似度を表すスコアに基づいて本人認証を行う話者認証装置であって、互いに異なる話者認証用発声パタンを、最大で複数n回、発話者に対して指定する発声パタン指定手段と、第i番目の発声パタン指定に対応する発話者の発声と話者モデルとのスコアを、第iスコアとして、計算するスコア計算手段と、複数k回の発声パタン指定に対応するk個のスコアを要素とする集合を統合的スコアとし、この統合的スコアをk次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定する統合的話者判定手段を備えることを特徴とする。
【0010】
第2発明は、第1発明において、第1スコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備え、前記統合的話者判定手段は、単独発声による話者判定手段では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置である。
【0011】
第3発明は、第2発明において、統合的スコアが少なくとも第1スコアを要素とする集合であることを特徴とする話者認証装置である。
【0012】
第4発明は、第1発明において、第nスコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備え、前記統合的話者判定手段は、単独発声による話者判定手段では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置である。
【0013】
第5発明は、第4発明において、統合的スコアが少なくとも第n―1スコア及び第nスコアを要素とする集合であることを特徴とする話者認証装置である。
【0014】
第6発明は、第1発明において、n=3、k=2であること、第1スコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備えること、前記統合的話者判定手段は、単独発声による話者判定手段による第1スコアとしきい値との比較では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、第1スコアと第2スコアを要素とする集合である第1統合的スコアを判別関数の入力として発話者が本人か他人かの判定を行い、この第1統合的スコアでは予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、第2スコアと第3スコアを要素とする集合である第2統合的スコアを判別関数の入力として発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置である。
【0015】
第7発明は、第1発明において、前記発声パタン指定手段が第i番目に指定する話者認証用発声パタンは、第i―1番目に指定した話者認証用パタンよりも認証精度が高い発声パタンであることを特徴とする話者認証装置である。
【0016】
第8発明は、第1発明において、話者登録に使用された話者登録用発声パタンを保存する発声パタン記憶手段を有し、前記発声パタン指定手段は話者認証用発声パタンとして、前記保存されている話者登録用発声パタンに含まれている複数単語の連鎖を少なくとも一組含む発声パタンであることを特徴とする話者認証装置である。
【0017】
第9発明は、第1発明において、前記判別関数として、本人を受理するための第1判別関数及び他人を棄却するための第2判別関数を有し、これら第1判別関数及び第2判別関数は他人受理率と本人棄却率が一定の値となるように設定されていることを特徴とする話者認証装置である。
【0018】
第10発明は、上記課題を解決するための第9発明の話者認証装置に用いられる判別関数を設定する方法であって、k個のスコアの分布をk次元平面におけるk次元正規分布で近似して、k次元平面上の判別面を求めること、この判別面を並行移動して、他人受理率と本人棄却率が一定の値となる第1判別関数及び第2判別関数を設定することを特徴とする。
【0019】
【発明の実施の形態】
本発明では、連続単語発声を用いたテキスト指定型話者認証技術において、発話者に複数の異なる連続単語を発声させ、それぞれの発声に対して得られる複数のスコアを統合的に用いて発話者が本人か他人か判定する。その際、個々の発声のスコアを単独に用いて発話者が本人か他人かを判定することを妨げるものではない。以下、図面を参照し、本発明の一実施形態を説明する。図1は、本発明の一実施形態による話者認証装置の構成を示す。図1において、話者照合装置1の入出力信号はディジタル信号であり、話者照合装置1はディジタル処理により実現される。従って、入出力がアナログ信号の場合は、アナログ・ディジタル変換器(AD変換器)により信号変換されて、話者照合号装置1に接続されるものとする。また、話者照合装置1への入力音声信号としては、電話回線やマイク等からの入力が利用可能である。また、電話回線やスピーカ等へ、話者照合装置1から音声信号を出力することができる。
【0020】
図1の話者照合装置1において、特徴抽出器2は、利用者の入力音声信号Aから音響的な特徴量を抽出する。発声内容判定器3は、バッファ10に保存されている発声プロンプトCで示される発声内容に、発話者の発声内容が一致するか否かを判定する。スイッチ4は、特徴抽出器2の接続先を、話者登録時と話者認証時とで切換える。詳細には、スイッチ4は特徴抽出器2を、話者登録時には登録判定器5に、者認証時には話者判定器7に接続する。
【0021】
登録判定器5は、話者登録時に、特徴抽出器2によって抽出された特徴量が話者登録用に十分であるか否かを判定する。また、該特徴量に基づいて、学習により話者モデルを生成する。例えば、3回など所定回数分の音声入力を条件として十分であると判定する。あるいは、話者モデルを生成しながら該モデルを評価し、一定の品質に達したところで十分であると判定する。上記話者モデルとしては、HMM(Hidden Markov Model)やGMM(Gaussian Mixture Model)などが利用可能である。
【0022】
音声特徴情報蓄積器6は、登録判定器5によって生成された話者モデルを記憶し、保存する。
【0023】
話者判定器7は、話者認証時に、発話者の発声と話者モデルとの類似度を表すスコア、言い換えれば、特徴抽出器2によって抽出された特徴量と話者特徴情報蓄積器6の話者モデルとの類似度を表すスコアを計算し、基本的には、複数回の発声にそれぞれ対応して計算された複数回のスコアを統合的に用いることで、発話者が本人か詐称者(他人)かといった話者認証可否を判定し、該話者判定結果Bを出力するものである。話者判定器7は例えば、図2に示すように、スコア蓄積器7a(スコア蓄積手段)と、スコア計算器7b(スコア計算手段)と、単独発声用話者判定器7c(単独発声による話者判定手段)と、統合的話者判定器7d(統合的話者判定手段)を備えている。
【0024】
スコア蓄積器7aは、予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、そのときの判定に用いたスコアを蓄積し、保存する。
【0025】
スコア計算器7bは、話者認証時に、話者認証用発声パタンの指定(発話プロンプトCの出力)毎に、発話者の発声と話者モデルとのスコアを計算する。
【0026】
ここで、第i番目の発声パタン指定(第i番目の発声プロンプトCの出力)に対応する発話者の発声(i番目発声)と話者モデルとのスコアを、第iスコアと呼ぶ。
【0027】
単独発声用話者判定器7cは話者認証時に単独発声による話者判定を行うものであり、任意の第iスコアを単独でしきい値と比較することで、比較結果から発話者が本人か詐称者かといった話者認証可否を判定する。
【0028】
統合的話者判定器7dは、話者認証時に、スコア計算器7aによって計算されたスコアのうち、複数k回のパタン指定に対応するk個のスコアをスコア蓄積器7aから取り出し、これらを統合的に用いて発話者が本人か詐称者かといった話者認証可否を判定する。詳細には、k個のスコアを要素とする集合を統合的スコアとし、この統合的スコアを判別関数の入力として、判別関数の符号から話者認証の可否を判定する。ここで、kは2以上の自然数であり、後述する複数nと同じかそれ以下に設定される。判別関数については、後で、図9を参照して説明する。
【0029】
パタン指定器8(発声パタン指定手段)は、話者登録用発声パタン(以下、話者登録用パタンと称する)と、話者認証用発声パタン(以下、話者認証用パタンと称する)とを指定し、これら指定パタンの発声を利用者に促す発声プロンプトCを生成して出力する。パタン指定器8は、互いに異なる話者認証用パタンを、同一の発話者に対して最大で複数n回、指定することができるようになっている。従って、話者認証時には、同一の発話者に対して、互いに異なる発生プロンプトCが最大で複数n回出力される。ここで、nは、kと同じかそれ以上の自然数である。
【0030】
話者登録用パタン蓄積器9(発声パタン記憶手段)は、パタン指定器8によって指定された話者登録用パタンを記憶し、保存する。
【0031】
バッファ10は、パタン指定器8から出力された発声プロンプトCを順次上書き方式で記憶する。
【0032】
[話者登録処理]
次に、図3を参照して、話者登録時の話者照合装置1の動作を説明する。図3は、図1に示す話者照合装置1が行う話者登録処理の流れを示すフローチャートである。
【0033】
初めに、話者の個人ID及びパスワードを用いたユーザ認証が実施され、該ユーザ認証が受理されると、図3の話者登録処理が開始される。
【0034】
図3において、先ず、パタン指定器8は、複数の単語(数字や、アルファベット、その他の単語)の連続で構成される話者登録用パタンを指定して、話者登録用パタン蓄積器9に保存する(ステップST1)。例えば、図4の最上段に示すような6桁の連続数字(この例では「638790」)を話者登録用パタンとする。次いで、パタン指定器8は、該指定パタンの発声を促す発声プロンプトCを生成して出力する(ステップST2)。この発声プロンプトCはバッファ10に保存されるとともに、話者照合装置1から出力される。
【0035】
次いで、発話者が発声プロンプトCで指定された話者登録用パタンを発声し、入力音声信号Aが入力されると、特徴抽出器2は入力音声信号Aから音響的特徴量を抽出する(ステップST3、ST4)。次いで、発声内容判定器3は、発話者の発生内容がバッファ10に保存されている発声プロンプトCで示される発声内容に一致するか判定する(ステップST5)。次いで、登録判定器5は、良好な話者モデルを生成するために十分な特徴量であるか否かを判定し(ステップST6)、不十分な場合またはステップST5の判定結果が不一致の場合に、パタン指定器8に再度、発声プロンプトCの出力を指示する。これにより、ステップST2へ戻る。
【0036】
一方、ステップST5の判定結果が一致であり且つ十分な特徴量が得られた場合には、ステップST7に進み、話者モデルを生成して音声特徴情報蓄積器6に記憶する。これにより、話者登録が完了する。
【0037】
なお、話者登録用パタンには、母音または鼻音を多く含むように構成するのが、話者固有の音響的特徴を抽出しやすくなり、少ない発声回数で効率良く特徴抽出できるので好ましい。
【0038】
[話者認証処理]
次に、図4〜図9を参照して、話者認証時の話者照合装置1の動作例を説明する。図4は発声パタンの指定例を示す図、図5〜図8、図1に示す話者照合装置1が行う話者認証処理の流れを示すフローチャート、図9は統合的話者判定で使用する判別関数の設定方法例を示す図である。
【0039】
ここでは、本発明の実施形態の一例として、便宜上n=3、k=2であるとする。また、便宜上、単独発声用話者判定器7cは第1スコアS1のみを単独にしきい値と比較して発話者が本人か詐称者(他人)かを判定するものとする。更に、統合的話者判定器7dは、単独発声用話者判定器7cによる第1スコアS1としきい値との比較による単独発声による話者判定では予め定めた認証精度で発話者が本人か詐称者かを判定することができない場合に、第1スコアS1と第2スコアS2を要素とする集合である第1統合的スコアを用い、この第1統合的スコアを判別関数の入力として、判別関数の正負の符号から発話者が本人か詐称者かの判定(1回目の統合的話者判定)を行い、これでも予め定めた認証精度で発話者が本人か詐称者かを判定することができない場合は、第2スコアS2と第3スコアS3を要素とする集合である第2統合的スコアを用い、この第2統合的スコアを判別関数の入力として、判別関数の正負の符号から発話者が本人か詐称者かの判定(2回目の統合的話者判定)を行うものとする。
【0040】
更に、本実施形態では、パタン指定器8は、発話者に話者認証用パタンを指定して発話を促す都度、だんだん認証精度が高くなるものを指定する。n=3の場合、例えば、1回発声用に、話者登録用パタンに含まれる複数単語の連鎖を少なくとも一組含むもの、例えば、複数単語の連鎖を二組含み且つ該二組が非連続のものを選択して話者認証用パタンを構成し、これを第1番目の発声パタンとして指定する。そして、2回目の発声用には、該第1回目の単語連鎖に更に別の一組の単語連鎖を加え、1回目発声用パタンよりも複数単語の連鎖の組数を増した話者認証用パタンを構成し、これを第2番目の発声パタンとして指定する。この2回目発声用の話者認証用パタンは、複数単語の連鎖の組数が多い分、1回目発声用のパタンよりも認証精度が高くなる。そして、3回目の発声用には、話者登録用パタンを構成する単語のうち、連続した4つの単語を含むように話者認証用パタンを構成し、これを第3番目の発声パタンとして指定する。この3回目発声用の話者認証用パタンは、2回目発声用のパタンよりも単語数は少ないが、一連の単語連鎖の数が多いために、2回目発声用のパタンよりも認証精度が高くなる。このように、1回目発声用には、話者登録用パタンに含まれる複数単語の連鎖を少なくとも一組含むように発声パタンを指定することより、認証精度はそれほど高くはないが、本人詐称防止に効果が高く、且つ発声単語数を抑えて発話者の負担を軽くする。そして、2回目発声用には、1回目発声用パタンよりも複数単語の連鎖の組数を増やして発声パタンを指定することにより、発声単語数は増えるが本人詐称防止効果を保ちつつ、認証精度を高める。そして、3回目発声用には、一連の単語連鎖の数を増やして発声パタンを指定することにより、認証精度を優先して高める。なお、一連の単語連鎖の数を増やすことにより本人詐称防止効果は低下するが、3回目発声時には、それまでの1回目及び2回目の認証拒否判定をパスしているので、本人詐称の可能性は少なく、問題はない。
【0041】
n=3の場合の発声パタン指定の具体例を図4に示す。図4の例では、その上から2段目に示すように、1回目の発声用に、話者登録処理にて例示した6桁の連続数字で構成した話者登録用パタン(「638790」)に含まれる2桁ずつの数字連鎖を二組含み、且つ該二組が非連続のもの(この例では「79」と「63」)を選択して、話者認証用パタン(「7963」)を構成し、この2桁ずつの数字連鎖を二組保存した4桁数字(「7963」)を第1番目の発声パタンとして指定する。
【0042】
話者登録用パタンが6桁の連続数字「638790」である場合、複数単語例えば2桁数字の連鎖の組は、「63」、「38」、「87」、「79」、「90」の5組あり、これらの中からランダムに例えば2組を選択すると2桁ずつの数字連鎖を二組保存した4桁数字の総パタン数は205通りある。これらの中から第1番目の話者認証用パタンとして、例えば「7963」が指定される。
【0043】
2回目の発声用には、図4の上から3段目に示すように、第1番目の発声パタン指定における二組(「79」と「63」)に、更に別の一組(この例では「38」)を加え、1回目発声用パタンよりも複数単語の連鎖の組数を増した話者認証用パタン(「387963」)を構成し、この2桁ずつの数字連鎖を三組保存した6桁数字(「387963」)を第2番目の発声パタンとして指定する。話者登録用パタンが6桁の連続数字「638790」である場合、2桁ずつの数字連鎖を三組保存した6桁数字の総パタン数は1025通りあり、これらの中から第2番目の話者認証用パタンとして、例えば「387963」が指定される。
【0044】
3回目の発声用には、図4の最下段に示すように、話者登録用パタン(「638790」)を構成する数字のうち、連続した4つの数字を含むように話者認証用パタン(この例では「8790」)を構成し、この4桁の数字連鎖を保存した4桁数字(「8790」)を第3番目の発声パタンとして指定する。話者登録用パタンが6桁の連続数字「638790」である場合、4桁の数字連鎖を保存した4桁数字の総パタン数は3通りあり、これらの中から第3番目の話者認証用パタンとして、例えば「8790」が指定される。
【0045】
[単独発声による話者判定]
初めに、話者の個人ID及びパスワードを用いたユーザ認証が実施され、該ユーザ認証が受理されると、話者認証処理が開始される。
【0046】
図5において、先ず、パタン指定器8は、話者登録用パタン蓄積器9に保存されている話者登録用パタンを読み出し、この話者登録用パタンに基づいて第1番目の話者認証用パタン例えば「7963」を指定する(ステップST11)。この指定では、話者登録用パタンに含まれる複数単語の連鎖を少なくとも一組含んでいる。
【0047】
上述したように、話者登録用パタンに含まれる複数単語の連鎖を少なくとも一組含むようにして話者認証用パタンを構成することによって、登録話者音声の録音再生による本人詐称を防止しつつ、全くのランダムとするよりも認証精度を高く保つことができる。
【0048】
次いで、パタン指定器8は、第1番目に指定する話者認証用パタン(例えば「7963」)の発声を促す発声プロンプトCを生成して話者認証装置1から出力する(ステップST12)。この発声プロンプトCはバッファ10に上書き記憶で保存される。次いで、発話者が指定された話者認証用パタン(例えば「7963」)を発声し、入力音声信号Aが入力されると、特徴抽出器2は入力音声信号Aから音響的特徴量を抽出する(ステップST13、ST14)。次いで、発声内容判定器3は、発話者の発声内容がバッファ10に保存されている発声プロンプトCで示される発声内容に一致するか判定する。この判定の結果、不一致の場合にはパタン指定器8は再度、同じ発声プロンプトCを出力する(ステップST15)。次いで、スコア計算器7bは、音声特徴情報蓄積器6の話者モデルを参照し、特徴抽出器2によって抽出された特徴量と話者モデルの特徴量との類似度を表すスコア(第1スコアS1)を計算する(ステップST16)。
【0049】
次いで、単独発声用話者判定器7cは、上記の第1スコアS1を所定の認証受理判定用しきい値Th1と比較し(ステップST17)、第1スコアS1の方が認証受理判定用しきい値Th1より大きい場合には、当該発話者が本人であると判定し、認証を受理する判定結果Bを出力する(ステップST19)。上記認証受理判定用しきい値Th1は、予め話者判定器7に設定されている。このしきい値Th1としては、詐称者(他人)を誤って認証受理する確率(他人受理率)が少なくなるように、例えば実験で、他人受理率が数%、例えば1%となった値を採用する。
【0050】
一方、ステップST17での比較の結果、第1スコアS1の方が認証受理判定用しきい値Th1よりも大きくない場合には、第1スコアS1を所定の認証拒否判定用しきい値Th2と比較し、第1スコアS1の方が認証拒否判定用しきい値Th2より小さい場合には、当該話者が詐称者(他人)であると判定し、認証を拒否する判定結果Bを出力する(ステップST20)。上記認証拒否判定用しきい値Th2は、予め話者判定器7に設定されている。このしきい値Th2としては、本人を誤って認証拒否する確率(本人棄却率)が少なくなるように、例えば、実験で本人棄却率が他人受理率と数%、例えば1%となった値を採用する。
【0051】
上記ように本人棄却率と他人受理率が等しくなるようにしきい値Th1及びTh2を設定した場合の誤り率は、等誤り率として知られている。
【0052】
一方、ステップST18での比較の結果、第1スコアS1が認証受理判定用しきい値Th1と認証拒否判定用しきい値Th2との間にある場合には、単独発声用話者判定器7cは、予め定めた認証精度では認証受理とも認証拒否とも判定することができないと判断して、第1スコアS1をスコア蓄積器7aに蓄積して保存するとともに(ステップST21)、パタン指定器8へ話者認証用パタンを異なるもの、例えば認証精度が高くなるような話者認証用パタンに更新して次の発声プロンプトCを出力するように、指示する。これにより、ステップST11へ戻り、統合的話者判定を行う。
【0053】
[統合的話者判定:1回目]
単独発声による話者判定においてステップST21からステップST11へ戻ったら、つまり、単独発声用話者判定器7cでは予め定めた認証精度で本人か他人かを判定することができない場合は、統合的話者判定器7dにより統合的話者判定が行われる。この処理を図5、図6を参照して説明する。
【0054】
図5において、先ず、パタン指定器8は、話者登録用パタン蓄積器9に保存されている話者登録用パタンを読み出し、この話者登録用パタンに基づいて第2番目の話者認証用パタン例えば「387963」を指定する(ステップST11)。このパタン指定は、第1番目の話者認証用パタンよりも認証精度が高い。
【0055】
次いで、パタン指定器8は、第2番目に指定する話者認証用パタン(例えば「387963」)の発声を促す発声プロンプトCを生成して話者認証装置1から出力する(ステップST12)。この発声プロンプトCはバッファ10に上書き記憶で保存される。次いで、発話者が指定パタン(「387963」)を発声し、入力音声信号Aが入力されると、特徴抽出器2は入力音声信号Aから音響的特徴量を抽出する(ステップST13、ST14)。次いで、発声内容判定器3は、発話者の発声内容がバッファ10に保存されている発声プロンプトCで示される発声内容に一致するか判定する。この判定の結果、不一致の場合にはパタン指定器8は再度、同じ発声プロンプトCを出力する(ステップST15)。次いで、スコア計算器7bは、音声特徴情報蓄積器6の話者モデルを参照し、特徴抽出器2によって抽出された特徴量と話者モデルの特徴量との類似度を表すスコア(第2スコアS2)を計算する(ステップST16)。
【0056】
次いで、統合的話者判定器7dにより、第1スコアS1と第2スコアS2を要素とする集合である統合的スコア(第1統合的スコア)を用いて、1回目の統合的話者判定を行う。
【0057】
但し、図5中のステップST17からST21までの処理を、図6に示すステップST17からST21までの処理と読み替えるものとする。
【0058】
即ち、図6に示すように、統合的話者判定器7dは、第1スコアS1をスコア蓄積器7aから読み出し、この第1スコアS1とスコア計算器7bが計算した第2スコアS2を要素とする集合を統合的スコア(S1,S2)とし、この統合的スコアを2次元平面の所定の認証受理判定用判別関数f(第1判別関数:詳細は図9を参照して後述する)の入力として、その結果得られる認証受理判定用判別関数fの符号を0(ゼロ:しきい値)と比較する(ステップST17)。そして、認証受理判定用判別関数fの符号が正(プラス)である場合には、当該発話者が本人であると判定し、認証を受理する判定結果Bを出力する(ステップST19)。上記認証受理判定用判別関数fとしきい値0は、予め話者判定器7に設定されている。この判別関数fとしては、他人受理率が少なくなるように、例えば実験で、他人受理率が数%、例えば1%となった値を採用する。
【0059】
一方、ステップST17での比較の結果、認証受理判定用判別関数fの符号が正でない場合には、統合的スコア(S1,S2)を2次元平面の所定の認証拒否判定用判別関数f(第2判別関数:詳細は図9を参照して後述する)の入力として、この結果得られる認証拒否判定用判別関数fの符号を0(ゼロ:しきい値)と比較する(ステップST18)。そして、認証拒否判定用判別関数fの符号が負(マイナス)である場合には、当該発話者が詐称者(他人)であると判定し、認証を拒否する判定結果Bを出力する(ステップST20)。上記認証拒否判定用判別関数fとしきい値0は、予め話者判定器7に設定されている。この判別関数fとしては、本人棄却率が少なくなるように、例えば、実験で本人棄却率が他人受理率と同じ数%、例えば1%となった値を採用する。
【0060】
一方、ステップST18での比較の結果、統合的スコア(S1,S2)を入力した認証受理判定用判別関数fの符号が正でなく、かつ、同じく統合的スコア(S1,S2)を入力した認証拒否判定用判別関数fの符号が負でない場合には、統合的話者判定器7cは、統合的スコア(S1,S2)を用いた判定では予め定めた認証精度では認証受理とも認証拒否とも判定することができないと判断して、第2スコアS2をスコア蓄積器7aに蓄積して保存する(ステップST21)とともに、パタン指定器8へ話者認証用パタンを異なるものに更新して次の発声プロンプトCを出力するように、指示する。これにより、図5のステップST11へ戻り、2回目の統合的話者判定を行う。
【0061】
[判別関数の設定方法]
ここで、図9を参照して、判別関数を設定する方法を説明する。本例では、判別分析法を用いている。図9では、縦軸を第1スコアS1(一般にはj−1回目発声のスコア)に、横軸を第2スコアS2(一般にはj回目発声のスコア)にとっている。
【0062】
例えば第1スコアS1と第2スコアS2(一般にはj−1回目発声のスコアとj回目発声のスコア)を2変数とする平面上で、発話者が本人である場合のスコアの分布と、詐称者(他人)である場合のスコアの分布はそれぞれ、2次元正規分布で近似することができる。そして、1回目の発声(一般にはj−1回目の発声)に対して認証受理も認証拒否もできなかった場合の本人のスコアの分散と、他人のスコアの分散とは同程度の大きさであるため、分散及び共分散を共通の値とすると、判別面は、図9に示すように、2次元平面上の一般に傾斜した直線fとして求めることができる。この直線fが基本的な判別関数となる。この判別関数fを、縦軸に平行で且つ横軸に垂直な直線11(従来のしきい値に相当)と比較すると、判別関数fと直線11に挟まれた斜線を付した領域12aから分かるように、本人を正しく本人と判定して認証受理する割合が猟奇12aの分だけ増え、また、斜線を付した領域12bから分かるように、他人を正しき他人と判定して認証拒否する割合が領域12bの分だけ増える。つまり、従来に比べて、認証精度が向上することが分かる。なお、直線11は、第1スコアS1のみを用いた単独発声による話者判定では予め定めた判定精度で本人か他人かを判定することができない時に、更に、第2スコアS2のみを用いて単独発声による話者判定を行うとした場合における認証受理判定と認証拒否判定に共通なしきい値を表している。
【0063】
従って、第1スコアS1と第2スコアS2(一般にはj−1回目発声のスコアとj回目発声のスコア)を要素とする統合的スコアを用いる場合は、判別面として2次元平面上の基本的な判別関数fを設定し、必要に応じて他人受理率と本人棄却率が一定の小さな値になるように、基本的な判別関数fを2次元平面内で並行移動することで、認証受理判定用判別関数fと認証受理判定用判別関数fを定める。
【0064】
上記の議論は、任意の複数k個のスコアを要素とする集合を統合的スコアとする場合にも同様に成立する。この場合、k次元平面の基本的な判別関数fを判別面として設定し、必要に応じて他人受理率と本人棄却率が例えば1%という一定の値になるように、基本的な判別関数fをk次元平面内で並行移動することで、k個のスコアを要素とする統合的スコアを用いる場合の認証受理判定用判別関数fと認証受理判定用判別関数fを定める。また、判別関数f、f、fは、発話者(利用者)毎に設定しても良いが、多数の発話者に対して共通な判別関数を設定しても実用上問題ない。
【0065】
[統合的話者判定:2回目その1]
図6のステップST21から図5のステップST11へ戻ったら、つまり、先の統合的スコア(S1,S2)を用いた統合的話者判定では予め定めた認証精度で本人か他人かを判定することができない場合は、統合的話者判定器7dにより2回目の統合的話者判定が行われる。この処理を図5、図7を参照して説明する。
【0066】
図5において、先ず、パタン指定器8は、話者登録用パタン蓄積器9に保存されている話者登録用パタンを読み出し、この話者登録用パタンに基づいて第3番目の話者認証用パタン例えば「8790」を指定する(ステップST11)。
【0067】
次いで、パタン指定器8は、第3番目に指定する話者認証用パタン(例えば「8790」)の発声を促す発声プロンプトCを生成して話者認証装置1から出力する(ステップST12)。この発声プロンプトCはバッファ10に上書き記憶で保存される。次いで、発話者が指定パタン(「8790」)を発声し、入力音声信号Aが入力されると、特徴抽出器2は入力音声信号Aから音響的特徴量を抽出する(ステップST13、ST14)。次いで、発声内容判定器3は、発話者の発声内容がバッファ10に保存されている発声プロンプトCで示される発声内容に一致するか判定する。この判定の結果、不一致の場合にはパタン指定器8は再度、同じ発声プロンプトCを出力する(ステップST15)。次いで、スコア計算器7bは、音声特徴情報蓄積器6の話者モデルを参照し、特徴抽出器2によって抽出された特徴量と話者モデルの特徴量との類似度を表すスコア(第3スコアS3)を計算する(ステップST16)。
【0068】
次いで、統合的話者判定器7dにより、第2スコアS2と第3スコアS3を要素とする集合である統合的スコア(第2統合的スコア)を用いて話者判定を行う。
【0069】
2回目の統合的話者判定では、図5中のステップST17からST21までの処理を、図7に示すステップST17からST20までの処理(ただし、ステップST18、ST21はなし)と読み替えるものとする。
【0070】
図7に示すように、統合的話者判定器7dは、第2スコアS2をスコア蓄積器7aから読み出し、この第2スコアS2とスコア計算器7bが計算した第3スコアS3を要素とする集合を統合的スコア(S2,S3)とし、この統合的スコアを認証受理と認証拒否に共通の所定の判別関数fの入力として、その結果得られる判別関数fの符号を0(ゼロ:しきい値)と比較する(ステップST17)。そして、判別関数fの符号が正(プラス)である場合には、当該発話者が本人であると判定し、認証を受理する判定結果Bを出力する(ステップST19)。一方、ステップST17での比較の結果、判別関数fの符号が正でない場合には、当該発話者が詐称者(他人)であると判定し、認証を拒否する判定結果Bを出力する(ステップST20)。判別関数fは2次元平面の所定の判別関数であり、しきい値0とともに予め話者判定器7に設定されている。
【0071】
上記共通の判別関数fとしては、上述した認証受理判定用判別関数f、または、認証拒否判定用判別関数f、または、これら2つの認証受理用判別関数fまたは認証拒否用判別関数fの基になる基本的な判別関数f、または、基本的な判別関数fを適宜並行移動して得られる判別関数を用いることができる。判別関数fとして認証受理判定用判別関数fを用いる場合は、他人受理率は小さくなるが、本人棄却率はやや大きくなる。認証拒否判定用判別関数fを用いる場合は、逆に、本人棄却率は小さくなるが、他人受理率がやや大きくなる。また、基本的な判別関数fを用いる場合は、本人棄却率は認証受理判定用判別関数fを用いる場合に比べて大きく、他人受理率は認証拒否判定用判別関数fを用いる場合に比べて大きくなる。一般に、基本的な判別関数fを並行移動した判別関数を用いる場合は、並行移動の方向及び量に応じて、本人棄却率と他人受理率は変化する。どの判別関数を採用するかは、話者認証システムの目的及びそれが必要とする認証精度に応じて、実験等で決めればよい。
【0072】
ここで、上述した実施例の話者判定(1発声目のスコアs1を単独に用いた話者判定、これで判定不可の場合に1発声目のスコアS1と2発声目のスコアS2を統合的に用いた話者判定、これでも判定不可の場合には2発声目のスコアS2と3発声目のスコアS3を統合的に用いた話者判定)の効果を示す。比較例話者判定としては、1発声目のスコアs1を単独に用いて話者判定し、これで判定不可の場合は2発声目のスコアS2のみを単独に用いて話者判定し、これでも判定不可の場合には3発声目のスコアS3のみを単独に用いた話者判定した。但し、実施低、比較例いずれの場合も、話者登録時から2ヶ月経過した時点で実験を行った。また、等誤り率を3%として設定した。
【0073】
実施例の話者判定では、1発声目のスコアs1を単独に用いた話者判定では、本人を正しく本人と判定した発声の割合が80%、他人を正しく他人と判定した発声の割合が80%であり、これで判定不可となった残りの人に対について1発声目のスコアS1と2発声目のスコアS2を統合的に用いた話者判定では、本人を正しく本人と判定した発声の割合が10%、他人を正しく他人と判定した発声の割合が8%であり、これでも判定不可となった残りの人について2発声目のスコアS2と3発声目のスコアS3を統合的に用いた話者判定では、本人を正しく本人と判定した発声の割合が4%、他人を正しく他人と判定した発声の割合が6%であった。また、最大3回の発声で、本人の94%、詐称者(他人)の94%が等誤り率3%で判定でき、平均発声回数は1.32回であった。
【0074】
比較例の話者判定では、1発声目のスコアs1を単独に用いた話者判定では、本人を正しく本人と判定した発声の割合が80%、他人を正しく他人と判定した発声の割合が80%であり、これで判定不可となった残りの人に対について2発声目のスコアS2のみを単独に用いた話者判定では、本人を正しく本人と判定した発声の割合が10%、他人を正しく他人と判定した発声の割合が6%であり、これでも判定不可となった残りの人について3発声目のスコアS3のみ単独に用いた話者判定では、本人を正しく本人と判定した発声の割合が4%、他人を正しく他人と判定した発声の割合が7%であった。また、最大3回の発声で、本人の94%、詐称者(他人)の93%が等誤り率3%で判定でき、平均発声回数は1.34回であった。
【0075】
この結果より、比較例に比べ、実施例の話者判定の方が、2発声目で判定される他人の割合が6%から8%に増加し、全体に対する認証精度が向上するとともに、平均発声回数が減少したことが分かる。なお、実施例の話者判定の方が、3発声目で判定される他人の割合が7%から6%に減少しているが、これは2発声目の判定で判定不可となった人が少ない分、母集団が減少したためであり、問題ない。
【0076】
[統合的話者判定:2回目その2]
上述した2回目統合的話者判定では認証受理と認証拒否の2つに結論付けしているが、いずれとも判定できない場合(判定付加)も結論付けすることも可能である。この場合、図5中のステップST17からST21までの処理を、図7ではなく、図8に示ステップST17からST22までの処理(ステップST21はなし)と読み替えるものとする。
【0077】
図8に示すように、統合的話者判定器7dは、第2スコアS2をスコア蓄積器7aから読み出し、この第2スコアS2とスコア計算器7bが計算した第3スコアS3を要素とする集合を統合的スコア(S2,S3)とし、この統合的スコアを2次元平面の所定の認証受理判定用判別関数f(第1判別関数)の入力として、その結果得られる認証受理判定用判別関数fの符号を0(ゼロ:しきい値)と比較し(ステップST17)、認証受理判定用判別関数fの符号が正(プラス)である場合には、当該発話者が本人であると判定し、認証を受理する判定結果Bを出力する(ステップST19)。上記認証受理判定用判別関数fとしきい値0は、予め話者判定器7に設定されている。この判別関数fとしては、他人受理率が少なくなるように、例えば、実験で他人受理率が数%、例えば1%となった値を採用する。
【0078】
一方、ステップST17での比較の結果、認証受理判定用判別関数fの符号が正でない場合には、統合的スコア(S2,S3)を2次元平面の所定の認証拒否判定用判別関数f(第2判別関数)の入力として、この結果得られる認証拒否判定用判別関数fの符号を0(ゼロ:しきい値)と比較し(ステップST18)、認証拒否判定用判別関数fの符号が負(マイナス)である場合には、当該発話者が詐称者(他人)であると判定し、認証を拒否する判定結果Bを出力する(ステップST20)。上記認証拒否判定用判別関数fとしきい値0は、予め話者判定器7に設定されている。この判別関数fとしては、本人棄却率が少なくなるように、例えば、実験で本人棄却率が他人受理率と同じ数%、例えば1%となった値を採用する。
【0079】
一方、ステップST18での比較の結果、統合的スコア(S2,S3)を入力した認証受理判定用判別関数fの符号が正でなく、かつ、同じく統合的スコア(S2,S3)を入力した認証拒否判定用判別関数fの符号が負でない場合には、統合的話者判定器7cは、統合的スコア(S2,S3)を用いた判定では予め定めた認証精度では認証受理とも認証拒否とも判定することができないと判断して(ステップST22)、判定を終了する。
【0080】
上記の実施例の話者判定では、1発声目のスコアs1を単独に用いて話者判定を行い、これで判定不可となった残りの人に対について1発声目のスコアS1と2発声目のスコアS2を統合的に用いて話者判定を行い、これでも判定不可となった残りの人について2発声目のスコアS2と3発声目のスコアS3を統合的に用いて話者判定を行ったが、統合的スコアの設定の仕方、あるいは、統合的話者判定と単独発声による話者判定との組み合わせの仕方には種々あり、以下にその幾つかを例示する。
(1)1発声目のスコアs1を単独に用いて話者判定を行い、これで判定不可となった残りの人について1発声目のスコアS1と2発声目のスコアS2を統合的に用いて話者判定を行い、これで判定不可となった残りの人について1発声目のスコアS1と2発声目のスコアS2と3発声目のスコアS3を統合的に用いて話者判定を行う。この場合、第2統合的スコアはS1とS2とS3を要素とする集合(S1,S2,S3)となる。
(2)1発声目のスコアs1を単独に用いて話者判定を行い、これで判定不可となった残りの人について1発声目のスコアS1と2発声目のスコアS2を統合的に用いて話者判定を行い、これで判定不可となった残りの人について1発声目のスコアS1と3発声目のスコアS3を統合的に用いて話者判定を行う。この場合、第2統合的スコアはS1とS3を要素とする集合(S1,S3)となる。言い換えれば、統合的スコアの要素は必ずしも連続した発声のスコアでなくても良い。
(3)1発声目のスコアs1を単独に用いた話者判定を行なわず、1回目と2回目の発声を続けて行わせ、1発声目のスコアS1と2発声目のスコアS2を統合的に用いて話者判定を行い、これで判定不可となった残りの人について2発声目のスコアS2と3発声目のスコアS3を統合的に用いて、あるいは、1発声目のスコアS1と3発声目のスコアS3を統合的に用いて(統合的スコアの要素は必ずしも連続した発声のスコアである必要はない)話者判定を行う。この場合のように、統合的話者判定のみで本人か他人かを判定するようにしても良い。
(4)1発声目のスコアs1を単独に用いた話者判定を行なわず、1回目と2回目と3回目の発声を続けて行わせ、1発声目のスコアS1と2発声目のスコアS2と3発声目のスコアS3を統合的に用いて一括して話者判定を行う。
(5)1発声目のスコアs1を単独に用いて話者判定を行い、これで判定不可となった残りの人について2発声目のスコアS2を単独に用いて話者判定を行い、これでも判定不可となった残りの人について1発声目のスコアS1と2発声目のスコアS2と3回目発声のスコアS3を統合的に用いて、あるいは、2発声目のスコアS2と3回目発声のスコアS3を統合的に用いて、あるいは、1発声目のスコアS1と3回目発声のスコアS3を統合的に用いて話者判定を行う。
(6)1発声目のスコアs1を単独に用いて話者判定を行い、これで判定不可となった人について2発声目のスコアS2を単独に用いて話者判定を行い、これでも判定不可となった人について3回目発声のスコアS3を単独に用いて話者判定を行い、これでも判定不可となった残りの人について1発声目のスコアS1と2発声目のスコアS2と3回目発声のスコアS3を統合的に用いて、あるいは、2発声目のスコアS2と3回目発声のスコアS3を統合的に用いて、あるいは、1発声目のスコアS1と3回目発声のスコアS3を統合的に用いて話者判定を行う。
【0081】
要するに、上記実施例のようにn=3の場合には、互いに異なる話者認証用発声パタンを最大で3回発話者に対して指定し、2回分または3回分の発声パタン指定に対応するスコアを要素とする集合を統合的スコアとし、この統合的スコアを2または3次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定する。その際、統合的話者判定を1段階あるいは2段階適用したり、あるいは、単独発声による話者判定を必要に応じて併用すると良い。
【0082】
一般的には、本発明では、互いに異なる話者認証用発声パタンを最大で複数n回発話者に対して指定し、複数k回(2≦k≦n)の発声パタン指定に対応するk個のスコアを要素とする集合を統合的スコアとし、この統合的スコアをk次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定するという話者認証手法をとることができる。その際、単独発声による話者判定を必要に応じて併用する。統合的スコアとしては、例えば、少なくとも1発声目のスコアを要素とする集合や、n―1発声目のスコア及びn発声目のスコアを要素とする集合など、2つあるいは3つ以上のスコアを要素とする集合を用いる。また、このような統合的話者判定を1段階あるいは2段階以上の多段階適用すると良い。
【0083】
なお、本発明の話者認証技術は、テレフォンバンキング等の電話サービスのための音声認証装置、あるいは各種Webサービスのための音声認証装置などに適用することができる。
【0084】
また、図5〜図9に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより話者認証処理を行っても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器当のハードウェアを含むものであっても良い。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)を含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD―ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0085】
更に、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含む。
【0086】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0087】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0088】
以上、図面を参照して本発明の実施形態を詳述してきたが、連続単語が連続数字や連続アルファベットなど任意の単語や記号が連続したもので良いなど、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0089】
【発明の効果】
上述したように、本発明によれば、本人と他人(詐称者)との判定が難しい発声に対しては指定パタンを変えて再発声を促して複数発声のスコアを統合的に用いて判定することができ、予め設定した認証精度を保証することが可能である。また、本発明によれば、本人の発声を密かに録音しておいて後から再生する「録音再生式の詐称」に対して、頑強で且つ高認証精度を維持したテキスト指定型の話者認証技術を実現することができる。更に、複数発声を統合的に用いた話者判定を多段階行って予め設定した認証精度を保証する場合は、認証精度を改善し、認証受理を保証できる利用者(発話者)の割合を大きくすることができる。
【0090】
また、認証受理あるいは認証拒否のいずれであるとも判定できない場合に、前回指定した話者認証用パタンよりも認証精度を高めるような発声パタンを新たに指定することにより、利用者の負担を考慮してだんだんと認証精度を高めるようにして認証効率の向上を図ることができる。また、話者認証用パタンの再指定の際に、前回指定の話者認証用パタンよりも、話者登録用パタン内の複数単語の連鎖の組み数を増やすようにすれば、発声単語数は増えるが本人詐称防止効果を保ちつつ、認証精度を高めることができる。
【0091】
更に、話者登録に使用された発声パタンに含まれる複数単語の連鎖を少なくとも一組含む話者認証用の発声パタンを発話者に指定することにより、本人詐称を防止するとともに、利用者の負担をできるだけ軽減し、且つ効率良く認証を行うことができる。この場合、話者認証用パタンの再指定の際に、前回指定の話者認証用パタンよりも、話者登録用パタン内の一連の単語連鎖の数を増やすようにすれば、認証精度を優先して高めることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態による話者認証装置の構成を示すブロック図。
【図2】話者判定器の構成例を示すブロック図。
【図3】話者登録処理の流れを示すフローチャート。
【図4】発声パタン指定の例を示す図。
【図5】話者認証処理の流れを示すフローチャート。
【図6】話者認証処理中、1回目の統合的話者判定部分の流れを示すフローチャート。
【図7】話者認証処理中、2回目の統合的話者判定部分の流れを示すフローチャート。
【図8】判別関数の設定方法の例を示す図。
【図9】話者認証処理中、2回目の統合的話者判定の別の例を示すフローチャート。
【符号の説明】
1 話者認証装置
2 特徴抽出器
3 発声内容判定器
4 スイッチ
5 登録判定器
6 音声特徴情報蓄積器
7 話者判定器
7a スコア蓄積器(スコア蓄積手段)
7b スコア計算器(スコア計算手段)
7c 単独発声用話者判定器(単独発声による話者判定手段)
7d 統合的話者判定器(統合的話者判定手段)
8 パタン指定器(発声パタン指定手段)
9 話者登録用パタン蓄積器(発声パタン記憶手段)
10 バッファ
11 従来のしきい値に相当する直線
12a 本人を認証受理する割合が増加する領域
12b 他人を認証拒否する割合が増加する領域
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speaker authentication device that determines whether a speaker is a person or another person based on an input voice of the speaker, and a method of setting a discriminant function used for the device. As the input voice, for example, a plurality of utterances of a continuous word in which a plurality of symbols or words such as numbers and alphabets are continuous are used.
[0002]
[Prior art]
As a first conventional example of the speaker authentication technology, for example, an apparatus described in Japanese Patent Application Laid-Open No. 9-244684 is known. This speaker authentication technology is to authenticate a user based on the input voice of a speaker, and a speaker who has already registered a speech is obtained from feature amounts registered in advance and feature amounts extracted from the input voice. It is determined whether the person is the person or another person (especially an impostor). As the input voice of the speaker, a specific known keyword such as a personal ID and a password is used.
[0003]
However, in the first conventional example described above, in order to use a known keyword such as a personal ID password as an input voice at the time of authentication, the voice of the registered speaker is recorded in advance, for example, at the time of authentication, and the reproduced voice is recorded. Is used by a third party, so that there is a problem that the person is liable to be spoofed.
[0004]
To cope with this problem, there is a method in which the user utters a large number of keywords at the time of authentication and the number of keywords used as input voice is increased, but this method increases the burden on the user. Further, when the number of keywords used as the input voice is increased, there is a problem that the authentication time becomes longer and the authentication efficiency is reduced.
[0005]
On the other hand, as a second conventional example of the speaker authentication technology, a method described in JP-A-2000-99090 is known. In this speaker authentication technology, a plurality of symbols (numerals or alphabets) are uttered for each specific speaker during speaker registration, and a model of the specific speaker (speaker model) is registered. By specifying an arbitrary symbol string in the plurality of symbols from the side and causing the speaker to utter, the registered speaker model and the input voice determine whether or not the speaker is himself (registered speaker). Is determined. According to this, even if a third party records the voice of the registered speaker at the time of authentication, there is an advantage that it is difficult for the third party to spoof the person because the reproduced voice does not utter the specified symbol string. .
[0006]
However, the above-mentioned second conventional example has room for improvement in the authentication efficiency.
[0007]
[Patent Document 1]
JP-A-9-244684
[Patent Document 2]
JP 2000-99090 A
[0008]
[Problems to be solved by the invention]
The present invention has been made in view of such circumstances, and a purpose of the present invention is to prevent false identification of a person, to guarantee a predetermined authentication accuracy, and to efficiently perform a speaker authentication technique. Is to provide.
[0009]
[Means for Solving the Problems]
A first invention is a speaker authentication device for solving the above-mentioned problem, which is a speaker authentication device that performs personal authentication based on a score indicating a similarity between a utterance of a speaker and a speaker model, and is different from each other. Utterance pattern specifying means for specifying a speaker authentication utterance pattern a plurality of times at a maximum of n times, and a score between the utterance of the speaker corresponding to the i-th utterance pattern specification and the speaker model, As an i-th score, a score calculating means for calculating, and a set including k scores corresponding to a plurality of k utterance pattern designations as an integrated score, and inputting the integrated score into a k-dimensional plane discriminant function The present invention is characterized in that an integrated speaker determining means for determining whether the speaker is the person or another person from the sign of the discriminant function is provided.
[0010]
According to a second aspect of the present invention, in the first aspect of the present invention, the first aspect further comprises a speaker determination unit based on a single utterance to determine whether the speaker is the person or another person by comparing the first score with a threshold value alone. Is characterized in that the speaker determination unit determines whether the speaker is a person or another person when the speaker determination unit based on a single utterance cannot determine whether the speaker is the person or another person with a predetermined authentication accuracy. Speaker authentication device.
[0011]
A third invention is the speaker authentication device according to the second invention, wherein the integrated score is a set having at least the first score as an element.
[0012]
According to a fourth aspect of the present invention, in the first aspect of the present invention, the integrated speaker determining means comprises a single utterance determining means for individually comparing the n-th score with a threshold to determine whether the utterer is the person or another person. Is characterized in that the speaker determination unit determines whether the speaker is a person or another person when the speaker determination unit based on a single utterance cannot determine whether the speaker is the person or another person with a predetermined authentication accuracy. Speaker authentication device.
[0013]
A fifth invention is the speaker authentication device according to the fourth invention, wherein the integrated score is a set having at least the (n−1) th score and the nth score as elements.
[0014]
A sixth invention is the speaker according to the first invention, wherein n = 3, k = 2, and the first score alone is compared with a threshold value to determine whether the speaker is the person or the other person. The integrated speaker determination means may determine whether the speaker is a person or another person with a predetermined authentication accuracy by comparing the first score and the threshold value by the speaker determination means based on a single utterance. If it is not possible, the first integrated score, which is a set including the first score and the second score as an element, is used as an input of a discriminant function to determine whether the speaker is a person or another person. If it is not possible to determine whether the speaker is the person or the person with the authentication accuracy, the second integrated score, which is a set having the second score and the third score as elements, is used as an input of the discriminant function to determine whether the speaker is the person. To judge someone else It is a speaker authentication device according to claim.
[0015]
In a seventh aspect based on the first aspect, the utterance pattern designating means designates the i-th specified speaker authentication utterance pattern having a higher authentication accuracy than the (i-1) -th specified speaker authentication pattern. A speaker authentication device characterized by a pattern.
[0016]
In an eighth aspect based on the first aspect, the utterance pattern storage means for storing the speaker registration utterance pattern used for speaker registration is provided, and the utterance pattern designation means is provided as a speaker authentication utterance pattern. A speaker authentication device characterized in that the speaker authentication device is an utterance pattern including at least one set of a chain of a plurality of words included in the speaker registration utterance pattern.
[0017]
In a ninth aspect based on the first aspect, the discriminant function includes a first discriminant function for accepting the person and a second discriminant function for rejecting another person, and the first discriminant function and the second discriminant function. Is a speaker authentication device characterized in that the false acceptance rate and the false rejection rate are set to be constant values.
[0018]
A tenth invention is a method for setting a discriminant function used in the speaker authentication device according to the ninth invention for solving the above-mentioned problem, wherein a distribution of k scores is approximated by a k-dimensional normal distribution on a k-dimensional plane. Then, determining a discriminant plane on a k-dimensional plane, moving the discriminant plane in parallel, and setting a first discriminant function and a second discriminant function in which the false acceptance rate and the false rejection rate are constant values are set. Features.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
According to the present invention, in a text designation type speaker authentication technique using continuous word utterance, a speaker is made to utter a plurality of different continuous words, and a plurality of scores obtained for each utterance are used in an integrated manner. Is a person or another person. At this time, it does not prevent the determination of whether the speaker is the person or another person using the score of each utterance alone. Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 shows a configuration of a speaker authentication device according to an embodiment of the present invention. In FIG. 1, input / output signals of the speaker verification device 1 are digital signals, and the speaker verification device 1 is realized by digital processing. Therefore, when the input / output is an analog signal, the signal is converted by an analog / digital converter (AD converter) and connected to the speaker verification device 1. Further, as an input audio signal to the speaker verification device 1, an input from a telephone line, a microphone, or the like can be used. In addition, a voice signal can be output from the speaker verification device 1 to a telephone line, a speaker, or the like.
[0020]
In the speaker verification device 1 of FIG. 1, a feature extractor 2 extracts an acoustic feature amount from an input voice signal A of a user. The utterance content determiner 3 determines whether or not the utterance content of the speaker matches the utterance content indicated by the utterance prompt C stored in the buffer 10. The switch 4 switches the connection destination of the feature extractor 2 between the time of speaker registration and the time of speaker authentication. In detail, the switch 4 connects the feature extractor 2 to the registration determiner 5 at the time of speaker registration and to the speaker determiner 7 at the time of person authentication.
[0021]
The registration determiner 5 determines whether or not the feature amount extracted by the feature extractor 2 at the time of speaker registration is sufficient for speaker registration. Further, a speaker model is generated by learning based on the feature amount. For example, it is determined that a sufficient number of voice inputs, such as three times, is sufficient as a condition. Alternatively, the model is evaluated while generating the speaker model, and it is determined that the speaker model is sufficient when the quality reaches a certain level. As the speaker model, HMM (Hidden Markov Model) and GMM (Gaussian Mixture Model) can be used.
[0022]
The voice feature information storage unit 6 stores and stores the speaker model generated by the registration determination unit 5.
[0023]
At the time of speaker authentication, the speaker determiner 7 provides a score indicating the similarity between the utterance of the speaker and the speaker model, in other words, the feature amount extracted by the feature extractor 2 and the speaker feature information storage 6. Calculates a score indicating the degree of similarity with the speaker model, and basically uses multiple scores calculated corresponding to multiple utterances in an integrated manner to determine whether the speaker is the person or the impostor. This determines whether or not speaker authentication is possible (other person) and outputs the speaker determination result B. As shown in FIG. 2, for example, the speaker determination unit 7 includes a score storage unit 7a (score storage unit), a score calculator 7b (score calculation unit), and a single-utterance speaker determination unit 7c (single-utterance-based speech). Speaker determination means) and an integrated speaker determination unit 7d (integrated speaker determination means).
[0024]
The score accumulator 7a accumulates and stores the score used for the judgment at the time when it is not possible to judge whether the speaker is the person or another person with a predetermined authentication accuracy.
[0025]
The score calculator 7b calculates the score between the speaker's utterance and the speaker model for each designation of the speaker authentication utterance pattern (output of the utterance prompt C) during speaker authentication.
[0026]
Here, the score between the utterance (i-th utterance) of the speaker and the speaker model corresponding to the i-th utterance pattern designation (output of the i-th utterance prompt C) is referred to as an i-th score.
[0027]
The single-speaker speaker determination unit 7c performs speaker determination by single-speaking at the time of speaker authentication. By comparing an arbitrary i-th score with a threshold value alone, it is determined whether the speaker is the true speaker based on the comparison result. It is determined whether or not the speaker can be authenticated as an impostor.
[0028]
The integrated speaker determiner 7d extracts k scores corresponding to a plurality of k times of pattern designation from the score calculated by the score calculator 7a at the time of speaker authentication from the score accumulator 7a and integrates them. Is used to determine whether or not the speaker is authenticated, such as whether the speaker is the person or the impostor. More specifically, a set having k scores as elements is defined as an integrated score, and the integrated score is input to a discriminant function, and whether or not speaker authentication is possible is determined from the sign of the discriminant function. Here, k is a natural number of 2 or more, and is set to be equal to or less than a plurality n described later. The discriminant function will be described later with reference to FIG.
[0029]
The pattern designator 8 (speech pattern designating means) includes a speaker registration speech pattern (hereinafter referred to as a speaker registration pattern) and a speaker authentication speech pattern (hereinafter referred to as a speaker authentication pattern). Then, an utterance prompt C for prompting the user to utter these designated patterns is generated and output. The pattern designator 8 can designate different speaker authentication patterns for the same speaker a plurality of times at most n times. Therefore, at the time of speaker authentication, different occurrence prompts C are output to the same speaker a plurality of times n at a maximum. Here, n is a natural number equal to or greater than k.
[0030]
The speaker registration pattern storage unit 9 (speaking pattern storage unit) stores and saves the speaker registration pattern specified by the pattern specifying unit 8.
[0031]
The buffer 10 stores the utterance prompts C output from the pattern designator 8 sequentially in an overwriting manner.
[0032]
[Speaker registration process]
Next, the operation of the speaker verification device 1 during speaker registration will be described with reference to FIG. FIG. 3 is a flowchart showing the flow of the speaker registration process performed by the speaker verification device 1 shown in FIG.
[0033]
First, user authentication using the speaker's personal ID and password is performed, and when the user authentication is accepted, the speaker registration process of FIG. 3 is started.
[0034]
In FIG. 3, first, the pattern designator 8 designates a speaker registration pattern composed of a series of a plurality of words (numbers, alphabets, and other words), and stores the pattern in the speaker registration pattern storage 9. Save (step ST1). For example, a six-digit continuous number (“648790” in this example) as shown at the top of FIG. 4 is used as the speaker registration pattern. Next, the pattern designator 8 generates and outputs an utterance prompt C prompting the utterance of the specified pattern (step ST2). The utterance prompt C is stored in the buffer 10 and output from the speaker verification device 1.
[0035]
Next, when the speaker utters the speaker registration pattern specified by the utterance prompt C and the input voice signal A is input, the feature extractor 2 extracts an acoustic feature from the input voice signal A (step). ST3, ST4). Next, the utterance content determiner 3 determines whether the utterance content of the speaker matches the utterance content indicated by the utterance prompt C stored in the buffer 10 (step ST5). Next, the registration determination unit 5 determines whether or not the feature amount is sufficient to generate a good speaker model (step ST6). If the feature amount is insufficient or if the determination result in step ST5 does not match, the registration determination unit 5 determines whether the feature amount is sufficient. , And instructs the pattern designator 8 to output the utterance prompt C again. This returns to step ST2.
[0036]
On the other hand, if the determination result in step ST5 is a match and a sufficient feature amount is obtained, the process proceeds to step ST7, where a speaker model is generated and stored in the voice feature information storage 6. Thereby, speaker registration is completed.
[0037]
Note that it is preferable to configure the speaker registration pattern so as to include a large number of vowels or nasal sounds, because acoustic characteristics unique to the speaker can be easily extracted and the characteristics can be efficiently extracted with a small number of utterances.
[0038]
[Speaker authentication process]
Next, an example of the operation of the speaker verification device 1 at the time of speaker authentication will be described with reference to FIGS. FIG. 4 is a diagram showing an example of specifying an utterance pattern, FIGS. 5 to 8, and a flowchart showing a flow of speaker authentication processing performed by the speaker verification device 1 shown in FIG. 1, and FIG. It is a figure showing an example of a setting method of a function.
[0039]
Here, as an example of the embodiment of the present invention, it is assumed that n = 3 and k = 2 for convenience. For convenience, it is assumed that the single-speaking speaker determination unit 7c compares only the first score S1 alone with a threshold value to determine whether the speaker is the person himself or an impostor (another person). Further, in the integrated speaker determination unit 7d, in the speaker determination based on the single utterance based on the comparison between the first score S1 and the threshold value by the single utterance speaker determination unit 7c, the speaker is the identity or the impostor with the predetermined authentication accuracy If it is not possible to determine whether the first score S1 and the second score S2 are elements, the first integrated score is used as an input of the discriminant function, and the first integrated score is used as the input of the discriminant function. If the speaker is the identity or the impostor from the positive or negative sign (first integrated speaker determination), and if it is still not possible to determine whether the speaker is the identity or the impostor with the predetermined authentication accuracy, , Using the second integrated score, which is a set having the second score S2 and the third score S3 as elements, using the second integrated score as an input of the discriminant function, Judgment as impostor (second time) Shall be made an integrated speaker determination).
[0040]
Further, in the present embodiment, the pattern designator 8 designates a pattern whose authentication accuracy is gradually increased each time the speaker is prompted to speak by designating a speaker authentication pattern. In the case of n = 3, for example, for one utterance, one containing at least one chain of a plurality of words included in the speaker registration pattern, for example, including two chains of a plurality of words and the two groups being discontinuous Are selected to form a speaker authentication pattern, and this is designated as the first utterance pattern. Then, for the second utterance, another one set of word chains is added to the first word chain, and the number of sets of a plurality of word chains is increased from the first utterance pattern. A pattern is formed, and this is designated as a second utterance pattern. In the speaker authentication pattern for the second utterance, the authentication accuracy is higher than that for the first utterance pattern because of the large number of pairs of a plurality of word chains. Then, for the third utterance, a speaker authentication pattern is configured to include four consecutive words among the words constituting the speaker registration pattern, and this is designated as a third utterance pattern. I do. The pattern for speaker authentication for the third utterance has a smaller number of words than the pattern for the second utterance, but has a higher authentication accuracy than the pattern for the second utterance because of the large number of series of word chains. Become. In this manner, for the first utterance, the authentication accuracy is not so high by designating the utterance pattern so as to include at least one chain of a plurality of words included in the speaker registration pattern. And the number of words to be uttered is suppressed to reduce the burden on the speaker. For the second utterance, by specifying the utterance pattern by increasing the number of sets of multiple word chains than the first utterance pattern, the number of uttered words increases, but the effect of preventing identity spoofing is maintained while the authentication accuracy is maintained. Enhance. Then, for the third utterance, the authentication accuracy is preferentially increased by increasing the number of a series of word chains and specifying an utterance pattern. In addition, by increasing the number of a series of word chains, the effect of preventing false identification is reduced, but at the time of the third utterance, since the first and second authentication rejection judgments have been passed, there is a possibility of false identification. Is small and there is no problem.
[0041]
FIG. 4 shows a specific example of the utterance pattern designation when n = 3. In the example of FIG. 4, as shown in the second row from the top, a speaker registration pattern (“636790”) composed of six consecutive digits exemplified in the speaker registration process for the first utterance And two non-consecutive pairs (in this example, “79” and “63”) are selected, and a speaker authentication pattern (“7963”) is selected. And a four-digit number (“7963”) in which two sets of two-digit numbers are stored is designated as the first utterance pattern.
[0042]
When the speaker registration pattern is a six-digit continuous number “648790”, a set of a chain of a plurality of words, for example, a two-digit number, is “63”, “38”, “87”, “79”, “90”. There are five sets, and if, for example, two sets are selected at random from these sets, the total number of patterns of four-digit numbers in which two sets of two-digit numbers are stored is 205. For example, “7963” is designated as the first speaker authentication pattern among these.
[0043]
For the second utterance, as shown in the third row from the top in FIG. 4, two sets (“79” and “63”) in the first utterance pattern specification are further added to another set (this example). In this example, "38") is added to form a speaker authentication pattern ("387963") in which the number of sets of multiple word chains is increased from that of the first utterance pattern, and three sets of two-digit numbers are stored. The designated six-digit number ("387963") is designated as the second utterance pattern. When the speaker registration pattern is a 6-digit continuous number “638790”, the total number of patterns of 6-digit numbers in which three sets of 2-digit numbers are stored is 1025. For example, “387963” is designated as the user authentication pattern.
[0044]
For the third utterance, as shown at the bottom of FIG. 4, the speaker authentication pattern (“648790”) includes four consecutive numbers among the numbers that constitute the speaker registration pattern (“648790”). In this example, “8790”) is configured, and the four-digit number (“8790”) storing the four-digit number chain is designated as the third utterance pattern. When the speaker registration pattern is a six-digit continuous number “648790”, the total number of patterns of the four-digit number storing the four-digit number chain is three. For example, “8790” is specified as the pattern.
[0045]
[Speaker judgment by single utterance]
First, user authentication using the speaker's personal ID and password is performed, and when the user authentication is accepted, speaker authentication processing is started.
[0046]
In FIG. 5, first, the pattern designator 8 reads out the speaker registration pattern stored in the speaker registration pattern accumulator 9 and, based on the speaker registration pattern, the first speaker authentication pattern. A pattern, for example, "7963" is designated (step ST11). This designation includes at least one chain of a plurality of words included in the speaker registration pattern.
[0047]
As described above, by configuring the speaker authentication pattern so as to include at least one set of a plurality of word chains included in the speaker registration pattern, it is possible to prevent false identification by recording and reproducing the registered speaker's voice. The authentication accuracy can be kept higher than the randomness.
[0048]
Next, the pattern designator 8 generates an utterance prompt C prompting the utterance of the speaker authentication pattern (for example, “7963”) specified first, and outputs the utterance prompt C from the speaker authentication device 1 (step ST12). The utterance prompt C is stored in the buffer 10 by overwriting. Next, when the speaker utters a designated speaker authentication pattern (for example, “7963”) and an input audio signal A is input, the feature extractor 2 extracts an acoustic feature amount from the input audio signal A. (Steps ST13 and ST14). Next, the utterance content determiner 3 determines whether the utterance content of the speaker matches the utterance content indicated by the utterance prompt C stored in the buffer 10. If the result of this determination is that they do not match, the pattern designator 8 outputs the same utterance prompt C again (step ST15). Next, the score calculator 7b refers to the speaker model of the speech feature information storage 6, and refers to a score (first score) indicating the degree of similarity between the feature extracted by the feature extractor 2 and the feature of the speaker model. S1) is calculated (step ST16).
[0049]
Next, the single-speaking speaker determiner 7c compares the first score S1 with a predetermined authentication acceptance determination threshold Th1 (step ST17), and the first score S1 is the authentication acceptance determination threshold. If the value is larger than the value Th1, the speaker is determined to be the person himself / herself, and a determination result B for accepting the authentication is output (step ST19). The threshold value Th1 for authentication acceptance determination is set in the speaker determination device 7 in advance. As the threshold value Th1, a value at which the false acceptance rate becomes several%, for example, 1%, for example, in an experiment, is set so that the probability of falsely accepting the impersonator (other) (authorization rate) is reduced. adopt.
[0050]
On the other hand, as a result of the comparison in step ST17, if the first score S1 is not larger than the authentication acceptance determination threshold value Th1, the first score S1 is compared with a predetermined authentication rejection determination threshold value Th2. If the first score S1 is smaller than the authentication rejection determination threshold Th2, the speaker is determined to be an impostor (another), and a determination result B for rejecting the authentication is output (step S1). ST20). The threshold Th2 for authentication rejection determination is set in the speaker determiner 7 in advance. As the threshold value Th2, for example, a value at which the rejection rate becomes several percent, for example, 1%, of the false rejection rate in the experiment so as to reduce the probability of falsely rejecting the user (rejection rate). adopt.
[0051]
As described above, the error rate when the thresholds Th1 and Th2 are set so that the false rejection rate and the false acceptance rate are equal is known as an equal error rate.
[0052]
On the other hand, as a result of the comparison in step ST18, when the first score S1 is between the authentication acceptance determination threshold value Th1 and the authentication rejection determination threshold value Th2, the single-speaking speaker determination unit 7c sets It is determined that it is not possible to determine whether the authentication is accepted or rejected with the predetermined authentication accuracy, and the first score S1 is stored and stored in the score storage 7a (step ST21). An instruction is issued to update the speaker authentication pattern to a different one, for example, a speaker authentication pattern that increases the authentication accuracy, and to output the next utterance prompt C. Thus, the process returns to step ST11, and the integrated speaker determination is performed.
[0053]
[Integrated speaker judgment: 1st]
When the process returns from step ST21 to step ST11 in the speaker determination based on a single utterance, that is, when the speaker determination unit 7c for a single utterance cannot determine the identity or the other person with the predetermined authentication accuracy, the integrated speaker determination is performed. The integrated speaker determination is performed by the device 7d. This processing will be described with reference to FIGS.
[0054]
In FIG. 5, first, the pattern designator 8 reads the speaker registration pattern stored in the speaker registration pattern storage 9, and based on the speaker registration pattern, the second speaker authentication A pattern, for example, "387963" is designated (step ST11). This pattern specification has higher authentication accuracy than the first speaker authentication pattern.
[0055]
Next, the pattern designator 8 generates an utterance prompt C that prompts the utterance of a speaker authentication pattern (for example, “387963”) to be specified secondly, and outputs the utterance prompt C from the speaker authentication device 1 (step ST12). The utterance prompt C is stored in the buffer 10 by overwriting. Next, when the speaker utters the designated pattern ("387963") and the input audio signal A is input, the feature extractor 2 extracts an acoustic feature amount from the input audio signal A (steps ST13 and ST14). Next, the utterance content determiner 3 determines whether the utterance content of the speaker matches the utterance content indicated by the utterance prompt C stored in the buffer 10. If the result of this determination is that they do not match, the pattern designator 8 outputs the same utterance prompt C again (step ST15). Next, the score calculator 7b refers to the speaker model of the speech feature information storage 6, and refers to a score (second score) indicating the similarity between the feature extracted by the feature extractor 2 and the feature of the speaker model. S2) is calculated (step ST16).
[0056]
Next, the first integrated speaker determination is performed by the integrated speaker determination unit 7d using an integrated score (first integrated score) that is a set including the first score S1 and the second score S2 as elements.
[0057]
However, the processing from steps ST17 to ST21 in FIG. 5 is to be read as the processing from steps ST17 to ST21 shown in FIG.
[0058]
That is, as shown in FIG. 6, the integrated speaker determination unit 7d reads the first score S1 from the score storage unit 7a, and uses the first score S1 and the second score S2 calculated by the score calculator 7b as elements. The set is defined as an integrated score (S1, S2), and the integrated score is defined as a predetermined authentication acceptance determination discriminant function f on a two-dimensional plane. 1 (First discriminant function: details will be described later with reference to FIG. 9), and the resulting authentication acceptance judgment discriminant function f 1 Is compared with 0 (zero: threshold) (step ST17). Then, the discrimination function f for authentication acceptance determination 1 Is positive (plus), it is determined that the speaker is the person himself, and a determination result B for accepting the authentication is output (step ST19). Discrimination function f for authentication acceptance determination 1 And the threshold value 0 are set in the speaker determination unit 7 in advance. This discriminant function f 1 In order to reduce the false acceptance rate, for example, a value at which the false acceptance rate becomes several percent, for example, 1% in an experiment, is adopted.
[0059]
On the other hand, as a result of the comparison in step ST17, the authentication acceptance determination determination function f 1 Is not positive, the integrated score (S1, S2) is converted to a predetermined authentication rejection determination function f on a two-dimensional plane. 2 (Second discriminant function: details will be described later with reference to FIG. 9). 2 Is compared with 0 (zero: threshold) (step ST18). Then, the authentication rejection determination determination function f 2 If the sign is negative (minus), it is determined that the speaker is an impostor (other person), and a determination result B for rejecting the authentication is output (step ST20). The authentication rejection determination discriminant function f 2 And the threshold value 0 are set in the speaker determination unit 7 in advance. This discriminant function f 2 In order to reduce the false rejection rate, for example, a value at which the false rejection rate is the same as the false acceptance rate of several percent, for example, 1% is adopted in the experiment.
[0060]
On the other hand, as a result of the comparison in step ST18, the authentication acceptance determination discriminant function f to which the integrated score (S1, S2) is input. 1 Is not positive and the discriminant function f for authentication rejection determination which also receives the integrated score (S1, S2) 2 Is not negative, the integrated speaker determinator 7c determines that the authentication using the integrated score (S1, S2) cannot determine the authentication acceptance or the authentication rejection with the predetermined authentication accuracy. Then, the second score S2 is accumulated and stored in the score accumulator 7a (step ST21), and the next speaker prompt C is output to the pattern designator 8 by updating the speaker authentication pattern to a different one. To instruct. Thus, the process returns to step ST11 in FIG. 5, and the second integrated speaker determination is performed.
[0061]
[Setting method of discriminant function]
Here, a method of setting the discriminant function will be described with reference to FIG. In this example, a discriminant analysis method is used. In FIG. 9, the vertical axis represents the first score S1 (generally, the score of the j-1st utterance) and the horizontal axis represents the second score S2 (generally, the score of the jth utterance).
[0062]
For example, on a plane having the first score S1 and the second score S2 (generally, the score of the (j-1) th utterance and the score of the jth utterance) as two variables, the distribution of the scores when the speaker is the person himself, The distribution of scores in the case of a person (other person) can be approximated by a two-dimensional normal distribution. Then, the variance of the score of the individual in the case where neither the authentication is accepted nor the authentication is rejected for the first utterance (generally, the j-1 utterance) is substantially equal to the variance of the score of the other person. Therefore, assuming that the variance and the covariance have a common value, the discrimination plane has a generally inclined straight line f on a two-dimensional plane as shown in FIG. 0 Can be sought. This straight line f 0 Is a basic discriminant function. This discriminant function f 0 Is compared with a straight line 11 (corresponding to a conventional threshold value) parallel to the vertical axis and perpendicular to the horizontal axis, the discriminant function f 0 As can be seen from the shaded area 12a between the straight line 11 and the shaded area 12a, the ratio of correctly determining the person as the person and accepting the authentication increases by the amount of the quirk 12a, and as can be seen from the shaded area 12b. The ratio of rejecting authentication by determining the other person as the correct person increases by the area 12b. That is, it can be seen that the authentication accuracy is improved as compared with the related art. Note that the straight line 11 is used only when the speaker is determined to be a person or another person with a predetermined determination accuracy in a speaker determination based on a single utterance using only the first score S1. This represents a threshold value common to the authentication acceptance determination and the authentication rejection determination in the case where speaker determination based on utterance is performed.
[0063]
Therefore, when using an integrated score having the first score S1 and the second score S2 (generally, the score of the (j-1) th utterance and the score of the jth utterance) as elements, a basic discrimination plane on a two-dimensional plane is used. Naive discriminant function f 0 Is set, and a basic discriminant function f is set so that the false acceptance rate and the false rejection rate become constant small values as necessary. 0 Are moved in parallel in a two-dimensional plane, so that the authentication acceptance determination discriminant function f 1 And the authentication acceptance determination discriminant function f 2 Is determined.
[0064]
The above discussion also holds true when a set having an arbitrary plurality of k scores as elements is used as an integrated score. In this case, the basic discriminant function f of the k-dimensional plane 0 Is set as a discrimination plane, and a basic discriminant function f is set so that the false acceptance rate and the false rejection rate become constant values of, for example, 1% as necessary. 0 Are moved in parallel in a k-dimensional plane, so that a discriminant function f for authentication acceptance determination when an integrated score having k scores as elements is used. 1 And the authentication acceptance determination discriminant function f 2 Is determined. Also, the discriminant function f 0 , F 1 , F 2 May be set for each speaker (user), but there is no practical problem even if a common discriminant function is set for many speakers.
[0065]
[Integrated Speaker Judgment: Second Time 1]
Returning from step ST21 in FIG. 6 to step ST11 in FIG. 5, that is, in the integrated speaker determination using the integrated scores (S1 and S2), it is possible to determine whether the user is a person or another person with a predetermined authentication accuracy. If not, the integrated speaker determination unit 7d performs the second integrated speaker determination. This processing will be described with reference to FIGS.
[0066]
In FIG. 5, first, the pattern designator 8 reads out the speaker registration pattern stored in the speaker registration pattern storage 9, and based on this speaker registration pattern, the third speaker authentication A pattern such as “8790” is designated (step ST11).
[0067]
Next, the pattern designator 8 generates an utterance prompt C that prompts the utterance of the third speaker authentication pattern (for example, “8790”), and outputs the utterance prompt C from the speaker authentication device 1 (step ST12). The utterance prompt C is stored in the buffer 10 by overwriting. Next, when the speaker utters a designated pattern (“8790”) and the input audio signal A is input, the feature extractor 2 extracts an acoustic feature amount from the input audio signal A (steps ST13 and ST14). Next, the utterance content determiner 3 determines whether the utterance content of the speaker matches the utterance content indicated by the utterance prompt C stored in the buffer 10. If the result of this determination is that they do not match, the pattern designator 8 outputs the same utterance prompt C again (step ST15). Next, the score calculator 7b refers to the speaker model of the voice feature information storage 6, and refers to a score (third score) indicating the similarity between the feature extracted by the feature extractor 2 and the feature of the speaker model. S3) is calculated (step ST16).
[0068]
Next, speaker determination is performed by the integrated speaker determination unit 7d using an integrated score (second integrated score) that is a set including the second score S2 and the third score S3 as elements.
[0069]
In the second integrated speaker determination, the processing from step ST17 to ST21 in FIG. 5 is replaced with the processing from step ST17 to ST20 shown in FIG. 7 (however, there is no step ST18 or ST21).
[0070]
As shown in FIG. 7, the integrated speaker determiner 7d reads the second score S2 from the score accumulator 7a, and sets a set having the second score S2 and the third score S3 calculated by the score calculator 7b as elements. The integrated score (S2, S3) is defined as a predetermined discriminant function f common to authentication acceptance and authentication rejection. 3 , And the resulting discriminant function f 3 Is compared with 0 (zero: threshold) (step ST17). And the discriminant function f 3 Is positive (plus), it is determined that the speaker is the person himself, and a determination result B for accepting the authentication is output (step ST19). On the other hand, as a result of the comparison in step ST17, the discriminant function f 3 Is not positive, it is determined that the speaker is an impostor (another), and a determination result B for rejecting the authentication is output (step ST20). Discriminant function f 3 Is a predetermined discriminant function of a two-dimensional plane, and is set in the speaker discriminator 7 in advance together with the threshold value 0.
[0071]
The above common discriminant function f 3 Is the above-described authentication acceptance determination determination function f 1 Or the authentication rejection determination discriminant function f 2 Or these two authentication acceptance discriminant functions f 1 Or authentication rejection determination function f 2 Basic discriminant function f 0 Or the basic discriminant function f 0 Can be used by appropriately moving the discriminant function in parallel. Discriminant function f 3 As the authentication acceptance determination discriminant function f 1 In the case of using, the false acceptance rate becomes small, but the false rejection rate becomes slightly large. Authentication rejection determination function f 2 On the other hand, in the case of using, the false rejection rate decreases, but the false acceptance rate slightly increases. Also, a basic discriminant function f 0 Is used, the rejection rate is determined by the authentication acceptance determination function f 2 Is larger than in the case of using the authentication rejection determination function f 1 Is larger than in the case of using. In general, the basic discriminant function f 0 Is used, the rejection rate and the false acceptance rate change according to the direction and amount of the parallel movement. Which discriminant function should be adopted may be determined by experiments or the like according to the purpose of the speaker authentication system and the authentication accuracy required by the system.
[0072]
Here, the speaker determination of the above-described embodiment (the speaker determination using the score s1 of the first utterance alone, and if the determination is not possible, the score S1 of the first utterance and the score S2 of the second utterance are integrated. This shows the effect of the speaker determination used in (1), and if the determination is still impossible, the speaker determination using the score S2 of the second utterance and the score S3 of the third utterance). As a comparative example speaker determination, the speaker determination is performed using the score s1 of the first utterance alone, and if the determination is impossible, the speaker determination is performed using only the score S2 of the second utterance alone. When the judgment was impossible, the speaker judgment was made using only the score S3 of the third utterance alone. However, in both cases of low implementation and the comparative example, the experiment was performed when two months had passed since the speaker registration. Further, the equal error rate was set to 3%.
[0073]
In the speaker determination according to the embodiment, in the speaker determination using the score s1 of the first utterance alone, the percentage of utterances that correctly determined the individual as the individual was 80%, and the percentage of utterances that correctly determined the other person as the other person was 80%. In the speaker determination using the score S1 of the first utterance and the score S2 of the second utterance for the pair of the remaining persons who could not be determined in this way, The ratio is 10%, and the ratio of utterances that correctly judged another person to be another person is 8%, and the score S2 of the second utterance and the score S3 of the third utterance are used in an integrated manner for the remaining persons who still cannot be judged. In the speaker determination, the proportion of utterances that correctly determined the person as the person was 4%, and the percentage of utterances that correctly determined the other person as the other person was 6%. In addition, with a maximum of three utterances, 94% of the person and 94% of the impostor (others) could be judged with an equal error rate of 3%, and the average number of utterances was 1.32.
[0074]
In the speaker determination of the comparative example, in the speaker determination using the score s1 of the first utterance alone, the percentage of utterances that correctly determined the person as the person was 80%, and the percentage of utterances that correctly determined the other person as the other person was 80%. In the speaker determination using only the score S2 of the second utterance alone for the pair with respect to the remaining persons who could not be determined by this, the percentage of utterances that correctly determined the person as an individual was 10%, and the The percentage of utterances correctly determined to be another person is 6%, and the remaining persons for whom the determination is still impossible cannot be determined in the speaker determination using only the third utterance score S3 alone. The proportion was 4%, and the proportion of utterances that correctly judged others as others was 7%. In addition, with a maximum of three utterances, 94% of the person and 93% of the impostor (others) could be judged with an equal error rate of 3%, and the average number of utterances was 1.34.
[0075]
From this result, in the speaker determination of the embodiment, the ratio of the other person determined by the second utterance is increased from 6% to 8% as compared with the comparative example, the authentication accuracy for the whole is improved, and the average utterance is improved. It can be seen that the number has decreased. In the speaker determination of the embodiment, the ratio of others judged in the third utterance is reduced from 7% to 6%. There is no problem because the population was reduced by a small amount.
[0076]
[Integrated speaker determination: 2nd time 2]
In the above-described second integrated speaker determination, two conclusions, that is, authentication acceptance and authentication rejection, have been concluded. However, it is also possible to conclude when neither can be determined (addition of determination). In this case, the processing from steps ST17 to ST21 in FIG. 5 is replaced with the processing from steps ST17 to ST22 shown in FIG. 8 (no step ST21), instead of FIG.
[0077]
As shown in FIG. 8, the integrated speaker determiner 7d reads the second score S2 from the score accumulator 7a, and sets a set having the second score S2 and the third score S3 calculated by the score calculator 7b as elements. The integrated score (S2, S3) is used, and the integrated score is defined as a predetermined authentication acceptance determination discriminant function f on a two-dimensional plane. 1 (1st discriminant function) as an input, the resulting authentication acceptance judgment discriminant function f 1 Is compared with 0 (zero: threshold) (step ST17), and the authentication acceptance determination discriminant function f 1 Is positive (plus), it is determined that the speaker is the person himself, and a determination result B for accepting the authentication is output (step ST19). Discrimination function f for authentication acceptance determination 1 And the threshold value 0 are set in the speaker determination unit 7 in advance. This discriminant function f 1 In order to reduce the false acceptance rate, for example, a value at which the false acceptance rate becomes several%, for example, 1% in an experiment is adopted.
[0078]
On the other hand, as a result of the comparison in step ST17, the authentication acceptance determination determination function f 1 Is not positive, the integrated score (S2, S3) is converted to a predetermined authentication rejection determination discriminant function f on a two-dimensional plane. 2 As an input of (second discriminant function), the authentication rejection discriminant function f obtained as a result is 2 Is compared with 0 (zero: threshold) (step ST18), and the authentication rejection determination function f 2 If the sign is negative (minus), it is determined that the speaker is an impostor (other person), and a determination result B for rejecting the authentication is output (step ST20). The authentication rejection determination discriminant function f 2 And the threshold value 0 are set in the speaker determination unit 7 in advance. This discriminant function f 2 In order to reduce the false rejection rate, for example, a value at which the false rejection rate is the same as the false acceptance rate of several percent, for example, 1% is adopted in the experiment.
[0079]
On the other hand, as a result of the comparison in step ST18, the authentication acceptance determination discriminant function f to which the integrated score (S2, S3) has been input. 1 Is not positive, and the authentication rejection determination discriminant function f is input with the integrated score (S2, S3). 2 Is not negative, the integrated speaker determiner 7c determines that the authentication using the integrated score (S2, S3) cannot determine the authentication acceptance or the authentication rejection with the predetermined authentication accuracy. (Step ST22), and the determination ends.
[0080]
In the speaker determination of the above embodiment, the speaker determination is performed by using the score s1 of the first utterance alone, and the score S1 of the first utterance and the score of the second utterance for the pair of the remaining persons who cannot be determined. Speaker determination is performed by using the score S2 of the second voice in an integrated manner, and the speaker determination is performed by using the score S2 of the second utterance and the score S3 of the third utterance integratedly for the remaining persons who still cannot be determined. However, there are various ways of setting the integrated score or combining the integrated speaker determination and the speaker determination based on a single utterance, and some of them are exemplified below.
(1) The speaker determination is performed using the score s1 of the first utterance alone, and the score S1 of the first utterance and the score S2 of the second utterance are integratedly used for the remaining persons who cannot be determined. Speaker determination is performed, and speaker determination is performed using the score S1 of the first utterance, the score S2 of the second utterance, and the score S3 of the third utterance for the remaining persons who cannot be determined. In this case, the second integrated score is a set (S1, S2, S3) having S1, S2, and S3 as elements.
(2) The speaker determination is performed using the score s1 of the first utterance alone, and the score S1 of the first utterance and the score S2 of the second utterance are integratedly used for the remaining persons who cannot be determined. Speaker determination is performed, and speaker determination is performed using the score S1 of the first utterance and the score S3 of the third utterance in an integrated manner with respect to the remaining persons for whom determination is impossible. In this case, the second integrated score is a set (S1, S3) having S1 and S3 as elements. In other words, the element of the integrated score does not necessarily have to be a score of a continuous utterance.
(3) The first and second utterances are continuously performed without performing the speaker determination using the score s1 of the first utterance alone, and the score S1 of the first utterance and the score S2 of the second utterance are integrated. For the remaining persons for whom the determination cannot be made using the score S2 of the second utterance and the score S3 of the third utterance, or the scores S1 and S3 of the first utterance. Speaker determination is performed by using the utterance score S3 in an integrated manner (the element of the integrated score does not necessarily need to be a continuous utterance score). As in this case, it may be possible to determine whether the person is a person or another person only by the integrated speaker determination.
(4) The first, second, and third utterances are continuously performed without performing the speaker determination using the score s1 of the first utterance alone, and the score S1 of the first utterance and the score S2 of the second utterance are performed. And the score S3 of the third utterance are used collectively to perform the speaker determination collectively.
(5) The speaker determination is performed using the score s1 of the first utterance alone, and the speaker determination is performed using the score S2 of the second utterance alone for the remaining persons who cannot be determined. For the remaining persons who cannot be determined, the score S1 of the first utterance, the score S2 of the second utterance, and the score S3 of the third utterance are integrated, or the score S2 of the second utterance and the score of the third utterance. The speaker determination is performed using S3 in an integrated manner or using the score S1 of the first utterance and the score S3 of the third utterance in an integrated manner.
(6) The speaker determination is performed using the score s1 of the first utterance alone, and the speaker determination is performed using the score S2 of the second utterance alone for a person who cannot be determined as a result. The speaker is determined using the score S3 of the third utterance alone for the person who became, and the score S1 of the first utterance, the score S2 of the second utterance, and the third utterance of the remaining persons for whom the determination was still impossible Of the second utterance, the score S3 of the third utterance, and the score S1 of the first utterance and the score S3 of the third utterance. Is used for speaker determination.
[0081]
In short, when n = 3 as in the above-described embodiment, different speaker authentication utterance patterns are specified at most three times for the speaker, and scores corresponding to two or three utterance pattern specifications are given. Is set as an integrated score, and the integrated score is used as an input of a discriminant function on a two- or three-dimensional plane, and it is determined from the sign of the discriminant function whether the speaker is the person or another person. At this time, the integrated speaker determination may be applied in one or two stages, or the speaker determination based on a single utterance may be used in combination as necessary.
[0082]
In general, in the present invention, a plurality of n different speaker authentication utterance patterns are specified for a speaker at a maximum, and k utterance patterns corresponding to a plurality of k (2 ≦ k ≦ n) utterance patterns are specified. Is used as an integrated score, and the integrated score is used as an input of a discriminant function on the k-dimensional plane, and a speaker authentication method is used in which it is determined whether the speaker is the person or the other person from the sign of the discriminant function. be able to. At that time, speaker determination based on a single utterance is used together as necessary. As the integrated score, for example, two or three or more scores such as a set having at least the first utterance score as an element, a set having n−1 utterance scores and an n-th utterance score as elements, and the like. Use a set as an element. In addition, it is preferable to apply such integrated speaker determination in one step or in two or more steps.
[0083]
Note that the speaker authentication technology of the present invention can be applied to a voice authentication device for telephone services such as telephone banking, a voice authentication device for various Web services, and the like.
[0084]
Also, a program for realizing each step shown in FIGS. 5 to 9 is recorded on a computer-readable recording medium, and the program recorded on this recording medium is read into a computer system and executed. Authentication processing may be performed. Here, the “computer system” may include an OS and hardware such as peripheral devices. The “computer system” includes a homepage providing environment (or a display environment) if a WWW system is used. The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in a computer system.
[0085]
Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that serves as a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. As described above, a program holding a program for a certain period of time is also included.
[0086]
Further, the above program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the "transmission medium" for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
[0087]
Further, the program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
[0088]
As described above, the embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, for example, the continuous word may be a continuous word or symbol such as a continuous alphabet or a continuous alphabet. The present invention is not limited to this, and includes design changes and the like within a range not departing from the gist of the present invention.
[0089]
【The invention's effect】
As described above, according to the present invention, for utterances in which it is difficult to judge the person and another person (spoofer), the designated pattern is changed to encourage re-speech and judgment is made using scores of a plurality of utterances in an integrated manner. It is possible to guarantee the authentication accuracy set in advance. Further, according to the present invention, a text-designated speaker authentication that is robust and maintains high authentication accuracy against “recording / playback-type spoofing” in which the utterance of the person is secretly recorded and reproduced later. Technology can be realized. Further, in the case of performing a multi-stage speaker determination using a plurality of utterances in an integrated manner to guarantee a preset authentication accuracy, the authentication accuracy is improved and the proportion of users (speakers) who can guarantee the authentication acceptance is increased. can do.
[0090]
In addition, when it cannot be determined that the authentication is accepted or rejected, a new utterance pattern that enhances the authentication accuracy compared to the previously specified speaker authentication pattern can be used to reduce the burden on the user. The authentication efficiency can be improved by gradually increasing the authentication accuracy. In addition, when re-designating the speaker authentication pattern, if the number of pairs of chains of a plurality of words in the speaker registration pattern is increased from the previously specified speaker authentication pattern, the number of uttered words becomes Although it increases, the authentication accuracy can be improved while maintaining the effect of preventing identity fraud.
[0091]
Furthermore, by designating the speaker as a speaker authentication utterance pattern including at least one set of a plurality of word chains included in the utterance pattern used for speaker registration, it is possible to prevent false identification and burden on the user. Can be reduced as much as possible and authentication can be performed efficiently. In this case, when re-specifying the speaker authentication pattern, if the number of a series of word chains in the speaker registration pattern is increased from the previously specified speaker authentication pattern, the authentication accuracy is prioritized. Can be enhanced.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a speaker authentication device according to an embodiment of the present invention.
FIG. 2 is a block diagram illustrating a configuration example of a speaker determination unit.
FIG. 3 is a flowchart illustrating a flow of speaker registration processing.
FIG. 4 is a diagram showing an example of voice pattern designation.
FIG. 5 is a flowchart showing the flow of speaker authentication processing.
FIG. 6 is a flowchart showing the flow of a first integrated speaker determination portion during speaker authentication processing.
FIG. 7 is a flowchart showing the flow of a second integrated speaker determination portion during speaker authentication processing.
FIG. 8 is a diagram illustrating an example of a setting method of a discriminant function.
FIG. 9 is a flowchart illustrating another example of the second integrated speaker determination during the speaker authentication processing.
[Explanation of symbols]
1 Speaker authentication device
2 Feature extractor
3 utterance content judgment device
4 switch
5 Registration judgment unit
6 Voice feature information storage
7 Speaker judgment device
7a Score accumulator (score accumulating means)
7b Score calculator (score calculating means)
7c Speaker determination unit for single utterance (speaker determination means by single utterance)
7d Integrated speaker judgment device (Integrated speaker judgment means)
8. Pattern designator (voice pattern designator)
9 Speaker registration pattern storage (voice pattern storage means)
10 buffers
11 Straight line equivalent to conventional threshold
12a Area where the rate of authentication acceptance of the individual increases
12b Area where the rate of rejecting others increases

Claims (10)

発話者の発声と話者モデルとの類似度を表すスコアに基づいて本人認証を行う話者認証装置において、
互いに異なる話者認証用発声パタンを、最大で複数n回、発話者に対して指定する発声パタン指定手段と、
第i番目の発声パタン指定に対応する発話者の発声と話者モデルとのスコアを、第iスコアとして、計算するスコア計算手段と、
複数k回の発声パタン指定に対応するk個のスコアを要素とする集合を統合的スコアとし、この統合的スコアをk次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定する統合的話者判定手段
を備えることを特徴とする話者認証装置。
In a speaker authentication device for performing personal authentication based on a score representing a similarity between a speaker's utterance and a speaker model,
Utterance pattern designating means for designating different utterance patterns for speaker authentication to a speaker at a maximum of n times,
Score calculation means for calculating, as an i-th score, a score between the utterance of the speaker corresponding to the i-th utterance pattern designation and the speaker model;
A set of k scores corresponding to a plurality of k utterance pattern designations is set as an integrated score, and the integrated score is used as an input of a discriminant function on a k-dimensional plane. A speaker authentication device comprising integrated speaker determination means for determining whether a person is another person.
請求項1において、
第1スコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備え、
前記統合的話者判定手段は、単独発声による話者判定手段では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置。
In claim 1,
A speaker determination unit based on a single utterance that determines whether the speaker is the person or another person by independently comparing the first score with a threshold value,
The integrated speaker determination means determines whether the speaker is the person or another person when the speaker determination means based on a single utterance cannot determine whether the speaker is the person or another person with predetermined authentication accuracy. A speaker authentication device, characterized in that:
請求項2において、統合的スコアが少なくとも第1スコアを要素とする集合であることを特徴とする話者認証装置。3. The speaker authentication device according to claim 2, wherein the integrated score is a set having at least the first score as an element. 請求項1において、
第nスコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備え、
前記統合的話者判定手段は、単独発声による話者判定手段では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置。
In claim 1,
Comparing the n-th score alone with a threshold value, a speaker determination unit based on a single utterance that determines whether the speaker is the person or another person is provided,
The integrated speaker determination means determines whether the speaker is the person or another person when the speaker determination means based on a single utterance cannot determine whether the speaker is the person or another person with predetermined authentication accuracy. A speaker authentication device, characterized in that:
請求項4において、統合的スコアが少なくとも第n―1スコア及び第nスコアを要素とする集合であることを特徴とする話者認証装置。5. The speaker authentication device according to claim 4, wherein the integrated score is a set including at least the (n-1) th score and the nth score as elements. 請求項1において、
n=3、k=2であり、第1スコアを単独にしきい値と比較して発話者が本人か他人かを判定する単独発声による話者判定手段を備えること、
前記統合的話者判定手段は、単独発声による話者判定手段による第1スコアとしきい値との比較では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、第1スコアと第2スコアを要素とする集合である第1統合的スコアを判別関数の入力として発話者が本人か他人かの判定を行い、この第1統合的スコアによる判定では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、第2スコアと第3スコアを要素とする集合である第2統合的スコアを判別関数の入力として発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置。
In claim 1,
n = 3, k = 2, and a speaker determination unit based on a single utterance for individually comparing the first score with a threshold to determine whether the speaker is the person or the other person;
The integrated speaker determination means determines whether the speaker is a person or another person with a predetermined authentication accuracy by comparing the first score and the threshold value by the speaker determination means based on a single utterance. The first integrated score, which is a set having the score and the second score as elements, is used as an input of a discriminant function to determine whether the speaker is a person or another person. In the determination based on the first integrated score, a predetermined authentication accuracy is used. When it is not possible to determine whether the speaker is the person or another person, the second integrated score, which is a set having the second score and the third score as elements, is used as an input of the discriminant function to determine whether the speaker is the person or another person A speaker authentication device for performing the following.
請求項1において、前記発声パタン指定手段が第i番目に指定する話者認証用発声パタンは、第i−1番目に指定した話者認証用発声パタンよりも認証精度が高い発声パタンであることを特徴とする話者認証装置。2. The speaker authentication utterance pattern designated by the utterance pattern designation means in the i-th order according to claim 1, wherein the utterance pattern designation unit has an authentication accuracy higher than that of the speaker authentication utterance pattern designated by the (i-1) -th order. A speaker authentication device characterized by the above-mentioned. 請求項1において、話者登録に使用された話者登録用発声パタンを保存する発声パタン記憶手段を有し、前記発声パタン指定手段は話者認証用発声パタンとして、前記保存されている話者登録用発声パタンに含まれている複数単語の連鎖を少なくとも一組含む発声パタンを指定するものであることを特徴とする話者認証装置。2. The speaker according to claim 1, further comprising utterance pattern storage means for storing a speaker registration utterance pattern used for speaker registration, wherein said utterance pattern designation means is a speaker authentication utterance pattern. A speaker authentication device for designating an utterance pattern including at least one set of a chain of a plurality of words included in a registration utterance pattern. 請求項1において、前記判別関数として、本人を受理するための第1判別関数及び他人を棄却するための第2判別関数を有し、これら第1判別関数及び第2判別関数は他人受理率と本人棄却率が一定の値となるように設定されていることを特徴とする話者認証装置。2. The method according to claim 1, wherein the discriminant function includes a first discriminant function for accepting a person and a second discriminant function for rejecting another person, wherein the first discriminant function and the second discriminant function are different from each other. A speaker authentication apparatus characterized in that the rejection rate is set to a constant value. 請求項9記載の話者認証装置に用いられる判別関数を設定する方法であって、
k個のスコアの分布をk次元平面におけるk次元正規分布で近似して、k次元平面上の判別面を求めること、
この判別面を並行移動して、他人受理率と本人棄却率が一定の値となる第1判別関数及び第2判別関数を設定することを特徴とする判別関数設定方法。
A method for setting a discriminant function used in the speaker authentication device according to claim 9,
approximating the distribution of k scores with a k-dimensional normal distribution on a k-dimensional plane to obtain a discrimination plane on the k-dimensional plane;
A discriminant function setting method characterized by moving the discriminant plane in parallel and setting a first discriminant function and a second discriminant function in which the false acceptance rate and the false rejection rate are constant values.
JP2003071577A 2003-03-17 2003-03-17 Speaker authentication device Expired - Fee Related JP4163979B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003071577A JP4163979B2 (en) 2003-03-17 2003-03-17 Speaker authentication device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003071577A JP4163979B2 (en) 2003-03-17 2003-03-17 Speaker authentication device

Publications (2)

Publication Number Publication Date
JP2004279770A true JP2004279770A (en) 2004-10-07
JP4163979B2 JP4163979B2 (en) 2008-10-08

Family

ID=33287988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003071577A Expired - Fee Related JP4163979B2 (en) 2003-03-17 2003-03-17 Speaker authentication device

Country Status (1)

Country Link
JP (1) JP4163979B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006184813A (en) * 2004-12-28 2006-07-13 Advanced Telecommunication Research Institute International Foreign language learning system
WO2006087799A1 (en) * 2005-02-18 2006-08-24 Fujitsu Limited Audio authentication system
JP2007057714A (en) * 2005-08-23 2007-03-08 Nec Corp Generating apparatus of speaker identification device updating data, method and program, and updating apparatus of speaker identificaion device, method and program
WO2007111169A1 (en) * 2006-03-24 2007-10-04 Pioneer Corporation Speaker model registration device, method, and computer program in speaker recognition system
JP2016206428A (en) * 2015-04-23 2016-12-08 京セラ株式会社 Electronic device and voiceprint authentication method
JP2018501557A (en) * 2014-11-20 2018-01-18 華為技術有限公司Huawei Technologies Co.,Ltd. Apparatus and method for improving terminal security
JP2021033315A (en) * 2019-08-13 2021-03-01 富士ゼロックス株式会社 Information processing apparatus and information processing program

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006184813A (en) * 2004-12-28 2006-07-13 Advanced Telecommunication Research Institute International Foreign language learning system
JP4672003B2 (en) * 2005-02-18 2011-04-20 富士通株式会社 Voice authentication system
WO2006087799A1 (en) * 2005-02-18 2006-08-24 Fujitsu Limited Audio authentication system
JPWO2006087799A1 (en) * 2005-02-18 2008-07-03 富士通株式会社 Voice authentication system
US7657431B2 (en) 2005-02-18 2010-02-02 Fujitsu Limited Voice authentication system
JP2007057714A (en) * 2005-08-23 2007-03-08 Nec Corp Generating apparatus of speaker identification device updating data, method and program, and updating apparatus of speaker identificaion device, method and program
WO2007111169A1 (en) * 2006-03-24 2007-10-04 Pioneer Corporation Speaker model registration device, method, and computer program in speaker recognition system
JP4854732B2 (en) * 2006-03-24 2012-01-18 パイオニア株式会社 Speaker model registration apparatus and method in speaker recognition system, and computer program
JP2018501557A (en) * 2014-11-20 2018-01-18 華為技術有限公司Huawei Technologies Co.,Ltd. Apparatus and method for improving terminal security
US10489568B2 (en) 2014-11-20 2019-11-26 Huawei Technologies Co., Ltd. Apparatus and methods for improving terminal security
JP2016206428A (en) * 2015-04-23 2016-12-08 京セラ株式会社 Electronic device and voiceprint authentication method
JP2021033315A (en) * 2019-08-13 2021-03-01 富士ゼロックス株式会社 Information processing apparatus and information processing program
JP7326983B2 (en) 2019-08-13 2023-08-16 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program

Also Published As

Publication number Publication date
JP4163979B2 (en) 2008-10-08

Similar Documents

Publication Publication Date Title
US7447632B2 (en) Voice authentication system
US8812319B2 (en) Dynamic pass phrase security system (DPSS)
EP0647344B1 (en) Method for recognizing alphanumeric strings spoken over a telephone network
JP3390632B2 (en) Two-stage group selection method for speaker verification system
Melin et al. Voice Recognition with Neural Networks, Type-2 Fuzzy Logic and Genetic Algorithms.
WO2017162053A1 (en) Identity authentication method and device
JPH0354600A (en) Method of verifying identity of unknown person
Mansour et al. Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms
JPH1173195A (en) Method for authenticating speaker&#39;s proposed identification
US20140188468A1 (en) Apparatus, system and method for calculating passphrase variability
JP2004279770A (en) Speaker authentication device and discriminant function setting method
Ozaydin Design of a text independent speaker recognition system
JPH10173644A (en) Identity authentication method
WO2023274028A1 (en) Voiceprint lock control method and apparatus, and electronic device
JPH1173196A (en) Method for authenticating speaker&#39;s proposed identification
Kounoudes et al. Voice biometric authentication for enhancing Internet service security
JP4263439B2 (en) Personal authentication device, personal authentication method, and computer program
Ly-Van et al. Signature with text-dependent and text-independent speech for robust identity verification
JP3818063B2 (en) Personal authentication device
JP2003302999A (en) Individual authentication system by voice
JP2000099090A (en) Speaker recognizing method using symbol string
Chao Speaker identification using pairwise log-likelihood ratio measures
Singh et al. Features and techniques for speaker recognition
Mishra A vector quantization approach to speaker recognition
WO2009110613A1 (en) Personal collation device and speaker registration device, and method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080725

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140801

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees