JP2007133414A - 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 - Google Patents
音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 Download PDFInfo
- Publication number
- JP2007133414A JP2007133414A JP2006307250A JP2006307250A JP2007133414A JP 2007133414 A JP2007133414 A JP 2007133414A JP 2006307250 A JP2006307250 A JP 2006307250A JP 2006307250 A JP2006307250 A JP 2006307250A JP 2007133414 A JP2007133414 A JP 2007133414A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- speaker authentication
- speech
- speaker
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000011156 evaluation Methods 0.000 title claims abstract description 29
- 238000009826 distribution Methods 0.000 claims description 29
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Collating Specific Patterns (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】音声の識別能力を推定する方法及び装置、ならびに話者認証の登録及び評価方法及び装置を提供する。
【解決手段】話者認証の登録方法は、話者によって発話されるパスワードを含む音声を入力するステップ101と、入力音声から音素列を取得するステップ110と、音素毎の識別能力を含む識別能力表に基づき音素列の識別能力を推定するステップ115と、音声のための識別閾値を設定するステップ130と、音声のために音声テンプレートと生成するステップ135とを含む。
【選択図】図1
【解決手段】話者認証の登録方法は、話者によって発話されるパスワードを含む音声を入力するステップ101と、入力音声から音素列を取得するステップ110と、音素毎の識別能力を含む識別能力表に基づき音素列の識別能力を推定するステップ115と、音声のための識別閾値を設定するステップ130と、音声のために音声テンプレートと生成するステップ135とを含む。
【選択図】図1
Description
本発明は情報処理技術、特に話者認証の技術及び音声の識別能力の推定に関する。
各話者が話をしているときの発音の特性を使用することによって、話者認証を行うために異なる話者を識別できる。非特許文献1では、HMM、DTW及びVQという通例使用されている3種類の話者識別エンジン技術が紹介されている。
一般的には、話者認証システムは登録と評価の2段階を含む。話者識別のための前述の従来技術を使用することによって(HMMベースのもののような)信頼性の高いシステムを実現するために、登録段階は通常半自動であり、作成者はクライアントによって供給される複数の音声サンプルと決定閾値を有する話者のモデルを、実験を通して作成する。訓練のための音声サンプルの数は多い場合があり、コホートモデルには他の人物によって発声されるパスワードサンプルさえも必要とされる。したがって、登録は多大な時間を要し、作成者の参加なしにクライアントが自由にパスワードを変えることは不可能である。したがって、クライアントがこのようなシステムを使用するのは不便である。
他方、既定のパスワードの中のいくつかの音素と音節は異なる話者を区別する能力に欠けることがある。ただし、パスワードの効果についてのこのような種類の検査は大部分の現在のシステムにおける登録中に行われる。
K.Yu、J.Mason、J.Oglesbyによって執筆された「Speaker recognition using hidden Markov models,dynamic time warping and vector quantisation」、(Vision,Image and Signal Processing、IEE、Vol. 142, Oct. 199, pp. 313−18)。
K.Yu、J.Mason、J.Oglesbyによって執筆された「Speaker recognition using hidden Markov models,dynamic time warping and vector quantisation」、(Vision,Image and Signal Processing、IEE、Vol. 142, Oct. 199, pp. 313−18)。
従来の技術における前述された問題を解決するために、本発明は話者認証の登録方法と装置、話者認証の評価方法と装置、音声の識別能力推定方法、及び話者認証システムを提供する。
本発明の態様に従って、話者によって発話されるパスワードを含む音声を入力するステップと、前記入力音声から音素列を取得するステップと、音素毎に識別能力を含む識別能力表に基づき音素列の識別能力を推定するステップと、音声の識別閾値を設定するステップと、音声のための音声テンプレートを生成するステップと、を含む、話者認証登録方法が提供される。
本発明の別の態様に従って、音声を入力するステップと、入力音声が、前述の話者認証登録方法を使用することによって生成される音声テンプレートに従って、話者によって発話された登録パスワード音声であるかどうかを判断するステップとを含む、話者認証評価方法が提供される。
本発明の別の態様に従って、音声から音素の列を取得するステップと、音素毎の識別能力を含む識別能力表に基づいて音素列の識別能力を推定するステップとを含む、音声識別能力推定方法が提供される。
本発明の別の態様に従って、話者によって発話されるパスワードを含む音声を入力するように構成される音声入力ユニットと、入力音声から音素列を取得するように構成される音素列取得ユニットと、音素毎の識別能力を含む識別能力表に基づいて音素列の識別能力を推定するように構成される識別能力推定ユニットと、音声の識別閾値を設定するように構成される閾値設定ユニットと、音声の音声テンプレートを生成するように構成されるテンプレートジェネレータとを備える、話者認証登録装置が提供される。
本発明の別の態様に従って、音声を入力するように構成される音声入力ユニットと、入力音声から音響特性を抽出するように構成される音響特性抽出器と、抽出音響特性のDTW整合距離を計算するように構成される整合距離計算機と、前述の話者認証登録方法を使用することにより生成される対応する音声テンプレートとを備える、話者認証評価装置が提供され、この話者認証評価装置は、所定の識別閾値と計算されたDTW整合距離とを比較することにより、入力音声が話者により発話される登録パスワードの音声であるかどうかを判断する。
本発明の別の態様に従って、前述の話者認証登録装置と、前述の話者認証評価装置とを備える、話者認証システムが提供される。
以下、図面を参照して本発明の実施形態を詳細に説明する。
図1は、本発明の実施形態による話者認証登録方法を示すフローチャートである。図1に示されているように、まずステップ101で、話者により発話されるパスワードを含む音声が入力される。ここでは、システム管理者または開発者が、従来の技術で行われていたように話者(ユーザ)との相談を通して事前にパスワードの内容を決定する必要なく、ユーザはパスワードの内容を自由に決定し、それを発話することができる。
次に、ステップ105では、音響特性が音声から抽出される。具体的にはMFCC(メル周波数ケプストラム係数)が、本実施形態の音声の音響特性を表現するために使用される。しかしながら、本発明がこれに特定の制限を有しておらず、任意の他の公知の方法及び将来の方法が、それらが話者の個人的な音声特性を表現できる限り、LPCC(線形予測ケプストラム係数)またはエネルギー、基本トーン周波数、ウェーブレット分析に基づいて取得される他の係数等の、音声の音響特性を表すために使用されてよいことに留意されたい。
次に、ステップ110では、抽出された音響特性が、対応する音素の列を取得するために復号される。特に、本実施形態ではHMM(隠れマルコフモデル)復号が使用される。しかしながら、本発明はこれに対する特殊な限定を有さず、音素の列を取得するためにANNベースの(人工神経回路網)モデル等の他の公知の方法及び将来の方法が使用されてよいことに留意されたい。つまり検索アルゴリズムに関しては、対応する音素の列が音響特性から取得できる限り、ビタビアルゴリズム、A*、及び他のような多様なデコーダアルゴリズムが使用されてよい。
次に、ステップ115では、音素の列の識別能力は、音素ごとの識別能力を含む識別能力表に基づいて推定される。特に、識別能力表の形式は、本実施形態の表1で下記に示されるとおりのものである。
例として中国標準語を取ると、表1は各音素(音声を構成する最小単位)の識別能力、つまり21個の声母と38個の韻母を一覧表示する。他の言語の場合、音素の構成は異なる可能性があり、例えば英語は子音と母音を有するが、本発明がこれらの他の言語にも適用可能であることが理解できる。
本実施形態の識別能力表は、統計を通して事前に準備される。具体的にはまず、音素ごとの複数の音声が、決まった数(例えば50)の音声分だけ記録される。例えば、「a」等の音素毎に、音響特性がすべての話者によって発話される「a」の音声データから抽出され、DTW(動的時間軸圧縮)マッチングがそれらの内のそれぞれ2つの間で行われる。マッチングスコア(距離)は、2つのグループ、つまり同じ話者からの適合された音響データのスコアが分類される「自己」グループと、さまざまな話者からのスコアが分類される「他者」グループに分けられる。これら2つのグループのデータの分布曲線間の重複する関係は、さまざまな話者のための音素の識別能力を特徴付けてよい。データの両方のグループともt分布に属することが公知である。データ量は相対的に大きいため、それらは通常の分布に従うものとほぼ考えられる。したがって、分布情報のほぼすべてを保つためには各グループのスコアの平均と分散を記録することで十分である。表1に示されているように、音素識別表では、各音素に対応するμc及びσc 2は、それぞれ自己グループの平均と分散であり、μi及びσi 2は、それぞれ他のグループの平均と分散である。
このようにして、音素識別能力表を用いて、音素列(テキストパスワードを含む音声のセグメント)の識別能力を計算できる。DTWマッチングスコアは距離として表されているため、音素列の整合距離(スコア)は列の中に含まれている全音素の整合距離の和と見なされてよい。いまや各音素の整合距離の2つのグループ(自己グループと他者グループ)が
したがって音素識別能力表を用いると、整合距離の分布の2つのグループ(自己グループと他者のグループ)が任意の音素列について推定されてよい。「zhong guo」を例として取ると、音素列の分布の2つのグループのパラメータは以下のとおりである。
μ(zhongguo)=μ(zh)+μ(ong)+μ(g)+μ(o) (1)
μ(zhongguo)=σ2(zh)+ σ2(ong)+ σ2(g)+σ2(o) (2)
更に、同じ原理に基づき、韻母または子音等の単独で発音するのが困難であるそれらのパラメータの場合、それらは統計を作成するため音声を記録するために、容易に発音される音節を構築するための公知の音素と結合されてよい。次に、単純な減算により、音素の統計データは、以下の式に示されるように取得されてよい。
μ(zhongguo)=σ2(zh)+ σ2(ong)+ σ2(g)+σ2(o) (2)
更に、同じ原理に基づき、韻母または子音等の単独で発音するのが困難であるそれらのパラメータの場合、それらは統計を作成するため音声を記録するために、容易に発音される音節を構築するための公知の音素と結合されてよい。次に、単純な減算により、音素の統計データは、以下の式に示されるように取得されてよい。
μ(f)=μ(fa)-μ(a) (3)
σ2(f)= σ2(fa)-σ2(a) (4)
更に、本発明の好ましい実施形態に従って、パスワードテキスト内の各音素の持続時間(つまり、特性ベクトルの数)情報を使用し、音素列に基づきパスワードテキストの分布パラメータを計算するときには重み付けを行うことが検討されてよい。例えば、前記式(1)と(2)は以下に変更されてよい。
σ2(f)= σ2(fa)-σ2(a) (4)
更に、本発明の好ましい実施形態に従って、パスワードテキスト内の各音素の持続時間(つまり、特性ベクトルの数)情報を使用し、音素列に基づきパスワードテキストの分布パラメータを計算するときには重み付けを行うことが検討されてよい。例えば、前記式(1)と(2)は以下に変更されてよい。
次にステップ120では、前記音素列の識別能力が十分であるかどうかが決定される。図7は、本発明の実施形態において識別能力の推定と閾値の設定を図解するための曲線である。図7に示されているように、前記ステップを通して、音素列の自己グループと他者グループの分布パラメータ(分布曲線)が取得されてよい。本実施形態に従って、パスワードの識別能力を推定するための以下の3つの方法がある。
a)これら2つの分布の重複する面積(図7の陰影部分)を計算する方法。重複面積が所定値より大きい場合には、パスワードの識別能力が弱いと判断される。
b)等誤り率を(EER)計算する方法。等誤り率が所定の値より大きい場合、パスワードの識別能力が弱いと判断される。等誤り率(EER)は、他人受入率(FAR)が本人拒否率(FRR)に等しいときの誤り率、つまり図7の陰影領域が、閾値によって左部分と右部分に分割されるときのこれらの2つの陰影部分のどちらかの面積を意味し、これらの2つの陰影部分は同じ面積を有する。
c)他人受入率(FAR)が(0.1%のような)所望の値に設定されるときの本人拒否率(FRR)を計算する方法。本人拒否率(FRR)が所定値より大きい場合、パスワードの識別能力が弱いと判断される。
ステップ120で識別能力が十分ではないと判断されると、処理はステップ125に進み、ユーザにその識別能力を高めるためにパスワードを変更するようにプロンプトを出してから、ユーザがパスワード音声をもう一度入力するステップ101に戻る。ステップ120で、識別能力が十分であると判断される場合には、処理はステップ130に進む。
ステップ130では、音声について識別閾値が設定される。識別能力を推定するケースと同様に、図7に示されているように、本実施形態で最適識別閾値を推定するためには以下の3つの方法が使用できる。
a)音素列の自己グループの分布曲線と他者グループの分布曲線の交点、つまりFARとFRRの和が最小である場所として識別閾値を設定する方法。
b)等誤り率に対応する閾値として識別閾値を設定する方法。
c)他人受入率を(0.1%のような)所望の値にする閾値として識別閾値を設定する方法。
次にステップ135では、音声のために音声テンプレートが生成される。特に、本実施形態では、音声テンプレートは音声から抽出される音響特性、及び音声のために設定される識別閾値を含む。
次に、ステップ140では、音声パスワードが再び確認される必要があるかどうかが判断される。必要がない場合、処理はステップ170で終了する。それ以外の場合、処理は、話者がパスワードを含む音声をもう一度入力するステップ145に進む。
次に、ステップ150では、対応する音素列が再入力された音声に基づいて取得される。特に、このステップは、説明がここでは繰り返されないステップ105と110と同じである。
次に、ステップ155では、本入力音声に対応する音素列が、以前に入力された音声の音素列と一致するかどうかが判断される。それらが食い違う場合には、ユーザは両方の音声に含まれているパスワードが食い違っていることをプロンプトで指示され、処理はステップ101に戻り、パスワード音声を再び入力する。それ以外の場合、処理はステップ160に進む。
ステップ160では、DTWのマッチング及び平均化がないか、以前に生成された音声テンプレートの音響特性と今回抽出された音響特性が互いに位置合わせされる。つまり、テンプレートのマージが行われる。テンプレートのマージについては、W.H.Abdulla、D.Chow、及びG.Sinによって書かれた記事「Cross-words reference template for DTW-based speech recognition systems」が参照されてよい(IEEE TENCON22003, pp.1576-1579)。
テンプレートのマージ後、処理は、別の確認が必要とされるかどうかが判断されるステップ140に戻る。本実施形態に従って、通常、パスワード音声に対する確認は3回から5回行われてよく、その結果信頼性を高めることができ、それによりユーザがひどく困ることはない。
前記説明から、本実施形態の話者認証登録方法が採用されると、ユーザはシステム管理者または開発者の参加を必要としなくても、自分でパスワード音声を選択し、入力でき、その結果、ユーザはさらに便利に登録を行い、さらに優れたセキュリティを獲得できることが分かる。さらに、本実施形態の話者認証登録方法は、ユーザの登録の間にパスワード音声の識別能力を自動的に推定することができ、その結果、十分な識別能力のないユーザのパスワード音声は妨げられてよく、それにより認証のセキュリティが高められてよい。
本発明の同じ概念に基づいて、図2は本発明の実施形態による話者認証評価方法を示すフローチャートである。本実施形態の説明は図2と関連して後述され、前述された実施形態の中の部品と同じものは適切に省略されている。
図2に示されているように、ステップ201では最初に、認証されるユーザがパスワードを含む音声を入力する。次にステップ205で、音響特性が入力された音声から抽出される。前述の実施形態と同様に、本発明は音響特性に特定の制限を有さないため、それらが話者の個人的な音声特性を表現できる限り、例えばMFCC、LPCC、またはエネルギー、基本トーン周波数、またはウェーブレット分析に基づいて取得される他の係数が使用されてよい。ただし、音響特性を獲得するための方法は、ユーザの登録中に生成される音声テンプレートで使用されるものに一致する必要がある。
次にステップ210では、抽出された音響特性と、音声テンプレートに含まれている音響特性の間のDTW整合距離が計算される。ここでは、本実施形態における音声テンプレートは、前述される本実施形態の話者認証登録方法を使用して生成されるテンプレートであり、音声テンプレートは、少なくともパスワード音声と識別閾値に一致する音響特性を含む。DTW整合距離を計算するための特殊な方法は前記実施形態で説明されたので、繰り返されない。
次にステップ215では、DTW整合距離が音声テンプレートで設定されている識別閾値より小さいかどうかが判断される。小さい場合には、入力される音声はステップ220と同じ話者によって話される同じパスワードとして決定され、評価は成功する。それ以外の場合、ステップ225で評価は失敗と判断される。
前記説明から、本実施形態の話者認証の評価のための方法が採用される場合には、前述された実施形態の話者認証登録方法を使用することにより生成される音声テンプレートが、ユーザの音声の評価を行うために使用されてよいことが分かる。ユーザは、システム管理者または開発者の参加を必要としなくても、自分でパスワードテキストを設計、選択できるため、その結果評価プロセスはより便利になり、さらに優れたセキュリティを獲得する。さらに、パスワード音声の分解能が保証されてよく、認証のセキュリティが高められてよい。
本発明の同じ概念に基づき、図3は本発明の実施形態による音声の識別能力を推定するための方法を示すフローチャートである。本実施形態の説明は、図3に関連して後述され、前述の実施形態の中の部品と同じものは適切に省略されている
図3に示されているように、第1にステップ301では、音響特性は推定される音声から抽出される。前述の実施形態と同様に、本発明は音響特性に特定の制限を有さないため、それらが話者の個人的な音声特性を表現できる限り、例えばMFCC、LPCC、またはエネルギー、基本トーン周波数、またはウェーブレット分析に基づいて取得される他の係数が使用されてよい。
図3に示されているように、第1にステップ301では、音響特性は推定される音声から抽出される。前述の実施形態と同様に、本発明は音響特性に特定の制限を有さないため、それらが話者の個人的な音声特性を表現できる限り、例えばMFCC、LPCC、またはエネルギー、基本トーン周波数、またはウェーブレット分析に基づいて取得される他の係数が使用されてよい。
次にステップ305では、抽出された音響特性は対応する音素列を取得するために復号される。前述された実施形態と同様に、HMM、ANN、または他のモデルが使用されてよい。つまり、検索アルゴリズムに関しては、音響特性から対応する音素列が取得できる限り、ビタビ、A*及び他のような多様なデコーダアルゴリズムが使用されてよい。
特に、前記実施形態におけるステップ115と同様に、音素識別表には、それぞれ、各音素に従って、自己グループの分布の平均μcと分散σc 2及び統計を通して取得される他者グループの分布の平均μiと分散σi 2が記録されている。音素識別表に基づき、
1)これら2つの分布の重複する面積を計算し、重複する面積が所定値より小さいかどうかを判断する方法。
b)等誤り率(EER)を計算し、等誤り率が所定値より小さいかどうか判断する方法。
c)他人受入率(FAR)が所定値に設定されているときに本人拒否率(FRR)を計算し、本人拒否率(FRR)が所定値より小さいかどうかを判断する方法。
前記説明から、本実施形態の音声の識別能力を推定するための方法が採用される場合、音声の識別能力がシステム管理者または開発者の参加を必要としなくても自動的に推定でき、その結果、便利さとセキュリティは、音声の識別能力を使用する(音声認証のような)用途のために強化されてよい。
本発明の同じ概念に基づき、図4は本発明の実施形態による話者認証の登録のための装置を示すブロック図である。この実施形態の説明は図4に関連して後述され、前述された実施形態の中の部品と同じものは適切に省略されている。
図4に示されているように、本実施形態の話者認証の登録のための装置400は、話者により発話されるパスワードを含む音声を入力するように構成されている音声入力ユニット401と、入力された音声から音素列を取得するように構成されている音素列取得ユニット402と、音素毎の識別能力を含む識別能力表405に基づき音素列の識別能力を推定するように構成されている識別能力推定ユニット403と、前記音声のための識別閾値を設定するように構成されている閾値設定ユニット404と、前記音声のための音声テンプレートを生成するように構成されているテンプレートジェネレータ406とを備える。
更に、図4に示されている音素列取得ユニット402は、入力された音声から音響特性を抽出するように構成されている音響特性抽出器4021と、対応する音素列を取得するために該抽出された音響特性を復号するように構成されている音素列デコーダ4022とをさらに含む。
前述の実施形態と同様に、本実施形態の音素識別表405は、それぞれ各音素に対応して、自己グループの分布の平均μcと分散σc 2と、統計により取得される他者グループの分布の平均μiと分散σi 2を記録する。
更に、図示されていないが、話者認証の登録のための装置400は、識別能力表405に基づき、
更に、好ましくは、識別能力推定ユニット403は、
重複する面積が所定値より小さい場合には音素列の識別能力が十分であると判断し、それ以外の場合、音素列の識別能力が十分ではないと判断するように構成されている。
等誤り率が所定の値未満である場合には音素列の識別能力が十分であると判断し、それ以外の場合、音素列の識別能力が十分ではないと判断するように構成されている。
また、識別能力推定ユニット403は、
本人拒否率が所定値未満である場合に音素列の識別能力が十分であると判断し、それ以外の場合、音素列の識別能力が十分ではないと判断するように構成されている。
前記実施形態と同様に、本実施形態における閾値設定ユニット404は、識別閾値を設定するために以下の方法の内の1つを使用してよい。
1)音素列について自己グループの分布曲線と他者グループの分布曲線の交点として識別閾値を設定する方法。
2)等誤り率に対応する閾値として識別閾値を設定する方法。
3)他人受入率を所定値にする閾値として識別閾値を設定する方法。
更に、図4に示されているように、本実施形態における話者認証の登録のための装置400は、連続して入力された2つの音声にそれぞれ対応する2つの音素列を比較するように構成されている音素列比較ユニット408と、音声テンプレートをマージするように構成されているテンプレートマージユニット407とをさらに含む。
本実施形態における話者認証及びその構成要素の登録のための装置400は、特殊な回路またはチップで構築されてよく、コンピュータ(プロセッサ)を通して対応するプログラムを実行することによっても実現できる。さらに、本実施形態における話者認証の登録のための装置400は、図1に関連して前述された実施形態において話者認証の登録の方法を操作上実現できる。
本発明の同じ概念に基づき、図5は本発明の実施形態による話者認証の評価のための装置を示すブロック図である。本実施形態の説明は図5に関連して後述され、前述された実施形態の中の部品と同じものは適切に省略されている。
図5に示されているように、本実施形態における話者認証の評価のための装置500は、音声を入力するように構成されている音声入力ユニット501と、音声入力ユニット501によって入力される音声から音響特性を抽出するように構成されている音響特性抽出器502と、抽出された音響特性のDTW整合距離を計算するように構成されている整合距離計算機503と、前述された実施形態に従って話者認証の登録方法を使用することによって生成される対応する音声テンプレート504とを備え、音声テンプレート504はユーザの登録中に使用される音響特性及び識別閾値を含む。本実施形態における話者認証の評価のための装置500は、整合距離計算機503によって計算されたDTW整合距離が所定の識別閾値より小さい場合に、入力された音声が話者によって話される登録されたパスワード音声であることを判断し、それ以外の場合、評価は失敗したと判断されるように設計されている。
本実施形態における話者認証及びその構成要素の評価のための装置500は、特殊な回路またはチップで構築されてよく、コンピュータ(プロセッサ)を通して対応するプログラムを実行することによっても実現できる。さらに、本実施形態における話者認証の評価のための装置500は、図2に関連して前述された実施形態において話者認証の評価のための方法を操作上実現できる。
本発明の同じ概念に基づき、図6は、本発明の実施形態による話者認証のためのシステムを示すブロック図である。本実施形態の説明は図6に関連して後述され、前述された実施形態の中の部品と同じものは適切に省略されている。
図6に示されているように、本実施形態における話者認証のためのシステムは、前述の実施形態に説明されている話者認証の登録のための装置である場合がある、話者認証の登録のための装置400と、前述の実施形態に説明されている話者認証の評価のための装置500である場合がある、話者認証の評価のための装置とを備える。登録装置400によって生成される話者テンプレートは、ネットワーク、内部チャネル、ディスクまたは他の記憶媒体等のあらゆる通信路を介して、評価装置500に転送される。
このようにして、本実施形態の話者認証のためのシステムが採用される場合、ユーザはシステム管理者または開発者の参加を必要としなくても、自分でパスワードテキストを設計し、選択するために、登録装置400を使用することができ、ユーザがさらに便利に登録を行い、さらに優れたセキュリティを獲得できるように、音声評価を行うために評価装置500を使用できる。さらに、システムはユーザの登録中にパスワード音声の識別能力を自動的に推定できるので、十分な識別能力のないパスワード音声は防止でき、認証のセキュリティは高められる。
話者認証登録方法及び装置、話者認証評価方法及び装置、音声識別能力推定方法、及び話者認証システムは、いくつかの例示的な実施形態とともに詳細に説明されてきたが、これらの前記実施形態は網羅的ではない。当業者は、本発明の精神及び範囲内で多様な変形及び変型を加えてよい。したがって、本発明はこれらの実施形態に限定されず、むしろ本発明の範囲は添付請求項によってのみ定められる。
400…話者認証の登録のための装置、401、501…音声入力ユニット、402…音素列取得ユニット、403…識別能力推定ユニット、404…閾値設定ユニット、405…識別能力表、406…テンプレートジェネレータ、407…テンプレートマージユニット、408…音素列比較ユニット、500…話者認証評価装置、502、4021…音響特性抽出器、503…整合距離計算機、504…音声テンプレート、4022…音素列デコーダ
Claims (33)
- 話者認証登録方法であって、
話者によって発話されるパスワードを含む音声を入力するステップと、
前記入力音声から音素列を取得するステップと、
音素毎に識別能力を含む識別能力表に基づき音素列の識別能力を推定するステップと、
前記音声の識別閾値を設定するステップと、
前記音声のための音声テンプレートを生成するステップと、
を含むことを特徴とする話者認証登録方法。 - 前記入力音声から音素列を取得する前記ステップは、
前記入力音声から音響特性を抽出するステップと、
対応する音素列を取得するために、前記抽出音響特性を復号するステップと、
を含むことを特徴とする請求項1に記載の話者認証登録方法。 - 前記音声の識別閾値を設定する前記ステップは、
前記音素列の自己グループの前記分布曲線と他者のグループの前記分布曲線の交点として、前記識別閾値を設定することを含むことを特徴とする請求項4乃至請求項6のいずれか1項に記載の話者認証登録方法。 - 前記音声の識別閾値を設定する前記ステップは、
等誤り率に相当する閾値として前記識別閾値を設定することを含むことを特徴とする請求項4乃至請求項6のいずれか1項に記載の話者認証登録方法。 - 前記音声のための識別閾値を設定する前記ステップは、
他人受入率を所望の値にする閾値として前記識別閾値を設定するステップを含むことを特徴とする請求項4乃至請求項6のいずれか1項に記載の話者認証登録方法。 - 前記音声テンプレートは前記抽出音響特性と前記識別閾値を含むことを特徴とする請求項2乃至請求項9のいずれか1項に記載の話者認証登録方法。
- 前記音素列の前記識別能力が十分ではないと判断されるときに、前記話者にパスワードを変更するようにプロンプトで指示を出すステップをさらに含むことを特徴とする請求項1乃至請求項10のいずれか1項に記載の話者認証登録方法。
- 音素テンプレートを生成する前記ステップの後に、確認のために前記話者によって話される音声を再入力するステップと、
前記再入力音声から音素列を取得するステップと、
今回再入力された音声に対応する前記音素列を、前回入力された音声に対応する前記音素列と比較するステップと、
前記2つの音素列が一致する場合に前記音声テンプレートをマージするステップと、
をさらに含むことを特徴とする請求項1乃至請求項11のいずれか1項に記載の話者認証登録方法。 - 話者認証の評価方法であって、
音声を入力するステップと、
前記入力された音声が、請求項1乃至12のいずれか1項に記載の前記話者認証登録方法を使用することにより生成される音声テンプレートに従って、前記話者により話される登録済みのパスワード音声であるかどうかを判断するステップと、
を含むことを特徴とする話者認証評価方法。 - 前記入力された音声が、前記話者により話される登録されたパスワード音声であるかどうかを判断する前記ステップは、
前記入力音声から音響特性を抽出するステップと、
前記抽出音響特性と前記音声テンプレートとのDTW整合距離を計算するステップと、
前記入力された音声が、前記計算されたDTW整合距離を前記所定の識別閾値と比較することにより、前記話者により話される登録されたパスワード音声であるかどうかを判断するステップと、
を含むことを特徴とする請求項13に記載の音声認証評価方法。 - 音声の識別能力を推定するための方法であって、
前記音声から音素列を取得するステップと、
音素毎の識別能力を含む識別能力表に基づき前記音素列の識別能力を推定するステップと、
を含むことを特徴とする音声識別能力推定方法。 - 音素列を取得する前記ステップは、
前記音声から音響特性を抽出するステップと、
対応する音素列を取得するために前記抽出された音響特性を復号するステップと、
を含むことを特徴とする請求項15に記載の音声識別能力推定方法。 - 話者により発話されるパスワードを含む音声を入力するように構成されている音声入力ユニットと、
前記入力音声から音素列を取得するように構成されている音素列取得ユニットと、
音素毎の識別能力を含む識別能力表に基づき、前記音素列の識別能力を推定するように構成されている識別能力推定ユニットと、
前記音声の識別閾値を設定するように構成されている閾値設定ユニットと、
前記音声のために音声テンプレートを生成するように構成されているテンプレートジェネレータと、
を具備することを特徴とする話者認証登録装置。 - 前記音素列取得ユニットは、
前記入力音声から音響特性を抽出するように構成されている音響特性抽出器と、
対応する音素列を取得するために前記抽出音響特性を復号するように構成されている音素列デコーダと、
を具備することを特徴とする請求項21に記載の話者認証登録装置。 - 前記閾値設定ユニットは、前記音素列の自己グループの前記分布曲線と他者グループの前記分布曲線の交点として、前記識別閾値を設定することを特徴とする請求項24乃至請求項26のいずれか1項に記載の話者認証登録装置。
- 前記閾値設定ユニットは、等誤り率に対応する閾値として前記識別閾値を設定することを特徴とする請求項24乃至請求項26のいずれか1項に記載の話者認証登録装置。
- 前記閾値設定ユニットは、他人受入率を所望の値にする閾値として前記識別閾値を設定することを特徴とする請求項24乃至請求項26のいずれか1項に記載の話者認証登録装置。
- 前記音声テンプレートは前記抽出された音響特性と前記識別閾値を具備することを特徴とする請求項22乃至請求項29のいずれか1項に記載の話者認証登録装置。
- 連続して入力される2つの音声にそれぞれ対応する、2つの音素列を比較するように構成されている音素列比較ユニットと、
音声テンプレートをマージするように構成されているテンプレートマージユニットと、
をさらに具備することを特徴とする請求項21乃至請求項30のいずれか1項に記載の話者認証登録装置。 - 音声を入力するように構成されている音声入力ユニットと、
前記入力された音声から音響特性を抽出するように構成されている音響特性抽出器と、
前記抽出された音響特性と、請求項1乃至請求項31のいずれか1項に記載の前記話者認証登録方法を使用することにより生成される対応する音声テンプレートの、前記DTW整合距離を計算する整合距離計算機と、
を具備し、
前記計算されたDTW整合距離を前記所定の識別閾値と比較することによって、前記入力された音声が、前記話者によって話される登録されたパスワード音声であるかどうかを判断することを特徴とする話者認証評価装置。 - 話者認証のためのシステムであって、
請求項20乃至請求項31のいずれか1項に記載の話者認証登録装置と、
請求項32に記載の話者認証評価装置と、
を具備することを特徴とする話者認証システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2005101149014A CN1963917A (zh) | 2005-11-11 | 2005-11-11 | 评价语音的分辨力、说话人认证的注册和验证方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007133414A true JP2007133414A (ja) | 2007-05-31 |
Family
ID=38082948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006307250A Abandoned JP2007133414A (ja) | 2005-11-11 | 2006-11-13 | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070124145A1 (ja) |
JP (1) | JP2007133414A (ja) |
CN (1) | CN1963917A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015161745A (ja) * | 2014-02-26 | 2015-09-07 | 株式会社リコー | パターン認識システムおよびプログラム |
CN114360553A (zh) * | 2021-12-07 | 2022-04-15 | 浙江大学 | 一种提升声纹安全性的方法 |
WO2023100960A1 (ja) * | 2021-12-03 | 2023-06-08 | パナソニックIpマネジメント株式会社 | 認証装置および認証方法 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2007331763B2 (en) * | 2006-12-12 | 2011-06-30 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
EP2127729A1 (en) * | 2008-05-30 | 2009-12-02 | Mazda Motor Corporation | Exhaust gas purification catalyst |
KR101217524B1 (ko) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 |
US8280052B2 (en) * | 2009-01-13 | 2012-10-02 | Cisco Technology, Inc. | Digital signature of changing signals using feature extraction |
CN102117615B (zh) * | 2009-12-31 | 2013-01-02 | 财团法人工业技术研究院 | 产生词语确认临界值的装置、方法及系统 |
CN102110438A (zh) * | 2010-12-15 | 2011-06-29 | 方正国际软件有限公司 | 一种基于语音的身份认证方法及系统 |
DE102011075467A1 (de) * | 2011-05-06 | 2012-11-08 | Deckel Maho Pfronten Gmbh | Vorrichtung zum bedienen einer automatisierten maschine zur handhabung, montage oder bearbeitung von werkstücken |
US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
US9230550B2 (en) * | 2013-01-10 | 2016-01-05 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
US9437195B2 (en) * | 2013-09-18 | 2016-09-06 | Lenovo (Singapore) Pte. Ltd. | Biometric password security |
US10157272B2 (en) | 2014-02-04 | 2018-12-18 | Qualcomm Incorporated | Systems and methods for evaluating strength of an audio password |
US8812320B1 (en) * | 2014-04-01 | 2014-08-19 | Google Inc. | Segment-based speaker verification using dynamically generated phrases |
CN105653921A (zh) * | 2015-12-18 | 2016-06-08 | 合肥寰景信息技术有限公司 | 一种网络社区的语音密码的设置方法 |
CN105656880A (zh) * | 2015-12-18 | 2016-06-08 | 合肥寰景信息技术有限公司 | 一种网络社区的语音密码智能处理方法 |
CN109872721A (zh) * | 2017-12-05 | 2019-06-11 | 富士通株式会社 | 语音认证方法、信息处理设备以及存储介质 |
CN111933152B (zh) * | 2020-10-12 | 2021-01-08 | 北京捷通华声科技股份有限公司 | 注册音频的有效性的检测方法、检测装置和电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5548647A (en) * | 1987-04-03 | 1996-08-20 | Texas Instruments Incorporated | Fixed text speaker verification method and apparatus |
US5202926A (en) * | 1990-09-13 | 1993-04-13 | Oki Electric Industry Co., Ltd. | Phoneme discrimination method |
US5625747A (en) * | 1994-09-21 | 1997-04-29 | Lucent Technologies Inc. | Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping |
US5752231A (en) * | 1996-02-12 | 1998-05-12 | Texas Instruments Incorporated | Method and system for performing speaker verification on a spoken utterance |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6978238B2 (en) * | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
US7016833B2 (en) * | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
US20070129941A1 (en) * | 2005-12-01 | 2007-06-07 | Hitachi, Ltd. | Preprocessing system and method for reducing FRR in speaking recognition |
-
2005
- 2005-11-11 CN CNA2005101149014A patent/CN1963917A/zh active Pending
-
2006
- 2006-10-18 US US11/550,525 patent/US20070124145A1/en not_active Abandoned
- 2006-11-13 JP JP2006307250A patent/JP2007133414A/ja not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015161745A (ja) * | 2014-02-26 | 2015-09-07 | 株式会社リコー | パターン認識システムおよびプログラム |
WO2023100960A1 (ja) * | 2021-12-03 | 2023-06-08 | パナソニックIpマネジメント株式会社 | 認証装置および認証方法 |
CN114360553A (zh) * | 2021-12-07 | 2022-04-15 | 浙江大学 | 一种提升声纹安全性的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20070124145A1 (en) | 2007-05-31 |
CN1963917A (zh) | 2007-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007133414A (ja) | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 | |
US10476872B2 (en) | Joint speaker authentication and key phrase identification | |
EP3287921B1 (en) | Spoken pass-phrase suitability determination | |
US6411933B1 (en) | Methods and apparatus for correlating biometric attributes and biometric attribute production features | |
CN111566729A (zh) | 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识 | |
US20170236520A1 (en) | Generating Models for Text-Dependent Speaker Verification | |
Sanderson et al. | Noise compensation in a person verification system using face and multiple speech features | |
Saquib et al. | A survey on automatic speaker recognition systems | |
Chakroun et al. | Robust text-independent speaker recognition with short utterances using Gaussian mixture models | |
Campbell | Speaker recognition | |
Furui | 40 years of progress in automatic speaker recognition | |
Nayana et al. | Performance comparison of speaker recognition systems using GMM and i-vector methods with PNCC and RASTA PLP features | |
Kłosowski et al. | Automatic speech segmentation for automatic speech translation | |
Singh et al. | Voice disguise by mimicry: deriving statistical articulometric evidence to evaluate claimed impersonation | |
Montalvao Filho et al. | Multimodal biometric fusion—joint typist (keystroke) and speaker verification | |
KR20230156145A (ko) | 하이브리드 다국어 텍스트 의존형 및 텍스트 독립형 화자 검증 | |
Furui | Speaker recognition in smart environments | |
Furui | Speaker recognition | |
JP4245948B2 (ja) | 音声認証装置、音声認証方法及び音声認証プログラム | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
Abdalrahman et al. | A cascaded voice biometric system | |
JP2001350494A (ja) | 照合装置及び照合方法 | |
Chen et al. | Personal threshold in a small scale text-dependent speaker recognition | |
Phyu et al. | Text Independent Speaker Identification for Myanmar Speech | |
Koolwaaij | Automatic speaker verification in telephony: a probabilistic approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20100208 |