JP2007133414A

JP2007133414A - 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置

Info

Publication number: JP2007133414A
Application number: JP2006307250A
Authority: JP
Inventors: Luan Jian; ジアン・ルアン; Jie Hao; ジー・ハオ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-11-11
Filing date: 2006-11-13
Publication date: 2007-05-31
Also published as: US20070124145A1; CN1963917A

Abstract

【課題】音声の識別能力を推定する方法及び装置、ならびに話者認証の登録及び評価方法及び装置を提供する。
【解決手段】話者認証の登録方法は、話者によって発話されるパスワードを含む音声を入力するステップ１０１と、入力音声から音素列を取得するステップ１１０と、音素毎の識別能力を含む識別能力表に基づき音素列の識別能力を推定するステップ１１５と、音声のための識別閾値を設定するステップ１３０と、音声のために音声テンプレートと生成するステップ１３５とを含む。
【選択図】図１

Description

本発明は情報処理技術、特に話者認証の技術及び音声の識別能力の推定に関する。

各話者が話をしているときの発音の特性を使用することによって、話者認証を行うために異なる話者を識別できる。非特許文献１では、ＨＭＭ、ＤＴＷ及びＶＱという通例使用されている３種類の話者識別エンジン技術が紹介されている。

一般的には、話者認証システムは登録と評価の２段階を含む。話者識別のための前述の従来技術を使用することによって（ＨＭＭベースのもののような）信頼性の高いシステムを実現するために、登録段階は通常半自動であり、作成者はクライアントによって供給される複数の音声サンプルと決定閾値を有する話者のモデルを、実験を通して作成する。訓練のための音声サンプルの数は多い場合があり、コホートモデルには他の人物によって発声されるパスワードサンプルさえも必要とされる。したがって、登録は多大な時間を要し、作成者の参加なしにクライアントが自由にパスワードを変えることは不可能である。したがって、クライアントがこのようなシステムを使用するのは不便である。

他方、既定のパスワードの中のいくつかの音素と音節は異なる話者を区別する能力に欠けることがある。ただし、パスワードの効果についてのこのような種類の検査は大部分の現在のシステムにおける登録中に行われる。
K.Yu、J.Mason、J.Oglesbyによって執筆された「Speaker recognition using hidden Markov models,dynamic time warping and vector quantisation」、(Vision,Image and Signal Processing、IEE、Vol. 142, Oct. 199, pp. 313−18）。

従来の技術における前述された問題を解決するために、本発明は話者認証の登録方法と装置、話者認証の評価方法と装置、音声の識別能力推定方法、及び話者認証システムを提供する。

本発明の態様に従って、話者によって発話されるパスワードを含む音声を入力するステップと、前記入力音声から音素列を取得するステップと、音素毎に識別能力を含む識別能力表に基づき音素列の識別能力を推定するステップと、音声の識別閾値を設定するステップと、音声のための音声テンプレートを生成するステップと、を含む、話者認証登録方法が提供される。

本発明の別の態様に従って、音声を入力するステップと、入力音声が、前述の話者認証登録方法を使用することによって生成される音声テンプレートに従って、話者によって発話された登録パスワード音声であるかどうかを判断するステップとを含む、話者認証評価方法が提供される。

本発明の別の態様に従って、音声から音素の列を取得するステップと、音素毎の識別能力を含む識別能力表に基づいて音素列の識別能力を推定するステップとを含む、音声識別能力推定方法が提供される。

本発明の別の態様に従って、話者によって発話されるパスワードを含む音声を入力するように構成される音声入力ユニットと、入力音声から音素列を取得するように構成される音素列取得ユニットと、音素毎の識別能力を含む識別能力表に基づいて音素列の識別能力を推定するように構成される識別能力推定ユニットと、音声の識別閾値を設定するように構成される閾値設定ユニットと、音声の音声テンプレートを生成するように構成されるテンプレートジェネレータとを備える、話者認証登録装置が提供される。

本発明の別の態様に従って、音声を入力するように構成される音声入力ユニットと、入力音声から音響特性を抽出するように構成される音響特性抽出器と、抽出音響特性のＤＴＷ整合距離を計算するように構成される整合距離計算機と、前述の話者認証登録方法を使用することにより生成される対応する音声テンプレートとを備える、話者認証評価装置が提供され、この話者認証評価装置は、所定の識別閾値と計算されたＤＴＷ整合距離とを比較することにより、入力音声が話者により発話される登録パスワードの音声であるかどうかを判断する。

本発明の別の態様に従って、前述の話者認証登録装置と、前述の話者認証評価装置とを備える、話者認証システムが提供される。

以下、図面を参照して本発明の実施形態を詳細に説明する。

図１は、本発明の実施形態による話者認証登録方法を示すフローチャートである。図１に示されているように、まずステップ１０１で、話者により発話されるパスワードを含む音声が入力される。ここでは、システム管理者または開発者が、従来の技術で行われていたように話者（ユーザ）との相談を通して事前にパスワードの内容を決定する必要なく、ユーザはパスワードの内容を自由に決定し、それを発話することができる。

次に、ステップ１０５では、音響特性が音声から抽出される。具体的にはＭＦＣＣ（メル周波数ケプストラム係数）が、本実施形態の音声の音響特性を表現するために使用される。しかしながら、本発明がこれに特定の制限を有しておらず、任意の他の公知の方法及び将来の方法が、それらが話者の個人的な音声特性を表現できる限り、ＬＰＣＣ（線形予測ケプストラム係数）またはエネルギー、基本トーン周波数、ウェーブレット分析に基づいて取得される他の係数等の、音声の音響特性を表すために使用されてよいことに留意されたい。

次に、ステップ１１０では、抽出された音響特性が、対応する音素の列を取得するために復号される。特に、本実施形態ではＨＭＭ（隠れマルコフモデル）復号が使用される。しかしながら、本発明はこれに対する特殊な限定を有さず、音素の列を取得するためにＡＮＮベースの（人工神経回路網）モデル等の他の公知の方法及び将来の方法が使用されてよいことに留意されたい。つまり検索アルゴリズムに関しては、対応する音素の列が音響特性から取得できる限り、ビタビアルゴリズム、Ａ^＊、及び他のような多様なデコーダアルゴリズムが使用されてよい。

次に、ステップ１１５では、音素の列の識別能力は、音素ごとの識別能力を含む識別能力表に基づいて推定される。特に、識別能力表の形式は、本実施形態の表１で下記に示されるとおりのものである。

例として中国標準語を取ると、表１は各音素（音声を構成する最小単位）の識別能力、つまり２１個の声母と３８個の韻母を一覧表示する。他の言語の場合、音素の構成は異なる可能性があり、例えば英語は子音と母音を有するが、本発明がこれらの他の言語にも適用可能であることが理解できる。

本実施形態の識別能力表は、統計を通して事前に準備される。具体的にはまず、音素ごとの複数の音声が、決まった数（例えば５０）の音声分だけ記録される。例えば、「ａ」等の音素毎に、音響特性がすべての話者によって発話される「ａ」の音声データから抽出され、ＤＴＷ（動的時間軸圧縮）マッチングがそれらの内のそれぞれ２つの間で行われる。マッチングスコア（距離）は、２つのグループ、つまり同じ話者からの適合された音響データのスコアが分類される「自己」グループと、さまざまな話者からのスコアが分類される「他者」グループに分けられる。これら２つのグループのデータの分布曲線間の重複する関係は、さまざまな話者のための音素の識別能力を特徴付けてよい。データの両方のグループともｔ分布に属することが公知である。データ量は相対的に大きいため、それらは通常の分布に従うものとほぼ考えられる。したがって、分布情報のほぼすべてを保つためには各グループのスコアの平均と分散を記録することで十分である。表１に示されているように、音素識別表では、各音素に対応するμ_c及びσ_c ²は、それぞれ自己グループの平均と分散であり、μ_i及びσ_i ²は、それぞれ他のグループの平均と分散である。

このようにして、音素識別能力表を用いて、音素列（テキストパスワードを含む音声のセグメント）の識別能力を計算できる。ＤＴＷマッチングスコアは距離として表されているため、音素列の整合距離（スコア）は列の中に含まれている全音素の整合距離の和と見なされてよい。いまや各音素の整合距離の２つのグループ（自己グループと他者グループ）が

したがって音素識別能力表を用いると、整合距離の分布の２つのグループ（自己グループと他者のグループ）が任意の音素列について推定されてよい。「zhong guo」を例として取ると、音素列の分布の２つのグループのパラメータは以下のとおりである。

μ(zhongguo)=μ(zh)+μ(ong)+μ(g)+μ(o) (1)
μ(zhongguo)=σ²(zh)+ σ²(ong)+ σ²(g)+σ²(o) (2)
更に、同じ原理に基づき、韻母または子音等の単独で発音するのが困難であるそれらのパラメータの場合、それらは統計を作成するため音声を記録するために、容易に発音される音節を構築するための公知の音素と結合されてよい。次に、単純な減算により、音素の統計データは、以下の式に示されるように取得されてよい。

μ(f)=μ(fa)-μ(a) (3)
σ²(f)= σ²(fa)-σ²(a) (4)
更に、本発明の好ましい実施形態に従って、パスワードテキスト内の各音素の持続時間（つまり、特性ベクトルの数）情報を使用し、音素列に基づきパスワードテキストの分布パラメータを計算するときには重み付けを行うことが検討されてよい。例えば、前記式（１）と（２）は以下に変更されてよい。

次にステップ１２０では、前記音素列の識別能力が十分であるかどうかが決定される。図７は、本発明の実施形態において識別能力の推定と閾値の設定を図解するための曲線である。図７に示されているように、前記ステップを通して、音素列の自己グループと他者グループの分布パラメータ（分布曲線）が取得されてよい。本実施形態に従って、パスワードの識別能力を推定するための以下の３つの方法がある。

ａ）これら２つの分布の重複する面積（図７の陰影部分）を計算する方法。重複面積が所定値より大きい場合には、パスワードの識別能力が弱いと判断される。

ｂ）等誤り率を（EER）計算する方法。等誤り率が所定の値より大きい場合、パスワードの識別能力が弱いと判断される。等誤り率（ＥＥＲ）は、他人受入率（ＦＡＲ）が本人拒否率（ＦＲＲ）に等しいときの誤り率、つまり図７の陰影領域が、閾値によって左部分と右部分に分割されるときのこれらの２つの陰影部分のどちらかの面積を意味し、これらの２つの陰影部分は同じ面積を有する。

ｃ）他人受入率（ＦＡＲ）が（０．１％のような）所望の値に設定されるときの本人拒否率（ＦＲＲ）を計算する方法。本人拒否率（ＦＲＲ）が所定値より大きい場合、パスワードの識別能力が弱いと判断される。

ステップ１２０で識別能力が十分ではないと判断されると、処理はステップ１２５に進み、ユーザにその識別能力を高めるためにパスワードを変更するようにプロンプトを出してから、ユーザがパスワード音声をもう一度入力するステップ１０１に戻る。ステップ１２０で、識別能力が十分であると判断される場合には、処理はステップ１３０に進む。

ステップ１３０では、音声について識別閾値が設定される。識別能力を推定するケースと同様に、図７に示されているように、本実施形態で最適識別閾値を推定するためには以下の３つの方法が使用できる。

ａ）音素列の自己グループの分布曲線と他者グループの分布曲線の交点、つまりＦＡＲとＦＲＲの和が最小である場所として識別閾値を設定する方法。

ｂ）等誤り率に対応する閾値として識別閾値を設定する方法。

ｃ）他人受入率を（０．１％のような）所望の値にする閾値として識別閾値を設定する方法。

次にステップ１３５では、音声のために音声テンプレートが生成される。特に、本実施形態では、音声テンプレートは音声から抽出される音響特性、及び音声のために設定される識別閾値を含む。

次に、ステップ１４０では、音声パスワードが再び確認される必要があるかどうかが判断される。必要がない場合、処理はステップ１７０で終了する。それ以外の場合、処理は、話者がパスワードを含む音声をもう一度入力するステップ１４５に進む。

次に、ステップ１５０では、対応する音素列が再入力された音声に基づいて取得される。特に、このステップは、説明がここでは繰り返されないステップ１０５と１１０と同じである。

次に、ステップ１５５では、本入力音声に対応する音素列が、以前に入力された音声の音素列と一致するかどうかが判断される。それらが食い違う場合には、ユーザは両方の音声に含まれているパスワードが食い違っていることをプロンプトで指示され、処理はステップ１０１に戻り、パスワード音声を再び入力する。それ以外の場合、処理はステップ１６０に進む。

ステップ１６０では、ＤＴＷのマッチング及び平均化がないか、以前に生成された音声テンプレートの音響特性と今回抽出された音響特性が互いに位置合わせされる。つまり、テンプレートのマージが行われる。テンプレートのマージについては、W.H.Abdulla、D.Chow、及びG.Sinによって書かれた記事「Cross-words reference template for DTW-based speech recognition systems」が参照されてよい（IEEE TENCON２2003, pp.1576-1579）。

テンプレートのマージ後、処理は、別の確認が必要とされるかどうかが判断されるステップ１４０に戻る。本実施形態に従って、通常、パスワード音声に対する確認は３回から５回行われてよく、その結果信頼性を高めることができ、それによりユーザがひどく困ることはない。

前記説明から、本実施形態の話者認証登録方法が採用されると、ユーザはシステム管理者または開発者の参加を必要としなくても、自分でパスワード音声を選択し、入力でき、その結果、ユーザはさらに便利に登録を行い、さらに優れたセキュリティを獲得できることが分かる。さらに、本実施形態の話者認証登録方法は、ユーザの登録の間にパスワード音声の識別能力を自動的に推定することができ、その結果、十分な識別能力のないユーザのパスワード音声は妨げられてよく、それにより認証のセキュリティが高められてよい。

本発明の同じ概念に基づいて、図２は本発明の実施形態による話者認証評価方法を示すフローチャートである。本実施形態の説明は図２と関連して後述され、前述された実施形態の中の部品と同じものは適切に省略されている。

図２に示されているように、ステップ２０１では最初に、認証されるユーザがパスワードを含む音声を入力する。次にステップ２０５で、音響特性が入力された音声から抽出される。前述の実施形態と同様に、本発明は音響特性に特定の制限を有さないため、それらが話者の個人的な音声特性を表現できる限り、例えばＭＦＣＣ、ＬＰＣＣ、またはエネルギー、基本トーン周波数、またはウェーブレット分析に基づいて取得される他の係数が使用されてよい。ただし、音響特性を獲得するための方法は、ユーザの登録中に生成される音声テンプレートで使用されるものに一致する必要がある。

次にステップ２１０では、抽出された音響特性と、音声テンプレートに含まれている音響特性の間のＤＴＷ整合距離が計算される。ここでは、本実施形態における音声テンプレートは、前述される本実施形態の話者認証登録方法を使用して生成されるテンプレートであり、音声テンプレートは、少なくともパスワード音声と識別閾値に一致する音響特性を含む。ＤＴＷ整合距離を計算するための特殊な方法は前記実施形態で説明されたので、繰り返されない。

次にステップ２１５では、ＤＴＷ整合距離が音声テンプレートで設定されている識別閾値より小さいかどうかが判断される。小さい場合には、入力される音声はステップ２２０と同じ話者によって話される同じパスワードとして決定され、評価は成功する。それ以外の場合、ステップ２２５で評価は失敗と判断される。

前記説明から、本実施形態の話者認証の評価のための方法が採用される場合には、前述された実施形態の話者認証登録方法を使用することにより生成される音声テンプレートが、ユーザの音声の評価を行うために使用されてよいことが分かる。ユーザは、システム管理者または開発者の参加を必要としなくても、自分でパスワードテキストを設計、選択できるため、その結果評価プロセスはより便利になり、さらに優れたセキュリティを獲得する。さらに、パスワード音声の分解能が保証されてよく、認証のセキュリティが高められてよい。

本発明の同じ概念に基づき、図３は本発明の実施形態による音声の識別能力を推定するための方法を示すフローチャートである。本実施形態の説明は、図３に関連して後述され、前述の実施形態の中の部品と同じものは適切に省略されている
図３に示されているように、第１にステップ３０１では、音響特性は推定される音声から抽出される。前述の実施形態と同様に、本発明は音響特性に特定の制限を有さないため、それらが話者の個人的な音声特性を表現できる限り、例えばＭＦＣＣ、ＬＰＣＣ、またはエネルギー、基本トーン周波数、またはウェーブレット分析に基づいて取得される他の係数が使用されてよい。

次にステップ３０５では、抽出された音響特性は対応する音素列を取得するために復号される。前述された実施形態と同様に、ＨＭＭ、ＡＮＮ、または他のモデルが使用されてよい。つまり、検索アルゴリズムに関しては、音響特性から対応する音素列が取得できる限り、ビタビ、Ａ^＊及び他のような多様なデコーダアルゴリズムが使用されてよい。

特に、前記実施形態におけるステップ１１５と同様に、音素識別表には、それぞれ、各音素に従って、自己グループの分布の平均μ_cと分散σ_c ²及び統計を通して取得される他者グループの分布の平均μ_iと分散σ_i ²が記録されている。音素識別表に基づき、

１）これら２つの分布の重複する面積を計算し、重複する面積が所定値より小さいかどうかを判断する方法。

ｂ）等誤り率（ＥＥＲ）を計算し、等誤り率が所定値より小さいかどうか判断する方法。

ｃ）他人受入率（ＦＡＲ）が所定値に設定されているときに本人拒否率（ＦＲＲ）を計算し、本人拒否率（ＦＲＲ）が所定値より小さいかどうかを判断する方法。

前記説明から、本実施形態の音声の識別能力を推定するための方法が採用される場合、音声の識別能力がシステム管理者または開発者の参加を必要としなくても自動的に推定でき、その結果、便利さとセキュリティは、音声の識別能力を使用する（音声認証のような）用途のために強化されてよい。

本発明の同じ概念に基づき、図４は本発明の実施形態による話者認証の登録のための装置を示すブロック図である。この実施形態の説明は図４に関連して後述され、前述された実施形態の中の部品と同じものは適切に省略されている。

図４に示されているように、本実施形態の話者認証の登録のための装置４００は、話者により発話されるパスワードを含む音声を入力するように構成されている音声入力ユニット４０１と、入力された音声から音素列を取得するように構成されている音素列取得ユニット４０２と、音素毎の識別能力を含む識別能力表４０５に基づき音素列の識別能力を推定するように構成されている識別能力推定ユニット４０３と、前記音声のための識別閾値を設定するように構成されている閾値設定ユニット４０４と、前記音声のための音声テンプレートを生成するように構成されているテンプレートジェネレータ４０６とを備える。

更に、図４に示されている音素列取得ユニット４０２は、入力された音声から音響特性を抽出するように構成されている音響特性抽出器４０２１と、対応する音素列を取得するために該抽出された音響特性を復号するように構成されている音素列デコーダ４０２２とをさらに含む。

前述の実施形態と同様に、本実施形態の音素識別表４０５は、それぞれ各音素に対応して、自己グループの分布の平均μ_cと分散σ_c ²と、統計により取得される他者グループの分布の平均μ_iと分散σ_i ²を記録する。

更に、図示されていないが、話者認証の登録のための装置４００は、識別能力表４０５に基づき、

更に、好ましくは、識別能力推定ユニット４０３は、

重複する面積が所定値より小さい場合には音素列の識別能力が十分であると判断し、それ以外の場合、音素列の識別能力が十分ではないと判断するように構成されている。

等誤り率が所定の値未満である場合には音素列の識別能力が十分であると判断し、それ以外の場合、音素列の識別能力が十分ではないと判断するように構成されている。

また、識別能力推定ユニット４０３は、

本人拒否率が所定値未満である場合に音素列の識別能力が十分であると判断し、それ以外の場合、音素列の識別能力が十分ではないと判断するように構成されている。

前記実施形態と同様に、本実施形態における閾値設定ユニット４０４は、識別閾値を設定するために以下の方法の内の１つを使用してよい。

１）音素列について自己グループの分布曲線と他者グループの分布曲線の交点として識別閾値を設定する方法。

２）等誤り率に対応する閾値として識別閾値を設定する方法。

３）他人受入率を所定値にする閾値として識別閾値を設定する方法。

更に、図４に示されているように、本実施形態における話者認証の登録のための装置４００は、連続して入力された２つの音声にそれぞれ対応する２つの音素列を比較するように構成されている音素列比較ユニット４０８と、音声テンプレートをマージするように構成されているテンプレートマージユニット４０７とをさらに含む。

本実施形態における話者認証及びその構成要素の登録のための装置４００は、特殊な回路またはチップで構築されてよく、コンピュータ（プロセッサ）を通して対応するプログラムを実行することによっても実現できる。さらに、本実施形態における話者認証の登録のための装置４００は、図１に関連して前述された実施形態において話者認証の登録の方法を操作上実現できる。

本発明の同じ概念に基づき、図５は本発明の実施形態による話者認証の評価のための装置を示すブロック図である。本実施形態の説明は図５に関連して後述され、前述された実施形態の中の部品と同じものは適切に省略されている。

図５に示されているように、本実施形態における話者認証の評価のための装置５００は、音声を入力するように構成されている音声入力ユニット５０１と、音声入力ユニット５０１によって入力される音声から音響特性を抽出するように構成されている音響特性抽出器５０２と、抽出された音響特性のＤＴＷ整合距離を計算するように構成されている整合距離計算機５０３と、前述された実施形態に従って話者認証の登録方法を使用することによって生成される対応する音声テンプレート５０４とを備え、音声テンプレート５０４はユーザの登録中に使用される音響特性及び識別閾値を含む。本実施形態における話者認証の評価のための装置５００は、整合距離計算機５０３によって計算されたＤＴＷ整合距離が所定の識別閾値より小さい場合に、入力された音声が話者によって話される登録されたパスワード音声であることを判断し、それ以外の場合、評価は失敗したと判断されるように設計されている。

本実施形態における話者認証及びその構成要素の評価のための装置５００は、特殊な回路またはチップで構築されてよく、コンピュータ（プロセッサ）を通して対応するプログラムを実行することによっても実現できる。さらに、本実施形態における話者認証の評価のための装置５００は、図２に関連して前述された実施形態において話者認証の評価のための方法を操作上実現できる。

本発明の同じ概念に基づき、図６は、本発明の実施形態による話者認証のためのシステムを示すブロック図である。本実施形態の説明は図６に関連して後述され、前述された実施形態の中の部品と同じものは適切に省略されている。

図６に示されているように、本実施形態における話者認証のためのシステムは、前述の実施形態に説明されている話者認証の登録のための装置である場合がある、話者認証の登録のための装置４００と、前述の実施形態に説明されている話者認証の評価のための装置５００である場合がある、話者認証の評価のための装置とを備える。登録装置４００によって生成される話者テンプレートは、ネットワーク、内部チャネル、ディスクまたは他の記憶媒体等のあらゆる通信路を介して、評価装置５００に転送される。

このようにして、本実施形態の話者認証のためのシステムが採用される場合、ユーザはシステム管理者または開発者の参加を必要としなくても、自分でパスワードテキストを設計し、選択するために、登録装置４００を使用することができ、ユーザがさらに便利に登録を行い、さらに優れたセキュリティを獲得できるように、音声評価を行うために評価装置５００を使用できる。さらに、システムはユーザの登録中にパスワード音声の識別能力を自動的に推定できるので、十分な識別能力のないパスワード音声は防止でき、認証のセキュリティは高められる。

話者認証登録方法及び装置、話者認証評価方法及び装置、音声識別能力推定方法、及び話者認証システムは、いくつかの例示的な実施形態とともに詳細に説明されてきたが、これらの前記実施形態は網羅的ではない。当業者は、本発明の精神及び範囲内で多様な変形及び変型を加えてよい。したがって、本発明はこれらの実施形態に限定されず、むしろ本発明の範囲は添付請求項によってのみ定められる。

本発明の実施形態による話者認証の登録方法を示すフローチャートである。本発明の実施形態による話者認証の評価のための方法を示すフローチャートである。本発明の実施形態による音声の識別能力を推定するための方法を示すフローチャートである。本発明の実施形態による話者認証の登録のための装置を示すブロック図である。本発明の実施形態による話者認証の評価のための装置を示すブロック図である。本発明の実施形態による話者認証のためのシステムを示すブロック図である。本発明の実施形態における識別能力推定及び閾値設定を描く曲線である。

符号の説明

４００…話者認証の登録のための装置、４０１、５０１…音声入力ユニット、４０２…音素列取得ユニット、４０３…識別能力推定ユニット、４０４…閾値設定ユニット、４０５…識別能力表、４０６…テンプレートジェネレータ、４０７…テンプレートマージユニット、４０８…音素列比較ユニット、５００…話者認証評価装置、５０２、４０２１…音響特性抽出器、５０３…整合距離計算機、５０４…音声テンプレート、４０２２…音素列デコーダ

Claims

話者認証登録方法であって、
話者によって発話されるパスワードを含む音声を入力するステップと、
前記入力音声から音素列を取得するステップと、
音素毎に識別能力を含む識別能力表に基づき音素列の識別能力を推定するステップと、
前記音声の識別閾値を設定するステップと、
前記音声のための音声テンプレートを生成するステップと、
を含むことを特徴とする話者認証登録方法。
前記入力音声から音素列を取得する前記ステップは、
前記入力音声から音響特性を抽出するステップと、
対応する音素列を取得するために、前記抽出音響特性を復号するステップと、
を含むことを特徴とする請求項１に記載の話者認証登録方法。
音素毎の前記識別能力表が、自己グループの音響特性の統計値ＤＴＷ整合距離分布の平均μ_cと分散σ_c ²と、他者グループの音響特性の統計値ＤＴＷ整合距離分布の平均μ_iと分散σ_i ²を有し、
前記音素列の識別能力を推定する前記ステップは、

を含むことを特徴とする請求項１に記載の話者認証登録方法。
前記音素列の前記識別能力は十分であると判断する前記ステップは、

前記重複面積が所定の値より小さい場合に前記音素列の前記識別能力が十分であると判断し、それ以外の場合に前記音素列の前記識別能力が十分ではないと判断するステップと、
を含むことを特徴とする請求項３に記載の話者認証登録方法。
前記音素列の前記識別能力は十分であるかどうかを判断する前記ステップは、

前記等誤り率が所定値未満である場合に、前記音素列の前記識別能力が十分であると判断し、それ以外の場合、前記音素列の前記識別能力が十分ではないと判断するステップと、
を含むことを特徴とする請求項３に記載の話者認証登録方法。
前記音素列の前記識別能力は十分であると判断する前記ステップは、

前記本人拒否率が所定の値未満である場合に前記音素列の前記識別能力が十分であると判断し、それ以外の場合、前記音素列の前記識別能力が十分ではないと判断するステップと、
を含むことを特徴とする請求項３に記載の話者認証登録方法。
前記音声の識別閾値を設定する前記ステップは、
前記音素列の自己グループの前記分布曲線と他者のグループの前記分布曲線の交点として、前記識別閾値を設定することを含むことを特徴とする請求項４乃至請求項６のいずれか１項に記載の話者認証登録方法。
前記音声の識別閾値を設定する前記ステップは、
等誤り率に相当する閾値として前記識別閾値を設定することを含むことを特徴とする請求項４乃至請求項６のいずれか１項に記載の話者認証登録方法。
前記音声のための識別閾値を設定する前記ステップは、
他人受入率を所望の値にする閾値として前記識別閾値を設定するステップを含むことを特徴とする請求項４乃至請求項６のいずれか１項に記載の話者認証登録方法。
前記音声テンプレートは前記抽出音響特性と前記識別閾値を含むことを特徴とする請求項２乃至請求項９のいずれか１項に記載の話者認証登録方法。
前記音素列の前記識別能力が十分ではないと判断されるときに、前記話者にパスワードを変更するようにプロンプトで指示を出すステップをさらに含むことを特徴とする請求項１乃至請求項１０のいずれか１項に記載の話者認証登録方法。
音素テンプレートを生成する前記ステップの後に、確認のために前記話者によって話される音声を再入力するステップと、
前記再入力音声から音素列を取得するステップと、
今回再入力された音声に対応する前記音素列を、前回入力された音声に対応する前記音素列と比較するステップと、
前記２つの音素列が一致する場合に前記音声テンプレートをマージするステップと、
をさらに含むことを特徴とする請求項１乃至請求項１１のいずれか１項に記載の話者認証登録方法。
話者認証の評価方法であって、
音声を入力するステップと、
前記入力された音声が、請求項１乃至１２のいずれか１項に記載の前記話者認証登録方法を使用することにより生成される音声テンプレートに従って、前記話者により話される登録済みのパスワード音声であるかどうかを判断するステップと、
を含むことを特徴とする話者認証評価方法。
前記入力された音声が、前記話者により話される登録されたパスワード音声であるかどうかを判断する前記ステップは、
前記入力音声から音響特性を抽出するステップと、
前記抽出音響特性と前記音声テンプレートとのＤＴＷ整合距離を計算するステップと、
前記入力された音声が、前記計算されたＤＴＷ整合距離を前記所定の識別閾値と比較することにより、前記話者により話される登録されたパスワード音声であるかどうかを判断するステップと、
を含むことを特徴とする請求項１３に記載の音声認証評価方法。
音声の識別能力を推定するための方法であって、
前記音声から音素列を取得するステップと、
音素毎の識別能力を含む識別能力表に基づき前記音素列の識別能力を推定するステップと、
を含むことを特徴とする音声識別能力推定方法。
音素列を取得する前記ステップは、
前記音声から音響特性を抽出するステップと、
対応する音素列を取得するために前記抽出された音響特性を復号するステップと、
を含むことを特徴とする請求項１５に記載の音声識別能力推定方法。
前記識別能力表は、音素毎に、自己グループの音響特性の統計値ＤＴＷ整合距離分布の平均μ_cと分散σ_c ²及び、他者グループの音響特性の統計値ＤＴＷ整合距離分布の平均μ_iと分散σ_i ²を含み、
前記音素列の識別能力を推定する前記ステップは、

を含むことを特徴とする請求項１５に記載の音声識別能力推定方法。
前記音素列の前記識別能力を推定する前記ステップは、

前記重複面積が所定値未満であるかどうかを判断するステップと、
を含むことを特徴とする請求項１７に記載の音声識別能力推定方法。
前記音素列の前記識別能力を推定する前記ステップは、

前記等誤り率は所定値未満であるかどうかを判断するステップと、
を含むことを特徴とする請求項１７に記載の音声識別能力推定方法。
前記音素列の前記識別能力を推定する前記ステップは、

前記本人拒絶率が所定値未満であるかどうかを判断するステップと、
を含むことを特徴とする請求項１７に記載の音声識別能力推定方法。
話者により発話されるパスワードを含む音声を入力するように構成されている音声入力ユニットと、
前記入力音声から音素列を取得するように構成されている音素列取得ユニットと、
音素毎の識別能力を含む識別能力表に基づき、前記音素列の識別能力を推定するように構成されている識別能力推定ユニットと、
前記音声の識別閾値を設定するように構成されている閾値設定ユニットと、
前記音声のために音声テンプレートを生成するように構成されているテンプレートジェネレータと、
を具備することを特徴とする話者認証登録装置。
前記音素列取得ユニットは、
前記入力音声から音響特性を抽出するように構成されている音響特性抽出器と、
対応する音素列を取得するために前記抽出音響特性を復号するように構成されている音素列デコーダと、
を具備することを特徴とする請求項２１に記載の話者認証登録装置。
前記識別能力表は、音素毎に、自己グループの音響特性の統計値ＤＴＷ整合距離分布の平均μ_cと分散σ_c ²及び、他者グループの音響特性の統計値ＤＴＷ整合距離分布の平均μ_iと分散σ_i ²を含み、
前記重複面積が所定値より小さい場合に前記音素列の前記識別能力は十分であると判断し、それ以外の場合、前記音素列の前記識別能力は十分ではないと判断することを特徴とする請求項２３に記載の話者認証登録装置。
前記等誤り率が所定値未満である場合に前記音素列の前記識別能力は十分であると判断し、それ以外の場合、前記音素列の前記識別能力は十分ではないと判断することを特徴とする請求項２３に記載の話者認証登録装置。
前記本人拒否率が所定値未満である場合に前記音素列の前記識別能力が十分であると判断し、それ以外の場合、前記音素列の前記識別能力は十分ではないと判断することを特徴とする請求項２３に記載の話者認証登録装置。
前記閾値設定ユニットは、前記音素列の自己グループの前記分布曲線と他者グループの前記分布曲線の交点として、前記識別閾値を設定することを特徴とする請求項２４乃至請求項２６のいずれか１項に記載の話者認証登録装置。
前記閾値設定ユニットは、等誤り率に対応する閾値として前記識別閾値を設定することを特徴とする請求項２４乃至請求項２６のいずれか１項に記載の話者認証登録装置。
前記閾値設定ユニットは、他人受入率を所望の値にする閾値として前記識別閾値を設定することを特徴とする請求項２４乃至請求項２６のいずれか１項に記載の話者認証登録装置。
前記音声テンプレートは前記抽出された音響特性と前記識別閾値を具備することを特徴とする請求項２２乃至請求項２９のいずれか１項に記載の話者認証登録装置。
連続して入力される２つの音声にそれぞれ対応する、２つの音素列を比較するように構成されている音素列比較ユニットと、
音声テンプレートをマージするように構成されているテンプレートマージユニットと、
をさらに具備することを特徴とする請求項２１乃至請求項３０のいずれか１項に記載の話者認証登録装置。
音声を入力するように構成されている音声入力ユニットと、
前記入力された音声から音響特性を抽出するように構成されている音響特性抽出器と、
前記抽出された音響特性と、請求項１乃至請求項３１のいずれか１項に記載の前記話者認証登録方法を使用することにより生成される対応する音声テンプレートの、前記ＤＴＷ整合距離を計算する整合距離計算機と、
を具備し、
前記計算されたＤＴＷ整合距離を前記所定の識別閾値と比較することによって、前記入力された音声が、前記話者によって話される登録されたパスワード音声であるかどうかを判断することを特徴とする話者認証評価装置。
話者認証のためのシステムであって、
請求項２０乃至請求項３１のいずれか１項に記載の話者認証登録装置と、
請求項３２に記載の話者認証評価装置と、
を具備することを特徴とする話者認証システム。