JP2002506241A

JP2002506241A - 話者照合の多重解像システム及び方法

Info

Publication number: JP2002506241A
Application number: JP2000534997A
Authority: JP
Inventors: ラペル、マルチン
Original assignee: ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
Priority date: 1998-03-03
Filing date: 1999-03-03
Publication date: 2002-02-26
Also published as: US6272463B1; CA2318262A1; EP1058926A1; AU2850399A; WO1999045530A1

Abstract

(57)【要約】少なくとも１回発生する発声の話者依存型モデルを生成するための方法が与えられる。この方法は、発声の各発生を解読する第１解像度を有する開始モデルを生成する段階と、開始モデルとは異なる解像度を有する少なくとも一つの付加的な話者仕様モデルを発声の全ての発生について生成する段階とを含む。

Description

【発明の詳細な説明】

【０００１】技術分野本発明は、ディジタル音声処理に関し、更に詳しくは、所定の話者の身元の照
合に関する。

【０００２】背景技術音声処理多重音響特性は、音域の大きさ、性別、年齢、方言、教育、特異な調
音器官の動作のような様々な要因に応じて個々人の間で大きく変動する。これら
の要因は、聞き手が話者の最初の数音節を聞いただけで、認識された話者の身元
をしばしば容易に判別できる個々の話者に特に関連している。所定の話者の身元
を判別及び照合できるような人工システムの開発に相当な努力が費やされてきた
。

【０００３】話者照合システムは、自由テキストパスフレーズシステムとテキスト依存シス
テムとに大別できる。各々の形式のシステムはその困難性を有する。自由テキス
トパスフレーズに適合させるためには、記憶及び整合処理を実際に様々な発声に
適合させ必要がある。この高い音響表音変動性は、信頼性の在る特性又はモデル
、話者とする目的で、長い訓練セッションを強いる。更に自由テキストシステム
は、発声器官の制約された動作に起因して話者に特有の共同ア−ティキュレーシ
ョン効果をモデル化する能力はない。更に、実際に様々な発声に適合させる能力
は、広範な範囲の話者、大きな語彙の範囲の中から弁別する能力と緊迫した関係
にあり、それに対する一層の試みは、信頼性のある単語の保存と、話者の中から
の弁別との双方を同時に与えることである。

【０００４】一方、テキスト依存システムは、多数の話者の間からの容易な弁別を可能とす
る。テキスト依存パスフレーズシステムにおいては、少なくとも一つの予め選択
されたパスフレーズが個々のユーザーの各々についてモデル化されている。モデ
ルは、パスフレーズの語彙及びシンタクティック成分のみならず個人に特有の音
響特性を反映させる。自由テキストシステムと対照的に、明瞭で短い発声（代表
的には、まさに数秒）がテキスト依存における訓練に妥当である。しかしながら
、許容可能なテキストの範囲が狭すぎるので、テキスト依存システムを発声の再
現に対して一層脆弱にしてしまう。テキスト依存システムは、固定パスフレーズ
システム、即ちパスフレーズが設計時間に規定されているシステムと、或いはオ
ンライン訓練手順を備えた自由選択パスフレーズシステムとに更に下位分類でき
る。自動音声認識の認知された技術に広く対応する特定の技術、即ち音響テンプ
レート、隠匿マーコフモデル(hidden Markov Models; HMM)、人工ニューラルネットワークその他が用いられている。

【０００５】多重パスフレーズを有するテキスト吹き込みアプローチは再生録音に対する保
全性を高めるために導入された。各照合セッションでは、話者が、システムが話
者依存モデルを有している複数の単語の別個の疑似ランダム列を発声して照合を
試みる必要がある。従って要求された照合センテンスは予め予測することができ
ないので、認可されていない話者が認可ユーザーの音声を事前に録音することが
阻止される。しかしながら音声処理の技術の現状では、音声認識エンジンを備え
て、規定されたテキスト区画の所定の語彙を有するコンピュータシステムを想定
することが現実化している。特定の話者の全てのテキスト断片の事前録音がコン
ピュータに利用可能であるならば、音声認識エンジンは、無作為の吹き込み吹き
込みテキストを解読するのに使用でき、コンピュータプログラムは、対応する事
前に録音された音声区画を組み上げるのに使用できる。しかしながらテキスト吹
き込みシステムは、自由テキストシステムと同様の共同アーティキュレーション
問題を抱えるのが欠点である。

【０００６】コホート規格化(cohort normalization)と称される方法は、見込み比スコアリングを用いることにより、テキスト吹き込みシステムの幾つかの問題を部分的
に解決する。コホート規格化は、例えばJuang他への米国特許第５，６７５，７０４号、Gandhi他への米国特許第５，６８７，２８７号に説明されており、これ
らの開示事項は本明細書に参照により組み込まれている。見込み比スコアリング
は、同一の文脈が個別の認可話者のモデルに表されることを要求する。規格化ス
コアは個別の参照話者から得られているか、或いは確保される参照話者により生
成されたモデルにより得られる。要求する話者に音響的に近い真正な登録話者の
モデルは、スコア規格化のために用いられる。

【０００７】コホート規格化技術は、試行と試行との間の変動を部分的に補償する動的閾値
を与えて検査できるものとして示されてきた。特に、コホート規格スコアの使用
は訓練セッションと後続のテストセッションとの間のマイクロフォンの不整合に
ついての若干の拡がりを補償する。コホート規格化は自由テキストシステムに成
功裏に導入されてきており、ここでは完全な音響モデルが各々の共同話者から生
成されねばならない。コホート規格化を用いる話者照合システムは、本質的に言
語依存であるが、話者独立モデルと訓練が不充分な話者独立モデルとのモデル精
度の不整合のために、話者独立モデルは規格化目的のために一般的には用いられ
ていない。

【０００８】話者照合システムは話者指定サブ単語サイズ（例えば音素サイズ）ハイデンマ
ルコフモデル（hidden Markov models;HMMs）の使用による特徴付けられた入力発声を有する。この試みは、システムが使用するキーテキストを各回ごとに変
更することにより、再生アタックの問題に取り組む。話者仕様サブ単語モデルは
話者独立モデルの話者適合により生成できる。話者独立サブ単語モデルは参照話
者の各々のために形成されている。これらのシステムは多大な訓練セッションを
再度必要とする。

【０００９】以下の参照文献は本発明に関係する。

【００１０】 Higgins他 "Speaker Verification Using Randomized Phrasse Promptin
g", Digital Signal Processing, １９９１年３月号、第８９−１０６頁。

【００１１】Ａ．E．Rosenberg他 "The Use of Cohort Normalized Scores for Speaker
Verification" ,Proc. 1992 ICSLP，１９９２年９月号、第５９９−６０２頁。

【００１２】 F.K．Soong "A Vector Quantisation Approach to Speaker Verificat
ion", IEEE 1985、第３８７−３９０頁。

【００１３】Ａ．E．Rosenberg他 "Sub-word Unit Talker Verification Using Hidd
en Markov Models", IEEE 1990、第２６９−２７２頁。

【００１４】 T. Masui "Concatenated Phoneme Models for Text-variable Speaker Recognition", IEEE 1993、第２３９１−３９４頁。 J．Kuo他 "Speaker Set Identificat
ion Through Speaker Groupo Modeling", BAMFF '92'。

【００１５】上述の参照文献の各々はその全体が参照により本明細書に組み込まれている。

【００１６】発明の概要本発明の好適実施例によれば、少なくとも１回発生する発声の話者依存モデル
を生成するための方法を与える。本実施例においては、この方法は、発声の各発
生を解読する第１解像度を有する開始モデルを生成し、更に発声の全ての発生に
ついて開始モデルとは異なる解像度を有する少なくとも一つの付加的な話者仕様
モデルを生成する段階を含む。

【００１７】更なる実施例においては、開始モデルは話者独立である。また、更なる実施例
においては、少なくとも一つの付加的なモデルは開始モデルよりも高解像度を有
し、且つ初期モデルからブートストラップとされている。代替的実施例において
は、少なくとも一つの付加的なモデルは、開始モデルよりも低解像度を有し、且
つ開始モデルから導かれている。他の実施例においては、少なくとも一つのモデ
ルは、副音素(subphpneme)レベルに解像度を有する。更なる実施例によれば、新
たな発声に対する開始モデルと少なくとも一つの付加的なモデルとの整合の程度
の差を決定する付加的な段階が与えられており、（ｉ）新たな発声の話者と（ii
）新たな発声の内容との少なくとも一方に基づいて弁別を可能とするようにされ
ている。付加的に実施例は、訓練及び使用セッションにおける不整合に対する強
さを高めるように開始モデルに対する整合を利用できる。

【００１８】本発明の他の実施例は、多重解像度モデルを生成する話者照合システムの方法
を含む。この方法は、発声の複数の発生を与えて各発生をコーディングする段階
と、各発生に対するコーディングを評点し、各発生を最も良く表す最良の評点を
有するコーディングを選択する段階と、選択されたコーディングに応じて各発生
を分節し、選択されたコーディングの各分節について各分節を最も良く表す全て
の発生の対応する分節の最良のコーディングを判別することにより、選択された
コーディングから第１解像度モデルを形成して、異なれば、選択されたコーディ
ングにおける対応する分節を置き換える段階と、発声内に存在する非音声音及び
雑音から発声の音声のみの内容を弁別するために第１解像度モデルから低解像度
モデルを形成する段階と、発声の音声のみの内容の推定のために低解像度モデル
に対して各発声を評点して、結果的な時間規格化発生評点を保存する段階と、第
１解像度モデルに対して各発生の音声のみの内容を再分節して、結果的な時間規
格化発生評点を保存する段階と、第１解像度モデルから高解像度モデルを形成し
、この高解像度モデルは話者仕様となる段階と、高解像度モデルに対して各発声
の音声のみの内容を再評点し、結果的な時間規格化発生評点を保存する段階とを
含む。

【００１９】更なる実施例においては、第１解像度モデルは話者独立型である。この少なく
とも一つのモデルは副音素レベルに解像度を有する。少なくとも一つのモデルは
ハイデンマクロフモデルとすることができ、コードブック、最も近い近隣のコー
ディングの完全検索、最大エントロピーコーディングまたは二進木コーディング
を用いてコード化できる。このような実施例は更に訓練及び使用セッションにお
ける不整合に対する強さを高めるように開始モデルに対する整合の利用を更に含
む。

【００２０】他の実施例は話者照合の方法を含む。この方法は、話者の発声を受け取り、こ
の発声を高解像度モデルによってデコーディングする段階と、状態対状態投影(s
tate to state projection) により低解像度モデルを形成する段階と、話者の
真正さの測定を与えるように二つのモデルの各々に対する発声の整合を対比する
段階とを含む。このような実施例においては、測定はファジィー論理を用いて決
定できる。

【００２１】本発明の実施例は多重解像度モデルを用いる話者照合の方法を含む。この方法
は、発声を受け取り、この発声について保存されたモデル情報を検索する段階と
、少なくとも一人の真正なユーザーについての解像度が異なる少なくとも二つの
モデルに対する発声のために評点のファジーセットを推定する段階と、発声の音
声のみの内容を選択するようにモデルの第１候補に対して発声を評点し、結果的
な時間規格化評点を保存する段階と、モデルの第２候補に対して発声の音声のみ
の内容を再分節し、結果的な時間規格化評点を保存する段階と、全ての推定され
たファジーセットに対して発声のファジー帰属関係関数を計算する段階と、真正
なユーザーに対して発声の整合の推定を与える包括的な帰属関係関数を得るよう
にファジー関数の異なる帰属関係値を組み合わせる段階とを含む。

【００２２】このような実施例においては、評点のファジーセットを推定する段階は、発声
の真正な話者についての高解像度モデルに対する比較と、高解像度モデルと低解
像度モデルとに対する真正な話者の試験発声の評点の差と、高解像度モデルと中
間解像度モデルに対する真正な話者の試験発声の評点の差と、中間解像度モデル
と低解像度モデルに対する真正な話者の試験発声の評点の差との少なくとも一つ
についての評点を含む。

【００２３】話者照合の方法は、複数の試みの各々について前述の段階を実行し、全ての試
みの結果を反映させるように包括的帰属関係関数を更新することも含む。

【００２４】本発明の実施例は、少なくとも一人の認可ユーザーを有する多重解像度モデル
話者照合システムを含む。このようなシステムは、高解像度単語モデルのデータ
ベースと、照合句ジェネレータと、照合句モデルジェネレータと、ユーザーアク
セスデバイスと、照合エンジンとを含む。高解像度単語モデルのデータベースは
、各々の認可ユーザーに関連した単語モデルを包含する。照合句ジェネレータは
、高解像度単語モデルのデータベースと交信し、ユーザーが特定の認可ユーザー
として照合されることを要求するときに照合句を生成し、照合句は、高解像度単
語モデルのデータベースにおけるモデルを有する少なくとも一つのキーワードと
、少なくとも一つの他の単語を包含する。照合句モデルジェネレータは照合句ジ
ェネレータと交信し、照合句の比較モデルを生成する。ユーザーアクセスデバイ
スは照合句ジェネレータと交信し、照合句をユーザーへ交信させ、ユーザーによ
り与えられる単語を有する発声された応答句を可能とする。照合エンジンはユー
ザーアクセスデバイス及び照合句モデルジェネレータと交信し、応答句が比較モ
デルと整合するときに、且つ少なくとも一つのキーワードについて、特定の認可
ユーザーに関連する高解像度単語モデルのデータベースにおけるモデルが応答句
における対応する単語の閾値距離内にあるときに、ユーザーを特定の認可ユーザ
ーとして照明する。

【００２５】更なる実施例において、システムは、照合エンジンに応答する耐合成比較器を
含んでもよく、これは応答句が自然な発生により生成されたかを決定するように
応答句を音響的に同時に且つ連続的に検査する。このような実施例においては、
照合エンジンによる特定の認可ユーザーとしてユーザーの照合は、応答句が自然
な発声により生成されたと決定されることを更に必要とする。更に、或いはこれ
に代えて、照合句における少なくとも一つの他の単語は、高解像度単語モデルの
データベースからの高解像度単語モデルを有してもよい。または、照合句におけ
る少なくとも一つの他の単語は、低解像度単語モデルのデータベースからの低解
像度単語モデルを有してもよい。ユーザーアクセスデバイスは、照合句をユーザ
ーへ交信させるテキスト対音声モジュール、またはユーザーにより与えられるべ
き応答を可能とする音声認識モジュールを含んでもよい。コンピュータネットワ
ークは、認可ユーザーへのネットワークアクセスを制限する目的で、このような
話者認識システムを含むことができる。

【００２６】他の実施例は、話者照合の方法を含み、この方法は、各認可ユーザーに関連し
た単語モデルを包含する高解像度単語モデルのデータベースを確立する段階と、
ユーザーが特定の認可ユーザーとして照合されることを要求するとき、高解像度
単語モデルのデータベースと交信する照合句ジェネレータにより照合句を生成し
、その照合句は、少なくとも一つのキーワードを包含し、このキーワードは高解
像度モデルのデータベースにおけるモデルと、少なくとも一つの他の単語とを有
する段階と、照合句ジェネレータと交信する照合句モデルジェネレータにより照
合句の比較モデルを生成する段階と、ユーザーに対する照合句を、ユーザーによ
り与えられるべき単語を有する発声された応答句を可能とする文法コンパイラに
交信するユーザーアクセスデバイスへ交信させる段階と、応答句が比較モデルと
整合するときに、且つ少なくとも一つのキーワードについて、特定の認可ユーザ
ーに関連する高解像度単語モデルのデータベースにおけるモデルが応答句におけ
る対応する単語の閾値距離内にあるときに、ユーザーを特定の認可ユーザーとし
て証明する段階とを含む。

【００２７】このような実施例においては、この方法は、照合エンジンと交信する耐合成比
較器により、応答句が自然な発生により生成されたかを決定するように応答句に
おける単語を音響的に同時に且つ連続的に比較し、特定の認可ユーザーとしての
ユーザーの照合は、応答句が自然な発声により生成されたと決定されることを更
に必要とする。照合句における少なくとも一つの他の単語は、高解像度単語モデ
ルのデータベースからの高解像度単語モデルを有してもよい。または、照合句に
おける少なくとも一つの他の単語は、低解像度単語モデルのデータベースからの
低解像度単語モデルを有してもよい。ユーザーアクセスデバイスは、照合句をユ
ーザーへ交信させるテキスト対音声モジュールを含んでもよい。ユーザーアクセ
スデバイスは、ユーザーにより与えられるべき応答を可能とする音声認識モジュ
ールを含んでもよい。コンピュータネットワークは、認可ユーザーへのネットワ
ークアクセスを制限する目的で、このような話者照合方法を採用できる。

【００２８】本発明は、添付図面に関連してなされる以下の説明を参照することにより、一
層容易に理解される。

【００２９】好適実施例の詳細な説明図１には、本発明の好適実施例により使用された論理フローが示されている。
先ず、ステップ１０１において、発声の多重発生が与えられている。代表的には
、パスワードまたはパスフレーズのようなシステム語彙単語について、話者はこ
の単語を３回発する。しかしながら、他の回数の発生も本発明の目的の範囲内で
ある。代表的な中間的解像度の開始包括的音声モデルによれば、段階１０２にお
いて発声の各発生がコード化される。この発声の開始音声モデルは、発声、沈黙
、非音声音の音声内容を含む。ステップ１０３において、各コーディングは発声
の各発生に対して評点される。３つの発生及び３つのコーディングを有する代表
例においては、ステップ１０３において９個の評点を得ることが可能である。し
かしながら代替的実施例においては、各コーディングについての評点をそれが解
読された発生に対する関係で計算することが可能である。その後、ステップ１０
３の一部として、全ての発生を最もよく表すコーディングを示す最良の評点を有
するコーディングが選択される。

【００３０】ステップ１０４により、発声の各発生は選択されたコーディングによって分節
(segmented)されている。その後、ステップ１０５において、選択されたコーディングの各分節について、全ての発生の対応する分節を最も良くコード化するコ
ーディングが識別され、それが異なるならば、識別されたコーディングが、選択
されたコーディングにおける分節に置き換えられる。これは分節ごとに基づいて
最適化された発生についての第１解像度モデルを生成する。しかしながらこのス
テップ１０４及び１０５は、性能を相当に高めるが、選択的であることが好まし
い。

【００３１】ステップ１０６においては、第１解像度モデルから導かれた第２低解像度モデ
ルが計算されている。この第２低解像度モデルは、後続のステップから明らかに
なるように音声内容と沈黙または非音声音との間の弁別を支援するためのもので
ある。ステップ１０７においては、各発生が第２低解像度モデルに対して評点さ
れて、音声のみの内容の推定が与えられ、音声のみの内容の時間規格化評点も保
存される。

【００３２】ステップ１０８において、ステップ１０７において発見された音声内容の各側
面において５０ミリセコンドまでの自由度制限で各発生が再分節されるが、この
モデルはこのステップでは沈黙を含んでいるものの、非音声音は排除する。その
結果は音声のみの内容を反映して（ステップ１０５におけるよりも）一層正確で
あり、音声のみの内容の分節からもたらされる時間規格化評点が保存される。

【００３３】ステップ１０９において、話者仕様高解像度モデルは第１解像度モデルからブ
ーツトラップにより生成されている。この話者仕様高解像度モデルは発生の音声
のみの内容のコーディングのために用いられている。

【００３４】一つの代替的実施例は、コードブックを用いて高解像度モデルをコード化して
、保存要求を削減させる。結果的な高解像度モデルが次いで保存される。最も隣
接するコーディングの完全検索、最大エントロピーコーディング、二進木コーデ
ィングなどの様々な技術を用いてモデルコーディングを達成することが可能であ
る。ステップ１１０において、発生の音声のみの内容は高解像度モデルに対して
再評点されて、時間規格化評点が保存される。

【００３５】上述のステップは話者照合システム又はユーザー単語システムの何れにも好ま
しいが、ユーザー単語システムには評点の保存は不要である。好適実施例におい
ては、開始モデルは話者独立型として、副音素レベルで操作することができる。

【００３６】本発明の適切な実施例による訓練の後に、以下のように図２に示すステップに
より好適実施例は話者照合又はユーザー単語認識をも与える。ステップ２０１に
おいて、新たな発声がユーザーから受け取られて、発声についての保存モデル情
報が検索される。ステップ２０２において、評点のファジーセットが、（１）真
正な話者用の高解像度モデルに対する新たな発声の評点、（２）高解像度及び低
解像度モデルに対する真正な話者の試験発声の評点の差、（３）高解像度及び第
１解像度モデルの評点の差について推定される。代替的実施例において、ファジ
ーセットは第１解像度モデル及び低解像度モデルの評点の差を含むことができる
。代替的実施例において、ステップ２０２は図１に示す訓練手順の一部として実
行できる。

【００３７】ステップ２０３において、低解像度モデルに対する新たな発声の第１の評点付
けにより音声のみの内容を選択するように新たな発声が処理され、時間規格化評
点が保存される。ステップ２０４において、新たな発声の音声のみの内容が、ス
テップ２０３において発見された音声内容の各側面において５０ミリセコンドま
での自由度制限で各発生が再分節され、音声のみのみの内容を（ステップ２０３
におけるよりも）一層正確に反映させるようにする。この音声のみの分節からも
たらされる時間規格化評点もステップ２０４において保存される。次いで、ステ
ップ２０５において、新たな発声の音声のみの内容が話者仕様高解像度モデルに
対して再評点されて、結果的な時間規格化評点が保存される。ステップ２０６に
おいて、新たな発声のファジー帰属関係関数が全ての推測されたファジーセット
に関して計算されて、ステップ２０７において、異なる帰属関係値が、あらたな
発声の整合の推測を与える包括的帰属関係関数を得るように組み合わされる。

【００３８】話者照合よりもむしろユーザー単語のための実施例においては、ファジーセッ
トの推測は不要であり、最も近い単語又は句(phrase)を選択するように時間規格
化を単純に用いる。しかしながら、話者照合のためのファジーセットの使用は整
合の度合いの向上された測定を与える価値あるツールを与える。このような試み
は多重試行情報の意味のある利用と、他の解析モデルにおける不明瞭な解釈を潜
在的にもたらす非常に複雑なデータの取り扱いとを可能とする。従って包括的フ
ァジー機能の使用は強力なツールである。好適実施例は、多数の試行に亘って整
合評点集計し、肯定的な照合のための良好な集計に依存する。この方式では多重
試行における詐称者は報われない。このような好適実施例において、発声の反復
は、真正なユーザーには有利であるが、詐称者には不利であることに留意された
い。

【００３９】本発明の他の好適実施例は、多重解像度モデルを用いて再生安全シェルに嵌め
込まれたテキスト吹き込み話者照合システムを含む。図３はこのような実施例の
論理フローを示し、図４はこのような実施例のシステムダイアグラムを示す。話
者の身分を確認する各回に、システムは話者へその身分と、高解像度モデル、例
えば話者依存型モデルが利用可能な幾つかの既に訓練したキーワードを含む付加
的な音声とを与えるように要請する。要請された音声は、中間解像度モデルから
低解像度モデル、例えば話者独立型モデルを利用できる幾つかの特別な単語をも
含む。ユーザー身分の照合決定はキーワードの高解像度モデル比較により制御さ
れているが、特別な単語の中間解像度から低解像度のモデルが認可されたユーザ
ー音声の録音再生または他の合成に対して検閲するように使用されている。

【００４０】初めに、新たなユーザーの各々はシステムにおいてエンロール(enroll)をしな
ければならない。訓練セッションは、ユーザーアクセスデバイス４０１を介して
ユーザーにより実行され、そのデバイス４０１はこの実施例においては例えば、
マイクロフォン、サウンドカード、スピーカーを有する適切にプログラムされた
コンピュータネットワークワークステーションとすることができる。訓練セッシ
ョンの間、ユーザーは、単語モデル及び／又は音素モデルのような補単語モデル
を含み得る高解像度モデル４０７のデーターベースを訓練する目的でパスワード
語彙４０９におけるキーワードの反復を実行する。更に好適実施例における訓練
は、付加的な完全音響高解像度モデルの更なる訓練を含んでもよく、そのモデル
も高解像度モデル４０７のデータベースに含めてもよい。この訓練は、完全音素
高解像度モデルの話者適合によるか、又はベクトル量子化（ＶＱ）適合処理によ
るものとすることができる。

【００４１】初期エンロールメントモデル訓練セッションの後、話者照合システムの好適実
施例は、話者照合システムでエンロールをした認可ユーザーに対するコンピュー
タネットワークシステムヘのユーザーアクセスを制限するように使用できる。話
者照合セッションは、ユーザーアクセスデバイス４０１におけるユーザーがコン
ピュータシステムネットワーク４１９へアクセスすることを要求するときに開始
される。

【００４２】ステップ３０１において、照合エンジン４０３は照合句ジェネレータ４０５に
少なくとも一つの照合句を生成するように命じる。この少なくとも一つの照合句
は、パスワード語彙４０９から疑似乱数的に選択された少なくとも一つのキーワ
ードを含み、そのパスワード語彙４０９には、高解像度モデル４０７のデータベ
ースにおける対応するモデルがある。生成された照合句は少なくとも一つの特別
な単語を含み、その単語のモデルは、高解像度の全ての単語又は音素モデル４０
７のデータベースか、或いは中間解像度−低解像度の全ての単語又は音素モデル
４１３のデータベースから生成されている。好適実施例においては、照合句ジェ
ネレータ４０５は、照合句生成における言語モデル及び文法を使用し、照合句の
再生又は合成を防ぐのに充分に高い複雑さを有する。照合句の音響実現はステッ
プ３０３においてテキスト対音声モジュール４１１によりユーザーへ出力される
。

【００４３】更に、照合句モデルジェネレータ４１６はステップ３０５において照合句４１
５の比較モデルを生成し、このモデルは中間から低解像度、高解像度、または組
合せ形式とすることができる。このような多重解像度モデルは図１及び図２に関
連して上述した方式で生成してもよい。

【００４４】ステップ３０７において、話者が要請された入力応答を与え、この句を照合句
エンジン４０３がステップ３０９で照合句比較モデル４１５と比較する。このス
テップは、入力応答音声の単語列が照合句の単語列に整合することを保証して、
入力応答句が即座に且つ自然に生成されることを保証する。更に照合句比較モデ
ル４１５は、入力応答句と照合句比較モデル４１５との間の整合の近さを反映す
る全話者照合評点のための基準として使用してもよい。

【００４５】ステップ３１１において、照合エンジン４０３は、句比較モデル上の分節によ
り、または単語抽出(word-spotting)アルゴリズムの使用により高解像度キーワードを分離する。ステップ３１３において照合エンジン４０３は、分離されたキ
ーワードを高解像度モデル４０７のデータベースにおける該分離されたキーワー
ドの対応モデルと比較する。ステップ３１５においては、高解像度キーワードモ
デルも使用されて、入力応答句の文法が、照合句により指定された一連の正しい
キーワードを反映することを確認する。入力応答句におけるキーワードの高解像
度モデル４０７は認可ユーザーで既に訓練されており、従って照合句に埋め込ま
れたキーワードと入力応答句から抽出されたキーワードとの間の整合の近さの高
精度な指標が与えられる。ステップ３０９の全比較からの評点と、ステップ３１
３及び３１５の高解像度比較とは、高信頼照合のために互いに完全に無矛盾でな
ければならない。

【００４６】好適実施例は耐合成比較器４１７も含み、これはステップ３１７において音声
入力、背景雑音、反響状態を連続的に耐合成検査を実行する。類似性検査もステ
ップ３１９において高解像度モデル単語と付加的な入力単語との間で実行され、
これはキーワードと付加的な音声入力単語との間の近似連続的検査と、照合パス
ワード及び特別な音声において実現された音響補助分節の類似性検査とを含む。
ステップ３１７の耐合成検査及びステップ３１９の同様な検査は、入力応答句が
、電子的に繋がれたものでもなく、或いは合成されたものでもなく、自然発生音
声からもたらされたものであるということを証明する。

【図面の簡単な説明】

【図１】図１は本発明の好適実施例による論理フローを示す図である。

【図２】図２は本発明の好適実施例による論理フローを示す図である。

【図３】図３は本発明の好適実施例における多重解像度モデルを用いる再生安全話者照
合システムの論理フローを示す図である。

【図４】図４は図３の方法を用いる話者照合システムのシステムダイアグラムである。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＡＵ，ＣＡ，ＪＰ

Claims

【特許請求の範囲】

【請求項１】少なくとも１回発生する発声の話者依存モデルを生成するた
めの方法であり、ａ．発声の各発生を解読する第１解像度を有する開始モデルを生成する段階と
、ｂ．開始モデルとは異なる解像度を有する少なくとも一つの付加的な話者仕様
モデルを発声の全ての発生について生成する段階とを含む方法。
【請求項２】請求項１記載の方法において、前記開始モデルが話者独立型
である方法。
【請求項３】請求項１記載の方法において、少なくとも一つの付加的なモ
デルが、前記開始モデルから導かれており、且つ前記開始モデルよりも高い解像
度を有する方法。
【請求項４】請求項１記載の方法において、少なくとも一つの付加的なモ
デルが、前記開始モデルから導かれており、且つ前記開始モデルよりも低い解像
度を有する方法。
【請求項５】請求項１記載の方法において、少なくとも一つのモデルが、
副音素レベルに解像度を有する方法。
【請求項６】請求項１記載の方法において、新たな発声に対して前記開始モデルと少なくとも一つの付加的なモデルとの整
合の程度の差を決定する段階を更に含み、（ｉ）新たな発声の話者と（ii）新た
な発声の内容との少なくとも一方に基づいて弁別を可能とする方法。
【請求項７】請求項１記載の方法において、訓練及び使用セッションにおける不整合に対する強さを高めるように前記開始
モデルに対する整合を利用する段階を更に含む方法。
【請求項８】多重解像度モデルを生成する話者照合システムの方法であり
、発声の複数の発生を与えて各発生をコーディングする段階と、各発生に対するコーディングを評点し、各発生を最も良く表す最良の評点を有
するコーディングを選択する段階と、選択されたコーディングに応じて各発生を分節する段階と、選択されたコーディングの各分節について各分節を最も良く表す全ての発生の
対応する分節の最良のコーディングを判別することにより、選択されたコーディ
ングから第１解像度モデルを形成して、異なれば、選択されたコーディングにお
ける前記対応する分節を置き換える段階と、発声内に存在する非音声音及び雑音から発声の音声のみの内容を弁別するため
に第１解像度モデルから低解像度モデルを形成する段階と、発声の音声のみの内容の推定のために低解像度モデルに対して各発声を評点し
て、結果的な時間規格化発生評点を保存する段階と、第１解像度モデルに対して各発生の音声のみの内容を再分節して、結果的な時
間規格化発生評点を保存する段階と、第１解像度モデルから高解像度モデルを形成し、この高解像度モデルは話者仕
様となる段階と、高解像度モデルに対して各発声の音声のみの内容を再評点し、結果的な時間規
格化発生評点を保存する段階とを含む方法。
【請求項９】請求項８記載の方法において、第１解像度モデルが話者独立
型である方法。
【請求項１０】請求項８記載の方法において、前記モデルの少なくとも一
つが、副音素レベルに解像度を有する方法。
【請求項１１】請求項８記載の方法において、前記モデルの少なくとも一
つが、ハイデンマクロフモデルである方法。
【請求項１２】請求項８記載の方法において、前記モデルの少なくとも一
つが、コードブック、最も近い近隣のコーディングの完全検索、最大エントロピ
ーコーディングまたは二進木コーディングを用いてコード化されている方法。
【請求項１３】請求項８記載の方法において、訓練及び使用セッションにおける不整合に対する強さを高めるように前記開始
モデルに対する整合の利用を更に含む方法。
【請求項１４】話者照合の方法であって、話者の発声を受け取り、この発声を高解像度モデルによってデコーディングす
る段階と、状態対状態投影により低解像度モデルを形成する段階と、話者の真正さの測定を与えるように二つのモデルの各々に対する発声の整合を
対比する段階とを含む方法。
【請求項１５】請求項１４記載の方法において、前記測定が、ファジィー
論理を用いて決定される方法。
【請求項１６】多重解像度モデルを用いる話者照合の方法であって、発声を受け取り、この発声について保存されたモデル情報を検索する段階と、少なくとも一人の真正なユーザーについての解像度が異なる少なくとも二つの
モデルに対する発声のために評点のファジーセットを推定する段階と、発声の音声のみの内容を選択するようにモデルの第１候補に対して発声を評点
し、結果的な時間規格化評点を保存する段階と、モデルの第２候補に対して発声の音声のみの内容を再分節し、結果的な時間規
格化評点を保存する段階と、全ての推定されたファジーセットに対して発声のファジー帰属関係関数を計算
する段階と、真正なユーザーに対して発声の整合の推定を与える包括的な帰属関係関数を得
るようにファジー関数の異なる帰属関係値を組み合わせる段階とを含む方法。
【請求項１７】請求項１６記載の方法において、評点のファジーセットを
推定する段階が、ａ．発声の真正な話者についての高解像度モデルに対する比較と、ｂ．高解像度モデルと低解像度モデルとに対する真正な話者の試験発声の評点
の差と、ｃ．高解像度モデルと中間解像度モデルに対する真正な話者の試験発声の評点
の差と、ｄ．中間解像度モデルと低解像度モデルに対する真正な話者の試験発声の評点
の差とのうちの少なくとも一つについての評点を含む方法。
【請求項１８】話者照合の方法であって、複数の試行の各々について請求
項１６記載の段階を実行し、全ての試みの結果を反映させるように包括的帰属関
係関数を更新する方法。
【請求項１９】少なくとも一人の認可ユーザーを有する多重解像度モデル
話者照合システムであって、各認可ユーザーに関連した単語モデルを包含する高解像度単語モデルのデータ
ベースと、この高解像度単語モデルのデータベースと交信し、ユーザーが特定の認可ユー
ザーとして照合されることを要求するときに照合句を生成し、この照合句は、前
記高解像度単語モデルのデータベースにおけるモデルを有する少なくとも一つの
キーワードと、少なくとも一つの他の単語を包含する照合句ジェネレータと、この照合句ジェネレータと交信し、前記照合句の比較モデルを生成する照合句
モデルジェネレータと、この照合句ジェネレータと交信し、照合句をユーザーへ交信させ、ユーザーに
より与えられる単語を有する発声された応答句を可能とするユーザーアクセスデ
バイスと、このユーザーアクセスデバイス及び前記照合句モデルジェネレータと交信し、
前記応答句が比較モデルと整合するときに、且つ少なくとも一つのキーワードに
ついて、特定の認可ユーザーに関連する前記高解像度単語モデルのデータベース
におけるモデルが前記応答句における対応する単語の閾値距離内にあるときに、
ユーザーを特定の認可ユーザーとして証明する照合エンジンとを備えるシステム
、
【請求項２０】請求項１９記載のシステムにおいて、前記照合エンジンと交信し、応答句が自然な発生により生成されたかを決定す
るように前記応答句を音響的に同時に且つ連続的に検査する耐合成比較器を更に
備え、前記照合エンジンによる特定の認可ユーザーとしてユーザーの照合は、前記応
答句が自然な発声により生成されたものと決定されることを更に必要とするシス
テム。
【請求項２１】請求項１９記載のシステムにおいて、前記照合句における
少なくとも一つの他の単語が、前記高解像度単語モデルのデータベースからの高
解像度単語モデルを有するシステム。
【請求項２２】請求項１９記載のシステムにおいて、前記照合句における
前記少なくとも一つの他の単語は、低解像度単語モデルのデータベースからの低
解像度単語モデルを有するシステム。
【請求項２３】請求項１９記載のシステムにおいて、前記ユーザーアクセ
スデバイスが、前記照合句をユーザーへ交信させるテキスト対音声モジュールを
含むシステム。
【請求項２４】請求項１９記載のシステムにおいて、前記ユーザーアクセ
スデバイスが、ユーザーにより与えられるべき応答を可能とする音声認識モジュ
ールを含むシステム。
【請求項２５】請求項１９記載の話者照合システムを含み、認可ユーザー
へのネットワークアクセスを制限するコンピュータネットワーク。
【請求項２６】話者照合の方法であって、各認可ユーザーに関連した単語モデルを包含する高解像度単語モデルのデータ
ベースを確立する段階と、ユーザーが特定の認可ユーザーとして照合されることを要求するとき、前記高
解像度単語モデルのデータベースと交信する照合句ジェネレータにより照合句を
生成し、その照合句は、少なくとも一つのキーワードを包含し、このキーワード
は前記高解像度モデルのデータベースにおけるモデルと、少なくとも一つの他の
単語とを有する段階と、前記照合句ジェネレータと交信する照合句モデルジェネレータにより照合句の
比較モデルを生成する段階と、ユーザーに対する照合句を、ユーザーにより与えられるべき単語を有する発声
された応答句を可能とする文法コンパイラに交信するユーザーアクセスデバイス
へ交信させる段階と、前記応答句が比較モデルと整合するときに、且つ少なくとも一つのキーワード
について、特定の認可ユーザーに関連する前記高解像度単語モデルのデータベー
スにおけるモデルが応答句における対応する単語の閾値距離内にあるときに、ユ
ーザーを特定の認可ユーザーとして証明する段階とを含む方法。
【請求項２７】請求項２６記載の方法において、前記照合エンジンと交信
する耐合成比較器により、応答句が自然な発生により生成されたかを決定するよ
うに応答句における単語を音響的に同時に且つ連続的に比較する段階を更に含み
、特定の認可ユーザーとしてのユーザーの照合が、前記応答句が自然な発声によ
り生成されたと決定されることを更に必要とする方法。
【請求項２８】請求項２６記載の方法において、前記照合句における前記
少なくとも一つの他の単語が、前記高解像度単語モデルのデータベースからの高
解像度単語モデルを有する方法。
【請求項２９】請求項２６記載の方法において、前記照合句における前記
少なくとも一つの他の単語が、低解像語モデルのデータベースからの低解像度単
語モデルを有する方法。
【請求項３０】請求項２６記載の方法において、前記ユーザーアクセスデ
バイスが、前記照合句をユーザーへ交信させるテキスト対音声モジュールを含む
方法。
【請求項３１】請求項２６記載の方法において、前記ユーザーアクセスデ
バイスが、ユーザーにより与えられるべき応答を可能とする音声認識モジュール
を含む方法。
【請求項３２】請求項２６記載の方法を採用し、認可ユーザーへのネット
ワークアクセスを制限するコンピュータネットワーク。