JPH1173195A

JPH1173195A - 話者の申し出識別を認証する方法

Info

Publication number: JPH1173195A
Application number: JP10202508A
Authority: JP
Inventors: Biing-Hwang Juang; ジュアンビーン−ヒュアン; Chin-Hui Lee; リーチン−フイ; Qi P Li; ピー．リキ; Qiru Zhou; ズーキル
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1997-07-18
Filing date: 1998-07-17
Publication date: 1999-03-16
Also published as: EP0892388B1; CA2239339A1; DE69800320D1; CA2239339C; EP0892388A1; DE69800320T2

Abstract

(57)【要約】【課題】可能性のある多数の人間のそれぞれに対する
訓練プロセスの実施のために時間および労力の多大な投
資を必要とすることのない話者認証実行方法を実現す
る。【解決手段】話者によって話された音声発声の特徴
を、少なくとも１つの話者独立音声モデル列と比較す
る。このような音声モデル列のうちの１つは、話者の申
し出た識別（申し出識別）を有する個人に関連づけられ
た単語列を反映する音声に対応する。具体的には、音声
モデル列は、関連する単語列の部分語転写(transcripti
on)に基づいて決定される。その後、申し出識別を有す
る個人に関連づけられた単語列を音声発声が実際にどの
くらい反映しているかの信頼性レベルを、前記比較に基
づいて決定する。例えば、申し出識別は、話者が主張し
た識別であり、主張される識別は、決定された信頼性レ
ベルに基づいて照合される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者認証の分野に
関し、特に、話者によって提供される発声に含まれる言
語情報内容に基づいて話者の識別を認証する方法に関す
る。

【０００２】

【従来の技術】話者認証は、前に保存された情報を用い
た話者の音声のサンプルの分析に基づいて、話者の識別
を確認するプロセスである。定義により、話者照合（Ｓ
Ｖ(speaker verification)）とは、未知の話者の識別
が、実際に、（通常は話者自身によって）主張された識
別と同一であるかどうかを確認するプロセスであり、一
方、話者識別（ＳＩＤ(speaker identification)）と
は、未知の話者を、既知の話者群の特定のメンバとして
識別するプロセスである。

【０００３】話者認証の応用には、例えば、電話、コン
ピュータネットワーク、データベース、銀行口座、クレ
ジットカード、自動預払機、建物あるいはオフィスの入
館などのアクセス制御がある。人間の音声に基づくその
人の識別の自動認証はユーザにとって非常に便利であ
り、さらに、一般に、例えば指紋分析のような他の多く
の生物測定学的方法よりも低コストで実装可能である。
これらの理由で、話者認証は、最近では例えば移動通信
および無線通信のアプリケーションで特に重要になって
いる。

【０００４】従来、話者認証は、前に保存された情報に
基づいて行われている。この情報は、少なくとも一部
は、照合されるべき話者の特定の音声特性を表す。具体
的には、話者の発声から得られる音声信号を分析して、
その音声信号のいくつかの音響「特徴」を抽出した後、
これらの特徴を、同一人によって前に発声された音声
（好ましくは同じ単語あるいは句からなる）から抽出さ
れた対応する特徴と比較する。このような比較の結果に
基づいて、話者を識別し、あるいは、主張された識別を
確認する。特に、前に発声された音声サンプルを用い
て、音声「モデル」を生成する。このモデルは、例え
ば、当業者に周知の隠れマルコフモデル（ＨＭＭ）のよ
うな確率モデルである。しかし、すべてのこのような従
来の話者認証システムで用いられている各モデルは、ひ
とりの人間の音声のみに基づいているため、必ず「話者
依存」モデルであることに特に注意すべきである。

【０００５】話者依存音声モデルを生成するためには、
一般に、システムが識別の認証を行うことができるよう
になるべき各話者ごとに、音声モデル「訓練（トレーニ
ング）」プロセスを含む登録（エンロール）セッション
が必要となる。この訓練プロセスは、十分に強固なモデ
ルを生成する際に使用される複数の（反復された）訓練
発声を提供することを話者に要求する。具体的には、こ
れらの反復された訓練発声から音響特徴が抽出された
後、それらの特徴に基づいてモデルが構成される。最後
に、生成されたモデルはデータベースに記憶される。各
モデルには、そのモデルを訓練した個人の（既知の）識
別が関連づけられる。

【０００６】可能性のあるすべての話者に対するモデル
が訓練された後、システムは通常の「試験（テスト）」
モードで用いることが可能となる。このモードでは、未
知の話者（すなわち、識別が確認あるいは照合されるべ
き話者）が、認証プロセスで用いられる試験発声を提供
する。具体的には、「一致」があるかどうかを判定する
ために、この試験発声から抽出された特徴が、前に訓練
された、話者依存モデルの特徴と比較される。特に、シ
ステムが話者照合を行うために使用される場合には、話
者はまず識別の主張を提供するので、識別される個人に
関連づけられたモデルのみを試験発声と比較すればよ
い。主張された識別は、その比較の結果に基づいて、受
容（すなわち、照合）あるいは拒否される。しかし、シ
ステムが話者識別に用いられる場合、複数の人間のそれ
ぞれに関連づけられたモデルが試験発声と比較された
後、話者は、これらの複数の比較の結果に基づいて、こ
れらの人間のうちの特定の一人であるとして識別される
（あるいは、識別されないとして拒否される）。

【０００７】

【発明が解決しようとする課題】可能性のある多数の人
間のそれぞれに対する訓練プロセスの実施のために時間
および労力の多大な投資を必要とすることのない、話者
認証実行方法が利用可能であると有効である。

【０００８】

【課題を解決するための手段】本発明によれば、従来技
術の話者認証システムとは異なり、話者認証は、話者認
証プロセスの前に、時間のかかる話者固有の登録（すな
わち、「訓練」）セッションを実行することを必要とせ
ずに、実行可能となる。特に、本発明の原理によれば、
話者の音声特性ではなく、話者の発声の言語情報内容を
用いて、話者の識別あるいは照合を行う。さらに、この
「言語情報照合」（ＶＩＶ(verbal information verifi
cation)）法は、与えられた話者に関連づけられた特定
の暗証句(pass-phrase)の強制復号に基づいて実行され
る。このようにして、「話者独立」モデルを用いること
により、可能性のある各システムユーザが個別に複雑な
訓練（すなわち、登録）セッションを実行する必要がな
くなる。

【０００９】特に、本発明によれば、話者の申し出た識
別（以下「申し出識別」という。）を認証する方法およ
び装置が実現される。話者によって話された音声発声の
特徴を、少なくとも１つの話者独立音声モデル列と比較
する。このような音声モデル列のうちの１つは、申し出
識別を有する個人に関連づけられた単語列を反映する音
声に対応する。具体的には、音声モデル列は、関連する
単語列の部分語転写(transcription)に基づいて決定さ
れる。その後、申し出識別を有する個人に関連づけられ
た単語列を音声発声が実際にどのくらい反映しているか
の信頼性レベルを、前記比較に基づいて決定する。

【００１０】本発明の一実施例によれば、申し出識別
は、話者が主張した識別であり、主張される識別は、決
定された信頼性レベルに基づいて照合される。別の実施
例によれば、複数の申し出識別がそれぞれ順に検査さ
れ、対応する複数の人間のうちの特定人として話者を識
別する。例えば、音声発声の特徴は、ケプストラル（す
なわち、周波数）領域のデータからなり、話者独立音声
モデルは、例えば、個々の音素を反映する隠れマルコフ
モデル（例えば、個々の音素の単音および異音モデルの
ＨＭＭ）からなる。

【００１１】

【発明の実施の形態】言語情報照合（ＶＩＶ）法は、与
えられたデータプロファイルの内容に対して、話された
情報内容を照合することからなる（例えば、本願と同一
出願人による同日付けの特許出願（整理番号：９８０１
３８）参照）。この内容としては、例えば、個人暗証句
や個人識別番号（ＰＩＮ(personal identification num
ber)）、出生地、母の旧姓、住所などのような情報があ
る。話された発声に含まれる言語情報は、その発声が、
目標内容と同一あるいはほとんど同一の情報を含むと判
定された場合に限り、特定人のデータプロファイル内容
と「一致」する。好ましくは、与えられた個人の識別を
認証するために一致しなければならない情報内容のうち
の少なくともいくつかは、その人自身しか普通は知らな
い「秘密」情報であるべきである。本発明によれば、言
語情報照合は、強制復号を用いて行われる。

【００１２】本発明の実施例による強制復号を用いた言
語情報照合法の重要な応用例には、銀行、テレホンカー
ド、クレジットカード、給付金、およびその他の口座ア
クセスの場合のリモート話者認証がある。これらの場
合、本発明の実施例による強制復号を用いたＶＩＶシス
テムは、話者によって話された個人情報に基づいて、主
張される識別を有する話者を受容するかそれとも拒絶す
るかを決定しなければならない。現在の非自動システム
では、例えば、ユーザから口座番号が提示された後、オ
ペレータが、例えばそのユーザの誕生日、住所、自宅電
話番号などのような個人情報の知識が要求される一連の
質問をすることによって、そのユーザの主張した識別を
確認する。ユーザは、自分の口座にアクセスすることが
できるためには、それらの質問に正しく応答する必要が
ある。同様にして、本発明の実施例による強制復号を用
いて実装された自動化された対話型ＶＩＶシステムは、
ユーザに対して１つあるいは複数の質問をすることが可
能である。このような質問は、例えば、従来の、テキス
トを音声に変換するシンセサイザ（テキスト−音声変換
シンセサイザ）によって生成される。そして、システム
は、ユーザが話す応答情報を自動的に受け取り確認する
ことができる。（なお、テキスト−音声変換シンセサイ
ザは当業者に周知である。）さらに、本発明の原理によ
れば、このような応用例は、従来技術の話者認証法で要
求される話者依存音声モデルを訓練することを必要とせ
ずに、実現可能である。

【００１３】本発明の実施例を理解するために、上記の
「従来の技術」のセクションで説明した従来技術のシス
テムについて、まず説明する。図１に、話者依存音声モ
デルを用いて、主張される識別を照合するような、話者
認証を実行する従来技術のシステムを示す。図１のシス
テムの動作時には、実行される２種類のセッションがあ
る。それらは、登録セッションおよび試験セッションで
ある。

【００１４】登録セッションでは、識別（例えば、口座
番号）が話者に割り当てられ、その話者は、ＨＭＭ訓練
モジュール１１から、暗証句（例えば、連続する数字列
あるいは句）を話すよう要求される。（図１に示した例
示的な登録セッションでは、「開けゴマ」という暗証句
が用いられている。）次に、システムは、話者に対し
て、暗証句を数回繰り返すよう要求し、話者依存隠れマ
ルコフモデル（ＨＭＭ）が、ＨＭＭ訓練モジュール１１
によって、複数の登録発声に基づいて形成される。ＨＭ
Ｍは、一般に、ケプストラル（すなわち、周波数領域
の）データのような特徴に基づいて形成される。この特
徴は、登録（すなわち、訓練）発声から抽出されたもの
である。話者依存ＨＭＭはデータベース１２に記憶さ
れ、与えられた識別（例えば、口座番号）に関連づけら
れる。なお、各（可能性のある）話者ごとに別個の登録
セッションを実行しなければならない。すなわち、識別
を照合することができるようにするためには、可能性の
あるシステムの各ユーザが実行しなければならない。

【００１５】試験セッション（これは、必ず同じ個人に
よって実行された登録セッションの後に実行されなけれ
ばならない）では、話者によって識別の主張がなされ、
これに応答して、話者照合器１３は、話者に対して、適
当な暗証句を発声するよう要求する。話者の試験発声
は、前に訓練された話者依存ＨＭＭと（話者照合器１３
によって）比較される。このＨＭＭは、データベースに
記憶され、主張される識別に関連づけられたものであ
る。話者照合器１３は、一致評点（試験発声を与えられ
たＨＭＭと比較することにより生成される）が所定のし
きい値を超えた場合、話者は、主張された識別を有する
ものとして受容される。そうでない場合、話者の主張す
る識別は拒絶される。

【００１６】なお、暗証句は話者依存とすることもそう
でないことも可能である。すなわち、各話者（すなわ
ち、システムユーザ）は、それぞれに関連づけられた個
別の暗証句を有することも可能であり、あるいは、すべ
てのユーザが同一の暗証句を発声するよう要求すること
も可能である。前者の場合、各話者は、自分の暗証句を
選択することが許される。この暗証句は、秘密（すなわ
ち、話者自身のみが知っている）とすることもそうでな
いことも可能である。明らかに、システムの認証精度
は、暗証句が実際に相異なる場合のほうが高いことが期
待される。しかし、いずれの場合でも、（少なくとも）
個々の話者の音声特性が、話者どうしを区別するために
用いられている。

【００１７】上記の説明および図面から分かるように、
図１の従来技術のシステムは、話者照合を実行する。し
かし、同様の従来技術のアプローチ（すなわち、話者依
存ＨＭＭを用いたアプローチ）を同様に用いて、代わり
に話者識別を実行することも可能である。その場合、特
に、話者は、試験セッション中に明示的な識別主張をし
ない。むしろ、話者照合器１３は、話者の試験発声と、
可能性のある各話者に対してデータベース１２に記憶さ
れている前に訓練された話者依存ＨＭＭとの比較を行
う。明らかに、このような話者識別法は、話者を多数の
話者から識別する必要のあるアプリケーションでは実用
的ではない。

【００１８】図２に、言語情報照合法を用いて話者照合
を行うシステムを示す。図２のシステムは、従来の自動
音声認識サブシステムを用いた言語情報照合を使用し
て、話者照合を行う。なお、図２のシステムには、試験
セッションの動作のみを示している（これは、図３の例
示的なシステムでも同様である）。言語情報照合法を用
いた話者認証システムは、各個人の識別を、その人に関
連づけられた情報（例えば、個人の暗証句あるいは個人
識別番号（すなわちＰＩＮ）、出生地、母の旧姓、住所
など）のセットからなるプロファイルと関連づけること
しか必要としない。このプロファイル情報およびそれと
特定の個人との対応関係が、試験セッション中に検索す
るためにデータベースに記憶される。例えば、図２のシ
ステムのデータベース２２および図３のシステムのデー
タベース３２はこの目的のために設けられる。

【００１９】図２のシステムの試験セッションは、話者
による識別主張によって開始される。その後、自動音声
認識器２１は、話者に対して、適当な暗証句を発声する
よう要求し、その話者の暗証発声は、通常のようにして
自動音声認識器２１によって処理され、認識された句が
生成される。なお、特に、自動音声認識器２１は、すべ
て従来の方法で、話者独立音声モデルのセットに基づい
て、話者独立音声認識を実行する。（話者独立音声モデ
ルは、例えば、ＨＭＭからなり、あるいは、テンプレー
トまたは人工ニューラルネットワークからなる。これら
はそれぞれ当業者に周知である。）例えば、自動音声認
識器２１は、試験発声からケプストラル（すなわち、周
波数領域の）データのような特徴を抽出した後、抽出し
た特徴データを、話者独立ＨＭＭで表現される確率的特
徴データと比較するために用いる。（ケプストラル特徴
に基づく話者独立自動音声認識は当業者に周知であ
る。）図２および図３に示した例示的な試験セッション
ではいずれも、供給される（そして認識される）暗証発
声は「マレーヒル(Murray Hill)」である。これは、米
国ニュージャージー州にある町の名前であり、例えば、
話者の郷里であり、あるいは、特に、話者に対して郷里
を言うよう求める質問に応答して発声されたものであ
る。

【００２０】発声された句が自動音声認識器２１によっ
て認識された後、図２のシステムは、認識された句が、
主張された識別を有する個人に関連づけられた対応する
情報内容と整合する（すなわち、「一致する」）かどう
かを判定する。特に、テキスト比較器２３は、データベ
ース２２から、主張された識別を有する個人のプロファ
イルのうち、供給された特定の発声に関係する（すなわ
ち、話者に対してなされた特定の質問に関係する）特定
部分を検索する。図２に示した例示的な試験セッション
では、「マレーヒル」というテキストがデータベース２
２から検索され、認識された句のテキスト表現（「マレ
ーヒル」）がこれに一致する。この場合、完全な一致が
得られるため、図２の例示的なシステムによって、話者
は、実際に、主張された識別を有する個人であると結論
される。

【００２１】上記の説明および図面から分かるように、
図２のシステムは話者照合を行う。しかし、当業者には
明らかなように、同じアプローチ（すなわち、話者独立
自動音声認識およびテキスト比較を用いるもの）をほと
んど同様に用いて、代わりに話者識別を行うことも可能
である。その場合、特に、話者は、試験セッション中に
明示的な識別主張をしない。むしろ、テキスト比較器２
３は、認識された句のテキスト表現と、可能性のある各
話者ごとにデータベース２２に記憶されている対応する
（例えば、話者に対してなされた特定の質問に基づい
て）テキスト情報との比較を行う。その結果、可能性の
ある話者のうち最良一致の話者の識別が実際の話者とし
て識別される。明らかに、このような話者識別法は、比
較的少人数の話者のうちから話者を識別するよう名アプ
リケーションでは非常に実用的である。

【００２２】理解されるように、特に、（話者識別では
なく）話者照合の目的では、図２および上記の説明のシ
ステムによって用いられるアプローチは、プロファイル
内の情報を、最大限効果的には利用していない。その理
由は、行われる話者認識（例えば、自動音声認識器２１
によって）は、発声の内容が、主張された識別を有する
個人のプロファイル内の対応する情報と一致すると期待
されるという事実を考慮していないためである。換言す
れば、与えられた発声が既知の情報と一致するかどうか
ということしか問題とされていない。音声発声照合（音
声発声を、既知のあるいは期待される語または句と照合
するプロセス）は、「ブラインド」音声認識（例えば、
発声を、すべての可能な語あるいは部分語（例えば音
素）の列と比較することによって、話された語または句
をすべての語または句のうちのいずれかであると識別
（すなわち認識）するプロセス）より効果的であること
は周知である。

【００２３】図３に、本発明の実施例に従って、言語情
報照合法を用いて話者照合を行う例示的なシステムを示
す。この第２の例示的なシステムでは、個人のプロファ
イルに記憶される情報は、図２のシステムの場合よりも
効果的に用いられる。特に、図３の例示的なシステム
は、本発明による強制復号を用いた言語情報照合法を、
それに発声照合法を適応させることによって実現する。
（発声照合法は当業者に周知である。これは、従来、認
識された語あるいは句の信頼性レベルを高めることによ
って、自動音声認識システムの性能を改善するために用
いられている。特に、これは、キーワードスポッティン
グおよび非キーワード拒否の問題に適用されている。具
体的には、認識器がまず、話された語あるいは句を識別
した後、発声照合サブシステムが、識別された語あるい
は句に対するモデルデータに対して直接その発声の再評
価を行うことにより、認識器の最初の判定の精度を確認
し、あるいは、それを却下する。もちろん、発声照合法
はこれまで、話者認証の場合には全く用いられたことが
ない。）

【００２４】具体的には、図３の例示的なシステムは、
個人のプロファイル内のテキストの部分語転写（すなわ
ち、既知の正答）を用いて、試験発声を復号する。この
発声の復号法を「強制復号」といい、この方法は発声照
合の分野の当業者には周知である。特に、試験発声の強
制復号は、その発声に対する部分語セグメンテーション
境界を与える。その後、この境界に基づいて、発声を、
部分語（例えば単音）の期待される列と照合して、単音
尤度評点を生成する。また、この発声を、反モデル（当
業者に周知）の列とも照合し、反尤度評点を生成する。
（部分語のモデルおよび反モデルは例えばＨＭＭからな
る。しかし、これらはテンプレートあるいは人工ニュー
ラルネットワークからなることも可能である。これらは
それぞれ当業者に周知である。）最後に、図３の例示的
なシステムは、仮説検定法を適用して、試験発声を受容
するかそれとも拒否するかを判定する。（なお、ここで
用いられる仮説検定法は、例えば、発声照合に用いられ
るものに基づき、従ってこれは当業者に周知である。）

【００２５】具体的に、図３およびそこに示された例示
的なシステムの動作について説明する。まず、識別主張
がシステムに対してなされる。次に、強制復号モジュー
ル３１は、主張された識別を有する個人のプロファイル
についてデータベース３２に記憶されている暗証句に対
する単音／部分語転写Ｓ_iに基づいて試験発声を復号す
るように動作する。さらに、話者独立単音モデルλ_iの
列（この列は、データベース３２から検索された単音転
写に対応する）が、復号を実行する際に使用するために
強制復号モジュール３１に供給される。（列λ_iを生成
するもとになる話者独立単音モデルのセットは、例え
ば、一定のＨＭＭのセットからなり、言語の各単音ごと
に１つのＨＭＭからなる。）例えば、強制復号は、当業
者に周知のビタビアルゴリズムを用いて実行される。強
制復号の結果、対応する目標尤度Ｐ（Ｘ_i｜λ_i）の列が
生成される。各尤度は、モデルλ_iのうちの１つが、試
験発声のうちの対応する部分に一致する度合いを表す。

【００２６】図３の例示的なシステムの性能を改善する
ため、仮説検定プロセスにおいて、反モデル（当業者に
周知）も用いる。具体的には、強制復号モジュール３１
は、判定された単音境界を反尤度計算モジュール３３に
供給する。反尤度計算モジュール３３は、データベース
３２から検索された単音転写に対応する反モデル（すな
わち反ＨＭＭ）の列、および、供給された単音境界に基
づいて、対応する反尤度Ｐ（Ｘ_i｜λ_i）の列を生成す
る。各反尤度は、反モデルλ_iのうちの１つが、試験発
声のうちの対応する部分に一致する度合いを表す。（当
業者に周知のように、与えられた部分語モデルに対応す
る反モデルは、その部分語と非常に混同しやすい部分語
のセットのデータを用いることによって訓練されること
が可能である。）

【００２７】図３の例示的なシステムの動作の最終ステ
ップとして、信頼性尺度モジュール３４は、目標尤度評
点の列、および、反尤度評点の列を用いて、主張された
識別を有する個人に関連づけられた暗証句が、実際に、
試験発声の句である全信頼性尺度を判定する。この全信
頼性尺度は、当業者には明らかないくつかの方法のうち
のいずれによって計算することも可能であり、また、同
様に、全信頼性尺度が与えられると、主張された識別
は、それに基づいて、同じく当業者に周知のいくつかの
方法によって、受容あるいは拒否される。以下の説明で
は、全信頼性尺度を計算し、主張された識別を受容する
かそれとも拒否するかを判定する少なくとも１つの例示
的な方法を提示することにする。

【００２８】セグメント化された部分語に対する仮説検
定中に、信頼性評点が計算される。発声照合を用いる従
来技術のシステムではいくつかの信頼性尺度が用いられ
ているが、本発明の一実施例では、少なくとも２つの理
由から、「正規化信頼性尺度」が有効である。第１に、
通常の（すなわち、正規化されていない）信頼性尺度は
大きいダイナミックレンジを有する。本発明の応用例で
は、しきい値を容易に決定することができるように、安
定な数値範囲を有する信頼性尺度を使用するのが有利で
ある。第２に、話者認証システムでは、その個々の応用
例に関係する設計仕様に基づいてしきい値を調節可能で
あることが有利である。

【００２９】ここで説明する例示的な正規化信頼性尺度
は、２つの評点に基づく。第１段階で、各部分語の受容
または拒否に対する部分語評点を評価する。次に、第２
段階で、受容可能な部分語の数に基づいて発声評点を計
算する。

【００３０】具体的には、当業者に周知の仮説検定にお
ける「変数による検査」の概念に従って、観測される音
声セグメントＯ_nにおいて復号された部分語ｎに対する
信頼性尺度を次のように定義する。

【数１】ただし、λ_n ^tおよびλ_n ^aは、それぞれ、部分語単位ｎに
対応する目標モデルおよび反モデルであり、Ｐ（・）
は、与えられたモデルに一致する与えられた観測値の尤
度である（ｌｏｇＰ（Ｏ_n｜λ_n ^t）＞０と仮定す
る）。このように、この部分語信頼性評点は、目標評点
と反モデル評点の差を目標評点で割った値を測る。目標
評点が反モデル評点より大きい場合に限りＣ_n＞０であ
る。Ｃ_nがなるべく１に近いことが理想である。

【００３１】次に、Ｎ個の部分語を含む発声に対する
「正規化信頼性尺度」を次のように定義する。

【数２】ただし、

【数３】であり、θは部分語しきい値である。これは、すべての
部分語に共通のしきい値とすることも、部分語ごとに固
有とすることも可能である。いずれの場合でも、正規化
信頼性尺度Ｍは、一定の範囲０≦Ｍ≦１に入る。なお、
部分語は、その部分語信頼性評点Ｃ_nが、その部分語の
しきい値θ以上である場合に限り、受容され、発声信頼
性尺度に寄与する。このように、Ｍは、発声中の「受容
可能な」部分語の割合を測る統計量である。例えば、Ｍ
＝０．８は、発声中の部分語の８０パーセントが受容可
能であることを意味する。このようにして、発声しきい
値は、システムの性能および強固さに対して与えられた
仕様のセットに基づいて決定することができる。

【００３２】発声評点が求められた後、発声を拒否する
かそれとも受容するかが次のようにして決定される。

【数４】ただし、Ｍ_iおよびＴ_iは、発声ｉに対応する信頼性評点
およびしきい値である。主張された識別を受容するかそ
れとも拒否するかの決定を複数の発声（すなわち、複数
の暗証句）に基づいて行うシステムの場合、１つのグロ
ーバルしきい値（すなわち、Ｔ＝Ｔ₁＝・・・＝Ｔ_i）、
あるいは、複数のしきい値（すなわち、Ｔ≠Ｔ₁≠・・
・≠Ｔ_i）のいずれを用いることも可能である。しきい
値は、コンテクスト（すなわち、情報分野）依存（ＣＤ
(context dependent)）とすることも、コンテクスト独
立（ＣＩ(context independent)）とすることも可能で
ある。また、しきい値は、話者依存（ＳＤ(speaker dep
endent)）とすることも、話者独立（ＳＩ(speaker inde
pendent)）とすることも可能である。

【００３３】強固な照合のためには、複数質問試行に対
して２つのグローバルしきい値を次のように用いると有
効である。

【数５】ただし、Ｔ_lowおよびＴ_highは、Ｔ_low＜Ｔ_highとなる２
つのしきい値である。式（５）は、Ｔ_lowは１回の照合
試行において１度しか使えないことを意味する。従っ
て、話者が、すべての発声（すなわち、いくつかの暗証
句）の結果、かなり低い評点となるのが１度だけである
場合、その話者は、照合試行全体には合格する可能性が
ある。これは特に、雑音の多い環境の場合や、話者が一
貫性をもって話さないことがある場合に有用である。

【００３４】本発明による言語情報照合法を用いた例示
的な話者認証システムの性能をさらに改善するために
は、話者およびコンテクストの両方に依存したしきい値
を用いることが可能である。誤拒否リスクを縮小するに
は、与えられた話者の発声ｉに対するしきい値の上限を
次のように選択することができる。ｔ_i＝ｍｉｎ｛Ｍ_i,j｝，ｊ＝１，...，Ｊ（６）ただし、Ｍ_i,jは、ｊ番目の試行での発声ｉに対する信
頼性評点であり、Ｊは、同じコンテクスト発声ｉでの話
者の総試行数である。音声、チャネル、および環境の変
化により、同じ話者が、同じコンテクスト発声でも、相
異なる評点を有することがある。そのため、「発声許容
区間」τを次のように定義する。Ｔ_i＝ｔ_i−τ （７）ただし、ｔ_iは式（６）で定義され、０≦τ＜ｔ_iであ
り、Ｔ_iは式（４）のＣＤ発声しきい値である。許容区
間を適用することによって、システムは、同じコンテク
ストで発声評点Ｍ_iが前より低い場合であっても、話者
を受容する可能性がある。例えば、ｉ番目の質問に対す
る与えられた話者の回答の最小信頼性尺度がｔ_i＝０．
９であると仮定する。本発明による言語情報照合法を用
いた例示的な話者認証システムがτ＝０．０６％で設計
されている場合、Ｔ_i＝０．９−０．０６＝０．８４と
なる。これは、この話者の主張する識別は、発声ｉの部
分語の８４％が受容可能である限り、受容される可能性
があることを意味する。

【００３５】システム評価において、τは、保証された
性能区間として、誤り率とともに報告されることが可能
である。他方、システム設計においては、τは、与えら
れたシステム仕様のセットに基づいてしきい値を決定す
るために用いられる。例えば、銀行認証システムは、高
いセキュリティレベルで低い誤受容率を保証するため
に、小さいτの値を必要とするが、ボイスメールシステ
ムでは、ユーザフレンドリなセキュリティアクセスのた
めに、大きいτの値を用いて誤拒否率を小さくするほう
が好ましい。

【００３６】本発明による強制復号を用いた言語情報照
合による話者認証システムの一実施例では、システム
は、新規ユーザに対して式（５）によるＳＩしきい値を
適用し、式（６）によるしきい値が決定されると、ＳＤ
しきい値に切り替わる。このようなＳＤしきい値は、例
えば、ユーザ認証アプリケーションごとに、クレジット
カードや電話カードに記憶させることが可能である。

【００３７】上記の説明および図面から分かるように、
図３の例示的なシステムは話者照合を行う。しかし、当
業者には明らかなように、同じ本発明のアプローチ（す
なわち、話者独立の音素モデル、プロファイル情報の単
音／部分語転写、および試験発声の強制復号を用いたも
の）を用いて、ほとんど同様にして、代わりに話者識別
を行うことも可能である。その場合、特に、話者は、試
験セッション中に明示的な識別主張をしない。むしろ、
強制復号モジュール３１は、試験発声の強制復号を、可
能性のある各話者に対してデータベース２２に記憶され
ている対応する（例えば、話者に対してなされた特定の
質問に基づく）転写のそれぞれに基づいて行い、信頼性
尺度モジュール３４は、それらの可能性のある各話者に
対する評点を生成する。こうして、最良の評点を生じた
話者の識別が実際の話者のものとして識別される。明ら
かに、このような話者識別法は、話者を比較的少数の話
者から識別する必要のあるアプリケーションで最も実用
的である。

【００３８】なお、より強固なシステムにするために
は、図３の例示的なシステムは、話者に対して複数の質
問をするようにし、例えば、それに応答して提供される
すべての発声が、主張された識別を有する個人のプロフ
ァイル内の対応する情報に一致するようにすることが可
能である。そうでなければ、与えられた個人（そのプロ
ファイルはデータベースに含まれている）について提示
された単一の質問に対する回答を知っている人が、詐称
者としてふるまい、図２のシステムが、主張された本人
であると信じるように欺くことができてしまう。複数の
質問を用いることによって、システムはさらに強固にな
る。主張された識別を有する本人以外の人がすべての質
問に対する回答を知っている可能性は少ないからであ
る。もちろん、試験セッションをあまりに長くしないこ
とも有効である。１つのアプローチは、可能な多数（例
えば６個）の質問のセットからランダムに選択した少数
（例えば３個）の質問をするというものである。この場
合、すべての質問に対する回答はデータベース内の個人
のプロファイル内に記憶される。

【００３９】より強固なシステムにするための別のアプ
ローチは、動的に変化するプロファイル情報を設けるこ
とである。例えば、個人のアクセスプロファイルは、最
終アクセス日を含むように更新することが可能である。
その場合、与えられた個人が続けてアクセスしようとす
るとき、その本人のみが最終アクセス日を知っているは
ずであると期待され、その日付を提示するよう求められ
る。本発明の原理による話者認証システムのセキュリテ
ィに対する強固さを追加するその他の方法も当業者には
明らかである。

【００４０】説明を明確にするため、本発明の実施例
は、個別の機能ブロックあるいはモジュールからなるも
のとして説明した。これらのブロックが表す機能は、共
用または専用のハードウェアを用いて実現される。ハー
ドウェアには、ソフトウェアを実行可能なハードウェア
が含まれるが、それに限定されるものではない。例え
ば、ここで説明したモジュールの機能は、単一の共用プ
ロセッサによって提供されることも、複数のプロセッサ
によって提供されることも可能である。さらに、ここで
の「プロセッサ」という用語の使用は、ソフトウェアを
実行可能なハードウェアのみを指すものと解釈してはな
らない。実施例は、ルーセント・テクノロジーズ社のＤ
ＳＰ１６あるいはＤＳＰ３２Ｃのようなディジタル信号
プロセッサ（ＤＳＰ）ハードウェア、説明した動作を実
行するソフトウェアを記憶するための読み出し専用メモ
リ（ＲＯＭ）、および、ＤＳＰの結果を記憶するための
ランダムアクセスメモリ（ＲＡＭ）からなることが可能
である。超大規模集積（ＶＬＳＩ）ハードウェア実施例
や、汎用ＤＳＰ回路とカスタムＶＬＳＩ回路の組合せも
可能である。これらの実施例のいずれも、ここで用いた
「ブロック」、「モジュール」、あるいは「プロセッ
サ」という用語の意味に含まれる。

【００４１】

【発明の効果】以上述べたごとく、本発明によれば、可
能性のある多数の人間のそれぞれに対する訓練プロセス
の実施のために時間および労力の多大な投資を必要とす
ることのない、話者認証実行方法が実現される。

【図面の簡単な説明】

【図１】話者依存音声モデルを用いて、主張される識別
を照合するような、話者認証を実行する従来技術のシス
テムの図である。

【図２】言語情報照合を用いて話者照合を行うシステム
の図である。

【図３】本発明の実施例に従って、強制復号を用いた言
語情報照合により話者照合を行う例示的なシステムの図
である。

【符号の説明】

１１ＨＭＭ訓練モジュール１２データベース１３話者照合器２１自動音声認識器２２データベース２３テキスト比較器３１強制復号モジュール３２データベース３３反尤度計算モジュール３４信頼性尺度モジュール

フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者チン−フイリーアメリカ合衆国，07974 ニュージャージー，ニュープロヴィデンス，ラニーメデパークウェイ 118 (72)発明者キピー．リアメリカ合衆国，07974 ニュージャージー，ニュープロヴィデンス，ラニーメデパークウェイ 225 (72)発明者キルズーアメリカ合衆国，07076 ニュージャージー，スコッチプレインズ，パインストリート 558

Claims

【特許請求の範囲】

【請求項１】話者の申し出識別を認証する方法におい
て、前記話者によって話された音声発声の特徴を、１つ以上
の話者独立音声モデルからなる少なくとも１つの音声モ
デル系列と比較する比較ステップと、前記比較に基づいて、前記音声発声が、前記申し出識別
を有する個人に関連づけられた１つ以上の単語からなる
単語系列を反映する信頼性レベルを決定する決定ステッ
プとからなり、前記音声モデル系列のうちの１つの音声モデル系列は、
前記申し出識別を有する個人に関連づけられた単語系列
を反映する音声に対応し、該１つの音声モデル系列は、
該単語系列の部分語転写に基づいて決定され、該部分語
転写は１つ以上の部分語からなる部分語系列からなるこ
とを特徴とする、話者の申し出識別を認証する方法。
【請求項２】前記申し出識別は、前記話者の識別であ
ると主張された識別であることを特徴とする請求項１に
記載の方法。
【請求項３】識別の主張は前記話者によってなされた
ものであることを特徴とする請求項２に記載の方法。
【請求項４】前記話者から前記識別の主張を受け取る
ステップをさらに有することを特徴とする請求項３に記
載の方法。
【請求項５】決定された信頼性レベルに基づいて前記
話者の主張された識別を照合するステップをさらに有す
ることを特徴とする請求項４に記載の方法。
【請求項６】前記申し出識別は、可能性のある複数の
識別のうちの１つであり、それぞれの可能性のある識別
は、該可能性のある識別を有する対応する個人に関連づ
けられた単語系列が対応していることを特徴とする請求
項１に記載の方法。
【請求項７】決定された信頼性レベルに基づいて、前
記話者を、前記申し出識別を有するとして識別するステ
ップをさらに有することを特徴とする請求項６に記載の
方法。
【請求項８】前記話者独立音声モデルは隠れマルコフ
モデルを含むことを特徴とする請求項１に記載の方法。
【請求項９】前記話者独立音声モデルは、個々の音素
を反映する隠れマルコフモデルを含むことを特徴とする
請求項８に記載の方法。
【請求項１０】前記音声発声の特徴はケプストラル領
域データを含むことを特徴とする請求項１に記載の方
法。
【請求項１１】前記比較ステップは、前記部分語系列
に対応する１つ以上の目標尤度評点からなる目標尤度評
点系列を生成し、該目標尤度評点は、前記部分語系列中
の１つの部分語と、前記音声発声の対応する部分との一
致の尤度を表すことを特徴とする請求項１に記載の方
法。
【請求項１２】前記決定ステップは、１つ以上の信頼
性評点からなる信頼性評点系列に基づいて、前記音声発
声が、前記申し出識別を有する個人に関連づけられた単
語系列を反映する信頼性レベルを決定し、各信頼性評点
は、対応する目標尤度評点に基づくことを特徴とする請
求項１１に記載の方法。
【請求項１３】前記信頼性評点はさらに、１つ以上の
反尤度評点からなる対応する反尤度評点系列に基づき、
各反尤度評点は、前記部分語系列中の１つの部分語に対
応する反モデルと、前記音声発声の対応する部分との一
致の尤度を表すことを特徴とする請求項１２に記載の方
法。
【請求項１４】前記信頼性評点は、組み合わされて、
前記部分語系列中で、前記音声発声の対応する部分に一
致する可能性が高い部分を表す正規化信頼性尺度を生成
することを特徴とする請求項１３に記載の方法。
【請求項１５】前記正規化信頼性尺度に基づいて、前
記申し出識別を、前記話者の識別であると認証するステ
ップをさらに有することを特徴とする請求項１４に記載
の方法。
【請求項１６】前記比較ステップおよび前記決定ステ
ップはそれぞれ、複数の音声発声、および、前記申し出
識別を有する個人に関連づけられた対応する同数の単語
系列に基づいて同数回実行されることにより、対応する
同数の正規化信頼性尺度が生成され、前記方法はさらに、該正規化信頼性尺度と、対応する同数のしきい値との比
較に基づいて、前記申し出識別を、前記話者の識別であ
ると認証するステップを有することを特徴とする請求項
１４に記載の方法。
【請求項１７】話者の申し出識別を認証する装置にお
いて、前記話者によって話された音声発声の特徴を、１つ以上
の話者独立音声モデルからなる少なくとも１つの音声モ
デル系列と比較する比較器と、前記比較に基づいて、前記音声発声が、前記申し出識別
を有する個人に関連づけられた１つ以上の単語からなる
単語系列を反映する信頼性レベルを決定するプロセッサ
とからなり、前記音声モデル系列のうちの１つの音声モデル系列は、
前記申し出識別を有する個人に関連づけられた単語系列
を反映する音声に対応し、該１つの音声モデル系列は、
該単語系列の部分語転写に基づいて決定され、該部分語
転写は１つ以上の部分語からなる部分語系列からなるこ
とを特徴とする、話者の申し出識別を認証する装置。
【請求項１８】前記申し出識別は、前記話者の識別で
あると主張された識別であることを特徴とする請求項１
７に記載の装置。
【請求項１９】識別の主張は前記話者によってなされ
たものであることを特徴とする請求項１８に記載の装
置。
【請求項２０】前記話者から前記識別の主張を受け取
る受信器をさらに有することを特徴とする請求項１９に
記載の装置。
【請求項２１】決定された信頼性レベルに基づいて前
記話者の主張された識別を照合する照合器をさらに有す
ることを特徴とする請求項２０に記載の装置。
【請求項２２】前記申し出識別は、可能性のある複数
の識別のうちの１つであり、それぞれの可能性のある識
別は、該可能性のある識別を有する対応する個人に関連
づけられた単語系列が対応していることを特徴とする請
求項１７に記載の装置。
【請求項２３】決定された信頼性レベルに基づいて、
前記話者を、前記申し出識別を有するとして識別する識
別器をさらに有することを特徴とする請求項２２に記載
の装置。
【請求項２４】前記話者独立音声モデルは隠れマルコ
フモデルを含むことを特徴とする請求項１７に記載の装
置。
【請求項２５】前記話者独立音声モデルは、個々の音
素を反映する隠れマルコフモデルを含むことを特徴とす
る請求項２４に記載の装置。
【請求項２６】前記音声発声の特徴はケプストラル領
域データを含むことを特徴とする請求項１７に記載の装
置。
【請求項２７】前記比較器は、前記部分語系列に対応
する１つ以上の目標尤度評点からなる目標尤度評点系列
を生成し、該目標尤度評点は、前記部分語系列中の１つ
の部分語と、前記音声発声の対応する部分との一致の尤
度を表すことを特徴とする請求項１７に記載の装置。
【請求項２８】前記プロセッサは、１つ以上の信頼性
評点からなる信頼性評点系列に基づいて、前記音声発声
が、前記申し出識別を有する個人に関連づけられた単語
系列を反映する信頼性レベルを決定し、各信頼性評点
は、対応する目標尤度評点に基づくことを特徴とする請
求項２７に記載の装置。
【請求項２９】前記信頼性評点はさらに、１つ以上の
反尤度評点からなる対応する反尤度評点系列に基づき、
各反尤度評点は、前記部分語系列中の１つの部分語に対
応する反モデルと、前記音声発声の対応する部分との一
致の尤度を表すことを特徴とする請求項２８に記載の装
置。
【請求項３０】前記信頼性評点は、組み合わされて、
前記部分語系列中で、前記音声発声の対応する部分に一
致する可能性が高い部分を表す正規化信頼性尺度を生成
することを特徴とする請求項２９に記載の装置。
【請求項３１】前記正規化信頼性尺度に基づいて、前
記申し出識別を、前記話者の識別であると認証するプロ
セッサをさらに有することを特徴とする請求項３０に記
載の装置。
【請求項３２】前記比較器および前記プロセッサはそ
れぞれ、複数の音声発声、および、前記申し出識別を有
する個人に関連づけられた対応する同数の単語系列に同
数回適用されることにより、対応する同数の正規化信頼
性尺度が生成され、前記装置はさらに、該正規化信頼性尺度と、対応する同数のしきい値との比
較に基づいて、前記申し出識別を、前記話者の識別であ
ると認証するプロセッサを有することを特徴とする請求
項３０に記載の装置。