JPH1173195A - 話者の申し出識別を認証する方法 - Google Patents

話者の申し出識別を認証する方法

Info

Publication number
JPH1173195A
JPH1173195A JP10202508A JP20250898A JPH1173195A JP H1173195 A JPH1173195 A JP H1173195A JP 10202508 A JP10202508 A JP 10202508A JP 20250898 A JP20250898 A JP 20250898A JP H1173195 A JPH1173195 A JP H1173195A
Authority
JP
Japan
Prior art keywords
speaker
identification
sequence
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10202508A
Other languages
English (en)
Inventor
Biing-Hwang Juang
ジュアン ビーン−ヒュアン
Chin-Hui Lee
リー チン−フイ
Qi P Li
ピー.リ キ
Qiru Zhou
ズー キル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Publication of JPH1173195A publication Critical patent/JPH1173195A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Abstract

(57)【要約】 【課題】 可能性のある多数の人間のそれぞれに対する
訓練プロセスの実施のために時間および労力の多大な投
資を必要とすることのない話者認証実行方法を実現す
る。 【解決手段】 話者によって話された音声発声の特徴
を、少なくとも1つの話者独立音声モデル列と比較す
る。このような音声モデル列のうちの1つは、話者の申
し出た識別(申し出識別)を有する個人に関連づけられ
た単語列を反映する音声に対応する。具体的には、音声
モデル列は、関連する単語列の部分語転写(transcripti
on)に基づいて決定される。その後、申し出識別を有す
る個人に関連づけられた単語列を音声発声が実際にどの
くらい反映しているかの信頼性レベルを、前記比較に基
づいて決定する。例えば、申し出識別は、話者が主張し
た識別であり、主張される識別は、決定された信頼性レ
ベルに基づいて照合される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者認証の分野に
関し、特に、話者によって提供される発声に含まれる言
語情報内容に基づいて話者の識別を認証する方法に関す
る。
【0002】
【従来の技術】話者認証は、前に保存された情報を用い
た話者の音声のサンプルの分析に基づいて、話者の識別
を確認するプロセスである。定義により、話者照合(S
V(speaker verification))とは、未知の話者の識別
が、実際に、(通常は話者自身によって)主張された識
別と同一であるかどうかを確認するプロセスであり、一
方、話者識別(SID(speaker identification))と
は、未知の話者を、既知の話者群の特定のメンバとして
識別するプロセスである。
【0003】話者認証の応用には、例えば、電話、コン
ピュータネットワーク、データベース、銀行口座、クレ
ジットカード、自動預払機、建物あるいはオフィスの入
館などのアクセス制御がある。人間の音声に基づくその
人の識別の自動認証はユーザにとって非常に便利であ
り、さらに、一般に、例えば指紋分析のような他の多く
の生物測定学的方法よりも低コストで実装可能である。
これらの理由で、話者認証は、最近では例えば移動通信
および無線通信のアプリケーションで特に重要になって
いる。
【0004】従来、話者認証は、前に保存された情報に
基づいて行われている。この情報は、少なくとも一部
は、照合されるべき話者の特定の音声特性を表す。具体
的には、話者の発声から得られる音声信号を分析して、
その音声信号のいくつかの音響「特徴」を抽出した後、
これらの特徴を、同一人によって前に発声された音声
(好ましくは同じ単語あるいは句からなる)から抽出さ
れた対応する特徴と比較する。このような比較の結果に
基づいて、話者を識別し、あるいは、主張された識別を
確認する。特に、前に発声された音声サンプルを用い
て、音声「モデル」を生成する。このモデルは、例え
ば、当業者に周知の隠れマルコフモデル(HMM)のよ
うな確率モデルである。しかし、すべてのこのような従
来の話者認証システムで用いられている各モデルは、ひ
とりの人間の音声のみに基づいているため、必ず「話者
依存」モデルであることに特に注意すべきである。
【0005】話者依存音声モデルを生成するためには、
一般に、システムが識別の認証を行うことができるよう
になるべき各話者ごとに、音声モデル「訓練(トレーニ
ング)」プロセスを含む登録(エンロール)セッション
が必要となる。この訓練プロセスは、十分に強固なモデ
ルを生成する際に使用される複数の(反復された)訓練
発声を提供することを話者に要求する。具体的には、こ
れらの反復された訓練発声から音響特徴が抽出された
後、それらの特徴に基づいてモデルが構成される。最後
に、生成されたモデルはデータベースに記憶される。各
モデルには、そのモデルを訓練した個人の(既知の)識
別が関連づけられる。
【0006】可能性のあるすべての話者に対するモデル
が訓練された後、システムは通常の「試験(テスト)」
モードで用いることが可能となる。このモードでは、未
知の話者(すなわち、識別が確認あるいは照合されるべ
き話者)が、認証プロセスで用いられる試験発声を提供
する。具体的には、「一致」があるかどうかを判定する
ために、この試験発声から抽出された特徴が、前に訓練
された、話者依存モデルの特徴と比較される。特に、シ
ステムが話者照合を行うために使用される場合には、話
者はまず識別の主張を提供するので、識別される個人に
関連づけられたモデルのみを試験発声と比較すればよ
い。主張された識別は、その比較の結果に基づいて、受
容(すなわち、照合)あるいは拒否される。しかし、シ
ステムが話者識別に用いられる場合、複数の人間のそれ
ぞれに関連づけられたモデルが試験発声と比較された
後、話者は、これらの複数の比較の結果に基づいて、こ
れらの人間のうちの特定の一人であるとして識別される
(あるいは、識別されないとして拒否される)。
【0007】
【発明が解決しようとする課題】可能性のある多数の人
間のそれぞれに対する訓練プロセスの実施のために時間
および労力の多大な投資を必要とすることのない、話者
認証実行方法が利用可能であると有効である。
【0008】
【課題を解決するための手段】本発明によれば、従来技
術の話者認証システムとは異なり、話者認証は、話者認
証プロセスの前に、時間のかかる話者固有の登録(すな
わち、「訓練」)セッションを実行することを必要とせ
ずに、実行可能となる。特に、本発明の原理によれば、
話者の音声特性ではなく、話者の発声の言語情報内容を
用いて、話者の識別あるいは照合を行う。さらに、この
「言語情報照合」(VIV(verbal information verifi
cation))法は、与えられた話者に関連づけられた特定
の暗証句(pass-phrase)の強制復号に基づいて実行され
る。このようにして、「話者独立」モデルを用いること
により、可能性のある各システムユーザが個別に複雑な
訓練(すなわち、登録)セッションを実行する必要がな
くなる。
【0009】特に、本発明によれば、話者の申し出た識
別(以下「申し出識別」という。)を認証する方法およ
び装置が実現される。話者によって話された音声発声の
特徴を、少なくとも1つの話者独立音声モデル列と比較
する。このような音声モデル列のうちの1つは、申し出
識別を有する個人に関連づけられた単語列を反映する音
声に対応する。具体的には、音声モデル列は、関連する
単語列の部分語転写(transcription)に基づいて決定さ
れる。その後、申し出識別を有する個人に関連づけられ
た単語列を音声発声が実際にどのくらい反映しているか
の信頼性レベルを、前記比較に基づいて決定する。
【0010】本発明の一実施例によれば、申し出識別
は、話者が主張した識別であり、主張される識別は、決
定された信頼性レベルに基づいて照合される。別の実施
例によれば、複数の申し出識別がそれぞれ順に検査さ
れ、対応する複数の人間のうちの特定人として話者を識
別する。例えば、音声発声の特徴は、ケプストラル(す
なわち、周波数)領域のデータからなり、話者独立音声
モデルは、例えば、個々の音素を反映する隠れマルコフ
モデル(例えば、個々の音素の単音および異音モデルの
HMM)からなる。
【0011】
【発明の実施の形態】言語情報照合(VIV)法は、与
えられたデータプロファイルの内容に対して、話された
情報内容を照合することからなる(例えば、本願と同一
出願人による同日付けの特許出願(整理番号:9801
38)参照)。この内容としては、例えば、個人暗証句
や個人識別番号(PIN(personal identification num
ber))、出生地、母の旧姓、住所などのような情報があ
る。話された発声に含まれる言語情報は、その発声が、
目標内容と同一あるいはほとんど同一の情報を含むと判
定された場合に限り、特定人のデータプロファイル内容
と「一致」する。好ましくは、与えられた個人の識別を
認証するために一致しなければならない情報内容のうち
の少なくともいくつかは、その人自身しか普通は知らな
い「秘密」情報であるべきである。本発明によれば、言
語情報照合は、強制復号を用いて行われる。
【0012】本発明の実施例による強制復号を用いた言
語情報照合法の重要な応用例には、銀行、テレホンカー
ド、クレジットカード、給付金、およびその他の口座ア
クセスの場合のリモート話者認証がある。これらの場
合、本発明の実施例による強制復号を用いたVIVシス
テムは、話者によって話された個人情報に基づいて、主
張される識別を有する話者を受容するかそれとも拒絶す
るかを決定しなければならない。現在の非自動システム
では、例えば、ユーザから口座番号が提示された後、オ
ペレータが、例えばそのユーザの誕生日、住所、自宅電
話番号などのような個人情報の知識が要求される一連の
質問をすることによって、そのユーザの主張した識別を
確認する。ユーザは、自分の口座にアクセスすることが
できるためには、それらの質問に正しく応答する必要が
ある。同様にして、本発明の実施例による強制復号を用
いて実装された自動化された対話型VIVシステムは、
ユーザに対して1つあるいは複数の質問をすることが可
能である。このような質問は、例えば、従来の、テキス
トを音声に変換するシンセサイザ(テキスト−音声変換
シンセサイザ)によって生成される。そして、システム
は、ユーザが話す応答情報を自動的に受け取り確認する
ことができる。(なお、テキスト−音声変換シンセサイ
ザは当業者に周知である。)さらに、本発明の原理によ
れば、このような応用例は、従来技術の話者認証法で要
求される話者依存音声モデルを訓練することを必要とせ
ずに、実現可能である。
【0013】本発明の実施例を理解するために、上記の
「従来の技術」のセクションで説明した従来技術のシス
テムについて、まず説明する。図1に、話者依存音声モ
デルを用いて、主張される識別を照合するような、話者
認証を実行する従来技術のシステムを示す。図1のシス
テムの動作時には、実行される2種類のセッションがあ
る。それらは、登録セッションおよび試験セッションで
ある。
【0014】登録セッションでは、識別(例えば、口座
番号)が話者に割り当てられ、その話者は、HMM訓練
モジュール11から、暗証句(例えば、連続する数字列
あるいは句)を話すよう要求される。(図1に示した例
示的な登録セッションでは、「開けゴマ」という暗証句
が用いられている。)次に、システムは、話者に対し
て、暗証句を数回繰り返すよう要求し、話者依存隠れマ
ルコフモデル(HMM)が、HMM訓練モジュール11
によって、複数の登録発声に基づいて形成される。HM
Mは、一般に、ケプストラル(すなわち、周波数領域
の)データのような特徴に基づいて形成される。この特
徴は、登録(すなわち、訓練)発声から抽出されたもの
である。話者依存HMMはデータベース12に記憶さ
れ、与えられた識別(例えば、口座番号)に関連づけら
れる。なお、各(可能性のある)話者ごとに別個の登録
セッションを実行しなければならない。すなわち、識別
を照合することができるようにするためには、可能性の
あるシステムの各ユーザが実行しなければならない。
【0015】試験セッション(これは、必ず同じ個人に
よって実行された登録セッションの後に実行されなけれ
ばならない)では、話者によって識別の主張がなされ、
これに応答して、話者照合器13は、話者に対して、適
当な暗証句を発声するよう要求する。話者の試験発声
は、前に訓練された話者依存HMMと(話者照合器13
によって)比較される。このHMMは、データベースに
記憶され、主張される識別に関連づけられたものであ
る。話者照合器13は、一致評点(試験発声を与えられ
たHMMと比較することにより生成される)が所定のし
きい値を超えた場合、話者は、主張された識別を有する
ものとして受容される。そうでない場合、話者の主張す
る識別は拒絶される。
【0016】なお、暗証句は話者依存とすることもそう
でないことも可能である。すなわち、各話者(すなわ
ち、システムユーザ)は、それぞれに関連づけられた個
別の暗証句を有することも可能であり、あるいは、すべ
てのユーザが同一の暗証句を発声するよう要求すること
も可能である。前者の場合、各話者は、自分の暗証句を
選択することが許される。この暗証句は、秘密(すなわ
ち、話者自身のみが知っている)とすることもそうでな
いことも可能である。明らかに、システムの認証精度
は、暗証句が実際に相異なる場合のほうが高いことが期
待される。しかし、いずれの場合でも、(少なくとも)
個々の話者の音声特性が、話者どうしを区別するために
用いられている。
【0017】上記の説明および図面から分かるように、
図1の従来技術のシステムは、話者照合を実行する。し
かし、同様の従来技術のアプローチ(すなわち、話者依
存HMMを用いたアプローチ)を同様に用いて、代わり
に話者識別を実行することも可能である。その場合、特
に、話者は、試験セッション中に明示的な識別主張をし
ない。むしろ、話者照合器13は、話者の試験発声と、
可能性のある話者に対してデータベース12に記憶さ
れている前に訓練された話者依存HMMとの比較を行
う。明らかに、このような話者識別法は、話者を多数の
話者から識別する必要のあるアプリケーションでは実用
的ではない。
【0018】図2に、言語情報照合法を用いて話者照合
を行うシステムを示す。図2のシステムは、従来の自動
音声認識サブシステムを用いた言語情報照合を使用し
て、話者照合を行う。なお、図2のシステムには、試験
セッションの動作のみを示している(これは、図3の例
示的なシステムでも同様である)。言語情報照合法を用
いた話者認証システムは、各個人の識別を、その人に関
連づけられた情報(例えば、個人の暗証句あるいは個人
識別番号(すなわちPIN)、出生地、母の旧姓、住所
など)のセットからなるプロファイルと関連づけること
しか必要としない。このプロファイル情報およびそれと
特定の個人との対応関係が、試験セッション中に検索す
るためにデータベースに記憶される。例えば、図2のシ
ステムのデータベース22および図3のシステムのデー
タベース32はこの目的のために設けられる。
【0019】図2のシステムの試験セッションは、話者
による識別主張によって開始される。その後、自動音声
認識器21は、話者に対して、適当な暗証句を発声する
よう要求し、その話者の暗証発声は、通常のようにして
自動音声認識器21によって処理され、認識された句が
生成される。なお、特に、自動音声認識器21は、すべ
て従来の方法で、話者独立音声モデルのセットに基づい
て、話者独立音声認識を実行する。(話者独立音声モデ
ルは、例えば、HMMからなり、あるいは、テンプレー
トまたは人工ニューラルネットワークからなる。これら
はそれぞれ当業者に周知である。)例えば、自動音声認
識器21は、試験発声からケプストラル(すなわち、周
波数領域の)データのような特徴を抽出した後、抽出し
た特徴データを、話者独立HMMで表現される確率的特
徴データと比較するために用いる。(ケプストラル特徴
に基づく話者独立自動音声認識は当業者に周知であ
る。)図2および図3に示した例示的な試験セッション
ではいずれも、供給される(そして認識される)暗証発
声は「マレーヒル(Murray Hill)」である。これは、米
国ニュージャージー州にある町の名前であり、例えば、
話者の郷里であり、あるいは、特に、話者に対して郷里
を言うよう求める質問に応答して発声されたものであ
る。
【0020】発声された句が自動音声認識器21によっ
て認識された後、図2のシステムは、認識された句が、
主張された識別を有する個人に関連づけられた対応する
情報内容と整合する(すなわち、「一致する」)かどう
かを判定する。特に、テキスト比較器23は、データベ
ース22から、主張された識別を有する個人のプロファ
イルのうち、供給された特定の発声に関係する(すなわ
ち、話者に対してなされた特定の質問に関係する)特定
部分を検索する。図2に示した例示的な試験セッション
では、「マレーヒル」というテキストがデータベース2
2から検索され、認識された句のテキスト表現(「マレ
ーヒル」)がこれに一致する。この場合、完全な一致が
得られるため、図2の例示的なシステムによって、話者
は、実際に、主張された識別を有する個人であると結論
される。
【0021】上記の説明および図面から分かるように、
図2のシステムは話者照合を行う。しかし、当業者には
明らかなように、同じアプローチ(すなわち、話者独立
自動音声認識およびテキスト比較を用いるもの)をほと
んど同様に用いて、代わりに話者識別を行うことも可能
である。その場合、特に、話者は、試験セッション中に
明示的な識別主張をしない。むしろ、テキスト比較器2
3は、認識された句のテキスト表現と、可能性のある
話者ごとにデータベース22に記憶されている対応する
(例えば、話者に対してなされた特定の質問に基づい
て)テキスト情報との比較を行う。その結果、可能性の
ある話者のうち最良一致の話者の識別が実際の話者とし
て識別される。明らかに、このような話者識別法は、比
較的少人数の話者のうちから話者を識別するよう名アプ
リケーションでは非常に実用的である。
【0022】理解されるように、特に、(話者識別では
なく)話者照合の目的では、図2および上記の説明のシ
ステムによって用いられるアプローチは、プロファイル
内の情報を、最大限効果的には利用していない。その理
由は、行われる話者認識(例えば、自動音声認識器21
によって)は、発声の内容が、主張された識別を有する
個人のプロファイル内の対応する情報と一致すると期待
されるという事実を考慮していないためである。換言す
れば、与えられた発声が既知の情報と一致するかどうか
ということしか問題とされていない。音声発声照合(音
声発声を、既知のあるいは期待される語または句と照合
するプロセス)は、「ブラインド」音声認識(例えば、
発声を、すべての可能な語あるいは部分語(例えば音
素)の列と比較することによって、話された語または句
すべての語または句のうちのいずれかであると識別
(すなわち認識)するプロセス)より効果的であること
は周知である。
【0023】図3に、本発明の実施例に従って、言語情
報照合法を用いて話者照合を行う例示的なシステムを示
す。この第2の例示的なシステムでは、個人のプロファ
イルに記憶される情報は、図2のシステムの場合よりも
効果的に用いられる。特に、図3の例示的なシステム
は、本発明による強制復号を用いた言語情報照合法を、
それに発声照合法を適応させることによって実現する。
(発声照合法は当業者に周知である。これは、従来、認
識された語あるいは句の信頼性レベルを高めることによ
って、自動音声認識システムの性能を改善するために用
いられている。特に、これは、キーワードスポッティン
グおよび非キーワード拒否の問題に適用されている。具
体的には、認識器がまず、話された語あるいは句を識別
した後、発声照合サブシステムが、識別された語あるい
は句に対するモデルデータに対して直接その発声の再評
価を行うことにより、認識器の最初の判定の精度を確認
し、あるいは、それを却下する。もちろん、発声照合法
はこれまで、話者認証の場合には全く用いられたことが
ない。)
【0024】具体的には、図3の例示的なシステムは、
個人のプロファイル内のテキストの部分語転写(すなわ
ち、既知の正答)を用いて、試験発声を復号する。この
発声の復号法を「強制復号」といい、この方法は発声照
合の分野の当業者には周知である。特に、試験発声の強
制復号は、その発声に対する部分語セグメンテーション
境界を与える。その後、この境界に基づいて、発声を、
部分語(例えば単音)の期待される列と照合して、単音
尤度評点を生成する。また、この発声を、反モデル(当
業者に周知)の列とも照合し、反尤度評点を生成する。
(部分語のモデルおよび反モデルは例えばHMMからな
る。しかし、これらはテンプレートあるいは人工ニュー
ラルネットワークからなることも可能である。これらは
それぞれ当業者に周知である。)最後に、図3の例示的
なシステムは、仮説検定法を適用して、試験発声を受容
するかそれとも拒否するかを判定する。(なお、ここで
用いられる仮説検定法は、例えば、発声照合に用いられ
るものに基づき、従ってこれは当業者に周知である。)
【0025】具体的に、図3およびそこに示された例示
的なシステムの動作について説明する。まず、識別主張
がシステムに対してなされる。次に、強制復号モジュー
ル31は、主張された識別を有する個人のプロファイル
についてデータベース32に記憶されている暗証句に対
する単音/部分語転写Siに基づいて試験発声を復号す
るように動作する。さらに、話者独立単音モデルλi
列(この列は、データベース32から検索された単音転
写に対応する)が、復号を実行する際に使用するために
強制復号モジュール31に供給される。(列λiを生成
するもとになる話者独立単音モデルのセットは、例え
ば、一定のHMMのセットからなり、言語の各単音ごと
に1つのHMMからなる。)例えば、強制復号は、当業
者に周知のビタビアルゴリズムを用いて実行される。強
制復号の結果、対応する目標尤度P(Xi|λi)の列が
生成される。各尤度は、モデルλiのうちの1つが、試
験発声のうちの対応する部分に一致する度合いを表す。
【0026】図3の例示的なシステムの性能を改善する
ため、仮説検定プロセスにおいて、反モデル(当業者に
周知)も用いる。具体的には、強制復号モジュール31
は、判定された単音境界を反尤度計算モジュール33に
供給する。反尤度計算モジュール33は、データベース
32から検索された単音転写に対応する反モデル(すな
わち反HMM)の列、および、供給された単音境界に基
づいて、対応する反尤度P(Xi|λi)の列を生成す
る。各反尤度は、反モデルλiのうちの1つが、試験発
声のうちの対応する部分に一致する度合いを表す。(当
業者に周知のように、与えられた部分語モデルに対応す
る反モデルは、その部分語と非常に混同しやすい部分語
のセットのデータを用いることによって訓練されること
が可能である。)
【0027】図3の例示的なシステムの動作の最終ステ
ップとして、信頼性尺度モジュール34は、目標尤度評
点の列、および、反尤度評点の列を用いて、主張された
識別を有する個人に関連づけられた暗証句が、実際に、
試験発声の句である全信頼性尺度を判定する。この全信
頼性尺度は、当業者には明らかないくつかの方法のうち
のいずれによって計算することも可能であり、また、同
様に、全信頼性尺度が与えられると、主張された識別
は、それに基づいて、同じく当業者に周知のいくつかの
方法によって、受容あるいは拒否される。以下の説明で
は、全信頼性尺度を計算し、主張された識別を受容する
かそれとも拒否するかを判定する少なくとも1つの例示
的な方法を提示することにする。
【0028】セグメント化された部分語に対する仮説検
定中に、信頼性評点が計算される。発声照合を用いる従
来技術のシステムではいくつかの信頼性尺度が用いられ
ているが、本発明の一実施例では、少なくとも2つの理
由から、「正規化信頼性尺度」が有効である。第1に、
通常の(すなわち、正規化されていない)信頼性尺度は
大きいダイナミックレンジを有する。本発明の応用例で
は、しきい値を容易に決定することができるように、安
定な数値範囲を有する信頼性尺度を使用するのが有利で
ある。第2に、話者認証システムでは、その個々の応用
例に関係する設計仕様に基づいてしきい値を調節可能で
あることが有利である。
【0029】ここで説明する例示的な正規化信頼性尺度
は、2つの評点に基づく。第1段階で、各部分語の受容
または拒否に対する部分語評点を評価する。次に、第2
段階で、受容可能な部分語の数に基づいて発声評点を計
算する。
【0030】具体的には、当業者に周知の仮説検定にお
ける「変数による検査」の概念に従って、観測される音
声セグメントOnにおいて復号された部分語nに対する
信頼性尺度を次のように定義する。
【数1】 ただし、λn tおよびλn aは、それぞれ、部分語単位nに
対応する目標モデルおよび反モデルであり、P(・)
は、与えられたモデルに一致する与えられた観測値の尤
度である(log P(On|λn t)>0と仮定す
る)。このように、この部分語信頼性評点は、目標評点
と反モデル評点の差を目標評点で割った値を測る。目標
評点が反モデル評点より大きい場合に限りCn>0であ
る。Cnがなるべく1に近いことが理想である。
【0031】次に、N個の部分語を含む発声に対する
「正規化信頼性尺度」を次のように定義する。
【数2】 ただし、
【数3】 であり、θは部分語しきい値である。これは、すべての
部分語に共通のしきい値とすることも、部分語ごとに固
有とすることも可能である。いずれの場合でも、正規化
信頼性尺度Mは、一定の範囲0≦M≦1に入る。なお、
部分語は、その部分語信頼性評点Cnが、その部分語の
しきい値θ以上である場合に限り、受容され、発声信頼
性尺度に寄与する。このように、Mは、発声中の「受容
可能な」部分語の割合を測る統計量である。例えば、M
=0.8は、発声中の部分語の80パーセントが受容可
能であることを意味する。このようにして、発声しきい
値は、システムの性能および強固さに対して与えられた
仕様のセットに基づいて決定することができる。
【0032】発声評点が求められた後、発声を拒否する
かそれとも受容するかが次のようにして決定される。
【数4】 ただし、MiおよびTiは、発声iに対応する信頼性評点
およびしきい値である。主張された識別を受容するかそ
れとも拒否するかの決定を複数の発声(すなわち、複数
の暗証句)に基づいて行うシステムの場合、1つのグロ
ーバルしきい値(すなわち、T=T1=・・・=Ti)、
あるいは、複数のしきい値(すなわち、T≠T1≠・・
・≠Ti)のいずれを用いることも可能である。しきい
値は、コンテクスト(すなわち、情報分野)依存(CD
(context dependent))とすることも、コンテクスト独
立(CI(context independent))とすることも可能で
ある。また、しきい値は、話者依存(SD(speaker dep
endent))とすることも、話者独立(SI(speaker inde
pendent))とすることも可能である。
【0033】強固な照合のためには、複数質問試行に対
して2つのグローバルしきい値を次のように用いると有
効である。
【数5】 ただし、TlowおよびThighは、Tlow<Thighとなる2
つのしきい値である。式(5)は、Tlowは1回の照合
試行において1度しか使えないことを意味する。従っ
て、話者が、すべての発声(すなわち、いくつかの暗証
句)の結果、かなり低い評点となるのが1度だけである
場合、その話者は、照合試行全体には合格する可能性が
ある。これは特に、雑音の多い環境の場合や、話者が一
貫性をもって話さないことがある場合に有用である。
【0034】本発明による言語情報照合法を用いた例示
的な話者認証システムの性能をさらに改善するために
は、話者およびコンテクストの両方に依存したしきい値
を用いることが可能である。誤拒否リスクを縮小するに
は、与えられた話者の発声iに対するしきい値の上限を
次のように選択することができる。 ti=min{Mi,j}, j=1,...,J (6) ただし、Mi,jは、j番目の試行での発声iに対する信
頼性評点であり、Jは、同じコンテクスト発声iでの話
者の総試行数である。音声、チャネル、および環境の変
化により、同じ話者が、同じコンテクスト発声でも、相
異なる評点を有することがある。そのため、「発声許容
区間」τを次のように定義する。 Ti=ti−τ (7) ただし、tiは式(6)で定義され、0≦τ<tiであ
り、Tiは式(4)のCD発声しきい値である。許容区
間を適用することによって、システムは、同じコンテク
ストで発声評点Miが前より低い場合であっても、話者
を受容する可能性がある。例えば、i番目の質問に対す
る与えられた話者の回答の最小信頼性尺度がti=0.
9であると仮定する。本発明による言語情報照合法を用
いた例示的な話者認証システムがτ=0.06%で設計
されている場合、Ti=0.9−0.06=0.84と
なる。これは、この話者の主張する識別は、発声iの部
分語の84%が受容可能である限り、受容される可能性
があることを意味する。
【0035】システム評価において、τは、保証された
性能区間として、誤り率とともに報告されることが可能
である。他方、システム設計においては、τは、与えら
れたシステム仕様のセットに基づいてしきい値を決定す
るために用いられる。例えば、銀行認証システムは、高
いセキュリティレベルで低い誤受容率を保証するため
に、小さいτの値を必要とするが、ボイスメールシステ
ムでは、ユーザフレンドリなセキュリティアクセスのた
めに、大きいτの値を用いて誤拒否率を小さくするほう
が好ましい。
【0036】本発明による強制復号を用いた言語情報照
合による話者認証システムの一実施例では、システム
は、新規ユーザに対して式(5)によるSIしきい値を
適用し、式(6)によるしきい値が決定されると、SD
しきい値に切り替わる。このようなSDしきい値は、例
えば、ユーザ認証アプリケーションごとに、クレジット
カードや電話カードに記憶させることが可能である。
【0037】上記の説明および図面から分かるように、
図3の例示的なシステムは話者照合を行う。しかし、当
業者には明らかなように、同じ本発明のアプローチ(す
なわち、話者独立の音素モデル、プロファイル情報の単
音/部分語転写、および試験発声の強制復号を用いたも
の)を用いて、ほとんど同様にして、代わりに話者識別
を行うことも可能である。その場合、特に、話者は、試
験セッション中に明示的な識別主張をしない。むしろ、
強制復号モジュール31は、試験発声の強制復号を、可
能性のある話者に対してデータベース22に記憶され
ている対応する(例えば、話者に対してなされた特定の
質問に基づく)転写のそれぞれに基づいて行い、信頼性
尺度モジュール34は、それらの可能性のある各話者に
対する評点を生成する。こうして、最良の評点を生じた
話者の識別が実際の話者のものとして識別される。明ら
かに、このような話者識別法は、話者を比較的少数の話
者から識別する必要のあるアプリケーションで最も実用
的である。
【0038】なお、より強固なシステムにするために
は、図3の例示的なシステムは、話者に対して複数の質
問をするようにし、例えば、それに応答して提供される
すべての発声が、主張された識別を有する個人のプロフ
ァイル内の対応する情報に一致するようにすることが可
能である。そうでなければ、与えられた個人(そのプロ
ファイルはデータベースに含まれている)について提示
された単一の質問に対する回答を知っている人が、詐称
者としてふるまい、図2のシステムが、主張された本人
であると信じるように欺くことができてしまう。複数の
質問を用いることによって、システムはさらに強固にな
る。主張された識別を有する本人以外の人がすべての質
問に対する回答を知っている可能性は少ないからであ
る。もちろん、試験セッションをあまりに長くしないこ
とも有効である。1つのアプローチは、可能な多数(例
えば6個)の質問のセットからランダムに選択した少数
(例えば3個)の質問をするというものである。この場
合、すべての質問に対する回答はデータベース内の個人
のプロファイル内に記憶される。
【0039】より強固なシステムにするための別のアプ
ローチは、動的に変化するプロファイル情報を設けるこ
とである。例えば、個人のアクセスプロファイルは、最
終アクセス日を含むように更新することが可能である。
その場合、与えられた個人が続けてアクセスしようとす
るとき、その本人のみが最終アクセス日を知っているは
ずであると期待され、その日付を提示するよう求められ
る。本発明の原理による話者認証システムのセキュリテ
ィに対する強固さを追加するその他の方法も当業者には
明らかである。
【0040】説明を明確にするため、本発明の実施例
は、個別の機能ブロックあるいはモジュールからなるも
のとして説明した。これらのブロックが表す機能は、共
用または専用のハードウェアを用いて実現される。ハー
ドウェアには、ソフトウェアを実行可能なハードウェア
が含まれるが、それに限定されるものではない。例え
ば、ここで説明したモジュールの機能は、単一の共用プ
ロセッサによって提供されることも、複数のプロセッサ
によって提供されることも可能である。さらに、ここで
の「プロセッサ」という用語の使用は、ソフトウェアを
実行可能なハードウェアのみを指すものと解釈してはな
らない。実施例は、ルーセント・テクノロジーズ社のD
SP16あるいはDSP32Cのようなディジタル信号
プロセッサ(DSP)ハードウェア、説明した動作を実
行するソフトウェアを記憶するための読み出し専用メモ
リ(ROM)、および、DSPの結果を記憶するための
ランダムアクセスメモリ(RAM)からなることが可能
である。超大規模集積(VLSI)ハードウェア実施例
や、汎用DSP回路とカスタムVLSI回路の組合せも
可能である。これらの実施例のいずれも、ここで用いた
「ブロック」、「モジュール」、あるいは「プロセッ
サ」という用語の意味に含まれる。
【0041】
【発明の効果】以上述べたごとく、本発明によれば、可
能性のある多数の人間のそれぞれに対する訓練プロセス
の実施のために時間および労力の多大な投資を必要とす
ることのない、話者認証実行方法が実現される。
【図面の簡単な説明】
【図1】話者依存音声モデルを用いて、主張される識別
を照合するような、話者認証を実行する従来技術のシス
テムの図である。
【図2】言語情報照合を用いて話者照合を行うシステム
の図である。
【図3】本発明の実施例に従って、強制復号を用いた言
語情報照合により話者照合を行う例示的なシステムの図
である。
【符号の説明】
11 HMM訓練モジュール 12 データベース 13 話者照合器 21 自動音声認識器 22 データベース 23 テキスト比較器 31 強制復号モジュール 32 データベース 33 反尤度計算モジュール 34 信頼性尺度モジュール
フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A. (72)発明者 チン−フイ リー アメリカ合衆国,07974 ニュージャージ ー,ニュー プロヴィデンス,ラニーメデ パークウェイ 118 (72)発明者 キ ピー.リ アメリカ合衆国,07974 ニュージャージ ー,ニュー プロヴィデンス,ラニーメデ パークウェイ 225 (72)発明者 キル ズー アメリカ合衆国,07076 ニュージャージ ー,スコッチ プレインズ,パイン スト リート 558

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 話者の申し出識別を認証する方法におい
    て、 前記話者によって話された音声発声の特徴を、1つ以上
    の話者独立音声モデルからなる少なくとも1つの音声モ
    デル系列と比較する比較ステップと、 前記比較に基づいて、前記音声発声が、前記申し出識別
    を有する個人に関連づけられた1つ以上の単語からなる
    単語系列を反映する信頼性レベルを決定する決定ステッ
    プとからなり、 前記音声モデル系列のうちの1つの音声モデル系列は、
    前記申し出識別を有する個人に関連づけられた単語系列
    を反映する音声に対応し、該1つの音声モデル系列は、
    該単語系列の部分語転写に基づいて決定され、該部分語
    転写は1つ以上の部分語からなる部分語系列からなるこ
    とを特徴とする、話者の申し出識別を認証する方法。
  2. 【請求項2】 前記申し出識別は、前記話者の識別であ
    ると主張された識別であることを特徴とする請求項1に
    記載の方法。
  3. 【請求項3】 識別の主張は前記話者によってなされた
    ものであることを特徴とする請求項2に記載の方法。
  4. 【請求項4】 前記話者から前記識別の主張を受け取る
    ステップをさらに有することを特徴とする請求項3に記
    載の方法。
  5. 【請求項5】 決定された信頼性レベルに基づいて前記
    話者の主張された識別を照合するステップをさらに有す
    ることを特徴とする請求項4に記載の方法。
  6. 【請求項6】 前記申し出識別は、可能性のある複数の
    識別のうちの1つであり、それぞれの可能性のある識別
    は、該可能性のある識別を有する対応する個人に関連づ
    けられた単語系列が対応していることを特徴とする請求
    項1に記載の方法。
  7. 【請求項7】 決定された信頼性レベルに基づいて、前
    記話者を、前記申し出識別を有するとして識別するステ
    ップをさらに有することを特徴とする請求項6に記載の
    方法。
  8. 【請求項8】 前記話者独立音声モデルは隠れマルコフ
    モデルを含むことを特徴とする請求項1に記載の方法。
  9. 【請求項9】 前記話者独立音声モデルは、個々の音素
    を反映する隠れマルコフモデルを含むことを特徴とする
    請求項8に記載の方法。
  10. 【請求項10】 前記音声発声の特徴はケプストラル領
    域データを含むことを特徴とする請求項1に記載の方
    法。
  11. 【請求項11】 前記比較ステップは、前記部分語系列
    に対応する1つ以上の目標尤度評点からなる目標尤度評
    点系列を生成し、該目標尤度評点は、前記部分語系列中
    の1つの部分語と、前記音声発声の対応する部分との一
    致の尤度を表すことを特徴とする請求項1に記載の方
    法。
  12. 【請求項12】 前記決定ステップは、1つ以上の信頼
    性評点からなる信頼性評点系列に基づいて、前記音声発
    声が、前記申し出識別を有する個人に関連づけられた単
    語系列を反映する信頼性レベルを決定し、各信頼性評点
    は、対応する目標尤度評点に基づくことを特徴とする請
    求項11に記載の方法。
  13. 【請求項13】 前記信頼性評点はさらに、1つ以上の
    反尤度評点からなる対応する反尤度評点系列に基づき、
    各反尤度評点は、前記部分語系列中の1つの部分語に対
    応する反モデルと、前記音声発声の対応する部分との一
    致の尤度を表すことを特徴とする請求項12に記載の方
    法。
  14. 【請求項14】 前記信頼性評点は、組み合わされて、
    前記部分語系列中で、前記音声発声の対応する部分に一
    致する可能性が高い部分を表す正規化信頼性尺度を生成
    することを特徴とする請求項13に記載の方法。
  15. 【請求項15】 前記正規化信頼性尺度に基づいて、前
    記申し出識別を、前記話者の識別であると認証するステ
    ップをさらに有することを特徴とする請求項14に記載
    の方法。
  16. 【請求項16】 前記比較ステップおよび前記決定ステ
    ップはそれぞれ、複数の音声発声、および、前記申し出
    識別を有する個人に関連づけられた対応する同数の単語
    系列に基づいて同数回実行されることにより、対応する
    同数の正規化信頼性尺度が生成され、 前記方法はさらに、 該正規化信頼性尺度と、対応する同数のしきい値との比
    較に基づいて、前記申し出識別を、前記話者の識別であ
    ると認証するステップを有することを特徴とする請求項
    14に記載の方法。
  17. 【請求項17】 話者の申し出識別を認証する装置にお
    いて、 前記話者によって話された音声発声の特徴を、1つ以上
    の話者独立音声モデルからなる少なくとも1つの音声モ
    デル系列と比較する比較器と、 前記比較に基づいて、前記音声発声が、前記申し出識別
    を有する個人に関連づけられた1つ以上の単語からなる
    単語系列を反映する信頼性レベルを決定するプロセッサ
    とからなり、 前記音声モデル系列のうちの1つの音声モデル系列は、
    前記申し出識別を有する個人に関連づけられた単語系列
    を反映する音声に対応し、該1つの音声モデル系列は、
    該単語系列の部分語転写に基づいて決定され、該部分語
    転写は1つ以上の部分語からなる部分語系列からなるこ
    とを特徴とする、話者の申し出識別を認証する装置。
  18. 【請求項18】 前記申し出識別は、前記話者の識別で
    あると主張された識別であることを特徴とする請求項1
    7に記載の装置。
  19. 【請求項19】 識別の主張は前記話者によってなされ
    たものであることを特徴とする請求項18に記載の装
    置。
  20. 【請求項20】 前記話者から前記識別の主張を受け取
    る受信器をさらに有することを特徴とする請求項19に
    記載の装置。
  21. 【請求項21】 決定された信頼性レベルに基づいて前
    記話者の主張された識別を照合する照合器をさらに有す
    ることを特徴とする請求項20に記載の装置。
  22. 【請求項22】 前記申し出識別は、可能性のある複数
    の識別のうちの1つであり、それぞれの可能性のある識
    別は、該可能性のある識別を有する対応する個人に関連
    づけられた単語系列が対応していることを特徴とする請
    求項17に記載の装置。
  23. 【請求項23】 決定された信頼性レベルに基づいて、
    前記話者を、前記申し出識別を有するとして識別する識
    別器をさらに有することを特徴とする請求項22に記載
    の装置。
  24. 【請求項24】 前記話者独立音声モデルは隠れマルコ
    フモデルを含むことを特徴とする請求項17に記載の装
    置。
  25. 【請求項25】 前記話者独立音声モデルは、個々の音
    素を反映する隠れマルコフモデルを含むことを特徴とす
    る請求項24に記載の装置。
  26. 【請求項26】 前記音声発声の特徴はケプストラル領
    域データを含むことを特徴とする請求項17に記載の装
    置。
  27. 【請求項27】 前記比較器は、前記部分語系列に対応
    する1つ以上の目標尤度評点からなる目標尤度評点系列
    を生成し、該目標尤度評点は、前記部分語系列中の1つ
    の部分語と、前記音声発声の対応する部分との一致の尤
    度を表すことを特徴とする請求項17に記載の装置。
  28. 【請求項28】 前記プロセッサは、1つ以上の信頼性
    評点からなる信頼性評点系列に基づいて、前記音声発声
    が、前記申し出識別を有する個人に関連づけられた単語
    系列を反映する信頼性レベルを決定し、各信頼性評点
    は、対応する目標尤度評点に基づくことを特徴とする請
    求項27に記載の装置。
  29. 【請求項29】 前記信頼性評点はさらに、1つ以上の
    反尤度評点からなる対応する反尤度評点系列に基づき、
    各反尤度評点は、前記部分語系列中の1つの部分語に対
    応する反モデルと、前記音声発声の対応する部分との一
    致の尤度を表すことを特徴とする請求項28に記載の装
    置。
  30. 【請求項30】 前記信頼性評点は、組み合わされて、
    前記部分語系列中で、前記音声発声の対応する部分に一
    致する可能性が高い部分を表す正規化信頼性尺度を生成
    することを特徴とする請求項29に記載の装置。
  31. 【請求項31】 前記正規化信頼性尺度に基づいて、前
    記申し出識別を、前記話者の識別であると認証するプロ
    セッサをさらに有することを特徴とする請求項30に記
    載の装置。
  32. 【請求項32】 前記比較器および前記プロセッサはそ
    れぞれ、複数の音声発声、および、前記申し出識別を有
    する個人に関連づけられた対応する同数の単語系列に同
    数回適用されることにより、対応する同数の正規化信頼
    性尺度が生成され、 前記装置はさらに、 該正規化信頼性尺度と、対応する同数のしきい値との比
    較に基づいて、前記申し出識別を、前記話者の識別であ
    ると認証するプロセッサを有することを特徴とする請求
    項30に記載の装置。
JP10202508A 1997-07-18 1998-07-17 話者の申し出識別を認証する方法 Pending JPH1173195A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US89717497A 1997-07-18 1997-07-18
US08/897174 1997-07-18

Publications (1)

Publication Number Publication Date
JPH1173195A true JPH1173195A (ja) 1999-03-16

Family

ID=25407461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10202508A Pending JPH1173195A (ja) 1997-07-18 1998-07-17 話者の申し出識別を認証する方法

Country Status (4)

Country Link
EP (1) EP0892388B1 (ja)
JP (1) JPH1173195A (ja)
CA (1) CA2239339C (ja)
DE (1) DE69800320T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019194713A (ja) * 2015-09-04 2019-11-07 グーグル エルエルシー 話者検証のためのニューラルネットワーク

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509270B1 (en) 1992-12-09 2009-03-24 Discovery Communications, Inc. Electronic Book having electronic commerce features
US7849393B1 (en) 1992-12-09 2010-12-07 Discovery Communications, Inc. Electronic book connection to world watch live
US7168084B1 (en) 1992-12-09 2007-01-23 Sedna Patent Services, Llc Method and apparatus for targeting virtual objects
US9286294B2 (en) 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
US5990927A (en) 1992-12-09 1999-11-23 Discovery Communications, Inc. Advanced set top terminal for cable television delivery systems
US7835989B1 (en) 1992-12-09 2010-11-16 Discovery Communications, Inc. Electronic book alternative delivery systems
US8073695B1 (en) 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
US7865567B1 (en) 1993-12-02 2011-01-04 Discovery Patent Holdings, Llc Virtual on-demand electronic book
US7861166B1 (en) 1993-12-02 2010-12-28 Discovery Patent Holding, Llc Resizing document pages to fit available hardware screens
US9053640B1 (en) 1993-12-02 2015-06-09 Adrea, LLC Interactive electronic book
US8095949B1 (en) 1993-12-02 2012-01-10 Adrea, LLC Electronic book with restricted access features
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
DE10000973A1 (de) * 2000-01-06 2001-07-12 Deutsche Telekom Ag Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem
US7400712B2 (en) 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US7793326B2 (en) 2001-08-03 2010-09-07 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator
US7908628B2 (en) 2001-08-03 2011-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content coding and formatting
DE10341305A1 (de) * 2003-09-05 2005-03-31 Daimlerchrysler Ag Intelligente Nutzeradaption bei Dialogsystemen
DE102004014416A1 (de) 2004-03-18 2005-10-06 Deutsche Telekom Ag Verfahren und System zur Personen/Sprecherverifikation über Kommunikationssysteme
WO2007130026A1 (en) * 2006-05-01 2007-11-15 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics
US20130006626A1 (en) * 2011-06-29 2013-01-03 International Business Machines Corporation Voice-based telecommunication login
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
CN110121737B (zh) * 2016-12-22 2022-08-02 日本电气株式会社 信息处理系统、顾客识别装置、信息处理方法和程序
US10438594B2 (en) * 2017-09-08 2019-10-08 Amazon Technologies, Inc. Administration of privileges by speech for voice assistant system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPM983094A0 (en) * 1994-12-02 1995-01-05 Australian National University, The Method for forming a cohort for use in identification of an individual

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019194713A (ja) * 2015-09-04 2019-11-07 グーグル エルエルシー 話者検証のためのニューラルネットワーク

Also Published As

Publication number Publication date
EP0892388B1 (en) 2000-09-20
CA2239339A1 (en) 1999-01-18
DE69800320D1 (de) 2000-10-26
CA2239339C (en) 2002-04-16
EP0892388A1 (en) 1999-01-20
DE69800320T2 (de) 2001-05-10

Similar Documents

Publication Publication Date Title
EP0892388B1 (en) Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
JP2991144B2 (ja) 話者認識装置
EP0647344B1 (en) Method for recognizing alphanumeric strings spoken over a telephone network
US6272463B1 (en) Multi-resolution system and method for speaker verification
JP3532346B2 (ja) ミックスチャ分解識別による話者検証方法と装置
Li et al. Verbal information verification
EP0953972A2 (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
JPH11507443A (ja) 話者確認システム
KR100406307B1 (ko) 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
Reynolds Automatic speaker recognition: Current approaches and future trends
Chakroun et al. Robust text-independent speaker recognition with short utterances using Gaussian mixture models
Debnath et al. Text-dependent speaker verification system: A review
JPH1173196A (ja) 話者の申し出識別を認証する方法
Ozaydin Design of a text independent speaker recognition system
Pandey et al. Multilingual speaker recognition using ANFIS
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
Li et al. Recent advancements in automatic speaker authentication
JP3849841B2 (ja) 話者認識装置
Li et al. Speaker verification using verbal information verification for automatic enrolment
Georgescu et al. GMM-UBM modeling for speaker recognition on a Romanian large speech corpora
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
Asha et al. Voice activated E-learning system for the visually impaired
JP3818063B2 (ja) 個人認証装置
Li et al. Speaker authentication