JP2002506241A - 話者照合の多重解像システム及び方法 - Google Patents

話者照合の多重解像システム及び方法

Info

Publication number
JP2002506241A
JP2002506241A JP2000534997A JP2000534997A JP2002506241A JP 2002506241 A JP2002506241 A JP 2002506241A JP 2000534997 A JP2000534997 A JP 2000534997A JP 2000534997 A JP2000534997 A JP 2000534997A JP 2002506241 A JP2002506241 A JP 2002506241A
Authority
JP
Japan
Prior art keywords
model
resolution
phrase
utterance
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000534997A
Other languages
English (en)
Inventor
ラペル、マルチン
Original Assignee
ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ filed Critical ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
Publication of JP2002506241A publication Critical patent/JP2002506241A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 少なくとも1回発生する発声の話者依存型モデルを生成するための方法が与えられる。この方法は、発声の各発生を解読する第1解像度を有する開始モデルを生成する段階と、開始モデルとは異なる解像度を有する少なくとも一つの付加的な話者仕様モデルを発声の全ての発生について生成する段階とを含む。

Description

【発明の詳細な説明】
【0001】技術分野 本発明は、ディジタル音声処理に関し、更に詳しくは、所定の話者の身元の照
合に関する。
【0002】背景技術 音声処理多重音響特性は、音域の大きさ、性別、年齢、方言、教育、特異な調
音器官の動作のような様々な要因に応じて個々人の間で大きく変動する。これら
の要因は、聞き手が話者の最初の数音節を聞いただけで、認識された話者の身元
をしばしば容易に判別できる個々の話者に特に関連している。所定の話者の身元
を判別及び照合できるような人工システムの開発に相当な努力が費やされてきた
【0003】 話者照合システムは、自由テキストパスフレーズシステムとテキスト依存シス
テムとに大別できる。各々の形式のシステムはその困難性を有する。自由テキス
トパスフレーズに適合させるためには、記憶及び整合処理を実際に様々な発声に
適合させ必要がある。この高い音響表音変動性は、信頼性の在る特性又はモデル
、話者とする目的で、長い訓練セッションを強いる。更に自由テキストシステム
は、発声器官の制約された動作に起因して話者に特有の共同ア−ティキュレーシ
ョン効果をモデル化する能力はない。更に、実際に様々な発声に適合させる能力
は、広範な範囲の話者、大きな語彙の範囲の中から弁別する能力と緊迫した関係
にあり、それに対する一層の試みは、信頼性のある単語の保存と、話者の中から
の弁別との双方を同時に与えることである。
【0004】 一方、テキスト依存システムは、多数の話者の間からの容易な弁別を可能とす
る。テキスト依存パスフレーズシステムにおいては、少なくとも一つの予め選択
されたパスフレーズが個々のユーザーの各々についてモデル化されている。モデ
ルは、パスフレーズの語彙及びシンタクティック成分のみならず個人に特有の音
響特性を反映させる。自由テキストシステムと対照的に、明瞭で短い発声(代表
的には、まさに数秒)がテキスト依存における訓練に妥当である。しかしながら
、許容可能なテキストの範囲が狭すぎるので、テキスト依存システムを発声の再
現に対して一層脆弱にしてしまう。テキスト依存システムは、固定パスフレーズ
システム、即ちパスフレーズが設計時間に規定されているシステムと、或いはオ
ンライン訓練手順を備えた自由選択パスフレーズシステムとに更に下位分類でき
る。自動音声認識の認知された技術に広く対応する特定の技術、即ち音響テンプ
レート、隠匿マーコフモデル(hidden Markov Models; HMM)、人工ニューラル ネットワークその他が用いられている。
【0005】 多重パスフレーズを有するテキスト吹き込みアプローチは再生録音に対する保
全性を高めるために導入された。各照合セッションでは、話者が、システムが話
者依存モデルを有している複数の単語の別個の疑似ランダム列を発声して照合を
試みる必要がある。従って要求された照合センテンスは予め予測することができ
ないので、認可されていない話者が認可ユーザーの音声を事前に録音することが
阻止される。しかしながら音声処理の技術の現状では、音声認識エンジンを備え
て、規定されたテキスト区画の所定の語彙を有するコンピュータシステムを想定
することが現実化している。特定の話者の全てのテキスト断片の事前録音がコン
ピュータに利用可能であるならば、音声認識エンジンは、無作為の吹き込み吹き
込みテキストを解読するのに使用でき、コンピュータプログラムは、対応する事
前に録音された音声区画を組み上げるのに使用できる。しかしながらテキスト吹
き込みシステムは、自由テキストシステムと同様の共同アーティキュレーション
問題を抱えるのが欠点である。
【0006】 コホート規格化(cohort normalization)と称される方法は、見込み比スコア リングを用いることにより、テキスト吹き込みシステムの幾つかの問題を部分的
に解決する。コホート規格化は、例えばJuang他への米国特許第5,675,7 04号、Gandhi他への米国特許第5,687,287号に説明されており、これ
らの開示事項は本明細書に参照により組み込まれている。見込み比スコアリング
は、同一の文脈が個別の認可話者のモデルに表されることを要求する。規格化ス
コアは個別の参照話者から得られているか、或いは確保される参照話者により生
成されたモデルにより得られる。要求する話者に音響的に近い真正な登録話者の
モデルは、スコア規格化のために用いられる。
【0007】 コホート規格化技術は、試行と試行との間の変動を部分的に補償する動的閾値
を与えて検査できるものとして示されてきた。特に、コホート規格スコアの使用
は訓練セッションと後続のテストセッションとの間のマイクロフォンの不整合に
ついての若干の拡がりを補償する。コホート規格化は自由テキストシステムに成
功裏に導入されてきており、ここでは完全な音響モデルが各々の共同話者から生
成されねばならない。コホート規格化を用いる話者照合システムは、本質的に言
語依存であるが、話者独立モデルと訓練が不充分な話者独立モデルとのモデル精
度の不整合のために、話者独立モデルは規格化目的のために一般的には用いられ
ていない。
【0008】 話者照合システムは話者指定サブ単語サイズ(例えば音素サイズ)ハイデンマ
ルコフモデル(hidden Markov models;HMMs)の使用による特徴付けられた入 力発声を有する。この試みは、システムが使用するキーテキストを各回ごとに変
更することにより、再生アタックの問題に取り組む。話者仕様サブ単語モデルは
話者独立モデルの話者適合により生成できる。話者独立サブ単語モデルは参照話
者の各々のために形成されている。これらのシステムは多大な訓練セッションを
再度必要とする。
【0009】 以下の参照文献は本発明に関係する。
【0010】 Higgins他 "Speaker Verification Using Randomized Phrasse Promptin
g", Digital Signal Processing, 1991年3月号、第89−106頁。
【0011】 A.E.Rosenberg他 "The Use of Cohort Normalized Scores for Speaker
Verification" ,Proc. 1992 ICSLP,1992年9月号、第599−602頁。
【0012】 F.K.Soong "A Vector Quantisation Approach to Speaker Verificat
ion", IEEE 1985、第387−390頁。
【0013】 A.E.Rosenberg他 "Sub-word Unit Talker Verification Using Hidd
en Markov Models", IEEE 1990、第269−272頁。
【0014】 T. Masui "Concatenated Phoneme Models for Text-variable Speaker Recognition", IEEE 1993、第2391−394頁。 J.Kuo他 "Speaker Set Identificat
ion Through Speaker Groupo Modeling", BAMFF '92'。
【0015】 上述の参照文献の各々はその全体が参照により本明細書に組み込まれている。
【0016】発明の概要 本発明の好適実施例によれば、少なくとも1回発生する発声の話者依存モデル
を生成するための方法を与える。本実施例においては、この方法は、発声の各発
生を解読する第1解像度を有する開始モデルを生成し、更に発声の全ての発生に
ついて開始モデルとは異なる解像度を有する少なくとも一つの付加的な話者仕様
モデルを生成する段階を含む。
【0017】 更なる実施例においては、開始モデルは話者独立である。また、更なる実施例
においては、少なくとも一つの付加的なモデルは開始モデルよりも高解像度を有
し、且つ初期モデルからブートストラップとされている。代替的実施例において
は、少なくとも一つの付加的なモデルは、開始モデルよりも低解像度を有し、且
つ開始モデルから導かれている。他の実施例においては、少なくとも一つのモデ
ルは、副音素(subphpneme)レベルに解像度を有する。更なる実施例によれば、新
たな発声に対する開始モデルと少なくとも一つの付加的なモデルとの整合の程度
の差を決定する付加的な段階が与えられており、(i)新たな発声の話者と(ii
)新たな発声の内容との少なくとも一方に基づいて弁別を可能とするようにされ
ている。付加的に実施例は、訓練及び使用セッションにおける不整合に対する強
さを高めるように開始モデルに対する整合を利用できる。
【0018】 本発明の他の実施例は、多重解像度モデルを生成する話者照合システムの方法
を含む。この方法は、発声の複数の発生を与えて各発生をコーディングする段階
と、各発生に対するコーディングを評点し、各発生を最も良く表す最良の評点を
有するコーディングを選択する段階と、選択されたコーディングに応じて各発生
を分節し、選択されたコーディングの各分節について各分節を最も良く表す全て
の発生の対応する分節の最良のコーディングを判別することにより、選択された
コーディングから第1解像度モデルを形成して、異なれば、選択されたコーディ
ングにおける対応する分節を置き換える段階と、発声内に存在する非音声音及び
雑音から発声の音声のみの内容を弁別するために第1解像度モデルから低解像度
モデルを形成する段階と、発声の音声のみの内容の推定のために低解像度モデル
に対して各発声を評点して、結果的な時間規格化発生評点を保存する段階と、第
1解像度モデルに対して各発生の音声のみの内容を再分節して、結果的な時間規
格化発生評点を保存する段階と、第1解像度モデルから高解像度モデルを形成し
、この高解像度モデルは話者仕様となる段階と、高解像度モデルに対して各発声
の音声のみの内容を再評点し、結果的な時間規格化発生評点を保存する段階とを
含む。
【0019】 更なる実施例においては、第1解像度モデルは話者独立型である。この少なく
とも一つのモデルは副音素レベルに解像度を有する。少なくとも一つのモデルは
ハイデンマクロフモデルとすることができ、コードブック、最も近い近隣のコー
ディングの完全検索、最大エントロピーコーディングまたは二進木コーディング
を用いてコード化できる。このような実施例は更に訓練及び使用セッションにお
ける不整合に対する強さを高めるように開始モデルに対する整合の利用を更に含
む。
【0020】 他の実施例は話者照合の方法を含む。この方法は、話者の発声を受け取り、こ
の発声を高解像度モデルによってデコーディングする段階と、状態対状態投影(s
tate to state projection) により低解像度モデルを形成する段階と、話者の
真正さの測定を与えるように二つのモデルの各々に対する発声の整合を対比する
段階とを含む。このような実施例においては、測定はファジィー論理を用いて決
定できる。
【0021】 本発明の実施例は多重解像度モデルを用いる話者照合の方法を含む。この方法
は、発声を受け取り、この発声について保存されたモデル情報を検索する段階と
、少なくとも一人の真正なユーザーについての解像度が異なる少なくとも二つの
モデルに対する発声のために評点のファジーセットを推定する段階と、発声の音
声のみの内容を選択するようにモデルの第1候補に対して発声を評点し、結果的
な時間規格化評点を保存する段階と、モデルの第2候補に対して発声の音声のみ
の内容を再分節し、結果的な時間規格化評点を保存する段階と、全ての推定され
たファジーセットに対して発声のファジー帰属関係関数を計算する段階と、真正
なユーザーに対して発声の整合の推定を与える包括的な帰属関係関数を得るよう
にファジー関数の異なる帰属関係値を組み合わせる段階とを含む。
【0022】 このような実施例においては、評点のファジーセットを推定する段階は、発声
の真正な話者についての高解像度モデルに対する比較と、高解像度モデルと低解
像度モデルとに対する真正な話者の試験発声の評点の差と、高解像度モデルと中
間解像度モデルに対する真正な話者の試験発声の評点の差と、中間解像度モデル
と低解像度モデルに対する真正な話者の試験発声の評点の差との少なくとも一つ
についての評点を含む。
【0023】 話者照合の方法は、複数の試みの各々について前述の段階を実行し、全ての試
みの結果を反映させるように包括的帰属関係関数を更新することも含む。
【0024】 本発明の実施例は、少なくとも一人の認可ユーザーを有する多重解像度モデル
話者照合システムを含む。このようなシステムは、高解像度単語モデルのデータ
ベースと、照合句ジェネレータと、照合句モデルジェネレータと、ユーザーアク
セスデバイスと、照合エンジンとを含む。高解像度単語モデルのデータベースは
、各々の認可ユーザーに関連した単語モデルを包含する。照合句ジェネレータは
、高解像度単語モデルのデータベースと交信し、ユーザーが特定の認可ユーザー
として照合されることを要求するときに照合句を生成し、照合句は、高解像度単
語モデルのデータベースにおけるモデルを有する少なくとも一つのキーワードと
、少なくとも一つの他の単語を包含する。照合句モデルジェネレータは照合句ジ
ェネレータと交信し、照合句の比較モデルを生成する。ユーザーアクセスデバイ
スは照合句ジェネレータと交信し、照合句をユーザーへ交信させ、ユーザーによ
り与えられる単語を有する発声された応答句を可能とする。照合エンジンはユー
ザーアクセスデバイス及び照合句モデルジェネレータと交信し、応答句が比較モ
デルと整合するときに、且つ少なくとも一つのキーワードについて、特定の認可
ユーザーに関連する高解像度単語モデルのデータベースにおけるモデルが応答句
における対応する単語の閾値距離内にあるときに、ユーザーを特定の認可ユーザ
ーとして照明する。
【0025】 更なる実施例において、システムは、照合エンジンに応答する耐合成比較器を
含んでもよく、これは応答句が自然な発生により生成されたかを決定するように
応答句を音響的に同時に且つ連続的に検査する。このような実施例においては、
照合エンジンによる特定の認可ユーザーとしてユーザーの照合は、応答句が自然
な発声により生成されたと決定されることを更に必要とする。更に、或いはこれ
に代えて、照合句における少なくとも一つの他の単語は、高解像度単語モデルの
データベースからの高解像度単語モデルを有してもよい。または、照合句におけ
る少なくとも一つの他の単語は、低解像度単語モデルのデータベースからの低解
像度単語モデルを有してもよい。ユーザーアクセスデバイスは、照合句をユーザ
ーへ交信させるテキスト対音声モジュール、またはユーザーにより与えられるべ
き応答を可能とする音声認識モジュールを含んでもよい。コンピュータネットワ
ークは、認可ユーザーへのネットワークアクセスを制限する目的で、このような
話者認識システムを含むことができる。
【0026】 他の実施例は、話者照合の方法を含み、この方法は、各認可ユーザーに関連し
た単語モデルを包含する高解像度単語モデルのデータベースを確立する段階と、
ユーザーが特定の認可ユーザーとして照合されることを要求するとき、高解像度
単語モデルのデータベースと交信する照合句ジェネレータにより照合句を生成し
、その照合句は、少なくとも一つのキーワードを包含し、このキーワードは高解
像度モデルのデータベースにおけるモデルと、少なくとも一つの他の単語とを有
する段階と、照合句ジェネレータと交信する照合句モデルジェネレータにより照
合句の比較モデルを生成する段階と、ユーザーに対する照合句を、ユーザーによ
り与えられるべき単語を有する発声された応答句を可能とする文法コンパイラに
交信するユーザーアクセスデバイスへ交信させる段階と、応答句が比較モデルと
整合するときに、且つ少なくとも一つのキーワードについて、特定の認可ユーザ
ーに関連する高解像度単語モデルのデータベースにおけるモデルが応答句におけ
る対応する単語の閾値距離内にあるときに、ユーザーを特定の認可ユーザーとし
て証明する段階とを含む。
【0027】 このような実施例においては、この方法は、照合エンジンと交信する耐合成比
較器により、応答句が自然な発生により生成されたかを決定するように応答句に
おける単語を音響的に同時に且つ連続的に比較し、特定の認可ユーザーとしての
ユーザーの照合は、応答句が自然な発声により生成されたと決定されることを更
に必要とする。照合句における少なくとも一つの他の単語は、高解像度単語モデ
ルのデータベースからの高解像度単語モデルを有してもよい。または、照合句に
おける少なくとも一つの他の単語は、低解像度単語モデルのデータベースからの
低解像度単語モデルを有してもよい。ユーザーアクセスデバイスは、照合句をユ
ーザーへ交信させるテキスト対音声モジュールを含んでもよい。ユーザーアクセ
スデバイスは、ユーザーにより与えられるべき応答を可能とする音声認識モジュ
ールを含んでもよい。コンピュータネットワークは、認可ユーザーへのネットワ
ークアクセスを制限する目的で、このような話者照合方法を採用できる。
【0028】 本発明は、添付図面に関連してなされる以下の説明を参照することにより、一
層容易に理解される。
【0029】好適実施例の詳細な説明 図1には、本発明の好適実施例により使用された論理フローが示されている。
先ず、ステップ101において、発声の多重発生が与えられている。代表的には
、パスワードまたはパスフレーズのようなシステム語彙単語について、話者はこ
の単語を3回発する。しかしながら、他の回数の発生も本発明の目的の範囲内で
ある。代表的な中間的解像度の開始包括的音声モデルによれば、段階102にお
いて発声の各発生がコード化される。この発声の開始音声モデルは、発声、沈黙
、非音声音の音声内容を含む。ステップ103において、各コーディングは発声
の各発生に対して評点される。3つの発生及び3つのコーディングを有する代表
例においては、ステップ103において9個の評点を得ることが可能である。し
かしながら代替的実施例においては、各コーディングについての評点をそれが解
読された発生に対する関係で計算することが可能である。その後、ステップ10
3の一部として、全ての発生を最もよく表すコーディングを示す最良の評点を有
するコーディングが選択される。
【0030】 ステップ104により、発声の各発生は選択されたコーディングによって分節
(segmented)されている。その後、ステップ105において、選択されたコーデ ィングの各分節について、全ての発生の対応する分節を最も良くコード化するコ
ーディングが識別され、それが異なるならば、識別されたコーディングが、選択
されたコーディングにおける分節に置き換えられる。これは分節ごとに基づいて
最適化された発生についての第1解像度モデルを生成する。しかしながらこのス
テップ104及び105は、性能を相当に高めるが、選択的であることが好まし
い。
【0031】 ステップ106においては、第1解像度モデルから導かれた第2低解像度モデ
ルが計算されている。この第2低解像度モデルは、後続のステップから明らかに
なるように音声内容と沈黙または非音声音との間の弁別を支援するためのもので
ある。ステップ107においては、各発生が第2低解像度モデルに対して評点さ
れて、音声のみの内容の推定が与えられ、音声のみの内容の時間規格化評点も保
存される。
【0032】 ステップ108において、ステップ107において発見された音声内容の各側
面において50ミリセコンドまでの自由度制限で各発生が再分節されるが、この
モデルはこのステップでは沈黙を含んでいるものの、非音声音は排除する。その
結果は音声のみの内容を反映して(ステップ105におけるよりも)一層正確で
あり、音声のみの内容の分節からもたらされる時間規格化評点が保存される。
【0033】 ステップ109において、話者仕様高解像度モデルは第1解像度モデルからブ
ーツトラップにより生成されている。この話者仕様高解像度モデルは発生の音声
のみの内容のコーディングのために用いられている。
【0034】 一つの代替的実施例は、コードブックを用いて高解像度モデルをコード化して
、保存要求を削減させる。結果的な高解像度モデルが次いで保存される。最も隣
接するコーディングの完全検索、最大エントロピーコーディング、二進木コーデ
ィングなどの様々な技術を用いてモデルコーディングを達成することが可能であ
る。ステップ110において、発生の音声のみの内容は高解像度モデルに対して
再評点されて、時間規格化評点が保存される。
【0035】 上述のステップは話者照合システム又はユーザー単語システムの何れにも好ま
しいが、ユーザー単語システムには評点の保存は不要である。好適実施例におい
ては、開始モデルは話者独立型として、副音素レベルで操作することができる。
【0036】 本発明の適切な実施例による訓練の後に、以下のように図2に示すステップに
より好適実施例は話者照合又はユーザー単語認識をも与える。ステップ201に
おいて、新たな発声がユーザーから受け取られて、発声についての保存モデル情
報が検索される。ステップ202において、評点のファジーセットが、(1)真
正な話者用の高解像度モデルに対する新たな発声の評点、(2)高解像度及び低
解像度モデルに対する真正な話者の試験発声の評点の差、(3)高解像度及び第
1解像度モデルの評点の差について推定される。代替的実施例において、ファジ
ーセットは第1解像度モデル及び低解像度モデルの評点の差を含むことができる
。代替的実施例において、ステップ202は図1に示す訓練手順の一部として実
行できる。
【0037】 ステップ203において、低解像度モデルに対する新たな発声の第1の評点付
けにより音声のみの内容を選択するように新たな発声が処理され、時間規格化評
点が保存される。ステップ204において、新たな発声の音声のみの内容が、ス
テップ203において発見された音声内容の各側面において50ミリセコンドま
での自由度制限で各発生が再分節され、音声のみのみの内容を(ステップ203
におけるよりも)一層正確に反映させるようにする。この音声のみの分節からも
たらされる時間規格化評点もステップ204において保存される。次いで、ステ
ップ205において、新たな発声の音声のみの内容が話者仕様高解像度モデルに
対して再評点されて、結果的な時間規格化評点が保存される。ステップ206に
おいて、新たな発声のファジー帰属関係関数が全ての推測されたファジーセット
に関して計算されて、ステップ207において、異なる帰属関係値が、あらたな
発声の整合の推測を与える包括的帰属関係関数を得るように組み合わされる。
【0038】 話者照合よりもむしろユーザー単語のための実施例においては、ファジーセッ
トの推測は不要であり、最も近い単語又は句(phrase)を選択するように時間規格
化を単純に用いる。しかしながら、話者照合のためのファジーセットの使用は整
合の度合いの向上された測定を与える価値あるツールを与える。このような試み
は多重試行情報の意味のある利用と、他の解析モデルにおける不明瞭な解釈を潜
在的にもたらす非常に複雑なデータの取り扱いとを可能とする。従って包括的フ
ァジー機能の使用は強力なツールである。好適実施例は、多数の試行に亘って整
合評点集計し、肯定的な照合のための良好な集計に依存する。この方式では多重
試行における詐称者は報われない。このような好適実施例において、発声の反復
は、真正なユーザーには有利であるが、詐称者には不利であることに留意された
い。
【0039】 本発明の他の好適実施例は、多重解像度モデルを用いて再生安全シェルに嵌め
込まれたテキスト吹き込み話者照合システムを含む。図3はこのような実施例の
論理フローを示し、図4はこのような実施例のシステムダイアグラムを示す。話
者の身分を確認する各回に、システムは話者へその身分と、高解像度モデル、例
えば話者依存型モデルが利用可能な幾つかの既に訓練したキーワードを含む付加
的な音声とを与えるように要請する。要請された音声は、中間解像度モデルから
低解像度モデル、例えば話者独立型モデルを利用できる幾つかの特別な単語をも
含む。ユーザー身分の照合決定はキーワードの高解像度モデル比較により制御さ
れているが、特別な単語の中間解像度から低解像度のモデルが認可されたユーザ
ー音声の録音再生または他の合成に対して検閲するように使用されている。
【0040】 初めに、新たなユーザーの各々はシステムにおいてエンロール(enroll)をしな
ければならない。訓練セッションは、ユーザーアクセスデバイス401を介して
ユーザーにより実行され、そのデバイス401はこの実施例においては例えば、
マイクロフォン、サウンドカード、スピーカーを有する適切にプログラムされた
コンピュータネットワークワークステーションとすることができる。訓練セッシ
ョンの間、ユーザーは、単語モデル及び/又は音素モデルのような補単語モデル
を含み得る高解像度モデル407のデーターベースを訓練する目的でパスワード
語彙409におけるキーワードの反復を実行する。更に好適実施例における訓練
は、付加的な完全音響高解像度モデルの更なる訓練を含んでもよく、そのモデル
も高解像度モデル407のデータベースに含めてもよい。この訓練は、完全音素
高解像度モデルの話者適合によるか、又はベクトル量子化(VQ)適合処理によ
るものとすることができる。
【0041】 初期エンロールメントモデル訓練セッションの後、話者照合システムの好適実
施例は、話者照合システムでエンロールをした認可ユーザーに対するコンピュー
タネットワークシステムヘのユーザーアクセスを制限するように使用できる。話
者照合セッションは、ユーザーアクセスデバイス401におけるユーザーがコン
ピュータシステムネットワーク419へアクセスすることを要求するときに開始
される。
【0042】 ステップ301において、照合エンジン403は照合句ジェネレータ405に
少なくとも一つの照合句を生成するように命じる。この少なくとも一つの照合句
は、パスワード語彙409から疑似乱数的に選択された少なくとも一つのキーワ
ードを含み、そのパスワード語彙409には、高解像度モデル407のデータベ
ースにおける対応するモデルがある。生成された照合句は少なくとも一つの特別
な単語を含み、その単語のモデルは、高解像度の全ての単語又は音素モデル40
7のデータベースか、或いは中間解像度−低解像度の全ての単語又は音素モデル
413のデータベースから生成されている。好適実施例においては、照合句ジェ
ネレータ405は、照合句生成における言語モデル及び文法を使用し、照合句の
再生又は合成を防ぐのに充分に高い複雑さを有する。照合句の音響実現はステッ
プ303においてテキスト対音声モジュール411によりユーザーへ出力される
【0043】 更に、照合句モデルジェネレータ416はステップ305において照合句41
5の比較モデルを生成し、このモデルは中間から低解像度、高解像度、または組
合せ形式とすることができる。このような多重解像度モデルは図1及び図2に関
連して上述した方式で生成してもよい。
【0044】 ステップ307において、話者が要請された入力応答を与え、この句を照合句
エンジン403がステップ309で照合句比較モデル415と比較する。このス
テップは、入力応答音声の単語列が照合句の単語列に整合することを保証して、
入力応答句が即座に且つ自然に生成されることを保証する。更に照合句比較モデ
ル415は、入力応答句と照合句比較モデル415との間の整合の近さを反映す
る全話者照合評点のための基準として使用してもよい。
【0045】 ステップ311において、照合エンジン403は、句比較モデル上の分節によ
り、または単語抽出(word-spotting)アルゴリズムの使用により高解像度キーワ ードを分離する。ステップ313において照合エンジン403は、分離されたキ
ーワードを高解像度モデル407のデータベースにおける該分離されたキーワー
ドの対応モデルと比較する。ステップ315においては、高解像度キーワードモ
デルも使用されて、入力応答句の文法が、照合句により指定された一連の正しい
キーワードを反映することを確認する。入力応答句におけるキーワードの高解像
度モデル407は認可ユーザーで既に訓練されており、従って照合句に埋め込ま
れたキーワードと入力応答句から抽出されたキーワードとの間の整合の近さの高
精度な指標が与えられる。ステップ309の全比較からの評点と、ステップ31
3及び315の高解像度比較とは、高信頼照合のために互いに完全に無矛盾でな
ければならない。
【0046】 好適実施例は耐合成比較器417も含み、これはステップ317において音声
入力、背景雑音、反響状態を連続的に耐合成検査を実行する。類似性検査もステ
ップ319において高解像度モデル単語と付加的な入力単語との間で実行され、
これはキーワードと付加的な音声入力単語との間の近似連続的検査と、照合パス
ワード及び特別な音声において実現された音響補助分節の類似性検査とを含む。
ステップ317の耐合成検査及びステップ319の同様な検査は、入力応答句が
、電子的に繋がれたものでもなく、或いは合成されたものでもなく、自然発生音
声からもたらされたものであるということを証明する。
【図面の簡単な説明】
【図1】 図1は本発明の好適実施例による論理フローを示す図である。
【図2】 図2は本発明の好適実施例による論理フローを示す図である。
【図3】 図3は本発明の好適実施例における多重解像度モデルを用いる再生安全話者照
合システムの論理フローを示す図である。
【図4】 図4は図3の方法を用いる話者照合システムのシステムダイアグラムである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),AU,CA,J P

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも1回発生する発声の話者依存モデルを生成するた
    めの方法であり、 a.発声の各発生を解読する第1解像度を有する開始モデルを生成する段階と
    、 b.開始モデルとは異なる解像度を有する少なくとも一つの付加的な話者仕様
    モデルを発声の全ての発生について生成する段階とを含む方法。
  2. 【請求項2】 請求項1記載の方法において、前記開始モデルが話者独立型
    である方法。
  3. 【請求項3】 請求項1記載の方法において、少なくとも一つの付加的なモ
    デルが、前記開始モデルから導かれており、且つ前記開始モデルよりも高い解像
    度を有する方法。
  4. 【請求項4】 請求項1記載の方法において、少なくとも一つの付加的なモ
    デルが、前記開始モデルから導かれており、且つ前記開始モデルよりも低い解像
    度を有する方法。
  5. 【請求項5】 請求項1記載の方法において、少なくとも一つのモデルが、
    副音素レベルに解像度を有する方法。
  6. 【請求項6】 請求項1記載の方法において、 新たな発声に対して前記開始モデルと少なくとも一つの付加的なモデルとの整
    合の程度の差を決定する段階を更に含み、(i)新たな発声の話者と(ii)新た
    な発声の内容との少なくとも一方に基づいて弁別を可能とする方法。
  7. 【請求項7】 請求項1記載の方法において、 訓練及び使用セッションにおける不整合に対する強さを高めるように前記開始
    モデルに対する整合を利用する段階を更に含む方法。
  8. 【請求項8】 多重解像度モデルを生成する話者照合システムの方法であり
    、 発声の複数の発生を与えて各発生をコーディングする段階と、 各発生に対するコーディングを評点し、各発生を最も良く表す最良の評点を有
    するコーディングを選択する段階と、 選択されたコーディングに応じて各発生を分節する段階と、 選択されたコーディングの各分節について各分節を最も良く表す全ての発生の
    対応する分節の最良のコーディングを判別することにより、選択されたコーディ
    ングから第1解像度モデルを形成して、異なれば、選択されたコーディングにお
    ける前記対応する分節を置き換える段階と、 発声内に存在する非音声音及び雑音から発声の音声のみの内容を弁別するため
    に第1解像度モデルから低解像度モデルを形成する段階と、 発声の音声のみの内容の推定のために低解像度モデルに対して各発声を評点し
    て、結果的な時間規格化発生評点を保存する段階と、 第1解像度モデルに対して各発生の音声のみの内容を再分節して、結果的な時
    間規格化発生評点を保存する段階と、 第1解像度モデルから高解像度モデルを形成し、この高解像度モデルは話者仕
    様となる段階と、 高解像度モデルに対して各発声の音声のみの内容を再評点し、結果的な時間規
    格化発生評点を保存する段階とを含む方法。
  9. 【請求項9】 請求項8記載の方法において、第1解像度モデルが話者独立
    型である方法。
  10. 【請求項10】 請求項8記載の方法において、前記モデルの少なくとも一
    つが、副音素レベルに解像度を有する方法。
  11. 【請求項11】 請求項8記載の方法において、前記モデルの少なくとも一
    つが、ハイデンマクロフモデルである方法。
  12. 【請求項12】 請求項8記載の方法において、前記モデルの少なくとも一
    つが、コードブック、最も近い近隣のコーディングの完全検索、最大エントロピ
    ーコーディングまたは二進木コーディングを用いてコード化されている方法。
  13. 【請求項13】 請求項8記載の方法において、 訓練及び使用セッションにおける不整合に対する強さを高めるように前記開始
    モデルに対する整合の利用を更に含む方法。
  14. 【請求項14】 話者照合の方法であって、 話者の発声を受け取り、この発声を高解像度モデルによってデコーディングす
    る段階と、 状態対状態投影により低解像度モデルを形成する段階と、 話者の真正さの測定を与えるように二つのモデルの各々に対する発声の整合を
    対比する段階とを含む方法。
  15. 【請求項15】 請求項14記載の方法において、前記測定が、ファジィー
    論理を用いて決定される方法。
  16. 【請求項16】 多重解像度モデルを用いる話者照合の方法であって、 発声を受け取り、この発声について保存されたモデル情報を検索する段階と、 少なくとも一人の真正なユーザーについての解像度が異なる少なくとも二つの
    モデルに対する発声のために評点のファジーセットを推定する段階と、 発声の音声のみの内容を選択するようにモデルの第1候補に対して発声を評点
    し、結果的な時間規格化評点を保存する段階と、 モデルの第2候補に対して発声の音声のみの内容を再分節し、結果的な時間規
    格化評点を保存する段階と、 全ての推定されたファジーセットに対して発声のファジー帰属関係関数を計算
    する段階と、 真正なユーザーに対して発声の整合の推定を与える包括的な帰属関係関数を得
    るようにファジー関数の異なる帰属関係値を組み合わせる段階とを含む方法。
  17. 【請求項17】 請求項16記載の方法において、評点のファジーセットを
    推定する段階が、 a.発声の真正な話者についての高解像度モデルに対する比較と、 b.高解像度モデルと低解像度モデルとに対する真正な話者の試験発声の評点
    の差と、 c.高解像度モデルと中間解像度モデルに対する真正な話者の試験発声の評点
    の差と、 d.中間解像度モデルと低解像度モデルに対する真正な話者の試験発声の評点
    の差とのうちの少なくとも一つについての評点を含む方法。
  18. 【請求項18】 話者照合の方法であって、複数の試行の各々について請求
    項16記載の段階を実行し、全ての試みの結果を反映させるように包括的帰属関
    係関数を更新する方法。
  19. 【請求項19】 少なくとも一人の認可ユーザーを有する多重解像度モデル
    話者照合システムであって、 各認可ユーザーに関連した単語モデルを包含する高解像度単語モデルのデータ
    ベースと、 この高解像度単語モデルのデータベースと交信し、ユーザーが特定の認可ユー
    ザーとして照合されることを要求するときに照合句を生成し、この照合句は、前
    記高解像度単語モデルのデータベースにおけるモデルを有する少なくとも一つの
    キーワードと、少なくとも一つの他の単語を包含する照合句ジェネレータと、 この照合句ジェネレータと交信し、前記照合句の比較モデルを生成する照合句
    モデルジェネレータと、 この照合句ジェネレータと交信し、照合句をユーザーへ交信させ、ユーザーに
    より与えられる単語を有する発声された応答句を可能とするユーザーアクセスデ
    バイスと、 このユーザーアクセスデバイス及び前記照合句モデルジェネレータと交信し、
    前記応答句が比較モデルと整合するときに、且つ少なくとも一つのキーワードに
    ついて、特定の認可ユーザーに関連する前記高解像度単語モデルのデータベース
    におけるモデルが前記応答句における対応する単語の閾値距離内にあるときに、
    ユーザーを特定の認可ユーザーとして証明する照合エンジンとを備えるシステム
  20. 【請求項20】 請求項19記載のシステムにおいて、 前記照合エンジンと交信し、応答句が自然な発生により生成されたかを決定す
    るように前記応答句を音響的に同時に且つ連続的に検査する耐合成比較器を更に
    備え、 前記照合エンジンによる特定の認可ユーザーとしてユーザーの照合は、前記応
    答句が自然な発声により生成されたものと決定されることを更に必要とするシス
    テム。
  21. 【請求項21】 請求項19記載のシステムにおいて、前記照合句における
    少なくとも一つの他の単語が、前記高解像度単語モデルのデータベースからの高
    解像度単語モデルを有するシステム。
  22. 【請求項22】 請求項19記載のシステムにおいて、前記照合句における
    前記少なくとも一つの他の単語は、低解像度単語モデルのデータベースからの低
    解像度単語モデルを有するシステム。
  23. 【請求項23】 請求項19記載のシステムにおいて、前記ユーザーアクセ
    スデバイスが、前記照合句をユーザーへ交信させるテキスト対音声モジュールを
    含むシステム。
  24. 【請求項24】 請求項19記載のシステムにおいて、前記ユーザーアクセ
    スデバイスが、ユーザーにより与えられるべき応答を可能とする音声認識モジュ
    ールを含むシステム。
  25. 【請求項25】 請求項19記載の話者照合システムを含み、認可ユーザー
    へのネットワークアクセスを制限するコンピュータネットワーク。
  26. 【請求項26】 話者照合の方法であって、 各認可ユーザーに関連した単語モデルを包含する高解像度単語モデルのデータ
    ベースを確立する段階と、 ユーザーが特定の認可ユーザーとして照合されることを要求するとき、前記高
    解像度単語モデルのデータベースと交信する照合句ジェネレータにより照合句を
    生成し、その照合句は、少なくとも一つのキーワードを包含し、このキーワード
    は前記高解像度モデルのデータベースにおけるモデルと、少なくとも一つの他の
    単語とを有する段階と、 前記照合句ジェネレータと交信する照合句モデルジェネレータにより照合句の
    比較モデルを生成する段階と、 ユーザーに対する照合句を、ユーザーにより与えられるべき単語を有する発声
    された応答句を可能とする文法コンパイラに交信するユーザーアクセスデバイス
    へ交信させる段階と、 前記応答句が比較モデルと整合するときに、且つ少なくとも一つのキーワード
    について、特定の認可ユーザーに関連する前記高解像度単語モデルのデータベー
    スにおけるモデルが応答句における対応する単語の閾値距離内にあるときに、ユ
    ーザーを特定の認可ユーザーとして証明する段階とを含む方法。
  27. 【請求項27】 請求項26記載の方法において、前記照合エンジンと交信
    する耐合成比較器により、応答句が自然な発生により生成されたかを決定するよ
    うに応答句における単語を音響的に同時に且つ連続的に比較する段階を更に含み
    、 特定の認可ユーザーとしてのユーザーの照合が、前記応答句が自然な発声によ
    り生成されたと決定されることを更に必要とする方法。
  28. 【請求項28】 請求項26記載の方法において、前記照合句における前記
    少なくとも一つの他の単語が、前記高解像度単語モデルのデータベースからの高
    解像度単語モデルを有する方法。
  29. 【請求項29】 請求項26記載の方法において、前記照合句における前記
    少なくとも一つの他の単語が、低解像語モデルのデータベースからの低解像度単
    語モデルを有する方法。
  30. 【請求項30】 請求項26記載の方法において、前記ユーザーアクセスデ
    バイスが、前記照合句をユーザーへ交信させるテキスト対音声モジュールを含む
    方法。
  31. 【請求項31】 請求項26記載の方法において、前記ユーザーアクセスデ
    バイスが、ユーザーにより与えられるべき応答を可能とする音声認識モジュール
    を含む方法。
  32. 【請求項32】 請求項26記載の方法を採用し、認可ユーザーへのネット
    ワークアクセスを制限するコンピュータネットワーク。
JP2000534997A 1998-03-03 1999-03-03 話者照合の多重解像システム及び方法 Withdrawn JP2002506241A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7668098P 1998-03-03 1998-03-03
US60/076,680 1998-03-03
US22907699A 1999-01-12 1999-01-12
US90/229,076 1999-01-12
PCT/IB1999/000589 WO1999045530A1 (en) 1998-03-03 1999-03-03 Multi-resolution system and method for speaker verification

Publications (1)

Publication Number Publication Date
JP2002506241A true JP2002506241A (ja) 2002-02-26

Family

ID=26758367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000534997A Withdrawn JP2002506241A (ja) 1998-03-03 1999-03-03 話者照合の多重解像システム及び方法

Country Status (6)

Country Link
US (1) US6272463B1 (ja)
EP (1) EP1058926A1 (ja)
JP (1) JP2002506241A (ja)
AU (1) AU2850399A (ja)
CA (1) CA2318262A1 (ja)
WO (1) WO1999045530A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043426B2 (en) 1998-04-01 2006-05-09 Cyberpulse, L.L.C. Structured speech recognition
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6519563B1 (en) * 1999-02-16 2003-02-11 Lucent Technologies Inc. Background model design for flexible and portable speaker verification systems
DE50006493D1 (de) * 1999-03-08 2004-06-24 Siemens Ag Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
EP1109152A1 (en) * 1999-12-13 2001-06-20 Sony International (Europe) GmbH Method for speech recognition using semantic and pragmatic informations
US6490560B1 (en) * 2000-03-01 2002-12-03 International Business Machines Corporation Method and system for non-intrusive speaker verification using behavior models
JP2002169581A (ja) * 2000-11-29 2002-06-14 Matsushita Electric Ind Co Ltd 音声合成方法およびその装置
JP2002259888A (ja) * 2000-12-25 2002-09-13 Toshiba Corp シミュレーション制御プログラム、方法及び装置
US8812319B2 (en) * 2001-01-31 2014-08-19 Ibiometrics, Inc. Dynamic pass phrase security system (DPSS)
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
WO2002080116A1 (en) * 2001-03-28 2002-10-10 Ron Shimon Estrin Authentication methods, apparatus, media and signals
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
US8170873B1 (en) * 2003-07-23 2012-05-01 Nexidia Inc. Comparing events in word spotting
DE10361850A1 (de) * 2003-12-31 2005-07-28 Kress, Markus Verfahren zur Identifizierung von Personen
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US20060222210A1 (en) * 2005-03-31 2006-10-05 Hitachi, Ltd. System, method and computer program product for determining whether to accept a subject for enrollment
CN1905445B (zh) 2005-07-27 2012-02-15 国际商业机器公司 使用可移动的语音标识卡的语音认证系统及语音认证方法
ATE449404T1 (de) * 2006-04-03 2009-12-15 Voice Trust Ag Sprecherauthentifizierung in digitalen kommunikationsnetzen
DE602006011287D1 (de) * 2006-05-24 2010-02-04 Voice Trust Ag Robuste Sprechererkennung
EP1906386B1 (en) * 2006-09-29 2009-11-11 Honda Research Institute Europe GmbH Using child directed speech to bootstrap a model based speech segmentation and recognition system
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8775179B2 (en) * 2010-05-06 2014-07-08 Senam Consulting, Inc. Speech-based speaker recognition systems and methods
GB2489527B (en) * 2011-04-01 2014-01-01 Voicevault Ltd Voice verification system
US9147401B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for speaker-calibrated speaker detection
US9147400B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for generating speaker-specific spoken passwords
US10438591B1 (en) * 2012-10-30 2019-10-08 Google Llc Hotword-based speaker recognition
US8812320B1 (en) 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US10008208B2 (en) * 2014-09-18 2018-06-26 Nuance Communications, Inc. Method and apparatus for performing speaker recognition
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
FR3058558B1 (fr) * 2016-11-07 2020-01-10 Pw Group Procede et systeme d'authentification par biometrie vocale d'un utilisateur
KR102364853B1 (ko) 2017-07-18 2022-02-18 삼성전자주식회사 음향 센싱 소자의 신호 처리 방법과 음향 센싱 시스템
CN111108362B (zh) * 2017-09-06 2022-05-24 日本电信电话株式会社 异常声音探测装置、异常模型学习装置、异常探测装置、异常声音探测方法、以及记录介质
KR102598057B1 (ko) * 2018-09-10 2023-11-06 삼성전자주식회사 음소기반 화자모델 적응 방법 및 장치
US11222622B2 (en) 2019-05-05 2022-01-11 Microsoft Technology Licensing, Llc Wake word selection assistance architectures and methods
US11158305B2 (en) * 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word
US11132992B2 (en) 2019-05-05 2021-09-28 Microsoft Technology Licensing, Llc On-device custom wake word detection

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2105034C (en) 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
US5668929A (en) * 1993-01-21 1997-09-16 Hirsch Electronics Corporation Speech activated security systems and methods
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5752231A (en) * 1996-02-12 1998-05-12 Texas Instruments Incorporated Method and system for performing speaker verification on a spoken utterance

Also Published As

Publication number Publication date
US6272463B1 (en) 2001-08-07
CA2318262A1 (en) 1999-09-10
EP1058926A1 (en) 2000-12-13
AU2850399A (en) 1999-09-20
WO1999045530A1 (en) 1999-09-10

Similar Documents

Publication Publication Date Title
US6272463B1 (en) Multi-resolution system and method for speaker verification
CA2609247C (en) Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
Furui Recent advances in speaker recognition
Furui An overview of speaker recognition technology
EP1395803B1 (en) Background learning of speaker voices
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
Patrick et al. Voice forgery using ALISP: indexation in a client memory
US20090171660A1 (en) Method and apparatus for verification of speaker authentification and system for speaker authentication
EP0892388B1 (en) Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
Masuko et al. Imposture using synthetic speech against speaker verification based on spectrum and pitch
JPH11507443A (ja) 話者確認システム
Li et al. Verbal information verification
US20100063817A1 (en) Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program
BenZeghiba et al. User-customized password speaker verification using multiple reference and background models
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
EP0892387A1 (en) Method and apparatus for providing speaker authentication by verbal information verification
Furui Speaker recognition in smart environments
Yang et al. User verification based on customized sentence reading
BenZeghiba et al. Speaker verification based on user-customized password
Li et al. Speaker authentication
Furui Speaker recognition
Fakotakis et al. A continuous HMM text-independent speaker recognition system based on vowel spotting.
BenZeghiba Joint speech and speaker recognition
Nedic et al. Recent developments in speaker verification at IDIAP
Van Heerden Phoneme duration modelling for speaker verification

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060509