JPH1083194A - 話し手照合システムのための2段階群選択方法 - Google Patents

話し手照合システムのための2段階群選択方法

Info

Publication number
JPH1083194A
JPH1083194A JP9204261A JP20426197A JPH1083194A JP H1083194 A JPH1083194 A JP H1083194A JP 9204261 A JP9204261 A JP 9204261A JP 20426197 A JP20426197 A JP 20426197A JP H1083194 A JPH1083194 A JP H1083194A
Authority
JP
Japan
Prior art keywords
speaker
models
group
speech signal
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9204261A
Other languages
English (en)
Other versions
JP3390632B2 (ja
Inventor
William D Goldenthal
ディー ゴールデンタール ウィリアム
Brian S Eberman
エス エバーマン ブライアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Equipment Corp
Original Assignee
Digital Equipment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Equipment Corp filed Critical Digital Equipment Corp
Publication of JPH1083194A publication Critical patent/JPH1083194A/ja
Application granted granted Critical
Publication of JP3390632B2 publication Critical patent/JP3390632B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【課題】 話された発音から個人の認識を照合する方法
を提供する。 【解決手段】 既知の認識を有する話し手からのスピー
チ信号を使用して、音響モデルの組が形成される。これ
らの音響モデルは、それに対応する認識と共に、メモリ
に記憶される。スピーチ信号を特徴付ける複数の組の群
モデルが、その記憶された音響モデルの組から選択さ
れ、そして各識別された話し手の音響モデルの組にリン
クされる。テスト段階中に、請求された認識を有する未
知の話し手により発生されたスピーチ信号が処理され
て、処理済のスピーチ信号を形成する。この処理済のス
ピーチ信号は、請求された話し手のモデルの組と比較さ
れ、第1の得点が形成される。処理済のスピーチ信号
は、群モデルの組とも比較され、第2の得点が形成され
る。第2の得点から所定の基準に基づいて得点の副組が
動的に選択される。未知の話し手は、第1の得点と、得
点の副組の組み合わせとの間の差が所定のスレッシュホ
ールド値より大きい場合に、請求された話し手であると
確認される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、自動的な
スピーチの処理に係り、より詳細には、話された発音か
ら個人の認識を照合することに係る。
【0002】
【従来の技術】話し手は、1組の調音器官を整合状態で
作用させながら声道に空気を押し流すことにより音声を
発する。調音器官は、舌、唇、顎、声帯及び口蓋帆を含
む。声道は、肺、喉、口及び鼻孔を含む。調音器官及び
声道についての話し手の生理学的な特性により、異なる
話し手のスピーチ表現に音響的な変化が生じる。更に、
スピーチを発する間に使用する動的な調音的身振りが話
し手の間で相違する。
【0003】本発明の目的は、これらの変化の効果を取
り入れて、スピーチの内容とは独立して、話された発音
に基づいて、話し手が請求した本人であるかを照合する
ことである。
【0004】話し手の自動的な照合は、個人の真の認識
が最重要である場合、即ちクレジットカード又は電話発
呼カードを含む財務的な取引が名うての詐欺行為を被る
傾向がある場合に著しく価値がある。銀行及びクレジッ
トカード会社に対する損害だけで年間に50億ないし1
00億ドルに達すると推定される。又、話し手の照合
は、セルラー電話のような音声通信装置の無断使用を減
少するのに使用することもできる。
【0005】話し手照合システムにおいては、既知の認
識を有する個人が「トレーニング」段階中に発音又はス
ピーチのサンプルを供給する。連続的なスピーチ信号の
サンプルは、デジタルで分析されて、1組の音響特徴を
各々含む観察ベクトルの一時的な個別シーケンスを形成
する。各観察ベクトルは、スピーチの「フレーム」と称
する。フレームの成分は、スピーチ信号の個別部分を表
すために選択された音響的な属性である。個人個人のフ
レームは、スピーチを表すモデルを形成するように更に
処理することができる。これらのモデルは、対応する個
人の認識と共にデータベースに記憶することができる。
【0006】その後、「テスト」段階中に敏速な一連の
ワード又は自発的なスピーチを個人に発音させることに
より個人の請求された認識を照合することができる。こ
れらの「照合」又はテストスピーチ信号は分析され、そ
してその「請求された」認識に対応する予め記憶された
観察モデルと比較され、得点が決定される。例えば、得
点は、対数確率得点、即ち得点=log p(O/I)
として表すことができる。この例では、pは、観察され
たフレームOが個人Iにより発生される確率を表す。得
点が所定のスレッシュホールドを越えると、その個人
は、請求した本人であると仮定される。
【0007】
【発明が解決しようとする課題】理想的には、一貫した
音響条件のもとで、話し手照合の問題を簡単な仮説テス
トとして処理することができる。不都合なことに、トレ
ーニング条件とテスト条件との間の音響的な変化が問題
を複雑化する。例えば、トレーニング中に使用するマイ
クロホンは、テスト中に使用するものとは音響特性が相
違する。又、バックグランドのノイズ特性も相違する。
更に、テスト中に使用するスピーチサンプルは、おそら
く信号を歪めるであろう予想不能な伝達特性をもつ電話
ネットワークを経て中央の照合場所に到達する。更に、
トレーニング中に使用するサンプリングレートは、テス
ト中に使用するサンプリングレートと相違する。
【0008】これら全ての要因が等価エラー率を増加さ
せる。等価エラー率とは、誤って拒絶される正しい話し
手(偽の否定)の割合が、誤って受け入れられる詐欺師
(偽の肯定)の割合に等しい点である。等価エラー率の
低いシステムが優れた性能を有する。
【0009】公知技術においては、等価エラー率を最小
にするための技術として群(cohort)正規化が使用されて
いる。群正規化においては、各話し手個人のモデルが
「群」個人のモデルにリンクされる。「トレーニング」
されたモデルを有する全ての話し手のプールから群を選
択することができる。或いは、多数の話し手のモデルか
ら群モデルを合成することもできる。公知技術において
は、少数の、通常は10未満の「群」モデルが各々の識
別された個人のモデルにリンクされる。一般に、使用す
る群が多い場合には、エラー率が増加する。
【0010】テスト中には、認識が請求された話し手の
モデルから得られた得点が、小さな1組の群モデルから
得られた全得点と比較され、1組の得点差が形成され
る。これらの差が、「正規化」された得点として使用さ
れ、例えば、正規化された得点=log p(O/I)
−f〔log p(O/(Ck (I))〕であり、ここ
で、log p(O/(Ck (I))は、請求された個
人にリンクされるk個の群に対する得点である。関数f
は、正規化中の全ての群得点を合成することができる。
この関数は、統計学的な性質で、例えば、最大値、アベ
レージ、パーセント、中位数、平均、又は中性ネットワ
ークの出力である。
【0011】群正規化は、テスト状態中の音響的変化を
補償するスレッシュホールドを与える。請求された話し
手の得点と群の得点との間の差を決定するのが非常に効
果的であると分かっており、これについては、ロゼンベ
ルグ、デロン、リー、ジュアン及びスーン著の「話し手
照合のための群正規化得点の使用(The Use of CohortNo
rmalized Scores for Speaker Verification)」、Pr
oc. ICSLP、1992年10月、第599−6
02ページを参照されたい。ここでは、1組の5つの群
を用いた交差マイクロホン状態に対してエラー率の減少
係数5が報告されている。
【0012】公知技術においては、特定の話し手の1組
の群が、トレーニングデータに基づき音響空間における
話し手のモデルに対する「接近度」のある尺度、例え
ば、多次元の統計学的距離によって選択される。しかし
ながら、1つ以上の選択された群に対し所与の発音の得
点が低いことは、システム性能の著しい低下を依然生じ
ることが観察されている。
【0013】低い得点を補償するために、得点スレッシ
ュホールドを大きな値にセットし、低い得点を詐取する
ことのできる詐欺師がおそらく拒絶されるようにするこ
とができる。しかしながら、スレッシュホールドを高く
すると、有効な話し手が誤って拒絶される確率も増加
し、例えば、等価エラー率が増加する。
【0014】それ故、等価エラー率を減少するような群
選択機構が要望される。等価エラー率を減少すると、テ
スト中に音響環境に変化が存在しても、詐欺師を拒絶す
る確率が高くなる一方、実際に請求をした本人である個
人を誤って拒絶する率が低くなる。
【0015】
【課題を解決するための手段】本発明においては、2段
階の群選択技術を用いて、未知の話し手の請求された認
識を有効化する話し手照合プロセスの等価エラー率を減
少する。本発明は、その広い形態においては、請求項1
に記載のスピーチ識別により個人の認識を照合する方法
に係る。又、本発明は、請求項6に記載のスピーチ認識
システムにおいて群得点を選択する方法にも係る。
【0016】より詳細には、トレーニング又は登録段階
中に、既知の認識を有する話し手からのスピーチ信号を
用いて、音響モデルの組が形成される。音響モデルは、
それに対応する話し手の認識と共に、後で使用するため
にメモリに記憶される。メモリは、販売点において使用
されるクレジットカードの背面の磁気ストリップでもよ
いし、又はネットワークを経てアクセスできる中央のデ
ータベースでもよい。
【0017】トレーニング段階中に各話し手に対し音響
モデルの組から複数の組の群モデルが選択される。選択
された複数の組の群モデルは、対応する話し手のスピー
チを特徴付けるものである。群モデルの組は、各識別さ
れた話し手の音響モデルの組にリンクされる。
【0018】テスト段階中に、請求された認識を有する
未知の話し手により発生されたスピーチ信号が処理され
て、処理済のスピーチ信号が発生される。処理済のスピ
ーチ信号は、請求された話し手の音響モデルの組と比較
されて、第1の得点が発生される。又、処理済のスピー
チ信号は、群モデルの組とも比較されて、第2の得点が
発生される。第2の得点から、所定の選択基準に基づい
て得点の副組が選択される。例えば、テスト段階の処理
済スピーチを最も良く特徴付ける群モデルに対して得点
の副組が選択される。
【0019】未知の話し手は、第1の得点と、第2の得
点の副組の組み合わせとの間の差が所定のスレッシュホ
ールド値より大きい場合に、請求された話し手として有
効化される。
【0020】
【発明の実施の形態】以下、添付図面を参照し、本発明
の好ましい実施形態を一例として詳細に説明する。音声
は、声道の1組の調音器官の整合した働きによって発生
される。音声出力を発生する調音器官の生理学的な特性
は、話し手に依存する。有効化得点の正規化に2段階の
群選択プロセスを使用する話し手照合システムが提案さ
れる。
【0021】図1及び2は、話し手照合に使用される2
段階群選択プロセスを一般的に示している。トレーニン
グ又は登録段階中に、既知の認識101を有する話し手
は、トレーニングスピーチ信号102を供給する。図2
のアナログ/デジタルコンバータ(ADC)110は、
トレーニングスピーチ信号102の連続的なアナログ音
響波形をライン111のデジタル信号へと変換する。デ
ジタル信号プロセッサ(DSP)130は、デジタル化
された信号を、ライン131上のベクトル又は観察フレ
ームの一時的シーケンスへと変換する。
【0022】例えば、DSP130は、デジタル信号の
短時間フーリエ変換に基づいてメル周波数ケプストラム
係数(Mel-Frequency cepstral coefficient)(MFC
C)を発生することができる。MFCC表示は、P.マ
ーメルステイン及びS.デービス著の「連続的に話され
たセンテンスにおける単音節ワード認識のためのパラメ
ータ表示の比較(Comparison of Parametric Representa
tion for monosyllabicWord Recognition in Continuou
sly Spoken Sentences)」、IEEE Trans A
SSP、第23巻、第1号、第67−72ページ、19
75年2月に掲載されている。
【0023】ケプストラム係数は、各フレームのパワー
スペクトルが比較的少数のパラメータを用いて表される
ので、著しいデータ減少を与える。各フレームは、所与
の時点における連続波形102を表す1組の音響的特徴
をパラメータ化する。各フレームは、例えば、MFCC
パラメータを含む。
【0024】これらフレームは、モデルジェネレータ1
40によって更に処理されて、元のスピーチ信号102
を特徴付ける音響モデル150の組を形成する(図1の
ステップ10)。登録を希望する各々の識別された話し
手ごとに1組の音響モデル150がある。音響モデル1
50の組は、それらの各々の認識101と共にモデルデ
ータベース(DB)160に記憶することができる。
【0025】モデル150を形成するために、モデルジ
ェネレータ140は、スピーチ処理に対するセグメント
ベースの解決策であるパターン分類及び認識方法を使用
することができる。セグメントベースの解決策は、統計
学的な軌道モデリング(SMT)と称される。
【0026】SMTによれば、各組の音響モデル150
は、「トラック」及びエラー統計学的情報を含む。トラ
ックとは、スピーチのセグメントにわたる動的な音響属
性の軌道又は一時的な展開として定義される。統計学的
軌道モデリングの間に、トラックは、可変巾のスピーチ
の指定のセグメントにマップされる。指定のセグメント
は、スピーチの単位、例えば、単音、又は1つの単音か
ら別の単音への移行である。
【0027】トラックの目的は、スピーチ信号のセグメ
ントの時間巾にわたる音響属性の動的な振る舞いを正確
に表しそしてそれを考慮することである。エラー統計学
的情報は、トラックがスピーチの識別された単位にいか
に良好にマップすると予想されるかの尺度である。エラ
ー統計学的情報は、トラックから発生されるスピーチの
合成単位をスピーチの実際の単位に相関させることによ
り発生することができる。スピーチの合成単位は、スピ
ーチの単位に最良に適合するようにトラックを「変形」
することにより発生できる。
【0028】モデル150を形成するのに加えて、各々
の識別された話し手のトレーニングスピーチ信号102
は、データベース160に記憶された他の話し手のモデ
ルの組と比較される。モデルが比較に使用される他の話
し手は、例えば、年齢や性別や身長や体重のような話し
手に依存する類似性を有する。これは、上記の得点を発
生する。得点は、識別された話し手のトレーニングスピ
ーチ信号102と、他の話し手のモデルとの間の相違の
尺度を指示する。
【0029】各々の識別された話し手のスピーチ信号を
特徴付ける複数の組の「群」モデル(CM)170が、
他の話し手の音響モデルの使用可能な組から選択され
る。この選択は、所定の選択基準に基づいて行うことが
でき、例えば、識別された話し手のスピーチを最良に特
徴付けるモデル、又はある所定の確率密度関数に特徴が
適合するモデルが選択される。群モデル170の選択さ
れた組は、識別された話し手のモデルの組にリンクされ
る。
【0030】本発明によれば、選択される群モデルの組
の数は、公知技術に示されるものよりも実質的に大き
い。例えば、群モデルの組は、5又は10の係数だけ大
きく、例えば、約25ないし50組のモデルである。群
モデルの組の数がこれ以上であっても、更なる改良は実
証できるが、僅かである。
【0031】特定の識別された話し手のモデル150の
組、及び群モデル170の対応する組は、クレジットカ
ード180の背面に取り付けられた磁気ストリップ18
1に記録することもできるし、或いは通信ネットワーク
によりアクセスできる中央のデータベースに記録するこ
ともできる。
【0032】その後、テスト段階中に、請求された認識
201をもつ未知の話し手がテストスピーチ信号202
を供給する。別のアナログ/デジタルコンバータ(AD
C)220は、テストスピーチ信号202の連続的なア
ナログ音響波形をライン211のデジタル信号に変換す
ることができ、これは、別のデジタル信号プロセッサ
(DSP)230により処理される。
【0033】DSP230の出力は、得点ジェネレータ
240へ送られる。この得点ジェネレータ240は、未
知の話し手により表される請求された認識201に対応
するモデル150の組及びそれにリンクされた群モデル
170を収集することができる。モデル150及び17
0は、クレジットカード180から読み取ることもでき
るし、又は請求された認識201を用いてデータベース
160から通信ネットワーク190を経て収集すること
もできる。
【0034】図1のステップ20において、照合を求め
る未知の話し手のデジタル化された信号は、請求された
認識201に対応する音響モデルと比較されて、「請求
された」対数確率得点21が決定される。
【0035】ステップ30において、同じテスト信号が
全ての群モデル170と比較され、群対数確率得点31
が決定される。群得点31は、得点セレクタ250に与
えられる。得点セレクタ250は、群モデルの副組から
決定された群得点の実質的に小さな副組を選択する。図
1のステップ40において動的に選択される群得点の数
は、得点された全ての群モデル170より約5程度小さ
なものである。
【0036】請求された得点21及び動的に選択された
群得点32は、有効化手段260に送られる。選択され
た群得点32は、ある関数、例えば、平均化、平均値選
択、中位数選択、確率密度関数等の統計学的関数によっ
て結合することができる。
【0037】請求された得点21と、得点32の結合さ
れた副組との間の差が決定される。この差は、所定の弁
別係数280に基づき有効化手段260によりスレッシ
ュホールド値と比較され、例えば、図2の真又は偽の論
理状態299を形成する(図1のステップ50)。差が
スレッシュホールド値を越える場合には、真の状態が与
えられ、さもなくば、状態は偽となる。真又は偽の状態
299は、未知の話し手が請求をした本人であるかどう
かを指示する。
【0038】ADC110及び220、DSP130及
び230は、集中スピーチ照合システムにおいて同じも
ので良いことを理解されたい。図3は、種々の群選択技
術を使用して、エラー率に対する「受信器動作特性」
(ROC)曲線を示している。x軸301は、「正し
い」話し手が誤って拒絶される(偽の否定)割合を示し
ている。y軸302は、所与のスレッシュホールドに対
し「詐欺師」が誤って受け入れられる(偽の肯定)割合
を示している。
【0039】曲線310は、正規化及び有効化の間に少
数(5つ)の群の全ての得点を用いる従来の1段階群選
択プロセスを使用して得られたエラー率を示している。
曲線320は、トレーニング中に選択された50個の群
モデルの非常に大きなプールから決定された50個の得
点から動的に選択された5つの群得点の副組に対する結
果を示している。曲線330は、167個の群のプール
に対する得点から選択された5つの群得点の副組に対す
るエラー率を示している。
【0040】群モデルの大きなグループ及びそれらモデ
ルからの得点の副組を含む2段階プロセスにおいて群モ
デル及び得点を選択することにより、等価エラー率の実
質的な減少が得られ、例えば、従来の単一段階選択プロ
セスにおいて可能であったものよりも3ないし5の係数
での減少が得られることが明らかである。
【0041】以上、本発明の特定の実施形態を説明した
が、それらに対して種々の変更及び修正を加えても全て
の又は幾つかの効果が達成されるので、本発明の範囲内
に包含されるこのような変更や修正は、全て、特許請求
の範囲内に網羅されるものとする。
【図面の簡単な説明】
【図1】本発明の好ましい実施形態による話し手照合プ
ロセスを示す図である。
【図2】2段階の群選択プロセスのフローチャートであ
る。
【図3】2段階選択プロセスの結果を公知の1段階群選
択と比較する図である。
【符号の説明】
102 トレーニングスピーチ信号 110 アナログ/デジタルコンバータ(ADC) 130、230 デジタル信号プロセッサ(DSP) 140 モデルジェネレータ 150 音響モデル 160 モデルデータベース 170 群モデル(CM) 180 クレジットカード 181 磁気ストリップ 190 通信ネットワーク 201 請求された認識 202 テストスピーチ信号 240 得点ジェネレータ 250 得点セレクタ 260 有効化手段 280 弁別係数
フロントページの続き (72)発明者 ブライアン エス エバーマン アメリカ合衆国 マサチューセッツ州 02144サマーヴィル ウィロー アベニュ ー 26

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 スピーチ識別を使用して、話し手により
    請求された話し手の認識を照合する方法において、 トレーニングスピーチ信号を処理して、音響モデルの組
    を形成し、トレーニングスピーチ信号は、トレーニング
    段階中に既知の認識を有する話し手により発生され、 各々の識別された話し手ごとに1組の音響モデルを形成
    し、そして音響モデルの組をそれに対応する各話し手の
    認識と共にメモリに記憶し、 トレーニング段階中に各話し手ごとに上記音響モデルの
    組から複数の組の群モデルを選択し、複数の組の群モデ
    ルは、それに対応する話し手のスピーチを特徴付けるも
    のであり、そして複数の組の群モデルを各識別された話
    し手の音響モデルの組にリンクし、 テスト段階中に、請求された認識を有する未知の話し手
    により発生されたスピーチ信号のテストを処理して、処
    理済のスピーチ信号を発生し、 上記処理済のスピーチ信号と、請求された話し手の音響
    モデルの組とを比較して、第1の得点を決定し、 上記処理済のスピーチ信号と、群モデルの組とを比較し
    て、第2の得点を決定し、 上記第2の得点から得点の副組を選択し、この得点の副
    組は、テストスピーチ信号を所定の基準に基づいて特徴
    付ける群モデルに対応し、そして上記第1の得点と、上
    記得点の副組の所定の組み合わせとの間の差が、所定の
    スレッシュホールド値より大きい場合に、未知の話し手
    が請求された話し手であることを有効化する、という段
    階を備えたことを特徴とする方法。
  2. 【請求項2】 トレーニング段階中に選択される群モデ
    ルの組の数は、有効化段階中に第2の得点が使用される
    ところの群モデルの組よりも実質的に大きい請求項1に
    記載の方法。
  3. 【請求項3】 識別された話し手の音響モデル及びそれ
    に関連する群モデルを、クレジットカードに取り付けら
    れた磁気ストリップに記憶するという段階を更に備えた
    請求項1に記載の方法。
  4. 【請求項4】 通信ネットワークを経て第2のスピーチ
    信号を収集するという段階を更に備えた請求項1に記載
    の方法。
  5. 【請求項5】 通信ネットワークを経て第1のスピーチ
    信号を収集するという段階を更に備えた請求項1に記載
    の方法。
  6. 【請求項6】 スピーチ照合システムにおいて群得点を
    選択する方法であって、 トレーニング段階中に第1のスピーチサンプルを特徴付
    ける1組の群モデルを選択し、 テスト段階中に第2のスピーチサンプルを最良に特徴付
    ける群モデルの得点の副組を動的に選択し、そして得点
    の副組を用いて未知の話し手の請求された認識を照合す
    る、という段階を備えたことを特徴とする方法。
JP20426197A 1996-07-31 1997-07-30 話し手照合システムのための2段階群選択方法 Expired - Fee Related JP3390632B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/692,937 US6205424B1 (en) 1996-07-31 1996-07-31 Two-staged cohort selection for speaker verification system
US08/692937 1996-07-31

Publications (2)

Publication Number Publication Date
JPH1083194A true JPH1083194A (ja) 1998-03-31
JP3390632B2 JP3390632B2 (ja) 2003-03-24

Family

ID=24782664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20426197A Expired - Fee Related JP3390632B2 (ja) 1996-07-31 1997-07-30 話し手照合システムのための2段階群選択方法

Country Status (4)

Country Link
US (1) US6205424B1 (ja)
EP (1) EP0822539B1 (ja)
JP (1) JP3390632B2 (ja)
DE (1) DE69728939T2 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
AU752317B2 (en) * 1998-06-17 2002-09-12 Motorola Australia Pty Ltd Cohort model selection apparatus and method
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
EP1096473A3 (en) * 1999-10-26 2001-09-05 Persay Inc., c/o Corporation Service Company Background model clustering for speaker identification and verification
US7318032B1 (en) * 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
WO2002067245A1 (en) * 2001-02-16 2002-08-29 Imagination Technologies Limited Speaker verification
US20040236573A1 (en) * 2001-06-19 2004-11-25 Sapeluk Andrew Thomas Speaker recognition systems
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
ATE376222T1 (de) * 2002-04-23 2007-11-15 Activcard Ireland Ltd Biometrisches sicherheitssystem
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
US7386448B1 (en) * 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
US7392187B2 (en) 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7840404B2 (en) 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US20070038460A1 (en) * 2005-08-09 2007-02-15 Jari Navratil Method and system to improve speaker verification accuracy by detecting repeat imposters
WO2008033095A1 (en) * 2006-09-15 2008-03-20 Agency For Science, Technology And Research Apparatus and method for speech utterance verification
US20080195395A1 (en) * 2007-02-08 2008-08-14 Jonghae Kim System and method for telephonic voice and speech authentication
US8817964B2 (en) * 2008-02-11 2014-08-26 International Business Machines Corporation Telephonic voice authentication and display
US9293140B2 (en) * 2013-03-15 2016-03-22 Broadcom Corporation Speaker-identification-assisted speech processing systems and methods
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
GB2555661A (en) * 2016-11-07 2018-05-09 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for biometric authentication in an electronic device
CN106531170B (zh) * 2016-12-12 2019-09-17 姜卫武 基于说话人识别技术的口语测评身份认证方法
US11328044B2 (en) * 2017-01-19 2022-05-10 Huawei Technologies Co., Ltd. Dynamic recognition method and terminal device
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
US11158325B2 (en) * 2019-10-24 2021-10-26 Cirrus Logic, Inc. Voice biometric system

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59192A (ja) * 1982-06-25 1984-01-05 株式会社東芝 個人照合装置
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS6269297A (ja) 1985-09-24 1987-03-30 日本電気株式会社 話者確認タ−ミナル
JPS6391699A (ja) * 1986-10-03 1988-04-22 株式会社リコー 音声認識方式
US5054083A (en) 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5274695A (en) 1991-01-11 1993-12-28 U.S. Sprint Communications Company Limited Partnership System for verifying the identity of a caller in a telecommunications network
CA2105034C (en) 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
US5677989A (en) 1993-04-30 1997-10-14 Lucent Technologies Inc. Speaker verification system and process
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
US5625747A (en) 1994-09-21 1997-04-29 Lucent Technologies Inc. Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping
AUPM983094A0 (en) 1994-12-02 1995-01-05 Australian National University, The Method for forming a cohort for use in identification of an individual
DE19630109A1 (de) 1996-07-25 1998-01-29 Siemens Ag Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner

Also Published As

Publication number Publication date
DE69728939T2 (de) 2005-04-21
EP0822539B1 (en) 2004-05-06
US6205424B1 (en) 2001-03-20
EP0822539A3 (en) 1998-12-02
EP0822539A2 (en) 1998-02-04
DE69728939D1 (de) 2004-06-09
JP3390632B2 (ja) 2003-03-24

Similar Documents

Publication Publication Date Title
JP3390632B2 (ja) 話し手照合システムのための2段階群選択方法
JP3532346B2 (ja) ミックスチャ分解識別による話者検証方法と装置
US5167004A (en) Temporal decorrelation method for robust speaker verification
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US7603275B2 (en) System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
JPH11507443A (ja) 話者確認システム
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
JP2000507714A (ja) 言語処理
Pandit et al. Feature selection for a DTW-based speaker verification system
Beigi Speaker recognition: Advancements and challenges
KR100682909B1 (ko) 음성 인식 방법 및 장치
US7509257B2 (en) Method and apparatus for adapting reference templates
JP5083951B2 (ja) 音声処理装置およびプログラム
Zilca Text-independent speaker verification using utterance level scoring and covariance modeling
JP4440414B2 (ja) 話者照合装置及び方法
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Singh et al. Features and techniques for speaker recognition
Nair et al. A reliable speaker verification system based on LPCC and DTW
Yang et al. User verification based on customized sentence reading
JP2991288B2 (ja) 話者認識装置
JP2001350494A (ja) 照合装置及び照合方法
Mittal et al. Age approximation from speech using Gaussian mixture models
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees