JP2001501740A - アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法 - Google Patents

アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法

Info

Publication number
JP2001501740A
JP2001501740A JP09539577A JP53957797A JP2001501740A JP 2001501740 A JP2001501740 A JP 2001501740A JP 09539577 A JP09539577 A JP 09539577A JP 53957797 A JP53957797 A JP 53957797A JP 2001501740 A JP2001501740 A JP 2001501740A
Authority
JP
Japan
Prior art keywords
speaker
phase
sequence
utterance
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP09539577A
Other languages
English (en)
Inventor
クロード モンタシエ
マリ―ジョゼ カラティ
フロク ジャン―リュク ル
Original Assignee
ユニヴェルシテ ピエール エ マリ キュリ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユニヴェルシテ ピエール エ マリ キュリ filed Critical ユニヴェルシテ ピエール エ マリ キュリ
Publication of JP2001501740A publication Critical patent/JP2001501740A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 本発明は、q-オーダー予測モデルを使用した話者の音声認識のための方法であり、1つ又はいくつかの発声に該当する話者の音声サンプルのデジタル獲得のステップを含む統計的特徴を抽出するためのステップと、この音声サンプルを、平均サイズTであり平均間隔Iである解析ウィンドウのシリーズから得られるサイズpのベクトルのシーケンスへ変換するステップと、このベクトルシーケンスからq+1のマトリックスを決定するステップとからなる。平均サイズTは10ms未満の長さであり、平均間隔Iは4.5ms未満の長さである。本発明は、電気音変換システム(HP、6)と、本方法のための蓄積プログラム実装システム(5)とを含むサウンドロックに有用である。

Description

【発明の詳細な説明】 アクセス制御アプリケーションのための、 予測モデルを使用する話者の音声認識方法 本発明は、予測モデルを使用する話者の音声認識方法に関し、特に、ベクトル 自己回帰タイプの予測モデルを使用する話者の音声認識方法に関する。 この方法は、話者を識別することと、話者の変更を識別することに同様に適用 される。多くの分野へのアプリケーションがあるが、特に、アクセス制御の分野 に応用される。アクセス制御は、話者の1つ又はそれ以上の発声を確認すること により働く。 本発明は、これらに限定されるわけではないが、次の2分野に特別のアプリケ ーションがある。すなわち、サウンドロックを使用するアクセス許可と秘密情報 へのアクセス許可、及び、金融オペレーション、及び/又は取引の正当性確認、 遠隔情報サービスへの安全なアクセス等である。 従来の技術による方法は、普通、学習モードと照合モードを含む。それらは、 次のフェーズとステップのいくつかまたは全てを含む。 すなわち、身元申告とサービス要求ステップ(フェーズ1)、話者の1つ又は それ以上の発声の学習を許可するステップ(フェーズ2)、話者の1つ又はそれ 以上の発声の照合を許可するステップ(フェーズ3)、1つ又はそれ以上の発声 の統計的特徴を抽出するステップ(フェーズ4)、1つ又はそれ以上の発声の統 計的特徴から予測モデルを算出するモデル(フェーズ5)、発声から身元を照合 するステップ(フェーズ6)、発声から話者を同定するフェーズ(フェーズ7) 、最初のフェーズで要求したリソースの全て又はいくつかへのアクセスを許可す るステップ(フェーズ8)、統計的特徴の辞書と話者のいくつか又は全ての発声 に相当する予測モデルを 更新するステップ(フェーズ9)である。 第1のフェーズにより、話者は、1つ又はそれ以上のリソースにアクセスする 目的で、身元を申告し、オペレーティングモード(学習又は検証)を要求できる 。 第2のフェーズにより、話者は、アクセスデバイスの学習モードを使用できる 。第3のフェーズにより、各話者は、アクセスデバイスの照合モードを使用でき る。 第4のフェーズは、1つ又はそれ以上の発声のデジタル獲得及びフィルタリン グのステップ、サイズpのベクトルを抽出するステップ、算出されたベクトルの いくつか又は全てのサイズp×pのq+1の相関マトリックスを算出するステッ プを含む。q+1マトリックスは話者の発声の統計的特徴を形成する。 第5のフェーズは、相関マトリックスからサイズp×pのqの予測マトリック スを算出するステップ、関係するエラーマトリックスの逆を算出するステップを 含む。これらのq+1マトリックスは話者の発声の予測モデルを形成する。話者 の発声のリファレンスは、統計的特徴と関連する予測モデルからなる。 第6のフェーズは、1つ又はそれ以上の発声の統計的特徴と辞書からのいくつ か又は全ての発声リファレンスとの間の計測された近似性を算出するステップと 、身元照合の確率を算出するステップを含む。 第7のフェーズは、1つ又はそれ以上の発声の統計的特徴と辞書からのいくつ か又は全てのリファレンスとの間の計測された近似性を算出するステップと、発 声に最も近いリファレンスを探索するステップと、話者の同定の確率を算出する ステップを含む。 第8のフェーズは、第1のフェーズで要求されたリソースのいくつか又は全て のリソースにアクセスすることを許可する。 第9のフェーズは、辞書における話者の発声のリファレンスを更新するか、又 は、新たな話者のリファレンスを辞書に追加するため に使用される。 話者の自動照合は、音声サンプルと一致した人の身元を照合することからなる 。バイナリスキームに従い、2つの決定が可能である。すなわち、”本人確認” 又は”身元の本人確認がとれず”である。 話者照合方法に関する多くの従来技術のドキュメントの中で、Claude Monttac ie及びJean-Luc Le Flochによる記事”Discriminant AR-Vector Models for Fre e-Text Speaker Verification(フリーテキスト話者照合のための判別ARベク トルモデル)”、”Congres EuroSpeech 1993”出版、ページ161-164は1 つの例として挙げることができる。この記事は、自動的に話者を照合する方法を 開示しているが、良好に処理し、速く、そして騒音環境で動作する、話者を自動 的に表示するシステムを得るためのパラメーターを抽出するための条件を説明し ていない。 既に示した通り話者照合又は話者変更認識に等しく適応される上述の方法にお いて、他の要因の中から、人の声の心理学的特徴を考慮することが必要である。 特に、男性が話しているか、又は女性が話しているかにより、複雑な音声信号の 基本波の周期は、それぞれ約100Hz及び200Hzの周波数に一致する。以 下で定義されるタイムウィンドウは上述の第4のフェーズの間使われる。音声処 理技術においては、タイムウィンドウは前述の基本波周期よりも大きくなければ ならないとされている。言いかえれば、解析が基本波周期よりも大きな周期で適 用される。その結果、通常用いられるウィンドウは、典型的には、15msから 40msの範囲である。検証により、この時間間隔が減少するとパフォーマンス が落ち始めることが示されている。 また、複数の重なり合うウィンドウが通常用いられる。また、ウィンドウの中 央間の時間間隔として定義される、2つの連続するウィンドウの間の間隔は、約 10msのオーダーか、それより大きくなければならないとされている。 驚くことには、前述の値よりずっと低い値を適用することで、パフォーマンス が改善し、より良い結果が得られることが発見されている。 より詳細には、本発明によれば、ウィンドウの間隔は10ms未満でなければ ならない。 女性の基本波周期は約5msであり、男性は10msであり、基本波の周期の 平均(すなわち7.5ms)と等しいウィンドウが好ましくは選択される。 同様にして、選択されるウィンドウ間隔は、4.5ms以下である。この値よ りずっと低い値、例えば2msが、好ましくは選択される。 本発明は、それゆえ、従来技術による方法の技術的特徴及び利点を保有しなが らパフォーマンスを改善させる、予測モデルを使用する話者の音声認識の方法に 関する。 本発明による方法は、特に、ベクトル自己回帰タイプの予測モデルに適合する 。 本発明は、それゆえ、pとqは0でない整数であって、話者の少なくとも1つ の発声に相当する話者の特定の期間Dの音声サンプルをデジタル獲得するステッ プと、平均サイズTであり平均間隔Iを持つ解析ウィンドウのシーケンスから得 られた特定のサイズpのベクトルのシーケンスに上記音声サンプルを変換するス テップと、このベクトルのシーケンスからq+1の相関マトリックスを決定する ステップとを含む統計的特徴を抽出する少なくとも1つのフェーズからなるqオ ーダー予測モデルを使用する話者音声認識の方法からなり、上記平均サイズTは 10ms未満の期間を有することを特徴とする。 本発明はまた、話者を同定し、話者の変更を捕らえる上記のような方法のアプ リケーションからなる。 本発明は更に、サウンドロックを使用するアクセス制御を行う上 記方法のアプリケーションの方法からなる。 最後に、本発明は、秘密情報へのアクセスを制御する上記方法のアプリケーシ ョン、特に、金融オペレーション、及び/又は取引の正当性確認、遠隔情報サー ビスへのアクセスのアプリケーションからなる。 添付図面を参照して次の説明を読むことにより、本発明はより良く理解され、 本発明の他の特徴及び利点は明らかになる。 図面の簡単な説明 図1はウィンドウ信号の一例を示す図である。 図2は本発明の方法の詳細な説明で用いられるフローチャートである。 図3はサウンドロックを使用するアクセスを制御する発明の方法のアプリケー ションを示す図である。 図4は秘密情報へのリモートアクセスを制御する発明の方法のアプリケーショ ンを示す図である。 前述した通り、本発明の方法は従来技術による方法の一般的な特徴を保持して いる。本発明の範囲を限定するいかなる意図なく、本発明の明確な考えを与える ために、次の説明は、ベクトル自己回帰タイプの予測モデルの特定のコンテクス トに言及している。 本発明の方法は、特に、オペレーションの3つの主要なファミリーに関係して いる。すなわち、特にベクトル自己回帰予測モデルに適合する、音声サンプルの 統計的特徴を抽出することと、音声サンプル間での計測された近似性を算出する こと、及び話者リファレンス辞書を更新することである。これらのオペレーショ ンの主要なファミリーを説明する。 本方法のこの部分は、サイズpのベクトルのセットから算出されるq+1のp ×pのオーダーの相関マトリックスにより音声サンプルを特徴付けている。その ベクトルを得る方法は、前述したフェー ズ4に関係しており、本発明に固有の特徴を含む。 音声サンプルの統計的特徴を抽出することに関連するオペレーションを詳細に 説明する前に、用いられる用語を定義する必要がある。 音声サンプルとは、音信号の任意の表現である(例えば、音、電気的、物理的 、磁気的、光学的なもの等である)。音声サンプルのどのようなサブセットも音 声サンプルである。音声サンプルのどのような結合も音声サンプルである。 音声サンプルのデジタル獲得は、期間Dの音声サンプルを表すアナログ信号を 、増加するサンプリング時間{ti}(i=1,…,N)でN個の数値{xi}( i=1,…,N)のシーケンスに変換することである。 デジタルフィルタリングは、サンプリング時間{ti}(i=1,…,N)で のN個の数値{xi}(i=1,…,N)のシーケンスを、増加するサンプリン グ時間{t’i}(i=1,…,N’)でのN’個の数値{x’i}(i=1,… ,N’)のシーケンスに変換することである。数値{xi}(i=1,…,N) のシーケンスは、必要に応じて、多種類のフィルタリングを受けることができる 。このケースでは、数値の新しいシーケンスが使用される。 解析ウィンドウFとは、時間{ti}(i=1,…,N)における値{fi}( i=1,…,N)の別々の関数fである。解析ウィンドウFは、音声サンプルの デジタル獲得(及び任意のフィルタリング)に関連する。例として、長方形ウィ ンドウ、ハミングウィンドウ等がある。 解析ウィンドウFの最大Mは、次の方程式により定義される。 解析ウィンドウFのゾーンZは、fZi=fZ(i)及びNZ≦Nである値{fZi} (i=1,…,NZ)の別々の関数fZであり、Z (i)はZ(i)=i+DZの形の関数であり、DZは、0からN−NZの範囲の 整数値である。 解析ウィンドウFのタイプAのゾーンZは、 を満足するゾーンZである。 解析ウィンドウFのタイプBのゾーンZは、 を満足するゾーンZである。 解析ウィンドウFは、タイプA又はBのゾーンへ分割され得る。 ゾーンZの期間はtZ(Nz)-tZ(1)に等しい。 ゾーンZFは、Fの全ての分解の上で、より大きな期間のタイプAのゾーンで ある。 解析ウィンドウFの期間は、ZFの期間である。 解析ウィンドウFの中央は、方程式、 により定義される。 解析ウィンドウFによりウィンドウされた音声サンプル{xi}(i=1,… ,N)は、N個の数値{xfi}(i=1,…,N)のセットであり、xfi=xi ×fiである。 2つの解析ウィンドウF1とF2の間隔は、方程式 により定義される。 ウィンドウ(T,I,N,D)のセットは、NF個の連続する長さNの解析ウ ィンドウ{Fj}(j=1,…,NF)であり、NF≦(D−T)/Iであり、T は解析ウィンドウの平均期間であり、Iは2つの解析ウィンドウの間の間隔であ る。ウィンドウ(T,I, N,D)のセットは、音声サンプルのデジタル獲得(及び任意のフィルタリング )に関連する。 サイズpのベクトルの抽出は、解析ウィンドウFによりウィンドウされた音声 サンプル{xi}(i=1,…,N)からサイズpのベクトルYFを算出する関 数である。全ての非ヌルの{xfi}(i=1,…,N)は、この関数を算出す るために使用されなければならない。言いかえれば、セット{xfi}(i=l ,…,N)の任意の非ヌルの値の大幅な修正は、大幅に関数の結果を修正しなけ ればならない。次のパラメータ化が用いられる。例えば、フーリエ変換、ケプス トラム、線形予測等である。 ベクトル({xi},p,T,I,N,D)のセットは、ウィンドウ(T,I ,N,D)のセットから算出されるNF個のベクトル のシリーズである° 音声サンプル({xi},p,q,T,I,N,D)の相関マトリックスは、 サイズp×qのq+1マトリックス{Rm}(m=0,…,q)のセットであり 、次の方程式を満足する。 それらは、必要に応じて任意の方法で正規化される。 本発明の方法の第4のフェーズは、話者照合に関連した音声サンプルに使用さ れる予測モデルのための最良の可能な統計的特徴を得るパラメータ(p,q,T ,I)を決定することからなる。 パラメータpは、任意の値を持ち得るが、その値は通常6から30の範囲にあ る。 本発明の1つの重要な特徴によれば、Tは10ms未満であり、Iは4.5m s未満である。 上記の種類の信号が完全であり得ないことは良く知られている。図1は、”振 幅A−時間t”の軸の正規直交系におけるウィンドウ を表す時間信号SF(t)の略図である。ウィンドウの幅は、時間軸に平行な直 線と信号SF(t)を表すカーブとの交点を分けている時間間隔Tにより定義さ れ得、例えば、振幅Amaxの最大値の20%のところである。 また、q、T及びIは、I<T/max(3、q)により関係付けられていな ければならない。例えば、もしq=4かつT=8msならば、Iは2ms未満で なければならない。 一般的に、パラメータqの値が高いほど、より良い統計的特徴が得られる。し かしながら、この改善は、計算オーバヘッドの増加というコストのもとで得られ る。また、実際のインプリメンテーションにおいて、良い妥協点としてqは通常 1から10の範囲で選択される。 本発明はまた、前述したフェーズ6及び7で使用される音声サンプル間の計測 された近似性に関する。予測モデルの計算は、話者の1つ又はそれ以上の発生の 統計的特徴を使用して詳細に説明され、それがフェーズ5を構成する。 計測された近似性は、予測モデルと関連するエラーマトリックスの計算を基礎 としている。 前と同様、使用される用語を定義することから始める。 ベクトル({xi},p,T,I,N,D)のセットの直接ベクトル予測モデ ル({xi},p,q,T,I,N,D)は、相関マトリックス{Rm}(m=0 ,…,q)から算出されるサイズp×pのq個のマトリックス{Am}(m=1 ,…,q)のセットである。その目的は、上記のqベクトルから、最良の可能な ベクトル である。 ベクトル({xi},p,T,I,N,D)のセットの逆行ベクトル予測モデ ル({xi},p,q,T,I,N,D)は、相関マトリックス{Rm}(m=0 ,…,q)から算出されるサイズp×pのq個のマトリックス{Bm}(m=1 ,…,q)のセットである。その目的は、次のqのベクトルから、最良の可能な ベクトル 直接予測モデル({xi},p,q,T,I,N,D)によるベクトル({xi },p,T,I,N,D)のセット上の直接エラーεj({xi},p,q,T, I,N,D,{Am})は、直接予測モデル{Am}(m=1,…,q)によるベ クトル({xi},p,T,I,N,D)のセットの逆フィルタリングに等しく 、次の方程式が満たされる。 逆行予測モデル({xi},p,q,T,I,N,D)によるベクトル({xi },p,T,I,N,D)のセット上の逆行エラーξj({xi},p,q,T, I,N,D,{Bm})は、逆行予測モデル{Bm}(m=1,…,q)によるベ クトル({xi},p,T,I,N,D)のセットの逆フィルタリングに等しく 、次の方程式が満たされる。 直接エラー({xi},p,q,T,I,N,D,{Am})の直接エラーマト リックスEA({xi},p,q,T,I,N,D,{Am})は、直接エラー( {xi},p,q,T,I,N,D,{Am})のサイズp×pの共変マトリック スに等しく、次の方程 式が満たされる。 逆行エラー({xi},p,q,T,I,N,D,{Bm})の逆行エラーマト リックスEB({xi},p,q,T,I,N,D,{Bm})は、逆行エラー( {xi},p,q,T,I,N,D,{Bm})のサイズp×pの共変マトリック スに等しく、次の方程式が満たされる。 直接予測モデル{Am}(m=1,…,q)又は逆行予測モデル{Bm}(m= 1,…,q)を算出するために、EAとEBのトレースを最小とするLevinson-Whi ttle-Robinsonアルゴリズムを、限定しない例として挙げることができ、次のよ うに説明される。 次の定義と表記を直接予測モデルに適用する。 a/{x1i}(i=1,..,N1)は音声サンプル1のN1のデジタル値のセットである。 b {R1m}(m=0,..,q)は({x1i},p,q,T,I,D)のためのq+1の相関マトリック スを表す。 c/{A1m}(m=1,..,q)は({x1i},p,q,T,I,D)のためのq-オーダーの直接予 測モデルである。 d/{x2i}(i=1,..,N2)は音声サンプル2のN2の数値のセットである。 e/{R2m}(m=0,..,q)は({x2i},p,q,T,I,D)のためのq+1の相関マトリックス を表す。 f/{A2m}(m=1,..,q)は({x2i},p,q,T,I,D)のためのq-オーダーの直接予 測モデルである。 g/EA11は直接エラーマトリックス({x1i},p,q,T,I,D,{A1m})である。 h/EA21は直接エラーマトリックス({x1i},p,q,T,I,D,{A2m})である。 i/EA12は直接エラーマトリックス({x2i},p,q,T,I,D,{A1m})である。 j/EA22は直接エラーマトリックス({x2i},p,q,T,I,D,{A2m})である。 上記のマトリックスは次のアルゴリズムを使用して直接算出できる。 G(E)はサイズp×pのマトリックスEの固有値の関数である。例えば、G(E)は 固有値(トレース(E))の合計、又は固有値(行列式(E))の積に等しくあり得る 。 2つの音声サンプルの間の計測された近似性は、 G(EA11EA12 -1),G(EA12 -1EA11),G(EA22EA21 -1) と G(EA21 -1EA22) の関数である。例えば、重み付けされた合計が選択され得る。 計測された近似性はまた、逆行モデルを基礎として、又は、2つのタイプのモ デリングをミックスすることにより定義され得る。 本発明の方法はまた、リファレンス辞書、すなわち、統計的特徴(相関マトリ ックス)と予測モデルの更新に関する。統計的特徴は、相関マトリックスの2つ のセットから相関マトリックス{Rm}の新たなセットを得ることができる任意 の可能な関数により更新される。相関マトリックスの2つのセットは、辞書{R 1m}のセットと、1又はそれ以上の新たな発声{R2m}からのセットである。 限定しない例により、相関マトリックスの新たなセット{Rm}は次の方程式 から得ることができる。 本発明の方法を図2に示すフローチャートを参照して詳細に説明する。このフ ローチャートは共通の幹1から出る2つの主要な枝を有しており、左側の枝は学 習(枝2)に関し、右側の枝は照合(枝 3)に関する。P1からP9の符号が付されたフェーズ1から9は前述したフェー ズ1から9に関連する。D1からD5の多くの中間での決定が、本方法のフェーズ の実行の間に行われる。 フェーズ1(P1)の間、話者は、可能な手段を使用して身元を申告する。話 者は彼にのみ知られたコードをタイプするか、磁気ストライプカードを使用する か、又は同様な手段をしようすることができる。そして、彼は、1つ又はそれ以 上のリソースにアクセスする目的で、オペレーションの2つのモードである学習 又は照合の1つを要求する。 フェーズP1の終了時点(出力10)に、第1の決定D1がなされる。決定D1 は、学習(枝20)又はフェーズP1で要求されたリソースへのアクセスのため の照合(枝30)に関する。例えば、学習は、もしそれが十分でないと考えられ る場合は、照合が学習に置き換えられ、もし要求されたオペレーティングモード 又はリソースが使用可能でない場合は、拒否が示され(枝11)得る。 前述したリソースは、自然に、もくろまれる特定のアプリケーションに依存す る。以下で例を説明する。 決定D1がプロセスを”学習”の枝2(D1の枝20)に切り替えたと仮定する と、フェーズ2(P2)が開始される。 フェーズP2は、身元が申告された話者の、1つ又はそれ以上の発声のリファ レンスを学習するための全ての動作を開始する。特定のアプリケーションにより 、それは音声入力活性化、辞書検索等の問題であり得る。 フェーズP2の終了時点(出力21)で、”学習”枝2におけるプロセスは直 接フェーズ4(P4)に行く。 前述した通り、フェーズP4の間、統計的特徴の抽出は3つのステップを実行 する。第1のステップは、1つ又はそれ以上の発声に相当する音声サンプルのデ ジタル獲得及び可能なフィルタリングである。本発明の主要な特徴の1つにより 、第2のステップは、第1 のステップによる結果を、平均サイズT及び平均間隔Iを有する解析ウィンドウ のシーケンスから得られたベクトルのシーケンスに変換する。第3のステップは 、上記のベクトルの連続からq+1の相関マトリックスを算出する。 フェーズP4(出力22)の終わりの時点で、第2の決定D2がなされる。学習 の間、発声リファレンスの更新とともに、身元を確認するために、話者の身元の 同定が決定され得る。その決定が”no”(枝23)の場合、直接フェーズ9( P9)が開始される。フェーズ9は以下で説明される。”yes”(枝24)の 場合は、フェーズ5(P5)が開始される。 フェーズP5は2ステップで実行される。第1のステップは、1つ又はそれ以 上の発声の統計的特徴(相関マトリックス)からqの予測マトリックスを算出す ることからなる。予測モデルを算出するための多くの選択肢がある。すなわち、 直接予測モデル、逆行予測モデル、又はこれら2モデルのコンビネーションであ る。第2のステップで、1つ又はそれ以上の発声の音声サンプルから算出される ベクトルのシーケンスと、同じベクトルから算出される予測モデルとの間のエラ ーマトリックスの逆を算出する。このq+1マトリックスのセットは、話者の発 声の予測モデルを定義する。話者の発声のリファレンスは、統計的特徴と関連す る予測モデルからなる。 この”学習”の枝2において、フェーズP5からの出力25の点で、フェーズ 7(P7)がフェーズ6(P6)をバイパスして直接開始される。 フェーズ7(P7)は4つのステップからなる。第1のステップは、全ての可 能な話者のリファレンスを含む辞書を抽出することからなる。第2のステップは 、前に選択されたリファレンスと同定されるべき音声サンプルのリファレンス( 又は統計的特徴のみ)間のエラーマトリックスを算出することからなる。第3の ステップは、前のステップで算出されたエラーマトリックスから計測された近似 性を算出することからなる。第4のステップで、第3のステップで算出された計 測された近似性から話者の同定の確率を算出する。 フェーズP7からの出力の時点で、第3の決定D3がなされる。決定D3はフェ ーズP7における同定の結果得られた身元とフェーズP1で申告された身元のの妥 当性に関する。結果が妥当でなければ、すなわち”no”枝27であれば、その プロセスは停止する。アプリケーションに応じて、このレベルでアクションがと られ得る。 ”yes”枝28であれば、プロセスは枝23(決定D2)、枝28(決定D3 )及び後述する枝39(決定D5)に共通な幹40に沿って続行する。そして、 フェーズ9(P9)が開始される。 フェーズ9は、辞書から話者の発声のリファレンスを更新、又は、辞書に新た な話者のリファレンスを追加する。リファレンスの更新は、話者のq+1の相関 マトリックスを辞書から抽出するステップと、q+1の新たな相関マトリックス を算出し、辞書に格納することを古いマトリックスと1つ又はそれ以上の発声か ら抽出されるそれらのマトリックスの蓄積により行うステップと、新たな相関マ トリックスに相当する予測モデルを算出し辞書に記録するステップとからなる。 新たな話者の発声のリファレンスを辞書に追加することは、話者のq+1の相関 マトリックスと関連する予測モデルを記録することからなる。 フェーズP9からの出力41において、使用するアプリケーションに依存する アクションがとられ得る。そのプロセスは通常停止し、新たな話者の場合は、シ ステムはその話者のために更新され、彼を認識できるようになる。 ここで、”照合”の枝3(決定D1からの出力30)を考える。その方法は、 フェーズ3(P3)を直接開始する。 フェーズP3は、身元が申告されている話者の照合のための全ての動作を開始 する。フェーズP2のように、特定のアプリケーションにより、それは音声入力 活性化、辞書検索等の問題であり得る。 P3からの出力31の時点で、フェーズP’4が開始される。フェーズP’4は ”学習”枝2のフェーズP4と同一であり、既に説明した。 同様に、フェーズP’4からの出力32の時点で、フェーズP’5が開始され、 フェーズP’5は”学習”枝2のフェーズP5と同一である。 フェーズP’5からの出力33において、フェーズ6(P6)が開始される。 フェーズ6は4ステップからなる。第1のステップは、いくつか又は全ての話 者のリファレンス(例えば、計測された近似性が良いK個のリファレンス)を辞 書から抽出することである。第2のステップで、前に選択されたいくつかまたは すべてのリファレンスと照合されるべき音声サンプルのリファレンス(もしくは 、統計的特徴のみ)間のエラーマトリックスを算出する。第3のステップは、前 のステップで算出されたエラーマトリックスのいくつか又は全てから計測された 近似性を算出することからなる。第4のステップで、第3のステップで算出され た計測された近似性から話者の照合の確率を算出する。 フェーズ6からの出力34において、第4の決定D4がなされる(”照合”枝 3における最初の決定である)。この決定は、認証モードにおける話者の身元の 認証又は非認証に関する。 認証が失敗、すなわち”no”枝35の場合、プロセスは停止するか、特定の アプリケーションに依存したアクションがとられる。例えば、これは、フェーズ P1で挿入された磁気ストライプカードを没収したり、音アラームが作動する等 であり得る。 ”yes”枝36の場合、フェーズ8(P8)が開始される。 フェーズP8で、第1のフェーズにおいて話者により要求されたリソースのい くつか又は全てにアクセスすることを許可する。例えば、特定のアプリケーショ ンにより、それはドアを開けたり、秘密 情報にアクセスさせる等の問題となり得る。 第5の決定D5はまた、この段階(フェーズP8からの出力37)においてなさ れ得る。 決定D5は、照合モード(枝3)において身元が非常に良く認証された場合に おける話者の発声リファレンスの可能な更新に関する。 決定D5の結果が”no”(枝38)である場合、プロセスはたいていの場合 停止する。 そうでなければ(”yes”枝39)、プロセスは出口枝4(共通幹40)に 再び切り替わり、フェーズP9が開始される。このフェーズは、既に説明したも のである。 ”学習”枝2に関して、フェーズP9からの出力41におけるアクションは、 自然に使用するアプリケーションに依存して、とられ得る。プロセスは通常停止 し、システムは現在の話者のために更新され、その話者は要求したリソース(フ ェーズP8)へのアクセスを得る。 本発明による方法のアプリケーションの第1の例を図3を参照して説明する。 意図するアプリケーションは、アクセスを許可された人にのみ制限するサウン ドロックや任意の種類の制御設備により、構内へのアクセスを保護することに関 する。ドアを解錠するために使用されるタイプのキーパッドKにより、話者Uは その身元を申告すると仮定する。この目的のために、話者は、本発明の方法を実 装したシステム5にコードを入力しなければならない。他の手段も用いられ得る 。磁気ストライプバッジ、スマートカード等である。 本システムは、それ自体では従来技術と共通の回路を含む。本システムは、知 られている話者を照合するために使用されるデータを保持する辞書51と、前述 した種々の計算と決定を実行するマイクロプロセッサ50又は任意の適当なデー タ処理システムを含む。現状の技術において、そのような計算は、図3には示し ていないが、 リードオンリーメモリ(例えばROM又はRAM)及び/又はバッキング記憶装 置(ハードディスク)に保持されたプログラムの制御の下で行われる。 簡単のため、この段階ではオペレーションの1つのモード、照合モード、だけ 可能であると仮定する。 キーパッドKに加えて、話者をガイドするための手段が提供され得る。例えば 、デジタルーアナログコンバーター6を介してシステム5により制御されるラウ ドスピーカLSである。この手段により、話者Uへ指示が与えられ得る。その代 りにディスプレイスクリーン、例えば液晶ディスプレイが提供され、同様の指示 を与え、システム5によりとられる種々の決定のオペレーション及び結果の進行 にアドバイスをする。 最後に、マイクMi又は任意の適当な電気-音変換器が、話者Uの音声をピック アップするために提供される。アナログ-デジタル変換器7がマイク5の電気出 力信号をマイクロプロセッサ50が読めるようなデジタル信号に変換する。この 目的のために、変換器7の出力は、パラレル又はシリアルポートに接続され得る (これ自体はよく知られている)。 キーパッドKにコードが入力されると、システム5は、要求者すなわち話者U の推定される身元についてのデータを獲得する。フェーズP3及びそれに続くフ ェーズ、そして特にフェーズP’4(フェーズ4)が開始され得、システム5に より決定がなされる点、すなわちフェーズP6からの出力における決定D4がなさ れる点まで実行され得る。 その決定が好ましいものであれば(図2の枝36)、フェーズP8が実行され 、話者は要求したリソースへのアクセスを得る。そのアクセスは例えば、図3に おけるモーターによりシンボライズされる電気ロックを備えたドアを持つ家屋へ のアクセスである。簡単のため、ロックへの電気エネルギーの供給は、システム 5により運ば れる電気信号Vcにより制御されるリレーRにより制御されると仮定する。 フェーズP8の終わりにおいて、プロセスは停止するか(図2の枝38、決定 D5による)又はフェーズP9に進み、そこで辞書51は話者Uのために更新され る。 ただ1つのオペレーションモード、すなわちこのタイプのアプリケーションに より適している”照合”モードのみを本システムが提供すると仮定したが、”学 習”モードも同様にしてインストールされ得る。例えば、その2つのモードの選 択を可能とするか又はコード入力を繰り返す特別なキーをキーパッドK上に設け 、他の場所に音声獲得装置設けることで十分である。 この場合、プロセスをフェーズ2又は3へ切り替える(図2の決定D1)ため の回路と指示Pを実装し、そのフェーズ(図2のP2、P4、P5及びP7)及び枝 2に特有の決定(図2のD2とD3)を実行する必要がある。 本方法の第2のアプリケーションのシリーズは、図4を参照して説明される。 意図されるアプリケーションは、遠隔情報への安全なアクセスに関する。例え ば、それは、金融(銀行、株式交換等)オペレーション及び取引の有効性を確認 する問題であり得る。 関係する人々は、決定センターには近くないので、彼らは、本発明の範囲外で ある安全なデータ通信手段を持たなければ、標準の電話を使用して要求を入力す る。 図4は、安全な取引のために本発明の方法を使用するシステムの構成を示す図 である。ここでは、”取引(transactions)”という用語は、上述した種々の定 義を含む最も広い意味で使用されている。 話者Uは”指定の情報センタ”8へ電話するために電話9を使用する。例えば 、これは銀行や任意の同様な組織(株式ブローカー等)であり得る。 例をより具体的にするために、話者が与えられた額を自分の口座から他の口座 に移す指示を与えることを欲していると仮定する。認証に最も重要なデータはも ちろん指示を与える人の身元である。パスワードのような通常の技術や同様の技 術を使用することができ、もしくは、発呼者の身元を確証するために、その銀行 が事前に合意した番号で発呼者を呼び返すこともできる。しかしながら、そのよ うな技術による安全性は制限されている。 上記の種類の呼は、図3のシステム5と同様に、話者Uの身元を認証するため にシステム5に切り替えられる。他の例では、図4に示すように、この種の呼の ための電話番号が予約されており、その呼は、システム5に接続されたスペシャ リストセンタ(図には記載せず)に直接接続される。 システム5はその話者を”歓迎”し、続くオペレーションを通して彼らをガイ ドする。例えば、音声シンセサイザー(図には記載せず)を使用してこれを行う 。 電話は数字キーと共にキーパッドKを含み、話者Uは個人の身元番号(Person al identification number)をそのキーパッドを使用して入力することができる ものと仮定する。これにより、プロセスのフェーズP1が開始する。 PIN(Personal identification numberの略)は同様にして、カードリーダ を有する”MINITEL”タイプの端末を使用して入力される。 前述の音声シンセサイザーは、即座な拒否(図2の決定D1、”拒否”枝11 )がなければ、”照合”枝(図2の3)に特有の他のフェーズの実行を可能とす るための1つ又はそれ以上のフレーズを話者に話させるように要求を行うことが できる。この可能性は、キーパッドで入力されたコードがシステムにより認識さ れない場合に、存在する。すなわち、間違ったコード又は意図した不正である。 一般的に行われている方法では、制限された数試行が許容され得る (例えば3回)。失敗した各試行はフェーズP1にループする。N番目の失敗試 行(Nは最大数である)の終わりには、リンクは切断され、呼の記録がメモリに 保持される。 照合フェーズが普通に進めば、フェーズP8の終わりには、話者の身元は正式 に照合され、音声が認識されるようになる。それゆえ、これは”電子署名”と同 等物であり、この例では音の同等物である。検証により、安全性のレベルは非常 に高く、(認識の)成功率は数百の話者に対して99%のオーダーである。また 、話されるテキストの文脈には制限がないということは明確に理解されるべきで ある。最後に、非認証の場合は、システムは要求リソースへのアクセスを与えな い。 説明した例において、システム5は自動化システム又は物理的な人8へのアク セスを提供することができる。 前者においては、話者Uは指示や要求を送信するためにキーパッドKのキーを 使用することができる。後者では、発呼者Uの身元を知る他者と直接話すことが できる。例えば、制限された情報(口座残高等)を得るために、話者Uは同様に して音声サーバに接続され得る。 それゆえ、このシステムは、非常に多数のオペレーションの遠隔実行と、全て の種類の情報を最大限の安全性を持って獲得することを可能とする。 上述の説明を読むことにより、本発明は前述の目的を達成することが明らかと なる。 図3及び4を参照して詳細に説明した2シリーズのアプリケーションに特に良 く適合するが、本発明はこの種類のアプリケーションのみに限定されるものでな いことは理解されるべきである。 他に例えば、特に、 ‐話者の照合、話者の同定及び話者変更の捕捉に関連したマルチメディアデー タの索引付け。 ‐法律の目的で使用される生物測定学的同定、合意の節の照合と確認、IDカ ードの製造。 ‐コミュニケーションチャネルの監視 等の多くのアプリケーションがある。
【手続補正書】特許法第184条の8第1項 【提出日】平成10年4月30日(1998.4.30) 【補正内容】 請求の範囲 1. p及びqは0でない整数であり、話者(U)の少なくとも1つの発声に該 当する話者(U)の特定の期間Dの音声サンプルをデジタル獲得する少なくとも 1つのステップと、 上記音声サンプルを平均期間T及び平均間隔Iを有する解析ウィンドウのシー ケンスから得られる特定サイズpのベクトルのシーケンスへ変換するステップと 、 このベクトルのシーケンスからサイズp×pのq+1の相関マトリックスを決 定するステップとを含む統計的特徴(P4,P'4)を抽出する少なくとも1つの フェーズからなるq-オーダー予測モデルを使用する話者音声認識の方法であっ て、 上記平均期間Tは10ms未満の期間を有することを特徴とする方法。 2. 上記平均間隔Iは4.5ms未満の期間を有することを特徴とする請求項 1記載の方法。 3. 上記平均間隔I、上記平均期間T及び予測モデルの上記オーダーqは、 I<T/max(3,q) の関係を有することを特徴とする請求項2記載の方法。 4. 上記相関マトリックス及び上記該当する予測モデルは少なくとも1つの辞 書(51)に格納され、上記話者の上記q+1の相関マトリックスを辞書(51 )から抽出する第1のステップと、 話者の新たな音声サンプルを上記ベクトルのシーケンスに変換することにより 得られたサイズpのベクトルからq+1の相関マトリックスの新たなシーケンス を決定する第2のステップと、 該第1のステップの間に抽出されたq+1の相関マトリックスと該第2のステ ップの間に決定されたq+1の相関マトリックスを上記辞書(51)の1つに蓄 積し格納することからなるq+1の更新された相関マトリックスのシーケンスを 決定する第3のステップとを少なくとも含む、特定話者(U)のために上記辞書 (51)の1つを更新するフェーズ(P9)を含むことを特徴とする請求項1な いし3のうちいずれか1項記載の方法。 5. 上記第3のステップは更に、q+1の更新された相関マトリックスのシー ケンスの決定に該当する予測モデルを決定し、それを上記辞書に格納することか らなることを特徴とする請求項4記載の方法。 6. 上記相関マトリックス及び上記該当する予測モデルは少なくとも1つの辞 書(51)に格納され、上記方法は新たな話者(U)に関連する統計データの学 習フェーズ(P2,P4,P5,P7,P9)のシーケンスからなり、 該シーケンスは、新たな話者の新たな音声サンプルを上記ベクトルのシーケン スへ変換することにより得られるサイズpのベクトルからq+1の相関マトリッ クスの新たなシーケンスを決定し、上記q+1の相関マトリックスのシーケンス に該当する予測モデルを決定する第1のステップと、 該第1のステップで決定されたq+1の相関マトリックス及び予測モデルを上 記辞書(51)に格納することからなる第2のステップとを少なくとも含む少な くとも1つのフェーズ(P9)からなることを特徴とする請求項1ないし3のう ちいずれか1項記載の方法。 7. 上記方法は話者の身元を照合するためのフェーズ(P3,P’4,P’5, P6,P8)のシーケンスからなり、該シーケン スは少なくとも、 ‐少なくとも1つの発声の上記統計的特徴から、qの予測マトリックスを決定 することからなる第1のステップと、 各発声の音声サンプルから算出されるp次元のベクトルのシーケンスと、これ らの同様のベクトルから算出される予測モデルである話者の発声の予測モデルを 定義するq+1のマトリックスのセット及び上記統計的特徴ならびに関連する予 測モデルからなる話者の発声のリファレンスとの間のエラーマトリックスの逆を 算出する第2のステップとを含む予測モデルを決定するフェーズ(P’5) ‐少なくとも同一の話者の発声リファレンスが辞書から抽出される第1のステ ップと、 前に抽出された少なくともいくつかの発声リファレンスと、照合されるべき音 声サンプルの発声リファレンスとの間のエラーマトリックスを算出する第2のス テップと、 該第2のステップで算出されたエラーマトリックスの少なくともいくつかから 計測された近似性を算出することからなる第3のステップと、 該第3のステップで算出された計測された近似性から上記話者の照合の確率を 算出する第4のステップとを含む、上記話者の身元を照合するフェーズ(P6) 、及び ‐上記身元の照合が成功のとき、予備のフェーズ(P1)の間に上記話者によ り前に要求された予め定められたリソースの少なくともいくつかのセットにアク セスすることを許可するフェーズ(P8)、 からなることを特徴とする請求項1ないし3のうちいずれか1項記載の方法。 8. 上記予測モデルはベクトル自己回帰予測モデルであることを特徴とする請 求項1ないし7いずれか1項記載の方法。 9. 少なくとも1人の許可された話者に制限されたリソースへの安全なアクセ スのためのシステムであって、上記システムは請求項7または8に記載の方法を 使用し、 上記話者の音声サンプルをデジタル信号に変換するためのデバイス(7)に接 続された少なくとも1つの電気音変換器と、 少なくとも1つの辞書(51)に接続され、照合されるべき音声サンプルの上 記発声リファレンスを決定するための上記デジタル信号を受信し、上記リファレ ンスから及び辞書(51)に格納された発声リファレンスから話者(U)の身元 を照合し、1つの状態が上記リソースへのアクセスを許可する許可された話者の 身元の照合が肯定的であることを表す、少なくとも2つの状態を有する制御信号 (Vc)を伝達する蓄積プログラム制御計算システム(5、50)とを含む、照 合されるべき話者(U)の音声サンプルに感応するサウンドロックからなること を特徴とするシステム。 10. 少なくとも1人の許可された話者に制限された取引への安全なアクセス のためのシステムであって、上記システムは請求項7または8に記載の方法を使 用し、 少なくとも1つの電気音変換器を含む少なくとも1つの電話デバイス(9)か らなり、 該電話デバイス(9)は、少なくとも1つの辞書(51)に接続した蓄積プロ グラム制御計算システム(5、50)において照合される少なくとも1つの話者 の音声サンプルを電話線で送り、 該システムは照合されるべき音声サンプルの上記発声リファレンスを決定し、 上記リファレンスから及び辞書(51)に格納された発声リファレンスから話者 (U)の身元を照合し、許可された話者の身元の照合が肯定的である場合に上記 取引を許可することを特徴とするシステム。

Claims (1)

  1. 【特許請求の範囲】 1. p及びqは0でない整数であり、話者(U)の少なくとも1つの発声に該 当する話者(U)の特定の期間Dの音声サンプルをデジタル獲得する少なくとも 1つのステップと、 上記音声サンプルを平均サイズT及び平均間隔Iを有する解析ウィンドウのシ ーケンスから得られる特定サイズpのベクトルのシーケンスへ変換するステップ と、 このベクトルのシーケンスからq+1の相関マトリックスを決定するステップ とを含む統計的特徴(P4,P'4)を抽出する少なくとも1つのフェーズからな るq-オーダー予測モデルを使用する話者音声認識の方法であって、 上記平均サイズTは10ms未満の期間を有することを特徴とする方法。 2. 上記平均間隔Iは4.5ms未満の期間を有することを特徴とする請求項 1記載の方法。 3. 上記平均間隔I、上記平均サイズT及び予測モデルの上記オーダーqは、 I<T/max(3,q) の関係を有することを特徴とする請求項2記載の方法。 4. 上記相関マトリックス及び上記該当する予測モデルは少なくとも1つの辞 書(51)に格納され、上記話者の上記q+1の相関マトリックスを辞書(51 )から抽出する第1のステップと、 話者の新たな音声サンプルを上記ベクトルのシーケンスに変換することにより 得られるサイズpのベクトルからq+1の相関マトリックスの新たなシーケンス を決定する第2のステップと、 該第1のステップの間に抽出されたq+1の相関マトリックスと該第2のステ ップの間に決定されたq+1の相関マトリックスを上記辞書(51)の1つに蓄 積し格納することからなるq+1の更新された相関マトリックスのシーケンスを 決定する第3のステップとを少なくとも含む、 特定話者(U)のために上記辞書(51)の1つを更新するフェーズ(P9) を含むことを特徴とする請求項1ないし3のうちいずれか1項記載の方法。 5. 上記第3のステップは更に、q+1の更新された相関マトリックスのシー ケンスの決定に該当する予測モデルを決定し、それを上記辞書に格納することか らなることを特徴とする請求項4記載の方法。 6. 上記相関マトリックス及び上記該当する予測モデルは少なくとも1つの辞 書(51)に格納され、上記方法は新たな話者(U)に関連する統計データの学 習フェーズ(P2,P4,P5,P7,P9)のシーケンスからなり、 該シーケンスは、新たな話者の新たな音声サンプルを上記ベクトルのシーケン スへ変換することにより得られるサイズpのベクトルからq+1の相関マトリッ クスの新たなシーケンスを決定し、上記q+1の相関マトリックスのシーケンス に該当する予測モデルを決定する第1のステップと、 該第1のステップで決定されたq+1の相関マトリックス及び予測モデルを上 記辞書(51)に格納することからなる第2のステップとを少なくとも含む少な くとも1つのフェーズ(P9)からなることを特徴とする請求項1ないし3のう ちいずれか1項記載の方法。 7. 上記方法は話者の身元を照合するためのフェーズ(P3, P’4,P’5,P6,P8)のシーケンスからなり、該シーケンスは少なくとも、 ‐少なくとも1つの発声の上記統計的特徴から、qの予測マトリックスを決定 することからなる第1のステップと、 各発声の音声サンプルから算出されるp次元のベクトルのシーケンスと、同様 のベクトルから算出される予測モデルである話者の発声の予測モデルを定義する q+1のマトリックスのセット及び上記統計的特徴ならびに関連する予測モデル からなる話者の発声のリファレンスとの間のエラーマトリックスの逆を算出する 第2のステップとを含む予測モデルを決定するフェーズ(P’5) ‐少なくとも同一の話者の発声リファレンスが辞書から抽出される第1のステ ップと、 前に抽出された少なくともいくつかの発声リファレンスと、照合されるべき音 声サンプルの発声リファレンスとの間のエラーマトリックスを算出する第2のス テップと、 該第2のステップで算出されたエラーマトリックスの少なくともいくつかから 計測された近似性を算出することからなる第3のステップと、 該第3のステップで算出された計測された近似性から上記話者の照合の確率を 算出する第4のステップとを含む、上記話者の身元を照合するフェーズ(P6) 、及び ‐上記身元の照合が成功のとき、予備のフェーズ(P1)の間に上記話者によ り前に要求された予め定められたリソースの少なくともいくつかのセットにアク セスすることを許可するフェーズ(P8)、 からなることを特徴とする請求項1ないし3のうちいずれか1項記載の方法。 8. 上記予測モデルはベクトル自己回帰予測モデルであることを 特徴とする請求項1ないし7のうちいずれか1項記載の方法。 9. 少なくとも1人の許可された話者に制限されたリソースへの安全なアクセ スのためのシステムであって、上記システムは請求項7または8に記載の方法を 使用し、 上記話者の音声サンプルをデジタル信号に変換するためのデバイス(7)に接 続された少なくとも1つの電気音変換器と、 少なくとも1つの辞書(51)に接続され、照合されるべき音声サンプルの上 記発声リファレンスを決定するための上記デジタル信号を受信し、上記リファレ ンスから及び辞書(51)に格納された発声リファレンスから話者(U)の身元 を照合し、1つの状態は上記リソースへのアクセスを許可する許可された話者の 身元の照合が肯定的であることを表す、少なくとも2つの状態を有する制御信号 (Vc)を伝達する蓄積プログラム制御計算システム(5、50)を含む、 照合されるべき話者(U)の音声サンプルに感応するサウンドロックからなる ことを特徴とするシステム。 10. 少なくとも1人の許可された話者に制限された取引への安全なアクセス のためのシステムであって、上記システムは請求項7または8に記載の方法を使 用し、 少なくとも1つの電気音変換器を含む少なくとも1つの電話デバイス(9)か らなり、 該電話デバイス(9)は、少なくとも1つの辞書(51)に接続した蓄積プロ グラム制御計算システム(5、50)において照合される少なくとも1つの話者 の音声サンプルを電話線で送り、 該システムは照合されるべき音声サンプルの上記発声リファレンスを決定し、 上記リファレンスから及び辞書(51)に格納された発声リファレンスから話者 (U)の身元を照合し、許可された話者 の身元の照合が肯定的である場合に上記取引を許可することを特徴とするシステ ム。
JP09539577A 1996-05-03 1997-04-25 アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法 Pending JP2001501740A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9605566A FR2748343B1 (fr) 1996-05-03 1996-05-03 Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces
FR96/05566 1996-05-03
PCT/FR1997/000753 WO1997042625A1 (fr) 1996-05-03 1997-04-25 Procede de reconnaissance vocale d'un locuteur mettant en oeuvre un modele predictif, notamment pour des applications de controle d'acces

Publications (1)

Publication Number Publication Date
JP2001501740A true JP2001501740A (ja) 2001-02-06

Family

ID=9491813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09539577A Pending JP2001501740A (ja) 1996-05-03 1997-04-25 アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法

Country Status (7)

Country Link
US (1) US6349279B1 (ja)
EP (1) EP0896711B1 (ja)
JP (1) JP2001501740A (ja)
DE (1) DE69702602T2 (ja)
ES (1) ES2150246T3 (ja)
FR (1) FR2748343B1 (ja)
WO (1) WO1997042625A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
KR20010054622A (ko) * 1999-12-07 2001-07-02 서평원 음성 인식 시스템의 음성 인식률 향상 방법
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
DE102014002207A1 (de) 2014-02-20 2015-08-20 Friedrich Kisters Verfahren und Vorrichtung zur Identifikation oder Authentifikation einer Person und/oder eines Gegenstandes durch dynamische akustische Sicherheitsinformationen

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4956865A (en) * 1985-01-30 1990-09-11 Northern Telecom Limited Speech recognition
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
JPS62235998A (ja) * 1986-04-05 1987-10-16 シャープ株式会社 音節識別方式
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
US5097509A (en) * 1990-03-28 1992-03-17 Northern Telecom Limited Rejection method for speech recognition
FR2696036B1 (fr) * 1992-09-24 1994-10-14 France Telecom Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé.
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system

Also Published As

Publication number Publication date
ES2150246T3 (es) 2000-11-16
US6349279B1 (en) 2002-02-19
DE69702602D1 (de) 2000-08-24
FR2748343B1 (fr) 1998-07-24
WO1997042625A1 (fr) 1997-11-13
DE69702602T2 (de) 2001-01-04
EP0896711B1 (fr) 2000-07-19
EP0896711A1 (fr) 1999-02-17
FR2748343A1 (fr) 1997-11-07

Similar Documents

Publication Publication Date Title
US6081782A (en) Voice command control and verification system
US4827518A (en) Speaker verification system using integrated circuit cards
EP0953972B1 (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
US7054811B2 (en) Method and system for verifying and enabling user access based on voice parameters
EP0746846B1 (en) Voice-controlled account access over a telephone network
US6931375B1 (en) Speaker verification method
EP0647344B1 (en) Method for recognizing alphanumeric strings spoken over a telephone network
US5893057A (en) Voice-based verification and identification methods and systems
US9373325B2 (en) Method of accessing a dial-up service
JPH0354600A (ja) 不明人物の同一性検証方法
US20080071538A1 (en) Speaker verification method
JP2001501740A (ja) アクセス制御アプリケーションのための、予測モデルを使用する話者の音声認識方法
CA2253276C (en) Method for the voice recognition of a speaker using a predictive model, particularly for access control applications
US9978373B2 (en) Method of accessing a dial-up service

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060919

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070517

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070702

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081014