JPH1083194A

JPH1083194A - 話し手照合システムのための２段階群選択方法

Info

Publication number: JPH1083194A
Application number: JP9204261A
Authority: JP
Inventors: William D Goldenthal; ディーゴールデンタールウィリアム; Brian S Eberman; エスエバーマンブライアン
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1996-07-31
Filing date: 1997-07-30
Publication date: 1998-03-31
Anticipated expiration: 2017-07-30
Also published as: DE69728939T2; EP0822539B1; US6205424B1; EP0822539A3; EP0822539A2; DE69728939D1; JP3390632B2

Abstract

(57)【要約】【課題】話された発音から個人の認識を照合する方法
を提供する。【解決手段】既知の認識を有する話し手からのスピー
チ信号を使用して、音響モデルの組が形成される。これ
らの音響モデルは、それに対応する認識と共に、メモリ
に記憶される。スピーチ信号を特徴付ける複数の組の群
モデルが、その記憶された音響モデルの組から選択さ
れ、そして各識別された話し手の音響モデルの組にリン
クされる。テスト段階中に、請求された認識を有する未
知の話し手により発生されたスピーチ信号が処理され
て、処理済のスピーチ信号を形成する。この処理済のス
ピーチ信号は、請求された話し手のモデルの組と比較さ
れ、第１の得点が形成される。処理済のスピーチ信号
は、群モデルの組とも比較され、第２の得点が形成され
る。第２の得点から所定の基準に基づいて得点の副組が
動的に選択される。未知の話し手は、第１の得点と、得
点の副組の組み合わせとの間の差が所定のスレッシュホ
ールド値より大きい場合に、請求された話し手であると
確認される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、自動的な
スピーチの処理に係り、より詳細には、話された発音か
ら個人の認識を照合することに係る。

【０００２】

【従来の技術】話し手は、１組の調音器官を整合状態で
作用させながら声道に空気を押し流すことにより音声を
発する。調音器官は、舌、唇、顎、声帯及び口蓋帆を含
む。声道は、肺、喉、口及び鼻孔を含む。調音器官及び
声道についての話し手の生理学的な特性により、異なる
話し手のスピーチ表現に音響的な変化が生じる。更に、
スピーチを発する間に使用する動的な調音的身振りが話
し手の間で相違する。

【０００３】本発明の目的は、これらの変化の効果を取
り入れて、スピーチの内容とは独立して、話された発音
に基づいて、話し手が請求した本人であるかを照合する
ことである。

【０００４】話し手の自動的な照合は、個人の真の認識
が最重要である場合、即ちクレジットカード又は電話発
呼カードを含む財務的な取引が名うての詐欺行為を被る
傾向がある場合に著しく価値がある。銀行及びクレジッ
トカード会社に対する損害だけで年間に５０億ないし１
００億ドルに達すると推定される。又、話し手の照合
は、セルラー電話のような音声通信装置の無断使用を減
少するのに使用することもできる。

【０００５】話し手照合システムにおいては、既知の認
識を有する個人が「トレーニング」段階中に発音又はス
ピーチのサンプルを供給する。連続的なスピーチ信号の
サンプルは、デジタルで分析されて、１組の音響特徴を
各々含む観察ベクトルの一時的な個別シーケンスを形成
する。各観察ベクトルは、スピーチの「フレーム」と称
する。フレームの成分は、スピーチ信号の個別部分を表
すために選択された音響的な属性である。個人個人のフ
レームは、スピーチを表すモデルを形成するように更に
処理することができる。これらのモデルは、対応する個
人の認識と共にデータベースに記憶することができる。

【０００６】その後、「テスト」段階中に敏速な一連の
ワード又は自発的なスピーチを個人に発音させることに
より個人の請求された認識を照合することができる。こ
れらの「照合」又はテストスピーチ信号は分析され、そ
してその「請求された」認識に対応する予め記憶された
観察モデルと比較され、得点が決定される。例えば、得
点は、対数確率得点、即ち得点＝ｌｏｇｐ（Ｏ／Ｉ）
として表すことができる。この例では、ｐは、観察され
たフレームＯが個人Ｉにより発生される確率を表す。得
点が所定のスレッシュホールドを越えると、その個人
は、請求した本人であると仮定される。

【０００７】

【発明が解決しようとする課題】理想的には、一貫した
音響条件のもとで、話し手照合の問題を簡単な仮説テス
トとして処理することができる。不都合なことに、トレ
ーニング条件とテスト条件との間の音響的な変化が問題
を複雑化する。例えば、トレーニング中に使用するマイ
クロホンは、テスト中に使用するものとは音響特性が相
違する。又、バックグランドのノイズ特性も相違する。
更に、テスト中に使用するスピーチサンプルは、おそら
く信号を歪めるであろう予想不能な伝達特性をもつ電話
ネットワークを経て中央の照合場所に到達する。更に、
トレーニング中に使用するサンプリングレートは、テス
ト中に使用するサンプリングレートと相違する。

【０００８】これら全ての要因が等価エラー率を増加さ
せる。等価エラー率とは、誤って拒絶される正しい話し
手（偽の否定）の割合が、誤って受け入れられる詐欺師
（偽の肯定）の割合に等しい点である。等価エラー率の
低いシステムが優れた性能を有する。

【０００９】公知技術においては、等価エラー率を最小
にするための技術として群(cohort)正規化が使用されて
いる。群正規化においては、各話し手個人のモデルが
「群」個人のモデルにリンクされる。「トレーニング」
されたモデルを有する全ての話し手のプールから群を選
択することができる。或いは、多数の話し手のモデルか
ら群モデルを合成することもできる。公知技術において
は、少数の、通常は１０未満の「群」モデルが各々の識
別された個人のモデルにリンクされる。一般に、使用す
る群が多い場合には、エラー率が増加する。

【００１０】テスト中には、認識が請求された話し手の
モデルから得られた得点が、小さな１組の群モデルから
得られた全得点と比較され、１組の得点差が形成され
る。これらの差が、「正規化」された得点として使用さ
れ、例えば、正規化された得点＝ｌｏｇｐ（Ｏ／Ｉ）
−ｆ〔ｌｏｇｐ（Ｏ／（Ｃ_k（Ｉ））〕であり、ここ
で、ｌｏｇｐ（Ｏ／（Ｃ_k（Ｉ））は、請求された個
人にリンクされるｋ個の群に対する得点である。関数ｆ
は、正規化中の全ての群得点を合成することができる。
この関数は、統計学的な性質で、例えば、最大値、アベ
レージ、パーセント、中位数、平均、又は中性ネットワ
ークの出力である。

【００１１】群正規化は、テスト状態中の音響的変化を
補償するスレッシュホールドを与える。請求された話し
手の得点と群の得点との間の差を決定するのが非常に効
果的であると分かっており、これについては、ロゼンベ
ルグ、デロン、リー、ジュアン及びスーン著の「話し手
照合のための群正規化得点の使用(The Use of CohortNo
rmalized Scores for Speaker Verification)」、Ｐｒ
ｏｃ．ＩＣＳＬＰ、１９９２年１０月、第５９９−６
０２ページを参照されたい。ここでは、１組の５つの群
を用いた交差マイクロホン状態に対してエラー率の減少
係数５が報告されている。

【００１２】公知技術においては、特定の話し手の１組
の群が、トレーニングデータに基づき音響空間における
話し手のモデルに対する「接近度」のある尺度、例え
ば、多次元の統計学的距離によって選択される。しかし
ながら、１つ以上の選択された群に対し所与の発音の得
点が低いことは、システム性能の著しい低下を依然生じ
ることが観察されている。

【００１３】低い得点を補償するために、得点スレッシ
ュホールドを大きな値にセットし、低い得点を詐取する
ことのできる詐欺師がおそらく拒絶されるようにするこ
とができる。しかしながら、スレッシュホールドを高く
すると、有効な話し手が誤って拒絶される確率も増加
し、例えば、等価エラー率が増加する。

【００１４】それ故、等価エラー率を減少するような群
選択機構が要望される。等価エラー率を減少すると、テ
スト中に音響環境に変化が存在しても、詐欺師を拒絶す
る確率が高くなる一方、実際に請求をした本人である個
人を誤って拒絶する率が低くなる。

【００１５】

【課題を解決するための手段】本発明においては、２段
階の群選択技術を用いて、未知の話し手の請求された認
識を有効化する話し手照合プロセスの等価エラー率を減
少する。本発明は、その広い形態においては、請求項１
に記載のスピーチ識別により個人の認識を照合する方法
に係る。又、本発明は、請求項６に記載のスピーチ認識
システムにおいて群得点を選択する方法にも係る。

【００１６】より詳細には、トレーニング又は登録段階
中に、既知の認識を有する話し手からのスピーチ信号を
用いて、音響モデルの組が形成される。音響モデルは、
それに対応する話し手の認識と共に、後で使用するため
にメモリに記憶される。メモリは、販売点において使用
されるクレジットカードの背面の磁気ストリップでもよ
いし、又はネットワークを経てアクセスできる中央のデ
ータベースでもよい。

【００１７】トレーニング段階中に各話し手に対し音響
モデルの組から複数の組の群モデルが選択される。選択
された複数の組の群モデルは、対応する話し手のスピー
チを特徴付けるものである。群モデルの組は、各識別さ
れた話し手の音響モデルの組にリンクされる。

【００１８】テスト段階中に、請求された認識を有する
未知の話し手により発生されたスピーチ信号が処理され
て、処理済のスピーチ信号が発生される。処理済のスピ
ーチ信号は、請求された話し手の音響モデルの組と比較
されて、第１の得点が発生される。又、処理済のスピー
チ信号は、群モデルの組とも比較されて、第２の得点が
発生される。第２の得点から、所定の選択基準に基づい
て得点の副組が選択される。例えば、テスト段階の処理
済スピーチを最も良く特徴付ける群モデルに対して得点
の副組が選択される。

【００１９】未知の話し手は、第１の得点と、第２の得
点の副組の組み合わせとの間の差が所定のスレッシュホ
ールド値より大きい場合に、請求された話し手として有
効化される。

【００２０】

【発明の実施の形態】以下、添付図面を参照し、本発明
の好ましい実施形態を一例として詳細に説明する。音声
は、声道の１組の調音器官の整合した働きによって発生
される。音声出力を発生する調音器官の生理学的な特性
は、話し手に依存する。有効化得点の正規化に２段階の
群選択プロセスを使用する話し手照合システムが提案さ
れる。

【００２１】図１及び２は、話し手照合に使用される２
段階群選択プロセスを一般的に示している。トレーニン
グ又は登録段階中に、既知の認識１０１を有する話し手
は、トレーニングスピーチ信号１０２を供給する。図２
のアナログ／デジタルコンバータ（ＡＤＣ）１１０は、
トレーニングスピーチ信号１０２の連続的なアナログ音
響波形をライン１１１のデジタル信号へと変換する。デ
ジタル信号プロセッサ（ＤＳＰ）１３０は、デジタル化
された信号を、ライン１３１上のベクトル又は観察フレ
ームの一時的シーケンスへと変換する。

【００２２】例えば、ＤＳＰ１３０は、デジタル信号の
短時間フーリエ変換に基づいてメル周波数ケプストラム
係数(Mel-Frequency cepstral coefficient)（ＭＦＣ
Ｃ）を発生することができる。ＭＦＣＣ表示は、Ｐ．マ
ーメルステイン及びＳ．デービス著の「連続的に話され
たセンテンスにおける単音節ワード認識のためのパラメ
ータ表示の比較(Comparison of Parametric Representa
tion for monosyllabicWord Recognition in Continuou
sly Spoken Sentences)」、ＩＥＥＥＴｒａｎｓＡ
ＳＳＰ、第２３巻、第１号、第６７−７２ページ、１９
７５年２月に掲載されている。

【００２３】ケプストラム係数は、各フレームのパワー
スペクトルが比較的少数のパラメータを用いて表される
ので、著しいデータ減少を与える。各フレームは、所与
の時点における連続波形１０２を表す１組の音響的特徴
をパラメータ化する。各フレームは、例えば、ＭＦＣＣ
パラメータを含む。

【００２４】これらフレームは、モデルジェネレータ１
４０によって更に処理されて、元のスピーチ信号１０２
を特徴付ける音響モデル１５０の組を形成する（図１の
ステップ１０）。登録を希望する各々の識別された話し
手ごとに１組の音響モデル１５０がある。音響モデル１
５０の組は、それらの各々の認識１０１と共にモデルデ
ータベース（ＤＢ）１６０に記憶することができる。

【００２５】モデル１５０を形成するために、モデルジ
ェネレータ１４０は、スピーチ処理に対するセグメント
ベースの解決策であるパターン分類及び認識方法を使用
することができる。セグメントベースの解決策は、統計
学的な軌道モデリング（ＳＭＴ）と称される。

【００２６】ＳＭＴによれば、各組の音響モデル１５０
は、「トラック」及びエラー統計学的情報を含む。トラ
ックとは、スピーチのセグメントにわたる動的な音響属
性の軌道又は一時的な展開として定義される。統計学的
軌道モデリングの間に、トラックは、可変巾のスピーチ
の指定のセグメントにマップされる。指定のセグメント
は、スピーチの単位、例えば、単音、又は１つの単音か
ら別の単音への移行である。

【００２７】トラックの目的は、スピーチ信号のセグメ
ントの時間巾にわたる音響属性の動的な振る舞いを正確
に表しそしてそれを考慮することである。エラー統計学
的情報は、トラックがスピーチの識別された単位にいか
に良好にマップすると予想されるかの尺度である。エラ
ー統計学的情報は、トラックから発生されるスピーチの
合成単位をスピーチの実際の単位に相関させることによ
り発生することができる。スピーチの合成単位は、スピ
ーチの単位に最良に適合するようにトラックを「変形」
することにより発生できる。

【００２８】モデル１５０を形成するのに加えて、各々
の識別された話し手のトレーニングスピーチ信号１０２
は、データベース１６０に記憶された他の話し手のモデ
ルの組と比較される。モデルが比較に使用される他の話
し手は、例えば、年齢や性別や身長や体重のような話し
手に依存する類似性を有する。これは、上記の得点を発
生する。得点は、識別された話し手のトレーニングスピ
ーチ信号１０２と、他の話し手のモデルとの間の相違の
尺度を指示する。

【００２９】各々の識別された話し手のスピーチ信号を
特徴付ける複数の組の「群」モデル（ＣＭ）１７０が、
他の話し手の音響モデルの使用可能な組から選択され
る。この選択は、所定の選択基準に基づいて行うことが
でき、例えば、識別された話し手のスピーチを最良に特
徴付けるモデル、又はある所定の確率密度関数に特徴が
適合するモデルが選択される。群モデル１７０の選択さ
れた組は、識別された話し手のモデルの組にリンクされ
る。

【００３０】本発明によれば、選択される群モデルの組
の数は、公知技術に示されるものよりも実質的に大き
い。例えば、群モデルの組は、５又は１０の係数だけ大
きく、例えば、約２５ないし５０組のモデルである。群
モデルの組の数がこれ以上であっても、更なる改良は実
証できるが、僅かである。

【００３１】特定の識別された話し手のモデル１５０の
組、及び群モデル１７０の対応する組は、クレジットカ
ード１８０の背面に取り付けられた磁気ストリップ１８
１に記録することもできるし、或いは通信ネットワーク
によりアクセスできる中央のデータベースに記録するこ
ともできる。

【００３２】その後、テスト段階中に、請求された認識
２０１をもつ未知の話し手がテストスピーチ信号２０２
を供給する。別のアナログ／デジタルコンバータ（ＡＤ
Ｃ）２２０は、テストスピーチ信号２０２の連続的なア
ナログ音響波形をライン２１１のデジタル信号に変換す
ることができ、これは、別のデジタル信号プロセッサ
（ＤＳＰ）２３０により処理される。

【００３３】ＤＳＰ２３０の出力は、得点ジェネレータ
２４０へ送られる。この得点ジェネレータ２４０は、未
知の話し手により表される請求された認識２０１に対応
するモデル１５０の組及びそれにリンクされた群モデル
１７０を収集することができる。モデル１５０及び１７
０は、クレジットカード１８０から読み取ることもでき
るし、又は請求された認識２０１を用いてデータベース
１６０から通信ネットワーク１９０を経て収集すること
もできる。

【００３４】図１のステップ２０において、照合を求め
る未知の話し手のデジタル化された信号は、請求された
認識２０１に対応する音響モデルと比較されて、「請求
された」対数確率得点２１が決定される。

【００３５】ステップ３０において、同じテスト信号が
全ての群モデル１７０と比較され、群対数確率得点３１
が決定される。群得点３１は、得点セレクタ２５０に与
えられる。得点セレクタ２５０は、群モデルの副組から
決定された群得点の実質的に小さな副組を選択する。図
１のステップ４０において動的に選択される群得点の数
は、得点された全ての群モデル１７０より約５程度小さ
なものである。

【００３６】請求された得点２１及び動的に選択された
群得点３２は、有効化手段２６０に送られる。選択され
た群得点３２は、ある関数、例えば、平均化、平均値選
択、中位数選択、確率密度関数等の統計学的関数によっ
て結合することができる。

【００３７】請求された得点２１と、得点３２の結合さ
れた副組との間の差が決定される。この差は、所定の弁
別係数２８０に基づき有効化手段２６０によりスレッシ
ュホールド値と比較され、例えば、図２の真又は偽の論
理状態２９９を形成する（図１のステップ５０）。差が
スレッシュホールド値を越える場合には、真の状態が与
えられ、さもなくば、状態は偽となる。真又は偽の状態
２９９は、未知の話し手が請求をした本人であるかどう
かを指示する。

【００３８】ＡＤＣ１１０及び２２０、ＤＳＰ１３０及
び２３０は、集中スピーチ照合システムにおいて同じも
ので良いことを理解されたい。図３は、種々の群選択技
術を使用して、エラー率に対する「受信器動作特性」
（ＲＯＣ）曲線を示している。ｘ軸３０１は、「正し
い」話し手が誤って拒絶される（偽の否定）割合を示し
ている。ｙ軸３０２は、所与のスレッシュホールドに対
し「詐欺師」が誤って受け入れられる（偽の肯定）割合
を示している。

【００３９】曲線３１０は、正規化及び有効化の間に少
数（５つ）の群の全ての得点を用いる従来の１段階群選
択プロセスを使用して得られたエラー率を示している。
曲線３２０は、トレーニング中に選択された５０個の群
モデルの非常に大きなプールから決定された５０個の得
点から動的に選択された５つの群得点の副組に対する結
果を示している。曲線３３０は、１６７個の群のプール
に対する得点から選択された５つの群得点の副組に対す
るエラー率を示している。

【００４０】群モデルの大きなグループ及びそれらモデ
ルからの得点の副組を含む２段階プロセスにおいて群モ
デル及び得点を選択することにより、等価エラー率の実
質的な減少が得られ、例えば、従来の単一段階選択プロ
セスにおいて可能であったものよりも３ないし５の係数
での減少が得られることが明らかである。

【００４１】以上、本発明の特定の実施形態を説明した
が、それらに対して種々の変更及び修正を加えても全て
の又は幾つかの効果が達成されるので、本発明の範囲内
に包含されるこのような変更や修正は、全て、特許請求
の範囲内に網羅されるものとする。

【図面の簡単な説明】

【図１】本発明の好ましい実施形態による話し手照合プ
ロセスを示す図である。

【図２】２段階の群選択プロセスのフローチャートであ
る。

【図３】２段階選択プロセスの結果を公知の１段階群選
択と比較する図である。

【符号の説明】

１０２トレーニングスピーチ信号１１０アナログ／デジタルコンバータ（ＡＤＣ）１３０、２３０デジタル信号プロセッサ（ＤＳＰ）１４０モデルジェネレータ１５０音響モデル１６０モデルデータベース１７０群モデル（ＣＭ）１８０クレジットカード１８１磁気ストリップ１９０通信ネットワーク２０１請求された認識２０２テストスピーチ信号２４０得点ジェネレータ２５０得点セレクタ２６０有効化手段２８０弁別係数

フロントページの続き (72)発明者ブライアンエスエバーマンアメリカ合衆国マサチューセッツ州 02144サマーヴィルウィローアベニュー 26

Claims

【特許請求の範囲】

【請求項１】スピーチ識別を使用して、話し手により
請求された話し手の認識を照合する方法において、トレーニングスピーチ信号を処理して、音響モデルの組
を形成し、トレーニングスピーチ信号は、トレーニング
段階中に既知の認識を有する話し手により発生され、各々の識別された話し手ごとに１組の音響モデルを形成
し、そして音響モデルの組をそれに対応する各話し手の
認識と共にメモリに記憶し、トレーニング段階中に各話し手ごとに上記音響モデルの
組から複数の組の群モデルを選択し、複数の組の群モデ
ルは、それに対応する話し手のスピーチを特徴付けるも
のであり、そして複数の組の群モデルを各識別された話
し手の音響モデルの組にリンクし、テスト段階中に、請求された認識を有する未知の話し手
により発生されたスピーチ信号のテストを処理して、処
理済のスピーチ信号を発生し、上記処理済のスピーチ信号と、請求された話し手の音響
モデルの組とを比較して、第１の得点を決定し、上記処理済のスピーチ信号と、群モデルの組とを比較し
て、第２の得点を決定し、上記第２の得点から得点の副組を選択し、この得点の副
組は、テストスピーチ信号を所定の基準に基づいて特徴
付ける群モデルに対応し、そして上記第１の得点と、上
記得点の副組の所定の組み合わせとの間の差が、所定の
スレッシュホールド値より大きい場合に、未知の話し手
が請求された話し手であることを有効化する、という段
階を備えたことを特徴とする方法。
【請求項２】トレーニング段階中に選択される群モデ
ルの組の数は、有効化段階中に第２の得点が使用される
ところの群モデルの組よりも実質的に大きい請求項１に
記載の方法。
【請求項３】識別された話し手の音響モデル及びそれ
に関連する群モデルを、クレジットカードに取り付けら
れた磁気ストリップに記憶するという段階を更に備えた
請求項１に記載の方法。
【請求項４】通信ネットワークを経て第２のスピーチ
信号を収集するという段階を更に備えた請求項１に記載
の方法。
【請求項５】通信ネットワークを経て第１のスピーチ
信号を収集するという段階を更に備えた請求項１に記載
の方法。
【請求項６】スピーチ照合システムにおいて群得点を
選択する方法であって、トレーニング段階中に第１のスピーチサンプルを特徴付
ける１組の群モデルを選択し、テスト段階中に第２のスピーチサンプルを最良に特徴付
ける群モデルの得点の副組を動的に選択し、そして得点
の副組を用いて未知の話し手の請求された認識を照合す
る、という段階を備えたことを特徴とする方法。