JPH06242793A - 仲間正規化スコアリングを使用する話者検証法 - Google Patents

仲間正規化スコアリングを使用する話者検証法

Info

Publication number
JPH06242793A
JPH06242793A JP5252029A JP25202993A JPH06242793A JP H06242793 A JPH06242793 A JP H06242793A JP 5252029 A JP5252029 A JP 5252029A JP 25202993 A JP25202993 A JP 25202993A JP H06242793 A JPH06242793 A JP H06242793A
Authority
JP
Japan
Prior art keywords
subscriber
signal
person
call
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5252029A
Other languages
English (en)
Inventor
Biing-Hwang Juang
ジュアン ビーイン−ワン
Chin-Hui Lee
リー チン−フィ
Aaron E Rosenberg
エドワード ローゼンバーグ アーロン
Frank K Soong
カオ−ピン スーン フランク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH06242793A publication Critical patent/JPH06242793A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)
  • Meter Arrangements (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 音声処理としての話者検証に関し、個々の加
入者によってなされた識別の主張をその加入者によって
提供された発声を表す信号に基づき検証するための方
法。 【構成】 発呼者が単に所望の被呼宛先を識別するラベ
ルを口答にて告げることによって電話呼を接続するこ
と、及び単に課金アカウントを識別するラベルを口答に
て告げ、その電話呼を特定の課金アカウントに課金する
ことを可能とする。発呼者は、呼を被呼宛先の電話番号
をダイアルする或は口答にて伝えることにより、或はそ
の電話番号と関連する短縮ダイアルコードを入力するこ
とによって掛けること。この設備は仲間正規化スコアリ
ングを採用する話者検証システムを含む。仲間正規化ス
コアリングは検証プロセスに対する動的しきい値を提供
し、このプロセスに訓練発声と検証発声における変動に
対して一層の抵抗力を与える。この変動は通信チャネル
特性或は話者の声の大きさの変動に起因する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的には、音声処
理、より詳細には、話者検証の分野に関する。
【0002】
【従来の技術】電話クレジット或は発呼カードは、便利
ではあるが、許可のないユーザによって悪用される潜在
的な危険性を持つ。実際、この種のカードの詐欺的な使
用は重大な問題となっている。この種の詐欺的な使用と
戦うために、電気通信システムは自動話者検証システム
を使用する。話者検証システム(speaker verification
system )は個々の加入者によって提供された識別の主
張のための発声の分析を通じての検証によって個々の加
入者を認識する。電気通信システムの背景において、話
者検証は呼をクレジット或は発呼カードに対して請求し
ようとする発呼者の識別を検証するために使用される。
一般的に、話者検証システムは、ある識別を主張する個
々の加入者から受信された発声の抽出された特徴を識別
された人によって提供された(或は“訓練”された)発
声に基づいて音声の一つ或は複数のプロトタイプと比較
することによって機能する。
【0003】
【発明が解決しようとする課題】電気通信の背景におい
て、話者検証にあたってしばしば遭遇される問題は、検
証システムを訓練した人が検証のトライアルを受けると
き必ずしも常に“同一の響き(sound same)”を与えな
いことである。時間を通じての人の“響き(sound )”
の変化は、例えば、その人の音声信号を運ぶ電気通信チ
ャネルの特性の変化によっても影響される。これら変化
は、訓練プロセスと検証トライアルで異なる電話を使用
する以外によっても起こされる。当然、このような変化
は、検証システムの性能を劣化させる。チャネル特性の
変化、さらには話者の声の大きさに対する感度のため
に、検証システムの性能が許容できないレベルにまで劣
化することがある。
【0004】
【課題を解決するための手段】電気通信システムの加入
者に音声検証機能を含む幾つかの進歩した機能を提供す
るために自動音声処理を使用することができる。本発明
の一つの実施例は、なかんずく、加入者の会話発声の分
析に基づく加入者の識別の検証のための電気通信システ
ムプラットフォームを提供する。このプラットフォーム
は呼者が、例えば、関連する電話機のキーパッドを介し
て加入者の識別を主張することを許す。すると、このプ
ラットフォームは発呼者の識別を識別された加入者の識
別であると検証する。
【0005】本発明の一例としてのプラットフォームは
話者検証をヒドンマルコフモデル(hidden Markov mode
ls)を採用する仲間正規化スコアリング(cohort norma
lized scoring )の使用によって達成する。仲間(coho
rt)はそのヒドンマルコフモデルが、例えば、その識別
を主張する加入者のヒドンマルコフモデルに類似するセ
ットの加入者である。本発明によると、発呼者によって
供給された主張される加入者によって話されたもである
と主張される発声が、その加入者によって訓練されたヒ
ドンマルコフモデル及び仲間の個々のメンバによって訓
練されたモデルに対してスコアされる。本発明において
は、仲間スコアの統計値が形成され、そして、話者のス
コアが主張した話者のスコアとこの仲間スコアの統計値
の比を形成することによって(或はこれらの対数の差を
形成することによって)正規化される。この正規化は、
例えば、通信チャネル特性或は話者の声の大きさに起因
する訓練発声と検証発声の変動に対して検証スコアリン
グをより抵抗力のあるものにする動的しきい値を提供す
る。
【0006】
【実施例】図1に示される音声指示通信システム(Voic
e Directed Communications System、VDCS)100
は互いに協調して、なかんずく、通信路11或は12を
介して受信された発呼者の音声信号から発呼者を認識す
るために機能する複数の機能を含む。この認識は受信さ
れた音声信号の特徴(features)を最初に発呼者がVD
CS100の機能(或はサービス)に加入したとき構築
されたこれら信号に対するモデルと比較することに基づ
く。
【0007】より詳細には、電話ユーザ、例えば、電話
機S1と関連するユーザは所定の加入者電話番号、例え
ば、1−800−826−5555をダイヤルすること
によってVDCS100によって提供されるサービスに
加入する。ユーザがこの番号を形成する最後の数字をダ
イヤルすると、中央局(Central Office、CO)225
はダイヤルされた番号を公衆通信網200と関連させ、
呼を経路226を介してそれに延長する。これを行なう
とき、CO225はダイヤルされた(被呼)電話番号並
びに発呼電話番号を網200に送る。例えば、AT&T
公衆交換網であり得る網200は呼接続を従来の方法に
よってVDCS100に接続する宛先交換機(図示な
し)に延長する。網200の宛先交換機は、これに応答
して、呼をVDCS100の交換機10に接続するトラ
ンク11及び12の選択された一つを介して延長する。
宛先交換機は次に発呼及び被呼電話番号を選択されたト
ランクを介して交換機10に供給する。
【0008】交換機10は入り呼に応答して、なかんず
く、発呼及び被呼電話番号並びに選択されたトランクの
識別を含むメッセージをバス6を介してホストプロセッ
サ5に送る。本発明の一例としての実現においては、ホ
ストプロセッサ5及び交換機10は、例えば、それぞ
れ、AT&Tから入手できるStarServerFTプロセッサ
及びSumma Fourから入手できるモデルSDS1000交
換機であり得る。
【0009】ホストプロセッサ5は、関連する加入者電
話番号を含む交換機10のメッセージに応答して交換機
10にバス6を介して入り呼接続と図面にそれらの一つ
が示されている複数のアテンダント(オペレータ)位置
15の一つとの間に接続を確立することを指令する。こ
の時点で、アテンダント15は、電話機S1の発呼者
と、発呼者から、その発呼者或は“新しい加入者(new
subscriber)”が後にシステム100を介して接続しよ
うとする呼のアカウント及び処理に関する情報を得るた
めに通信する。この情報には、例えば、発呼者の名前、
住所、課金アカウント(billing account )などが含ま
れる。この通信の結果として、発呼者に、所定の数の桁
から構成されるアカウントコード(account code)が割
り当てられ、これらの幾つか、例えば、最初の7桁が発
呼者によって選択される。アカウントコードの残りの桁
はシステム100によって選択され、いわゆる“チェッ
ク(check )”数字として使用される。
【0010】この加入者のアカウントコードが既に別の
加入者に割り当てられているコードである場合もある。
このような場合は、ホスト5はこの事実を端末15上に
表示させる。つまり、端末15はそのディスプレイ上に
この新しい加入者と同一アカウントコードを共有するこ
ととなる他の加入者の特定の一人と関連するサービスプ
ロフィル或はレコードを表示する。この時点で、アテン
ダントは後者のサービスレコードをこれが(a)それと
関連するアカウントコードが新たな加入者と共有されて
いること示し、(b)新たな加入者のサービスレコード
をポイントし、そして(c)新たな加入者の識別を含む
ように修正する。この新たな加入者のレコードも同様に
これが後者のサービスレコードをポイントするようにア
レンジされる。このようなリンキングの一例が図2に示
される。
【0011】簡単に述べると、サービスレコードの鎖が
互いにこれらの各レコード内にこの鎖内の次のレコード
のアドレス及び鎖内の前のレコードのアドレスを記録す
ることによって連結される。レコード61−2から61
−Nまでの各レコードは、その鎖内の次のレコードのア
ドレス、例えば、ポインタ62−2、及び、ヘッドレコ
ード61−1を除いて、その鎖内の前のレコードのアド
レス、例えば、ポインタ63−2を含む。以下に、シス
テム100があるアカウントコードを一つ或は複数の他
の加入者と共有している発呼者を識別する方法について
説明する。
【0012】この通信のさらなる結果として、新たな加
入者は複数の音声識別された発呼ラベル(voice-identi
fied calling labels )を定義し、これらラベルを対応
する電話番号と関連付ける。例えば、加入者は、(a)
“call home (自宅を呼び出す)”というラベルを加入
者の自宅の電話番号と関連付け、(b)“call office
(事務所を呼び出す)”というラベルを加入者の仕事場
或は事務所の電話番号と関連付け、或は(c)“call D
ad(父を呼び出す)”というラベルを加入者の父の電話
番号と関連付ける。その後、以下に説明されるように、
加入者が特定の位置、例えば、“home(自宅)”に呼を
置く目的でシステム100に対して呼を置こうとする場
合、その加入者に必要とされることは、特定のシステム
100の要求に応答して、“call home (自宅を呼び出
す)”と口答にていうことのみである。システム100
は、これに応答して、話された識別子“call home (自
宅を呼び出す)”を加入者の自宅の電話番号と関連付
け、次に、交換機10と網200を介して出電話呼をこ
れに置く。システム100は、次に、交換機10に出呼
と加入者の入力呼を関連付けるように指令する。
【0013】この新たな加入者はまた関連する特定の電
話番号を対応する課金アカウントとも関連付ける。例え
ば、この新たな加入者は、この新たな加入者がシステム
100を介して彼/彼女の事務所に掛ける全ての電話呼
は、特定の課金アカウント、例えば、クレジットカード
アカウント(credit card account )に課金すべきであ
ることを指定する。もう一例として、加入者は、この新
たな加入者がシステム100を介して仕事に関係する所
に掛ける全ての電話呼が別のアカウント、例えば、仕事
上の電話番号に対して課金されるように指定することも
できる。この新たな加入者は、また、システム100を
介して加入者が掛ける全ての他の呼に対して省略時課金
アカウント(default billing account )を指定するこ
ともできるが、ここで、この省略時の課金アカウント
は、この新たなシステム100のサービス番号或は自宅
の電話番号とすることもできる。
【0014】この新たな加入者はまた音声識別課金ラベ
ル(voice-identified billing labels )を指定するこ
ともできる。これは、特定の電話番号に結び付けても、
つけなくてもよく、加入者によって、省略時或は事前に
定義した課金動作を無効にするために使用される。より
詳細には、この課金ラベルは、例えば、クレジットカー
ドサービスの名前、例えば、VISA;発呼カードサー
ビス(calling card service)、例えば、AT&T;或
は特定の電話番号であり得る。例えば、加入者が仕事上
の電話の課金をAT&T発呼カード番号と結び付け、V
ISAを課金ラベルとして指定したものと想定する。そ
の後、加入者は彼/彼女の事務所に電話を掛け、必要で
あれば、加入者の事務所の電話番号を入力した後に、
“bill VISA (VISAに対して課金)”ということによっ
てその呼に対するAT&T発呼カード課金を無効にする
ことができる。より詳細には、加入者が事務所電話番号
に対する発呼ラベルを指定している場合は、加入者は
“call office (事務所呼び出し)”と言うことによっ
て彼の事務所の電話への呼を開始する。加入者は次に所
定の継続期間、例えば、少なくとも一秒間、課金ラベル
と発呼ラベルのと関係を解き、1秒間が経過した所で、
加入者は、事務所への呼に対する所定の課金を無効にす
るために“bill VISA (VISAに対して課金)と言う。
【0015】システム100は、これに応答して、
(a)識別子“call office ”を加入者の事務所の電話
番号に翻訳し、(b)交換機10及び網200を介して
その番号に対して出呼を置き、そして(c)加入者の呼
を出呼に接続する。同様にして、上の休みの結果とし
て、システム100は識別子“bill VISA ”を課金ファ
ンクション(billing function)と関連付け、その呼に
対して前に定義された、或は省略時のアカウントを無効
にする。こうして、システム100はその呼を加入者の
VISAアカウントに対して課金する。
【0016】上に述べた休みは、幾つかのケースを除い
ては、これら語“call”、(或は“dial”)及び“bil
l”、(或は“charge”)に対して話者独立“ワード検
出(word spotting )”を採用することによって削除す
ることができる。こうして、後に説明されるように、シ
ステム100が話された語“call”(“dial”)を見つ
ける(spotする)と、システムは、この語及びそれに続
く音声信号を発呼ラベルとして分類する。システム10
0が次に話された語“bill”(“charge”)を見つける
と、システムはその語及びそれに続く音声信号を無効課
金ラベル(overriding billing label)として分類す
る。
【0017】この新たな加入者は特定の短縮ダイヤリン
グコードを電話番号と関連付けることができる。一例と
して、短縮ダイヤリングコードは所定の接尾語、例え
ば、ポンド記号(#)と関連付けることができる。例え
ば、この新たな加入者は1#及び2#を対応する電話番
号、例えば、それぞれ、1−800−555−1212
及び1−908−555−1212に対する短縮ダイヤ
リングコードとして指定することができる。
【0018】アテンダントが(存在する場合は)上に述
べたラベルを含むこの新たな加入者の情報を集めて端末
15(図1)内に入力すると、アテンダントは次にこう
して入力された情報をローカルエリア網(LAN)30
を介してコントローラ55に配達するためにコントロー
ラ25に供給する。
【0019】より詳細には、コントローラ25は、この
加入者情報をコントローラ55にアドレスされたメッセ
ージに形成し、このメッセージをLAN30上に送る。
コントローラ55は、これに応答して、LAN30から
このメッセージを取り出し、この内容をこの新たな加入
者と関連するサブスクリプションプロフィル(或はレコ
ード)に形成し、このプロフィルを以下に述べる方法で
顧客プロフィルデータベース60内に格納する。(この
新たな加入者のアカウントコードが共有コードである場
合は、コントローラ55は結果としてこの新たな加入者
のプロフィルレコードをこの新たな加入者とこのアカウ
ントコードを共有する加入者と関連するプロフィルレコ
ードに“リンク(link)”する。)
【0020】サブスクリプションプロセス(subscripti
on process)のこの時点において、この新たな加入者の
アカウントコード、様々なラベル、関連する電話番号、
短縮ダイアルコード、その他がASCIIテキストとし
てデータベース60内に格納される。
【0021】サブスクリプションプロセスの最後のステ
ップにおいて、アテンダントは新たな加入者にこの新た
な加入者のアカウントコードを特性化する特定の会話の
発声(speech utterance)、並びに上に述べた様々なラ
ベルをいかにして登録するかを説明し、この登録がこの
新たな加入者の識別及び音声による要求を検証するため
に使用できるようにする。この目的のために、アテンダ
ントはホスト5に、端末15及びLAN30を介して、
音声登録セッションを喚起する要求を送るが、この要求
には、加入者のアカウントコード及びラベルが含まれ
る。ホスト5は、これに応答して、交換機10にこの新
たな加入者に対する登録プロセスを遂行するために加入
者識別ユニット(Subscription Identification Unit、
SIU)21を加入者の入り呼接続とアテンダント端末
15の間の交換機10の接続上にブリッジするように指
令する。加えて、ホスト5はLAN30を介してその新
たな加入者のアカウトンコード及びラベルをSIU21
に供給する。
【0022】より詳細には、SIU21は、なかんず
く、複数のデジタル信号プロセッサ、例えば、AT&T
DSP32を含むが、このプロセッサは、様々な異な
る音声処理機能を遂行するように動作する。つまり、こ
れらの処理の中には、なかんずく、この新たな加入者ラ
ベルの音声催促(voice prompts )及び音声ファクシミ
リ(verbal facsimiles )を生成するための自動音声認
識、及びテキストから音声への処理が含まれる。自動音
声機能は、より詳細には、音声認識技術の分野において
周知の技術を使用して自己相関係数の特性ベクトル(fe
ature vectors )を提供するための接続数字認識(conn
ected digit recognition )及び加入者の発声の分析を
遂行する。
【0023】新たな加入者による発声の分析と関連にお
いて、SIU21は図3に示される流れ図に従って動作
する。図3のステップ600に示されるように、SIU
21はこの新たな加入者に対して所定の数の数字、例え
ば、5つの数字を含む数字の所定の数の様々な異なるス
トリング(例えば、一度に一つのストリングにて発声さ
れる11個のストリング)の一つを発声するように催促
される。例えば、SIU21はこの新たな加入者に0、
1、0、1、2の数字ストリングを発声するように催促
する。この新たな加入者がこのストリング全体を発声す
ることによって応答すると、SIU21はさらなる処理
を行なうためにこの新たな加入者の発声を集める。
【0024】図3のステップ603に示されるように、
SIU21はこの新たな加入者のストリングの発声の8
−ビットμ−規則パルス符号変調(pulse-code modulat
ed、PCM)デジタルサンプル(公衆通信網200から
提供される加入者の発声のデジタル形式)から16ビッ
ト線型PCMデジタルサンプルの信号へのフォーマット
の変換を遂行する。SIU21は、次に、ステップ60
5に示されるように、当分野において周知のファースト
オーダ差分フィルタ(first-order differencefilter
)を実現することによって、このデジタル信号をプリ
エンファシス(preemphasizes )する。
【0025】このプリエンファシスされた信号の時間ス
ライスを特性化する特徴ベクトルが次にステップ610
に示されるようにSIU21によって形成される。これ
ら時間スライスは15ms毎にシフトする45ミリ秒
(ms)の(従って、ある45ms時間スライスが30
msだけ隣接する時間スライスと重複する)ハミングウ
インドウ(Hamming window)によって提供される。各時
間スライスはその時間スライスを表わす十次(10th ord
er)の自己相関係数のベクトルのベースである。このベ
クトルは特徴ベクトル(feature vector)と呼ばれる。
SIU21によって遂行されるこの特徴分析(feature
analysis)は当分野において周知であり、ここにあたか
も完全に説明されているかのように参照のために編入さ
れたC.−H.Lee (リー)らによるAcoustic Modelin
g for Large Vocabulary Speech Recognition (大きな
語彙の音声認識のための音響モデリング)、4 Compute
r Speech and Language (コンピュータスピーチ及び言
語)127−65(1990年)においてさらに詳細に
述べられている。
【0026】SIU21は次に特徴ベクトルをステップ
615に示されるように、発声の対応する数字を表わす
セットのベクトルにセグメント化する。加入者の発声の
数字へのセグメント化は当分野において周知の数字及び
非音声信号の話者独立認識(speaker-independent reco
gnition )を使用して遂行される。
【0027】SIU21は結果としてのセグメント化さ
れた自己相関係数特徴ベクトル、対応する数字ストリン
グのASCII表現、及び加入者アカウントコードを以
下に説明されるように信号をさらに処理するためにコン
トローラ45に送る(ステップ620参照)。ステップ
625に示されるように、上のプロセスがステップ60
0において催促されたストリング発声のバランスの各々
に対して反復される。
【0028】話者検証を達成するためのベースを提供す
るのに加えて、この登録手順はまた加入者ラベルの認識
のためのベースを提供するために発声の分析を行なうこ
とにも係る。例えば、この新たな加入者が(a)“call
home ”及び“call office”を発呼ラベルとして指定
し、また(b)“bill Visa ”を無効課金ラベルとして
指定したものと想定する。SIU21はこれらラベルの
この新たな加入者の音声表現を第一の発呼ラベル(“ca
ll home ”)のASCII等価表現(テキストバージョ
ン)をテキストから音声へのプロセッサに通し、結果を
加入者にこのラベルを口答にて反復する要求と共に送る
ことによって登録する。つまり、このラベルの加入者の
発声に応答して、SIU21は加入者の音声信号を内部
ラベルを特性化する一連のサブワード単位の音素にセグ
メント化し、これらの各サブワード単位の音素を特定の
インデックス値と関連付け、こうして、一連のインデッ
クス、或は数を形成する。こうして、あるラベルの特定
の発声が一連のインデックスとしてモデル化され、メモ
リ内に格納される。その後、この特定の発声がこの発声
に対するこれら一連のサブワードインデックスを生成
し、こうして生成されたシリーズを対応するラベルを特
性化する個々の前に格納されたインデックスのシリーズ
と比較することによって翻訳される。生成されたインデ
ックスに匹敵するこれら格納されたシリーズは、こうし
て、この発声によって識別される電話番号、或は課金ア
カウントをポイントする。SIU21は次に結果として
のASCIIインデックス、音声ラベルの対応するAS
CII表現及び加入者のアカウントコードをLAN30
を介してコントローラ45にパスする。SIU21は次
に上に述べたプロセスを加入者の他のラベルの各々につ
いて反復する。
【0029】この時点において、SIU21は本質的に
登録プロセスの部分を完結する。ただし、加入者の電話
呼の制御をアテンダント15に戻す前に、SIU21は
加入者の話した発声の音声検証モデル及び特徴ベクトル
がデータベース50内に格納されたことを示すコントロ
ーラ45からの確認メッセージを待つ。
【0030】コントローラ45は、より詳細には、数字
の最後のストリングのASCII表現及び自己相関係数
の結果としての特徴ベクトルを受信すると、ヒドンマル
コフモデル(hidden Markov models)の決定及びこの新
たな加入者に対する“仲間(cohort)”の選択のため
に、これら特徴ベクトル及びそれらの対応する数字スト
リングをSVS(Speech Verification System;音声検
証システム)40にパスする。例えば、AT&Tから入
手できるDSP3システムであり得るSVS40は実時
間ホスト(Real Time Host、RHT)コントローラ41
及び複数のDSP(Digital Signal Processors )42
−1から42−Pを含む。一例として、P=128とさ
れる。RTH41はDSP41−1から42−Pまでと
外部プロセッサ、例えば、コントローラ45との間のイ
ンターフェースとして機能し、音声処理要求を受信する
と、RTH41はDSP42−1から42−Pまでの一
つのどれが空き(アイドル)であるかを決定し、これに
付随するデータと共にこの要求をパスする。DSP42
−1がアイドルであると想定すると、RTH41は自己
相関係数の11個の数字ストリング及び対応する特徴ベ
クトルを処理のためにDSP42−1にパスする。図4
aからdにDSP42−1がHMMを生成し、仲間を選
択する一例としてのプロセスの流れ図が示される。
【0031】図4aのステップ501の所に示されるよ
うに、DSP42−1は自己相関係数の特徴ベクトルを
12個のケプストラル(cepstral)及び12個のデルタ
ケプストラル(delta cepstral)係数に変換する。これ
ら12個のデルタケプストラル係数は各現ケプストラル
係数を中心とする5つのケプストラル係数のシーケンス
に回帰線を適合させることによって計算される。自己相
関係数の特徴ベクトルの場合と同様に、ケプストラル係
数の特徴ベクトルは加入者の発声の15msスライスを
特性化する。上に説明の自己相関係数のケプストラル係
数への変換は当分野において周知であり、上に参照の
C.−H.Lee (リー)らによるAcousticModeling for
Large Vocabulary Speech Recognition (大きな語彙
の音声認識のための音響モデリング)、4 Computer Sp
eech and Language (コンピュータスピーチ及び言語)
127−65(1990年)においてさらに詳細に述べ
られている。
【0032】次に、ステップ505に示されているよう
に、DSP42−1は、この新たな加入者の数字ゼロの
発声を特性化する数字の11個のストリング内でのゼロ
数字の各々の発生に対して数字ゼロを特性化する関連す
るケプストラル係数の特徴ベクトルに基づいて生成され
るいわゆるヒドンマルコフモデル(Hidden Markov Mode
l 、HMM)を生成する。同様にして、DSP42−1
は他の数字、つまり、数字1から9まで及び存在する場
合“oh”としての数字ゼロを特性化するHMMを生成す
る。
【0033】本発明の一例としての実現においては、各
数字は8状態HMMとして表わされる。状態毎の混合要
素の公称数Mは6であるが、ただし、実際の数は、各状
態内でセグメント化された形状ベクトルの数に依存して
これより小さくなり得る。上に述べたHMMに加えて、
非音声セグメントの二つのタイプを表わすHMMがこの
実施例によって提供される。これらは、登録手順におい
て背景セグメント(background segment)から訓練され
た1状態“サイレンス(silence )”モデル、及び話者
によって生成された非会話音響、例えば、“puff(呼
気)”及び“click (吸気)”音などから訓練された3
状態アーティファクトモデルである。
【0034】DSP42−1によって生成された各HM
Mは、本件と共に共通譲渡され(commonly assigned
)、ここにあたかも完全に説明されているかのように
参考として編入されている合衆国特許第4,783,8
04号に説明のタイプの左から右連続密度(left-to-ri
ght continuous density)HMMである。HMMの各状
態に対するスペクトル観察確率はM個のガウス密度(Ga
ussian densities)の混合物として指定される連続密度
確率である。HMMのj番目の状態に対するm番目の混
合物成分(mixture component )のパラメータは平均ベ
クトルμim、共分散マトリックスUjm、及び混合成分の
重みcjmである。マトリックスUimは固定対角線共分散
マトリックスである。HMMの状態遷移確率aijは同一
状態に留まる確率と次の状態に進む確率が同一となるよ
うに固定される。DSP42−1は(ステップ505に
おいて)HMMパラメータを従来のセグメント化K−平
均訓練手順(segmental K-means training procedur
e)、例えば、ここにあたかも完全に説明されているか
のように参考として編入されているRabiner (レビナ)
らによるA Segmental K-Means Training Procedure for
Connected Word Recognition (接続された語を認識す
るためのセグメント化されたK個の平均の訓練手順)、
Vol.65、No.3 AT&T Technical Journal 2
1−31(1986年5−6月号)に説明されるような
訓練手順によって推定される。このモデルパラメータに
加えて、好ましくは、検証スコアに語持続ペナルティ
(word duration penalties )を適用するために使用す
るための語持続(word duration )平均及び分散が加入
者の登録発声から計算される。これら平均及び分散は訓
練発声内に含まれる各語に対して決定することができ
る。これら平均及び分散は従来の方法、例えば、ここに
あたかも完全に説明されているかのように参照として編
入されているRabiner (ラビナ)、Wilpon(ウイルポ
ン)、及びJuang (ヤング)によるA Model Based Conn
ected-Digit Recognition System Using Either Hidden
Markov Models or Templates (ヒドンマルコフモデル
或はテンプレートを使用するモデルに基づく接続数字認
識システム)、1 Computer Speech and Language 、1
67−97(1986年)に説明の方法によって決定で
きる。これら平均及び分散統計は訓練データの一部とし
て格納される。
【0035】この新たな加入者に対するHMMがいった
ん決定されると、DSP42−1によってその加入者に
対する“仲間(cohort)”が決定される。仲間はそのH
MMがその与えられた加入者に対する検証プロセスにお
いて使用されるセットの他の加入者である。これら他の
加入者は仲間選択基準(cohort selection criterion)
に従って選択される。以下に説明されるように、ある与
えられた加入者の仲間と関連するHMMが、例えば、そ
れを通じて登録及び検証発声が通信されるチャネルの特
性或は全体としての発声効果(或は“loudness(大き
さ)”)の変化に対してより強い話者検証プロセスを提
供するために使用される。
【0036】例えば、VDCS100を使用しての登録
において、ある新たな加入者が“カーボンボタン(carb
on button )”マイクロホンを持つ家庭用電話機S1を
使用するものとする。このマイクロホンは中央局225
(及び終極的にはVDCS100)に送られる会話の発
声のフィルタとして機能する周波数応答特性を持つ。た
だし、VDCS100の使用の一部として話者検証の目
的で発声を提供するとき、その加入者が異なるマイクロ
ホン、例えば、エレクトレット(electret)を持つ別の
電話機を使用する場合がある。エレクトレットマイクロ
ホンの周波数応答はカーボンボタンマイクロホンのそれ
と大きく異なり、従って、その加入者の会話発声に異な
るフィルタリング効果を与える。このような状況下にお
いては、それを通じて加入者の発声が送られるマイクロ
ホン特性を含むチャネルの特性が大きく変わる。本当の
話者の拒絶率(いわゆる“タイプI”のエラー)及び詐
欺師を受け入れる率(いわゆる“タイプII”のエラ
ー)の両方の観点から見た場合の話者検証システムの精
度は登録(つまり、訓練)発声と検証発声が異なるチャ
ネル特性に露出された場合は劣化する。検証プロセスに
おける仲間の使用はこのような異なるチャネル特性に起
因する精度問題を解消する助けとなる。
【0037】一例としての仲間選択基準によると、ある
仲間(cohort)はその(前に決定された)HMMが問題
とされている加入者のHMMと最も近い或は“最も競合
的(most competitive)”なセットのK個の他の加入者
である。ある新たな加入者に対する仲間はDSP42−
1によって、従来のビテルビスコアリング(Viterbisco
ring )を使用してのその加入者の登録発声と複数の
(例えば、全ての)他の加入者の各々のHMMとの間の
ペア毎の比較を通じて決定される。
【0038】この新たな加入者に対する仲間は図4a−
dのステップ507から575に示されるように決定さ
れる。ステップ507において、前に登録された加入者
を追跡するために(つまり、彼等の発声及びHMMをア
ドレスできるように)カウンタが初期化される。このカ
ウンタは従ってこの新たな加入者の仲間の構成員として
考慮されるべき複数の前に登録された加入者の最初の加
入者をポイントする。
【0039】次に、ステップ510において、考慮され
るべき最初の前に登録された加入者に対するHMM及び
訓練発声がデータベース50から検索される。こうして
検索されたHMMはこの新たな加入者の訓練発声と比較
するのに使用するためのものである。こうして検索され
た訓練発声はこの新たな加入者のHMMと比較するのに
使用されるためのものである。
【0040】HMMのこの新たな加入者の訓練発声との
比較は図4bのステップ512におけるカウンタの初期
化によって開始される。このカウンタは前に登録された
加入者のHMMと比較されるべき最初の新たな加入者の
発声をポイントする。ステップ515におけるこの比較
のためには従来のビテルビ(Viterbi )スコアリングが
使用される。このスコアリングはその発声が前に登録さ
れた加入者のHMMとどれくらい類似するかを計る。前
に登録された加入者のHMMはスコアリングプロセスに
使用されるためにUSI21によって提供される新たな
加入者の発声のASCII表現に基づいて選択される。
ステップ520において、ステップ515において生成
されたある与えられた発声に対するスコアがこの発声を
構成する特徴ベクトルの数で割られる。この割り算は第
一の正規化されたスコア(firstnormalized score)を
生成する。この第一の正規化されたスコアは後にステッ
プ525において使用するためにDSP42−1のアキ
ュムレータ内に保存される。ステップ515、520、
及び525がこの新たな加入者の各訓練発声に対してス
テップ530において最後の発声がスコアされるまで反
復される。全ての訓練発声がスコアされたら、ステップ
525において決定され蓄積された第一の正規化された
スコアの総計が第一の平均スコア(first average scor
e )を得るためにステップ535においてスコアされた
発声の総数で割られる。
【0041】図4cに示されるように次にプロセスステ
ップ538から560が遂行される。これらステップは
上に説明のステップ512から535に類似する。ステ
ップ538から560は問題の前に登録された加入者の
訓練発声と新たな加入者のHMMの比較に基づいて第二
の平均スコアを決定する。この新たな加入者のHMMを
比較のために選択するためにデーダベース50からの前
に登録された加入者の発声のASCII表現が使用され
る。
【0042】ステップ538から560が遂行された後
に、(それぞれステップ535及び560において決定
された)第一及び第二の平均スコアの平均に基づいて前
に登録された加入者に対する総平均スコア(total aver
age score )が決定される。
【0043】ステップ510から565において上に説
明の全プロセスが判定ステップ570の制御下において
複数の前に登録された加入者の各々に対して反復され
る。前に登録された加入者の各々に対して総平均スコア
がいったん決定されたら、この新たな加入者に対する仲
間が選択される。この仲間はステップ575において最
も高い総平均スコアを持つK個の前に登録された加入者
として選択され、一例として、K=5とされる。
【0044】上に説明され、また図4a−dに示された
実施例においては、各数字の発声の数が等しく、このた
めに、仲間の選択がある数字発声を優遇するようにバイ
アスされないことに注意する。
【0045】上に説明の仲間選択プロセスは単に解説の
ためのものであることに注意する。話者の仲間を形成す
るための他の技法も可能であり、これらには、話者対話
者ベース(speaker-by-speaker basis )ではなく、語
対語(word-by-word)ベースにて動作する技法も含まれ
る。一例としての語対語仲間選択技法は、平均が平均話
者発声ベースではなく各語に対して形成される点を除い
て上に説明の技法に類似する。本質的に、語対語仲間技
法は各話者に対してではなく、ある話者の各語に対して
一つの別個の仲間が存在するために、より多くのメモリ
空間を要求する。もう一つの仲間選択技法においては前
に登録された加入者のランダム選択に基づいて仲間を指
定する。
【0046】上に説明の仲間選択技法の一つの代替とし
て問題の話者、例えば、新たな加入者のHMMを潜在的
仲間メンバ(potential cohort members)のHMMと直
接に比較する技法がある。このHMMの直接の比較は語
対語或は話者対話者ベースで遂行される。仲間の決定に
話者の発声が関与しないために、この技法は上に説明の
技法と比較してあまり計算が多くなく、また(発声デー
タを格納する必要がないために)あまり多くのメモリ要
件を持たない。
【0047】上記の参照のために編入された合衆国特許
第4,783,804号において説明されているよう
に、ある新たな加入者の連続密度HMM(continuous d
ensityHMM)内での一つの状態に対する観察尤度(obser
vation likelihood)は正規ガウス密度(normal Gaussi
an densities )の加重総和として以下のように特性化
できる。
【数1】
【0048】同様にして、前に登録された加入者の連続
密度HMM内のある状態に対する観察尤度は以下のよう
に特性化できる。
【数2】
【数3】
【0049】
【数4】 ここで、k(j)は“前の(pre )”状態kから“新た
な(new )”状態jへの最適マッピングを表わし、J
new は新たな加入者のHMM内の状態の数(例えば、J
new =8)である。この最適マッピング(optimal mapp
ing )はイタクラ制約(Itakura constraints )を持つ
ダイナミックプログラミング整合(dynamicprogramming
alignment )及び整合された最初及び最後の“pr
e”及び“new”HMM状態を用いて従来の方法にて
達成することができる。
【0050】上に説明の技法は、ある与えられた新たな
加入者の語に対する仲間がその問題の語に対する最も高
いスコアRpre,new を持つK個の前に登録された加入者
として決定できるために語対語ベースでの仲間選択(wo
rd-by-word cohort selection )に直接に適用できる。
さらに、仲間を決定するためのこの技法は、単に、上に
説明されたように全ての登録された発声に対して取られ
た全てのHMMを通じて個々のHMMに対して類似性ス
コアを平均化することによって話者対話者ベースでも使
用することができる。
【0051】図4a−dとの関連で説明されたように、
ある与えられた加入者に対する仲間の決定は、なかんず
く、前に登録された加入者のHMMに基づく。ただし、
ある与えられた加入者に対する仲間はその加入者の登録
時に決定する必要はないことに注意すべきである。加入
者に対する仲間はその後全ての加入者と関連するHMM
が決定された後に決定することもできる。また、仲間は
時間の経過を通じてある選択基準に従って更新すること
もできる。
【0052】DSP42−1がそのタスクを完了する
と、RTH41は結果としてのHMM、訓練統計、及び
仲間加入者識別情報をコントローラ45にパスする。コ
ントローラ45は次にこの情報を参照データベース50
のメモリレコード内に格納するが、これは加入者のアカ
ウントコードによって間接的にインデックスされる。
(このコードが別のアカウントと共有される場合は、コ
ントローラ45は、結果として、この新たな加入者のデ
ータベース50のレコードをこの新たな加入者とそのア
カウントコードを共有する加入者と関連するレコードに
“付加(appends )”することに注意する。同様に、コ
ントローラ45は上に説明されたように後者のレコード
内にも記す。)仲間加入者識別情報はこの仲間の各加入
者のHMMのアドレスとして格納される。
【0053】コントローラ45はまたデータベース50
内に新たな加入者に対するDSP42−1によって決定
された訓練発声のケプストラル特徴ベクトル、並びにこ
れら発声のASCII等価表現を格納する。上記に続
き、コントローラ45は加入者のラベルのその新たな加
入者の発声を特性化するインデックスのASCIIザブ
ワード単位、並びにそのASCII等価表現を前記のデ
ータベース50のメモリレコード内に格納する。コント
ローラ45は、次に、LAN30を介してSIU21に
加入者のデータの処理が完了したことを告げる。SIU
21は、これに応答して、類似のメッセージをホストプ
ロセッサ5に送るが、このメッセージはホスト5にSI
U21を加入者の入り呼から切断するように指令する。
この時点で、アテンダント15は加入者に登録が完了し
たことを告げる。
【0054】上に説明のHMMの訓練及び仲間の選択
は、新たな加入者が訓練発声をいったん提供すると、新
たな加入者とシステム100との間の接続を維持するこ
となしに遂行できることに注意する。例えば、訓練及び
仲間選択は、オフラインにて遂行することもできる。
【0055】この時点で、加入者は、システム100を
“dial up (呼出)”し、彼/彼女の加入者番号を言
い、次に、加入者の事前に定義されたラベルの一つ、例
えば、“call home (自宅を呼び出す)”によって特性
化される発呼機能を喚起する。別の状況として、加入者
は呼を加入者の事前に定義されたラベルの一つによって
定義されてない場所に接続することを要求することもあ
る。つまり、加入者はその加入者が呼び出したい位置の
電話番号を告げることもある。例えば、加入者は、例え
ば、電話機S2を識別する“908−555−600
8”を告げる。システム100は、これに応答して、9
08−555−6008の加入者の発声を復号し、出呼
をその位置に向けて置き、次に、加入者の入り呼をその
出呼に接続する。
【0056】より詳細には、加入者はCO225及び通
信網200を介して電話機S1とシステム100との間
で電話接続を確立するためにシステム100のサービス
電話番号、例えば、1−800−838−5555をダ
イヤルする。システム200の宛先交換機は、この呼及
び被呼電話番号に応答して、この番号を出トランクグル
ープの特定の一つと関連づけ、この呼をそのグループの
アイドルのトランク(ポート)を介してシステム100
に送る。交換機100は、入り呼の受信に応答して、L
AN30を介してホスト5にこの事実を伝える。ホスト
5は、この通知に応答して、LAN30を介して交換機
10に入り呼とCIU(発呼者識別ユニット、Caller I
dentification Units )20−1から20−Nのアイド
ルの一つ、例えば、CIU20−1との間に接続を確立
するように指令する。CIU20−1から20−Nは、
CIUが新たな加入者に登録プロセスを提供するように
プログラムされてないところを除いてSIU21と同一
である。
【0057】CIU20−1が加入者の呼に接続された
ものと想定すると、CIUはその接続を介して、その加
入者に“what is your account code ? (あなたのアカ
ウントコードは?)”と尋ねるアナウンスメントを送
る。加入者は、彼/彼女のアカウントコード(番号)を
それを口答で伝えるか或は電話機S1のキーパッドを使
用してキー入力するオプションを持つ。加入者が後者の
オプションを選択した場合は、彼/彼女のアカウントコ
ードをキー入力し、次に、CIU20−1は“キー入力
された”数字を集める。最後の数字を受信すると、CI
U20−1は、次に、加入者の識別を一連のランダムに
選択された数字を生成しこの入り呼接続を通じて送り、
次に加入者にその一連の数字を発声するように催促する
ことによって検証する。
【0058】加入者が彼/彼女のアカウントコードを発
声すると、同様にして、CIU20−1は、加入者の発
声を集め、接続数字処理(connected digit processin
g)を使用して、これら発声をそのアカウントコードの
対応する数字を特性化する音声信号にセグメント化す
る。CIU20−1は、次に、各音声セグメントを自己
相関係数にセグメント化し、次に、これら係数に基づい
て、発呼者ではなく、アカウントコードを識別する。こ
のアカウントコードは当分野において周知の従来の話者
独立接続数字音声認識にて識別される。(加入者が電話
機S1のキーパッドを介してアカウントコードを入力し
た場合は、CIU20−1は結果としての一連のトーン
(つまり、二重トーン多周波数信号、つまり、DTMF
信号)を対応する数字値に復号し、これらをアカウント
コードとして格納する。次に、上に述べた通り、CIU
20−1は一連のランダムの数字を送り、加入者にこれ
ら数字を発声するように要求する。同様に、CIU20
−1は発呼者の応答を自己相関係数の特徴ベクトルとし
てセグメント化及びモデル化する。
【0059】上記の手順に続いて、CIU20−1は受
信されたアカウントコード及び発呼者(加入者)の発声
されたアカウントコード(或はランダムの数字)を表わ
す特徴ベクトルを含むメッセージを発呼者の識別を検証
するためにコントローラ45に送る。コントローラ45
は、これに応答し、また受信されたアカウントコードを
メモリインデックスとして使用することによって、参照
データベース、或はメモリ50のレコードから関連する
アカウントコードを形成する対応する数字の加入者の発
声のヒドンマルコフモデル(HMM)及びそのアカウン
トコードにて識別された加入者の仲間と関連するHMM
をアンロードする。コントローラ45は次にバス46を
介してその加入者HMMと特徴ベクトルが同一人物によ
って話された音声信号を表わすことを検証する目的でこ
うしてアンロードされたHMM及びCIU20−1によ
って生成された特徴ベクトルをRTH41に送る(特徴
ベクトルがランダムの数字を表わす場合は、コントロー
ラ45は加入者及び仲間の両方に関してこれら数字に対
して前に格納されていたHMMのみを送ることに注意す
る。)
【0060】RTH41は、要求に応答して、それと関
連するDSP41−1から42−Pのアイドルの一つ、
例えば、DSP42−Pを識別して、コントローラ45
から受信されたHMM及び自己相関係数の特徴ベクトル
をDSP42−Pに供給する。DSP42−Pは図5に
示される流れ図に従って動作する。図5のステップ70
5に示されるように、DSP42−Pは自己相関係数の
特徴ベクトルを上に説明のようにケプストラム及びデル
タケプストラム係数の特徴ベクトルに変換する。
【0061】次に、DSP42−Pは(例えば、発声さ
れたランダム数字検証音声を表わす)ケプストラル係数
の特徴ベクトルを主張した加入者と彼/彼女の仲間のH
MMと比較する。この比較が図5のステップ710−7
45に示される。この比較は検証音声が主張した加入者
によって発声された可能性の指標となるスコアを生成す
る(検証の目的に対しては、スコアは非会話音を表わす
ものではなく、会話音のHMMに基づく)。スコアS
は、DSP42−Pによって、以下の式(5)に従って
決定される(ステップ730参照):
【数5】
【0062】
【外1】
【0063】DSP42−PがSの値をしきい値以上で
あるものと決定すると、加入者の主張した識別が受け入
れられる(ステップ735−745を参照)。受け入れ
られた結果として、ケプストラム及びデルタケプストラ
ム係数の特徴ベクトルが主張され、検証された加入者の
HMMを“更新”(或はさらに訓練)するために使用さ
れる(ステップ740参照)。特徴ベクトルOim(t)
(t=1、2、...、Tjm)が与えられ、状態jのマ
ッチング混合成分のm個のベストに復号されると、HM
M平均μ、及び成分の重みcjmがDSP42−Pによっ
て以下のように更新される。
【数6】 及び
【数7】 ここで、Njmは未更新平均及び混合成分を計算するため
に使用される訓練ベクトルの数である。次に、ベクトル
カウントNjmがDSP42−Pによって以下のように更
新される。
【数8】
【0064】DSP42−Pは次に更新されたHMM及
び検証が真(つまり、肯定)であることを示す標識をR
TH41に供給する(ステップ745を参照)。RTH
41は、これに応答して、その情報及び検証された加入
者アカウントコードをコントローラ45に供給する。
【0065】DSP42−PがSの値がしきい値以下で
あることを決定した場合は、加入者の主張する識別は拒
絶され、偽り(つまり、否定)の検証を示す標識がRT
H41に送られる(ステップ735、750を参照)。
DSP42−Pによる加入者のHMMの更新はこの状況
下においては起こらない。コントローラ45には否定の
検証情報が供給される。
【0066】一例として、統計しきい値を使用すること
もできる。このしきい値は、それぞれそのシステムの詐
欺師に対する抵抗力の強さに応じて、ゼロ、ゼロ以上、
或はゼロ以下にバスアスすることができる。別の方法と
して、動的しきい値を使用することもできる。動的しき
い値は所望のレベルの性能を達成するために話者検証の
ための従来のしきい値決定技法に従って決定することが
できる。これに関しては、例えば、ここにあたかも完全
に説明されているかのように参考として編入されている
Rosenberg (ロゼンベルグ)による論文『電話回線を通
じての自動話者検証システムの評価(Evaluation of an
Automatic Speaker Verfication System Over Telepho
ne Lines)』、55ベルシステムテクニカルジャーナル
(Bell System Technical Journal)723−44(19
76年1月から8月)を参照すること。
【0067】式(5)は他の技法、例えば、従来のスコ
アリング技法と組合わせて使用できることにも注意す
る。この場合、例えば、第一のスコアリング技法は式
(5)の右辺の第一の項から構成される。この技法によ
ってしきい値T1 を超えるスコアS1 が生成された場
合、式(5)のスコアリング技法の全体が第二のスコア
2を決定するために使用される。このスコアS2 が次
に第二のしきい値T2 と比較される。S1 >T1 及びS
2 >T2 のときにのみ主張された識別が正当化される。
スコアリング技法のこのような組合わせは検証システム
の詐欺師による誤りを回避する能力を向上させる。
【0068】DSP42−Pによって遂行されるビテル
ビスコアリング(Viterbi scoring)は発声の前後及び
語と語の間のオプションとしての非音声セグメントを許
す文法によって従来の制約を受ける。検証フェーズの場
合は、好ましくは、ビテルビ尤度スコアが各語の尤度に
持続罰則(duration penalty)を加えることによって後
処理される。
【0069】
【外2】
【0070】(式(5)によって表わされ、図5のステ
ップ730において遂行されるような)主張される加入
者に対する対数尤度スコア(log likelihood score)か
ら仲間の対数尤度スコアの統計を引いた値は検証のため
の“動的しきい値(dynamicthreshold )”を与える。
このしきい値は条件の変化に対する大きな抵抗力を与え
る。真の話者のスコアが条件の変化、例えば、登録(訓
練)と検証において使用されるマイクロホンの差異と関
係するチャネル条件の変化によって劣化された場合、仲
間のスコアも同じように影響される傾向を持つ。従っ
て、対数尤度の差異は実質的に安定するように留まり、
条件の変化が主張される識別を検証するためのDSP4
2−Pの能力に重大な制約を課すこととはならない。
【0071】コントローラ45は、検証標識が肯定であ
るのに応答して、更新されたHMMを加入者データベー
ス50のレコード内に格納する。コントローラ45は次
にこの標識及び省略時課金番号をCIU20−1に送
る。検証標識が否定的な検証を示すと、コントローラ4
5はLAN30を介してCIU20−1にこの事実を示
す返答メッセージを送り返す。CIU20−1は次にこ
の返答メッセージに応答して終話或は呼をアテンダント
15に向ける。
【0072】コントローラ45がそれがCIU20−1
から受信したアカウントコード、或は識別子が加入者レ
コードの番号と関連することを発見すると、コントロー
ラ45はこれらリンクされたレコードの各々から関連す
るHMMをアンロードし、様々なセットのアンロードさ
れたHMM及びそれらの対応するレコードアドレス並び
に係数の受信された特徴ベクトルを処理のためにRTH
41にパスする。RTH41は、これに応答して、受信
されたセットのHMMと特徴ベクトルのコピーをそれと
関連するDSP41−1から41−Pの対応するアイド
ルの一つに分配する。これらの各DSP、例えば、DS
P41−1は、これに応答して、それらの特徴ベクトル
がそれがRTH41から受信したセットのHMMとどの
程度のレベルで一致するかの指標となるスコアを生成
し、RTH41に供給する。RTH41は、これに応答
して、それがそれと関連するDSPから受信するこれら
様々なスコアの中から最高のスコアを選択する。RTH
41がしきい値より大きな最高スコアの値を見つける
と、RTH41は発呼者の識別を確認し、発呼者をその
アドレスがその最高スコアと関連する加入者レコードと
関連付ける。RTH41は次にそのアドレスと関連する
HMMを上に説明の方法にて更新させ、こうして更新さ
れたHMM、関連するスコア及びレコードアドレス並び
に前述の肯定標識をコントローラ45に供給する。コン
トローラ45は、これに応答して、更新されたHMMを
格納し、前述の返答メッセージをCIU20−1に送り
返し、この中に前述の最高スコアと関連する加入者レコ
ードを挿入する。一方、RTH41がこの最高スコアの
値がしきい値以下であることを発見した場合は、RTH
41はコントローラ45にその事実を告げる。同様にし
て、コントローラ45は上に説明のようにこの事実を示
すメッセージをCIU20−1に送り戻す。
【0073】コントローラ45の返答メッセージが肯定
であるものと想定すると、CIU20−1は呼接続を通
じて、例えば、“what number do you wish to call ?
(何番を呼び出したいですか?)”という要求をアナウ
ンスメントする。加入者はこの要求に対して、(a)電
話機S1のキーパッドを使用して、加入者が呼び出した
い特定の電話番号、例えば、908−555−1234
を“キー入力”するか;(b)加入者の事前に定義され
た短縮ダイヤリングコード、例えば、231#を“キー
入力”するか;(c)加入者が呼び出したい特定の電話
番号を口答にて伝えるか;或は(d)加入者の事前に定
義されたラベル、例えば、“call home”或は“call of
fice ”の一つを口答にて伝える。
【0074】より詳細には、CIU20−1はある電話
番号を特性化するDTMF信号の受信に応答して、これ
ら信号をそれら信号が交換機10及び通信網200を介
して受信された順番にて対応する数字に復号する。これ
ら電話番号の最後が復号されると、CIU20−1は加
入者のアカウントコード及び受信された電話番号を含む
メッセージをホストコンピュータ5に送る。ホストコン
ピュータ5は次に、なかんずく(a)加入者のサービス
番号及び課金電話番号(例えば、自宅の電話番号)、
(b)呼び出されている電話番号及び(c)現在の日時
を含む課金レコードを生成し、その内部メモリ内に格納
する。ホスト5は次に交換機10に通信網200を介し
て出電話呼を接続し、被呼電話番号を送りだすように指
令する。ホスト5はまた交換機10に加入者の入り呼を
この出呼に接続するように指令する。CIU20−1は
加入者が電話オペレータに要求を行なった場合に備えて
これを検出するための手段として加入者の入り呼上にブ
リッジされたままに留まる。つまり、CIU20−1か
ら20−Nの各々は独立した音声認識の周知の機能を使
用して発呼者が“operator(オペレータ)”と呼び出す
のを検出(spot)することができる。従って、CIU2
0−1がある関連する呼の処理中に加入者が“オペレー
タ”という語を言うのを“検出(spots )”すると、C
IU20−1はLAN30を介してホスト5にこれを伝
えるメッセージを送る。ホスト5は、これに応答して、
加入者を交換機10を介して空いているアテンダント位
置15に接続する。ただし、CIUはいったん関連する
呼が完結すると“オペレータ”という言葉に応答しな
い。呼が完結した時点では、加入者は、オペレータの助
けを要求する方法として、特定の信号、例えば、ポンド
(#)記号を入力することができる。つまり、呼が完結
した後に交換機10がこれら特定の信号を検出した場合
は、交換機10はホスト5にオペレータ要求メッセージ
を送る。別の方法として、加入者は、現在の呼の間の任
意の時点において、別の呼を接続することを要求する一
つの方法として、特定の信号、例えば、**9を入力す
ることもできる。従って、交換機10がこれら信号の入
力を検出すると、これはこれを示すメッセージをホスト
5にパスする。ホスト5は、これに応答して、出交換機
10接続を切断し、発呼者に発呼宛先を入力するように
要請する。
【0075】一方、加入者が加入者の短縮ダイヤリング
コード、例えば、231#の一つをキー入力した場合
は、CIU20−1は、そのコードを特性化する信号を
受信及び復号すると、コントローラ45に加入者によっ
て入力された短縮ダイヤリングコードと関連する電話番
号を要求するメッセージを送る。コントローラ45は、
このメッセージを受信すると、要求された電話番号を得
るためにデータベース50内に格納された加入者プロフ
ィルレコードに尋問する。コントローラ45は、次に、
データベース50から電話番号をアンロードし、その番
号、関連する短縮ダイヤリングコード及び加入者アカウ
ントコード番号をLAN30を介してCIU20−1に
送る。CIU20−1は、これに応答して、その電話番
号を含む呼要求メッセージ、並びにそれへの電話接続を
確立する要求をホスト5に送る。ホスト5は、これに応
答して、課金レコードを確立し、交換機10及び通信網
200を介して要求される電話番号に電話呼を接続す
る。
【0076】別の方法として、加入者は、要求される電
話番号、例えば、908−555−1234を口答にて
伝えることもできる。加入者がこの方法をとった場合
は、CIU20−1は、接続数字セグメント化技法を使
用して、その電話番号の数字を特性化する加入者の音声
信号をセグメント化し、これら音声セグメントを上に述
べたように前述の係数の特徴ベクトルにモデル化する。
これら特徴ベクトルに基づいて、CIU20−1は加入
者によって話された数字を翻訳(識別)することができ
る。この種の翻訳は、一般的に、話者独立自動音声認識
(speaker-independent automatic speech recognitio
n)と呼ばれている。従って、この方法による翻訳の結
果として、CIU20−1は、話された電話番号を形成
する数字を識別する。同様に、CIU20−1は、次
に、これら数字を呼要求メッセージにパケット化し、こ
のメッセージをLAN30を介してホスト5に送る。ホ
スト5は、このメッセージの受信に応答して、上に説明
のように、関連する課金レコードを確立し、受信された
電話番号に電話呼を接続する。
【0077】もう一つの方法として、加入者は、加入者
によって前に定義された発呼ラベル、例えば、“call o
ffice ”を口答で告げることもできる。CIU20−1
は、これに応答して、そのラベルを特性化する加入者音
声信号から前述のサブワードユニットインデックスを生
成する。次に、上に説明のように、CIU20−1は、
こうして生成された一連のインデックスを上に説明のよ
うにデータベース50内に前に格納された加入者ラベル
のサブワードユニットのインデックスと比較する。
【0078】従って、CIU20−1が話されたラベル
と関連する電話番号を識別すると、CIU20−1は、
なかんずく、識別された電話番号を含む呼要求メッセー
ジをホスト5に送る。ホスト5は、これに応答して、要
求された電話呼を上に説明の方法で接続する。CIU2
0−1から20−Nの各々は、加入者が入力している電
話番号を取り消すために加入者が発声する特定のキーワ
ード、例えば、“cancel(取消)”を検出するように構
成される。例えば、加入者が電話番号の数字のの幾つか
を入力した後に、“cancel(取消)”という言葉を言っ
たとすると、この呼を処理するCIU、例えば、CIU
20−1は、(上に説明の語を検出するための話者独立
音声認識を使用しての)この発声の検出に応答して、受
信された数字を破棄し、前述のアナウンスメントを再送
する。
【0079】SVS40は加入者の口答によるアカウン
トコードを処理する処理時間をかなりの程度延長するこ
とが理解できる。返答がコントローラ45にできるだけ
速く帰って来るようにこの処理を速度化するために、R
TH41はこれがアカウントコードを形成する数字を幾
つかのアイドルのDSP42−1から42−Pの間で分
割するように構成される。例えば、RTH41は、発声
された数字並びにデータベース50内に格納された関連
するHMMを対応するアイドルのDSP42−1から4
2−Pに供給する。従って、9つのDSPがアイドルで
ある場合、これらDSPの各々はアカウントコードの一
つの数字を処理することとなる。
【0080】次に、図6から8の説明に移るが、ここに
は、流れ図形式にて、システム100の動作を実現する
ためのプログラムが示される。より詳細には、このプロ
グラムがブロック400において交換機10を介して受
信された新たな呼に応答して開始される。ブロック40
0からプログラムはブロック401に進み、ここでこれ
は、簡単なサービス警告信号、例えば、トーンを送出
し、次に、サービス名アナウンスメント、例えば、“Vo
ice Direct(音声指示)”を送出する。この時点で、プ
ログラムは呼を“オペレータ”という語、或は“取消”
という語が受信されないか監視を開始し、いずれかの語
が受信された場合は、上に説明のように進む。プログラ
ムは次にブロック402に進み、ここで、これは、発呼
者に彼/彼女のアカウントコード(識別子)を入力する
ように催促する。発呼者は、この催促に応答して、彼/
彼女のアカウントを形成する数字を口答にて告げるか、
或は発呼者の電話機のタッチトーンキーパッドを介して
この数字を入力する。ブロック403において、プログ
ラムはこうして入力されたアカウント番号と関連する顧
客レコードがデータベース50(図1)内に格納されて
ないか調べる。この結果が真であることが判明した場合
は、プログラムはブロック404に進む。そうでないと
きは、プログラムはブロック405に進む。
【0081】ブロック405において、プログラムは発
呼者の正当なアカウントコードを入力する第二の試みが
また失敗したか否かを調べるためのチェックを行ない、
失敗した場合は、ブロック407を介して呼をオペレー
タに転送する。そうでない場合は、プログラムはブロッ
ク407に進み、ここでこれは再び発呼者に彼/彼女の
アカウントコードを入力するように催促する。
【0082】ブロック404において、プログラムは入
力されたアカウントコードが音声信号によって特性化さ
れるかチェックし(つまり、発呼者が番号を発声し)、
特性化される場合は、ブロック408に進む。特性化さ
れない場合は、プログラムはブロック409に進み、こ
こでこれは発呼者に一連のランダムの数字を復唱(発
声)するように催促する。プログラムはこれへの発呼者
の応答を集め、図3との関連で上に説明したように応答
を特性化する特徴ベクトルを分析し、ブロック408へ
と進む。ブロック408において、プログラムは図5と
の関連で上で述べたように発呼者の識別を検証する。発
呼者の音声が検証できない場合は、プログラムはブロッ
ク407へと進む。検証された場合は、プログラムはブ
ロック410に進み、ここでこれは発呼者に被呼者の宛
先を入力するように催促する。上に述べたように、発呼
者は、(a)電話番号或は呼ラベルを口答で伝える或は
(b)電話番号或は短縮ダイヤルコードを発呼者の電話
機、例えば、S1のキーパッドを介して入力することに
よって呼を接続することができる。プログラムは次にエ
ントリを待ち、エントリが受信されるとブロック411
に進む。ブロック411において、プログラムはそれが
発呼者が電話機のキーパッドを使用して電話番号を入力
したことを発見した場合(つまり、番号が対応するDT
MFトーンにて特性化される場合)、ブロック418に
進む。そのでない場合は、プログラムは発呼者が電話番
号を口答にて伝えたか否かを決定するためにブロック4
12に進む。後者の決定が真である場合は、プログラム
はブロック416に進み、ここでこれは関連するCIU
に発呼者の音声信号を(上に説明されたように)電話番
号に翻訳するように指令し、次に、ブロック417に進
む。ブロック412における決定が偽りであった場合
は、プログラムはブロック413に進み、発呼者が短縮
ダイアルコードを入力したか否か決定する。プログラム
が発呼者が短縮ダイアルコードを入力しなかったことを
発見すると、これは、ブロック414に進み、発呼者が
口答による呼ラベルを入力したか決定する。プログラム
が発呼者が短縮ダイアルコード或は呼ラベルのいずれか
を入力したことを発見すると、プログラムはブロック4
15に進み、ここでこれはSVS40に発呼者のエント
リを上に説明のように電話番号に翻訳するように指令す
る。プログラムは次にブロック417に進み、ここでこ
れは、結果として得られた電話番号を発呼者に送信し、
次に、ブロック418に進み、ここでこれはその電話番
号を通信網200に向けて送出させる。
【0083】プログラムがブロック414において発呼
者が呼ラベルを入力しなかったことを発見した場合は、
プログラムはブロック419に進み、ここでこれは、発
呼者の最後のエントリが発呼者からの正当なエントリを
得るための第二の試みを表わすものであるか否か決定す
る。そうである場合は、プログラムはその呼をオペレー
タに転送する。そうでない場合は、プログラムはブロッ
ク410に進み、電話番号の入力を再び催促する。
【0084】ブロック418において、プログラムはシ
ステム100を介して出呼を置き、次に、システム10
0に入り呼をこの出呼接続に接続するように指令する。
プログラムは次にブロック412に進み、ここでこれは
呼をオペレータに対する要求或は別の呼を接続する要求
が受信されないか監視する。本発明の一つの実施例にお
いては、加入者は、このような要求を呼の処理の任意の
時点、つまり、ブロック402と417の間に、呼が完
結した後に、つまりブロック418及び421の後に、
“オペレータ”という言葉を口答にて伝えることによっ
て、或は、例えば、0#を特性化する特定の信号を入力
することによって入力することができる。同様に、加入
者は別の呼の接続を要求するために**9を入力するこ
ともできる。
【0085】最近、多数の電話加入者が音声メッセージ
ングサービス、例えば、図1に示される音声メッセージ
システム300に加入した。中核の所で、システム30
0によって提供される機能は従来のアンサリング機械に
よって提供される機能と類似する。つまり、システム3
00の加入者、例えば、電話機S1と関連する加入者が
何らかの理由により電話呼に応答しない場合、発呼者は
システム300にメッセージを残すように求められる。
ただし、被呼加入者が呼をシステム300に接続しない
限り、彼/彼女は発呼者がシステム300に音声メッセ
ージを残したことを知ることはできない。多くの音声メ
ッセージングシステムは、この状況に、加入者が一つ或
は複数の待たされた音声メッセージを持つことを示す一
つの方法として加入者の電話機上のランプを点灯させる
ことによって対処する。システム100はこれとは異な
るアプローチを取る。
【0086】より詳細には、新たな加入者が音声メッセ
ージングサービス、例えば、システム300と関連付け
られている場合、サブスクリプション及び登録プロセス
の際に、アテンダント15は加入者データベース60の
レコード及びデータベース50のレコードに(a)この
新たな加入者が音声メッセージングサービスと関連付け
られていることを示す標識、(b)そのサービスの電話
番号及び(c)その加入者のメッセージングサービスア
カウントコード或はパスワードを挿入する。その後、こ
の新たな加入者が、例えば、出呼を掛ける目的でシステ
ム100に呼を掛けると、関連するCIU、例えば、C
IU20−1が加入者の呼要求を処理している間に、ホ
スト5が交換機10及び通信網200を介して音声メッ
セージングサービス300への呼を置く。このシステム
が呼に応答すると、ホスト5は加入者の電話番号を送出
し、所定の時間期間だけ待ち、その後、関連するアカウ
ントコード(パスワード)を送信する。システム300
は、この情報に応答して、その加入者に対してシステム
300内に格納されている音声メッセージの状態を送信
するが、この状態は音声メッセージ無しの状態から複数
の音声メッセージが存在する状態の間で変化する。加え
て、ホスト5は、アカウントコードを送出した後に、交
換機10に加入者の入り呼を交換機10とシステム30
0の間で通信網200を介して確立された電話接続にブ
リッジするように指令する。こうして、加入者には、彼
/彼女のシステム300音声メッセージの状態が自動的
に提供される。
【0087】次に、図10の説明に入るが、ここには、
参照データベースの一例としての配置が示される。より
詳細には、データベース50はシステム100の加入者
の各々に対してペアのレコード、例えば、50−1及び
50−2を含む。ペアの一つのレコード、例えば、レコ
ード50−1はゼロから9までの数字(及び場合によっ
ては“oh(オー)”)、仲間HMMのアドレス、呼ラ
ベル及び関連する課金ラベルを特性化する加入者の音声
信号のヒドンマルコフモデルを含む。このレコードはま
た彼/彼女の音声信号から発呼加入者の識別を検証する
ことに関係する様々な統計値を含む。例えば、これら統
計値は、関連する音声テンプレート或はモデルを更新す
るために使用され、システム100がこの検証を遂行し
た回数、検証が失敗した回数、検証発声語の持続期間の
平均及び偏差、及び関連する加入者によって発声された
数字及びラベルの検証及び認識と関連する様々なしきい
値を含む。ペアの他方のレコード、例えば、レコード5
0−2は、レコード50−1内に含まれる情報のASC
II(テキスト)バージョン、並びに関連する電話番号
及び短縮ダイアリングコードを含む。この図面から、こ
れらペアの各レコードは関連するアカウントコードに対
するフィールドを含むことが分かる。このアカウントコ
ードフィールドはまたアカウントコードが一つ或は複数
の加入者によって共有される場合に満たされるサブフィ
ールト(図示なし)を含む。つまり、サブフィールドの
内容は、関連するレコードを上に説明のように他のレコ
ードとリンクする。
【0088】図11に示されるように、データベース6
0の配置は幾分異なる。上に述べたように、データベー
ス60は顧客記述情報を格納するために使用され、この
メモリ内においては、情報が複数のデータベース60の
テーブルを横断して格納される。このテーブルの一つ、
例えば、テーブル60−1は、各々が対応する加入者に
対して特定的である情報を含む複数のレコード(CUS.PR
OF 1 からCUS.PROF N )から形成される。このような特
定の情報には、例えば、加入者の名前及び住所、アカウ
ント番号、クレジット限度、省略時の課金アカウント番
号、課金アドレス及び他のテーブル、例えば、テーブル
60−4内のエントリをポイントする複数のデータベー
ス60のアドレス(ポインタ)が含まれる。(このアカ
ウント番号フィールドはまた、関連するアカウントコー
ドが他の加入者と共有されることになった場合、関連す
るレコードを他のレコードとリンクするための複数のサ
ブフィールドを含む。)テーブル60−4もまた各々が
対応する加入者の個人的なものであり、アテンダント1
5によって加入者の識別を検証するために使用される情
報を含む複数のレコード(CUS.ID 1 からCUS.ID N )
から形成される。これら識別情報には、例えば、加入者
の社会保険番号、本籍、母の結婚前の姓などが含まれ
る。
【0089】図面に示されるテーブルのうちで、テーブ
ル60−1とテーブル60−3は加入者のアカウント番
号を使用してインデックスされる。テーブル60−3
は、より詳細には、複数のエントリ(CUS.LL 1 からCU
S.LBL N )から形成されるが、ここでこれらエントリの
各々は、呼ラベルのASCIIバージョン、関連する電
話番号、関連するラベル課金アカウント及び対応する加
入者によって指定される対応する課金アカウント番号を
含む。これらの各課金アカウント番号は、一方、テーブ
ル60−2内のエントリをポイントし、このエントリは
関連する課金アカウント番号のための従来の課金情報を
含む。これら課金情報には、例えば、関連する呼に対し
て課金されるべきエントリ(或は加入者)の氏名及び住
所、課金サイクル(例えば、月毎、三か月ごと)などが
含まれる。データベース60はまたテーブル60−5を
含み、このテーブルは、システム100が上に説明のよ
うに加入者の訓練フェーズにおいて使用する偶数セット
の数字を含む。
【0090】次に、図12及び13の説明に移るが、こ
こには、ブロック図形式にてもう一つの実施例が示され
る。この実施例は、図1のシステム100によって遂行
されるサブスクリプション及び話者検証機能を集中化
し、これら機能を互いにインターフェースするために高
速フレーム中継(frame-relay )パケット網を使用す
る。好ましくは、音声指令システム100の小さな“ス
トリップダウン(strippeddown )”バージョンが各通
信網200のオペレータサービス位置システム(Operat
or Service Position System、OSPS)と関連付けら
れるが、図面には、これの一つ、つまり、OSPS20
5が示される。この方法により、加入者は、電話オペレ
ータアクセスコード、例えば、数字“00”をダイアル
することによってOSPSを介して音声指示通信システ
ムプラットフォーム(Voice DirectedCommunications S
ystem Platform 、VDCSP)に簡単にアクセスする
ことができる。加入者、例えば、電話機S1と関連する
加入者がこれを行なうと、CO225はこれら数字の受
信に応答して呼を通信網200に延長するが、網200
はこれに応答して呼をそのOSPSの一つ、例えば、O
SPS205に延長する。
【0091】OSPS205は呼の受信に応答して発呼
者に電話オペレータ或はVDCSP100−1によって
提供されるサービスを選択するオプションを提供され
る。加入者が後者のオプションを選択した場合は、OS
PS205はその呼を運ぶ電話接続をVDCSP100
−1の交換機10に延長する。これを行なうことによ
り、OSPS205は信号法回路13を介してホスト5
に呼を交換機10に接続するために使用されているトラ
ンクの識別を供給する。この時点において、VDSCP
100−1はホスト5の指令下において呼を図1との関
連で上に説明された方法にて処理する。
【0092】図面から小さなVDCSP100−1の場
合も上に説明の方法にて動作するホストプロセッサ5、
交換機10、CIU20−1から20−N及びLAN3
0を含むことが分かる。これはまた、例えば、Cisco Sy
stems Inc.(シスコシステム社)(CA(カリフォルニ
ア州).Menlo Park(メンロパーク)所在)から入手で
きる従来のLAN/WANタイプのルータであり得るル
ータ65−1を含む。ルータ65−1は、より詳細に
は、それと関連する修正されたシステム100と、例え
ば、AT&TのInterSpan フレーム中継網であり得る高
速パケット網700との間のインターフェースを提供す
る。つまり、ルータ65−1はLAN30−1から中央
話者検証システム(Central Speaker Verification Sys
tem 、CSVS)500或は加入者システム600にア
ドレスされたメッセージを取り出し、このメッセージを
周知のフレーム中継プロトコールに準拠するようにパケ
ット化し、このパケットを意図される宛先に配達するた
めに関連する通信網700に供給する。(ルータ65−
2と65−3は類似する機能を遂行することに注意す
る。)
【0093】同様に、意図される宛先がたまたまCSV
S500であった場合は、ルータ65−2(これはルー
タ65−1に類似する)はパケットを関連するパケット
網700のノードから受信し、受信されたパケットのフ
ォーマットを周知のTCP/IPメッセージプロトコー
ルに準拠するように変換し、このメッセージをコントロ
ーラ70に配達するためにそれと関連するLAN30−
2に供給する。(図12及び13において、LAN30
−1、30−2及び30−3もまた周知のイサーネット
網であり得ることに注意する)。コントローラ70は、
これに応答して、このメッセージを所定の選択スキー
ム、例えば、メッセージ内に含まれる加入者識別子(ア
カウントコード)に基づいてそれと関連する音声検証ユ
ニット(Voice Verification Units、VVU)400−
1から400−Mの一つに供給する。つまり、VVU4
00−1から400−Mは加入者識別子、或はアカウン
トコードの対応するレンジ、例えば、500,000個
の識別子と関連する。こうして、第一のレンジの識別子
と関連する加入者レコードがVVU400−1の参照デ
ータベース50内に格納され、第二のレンジの識別子と
関連する加入者レコードがVVU400−2の参照デー
タベース50内に格納され、以下同様に格納される。
【0094】メッセージ内に含まれる識別子が第一のレ
ンジ内の識別子であるものと想定すると、コントローラ
70はこのメッセージをVVU400−1のコントロー
ラ45に供給する。(VUU400−1から400−M
の各々は図1との関連で上に説明の方法と同じように動
作することに注意する。)このメッセージが話者検証要
求であるものと想定すると、上に説明のように、VUU
400−1のコントローラ45(以降単にコントローラ
45と呼ぶ)は、それと関連する参照データベース50
からそのメッセージ内に含まれる識別子と関連するHM
M及び仲間情報をアンロードする。コントローラ45は
次にデータベース50からアンロードされたHMM及び
仲間情報並びにこのメッセージ内に含まれる音声モデル
をさらに処理するために関連するRTH41に供給す
る。その後、コントローラ45は、この処理の結果を通
信網700を介して受信されたメッセージの発信者にア
ドレスされたメッセージに形成し、この新たに形成され
たメッセージをLAN30−2上に送出する。これに加
えて、コントローラ45は受信された識別子と関連する
発呼及び課金ラベルの音声テンプレートを関連する参照
データベース50からアンロードし、これらテンプレー
トをそれがLAN30−2上に送出するこうして形成さ
れたメッセージ内に挿入する。コントローラ70は、こ
れに応答して、LAN30−2からこのメッセージを取
り出し、これをルータ65−2に提供する。同様に、ル
ータ65−2はこのメッセージをTCP/IPプロトコ
ールからフレーム中継プロトコールに再フォーマット化
し、こうして再フォーマット化されたパケットメッセー
ジをVDCSP100−1に配達するために関連する網
700のノードに供給する。同様にして、ルータ65−
1は、それと関連する網700のノードからこのパケッ
トメッセージを受取り、このメッセージをTCP/IP
プロトコールに準拠するメッセージに再フォーマット化
し、この結果としてのメッセージをVDCSP100−
1要素の特定の一つ、例えば、CIU20−1に配達す
るためにLAN30−1に供給する。CIU20−1
は、これに応答して、このメッセージ内から検証結果を
アンロードし、上に説明のように進行する。CIU20
−1はまた上に述べたテンプレートをアンロードし、こ
れらをそのローカルメモリ内に格納する。これらテンプ
レートを確保すると、CIU20−1は、それ自身で発
呼ラベル及び/或は課金ラベルの関連する発呼加入者の
発声を処理することができ、こうして、この機能を網7
00を介してのCSVS500との関連で遂行する必要
性が排除される。
【0095】図面から上に説明のシステム100(図
1)のサブスクリプションセクション(subscription s
ection)が、ここでは、サブスクリプションシステム
(subscription system )600を形成することが分か
る。サブスクリプションシステム600は、システム1
00と同様に、(複数のアテンダント位置を代表する)
アテンダント位置15、ホスト5、交換機10、SIU
21、コントローラ25及び55並びにデータベース6
0を含み、これらは、互いに図1との関連で上に説明の
ように協力する。サブスクリプションシステム600は
ここでもコントローラ45と上に説明の方法で対話す
る。ただし、この対話は、ここでは、関連するルータ6
5−3と網700を介して行なわれる。
【0096】上記は単に本発明の原理を解説するもので
ある。当業者においては、ここには明示的に示されない
或は説明されてないが本発明の原理を具現し、本発明の
精神及び範囲に入ると考えられるべき多くの構成を考案
できるものである。
【図面の簡単な説明】
【図1】本発明の原理が中に実現される通信システムの
ブロック図である。
【図2】特定の加入者レコードを互いにリンクする所を
示す図である。
【図3】話者検出の目的での発声分析を行なうにあたっ
ての加入者識別ユニットと発呼者識別ユニットの動作を
示す流れ図である。
【図4】aはヒドンマルコフモデルの訓練及び話者に対
する仲間の選択にあたっての音声検証システムの動作を
示す流れ図である。bはヒドンマルコフモデルの訓練及
び話者に対する仲間の選択にあたっての音声検証システ
ムの動作を示す流れ図である。cはヒドンマルコフモデ
ルの訓練及び話者に対する仲間の選択にあたっての音声
検証システムの動作を示す流れ図である。dはヒドンマ
ルコフモデルの訓練及び話者に対する仲間の選択にあた
っての音声検証システムの動作を示す流れ図である。
【図5】仲間を使用しての話者検証にあたっての音声検
証システムの動作を示す流れ図である。
【図6】図1のシステム内の本発明を実現するプログラ
ムの流れ図である。
【図7】図1のシステム内の本発明を実現するプログラ
ムの流れ図である。
【図8】図1のシステム内の本発明を実現するプログラ
ムの流れ図である。
【図9】図6から8が互いにいかに配列されるべきかを
示す図である。
【図10】図1の参照データベース内に格納される加入
者レコードの配列を示す図である。
【図11】図1の顧客プロフィルデータベースの配列を
示す図である。
【図12】図1の通信システムのもう一つの実施例を示
すブロック図である。
【図13】図1の通信システムのもう一つの実施例を示
すブロック図である。
【図14】図12と13が互いにどのように配列される
べきかを示す図である。
【図15】図4aからdが互いにどのように配列される
べきかを示す図である。
フロントページの続き (72)発明者 チン−フィ リー アメリカ合衆国 07974 ニュージャーシ ィ,ニュープロヴィデンス,パークウェ イ,ラニーメイド 118 (72)発明者 アーロン エドワード ローゼンバーグ アメリカ合衆国 07922 ニュージャーシ ィ,バークレイ ハイツ,スプリング リ ッジ ドライヴ 252 (72)発明者 フランク カオ−ピン スーン アメリカ合衆国 07059 ニュージャーシ ィ,ウォーレン,キャシー レーン 11

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 個々の加入者によって行なわれた識別の
    主張をその加入者によって提供された発声を表わす信号
    に基づいて検証するための方法であって、この方法が: a.発声を特性化する複数の特徴信号を形成するために
    その発声を表わす信号を分析するステップ; b.前記の複数の特徴信号及びその識別を主張する人に
    よって話された発声に応答して訓練されたヒドンマルコ
    フモデルに基づいて、その加入者の発声がその識別を主
    張する人によって話されたものである確率を反映する第
    一の尤度信号を形成するステップ; c.前記の複数の特徴信号及びその識別を主張する加入
    者以外の人によって話された発声を使用して訓練された
    選択されたヒドンマルコフモデルに基づいて、その発声
    がその識別を主張する人以外の人によって話された確率
    を反映する一つ或は複数の他の尤度信号を形成するステ
    ップ;及び d.前記の第一の尤度信号及び前記の一つ或は複数の他
    の尤度信号に基づいて、その加入者がその識別を主張す
    る人であるか否かを示す検証信号を形成するステップを
    含むことを特徴とする方法。
  2. 【請求項2】 前記の個々の加入者が発声を提供するよ
    うに催促されることを特徴とする請求項1の方法。
  3. 【請求項3】 前記の発声がシリーズの数字であること
    を特徴とする請求項2の方法。
  4. 【請求項4】 前記のシリーズ内の数字がランダムに選
    択されることを特徴とする請求項3の方法。
  5. 【請求項5】 前記の発声が所定のセットの一つ或は複
    数の単語であることを特徴とする請求項1の方法。
  6. 【請求項6】 前記の個々の加入者によって提供される
    発声が第一の応答特性を持つ通信チャネルの使用を通じ
    て提供され、その識別を主張する人のヒドンマルコフモ
    デルを訓練するために使用される発声が第二の応答特性
    を持つ通信チャネルの使用を通じて提供されることを特
    徴とする請求項1の方法。
  7. 【請求項7】 前記の第一の応答特性を持つ通信チャネ
    ルが第一のマイクロホン応答特性を持つマイクロホンを
    含み、前記の第二の応答特性を持つ通信チャネルが第二
    のマイクロホン応答特性を持つマイクロホンを含むこと
    を特徴とする請求項6の方法。
  8. 【請求項8】 前記の信号を分析するステップが前記の
    特徴信号を実質的に前記発声の単語を表わすグループの
    特徴信号にセグメント化するステップを含むことを特徴
    とする請求項1の方法。
  9. 【請求項9】 前記のセグメント化のステップが音声認
    識システムを使用して遂行されることを特徴とする請求
    項8の方法。
  10. 【請求項10】 前記の第一及び他の尤度信号がビテル
    ビスコアリングに基づいて形成されることを特徴とする
    請求項1の方法。
  11. 【請求項11】 前記のその識別を主張する人以外の人
    によって話された発声を使用して訓練されたヒドンマル
    コフモデルがその識別を主張する人のヒドンマルコフモ
    デルに対する類似性に基づいて選択されることを特徴と
    する請求項1の方法。
  12. 【請求項12】 前記のその識別を主張する人以外の人
    によって話された発声を使用して訓練されるヒドンマル
    コフモデルが: a.識別された人によって話された発声を表わす信号と
    識別された人以外の人のヒドンマルコフモデルとの比
    較;及び b.識別された人以外の人によって話された発声を表わ
    す信号と識別された人のヒドンマルコフモデルとの比較
    に基づいて選択されることを特徴とする請求項1の方
    法。
  13. 【請求項13】 他の人によって話された発声を使用し
    て訓練されるヒドンマルコフモデルがランダムプロセス
    に基づいて選択されることを特徴とする請求項1の方
    法。
  14. 【請求項14】 前記の検証信号を形成するステップが
    一つ或は複数の他の尤度信号の統計値を反映する信号を
    形成するステップを含むことを特徴とする請求項1の方
    法。
  15. 【請求項15】 前記の検証信号が前記の他の尤度信号
    の統計値を超える前記の第一の尤度信号に応答してその
    加入者がその識別を主張した人であることを示すことを
    特徴とする請求項14の方法。
  16. 【請求項16】 前記の第一及び他の尤度信号が対数尤
    度確率を反映することを特徴とする請求項14の方法。
  17. 【請求項17】 前記の検証信号を形成するステップが
    さらに第一の尤度信号と一つ或は複数の他の尤度信号の
    統計値を反映する信号との間の差を反映する信号を形成
    するステップを含むことを特徴とする請求項16の方
    法。
  18. 【請求項18】 前記の検証信号を形成するステップが
    さらに第一の尤度信号の一つ或は複数の他の尤度信号の
    統計値を反映する信号に対する比を反映する信号を形成
    するステップを含むことを特徴とする請求項14の方
    法。
JP5252029A 1992-10-09 1993-10-08 仲間正規化スコアリングを使用する話者検証法 Pending JPH06242793A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US95930292A 1992-10-09 1992-10-09
US959302 1992-10-09

Publications (1)

Publication Number Publication Date
JPH06242793A true JPH06242793A (ja) 1994-09-02

Family

ID=25501891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5252029A Pending JPH06242793A (ja) 1992-10-09 1993-10-08 仲間正規化スコアリングを使用する話者検証法

Country Status (6)

Country Link
US (1) US5675704A (ja)
EP (1) EP0592150B1 (ja)
JP (1) JPH06242793A (ja)
CA (1) CA2105034C (ja)
DE (1) DE69324988T2 (ja)
ES (1) ES2133365T3 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146262A (ja) * 1997-04-14 2006-06-08 At & T Corp 自動スピーチ認識サービス提供方法及びシステム並びに媒体
US8209184B1 (en) 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network

Families Citing this family (135)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
AUPM983094A0 (en) * 1994-12-02 1995-01-05 Australian National University, The Method for forming a cohort for use in identification of an individual
DE19630109A1 (de) * 1996-07-25 1998-01-29 Siemens Ag Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
US6205424B1 (en) 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
JP2991148B2 (ja) * 1997-02-07 1999-12-20 日本電気株式会社 話者認識における抑制標準パターンすなわちコホートの作成方法及びシステムと該システムを含む話者照合装置
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6404876B1 (en) 1997-09-25 2002-06-11 Gte Intelligent Network Services Incorporated System and method for voice activated dialing and routing under open access network control
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6195634B1 (en) * 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
AU2850399A (en) 1998-03-03 1999-09-20 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6202047B1 (en) * 1998-03-30 2001-03-13 At&T Corp. Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
US6157707A (en) * 1998-04-03 2000-12-05 Lucent Technologies Inc. Automated and selective intervention in transaction-based networks
US6240303B1 (en) 1998-04-23 2001-05-29 Motorola Inc. Voice recognition button for mobile telephones
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
AU752317B2 (en) * 1998-06-17 2002-09-12 Motorola Australia Pty Ltd Cohort model selection apparatus and method
US6185530B1 (en) 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6614885B2 (en) * 1998-08-14 2003-09-02 Intervoice Limited Partnership System and method for operating a highly distributed interactive voice response system
US6269335B1 (en) 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6272460B1 (en) 1998-09-10 2001-08-07 Sony Corporation Method for implementing a speech verification system for use in a noisy environment
TW418383B (en) * 1998-09-23 2001-01-11 Ind Tech Res Inst Telephone voice recognition system and method and the channel effect compensation device using the same
US6743022B1 (en) * 1998-12-03 2004-06-01 Oded Sarel System and method for automated self measurement of alertness equilibrium and coordination and for ventification of the identify of the person performing tasks
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
US6473735B1 (en) * 1999-10-21 2002-10-29 Sony Corporation System and method for speech verification using a confidence measure
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6754628B1 (en) * 2000-06-13 2004-06-22 International Business Machines Corporation Speaker recognition using cohort-specific feature transforms
US6505163B1 (en) * 2000-08-09 2003-01-07 Bellsouth Intellectual Property Corporation Network and method for providing an automatic recall telecommunications service with automatic speech recognition capability
US6826529B1 (en) 2000-08-09 2004-11-30 Bellsouth Intellectual Property Corporation Network and method for providing a call screening telecommunications service with automatic speech recognition capability
US6907111B1 (en) 2000-08-09 2005-06-14 Bellsouth Intellectual Property Corporation Network and method for providing a name and number delivery telecommunications services with automatic speech recognition capability
US6778640B1 (en) 2000-08-09 2004-08-17 Bellsouth Intellectual Property Corporation Network and method for providing a user interface for a simultaneous ring telecommunications service with automatic speech recognition capability
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
KR100406307B1 (ko) 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US7054430B2 (en) 2001-08-23 2006-05-30 Paymentone Corporation Method and apparatus to validate a subscriber line
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
US20030171931A1 (en) * 2002-03-11 2003-09-11 Chang Eric I-Chao System for creating user-dependent recognition models and for making those models accessible by a user
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
US7870240B1 (en) 2002-06-28 2011-01-11 Microsoft Corporation Metadata schema for interpersonal communications management systems
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
US8509736B2 (en) 2002-08-08 2013-08-13 Global Tel*Link Corp. Telecommunication call management and monitoring system with voiceprint verification
US7333798B2 (en) 2002-08-08 2008-02-19 Value Added Communications, Inc. Telecommunication call management and monitoring system
KR100503066B1 (ko) * 2002-09-14 2005-07-21 삼성전자주식회사 음악 파일 저장 및 재생 장치와 그 방법
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
EP1639579A1 (fr) * 2003-07-01 2006-03-29 France Telecom Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs
US7450703B1 (en) * 2004-03-23 2008-11-11 Shoretel, Inc. Acceptance of inputs from various interfaces to a telephony system
US7783021B2 (en) 2005-01-28 2010-08-24 Value-Added Communications, Inc. Digital telecommunications call management and monitoring system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7788101B2 (en) * 2005-10-31 2010-08-31 Hitachi, Ltd. Adaptation method for inter-person biometrics variability
US8234494B1 (en) * 2005-12-21 2012-07-31 At&T Intellectual Property Ii, L.P. Speaker-verification digital signatures
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
EP2013869B1 (en) * 2006-05-01 2017-12-13 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
AU2007335251B2 (en) * 2006-12-19 2014-05-15 Validvoice, Llc Confidence levels for speaker recognition
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US20080201158A1 (en) 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US8812320B1 (en) * 2014-04-01 2014-08-19 Google Inc. Segment-based speaker verification using dynamically generated phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
JP6303971B2 (ja) * 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
US9641680B1 (en) * 2015-04-21 2017-05-02 Eric Wold Cross-linking call metadata
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
GB2555661A (en) * 2016-11-07 2018-05-09 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for biometric authentication in an electronic device
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
US10896673B1 (en) 2017-09-21 2021-01-19 Wells Fargo Bank, N.A. Authentication of impaired voices
CN111063359B (zh) * 2019-12-24 2022-03-18 太平金融科技服务(上海)有限公司 电话回访有效性判别方法、装置、计算机设备和介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4027800A (en) * 1975-12-03 1977-06-07 The Alliance Machine Company Gantry crane with plural hoist means
JPS5876893A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS59178587A (ja) * 1983-03-30 1984-10-09 Nec Corp 話者確認システム
US4910782A (en) * 1986-05-23 1990-03-20 Nec Corporation Speaker verification system
US4959855A (en) * 1986-10-08 1990-09-25 At&T Bell Laboratories Directory assistance call processing and calling customer remote signal monitoring arrangements
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
US4979206A (en) * 1987-07-10 1990-12-18 At&T Bell Laboratories Directory assistance systems
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
US5127043A (en) * 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
GB9021489D0 (en) * 1990-10-03 1990-11-14 Ensigma Ltd Methods and apparatus for verifying the originator of a sequence of operations
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146262A (ja) * 1997-04-14 2006-06-08 At & T Corp 自動スピーチ認識サービス提供方法及びシステム並びに媒体
US8209184B1 (en) 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US9065914B2 (en) 1997-04-14 2015-06-23 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network

Also Published As

Publication number Publication date
EP0592150B1 (en) 1999-05-19
CA2105034A1 (en) 1994-04-10
US5675704A (en) 1997-10-07
CA2105034C (en) 1997-12-30
DE69324988T2 (de) 1999-09-30
ES2133365T3 (es) 1999-09-16
DE69324988D1 (de) 1999-06-24
EP0592150A1 (en) 1994-04-13

Similar Documents

Publication Publication Date Title
JPH06242793A (ja) 仲間正規化スコアリングを使用する話者検証法
JP2957862B2 (ja) 通信システム及び通信方法
US5325421A (en) Voice directed communications system platform
US5353336A (en) Voice directed communications system archetecture
EP0804850B1 (en) Automatic vocabulary generation for telecommunications network-based voice-dialing
US6438520B1 (en) Apparatus, method and system for cross-speaker speech recognition for telecommunication applications
JP3479304B2 (ja) 音声コマンド制御及び検証システム
US6973426B1 (en) Method and apparatus for performing speaker verification based on speaker independent recognition of commands
US6687673B2 (en) Speech recognition system
JP4247929B2 (ja) 電話における自動音声認識のための方法
EP0619913B1 (en) Voice controlled messaging system and processing method
USRE38101E1 (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US8964949B2 (en) Voice response apparatus and method of providing automated voice responses with silent prompting
US5930336A (en) Voice dialing server for branch exchange telephone systems
JPH08320696A (ja) 任意に話された単語の自動通話認識方法
US20150142436A1 (en) Speech recognition in automated information services systems
US20030081738A1 (en) Method and apparatus for improving access to numerical information in voice messages
Vysotsky VoiceDialing-the first speech recognition based telephone service delivered to customer's home
Krasinski et al. Automatic speech recognition for network call routing
JP2002252705A (ja) 話者id検出方法及び装置
JPH03157696A (ja) 音声応答認識方式
JPH06208390A (ja) 音声認識装置および音声認識方法
JPS5860863A (ja) 音声発声許可音送出方式
MXPA97005352A (en) Automatic generation of vocabulary for dialing via voice based on telecommunication network

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030217