JPH08507392A

JPH08507392A - 音声コマンド制御及び検証システム

Info

Publication number: JPH08507392A
Application number: JP7518156A
Authority: JP
Inventors: デー．ラビン，マイケル
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1993-12-29
Filing date: 1994-12-28
Publication date: 1996-08-06
Anticipated expiration: 2018-12-15
Also published as: CN1118633A; DE69425818D1; EP0686297A4; AU673480B2; KR960701430A; EP0686297B1; CA2156610C; ES2150549T3; US6081782A; JP3479304B2; DE69425818T2; CA2156610A1; DK0686297T3; EP0686297A1; NZ278267A; AU1445395A; WO1995018441A1

Abstract

(57)【要約】本発明による音声コマンド制御・検証システム及び方法においては、各承認されたユーザに対して、承認されたユーザによって発声された音声コマンド或は語句の一つ或は一連の音声モデルが格納される。各音声モデルは、一つの対応する動作要素を持つが、これは対応する音声コマンドの発行に応答して承認されたユーザが実行することを望む特定の動作を指定する。各ユーザは、彼或は彼女の主張する識別を、長所として、数字の入力のような余分な動作を伴うことなしに、システムに対して主張するための手段を持つ。識別が主張され、その後音声コマンドがある人によって発声されると、システムは最初にその音声コマンドのモデルを主張された識別を持つユーザに対して格納されているモデルと比較する。一致が存在し、その音声コマンドがそれと対応する動作要素と一意に対応すると解釈できる場合は、システムは、次に、ユーザの主張された識別を、同一のコマンド内に含まれる音声特性を格納されているモデルの音声特性と比較することによって検証する。検証が成功した場合、そのコマンドが対応する動作要素に従って実行される。システムのユーザは、従って、システムの動作及び彼或は彼女の識別の検証の両方のために、一つのコマンドを発行するのみでよい。

Description

【発明の詳細な説明】音声コマンド制御及び検証システム発明の分野本発明は、一般的には、資源、例えば、電話網、自動テラーマシン等へのアクセスの制御を提供するためのシステム及び方法、より詳細には、ユーザが彼或は彼女の識別を検証するため及びユーザが得たいことを望む動作或はサービスを指示するための両方の目的に対して一つのコマンドを発声するだけでよいタイプの音声に基づくシステムに関する。発明の背景今日のシステムを使用する人は、資源、例えば、電話網、自動テラーマシン、或は他の類似する資源にアクセスするために、彼等が、最初に、彼等の識別を検証し、次に、要求されるサービス或は動作を得るために、コマンドを入力しなければならないことを発見する。典型的には、これら動作は、３つの別個のステップを要求する。つまり、（１）ユーザが識別（身元）の主張を行ない；（２）その主張が検証され；そして（３）ユーザがシステムにコマンドを発する。識別（身元）の検証自身が、今日のシステムは、しばしば、ユーザに記憶が困まるような多数の数字を入力することを要求し、或は識別を主張し、その後、別個の独立した検証、例えば、指紋、レチナルパターン、或は個人識別番号（ＰＩＮ）を提供するように要求するために、煩雑な手続きである。これは、時間の掛かる、ときとして、イライラする手続きである。理想的な構成は、単に、ユーザの識別が正当であることが検証でき、単に、一つの音声コマンドを発するのみで、ユーザが資源にアクセスできるような構成である。電話網へのアクセス取得の背景においては、理想的なシステムは、呼者が、単に、彼がだれに掛けたいかを伝えれば、システムが呼者を識別及び検証し、呼を接続するようなシステムである。つまり、呼者が、単に、“自宅呼出し（Call Home ）”、或は類似する語句を発声すると、呼が接続され、さらに、正しい承認された口座に課金されるようなシステムである。自動テラーマシンへのアクセス取得の背景においては、理想的なシステムは、暗証ＰＩＮを入力したり、或は物理的な入力、例えば、指紋を提供する必要なしに、音声コマンド、例えば、“残高照会（check balance）”と発声すればよいようなシステムである。上に説明されたような本当の意味での話者識別能力は、潜在的にアクセスを求める可能性を持つ多数の顧客から受信される音声サンプルを扱うために必要とされるメモリ及びデータ処理能力は、最も大きな分散処理システムでも充分でなく、現時点においては技術的に達成不可能である。１９９２年６月３０日付けでHu ntらに交付された特許５，１２７，０４３に開示される一つの妥協的な方法においては、話者独立音声認識を使用して識別（身元）を主張する呼者が識別され、次に、話者依存処理を使用してその呼者の音声サンプルの特性が主張された呼者に対して格納されている音声サンプルと一致するか検証される。これは、呼者が身元の主張及び検証語句として機能する一連の数字を発声し、その後、コマンドを発声しなければならないことを意味する。この方法でも、依然として、ユーザは、彼或は彼の番号を発声しなければならず、その番号が適当に認識され、処理された後に、今度は、追加のコマンドを発声しなければならず、現時点においては、身元の主張をあらためてわざわざ入力することなしに、また、余分な検証ステップを遂行することなしに、単に、“ 自宅呼出し（Call Home）”と発声すればよいという上記の目標は達成されてない。これも電話通信システムの背景内で使用されるもう一つのアプローチが、１９９３年１月１９日付けでDowndenらに交付された特許第５，１８１，２３７号において開示されている。この特許においては、顧客に特定の個人電話番号が割り当てられる。そしてこれらがダイアルされると、その顧客の音声にて事前に録音されている語句が格納されている交換システムにルートされる。これら語句としては、例えば、“ママ（Mom）”、“ブローカ（Broker）”、“自宅（Home） ”、“秘書（secretary）”等が用いられ、各語句と対応して電話番号が格納される。つまり、顧客が彼或は彼女の個人番号をダイアルすると、呼が交換システムに接続され、その顧客に対する事前に録音されている語句が取り出され、顧客によって発行されたコマンドが記録されている語句と比較される。一致が存在すると、認識されたコマンドが実行され、結果として、呼がそのコマンドと関連する格納されている電話番号に向けて接続される。この方法では、顧客は、単に、システムを呼出し、“自宅呼出し”と発声すればよい。従って、Dowdenのアプローチは、ある程度の利点を持つが、但し、この方法は、承認されてない個人によるアクセスを回避するために必要な保安或はアクセス制御の問題は扱わない。発明の要約本発明による音声コマンド制御・検証システム及び方法によると、各承認された顧客に対して、承認されたユーザによって発声された音声コマンド或は語句の一つ或は一連の音声モデルが格納される。各音声モデルは、対応する動作要素を持ち、これは、承認されたユーザが対応する音声コマンドの発行に応答して遂行されることを望む特定の動作を指定する。各ユーザは、長所として、数字の入力などの余分な動作なしに、システムに彼或は彼女の主張する識別を主張するための手段を持つ。ある識別（身元）が主張され、その後、呼者によって音声コマンドが発せられると、システムは、最初に、音声コマンドのモデルを主張された識別を持つユーザに対して格納されているモデルと比較する。一致が見られ、音声コマンドがそれと関連する動作要素と一意に対応すると解釈できる場合は、システムは、次に、ユーザの主張した識別を、同一のコマンド内に含まれる音声特性を格納されているモデルの音声特性と比較することによって検証する。検証が成功すると、そのコマンドがそれと対応する動作要素に従って実行される。このシステムのユーザは、従って、システムの動作及び彼或は彼女の識別の検証の両方の目的に対して、一つのコマンドを発行するのみでよい。電話通信システムの背景においては、本発明によるシステムは、各ユーザにユーザが電話通信網にアクセスするためにダイアルするための特定の一意の電話番号を割り当て、各ユーザに対して、音声認識システムによって認識が可能であり、また、話者検証システム内でユーザの識別を検証するために使用することができる一連の音声コマンドを格納する。これらコマンドは、各々がそれと対応する宛先電話番号を持つ呼の宛先であり得る。ユーザが彼或は彼女の一意の番号をダイアルすることによってシステムにアクセスしたとき、ユーザは、単に、“自宅呼出し”と発声、或は、任意の事前に訓練されているコマンドを発声すればよい。音声認識が、そのコマンドをそのユーザに対して格納されているコマンドの一つと比較することによって遂行される。コマンドの一致が発見されると、次に、呼者の識別が、同一のコマンドの音声特性をそのコマンドの発声に関してそのユーザに対して以前に格納されている音声特性と比較することによって検証される。呼者の識別がいったん検証されると、そのコマンドが実行され、そのコマンドと対応する電話番号を使用して要望される宛先に呼が接続される。本発明は呼接続サービスに限定されるものではない。これは、ユーザの識別がダイアルされた番号と関連する格納されている音声特性を呼を掛けている人の特性と比較することによっていったん検証されたら、電話システムとの関連でユーザに広範囲の様々な機能を提供するために使用できるものである。これら機能には、発呼カード或はクレジットカードサービス、音声メッセージングサービスへのアクセスなどが含まれる。さらに、本発明は、検証の目的で数字のシーケンスを入力することを要求しないために、サービスを提供するプラットホームは、ロータリ電話機、及びタッチトーンダイアル機能を備える電話機からもアクセスすることができる。また、各カード保持者によってダイアルされるべき一意の番号は、少なくとも一部分、呼者の好みによって選択することができる。例えば、“ ５００”番に掛けられる呼の場合、７個の追加の数字の幾つか或は全てをカード保持者によって選択することができる。本発明は、電話通信環境内での使用に限定されるものではない。これは、例えば、自動テラーマシン（ＡＴＭ）との関連で使用することも可能である。この場合は、銀行の顧客が、識別の主張をＡＴＭマシン内に銀行テラーマシンカードを挿入することによって行ない、次に、例えば、彼或は彼女の残高を照会する或は彼或は彼女の口座から資金を引き出すための音声コマンドを発声する。実際、このシステムは、承認のないアクセスを阻止することができ、他方において、承認された個人に対して、任意の資源或はデバイス、例えば、自動車、銀行金庫等への便利なアクセス方法を提供する。図面の簡単な説明本発明は、以下の詳細な説明を付属の図面を参照しながら読むことによってより一層理解できるものである。図面中：図１は、本発明に従って構成された音声コマンド制御及び検証システムのブロック図を示し；図２は、図１のＶＲＵ１１５に対する一つの構成を示すブロック図であり；図３は、図１のＤＳＰ１１７に対する一つの構成を示すブロック図であり；図４は、システムが音声コマンドにて訓練される場合に図１のシステム内で遂行されるプロセスを図解する流れ図であり；図５は、音声コマンドがその後システムに発行されたときに図１のシステム内で遂行されるプロセスを図解する流れ図であり；そして図６は、図１のデータベース内に格納される典型的なレコードの構成を示す図である。詳細な説明最初に、図１には、本発明に従って構成された音声コマンド制御及び検証システムを図解するブロック図が示される。ユーザインタフェース１０１は、ユーザがプロセッサ１１１と対話できるようにする。プロセッサ１１１は、ユーザインタフェースと同一の所に設置することも、或は遠隔に設置し、電話通信網１０９を介してインタフェース１０１と接続することもできる。インタフェース１０１の主要な機能は、システムのユーザが（１）一つ或は複数の音声モデル、音声コマンド、或は語句を入力及び格納できるようにすること；（２）識別（身元）を主張できるようにすること；及び（３）音声コマンドを入力できるようにすることである。インタフェース１０１の個々の具体的な構成は、本発明がそこで使用される用途に依存する。本発明が電話通信網にアクセスできるように使用される場合のように、インタフェース１０１がプロセッサから離れて設置される場合は、インタフェース１０１は、通常の電話機１０２を含むことが考えられる。インタフェース１０１がＡＴＭマシンとの関連で使用される場合は、インタフェース１０１は、マイクロホン１０３とスピーカ１０４、カード読取り機１０５、及び一続きの英数字入力を入力するためのキーパッド１０６を含むことが考えられる。プロセッサ１１１は、数個の相互接続されたモジュールから構成されるが、これらは一体となって、本発明を実現するために必要とされる多数の処理を遂行する。第一に、音声応答ユニット（ＶＲＵ）１１５が、音声モデル及び音声コマンドを収集格納することを助けるため、及び、その後システムに加えられる音声コマンドの処理を助けるために構成される。ＶＲＵ１１５は、ＡＴ＆Ｔから市販されるCONVERSANT音響応答ユニットを使用して実現することもできるが、これに関しては、後に図２との関連でより詳細に説明される。第二に、デジタル音声プロセッサ（ＤＳＰ）１１７が、自動音声認識（ＡＳＲ）及び話者検証（ＳＶ）の両方の目的のために音声コマンドのモデルを構築するため、及びその後、コマンドの識別及びシステムユーザの識別（身元）の検証の両方の目的のために音声コマンドを格納されたモデルと比較するために構成される。ＤＳＰ１１７は、ＡＴ＆Ｔから市販されるＤＳＰ３プロセッサを使用して実現することもできるが、これに関しては、図３との関連で後により詳細に説明される。第三に、データベース１１３が、音声モデル及びシステムユーザに関する他の情報を、例えば、図６に示されるようにフォーマット化された一連のレコード内に格納するために構成される。別の方法として、データベース１１３は、（ａ）ＶＲＵ１１５内のデータベースの一部分とすることも、或は（ｂ）ユーザによって携帯され、ユーザインタフェース１０１の一部分であるカード読取り機に挿入される携帯デバイス、例えば、“スマートカード”内に確保することもできる。 “スマートカード”の構造の詳細に関しては、例えば、１９８９年１月１７日付けでBernsteinらに交付された特許第４．７９８，３２２号に示されている。プロセッサ１１１内のこれら要素が、自動音声認識を使用してどのようなコマンドが与えられたかを解釈（翻訳）し、話者検証を使用してシステムのユーザが、事実、承認されたユーザであることを決定すると、制御信号がプロセッサ１１１からコマンド制御要素１２１に、そのコマンドを実際に遂行するように延長され、こうして、資源１３１への“アクセス”、或は、使用が許される。コマンド制御要素１２１の個々の具体的な実現は、本発明の個々の用途、及び資源１３１の特定の性質に依存する。例えば、本発明が呼の電話通信網を通じての延長を制御するために使用される場合は、コマンド制御要素１２１は、長距離呼を残りの電話通信網要素にルーティングすることを許すスイッチであることが考えられ；この例においては、網要素へのアクセスが資源１３１へのアクセスであると見なされる。本発明がＡＴＭトランザクション（取引）を制御するために使用される場合は、コマンド制御要素１２１は、顧客が彼或は彼女の口座に関する情報にアクセスすることを許す、或は引出金の受取りを許すソフトウエア制御プロセスであることが考えられ、口座に関する情報及び引出金の両方が資源１３１であると見なされる。図２は、図１のＶＲＵ１１５に対する一つの構成を図解するブロック図である。ＶＲＵ１１５は、マイクロプロセッサ２０１を含むが、これは、制御プログラムメモリ２０７内に含まれる蓄積プログラムに従って動作し、ＶＲＵ内の様々な他の要素の機能を制御する。これら様々な要素の全ては共通バス２０９を介して相互接続される。メモリ２０７内に蓄積された制御プログラムによって遂行されるこれらプロセスに関しては、図４及び図５との関連で後に詳細に説明される。ＶＲＵ１１５の他の要素には、アナウンスメント、例えば、音声プロンプト（催促）をシステムのユーザに対してプレイするためのアナウンスメント発生器２０３、及びアナウンスメントに関連する情報、及びユーザによって提供された情報を格納するためのデータベース２０５が含まれる。マイクロプロセッサ２０１は、さらに、論理機能の遂行、及びデジタル音声プロセッサ１１７への情報の供給及びこれからの情報の受信の制御を行なう。こうして、ユーザが音声コマンドを催促された場合は、ユーザによる発声がＶＲＵ１１５によって捕捉され、ＤＳＰ１１７に転送される。同様にして、ユーザが識別のクレーム（本人であることの主張）を主張するように催促された場合は、その主張がＤＳＰ１１７及び／或はデータベース１１３に転送される。図３は、図１のデジタル音声プロセッサ（ＤＳＰ）１１７に対する一つの構成を図解するブロック図である。概要を述べると、ＤＳＰは、二つの相互に関連する要素内で二つの機能を遂行する。つまり、モデル構築要素３０１内で音声モデルの構築が行なわれ、音声比較要素３１１内で音声モデルと話されたコマンドとの比較が行なわれる。前述のように、ＤＳＰ１１７は、ＡＴ＆Ｔから市販されるＤＳＰ３プロセッサを使用して実現することも、或は他の類似するプロセッサを使用して実現することもでき、従って、図３に示される要素の構成は主に構造的な面ではなく機能的な面に視点を置かれるべきである。モデル構築要素３０１及び音声比較要素３１１は、それぞれ、二つの機能を遂行する。一つは自動音声認識に関するものであり、もう一つは話者検証に関するものである。本発明によると、両方の機能が、システムの各ユーザと関連する同一のセットの音声コマンドに関して遂行される。こうして、モデル構築要素３０１内のＡＳＲ要素３０３が、図４との関連で後に説明されるモデル構築或は訓練プロセスの際に、システムの各ユーザが後に実行されることを要求する少なくとも一つの（但し通常は複数の）音声コマンドのモデルを構築するように構成される。これらモデルは、音声比較要素３１１内のＡＳＲ要素３１３内での認識の目的のため、つまり、ある音声コマンドのモデルを以前に格納されているコマンドと比較してユーザが言ったこと（WHAT the user said）を識別するために使用される。これらモデルはデータベース１１３内に格納され、さらに、要求される場合は、ＶＲＵ１１５内のデータベース２０５内に、ある動作要素と対応させて格納される。この動作要素は、後に説明されるように、システムのユーザが本人であると承認され場合、その音声コマンドを実際に実現するためにどのような動作が取られるべきであるかを示す。多くの周知のＡＳＲ技法の任意の一つ、例えば、１９９２年９月８日付けでCameronらに交付された特許５，１４６，５０３号において説明されている技法を、ＡＳＲ要素３０３及び３１３内で使用することができる。さらに、モデル構築要素３０１内の話者検証要素３０５が、図４との関連で後に説明されるモデル構築プロセスの際に、同一のコマンド内に含まれる音声特性のモデルを構築するように構成される。これら音声特性は、音声比較要素３１１内の話者検証要素３１５内で検証の目的のために、つまり、ある音声コマンドの音声特性を以前に格納された音声特性と比較し、これによって、識別を主張したシステムを使用している人がコマンドを発声或は発行した人と同一であるか決定するために使用される。これは従って、ユーザがだれであるか（HWO）を識別する。これら音声特性もデータベース１１３内に格納され、また、要求される場合には、ＶＲＵ１１５内のデータベース２０５内に格納される。多くの周知の話者検証技法の任意の一つ、例えば、１９８２年１２月７日付けでHolmgrenらに交付された特許第４．３６３，１０２号、或は１９９３年６月１日付けでDoddington らに交付された特許第５，２１６，７２０号において説明される技法を話者検証要素３０５及び３１５内で使用することができる。図１−図３に示されるシステムの他の様々な要素の機能が、次に、図４と図５との関連でさらに詳細に説明される。ここで、図４及び図５は、それぞれ、システムが音声コマンドにて訓練されるときに遂行されるプロセス、及び音声コマンドがその後にシステムに供給されたときに遂行されるプロセスを図解する。図４の訓練或はモデル構築プロセスは、ステップ４０１から開始される。ここで、新たなユーザに一意のユーザキー或はシステム識別が割り当てられ、これがデータベース１１３内のそのユーザと関連するレコード内に格納される。各ユーザに対して作成される典型的なレコードのフオーマットについては、図６との関連で後に説明される。ユーザキーの割り当てプロセスは、ＶＲＵ１１５内のアナウンスメント発生器２０３によって発行される音声プロンプトの制御下で実現される。本発明の電話通信環境に適用される一つの用途においては、ユーザが、最初にＶＲＵ１１５と関連する電話番号をダイアルし、その後、新たなユーザであると認識されると、ユーザは、ユーザから氏名、住所、課金情報、及び他の情報を要求する音声プロンプトを受信し、ユーザが応答すると、これらの全てがそのユーザキーと関連するレコード内に格納される。システムは、さらに、アナウンスメント発生器２０３を通じて、その後、ユーザにその一意のユーザキー或は識別子が、資源１３１への制御されたアクセスを得るためのトランザクションにおいて使用されるべきであることをアナウンスする。このステップ及びその後のステップの際に遂行される論理及び制御動作は、制御プログラムメモリ２０７内に蓄積されたプログラムに従って動作するマイクロプロセッサ２０１によって提供される。本発明のこの面については、当業者には容易に理解できるものである。ステップ４０１におけるユーザキーの割り当ての後の訓練プロセスは、一連のステップ４０３−４０７から構成され、これが一度或は何度か遂行される。これらステップが遂行される度に、音声コマンドのＡＳＲ及び話者検証モデルが形成され、音声コマンドと、承認されたユーザがそのコマンドを発行したと決定されたときに遂行されるべき動作コマンドとの間の対応付けがなされ、それらモデル及び関連する動作コマンドが格納される。前述のように、同一のコマンドによって、自動音声認識並びに話者検証の両方に対して使用されるモデルが生成される。より具体的には、ステップ４０３において、ユーザがアナウンスメント発生器２０３からコマンドを発声するように催促される。ユーザがコマンドを発声すると、ステップ４０４において、ユーザから音声サンプルが集められ、モデル構築要素３０１に加えられる。ステップ４０５において、ＡＳＲ要素３０３及び話者検証要素３０５内でモデルが構築される。必要であれば、ステップ４０６において、そのコマンドが発声されたときに取られるべき動作を記述する動作コマンドがユーザから集められる。次に、ステップ４０７において、これらモデル及び関連する動作コマンドがデータベース１１３内のステップ４０１において割り当てられたキーを持つユーザのレコード内に格納される。本発明の電話通信環境への用途に適用する一例として、例えば、ユーザがステップ４０３において、音声コマンドを催促され、ステップ４０４において、例えば、コマンドとしてユーザが“自宅呼出し（Call Home）”と発声したものとする。すると、ステップ４０５において、そのコマンドに対するモデルが構築され、“自宅（home）”に対する電話番号と対応付けられる。その電話番号がステップ４０６において集められ、次にステップ４０７において、これらモデル及び電話番号の両方がデータベース１１３内に格納される。その後、ステップ４０８において肯定の結果が得られ、さらに処理されるべきコマンドが存在することが示された場合、図４の一連のステップ４０３−４０７が複数回反復される。一例として、コマンド“事務所呼出し（Call Office）”、“車呼出し（Call Car）”及び“ママ呼出し”が、それぞれ、“事務所”、“車”及び“ママ”に対する電話番号と対応付けられる。全てのコマンドが処理されると、ステップ４０８において、否定の結果が得られ、ステップ４０９において、モデル構築プロセスが終了する。図５には、ある人が本発明を資源１３１にアクセスするために使用するとき、或は、システムを音声コマンドを使用してタスクを達成するために使用するときに、追従されるプロセスが示される。最初に、ステップ５０１において、その人が彼或は彼女の識別（身元）を主張し、音声コマンドを発する。本発明が電話通信環境内で実現される場合は、識別は、ユーザがそのユーザに割り当てられた一意の電話番号をダイアルしたときに主張される。本発明がＡＴＭ環境内で実現される場合は、識別は、ユーザがカードをカード読取り機の中に挿入したときに主張される。いずれの場合においても、こうして主張された識別がステップ５０３においてデータベース１１３からそのユーザに対する適当なレコードを取り出すために使用される。次に、ステップ５０５において、ユーザによって発声された音声コマンドが、ＶＵＲ１１５内に集められ、音声モデル構築要素３０１に加えられ、ＡＳＲ及び話者検証の両方の目的のためにモデルが構築される。これらモデルがステップ５０７において比較要素３１１に加えられ、この新たに生成されたモデルがその中に格納されているモデルと比較される。ステップ５０９において、ユーザによって発行されたコマンドのＡＳＲモデルがＡＳＲ要素３１３内に格納されているＡＳＲモデルと比較され、任意の格納されているコマンドと一致するか調べられる。ステップ５１０において、一致が存在することが発見された場合は、次に、ステップ５１１において、ユーザが主張した識別が、話者検証要素３１５を使用して、同一のコマンド内に含まれる音声の特徴を格納されているモデルの音声の特徴と比較することによって検証される。ステップ５１３における検証に成功した場合は、ステップ５１５において、音声コマンドが、その音声コマンドと対応させてデータベース１１３内に格納されている動作要素をコマンド制御要素１２１に加えることによって実行される。この結果として、ユーザは、例えば、資源１３１へのアクセスを得る。ステップ５１３における検証が失敗した場合は、図５のプロセスがステップ５０５から反復される。ステップ５１０においてＡＳＲの一致が発見されない場合も、図５のプロセスがステップ５０５から反復される。図６には、データベース１１３内に格納される典型的なユーザレコードのフォーマットが示される。システムの各ユーザには、一意のユーザ識別コード（ＩＤ）が割り当てられるが、これがカラム６０１内に含まれる。これはそのユーザのレコードを識別する。各レコード内のデータは、カラム６０２内に含まれる一連の音声コマンドを含むが、これらは、カラム６０３内に含まれる一連の対応する動作と関連付けられ、これら動作が音声コマンドが承認されたユーザによって発せられ、それがシステムによって認識されたときに遂行される。例えば、ＩＤ１２３４を持つユーザに対するレコードは、コマンド“自宅”、“事務所”、及び“車”を含む。これらコマンドが発声され、認識されると、関連する電話番号（カラム６０３内に含まれる）がダイアルされる。同様にして、ＩＤ１２３５を持つユーザ、及びＩＤ９８７６を持つユーザは、別のコマンドを持つ。例えば、ユーザＩＤ１２３５の場合は、“ママ”、“パパ”及び“姉”を持ち、ユーザ９８７６の場合は、“自宅”、“ファックス”及び“ページャ”を持ち、これらの各々が異なる電話番号と関連付けられる。ＩＤ９９９９と関連するもう一人のユーザは、本発明のシステムをＡＴＭマシンと対話するために使用する。このユーザの場合は、単語“ローン”が発声され、認識されると、第一のローン口座ＸＸＸに対する残高が検索されユーザに表示される。一方、単語“セービング”が発声され、認識されると、異なるセービング口座ＹＹＹに対する残高が検索され、ユーザに表示される。本発明の長所は、今日の電話発呼カードの使用を本発明を実現するシステムの使用と比較する一例から理解できるものである。現存の発呼カードシステムにおいては、顧客は、０或は１０−２８８−０をダイアルし、その後、被呼者を表わす１０桁の電話番号を入力する。発呼者は、次に、関連する１４桁の発呼カード番号を入力し、これが検証される。検証が成功した場合は、次に、呼が接続される。本発明のシステムにおいては、顧客は、彼或は彼女に割り当てられた１０桁のアクセス番号をダイアルし、次に、単に、彼の望む動作を、例えば、“自宅呼出し”（一例）と発声する。呼者の識別が成功裡に検証された場合は、呼は、呼者からの追加の入力なしに接続される。従って、本発明は、呼者の側から見ると、かなり単純で、かつ、使用が簡単である。話者検証及び音声処理に対する周知のアプローチと、本発明によって取られるアプローチとの間の差異が、以下の分析によってさらに明らかにされる。今日、識別（身元）の確認及びサービスへのアクセスは、以下のようなプロセスによって達成される：１）ユーザが識別（身元）の主張を行なう；（２）ユーザが何らかの手段を介して彼／彼女が主張者であることを検証する；（３）検証された場合、次に、主張者がサービス或は製品に対するコマンドの発行を行なう。このアプローチの一つのバリエーションにおいては、上に述べられたHuntらの特許において説明されているように、ステップ１と２が一つのステップに結合され、こうして、主張と検証が、例えば、口座番号を発声することによって単一のステップにて達成される。この場合、口座番号を翻訳するために話者独立音声認識が使用される。次に、口座番号を発声した人の音声パターンがその口座番号と対応して格納されているモデル或はテンプレートに対して比較される。本発明は、ステップ２と３が結合されるという点で、異なるアプローチを取る。識別（身元）の主張が、何らかの方法にて、例えば、ユーザに割り当てられた一意の電話番号を使用して行なわれる。ユーザは、次に、コマンド（例えば、“ 自宅呼出し”）を発声することを許される。このコマンドが話者独立音声認識を使用して翻訳される。平行して、そのコマンドを発行した人の音声パターンが、その一意の電話番号と対応させて格納されている本当の話者によってなされた話者検証モデルに対して比較される。必要とされる場合は、アクセス電話番号をユーザが選択及び変更できるようにされ、システムの使用の簡単さに、さらにもう一つの次元が追加される。勿論、最も重要な顧客にとっての長所は、彼等にとって、見掛け上、彼等が余分な口座番号の入力を必要とすることなしに、アクセスできることである。本発明は、呼接続サービスに制限されるものではなく、ユーザの識別（身元）がダイアルされた番号と関連する格納された音声特性を呼を掛けている人の特性と比較することによっていったん検証されたら、ユーザに様々な広範囲の機能を提供するためにも使用できるものである。これら機能には、一例として、本発明に従って構成された銀行コンピュータシステムへのアクセスを制御するシステムと対話することによってある人の銀行残高を得る機能が含まれる。さらに、本発明は、検証の目的のために数字シーケンスの入力を要求しないために、サービスを提供しているプラットホームに、ロータリ電話機及びタッチトーンダイアル機能を持つ電話機からアクセスすることもできる。さらに、各カード保持者によってダイアルされる一意の番号は、少なくとも一部分、発呼者の好みに基づいて割り当てることができる。例えば、呼を“５００”番号に掛けることができるが、ここで、７個の追加の桁の幾つかは、カード保持者によって選択することが可能である。本発明は、また、電話網との関連での使用に限定されるものではない。実際、本発明は、ユーザが特定の位置においてＡＴＭマシンと対話するような“ローカル”な環境内でも使用できるものである。このような構成においては、ユーザは、カード読取り機の中にクレジットカード或は類似する識別手段を挿入することによって身元の主張を行なう。ユーザは、次に、音声コマンド、例えば、“残高確認（Get Balance）”を発声する。このシステムは、最初に、発声を、発声されたコマンドをそのユーザに対して格納されている音声モデルと比較することによって翻訳するように構成される。その発声が特定の格納されたモデルと一致する場合は、次に、ユーザの識別が、格納されている話者検証モデルを同一の発声されたコマンドの特性と比較することによって検証される。このシステムは、従って、自己充足構成を持ち、中央プロセッサ及びデータベースとの通信のために電話通信網の使用を必要としない。当業者においては、本発明に対して様々な修正及び適応が可能であることは明白である。こうした理由から、本発明は、付録の特許請求の範囲によってのみ限定されると理解されるべきである。

───────────────────────────────────────────────────── 【要約の続き】ステムのユーザは、従って、システムの動作及び彼或は彼女の識別の検証の両方のために、一つのコマンドを発行するのみでよい。

Claims

【特許請求の範囲】１．承認されたユーザに対して彼等の音声コマンドに応答して動作を遂行するための方法であって、この方法が各承認されたユーザに対して、ある音声コマンド（各コマンドが対応する動作要素を持つ）と関連する少なくとも一つの音声モデルを格納するステップ；承認されたユーザであると主張するユーザから主張する識別及び音声コマンドを受信するステップ；前記の受信されたコマンドをその主張された識別を持つ承認されたユーザに対する前記の少なくとも一つの格納されている音声モデルに対して比較するステップ；前記の音声コマンドが前記の承認されたユーザに対する前記の少なくとも一つの格納されている音声モデルと一致し、前記の音声コマンドがそれと関連する動作要素と一意に対応すると解釈できる場合、前記のユーザの前記の主張された識別を検証するステップ、つまり、さらに前記の音声コマンドの音声特性を前記の格納されているモデルに対して比較するステップ；及び前記の識別が承認された場合、前記の対応する動作要素を利用して前記のシステムを使用する前記のユーザに対して動作を遂行するステップを含むことを特徴とする方法。２．前記の格納ステップがさらに前記の音声モデルの各々と対応させて動作コマンドを格納するステップを含み；前記の方法がさらに前記のユーザの主張された識別の検証が成功した場合、前記の動作コマンドを実行するステップを含むことを特徴とする請求項１記載の方法。３．音声制御システムであって、このシステムが各ユーザに対して各ユーザの音声の一連の語句を格納するための手段；前記のユーザの一人であると主張する人から特定の語句を受信するための手段；前記の特定の語句を前記のユーザの前記の主張された一人に対して格納されている語句と比較することによって前記の特定の語句を識別するための手段；前記のユーザの前記の主張された一人の識別を前記の特定の語句の特性を以前に格納されている同一の語句の特徴と比較することによって検証するための手段；及び前記の検証の結果が肯定である場合、前記の特定の語句に対応するコマンドを遂行するための手段を含むことを特徴とするシステム。４．ユーザがシステムを音声コマンドにて制御することを可能にするための方法であって、この方法が：ユーザによって話されたコマンドを受信するステップ；前記のコマンドを前記のユーザに対して格納されている語句に対して比較するステップ；格納されている語句との一致が見られる場合、前記のユーザの識別を検証するステップ、つまり、前記のコマンド内に含まれる音声特性を前記の一致した格納されている語句の音声特性に対して比較するステップ；及び検証が成功した場合、前記のコマンドを実行するステップを含むことを特徴とする方法。５．前記の実行ステップが前記のコマンドに対応する動作要素を検索するステップを含むことを特徴とする請求項４の方法。６．音声制御電話通信システムであって、このシステムが各ユーザに対してユーザが電話網にアクセスするためにダイアルする一意の電話番号を割り当てるための手段；各ユーザに対して音声認識システムによって認識することができ、また、音声検証システム内でユーザの識別を検証するために使用することができる一連の音声コマンドを格納するための手段；前記の各コマンドに対して一つの対応する宛先電話番号を格納するための手段；ユーザによる前記の一意の電話番号のダイアリング及び音声コマンドの発声に応答して音声認識を遂行するための、つまり、前記の音声コマンドをそのユーザに対する前記の格納されている音声コマンドの一つに対して比較するための手段；前記の音声認識手段に応答して前記のユーザの識別を検証するための、つまり、前記の音声コマンドの特性をそのコマンドの発声に関してそのユーザに対して以前に格納されている音声特性と比較するための手段；及びユーザの識別の承認に応答して前記の音声コマンド実行するため、つまり、そのコマンドに対応する電話番号を使用して要望される宛先に向けて電話を接続するための手段を含むことを特徴とする方法。