JPH1138992A

JPH1138992A - 自動音声／話者認識サーバへのリモート・アクセス用ポータブル音響インタフェース装置、システム及び方法

Info

Publication number: JPH1138992A
Application number: JP10152923A
Authority: JP
Inventors: Dmitrij Kanevskij; ディミトリ・カネフスキー; Herman Mace Stephen; ステファン・ハーマン・メイス; S Puun Peter; ピーター・エス・プーン; Purochiro Carl; カール・プロチロ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-06-11
Filing date: 1998-06-02
Publication date: 1999-02-12
Also published as: TW394894B; KR100276846B1; CN1229229A; CN1190774C; US5953700A; US6615171B1; KR19990006431A

Abstract

(57)【要約】【課題】話された音声及びバックグラウンド・ノイズ
を受信するマイクを持つポータブル音声信号前処理（Ｓ
ＳＰ）装置、受信されたノイズを処理してフィーチャ・
ベクトルを作成するデジタル信号プロセッサ（ＤＳ
Ｐ）、及び通信チャネルを通して転送するため通信装置
に接続するカプラを提供する。【解決手段】自動音声／話者認識（ＡＳＳＲ）サーバ
が通信チャネルを通して、前処理された音声データを受
信し、話された音声／話者を認識する。ポータブルＳＳ
Ｐ装置及びＡＳＳＲサーバは、スマートカード、磁気カ
ードまたは電子マネー・カードのＰＩＮコードの有効
化、リセット、または変更をリモートに行うため使用で
きる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自動音声／話者認
識（ＡＳＳＲ、Automatic Speech/Speaker Recognitio
n）に関し、特に電話回線等の通信チャネルを通してＡ
ＳＳＲサーバにリモートにアクセスするためのポータブ
ル音響カプラまたはインタフェースを用いたＡＳＳＲ法
に関する。

【０００２】

【従来の技術】中央のサーバまたはサービス・プロバイ
ダのリソースを多数のクライアントまたは加入者がアク
セスする代表的なクライアント／サーバまたは加入者／
サービス・プロバイダのシステムでは、何らかの形のク
ライアント／加入者認証法により、クライアント／加入
者が有効なシステム・ユーザかどうか確認される。この
ようなシステムの多くはコードをキー入力するか、また
はテキストをオペレータに通信することによってＰＩ
Ｎ、キーワードまたはパスワード等の認証コードをやり
とりする。いくつかのシステムの認証コードは音声によ
る。つまりコードはサーバに対して声で入力される。サ
ーバ（この場合はＡＳＳＲサーバ）はその発音を認識
し、記憶された有効な音声認証コードと比較すること
で、そのユーザが有効なクライアントであることを確認
する。

【０００３】ＡＳＳＲサーバ／クライアント・システム
では、クライアントが電話回線等の通信チャネルを通し
て音声により認証コードをリモートに通信すれば都合が
よい。つまり電話回線が利用できるならどのクライアン
トもサーバにアクセスできるようにすることである。電
話回線は地上回線またはセルラ回線等である。セルラの
場合は、サーバへのアクセスは完全にポータブル、つま
りいつでもどこでもセルラ・フォンとセルラ接続が利用
できる。

【０００４】上に述べたような電話ＡＳＳＲシステムの
運営上の困難には、１）電話回線で送られる音声データ
の劣化により正確さに欠ける、及び２）呼び出し側が公
衆電話からかけているとき、車を運転しているとき等、
ユーザがかけている電話の位置に応じて、ユーザ側でバ
ックグラウンド・ノイズ特性が変化するといったことが
含まれる。いずれの状況でもデータまたは信号の整合性
が失われ、よって音声／話者の認識精度が大きく低下す
る。

【０００５】データ及び認識の精度が失われるこの問題
は、クライアント側で信号が電話回線を通してサーバに
送られる前に、音声信号前処理（ＳＳＰ、Speech Signa
l Preprocessing）が実行される場合は減らすことが、
またはなくすことができる。ＳＳＰは転送デバイス、環
境、話者及び通信チャネルの音響特性の把握を含む。Ｓ
ＳＰ情報はＡＳＳＲサーバによって処理され、基準が設
定され、対応するデコード・モデルとアルゴリズムが選
択され、ワード・エラー・レートを小さくするため、ま
たは話者認識を正確に行うためにチャネル伝達関数とバ
ックグラウンド・ノイズをモデリングすることによっ
て、話者が認識されるか、または音声がデコードされ
る。しかしユーザ側でＳＳＰを実行するには、ＳＳＰソ
フトウェアを持つコンピュータを含めたＳＳＰ機器が必
要になる。このようなＳＳＰ機能は、一般的には現在の
標準的な電話やＮＣ（ネットワーク・コンピュータ）に
はない。

【０００６】従って、軽量コンパクトで持ち運びに便利
であり、任意の電話またはデータ通信デバイスに接続で
き、通信チャネルを通してＡＳＳＲサーバにアクセスし
たときに、またサーバとの対話全体で正確な話者認識を
促進し、ポータブルＳＳＰ装置とＡＳＳＲサーバの間で
正確な音声認識通信を行う機能を含む、ポータブルＳＳ
Ｐ装置が求められる。

【０００７】本発明の実施例は、音声、沈黙及びバック
グラウンド・ノイズの各信号を含むサウンドをアナログ
信号に変換するマイク、アナログ信号をデジタル信号に
変化するアナログ／デジタル・コンバータ、デジタル信
号から音声を表すフィーチャ・ベクトル・データと、沈
黙とバックグラウンド・ノイズの信号を表す特性データ
とを生成するＤＳＰ（デジタル信号プロセッサ）、遠隔
地でのＡＳＳＲサーバによる音声認識を目的に及び通信
チャネルを通してフィーチャ・ベクトル・データを表す
信号を通信するために、音響またはデータの通信装置に
接続するカプラを含むポータブルＳＳＰ装置を含む。カ
プラは、好適にはフィーチャ・ベクトル・データを音響
信号に変換する音響カプラである。その場合、通信チャ
ネルも電話回線のようにアコースティック（acoustic）
である。またカプラはデータ通信チャネルを通して転送
するためデジタル転送装置に接続ようにコネクタ、ポー
ト、プロトコル等の対応するインタフェースを含む。

【０００８】ポータブルＳＳＰ装置は、好適には、フィ
ーチャ・ベクトル・データを暗号化する暗号化装置と、
フィーチャ・ベクトル・データを圧縮するデータ圧縮装
置を含む。ポータブルＳＳＰ装置は、好適には、ＡＳＳ
Ｒサーバからの戻り信号を受信し処理する手段と、ＤＳ
Ｐによる処理を目的に戻り信号をデジタル戻りデータに
変換する手段を含む。この好適な実施例ではＤＳＰは更
に、デジタル戻りデータを圧縮解除する手段とデジタル
戻りデータを解読する手段を含む。

【０００９】ポータブルＳＳＰ装置は更に、好適には話
者、沈黙及びバックグラウンド・ノイズに関連する音響
特性を含めて、通信チャネルの伝達関数の予測を、好適
には１組の予測基準信号を遠隔地でチャネルに接続され
たＡＳＳＲサーバに送ることによって促進する手段を含
む。ポータブルＳＳＰ装置は、そのデバイスに固有の暗
号化キー・データまたは認証データを含めてデータを格
納するメモリを含む。

【００１０】本発明の他の好適な実施例は、マイクに向
かって話されデジタル化された音声を処理し、音声を表
すフィーチャ・ベクトル・データを生成するＤＳＰ（デ
ジタル信号プロセッサ）と、電話回線またはデジタル・
ネットワーク接続等の通信チャネルに接続された通信装
置に接続し、通信チャネルを通して通信するためにフィ
ーチャ・ベクトル・データを信号に変換するカプラと、
ポータブルＳＳＰから通信チャネルを介して転送された
信号を受信し、受信された信号を音声認識を目的に処理
するため、通信チャネルに接続された自動音声／話者認
識（ＡＳＳＲ）サーバを持つポータブルＳＳＰ装置を持
つＡＳＳＲシステムを含む。

【００１１】システムのＡＳＳＲサーバは、登録または
認証のデータの格納モデルを含む。このモデルは加入者
またはクライアントの登録時に作成される。ＡＳＳＲサ
ーバはまた音声認識のため、１組のボキャブラリと、言
語モデル、隠れマルコフ・モデル（ＨＭＭ、Hidden Mar
kov Models）等他のモデルを格納する。ＡＳＳＲサーバ
は、ポータブルＳＳＰ装置から受信された信号を処理
し、処理された信号を格納モデルと比較する。

【００１２】ここで好都合なことは、リモート話者認証
機能があるとき、本発明の実施例に従ったシステムは、
遠隔地のスマートカードまたは磁気カードの活動化／非
活動化、またはパスワードもしくはＰＩＮコードの変更
と再活動化の機能を提供することである。

【００１３】更に、本発明の実施例に従ったリモート音
声認識装置は、シグナリングの悪い、または歪みの大き
い通信環境でも誤差が少なくボキャブラリの多い音声の
認識が可能なＡＳＳＲ機能を提供する。

【００１４】図１は、本発明の実施例に従ったポータブ
ル音声信号前処理（ＳＳＰ）装置９９のブロック図を示
す。マイク１００は、ユーザが話した音声、沈黙及びバ
ックグラウンド・ノイズを含むサウンドを受信し、サウ
ンドをアナログ電気信号に変換するために用いられる。
マイク１００は、デジタル信号プロセッサ（ＤＳＰ）１
２０に転送して処理するためにマイク１００からのアナ
ログ電気信号をデジタル化信号に変換するアナログ／デ
ジタル（Ａ／Ｄ）・コンバータ１１０に接続される。Ｄ
ＳＰ１２０は、好適にはプロセッサと、関連メモリ及び
データを処理しポータブルＳＳＰ装置９９のデータの流
れを制御する格納プログラムを含む。好適な実施例でＤ
ＳＰ１２０の機能は、マイク１００に向かって話された
音声データをフィーチャ・ベクトルに前処理する機能、
沈黙とバックグラウンド・ノイズのデータを処理して、
通信チャネルの伝達関数の確立または予測を補助する機
能、及びポータブルＳＳＰ装置との間でデータの転送と
受信を調整する、データを暗号化／解読する、必要に応
じてデータを圧縮／圧縮解除する機能を含めた他のＡＳ
ＳＲ機能を実行する機能を含む。これらの機能及び通信
チャネルの伝達関数の予測については以下で詳しく説明
する。上に述べたＤＳＰの機能または手法は当業者には
知られており、一般に入手できる多数のＤＳＰによりこ
れらの機能を実行できる。例えばTexas Instruments、I
nc．のモデルTMS 32010、またはNippon Electric Co．
のUPD 7720は、ここで述べる用途に適したＤＳＰであ
る。

【００１５】ＤＳＰ１２０によって処理されたデータは
音響カプラ１５０に出力され、ここでデジタル・データ
はオーディオ信号に変換される。その場合、音響カプラ
からのオーディオ信号は、電話回線等のオーディオ通信
チャネルを通して転送するために、一般の電話機の受話
器等のオーディオ通信装置で再生または話すことができ
る。音響カプラ１５０は本発明の好適な実施例に従っ
て、デジタル信号をオーディオ信号に変換する変換器
と、一般の電話機の受話器のレシーバまたは送話口との
接続に適したカプラを含む。例えば音響カプラの接続部
分は、好適には、ポータブルＳＳＰ装置９９を任意の一
般電話機に取り付け、取り外すこができ、ユーザがどこ
にいても、電話から電話へポータブル装置の携帯性、可
搬性を高めるように、一般電話機の送話口に確実に係合
または接続できるゴム等の可撓物質で作られる。ポータ
ブル装置は、好適にはバッテリにより自己給電される。
予想できるとおり、マイク、Ａ／Ｄコンバータ、ＤＳ
Ｐ、カプラ及びバッテリを含むポータブル装置の基本コ
ンポーネントは軽量コンパクトである。ポータブル装置
はハンドヘルド型でもよく、或いはポケット電卓や財布
のようにシャツのポケットに入れて携帯することもでき
る。

【００１６】再び図１を参照する。暗号化装置１３０と
圧縮装置１４０はポータブルＳＳＰ装置９９のオプショ
ンのコンポーネントである。ＤＳＰ１２０に接続された
別々のチップもしくはモジュール、またはＤＳＰ１３０
の内部プログラム等の暗号化装置１３０は、ＤＳＰ１２
０によって前処理されたデータを予め設定された暗号鍵
で暗号化し、電話回線で信号の安全なやりとりを保証す
る。暗号鍵はユーザに依存するキー・コード等である。

【００１７】好適にはＤＳＰ１２０は既知の信号をＡＳ
ＳＲサーバ２００による処理のためにフィーチャ・ベク
トルのストリームに追加する。この信号がＡＳＳＲサー
バ２００によって知られており予想されている場合は、
外部信号を簡単に抽出でき、サーバからクライアントへ
のプロセスの反転も簡単になる。例えば無線通信では、
信号の分散スペクトル変調が用いられる。他のこれまで
の暗号化法または暗号化アルゴリズムもこの暗号化／解
読プロセスに使用できる。例えばBruce Schenierによ
る"Applied Cryptography"、second edition、Wiley、1
996に述べられている暗号化アルゴリズムを参照された
い。

【００１８】圧縮装置１４０はオプションであり、ＤＳ
Ｐ１２０の外部に置かれたコンポーネントまたはチップ
でよく、或いはＤＳＰ１２０の格納プログラム機能とし
て組み込むこともできる。圧縮装置１４０は前処理され
たデータを、暗号化されているかされていないかと無関
係に、電話回線を通して転送する前に圧縮し、電話回線
の帯域幅が小さい場合に転送されるオーディオ信号によ
り伝えられるデータの量を増やす。信号圧縮法は周知の
とおりである。圧縮装置１４０は好適にはロスなく圧縮
を行う。

【００１９】マイク１００からのデジタル化されたデー
タの前処理は、マイク１００に向かって話された音声パ
ターンを表すフィーチャ・ベクトルのシーケンスを生成
するというこれまでの手法を含む。例えば米国特許番号
第５５４４２７７号はこのような前処理の手法を１つ説
明している。またＤＳＰ１２０は沈黙及びバックグラウ
ンド・ノイズのデータを処理して周囲データを作成し、
このデータを電話回線を通して処理のためＡＳＳＲサー
バに転送する。ＡＳＳＲサーバは、好適には中央に位置
し、任意の電話機またはネットワークのステーションか
ら簡単にアクセスできるように電話回線またはデジタル
・ネットワークに接続される。

【００２０】ＤＳＰ１２０は、本発明の他の好適な実施
例に従って、通信回線を通してＡＳＳＲサーバから送ら
れるオーディオ・データのポータブルＳＳＰ装置９９に
よる受信を調整する。ＡＳＳＲサーバからのオーディオ
・データは、ユーザに更に情報や指示を求めるプロンプ
トを含む。この実施例で音響カプラ１５０は、電話機の
受話器の耳当てと係合するため音響カプラのトランスミ
ッタと同じように設定され大きさが決められたレシーバ
を含む。受信されたメッセージを伝えるために、耳当て
またはカプラにはもう１つのスピーカを接続できる。Ｄ
ＳＰ１２０は、オプションで、暗号化され圧縮されたデ
ータがＡＳＳＲサーバから送られた場合は、受信された
データを圧縮解除し、また受信されたデータを解読でき
る格納プログラム機能を含む。音響カプラ１５０のレシ
ーバ部は、ＤＳＰ１２０で処理するために、受話器の耳
当てからのオーディオ信号をデジタル信号に変換する。

【００２１】図２に、本発明のポータブルＳＳＰ装置９
９を利用したシステムを示す。ＡＳＳＲサーバ２００
は、好適にはポータブルＳＳＰ装置９９から遠い中央に
置かれ、電話回線を通して電話機からアクセスできる。
接続が確立されると、ＡＳＳＲサーバ２００とポータブ
ルＳＳＰ装置９９、音声／話者認識装置との接続も確立
される。ＡＳＳＲサーバ２００はポータブルＳＳＰ装置
９９と通信して、ユーザ側の沈黙及びバックグラウンド
・ノイズを読取ることによって、通信チャネルの伝達関
数を確立または予測する。通信チャネルの伝達関数の予
測法は周知のとおりである。例えばB．C．Kuoによる"Au
tomatic Control Systems"、Prentice Hall、1987及び
J．V．Candyによる"Signal Processing、the Modern Ap
proach"、McGraw Hill、1988を参照されたい。本発明に
従ったプロセス例を次に示す。ＤＳＰ１２０は、転送ま
たは接続の初めに異なる信号を生成する。異なる信号
は、既知の特性の上昇音（ascending chirp）と下降音
（descending chirp）、等間隔の一連のサイン・トーン
（sign tone）、及びホワイト・ノイズ信号である。信
号間のオーダの期間と間隔は充分確立される。信号は入
力トーンがサーバ２００からポータブル装置９９によっ
て受信されるとすぐ生成される。これらの信号は２回生
成される。一度はＤＳＰ１２０から、一度はマイク１０
０からである。サーバ２００によって受信される音響信
号は既定の基準信号と比較され、チャネルとバックグラ
ウンドの伝達関数が推測され、チャネルのシグネチャが
作成される。このシグネチャは音声フィーチャ・ベクト
ルをデコンボルブ（deconvolve）するため用いられる。
ＡＳＳＲサーバ２００は、好適には音声または話者を認
識するためＡＳＳＲ格納プログラムを含む。例えば観測
された音響特性をそれらが対応する状態にある場合に観
測する可能性を記述し、最適経路での発音を認識するこ
とによって、lefemesを表す隠れマルコフ・モデル（Ｈ
ＭＭ）が用いられる。この可能性は、記述されたトレー
ニング・スピーチとＨＭＭを整合させ、可能性を更新す
ることによって調整することができる。例えば米国特許
番号第５０３１２１７号及び第５２７６７６６号は、Ｈ
ＭＭ及び他のモデルを用いた音声認識法について述べて
いる。

【００２２】本発明の実施例に従ったＡＳＳＲシステム
は、ユーザ側の沈黙及びバックグラウンド・ノイズの特
性を示す。ＡＳＳＲシステムは好適には、先に述べたよ
うに、バックグラウンド・ノイズを接続の初め、ユーザ
が沈黙している間、またはＤＳＰ１２０から基準信号が
出される間にチェックする。バックグラウンド・ノイズ
はマイク１００によって検出され、ＤＳＰ１２０によっ
て処理されてから基準信号の第２部分の後に送られる。
ＡＳＳＲサーバ２００は、この情報からバックグラウン
ド・ノイズを推測し、受信済み入力ベクトルの処理に変
更を加える（例えばケプストラム平均減法（cepstral m
ean subtraction）、デコンボリューション等）。これ
に代えて、このような条件で調整された音声または話者
の認識のための格納モデルも使用できる。同様に沈黙期
間が検出され、単語間及びユーザが話す前の沈黙に関連
付けられた音響特性が、好適にはバックグラウンド・ノ
イズを予測するために用いられる。

【００２３】好都合なことは、本発明の実施例のＡＳＳ
Ｒシステムが話者と音声の認識を実行することである。
話者認識は、ＡＳＳＲサーバにリモートにアクセスする
ために利用できる。好適には本発明のＡＳＳＲシステム
例は、通信されたデータをバックグラウンド・タスクと
してほぼ連続的に処理し、セッション全体で話者の存在
を確認する。

【００２４】本発明に従ったＡＳＳＲの装置とシステム
について、通信装置を電話、通信チャネルを電話回線、
ＡＳＳＲサーバを電話回線に接続されたものとして示し
てきた。本発明では、通信チャネルはまた、インターネ
ット、イントラネット及びローカル・エリア・ネットワ
ーク等のデジタル通信チャネルでもあることを想定して
いる。ＡＳＳＲサーバ２００は従って、電話によってか
またはデジタル・ネットワークによってアクセスするこ
とができる。図３は、サーバ２００とのインタフェース
をとるためにマルチメディア・パーソナル・コンピュー
タ１６０をもつポータブル装置９９の用途を示す。この
実施例で受話器は、マイク及びスピーカを含むマルチメ
ディア・コンピュータ１６０に代わっている。音響カプ
ラ１５０のレシーバ部はコンピュータのスピーカから最
も近い位置に置かれ、音響カプラ１５０のトランスミッ
タ部はコンピュータのマイクから最も近い位置に置かれ
る。コンピュータ１６０は、電話回線を通してデータを
転送するためモデムを含むか、または内部サーバ３００
を通してサーバ２００に接続できる。内部サーバ３００
はＡＳＳＲサーバ２００のようにＡＳＳＲ機能を含み、
コンピュータ１６０と内部サーバ３００の間にＡＳＳＲ
システムまたはＡＳＳＲ接続を確立できる。この実施例
でマルチメディア・コンピュータはオーディオ通信装置
として機能する。

【００２５】これに代えてポータブルＳＳＰ装置９９は
コンピュータのＩ／Ｏポートとのコネクタを介してコン
ピュータに接続できる。この実施例で音響カプラ１５０
は使用せずに済ませることができる。ＤＳＰ１２０から
のデータはコンピュータのプロセッサに直接送ることが
できるからである。マルチメディア・コンピュータ１６
０は、本発明の他の実施例に従って、上に述べたポータ
ブルＳＳＰ装置９９のコンポーネントを組み込んだポー
タブル・ラップトップ・マルチメディア・コンピュータ
等である。よってポータブル・マルチメディア・ラップ
トップ・コンピュータは、ポータブルＳＳＰ装置９９に
よって実行される全ての機能を実行することができる。
ポータブル・ラップトップはモデムを通して、または内
部サーバ３００を通して、例えばＴＣＰ／ＩＰ、Ｎｅｔ
ＢＥＵＩ等のプロトコルによりＡＳＳＲサーバ２００に
直接接続できる。

【００２６】ポータブルＳＳＰ装置９９の機能とコンポ
ーネントは、本発明の他の実施例に従って、内蔵型セル
ラ・フォン（携帯電話）でもよい。従ってＳＳＰセルラ
・フォンはＤＳＰ１２０を含み、ＡＳＳＲサーバ２００
との接続及びアクセスは、アナログまたはデジタル（例
えばＣＤＭＡ、ＧＳＭ等）であるセルラ通信チャネルに
よる。

【００２７】好都合なことは、ＡＳＳＲサーバ２００か
らのデータを受信、解読または圧縮解除するポータブル
装置９９の機能（前述）により、解読または認証の機能
を実行するために様々なデータを受信することができる
ことである。例えば、現在及び次の通信の間に受信さ
れ、受信された信号が暗号化される暗号鍵、鍵の有効期
間、鍵のＰＩＮ番号の有効期間等を確認するために受信
されるクッキー、先に受信され、期限切れになるまでユ
ーザを認証するために用いられるデジタル認証または認
証、ノイズのマスキングまたはアンマスキングのため受
信されるノイズ・パターン、スマートカードの組み込み
チップでまたはクレジット・カード型カードの磁気バン
ドに、ＰＩＮの有効期限の特性を示すクッキーと共にエ
ンコードされるものの一部であるスマートカード用のＰ
ＩＮ番号またはコード等である。受信されたデータはＤ
ＳＰ２００のメモリに格納できる。既知の手法によって
ＤＳＰ１２０の読取り／書込み／再プログラムを行うた
めにポータブル装置２００に接続されるインタフェース
を使用できる。

【００２８】よって本発明のデバイス例と方法は、加入
者またはクライアントのパスワード、ログオン、ＰＩ
Ｎ、或いはまた暗号化／解読鍵の認証、リセット、また
は取り消しに使用できる。このようなタスクは、スマー
トカードまたは磁気バンドを持つカード上でリモートに
実行できる。

【００２９】スマートカード認証／ＰＩＮリセット装置
での本発明の実施例に従ったシステムの用途を図４に示
す。

【００３０】スマートカードの初期化：代表的なスマー
トカード・システムのスマートカードは、最初に機関の
認証と秘密／公開鍵のセットで初期化されることによっ
て、使用を目的としてアクティブにされる。登録サーバ
４１０側では、通常は管理者は新しいスマートカードを
管理者のスマートカードと共に挿入し、ＰＩＮ番号を入
力して新しいユーザの登録を承認する。管理者は次にユ
ーザのスマートカードの初期化プログラムをアクティブ
にする。プログラムは通常、ユーザの秘密鍵及び公開鍵
のセット、ユーザの名前、シリアル番号、スマートカー
ド・シリアル番号等の認証用の情報をスマートカードに
スタンプする。

【００３１】図３のワークステーション２２０と同等で
もよい登録サーバ４１０は、ユーザ・プロファイルを作
成し、リクエスト秘密／公開鍵及び認証を生成し、情報
をスマートカードにダウンロードする。登録サーバ４１
０は次にユーザに識別のためにワークステーションのス
ピーカに向かって話すことを要求する。これらの音声メ
ッセージは話者認識サーバ４２０に送られる。サーバ４
２０は図１乃至図３のＡＳＳＲサーバ２００と同一であ
る。音声メッセージ、認証及び一意のスマートカード・
シリアル番号は、将来の認証及び他の用途のためにＡＳ
ＳＲサーバ２００に関連付けられるたデータベース、ま
たはＡＳＳＲサーバ２００内のデータベースに保存され
る。

【００３２】或いはまた認証が発行され、カスタマ・プ
ロファイルが作成されてから、登録サーバ４１０は登録
データを保管のため保管サーバ（vault server）４３０
及びディレクトリ・サーバ４４０にアップロードする。
登録データはまたワークステーション４５０及びスマー
トカード・リーダ４６０にダウンロードすることもでき
る。ワークステーション４５０はポータブルＳＳＰ９９
のコンポーネントと機能を含むか、またはポータブルＳ
ＳＰ９９をワークステーション４５０に接続して話者認
識サーバ４２０との話者／音声情報の通信を促進するこ
とができる。各機関に各スマートカードのために生成さ
れるＲＳＡキー・ペアがある。秘密鍵は、後でＰＩＮを
リセットするときのためにカードに焼き込まれる。スマ
ートカードは、将来使用するために内部（焼き込み）、
外部（カードへの印刷）の両方とも、一意のシリアル番
号で初期化される。

【００３３】上に述べたインストールまたは初期化の場
合、ユーザがＰＩＮを忘れるか、ＰＩＮが期限切れでリ
セットされていない場合は、ＰＣまたはハンドヘルド・
ポータブルＳＳＰ装置９９とスマートカード・リーダ４
６０（スマートカードの代わりに磁気バンド・カードが
用いられる場合は磁気ライタ）によりＡＳＳＲサーバ２
００とリンクしてＰＩＮリセットを要求することによっ
て、次のようにして、ＰＩＮをリモートにリセットまた
は再設定することができる。

【００３４】ＰＣの場合、ユーザはＡＳＳＲサーバ２０
０との接続を（ＳＳＬＶ２等を通して）確立してスマ
ートカードのＰＩＮの変更を要求する。ダイアログ・ボ
ックスまたは音声プロンプトがユーザに提示され、ユー
ザのＩＤ、名前、スマートカード・シリアル番号等の入
力が求められる。ＡＳＳＲサーバ２００は、入力された
情報をもとに格納された認証とユーザ・プロファイルに
アクセスする。ＡＳＳＲサーバ２００は次にユーザに、
認証のためプリセットされた音声メッセージでＰＣのス
ピーカに向かって話すことを求める。

【００３５】アクセスされたユーザ・プロファイルとデ
ータベースからの音声セグメントは、認証のためのユー
ザからの入力メッセージと比較される。ユーザには、確
認プログラムへの入力を訂正するためにいくつか機会を
与えることができる。確認に問題がなく、ユーザが現在
の有効なユーザならＡＳＳＲサーバ２００はスマートカ
ード認証及び公開鍵を使用してＰＩＮリセット・コマン
ドを暗号化し、ユーザのＰＣ及び関連するスマートカー
ド・リーダに送る。ユーザのスマートカードはそこで自
体の固有の秘密鍵を使用してRESET PINコマンドを解読
する。

【００３６】スマートカードの秘密鍵でRESET PINコマ
ンドを問題なく暗号化できた場合、スマートカードはそ
こで活動化される。スマートカードには、スマートカー
ドの焼き込まれた固有のシリアル番号をＡＳＳＲサーバ
２００によって与えられた番号と比較するための回路を
加えることができる。それらが同じなら、スマートカー
ドはPIN RESET操作のため自体をアンロックする。

【００３７】スマートカードが活動化されＰＩＮがリセ
ットされると、ユーザは新しいＰＩＮをスマートカード
に入力することができる。スマートカードは、任意の安
全なトランザクションを目的にして利用できる。

【００３８】電話によるPIN RESET：ＰＣスピーカが利
用できない場合でも、電話でＡＳＳＲサーバ２００を呼
び出してスマートカードのＰＩＮリセットを行える。同
じ話者認証手順により、サーバに、後に使用するために
電子エンベロープで暗号化されたPIN RESETコマンドを
作成することを指示することができる。

【００３９】このＰＣ及びスマートカード・リーダによ
り、ユーザは、ＡＳＳＲサーバ２００を通してスマート
カード管理サーバとのＳＳＬ（Secure Socket Layer）
セッションを確立し（ホスト認証だけで）、ＰＩＮリセ
ットを要求する。次にＡＳＳＲサーバ２００は、暗号化
されたエンベロープをＰＣのスマートカード・リーダに
送る。スマートカードが電子エンベロープを受け取る
と、スマートカードの秘密鍵により、エンベロープ内側
のコマンドが解読される。正しい秘密鍵を持つスマート
カードだけがPIN RESETコマンドを解読できる。スマー
トカードはまた、一意のスマートカード・シリアル番号
をスマートカード管理サーバにより与えられた番号と比
較する。データが一致すると、スマートカードは後のPI
N INIT及びSETのためにリセットされる。

【００４０】スマートカードのリモート無効化：スマー
トカードが失われるか盗まれた場合、ユーザはできるだ
け早くスマートカードを無効にする必要がある。その場
合、電話でＡＳＳＲサーバ２００を通してスマートカー
ド管理サーバに接続し、スマートカードを同じ認証手順
で無効化することができる。

【００４１】上に示した、本発明の実施例に従ったシス
テム用途は、音声で確認するネットワークのアクセス・
ログオンまたはパスワードにもあてはまる。

【００４２】ネットワーク・ユーザは初期化プロセスを
実行し、ＡＳＳＲサーバ・データベースへの記録のため
にプリセットされた１組の話者メッセージを記録する。
ＡＳＳＲサーバ２００は、管理サーバとして、スマート
カード・ユーザ認証について述べたように、話者認証プ
ロセスを用い、ログオンＩＤ及びパスワードの全ての管
理タスクを実行することができる。

【００４３】スマートカードＰＩＮリセット・プロセス
と同様に、ユーザがログオン・パスワードを忘れた場合
またはパスワードが期限切れの場合、ユーザはＡＳＳＲ
サーバ２００を通した認証により変更または再有効化を
要求し、新しいパスワードまたは再有効化（reactivati
on）をユーザ側にダウンロードできる。他の用途には、
電子マネー・カードまたはウォレット・カード（wallet
card）との対話がある。ここではＩＣチップに、カー
ドに残っている金額に関する情報が含まれる。商品を購
入するためにカードが使われたときには金額が少なくな
る。本発明の実施例に従ったシステムは、上に述べたス
マートカード再有効化プロセスと同様の手順によりマネ
ー・カードをリフィル（refill）するために使用でき
る。

【００４４】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４５】（１）音声、沈黙、バックグラウンド・ノ
イズの各信号を含むサウンドをアナログ信号に変換する
マイクと、アナログ信号をデジタル信号に変換するアナ
ログ信号／デジタル・コンバータと、前記デジタル信号
から前記音声を表すフィーチャ・ベクトル・データを生
成するデジタル信号プロセッサ（ＤＳＰ）と、前記フィ
ーチャ・ベクトル・データを音響信号に変換し、遠隔地
で前記音声を認識するために、前記音響信号を通信チャ
ネルを通して通信するために音響通信装置に接続する音
響カプラと、を含む、ポータブル音声認識装置。（２）前記フィーチャ・ベクトル・データを暗号化する
暗号化装置を含む、前記（１）記載の装置。（３）前記フィーチャ・ベクトル・データを圧縮するデ
ータ圧縮装置を含む、前記（１）記載の装置。（４）前記音響カプラは、前記遠隔地からの前記通信チ
ャネルを通した戻り信号を受信し、前記戻り信号を前記
デジタル信号プロセッサによる処理のためにデジタル戻
りデータに変換する手段を含む、前記（１）記載の装
置。（５）前記デジタル信号プロセッサは、前記デジタル戻
りデータを圧縮解除する手段を含む、前記（４）記載の
装置。（６）前記デジタル信号プロセッサは、前記デジタル戻
りデータを解読する手段を含む、前記（４）記載の装
置。（７）前記通信チャネルの伝達関数を予測する手段を含
む、前記（１）記載の装置。（８）前記デジタル信号プロセッサは、前記遠隔地にて
前記チャネルに接続されたサーバからデータを受信し処
理する手段を含む、前記（１）記載の装置。（９）前記デジタル信号プロセッサは、前記装置に固有
のキー・データを含むデータを格納するメモリを含む、
前記（１）記載の装置。（１０）前記装置を囲む沈黙とバックグラウンド・ノイ
ズに関連した通信チャネル特性を把握する手段を含む、
前記（１）記載の装置。（１１）デジタル信号プロセッサ（ＤＳＰ）に向かって
話されたデジタル化された音声を処理し、前記音声を表
すフィーチャ・ベクトル・データを生成する前記デジタ
ル信号プロセッサと、前記フィーチャ・ベクトル・デー
タを表す信号を通信チャネルを通して通信するために通
信装置に接続するカプラと、を含む、ポータブル音声信
号プリプロセッサ（ＳＳＰ）と、前記通信チャネルを介
して前記ポータブル音声信号プリプロセッサから転送さ
れた前記フィーチャ・ベクトル・データを表す前記信号
を受信し、前記音声または話者を認識するために前記信
号を処理するために、前記通信チャネルとリモートに接
続された自動音声／話者認識（ＡＳＳＲ）サーバと、を
含む、音声認識システム。（１２）前記自動音声／話者認識サーバは、前記ポータ
ブル音声信号プリプロセッサから受信された前記信号を
処理し、処理された信号を認証データの前記格納モデル
と比較することによって有効な加入者を認証する認証デ
ータ格納モデルを含む、前記（１１）記載のシステム。（１３）前記自動音声／話者認識サーバは、前記ポータ
ブル音声信号プリプロセッサから受信された前記信号を
処理し、処理された信号をデータベースと比較すること
によって音声を認識するためのボキャブラリの前記デー
タベースを含む、前記（１１）記載のシステム。（１４）前記自動音声／話者認識サーバは、前記ポータ
ブル音声信号プリプロセッサから受信された前記信号を
処理することによってユーザのパスワードを認証する、
前記（１１）記載のシステム。（１５）前記自動音声／話者認識サーバは、前記ポータ
ブル音声信号プリプロセッサから受信された前記信号を
処理することによって呼び出し側を識別し、前記信号
は、前記呼び出し側によって前記ポータブル音声信号プ
リプロセッサに話された音声から発する、前記（１１）
記載のシステム。（１６）前記ポータブル音声信号プリプロセッサは、前
記自動音声／話者認識サーバから戻り信号を受信し処理
する手段を含む、前記（１１）記載のシステム。（１７）前記戻り信号は変更された認証データ及びプロ
ンプトの１つを含む、前記（１６）記載のシステム。（１８）前記ポータブル音声信号プリプロセッサは、前
記自動音声／話者認識サーバから受信されたデータを含
むデータを格納する関連メモリを含む、前記（１１）記
載のシステム。（１９）前記通信チャネルを通した前記ポータブル音声
信号プリプロセッサと前記自動音声／話者認識サーバの
間の接続の伝達関数を予測する手段を含む、前記（１
１）記載のシステム。（２０）前記カプラは、前記フィーチャ・ベクトル・デ
ータを音響信号に変換する音響カプラであり、前記通信
チャネルは音響通信チャネルである、前記（１１）記載
のシステム。（２１）前記ポータブル音声信号プリプロセッサと前記
自動音声／話者認識サーバは、通信セッション全体で話
者認識を定期的に実行する手段を含む、前記（１１）記
載のシステム。（２２）クライアント／サーバ・システムの有効なクラ
イアントを音声により認証する方法であって、登録デー
タの複数のモデルを自動音声認識（ＡＳＳＲ）サーバの
メモリに格納するステップと、通信チャネルを通して前
記自動音声認識サーバから遠く離れて配置されたポータ
ブル音声信号前処理（ＳＳＰ）装置から前記自動音声認
識サーバに接続するステップと、前記登録データを前記
ポータブル音声信号前処理装置に話すステップと、前記
ポータブル音声信号前処理装置の前記登録データを前処
理してフィーチャ・ベクトルを作成するステップと、前
記フィーチャ・ベクトルを表す信号を前記通信チャネル
を通して前記自動音声認識サーバにより受信するステッ
プと、前記自動音声認識サーバから受信された前記信号
を処理し、処理された信号を前記有効なクライアントを
認証するために前記格納モデルと比較するステップと、
を含む、方法。（２３）変更されたパスワード・データを前記自動音声
認識サーバから前記ポータブル音声信号前処理装置に転
送することによってユーザ・パスワードを変更するステ
ップを含む、前記（２２）記載の方法。（２４）変更されたスマートカード・データを前記自動
音声認識サーバから前記ポータブル音声信号前処理装置
に転送することによってスマートカードのＰＩＮを変更
するステップを含む、前記（２２）記載の方法。（２５）前記変更されたスマートカード・データは前記
自動音声認識サーバによって暗号化され、前記ポータブ
ル音声信号前処理装置は前記スマートカードのＰＩＮを
変更するために前記変更されたスマートカード・データ
を解読する、前記（２４）記載の方法。（２６）変更されたＰＩＮデータを前記自動音声認識サ
ーバから磁気カード・ライタと前記ポータブル音声信号
前処理装置に転送することによって磁気カードのＰＩＮ
を変更するステップを含む、前記（２２）記載の方法。

【図面の簡単な説明】

【図１】本発明の好適な実施例に従ったポータブル音声
認識装置を示す図である。

【図２】本発明の好適な実施例に従った図１の装置を持
つシステムのブロック図である。

【図３】本発明の好適な実施例に従った図１のポータブ
ル装置を持つ他のシステムのブロック図である。

【図４】本発明の好適な実施例に従ったスマートカード
ＰＩＮ認証／リセット・システムの用法を示す図であ
る。

【符号の説明】

９９ポータブル音声信号前処理（ＳＳＰ）装置１００マイク１１０アナログ・デジタル・コンバータ１２０デジタル信号プロセッサ（ＰＳＰ）１３０暗号化装置１４０圧縮装置１５０音響カプラ１６０マルチメディア・パーソナル・コンピュータ２００サーバ２２０ワークステーション４２０話者認識サーバ４３０保管サーバ４４０ディレクトリ・サーバ４６０スマートカード・リーダ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩ // Ｈ０４Ｍ 3/42 Ｈ０４Ｍ 3/42 Ｐ (72)発明者ステファン・ハーマン・メイスアメリカ合衆国06811、コネチカット州ダンバリー、シェルター・ロック・ロード 157−25 (72)発明者ピーター・エス・プーンアメリカ合衆国10589、ニューヨーク州ソマーズ、サミット・サークル 10 (72)発明者カール・プロチロアメリカ合衆国12498、ニューヨーク州ウッドストック、パーク・ドライブ 34

Claims

【特許請求の範囲】

【請求項１】音声、沈黙、バックグラウンド・ノイズの
各信号を含むサウンドをアナログ信号に変換するマイク
と、アナログ信号をデジタル信号に変換するアナログ信号／
デジタル・コンバータと、前記デジタル信号から前記音声を表すフィーチャ・ベク
トル・データを生成するデジタル信号プロセッサ（ＤＳ
Ｐ）と、前記フィーチャ・ベクトル・データを音響信号に変換
し、遠隔地で前記音声を認識するために、前記音響信号
を通信チャネルを通して通信するために音響通信装置に
接続する音響カプラと、を含む、ポータブル音声認識装置。
【請求項２】前記フィーチャ・ベクトル・データを暗号
化する暗号化装置を含む、請求項１記載の装置。
【請求項３】前記フィーチャ・ベクトル・データを圧縮
するデータ圧縮装置を含む、請求項１記載の装置。
【請求項４】前記音響カプラは、前記遠隔地からの前記
通信チャネルを通した戻り信号を受信し、前記戻り信号
を前記デジタル信号プロセッサによる処理のためにデジ
タル戻りデータに変換する手段を含む、請求項１記載の
装置。
【請求項５】前記デジタル信号プロセッサは、前記デジ
タル戻りデータを圧縮解除する手段を含む、請求項４記
載の装置。
【請求項６】前記デジタル信号プロセッサは、前記デジ
タル戻りデータを解読する手段を含む、請求項４記載の
装置。
【請求項７】前記通信チャネルの伝達関数を予測する手
段を含む、請求項１記載の装置。
【請求項８】前記デジタル信号プロセッサは、前記遠隔
地にて前記チャネルに接続されたサーバからデータを受
信し処理する手段を含む、請求項１記載の装置。
【請求項９】前記デジタル信号プロセッサは、前記装置
に固有のキー・データを含むデータを格納するメモリを
含む、請求項１記載の装置。
【請求項１０】前記装置を囲む沈黙とバックグラウンド
・ノイズに関連した通信チャネル特性を把握する手段を
含む、請求項１記載の装置。
【請求項１１】デジタル信号プロセッサ（ＤＳＰ）に向
かって話されたデジタル化された音声を処理し、前記音
声を表すフィーチャ・ベクトル・データを生成する前記
デジタル信号プロセッサと、前記フィーチャ・ベクトル・データを表す信号を通信チ
ャネルを通して通信するために通信装置に接続するカプ
ラと、を含む、ポータブル音声信号プリプロセッサ（ＳＳＰ）
と、前記通信チャネルを介して前記ポータブル音声信号プリ
プロセッサから転送された前記フィーチャ・ベクトル・
データを表す前記信号を受信し、前記音声または話者を
認識するために前記信号を処理するために、前記通信チ
ャネルとリモートに接続された自動音声／話者認識（Ａ
ＳＳＲ）サーバと、を含む、音声認識システム。
【請求項１２】前記自動音声／話者認識サーバは、前記
ポータブル音声信号プリプロセッサから受信された前記
信号を処理し、処理された信号を認証データの前記格納
モデルと比較することによって有効な加入者を認証する
認証データ格納モデルを含む、請求項１１記載のシステ
ム。
【請求項１３】前記自動音声／話者認識サーバは、前記
ポータブル音声信号プリプロセッサから受信された前記
信号を処理し、処理された信号をデータベースと比較す
ることによって音声を認識するためのボキャブラリの前
記データベースを含む、請求項１１記載のシステム。
【請求項１４】前記自動音声／話者認識サーバは、前記
ポータブル音声信号プリプロセッサから受信された前記
信号を処理することによってユーザのパスワードを認証
する、請求項１１記載のシステム。
【請求項１５】前記自動音声／話者認識サーバは、前記
ポータブル音声信号プリプロセッサから受信された前記
信号を処理することによって呼び出し側を識別し、前記
信号は、前記呼び出し側によって前記ポータブル音声信
号プリプロセッサに話された音声から発する、請求項１
１記載のシステム。
【請求項１６】前記ポータブル音声信号プリプロセッサ
は、前記自動音声／話者認識サーバから戻り信号を受信
し処理する手段を含む、請求項１１記載のシステム。
【請求項１７】前記戻り信号は変更された認証データ及
びプロンプトの１つを含む、請求項１６記載のシステ
ム。
【請求項１８】前記ポータブル音声信号プリプロセッサ
は、前記自動音声／話者認識サーバから受信されたデー
タを含むデータを格納する関連メモリを含む、請求項１
１記載のシステム。
【請求項１９】前記通信チャネルを通した前記ポータブ
ル音声信号プリプロセッサと前記自動音声／話者認識サ
ーバの間の接続の伝達関数を予測する手段を含む、請求
項１１記載のシステム。
【請求項２０】前記カプラは、前記フィーチャ・ベクト
ル・データを音響信号に変換する音響カプラであり、前
記通信チャネルは音響通信チャネルである、請求項１１
記載のシステム。
【請求項２１】前記ポータブル音声信号プリプロセッサ
と前記自動音声／話者認識サーバは、通信セッション全
体で話者認識を定期的に実行する手段を含む、請求項１
１記載のシステム。
【請求項２２】クライアント／サーバ・システムの有効
なクライアントを音声により認証する方法であって、登録データの複数のモデルを自動音声認識（ＡＳＳＲ）
サーバのメモリに格納するステップと、通信チャネルを通して前記自動音声認識サーバから遠く
離れて配置されたポータブル音声信号前処理（ＳＳＰ）
装置から前記自動音声認識サーバに接続するステップ
と、前記登録データを前記ポータブル音声信号前処理装置に
話すステップと、前記ポータブル音声信号前処理装置の前記登録データを
前処理してフィーチャ・ベクトルを作成するステップ
と、前記フィーチャ・ベクトルを表す信号を前記通信チャネ
ルを通して前記自動音声認識サーバにより受信するステ
ップと、前記自動音声認識サーバから受信された前記信号を処理
し、処理された信号を前記有効なクライアントを認証す
るために前記格納モデルと比較するステップと、を含む、方法。
【請求項２３】変更されたパスワード・データを前記自
動音声認識サーバから前記ポータブル音声信号前処理装
置に転送することによってユーザ・パスワードを変更す
るステップを含む、請求項２２記載の方法。
【請求項２４】変更されたスマートカード・データを前
記自動音声認識サーバから前記ポータブル音声信号前処
理装置に転送することによってスマートカードのＰＩＮ
を変更するステップを含む、請求項２２記載の方法。
【請求項２５】前記変更されたスマートカード・データ
は前記自動音声認識サーバによって暗号化され、前記ポ
ータブル音声信号前処理装置は前記スマートカードのＰ
ＩＮを変更するために前記変更されたスマートカード・
データを解読する、請求項２４記載の方法。
【請求項２６】変更されたＰＩＮデータを前記自動音声
認識サーバから磁気カード・ライタと前記ポータブル音
声信号前処理装置に転送することによって磁気カードの
ＰＩＮを変更するステップを含む、請求項２２記載の方
法。