JPH08106374A

JPH08106374A - 通信インタフェース・システム

Info

Publication number: JPH08106374A
Application number: JP7209324A
Authority: JP
Inventors: Bishnu Saroop Atal; エス．アタルビシュヌ; W Elko Gary; ダブリュー．エイコゲイリー; Thomas P Marshall; ピー．マーシャルトーマス; Robert R Miller; アール．ミラーロバート
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-07-28
Filing date: 1995-07-26
Publication date: 1996-04-23
Also published as: EP0694833A1; CA2151073A1

Abstract

(57)【要約】【課題】人間とコンピュータ・ベース・システム間の
情報の移動が容易にできる人間−コンピュータ・インタ
ラクティブ通信システムを提供する。【解決手段】例えば、実施の形態例のファースト・フ
ード・レストランのコンピュータ・ベース注文取扱い装
置のインテリジェント・ヒューマン・インタフェース・
システム（ＩＨＩＳ）では、自動音声認識技術、ビーム
ステアラブル音声マイクロオフォン技術、バーチャル・
リアリティ画像技術および適応形スピーカフォン技術を
有効に利用する。このＩＨＩＳは顧客に応じいくつかの
言語の中の一つの言語でこの顧客と通信しまたそのファ
ースト・フードのメニューの映像もいくつかの言語の中
の一つの言語で提供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、人間とコンピュー
タ利用装置間の音声と画像の対話型通信を容易に実施で
きるシステムに関する。このコンピュータ利用機器は、
この人間から音声データを受信し、所望動作を実行する
のに十分な情報を得るようこの人間へ音声と映像の適当
な通信信号を返送する。本システムは、厳しいノイズや
マルチパス干渉の存在下に所望の動作を得るため、自動
音声認識技術、ビーム制御可能な音声マイクロフォン列
技術、バーチャル・リアリティ画像技術および適応形ス
ピーカフォン技術を有効に組合わせたものである。

【０００２】

【従来の技術】従来の音声認識技術、全方向性マイクロ
フォン・ピックアップおよびシングル・フレーム画像フ
ィードバック技術を利用し人間とコンピュータとの人間
−コンピュータ対話を容易に実施できる音声対話システ
ムが発達してきた。例えば、欧州特許第ＥＰ０、５４
３、３２９、Ａ２号に人間−コンピュータ対話型システ
ムが記載されているが、これはファースト・フード・レ
ストランにおける注文取扱いシステムの利用に適したも
のである。このシステムは、キーワードを見つけるキー
ワード・スポッティング技術を音声と画像のフィードバ
ックと共に利用してその音声認識システムの範囲を越え
ぬようまた通信故障を回避するようその顧客とこのコン
ピュータ利用機器間の情報移動を制御するシステムであ
る。

【０００３】このコピュータ・システムは、この注文を
その顧客へ検証のため常に反復して戻す、というのは人
間の音声はノイズや多方向干渉によって破損を受けるこ
とが多いからである。このように反復し検証することで
このコンピュータはその注文を結局は正しく翻訳し所要
の通り進行しこの注文に応じ満足させることができる。
ビーム制御可能なマイクロフォン列技術の進歩から厳し
いノイズと干渉の存在下において元の人間音声（音声ソ
ース）のスペクトルの正しい表現を生成する手段が得ら
れた。例えば、米国特許第４、７４１、０３８号では、
なんらかの機械的可動部を必要とすることなくその音声
ソースに焦点を合すコンピュータ制御多方向マイクロフ
ォン列が記載されている。

【０００４】このように行われるマイクロフォン列は、
非常に複雑な全方向性マイクロフォンに比較し、高度空
間指向性であって音声発話の格段に優れた電子信号表現
を生成する。音声データを収集する人間−コンピュータ
・インタフェース・システムは、このコンピュータ・シ
ステムを出入りする音声データを移送させる移送手段の
提供には通常のスピーカフォン技術を一般的に利用す
る。スピーカフォン技術の進歩から全二重システムの性
能レベルに近付くコンピュータ制御の適応形スピーカフ
ォン・システムが開発された。適応形スピーカフォン・
システムについては、例えば、米国特許第５、００７、
０４６号に自己校正で自動調節のシステムが記述されて
いる。

【０００５】この適応形スピーカフォンは、通常のスピ
ーカフォンとは異なって、多方向干渉ソースにもさらさ
れ易いような高ノイズ環境でも機能できるものである。
自動音声認識と自然言語解析器を含む音声認識システム
の発達から一連の自然音声と関係する概念を迅速に決定
する手段ならびにその言語自身を決定する手段が得られ
た。例えば、ＡＴ＆Ｔ社が開発した自然言語解析と自動
音声認識のシステムについては、Roberto Pieraccini a
nd Esther Levin,Stochastic Representationof Semant
ic Structure for Speech Understanding,SPEECH COMMU
NICATION,11(1992),at 282 でありさらに、Roberto Pie
raccini and Esther Levin,A LearningApproach to Nat
ural Language Understanding, Internal AT&T Corpora
tion Paper(1993)を参照のこと。

【０００６】さらに、Roberto Pieraccini,Esther Levi
n and Chin-Hui Lee,Stochastic Representation of Co
nceptual Structure in the ATIS Task,Internal AT&T
Corporation Paper(1991) を参照のこと。さらにまた、
バーチャル・リアリティ（ＶＲ）画像技術の成熟から真
に迫った全動画像を生成する手段が得られ、これはその
コンピュータ表現をさらにもっと“人間”の形で表現す
るものである。現在一般社会で印象とし受取られている
ことは、ＶＲを体験するのに必要なものにはＶＲの体験
を所望する者の体にセンサやディスプレイ・ゴーグルの
複雑な組合わせが必要と考えられている。ところがこの
分野のエキスパートは、下記に記述されているように、
ＶＲ体験には高価な機器は必要ではないと述べている。

【０００７】Alan Wexelblat,VIRTUAL REALITY APPLICA
TIONS AND EXPLORATIONS (1993) でを参照のこと。ＶＲ
体験のために好適な媒体を提供するビデオ・モニタが現
在利用可能である。ＶＲ技術によって適当な同時音声セ
グメントによって顔の表情および／または体の動作の表
現を変える完全動画の人間映像を容易に生成することが
可能である。ここでこの人間とコンピュータ利用システ
ムとのインタフェース・システムでは外部からの厳しい
ノイズや干渉の存在下でも所望の動作を得るような改善
がさらに望まれている。

【０００８】

【発明が解決しようとする課題】厳しいノイズや干渉の
存在下でも人間とコンピュータ利用システムとの情報の
移動が容易にできる人間−コンピュータ・インタフェー
ス・システムが所望されている。

【０００９】

【課題を解決するための手段】本発明は以下に説明する
インテリジェント・ヒューマン・インタフェース・シス
テム（ＩＨＩＳ）を提供し前記課題を解決しこの技術分
野の進歩を遂げる。本発明のＩＨＩＳでは、マイクロフ
ォン列・ビーム・ステアリング技術、適応形スピーカフ
ォン技術、自然言語認識技術、およびＶＲ画像技術を有
効に組合わせて進歩した高度な人間−コンピュータ対話
型システムが得られ、本システムの動作は外部からのノ
イズや干渉に起因する従来困難であった環境でも影響を
受けない。本ＩＨＩＳはマイクロプロセッサ・ベース・
システムであって、これには一般的に遠隔通信インタフ
ェース・モジュールとインタフェース処理モジュールと
ローカル・インタフェース・モジュールがある。前記エ
レメントが共同動作することによって本ＩＨＩＳが生成
した映像とこの人間の好む発話言語を用いて本ＩＨＩＳ
とこの人間との間の有効な情報移動が容易に行うことが
できる。

【００１０】

【発明の実施の形態】本発明を発明の実施の形態で以下
に説明する。Ｉ）一般動作本発明の好ましい実施の形態例として、ファースト・フ
ード・レストランのドライブイン顧客からのドライブア
ップ受付窓口で顧客からの注文を取扱うためインテリジ
ェント・ヒューマン・インタフェース・システム（ＩＨ
ＩＳ）を利用する場合を取上げる。本ＩＨＩＳのシステ
ムが注文を取扱う人間に代ってその動作を行う場合であ
るが、ここでこの人間の場合は誤動作を行い易いのみな
らず同時に複数の言葉で対話することは不可能である場
合がほとんどである。ところが、本ＩＨＩＳでは顧客が
使う言語を認識しその続行中の“対話”で用いる言語で
調整を行う。従来技術のコンピュータ利用システムと異
なり、本ＩＨＩＳでは、例えば、この顧客の同伴者のよ
うな複数の音声ソースの存在を認識することができ、必
要に応じその同伴者にも応答することができる。

【００１１】さらに本ＩＨＩＳは、この顧客およびこの
顧客の同伴者の両者の年齢や性別を認識し、それによっ
てさらに特有の真に迫る対話体験の実現に寄与する。例
えば、この顧客が子供を伴っている場合、本ＩＨＩＳは
音声と画像で応答可能であってこれが第１の例ではこの
成人顧客を満足させ第２の例ではその子供を楽しませる
よう行われる。この顧客がその子供の要望と一致しない
注文を発注してこのためその子供がこの注文を音声で訂
正する場合、本ＩＨＩＳのシステムはその子供に応答し
この成人顧客に前記注文の変更の検証を求める。本ＩＨ
ＩＳのシステムがこの顧客から必要な情報をすべて受信
してしまうと、代金の支払いが受入れられこの顧客は注
文が応じられ満たされる。

【００１２】ＩＩ）詳細な動作図１を参照し説明する。一般的にはこのＩＨＩＳ５０に
は、ローカル・インタフェース・モジュール２とインタ
フェース処理モジュール４と遠隔通信インタフェース・
モジュール６がある。この人間である顧客４１とこのＩ
ＨＩＳ５０の間の対話はその遠隔通信インタフェース・
モジュール６において得られる。この遠隔通信インタフ
ェース・モジュール６は、顧客４１が好都合にアクセス
できるような位置に通常配置される。図２には自動車６
０の中にいるこの顧客４１と同伴者４１ａに対する本実
施形態例の遠隔通信インタフェース・モジール６の相対
的な位置を示す。この遠隔通信インタフェース・モジュ
ール６には、スピーカ３２、マイクロフォン列３４、ビ
デオ・ディスプレイ３６、ビデオ・カメラ３８およびレ
ンジング・システム４０がある。

【００１３】図３にはこの遠隔通信インタフェース・モ
ジュール６のエレメントの相対的な位置を示す。スピー
カ３２はこの顧客４１に音声応答を送出する手段を提供
する。このスピーカ３２はそのビデオ・ディスプレイ３
６に比較的近接して設けられ、このビデオ・ディスプレ
イ３６上に適当な映像が表示されるが、これはその音声
応答に対応するものである。第１の２次元マイクロフォ
ン列３４を用いてこの顧客４１および／または同伴者４
１ａからの可聴音声データを受信する。この第１のマイ
クロフォン列はビーム制御可能なであってこのためその
音声ソース（顧客４１および／または同伴者４１ａ）か
らの非破損の音声信号の受信ができる。

【００１４】さらに第２の２次元マイクロフォン列３４
ａもまたビーム制御可能なであってこれを用いてこの顧
客４１のいる区域を走査するが、この目的は音声データ
の追加ソース（同伴者４１ａ）ならびにノイズ・ソース
および／または干渉ソース６２、６２ａを認めるためで
ある。この顧客４１から音声信号を得るためただ１個の
マイクロフォン列３４を要する場合もある。ただ１個の
マイクロフォン列３４を使用する場合、この顧客４１の
いる区域の走査は行わない。図４に１２１個のマイクロ
フォン素子のエレクトレット・マイクロフォン列を示
し、これはほぼ１５インチ×１５インチ（３８．１ｃｍ
ｘ３８．１ｃｍ）の寸法の正方形マトリックスで等間隔
に１．５インチ（３．８１ｃｍ）だけ離れたもので本発
明の第１と第２のマイクロフォン列３４、３４ａの利用
に適している。

【００１５】図３にこの遠隔（顧客）通信インタフェー
ス・モジュール６上のマイクロフォン列３４、３４ａの
位置を示す。図３に示すマイクロフォン列３４ａの位置
はこの顧客４１とその遠隔通信インタフェース・モジュ
ール６間の距離に応じマイクロフォン列３４からさらに
離して配置する場合がある。このレンジング・システム
４０は、このビデオ・カメラ３８がその音声データのソ
ースに焦点を適宜合わせるようこの顧客４１および／ま
たは同伴者４１ａの位置を電気的に求める手段を提供す
る。このマイクロフォン列３４と付随する回路はレンジ
ング・システムとして本発明の利用に適している。この
マイクロフォン列３４をその音声ソースの方に適宜向け
る信号誘導体を用いて３次元空間においてこの音声ソー
スの正確な位置を示す。

【００１６】２個のマイクロフォン列３４、３４ａを用
いる場合、この音声ソースを求めるため三角法アルゴリ
ズムを用いる。このレンジング・システム４０は信号を
出力し、この信号をそのカメラ・プロセッサ３０が用い
て、本発明の本実施形態例では、このビデオ・カメラ３
８の機械駆動システム（図示せず）に命令する。この機
械駆動システムはそのカメラ・プロセッサ３０のコマン
ドに応答し話者に応じこの顧客４１および／または同伴
者４１ａにこのビデオ・カメラ３８の焦点を向ける。こ
の第１の実施の形態例に述べた要件に適したカメラ・プ
ロセッサ３０は、例えば、ソニー、チノン、およびパナ
ソニックのようないくつかの会社で製造し販売されてい
る。

【００１７】別の実施の形態例では、このレンジング・
システム４０が出力した信号は、機械駆動システムの必
要がなくその音声ソースがこのビデオ・ディスプレイ１
２のフォーマット内のフレームに適切に入るようその映
像を自動的にトリミングするためこのカメラ・プロセッ
サ３０によって用いられる。この別の実施の形態例に述
べた要件に適したカメラ・プロセッサ３０は、例えば、
ソニー・コーポレーションと松下の両社によって製造さ
れ販売されている。本発明の要件に適したビデオ・カメ
ラ３８は、例えば、ソニー・コーポレーションから入手
可能である。このビデオ・カメラ３８が捕らえた画像
は、このＩＨＩＳ５０の通常動作で障害が生じた場合ま
たは緊急事態の場合、そのローカル・インタフェース・
モジュール２のビデオ・デォスプレイ１２へ転送するた
めこの中央処理プロセッサ１８に結合される。

【００１８】そこでこの関係係員１３はなんらかの異常
事態に対処するようその顧客４１と直接通信し、人間対
人間の通信が確立された場合この異常事態は適宜解決さ
れる。この遠隔通信インタフェース６のエレメントはこ
のファースト・フード施設（図示せず）内に設置された
インタフェース処理モジュール４に結合する。このイン
タフェース処理モジュール４はマイクロプロセッサ・ベ
ース・デバイスであってこれがその遠隔通信インタフェ
ース・モジュール６によってこの顧客４１から収集した
データを翻訳し、この顧客４１に対しその遠隔通信イン
タフェース・モジュール６によって表示するよう適当な
応答データ、ただし音声と画像の両方についてである
が、この応答データを生成する。

【００１９】図１において、このインタフェース処理モ
ジュール４には、中央処理装置１８、メモリ１６、音声
認識エンジン２０、音声合成エンジン２２、音声プロセ
ッサ２４、マイクロフォン・プロセッサ２６、画像エン
ジン２８およびカメラ・プロセッサ３０がある。このイ
ンタフェース処理モジュール４のメモリ１６および中央
処理装置１８としての動作に適するマイクロプロセッサ
集積回路は、例えば、モトローラやインテルのような製
造業者から入手可能である。このインタフェース処理モ
ジュール４の中央処理装置１８とマイクロフォン・プロ
セッサ２６は、ここに引例とする米国特許第４、７４
１、０３８号に記載のようにビーム制御可能な音声受信
デバイスを形成するようこの遠隔通信インタフェース・
モジュール６のマイクロフォン列３４、３４ａと共同し
て働く。

【００２０】このマイクロフォン・プロセッサ２６はそ
のマイクロフォン列３４、３４ａが受信したデータをこ
の中央処理装置１８に供給し、これによって各マイクロ
フォン列の各エレクトリット・マイクロフォンの出力の
時間−位相差量の計算ができる。この中央処理装置１８
は各エレクトレット・マイクロフォンに対し別個の遅延
量をそのマイクロフォン・プロセッサ２６に供給する
が、これは前記時間−位相差量で計算されるものであっ
てこの計算はいったんその信号パスに導入されてしまう
とこのエレクトレット・マイクロフォンの出力信号が同
相加算するよう計算される。このマイクロフォン列３４
が最大エネルギーを受信するようこの遅延量を調節する
方法は“遅延サム・ビーム形成方式”として従来既知で
ある。

【００２１】そこで“ビーム”が形成されるがこれはこ
の顧客４１および／またはいずれか他の候補となる音声
ソースからの非破損音声信号を受信するものである。ま
た別の実施の形態例では、このマイクロフォン列３４、
マイクロフォン・プロセッサ２６および中央処理装置１
８は、適応形ビーム形成方式を利用するよう動作する。
この適応形ビーム形成方式はこの中央処理装置１８を用
いてそのマイクロフォン・プロセッサ２６に入力する重
み付け信号の集合を生成する。このマイクロフォン・プ
ロセッサ２６はこの重み付け信号を用いてそのマイクロ
フォン列・ビームの空間ヌルをノイズ・ソースに対して
向け、その一方でこのマイクロフォン列・ビームのメイ
ン・ローブをその所望音声ソースに対し向ける。

【００２２】この適応形ビーム形成方式の詳細は例え
ば、米国特許第４、８０２、２２７号に記載されており
これを参照のこと。ここで注記することは、別の実施の
形態例ではこのスピーカ３２は多数の指向性スピーカの
アレイとすることができることである。この別の実施の
形態例でこの中央処理装置１８は、このＩＨＩＳ５０の
音声応答をその顧客４１および／または同伴者４１ａに
向けるためこの音声プロセッサ２４にその遅延サム・ビ
ーム形成方式または適応形ビーム形成方式によって信号
を供給する。前記ビーム形成方式の中の一方式を用いる
スピーカ列３２の実際上の設計は、ビーム形成マイクロ
フォン列３４の設計に直接類似したものである。例え
ば、米国電話電信会社では本発明のこの別の実施の形態
例用に適するプロトタイプのスピーカ列を開発した。

【００２３】そこでスピーカ列３２を用いる場合、この
ＩＨＩＳ５０の音声応答を他の区域に不要に送出するこ
となくクリアな応答をこの顧客４１は受信する。例え
ば、接近して多数のＩＨＩＳ５０を利用する場合、ある
１個のＩＨＩＳ５０のスピーカ３２からの音声応答が近
接するＩＨＩＳ５０の対話と干渉し合わないことが重要
である。本発明では本実施の形態例に記載のように、こ
のスピーカ列３２は近接区域の音声エネルギー内容を妨
害することなくこのＩＨＩＳ５０からの音声応答を送出
する手段を提供する。第２のマイクロフォン列３４ａ
は、米国特許第４、７４１、０３８号の教示するように
他の音声ソースに対しこの顧客４１のいる区域を常に走
査する。

【００２４】図２において、さらなる他の音声ソースは
同伴者４１ａと外部ノイズ・ソース６２、６２ａとして
識別される。この中央処理装置１８はその外部ノイズ６
２、６２ａをその第２のマイクロフォン列３４ａの各ビ
ーム方向に対する短時間と長時間の信号振幅平均を計算
し前記として識別する。人間の音声と外部のノイズはそ
れぞれの短時間と長時間の振幅平均間に明白に異なる関
係を有するため、この中央処理装置１８はこれら両者間
を区別する。同様にこの中央処理装置１８はさらなる他
の真正音声データ・ソースをその同伴者４１ａからのも
のとして識別する。この同伴者４１ａがその顧客４１を
超過して所定のデシベル・レベルに達する音声発話を生
成した場合、この中央処理装置１８は次のことを行う。

【００２５】それは、このマイクロフォン・プロセッサ
２６へ遅延値の別個の集合を送りこれがその第１のマイ
クロフォン列３４のメイン・ビームをこの同伴者４１ａ
に対し向け直す。同様に、この顧客４１がその同伴者４
１ａを超過して所定のデシベル・レベルに達する音声発
話を生成した場合、このメイン・ビームは再びこの顧客
４１に向けられる。このマイクロフォン列３４とマイク
ロフォン・プロセッサ２６を実現するのに要するハード
ウェアは米国特許第４、７４１、０３８号に詳しく定め
られておりこれを参照のこと。そこで、この中央処理装
置１８は複数のソースから音声データを受信するが、こ
れはそれらから発する音声エネルギーの振幅に左右され
受信する。

【００２６】このビームを向けるソースに無関係に、音
声データのスペクトルで正確（クリーン）な信号表現
は、そのノイズ・ソース６２、６２ａおよび／またはい
ずれか他の外部干渉ソースによる破損がなくそのマイク
ロフォン・プロセッサ２６によって受信される。本発明
の要件に適した音声プロセッサ２４として、例えば、米
国電話電信会社の一部門のＧＢＣＳから入手可能のＳ２
０１を挙げることができる。この音声プロセッサ２４が
その音声ボリュームを適切なレベルに調節しこの顧客４
１との良質な対話を容易に得ることができる。この音声
プロセッサ２４はその中央処理装置１８からのコマンド
に応じこのスピーカ３２に入力する信号振幅を増加す
る。

【００２７】図３の遠隔通信インタフェース・モジュー
ル６はこのスピーカ３２のそのマイクロフォン列３４、
３４ａに対する相対位置を示す。通常の対話中ではこの
ＩＨＩＳ５０は交互に“聴取”（この顧客４１から音声
データをこのマイクロフォン列３４を介して収集）し
“発話”（このスピーカ３２から音声応答を送出）する
が問題は次の場合に起る。それは、同時にこのマイクロ
フォン列３４がアクティブ・モードにあってつまり聴取
中であり、さらにスピーカ３２もアクティブ・モードに
あってつまり発話中である場合である。このように決め
られ行われた場合には、このＩＨＩＳ５０は自分自身の
発話を聴取してしまい恐らくこの顧客に予期されるサー
ビス水準を提供することはできない。

【００２８】この問題は適応形スピーカフォン技術をこ
のＩＨＩＳシステム５０に導入すると解消される。この
適応形スピーカフォン技術はこの顧客４１とＩＨＩＳ５
０との間の対話状態に応じそのマイクロフォン３４、３
４ａかまたはスピーカ３２かのいずれかのアクティブ・
モードを有効に禁止する。ここで引例とする米国特許第
５、００７、０４６号に記載のように適応形スピーカフ
ォン・システムの機能を得るためこの中央処理装置１
８、音声プロセッサ２４およびマイクロフォン・プロセ
ッサ２６は共同して働く。一般的にこのスピーカフォン
が感知するのは、第１の関係者が発話し第２の関係者が
聴取する場合またはその反対の場合である。

【００２９】そこでこのＩＨＩＳ５０が発話中にその顧
客４１が発話を決めた場合、このＩＨＩＳ５０はその顧
客４１がもう聴取していないことを認識し、そのスピー
カ３２から送出する音声信号を中断し、このマイクロフ
ォン列３４を介してこの顧客４１からの音声データを収
集する。または、このＩＨＩＳ５０がその顧客４１が発
話を終了したことを感知した場合、このＩＨＩＳ５０は
そのマイクロフォン３４、３４ａが音声データを収集せ
ぬようにしこのスピーカ３２から適当な音声応答を送出
する。この中央処理装置１８はその顧客４１、同伴者４
１ａおよびそれ自身のスピーカ３２の音声信号レベルを
（その音声プロセッサ２４を介して）モニタするが、こ
れは発話かまたは聴取かを正確に決定するためである。

【００３０】米国特許第５、００７、０４６号による
と、この顧客４１および／または同伴者４１ａはこのＩ
ＨＩＳ５０に発話させず聴取させるためにはこのＩＨＩ
Ｓ５０の音声レベルより高い音声レベルにまで達する必
要がある。同様に、一度この顧客４１および／または同
伴者４１ａの可聴音声レベルが所定の閾値以下に落ちて
しまうとこのＩＨＩＳ５０は聴取から発話に交替する。
このＩＨＩＳ５０の発話モード／聴取モードの交替の閾
値の選択は、全二重音声システムの性能レベルにほとん
ど等しい性能レベルに達するのに重要である。本発明が
利用する適応形スピーカフォン・システムに対してでは
ない場合、この閾値レベルの選択は問題を含むもので、
というのはこのＩＨＩＳ５０環境に関係するバックグラ
ウンド・ノイズや干渉がハイレベルのためである。した
がって近全二重動作は得られない。

【００３１】極端にノイズのある環境においてでも近全
二重性能を得るよう本発明が利用する適応形スピーカフ
ォン・システムは動作する。米国特許第５、００７、０
４６号によると、この中央処理装置１８はこの顧客４１
周辺空間の音響反射、音響減退および周波数応答に関す
る情報をこのスピーカ３２からの音声バーストを送出し
その結果生ずる応答をこのマイクロフォン列３４が受信
しこの応答を解析し取得する。さらにまたこの中央処理
装置１８は自己校正プログラムを周期的に実行しこれが
この音声プロセッサ２４、スピーカ３２、マイクロフォ
ン・プロセッサ２６およびマイクロフォン列３４、３４
ａに関係する電子回路の利得とオフセットを調節する。

【００３２】この中央処理装置１８は、その音声ソース
周辺空間の解析によって得たまたその校正プログラムか
ら得た情報を用いてこの“聴取”モードと“発話”モー
ドの切替えに用いる時間可変閾値レベルを生成する。そ
こでこの音声ソース周辺空間の特性変化や温度と老化に
起因する電子機器回路の変化にもかかわらずこのＩＨＩ
Ｓ５０は近全二重音声通信性能を保持する。本発明にお
いてその音声プロセッサ２４、マイクロフォン・プロセ
ッサ２６、マイクロフォン列３４、３４ａおよびスピー
カ３２によって示される適応形スピーカフォンを実現す
るのに要するハードウェアは米国特許第５、００７、０
４６号に詳細に規定されている。

【００３３】本発明の別の実施の形態例では、米国特許
第５、００１、７０１号に規定のように音響エコー消去
システムの機能を得るためこの中央処理装置１８、音声
プロセッサ２４およびマイクロフォン・プロセッサ２６
は共同で働く。さらにまた音響エコー消去システムは近
全二重性能を得る一方で前記フィードバック問題をなく
する。音響エコー消去システムを利用する場合、この中
央処理装置１８はこのスピーカ３２から送出する信号に
対するこのスピーカ３２とマイクロフォン列３４間チャ
ネルのスペクトル応答を示す信号を生成する。次にこの
中央処理装置１８は、この生成信号をそのスピーカ３２
から送出する信号と結合しこのマイクロフォン列３４に
通常フィードバックするエネルギーを消去する。

【００３４】この“クリーン”な音声データをこの音声
プロセッサ２４からその音声認識エンジン２０へ入力す
る。図５において、この音声認識エンジン２０と音声合
成エンジン２２には、一般に、音声認識器７０、言語解
析器７２、エキスパート・システム７４およびテキスト
音声合成器２２がある。この音声認識エンジン２０は、
このマイクロプロセッサ・コントローラ１８と共同して
働くディジタル信号処理（ＤＳＰ）集積回路の組合わせ
を用いて実施される。例えば、米国電話電信会社は本発
明の使用に適するＤＳＰチップを製造している。この音
声合成エンジンは、コンピータ生成テキストからの音声
信号生成に専用の１個以上の集積回路を用いて実施され
る。

【００３５】例えば、米国電話電信会社は本発明の音声
合成エンジン２２としての利用に適するテキスト音声合
成器を製造している。この音声認識器７０は、その語彙
文法モデル７６を用いてこの顧客４１の発話ワードをテ
キストへ変換し、次にこれをメモリ１６に一時的に蓄積
する。音声認識器は従来周知であって例えば、米国電話
電信会社から容易に入手し利用可能である。この自然言
語解析器７２はこのテキストを入力として取上げ正しい
概念へのこのテキストの変換に確率隠れマルコフモデル
（ＨＭＭ）を用いる。確率モデルの使用の際に、本発明
の言語解析器はこのＩＨＩＳ５０による複数の照会を必
要とせず正しい概念に自然言語を迅速に変換することが
できる。

【００３６】この言語解析器７２は特定の入力したワー
ドまたはフレーズが蓄積概念にマッチした場合に有する
関連確率を計算する。この言語解析器７２は最高関連確
率を有する概念とこのワードまたはフレーズをマッチさ
せる。この確率ＨＭＭは、ファースト・フード・レスト
ランに関係する自然言語で遭遇する５０、０００以上の
フレーズとほぼ１００個の概念を適宜マッチさせる。新
規のワードまたはフレーズと遭遇しこれが既存の概念に
マッチする場合、この音声認識エンジン２０はこの新規
のワードまたはフレーズをその語彙モデル７６と意味規
則７８に加えおよびこの新規のワードまたはフレーズと
マッチした概念に対応する新規関連確率を蓄積する。

【００３７】そこで、この音声認識エンジン２０は時間
経過につれてだんだんと新しいワードやフレーズを学習
する。このエキスパート・システム７４は、その既知概
念およびこの顧客４１および／または同伴者４１ａの性
別と相対的年齢に基づき出力アクションを生成し適当な
応答を導き出す。一般的に、１個の出力アクションは１
個の概念に対応し、この中央処理装置１８はテーブル・
ルックアップ法を用いてその適当な出力アクションを容
易に得る。１個の概念が複数のアクションにマッチする
場合、このＩＨＩＳ５０はその顧客４１に照会しそこで
さらにその他の情報を取得しこの所望のアクションに関
する不明確さを排除する。この顧客４１の性別と年齢は
この顧客の音声サンプルの周波数ドメインのスペクトル
内容を調べて求める。

【００３８】男性の音声スペクトル内容は女性の音声ス
ペクトル内容より低い音程に一般に集中している。同様
に、子供からの音声サンプルのスペクトル内容はそれ自
身の独特の特徴を持つ。従来周知のフーリエ変換アルゴ
リズムをこの中央処理装置１８は実行し時間ドメインの
音声サンプルをこの顧客４１および／または同伴者４１
ａの年齢と性別を見分けるためその周波数ドメインに変
換する。このエキスパート・システム７４は、この概
念、出力アクション、この顧客４１の相対的年齢および
この顧客４１の性別を用いて蓄積応答テーブルから適当
な応答を選択する。このエキスパート・システム７４に
よってその言語応答は選択されテキストに変換される。

【００３９】この応答テキストはこの音声合成エンジン
２２（テキスト音声合成器）に入力されこれが発音規則
７９を用いて電気信号を生成しこれをこの音声プロセッ
サ２４に入力する。顧客４１および／または同伴者４１
ａの音声データの“クリーン”な音声信号の表現を入力
してしまうと、この音声認識エンジン２０はその音声を
吟味してその適当な概念を導き出すスピードは増加す
る、というのはノイズや干渉によって生ずるエラー・レ
ートが減少するためである。同様に、顧客の性別や相対
的年齢の適切な決定は、周波数ドメインの特徴を生成す
るようクリーンな音声サンプルを収集することによって
保証される。この音声認識エンジン２０はその英語言語
の理解に限らない。

【００４０】例えば、スペイン語、フランス語、日本語
および中国語のような複数の言語の認識と解析は、従来
周知でこの音声認識エンジン２０によって行われる。こ
の音声認識エンジン２０は、その音声ソースにおいて特
定の言語を検出するとこの適当な語彙文法モデル７６、
意味規則７８および発音規則７９をそのメモリ１６から
単にアクセスする。この顧客４１とそのＩＨＩＳ５０間
の対話の最初にこの言語が決められるため、このメニュ
ー・モニタ３６ａ、３６ｂはいくつかの蓄積言語の中の
一つの言語でファースト・フード施設のメニューを表示
する。このインタフェース処理モジュール４はそのロー
カル・インタフェース・モジュール２に結合しこれがそ
のローカル・インタフェース・モジュール２にこの顧客
４１のファースト・フード注文を示すデータを供給す
る。

【００４１】このローカル・インタフェース・モジュー
ル２は、このファースト・フード施設内のフード調製区
域（図示せず）に接近して設置されこれには処理システ
ム１４、ビデオ・ディスプレイ１２、赤外光リンク１０
がある。このローカル・インタフェース・モジュール２
の処理システム１４としての動作に適するマイクロプロ
セッサ集積回路は、例えば、モトローラやインテルのよ
うな製造業者から入手可能である。この出力アクション
・データはこの中央処理装置１８からこのローカル・イ
ンタフェース・モジュール２の処理システム１４に結合
する。この処理システム１４はその関係係員１３に送る
フォーマットにこの出力アクション（フード注文）を示
すテキストを構成する。

【００４２】この処理システム１４は、そのビデオ・デ
ィスプレイ１２を駆動させ画像情報はそのフード注文を
示しまたその赤外光リンク１０を駆動させ音声信号はこ
のフード注文を表す。この関係係員１３はこの画像情報
と音声情報に応答しそのフード注文品を調製しその顧客
４１に渡す。本発明の要件に適する全二重赤外光リンク
は、例えば、“ライト−リンク”と呼ばれ米国電話電信
会社から入手可能である。ここで注記する点は無線周波
リンクのようないずれかの無線リンクをこの赤外光リン
ク１０の代りに利用できることである。この中央処理装
置１８、音声認識エンジン２０および音声合成エンジン
２２がこの顧客４１および／または同伴者４１ａに送る
適当な応答を導き出すと、この画像エンジン２８はその
ビデオ・ディスプレイ３６上に表示する映像の詳細を決
めるコマンドをこの中央処理装置１８から受信する。

【００４３】この画像エンジン２８と中央処理装置１８
はそのメモリ１６に蓄積した生成規則に従う。この生成
規則が文字やバックグラウンド地の選択を決めならびに
シーン構成、空間奥行きおよび文字のかみ合せを決め
る。本発明の利用に適する画像エンジン２８は、例え
ば、ＶＰＬリサーチとシムグラフィックスのような会社
から入手可能である。この一般的シーンをそのビデオ・
ディスプレイ３６上に描画すると、この画像エンジン２
８はその音声合成エンジン２２が生成する音声や他の音
声データの意味や内容に従うようその中央処理装置１８
のコマンドによってこの文字と画像の動きを操作する。

【００４４】例えば、このビデオ・ディスプレイ３６上
のシーンが人間の顔から構成されている場合、この口を
その中央処理装置１８と画像エンジン２８を介して操作
しこのスピーカ３２から送出する音声データと同期を取
るように動かす。さらにこの人間の顔の表情表現を同様
に操作しこの音声の意味と内容を補強する。この顧客の
注文の全部を受信すると、このＩＨＩＳ５０はこの現顧
客をこのファースト・フード施設のピックアップ区域
（図示せず）に移動するようプロンプトし、別の顧客の
注文を取扱う準備を整える。自動料金支払いトランザク
ション実施手段は従来周知で、例えば、米国電話電信会
社のディビジョンのグローバル・インフォメーション・
システム（ＧＩＳ）から入手することができる。

【００４５】この自動料金支払い手段はその中央処理装
置１８を基盤としこれに結合するマイクロプロセッサで
ある。そこでこの顧客４１は、その出来上がり注文品の
ピックアップの前にこのＩＨＩＳ５０と金銭のやりとり
を完了する。顧客によるピックアップの前に蓄積し注文
に応じた注文品を自動的に蓄積し供与する自動蓄積供与
手段は、従来周知で、例えば、レイモンド・コーポレー
ションとロジスチコン・コーポレーションから入手する
ことができる。この自動蓄積供与手段はその中央処理装
置１８を基盤としこれに結合するマイクロプロセッサで
あってしたがってそれにより容易に制御される。この関
係係員１３がこの注文を処理してしまうと、この関係係
員はこの全注文品をその自動蓄積供与手段のホールデイ
ング手段に置く。

【００４６】そこでこの中央処理装置１８が現行顧客４
１がその料金支払い義務を満了しその注文品を待ってい
ると決めると、この注文品は供与準備完了である。さら
に、このＩＨＩＳ５０は、電話で顧客のファースト・フ
ード注文の呼出を行い後でピックアップする顧客をも対
処する。このＩＨＩＳ５０は前記と同様にその顧客と通
信するが、ただし応答の一部として映像提供を除外す
る。この対話の際にこのＩＨＩＳ５０はこの顧客の音声
データ・サンプルをそのメモリ１６に蓄積する。この顧
客がその注文品をピックアップスルためこのファースト
・フード施設に到着すると、このＩＨＩＳ５０はこの顧
客４１と簡単な対話を行い、この顧客がその電話で先に
その注文の呼出を行ったことを認め、ピックアップ用に
準備完了状態の多数の注文品の中の１個の注文品とこの
特定顧客のスペクトル音声特徴をマッチさせる。

【００４７】この中央処理装置１８は、したがってこの
自動蓄積手段にそれに応じこの注文品を供与するよう命
令する。ここで注記することはこのＩＨＩＳ５０は複数
の遠隔通信インタフェース６を持つことができることで
ある。別の実施の形態例では、これは前記説明から容易
に分ることであるが、遠隔通信インタフェース・モジュ
ール６はこのファースト・フード・レストランの料金支
払い区域や注文品ピックアップ区域に設置することもで
きる。追加の遠隔通信インタフェース・モジュールをこ
のファースト・フードレストランの重要場所に設けて不
要な遅れを回避することができる。例えば、その料金支
払い区域では、顧客は追加アイテムの購入を所望するこ
とができる。この顧客はその料金支払い区域の遠隔通信
インタフェース・モジュールにその顧客の追加注文を通
信することができる。

【００４８】さらにまた、料金支払いに関する質問は、
遠隔通信インタフェース・モジュールがその料金支払い
区域にもあって利用可能であると、容易に回答される。
次に将来想定の場合の別の実施の形態例のＩＨＩＳ５０
のコンピュータ・ベース注文取扱い装置について説明す
る。ある顧客４１が少なくとも一人の子供の同伴者４１
ａを同伴しこの遠隔通信インタフェース・モジュール６
にドライブして来る。このＩＨＩＳ５０はそのビデオ・
ディスプレイ３６上に人間の顔を送出して“いっらしゃ
いませ、ジョーのバーガー店です。当店のメニューはお
客様のお好みの言葉で書かれているでしょうか？”と発
声し、この顧客４１は、“はい、英語で宜しい、ハムバ
ーガが２個とソーダ水が１個を頂きたい”と応答する。

【００４９】この顧客４１による音声発話の開始におい
て、このＩＨＩＳ５０は、この顧客４１の音声がクリア
に受信されその一方でノイズ・ソース６２、６２ａが受
信されないようこの顧客４１の顔面に直接そのマイクロ
フォン列３４を操作して向ける。この音声データは、そ
の音声認識エンジン２０に入力される前にこのマイクロ
フォン・プロセッサ２６と音声プロセッサ２４のフィル
タ、利得およびオフセットの回路によって処理される。
この音声認識エンジン２０の音声認識器７０はこの処理
音声データをその語彙文法モデル７６を用いてＡＳＣＩ
Ｉテキストに変換する。このＡＳＣＩＩテキストは、そ
の言語解析器７２とエキスパート・システム７４に入力
されその意味規則７８をアクセスできる確率プログラム
によって特定の概念または概念の集合に関係付けられ
る。

【００５０】この概念はこのメモリ１６における蓄積概
念の集合から選択される。またこのエキスパート・シス
テム７４は出力アクションをその選択概念とマッチさせ
るが、これはその中央処理装置１８からこのローカル・
インタフェース・モジュール２の処理システム１４へ結
合する。このメモリ１６に蓄積されこの中央処理装置１
８によって実行されるフーリエ変換アルゴリズ・プログ
ラムは、この音声認識器７０に入力される前にこの音声
データの少なくとも一部の周波数スペクトルを生成す
る。この中央処理装置１８は、論理プログラムを用いて
この顧客４１または同伴者４１ａの相対的年齢と性別を
求める。そこでこのＩＨＩＳ５０はこの顧客４１のファ
ースト・フード注文と関係する出力アクションおよびこ
の顧客４１と同伴者４１ａの性別と相対的年齢の顧客情
報を得る。

【００５１】つまり、出力アクションは、ｉ）２個のハ
ムバーガの調製、ｉｉ）１個のソーダ水の調製、でありさらに、顧客情報は、ｉ）成人顧客、ｉｉ）女性顧客、ｉｉｉ）子供同伴者である。このエキスパート・システム７４は、前記出力アクショ
ンと顧客４１の顧客情報に基づき適当な応答を導き出
す。この応答は、そのメモリ１６のテーブルに一部また
は全部が蓄積されこのエキスパート・システム７４によ
ってアクセスされる。この応答はＡＳＣＩＩテキストの
形をしておりその音声合成エンジン２２によってディジ
タル音声信号に変換される。

【００５２】このディジタル音声信号は、その音声プロ
セッサ２４によってフィルタされ増幅されこのスピーカ
３２によってこの顧客４１に送出される。このＩＨＩＳ
５０は次のように音声と画像でこの顧客に応答する。
“かしこまりました。ただいまお客様の注文を処理して
おります。お客様の料金支払いをされるようこの料金支
払い窓口装置にお進みください。ご注文をありがとうご
ざいました。”この映像はそのメモリ１６の蓄積画像を
アクセスする画像エンジン２８によって決められる。こ
の画像はそのスピーカ３２の音声出力と同期が取られ
る。このローカル・インタフェース・モジュール２の処
理システム１４はその関係係員１３に所望の出力アクシ
ョンを有効に伝達するフォーマットでこの出力アクショ
ン（ＡＳＣＩＩテキスト）を表示する。

【００５３】さらに、この処理システム１４内の別の音
声合成エンジン（図示せず）がそのＡＳＣＩＩテキスト
を音声信号に変換してその赤外光リンク１０上で送信す
る。この関係係員１３は、この顧客４１のファースト・
フード注文を示す出力アクションをこのビデオ・ディス
プレイ１２を介して読取るまたはこの赤外光リンク１０
を介して聴取する。この関係係員１３はこの注文品を調
製しこの顧客４１がアクセスできるようそれをこの自動
蓄積供与手段（図示せず）に入れる。この顧客４１はド
ライブしてその料金支払い窓口に来る。この料金支払い
窓口装置（図示せず）における遠隔通信インタフェース
・モジュールは、“お客様の注文のお値段は５ドル３５
セントです、この支払いをお入れください、”のよう
に、この顧客４１をプロンプトする。

【００５４】この顧客４１はその適当な支払いをこの自
動代金支払い装置に入れる。このＩＨＩＳ５０は、“あ
りがとうございました、お客様の注文品をピックアップ
窓口でお受け取りください”のようにこの代金支払いに
応答する。この顧客４１はそのピックアップ窓口に移動
し別の遠隔通信インタフェース・モジュール（図示せ
ず）と対面する。このＩＨＩＳ５０は、“お客様のピッ
クアップは、ハムバーグ２個とソーダ水１個ですね？”
と発声し、この顧客は、“はい”と応答する。この自動
蓄積供与手段はこの顧客４１にその注文品を出し、この
ＩＨＩＳ５０は〓“どうぞ楽しいお食事を、そしてまた
お出でをお待ちしております”のように発声する。

【００５５】以上の説明は、本発明の一実施例に関する
もので、この技術分野の当業者でああれば、本発明の種
々の変形例が考え得るが、それらはいずれも本発明の技
術的範囲に包含される。尚、特許請求の範囲に記載した
参照番号は発明の容易なる理解のためで、その技術的範
囲を制限するよう解釈されるべきではない。最後に、以
上の説明において米国特許の第４、７４１、０３８号、
第５、００７、０４６号、第４、８０２、２２７号およ
び第５、００１、７０１号をここに引例としたことをま
とめて付記する。

【００５６】

【発明の効果】以上述べたごとく、本発明により厳しい
ノイズや干渉の存在下でも人間とコンピュータ利用シス
テムとの情報の移動が容易にできる人間−コンピュータ
・インタフェース・システムを提供でき、例えば、ファ
ースト・フード・レストラン施設において従来人間の行
った所望の動作を、例えば、人間の場合に生ずる誤りや
複数の言語の同時発話の障害もなく、好都合に実施でき
有用である。

【図面の簡単な説明】

【図１】本発明のインテリジェント・ヒューマン・イン
タフェース・システム（ＩＨＩＳ）を示すブロック略図
である。

【図２】人間（顧客）と本発明の遠隔（顧客）通信イン
タフェース・モジュールとの間の関係を空間的に示す略
図である。

【図３】本発明の遠隔（顧客）通信インタフェース・モ
ジュールのエレメント位置を示す略図である。

【図４】本発明の２次元のマイクロフォン列を示す略図
である。

【図５】本発明の自動音声認識装置と自然言語解析装置
を示すブロック略図である。

【符号の説明】

２ローカル・インタフェース・モジュール４インタフェース処理モジュール６遠隔（顧客）通信インタフェース・モジュール１０赤外光リンク１２ビデオ・ディスプレイ１３関係係員１４処理システム１６メモリ１８中央処理装置２０音声認識エンジン２２音声合成エンジン（テキスト音声合成器）２４音声プロセッサ２６マイクロフォン・プロセッサ２８画像エンジン３０カメラ・プロセッサ３２スピーカ３４マイクロフォン列３４ａマイクロフォン列３６ビデオ・ディスプレイ３６ａビデオ・ディスプレイ３６ｂビデオ・ディスプレイ３８ビデオ・カメラ４０レンジング・システム４１顧客（音声データ・ソース）４１ａ顧客同伴者（音声データ・ソース）５０インテリジェント・ヒューマン・インタフェース
・システム（ＩＨＩＳ）６０自動車６２音声データ・ソース（雑音ソースおよび／または
干渉ソース）６２ａ音声データ・ソース（雑音ソースおよび／また
は干渉ソース）７０音声認識器７２自然言語解析器７４エキスパート・システム７６語彙文法モデル７８意味規則７９発音規則

フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 3/00 ５６１ＧＨ０４Ｎ 7/173 7/18 ＡＨ０４Ｒ 3/00 ３１０３２０ (72)発明者ゲイリーダブリュー．エイコアメリカ合衆国，07901 ニュージャージー，サミット，ブラックバーンプレイス 26 (72)発明者トーマスピー．マーシャルアメリカ合衆国，07461 ニュージャージー，ウォンテッジ，284 ステイトハイウェイ 427 (72)発明者ロバートアール．ミラーアメリカ合衆国，07960 ニュージャージー，コンヴェントステイション，ブラッドリーロード 12

Claims

【特許請求の範囲】

【請求項１】第１の位置（図３）において音声情報を
コンピュータ利用システム（５０）から顧客（４１、４
１ａ）へまた顧客からコンピュータ利用システムへ送出
し受入する送出受入手段（６）と、第２の位置において前記受入音声情報を処理し前記送出
音声情報を生成する処理生成手段（４）と、を有し、前記送出受入手段は、さらに、スピーカ（３２）と少な
くとも１個のビーム制御可能なマイクロフォン列（３
４、３４ａ）を有することを特徴とするコンピュータと
顧客との通信インタフェース・システム。
【請求項２】前記少なくとも１個のマイクロフォン列
は、多次元のビーム制御可能な音声受入アレイ、２次元
のエレクトレット・マイクロフォン列、２次元のビーム
形成スピーカ列のいずれかであることを特徴とする請求
項１に記載の通信インタフェース・システム。
【請求項３】前記送出受入手段は、さらに、適応形ス
ピーカフォン・システム、音響エコー消去システムのい
ずれかを有することを特徴とする請求項１に記載の通信
インタフェース・システム。
【請求項４】前記受入音声情報を処理し前記送出音声
情報を生成する前記処理生成手段は、自然言語認識器
（２０、７０）を有し、前記自然言語認識器は顧客音声
の概念内容を決める手段を提供する確率ベースの隠れマ
ルコフ・モデルを有することを特徴とする請求項１に記
載の通信インタフェース・システム。
【請求項５】前記受入音声情報を処理する前記処理手
段は、さらに、その顧客の相対的年齢と性別を決定する
手段を有することを特徴とする請求項１に記載の通信イ
ンタフェース・システム。
【請求項６】前記顧客の相対的年齢と性別を決定する
前記手段は前記顧客の相対的年齢と性別の決定において
フーリエ変換ベース・アルゴリズムを有することを特徴
とする請求項５に記載の通信インタフェース・システ
ム。
【請求項７】前記受入音声情報を処理する前記処理手
段は、さらに、前記顧客の好ましい言語を決定する手段
を有することを特徴とする請求項１に記載の通信インタ
フェース・システム。
【請求項８】前記送出音声情報を生成する前記生成手
段は、前記顧客の音声のコンピュータ導出概念に基づき
適当な音声応答を決定する手段を提供するエキスパート
・システム（７４）を有することを特徴とする請求項１
に記載の通信インタフェース・システム。
【請求項９】前記エキスパート・システムは、さら
に、その顧客の相対的年齢と性別に基づき適当な音声応
答を決定する手段を提供することを特徴とする請求項１
１に記載の通信インタフェース・システム。
【請求項１０】第１の位置において音声と画像の音声
・画像情報をコンピュータ利用システムから顧客へまた
顧客からコンピュータ利用システムへ送出し受入する送
出受入手段と、第２の位置において前記受入情報を処理し前記音声・画
像送出情報を生成する処理生成手段とを有し、前記送出受入手段は、さらに、スピーカとビデオ・カメ
ラ（３８）と少なくとも１個のビーム制御可能なマイク
ロフォン列を有することを特徴とするコンピュータと顧
客との通信インタフェース・システム
【請求項１１】前記少なくとも１個のマイクロフォン
列は多次元のビーム制御可能な音声受入アレイ、２次元
のエレクトレット・マイクロフォン列、２次元のビーム
形成スピーカ列のいずれかであることを特徴とする請求
項１０に記載の通信インタフェース・システム。
【請求項１２】前記送出受入手段は、適応形スピーカ
フォン・システム、音響エコー消去システムのいずれか
を有することを特徴とする請求項１０に記載の通信イン
タフェース・システム。
【請求項１３】前記送出受入手段は、ビデオ・カメラ
とレンジング・システム（４０）を有し、前記レンジン
グ・システムはその顧客の空間位置を自動的に決定する
手段を提供することを特徴とする請求項１０に記載の通
信インタフェース・システム。
【請求項１４】前記レンジング・システムを前記ビデ
オ・カメラに結合し、前記レンジング・システムが前記
顧客の像を取込むよう前記ビデオ・カメラの焦点合せと
方向を自動的に制御することを特徴とする請求項１３に
記載の通信インタフェース・システム。
【請求項１５】前記レンジング・システムは少なくと
も１個のビーム制御可能なマイクロフォン列を有するこ
とを特徴とする請求項１３に記載の通信インタフェース
・システム。
【請求項１６】前記受入音声・画像情報を処理し前記
送出音声・画像情報を生成する前記処理生成手段は、自
然言語認識器を有し、前記自然言語認識器は顧客音声の
概念内容を決める手段を提供する確率ベースの隠れマル
コフ・モデルを有することを特徴とする請求項１０に記
載の通信インタフェース・システム。
【請求項１７】前記受入音声・画像情報を処理する前
記処理手段は、さらに、その顧客の相対的年齢と性別を
決定する手段を有することを特徴とする請求項１０に記
載の通信インタフェース・システム。
【請求項１８】前記顧客の相対的年齢と性別を決定す
る前記手段は前記顧客の相対的年齢と性別の決定におい
てフーリエ変換ベース・アルゴリズムを有することを特
徴とする請求項１７に記載の通信インタフェース・シス
テム。
【請求項１９】前記受入音声・画像情報を処理する前
記処理手段は、さらに、前記顧客の好ましい言語を決定
する手段を有することを特徴とする請求項１０に記載の
通信インタフェース・システム。
【請求項２０】前記送出音声・画像情報を生成する前
記生成手段は前記顧客の音声のコンピュータ導出概念に
基づき適当な音声と画像の音声・画像応答を決定する手
段を提供するエキスパート・システムを有することを特
徴とする請求項１０に記載の通信インタフェース・シス
テム。
【請求項２１】前記エキスパート・システムは、さら
に、その顧客の相対的年齢と性別に基づき適当な音声と
画像の音声・画像応答を決定する手段を提供することを
特徴とする請求項２０に記載の通信インタフェース・シ
ステム。
【請求項２２】前記送出画像情報は少なくとも１個の
顧客外観画像を有し、前記外観画像は前記送出音声情報
によって口の動きと顔の表情を提供することを特徴とす
る請求項１０に記載の通信インタフェース・システム。
【請求項２３】前記送出画像情報は、さらに、少なく
とも１個の顧客外観画像を有し、前記外観画像は前記受
入音声情報によって口の動きと顔の表情を提供すること
を特徴とする請求項２８に記載の通信インタフェース・
システム。
【請求項２４】前記送出画像情報は、さらに、その顧
客による選択のためのアイテム・メニューを有すること
を特徴とする請求項１０に記載の通信インタフェース・
システム。
【請求項２５】前記アイテム・メニューは複数の言語
の中の１個の言語での送出のための利用可能なアイテム
・メニューであることを特徴とする請求項１０に記載の
通信インタフェース・システム。
【請求項２６】前記複数の言語のなかの１個の言語を
その顧客の好ましい言語に基づき自動的に選択すること
を特徴とする請求項２５に記載の通信インタフェース・
システム。
【請求項２７】前記通信インタフェース・システム
は、さらに、ローカル・インタフェース・モジュール
（２）を有し、前記ローカル・インタフェース・モジュ
ールはその顧客の音声のコンピュータ導出概念から得ら
れた少なくとも１個の出力アクションの画像表現を表示
する手段を提供することを特徴とする請求項１０に記載
の通信インタフェース・システム。
【請求項２８】前記ローカル・インタフェース・モジ
ュールは、処理システム、ビデオ・ディスプレイ、音声
トランスミッタおよび音声レシーバを有し、前記音声ト
ランスミッタと前記音声レシーバは、前記出力アクショ
ンの音声表現を関係係員に提供するようそのコンピュー
タ利用システムと前記関係係員間に音声リンク（１０）
を提供することを特徴とする請求項２７に記載の通信イ
ンタフェース・システム。
【請求項２９】前記音声トタンスミッタと前記音声レ
シーバ間の前記音声リンクは、赤外光リンクあるいは無
線周波リンクのいずれかであることを特徴とする請求項
３０に記載の通信インタフェース・システム。
【請求項３０】選択したアイテムを自動的に蓄積し供
与する手段をさらに有することを特徴とする請求項１０
に記載の通信インタフェース・システム。
【請求項３１】選択したアイテムに対する代金支払い
を自動的に受容する手段をさらに有することを特徴とす
る請求項１０に記載の通信インタフェース・システム。