JPH08106374A - 通信インタフェース・システム - Google Patents

通信インタフェース・システム

Info

Publication number
JPH08106374A
JPH08106374A JP7209324A JP20932495A JPH08106374A JP H08106374 A JPH08106374 A JP H08106374A JP 7209324 A JP7209324 A JP 7209324A JP 20932495 A JP20932495 A JP 20932495A JP H08106374 A JPH08106374 A JP H08106374A
Authority
JP
Japan
Prior art keywords
customer
communication interface
voice
interface system
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7209324A
Other languages
English (en)
Inventor
Bishnu Saroop Atal
エス.アタル ビシュヌ
W Elko Gary
ダブリュー.エイコ ゲイリー
Thomas P Marshall
ピー.マーシャル トーマス
Robert R Miller
アール.ミラー ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH08106374A publication Critical patent/JPH08106374A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers

Abstract

(57)【要約】 【課題】 人間とコンピュータ・ベース・システム間の
情報の移動が容易にできる人間−コンピュータ・インタ
ラクティブ通信システムを提供する。 【解決手段】 例えば、実施の形態例のファースト・フ
ード・レストランのコンピュータ・ベース注文取扱い装
置のインテリジェント・ヒューマン・インタフェース・
システム(IHIS)では、自動音声認識技術、ビーム
ステアラブル音声マイクロオフォン技術、バーチャル・
リアリティ画像技術および適応形スピーカフォン技術を
有効に利用する。このIHISは顧客に応じいくつかの
言語の中の一つの言語でこの顧客と通信しまたそのファ
ースト・フードのメニューの映像もいくつかの言語の中
の一つの言語で提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、人間とコンピュー
タ利用装置間の音声と画像の対話型通信を容易に実施で
きるシステムに関する。このコンピュータ利用機器は、
この人間から音声データを受信し、所望動作を実行する
のに十分な情報を得るようこの人間へ音声と映像の適当
な通信信号を返送する。本システムは、厳しいノイズや
マルチパス干渉の存在下に所望の動作を得るため、自動
音声認識技術、ビーム制御可能な音声マイクロフォン列
技術、バーチャル・リアリティ画像技術および適応形ス
ピーカフォン技術を有効に組合わせたものである。
【0002】
【従来の技術】従来の音声認識技術、全方向性マイクロ
フォン・ピックアップおよびシングル・フレーム画像フ
ィードバック技術を利用し人間とコンピュータとの人間
−コンピュータ対話を容易に実施できる音声対話システ
ムが発達してきた。例えば、欧州特許第EP0、54
3、329、A2号に人間−コンピュータ対話型システ
ムが記載されているが、これはファースト・フード・レ
ストランにおける注文取扱いシステムの利用に適したも
のである。このシステムは、キーワードを見つけるキー
ワード・スポッティング技術を音声と画像のフィードバ
ックと共に利用してその音声認識システムの範囲を越え
ぬようまた通信故障を回避するようその顧客とこのコン
ピュータ利用機器間の情報移動を制御するシステムであ
る。
【0003】このコピュータ・システムは、この注文を
その顧客へ検証のため常に反復して戻す、というのは人
間の音声はノイズや多方向干渉によって破損を受けるこ
とが多いからである。このように反復し検証することで
このコンピュータはその注文を結局は正しく翻訳し所要
の通り進行しこの注文に応じ満足させることができる。
ビーム制御可能なマイクロフォン列技術の進歩から厳し
いノイズと干渉の存在下において元の人間音声(音声ソ
ース)のスペクトルの正しい表現を生成する手段が得ら
れた。例えば、米国特許第4、741、038号では、
なんらかの機械的可動部を必要とすることなくその音声
ソースに焦点を合すコンピュータ制御多方向マイクロフ
ォン列が記載されている。
【0004】このように行われるマイクロフォン列は、
非常に複雑な全方向性マイクロフォンに比較し、高度空
間指向性であって音声発話の格段に優れた電子信号表現
を生成する。音声データを収集する人間−コンピュータ
・インタフェース・システムは、このコンピュータ・シ
ステムを出入りする音声データを移送させる移送手段の
提供には通常のスピーカフォン技術を一般的に利用す
る。スピーカフォン技術の進歩から全二重システムの性
能レベルに近付くコンピュータ制御の適応形スピーカフ
ォン・システムが開発された。適応形スピーカフォン・
システムについては、例えば、米国特許第5、007、
046号に自己校正で自動調節のシステムが記述されて
いる。
【0005】この適応形スピーカフォンは、通常のスピ
ーカフォンとは異なって、多方向干渉ソースにもさらさ
れ易いような高ノイズ環境でも機能できるものである。
自動音声認識と自然言語解析器を含む音声認識システム
の発達から一連の自然音声と関係する概念を迅速に決定
する手段ならびにその言語自身を決定する手段が得られ
た。例えば、AT&T社が開発した自然言語解析と自動
音声認識のシステムについては、Roberto Pieraccini a
nd Esther Levin,Stochastic Representationof Semant
ic Structure for Speech Understanding,SPEECH COMMU
NICATION,11(1992),at 282 でありさらに、Roberto Pie
raccini and Esther Levin,A LearningApproach to Nat
ural Language Understanding, Internal AT&T Corpora
tion Paper(1993)を参照のこと。
【0006】さらに、Roberto Pieraccini,Esther Levi
n and Chin-Hui Lee,Stochastic Representation of Co
nceptual Structure in the ATIS Task,Internal AT&T
Corporation Paper(1991) を参照のこと。さらにまた、
バーチャル・リアリティ(VR)画像技術の成熟から真
に迫った全動画像を生成する手段が得られ、これはその
コンピュータ表現をさらにもっと“人間”の形で表現す
るものである。現在一般社会で印象とし受取られている
ことは、VRを体験するのに必要なものにはVRの体験
を所望する者の体にセンサやディスプレイ・ゴーグルの
複雑な組合わせが必要と考えられている。ところがこの
分野のエキスパートは、下記に記述されているように、
VR体験には高価な機器は必要ではないと述べている。
【0007】Alan Wexelblat,VIRTUAL REALITY APPLICA
TIONS AND EXPLORATIONS (1993) でを参照のこと。VR
体験のために好適な媒体を提供するビデオ・モニタが現
在利用可能である。VR技術によって適当な同時音声セ
グメントによって顔の表情および/または体の動作の表
現を変える完全動画の人間映像を容易に生成することが
可能である。ここでこの人間とコンピュータ利用システ
ムとのインタフェース・システムでは外部からの厳しい
ノイズや干渉の存在下でも所望の動作を得るような改善
がさらに望まれている。
【0008】
【発明が解決しようとする課題】厳しいノイズや干渉の
存在下でも人間とコンピュータ利用システムとの情報の
移動が容易にできる人間−コンピュータ・インタフェー
ス・システムが所望されている。
【0009】
【課題を解決するための手段】本発明は以下に説明する
インテリジェント・ヒューマン・インタフェース・シス
テム(IHIS)を提供し前記課題を解決しこの技術分
野の進歩を遂げる。本発明のIHISでは、マイクロフ
ォン列・ビーム・ステアリング技術、適応形スピーカフ
ォン技術、自然言語認識技術、およびVR画像技術を有
効に組合わせて進歩した高度な人間−コンピュータ対話
型システムが得られ、本システムの動作は外部からのノ
イズや干渉に起因する従来困難であった環境でも影響を
受けない。本IHISはマイクロプロセッサ・ベース・
システムであって、これには一般的に遠隔通信インタフ
ェース・モジュールとインタフェース処理モジュールと
ローカル・インタフェース・モジュールがある。前記エ
レメントが共同動作することによって本IHISが生成
した映像とこの人間の好む発話言語を用いて本IHIS
とこの人間との間の有効な情報移動が容易に行うことが
できる。
【0010】
【発明の実施の形態】本発明を発明の実施の形態で以下
に説明する。 I)一般動作 本発明の好ましい実施の形態例として、ファースト・フ
ード・レストランのドライブイン顧客からのドライブア
ップ受付窓口で顧客からの注文を取扱うためインテリジ
ェント・ヒューマン・インタフェース・システム(IH
IS)を利用する場合を取上げる。本IHISのシステ
ムが注文を取扱う人間に代ってその動作を行う場合であ
るが、ここでこの人間の場合は誤動作を行い易いのみな
らず同時に複数の言葉で対話することは不可能である場
合がほとんどである。ところが、本IHISでは顧客が
使う言語を認識しその続行中の“対話”で用いる言語で
調整を行う。従来技術のコンピュータ利用システムと異
なり、本IHISでは、例えば、この顧客の同伴者のよ
うな複数の音声ソースの存在を認識することができ、必
要に応じその同伴者にも応答することができる。
【0011】さらに本IHISは、この顧客およびこの
顧客の同伴者の両者の年齢や性別を認識し、それによっ
てさらに特有の真に迫る対話体験の実現に寄与する。例
えば、この顧客が子供を伴っている場合、本IHISは
音声と画像で応答可能であってこれが第1の例ではこの
成人顧客を満足させ第2の例ではその子供を楽しませる
よう行われる。この顧客がその子供の要望と一致しない
注文を発注してこのためその子供がこの注文を音声で訂
正する場合、本IHISのシステムはその子供に応答し
この成人顧客に前記注文の変更の検証を求める。本IH
ISのシステムがこの顧客から必要な情報をすべて受信
してしまうと、代金の支払いが受入れられこの顧客は注
文が応じられ満たされる。
【0012】II)詳細な動作 図1を参照し説明する。一般的にはこのIHIS50に
は、ローカル・インタフェース・モジュール2とインタ
フェース処理モジュール4と遠隔通信インタフェース・
モジュール6がある。この人間である顧客41とこのI
HIS50の間の対話はその遠隔通信インタフェース・
モジュール6において得られる。この遠隔通信インタフ
ェース・モジュール6は、顧客41が好都合にアクセス
できるような位置に通常配置される。図2には自動車6
0の中にいるこの顧客41と同伴者41aに対する本実
施形態例の遠隔通信インタフェース・モジール6の相対
的な位置を示す。この遠隔通信インタフェース・モジュ
ール6には、スピーカ32、マイクロフォン列34、ビ
デオ・ディスプレイ36、ビデオ・カメラ38およびレ
ンジング・システム40がある。
【0013】図3にはこの遠隔通信インタフェース・モ
ジュール6のエレメントの相対的な位置を示す。スピー
カ32はこの顧客41に音声応答を送出する手段を提供
する。このスピーカ32はそのビデオ・ディスプレイ3
6に比較的近接して設けられ、このビデオ・ディスプレ
イ36上に適当な映像が表示されるが、これはその音声
応答に対応するものである。第1の2次元マイクロフォ
ン列34を用いてこの顧客41および/または同伴者4
1aからの可聴音声データを受信する。この第1のマイ
クロフォン列はビーム制御可能なであってこのためその
音声ソース(顧客41および/または同伴者41a)か
らの非破損の音声信号の受信ができる。
【0014】さらに第2の2次元マイクロフォン列34
aもまたビーム制御可能なであってこれを用いてこの顧
客41のいる区域を走査するが、この目的は音声データ
の追加ソース(同伴者41a)ならびにノイズ・ソース
および/または干渉ソース62、62aを認めるためで
ある。この顧客41から音声信号を得るためただ1個の
マイクロフォン列34を要する場合もある。ただ1個の
マイクロフォン列34を使用する場合、この顧客41の
いる区域の走査は行わない。図4に121個のマイクロ
フォン素子のエレクトレット・マイクロフォン列を示
し、これはほぼ15インチ×15インチ(38.1cm
x38.1cm)の寸法の正方形マトリックスで等間隔
に1.5インチ(3.81cm)だけ離れたもので本発
明の第1と第2のマイクロフォン列34、34aの利用
に適している。
【0015】図3にこの遠隔(顧客)通信インタフェー
ス・モジュール6上のマイクロフォン列34、34aの
位置を示す。図3に示すマイクロフォン列34aの位置
はこの顧客41とその遠隔通信インタフェース・モジュ
ール6間の距離に応じマイクロフォン列34からさらに
離して配置する場合がある。このレンジング・システム
40は、このビデオ・カメラ38がその音声データのソ
ースに焦点を適宜合わせるようこの顧客41および/ま
たは同伴者41aの位置を電気的に求める手段を提供す
る。このマイクロフォン列34と付随する回路はレンジ
ング・システムとして本発明の利用に適している。この
マイクロフォン列34をその音声ソースの方に適宜向け
る信号誘導体を用いて3次元空間においてこの音声ソー
スの正確な位置を示す。
【0016】2個のマイクロフォン列34、34aを用
いる場合、この音声ソースを求めるため三角法アルゴリ
ズムを用いる。このレンジング・システム40は信号を
出力し、この信号をそのカメラ・プロセッサ30が用い
て、本発明の本実施形態例では、このビデオ・カメラ3
8の機械駆動システム(図示せず)に命令する。この機
械駆動システムはそのカメラ・プロセッサ30のコマン
ドに応答し話者に応じこの顧客41および/または同伴
者41aにこのビデオ・カメラ38の焦点を向ける。こ
の第1の実施の形態例に述べた要件に適したカメラ・プ
ロセッサ30は、例えば、ソニー、チノン、およびパナ
ソニックのようないくつかの会社で製造し販売されてい
る。
【0017】別の実施の形態例では、このレンジング・
システム40が出力した信号は、機械駆動システムの必
要がなくその音声ソースがこのビデオ・ディスプレイ1
2のフォーマット内のフレームに適切に入るようその映
像を自動的にトリミングするためこのカメラ・プロセッ
サ30によって用いられる。この別の実施の形態例に述
べた要件に適したカメラ・プロセッサ30は、例えば、
ソニー・コーポレーションと松下の両社によって製造さ
れ販売されている。本発明の要件に適したビデオ・カメ
ラ38は、例えば、ソニー・コーポレーションから入手
可能である。このビデオ・カメラ38が捕らえた画像
は、このIHIS50の通常動作で障害が生じた場合ま
たは緊急事態の場合、そのローカル・インタフェース・
モジュール2のビデオ・デォスプレイ12へ転送するた
めこの中央処理プロセッサ18に結合される。
【0018】そこでこの関係係員13はなんらかの異常
事態に対処するようその顧客41と直接通信し、人間対
人間の通信が確立された場合この異常事態は適宜解決さ
れる。この遠隔通信インタフェース6のエレメントはこ
のファースト・フード施設(図示せず)内に設置された
インタフェース処理モジュール4に結合する。このイン
タフェース処理モジュール4はマイクロプロセッサ・ベ
ース・デバイスであってこれがその遠隔通信インタフェ
ース・モジュール6によってこの顧客41から収集した
データを翻訳し、この顧客41に対しその遠隔通信イン
タフェース・モジュール6によって表示するよう適当な
応答データ、ただし音声と画像の両方についてである
が、この応答データを生成する。
【0019】図1において、このインタフェース処理モ
ジュール4には、中央処理装置18、メモリ16、音声
認識エンジン20、音声合成エンジン22、音声プロセ
ッサ24、マイクロフォン・プロセッサ26、画像エン
ジン28およびカメラ・プロセッサ30がある。このイ
ンタフェース処理モジュール4のメモリ16および中央
処理装置18としての動作に適するマイクロプロセッサ
集積回路は、例えば、モトローラやインテルのような製
造業者から入手可能である。このインタフェース処理モ
ジュール4の中央処理装置18とマイクロフォン・プロ
セッサ26は、ここに引例とする米国特許第4、74
1、038号に記載のようにビーム制御可能な音声受信
デバイスを形成するようこの遠隔通信インタフェース・
モジュール6のマイクロフォン列34、34aと共同し
て働く。
【0020】このマイクロフォン・プロセッサ26はそ
のマイクロフォン列34、34aが受信したデータをこ
の中央処理装置18に供給し、これによって各マイクロ
フォン列の各エレクトリット・マイクロフォンの出力の
時間−位相差量の計算ができる。この中央処理装置18
は各エレクトレット・マイクロフォンに対し別個の遅延
量をそのマイクロフォン・プロセッサ26に供給する
が、これは前記時間−位相差量で計算されるものであっ
てこの計算はいったんその信号パスに導入されてしまう
とこのエレクトレット・マイクロフォンの出力信号が同
相加算するよう計算される。このマイクロフォン列34
が最大エネルギーを受信するようこの遅延量を調節する
方法は“遅延サム・ビーム形成方式”として従来既知で
ある。
【0021】そこで“ビーム”が形成されるがこれはこ
の顧客41および/またはいずれか他の候補となる音声
ソースからの非破損音声信号を受信するものである。ま
た別の実施の形態例では、このマイクロフォン列34、
マイクロフォン・プロセッサ26および中央処理装置1
8は、適応形ビーム形成方式を利用するよう動作する。
この適応形ビーム形成方式はこの中央処理装置18を用
いてそのマイクロフォン・プロセッサ26に入力する重
み付け信号の集合を生成する。このマイクロフォン・プ
ロセッサ26はこの重み付け信号を用いてそのマイクロ
フォン列・ビームの空間ヌルをノイズ・ソースに対して
向け、その一方でこのマイクロフォン列・ビームのメイ
ン・ローブをその所望音声ソースに対し向ける。
【0022】この適応形ビーム形成方式の詳細は例え
ば、米国特許第4、802、227号に記載されており
これを参照のこと。ここで注記することは、別の実施の
形態例ではこのスピーカ32は多数の指向性スピーカの
アレイとすることができることである。この別の実施の
形態例でこの中央処理装置18は、このIHIS50の
音声応答をその顧客41および/または同伴者41aに
向けるためこの音声プロセッサ24にその遅延サム・ビ
ーム形成方式または適応形ビーム形成方式によって信号
を供給する。前記ビーム形成方式の中の一方式を用いる
スピーカ列32の実際上の設計は、ビーム形成マイクロ
フォン列34の設計に直接類似したものである。例え
ば、米国電話電信会社では本発明のこの別の実施の形態
例用に適するプロトタイプのスピーカ列を開発した。
【0023】そこでスピーカ列32を用いる場合、この
IHIS50の音声応答を他の区域に不要に送出するこ
となくクリアな応答をこの顧客41は受信する。例え
ば、接近して多数のIHIS50を利用する場合、ある
1個のIHIS50のスピーカ32からの音声応答が近
接するIHIS50の対話と干渉し合わないことが重要
である。本発明では本実施の形態例に記載のように、こ
のスピーカ列32は近接区域の音声エネルギー内容を妨
害することなくこのIHIS50からの音声応答を送出
する手段を提供する。第2のマイクロフォン列34a
は、米国特許第4、741、038号の教示するように
他の音声ソースに対しこの顧客41のいる区域を常に走
査する。
【0024】図2において、さらなる他の音声ソースは
同伴者41aと外部ノイズ・ソース62、62aとして
識別される。この中央処理装置18はその外部ノイズ6
2、62aをその第2のマイクロフォン列34aの各ビ
ーム方向に対する短時間と長時間の信号振幅平均を計算
し前記として識別する。人間の音声と外部のノイズはそ
れぞれの短時間と長時間の振幅平均間に明白に異なる関
係を有するため、この中央処理装置18はこれら両者間
を区別する。同様にこの中央処理装置18はさらなる他
の真正音声データ・ソースをその同伴者41aからのも
のとして識別する。この同伴者41aがその顧客41を
超過して所定のデシベル・レベルに達する音声発話を生
成した場合、この中央処理装置18は次のことを行う。
【0025】それは、このマイクロフォン・プロセッサ
26へ遅延値の別個の集合を送りこれがその第1のマイ
クロフォン列34のメイン・ビームをこの同伴者41a
に対し向け直す。同様に、この顧客41がその同伴者4
1aを超過して所定のデシベル・レベルに達する音声発
話を生成した場合、このメイン・ビームは再びこの顧客
41に向けられる。このマイクロフォン列34とマイク
ロフォン・プロセッサ26を実現するのに要するハード
ウェアは米国特許第4、741、038号に詳しく定め
られておりこれを参照のこと。そこで、この中央処理装
置18は複数のソースから音声データを受信するが、こ
れはそれらから発する音声エネルギーの振幅に左右され
受信する。
【0026】このビームを向けるソースに無関係に、音
声データのスペクトルで正確(クリーン)な信号表現
は、そのノイズ・ソース62、62aおよび/またはい
ずれか他の外部干渉ソースによる破損がなくそのマイク
ロフォン・プロセッサ26によって受信される。本発明
の要件に適した音声プロセッサ24として、例えば、米
国電話電信会社の一部門のGBCSから入手可能のS2
01を挙げることができる。この音声プロセッサ24が
その音声ボリュームを適切なレベルに調節しこの顧客4
1との良質な対話を容易に得ることができる。この音声
プロセッサ24はその中央処理装置18からのコマンド
に応じこのスピーカ32に入力する信号振幅を増加す
る。
【0027】図3の遠隔通信インタフェース・モジュー
ル6はこのスピーカ32のそのマイクロフォン列34、
34aに対する相対位置を示す。通常の対話中ではこの
IHIS50は交互に“聴取”(この顧客41から音声
データをこのマイクロフォン列34を介して収集)し
“発話”(このスピーカ32から音声応答を送出)する
が問題は次の場合に起る。それは、同時にこのマイクロ
フォン列34がアクティブ・モードにあってつまり聴取
中であり、さらにスピーカ32もアクティブ・モードに
あってつまり発話中である場合である。このように決め
られ行われた場合には、このIHIS50は自分自身の
発話を聴取してしまい恐らくこの顧客に予期されるサー
ビス水準を提供することはできない。
【0028】この問題は適応形スピーカフォン技術をこ
のIHISシステム50に導入すると解消される。この
適応形スピーカフォン技術はこの顧客41とIHIS5
0との間の対話状態に応じそのマイクロフォン34、3
4aかまたはスピーカ32かのいずれかのアクティブ・
モードを有効に禁止する。ここで引例とする米国特許第
5、007、046号に記載のように適応形スピーカフ
ォン・システムの機能を得るためこの中央処理装置1
8、音声プロセッサ24およびマイクロフォン・プロセ
ッサ26は共同して働く。一般的にこのスピーカフォン
が感知するのは、第1の関係者が発話し第2の関係者が
聴取する場合またはその反対の場合である。
【0029】そこでこのIHIS50が発話中にその顧
客41が発話を決めた場合、このIHIS50はその顧
客41がもう聴取していないことを認識し、そのスピー
カ32から送出する音声信号を中断し、このマイクロフ
ォン列34を介してこの顧客41からの音声データを収
集する。または、このIHIS50がその顧客41が発
話を終了したことを感知した場合、このIHIS50は
そのマイクロフォン34、34aが音声データを収集せ
ぬようにしこのスピーカ32から適当な音声応答を送出
する。この中央処理装置18はその顧客41、同伴者4
1aおよびそれ自身のスピーカ32の音声信号レベルを
(その音声プロセッサ24を介して)モニタするが、こ
れは発話かまたは聴取かを正確に決定するためである。
【0030】米国特許第5、007、046号による
と、この顧客41および/または同伴者41aはこのI
HIS50に発話させず聴取させるためにはこのIHI
S50の音声レベルより高い音声レベルにまで達する必
要がある。同様に、一度この顧客41および/または同
伴者41aの可聴音声レベルが所定の閾値以下に落ちて
しまうとこのIHIS50は聴取から発話に交替する。
このIHIS50の発話モード/聴取モードの交替の閾
値の選択は、全二重音声システムの性能レベルにほとん
ど等しい性能レベルに達するのに重要である。本発明が
利用する適応形スピーカフォン・システムに対してでは
ない場合、この閾値レベルの選択は問題を含むもので、
というのはこのIHIS50環境に関係するバックグラ
ウンド・ノイズや干渉がハイレベルのためである。した
がって近全二重動作は得られない。
【0031】極端にノイズのある環境においてでも近全
二重性能を得るよう本発明が利用する適応形スピーカフ
ォン・システムは動作する。米国特許第5、007、0
46号によると、この中央処理装置18はこの顧客41
周辺空間の音響反射、音響減退および周波数応答に関す
る情報をこのスピーカ32からの音声バーストを送出し
その結果生ずる応答をこのマイクロフォン列34が受信
しこの応答を解析し取得する。さらにまたこの中央処理
装置18は自己校正プログラムを周期的に実行しこれが
この音声プロセッサ24、スピーカ32、マイクロフォ
ン・プロセッサ26およびマイクロフォン列34、34
aに関係する電子回路の利得とオフセットを調節する。
【0032】この中央処理装置18は、その音声ソース
周辺空間の解析によって得たまたその校正プログラムか
ら得た情報を用いてこの“聴取”モードと“発話”モー
ドの切替えに用いる時間可変閾値レベルを生成する。そ
こでこの音声ソース周辺空間の特性変化や温度と老化に
起因する電子機器回路の変化にもかかわらずこのIHI
S50は近全二重音声通信性能を保持する。本発明にお
いてその音声プロセッサ24、マイクロフォン・プロセ
ッサ26、マイクロフォン列34、34aおよびスピー
カ32によって示される適応形スピーカフォンを実現す
るのに要するハードウェアは米国特許第5、007、0
46号に詳細に規定されている。
【0033】本発明の別の実施の形態例では、米国特許
第5、001、701号に規定のように音響エコー消去
システムの機能を得るためこの中央処理装置18、音声
プロセッサ24およびマイクロフォン・プロセッサ26
は共同で働く。さらにまた音響エコー消去システムは近
全二重性能を得る一方で前記フィードバック問題をなく
する。音響エコー消去システムを利用する場合、この中
央処理装置18はこのスピーカ32から送出する信号に
対するこのスピーカ32とマイクロフォン列34間チャ
ネルのスペクトル応答を示す信号を生成する。次にこの
中央処理装置18は、この生成信号をそのスピーカ32
から送出する信号と結合しこのマイクロフォン列34に
通常フィードバックするエネルギーを消去する。
【0034】この“クリーン”な音声データをこの音声
プロセッサ24からその音声認識エンジン20へ入力す
る。図5において、この音声認識エンジン20と音声合
成エンジン22には、一般に、音声認識器70、言語解
析器72、エキスパート・システム74およびテキスト
音声合成器22がある。この音声認識エンジン20は、
このマイクロプロセッサ・コントローラ18と共同して
働くディジタル信号処理(DSP)集積回路の組合わせ
を用いて実施される。例えば、米国電話電信会社は本発
明の使用に適するDSPチップを製造している。この音
声合成エンジンは、コンピータ生成テキストからの音声
信号生成に専用の1個以上の集積回路を用いて実施され
る。
【0035】例えば、米国電話電信会社は本発明の音声
合成エンジン22としての利用に適するテキスト音声合
成器を製造している。この音声認識器70は、その語彙
文法モデル76を用いてこの顧客41の発話ワードをテ
キストへ変換し、次にこれをメモリ16に一時的に蓄積
する。音声認識器は従来周知であって例えば、米国電話
電信会社から容易に入手し利用可能である。この自然言
語解析器72はこのテキストを入力として取上げ正しい
概念へのこのテキストの変換に確率隠れマルコフモデル
(HMM)を用いる。確率モデルの使用の際に、本発明
の言語解析器はこのIHIS50による複数の照会を必
要とせず正しい概念に自然言語を迅速に変換することが
できる。
【0036】この言語解析器72は特定の入力したワー
ドまたはフレーズが蓄積概念にマッチした場合に有する
関連確率を計算する。この言語解析器72は最高関連確
率を有する概念とこのワードまたはフレーズをマッチさ
せる。この確率HMMは、ファースト・フード・レスト
ランに関係する自然言語で遭遇する50、000以上の
フレーズとほぼ100個の概念を適宜マッチさせる。新
規のワードまたはフレーズと遭遇しこれが既存の概念に
マッチする場合、この音声認識エンジン20はこの新規
のワードまたはフレーズをその語彙モデル76と意味規
則78に加えおよびこの新規のワードまたはフレーズと
マッチした概念に対応する新規関連確率を蓄積する。
【0037】そこで、この音声認識エンジン20は時間
経過につれてだんだんと新しいワードやフレーズを学習
する。このエキスパート・システム74は、その既知概
念およびこの顧客41および/または同伴者41aの性
別と相対的年齢に基づき出力アクションを生成し適当な
応答を導き出す。一般的に、1個の出力アクションは1
個の概念に対応し、この中央処理装置18はテーブル・
ルックアップ法を用いてその適当な出力アクションを容
易に得る。1個の概念が複数のアクションにマッチする
場合、このIHIS50はその顧客41に照会しそこで
さらにその他の情報を取得しこの所望のアクションに関
する不明確さを排除する。この顧客41の性別と年齢は
この顧客の音声サンプルの周波数ドメインのスペクトル
内容を調べて求める。
【0038】男性の音声スペクトル内容は女性の音声ス
ペクトル内容より低い音程に一般に集中している。同様
に、子供からの音声サンプルのスペクトル内容はそれ自
身の独特の特徴を持つ。従来周知のフーリエ変換アルゴ
リズムをこの中央処理装置18は実行し時間ドメインの
音声サンプルをこの顧客41および/または同伴者41
aの年齢と性別を見分けるためその周波数ドメインに変
換する。このエキスパート・システム74は、この概
念、出力アクション、この顧客41の相対的年齢および
この顧客41の性別を用いて蓄積応答テーブルから適当
な応答を選択する。このエキスパート・システム74に
よってその言語応答は選択されテキストに変換される。
【0039】この応答テキストはこの音声合成エンジン
22(テキスト音声合成器)に入力されこれが発音規則
79を用いて電気信号を生成しこれをこの音声プロセッ
サ24に入力する。顧客41および/または同伴者41
aの音声データの“クリーン”な音声信号の表現を入力
してしまうと、この音声認識エンジン20はその音声を
吟味してその適当な概念を導き出すスピードは増加す
る、というのはノイズや干渉によって生ずるエラー・レ
ートが減少するためである。同様に、顧客の性別や相対
的年齢の適切な決定は、周波数ドメインの特徴を生成す
るようクリーンな音声サンプルを収集することによって
保証される。この音声認識エンジン20はその英語言語
の理解に限らない。
【0040】例えば、スペイン語、フランス語、日本語
および中国語のような複数の言語の認識と解析は、従来
周知でこの音声認識エンジン20によって行われる。こ
の音声認識エンジン20は、その音声ソースにおいて特
定の言語を検出するとこの適当な語彙文法モデル76、
意味規則78および発音規則79をそのメモリ16から
単にアクセスする。この顧客41とそのIHIS50間
の対話の最初にこの言語が決められるため、このメニュ
ー・モニタ36a、36bはいくつかの蓄積言語の中の
一つの言語でファースト・フード施設のメニューを表示
する。このインタフェース処理モジュール4はそのロー
カル・インタフェース・モジュール2に結合しこれがそ
のローカル・インタフェース・モジュール2にこの顧客
41のファースト・フード注文を示すデータを供給す
る。
【0041】このローカル・インタフェース・モジュー
ル2は、このファースト・フード施設内のフード調製区
域(図示せず)に接近して設置されこれには処理システ
ム14、ビデオ・ディスプレイ12、赤外光リンク10
がある。このローカル・インタフェース・モジュール2
の処理システム14としての動作に適するマイクロプロ
セッサ集積回路は、例えば、モトローラやインテルのよ
うな製造業者から入手可能である。この出力アクション
・データはこの中央処理装置18からこのローカル・イ
ンタフェース・モジュール2の処理システム14に結合
する。この処理システム14はその関係係員13に送る
フォーマットにこの出力アクション(フード注文)を示
すテキストを構成する。
【0042】この処理システム14は、そのビデオ・デ
ィスプレイ12を駆動させ画像情報はそのフード注文を
示しまたその赤外光リンク10を駆動させ音声信号はこ
のフード注文を表す。この関係係員13はこの画像情報
と音声情報に応答しそのフード注文品を調製しその顧客
41に渡す。本発明の要件に適する全二重赤外光リンク
は、例えば、“ライト−リンク”と呼ばれ米国電話電信
会社から入手可能である。ここで注記する点は無線周波
リンクのようないずれかの無線リンクをこの赤外光リン
ク10の代りに利用できることである。この中央処理装
置18、音声認識エンジン20および音声合成エンジン
22がこの顧客41および/または同伴者41aに送る
適当な応答を導き出すと、この画像エンジン28はその
ビデオ・ディスプレイ36上に表示する映像の詳細を決
めるコマンドをこの中央処理装置18から受信する。
【0043】この画像エンジン28と中央処理装置18
はそのメモリ16に蓄積した生成規則に従う。この生成
規則が文字やバックグラウンド地の選択を決めならびに
シーン構成、空間奥行きおよび文字のかみ合せを決め
る。本発明の利用に適する画像エンジン28は、例え
ば、VPLリサーチとシムグラフィックスのような会社
から入手可能である。この一般的シーンをそのビデオ・
ディスプレイ36上に描画すると、この画像エンジン2
8はその音声合成エンジン22が生成する音声や他の音
声データの意味や内容に従うようその中央処理装置18
のコマンドによってこの文字と画像の動きを操作する。
【0044】例えば、このビデオ・ディスプレイ36上
のシーンが人間の顔から構成されている場合、この口を
その中央処理装置18と画像エンジン28を介して操作
しこのスピーカ32から送出する音声データと同期を取
るように動かす。さらにこの人間の顔の表情表現を同様
に操作しこの音声の意味と内容を補強する。この顧客の
注文の全部を受信すると、このIHIS50はこの現顧
客をこのファースト・フード施設のピックアップ区域
(図示せず)に移動するようプロンプトし、別の顧客の
注文を取扱う準備を整える。自動料金支払いトランザク
ション実施手段は従来周知で、例えば、米国電話電信会
社のディビジョンのグローバル・インフォメーション・
システム(GIS)から入手することができる。
【0045】この自動料金支払い手段はその中央処理装
置18を基盤としこれに結合するマイクロプロセッサで
ある。そこでこの顧客41は、その出来上がり注文品の
ピックアップの前にこのIHIS50と金銭のやりとり
を完了する。顧客によるピックアップの前に蓄積し注文
に応じた注文品を自動的に蓄積し供与する自動蓄積供与
手段は、従来周知で、例えば、レイモンド・コーポレー
ションとロジスチコン・コーポレーションから入手する
ことができる。この自動蓄積供与手段はその中央処理装
置18を基盤としこれに結合するマイクロプロセッサで
あってしたがってそれにより容易に制御される。この関
係係員13がこの注文を処理してしまうと、この関係係
員はこの全注文品をその自動蓄積供与手段のホールデイ
ング手段に置く。
【0046】そこでこの中央処理装置18が現行顧客4
1がその料金支払い義務を満了しその注文品を待ってい
ると決めると、この注文品は供与準備完了である。さら
に、このIHIS50は、電話で顧客のファースト・フ
ード注文の呼出を行い後でピックアップする顧客をも対
処する。このIHIS50は前記と同様にその顧客と通
信するが、ただし応答の一部として映像提供を除外す
る。この対話の際にこのIHIS50はこの顧客の音声
データ・サンプルをそのメモリ16に蓄積する。この顧
客がその注文品をピックアップスルためこのファースト
・フード施設に到着すると、このIHIS50はこの顧
客41と簡単な対話を行い、この顧客がその電話で先に
その注文の呼出を行ったことを認め、ピックアップ用に
準備完了状態の多数の注文品の中の1個の注文品とこの
特定顧客のスペクトル音声特徴をマッチさせる。
【0047】この中央処理装置18は、したがってこの
自動蓄積手段にそれに応じこの注文品を供与するよう命
令する。ここで注記することはこのIHIS50は複数
の遠隔通信インタフェース6を持つことができることで
ある。別の実施の形態例では、これは前記説明から容易
に分ることであるが、遠隔通信インタフェース・モジュ
ール6はこのファースト・フード・レストランの料金支
払い区域や注文品ピックアップ区域に設置することもで
きる。追加の遠隔通信インタフェース・モジュールをこ
のファースト・フードレストランの重要場所に設けて不
要な遅れを回避することができる。例えば、その料金支
払い区域では、顧客は追加アイテムの購入を所望するこ
とができる。この顧客はその料金支払い区域の遠隔通信
インタフェース・モジュールにその顧客の追加注文を通
信することができる。
【0048】さらにまた、料金支払いに関する質問は、
遠隔通信インタフェース・モジュールがその料金支払い
区域にもあって利用可能であると、容易に回答される。
次に将来想定の場合の別の実施の形態例のIHIS50
のコンピュータ・ベース注文取扱い装置について説明す
る。ある顧客41が少なくとも一人の子供の同伴者41
aを同伴しこの遠隔通信インタフェース・モジュール6
にドライブして来る。このIHIS50はそのビデオ・
ディスプレイ36上に人間の顔を送出して“いっらしゃ
いませ、ジョーのバーガー店です。当店のメニューはお
客様のお好みの言葉で書かれているでしょうか?”と発
声し、この顧客41は、“はい、英語で宜しい、ハムバ
ーガが2個とソーダ水が1個を頂きたい”と応答する。
【0049】この顧客41による音声発話の開始におい
て、このIHIS50は、この顧客41の音声がクリア
に受信されその一方でノイズ・ソース62、62aが受
信されないようこの顧客41の顔面に直接そのマイクロ
フォン列34を操作して向ける。この音声データは、そ
の音声認識エンジン20に入力される前にこのマイクロ
フォン・プロセッサ26と音声プロセッサ24のフィル
タ、利得およびオフセットの回路によって処理される。
この音声認識エンジン20の音声認識器70はこの処理
音声データをその語彙文法モデル76を用いてASCI
Iテキストに変換する。このASCIIテキストは、そ
の言語解析器72とエキスパート・システム74に入力
されその意味規則78をアクセスできる確率プログラム
によって特定の概念または概念の集合に関係付けられ
る。
【0050】この概念はこのメモリ16における蓄積概
念の集合から選択される。またこのエキスパート・シス
テム74は出力アクションをその選択概念とマッチさせ
るが、これはその中央処理装置18からこのローカル・
インタフェース・モジュール2の処理システム14へ結
合する。このメモリ16に蓄積されこの中央処理装置1
8によって実行されるフーリエ変換アルゴリズ・プログ
ラムは、この音声認識器70に入力される前にこの音声
データの少なくとも一部の周波数スペクトルを生成す
る。この中央処理装置18は、論理プログラムを用いて
この顧客41または同伴者41aの相対的年齢と性別を
求める。そこでこのIHIS50はこの顧客41のファ
ースト・フード注文と関係する出力アクションおよびこ
の顧客41と同伴者41aの性別と相対的年齢の顧客情
報を得る。
【0051】つまり、出力アクションは、i)2個のハ
ムバーガの調製、 ii)1個のソーダ水の調製、でありさらに、 顧客情報は、i)成人顧客、 ii)女性顧客、 iii)子供同伴者である。 このエキスパート・システム74は、前記出力アクショ
ンと顧客41の顧客情報に基づき適当な応答を導き出
す。この応答は、そのメモリ16のテーブルに一部また
は全部が蓄積されこのエキスパート・システム74によ
ってアクセスされる。この応答はASCIIテキストの
形をしておりその音声合成エンジン22によってディジ
タル音声信号に変換される。
【0052】このディジタル音声信号は、その音声プロ
セッサ24によってフィルタされ増幅されこのスピーカ
32によってこの顧客41に送出される。このIHIS
50は次のように音声と画像でこの顧客に応答する。
“かしこまりました。ただいまお客様の注文を処理して
おります。お客様の料金支払いをされるようこの料金支
払い窓口装置にお進みください。ご注文をありがとうご
ざいました。”この映像はそのメモリ16の蓄積画像を
アクセスする画像エンジン28によって決められる。こ
の画像はそのスピーカ32の音声出力と同期が取られ
る。このローカル・インタフェース・モジュール2の処
理システム14はその関係係員13に所望の出力アクシ
ョンを有効に伝達するフォーマットでこの出力アクショ
ン(ASCIIテキスト)を表示する。
【0053】さらに、この処理システム14内の別の音
声合成エンジン(図示せず)がそのASCIIテキスト
を音声信号に変換してその赤外光リンク10上で送信す
る。この関係係員13は、この顧客41のファースト・
フード注文を示す出力アクションをこのビデオ・ディス
プレイ12を介して読取るまたはこの赤外光リンク10
を介して聴取する。この関係係員13はこの注文品を調
製しこの顧客41がアクセスできるようそれをこの自動
蓄積供与手段(図示せず)に入れる。この顧客41はド
ライブしてその料金支払い窓口に来る。この料金支払い
窓口装置(図示せず)における遠隔通信インタフェース
・モジュールは、“お客様の注文のお値段は5ドル35
セントです、この支払いをお入れください、”のよう
に、この顧客41をプロンプトする。
【0054】この顧客41はその適当な支払いをこの自
動代金支払い装置に入れる。このIHIS50は、“あ
りがとうございました、お客様の注文品をピックアップ
窓口でお受け取りください”のようにこの代金支払いに
応答する。この顧客41はそのピックアップ窓口に移動
し別の遠隔通信インタフェース・モジュール(図示せ
ず)と対面する。このIHIS50は、“お客様のピッ
クアップは、ハムバーグ2個とソーダ水1個ですね?”
と発声し、この顧客は、“はい”と応答する。この自動
蓄積供与手段はこの顧客41にその注文品を出し、この
IHIS50は〓“どうぞ楽しいお食事を、そしてまた
お出でをお待ちしております”のように発声する。
【0055】以上の説明は、本発明の一実施例に関する
もので、この技術分野の当業者でああれば、本発明の種
々の変形例が考え得るが、それらはいずれも本発明の技
術的範囲に包含される。尚、特許請求の範囲に記載した
参照番号は発明の容易なる理解のためで、その技術的範
囲を制限するよう解釈されるべきではない。最後に、以
上の説明において米国特許の第4、741、038号、
第5、007、046号、第4、802、227号およ
び第5、001、701号をここに引例としたことをま
とめて付記する。
【0056】
【発明の効果】以上述べたごとく、本発明により厳しい
ノイズや干渉の存在下でも人間とコンピュータ利用シス
テムとの情報の移動が容易にできる人間−コンピュータ
・インタフェース・システムを提供でき、例えば、ファ
ースト・フード・レストラン施設において従来人間の行
った所望の動作を、例えば、人間の場合に生ずる誤りや
複数の言語の同時発話の障害もなく、好都合に実施でき
有用である。
【図面の簡単な説明】
【図1】本発明のインテリジェント・ヒューマン・イン
タフェース・システム(IHIS)を示すブロック略図
である。
【図2】人間(顧客)と本発明の遠隔(顧客)通信イン
タフェース・モジュールとの間の関係を空間的に示す略
図である。
【図3】本発明の遠隔(顧客)通信インタフェース・モ
ジュールのエレメント位置を示す略図である。
【図4】本発明の2次元のマイクロフォン列を示す略図
である。
【図5】本発明の自動音声認識装置と自然言語解析装置
を示すブロック略図である。
【符号の説明】
2 ローカル・インタフェース・モジュール 4 インタフェース処理モジュール 6 遠隔(顧客)通信インタフェース・モジュール 10 赤外光リンク 12 ビデオ・ディスプレイ 13 関係係員 14 処理システム 16 メモリ 18 中央処理装置 20 音声認識エンジン 22 音声合成エンジン(テキスト音声合成器) 24 音声プロセッサ 26 マイクロフォン・プロセッサ 28 画像エンジン 30 カメラ・プロセッサ 32 スピーカ 34 マイクロフォン列 34a マイクロフォン列 36 ビデオ・ディスプレイ 36a ビデオ・ディスプレイ 36b ビデオ・ディスプレイ 38 ビデオ・カメラ 40 レンジング・システム 41 顧客(音声データ・ソース) 41a 顧客同伴者(音声データ・ソース) 50 インテリジェント・ヒューマン・インタフェース
・システム(IHIS) 60 自動車 62 音声データ・ソース(雑音ソースおよび/または
干渉ソース) 62a 音声データ・ソース(雑音ソースおよび/また
は干渉ソース) 70 音声認識器 72 自然言語解析器 74 エキスパート・システム 76 語彙文法モデル 78 意味規則 79 発音規則
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/00 561 G H04N 7/173 7/18 A H04R 3/00 310 320 (72)発明者 ゲイリー ダブリュー.エイコ アメリカ合衆国,07901 ニュージャージ ー, サミット,ブラックバーン プレイ ス 26 (72)発明者 トーマス ピー.マーシャル アメリカ合衆国,07461 ニュージャージ ー, ウォンテッジ,284 ステイト ハ イウェイ 427 (72)発明者 ロバート アール.ミラー アメリカ合衆国,07960 ニュージャージ ー, コンヴェント ステイション,ブラ ッドリー ロード 12

Claims (31)

    【特許請求の範囲】
  1. 【請求項1】 第1の位置(図3)において音声情報を
    コンピュータ利用システム(50)から顧客(41、4
    1a)へまた顧客からコンピュータ利用システムへ送出
    し受入する送出受入手段(6)と、 第2の位置において前記受入音声情報を処理し前記送出
    音声情報を生成する処理生成手段(4)と、を有し、 前記送出受入手段は、さらに、スピーカ(32)と少な
    くとも1個のビーム制御可能なマイクロフォン列(3
    4、34a)を有することを特徴とするコンピュータと
    顧客との通信インタフェース・システム。
  2. 【請求項2】 前記少なくとも1個のマイクロフォン列
    は、多次元のビーム制御可能な音声受入アレイ、2次元
    のエレクトレット・マイクロフォン列、2次元のビーム
    形成スピーカ列のいずれかであることを特徴とする請求
    項1に記載の通信インタフェース・システム。
  3. 【請求項3】 前記送出受入手段は、さらに、適応形ス
    ピーカフォン・システム、音響エコー消去システムのい
    ずれかを有することを特徴とする請求項1に記載の通信
    インタフェース・システム。
  4. 【請求項4】 前記受入音声情報を処理し前記送出音声
    情報を生成する前記処理生成手段は、自然言語認識器
    (20、70)を有し、前記自然言語認識器は顧客音声
    の概念内容を決める手段を提供する確率ベースの隠れマ
    ルコフ・モデルを有することを特徴とする請求項1に記
    載の通信インタフェース・システム。
  5. 【請求項5】 前記受入音声情報を処理する前記処理手
    段は、さらに、その顧客の相対的年齢と性別を決定する
    手段を有することを特徴とする請求項1に記載の通信イ
    ンタフェース・システム。
  6. 【請求項6】 前記顧客の相対的年齢と性別を決定する
    前記手段は前記顧客の相対的年齢と性別の決定において
    フーリエ変換ベース・アルゴリズムを有することを特徴
    とする請求項5に記載の通信インタフェース・システ
    ム。
  7. 【請求項7】 前記受入音声情報を処理する前記処理手
    段は、さらに、前記顧客の好ましい言語を決定する手段
    を有することを特徴とする請求項1に記載の通信インタ
    フェース・システム。
  8. 【請求項8】 前記送出音声情報を生成する前記生成手
    段は、前記顧客の音声のコンピュータ導出概念に基づき
    適当な音声応答を決定する手段を提供するエキスパート
    ・システム(74)を有することを特徴とする請求項1
    に記載の通信インタフェース・システム。
  9. 【請求項9】 前記エキスパート・システムは、さら
    に、その顧客の相対的年齢と性別に基づき適当な音声応
    答を決定する手段を提供することを特徴とする請求項1
    1に記載の通信インタフェース・システム。
  10. 【請求項10】 第1の位置において音声と画像の音声
    ・画像情報をコンピュータ利用システムから顧客へまた
    顧客からコンピュータ利用システムへ送出し受入する送
    出受入手段と、 第2の位置において前記受入情報を処理し前記音声・画
    像送出情報を生成する処理生成手段とを有し、 前記送出受入手段は、さらに、スピーカとビデオ・カメ
    ラ(38)と少なくとも1個のビーム制御可能なマイク
    ロフォン列を有することを特徴とするコンピュータと顧
    客との通信インタフェース・システム
  11. 【請求項11】 前記少なくとも1個のマイクロフォン
    列は多次元のビーム制御可能な音声受入アレイ、2次元
    のエレクトレット・マイクロフォン列、2次元のビーム
    形成スピーカ列のいずれかであることを特徴とする請求
    項10に記載の通信インタフェース・システム。
  12. 【請求項12】 前記送出受入手段は、適応形スピーカ
    フォン・システム、音響エコー消去システムのいずれか
    を有することを特徴とする請求項10に記載の通信イン
    タフェース・システム。
  13. 【請求項13】 前記送出受入手段は、ビデオ・カメラ
    とレンジング・システム(40)を有し、前記レンジン
    グ・システムはその顧客の空間位置を自動的に決定する
    手段を提供することを特徴とする請求項10に記載の通
    信インタフェース・システム。
  14. 【請求項14】 前記レンジング・システムを前記ビデ
    オ・カメラに結合し、前記レンジング・システムが前記
    顧客の像を取込むよう前記ビデオ・カメラの焦点合せと
    方向を自動的に制御することを特徴とする請求項13に
    記載の通信インタフェース・システム。
  15. 【請求項15】 前記レンジング・システムは少なくと
    も1個のビーム制御可能なマイクロフォン列を有するこ
    とを特徴とする請求項13に記載の通信インタフェース
    ・システム。
  16. 【請求項16】 前記受入音声・画像情報を処理し前記
    送出音声・画像情報を生成する前記処理生成手段は、自
    然言語認識器を有し、前記自然言語認識器は顧客音声の
    概念内容を決める手段を提供する確率ベースの隠れマル
    コフ・モデルを有することを特徴とする請求項10に記
    載の通信インタフェース・システム。
  17. 【請求項17】 前記受入音声・画像情報を処理する前
    記処理手段は、さらに、その顧客の相対的年齢と性別を
    決定する手段を有することを特徴とする請求項10に記
    載の通信インタフェース・システム。
  18. 【請求項18】 前記顧客の相対的年齢と性別を決定す
    る前記手段は前記顧客の相対的年齢と性別の決定におい
    てフーリエ変換ベース・アルゴリズムを有することを特
    徴とする請求項17に記載の通信インタフェース・シス
    テム。
  19. 【請求項19】 前記受入音声・画像情報を処理する前
    記処理手段は、さらに、前記顧客の好ましい言語を決定
    する手段を有することを特徴とする請求項10に記載の
    通信インタフェース・システム。
  20. 【請求項20】 前記送出音声・画像情報を生成する前
    記生成手段は前記顧客の音声のコンピュータ導出概念に
    基づき適当な音声と画像の音声・画像応答を決定する手
    段を提供するエキスパート・システムを有することを特
    徴とする請求項10に記載の通信インタフェース・シス
    テム。
  21. 【請求項21】 前記エキスパート・システムは、さら
    に、その顧客の相対的年齢と性別に基づき適当な音声と
    画像の音声・画像応答を決定する手段を提供することを
    特徴とする請求項20に記載の通信インタフェース・シ
    ステム。
  22. 【請求項22】 前記送出画像情報は少なくとも1個の
    顧客外観画像を有し、前記外観画像は前記送出音声情報
    によって口の動きと顔の表情を提供することを特徴とす
    る請求項10に記載の通信インタフェース・システム。
  23. 【請求項23】 前記送出画像情報は、さらに、少なく
    とも1個の顧客外観画像を有し、前記外観画像は前記受
    入音声情報によって口の動きと顔の表情を提供すること
    を特徴とする請求項28に記載の通信インタフェース・
    システム。
  24. 【請求項24】 前記送出画像情報は、さらに、その顧
    客による選択のためのアイテム・メニューを有すること
    を特徴とする請求項10に記載の通信インタフェース・
    システム。
  25. 【請求項25】 前記アイテム・メニューは複数の言語
    の中の1個の言語での送出のための利用可能なアイテム
    ・メニューであることを特徴とする請求項10に記載の
    通信インタフェース・システム。
  26. 【請求項26】 前記複数の言語のなかの1個の言語を
    その顧客の好ましい言語に基づき自動的に選択すること
    を特徴とする請求項25に記載の通信インタフェース・
    システム。
  27. 【請求項27】 前記通信インタフェース・システム
    は、さらに、ローカル・インタフェース・モジュール
    (2)を有し、前記ローカル・インタフェース・モジュ
    ールはその顧客の音声のコンピュータ導出概念から得ら
    れた少なくとも1個の出力アクションの画像表現を表示
    する手段を提供することを特徴とする請求項10に記載
    の通信インタフェース・システム。
  28. 【請求項28】 前記ローカル・インタフェース・モジ
    ュールは、処理システム、ビデオ・ディスプレイ、音声
    トランスミッタおよび音声レシーバを有し、前記音声ト
    ランスミッタと前記音声レシーバは、前記出力アクショ
    ンの音声表現を関係係員に提供するようそのコンピュー
    タ利用システムと前記関係係員間に音声リンク(10)
    を提供することを特徴とする請求項27に記載の通信イ
    ンタフェース・システム。
  29. 【請求項29】 前記音声トタンスミッタと前記音声レ
    シーバ間の前記音声リンクは、赤外光リンクあるいは無
    線周波リンクのいずれかであることを特徴とする請求項
    30に記載の通信インタフェース・システム。
  30. 【請求項30】 選択したアイテムを自動的に蓄積し供
    与する手段をさらに有することを特徴とする請求項10
    に記載の通信インタフェース・システム。
  31. 【請求項31】 選択したアイテムに対する代金支払い
    を自動的に受容する手段をさらに有することを特徴とす
    る請求項10に記載の通信インタフェース・システム。
JP7209324A 1994-07-28 1995-07-26 通信インタフェース・システム Pending JPH08106374A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US28189494A 1994-07-28 1994-07-28
US281894 1999-03-31

Publications (1)

Publication Number Publication Date
JPH08106374A true JPH08106374A (ja) 1996-04-23

Family

ID=23079216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7209324A Pending JPH08106374A (ja) 1994-07-28 1995-07-26 通信インタフェース・システム

Country Status (3)

Country Link
EP (1) EP0694833A1 (ja)
JP (1) JPH08106374A (ja)
CA (1) CA2151073A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124086A (ja) * 1996-10-25 1998-05-15 Meidensha Corp 音声対話システム
JPH10179941A (ja) * 1996-10-21 1998-07-07 Junji Kuwabara 音声認識および音声発生装置、および、該音声認識および音声発生装置を備えた玩具、ならびに、音声認識および音声発生制御プログラムを記録した記録媒体
US6118460A (en) * 1997-02-07 2000-09-12 Nec Corporation Virtual pseudo-human figure generating system
JP2009522845A (ja) * 2005-12-30 2009-06-11 タンベルグ テレコム エーエス サーチ可能なマルチメディア・ストリーム
JP2016021650A (ja) * 2014-07-14 2016-02-04 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19626774A1 (de) * 1996-07-03 1997-10-23 Siemens Ag Wartensystem
DE59709213D1 (de) * 1996-07-12 2003-03-06 Siemens Ag Anordnung und Verfahren zur Aktivierung und Deaktivierung einer rechnergestützten Anwendung
US6026376A (en) * 1997-04-15 2000-02-15 Kenney; John A. Interactive electronic shopping system and method
US6256046B1 (en) * 1997-04-18 2001-07-03 Compaq Computer Corporation Method and apparatus for visual sensing of humans for active public interfaces
DE69830295T2 (de) 1997-11-27 2005-10-13 Matsushita Electric Industrial Co., Ltd., Kadoma Steuerungsverfahren
DE19752907C2 (de) * 1997-11-28 2002-10-31 Egon Stephan Verfahren zur Führung eines Dialogs zwischen einem einzelnen oder mehreren Nutzern und einem Computer
DE19938897B4 (de) * 1999-08-17 2006-09-14 Easytek Software Gmbh Interaktives Bedienterminal sowie Verfahren zum Betreiben eines solchen
AT409311B (de) * 2000-03-16 2002-07-25 Tbt Tech Buero Elektronik Gmbh System zur fernbonierung von bestellungen
CH702399B1 (fr) 2009-12-02 2018-05-15 Veovox Sa Appareil et procédé pour la saisie et le traitement de la voix.
US8553906B2 (en) * 2010-02-02 2013-10-08 Creative Technology Ltd Apparatus for enabling karaoke
KR102580418B1 (ko) * 2017-02-07 2023-09-20 삼성에스디에스 주식회사 어쿠스틱 에코 제거 장치 및 방법
US20220089424A1 (en) * 2020-09-24 2022-03-24 Soykan DIRIK Automated beverage dispensing system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4485484A (en) * 1982-10-28 1984-11-27 At&T Bell Laboratories Directable microphone system
US4741038A (en) 1986-09-26 1988-04-26 American Telephone And Telegraph Company, At&T Bell Laboratories Sound location arrangement
US4802227A (en) 1987-04-03 1989-01-31 American Telephone And Telegraph Company Noise reduction processing arrangement for microphone arrays
US5007046A (en) 1988-12-28 1991-04-09 At&T Bell Laboratories Computer controlled adaptive speakerphone
US5001701A (en) 1989-08-07 1991-03-19 At&T Bell Laboratories Subband echo canceler including real time allocation among the subbands
DE69232407T2 (de) 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10179941A (ja) * 1996-10-21 1998-07-07 Junji Kuwabara 音声認識および音声発生装置、および、該音声認識および音声発生装置を備えた玩具、ならびに、音声認識および音声発生制御プログラムを記録した記録媒体
JPH10124086A (ja) * 1996-10-25 1998-05-15 Meidensha Corp 音声対話システム
US6118460A (en) * 1997-02-07 2000-09-12 Nec Corporation Virtual pseudo-human figure generating system
JP2009522845A (ja) * 2005-12-30 2009-06-11 タンベルグ テレコム エーエス サーチ可能なマルチメディア・ストリーム
JP2016021650A (ja) * 2014-07-14 2016-02-04 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム
US9641928B2 (en) 2014-07-14 2017-05-02 Panasonic Intellectual Property Management Co., Ltd. Microphone array control apparatus and microphone array system

Also Published As

Publication number Publication date
EP0694833A1 (en) 1996-01-31
CA2151073A1 (en) 1996-01-29

Similar Documents

Publication Publication Date Title
JPH08106374A (ja) 通信インタフェース・システム
CN113056925B (zh) 声源位置检测的方法和装置
JP3697748B2 (ja) 端末、音声認識装置
US7136814B1 (en) Syntax-driven, operator assisted voice recognition system and methods
US7110963B2 (en) Point-of-sale customer order system utilizing an unobtrusive transmitter/receiver and voice recognition software
US10685652B1 (en) Determining device groups
Rabiner Applications of voice processing to telecommunications
US7392188B2 (en) System and method enabling acoustic barge-in
TW396699B (en) Communication device responsive to spoken commands and method of using same
US6671668B2 (en) Speech recognition system including manner discrimination
CN109074806A (zh) 控制分布式音频输出以实现语音输出
US20080059188A1 (en) Natural Language Interface Control System
CN109286875A (zh) 用于定向拾音的方法、装置、电子设备和存储介质
CN101542591A (zh) 用于提供语音识别的方法和系统
EP0398574A3 (en) Speech recognition employing key word modeling and non-key word modeling
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
US7167544B1 (en) Telecommunication system with error messages corresponding to speech recognition errors
EP1726154A2 (en) Method and apparatus for voice interactive messaging
CN111883135A (zh) 语音转写方法、装置和电子设备
CN116417003A (zh) 语音交互系统、方法、电子设备和存储介质
WO2002021090A1 (en) A point-of-sale commercial transaction processing system using artificial intelligence assisted by human intervention
US20030163309A1 (en) Speech dialogue system
JPH05130700A (ja) オーデイオ信号出力装置
KR101145401B1 (ko) 로봇의 음성인식 성능 평가장치 및 평가 방법
EP1185976B1 (en) Speech recognition device with reference transformation means