JP3998724B2 - 対話式装置 - Google Patents
対話式装置 Download PDFInfo
- Publication number
- JP3998724B2 JP3998724B2 JP52441798A JP52441798A JP3998724B2 JP 3998724 B2 JP3998724 B2 JP 3998724B2 JP 52441798 A JP52441798 A JP 52441798A JP 52441798 A JP52441798 A JP 52441798A JP 3998724 B2 JP3998724 B2 JP 3998724B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- signal
- user
- input
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000002452 interceptive effect Effects 0.000 title claims description 24
- 238000001228 spectrum Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 2
- 230000003750 conditioning effect Effects 0.000 claims 2
- 230000001143 conditioned effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 238000002592 echocardiography Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q1/00—Details of selecting apparatus or arrangements
- H04Q1/18—Electrical details
- H04Q1/30—Signalling arrangements; Manipulation of signalling currents
- H04Q1/44—Signalling arrangements; Manipulation of signalling currents using alternate current
- H04Q1/444—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
- H04Q1/46—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/38—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
- H04M3/382—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Communication Control (AREA)
Description
近年、増加しつづけている日々の電話との対話はオートメーション化され、人間のオペレータが対話を進める必要はなくなった。
オートメーション化された最初の対話の1つは単に、呼を取るためにその場にいなかった被呼者にメッセージを残しておくものであった。最近、より複雑なサービス、例えばテレフォンバンキング(telephone banking)、ディレクトリ照会、ダイヤルアップ方式の列車時間表照会もオートメーション化されている。現在多くの留守番電話ではこれに加えて、電話の所有者が留守番電話装置に電話をかけて、残されたメッセージを聞ける機能を提供している。現在、オートメーション化された別のサービスには、記憶されたeメールメッセージを電話で読取るものがある。
上述の各場合では、事実、ユーザは発話形式の対話を、例えば対話式装置、ユーザが使用している電話装置、および公衆交換電話網の素子を含む装置で実行する。
発話形式の対話では、留守番電話は、ユーザが中断(割込み)できると、ときに有益である。例えば、ユーザがプロンプトの途中でどの情報が要求されるかを予期できるとき、ユーザは中断したくなることがある。中断を可能にする機能(当業者には“割込み(baege in)機能として知られている)は、ユーザは介入してくる邪魔なメッセージを聞かずに別のメッセージに移ることができる場合にはメッセージ再生装置(例えば、留守番電話)と比較してはるかに望ましい。
対話式装置からの出力の何がしかがユーザのコマンドを受取る入力へフィードバックするときには、割込み機能を備えることは一層困難になる。このフィードバックは、対話式装置から送られた音声表示信号が入力へ送り返される場合に、例えば電話網内のジャンクションにおいて生じる。フィードバックはまた、ユーザの電話装置のスピーカからマイクロフォンへ戻される言語出力の音響エコーによっても生じる(これはハンドフリーの動作に関してとくに問題がある)。したがってユーザ入力からフィードバック出力信号を区別することが、従来可能であったよりも確実な割込み機能を提供するのに必要である。
本発明にしたがって、対話式装置であり:
動作時に処理を加えた言語を表す信号を出力するようにされている信号出力手段と;
動作時にユーザが発話したコマンドを表す信号を受取るようにされている信号入力手段と;
処理を加えられた言語が言語内に通常存在する成分を欠いており;
処理を加えられた言語に欠けている成分を含む言語を表す信号入力を検出することによって、処理を加えられた言語の生成中に話されたユーザのコマンドを検出するように動作するコマンド検出手段とを含む対話式装置を提供する。
このような装置を提供する長所は、ユーザのコマンドの存在をさらによく検出できることである。認識器が解析している音声信号が何等かの経過で損なわれるときに、認識器の動作が著しく衰えるので、本発明は従来の言語認識器を使用する装置に関してはとくに有益である。対話式装置では、対話式装置の出力のエコーによって生じる歪みがユーザのコマンドを歪めることがある。本発明は、ユーザの応答を検出するとすぐに、この装置が音声表示信号または言語の出力を停止できるようにすることによってこの問題を緩和する。
ある実施形態では、この装置はさらに対話式装置によって出力される言語を表す信号を処理するための手段をさらに含む。記録された言語の品質は従来のシンセサイザ(合成器)によって合成された言語の品質よりもよいので、多くの通常の対話式装置は、頻繁に使用されるダイヤログの一部に記録された言語を使用する。しかしながら、種々の電話番号または金額についての話し言葉のバージョンを表す信号を出力することが求められているような装置では、全ての可能性のある出力を発話形式で記録することは現在のところ実際的ではない。したがって、このような出力は必要となる場合に合成される。記録された言語信号に予め処理できて、言語信号を記録するときに前記成分を欠くようにすることができる。したがって、全ての出力が記録された言語である装置は、対話式装置によって出力される言語を表す信号を処理するための手段は必要ない。このような装置は、構成上の複雑さが緩和され、したがって廉価に製造できるという明らかな長所をもつ。
好ましくは、前記欠けている成分は周波数スペクトルの1または複数の部分から成る。この長所は、装置を構成し易いということである。
周波数スペクトルの一部が1000Hz乃至1500Hz内であるとき、この装置は最も効果的であることがわかっている。
好ましいのは、周波数帯域幅は80Hz乃至120Hzである。周波数帯域幅が120Hzよりも大きいときは、ユーザが聞く出力は著しく損なわれ、周波数帯域幅が80Hzよりも小さいときは、対話式装置の出力を処理することはさらに困難になり、加えてユーザが話している状態とユーザが話していない状態とを区別するのは一層難しくなることがわかっている。
本発明の第2の態様にしたがって、対話式装置に向ってユーザが発話したコマンドを検出する方法であり:
ユーザが発話したコマンド内に通常含まれている成分を欠いている処理された言語を表す信号を出力する段階と;
前記成分を含む言語を表す信号の存在に対して対話式装置へ入力される信号を監視する段階と;
前記成分を含む言語を表す信号の存在を検出したときに、ユーザが発話したコマンドを入力信号が表すと判断する段階とを含む方法を提供する。
本発明の第3の態様にしたがって、音声制御可能な装置であり:
本発明の第1の態様にしたがう対話式装置と;
処理された言語表す前記信号を処理された言語に変換する手段と;
ユーザが発話したコマンドをそれを表す信号に変換する手段とを含む音声制御可能な装置を提供する。
本発明によって取扱うことができる問題は、直接音声制御の(すなわち、中間の通信ネットワークがない)装置に関しても生じる。したがって本発明の第3の実施形態は、とりわけ対話式音声制御を行なう家庭用および業務用装置、例えばパーソナルコンピュータ、テレビジョン、ビデオレコーダを含む。
ここで、次に本発明の特定の実施形態を詳しく記載する。この実施形態は添付の図面を引用して例示的に記載する:
図1は、通信ネットワークにインストールされた自動テレフォンバンキング(電話銀行業務)装置(automated telephone banking apparatus)の一部の機能ブロック図である;
図2は、この装置を初めて使用するユーザとの会話の進行を表すフローチャートである;
図3は、経験をもつユーザとの同じ会話の進行を表すフローチャートである;
図4Aは、ユーザの音声スペクトルを示す;
図4Bは、この装置によって出力される信号スペクトルを示す;
図4Cは、この装置の出力のエコーによって損なわれるユーザの音声スペクトルを示す。
図1は、自動テレフォンバンキングサービスを提供するときに使用される信号処理ユニットを示す。実際には、言語処理ユニットはFFDI(ファイバ分配データインターフェイス)ローカルエリアネットワークによって多数の他のユニット、例えば電話シグナリングユニット、大型のデータベース機能を備えるファイルサーバユニット、補助バックアップおよびデータ収集ユニット、並びに素子管理ユニットに接続されることになる。このようなサービスを提供する適切な装置は、Ericsson Ltd.によって製造された対話式言語応用プラットフォームである。
言語処理ユニット(図1参照)は、ディジタルラインインターフェイス10を介して遠隔通信ネットワークにインターフェイスしている。ディジタルラインインターフェイスは、遠隔通信ネットワークからユーザの音声を表すディジタル信号を入力し、このディジタル信号を信号処理ユニット20へ出力する。ディジタルラインインターフェイス10はさらに、信号処理ユニット20から装置によって出力される発話されたメッセージを表す記号を入力し、ネットワークへこの信号を出力する前に信号を遠隔通信ネットワーク上で送るのに適した形に変更する。ディジタルラインインターフェイス10は多数の到来信号および出力信号を同期して処理することができる。
信号処理ユニット20は、ディジタルラインインターフェイス10からユーザの音声を表す修正を加えた信号を入力し、ディジタルラインインターフェイス10を介してユーザにされた応答を表す信号を出力する前に、ダイヤログ(会話)制御装置30の制御のもとで信号に対して一連の動作を行なう。信号処理ユニット20は、4つの出力プロセッサ25、26、27、28および2つの入力プロセッサ21、22を含む。
記録された言語出力プロセッサ25は、この装置によって頻繁に出力される、プロセッサ内に記憶された多数のメッセージの1つを表す信号を出力するようにされている。出力される特定のメッセージは、ダイヤログ制御装置30から供給されるパラメータにしたがって決定される。言語合成プロセッサ26を使用して、合成された言語を表すディジタル信号を出力する。発話されたメッセージの内容はダイヤログ制御装置30によって決定され、ダイヤログ制御装置30は発話されたメッセージの内容を表すアルファ数字データを言語合成プロセッサ26へ送る。
言語合成器26によって出力される信号は、ディジタルノッチフィルタ27へ入力される。以下に記載する理由のために、フィルタ27は、1200Hz乃至1300Hzの周波数帯域内に位置する合成された信号の成分を取除くようにされている。言語合成器26およびディジタルノッチフィルタ27は別々のプロセッサとして示されているが、2つの機能は単一のプロセッサ上に準備できることが当業者に認識されるであろう。
記録された言語プロセッサ25内に記憶されたメッセージは、ディジタルノッチフィルタ27と類似の転送機能をもつフィルタを使用して記録される。したがって、言語合成プロセッサ26の出力は図4Aに示したスペクトルに類似したスペクトルをもち、ディジタルノッチフィルタ27または記録された言語プロセッサ25の出力は図4Bに実線によって示したスペクトルに類似したスペクトルをもつことができる。
フィルタ27および記録された言語プロセッサ25の出力はメッセージ生成装置28へ送られ、メッセージ生成装置28では、合成された部分と記録された言語部分の両方をもつメッセージにおいて、メッセージの2つの部分を結合し、結合されたメッセージをディジタルラインインターフェイス10を介してユーザへ出力する。
2つの入力信号プロセッサは入力信号解析器21および言語認識器22である。
入力入力言語解析器21は、ディジタルラインインターフェイス10からユーザの音声を表す記号を受取り、それを1200Hz乃至1300Hzに及ぶ通過帯域をもつ帯域フィルタへ送る。その後、入力信号解析器は、帯域フィルタの出力と閾値Tとを比較する(図4参照)。通過帯域内の信号強度が閾値よりも高いとき、入力信号解析器は信号がそれに入力されたという事実によりユーザの音声を含むことを示す“ユーザが存在する”信号23を出力する。他方で、通過帯域内の信号強度が閾値より低いとき、解析器は、信号解析器21への信号入力がユーザの音声を含まないことを示す変形された信号23を出力する。
到来する発話を表す信号はさらに言語解析器22へも入力され、言語解析器22はダイヤログ制御装置30によって可能性の高い受領可能な応答を供給される。ユーザが存在します信号23は、ユーザの音声が入力信号内に含まれることを示していて、言語認識器は、そのユーザが発話している現在の単語を認識するように試みて、ダイヤログ制御装置30へその結果を出力する。
次にダイヤログ制御装置30はそれを制御するソフトウエアにしたがってユーザによって発話された単語に応答し、出力プロセッサを制御して、ユーザに適切な応答を与える。
自動テレフォンバンキング装置とこの装置を取扱ったことのないユーザとの間のダイヤログ(会話)(図2参照)は、ユーザが装置の電話番号をダイヤルすることによって開始される。ユーザがこの装置に接続されると、ダイヤログ制御装置30は記録された言語のプロセッサ25に命令して、挨拶メッセージ(welcome message)R1、そのすぐ後に口座番号要求プロンプトR2を出力する。上述のように、記録された言語のプロセッサ25内に記憶された全ての記録されたメッセージおよびプロンプトは記録されたものであるから、図4Bに実線によって示されているスペクトルに類似したスペクトルをもつ。図4Bには、記録されたメッセージのスペクトルは1200Hz乃至1300Hzの間の周波数をもつ成分を欠いているが、それ以外は正常である。メッセージを出力するとき、メッセージ内のエコーが入力信号プロセッサ21、22に逆戻りして受取られる場合がある。スペクトルは反射プロセスによってわずかに変化することがあるが、反射プロセスは出力信号内に存在しなかった周波数を導入することはないので、周波数帯域1200Hz乃至1300Hz内の周波数は導入しない。それにも関わらず、あるノイズは出力信号に付加され、一方で出力信号プロセッサ25、26、27、28から入力信号プロセッサ21、22へ送られる可能性が高い。したがって、エコーのスペクトルは図4Bに破線で示されているスペクトルに類似していてもよい。
再び図1において、プロンプトR2のエコーは入力信号解析器21で受取られ、ここで帯域フィルタで処理され(通過帯域は1200Hz乃至1300Hzに及ぶ)、生成された信号は閾値Tと比較される。送出しているプロンプトのエコーは周波数帯域1200Hz乃至1300Hz内に重要な成分を含まないので、信号は閾値よりも低く、入力信号解析器21は、プロンプトR2の継続期間全体でユーザが発話していないことを示す信号23を出力する。
次にユーザは、自分の電話装置でDTMF(デュアルトーンマルチフレケンシー)を使用して口座番号を入力することに進む。これらのトーンは言語認識器22によって受取られ、言語認識器22はトーンを数値データに変換し、それらをダイアログ制御装置30へ送る。次にダイヤログ制御装置30は、FDDIローカルエリアネットワーク上に備えられた顧客データベースファイルサーバへ口座番号を送る。次にファイルサーバは、この口座に対して何れのサービスが利用可能とされているかを示すデータおよび顧客に関する他のデータ、例えば個人識別番号(PIN)を戻す。図2および3には示されていないが、システムは顧客に口座番号を要求した直後にPINを入力するように命令する。
ダイヤログ制御装置30は記録された言語プロセッサ25に命令して、“TRANSFER(振替)”という言葉を発話する前にユーザが聞くサービスの種類を要求するプロンプトR3を出力する。ユーザの音声は、図4Aに示したスペクトルに類似したスペクトルであってもよい。ユーザの音声を表す信号がユーザ入力解析器21へ送られるとき、信号は周波数帯域1200Hz乃至1300Hzに重要な成分を含むので、解析器21の入力は、ユーザが言語認識器22に対して発話していることを示す信号23を出力する。言語認識器22は、現在装置へ入力されている言葉が“TRANSFER”であることを認識し、この“TRANSFER”という単語がダイヤログ制御装置30に受取られる言葉であることを示す信号を送る。
この応答を受取った結果として、次にダイヤログ制御装置30は記録された言語プロセッサ25に命令して、ユーザが振り替えたい金額をユーザに質問するプロンプトを出力する。次にユーザは振り替えたい金額を言って応答する。この情報の発話式エントリは電話装置のキーパッドからの情報よりも潜在的に一層確実である。その理由はDTMFトーンを入力したときに間違えると、ユーザが振り替えたいだいたいの程度である金額の送金を要求することになるからである。
次にユーザの応答は言語認識器22によって処理され、ユーザから振り換えるように要求した金額(この場合は316.17ポンド)を示すデータはダイヤログ制御装置30へ送られる。次にダイヤログ制御装置30は記録された言語プロセッサ25に命令して、記録された言語メッセージ、“I heard((次のように)聞きました)”および“is that correct?(よろしいですか)”をメッセージ生成装置28へ送る。次にダイヤログ制御装置30は言語合成器26へ命令して、発話された316.17ポンドを合成する。合成されたこれらの言葉は言語合成器26によって出力され、図4Aに示したスペクトルに類似したスペクトルをもつ。次に信号は、ディジタルノッチフィルタ27へ送られ、図4Bに実線で示したスペクトルに類似したスペクトルをもって出力される。次に変形された合成メッセージはメッセージ生成装置28へロードされる。
次にメッセージ生成装置28は、2つの記録された言語メッセージと合成された言語メッセージとを結合して、プロンプトR5を準備する。プロンプトR5ではディジタルラインインターフェイス10を介してユーザへ出力される。その後ダイヤログは継続する。
システムに詳しいユーザは、図3に示したダイヤログを実行することができる。ダイヤログの最初の部分は図2に関して記載したダイヤログと一致しているが、プロンプトR2が要求しているように、電話装置のキーパッドを使用して自分の口座番号を入力するときに、ユーザが口座番号の入力を中断した後は異なる。電話装置によって出力されたDTMFトーンは、言語認識器22へ入力され、言語認識器22はDTMFトーンをデータを表す口座番号に変換し、このデータをダイヤログ制御装置30へ送る。ダイヤログ制御装置30がこのデータを受取るとすぐに、信号を記録された言語プロセッサ25へ送り、プロンプトR2で要求される口座番号の出力を停止する。明らかに、装置がプロンプトR2を送出することを止めると、プロンプトのエコーは装置へ送り戻されない。したがって、言語認識器は干渉エコーが存在しなくてもユーザによって入力される他のDTMFトーンを認識できる。
次にダイヤログは、ユーザが“TRANSFER”という言葉を発話することによってサービスを要求するプロンプトR3を中断するまで続く。メッセージR3の最初の2つの単語で、入力信号解析器21は信号23を出力して、ユーザの音声が存在していないことを示すことが認識されることになる。しかしながら、ユーザが出力メッセージを中断すると、装置で受取られる信号はユーザの音声と出力しているプロンプトのエコーとの組合わせになる。この組合わせ信号のスペクトルは、ユーザの音声のみのスペクトルに類似しているが(図4A参照)、エコー信号のスペクトルは1200Hz乃至1300Hzの成分を欠いているので、1200Hz乃至1300Hzに小さいノッチを含むことを特徴とする(図4C参照)。
組合わせ信号は入力信号解析器21へ送られ、ここから帯域フィルタへ送られ、周波数範囲1200Hz乃至1300Hz内に重要な成分を含むことがわかる。したがって入力信号解析器21は信号23(ユーザの音声が存在することを示す)を言語認識器22とダイヤログ制御装置23の両方へ出力する。信号23を受取ると、ダイヤログ制御装置30は記録された言語プロセッサ25に命令して、プロンプトR3の出力を停止する。するとすぐに、プロンプトのエコーは言語認識器22で受取った信号に対する成分でなくなり、認識器は、ユーザが現在話している単語をよりよく認識することができる。ユーザの応答は認識されると、ダイヤログ制御装置30へ送られる。
その後、ユーザは、サービスを要求するプロンプトR3を中断するのに似たやり方で次の2つのダイヤログのプロンプトを中断する。
上述の実施形態において、予め処理を加えられ、発話されたプロンプトに欠けている成分は周波数スペクトルの一部を含むことであることが認識されるであろう。しかしながら、他の成分が欠けていることも認識される。例えば、短い継続期間の時間スロット(例えば、1乃至5ms)は規則正しい時間間隔(例えば20乃至100ms)で発話されたプロンプトから取り除くことができる。例えば言語が8kHzでディジタル形式でサンプリングされるとき、これは160乃至800サンプルの間隔で8乃至40サンプルをゼロ値に設定することによって達成できる。特定の値を取るために、信号から400サンプルの間隔で20サンプルを取って、入力信号解析器が800サンプルの受取った信号の継続期間中に対応するサイレンス(silence、無音)またはサイレンスに近いもの(near silence)(すなわち、音量が所定の閾値よりも低いもの)を検出しなかったとき、ユーザが発話していることを示す信号を出力できるように、入力信号解析器を設定できる。
ユーザは“割込み”機能により取引をさらに迅速に実行できることが分かるであろう。さらに重要なことは、このやり方で装置によって出されるプロンプトを中断できることにより、ユーザはダイヤログの制御が一層可能になったと感じることである。
Claims (10)
- 対話式装置であって、
動作時に処理を加えられた言語を表す記号を出力するようにされている信号出力手段と、
動作時にユーザが発話したコマンドを表す信号を受取るようにされている信号入力手段と、
なお、処理を加えられた言語は言語内に通常存在する成分を欠いており、該欠けている成分が前記言語信号の複数の隔った短い時間セグメントを含み、
処理を加えられた言語を欠けている成分を含む言語を表す信号入力を検出することによって、処理を加えられた言語の生成中に話されたユーザのコマンドを検出するように動作するコマンド検出手段と、を含む対話式装置。 - 言語を表す信号に条件を付けて、処理を加えられた言語を表す前記信号を準備する手段をさらに含む請求項1記載の装置。
- 前記処理を加える手段がディジタルフィルタを含む請求項2記載の装置。
- 欠けている成分が周波数スペクトルの1または複数の部分を含む請求項1乃至3の何れか1項記載の装置。
- 前記部分の幅が、範囲80Hz乃至120Hz内に含まれている請求項4に記載の装置。
- 音声制御可能な装置であって、
請求項1乃至5の何れか1項記載の対話式装置と、
処理を加えられた言語を表す前記信号を処理を加えられた言語に変換する手段と、
ユーザが発話したコマンドをそれを表す信号に変換する手段と、を含む音声制御可能な装置 - 対話式装置に対するユーザが発話したコマンドを検出する方法であって、
ユーザーが発話したコマンド内に通常含まれている成分を欠いている処理を加えられた言語を表す信号を出力する段階であって、該欠けている成分が前記言語信号の複数の隔った短い時間セグメントを含むものと、
前記成分を含む言語を表す信号の存在に対して対話式装置へ入力される信号を監視する段階と、
前記成分を含む言語を表す信号の存在を検出したときに、ユーザが発話したコマンドを表す入力信号を判断する段階と、を含む方法。 - 発話形式のコマンドを表す信号に条件を付ける段階をさらに含む請求項7記載の方法。
- 請求項1乃至5の何れか1項記載の装置を含む通信ネットワーク。
- 動作時に予め条件を付けられた発話されたプロンプトまたはそれを表す信号を出力するようにされている出力手段と、
動作時にユーザの音声を表す信号を入力するようにされている入力手段と、
なお、予め条件を付けられた発話されたプロンプトが、通常は言語内に存在する成分を欠いており、
予め条件を付けられたプロンプトの送出中に、プロンプトから欠けている成分を含む信号の入力を検出することによって、ユーザからの入力を検出するように動作する応答検出手段と、を含み、
該欠けている成分が前記信号の複数の隔った短い時間セグメントを含む、対話式装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP96308590.7 | 1996-11-28 | ||
EP96308590 | 1996-11-28 | ||
PCT/GB1997/003231 WO1998024225A1 (en) | 1996-11-28 | 1997-11-26 | Interactive apparatus |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001504600A JP2001504600A (ja) | 2001-04-03 |
JP2001504600A5 JP2001504600A5 (ja) | 2005-07-14 |
JP3998724B2 true JP3998724B2 (ja) | 2007-10-31 |
Family
ID=8225164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP52441798A Expired - Fee Related JP3998724B2 (ja) | 1996-11-28 | 1997-11-26 | 対話式装置 |
Country Status (9)
Country | Link |
---|---|
US (1) | US6603836B1 (ja) |
EP (1) | EP0941597B1 (ja) |
JP (1) | JP3998724B2 (ja) |
KR (1) | KR100526216B1 (ja) |
AU (1) | AU5126698A (ja) |
DE (1) | DE69710213T2 (ja) |
ES (1) | ES2172011T3 (ja) |
IL (1) | IL129893A0 (ja) |
WO (1) | WO1998024225A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1224797A1 (en) * | 1999-10-01 | 2002-07-24 | Bevocal, Inc. | Vocal interface system and method |
US6944594B2 (en) * | 2001-05-30 | 2005-09-13 | Bellsouth Intellectual Property Corporation | Multi-context conversational environment system and method |
KR100552468B1 (ko) * | 2001-07-19 | 2006-02-15 | 삼성전자주식회사 | 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법 |
US7328159B2 (en) * | 2002-01-15 | 2008-02-05 | Qualcomm Inc. | Interactive speech recognition apparatus and method with conditioned voice prompts |
EP1540646A4 (en) * | 2002-07-31 | 2005-08-10 | Arie Ariav | VOICE CONTROL SYSTEM AND ASSOCIATED METHOD |
DE10243832A1 (de) * | 2002-09-13 | 2004-03-25 | Deutsche Telekom Ag | Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen |
US20050180464A1 (en) * | 2002-10-01 | 2005-08-18 | Adondo Corporation | Audio communication with a computer |
WO2004032353A1 (en) * | 2002-10-01 | 2004-04-15 | Christopher Frank Mcconnell | A system and method for wireless audio communication with a computer |
US20060276230A1 (en) * | 2002-10-01 | 2006-12-07 | Mcconnell Christopher F | System and method for wireless audio communication with a computer |
US7392188B2 (en) * | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
DE10348408A1 (de) * | 2003-10-14 | 2005-05-19 | Daimlerchrysler Ag | Nutzeradaptive Dialogunterstützung für Sprachdialogsysteme |
US20150279373A1 (en) * | 2014-03-31 | 2015-10-01 | Nec Corporation | Voice response apparatus, method for voice processing, and recording medium having program stored thereon |
US10043516B2 (en) * | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3639848A (en) * | 1970-02-20 | 1972-02-01 | Electronic Communications | Transverse digital filter |
JPS5327332A (en) * | 1976-08-26 | 1978-03-14 | Hitachi Ltd | Sound response unit of entirely double type |
US4624012A (en) * | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
US4521647A (en) * | 1984-02-17 | 1985-06-04 | Octel Communications, Inc. | Tone detection system and method |
US4914692A (en) * | 1987-12-29 | 1990-04-03 | At&T Bell Laboratories | Automatic speech recognition using echo cancellation |
JPH02181559A (ja) * | 1989-01-05 | 1990-07-16 | Toshiba Corp | 電話装置 |
US4932062A (en) * | 1989-05-15 | 1990-06-05 | Dialogic Corporation | Method and apparatus for frequency analysis of telephone signals |
US4979214A (en) * | 1989-05-15 | 1990-12-18 | Dialogic Corporation | Method and apparatus for identifying speech in telephone signals |
US5125024A (en) * | 1990-03-28 | 1992-06-23 | At&T Bell Laboratories | Voice response unit |
GB2251765B (en) | 1991-01-14 | 1995-03-08 | Telsis Limited | Interactive telephone announcement apparatus |
US5155760A (en) * | 1991-06-26 | 1992-10-13 | At&T Bell Laboratories | Voice messaging system with voice activated prompt interrupt |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
US5471527A (en) * | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
US5583933A (en) * | 1994-08-05 | 1996-12-10 | Mark; Andrew R. | Method and apparatus for the secure communication of data |
JPH11500277A (ja) * | 1995-02-15 | 1999-01-06 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 音声活性度検出 |
US5761638A (en) * | 1995-03-17 | 1998-06-02 | Us West Inc | Telephone network apparatus and method using echo delay and attenuation |
US5708704A (en) * | 1995-04-07 | 1998-01-13 | Texas Instruments Incorporated | Speech recognition method and system with improved voice-activated prompt interrupt capability |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
US6233319B1 (en) * | 1997-12-30 | 2001-05-15 | At&T Corp. | Method and system for delivering messages to both live recipients and recording systems |
-
1997
- 1997-11-26 US US09/043,252 patent/US6603836B1/en not_active Expired - Lifetime
- 1997-11-26 WO PCT/GB1997/003231 patent/WO1998024225A1/en active IP Right Grant
- 1997-11-26 EP EP97945941A patent/EP0941597B1/en not_active Expired - Lifetime
- 1997-11-26 KR KR10-1999-7004705A patent/KR100526216B1/ko not_active IP Right Cessation
- 1997-11-26 AU AU51266/98A patent/AU5126698A/en not_active Abandoned
- 1997-11-26 DE DE69710213T patent/DE69710213T2/de not_active Expired - Lifetime
- 1997-11-26 JP JP52441798A patent/JP3998724B2/ja not_active Expired - Fee Related
- 1997-11-26 ES ES97945941T patent/ES2172011T3/es not_active Expired - Lifetime
- 1997-11-26 IL IL12989397A patent/IL129893A0/xx unknown
Also Published As
Publication number | Publication date |
---|---|
IL129893A0 (en) | 2000-02-29 |
DE69710213T2 (de) | 2002-08-29 |
EP0941597B1 (en) | 2002-01-30 |
AU5126698A (en) | 1998-06-22 |
ES2172011T3 (es) | 2002-09-16 |
EP0941597A1 (en) | 1999-09-15 |
KR20000069163A (ko) | 2000-11-25 |
WO1998024225A1 (en) | 1998-06-04 |
KR100526216B1 (ko) | 2005-11-04 |
JP2001504600A (ja) | 2001-04-03 |
DE69710213D1 (de) | 2002-03-14 |
US6603836B1 (en) | 2003-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5594784A (en) | Apparatus and method for transparent telephony utilizing speech-based signaling for initiating and handling calls | |
EP0619913B1 (en) | Voice controlled messaging system and processing method | |
US5033088A (en) | Method and apparatus for effectively receiving voice input to a voice recognition system | |
US9215305B2 (en) | Voice-operated interface for DTMF-controlled systems | |
US5822405A (en) | Automated retrieval of voice mail using speech recognition | |
US6744860B1 (en) | Methods and apparatus for initiating a voice-dialing operation | |
US6522726B1 (en) | Speech-responsive voice messaging system and method | |
US6574601B1 (en) | Acoustic speech recognizer system and method | |
EP0311414B2 (en) | Voice controlled dialer having memories for full-digit dialing for any users and abbreviated dialing for authorized users | |
JP3998724B2 (ja) | 対話式装置 | |
US5524139A (en) | System for automatic access to automated telephonic information services | |
US20010011217A1 (en) | User barge-in enablement in large vocabulary speech recognition systems | |
JP4520596B2 (ja) | 音声認識方法および音声認識装置 | |
US8229750B2 (en) | Barge-in capabilities of a voice browser | |
EP0893901A2 (en) | Method for controlling a telecommunication service and a terminal | |
US20060271366A1 (en) | Synthesized speech based testing | |
EP1287675A2 (en) | Method and apparatus for audio signal based answer call message generation | |
JP4059059B2 (ja) | 情報取得装置および情報提供システム | |
JPH0519734B2 (ja) | ||
JPH0516604B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041122 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060905 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061205 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070808 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120817 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120817 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130817 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |