JP2001504600A - 対話式装置 - Google Patents

対話式装置

Info

Publication number
JP2001504600A
JP2001504600A JP52441798A JP52441798A JP2001504600A JP 2001504600 A JP2001504600 A JP 2001504600A JP 52441798 A JP52441798 A JP 52441798A JP 52441798 A JP52441798 A JP 52441798A JP 2001504600 A JP2001504600 A JP 2001504600A
Authority
JP
Japan
Prior art keywords
user
language
signal
output
signal representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP52441798A
Other languages
English (en)
Other versions
JP3998724B2 (ja
JP2001504600A5 (ja
Inventor
ジョンストン、ロバート・デニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2001504600A publication Critical patent/JP2001504600A/ja
Publication of JP2001504600A5 publication Critical patent/JP2001504600A5/ja
Application granted granted Critical
Publication of JP3998724B2 publication Critical patent/JP3998724B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Communication Control (AREA)

Abstract

(57)【要約】 周知の対話式装置、とくに遠隔通信ネットワークに接続された対話式装置における問題は、装置から出力しているプロンプトのエコーとそのプロンプトに対するユーザの応答との区別が困難なことである。対話式装置において、ユーザは出力するプロンプトを中断でき、出力するプロンプトからユーザの応答(例えば、周波数帯域)内に通常みられる成分を取り除く対話式装置が開示されている。この装置内の入力信号解析ユニット(21)は、出力するプロンプトから欠けている成分の存在を表すことによってユーザの応答を検出することができる。出力するプロンプトから周波数帯域を取り除く代わりに、この装置は出力する信号内の隔たった時間スロットをサイレンス(無音)にすることができる。この場合、入力信号解析ユニットは予め決められた時間間隔で入力信号に沈黙時間が観察されないことを判断するときにユーザ応答がの存在を検出できる。本発明はプロンプト/応答ダイヤログにユーザを含む装置に応用可能であることに加えて、さらに、音声制御可能な留守番電話またはそれに類似するものに代わるメッセージの中断にとくに有益である。

Description

【発明の詳細な説明】 対話式装置 本発明は対話式装置に関する。 近年、増加しつづけている日々の電話との対話はオートメーション化され、人 間のオペレータが対話を進める必要はなくなった。 オートメーション化された最初の対話の1つは単に、呼を取るためにその場に いなかった被呼者にメッセージを残しておくものであった。最近、より複雑なサ ービス、例えばテレフォンバンキング(telephone banking)、ディレクトリ照会 、ダイヤルアップ方式の列車時間表照会もオートメーション化されている。現在 多くの留守番電話ではこれに加えて、電話の所有者が留守番電話装置に電話をか けて、残されたメッセージを聞ける機能を提供している。現在、オートメーショ ン化された別のサービスには、記憶されたeメールメッセージを電話で読取るも のがある。 上述の各場合では、事実、ユーザは発話形式の対話を、例えば対話式装置、ユ ーザが使用している電話装置、および公衆交換電話網の素子を含む装置で実行す る。 発話形式の対話では、留守番電話は、ユーザが中断(割込み)できると、とき に有益である。例えば、ユーザがプロンプトの途中でどの情報が要求されるかを 予期できるとき、ユーザは中断したくなることがある。中断を可能にする機能( 当業者には“割込み(bargein)機能として知られている)は、ユーザは介入して くる邪魔なメッセージを聞かずに別のメッセージに移ることができる場合にはメ ッセージ再生装置(例えば、留守番電話)と比較してはるかに望ましい。 対話式装置からの出力の何がしかがユーザのコマンドを受取る入力へフィード バックするときには、割込み機能を備えることは一層困難になる。このフィード バックは、対話式装置から送られた音声表示信号が入力へ送り返される場合に、 例えば電話網内のジャンクションにおいて生じる。フィードバックはまた、ユー ザの電話装置のスピーカからマイクロフォンへ戻される言語出力の音響エコーに よっても生じる(これはハンドフリーの動作に関してとくに問題がある)。したが ってユーザ入力からフィードバック出力信号を区別することが、従来可能であっ たよりも確実な割込み機能を提供するのに必要である。 本発明にしたがって、対話式装置であり: 動作時に処理を加えた言語を表す信号を出力するようにされている信号出力 手段と: 動作時にユーザが発話したコマンドを表す信号を受取るようにされている信 号入力手段と; 処理を加えられた言語が言語内に通常存在する成分を欠いており; 処理を加えられた言語に欠けている成分を含む言語を表す信号入力を検出す ることによって、処理を加えられた言語の生成中に話されたユーザのコマンドを 検出するように動作するコマンド検出手段とを含む対話式装置を提供する。 このような装置を提供する長所は、ユーザのコマンドの存在をさらによく検出 できることである。認識器が解析している音声信号が何等かの経過で損なわれる ときに、認識器の動作が著しく衰えるので、本発明は従来の言語認識器を使用す る装置に関してはとくに有益である。対話式装置では、対話式装置の出力のエコ ーによって生じる歪みがユーザのコマンドを歪めることがある。本発明は、ユー ザの応答を検出するとすぐに、この装置が音声表示信号または言語の出力を停止 できるようにすることによってこの問題を緩和する。 ある実施形態では、この装置はさらに対話式装置によって出力される言語を表 す信号を処理するための手段をさらに含む。記録された言語の品質は従来のシン セサイザ(合成器)によって合成された言語の品質よりもよいので、多くの通常 の対話式装置は、頻繁に使用されるダイヤログの一部に記録された言語を使用す る。しかしながら、種々の電話番号または金額についての話し言葉のバージョン を表す信号を出力することが求められているような装置では、全ての可能性のあ る出力を発話形式で記録することは現在のところ実際的ではない。したがって、 このような出力は必要となる場合に合成される。記録された言語信号に予め処理 できて、言語信号を記録するときに前記成分を欠くようにすることができる。し たがって、全ての出力が記録された言語である装置は、対話式装置によって出力 される言語を表す信号を処理するための手段は必要ない。このような装置は、構 成上の複雑さが緩和され、したがって廉価に製造できるという明らかな長所をも つ。 好ましくは、前記欠けている成分は周波数スペクトルの1または複数の部分か ら成る。この長所は、装置を構成し易いということである。 周波数スペクトルの一部が1000Hz乃至1500Hz内であるとき、この 装置は最も効果的であることがわかっている。 好ましいのは、周波数帯域幅は80Hz乃至120Hzである。周波数帯域幅 が120Hzよりも大きいときは、ユーザが聞く出力は著しく損なわれ、周波数 帯域幅が80Hzよりも小さいときは、対話式装置の出力を処理することはさら に困難になり、加えてユーザが話している状態とユーザが話していない状態とを 区別するのは一層難しくなることがわかっている。 本発明の第2の態様にしたがって、対話式装置に向ってユーザが発話したコマ ンドを検出する方法であり: ユーザが発話したコマンド内に通常含まれている成分を欠いている処理され た言語を表す信号を出力する段階と; 前記成分を含む言語を表す信号の存在に対して対話式装置へ入力される信号 を監視する段階と; 前記成分を含む言語を表す信号の存在を検出したときに、ユーザが発話した コマンドを入力信号が表すと判断する段階とを含む方法を提供する。 本発明の第3の態様にしたがって、音声制御可能な装置であり: 本発明の第1の態様にしたがう対話式装置と; 処理された言語を表す前記信号を処理された言語に変換する手段と; ユーザが発話したコマンドをそれを表す信号に変換する手段とを含む音声制 御可能な装置を提供する。 本発明によって取扱うことができる問題は、直接音声制御の(すなわち、中間 の通信ネットワークがない)装置に関しても生じる。したがって本発明の第3の 実施形態は、とりわけ対話式音声制御を行なう家庭用および業務用装置、例えば パーソナルコンピュータ、テレビジョン、ビデオレコーダを含む。 ここで、次に本発明の特定の実施形態を詳しく記載する。この実施形態は添付 の図面を引用して例示的に記載する: 図1は、通信ネットワークにインストールされた自動テレフォンバンキング( 電話銀行業務)装置(automated telephone banking apparatus)の一部の機能ブ ロック図である; 図2は、この装置を初めて使用するユーザとの会話の進行を表すフローチャー トである; 図3は、経験をもつユーザとの同じ会話の進行を表すフローチャートである; 図4Aは、ユーザの音声スペクトルを示す; 図4Bは、この装置によって出力される信号スペクトルを示す; 図4Cは、この装置の出力のエコーによって損なわれるユーザの音声スペクト ルを示す。 図1は、自動テレフォンバンキングサービスを提供するときに使用される信号 処理ユニットを示す。実際には、言語処理ユニットはFFDI(ファイバ分配デ ータインターフェイス)ローカルエリアネットワークによって多数の他のユニッ ト、例えば電話シグナリングユニット、大型のデータベース機能を備えるファイ ルサーバユニット、補助バックアップおよびデータ収集ユニット、並びに素子管 理ユニットに接続されることになる。このようなサービスを提供する適切な装置 は、Ericsson Ltd.によって製造された対話式言語応用プラットフォームである 。 言語処理ユニット(図1参照)は、ディジタルラインインターフェイス10を介 して遠隔通信ネットワークにインターフェイスしている。ディジタルラインイン ターフェイスは、遠隔通信ネットワークからユーザの音声を表すディジタル信号 を入力し、このディジタル信号を信号処理ユニット20へ出力する。ディジタルラ インインターフェイス10はさらに、信号処理ユニット20から装置によって出力さ れる発話されたメッセージを表す信号を入力し、ネットワークへこの信号を出力 する前に信号を遠隔通信ネットワーク上で送るのに適した形に変更する。ディジ タルラインインターフェイス10は多数の到来信号および出力信号を同期して処理 することができる。 信号処理ユニット20は、ディジタルラインインターフェイス10からユーザの音 声を表す修正を加えた信号を入力し、ディジタルラインインターフェイス10を介 してユーザにされた応答を表す信号を出力する前に、ダイヤログ(会話)制 御装置30の制御のもとで信号に対して一連の動作を行なう。信号処理ユニット20 は、4つの出力プロセッサ25、26、27、28および2つの入力プロセッサ21、22を 含む。 記録された言語出力プロセッサ25は、この装置によって頻繁に出力される、プ ロセッサ内に記憶された多数のメッセージの1つを表す信号を出力するようにさ れている。出力される特定のメッセージは、ダイヤログ制御装置30から供給され るパラメータにしたがって決定される。言語合成プロセッサ26を使用して、合成 された言語を表すディジタル信号を出力する。発話されたメッセージの内容はダ イヤログ制御装置30によって決定され、ダイヤログ制御装置30は発話されたメッ セージの内容を表すアルファ数字データを言語合成プロセッサ26へ送る。 言語合成器26によって出力される信号は、ディジタルノッチフィルタ27へ入力 される。以下に記載する理山のために、フィルタ27は、1200Hz乃至130 0Hzの周波数帯域内に位置する合成された信号の成分を取除くようにされてい る。言語合成器26およびディジタルノッチフィルタ27は別々のプロセッサとして 示されているが、2つの機能は単一のプロセッサ上に準備できることが当業者に 認識されるであろう。 記録された言語プロセッサ25内に記憶されたメッセージは、ディジタルノッチ フィルタ27と類似の転送機能をもつフィルタを使用して記録される。したがって 、言語合成プロセッサ26の出力は図4Aに示したスペクトルに類似したスペクト ルをもち、ディジタルノッチフィルタ27または記録された言語プロセッサ25の出 力は図4Bに実線によって示したスペクトルに類似したスペクトルをもっことが できる。 フィルタ27および記録された言語プロセッサ25の出力はメッセージ生成装置28 へ送られ、メッセージ生成装置28では、合成された部分と記録された言語部分の 両方をもつメッセージにおいて、メッセージの2つの部分を結合し、結合された メッセージをディジタルラインインターフェイス10を介してユーザへ出力する。 2つの入力信号プロセッサは入力信号解析器21および言語認識器22である。 入力入力言語解析器21は、ディジタルラインインターフェイス10からユーザ の音声を表す信号を受取り、それを1200Hz乃至1300Hzに及ぶ通過帯 域をもつ帯域フィルタへ送る。その後、入力信号解析器は、帯域フィルタの出力 と閾値Tとを比較する(図4参照)。通過帯域内の信号強度が閾値よりも高いとき 、入力信号解析器は信号がそれに入力されたという事実によりユーザの音声を含 むことを示す“ユーザが存在する”信号23を出力する。他方で、通過帯域内の信 号強度が閾値より低いとき、解析器は、信号解析器21への信号入力がユーザの音 声を含まないことを示す変形された信号23を出力する。 到来する発話を表す信号はさらに言語解析器22へも入力され、言語解析器22は ダイヤログ制御装置30によって可能性の高い受領可能な応答を供給される。ユー ザが存在します信号23は、ユーザの音声が入力信号内に含まれることを示してい て、言語認識器は、そのユーザが発話している現在の単語を認識するように試み て、ダイヤログ制御装置30へその結果を出力する。 次にダイヤログ制御装置30はそれを制御するソフトウエアにしたがってユーザ によって発話された単語に応答し、出力プロセッサを制御して、ユーザに適切な 応答を与える。 自動テレフォンバンキング装置とこの装置を取扱ったことのないユーザとの間 のダイヤログ(会話)(図2参照)は、ユーザが装置の電話番号をダイヤルするこ とによって開始される。ユーザがこの装置に接続されると、ダイヤログ制御装置 30は記録された言語のプロセッサ25に命令して、挨拶メッセージ(welcome messa ge)R1、そのすぐ後に口座番号要求プロンプトR2を出力する。上述のように 、記録された言語のプロセッサ25内に記憶された全ての記録されたメッセージお よびプロンプトは記録されたものであるから、図4Bに実線によって示されてい るスペクトルに類似したスペクトルをもつ。図4Bには、記録されたメッセージ のスペクトルは1200Hz乃至1300Hzの間の周波数をもつ成分を欠いて いるが、それ以外は正常である。メッセージを出力するとき、メッセージ内のエ コーが入力信号プロセッサ21、22に逆戻りして受取られる場合がある。スペクト ルは反射プロセスによってわずかに変化することがあるが、反射プロセスは出力 信号内に存在しなかった周波数を導入することはないので、周波数帯域1200 Hz乃至1300Hz内の周波数は導入しない。それにも関わらず、あるノ イズは出力信号に付加され、一方で出力信号プロセッサ25、26、27、28から入力 信号プロセッサ21、22へ送られる可能性が高い。したがって、エコーのスペクト ルは図4Bに破線で示されているスペクトルに類似していてもよい。 再び図1において、プロンプトR2のエコーは入力信号解析器21で受取られ、 ここで帯域フィルタで処理され(通過帯域は1200Hz乃至1300Hzに及 ぶ)、生成された信号は閾値Tと比較される。送出しているプロンプトのエコー は周波数帯域1200Hz乃至1300Hz内に重要な成分を含まないので、信 号は閾値よりも低く、入力信号解析器21は、プロンプトR2の継続期間全体でユ ーザが発話していないことを示す信号23を出力する。 次にユーザは、自分の電話装置でDTMF(デュアルトーンマルチフレケンシ ー)を使用して口座番号を入力することに進む。これらのトーンは言語認識器22 によって受取られ、言語認識器22はトーンを数値データに変換し、それらをダイ アログ制御装置30へ送る。次にダイヤログ制御装置30は、FDDIローカルエリ アネットワーク上に備えられた顧客データベースファイルサーバへ口座番号を送 る。次にファイルサーバは、この口座に対して何れのサービスが利用可能とされ ているかを示すデータおよび顧客に関ずる他のデータ、例えば個人識別番号(P IN)を戻す。図2および3には示されていないが、システムは顧客に口座番号 を要求した直後にPINを入力するように命令する。 ダイヤログ制御装置30は記録された言語プロセッサ25に命令して、“TRAN SFER(振替)”という言葉を発話する前にユーザが聞くサービスの種類を要求 するプロンプトR3を出力する。ユーザの音声は、図4Aに示したスペクトルに 類似したスペクトルであってもよい。ユーザの音声を表す信号がユーザ入力解析 器21へ送られるとき、信号は周波数帯域1200Hz乃至1300Hzに重要な 成分を含むので、解析器21の入力は、ユーザが言語認識器22に対して発話してい ることを示す信号23を出力する。言語認識器22は、現在装置へ入力されている言 葉が“TRANSFER”であることを認識し、この“TRANSFER”とい う単語がダイヤログ制御装置30に受取られる言葉であることを示す信号を送る。 この応答を受取った結果として、次にダイヤログ制御装置30は記録された言 語プロセッサ25に命令して、ユーザが振り替えたい金額をユーザに質問するプロ ンプトを出力する。次にユーザは振り替えたい金額を言って応答する。この情報 の発話式エントリは電話装置のキーパッドからの情報よりも潜在的に一層確実で ある。その理山はDTMFトーンを入力したときに間違えると、ユーザが振り替 えたいだいたいの程度である金額の送金を要求することになるからである。 次にユーザの応答は言語認識器22によって処理され、ユーザが振り換えるよう に要求した金額(この場合は316.17ポンド)を示すデータはダイヤログ制 御装置30へ送られる。次にダイヤログ制御装置30は記録された言語プロセッサ25 に命令して、記録された言語メッセージ、“I heard((次のように)聞きました) ”および“is that correct?(よろしいですか)”をメッセージ生成装置28へ送る 。次にダイヤログ制御装置30は言語合成器26へ命令して、発話された316.1 7ポンドを合成する。合成されたこれらの言葉は言語合成器26によって出力され 、図4Aに示したスペクトルに類似したスペクトルをもつ。次に信号は、ディジ タルノッチフィルタ27へ送られ、図4Bに実線で示したスペクトルに類似したス ペクトルをもって出力される。次に変形された合成メッセージはメッセージ生成 装置28へロードされる。 次にメッセージ生成装置28は、2つの記録された言語メッセージと合成された 言語メッセージとを結合して、プロンプトR5を準備する。プロンプトR5では ディジタルラインインターフェイス10を介してユーザへ出力される。その後ダイ ヤログは継続する。 システムに詳しいユーザは、図3に示したダイヤログを実行することができる 。ダイヤログの最初の部分は図2に関して記載したダイヤログと一致しているが 、プロンプトR2が要求しているように、電話装置のキーパッドを使用して自分 の口座番号を入力するときに、ユーザが口座番号の入力を中断した後は異なる。 電話装置によって出力されたDTMFトーンは、言語認識器22へ入力され、言語 認識器22はDTMFトーンをデータを表ず口座番号に変換し、このデータをダイ ヤログ制御装置30へ送る。ダイヤログ制御装置30がこのデータを受取るとすぐに 、信号を記録された言語プロセッサ25へ送り、プロンプトR2で要求される口座 番号の出力を停止する。明らかに、装置がプロンプトR2を送出すること を止めると、プロンプトのエコーは装置へ送り戻されない。したがって、言語認 識器は干渉エコーが存在しなくてもユーザによって入力される他のDTMFトー ンを認識できる。 次にダイヤログは、ユーザが“TRANSFER”という言葉を発話すること によってサービスを要求するプロンプトR3を中断するまで続く。メッセージR 3の最初の2つの単語で、入力信号解析器21は信号23を出力して、ユーザの音声 が存在していないことを示すことが認識されることになる。しかしながら、ユー ザが出力メッセージを中断すると、装置で受取られる信号はユーザの音声と出力 しているプロンプトのエコーとの組合わせになる。この組合わせ信号のスペクト ルは、ユーザの音声のみのスペクトルに類似しているが(図4A参照)、エコー信 号のスペクトルは1200Hz乃至1300Hzの成分を欠いているので、12 00Hz乃至1300Hzに小さいノッチを含むことを特徴とする(図4C参照) 。 組合わせ信号は入力信号解析器21へ送られ、ここから帯域フィルタへ送られ、 周波数範囲1200Hz乃至1300Hz内に重要な成分を含むことがわかる。 したがって入力信号解析器21は信号23(ユーザの音声が存在することを示す)を 言語認識器22とダイヤログ制御装置23の両方へ出力する。信号23を受取ると、ダ イヤログ制御装置30は記録された言語プロセッサ25に命令して、プロンプトR3 の出力を停止する。するとすぐに、プロンプトのエコーは言語認識器22で受取っ た信号に対する成分でなくなり、認識器は、ユーザが現在話している単語をより よく認識することができる。ユーザの応答は認識されると、ダイヤログ制御装置 30へ送られる。 その後、ユーザは、サービスを要求するプロンプトR3を中断するのに似たや り方で次の2つのダイヤログのプロンプトを中断する。 上述の実施形態において、予め処理を加えられ、発話されたプロンプトに欠け ている成分は周波数スペクトルの一部を含むことであることが認識されるであろ う。しかしながら、他の成分が欠けていることも認識される。例えば、短い継続 期間の時間スロット(例えば、1乃至5ms)は規則正しい時間間隔(例えば2 0乃至100ms)で発話されたプロンプトから取り除くことができる。例えば 言語が8kHzでディジタル形式でサンプリングされるとき、これは160乃至 8 00サンプルの間隔で8乃至40サンプルをゼロ値に設定することによって達成 できる。特定の値を取るために、信号から400サンプルの間隔で20サンプル を取って、入力信号解析器が800サンプルの受取った信号の継続期間中に対応 するサイレンス(silence、無音)またはサイレンスに近いもの(near silence)( すなわち、音量が所定の閾値よりも低いもの)を検出しなかったとき、ユーザが 発話していることを示す信号を出力できるように、入力信号解析器を設定できる 。 ユーザは“割込み”機能により取引をさらに迅速に実行できることが分かるで あろう。さらに重要なことは、このやり方で装置によって出されるプロンプトを 中断できることにより、ユーザはダイヤログの制御が一層可能になったと感じる ことである。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 3/42 G10L 3/00 571U 3/50 (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG,ZW),EA(AM,AZ,BY,KG ,KZ,MD,RU,TJ,TM),AL,AM,AT ,AU,AZ,BA,BB,BG,BR,BY,CA, CH,CN,CU,CZ,DE,DK,EE,ES,F I,GB,GE,GH,HU,ID,IL,IS,JP ,KE,KG,KP,KR,KZ,LC,LK,LR, LS,LT,LU,LV,MD,MG,MK,MN,M W,MX,NO,NZ,PL,PT,RO,RU,SD ,SE,SG,SI,SK,SL,TJ,TM,TR, TT,UA,UG,US,UZ,VN,YU,ZW 【要約の続き】 る。

Claims (1)

  1. 【特許請求の範囲】 1.対話式装置であり: 動作時に処理を加えられた言語を表す信号を出力するようにされている信号 出力手段と; 動作時にユーザが発話したコマンドを表す信号を受取るようにされている信 号入力手段と; なお、処理を加えられた言語は言語内に通常存在する成分を欠いており; 処理を加えられた言語に欠けている成分を含む言語を表す信号入力を検出す ることによって、処理を加えられた言語の生成中に話されたユーザのコマンドを 検出するように動作するコマンド検出手段とを含む対話式装置。 2.言語を表す信号に条件を付けて、処理を加えられた言語を表す前記信号を準 備する手段をさらに含む請求項1記載の装置。 3.前記処理を加える手段がディジタルフィルタを含む請求項2記載の装置。 4.欠けている成分が周波数スペクトルの1または複数の部分を含む請求項1乃 至3の何れか1項記載の装置。 5.前記部分の中間点が1000Hz乃至1500Hzの範囲内にある請求項4 記載の装置。 6.中間点が1200Hz乃至1300Hzの範囲内にある請求項5記載の装置 。 7.前記部分の幅が、範囲80Hz乃至120Hz内に含まれている請求項4乃 至6の何れか1項記載の装置。 8.欠けている成分が、前記言語信号の複数の隔った短い時間セグメントを含む 請求項1乃至3の何れか1項記載の装置。 9.音声制御可能な装置であり: 請求項1乃至8の何れか1項記載の対話式装置と; 処理を加えられた言語を表す前記信号を処理を加えられた言語に変換する手 段と; ユーザが発話したコマンドをそれを表す信号に変換する手段とを含む音声制 御可能な装置 10.対話式装置に対するユーザが発話したコマンドを検出する方法であり: ユーザが発話したコマンド内に通常含まれている成分を欠いている処理を加 えられた言語を表す信号を出力する段階と; 前記成分を含む言語を表す信号の存在に対して対話式装置へ入力される信号 を監視する段階と; 前記成分を含む言語を表す信号の存在を検出したときに、ユーザが発話した コマンドを表す入力信号を判断する段階とを含む方法。 11.発話形式のコマンドを表す信号に条件を付ける段階をさらに含む請求項10 記載の方法。 12.実質的に、添付の図面を参照して上述に記載され、説明された装置。 13.実質的に、添付の図面を参照して上述に記載され、説明された対話式装置 によって送出されたプロンプトに対するユーザ応答を検出する方法。 14.請求項1乃至8の何れか1項記載の装置を含む通信ネットワーク。 15.動作時に予め条件を付けられた発話されたプロンプトまたはそれを表す信 号を出力するようにされている出力手段と; 動作時にユーザの音声を表す信号を入力するようにされている入力手段と; 予め処理を加えられた発話されたプロンプトが、通常は言語内に存在する成 分を欠いており; 予め処理を加えられたプロンプトの送出中に、プロンプトから欠けている成 分を含む信号の入力を検出することによって、ユーザからの入力を検出するよう に動作する応答検出手段とを含む対話式装置。
JP52441798A 1996-11-28 1997-11-26 対話式装置 Expired - Fee Related JP3998724B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP96308590.7 1996-11-28
EP96308590 1996-11-28
PCT/GB1997/003231 WO1998024225A1 (en) 1996-11-28 1997-11-26 Interactive apparatus

Publications (3)

Publication Number Publication Date
JP2001504600A true JP2001504600A (ja) 2001-04-03
JP2001504600A5 JP2001504600A5 (ja) 2005-07-14
JP3998724B2 JP3998724B2 (ja) 2007-10-31

Family

ID=8225164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52441798A Expired - Fee Related JP3998724B2 (ja) 1996-11-28 1997-11-26 対話式装置

Country Status (9)

Country Link
US (1) US6603836B1 (ja)
EP (1) EP0941597B1 (ja)
JP (1) JP3998724B2 (ja)
KR (1) KR100526216B1 (ja)
AU (1) AU5126698A (ja)
DE (1) DE69710213T2 (ja)
ES (1) ES2172011T3 (ja)
IL (1) IL129893A0 (ja)
WO (1) WO1998024225A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1224797A1 (en) * 1999-10-01 2002-07-24 Bevocal, Inc. Vocal interface system and method
US6944594B2 (en) * 2001-05-30 2005-09-13 Bellsouth Intellectual Property Corporation Multi-context conversational environment system and method
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
US7328159B2 (en) * 2002-01-15 2008-02-05 Qualcomm Inc. Interactive speech recognition apparatus and method with conditioned voice prompts
EP1540646A4 (en) * 2002-07-31 2005-08-10 Arie Ariav VOICE CONTROL SYSTEM AND ASSOCIATED METHOD
DE10243832A1 (de) * 2002-09-13 2004-03-25 Deutsche Telekom Ag Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen
US20050180464A1 (en) * 2002-10-01 2005-08-18 Adondo Corporation Audio communication with a computer
WO2004032353A1 (en) * 2002-10-01 2004-04-15 Christopher Frank Mcconnell A system and method for wireless audio communication with a computer
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
DE10348408A1 (de) * 2003-10-14 2005-05-19 Daimlerchrysler Ag Nutzeradaptive Dialogunterstützung für Sprachdialogsysteme
US20150279373A1 (en) * 2014-03-31 2015-10-01 Nec Corporation Voice response apparatus, method for voice processing, and recording medium having program stored thereon
US10043516B2 (en) * 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3639848A (en) * 1970-02-20 1972-02-01 Electronic Communications Transverse digital filter
JPS5327332A (en) * 1976-08-26 1978-03-14 Hitachi Ltd Sound response unit of entirely double type
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US4521647A (en) * 1984-02-17 1985-06-04 Octel Communications, Inc. Tone detection system and method
US4914692A (en) * 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
JPH02181559A (ja) * 1989-01-05 1990-07-16 Toshiba Corp 電話装置
US4932062A (en) * 1989-05-15 1990-06-05 Dialogic Corporation Method and apparatus for frequency analysis of telephone signals
US4979214A (en) * 1989-05-15 1990-12-18 Dialogic Corporation Method and apparatus for identifying speech in telephone signals
US5125024A (en) * 1990-03-28 1992-06-23 At&T Bell Laboratories Voice response unit
GB2251765B (en) 1991-01-14 1995-03-08 Telsis Limited Interactive telephone announcement apparatus
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5471527A (en) * 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5583933A (en) * 1994-08-05 1996-12-10 Mark; Andrew R. Method and apparatus for the secure communication of data
JPH11500277A (ja) * 1995-02-15 1999-01-06 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 音声活性度検出
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US5708704A (en) * 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US6233319B1 (en) * 1997-12-30 2001-05-15 At&T Corp. Method and system for delivering messages to both live recipients and recording systems

Also Published As

Publication number Publication date
IL129893A0 (en) 2000-02-29
DE69710213T2 (de) 2002-08-29
EP0941597B1 (en) 2002-01-30
JP3998724B2 (ja) 2007-10-31
AU5126698A (en) 1998-06-22
ES2172011T3 (es) 2002-09-16
EP0941597A1 (en) 1999-09-15
KR20000069163A (ko) 2000-11-25
WO1998024225A1 (en) 1998-06-04
KR100526216B1 (ko) 2005-11-04
DE69710213D1 (de) 2002-03-14
US6603836B1 (en) 2003-08-05

Similar Documents

Publication Publication Date Title
US5594784A (en) Apparatus and method for transparent telephony utilizing speech-based signaling for initiating and handling calls
US5960395A (en) Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5033088A (en) Method and apparatus for effectively receiving voice input to a voice recognition system
US6937977B2 (en) Method and apparatus for processing an input speech signal during presentation of an output audio signal
EP0311414B2 (en) Voice controlled dialer having memories for full-digit dialing for any users and abbreviated dialing for authorized users
EP0619913B1 (en) Voice controlled messaging system and processing method
US5822405A (en) Automated retrieval of voice mail using speech recognition
US5752232A (en) Voice activated device and method for providing access to remotely retrieved data
US7469207B1 (en) Method and system for providing automated audible backchannel responses
JP3998724B2 (ja) 対話式装置
US20030061049A1 (en) Synthesized speech intelligibility enhancement through environment awareness
US8229750B2 (en) Barge-in capabilities of a voice browser
US6738457B1 (en) Voice processing system
US20020097844A1 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs
EP0893901A2 (en) Method for controlling a telecommunication service and a terminal
US7043427B1 (en) Apparatus and method for speech recognition
CN110602334A (zh) 一种基于人机协同的智能外呼方法及系统
US20060271366A1 (en) Synthesized speech based testing
JP4059059B2 (ja) 情報取得装置および情報提供システム
CN110534084A (zh) 一种基于FreeSWITCH的智能语音控制方法及系统
CN1085458C (zh) 一种电话答录机装置及其答录方法
EP1213707B1 (en) Pattern matching method and apparatus and telephony system
JP3034494B2 (ja) 対話型話速変換装置および方法
Lobanov et al. An intelligent telephone answering system using speech recognition.
JPH02250099A (ja) 音声認識システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061205

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070808

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130817

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees