JP3998724B2

JP3998724B2 - 対話式装置

Info

Publication number: JP3998724B2
Application number: JP52441798A
Authority: JP
Inventors: ジョンストン、ロバート・デニス
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-11-28
Filing date: 1997-11-26
Publication date: 2007-10-31
Anticipated expiration: 2017-11-26
Also published as: IL129893A0; DE69710213T2; EP0941597B1; AU5126698A; ES2172011T3; EP0941597A1; KR20000069163A; WO1998024225A1; KR100526216B1; JP2001504600A; DE69710213D1; US6603836B1

Description

本発明は対話式装置に関する。
近年、増加しつづけている日々の電話との対話はオートメーション化され、人間のオペレータが対話を進める必要はなくなった。
オートメーション化された最初の対話の１つは単に、呼を取るためにその場にいなかった被呼者にメッセージを残しておくものであった。最近、より複雑なサービス、例えばテレフォンバンキング（telephone banking）、ディレクトリ照会、ダイヤルアップ方式の列車時間表照会もオートメーション化されている。現在多くの留守番電話ではこれに加えて、電話の所有者が留守番電話装置に電話をかけて、残されたメッセージを聞ける機能を提供している。現在、オートメーション化された別のサービスには、記憶されたｅメールメッセージを電話で読取るものがある。
上述の各場合では、事実、ユーザは発話形式の対話を、例えば対話式装置、ユーザが使用している電話装置、および公衆交換電話網の素子を含む装置で実行する。
発話形式の対話では、留守番電話は、ユーザが中断（割込み）できると、ときに有益である。例えば、ユーザがプロンプトの途中でどの情報が要求されるかを予期できるとき、ユーザは中断したくなることがある。中断を可能にする機能（当業者には“割込み（baege in）機能として知られている）は、ユーザは介入してくる邪魔なメッセージを聞かずに別のメッセージに移ることができる場合にはメッセージ再生装置（例えば、留守番電話）と比較してはるかに望ましい。
対話式装置からの出力の何がしかがユーザのコマンドを受取る入力へフィードバックするときには、割込み機能を備えることは一層困難になる。このフィードバックは、対話式装置から送られた音声表示信号が入力へ送り返される場合に、例えば電話網内のジャンクションにおいて生じる。フィードバックはまた、ユーザの電話装置のスピーカからマイクロフォンへ戻される言語出力の音響エコーによっても生じる（これはハンドフリーの動作に関してとくに問題がある）。したがってユーザ入力からフィードバック出力信号を区別することが、従来可能であったよりも確実な割込み機能を提供するのに必要である。
本発明にしたがって、対話式装置であり：
動作時に処理を加えた言語を表す信号を出力するようにされている信号出力手段と；
動作時にユーザが発話したコマンドを表す信号を受取るようにされている信号入力手段と；
処理を加えられた言語が言語内に通常存在する成分を欠いており；
処理を加えられた言語に欠けている成分を含む言語を表す信号入力を検出することによって、処理を加えられた言語の生成中に話されたユーザのコマンドを検出するように動作するコマンド検出手段とを含む対話式装置を提供する。
このような装置を提供する長所は、ユーザのコマンドの存在をさらによく検出できることである。認識器が解析している音声信号が何等かの経過で損なわれるときに、認識器の動作が著しく衰えるので、本発明は従来の言語認識器を使用する装置に関してはとくに有益である。対話式装置では、対話式装置の出力のエコーによって生じる歪みがユーザのコマンドを歪めることがある。本発明は、ユーザの応答を検出するとすぐに、この装置が音声表示信号または言語の出力を停止できるようにすることによってこの問題を緩和する。
ある実施形態では、この装置はさらに対話式装置によって出力される言語を表す信号を処理するための手段をさらに含む。記録された言語の品質は従来のシンセサイザ（合成器）によって合成された言語の品質よりもよいので、多くの通常の対話式装置は、頻繁に使用されるダイヤログの一部に記録された言語を使用する。しかしながら、種々の電話番号または金額についての話し言葉のバージョンを表す信号を出力することが求められているような装置では、全ての可能性のある出力を発話形式で記録することは現在のところ実際的ではない。したがって、このような出力は必要となる場合に合成される。記録された言語信号に予め処理できて、言語信号を記録するときに前記成分を欠くようにすることができる。したがって、全ての出力が記録された言語である装置は、対話式装置によって出力される言語を表す信号を処理するための手段は必要ない。このような装置は、構成上の複雑さが緩和され、したがって廉価に製造できるという明らかな長所をもつ。
好ましくは、前記欠けている成分は周波数スペクトルの１または複数の部分から成る。この長所は、装置を構成し易いということである。
周波数スペクトルの一部が１０００Hz乃至１５００Hz内であるとき、この装置は最も効果的であることがわかっている。
好ましいのは、周波数帯域幅は８０Hz乃至１２０Hzである。周波数帯域幅が１２０Hzよりも大きいときは、ユーザが聞く出力は著しく損なわれ、周波数帯域幅が８０Hzよりも小さいときは、対話式装置の出力を処理することはさらに困難になり、加えてユーザが話している状態とユーザが話していない状態とを区別するのは一層難しくなることがわかっている。
本発明の第２の態様にしたがって、対話式装置に向ってユーザが発話したコマンドを検出する方法であり：
ユーザが発話したコマンド内に通常含まれている成分を欠いている処理された言語を表す信号を出力する段階と；
前記成分を含む言語を表す信号の存在に対して対話式装置へ入力される信号を監視する段階と；
前記成分を含む言語を表す信号の存在を検出したときに、ユーザが発話したコマンドを入力信号が表すと判断する段階とを含む方法を提供する。
本発明の第３の態様にしたがって、音声制御可能な装置であり：
本発明の第１の態様にしたがう対話式装置と；
処理された言語表す前記信号を処理された言語に変換する手段と；
ユーザが発話したコマンドをそれを表す信号に変換する手段とを含む音声制御可能な装置を提供する。
本発明によって取扱うことができる問題は、直接音声制御の（すなわち、中間の通信ネットワークがない）装置に関しても生じる。したがって本発明の第３の実施形態は、とりわけ対話式音声制御を行なう家庭用および業務用装置、例えばパーソナルコンピュータ、テレビジョン、ビデオレコーダを含む。
ここで、次に本発明の特定の実施形態を詳しく記載する。この実施形態は添付の図面を引用して例示的に記載する：
図１は、通信ネットワークにインストールされた自動テレフォンバンキング（電話銀行業務）装置（automated telephone banking apparatus）の一部の機能ブロック図である；
図２は、この装置を初めて使用するユーザとの会話の進行を表すフローチャートである；
図３は、経験をもつユーザとの同じ会話の進行を表すフローチャートである；
図４Ａは、ユーザの音声スペクトルを示す；
図４Ｂは、この装置によって出力される信号スペクトルを示す；
図４Ｃは、この装置の出力のエコーによって損なわれるユーザの音声スペクトルを示す。
図１は、自動テレフォンバンキングサービスを提供するときに使用される信号処理ユニットを示す。実際には、言語処理ユニットはＦＦＤＩ（ファイバ分配データインターフェイス）ローカルエリアネットワークによって多数の他のユニット、例えば電話シグナリングユニット、大型のデータベース機能を備えるファイルサーバユニット、補助バックアップおよびデータ収集ユニット、並びに素子管理ユニットに接続されることになる。このようなサービスを提供する適切な装置は、Ericsson Ltd.によって製造された対話式言語応用プラットフォームである。
言語処理ユニット（図１参照）は、ディジタルラインインターフェイス10を介して遠隔通信ネットワークにインターフェイスしている。ディジタルラインインターフェイスは、遠隔通信ネットワークからユーザの音声を表すディジタル信号を入力し、このディジタル信号を信号処理ユニット20へ出力する。ディジタルラインインターフェイス10はさらに、信号処理ユニット20から装置によって出力される発話されたメッセージを表す記号を入力し、ネットワークへこの信号を出力する前に信号を遠隔通信ネットワーク上で送るのに適した形に変更する。ディジタルラインインターフェイス10は多数の到来信号および出力信号を同期して処理することができる。
信号処理ユニット20は、ディジタルラインインターフェイス10からユーザの音声を表す修正を加えた信号を入力し、ディジタルラインインターフェイス10を介してユーザにされた応答を表す信号を出力する前に、ダイヤログ（会話）制御装置30の制御のもとで信号に対して一連の動作を行なう。信号処理ユニット20は、4つの出力プロセッサ25、26、27、28および2つの入力プロセッサ21、22を含む。
記録された言語出力プロセッサ25は、この装置によって頻繁に出力される、プロセッサ内に記憶された多数のメッセージの１つを表す信号を出力するようにされている。出力される特定のメッセージは、ダイヤログ制御装置30から供給されるパラメータにしたがって決定される。言語合成プロセッサ26を使用して、合成された言語を表すディジタル信号を出力する。発話されたメッセージの内容はダイヤログ制御装置30によって決定され、ダイヤログ制御装置30は発話されたメッセージの内容を表すアルファ数字データを言語合成プロセッサ26へ送る。
言語合成器26によって出力される信号は、ディジタルノッチフィルタ27へ入力される。以下に記載する理由のために、フィルタ27は、１２００Hz乃至１３００Hzの周波数帯域内に位置する合成された信号の成分を取除くようにされている。言語合成器26およびディジタルノッチフィルタ27は別々のプロセッサとして示されているが、2つの機能は単一のプロセッサ上に準備できることが当業者に認識されるであろう。
記録された言語プロセッサ25内に記憶されたメッセージは、ディジタルノッチフィルタ27と類似の転送機能をもつフィルタを使用して記録される。したがって、言語合成プロセッサ26の出力は図4Ａに示したスペクトルに類似したスペクトルをもち、ディジタルノッチフィルタ27または記録された言語プロセッサ25の出力は図4Ｂに実線によって示したスペクトルに類似したスペクトルをもつことができる。
フィルタ27および記録された言語プロセッサ25の出力はメッセージ生成装置28へ送られ、メッセージ生成装置28では、合成された部分と記録された言語部分の両方をもつメッセージにおいて、メッセージの2つの部分を結合し、結合されたメッセージをディジタルラインインターフェイス10を介してユーザへ出力する。
2つの入力信号プロセッサは入力信号解析器21および言語認識器22である。
入力入力言語解析器21は、ディジタルラインインターフェイス10からユーザの音声を表す記号を受取り、それを１２００Hz乃至１３００Hzに及ぶ通過帯域をもつ帯域フィルタへ送る。その後、入力信号解析器は、帯域フィルタの出力と閾値Ｔとを比較する（図４参照）。通過帯域内の信号強度が閾値よりも高いとき、入力信号解析器は信号がそれに入力されたという事実によりユーザの音声を含むことを示す“ユーザが存在する”信号23を出力する。他方で、通過帯域内の信号強度が閾値より低いとき、解析器は、信号解析器21への信号入力がユーザの音声を含まないことを示す変形された信号23を出力する。
到来する発話を表す信号はさらに言語解析器22へも入力され、言語解析器22はダイヤログ制御装置30によって可能性の高い受領可能な応答を供給される。ユーザが存在します信号23は、ユーザの音声が入力信号内に含まれることを示していて、言語認識器は、そのユーザが発話している現在の単語を認識するように試みて、ダイヤログ制御装置30へその結果を出力する。
次にダイヤログ制御装置30はそれを制御するソフトウエアにしたがってユーザによって発話された単語に応答し、出力プロセッサを制御して、ユーザに適切な応答を与える。
自動テレフォンバンキング装置とこの装置を取扱ったことのないユーザとの間のダイヤログ（会話）（図２参照）は、ユーザが装置の電話番号をダイヤルすることによって開始される。ユーザがこの装置に接続されると、ダイヤログ制御装置30は記録された言語のプロセッサ25に命令して、挨拶メッセージ（welcome message）Ｒ１、そのすぐ後に口座番号要求プロンプトＲ２を出力する。上述のように、記録された言語のプロセッサ25内に記憶された全ての記録されたメッセージおよびプロンプトは記録されたものであるから、図４Ｂに実線によって示されているスペクトルに類似したスペクトルをもつ。図４Ｂには、記録されたメッセージのスペクトルは１２００Hz乃至１３００Hzの間の周波数をもつ成分を欠いているが、それ以外は正常である。メッセージを出力するとき、メッセージ内のエコーが入力信号プロセッサ21、22に逆戻りして受取られる場合がある。スペクトルは反射プロセスによってわずかに変化することがあるが、反射プロセスは出力信号内に存在しなかった周波数を導入することはないので、周波数帯域１２００Hz乃至１３００Hz内の周波数は導入しない。それにも関わらず、あるノイズは出力信号に付加され、一方で出力信号プロセッサ25、26、27、28から入力信号プロセッサ21、22へ送られる可能性が高い。したがって、エコーのスペクトルは図4Ｂに破線で示されているスペクトルに類似していてもよい。
再び図1において、プロンプトＲ２のエコーは入力信号解析器21で受取られ、ここで帯域フィルタで処理され（通過帯域は１２００Hz乃至１３００Hzに及ぶ）、生成された信号は閾値Ｔと比較される。送出しているプロンプトのエコーは周波数帯域１２００Hz乃至１３００Hz内に重要な成分を含まないので、信号は閾値よりも低く、入力信号解析器21は、プロンプトR2の継続期間全体でユーザが発話していないことを示す信号23を出力する。
次にユーザは、自分の電話装置でＤＴＭＦ（デュアルトーンマルチフレケンシー）を使用して口座番号を入力することに進む。これらのトーンは言語認識器22によって受取られ、言語認識器22はトーンを数値データに変換し、それらをダイアログ制御装置30へ送る。次にダイヤログ制御装置30は、ＦＤＤＩローカルエリアネットワーク上に備えられた顧客データベースファイルサーバへ口座番号を送る。次にファイルサーバは、この口座に対して何れのサービスが利用可能とされているかを示すデータおよび顧客に関する他のデータ、例えば個人識別番号（ＰＩＮ）を戻す。図２および３には示されていないが、システムは顧客に口座番号を要求した直後にＰＩＮを入力するように命令する。
ダイヤログ制御装置30は記録された言語プロセッサ25に命令して、“ＴＲＡＮＳＦＥＲ（振替）”という言葉を発話する前にユーザが聞くサービスの種類を要求するプロンプトＲ３を出力する。ユーザの音声は、図4Ａに示したスペクトルに類似したスペクトルであってもよい。ユーザの音声を表す信号がユーザ入力解析器21へ送られるとき、信号は周波数帯域１２００Hz乃至１３００Hzに重要な成分を含むので、解析器21の入力は、ユーザが言語認識器22に対して発話していることを示す信号23を出力する。言語認識器22は、現在装置へ入力されている言葉が“ＴＲＡＮＳＦＥＲ”であることを認識し、この“ＴＲＡＮＳＦＥＲ”という単語がダイヤログ制御装置30に受取られる言葉であることを示す信号を送る。
この応答を受取った結果として、次にダイヤログ制御装置30は記録された言語プロセッサ25に命令して、ユーザが振り替えたい金額をユーザに質問するプロンプトを出力する。次にユーザは振り替えたい金額を言って応答する。この情報の発話式エントリは電話装置のキーパッドからの情報よりも潜在的に一層確実である。その理由はＤＴＭＦトーンを入力したときに間違えると、ユーザが振り替えたいだいたいの程度である金額の送金を要求することになるからである。
次にユーザの応答は言語認識器22によって処理され、ユーザから振り換えるように要求した金額（この場合は３１６．１７ポンド）を示すデータはダイヤログ制御装置30へ送られる。次にダイヤログ制御装置30は記録された言語プロセッサ25に命令して、記録された言語メッセージ、“I heard（（次のように）聞きました）”および“is that correct?（よろしいですか）”をメッセージ生成装置28へ送る。次にダイヤログ制御装置30は言語合成器26へ命令して、発話された３１６．１７ポンドを合成する。合成されたこれらの言葉は言語合成器26によって出力され、図4Ａに示したスペクトルに類似したスペクトルをもつ。次に信号は、ディジタルノッチフィルタ27へ送られ、図4Ｂに実線で示したスペクトルに類似したスペクトルをもって出力される。次に変形された合成メッセージはメッセージ生成装置28へロードされる。
次にメッセージ生成装置28は、２つの記録された言語メッセージと合成された言語メッセージとを結合して、プロンプトＲ５を準備する。プロンプトＲ５ではディジタルラインインターフェイス10を介してユーザへ出力される。その後ダイヤログは継続する。
システムに詳しいユーザは、図3に示したダイヤログを実行することができる。ダイヤログの最初の部分は図2に関して記載したダイヤログと一致しているが、プロンプトＲ２が要求しているように、電話装置のキーパッドを使用して自分の口座番号を入力するときに、ユーザが口座番号の入力を中断した後は異なる。電話装置によって出力されたＤＴＭＦトーンは、言語認識器22へ入力され、言語認識器22はＤＴＭＦトーンをデータを表す口座番号に変換し、このデータをダイヤログ制御装置30へ送る。ダイヤログ制御装置30がこのデータを受取るとすぐに、信号を記録された言語プロセッサ25へ送り、プロンプトＲ２で要求される口座番号の出力を停止する。明らかに、装置がプロンプトＲ２を送出することを止めると、プロンプトのエコーは装置へ送り戻されない。したがって、言語認識器は干渉エコーが存在しなくてもユーザによって入力される他のＤＴＭＦトーンを認識できる。
次にダイヤログは、ユーザが“ＴＲＡＮＳＦＥＲ”という言葉を発話することによってサービスを要求するプロンプトＲ３を中断するまで続く。メッセージＲ３の最初の２つの単語で、入力信号解析器21は信号23を出力して、ユーザの音声が存在していないことを示すことが認識されることになる。しかしながら、ユーザが出力メッセージを中断すると、装置で受取られる信号はユーザの音声と出力しているプロンプトのエコーとの組合わせになる。この組合わせ信号のスペクトルは、ユーザの音声のみのスペクトルに類似しているが（図4Ａ参照）、エコー信号のスペクトルは１２００Hz乃至１３００Hzの成分を欠いているので、１２００Hz乃至１３００Hzに小さいノッチを含むことを特徴とする（図４Ｃ参照）。
組合わせ信号は入力信号解析器21へ送られ、ここから帯域フィルタへ送られ、周波数範囲１２００Hz乃至１３００Hz内に重要な成分を含むことがわかる。したがって入力信号解析器21は信号23（ユーザの音声が存在することを示す）を言語認識器22とダイヤログ制御装置23の両方へ出力する。信号23を受取ると、ダイヤログ制御装置30は記録された言語プロセッサ25に命令して、プロンプトＲ３の出力を停止する。するとすぐに、プロンプトのエコーは言語認識器22で受取った信号に対する成分でなくなり、認識器は、ユーザが現在話している単語をよりよく認識することができる。ユーザの応答は認識されると、ダイヤログ制御装置30へ送られる。
その後、ユーザは、サービスを要求するプロンプトＲ３を中断するのに似たやり方で次の２つのダイヤログのプロンプトを中断する。
上述の実施形態において、予め処理を加えられ、発話されたプロンプトに欠けている成分は周波数スペクトルの一部を含むことであることが認識されるであろう。しかしながら、他の成分が欠けていることも認識される。例えば、短い継続期間の時間スロット（例えば、１乃至５ｍｓ）は規則正しい時間間隔（例えば２０乃至１００ｍｓ）で発話されたプロンプトから取り除くことができる。例えば言語が８kHzでディジタル形式でサンプリングされるとき、これは１６０乃至８００サンプルの間隔で８乃至４０サンプルをゼロ値に設定することによって達成できる。特定の値を取るために、信号から４００サンプルの間隔で２０サンプルを取って、入力信号解析器が８００サンプルの受取った信号の継続期間中に対応するサイレンス（silence、無音）またはサイレンスに近いもの（near silence）（すなわち、音量が所定の閾値よりも低いもの）を検出しなかったとき、ユーザが発話していることを示す信号を出力できるように、入力信号解析器を設定できる。
ユーザは“割込み”機能により取引をさらに迅速に実行できることが分かるであろう。さらに重要なことは、このやり方で装置によって出されるプロンプトを中断できることにより、ユーザはダイヤログの制御が一層可能になったと感じることである。

Claims

対話式装置であって、
動作時に処理を加えられた言語を表す記号を出力するようにされている信号出力手段と、
動作時にユーザが発話したコマンドを表す信号を受取るようにされている信号入力手段と、
なお、処理を加えられた言語は言語内に通常存在する成分を欠いており、該欠けている成分が前記言語信号の複数の隔った短い時間セグメントを含み、
処理を加えられた言語を欠けている成分を含む言語を表す信号入力を検出することによって、処理を加えられた言語の生成中に話されたユーザのコマンドを検出するように動作するコマンド検出手段と、を含む対話式装置。
言語を表す信号に条件を付けて、処理を加えられた言語を表す前記信号を準備する手段をさらに含む請求項１記載の装置。
前記処理を加える手段がディジタルフィルタを含む請求項２記載の装置。
欠けている成分が周波数スペクトルの１または複数の部分を含む請求項１乃至３の何れか１項記載の装置。
前記部分の幅が、範囲８０Hz乃至１２０Hz内に含まれている請求項４に記載の装置。
音声制御可能な装置であって、
請求項１乃至５の何れか１項記載の対話式装置と、
処理を加えられた言語を表す前記信号を処理を加えられた言語に変換する手段と、
ユーザが発話したコマンドをそれを表す信号に変換する手段と、を含む音声制御可能な装置
対話式装置に対するユーザが発話したコマンドを検出する方法であって、
ユーザーが発話したコマンド内に通常含まれている成分を欠いている処理を加えられた言語を表す信号を出力する段階であって、該欠けている成分が前記言語信号の複数の隔った短い時間セグメントを含むものと、
前記成分を含む言語を表す信号の存在に対して対話式装置へ入力される信号を監視する段階と、
前記成分を含む言語を表す信号の存在を検出したときに、ユーザが発話したコマンドを表す入力信号を判断する段階と、を含む方法。
発話形式のコマンドを表す信号に条件を付ける段階をさらに含む請求項７記載の方法。
請求項１乃至５の何れか１項記載の装置を含む通信ネットワーク。
動作時に予め条件を付けられた発話されたプロンプトまたはそれを表す信号を出力するようにされている出力手段と、
動作時にユーザの音声を表す信号を入力するようにされている入力手段と、
なお、予め条件を付けられた発話されたプロンプトが、通常は言語内に存在する成分を欠いており、
予め条件を付けられたプロンプトの送出中に、プロンプトから欠けている成分を含む信号の入力を検出することによって、ユーザからの入力を検出するように動作する応答検出手段と、を含み、
該欠けている成分が前記信号の複数の隔った短い時間セグメントを含む、対話式装置。