JP2001510660A

JP2001510660A - 音声データインターフェイス

Info

Publication number: JP2001510660A
Application number: JP53397198A
Authority: JP
Inventors: ジョンストン、ロバート・デニス
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1997-02-05
Filing date: 1998-01-22
Publication date: 2001-07-31
Also published as: AU5674398A; EP0958692A1

Abstract

(57)【要約】データベース（４）からのテキストのページは、他のリンクされたページのアドレスでマークを付けられた一定の単語をもつ。テキストは参照符号（10）で受取られ、言語合成器（15）によってオーディオ信号に変換され、ユーザはそれを聞くことができるようになる。ユーザの発話応答は言語認識器（19）へ供給され、ユーザが関心をもっているマークを付された単語と関係付けられたアドレスをデータベース（４）へ戻して、対応するリンクされたページの検索することができる。ユーザは何れの単語にマークが付けられたかを必ずしも知らないが、認識器は合成器に供給された全テキストにユーザ応答を整合させ、最良の整合を与えるテキスト内の単語を識別するように、設定される。レゾルバ（20）は識別された単語に最も近いマークを付された単語を見付け、関係付けられたリンクアドレスを抽出する。

Description

【発明の詳細な説明】音声データインターフェイス本発明は、テキスト応用サービスへの音声対話式アクセスに関する。本発明の１つの態様によると、音声対話式サービス用のインターフェイスであって：単語のシーケンスを表すコード化された信号を受取り、出力用にそれに対応するオーディオ信号を生成する言語合成器と；前記コード化された信号を受取るように接続され、認識されることになる言語信号を受取ったときに、認識されることになる言語信号に最も似ているコード化された信号によって表される単語のシーケンスの部分を識別するように動作する言語認識手段とを含む音声対話式サービスインターフェイスを提供している。別の態様では本発明は、音声対話式サービスを実行する方法であって：（ａ）単語のシーケンスを表わすコード化された信号を受取り、出力するために該信号をに対応するオーディオ信号を合成することと；（ｂ）言語信号を受取り、言語認識器によって、受信した言語信号に最も似ているコード化された信号によって表される単語シーケンスの部分を識別することと；（ｃ）認識結果を使用して、単語の別のシーケンスを選択することとを含む音声対話サービスを実行する方法を提供する。本発明の別の態様は請求項に記載されている。ここで本発明の別の実施形態を例示的に添付の図面を引用して記載することにする。図１には音声対話サービスを提供する装置１を示し、この例では、ユーザが電話２を使用して、音声のみによるテキスト応用情報サービスにアクセスできるようにすることが意図されている。装置１はユーザ構内またはテキスト応用情報サービスの場所に配置できるが、この例では電話交換局または他の中央の位置に配置されており、ここでは多くのユーザが（異なる時間に、または―機能を複製して―同期して）遠隔通信リンク、例えばＰＳＴＮダイヤル接続３を介して装置１にアクセスできる。情報サービスは、遠隔のデータベースサーバ４によって提供され、該データベースサーバ４は記憶したテキスト情報ページを含む（またはアクセスを行うゲートウエイを形成する）―しかしながら所望であればデータベースは装置１に組込んでもよい。ここではサーバは、インターネットのような遠隔通信リンク５を経てアクセスできるネットワークの一部であり、ネットワークアドレスによって識別されるドキュメントを送ることによって、ネットワークへ送られるアドレスに応答すると仮定している。インターネットによって供給されるドキュメントは、一般的にハイパーテキストマークアップ言語（ＨＴＭＬ）にしたがってフォーマットされる。ＨＴＭＬは、それ自身、国際規格ＩＳＯ８８７９にしたがう標準の一般化されたマークアップ言語(the standard generalized ma rkup language)の特別な例である。ＨＴＭＬドキュメントは、テキストの単語を形成しているテキストの文字を含むことに加えて、位置、フォントサイズ、イタリック、などをスクリーン上に表示する（または印刷する）ときに、ドキュメントの外見(appearance)を示すフォーマット情報も含む。これらの精密な詳細は本発明の目的にとって重要でない；しかしながら重要なことは、これらのドキュメントは別のドキュメントのアドレスと関係付けられた単語または句にフラグを立てる備えをしていることである。このようなドキュメントの一部は図２Ａに示し、表示された外見は図２Ｂに示した。このフォーマットおよび制御情報は、区切り記号（デリミッタ）として山形マーク“＜＞”で閉じられており、これは表示することを意図したものではないことがわかる。テキスト“Patent Office Site s”は、開始および終了コード＜ｂ＞および＜／ｂ＞によって示されているように太字活字で示されている。テキスト“US Patent and Trademark Office”は＜ａ＞および＜／ａ＞の区切り記号を側部に置き、通常は特有のやり方―例えば特別な色またはアンダーラインでテキストを表示し、このフレーズａをリンクを表すものとして識別する。さらにこの＜ａ＞コードは米合衆国特許商標局(US Pate nt and Trademark Office)のインターネットページのアドレスである連想アドレス"http://www.uspto.gov"を含む。ユーザはビジュアルディスプレイ端末でこのようなドキュメントを受取り、ＵＳＰＴＯページを選択することを望むときには、マウスのような位置決めデバイスを使用して、＜ａ＞および＜／ａ＞を側部に置いたフレーズを指示し、端末によって連想アドレスを抽出し、新しいドキュメントを選択するためにそれを送る。図１の装置１は、簡単に以下の通りに機能する：（ａ）サーバ４からＨＴＭＬドキュメントを受取り；（ｂ）ドキュメント内に含まれているテキストを再び引用するオーディオ信号を合成し、それをライン３を経て参照符号２のところにいるのユーザへ送り；（ｃ）ユーザからの発話応答を認識し；（ｄ）別のドキュメントの選択を示すとき、ユーザから応答を認識し；（ｅ）サーバ４へこのドキュメントのアドレスを送る。図３は装置１を更に詳細に示している。装置１はネットワークインターフェイス10を含み、ネットワークインターフェイス10はリンク５へ接続するモデムと、それに加えてモデムを経てサーバへアドレスを送り、サーバからドキュメントを受取るソフトウエアでプログラムされたプロセッサとを含む。このソフトウエアは、Ｎｅｔｓｃａｐｅのような従来のブラウザソフトウエアとは異なり、（ａ）キーボードでタイプするかまたはマウスを使用して選択するのではなく、接続11 を経てアドレスを受取り、（ｂ）受取ったテキストをファイルまたは接続13を経てアクセスできるバッファ12へ直接に出力する。ドキュメントはインターフェイス10によって受取られ、バッファ12に記憶されると仮定する。テキストの第１の部分は読取られ、対応してコード化された信号はライン13で出力される。実際のテキスト出力量は、例えば第１の（または第２等）終止符、あるいは第１のパラグラフ符号までのテキスト内に含まれる句読記号(punctuation character)に依存する。テキスト出力はテキスト前処理ユニット14によって受取られ、このテキスト前処理ユニット14は望ましくない制御情報を削除し、それを従来のテキストー言語（ＴＴＳ）合成器15へ送る。合成器は、テキストの一部に対応するオーディオ信号を生成し、このオーディオ信号は電話線３上を参照符号２のところのユーザに送られる。テキストの該部分はバッファ16にもコピーされる。これは、前処理ユニット14 の第２の出力から到来するものとして示される。その理由は、ユニット14が合成器15へ送られるテキストから全てのフォーマットおよび制御情報（すなわち、文字＜ａｎｄ＞およびその内のもの）を取り除く一方で、バッファ16へ送られるテキストは依然としてリンクアドレスコマンド（例えば、＜aref="http//ww w.epo.co.at/epo"＞・・・・＜／ａ＞）を含むが、他の全てのフォーマットおよび制御情報を削除するからである。所望であれば、選択した印(marking)を合成器へ送ることができ、その結果例えば太字活字が一層強く強勢を加えられるようにすることもできるが、この選択は完全に任意である。リンクアドレスはバッファ16内に記憶されているが、それらは言語認識器19へ接続された認識ネットワーク生成器18へテキストを送る前に、別のテキスト処理 17によって取り除かれる。認識器19は電話線３からオーディオ信号を受取るように接続されているので、参照符号２のところにいるユーザからの応答を認識できる。認識器はパーマネントプログラミングを含み、システムを制御するための標準コマンドワードを認識できる；しかしながらその主要な目的はユーザ応答を、合成器15によって発話されたばかりのソーステキストに適合させ；ユーザ応答に最も良く似ているバッファ16内に存在するソーステキストの該部分を識別する。したがって認識ネットワーク生成器18の機能は、そこへ入力されるテキストから、このタスクに対応する語彙および文法を規定する認識器のパラメータを導き出すことである。この例で、認識器の出力はテキストの整合した部分（またはコマンドワード）に対応するテキストストリングであると仮定する。ユーザ応答を表すこの出力は、別のドキュメント情報に対する要求とみなされ、次のタスクでは、バッファ16 内にテキストストリングを配置し、その中に含まれるリンクアドレス；または何もないときは、バッファ内に記憶された最も近いリンクアドレスを戻すことによってこれを識別する。この機能（後述で更に詳しく記載する）はリンク分解ユニット20によって実行され、リンク分解ユニット（レゾルバ）20はリンクアドレスをインターフェイス10へ出力して、インターフェイス10は別のドキュメントが要求されたときにデータベースサーバ４へそれを送る。しかしながら、リンクが現在のドキュメント内の位置を表すときは、コマンドはバッファ12へ送出され、特定のポイントからテキストを読み取る。制御機能は―例えばユーザが、バッファ12内に現在記憶されているドキュメントの次の（または先行する）パラグラフへ移るか、またはデフォルトドキュメントへ戻るか、または接続を終了したい場合―電話装置のキーパッドを使用して実行できるが、好ましくは一定の単語を認識器19にパーマネントボキャブラリとして記憶された制御語（例えば、More,Back,Home,Quit）として示し、該制御語を制御ユニット21へ送り、制御ユニット21はこれらの単語の１つを受取ると、適切な命令をバッファ12またはインターフェイス10、あるいはその両方に送出することによって達成される。この装置と、とくにリンクレゾルバ(link resolver)20の動作を更に説明することによって、バッファ12が図4Aに示したドキュメントでロードされる状況を検討する。このドキュメントは、ビジュアルディプレイユニット上に表示されると、図4Bに示したようになる。バッファ12は１つのパラグラフを１度に出力するように設定され；さらにユーザが既にタイトルを聞いており、"More"が要求されると仮定すると、バッファ12 は図４Ｃに示したように次のパラグラフ""Welcome…forests")をテキストプリプロセッサへ出力する。ここでユーザが、"the Amazon basin（アマゾン湿地）"と言うと仮定する。認識器19は言語信号を整合し、テキストストリング"Amazon basin"を出力し、リンクレゾルバ20は次のテキストストリングをバッファ16でサーチし、それがリンクアドレスhttp://www/amazon.basin"に付加されることを認め、このアドレスを読取り、それをインターフェイス10へ送り、インターフェイス10ではそれをデータベースサーバ４へ送って、次のページを呼び出す。もちろん、ユーザはどの表現がリンクアドレスに付いていて、ユーザが他の単語を発話する可能性を考慮するようにしているかを知ることはできないが、リンクレゾルバは図５に示したフローチャートにしたがって動作する。第１のテスト 30では、それが整合したソーステキストがリンクであるか、またはリンクを含むかを判断する。"Amazon basin"、“birds in the Amazon basin"、または"basin many of"でさえもこのテストをパスすることになる。この場合、問題のリンクアドレスは参照符号31で選択される。さもなければ、第２のテスト32を行って、整合したソーステキストがリンクを含む構文の中にあるか否かを確かめる；例えば "one thousand species"はこのカテゴリに含まれる。この場合、この構文内のアドレス（または、２つ以上あるときは、整合したソーステキストの最も近くにあるもの）を選択する。さもなければ、例えば、整合したテキストからバッファ内の該整合したテキストの上および下の次のリンクへの単語数（または文字数）を計数し、より小さい計数のリンクを選択することによって、整合したソーステキストに最も近いリンクを選択し、更に類似したリンクを選択する。一層複雑なアルゴリズムは、整合したテキストに対する意味上の類似度に対して、整合したテキストの上および下の最も近いリンクを調べ、さらに類似したリンクを選択することができる。改良として、この選択に加重して、パラグラフの境界を越すとき、計数に（例えば）１０の単語を増加することによって句読記号を考慮することができる。ＨＴＭＬ言語はさらに、図４Ａに示したように英国野生生物学会(British Wil dlife Society)に関する現在のドキュメントの他の部分にリンクすることができる。この名前を認識器によって認識するとき、アドレス“＃３２２４”はリンクレゾルバによって内部アドレスとして認識され、インターフェイス10ではなく、バッファ12へ送られ、アドレスによって特定されたドキュメント内の点からパラグラフを読取るようにする。ここで認識ネットワーク発生器18の動作をさらに説明する。本質的に２つの構成要素で所定の機能に対して認識器を設定する。第１はその語彙を規定するものであり、第２はその文法を規定するものである。語彙は、認識器が１組のモデルまたはテンプレート、通常は認識される各単語に対して１つをもつことを保証するという問題である―すなわち、バッファ16内に存在する（リンクアドレスではなく）単語の各々に対して１つもつことである。したがって語彙の生成には通常の方法の幾つかを使用することができる。一般的に、これは１組のサブワードモデル（例えば、フォニームごとに１つづつ）でプログラムされた認識器を使用して、テキストから言語への合成器の動作と類似のやり方でバッファから伝えられる各単語を処理することによって達成され、適切なサブワードモデルの連結によって単語のテンプレートを生成する。代りに、認識器は、標準の組中にない適切な名前および他の単語を収容するバッファ16から対応する単語を受取るときに検索でき単語モデルの標準メモリを含んでもよいが、加えて通常のサブワード連結方法も使用できる。認識器の文法は、何れの単語シーケンスが許容可能であるかを定める１組の記憶されたパラメータである；例えば図4Aに示されたバッファの内容を検討すると、"Amazon basin"は認識するのに便利な単語のシーケンスである一方で"basin A mazon"ではない。１つの可能性は、（ユーザの発話と整合するシーケンスとして）１以上のいくつでもよい数の単語を認めることであるが、バッファ内に現れるシーケンスの中にのみであることを条件とする。図６は、これ（テキストの一部のみを）を図形的に表したものであり、参照符号40は認識“トリー”の先端ノードを表し、参照符号41は終端ノードを表し、参照符号42は単語モデルを表し、参照符号43は許可通路を表している。図７に示したように‘キャリアフレーズ(carrier phrases)’のネットワークを含むことができ、したがってユーザは“Tell me more about the Amazon Basi n.(アマゾン湿地について更に詳しく教えてください)”というような文を述べることができる。その代りに、ガーベージまたはシンクモデル（図８参照）をネットワークの先端および終端に準備して、言語がエコーフレーズ(echo phrase)を取り囲むことができるようにしてもよい。別の実施形態では、認識器が図９に示したようにどんな順序でページ上の単語を発話されても簡単に許されるようにする。このような認識器の精度は図６乃至８に示した認識器ほど高くないが、ＨＴＭＬページの内容に基づく統計的な制約が認識プロセスに含まれるときは、実地動作をするシステムを生成することができる。図３に簡単に戻ると、この実施形態では認識器は認識結果を表す“ラベル”として、バッファ16によって認識ネットワーク生成装置18へ供給される実際のテキストストリングの関連する部分を戻すことを仮定し、リンクレゾルバ20はこのストリングをバッファ内容に整合し、所望のリンクを配置している。これは従来のユニットを認識器16として使用できるようにするのに便利であるが、リンクレゾルバの動作をスピードアップするには、バッファへの一層迅速なアクセスを可能にするいくつかのパラメータ、例えば整合したソーステキストストリングの最初と最後の文字にバッファ16内のアドレスを与えるポインタ値を戻すように認識器を設定するやり方がある。図１にはサーバを１つだけ示したが、もちろん他にもあり、送られたリンクアドレスは、ドキュメントを送出する該ドキュメントを送出したサーバとは異なるサーバに向うことになっている。この実施形態ではソーステキストがハイパーリンクアドレスを保持することを予め仮定しているが；この形態のアドレスを埋め込まずにこのシステムを動作することもできる。例えば、データベースサーバの座標を送って、整合を行うソーステキスト（またはその範囲）内の点を識別することができる。コネクションレスサービス、例えばインターネットの場合、この情報を、それを送る前にサーバのアドレスと連結することが必要になる。上述のように、テキストプロセッサ14は一定の印を合成器15へ送って、太字活字を強調できるようにする。同様に、プリプロセッサはハイパーリンクの印＜ａ＞…＜／ａ＞（アドレスがなくても）を送り、強調を適用するか、またはテキストのリマインダに使用されたものと異なる音声（例えば、女性ではなく男性の音声）にスイッチすることによってこれらに応答するように合成器を構成することができる。このやり方を使用して、別の実施形態では、言語認識器の語彙を簡単にして、リンクワードのみを含むことができるようにするが、それでも何れの単語を強調して（または異なる音声で）発話したかを常に正確に思い出すことができない可能性があるので、上述のように認識器を動作することが好ましい。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＧＨ，ＧＭ，ＧＷ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷ

Claims

【特許請求の範囲】１．音声対話式サービス用のインターフェイスであって：単語のシーケンスを表すコード化された信号を受取り、出力用にそれに対応するオーディオ信号を生成する言語合成器と；前記コード化された信号を受取るように接続され、認識されることになる言語信号を受取ったときに、認識されることになる言語信号に最も似ているコード化された信号によって表される単語のシーケンスの部分を識別するように動作する言語認識手段とを含む音声対話式サービスインターフェイス。２．コード化された信号は、別の情報へのリンクを表すシーケンスの１または複数の単語を識別するリンク信号を含み、装置は、コード化された信号からシーケンスの識別された類似部分内またはそれに隣接するリンク信号を選択するように動作できる請求項１記載のインターフェイス。３．遠隔のソースからコード化された信号を受け取り、選択したリンク信号を同じまたは別の遠隔のソースへ送って別のコード化された信号を要求するように接続された通信インターフェイスを含む請求項２記載のインターフェイス。４．コード化された信号を記憶するバッファを含み：（ａ）インターフェイスが機能的に、言語合成器が、バッファ内に記憶されたコード化された信号の一部分のみに対応するオーディオ信号を生成することができ、そのときに認識器が、コード化された信号の前記部分によって表される単語シーケンスの部分でどの部分が認識される言語信号に最も似ているかを識別し；および、（ｂ）インターフェイスが、バッファ内に記憶されたコード化された信号の別の部分を識別するリンク信号に応答し、別の部分を合成器および認識手段に送る制御手段を含む請求項２または３記載のインターフェイス。５．電話線インターフェイスを含み、生成されたオーディオ信号および受信された言語信号をそれぞれ遠隔のユーザとの間で送受信することができる請求項１乃至４の何れか１項記載のインターフェイス。６．添付の図面を引用して記載した音声対話式サービス用インターフェイス。７．音声対話式サービスを実行する方法であって：（ａ）単語のシーケンスを表わすコード化された信号を受取り、出力するために該信号をに対応するオーディオ信号を合成することと；（ｂ）言語信号を受取り、言語認識器によって、受信した言語信号に最も似ているコード化された信号によって表される単語シーケンスの部分を識別することと；（ｃ）認識結果を使用して、単語の別のシーケンスを選択することとを含む音声対話サービスを実行する方法。８．コード化された信号が、別の情報へのリンクを表すシーケンスの１または複数の単語を識別するリンク信号を含み、段階（ｃ）がコード化された信号からシーケンスの識別された類似部分内またはそれに隣接するリンク信号を選択することを含む請求項７記載の方法。９．単語のシーケンスを表すコード化された信号を受取り、出力のにそれに対応するオーディオ信号を生成する言語合成器であって、コード化された信号が、別の情報へのリンクを表すシーケンスの１または複数の単語を識別するリンク信号を含み、リンク信号の受取りに応答して、異なるやり方で識別されていない単語から識別された単語を発話する言語合成器と；リンクを表示する単語を表わすコード化された信号の少なくとも一部を受取るように接続され、認識された言語信号を受取ったとき、リンクを表す単語の何れが認識される言語信号に最も類似しているかを識別するように動作する言語認識手段とを含む音声対話式サービス用インターフェイス。