【発明の詳細な説明】
音声データインターフェイス
本発明は、テキスト応用サービスへの音声対話式アクセスに関する。
本発明の1つの態様によると、音声対話式サービス用のインターフェイスであ
って:
単語のシーケンスを表すコード化された信号を受取り、出力用にそれに対応
するオーディオ信号を生成する言語合成器と;
前記コード化された信号を受取るように接続され、認識されることになる言
語信号を受取ったときに、認識されることになる言語信号に最も似ているコード
化された信号によって表される単語のシーケンスの部分を識別するように動作す
る言語認識手段とを含む音声対話式サービスインターフェイスを提供している。
別の態様では本発明は、音声対話式サービスを実行する方法であって:
(a)単語のシーケンスを表わすコード化された信号を受取り、出力するた
めに該信号をに対応するオーディオ信号を合成することと;
(b)言語信号を受取り、言語認識器によって、受信した言語信号に最も似
ているコード化された信号によって表される単語シーケンスの部分を識別するこ
とと;
(c)認識結果を使用して、単語の別のシーケンスを選択することとを含む
音声対話サービスを実行する方法を提供する。
本発明の別の態様は請求項に記載されている。
ここで本発明の別の実施形態を例示的に添付の図面を引用して記載することに
する。
図1には音声対話サービスを提供する装置1を示し、この例では、ユーザが電
話2を使用して、音声のみによるテキスト応用情報サービスにアクセスできるよ
うにすることが意図されている。装置1はユーザ構内またはテキスト応用情報サ
ービスの場所に配置できるが、この例では電話交換局または他の中央の位置に配
置されており、ここでは多くのユーザが(異なる時間に、または―機能を複製し
て―同期して)遠隔通信リンク、例えばPSTNダイヤル接続3を介して装置1
にアクセスできる。情報サービスは、遠隔のデータベースサーバ4によって提供
され、該データベースサーバ4は記憶したテキスト情報ページを含む(またはア
クセスを行うゲートウエイを形成する)―しかしながら所望であればデータベー
スは装置1に組込んでもよい。ここではサーバは、インターネットのような遠隔
通信リンク5を経てアクセスできるネットワークの一部であり、ネットワークア
ドレスによって識別されるドキュメントを送ることによって、ネットワークへ送
られるアドレスに応答すると仮定している。インターネットによって供給される
ドキュメントは、一般的にハイパーテキストマークアップ言語(HTML)にし
たがってフォーマットされる。HTMLは、それ自身、国際規格ISO8879
にしたがう標準の一般化されたマークアップ言語(the standard generalized ma
rkup language)の特別な例である。HTMLドキュメントは、テキストの単語を
形成しているテキストの文字を含むことに加えて、位置、フォントサイズ、イタ
リック、などをスクリーン上に表示する(または印刷する)ときに、ドキュメン
トの外見(appearance)を示すフォーマット情報も含む。これらの精密な詳細は本
発明の目的にとって重要でない;しかしながら重要なことは、これらのドキュメ
ントは別のドキュメントのアドレスと関係付けられた単語または句にフラグを立
てる備えをしていることである。このようなドキュメントの一部は図2Aに示し
、表示された外見は図2Bに示した。このフォーマットおよび制御情報は、区切
り記号(デリミッタ)として山形マーク“<>”で閉じられており、これは表示
することを意図したものではないことがわかる。テキスト“Patent Office Site
s”は、開始および終了コード<b>および</b>によって示されているよう
に太字活字で示されている。テキスト“US Patent and Trademark Office”は<
a>および</a>の区切り記号を側部に置き、通常は特有のやり方―例えば特
別な色またはアンダーラインでテキストを表示し、このフレーズaをリンクを表
すものとして識別する。さらにこの<a>コードは米合衆国特許商標局(US Pate
nt and Trademark Office)のインターネットページのアドレスである連想アドレ
ス"http://www.uspto.gov"を含む。ユーザはビジュアルディスプレイ端末でこの
ようなドキュメントを受取り、USPTOページを選択することを望むときには
、マウスのような位置決めデバイスを使用して、<a>および</a>を側部に
置いたフレーズを指示し、端末によって連想アドレスを抽出し、新しいドキ
ュメントを選択するためにそれを送る。
図1の装置1は、簡単に以下の通りに機能する:
(a)サーバ4からHTMLドキュメントを受取り;
(b)ドキュメント内に含まれているテキストを再び引用するオーディオ信号
を合成し、それをライン3を経て参照符号2のところにいるのユーザへ送り;
(c)ユーザからの発話応答を認識し;
(d)別のドキュメントの選択を示すとき、ユーザから応答を認識し;
(e)サーバ4へこのドキュメントのアドレスを送る。
図3は装置1を更に詳細に示している。装置1はネットワークインターフェイ
ス10を含み、ネットワークインターフェイス10はリンク5へ接続するモデムと、
それに加えてモデムを経てサーバへアドレスを送り、サーバからドキュメントを
受取るソフトウエアでプログラムされたプロセッサとを含む。このソフトウエア
は、Netscapeのような従来のブラウザソフトウエアとは異なり、(a)
キーボードでタイプするかまたはマウスを使用して選択するのではなく、接続11
を経てアドレスを受取り、(b)受取ったテキストをファイルまたは接続13を経
てアクセスできるバッファ12へ直接に出力する。
ドキュメントはインターフェイス10によって受取られ、バッファ12に記憶され
ると仮定する。テキストの第1の部分は読取られ、対応してコード化された信号
はライン13で出力される。実際のテキスト出力量は、例えば第1の(または第2
等)終止符、あるいは第1のパラグラフ符号までのテキスト内に含まれる句読記
号(punctuation character)に依存する。
テキスト出力はテキスト前処理ユニット14によって受取られ、このテキスト前
処理ユニット14は望ましくない制御情報を削除し、それを従来のテキストー言語
(TTS)合成器15へ送る。合成器は、テキストの一部に対応するオーディオ信
号を生成し、このオーディオ信号は電話線3上を参照符号2のところのユーザに
送られる。
テキストの該部分はバッファ16にもコピーされる。これは、前処理ユニット14
の第2の出力から到来するものとして示される。その理由は、ユニット14が合成
器15へ送られるテキストから全てのフォーマットおよび制御情報(すなわ
ち、文字<and>およびその内のもの)を取り除く一方で、バッファ16へ送ら
れるテキストは依然としてリンクアドレスコマンド(例えば、<aref="http//ww
w.epo.co.at/epo">・・・・</a>)を含むが、他の全てのフォーマットおよび制
御情報を削除するからである。
所望であれば、選択した印(marking)を合成器へ送ることができ、その結果例
えば太字活字が一層強く強勢を加えられるようにすることもできるが、この選択
は完全に任意である。
リンクアドレスはバッファ16内に記憶されているが、それらは言語認識器19へ
接続された認識ネットワーク生成器18へテキストを送る前に、別のテキスト処理
17によって取り除かれる。
認識器19は電話線3からオーディオ信号を受取るように接続されているので、
参照符号2のところにいるユーザからの応答を認識できる。認識器はパーマネン
トプログラミングを含み、システムを制御するための標準コマンドワードを認識
できる;しかしながらその主要な目的はユーザ応答を、合成器15によって発話さ
れたばかりのソーステキストに適合させ;ユーザ応答に最も良く似ているバッフ
ァ16内に存在するソーステキストの該部分を識別する。
したがって認識ネットワーク生成器18の機能は、そこへ入力されるテキストか
ら、このタスクに対応する語彙および文法を規定する認識器のパラメータを導き
出すことである。
この例で、認識器の出力はテキストの整合した部分(またはコマンドワード)
に対応するテキストストリングであると仮定する。ユーザ応答を表すこの出力は
、別のドキュメント情報に対する要求とみなされ、次のタスクでは、バッファ16
内にテキストストリングを配置し、その中に含まれるリンクアドレス;または何
もないときは、バッファ内に記憶された最も近いリンクアドレスを戻すことによ
ってこれを識別する。この機能(後述で更に詳しく記載する)はリンク分解ユニ
ット20によって実行され、リンク分解ユニット(レゾルバ)20はリンクアドレス
をインターフェイス10へ出力して、インターフェイス10は別のドキュメントが要
求されたときにデータベースサーバ4へそれを送る。しかしながら、リンクが現
在のドキュメント内の位置を表すときは、コマンドはバッファ12へ送出さ
れ、特定のポイントからテキストを読み取る。
制御機能は―例えばユーザが、バッファ12内に現在記憶されているドキュメン
トの次の(または先行する)パラグラフへ移るか、またはデフォルトドキュメン
トへ戻るか、または接続を終了したい場合―電話装置のキーパッドを使用して実
行できるが、好ましくは一定の単語を認識器19にパーマネントボキャブラリとし
て記憶された制御語(例えば、More,Back,Home,Quit)として示し、該制御語を
制御ユニット21へ送り、制御ユニット21はこれらの単語の1つを受取ると、適切
な命令をバッファ12またはインターフェイス10、あるいはその両方に送出するこ
とによって達成される。
この装置と、とくにリンクレゾルバ(link resolver)20の動作を更に説明する
ことによって、バッファ12が図4Aに示したドキュメントでロードされる状況を検
討する。このドキュメントは、ビジュアルディプレイユニット上に表示されると
、図4Bに示したようになる。
バッファ12は1つのパラグラフを1度に出力するように設定され;さらにユー
ザが既にタイトルを聞いており、"More"が要求されると仮定すると、バッファ12
は図4Cに示したように次のパラグラフ""Welcome…forests")をテキストプリプ
ロセッサへ出力する。
ここでユーザが、"the Amazon basin(アマゾン湿地)"と言うと仮定する。認
識器19は言語信号を整合し、テキストストリング"Amazon basin"を出力し、リン
クレゾルバ20は次のテキストストリングをバッファ16でサーチし、それがリンク
アドレスhttp://www/amazon.basin"に付加されることを認め、このアドレスを読
取り、それをインターフェイス10へ送り、インターフェイス10ではそれをデータ
ベースサーバ4へ送って、次のページを呼び出す。
もちろん、ユーザはどの表現がリンクアドレスに付いていて、ユーザが他の単
語を発話する可能性を考慮するようにしているかを知ることはできないが、リン
クレゾルバは図5に示したフローチャートにしたがって動作する。第1のテスト
30では、それが整合したソーステキストがリンクであるか、またはリンクを含む
かを判断する。"Amazon basin"、“birds in the Amazon basin"、または"basin
many of"でさえもこのテストをパスすることになる。この場合、問題のリンク
ア
ドレスは参照符号31で選択される。さもなければ、第2のテスト32を行って、整
合したソーステキストがリンクを含む構文の中にあるか否かを確かめる;例えば
"one thousand species"はこのカテゴリに含まれる。この場合、この構文内のア
ドレス(または、2つ以上あるときは、整合したソーステキストの最も近くにあ
るもの)を選択する。さもなければ、例えば、整合したテキストからバッファ内
の該整合したテキストの上および下の次のリンクへの単語数(または文字数)を
計数し、より小さい計数のリンクを選択することによって、整合したソーステキ
ストに最も近いリンクを選択し、更に類似したリンクを選択する。一層複雑なア
ルゴリズムは、整合したテキストに対する意味上の類似度に対して、整合したテ
キストの上および下の最も近いリンクを調べ、さらに類似したリンクを選択する
ことができる。
改良として、この選択に加重して、パラグラフの境界を越すとき、計数に(例
えば)10の単語を増加することによって句読記号を考慮することができる。
HTML言語はさらに、図4Aに示したように英国野生生物学会(British Wil
dlife Society)に関する現在のドキュメントの他の部分にリンクすることができ
る。この名前を認識器によって認識するとき、アドレス“#3224”はリンク
レゾルバによって内部アドレスとして認識され、インターフェイス10ではなく、
バッファ12へ送られ、アドレスによって特定されたドキュメント内の点からパラ
グラフを読取るようにする。
ここで認識ネットワーク発生器18の動作をさらに説明する。本質的に2つの構
成要素で所定の機能に対して認識器を設定する。第1はその語彙を規定するもの
であり、第2はその文法を規定するものである。語彙は、認識器が1組のモデル
またはテンプレート、通常は認識される各単語に対して1つをもつことを保証す
るという問題である―すなわち、バッファ16内に存在する(リンクアドレスでは
なく)単語の各々に対して1つもつことである。したがって語彙の生成には通常
の方法の幾つかを使用することができる。一般的に、これは1組のサブワードモ
デル(例えば、フォニームごとに1つづつ)でプログラムされた認識器を使用し
て、テキストから言語への合成器の動作と類似のやり方でバッファから伝えられ
る各単語を処理することによって達成され、適切なサブワードモデルの連結
によって単語のテンプレートを生成する。代りに、認識器は、標準の組中にない
適切な名前および他の単語を収容するバッファ16から対応する単語を受取るとき
に検索でき単語モデルの標準メモリを含んでもよいが、加えて通常のサブワード
連結方法も使用できる。
認識器の文法は、何れの単語シーケンスが許容可能であるかを定める1組の記
憶されたパラメータである;例えば図4Aに示されたバッファの内容を検討すると
、"Amazon basin"は認識するのに便利な単語のシーケンスである一方で"basin A
mazon"ではない。1つの可能性は、(ユーザの発話と整合するシーケンスとして
)1以上のいくつでもよい数の単語を認めることであるが、バッファ内に現れる
シーケンスの中にのみであることを条件とする。図6は、これ(テキストの一部
のみを)を図形的に表したものであり、参照符号40は認識“トリー”の先端ノー
ドを表し、参照符号41は終端ノードを表し、参照符号42は単語モデルを表し、参
照符号43は許可通路を表している。
図7に示したように‘キャリアフレーズ(carrier phrases)’のネットワーク
を含むことができ、したがってユーザは“Tell me more about the Amazon Basi
n.(アマゾン湿地について更に詳しく教えてください)”というような文を述べる
ことができる。その代りに、ガーベージまたはシンクモデル(図8参照)をネッ
トワークの先端および終端に準備して、言語がエコーフレーズ(echo phrase)を
取り囲むことができるようにしてもよい。
別の実施形態では、認識器が図9に示したようにどんな順序でページ上の単語
を発話されても簡単に許されるようにする。このような認識器の精度は図6乃至
8に示した認識器ほど高くないが、HTMLページの内容に基づく統計的な制約
が認識プロセスに含まれるときは、実地動作をするシステムを生成することがで
きる。
図3に簡単に戻ると、この実施形態では認識器は認識結果を表す“ラベル”と
して、バッファ16によって認識ネットワーク生成装置18へ供給される実際のテキ
ストストリングの関連する部分を戻すことを仮定し、リンクレゾルバ20はこのス
トリングをバッファ内容に整合し、所望のリンクを配置している。これは従来の
ユニットを認識器16として使用できるようにするのに便利であるが、リン
クレゾルバの動作をスピードアップするには、バッファへの一層迅速なアクセス
を可能にするいくつかのパラメータ、例えば整合したソーステキストストリング
の最初と最後の文字にバッファ16内のアドレスを与えるポインタ値を戻すように
認識器を設定するやり方がある。
図1にはサーバを1つだけ示したが、もちろん他にもあり、送られたリンクア
ドレスは、ドキュメントを送出する該ドキュメントを送出したサーバとは異なる
サーバに向うことになっている。
この実施形態ではソーステキストがハイパーリンクアドレスを保持することを
予め仮定しているが;この形態のアドレスを埋め込まずにこのシステムを動作す
ることもできる。例えば、データベースサーバの座標を送って、整合を行うソー
ステキスト(またはその範囲)内の点を識別することができる。コネクションレ
スサービス、例えばインターネットの場合、この情報を、それを送る前にサーバ
のアドレスと連結することが必要になる。
上述のように、テキストプロセッサ14は一定の印を合成器15へ送って、太字活
字を強調できるようにする。同様に、プリプロセッサはハイパーリンクの印<a
>…</a>(アドレスがなくても)を送り、強調を適用するか、またはテキス
トのリマインダに使用されたものと異なる音声(例えば、女性ではなく男性の音
声)にスイッチすることによってこれらに応答するように合成器を構成すること
ができる。このやり方を使用して、別の実施形態では、言語認識器の語彙を簡単
にして、リンクワードのみを含むことができるようにするが、それでも何れの単
語を強調して(または異なる音声で)発話したかを常に正確に思い出すことがで
きない可能性があるので、上述のように認識器を動作することが好ましい。
─────────────────────────────────────────────────────
フロントページの続き
(81)指定国 EP(AT,BE,CH,DE,
DK,ES,FI,FR,GB,GR,IE,IT,L
U,MC,NL,PT,SE),OA(BF,BJ,CF
,CG,CI,CM,GA,GN,ML,MR,NE,
SN,TD,TG),AP(GH,GM,KE,LS,M
W,SD,SZ,UG,ZW),EA(AM,AZ,BY
,KG,KZ,MD,RU,TJ,TM),AL,AM
,AT,AU,AZ,BA,BB,BG,BR,BY,
CA,CH,CN,CU,CZ,DE,DK,EE,E
S,FI,GB,GE,GH,GM,GW,HU,ID
,IL,IS,JP,KE,KG,KP,KR,KZ,
LC,LK,LR,LS,LT,LU,LV,MD,M
G,MK,MN,MW,MX,NO,NZ,PL,PT
,RO,RU,SD,SE,SG,SI,SK,SL,
TJ,TM,TR,TT,UA,UG,US,UZ,V
N,YU,ZW