JP2000137596A

JP2000137596A - 対話型音声応答システム

Info

Publication number: JP2000137596A
Application number: JP11283971A
Authority: JP
Inventors: Michael Kenneth Brown; ケネスブラウンマイケル; Kenneth G Rehor; ジー．レホアーケネス; Brian Carl Schmult; カールシュマルトブレイン; Curtis Duane Tuckey; デュアンターキーカーチス
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1998-10-06
Filing date: 1999-10-05
Publication date: 2000-05-16
Also published as: KR20000028832A; EP0992980A2; CA2280331C; EP0992980A3; US6587822B2; CA2280331A1; US20010013001A1; KR100661687B1

Abstract

(57)【要約】【課題】インターネットを通じた対話型音声応答（Ｉ
ＶＲ）アプリケーションを実現する。【解決手段】ＩＶＲプラットフォーム１０２は、音声
合成器１１６、文法生成器１２０および音声認識器１２
２を有する。音声合成器１１６は、ネットワークを通じ
て取得されるウェブの構造および内容を特徴づける音声
を生成する。この音声は、電話機などのオーディオイン
タフェースデバイス１０８を通じてユーザに送られる。
文法生成器１２０は、取得したウェブページから解析さ
れるテキスト情報を利用して文法を生成する。この文法
は、音声認識器１２２に供給され、ユーザによって生成
される音声コマンドを解釈するために使用される。文法
生成器１２０によって生成される文法は、部分的にまた
は完全にプリコンパイルすることも可能である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、インター
ネットなどのコンピュータネットワークに関し、特に、
電話などのオーディオインタフェースデバイスによりこ
のようなネットワークを通じて情報を取得する技術に関
する。

【０００２】

【従来の技術】インターネットの継続する成長により、
インターネットは、さまざまなトピックに関する情報の
一次情報源となっている。インターネットおよびその他
のタイプのコンピュータネットワークへのアクセスは一
般に、ブラウザプログラムを備えたコンピュータを通じ
て実行される。ブラウザプログラムは、ユーザがネット
ワークを通じてアクセス可能なサーバに対して情報を要
求し、そうして得られた情報を閲覧あるいは処理するこ
とを可能にするグラフィカルユーザインタフェースを提
供する。電話機やそれと同様のオーディオインタフェー
スデバイスしか備えていないユーザへとインターネット
アクセスを拡大する技術が開発されており、例えば、・D. L. Atkins et al., "Integrated Web and Telepho
ne Service Creation", Bell Labs Technical Journal,
pp.19-35, Winter 1997 ・J. C. Ramming, "PML: A Language Interface to Net
worked Voice Response Units", Workshop on Internet
Programming Languages, ICCL '98, Loyola Universit
y, Chicago, Illinois, May 1998に記載されている。

【０００３】

【発明が解決しようとする課題】上記の文献に記載され
ているオーディオインタフェース技術を利用する対話型
音声応答（ＩＶＲ：Interactive Voice Response）アプ
リケーションを開発するユーザは、しばしば５０，００
０ドル以上もする高価な専用ＩＶＲハードウェアを利用
しなければならない。この専用ＩＶＲハードウェアに伴
う出費は、小規模事業者や個人のような多くのユーザ
が、自己のウェブページ用にＩＶＲアプリケーションを
作成することを妨げている。従って、このようなユーザ
は、電話機などのオーディオインタフェースデバイスに
よるアクセスを可能にするように自己のウェブページを
設定することができない。

【０００４】

【課題を解決するための手段】本発明は、インターネッ
トなどのコンピュータネットワークを通じた対話型音声
応答（ＩＶＲ）アプリケーションを実装する装置および
方法を提供する。本発明の実施例は、音声合成器、文法
生成器および音声認識器を有するＩＶＲプラットフォー
ムである。音声合成器は、ネットワークを通じて取得さ
れるウェブの構造および内容を特徴づける音声を生成す
る。この音声は、電話機やその他のタイプのオーディオ
インタフェースデバイスを通じてユーザに送られる。文
法生成器は、取得したウェブページから解析されるテキ
スト情報を利用して文法を生成する。この文法は、音声
認識器に供給され、ユーザによって生成される音声コマ
ンドを解釈するために使用される。また、この文法は、
同様の音素が音声認識器と音声合成器の両方で使用され
るように、表音(phonetic)情報を作成するために音声合
成器によって利用されることも可能である。名前電話帳
(name dialing directory)のような適当なアプリケーシ
ョンや、コンパイル時間が長い文法を有するその他のア
プリケーションでは、文法生成器によって生成される文
法は、部分的にまたは完全にプリコンパイルすることも
可能である。

【０００５】本発明によるＩＶＲプラットフォームは、
例えば、取得したウェブページ内のテキスト情報を識別
してそのテキスト情報を文法生成器に送るパーサや、パ
ーサからのウェブページ情報も受け取る音声プロセッサ
のような、他の要素を含むことも可能である。音声プロ
セッサは、この情報を用いて、あらかじめ定義されたい
くつかのモデルのうちのいずれが、与えられた取得ウェ
ブページを最もよく特徴づけるかを判定する。このモデ
ルは、セクションヘディング、テーブル、フレーム、フ
ォームなどのようなウェブページの構造のさまざまなタ
イプや配置を特徴づけるように選択され、対応する言語
的説明(verbal description)の生成を単純化する。

【０００６】本発明のもう１つの特徴によれば、音声合
成器、文法生成器および音声認識器は、ＩＶＲプラット
フォームのその他の要素とともに、ダイアログシステム
を実現するために使用されることが可能である。このダ
イアログシステムにおいて、ダイアログは、ユーザへの
ウェブページ情報の出力を制御するためにユーザとの間
でなされる。与えられた取得ウェブページは、例えば、
音声合成器によってユーザに対して読まれるべきテキス
ト、ホストプロセッサ上で動作を実行するためのプログ
ラムスクリプト、および、ユーザから受け取られる可能
性のある指定された各発声応答に対するハイパーリンク
を含む。また、ウェブページは、音声認識器が、与えら
れた発声ユーザを認識不能として拒否するときに利用さ
れるべき１つ以上のハイパーリンクを含むことも可能で
ある。

【０００７】本発明によるＩＶＲプラットフォームは、
インターネットサービスプロバイダ（ＩＳＰ）やその他
のタイプのサービスプロバイダによって運用されること
が可能である。ウェブページをプログラミングすること
によってダイアログベースのＩＶＲアプリケーション作
成することが可能になることにより、本発明は、一般的
なインターネット利用者に対して新たなクラスのインタ
ーネットアプリケーションを提供する。例えば、インタ
ーネットコンテンツ開発者は、ＩＳＰからＩＶＲプラッ
トフォームにアクセス可能であれば、ＩＶＲプラットフ
ォームを所有あるいは直接に操作する必要がない。これ
は、一般に高価なＩＶＲ機器を所有する必要があった、
ＩＶＲサービスを提供するための従来のアプローチとの
顕著な相違である。ＩＶＲプラットフォームシステムを
有するＩＳＰは、比較的低コストで一般大衆にＩＶＲサ
ポートサービスを販売することができる。

【０００８】

【発明の実施の形態】本発明について、例示的なシステ
ムを用いて以下で説明する。しかし、本発明は、いかな
るタイプのシステム、ネットワーク、ネットワーク通信
プロトコルあるいはコンフィグレーションでの使用にも
限定されない。「ウェブページ」という用語は、ここで
は、ワールドワイドウェブを通じて、インターネットの
その他の部分を通じて、あるいはその他のタイプの通信
ネットワークを通じてアクセス可能な、単一のウェブペ
ージ、ウェブページのセット、ウェブサイト、および、
その他のいかなるタイプあるいは構成の情報も含む。
「プラットフォーム」という用語は、ここでは、ここに
記載する対話型音声応答機能を提供するように構成され
たハードウェアあるいはソフトウェア要素を含むいかな
るタイプのコンピュータに基づくシステムあるいはその
他のタイプのシステムも含む。

【０００９】［１．システムの説明］図１に、本発明の
実施例による例示的な情報検索システム１００を示す。
システム１００は、ウェブベースＩＶＲプラットフォー
ム１０２、ネットワーク１０４、いくつかのサーバ１０
６−ｉ（ｉ＝１，２，...，Ｎ）、およびオーディオイ
ンタフェースデバイス１０８を有する。ネットワーク１
０４は、インターネット、イントラネット、ローカルエ
リアネットワーク、広域ネットワーク（ＷＡＮ）、ケー
ブルネットワーク、衛星ネットワーク、ならびに、これ
らおよびその他のネットワークの組合せまたは一部とす
ることが可能である。ＩＶＲプラットフォーム１０２と
サーバ１０６−ｉとの間の通信は、ＴＣＰ／ＩＰ(Trans
missionControl Protocol/Internet Protocol)標準やそ
の他の適当な通信プロトコルを用いた従来の方法でネッ
トワーク１０４を通じて確立されたコネクションによる
ものとすることが可能である。サーバ１０６−ｉは、そ
れぞれ、ネットワーク１０４を通じて受信される情報リ
クエストを処理するように従来の方法で構成されたコン
ピュータまたはコンピュータ群とすることが可能であ
る。オーディオインタフェースデバイス１０８は、例え
ば、電話機、テレビジョンセットトップボックス、電話
機能を備えたコンピュータ、あるいは、オーディオ情報
を送受信することが可能なその他のデバイスである。オ
ーディオインタフェースデバイス１０８は、ネットワー
ク１０９を通じてＩＶＲプラットフォーム１０２と通信
する。ネットワーク１０９は、例えば、公衆交換電話網
（ＰＳＴＮ）、セルラ電話ネットワークあるいはその他
のタイプのワイヤレスネットワーク、インターネットの
ようなデータネットワーク、または、これらもしくはそ
の他のネットワークのさまざまな組合せもしくは一部で
ある。図１の実施例では別個のネットワークとして示さ
れているが、代替実施例では、ネットワーク１０４と１
０９は、同じネットワーク、あるいは、同じネットワー
クの相異なる部分とすることも可能である。

【００１０】図２に、ＩＶＲプラットフォーム１０２を
詳細に示す。ＩＶＲプラットフォーム１０２は、ネット
ワーク１０４を通じてサーバ１０６−ｉからウェブペー
ジなどの情報を取得するように動作するウェブブラウザ
１１０を有する。ウェブブラウザ１１０は、従来の市販
のウェブブラウザとすることも、オーディオインタフェ
ースデバイス１０８とともに使用するために設計された
専用ブラウザとすることも可能である。例えば、ウェブ
ブラウザ１１０は、代表的なウェブブラウザ機能のサブ
セットのみをサポートするだけでもよい。実施例では視
覚的情報を表示する必要がない（すなわち、画像やビデ
オデータを処理する必要がない）からである。ブラウザ
１１０は、ネットワーク１０４を通じてサーバ１０６か
らテキスト、オーディオなどの情報を取得する。ブラウ
ザ１１０は、ネットワーク１０９を通じてオーディオイ
ンタフェースデバイス１０８に再生オーディオが供給さ
れるように、取得したオーディオを従来の方法で再生す
るように構成されることも可能である。ブラウザ１１０
は、取得したテキストなどの情報をＨＴＭＬパーサ１１
２に送る。パーサ１１２は、音声プロセッサ１１４およ
び文法生成器１２０による後続の解釈を容易にするよう
に、取得テキストを設定する前処理動作を実行する。取
得テキストは、実施例では、ＨＴＭＬ(HyperText Marku
p Language)フォーマットであると仮定するが、他の実
施例では他の適当なフォーマットであることも可能であ
る。例えば、ＩＶＲプラットフォーム１０２は、ＰＭＬ
(PhoneMarkup Lanuage)によるウェブページ情報を処理
するように構成されることも可能である。ＰＭＬは、Ｈ
ＴＭＬページに電話ベースの制御を組み込むように特別
に設計された言語であり、ＩＶＲプラットフォームにＰ
ＭＬ機能を含めることにより、広範囲のウェブベースＩ
ＶＲアプリケーションをよりよくサポートすることが可
能となる。

【００１１】音声プロセッサ１１４は、ＨＴＭＬパーサ
１１２によって供給されるテキストなどのウェブページ
情報の解析を実行し、対応する言語的説明を生成し、こ
の言語的説明は、テキスト−音声（ＴＴＳ：text-to-sp
eech）合成器１１６に供給される。ＨＴＭＬパーサ１１
２、音声プロセッサ１１４およびＴＴＳ合成器１１６
は、テキストなどのウェブページ情報を音声に変換し、
この音声は、ネットワーク１０９を通じてオーディオイ
ンタフェースデバイス１０８に送られる。文法生成器１
２０は、ＨＴＭＬパーサ１１２から受け取るテキストな
どのウェブページ情報を利用して、音声認識文法を生成
し、この音声認識文法は音声認識器１２２に送られる。
音声認識器１２２は、オーディオインタフェースデバイ
ス１０８によって生成される音声入力を受け取り、文法
生成器１２０によって生成される文法を利用して、音声
中の単語を認識する。認識された単語の適当なインジケ
ータが、音声コマンドインタプリタ１２４に供給され
る。音声コマンドインタプリタ１２４は、そのインジケ
ータを解釈し、対応するコマンド信号を生成する。この
コマンド信号はプロセッサ１３０に供給される。プロセ
ッサ１３０は、ＩＶＲプラットフォーム１０２の少なく
とも一部の動作を制御する。ＩＶＲプラットフォーム１
０２は、さらに、デュアルトーン多周波（ＤＴＭＦ）デ
コーダ１２６を有する。ＤＴＭＦデコーダ１２６は、ネ
ットワーク１０９を通じてオーディオインタフェースデ
バイス１０８からプラットフォーム１０２が受信したＤ
ＴＭＦ信号をデコードする。このような信号は、例え
ば、ＩＶＲプラットフォーム１０２からオーディオイン
タフェースデバイス１０８に供給されるオーディオ再生
や音声で提供される選択肢に応答して生成されることが
可能である。デコードされたＤＴＭＦ情報は、デコーダ
１２６からプロセッサ１３０に供給される。

【００１２】プロセッサ１３０は、メモリ１３２、およ
び、ウェブブラウザ１１０と相互作用する。プロセッサ
１３０は、マイクロプロセッサ、中央処理装置（ＣＰ
Ｕ）、特定用途向け集積回路（ＡＳＩＣ）あるいはその
他の、ＩＶＲプラットフォーム１０２の少なくとも一部
の動作を指示する任意のディジタルデータプロセッサと
することが可能である。例えば、プロセッサ１３０は、
ウェブブラウザ１１０またはＩＶＲプラットフォーム１
０２のその他の要素を実現するコンピュータ内のプロセ
ッサとすることが可能である。メモリ１３２は、電子メ
モリ、磁気メモリ、光メモリあるいはその他の、ＩＶＲ
プラットフォーム１０２に付属するメモリ、また、これ
らおよびその他のメモリの一部あるいは組合せとするこ
とが可能である。例えば、メモリ１３２は、上記のよう
なプロセッサ１３０も含むコンピュータの電子メモリと
することが可能である。他の実施例では、ＩＶＲプラッ
トフォーム１０２は、いくつかの相互接続されたコンピ
ュータおよび適当な処理デバイスの構成を用いて実現す
ることも可能である。

【００１３】ＴＴＳ合成器１１６、音声認識器１２２、
音声コマンドインタプリタ１２４、ＤＴＭＦデコーダ１
２６、プロセッサ１３０およびメモリ１３２は、ＩＶＲ
プラットフォーム１０２のその他の要素とともに、米国
ニュージャージー州Murray HillのLucent Technologies
Inc.から入手可能なIntuity/Conversantシステムある
いはLucent Speech Processing System（ＬＳＰＳ）の
ようなベースプラットフォームの一部またはそのような
ベースプラットフォームを含む従来のシステムの要素と
することが可能である。前述のように、ＩＶＲプラット
フォーム１０２は、市販の音声・電話システムボードを
備えたパーソナルコンピュータを用いて実現することも
可能である。注意すべき点であるが、図２におけるプラ
ットフォーム１０２とオーディオインタフェースデバイ
ス１０８の間の点線の接続は、例えば、ＰＳＴＮや、セ
ルラあるいはその他のタイプのワイヤレスネットワーク
を通じて確立された電話線接続のような、ネットワーク
１０９を通じて確立された単一の接続とすることが可能
である。

【００１４】実施例におけるＩＶＲプラットフォーム１
０２は、以下の３つのモードのうちの１つで、音声コマ
ンドまたはＤＴＭＦ信号のいずれかに応答するように設
定されることが可能である。

【００１５】（１）ＤＴＭＦのみ（ＤＴＭＦ単独モー
ド）。この場合、説明は、例えばオーディオインタフェ
ースデバイス１０８のボタン番号を、取得したウェブペ
ージを通じて利用可能な情報と関連づける句を含む。

【００１６】（２）音声のみ（音声単独モード）。この
場合、取得したウェブページの簡潔な説明が、ＴＴＳ合
成器１１６によって生成される音声の形式で与えられ
る。

【００１７】（３）ＤＴＭＦおよび音声の両方（ＤＴＭ
Ｆ・音声両方モード）。この場合、音声説明とボタン番
号などを識別する句の両方を与えることが可能である。

【００１８】混雑した市街地や群集の中のような雑音の
多い環境でオーディオインタフェースデバイス１０８を
動作させるときには、ＤＴＭＦ単独モードが好ましいこ
とがある。背景雑音がＩＶＲプラットフォーム１０２に
よって音声コマンドとして解釈される可能性があるから
である。音声単独モードはしばしば最も好ましい。これ
は、最もすばやいページ説明（記述）を生成することに
なるからである。

【００１９】ＩＶＲプラットフォーム１０２内の音声プ
ロセッサ１１４は、ＨＴＭＬパーサ１１２からの出力を
受け取り、対応する取得したＨＴＭＬウェブページを解
析して、例えば、セクションヘディング、テーブル、フ
レーム、およびフォームのような構造を識別する。その
後、音声プロセッサ１１４は、ＴＴＳ合成器１１６とと
もに、ページの対応する言語的説明を生成する。一般
に、このような言語的説明は、ページテキストに対応す
る音声出力と、ページ上の画像およびその他の項目のサ
イズ、位置およびおそらくはその他の情報の説明とを含
むことが可能である。

【００２０】ユーザの初期設定に依存して、ページは、
内容によって、または、構造によって、説明されること
が可能である。例えば、ユーザは、説明モードまたは調
査モードのいずれかを選択するように許されることが可
能である。説明モードの例としては、ＩＶＲプラットフ
ォーム１０２は、ページのさまざまな特別の要素を示す
ために、さまざまなＴＴＳ音声を用いて、取得した新し
いウェブページの説明を直ちに開始する。ユーザは、Ｉ
ＶＲプラットフォーム１０２に命じて、オーディオテー
ププレーヤを制御するのと同様にして、一時停止、後
退、早送りなどを命令することができる。ただし、文や
パラグラフのような内容要素はスキップする（飛ばす）
ことも可能である。

【００２１】調査モードの例として、ＩＶＲプラットフ
ォーム１０２は、ページの構造を短く説明し、音声調査
コマンドを待機する。調査コマンドにより、ユーザは、
ページの要素を「降りて行き」、説明モードで通常得ら
れるよりも詳細な説明を得ることができる。例えば、テ
ーブルの各要素（エレメント）は、個別に調査すること
ができる。与えられたテーブルエレメントが構造も有す
る場合、ユーザは、この構造を再帰的に降りて行くこと
ができる。調査モードは、適当なダイアログを用いて、
情報が送られる方法を制御する際のフレキシビリティを
ユーザに与える。ユーザは、ＴＴＳ発声速度を制御する
ことが可能となり、セクションヘディング、ハイパーリ
ンクタイトルなどのようなＨＴＭＬエレメントタイプに
さまざまなＴＴＳ音声を割り当てることが可能となる。
さらに、セクションヘディングは、通常のテキストとは
異なる音声にすることも可能である。セクションヘディ
ングが検出された場合、まず、ヘディングのみがユーザ
に説明される。その後、音声コマンドを用いて、ＩＶＲ
プラットフォーム１０２に対して、特定のセクションに
移動するよう命令することができる。すなわち、ユーザ
がヘディングタイトルを言い、ＩＶＲプラットフォーム
１０２に対してそのセクションに移動するよう命令する
ことができる。

【００２２】上記のテーブルは、ページレイアウトのみ
のために用いることも可能であり、あるいは、真の作表
であることも可能である。ＨＴＭＬパーサ１１２および
音声プロセッサ１１４に実装されるページ解析プロセス
は、どちらの可能性が高いかを判断し、それに従って説
明を生成する。真の作表はテーブルとして説明される。
ページレイアウトの目的で用いられるテーブルは一般に
明示的には説明されないが、重要であると考えられる場
合にはテーブルエレメント位置が説明されることも可能
である。例えばＩＶＲプラットフォーム１０２がテーブ
ル記述を隠蔽しているときに、調査モードを用いてこの
テーブル処理をオーバーライドすることが可能である。
フレームも、完全ページ説明法およびフレームフォーカ
ス法のようないくつかの方法で扱うことが可能である。
完全ページ説明法は、すべてのフレームからの情報を、
ユーザがフレームとは独立にすべてのエレメントを言語
的にアドレス指定することができる単一のコンテクスト
に併合する。フレームフォーカス法では、ユーザは、説
明あるいは調査されるべきフレームを指定して、音声コ
マンドがそのフレームにフォーカスするようにすること
が可能である。フォームは、例えば、フィールドタイト
ルラベルが説明され、フィールドはフィールドタイトル
を言うことによってアドレス指定可能となる。さらに、
一般的な項目は、綴りを言うことによってフォームフィ
ールドに入力することが可能であり、上記の調査モード
を用いてメニュー選択肢を得ることが可能である。

【００２３】ＩＶＲプラットフォーム１０２内の文法生
成器１２０は、取得したウェブページのＨＴＭＬから音
声認識文法および語彙を生成する。これは、ＩＶＲアプ
リケーションを作成するために有用となるＩＶＲプラッ
トフォーム１０２の重要な特徴である。構文解析された
ＨＴＭＬは、文法生成器１２０で、音声に変換されるべ
きセクションタイトル、ハイパーリンクおよびその他の
インジケータを求めて解析される。次に、文法生成器１
２０は、インジケータのサブセットを言うすべての可能
な方法を生成することによって、各インジケータごとに
部分文法を構成する。その後、他のすべての音声コマン
ドがこの部分文法と組み合わされ、完全文法が、最適化
された有限状態ネットワークへとコンパイルされる。こ
のネットワークは、認識可能な語の可能な列を制約する
ために、音声認識器１２２にロードされる。他のタイプ
の文法生成も本発明とともに使用可能である。

【００２４】文法生成器１２０に実装される実施例の文
法生成プロセスの副産物は、語彙語のリストの作成であ
る。このリストは、シンボリック形式で音声表記(phone
tictranscription)のリストを作成するために、ＴＴＳ
合成器１１６によって部分的に処理されることが可能で
ある。同じ音素を、音声認識器１２２およびＴＴＳ合成
器１１６の両方で使用することが可能である。シンボリ
ック音声表記は、認識器１２２にロードされると、語彙
語をどのように発音するかを認識器に教え、ＩＶＲプラ
ットフォーム１０２が実質的に任意の音声語を認識する
ことを可能にする。

【００２５】通常動作時には、ＩＶＲプラットフォーム
１０２は、ＴＴＳ合成器１１６の音声出力を通じてユー
ザに対して、取得したウェブページを説明する。ユーザ
は、ＴＴＳ合成器出力に重ねて話して「割り込む」こと
により、ＩＶＲプラットフォーム１０２を制御する。エ
コー消去を用いて、音声認識入力からＴＴＳ合成器出力
を除去し、音声認識がＴＴＳ出力によって影響されない
ようにすることが可能である。ユーザが十分長期間話す
と、音声認識が有効に実行されるようにＴＴＳ出力は割
り込まれ、音声認識器出力はＩＶＲプラットフォームコ
マンドへと解釈される。

【００２６】文法生成プロセスの一部として、後で解釈
段階で使用するために音声コマンド解釈テーブルを設定
することが可能である。例えば、可能なコマンド句の記
憶されたテーブルを用いて、コンピュータ命令を各句と
関連づけることが可能である。一般に、曖昧なブラウザ
コマンド句は定義されない。ハイパーリンクを処理する
場合、ハイパーリンクのＵＲＬ(Universal Resource Lo
cator)を、ハイパーリンクタイトルのすべての可能なサ
ブセットと関連づける。セクションタイトルも、同様に
扱うことが可能である。その後、タイトル後が話される
と、関連づけられたＵＲＬを取得することができる。

【００２７】話されたタイトル後が一意的でないとき
に、複数のＵＲＬあるいはブラウザコマンドを取得する
ことが可能である。このような場合、簡単なダイアログ
を起動して、ユーザに、番号を言うことによってまたは
明瞭なタイトル句を言うことによって選択することが可
能な完全なタイトル記述の選択肢を与える。それでも句
が曖昧な場合、新しい、おそらくはさらに少数の選択肢
のリストを与えることも可能である。ユーザは、この選
択プロセスが所望の選択肢を生じない場合にはいつでも
戻ることができる。これにより、ユーザは、リストを精
密化して、１つの選択肢にたどり着くことが可能であ
る。

【００２８】［２．プロセスの詳細］図２のＩＶＲプラ
ットフォーム１０２で実行される音声処理およびその他
の動作のさまざまな特徴について以下でさらに詳細に説
明する。

【００２９】［２．１ＨＴＭＬ構文解析］上記のよう
に、ＨＴＭＬパーサ１１２は、音声出力の生成および文
法の生成を容易にするために、取得ウェブページ内のＨ
ＴＭＬを構文解析する。ＨＴＭＬ構文解析プロセスは、
意図的に比較的単純なままとされる。完全な文脈自由構
文解析は不要であり、好ましくないことさえある。ＨＴ
ＭＬは一般に適切に構造化されているが、多くの実世界
のＨＴＭＬページはソフトウェアバグなどのエラーを含
むからである。従って、ＨＴＭＬ標準に基づいて、厳格
な文脈自由構文解析を実行することはしばしば非生産的
となる。

【００３０】音声出力の正しい生成には、与えられたウ
ェブページの構造の明示的な表現を必要である。ＨＴＭ
Ｌ構文解析プロセスは、この構造の表現を得るために使
用される。フレーム、テーブルおよびフォームのような
重要なエレメントが識別され、それらを含むエレメント
内でのスコープが解析される。例えば、フォームはテー
ブルに含まれることが可能であり、さらにそのテーブル
はフレームに含まれることが可能である。この解析の重
要な部分は、これらのエレメントのグラフィカルな意味
ではなく、構造的な意味を決定することである。例え
ば、ウェブページでは、いくつかのレベルのテーブル
が、単に整列の目的で、あるいは、さまざまなエレメン
トの周りに人目を引きつけるグラフィクスを生成するた
めに、使用される。このような場合、テーブルのセット
全体は単純なリストと構造的に等価であるとすることが
可能である。この場合における適切な音声化は、テーブ
ルを無視し、ボトムレベルのエレメントのみを話す（す
なわち、ユーザに対してリストとして説明する）ことを
必要とする。その代わりに、「真の」データテーブルの
場合には、テーブルはそのまま説明される。

【００３１】構文解析プロセス自体は、以下で解決され
る２つの重要な問題点を提示する。第１の問題点は、Ｈ
ＴＭＬからさまざまな関係を導出し、明示的に表現しな
ければならないが、通常のブラウザは、その明示的表現
を、表示されるページイメージで置き換えるという点で
ある。従って、この表現は、例えば、どの語がイタリッ
ク体でＨ３タイトルの一部であるかではなく、ボールド
体、イタリック体でリンクタイトルの一部であるかを明
示的に知らなければならない。どのような組合せも、関
連する構造を示す際には意味をもちうる。この問題点
は、ＨＴＭＬパーサ１１２において、ページをデータ構
造へと「レンダリング」することによって解決される。
一様な属性を有する各テキストストリングは、例えば、
ボールド体、リンクテキスト、ヘディングレベルなどの
ような、そのストリング内で現在アクティブなすべての
特徴を指定する属性記述子を有する。これ自体は階層構
造を提供しない。しかし、この構造は、一般にはＨＴＭ
Ｌソースレベルでは不要であるが、タグ編成を検査する
ことによって生成することができる。

【００３２】構文解析の第２の問題点は、ＨＴＭＬペー
ジはしばしばエラーを含むことである。これは、画面上
で適切に構造化されているように見えるドキュメント
も、ソースレベルでは適切に構造化されていないことが
あることを意味する。ＨＴＭＬパーサ１１２は、不適切
に構造化されているソースを解析して、ユーザが画面上
に見るのと等価な適切に形成された構造を決定しなけれ
ばならない。これは、テーブル内で＜ＴＤ＞が欠けてい
て、通常のブラウザはそのエレメントを捨ててしまう可
能性があるというような、いくつかのありふれた場合に
は難しい。これは特に、フォームエレメントが関係する
場合には面倒である。この問題点は、自動化ツールが広
く使用されるようになるにつれて、あまり重要ではなく
なるはずである。しかし、このようなツールはまた、過
剰なＨＴＭＬの増殖（例えば、マルチレベルのテーブル
がレイアウトに用いられる）につながる可能性がある。

【００３３】前述のように、文法生成プロセスは、ハイ
パーリンクタイトルを抽出し、ページからそのＵＲＬを
保存することを必要とする。イメージ機能のないブラウ
ザでの使用を意図したいわゆるＡＬＴ（代替）フィール
ドもまた、このプロセスの一部として抽出されることが
可能である。さらに、セクションヘディングのようなそ
の他のテキストを、音声文法に含めることが可能であ
る。この抽出を行うのに必要な構文解析動作は、従来の
正規表現構文解析を用いて実装することが可能である。

【００３４】［２．２言語化］ＩＶＲプラットフォー
ム１０２で生成されるウェブページ説明（記述）は、ウ
ェブページの言語化(verbal rendering)と呼ばれる。実
施例では、ユーザは、ページのタイトルの自動提示をす
るかどうかを決定することが可能である。ユーザが、ペ
ージタイトルの自動提示を選択した場合、そのタイトル
がユーザに告げられる。その後、言語化は、例えば前に
設定したユーザの初期設定に依存して、ページ内容の説
明またはページ構造の説明のいずれかに進む。一般に、
これらの２つのアプローチのうち簡単なのは、構造的ペ
ージ記述のほうである。

【００３５】前述のように、ページ説明動作について、
説明モードと調査モードという２つのモードを提供する
ことが可能である。説明モードでは、ＩＶＲプラットフ
ォームは、他の命令がされるか、説明が完了するまで、
ページの説明を続ける。調査モードは、ユーザが質問を
行い特定の回答を得ることができるように、ユーザにイ
ニシャティブを与える。調査モードを利用することによ
り、ユーザは、ページの構造的エレメントを再帰的に降
りて行くことができる。ユーザは、音声制御により、説
明モードと調査モードの間を切り替えることができる。

【００３６】［２．２．１構造記述］ページ構造は、
一般に、イメージ、テーブルおよびフォームのようなエ
レメントの配置に関して記述される。調査モードでは、
ユーザは一般に、さまざまなエレメントを開く選択肢を
有するトップダウン記述を得る。例として、上部を横切
るタイトル／情報フレーム、横のインデックスバー、お
よびメインページという３個のフォームからなる単純な
ウェブページを考える。このページのトップレベル記述
は、「タイトルフレーム、インデックスフレームおよび
ページ」というものが考えられる。この場合、ユーザ
は、さらに説明を求めるには、３個の領域のうちの１つ
にフォーカスを指定する。ナビゲーション中、タイトル
あるいはインデックスのフレーム内のリンクは、ユーザ
の初期設定に基づいて、常に、または、要求時にのみ、
利用可能である。単一入力検索フォームのようなその他
のいくつかの共通の機能も、別のフレームにない場合で
あっても、トップレベルレイアウト項目として記述する
ことが可能である。ページが検索フォームを含む場合、
そのページは、「タイトルフレーム、インデックスフレ
ーム、および、検索フォームを有するページ」として記
述することも可能である。

【００３７】メインページの記述は、見かけの構造に基
づくことが可能である。例えば、ページに４個のセクシ
ョンエントリ（例えば、＜Ｈ１＞エントリ）がある場
合、記述は「５個のセクションを有するページ」とな
る。セクションヘッダ（例えば、＜Ｈ１＞コンテンツ）
と、「ページの最初」が、そのセクションにジャンプす
るように言うために利用可能である。ユーザが何も言わ
ない場合、システムは、ユーザの初期設定に基づいて、
待機するか、または、最初のセクションから開始する。
なお、他のエンティティをセクション分割の基礎とする
ことも可能である。例えば、いくつかのリストを有し、
各リストの前にプレーン（普通の）テキストの短いパラ
グラフがあるようなページは、リストごとに１つずつの
セクションに分割し、見かけのヘディングパラグラフを
ユーザに話すことが可能である。

【００３８】セクションの記述は、見かけの構造に基づ
いて行うことも可能である。セクションがプレーンテキ
ストである場合、パラグラフの数をアナウンスして発声
を開始し、パラグラフ間のナビゲーションがサポートさ
れる。サブセクション分割も、さらに低いレベルのヘッ
ダや、セクションヘッダとして使用されているように見
えるボールド体の行の存在に基づいて、同様に行うこと
が可能である。このサブセクション解析はおそらく、こ
の第２レベルを超えて進むことはない。ユーザは、多く
のレベルを有する位置を追跡することができないと考え
られるからである。他のすべての情報は順次読まれるこ
とが可能である。

【００３９】ページがテーブルを含む場合、その目的に
ついて判断がなされる。相異なる目的の例には、グラフ
ィクス、整列、またはデータがある。グラフィクスは、
そのテーブルが特定のバックグラウンド（背景）または
ボーダー（境界線）を得るためにのみ存在することを示
し、このようなテーブルは無視される。整列とデータの
相違点は、整列テーブルでは、内容は本質的に１次元で
あるのに対して、データテーブルでは、内容は２次元配
列として配置されることである。整列テーブルの内容
は、重要な整列が閲覧者にとって明らかかどうかに基づ
いて、リストとして扱われるか、または、無視されるか
のいずれかである。データテーブルは、その通り記述さ
れ、行および列の数がアナウンスされ、行および列のヘ
ッダの探索が試みられる。２次元構造に基づくナビゲー
ションが利用可能である。

【００４０】フォーム記述は、ページ内のフォームの相
対サイズに依存する。１個の単一入力フォームは、上記
のようにして扱うことが可能である。ページの一部のみ
であるように見えるさらに大きいフォームは、その通り
アナウンスされることも可能であるが、一般に、読んで
いる間にそのエレメントが現れるとともにアクセスされ
る。フォーム番号およびエレメント番号に基づいて直接
ナビゲーションが可能である。最後に、ほとんど１つの
フォームであるページは、ページではなくフォームとし
て扱われる。説明および直接ナビゲーションを支援する
ために、各エントリの名前を探索しようと試みる。な
お、セクション、サブセクションあるいはその他の、ペ
ージ内の局所的なフォームも、同様に扱うことが可能で
ある。これにより、いったんフォームに「入る」と、そ
のフォームから「出る」（すなわち、送信またはスキッ
プされる）まで、パラグラフやセクションに基づくので
はなく、フォームに基づくというモード処理が得られ
る。

【００４１】［２．２．２内容記述］ページ内容は、
ＩＶＲプラットフォーム１０２を使用することによって
可能な範囲で、ページ上のテキストを合成し、イメー
ジ、テーブル、フォームなどの構造の既知の内容を記述
することにより記述される。具体的には、指定されたタ
イプの音声を、例えば、ハイパーリンクタイトル、ボー
ルド体テキスト、フォームフィールドラベルのようなさ
まざまなＨＴＭＬエレメント、およびその他のナビゲー
ションに有用なエレメントのそれぞれに対して生成する
ことが可能である。指定される音声のタイプは、ユーザ
が定義することが可能である。

【００４２】［２．３ウェブページ解析］本発明によ
れば、ＩＶＲプラットフォーム１０２で実行されるウェ
ブページ解析は、与えられたウェブページをいくつかの
あらかじめ定義されたページモデルのうちの１つに当て
はめようとし、当てはまらないページに対してはデフォ
ルトのトップダウン方略を使用する。目標は、想起しや
すい構造を有するモデルを設計することによって、ユー
ザによるページ理解を最大にすることである。すなわ
ち、ユーザが、ページの重要部分を見失わず探索しやす
いようにしたい。この理由で、モデルは本質的に単純と
なり、ほとんどシーケンシャルで、最小限の階層を有す
る。解析は、最良のモデルを識別するステップと、その
後、モデルの各部分にページ内容を当てはめるステップ
という２つのステップからなる。その後、ナビゲーショ
ンのオプションは、このモデルによって部分的に制御さ
れることが可能である。これは、経験のあるユーザにと
っては使用を簡単化するはずである。モデルがアナウン
スされることにより、最適なナビゲーション方略が伝え
られるからである。

【００４３】実施例では、フレーム、ページおよびセク
ションの、３レベルのモデルが使用される。この理由
は、ページは、ページ以外は一定のフレーム内で変わる
可能性があるためである。フレームは一定のままであり
得るので、フレームレイアウトを別個にモデル化して、
フレームモデルの使用によりナビゲーションが単純化さ
れるようにしたい。一般に、ほとんどのセクションモデ
ルは、単一にセクションに適用されたページモデルとし
て実現することが可能である。以下は、例示的なフレー
ムモデルのセットである。

【００４４】１．単一のフレームまたはフレームなし。
この場合、フレームへの言及はなされず、単に、「ペー
ジ」があるという。

【００４５】２．メインページと補助部分。ページに対
する単一のメインフレームと、ヘッダ、インデックスバ
ーあるいは検索フォームのような一定の項目に対する周
りのフレームがある。上記の例はこのモデルに当てはま
る。

【００４６】３．分割スクリーン。これは、複数のフレ
ームがすべて論理的に同じページの一部であることを意
味する。これは、単に、他の領域がスクロールしている
間に、相異なる領域を同時に見ることを可能にするだけ
である。相違点は、いくつかのフレームは一定のままで
あることを意図する一方、他のフレームはページ内容を
切り替えるということである。なお、このモデルを識別
することは、埋め込まれたヒントなしには困難なことが
ある。

【００４７】４．マルチページ。これは、他のどのモデ
ルにも当てはまらないすべてのマルチフレームレイアウ
トに対する包括的モデルである。この場合、フレームど
うしが関連したままであるか、あるいは、どのフレーム
が他に比べて一定であるかは、明らかでない。一例とし
ては、それぞれが全画面の半分を占める２つのフレーム
で、他のモデルのうちのいずれかが当てはまるような埋
め込まれたヒントがないものがある。

【００４８】次に、フレームセット内の各ページが、ペ
ージモデルのセットと照合される。ただし、指定される
フレームモデルは、あるフレームがいくつかのタイプの
ページを含むことを意味することもある。以下は、例示
的なページモデルのセットである。

【００４９】１．タイトル領域。このモデルは、タイト
ル領域フレーム内のページのみに適用される。先頭から
末尾への閲覧以外のナビゲーションは当てはまらない。
リンクおよび限定されたフォームが許容される。

【００５０】２．インデックス領域。このモデルは、イ
ンデックスリンクのフレームに適用される。これは、リ
ストとして、または、ヘッダが明らかな場合はリストの
セットとして、扱われる。ナビゲーションは、先頭から
末尾へ、または、ヘッダへである。単純なフォームが許
容され、そのフォームへは直接にナビゲーション可能で
ある。

【００５１】３．フォーム。このモデルは、ページ全体
がほとんどフォームからなることを示す。すべてのナビ
ゲーションは、フォーム用にカスタマイズされる。これ
は、メインページまたは補助ページであることが可能で
あり、セクションにも適用可能である。

【００５２】４．プレーンページ。ページは、あるとし
ても、パラグラフを超える検出可能な構造を有しない。
閲覧は、パラグラフナビゲーションによる先頭から末尾
へのものである。これはセクションにも適用される。

【００５３】５．リスト。ページは、ほとんどリストか
らなる。ヘッダおよびトレーラの項目も許容される。な
お、リストは、テーブルのように、＜ＯＬ＞または＜Ｕ
Ｌ＞以外の構造からなることも可能である。これは、セ
クションあるいは孤立リストにも適用される。

【００５４】６．テーブル。テーブルは、ほとんど真の
テーブルからなり、オプションとしてヘッダおよびトレ
ーラの項目がある。テーブル構造は、行、列およびヘッ
ダで記述され、この構造に基づくナビゲーション（例え
ば、「行２を読む」）が利用可能である。これは、セク
ションあるいは孤立テーブルにも適用される。

【００５５】７．イメージ。これは、ページがほとん
ど、おそらくはキャプションあるいはタイトルがつい
た、イメージであることを意味する。このことは、本当
はビットマップ形式の単なるリストであるということは
なさそうであることを意味する。これは、セクションあ
るいは孤立イメージにも適用される。

【００５６】８．スライドテーブル。これは、おそらく
は２次元の、イメージのリストであり、オプションとし
てキャプションを有する。見かけ上の行および列のヘッ
ダを有する２次元リストは、イメージを内容とするテー
ブルであるが、これらのヘッダがなければ、これはスラ
イドテーブルである。なお、見かけ上のスライドテーブ
ルは、本当は、ビットマップがテキストの代わりに用い
られたコマンドリストの可能性があるが、これは区別を
するのが困難である。

【００５７】９．セクション付きページ。このモデル
は、ページが、＜Ｈ１＞などのエントリのセットによっ
て、いくつかのトップレベルのセクションに分かれてい
ることを示す。ここのセクションへのナビゲーションが
サポートされ、セクションヘッダリストを要求すること
が可能である。これは、１つ下のサブセクションレベル
でも実行される。サブセクションは、現在のセクション
内でのみ利用可能である。

【００５８】１０．マルチセクション付きページ。これ
は、セクション付きページの特別の場合であり、２つよ
り多くのレベルがあるが、「セクション１．Ａ．４」の
ように、厳密な階層的番号づけ方式がある場合である。
これらのセクション番号はナビゲーションに用いられ、
グローバルに利用可能である。アクティブなセクション
ツリー内で、ヘッダも利用可能である。セクション付き
ページとの相違点は、厳密な番号づけがない場合、混乱
の可能性があるため、セクション付けは前の２つのレベ
ルには行われないことである。

【００５９】強調されるべき点であるが、上記のフレー
ム、ページおよびセクションのモデルは単なる例であ
り、これらのモデルのセブセットや、これらおよびその
他のモデルの組合せも、本発明の実施例で使用可能であ
る。

【００６０】［２．３．１イメージおよびテキスト］
実施例では、パラグラフは一般に先頭から末尾へと読ま
れる。ナビゲーションのために、リピートおよびスキッ
プのコマンドが利用可能である。セクション内のパラグ
ラフは、すばやくナビゲーションを行うために、オプシ
ョンとして番号づけすることも可能である。ほとんどの
非テキスト項目は、新しいパラグラフを開始する。埋め
込まれる主な項目は、リンク、フォント変更およびイメ
ージである。イメージは、その周りにテキストが流れて
いる場合には埋め込まれているとみなされるが、ページ
の与えられた「行」に孤立している場合には、別個のパ
ラグラフとみなされる。埋め込まれたリンクは、異なる
音声で読まれることが可能である。フォント変更は通常
は無視されるが、ユーザの初期設定を、フォント変更に
異なる音声を割り当てるように設定することが可能であ
る。イメージが埋め込まれたパラグラフは、そのテキス
ト内容が読まれる前に、その通りアナウンスされること
が可能である。イメージは、例えば、キャプションによ
って説明され、特定のイメージに対する要求は、番号に
よって行われ、番号づけは、行の順に行われる。一般
に、テキストを読んでいる間、これらのイメージへの言
及はなされない。孤立したイメージ、例えば、イメージ
のみのパラグラフやテーブルエレメントは、例えば、
「・・・というキャプションのあるイメージ」のように
説明されることが可能であり、おそらくはそのサイズが
アナウンスされる。

【００６１】［２．３．２テーブル］本発明によれ
ば、テーブルは、その目的を分類するために解析され
る。単一のエレメントを有するテーブルは一般に無視さ
れ、用いられているエレメントが、そのテーブルとは無
関係に用いられる。行あるいは列のヘッダを有するテー
ブルは一般にデータテーブルとして分類され、そのよう
に説明されナビゲーションされる。他のすべてのテーブ
ルは、さまざまなモデルに対して当てはまるかどうかが
調べられる。例示的なテーブルモデルのセットには次の
ようなものがある。２個のエレメントを有するテーブル
で、一方のエレメントはイメージであり、このテーブル
は、イメージとタイトルの組合せとみなされる。これは
「イメージ」となり、テーブル自体は無視される。含ま
れるエレメントがほとんどフォームエレメントであるよ
うなテーブルは、フォームとみなされる。テーブル構造
は、タイトルをエレメントと関連づけ、前後関係を確立
するために使用されるが、それ以外の場合は、ユーザに
対して言及されない。含まれるエレメントがプレーンテ
キストであるテーブルは、リストとみなされる。

【００６２】［２．３．３フォーム］実施例では、フ
ォームは、「埋め込まれた」または「プレーン」（普通
の）のいずれかに分類される。単一のエレメントを有す
る埋め込まれたフォームや、その他のタイプの小さいフ
ォームは、入力領域（例えば検索入力）とみなされる。
このようなタイプのフォームは、トップレベル項目（例
えば検索）として、あるいは、プレーンパラグラフ（例
えば、ページの最後にある「あなたのコメントをくださ
い」エレメント）として、扱われることが可能である。
他のすべてのフォームはプレーンフォームとして扱われ
る。フォーム解析の重要な点は、説明と、フォーム固有
のナビゲーションを可能にすることである。一般に、フ
ォーム内のすべてのエレメントを、それらが「大域記述
的(global descriptive)」であるか、または、特定のエ
レメントに付随するタイトル、命令などであるかに関し
て分類したい。また、前後関係を確立したい。なお、フ
ォームの直前または直後の項目は、フォームの一部（例
えば、タイトルや注意書きとして）とみなされることが
可能である。実施例における解析は一般に、フォームは
構文的に＜ＦＯＲＭ＞と＜／ＦＯＲＭ＞の対の内側また
は近くにあると仮定するが、フォームエレメントは、プ
レーンページのどこにでも位置することが可能である。
解析は、ＨＴＭＬソースにおいて、あるいは対応するテ
ーブルにおいて、隣接性を利用しようとする。なお、
「多くの規則的な」フォームエントリを含むヘッダを有
するテーブルは、テーブルナビゲーションが追加された
フォームとみなされるが、少数のエントリのみを有する
テーブルは、その代わりに、偶然のフォームエレメント
を有するテーブルとして説明される。

【００６３】［２．４自動文法生成］上記のように、
ＩＶＲプラットフォーム１０２内の文法生成器１２０
は、ハイパーリンクタイトルなどのウェブページ情報か
ら音声文法を生成する。この文法生成には、例えば、タ
イトル後のそれぞれの可能なサブセットの文法仕様言語
（ＧＳＬ：Grammar Specification Language）記述を生
成することが含まれる。結果として得られるＧＳＬは、
音声認識器１２２用にコンパイルされ最適化される。さ
らに、この文法で使用される語彙語は、ＴＴＳ合成器１
１６を用いて音声表記される。ＧＳＬに関してさらに詳
細には、例えば、M. K. Brown and J. G. Wilpon, "A G
rammar Compiler for Connected Speech Recognition",
IEEE Transactions on Signal Processing, Vol.39, N
o.1, pp.17-28, January 1991、に記載されている。

【００６４】［２．４．１組合せ論］音声ナビゲーシ
ョンコマンドには、組合せ論的処理を用いて、例えば、
タイトル語の順序を保ったまま全部で２^n-1通りの可能
な語の組合せを計算することにより、フレキシビリティ
を追加することが可能である。このプロセスは、すべて
の可能な語削除が話されることを可能にするような、複
雑度の低い、強く制約された文法を提供することによっ
て、ユーザに対して、（例えば、与えられたハイパーリ
ンクをアドレス指定するために）必要な最小限の語のセ
ットのみを話す自由度を与える。また、このプロセス
は、結果として得られるＧＳＬ記述に多くの冗長性を生
成することが可能である。多くのサブセットでは、先頭
および末尾の語が再利用されるからである。この冗長性
は、文法が下記のように決定性にされると除去すること
が可能である。少数の語挿入は、いわゆる音響的「ガー
ベジ」モデルをハイパーリンクタイトルサブセット内の
語間に挿入することによって、許容される。これは、文
法生成器１２０によって自動的に行うことが可能であ
る。組合せ論的処理は、＜ＧＲＡＭＭＡＲ＞定義に遭遇
すると禁止される。ハイパーリンクタイトルと＜ＧＲＡ
ＭＭＡＲ＞定義の混合を単一のページで用いて、各方法
の特徴を利用することが可能である。

【００６５】［２．４．２文法のコンパイル］実施例
では、文法のコンパイルは一般に、作成されたＧＳＬを
前処理して外部ファイルをインクルードするステップ
と、マクロを展開するステップと、展開されたＧＳＬを
構文解析するステップと、文法ネットワークコードを生
成するステップとを含む。文法コードは、有限状態ネッ
トワークの状態がどのように連結され、どのようなラベ
ルが状態遷移に付けられるかを定義する文法規則を記述
する。さらに詳細には、M. K. Brown and B. M. Buntsh
uh, "A Context-Free Grammar Compiler for Speech Un
derstanding Systems", ICSLP '94, Vol.1, pp.21-24,
Yokohama, Japan, Sept. 1994、に記載されている。結
果として得られる有限状態ネットワークは一般に大きく
冗長であり、特に、ＧＳＬのほとんどがハイパーリンク
タイトルから生成される場合にはそうであって、文法を
音声認識にとっては非効率にする。本発明によれば、こ
の非効率性は、４段階のコード最適化で低減される。

【００６６】第１段階では、周知の有限状態ネットワー
ク決定性化アルゴリズムを用いて文法を決定性にする。
これは、文法規則内のすべてのＬＨＳ冗長性を除去し、
結果として得られるネットワークを決定性（入力シンボ
ルが与えられた場合に次状態が一意的に定義されるとい
う意味で）にする。文法のすべての曖昧さはこの段階で
除去される。最適化の第２段階は、Ｏ（ｎｌｏｇ
（ｎ））群分割アルゴリズムを用いて、ネットワーク内
の状態数を最小化する。これは、決定性を保ちながら、
すべての同形的(homomorphic)冗長性を除去する。これ
は、文法の状態数最小記述であるが、必ずしも、音声認
識にとって最も効率的な表現ではない。最適化の第３段
階は、すべてのＲＨＳ文法規則冗長性を除去する。この
操作は決定性を保存しないが、冗長な状態遷移を除去す
る。状態遷移は、語モデルを表現する誤ラベルを有し、
従って計算を引き起こすため、このような遷移における
冗長性を低減することは、プロセスにおいて状態数が通
常は増大するのであっても、有益である。最適化の最後
の段階は、ほとんどのヌル（すなわち、「イプシロ
ン」）状態遷移の除去である。このようなヌル遷移の一
部は、最適化の第３段階で生成される。他は、＜ＧＲＡ
ＭＭＡＲ＞定義によって明示的に生成されたものである
可能性がある。ヌル遷移に計算はかからないが、記憶領
域を浪費するため、除去すべきである。

【００６７】注意すべき点であるが、本発明の代替実施
例では、文法は、文法が使用されるにつれてコンパイル
されるのではなく、部分的または完全にプリコンパイル
（事前にコンパイル）される。このような構成は、例え
ば、名前電話帳のように文法が非常に大規模であるか、
そうでなければ、コンパイルに長時間を要するようなア
プリケーションにとって有益となることがある。

【００６８】［２．４．３音声表記］上記の語彙語
は、コンパイルプロセス中に文法定義から抽出される。
例えば、各語は、ＴＴＳ合成器１１６内の発音モジュー
ルによって独立して処理され、各語がどのように発音さ
れるかを記述する音声表記を生成する。この方法は、文
脈を無視し、おそらくは語を動詞ではなく名詞として
（例えば、目的語、主語など）、あるいはその逆に、誤
って発音するという欠点を有する。より正確な発音を行
うために、文脈情報を含めることも可能である。

【００６９】［２．５音声解釈］実施例では、音声コ
マンドは、発声された句をキーとするハッシュ表を用い
てすばやく解釈される。これは一般に、音声認識器出力
テキストからコンピュータコマンドやＵＲＬへの「多対
多」写像である。複数のＵＲＬやコマンドがテーブルか
ら検索された場合、曖昧さ除去ダイアログマネージャを
利用して、一意的な選択をするようユーザに指示するこ
とが可能である。訪れる各ウェブページごとに別個のハ
ッシュ表を管理して、ページを再び訪れるときに文法再
コンパイルを不要にすることも可能である。これによ
り、多くのハッシュ表が作成されることになるが、テー
ブルサイズは一般に小さいため、これはウェブページ閲
覧には効果的な方法となる。大規模な文法アプリケーシ
ョンでは、文法コンパイラを用いて意味論的パーサを自
動生成することも可能である。その後、２段階で解釈を
行うことができる。例えば、第１段階で、ハイパーリン
クタイトルから作成されたハッシュ表がキー句を含まな
いことがわかった場合、第２段階で、意味論的パーサを
用いて、その句を解釈することが可能である。

【００７０】［３．一般的なウェブベースＩＶＲアプリ
ケーション］本発明によるＩＶＲプラットフォーム１０
２は、音声制御ウェブブラウザを提供するのみならず、
一般的なインターネット利用者がＩＶＲアプリケーショ
ンを作成することを可能にするためにも使用可能であ
る。このアプローチの利点は、個人や小規模事業者が特
殊なＩＶＲ機器を所有する必要がなくなることである。
前述のように、代表的なＩＶＲプラットフォームは非常
に高価であるため、一般には比較的大規模な事業者やＩ
ＳＰしかこの機器を所有することができない。しかし、
ユーザは、単にＨＴＭＬ、ＰＭＬあるいはその他のタイ
プのウェブページを単に書きながら、ＩＶＲプラットフ
ォーム１０２を所有するＩＳＰからＩＶＲプラットフォ
ームサービスを受けることによって、ＩＶＲプラットフ
ォーム１０２を利用するアプリケーションをプログラム
することができるため、小規模事業者や個人は、機器に
多大な投資をする必要がない。

【００７１】前述のように、与えられたページあるいは
ページのセット内の通常の各ハイパーリンクタイトル
は、タイトル内の語のすべての部分列の発声を可能にす
る部分文法を生成するように処理されることが可能であ
る。一般的なＩＶＲアプリケーションでは、コンテンツ
開発者は、例えば、＜ＧＲＡＭＭＡＲ＞タグを挿入した
後、ＧＳＬで文法を書き、さらに＜ＧＲＡＭＭＡＲ＞タ
グを置くことによって、より複雑な文法を書くことがで
きる。この方法を用いると、多くの全く異なる句を、同
じＵＲＬをアドレス指定するために使用することが可能
である。このようなアプリケーションにおけるＧＳＬの
使用法は、他のアプリケーションにおいて音声文法を定
義するためのＧＳＬの通常の使用法と同様である。例え
ば、ローカルな＜ＧＲＡＭＭＡＲ＞スコープは、現在の
ＵＲＬに対する完全な定義を含むことが可能である。イ
ンクルードされるファイルは、周りの文法定義を含むこ
とが可能である。マクロは、ローカルな＜ＧＲＡＭＭＡ
Ｒ＞スコープ内で定義されることも可能であり、インク
ルードされたファイルに存在することも可能である。す
べてのマクロは一般に、ウェブページ内でグローバルな
スコープを有する。

【００７２】ウェブページ内のローカルなアプレットコ
ードおよびその他のタイプのアプリケーションコード
は、ＩＶＲコンテンツ開発者にサーバまたはクライアン
トで動作を実行する手段を与えるために使用可能であ
る。代表的なＩＶＲプラットフォームアプリケーション
では、サーバで動作を実行するためにＪａｖａコードを
使用し、サーバは、リモート端の追加ハードウェアを用
いてインターネットやＰＳＴＮを通じてリモートデバイ
スを制御することが可能である。インターネット上のＨ
ＴＭＬページは、暗黙の有限状態ネットワークを形成す
るため、このネットワークを用いて、ダイアログシステ
ムを作成することが可能である。その結果として得られ
るシステムは、ダイアログを用いて、ユーザへのウェブ
ページ情報の出力を制御する。アプレット言語がなくて
も、このようなダイアログシステムは、本発明の技術を
用いて作成することができる。

【００７３】具体的には、このようなダイアログシステ
ムで実現されるＩＶＲウェブページは、例えば、ページ
が読まれるときにユーザに話されるおそらくはヌルのテ
キスト、ホストプロセッサ上で動作を実行するプログラ
ムスクリプト、および、ユーザからのそれぞれの適当な
音声応答に対するおそらくは無音のハイパーリンクとを
含む。さらに、音声認識器が発声を認識不能として拒否
するときにとられる他のハイパーリンクが存在すること
も可能である。これらの基本的な構成要素を用いて、ダ
イアログシステムを作成することができる。

【００７４】簡単な例として、ハイパーリンク（例え
ば、HREF="http://www.anywhere.net/" GRAMMAR="((get
| retrieve | call for) messages)" TITLE="Get mess
ages"）に埋め込まれた＜ＧＲＡＭＭＡＲ＞タグの表現
は、ユーザの留守番電話機への通話を開始するというよ
うなアクションを引き起こすようにユーザが言うことが
できる発声選択肢のフレキシブルなセットを表現するこ
とができる。この場合、ハイパーリンクは無音ではな
い。ハイパーリンクのタイトル部分はユーザに対して"G
et messages"と話されるからである。ハイパーリンクの
タイトル部分が空である場合、ユーザに対して何も話さ
れない。ユーザは、この簡単な例では、"getmessage
s"、"retrieve messages"、または"call for messages"
と応答することができる。コマンドを言い、このリンク
をたどって次のウェブページに進むことによって、ユー
ザは、そのページのテキスト、例えば、"Do you want v
oice oremail messages?"（「音声メッセージにします
か、それとも電子メールメッセージにしますか？」）を
読むことが可能である。適当な音声文法を有するそのペ
ージの２つのハイパーリンクが適当なページにリンクし
て、音声メッセージまたは電子メールへのアクセスを引
き起こすことが可能である。音声認識器が非認識を示す
トークンを返すように設定することができるため、発声
が理解されないときに第３のデフォルトリンクをとるこ
とも可能である。それぞれのメッセージ選択に対して、
さらに、メッセージを読む、保存する、削除するおよび
メッセージに応答する、のような機能を扱うウェブペー
ジのセットが存在することも可能である。ハイパーリン
クに埋め込まれた＜ＧＲＡＭＭＡＲ＞タグの表現のもう
１つの例は、HREF="http://www.anywhere.net/" GRAMMA
R_FILE=<URL>である。この場合、指定されたＵＲＬは、
文法ファイルがどこにあるかを示す。他の多くのタイプ
のダイアログシステムも、本発明の技術を用いて同様に
して作成することができる。

【００７５】このようにしてダイアログシステムを作成
することができることにより、コンテンツ開発者が、Ｉ
ＳＰのようなサービスプロバイダから利用可能なＩＶＲ
プラットフォームのサービスを受けられる限り、ＩＶＲ
プラットフォームを所有したり直接に操作したりせず
に、一般的なインターネット利用者に新たなクラスのイ
ンターネットアプリケーションを提供する。前述のよう
に、これは、一般に高価なＩＶＲ機器を所有する必要が
あった、ＩＶＲサービスを提供するための従来のアプロ
ーチとの顕著な相違である。ＩＶＲプラットフォームシ
ステムを有するＩＳＰは、比較的低コストで一般大衆に
ＩＶＲサポートサービスを販売することができる。さら
に要求の厳しい応答条件のある会社は、最終的に、限定
された従業員のグループのために自己のプラットフォー
ムを運用したいと考えるかもしれないが、高価な機器の
購入を決定する前に、自己のＩＶＲウェブページを開発
しテストすることができる。

【００７６】本発明の上記の実施例は単なる例示のため
のものである。代替実施例としては、例えば、取得した
ウェブページから可聴情報を生成するための光学的文字
認識（ＯＣＲ）、言語化のための画像解析、電子メール
から音声への変換、および安全なアクセスのための話者
照合のような追加機能を含むことも可能である。

【００７７】

【発明の効果】以上述べたごとく、本発明によれば、イ
ンターネットなどのコンピュータネットワークを通じた
対話型音声応答（ＩＶＲ）アプリケーションを実装する
装置および方法が実現される。

【図面の簡単な説明】

【図１】本発明によるウェブベースの対話型音声応答
（ＩＶＲ）プラットフォームを含むシステムのブロック
図である。

【図２】図１のウェブベースのＩＶＲプラットフォーム
の詳細図である。

【符号の説明】

１００情報検索システム１０２ウェブベースＩＶＲプラットフォーム１０４ネットワーク１０６サーバ１０８オーディオインタフェースデバイス１０９ネットワーク１１０ウェブブラウザ１１２ＨＴＭＬパーサ１１４音声プロセッサ１１６テキスト−音声（ＴＴＳ）合成器１２０文法生成器１２２音声認識器１２４音声コマンドインタプリタ１２６ＤＴＭＦデコーダ１３０プロセッサ１３２メモリ

フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者マイケルケネスブラウンアメリカ合衆国、07060 ニュージャージー、ノースプレインフィールド、ルイスストリート 285 (72)発明者ケネスジー．レホアーアメリカ合衆国、60402 イリノイ、バーウィン、ウエスト 13 ストリート 7108 (72)発明者ブレインカールシュマルトアメリカ合衆国、08873 ニュージャージー、サマーセット、シャーマンサークル 17 (72)発明者カーチスデュアンターキーアメリカ合衆国、60626 イリノイ、シカゴ、ダブリュー．アーサーストリート 1217

Claims

【特許請求の範囲】

【請求項１】ネットワークを通じて取得したウェブペ
ージの少なくとも一部を特徴づける音声出力を生成する
音声合成器と、少なくとも１つの文法の少なくとも一部を生成するよう
に前記取得したウェブページ内の情報を処理する文法生
成器と、前記文法生成器の出力に接続された入力を有し、前記文
法生成器によって生成される前記少なくとも１つの文法
を利用して音声入力を認識する音声認識器とを有するこ
とを特徴とする、ネットワークを通じての対話型音声応
答を実現する装置。
【請求項２】前記音声合成器、前記文法生成器および
前記音声認識器のうちの少なくとも１つの機能を実現す
るプロセッサをさらに有することを特徴とする請求項１
に記載の装置。
【請求項３】前記取得したウェブページ内のテキスト
情報を識別し、該テキスト情報を前記文法生成器に送る
パーサをさらに有することを特徴とする請求項１に記載
の装置。
【請求項４】所定のモデルのセットのうちのどのモデ
ルが前記取得したウェブページを最も良く特徴づけるか
を判定する音声プロセッサをさらに有することを特徴と
する請求項１に記載の装置。
【請求項５】前記音声プロセッサは、前記取得したウ
ェブページが前記所定のモデルのセットのうちのいずれ
のモデルによっても適当に特徴づけられない場合に、デ
フォルトのトップダウン説明プロセスを利用することを
特徴とする請求項４に記載の装置。
【請求項６】前記モデルは、セクションヘディング、
テーブル、フレーム、およびフォームのうちの少なくと
も１つを含むウェブページ内の構造を特徴づけることを
特徴とする請求項４に記載の装置。
【請求項７】前記音声プロセッサは、複数の相異なる
モデルセットを前記取得したウェブページに適用し、各
モデルセットは少なくとも１つのモデルを含むことを特
徴とする請求項４に記載の装置。
【請求項８】前記音声合成器、前記文法生成器および
前記音声認識器は、サービスプロバイダの対話型音声応
答システムの要素であることを特徴とする請求項１に記
載の装置。
【請求項９】前記音声合成器は、ユーザ入力による割
込みがなければ前記音声合成器が前記取得したウェブペ
ージの完全な説明をオーディオインタフェースデバイス
を通じてユーザに提供する説明モードと、前記音声合成
器が前記取得したウェブページの簡略な説明を提供して
からユーザからの調査コマンド入力を待機する調査モー
ドとで動作することを特徴とする請求項１に記載の装
置。
【請求項１０】前記文法生成器によって生成される前
記少なくとも１つの文法は、同様の音素が前記音声認識
器および前記音声合成器の両方で使用されるように、音
素情報を生成するために前記音声合成器によって利用さ
れることを特徴とする請求項１に記載の装置。
【請求項１１】前記音声合成器、前記文法生成器およ
び前記音声認識器は、ユーザへのウェブページ情報の出
力を制御するためにオーディオインタフェースデバイス
を通じてユーザとダイアログが行われるダイアログシス
テムを実現するために使用されることを特徴とする請求
項１に記載の装置。
【請求項１２】ウェブページは、（ｉ）音声合成器に
よってユーザに対して読まれるテキスト、（ｉｉ）ホス
トプロセッサ上で動作を実行するプログラムスクリプ
ト、および（ｉｉｉ）ユーザから受け取る指定された音
声応答のセットのそれぞれに対するハイパーリンク、の
うちの少なくとも１つを含むことを特徴とする請求項１
１に記載の装置。
【請求項１３】ウェブページは、与えられたユーザ音
声入力を前記音声認識器が認識不能として拒否したとき
に利用される少なくとも１つのハイパーリンクを含むこ
とを特徴とする請求項１１に記載の装置。
【請求項１４】前記文法生成器によって生成される文
法の少なくとも一部はあらかじめコンパイルされている
ことを特徴とする請求項１１に記載の装置。
【請求項１５】ネットワークを通じて取得したウェブ
ページの少なくとも一部を特徴づける音声出力を生成す
る合成ステップと、少なくとも１つの文法の少なくとも一部を生成するよう
に前記ウェブページ内の情報を処理する処理ステップ
と、前記文法を利用して音声入力を認識する認識ステップと
を有することを特徴とする、ネットワークを通じての対
話型音声応答を実現する方法。
【請求項１６】所定のモデルのセットのうちのどのモ
デルが前記取得したウェブページを最も良く特徴づける
かを判定するステップをさらに有することを特徴とする
請求項１５に記載の方法。
【請求項１７】前記取得したウェブページが前記所定
のモデルのセットのうちのいずれのモデルによっても適
当に特徴づけられない場合に、デフォルトのトップダウ
ン説明プロセスを利用するステップをさらに有すること
を特徴とする請求項１６に記載の方法。
【請求項１８】複数の相異なるモデルセットを前記取
得したウェブページに適用するステップをさらに有し、
各モデルセットは少なくとも１つのモデルを含むことを
特徴とする請求項１６に記載の方法。
【請求項１９】同様の音素が前記認識ステップおよび
前記合成ステップの両方で使用されるように、音素情報
を生成するために前記文法を利用するステップをさらに
有することを特徴とする請求項１５に記載の方法。
【請求項２０】前記合成ステップ、前記処理ステップ
および前記認識ステップは、ユーザへのウェブページ情
報の出力を制御するためにユーザとダイアログが行われ
るダイアログシステムを実現することを特徴とする請求
項１５に記載の方法。
【請求項２１】ウェブページは、（ｉ）ユーザに対し
て読まれるテキスト、（ｉｉ）ホストプロセッサ上で動
作を実行するプログラムスクリプト、および（ｉｉｉ）
ユーザから受け取る指定された音声応答のセットのそれ
ぞれに対するハイパーリンク、のうちの少なくとも１つ
を含むことを特徴とする請求項２０に記載の方法。
【請求項２２】ウェブページは、与えられたユーザ音
声入力が認識不能として拒否されたときに利用される少
なくとも１つのハイパーリンクを含むことを特徴とする
請求項２０に記載の方法。
【請求項２３】前記処理ステップによって生成される
文法の少なくとも一部はあらかじめコンパイルされてい
ることを特徴とする請求項１５に記載の方法。
【請求項２４】ネットワークを通じての対話型音声応
答アプリケーションを実現する１つ以上のプログラムを
格納したマシン読み取り可能媒体において、該１つ以上
のプログラムがマシンによって実行されるとき、ネットワークを通じて取得したウェブページの少なくと
も一部を特徴づける音声出力を生成するステップと、少なくとも１つの文法の少なくとも一部を生成するよう
に前記ウェブページ内の情報を処理するステップと、前記文法を利用して音声入力を認識するステップとを実
行することを特徴とする、ネットワークを通じての対話
型音声応答アプリケーションを実現する１つ以上のプロ
グラムを格納したマシン読み取り可能媒体。
【請求項２５】ネットワークとオーディオインタフェ
ースデバイスの間で情報を通信する対話型音声応答シス
テムにおいて、該システムは、対話型音声応答プラット
フォームの少なくとも一部を実現する少なくとも１つの
コンピュータを有し、該プラットフォームは、（ｉ）ネ
ットワークを通じて取得したウェブページの少なくとも
一部を特徴づける音声出力を生成する音声合成器と、
（ｉｉ）少なくとも１つの文法の少なくとも一部を生成
するように前記取得したウェブページ内の情報を処理す
る文法生成器と、（ｉｉｉ）前記文法生成器によって生
成される前記少なくとも１つの文法を利用して音声入力
を認識する音声認識器とを有することを特徴とする対話
型音声応答システム。
【請求項２６】前記対話型音声応答プラットフォーム
は、サービスプロバイダに含まれることを特徴とする請
求項２５に記載の対話型音声応答システム。
【請求項２７】前記対話型音声応答プラットフォーム
は、ユーザへのウェブページ情報の出力を制御するため
にユーザとダイアログが行われるダイアログシステムを
実現することを特徴とする請求項２５に記載の対話型音
声応答システム。