JP2000137596A - 対話型音声応答システム - Google Patents
対話型音声応答システムInfo
- Publication number
- JP2000137596A JP2000137596A JP11283971A JP28397199A JP2000137596A JP 2000137596 A JP2000137596 A JP 2000137596A JP 11283971 A JP11283971 A JP 11283971A JP 28397199 A JP28397199 A JP 28397199A JP 2000137596 A JP2000137596 A JP 2000137596A
- Authority
- JP
- Japan
- Prior art keywords
- grammar
- web page
- user
- speech
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 18
- 230000004044 response Effects 0.000 title claims description 25
- 238000000034 method Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000003786 synthesis reaction Methods 0.000 claims 2
- 230000015654 memory Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 241000448472 Gramma Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/20—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place hybrid systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/12—Arrangements for interconnection between switching centres for working between exchanges having different types of switching equipment, e.g. power-driven and step by step or decimal and non-decimal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
(57)【要約】
【課題】 インターネットを通じた対話型音声応答(I
VR)アプリケーションを実現する。 【解決手段】 IVRプラットフォーム102は、音声
合成器116、文法生成器120および音声認識器12
2を有する。音声合成器116は、ネットワークを通じ
て取得されるウェブの構造および内容を特徴づける音声
を生成する。この音声は、電話機などのオーディオイン
タフェースデバイス108を通じてユーザに送られる。
文法生成器120は、取得したウェブページから解析さ
れるテキスト情報を利用して文法を生成する。この文法
は、音声認識器122に供給され、ユーザによって生成
される音声コマンドを解釈するために使用される。文法
生成器120によって生成される文法は、部分的にまた
は完全にプリコンパイルすることも可能である。
VR)アプリケーションを実現する。 【解決手段】 IVRプラットフォーム102は、音声
合成器116、文法生成器120および音声認識器12
2を有する。音声合成器116は、ネットワークを通じ
て取得されるウェブの構造および内容を特徴づける音声
を生成する。この音声は、電話機などのオーディオイン
タフェースデバイス108を通じてユーザに送られる。
文法生成器120は、取得したウェブページから解析さ
れるテキスト情報を利用して文法を生成する。この文法
は、音声認識器122に供給され、ユーザによって生成
される音声コマンドを解釈するために使用される。文法
生成器120によって生成される文法は、部分的にまた
は完全にプリコンパイルすることも可能である。
Description
【0001】
【発明の属する技術分野】本発明は、一般に、インター
ネットなどのコンピュータネットワークに関し、特に、
電話などのオーディオインタフェースデバイスによりこ
のようなネットワークを通じて情報を取得する技術に関
する。
ネットなどのコンピュータネットワークに関し、特に、
電話などのオーディオインタフェースデバイスによりこ
のようなネットワークを通じて情報を取得する技術に関
する。
【0002】
【従来の技術】インターネットの継続する成長により、
インターネットは、さまざまなトピックに関する情報の
一次情報源となっている。インターネットおよびその他
のタイプのコンピュータネットワークへのアクセスは一
般に、ブラウザプログラムを備えたコンピュータを通じ
て実行される。ブラウザプログラムは、ユーザがネット
ワークを通じてアクセス可能なサーバに対して情報を要
求し、そうして得られた情報を閲覧あるいは処理するこ
とを可能にするグラフィカルユーザインタフェースを提
供する。電話機やそれと同様のオーディオインタフェー
スデバイスしか備えていないユーザへとインターネット
アクセスを拡大する技術が開発されており、例えば、 ・D. L. Atkins et al., "Integrated Web and Telepho
ne Service Creation", Bell Labs Technical Journal,
pp.19-35, Winter 1997 ・J. C. Ramming, "PML: A Language Interface to Net
worked Voice Response Units", Workshop on Internet
Programming Languages, ICCL '98, Loyola Universit
y, Chicago, Illinois, May 1998に記載されている。
インターネットは、さまざまなトピックに関する情報の
一次情報源となっている。インターネットおよびその他
のタイプのコンピュータネットワークへのアクセスは一
般に、ブラウザプログラムを備えたコンピュータを通じ
て実行される。ブラウザプログラムは、ユーザがネット
ワークを通じてアクセス可能なサーバに対して情報を要
求し、そうして得られた情報を閲覧あるいは処理するこ
とを可能にするグラフィカルユーザインタフェースを提
供する。電話機やそれと同様のオーディオインタフェー
スデバイスしか備えていないユーザへとインターネット
アクセスを拡大する技術が開発されており、例えば、 ・D. L. Atkins et al., "Integrated Web and Telepho
ne Service Creation", Bell Labs Technical Journal,
pp.19-35, Winter 1997 ・J. C. Ramming, "PML: A Language Interface to Net
worked Voice Response Units", Workshop on Internet
Programming Languages, ICCL '98, Loyola Universit
y, Chicago, Illinois, May 1998に記載されている。
【0003】
【発明が解決しようとする課題】上記の文献に記載され
ているオーディオインタフェース技術を利用する対話型
音声応答(IVR:Interactive Voice Response)アプ
リケーションを開発するユーザは、しばしば50,00
0ドル以上もする高価な専用IVRハードウェアを利用
しなければならない。この専用IVRハードウェアに伴
う出費は、小規模事業者や個人のような多くのユーザ
が、自己のウェブページ用にIVRアプリケーションを
作成することを妨げている。従って、このようなユーザ
は、電話機などのオーディオインタフェースデバイスに
よるアクセスを可能にするように自己のウェブページを
設定することができない。
ているオーディオインタフェース技術を利用する対話型
音声応答(IVR:Interactive Voice Response)アプ
リケーションを開発するユーザは、しばしば50,00
0ドル以上もする高価な専用IVRハードウェアを利用
しなければならない。この専用IVRハードウェアに伴
う出費は、小規模事業者や個人のような多くのユーザ
が、自己のウェブページ用にIVRアプリケーションを
作成することを妨げている。従って、このようなユーザ
は、電話機などのオーディオインタフェースデバイスに
よるアクセスを可能にするように自己のウェブページを
設定することができない。
【0004】
【課題を解決するための手段】本発明は、インターネッ
トなどのコンピュータネットワークを通じた対話型音声
応答(IVR)アプリケーションを実装する装置および
方法を提供する。本発明の実施例は、音声合成器、文法
生成器および音声認識器を有するIVRプラットフォー
ムである。音声合成器は、ネットワークを通じて取得さ
れるウェブの構造および内容を特徴づける音声を生成す
る。この音声は、電話機やその他のタイプのオーディオ
インタフェースデバイスを通じてユーザに送られる。文
法生成器は、取得したウェブページから解析されるテキ
スト情報を利用して文法を生成する。この文法は、音声
認識器に供給され、ユーザによって生成される音声コマ
ンドを解釈するために使用される。また、この文法は、
同様の音素が音声認識器と音声合成器の両方で使用され
るように、表音(phonetic)情報を作成するために音声合
成器によって利用されることも可能である。名前電話帳
(name dialing directory)のような適当なアプリケーシ
ョンや、コンパイル時間が長い文法を有するその他のア
プリケーションでは、文法生成器によって生成される文
法は、部分的にまたは完全にプリコンパイルすることも
可能である。
トなどのコンピュータネットワークを通じた対話型音声
応答(IVR)アプリケーションを実装する装置および
方法を提供する。本発明の実施例は、音声合成器、文法
生成器および音声認識器を有するIVRプラットフォー
ムである。音声合成器は、ネットワークを通じて取得さ
れるウェブの構造および内容を特徴づける音声を生成す
る。この音声は、電話機やその他のタイプのオーディオ
インタフェースデバイスを通じてユーザに送られる。文
法生成器は、取得したウェブページから解析されるテキ
スト情報を利用して文法を生成する。この文法は、音声
認識器に供給され、ユーザによって生成される音声コマ
ンドを解釈するために使用される。また、この文法は、
同様の音素が音声認識器と音声合成器の両方で使用され
るように、表音(phonetic)情報を作成するために音声合
成器によって利用されることも可能である。名前電話帳
(name dialing directory)のような適当なアプリケーシ
ョンや、コンパイル時間が長い文法を有するその他のア
プリケーションでは、文法生成器によって生成される文
法は、部分的にまたは完全にプリコンパイルすることも
可能である。
【0005】本発明によるIVRプラットフォームは、
例えば、取得したウェブページ内のテキスト情報を識別
してそのテキスト情報を文法生成器に送るパーサや、パ
ーサからのウェブページ情報も受け取る音声プロセッサ
のような、他の要素を含むことも可能である。音声プロ
セッサは、この情報を用いて、あらかじめ定義されたい
くつかのモデルのうちのいずれが、与えられた取得ウェ
ブページを最もよく特徴づけるかを判定する。このモデ
ルは、セクションヘディング、テーブル、フレーム、フ
ォームなどのようなウェブページの構造のさまざまなタ
イプや配置を特徴づけるように選択され、対応する言語
的説明(verbal description)の生成を単純化する。
例えば、取得したウェブページ内のテキスト情報を識別
してそのテキスト情報を文法生成器に送るパーサや、パ
ーサからのウェブページ情報も受け取る音声プロセッサ
のような、他の要素を含むことも可能である。音声プロ
セッサは、この情報を用いて、あらかじめ定義されたい
くつかのモデルのうちのいずれが、与えられた取得ウェ
ブページを最もよく特徴づけるかを判定する。このモデ
ルは、セクションヘディング、テーブル、フレーム、フ
ォームなどのようなウェブページの構造のさまざまなタ
イプや配置を特徴づけるように選択され、対応する言語
的説明(verbal description)の生成を単純化する。
【0006】本発明のもう1つの特徴によれば、音声合
成器、文法生成器および音声認識器は、IVRプラット
フォームのその他の要素とともに、ダイアログシステム
を実現するために使用されることが可能である。このダ
イアログシステムにおいて、ダイアログは、ユーザへの
ウェブページ情報の出力を制御するためにユーザとの間
でなされる。与えられた取得ウェブページは、例えば、
音声合成器によってユーザに対して読まれるべきテキス
ト、ホストプロセッサ上で動作を実行するためのプログ
ラムスクリプト、および、ユーザから受け取られる可能
性のある指定された各発声応答に対するハイパーリンク
を含む。また、ウェブページは、音声認識器が、与えら
れた発声ユーザを認識不能として拒否するときに利用さ
れるべき1つ以上のハイパーリンクを含むことも可能で
ある。
成器、文法生成器および音声認識器は、IVRプラット
フォームのその他の要素とともに、ダイアログシステム
を実現するために使用されることが可能である。このダ
イアログシステムにおいて、ダイアログは、ユーザへの
ウェブページ情報の出力を制御するためにユーザとの間
でなされる。与えられた取得ウェブページは、例えば、
音声合成器によってユーザに対して読まれるべきテキス
ト、ホストプロセッサ上で動作を実行するためのプログ
ラムスクリプト、および、ユーザから受け取られる可能
性のある指定された各発声応答に対するハイパーリンク
を含む。また、ウェブページは、音声認識器が、与えら
れた発声ユーザを認識不能として拒否するときに利用さ
れるべき1つ以上のハイパーリンクを含むことも可能で
ある。
【0007】本発明によるIVRプラットフォームは、
インターネットサービスプロバイダ(ISP)やその他
のタイプのサービスプロバイダによって運用されること
が可能である。ウェブページをプログラミングすること
によってダイアログベースのIVRアプリケーション作
成することが可能になることにより、本発明は、一般的
なインターネット利用者に対して新たなクラスのインタ
ーネットアプリケーションを提供する。例えば、インタ
ーネットコンテンツ開発者は、ISPからIVRプラッ
トフォームにアクセス可能であれば、IVRプラットフ
ォームを所有あるいは直接に操作する必要がない。これ
は、一般に高価なIVR機器を所有する必要があった、
IVRサービスを提供するための従来のアプローチとの
顕著な相違である。IVRプラットフォームシステムを
有するISPは、比較的低コストで一般大衆にIVRサ
ポートサービスを販売することができる。
インターネットサービスプロバイダ(ISP)やその他
のタイプのサービスプロバイダによって運用されること
が可能である。ウェブページをプログラミングすること
によってダイアログベースのIVRアプリケーション作
成することが可能になることにより、本発明は、一般的
なインターネット利用者に対して新たなクラスのインタ
ーネットアプリケーションを提供する。例えば、インタ
ーネットコンテンツ開発者は、ISPからIVRプラッ
トフォームにアクセス可能であれば、IVRプラットフ
ォームを所有あるいは直接に操作する必要がない。これ
は、一般に高価なIVR機器を所有する必要があった、
IVRサービスを提供するための従来のアプローチとの
顕著な相違である。IVRプラットフォームシステムを
有するISPは、比較的低コストで一般大衆にIVRサ
ポートサービスを販売することができる。
【0008】
【発明の実施の形態】本発明について、例示的なシステ
ムを用いて以下で説明する。しかし、本発明は、いかな
るタイプのシステム、ネットワーク、ネットワーク通信
プロトコルあるいはコンフィグレーションでの使用にも
限定されない。「ウェブページ」という用語は、ここで
は、ワールドワイドウェブを通じて、インターネットの
その他の部分を通じて、あるいはその他のタイプの通信
ネットワークを通じてアクセス可能な、単一のウェブペ
ージ、ウェブページのセット、ウェブサイト、および、
その他のいかなるタイプあるいは構成の情報も含む。
「プラットフォーム」という用語は、ここでは、ここに
記載する対話型音声応答機能を提供するように構成され
たハードウェアあるいはソフトウェア要素を含むいかな
るタイプのコンピュータに基づくシステムあるいはその
他のタイプのシステムも含む。
ムを用いて以下で説明する。しかし、本発明は、いかな
るタイプのシステム、ネットワーク、ネットワーク通信
プロトコルあるいはコンフィグレーションでの使用にも
限定されない。「ウェブページ」という用語は、ここで
は、ワールドワイドウェブを通じて、インターネットの
その他の部分を通じて、あるいはその他のタイプの通信
ネットワークを通じてアクセス可能な、単一のウェブペ
ージ、ウェブページのセット、ウェブサイト、および、
その他のいかなるタイプあるいは構成の情報も含む。
「プラットフォーム」という用語は、ここでは、ここに
記載する対話型音声応答機能を提供するように構成され
たハードウェアあるいはソフトウェア要素を含むいかな
るタイプのコンピュータに基づくシステムあるいはその
他のタイプのシステムも含む。
【0009】[1.システムの説明]図1に、本発明の
実施例による例示的な情報検索システム100を示す。
システム100は、ウェブベースIVRプラットフォー
ム102、ネットワーク104、いくつかのサーバ10
6−i(i=1,2,...,N)、およびオーディオイ
ンタフェースデバイス108を有する。ネットワーク1
04は、インターネット、イントラネット、ローカルエ
リアネットワーク、広域ネットワーク(WAN)、ケー
ブルネットワーク、衛星ネットワーク、ならびに、これ
らおよびその他のネットワークの組合せまたは一部とす
ることが可能である。IVRプラットフォーム102と
サーバ106−iとの間の通信は、TCP/IP(Trans
missionControl Protocol/Internet Protocol)標準やそ
の他の適当な通信プロトコルを用いた従来の方法でネッ
トワーク104を通じて確立されたコネクションによる
ものとすることが可能である。サーバ106−iは、そ
れぞれ、ネットワーク104を通じて受信される情報リ
クエストを処理するように従来の方法で構成されたコン
ピュータまたはコンピュータ群とすることが可能であ
る。オーディオインタフェースデバイス108は、例え
ば、電話機、テレビジョンセットトップボックス、電話
機能を備えたコンピュータ、あるいは、オーディオ情報
を送受信することが可能なその他のデバイスである。オ
ーディオインタフェースデバイス108は、ネットワー
ク109を通じてIVRプラットフォーム102と通信
する。ネットワーク109は、例えば、公衆交換電話網
(PSTN)、セルラ電話ネットワークあるいはその他
のタイプのワイヤレスネットワーク、インターネットの
ようなデータネットワーク、または、これらもしくはそ
の他のネットワークのさまざまな組合せもしくは一部で
ある。図1の実施例では別個のネットワークとして示さ
れているが、代替実施例では、ネットワーク104と1
09は、同じネットワーク、あるいは、同じネットワー
クの相異なる部分とすることも可能である。
実施例による例示的な情報検索システム100を示す。
システム100は、ウェブベースIVRプラットフォー
ム102、ネットワーク104、いくつかのサーバ10
6−i(i=1,2,...,N)、およびオーディオイ
ンタフェースデバイス108を有する。ネットワーク1
04は、インターネット、イントラネット、ローカルエ
リアネットワーク、広域ネットワーク(WAN)、ケー
ブルネットワーク、衛星ネットワーク、ならびに、これ
らおよびその他のネットワークの組合せまたは一部とす
ることが可能である。IVRプラットフォーム102と
サーバ106−iとの間の通信は、TCP/IP(Trans
missionControl Protocol/Internet Protocol)標準やそ
の他の適当な通信プロトコルを用いた従来の方法でネッ
トワーク104を通じて確立されたコネクションによる
ものとすることが可能である。サーバ106−iは、そ
れぞれ、ネットワーク104を通じて受信される情報リ
クエストを処理するように従来の方法で構成されたコン
ピュータまたはコンピュータ群とすることが可能であ
る。オーディオインタフェースデバイス108は、例え
ば、電話機、テレビジョンセットトップボックス、電話
機能を備えたコンピュータ、あるいは、オーディオ情報
を送受信することが可能なその他のデバイスである。オ
ーディオインタフェースデバイス108は、ネットワー
ク109を通じてIVRプラットフォーム102と通信
する。ネットワーク109は、例えば、公衆交換電話網
(PSTN)、セルラ電話ネットワークあるいはその他
のタイプのワイヤレスネットワーク、インターネットの
ようなデータネットワーク、または、これらもしくはそ
の他のネットワークのさまざまな組合せもしくは一部で
ある。図1の実施例では別個のネットワークとして示さ
れているが、代替実施例では、ネットワーク104と1
09は、同じネットワーク、あるいは、同じネットワー
クの相異なる部分とすることも可能である。
【0010】図2に、IVRプラットフォーム102を
詳細に示す。IVRプラットフォーム102は、ネット
ワーク104を通じてサーバ106−iからウェブペー
ジなどの情報を取得するように動作するウェブブラウザ
110を有する。ウェブブラウザ110は、従来の市販
のウェブブラウザとすることも、オーディオインタフェ
ースデバイス108とともに使用するために設計された
専用ブラウザとすることも可能である。例えば、ウェブ
ブラウザ110は、代表的なウェブブラウザ機能のサブ
セットのみをサポートするだけでもよい。実施例では視
覚的情報を表示する必要がない(すなわち、画像やビデ
オデータを処理する必要がない)からである。ブラウザ
110は、ネットワーク104を通じてサーバ106か
らテキスト、オーディオなどの情報を取得する。ブラウ
ザ110は、ネットワーク109を通じてオーディオイ
ンタフェースデバイス108に再生オーディオが供給さ
れるように、取得したオーディオを従来の方法で再生す
るように構成されることも可能である。ブラウザ110
は、取得したテキストなどの情報をHTMLパーサ11
2に送る。パーサ112は、音声プロセッサ114およ
び文法生成器120による後続の解釈を容易にするよう
に、取得テキストを設定する前処理動作を実行する。取
得テキストは、実施例では、HTML(HyperText Marku
p Language)フォーマットであると仮定するが、他の実
施例では他の適当なフォーマットであることも可能であ
る。例えば、IVRプラットフォーム102は、PML
(PhoneMarkup Lanuage)によるウェブページ情報を処理
するように構成されることも可能である。PMLは、H
TMLページに電話ベースの制御を組み込むように特別
に設計された言語であり、IVRプラットフォームにP
ML機能を含めることにより、広範囲のウェブベースI
VRアプリケーションをよりよくサポートすることが可
能となる。
詳細に示す。IVRプラットフォーム102は、ネット
ワーク104を通じてサーバ106−iからウェブペー
ジなどの情報を取得するように動作するウェブブラウザ
110を有する。ウェブブラウザ110は、従来の市販
のウェブブラウザとすることも、オーディオインタフェ
ースデバイス108とともに使用するために設計された
専用ブラウザとすることも可能である。例えば、ウェブ
ブラウザ110は、代表的なウェブブラウザ機能のサブ
セットのみをサポートするだけでもよい。実施例では視
覚的情報を表示する必要がない(すなわち、画像やビデ
オデータを処理する必要がない)からである。ブラウザ
110は、ネットワーク104を通じてサーバ106か
らテキスト、オーディオなどの情報を取得する。ブラウ
ザ110は、ネットワーク109を通じてオーディオイ
ンタフェースデバイス108に再生オーディオが供給さ
れるように、取得したオーディオを従来の方法で再生す
るように構成されることも可能である。ブラウザ110
は、取得したテキストなどの情報をHTMLパーサ11
2に送る。パーサ112は、音声プロセッサ114およ
び文法生成器120による後続の解釈を容易にするよう
に、取得テキストを設定する前処理動作を実行する。取
得テキストは、実施例では、HTML(HyperText Marku
p Language)フォーマットであると仮定するが、他の実
施例では他の適当なフォーマットであることも可能であ
る。例えば、IVRプラットフォーム102は、PML
(PhoneMarkup Lanuage)によるウェブページ情報を処理
するように構成されることも可能である。PMLは、H
TMLページに電話ベースの制御を組み込むように特別
に設計された言語であり、IVRプラットフォームにP
ML機能を含めることにより、広範囲のウェブベースI
VRアプリケーションをよりよくサポートすることが可
能となる。
【0011】音声プロセッサ114は、HTMLパーサ
112によって供給されるテキストなどのウェブページ
情報の解析を実行し、対応する言語的説明を生成し、こ
の言語的説明は、テキスト−音声(TTS:text-to-sp
eech)合成器116に供給される。HTMLパーサ11
2、音声プロセッサ114およびTTS合成器116
は、テキストなどのウェブページ情報を音声に変換し、
この音声は、ネットワーク109を通じてオーディオイ
ンタフェースデバイス108に送られる。文法生成器1
20は、HTMLパーサ112から受け取るテキストな
どのウェブページ情報を利用して、音声認識文法を生成
し、この音声認識文法は音声認識器122に送られる。
音声認識器122は、オーディオインタフェースデバイ
ス108によって生成される音声入力を受け取り、文法
生成器120によって生成される文法を利用して、音声
中の単語を認識する。認識された単語の適当なインジケ
ータが、音声コマンドインタプリタ124に供給され
る。音声コマンドインタプリタ124は、そのインジケ
ータを解釈し、対応するコマンド信号を生成する。この
コマンド信号はプロセッサ130に供給される。プロセ
ッサ130は、IVRプラットフォーム102の少なく
とも一部の動作を制御する。IVRプラットフォーム1
02は、さらに、デュアルトーン多周波(DTMF)デ
コーダ126を有する。DTMFデコーダ126は、ネ
ットワーク109を通じてオーディオインタフェースデ
バイス108からプラットフォーム102が受信したD
TMF信号をデコードする。このような信号は、例え
ば、IVRプラットフォーム102からオーディオイン
タフェースデバイス108に供給されるオーディオ再生
や音声で提供される選択肢に応答して生成されることが
可能である。デコードされたDTMF情報は、デコーダ
126からプロセッサ130に供給される。
112によって供給されるテキストなどのウェブページ
情報の解析を実行し、対応する言語的説明を生成し、こ
の言語的説明は、テキスト−音声(TTS:text-to-sp
eech)合成器116に供給される。HTMLパーサ11
2、音声プロセッサ114およびTTS合成器116
は、テキストなどのウェブページ情報を音声に変換し、
この音声は、ネットワーク109を通じてオーディオイ
ンタフェースデバイス108に送られる。文法生成器1
20は、HTMLパーサ112から受け取るテキストな
どのウェブページ情報を利用して、音声認識文法を生成
し、この音声認識文法は音声認識器122に送られる。
音声認識器122は、オーディオインタフェースデバイ
ス108によって生成される音声入力を受け取り、文法
生成器120によって生成される文法を利用して、音声
中の単語を認識する。認識された単語の適当なインジケ
ータが、音声コマンドインタプリタ124に供給され
る。音声コマンドインタプリタ124は、そのインジケ
ータを解釈し、対応するコマンド信号を生成する。この
コマンド信号はプロセッサ130に供給される。プロセ
ッサ130は、IVRプラットフォーム102の少なく
とも一部の動作を制御する。IVRプラットフォーム1
02は、さらに、デュアルトーン多周波(DTMF)デ
コーダ126を有する。DTMFデコーダ126は、ネ
ットワーク109を通じてオーディオインタフェースデ
バイス108からプラットフォーム102が受信したD
TMF信号をデコードする。このような信号は、例え
ば、IVRプラットフォーム102からオーディオイン
タフェースデバイス108に供給されるオーディオ再生
や音声で提供される選択肢に応答して生成されることが
可能である。デコードされたDTMF情報は、デコーダ
126からプロセッサ130に供給される。
【0012】プロセッサ130は、メモリ132、およ
び、ウェブブラウザ110と相互作用する。プロセッサ
130は、マイクロプロセッサ、中央処理装置(CP
U)、特定用途向け集積回路(ASIC)あるいはその
他の、IVRプラットフォーム102の少なくとも一部
の動作を指示する任意のディジタルデータプロセッサと
することが可能である。例えば、プロセッサ130は、
ウェブブラウザ110またはIVRプラットフォーム1
02のその他の要素を実現するコンピュータ内のプロセ
ッサとすることが可能である。メモリ132は、電子メ
モリ、磁気メモリ、光メモリあるいはその他の、IVR
プラットフォーム102に付属するメモリ、また、これ
らおよびその他のメモリの一部あるいは組合せとするこ
とが可能である。例えば、メモリ132は、上記のよう
なプロセッサ130も含むコンピュータの電子メモリと
することが可能である。他の実施例では、IVRプラッ
トフォーム102は、いくつかの相互接続されたコンピ
ュータおよび適当な処理デバイスの構成を用いて実現す
ることも可能である。
び、ウェブブラウザ110と相互作用する。プロセッサ
130は、マイクロプロセッサ、中央処理装置(CP
U)、特定用途向け集積回路(ASIC)あるいはその
他の、IVRプラットフォーム102の少なくとも一部
の動作を指示する任意のディジタルデータプロセッサと
することが可能である。例えば、プロセッサ130は、
ウェブブラウザ110またはIVRプラットフォーム1
02のその他の要素を実現するコンピュータ内のプロセ
ッサとすることが可能である。メモリ132は、電子メ
モリ、磁気メモリ、光メモリあるいはその他の、IVR
プラットフォーム102に付属するメモリ、また、これ
らおよびその他のメモリの一部あるいは組合せとするこ
とが可能である。例えば、メモリ132は、上記のよう
なプロセッサ130も含むコンピュータの電子メモリと
することが可能である。他の実施例では、IVRプラッ
トフォーム102は、いくつかの相互接続されたコンピ
ュータおよび適当な処理デバイスの構成を用いて実現す
ることも可能である。
【0013】TTS合成器116、音声認識器122、
音声コマンドインタプリタ124、DTMFデコーダ1
26、プロセッサ130およびメモリ132は、IVR
プラットフォーム102のその他の要素とともに、米国
ニュージャージー州Murray HillのLucent Technologies
Inc.から入手可能なIntuity/Conversantシステムある
いはLucent Speech Processing System(LSPS)の
ようなベースプラットフォームの一部またはそのような
ベースプラットフォームを含む従来のシステムの要素と
することが可能である。前述のように、IVRプラット
フォーム102は、市販の音声・電話システムボードを
備えたパーソナルコンピュータを用いて実現することも
可能である。注意すべき点であるが、図2におけるプラ
ットフォーム102とオーディオインタフェースデバイ
ス108の間の点線の接続は、例えば、PSTNや、セ
ルラあるいはその他のタイプのワイヤレスネットワーク
を通じて確立された電話線接続のような、ネットワーク
109を通じて確立された単一の接続とすることが可能
である。
音声コマンドインタプリタ124、DTMFデコーダ1
26、プロセッサ130およびメモリ132は、IVR
プラットフォーム102のその他の要素とともに、米国
ニュージャージー州Murray HillのLucent Technologies
Inc.から入手可能なIntuity/Conversantシステムある
いはLucent Speech Processing System(LSPS)の
ようなベースプラットフォームの一部またはそのような
ベースプラットフォームを含む従来のシステムの要素と
することが可能である。前述のように、IVRプラット
フォーム102は、市販の音声・電話システムボードを
備えたパーソナルコンピュータを用いて実現することも
可能である。注意すべき点であるが、図2におけるプラ
ットフォーム102とオーディオインタフェースデバイ
ス108の間の点線の接続は、例えば、PSTNや、セ
ルラあるいはその他のタイプのワイヤレスネットワーク
を通じて確立された電話線接続のような、ネットワーク
109を通じて確立された単一の接続とすることが可能
である。
【0014】実施例におけるIVRプラットフォーム1
02は、以下の3つのモードのうちの1つで、音声コマ
ンドまたはDTMF信号のいずれかに応答するように設
定されることが可能である。
02は、以下の3つのモードのうちの1つで、音声コマ
ンドまたはDTMF信号のいずれかに応答するように設
定されることが可能である。
【0015】(1)DTMFのみ(DTMF単独モー
ド)。この場合、説明は、例えばオーディオインタフェ
ースデバイス108のボタン番号を、取得したウェブペ
ージを通じて利用可能な情報と関連づける句を含む。
ド)。この場合、説明は、例えばオーディオインタフェ
ースデバイス108のボタン番号を、取得したウェブペ
ージを通じて利用可能な情報と関連づける句を含む。
【0016】(2)音声のみ(音声単独モード)。この
場合、取得したウェブページの簡潔な説明が、TTS合
成器116によって生成される音声の形式で与えられ
る。
場合、取得したウェブページの簡潔な説明が、TTS合
成器116によって生成される音声の形式で与えられ
る。
【0017】(3)DTMFおよび音声の両方(DTM
F・音声両方モード)。この場合、音声説明とボタン番
号などを識別する句の両方を与えることが可能である。
F・音声両方モード)。この場合、音声説明とボタン番
号などを識別する句の両方を与えることが可能である。
【0018】混雑した市街地や群集の中のような雑音の
多い環境でオーディオインタフェースデバイス108を
動作させるときには、DTMF単独モードが好ましいこ
とがある。背景雑音がIVRプラットフォーム102に
よって音声コマンドとして解釈される可能性があるから
である。音声単独モードはしばしば最も好ましい。これ
は、最もすばやいページ説明(記述)を生成することに
なるからである。
多い環境でオーディオインタフェースデバイス108を
動作させるときには、DTMF単独モードが好ましいこ
とがある。背景雑音がIVRプラットフォーム102に
よって音声コマンドとして解釈される可能性があるから
である。音声単独モードはしばしば最も好ましい。これ
は、最もすばやいページ説明(記述)を生成することに
なるからである。
【0019】IVRプラットフォーム102内の音声プ
ロセッサ114は、HTMLパーサ112からの出力を
受け取り、対応する取得したHTMLウェブページを解
析して、例えば、セクションヘディング、テーブル、フ
レーム、およびフォームのような構造を識別する。その
後、音声プロセッサ114は、TTS合成器116とと
もに、ページの対応する言語的説明を生成する。一般
に、このような言語的説明は、ページテキストに対応す
る音声出力と、ページ上の画像およびその他の項目のサ
イズ、位置およびおそらくはその他の情報の説明とを含
むことが可能である。
ロセッサ114は、HTMLパーサ112からの出力を
受け取り、対応する取得したHTMLウェブページを解
析して、例えば、セクションヘディング、テーブル、フ
レーム、およびフォームのような構造を識別する。その
後、音声プロセッサ114は、TTS合成器116とと
もに、ページの対応する言語的説明を生成する。一般
に、このような言語的説明は、ページテキストに対応す
る音声出力と、ページ上の画像およびその他の項目のサ
イズ、位置およびおそらくはその他の情報の説明とを含
むことが可能である。
【0020】ユーザの初期設定に依存して、ページは、
内容によって、または、構造によって、説明されること
が可能である。例えば、ユーザは、説明モードまたは調
査モードのいずれかを選択するように許されることが可
能である。説明モードの例としては、IVRプラットフ
ォーム102は、ページのさまざまな特別の要素を示す
ために、さまざまなTTS音声を用いて、取得した新し
いウェブページの説明を直ちに開始する。ユーザは、I
VRプラットフォーム102に命じて、オーディオテー
ププレーヤを制御するのと同様にして、一時停止、後
退、早送りなどを命令することができる。ただし、文や
パラグラフのような内容要素はスキップする(飛ばす)
ことも可能である。
内容によって、または、構造によって、説明されること
が可能である。例えば、ユーザは、説明モードまたは調
査モードのいずれかを選択するように許されることが可
能である。説明モードの例としては、IVRプラットフ
ォーム102は、ページのさまざまな特別の要素を示す
ために、さまざまなTTS音声を用いて、取得した新し
いウェブページの説明を直ちに開始する。ユーザは、I
VRプラットフォーム102に命じて、オーディオテー
ププレーヤを制御するのと同様にして、一時停止、後
退、早送りなどを命令することができる。ただし、文や
パラグラフのような内容要素はスキップする(飛ばす)
ことも可能である。
【0021】調査モードの例として、IVRプラットフ
ォーム102は、ページの構造を短く説明し、音声調査
コマンドを待機する。調査コマンドにより、ユーザは、
ページの要素を「降りて行き」、説明モードで通常得ら
れるよりも詳細な説明を得ることができる。例えば、テ
ーブルの各要素(エレメント)は、個別に調査すること
ができる。与えられたテーブルエレメントが構造も有す
る場合、ユーザは、この構造を再帰的に降りて行くこと
ができる。調査モードは、適当なダイアログを用いて、
情報が送られる方法を制御する際のフレキシビリティを
ユーザに与える。ユーザは、TTS発声速度を制御する
ことが可能となり、セクションヘディング、ハイパーリ
ンクタイトルなどのようなHTMLエレメントタイプに
さまざまなTTS音声を割り当てることが可能となる。
さらに、セクションヘディングは、通常のテキストとは
異なる音声にすることも可能である。セクションヘディ
ングが検出された場合、まず、ヘディングのみがユーザ
に説明される。その後、音声コマンドを用いて、IVR
プラットフォーム102に対して、特定のセクションに
移動するよう命令することができる。すなわち、ユーザ
がヘディングタイトルを言い、IVRプラットフォーム
102に対してそのセクションに移動するよう命令する
ことができる。
ォーム102は、ページの構造を短く説明し、音声調査
コマンドを待機する。調査コマンドにより、ユーザは、
ページの要素を「降りて行き」、説明モードで通常得ら
れるよりも詳細な説明を得ることができる。例えば、テ
ーブルの各要素(エレメント)は、個別に調査すること
ができる。与えられたテーブルエレメントが構造も有す
る場合、ユーザは、この構造を再帰的に降りて行くこと
ができる。調査モードは、適当なダイアログを用いて、
情報が送られる方法を制御する際のフレキシビリティを
ユーザに与える。ユーザは、TTS発声速度を制御する
ことが可能となり、セクションヘディング、ハイパーリ
ンクタイトルなどのようなHTMLエレメントタイプに
さまざまなTTS音声を割り当てることが可能となる。
さらに、セクションヘディングは、通常のテキストとは
異なる音声にすることも可能である。セクションヘディ
ングが検出された場合、まず、ヘディングのみがユーザ
に説明される。その後、音声コマンドを用いて、IVR
プラットフォーム102に対して、特定のセクションに
移動するよう命令することができる。すなわち、ユーザ
がヘディングタイトルを言い、IVRプラットフォーム
102に対してそのセクションに移動するよう命令する
ことができる。
【0022】上記のテーブルは、ページレイアウトのみ
のために用いることも可能であり、あるいは、真の作表
であることも可能である。HTMLパーサ112および
音声プロセッサ114に実装されるページ解析プロセス
は、どちらの可能性が高いかを判断し、それに従って説
明を生成する。真の作表はテーブルとして説明される。
ページレイアウトの目的で用いられるテーブルは一般に
明示的には説明されないが、重要であると考えられる場
合にはテーブルエレメント位置が説明されることも可能
である。例えばIVRプラットフォーム102がテーブ
ル記述を隠蔽しているときに、調査モードを用いてこの
テーブル処理をオーバーライドすることが可能である。
フレームも、完全ページ説明法およびフレームフォーカ
ス法のようないくつかの方法で扱うことが可能である。
完全ページ説明法は、すべてのフレームからの情報を、
ユーザがフレームとは独立にすべてのエレメントを言語
的にアドレス指定することができる単一のコンテクスト
に併合する。フレームフォーカス法では、ユーザは、説
明あるいは調査されるべきフレームを指定して、音声コ
マンドがそのフレームにフォーカスするようにすること
が可能である。フォームは、例えば、フィールドタイト
ルラベルが説明され、フィールドはフィールドタイトル
を言うことによってアドレス指定可能となる。さらに、
一般的な項目は、綴りを言うことによってフォームフィ
ールドに入力することが可能であり、上記の調査モード
を用いてメニュー選択肢を得ることが可能である。
のために用いることも可能であり、あるいは、真の作表
であることも可能である。HTMLパーサ112および
音声プロセッサ114に実装されるページ解析プロセス
は、どちらの可能性が高いかを判断し、それに従って説
明を生成する。真の作表はテーブルとして説明される。
ページレイアウトの目的で用いられるテーブルは一般に
明示的には説明されないが、重要であると考えられる場
合にはテーブルエレメント位置が説明されることも可能
である。例えばIVRプラットフォーム102がテーブ
ル記述を隠蔽しているときに、調査モードを用いてこの
テーブル処理をオーバーライドすることが可能である。
フレームも、完全ページ説明法およびフレームフォーカ
ス法のようないくつかの方法で扱うことが可能である。
完全ページ説明法は、すべてのフレームからの情報を、
ユーザがフレームとは独立にすべてのエレメントを言語
的にアドレス指定することができる単一のコンテクスト
に併合する。フレームフォーカス法では、ユーザは、説
明あるいは調査されるべきフレームを指定して、音声コ
マンドがそのフレームにフォーカスするようにすること
が可能である。フォームは、例えば、フィールドタイト
ルラベルが説明され、フィールドはフィールドタイトル
を言うことによってアドレス指定可能となる。さらに、
一般的な項目は、綴りを言うことによってフォームフィ
ールドに入力することが可能であり、上記の調査モード
を用いてメニュー選択肢を得ることが可能である。
【0023】IVRプラットフォーム102内の文法生
成器120は、取得したウェブページのHTMLから音
声認識文法および語彙を生成する。これは、IVRアプ
リケーションを作成するために有用となるIVRプラッ
トフォーム102の重要な特徴である。構文解析された
HTMLは、文法生成器120で、音声に変換されるべ
きセクションタイトル、ハイパーリンクおよびその他の
インジケータを求めて解析される。次に、文法生成器1
20は、インジケータのサブセットを言うすべての可能
な方法を生成することによって、各インジケータごとに
部分文法を構成する。その後、他のすべての音声コマン
ドがこの部分文法と組み合わされ、完全文法が、最適化
された有限状態ネットワークへとコンパイルされる。こ
のネットワークは、認識可能な語の可能な列を制約する
ために、音声認識器122にロードされる。他のタイプ
の文法生成も本発明とともに使用可能である。
成器120は、取得したウェブページのHTMLから音
声認識文法および語彙を生成する。これは、IVRアプ
リケーションを作成するために有用となるIVRプラッ
トフォーム102の重要な特徴である。構文解析された
HTMLは、文法生成器120で、音声に変換されるべ
きセクションタイトル、ハイパーリンクおよびその他の
インジケータを求めて解析される。次に、文法生成器1
20は、インジケータのサブセットを言うすべての可能
な方法を生成することによって、各インジケータごとに
部分文法を構成する。その後、他のすべての音声コマン
ドがこの部分文法と組み合わされ、完全文法が、最適化
された有限状態ネットワークへとコンパイルされる。こ
のネットワークは、認識可能な語の可能な列を制約する
ために、音声認識器122にロードされる。他のタイプ
の文法生成も本発明とともに使用可能である。
【0024】文法生成器120に実装される実施例の文
法生成プロセスの副産物は、語彙語のリストの作成であ
る。このリストは、シンボリック形式で音声表記(phone
tictranscription)のリストを作成するために、TTS
合成器116によって部分的に処理されることが可能で
ある。同じ音素を、音声認識器122およびTTS合成
器116の両方で使用することが可能である。シンボリ
ック音声表記は、認識器122にロードされると、語彙
語をどのように発音するかを認識器に教え、IVRプラ
ットフォーム102が実質的に任意の音声語を認識する
ことを可能にする。
法生成プロセスの副産物は、語彙語のリストの作成であ
る。このリストは、シンボリック形式で音声表記(phone
tictranscription)のリストを作成するために、TTS
合成器116によって部分的に処理されることが可能で
ある。同じ音素を、音声認識器122およびTTS合成
器116の両方で使用することが可能である。シンボリ
ック音声表記は、認識器122にロードされると、語彙
語をどのように発音するかを認識器に教え、IVRプラ
ットフォーム102が実質的に任意の音声語を認識する
ことを可能にする。
【0025】通常動作時には、IVRプラットフォーム
102は、TTS合成器116の音声出力を通じてユー
ザに対して、取得したウェブページを説明する。ユーザ
は、TTS合成器出力に重ねて話して「割り込む」こと
により、IVRプラットフォーム102を制御する。エ
コー消去を用いて、音声認識入力からTTS合成器出力
を除去し、音声認識がTTS出力によって影響されない
ようにすることが可能である。ユーザが十分長期間話す
と、音声認識が有効に実行されるようにTTS出力は割
り込まれ、音声認識器出力はIVRプラットフォームコ
マンドへと解釈される。
102は、TTS合成器116の音声出力を通じてユー
ザに対して、取得したウェブページを説明する。ユーザ
は、TTS合成器出力に重ねて話して「割り込む」こと
により、IVRプラットフォーム102を制御する。エ
コー消去を用いて、音声認識入力からTTS合成器出力
を除去し、音声認識がTTS出力によって影響されない
ようにすることが可能である。ユーザが十分長期間話す
と、音声認識が有効に実行されるようにTTS出力は割
り込まれ、音声認識器出力はIVRプラットフォームコ
マンドへと解釈される。
【0026】文法生成プロセスの一部として、後で解釈
段階で使用するために音声コマンド解釈テーブルを設定
することが可能である。例えば、可能なコマンド句の記
憶されたテーブルを用いて、コンピュータ命令を各句と
関連づけることが可能である。一般に、曖昧なブラウザ
コマンド句は定義されない。ハイパーリンクを処理する
場合、ハイパーリンクのURL(Universal Resource Lo
cator)を、ハイパーリンクタイトルのすべての可能なサ
ブセットと関連づける。セクションタイトルも、同様に
扱うことが可能である。その後、タイトル後が話される
と、関連づけられたURLを取得することができる。
段階で使用するために音声コマンド解釈テーブルを設定
することが可能である。例えば、可能なコマンド句の記
憶されたテーブルを用いて、コンピュータ命令を各句と
関連づけることが可能である。一般に、曖昧なブラウザ
コマンド句は定義されない。ハイパーリンクを処理する
場合、ハイパーリンクのURL(Universal Resource Lo
cator)を、ハイパーリンクタイトルのすべての可能なサ
ブセットと関連づける。セクションタイトルも、同様に
扱うことが可能である。その後、タイトル後が話される
と、関連づけられたURLを取得することができる。
【0027】話されたタイトル後が一意的でないとき
に、複数のURLあるいはブラウザコマンドを取得する
ことが可能である。このような場合、簡単なダイアログ
を起動して、ユーザに、番号を言うことによってまたは
明瞭なタイトル句を言うことによって選択することが可
能な完全なタイトル記述の選択肢を与える。それでも句
が曖昧な場合、新しい、おそらくはさらに少数の選択肢
のリストを与えることも可能である。ユーザは、この選
択プロセスが所望の選択肢を生じない場合にはいつでも
戻ることができる。これにより、ユーザは、リストを精
密化して、1つの選択肢にたどり着くことが可能であ
る。
に、複数のURLあるいはブラウザコマンドを取得する
ことが可能である。このような場合、簡単なダイアログ
を起動して、ユーザに、番号を言うことによってまたは
明瞭なタイトル句を言うことによって選択することが可
能な完全なタイトル記述の選択肢を与える。それでも句
が曖昧な場合、新しい、おそらくはさらに少数の選択肢
のリストを与えることも可能である。ユーザは、この選
択プロセスが所望の選択肢を生じない場合にはいつでも
戻ることができる。これにより、ユーザは、リストを精
密化して、1つの選択肢にたどり着くことが可能であ
る。
【0028】[2.プロセスの詳細]図2のIVRプラ
ットフォーム102で実行される音声処理およびその他
の動作のさまざまな特徴について以下でさらに詳細に説
明する。
ットフォーム102で実行される音声処理およびその他
の動作のさまざまな特徴について以下でさらに詳細に説
明する。
【0029】[2.1 HTML構文解析]上記のよう
に、HTMLパーサ112は、音声出力の生成および文
法の生成を容易にするために、取得ウェブページ内のH
TMLを構文解析する。HTML構文解析プロセスは、
意図的に比較的単純なままとされる。完全な文脈自由構
文解析は不要であり、好ましくないことさえある。HT
MLは一般に適切に構造化されているが、多くの実世界
のHTMLページはソフトウェアバグなどのエラーを含
むからである。従って、HTML標準に基づいて、厳格
な文脈自由構文解析を実行することはしばしば非生産的
となる。
に、HTMLパーサ112は、音声出力の生成および文
法の生成を容易にするために、取得ウェブページ内のH
TMLを構文解析する。HTML構文解析プロセスは、
意図的に比較的単純なままとされる。完全な文脈自由構
文解析は不要であり、好ましくないことさえある。HT
MLは一般に適切に構造化されているが、多くの実世界
のHTMLページはソフトウェアバグなどのエラーを含
むからである。従って、HTML標準に基づいて、厳格
な文脈自由構文解析を実行することはしばしば非生産的
となる。
【0030】音声出力の正しい生成には、与えられたウ
ェブページの構造の明示的な表現を必要である。HTM
L構文解析プロセスは、この構造の表現を得るために使
用される。フレーム、テーブルおよびフォームのような
重要なエレメントが識別され、それらを含むエレメント
内でのスコープが解析される。例えば、フォームはテー
ブルに含まれることが可能であり、さらにそのテーブル
はフレームに含まれることが可能である。この解析の重
要な部分は、これらのエレメントのグラフィカルな意味
ではなく、構造的な意味を決定することである。例え
ば、ウェブページでは、いくつかのレベルのテーブル
が、単に整列の目的で、あるいは、さまざまなエレメン
トの周りに人目を引きつけるグラフィクスを生成するた
めに、使用される。このような場合、テーブルのセット
全体は単純なリストと構造的に等価であるとすることが
可能である。この場合における適切な音声化は、テーブ
ルを無視し、ボトムレベルのエレメントのみを話す(す
なわち、ユーザに対してリストとして説明する)ことを
必要とする。その代わりに、「真の」データテーブルの
場合には、テーブルはそのまま説明される。
ェブページの構造の明示的な表現を必要である。HTM
L構文解析プロセスは、この構造の表現を得るために使
用される。フレーム、テーブルおよびフォームのような
重要なエレメントが識別され、それらを含むエレメント
内でのスコープが解析される。例えば、フォームはテー
ブルに含まれることが可能であり、さらにそのテーブル
はフレームに含まれることが可能である。この解析の重
要な部分は、これらのエレメントのグラフィカルな意味
ではなく、構造的な意味を決定することである。例え
ば、ウェブページでは、いくつかのレベルのテーブル
が、単に整列の目的で、あるいは、さまざまなエレメン
トの周りに人目を引きつけるグラフィクスを生成するた
めに、使用される。このような場合、テーブルのセット
全体は単純なリストと構造的に等価であるとすることが
可能である。この場合における適切な音声化は、テーブ
ルを無視し、ボトムレベルのエレメントのみを話す(す
なわち、ユーザに対してリストとして説明する)ことを
必要とする。その代わりに、「真の」データテーブルの
場合には、テーブルはそのまま説明される。
【0031】構文解析プロセス自体は、以下で解決され
る2つの重要な問題点を提示する。第1の問題点は、H
TMLからさまざまな関係を導出し、明示的に表現しな
ければならないが、通常のブラウザは、その明示的表現
を、表示されるページイメージで置き換えるという点で
ある。従って、この表現は、例えば、どの語がイタリッ
ク体でH3タイトルの一部であるかではなく、ボールド
体、イタリック体でリンクタイトルの一部であるかを明
示的に知らなければならない。どのような組合せも、関
連する構造を示す際には意味をもちうる。この問題点
は、HTMLパーサ112において、ページをデータ構
造へと「レンダリング」することによって解決される。
一様な属性を有する各テキストストリングは、例えば、
ボールド体、リンクテキスト、ヘディングレベルなどの
ような、そのストリング内で現在アクティブなすべての
特徴を指定する属性記述子を有する。これ自体は階層構
造を提供しない。しかし、この構造は、一般にはHTM
Lソースレベルでは不要であるが、タグ編成を検査する
ことによって生成することができる。
る2つの重要な問題点を提示する。第1の問題点は、H
TMLからさまざまな関係を導出し、明示的に表現しな
ければならないが、通常のブラウザは、その明示的表現
を、表示されるページイメージで置き換えるという点で
ある。従って、この表現は、例えば、どの語がイタリッ
ク体でH3タイトルの一部であるかではなく、ボールド
体、イタリック体でリンクタイトルの一部であるかを明
示的に知らなければならない。どのような組合せも、関
連する構造を示す際には意味をもちうる。この問題点
は、HTMLパーサ112において、ページをデータ構
造へと「レンダリング」することによって解決される。
一様な属性を有する各テキストストリングは、例えば、
ボールド体、リンクテキスト、ヘディングレベルなどの
ような、そのストリング内で現在アクティブなすべての
特徴を指定する属性記述子を有する。これ自体は階層構
造を提供しない。しかし、この構造は、一般にはHTM
Lソースレベルでは不要であるが、タグ編成を検査する
ことによって生成することができる。
【0032】構文解析の第2の問題点は、HTMLペー
ジはしばしばエラーを含むことである。これは、画面上
で適切に構造化されているように見えるドキュメント
も、ソースレベルでは適切に構造化されていないことが
あることを意味する。HTMLパーサ112は、不適切
に構造化されているソースを解析して、ユーザが画面上
に見るのと等価な適切に形成された構造を決定しなけれ
ばならない。これは、テーブル内で<TD>が欠けてい
て、通常のブラウザはそのエレメントを捨ててしまう可
能性があるというような、いくつかのありふれた場合に
は難しい。これは特に、フォームエレメントが関係する
場合には面倒である。この問題点は、自動化ツールが広
く使用されるようになるにつれて、あまり重要ではなく
なるはずである。しかし、このようなツールはまた、過
剰なHTMLの増殖(例えば、マルチレベルのテーブル
がレイアウトに用いられる)につながる可能性がある。
ジはしばしばエラーを含むことである。これは、画面上
で適切に構造化されているように見えるドキュメント
も、ソースレベルでは適切に構造化されていないことが
あることを意味する。HTMLパーサ112は、不適切
に構造化されているソースを解析して、ユーザが画面上
に見るのと等価な適切に形成された構造を決定しなけれ
ばならない。これは、テーブル内で<TD>が欠けてい
て、通常のブラウザはそのエレメントを捨ててしまう可
能性があるというような、いくつかのありふれた場合に
は難しい。これは特に、フォームエレメントが関係する
場合には面倒である。この問題点は、自動化ツールが広
く使用されるようになるにつれて、あまり重要ではなく
なるはずである。しかし、このようなツールはまた、過
剰なHTMLの増殖(例えば、マルチレベルのテーブル
がレイアウトに用いられる)につながる可能性がある。
【0033】前述のように、文法生成プロセスは、ハイ
パーリンクタイトルを抽出し、ページからそのURLを
保存することを必要とする。イメージ機能のないブラウ
ザでの使用を意図したいわゆるALT(代替)フィール
ドもまた、このプロセスの一部として抽出されることが
可能である。さらに、セクションヘディングのようなそ
の他のテキストを、音声文法に含めることが可能であ
る。この抽出を行うのに必要な構文解析動作は、従来の
正規表現構文解析を用いて実装することが可能である。
パーリンクタイトルを抽出し、ページからそのURLを
保存することを必要とする。イメージ機能のないブラウ
ザでの使用を意図したいわゆるALT(代替)フィール
ドもまた、このプロセスの一部として抽出されることが
可能である。さらに、セクションヘディングのようなそ
の他のテキストを、音声文法に含めることが可能であ
る。この抽出を行うのに必要な構文解析動作は、従来の
正規表現構文解析を用いて実装することが可能である。
【0034】[2.2 言語化]IVRプラットフォー
ム102で生成されるウェブページ説明(記述)は、ウ
ェブページの言語化(verbal rendering)と呼ばれる。実
施例では、ユーザは、ページのタイトルの自動提示をす
るかどうかを決定することが可能である。ユーザが、ペ
ージタイトルの自動提示を選択した場合、そのタイトル
がユーザに告げられる。その後、言語化は、例えば前に
設定したユーザの初期設定に依存して、ページ内容の説
明またはページ構造の説明のいずれかに進む。一般に、
これらの2つのアプローチのうち簡単なのは、構造的ペ
ージ記述のほうである。
ム102で生成されるウェブページ説明(記述)は、ウ
ェブページの言語化(verbal rendering)と呼ばれる。実
施例では、ユーザは、ページのタイトルの自動提示をす
るかどうかを決定することが可能である。ユーザが、ペ
ージタイトルの自動提示を選択した場合、そのタイトル
がユーザに告げられる。その後、言語化は、例えば前に
設定したユーザの初期設定に依存して、ページ内容の説
明またはページ構造の説明のいずれかに進む。一般に、
これらの2つのアプローチのうち簡単なのは、構造的ペ
ージ記述のほうである。
【0035】前述のように、ページ説明動作について、
説明モードと調査モードという2つのモードを提供する
ことが可能である。説明モードでは、IVRプラットフ
ォームは、他の命令がされるか、説明が完了するまで、
ページの説明を続ける。調査モードは、ユーザが質問を
行い特定の回答を得ることができるように、ユーザにイ
ニシャティブを与える。調査モードを利用することによ
り、ユーザは、ページの構造的エレメントを再帰的に降
りて行くことができる。ユーザは、音声制御により、説
明モードと調査モードの間を切り替えることができる。
説明モードと調査モードという2つのモードを提供する
ことが可能である。説明モードでは、IVRプラットフ
ォームは、他の命令がされるか、説明が完了するまで、
ページの説明を続ける。調査モードは、ユーザが質問を
行い特定の回答を得ることができるように、ユーザにイ
ニシャティブを与える。調査モードを利用することによ
り、ユーザは、ページの構造的エレメントを再帰的に降
りて行くことができる。ユーザは、音声制御により、説
明モードと調査モードの間を切り替えることができる。
【0036】[2.2.1 構造記述]ページ構造は、
一般に、イメージ、テーブルおよびフォームのようなエ
レメントの配置に関して記述される。調査モードでは、
ユーザは一般に、さまざまなエレメントを開く選択肢を
有するトップダウン記述を得る。例として、上部を横切
るタイトル/情報フレーム、横のインデックスバー、お
よびメインページという3個のフォームからなる単純な
ウェブページを考える。このページのトップレベル記述
は、「タイトルフレーム、インデックスフレームおよび
ページ」というものが考えられる。この場合、ユーザ
は、さらに説明を求めるには、3個の領域のうちの1つ
にフォーカスを指定する。ナビゲーション中、タイトル
あるいはインデックスのフレーム内のリンクは、ユーザ
の初期設定に基づいて、常に、または、要求時にのみ、
利用可能である。単一入力検索フォームのようなその他
のいくつかの共通の機能も、別のフレームにない場合で
あっても、トップレベルレイアウト項目として記述する
ことが可能である。ページが検索フォームを含む場合、
そのページは、「タイトルフレーム、インデックスフレ
ーム、および、検索フォームを有するページ」として記
述することも可能である。
一般に、イメージ、テーブルおよびフォームのようなエ
レメントの配置に関して記述される。調査モードでは、
ユーザは一般に、さまざまなエレメントを開く選択肢を
有するトップダウン記述を得る。例として、上部を横切
るタイトル/情報フレーム、横のインデックスバー、お
よびメインページという3個のフォームからなる単純な
ウェブページを考える。このページのトップレベル記述
は、「タイトルフレーム、インデックスフレームおよび
ページ」というものが考えられる。この場合、ユーザ
は、さらに説明を求めるには、3個の領域のうちの1つ
にフォーカスを指定する。ナビゲーション中、タイトル
あるいはインデックスのフレーム内のリンクは、ユーザ
の初期設定に基づいて、常に、または、要求時にのみ、
利用可能である。単一入力検索フォームのようなその他
のいくつかの共通の機能も、別のフレームにない場合で
あっても、トップレベルレイアウト項目として記述する
ことが可能である。ページが検索フォームを含む場合、
そのページは、「タイトルフレーム、インデックスフレ
ーム、および、検索フォームを有するページ」として記
述することも可能である。
【0037】メインページの記述は、見かけの構造に基
づくことが可能である。例えば、ページに4個のセクシ
ョンエントリ(例えば、<H1>エントリ)がある場
合、記述は「5個のセクションを有するページ」とな
る。セクションヘッダ(例えば、<H1>コンテンツ)
と、「ページの最初」が、そのセクションにジャンプす
るように言うために利用可能である。ユーザが何も言わ
ない場合、システムは、ユーザの初期設定に基づいて、
待機するか、または、最初のセクションから開始する。
なお、他のエンティティをセクション分割の基礎とする
ことも可能である。例えば、いくつかのリストを有し、
各リストの前にプレーン(普通の)テキストの短いパラ
グラフがあるようなページは、リストごとに1つずつの
セクションに分割し、見かけのヘディングパラグラフを
ユーザに話すことが可能である。
づくことが可能である。例えば、ページに4個のセクシ
ョンエントリ(例えば、<H1>エントリ)がある場
合、記述は「5個のセクションを有するページ」とな
る。セクションヘッダ(例えば、<H1>コンテンツ)
と、「ページの最初」が、そのセクションにジャンプす
るように言うために利用可能である。ユーザが何も言わ
ない場合、システムは、ユーザの初期設定に基づいて、
待機するか、または、最初のセクションから開始する。
なお、他のエンティティをセクション分割の基礎とする
ことも可能である。例えば、いくつかのリストを有し、
各リストの前にプレーン(普通の)テキストの短いパラ
グラフがあるようなページは、リストごとに1つずつの
セクションに分割し、見かけのヘディングパラグラフを
ユーザに話すことが可能である。
【0038】セクションの記述は、見かけの構造に基づ
いて行うことも可能である。セクションがプレーンテキ
ストである場合、パラグラフの数をアナウンスして発声
を開始し、パラグラフ間のナビゲーションがサポートさ
れる。サブセクション分割も、さらに低いレベルのヘッ
ダや、セクションヘッダとして使用されているように見
えるボールド体の行の存在に基づいて、同様に行うこと
が可能である。このサブセクション解析はおそらく、こ
の第2レベルを超えて進むことはない。ユーザは、多く
のレベルを有する位置を追跡することができないと考え
られるからである。他のすべての情報は順次読まれるこ
とが可能である。
いて行うことも可能である。セクションがプレーンテキ
ストである場合、パラグラフの数をアナウンスして発声
を開始し、パラグラフ間のナビゲーションがサポートさ
れる。サブセクション分割も、さらに低いレベルのヘッ
ダや、セクションヘッダとして使用されているように見
えるボールド体の行の存在に基づいて、同様に行うこと
が可能である。このサブセクション解析はおそらく、こ
の第2レベルを超えて進むことはない。ユーザは、多く
のレベルを有する位置を追跡することができないと考え
られるからである。他のすべての情報は順次読まれるこ
とが可能である。
【0039】ページがテーブルを含む場合、その目的に
ついて判断がなされる。相異なる目的の例には、グラフ
ィクス、整列、またはデータがある。グラフィクスは、
そのテーブルが特定のバックグラウンド(背景)または
ボーダー(境界線)を得るためにのみ存在することを示
し、このようなテーブルは無視される。整列とデータの
相違点は、整列テーブルでは、内容は本質的に1次元で
あるのに対して、データテーブルでは、内容は2次元配
列として配置されることである。整列テーブルの内容
は、重要な整列が閲覧者にとって明らかかどうかに基づ
いて、リストとして扱われるか、または、無視されるか
のいずれかである。データテーブルは、その通り記述さ
れ、行および列の数がアナウンスされ、行および列のヘ
ッダの探索が試みられる。2次元構造に基づくナビゲー
ションが利用可能である。
ついて判断がなされる。相異なる目的の例には、グラフ
ィクス、整列、またはデータがある。グラフィクスは、
そのテーブルが特定のバックグラウンド(背景)または
ボーダー(境界線)を得るためにのみ存在することを示
し、このようなテーブルは無視される。整列とデータの
相違点は、整列テーブルでは、内容は本質的に1次元で
あるのに対して、データテーブルでは、内容は2次元配
列として配置されることである。整列テーブルの内容
は、重要な整列が閲覧者にとって明らかかどうかに基づ
いて、リストとして扱われるか、または、無視されるか
のいずれかである。データテーブルは、その通り記述さ
れ、行および列の数がアナウンスされ、行および列のヘ
ッダの探索が試みられる。2次元構造に基づくナビゲー
ションが利用可能である。
【0040】フォーム記述は、ページ内のフォームの相
対サイズに依存する。1個の単一入力フォームは、上記
のようにして扱うことが可能である。ページの一部のみ
であるように見えるさらに大きいフォームは、その通り
アナウンスされることも可能であるが、一般に、読んで
いる間にそのエレメントが現れるとともにアクセスされ
る。フォーム番号およびエレメント番号に基づいて直接
ナビゲーションが可能である。最後に、ほとんど1つの
フォームであるページは、ページではなくフォームとし
て扱われる。説明および直接ナビゲーションを支援する
ために、各エントリの名前を探索しようと試みる。な
お、セクション、サブセクションあるいはその他の、ペ
ージ内の局所的なフォームも、同様に扱うことが可能で
ある。これにより、いったんフォームに「入る」と、そ
のフォームから「出る」(すなわち、送信またはスキッ
プされる)まで、パラグラフやセクションに基づくので
はなく、フォームに基づくというモード処理が得られ
る。
対サイズに依存する。1個の単一入力フォームは、上記
のようにして扱うことが可能である。ページの一部のみ
であるように見えるさらに大きいフォームは、その通り
アナウンスされることも可能であるが、一般に、読んで
いる間にそのエレメントが現れるとともにアクセスされ
る。フォーム番号およびエレメント番号に基づいて直接
ナビゲーションが可能である。最後に、ほとんど1つの
フォームであるページは、ページではなくフォームとし
て扱われる。説明および直接ナビゲーションを支援する
ために、各エントリの名前を探索しようと試みる。な
お、セクション、サブセクションあるいはその他の、ペ
ージ内の局所的なフォームも、同様に扱うことが可能で
ある。これにより、いったんフォームに「入る」と、そ
のフォームから「出る」(すなわち、送信またはスキッ
プされる)まで、パラグラフやセクションに基づくので
はなく、フォームに基づくというモード処理が得られ
る。
【0041】[2.2.2 内容記述]ページ内容は、
IVRプラットフォーム102を使用することによって
可能な範囲で、ページ上のテキストを合成し、イメー
ジ、テーブル、フォームなどの構造の既知の内容を記述
することにより記述される。具体的には、指定されたタ
イプの音声を、例えば、ハイパーリンクタイトル、ボー
ルド体テキスト、フォームフィールドラベルのようなさ
まざまなHTMLエレメント、およびその他のナビゲー
ションに有用なエレメントのそれぞれに対して生成する
ことが可能である。指定される音声のタイプは、ユーザ
が定義することが可能である。
IVRプラットフォーム102を使用することによって
可能な範囲で、ページ上のテキストを合成し、イメー
ジ、テーブル、フォームなどの構造の既知の内容を記述
することにより記述される。具体的には、指定されたタ
イプの音声を、例えば、ハイパーリンクタイトル、ボー
ルド体テキスト、フォームフィールドラベルのようなさ
まざまなHTMLエレメント、およびその他のナビゲー
ションに有用なエレメントのそれぞれに対して生成する
ことが可能である。指定される音声のタイプは、ユーザ
が定義することが可能である。
【0042】[2.3 ウェブページ解析]本発明によ
れば、IVRプラットフォーム102で実行されるウェ
ブページ解析は、与えられたウェブページをいくつかの
あらかじめ定義されたページモデルのうちの1つに当て
はめようとし、当てはまらないページに対してはデフォ
ルトのトップダウン方略を使用する。目標は、想起しや
すい構造を有するモデルを設計することによって、ユー
ザによるページ理解を最大にすることである。すなわ
ち、ユーザが、ページの重要部分を見失わず探索しやす
いようにしたい。この理由で、モデルは本質的に単純と
なり、ほとんどシーケンシャルで、最小限の階層を有す
る。解析は、最良のモデルを識別するステップと、その
後、モデルの各部分にページ内容を当てはめるステップ
という2つのステップからなる。その後、ナビゲーショ
ンのオプションは、このモデルによって部分的に制御さ
れることが可能である。これは、経験のあるユーザにと
っては使用を簡単化するはずである。モデルがアナウン
スされることにより、最適なナビゲーション方略が伝え
られるからである。
れば、IVRプラットフォーム102で実行されるウェ
ブページ解析は、与えられたウェブページをいくつかの
あらかじめ定義されたページモデルのうちの1つに当て
はめようとし、当てはまらないページに対してはデフォ
ルトのトップダウン方略を使用する。目標は、想起しや
すい構造を有するモデルを設計することによって、ユー
ザによるページ理解を最大にすることである。すなわ
ち、ユーザが、ページの重要部分を見失わず探索しやす
いようにしたい。この理由で、モデルは本質的に単純と
なり、ほとんどシーケンシャルで、最小限の階層を有す
る。解析は、最良のモデルを識別するステップと、その
後、モデルの各部分にページ内容を当てはめるステップ
という2つのステップからなる。その後、ナビゲーショ
ンのオプションは、このモデルによって部分的に制御さ
れることが可能である。これは、経験のあるユーザにと
っては使用を簡単化するはずである。モデルがアナウン
スされることにより、最適なナビゲーション方略が伝え
られるからである。
【0043】実施例では、フレーム、ページおよびセク
ションの、3レベルのモデルが使用される。この理由
は、ページは、ページ以外は一定のフレーム内で変わる
可能性があるためである。フレームは一定のままであり
得るので、フレームレイアウトを別個にモデル化して、
フレームモデルの使用によりナビゲーションが単純化さ
れるようにしたい。一般に、ほとんどのセクションモデ
ルは、単一にセクションに適用されたページモデルとし
て実現することが可能である。以下は、例示的なフレー
ムモデルのセットである。
ションの、3レベルのモデルが使用される。この理由
は、ページは、ページ以外は一定のフレーム内で変わる
可能性があるためである。フレームは一定のままであり
得るので、フレームレイアウトを別個にモデル化して、
フレームモデルの使用によりナビゲーションが単純化さ
れるようにしたい。一般に、ほとんどのセクションモデ
ルは、単一にセクションに適用されたページモデルとし
て実現することが可能である。以下は、例示的なフレー
ムモデルのセットである。
【0044】1.単一のフレームまたはフレームなし。
この場合、フレームへの言及はなされず、単に、「ペー
ジ」があるという。
この場合、フレームへの言及はなされず、単に、「ペー
ジ」があるという。
【0045】2.メインページと補助部分。ページに対
する単一のメインフレームと、ヘッダ、インデックスバ
ーあるいは検索フォームのような一定の項目に対する周
りのフレームがある。上記の例はこのモデルに当てはま
る。
する単一のメインフレームと、ヘッダ、インデックスバ
ーあるいは検索フォームのような一定の項目に対する周
りのフレームがある。上記の例はこのモデルに当てはま
る。
【0046】3.分割スクリーン。これは、複数のフレ
ームがすべて論理的に同じページの一部であることを意
味する。これは、単に、他の領域がスクロールしている
間に、相異なる領域を同時に見ることを可能にするだけ
である。相違点は、いくつかのフレームは一定のままで
あることを意図する一方、他のフレームはページ内容を
切り替えるということである。なお、このモデルを識別
することは、埋め込まれたヒントなしには困難なことが
ある。
ームがすべて論理的に同じページの一部であることを意
味する。これは、単に、他の領域がスクロールしている
間に、相異なる領域を同時に見ることを可能にするだけ
である。相違点は、いくつかのフレームは一定のままで
あることを意図する一方、他のフレームはページ内容を
切り替えるということである。なお、このモデルを識別
することは、埋め込まれたヒントなしには困難なことが
ある。
【0047】4.マルチページ。これは、他のどのモデ
ルにも当てはまらないすべてのマルチフレームレイアウ
トに対する包括的モデルである。この場合、フレームど
うしが関連したままであるか、あるいは、どのフレーム
が他に比べて一定であるかは、明らかでない。一例とし
ては、それぞれが全画面の半分を占める2つのフレーム
で、他のモデルのうちのいずれかが当てはまるような埋
め込まれたヒントがないものがある。
ルにも当てはまらないすべてのマルチフレームレイアウ
トに対する包括的モデルである。この場合、フレームど
うしが関連したままであるか、あるいは、どのフレーム
が他に比べて一定であるかは、明らかでない。一例とし
ては、それぞれが全画面の半分を占める2つのフレーム
で、他のモデルのうちのいずれかが当てはまるような埋
め込まれたヒントがないものがある。
【0048】次に、フレームセット内の各ページが、ペ
ージモデルのセットと照合される。ただし、指定される
フレームモデルは、あるフレームがいくつかのタイプの
ページを含むことを意味することもある。以下は、例示
的なページモデルのセットである。
ージモデルのセットと照合される。ただし、指定される
フレームモデルは、あるフレームがいくつかのタイプの
ページを含むことを意味することもある。以下は、例示
的なページモデルのセットである。
【0049】1.タイトル領域。このモデルは、タイト
ル領域フレーム内のページのみに適用される。先頭から
末尾への閲覧以外のナビゲーションは当てはまらない。
リンクおよび限定されたフォームが許容される。
ル領域フレーム内のページのみに適用される。先頭から
末尾への閲覧以外のナビゲーションは当てはまらない。
リンクおよび限定されたフォームが許容される。
【0050】2.インデックス領域。このモデルは、イ
ンデックスリンクのフレームに適用される。これは、リ
ストとして、または、ヘッダが明らかな場合はリストの
セットとして、扱われる。ナビゲーションは、先頭から
末尾へ、または、ヘッダへである。単純なフォームが許
容され、そのフォームへは直接にナビゲーション可能で
ある。
ンデックスリンクのフレームに適用される。これは、リ
ストとして、または、ヘッダが明らかな場合はリストの
セットとして、扱われる。ナビゲーションは、先頭から
末尾へ、または、ヘッダへである。単純なフォームが許
容され、そのフォームへは直接にナビゲーション可能で
ある。
【0051】3.フォーム。このモデルは、ページ全体
がほとんどフォームからなることを示す。すべてのナビ
ゲーションは、フォーム用にカスタマイズされる。これ
は、メインページまたは補助ページであることが可能で
あり、セクションにも適用可能である。
がほとんどフォームからなることを示す。すべてのナビ
ゲーションは、フォーム用にカスタマイズされる。これ
は、メインページまたは補助ページであることが可能で
あり、セクションにも適用可能である。
【0052】4.プレーンページ。ページは、あるとし
ても、パラグラフを超える検出可能な構造を有しない。
閲覧は、パラグラフナビゲーションによる先頭から末尾
へのものである。これはセクションにも適用される。
ても、パラグラフを超える検出可能な構造を有しない。
閲覧は、パラグラフナビゲーションによる先頭から末尾
へのものである。これはセクションにも適用される。
【0053】5.リスト。ページは、ほとんどリストか
らなる。ヘッダおよびトレーラの項目も許容される。な
お、リストは、テーブルのように、<OL>または<U
L>以外の構造からなることも可能である。これは、セ
クションあるいは孤立リストにも適用される。
らなる。ヘッダおよびトレーラの項目も許容される。な
お、リストは、テーブルのように、<OL>または<U
L>以外の構造からなることも可能である。これは、セ
クションあるいは孤立リストにも適用される。
【0054】6.テーブル。テーブルは、ほとんど真の
テーブルからなり、オプションとしてヘッダおよびトレ
ーラの項目がある。テーブル構造は、行、列およびヘッ
ダで記述され、この構造に基づくナビゲーション(例え
ば、「行2を読む」)が利用可能である。これは、セク
ションあるいは孤立テーブルにも適用される。
テーブルからなり、オプションとしてヘッダおよびトレ
ーラの項目がある。テーブル構造は、行、列およびヘッ
ダで記述され、この構造に基づくナビゲーション(例え
ば、「行2を読む」)が利用可能である。これは、セク
ションあるいは孤立テーブルにも適用される。
【0055】7.イメージ。これは、ページがほとん
ど、おそらくはキャプションあるいはタイトルがつい
た、イメージであることを意味する。このことは、本当
はビットマップ形式の単なるリストであるということは
なさそうであることを意味する。これは、セクションあ
るいは孤立イメージにも適用される。
ど、おそらくはキャプションあるいはタイトルがつい
た、イメージであることを意味する。このことは、本当
はビットマップ形式の単なるリストであるということは
なさそうであることを意味する。これは、セクションあ
るいは孤立イメージにも適用される。
【0056】8.スライドテーブル。これは、おそらく
は2次元の、イメージのリストであり、オプションとし
てキャプションを有する。見かけ上の行および列のヘッ
ダを有する2次元リストは、イメージを内容とするテー
ブルであるが、これらのヘッダがなければ、これはスラ
イドテーブルである。なお、見かけ上のスライドテーブ
ルは、本当は、ビットマップがテキストの代わりに用い
られたコマンドリストの可能性があるが、これは区別を
するのが困難である。
は2次元の、イメージのリストであり、オプションとし
てキャプションを有する。見かけ上の行および列のヘッ
ダを有する2次元リストは、イメージを内容とするテー
ブルであるが、これらのヘッダがなければ、これはスラ
イドテーブルである。なお、見かけ上のスライドテーブ
ルは、本当は、ビットマップがテキストの代わりに用い
られたコマンドリストの可能性があるが、これは区別を
するのが困難である。
【0057】9.セクション付きページ。このモデル
は、ページが、<H1>などのエントリのセットによっ
て、いくつかのトップレベルのセクションに分かれてい
ることを示す。ここのセクションへのナビゲーションが
サポートされ、セクションヘッダリストを要求すること
が可能である。これは、1つ下のサブセクションレベル
でも実行される。サブセクションは、現在のセクション
内でのみ利用可能である。
は、ページが、<H1>などのエントリのセットによっ
て、いくつかのトップレベルのセクションに分かれてい
ることを示す。ここのセクションへのナビゲーションが
サポートされ、セクションヘッダリストを要求すること
が可能である。これは、1つ下のサブセクションレベル
でも実行される。サブセクションは、現在のセクション
内でのみ利用可能である。
【0058】10.マルチセクション付きページ。これ
は、セクション付きページの特別の場合であり、2つよ
り多くのレベルがあるが、「セクション1.A.4」の
ように、厳密な階層的番号づけ方式がある場合である。
これらのセクション番号はナビゲーションに用いられ、
グローバルに利用可能である。アクティブなセクション
ツリー内で、ヘッダも利用可能である。セクション付き
ページとの相違点は、厳密な番号づけがない場合、混乱
の可能性があるため、セクション付けは前の2つのレベ
ルには行われないことである。
は、セクション付きページの特別の場合であり、2つよ
り多くのレベルがあるが、「セクション1.A.4」の
ように、厳密な階層的番号づけ方式がある場合である。
これらのセクション番号はナビゲーションに用いられ、
グローバルに利用可能である。アクティブなセクション
ツリー内で、ヘッダも利用可能である。セクション付き
ページとの相違点は、厳密な番号づけがない場合、混乱
の可能性があるため、セクション付けは前の2つのレベ
ルには行われないことである。
【0059】強調されるべき点であるが、上記のフレー
ム、ページおよびセクションのモデルは単なる例であ
り、これらのモデルのセブセットや、これらおよびその
他のモデルの組合せも、本発明の実施例で使用可能であ
る。
ム、ページおよびセクションのモデルは単なる例であ
り、これらのモデルのセブセットや、これらおよびその
他のモデルの組合せも、本発明の実施例で使用可能であ
る。
【0060】[2.3.1 イメージおよびテキスト]
実施例では、パラグラフは一般に先頭から末尾へと読ま
れる。ナビゲーションのために、リピートおよびスキッ
プのコマンドが利用可能である。セクション内のパラグ
ラフは、すばやくナビゲーションを行うために、オプシ
ョンとして番号づけすることも可能である。ほとんどの
非テキスト項目は、新しいパラグラフを開始する。埋め
込まれる主な項目は、リンク、フォント変更およびイメ
ージである。イメージは、その周りにテキストが流れて
いる場合には埋め込まれているとみなされるが、ページ
の与えられた「行」に孤立している場合には、別個のパ
ラグラフとみなされる。埋め込まれたリンクは、異なる
音声で読まれることが可能である。フォント変更は通常
は無視されるが、ユーザの初期設定を、フォント変更に
異なる音声を割り当てるように設定することが可能であ
る。イメージが埋め込まれたパラグラフは、そのテキス
ト内容が読まれる前に、その通りアナウンスされること
が可能である。イメージは、例えば、キャプションによ
って説明され、特定のイメージに対する要求は、番号に
よって行われ、番号づけは、行の順に行われる。一般
に、テキストを読んでいる間、これらのイメージへの言
及はなされない。孤立したイメージ、例えば、イメージ
のみのパラグラフやテーブルエレメントは、例えば、
「・・・というキャプションのあるイメージ」のように
説明されることが可能であり、おそらくはそのサイズが
アナウンスされる。
実施例では、パラグラフは一般に先頭から末尾へと読ま
れる。ナビゲーションのために、リピートおよびスキッ
プのコマンドが利用可能である。セクション内のパラグ
ラフは、すばやくナビゲーションを行うために、オプシ
ョンとして番号づけすることも可能である。ほとんどの
非テキスト項目は、新しいパラグラフを開始する。埋め
込まれる主な項目は、リンク、フォント変更およびイメ
ージである。イメージは、その周りにテキストが流れて
いる場合には埋め込まれているとみなされるが、ページ
の与えられた「行」に孤立している場合には、別個のパ
ラグラフとみなされる。埋め込まれたリンクは、異なる
音声で読まれることが可能である。フォント変更は通常
は無視されるが、ユーザの初期設定を、フォント変更に
異なる音声を割り当てるように設定することが可能であ
る。イメージが埋め込まれたパラグラフは、そのテキス
ト内容が読まれる前に、その通りアナウンスされること
が可能である。イメージは、例えば、キャプションによ
って説明され、特定のイメージに対する要求は、番号に
よって行われ、番号づけは、行の順に行われる。一般
に、テキストを読んでいる間、これらのイメージへの言
及はなされない。孤立したイメージ、例えば、イメージ
のみのパラグラフやテーブルエレメントは、例えば、
「・・・というキャプションのあるイメージ」のように
説明されることが可能であり、おそらくはそのサイズが
アナウンスされる。
【0061】[2.3.2 テーブル]本発明によれ
ば、テーブルは、その目的を分類するために解析され
る。単一のエレメントを有するテーブルは一般に無視さ
れ、用いられているエレメントが、そのテーブルとは無
関係に用いられる。行あるいは列のヘッダを有するテー
ブルは一般にデータテーブルとして分類され、そのよう
に説明されナビゲーションされる。他のすべてのテーブ
ルは、さまざまなモデルに対して当てはまるかどうかが
調べられる。例示的なテーブルモデルのセットには次の
ようなものがある。2個のエレメントを有するテーブル
で、一方のエレメントはイメージであり、このテーブル
は、イメージとタイトルの組合せとみなされる。これは
「イメージ」となり、テーブル自体は無視される。含ま
れるエレメントがほとんどフォームエレメントであるよ
うなテーブルは、フォームとみなされる。テーブル構造
は、タイトルをエレメントと関連づけ、前後関係を確立
するために使用されるが、それ以外の場合は、ユーザに
対して言及されない。含まれるエレメントがプレーンテ
キストであるテーブルは、リストとみなされる。
ば、テーブルは、その目的を分類するために解析され
る。単一のエレメントを有するテーブルは一般に無視さ
れ、用いられているエレメントが、そのテーブルとは無
関係に用いられる。行あるいは列のヘッダを有するテー
ブルは一般にデータテーブルとして分類され、そのよう
に説明されナビゲーションされる。他のすべてのテーブ
ルは、さまざまなモデルに対して当てはまるかどうかが
調べられる。例示的なテーブルモデルのセットには次の
ようなものがある。2個のエレメントを有するテーブル
で、一方のエレメントはイメージであり、このテーブル
は、イメージとタイトルの組合せとみなされる。これは
「イメージ」となり、テーブル自体は無視される。含ま
れるエレメントがほとんどフォームエレメントであるよ
うなテーブルは、フォームとみなされる。テーブル構造
は、タイトルをエレメントと関連づけ、前後関係を確立
するために使用されるが、それ以外の場合は、ユーザに
対して言及されない。含まれるエレメントがプレーンテ
キストであるテーブルは、リストとみなされる。
【0062】[2.3.3 フォーム]実施例では、フ
ォームは、「埋め込まれた」または「プレーン」(普通
の)のいずれかに分類される。単一のエレメントを有す
る埋め込まれたフォームや、その他のタイプの小さいフ
ォームは、入力領域(例えば検索入力)とみなされる。
このようなタイプのフォームは、トップレベル項目(例
えば検索)として、あるいは、プレーンパラグラフ(例
えば、ページの最後にある「あなたのコメントをくださ
い」エレメント)として、扱われることが可能である。
他のすべてのフォームはプレーンフォームとして扱われ
る。フォーム解析の重要な点は、説明と、フォーム固有
のナビゲーションを可能にすることである。一般に、フ
ォーム内のすべてのエレメントを、それらが「大域記述
的(global descriptive)」であるか、または、特定のエ
レメントに付随するタイトル、命令などであるかに関し
て分類したい。また、前後関係を確立したい。なお、フ
ォームの直前または直後の項目は、フォームの一部(例
えば、タイトルや注意書きとして)とみなされることが
可能である。実施例における解析は一般に、フォームは
構文的に<FORM>と</FORM>の対の内側また
は近くにあると仮定するが、フォームエレメントは、プ
レーンページのどこにでも位置することが可能である。
解析は、HTMLソースにおいて、あるいは対応するテ
ーブルにおいて、隣接性を利用しようとする。なお、
「多くの規則的な」フォームエントリを含むヘッダを有
するテーブルは、テーブルナビゲーションが追加された
フォームとみなされるが、少数のエントリのみを有する
テーブルは、その代わりに、偶然のフォームエレメント
を有するテーブルとして説明される。
ォームは、「埋め込まれた」または「プレーン」(普通
の)のいずれかに分類される。単一のエレメントを有す
る埋め込まれたフォームや、その他のタイプの小さいフ
ォームは、入力領域(例えば検索入力)とみなされる。
このようなタイプのフォームは、トップレベル項目(例
えば検索)として、あるいは、プレーンパラグラフ(例
えば、ページの最後にある「あなたのコメントをくださ
い」エレメント)として、扱われることが可能である。
他のすべてのフォームはプレーンフォームとして扱われ
る。フォーム解析の重要な点は、説明と、フォーム固有
のナビゲーションを可能にすることである。一般に、フ
ォーム内のすべてのエレメントを、それらが「大域記述
的(global descriptive)」であるか、または、特定のエ
レメントに付随するタイトル、命令などであるかに関し
て分類したい。また、前後関係を確立したい。なお、フ
ォームの直前または直後の項目は、フォームの一部(例
えば、タイトルや注意書きとして)とみなされることが
可能である。実施例における解析は一般に、フォームは
構文的に<FORM>と</FORM>の対の内側また
は近くにあると仮定するが、フォームエレメントは、プ
レーンページのどこにでも位置することが可能である。
解析は、HTMLソースにおいて、あるいは対応するテ
ーブルにおいて、隣接性を利用しようとする。なお、
「多くの規則的な」フォームエントリを含むヘッダを有
するテーブルは、テーブルナビゲーションが追加された
フォームとみなされるが、少数のエントリのみを有する
テーブルは、その代わりに、偶然のフォームエレメント
を有するテーブルとして説明される。
【0063】[2.4 自動文法生成]上記のように、
IVRプラットフォーム102内の文法生成器120
は、ハイパーリンクタイトルなどのウェブページ情報か
ら音声文法を生成する。この文法生成には、例えば、タ
イトル後のそれぞれの可能なサブセットの文法仕様言語
(GSL:Grammar Specification Language)記述を生
成することが含まれる。結果として得られるGSLは、
音声認識器122用にコンパイルされ最適化される。さ
らに、この文法で使用される語彙語は、TTS合成器1
16を用いて音声表記される。GSLに関してさらに詳
細には、例えば、M. K. Brown and J. G. Wilpon, "A G
rammar Compiler for Connected Speech Recognition",
IEEE Transactions on Signal Processing, Vol.39, N
o.1, pp.17-28, January 1991、に記載されている。
IVRプラットフォーム102内の文法生成器120
は、ハイパーリンクタイトルなどのウェブページ情報か
ら音声文法を生成する。この文法生成には、例えば、タ
イトル後のそれぞれの可能なサブセットの文法仕様言語
(GSL:Grammar Specification Language)記述を生
成することが含まれる。結果として得られるGSLは、
音声認識器122用にコンパイルされ最適化される。さ
らに、この文法で使用される語彙語は、TTS合成器1
16を用いて音声表記される。GSLに関してさらに詳
細には、例えば、M. K. Brown and J. G. Wilpon, "A G
rammar Compiler for Connected Speech Recognition",
IEEE Transactions on Signal Processing, Vol.39, N
o.1, pp.17-28, January 1991、に記載されている。
【0064】[2.4.1 組合せ論]音声ナビゲーシ
ョンコマンドには、組合せ論的処理を用いて、例えば、
タイトル語の順序を保ったまま全部で2n-1通りの可能
な語の組合せを計算することにより、フレキシビリティ
を追加することが可能である。このプロセスは、すべて
の可能な語削除が話されることを可能にするような、複
雑度の低い、強く制約された文法を提供することによっ
て、ユーザに対して、(例えば、与えられたハイパーリ
ンクをアドレス指定するために)必要な最小限の語のセ
ットのみを話す自由度を与える。また、このプロセス
は、結果として得られるGSL記述に多くの冗長性を生
成することが可能である。多くのサブセットでは、先頭
および末尾の語が再利用されるからである。この冗長性
は、文法が下記のように決定性にされると除去すること
が可能である。少数の語挿入は、いわゆる音響的「ガー
ベジ」モデルをハイパーリンクタイトルサブセット内の
語間に挿入することによって、許容される。これは、文
法生成器120によって自動的に行うことが可能であ
る。組合せ論的処理は、<GRAMMAR>定義に遭遇
すると禁止される。ハイパーリンクタイトルと<GRA
MMAR>定義の混合を単一のページで用いて、各方法
の特徴を利用することが可能である。
ョンコマンドには、組合せ論的処理を用いて、例えば、
タイトル語の順序を保ったまま全部で2n-1通りの可能
な語の組合せを計算することにより、フレキシビリティ
を追加することが可能である。このプロセスは、すべて
の可能な語削除が話されることを可能にするような、複
雑度の低い、強く制約された文法を提供することによっ
て、ユーザに対して、(例えば、与えられたハイパーリ
ンクをアドレス指定するために)必要な最小限の語のセ
ットのみを話す自由度を与える。また、このプロセス
は、結果として得られるGSL記述に多くの冗長性を生
成することが可能である。多くのサブセットでは、先頭
および末尾の語が再利用されるからである。この冗長性
は、文法が下記のように決定性にされると除去すること
が可能である。少数の語挿入は、いわゆる音響的「ガー
ベジ」モデルをハイパーリンクタイトルサブセット内の
語間に挿入することによって、許容される。これは、文
法生成器120によって自動的に行うことが可能であ
る。組合せ論的処理は、<GRAMMAR>定義に遭遇
すると禁止される。ハイパーリンクタイトルと<GRA
MMAR>定義の混合を単一のページで用いて、各方法
の特徴を利用することが可能である。
【0065】[2.4.2 文法のコンパイル]実施例
では、文法のコンパイルは一般に、作成されたGSLを
前処理して外部ファイルをインクルードするステップ
と、マクロを展開するステップと、展開されたGSLを
構文解析するステップと、文法ネットワークコードを生
成するステップとを含む。文法コードは、有限状態ネッ
トワークの状態がどのように連結され、どのようなラベ
ルが状態遷移に付けられるかを定義する文法規則を記述
する。さらに詳細には、M. K. Brown and B. M. Buntsh
uh, "A Context-Free Grammar Compiler for Speech Un
derstanding Systems", ICSLP '94, Vol.1, pp.21-24,
Yokohama, Japan, Sept. 1994、に記載されている。結
果として得られる有限状態ネットワークは一般に大きく
冗長であり、特に、GSLのほとんどがハイパーリンク
タイトルから生成される場合にはそうであって、文法を
音声認識にとっては非効率にする。本発明によれば、こ
の非効率性は、4段階のコード最適化で低減される。
では、文法のコンパイルは一般に、作成されたGSLを
前処理して外部ファイルをインクルードするステップ
と、マクロを展開するステップと、展開されたGSLを
構文解析するステップと、文法ネットワークコードを生
成するステップとを含む。文法コードは、有限状態ネッ
トワークの状態がどのように連結され、どのようなラベ
ルが状態遷移に付けられるかを定義する文法規則を記述
する。さらに詳細には、M. K. Brown and B. M. Buntsh
uh, "A Context-Free Grammar Compiler for Speech Un
derstanding Systems", ICSLP '94, Vol.1, pp.21-24,
Yokohama, Japan, Sept. 1994、に記載されている。結
果として得られる有限状態ネットワークは一般に大きく
冗長であり、特に、GSLのほとんどがハイパーリンク
タイトルから生成される場合にはそうであって、文法を
音声認識にとっては非効率にする。本発明によれば、こ
の非効率性は、4段階のコード最適化で低減される。
【0066】第1段階では、周知の有限状態ネットワー
ク決定性化アルゴリズムを用いて文法を決定性にする。
これは、文法規則内のすべてのLHS冗長性を除去し、
結果として得られるネットワークを決定性(入力シンボ
ルが与えられた場合に次状態が一意的に定義されるとい
う意味で)にする。文法のすべての曖昧さはこの段階で
除去される。最適化の第2段階は、O(n log
(n))群分割アルゴリズムを用いて、ネットワーク内
の状態数を最小化する。これは、決定性を保ちながら、
すべての同形的(homomorphic)冗長性を除去する。これ
は、文法の状態数最小記述であるが、必ずしも、音声認
識にとって最も効率的な表現ではない。最適化の第3段
階は、すべてのRHS文法規則冗長性を除去する。この
操作は決定性を保存しないが、冗長な状態遷移を除去す
る。状態遷移は、語モデルを表現する誤ラベルを有し、
従って計算を引き起こすため、このような遷移における
冗長性を低減することは、プロセスにおいて状態数が通
常は増大するのであっても、有益である。最適化の最後
の段階は、ほとんどのヌル(すなわち、「イプシロ
ン」)状態遷移の除去である。このようなヌル遷移の一
部は、最適化の第3段階で生成される。他は、<GRA
MMAR>定義によって明示的に生成されたものである
可能性がある。ヌル遷移に計算はかからないが、記憶領
域を浪費するため、除去すべきである。
ク決定性化アルゴリズムを用いて文法を決定性にする。
これは、文法規則内のすべてのLHS冗長性を除去し、
結果として得られるネットワークを決定性(入力シンボ
ルが与えられた場合に次状態が一意的に定義されるとい
う意味で)にする。文法のすべての曖昧さはこの段階で
除去される。最適化の第2段階は、O(n log
(n))群分割アルゴリズムを用いて、ネットワーク内
の状態数を最小化する。これは、決定性を保ちながら、
すべての同形的(homomorphic)冗長性を除去する。これ
は、文法の状態数最小記述であるが、必ずしも、音声認
識にとって最も効率的な表現ではない。最適化の第3段
階は、すべてのRHS文法規則冗長性を除去する。この
操作は決定性を保存しないが、冗長な状態遷移を除去す
る。状態遷移は、語モデルを表現する誤ラベルを有し、
従って計算を引き起こすため、このような遷移における
冗長性を低減することは、プロセスにおいて状態数が通
常は増大するのであっても、有益である。最適化の最後
の段階は、ほとんどのヌル(すなわち、「イプシロ
ン」)状態遷移の除去である。このようなヌル遷移の一
部は、最適化の第3段階で生成される。他は、<GRA
MMAR>定義によって明示的に生成されたものである
可能性がある。ヌル遷移に計算はかからないが、記憶領
域を浪費するため、除去すべきである。
【0067】注意すべき点であるが、本発明の代替実施
例では、文法は、文法が使用されるにつれてコンパイル
されるのではなく、部分的または完全にプリコンパイル
(事前にコンパイル)される。このような構成は、例え
ば、名前電話帳のように文法が非常に大規模であるか、
そうでなければ、コンパイルに長時間を要するようなア
プリケーションにとって有益となることがある。
例では、文法は、文法が使用されるにつれてコンパイル
されるのではなく、部分的または完全にプリコンパイル
(事前にコンパイル)される。このような構成は、例え
ば、名前電話帳のように文法が非常に大規模であるか、
そうでなければ、コンパイルに長時間を要するようなア
プリケーションにとって有益となることがある。
【0068】[2.4.3 音声表記]上記の語彙語
は、コンパイルプロセス中に文法定義から抽出される。
例えば、各語は、TTS合成器116内の発音モジュー
ルによって独立して処理され、各語がどのように発音さ
れるかを記述する音声表記を生成する。この方法は、文
脈を無視し、おそらくは語を動詞ではなく名詞として
(例えば、目的語、主語など)、あるいはその逆に、誤
って発音するという欠点を有する。より正確な発音を行
うために、文脈情報を含めることも可能である。
は、コンパイルプロセス中に文法定義から抽出される。
例えば、各語は、TTS合成器116内の発音モジュー
ルによって独立して処理され、各語がどのように発音さ
れるかを記述する音声表記を生成する。この方法は、文
脈を無視し、おそらくは語を動詞ではなく名詞として
(例えば、目的語、主語など)、あるいはその逆に、誤
って発音するという欠点を有する。より正確な発音を行
うために、文脈情報を含めることも可能である。
【0069】[2.5 音声解釈]実施例では、音声コ
マンドは、発声された句をキーとするハッシュ表を用い
てすばやく解釈される。これは一般に、音声認識器出力
テキストからコンピュータコマンドやURLへの「多対
多」写像である。複数のURLやコマンドがテーブルか
ら検索された場合、曖昧さ除去ダイアログマネージャを
利用して、一意的な選択をするようユーザに指示するこ
とが可能である。訪れる各ウェブページごとに別個のハ
ッシュ表を管理して、ページを再び訪れるときに文法再
コンパイルを不要にすることも可能である。これによ
り、多くのハッシュ表が作成されることになるが、テー
ブルサイズは一般に小さいため、これはウェブページ閲
覧には効果的な方法となる。大規模な文法アプリケーシ
ョンでは、文法コンパイラを用いて意味論的パーサを自
動生成することも可能である。その後、2段階で解釈を
行うことができる。例えば、第1段階で、ハイパーリン
クタイトルから作成されたハッシュ表がキー句を含まな
いことがわかった場合、第2段階で、意味論的パーサを
用いて、その句を解釈することが可能である。
マンドは、発声された句をキーとするハッシュ表を用い
てすばやく解釈される。これは一般に、音声認識器出力
テキストからコンピュータコマンドやURLへの「多対
多」写像である。複数のURLやコマンドがテーブルか
ら検索された場合、曖昧さ除去ダイアログマネージャを
利用して、一意的な選択をするようユーザに指示するこ
とが可能である。訪れる各ウェブページごとに別個のハ
ッシュ表を管理して、ページを再び訪れるときに文法再
コンパイルを不要にすることも可能である。これによ
り、多くのハッシュ表が作成されることになるが、テー
ブルサイズは一般に小さいため、これはウェブページ閲
覧には効果的な方法となる。大規模な文法アプリケーシ
ョンでは、文法コンパイラを用いて意味論的パーサを自
動生成することも可能である。その後、2段階で解釈を
行うことができる。例えば、第1段階で、ハイパーリン
クタイトルから作成されたハッシュ表がキー句を含まな
いことがわかった場合、第2段階で、意味論的パーサを
用いて、その句を解釈することが可能である。
【0070】[3.一般的なウェブベースIVRアプリ
ケーション]本発明によるIVRプラットフォーム10
2は、音声制御ウェブブラウザを提供するのみならず、
一般的なインターネット利用者がIVRアプリケーショ
ンを作成することを可能にするためにも使用可能であ
る。このアプローチの利点は、個人や小規模事業者が特
殊なIVR機器を所有する必要がなくなることである。
前述のように、代表的なIVRプラットフォームは非常
に高価であるため、一般には比較的大規模な事業者やI
SPしかこの機器を所有することができない。しかし、
ユーザは、単にHTML、PMLあるいはその他のタイ
プのウェブページを単に書きながら、IVRプラットフ
ォーム102を所有するISPからIVRプラットフォ
ームサービスを受けることによって、IVRプラットフ
ォーム102を利用するアプリケーションをプログラム
することができるため、小規模事業者や個人は、機器に
多大な投資をする必要がない。
ケーション]本発明によるIVRプラットフォーム10
2は、音声制御ウェブブラウザを提供するのみならず、
一般的なインターネット利用者がIVRアプリケーショ
ンを作成することを可能にするためにも使用可能であ
る。このアプローチの利点は、個人や小規模事業者が特
殊なIVR機器を所有する必要がなくなることである。
前述のように、代表的なIVRプラットフォームは非常
に高価であるため、一般には比較的大規模な事業者やI
SPしかこの機器を所有することができない。しかし、
ユーザは、単にHTML、PMLあるいはその他のタイ
プのウェブページを単に書きながら、IVRプラットフ
ォーム102を所有するISPからIVRプラットフォ
ームサービスを受けることによって、IVRプラットフ
ォーム102を利用するアプリケーションをプログラム
することができるため、小規模事業者や個人は、機器に
多大な投資をする必要がない。
【0071】前述のように、与えられたページあるいは
ページのセット内の通常の各ハイパーリンクタイトル
は、タイトル内の語のすべての部分列の発声を可能にす
る部分文法を生成するように処理されることが可能であ
る。一般的なIVRアプリケーションでは、コンテンツ
開発者は、例えば、<GRAMMAR>タグを挿入した
後、GSLで文法を書き、さらに<GRAMMAR>タ
グを置くことによって、より複雑な文法を書くことがで
きる。この方法を用いると、多くの全く異なる句を、同
じURLをアドレス指定するために使用することが可能
である。このようなアプリケーションにおけるGSLの
使用法は、他のアプリケーションにおいて音声文法を定
義するためのGSLの通常の使用法と同様である。例え
ば、ローカルな<GRAMMAR>スコープは、現在の
URLに対する完全な定義を含むことが可能である。イ
ンクルードされるファイルは、周りの文法定義を含むこ
とが可能である。マクロは、ローカルな<GRAMMA
R>スコープ内で定義されることも可能であり、インク
ルードされたファイルに存在することも可能である。す
べてのマクロは一般に、ウェブページ内でグローバルな
スコープを有する。
ページのセット内の通常の各ハイパーリンクタイトル
は、タイトル内の語のすべての部分列の発声を可能にす
る部分文法を生成するように処理されることが可能であ
る。一般的なIVRアプリケーションでは、コンテンツ
開発者は、例えば、<GRAMMAR>タグを挿入した
後、GSLで文法を書き、さらに<GRAMMAR>タ
グを置くことによって、より複雑な文法を書くことがで
きる。この方法を用いると、多くの全く異なる句を、同
じURLをアドレス指定するために使用することが可能
である。このようなアプリケーションにおけるGSLの
使用法は、他のアプリケーションにおいて音声文法を定
義するためのGSLの通常の使用法と同様である。例え
ば、ローカルな<GRAMMAR>スコープは、現在の
URLに対する完全な定義を含むことが可能である。イ
ンクルードされるファイルは、周りの文法定義を含むこ
とが可能である。マクロは、ローカルな<GRAMMA
R>スコープ内で定義されることも可能であり、インク
ルードされたファイルに存在することも可能である。す
べてのマクロは一般に、ウェブページ内でグローバルな
スコープを有する。
【0072】ウェブページ内のローカルなアプレットコ
ードおよびその他のタイプのアプリケーションコード
は、IVRコンテンツ開発者にサーバまたはクライアン
トで動作を実行する手段を与えるために使用可能であ
る。代表的なIVRプラットフォームアプリケーション
では、サーバで動作を実行するためにJavaコードを
使用し、サーバは、リモート端の追加ハードウェアを用
いてインターネットやPSTNを通じてリモートデバイ
スを制御することが可能である。インターネット上のH
TMLページは、暗黙の有限状態ネットワークを形成す
るため、このネットワークを用いて、ダイアログシステ
ムを作成することが可能である。その結果として得られ
るシステムは、ダイアログを用いて、ユーザへのウェブ
ページ情報の出力を制御する。アプレット言語がなくて
も、このようなダイアログシステムは、本発明の技術を
用いて作成することができる。
ードおよびその他のタイプのアプリケーションコード
は、IVRコンテンツ開発者にサーバまたはクライアン
トで動作を実行する手段を与えるために使用可能であ
る。代表的なIVRプラットフォームアプリケーション
では、サーバで動作を実行するためにJavaコードを
使用し、サーバは、リモート端の追加ハードウェアを用
いてインターネットやPSTNを通じてリモートデバイ
スを制御することが可能である。インターネット上のH
TMLページは、暗黙の有限状態ネットワークを形成す
るため、このネットワークを用いて、ダイアログシステ
ムを作成することが可能である。その結果として得られ
るシステムは、ダイアログを用いて、ユーザへのウェブ
ページ情報の出力を制御する。アプレット言語がなくて
も、このようなダイアログシステムは、本発明の技術を
用いて作成することができる。
【0073】具体的には、このようなダイアログシステ
ムで実現されるIVRウェブページは、例えば、ページ
が読まれるときにユーザに話されるおそらくはヌルのテ
キスト、ホストプロセッサ上で動作を実行するプログラ
ムスクリプト、および、ユーザからのそれぞれの適当な
音声応答に対するおそらくは無音のハイパーリンクとを
含む。さらに、音声認識器が発声を認識不能として拒否
するときにとられる他のハイパーリンクが存在すること
も可能である。これらの基本的な構成要素を用いて、ダ
イアログシステムを作成することができる。
ムで実現されるIVRウェブページは、例えば、ページ
が読まれるときにユーザに話されるおそらくはヌルのテ
キスト、ホストプロセッサ上で動作を実行するプログラ
ムスクリプト、および、ユーザからのそれぞれの適当な
音声応答に対するおそらくは無音のハイパーリンクとを
含む。さらに、音声認識器が発声を認識不能として拒否
するときにとられる他のハイパーリンクが存在すること
も可能である。これらの基本的な構成要素を用いて、ダ
イアログシステムを作成することができる。
【0074】簡単な例として、ハイパーリンク(例え
ば、HREF="http://www.anywhere.net/" GRAMMAR="((get
| retrieve | call for) messages)" TITLE="Get mess
ages")に埋め込まれた<GRAMMAR>タグの表現
は、ユーザの留守番電話機への通話を開始するというよ
うなアクションを引き起こすようにユーザが言うことが
できる発声選択肢のフレキシブルなセットを表現するこ
とができる。この場合、ハイパーリンクは無音ではな
い。ハイパーリンクのタイトル部分はユーザに対して"G
et messages"と話されるからである。ハイパーリンクの
タイトル部分が空である場合、ユーザに対して何も話さ
れない。ユーザは、この簡単な例では、"getmessage
s"、"retrieve messages"、または"call for messages"
と応答することができる。コマンドを言い、このリンク
をたどって次のウェブページに進むことによって、ユー
ザは、そのページのテキスト、例えば、"Do you want v
oice oremail messages?"(「音声メッセージにします
か、それとも電子メールメッセージにしますか?」)を
読むことが可能である。適当な音声文法を有するそのペ
ージの2つのハイパーリンクが適当なページにリンクし
て、音声メッセージまたは電子メールへのアクセスを引
き起こすことが可能である。音声認識器が非認識を示す
トークンを返すように設定することができるため、発声
が理解されないときに第3のデフォルトリンクをとるこ
とも可能である。それぞれのメッセージ選択に対して、
さらに、メッセージを読む、保存する、削除するおよび
メッセージに応答する、のような機能を扱うウェブペー
ジのセットが存在することも可能である。ハイパーリン
クに埋め込まれた<GRAMMAR>タグの表現のもう
1つの例は、HREF="http://www.anywhere.net/" GRAMMA
R_FILE=<URL>である。この場合、指定されたURLは、
文法ファイルがどこにあるかを示す。他の多くのタイプ
のダイアログシステムも、本発明の技術を用いて同様に
して作成することができる。
ば、HREF="http://www.anywhere.net/" GRAMMAR="((get
| retrieve | call for) messages)" TITLE="Get mess
ages")に埋め込まれた<GRAMMAR>タグの表現
は、ユーザの留守番電話機への通話を開始するというよ
うなアクションを引き起こすようにユーザが言うことが
できる発声選択肢のフレキシブルなセットを表現するこ
とができる。この場合、ハイパーリンクは無音ではな
い。ハイパーリンクのタイトル部分はユーザに対して"G
et messages"と話されるからである。ハイパーリンクの
タイトル部分が空である場合、ユーザに対して何も話さ
れない。ユーザは、この簡単な例では、"getmessage
s"、"retrieve messages"、または"call for messages"
と応答することができる。コマンドを言い、このリンク
をたどって次のウェブページに進むことによって、ユー
ザは、そのページのテキスト、例えば、"Do you want v
oice oremail messages?"(「音声メッセージにします
か、それとも電子メールメッセージにしますか?」)を
読むことが可能である。適当な音声文法を有するそのペ
ージの2つのハイパーリンクが適当なページにリンクし
て、音声メッセージまたは電子メールへのアクセスを引
き起こすことが可能である。音声認識器が非認識を示す
トークンを返すように設定することができるため、発声
が理解されないときに第3のデフォルトリンクをとるこ
とも可能である。それぞれのメッセージ選択に対して、
さらに、メッセージを読む、保存する、削除するおよび
メッセージに応答する、のような機能を扱うウェブペー
ジのセットが存在することも可能である。ハイパーリン
クに埋め込まれた<GRAMMAR>タグの表現のもう
1つの例は、HREF="http://www.anywhere.net/" GRAMMA
R_FILE=<URL>である。この場合、指定されたURLは、
文法ファイルがどこにあるかを示す。他の多くのタイプ
のダイアログシステムも、本発明の技術を用いて同様に
して作成することができる。
【0075】このようにしてダイアログシステムを作成
することができることにより、コンテンツ開発者が、I
SPのようなサービスプロバイダから利用可能なIVR
プラットフォームのサービスを受けられる限り、IVR
プラットフォームを所有したり直接に操作したりせず
に、一般的なインターネット利用者に新たなクラスのイ
ンターネットアプリケーションを提供する。前述のよう
に、これは、一般に高価なIVR機器を所有する必要が
あった、IVRサービスを提供するための従来のアプロ
ーチとの顕著な相違である。IVRプラットフォームシ
ステムを有するISPは、比較的低コストで一般大衆に
IVRサポートサービスを販売することができる。さら
に要求の厳しい応答条件のある会社は、最終的に、限定
された従業員のグループのために自己のプラットフォー
ムを運用したいと考えるかもしれないが、高価な機器の
購入を決定する前に、自己のIVRウェブページを開発
しテストすることができる。
することができることにより、コンテンツ開発者が、I
SPのようなサービスプロバイダから利用可能なIVR
プラットフォームのサービスを受けられる限り、IVR
プラットフォームを所有したり直接に操作したりせず
に、一般的なインターネット利用者に新たなクラスのイ
ンターネットアプリケーションを提供する。前述のよう
に、これは、一般に高価なIVR機器を所有する必要が
あった、IVRサービスを提供するための従来のアプロ
ーチとの顕著な相違である。IVRプラットフォームシ
ステムを有するISPは、比較的低コストで一般大衆に
IVRサポートサービスを販売することができる。さら
に要求の厳しい応答条件のある会社は、最終的に、限定
された従業員のグループのために自己のプラットフォー
ムを運用したいと考えるかもしれないが、高価な機器の
購入を決定する前に、自己のIVRウェブページを開発
しテストすることができる。
【0076】本発明の上記の実施例は単なる例示のため
のものである。代替実施例としては、例えば、取得した
ウェブページから可聴情報を生成するための光学的文字
認識(OCR)、言語化のための画像解析、電子メール
から音声への変換、および安全なアクセスのための話者
照合のような追加機能を含むことも可能である。
のものである。代替実施例としては、例えば、取得した
ウェブページから可聴情報を生成するための光学的文字
認識(OCR)、言語化のための画像解析、電子メール
から音声への変換、および安全なアクセスのための話者
照合のような追加機能を含むことも可能である。
【0077】
【発明の効果】以上述べたごとく、本発明によれば、イ
ンターネットなどのコンピュータネットワークを通じた
対話型音声応答(IVR)アプリケーションを実装する
装置および方法が実現される。
ンターネットなどのコンピュータネットワークを通じた
対話型音声応答(IVR)アプリケーションを実装する
装置および方法が実現される。
【図1】本発明によるウェブベースの対話型音声応答
(IVR)プラットフォームを含むシステムのブロック
図である。
(IVR)プラットフォームを含むシステムのブロック
図である。
【図2】図1のウェブベースのIVRプラットフォーム
の詳細図である。
の詳細図である。
100 情報検索システム 102 ウェブベースIVRプラットフォーム 104 ネットワーク 106 サーバ 108 オーディオインタフェースデバイス 109 ネットワーク 110 ウェブブラウザ 112 HTMLパーサ 114 音声プロセッサ 116 テキスト−音声(TTS)合成器 120 文法生成器 122 音声認識器 124 音声コマンドインタプリタ 126 DTMFデコーダ 130 プロセッサ 132 メモリ
フロントページの続き (71)出願人 596077259 600 Mountain Avenue, Murray Hill, New Je rsey 07974−0636U.S.A. (72)発明者 マイケル ケネス ブラウン アメリカ合衆国、07060 ニュージャージ ー、ノース プレインフィールド、ルイス ストリート 285 (72)発明者 ケネス ジー.レホアー アメリカ合衆国、60402 イリノイ、バー ウィン、ウエスト 13 ストリート 7108 (72)発明者 ブレイン カール シュマルト アメリカ合衆国、08873 ニュージャージ ー、サマーセット、シャーマン サークル 17 (72)発明者 カーチス デュアン ターキー アメリカ合衆国、60626 イリノイ、シカ ゴ、ダブリュー.アーサー ストリート 1217
Claims (27)
- 【請求項1】 ネットワークを通じて取得したウェブペ
ージの少なくとも一部を特徴づける音声出力を生成する
音声合成器と、 少なくとも1つの文法の少なくとも一部を生成するよう
に前記取得したウェブページ内の情報を処理する文法生
成器と、 前記文法生成器の出力に接続された入力を有し、前記文
法生成器によって生成される前記少なくとも1つの文法
を利用して音声入力を認識する音声認識器とを有するこ
とを特徴とする、ネットワークを通じての対話型音声応
答を実現する装置。 - 【請求項2】 前記音声合成器、前記文法生成器および
前記音声認識器のうちの少なくとも1つの機能を実現す
るプロセッサをさらに有することを特徴とする請求項1
に記載の装置。 - 【請求項3】 前記取得したウェブページ内のテキスト
情報を識別し、該テキスト情報を前記文法生成器に送る
パーサをさらに有することを特徴とする請求項1に記載
の装置。 - 【請求項4】 所定のモデルのセットのうちのどのモデ
ルが前記取得したウェブページを最も良く特徴づけるか
を判定する音声プロセッサをさらに有することを特徴と
する請求項1に記載の装置。 - 【請求項5】 前記音声プロセッサは、前記取得したウ
ェブページが前記所定のモデルのセットのうちのいずれ
のモデルによっても適当に特徴づけられない場合に、デ
フォルトのトップダウン説明プロセスを利用することを
特徴とする請求項4に記載の装置。 - 【請求項6】 前記モデルは、セクションヘディング、
テーブル、フレーム、およびフォームのうちの少なくと
も1つを含むウェブページ内の構造を特徴づけることを
特徴とする請求項4に記載の装置。 - 【請求項7】 前記音声プロセッサは、複数の相異なる
モデルセットを前記取得したウェブページに適用し、各
モデルセットは少なくとも1つのモデルを含むことを特
徴とする請求項4に記載の装置。 - 【請求項8】 前記音声合成器、前記文法生成器および
前記音声認識器は、サービスプロバイダの対話型音声応
答システムの要素であることを特徴とする請求項1に記
載の装置。 - 【請求項9】 前記音声合成器は、ユーザ入力による割
込みがなければ前記音声合成器が前記取得したウェブペ
ージの完全な説明をオーディオインタフェースデバイス
を通じてユーザに提供する説明モードと、前記音声合成
器が前記取得したウェブページの簡略な説明を提供して
からユーザからの調査コマンド入力を待機する調査モー
ドとで動作することを特徴とする請求項1に記載の装
置。 - 【請求項10】 前記文法生成器によって生成される前
記少なくとも1つの文法は、同様の音素が前記音声認識
器および前記音声合成器の両方で使用されるように、音
素情報を生成するために前記音声合成器によって利用さ
れることを特徴とする請求項1に記載の装置。 - 【請求項11】 前記音声合成器、前記文法生成器およ
び前記音声認識器は、ユーザへのウェブページ情報の出
力を制御するためにオーディオインタフェースデバイス
を通じてユーザとダイアログが行われるダイアログシス
テムを実現するために使用されることを特徴とする請求
項1に記載の装置。 - 【請求項12】 ウェブページは、(i)音声合成器に
よってユーザに対して読まれるテキスト、(ii)ホス
トプロセッサ上で動作を実行するプログラムスクリプ
ト、および(iii)ユーザから受け取る指定された音
声応答のセットのそれぞれに対するハイパーリンク、の
うちの少なくとも1つを含むことを特徴とする請求項1
1に記載の装置。 - 【請求項13】 ウェブページは、与えられたユーザ音
声入力を前記音声認識器が認識不能として拒否したとき
に利用される少なくとも1つのハイパーリンクを含むこ
とを特徴とする請求項11に記載の装置。 - 【請求項14】 前記文法生成器によって生成される文
法の少なくとも一部はあらかじめコンパイルされている
ことを特徴とする請求項11に記載の装置。 - 【請求項15】 ネットワークを通じて取得したウェブ
ページの少なくとも一部を特徴づける音声出力を生成す
る合成ステップと、 少なくとも1つの文法の少なくとも一部を生成するよう
に前記ウェブページ内の情報を処理する処理ステップ
と、 前記文法を利用して音声入力を認識する認識ステップと
を有することを特徴とする、ネットワークを通じての対
話型音声応答を実現する方法。 - 【請求項16】 所定のモデルのセットのうちのどのモ
デルが前記取得したウェブページを最も良く特徴づける
かを判定するステップをさらに有することを特徴とする
請求項15に記載の方法。 - 【請求項17】 前記取得したウェブページが前記所定
のモデルのセットのうちのいずれのモデルによっても適
当に特徴づけられない場合に、デフォルトのトップダウ
ン説明プロセスを利用するステップをさらに有すること
を特徴とする請求項16に記載の方法。 - 【請求項18】 複数の相異なるモデルセットを前記取
得したウェブページに適用するステップをさらに有し、
各モデルセットは少なくとも1つのモデルを含むことを
特徴とする請求項16に記載の方法。 - 【請求項19】 同様の音素が前記認識ステップおよび
前記合成ステップの両方で使用されるように、音素情報
を生成するために前記文法を利用するステップをさらに
有することを特徴とする請求項15に記載の方法。 - 【請求項20】 前記合成ステップ、前記処理ステップ
および前記認識ステップは、ユーザへのウェブページ情
報の出力を制御するためにユーザとダイアログが行われ
るダイアログシステムを実現することを特徴とする請求
項15に記載の方法。 - 【請求項21】 ウェブページは、(i)ユーザに対し
て読まれるテキスト、(ii)ホストプロセッサ上で動
作を実行するプログラムスクリプト、および(iii)
ユーザから受け取る指定された音声応答のセットのそれ
ぞれに対するハイパーリンク、のうちの少なくとも1つ
を含むことを特徴とする請求項20に記載の方法。 - 【請求項22】 ウェブページは、与えられたユーザ音
声入力が認識不能として拒否されたときに利用される少
なくとも1つのハイパーリンクを含むことを特徴とする
請求項20に記載の方法。 - 【請求項23】 前記処理ステップによって生成される
文法の少なくとも一部はあらかじめコンパイルされてい
ることを特徴とする請求項15に記載の方法。 - 【請求項24】 ネットワークを通じての対話型音声応
答アプリケーションを実現する1つ以上のプログラムを
格納したマシン読み取り可能媒体において、該1つ以上
のプログラムがマシンによって実行されるとき、 ネットワークを通じて取得したウェブページの少なくと
も一部を特徴づける音声出力を生成するステップと、 少なくとも1つの文法の少なくとも一部を生成するよう
に前記ウェブページ内の情報を処理するステップと、 前記文法を利用して音声入力を認識するステップとを実
行することを特徴とする、ネットワークを通じての対話
型音声応答アプリケーションを実現する1つ以上のプロ
グラムを格納したマシン読み取り可能媒体。 - 【請求項25】 ネットワークとオーディオインタフェ
ースデバイスの間で情報を通信する対話型音声応答シス
テムにおいて、該システムは、対話型音声応答プラット
フォームの少なくとも一部を実現する少なくとも1つの
コンピュータを有し、該プラットフォームは、(i)ネ
ットワークを通じて取得したウェブページの少なくとも
一部を特徴づける音声出力を生成する音声合成器と、
(ii)少なくとも1つの文法の少なくとも一部を生成
するように前記取得したウェブページ内の情報を処理す
る文法生成器と、(iii)前記文法生成器によって生
成される前記少なくとも1つの文法を利用して音声入力
を認識する音声認識器とを有することを特徴とする対話
型音声応答システム。 - 【請求項26】 前記対話型音声応答プラットフォーム
は、サービスプロバイダに含まれることを特徴とする請
求項25に記載の対話型音声応答システム。 - 【請求項27】 前記対話型音声応答プラットフォーム
は、ユーザへのウェブページ情報の出力を制御するため
にユーザとダイアログが行われるダイアログシステムを
実現することを特徴とする請求項25に記載の対話型音
声応答システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/168405 | 1998-10-06 | ||
US09/168,405 US6587822B2 (en) | 1998-10-06 | 1998-10-06 | Web-based platform for interactive voice response (IVR) |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000137596A true JP2000137596A (ja) | 2000-05-16 |
Family
ID=22611367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11283971A Pending JP2000137596A (ja) | 1998-10-06 | 1999-10-05 | 対話型音声応答システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US6587822B2 (ja) |
EP (1) | EP0992980A3 (ja) |
JP (1) | JP2000137596A (ja) |
KR (1) | KR100661687B1 (ja) |
CA (1) | CA2280331C (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020030224A (ko) * | 2000-10-16 | 2002-04-24 | 이세진 | 웹 가이드를 이용한 정보제공방법 |
WO2002052831A1 (fr) * | 2000-12-22 | 2002-07-04 | Nec Corporation | Systeme de terminal mobile de radiocommunications |
JP2002358194A (ja) * | 2001-06-01 | 2002-12-13 | Kaisen Baitai Kenkyusho:Kk | 音声情報提供システム、音声情報提供方法及びそのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記憶媒体 |
JP2003044496A (ja) * | 2001-07-26 | 2003-02-14 | Nec Corp | 情報サービス提供方法、装置及びプログラム |
KR20030027359A (ko) * | 2001-09-28 | 2003-04-07 | 박기철 | 보이스 브라우저와 기존 웹 브라우저의 연동을 위한 방법및 시스템 |
JP2003131772A (ja) * | 2001-05-04 | 2003-05-09 | Microsoft Corp | Webで使用可能な認識のためのマークアップ言語拡張部 |
US6823046B2 (en) | 2000-10-23 | 2004-11-23 | Gf Co., Ltd. | Telephone answering device, and method for telephone answering by acquiring procedure files stating various answering functions realized by telephone answering device thereof |
US7299186B2 (en) | 2001-10-02 | 2007-11-20 | Hitachi, Ltd. | Speech input system, speech portal server, and speech input terminal |
Families Citing this family (182)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU776929B2 (en) | 1998-12-21 | 2004-09-23 | Frontline Technologies Group Llc | System and method for performing substitute fulfillment information compilation and notification |
US7130616B2 (en) * | 2000-04-25 | 2006-10-31 | Simple Devices | System and method for providing content, management, and interactivity for client devices |
US20020013852A1 (en) * | 2000-03-03 | 2002-01-31 | Craig Janik | System for providing content, management, and interactivity for thin client devices |
US7468934B1 (en) * | 1999-07-12 | 2008-12-23 | Ez4Media, Inc. | Clock with link to the internet |
US20050210101A1 (en) * | 1999-03-04 | 2005-09-22 | Universal Electronics Inc. | System and method for providing content, management, and interactivity for client devices |
US6567796B1 (en) * | 1999-03-23 | 2003-05-20 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
US8321411B2 (en) | 1999-03-23 | 2012-11-27 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
US6408272B1 (en) | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
US20050261907A1 (en) * | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
US9208213B2 (en) | 1999-05-28 | 2015-12-08 | Microstrategy, Incorporated | System and method for network user interface OLAP report formatting |
US8607138B2 (en) * | 1999-05-28 | 2013-12-10 | Microstrategy, Incorporated | System and method for OLAP report generation with spreadsheet report within the network user interface |
EP1192789B1 (en) * | 1999-06-11 | 2008-10-15 | Telstra Corporation Limited | A method of developing an interactive system |
US7130879B1 (en) * | 1999-08-10 | 2006-10-31 | Alexandre Dayon | System for publishing, organizing, accessing and distributing information in a computer network |
US7945468B1 (en) | 1999-08-20 | 2011-05-17 | Frontline Technologies, Inc. | Notification of employees via pass code accessed web pages |
US6792086B1 (en) * | 1999-08-24 | 2004-09-14 | Microstrategy, Inc. | Voice network access provider system and method |
US7457397B1 (en) * | 1999-08-24 | 2008-11-25 | Microstrategy, Inc. | Voice page directory system in a voice page creation and delivery system |
US6578000B1 (en) * | 1999-09-03 | 2003-06-10 | Cisco Technology, Inc. | Browser-based arrangement for developing voice enabled web applications using extensible markup language documents |
US7266181B1 (en) * | 1999-09-13 | 2007-09-04 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized dynamic and interactive voice services with integrated inbound and outbound voice services |
US6850603B1 (en) * | 1999-09-13 | 2005-02-01 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized dynamic and interactive voice services |
US6788768B1 (en) | 1999-09-13 | 2004-09-07 | Microstrategy, Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for book-related information |
US6964012B1 (en) | 1999-09-13 | 2005-11-08 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts |
US8130918B1 (en) | 1999-09-13 | 2012-03-06 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing |
US7219123B1 (en) * | 1999-10-08 | 2007-05-15 | At Road, Inc. | Portable browser device with adaptive personalization capability |
US7685252B1 (en) * | 1999-10-12 | 2010-03-23 | International Business Machines Corporation | Methods and systems for multi-modal browsing and implementation of a conversational markup language |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6978475B1 (en) * | 1999-11-24 | 2005-12-20 | Ecable, Llc | Method and apparatus for internet TV |
EP1109152A1 (en) * | 1999-12-13 | 2001-06-20 | Sony International (Europe) GmbH | Method for speech recognition using semantic and pragmatic informations |
US20010043234A1 (en) * | 2000-01-03 | 2001-11-22 | Mallik Kotamarti | Incorporating non-native user interface mechanisms into a user interface |
US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US6721705B2 (en) | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
JP2001237991A (ja) * | 2000-02-23 | 2001-08-31 | Nec Corp | 発信者無料通信方式及び発信者無料通信方法 |
US20030023446A1 (en) * | 2000-03-17 | 2003-01-30 | Susanna Merenyi | On line oral text reader system |
US7213027B1 (en) * | 2000-03-21 | 2007-05-01 | Aol Llc | System and method for the transformation and canonicalization of semantically structured data |
US7370086B2 (en) * | 2000-03-24 | 2008-05-06 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
US7366766B2 (en) * | 2000-03-24 | 2008-04-29 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
US6950980B1 (en) * | 2000-05-31 | 2005-09-27 | International Business Machines Corporation | System, method, and program product for saving a submitted form of a web page |
US7437293B1 (en) * | 2000-06-09 | 2008-10-14 | Videa, Llc | Data transmission system with enhancement data |
US7140004B1 (en) * | 2000-06-13 | 2006-11-21 | Tellme Networks, Inc. | Method and apparatus for zero-footprint phone application development |
US7308484B1 (en) * | 2000-06-30 | 2007-12-11 | Cisco Technology, Inc. | Apparatus and methods for providing an audibly controlled user interface for audio-based communication devices |
US7389234B2 (en) * | 2000-07-20 | 2008-06-17 | Microsoft Corporation | Method and apparatus utilizing speech grammar rules written in a markup language |
EP1178656A1 (en) * | 2000-08-02 | 2002-02-06 | Passcall Advanced Technologies Ltd | System and method for computerless surfing of an information network |
EP1312078A1 (en) * | 2000-08-15 | 2003-05-21 | Koninklijke Philips Electronics N.V. | Multi-device audio-video with common echo canceling |
KR20000064050A (ko) * | 2000-08-18 | 2000-11-06 | 김태준 | 전자상거래에 있어서의 보증 서비스 방법 |
WO2002017069A1 (en) * | 2000-08-21 | 2002-02-28 | Yahoo! Inc. | Method and system of interpreting and presenting web content using a voice browser |
US7240006B1 (en) * | 2000-09-27 | 2007-07-03 | International Business Machines Corporation | Explicitly registering markup based on verbal commands and exploiting audio context |
US7349946B2 (en) * | 2000-10-02 | 2008-03-25 | Canon Kabushiki Kaisha | Information processing system |
DE60133529T2 (de) * | 2000-11-23 | 2009-06-10 | International Business Machines Corp. | Sprachnavigation in Webanwendungen |
EP1352316A2 (en) * | 2000-12-01 | 2003-10-15 | The Trustees Of Columbia University In The City Of New York | A method and system for voice activating web pages |
US7286994B1 (en) * | 2000-12-26 | 2007-10-23 | At&T Bls Intellectual Property, Inc. | System for facilitating technician sales referrals |
US7020611B2 (en) * | 2001-02-21 | 2006-03-28 | Ameritrade Ip Company, Inc. | User interface selectable real time information delivery system and method |
US20020124025A1 (en) * | 2001-03-01 | 2002-09-05 | International Business Machines Corporataion | Scanning and outputting textual information in web page images |
US20030164848A1 (en) * | 2001-03-01 | 2003-09-04 | International Business Machines Corporation | Method and apparatus for summarizing content of a document for a visually impaired user |
US20020124020A1 (en) * | 2001-03-01 | 2002-09-05 | International Business Machines Corporation | Extracting textual equivalents of multimedia content stored in multimedia files |
JP3379090B2 (ja) * | 2001-03-02 | 2003-02-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム |
US20020188447A1 (en) * | 2001-04-10 | 2002-12-12 | Coon Bradley S. | Generation of grammars from dynamic data structures |
US20040120472A1 (en) * | 2001-04-19 | 2004-06-24 | Popay Paul I | Voice response system |
CA2441195C (en) | 2001-04-19 | 2008-08-26 | British Telecommunications Public Limited Company | Voice response system |
US6785647B2 (en) * | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
US20020158903A1 (en) * | 2001-04-26 | 2002-10-31 | International Business Machines Corporation | Apparatus for outputting textual renditions of graphical data and method therefor |
US6941509B2 (en) * | 2001-04-27 | 2005-09-06 | International Business Machines Corporation | Editing HTML DOM elements in web browsers with non-visual capabilities |
US20020161824A1 (en) * | 2001-04-27 | 2002-10-31 | International Business Machines Corporation | Method for presentation of HTML image-map elements in non visual web browsers |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7606712B1 (en) * | 2001-06-28 | 2009-10-20 | At&T Intellectual Property Ii, L.P. | Speech recognition interface for voice actuation of legacy systems |
US7054939B2 (en) * | 2001-06-28 | 2006-05-30 | Bellsouth Intellectual Property Corportion | Simultaneous visual and telephonic access to interactive information delivery |
US8831949B1 (en) | 2001-06-28 | 2014-09-09 | At&T Intellectual Property I, L.P. | Voice recognition for performing authentication and completing transactions in a systems interface to legacy systems |
US7401144B1 (en) | 2001-06-28 | 2008-07-15 | At&T Delaware Intellectual Property, Inc. | Technician intranet access via systems interface to legacy systems |
US7609829B2 (en) * | 2001-07-03 | 2009-10-27 | Apptera, Inc. | Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution |
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
US7016348B2 (en) * | 2001-08-28 | 2006-03-21 | Ip Unity | Method and system for direct access to web content via a telephone |
CN1248193C (zh) * | 2001-09-27 | 2006-03-29 | 松下电器产业株式会社 | 会话装置、会话主机装置、会话子机装置、会话控制方法及会话控制程序 |
US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7133830B1 (en) | 2001-11-13 | 2006-11-07 | Sr2, Inc. | System and method for supporting platform independent speech applications |
US7490039B1 (en) * | 2001-12-13 | 2009-02-10 | Cisco Technology, Inc. | Text to speech system and method having interactive spelling capabilities |
US7149702B1 (en) * | 2001-12-31 | 2006-12-12 | Bellsouth Intellectual Property Corp. | System and method for document delays associated with a project |
US7054813B2 (en) * | 2002-03-01 | 2006-05-30 | International Business Machines Corporation | Automatic generation of efficient grammar for heading selection |
US20030171926A1 (en) * | 2002-03-07 | 2003-09-11 | Narasimha Suresh | System for information storage, retrieval and voice based content search and methods thereof |
US9087319B2 (en) * | 2002-03-11 | 2015-07-21 | Oracle America, Inc. | System and method for designing, developing and implementing internet service provider architectures |
JP2003271182A (ja) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
US7117158B2 (en) * | 2002-04-25 | 2006-10-03 | Bilcare, Inc. | Systems, methods and computer program products for designing, deploying and managing interactive voice response (IVR) systems |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US7127400B2 (en) * | 2002-05-22 | 2006-10-24 | Bellsouth Intellectual Property Corporation | Methods and systems for personal interactive voice response |
US20050149331A1 (en) * | 2002-06-14 | 2005-07-07 | Ehrilich Steven C. | Method and system for developing speech applications |
US20040019488A1 (en) * | 2002-07-23 | 2004-01-29 | Netbytel, Inc. | Email address recognition using personal information |
AU2002950336A0 (en) * | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
US7216287B2 (en) * | 2002-08-02 | 2007-05-08 | International Business Machines Corporation | Personal voice portal service |
AU2002951244A0 (en) | 2002-09-06 | 2002-09-19 | Telstra New Wave Pty Ltd | A development system for a dialog system |
US7136804B2 (en) * | 2002-10-30 | 2006-11-14 | Hewlett-Packard Development Company, L.P. | Systems and methods for providing users with information in audible form |
US20040088547A1 (en) * | 2002-11-04 | 2004-05-06 | Colnot Vincent Cedric | Method and apparatus to secure online transactions over the phone |
US8661112B2 (en) * | 2002-12-20 | 2014-02-25 | Nuance Communications, Inc. | Customized interactive voice response menus |
US7243071B1 (en) | 2003-01-16 | 2007-07-10 | Comverse, Inc. | Speech-recognition grammar analysis |
US8335683B2 (en) * | 2003-01-23 | 2012-12-18 | Microsoft Corporation | System for using statistical classifiers for spoken language understanding |
US20040148170A1 (en) * | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
AU2003900584A0 (en) * | 2003-02-11 | 2003-02-27 | Telstra New Wave Pty Ltd | System for predicting speech recognition accuracy and development for a dialog system |
US20050266884A1 (en) * | 2003-04-22 | 2005-12-01 | Voice Genesis, Inc. | Methods and systems for conducting remote communications |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
AU2003902020A0 (en) * | 2003-04-29 | 2003-05-15 | Telstra New Wave Pty Ltd | A process for grammatical inference |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
US7421393B1 (en) | 2004-03-01 | 2008-09-02 | At&T Corp. | System for developing a dialog manager using modular spoken-dialog components |
US9202467B2 (en) * | 2003-06-06 | 2015-12-01 | The Trustees Of Columbia University In The City Of New York | System and method for voice activating web pages |
US20040260551A1 (en) * | 2003-06-19 | 2004-12-23 | International Business Machines Corporation | System and method for configuring voice readers using semantic analysis |
FR2856867B1 (fr) * | 2003-06-25 | 2005-08-05 | France Telecom | Systeme pour generer un script temporel a partir d'une liste de documents |
US8311835B2 (en) * | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
GB2407657B (en) * | 2003-10-30 | 2006-08-23 | Vox Generation Ltd | Automated grammar generator (AGG) |
US20050163136A1 (en) * | 2003-11-17 | 2005-07-28 | Leo Chiu | Multi-tenant self-service VXML portal |
US7697673B2 (en) | 2003-11-17 | 2010-04-13 | Apptera Inc. | System for advertisement selection, placement and delivery within a multiple-tenant voice interaction service system |
US8965771B2 (en) * | 2003-12-08 | 2015-02-24 | Kurzweil Ainetworks, Inc. | Use of avatar with event processing |
US9378187B2 (en) | 2003-12-11 | 2016-06-28 | International Business Machines Corporation | Creating a presentation document |
US7660400B2 (en) * | 2003-12-19 | 2010-02-09 | At&T Intellectual Property Ii, L.P. | Method and apparatus for automatically building conversational systems |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8001454B2 (en) * | 2004-01-13 | 2011-08-16 | International Business Machines Corporation | Differential dynamic content delivery with presentation control instructions |
FR2865846A1 (fr) * | 2004-02-02 | 2005-08-05 | France Telecom | Systeme de synthese vocale |
US7412393B1 (en) * | 2004-03-01 | 2008-08-12 | At&T Corp. | Method for developing a dialog manager using modular spoken-dialog components |
US7415106B2 (en) * | 2004-03-09 | 2008-08-19 | Sbc Knowledge Ventures, Lp | Network-based voice activated auto-attendant service with B2B connectors |
US7519683B2 (en) * | 2004-04-26 | 2009-04-14 | International Business Machines Corporation | Dynamic media content for collaborators with client locations in dynamic client contexts |
US7827239B2 (en) * | 2004-04-26 | 2010-11-02 | International Business Machines Corporation | Dynamic media content for collaborators with client environment information in dynamic client contexts |
US8185814B2 (en) * | 2004-07-08 | 2012-05-22 | International Business Machines Corporation | Differential dynamic delivery of content according to user expressions of interest |
US7487208B2 (en) * | 2004-07-08 | 2009-02-03 | International Business Machines Corporation | Differential dynamic content delivery to alternate display device locations |
US8494855B1 (en) * | 2004-10-06 | 2013-07-23 | West Interactive Corporation Ii | Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition |
US8838673B2 (en) * | 2004-11-22 | 2014-09-16 | Timothy B. Morford | Method and apparatus to generate audio versions of web pages |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8275618B2 (en) * | 2004-12-22 | 2012-09-25 | Nuance Communications, Inc. | Mobile dictation correction user interface |
US20060141481A1 (en) * | 2004-12-27 | 2006-06-29 | Mariani Brian D | HSV-1 and HSV-2 primers and probes |
US7778397B2 (en) * | 2005-03-10 | 2010-08-17 | Avaya Inc. | Dynamic video generation in interactive voice response systems |
US7949106B2 (en) * | 2005-03-10 | 2011-05-24 | Avaya Inc. | Asynchronous event handling for video streams in interactive voice response systems |
US7847813B2 (en) * | 2005-03-10 | 2010-12-07 | Avaya Inc. | Dynamic multimedia content stream delivery based on quality of service |
US7711095B2 (en) * | 2005-03-10 | 2010-05-04 | Avaya Inc. | Coordination of content streams in interactive voice response systems |
US20060203975A1 (en) * | 2005-03-10 | 2006-09-14 | Avaya Technology Corp. | Dynamic content stream delivery to a telecommunications terminal based on the state of the terminal's transducers |
US7769148B2 (en) * | 2005-08-22 | 2010-08-03 | Avaya Inc. | Filler video streams in interactive voice response systems |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
US7367502B2 (en) * | 2005-09-13 | 2008-05-06 | En-Vision America, Inc. | Delivery of item specific audible information via voice server |
US9009046B1 (en) * | 2005-09-27 | 2015-04-14 | At&T Intellectual Property Ii, L.P. | System and method for disambiguating multiple intents in a natural language dialog system |
US8229745B2 (en) * | 2005-10-21 | 2012-07-24 | Nuance Communications, Inc. | Creating a mixed-initiative grammar from directed dialog grammars |
US7809376B2 (en) * | 2005-11-29 | 2010-10-05 | Roberto S. Catalan | Enhanced analogue of interactive voice response structures and functions for mobile phones and similar handheld communications devices |
US8228925B2 (en) * | 2005-12-14 | 2012-07-24 | Alcatel Lucent | Interactive voice response system for online and offline charging and for multiple networks |
US7653183B2 (en) * | 2006-04-06 | 2010-01-26 | Cisco Technology, Inc. | Method and apparatus to provide data to an interactive voice response (IVR) system |
US20070294927A1 (en) * | 2006-06-26 | 2007-12-27 | Saundra Janese Stevens | Evacuation Status Indicator (ESI) |
US11450331B2 (en) | 2006-07-08 | 2022-09-20 | Staton Techiya, Llc | Personal audio assistant device and method |
WO2008008730A2 (en) | 2006-07-08 | 2008-01-17 | Personics Holdings Inc. | Personal audio assistant device and method |
US20100179958A1 (en) * | 2006-07-19 | 2010-07-15 | Michael James Carr | Apparatus, methods, and products for surfing the internet |
US7890328B1 (en) | 2006-09-07 | 2011-02-15 | At&T Intellectual Property Ii, L.P. | Enhanced accuracy for speech recognition grammars |
US20080069316A1 (en) * | 2006-09-20 | 2008-03-20 | Sbc Knowledge Ventures, L.P. | Method and apparatus for processing voicemail messages in a multi-user setting |
US9082406B2 (en) * | 2006-11-30 | 2015-07-14 | Robert Bosch Llc | Method and system for extending dialog systems to process complex activities for applications |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
CN101242452B (zh) | 2007-02-05 | 2013-01-23 | 国际商业机器公司 | 用于自动生成声音文档以及提供声音文档的方法和系统 |
US20080243510A1 (en) * | 2007-03-28 | 2008-10-02 | Smith Lawrence C | Overlapping screen reading of non-sequential text |
US8060371B1 (en) | 2007-05-09 | 2011-11-15 | Nextel Communications Inc. | System and method for voice interaction with non-voice enabled web pages |
KR101359715B1 (ko) * | 2007-08-24 | 2014-02-10 | 삼성전자주식회사 | 모바일 음성 웹 제공 방법 및 장치 |
US8635074B2 (en) * | 2007-09-14 | 2014-01-21 | Keefe Commissary Network, L.L.C. | Interactive voice response interface, system, methods and program for correctional facility commissary |
US8370206B2 (en) * | 2007-09-14 | 2013-02-05 | Keefe Commissary Network, L.L.C. | Method, medium, and system for an inmate privilege kiosk |
US8132085B2 (en) * | 2007-09-20 | 2012-03-06 | Intel Corporation | Method and apparatus for frame control header decoding using cyclic shifting of bits |
US20090172546A1 (en) * | 2007-12-31 | 2009-07-02 | Motorola, Inc. | Search-based dynamic voice activation |
US8140366B2 (en) * | 2008-01-04 | 2012-03-20 | Frontline Technologies, Inc. | Method, system and program product for filling job orders |
US9047869B2 (en) * | 2008-04-07 | 2015-06-02 | Nuance Communications, Inc. | Free form input field support for automated voice enablement of a web page |
US8831950B2 (en) * | 2008-04-07 | 2014-09-09 | Nuance Communications, Inc. | Automated voice enablement of a web page |
JP5322208B2 (ja) * | 2008-06-30 | 2013-10-23 | 株式会社東芝 | 音声認識装置及びその方法 |
US9003300B2 (en) * | 2008-10-03 | 2015-04-07 | International Business Machines Corporation | Voice response unit proxy utilizing dynamic web interaction |
US9497322B2 (en) * | 2008-10-16 | 2016-11-15 | Troy Barnes | Remote control of a web browser |
US8351581B2 (en) | 2008-12-19 | 2013-01-08 | At&T Mobility Ii Llc | Systems and methods for intelligent call transcription |
US20130108030A1 (en) * | 2011-10-27 | 2013-05-02 | Shamir Shmuel Snir | System and Method for Creating Parallel Graphical Interface for Voice Menu |
GB2513525A (en) | 2012-07-30 | 2014-11-05 | Ibm | Provision of alternative text for use in association with image data |
US20140350941A1 (en) * | 2013-05-21 | 2014-11-27 | Microsoft Corporation | Method For Finding Elements In A Webpage Suitable For Use In A Voice User Interface (Disambiguation) |
US10521753B2 (en) * | 2013-10-09 | 2019-12-31 | Sap Se | Usage description language |
US9690854B2 (en) | 2013-11-27 | 2017-06-27 | Nuance Communications, Inc. | Voice-enabled dialog interaction with web pages |
US20150242182A1 (en) * | 2014-02-24 | 2015-08-27 | Honeywell International Inc. | Voice augmentation for industrial operator consoles |
US10372804B2 (en) | 2016-05-17 | 2019-08-06 | Bruce HASSEL | Interactive audio validation/assistance system and methodologies |
US12026456B2 (en) | 2017-08-07 | 2024-07-02 | Dolbey & Company, Inc. | Systems and methods for using optical character recognition with voice recognition commands |
CN110459211B (zh) | 2018-05-07 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 人机对话方法、客户端、电子设备及存储介质 |
IL280842A (en) * | 2021-02-14 | 2022-07-01 | Elementor Ltd | A system device and method for interacting with a web page |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335160A (ja) * | 1995-06-05 | 1996-12-17 | At & T Ipm Corp | ビデオスクリーン表示を音声対話型にするシステム |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
JPH10207685A (ja) * | 1996-12-04 | 1998-08-07 | At & T Corp | ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法 |
WO1998035491A1 (en) * | 1997-02-05 | 1998-08-13 | British Telecommunications Public Limited Company | Voice-data interface |
JPH10222342A (ja) * | 1997-02-06 | 1998-08-21 | Nippon Telegr & Teleph Corp <Ntt> | ハイパーテキスト音声制御方法及び装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2240557A1 (de) * | 1971-08-18 | 1973-02-22 | Jean Albert Dreyfus | Spracherkennungsvorrichtung zum steuern von maschinen |
JPH031200A (ja) * | 1989-05-29 | 1991-01-07 | Nec Corp | 規則型音声合成装置 |
US5642519A (en) * | 1994-04-29 | 1997-06-24 | Sun Microsystems, Inc. | Speech interpreter with a unified grammer compiler |
US5774628A (en) * | 1995-04-10 | 1998-06-30 | Texas Instruments Incorporated | Speaker-independent dynamic vocabulary and grammar in speech recognition |
JPH08335091A (ja) * | 1995-06-09 | 1996-12-17 | Sony Corp | 音声認識装置、および音声合成装置、並びに音声認識合成装置 |
US5802526A (en) * | 1995-11-15 | 1998-09-01 | Microsoft Corporation | System and method for graphically displaying and navigating through an interactive voice response menu |
US5943648A (en) * | 1996-04-25 | 1999-08-24 | Lernout & Hauspie Speech Products N.V. | Speech signal distribution system providing supplemental parameter associated data |
US5799063A (en) * | 1996-08-15 | 1998-08-25 | Talk Web Inc. | Communication system and method of providing access to pre-recorded audio messages via the Internet |
US5859898A (en) * | 1996-09-17 | 1999-01-12 | Nynex Science & Technology | Messaging architecture supporting digital and analog media |
US5819220A (en) * | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US6018710A (en) * | 1996-12-13 | 2000-01-25 | Siemens Corporate Research, Inc. | Web-based interactive radio environment: WIRE |
US6188985B1 (en) * | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
US5945989A (en) * | 1997-03-25 | 1999-08-31 | Premiere Communications, Inc. | Method and apparatus for adding and altering content on websites |
US5937385A (en) * | 1997-10-20 | 1999-08-10 | International Business Machines Corporation | Method and apparatus for creating speech recognition grammars constrained by counter examples |
-
1998
- 1998-10-06 US US09/168,405 patent/US6587822B2/en not_active Expired - Lifetime
-
1999
- 1999-08-17 CA CA002280331A patent/CA2280331C/en not_active Expired - Fee Related
- 1999-09-28 EP EP99307658A patent/EP0992980A3/en not_active Ceased
- 1999-10-05 JP JP11283971A patent/JP2000137596A/ja active Pending
- 1999-10-05 KR KR1019990042747A patent/KR100661687B1/ko not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335160A (ja) * | 1995-06-05 | 1996-12-17 | At & T Ipm Corp | ビデオスクリーン表示を音声対話型にするシステム |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
JPH10207685A (ja) * | 1996-12-04 | 1998-08-07 | At & T Corp | ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法 |
WO1998035491A1 (en) * | 1997-02-05 | 1998-08-13 | British Telecommunications Public Limited Company | Voice-data interface |
JPH10222342A (ja) * | 1997-02-06 | 1998-08-21 | Nippon Telegr & Teleph Corp <Ntt> | ハイパーテキスト音声制御方法及び装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020030224A (ko) * | 2000-10-16 | 2002-04-24 | 이세진 | 웹 가이드를 이용한 정보제공방법 |
US6823046B2 (en) | 2000-10-23 | 2004-11-23 | Gf Co., Ltd. | Telephone answering device, and method for telephone answering by acquiring procedure files stating various answering functions realized by telephone answering device thereof |
WO2002052831A1 (fr) * | 2000-12-22 | 2002-07-04 | Nec Corporation | Systeme de terminal mobile de radiocommunications |
US7292878B2 (en) | 2000-12-22 | 2007-11-06 | Nec Corporation | Radio mobile terminal communication system |
JP2003131772A (ja) * | 2001-05-04 | 2003-05-09 | Microsoft Corp | Webで使用可能な認識のためのマークアップ言語拡張部 |
JP2002358194A (ja) * | 2001-06-01 | 2002-12-13 | Kaisen Baitai Kenkyusho:Kk | 音声情報提供システム、音声情報提供方法及びそのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記憶媒体 |
JP2003044496A (ja) * | 2001-07-26 | 2003-02-14 | Nec Corp | 情報サービス提供方法、装置及びプログラム |
KR20030027359A (ko) * | 2001-09-28 | 2003-04-07 | 박기철 | 보이스 브라우저와 기존 웹 브라우저의 연동을 위한 방법및 시스템 |
US7299186B2 (en) | 2001-10-02 | 2007-11-20 | Hitachi, Ltd. | Speech input system, speech portal server, and speech input terminal |
Also Published As
Publication number | Publication date |
---|---|
KR20000028832A (ko) | 2000-05-25 |
EP0992980A2 (en) | 2000-04-12 |
CA2280331C (en) | 2005-08-02 |
EP0992980A3 (en) | 2001-05-23 |
US6587822B2 (en) | 2003-07-01 |
CA2280331A1 (en) | 2000-04-06 |
US20010013001A1 (en) | 2001-08-09 |
KR100661687B1 (ko) | 2006-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6587822B2 (en) | Web-based platform for interactive voice response (IVR) | |
EP1330816B1 (en) | Language independent voice-based user interface | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
US6188985B1 (en) | Wireless voice-activated device for control of a processor-based host system | |
US7580842B1 (en) | System and method of providing a spoken dialog interface to a website | |
Hemphill et al. | Surfing the Web by voice | |
US6604075B1 (en) | Web-based voice dialog interface | |
US20030225825A1 (en) | Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms | |
JP2003015860A (ja) | 音声対応プログラムにおける音声主導型データ選択 | |
JP2001188777A (ja) | 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法 | |
JPH10207685A (ja) | ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法 | |
JPH11353150A (ja) | 口頭の問合せを支援するためのマ―クアップ言語ペ―ジのエンハンスメント | |
US8918323B2 (en) | Contextual conversion platform for generating prioritized replacement text for spoken content output | |
US11907665B2 (en) | Method and system for processing user inputs using natural language processing | |
JPH1125098A (ja) | 情報処理装置、リンク先ファイルの取得方法および記憶媒体 | |
JP6625772B2 (ja) | 検索方法及びそれを用いた電子機器 | |
JPH10124293A (ja) | 音声指令可能なコンピュータとそれ用の媒体 | |
Hemphill et al. | Speech-aware multimedia | |
Brown et al. | Web page analysis for voice browsing | |
US6662157B1 (en) | Speech recognition system for database access through the use of data domain overloading of grammars | |
JP2003162524A (ja) | 言語処理装置 | |
JP2002099294A (ja) | 情報処理装置 | |
WO2002099786A1 (en) | Method and device for multimodal interactive browsing | |
JP2005266009A (ja) | データ変換プログラムおよびデータ変換装置 | |
JP2005151037A (ja) | 音声処理装置および音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050208 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060424 |