JP2001255881A

JP2001255881A - 自動音声認識／合成ブラウザシステム

Info

Publication number: JP2001255881A
Application number: JP2000068992A
Authority: JP
Inventors: 雄一 ▲高▼▲柳▼; Yuichi Takayanagi; Kashu Uno; 嘉修宇野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-03-13
Filing date: 2000-03-13
Publication date: 2001-09-21

Abstract

(57)【要約】【課題】センタ側のサービスに合わせてクライアント
システムを変えることなく、音声認識・音声合成による
音声操作を可能とする。【解決手段】センタサーバ１の指示で、サービス提供
内容に合わせたＨＴＭＬ文を、ＨＴＭＬ生成処理部２で
生成する。ＨＴＭＬ解析処理部３で、ＨＴＭＬのデータ
解析を行ない、音声認識データ生成部４と音声合成デー
タ生成部５で、サービスに合わせた音声認識データと音
声合成データを生成する。カーナビゲーション装置やパ
ソコンやＰＤＡなどのクライアントシステムのＨＴＭＬ
表示処理部８で、受信したＨＴＭＬデータの解釈を行な
う。ユーザ操作部12で、音声認識データと音声合成デー
タを使って音声入出力を行ない、ユーザの音声操作を可
能とする。クライアントシステムを変えることなく、セ
ンタのサービスの拡張ができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自動音声認識／合
成ブラウザシステムに関し、特に、ブラウザ搭載システ
ムにおいて任意の用語を音声認識・合成できる自動音声
認識／合成ブラウザシステムに関する。

【０００２】

【従来の技術】従来のブラウザ搭載システムでは、音声
認識合成辞書や語彙集を格納しておき、それらの辞書や
語彙集に合わせて、音声認識合成を行なっている。新た
な辞書の作成時や語彙集の作成時には、ブラウザ搭載シ
ステム内の音声合成用ＲＯＭや辞書格納補助記憶装置の
メディアを更新している。

【０００３】このようなシステムの従来例として、特開
平11-249867号公報に開示されている「音声ブラウザシ
ステム」がある。このシステムは、図３に示すように、
視覚障害者であってもＷＷＷ情報を取得することが可能
なシステムである。このシステムでは、ユーザの音声に
よる要求を入力すると、サーバで音声入力による要求を
音声認識する。クライアントは、サーバから取得したＵ
ＲＬに基づいて、サーバにＨＴＭＬファイルを要求す
る。サーバは、クライアントから指定されたＵＲＬに対
して、要求をインターネットに送信する。インターネッ
トから取得した応答から音読テキストを抽出し、音声デ
ータに変換して音声合成する。生成された音声データを
クライアントに送信し、クライアント側で音声データを
出力する。

【０００４】また、インターネットが普及している今日
では、様々なサービスが、センタ側で整備されてきてい
る。例えば、タクシーサービスにおける音声認識データ
／音声合成データ群がある。水道やマンホールの整備を
するサービスにおける音声認識データ群及び音声データ
群がある。

【０００５】

【発明が解決しようとする課題】しかし、上記従来のブ
ラウザ搭載システムでは、センタ側のサービスの多様化
に合わせて、クライアント側の音声認識や音声合成のシ
ステムを変更しなければならないという問題がある。

【０００６】本発明は、上記従来の問題を解決して、セ
ンタ側のサービスに合わせてクライアントシステムを変
えることなく、音声認識・音声合成による音声操作を可
能とする自動音声認識／合成ブラウザシステムを提供す
ることを目的とする。

【０００７】

【課題を解決するための手段】上記の課題を解決するた
めに、本発明では、センタ装置とクライアント装置と通
信ネットワークとからなる自動音声認識／合成ブラウザ
システムのセンタ装置に、センタが提供するサービスを
実行するサーバ装置と、サービスに対応したＨＴＭＬ文
を生成するＨＴＭＬ文生成手段と、ＨＴＭＬ文を解析す
るＨＴＭＬ文解析手段と、ＨＴＭＬ文の解析結果に応じ
て音声認識データを生成する音声認識データ生成手段
と、ＨＴＭＬ文の解析結果に応じて音声合成データを生
成する音声合成データ生成手段と、ＨＴＭＬ文と音声認
識データと音声合成データとを通信ネットワークを介し
てクライアント装置に送信するセンタ側通信手段とを設
け、クライアント装置に、ＨＴＭＬ文と音声認識データ
と音声合成データとをセンタ装置から通信ネットワーク
を介して受信するクライアント側通信手段と、ＨＴＭＬ
文を処理して表示するＨＴＭＬ文表示手段と、ＨＴＭＬ
文と音声認識データとに基づいて音声認識処理を行なう
音声認識手段と、ＨＴＭＬ文と音声合成データとに基づ
いて音声合成処理を行なう音声合成手段と、音声認識処
理の結果に基づいて入力操作を行なうユーザ操作手段と
を設けた構成とした。このように構成したことにより、
センタのサービスの種別を利用者が意識することなく、
センタから送られた画面上で音声操作ができる。

【０００８】また、音声認識データ生成手段に、音声認
識データを動的に変更する手段を設け、音声合成データ
生成手段に、音声合成データを動的に変更する手段を設
けたので、クライアント側のパソコンやカーナビゲーシ
ョンの音声辞書・音声合成語彙ファイルを修正する必要
がなく、全てのサービスに対して同じクライアントシス
テムを用いることができる。

【０００９】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図１と図２を参照しながら詳細に説明する。

【００１０】（実施の形態）本発明の実施の形態は、セ
ンタ装置で、サービスに合わせたＨＴＭＬ文と音声認識
データと音声合成データを生成し、カーナビゲーション
装置やパソコンやＰＤＡなどのクライアント装置で、受
信したＨＴＭＬ文と音声認識データと音声合成データを
使って音声入出力を行ない、ユーザの音声操作を可能と
する自動音声認識／合成ブラウザシステムである。

【００１１】図１は、本発明の実施の形態における自動
音声認識／合成ブラウザシステムの機能ブロック図であ
る。図１において、センタサーバ１は、駐車場管理セン
タやドライブスルー店舗などにおける様々なサービスを
行なう情報処理装置である。ＨＴＭＬ生成処理部２は、
ＨＴＭＬのデータ生成を行なう処理部である。ＨＴＭＬ
解析処理部３は、ＨＴＭＬのデータ解析を行なう処理部
である。音声認識データ生成処理部４は、音声認識用の
データ生成を行なう処理部である。音声合成データ生成
処理部５は、音声合成用のデータ生成を行なう処理部で
ある。センタ側通信装置６は、センタと通信ネットワー
クを結ぶ通信手段である。通信ネットワーク７は、公衆
電話回線やインターネットなどの通信回線である。クラ
イアント側通信装置８は、パソコンやカーナビゲーショ
ンやＰＤＡなどのクライアントシステムでＨＴＭＬデー
タを受信する通信手段である。ＨＴＭＬ表示処理部９
は、ＨＴＭＬ文を解釈して表示する処理部である。音声
認識処理部10は、ユーザの音声を認識する手段である。
音声合成処理部11は、ＨＴＭＬ文の音声合成データを音
声にして出力する手段である。ユーザ操作部12は、ユー
ザが音声で装置の操作を行なう手段である。

【００１２】図２は、自動音声認識／合成ブラウザの画
面イメージを示す図である。

【００１３】上記のように構成された本発明の実施の形
態における自動音声認識／合成ブラウザシステムの動作
を説明する。図１に示すように、センタサーバ１が、サ
ービス提供内容に合わせたＨＴＭＬ文を生成するよう
に、ＨＴＭＬ生成処理部２に指示する。ＨＴＭＬ生成処
理部２は、その指示に基づいてＨＴＭＬ文を生成する。
ＨＴＭＬ解析処理部３は、生成されたＨＴＭＬ文のデー
タ解析を行なう。音声認識データ生成処理部４は、ＨＴ
ＭＬ文の解析結果に基づいて、音声認識用のデータ生成
を行なう。音声合成データ生成処理部５は、ＨＴＭＬ文
の解析結果に基づいて、音声合成用のデータ生成を行な
う。センタ側通信装置６は、通信ネットワーク７を介し
てＨＴＭＬ文と音声認識データと音声合成データをクラ
イアントシステムに送信する。

【００１４】車載ナビゲーションシステムやパソコンな
どのクライアントシステムの通信装置８は、センタから
のＨＴＭＬ文と音声認識データと音声合成データを受信
する。ＨＴＭＬ表示処理部９は、受信したＨＴＭＬ文を
解釈して表示を行なう。音声認識処理部10は、受信した
ＨＴＭＬ文と音声認識データに基づき、ユーザの音声を
認識する。音声合成処理部11は、受信したＨＴＭＬ文と
音声合成データに基づき、音声合成を行なう。ユーザ操
作部８は、音声認識結果に基づいて、操作入力処理を行
なう。

【００１５】図２を参照して、ハンバーガーショップで
の注文システムを例にして、動作の流れを説明する。こ
の画面が表示されたとき、ユーザは、「ハンバーガー／
セットメニュー」か、「サイドメニュー」か、「ドリン
ク／デザート」のいずれかを発声する。音声認識される
と、それに対応したページにジャンプする。「サイドメ
ニュー」選択時には、そのページに移行し、「ドリンク
／デザート」選択時は、そのページに移行する。この画
面において、「ハンバーガーイッコ」と発声することに
より、ハンバーガーの個数のエリアに１が入力される。
「オーダーの確認」と発声することにより、オーダーが
終了する。

【００１６】音声認識／合成情報の記述例を示すと、次
のようになる。 <OBJECT classid="VOICERECOG" width="1" height="1"> <PARAM name="guide" value="TEXT:当店へようこそ。メ
ニューから希望の商品と数量を選択してください。,ＡD
PCM:MAC_WELCOM,ADPCM:MAC_ORDER"> <PARAM name="recog" value="KEY:0,REC:ハンバーガー
セットメニュー,REC:セットメニュー,TEXT:ハンバーガ
ー／セットメニュー"> <PARAM name="recog" value="KEY:1,REC:サイドメニュ
ー,TEXT:サイドメニュー"> <PARAM name="recog" value="KEY:2,REC:ドリンクデザ
ートメニュー,REC:ドリンクメニュー,REC:デザートメニ
ュー,TEXT:ドリンク／デザートメニュー"> </OBJECT> 音声認識(VOICERECOG)情報の定義方法を説明する。フォ
ーマットは、 <OBJECT classid="VOICERECOG" width="幅" height="高
さ"> のようになる。width="幅"で、オブジェクトの幅を指定
する。"幅"は、常に"１"を指定する。省略はできない。
height="高さ"で、オブジェクトの高さを指定する。="
高さ"は、常に"１"を指定する。省略はできない。幅と
高さに"１"以上の値を指定することも可能であるが、無
駄な空白がレイアウトされてしまうので、必ず"１"を指
定する。幅と高さに"0"を指定すると、音声認識モジュ
ールは起動されない。次の例 <OBJECT classid="VOICERECOG" width="１" height="
１"> では、１×１の表示サイズを持つ音声認識情報が定義さ
れる。

【００１７】音声認識モジュールが起動されるのは、音
声認識情報の幅と高さで指定した領域が、画面に表示さ
れているときだけである。同一ページ内に音声認識情報
を複数定義しても、それぞれが同時に画面内に表示され
なければ、音声認識モジュールは正常に動作する。同時
に複数の音声認識情報が画面に表示されるようにページ
を記述すると、最後に表示された音声認識情報を使用し
て音声認識モジュールが動作する。

【００１８】音声認識(guide)説明文の追加方法を説明
する。フォーマットは、 <PARAM name="guide" value="TEXT:表示文字,ADPCM:ADP
CMファイル名,VOICE:テキスト合成音声,MONEY:金額"> のようになる。

【００１９】value="説明文の定義"で、説明文を定義す
る。valueの各エントリの区切りには，","文字を使用す
る。","文字から次のエントリの開始まで、半角スペー
ス、タブ、改行コードを任意に挿入できる。TEXT:表示
文字で、説明文の表示文字を定義する。表示文字の定義
を省略した場合は、デフォルトの表示文字列とし
て、「"音声認識を開始します。"」が使用される。複数
表示文字が定義された場合は、後に定義されたものが有
効となる。ADPCM:ADPCMファイル名で、ADPCM音声をファ
イル名で定義する。VOICE:テキスト合成音声で、テキス
ト合成音声を全角カナ文字で定義する。MONEY:金額
で、"0"〜"9"の数字を使用して、金額を定義する。例え
ば、"400"は、「ヨンヒャク」と発声される。"guide"エ
ントリは省略可能である。省略した場合は、次に示すデ
フォルトの音声認識処理の説明文 <PARAM name="guide" value="TEXT:音声認識を開始しま
す。VOICE:オンセイニンシキヲカイシシマス"> が使用される。"guide"エントリが複数定義された場合
は、後に定義されたものが有効となる。ADPCM:とVOICE:
は複数定義でき、定義順に再生される。"guide"エント
リ内に最低一つは、"ADPCM:ADPCMファイル名"、もしく
は"VOICE:テキスト合成音声"を定義する必要がある。

【００２０】次の例 <PARAM name="guide" value="TEXT:当店へようこそ。メ
ニューから希望の商品と数量を選択してください。ADPC
M:MAC_WELCOM,ADPCM:MAC_ORDER"> では、表示文字列として、「当店へようこそ。メニュー
から希望の商品と数量を選択してください。」が表示さ
れ、ADPCMファイルが、"MAC_WELCOM"、"MAC_ORDER"の順
で再生される。

【００２１】音声認識(recog)単語を登録する方法を説
明する。フォーマットは、 <PARAM name="recog" value="KEY:アクセスキー,REC:認
識文字,TEXT:表示文字"> のようになる。

【００２２】value="認識単語の定義"で、認識単語を定
義する。valueの各エントリの区切りには、","文字を使
用する。","文字から次のエントリの開始まで、半角ス
ペース、タブ、改行コードを任意に挿入できる。KEY:ア
クセスキーで、認識単語が一致したときに反応するアク
セスキーを定義する。省略不可である。REC:認識文字
で、認識文字を全角カナ文字で定義する。"recog"エン
トリ内に複数定義可能である。省略不可である。TEXT:
表示文字で、表示文字を定義する。省略した場合は、認
識単語の説明文は表示されない。複数定義した場合は、
後に定義された表示文字が使用される。「ハンバーガー
イッコ」〜「ハンバーガージュッコ」など、あまりにも
認識単語が増える場合は、例１〜３の様に、「ハンバー
ガー」という基本単語の表示文字だけを定義すればよ
い。"recog"エントリは、複数定義可能である。実装系
によって、"recog"エントリの最大数は異なる。同一の
認識文字を複数のアクセスキーに対応付けする様な定義
を行った場合、動作は保証されない。

【００２３】例１ <PARAM name="recog" value="KEY:2,REC:ハンバーガー,
TEXT:ハンバーガー"> では、説明文として、「ハンバーガー」が表示され、
「ハンバーガー」が認識されると、アクセスキー"２"に
対応したアイテムが反応する。

【００２４】例２ <PARAM name="recog" value="KEY:101,REC:ハンバーガ
ーイッコ"> <PARAM name="recog" value="KEY:101,REC:ハンバーガ
ーヒトツ"> では、説明文は表示されず、「ハンバーガーイッコ」、
「ハンバーガーヒトツ」が認識されると、アクセスキ
ー"101"に対応したアイテムが反応する。

【００２５】例３ <PARAM name="recog" value="KEY:101,REC:ハンバーガ
ーイッコ,REC:ハンバーガーヒトツ"> では、例２と同様の動作を行う。ＨＴＭＬのサイズを小
さくしたい時は、このように記述するとよい。

【００２６】音声合成(VOCECOMPOSE)情報の定義方法を
説明する。フォーマットは、 <OBJECT classid="VOICECOMPOSE" width="幅" height="
高さ"> のようになる。

【００２７】width="幅"で、オブジェクトの幅を指定す
る。"1"を指定する。省略不可である。height="高さ"
で、オブジェクトの高さを指定する。"1"を指定する。
省略不可である。幅と高さに"1"以上の値を指定するこ
とも可能であるが、無駄な空白がレイアウトされてしま
うだけである。必ず"1"を指定する。幅と高さに"0"を指
定すると、音声合成モジュールは起動されない。音声合
成モジュールが起動されるのは、音声合成情報の幅と高
さで指定した領域が画面に表示されているときだけであ
る。同一ページ内に音声合成情報を複数定義しても、そ
れぞれが同時に画面内に表示されなければ、音声合成モ
ジュールは正常に動作する。

【００２８】次の例 <OBJECT classid="VOICECOMPOSE" width="1" height="
1"> では、１×１の表示サイズを持つ音声合成情報が定義さ
れる。

【００２９】音声合成(guide)の定義方法を説明する。
フォーマットは、 <PARAM name="guide" value="TEXT:表示文字,ADPCM:ADP
CMファイル名,VOICE:テキスト合成音声,MONEY:金額"> のようになる。

【００３０】value="合成音声の定義"で、合成音声を定
義する。valueの各エントリの区切りには、","文字を使
用する。","文字から次のエントリの開始まで、半角ス
ペース、タブ、改行コードを任意に挿入できる。TEXT:
表示文字で、合成音声の表示文字を定義する。"TEXT:表
示文字"は、省略可能である。省略した場合、合成音声
の説明文は表示されない。複数の"TEXT:表示文字"が定
義された場合は、後に定義されたものが有効となる。AD
PCM:ADPCMファイル名で、ADPCM音声をファイル名で定義
する。VOICE:テキスト合成音声で、テキスト合成音声を
全角カナ文字で定義する。MONEY:金額で、"0"〜"9"の数
字を使用して、金額を定義する。例えば、"400"は、
「ヨンヒャク」と発声される。

【００３１】"guide"エントリは、省略不可である。"gu
ide"エントリが複数定義された場合は、後に定義された
ものが有効となる。ADPCM:とVOICE:は、複数定義でき、
定義順に再生される。"guide"エントリ内に最低一つ
は、"ADPCM:ADPCMファイル名"、もしくは"VOICE:テキス
ト合成音声"を定義する必要がある。

【００３２】次の例 <PARAM name="guide" value="TEXT:当店へようこそ。メ
ニューから希望の商品と数量を選択してください。ADPC
M:MAC_WELCOM,ADPCM:MAC_ORDER"> では、表示文字列として、「当店へようこそ。メニュー
から希望の商品と数量を選択してください。」が表示さ
れ、ADPCMファイルが、"MAC_WELCOM"、"MAC_ORDER"の順
で再生される。

【００３３】"アクセスキー"の通知によって反応するア
イテムの定義方法を説明する。フォーマットは、access
key="アクセスキー"である。

【００３４】"アクセスキー"には、"a"〜"z"、"A"〜"
Z"、"0"〜"9"の英数字キーに加え、"10"〜"255"の数字
を割り当てることができる。アクセスキーは、画面に表
示されたアイテムにのみ通知される。アクセスキーが定
義されていても、画面に表示されていなければ、アクセ
スキーの通知に反応できない。

【００３５】次の例 <FONT size="+1"><A href="#burger1" accesskey="0">
ハンバーガー／セットメニュー</A></FONT> では、アクセスキー"０"が反応すると、"#burger1"にペ
ージ内ジャンプする。

【００３６】次の例 <SELECT name="quantity_burger1" size="1" accesskey
="2"> <OPTION accesskey="100" value="0">0 <OPTION accesskey="101" value="1">1 <OPTION accesskey="102" value="2">2 <OPTION accesskey="103" value="3">3 <OPTION accesskey="104" value="4">4 <OPTION accesskey="105" value="5">5 <OPTION accesskey="106" value="6">6 <OPTION accesskey="107" value="7">7 <OPTION accesskey="108" value="8">8 <OPTION accesskey="109" value="9">9 <OPTION accesskey="110" value="10">10 </SELECT> では、アクセスキー"２"が反応すると、セレクトアイテ
ム"quantity_burger1"がプルダウン表示される。アクセ
スキー"100"〜"110"が反応すると、0〜10のセレクトア
イテムがプルダウン表示されずに選択される。

【００３７】このようにすることにより、クライアント
側の音声認識合成システムを変える必要がなく、センタ
側のコンテンツを変更することにより、サービスに応じ
たユーザの音声操作が可能となる。カタカナ文字からの
音声合成ならびにＡＤＰＣＭファイルの再生も可能であ
る。インターネットの標準言語であるＨＴＭＬを有効に
活用して、サービスごとの開発費用の削減と、開発効率
の向上が実現できる。サービスの拡張が容易にでき、サ
ービスの多様化に対応できる。

【００３８】上記のように、本発明の実施の形態では、
自動音声認識／合成ブラウザシステムを、センタシステ
ムで、サービスに合わせたＨＴＭＬ文と音声認識データ
と音声合成データを生成し、カーナビゲーション装置や
パソコンやＰＤＡなどのクライアントシステムで、受信
したＨＴＭＬ文と音声認識データと音声合成データを使
って音声入出力を行ない、ユーザの音声操作を可能とす
る構成としたので、クライアント側のシステムを変える
ことなく、ユーザの音声操作を可能とし、センタ側のコ
ンテンツを可変にすることにより、サービスの多様化に
対応できる。

【００３９】

【発明の効果】以上の説明から明らかなように、本発明
の自動音声認識／合成ブラうざシステムでは、センタ装
置とクライアント装置と通信ネットワークとからなる自
動音声認識／合成ブラウザシステムのセンタ装置に、セ
ンタが提供するサービスを実行するサーバ装置と、サー
ビスに対応したＨＴＭＬ文を生成するＨＴＭＬ文生成手
段と、ＨＴＭＬ文を解析するＨＴＭＬ文解析手段と、Ｈ
ＴＭＬ文の解析結果に応じて音声認識データを生成する
音声認識データ生成手段と、ＨＴＭＬ文の解析結果に応
じて音声合成データを生成する音声合成データ生成手段
と、ＨＴＭＬ文と音声認識データと音声合成データとを
通信ネットワークを介してクライアント装置に送信する
センタ側通信手段とを設け、クライアント装置に、ＨＴ
ＭＬ文と音声認識データと音声合成データとをセンタ装
置から通信ネットワークを介して受信するクライアント
側通信手段と、ＨＴＭＬ文を処理して表示するＨＴＭＬ
文表示手段と、ＨＴＭＬ文と音声認識データとに基づい
て音声認識処理を行なう音声認識手段と、ＨＴＭＬ文と
音声合成データとに基づいて音声合成処理を行なう音声
合成手段と、音声認識処理の結果に基づいて入力操作を
行なうユーザ操作手段とを設けた構成としたので、セン
タのサービス種別を利用者が意識することなく、サービ
スに対応した音声操作が極めて簡単にできるという効果
が得られる。

【図面の簡単な説明】

【図１】本発明の実施の形態における自動音声認識／合
成ブラウザシステムの機能ブロック図、

【図２】本発明の実施の形態における画面例、

【図３】従来の音声／合成ブラウザシステムの機能ブロ
ック図である。

【符号の説明】

１センタサーバ２ＨＴＭＬ生成処理部３ＨＴＭＬ解析処理部４音声認識データ生成処理部５音声合成データ生成処理部６センタ側通信装置７通信ネットワーク８クライアント側通信装置９ＨＴＭＬ表示処理部 10 音声認識処理部 11 音声合成処理部 12 ユーザ操作部

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28 Ｇ１０Ｌ 3/00 ５５１Ａ 15/22 ５５１Ｐ５６１Ｃ

Claims

【特許請求の範囲】

【請求項１】センタ装置とクライアント装置と通信ネ
ットワークとからなる自動音声認識／合成ブラウザシス
テムにおいて、前記センタ装置に、センタが提供するサ
ービスを実行するサーバ装置と、前記サービスに対応し
たＨＴＭＬ文を生成するＨＴＭＬ文生成手段と、前記Ｈ
ＴＭＬ文を解析するＨＴＭＬ文解析手段と、前記ＨＴＭ
Ｌ文の解析結果に応じて音声認識データを生成する音声
認識データ生成手段と、前記ＨＴＭＬ文の解析結果に応
じて音声合成データを生成する音声合成データ生成手段
と、前記ＨＴＭＬ文と前記音声認識データと前記音声合
成データとを前記通信ネットワークを介して前記クライ
アント装置に送信するセンタ側通信手段とを設け、前記
クライアント装置に、前記ＨＴＭＬ文と前記音声認識デ
ータと前記音声合成データとを前記センタ装置から前記
通信ネットワークを介して受信するクライアント側通信
手段と、前記ＨＴＭＬ文を処理して表示するＨＴＭＬ文
表示手段と、前記ＨＴＭＬ文と前記音声認識データとに
基づいて音声認識処理を行なう音声認識手段と、前記Ｈ
ＴＭＬ文と前記音声合成データとに基づいて音声合成処
理を行なう音声合成手段と、前記音声認識処理の結果に
基づいて入力操作を行なうユーザ操作手段とを設けたこ
とを特徴とする自動音声認識／合成ブラウザシステム。
【請求項２】前記ＨＴＭＬ文生成手段に、前記ＨＴＭ
Ｌ文の中で新規なデータ構造を定義する手段を設けたこ
とを特徴とする請求項１記載の自動音声認識／合成ブラ
ウザシステム。
【請求項３】前記音声認識データ生成手段に、前記音
声認識データを動的に変更する手段を設け、前記音声合
成データ生成手段に、前記音声合成データを動的に変更
する手段を設けたことを特徴とする請求項１記載の自動
音声認識／合成ブラウザシステム。
【請求項４】前記ＨＴＭＬ文生成手段に、ＨＴＭＬの
標準タグのみを用いてＨＴＭＬ文を生成する手段を設け
たことを特徴とする請求項１記載の自動音声認識／合成
ブラウザシステム。
【請求項５】前記ユーザ操作手段に、前記音声認識の
結果に基づいてキー押下操作を実行する手段を設けたこ
とを特徴とする請求項１記載の自動音声認識／合成ブラ
ウザシステム。
【請求項６】前記センタ側通信手段に、ＡＤＰＣＭフ
ァイルを送信する手段を設け、前記クライアント側通信
手段に、前記ＡＤＰＣＭファイルを受信する手段を設
け、前記音声合成手段に、前記ＡＤＰＣＭファイルを再
生する手段を設けたことを特徴とする請求項１記載の自
動音声認識／合成ブラウザシステム。