JP2001255881A - 自動音声認識/合成ブラウザシステム - Google Patents

自動音声認識/合成ブラウザシステム

Info

Publication number
JP2001255881A
JP2001255881A JP2000068992A JP2000068992A JP2001255881A JP 2001255881 A JP2001255881 A JP 2001255881A JP 2000068992 A JP2000068992 A JP 2000068992A JP 2000068992 A JP2000068992 A JP 2000068992A JP 2001255881 A JP2001255881 A JP 2001255881A
Authority
JP
Japan
Prior art keywords
synthesis
speech recognition
data
speech
html
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000068992A
Other languages
English (en)
Inventor
雄一 ▲高▼▲柳▼
Yuichi Takayanagi
Kashu Uno
嘉修 宇野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000068992A priority Critical patent/JP2001255881A/ja
Publication of JP2001255881A publication Critical patent/JP2001255881A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 【課題】 センタ側のサービスに合わせてクライアント
システムを変えることなく、音声認識・音声合成による
音声操作を可能とする。 【解決手段】 センタサーバ1の指示で、サービス提供
内容に合わせたHTML文を、HTML生成処理部2で
生成する。HTML解析処理部3で、HTMLのデータ
解析を行ない、音声認識データ生成部4と音声合成デー
タ生成部5で、サービスに合わせた音声認識データと音
声合成データを生成する。カーナビゲーション装置やパ
ソコンやPDAなどのクライアントシステムのHTML
表示処理部8で、受信したHTMLデータの解釈を行な
う。ユーザ操作部12で、音声認識データと音声合成デー
タを使って音声入出力を行ない、ユーザの音声操作を可
能とする。クライアントシステムを変えることなく、セ
ンタのサービスの拡張ができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自動音声認識/合
成ブラウザシステムに関し、特に、ブラウザ搭載システ
ムにおいて任意の用語を音声認識・合成できる自動音声
認識/合成ブラウザシステムに関する。
【0002】
【従来の技術】従来のブラウザ搭載システムでは、音声
認識合成辞書や語彙集を格納しておき、それらの辞書や
語彙集に合わせて、音声認識合成を行なっている。新た
な辞書の作成時や語彙集の作成時には、ブラウザ搭載シ
ステム内の音声合成用ROMや辞書格納補助記憶装置の
メディアを更新している。
【0003】このようなシステムの従来例として、特開
平11-249867号公報に開示されている「音声ブラウザシ
ステム」がある。このシステムは、図3に示すように、
視覚障害者であってもWWW情報を取得することが可能
なシステムである。このシステムでは、ユーザの音声に
よる要求を入力すると、サーバで音声入力による要求を
音声認識する。クライアントは、サーバから取得したU
RLに基づいて、サーバにHTMLファイルを要求す
る。サーバは、クライアントから指定されたURLに対
して、要求をインターネットに送信する。インターネッ
トから取得した応答から音読テキストを抽出し、音声デ
ータに変換して音声合成する。生成された音声データを
クライアントに送信し、クライアント側で音声データを
出力する。
【0004】また、インターネットが普及している今日
では、様々なサービスが、センタ側で整備されてきてい
る。例えば、タクシーサービスにおける音声認識データ
/音声合成データ群がある。水道やマンホールの整備を
するサービスにおける音声認識データ群及び音声データ
群がある。
【0005】
【発明が解決しようとする課題】しかし、上記従来のブ
ラウザ搭載システムでは、センタ側のサービスの多様化
に合わせて、クライアント側の音声認識や音声合成のシ
ステムを変更しなければならないという問題がある。
【0006】本発明は、上記従来の問題を解決して、セ
ンタ側のサービスに合わせてクライアントシステムを変
えることなく、音声認識・音声合成による音声操作を可
能とする自動音声認識/合成ブラウザシステムを提供す
ることを目的とする。
【0007】
【課題を解決するための手段】上記の課題を解決するた
めに、本発明では、センタ装置とクライアント装置と通
信ネットワークとからなる自動音声認識/合成ブラウザ
システムのセンタ装置に、センタが提供するサービスを
実行するサーバ装置と、サービスに対応したHTML文
を生成するHTML文生成手段と、HTML文を解析す
るHTML文解析手段と、HTML文の解析結果に応じ
て音声認識データを生成する音声認識データ生成手段
と、HTML文の解析結果に応じて音声合成データを生
成する音声合成データ生成手段と、HTML文と音声認
識データと音声合成データとを通信ネットワークを介し
てクライアント装置に送信するセンタ側通信手段とを設
け、クライアント装置に、HTML文と音声認識データ
と音声合成データとをセンタ装置から通信ネットワーク
を介して受信するクライアント側通信手段と、HTML
文を処理して表示するHTML文表示手段と、HTML
文と音声認識データとに基づいて音声認識処理を行なう
音声認識手段と、HTML文と音声合成データとに基づ
いて音声合成処理を行なう音声合成手段と、音声認識処
理の結果に基づいて入力操作を行なうユーザ操作手段と
を設けた構成とした。このように構成したことにより、
センタのサービスの種別を利用者が意識することなく、
センタから送られた画面上で音声操作ができる。
【0008】また、音声認識データ生成手段に、音声認
識データを動的に変更する手段を設け、音声合成データ
生成手段に、音声合成データを動的に変更する手段を設
けたので、クライアント側のパソコンやカーナビゲーシ
ョンの音声辞書・音声合成語彙ファイルを修正する必要
がなく、全てのサービスに対して同じクライアントシス
テムを用いることができる。
【0009】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図1と図2を参照しながら詳細に説明する。
【0010】(実施の形態)本発明の実施の形態は、セ
ンタ装置で、サービスに合わせたHTML文と音声認識
データと音声合成データを生成し、カーナビゲーション
装置やパソコンやPDAなどのクライアント装置で、受
信したHTML文と音声認識データと音声合成データを
使って音声入出力を行ない、ユーザの音声操作を可能と
する自動音声認識/合成ブラウザシステムである。
【0011】図1は、本発明の実施の形態における自動
音声認識/合成ブラウザシステムの機能ブロック図であ
る。図1において、センタサーバ1は、駐車場管理セン
タやドライブスルー店舗などにおける様々なサービスを
行なう情報処理装置である。HTML生成処理部2は、
HTMLのデータ生成を行なう処理部である。HTML
解析処理部3は、HTMLのデータ解析を行なう処理部
である。音声認識データ生成処理部4は、音声認識用の
データ生成を行なう処理部である。音声合成データ生成
処理部5は、音声合成用のデータ生成を行なう処理部で
ある。センタ側通信装置6は、センタと通信ネットワー
クを結ぶ通信手段である。通信ネットワーク7は、公衆
電話回線やインターネットなどの通信回線である。クラ
イアント側通信装置8は、パソコンやカーナビゲーショ
ンやPDAなどのクライアントシステムでHTMLデー
タを受信する通信手段である。HTML表示処理部9
は、HTML文を解釈して表示する処理部である。音声
認識処理部10は、ユーザの音声を認識する手段である。
音声合成処理部11は、HTML文の音声合成データを音
声にして出力する手段である。ユーザ操作部12は、ユー
ザが音声で装置の操作を行なう手段である。
【0012】図2は、自動音声認識/合成ブラウザの画
面イメージを示す図である。
【0013】上記のように構成された本発明の実施の形
態における自動音声認識/合成ブラウザシステムの動作
を説明する。図1に示すように、センタサーバ1が、サ
ービス提供内容に合わせたHTML文を生成するよう
に、HTML生成処理部2に指示する。HTML生成処
理部2は、その指示に基づいてHTML文を生成する。
HTML解析処理部3は、生成されたHTML文のデー
タ解析を行なう。音声認識データ生成処理部4は、HT
ML文の解析結果に基づいて、音声認識用のデータ生成
を行なう。音声合成データ生成処理部5は、HTML文
の解析結果に基づいて、音声合成用のデータ生成を行な
う。センタ側通信装置6は、通信ネットワーク7を介し
てHTML文と音声認識データと音声合成データをクラ
イアントシステムに送信する。
【0014】車載ナビゲーションシステムやパソコンな
どのクライアントシステムの通信装置8は、センタから
のHTML文と音声認識データと音声合成データを受信
する。HTML表示処理部9は、受信したHTML文を
解釈して表示を行なう。音声認識処理部10は、受信した
HTML文と音声認識データに基づき、ユーザの音声を
認識する。音声合成処理部11は、受信したHTML文と
音声合成データに基づき、音声合成を行なう。ユーザ操
作部8は、音声認識結果に基づいて、操作入力処理を行
なう。
【0015】図2を参照して、ハンバーガーショップで
の注文システムを例にして、動作の流れを説明する。こ
の画面が表示されたとき、ユーザは、「ハンバーガー/
セットメニュー」か、「サイドメニュー」か、「ドリン
ク/デザート」のいずれかを発声する。音声認識される
と、それに対応したページにジャンプする。「サイドメ
ニュー」選択時には、そのページに移行し、「ドリンク
/デザート」選択時は、そのページに移行する。この画
面において、「ハンバーガーイッコ」と発声することに
より、ハンバーガーの個数のエリアに1が入力される。
「オーダーの確認」と発声することにより、オーダーが
終了する。
【0016】音声認識/合成情報の記述例を示すと、次
のようになる。 <OBJECT classid="VOICERECOG" width="1" height="1"> <PARAM name="guide" value="TEXT:当店へようこそ。メ
ニューから希望の商品と数量を選択してください。,AD
PCM:MAC_WELCOM,ADPCM:MAC_ORDER"> <PARAM name="recog" value="KEY:0,REC:ハンバーガー
セットメニュー,REC:セットメニュー,TEXT:ハンバーガ
ー/セットメニュー"> <PARAM name="recog" value="KEY:1,REC:サイドメニュ
ー,TEXT:サイドメニュー"> <PARAM name="recog" value="KEY:2,REC:ドリンクデザ
ートメニュー,REC:ドリンクメニュー,REC:デザートメニ
ュー,TEXT:ドリンク/デザートメニュー"> </OBJECT> 音声認識(VOICERECOG)情報の定義方法を説明する。フォ
ーマットは、 <OBJECT classid="VOICERECOG" width="幅" height="高
さ"> のようになる。width="幅"で、オブジェクトの幅を指定
する。"幅"は、常に"1"を指定する。省略はできない。
height="高さ"で、オブジェクトの高さを指定する。="
高さ"は、常に"1"を指定する。省略はできない。幅と
高さに"1"以上の値を指定することも可能であるが、無
駄な空白がレイアウトされてしまうので、必ず"1"を指
定する。幅と高さに"0"を指定すると、音声認識モジュ
ールは起動されない。次の例 <OBJECT classid="VOICERECOG" width="1" height="
1"> では、1×1の表示サイズを持つ音声認識情報が定義さ
れる。
【0017】音声認識モジュールが起動されるのは、音
声認識情報の幅と高さで指定した領域が、画面に表示さ
れているときだけである。同一ページ内に音声認識情報
を複数定義しても、それぞれが同時に画面内に表示され
なければ、音声認識モジュールは正常に動作する。同時
に複数の音声認識情報が画面に表示されるようにページ
を記述すると、最後に表示された音声認識情報を使用し
て音声認識モジュールが動作する。
【0018】音声認識(guide)説明文の追加方法を説明
する。フォーマットは、 <PARAM name="guide" value="TEXT:表示文字,ADPCM:ADP
CMファイル名,VOICE:テキスト合成音声,MONEY:金額"> のようになる。
【0019】value="説明文の定義"で、説明文を定義す
る。valueの各エントリの区切りには,","文字を使用す
る。","文字から次のエントリの開始まで、半角スペー
ス、タブ、改行コードを任意に挿入できる。TEXT:表示
文字で、説明文の表示文字を定義する。表示文字の定義
を省略した場合は、デフォルトの表示文字列とし
て、「"音声認識を開始します。"」が使用される。複数
表示文字が定義された場合は、後に定義されたものが有
効となる。ADPCM:ADPCMファイル名で、ADPCM音声をファ
イル名で定義する。VOICE:テキスト合成音声で、テキス
ト合成音声を全角カナ文字で定義する。MONEY:金額
で、"0"〜"9"の数字を使用して、金額を定義する。例え
ば、"400"は、「ヨンヒャク」と発声される。"guide"エ
ントリは省略可能である。省略した場合は、次に示すデ
フォルトの音声認識処理の説明文 <PARAM name="guide" value="TEXT:音声認識を開始しま
す。VOICE:オンセイニンシキヲカイシシマス"> が使用される。"guide"エントリが複数定義された場合
は、後に定義されたものが有効となる。ADPCM:とVOICE:
は複数定義でき、定義順に再生される。"guide"エント
リ内に最低一つは、"ADPCM:ADPCMファイル名"、もしく
は"VOICE:テキスト合成音声"を定義する必要がある。
【0020】次の例 <PARAM name="guide" value="TEXT:当店へようこそ。メ
ニューから希望の商品と数量を選択してください。ADPC
M:MAC_WELCOM,ADPCM:MAC_ORDER"> では、表示文字列として、「当店へようこそ。メニュー
から希望の商品と数量を選択してください。」が表示さ
れ、ADPCMファイルが、"MAC_WELCOM"、"MAC_ORDER"の順
で再生される。
【0021】音声認識(recog)単語を登録する方法を説
明する。フォーマットは、 <PARAM name="recog" value="KEY:アクセスキー,REC:認
識文字,TEXT:表示文字"> のようになる。
【0022】value="認識単語の定義"で、認識単語を定
義する。valueの各エントリの区切りには、","文字を使
用する。","文字から次のエントリの開始まで、半角ス
ペース、タブ、改行コードを任意に挿入できる。KEY:ア
クセスキーで、認識単語が一致したときに反応するアク
セスキーを定義する。省略不可である。REC:認識文字
で、認識文字を全角カナ文字で定義する。"recog"エン
トリ内に複数定義可能である。省略不可である。TEXT:
表示文字で、表示文字を定義する。省略した場合は、認
識単語の説明文は表示されない。複数定義した場合は、
後に定義された表示文字が使用される。「ハンバーガー
イッコ」〜「ハンバーガージュッコ」など、あまりにも
認識単語が増える場合は、例1〜3の様に、「ハンバー
ガー」という基本単語の表示文字だけを定義すればよ
い。"recog"エントリは、複数定義可能である。実装系
によって、"recog"エントリの最大数は異なる。同一の
認識文字を複数のアクセスキーに対応付けする様な定義
を行った場合、動作は保証されない。
【0023】例1 <PARAM name="recog" value="KEY:2,REC:ハンバーガー,
TEXT:ハンバーガー"> では、説明文として、「ハンバーガー」が表示され、
「ハンバーガー」が認識されると、アクセスキー"2"に
対応したアイテムが反応する。
【0024】例2 <PARAM name="recog" value="KEY:101,REC:ハンバーガ
ーイッコ"> <PARAM name="recog" value="KEY:101,REC:ハンバーガ
ーヒトツ"> では、説明文は表示されず、「ハンバーガーイッコ」、
「ハンバーガーヒトツ」が認識されると、アクセスキ
ー"101"に対応したアイテムが反応する。
【0025】例3 <PARAM name="recog" value="KEY:101,REC:ハンバーガ
ーイッコ,REC:ハンバーガーヒトツ"> では、例2と同様の動作を行う。HTMLのサイズを小
さくしたい時は、このように記述するとよい。
【0026】音声合成(VOCECOMPOSE)情報の定義方法を
説明する。フォーマットは、 <OBJECT classid="VOICECOMPOSE" width="幅" height="
高さ"> のようになる。
【0027】width="幅"で、オブジェクトの幅を指定す
る。"1"を指定する。省略不可である。height="高さ"
で、オブジェクトの高さを指定する。"1"を指定する。
省略不可である。幅と高さに"1"以上の値を指定するこ
とも可能であるが、無駄な空白がレイアウトされてしま
うだけである。必ず"1"を指定する。幅と高さに"0"を指
定すると、音声合成モジュールは起動されない。音声合
成モジュールが起動されるのは、音声合成情報の幅と高
さで指定した領域が画面に表示されているときだけであ
る。同一ページ内に音声合成情報を複数定義しても、そ
れぞれが同時に画面内に表示されなければ、音声合成モ
ジュールは正常に動作する。
【0028】次の例 <OBJECT classid="VOICECOMPOSE" width="1" height="
1"> では、1×1の表示サイズを持つ音声合成情報が定義さ
れる。
【0029】音声合成(guide)の定義方法を説明する。
フォーマットは、 <PARAM name="guide" value="TEXT:表示文字,ADPCM:ADP
CMファイル名,VOICE:テキスト合成音声,MONEY:金額"> のようになる。
【0030】value="合成音声の定義"で、合成音声を定
義する。valueの各エントリの区切りには、","文字を使
用する。","文字から次のエントリの開始まで、半角ス
ペース、タブ、改行コードを任意に挿入できる。TEXT:
表示文字で、合成音声の表示文字を定義する。"TEXT:表
示文字"は、省略可能である。省略した場合、合成音声
の説明文は表示されない。複数の"TEXT:表示文字"が定
義された場合は、後に定義されたものが有効となる。AD
PCM:ADPCMファイル名で、ADPCM音声をファイル名で定義
する。VOICE:テキスト合成音声で、テキスト合成音声を
全角カナ文字で定義する。MONEY:金額で、"0"〜"9"の数
字を使用して、金額を定義する。例えば、"400"は、
「ヨンヒャク」と発声される。
【0031】"guide"エントリは、省略不可である。"gu
ide"エントリが複数定義された場合は、後に定義された
ものが有効となる。ADPCM:とVOICE:は、複数定義でき、
定義順に再生される。"guide"エントリ内に最低一つ
は、"ADPCM:ADPCMファイル名"、もしくは"VOICE:テキス
ト合成音声"を定義する必要がある。
【0032】次の例 <PARAM name="guide" value="TEXT:当店へようこそ。メ
ニューから希望の商品と数量を選択してください。ADPC
M:MAC_WELCOM,ADPCM:MAC_ORDER"> では、表示文字列として、「当店へようこそ。メニュー
から希望の商品と数量を選択してください。」が表示さ
れ、ADPCMファイルが、"MAC_WELCOM"、"MAC_ORDER"の順
で再生される。
【0033】"アクセスキー"の通知によって反応するア
イテムの定義方法を説明する。フォーマットは、access
key="アクセスキー"である。
【0034】"アクセスキー"には、"a"〜"z"、"A"〜"
Z"、"0"〜"9"の英数字キーに加え、"10"〜"255"の数字
を割り当てることができる。アクセスキーは、画面に表
示されたアイテムにのみ通知される。アクセスキーが定
義されていても、画面に表示されていなければ、アクセ
スキーの通知に反応できない。
【0035】次の例 <FONT size="+1"><A href="#burger1" accesskey="0">
ハンバーガー/セットメニュー</A></FONT> では、アクセスキー"0"が反応すると、"#burger1"にペ
ージ内ジャンプする。
【0036】次の例 <SELECT name="quantity_burger1" size="1" accesskey
="2"> <OPTION accesskey="100" value="0">0 <OPTION accesskey="101" value="1">1 <OPTION accesskey="102" value="2">2 <OPTION accesskey="103" value="3">3 <OPTION accesskey="104" value="4">4 <OPTION accesskey="105" value="5">5 <OPTION accesskey="106" value="6">6 <OPTION accesskey="107" value="7">7 <OPTION accesskey="108" value="8">8 <OPTION accesskey="109" value="9">9 <OPTION accesskey="110" value="10">10 </SELECT> では、アクセスキー"2"が反応すると、セレクトアイテ
ム"quantity_burger1"がプルダウン表示される。アクセ
スキー"100"〜"110"が反応すると、0〜10のセレクトア
イテムがプルダウン表示されずに選択される。
【0037】このようにすることにより、クライアント
側の音声認識合成システムを変える必要がなく、センタ
側のコンテンツを変更することにより、サービスに応じ
たユーザの音声操作が可能となる。カタカナ文字からの
音声合成ならびにADPCMファイルの再生も可能であ
る。インターネットの標準言語であるHTMLを有効に
活用して、サービスごとの開発費用の削減と、開発効率
の向上が実現できる。サービスの拡張が容易にでき、サ
ービスの多様化に対応できる。
【0038】上記のように、本発明の実施の形態では、
自動音声認識/合成ブラウザシステムを、センタシステ
ムで、サービスに合わせたHTML文と音声認識データ
と音声合成データを生成し、カーナビゲーション装置や
パソコンやPDAなどのクライアントシステムで、受信
したHTML文と音声認識データと音声合成データを使
って音声入出力を行ない、ユーザの音声操作を可能とす
る構成としたので、クライアント側のシステムを変える
ことなく、ユーザの音声操作を可能とし、センタ側のコ
ンテンツを可変にすることにより、サービスの多様化に
対応できる。
【0039】
【発明の効果】以上の説明から明らかなように、本発明
の自動音声認識/合成ブラうざシステムでは、センタ装
置とクライアント装置と通信ネットワークとからなる自
動音声認識/合成ブラウザシステムのセンタ装置に、セ
ンタが提供するサービスを実行するサーバ装置と、サー
ビスに対応したHTML文を生成するHTML文生成手
段と、HTML文を解析するHTML文解析手段と、H
TML文の解析結果に応じて音声認識データを生成する
音声認識データ生成手段と、HTML文の解析結果に応
じて音声合成データを生成する音声合成データ生成手段
と、HTML文と音声認識データと音声合成データとを
通信ネットワークを介してクライアント装置に送信する
センタ側通信手段とを設け、クライアント装置に、HT
ML文と音声認識データと音声合成データとをセンタ装
置から通信ネットワークを介して受信するクライアント
側通信手段と、HTML文を処理して表示するHTML
文表示手段と、HTML文と音声認識データとに基づい
て音声認識処理を行なう音声認識手段と、HTML文と
音声合成データとに基づいて音声合成処理を行なう音声
合成手段と、音声認識処理の結果に基づいて入力操作を
行なうユーザ操作手段とを設けた構成としたので、セン
タのサービス種別を利用者が意識することなく、サービ
スに対応した音声操作が極めて簡単にできるという効果
が得られる。
【図面の簡単な説明】
【図1】本発明の実施の形態における自動音声認識/合
成ブラウザシステムの機能ブロック図、
【図2】本発明の実施の形態における画面例、
【図3】従来の音声/合成ブラウザシステムの機能ブロ
ック図である。
【符号の説明】
1 センタサーバ 2 HTML生成処理部 3 HTML解析処理部 4 音声認識データ生成処理部 5 音声合成データ生成処理部 6 センタ側通信装置 7 通信ネットワーク 8 クライアント側通信装置 9 HTML表示処理部 10 音声認識処理部 11 音声合成処理部 12 ユーザ操作部
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 3/00 551A 15/22 551P 561C

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 センタ装置とクライアント装置と通信ネ
    ットワークとからなる自動音声認識/合成ブラウザシス
    テムにおいて、前記センタ装置に、センタが提供するサ
    ービスを実行するサーバ装置と、前記サービスに対応し
    たHTML文を生成するHTML文生成手段と、前記H
    TML文を解析するHTML文解析手段と、前記HTM
    L文の解析結果に応じて音声認識データを生成する音声
    認識データ生成手段と、前記HTML文の解析結果に応
    じて音声合成データを生成する音声合成データ生成手段
    と、前記HTML文と前記音声認識データと前記音声合
    成データとを前記通信ネットワークを介して前記クライ
    アント装置に送信するセンタ側通信手段とを設け、前記
    クライアント装置に、前記HTML文と前記音声認識デ
    ータと前記音声合成データとを前記センタ装置から前記
    通信ネットワークを介して受信するクライアント側通信
    手段と、前記HTML文を処理して表示するHTML文
    表示手段と、前記HTML文と前記音声認識データとに
    基づいて音声認識処理を行なう音声認識手段と、前記H
    TML文と前記音声合成データとに基づいて音声合成処
    理を行なう音声合成手段と、前記音声認識処理の結果に
    基づいて入力操作を行なうユーザ操作手段とを設けたこ
    とを特徴とする自動音声認識/合成ブラウザシステム。
  2. 【請求項2】 前記HTML文生成手段に、前記HTM
    L文の中で新規なデータ構造を定義する手段を設けたこ
    とを特徴とする請求項1記載の自動音声認識/合成ブラ
    ウザシステム。
  3. 【請求項3】 前記音声認識データ生成手段に、前記音
    声認識データを動的に変更する手段を設け、前記音声合
    成データ生成手段に、前記音声合成データを動的に変更
    する手段を設けたことを特徴とする請求項1記載の自動
    音声認識/合成ブラウザシステム。
  4. 【請求項4】 前記HTML文生成手段に、HTMLの
    標準タグのみを用いてHTML文を生成する手段を設け
    たことを特徴とする請求項1記載の自動音声認識/合成
    ブラウザシステム。
  5. 【請求項5】 前記ユーザ操作手段に、前記音声認識の
    結果に基づいてキー押下操作を実行する手段を設けたこ
    とを特徴とする請求項1記載の自動音声認識/合成ブラ
    ウザシステム。
  6. 【請求項6】 前記センタ側通信手段に、ADPCMフ
    ァイルを送信する手段を設け、前記クライアント側通信
    手段に、前記ADPCMファイルを受信する手段を設
    け、前記音声合成手段に、前記ADPCMファイルを再
    生する手段を設けたことを特徴とする請求項1記載の自
    動音声認識/合成ブラウザシステム。
JP2000068992A 2000-03-13 2000-03-13 自動音声認識/合成ブラウザシステム Withdrawn JP2001255881A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000068992A JP2001255881A (ja) 2000-03-13 2000-03-13 自動音声認識/合成ブラウザシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000068992A JP2001255881A (ja) 2000-03-13 2000-03-13 自動音声認識/合成ブラウザシステム

Publications (1)

Publication Number Publication Date
JP2001255881A true JP2001255881A (ja) 2001-09-21

Family

ID=18587959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000068992A Withdrawn JP2001255881A (ja) 2000-03-13 2000-03-13 自動音声認識/合成ブラウザシステム

Country Status (1)

Country Link
JP (1) JP2001255881A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001255885A (ja) * 2000-03-13 2001-09-21 Oki Electric Ind Co Ltd 音声ブラウザシステム
JP2003167598A (ja) * 2001-12-04 2003-06-13 Canon Inc 音声認識装置及びその方法、プログラム
JP2004523039A (ja) * 2001-02-02 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声xmlファイルを自動的に生成する方法およびシステム
WO2005106846A2 (en) * 2004-04-28 2005-11-10 Otodio Limited Conversion of a text document in text-to-speech data

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001255885A (ja) * 2000-03-13 2001-09-21 Oki Electric Ind Co Ltd 音声ブラウザシステム
JP2004523039A (ja) * 2001-02-02 2004-07-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声xmlファイルを自動的に生成する方法およびシステム
US7478048B2 (en) 2001-02-02 2009-01-13 International Business Machines Corporation Method and system for automatically creating voice XML file
JP2003167598A (ja) * 2001-12-04 2003-06-13 Canon Inc 音声認識装置及びその方法、プログラム
WO2005106846A2 (en) * 2004-04-28 2005-11-10 Otodio Limited Conversion of a text document in text-to-speech data
WO2005106846A3 (en) * 2004-04-28 2006-08-31 Otodio Ltd Conversion of a text document in text-to-speech data

Similar Documents

Publication Publication Date Title
US8781840B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
CN100570735C (zh) 调用内容管理指令的方法和系统
US8078397B1 (en) System, method, and computer program product for social networking utilizing a vehicular assembly
US6941273B1 (en) Telephony-data application interface apparatus and method for multi-modal access to data applications
US8473152B2 (en) System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly
US8131458B1 (en) System, method, and computer program product for instant messaging utilizing a vehicular assembly
US8849895B2 (en) Associating user selected content management directives with user selected ratings
JP2004310748A (ja) ユーザ入力に基づくデータの提示
JPH11110186A (ja) ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JP4787634B2 (ja) 音楽フォント出力装置、フォントデータベース及び言語入力フロントエンドプロセッサ
US20040246237A1 (en) Information access method, system and storage medium
KR20070119153A (ko) 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법
JP3714159B2 (ja) ブラウザ搭載装置
US20050086057A1 (en) Speech recognition apparatus and its method and program
JP2001255881A (ja) 自動音声認識/合成ブラウザシステム
JP4200874B2 (ja) 感性情報推定方法および文字アニメーション作成方法、これらの方法を用いたプログラム、記憶媒体、感性情報推定装置、文字アニメーション作成装置
JP2003150621A (ja) 対話ブラウジングシステム
US20020077814A1 (en) Voice recognition system method and apparatus
JPH10322478A (ja) 音声によるハイパーテキストアクセス装置
JP2005128955A (ja) 情報処理方法および記憶媒体、プログラム
KR20020015198A (ko) 인터넷을 이용한 증권 정보 및/또는 뉴스의 실시간 문자및/또는 음성 서비스 방법 및 시스템
JP2002099294A (ja) 情報処理装置
WO2002099786A1 (en) Method and device for multimodal interactive browsing
JP2005266009A (ja) データ変換プログラムおよびデータ変換装置
JP2001256142A (ja) 音声情報提供方法及び音声情報提供装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070206

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080929