JP2002169750A - ブラウザ搭載装置 - Google Patents

ブラウザ搭載装置

Info

Publication number
JP2002169750A
JP2002169750A JP2000365278A JP2000365278A JP2002169750A JP 2002169750 A JP2002169750 A JP 2002169750A JP 2000365278 A JP2000365278 A JP 2000365278A JP 2000365278 A JP2000365278 A JP 2000365278A JP 2002169750 A JP2002169750 A JP 2002169750A
Authority
JP
Japan
Prior art keywords
voice
browser
vocabulary
recognition
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000365278A
Other languages
English (en)
Other versions
JP3714159B2 (ja
Inventor
Shigeo Nakamura
茂雄 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000365278A priority Critical patent/JP3714159B2/ja
Publication of JP2002169750A publication Critical patent/JP2002169750A/ja
Application granted granted Critical
Publication of JP3714159B2 publication Critical patent/JP3714159B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 【課題】 表示画面を見ないでも操作可能なブラウザ搭
載装置を得る。 【解決手段】 ブラウザ51の指示で、通信手段52を
介して、ネットワーク58に接続し、インターネット上
のWebサーバにアクセスし、ダウンロードしたHTM
Lテキストを一旦記憶手段53に格納する。音声ブラウ
ザ1は、これを読取り、最適化された読み上げ文章を構
築後、音声合成手段2に転送し、音声出力手段3を通し
て、音声出力させる。他方、使用者が発した音声は、音
声入力手段5に取込まれる。取込まれた音声は、音声認
識手段4により音声認識される。認識結果が、音声ブラ
ウザ1に対する制御指示の候補として認められる場合に
は、音声認識手段4は音声ブラウザ1に対して割込みを
行い、併せて、認識された制御指示の候補を音声ブラウ
ザ1に伝達する

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ブラウザ搭載装置
に関し、特に、HTMLテキスト、あるいは、その応用
テキストを閲覧可能な「ブラウザ」を搭載した情報処理
機能を有するブラウザ搭載装置に関する。
【0002】
【従来の技術】従来、ブラウザ搭載装置は、例えば、イ
ンターネットへ適用される。ここでのインターネットと
は、コンピュータ間通信のネットワークであり、様々な
ネットワークが相互に接続し、大規模なネットワークと
なったものである。その歴史は、1960年代に米国国
防省の関連機関であるDARPA(Defense o
f Advanced Research Proje
cts Agency)が実験的に開始したARPAn
etに端を発する。
【0003】1980年代初め、一般利用者にARPA
netの利用を認めるに伴い、コンピュータのOSの一
つ:BSD UNIX(登録商標)で利用される通信プ
ロトコル:TCP/IP(Transmission
Control Protocol/Internet
Protocol)が、同ネットにも採用され、この
結果、同ネット接続時のコンピュータ機種依存性が排除
された。また、同時期、大学や研究機関を中心に、学術
的な利用を目的としたLAN(Local Area
Network)の構築が始まっており、研究者間での
情報交換を積極的に行うため、これらのLANは相互に
接続され、ARPAnetとも接続され、最終的には全
米に跨る大規模なネットワークへと発展した。この大規
模ネットワークこそがインターネットであり、その拡大
は現在も全世界の隅々に向けて進んでいる。
【0004】インターネット通信技術とは、インターネ
ット上の別のコンピュータと、インターネットを介し
て、通信を行う上で必要となる技術群を指し、単にハー
ドウェアに留まらず、広くインターネット・プロトコル
をも含む。
【0005】インターネット・プロトコルとは、インタ
ーネット上で通信を行うためのプロトコル(通信手順)
であり、上述のTCP/IPが最も基本的なプロトコル
である。これをベースとして、例えば、ファイル転送を
行う場合は、FTP(File Transfer P
rotocol:ファイル転送プロトコル)と呼ばれる
プロトコルを使用し、e−Mailを送信する場合は、
SMTP(Simple Mail Transfer
Protocol:簡易メール転送プロトコル)と呼
ばれるプロトコルを使用し、WWW(World Wi
de Web)サービスを提供するコンピュータを意味
する、Webサーバにアクセスする場合は、HTTP
(HyperText Transfer Proto
col:ハイパーテキスト転送プロトコル)と呼ばれる
プロトコルを使用する。
【0006】HTML(HyperText Mark
up Language:ハイパーテキスト記述言語)
とは、ハイパーテキストを記述するための言語体系であ
る。Webページには、ハイパーテキストが用いられる
が、今や世界のデジタル・コンテンツの99%が、イン
ターネットの世界標準であるHTMLで記述されている
ことから、最近では、インターネット接続が可能な装置
と言えば、単にインターネットに接続できるだけではな
く、インターネット上のWebサイトからHTTPプロ
トコルを用いてダウンロードしたHTMLテキストをハ
イパーテキストとして閲覧できる装置、即ち、「ブラウ
ザ」と呼ばれる閲覧ソフトを予め搭載した装置(或い
は、オプションとして別途搭載できる装置)を指すよう
に、その解釈が変わり始めてきている。
【0007】ブラウザを搭載したコンピュータの動作概
要を、図11に記す。コンピュータ50は、キーボード
55やマウス56等から構成される入力手段57、CR
Tや液晶ディスプレイ等の表示手段54、メモリや磁気
ディスク装置等の記憶手段53、及び、内蔵モデム等の
通信手段52を有し、ブラウザ51がこれらを制御す
る。ブラウザ51は、通信手段52を介して、ネットワ
ーク58に接続し、インターネット上のWebサーバに
アクセスする。WebサーバからダウンロードしたHT
MLテキストは、一旦記憶手段53に格納される。ブラ
ウザ51は、これを解析し、ハイパーテキストとして、
表示手段54に表示する。また、読みたいページのアド
レスを指定するためのURL(Uniform Res
ourceLocator)入力や、ハイパーテキスト
中に含まれるリンクやアイコンのクリック等は、入力手
段57を介して行う。
【0008】当初、インターネットに接続される装置は
コンピュータだけであったが、昨今では、携帯式の情報
端末に加えて、テレビやゲームマシン、更に携帯電話に
おいても、ブラウザの装備を含めて、インターネットへ
の接続機能を装備するものが現れた。
【0009】携帯電話が搭載するブラウザは、携帯電話
がパソコンと比較して処理能力やメモリ容量が乏しい。
例えば、最初のブラウザ対応携帯電話機に搭載されたロ
ーパワーSRAMは8Mbitsに過ぎず、カラー化が
実現された昨今でも最大16Mbitsに過ぎない。加
えて、表示能力、表示サイズ、操作方法等にも制限があ
ることから、携帯電話機用に性能を特化した「マイクロ
ブラウザ」が使用されている。本ブラウザを用いて、携
帯電話用に操作面での仕様拡張が行われた「コンパクト
HTML」を閲覧できる。
【0010】携帯電話からインターネットに接続する場
合、「携帯電話網」の中にインターネット接続を中継す
る機能があり、ここを経由して、インターネットへの接
続を行う。
【0011】具体的には、1999年2月22日、株式
会社NTTドコモが「iモードサービス」を開始した
が、これが、携帯電話からインターネットへの乗入れを
可能とした最初のサービスである。
【0012】なお、iモードサービスには、URLの直
接入力により、インターネット上のWebサイトへのア
クセスを実現する「インターネット接続サービス」以外
にも、e−Mail(呼称:iモードメール)、簡易メ
ール(呼称:ショートメール)等の受発信や転送機能を
司る「メール・サービス」、及び、簡単なボタン操作だ
けで、コンテンツ・プロバイダが提供する、以下のコン
テンツへのアクセスを実現する「オンライン・サービス
(別名:サイト接続サービス)」等がサポートされてい
る。
【0013】(1)銀行振込や航空券・ホテル・チケッ
ト予約等の取引系サービスを提供するコンテンツ。 (2)乗換え案内や字引等のデータベース系サービスを
提供するコンテンツ。 (3)ニュース・天気予報や株価情報等の生活情報系サ
ービスを提供するコンテンツ。 (4)FM局情報やゲーム・占い等のエンターテイメン
ト系サービスを提供するコンテンツ。
【0014】即ち、iモードサービスとは、上記サービ
スを提供するシステムが、インターネット上に直接構築
されている訳ではなく、図12に記すとおり、インター
ネット150とは異なる、NTTドコモ社独自のネット
ワークである「PDC(Personal Digit
al Cellular Telecommunica
tion System:デジタル移動通信方式)移動
パケット通信ネットワーク」(呼称:PDC−Pネット
ワーク)151上に、インターネットとの中継機能を有
する「iモードサーバ」101を配した形で、構築され
たシステムである。ここで、PDC−Pネットワーク1
51は、同社が「DoPa」/ドーパと命名したパケッ
ト通信サービスを行う目的で、予め構築していた全国パ
ケット通信網に過ぎない。しかし、PDC−Pネットワ
ーク151上でiモード通信を行う場合には、PDC−
Pネットワーク151上のデータ転送プロトコルとし
て、iモード通信に特化したインターネット・プロトコ
ルを採用し、データ転送の効率化に心掛けている。具体
的には、以下のとおりである(図13参照)。
【0015】(1)iモード携帯電話機100とPDC
−Pネットワーク151を接続するプロトコルとして、
ベアラ(データ転送プロトコルの最下位層に当たり、物
理層とデータリンク層を含む)の上位に、TLP(Tr
ansport LayerProtocol:トラン
スポート層プロトコル)を採用。TLPは、インターネ
ットプロトコルを簡略化して、iモード通信向けに最適
化したものである。
【0016】(2)PDC−Pネットワーク151とi
モードサーバ101との接続には、TCP/IPに加え
て、UITP(User Information T
ransfer Protocol:加入者情報伝達プ
ロトコル)とNWMP(Network Manage
ment Protocol:ネットワーク管理プロト
コル)の3プロトコルを採用。UITPとNWMPは、
TLPがインターネットプロトコルを簡略化したもので
あるために生じる不具合を補いつつ、しかも、課金制御
や保守機能を実現するなど、iモード通信向けに最適化
を施したものである。
【0017】(3)iモードサービスのアプリケーショ
ン通信プロトコルとして、ALP(Aplicatio
n Layer Protocol:アプリケーション
層プロトコル)を採用。これは、インターネット・プロ
トコルの世界標準であるHTTPを改良し、iモード通
信向けに最適化を施したものである。
【0018】なお、ALPは、通信フォーマットをHT
TPと同一にすることで、インターネットへの乗入れを
容易化している反面、iモードサービスに特有の機能の
実現と通信データ量の削減を図るため、以下の機能が付
加されている。
【0019】(a)サービス上は不要な「HTTPヘッ
ダ」を付与しない。この結果、データ量が削減される。 (b)e−Mailの送受信は、HTTPで行う。即
ち、e−Mailは、HTTPフォーマットに変換の
上、転送される。
【0020】(c)着信通知信号を付与している。この
結果、例えば、メールサーバ機能を併せ持つiモードサ
ーバ101に、加入者宛のe−Mailが届いた場合、
iモードサーバ101から加入者のiモード携帯電話機
100に着信通知信号が送付され、その旨が通知され
る。なお、iモード携帯電話機100からiモードサー
バ101へのサービス要求を「プル型」と呼ぶのに対
し、iモードサーバ101からiモード携帯電話機10
0へのサービス要求を「プッシュ型」と呼ぶ。
【0021】iモードサービスのシステム構成を理解す
ることで、インターネット通信技術が、インターネット
の世界に限らず、携帯電話網等の他のネットワークにも
広がり始めてきている事実を理解できる。これは、他の
ネットワークからインターネットへの乗入れを容易に実
現して、インターネット世界の内外に存在する、種々の
ネットワーク資産を利用するためである。
【0022】従来のiモード携帯電話機のブロック図
を、図14に記す。特開平11−112633号に記さ
れる、従来の携帯電話機のブロック図と同一の図である
が、iモード処理機能をPDC−P制御部73としてL
SI65の内部に含めた形で記述している。
【0023】即ち、iモード携帯電話機は、通常の携帯
電話機として使用するための機能として、受話器に相当
するマイク61とレシーバ60、操作部67、表示部6
8、無線部66、入出力音声をアナログ〜ディジタルの
双方向に変換可能なA/Dコンバータ62、各種固定デ
ータを記録するROM69、各種可変データを記録する
RAM70、及び、LSI65に内蔵され、携帯電話の
通常の通話機能を司るPDC制御部71とを有する。
【0024】次いで、iモードで使用するための機能と
して、iモード通信機能を司るPDC−P制御部73
を、LSI65に内蔵している。尚、iモードで使用す
る場合、マイク61とレシーバ60は使用しない。最近
の装置では、着メロ演奏機能が付加されたが、本機能
は、レシーバ60のみを流用する。
【0025】最後に、電話番号の音声入力、登録済電話
番号の別名による音声呼出し(「ボイスサーチ」と呼ば
れる)、ファンクション機能の音声呼出し等の音声処理
機能として、音声認識/合成LSI64と、音声情報の
伝達方向を切換えるスイッチ63、及び、LSI65に
内蔵され、音声処理を司る音声処理部72とを有する。
【0026】LSI65の内部にある、PDC制御部7
1、音声処理部72及びPDC−P制御部73は、使用
者の立場からは、見掛け上、同時に動作するものではな
く、各々を切換えながら使用するものとして映ってい
る。具体例を挙げれば、ボイスサーチによる登録済電話
番号の読出し時は、音声処理部72のみが動作し、PD
C制御部71とPDC−P制御部73は休止中となる。
読出された電話番号に発信(発呼)し、通常電話を開始
する場合は、PDC制御部71が起動し、音声処理部7
2とPDC−P制御部73は休止状態となる。待受け受
信時にiモードボタンを押下することで、PDC−P制
御部73が起動し、PDC制御部71と音声処理部72
は休止状態となる。iモード処理中に電話の着信があれ
ば(着呼)、PDC制御部71が起動し、音声処理部7
2とPDC−P制御部73は休止状態となる。
【0027】ここで、簡易メール(NTT呼称:ショー
トメール)機能についても、説明する。本機能は、iモ
ードに固有の通信機能ではない。簡易メールとは、電話
により、音声ではなく、文字をやり取りする通信方式で
ある。その通信原理は、特定の文字を、複数のプッシュ
ボタンの各々の押下回数に応じて表現するものである。
即ち、プッシュボタン音の組み合せで、文字を表す。こ
のため、メーカに依存せず、通常の携帯電話や自動車電
話、更にプッシュボタン式の一般電話や公衆電話からで
も、簡易メールを送信することができる。
【0028】簡易メールの送受信動作を、図14を用い
て説明する。送信時、操作部67を介して入力されたテ
キストは、RAM70上に蓄積されると共に、表示部6
8にも表示される。操作部67上の発信キーの押下によ
り、RAM70上に蓄積された入力テキストは、PDC
制御部71で、各々の文字が、複数のプッシュボタン
の、各々の押下回数の組み合わせへと変換され、無線部
66を介して、簡易メールとして、メールセンタ(NT
Tの場合、ショートメールセンタ)宛に発信される。一
方、簡易メールの受信時は、相手局は、メールセンタか
らの着信通知を受けて、PDC制御部71の制御の下、
簡易メールを、無線部66を介してRAM70上にダウ
ンロードする。RAM70上に蓄積された簡易メール
は、PDC制御部71によって、複数のプッシュボタン
の各々の押下回数の組み合わせから、特定の文字へと一
つずつ逆変換され、最後に、受信テキストとして表示部
68に表示される。
【0029】PDC制御部71が有する入力されたテキ
ストを、上記の特定の文字を表現する複数のプッシュボ
タンの、各々の押下回数の組み合わせへと変換する機能
を、「ショートメール符号化機能」と呼び、その逆の変
換を行う機能を、「ショートメール複合化機能」と呼
ぶ。
【0030】インターネット、あるいは、iモードのP
DC−Pネットワークに代表されるインターネット通信
技術を応用したネットワークに接続し、インターネット
プロトコルの世界標準であるHTTP、或いは、iモー
ドのALPに代表されるHTTPを応用したプロトコル
を用いて、本ネットワーク上で運営されている各種サー
ビスにアクセスする。さらに、インターネットの世界標
準であるHTML、或いは、iモードのコンパクトHT
MLに代表される、HTMLを応用した記述言語によっ
て構築された各種コンテンツの中から、自分達にとって
必要な情報を入手し、本サービスの恩恵を得る。
【0031】これらの利用形態は、今後更なる発展と広
がりを見せる方向にある。例えば、固定電話、ファック
ス、公衆電話、受信チューナ、ビデオ、カメラ、冷蔵
庫、電子レンジ、クーラー、洗濯機/乾燥機、医療機
器、CD/ATM、自動車、ロボット等の各種装置にお
いて、上記ネットワークへの接続機能の装備と、アクセ
スの結果得られた情報を実際のユーザに提供する際の方
法(サービス内容)の検討が、既に開始されている。こ
れら装置の増加は、上記サービスへのアクセスに一層の
拍車を掛けるものとして、通信事業者やコンテンツプロ
バイダ等からも期待されている。
【0032】本発明は、上記HTML、あるいは、HT
MLを応用した記述言語の閲覧が可能なブラウザ機能を
装備した装置全般に関するものである。
【0033】なお、インターネットと似た言葉であるイ
ントラネットとは、インターネット通信技術を採り入れ
て構築した、企業(等の)「内部」のネットワークを意
味しており、他方、反意語のエクストラネットは、企業
「間」のネットワークを表すが、いずれもインターネッ
トの一部である。
【0034】本発明と技術分野が類似する先願発明例と
して、例えば下記のものがある。 (1)特開平11−112633号公報の図1 (2)特開平11−163995号公報の図1 (3)特開平10−190797号公報の図1 (4)特許第2655086号の図1 (5)特開2000−105681号公報の図1
【0035】
【発明が解決しようとする課題】しかしながら、上記の
従来技術は、下記の各種の問題を伴う。第1の問題点
は、上記装置に提供される各種サービスは、目の不自由
な方々にとって、益々使いづらいものとなっていく点で
ある。その理由は、マルチメディアがインターネットの
基盤となっていることから、提供されるサービス内容に
おいても、当然マルチメディア的なものが多用される方
向にあるが、マルチメディアの中には、文字や画像/映
像(図、静止画、動画等)等の視覚を利用したものが多
々あり、これらは目の不自由な方々にとって、大きな障
壁(バリア)になるためである。特に、携帯電話機は、
従来から、目の不自由な方々に対する配慮が脈々となさ
れていた機器である(携帯電話機自身については、特開
平11−163995号を、その収容ホルダについて
は、特開平10−190797号公報を参照)にもかか
わらず、インターネット接続機能のサポートに関して
は、この配慮が全くなされておらず、目の不自由な方々
の期待を裏切る、心地良くない機能追加として、受け止
められていた。
【0036】携帯電話機の例を具体的に記す。音声通話
機能しかない従来型の携帯電話機を用いて電話を掛ける
分には、0〜9及び発信ボタンを操作するだけなので、
目の不自由な方々でも何とかこれを使用することができ
た。加えて、携帯電話機にワンタッチ(又はツータッ
チ)ダイヤル機能やボイスサーチ機能(音声認識に基づ
く登録済電話番号の読出し/発呼機能)等を追加するこ
とで、目の不自由な方々の負担を一層軽減することがで
きた。更に、特開平11−163995号では、ボタン
部分への突起物の付与が提案されており、特開平10−
190797号では、収容ホルダのボタン部に点字状の
突起物を付与し、携帯電話機を収納したまま、使用する
ことが提案されている。
【0037】しかし、簡易メール機能(ショートメール
等)を使用する場合には、送信時、メール文章のデータ
入力が必要となるが、送信したい文字の選択が、ボタン
の押下順序や回数を組み合せて行う方式であるため、複
雑なボタン操作がどうしても必要となり、目の不自由な
方々には、とても扱える代物ではなかった。最近では、
外付けのキーボード(呼称:iボード)や、タッチペン
形式のポインティング・デバイスが、オプションで提供
されている機種もあるが、あくまでもボタン操作に不慣
れな人向けの支援機能に過ぎず、目の不自由な方々にと
って、これらは大差がない。いわんや、受信したデータ
については、画面に表示されるだけであり、目の不自由
な方々は、これを読むことができない。
【0038】更に、iモードサービスに至っては、送信
時、データ入力以前に、画面上に表示される案内文を一
旦読み、理解した上で、案内文中に指定されるボタン操
作を、適切に行う事が要求されるが、目の不自由な方々
には、要求された操作を、その通りに行う事が出来な
い。
【0039】第2の問題点は、目の不自由な方々向けに
適切なコンテンツを提供することが、コンテンツ・プロ
バイダには不可能であったり、あるいは、コンテンツの
作成に時間が掛かり、高価になる点である。その理由
は、目の不自由な方々に文字や画像/映像から構成され
るコンテンツをそのまま提供することは失礼な話である
ため、別法を採るとした場合、残された有効な情報提供
手段は、現技術水準では音声のみである。このため、作
成済のコンテンツを音声のみから構成される形に作り替
えなければならず、その分、費用がかさみ、時間を要す
ることとなる。
【0040】携帯電話機の例を具体的に記せば、iモー
ドサービスの場合、コンテンツ・プロバイダは、HTM
L4.0の機能縮小版である「コンパクトHTML」を
用いてコンテンツを記述すれば良い。このため、普通に
ウェブ(Web)ページを作れる人にとっては、特別に
覚えなければならない事柄はほとんどなく、コンテンツ
の作成は比較的容易であった。他方、これを目の不自由
な方々向けに、音声情報だけを用いた形に書き直す、と
すれば、例えば、案内音声を記録したWAVファイル
(等)をダウンロードさせ、これを再生させるようにコ
ンテンツを作り替える必要がある。しかし、現在の携帯
電話機は、ピアノやギターなどの音色再生を目的とした
FM音源や多重和音機能等をサポートするのみであり、
加えて、ダウンロードによって再生可能なサウンド系フ
ァイルも、着メロ用のMIDファイル(MIDI Da
ta File)のみである事から、音声は再生でき
ず、音声案内を実現できない。
【0041】そもそも、iモードサービスの形態は、目
の不自由な方々に情報を提供することが想定されていな
い。それは、iモードサービスのコンセプトが「話すケ
ータイから使うケータイへ」だからである。そのことを
考え合わせると、目の不自由な方々には使えないケータ
イが、一概に悪いとは責められない。むしろ、目の不自
由な方々には、従来の音声通話機能で電話を掛けて頂
き、コンテンツ・プロバイダの側では、その目的専用
に、音声案内人を雇用して、教育後、その任に当たらせ
るなり、或いは、音声応答装置を購入し、その目的向け
の専用記述言語を用いて、音声応答の手順等をプログラ
ミングして運用するなりした方が簡便ですらある。勿
論、その分、費用が嵩み、時間を要するが、それは止む
を得ない。
【0042】本発明は、音声合成及び音声認識処理回路
を効率化し、ブラウザ搭載装置の小型・軽量化を廉価に
実現することを目的とする。その上で、本発明は、特性
・性能向上、文字入力の高速化、操作性向上、文字入力
の簡易化等を図ったブラウザ搭載装置を提供することを
目的とする。
【0043】本発明の究極的な目的は、マンマシンイン
タフェースの改善(眼の不自由な方々でも操作可能とす
る)を図り、コンテンツ・プロバイダ側で発生する負担
を極力抑えながら、眼の不自由な方々を、インターネッ
トの世界に誘うことにある。
【0044】
【課題を解決するための手段】かかる目的を達成するた
め、請求項1に記載の発明のブラウザ搭載装置は、HT
MLテキストを解析し、解析結果からHTMLテキスト
の読み上げ方法を最適化し、HTMLテキストの読み上
げ音声の合成を指示するブラウザと、ブラウザが最適化
した読み上げ方法によりHTMLテキストの読み上げ音
声をブラウザの指示により合成する音声合成手段と、音
声合成手段が合成した音声を出力する音声出力手段と、
携帯電話の通常の通話機能を司るPDC制御手段と、イ
ンターネットプロトコルを応用したiモードサービス等
への接続処理機能を司るPDC−P制御手段と、音声処
理を司る音声処理手段と、音声認識を行う音声認識手段
と、PDC制御手段およびPDC−P制御手段および音
声処理手段の各部と前記音声認識手段との間を選択的に
接続するスイッチとを有した構成としている。
【0045】また、請求項2に記載の発明は、請求項1
の発明に加えて、使用者が発した音声を取込む音声入力
手段をさらに有し、この音声認識手段は、音声入力手段
が取込んだ音声からブラウザに対する制御指示を認識
し、この制御指示をブラウザに伝達し、ブラウザが音声
認識手段から伝達された制御指示を解析し、適切な次の
アクションを行うことを特徴とする。
【0046】請求項3に記載の発明は、請求項2の発明
に加えて、発声される可能性のある語彙を記憶する認識
語彙記憶手段をさらに有し、音声認識時に認識語彙の辞
書として認識語彙記憶手段を音声認識手段が使用してH
TMLテキストを解析し、解析結果から音声認識手段が
行う音声認識の認識率を向上させ得る語彙を抽出し、こ
の抽出した語彙を認識語彙記憶手段にブラウザが記憶さ
せることを特徴とする。
【0047】請求項4に記載の発明は、請求項3の発明
に加えて、HTMLテキスト中に語彙が直接含まれる場
合に、該語彙を抽出し、認識語彙記憶手段に記憶させる
ブラウザを有した構成としている。
【0048】請求項5に記載の発明は、請求項1から4
の何れか1項に記載のブラウザ搭載装置において、音声
処理に伴う話者の性別、音声のピッチ/スピード、読み
上げピッチの加速具合い等については、設定で変更可能
としている。
【0049】請求項6に記載の発明は、請求項1から5
の何れか1項に記載のブラウザ搭載装置において、絵文
字等の外字の読み上げ方を、設定で変えられることとし
ている。
【0050】
【発明の実施の形態】次に、添付図面を参照して本発明
によるブラウザ搭載装置の実施の形態を詳細に説明す
る。図1から図10を参照すると、本発明のブラウザ搭
載装置の一実施形態が示されている。
【0051】図1は、本発明の第1の実施形態を示すブ
ロック図である。図1を参照すると、本発明の第1の実
施形態は、従来技術を表す図11に対して、HTMLテ
キストを解析し、解析結果からHTMLテキストの読み
上げ方法を最適化し、音声合成手段に対し、HTMLテ
キストの読み上げ音声の合成を指示する音声ブラウザ1
と、音声ブラウザ1が最適化した読み上げ方法により、
HTMLテキストの読み上げ音声を合成する音声合成手
段2と、音声合成手段2が合成した音声を出力する音声
出力手段3とを追加している。
【0052】図2は、本発明の第2の実施形態を示すブ
ロック図である。図2は、第1の実施形態を示す図1に
対して、使用者が発した音声を取込む音声入力手段5
と、音声入力手段5が取込んだ音声から、音声ブラウザ
1に対する制御指示を認識し、制御指示を音声ブラウザ
1に伝達する音声認識手段4とを追加し、更に、音声認
識手段4から伝達された制御指示を解析し、適切なアク
ションを行うように音声ブラウザ1を変更している。
【0053】図3は、本発明の第3の実施形態を示すブ
ロック図である。図3は、第2の実施形態を示す図2に
対して、発声される可能性のある語彙を記憶する認識語
彙記憶手段6を追加し、更に、音声認識時、認識語彙の
辞書として、認識語彙記憶手段6を使用するように音声
認識手段4を変更し、加えて、HTMLテキストを解析
し、解析結果から、音声認識手段4が行う音声認識の認
識率の向上させ得る語彙を抽出し、該抽出した語彙を認
識語彙記憶手段6に記憶させるように音声ブラウザ1を
変更している。
【0054】図4は、本発明の第4の実施形態を示すブ
ロック図である。図4は、第3の実施形態を示す図3に
対して、HTMLテキスト中に語彙が直接含まれる場合
に、該語彙を抽出し、認識語彙記憶手段6に記憶させる
ように音声ブラウザ1を変更している。
【0055】(動作例)図1に示す本発明の一実施例を
表すブロック図、及び、図5に示す音声ブラウザ1の動
作例を示すフローチャートを用いて、本発明の第1の実
施形態における動作内容を説明する。
【0056】ブラウザ搭載装置50は、ブラウザ51の
指示で、通信手段52を介して、ネットワーク58に接
続し、インターネット上のWebサーバにアクセスし、
ダウンロードしたHTMLテキストを一旦記憶手段53
に格納する。音声ブラウザ1は、これを読取り、一次解
析し(図5のステップS1)、HTMLテキストに文法
誤り等がなければ(ステップS2)、HTMLテキスト
上の表示開始位置(通常は、HTMLテキストの先頭位
置。尚、HTMLテキスト内で、<A NAME=…>
タグにより、ラベル名が定義されており、且つ、そのラ
ベル名にリンクするようにブラウザ51が指示されてい
た場合には、そのラベル位置。)から、順次HTMLテ
キストを二次解析し、読み上げ文書を構築し、最適化す
る(ステップS3)。具体的には、通常のテキスト部分
とHTMLタグ部分を分解し、HTMLタグ部分は、更
に、その属性と属性の値とを読取り、個々のHTMLタ
グの、全文における位置付けをも把握しながら、目の不
自由な方々に理解されやすい、文章表現と読み上げ方法
とをデザインする。その要領は、例えばiモード携帯電
話で使用されるコンパクトHTMLを用いれば、以下の
とおりである。
【0057】(機能1)読み上げ方は、基本的には、ハ
イパーテキストとして表示されたHTMLテキストを、
通常の人が自然に読むのと同じ要領で読み上げる。例え
ば、FRAMEタグにより、画面が左右に分割されてい
る場合には、左側のFRAMEの内部を先に全て読み上
げる(これは、通常のブラウザ51が画面表示をデザイ
ンする際に用いる方法)のではなく、表示面積の大きい
側の画面から順に、ブロック(段落等)毎に交互に、読
み上げるものとする。具体的には、左右のFRAMEの
内部で、読み上げるブロックを各々まとめ、仮に右側の
画面がより表示面積が大きいと仮定すれば、右側から読
み始めるものとし、右1ブロック→左1ブロック→1ブ
ロック分下に降りて、右1ブロック→左1ブロック→1
ブロック分下に降りて、右1ブロック→…という要領で
読み上げる。尚、上記読み上げ方法は、本願出願者にと
っては自然な流れだが、本ブラウザ搭載装置の実際の使
用者にとっては、不自然な読み上げ方かも知れない。こ
の為、本読み上げの方法は、設定で変えられることが望
ましい。
【0058】(機能2)通常テキストは、男性が低い声
で読み上げる。リンクのある部分は、女性の声で読み上
げる。一度訪問した実績のあるリンクの部分は、女性が
高めの声で早口に読み上げる。accesskey 等の操作方法
の指示部は、男性が普通の声で読み上げる。例えば、H
TMLテキストが、 「メニューリスト<BR> <A accesskey="1" HREF="http://…">1.ニュース/情
報</A><BR> <A accesskey="2" HREF="http://…">2.モバイルバン
キング</A><BR> <A accesskey="3" HREF="http://…">3.カード/証券
/保険</A><BR>」 の場合、読み上げ方は以下のとおり、男性が低い声で、
「メニューリスト」と読み上げた後、女性の声で「1
ニュース情報」と読み上げ、その直後に、男性が普通の
声で「1キーで アクセスします」と操作方法を解説す
る。話者の性別や、音声のピッチ/スピードは、設定で
変えられることが望ましい。
【0059】(機能3)操作方法の解説が連続する場合
には、解説文の読み上げ方を省略する。例えば、(機能
2)の例では、以下、女性の声で「2 モバイルバンキ
ング」、男性が普通の声で「2です」、女性の声で「3
カード 証券 保険」、男性の普通の声で「3です」
と読み上げる。なお、具体的な省略の仕方や、解説が連
続状態に入った場合の読み上げピッチの加速具合い等に
ついては、設定で変えられることが望ましい。
【0060】(機能4)表示の位置に関するHTMLタ
グ及び属性は、(機能1)のブロック位置の算出を除
き、読み上げの際には無視する。例えば、タグ<CENTER
>、属性 align、等は無視する。
【0061】(機能5)絵文字は外字につき、その「意
味」を読み上げる。例えば、ハートマーク(絵文字コー
ド:&#63726。本コードは、メーカに依存する)
の場合は、「ハート」と読み上げる。なお、その読み上
げ方は、設定で変えられることが望ましい。
【0062】(機能6)画像(iモード携帯電話の場
合、GIFのみ)は、無視する。但し、HTMLテキス
ト中で、 「<IMG SRC="http:// …" ALT=" 彼氏"><BR>」 のように、ALT属性で代替文字の指定があった場合に
は、男性の普通の声で「彼氏の絵」等の解説を加える。
(機能1)の作用により、本解説文を読み上げる場所
は、文脈に沿った、適切な場所で、読み上げる。なお、
解説の有無及び解説の内容は、設定で変えられることが
望ましい。
【0063】(機能7)文字等に対する装飾は、無視す
る。例えば、タグ<PRE> 、<H1>〜<H6>、属性 bgcolor、
等である。
【0064】(機能8)リスト(タグ:UL,OL,LI,DL,D
T,DD )やテーブル(タグ:TABLE,TR,TH,TD,CAPTION)
については、その部分を読み上げる前に、「続いて リ
スト(テーブル)の読み上げを行います」等の解説を加
える。ただし、リストやテーブルがネスト(nest)
になる場合には、聞き手に混乱を与えないために解説は
省略する。また、項目が行頭に当たる場合は、話者を変
える等して、その項目が行頭に当たることを聞き手に印
象付ける。
【0065】(機能9)フォームについては、読み上げ
完了後、一括して入力(または、選択)して頂くことと
なるため、読み上げ中は、「後で 入力(または、選
択)して下さい」又は「後で 変更できます」等と、簡
単に読み上げる。全文読み上げ終了時、フォーム部分に
限定して、会話形式による読み上げと、テキスト入力
(または、選択)を行わせ、最後にReset相当又は
Submit相当ボタン(アイコン)の入力を行わせる
ような音声案内を行う。
【0066】具体例として、以下のHTMLテキストが
あった場合、 「<H1 align="center"> 全製品の検索画面</H1> <FORM method=POST action="search.cgi"> 検索型番:<INPUT type=text name=word size=32 value
="N502it Hyper"><INPUT accesskey="0" type=submit v
alue="検索"> <INPUT accesskey="1" type=reset value=" クリア"><B
R> 並べ方(複数指定時):<INPUT accesskey="2" type=ra
dio name=srt value="1" checked> 型番昇順 <INPUT accesskey="3" type=radio name=srt value="2"
> 発売日降順<BR> </FORM> 」
【0067】全文読み上げ時は、上記の部分は以下のと
おり、読み上げる。 「(男性の声) …。全製品の検索画面。 (女性の声) ここから先は、後でまとめて入力して下さ
い。 (男性の声) 検索型番 N502it Hyper。 (女性の声) 後で変更できます。 (男性の声) 並べ方。複数指定時。型番昇順。発売日降
順。お奨めは、型番昇順。 (女性の声) 後で変更できます。 (INPUT タグの type=submit,reset部に関しては、この
段階では読み上げない。) (次いで、フォーム部の終了を示すチャイムの鳴動音
等)。 (男性の声) …。(残りのテキストを読み上げる)。」
【0068】次いで、全文読み上げ完了時、以下のとお
り、読み上げる。 「(女性の声) では、先程お話ししたまとめ入力をこれ
から行いましょう。 (男性の声) 検索型番 N502it Hyper。 (女性の声) 変更する場合は今入力して下さい。変更し
ない場合は、0キーを押して下さい。 (入力の完了を待つ。暫くして、何の入力もなければ、
再度音声で入力を促す。尚、「変更しない場合の0キ
ー」とは、INPUT タグの type=submit部にある属性acce
sskey の値を使用することが初期設定されていることを
仮定)。
【0069】(男性の声) 並べ方。複数指定時。 (女性の声) 次の2つの中からいずれかを選択して下さ
い。 (男性の声) 型番昇順。 (女性の声) 2キーで選択します。 (男性の声) 販売日降順。お奨めは、型番昇順。 (女性の声) 3キーです。いずれかを今選択して下さ
い。0キーでお奨めを選択することもできます。 (入力の完了を待つ。暫くして、何の入力もなければ、
再度音声で入力を促す。尚、「0キーでお奨めを選択す
る」とは、INPUT タグのtype=submit 部にある属性acce
sskey の値を使用することが初期設定されていることを
仮定)。
【0070】(女性の声) 最後に、まとめ入力の内容を
確認します。 (男性の声) 検索型番(上記で入力された型番の読み上
げ)。並べ方。複数指定時(上記で選択された並べ方を
読み上げ)。 (女性の声) 「検索」を行う場合は、0キーを押して下
さい。「クリア」を行う場合は、1キーを押して下さ
い。 (入力の完了を待つ。暫くして、何の入力もなければ、
再度音声で入力を促す)
【0071】(機能10)入力手段57からの適切な指
示(ボタン押下等)により、通常テキスト部分の読み上
げを行わず、リンクの部分だけを読返す機能を、音声ブ
ラウザ1に付与することが望ましい。本機能の追加によ
り、最初に全文を聞き終えた後、本機能を起動して、リ
ンクの部分だけを必要なだけ読返すことが可能となり、
リンク先の指定(ボタン押下等)を、さほど混乱するこ
となく正確に行うことができる。
【0072】(機能11)警告メッセージの発生時は、
読み上げ処理を一旦中断し、警告メッセージの読み上げ
を行い、必要があれば文字入力や選択等を会話形式で行
い、最後にボタン押下やアイコン・クリックを行わせる
ように音声案内を行う。なお、本ボタンの押下後は、必
要に応じて中断していた読み上げ処理を再開する。
【0073】音声ブラウザ1は、ステップS3で最適化
された読み上げ文章を、ステップS4で音声合成手段2
に転送し、音声出力手段3を通して音声出力させる。
【0074】また、ステップS2でHTMLテキストに
文法誤り等があれば、読み上げのできない旨を音声合成
手段2に伝えて、音声出力手段3を通して、その旨を音
声出力させる(ステップS5)。
【0075】読みたいページのアドレスを指定するため
のURL入力や、ハイパーテキスト中に含まれるリンク
やアイコンのクリック等は、従来同様、入力手段57を
介して行う。
【0076】次に、図2に示す本発明の一実施例を表す
ブロック図、及び、図6に示す音声ブラウザ1の動作例
を示すフローチャートを用いて、本発明の第2の実施形
態における動作内容を説明する。
【0077】ブラウザ搭載装置50は、ブラウザ51の
指示で、通信手段52を介して、ネットワーク58に接
続し、インターネット上のWebサーバにアクセスし、
ダウンロードしたHTMLテキストを一旦記憶手段53
に格納する。音声ブラウザ1は、これを読取り、第1の
実施形態に示すとおり、最適化された読み上げ文章を構
築後、音声合成手段2に転送し、音声出力手段3を通し
て、音声出力させる。
【0078】他方、使用者が発した音声は、音声入力手
段5に取込まれる。取込まれた音声は、音声認識手段4
により音声認識される。本音声認識は、単に話者音声を
テキスト形式に変換するのみならず、音声ブラウザ1に
対する制御指示の候補として認められるか否かを含めて
認識される。認識結果が、音声ブラウザ1に対する制御
指示の候補として認められる場合には、音声認識手段4
は音声ブラウザ1に対して割込みを行い、併せて、認識
された制御指示の候補を音声ブラウザ1に伝達する。音
声ブラウザ1は、本割込みを受けて、その状態を遷移さ
せ、図6に記すフローチャートに従い、割込みの処理を
開始する。以下に、そのフローチャートを図6を用いて
説明する。
【0079】音声ブラウザ1は、音声認識手段4から伝
達された音声認識結果が、音声ブラウザ1に対する制御
指示として有効か否かを確認する(ステップS6)。
【0080】有効と認められた場合は、本割込みが、音
声合成手段2による読み上げ処理の最中に発生した割込
みであるか否かを調べる(ステップS7)。
【0081】本割込みが、音声合成手段2による読み上
げ処理の最中に発生した割込みである場合には、音声認
識手段4から伝達された制御指示が、音声合成手段2に
よる読み上げ処理をわざわざ中断し、直ちに実行する必
要性があるか否かを調べる(ステップS8)。
【0082】音声認識手段4から伝達された制御指示を
慌てて実行する必要性がない場合には、音声合成手段2
による読み上げ処理が終了した時点で、受取った制御指
示(その時点では、制御指示は複数に増えている可能性
もある)を(順番に)解析し、次のアクションとして
(一つずつ順番に)実行して行けば良いので、受取った
制御指示を一時的に保留(ステップS12)し、本割込
みから復帰する。
【0083】ステップS8での判定の結果、音声認識手
段4から伝達された制御指示を直ちに実行する必要性が
ある場合には、音声合成手段2に読み上げ処理の中止を
指示し(ステップS9)、読み上げ処理を中止させた緊
急性の高い制御指示に限定してその内容を解析し、次の
アクションとして実行しても矛盾が生じなければ、その
アクションを実行する(ステップS10)。このこと
は、既に制御指示が複数蓄積された状態にある場合は、
緊急性の高い制御指示を古いものから順に探索して行く
ことを意味しているが、探索して検出される迄の間に存
在した、緊急性が低くて読飛ばされた制御指示について
は、もはや不要な制御指示と見なして、これらは廃棄し
(ステップS11)その上で、本割込みから復帰する。
【0084】ステップS7の判定の結果、本割込みが、
音声合成手段2による読み上げ処理の最中に発生した割
込みではない場合には、ステップS12で一時的に保留
とした制御指示も含めて、受取った制御指示の内容を古
いものから順に解析し、次のアクションとして実行して
も矛盾しない内容であれば、そのアクションを実行する
(ステップS13)。全ての制御指示の解析を終えた段
階で、本割込みから復帰する。
【0085】ステップS6の結果、音声認識手段4から
伝達された内容が制御指示として無効な場合には何もせ
ず、そのまま本割込みから復帰する。音声合成手段2が
読み上げを完了した時点で、音声ブラウザ1は、音声認
識手段4から受け取った制御指示で一時的に保留されて
いる物が未だ残っていないかを確認する。未だ残ってい
る場合には、ステップS13同様に、受け取った制御指
示の内容を古い物から順に解析し、次のアクションとし
て実行しても矛盾しない内容であれば、そのアクション
を順次実行する。この結果、文字入力(例.読みたいペ
ージのアドレスを指定するためのURL入力)や、クリ
ック操作(例.ハイパーテキスト中に含まれるリンクや
送信ボタン・アイコン等のクリック操作)を、入力手段
57からではなく、音声入力手段5を介して、音声で行
うことが可能となる。
【0086】第1の実施形態の動作説明の中にある、
(機能2)と(機能3)で使用したHTMLテキスト
を、具体例として用いれば、以下のとおりである。
【0087】音声ブラウザ1は、「1 ニュース 情
報。」「1キーで アクセスします。」「2 モバイル
バンキング。」「2です。」「3 カード 証券 保
険。」「3です。」と読み上げ続ける。使用者は、途中
で「2。」と発声する。使用者の発した音声は、音声入
力手段5に取込まれ、音声認識手段4により、音声認識
され、音声ブラウザ1へと割込む。音声ブラウザ1は、
HTMLテキスト中に、「<A accesskey="2" HREF="htt
p://…">2.モバイルバンキング</A><BR>」とあること
から、「2」キーが押されたのと同等と解釈して、指定
のリンク先にジャンプする。
【0088】また、第1の実施形態における(機能9)
で使用したHTMLテキストを、具体例として用いれ
ば、以下のとおりである。フォーム部分は、最初の全文
読み上げ中には、「後で 入力(または、選択)して下
さい」又は「後で 変更できます」等と、簡単に読み上
げる。全文読み上げ終了時、フォーム部分に限定して、
会話形式による読み上げと、テキスト入力待やボタン類
の選択待ちが発生する。即ち、入力や選択が必要となる
箇所では、その都度、音声案内が停止するので、使用者
からの音声指示により、音声認識を用いてテキスト入力
や選択を行わせることができる。最後に、Reset相
当又はSubmit相当ボタン(アイコン)の押下案内
が流れるため、これもまた音声で指示する。
【0089】第2の実施形態の場合、音声入力指示が効
果的に行われるようにするため、コンテンツ(HTML
テキスト)の設計側でも、十分に注意を払う必要があ
る。
【0090】例えば、マウス等のポインティング・デバ
イスで、画面上のアイコンやイメージ等をクリックし、
その位置等を指定する(これを「フォーカスする」と言
う)使用方法は、汎用的なブラウザでは一般的なもので
あるが、これを音声入力指示で代用するとなると、位置
指定が難しく、相当使い勝手の悪い、非実用的な代物と
なってしまう。従って、HTMLテキストの設計側で
は、そのようなHTMLタグの使用(例.イメージ上の
クリック位置で、そのアクションを異ならせるような、
イメージマップ処理を実現するための「MAP」タグの
使用等)を慎むように、注意する必要がある。
【0091】ところが、近年になり、ポインティング・
デバイスを装備しない携帯電話機からもインターネット
に乗り入れることができるようになった。この目的のた
めに、HTMLを応用して開発された「コンパクトHT
ML」と、コンパクトHTMLの閲覧が可能な「マイク
ロブラウザ」の登場により、上記設計上の注意点が自然
に緩和される結果となり、第2の実施形態は一層現実味
を帯びた。
【0092】即ち、ポインティング・デバイスを装備し
ていないiモード携帯電話機に搭載されるマイクロブラ
ウザには、汎用的なブラウザに存在する、「戻る」
「次」「再読込み」又は「ホーム」等のボタンのアイコ
ンが画面上になく、仮に存在しても、キー操作で代用で
きる。例えば、「戻る」「次」機能は、←、→等の矢印
キーの押下で、代用できる。加えて、コンパクトHTM
Lでは、イメージマップ処理を行わせる「MAP」タグ
をサポートしていないのみならず、「A」タグや「IN
PUT」タグに、accesskey 属性を追加し、キー操作だ
けで位置指定が行えるように、「イージーフォーカス機
能」が強化されている。なお、iモード携帯電話機によ
る、第2の実施形態の具体的な実施例は、本発明の他の
実施形態の章で説明することにする。
【0093】第2の実施形態の場合、音声認識手段4に
よる音声認識率を向上させる必要がある。この後に述べ
る、第3の実施形態は、音声認識率の向上を目的とした
ものである。最近の音声認識装置のブロック図を図15
に示す。
【0094】不特定話者認識、大語彙認識、連続音声認
識を実現する音声認識方法の一つとして、半音節単位を
用いた音声認識が効果的である。半音節単位とは、音節
をその母音中心で分割した結果得られるCV(子音(con
sonant) +母音(vowel) )区間とVC(母音+子音)区
間とを音の基本単位として使用するものである。各半音
節は、HMM(Hidden Markov Model)と呼ばれるモデル
で表現され、HMMは、音の時間軸上及び周波数軸上の
揺らぎを統計的に表現できるモデルである。今、各読み
の半音節モデルと、認識対象となる単語(かな文字で表
記されている)とが予め装置に登録されている状態にお
いて、登録済の認識対象となる単語の各々の読みに対応
して、半音節モデルを連結した単語モデルを作り、これ
を入力音声と個々に比較しながら、最もよく照合するも
の(即ち、似ているもの)を選び出すこと(算術的に
は、対数尤度を比較し、値が最大となるものを選ぶ)に
よって、最善の認識結果を得る。更に、単語の並び方を
表す文法モデルを与えることで、文法により許される範
囲内での連続音声認識が可能となる。
【0095】このため、認識率の向上には、各読みの半
音節モデルの充実、認識対象となる単語の充実、及び、
単語の並び方を表す文法の充実とが、重要である。この
後に述べる、第3の実施形態は、特に認識対象となる単
語、即ち、語彙の充実方法について、述べるものであ
る。
【0096】図15に記す、最近の音声認識装置は、半
音節モデルとして、不特定話者半音節モデル記憶部84
と話者適応後半音節モデル記憶部85を併せ持つ。不特
定話者半音節モデル記憶部84には、予め多数の人の声
(学習データ)を用いて作成された不特定話者の半音節
モデルが登録されている。これにより、特定話者の少量
の音声を用いて、不特定話者モデルをその話者に適応
(話者適応)させ、認識性能をより向上させるように努
めている。
【0097】音声入力手段5を介して入力された音声
は、分析、雑音除去部80で分析され、2段スペクトル
・サブストラクション法等を用いて、周囲雑音の影響を
除去された後、認識処理部81及び話者適応制御部86
へと送付される。
【0098】認識処理部81は、不特定話者半音節モデ
ル記憶部84及び話者適応後半音節モデル記憶部85に
記録される各々の半音節モデル、語彙辞書部82に登録
される語彙(認識対象となる単語を意味し、かな文字で
表記されている)、及び、文法モデル部83に登録され
る文法とを用いて、音声認識を行う。
【0099】話者適応制御部86は、話者適応のための
学習機能を司ると共に、現在入力されている音声を解析
し、半音節モデル学習時からの環境差を推定し、使用さ
れる半音節モデルを、現在入力されている音声に速やか
に適合させるように制御する(高速環境適応法)。
【0100】次に、図3に示す本発明の一実施例を表す
ブロック図、及び、図7に示す音声ブラウザ1の動作例
を示すフローチャートを用いて、第3の実施形態の動作
内容を説明する。
【0101】ブラウザ搭載装置50は、ブラウザ51の
指示で、通信手段52を介して、ネットワーク58に接
続し、インターネット上のWebサーバにアクセスし、
ダウンロードしたHTMLテキストを一旦記憶手段53
に格納する。音声ブラウザ1は、これを読取り、第1の
実施形態に記すとおり最適化された読み上げ文章を構築
した後(図7のステップS3)、HTMLテキストの解
析結果から、音声認識手段4で行われる音声認識の認識
率を向上させる語彙を抽出し、抽出された語彙を認識語
彙記憶手段6に登録する(ステップS14)。その上
で、音声ブラウザ1は、最適化された読み上げ文章を、
音声合成手段2に転送し、音声出力手段3を通して、音
声出力する(ステップS4)。使用者が発した音声指示
は、第2の実施形態に示すとおり、音声入力手段5に取
り込まれ、認識語彙の辞書として、認識語彙記憶手段6
に登録された語彙を使用する音声認識手段4によって音
声認識された後、音声ブラウザ1により、次のアクショ
ンが実行される。
【0102】HTMLテキストの解析結果から、音声認
識率を向上させる語彙を抽出し、認識語彙記憶手段6に
登録するステップS14において、目的の語彙の抽出要
領は、例えば、iモード携帯電話で使用されるコンパク
トHTMLの場合には、以下のとおりである。
【0103】(機能12) <A></A>タグに含まれるテキスト。例えば、 「<A HREF="http://…">ニュース/情報</A><BR>」 の場合には、「にゅうす」、「じょおほお」を登録す
る。
【0104】(機能13)属性アクセスキー(acce
sskey)があれば、その値。例えば、「<A accessk
ey="1" HREF="http://…">ニュース/情報</A><BR>」の
場合は、accesskey="1" につき、「いち」を登録する。
【0105】(機能14) <IPUT>タグの場合は、以下のとおりである。 (a)属性TYPEの値がSUBMIT又はRESET
であり、しかも、属性VALUEがあれば、その値。例
えば、 「<INPUT type="Submit" value="記録"> <INPUT type="Reset" value="クリア">」 の場合は、「きろく」と「くりあ」を登録する。また、
属性VALUEがなければ、属性TYPEの値。例え
ば、 「<INPUT type="Submit"> <INPUT type="Reset">」 の場合は、「さぶみっと」「さぶみっとぅ」及び「りせ
っと」「りせっとぅ」等を登録する。
【0106】(b)属性TYPEの値がTEXT又はP
ASSWORDであり、しかも、属性VALUEがあれ
ば、その値。例えば、 「<INPUT type=text name=word size=32 value="Hyper"
> 」 の場合は、「はいぱあ」を登録する。 (c)属性TYPEの値がRADIO又はCHECKB
OXの場合、次のタグ迄の間のテキスト。例えば、 「<INPUT type=radio name=srt value="2" checked> 型
番昇順 <INPUT type=radio name=srt value="3"> 連絡日降順<B
R> 」の場合は、「かたばん」「しょおじゅん」「れん
らくび」「こおじゅん」を登録する。
【0107】さて、音声認識手段4は、認識語彙記憶手
段6から語彙を抽出し、音声認識処理を行うが、本処理
を高速化するため、音声認識率の高い語彙から順に抽出
する必要がある。第3の実施形態では、文脈に沿った形
で、語彙の登録が行われることになるため、語彙の登録
時期が古くなればなる程、音声認識処理時にヒットする
可能性が低くなる。従って、最新の登録語彙から順に抽
出することが望ましい。
【0108】また、認識語彙記憶手段6には物理的な容
量制限が存在するため、いつかは登録語彙が満タン状態
となり、追加登録不能となる。この対策として、語彙記
憶手段6内の記憶領域を、固定的に保持し続ける分とそ
うでない分とに分ける方法、保持内容が変動する分のみ
を認識語彙記憶手段6内に登録し、固定的に保持し続け
る分は、音声認識手段4内の語彙辞書部82(図15参
照)等の別の場所を利用する方法がある(後者の場合、
例えば、工場出荷時に、装置に予め登録された分のみ
が、固定的に保持されることになる)。尚、保持内容が
変動する部分の記憶方式としては、登録語彙が古くなる
程、音声認識処理時にヒットする可能性が低くなること
から、最も古い登録情報から順番に最新情報が上書きさ
れる、リングバッファ記憶形式を用いることが望まし
い。
【0109】第3の実施形態の場合、音声ブラウザ1
が、HTMLテキストの解析結果から、音声認識率を向
上させる語彙を抽出しているが、語彙の抽出には時間が
掛かる上に、漢字、外国語及び特殊文字の読み方を仮名
文字に変換するための、変換規則を記した巨大な辞書を
保持する必要があるという課題があった。次に述べる、
第4の実施形態は、語彙の抽出を簡略化する目的で、語
彙自身をHTMLテキスト内に埋め込むことを提案する
ものである。
【0110】次に、図4に示す本発明の一実施例を表す
ブロック図、及び、図8に示す音声ブラウザ1の動作例
を示すフローチャートを用いて、第4の実施形態の動作
内容を説明する。
【0111】ブラウザ搭載装置50は、ブラウザ51の
指示で、通信手段52を介して、ネットワーク58に接
続し、インターネット上のWebサーバにアクセスし、
ダウンロードしたHTMLテキストを一旦記憶手段53
に格納する。音声ブラウザ1は、これを読取り、第1の
実施形態に記すとおり最適化された読み上げ文章を構築
する(図8のステップS3)。その後、HTMLテキス
トを解析し、語彙抽出を行うが、その方法は以下のとお
り。HTMLテキストを検索し、個々のHTMLタグに
対して、「語彙を指定する属性」を含むか否かを調べる
(ステップS15)。HTMLタグが、語彙を指定する
属性を含む場合、属性の値、即ち、語彙を読取り、読取
られた語彙を認識語彙記憶手段6に登録する(ステップ
S16)。
【0112】他方、HTMLタグが、語彙を指定する属
性を含まない場合、第3の実施形態で示したとおり、音
声認識手段4で行われる音声認識の認識率を向上させる
語彙を抽出し、抽出された語彙を認識語彙記憶手段6に
登録する(ステップS14)。その上で、音声ブラウザ
1は、最適化された読み上げ文章を、音声合成手段2に
転送し、音声出力手段3を通して、音声出力する(ステ
ップS4)。使用者が発した音声指示は、第2の実施形
態に記すとおり、音声入力手段5に取込まれ、認識語彙
の辞書として、認識語彙記憶手段6に登録された語彙を
使用する音声認識手段4によって音声認識された後、音
声ブラウザ1により、次のアクションが実行される。
【0113】ステップS15に記した、語彙を指定する
属性を含むか否かを調べるくだりに関して、例えば、語
彙を指定する属性をVOCABULARYと仮定すれ
ば、HTMLテキストは以下のとおりとなる。
【0114】(機能15) 「<INPUT type="Submit" value="記録" vocabulary="き
ろく"> <INPUT type="Reset" value="クリア"> 」
【0115】この場合、type="Submit" で指定されるI
NPUTタグ側では、ステップS16が実行され、属性
VOCABULARYの値”きろく”が、認識語彙記憶
手段6に登録される。他方、type="Reset"で指定される
INPUTタグ側では、ステップS14が実行され、属
性VALUEの値”クリア”から抽出される語彙”くり
あ”が、認識語彙記憶手段6に登録される。
【0116】第4の実施形態に関して、認識に必要な語
彙文法情報を、電話回線ネットワークを介して、情報サ
ービスシステム側からユーザ端末側に送り込むという発
明の基本部分は、先に特許第2655086号にて開示
されている。従って、第4の実施形態は、特許第265
5086号を具体的な装置の形態に展開した発明である
といえる。尚、特許第2655086号を応用し、別の
装置の形態に展開した先願例であり、しかも第4の実施
形態に最も構造が似ている発明としては、図16に示す
特開2000−105681号がある。しかし、本発明
から、第4の実施形態を容易に類推することは、以下の
理由により困難である。
【0117】(理由1)図16の発明は、装置を車載用
情報端末に限定していること。 (理由2)情報端末30から情報センタ32に送信され
る情報は、URLではなく、「情報コード」(例えば、
コンビニエンスストアの場合、FF007A8E等の特
殊なコード)であること。即ち、複数の情報センタ32
にアクセスできるように考慮されていない点が、インタ
ーネット通信技術を応用したブラウザ搭載装置を対象と
した本発明からかけ離れていること。
【0118】(理由3)上記情報コードを受けて、情報
センタ32から情報端末30に返信される情報は、HT
MLではなく、その情報コードに対応したデータ(例え
ば、コンビニエンスストアに関する一連の情報)である
が、それを音声で読み上げることは触れていないこと。
特に、目の不自由な方々の便宜を考慮した読み上げ方の
記述は、見出せないこと。
【0119】(理由4)情報センタ32から情報端末3
0に送信される語彙情報は、単に最新版であるだけに過
ぎないこと。即ち、情報コードに対応するデータに合わ
せて、音声認識率を最も向上させ得る語彙を、その都度
送信するという発想が存在しないこと。
【0120】最後に、既存のブラウザ51に音声ブラウ
ザ1の機能を持たせ、ただ一つのブラウザのみを搭載し
た装置とすることは、同業他社には容易類推可能な範囲
である。
【0121】また、音声認識手段4による音声認識率が
100%にならない場合等に、認識結果(テキスト形
式)を、音声合成手段2にも転送し、音声出力手段3を
通して、音声出力させることで、話者に認識結果を確認
させることも、容易類推可能な範囲である。この場合、
仮に音声合成手段2が、最適化された読み上げ文章を読
み上げ中であったとした場合には、(1)読み上げを中
止し、認識結果を音声出力させることも、(2)全ての
読み上げ処理が完了してから、認識結果を音声出力させ
ることも、(3)読み上げを一時的に中断し、認識結果
の音声出力後、中断した読み上げを再開させることも可
能であり、いずれも容易類推可能な範囲である。
【0122】(他の実施例)図9は、iモード携帯電話
機による第2の実施形態を示すブロック図である。図9
を参照すると、本第2の実施形態は、従来技術を表す図
14に対して、LSI65に内蔵される、PDC制御部
71、音声処理部72及びPDC−P制御部73と、音
声認識/合成LSI64との間の接続を切換えるスイッ
チ7が追加されており、加えて、PDC−P制御部73
が、ROM69及びRAM70と連携し、音声ブラウザ
1の機能をより効果的に果たすようにと変更されてい
る。
【0123】スイッチ7は、通常は、音声認識/合成L
SI64と音声処理部72が接続されるように切り換え
られている。この結果、従来技術を表す図14と回路が
等価になり、従来のiモード携帯電話機として使用する
ことができる。
【0124】第1の実施形態及び第2の実施形態で使用
する場合には、音声認識/合成LSI64と、音声ブラ
ウザ1の機能を果たすPDC−P制御部73が接続され
るように、スイッチ7を切り換える(図9は、その時の
状態を示した図である)。
【0125】無線部66を介して受信されたHTMLテ
キストは一旦RAM70に蓄積される。PDC−P制御
部73の音声ブラウザ機能を用いて解析されたHTML
テキストは、ハイパーテキストとして表示部68に表示
されると共に、最適化された読み上げ音声テキストに変
換され、音声認識/合成LSI64に送付される。音声
認識/合成LSI64はADPCM複号機能を用いて、
これを複号化し、A/Dコンバータ62に送付する。A
/Dコンバータ62は、これをD/A変換し、レシーバ
60を通して、読み上げ音声として出力する。一方、使
用者からの音声指示は、マイク61を通して入力され、
A/Dコンバータ62でA/D変換(符号化)された
後、音声認識/合成LSI64により、音声認識結果と
してテキスト化され、PDC−P制御部73に渡され
る。PDC−P制御部73は、音声ブラウザ機能を用い
て、これを解析し、音声指示と認められれた場合、その
指示を実行する。
【0126】尚、本発明の別の応用例として、図9のス
イッチ7を切換えて、音声認識/合成LSI64とPD
C制御部71が接続されるようにした場合を想定するこ
とができる。この場合、PDC制御部71単体で、音声
認識によりテキスト化された音声情報を、相手局にテキ
スト形式で送信し、逆に受信されたテキスト形式の情報
を音声に再現して、音声出力するという通信方式が可能
になる。これは、もはやブラウザ装置の枠組みから外れ
てしまうが、一つの発明として、その具体的な動作内容
を、以下に記す。
【0127】簡易メール(NTT呼称:ショートメー
ル)が、電話により、文字をやり取りする通信方式であ
ることは、従来技術の中で述べたとおりである。一方、
目の不自由な方々にとって、簡易メールは、送信時、メ
ール文章のデータ入力が必要であるが、送信したい文字
の選択が、ボタンの押下順序や回数を組み合せて行う方
式であるため、複雑なボタン操作がどうしても必要であ
り、苦痛な代物であった。加えて、受信したデータは、
受信テキストが画面に表示されるだけであり、目の不自
由な方々には読むことができなかった。
【0128】図9の発明に拠れば、使用者からの音声情
報は、マイク61を通して入力され、A/Dコンバータ
62でA/D変換(符号化)された後、音声認識/合成
LSI64により、音声認識されて、テキスト化され
る。該テキスト化された音声情報を、スイッチ7を介し
て、PDC制御部71に取込み、RAM70に格納す
る。PDC制御部71は、ショートメール符号化機能を
用いて、これを、複数のプッシュボタンの、各々の押下
回数の組み合わせ、即ち、プッシュボタン音の組み合せ
へと変換し、無線部66を介して、簡易メールとして、
メールセンタ(NTTの場合、ショートメールセンタ)
宛に発信する。
【0129】他方、相手局は、メールセンタからの着信
通知を受けて、RAM70上にダウンロードした簡易メ
ールを、PDC制御部71が有するショートメール複合
化機能を用いて、テキストに逆変換し、更に、スイッチ
7を介して、音声認識/合成LSI64へ送付し、ここ
で複号化した後、A/Dコンバータ62でD/A変換
し、レシーバ60で読み上げ音声として出力する。
【0130】この結果、受信した簡易メールは装置自身
が読み上げ、また送信時には、音声で入力すると、装置
自身が自動的に簡易メールに変換して、メールセンタ宛
に発信するため、複雑なボタン操作に煩わされる必要も
なくなり、目の不自由な方々は勿論のこと、目に不自由
しない方々でさえも、その恩恵を享受できる。加えて、
目の不自由な方々も、簡易メール(ショートメール)に
よるコミュニケーションの輪に参加する事が出来る様に
なり、逆に、目に不自由しない、従来からの簡易メール
(ショートメール)利用者にとっては、相手の目が不自
由か否かを意識する必要はない為、通常の電話同様、両
者にとって、バリアフリーなコミュニケーション関係を
構築・維持出来るものと期待される。尚、本効果は、e
−Mail(呼称:iモードメール)の場合でも、同様
に得られる。
【0131】図10は、iモード携帯電話機による第4
の実施形態の一実施例を示すブロック図である。図10
を参照すると、本第4の実施形態は、第2の実施形態を
表す図9に対して、発声される可能性のある語彙を記憶
する認識語彙記憶部8を追加し、加えて、音声認識/合
成LSI64を、音声認識時、認識語彙の辞書として、
認識語彙記憶部8を使用するものへと変更し、更に、P
DC−P制御部73を、解析したHTMLテキスト中に
語彙が直接含まれる場合には、その語彙を抽出し、語彙
が直接含まれない場合には、音声認識/合成LSI64
で行われる音声認識の認識率の向上させ得る語彙を抽出
し、抽出した語彙を認識語彙記憶部8に記憶させるよう
なものへと変更している。
【0132】第4の実施形態で使用する場合には、音声
認識/合成LSI64と、音声ブラウザ1の機能を果た
すPDC−P制御部73が接続されるように、スイッチ
7を切り換える(図10は、その時の状態を示した図で
ある。)。
【0133】無線部66を介して受信されたHTMLテ
キストは、一旦RAM70に蓄積される。PDC−P制
御部73の音声ブラウザ機能を用いて解析されたHTM
Lテキストは、ハイパーテキストとして表示部68に表
示されると共に、語彙が抽出されて認識語彙記憶部8に
記憶され、その上で最適化された読み上げ音声テキスト
へと変換を行い、音声認識/合成LSI64へと送付す
る。音声認識/合成LSI64は、ADPCM複号機能
を用いてこれを複号化し、A/Dコンバータ62に送付
する。A/Dコンバータ62は、これをD/A変換し、
レシーバ60を通して読み上げ音声として出力する。一
方、使用者からの音声指示は、マイク61を通して入力
され、A/Dコンバータ62でA/D変換(符号化)さ
れた後、音声認識/合成LSI64により、音声認識結
果としてテキスト化され、PDC−P制御部73に渡さ
れる。音声認識/合成LSI64は、音声認識時、認識
語彙の辞書として、認識語彙記憶部8に登録された語彙
を使用する。PDC−P制御部73は、音声ブラウザ機
能を用いてこれを解析し、音声指示と認められた場合、
その指示を実行する。
【0134】尚、上述の実施形態は本発明の好適な実施
の一例である。但し、これに限定されるものではなく、
本発明の要旨を逸脱しない範囲内において種々変形実施
が可能である。
【0135】
【発明の効果】以上の説明より明らかなように、請求項
1記載の発明のブラウザ搭載装置は、HTMLテキスト
を解析し、解析結果からHTMLテキストの読み上げ方
法を最適化し、HTMLテキストの読み上げ音声の合成
を指示するブラウザと、このブラウザが最適化した読み
上げ方法により、HTMLテキストの読み上げ音声を合
成し、合成した音声を出力する。
【0136】第1の効果は、ブラウザ搭載装置の小型・
軽量化を廉価に実現できる点にある。その理由は、PD
C制御部、PDC−P制御部及び音声処理部が使用す
る、音声合成及び音声認識処理回路を効率化する事で、
部品点数を削減できるためである。第2の効果は、目の
不自由な方々をもインターネットの世界へ誘うことがで
きる点にある。その理由は、ブラウザがHTMLテキス
トを解析し、目の不自由な方々にとって理解しやすい文
章をデザインし、読み上げてくれるからである。加え
て、ブラウザは、使用者の発した音声を認識し、適切な
音声指示である場合には、それを実行するため、目の不
自由な方々にとって苦痛な、文字入力やクリック操作
が、大幅に不要となるためである。
【0137】第3の効果は、コンテンツ・プロバイダに
とって、目の不自由な方々を対象としたコンテンツをデ
ザインすることが、それほど負担にはならない点にあ
る。その理由は、コンテンツ・プロバイダが目の不自由
な方々向けに適切なコンテンツを提供することは、従来
は不可能であったり、あるいは、コンテンツの作成に時
間が掛かり、高価になるが、本発明によって、その制約
は比較的容易に緩和されるためである。加えて、iモー
ド携帯電話機向けに開発されたコンパクトHTMLでコ
ンテンツをデザインすることができれば、コンパクトH
TMLが有する諸機能との相乗効果により、その制約が
一層軽減されるためである。
【図面の簡単な説明】
【図1】本発明のブラウザ搭載装置の実施形態を表すブ
ロック構成図である。
【図2】第2の発明の一実施例を表すブラウザ搭載装置
のブロック図である。
【図3】第3の発明の一実施例を表すブラウザ搭載装置
のブロック図である。
【図4】第4の発明の一実施例を表すブラウザ搭載装置
のブロック図である。
【図5】第1の実施形態のブラウザ搭載装置に搭載され
る音声ブラウザの動作例を示すフローチャートである。
【図6】第2の実施形態のブラウザ搭載装置に搭載され
る音声ブラウザの動作例を示すフローチャートである。
【図7】第3の実施形態のブラウザ搭載装置に搭載され
る音声ブラウザの動作例を示すフローチャートである。
【図8】第4の実施形態のブラウザ搭載装置に搭載され
る音声ヴラウザの動作例を示すフローチャートである。
【図9】第1および第2の実施形態の一実施例を表すi
モード携帯電話機のブロック図である。
【図10】第3および第4の実施形態の一実施例を表す
iモード携帯電話機のブロック図である。
【図11】従来のブラウザ搭載装置のブロック図であ
る。
【図12】従来のiモードサービスのネットワーク構成
図である。
【図13】従来のiモードサービスのプロトコルスタッ
クである。
【図14】従来のiモード携帯電話機のブロック図であ
る。
【図15】従来の音声認識装置のブロック図である。
【図16】従来例であり第4の実施形態に類似する先願
発明例の音声情報処理装置のブロック図である。
【符号の説明】
1 音声ブラウザ 2 音声合成手段 3 音声出力手段 4 音声認識手段 5 音声入力手段 6 認識語彙記憶手段 7 スイッチ 8 認識語彙記憶部 30 情報端末 31 ネットワーク 32 情報センタ 33 音声入力手段 34 音声認識手段 35 音声認識用テーブル 36 音声合成手段 37 通信手段 38 CPU 39 表示手段 40 音声出力手段 41 通信手段 42 CPU 43 音声認識用テーブル 44 情報提供メニューテーブル&DB 50 ブラウザ搭載装置 51 ブラウザ 52 通信手段 53 記憶手段 54 表示手段 55 キーボード 56 マウス 57 入力手段 58 ネットワーク 60 レシーバ 61 マイク 62 A/Dコンバータ 63 スイッチ 64 音声認識/合成LSI 65 LSI 66 無線部 67 操作部 68 表示部 69 ROM 70 RAM 71 PDC制御部 72 音声処理部 73 PDC−P制御部 80 分析、雑音除去部 81 認識処理部 82 語彙辞書部 83 文法モデル部 84 不特定話者半音節モデル記憶部 85 話者適応後半音節モデル記憶部 86 話者適応制御部 100 iモード携帯電話機 101 iモードサーバ 102 コンテンツ 150 インターネット 151 PDC−Pネットワーク 152 PDCネットワーク 153 専用線 154 パケット通信
【手続補正書】
【提出日】平成12年12月7日(2000.12.
7)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図11
【補正方法】変更
【補正内容】
【図11】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 13/08 G10L 3/00 R 15/06 H 15/00 521S H04M 11/00 302 551A Fターム(参考) 5D015 BB02 GG01 KK01 5D045 AA07 AB04 AB30 5E501 AA04 AA13 AB03 AB15 AC25 BA11 CA08 CB15 EA21 FA32 FA43 5K101 KK16 LL12 NN07 NN08 NN16 NN22 SS07 UU19

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 HTMLテキストの閲覧を行うブラウザ
    を搭載する装置において、 前記HTMLテキストを解析し、解析結果から前記HT
    MLテキストの読み上げ方法を最適化し、前記HTML
    テキストの読み上げ音声の合成を指示するブラウザと、 前記ブラウザが最適化した読み上げ方法により前記HT
    MLテキストの読み上げ音声を前記ブラウザの指示によ
    り合成する前記音声合成手段と、 前記音声合成手段が合成した音声を出力する音声出力手
    段と、 携帯電話の通常の通話機能を司るPDC制御手段と、 インターネットプロトコルを応用したiモードサービス
    等への接続処理機能を司るPDC−P制御手段と、 音声処理を司る音声処理手段と、 音声認識を行う音声認識手段と、 前記PDC制御手段および前記PDC−P制御手段およ
    び前記音声処理手段の各部と前記音声認識手段との間を
    選択的に接続するスイッチとを有し、 前記音声合成および前記音声認識の処理回路の効率化を
    図ったことを特徴とするブラウザ搭載装置。
  2. 【請求項2】 使用者が発した音声を取込む音声入力手
    段をさらに有し、 前記音声認識手段は、前記音声入力手段が取込んだ前記
    音声から前記ブラウザに対する制御指示を認識し、該制
    御指示を前記ブラウザに伝達し、前記ブラウザが前記音
    声認識手段から伝達された前記制御指示を解析し、適切
    な次のアクションを行うことを特徴とする請求項1記載
    のブラウザ搭載装置。
  3. 【請求項3】 発声される可能性のある語彙を記憶する
    認識語彙記憶手段をさらに有し、 前記音声認識時に認識語彙の辞書として前記認識語彙記
    憶手段を前記音声認識手段が使用して前記HTMLテキ
    ストを解析し、 前記解析結果から前記音声認識手段が行う音声認識の認
    識率を向上させ得る語彙を抽出し、該抽出した語彙を前
    記認識語彙記憶手段に前記ブラウザが記憶させることを
    特徴とする請求項2に記載のブラウザ搭載装置。
  4. 【請求項4】 前記HTMLテキスト中に語彙が直接含
    まれる場合に、該語彙を抽出して前記認識語彙記憶手段
    に前記ブラウザが記憶させることを特徴とする請求項3
    に記載のブラウザ搭載装置。
  5. 【請求項5】 前記音声処理に伴う話者の性別、音声の
    ピッチ/スピード、読み上げピッチの加速具合い等につ
    いては、設定で変更可能としたことを特徴とする請求項
    1から4の何れか1項に記載のブラウザ搭載装置。
  6. 【請求項6】 絵文字等の外字の読み上げ方を、設定で
    変えられることとしたことを特徴とする請求項1から5
    の何れか1項に記載のブラウザ搭載装置。
JP2000365278A 2000-11-30 2000-11-30 ブラウザ搭載装置 Expired - Fee Related JP3714159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000365278A JP3714159B2 (ja) 2000-11-30 2000-11-30 ブラウザ搭載装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000365278A JP3714159B2 (ja) 2000-11-30 2000-11-30 ブラウザ搭載装置

Publications (2)

Publication Number Publication Date
JP2002169750A true JP2002169750A (ja) 2002-06-14
JP3714159B2 JP3714159B2 (ja) 2005-11-09

Family

ID=18836081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000365278A Expired - Fee Related JP3714159B2 (ja) 2000-11-30 2000-11-30 ブラウザ搭載装置

Country Status (1)

Country Link
JP (1) JP3714159B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006276800A (ja) * 2005-03-30 2006-10-12 Kyocera Corp 音声合成機能付き文字情報表示装置、およびその音声合成方法、並びに音声合成プログラム
JP2007087267A (ja) * 2005-09-26 2007-04-05 Nippon Telegr & Teleph Corp <Ntt> 音声ファイル生成装置、音声ファイル生成方法およびプログラム
JP2008129934A (ja) * 2006-11-22 2008-06-05 Brother Ind Ltd 表示制御プログラム及び表示制御方法
JP2008157987A (ja) * 2006-12-20 2008-07-10 Toyota Motor Corp 対話制御装置、対話制御方法及び対話制御プログラム
WO2008114453A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
JP2009010493A (ja) * 2007-06-26 2009-01-15 Kyocera Corp 電子機器
JP2011227236A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020021302A (ja) * 2018-08-01 2020-02-06 Nttテクノクロス株式会社 資料作成装置、資料作成システム、資料作成方法及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102232583B1 (ko) 2015-01-08 2021-03-26 삼성전자주식회사 전자장치 및 전자장치의 웹 재현 방법

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883089A (ja) * 1994-09-12 1996-03-26 Fujitsu Ltd ハイパーテキスト読上装置
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JPH10124293A (ja) * 1996-08-23 1998-05-15 Osaka Gas Co Ltd 音声指令可能なコンピュータとそれ用の媒体
JPH10207685A (ja) * 1996-12-04 1998-08-07 At & T Corp ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法
JPH10322478A (ja) * 1997-05-15 1998-12-04 Matsushita Electric Ind Co Ltd 音声によるハイパーテキストアクセス装置
JPH10320168A (ja) * 1997-04-16 1998-12-04 Internatl Business Mach Corp <Ibm> 音声コマンドを使用してネットワークをナビゲートするデータ処理システムおよび方法
JPH10326178A (ja) * 1997-03-21 1998-12-08 Fujitsu Ltd 情報処理装置及びプログラム記憶媒体
JPH11110186A (ja) * 1997-10-02 1999-04-23 Nippon Telegr & Teleph Corp <Ntt> ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JPH11249867A (ja) * 1998-02-27 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声ブラウザシステム
JP2000187493A (ja) * 1998-12-22 2000-07-04 Sumitomo Electric Ind Ltd 音声出力装置および車載用コンピュータ
JP2000215023A (ja) * 1999-01-21 2000-08-04 Toshiba Corp ペ―ジ記述言語表示装置及びペ―ジ記述言語表示プログラムを記録した機械読み取り可能な記録媒体
JP2002524806A (ja) * 1998-09-09 2002-08-06 ワン ボイス テクノロジーズ インコーポレーテッド 音声認識および自然言語処理を使用したネットワーク用対話型ユーザ・インタフェース

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883089A (ja) * 1994-09-12 1996-03-26 Fujitsu Ltd ハイパーテキスト読上装置
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JPH10124293A (ja) * 1996-08-23 1998-05-15 Osaka Gas Co Ltd 音声指令可能なコンピュータとそれ用の媒体
JPH10207685A (ja) * 1996-12-04 1998-08-07 At & T Corp ハイパーリンク化された情報との音声化されたインターフェースのためのシステムおよび方法
JPH10326178A (ja) * 1997-03-21 1998-12-08 Fujitsu Ltd 情報処理装置及びプログラム記憶媒体
JPH10320168A (ja) * 1997-04-16 1998-12-04 Internatl Business Mach Corp <Ibm> 音声コマンドを使用してネットワークをナビゲートするデータ処理システムおよび方法
JPH10322478A (ja) * 1997-05-15 1998-12-04 Matsushita Electric Ind Co Ltd 音声によるハイパーテキストアクセス装置
JPH11110186A (ja) * 1997-10-02 1999-04-23 Nippon Telegr & Teleph Corp <Ntt> ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JPH11249867A (ja) * 1998-02-27 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 音声ブラウザシステム
JP2002524806A (ja) * 1998-09-09 2002-08-06 ワン ボイス テクノロジーズ インコーポレーテッド 音声認識および自然言語処理を使用したネットワーク用対話型ユーザ・インタフェース
JP2000187493A (ja) * 1998-12-22 2000-07-04 Sumitomo Electric Ind Ltd 音声出力装置および車載用コンピュータ
JP2000215023A (ja) * 1999-01-21 2000-08-04 Toshiba Corp ペ―ジ記述言語表示装置及びペ―ジ記述言語表示プログラムを記録した機械読み取り可能な記録媒体

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006276800A (ja) * 2005-03-30 2006-10-12 Kyocera Corp 音声合成機能付き文字情報表示装置、およびその音声合成方法、並びに音声合成プログラム
JP2007087267A (ja) * 2005-09-26 2007-04-05 Nippon Telegr & Teleph Corp <Ntt> 音声ファイル生成装置、音声ファイル生成方法およびプログラム
JP2008129934A (ja) * 2006-11-22 2008-06-05 Brother Ind Ltd 表示制御プログラム及び表示制御方法
JP2008157987A (ja) * 2006-12-20 2008-07-10 Toyota Motor Corp 対話制御装置、対話制御方法及び対話制御プログラム
US7987093B2 (en) 2007-03-20 2011-07-26 Fujitsu Limited Speech synthesizing device, speech synthesizing system, language processing device, speech synthesizing method and recording medium
WO2008114453A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
JP2009010493A (ja) * 2007-06-26 2009-01-15 Kyocera Corp 電子機器
JP2011227236A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JPWO2019138651A1 (ja) * 2018-01-10 2021-01-14 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11373635B2 (en) 2018-01-10 2022-06-28 Sony Corporation Information processing apparatus that fades system utterance in response to interruption
JP7173049B2 (ja) 2018-01-10 2022-11-16 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020021302A (ja) * 2018-08-01 2020-02-06 Nttテクノクロス株式会社 資料作成装置、資料作成システム、資料作成方法及びプログラム
JP7298999B2 (ja) 2018-08-01 2023-06-27 Nttテクノクロス株式会社 資料作成装置、資料作成システム、資料作成方法及びプログラム

Also Published As

Publication number Publication date
JP3714159B2 (ja) 2005-11-09

Similar Documents

Publication Publication Date Title
AU2004218693B2 (en) Sequential multimodal input
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
JP3884851B2 (ja) 通信システムおよびこれに用いられる無線通信端末装置
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
JP2005346252A (ja) 情報伝達システムおよび情報伝達方法
KR20050045817A (ko) 순차 멀티모달 입력
US6732078B1 (en) Audio control method and audio controlled device
JP3714159B2 (ja) ブラウザ搭載装置
JP3733322B2 (ja) マルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラム
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
KR100367579B1 (ko) 음성을 이용한 인터넷사용시스템
Kvale et al. Speech centric multimodal interfaces for mobile communication systems
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
JP2002091473A (ja) 情報処理装置
JP2001282788A (ja) 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
JP6310950B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JPH10322478A (ja) 音声によるハイパーテキストアクセス装置
Niklfeld et al. Device independent mobile multimodal user interfaces with the MONA Multimodal Presentation Server
JP2000231526A (ja) コンテンツ登録装置、および、そのプログラムを記録した記録媒体
JP2004072274A (ja) 音声処理システム及びその制御方法
JPH09258785A (ja) 情報処理方法および情報処理装置
JP2001273216A (ja) 移動端末機によるネットサーフィン方法、移動端末機、サーバシステムおよび記録媒体
JP4530016B2 (ja) 情報通信システムおよびそのデータ通信方法
JP5248051B2 (ja) 電子機器
JP2002158803A (ja) 携帯端末通信システム、及び携帯端末

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050815

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080902

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090902

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090902

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100902

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110902

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120902

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130902

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees