JP3714159B2 - ブラウザ搭載装置 - Google Patents

ブラウザ搭載装置 Download PDF

Info

Publication number
JP3714159B2
JP3714159B2 JP2000365278A JP2000365278A JP3714159B2 JP 3714159 B2 JP3714159 B2 JP 3714159B2 JP 2000365278 A JP2000365278 A JP 2000365278A JP 2000365278 A JP2000365278 A JP 2000365278A JP 3714159 B2 JP3714159 B2 JP 3714159B2
Authority
JP
Japan
Prior art keywords
voice
browser
recognition
vocabulary
pdc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000365278A
Other languages
English (en)
Other versions
JP2002169750A (ja
Inventor
茂雄 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000365278A priority Critical patent/JP3714159B2/ja
Publication of JP2002169750A publication Critical patent/JP2002169750A/ja
Application granted granted Critical
Publication of JP3714159B2 publication Critical patent/JP3714159B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ブラウザ搭載装置に関し、特に、HTMLテキスト、あるいは、その応用テキストを閲覧可能な「ブラウザ」を搭載した情報処理機能を有するブラウザ搭載装置に関する。
【0002】
【従来の技術】
従来、ブラウザ搭載装置は、例えば、インターネットへ適用される。ここでのインターネットとは、コンピュータ間通信のネットワークであり、様々なネットワークが相互に接続し、大規模なネットワークとなったものである。その歴史は、1960年代に米国国防省の関連機関であるDARPA(Defense of Advanced Research Projects Agency)が実験的に開始したARPAnetに端を発する。
【0003】
1980年代初め、一般利用者にARPAnetの利用を認めるに伴い、コンピュータのOSの一つ:BSD UNIXで利用される通信プロトコル:TCP/IP(Transmission Control Protocol/Internet Protocol)が、同ネットにも採用され、この結果、同ネット接続時のコンピュータ機種依存性が排除された。また、同時期、大学や研究機関を中心に、学術的な利用を目的としたLAN(Local Area Network)の構築が始まっており、研究者間での情報交換を積極的に行うため、これらのLANは相互に接続され、ARPAnetとも接続され、最終的には全米に跨る大規模なネットワークへと発展した。この大規模ネットワークこそがインターネットであり、その拡大は現在も全世界の隅々に向けて進んでいる。
【0004】
インターネット通信技術とは、インターネット上の別のコンピュータと、インターネットを介して、通信を行う上で必要となる技術群を指し、単にハードウェアに留まらず、広くインターネット・プロトコルをも含む。
【0005】
インターネット・プロトコルとは、インターネット上で通信を行うためのプロトコル(通信手順)であり、上述のTCP/IPが最も基本的なプロトコルである。これをベースとして、例えば、ファイル転送を行う場合は、FTP(File Transfer Protocol:ファイル転送プロトコル)と呼ばれるプロトコルを使用し、e−Mailを送信する場合は、SMTP(Simple Mail Transfer Protocol:簡易メール転送プロトコル)と呼ばれるプロトコルを使用し、WWW(World Wide Web)サービスを提供するコンピュータを意味する、Webサーバにアクセスする場合は、HTTP(HyperText Transfer Protocol:ハイパーテキスト転送プロトコル)と呼ばれるプロトコルを使用する。
【0006】
HTML(HyperText Markup Language:ハイパーテキスト記述言語)とは、ハイパーテキストを記述するための言語体系である。Webページには、ハイパーテキストが用いられるが、今や世界のデジタル・コンテンツの99%が、インターネットの世界標準であるHTMLで記述されていることから、最近では、インターネット接続が可能な装置と言えば、単にインターネットに接続できるだけではなく、インターネット上のWebサイトからHTTPプロトコルを用いてダウンロードしたHTMLテキストをハイパーテキストとして閲覧できる装置、即ち、「ブラウザ」と呼ばれる閲覧ソフトを予め搭載した装置(或いは、オプションとして別途搭載できる装置)を指すように、その解釈が変わり始めてきている。
【0007】
ブラウザを搭載したコンピュータの動作概要を、図11に記す。コンピュータ50は、キーボード55やマウス56等から構成される入力手段57、CRTや液晶ディスプレイ等の表示手段54、メモリや磁気ディスク装置等の記憶手段53、及び、内蔵モデム等の通信手段52を有し、ブラウザ51がこれらを制御する。ブラウザ51は、通信手段52を介して、ネットワーク58に接続し、インターネット上のWebサーバにアクセスする。WebサーバからダウンロードしたHTMLテキストは、一旦記憶手段53に格納される。ブラウザ51は、これを解析し、ハイパーテキストとして、表示手段54に表示する。また、読みたいページのアドレスを指定するためのURL(Uniform ResourceLocator)入力や、ハイパーテキスト中に含まれるリンクやアイコンのクリック等は、入力手段57を介して行う。
【0008】
当初、インターネットに接続される装置はコンピュータだけであったが、昨今では、携帯式の情報端末に加えて、テレビやゲームマシン、更に携帯電話においても、ブラウザの装備を含めて、インターネットへの接続機能を装備するものが現れた。
【0009】
携帯電話が搭載するブラウザは、携帯電話がパソコンと比較して処理能力やメモリ容量が乏しい。例えば、最初のブラウザ対応携帯電話機に搭載されたローパワーSRAMは8Mbitsに過ぎず、カラー化が実現された昨今でも最大16Mbitsに過ぎない。加えて、表示能力、表示サイズ、操作方法等にも制限があることから、携帯電話機用に性能を特化した「マイクロブラウザ」が使用されている。本ブラウザを用いて、携帯電話用に操作面での仕様拡張が行われた「コンパクトHTML」を閲覧できる。
【0010】
携帯電話からインターネットに接続する場合、「携帯電話網」の中にインターネット接続を中継する機能があり、ここを経由して、インターネットへの接続を行う。
【0011】
具体的には、1999年2月22日、株式会社NTTドコモが「iモードサービス」を開始したが、これが、携帯電話からインターネットへの乗入れを可能とした最初のサービスである。
【0012】
なお、iモードサービスには、URLの直接入力により、インターネット上のWebサイトへのアクセスを実現する「インターネット接続サービス」以外にも、e−Mail(呼称:iモードメール)、簡易メール(呼称:ショートメール)等の受発信や転送機能を司る「メール・サービス」、及び、簡単なボタン操作だけで、コンテンツ・プロバイダが提供する、以下のコンテンツへのアクセスを実現する「オンライン・サービス(別名:サイト接続サービス)」等がサポートされている。
【0013】
(1)銀行振込や航空券・ホテル・チケット予約等の取引系サービスを提供するコンテンツ。
(2)乗換え案内や字引等のデータベース系サービスを提供するコンテンツ。
(3)ニュース・天気予報や株価情報等の生活情報系サービスを提供するコンテンツ。
(4)FM局情報やゲーム・占い等のエンターテイメント系サービスを提供するコンテンツ。
【0014】
即ち、iモードサービスとは、上記サービスを提供するシステムが、インターネット上に直接構築されている訳ではなく、図12に記すとおり、インターネット150とは異なる、NTTドコモ社独自のネットワークである「PDC(Personal Digital Cellular Telecommunication System:デジタル移動通信方式)移動パケット通信ネットワーク」(呼称:PDC−Pネットワーク)151上に、インターネットとの中継機能を有する「iモードサーバ」101を配した形で、構築されたシステムである。ここで、PDC−Pネットワーク151は、同社が「DoPa」/ドーパと命名したパケット通信サービスを行う目的で、予め構築していた全国パケット通信網に過ぎない。しかし、PDC−Pネットワーク151上でiモード通信を行う場合には、PDC−Pネットワーク151上のデータ転送プロトコルとして、iモード通信に特化したインターネット・プロトコルを採用し、データ転送の効率化に心掛けている。具体的には、以下のとおりである(図13参照)。
【0015】
(1)iモード携帯電話機100とPDC−Pネットワーク151を接続するプロトコルとして、ベアラ(データ転送プロトコルの最下位層に当たり、物理層とデータリンク層を含む)の上位に、TLP(Transport LayerProtocol:トランスポート層プロトコル)を採用。TLPは、インターネットプロトコルを簡略化して、iモード通信向けに最適化したものである。
【0016】
(2)PDC−Pネットワーク151とiモードサーバ101との接続には、TCP/IPに加えて、UITP(User Information Transfer Protocol:加入者情報伝達プロトコル)とNWMP(Network Management Protocol:ネットワーク管理プロトコル)の3プロトコルを採用。UITPとNWMPは、TLPがインターネットプロトコルを簡略化したものであるために生じる不具合を補いつつ、しかも、課金制御や保守機能を実現するなど、iモード通信向けに最適化を施したものである。
【0017】
(3)iモードサービスのアプリケーション通信プロトコルとして、ALP(Aplication Layer Protocol:アプリケーション層プロトコル)を採用。これは、インターネット・プロトコルの世界標準であるHTTPを改良し、iモード通信向けに最適化を施したものである。
【0018】
なお、ALPは、通信フォーマットをHTTPと同一にすることで、インターネットへの乗入れを容易化している反面、iモードサービスに特有の機能の実現と通信データ量の削減を図るため、以下の機能が付加されている。
【0019】
(a)サービス上は不要な「HTTPヘッダ」を付与しない。この結果、データ量が削減される。
(b)e−Mailの送受信は、HTTPで行う。即ち、e−Mailは、HTTPフォーマットに変換の上、転送される。
【0020】
(c)着信通知信号を付与している。この結果、例えば、メールサーバ機能を併せ持つiモードサーバ101に、加入者宛のe−Mailが届いた場合、iモードサーバ101から加入者のiモード携帯電話機100に着信通知信号が送付され、その旨が通知される。なお、iモード携帯電話機100からiモードサーバ101へのサービス要求を「プル型」と呼ぶのに対し、iモードサーバ101からiモード携帯電話機100へのサービス要求を「プッシュ型」と呼ぶ。
【0021】
iモードサービスのシステム構成を理解することで、インターネット通信技術が、インターネットの世界に限らず、携帯電話網等の他のネットワークにも広がり始めてきている事実を理解できる。これは、他のネットワークからインターネットへの乗入れを容易に実現して、インターネット世界の内外に存在する、種々のネットワーク資産を利用するためである。
【0022】
従来のiモード携帯電話機のブロック図を、図14に記す。特開平11−112633号に記される、従来の携帯電話機のブロック図と同一の図であるが、iモード処理機能をPDC−P制御部73としてLSI65の内部に含めた形で記述している。
【0023】
即ち、iモード携帯電話機は、通常の携帯電話機として使用するための機能として、受話器に相当するマイク61とレシーバ60、操作部67、表示部68、無線部66、入出力音声をアナログ〜ディジタルの双方向に変換可能なA/Dコンバータ62、各種固定データを記録するROM69、各種可変データを記録するRAM70、及び、LSI65に内蔵され、携帯電話の通常の通話機能を司るPDC制御部71とを有する。
【0024】
次いで、iモードで使用するための機能として、iモード通信機能を司るPDC−P制御部73を、LSI65に内蔵している。尚、iモードで使用する場合、マイク61とレシーバ60は使用しない。最近の装置では、着メロ演奏機能が付加されたが、本機能は、レシーバ60のみを流用する。
【0025】
最後に、電話番号の音声入力、登録済電話番号の別名による音声呼出し(「ボイスサーチ」と呼ばれる)、ファンクション機能の音声呼出し等の音声処理機能として、音声認識/合成LSI64と、音声情報の伝達方向を切換えるスイッチ63、及び、LSI65に内蔵され、音声処理を司る音声処理部72とを有する。
【0026】
LSI65の内部にある、PDC制御部71、音声処理部72及びPDC−P制御部73は、使用者の立場からは、見掛け上、同時に動作するものではなく、各々を切換えながら使用するものとして映っている。具体例を挙げれば、ボイスサーチによる登録済電話番号の読出し時は、音声処理部72のみが動作し、PDC制御部71とPDC−P制御部73は休止中となる。読出された電話番号に発信(発呼)し、通常電話を開始する場合は、PDC制御部71が起動し、音声処理部72とPDC−P制御部73は休止状態となる。待受け受信時にiモードボタンを押下することで、PDC−P制御部73が起動し、PDC制御部71と音声処理部72は休止状態となる。iモード処理中に電話の着信があれば(着呼)、PDC制御部71が起動し、音声処理部72とPDC−P制御部73は休止状態となる。
【0027】
ここで、簡易メール(NTT呼称:ショートメール)機能についても、説明する。本機能は、iモードに固有の通信機能ではない。簡易メールとは、電話により、音声ではなく、文字をやり取りする通信方式である。その通信原理は、特定の文字を、複数のプッシュボタンの各々の押下回数に応じて表現するものである。即ち、プッシュボタン音の組み合せで、文字を表す。このため、メーカに依存せず、通常の携帯電話や自動車電話、更にプッシュボタン式の一般電話や公衆電話からでも、簡易メールを送信することができる。
【0028】
簡易メールの送受信動作を、図14を用いて説明する。送信時、操作部67を介して入力されたテキストは、RAM70上に蓄積されると共に、表示部68にも表示される。操作部67上の発信キーの押下により、RAM70上に蓄積された入力テキストは、PDC制御部71で、各々の文字が、複数のプッシュボタンの、各々の押下回数の組み合わせへと変換され、無線部66を介して、簡易メールとして、メールセンタ(NTTの場合、ショートメールセンタ)宛に発信される。一方、簡易メールの受信時は、相手局は、メールセンタからの着信通知を受けて、PDC制御部71の制御の下、簡易メールを、無線部66を介してRAM70上にダウンロードする。RAM70上に蓄積された簡易メールは、PDC制御部71によって、複数のプッシュボタンの各々の押下回数の組み合わせから、特定の文字へと一つずつ逆変換され、最後に、受信テキストとして表示部68に表示される。
【0029】
PDC制御部71が有する入力されたテキストを、上記の特定の文字を表現する複数のプッシュボタンの、各々の押下回数の組み合わせへと変換する機能を、「ショートメール符号化機能」と呼び、その逆の変換を行う機能を、「ショートメール複合化機能」と呼ぶ。
【0030】
インターネット、あるいは、iモードのPDC−Pネットワークに代表されるインターネット通信技術を応用したネットワークに接続し、インターネットプロトコルの世界標準であるHTTP、或いは、iモードのALPに代表されるHTTPを応用したプロトコルを用いて、本ネットワーク上で運営されている各種サービスにアクセスする。さらに、インターネットの世界標準であるHTML、或いは、iモードのコンパクトHTMLに代表される、HTMLを応用した記述言語によって構築された各種コンテンツの中から、自分達にとって必要な情報を入手し、本サービスの恩恵を得る。
【0031】
これらの利用形態は、今後更なる発展と広がりを見せる方向にある。例えば、固定電話、ファックス、公衆電話、受信チューナ、ビデオ、カメラ、冷蔵庫、電子レンジ、クーラー、洗濯機/乾燥機、医療機器、CD/ATM、自動車、ロボット等の各種装置において、上記ネットワークへの接続機能の装備と、アクセスの結果得られた情報を実際のユーザに提供する際の方法(サービス内容)の検討が、既に開始されている。これら装置の増加は、上記サービスへのアクセスに一層の拍車を掛けるものとして、通信事業者やコンテンツプロバイダ等からも期待されている。
【0032】
本発明は、上記HTML、あるいは、HTMLを応用した記述言語の閲覧が可能なブラウザ機能を装備した装置全般に関するものである。
【0033】
なお、インターネットと似た言葉であるイントラネットとは、インターネット通信技術を採り入れて構築した、企業(等の)「内部」のネットワークを意味しており、他方、反意語のエクストラネットは、企業「間」のネットワークを表すが、いずれもインターネットの一部である。
【0034】
本発明と技術分野が類似する先願発明例として、例えば下記のものがある。
(1)特開平11−112633号公報の図1
(2)特開平11−163995号公報の図1
(3)特開平10−190797号公報の図1
(4)特許第2655086号の図1
(5)特開2000−105681号公報の図1
【0035】
【発明が解決しようとする課題】
しかしながら、上記の従来技術は、下記の各種の問題を伴う。
第1の問題点は、上記装置に提供される各種サービスは、目の不自由な方々にとって、益々使いづらいものとなっていく点である。その理由は、マルチメディアがインターネットの基盤となっていることから、提供されるサービス内容においても、当然マルチメディア的なものが多用される方向にあるが、マルチメディアの中には、文字や画像/映像(図、静止画、動画等)等の視覚を利用したものが多々あり、これらは目の不自由な方々にとって、大きな障壁(バリア)になるためである。特に、携帯電話機は、従来から、目の不自由な方々に対する配慮が脈々となされていた機器である(携帯電話機自身については、特開平11−163995号を、その収容ホルダについては、特開平10−190797号公報を参照)にもかかわらず、インターネット接続機能のサポートに関しては、この配慮が全くなされておらず、目の不自由な方々の期待を裏切る、心地良くない機能追加として、受け止められていた。
【0036】
携帯電話機の例を具体的に記す。音声通話機能しかない従来型の携帯電話機を用いて電話を掛ける分には、0〜9及び発信ボタンを操作するだけなので、目の不自由な方々でも何とかこれを使用することができた。加えて、携帯電話機にワンタッチ(又はツータッチ)ダイヤル機能やボイスサーチ機能(音声認識に基づく登録済電話番号の読出し/発呼機能)等を追加することで、目の不自由な方々の負担を一層軽減することができた。更に、特開平11−163995号では、ボタン部分への突起物の付与が提案されており、特開平10−190797号では、収容ホルダのボタン部に点字状の突起物を付与し、携帯電話機を収納したまま、使用することが提案されている。
【0037】
しかし、簡易メール機能(ショートメール等)を使用する場合には、送信時、メール文章のデータ入力が必要となるが、送信したい文字の選択が、ボタンの押下順序や回数を組み合せて行う方式であるため、複雑なボタン操作がどうしても必要となり、目の不自由な方々には、とても扱える代物ではなかった。最近では、外付けのキーボード(呼称:iボード)や、タッチペン形式のポインティング・デバイスが、オプションで提供されている機種もあるが、あくまでもボタン操作に不慣れな人向けの支援機能に過ぎず、目の不自由な方々にとって、これらは大差がない。いわんや、受信したデータについては、画面に表示されるだけであり、目の不自由な方々は、これを読むことができない。
【0038】
更に、iモードサービスに至っては、送信時、データ入力以前に、画面上に表示される案内文を一旦読み、理解した上で、案内文中に指定されるボタン操作を、適切に行う事が要求されるが、目の不自由な方々には、要求された操作を、その通りに行う事が出来ない。
【0039】
第2の問題点は、目の不自由な方々向けに適切なコンテンツを提供することが、コンテンツ・プロバイダには不可能であったり、あるいは、コンテンツの作成に時間が掛かり、高価になる点である。その理由は、目の不自由な方々に文字や画像/映像から構成されるコンテンツをそのまま提供することは失礼な話であるため、別法を採るとした場合、残された有効な情報提供手段は、現技術水準では音声のみである。このため、作成済のコンテンツを音声のみから構成される形に作り替えなければならず、その分、費用がかさみ、時間を要することとなる。
【0040】
携帯電話機の例を具体的に記せば、iモードサービスの場合、コンテンツ・プロバイダは、HTML4.0の機能縮小版である「コンパクトHTML」を用いてコンテンツを記述すれば良い。このため、普通にウェブ(Web)ページを作れる人にとっては、特別に覚えなければならない事柄はほとんどなく、コンテンツの作成は比較的容易であった。他方、これを目の不自由な方々向けに、音声情報だけを用いた形に書き直す、とすれば、例えば、案内音声を記録したWAVファイル(等)をダウンロードさせ、これを再生させるようにコンテンツを作り替える必要がある。しかし、現在の携帯電話機は、ピアノやギターなどの音色再生を目的としたFM音源や多重和音機能等をサポートするのみであり、加えて、ダウンロードによって再生可能なサウンド系ファイルも、着メロ用のMIDファイル(MIDI Data File)のみである事から、音声は再生できず、音声案内を実現できない。
【0041】
そもそも、iモードサービスの形態は、目の不自由な方々に情報を提供することが想定されていない。それは、iモードサービスのコンセプトが「話すケータイから使うケータイへ」だからである。そのことを考え合わせると、目の不自由な方々には使えないケータイが、一概に悪いとは責められない。むしろ、目の不自由な方々には、従来の音声通話機能で電話を掛けて頂き、コンテンツ・プロバイダの側では、その目的専用に、音声案内人を雇用して、教育後、その任に当たらせるなり、或いは、音声応答装置を購入し、その目的向けの専用記述言語を用いて、音声応答の手順等をプログラミングして運用するなりした方が簡便ですらある。勿論、その分、費用が嵩み、時間を要するが、それは止むを得ない。
【0042】
本発明は、音声合成及び音声認識処理回路を効率化し、ブラウザ搭載装置の小型・軽量化を廉価に実現することを目的とする。その上で、本発明は、特性・性能向上、文字入力の高速化、操作性向上、文字入力の簡易化等を図ったブラウザ搭載装置を提供することを目的とする。
【0043】
本発明の究極的な目的は、マンマシンインタフェースの改善(眼の不自由な方々でも操作可能とする)を図り、コンテンツ・プロバイダ側で発生する負担を極力抑えながら、眼の不自由な方々を、インターネットの世界に誘うことにある。
【0044】
【課題を解決するための手段】
かかる目的を達成するため、請求項1の発明は、iモードサービスを提供するパケット通信網であるPDC−Pネットワークとの接続処理を制御するPDC−P制御手段によりPDC−Pネットワークに接続され、該PDC−Pネットワークを介して接続されたインターネット等の通信ネットワークから受信したHTMLテキストを解析し、該解析結果を基に、前記HTMLテキストを、音声として読み上げる方法を所定の基準により決定し、該決定された読み上げ方法により、前記受信したHTMLテキストを音声として合成する旨の指示を、音声合成手段に対して行うブラウザと、使用者が発した音声を取込む音声入力手段と、前記ブラウザの指示により、前記HTMLテキストを音声として合成し、又は、前記音声入力手段により取り込まれた音声を認識する音声認識手段としても動作する音声合成手段と、前記音声合成手段により合成された音声を出力する音声出力手段と、前記ブラウザ、前記音声合成手段、及び、前記音声出力手段が実行する前記HTMLテキストの音声出力動作の制御をする前記PDC−P制御手段と、携帯電話の発信先の電話番号をボタン操作で入力する代わりに電話番号自体を音声により入力する場合、携帯電話に予め登録された発信先の電話番号を該電話番号と関連付けられた別名の音声により入力する場合、又は、携帯電話の使用中に所定のファンクション機能を動作させるために、該携帯電話に設置された各ファンクションキーを押下する代わりに、各ファンクション機能を音声により入力する場合に、それぞれ必要とされる所定の音声処理を行う音声処理手段と、携帯電話の待ち受け時、発信時、着信時、又は、通話時の、各モードにおける所定動作を制御するPDC制御手段と、前記PDC−P制御手段、前記音声処理手段、及び、前記PDC制御手段の各部と、前記音声合成手段との間を選択的に接続するスイッチと、を具備し、前記スイッチを介して、前記音声合成手段(兼前記音声認識手段)と前記PDC制御手段とが接続される場合に、受信した簡易メールを音声として音声合成し、又は、前記音声入力手段により入力された音声を前記音声認識手段により認識して前記PDC制御手段により簡易メールを作成し、前記スイッチを介して、前記音声認識手段と前記音声処理手段とが接続される場合に、前記所定の音声処理が実行され、前記スイッチを介して、前記音声認識手段と前記PDC―P制御手段とが接続される場合に、前記HTMLテキストの音声出力動作が実行され、又は、前記音声認識手段は、前記音声入力手段が取込んだ前記音声から前記ブラウザに対する制御指示を認識し、該制御指示を前記ブラウザに伝達し、前記ブラウザが前記音声認識手段から伝達された前記制御指示を解析し、適切な次のアクションを行うブラウザ搭載装置としたことを特徴とする。
【0046】
請求項記載の発明は、発声される可能性のある語彙を記憶する認識語彙記憶手段をさらに有し、前記音声認識手段は、認識語彙の辞書として前記認識語彙記憶手段を使用して前記HTMLテキストを解析し、前記解析結果を基に、前記音声認識手段が行う音声認識の認識率を向上させ得る語彙を抽出し、前記ブラウザは、前記音声認識手段が抽出した語彙を前記認識語彙記憶手段に記憶させる請求項記載のブラウザ搭載装置としたことを特徴とする。
【0047】
請求項記載の発明は、前記HTMLテキスト中に語彙が直接含まれる場合に、前記ブラウザは、該語彙を抽出して前記認識語彙記憶手段に記憶させる請求項記載のブラウザ搭載装置としたことを特徴とする。
【0048】
請求項に記載の発明は、前記音声出力手段により出力される音声において、話者の性別、音声のピッチ/スピード、及び、読み上げピッチの加速具合いについての設定及び設定変更を可能とした出力音声設定手段を更に具備した請求項1からのいずれか1項に記載のブラウザ搭載装置としたことを特徴とする。
【0049】
請求項に記載の発明は、絵文字等の外字の読み上げ方法についての設定及び設定変更を可能とした外字読み上げ方法設定手段を更に具備した請求項1からのいずれか1項に記載のブラウザ搭載装置としたことを特徴とする。
【0050】
【発明の実施の形態】
次に、添付図面を参照して本発明によるブラウザ搭載装置の実施の形態を詳細に説明する。図1から図10を参照すると、本発明のブラウザ搭載装置の一実施形態が示されている。
【0051】
図1は、本発明の第1の実施形態を示すブロック図である。図1を参照すると、本発明の第1の実施形態は、従来技術を表す図11に対して、HTMLテキストを解析し、解析結果からHTMLテキストの読み上げ方法を最適化し、音声合成手段に対し、HTMLテキストの読み上げ音声の合成を指示する音声ブラウザ1と、音声ブラウザ1が最適化した読み上げ方法により、HTMLテキストの読み上げ音声を合成する音声合成手段2と、音声合成手段2が合成した音声を出力する音声出力手段3とを追加している。
【0052】
図2は、本発明の第2の実施形態を示すブロック図である。図2は、第1の実施形態を示す図1に対して、使用者が発した音声を取込む音声入力手段5と、音声入力手段5が取込んだ音声から、音声ブラウザ1に対する制御指示を認識し、制御指示を音声ブラウザ1に伝達する音声認識手段4とを追加し、更に、音声認識手段4から伝達された制御指示を解析し、適切なアクションを行うように音声ブラウザ1を変更している。
【0053】
図3は、本発明の第3の実施形態を示すブロック図である。図3は、第2の実施形態を示す図2に対して、発声される可能性のある語彙を記憶する認識語彙記憶手段6を追加し、更に、音声認識時、認識語彙の辞書として、認識語彙記憶手段6を使用するように音声認識手段4を変更し、加えて、HTMLテキストを解析し、解析結果から、音声認識手段4が行う音声認識の認識率の向上させ得る語彙を抽出し、該抽出した語彙を認識語彙記憶手段6に記憶させるように音声ブラウザ1を変更している。
【0054】
図4は、本発明の第4の実施形態を示すブロック図である。図4は、第3の実施形態を示す図3に対して、HTMLテキスト中に語彙が直接含まれる場合に、該語彙を抽出し、認識語彙記憶手段6に記憶させるように音声ブラウザ1を変更している。
【0055】
(動作例)
図1に示す本発明の一実施例を表すブロック図、及び、図5に示す音声ブラウザ1の動作例を示すフローチャートを用いて、本発明の第1の実施形態における動作内容を説明する。
【0056】
ブラウザ搭載装置50は、ブラウザ51の指示で、通信手段52を介して、ネットワーク58に接続し、インターネット上のWebサーバにアクセスし、ダウンロードしたHTMLテキストを一旦記憶手段53に格納する。音声ブラウザ1は、これを読取り、一次解析し(図5のステップS1)、HTMLテキストに文法誤り等がなければ(ステップS2)、HTMLテキスト上の表示開始位置(通常は、HTMLテキストの先頭位置。尚、HTMLテキスト内で、<A NAME=…>タグにより、ラベル名が定義されており、且つ、そのラベル名にリンクするようにブラウザ51が指示されていた場合には、そのラベル位置。)から、順次HTMLテキストを二次解析し、読み上げ文書を構築し、最適化する(ステップS3)。具体的には、通常のテキスト部分とHTMLタグ部分を分解し、HTMLタグ部分は、更に、その属性と属性の値とを読取り、個々のHTMLタグの、全文における位置付けをも把握しながら、目の不自由な方々に理解されやすい、文章表現と読み上げ方法とをデザインする。その要領は、例えばiモード携帯電話で使用されるコンパクトHTMLを用いれば、以下のとおりである。
【0057】
(機能1)
読み上げ方は、基本的には、ハイパーテキストとして表示されたHTMLテキストを、通常の人が自然に読むのと同じ要領で読み上げる。例えば、FRAMEタグにより、画面が左右に分割されている場合には、左側のFRAMEの内部を先に全て読み上げる(これは、通常のブラウザ51が画面表示をデザインする際に用いる方法)のではなく、表示面積の大きい側の画面から順に、ブロック(段落等)毎に交互に、読み上げるものとする。具体的には、左右のFRAMEの内部で、読み上げるブロックを各々まとめ、仮に右側の画面がより表示面積が大きいと仮定すれば、右側から読み始めるものとし、右1ブロック→左1ブロック→1ブロック分下に降りて、右1ブロック→左1ブロック→1ブロック分下に降りて、右1ブロック→…という要領で読み上げる。尚、上記読み上げ方法は、本願出願者にとっては自然な流れだが、本ブラウザ搭載装置の実際の使用者にとっては、不自然な読み上げ方かも知れない。この為、本読み上げの方法は、設定で変えられることが望ましい。
【0058】
(機能2)
通常テキストは、男性が低い声で読み上げる。リンクのある部分は、女性の声で読み上げる。一度訪問した実績のあるリンクの部分は、女性が高めの声で早口に読み上げる。accesskey 等の操作方法の指示部は、男性が普通の声で読み上げる。例えば、HTMLテキストが、
「メニューリスト
<A accesskey="1" HREF="http://…">1.ニュース/情報</A>
<A accesskey="2" HREF="http://…">2.モバイルバンキング</A>
<A accesskey="3" HREF="http://…">3.カード/証券/保険</A>」
の場合、読み上げ方は以下のとおり、男性が低い声で、「メニューリスト」と読み上げた後、女性の声で「1 ニュース情報」と読み上げ、その直後に、男性が普通の声で「1キーで アクセスします」と操作方法を解説する。話者の性別や、音声のピッチ/スピードは、設定で変えられることが望ましい。
【0059】
(機能3)
操作方法の解説が連続する場合には、解説文の読み上げ方を省略する。例えば、(機能2)の例では、以下、女性の声で「2 モバイルバンキング」、男性が普通の声で「2です」、女性の声で「3 カード 証券 保険」、男性の普通の声で「3です」と読み上げる。なお、具体的な省略の仕方や、解説が連続状態に入った場合の読み上げピッチの加速具合い等については、設定で変えられることが望ましい。
【0060】
(機能4)
表示の位置に関するHTMLタグ及び属性は、(機能1)のブロック位置の算出を除き、読み上げの際には無視する。例えば、タグ<CENTER>、属性 align、等は無視する。
【0061】
(機能5)
絵文字は外字につき、その「意味」を読み上げる。例えば、ハートマーク(絵文字コード:&#63726。本コードは、メーカに依存する)の場合は、「ハート」と読み上げる。なお、その読み上げ方は、設定で変えられることが望ましい。
【0062】
(機能6)
画像(iモード携帯電話の場合、GIFのみ)は、無視する。但し、HTMLテキスト中で、
「<IMG SRC="http:// …" ALT=" 彼氏">」
のように、ALT属性で代替文字の指定があった場合には、男性の普通の声で「彼氏の絵」等の解説を加える。(機能1)の作用により、本解説文を読み上げる場所は、文脈に沿った、適切な場所で、読み上げる。なお、解説の有無及び解説の内容は、設定で変えられることが望ましい。
【0063】
(機能7)
文字等に対する装飾は、無視する。例えば、タグ<PRE> 、<H1>〜<H6>、属性 bgcolor、等である。
【0064】
(機能8)
リスト(タグ:UL,OL,LI,DL,DT,DD )やテーブル(タグ:TABLE,TR,TH,TD,CAPTION)については、その部分を読み上げる前に、「続いて リスト(テーブル)の読み上げを行います」等の解説を加える。ただし、リストやテーブルがネスト(nest)になる場合には、聞き手に混乱を与えないために解説は省略する。また、項目が行頭に当たる場合は、話者を変える等して、その項目が行頭に当たることを聞き手に印象付ける。
【0065】
(機能9)
フォームについては、読み上げ完了後、一括して入力(または、選択)して頂くこととなるため、読み上げ中は、「後で 入力(または、選択)して下さい」又は「後で 変更できます」等と、簡単に読み上げる。全文読み上げ終了時、フォーム部分に限定して、会話形式による読み上げと、テキスト入力(または、選択)を行わせ、最後にReset相当又はSubmit相当ボタン(アイコン)の入力を行わせるような音声案内を行う。
【0066】
具体例として、以下のHTMLテキストがあった場合、
「<H1 align="center"> 全製品の検索画面</H1>
<FORM method=POST action="search.cgi">
検索型番:<INPUT type=text name=word size=32 value="N502it Hyper">
<INPUT accesskey="0" type=submit value="検索">
<INPUT accesskey="1" type=reset value=" クリア">
並べ方(複数指定時):<INPUT accesskey="2" type=radio name=srt value="1" checked> 型番昇順
<INPUT accesskey="3" type=radio name=srt value="2"> 発売日降順
</FORM> 」
【0067】
全文読み上げ時は、上記の部分は以下のとおり、読み上げる。
「(男性の声) …。全製品の検索画面。
(女性の声) ここから先は、後でまとめて入力して下さい。
(男性の声) 検索型番 N502it Hyper。
(女性の声) 後で変更できます。
(男性の声) 並べ方。複数指定時。型番昇順。発売日降順。お奨めは、型番昇順。
(女性の声) 後で変更できます。
(INPUT タグの type=submit,reset部に関しては、この段階では読み上げない。)
(次いで、フォーム部の終了を示すチャイムの鳴動音等)。
(男性の声) …。(残りのテキストを読み上げる)。」
【0068】
次いで、全文読み上げ完了時、以下のとおり、読み上げる。
「(女性の声) では、先程お話ししたまとめ入力をこれから行いましょう。
(男性の声) 検索型番 N502it Hyper。
(女性の声) 変更する場合は今入力して下さい。変更しない場合は、0キーを押して下さい。
(入力の完了を待つ。暫くして、何の入力もなければ、再度音声で入力を促す。尚、「変更しない場合の0キー」とは、INPUT タグの type=submit部にある属性accesskey の値を使用することが初期設定されていることを仮定)。
【0069】
(男性の声) 並べ方。複数指定時。
(女性の声) 次の2つの中からいずれかを選択して下さい。
(男性の声) 型番昇順。
(女性の声) 2キーで選択します。
(男性の声) 販売日降順。お奨めは、型番昇順。
(女性の声) 3キーです。いずれかを今選択して下さい。0キーでお奨めを選択することもできます。
(入力の完了を待つ。暫くして、何の入力もなければ、再度音声で入力を促す。尚、「0キーでお奨めを選択する」とは、INPUT タグのtype=submit 部にある属性accesskey の値を使用することが初期設定されていることを仮定)。
【0070】
(女性の声) 最後に、まとめ入力の内容を確認します。
(男性の声) 検索型番(上記で入力された型番の読み上げ)。並べ方。複数指定時(上記で選択された並べ方を読み上げ)。
(女性の声) 「検索」を行う場合は、0キーを押して下さい。「クリア」を行う場合は、1キーを押して下さい。
(入力の完了を待つ。暫くして、何の入力もなければ、再度音声で入力を促す)
【0071】
(機能10)
入力手段57からの適切な指示(ボタン押下等)により、通常テキスト部分の読み上げを行わず、リンクの部分だけを読返す機能を、音声ブラウザ1に付与することが望ましい。本機能の追加により、最初に全文を聞き終えた後、本機能を起動して、リンクの部分だけを必要なだけ読返すことが可能となり、リンク先の指定(ボタン押下等)を、さほど混乱することなく正確に行うことができる。
【0072】
(機能11)
警告メッセージの発生時は、読み上げ処理を一旦中断し、警告メッセージの読み上げを行い、必要があれば文字入力や選択等を会話形式で行い、最後にボタン押下やアイコン・クリックを行わせるように音声案内を行う。なお、本ボタンの押下後は、必要に応じて中断していた読み上げ処理を再開する。
【0073】
音声ブラウザ1は、ステップS3で最適化された読み上げ文章を、ステップS4で音声合成手段2に転送し、音声出力手段3を通して音声出力させる。
【0074】
また、ステップS2でHTMLテキストに文法誤り等があれば、読み上げのできない旨を音声合成手段2に伝えて、音声出力手段3を通して、その旨を音声出力させる(ステップS5)。
【0075】
読みたいページのアドレスを指定するためのURL入力や、ハイパーテキスト中に含まれるリンクやアイコンのクリック等は、従来同様、入力手段57を介して行う。
【0076】
次に、図2に示す本発明の一実施例を表すブロック図、及び、図6に示す音声ブラウザ1の動作例を示すフローチャートを用いて、本発明の第2の実施形態における動作内容を説明する。
【0077】
ブラウザ搭載装置50は、ブラウザ51の指示で、通信手段52を介して、ネットワーク58に接続し、インターネット上のWebサーバにアクセスし、ダウンロードしたHTMLテキストを一旦記憶手段53に格納する。音声ブラウザ1は、これを読取り、第1の実施形態に示すとおり、最適化された読み上げ文章を構築後、音声合成手段2に転送し、音声出力手段3を通して、音声出力させる。
【0078】
他方、使用者が発した音声は、音声入力手段5に取込まれる。取込まれた音声は、音声認識手段4により音声認識される。本音声認識は、単に話者音声をテキスト形式に変換するのみならず、音声ブラウザ1に対する制御指示の候補として認められるか否かを含めて認識される。認識結果が、音声ブラウザ1に対する制御指示の候補として認められる場合には、音声認識手段4は音声ブラウザ1に対して割込みを行い、併せて、認識された制御指示の候補を音声ブラウザ1に伝達する。音声ブラウザ1は、本割込みを受けて、その状態を遷移させ、図6に記すフローチャートに従い、割込みの処理を開始する。以下に、そのフローチャートを図6を用いて説明する。
【0079】
音声ブラウザ1は、音声認識手段4から伝達された音声認識結果が、音声ブラウザ1に対する制御指示として有効か否かを確認する(ステップS6)。
【0080】
有効と認められた場合は、本割込みが、音声合成手段2による読み上げ処理の最中に発生した割込みであるか否かを調べる(ステップS7)。
【0081】
本割込みが、音声合成手段2による読み上げ処理の最中に発生した割込みである場合には、音声認識手段4から伝達された制御指示が、音声合成手段2による読み上げ処理をわざわざ中断し、直ちに実行する必要性があるか否かを調べる(ステップS8)。
【0082】
音声認識手段4から伝達された制御指示を慌てて実行する必要性がない場合には、音声合成手段2による読み上げ処理が終了した時点で、受取った制御指示(その時点では、制御指示は複数に増えている可能性もある)を(順番に)解析し、次のアクションとして(一つずつ順番に)実行して行けば良いので、受取った制御指示を一時的に保留(ステップS12)し、本割込みから復帰する。
【0083】
ステップS8での判定の結果、音声認識手段4から伝達された制御指示を直ちに実行する必要性がある場合には、音声合成手段2に読み上げ処理の中止を指示し(ステップS9)、読み上げ処理を中止させた緊急性の高い制御指示に限定してその内容を解析し、次のアクションとして実行しても矛盾が生じなければ、そのアクションを実行する(ステップS10)。このことは、既に制御指示が複数蓄積された状態にある場合は、緊急性の高い制御指示を古いものから順に探索して行くことを意味しているが、探索して検出される迄の間に存在した、緊急性が低くて読飛ばされた制御指示については、もはや不要な制御指示と見なして、これらは廃棄し(ステップS11)その上で、本割込みから復帰する。
【0084】
ステップS7の判定の結果、本割込みが、音声合成手段2による読み上げ処理の最中に発生した割込みではない場合には、ステップS12で一時的に保留とした制御指示も含めて、受取った制御指示の内容を古いものから順に解析し、次のアクションとして実行しても矛盾しない内容であれば、そのアクションを実行する(ステップS13)。全ての制御指示の解析を終えた段階で、本割込みから復帰する。
【0085】
ステップS6の結果、音声認識手段4から伝達された内容が制御指示として無効な場合には何もせず、そのまま本割込みから復帰する。音声合成手段2が読み上げを完了した時点で、音声ブラウザ1は、音声認識手段4から受け取った制御指示で一時的に保留されている物が未だ残っていないかを確認する。未だ残っている場合には、ステップS13同様に、受け取った制御指示の内容を古い物から順に解析し、次のアクションとして実行しても矛盾しない内容であれば、そのアクションを順次実行する。この結果、文字入力(例.読みたいページのアドレスを指定するためのURL入力)や、クリック操作(例.ハイパーテキスト中に含まれるリンクや送信ボタン・アイコン等のクリック操作)を、入力手段57からではなく、音声入力手段5を介して、音声で行うことが可能となる。
【0086】
第1の実施形態の動作説明の中にある、(機能2)と(機能3)で使用したHTMLテキストを、具体例として用いれば、以下のとおりである。
【0087】
音声ブラウザ1は、「1 ニュース 情報。」「1キーで アクセスします。」「2 モバイルバンキング。」「2です。」「3 カード 証券 保険。」「3です。」と読み上げ続ける。使用者は、途中で「2。」と発声する。使用者の発した音声は、音声入力手段5に取込まれ、音声認識手段4により、音声認識され、音声ブラウザ1へと割込む。音声ブラウザ1は、HTMLテキスト中に、
「<A accesskey="2" HREF="http://…">2.モバイルバンキング</A>」
とあることから、「2」キーが押されたのと同等と解釈して、指定のリンク先にジャンプする。
【0088】
また、第1の実施形態における(機能9)で使用したHTMLテキストを、具体例として用いれば、以下のとおりである。フォーム部分は、最初の全文読み上げ中には、「後で 入力(または、選択)して下さい」又は「後で 変更できます」等と、簡単に読み上げる。全文読み上げ終了時、フォーム部分に限定して、会話形式による読み上げと、テキスト入力待やボタン類の選択待ちが発生する。即ち、入力や選択が必要となる箇所では、その都度、音声案内が停止するので、使用者からの音声指示により、音声認識を用いてテキスト入力や選択を行わせることができる。最後に、Reset相当又はSubmit相当ボタン(アイコン)の押下案内が流れるため、これもまた音声で指示する。
【0089】
第2の実施形態の場合、音声入力指示が効果的に行われるようにするため、コンテンツ(HTMLテキスト)の設計側でも、十分に注意を払う必要がある。
【0090】
例えば、マウス等のポインティング・デバイスで、画面上のアイコンやイメージ等をクリックし、その位置等を指定する(これを「フォーカスする」と言う)使用方法は、汎用的なブラウザでは一般的なものであるが、これを音声入力指示で代用するとなると、位置指定が難しく、相当使い勝手の悪い、非実用的な代物となってしまう。従って、HTMLテキストの設計側では、そのようなHTMLタグの使用(例.イメージ上のクリック位置で、そのアクションを異ならせるような、イメージマップ処理を実現するための「MAP」タグの使用等)を慎むように、注意する必要がある。
【0091】
ところが、近年になり、ポインティング・デバイスを装備しない携帯電話機からもインターネットに乗り入れることができるようになった。この目的のために、HTMLを応用して開発された「コンパクトHTML」と、コンパクトHTMLの閲覧が可能な「マイクロブラウザ」の登場により、上記設計上の注意点が自然に緩和される結果となり、第2の実施形態は一層現実味を帯びた。
【0092】
即ち、ポインティング・デバイスを装備していないiモード携帯電話機に搭載されるマイクロブラウザには、汎用的なブラウザに存在する、「戻る」「次」「再読込み」又は「ホーム」等のボタンのアイコンが画面上になく、仮に存在しても、キー操作で代用できる。例えば、「戻る」「次」機能は、←、→等の矢印キーの押下で、代用できる。加えて、コンパクトHTMLでは、イメージマップ処理を行わせる「MAP」タグをサポートしていないのみならず、「A」タグや「INPUT」タグに、accesskey 属性を追加し、キー操作だけで位置指定が行えるように、「イージーフォーカス機能」が強化されている。なお、iモード携帯電話機による、第2の実施形態の具体的な実施例は、本発明の他の実施形態の章で説明することにする。
【0093】
第2の実施形態の場合、音声認識手段4による音声認識率を向上させる必要がある。この後に述べる、第3の実施形態は、音声認識率の向上を目的としたものである。最近の音声認識装置のブロック図を図15に示す。
【0094】
不特定話者認識、大語彙認識、連続音声認識を実現する音声認識方法の一つとして、半音節単位を用いた音声認識が効果的である。半音節単位とは、音節をその母音中心で分割した結果得られるCV(子音(consonant) +母音(vowel) )区間とVC(母音+子音)区間とを音の基本単位として使用するものである。各半音節は、HMM(Hidden Markov Model)と呼ばれるモデルで表現され、HMMは、音の時間軸上及び周波数軸上の揺らぎを統計的に表現できるモデルである。今、各読みの半音節モデルと、認識対象となる単語(かな文字で表記されている)とが予め装置に登録されている状態において、登録済の認識対象となる単語の各々の読みに対応して、半音節モデルを連結した単語モデルを作り、これを入力音声と個々に比較しながら、最もよく照合するもの(即ち、似ているもの)を選び出すこと(算術的には、対数尤度を比較し、値が最大となるものを選ぶ)によって、最善の認識結果を得る。更に、単語の並び方を表す文法モデルを与えることで、文法により許される範囲内での連続音声認識が可能となる。
【0095】
このため、認識率の向上には、各読みの半音節モデルの充実、認識対象となる単語の充実、及び、単語の並び方を表す文法の充実とが、重要である。この後に述べる、第3の実施形態は、特に認識対象となる単語、即ち、語彙の充実方法について、述べるものである。
【0096】
図15に記す、最近の音声認識装置は、半音節モデルとして、不特定話者半音節モデル記憶部84と話者適応後半音節モデル記憶部85を併せ持つ。不特定話者半音節モデル記憶部84には、予め多数の人の声(学習データ)を用いて作成された不特定話者の半音節モデルが登録されている。これにより、特定話者の少量の音声を用いて、不特定話者モデルをその話者に適応(話者適応)させ、認識性能をより向上させるように努めている。
【0097】
音声入力手段5を介して入力された音声は、分析、雑音除去部80で分析され、2段スペクトル・サブストラクション法等を用いて、周囲雑音の影響を除去された後、認識処理部81及び話者適応制御部86へと送付される。
【0098】
認識処理部81は、不特定話者半音節モデル記憶部84及び話者適応後半音節モデル記憶部85に記録される各々の半音節モデル、語彙辞書部82に登録される語彙(認識対象となる単語を意味し、かな文字で表記されている)、及び、文法モデル部83に登録される文法とを用いて、音声認識を行う。
【0099】
話者適応制御部86は、話者適応のための学習機能を司ると共に、現在入力されている音声を解析し、半音節モデル学習時からの環境差を推定し、使用される半音節モデルを、現在入力されている音声に速やかに適合させるように制御する(高速環境適応法)。
【0100】
次に、図3に示す本発明の一実施例を表すブロック図、及び、図7に示す音声ブラウザ1の動作例を示すフローチャートを用いて、第3の実施形態の動作内容を説明する。
【0101】
ブラウザ搭載装置50は、ブラウザ51の指示で、通信手段52を介して、ネットワーク58に接続し、インターネット上のWebサーバにアクセスし、ダウンロードしたHTMLテキストを一旦記憶手段53に格納する。音声ブラウザ1は、これを読取り、第1の実施形態に記すとおり最適化された読み上げ文章を構築した後(図7のステップS3)、HTMLテキストの解析結果から、音声認識手段4で行われる音声認識の認識率を向上させる語彙を抽出し、抽出された語彙を認識語彙記憶手段6に登録する(ステップS14)。その上で、音声ブラウザ1は、最適化された読み上げ文章を、音声合成手段2に転送し、音声出力手段3を通して、音声出力する(ステップS4)。使用者が発した音声指示は、第2の実施形態に示すとおり、音声入力手段5に取り込まれ、認識語彙の辞書として、認識語彙記憶手段6に登録された語彙を使用する音声認識手段4によって音声認識された後、音声ブラウザ1により、次のアクションが実行される。
【0102】
HTMLテキストの解析結果から、音声認識率を向上させる語彙を抽出し、認識語彙記憶手段6に登録するステップS14において、目的の語彙の抽出要領は、例えば、iモード携帯電話で使用されるコンパクトHTMLの場合には、以下のとおりである。
【0103】
(機能12)
<A></A>タグに含まれるテキスト。例えば、
「<A HREF="http://…">ニュース/情報</A>」
の場合には、「にゅうす」、「じょおほお」を登録する。
【0104】
(機能13)
属性アクセスキー(accesskey)があれば、その値。例えば、
「<A accesskey="1" HREF="http://…">ニュース/情報</A>」の場合は、accesskey="1" につき、「いち」を登録する。
【0105】
(機能14)
<IPUT>タグの場合は、以下のとおりである。
(a)属性TYPEの値がSUBMIT又はRESETであり、しかも、属性VALUEがあれば、その値。例えば、
「<INPUT type="Submit" value="記録">
<INPUT type="Reset" value="クリア">」
の場合は、「きろく」と「くりあ」を登録する。
また、属性VALUEがなければ、属性TYPEの値。例えば、
「<INPUT type="Submit">
<INPUT type="Reset">」
の場合は、「さぶみっと」「さぶみっとぅ」及び「りせっと」「りせっとぅ」等を登録する。
【0106】
(b)属性TYPEの値がTEXT又はPASSWORDであり、しかも、属性VALUEがあれば、その値。例えば、
「<INPUT type=text name=word size=32 value="Hyper"> 」
の場合は、「はいぱあ」を登録する。
(c)属性TYPEの値がRADIO又はCHECKBOXの場合、次のタグ迄の間のテキスト。例えば、
「<INPUT type=radio name=srt value="2" checked> 型番昇順
<INPUT type=radio name=srt value="3"> 連絡日降順 」の場合は、「かたばん」「しょおじゅん」「れんらくび」「こおじゅん」を登録する。
【0107】
さて、音声認識手段4は、認識語彙記憶手段6から語彙を抽出し、音声認識処理を行うが、本処理を高速化するため、音声認識率の高い語彙から順に抽出する必要がある。第3の実施形態では、文脈に沿った形で、語彙の登録が行われることになるため、語彙の登録時期が古くなればなる程、音声認識処理時にヒットする可能性が低くなる。従って、最新の登録語彙から順に抽出することが望ましい。
【0108】
また、認識語彙記憶手段6には物理的な容量制限が存在するため、いつかは登録語彙が満タン状態となり、追加登録不能となる。この対策として、語彙記憶手段6内の記憶領域を、固定的に保持し続ける分とそうでない分とに分ける方法、保持内容が変動する分のみを認識語彙記憶手段6内に登録し、固定的に保持し続ける分は、音声認識手段4内の語彙辞書部82(図15参照)等の別の場所を利用する方法がある(後者の場合、例えば、工場出荷時に、装置に予め登録された分のみが、固定的に保持されることになる)。尚、保持内容が変動する部分の記憶方式としては、登録語彙が古くなる程、音声認識処理時にヒットする可能性が低くなることから、最も古い登録情報から順番に最新情報が上書きされる、リングバッファ記憶形式を用いることが望ましい。
【0109】
第3の実施形態の場合、音声ブラウザ1が、HTMLテキストの解析結果から、音声認識率を向上させる語彙を抽出しているが、語彙の抽出には時間が掛かる上に、漢字、外国語及び特殊文字の読み方を仮名文字に変換するための、変換規則を記した巨大な辞書を保持する必要があるという課題があった。次に述べる、第4の実施形態は、語彙の抽出を簡略化する目的で、語彙自身をHTMLテキスト内に埋め込むことを提案するものである。
【0110】
次に、図4に示す本発明の一実施例を表すブロック図、及び、図8に示す音声ブラウザ1の動作例を示すフローチャートを用いて、第4の実施形態の動作内容を説明する。
【0111】
ブラウザ搭載装置50は、ブラウザ51の指示で、通信手段52を介して、ネットワーク58に接続し、インターネット上のWebサーバにアクセスし、ダウンロードしたHTMLテキストを一旦記憶手段53に格納する。音声ブラウザ1は、これを読取り、第1の実施形態に記すとおり最適化された読み上げ文章を構築する(図8のステップS3)。その後、HTMLテキストを解析し、語彙抽出を行うが、その方法は以下のとおり。HTMLテキストを検索し、個々のHTMLタグに対して、「語彙を指定する属性」を含むか否かを調べる(ステップS15)。HTMLタグが、語彙を指定する属性を含む場合、属性の値、即ち、語彙を読取り、読取られた語彙を認識語彙記憶手段6に登録する(ステップS16)。
【0112】
他方、HTMLタグが、語彙を指定する属性を含まない場合、第3の実施形態で示したとおり、音声認識手段4で行われる音声認識の認識率を向上させる語彙を抽出し、抽出された語彙を認識語彙記憶手段6に登録する(ステップS14)。その上で、音声ブラウザ1は、最適化された読み上げ文章を、音声合成手段2に転送し、音声出力手段3を通して、音声出力する(ステップS4)。使用者が発した音声指示は、第2の実施形態に記すとおり、音声入力手段5に取込まれ、認識語彙の辞書として、認識語彙記憶手段6に登録された語彙を使用する音声認識手段4によって音声認識された後、音声ブラウザ1により、次のアクションが実行される。
【0113】
ステップS15に記した、語彙を指定する属性を含むか否かを調べるくだりに関して、例えば、語彙を指定する属性をVOCABULARYと仮定すれば、HTMLテキストは以下のとおりとなる。
【0114】
(機能15)
「<INPUT type="Submit" value="記録" vocabulary="きろく">
<INPUT type="Reset" value="クリア"> 」
【0115】
この場合、type="Submit" で指定されるINPUTタグ側では、ステップS16が実行され、属性VOCABULARYの値”きろく”が、認識語彙記憶手段6に登録される。他方、type="Reset"で指定されるINPUTタグ側では、ステップS14が実行され、属性VALUEの値”クリア”から抽出される語彙”くりあ”が、認識語彙記憶手段6に登録される。
【0116】
第4の実施形態に関して、認識に必要な語彙文法情報を、電話回線ネットワークを介して、情報サービスシステム側からユーザ端末側に送り込むという発明の基本部分は、先に特許第2655086号にて開示されている。従って、第4の実施形態は、特許第2655086号を具体的な装置の形態に展開した発明であるといえる。尚、特許第2655086号を応用し、別の装置の形態に展開した先願例であり、しかも第4の実施形態に最も構造が似ている発明としては、図16に示す特開2000−105681号がある。しかし、本発明から、第4の実施形態を容易に類推することは、以下の理由により困難である。
【0117】
(理由1)図16の発明は、装置を車載用情報端末に限定していること。
(理由2)情報端末30から情報センタ32に送信される情報は、URLではなく、「情報コード」(例えば、コンビニエンスストアの場合、FF007A8E等の特殊なコード)であること。即ち、複数の情報センタ32にアクセスできるように考慮されていない点が、インターネット通信技術を応用したブラウザ搭載装置を対象とした本発明からかけ離れていること。
【0118】
(理由3)上記情報コードを受けて、情報センタ32から情報端末30に返信される情報は、HTMLではなく、その情報コードに対応したデータ(例えば、コンビニエンスストアに関する一連の情報)であるが、それを音声で読み上げることは触れていないこと。特に、目の不自由な方々の便宜を考慮した読み上げ方の記述は、見出せないこと。
【0119】
(理由4)情報センタ32から情報端末30に送信される語彙情報は、単に最新版であるだけに過ぎないこと。即ち、情報コードに対応するデータに合わせて、音声認識率を最も向上させ得る語彙を、その都度送信するという発想が存在しないこと。
【0120】
最後に、既存のブラウザ51に音声ブラウザ1の機能を持たせ、ただ一つのブラウザのみを搭載した装置とすることは、同業他社には容易類推可能な範囲である。
【0121】
また、音声認識手段4による音声認識率が100%にならない場合等に、認識結果(テキスト形式)を、音声合成手段2にも転送し、音声出力手段3を通して、音声出力させることで、話者に認識結果を確認させることも、容易類推可能な範囲である。この場合、仮に音声合成手段2が、最適化された読み上げ文章を読み上げ中であったとした場合には、(1)読み上げを中止し、認識結果を音声出力させることも、(2)全ての読み上げ処理が完了してから、認識結果を音声出力させることも、(3)読み上げを一時的に中断し、認識結果の音声出力後、中断した読み上げを再開させることも可能であり、いずれも容易類推可能な範囲である。
【0122】
(他の実施例)
図9は、iモード携帯電話機による第2の実施形態を示すブロック図である。図9を参照すると、本第2の実施形態は、従来技術を表す図14に対して、LSI65に内蔵される、PDC制御部71、音声処理部72及びPDC−P制御部73と、音声認識/合成LSI64との間の接続を切換えるスイッチ7が追加されており、加えて、PDC−P制御部73が、ROM69及びRAM70と連携し、音声ブラウザ1の機能をより効果的に果たすようにと変更されている。
【0123】
スイッチ7は、通常は、音声認識/合成LSI64と音声処理部72が接続されるように切り換えられている。この結果、従来技術を表す図14と回路が等価になり、従来のiモード携帯電話機として使用することができる。
【0124】
第1の実施形態及び第2の実施形態で使用する場合には、音声認識/合成LSI64と、音声ブラウザ1の機能を果たすPDC−P制御部73が接続されるように、スイッチ7を切り換える(図9は、その時の状態を示した図である)。
【0125】
無線部66を介して受信されたHTMLテキストは一旦RAM70に蓄積される。PDC−P制御部73の音声ブラウザ機能を用いて解析されたHTMLテキストは、ハイパーテキストとして表示部68に表示されると共に、最適化された読み上げ音声テキストに変換され、音声認識/合成LSI64に送付される。音声認識/合成LSI64はADPCM複号機能を用いて、これを複号化し、A/Dコンバータ62に送付する。A/Dコンバータ62は、これをD/A変換し、レシーバ60を通して、読み上げ音声として出力する。一方、使用者からの音声指示は、マイク61を通して入力され、A/Dコンバータ62でA/D変換(符号化)された後、音声認識/合成LSI64により、音声認識結果としてテキスト化され、PDC−P制御部73に渡される。PDC−P制御部73は、音声ブラウザ機能を用いて、これを解析し、音声指示と認められれた場合、その指示を実行する。
【0126】
尚、本発明の別の応用例として、図9のスイッチ7を切換えて、音声認識/合成LSI64とPDC制御部71が接続されるようにした場合を想定することができる。この場合、PDC制御部71単体で、音声認識によりテキスト化された音声情報を、相手局にテキスト形式で送信し、逆に受信されたテキスト形式の情報を音声に再現して、音声出力するという通信方式が可能になる。これは、もはやブラウザ装置の枠組みから外れてしまうが、一つの発明として、その具体的な動作内容を、以下に記す。
【0127】
簡易メール(NTT呼称:ショートメール)が、電話により、文字をやり取りする通信方式であることは、従来技術の中で述べたとおりである。一方、目の不自由な方々にとって、簡易メールは、送信時、メール文章のデータ入力が必要であるが、送信したい文字の選択が、ボタンの押下順序や回数を組み合せて行う方式であるため、複雑なボタン操作がどうしても必要であり、苦痛な代物であった。加えて、受信したデータは、受信テキストが画面に表示されるだけであり、目の不自由な方々には読むことができなかった。
【0128】
図9の発明に拠れば、使用者からの音声情報は、マイク61を通して入力され、A/Dコンバータ62でA/D変換(符号化)された後、音声認識/合成LSI64により、音声認識されて、テキスト化される。該テキスト化された音声情報を、スイッチ7を介して、PDC制御部71に取込み、RAM70に格納する。PDC制御部71は、ショートメール符号化機能を用いて、これを、複数のプッシュボタンの、各々の押下回数の組み合わせ、即ち、プッシュボタン音の組み合せへと変換し、無線部66を介して、簡易メールとして、メールセンタ(NTTの場合、ショートメールセンタ)宛に発信する。
【0129】
他方、相手局は、メールセンタからの着信通知を受けて、RAM70上にダウンロードした簡易メールを、PDC制御部71が有するショートメール複合化機能を用いて、テキストに逆変換し、更に、スイッチ7を介して、音声認識/合成LSI64へ送付し、ここで複号化した後、A/Dコンバータ62でD/A変換し、レシーバ60で読み上げ音声として出力する。
【0130】
この結果、受信した簡易メールは装置自身が読み上げ、また送信時には、音声で入力すると、装置自身が自動的に簡易メールに変換して、メールセンタ宛に発信するため、複雑なボタン操作に煩わされる必要もなくなり、目の不自由な方々は勿論のこと、目に不自由しない方々でさえも、その恩恵を享受できる。加えて、目の不自由な方々も、簡易メール(ショートメール)によるコミュニケーションの輪に参加する事が出来る様になり、逆に、目に不自由しない、従来からの簡易メール(ショートメール)利用者にとっては、相手の目が不自由か否かを意識する必要はない為、通常の電話同様、両者にとって、バリアフリーなコミュニケーション関係を構築・維持出来るものと期待される。尚、本効果は、e−Mail(呼称:iモードメール)の場合でも、同様に得られる。
【0131】
図10は、iモード携帯電話機による第4の実施形態の一実施例を示すブロック図である。図10を参照すると、本第4の実施形態は、第2の実施形態を表す図9に対して、発声される可能性のある語彙を記憶する認識語彙記憶部8を追加し、加えて、音声認識/合成LSI64を、音声認識時、認識語彙の辞書として、認識語彙記憶部8を使用するものへと変更し、更に、PDC−P制御部73を、解析したHTMLテキスト中に語彙が直接含まれる場合には、その語彙を抽出し、語彙が直接含まれない場合には、音声認識/合成LSI64で行われる音声認識の認識率の向上させ得る語彙を抽出し、抽出した語彙を認識語彙記憶部8に記憶させるようなものへと変更している。
【0132】
第4の実施形態で使用する場合には、音声認識/合成LSI64と、音声ブラウザ1の機能を果たすPDC−P制御部73が接続されるように、スイッチ7を切り換える(図10は、その時の状態を示した図である。)。
【0133】
無線部66を介して受信されたHTMLテキストは、一旦RAM70に蓄積される。PDC−P制御部73の音声ブラウザ機能を用いて解析されたHTMLテキストは、ハイパーテキストとして表示部68に表示されると共に、語彙が抽出されて認識語彙記憶部8に記憶され、その上で最適化された読み上げ音声テキストへと変換を行い、音声認識/合成LSI64へと送付する。音声認識/合成LSI64は、ADPCM複号機能を用いてこれを複号化し、A/Dコンバータ62に送付する。A/Dコンバータ62は、これをD/A変換し、レシーバ60を通して読み上げ音声として出力する。一方、使用者からの音声指示は、マイク61を通して入力され、A/Dコンバータ62でA/D変換(符号化)された後、音声認識/合成LSI64により、音声認識結果としてテキスト化され、PDC−P制御部73に渡される。音声認識/合成LSI64は、音声認識時、認識語彙の辞書として、認識語彙記憶部8に登録された語彙を使用する。PDC−P制御部73は、音声ブラウザ機能を用いてこれを解析し、音声指示と認められた場合、その指示を実行する。
【0134】
尚、上述の実施形態は本発明の好適な実施の一例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施が可能である。
【0135】
【発明の効果】
以上の説明より明らかなように、請求項1記載の発明のブラウザ搭載装置は、HTMLテキストを解析し、解析結果からHTMLテキストの読み上げ方法を最適化し、HTMLテキストの読み上げ音声の合成を指示するブラウザと、このブラウザが最適化した読み上げ方法により、HTMLテキストの読み上げ音声を合成し、合成した音声を出力する。
【0136】
第1の効果は、ブラウザ搭載装置の小型・軽量化を廉価に実現できる点にある。その理由は、PDC制御部、PDC−P制御部及び音声処理部が使用する、音声合成及び音声認識処理回路を効率化する事で、部品点数を削減できるためである。第2の効果は、目の不自由な方々をもインターネットの世界へ誘うことができる点にある。その理由は、ブラウザがHTMLテキストを解析し、目の不自由な方々にとって理解しやすい文章をデザインし、読み上げてくれるからである。加えて、ブラウザは、使用者の発した音声を認識し、適切な音声指示である場合には、それを実行するため、目の不自由な方々にとって苦痛な、文字入力やクリック操作が、大幅に不要となるためである。
【0137】
第3の効果は、コンテンツ・プロバイダにとって、目の不自由な方々を対象としたコンテンツをデザインすることが、それほど負担にはならない点にある。その理由は、コンテンツ・プロバイダが目の不自由な方々向けに適切なコンテンツを提供することは、従来は不可能であったり、あるいは、コンテンツの作成に時間が掛かり、高価になるが、本発明によって、その制約は比較的容易に緩和されるためである。加えて、iモード携帯電話機向けに開発されたコンパクトHTMLでコンテンツをデザインすることができれば、コンパクトHTMLが有する諸機能との相乗効果により、その制約が一層軽減されるためである。
【図面の簡単な説明】
【図1】本発明のブラウザ搭載装置の実施形態を表すブロック構成図である。
【図2】第2の発明の一実施例を表すブラウザ搭載装置のブロック図である。
【図3】第3の発明の一実施例を表すブラウザ搭載装置のブロック図である。
【図4】第4の発明の一実施例を表すブラウザ搭載装置のブロック図である。
【図5】第1の実施形態のブラウザ搭載装置に搭載される音声ブラウザの動作例を示すフローチャートである。
【図6】第2の実施形態のブラウザ搭載装置に搭載される音声ブラウザの動作例を示すフローチャートである。
【図7】第3の実施形態のブラウザ搭載装置に搭載される音声ブラウザの動作例を示すフローチャートである。
【図8】第4の実施形態のブラウザ搭載装置に搭載される音声ヴラウザの動作例を示すフローチャートである。
【図9】第1および第2の実施形態の一実施例を表すiモード携帯電話機のブロック図である。
【図10】第3および第4の実施形態の一実施例を表すiモード携帯電話機のブロック図である。
【図11】従来のブラウザ搭載装置のブロック図である。
【図12】従来のiモードサービスのネットワーク構成図である。
【図13】従来のiモードサービスのプロトコルスタックである。
【図14】従来のiモード携帯電話機のブロック図である。
【図15】従来の音声認識装置のブロック図である。
【図16】従来例であり第4の実施形態に類似する先願発明例の音声情報処理装置のブロック図である。
【符号の説明】
1 音声ブラウザ
2 音声合成手段
3 音声出力手段
4 音声認識手段
5 音声入力手段
6 認識語彙記憶手段
7 スイッチ
8 認識語彙記憶部
30 情報端末
31 ネットワーク
32 情報センタ
33 音声入力手段
34 音声認識手段
35 音声認識用テーブル
36 音声合成手段
37 通信手段
38 CPU
39 表示手段
40 音声出力手段
41 通信手段
42 CPU
43 音声認識用テーブル
44 情報提供メニューテーブル&DB
50 ブラウザ搭載装置
51 ブラウザ
52 通信手段
53 記憶手段
54 表示手段
55 キーボード
56 マウス
57 入力手段
58 ネットワーク
60 レシーバ
61 マイク
62 A/Dコンバータ
63 スイッチ
64 音声認識/合成LSI
65 LSI
66 無線部
67 操作部
68 表示部
69 ROM
70 RAM
71 PDC制御部
72 音声処理部
73 PDC−P制御部
80 分析、雑音除去部
81 認識処理部
82 語彙辞書部
83 文法モデル部
84 不特定話者半音節モデル記憶部
85 話者適応後半音節モデル記憶部
86 話者適応制御部
100 iモード携帯電話機
101 iモードサーバ
102 コンテンツ
150 インターネット
151 PDC−Pネットワーク
152 PDCネットワーク
153 専用線
154 パケット通信

Claims (5)

  1. iモードサービスを提供するパケット通信網であるPDC−Pネットワークとの接続処理を制御するPDC−P制御手段によりPDC−Pネットワークに接続され、該PDC−Pネットワークを介して接続されたインターネット等の通信ネットワークから受信したHTMLテキストを解析し、該解析結果を基に、前記HTMLテキストを、音声として読み上げる方法を所定の基準により決定し、該決定された読み上げ方法により、前記受信したHTMLテキストを音声として合成する旨の指示を、音声合成手段に対して行うブラウザと、
    使用者が発した音声を取込む音声入力手段と、
    前記ブラウザの指示により、前記HTMLテキストを音声として合成し、又は、前記音声入力手段により取り込まれた音声を認識する音声認識手段としても動作する音声合成手段と、
    前記音声合成手段により合成された音声を出力する音声出力手段と、
    前記ブラウザ、前記音声合成手段、及び、前記音声出力手段が実行する前記HTMLテキストの音声出力動作の制御をする前記PDC−P制御手段と、
    携帯電話の発信先の電話番号をボタン操作で入力する代わりに電話番号自体を音声により入力する場合、携帯電話に予め登録された発信先の電話番号を該電話番号と関連付けられた別名の音声により入力する場合、又は、携帯電話の使用中に所定のファンクション機能を動作させるために、該携帯電話に設置された各ファンクションキーを押下する代わりに、各ファンクション機能を音声により入力する場合に、それぞれ必要とされる所定の音声処理を行う音声処理手段と、
    携帯電話の待ち受け時、発信時、着信時、又は、通話時の、各モードにおける所定動作を制御するPDC制御手段と、
    前記PDC−P制御手段、前記音声処理手段、及び、前記PDC制御手段の各部と、前記音声合成手段との間を選択的に接続するスイッチと、を具備し、
    前記スイッチを介して、前記音声合成手段(兼前記音声認識手段)と前記PDC制御手段とが接続される場合に、受信した簡易メールを音声として音声合成し、又は、前記音声入力手段により入力された音声を前記音声認識手段により認識して前記PDC制御手段により簡易メールを作成し、
    前記スイッチを介して、前記音声認識手段と前記音声処理手段とが接続される場合に、前記所定の音声処理が実行され、
    前記スイッチを介して、前記音声認識手段と前記PDC―P制御手段とが接続される場合に、前記HTMLテキストの音声出力動作が実行され、又は、前記音声認識手段は、前記音声入力手段が取込んだ前記音声から前記ブラウザに対する制御指示を認識し、該制御指示を前記ブラウザに伝達し、前記ブラウザが前記音声認識手段から伝達された前記制御指示を解析し、適切な次のアクションを行うことを特徴とするブラウザ搭載装置。
  2. 発声される可能性のある語彙を記憶する認識語彙記憶手段をさらに有し、
    前記音声認識手段は、認識語彙の辞書として前記認識語彙記憶手段を使用して前記HTMLテキストを解析し、前記解析結果を基に、前記音声認識手段が行う音声認識の認識率を向上させ得る語彙を抽出し、前記ブラウザは、前記音声認識手段が抽出した語彙を前記認識語彙記憶手段に記憶させることを特徴とする請求項記載のブラウザ搭載装置。
  3. 前記HTMLテキスト中に語彙が直接含まれる場合に、前記ブラウザは、該語彙を抽出して前記認識語彙記憶手段に記憶させることを特徴とする請求項記載のブラウザ搭載装置。
  4. 前記音声出力手段により出力される音声において、話者の性別、音声のピッチ/スピード、及び、読み上げピッチの加速具合いについての設定及び設定変更を可能とした出力音声設定手段を更に具備したことを特徴とする請求項1からのいずれか1項に記載のブラウザ搭載装置。
  5. 絵文字等の外字の読み上げ方法についての設定及び設定変更を可能とした外字読み上げ方法設定手段を更に具備したことを特徴とする請求項1からのいずれか1項に記載のブラウザ搭載装置。
JP2000365278A 2000-11-30 2000-11-30 ブラウザ搭載装置 Expired - Fee Related JP3714159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000365278A JP3714159B2 (ja) 2000-11-30 2000-11-30 ブラウザ搭載装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000365278A JP3714159B2 (ja) 2000-11-30 2000-11-30 ブラウザ搭載装置

Publications (2)

Publication Number Publication Date
JP2002169750A JP2002169750A (ja) 2002-06-14
JP3714159B2 true JP3714159B2 (ja) 2005-11-09

Family

ID=18836081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000365278A Expired - Fee Related JP3714159B2 (ja) 2000-11-30 2000-11-30 ブラウザ搭載装置

Country Status (1)

Country Link
JP (1) JP3714159B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10170099B2 (en) 2015-01-08 2019-01-01 Samsung Electronics Co., Ltd. Electronic device and method for representing web content for the electronic device

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5259050B2 (ja) * 2005-03-30 2013-08-07 京セラ株式会社 音声合成機能付き文字情報表示装置、およびその音声合成方法、並びに音声合成プログラム
JP2007087267A (ja) * 2005-09-26 2007-04-05 Nippon Telegr & Teleph Corp <Ntt> 音声ファイル生成装置、音声ファイル生成方法およびプログラム
JP4748374B2 (ja) * 2006-11-22 2011-08-17 ブラザー工業株式会社 表示制御プログラム及び表示制御方法
JP5074759B2 (ja) * 2006-12-20 2012-11-14 トヨタ自動車株式会社 対話制御装置、対話制御方法及び対話制御プログラム
JP4930584B2 (ja) * 2007-03-20 2012-05-16 富士通株式会社 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
JP5062670B2 (ja) * 2007-06-26 2012-10-31 京セラ株式会社 電子機器
JP5405381B2 (ja) * 2010-04-19 2014-02-05 本田技研工業株式会社 音声対話装置
JP7173049B2 (ja) * 2018-01-10 2022-11-16 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP7298999B2 (ja) * 2018-08-01 2023-06-27 Nttテクノクロス株式会社 資料作成装置、資料作成システム、資料作成方法及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3408332B2 (ja) * 1994-09-12 2003-05-19 富士通株式会社 ハイパーテキスト読上装置
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JPH10124293A (ja) * 1996-08-23 1998-05-15 Osaka Gas Co Ltd 音声指令可能なコンピュータとそれ用の媒体
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
JPH10326178A (ja) * 1997-03-21 1998-12-08 Fujitsu Ltd 情報処理装置及びプログラム記憶媒体
US6101472A (en) * 1997-04-16 2000-08-08 International Business Machines Corporation Data processing system and method for navigating a network using a voice command
JPH10322478A (ja) * 1997-05-15 1998-12-04 Matsushita Electric Ind Co Ltd 音声によるハイパーテキストアクセス装置
JP3789614B2 (ja) * 1997-10-02 2006-06-28 日本電信電話株式会社 ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JP3864197B2 (ja) * 1998-02-27 2006-12-27 日本電信電話株式会社 音声クライアント端末装置
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
JP2000187493A (ja) * 1998-12-22 2000-07-04 Sumitomo Electric Ind Ltd 音声出力装置および車載用コンピュータ
JP2000215023A (ja) * 1999-01-21 2000-08-04 Toshiba Corp ペ―ジ記述言語表示装置及びペ―ジ記述言語表示プログラムを記録した機械読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10170099B2 (en) 2015-01-08 2019-01-01 Samsung Electronics Co., Ltd. Electronic device and method for representing web content for the electronic device

Also Published As

Publication number Publication date
JP2002169750A (ja) 2002-06-14

Similar Documents

Publication Publication Date Title
US8781840B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
US20180067930A1 (en) Cell Phone Processing Of Spoken Instructions
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
MXPA04010107A (es) Entrada multimodal secuencial.
US20080221902A1 (en) Mobile browser environment speech processing facility
US20080221898A1 (en) Mobile navigation environment speech processing facility
JPH11215248A (ja) 通信システムおよびこれに用いられる無線通信端末装置
US6732078B1 (en) Audio control method and audio controlled device
US20020198716A1 (en) System and method of improved communication
JP3714159B2 (ja) ブラウザ搭載装置
JP3322262B2 (ja) 無線携帯端末通信システム
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
KR100367579B1 (ko) 음성을 이용한 인터넷사용시스템
Kvale et al. Speech centric multimodal interfaces for mobile communication systems
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
US20020077814A1 (en) Voice recognition system method and apparatus
JPH10322478A (ja) 音声によるハイパーテキストアクセス装置
JP2001075968A (ja) 情報検索方法及びそれを記録した記録媒体
JPH10164249A (ja) 情報処理装置
JPH09258785A (ja) 情報処理方法および情報処理装置
JP2001273216A (ja) 移動端末機によるネットサーフィン方法、移動端末機、サーバシステムおよび記録媒体
JP2002288170A (ja) 多言語間コミュニケーション支援システム
JP2002099294A (ja) 情報処理装置
WO2002099786A1 (en) Method and device for multimodal interactive browsing
JP2001256142A (ja) 音声情報提供方法及び音声情報提供装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050815

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080902

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090902

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090902

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100902

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110902

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120902

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130902

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees