JP3864197B2 - Voice client terminal - Google Patents
Voice client terminal Download PDFInfo
- Publication number
- JP3864197B2 JP3864197B2 JP04818098A JP4818098A JP3864197B2 JP 3864197 B2 JP3864197 B2 JP 3864197B2 JP 04818098 A JP04818098 A JP 04818098A JP 4818098 A JP4818098 A JP 4818098A JP 3864197 B2 JP3864197 B2 JP 3864197B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- client terminal
- speech
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、音声クライアント端末に係り、特に、コンピュータとネットワークからなるクライアント/サーバ構成のシステム、とりわけインターネットにおけるWorld Wide Web(以下、単にWWWと記す)システムのサーバに対して、クライアント端末のマイクから音声で入力し、サーバに蓄積している情報を音声で出力する音声クライアント端末に関する。
【0002】
【従来の技術】
周知のように、WWWシステムとして、サーバ及びクライアントのハードウェア、ソフトウェアがネットワーク上に適切に構成されている場合に、クライアント端末上にインストールしたNetscape Navigatorなどのブラウザを使用することによって、サーバに格納したテキストやイメージの情報をクライアント画面上に表示して閲覧することが可能である。
【0003】
このシステムでは、画面上の特定の情報をマウスなどで選択すると、これと関連付けられた(以下では、これをリンクが張られたと言い、先の特定の情報をリンク項目と言う)情報にアクセスし、画面上に表示し閲覧することが可能である。
これらのサービスは、情報を視覚によって享受することが前提であり、画面に目を向けないと享受できない、あるいは、視覚障害者は全く享受できないという欠点がある。これを解決する方法として、最近の音声認識技術と音声合成技術を使用することによって、マイクから音声で入力し、音声合成で出力することが可能である。例えあ、音声で[首相官邸]と入力すれば、[首相官邸]の情報にアクセスし、クライアント端末のスピーカから、テキスト部分を合成音で出力することができる。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来の方法では、周知のWWW情報には、長い文章や、リンク箇所が随所に10個も20個もある場合がある、カラーのイメージ情報がテキストに混在することは勿論のこと、動画とリンクが張られたり、視覚に訴える情報がふんだんに使用されるのが実情である。このような情報を視覚障害者にいかに出力するかという問題が存在する。
【0005】
本発明は、上記の点に鑑みなされたもので、視覚障害者であってもWWW情報を取得することが可能な音声クライアント端末を提供することを目的とする。
【0006】
【課題を解決するための手段】
図1は、本発明の原理構成図である。
本発明(請求項1)は、サーバに蓄積されているHTMLファイルをインターネットを介して取得し、音声により出力する音声クライアント端末200であって、
ユーザの音声による要求を入力する音声入力手段201と、
入力されたユーザの音声を音声認識サーバに送信し、当該音声認識サーバから音声認識結果を受信し、受信した音声認識結果よりURLを抽出し、該URLに基づいてプロキシサーバにHTMLファイルを要求する要求発行手段202と、
プロキシサーバから取得したHTMLファイルを解析し、タイトル、リンク項目、本文に分類する手段と、
分類されたリンク項目を音声認識サーバに送信する手段と、
タイトル、リンク項目、本文を含む表示されるテキスト情報を音声合成サーバに送信し、当該音声合成サーバから合成された音声データを受信する手段と、
受信した音声データを利用して、タイトル、リンク項目、本文の順に読み上げて音声出力する音声出力手段203と、を有する。
【0009】
上記のように、本発明では、インターネット上に公開されているHTML(Hyper Text Markup Language)形式のファイルを市販のWebブラウザを通して視覚情報から音声情報に変換し、ユーザに提供することを可能にしたシステムである。また、クライアント側で情報を取得する場合において、音声を用いることで視覚障害者の操作も可能とする。
【0010】
【発明の実施の形態】
図2は、本発明が適用されるシステムの構成を示す。
同図に示すシステムは、高速なネットワーク上に各処理用エンジンを配置し、負荷分散を行うことにより高速なレスポンスをクライアント端末10で実現可能とするものである。同図におけるシステムでは、大別して2つのシステムに分けられる。
【0011】
まず、第1に同図におけるワークステーション20、30、40で構成されるフロント・エンドとしての処理部である。ワークステーション20、30は、翻訳サービスを提供するためのシステムである。ワークステーション40は、一般的にインターネットでよく利用される機能で、本システムでは主に、データのキャッシングや漢字コードの変換で利用する。
【0012】
第2に、バック・エンドとして利用されるワークステーション50、60である。ワークステーション50は、ユーザからクライアント端末10に入力された音声データを、候補リスト(リンク項目のリスト)と比較照合を行い、適切な項目を選出する。また、ユーザが入力した音声データとリンク項目が全く同一である必要性を解消するためにリンク項目に対して形態素解析処理を施す。そうすることにより、ユーザからはリンク項目の断片を入力するだけでも適切なリンク項目を推量し、選出する。ワークステーション60は、クライアント端末10で抽出されたテキスト情報を、(言語種別のパラメータ付きで)受信し、音声データを生成する音声合成エンジンと呼ぶものである。
【0013】
次に、クライアント端末10から送信されたHTMLファイル要求は、ワークステーション20上で動作中にプロキシ・サーバを経由し、ワークステーション40のプロキシ・サーバを使って外部インターネット70に転送される。インターネット70から返送されてきた応答データ(HTMLファイル)は、ワークステーション40のプロキシ・サーバを経由して、ワークステーション20のプロキシ・サーバで各翻訳エンジンへデータの処理を依頼して(依頼のみ、処理結果はユーザの要求で随時クライアント端末10へ送信される)クライアント端末10へ転送する。クライアント端末10に届いたHTMLファイルは、解析され、表示されるべきテキスト情報をワークステーション60の音声合成エンジンへ送信し、音声データへ変換され、クライアント端末10で出力される。また、音声認識のために必要なリンク項目のリストは、ワークステーション50の形態素解析エンジンで形態素解析処理を施され、音声認識エンジンへ渡され、クライアント端末10から音声データの送信を待つ。
【0014】
次にクライアント端末10で入力(指示)された音声データを音声認識エンジン50に送信し、音声認識エンジン50は、以前入力されていたリンク項目(テキスト情報)と比較照合され、適切な結果を得る。得られた結果をクライアント端末10に送信する。これにより、クライアント端末10は、リンク項目からURLを抽出し、インターネット70へプロキシサーバ20、40を介して、次の情報を取得する。
【0015】
【実施例】
以下に、本発明の実施例を図面と共に説明する。
図3は、本発明の一実施例のシステム構成を示す。同図に示すシステムにおいて、図2と同様のものについては同一符号を付す。
同図に示すシステムは、クライアント端末10、ワークステーション20、30、40、50から構成される。
【0016】
クライアント端末10は、Webブラウザ11、音声入力用ボタン監視プログラム12、音声ブラウザクライアント13、音声入力用ボタン監視プログラム12に接続される音声入力開始用ボタン15、音声ブラウザクライアント13に接続されるスピーカ16及びマイク17から構成される。
ワークステーション20は、プロキシサーバ21の機能と、テキストを英語から日本語に翻訳する英日翻訳エンジン22を有する。
【0017】
ワークステーション30は、テキストを日本語から英語に翻訳する日英翻訳エンジン31を有する。
ワークステーション40は、プロキシサーバ41の機能を有する。
ワークステーション50は、音声認識I/Fプログラム51、音声認識エンジン52、形態素解析エンジン53を有する。
【0018】
ワークステーション60は、音声合成エンジン61を有する。
Webブラウザ11は、一般によく利用されるもので、例えば、Netscape Navigator等がある。本実施例では、当該ブラウザを用いて説明する。当該Webブラウザ11は、インターネット70への窓口として必要情報を取得し、音声ブラウザクライアント13に渡す。また、Webブラウザ上への表示も行う。音声ブラウザクライアント13では、Webブラウザ11から得られた情報を解析し、音読すべきテキスト情報をワークステーション60の音声合成エンジン61へ、音声認識すべきリンク項目の情報をワークステーション50の音声認識I/Fプログラム51へそれぞれ送信する。
【0019】
クライアント端末10は、音声合成エンジン61から受信した音声データをローカル・ディスクに記録しながら、スピーカ16により再生する。また、ユーザからの入力は、音声入力開始用ボタン15を押下することによって、音声入力用ボタン監視プログラム12から音声ブラウザクライアント13に通知される。その通知を受けた音声ブラウザクライアント13は、マイク17から音声の録音を開始する。音声ブラウザクライアント13は、ユーザの音声入力開始用ボタン15の解放によって、録音の停止を行い、音声認識I/Fプログラム51に録音した音声データをワークステーション60の音声合成エンジン61に送信する。
【0020】
クライアント端末10に接続れるワークステーション20のプロキシサーバ21は、インターネット70からの転送すべき情報(HTMLファイル)を各翻訳エンジン(英日翻訳エンジン22、日英翻訳エンジン31)へ送信し、翻訳処理を行わせる。翻訳結果については、各翻訳エンジン22、31の記憶装置に記録しておき、ユーザから翻訳要求があった際にその翻訳結果をクライアント端末10に送信する。
【0021】
ワークステーション40のプキシサーバ41では、インターネット70からの情報を一部変換(漢字コード等)したり、情報を一時的にキャッシュするなどの機能を有する。
ワークステーション50の音声認識I/Fプログラム51は、音声ブラウザクライアント13から送信されるリンク項目を形態素解析エンジン53に入力し、出力された結果である分解された文字列の品詞を元に適切な再構成処理を行う。その結果を音声認識エンジン52へ登録し、音声ブラウザクライアント13から送信される録音された音声データを音声認識エンジン52に渡し、当該音声認識エンジン52において照合された結果を音声ブラウザクライアント13に返送する。
【0022】
ワークステーション60の音声合成エンジン61は、音声ブラウザクライアント13で抽出された音読すべきテキスト情報を受信し、音声データを生成し、音声ブラウザクライアント13に返送する。
図4は、本発明の一実施例の動作のシーケンスチャートである。
まず、ユーザが音声入力開始用ボタン15を押下すると(ステップ101)、音声入力用ボタン監視プログラム12から音声ブラウザクライアント13へその通知が転送される。音声ブラウザクライアント13は、マイク17から音声録音を開始し、終了を待つ。ユーザによりボタンが解放になると(ステップ102)、音声入力用ボタン監視プログラム12から再度終了の通知が音声ブラウザクライアント13に報告される。その報告を受けた音声ブラウザクライアント13は、録音を停止し、ワークステーション50の音声認識I/Fプログラム51へその録音された音声データを送信する(ステップ103)。
【0023】
ワークステーション50の音声認識I/Fプログラム51は、当該データを受信し、音声認識エンジン52にそのデータを転送し(ステップ104)、認識処理を依頼する。当該音声認識エンジン52により認識処理された結果を音声人気I/Fプログラム51が取得すると(ステップ105)、当該認識結果が音声ブラウザクライアント13に転送される(ステップ106)。音声ブラウザクライアント13は、結果のリンク項目からURLを得て、Webブラウザ11に要求送信指示を発行する(ステップ107)。
【0024】
Webブラウザ11は、指定されたURLへデータ要求伝文をプロキシサーバ21、41を経由してインターネット70に送信する(ステップ108)。
プロキシサーバ21がプロキシサーバ41を経由して、当該要求に対応する応答をインターネット70から取得すると(ステップ109)、当該応答を英日翻訳エンジン22または、日英翻訳エンジン31に送信する(ステップ110)。
【0025】
英日翻訳エンジン22、日英翻訳エンジン31のいずれかがプロキシサーバ21により指示された処理を行い、その結果をプロキシサーバ21に返却する。これによりプロキシサーバ21は、応答データをクライアント端末10のWebブラウザ11に送信する(ステップ111)。
クライアント端末10のWebブラウザ11が応答データを受け取ると、音声ブラウザクライアント13に渡される(ステップ112)。このとき、ページがマルチフレームの場合は、Webブラウザ11から上記の処理を構成ビュー分繰り返す。音声ブラウザクライアント13では、取得した応答データを解析し、リンク項目と表示されるテキスト情報等を取得し、それぞれをワークステーション60の音声合成エンジン61及び、ワークステーション50の音声認識I/Fプログラム51に送信する(ステップ113)。その際、HTML解析を行い、イメージ(絵)情報に付加されている説明文等のテキスト情報がある場合は、その情報も適切に処理し、音声合成エンジン61へ送信され、ユーザにイメージの子細をスピーカ16より音読で伝える。また、音声合成エンジン61に送信する場合は、言語別に1文単位で送信を行うことによって適切なサービス(1文単位の巻き戻し/早送り等)をユーザに提供することを可能にしている。音声認識I/Fプログラム51には、リンク項目など動的に変化する認識候補リスト情報などを送信する(ステップ114)。なお、固定コマンドについては、毎回送信は行わないものとする。
【0026】
音声認識I/Fプログラム51では、受信したリンク項目について1度形態素解析エンジン53により形態素解析処理を施し(ステップ115、116)、音声認識エンジン52へ固定コマンドと共に登録され(ステップ117)、ユーザからの音声データを待機する。なお、当該登録は、ユーザから送信される音声データとの比較照合に利用するために必要となる。
【0027】
音声合成エンジン60は、ユーザからの音声を合成し、合成された音声データを音声ブラウザクライアント13に送信する(ステップ118)。
次に、具体的な例を用いて説明する。
図5は、本発明の一実施例のユーザインターフェースを示す図であり、図6は、本発明の一実施例の音声ブラウザにより音読される例を示す図である。
【0028】
図5は、Webブラウザ11のユーザインタフェースである。ページには、タイトル110、リンク項目130、本文120がテキスト情報で表示されている。これらの情報はHTMLに従った文法で書かれたファイルから得られ、当該ファイルを音声ブラウザクライアント13側で解析を行い、タイトル、リンク項目、本文といった項目に分類する。そして、出力される情報は、図6に示すように音読される。適切なガイダンスを付加することによって、ユーザに詳細に情報を提供する。
【0029】
また、入力時において、リンク項目を指示する場合には、リンク項目全文を音声ブラウザクライアント13に入力することなく、印象に残った単語だけの入力でアクセスが可能である。その仕組みについては、まず、形態素解析エンジン53にリンク項目全文を入力し、品詞分解された結果から再度組み合わせを行う。最小の要素である単語から複合語などを再構築していくことによって、ユーザからの(単語から複合語までの)入力に対処できる。
【0030】
図7は、本発明の一実施例のWebブラウザのマルチフレーム構成によって表示されているホームページの型であり、図8は、本発明の一実施例の音声ブラウザにより音読される例である。この場合には、音声ブラウザクライアント13では、複数のビューを持つことなどをHTMLファイルを解析することによって取得し、ユーザに音声で伝える。また、音読はビュー単位で行われるものとする。
【0031】
図9は、本発明の一実施例のWebブラウザにイメージが掲載された例であり、図10は、本発明の一実施例の音声ブラウザにより音読される例である。図9に示すイメージ図は、視覚情報であるため、当該情報を音声で伝えるのは困難である。しかし、HTMLのタグ情報を解析することによって、イメージに説明を付加することによって音声ブラウザクライアント13側でイメージに対応する説明を抽出し、音声で読み上げることを可能とする。この場合は、HTML作成者がそのイメージ図に関する説明文をテキスト情報で追記することを条件とする。
【0032】
次に、再生制御機能について説明する。この機能は、音読の読み上げ速度、音量、話者の性別などを音声の指示によってリアルタイムに変更できる機能である。読み上げ速度、話者の性別に関しては、音声データの再作成を音声合成エンジン61のパラメータを変更することによって行い、また、再生ポイントから優先的に再作成を行うことによってリアルタイムに変更を可能にした。音量については、システムのパラメータを変更することによって対処するものとする。
【0033】
再制御機能の付加機能として、特定のサービス(現在時刻の通知等)の割り込み等も付加することが可能である。詳しくは、音読中に現在時刻を質問すると、システムに時刻を問い合わせ、一度音声合成エンジン61へ音声データの作成を要求し、作成完了と共に音読を一時中断し、現在時刻をアナウンスする。また、その後、中断中の音読を再開することによって実現できる。
【0034】
また、HTMLファイル中に埋め込まれている音声データの再生制御も可能である。図11は、本発明の一実施例の音楽/朗読コンテンツ再生を行う場合の構成図である。この音声データは、音楽や朗読などの内容のもので再生する際には、再生可能な再生用ソフトウェア14をWebブラウザ11が自動的に起動する。その再生用ソフトウェア14を音声ブラウザクライアント13が制御することによって、一時停止や再生などの当該ソフトウェアが持つ従来の機能を音声で制御することが可能となる。
【0035】
図12は、本発明の一実施例の音声データの再生制御のシーケンスチャートである。まず、音声ブラウザクライアント13からWebブラウザ11にURLの指示を発行すると(ステップ201)、Webブラウザ11は、当該指示をインターネット70に送信する。これによりWebブラウザ11において、インターネット70からHTMLを取得して、音声ブラウザクライアント13に転送し、当該音声ブラウザクライアント13において当該HTMLの解析を行う。また、Webブラウザ11は、HTMLに埋め込まれた音声データをインターネット70に要求し(ステップ203)、インターネット70から取得した当該要求に対応する応答を取得して、再生用ソフトウェア14を起動して転送する(ステップ204)。また、音声ブラウザクライアント13は、解析された結果に基づいて音声認識エンジン53に対して音声認識要求を発行し(ステップ205)、音声認識結果を取得すると、当該結果を音声ブラウザクライアント13に転送する(ステップ206)。これにより音声ブラウザクライアント13は再生用ソフトウェア14を制御して、音声を再生する。
【0036】
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【0037】
【発明の効果】
上述のように、本発明によれば、音声入力によってインターネットのWWW情報にアクセスし、音声で出力することが可能となる。
また、アクセスした情報が英文の場合、翻訳機能よって日本語で出力可能であるので、英語の知識が少ないユーザでも、情報の内容を把握することができる。
【0038】
さらに、テキスト文のみでなく、音楽情報、朗読情報へのアクセス可能であるため、娯楽用としても使用することができる。
さらに、音楽情報や朗読情報の再生の際には、通常のラジカセ(出力・再生・録音機能を有するラジオ・カセット)と同様に、一時停止、再生、停止などの再生制御が可能であるため、ユーザの抵抗感が少ない。
【0039】
さらに、テキスト音読中などに割り込んで時報を聞くことが可能であるため、視覚障害者向、または、時計を持ち合わせていない場合でも音声で時報を知ることができる。
以上の機能により視覚障害者のインターネット利用への支援が可能となる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明が適用されるシステム構成図である。
【図3】本発明の一実施例のシステム構成図である。
【図4】本発明の一実施例の動作のシーケンスチャートである。
【図5】本発明の一実施例のWebブラウザの通常のユーザインタフェースを示す図である。
【図6】本発明の一実施例の音声ブラウザにより音読される例である。
【図7】本発明の一実施例のWebブラウザのマルチフレーム構成によって表示されているホームページの型の例である。
【図8】本発明の一実施例の音声ブラウザにより音読される例である。
【図9】本発明の一実施例のWebブラウザにイメージが掲載された例である。
【図10】本発明の一実施例の音声ブラウザにより音読される例である。
【図11】本発明の一実施例の音楽/朗読コンテンツ再生を行う場合の構成図である。
【図12】本発明の一実施例の音声データの再生制御のシーケンスチャートである。
【符号の説明】
10 クライアント端末
11 Webブラウザ
12 音声入力用ボタン監視用プログラム
13 音声ブラウザクライアント
14 再生用ソフトウェア
20,30,40,50,60 ワークステーション
21 プロキシサーバ
22 英日翻訳エンジン
31 日英翻訳エンジン
41 プロキシサーバ
51 音声認識I/Fプログラム
52 音声認識エンジン
53 形態素解析エンジン
61 音声合成エンジン
70 インターネット
100 サーバ
110 タイトル
120 本文
130 リンク項目
200 クライアント端末
201 音声入力手段
202 要求発行手段
203 音声出力手段
210 第一フレーム
220 第二フレーム
310 イメージ図[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice client terminal , and more particularly to a client / server configuration system including a computer and a network, particularly a server of a World Wide Web (hereinafter simply referred to as WWW) system on the Internet, from a microphone of a client terminal. The present invention relates to a voice client terminal that inputs by voice and outputs information stored in a server by voice.
[0002]
[Prior art]
As is well known, when the hardware and software of the server and client are properly configured on the network as a WWW system, it is stored in the server by using a browser such as Netscape Navigator installed on the client terminal. It is possible to display the information on the text and image displayed on the client screen for browsing.
[0003]
In this system, when specific information on the screen is selected with a mouse or the like, it is associated with this information (hereinafter, this is called a link, and the previous specific information is called a link item). It can be displayed on the screen and viewed.
These services are premised on enjoying information visually, and cannot be enjoyed without looking at the screen, or cannot be enjoyed at all by visually impaired persons. As a method for solving this, by using recent speech recognition technology and speech synthesis technology, it is possible to input speech from a microphone and output by speech synthesis. For example, if [Prime official residence] is input by voice, the information of [Prime official residence] can be accessed, and the text portion can be output as synthesized sound from the speaker of the client terminal.
[0004]
[Problems to be solved by the invention]
However, in the above-described conventional method, there are cases where there are 10 to 20 long sentences and link parts everywhere in the well-known WWW information. Of course, color image information is mixed in the text. The reality is that links to videos and information that appeals to the eye are used abundantly. There is a problem of how to output such information to the visually impaired.
[0005]
The present invention has been made in view of the above points, and an object of the present invention is to provide a voice client terminal capable of acquiring WWW information even for a visually impaired person.
[0006]
[Means for Solving the Problems]
FIG. 1 is a principle configuration diagram of the present invention.
The present invention (claim 1), the HTML file stored in the servers acquired via the Internet, an
Voice input means 201 for inputting a user's voice request;
The input user's voice is transmitted to the voice recognition server, the voice recognition result is received from the voice recognition server, the URL is extracted from the received voice recognition result, and the HTML file is requested to the proxy server based on the URL. Request issuing means 202;
Means for analyzing the HTML file obtained from the proxy server and classifying it into a title, a link item, and a body;
Means for transmitting the classified link items to the speech recognition server;
Means for transmitting displayed text information including a title, a link item, and a body to a speech synthesis server, and receiving speech data synthesized from the speech synthesis server;
Using the received audio data, audio output means 203 that reads out the title, the link item, and the text in order and outputs the audio.
[0009]
As above SL, in the present invention, that is converted into voice information from the visual information HTML (Hyper Text Markup Langu a ge ) format files that are published on the Internet through a commercial Web browser, provides a user It is a system that made it possible. In addition, when information is acquired on the client side, it is possible to operate a visually impaired person by using sound.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 2 shows the configuration of a system to which the present invention is applied.
In the system shown in FIG. 2, each processing engine is arranged on a high-speed network, and load distribution is performed so that a high-speed response can be realized by the
[0011]
First, a processing unit as a front end composed of the
[0012]
Second,
[0013]
Next, the HTML file request transmitted from the
[0014]
Next, the voice data input (instructed) at the
[0015]
【Example】
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 3 shows the system configuration of an embodiment of the present invention. In the system shown in the figure, the same components as those in FIG.
The system shown in FIG. 1 includes a
[0016]
The
The
[0017]
The
The
The
[0018]
The
The
[0019]
The
[0020]
The
[0021]
The proxy server 41 of the
The speech recognition I /
[0022]
The speech synthesis engine 61 of the
FIG. 4 is a sequence chart of the operation of one embodiment of the present invention.
First, when the user presses the voice input start button 15 (step 101), the notification is transferred from the voice input
[0023]
The voice recognition I /
[0024]
The
When the
[0025]
Either the English-
When the
[0026]
In the voice recognition I /
[0027]
The
Next, a specific example will be described.
FIG. 5 is a diagram illustrating a user interface according to an embodiment of the present invention, and FIG. 6 is a diagram illustrating an example of reading aloud by a voice browser according to an embodiment of the present invention.
[0028]
FIG. 5 shows a user interface of the
[0029]
Further, when the link item is instructed at the time of input, it is possible to access by inputting only the words that remain in the impression without inputting the full text of the link item to the
[0030]
FIG. 7 shows a homepage type displayed by the multi-frame configuration of the Web browser according to the embodiment of the present invention. FIG. 8 shows an example of reading aloud by the voice browser according to the embodiment of the present invention. In this case, the
[0031]
FIG. 9 is an example in which an image is posted on a Web browser according to an embodiment of the present invention, and FIG. 10 is an example in which reading is performed by the voice browser according to an embodiment of the present invention. Since the image shown in FIG. 9 is visual information, it is difficult to convey the information by voice. However, by analyzing the tag information of HTML, the explanation corresponding to the image can be extracted on the
[0032]
Next, the playback control function will be described. This function is a function that can change the reading speed of the reading aloud, the volume, the gender of the speaker, and the like in real time by voice instructions. With regard to reading speed and speaker gender, voice data can be recreated by changing parameters of the speech synthesis engine 61, and can be changed in real time by pre-creating from the playback point. . The volume is dealt with by changing system parameters.
[0033]
As an additional function of the re-control function, an interrupt of a specific service (notification of current time, etc.) can be added. Specifically, when the current time is asked while reading aloud, the system is inquired about the time, and once the voice synthesis engine 61 is requested to create voice data, the reading is temporarily suspended when the creation is completed, and the current time is announced. Further, it can be realized by restarting the reading aloud after that.
[0034]
It is also possible to control playback of audio data embedded in the HTML file. FIG. 11 is a configuration diagram for reproducing music / reading content according to an embodiment of the present invention. When the audio data is reproduced with contents such as music or reading, the
[0035]
FIG. 12 is a sequence chart of audio data reproduction control according to an embodiment of the present invention. First, when a URL instruction is issued from the
[0036]
The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
[0037]
【The invention's effect】
As described above, according to the present invention, it is possible to access and output the WWW information on the Internet by voice input.
In addition, when the accessed information is in English, it can be output in Japanese by the translation function, so even a user with little English knowledge can grasp the contents of the information.
[0038]
Furthermore, since it is possible to access not only text but also music information and reading information, it can be used for entertainment.
In addition, when playing music information and reading information, playback control such as pause, playback, stop, etc. is possible, just like a normal radio cassette player (radio / cassette with output / playback / recording function). Less user resistance.
[0039]
Furthermore, since it is possible to listen to the time signal while interrupting text reading, the time signal can be obtained by voice even for visually handicapped persons or when not holding a clock.
With the above functions, it is possible to support visually impaired people using the Internet.
[Brief description of the drawings]
FIG. 1 is a principle configuration diagram of the present invention.
FIG. 2 is a system configuration diagram to which the present invention is applied.
FIG. 3 is a system configuration diagram of an embodiment of the present invention.
FIG. 4 is a sequence chart of an operation according to an embodiment of the present invention.
FIG. 5 is a diagram showing a normal user interface of a Web browser according to an embodiment of the present invention.
FIG. 6 is an example of reading aloud by a voice browser according to an embodiment of the present invention.
FIG. 7 is an example of a homepage type displayed by a multi-frame configuration of a Web browser according to an embodiment of the present invention.
FIG. 8 is an example of reading aloud by a voice browser according to an embodiment of the present invention.
FIG. 9 is an example in which an image is posted on a Web browser according to an embodiment of the present invention.
FIG. 10 is an example of reading aloud by a voice browser according to an embodiment of the present invention.
FIG. 11 is a configuration diagram in the case of reproducing music / reading content according to an embodiment of the present invention.
FIG. 12 is a sequence chart of audio data reproduction control according to an embodiment of the present invention.
[Explanation of symbols]
DESCRIPTION OF
Claims (1)
ユーザの音声による要求を入力する音声入力手段と、
前記入力されたユーザの音声を前記音声認識サーバに送信し、当該音声認識サーバから音声認識結果を受信し、受信した音声認識結果よりURLを抽出し、該URLに基づいてプロキシサーバにHTMLファイルを要求する要求発行手段と、
前記プロキシサーバから取得したHTMLファイルを解析し、タイトル、リンク項目、本文に分類する手段と、
前記分類されたリンク項目を音声認識サーバに送信する手段と、
前記タイトル、リンク項目、本文を含む表示されるテキスト情報を音声合成サーバに送信し、当該音声合成サーバから合成された音声データを受信する手段と、
前記受信した音声データを利用して、タイトル、リンク項目、本文の順に読み上げて音声出力する音声出力手段と、
を有することを特徴とする音声クライアント端末。 An HTML file stored on servers acquired via the Internet, an audio client terminal for outputting a voice,
Voice input means for inputting a user's voice request;
The input user's voice is transmitted to the voice recognition server, a voice recognition result is received from the voice recognition server, a URL is extracted from the received voice recognition result, and an HTML file is stored in the proxy server based on the URL. Request issuing means to request;
Means for analyzing an HTML file acquired from the proxy server and classifying the file into a title, a link item, and a body;
Means for transmitting the classified link items to a speech recognition server;
Means for transmitting displayed text information including the title, link item, and body to a speech synthesis server, and receiving speech data synthesized from the speech synthesis server;
Using the received voice data, voice output means for reading out the voice in the order of title, link item, and text;
Audio client terminal characterized in that it comprises a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04818098A JP3864197B2 (en) | 1998-02-27 | 1998-02-27 | Voice client terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04818098A JP3864197B2 (en) | 1998-02-27 | 1998-02-27 | Voice client terminal |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11249867A JPH11249867A (en) | 1999-09-17 |
JP3864197B2 true JP3864197B2 (en) | 2006-12-27 |
Family
ID=12796198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04818098A Expired - Fee Related JP3864197B2 (en) | 1998-02-27 | 1998-02-27 | Voice client terminal |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3864197B2 (en) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000017739A1 (en) * | 1998-09-22 | 2000-03-30 | Yasufumi Mase | Information processor for visually disabled person and tactile input/output device |
JP2001103184A (en) | 1999-09-28 | 2001-04-13 | Matsushita Electric Ind Co Ltd | Mobile phone |
JP2001109687A (en) * | 1999-10-07 | 2001-04-20 | Nec Corp | Device and method for accessing home page |
US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6978475B1 (en) | 1999-11-24 | 2005-12-20 | Ecable, Llc | Method and apparatus for internet TV |
KR100371880B1 (en) * | 2000-01-11 | 2003-02-15 | 오양근 | A printing method of internet information |
KR20010069026A (en) * | 2000-01-11 | 2001-07-23 | 오양근 | A voice guiding method when searching the internet |
KR100301219B1 (en) * | 2000-01-25 | 2001-11-03 | 백종관 | Voice Portal Service System Using Speech Recognition/Text-to-Speech at Communication Network and Method thereof |
KR20010076630A (en) * | 2000-01-27 | 2001-08-16 | 최중인 | Voice Portal Service using voice recognition technology |
KR100432852B1 (en) * | 2000-02-09 | 2004-05-24 | 지앤비영어전문교육 주식회사 | Device for outputing voice advertisement on network according to time and method thereof |
US20070150285A1 (en) * | 2000-02-10 | 2007-06-28 | Solomon Friedman | Recorder adapted to interface with internet browser |
JP4505929B2 (en) * | 2000-03-03 | 2010-07-21 | ソニー株式会社 | COMMUNICATION SYSTEM, COMMUNICATION METHOD, AND COMPUTER PROGRAM |
JP2001273214A (en) * | 2000-03-24 | 2001-10-05 | Oki Software Kk | Web page decoding system |
KR20000064144A (en) * | 2000-08-24 | 2000-11-06 | 왕상주 | Method of electronic commerce using speech, and system therefor |
KR20020030156A (en) * | 2000-10-16 | 2002-04-24 | 박기범 | Control method of computer program used voice recognition technology |
JP3714159B2 (en) * | 2000-11-30 | 2005-11-09 | 日本電気株式会社 | Browser-equipped device |
JP4014361B2 (en) * | 2001-01-31 | 2007-11-28 | シャープ株式会社 | Speech synthesis apparatus, speech synthesis method, and computer-readable recording medium recording speech synthesis program |
US7174297B2 (en) | 2001-03-09 | 2007-02-06 | Bevocal, Inc. | System, method and computer program product for a dynamically configurable voice portal |
JP4225703B2 (en) * | 2001-04-27 | 2009-02-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Information access method, information access system and program |
KR20030088087A (en) * | 2002-05-11 | 2003-11-17 | 이경목 | One Click Internet Key Word Searching Method with a Moving Search Key Word Window and Multi Search Engine Icons |
JP4618611B2 (en) * | 2002-06-17 | 2011-01-26 | 榮一 海野 | Homepage information supply method and device |
KR20050040983A (en) * | 2003-10-29 | 2005-05-04 | (주)텔리뷰 | Voice web browsing system and control method thereof |
US8214214B2 (en) | 2004-12-03 | 2012-07-03 | Phoenix Solutions, Inc. | Emotion detection device and method for use in distributed systems |
JP2008009465A (en) * | 2005-03-11 | 2008-01-17 | Kazenomori Kobo:Kk | Method for acquiring character/voice data from image data by using server |
JP2007087267A (en) * | 2005-09-26 | 2007-04-05 | Nippon Telegr & Teleph Corp <Ntt> | Voice file generating device, voice file generating method, and program |
-
1998
- 1998-02-27 JP JP04818098A patent/JP3864197B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11249867A (en) | 1999-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3864197B2 (en) | Voice client terminal | |
US6665642B2 (en) | Transcoding system and method for improved access by users with special needs | |
US6725424B1 (en) | Electronic document delivery system employing distributed document object model (DOM) based transcoding and providing assistive technology support | |
JP4225703B2 (en) | Information access method, information access system and program | |
KR100586766B1 (en) | Method and system for synchronizing audio and visual presentation in a multi-modal content renderer | |
US7054952B1 (en) | Electronic document delivery system employing distributed document object model (DOM) based transcoding and providing interactive javascript support | |
US6829746B1 (en) | Electronic document delivery system employing distributed document object model (DOM) based transcoding | |
US7657828B2 (en) | Method and apparatus for coupling a visual browser to a voice browser | |
US7194411B2 (en) | Method of displaying web pages to enable user access to text information that the user has difficulty reading | |
JP2001014319A (en) | Hypertext access device | |
US20030124502A1 (en) | Computer method and apparatus to digitize and simulate the classroom lecturing | |
US7730390B2 (en) | Displaying text of video in browsers on a frame by frame basis | |
JP3789614B2 (en) | Browser system, voice proxy server, link item reading method, and storage medium storing link item reading program | |
KR20060088175A (en) | System and method for creating e-book that having multi-format | |
US20020143817A1 (en) | Presentation of salient features in a page to a visually impaired user | |
Raman | AsTeR: Audio system for technical readings | |
JP2002014893A (en) | Web page guiding server for user who use screen reading out software | |
JPH10322478A (en) | Hypertext access device in voice | |
WO2023132140A1 (en) | Program, file generation method, information processing device, and information processing system | |
JP3787623B2 (en) | Conversation expression generation device and conversation expression generation program | |
JP2009086597A (en) | Text-to-speech conversion service system and method | |
KR20020036895A (en) | An electronic book service system | |
KR100585711B1 (en) | Method for audio and voice synthesizing | |
KR20010017323A (en) | Web browsing apparatus and method having language learning function | |
JP2003186793A (en) | Server, system and method for providing information to multichannel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060831 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091013 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091013 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101013 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101013 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111013 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111013 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121013 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121013 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131013 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |