JP2005010992A

JP2005010992A - 合成音声によるウェブページの説明および広告の方法及びサーバ

Info

Publication number: JP2005010992A
Application number: JP2003173273A
Authority: JP
Inventors: Daisaku Wakamatsu; 大作若松; Kiminori Hisanaga; 公紀久永; Susumu Tsukahara; 進塚原
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2003-06-18
Filing date: 2003-06-18
Publication date: 2005-01-13

Abstract

【課題】音声合成機能を利用してウェブページのユーザへの情報伝達を強化することができ、音声により伝達する情報の変更・更新も容易に行える方法及びサーバを提供する。
【解決手段】所定のタグを用いたウェブページの記述に従い音声合成する音声合成機能を利用した音声による、ウェブページのユーザへの情報伝達を強化するための方法であって、ウェブブラウザにて画面表示されない所定のタグを用いて、ウェブページに、当該ウェブページ上の読み上げ対象テクストを指定する記述、および対象テクストの読み上げ順序を指定する記述をする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成機能を利用してウェブページのユーザへの情報伝達を強化する方法及びサーバに関する。
【０００２】
【従来の技術】
ウェブページにおいて音声により広告する方法としては、音声メディアファイルおよびそれと同期させたウェブページを予め作成しておき、当該ウェブページにアクセスしてきたユーザに対し、音声等と同期したウェブページをプッシュするものがある。
また、ウェブページに音声による説明を付加する方法として、音声を録音した音声メディアファイルを予め作成しておき、当該ウェブページ中にこの音声メディアファイルをリンクすることで実現する技術がある。これについては、例えば、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）の記述仕様に音声等のメディアファイルをウェブページに付加する方法が規定されている。
【０００３】
こうした合成音声によるウェブページの読み上げは、パソコンなどのローカルな環境に置かれる音声合成ソフトウェアを使用する音声ブラウザによるものやスクリーンリーダーによるもの、マルチモーダルブラウザによるものなどがある。また、合成音声による情報提供として、電話回線を経由したボイスポータル・サイトなどもある。
【０００４】
他方、ビデオメディアや音声メディアを、これらのメディアを再生するメディアプレイヤーに、再生リストに従って次々に再生させる技術がある。また、ウェブページのマークアップ言語によるページの遷移技術がある。ページの遷移については、例えば、ＨＴＭＬの記述仕様に規定がある。その他、ウェブページのスクリプト言語によるページの遷移技術もある。これについては、例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）仕様に規定がある。
【０００５】
【特許文献１】
特開２００２−２３０４３６号公報
【０００６】
【発明が解決しようとする課題】
上記のように、ウェブページに音声による説明を付加するには、音声を録音したメディアファイル（ストリーミングデータなど）をウェブページ作成時に予め作成することが一般的であった。この場合、読み上げ対象のウェブページ毎に音声を録音したメディアファイルを作成する必要があり、ウェブページの記載内容の変更がある場合、この変更に合わせてメディアファイルを簡易に変更することができなかった。
特に、従来の音声メディアファイルを利用したウェブページの広告では、広告用のメディアファイルを予め作成しておくことが必要となるため、ウェブページの記載内容の変更に合わせてそのメディアファイルを簡易に変更することができなかった。
【０００７】
音声を録音したメディアファイルを利用する場合、録音内容の変更や追加を行うためには、一般に、同一者の声を継続的に使用する必要がある。また、広告用など、音声の品質を確保する必要がある場合には、アナウンサーなどのプロの発声が必要であった。
音声合成機能は、ユーザ端末が持つ場合あるいはウェブページ作成者が持つ場合が一般的であり、その場合、音声合成機能の導入にあたりその入手および実装に費用と労力が必要であった。
音声による説明を伴わないウェブページから情報を得ようとする者は、画面に向かって画像を見たりテクストを読むことが必要になるため、他のことを行いながら（例えば、家事をしながら）ウェブページの情報を得ることができなかった。
【０００８】
また、自動的にページを切替える機能のないウェブページを閲覧する者は、ページを移動しようとするときには、次のページにアクセスするための操作を行わなければならなかった。
また、従来のスクリーンリーダーでは、画面上のテクストを順に読み上げるだけであったので、読み上げには不要な情報も場合によっては読み上げてしまっていた。また、ウェブページの情報を、画面表示ができない端末から得ることは難しい。
【０００９】
本発明は、上記の点に鑑みてなされたもので、音声合成機能を利用してウェブページのユーザへの情報伝達を強化することができ、音声により伝達する情報の変更・更新も容易に行える方法及びサーバを提供するものである。
【００１０】
【課題を解決するための手段】
請求項１に記載の発明は、所定のタグを用いたウェブページの記述に従い音声合成する音声合成機能を利用した音声による、ウェブページのユーザへの情報伝達を強化するための方法であって、ウェブブラウザにて画面表示されない所定のタグを用いて、ウェブページに、当該ウェブページ上の読み上げ対象テクストを指定する記述、および対象テクストの読み上げ順序を指定する記述をすることを特徴としている。
【００１１】
また、請求項２に記載の発明は、請求項１に記載のウェブページにおける合成音声による説明および広告の方法において、前記所定のタグを用いて、読み上げ対象テクストを追加する記述をさらにすることを特徴としている。
【００１２】
また、請求項３に記載の発明は、請求項１または請求項２に記載のウェブページにおける合成音声による説明および広告の方法において、前記音声合成機能による読み上げ終了時間経過後にウェブページを自動的に切替えさせる記述をさらにすることを特徴としている。
【００１３】
また、請求項４に記載の発明は、請求項３に記載のウェブページにおける合成音声による説明および広告の方法において、前記読み上げ終了時間を、前記音声合成機能により生成された音声メディアファイルのデータサイズから定めるか、または、音声メディアファイルを再生するメディアプレイヤーからの再生終了イベントを基準に定めることを特徴としている。
【００１４】
また、請求項５に記載の発明は、ウェブブラウザにて画面表示されない所定のタグを用いて指定されたテクストを音声合成しその音声メディアファイルを生成する音声合成手段と、ユーザ端末からの閲覧要求に応じて、ＷＷＷサーバから該当のウェブページを取得し、取得したウェブページに読み上げ用記述がある場合には、前記音声合成手段に、読み上げるテクストを音声合成した前記音声メディアファイルを生成させ、該音声メディアファイルと前記ウェブページをユーザ端末に返信する中継手段と、を備えることを特徴としている。
【００１５】
また、請求項６に記載の発明は、サーバであって、ユーザ端末が取得したウェブページに、ウェブブラウザにて画面表示されない所定のタグを用いた読み上げ用記述がある場合には、読み上げ対象のテクストを音声合成し、さらにウェブページを自動的に切替えさせる記述がある場合には、読み上げ時間経過後にウェブページを切替える処理を行うプログラムを格納する記憶手段と、ユーザ端末からの要求に応じて、前記プログラムを配信する配信手段と、を備えることを特徴としている。
【００１６】
また、請求項７に記載の発明は、サーバであって、ユーザ端末からの閲覧要求毎に、ウェブページにウェブブラウザにて画面表示されない所定のタグを用いた読み上げ用記述がある場合には、読み上げ対象のテクストを音声合成した音声メディアファイルの作成を当サーバに要求し、当サーバから生成された音声メディアファイルが格納された場所のアドレス情報の返信を受け、該アドレス情報を当該ウェブページに追加する第１のプログラムと、ユーザ端末が取得したウェブページに音声メディアファイルへのアドレス情報が追加されている場合には、当サーバから前記アドレス情報に対応する音声メディアファイルを取得し、前記ウェブページの表示ならびに前記音声メディアファイルの再生をするとともに、前記ウェブページに、さらに該ウェブページを自動的に切り替えさせる記述がある場合には、該音声メディアファイルの再生後ウェブページを切り替える処理を行う第２のプログラムとを格納する記憶手段と、ウェブページを配信するサーバからの要求に応じて前記第１のプログラムを配信し、ユーザ端末からの要求に応じて前記第２のプログラムを配信する配信手段と、前記第１のプログラムによる音声メディアファイル作成要求に応じて音声メディアファイルを生成し、生成した音声メディアファイルの格納場所のアドレス情報を返信する第１の処理手段と、前記第２のプログラムによる要求で指定された前記アドレス情報に対応する音声メディアファイルの配信をする第２の処理手段と、を備えることを特徴としている。
【００１７】
また、請求項８に記載の発明は、サーバであって、ウェブページを配信するサーバから取得したウェブページに、ウェブブラウザにて画面表示されない所定のタグを用いた読み上げ用記述がある場合には、ユーザ端末上での閲覧毎に、読み上げ対象のテクストを音声合成した音声メディアファイルの作成を当サーバに要求し、生成された音声メディアファイルの格納された場所のアドレス情報の返信を受け、該アドレス情報を基に音声メディアファイルを取得し、取得したウェブページの表示ならびに音声メディアファイルの再生をするとともに、さらに前記ウェブページに自動的に切り替えをさせる記述がある場合には、該音声メディアファイルの再生後ウェブページを切り替える処理を行うプログラムを格納する記憶手段と、ユーザ端末からの要求に応じて前記プログラムを配信する配信手段と、前記プログラムによる音声メディアファイル作成要求に応じて音声メディアファイルを生成し、生成した音声メディアファイルの格納場所のアドレス情報を返信する第１の処理手段と、前記プログラムによる要求で指定された前記アドレス情報に対応する音声メディアファイルの配信をする第２の処理手段と、を備えることを特徴としている。
【００１８】
上記発明では、ブラウザにて画面表示されないタグを用いて、ウェブページ上の読み上げ対象テクストやテクストの読み上げ順序を指定し、さらには読み上げ対象となるテクストの追加をして、これを音声合成機能を利用し読み上げさせることで、当該ウェブページのユーザへの情報伝達を強化することができる。
また、読み上げる音声を変更するには、読み上げ用のテクストのみを変更すれば良いので、再録音の手間が省ける。したがって、従来の方法に比べ、ウェブページの記載内容の変更に簡易に連動する形で、ウェブページの読み上げを実現できる。
また、音声読み上げ用テクストを変更しても、音声合成機能により音声を作成するため、継続的に一定品質の音声を確保できる。
【００１９】
また、音声合成機能を、ウェブページの読み上げ機能を提供する者（ユーザやウェブページ作成者ではないことを想定）が提供する構成を取った場合、ユーザやウェブページ作成者は音声合成機能を持つ場合に比べ費用と労力を軽減できる。
【００２０】
また、音声による説明をウェブページに付加することにより、画面に向かって画像を見たりテクストを読むことを必要とせず、他のことを行いながら（例えば、家事をしながら）ウェブページの情報を得ることができる。また、画面を見ていなくても音声のみで情報を得ることができる。
また、読み上げと連動した自動的なページ切替えを、合成された音声メディアファイルのデータサイズから算定する読み上げ時間を基準に行う機能、または、音声メディアファイルを再生する既製のメディアプレイヤーから再生終了イベントを受信することを基準に行う機能を有するので、ページを移動しようとするときには、次のページにアクセスするための操作を行う必要がなくなる。
【００２１】
また、読み上げの対象テクストをタグにより指定するので、ウェブページ上の読み上げには不要な情報は排除することができ、理解しやすい読み上げを行うことができる。
また、ウェブページの記載内容を音声で読み上げることで、ウェブページ画面を表示できない端末を使っても、音声により情報を得ることができる。
【００２２】
なお、ウェブページとは、ＷＷＷシステムを使ってインターネット上で公開される文書情報であり、Ｗｅｂブラウザに一度に表示されるデータのまとまりで、テクストデータや、ＨＴＭＬ、ＸＭＬ等のマークアップ言語によるレイアウト情報及びタグを用いたその他の指定や、文書中に埋め込まれた画像や音声、動画などのデータあるいはそのリンク先を示す情報から構成されるものとする。
【００２３】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
［実施形態１］
本実施形態は、図１に示すように、ユーザ端末１と、ホームページ（ウェブページからなる）を提供するＷＷＷサーバ２と、ユーザ端末１からの閲覧要求（ページ表示要求）を中継するサーバ３とで構成される。
サーバ３は、ユーザ端末１からの閲覧要求に応じて、ＷＷＷサーバ２からウェブページ（例えば、ＨＴＭＬ文書）を受ける。そして、このウェブページに読み上げ用記述がある場合には、読み上げるテクストを音声合成した音声メディアファイルを作成し、当該ウェブページにこの音声メディアファイルをリンクさせる記述、ならびにページ切替記述がある場合には、当該音声メディアファイルの読み上げ終了時間に合わせてページ切替記述を修正し、このウェブページと音声メディアファイルをユーザ端末１に送信する機能をもつ（詳細は後述）。
【００２４】
なお、ユーザは複数存在するのでユーザの端末も複数存在する。このユーザ端末１は、テレマティクス端末やパーソナルコンピュータ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、携帯電話機などウェブページを閲覧できる機器である。
ウェブページ作成者も複数存在するのでＷＷＷサーバ２も複数存在する。ＷＷＷサーバ２、サーバ３は、例えばインターネット上に配置される。なお、サーバ３は、ＷＷＷサーバ２の直近に配置してもよい。
【００２５】
ウェブページ作成者は、まず従来のウェブページ作成方法にて、各ページをそれぞれ作成する。
次に、ウェブページ作成ツールを使用して、ウェブページの遷移（切替）を指定するページ切替用記述と、音声読上げ用の記述をする。
このウェブページ作成ツールは、先に作成されたウェブページに、ウェブブラウザに画面表示されない所定のタグを用いて、読み上げ対象テクストを指定する記述、対象テクストの読み上げ順序を指定する記述、読み上げ対象テクストを追加する記述、音声合成機能による合成音声の読み上げ終了時間を考慮（算出もしくは推定）し、読み上げ終了後に、ユーザ端末１側でウェブページを自動的に切替えさせる記述を挿入するためのツール（ソフトウェア）である。これらの記述例は後述する。
【００２６】
ウェブページ作成者は、上記ウェブページ作成ツールに、各ページのファイルを読み込ませ、ページプレビューを見ながらページを表示する順番に並べ直す。また、選択しているページを対象に、読み上げるテクストを指定（追加を含む）し、後述する音声合成に関する属性を指定する。最後に編集したファイルを保存する。このようにウェブページ作成ツールにより編集されたウェブページは、上記のそれぞれに関するタグを用いた記述が元のウェブページに挿入されたファイルとなる。もちろん、このウェブページ作成ツールを使用しなくても、テクストエディタを使用するなどの別の方法で記述することもできる。
【００２７】
ここで、タグを用いた記述例について説明する。
読み上げ用テクストは、ブラウザ画面上に表示されないコメントタグを使用して、以下の通り記述される。本記述文法は一例を示すものであって、本方式以外にも、例えばＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）を拡張したＸＨＴＭＬ（ＴｈｅＥｘｔｅｎｓｉｂｌｅＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）にて新たにタグ定義して記述することも可能である。
【００２８】
＜！−− ＴＴＳ−ＴＥＸＴ−ＴＡＧ
ｔｅｘｔ＝”＜読み上げ用テクスト文＞”
ｖｏｌｕｍｅ＝”＜音量の程度を表す数値＞” （オプション）
ｓｐｅｅｄ＝”＜読み上げ速度の程度を表す数値＞” （オプション）
ｉｎｔｏｎａｔｉｏｎ＝”＜抑揚の程度を表す数値＞” （オプション）
ｖｏｉｃｅ＝”＜読み上げ音声の声質を表すキーワード＞” （オプション）
ｎｅｘｔｓｒｃ＝”＜読み上げ後に移動するページのアドレス文字列＞” （オプション）
ｓｅｑ＝”＜そのページ中で読み上げる順番＞” （オプション）
−−＞
【００２９】
なお、上記各オプションのいくつかは、音声合成機能部に対し、テクストの読み上げの際の音量や読み上げ速度等を規定するものである。オプションの「ｎｅｘｔｓｒｃ」には、読み上げ対象のテクストの読み上げ後にページを遷移させる場合に、移動するページのアドレスを表す文字列が設定され、「ｓｅｑ」には、そのページ中で読み上げる順番が設定される。
ウェブページ作成者は、上記のような読み上げ用テクストを指定あるいは追加し、その他のオプションを定めたウェブページのファイルを、ＷＷＷサーバ２にアップロードして当該ウェブページを公開する。
【００３０】
一方、サーバ３には、読み上げ対象とするウェブページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）が登録される。ここでの登録は、例えば本サーバ３のウェブインターフェースを利用して、読み上げの対象とするウェブページの運用者が行う。
本サーバ３は、いわゆるＷＷＷサーバとリバース・プロキシーサーバとして動作する。サーバ３は、ＷＷＷサーバとして、登録されたウェブページの一覧や提供するサービスの利用方法についての説明・案内を提供する。
【００３１】
リバース・プロキシーサーバは、そのＵＲＬが登録されたウェブページを当該サーバの中にあるように見せかけることができる従来の技術であるが、サーバ３は、リバース・プロキシーサーバとして、下記のトランスコード・プロセスを実行させる。
トランスコード・プロセスは、読み上げ対象のウェブページのタグ解析を行うことにより、読み上げ用テクストの記述文法に一致する記述を抽出し、その読み上げ用テクストに従って、音声メディアファイルを作成する。この音声メディアファイルは、そのデータが、一般的なメディアプレイヤーにて音声化されるものである。
【００３２】
そして合成音声による読み上げにかかる時間（再生時間）を求める。例えば音声メディアファイルがＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）データの場合には、そのファイルサイズをビットレートで割ることにより計算して求める。その他のメディアファイルの場合もそれぞれに応じた計算方法で計算する。
そして、元のウェブページに、音声メディアファイルをリンク付けする以下のタグを追加する。以下では、３種のタグを例示している。
【００３３】
＜ｅｍｂｅｄｓｒｃ＝”＜音声メディアファイルのアドレス＞”
ａｕｔｏｓｔａｒｔ＝“ｔｒｕｅ”＞
【００３４】
または、
＜ｂｇｓｏｕｎｄｓｒｃ＝”＜音声メディアファイルのアドレス＞”＞
【００３５】
または、既製プレイヤーのイベントによりページを切替える場合では、

【００３６】
また、ページ自動切替え用記述として、元のウェブページに以下のスクリプトを追加する。ユーザには、手動で次のページへ進む、前のページに戻る、今のページをもう一度読み上げる、一時停止する等の機能も同時に提供する。以下にページ自動切換え用の２種のスクリプトの例（ＪａｖａＳｃｒｉｐｔ（登録商標）を使用した例）を示すが、実システム上では、次のページへ進む、前のページへ戻る、一時停止などの操作ができるようにする。
なお、下記の＜次に読み込むページ＞は、前述の、ウェブページに記述される「ｎｅｘｔｓｒｃ」に設定されたアドレス文字列に基づくＵＲＬが設定される。
【００３７】

【００３８】
または、既製プレイヤーのイベントによりページを切替える場合では、

【００３９】
ユーザのブラウザからの閲覧要求（ｈｔｔｐ−ｇｅｔ）を、リバース・プロキシーサーバ（サーバ３）で受信し、以上のタグを付加する加工を施したウェブページを、ユーザのブラウザへ応答として返送（ｈｔｔｐ＿ｒｅｓｐ）する。
リバース・プロキシーサーバは、閲覧要求と閲覧されたウェブページのログを取得する。このログは、課金や統計情報として利用できる。アクセス制限をする場合など、ユーザを識別するためには、ユーザＩＤを発行しログオンさせる従来技術が必要になる。
【００４０】
他方、ユーザは、ＰＣを利用する場合、ウェブページ閲覧用のブラウザとして、ＪａｖａＳｃｒｉｐｔ（登録商標）とＨＴＭＬ４．０とオーディオファイル（音声メディアファイル）を再生することに対応したウェブブラウザを用いる。
ユーザは、例えば、前述のようにして作成された読み上げ可能なウェブページの一覧を配信するサーバ３へアクセスし、読み上げ可能なウェブページの案内を見て、所望のウェブページを視聴する。なお、このサーバ３へのアドレスは、メール等によりユーザに通知するようにしてもよい。
【００４１】
［実施形態２］
本実施形態は、図２に示すように、読み上げ等のための記述がなされたウェブページに対し、ユーザ端末１側でそれを解析し読み上げをする音声合成機能およびページ切替機能を与える端末用プログラム（アプリケーション）を、サーバ３からユーザ端末１に提供する構成をとっている。
なお、ユーザは複数存在するのでユーザの端末も複数存在する。また、ユーザの端末は、テレマティクス端末やパーソナルコンピュータ、ＰＤＡ、携帯電話機などウェブページを閲覧できる機器であるが、上記端末用プログラムを実行できるものとする。
ＷＷＷサーバ２は、読み上げ等のための記述がなされたウェブページを公開しているウェブサイトを示し、複数存在してよい。
【００４２】
まず、ウェブページ作成者は、前述の実施形態１の場合と同様にしてウェブページを作成し、これをＷＷＷサーバ２に登録する。
次に、読み上げ対象とするウェブページのＵＲＬを、ＷＷＷサーバとして動作するサーバ３に登録する。この登録は、例えばこのサーバ３のウェブインターフェースを利用して、読み上げの対象とするウェブページの運用者が行う。
サーバ３では、ウェブページ作成者により作成された読み上げ可能なウェブページの一覧やウェブページの読み上げに関するサービスの利用方法についての説明・案内を提供する。また、このサーバ３は、ユーザが下記の端末用プログラムをダウンロードできるように構成されている。
【００４３】
一方、ユーザは、前述のように作成されたウェブページの一覧を提供するサーバ３へアクセスし、その案内を見る。なお、ユーザは、ユーザに送付されるメール等により、このサーバ３へのアドレスを知ることができる。
そして、予め端末用プログラムをサーバ３からダウンロードし、自身のユーザ端末１へ導入する。
【００４４】
この端末用プログラムは、ウェブブラウザのプラグインアプリケーション（ブラウザ支援アプリケーション）として動作するか、またはウェブブラウザそのものとして動作する。
この端末用プログラムでは、ユーザが、上記サーバ３のウェブページ一覧から読み上げしたいウェブページ群をひとつまたは複数選択することができる。そして選択されたウェブページを、タグによる記述に従い、その読み上げとウェブページの巡回を自動的に行う。
【００４５】
すなわち、この端末用プログラムは、読み上げ可能なウェブページの内容（表示可能な部分）を表示すると同時に、そのウェブページのタグ解析を行うことにより、読み上げ用テクストの記述文法に一致する記述を抽出し、その読み上げ用テクストに従って音声合成エンジン（これは周知の音声合成技術を利用する）を動作させユーザ端末１の音声出力デバイスから出力させる。
また、このプログラムは、音声合成エンジンから、読み上げが終了した時のイベントを受信し、前述の所定のタグで指定された次のページを開く。
また、このプログラムは、ユーザが閲覧する一連のウェブページの最後を検知した場合（あるいは、当該ウェブページにて所定のタグによる次のページへの指定が無かった場合）、ユーザが選択した次のウェブページへ遷移する。
【００４６】
［実施形態３］
本実施形態は、図３に示すように、ユーザ端末１と、ホームページ（ウェブページからなる）を提供するＷＷＷサーバ２と、サーバ３とから構成される。
サーバ３は、ユーザ端末１にページ切替機能を与える端末用プログラム（アプリケーション）を提供し、ＷＷＷサーバ２には当サーバ１に音声メディアファイルを作成させるためのウェブページ作成者用プログラム（アプリケーション）を提供する。ＷＷＷサーバ２に導入されたウェブページ作成者用プログラムは、ウェブページの記述を解析し読み上げが必要なテクストに対しその音声メディアファイルを作成するようサーバ３に要求する。サーバ３は、ＷＷＷサーバ２からの要求に応じて音声メディアファイルを作成しこれを一時保存し、そのアドレス情報をＷＷＷサーバ２に返信する。返信されたアドレス情報は、ウェブページに追加される。
【００４７】
なお、ユーザは複数存在するのでユーザの端末も複数存在する。ユーザの端末は、テレマティクス端末やパーソナルコンピュータ、ＰＤＡ、携帯電話機などウェブページを閲覧できる機器であるが、上記端末用プログラムを実行できる環境を有するものとする。
また、ＷＷＷサーバ２は、ウェブページ作成者側にあり、読み上げ等のための記述がなされたウェブページを公開しているウェブサイトを示し、複数存在してよい。ただし、ウェブページ作成者用プログラムを実行できる環境を有するもの（アプリケーション・サーバ等である）とする。
【００４８】
まず、ウェブページ作成者は、前述の実施形態１の場合と同様にしてウェブページを作成する。
また、実施形態１と同様に、読み上げ対象とするウェブページのＵＲＬが、ＷＷＷサーバ２として動作するサーバ３に登録される。
サーバ３では、読み上げ用記述がなされたウェブページの一覧やウェブページの読み上げに関するサービスの利用方法についての説明・案内を提供する。また、このサーバ３は、ウェブページ作成者に対し音声メディアファイルを作成するウェブサービスを提供する。ウェブページ作成者側のウェブページ作成者用プログラムから音声メディアファイル作成要求を受信すると、サーバ３に備わる音声合成機能により、読み上げ対象のウェブページから実施形態２と同様に音声メディアファイルを作成し、本サーバ３上に一時的に保存する。
【００４９】
そして、作成した音声メディアファイルから読み上げにかかる時間（再生時間）を、実施形態１と同様に求める。
その後、当該音声メディアファイルの所在を示すアドレス情報とその読み上げにかかる時間（再生時間）をウェブページ作成者側のウェブページ作成者用プログラムへ返送する。
一方、サーバ３は、ウェブページ作成者からの音声メディアファイル作成要求と閲覧された音声メディアファイルのログを取得する。このログは、課金や統計情報として利用できる。
【００５０】
ウェブページ作成者は、サーバ３によるサービスを享受するために、予めサーバ３からウェブページ作成者用プログラムをダウンロードしＷＷＷサーバ２に導入する。
ウェブページ作成者側のＷＷＷサーバ２は、ユーザのブラウザからの閲覧要求（ｈｔｔｐ−ｇｅｔ）に対して、後述する加工を施したウェブページをユーザのブラウザへ応答として返送（ｈｔｔｐ＿ｒｅｓｐ）する。
【００５１】
ＷＷＷサーバ２は、ユーザ側から閲覧要求を受信した時、サーバ３へ音声メディアファイル作成要求を送信し、応答として作成された音声メディアファイルとその再生時間情報を受信する。
ウェブページ作成者用プログラムは、元のウェブページに、音声メディアファイルをリンク付けするのタグを追加する。このタグとしては、実施形態２で例示した３種のタグのいずれかを使用することができる。
【００５２】
さらに、ページ自動切替え用記述として、元のウェブページに、実施形態２にて説明したものと同様のスクリプトを追加する。
そして、閲覧要求と閲覧されたウェブページのログを取得する。このログは、課金や統計情報として利用できる。ユーザを識別する場合には、さらにユーザＩＤを発行しログオンさせる従来技術が必要になる。
【００５３】
一方、ユーザは、前述のように記述されたウェブページの一覧を提供するサーバ３へアクセスし、ウェブページの一覧と読み上げサービスの案内を見る。ユーザは、このユーザに送付されるメール等により、サーバ３のアドレスを知ることができる。
そして、予め端末用プログラムをサーバ３からダウンロードし、自身のユーザ端末１へ導入する。
この端末用プログラムは、ウェブブラウザのプラグインアプリケーション（ブラウザ支援アプリケーション）として動作するか、またはウェブブラウザそのものとして動作する。
【００５４】
このプログラムは、実施形態２にて説明したものと同様に、ユーザがサーバ３のウェブページ一覧から読み上げさせたいウェブページをひとつまたは複数選択することができ、選択されたウェブページを、タグによる記述に従い、その読み上げとウェブページの巡回を自動的に行う。
選択したウェブページを閲覧する場合は、ＷＷＷサーバ２から対応するウェブページをダウンロードするとともに、このウェブページ中にリンクされている音声メディアファイルをサーバ３からダウンロードすることで、そのウェブページに対応する合成音声による説明を聞くことができるようになる。
【００５５】
［実施形態４］
本実施形態は、図４に示すように、ユーザ端末１と、ホームページ（ウェブページからなる）を提供するＷＷＷサーバ２と、サーバ３とから構成される。
本実施形態は、音声合成機能をネットワーク上のサーバ３で提供し、さらにサーバ３が、下記の端末用プログラム（アプリケーション）をユーザ端末１に提供するとともに、ユーザ端末１からの音声メディアファイル作成要求に応じて音声メディアファイルを作成し返信する。ユーザ端末１に導入された端末用プログラムは、ＷＷＷサーバ２から音声読み上げ用記述がされているウェブページの閲覧要求毎に、サーバ３に対し音声メディアファイル作成要求をし、作成された音声メディアファイルを得て、その再生により、ウェブページの読み上げを実現させるものである。
【００５６】
なお、ユーザは複数存在するのでユーザの端末も複数存在する。ユーザの端末は、テレマティクス端末やパーソナルコンピュータ、ＰＤＡ、携帯電話機などウェブページを閲覧できる機器であるが、下記の端末用プログラムを実行できる環境を有するものとする。
ＷＷＷサーバ２は、読み上げ等のための記述がなされたウェブページを公開しているウェブサイトを示し、複数存在してよい。
【００５７】
まず、ウェブページ作成者は、前述の実施形態１の場合と同様にしてウェブページを作成する。
また、読み上げ対象とするウェブページのＵＲＬを、実施形態２と同様にＷＷＷサーバとして動作するサーバ３に登録する。
サーバ３では、ウェブページ作成者により作成されたウェブページの一覧やウェブページの読み上げに関するサービスの利用方法についての説明・案内を提供する。また、実施形態３と同様に、音声メディアファイルを作成するウェブサービスを提供するが、本実施の形態では、ユーザ端末１に対してこのサービスを行う。
【００５８】
サーバ３は、ユーザ端末１の端末用プログラムから音声メディアファイル作成要求を受信すると、その音声合成機能により音声メディアファイルを作成し、一時的に保存する。
そして、実施形態１と同様に、作成した音声メディアファイルから読み上げにかかる時間（再生時間）を求める。
【００５９】
その後、当該音声メディアファイルへのアドレス情報とその読み上げにかかる時間（再生時間）をユーザ端末１の端末用プログラムへ返信する。
一方、サーバ３は、音声メディアファイル作成要求と閲覧された音声メディアファイルのログを取得する。このログは、課金や統計情報として利用できる。ユーザを識別する場合には、さらにユーザＩＤを発行しログオンさせる従来技術が必要になる。
【００６０】
一方、ユーザは、予め端末用プログラムをサーバ３からダウンロードし、自身のユーザ端末１へ導入している。
ユーザは、ウェブページ作成者により作成されたウェブページの一覧を提供するサーバ３へアクセスし、ウェブページの一覧と読み上げサービスの案内を見る。ユーザは、送付されるメールなどにより、サーバ３へのアドレスを知ることができる。
【００６１】
なお、上記端末用プログラムは、ウェブブラウザのプラグインアプリケーション（ブラウザ支援アプリケーション）として動作するか、またはウェブブラウザそのものとして動作する。
このプログラムは、実施形態２にて説明したものと同様に、ユーザがサーバ３のウェブページ一覧から読み上げをさせたいウェブページ群をひとつまたは複数選択することができ、選択されたウェブページを、タグによる記述に従い、その読み上げとウェブページの巡回を自動的に行う。
また、このプログラムは、音声メディアファイルの再生時間情報、または既製プレイヤーからの再生終了イベントから自動的にウェブページを切替える機能の他、ユーザの操作により次のページへ進む、前のページに戻る、今のページをもう一度読み上げる、一時停止する機能がある。
【００６２】
ここで、ユーザが読み上げ対象のウェブページを選択すると、選択されたウェブページのファイルを、当該ウェブページの掲載されているＷＷＷサーバ２からダウンロードするとともに、当該ウェブページに対応した音声メディアファイルの作成要求をサーバ３に送信し、その応答として音声メディアファイルと再生時間情報を受信する。
ユーザ端末１の端末用プログラムは、サーバ３からダウンロードした音声メディアファイルを再生し、ユーザはそのウェブページに対応する音声説明を聞くことができるようになる。
なお、上記実施形態１から４では、ウェブページの内容の画面表示とともに、所定のタグにより指定されたテクストの読み上げをするものとしているが、ウェブページの画面表示をせず、所定のタグにより指定されたテクストの読み上げのみを行い、音声のみによる情報伝達を行うようにしてもよい。
【００６３】
以上、４種の実施形態を説明したが、以上で説明した実施形態１から４は、音声による広告ビジネスに適用することもできる。
具体的には、実施形態１から４のいずれかの形態を使用して、広告対象となるウェブページの一部あるいは全部を記載した一覧を、ユーザにウェブページやメール等により提供する。
ユーザが、当該一覧からウェブページを選択しこれにアクセスすることにより、その読み上げを開始することで、ウェブページに記載された内容の広告を行うものである。この場合、広告対象とするウェブページへのユーザのアクセスログを取得することにより広告利用状況を把握することができる。
【００６４】
その他、実施形態１から４は、インターネット通信販売の商品説明に利用することや、企業が設けるウェブページ上などでアピールしたい広告や最新情報を画面表示とは別に合成音声にて表現したい時にも利用することができる。また、ウェブページを、前述の画面遷移を利用して、スライドに合成音声による説明を加えたように見せることで、ｅ−Ｌｅａｒｎｉｎｇや遠隔プレゼンテーションに利用することもできる。また、美術館・博物館のウェブページにて、その作品・展示品解説として利用することもできる。
【００６５】
また、ウェブページを表示したときに聞こえる音声広告を変更するには、読み上げ用テクストを変更すればよいので、録音するより容易に音声広告を変更できるため、合成音声で提供する新たな広告ビジネスの確立が期待できる。
また、音声による説明は、高齢者や視覚障害者、運転者、手仕事中の労働者などの情報アクセス手段として有効である。
また、画面を見ながら更に音声による説明を聞くことで、情報を理解することが容易になる。
また、ウェブページ毎に録音音声を作成しなくて済むので、新商品などがあった場合のウェブページの更新が簡単になる。
また、ウェブページを更新しても、最新の音声情報を提供できる。
【００６６】
また、ウェブページ上で読み上げに適したテクストのみを指定して読み上げさせることができる。また、読み上げ音声に対応するウェブページの移動（ページ切替）を自動的に行わせることができる。
また、合成音声であるため、均一した品質の音声説明を加えることができる。
また、ウェブページの記載内容を音声で読み上げることで、正常にウェブページ画面が表示できない端末を使っても、音声により情報を得ることができる。
以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこれらの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の構成等も含まれる。
【００６７】
【発明の効果】
以上、詳細に説明したように、本発明によれば、音声合成機能を利用してウェブページのユーザへの情報伝達を強化することができ、音声により伝達する情報の変更・更新も容易に行える。
【図面の簡単な説明】
【図１】本発明による一実施の形態（実施形態１）の構成を説明する図である。
【図２】本発明による一実施の形態（実施形態２）の構成を説明する図である。
【図３】本発明による一実施の形態（実施形態３）の構成を説明する図である。
【図４】本発明による一実施の形態（実施形態４）の構成を説明する図である。
【符号の説明】
１…ユーザ端末
２…ＷＷＷサーバ
３…サーバ

Claims

所定のタグを用いたウェブページの記述に従い音声合成する音声合成機能を利用した音声による、ウェブページのユーザへの情報伝達を強化するための方法であって、
ウェブブラウザにて画面表示されない所定のタグを用いて、ウェブページに、当該ウェブページ上の読み上げ対象テクストを指定する記述、および対象テクストの読み上げ順序を指定する記述をする
ことを特徴とするウェブページにおける合成音声による説明および広告の方法。
前記所定のタグを用いて、読み上げ対象テクストを追加する記述をさらにする
ことを特徴とする請求項１に記載のウェブページにおける合成音声による説明および広告の方法。
前記音声合成機能による読み上げ終了時間経過後にウェブページを自動的に切替えさせる記述をさらにする
ことを特徴とする請求項１または請求項２に記載のウェブページにおける合成音声による説明および広告の方法。
前記読み上げ終了時間を、前記音声合成機能により生成された音声メディアファイルのデータサイズから定めるか、または、音声メディアファイルを再生するメディアプレイヤーからの再生終了イベントを基準に定める
ことを特徴とする請求項３に記載のウェブページにおける合成音声による説明および広告の方法。
ウェブブラウザにて画面表示されない所定のタグを用いて指定されたテクストを音声合成しその音声メディアファイルを生成する音声合成手段と、
ユーザ端末からの閲覧要求に応じて、ＷＷＷサーバから該当のウェブページを取得し、取得したウェブページに読み上げ用記述がある場合には、前記音声合成手段に、読み上げるテクストを音声合成した前記音声メディアファイルを生成させ、該音声メディアファイルと前記ウェブページをユーザ端末に返信する中継手段と、を備える
ことを特徴とするサーバ。
ユーザ端末が取得したウェブページに、ウェブブラウザにて画面表示されない所定のタグを用いた読み上げ用記述がある場合には、読み上げ対象のテクストを音声合成し、さらにウェブページを自動的に切替えさせる記述がある場合には、読み上げ時間経過後にウェブページを切替える処理を行うプログラムを格納する記憶手段と、
ユーザ端末からの要求に応じて、前記プログラムを配信する配信手段と、を備える
ことを特徴とするサーバ。
ユーザ端末からの閲覧要求毎に、ウェブページにウェブブラウザにて画面表示されない所定のタグを用いた読み上げ用記述がある場合には、読み上げ対象のテクストを音声合成した音声メディアファイルの作成を当サーバに要求し、当サーバから生成された音声メディアファイルが格納された場所のアドレス情報の返信を受け、該アドレス情報を当該ウェブページに追加する第１のプログラムと、ユーザ端末が取得したウェブページに音声メディアファイルへのアドレス情報が追加されている場合には、当サーバから前記アドレス情報に対応する音声メディアファイルを取得し、前記ウェブページの表示ならびに前記音声メディアファイルの再生をするとともに、前記ウェブページに、さらに該ウェブページを自動的に切り替えさせる記述がある場合には、該音声メディアファイルの再生後ウェブページを切り替える処理を行う第２のプログラムとを格納する記憶手段と、
ウェブページを配信するサーバからの要求に応じて前記第１のプログラムを配信し、ユーザ端末からの要求に応じて前記第２のプログラムを配信する配信手段と、
前記第１のプログラムによる音声メディアファイル作成要求に応じて音声メディアファイルを生成し、生成した音声メディアファイルの格納場所のアドレス情報を返信する第１の処理手段と、
前記第２のプログラムによる要求で指定された前記アドレス情報に対応する音声メディアファイルの配信をする第２の処理手段と、を備える
ことを特徴とするサーバ。
ウェブページを配信するサーバから取得したウェブページに、ウェブブラウザにて画面表示されない所定のタグを用いた読み上げ用記述がある場合には、ユーザ端末上での閲覧毎に、読み上げ対象のテクストを音声合成した音声メディアファイルの作成を当サーバに要求し、生成された音声メディアファイルの格納された場所のアドレス情報の返信を受け、該アドレス情報を基に音声メディアファイルを取得し、取得したウェブページの表示ならびに音声メディアファイルの再生をするとともに、さらに前記ウェブページに自動的に切り替えをさせる記述がある場合には、該音声メディアファイルの再生後ウェブページを切り替える処理を行うプログラムを格納する記憶手段と、
ユーザ端末からの要求に応じて前記プログラムを配信する配信手段と、
前記プログラムによる音声メディアファイル作成要求に応じて音声メディアファイルを生成し、生成した音声メディアファイルの格納場所のアドレス情報を返信する第１の処理手段と、
前記プログラムによる要求で指定された前記アドレス情報に対応する音声メディアファイルの配信をする第２の処理手段と、を備える
ことを特徴とするサーバ。