JP2020204683A

JP2020204683A - 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム

Info

Publication number: JP2020204683A
Application number: JP2019111635A
Authority: JP
Inventors: 一也小寺; Kazuya Kodera
Original assignee: Kodera Kazuya
Current assignee: Kodera Kazuya
Priority date: 2019-06-15
Filing date: 2019-06-15
Publication date: 2020-12-24

Abstract

【課題】合成音声生成手段に入力したとき、様々な仮想人物が分読した音声が出力される各種の電子出版物を提供する一方、文字又は画像をも画面表示させて視聴覚することが可能な電子出版物視聴覚システムを提供することを目的とする。【解決手段】音声のプロファイルが明示された音声合成手段に、該音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルを入力して、複数の仮想人物で分読する音声が出力する電子出版物視聴覚システムであって、電子出版物の随所の文字データにタグが付加された音声合成用ファイルを作成するファイル作成端末と、ファイル作成端末で作成された音声合成用ファイルを格納するファイル提供サーバと、を備えた。【選択図】図１

Description

本発明は、複数の仮想人物が分読する音声を指定するタグが随所に付加された電子出版物を視聴覚するシステム、及び視聴覚用電子出版物作成プログラム、及びそのシステムを利用する利用者端末用プログラムに関する。

従来から音声合成に関する技術として、録音編集方式と規則合成方式とがある。録音編集方式は、人間の発声を単語や文節等に区切ってデータベースに蓄積し、それらを適切に連結して合成音を生成する技術であり、規則合成方式は、予め規定されたルールに従って韻律を変化させながら、データベースに蓄積された単語等の音声波形データを編集して合成音を生成する技術である。
録音編集方式による合成音は、自然に近い合成音が得られるものの、合成できる音声メッセージが限定されるうえ、新たな単語や文を追加する場合には、同じ話者が同じような口調で音声を収録しなければならないという制約がある。一方、規則合成方式は、任意のテキストデータを合成できるため、新たな文等を追加するといった際にも新たな収録が必要ない。しかしながら、合成ルールで記述できる表現の限界や音声波形データを作成、編集する際の信号処理による波形の劣化が避けられず、口調や肉声感が乏しくなるという課題があった。
そこで、大規模な音声データベースの整備や、コンピュータのデータ処理能力の向上を背景に音声合成時に必要となる韻律モデルや音声データベースを作成するコーパスベース音声合成方式の開発が進んでいる。
この方式で様々なテキストを高品質に音声合成するためには、膨大な数の音声素片を格納した音声データベースを生成して適切な音声素片を検索処理する必要があるので、パーソナルコンピュータ等では処理可能ではあるが、携帯機器等では困難である。そこで、クライアント・サーバー構成で音声合成を行うことで解決する方法が考えられるが応答時間がかかるという問題やパケット網では音声が途中で途切れるなどの問題があり、それを解決するために、テキスト解析や韻律パラメータ取得等をサーバ側で行い、クライアント側は音素片系列データを受信して音声合成を行う方法が提案されている（特許文献１）。
また、テキストデータを受信し、音声データを送信するＷｅｂサーバと、テキストデータの保管を行うデータベースサーバと、音声データの格納と送受を行うファイルサーバと、テキストデータを音声データに変換してファイルサーバに送る音声合成サーバと、からなる音声合成システムにインターネットで接続され、テキストデータを送り、音声データを受信して音声出力する利用者端末であって、Ｗｅｂサーバから音声データ変換完了通知を受けたら、音声データのダウンロード要求をすることにより、自然な音声として出力可能な音声データを配信する方法が提案されている（特許文献２）。
さらに、様々なテキストを高品質に音声合成するには、豊富な音声素片のバリエーションを含む音声データベースが必要であるが、日本語としてありうる全てのテキストを集めることは不可能であるため、音声に偏りが生じるので、音素コンテキストに適合する音声素片候補に対応する音声波形データと韻律変形処理を施す対象として選択された韻律変形素片候補に変形処理を施した音声波形データとを接続して高品質な合成音声をえる音声合成装置が提案されている（特許文献３）
なお、合成音声を人間の自然の声に近づけるため、音声の韻律的特徴と話者のパーソナリティ印象との関係性（非特許文献１）や、音声による感情表出とその音響的特徴について（非特許文献２）等の研究も盛んに行われている。

特許第４６５３５７２号公報特開２００８−８９８５３号公報特許第４２４７２８９号公報

内田照久「音声研究第１３巻第１号」日本音声学会２００９年４月中林律子「ことばの科学（２１）」名古屋大学言語文化研究会２００８．１２．１５

近年、情報機器の処理能力等が飛躍的に向上し、音声情報や音声波形のデータベースが大型化し、複数の仮想人物の中から選択された人物に応じて声質や口調の異なる合成音声を出力することや、感情表現を加えた合成音声を出力する音声合成装置が開発されている。また、ペーパーレス化が進展し、教材や書籍、ニュース記事等も電子データとなって情報機器に収納され、表示された画面で視聴する機会が増大している。しかしながら、表示画面を長時間見るといつの間にか疲労が蓄積し、集中力を維持できなくなるので、視覚と聴覚とを同時に、又は交互に使うことなどにより持続時間を長くすることが可能になる。その場合、複数の人物が役割を分担して読んだり、内容に応じて感情表現まで加えたりすることができれば、臨場感が増し、より効果的である。また、視覚に障害のある人や老人にとっては、とても便利である。
本発明は、上記事情に鑑み、複数の仮想人物による合成音声の出力が可能な合成音声生成手段に入力したとき、文章の随所を様々な仮想人物が分読した音声が出力される各種の電子出版物を作成し、それをインターネット経由等で提供する一方、提供された電子出版物を音声合成手段に入力して得られた音声をスピーカやイヤホンで聞くことや、電子出版物自体の文字又は画像を画面表示させて視聴覚することが可能な電子出版物視聴覚システム、その視聴覚用電子出版物を作成するためのプログラム、及びそのシステムを利用するユーザが使用する利用者端末にインストールするプログラムを提供することを目的とする。

本発明の電子出版物を視聴覚するシステムは、音声のプロファイルが明示された音声合成手段に、該音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルを入力することにより、該電子出版物を複数の仮想人物が分読する音声を出力させる電子出版物を視聴覚するシステムであって、上記電子出版物の随所の文字データに上記タグが付加された上記音声合成用ファイルを作成するファイル作成端末と、上記ファイル作成端末で作成された上記音声合成用ファイルを格納するデータベース、及びインターネットを介して要請があった利用者端末を登録・認証する認証手段を有し、認証された該利用者端末から要求があったときは該音声合成用ファイルのダウンロードを容認するフィル提供サーバと、を備え、上記利用者端末は、上記ファイル提供サーバからダウンロードした上記音声合成用ファイルを保存する第１メモリと、上記第１メモリに保存された上記音声合成用ファイルに付加された上記タグを読み込んで、上記電子出版物を分読する仮想人物のプロファイルリストを作成するリスト作成手段と、上記タグが随所に付加された上記音声合成用ファイルから抽出された文字データ及び画像データを、上記画面に頁毎に表示する復元表示手段と、上記第１メモリに保存された上記音声合成用ファイルを上記音声合成手段に入力し、出力された上記仮想人物が分読する音声波形データを保存する第２メモリと、上記第２メモリに保存された上記波形データを音声出力する出力手段と、を有することを特徴とする。
その場合、インターネットを介して要請があった上記利用者端末を登録・認証する通信手段と、認証された上記利用者端末から受信した上記音声合成用ファイルを一時保管する保管手段と、複数の音声データが格納された音声データベース、及び言語の読み情報が記録された辞書データベースを有し、上記音声合成用ファイルが入力すると、上記仮想人物が分読する音声波形データに変換して出力する上記音声合成手段と、上記音声合成手段から出力された上記音声波形データを格納する格納手段と、を有する音声合成サーバを備え、
上記通信手段は、認証された上記利用者端末からダウンロード請求があったときに、上記格納手段に保管された上記音声波形データを該利用者端末に送信することができる。
また、上記利用者端末は、複数の音声データが格納された音声データベース、及び言語の読み情報が記録された辞書データベースを有し、上記第１メモリに保存された上記音声合成用ファイルを入力させ、上記仮想人物が分読する音声波形データを出力する上記音声合成手段を内蔵することもできる。
このように、ファイル作成端末で電子出版物の文字データに音声を指定するタグが付加された音声合成用ファイルを作成し、その音声合成用ファイルをファイル提供サーバに格納し、インターネットを介して要請があった利用者端末から自在にダウンロード可能にする一方、ダウンロードしたその音声合成用ファイルを、インターネットを介して接続可能な音声合成サーバに入力するか、あるいは利用者端末に内蔵する音声合成手段に入力すれば、電子出版物を複数の仮想人物が分読した音声が出力されるので、電子出版物の内容を視覚と聴覚とを駆使して把握することができる。

その場合、そのシステムを利用する利用者端末は、上記音声合成手段の上記プロファイルに基づいて上記リスト作成手段で作成された上記プロファイルリストの一部が変更されたときは、上記タグを変更して上記第１メモリに保存する仮想人物変更手段と、上記画面に表示された上記文字データが上記音声合成手段によって音声に変換される順序又は時間間隔の変更が行われたときは、該順序又は該時間間隔を指定するタグを変更して上記第１メモリに格納する順序等変更手段と、上記仮想人物変更手段で変更された上記タグを上記文字データに付加した上記音声合成用ファイルを作成するファイル作成手段と、上記第２メモリに格納された上記音声形データを、上記文字データ及び画像データが上記画面に表示されるタイミングに合わせて出力するタイミング調整手段と、を備えること、上記タグ変換手段は、上記アイコン、上記韻律パラメータ、及び上記感情パラメータそれぞれと上記タグとを対応させて保存する第３メモリを有し、上記音声指定手段は、上記アイコン、上記韻律情報パラメータ、及び上記感情パラメータそれぞれが選択されると、上記画面に表示された上記個所の近傍に該アイコン及び該パラメータを表示させ、保存操作がなされると、表示された該個所の文字データと共に該アイコン及び該パラメータが上記格納手段に格納することもできる。
利用者端末にこのような機能を持たせれば、ファイル提供サーバからダウンロードした音声合成用ファイルの一部に変更を加えて、利用者の好みに合わせた音声を出力させることも可能になる。
また、上記ファイル作成端末は、性別及び年齢別に層別された仮想人物のアイコン、韻律を表す情報それぞれの韻律パラメータ、及び感情を区分した感情パラメータそれぞれが選択自在に記録されるプルダウンメニュー作成手段と、上記プルダウンメニューに記録される上記アイコン、上記韻律パラメータ、及び上記感情パラメータそれぞれが選択されたとき、上記プロファイルに対応するタグに変換するタグ変換手段と、上記電子出版物の所定の文章と上記プルダウンメニューとを画面に表示させ、該文章の所定の個所を指定した後、該プルダウンメニューから何れかの上記アイコン、何れかの上記韻律パラメータ、及び何れかの上記感情パラメータが選択されたとき、該個所を表す文字データに上記タグを付加して分読する音声の指定を行う音声指定手段と、上記電子出版物の随所の文字データに上記タグが付加された上記音声合成用ファイルを生成する音声合成用ファイル生成手段と、生成された上記音声合成用ファイルを格納する格納手段と、を備えていれば、ファイル提供サーバから要請された音声プロファイルに沿って、電子出版物を分読させる仮想人物の音声パラメータを随所に設定した音声合成ファイルを作成することができる。

また、上記のファイル作成端末は、電子計算機又は携帯端末機に設定され、音声合成手段に入力したときに、複数の仮想人物により該電子出版物を分読した音声波形が出力される、視聴覚用電子出版物作成プログラムであって、性別及び年齢別に層別された仮想人物のアイコン、韻律を表す情報それぞれの韻律パラメータ、及び感情を区分した感情パラメータのそれぞれが選択自在に記録されるプルダウンメニューの作成手順と、上記プルダウンメニュー作成手順で記録された上記アイコン、上記韻律パラメータ、及び上記感情パラメータそれぞれを識別するタグを付加するタグ付手順と、上記電子出版物の所定の文章と上記プルダウンメニューとを画面に表示させ、該文章の所定の個所に操作の実行位置を示す目印がセットされた後に、該プルダウンメニューから何れかの上記アイコン、何れかの上記韻律パラメータ、及び何れかの上記感情パラメータが選択されたとき、付加された上記タグで該個所を分読する音声を指定する音声指定手順と、上記電子出版物に含まれる文字データの随所に上記タグが付加され、保存操作がなされると上記音声合成手段に入力する音声合成用ファイルを生成し、格納手段に格納する音声合成用ファイル生成手順と、を含み、さらに上記音声指定手順は、上記アイコン、上記韻律情報パラメータ、及び上記感情パラメータそれぞれが選択されると、上記個所の近傍に該アイコン及び該パラメータを表示させ、保存操作がなされると、該個所の文字データと該アイコン及び該パラメータを表示するデータを上記格納手段に格納する手順を含むプログラムを作成し、ＰＣにインストールすることにより容易に実現可能である。
さらに、上記の利用者端末は、電子計算機又は携帯端末機に設定され、音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルに付加された該タグを読み込んで、該電子出版物を分読する仮想人物のプロファイルリストを作成するリスト作成手順と、上記タグが随所に付加された上記音声合成用ファイルから抽出された文字データ及び画像データを頁毎に画面に表示する復元表示手順と、上記リスト作成手段で作成された上記プロファイルリストの一部が変更されたときは、上記タグを変更する仮想人物変更手順と、上記画面に表示された上記文字データが音声に変換される順序又は時間間隔の変更が行われたときは、該順序又は該時間間隔を指定するタグを変更する順序等変更手順と、上記仮想人物変更手順で変更された上記タグを上記文字データに付加した上記音声合成用ファイルを作成するファイル作成手順と、を含む利用者端末用プログラムを作成し、スマホあるいはＰＣにオンストールすれば容易に実現可能である。

本発明の電子出版物を視聴覚するシステムによれば、市販若しくはサービス提供される音声合成手段で合成可能な音声を指定したタグが埋め込まれた電子出版物やその電子出版物を活用する利用者端末が提供できるので、漫画本や絵本を含む書籍、台本など様々な出版物を、タグが埋め込まれた電子出版物とすれば、視聴覚を使ってその内容を把握することができる。

図１は、第１の実施形態の電子出版物を視聴覚するシステムを示す構成図である。図２は、第１の実施形態のファイル提供サーバを示す機能ブロック図である。図３は、第１の実施形態の音声合成サーバを示す機能ブロック図である。図４は、第１の実施形態のファイル作成端末を示す機能ブロック図である。図４−１は、音声を識別するパラメータ（又はタグ）を付与する際に表示される画面の一例を示す図である。図４−２は、音声を識別するパラメータ（又はタグ）を付与する際に表示される画面の一例を示す図である。図４−３は、音声を識別するパラメータ（又はタグ）を付与する際に表示される画面の一例を示す図である。図４−４は、音声を識別するパラメータ（又はタグ）を付与する際に表示される画面の一例を示す図である。図４−５は、格納手段に格納される音声合成用ファイルの概念を一例として示す図である。図５は、第１の実施形態の利用者端末の機能ブロック図である。図６は、第２の実施形態の電子出版物を視聴覚するシステムを示す構成図である。図７は、第２の実施形態における利用者端末を示す機能ブロック図である。

以下に、本発明の実施形態について説明する。
[第１の実施形態]
図１は、第１の実施形態の電子出版物を視聴覚するシステムを示す構成図である。
図１に示す第１の実施形態の電子出版物を視聴覚するシステム１は、電子出版物に、音声合成する音声を指定したタグが随所に付加された音声合成用ファイルを作成するファイル作成端末１０と、ファイル作成端末１０で作成された音声合成用ファイルを受け取り、保存して、その音声合成用ファイルの提供を受けたい利用者端末に提供するファイル提供サーバ３０と、ファイル提供サーバ３０に保存された音声合成用ファイルを、インターネットＮで接続してダウンロードする利用者端末４０と、利用者端末４０とインターネットＮで接続され、受信した音声合成用ファイルを複数の仮想人物によって分読された音声波形データに変換し、利用者端末４０に送信する音声合成サーバ６０と、によって構成されている。
ファイル作成端末１０は、パーソナルコンピュータ（以下、「ＰＣ」と称する。）であり、ファイル提供サーバ３０とは、インターネットＮで接続して、作成した電子出版物の音声合成用ファイルを送受しもよいし、ＵＳＢメモリなどで受け渡しを行ってもよい。
一方、本実施形態の利用者端末４０は、インターネットＮに接続可能な不特定多数のスマートホン（以下、「スマホ」と称する。）であり、ＰＣに較べて処理能力及び記憶容量が低いので、音声合成機能までは保持していない。従って、ファイル提供サーバ３０はもとより音声合成サーバ６０にもインターネットＮで接続して、ファイル提供サーバ３０からダウンロードした音声合成用ファイルを音声合成サーバ６０に送信し、音声合成サーバ６０から音声波形データを受信して音声出力する。
ここで、本実施形態の利用者端末４０は、スマホを用いているが、必ずしもスマホである必要はなく、ＰＣであってもよい。

図２は、第１の実施形態のファイル提供サーバを示す機能ブロック図である。
図２に示すように、ファイル提供サーバ３０は、ファイル作成端末１０で作成された音声合成用ファイルを、インターネットＮで受信し、又はＵＳＢなどで受取り、その音声合成用ファイルが、所定の形式で作成されているか否かをチェックするチェック手段１１と、チェックした結果、合格した音声合成用ファイルを格納する電子出版物データベース１２と、電子出版物データベース１２に格納されている電子出版物のリストを、インターネットＮを介して表示する表示手段１３と、インターネットＮを介して要請があった利用者端末４０を登録・認証する認証手段１４と、認証された利用者端末４０から要求があり、課金確認が完了したとき、要求があった音声合成用ファイルのダウンロードを容認する課金手段１５と、を備えている。
ここで、ファイル提供サーバ３０の運営者は、対象とする音声合成サーバ（一つ又は多数のうちの特定のもの）６０、あるいは音声合成ソフトにおける音声のプロファイルを、予め、ファイル作成端末１０の運営者に提示し、そのプロファイルに沿った仮想人物によって電子出版物が分読されるようにオーダーする。従って、出来上がった音声合成用ファイルが提示したプロファイルに沿っていることをチェック手段１１で確認する必要がある。
確認する方法としては、例えば、音声合成用ファイルに付加されているタグから仮想人物のプロファイルリストを作成し、そのプロファイルリストと、予め提示したプロファイルとを対比することにより確認できる。
また、ファイル提供サーバ３０の運営者から、音声合成用ファイルを購入しようとする利用者端末４０のユーザは、表示手段１３によって表示された電子出版物のリストから、その音声合成用ファイルのプロファイルリストが、どの音声合成サーバ６０（または音声合成ソフト）のプロファイルに適合するか否かを確認することができる。

図３は、第１の実施形態の音声合成サーバを示す機能ブロック図である。
図３に示す第１の実施形態の音声合成サーバ６０は、言語の読み情報が記録された辞書データベース６１、及び様々な音声の波形が格納された波形データベース６２を有し、インターネットＮを介して利用者端末４０から音声合成用ファイルが入力したときに、それを音声波形データに変換して出力する音声合成手段６３と、音声合成手段６３から出力された音声波形データを一旦格納する音声波形データ格納手段６５と、インターネットＮを介して要請があった利用者端末４０を登録・認証し、クレジットカード等による課金処理を行う通信手段６６とを備えている。
通信手段６６は、認証された利用者端末４０から、音声合成用ファイルを音声に変換したい旨の要求があったときは、その音声合成用ファイルのプロファイルリストが自己のプロファイルに適合するか否かの確認、及びデータ量の確認を行い、課金処理をして承認番号を発行する。そして、その利用者端末４０から送られてきた音声合成用ファイルを格納手段６７に一時保管する。そして、音声合成手段６３による処理が完了したら、変換された音声波形データを音声波形データ格納手段６５に一旦格納し、通信手段６６から利用者端末４０に完了通知を行う。その後、利用者端末４０から音声波形データのダウンロード請求があったときは、通信手段６６は、承認番号を確認して、音声波形データ格納手段６５に格納されている音声波形データをその利用者端末４０に送信する。

図４は、第１の実施形態のファイル作成端末を示す機能ブロック図である。
図4に示す第１の実施形態のファイル作成端末１０は、音声合成用ファイルを作成する電子出版物のデータが保存されたメモリ１９と、表示画面１７と、パラメータなどを選択するメニューをプルダウン式に画面表示させるプルダウンメニュー作成手段１１と、プルダウンメニューに記載されたアイコン、韻律パラメータ、及び感情パラメータそれぞれをタグに変換するタグ変換手段１２と、文を表す文字データのヘッドにタグを付加して、音声合成する音声の指定を行う音声指定手段１４と、電子出版物の随所の文字データにタグを付加した音声合成用ファイルを生成する音声合成用ファイル生成手段１５と、生成された音声合成用ファイルを格納する格納手段１６とを備えている。そして、プルダウンメニュー作成手段１１によって記載されたアイコンやパラメータは、それらが変換されたタグと対応させてメモリ１８に保存される。
プルダウンメニューの作成手段１１は、電子出版物を分読する仮想人物のアイコン、その韻律としての速度やイントネーション、声の高低などを示す韻律パラメータ、及び喜び・怒り・哀しみなどの感情や質問などを区別する感情パラメータそれぞれを選択可能に記載したメニューを作成し、画面１７に表示されたそれらメニューから、何れかのアイコン、何れかの韻律パラメータ、及び何れかの感情パラメータがクリックされると、その選択されたパラメータなどを画面１７に表示させる。なお、メニューに記載するアイコン、韻律パラメータ、及び感情パラメータは、ファイル提供サーバ３０の運営者から予め提示されたプロファイルに基づき、その範囲内で記載する。

タグ変換手段１２は、プルダウンメニューに記載されたアイコン、韻律パラメータ、及び感情パラメータそれぞれは、決定ボタンがクリックされると、予めプロファイルが提示されている音声合成手段６３に設定されたタグに変換され、メモリに記憶される。
音声指定手段１４は、音声合成用ファイルを生成しようとする電子出版物の所定の文章と、プルダウンメニューとを画面１７の両側に分けて表示し、表示された文章の随処、随所をカーソルで指定し、表示されたプルダウンメニューから何れかのアイコン、何れかの韻律パラメータ、何れかの感情パラメータを選択すると、カーソルで指定された個所の近傍（上部、下部、あるいは脇）にそれらのパラメータ等が表示され、決定ボタンがクリックされると、カーソルで指定された個所の文字データのヘッドにタグが付加される。このタグが付加されると、次の文字データにタグが付加されるまでの区間は、同じ合成音声となるように分読する仮想人物の声が指定される。そして、保存操作がなされると、その個所の文字データと共にそのアイコン及びパラメータが一次データとして格納手段１６に格納される。
音声合成用ファイル生成手段１５は、音声合成手段６３に入力されると、役者が演劇のシナリオ等を分読するときのように、電子出版物を複数の仮想人物が分読する音声を出力する音声合成用ファイルが生成される。したがって、電子出版物の随所の文字データには、それを分読する仮想人物の音声を指定するタグが付加されている。
ここで、ファイル作成端末１０におけるプルダウンメニュー作成手段１１と、タグ生成手段１２と、音声指定手段１４と、音声合成用ファイル生成手段１５は、プログラムの実行手順にすることが可能であり、その実行手順を記載した視聴覚用電子出版物作成プログラムが記録された記録媒体を購入することや、視聴覚用電子出版物作成プログラムを販売するサイトにアクセスしてダウンロードすることなどによって、スマホにインストールし、それぞれの機能を実現させることもできる。

図４−１から図４−４は、ファイル作成端末で音声を識別するパラメータ（又はタグ）を付与する際に表示される画面の一例を示す図であり、図４−５は、格納手段に格納される音声合成用ファイルの概念を一例として示す図である。
図４−１に一例を示すように、画面１７の左側には、音声識別タグ２０と、電子出版物の文章２１が順次表示され、右側には、仮想人物のアイコン２２、韻律パラメータ２３の速度、感情パラメータ２４、時間間隔２５がプルダウンメニューによって選択自在に表示される。なお、文章２１には、「あなたの名前は？」という話し言葉と、「私の名前はＢです。」という話し言葉が含まれている。
プルダウンメニューには、予め想定される複数の仮想人物のアイコン２２と、氏名、あるいはニックネームが記録され、韻律パラメータ２３には、文章を読む速度が普通・早い・遅いや、イントネーションの程度などが記録され、感情パラメータ２４には、感情がなし・喜ぶ・怒る・質問などが記録され、話す時間間隔２５には秒数を記録するようになっている。
プルダウンメニューそれぞれに記録されたパラメータなどを選択し、決定ボタン２６をクリックすることによりパラメータ及びそれらのタグが決まるようになっている。まず、「あなたの名前は？」という話し言葉の読み手となるか仮想人物を指定するため、その文の頭にカーソル２７を合わせる。

図４−２に示すように、「あなたの名前は？」という話し言葉をくくったかぎカッコの頭に、ポインターでカーソル２７をセットする。そして、女性Ａに、普通の速度で、質問形式で読んだ音声を出力させるときは、アイコン２２の女性Ａを選び、韻律パラメータ２３の速度、普通を選び、感情パラメータ２４は、なしを選び、話す時間間隔２５は０秒として、決定ボタン２６をクリックする。すると、それらのパラメータなどが文章２１の左側に表示され、同時に音声識別タグ２０に変換される。
図４−３に示すように、女性Ａの話し言葉の後ろに続くナレーション部分は、話し言葉をくくったかぎカッコの後ろのカッコの前にカーソル２７をセットし、アイコン２２の男性Ａを選び、韻律パラメータ２３の速度、普通を選び、感情パラメータ２４は、なしを選び、話す時間間隔２５は、１秒にして決定ボタン２６をクリックする。
図４−４に示すように、と、尋ねたというナレーション部分の文章２１の左側に選んだパラメータ、男性Ａ、普通、なし、１秒が表示され、同時にそれらのパラメータなどが音声識別タグ２０に変換される。以下、同様にして電子出版物の文章２１の随所に、音声合成手段で規定されているタグを埋め込み、音声合成用ファイルを作成する。なお、決定されたパラメータなどは、タグと対にしてメモリ１８に保存される。

図４−５は、音声指定手段で音声を識別するパラメータ（又はタグ）が付加された音声合成用ファイルが格納手段１６に格納される形式を一例として示す図である。
図４−５に示すように、音声識別タグ２０とそのタグによって音声が指定された文章２１とが対になって格納されている。
すなわち、文章２１を読む仮想人物が変わる毎に、その文章２１が記載されている頁、改行の有無、仮想人物（アイコン）２２、韻律パラメータ２３の速度、感情パラメータ２４、話す時間間隔２５、その仮想人物によって読まれる文章２１の順に、所定の領域が割り付けられている。

図５は、第１の実施形態の利用者端末の機能ブロック図である。
図５に示す第１の実施形態の利用者端末４０は、スマホであり、電子出版物の提供サーバにアクセスして、認証を受け、クレジットカードなどの情報を入力して決済処理する通信手段４１と、画面４５と、仮想人物のプロファイルリストを作成するリスト作成手段４２と、音声合成手段のプロファイルを参照しプロファイルリストの一部を変更する仮想人物変更手段４３と、画面に文字と画像のみを表示させる復元表示手段４４と、音声合成手段によって音声出力する順序等を変更する順序等変更手段４６と、音声合成用ファイルを作成する音声合成用ファイル作成手段５５と、ファイル提供サーバ３０からダウンロードした音声合成用ファイルを保存する第１メモリ４８と、音声合成サーバ６０から送られてきた音声波形データを保存する第２メモリ４９と、第２メモリ４９に保存された音声波形データを出力するタイミングを調整するタイミング調整手段５４と、スピーカ又はイヤホン挿入端子（本発明の「音声出力手段」に相当する。）４７を備えている。

通信手段４１は、ファイル提供サーバ３０又は音声合成サーバ６０にアクセスして、認証を受け、ファイル提供サーバ３０の表示手段３３から受信した電子出版物のリストを表示させ、所望の電子出版物を選択してその料金をクレジット決済する。そして、その電子出版物の音声合成用ファイルをダウンロードして第１メモリ４８に保存する。
リスト作成手段４２は、第１メモリ４８に保存された音声合成用ファイルに付加されているタグを読み込んでその電子出版物を分読する仮想人物の、韻律パラメータや感情パラメータを含むプロファイルリストを作成する。
仮想人物変更手段４４は、リスト作成手段４２で作成されたプロファイルリストを画面に表示させ、音声に変換させる音声合成サーバから示されているプロファイルを参照してプロファイルリストの一部を変更することや、利用者端末４０ユーザの好みで一部を入れ替える変更をすることができる。その場合、仮想人物などのタグを変更し、変更後のタグを付加した音声合成用ファイルを第１メモリ４８に保存する。
復元手段４４は、音声合成用ファイルに含まれる音声を指定する情報、すなわちアイコン、韻律パラメータ、及び感情パラメータなどを削除して、電子出版物に記載された文字及び画像等を頁毎に画面４５に表示する。
順序等変更手段４６は、電子出版物が、例えば漫画本のように、画像の中に複数の吹き出しが設けられ、そこに文字が記載されているときは、その吹き出しを読む順序が必ずしも記載順になっていない場合があるので、ナンバーを付す等して指定する。しかしながら、その順序を、利用者端末４０のユーザの好みで変更指定したい場合があるので、それに対応するために設けてある。
音声合成用ファイル作成手段５５は、仮想人物変更手段４３で変更されたプロファイルリストのタグや、順序等変更手段４６で変更された吹き出しの読み順のタグを文字データに付加し、最終的に音声合成サーバ６０に入力する音声合成用ファイルを作成し、第１メモリ４８に保存する。
通信手段４１は、認証を受けている音声合成サーバ６０に、第１メモリ４８に保存された音声合成用ファイルを送信し、承認番号を得る。そして、音声合成サーバ６０側から、完了通知が届いたら、音声波形データのダウンロード請求を行ってその音声波形データを受信する。受信した音声波形データは、第２メモリ４９に保存する。
タイミング調整手段５４は、電子出版物の文字や画像が画面に表示されるタイミングに合わせて第２メモリ４９に保存された音声波形形データが出力されて音声となるようにタイミングを調整する。
ここで、利用者端末４０におけるリスト作成手段４２、復元表示手段４４、仮想人物変更手段４３、順序等変更手段４６、及びファイル作成手段５５は、プログラムの手順として実現することが可能であり、その手順を記載した利用者端末用プログラムが記録された記憶媒体を購入することや、利用者端末用プログラムを販売するサイトにアクセスしてダウンロードすることなどによって、スマホにインストールし、それぞれの機能を実現させることもできる。

［第２の実施形態］
図６は、第２の実施形態の電子出版物を視聴覚するシステムを示す構成図である。
図６に示すように、第２の実施形態の電子出版物を視聴覚するシステム２は、音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルを作成するファイル作成端末１０と、ファイル作成端末１０で作成された音声合成用ファイルを受け取り、保存するファイル提供サーバ３０と、ファイル提供サーバ３０に保存された音声合成用ファイルを、インターネットＮで接続してダウンロードし、内蔵する音声合成手段によって複数の仮想人物が分読する音声波形データに変換し、音声出力する利用者端末５０と、によって構成されている。
第２の実施形態の電子出版物を視聴覚するシステム２は、ファイル作成端末１０と、提供サーバ３０は、第１の実施形態におけるものと同じであることから重複説明を省略し、相違している利用者端末５０についてのみ説明する。

図７は、第２の実施形態における利用者端末を示す機能ブロック図である。
図７に示す第２の実施形態の利用者端末５０は、ＰＣであり、処理能力、記憶容量が十分あるので、音声合成処理を行う音声合成手段５１が内蔵されている。
本実施形態の音声合成手段５１は、音声合成ソフトとして市販されているものをＰＣにインストールすることにより実現することができる。
第２の実施形態における利用者端末５０は、インターネットＮでファイル提供サーバ３０にアクセスして、認証を受け、クレジットカードなどの情報を入力して決済処理する通信手段４１と、画像や文字を表示する画面４５と、仮想人物のプロファイルリストを作成するリスト作成手段４２と、音声合成手段６３のプロファイルを参照しプロファイルリストの一部を変更する仮想人物変更手段４３と、画面に文字と画像のみを表示させる復元表示手段４４と、音声合成手段によって音声出力する順序等を変更する順序等変更手段４６と、音声合成用ファイルを作成する音声合成用ファイル作成手段５５と、ファイル提供サーバ３０からダウンロードした音声合成用ファイルを保存する第１メモリ４８と、を備えている。さらに、本実施形態の利用者端末５０は、第１メモリ４８に保存された音声合成用ファイルを入力する音声合成手段５１と、音声合成用ファイルに付加されたタグを解読する際に用いる辞書データベース５２と、様々な音声の波形が蓄積された波形データベース５３と、を備え、音声合成手段５１は、波形データベース５３からタグに適応する波形データを抽出し、電子出版物の随処を異なる仮想人物が分読する音声波形データを出力し、その音声波形データを第２メモリ４９に保存する。
そして、第２メモリに保存された音声波形データを音声として出力するスピーカ又はイヤホン挿入端子（本発明の「音声出力手段」に相当する。）４７を備えている。

通信手段は、インターネットＮでファイル提供サーバ３０にアクセスして、登録・認証を受け、表示手段１３から電子出版物のリストを受信して画面４５に表示させる。そして所望の電子出版物を選択し、その料金をクレジット決済してから音声合成用ファイルをダウンロードする。その場合、ダウンロードする音声合成用ファイルが、内蔵する音声合成手段５１で読み取り可能な形式のものか否かをチェックする。
所望の電子出版物の音声合成用ファイルをそのファイル提供サーバ３０からダウンロードしたら、先ず、第１メモリ４８に保存する。
そして、第１メモリ４８に保存された音声合成用ファイルを音声合成手段５１に入力され、出力された音声波形データは第２メモリ４９に保存される。
本実施形態のＰＣは、音声合成手段５１としての音声合成ソフトをインストールするほか、以下の手順を実行する利用者端末用プログラムをインストールし、ファイル提供サーバ３０からダウンロードした音声合成用ファイルをそのまま音声合成ソフトに入力するだけではなく、試行錯誤を加えながら音声合成用ファイルに若干の変更を加えることができるようになっている。

すなわち、利用者端末用プログラムは、第１メモリ４８に保存された音声合成用ファイルに付加されたタグを読み込んで、電子出版物を分読する仮想人物のプロファイルリストを作成する手順を行うリスト作成手段４２、リスト作成手段で作成されたプロファイルリストの一部が変更されたとき、タグを変更して第１メモリ４８に保存する手順を行う仮想人物変更手段４３、仮想人物変更手段で変更されたタグを文字データに付加した音声合成用ファイルを作成し、第１メモリ４８に保存する手順を行うファイル作成手段５５、第１メモリ４８に保存された音声合成用ファイルから抽出した文字データ及び画像データを画面４５に頁毎に表示する手順を行う復元表示手段４４、画面４５に表示された文字データが音声に変換される順序又は時間間隔の変更が行われたときその順序又は該時間間隔を指定するタグを変更して第１メモリ４８に格納する手順を行う順序等変更手段４６、仮想人物変更手段４３で変更されたタグを文字データに付加した音声合成用ファイルを作成する手順を行うファイル作成手段５５、としての機能を有する。
リスト作成手段４２で作成された仮想人物のプロファイルリストが好みに合わない場合は、音声合成手段５１で読み取り可能な範囲で変更を加えることや、仮想人物相互の入れ替えを行うことができる。そして、そのプロファイルリストの一部が変更されたときには、音声合成ソフトで対応可能なタグに変更して第１メモリ４８に保存する。また、音声合成用ファイルには、画面４５に表示できない符号が含まれているので、復元表示手段４４によってそれらを除去して電子出版物本来の文字や画像を画面４５に頁毎に表示することができる。その結果、電子出版物を聴覚と視覚を使って読むことができるので集中力を高める効果が期待できる。
一方、漫画など、吹き出しに文字が書かれている場合は、文字が書かれている上下、又は左右の順序に沿って文字を読むと意味が通じ難くなる場合がある。そのようなときは、吹き出しを読む順序や、読む時間間隔を調整する必要が生じる。そこで、順序変更手段４６によって、それらの順序や時間間隔を指定するタグを変更し、変更したタグが付加された音声合成用ファイルを音声合成用ファイル作成手段５５に作成させることを可能にしている。

さらに、本実施形態のＰＣは、タイミング調整手段５４を備えている。すなわち、例えば漫画のように、音声が出力されたときに、その部分の画像や吹き出しが画面４５に完全に表示される必要がある。しかし画像処理による時間のずれが生じる場合があり、第２メモリ４９に格納された音声波形データがスピーカ又はイヤホンから出力されるタイミングを、少し遅らせるなどしてタイミングを合わせることができる。
本実施形態においては、音声合成手段５１を内蔵するので、リスト作成手段４２で作成されたプロファイルリストを画面に表示させ、音声合成手段５１のプロファイルを参照して一部を変更することや、ユーザの好みで仮想人物を入れ替え、その結果をモニターしながら変更することが可能である。その場合、変更された仮想人物などの変更後のタグは第１メモリ４８に保存される。

１，２電子出版物を視聴覚するシステム
１０ファイル作成端末
１１プルダウンメニュー作成手段
１２タグ変換手段
１４音声指定手段
１５音声合成用ファイル作成手段
１６格納手段
１７、４５画面
１８、１９メモリ
２０音声識別タグ
２１文章
２２アイコン
２３韻律パラメータ
２４感情パラメータ
２５時間間隔
２６決定ボタン
２７カーソル
３０ファイル提供サーバ
３１チェック手段
３２電子出版物データベース
３３表示手段
３４認証手段
３５課金手段
４０，５０利用者端末
４１通信手段
４２リスト作成手段
４３仮想人物変更手段
４４復元表示手段
４６順序変更手段
４７音声出力手段
４８第１メモリ
４９第２メモリ
５１、６３音声合成手段
５２辞書データベース
５３、６２波形データベース
５４タイミング調整手段
５５音声波形格納手段
６０音声合成サーバ
６５音声波形データ格納手段

Claims

音声のプロファイルが明示された音声合成手段に、該音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルを入力して、該電子出版物を複数の仮想人物で分読する音声が出力する電子出版物視聴覚システムであって、
前記電子出版物の随所の文字データに前記タグが付加された前記音声合成用ファイルを作成するファイル作成端末と、
前記ファイル作成端末で作成された前記音声合成用ファイルを格納するデータベース、及びインターネットを介して要請があった利用者端末を登録・認証する認証手段を有し、認証された該利用者端末から要求があったときは該音声合成用ファイルのダウンロードを容認するファイル提供サーバと、を備え、
前記利用者端末は、
前記ファイル提供サーバからダウンロードした前記音声合成用ファイルを保存する第１メモリと、
前記第１メモリに保存された前記音声合成用ファイルに付加された前記タグを読み込んで、前記電子出版物を分読する仮想人物のプロファイルリストを作成するリスト作成手段と、
前記タグが随所に付加された前記音声合成用ファイルから抽出された文字データ及び画像データを、前記画面に頁毎に表示する復元表示手段と、
前記第１メモリに保存された前記音声合成用ファイルを前記音声合成手段に入力し、出力された前記仮想人物が分読する音声波形データを保存する第２メモリと、
前記第２メモリに保存された前記波形データを音声出力する出力手段と、を有することを特徴とする電子出版物視聴覚システム。
前記利用者端末は、
前記音声合成手段の前記プロファイルに基づいて前記リスト作成手段で作成された前記プロファイルリストの一部が変更されたときは、前記タグを変更して前記第１メモリに保存する仮想人物変更手段と、
前記画面に表示された前記文字データが前記音声合成手段によって音声に変換される順序又は時間間隔の変更が行われたときは、該順序又は該時間間隔を指定するタグを変更して前記第１メモリに格納する順序等変更手段と、
前記仮想人物変更手段で変更された前記タグを前記文字データに付加した前記音声合成用ファイルを作成するファイル作成手段と、
前記第２メモリに格納された前記音声形データを、前記文字データ及び画像データが前記画面に表示されるタイミングに合わせて出力するタイミング調整手段と、を備えたことを特徴とする請求項１記載の電子出版物視聴覚システム。
前記ファイル作成端末は、
性別及び年齢別に層別された仮想人物のアイコン、韻律を表す情報それぞれの韻律パラメータ、及び感情を区分した感情パラメータそれぞれが選択自在に記録されるプルダウンメニュー作成手段と、
前記プルダウンメニューに記録される前記アイコン、前記韻律パラメータ、及び前記感情パラメータそれぞれが選択されたとき、前記プロファイルに対応するタグに変換するタグ変換手段と、
前記電子出版物の所定の文章と前記プルダウンメニューとを画面に表示させ、該文章の所定の個所を指定した後、該プルダウンメニューから何れかの前記アイコン、何れかの前記韻律パラメータ、及び何れかの前記感情パラメータが選択されたとき、該個所を表す文字データに前記タグを付加して分読する音声の指定を行う音声指定手段と、
前記電子出版物の随所の文字データに前記タグが付加された前記音声合成用ファイルを生成する音声合成用ファイル生成手段と、
生成された前記音声合成用ファイルを格納する格納手段と、を備えたことを特徴とする請求項１記載の電子出版物視聴覚システム。
インターネットを介して要請があった前記利用者端末を登録・認証する通信手段と、
認証された前記利用者端末から受信した前記音声合成用ファイルを一時保管する保管手段と、
複数の音声データが格納された音声データベース、及び言語の読み情報が記録された辞書データベースを有し、前記音声合成用ファイルが入力すると、前記仮想人物が分読する音声波形データに変換して出力する前記音声合成手段と、
前記音声合成手段から出力された前記音声波形データを格納する格納手段と、を有する音声合成サーバを備え、
前記通信手段は、認証された前記利用者端末からダウンロード請求があったときに、前記格納手段に保管された前記音声波形データを該利用者端末に送信することを特徴とする請求項１又は２記載の電子出版物視聴覚システム。
前記利用者端末は、
複数の音声データが格納された音声データベース、及び言語の読み情報が記録された辞書データベースを有し、前記第１メモリに保存された前記音声合成用ファイルを入力させ、前記仮想人物が分読する音声波形データを出力する前記音声合成手段を備えたことを特徴とする請求項１又は２記載の電子出版物視聴覚システム。
前記タグ変換手段は、前記アイコン、前記韻律パラメータ、及び前記感情パラメータそれぞれと前記タグとを対応させて保存する第３メモリを有し、
前記音声指定手段は、前記アイコン、前記韻律情報パラメータ、及び前記感情パラメータそれぞれが選択されると、前記画面に表示された前記個所の近傍に該アイコン及び該パラメータを表示させ、保存操作がなされると、表示された該個所の文字データと共に該アイコン及び該パラメータが前記格納手段に格納されることを特徴とする請求項３記載の電子出版物視聴覚システム。
電子計算機又は携帯端末機に設定され、音声合成手段に入力したときに、複数の仮想人物により該電子出版物を分読した音声波形が出力される視聴覚用電子出版物作成プログラムであって、
性別及び年齢別に層別された仮想人物のアイコン、韻律を表す情報それぞれの韻律パラメータ、及び感情を区分した感情パラメータのそれぞれが選択自在に記録されるプルダウンメニューの作成手順と、
前記プルダウンメニュー作成手順で記録された前記アイコン、前記韻律パラメータ、及び前記感情パラメータそれぞれを識別するタグを付加するタグ付手順と、
前記電子出版物の所定の文章と前記プルダウンメニューとを画面に表示させ、該文章の所定の個所に操作の実行位置を示す目印がセットされた後に、該プルダウンメニューから何れかの前記アイコン、何れかの前記韻律パラメータ、及び何れかの前記感情パラメータが選択されたとき、付加された前記タグで該個所を分読する音声を指定する音声指定手順と、
前記電子出版物に含まれる文字データの随所に前記タグが付加され、保存操作がなされると前記音声合成手段に入力する音声合成用ファイルを生成し、格納手段に格納する音声合成用ファイル生成手順と、を含むことを特徴とする視聴覚用電子出版物作成プログラム。
前記音声指定手順は、
前記アイコン、前記韻律情報パラメータ、及び前記感情パラメータそれぞれが選択されると、前記個所の近傍に該アイコン及び該パラメータを表示させ、保存操作がなされると、該個所の文字データと該アイコン及び該パラメータを表示するデータを前記格納手段に格納する手順を含むことを特徴とする請求項７記載の視聴覚用電子出版物作成プログラム。
所定のメニューを前記画面に表示させるメニュー表示手順を含み、該メニューの何れかが選択されると、前記プルダウンメニュー作成手順、前記音声指定手順、及び前記音声合成用データ生成手順の何れかが実行されることを特徴とする請求項７記載の視聴覚用電子出版物作成プログラム。
電子計算機又は携帯端末機に設定され、音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルに付加された該タグを読み込んで、該電子出版物を分読する仮想人物のプロファイルリストを作成するリスト作成手順と、
前記タグが随所に付加された前記音声合成用ファイルから抽出された文字データ及び画像データを頁毎に画面に表示する復元表示手順と、
前記リスト作成手段で作成された前記プロファイルリストの一部が変更されたときは、前記タグを変更する仮想人物変更手順と、
前記画面に表示された前記文字データが音声に変換される順序又は時間間隔の変更が行われたときは、該順序又は該時間間隔を指定するタグを変更する順序等変更手順と、
前記仮想人物変更手順で変更された前記タグを前記文字データに付加した前記音声合成用ファイルを作成するファイル作成手順と、を備えたことを特徴とする利用者端末用プログラム。
請求項７から９記載の視聴覚用電子出版物作成プログラム又は請求項１０記載の利用者端末用プログラムが、電子計算機又は携帯端末機で読み取り可能に記録されたことを特徴とする記録媒体。