JP2020204683A - 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム - Google Patents

電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム Download PDF

Info

Publication number
JP2020204683A
JP2020204683A JP2019111635A JP2019111635A JP2020204683A JP 2020204683 A JP2020204683 A JP 2020204683A JP 2019111635 A JP2019111635 A JP 2019111635A JP 2019111635 A JP2019111635 A JP 2019111635A JP 2020204683 A JP2020204683 A JP 2020204683A
Authority
JP
Japan
Prior art keywords
voice
file
voice synthesis
electronic publication
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019111635A
Other languages
English (en)
Inventor
一也 小寺
Kazuya Kodera
一也 小寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kodera Kazuya
Original Assignee
Kodera Kazuya
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kodera Kazuya filed Critical Kodera Kazuya
Priority to JP2019111635A priority Critical patent/JP2020204683A/ja
Publication of JP2020204683A publication Critical patent/JP2020204683A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】合成音声生成手段に入力したとき、様々な仮想人物が分読した音声が出力される各種の電子出版物を提供する一方、文字又は画像をも画面表示させて視聴覚することが可能な電子出版物視聴覚システムを提供することを目的とする。【解決手段】音声のプロファイルが明示された音声合成手段に、該音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルを入力して、複数の仮想人物で分読する音声が出力する電子出版物視聴覚システムであって、電子出版物の随所の文字データにタグが付加された音声合成用ファイルを作成するファイル作成端末と、ファイル作成端末で作成された音声合成用ファイルを格納するファイル提供サーバと、を備えた。【選択図】図1

Description

本発明は、複数の仮想人物が分読する音声を指定するタグが随所に付加された電子出版物を視聴覚するシステム、及び視聴覚用電子出版物作成プログラム、及びそのシステムを利用する利用者端末用プログラムに関する。
従来から音声合成に関する技術として、録音編集方式と規則合成方式とがある。録音編集方式は、人間の発声を単語や文節等に区切ってデータベースに蓄積し、それらを適切に連結して合成音を生成する技術であり、規則合成方式は、予め規定されたルールに従って韻律を変化させながら、データベースに蓄積された単語等の音声波形データを編集して合成音を生成する技術である。
録音編集方式による合成音は、自然に近い合成音が得られるものの、合成できる音声メッセージが限定されるうえ、新たな単語や文を追加する場合には、同じ話者が同じような口調で音声を収録しなければならないという制約がある。一方、規則合成方式は、任意のテキストデータを合成できるため、新たな文等を追加するといった際にも新たな収録が必要ない。しかしながら、合成ルールで記述できる表現の限界や音声波形データを作成、編集する際の信号処理による波形の劣化が避けられず、口調や肉声感が乏しくなるという課題があった。
そこで、大規模な音声データベースの整備や、コンピュータのデータ処理能力の向上を背景に音声合成時に必要となる韻律モデルや音声データベースを作成するコーパスベース音声合成方式の開発が進んでいる。
この方式で様々なテキストを高品質に音声合成するためには、膨大な数の音声素片を格納した音声データベースを生成して適切な音声素片を検索処理する必要があるので、パーソナルコンピュータ等では処理可能ではあるが、携帯機器等では困難である。そこで、クライアント・サーバー構成で音声合成を行うことで解決する方法が考えられるが応答時間がかかるという問題やパケット網では音声が途中で途切れるなどの問題があり、それを解決するために、テキスト解析や韻律パラメータ取得等をサーバ側で行い、クライアント側は音素片系列データを受信して音声合成を行う方法が提案されている(特許文献1)。
また、テキストデータを受信し、音声データを送信するWebサーバと、テキストデータの保管を行うデータベースサーバと、音声データの格納と送受を行うファイルサーバと、テキストデータを音声データに変換してファイルサーバに送る音声合成サーバと、からなる音声合成システムにインターネットで接続され、テキストデータを送り、音声データを受信して音声出力する利用者端末であって、Webサーバから音声データ変換完了通知を受けたら、音声データのダウンロード要求をすることにより、自然な音声として出力可能な音声データを配信する方法が提案されている(特許文献2)。
さらに、様々なテキストを高品質に音声合成するには、豊富な音声素片のバリエーションを含む音声データベースが必要であるが、日本語としてありうる全てのテキストを集めることは不可能であるため、音声に偏りが生じるので、音素コンテキストに適合する音声素片候補に対応する音声波形データと韻律変形処理を施す対象として選択された韻律変形素片候補に変形処理を施した音声波形データとを接続して高品質な合成音声をえる音声合成装置が提案されている(特許文献3)
なお、合成音声を人間の自然の声に近づけるため、音声の韻律的特徴と話者のパーソナリティ印象との関係性(非特許文献1)や、音声による感情表出とその音響的特徴について(非特許文献2)等の研究も盛んに行われている。
特許第4653572号公報 特開2008−89853号公報 特許第4247289号公報
内田 照久 「音声研究第13巻第1号」日本音声学会 2009年4月 中林 律子 「ことばの科学(21)」名古屋大学言語文化研究会 2008.12.15
近年、情報機器の処理能力等が飛躍的に向上し、音声情報や音声波形のデータベースが大型化し、複数の仮想人物の中から選択された人物に応じて声質や口調の異なる合成音声を出力することや、感情表現を加えた合成音声を出力する音声合成装置が開発されている。また、ペーパーレス化が進展し、教材や書籍、ニュース記事等も電子データとなって情報機器に収納され、表示された画面で視聴する機会が増大している。しかしながら、表示画面を長時間見るといつの間にか疲労が蓄積し、集中力を維持できなくなるので、視覚と聴覚とを同時に、又は交互に使うことなどにより持続時間を長くすることが可能になる。その場合、複数の人物が役割を分担して読んだり、内容に応じて感情表現まで加えたりすることができれば、臨場感が増し、より効果的である。また、視覚に障害のある人や老人にとっては、とても便利である。
本発明は、上記事情に鑑み、複数の仮想人物による合成音声の出力が可能な合成音声生成手段に入力したとき、文章の随所を様々な仮想人物が分読した音声が出力される各種の電子出版物を作成し、それをインターネット経由等で提供する一方、提供された電子出版物を音声合成手段に入力して得られた音声をスピーカやイヤホンで聞くことや、電子出版物自体の文字又は画像を画面表示させて視聴覚することが可能な電子出版物視聴覚システム、その視聴覚用電子出版物を作成するためのプログラム、及びそのシステムを利用するユーザが使用する利用者端末にインストールするプログラムを提供することを目的とする。
本発明の電子出版物を視聴覚するシステムは、音声のプロファイルが明示された音声合成手段に、該音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルを入力することにより、該電子出版物を複数の仮想人物が分読する音声を出力させる電子出版物を視聴覚するシステムであって、上記電子出版物の随所の文字データに上記タグが付加された上記音声合成用ファイルを作成するファイル作成端末と、上記ファイル作成端末で作成された上記音声合成用ファイルを格納するデータベース、及びインターネットを介して要請があった利用者端末を登録・認証する認証手段を有し、認証された該利用者端末から要求があったときは該音声合成用ファイルのダウンロードを容認するフィル提供サーバと、を備え、上記利用者端末は、上記ファイル提供サーバからダウンロードした上記音声合成用ファイルを保存する第1メモリと、上記第1メモリに保存された上記音声合成用ファイルに付加された上記タグを読み込んで、上記電子出版物を分読する仮想人物のプロファイルリストを作成するリスト作成手段と、上記タグが随所に付加された上記音声合成用ファイルから抽出された文字データ及び画像データを、上記画面に頁毎に表示する復元表示手段と、上記第1メモリに保存された上記音声合成用ファイルを上記音声合成手段に入力し、出力された上記仮想人物が分読する音声波形データを保存する第2メモリと、上記第2メモリに保存された上記波形データを音声出力する出力手段と、を有することを特徴とする。
その場合、インターネットを介して要請があった上記利用者端末を登録・認証する通信手段と、認証された上記利用者端末から受信した上記音声合成用ファイルを一時保管する保管手段と、複数の音声データが格納された音声データベース、及び言語の読み情報が記録された辞書データベースを有し、上記音声合成用ファイルが入力すると、上記仮想人物が分読する音声波形データに変換して出力する上記音声合成手段と、上記音声合成手段から出力された上記音声波形データを格納する格納手段と、を有する音声合成サーバを備え、
上記通信手段は、認証された上記利用者端末からダウンロード請求があったときに、上記格納手段に保管された上記音声波形データを該利用者端末に送信することができる。
また、上記利用者端末は、複数の音声データが格納された音声データベース、及び言語の読み情報が記録された辞書データベースを有し、上記第1メモリに保存された上記音声合成用ファイルを入力させ、上記仮想人物が分読する音声波形データを出力する上記音声合成手段を内蔵することもできる。
このように、ファイル作成端末で電子出版物の文字データに音声を指定するタグが付加された音声合成用ファイルを作成し、その音声合成用ファイルをファイル提供サーバに格納し、インターネットを介して要請があった利用者端末から自在にダウンロード可能にする一方、ダウンロードしたその音声合成用ファイルを、インターネットを介して接続可能な音声合成サーバに入力するか、あるいは利用者端末に内蔵する音声合成手段に入力すれば、電子出版物を複数の仮想人物が分読した音声が出力されるので、電子出版物の内容を視覚と聴覚とを駆使して把握することができる。
その場合、そのシステムを利用する利用者端末は、上記音声合成手段の上記プロファイルに基づいて上記リスト作成手段で作成された上記プロファイルリストの一部が変更されたときは、上記タグを変更して上記第1メモリに保存する仮想人物変更手段と、上記画面に表示された上記文字データが上記音声合成手段によって音声に変換される順序又は時間間隔の変更が行われたときは、該順序又は該時間間隔を指定するタグを変更して上記第1メモリに格納する順序等変更手段と、上記仮想人物変更手段で変更された上記タグを上記文字データに付加した上記音声合成用ファイルを作成するファイル作成手段と、上記第2メモリに格納された上記音声形データを、上記文字データ及び画像データが上記画面に表示されるタイミングに合わせて出力するタイミング調整手段と、を備えること、上記タグ変換手段は、上記アイコン、上記韻律パラメータ、及び上記感情パラメータそれぞれと上記タグとを対応させて保存する第3メモリを有し、上記音声指定手段は、上記アイコン、上記韻律情報パラメータ、及び上記感情パラメータそれぞれが選択されると、上記画面に表示された上記個所の近傍に該アイコン及び該パラメータを表示させ、保存操作がなされると、表示された該個所の文字データと共に該アイコン及び該パラメータが上記格納手段に格納することもできる。
利用者端末にこのような機能を持たせれば、ファイル提供サーバからダウンロードした音声合成用ファイルの一部に変更を加えて、利用者の好みに合わせた音声を出力させることも可能になる。
また、上記ファイル作成端末は、性別及び年齢別に層別された仮想人物のアイコン、韻律を表す情報それぞれの韻律パラメータ、及び感情を区分した感情パラメータそれぞれが選択自在に記録されるプルダウンメニュー作成手段と、上記プルダウンメニューに記録される上記アイコン、上記韻律パラメータ、及び上記感情パラメータそれぞれが選択されたとき、上記プロファイルに対応するタグに変換するタグ変換手段と、上記電子出版物の所定の文章と上記プルダウンメニューとを画面に表示させ、該文章の所定の個所を指定した後、該プルダウンメニューから何れかの上記アイコン、何れかの上記韻律パラメータ、及び何れかの上記感情パラメータが選択されたとき、該個所を表す文字データに上記タグを付加して分読する音声の指定を行う音声指定手段と、上記電子出版物の随所の文字データに上記タグが付加された上記音声合成用ファイルを生成する音声合成用ファイル生成手段と、生成された上記音声合成用ファイルを格納する格納手段と、を備えていれば、ファイル提供サーバから要請された音声プロファイルに沿って、電子出版物を分読させる仮想人物の音声パラメータを随所に設定した音声合成ファイルを作成することができる。
また、上記のファイル作成端末は、電子計算機又は携帯端末機に設定され、音声合成手段に入力したときに、複数の仮想人物により該電子出版物を分読した音声波形が出力される、視聴覚用電子出版物作成プログラムであって、性別及び年齢別に層別された仮想人物のアイコン、韻律を表す情報それぞれの韻律パラメータ、及び感情を区分した感情パラメータのそれぞれが選択自在に記録されるプルダウンメニューの作成手順と、上記プルダウンメニュー作成手順で記録された上記アイコン、上記韻律パラメータ、及び上記感情パラメータそれぞれを識別するタグを付加するタグ付手順と、上記電子出版物の所定の文章と上記プルダウンメニューとを画面に表示させ、該文章の所定の個所に操作の実行位置を示す目印がセットされた後に、該プルダウンメニューから何れかの上記アイコン、何れかの上記韻律パラメータ、及び何れかの上記感情パラメータが選択されたとき、付加された上記タグで該個所を分読する音声を指定する音声指定手順と、上記電子出版物に含まれる文字データの随所に上記タグが付加され、保存操作がなされると上記音声合成手段に入力する音声合成用ファイルを生成し、格納手段に格納する音声合成用ファイル生成手順と、を含み、さらに上記音声指定手順は、上記アイコン、上記韻律情報パラメータ、及び上記感情パラメータそれぞれが選択されると、上記個所の近傍に該アイコン及び該パラメータを表示させ、保存操作がなされると、該個所の文字データと該アイコン及び該パラメータを表示するデータを上記格納手段に格納する手順を含むプログラムを作成し、PCにインストールすることにより容易に実現可能である。
さらに、上記の利用者端末は、電子計算機又は携帯端末機に設定され、音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルに付加された該タグを読み込んで、該電子出版物を分読する仮想人物のプロファイルリストを作成するリスト作成手順と、上記タグが随所に付加された上記音声合成用ファイルから抽出された文字データ及び画像データを頁毎に画面に表示する復元表示手順と、上記リスト作成手段で作成された上記プロファイルリストの一部が変更されたときは、上記タグを変更する仮想人物変更手順と、上記画面に表示された上記文字データが音声に変換される順序又は時間間隔の変更が行われたときは、該順序又は該時間間隔を指定するタグを変更する順序等変更手順と、上記仮想人物変更手順で変更された上記タグを上記文字データに付加した上記音声合成用ファイルを作成するファイル作成手順と、を含む利用者端末用プログラムを作成し、スマホあるいはPCにオンストールすれば容易に実現可能である。
本発明の電子出版物を視聴覚するシステムによれば、市販若しくはサービス提供される音声合成手段で合成可能な音声を指定したタグが埋め込まれた電子出版物やその電子出版物を活用する利用者端末が提供できるので、漫画本や絵本を含む書籍、台本など様々な出版物を、タグが埋め込まれた電子出版物とすれば、視聴覚を使ってその内容を把握することができる。
図1は、第1の実施形態の電子出版物を視聴覚するシステムを示す構成図である。 図2は、第1の実施形態のファイル提供サーバを示す機能ブロック図である。 図3は、第1の実施形態の音声合成サーバを示す機能ブロック図である。 図4は、第1の実施形態のファイル作成端末を示す機能ブロック図である。 図4−1は、音声を識別するパラメータ(又はタグ)を付与する際に表示される画面の一例を示す図である。 図4−2は、音声を識別するパラメータ(又はタグ)を付与する際に表示される画面の一例を示す図である。 図4−3は、音声を識別するパラメータ(又はタグ)を付与する際に表示される画面の一例を示す図である。 図4−4は、音声を識別するパラメータ(又はタグ)を付与する際に表示される画面の一例を示す図である。 図4−5は、格納手段に格納される音声合成用ファイルの概念を一例として示す図である。 図5は、第1の実施形態の利用者端末の機能ブロック図である。 図6は、第2の実施形態の電子出版物を視聴覚するシステムを示す構成図である。 図7は、第2の実施形態における利用者端末を示す機能ブロック図である。
以下に、本発明の実施形態について説明する。
[第1の実施形態]
図1は、第1の実施形態の電子出版物を視聴覚するシステムを示す構成図である。
図1に示す第1の実施形態の電子出版物を視聴覚するシステム1は、電子出版物に、音声合成する音声を指定したタグが随所に付加された音声合成用ファイルを作成するファイル作成端末10と、ファイル作成端末10で作成された音声合成用ファイルを受け取り、保存して、その音声合成用ファイルの提供を受けたい利用者端末に提供するファイル提供サーバ30と、ファイル提供サーバ30に保存された音声合成用ファイルを、インターネットNで接続してダウンロードする利用者端末40と、利用者端末40とインターネットNで接続され、受信した音声合成用ファイルを複数の仮想人物によって分読された音声波形データに変換し、利用者端末40に送信する音声合成サーバ60と、によって構成されている。
ファイル作成端末10は、パーソナルコンピュータ(以下、「PC」と称する。)であり、ファイル提供サーバ30とは、インターネットNで接続して、作成した電子出版物の音声合成用ファイルを送受しもよいし、USBメモリなどで受け渡しを行ってもよい。
一方、本実施形態の利用者端末40は、インターネットNに接続可能な不特定多数のスマートホン(以下、「スマホ」と称する。)であり、PCに較べて処理能力及び記憶容量が低いので、音声合成機能までは保持していない。従って、ファイル提供サーバ30はもとより音声合成サーバ60にもインターネットNで接続して、ファイル提供サーバ30からダウンロードした音声合成用ファイルを音声合成サーバ60に送信し、音声合成サーバ60から音声波形データを受信して音声出力する。
ここで、本実施形態の利用者端末40は、スマホを用いているが、必ずしもスマホである必要はなく、PCであってもよい。
図2は、第1の実施形態のファイル提供サーバを示す機能ブロック図である。
図2に示すように、ファイル提供サーバ30は、ファイル作成端末10で作成された音声合成用ファイルを、インターネットNで受信し、又はUSBなどで受取り、その音声合成用ファイルが、所定の形式で作成されているか否かをチェックするチェック手段11と、チェックした結果、合格した音声合成用ファイルを格納する電子出版物データベース12と、電子出版物データベース12に格納されている電子出版物のリストを、インターネットNを介して表示する表示手段13と、インターネットNを介して要請があった利用者端末40を登録・認証する認証手段14と、認証された利用者端末40から要求があり、課金確認が完了したとき、要求があった音声合成用ファイルのダウンロードを容認する課金手段15と、を備えている。
ここで、ファイル提供サーバ30の運営者は、対象とする音声合成サーバ(一つ又は多数のうちの特定のもの)60、あるいは音声合成ソフトにおける音声のプロファイルを、予め、ファイル作成端末10の運営者に提示し、そのプロファイルに沿った仮想人物によって電子出版物が分読されるようにオーダーする。従って、出来上がった音声合成用ファイルが提示したプロファイルに沿っていることをチェック手段11で確認する必要がある。
確認する方法としては、例えば、音声合成用ファイルに付加されているタグから仮想人物のプロファイルリストを作成し、そのプロファイルリストと、予め提示したプロファイルとを対比することにより確認できる。
また、ファイル提供サーバ30の運営者から、音声合成用ファイルを購入しようとする利用者端末40のユーザは、表示手段13によって表示された電子出版物のリストから、その音声合成用ファイルのプロファイルリストが、どの音声合成サーバ60(または音声合成ソフト)のプロファイルに適合するか否かを確認することができる。
図3は、第1の実施形態の音声合成サーバを示す機能ブロック図である。
図3に示す第1の実施形態の音声合成サーバ60は、言語の読み情報が記録された辞書データベース61、及び様々な音声の波形が格納された波形データベース62を有し、インターネットNを介して利用者端末40から音声合成用ファイルが入力したときに、それを音声波形データに変換して出力する音声合成手段63と、音声合成手段63から出力された音声波形データを一旦格納する音声波形データ格納手段65と、インターネットNを介して要請があった利用者端末40を登録・認証し、クレジットカード等による課金処理を行う通信手段66とを備えている。
通信手段66は、認証された利用者端末40から、音声合成用ファイルを音声に変換したい旨の要求があったときは、その音声合成用ファイルのプロファイルリストが自己のプロファイルに適合するか否かの確認、及びデータ量の確認を行い、課金処理をして承認番号を発行する。そして、その利用者端末40から送られてきた音声合成用ファイルを格納手段67に一時保管する。そして、音声合成手段63による処理が完了したら、変換された音声波形データを音声波形データ格納手段65に一旦格納し、通信手段66から利用者端末40に完了通知を行う。その後、利用者端末40から音声波形データのダウンロード請求があったときは、通信手段66は、承認番号を確認して、音声波形データ格納手段65に格納されている音声波形データをその利用者端末40に送信する。
図4は、第1の実施形態のファイル作成端末を示す機能ブロック図である。
図4に示す第1の実施形態のファイル作成端末10は、音声合成用ファイルを作成する電子出版物のデータが保存されたメモリ19と、表示画面17と、パラメータなどを選択するメニューをプルダウン式に画面表示させるプルダウンメニュー作成手段11と、プルダウンメニューに記載されたアイコン、韻律パラメータ、及び感情パラメータそれぞれをタグに変換するタグ変換手段12と、文を表す文字データのヘッドにタグを付加して、音声合成する音声の指定を行う音声指定手段14と、電子出版物の随所の文字データにタグを付加した音声合成用ファイルを生成する音声合成用ファイル生成手段15と、生成された音声合成用ファイルを格納する格納手段16とを備えている。そして、プルダウンメニュー作成手段11によって記載されたアイコンやパラメータは、それらが変換されたタグと対応させてメモリ18に保存される。
プルダウンメニューの作成手段11は、電子出版物を分読する仮想人物のアイコン、その韻律としての速度やイントネーション、声の高低などを示す韻律パラメータ、及び喜び・怒り・哀しみなどの感情や質問などを区別する感情パラメータそれぞれを選択可能に記載したメニューを作成し、画面17に表示されたそれらメニューから、何れかのアイコン、何れかの韻律パラメータ、及び何れかの感情パラメータがクリックされると、その選択されたパラメータなどを画面17に表示させる。なお、メニューに記載するアイコン、韻律パラメータ、及び感情パラメータは、ファイル提供サーバ30の運営者から予め提示されたプロファイルに基づき、その範囲内で記載する。
タグ変換手段12は、プルダウンメニューに記載されたアイコン、韻律パラメータ、及び感情パラメータそれぞれは、決定ボタンがクリックされると、予めプロファイルが提示されている音声合成手段63に設定されたタグに変換され、メモリに記憶される。
音声指定手段14は、音声合成用ファイルを生成しようとする電子出版物の所定の文章と、プルダウンメニューとを画面17の両側に分けて表示し、表示された文章の随処、随所をカーソルで指定し、表示されたプルダウンメニューから何れかのアイコン、何れかの韻律パラメータ、何れかの感情パラメータを選択すると、カーソルで指定された個所の近傍(上部、下部、あるいは脇)にそれらのパラメータ等が表示され、決定ボタンがクリックされると、カーソルで指定された個所の文字データのヘッドにタグが付加される。このタグが付加されると、次の文字データにタグが付加されるまでの区間は、同じ合成音声となるように分読する仮想人物の声が指定される。そして、保存操作がなされると、その個所の文字データと共にそのアイコン及びパラメータが一次データとして格納手段16に格納される。
音声合成用ファイル生成手段15は、音声合成手段63に入力されると、役者が演劇のシナリオ等を分読するときのように、電子出版物を複数の仮想人物が分読する音声を出力する音声合成用ファイルが生成される。したがって、電子出版物の随所の文字データには、それを分読する仮想人物の音声を指定するタグが付加されている。
ここで、ファイル作成端末10におけるプルダウンメニュー作成手段11と、タグ生成手段12と、音声指定手段14と、音声合成用ファイル生成手段15は、プログラムの実行手順にすることが可能であり、その実行手順を記載した視聴覚用電子出版物作成プログラムが記録された記録媒体を購入することや、視聴覚用電子出版物作成プログラムを販売するサイトにアクセスしてダウンロードすることなどによって、スマホにインストールし、それぞれの機能を実現させることもできる。
図4−1から図4−4は、ファイル作成端末で音声を識別するパラメータ(又はタグ)を付与する際に表示される画面の一例を示す図であり、図4−5は、格納手段に格納される音声合成用ファイルの概念を一例として示す図である。
図4−1に一例を示すように、画面17の左側には、音声識別タグ20と、電子出版物の文章21が順次表示され、右側には、仮想人物のアイコン22、韻律パラメータ23の速度、感情パラメータ24、時間間隔25がプルダウンメニューによって選択自在に表示される。なお、文章21には、「あなたの名前は?」という話し言葉と、「私の名前はBです。」という話し言葉が含まれている。
プルダウンメニューには、予め想定される複数の仮想人物のアイコン22と、氏名、あるいはニックネームが記録され、韻律パラメータ23には、文章を読む速度が普通・早い・遅いや、イントネーションの程度などが記録され、感情パラメータ24には、感情がなし・喜ぶ・怒る・質問などが記録され、話す時間間隔25には秒数を記録するようになっている。
プルダウンメニューそれぞれに記録されたパラメータなどを選択し、決定ボタン26をクリックすることによりパラメータ及びそれらのタグが決まるようになっている。まず、「あなたの名前は?」という話し言葉の読み手となるか仮想人物を指定するため、その文の頭にカーソル27を合わせる。
図4−2に示すように、「あなたの名前は?」という話し言葉をくくったかぎカッコの頭に、ポインターでカーソル27をセットする。そして、女性Aに、普通の速度で、質問形式で読んだ音声を出力させるときは、アイコン22の女性Aを選び、韻律パラメータ23の速度、普通を選び、感情パラメータ24は、なしを選び、話す時間間隔25は0秒として、決定ボタン26をクリックする。すると、それらのパラメータなどが文章21の左側に表示され、同時に音声識別タグ20に変換される。
図4−3に示すように、女性Aの話し言葉の後ろに続くナレーション部分は、話し言葉をくくったかぎカッコの後ろのカッコの前にカーソル27をセットし、アイコン22の男性Aを選び、韻律パラメータ23の速度、普通を選び、感情パラメータ24は、なしを選び、話す時間間隔25は、1秒にして決定ボタン26をクリックする。
図4−4に示すように、と、尋ねたというナレーション部分の文章21の左側に選んだパラメータ、男性A、普通、なし、1秒が表示され、同時にそれらのパラメータなどが音声識別タグ20に変換される。以下、同様にして電子出版物の文章21の随所に、音声合成手段で規定されているタグを埋め込み、音声合成用ファイルを作成する。なお、決定されたパラメータなどは、タグと対にしてメモリ18に保存される。
図4−5は、音声指定手段で音声を識別するパラメータ(又はタグ)が付加された音声合成用ファイルが格納手段16に格納される形式を一例として示す図である。
図4−5に示すように、音声識別タグ20とそのタグによって音声が指定された文章21とが対になって格納されている。
すなわち、文章21を読む仮想人物が変わる毎に、その文章21が記載されている頁、改行の有無、仮想人物(アイコン)22、韻律パラメータ23の速度、感情パラメータ24、話す時間間隔25、その仮想人物によって読まれる文章21の順に、所定の領域が割り付けられている。
図5は、第1の実施形態の利用者端末の機能ブロック図である。
図5に示す第1の実施形態の利用者端末40は、スマホであり、電子出版物の提供サーバにアクセスして、認証を受け、クレジットカードなどの情報を入力して決済処理する通信手段41と、画面45と、仮想人物のプロファイルリストを作成するリスト作成手段42と、音声合成手段のプロファイルを参照しプロファイルリストの一部を変更する仮想人物変更手段43と、画面に文字と画像のみを表示させる復元表示手段44と、音声合成手段によって音声出力する順序等を変更する順序等変更手段46と、音声合成用ファイルを作成する音声合成用ファイル作成手段55と、ファイル提供サーバ30からダウンロードした音声合成用ファイルを保存する第1メモリ48と、音声合成サーバ60から送られてきた音声波形データを保存する第2メモリ49と、第2メモリ49に保存された音声波形データを出力するタイミングを調整するタイミング調整手段54と、スピーカ又はイヤホン挿入端子(本発明の「音声出力手段」に相当する。)47を備えている。
通信手段41は、ファイル提供サーバ30又は音声合成サーバ60にアクセスして、認証を受け、ファイル提供サーバ30の表示手段33から受信した電子出版物のリストを表示させ、所望の電子出版物を選択してその料金をクレジット決済する。そして、その電子出版物の音声合成用ファイルをダウンロードして第1メモリ48に保存する。
リスト作成手段42は、第1メモリ48に保存された音声合成用ファイルに付加されているタグを読み込んでその電子出版物を分読する仮想人物の、韻律パラメータや感情パラメータを含むプロファイルリストを作成する。
仮想人物変更手段44は、リスト作成手段42で作成されたプロファイルリストを画面に表示させ、音声に変換させる音声合成サーバから示されているプロファイルを参照してプロファイルリストの一部を変更することや、利用者端末40ユーザの好みで一部を入れ替える変更をすることができる。その場合、仮想人物などのタグを変更し、変更後のタグを付加した音声合成用ファイルを第1メモリ48に保存する。
復元手段44は、音声合成用ファイルに含まれる音声を指定する情報、すなわちアイコン、韻律パラメータ、及び感情パラメータなどを削除して、電子出版物に記載された文字及び画像等を頁毎に画面45に表示する。
順序等変更手段46は、電子出版物が、例えば漫画本のように、画像の中に複数の吹き出しが設けられ、そこに文字が記載されているときは、その吹き出しを読む順序が必ずしも記載順になっていない場合があるので、ナンバーを付す等して指定する。しかしながら、その順序を、利用者端末40のユーザの好みで変更指定したい場合があるので、それに対応するために設けてある。
音声合成用ファイル作成手段55は、仮想人物変更手段43で変更されたプロファイルリストのタグや、順序等変更手段46で変更された吹き出しの読み順のタグを文字データに付加し、最終的に音声合成サーバ60に入力する音声合成用ファイルを作成し、第1メモリ48に保存する。
通信手段41は、認証を受けている音声合成サーバ60に、第1メモリ48に保存された音声合成用ファイルを送信し、承認番号を得る。そして、音声合成サーバ60側から、完了通知が届いたら、音声波形データのダウンロード請求を行ってその音声波形データを受信する。受信した音声波形データは、第2メモリ49に保存する。
タイミング調整手段54は、電子出版物の文字や画像が画面に表示されるタイミングに合わせて第2メモリ49に保存された音声波形形データが出力されて音声となるようにタイミングを調整する。
ここで、利用者端末40におけるリスト作成手段42、復元表示手段44、仮想人物変更手段43、順序等変更手段46、及びファイル作成手段55は、プログラムの手順として実現することが可能であり、その手順を記載した利用者端末用プログラムが記録された記憶媒体を購入することや、利用者端末用プログラムを販売するサイトにアクセスしてダウンロードすることなどによって、スマホにインストールし、それぞれの機能を実現させることもできる。
[第2の実施形態]
図6は、第2の実施形態の電子出版物を視聴覚するシステムを示す構成図である。
図6に示すように、第2の実施形態の電子出版物を視聴覚するシステム2は、音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルを作成するファイル作成端末10と、ファイル作成端末10で作成された音声合成用ファイルを受け取り、保存するファイル提供サーバ30と、ファイル提供サーバ30に保存された音声合成用ファイルを、インターネットNで接続してダウンロードし、内蔵する音声合成手段によって複数の仮想人物が分読する音声波形データに変換し、音声出力する利用者端末50と、によって構成されている。
第2の実施形態の電子出版物を視聴覚するシステム2は、ファイル作成端末10と、提供サーバ30は、第1の実施形態におけるものと同じであることから重複説明を省略し、相違している利用者端末50についてのみ説明する。
図7は、第2の実施形態における利用者端末を示す機能ブロック図である。
図7に示す第2の実施形態の利用者端末50は、PCであり、処理能力、記憶容量が十分あるので、音声合成処理を行う音声合成手段51が内蔵されている。
本実施形態の音声合成手段51は、音声合成ソフトとして市販されているものをPCにインストールすることにより実現することができる。
第2の実施形態における利用者端末50は、インターネットNでファイル提供サーバ30にアクセスして、認証を受け、クレジットカードなどの情報を入力して決済処理する通信手段41と、画像や文字を表示する画面45と、仮想人物のプロファイルリストを作成するリスト作成手段42と、音声合成手段63のプロファイルを参照しプロファイルリストの一部を変更する仮想人物変更手段43と、画面に文字と画像のみを表示させる復元表示手段44と、音声合成手段によって音声出力する順序等を変更する順序等変更手段46と、音声合成用ファイルを作成する音声合成用ファイル作成手段55と、ファイル提供サーバ30からダウンロードした音声合成用ファイルを保存する第1メモリ48と、を備えている。さらに、本実施形態の利用者端末50は、第1メモリ48に保存された音声合成用ファイルを入力する音声合成手段51と、音声合成用ファイルに付加されたタグを解読する際に用いる辞書データベース52と、様々な音声の波形が蓄積された波形データベース53と、を備え、音声合成手段51は、波形データベース53からタグに適応する波形データを抽出し、電子出版物の随処を異なる仮想人物が分読する音声波形データを出力し、その音声波形データを第2メモリ49に保存する。
そして、第2メモリに保存された音声波形データを音声として出力するスピーカ又はイヤホン挿入端子(本発明の「音声出力手段」に相当する。)47を備えている。
通信手段は、インターネットNでファイル提供サーバ30にアクセスして、登録・認証を受け、表示手段13から電子出版物のリストを受信して画面45に表示させる。そして所望の電子出版物を選択し、その料金をクレジット決済してから音声合成用ファイルをダウンロードする。その場合、ダウンロードする音声合成用ファイルが、内蔵する音声合成手段51で読み取り可能な形式のものか否かをチェックする。
所望の電子出版物の音声合成用ファイルをそのファイル提供サーバ30からダウンロードしたら、先ず、第1メモリ48に保存する。
そして、第1メモリ48に保存された音声合成用ファイルを音声合成手段51に入力され、出力された音声波形データは第2メモリ49に保存される。
本実施形態のPCは、音声合成手段51としての音声合成ソフトをインストールするほか、以下の手順を実行する利用者端末用プログラムをインストールし、ファイル提供サーバ30からダウンロードした音声合成用ファイルをそのまま音声合成ソフトに入力するだけではなく、試行錯誤を加えながら音声合成用ファイルに若干の変更を加えることができるようになっている。
すなわち、利用者端末用プログラムは、第1メモリ48に保存された音声合成用ファイルに付加されたタグを読み込んで、電子出版物を分読する仮想人物のプロファイルリストを作成する手順を行うリスト作成手段42、リスト作成手段で作成されたプロファイルリストの一部が変更されたとき、タグを変更して第1メモリ48に保存する手順を行う仮想人物変更手段43、仮想人物変更手段で変更されたタグを文字データに付加した音声合成用ファイルを作成し、第1メモリ48に保存する手順を行うファイル作成手段55、第1メモリ48に保存された音声合成用ファイルから抽出した文字データ及び画像データを画面45に頁毎に表示する手順を行う復元表示手段44、画面45に表示された文字データが音声に変換される順序又は時間間隔の変更が行われたときその順序又は該時間間隔を指定するタグを変更して第1メモリ48に格納する手順を行う順序等変更手段46、仮想人物変更手段43で変更されたタグを文字データに付加した音声合成用ファイルを作成する手順を行うファイル作成手段55、としての機能を有する。
リスト作成手段42で作成された仮想人物のプロファイルリストが好みに合わない場合は、音声合成手段51で読み取り可能な範囲で変更を加えることや、仮想人物相互の入れ替えを行うことができる。そして、そのプロファイルリストの一部が変更されたときには、音声合成ソフトで対応可能なタグに変更して第1メモリ48に保存する。また、音声合成用ファイルには、画面45に表示できない符号が含まれているので、復元表示手段44によってそれらを除去して電子出版物本来の文字や画像を画面45に頁毎に表示することができる。その結果、電子出版物を聴覚と視覚を使って読むことができるので集中力を高める効果が期待できる。
一方、漫画など、吹き出しに文字が書かれている場合は、文字が書かれている上下、又は左右の順序に沿って文字を読むと意味が通じ難くなる場合がある。そのようなときは、吹き出しを読む順序や、読む時間間隔を調整する必要が生じる。そこで、順序変更手段46によって、それらの順序や時間間隔を指定するタグを変更し、変更したタグが付加された音声合成用ファイルを音声合成用ファイル作成手段55に作成させることを可能にしている。
さらに、本実施形態のPCは、タイミング調整手段54を備えている。すなわち、例えば漫画のように、音声が出力されたときに、その部分の画像や吹き出しが画面45に完全に表示される必要がある。しかし画像処理による時間のずれが生じる場合があり、第2メモリ49に格納された音声波形データがスピーカ又はイヤホンから出力されるタイミングを、少し遅らせるなどしてタイミングを合わせることができる。
本実施形態においては、音声合成手段51を内蔵するので、リスト作成手段42で作成されたプロファイルリストを画面に表示させ、音声合成手段51のプロファイルを参照して一部を変更することや、ユーザの好みで仮想人物を入れ替え、その結果をモニターしながら変更することが可能である。その場合、変更された仮想人物などの変更後のタグは第1メモリ48に保存される。
1,2 電子出版物を視聴覚するシステム
10 ファイル作成端末
11 プルダウンメニュー作成手段
12 タグ変換手段
14 音声指定手段
15 音声合成用ファイル作成手段
16 格納手段
17、45 画面
18、19 メモリ
20 音声識別タグ
21 文章
22 アイコン
23 韻律パラメータ
24 感情パラメータ
25 時間間隔
26 決定ボタン
27 カーソル
30 ファイル提供サーバ
31 チェック手段
32 電子出版物データベース
33 表示手段
34 認証手段
35 課金手段
40,50 利用者端末
41 通信手段
42 リスト作成手段
43 仮想人物変更手段
44 復元表示手段
46 順序変更手段
47 音声出力手段
48 第1メモリ
49 第2メモリ
51、63 音声合成手段
52 辞書データベース
53、62 波形データベース
54 タイミング調整手段
55 音声波形格納手段
60 音声合成サーバ
65 音声波形データ格納手段

Claims (11)

  1. 音声のプロファイルが明示された音声合成手段に、該音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルを入力して、該電子出版物を複数の仮想人物で分読する音声が出力する電子出版物視聴覚システムであって、
    前記電子出版物の随所の文字データに前記タグが付加された前記音声合成用ファイルを作成するファイル作成端末と、
    前記ファイル作成端末で作成された前記音声合成用ファイルを格納するデータベース、及びインターネットを介して要請があった利用者端末を登録・認証する認証手段を有し、認証された該利用者端末から要求があったときは該音声合成用ファイルのダウンロードを容認するファイル提供サーバと、を備え、
    前記利用者端末は、
    前記ファイル提供サーバからダウンロードした前記音声合成用ファイルを保存する第1メモリと、
    前記第1メモリに保存された前記音声合成用ファイルに付加された前記タグを読み込んで、前記電子出版物を分読する仮想人物のプロファイルリストを作成するリスト作成手段と、
    前記タグが随所に付加された前記音声合成用ファイルから抽出された文字データ及び画像データを、前記画面に頁毎に表示する復元表示手段と、
    前記第1メモリに保存された前記音声合成用ファイルを前記音声合成手段に入力し、出力された前記仮想人物が分読する音声波形データを保存する第2メモリと、
    前記第2メモリに保存された前記波形データを音声出力する出力手段と、を有することを特徴とする電子出版物視聴覚システム。
  2. 前記利用者端末は、
    前記音声合成手段の前記プロファイルに基づいて前記リスト作成手段で作成された前記プロファイルリストの一部が変更されたときは、前記タグを変更して前記第1メモリに保存する仮想人物変更手段と、
    前記画面に表示された前記文字データが前記音声合成手段によって音声に変換される順序又は時間間隔の変更が行われたときは、該順序又は該時間間隔を指定するタグを変更して前記第1メモリに格納する順序等変更手段と、
    前記仮想人物変更手段で変更された前記タグを前記文字データに付加した前記音声合成用ファイルを作成するファイル作成手段と、
    前記第2メモリに格納された前記音声形データを、前記文字データ及び画像データが前記画面に表示されるタイミングに合わせて出力するタイミング調整手段と、を備えたことを特徴とする請求項1記載の電子出版物視聴覚システム。
  3. 前記ファイル作成端末は、
    性別及び年齢別に層別された仮想人物のアイコン、韻律を表す情報それぞれの韻律パラメータ、及び感情を区分した感情パラメータそれぞれが選択自在に記録されるプルダウンメニュー作成手段と、
    前記プルダウンメニューに記録される前記アイコン、前記韻律パラメータ、及び前記感情パラメータそれぞれが選択されたとき、前記プロファイルに対応するタグに変換するタグ変換手段と、
    前記電子出版物の所定の文章と前記プルダウンメニューとを画面に表示させ、該文章の所定の個所を指定した後、該プルダウンメニューから何れかの前記アイコン、何れかの前記韻律パラメータ、及び何れかの前記感情パラメータが選択されたとき、該個所を表す文字データに前記タグを付加して分読する音声の指定を行う音声指定手段と、
    前記電子出版物の随所の文字データに前記タグが付加された前記音声合成用ファイルを生成する音声合成用ファイル生成手段と、
    生成された前記音声合成用ファイルを格納する格納手段と、を備えたことを特徴とする請求項1記載の電子出版物視聴覚システム。
  4. インターネットを介して要請があった前記利用者端末を登録・認証する通信手段と、
    認証された前記利用者端末から受信した前記音声合成用ファイルを一時保管する保管手段と、
    複数の音声データが格納された音声データベース、及び言語の読み情報が記録された辞書データベースを有し、前記音声合成用ファイルが入力すると、前記仮想人物が分読する音声波形データに変換して出力する前記音声合成手段と、
    前記音声合成手段から出力された前記音声波形データを格納する格納手段と、を有する音声合成サーバを備え、
    前記通信手段は、認証された前記利用者端末からダウンロード請求があったときに、前記格納手段に保管された前記音声波形データを該利用者端末に送信することを特徴とする請求項1又は2記載の電子出版物視聴覚システム。
  5. 前記利用者端末は、
    複数の音声データが格納された音声データベース、及び言語の読み情報が記録された辞書データベースを有し、前記第1メモリに保存された前記音声合成用ファイルを入力させ、前記仮想人物が分読する音声波形データを出力する前記音声合成手段を備えたことを特徴とする請求項1又は2記載の電子出版物視聴覚システム。
  6. 前記タグ変換手段は、前記アイコン、前記韻律パラメータ、及び前記感情パラメータそれぞれと前記タグとを対応させて保存する第3メモリを有し、
    前記音声指定手段は、前記アイコン、前記韻律情報パラメータ、及び前記感情パラメータそれぞれが選択されると、前記画面に表示された前記個所の近傍に該アイコン及び該パラメータを表示させ、保存操作がなされると、表示された該個所の文字データと共に該アイコン及び該パラメータが前記格納手段に格納されることを特徴とする請求項3記載の電子出版物視聴覚システム。
  7. 電子計算機又は携帯端末機に設定され、音声合成手段に入力したときに、複数の仮想人物により該電子出版物を分読した音声波形が出力される視聴覚用電子出版物作成プログラムであって、
    性別及び年齢別に層別された仮想人物のアイコン、韻律を表す情報それぞれの韻律パラメータ、及び感情を区分した感情パラメータのそれぞれが選択自在に記録されるプルダウンメニューの作成手順と、
    前記プルダウンメニュー作成手順で記録された前記アイコン、前記韻律パラメータ、及び前記感情パラメータそれぞれを識別するタグを付加するタグ付手順と、
    前記電子出版物の所定の文章と前記プルダウンメニューとを画面に表示させ、該文章の所定の個所に操作の実行位置を示す目印がセットされた後に、該プルダウンメニューから何れかの前記アイコン、何れかの前記韻律パラメータ、及び何れかの前記感情パラメータが選択されたとき、付加された前記タグで該個所を分読する音声を指定する音声指定手順と、
    前記電子出版物に含まれる文字データの随所に前記タグが付加され、保存操作がなされると前記音声合成手段に入力する音声合成用ファイルを生成し、格納手段に格納する音声合成用ファイル生成手順と、を含むことを特徴とする視聴覚用電子出版物作成プログラム。
  8. 前記音声指定手順は、
    前記アイコン、前記韻律情報パラメータ、及び前記感情パラメータそれぞれが選択されると、前記個所の近傍に該アイコン及び該パラメータを表示させ、保存操作がなされると、該個所の文字データと該アイコン及び該パラメータを表示するデータを前記格納手段に格納する手順を含むことを特徴とする請求項7記載の視聴覚用電子出版物作成プログラム。
  9. 所定のメニューを前記画面に表示させるメニュー表示手順を含み、該メニューの何れかが選択されると、前記プルダウンメニュー作成手順、前記音声指定手順、及び前記音声合成用データ生成手順の何れかが実行されることを特徴とする請求項7記載の視聴覚用電子出版物作成プログラム。
  10. 電子計算機又は携帯端末機に設定され、音声を指定するタグが随所に付加された電子出版物の音声合成用ファイルに付加された該タグを読み込んで、該電子出版物を分読する仮想人物のプロファイルリストを作成するリスト作成手順と、
    前記タグが随所に付加された前記音声合成用ファイルから抽出された文字データ及び画像データを頁毎に画面に表示する復元表示手順と、
    前記リスト作成手段で作成された前記プロファイルリストの一部が変更されたときは、前記タグを変更する仮想人物変更手順と、
    前記画面に表示された前記文字データが音声に変換される順序又は時間間隔の変更が行われたときは、該順序又は該時間間隔を指定するタグを変更する順序等変更手順と、
    前記仮想人物変更手順で変更された前記タグを前記文字データに付加した前記音声合成用ファイルを作成するファイル作成手順と、を備えたことを特徴とする利用者端末用プログラム。
  11. 請求項7から9記載の視聴覚用電子出版物作成プログラム又は請求項10記載の利用者端末用プログラムが、電子計算機又は携帯端末機で読み取り可能に記録されたことを特徴とする記録媒体。
JP2019111635A 2019-06-15 2019-06-15 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム Pending JP2020204683A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019111635A JP2020204683A (ja) 2019-06-15 2019-06-15 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019111635A JP2020204683A (ja) 2019-06-15 2019-06-15 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム

Publications (1)

Publication Number Publication Date
JP2020204683A true JP2020204683A (ja) 2020-12-24

Family

ID=73837387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019111635A Pending JP2020204683A (ja) 2019-06-15 2019-06-15 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム

Country Status (1)

Country Link
JP (1) JP2020204683A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7454116B2 (ja) 2022-03-29 2024-03-22 Remem株式会社 文書音声化システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7454116B2 (ja) 2022-03-29 2024-03-22 Remem株式会社 文書音声化システム

Similar Documents

Publication Publication Date Title
CN108806656B (zh) 歌曲的自动生成
CN106898340B (zh) 一种歌曲的合成方法及终端
US10088976B2 (en) Systems and methods for multiple voice document narration
US8364488B2 (en) Voice models for document narration
US8793133B2 (en) Systems and methods document narration
JP2018537727A5 (ja)
WO2022184055A1 (zh) 文章的语音播放方法、装置、设备、存储介质及程序产品
JP7309155B2 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JPWO2005093713A1 (ja) 音声合成装置
CN112750187A (zh) 一种动画生成方法、装置、设备及计算机可读存储介质
Sugiura et al. A cloud robotics approach towards dialogue-oriented robot speech
Pauletto et al. Exploring expressivity and emotion with artificial voice and speech technologies
US20080243510A1 (en) Overlapping screen reading of non-sequential text
TWI574254B (zh) 用於電子系統的語音合成方法及裝置
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
JP4840476B2 (ja) 音声データ作成装置および音声データ作成方法
Venkatesh Kumar et al. Enhancing Transmission of Voice in Real-Time Applications
KR20210027982A (ko) 음향효과를 제공하는 전자책 서비스 방법 및 장치
Danylov OPEN SOURCE AND PROPRIETARY SOFTWARE FOR AUDIO DEEPFAKES AND VOICE CLONING: GROWTH AREAS, PAIN POINTS, FUTURE INFLUENCE
TW202309875A (zh) 透過歌聲轉換設計個人化虛擬歌手的方法及裝置
KR20230099934A (ko) 복수의 화자음성을 이용한 음성 변환 장치 및 그 방법
JP2023003371A (ja) 音読データ生成システム
JP2003140677A (ja) 読み上げシステム
KR20220101229A (ko) 인토네이션, 스트레스 및 리듬을 표기한 영어 말하기 학습 서비스 제공 시스템
JP2009086597A (ja) テキスト音声変換サービスシステム及び方法