JP7082440B1

JP7082440B1 - 音読データ生成システム

Info

Publication number: JP7082440B1
Application number: JP2021141334A
Authority: JP
Inventors: 司黒岩; 貴志増子; 茉璃乃横山
Original assignee: 株式会社スペースファクトリー
Priority date: 2021-06-23
Filing date: 2021-08-31
Publication date: 2022-06-08
Anticipated expiration: 2041-06-23
Also published as: JP2023003371A

Abstract

【課題】本願発明の課題は、従来技術が抱える問題を解決することであり、すなわち従来手法に比べて簡易かつ迅速に話者（例えば、声優など）に音読を依頼するとともに、その録音データを生成することができる音読データ生成システムを提供することである。【解決手段】本願発明の音読データ生成システムは、ユーザによる音読依頼に基づいて、話者の音読を記録した音読データを生成するシステムであって、音読条件設定手段と依頼データ生成手段、音読データ生成手段を備えたものである。このうち音読条件設定手段は、オペレータ操作によって話者がテキストを音読する際の音読条件を設定する手段である。また音読データ生成手段は、話者が音読条件にしたがってテキストを音読した音声が記録された音読データを生成する手段である。【選択図】図３

Description

本願発明は、話者に音読を依頼する技術であり、より具体的には、依頼者が指定した条件にしたがって話者が音読し、その音声が記録されたデータを依頼者に提供する音読データ生成システムに関するものである。

従来、他者に対して何らかの説明を行うにあたっては、文字や図画、動画などを用いるのが主流であった。例えば商品等を広告するケースでは、チラシや新聞折り込みなど文字や写真を中心とした紙媒体で説明したり、ウェブサイトを利用して文字や図画による静止画面で説明したり、あるいはテレビやインターネットを利用して動画で説明したりすることが多かった。また、学校などの教育現場や新入社員向けの研修場面などではパワーポイント（登録商標）といったスライド資料を表示しつつ口頭による説明を行うこともあり、ビジネスの場面では紙資料を相手に渡したうえで口頭による説明を行うこともあった。

ところで、チラシや新聞折り込み、ウェブサイトの静止画などは、利用者がその内容を読んで理解する必要があるため、利用者によるいわば能動的な行動が求められる。これに対して、パワーポイントや営業資料を用いた口頭説明では、利用者はいわば受動的な姿勢で情報を入手することができ、同様に、動画による説明でもやはり受動的な姿勢で情報を入手することができる。すなわち、音声を伴う説明の方が利用者にとっての労が少なく、また音声を伴うこと（例えば、本の読み聞かせなど）でその理解が促進することも知られている。

しかしながら、パワーポイントや営業資料による口頭説明は、説明者の負担が大きく、また再現性も確保されないため重要な説明が脱落するおそれすらある。一方、動画による説明は、説明者が不要であって再現性も確保されるものの、その製作に掛かる手間やコストが負担となる。そこで、パワーポイントや営業資料による口頭説明を事前に録音することが考えられる。例えば、その録音を再生しながらパワーポイントを表示し、新入社員に対して業務マニュアルや社則などを説明するわけである。ただしこの場合、説明側のいずれかの者が自ら録音することとなり、抑揚や強調、音読速度、感情的表現などいわば音読技術（ナレーション技術）として不十分となることが避けられず、換言すれば高い品質のナレーションを提供することができない。

説明者自身による録音を回避したい場合、合成音声を利用することも考えられる。近年、合成音声に係る技術は飛躍的に発展しており、合成音声に関する新たな技術も種々提案されているところである。例えば特許文献１では、与えられたテキストに対して合成音声化すべきか否かを判断したうえで、テキストに対応する合成音声データを生成する技術について提案している。

特開２０１８－００４９７７号公報

特許文献１に開示される技術のような合成音声は、当然ながら人が発生する肉声ではない。したがって合成音声は機械的な印象を拭うことができず、やはり肉声による説明の方が訴求力ははるかに上回る。とはいえ、ナレーションの訓練を経験していない者が音声録音を行うと、上述したように高品質のナレーションを提供することができない。声優やアナウンサーなど高度なナレーション技術を有する者に依頼することも考えられるが、声優等に依頼する手順はあまり知られていないうえに思った以上に煩雑であり、また録音データの納品までに相当の時間を要し、さらに費用の把握が難しく最終的に予算以上の金額が請求されるといった問題があった。

本願発明の課題は、従来技術が抱える問題を解決することであり、すなわち従来手法に比べて簡易かつ迅速に話者（例えば、声優など）に音読を依頼するとともに、その録音データを生成することができる音読データ生成システムを提供することである。

本願発明は、依頼者がテキストと音読条件（テキストを音読する条件）からなるいわば音読用の設計書を話者に送信し、話者がその設計書にしたがって音読した音読データを依頼者に提供する、という点に着目したものであり、従来にはなかった発想に基づいてなされた発明である。

本願発明の音読データ生成システムは、ユーザ（依頼者）による音読依頼に基づいて、話者の音読を記録した音読データを生成するシステムであって、音読条件設定手段と依頼データ生成手段、音読データ生成手段を備えたものである。このうち音読条件設定手段は、オペレータ操作によって話者がテキスト（ユーザが指定したテキスト）を音読する際の音読条件を設定する手段であり、依頼データ生成手段は、テキストと音読条件が記録された依頼データを生成する手段である。また音読データ生成手段は、話者が音読条件にしたがってテキストを音読した音声が記録された音読データを生成する手段である。

本願発明の音読データ生成システムは、音読データが情報管理サーバに記憶されたものとすることもできる。この場合、話者側に配置された話者側端末は、情報管理サーバから依頼データをダウンロードするとともに情報管理サーバに音読データをアップロードする。一方、ユーザ側に配置されたユーザ側端末は、情報管理サーバから音読データをダウンロードする。

本願発明の音読データ生成システムは、音読条件として音読速度を設定し得るものとすることもできる。この場合、テキストに対して句点で区切られたセンテンスごとに、それぞれ音読速度が設定される。

本願発明の音読データ生成システムは、音読条件として強弱、抑揚、及び無発声（いわゆる、「間」）を設定し得るものとすることもできる。

本願発明の音読データ生成システムは、ユーザが音読させる話者を選定する話者選定手段をさらに備えたものとすることもできる。この場合、話者選定手段は、複数の話者候補をそれぞれの属性とともに表示し、表示された複数の話者候補の中からユーザが所望の話者を選定することができる。

本願発明の音読データ生成システムは、話者候補の属性として依頼単価を表示するものとすることもできる。

本願発明の音読データ生成システムは、あらかじめ複数の話者候補が２以上の話者グループに分類され、この話者グループごとに分けて話者候補を表示するものとすることもできる。

本願発明の音読データ生成システムは、ユーザが指定した話者候補のサンプル音声を出力するものとすることもできる。この場合、あらかじめ話者候補の音声が記録されたサンプル音声データが記録される。

本願発明の音読データ生成システムは、スライド音声出力手段をさらに備えたものとすることもできる。このスライド音声出力手段は、スライド式ファイルに対してスライドごとに音読データを出力する手段である。ここでスライド式ファイルとは、複数のスライドを遷移させるアプリケーションソフトウェア（例えば、パワーポイント）で作成されたファイルのことである。この場合、複数のスライドにはそれぞれテキストが割り当てられ、オペレータが音読条件設定手段を操作することによってスライドごとに音読条件が設定され、依頼データ生成手段がスライドごとに依頼データを生成し、さらに音読データ生成手段がスライドごとに音読データを生成する。そしてスライド式ファイルを起動すると、スライド音声出力手段が、遷移して表示されたスライドに対応する音読データを出力する。

本願発明の音読データ生成システムには、次のような効果がある。
（１）声優など高いナレーション技術を有する話者に音読の依頼を行うにあたって、ユーザは従来の手順に比べて容易に依頼することができる。
（２）声優などに音読を依頼する結果、ユーザは高品質のナレーションなどを得ることができる。
（３）依頼手順が容易になる結果、ユーザは従来の手法に比べて迅速に音読結果を得ることができる。
（４）声優が録音する際のスタジオを用意する必要がなく、ユーザは従来の手法に比べて低コストで音読結果を得ることができる。

本願発明の音読データ生成システムの主な構成を示すブロック図。情報管理サーバとユーザ側端末、話者側端末を利用して構成された本願発明の音読データ生成システムを模式的に示すモデル図。情報管理サーバとユーザ側端末、話者側端末を利用した場合の音読データ生成システムの主な構成を示すブロック図。スライドごとに生成されるスライド式ファイル用の依頼データと、スライドごとに生成されるスライド式ファイル用の音読データを、模式的に示すモデル図。ユーザ用アプリケーションのＵＩ画面の例を示すＵＩ図。話者用アプリケーションのＵＩ画面の例を示すＵＩ図。主にユーザ側端末に係る音読データ生成システムの処理の流れを示すフロー図。主にユーザ側端末に係る音読データ生成システムの処理のうち、特に候補話者の中から選定話者を選定する処理の流れを示すフロー図。主に情報管理サーバ係る処理の流れを示すフロー図。主に話者側端末係る処理の流れを示すフロー図。

本願発明の音読データ生成システムの実施の例を、図に基づいて説明する。本願発明の音読データ生成システムは、ナレーション等の経験が豊富でない者（以下、音読を依頼する者のことを単に「ユーザ」という。）が特定の話者に対して音読を依頼する際に、特に有効に利用することができる。ここで話者とは、音読を依頼される者であって、例えば声優やアナウンサー、ナレーター、俳優、司会を業とする者、ＤＪ（ＤｉｓｃＪｏｃｋｅｙ）、落語家など、高いナレーション技術や会話スキルを有する者を選定するとよい。

図１は、本願発明の音読データ生成システム１００の主な構成を示すブロック図である。この図に示すように本願発明の音読データ生成システム１００は、音読条件設定手段３０１と依頼データ生成手段３０２、音読データ生成手段４０１を含んで構成される。ユーザは、音読を希望する文面（文章）を用意するとともに、この文面をデータ化したテキスト（以下、「音読テキスト」という。）を作成したうえで、音読条件設定手段３０１によって音読テキストを音読する際の条件（以下、「音読条件」という。）を設定する。これにより依頼データ生成手段３０２が、音読テキストと音読条件を記録したデータ（以下、「依頼データ」という。）を生成する。そして、この依頼データを受け取った話者は音読条件にしたがって音読テキストを音読し、音読データ生成手段４０１がその音声を記録した（つまり、録音した）データ（以下、「音読データ」という。）を生成する。なおここでデータとは、電子的方式や磁気的方式、そのほか人の知覚によって認識することができない方式で作られる記録であって、電子計算機（コンピュータ）による情報処理の用に供される電磁的記録を含むものである。

本願発明の音読データ生成システム１００は、図２に示すように情報管理サーバ２００とユーザ側端末３００、話者側端末４００を利用して構成することもできる。この情報管理サーバ２００は、音読データ生成システム１００で扱われる種々の情報を集約するサーバであり、有線や無線などの電気通信回線を通じて複数（図では３機）のユーザ側端末３００と、複数（図では３機）の話者側端末４００と通信可能とされる。したがって音読データ生成システム１００は、例えばクラウド上に構築したクラウドサーバとするとよい。

一方、ユーザ側端末３００は、ユーザ側に配置される端末機器であり、例えばスマートフォンやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などのコンピュータ装置を利用することができる。ユーザは、このユーザ側端末３００を用いて依頼データを生成し、話者に対して音読を依頼する。これに対して話者側端末４００は、ユーザ側に配置される端末機器であり、やはりスマートフォンやＰＣなどのコンピュータ装置を利用することができる。ユーザから依頼を受けた話者は、この話者側端末４００を用いて依頼データを受け取るとともに音読データを生成する。

図２に示すように情報管理サーバ２００とユーザ側端末３００、話者側端末４００を利用する場合、音読データ生成システム１００は図３に示す構成とすることができる。以下、主な構成要素についてそれぞれ機器ごとに詳しく説明する。

（ユーザ側端末）
ユーザ側端末３００は、音読条件設定手段３０１と依頼データ生成手段３０２、話者選定手段３０３、スライド音声出力手段３０４、合成音声生成手段３０５、合成音声試聴手段３０６、サンプル音声試聴手段３０７、ユーザ側表示手段３０８、ユーザ側送受信手段３０９を含んで構成することができる。

音読条件設定手段３０１は、既述したとおりオペレータが操作することによって音読条件を設定するものである。なお、ユーザ本人がオペレータとして音読条件設定手段３０１を操作することもできるし、ユーザから依頼された他の者がオペレータとして音読条件設定手段３０１を操作することもできる。ここで設定される音読条件としては、音読テキストを音読する際の速度（以下、「音読速度」という。）や、強弱をつけるべき箇所、箇所ごとの抑揚、無発声とすべき箇所（いわゆる「間」）とその長さ、声色などを挙げることができ、そのほか音読する際に用いる言語（海外語）や方言、特定の漢字に対して読ませたい「ルビ」なども挙げることができる。また音読条件設定手段３０１は、句点（。）で区切られた一文（センテンス）ごとに音読条件（特に、音読速度）を設定することもできる。

音読条件設定手段３０１は、オペレータが液晶ディスプレイなどのユーザ側表示手段３０８に表示された音読テキストを確認しながら音読条件を設定することができる仕様にするとよい。また、この場合の音読条件設定手段３０１は、音読テキストを入力する機能を備えるとよい。例えば、キーボード等を操作することによって所望の音読テキストを記入したり、別に用意した音読テキストを取り込んだり、あるいはあらかじめ用意された標準的な音読テキストを選択したりすることで、音読テキストを入力するわけである。

依頼データ生成手段３０２は、既述したとおり音読テキストと音読条件が記録された依頼データを生成するものである。そして、ここで生成された依頼データは、オペレータ操作によりユーザ側送受信手段３０９を介して情報管理サーバ２００にアップロードされる。

合成音声生成手段３０５は、音読条件設定手段３０１で入力された音読テキストに対して合成音声を生成する手段である。ここで生成された合成音声はユーザ側端末３００内に記憶される。なお音読条件設定手段３０１は、従来用いられている種々の合成音声技術を利用して合成音声を生成することができる。これに対して合成音声試聴手段３０６は、音読条件設定手段３０１によって生成された合成音声を出力する（つまり、再生する）手段である。具体的には、オペレータが合成音声試聴手段３０６を操作することによって、所定の合成音声が読み出されるとともに、スマートフォンやＰＣが具備するスピーカー機能を利用してその合成音声が出力される。

話者選定手段３０３は、話者となり得る複数の候補者（以下、「候補話者」という。）の中から、ユーザが所望する話者を選定する手段である。なお、これら候補話者は情報管理サーバ２００から提示される。サンプル音声試聴手段３０７は、候補話者がそれぞれ事前に録音したいわばデモンストレーション用の音声（以下、「サンプル音声データ」という。）を出力する（つまり、再生する）手段である。具体的には、オペレータがサンプル音声試聴手段３０７を操作することによって、所定の候補話者に係るサンプル音声データが読み出されるとともに、スマートフォンやＰＣが具備するスピーカー機能を利用してそのサンプル音声データが出力される。

スライド音声出力手段３０４は、「スライド式ファイル」に対して音読データを出力する（つまり、再生する）手段である。ここでスライド式ファイルとは、複数のスライドを遷移させるアプリケーションソフトウェアで作成されたファイルのことであり、その代表的な例としてパワーポイントを挙げることができる。スライド音声出力手段３０４は、スライド式ファイルのスライドが遷移するたびに、当該スライドに対応した音読データを出力する。より詳しくは、スライド式ファイルを起動し、このスライド式ファイルが具備する機能を用いてオペレータがスライドを遷移させると、その遷移信号を受けたスライド音声出力手段３０４が遷移後のスライドに係る音読データを出力していくわけである。したがって図４に示す（この図では８スライドからなるスライド式ファイルを示す）ように、スライド式ファイル用の依頼データはスライドごとに生成され、当然ながらスライド式ファイル用の音読データもスライドごとに生成される。

ユーザ側端末３００を構成する音読条件設定手段３０１と依頼データ生成手段３０２、話者選定手段３０３、スライド音声出力手段３０４、合成音声生成手段３０５、合成音声試聴手段３０６、サンプル音声試聴手段３０７は、ひとつのアプリケーションソフトウェア（以下、便宜上「ユーザ用アプリケーション」という。）として構築することもできる。図５は、ユーザ用アプリケーションのＵＩ（ユーザインターフェース）画面の例を示すＵＩ図である。この場合、ユーザ側端末３００に格納した（例えば、情報管理サーバ２００からダウンロードした）ユーザ用アプリケーションをユーザ側のオペレータが操作する仕様とすることもできるし、情報管理サーバ２００に格納されたユーザ用アプリケーションにアクセスしたうえでユーザ側のオペレータが操作する仕様とすることもできる。

（情報管理サーバ）
情報管理サーバ２００は、図３に示すようにサーバ側送受信手段２０１と選定結果通知手段２０２、話者サジェスト手段２０３、依頼データ記憶手段２０４、音読データ記憶手段２０５、候補話者情報記憶手段２０６、依頼履歴情報記憶手段２０７を含んで構成することができる。

サーバ側送受信手段２０１は、ユーザ側端末３００からアップロードされた依頼データを受信したり、話者側端末４００からアップロードされた音読データを受信したり、話者側端末４００に対して依頼データを送信したり、ユーザ側端末３００に対して音読データを送信したりするなど、情報管理サーバ２００とユーザ側端末３００や話者側端末４００の間でデータ等を送受信する手段である。

選定結果通知手段２０２は、候補話者の中からユーザが選定した話者（以下、「選定話者」という。）に対して、選定された旨の情報とともに依頼データを通知する手段である。ところで、ユーザが所望の話者のタイプを指定することもあり、あるいは選定話者がその依頼を引き受けることができない場合もある。この場合、話者サジェスト手段２０３が、ユーザ（ユーザ側端末３００）に対して他の候補話者を提示する仕様にするとよい。ユーザは、話者サジェスト手段２０３によっていわば推薦された候補話者を新たに選定話者として選定することができるわけである。

依頼データ記憶手段２０４は、ユーザ側端末３００からアップロードされた依頼データを、ユーザごとであって依頼案件ごとに記憶する手段である。一方、音読データ記憶手段２０５は、話者側端末４００からアップロードされた音読データを、話者ごとであって依頼案件ごとに記憶する手段である。また候補話者情報記憶手段２０６は、あらかじめ登録された話者（つまり、候補話者）に関する情報を話者ごとに記憶する手段であり、依頼履歴情報記憶手段２０７は、過去の依頼に関する情報を依頼案件ごとに記憶する手段である。

（話者側端末）
話者側端末４００は、図３に示すように音読データ生成手段４０１と音読データ試聴手段４０２、録音側表示手段４０３、録音側送受信手段４０４を含んで構成することができる。このうち音読データ生成手段４０１は、既述したとおり話者が音読条件にしたがって音読テキストを音読した音声を記録した音読データを生成する手段である。ここで生成された音読データは、話者側端末４００内に記憶され、そしてオペレータ操作によりユーザ側録音側送受信手段４０４を介して情報管理サーバ２００にアップロードされる。

音読データ試聴手段４０２は、音読データ生成手段４０１によって生成された音読データを出力する（つまり、再生する）手段である。具体的には、話者側のオペレータ（話者本人、あるいは話者から依頼された他の者）が音読データ試聴手段４０２を操作することによって、音声データが読み出されるとともに、スマートフォンやＰＣが具備するスピーカー機能を利用してその音声データが出力される。また録音側表示手段４０３は、話者側端末４００が具備する液晶ディスプレイといった出力手段である。

話者側端末４００を構成する音読データ生成手段４０１と音読データ試聴手段４０２は、ひとつのアプリケーションソフトウェア（以下、便宜上「話者用アプリケーション」という。）として構築することもできる。図６は、話者用アプリケーションのＵＩ（ユーザインターフェース）画面の例を示すＵＩ図である。この場合、話者側端末４００に格納した（例えば、情報管理サーバ２００からダウンロードした）話者用アプリケーションを話者側のオペレータが操作する仕様とすることもできるし、情報管理サーバ２００に格納された話者用アプリケーションにアクセスしたうえで話者側のオペレータが操作する仕様とすることもできる。

（処理の流れ）
続いて、本願発明の音読データ生成システム１００の主な処理の流れについて、図７～図１０を参照しながら説明する。

はじめに、主にユーザ側端末３００に係る音読データ生成システム１００の主な処理について、図７と図８を参照しながら説明する。図７は、主にユーザ側端末３００に係る処理の流れを示すフロー図であり、図８は、主にユーザ側端末３００に係る処理のうち特に候補話者の中から選定話者を選定する処理の流れを示すフロー図である。なお図７と図８では、中央の列に実行する処理（操作）を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。

まずユーザ側では、依頼する音読用の文面を用意するともに、オペレータがこの文面に基づく音読テキストを、例えば音読条件設定手段３０１を用いて入力していく（図７のＳｔｅｐ５１０）。またユーザ側のオペレータは、音読条件設定手段３０１を操作することによって、音読テキストに対して音読条件を設定する（図７のＳｔｅｐ５２０）。このとき、音読速度や強弱、抑揚、間、声色、音読用の言語あるいは方言、ルビなどを音読条件として設定することができることは既述したとおりである

音読条件が設定されると、音読テキストと音読条件が記録された依頼データが依頼データ生成手段３０２によって生成され（図７のＳｔｅｐ５３０）、さらにこの依頼データに基づく合成音声が音声生成手段３０５によって生成される（図７のＳｔｅｐ５４０）。そしてユーザは、合成音声試聴手段３０６を操作することでその合成音声を試聴する（図７のＳｔｅｐ５５０）ことができ、すなわち最終的に得られる音読データをイメージすることができる。ここでユーザは、合成音声を試聴した結果、音読テキストを修正したり（図７のＳｔｅｐ５１０）、音読条件を修正したり（図７のＳｔｅｐ５２０）することもできる。

合成音声を試聴して依頼データが確定すると、オペレータ操作により依頼データをアップロードする（図７のＳｔｅｐ５６０）。また、情報管理サーバ２００から複数の候補話者が提示される場合、ユーザはこれら候補話者の中から所望の話者（つまり、選定話者）を選定することができる（図７のＳｔｅｐ５６０）。

選定話者を選定するにあたっては、既述したとおり話者選定手段３０３が用いられる。例えばこの話者選定手段３０３は、情報管理サーバ２００から提示された複数の候補話者をユーザ側表示手段３０８に表示したうえで、オペレータ操作によりユーザ所望の選定話者を選定する仕様とすることができる。このとき、候補話者ごとにその候補話者に関する情報（以下、「候補話者属性情報」という。）をユーザ側表示手段３０８に表示すると、ユーザはより詳しい情報を得たうえで選定話者を選定することができて好適となる。ここで候補話者属性情報としては、依頼単価（１文字当たりにかかる音読費用）や年齢、性別、これまでの依頼実績（依頼内容などを含む）、顧客評価、納期などを挙げることができる。なお納期に関しては、あらかじめ候補話者からヒアリングした納期を登録しておくこともできるし、ユーザから依頼があったタイミング（つまり、依頼データがアップロードされたタイミング）で候補話者にヒアリングたうえでその納期を登録することもできる。

ところで、多数の候補話者がある場合、これらすべてをユーザ側表示手段３０８に表示したのでは、ユーザは選定することが困難になる。そこで、あらかじめユーザが要望する話者としての条件（以下、「話者条件」という。）を入力する（図８のＳｔｅｐ５６１）仕様にするとよい。情報管理サーバ２００側は、ユーザが指定した話者条件に合致する候補話者や、その話者条件に近い候補話者を優先的に表示する（図８のＳｔｅｐ５６３）ことができるわけである。なお話者条件としては、声色や声の高さ、声の強さなどが挙げられ、候補話者属性情報と同様、年齢、性別、顧客評価、実績などを含めることもできる。

また、ユーザ側表示手段３０８に多数の候補話者が表示されることを回避するため、これら候補話者をあらかじめ２以上のグループ（以下、「話者グループ」という。）に分類しておくこともできる。具体的には、声色（落ち着いた声、元気な声、子供っぽい声）に応じた話者グループを設定したり、用途（ビジネス、解説、教育、営業、ナレーション）に応じて話者グループを設定したり、専門性やスキル（専門分野、方言などのスキル）に応じて話者グループを設定したりすることによって、各候補話者をそれぞれ対応する話者グループに分類するわけである。この場合、ユーザ側表示手段３０８に話者グループ（例えば、ビジネス用グループ、解説用グループ、教育用グループ、営業用グループ、ナレーション用グループなど）が表示され、ユーザ側のオペレータが所望の話者グループ（例えば、教育用グループ）を指定すると（図８のＳｔｅｐ５６２）、指定された話者グループに属する各候補話者のみが表示される（図８のＳｔｅｐ５６３）。このとき、話者条件が入力されていれば（図８のＳｔｅｐ５６１）、指定された話者グループに属する各候補話者を、さらに優先順位を付けたうえで表示する（図８のＳｔｅｐ５６３）こともできる。なお話者グループは、候補話者属性情報のうちのひとつの属性情報とすることができる。

ユーザ側表示手段３０８に候補話者が表示されると、ユーザは候補話者の音声を視聴することができる（図８のＳｔｅｐ５６４）。具体的には、オペレータがサンプル音声試聴手段３０７を操作することによって、指定した候補話者のサンプル音声データを読み出して出力する（つまり、再生する）。なおサンプル音声データは、候補話者属性情報のうちのひとつの属性情報とすることができる。またユーザは、指定した候補話者に係る依頼単価（候補話者属性情報）と音読テキスト（特に、文字数）に基づいて計算された依頼費用（いわば、見積もり金額）を算出することもできる（図８のＳｔｅｐ５６５）。そしてユーザは、候補話者属性情報やサンプル音声データ、依頼費用などを参考にしつつ、依頼したい話者を決定し、話者選定手段３０３を操作することで選定話者を選定する（図８のＳｔｅｐ５６６）。ここで選定された選定話者の情報は、情報管理サーバ２００に送信される。

依頼データが情報管理サーバ２００にアップロードされ、選定話者の情報が情報管理サーバ２００に送信されると、ユーザは音読データが完成するのを待つことになる。そして、情報管理サーバ２００から音読データが完成した旨の通知を受けると（図７のＳｔｅｐ５８０）、ユーザ所望のタイミングでオペレータ操作により情報管理サーバ２００から音読データをダウンロードする（図７のＳｔｅｐ５９０）。なおユーザ側端末３００は、音読データを確認したユーザが当該話者を評価した情報（以下、「評価情報」という。）を登録する手段（以下、「話者評価手段」という。）を備えることもできる。この場合、ユーザ側のオペレータが話者評価手段を操作することによって評価情報（つまり、候補話者属性情報としての顧客評価や、話者条件としての客評価）を入力すると情報管理サーバ２００に送信され、その評価情報は候補話者情報記憶手段２０６に記憶される。

次に、主に情報管理サーバ２００に係る音読データ生成システム１００の主な処理について、図９を参照しながら説明する。図９は、主に情報管理サーバ２００に係る処理の流れを示すフロー図であり、中央の列に実行する処理（操作）を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。

まず情報管理サーバ２００側では、依頼データがアップロードされるとこの依頼データを依頼データ記憶手段２０４に記憶する。また、ユーザ側端末３００によって話者条件や話者グループが指定された場合は、ユーザに対して優先的に提示する候補話者（以下、「優先候補者」という。）を選出する（図９のＳｔｅｐ６１０）。具体的には、話者サジェスト手段２０３が候補話者情報記憶手段２０６に照会することによって、ユーザによって指定された話者グループに属する候補話者を優先候補者として選出し、ユーザが指定した話者条件に合致する（あるいは近似する）候補話者を優先候補者として選出する。あるいは、さらに話者サジェスト手段２０３が依頼履歴情報記憶手段２０７を照会することによって、今回の依頼内容（依頼データ）と同様の音読実績がある候補話者を優先候補者として選出する仕様とすることもできる。このとき、話者条件に近い候補話者ほど高い優先順としたり、今回の依頼内容に近い実績を有する候補話者ほど高い優先順としたりするなど、複数の候補話者に対して優先順位を付与することもできる。

そしてユーザが依頼したい話者を決定し、情報管理サーバ２００が選定話者の情報を受信すると（図９のＳｔｅｐ６２０）、依頼があった旨と依頼データ（以下、これらを合わせて「発注依頼情報」という。）が選定結果通知手段２０２によって当該選定話者に通知される（図９のＳｔｅｐ６３０）。選定話者に発注依頼情報が通知されると、選定話者から受注するか否かの回答を待ち、受注可能であるとの回答であれば（図９のＳｔｅｐ６４０のＹｅｓ）次の処理に進む。一方、選定話者から受注不可であるとの回答をうけたとき（図９のＳｔｅｐ６４０のＮｏ）は、ユーザに対してその旨を通知するとともに、改めて優先候補者を選出し、再度ユーザに選定話者を選定させる。

選定話者から受注可能の回答を受けると、情報管理サーバ２００は音読データが完成するのを待つことになる。そして、話者側端末４００によって音読データがアップロードされると（図９のＳｔｅｐ６５０）、音読データが完成した旨をユーザ側端末３００に対して通知する（図９のＳｔｅｐ６６０）。

続いて、主に話者側端末４００に係る音読データ生成システム１００の主な処理について、図１０を参照しながら説明する。図１０は、主に話者側端末４００に係る処理の流れを示すフロー図であり、中央の列に実行する処理（操作）を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。

まず話者側端末４００側では、情報管理サーバ２００からの発注依頼情報の通知を待つ。そして、発注依頼情報が通知されると（図１０のＳｔｅｐ７１０）、依頼データをダウンロードし（図１０のＳｔｅｐ７２０）、ユーザによって話者条件が指定されているときはこの話者条件も受信する。ユーザによって選定された話者（つまり、選定話者）は、依頼データや話者条件などを含めて検討し、当該依頼の受注可否を情報管理サーバ２００に対して通知する（図１０のＳｔｅｐ７３０）。このとき、依頼データに基づいて生成される合成音声を、話者が試聴することができる仕様とすることもできる。この場合、話者側端末４００にも合成音声が音声生成手段３０５と合成音声試聴手段３０６と同様の手段を備えるとよい。

受注可能の回答を通知した場合、選定話者は依頼データに記録された音読条件にしたがって依頼データに記録された音読テキストを音読し、音読データ生成手段４０１が音読データを生成する（図１０のＳｔｅｐ７４０）。音読データが生成されると、選定話者は音読データ試聴手段４０２によってその音声データを出力し（つまり、再生し）、問題がないことを確認する（図１０のＳｔｅｐ７５０）。もちろんその音読データに納得いかない場合は、繰り返し音読して音読データを生成するとよい。音声データが完成すると、話者側のオペレータ操作により音読データを情報管理サーバ２００にアップロードする（図１０のＳｔｅｐ７６０）。ここでアップロードされた音読データは、情報管理サーバ２００の音読データ記憶手段２０５に記憶される。このとき、音読データを解析したうえで音読データ記憶手段２０５に記憶する仕様とすることもできる。この場合、情報管理サーバ２００が音読データを解析する手段（以下、「音読データ解析手段」という。）を備えることとし、この音読データ解析手段が音読データを解析することによって対応する属性情報を選出するとともに、その属性情報とともに音読データを音読データ記憶手段２０５に記憶させる。この属性情報としては、例えば声色や声の高さ、声の強さといった話者条件を挙げることができる。

ここまでユーザが選定話者を設定する仕様で説明したが、本願発明の音読データ生成システム１００は、話者側から申し出る（いわば、立候補する）仕様とすることもできる。この場合、情報管理サーバ２００の話者サジェスト手段２０３は、申し出があった候補話者に対して優先候補者（優先順位を含む）を選出する。そしてユーザ側のオペレータは、情報管理サーバ２００から提示された候補話者を候補話者属性情報とともにユーザ側表示手段３０８に表示したうえで、オペレータ操作によりユーザ所望の選定話者を選定する。

本願発明の音読データ生成システムは、パワーポイントを利用したプレゼンテーションや、新入社員などに対する業務マニュアルの説明、店舗における呼び込みあるいは商品紹介、商品取扱説明書の解説、飲食店メニューの説明など、様々な場面で利用することができる。本願発明は、例えば声優活躍する場を広げ、ひいては多くの者の雇用維持に寄与することを考えれば、産業上利用できるばかりでなく社会的にも大きな貢献が期待できる発明といえる。

１００本願発明の音読データ生成システム
２００（音読データ生成システムの）情報管理サーバ
２０１（情報管理サーバの）サーバ側送受信手段
２０２（情報管理サーバの）選定結果通知手段
２０３（情報管理サーバの）話者サジェスト手段
２０４（情報管理サーバの）依頼データ記憶手段
２０５（情報管理サーバの）音読データ記憶手段
２０６（情報管理サーバの）候補話者情報記憶手段
２０７（情報管理サーバの）依頼履歴情報記憶手段
３００（音読データ生成システムの）ユーザ側端末
３０１（ユーザ側端末の）音読条件設定手段
３０２（ユーザ側端末の）依頼データ生成手段
３０３（ユーザ側端末の）話者選定手段
３０４（ユーザ側端末の）スライド音声出力手段
３０５（ユーザ側端末の）合成音声生成手段
３０６（ユーザ側端末の）合成音声試聴手段
３０７（ユーザ側端末の）サンプル音声試聴手段
３０８（ユーザ側端末の）ユーザ側表示手段
３０９（ユーザ側端末の）ユーザ側送受信手段
４００（音読データ生成システムの）話者側端末
４０１（話者側端末の）音読データ生成手段
４０２（話者側端末の）音読データ試聴手段
４０３（話者側端末の）録音側表示手段
４０４（話者側端末の）録音側送受信手段

Claims

ユーザによる音読依頼に基づいて、話者の音読を記録した音読データを生成するシステムであって、
オペレータ操作によって、ユーザが指定したテキストを話者が音読する際の音読条件を設定する音読条件設定手段と、
前記テキストと前記音読条件が記録された依頼データを生成する依頼データ生成手段と、
話者が前記音読条件にしたがって前記テキストを音読した音声が記録された前記音読データを生成する音読データ生成手段と、
複数のスライドを遷移させるアプリケーションソフトウェアで作成されたスライド式ファイルに対して、該スライドごとに前記音読データを出力するスライド音声出力手段と、を備え、
複数の前記スライドには、それぞれ前記テキストが割り当てられ、
オペレータが前記音読条件設定手段を操作することによって、前記スライドごとに前記音読条件が設定され、
前記依頼データ生成手段は、前記スライドごとに前記依頼データを生成し、
前記音読データ生成手段は、前記スライドごとに前記音読データを生成し、
前記スライド音声出力手段は、遷移して表示された前記スライドに対応する前記音読データを出力する、
ことを特徴とする音読データ生成システム。
前記音読データは、情報管理サーバに記憶され、
話者側に配置された話者側端末は、オペレータ操作によって、前記情報管理サーバから前記依頼データをダウンロードするとともに、該情報管理サーバに前記音読データをアップロードすることができ、
ユーザ側に配置されたユーザ側端末は、オペレータ操作によって、前記情報管理サーバから前記音読データをダウンロードすることができる、
ことを特徴とする請求項１記載の音読データ生成システム。
前記音読条件設定手段は、前記音読条件として、前記テキストに対して句点で区切られたセンテンスごとに音読速度を設定し得る、
ことを特徴とする請求項１又は請求項２記載の音読データ生成システム。
前記音読条件設定手段は、前記音読条件として、音読の際における強弱、抑揚、及び無発声を設定し得る、
ことを特徴とする請求項１乃至請求項３のいずれかに記載の音読データ生成システム。
ユーザが、音読させる話者を選定する話者選定手段を、さらに備え、
前記話者選定手段は、複数の話者候補をそれぞれの属性ととともに表示し、表示された複数の話者候補の中から話者を選定し得る、
ことを特徴とする請求項１乃至請求項４のいずれかに記載の音読データ生成システム。
前記話者選定手段は、話者候補の属性として依頼単価を表示する、
ことを特徴とする請求項５記載の音読データ生成システム。
あらかじめ複数の話者候補が２以上の話者グループに分類され、
前記話者選定手段は、前記話者グループごとに分けて話者候補を表示する、
ことを特徴とする請求項５又は請求項６記載の音読データ生成システム。
話者候補の音声が記録されたサンプル音声データが、あらかじめ記録され、
前記話者選定手段は、ユーザが指定した話者候補のサンプル音声を出力する、
ことを特徴とする請求項５乃至請求項７のいずれかに記載の音読データ生成システム。