JP7082440B1 - 音読データ生成システム - Google Patents

音読データ生成システム Download PDF

Info

Publication number
JP7082440B1
JP7082440B1 JP2021141334A JP2021141334A JP7082440B1 JP 7082440 B1 JP7082440 B1 JP 7082440B1 JP 2021141334 A JP2021141334 A JP 2021141334A JP 2021141334 A JP2021141334 A JP 2021141334A JP 7082440 B1 JP7082440 B1 JP 7082440B1
Authority
JP
Japan
Prior art keywords
speaker
reading
data
aloud
reading aloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021141334A
Other languages
English (en)
Other versions
JP2023003371A (ja
Inventor
司 黒岩
貴志 増子
茉璃乃 横山
Original Assignee
株式会社スペースファクトリー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社スペースファクトリー filed Critical 株式会社スペースファクトリー
Priority to JP2021141334A priority Critical patent/JP7082440B1/ja
Application granted granted Critical
Publication of JP7082440B1 publication Critical patent/JP7082440B1/ja
Publication of JP2023003371A publication Critical patent/JP2023003371A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】本願発明の課題は、従来技術が抱える問題を解決することであり、すなわち従来手法に比べて簡易かつ迅速に話者(例えば、声優など)に音読を依頼するとともに、その録音データを生成することができる音読データ生成システムを提供することである。【解決手段】本願発明の音読データ生成システムは、ユーザによる音読依頼に基づいて、話者の音読を記録した音読データを生成するシステムであって、音読条件設定手段と依頼データ生成手段、音読データ生成手段を備えたものである。このうち音読条件設定手段は、オペレータ操作によって話者がテキストを音読する際の音読条件を設定する手段である。また音読データ生成手段は、話者が音読条件にしたがってテキストを音読した音声が記録された音読データを生成する手段である。【選択図】図3

Description

本願発明は、話者に音読を依頼する技術であり、より具体的には、依頼者が指定した条件にしたがって話者が音読し、その音声が記録されたデータを依頼者に提供する音読データ生成システムに関するものである。
従来、他者に対して何らかの説明を行うにあたっては、文字や図画、動画などを用いるのが主流であった。例えば商品等を広告するケースでは、チラシや新聞折り込みなど文字や写真を中心とした紙媒体で説明したり、ウェブサイトを利用して文字や図画による静止画面で説明したり、あるいはテレビやインターネットを利用して動画で説明したりすることが多かった。また、学校などの教育現場や新入社員向けの研修場面などではパワーポイント(登録商標)といったスライド資料を表示しつつ口頭による説明を行うこともあり、ビジネスの場面では紙資料を相手に渡したうえで口頭による説明を行うこともあった。
ところで、チラシや新聞折り込み、ウェブサイトの静止画などは、利用者がその内容を読んで理解する必要があるため、利用者によるいわば能動的な行動が求められる。これに対して、パワーポイントや営業資料を用いた口頭説明では、利用者はいわば受動的な姿勢で情報を入手することができ、同様に、動画による説明でもやはり受動的な姿勢で情報を入手することができる。すなわち、音声を伴う説明の方が利用者にとっての労が少なく、また音声を伴うこと(例えば、本の読み聞かせなど)でその理解が促進することも知られている。
しかしながら、パワーポイントや営業資料による口頭説明は、説明者の負担が大きく、また再現性も確保されないため重要な説明が脱落するおそれすらある。一方、動画による説明は、説明者が不要であって再現性も確保されるものの、その製作に掛かる手間やコストが負担となる。そこで、パワーポイントや営業資料による口頭説明を事前に録音することが考えられる。例えば、その録音を再生しながらパワーポイントを表示し、新入社員に対して業務マニュアルや社則などを説明するわけである。ただしこの場合、説明側のいずれかの者が自ら録音することとなり、抑揚や強調、音読速度、感情的表現などいわば音読技術(ナレーション技術)として不十分となることが避けられず、換言すれば高い品質のナレーションを提供することができない。
説明者自身による録音を回避したい場合、合成音声を利用することも考えられる。近年、合成音声に係る技術は飛躍的に発展しており、合成音声に関する新たな技術も種々提案されているところである。例えば特許文献1では、与えられたテキストに対して合成音声化すべきか否かを判断したうえで、テキストに対応する合成音声データを生成する技術について提案している。
特開2018-004977号公報
特許文献1に開示される技術のような合成音声は、当然ながら人が発生する肉声ではない。したがって合成音声は機械的な印象を拭うことができず、やはり肉声による説明の方が訴求力ははるかに上回る。とはいえ、ナレーションの訓練を経験していない者が音声録音を行うと、上述したように高品質のナレーションを提供することができない。声優やアナウンサーなど高度なナレーション技術を有する者に依頼することも考えられるが、声優等に依頼する手順はあまり知られていないうえに思った以上に煩雑であり、また録音データの納品までに相当の時間を要し、さらに費用の把握が難しく最終的に予算以上の金額が請求されるといった問題があった。
本願発明の課題は、従来技術が抱える問題を解決することであり、すなわち従来手法に比べて簡易かつ迅速に話者(例えば、声優など)に音読を依頼するとともに、その録音データを生成することができる音読データ生成システムを提供することである。
本願発明は、依頼者がテキストと音読条件(テキストを音読する条件)からなるいわば音読用の設計書を話者に送信し、話者がその設計書にしたがって音読した音読データを依頼者に提供する、という点に着目したものであり、従来にはなかった発想に基づいてなされた発明である。
本願発明の音読データ生成システムは、ユーザ(依頼者)による音読依頼に基づいて、話者の音読を記録した音読データを生成するシステムであって、音読条件設定手段と依頼データ生成手段、音読データ生成手段を備えたものである。このうち音読条件設定手段は、オペレータ操作によって話者がテキスト(ユーザが指定したテキスト)を音読する際の音読条件を設定する手段であり、依頼データ生成手段は、テキストと音読条件が記録された依頼データを生成する手段である。また音読データ生成手段は、話者が音読条件にしたがってテキストを音読した音声が記録された音読データを生成する手段である。
本願発明の音読データ生成システムは、音読データが情報管理サーバに記憶されたものとすることもできる。この場合、話者側に配置された話者側端末は、情報管理サーバから依頼データをダウンロードするとともに情報管理サーバに音読データをアップロードする。一方、ユーザ側に配置されたユーザ側端末は、情報管理サーバから音読データをダウンロードする。
本願発明の音読データ生成システムは、音読条件として音読速度を設定し得るものとすることもできる。この場合、テキストに対して句点で区切られたセンテンスごとに、それぞれ音読速度が設定される。
本願発明の音読データ生成システムは、音読条件として強弱、抑揚、及び無発声(いわゆる、「間」)を設定し得るものとすることもできる。
本願発明の音読データ生成システムは、ユーザが音読させる話者を選定する話者選定手段をさらに備えたものとすることもできる。この場合、話者選定手段は、複数の話者候補をそれぞれの属性とともに表示し、表示された複数の話者候補の中からユーザが所望の話者を選定することができる。
本願発明の音読データ生成システムは、話者候補の属性として依頼単価を表示するものとすることもできる。
本願発明の音読データ生成システムは、あらかじめ複数の話者候補が2以上の話者グループに分類され、この話者グループごとに分けて話者候補を表示するものとすることもできる。
本願発明の音読データ生成システムは、ユーザが指定した話者候補のサンプル音声を出力するものとすることもできる。この場合、あらかじめ話者候補の音声が記録されたサンプル音声データが記録される。
本願発明の音読データ生成システムは、スライド音声出力手段をさらに備えたものとすることもできる。このスライド音声出力手段は、スライド式ファイルに対してスライドごとに音読データを出力する手段である。ここでスライド式ファイルとは、複数のスライドを遷移させるアプリケーションソフトウェア(例えば、パワーポイント)で作成されたファイルのことである。この場合、複数のスライドにはそれぞれテキストが割り当てられ、オペレータが音読条件設定手段を操作することによってスライドごとに音読条件が設定され、依頼データ生成手段がスライドごとに依頼データを生成し、さらに音読データ生成手段がスライドごとに音読データを生成する。そしてスライド式ファイルを起動すると、スライド音声出力手段が、遷移して表示されたスライドに対応する音読データを出力する。
本願発明の音読データ生成システムには、次のような効果がある。
(1)声優など高いナレーション技術を有する話者に音読の依頼を行うにあたって、ユーザは従来の手順に比べて容易に依頼することができる。
(2)声優などに音読を依頼する結果、ユーザは高品質のナレーションなどを得ることができる。
(3)依頼手順が容易になる結果、ユーザは従来の手法に比べて迅速に音読結果を得ることができる。
(4)声優が録音する際のスタジオを用意する必要がなく、ユーザは従来の手法に比べて低コストで音読結果を得ることができる。
本願発明の音読データ生成システムの主な構成を示すブロック図。 情報管理サーバとユーザ側端末、話者側端末を利用して構成された本願発明の音読データ生成システムを模式的に示すモデル図。 情報管理サーバとユーザ側端末、話者側端末を利用した場合の音読データ生成システムの主な構成を示すブロック図。 スライドごとに生成されるスライド式ファイル用の依頼データと、スライドごとに生成されるスライド式ファイル用の音読データを、模式的に示すモデル図。 ユーザ用アプリケーションのUI画面の例を示すUI図。 話者用アプリケーションのUI画面の例を示すUI図。 主にユーザ側端末に係る音読データ生成システムの処理の流れを示すフロー図。 主にユーザ側端末に係る音読データ生成システムの処理のうち、特に候補話者の中から選定話者を選定する処理の流れを示すフロー図。 主に情報管理サーバ係る処理の流れを示すフロー図。 主に話者側端末係る処理の流れを示すフロー図。
本願発明の音読データ生成システムの実施の例を、図に基づいて説明する。本願発明の音読データ生成システムは、ナレーション等の経験が豊富でない者(以下、音読を依頼する者のことを単に「ユーザ」という。)が特定の話者に対して音読を依頼する際に、特に有効に利用することができる。ここで話者とは、音読を依頼される者であって、例えば声優やアナウンサー、ナレーター、俳優、司会を業とする者、DJ(Disc Jockey)、落語家など、高いナレーション技術や会話スキルを有する者を選定するとよい。
図1は、本願発明の音読データ生成システム100の主な構成を示すブロック図である。この図に示すように本願発明の音読データ生成システム100は、音読条件設定手段301と依頼データ生成手段302、音読データ生成手段401を含んで構成される。ユーザは、音読を希望する文面(文章)を用意するとともに、この文面をデータ化したテキスト(以下、「音読テキスト」という。)を作成したうえで、音読条件設定手段301によって音読テキストを音読する際の条件(以下、「音読条件」という。)を設定する。これにより依頼データ生成手段302が、音読テキストと音読条件を記録したデータ(以下、「依頼データ」という。)を生成する。そして、この依頼データを受け取った話者は音読条件にしたがって音読テキストを音読し、音読データ生成手段401がその音声を記録した(つまり、録音した)データ(以下、「音読データ」という。)を生成する。なおここでデータとは、電子的方式や磁気的方式、そのほか人の知覚によって認識することができない方式で作られる記録であって、電子計算機(コンピュータ)による情報処理の用に供される電磁的記録を含むものである。
本願発明の音読データ生成システム100は、図2に示すように情報管理サーバ200とユーザ側端末300、話者側端末400を利用して構成することもできる。この情報管理サーバ200は、音読データ生成システム100で扱われる種々の情報を集約するサーバであり、有線や無線などの電気通信回線を通じて複数(図では3機)のユーザ側端末300と、複数(図では3機)の話者側端末400と通信可能とされる。したがって音読データ生成システム100は、例えばクラウド上に構築したクラウドサーバとするとよい。
一方、ユーザ側端末300は、ユーザ側に配置される端末機器であり、例えばスマートフォンやPC(Personal Computer)などのコンピュータ装置を利用することができる。ユーザは、このユーザ側端末300を用いて依頼データを生成し、話者に対して音読を依頼する。これに対して話者側端末400は、ユーザ側に配置される端末機器であり、やはりスマートフォンやPCなどのコンピュータ装置を利用することができる。ユーザから依頼を受けた話者は、この話者側端末400を用いて依頼データを受け取るとともに音読データを生成する。
図2に示すように情報管理サーバ200とユーザ側端末300、話者側端末400を利用する場合、音読データ生成システム100は図3に示す構成とすることができる。以下、主な構成要素についてそれぞれ機器ごとに詳しく説明する。
(ユーザ側端末)
ユーザ側端末300は、音読条件設定手段301と依頼データ生成手段302、話者選定手段303、スライド音声出力手段304、合成音声生成手段305、合成音声試聴手段306、サンプル音声試聴手段307、ユーザ側表示手段308、ユーザ側送受信手段309を含んで構成することができる。
音読条件設定手段301は、既述したとおりオペレータが操作することによって音読条件を設定するものである。なお、ユーザ本人がオペレータとして音読条件設定手段301を操作することもできるし、ユーザから依頼された他の者がオペレータとして音読条件設定手段301を操作することもできる。ここで設定される音読条件としては、音読テキストを音読する際の速度(以下、「音読速度」という。)や、強弱をつけるべき箇所、箇所ごとの抑揚、無発声とすべき箇所(いわゆる「間」)とその長さ、声色などを挙げることができ、そのほか音読する際に用いる言語(海外語)や方言、特定の漢字に対して読ませたい「ルビ」なども挙げることができる。また音読条件設定手段301は、句点(。)で区切られた一文(センテンス)ごとに音読条件(特に、音読速度)を設定することもできる。
音読条件設定手段301は、オペレータが液晶ディスプレイなどのユーザ側表示手段308に表示された音読テキストを確認しながら音読条件を設定することができる仕様にするとよい。また、この場合の音読条件設定手段301は、音読テキストを入力する機能を備えるとよい。例えば、キーボード等を操作することによって所望の音読テキストを記入したり、別に用意した音読テキストを取り込んだり、あるいはあらかじめ用意された標準的な音読テキストを選択したりすることで、音読テキストを入力するわけである。
依頼データ生成手段302は、既述したとおり音読テキストと音読条件が記録された依頼データを生成するものである。そして、ここで生成された依頼データは、オペレータ操作によりユーザ側送受信手段309を介して情報管理サーバ200にアップロードされる。
合成音声生成手段305は、音読条件設定手段301で入力された音読テキストに対して合成音声を生成する手段である。ここで生成された合成音声はユーザ側端末300内に記憶される。なお音読条件設定手段301は、従来用いられている種々の合成音声技術を利用して合成音声を生成することができる。これに対して合成音声試聴手段306は、音読条件設定手段301によって生成された合成音声を出力する(つまり、再生する)手段である。具体的には、オペレータが合成音声試聴手段306を操作することによって、所定の合成音声が読み出されるとともに、スマートフォンやPCが具備するスピーカー機能を利用してその合成音声が出力される。
話者選定手段303は、話者となり得る複数の候補者(以下、「候補話者」という。)の中から、ユーザが所望する話者を選定する手段である。なお、これら候補話者は情報管理サーバ200から提示される。サンプル音声試聴手段307は、候補話者がそれぞれ事前に録音したいわばデモンストレーション用の音声(以下、「サンプル音声データ」という。)を出力する(つまり、再生する)手段である。具体的には、オペレータがサンプル音声試聴手段307を操作することによって、所定の候補話者に係るサンプル音声データが読み出されるとともに、スマートフォンやPCが具備するスピーカー機能を利用してそのサンプル音声データが出力される。
スライド音声出力手段304は、「スライド式ファイル」に対して音読データを出力する(つまり、再生する)手段である。ここでスライド式ファイルとは、複数のスライドを遷移させるアプリケーションソフトウェアで作成されたファイルのことであり、その代表的な例としてパワーポイントを挙げることができる。スライド音声出力手段304は、スライド式ファイルのスライドが遷移するたびに、当該スライドに対応した音読データを出力する。より詳しくは、スライド式ファイルを起動し、このスライド式ファイルが具備する機能を用いてオペレータがスライドを遷移させると、その遷移信号を受けたスライド音声出力手段304が遷移後のスライドに係る音読データを出力していくわけである。したがって図4に示す(この図では8スライドからなるスライド式ファイルを示す)ように、スライド式ファイル用の依頼データはスライドごとに生成され、当然ながらスライド式ファイル用の音読データもスライドごとに生成される。
ユーザ側端末300を構成する音読条件設定手段301と依頼データ生成手段302、話者選定手段303、スライド音声出力手段304、合成音声生成手段305、合成音声試聴手段306、サンプル音声試聴手段307は、ひとつのアプリケーションソフトウェア(以下、便宜上「ユーザ用アプリケーション」という。)として構築することもできる。図5は、ユーザ用アプリケーションのUI(ユーザインターフェース)画面の例を示すUI図である。この場合、ユーザ側端末300に格納した(例えば、情報管理サーバ200からダウンロードした)ユーザ用アプリケーションをユーザ側のオペレータが操作する仕様とすることもできるし、情報管理サーバ200に格納されたユーザ用アプリケーションにアクセスしたうえでユーザ側のオペレータが操作する仕様とすることもできる。
(情報管理サーバ)
情報管理サーバ200は、図3に示すようにサーバ側送受信手段201と選定結果通知手段202、話者サジェスト手段203、依頼データ記憶手段204、音読データ記憶手段205、候補話者情報記憶手段206、依頼履歴情報記憶手段207を含んで構成することができる。
サーバ側送受信手段201は、ユーザ側端末300からアップロードされた依頼データを受信したり、話者側端末400からアップロードされた音読データを受信したり、話者側端末400に対して依頼データを送信したり、ユーザ側端末300に対して音読データを送信したりするなど、情報管理サーバ200とユーザ側端末300や話者側端末400の間でデータ等を送受信する手段である。
選定結果通知手段202は、候補話者の中からユーザが選定した話者(以下、「選定話者」という。)に対して、選定された旨の情報とともに依頼データを通知する手段である。ところで、ユーザが所望の話者のタイプを指定することもあり、あるいは選定話者がその依頼を引き受けることができない場合もある。この場合、話者サジェスト手段203が、ユーザ(ユーザ側端末300)に対して他の候補話者を提示する仕様にするとよい。ユーザは、話者サジェスト手段203によっていわば推薦された候補話者を新たに選定話者として選定することができるわけである。
依頼データ記憶手段204は、ユーザ側端末300からアップロードされた依頼データを、ユーザごとであって依頼案件ごとに記憶する手段である。一方、音読データ記憶手段205は、話者側端末400からアップロードされた音読データを、話者ごとであって依頼案件ごとに記憶する手段である。また候補話者情報記憶手段206は、あらかじめ登録された話者(つまり、候補話者)に関する情報を話者ごとに記憶する手段であり、依頼履歴情報記憶手段207は、過去の依頼に関する情報を依頼案件ごとに記憶する手段である。
(話者側端末)
話者側端末400は、図3に示すように音読データ生成手段401と音読データ試聴手段402、録音側表示手段403、録音側送受信手段404を含んで構成することができる。このうち音読データ生成手段401は、既述したとおり話者が音読条件にしたがって音読テキストを音読した音声を記録した音読データを生成する手段である。ここで生成された音読データは、話者側端末400内に記憶され、そしてオペレータ操作によりユーザ側録音側送受信手段404を介して情報管理サーバ200にアップロードされる。
音読データ試聴手段402は、音読データ生成手段401によって生成された音読データを出力する(つまり、再生する)手段である。具体的には、話者側のオペレータ(話者本人、あるいは話者から依頼された他の者)が音読データ試聴手段402を操作することによって、音声データが読み出されるとともに、スマートフォンやPCが具備するスピーカー機能を利用してその音声データが出力される。また録音側表示手段403は、話者側端末400が具備する液晶ディスプレイといった出力手段である。
話者側端末400を構成する音読データ生成手段401と音読データ試聴手段402は、ひとつのアプリケーションソフトウェア(以下、便宜上「話者用アプリケーション」という。)として構築することもできる。図6は、話者用アプリケーションのUI(ユーザインターフェース)画面の例を示すUI図である。この場合、話者側端末400に格納した(例えば、情報管理サーバ200からダウンロードした)話者用アプリケーションを話者側のオペレータが操作する仕様とすることもできるし、情報管理サーバ200に格納された話者用アプリケーションにアクセスしたうえで話者側のオペレータが操作する仕様とすることもできる。
(処理の流れ)
続いて、本願発明の音読データ生成システム100の主な処理の流れについて、図7~図10を参照しながら説明する。
はじめに、主にユーザ側端末300に係る音読データ生成システム100の主な処理について、図7と図8を参照しながら説明する。図7は、主にユーザ側端末300に係る処理の流れを示すフロー図であり、図8は、主にユーザ側端末300に係る処理のうち特に候補話者の中から選定話者を選定する処理の流れを示すフロー図である。なお図7と図8では、中央の列に実行する処理(操作)を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。
まずユーザ側では、依頼する音読用の文面を用意するともに、オペレータがこの文面に基づく音読テキストを、例えば音読条件設定手段301を用いて入力していく(図7のStep510)。またユーザ側のオペレータは、音読条件設定手段301を操作することによって、音読テキストに対して音読条件を設定する(図7のStep520)。このとき、音読速度や強弱、抑揚、間、声色、音読用の言語あるいは方言、ルビなどを音読条件として設定することができることは既述したとおりである
音読条件が設定されると、音読テキストと音読条件が記録された依頼データが依頼データ生成手段302によって生成され(図7のStep530)、さらにこの依頼データに基づく合成音声が音声生成手段305によって生成される(図7のStep540)。そしてユーザは、合成音声試聴手段306を操作することでその合成音声を試聴する(図7のStep550)ことができ、すなわち最終的に得られる音読データをイメージすることができる。ここでユーザは、合成音声を試聴した結果、音読テキストを修正したり(図7のStep510)、音読条件を修正したり(図7のStep520)することもできる。
合成音声を試聴して依頼データが確定すると、オペレータ操作により依頼データをアップロードする(図7のStep560)。また、情報管理サーバ200から複数の候補話者が提示される場合、ユーザはこれら候補話者の中から所望の話者(つまり、選定話者)を選定することができる(図7のStep560)。
選定話者を選定するにあたっては、既述したとおり話者選定手段303が用いられる。例えばこの話者選定手段303は、情報管理サーバ200から提示された複数の候補話者をユーザ側表示手段308に表示したうえで、オペレータ操作によりユーザ所望の選定話者を選定する仕様とすることができる。このとき、候補話者ごとにその候補話者に関する情報(以下、「候補話者属性情報」という。)をユーザ側表示手段308に表示すると、ユーザはより詳しい情報を得たうえで選定話者を選定することができて好適となる。ここで候補話者属性情報としては、依頼単価(1文字当たりにかかる音読費用)や年齢、性別、これまでの依頼実績(依頼内容などを含む)、顧客評価、納期などを挙げることができる。なお納期に関しては、あらかじめ候補話者からヒアリングした納期を登録しておくこともできるし、ユーザから依頼があったタイミング(つまり、依頼データがアップロードされたタイミング)で候補話者にヒアリングたうえでその納期を登録することもできる。
ところで、多数の候補話者がある場合、これらすべてをユーザ側表示手段308に表示したのでは、ユーザは選定することが困難になる。そこで、あらかじめユーザが要望する話者としての条件(以下、「話者条件」という。)を入力する(図8のStep561)仕様にするとよい。情報管理サーバ200側は、ユーザが指定した話者条件に合致する候補話者や、その話者条件に近い候補話者を優先的に表示する(図8のStep563)ことができるわけである。なお話者条件としては、声色や声の高さ、声の強さなどが挙げられ、候補話者属性情報と同様、年齢、性別、顧客評価、実績などを含めることもできる。
また、ユーザ側表示手段308に多数の候補話者が表示されることを回避するため、これら候補話者をあらかじめ2以上のグループ(以下、「話者グループ」という。)に分類しておくこともできる。具体的には、声色(落ち着いた声、元気な声、子供っぽい声)に応じた話者グループを設定したり、用途(ビジネス、解説、教育、営業、ナレーション)に応じて話者グループを設定したり、専門性やスキル(専門分野、方言などのスキル)に応じて話者グループを設定したりすることによって、各候補話者をそれぞれ対応する話者グループに分類するわけである。この場合、ユーザ側表示手段308に話者グループ(例えば、ビジネス用グループ、解説用グループ、教育用グループ、営業用グループ、ナレーション用グループなど)が表示され、ユーザ側のオペレータが所望の話者グループ(例えば、教育用グループ)を指定すると(図8のStep562)、指定された話者グループに属する各候補話者のみが表示される(図8のStep563)。このとき、話者条件が入力されていれば(図8のStep561)、指定された話者グループに属する各候補話者を、さらに優先順位を付けたうえで表示する(図8のStep563)こともできる。なお話者グループは、候補話者属性情報のうちのひとつの属性情報とすることができる。
ユーザ側表示手段308に候補話者が表示されると、ユーザは候補話者の音声を視聴することができる(図8のStep564)。具体的には、オペレータがサンプル音声試聴手段307を操作することによって、指定した候補話者のサンプル音声データを読み出して出力する(つまり、再生する)。なおサンプル音声データは、候補話者属性情報のうちのひとつの属性情報とすることができる。またユーザは、指定した候補話者に係る依頼単価(候補話者属性情報)と音読テキスト(特に、文字数)に基づいて計算された依頼費用(いわば、見積もり金額)を算出することもできる(図8のStep565)。そしてユーザは、候補話者属性情報やサンプル音声データ、依頼費用などを参考にしつつ、依頼したい話者を決定し、話者選定手段303を操作することで選定話者を選定する(図8のStep566)。ここで選定された選定話者の情報は、情報管理サーバ200に送信される。
依頼データが情報管理サーバ200にアップロードされ、選定話者の情報が情報管理サーバ200に送信されると、ユーザは音読データが完成するのを待つことになる。そして、情報管理サーバ200から音読データが完成した旨の通知を受けると(図7のStep580)、ユーザ所望のタイミングでオペレータ操作により情報管理サーバ200から音読データをダウンロードする(図7のStep590)。なおユーザ側端末300は、音読データを確認したユーザが当該話者を評価した情報(以下、「評価情報」という。)を登録する手段(以下、「話者評価手段」という。)を備えることもできる。この場合、ユーザ側のオペレータが話者評価手段を操作することによって評価情報(つまり、候補話者属性情報としての顧客評価や、話者条件としての客評価)を入力すると情報管理サーバ200に送信され、その評価情報は候補話者情報記憶手段206に記憶される。
次に、主に情報管理サーバ200に係る音読データ生成システム100の主な処理について、図9を参照しながら説明する。図9は、主に情報管理サーバ200に係る処理の流れを示すフロー図であり、中央の列に実行する処理(操作)を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。
まず情報管理サーバ200側では、依頼データがアップロードされるとこの依頼データを依頼データ記憶手段204に記憶する。また、ユーザ側端末300によって話者条件や話者グループが指定された場合は、ユーザに対して優先的に提示する候補話者(以下、「優先候補者」という。)を選出する(図9のStep610)。具体的には、話者サジェスト手段203が候補話者情報記憶手段206に照会することによって、ユーザによって指定された話者グループに属する候補話者を優先候補者として選出し、ユーザが指定した話者条件に合致する(あるいは近似する)候補話者を優先候補者として選出する。あるいは、さらに話者サジェスト手段203が依頼履歴情報記憶手段207を照会することによって、今回の依頼内容(依頼データ)と同様の音読実績がある候補話者を優先候補者として選出する仕様とすることもできる。このとき、話者条件に近い候補話者ほど高い優先順としたり、今回の依頼内容に近い実績を有する候補話者ほど高い優先順としたりするなど、複数の候補話者に対して優先順位を付与することもできる。
そしてユーザが依頼したい話者を決定し、情報管理サーバ200が選定話者の情報を受信すると(図9のStep620)、依頼があった旨と依頼データ(以下、これらを合わせて「発注依頼情報」という。)が選定結果通知手段202によって当該選定話者に通知される(図9のStep630)。選定話者に発注依頼情報が通知されると、選定話者から受注するか否かの回答を待ち、受注可能であるとの回答であれば(図9のStep640のYes)次の処理に進む。一方、選定話者から受注不可であるとの回答をうけたとき(図9のStep640のNo)は、ユーザに対してその旨を通知するとともに、改めて優先候補者を選出し、再度ユーザに選定話者を選定させる。
選定話者から受注可能の回答を受けると、情報管理サーバ200は音読データが完成するのを待つことになる。そして、話者側端末400によって音読データがアップロードされると(図9のStep650)、音読データが完成した旨をユーザ側端末300に対して通知する(図9のStep660)。
続いて、主に話者側端末400に係る音読データ生成システム100の主な処理について、図10を参照しながら説明する。図10は、主に話者側端末400に係る処理の流れを示すフロー図であり、中央の列に実行する処理(操作)を示し、左列にはその処理に必要なデータ等を、右列にはその処理によって生じるデータ等を示している。
まず話者側端末400側では、情報管理サーバ200からの発注依頼情報の通知を待つ。そして、発注依頼情報が通知されると(図10のStep710)、依頼データをダウンロードし(図10のStep720)、ユーザによって話者条件が指定されているときはこの話者条件も受信する。ユーザによって選定された話者(つまり、選定話者)は、依頼データや話者条件などを含めて検討し、当該依頼の受注可否を情報管理サーバ200に対して通知する(図10のStep730)。このとき、依頼データに基づいて生成される合成音声を、話者が試聴することができる仕様とすることもできる。この場合、話者側端末400にも合成音声が音声生成手段305と合成音声試聴手段306と同様の手段を備えるとよい。
受注可能の回答を通知した場合、選定話者は依頼データに記録された音読条件にしたがって依頼データに記録された音読テキストを音読し、音読データ生成手段401が音読データを生成する(図10のStep740)。音読データが生成されると、選定話者は音読データ試聴手段402によってその音声データを出力し(つまり、再生し)、問題がないことを確認する(図10のStep750)。もちろんその音読データに納得いかない場合は、繰り返し音読して音読データを生成するとよい。音声データが完成すると、話者側のオペレータ操作により音読データを情報管理サーバ200にアップロードする(図10のStep760)。ここでアップロードされた音読データは、情報管理サーバ200の音読データ記憶手段205に記憶される。このとき、音読データを解析したうえで音読データ記憶手段205に記憶する仕様とすることもできる。この場合、情報管理サーバ200が音読データを解析する手段(以下、「音読データ解析手段」という。)を備えることとし、この音読データ解析手段が音読データを解析することによって対応する属性情報を選出するとともに、その属性情報とともに音読データを音読データ記憶手段205に記憶させる。この属性情報としては、例えば声色や声の高さ、声の強さといった話者条件を挙げることができる。
ここまでユーザが選定話者を設定する仕様で説明したが、本願発明の音読データ生成システム100は、話者側から申し出る(いわば、立候補する)仕様とすることもできる。この場合、情報管理サーバ200の話者サジェスト手段203は、申し出があった候補話者に対して優先候補者(優先順位を含む)を選出する。そしてユーザ側のオペレータは、情報管理サーバ200から提示された候補話者を候補話者属性情報とともにユーザ側表示手段308に表示したうえで、オペレータ操作によりユーザ所望の選定話者を選定する。
本願発明の音読データ生成システムは、パワーポイントを利用したプレゼンテーションや、新入社員などに対する業務マニュアルの説明、店舗における呼び込みあるいは商品紹介、商品取扱説明書の解説、飲食店メニューの説明など、様々な場面で利用することができる。本願発明は、例えば声優活躍する場を広げ、ひいては多くの者の雇用維持に寄与することを考えれば、産業上利用できるばかりでなく社会的にも大きな貢献が期待できる発明といえる。
100 本願発明の音読データ生成システム
200 (音読データ生成システムの)情報管理サーバ
201 (情報管理サーバの)サーバ側送受信手段
202 (情報管理サーバの)選定結果通知手段
203 (情報管理サーバの)話者サジェスト手段
204 (情報管理サーバの)依頼データ記憶手段
205 (情報管理サーバの)音読データ記憶手段
206 (情報管理サーバの)候補話者情報記憶手段
207 (情報管理サーバの)依頼履歴情報記憶手段
300 (音読データ生成システムの)ユーザ側端末
301 (ユーザ側端末の)音読条件設定手段
302 (ユーザ側端末の)依頼データ生成手段
303 (ユーザ側端末の)話者選定手段
304 (ユーザ側端末の)スライド音声出力手段
305 (ユーザ側端末の)合成音声生成手段
306 (ユーザ側端末の)合成音声試聴手段
307 (ユーザ側端末の)サンプル音声試聴手段
308 (ユーザ側端末の)ユーザ側表示手段
309 (ユーザ側端末の)ユーザ側送受信手段
400 (音読データ生成システムの)話者側端末
401 (話者側端末の)音読データ生成手段
402 (話者側端末の)音読データ試聴手段
403 (話者側端末の)録音側表示手段
404 (話者側端末の)録音側送受信手段

Claims (8)

  1. ユーザによる音読依頼に基づいて、話者の音読を記録した音読データを生成するシステムであって、
    オペレータ操作によって、ユーザが指定したテキストを話者が音読する際の音読条件を設定する音読条件設定手段と、
    前記テキストと前記音読条件が記録された依頼データを生成する依頼データ生成手段と、
    話者が前記音読条件にしたがって前記テキストを音読した音声が記録された前記音読データを生成する音読データ生成手段と、
    複数のスライドを遷移させるアプリケーションソフトウェアで作成されたスライド式ファイルに対して、該スライドごとに前記音読データを出力するスライド音声出力手段と、を備え
    複数の前記スライドには、それぞれ前記テキストが割り当てられ、
    オペレータが前記音読条件設定手段を操作することによって、前記スライドごとに前記音読条件が設定され、
    前記依頼データ生成手段は、前記スライドごとに前記依頼データを生成し、
    前記音読データ生成手段は、前記スライドごとに前記音読データを生成し、
    前記スライド音声出力手段は、遷移して表示された前記スライドに対応する前記音読データを出力する、
    ことを特徴とする音読データ生成システム。
  2. 前記音読データは、情報管理サーバに記憶され、
    話者側に配置された話者側端末は、オペレータ操作によって、前記情報管理サーバから前記依頼データをダウンロードするとともに、該情報管理サーバに前記音読データをアップロードすることができ、
    ユーザ側に配置されたユーザ側端末は、オペレータ操作によって、前記情報管理サーバから前記音読データをダウンロードすることができる、
    ことを特徴とする請求項1記載の音読データ生成システム。
  3. 前記音読条件設定手段は、前記音読条件として、前記テキストに対して句点で区切られたセンテンスごとに音読速度を設定し得る、
    ことを特徴とする請求項1又は請求項2記載の音読データ生成システム。
  4. 前記音読条件設定手段は、前記音読条件として、音読の際における強弱、抑揚、及び無発声を設定し得る、
    ことを特徴とする請求項1乃至請求項3のいずれかに記載の音読データ生成システム。
  5. ユーザが、音読させる話者を選定する話者選定手段を、さらに備え、
    前記話者選定手段は、複数の話者候補をそれぞれの属性ととともに表示し、表示された複数の話者候補の中から話者を選定し得る、
    ことを特徴とする請求項1乃至請求項4のいずれかに記載の音読データ生成システム。
  6. 前記話者選定手段は、話者候補の属性として依頼単価を表示する、
    ことを特徴とする請求項5記載の音読データ生成システム。
  7. あらかじめ複数の話者候補が2以上の話者グループに分類され、
    前記話者選定手段は、前記話者グループごとに分けて話者候補を表示する、
    ことを特徴とする請求項5又は請求項6記載の音読データ生成システム。
  8. 話者候補の音声が記録されたサンプル音声データが、あらかじめ記録され、
    前記話者選定手段は、ユーザが指定した話者候補のサンプル音声を出力する、
    ことを特徴とする請求項5乃至請求項7のいずれかに記載の音読データ生成システム。
JP2021141334A 2021-06-23 2021-08-31 音読データ生成システム Active JP7082440B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021141334A JP7082440B1 (ja) 2021-06-23 2021-08-31 音読データ生成システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021103925 2021-06-23
JP2021141334A JP7082440B1 (ja) 2021-06-23 2021-08-31 音読データ生成システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021103925 Division 2021-06-23 2021-06-23

Publications (2)

Publication Number Publication Date
JP7082440B1 true JP7082440B1 (ja) 2022-06-08
JP2023003371A JP2023003371A (ja) 2023-01-11

Family

ID=87852669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021141334A Active JP7082440B1 (ja) 2021-06-23 2021-08-31 音読データ生成システム

Country Status (1)

Country Link
JP (1) JP7082440B1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290951A (ja) * 2000-04-07 2001-10-19 Best Media:Kk ナレーション配信システム
JP2005077873A (ja) * 2003-09-02 2005-03-24 Hitachi Software Eng Co Ltd 音声コンテンツの提供方法およびシステム
JP2012173770A (ja) * 2011-02-17 2012-09-10 Solid Arts Inc テキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法
KR20200008230A (ko) * 2018-07-16 2020-01-28 박대업 온라인 콘텐츠 플랫폼 기반 보이스 매칭 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290951A (ja) * 2000-04-07 2001-10-19 Best Media:Kk ナレーション配信システム
JP2005077873A (ja) * 2003-09-02 2005-03-24 Hitachi Software Eng Co Ltd 音声コンテンツの提供方法およびシステム
JP2012173770A (ja) * 2011-02-17 2012-09-10 Solid Arts Inc テキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法
KR20200008230A (ko) * 2018-07-16 2020-01-28 박대업 온라인 콘텐츠 플랫폼 기반 보이스 매칭 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"『世界のウェブアーカイブ|ココナラ』", [ONLINE], JPN6021044256, 25 May 2019 (2019-05-25), ISSN: 0004680540 *
『世界のウェブアーカイブ|ココナラ』,[online],coconala Inc.,2019年05月25日,https://web.archive.org/web/20190525133022/https://coconala.com/categories/215,[検索日 2021.10.19]

Also Published As

Publication number Publication date
JP2023003371A (ja) 2023-01-11

Similar Documents

Publication Publication Date Title
US20240054117A1 (en) Artificial intelligence platform with improved conversational ability and personality development
Rogerson-Revell Computer-assisted pronunciation training (CAPT): Current issues and future directions
US10580319B2 (en) Interactive multimedia story creation application
US20040186743A1 (en) System, method and software for individuals to experience an interview simulation and to develop career and interview skills
CN110867177A (zh) 音色可选的人声播放系统、其播放方法及可读记录介质
WO2022184055A1 (zh) 文章的语音播放方法、装置、设备、存储介质及程序产品
US11288976B2 (en) Language fluency system
JP5586754B1 (ja) 情報処理装置及びその制御方法、コンピュータプログラム
CN114048299A (zh) 对话方法、装置、设备、计算机可读存储介质及程序产品
JP7082440B1 (ja) 音読データ生成システム
JP7417261B2 (ja) 学習支援システム及び学習支援プログラム
KR20110056131A (ko) 사용자 정의의 단어 학습 콘텐츠를 제공하는 단어 학습 시스템 및 그 단어 학습 방법
JP2023003402A (ja) 音読支援システム
KR20220136844A (ko) 녹음 또는 녹화를 위한 고객의 사전 동의를 취득하는 방법 및 그 장치
JP6619072B2 (ja) 音合成装置、音合成方法、及びそのプログラム
KR20220136846A (ko) 고객 또는 영업 직원의 음성과 얼굴 이미지를 분석하여 피드백을 주는 방법 및 그 장치
JP2017033376A (ja) 情報処理装置、情報処理方法、および制御プログラム
JP2016151856A (ja) ノート作成支援装置、ノート作成支援方法及びノート作成支援プログラム
JP7367945B1 (ja) 電子コンテンツ配信システム、電子コンテンツ配信プログラム及びアプリケーションプログラム
JP6772782B2 (ja) 情報処理装置、情報処理システム、および情報処理プログラム
US20230230609A1 (en) Training machine learning frameworks to generate studio-quality recordings through manipulation of noisy audio signals
Davies The Songs of Clara Schumann. Stephen Rodgers
Almeida et al. Giving voices to multimodal applications
JP2022157292A (ja) コンテンツ再生制御システム及びプログラム
JP2022142158A (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210902

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220324

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220324

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220406

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220520

R150 Certificate of patent or registration of utility model

Ref document number: 7082440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150