JP2018004977A - 音声合成方法、システム及びプログラム - Google Patents

音声合成方法、システム及びプログラム Download PDF

Info

Publication number
JP2018004977A
JP2018004977A JP2016132220A JP2016132220A JP2018004977A JP 2018004977 A JP2018004977 A JP 2018004977A JP 2016132220 A JP2016132220 A JP 2016132220A JP 2016132220 A JP2016132220 A JP 2016132220A JP 2018004977 A JP2018004977 A JP 2018004977A
Authority
JP
Japan
Prior art keywords
synthesis
text
information
speech
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016132220A
Other languages
English (en)
Inventor
中村 孝
Takashi Nakamura
孝 中村
勇祐 井島
Yusuke Ijima
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016132220A priority Critical patent/JP2018004977A/ja
Publication of JP2018004977A publication Critical patent/JP2018004977A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】テキストを音声合成すべきかどうかと、合成する音声の特徴とを自動的に判断する音声合成技術を提供する。【解決手段】音声合成方法は、テキスト送信部11が、音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信するテキスト送信ステップと、合成実施判断部21が、受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する合成実施判断ステップと、特徴情報推定部22が、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する特徴情報推定ステップと、音声合成部23が、上記合成実施判断ステップにおいて音声合成を行うと判断された場合には、合成テキスト情報及び上記推定された特徴情報に基づいて合成音声を生成する音声合成ステップと、を備えている。【選択図】図1

Description

この発明は、音声合成技術に関する。
音声合成技術は、入力されたテキストから望ましい合成音声を生成する技術であり、従来から様々に研究開発されている。一般に音声合成技術では音声を、声色に相当する音声の音色的特徴(以下、「声質」とも言う。)と、音高に相当する音声の韻律的特徴とに分け、それぞれを表現・生成するモデル(又はデータベース)を用いて合成を実現することが行われる(例えば、非特許文献1参照。)。音声の韻律的特徴を表出させる要素の主たるものとして「話し方」があるが、以下ではこれを口調とする。
近年様々なシステムに音声合成が搭載されており、その1つとして、映像の視聴者が感想や映像出演者へのメッセージなどを投稿したテキスト(以下、「コメント」とも言う。)を音声合成技術によって音声に変換し、生成された音声を映像コンテンツ中に埋め込むというものがある(例えば、非特許文献2参照。)。ユーザの嗜好が多様化・細分化される昨今、比較的容易に映像コンテンツの高度化・多様化の実現が期待でき、特にスマートフォンなどの端末からの映像配信などで映像配信者と視聴者とのインタラクティブなやり取りの実現が期待される。
水野,中嶋,井島,神山,村上,多様性豊かな音声合成技術,NTT技術ジャーナル,2013年3月,pp.29-32. みちあき、[online]、[平成28年6月24日検索]、インターネット〈URL:http://chi.usamimi.info/Program/Application/BouyomiChan/〉 棒読みちゃん
非特許文献2に限らず、個々の合成させたいテキストに対し、声質や口調をいくつかのバリエーションの中から選択させるシステムがあるが、映像における配信者と視聴者間のインタラクティブなやり取りにおいて、テキスト毎に都度選択させることは応答速度の観点から難しい。
また、映像中に合成音声が出力される際の懸念として、映像配信者にとって問題となる内容や公序良俗に反する内容が合成されて映像に流れてしまうという点がある。また、そのような内容でなくても、視聴者が必ずしも合成されることを目的としてコメントを投稿するわけではないため、合成対象のコメントを選別可能である必要がある。
この発明の目的は、テキストを音声合成すべきかどうかと、合成する音声の特徴とを自動的に判断する音声合成方法、装置及びプログラムを提供することである。
この発明の一態様による音声合成方法は、送信者装置のテキスト送信部が、音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信するテキスト送信ステップと、音声合成装置の合成実施判断部が、受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する合成実施判断ステップと、音声合成装置の特徴情報推定部が、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する特徴情報推定ステップと、音声合成装置の音声合成部が、上記合成実施判断ステップにおいて音声合成を行うと判断された場合には、合成テキスト情報及び上記推定された特徴情報に基づいて合成音声を生成する音声合成ステップと、を備えている。
テキストを音声合成すべきかどうかと、合成する音声の特徴とを自動的に判断することができる。
音声合成装置の例を説明するためのブロック図。 特徴情報推定部の例を説明するためのブロック図。 音声合成方法の例を説明するための流れ図。 合成テキスト及び特徴情報の例を示す図。
以下、図面を参照して、この発明の一実施形態について説明する。
音声合成システムは、図1に示すように、送信者装置1及び音声合成装置2を例えば備えている。送信者装置1は、テキスト送信部11を備えている。音声合成装置2は、合成実施判断部21、特徴情報推定部22、音声合成部23及び合成情報送信部24を例えば備えている。
音声合成方法は、音声合成システムの各部が図2及び以下に説明するステップS1からステップS223処理を行うことにより実現される。
<テキスト送信部11>
送信者装置1のテキスト送信部11は、音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信する(ステップS1)。
送信者装置1は、PC、タブレット端末、スマートフォン、携帯電話、PDA等の情報端末である。
合成テキスト情報は、合成テキスト、合成設定情報及び送信者情報を例えば含んでいる。
合成テキストは、ユーザである送信者によりキーボード、タッチパネル等の入力手段を用いて例えば入力される。
合成設定情報は、合成パラメタ(話速、音量、抑揚の大きさ等)、声質情報(音声合成処理部で取り扱うことが可能な声質のID等)、口調情報(音声合成処理部で取り扱うことが可能な口調のID等)、及び、声質・口調を管理部にて推定可能な情報、合成すべきか否かを示す真偽値(以下、「合成可否フラグ」とも言う。)の少なくとも1つを含む情報である。
合成設定情報は、送信者装置1がテキスト設定情報を予め定められた設定変換規則に基づいて変換することにより例えば生成される。
テキスト設定情報は、合成テキストに付与されるメタ情報である。例えば、送信者がログインし、コンテンツを視聴中に入力したテキストを音声合成するようなシステムの場合は、ログイン情報(ユーザID等)を送信者情報として、入力テキストの表示文字色などの情報をテキスト設定情報としてみなすことが可能である。
設定変換規則は、テキスト設定情報から合成設定情報を生成するための変換規則を表す。上記の例では、例えば、入力テキストの表示文字色が桃色であれば声質を女性・口調を喜びに、青色であれば合成可否フラグを偽に設定する、というような規則が考えられる。
<合成実施判断部21>
音声合成装置2の合成実施判断部21は、受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する(ステップS21)。判断結果は、音声合成部23に送信される。判断結果は、送信者装置1に送信されてもよい。
音声合成を行わないと判断された場合は、後述する特徴情報推定部22の処理は行われなくてもよい。
音声合成を行うかどうかの判定処理は、合成設定情報に合成可否フラグが含まれていればその結果をもって判定してもよいし、合成NG単語リスト等が利用できれば、合成テキストに合成NG単語が含まれているか否かをもって判定してもよいし、合成NG送信者リスト等が利用できれば、送信者が合成NG送信者であるか否かをもって判定してもよい。
<特徴情報推定部22>
特徴情報推定部22は、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する(ステップS22)。推定された特徴情報は、音声合成部23に出力される。
特徴情報推定部22は、例えば予め学習された特徴情報推定モデルに基づいて、特徴情報を推定する。特徴情報推定モデルは、後述する口調推定モデル、声質情報推定モデル、合成パラメタ推定モデルのことである。
特徴情報は、口調情報、声質情報及び合成パラメタの少なくとも1つである。特徴情報推定部22は、特徴情報は、口調情報、声質情報及び合成パラメタの少なくとも1つ推定する。
特徴情報推定部22が、特徴情報の1つとして口調情報を推定する場合には、特徴情報推定部22の口調推定部221が、予め学習された口調推定モデルを用いて、口調情報を推定する。
口調情報は、例えば予め定められた複数の口調情報の中の適切な口調情報を示すIDである。
口調モデルは、ニューラルネットワークやサポートベクターマシンなどの統計モデルを用いても良いし、もしくは事前に登録しておいたルールに基づき推定するのでもよい。例えばニューラルネットワークを用いる場合、事前にテキストを何れかの方法にてベクトル化し、ベクトルと口調情報の対を用いてニューラルネットワークの素子間重みを学習しておき、口調推定時は、学習時と同様のベクトル化を入力の合成テキストに施したうえで学習済みのネットワークに入力し、合成テキストの口調を推定する事が考えられる。また、ニューラルネットワークの中でも過去の履歴を利用可能なリカレントニューラルネットワークやLSTM等を用いて、合成テキスト履歴から過去のテキストを使用し、口調情報を推定する方法でも良い。
また、口調推定部221は、合成設定情報として口調情報が指定されている場合は、口調推定モデルを利用せず、指定された口調情報をそのまま出力してもよい。
特徴情報推定部22が、特徴情報の1つとして声質情報を推定する場合には、特徴情報推定部22の声質推定部222が、予め学習された声質推定モデルを用いて、声質情報を推定する。
声質推定部222は、口調推定部221と同様に、ニューラルネットワークやサポートベクターマシンなどの統計モデルを用いて声質情報の推定を行っても良いし、もしくは事前に登録しておいたルールに基づき声質情報を推定してもよい。
声質情報は、例えば予め定められた複数の声質情報の中の適切な声質情報を示すIDである。
また、声質推定部221は、合成設定情報として声質情報が指定されている場合は、声質推定モデルを利用せず、指定された声質情報をそのまま出力してもよい。
特徴情報推定部22が、特徴情報の1つとして合成パラメタを推定する場合には、特徴情報推定部22の合成パラメタ推定部223が、予め学習された合成パラメタ推定モデルを用いて、合成パラメタを推定する。
合成パラメタ部223は、口調推定部221と同様に、ニューラルネットワークやサポートベクターマシンなどの統計モデルを用いて合成パラメタの推定を行っても良いし、もしくは事前に登録しておいたルールに基づき合成パラメタを推定してもよい。
また、合成パラメタ推定部221は、合成設定情報として合成パラメタ情報が指定されている場合は、合成パラメタ推定モデルを利用せず、指定された合成パラメタをそのまま出力してもよい。
特徴情報推定部22は、受信した合成テキスト情報及び特徴情報推定部22で推定した特徴情報を、音声合成部23で受け入れ可能な形式の情報に変換した上で、音声合成部23に出力してもよい。この処理は、例えば合成情報送信部24により行われる。例えば、音声合成部23にWebAPIが用意されている場合、JSON形式のテキストデータを用いて音声合成に必要な情報を伝達することが可能である。
図4に、音声合成部23で受け入れ可能な形式の情報に変換した、合成テキスト及び特徴情報の例を示す。図4では、合成テキスト(Text)、合成パラメタ(話速(Speed)、音量(Volume)を指定)、声質情報(SpeakerID)、口調情報(ToneID)をJSON形式で指定している。
<音声合成部23>
音声合成部23は、合成実施判断部21において音声合成を行うと判断された場合には、受信した合成テキスト情報及び特徴情報推定部22で推定された特徴情報に基づいて合成音声を生成する(ステップS23)。
音声合成部23は、既存の音声合成方法の何れの方法を用いても良い。
音声合成部23で生成された音声波形は、予め設定された音声出力先に出力される。例えば、生成された合成音声を直接ライン出力先(スピーカーやヘッドフォンなど)に音声出力する、映像コンテンツに合成音声をミキシングする、音声ファイルとして保存する、等が考えられる。
音声合成部23による出力は、音声波形だけではなく、任意のデータ変換方式(Base64など)によって音声波形をエンコーディングしたものでもよい。その場合は出力先において、デコーディングがをすることにより音声波形が生成される。
このようにして、例えば、合成させるテキストの内容やテキスト送信者の情報、過去の合成テキストの履歴などから自動で合成音声の声質、口調、合成パラメタを推定し、合成させるべきか否かの判定を行う。これにより、合成させる際の人手による設定指定の手間をかけずに、より目的に合った合成音声を出力することが可能になる。
また、テキスト送信者の指定や合成させるテキスト内容などから、合成すべきでないテキストを自動判別させることで、不適切な内容や合成させる意図のない内容の合成音声の出力を抑止することが可能になる。
[プログラム及び記録媒体]
音声合成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、音声合成装置における各処理をコンピュータによって実現する場合、及び、音声合成方法における各ステップの処理をコンピュータによって実現する場合、音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims (5)

  1. 送信者装置のテキスト送信部が、音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信するテキスト送信ステップと、
    音声合成装置の合成実施判断部が、受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する合成実施判断ステップと、
    音声合成装置の特徴情報推定部が、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する特徴情報推定ステップと、
    音声合成装置の音声合成部が、上記合成実施判断ステップにおいて音声合成を行うと判断された場合には、合成テキスト情報及び上記推定された特徴情報に基づいて合成音声を生成する音声合成ステップと、
    を含む音声合成方法。
  2. 請求項1の音声合成方法において、
    上記特徴情報推定ステップは、予め学習された特徴情報推定モデルに基づいて、上記特徴情報を推定する、
    音声合成方法。
  3. 請求項1の音声合成方法において、
    上記特徴情報は、口調情報、声質情報及び合成パラメタの少なくとも1つである、
    音声合成方法。
  4. 音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信するテキスト送信部を含む送信者装置と、
    受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する合成実施判断部と、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する特徴情報推定部と、上記合成実施判断部において音声合成を行うと判断された場合には、合成テキスト情報及び上記推定された特徴情報に基づいて合成音声を生成する音声合成部と、を含む音声合成装置と、
    を含む音声合成システム。
  5. 請求項4の音声合成装置の各部としてコンピュータを機能させるためのプログラム。
JP2016132220A 2016-07-04 2016-07-04 音声合成方法、システム及びプログラム Pending JP2018004977A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016132220A JP2018004977A (ja) 2016-07-04 2016-07-04 音声合成方法、システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016132220A JP2018004977A (ja) 2016-07-04 2016-07-04 音声合成方法、システム及びプログラム

Publications (1)

Publication Number Publication Date
JP2018004977A true JP2018004977A (ja) 2018-01-11

Family

ID=60949151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016132220A Pending JP2018004977A (ja) 2016-07-04 2016-07-04 音声合成方法、システム及びプログラム

Country Status (1)

Country Link
JP (1) JP2018004977A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470664A (zh) * 2021-06-30 2021-10-01 平安科技(深圳)有限公司 语音转换方法、装置、设备及存储介质
JP2022071074A (ja) * 2018-05-11 2022-05-13 グーグル エルエルシー クロックワーク階層化変分エンコーダ

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108450A (ja) * 2005-10-14 2007-04-26 Kenwood Corp 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2014011509A (ja) * 2012-06-27 2014-01-20 Sharp Corp 音声出力制御装置、音声出力制御方法、プログラム及び記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108450A (ja) * 2005-10-14 2007-04-26 Kenwood Corp 音声再生装置、音声配信装置、音声配信システム、音声再生方法、音声配信方法及びプログラム
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2014011509A (ja) * 2012-06-27 2014-01-20 Sharp Corp 音声出力制御装置、音声出力制御方法、プログラム及び記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
島 徹、伊予柑、じぇい(粟津昂規), ニコニコ生放送ポケットガイド 初版 NHK(ニコ生企画放送局)のメンバーが解説するニコニコ生放送初の, JPN6019029062, 18 November 2010 (2010-11-18), JP, pages 160 - 63, ISSN: 0004224748 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022071074A (ja) * 2018-05-11 2022-05-13 グーグル エルエルシー クロックワーク階層化変分エンコーダ
CN113470664A (zh) * 2021-06-30 2021-10-01 平安科技(深圳)有限公司 语音转换方法、装置、设备及存储介质
CN113470664B (zh) * 2021-06-30 2024-01-30 平安科技(深圳)有限公司 语音转换方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
KR102660922B1 (ko) 복수의 지능형 개인 비서 서비스를 위한 관리 계층
US10546235B2 (en) Relativistic sentiment analyzer
US10210002B2 (en) Method and apparatus of processing expression information in instant communication
KR102264613B1 (ko) 메시지 파라미터에 의한 메시지들의 라우팅
JP7283496B2 (ja) 情報処理方法、情報処理装置およびプログラム
US10082928B2 (en) Providing content to a user based on amount of user contribution
WO2021068764A1 (zh) 信息处理方法和装置
JP2016091536A (ja) 電子装置及び漫画制作方法
US20170092253A1 (en) Karaoke system
JP7140221B2 (ja) 情報処理方法、情報処理装置およびプログラム
US11086907B2 (en) Generating stories from segments classified with real-time feedback data
CA3176392A1 (en) Systems and methods for media content communication
TW201621883A (zh) 個人化音訊及/或視訊展示
JP2018004977A (ja) 音声合成方法、システム及びプログラム
CN117529773A (zh) 用户自主个性化文本转语音的声音生成
KR20160082078A (ko) 교육 서비스 시스템
CN110659387A (zh) 用于提供视频的方法和设备
US11588866B2 (en) Delivering tailored audio segments within live audio streams
US8315409B2 (en) Modifications of audio communications in an online environment
CN104980396A (zh) 一种用于社交网络的通信方法及系统
US20160335042A1 (en) System for control of one or more midi devices
JP6367748B2 (ja) 認識装置、映像コンテンツ提示システム
US10896689B2 (en) Voice tonal control system to change perceived cognitive state
US20200111475A1 (en) Information processing apparatus and information processing method
US11778277B1 (en) Digital item processing for video streams

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200303