JP6846237B2 - 音声合成装置及びプログラム - Google Patents

音声合成装置及びプログラム Download PDF

Info

Publication number
JP6846237B2
JP6846237B2 JP2017042169A JP2017042169A JP6846237B2 JP 6846237 B2 JP6846237 B2 JP 6846237B2 JP 2017042169 A JP2017042169 A JP 2017042169A JP 2017042169 A JP2017042169 A JP 2017042169A JP 6846237 B2 JP6846237 B2 JP 6846237B2
Authority
JP
Japan
Prior art keywords
phoneme
label
speaker
dnn
time length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017042169A
Other languages
English (en)
Other versions
JP2018146803A (ja
Inventor
清 栗原
清 栗原
信正 清山
信正 清山
今井 篤
篤 今井
都木 徹
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2017042169A priority Critical patent/JP6846237B2/ja
Publication of JP2018146803A publication Critical patent/JP2018146803A/ja
Application granted granted Critical
Publication of JP6846237B2 publication Critical patent/JP6846237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、DNN(Deep Neural Network:ディープニューラルネットワーク)を用いた音声合成装置及びプログラムに関する。
従来、統計モデルを用いた音声合成技術が進展し、スマートフォンまたはパソコンを通して、身近なサービスとして使用できるようになっている。放送分野では、音声合成を用いて解説放送を補完する音声ガイドシステムの研究が進められている(例えば、非特許文献1を参照)。音声ガイドシステムでは、ガイド音声を提示する際に、演出効果として、多様な話者性及び感情表現が求められている。
一方、統計モデルを用いた音声合成技術の主流は、HMM(Hidden Markov Model:隠れマルコフモデル)方式とDNN方式とに分類される。HMM方式では、話者性及び感情表現を制御可能な音声合成を実現している(例えば、非特許文献2を参照)。
DNN方式は、一般にHMM方式よりも音質が良いと言われており、様々な手法で音声合成を実現しているが(例えば、非特許文献3〜5を参照)、話者性及び感情表現の両方を制御可能な音声合成の実現に至っていない。
今井他,電子情報通信学会総合大会講演論文集,H-4-11,Mar 2016 J.Yamagishi et al,vol.E88-D,no.3,pp.503-509,Mar 2005 Zhizheng Wu et al,ISCA SSW9,vol PS2-13,pp.218-223,Sep 2016 H.Zen et al,IEICE Trans.Inf. & Syst.,vol.E90-D, no.5,pp.825-834,May 2007 北条他,日本音響学会講演論文集,pp.215-218,Sep 2015
DNN方式を用いた音声合成技術において、話者性及び感情表現を制御可能な音声合成を実現するためには、話者及び感情の組み合わせ毎に、DNNを用意する手法が想定される。例えば、怒りの感情を有する話者aのDNN、喜びの感情を有する話者aのDNN、・・・、怒りの感情を有する話者bのDNN、喜びの感情の有する話者bのDNN等を用意する必要がある。
しかしながら、この手法では、話者と感情との組み合わせが膨大であり、用意すべきDNNの数が多くなり、実現が困難である。また、音声合成の際に、複数の異なるDNNを用いる場合には、連続的な自然な読み上げ音声を生成することが困難となる。
このように、DNN方式を用いた音声合成技術では、話者性及び感情表現を制御可能な音声合成を実現する際に、膨大な数のDNNを用意する必要のない新たな手法が所望されていた。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現する音声合成装置及びプログラムを提供することにある。
前記課題を解決するために、請求項1の音声合成装置は、事前に学習されたDNN(ディープニューラルネットワーク)を用いて、音声波形を合成する音声合成装置において、音素の言語特徴量、話者を識別するための話者ラベル、及び感情を識別するための感情ラベルが入力層に与えられ、音素の時間長が出力層に与えられることで学習された時間長DNNと、音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルが入力層に与えられ、音素フレームの音響特徴量が出力層に与えられることで学習された音響特徴量DNNと、テキスト、話者情報及び感情情報を入力し、前記時間長DNN及び前記音響特徴量DNNを用いて、前記テキスト、前記話者情報及び前記感情情報に対応する音声波形を合成する合成処理部と、を備え、前記合成処理部が、前記テキストをテキスト解析して音素の言語特徴量を生成し、前記時間長DNNを用いて、前記音素の言語特徴量、前記話者情報に付与した話者ラベル、及び前記感情情報に付与した感情ラベルに基づいて、音素の時間長を生成し、前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、前記音響特徴量DNNを用いて、前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、音素フレームの音響特徴量を生成し、当該音素フレームの音響特徴量に基づいて、前記音声波形を合成する、ことを特徴とする。
また、請求項2の音声合成装置は、請求項1に記載の音声合成装置において、前記合成処理部が、前記話者情報に前記話者ラベルを付与すると共に、前記感情情報に前記感情ラベルを付与する話者感情ラベル処理部と、前記テキストをテキスト解析して前記音素の言語特徴量を生成し、前記音素の言語特徴量及び前記音素の時間長に基づいて、前記音素フレームの言語特徴量を生成するテキスト解析部と、前記時間長DNNを用いて、前記テキスト解析部により生成された前記音素の言語特徴量、前記話者感情ラベル処理部により付与された前記話者ラベル及び前記感情ラベルに基づいて、前記音素の時間長を生成し、前記音響特徴量DNNを用いて、前記テキスト解析部により生成された前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、前記音素フレームの音響特徴量を生成する時間長及び音響特徴量生成部と、前記時間長及び音響特徴量生成部により生成された前記音素フレームの音響特徴量に基づいて、前記音声波形を合成する音声波形合成部と、を備えたことを特徴とする。
また、請求項3の音声合成装置は、請求項1または2に記載の音声合成装置において、さらに、テキスト、話者情報、感情情報及び音声波形が格納された音声コーパスを用いて、前記時間長DNN及び前記音響特徴量DNNを学習する学習部を備え、前記学習部が、前記音声コーパスから前記テキストを読み出し、当該テキストをテキスト解析して音素の言語特徴量を生成し、前記音声コーパスから前記音声波形を読み出し、当該音声波形を音響分析して音素の区切り位置を求めると共に、音素の時間長を求め、前記音声コーパスから前記話者情報及び前記感情情報を読み出し、話者ラベル及び感情ラベルをそれぞれ付与し、前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、前記音素の言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素の時間長を用いて、前記時間長DNNを学習し、前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素フレームの音響特徴量を用いて、前記音響特徴量DNNを学習する、ことを特徴とする。
さらに、請求項4のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の音声合成装置として機能させることを特徴とする。
以上のように、本発明によれば、話者及び感情の組み合わせ毎の膨大な数のDNNを用意する必要がないから、簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現することができる。
本発明の実施形態による音声合成装置の構成例を示すブロック図である。 事前学習部の構成例を示すブロック図である。 テキスト解析部の構成例を示すブロック図である。 音響分析部の構成例を示すブロック図である。 合成処理部の構成例を示すブロック図である。 時間長DNNの構成の概要を説明する図である。 音響特徴量DNNの構成の概要を説明する図である。 言語特徴量及び音響特徴量の関係について説明する図である。 音素の言語特徴量、話者ラベル及び感情ラベルの例を説明する図である。 事前学習部の処理例を示すフローチャートである。 合成処理部の処理例を示すフローチャートである。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、話者性及び感情表現と音声波形とを関連付けて、時間長DNN及び音響特徴量DNNを事前に学習する。また、本発明は、事前に学習した時間長DNN及び音響特徴量DNNを用いて、話者性及び感情表現を反映した音声合成を実現する。
時間長DNNは、音素の言語特徴量、話者ラベル及び感情ラベルを入力層の各ユニットに与え、音素の時間長を出力層のユニットに与えることで、音素毎に学習されたモデルである。音響特徴量DNNは、音素フレームの言語特徴量、話者ラベル及び感情ラベルを入力層の各ユニットに与え、音素フレームの音響特徴量を出力層の各ユニットに与えることで、音素フレーム毎に学習されたモデルである。
これにより、時間長DNN及び音響特徴量DNNの2つのDNNを用意すればよいから、話者及び感情の組み合わせ毎の膨大な数のDNNを用意する必要がなく、簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現することができる。
〔音声合成装置〕
まず、本発明の実施形態による音声合成装置について説明する。図1は、本発明の実施形態による音声合成装置の構成例を示すブロック図である。この音声合成装置1は、音声コーパスが格納された記憶部2、事前学習部3、時間長DNN及び音響特徴量DNNが格納された記憶部4、及び合成処理部5を備えている。
記憶部2には、特定の文章が複数の話者と感情で読み上げられた音声に関する情報、すなわち、テキスト、話者情報、感情情報及び音声波形の各情報により構成された音声コーパスが格納されている。音声コーパスは、話者及び感情の組み合わせを単位としたデータベースである。
話者情報は、個々の発話者を識別するための情報であり、感情情報は、例えば喜び、怒り、悲哀、平静等の発話表現を識別するための情報であり、音声波形は、テキストに対する音声波形情報である。
事前学習部3は、記憶部2から、所定の音声コーパスのテキスト、話者情報、感情情報及び音声波形を読み出し、話者情報及び感情情報に話者ラベル及び感情ラベルをそれぞれ付与する。話者ラベルは、話者を識別するためのラベルであり、感情ラベルは、感情を識別するためのラベルである。
事前学習部3は、テキストに対し、所定のテキスト解析を行うと共に、音声波形に対し、所定の音響分析を行うことで、時間長DNN及び音響特徴量DNNを学習するための言語特徴量及び音響特徴量等の情報を生成する。事前学習部3は、言語特徴量及び音響特徴量等の情報、並びに話者ラベル及び感情ラベルを用いて、記憶部4に格納された時間長DNN及び音響特徴量DNNを事前に学習する。
テキスト解析の手法及び音響解析の手法は既知であるから、ここでは詳細な説明は省略する。時間長DNN及び音響特徴量DNNの学習は、例えばLSTM(Long Short Term Memory:長期短期記憶)方式にて行われる。
記憶部4には、事前学習部3により学習された時間長DNN及び音響特徴量DNNが格納される。
図6は、時間長DNNの構成の概要を説明する図である。時間長DNNは、学習時に、音素の言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素の時間長が出力層のユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素単位の学習が行われる。
学習のための音素の言語特徴量は、例えば、音素ラベル、アクセントの位置、品詞情報、アクセント句の情報、呼気段落の情報等からなる。音素の時間長は、例えば音素を構成する音素フレームの数で表される。
また、後述する音声合成時には、時間長DNNの入力層の各ユニットに、音素の言語特徴量、話者ラベル及び感情ラベルが与えられることで、出力層のユニットから、当該音素の言語特徴量、話者ラベル及び感情ラベルに対応する音素の時間長が出力される。
図7は、音響特徴量DNNの構成の概要を説明する図である。音響特徴量DNNは、学習時に、音素フレームの言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素フレーム単位の学習が行われる。
学習のための音素フレームの言語特徴量は、例えば、音素の言語特徴量と同様の音素ラベル、アクセントの位置、品詞情報、アクセント句の情報、呼気段落の情報等に加え、音素を構成するフレームの番号(フレームの位置)、音素を構成するフレームの総数等の情報からなる。音素フレームの音響特徴量は、例えば、スペクトル係数、雑音性係数、ピッチ、有声/無声判定等の情報からなる。
また、後述する音声合成時には、音響特徴量DNNの入力層の各ユニットに、音素フレームの言語特徴量、話者ラベル及び感情ラベルが与えられることで、出力層の各ユニットから、当該音素フレームの言語特徴量、話者ラベル及び感情ラベルに対応する音素フレームの音響特徴量が出力される。
図1に戻って、合成処理部5は、合成対象の音声波形に対応するテキスト、話者情報及び感情情報を入力し、話者情報及び感情情報に基づいて、話者ラベル及び感情ラベルをそれぞれ付与する。そして、合成処理部5は、テキストに対し、所定のテキスト解析を行い、言語特徴量等の情報を生成し、記憶部4に格納された時間長DNN及び音響特徴量DNNを用いて、時間長及び音響特徴量を生成し、音声波形を合成して出力する。
例えば、話者Aによる喜びの感情を表現した音声波形を合成する場合、合成処理部5は、所定のテキスト、話者Aを示す話者情報、及び喜びの感情を示す感情情報を入力し、時間長DNN及び音響特徴量DNNを用いて、所定のテキストに対応する音声波形を合成する。
〔事前学習部3/構成〕
次に、図1に示した事前学習部3の構成について詳細に説明する。図2は、事前学習部3の構成例を示すブロック図である。この事前学習部3は、テキスト解析部11、話者感情ラベル処理部12及び音響分析部13を備えている。
事前学習部3は、記憶部2から、事前学習対象の音声コーパスのテキスト、話者情報、感情情報及び音声波形を読み出す。テキスト解析部11は、記憶部2の音声コーパスから読み出されたテキストに対し、テキスト解析を行い、音素毎に音素の言語特徴量を生成し、音素の言語特徴量に含まれる音素ラベルを音響分析部13に出力する。
図9は、音素の言語特徴量、話者ラベル及び感情ラベルの例を説明する図である。この音素の言語特徴量は、テキスト解析により生成された情報である。図9に示すように、テキスト解析により生成された音素の言語特徴量は、音素毎に、「音素ラベル」「アクセント情報」「品詞情報」「アクセント句情報」「呼気段落情報」「総数情報」の各種情報からなる。「音素ラベル」は、テキストを構成する音素を特定するための情報(音素情報)であり、当該音素に加え、前後の音素も含まれる。「話者ラベル」は、話者情報に付与された情報であり、「感情ラベル」は、感情情報に付与された情報である。
図2に戻って、テキスト解析部11は、テキスト解析にて生成した音素の言語特徴量に基づいて、事前学習のための音素の言語特徴量を生成し、話者感情ラベル処理部12から話者ラベル及び感情ラベルを入力する。そして、テキスト解析部11は、事前学習のための音素の言語特徴量、話者ラベル及び感情ラベルを、記憶部4の時間長DNNにおける入力層の各ユニットに出力する。
事前学習のための音素の言語特徴量は、テキスト解析により生成した音素の言語特徴量の一部の情報、及び、テキスト解析により生成した音素の言語特徴量を加工した情報からなる。事前学習のための音素の言語特徴量は、例えば「音素ラベル」「音素情報」「有声音の有無」「アクセントの位置」等の各種情報からなる。
テキスト解析部11は、音響分析部13から音素の時間長を入力し、事前学習のための音素の言語特徴量及び音素の時間長に基づいて、音素の時間長が示す音素フレーム数分の音素フレームの言語特徴量を生成する。そして、テキスト解析部11は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを、記憶部4の音響特徴量DNNにおける入力層の各ユニットに出力する。
音素フレームの言語特徴量は、事前学習のための音素の言語特徴量の各種情報に加え、音素フレームを特定するための情報からなる。音素フレームの言語特徴量は、例えば「音素ラベル」「有声音の有無」「アクセントの位置」「フレームの番号」「フレームの総数」等の情報からなる。テキスト解析部11の詳細については後述する。
話者感情ラベル処理部12は、記憶部2の音声コーパスから読み出された話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与し、話者ラベル及び感情ラベルをテキスト解析部11に出力する。
音響分析部13は、テキスト解析部11から音素ラベルを入力し、記憶部2の音声コーパスから読み出された音声波形に対し、所定の学習データを用いて音響分析を行うと共に、音素の区切り位置を求める。そして、音響分析部13は、音素の区切り位置から音素の時間長を求めると共に、音素フレームの音響特徴量を生成する。音響分析部13は、音素の時間長をテキスト解析部11に出力すると共に、記憶部4の時間長DNNにおける出力層のユニットに出力する。音響分析部13は、音素フレームの音響特徴量を、記憶部4の音響特徴量DNNにおける出力層の各ユニットに出力する。
音響分析により音素の区切り位置及び音素の時間長を求め、音素フレームの音響特徴量を生成する手法は既知であるから、ここでは詳細な説明は省略する。
音素フレームの音響特徴量は、例えば、「スペクトル係数」「雑音性係数」「ピッチ」「有声/無声判定」等の情報からなる。音響分析部13の詳細については後述する。
このような事前学習により、時間長DNN及び音響特徴量DNNは、話者性及び感情表現と音声波形とを関連付けたモデルとなる。
〔事前学習部3/処理〕
次に、図2に示した事前学習部3の処理について説明する。図10は、事前学習部3の処理例を示すフローチャートである。事前学習部3のテキスト解析部11は、記憶部2の音声コーパスから読み出されたテキストに対し、テキスト解析を行い(ステップS1001)、音素の言語特徴量を生成する。そして、テキスト解析部11は、テキスト解析にて生成した音素の言語特徴量に基づいて、事前学習のための音素の言語特徴量を生成する(ステップS1002)。
話者感情ラベル処理部12は、記憶部2の音声コーパスから読み出された話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与する(ステップS1003)。
音響分析部13は、記憶部2の音声コーパスから読み出された音声波形に対し、音響分析を行い(ステップS1004)、音素の区切り位置を求め、音素の時間長を求める(ステップS1005)。
テキスト解析部11は、事前学習のための音素の言語特徴量、話者ラベル及び感情ラベルを時間長DNNに出力すると共に、音響分析部13は、音素の時間長を時間長DNNに出力する。これにより、時間長DNNの事前学習が行われる(ステップS1006)。
音響分析部13は、音声波形を音響分析することで、ステップS1005にて求めた音素の区切り位置に基づいて、音素フレームの音響特徴量を生成する(ステップS1007)。
テキスト解析部11は、事前学習のための音素の言語特徴量、及び音響分析部13により求めた音素の時間長に基づいて、音素フレームの言語特徴量を生成する(ステップS1008)。
テキスト解析部11は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを音響特徴量DNNに出力すると共に、音響分析部13は、音素フレームの音響特徴量を音響特徴量DNNに出力する。これにより、音響特徴量DNNの事前学習が行われる(ステップS1009)。
〔言語特徴量と音響特徴量との間の関係〕
次に、時間長DNN及び音響特徴量DNNの入出力データである音素の言語特徴量、音素フレームの言語特徴量、音素の時間長及び音素フレームの音響特徴量の関係について説明する。図8は、言語特徴量及び音響特徴量の関係について説明する図である。
テキストを「い」「ま」とし、「い」の音素ラベルを「i」、「ま」の音素ラベルを「m」「a」とする。また、音素ラベル「i」「m」「a」における音素の時間長をそれぞれ「12」「8」「15」とする。音素の時間長は、1音素あたりの音素フレームの数を示す。音素フレームの時間長は、例えば5msecである。
図8に示すように、音素ラベル「i」の時間区間において、この1音素に対応して、1組の音素の言語特徴量(の各情報)が生成され、12組の音素フレームの言語特徴量(の各情報)が生成され、12組の音素フレームの音響特徴量(の各情報)が生成される。
また、音素ラベル「m」の時間区間において、この1音素に対応して、1組の音素の言語特徴量が生成され、8組の音素フレームの言語特徴量が生成され、8組の音素フレームの音響特徴量が生成される。
また、音素ラベル「a」の時間区間において、この1音素に対応して、1組の音素の言語特徴量が生成され、15組の音素フレームの言語特徴量が生成され、15組の音素フレームの音響特徴量が生成される。
このように、事前学習において、時間長DNNの入力層の各ユニットには、音素の言語特徴量、話者ラベル及び感情ラベルが与えられ、出力層のユニットには、音素の時間長が与えられ、この事前学習は音素を単位として行われる。つまり、時間長DNNには、音素毎に、音素の言語特徴量、話者ラベル、感情ラベル及び音素の時間長が与えられ、事前学習が行われる。音声合成においては、音素毎に、時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づいて、音素の時間長が生成され出力される。
また、事前学習において、音響特徴量DNNの入力層の各ユニットには、音素フレームの言語特徴量、話者ラベル及び感情ラベルが与えられ、出力層の各ユニットには、音素フレームの音響特徴量が与えられ、この事前学習は音素フレームを単位として行われる。つまり、音響特徴量DNNには、音素フレーム毎に、音素フレームの言語特徴量、話者ラベル、感情ラベル及び音素フレームの音響特徴量が与えられ、事前学習が行われる。音声合成においては、音素フレーム毎に、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づいて、音素フレームの音響特徴量が生成され出力される。
(テキスト解析部11)
次に、図2に示したテキスト解析部11について詳細に説明する。図3は、テキスト解析部11の構成例を示すブロック図である。このテキスト解析部11は、テキスト解析手段31、前処理手段32及びフレーム処理手段33を備えている。
テキスト解析手段31は、記憶部2の音声コーパスから読み出されたテキストに対し、形態素解析等のテキスト解析を行い、音素毎に音素の言語特徴量を生成する。そして、テキスト解析手段31は、音素の言語特徴量を前処理手段32に出力する。
前処理手段32は、テキスト解析手段31から、テキスト解析により生成された音素の言語特徴量を入力すると共に、話者感情ラベル処理部12から話者ラベル及び感情ラベルを入力する。そして、前処理手段32は、図9に示したように、テキスト解析により生成された音素の言語特徴量、話者ラベル及び感情ラベルからなる情報群を生成する。
前処理手段32は、テキスト解析により生成された音素の言語特徴量(図9を参照)に基づいて、事前学習のための音素の言語特徴量を生成する。そして、前処理手段32は、事前学習のための音素の言語特徴量、話者ラベル及び感情ラベルをフレーム処理手段33に出力すると共に、記憶部4の時間長DNNにおける入力層の各ユニットに出力する。
フレーム処理手段33は、前処理手段32から、事前学習のための音素の言語特徴量、話者ラベル及び感情ラベルを入力すると共に、音響分析部13から音素の時間長を入力する。そして、フレーム処理手段33は、事前学習のための音素の言語特徴量及び音素の時間長に基づいて、音素の時間長が示す音素フレーム数分の音素フレームの言語特徴量を生成する。
フレーム処理手段33は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを、記憶部4の音響特徴量DNNにおける入力層の各ユニットに出力する。
(音響分析部13)
次に、図2に示した音響分析部13について詳細に説明する。図4は、音響分析部13の構成例を示すブロック図である。この音響分析部13は、音素区切り処理手段34及び音響分析手段35を備えている。
音素区切り処理手段34は、テキスト解析部11から音素ラベルを入力し、記憶部2の音声コーパスから読み出された音声波形に対し、所定の学習データを用いて音響分析を行う。そして、音素区切り処理手段34は、音素ラベルの示す音素が音声波形内でどの位置にあるかを特定し、音素の区切り位置を求める。また、音素区切り処理手段34は、音素の区切り位置に基づいて、音素ラベルの示す音素の時間長を求める。前述のとおり、音素の時間長は、音素を構成する音素フレームの数で表される。
音素区切り処理手段34は、音素の区切り位置を音響分析手段35に出力し、音素の時間長をテキスト解析部11に出力すると共に、記憶部4の時間長DNNにおける出力層のユニットに出力する。
音響分析手段35は、音素区切り処理手段34から音素の区切り位置を入力し、記憶部2の音声コーパスから読み出された音声波形に対し、音響分析を行い、音素を構成する複数の音素フレームのそれぞれについて、音素フレームの音響特徴量を生成する。
音響分析手段35は、音素フレームの音響特徴量を、記憶部4の音響特徴量DNNにおける出力層の各ユニットに出力する。
〔合成処理部5〕
次に、図1に示した合成処理部5の構成について詳細に説明する。図5は、合成処理部5の構成例を示すブロック図である。この合成処理部5は、テキスト解析部21、話者感情ラベル処理部22、時間長及び音響特徴量生成部23及び音声波形合成部24を備えている。
テキスト解析部21は、図2に示したテキスト解析部11と同様の処理を行う。具体的には、テキスト解析部21は、合成対象の音声波形に対応するテキストを入力し、テキストに対してテキスト解析を行い、音素毎に音素の言語特徴量を生成する。
テキスト解析部21は、テキスト解析にて生成した音素の言語特徴量に基づいて、図2に示したテキスト解析部11により生成された事前学習のための音素の言語特徴量と同様の音素の言語特徴量を生成し、話者感情ラベル処理部22から話者ラベル及び感情ラベルを入力する。そして、テキスト解析部21は、音素の言語特徴量、話者ラベル及び感情ラベルを時間長及び音響特徴量生成部23に出力する。
テキスト解析部21は、時間長及び音響特徴量生成部23から、当該時間長及び音響特徴量生成部23に出力した音素の言語特徴量、話者ラベル及び感情ラベルに対応する音素の時間長を入力し、音素の言語特徴量及び音素の時間長に基づいて、音素の時間長が示す音素フレーム数分の音素フレームの言語特徴量を生成する。そして、テキスト解析部21は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを、時間長及び音響特徴量生成部23に出力する。
話者感情ラベル処理部22は、図2に示した話者感情ラベル処理部12と同様の処理を行う。具体的には、話者感情ラベル処理部22は、話者情報及び感情情報を入力し、話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与し、話者ラベル及び感情ラベルをテキスト解析部21に出力する。
時間長及び音響特徴量生成部23は、テキスト解析部21から音素の言語特徴量、話者ラベル及び感情ラベルを入力し、記憶部4の時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づいて、音素の時間長を生成する。そして、時間長及び音響特徴量生成部23は、音素の時間長をテキスト解析部21に出力する。
時間長及び音響特徴量生成部23は、テキスト解析部21から音素フレームの言語特徴量、話者ラベル及び感情ラベルを入力し、記憶部4の音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づいて、音素フレームの音響特徴量を生成する。
時間長及び音響特徴量生成部23は、音素フレームの音響特徴量を音声波形合成部24に出力する。
音声波形合成部24は、時間長及び音響特徴量生成部23から音素フレームの音響特徴量を入力し、音素フレームの音響特徴量に基づいて、音声波形を合成し、合成した音声波形を出力する。
具体的には、音声波形合成部24は、音素フレームの音響特徴量に含まれるピッチ、雑音特性等の情報に基づいて、声帯音源波形を生成する。そして、音声波形合成部24は、声帯音源波形に対し、音素フレームの音響特徴量に含まれるスペクトル係数等の情報に基づいて声道フィルタ処理を施し、音声波形を合成する。
音素フレームの音響特徴量に基づいて音声波形を合成する手法は既知であるから、ここでは詳細な説明を省略する。
このような音声合成により、話者情報及び感情情報と音声波形とを関連付けた時間長DNN及び音響特徴量DNNを用いることで、テキスト、話者情報及び感情情報に対応する音声波形が合成される。
〔合成処理部5/処理〕
次に、図5に示した合成処理部5の処理について説明する。図11は、合成処理部5の処理例を示すフローチャートである。合成処理部5のテキスト解析部21は、合成対象の音声波形に対応するテキストに対し、テキスト解析を行い(ステップS1101)、音素の言語特徴量を生成する(ステップS1102)。
話者感情ラベル処理部22は、話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与する(ステップS1103)。
時間長及び音響特徴量生成部23は、時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づき音素の時間長を生成する(ステップS1104)。そして、テキスト解析部21は、音素の言語特徴量及び音素の時間長に基づいて、音素フレームの言語特徴量を生成する(ステップS1105)。
時間長及び音響特徴量生成部23は、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づき音素フレームの音響特徴量を生成する(ステップS1106)。
音声波形合成部24は、音素フレームの音響特徴量に基づいて、音声波形を合成し、合成した音声波形を出力する(ステップS1107)。
以上のように、本発明の実施形態の音声合成装置1によれば、学習時に、事前学習部3のテキスト解析部11は、音声コーパスから読み出されたテキストに対しテキスト解析を行い、音素の言語特徴量を生成する。音響分析部13は、音声コーパスから読み出された音声波形に対して音響分析を行い、音素の区切り位置を求め、音素の時間長を求める。テキスト解析部11は、音素の言語特徴量、話者ラベル及び感情ラベルを、時間長DNNにおける入力層の各ユニットに出力すると共に、音響分析部13は、音素の時間長を、時間長DNNにおける出力層のユニットに出力する。これにより、時間長DNNの事前学習が行われる。
また、音響分析部13は、音声波形を音響分析することで、音素の区切り位置に基づいて、音素フレームの音響特徴量を生成する。テキスト解析部11は、音素の言語特徴量及び音素の時間長に基づいて、音素フレームの言語特徴量を生成し、音素フレームの言語特徴量、話者ラベル及び感情ラベルを、音響特徴量DNNにおける入力層の各ユニットに出力すると共に、音響分析部13は、音素フレームの音響特徴量を、音響特徴量DNNにおける出力層の各ユニットに出力する。これにより、音響特徴量DNNの事前学習が行われる。
さらに、本発明の実施形態の音声合成装置1によれば、音声合成時に、合成処理部5のテキスト解析部21は、対象のテキストに対しテキスト解析を行い、音素の言語特徴量を生成する。時間長及び音響特徴量生成部23は、時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づき音素の時間長を生成する。
テキスト解析部21は、音素の言語特徴量及び音素の時間長に基づいて、音素フレームの言語特徴量を生成する。時間長及び音響特徴量生成部23は、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づき音素フレームの音響特徴量を生成する。そして、音声波形合成部24は、音素フレームの音響特徴量に基づいて、音声波形を合成する。
これにより、話者性及び感情表現と音声波形とを関連付けた時間長DNN及び音響特徴量DNNを用いるようにしたから、HMM方式よりも音質の良い音声合成を実現することができると共に、話者性及び感情表現を同時に制御することができる。このため、学習時には、話者性及び感情表現に対応した複雑な特徴抽出作業を行う必要がない。
また、時間長DNN及び音響特徴量DNNからなる2つのDNNを用いて音声合成を行うようにしたから、話者及び感情の組み合わせ毎の膨大なDNNを用いる必要がなく、途切れることのない連続的なかつ自然な読み上げ音声を生成することができる。
したがって、簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現することができる。
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、図1に示したように、音声合成装置1は、事前学習を行う事前学習部3と、音声合成を行う合成処理部5とを備えるようにした。これに対し、事前学習部3と合成処理部5とを、それぞれ異なる装置に備えるようにしてもよい。
具体的には、記憶部2を備えた記憶装置、事前学習部3を備えた学習装置、記憶部4を備えた記憶装置、及び合成処理部5を備えた合成装置により音声合成システムが構成される。この場合、学習装置と、記憶部2を備えた記憶装置及び記憶部4を備えた記憶装置とは、インターネットを介して接続されるようにしてもよい。また、合成装置と、記憶部4を備えた記憶装置とは、同様にインターネットを介して接続されるようにしてもよい。さらに、学習装置は、記憶部2、事前学習部3及び記憶部4を備え、合成装置は、記憶媒体を介して可搬された記憶部4、及び合成処理部5を備えるようにしてもよい。
また、前記実施形態では、時間長DNN及び音響特徴量DNNにおけるそれぞれの入力層のユニットに、話者情報及び感情情報を与えるようにした。これに対し、これらの入力層のユニットに、複数の話者情報及び複数の感情情報を与えるようにしてもよい。例えば、話者が複数の観点から分類され、話者に対して複数の話者情報が紐付けられ、同様に、感情が複数の観点から分類され、感情に対して複数の感情情報が紐付けられ、これらを入力層のユニットに与えるようにしてもよい。
尚、本発明の実施形態による音声合成装置1のハードウェア構成としては、通常のコンピュータを使用することができる。音声合成装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声合成装置1に備えた事前学習部3及び合成処理部5の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1 音声合成装置
2,4 記憶部
3 事前学習部
5 合成処理部
11,21 テキスト解析部
12,22 話者感情ラベル処理部
13 音響分析部
23 時間長及び音響特徴量生成部
24 音声波形合成部
31 テキスト解析手段
32 前処理手段
33 フレーム処理手段
34 音素区切り処理手段
35 音響分析手段

Claims (4)

  1. 事前に学習されたDNN(ディープニューラルネットワーク)を用いて、音声波形を合成する音声合成装置において、
    音素の言語特徴量、話者を識別するための話者ラベル、及び感情を識別するための感情ラベルが入力層に与えられ、音素の時間長が出力層に与えられることで学習された時間長DNNと、
    音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルが入力層に与えられ、音素フレームの音響特徴量が出力層に与えられることで学習された音響特徴量DNNと、
    テキスト、話者情報及び感情情報を入力し、前記時間長DNN及び前記音響特徴量DNNを用いて、前記テキスト、前記話者情報及び前記感情情報に対応する音声波形を合成する合成処理部と、を備え、
    前記合成処理部は、
    前記テキストをテキスト解析して音素の言語特徴量を生成し、
    前記時間長DNNを用いて、前記音素の言語特徴量、前記話者情報に付与した話者ラベル、及び前記感情情報に付与した感情ラベルに基づいて、音素の時間長を生成し、
    前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、
    前記音響特徴量DNNを用いて、前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、音素フレームの音響特徴量を生成し、
    当該音素フレームの音響特徴量に基づいて、前記音声波形を合成する、ことを特徴とする音声合成装置。
  2. 請求項1に記載の音声合成装置において、
    前記合成処理部は、
    前記話者情報に前記話者ラベルを付与すると共に、前記感情情報に前記感情ラベルを付与する話者感情ラベル処理部と、
    前記テキストをテキスト解析して前記音素の言語特徴量を生成し、前記音素の言語特徴量及び前記音素の時間長に基づいて、前記音素フレームの言語特徴量を生成するテキスト解析部と、
    前記時間長DNNを用いて、前記テキスト解析部により生成された前記音素の言語特徴量、前記話者感情ラベル処理部により付与された前記話者ラベル及び前記感情ラベルに基づいて、前記音素の時間長を生成し、
    前記音響特徴量DNNを用いて、前記テキスト解析部により生成された前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、前記音素フレームの音響特徴量を生成する時間長及び音響特徴量生成部と、
    前記時間長及び音響特徴量生成部により生成された前記音素フレームの音響特徴量に基づいて、前記音声波形を合成する音声波形合成部と、
    を備えたことを特徴とする音声合成装置。
  3. 請求項1または2に記載の音声合成装置において、
    さらに、テキスト、話者情報、感情情報及び音声波形が格納された音声コーパスを用いて、前記時間長DNN及び前記音響特徴量DNNを学習する学習部を備え、
    前記学習部は、
    前記音声コーパスから前記テキストを読み出し、当該テキストをテキスト解析して音素の言語特徴量を生成し、
    前記音声コーパスから前記音声波形を読み出し、当該音声波形を音響分析して音素の区切り位置を求めると共に、音素の時間長を求め、
    前記音声コーパスから前記話者情報及び前記感情情報を読み出し、話者ラベル及び感情ラベルをそれぞれ付与し、
    前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、
    前記音素の言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素の時間長を用いて、前記時間長DNNを学習し、
    前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素フレームの音響特徴量を用いて、前記音響特徴量DNNを学習する、ことを特徴とする音声合成装置。
  4. コンピュータを、請求項1から3までのいずれか一項に記載の音声合成装置として機能させるためのプログラム。
JP2017042169A 2017-03-06 2017-03-06 音声合成装置及びプログラム Active JP6846237B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017042169A JP6846237B2 (ja) 2017-03-06 2017-03-06 音声合成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017042169A JP6846237B2 (ja) 2017-03-06 2017-03-06 音声合成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2018146803A JP2018146803A (ja) 2018-09-20
JP6846237B2 true JP6846237B2 (ja) 2021-03-24

Family

ID=63592055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017042169A Active JP6846237B2 (ja) 2017-03-06 2017-03-06 音声合成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6846237B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6748607B2 (ja) * 2017-06-09 2020-09-02 日本電信電話株式会社 音声合成学習装置、音声合成装置、これらの方法及びプログラム
JP6828847B2 (ja) 2018-08-03 2021-02-10 株式会社Jvcケンウッド 情報表示装置、情報表示システム、情報表示方法、及びプログラム
JP7125608B2 (ja) * 2018-10-05 2022-08-25 日本電信電話株式会社 音響モデル学習装置、音声合成装置、及びプログラム
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
EP3892980A4 (en) * 2018-12-05 2022-02-16 Revorn Co., Ltd. INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, LEARNING MODEL GENERATION METHOD AND PROGRAM
CN112216307B (zh) * 2019-07-12 2023-05-16 华为技术有限公司 语音情感识别方法以及装置
JP7469015B2 (ja) * 2019-10-02 2024-04-16 日本放送協会 学習装置、音声合成装置及びプログラム
CN112365881A (zh) 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN113808571B (zh) * 2021-08-17 2022-05-27 北京百度网讯科技有限公司 语音合成方法、装置、电子设备以及存储介质
CN113808572B (zh) 2021-08-18 2022-06-17 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272399A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声規則合成方式
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN104538024B (zh) * 2014-12-01 2019-03-08 百度在线网络技术(北京)有限公司 语音合成方法、装置及设备

Also Published As

Publication number Publication date
JP2018146803A (ja) 2018-09-20

Similar Documents

Publication Publication Date Title
JP6846237B2 (ja) 音声合成装置及びプログラム
US11443733B2 (en) Contextual text-to-speech processing
US20230064749A1 (en) Two-Level Speech Prosody Transfer
JP2023525002A (ja) 非発話テキストおよび音声合成を使う音声認識
US11763797B2 (en) Text-to-speech (TTS) processing
JP2024510679A (ja) 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ
WO2021118543A1 (en) Attention-based clockwork hierarchical variational encoder
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
Dua et al. Spectral warping and data augmentation for low resource language ASR system under mismatched conditions
JP2016151736A (ja) 音声加工装置、及びプログラム
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
KR102277205B1 (ko) 오디오 변환 장치 및 방법
Louw et al. The Speect text-to-speech entry for the Blizzard Challenge 2016
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
KR102426020B1 (ko) 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치
KR102677459B1 (ko) 2-레벨 스피치 운율 전송
EP1589524A1 (en) Method and device for speech synthesis
Mamatov et al. Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems
Ahmed et al. (Voick): Enhancing Accessibility in Audiobooks Through Voice Cloning Technology
Saleh et al. Arabic Text-to-Speech Service with Syrian Dialect
Oralbekova et al. Current advances and algorithmic solutions in speech generation
Skare et al. Using a Recurrent Neural Network and Articulatory Synthesis to Accurately Model Speech Output
Mahmud et al. A novel training based Concatenative Bangla Speech Synthesizer model
Xu et al. End-to-End Speech Synthesis Method for Lhasa-Tibetan Multi-speaker
Jauk et al. Direct Expressive Voice Training Based on Semantic Selection.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210301

R150 Certificate of patent or registration of utility model

Ref document number: 6846237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250