JP2018146803A - 音声合成装置及びプログラム - Google Patents

音声合成装置及びプログラム Download PDF

Info

Publication number
JP2018146803A
JP2018146803A JP2017042169A JP2017042169A JP2018146803A JP 2018146803 A JP2018146803 A JP 2018146803A JP 2017042169 A JP2017042169 A JP 2017042169A JP 2017042169 A JP2017042169 A JP 2017042169A JP 2018146803 A JP2018146803 A JP 2018146803A
Authority
JP
Japan
Prior art keywords
phoneme
label
speaker
time length
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017042169A
Other languages
English (en)
Other versions
JP6846237B2 (ja
Inventor
清 栗原
Kiyoshi Kurihara
清 栗原
信正 清山
Nobumasa Seiyama
信正 清山
今井 篤
Atsushi Imai
篤 今井
都木 徹
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2017042169A priority Critical patent/JP6846237B2/ja
Publication of JP2018146803A publication Critical patent/JP2018146803A/ja
Application granted granted Critical
Publication of JP6846237B2 publication Critical patent/JP6846237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現する。【解決手段】事前学習部3は、音声コーパスから音素の言語特徴量、音素フレームの言語特徴量、音素の時間長及び音素フレームの音響特徴量を生成し、話者ラベル及び感情ラベルを付与する。そして、事前学習部3は、音素の言語特徴量、話者ラベル、感情ラベル及び音素の時間長を与えて時間長DNNを学習し、音素フレームの言語特徴量、話者ラベル、感情ラベル及び音素フレームの音響特徴量を与えて音響特徴量DNNを学習する。合成処理部5は、テキスト、話者情報及び感情情報を入力し、音素の言語特徴量を生成し、時間長DNNを用いて音素の時間長を生成する。そして、合成処理部5は、音素フレームの言語特徴量を生成し、音響特徴量DNNを用いて音素フレームの音響特徴量を生成し、音声波形を合成する。【選択図】図1

Description

本発明は、DNN(Deep Neural Network:ディープニューラルネットワーク)を用いた音声合成装置及びプログラムに関する。
従来、統計モデルを用いた音声合成技術が進展し、スマートフォンまたはパソコンを通して、身近なサービスとして使用できるようになっている。放送分野では、音声合成を用いて解説放送を補完する音声ガイドシステムの研究が進められている(例えば、非特許文献1を参照)。音声ガイドシステムでは、ガイド音声を提示する際に、演出効果として、多様な話者性及び感情表現が求められている。
一方、統計モデルを用いた音声合成技術の主流は、HMM(Hidden Markov Model:隠れマルコフモデル)方式とDNN方式とに分類される。HMM方式では、話者性及び感情表現を制御可能な音声合成を実現している(例えば、非特許文献2を参照)。
DNN方式は、一般にHMM方式よりも音質が良いと言われており、様々な手法で音声合成を実現しているが(例えば、非特許文献3〜5を参照)、話者性及び感情表現の両方を制御可能な音声合成の実現に至っていない。
今井他,電子情報通信学会総合大会講演論文集,H-4-11,Mar 2016 J.Yamagishi et al,vol.E88-D,no.3,pp.503-509,Mar 2005 Zhizheng Wu et al,ISCA SSW9,vol PS2-13,pp.218-223,Sep 2016 H.Zen et al,IEICE Trans.Inf. & Syst.,vol.E90-D, no.5,pp.825-834,May 2007 北条他,日本音響学会講演論文集,pp.215-218,Sep 2015
DNN方式を用いた音声合成技術において、話者性及び感情表現を制御可能な音声合成を実現するためには、話者及び感情の組み合わせ毎に、DNNを用意する手法が想定される。例えば、怒りの感情を有する話者aのDNN、喜びの感情を有する話者aのDNN、・・・、怒りの感情を有する話者bのDNN、喜びの感情の有する話者bのDNN等を用意する必要がある。
しかしながら、この手法では、話者と感情との組み合わせが膨大であり、用意すべきDNNの数が多くなり、実現が困難である。また、音声合成の際に、複数の異なるDNNを用いる場合には、連続的な自然な読み上げ音声を生成することが困難となる。
このように、DNN方式を用いた音声合成技術では、話者性及び感情表現を制御可能な音声合成を実現する際に、膨大な数のDNNを用意する必要のない新たな手法が所望されていた。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現する音声合成装置及びプログラムを提供することにある。
前記課題を解決するために、請求項1の音声合成装置は、事前に学習されたDNN(ディープニューラルネットワーク)を用いて、音声波形を合成する音声合成装置において、音素の言語特徴量、話者を識別するための話者ラベル、及び感情を識別するための感情ラベルが入力層に与えられ、音素の時間長が出力層に与えられることで学習された時間長DNNと、音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルが入力層に与えられ、音素フレームの音響特徴量が出力層に与えられることで学習された音響特徴量DNNと、テキスト、話者情報及び感情情報を入力し、前記時間長DNN及び前記音響特徴量DNNを用いて、前記テキスト、前記話者情報及び前記感情情報に対応する音声波形を合成する合成処理部と、を備え、前記合成処理部が、前記テキストをテキスト解析して音素の言語特徴量を生成し、前記時間長DNNを用いて、前記音素の言語特徴量、前記話者情報に付与した話者ラベル、及び前記感情情報に付与した感情ラベルに基づいて、音素の時間長を生成し、前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、前記音響特徴量DNNを用いて、前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、音素フレームの音響特徴量を生成し、当該音素フレームの音響特徴量に基づいて、前記音声波形を合成する、ことを特徴とする。
また、請求項2の音声合成装置は、請求項1に記載の音声合成装置において、前記合成処理部が、前記話者情報に前記話者ラベルを付与すると共に、前記感情情報に前記感情ラベルを付与する話者感情ラベル処理部と、前記テキストをテキスト解析して前記音素の言語特徴量を生成し、前記音素の言語特徴量及び前記音素の時間長に基づいて、前記音素フレームの言語特徴量を生成するテキスト解析部と、前記時間長DNNを用いて、前記テキスト解析部により生成された前記音素の言語特徴量、前記話者感情ラベル処理部により付与された前記話者ラベル及び前記感情ラベルに基づいて、前記音素の時間長を生成し、前記音響特徴量DNNを用いて、前記テキスト解析部により生成された前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、前記音素フレームの音響特徴量を生成する時間長及び音響特徴量生成部と、前記時間長及び音響特徴量生成部により生成された前記音素フレームの音響特徴量に基づいて、前記音声波形を合成する音声波形合成部と、を備えたことを特徴とする。
また、請求項3の音声合成装置は、請求項1または2に記載の音声合成装置において、さらに、テキスト、話者情報、感情情報及び音声波形が格納された音声コーパスを用いて、前記時間長DNN及び前記音響特徴量DNNを学習する学習部を備え、前記学習部が、前記音声コーパスから前記テキストを読み出し、当該テキストをテキスト解析して音素の言語特徴量を生成し、前記音声コーパスから前記音声波形を読み出し、当該音声波形を音響分析して音素の区切り位置を求めると共に、音素の時間長を求め、前記音響コーパスから前記話者情報及び前記感情情報を読み出し、話者ラベル及び感情ラベルをそれぞれ付与し、前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、前記音素の言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素の時間長を用いて、前記時間長DNNを学習し、前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素フレームの音響特徴量を用いて、前記音響特徴量DNNを学習する、ことを特徴とする。
さらに、請求項4のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の音声合成装置として機能させることを特徴とする。
以上のように、本発明によれば、話者及び感情の組み合わせ毎の膨大な数のDNNを用意する必要がないから、簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現することができる。
本発明の実施形態による音声合成装置の構成例を示すブロック図である。 事前学習部の構成例を示すブロック図である。 テキスト解析部の構成例を示すブロック図である。 音響分析部の構成例を示すブロック図である。 合成処理部の構成例を示すブロック図である。 時間長DNNの構成の概要を説明する図である。 音響特徴量DNNの構成の概要を説明する図である。 言語特徴量及び音響特徴量の関係について説明する図である。 音素の言語特徴量、話者ラベル及び感情ラベルの例を説明する図である。 事前学習部の処理例を示すフローチャートである。 合成処理部の処理例を示すフローチャートである。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、話者性及び感情表現と音声波形とを関連付けて、時間長DNN及び音響特徴量DNNを事前に学習する。また、本発明は、事前に学習した時間長DNN及び音響特徴量DNNを用いて、話者性及び感情表現を反映した音声合成を実現する。
時間長DNNは、音素の言語特徴量、話者ラベル及び感情ラベルを入力層の各ユニットに与え、音素の時間長を出力層のユニットに与えることで、音素毎に学習されたモデルである。音響特徴量DNNは、音素フレームの言語特徴量、話者ラベル及び感情ラベルを入力層の各ユニットに与え、音素フレームの音響特徴量を出力層の各ユニットに与えることで、音素フレーム毎に学習されたモデルである。
これにより、時間長DNN及び音響特徴量DNNの2つのDNNを用意すればよいから、話者及び感情の組み合わせ毎の膨大な数のDNNを用意する必要がなく、簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現することができる。
〔音声合成装置〕
まず、本発明の実施形態による音声合成装置について説明する。図1は、本発明の実施形態による音声合成装置の構成例を示すブロック図である。この音声合成装置1は、音声コーパスが格納された記憶部2、事前学習部3、時間長DNN及び音響特徴量DNNが格納された記憶部4、及び合成処理部5を備えている。
記憶部2には、特定の文章が複数の話者と感情で読み上げられた音声に関する情報、すなわち、テキスト、話者情報、感情情報及び音声波形の各情報により構成された音声コーパスが格納されている。音声コーパスは、話者及び感情の組み合わせを単位としたデータベースである。
話者情報は、個々の発話者を識別するための情報であり、感情情報は、例えば喜び、怒り、悲哀、平静等の発話表現を識別するための情報であり、音声波形は、テキストに対する音声波形情報である。
事前学習部3は、記憶部2から、所定の音声コーパスのテキスト、話者情報、感情情報及び音声波形を読み出し、話者情報及び感情情報に話者ラベル及び感情ラベルをそれぞれ付与する。話者ラベルは、話者を識別するためのラベルであり、感情ラベルは、感情を識別するためのラベルである。
事前学習部3は、テキストに対し、所定のテキスト解析を行うと共に、音声波形に対し、所定の音響分析を行うことで、時間長DNN及び音響特徴量DNNを学習するための言語特徴量及び音響特徴量等の情報を生成する。事前学習部3は、言語特徴量及び音響特徴量等の情報、並びに話者ラベル及び感情ラベルを用いて、記憶部4に格納された時間長DNN及び音響特徴量DNNを事前に学習する。
テキスト解析の手法及び音響解析の手法は既知であるから、ここでは詳細な説明は省略する。時間長DNN及び音響特徴量DNNの学習は、例えばLSTM(Long Short Term Memory:長期短期記憶)方式にて行われる。
記憶部4には、事前学習部3により学習された時間長DNN及び音響特徴量DNNが格納される。
図6は、時間長DNNの構成の概要を説明する図である。時間長DNNは、学習時に、音素の言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素の時間長が出力層のユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素単位の学習が行われる。
学習のための音素の言語特徴量は、例えば、音素ラベル、アクセントの位置、品詞情報、アクセント句の情報、呼気段落の情報等からなる。音素の時間長は、例えば音素を構成する音素フレームの数で表される。
また、後述する音声合成時には、時間長DNNの入力層の各ユニットに、音素の言語特徴量、話者ラベル及び感情ラベルが与えられることで、出力層のユニットから、当該音素の言語特徴量、話者ラベル及び感情ラベルに対応する音素の時間長が出力される。
図7は、音響特徴量DNNの構成の概要を説明する図である。音響特徴量DNNは、学習時に、音素フレームの言語特徴量、話者(話者ラベル)及び感情(感情ラベル)が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重み等が計算され、音素フレーム単位の学習が行われる。
学習のための音素フレームの言語特徴量は、例えば、音素の言語特徴量と同様の音素ラベル、アクセントの位置、品詞情報、アクセント句の情報、呼気段落の情報等に加え、音素を構成するフレームの番号(フレームの位置)、音素を構成するフレームの総数等の情報からなる。音素フレームの音響特徴量は、例えば、スペクトル係数、雑音性係数、ピッチ、有声/無声判定等の情報からなる。
また、後述する音声合成時には、音響特徴量DNNの入力層の各ユニットに、音素フレームの言語特徴量、話者ラベル及び感情ラベルが与えられることで、出力層の各ユニットから、当該音素フレームの言語特徴量、話者ラベル及び感情ラベルに対応する音素フレームの音響特徴量が出力される。
図1に戻って、合成処理部5は、合成対象の音声波形に対応するテキスト、話者情報及び感情情報を入力し、話者情報及び感情情報に基づいて、話者ラベル及び感情ラベルをそれぞれ付与する。そして、合成処理部5は、テキストに対し、所定のテキスト解析を行い、言語特徴量等の情報を生成し、記憶部4に格納された時間長DNN及び音響特徴量DNNを用いて、時間長及び音響特徴量を生成し、音声波形を合成して出力する。
例えば、話者Aによる喜びの感情を表現した音声波形を合成する場合、合成処理部5は、所定のテキスト、話者Aを示す話者情報、及び喜びの感情を示す感情情報を入力し、時間長DNN及び音響特徴量DNNを用いて、所定のテキストに対応する音声波形を合成する。
〔事前学習部3/構成〕
次に、図1に示した事前学習部3の構成について詳細に説明する。図2は、事前学習部3の構成例を示すブロック図である。この事前学習部3は、テキスト解析部11、話者感情ラベル処理部12及び音響分析部13を備えている。
事前学習部3は、記憶部2から、事前学習対象の音声コーパスのテキスト、話者情報、感情情報及び音声波形を読み出す。テキスト解析部11は、記憶部2の音声コーパスから読み出されたテキストに対し、テキスト解析を行い、音素毎に音素の言語特徴量を生成し、音素の言語特徴量に含まれる音素ラベルを音響分析部13に出力する。
図9は、音素の言語特徴量、話者ラベル及び感情ラベルの例を説明する図である。この音素の言語特徴量は、テキスト解析により生成された情報である。図9に示すように、テキスト解析により生成された音素の言語特徴量は、音素毎に、「音素ラベル」「アクセント情報」「品詞情報」「アクセント句情報」「呼気段落情報」「総数情報」の各種情報からなる。「音素ラベル」は、テキストを構成する音素を特定するための情報(音素情報)であり、当該音素に加え、前後の音素も含まれる。「話者ラベル」は、話者情報に付与された情報であり、「感情ラベル」は、感情情報に付与された情報である。
図2に戻って、テキスト解析部11は、テキスト解析にて生成した音素の言語特徴量に基づいて、事前学習のための音素の言語特徴量を生成し、話者感情ラベル処理部12から話者ラベル及び感情ラベルを入力する。そして、テキスト解析部11は、事前学習のための音素の言語特徴量、話者ラベル及び感情ラベルを、記憶部4の時間長DNNにおける入力層の各ユニットに出力する。
事前学習のための音素の言語特徴量は、テキスト解析により生成した音素の言語特徴量の一部の情報、及び、テキスト解析により生成した音素の言語特徴量を加工した情報からなる。事前学習のための音素の言語特徴量は、例えば「音素ラベル」「音素情報」「有声音の有無」「アクセントの位置」等の各種情報からなる。
テキスト解析部11は、音響分析部13から音素の時間長を入力し、事前学習のための音素の言語特徴量及び音素の時間長に基づいて、音素の時間長が示す音素フレーム数分の音素フレームの言語特徴量を生成する。そして、テキスト解析部11は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを、記憶部4の音響特徴量DNNにおける入力層の各ユニットに出力する。
音素フレームの言語特徴量は、事前学習のための音素の言語特徴量の各種情報に加え、音素フレームを特定するための情報からなる。音素フレームの言語特徴量は、例えば「音素ラベル」「有声音の有無」「アクセントの位置」「フレームの番号」「フレームの総数」等の情報からなる。テキスト解析部11の詳細については後述する。
話者感情ラベル処理部12は、記憶部2の音声コーパスから読み出された話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与し、話者ラベル及び感情ラベルをテキスト解析部11に出力する。
音響分析部13は、テキスト解析部11から音素ラベルを入力し、記憶部2の音声コーパスから読み出された音声波形に対し、所定の学習データを用いて音響分析を行うと共に、音素の区切り位置を求める。そして、音響分析部13は、音素の区切り位置から音素の時間長を求めると共に、音素フレームの音響特徴量を生成する。音響分析部13は、音素の時間長をテキスト解析部11に出力すると共に、記憶部4の時間長DNNにおける出力層のユニットに出力する。音響分析部13は、音素フレームの音響特徴量を、記憶部4の音響特徴量DNNにおける出力層の各ユニットに出力する。
音響分析により音素の区切り位置及び音素の時間長を求め、音素フレームの音響特徴量を生成する手法は既知であるから、ここでは詳細な説明は省略する。
音素フレームの音響特徴量は、例えば、「スペクトル係数」「雑音性係数」「ピッチ」「有声/無声判定」等の情報からなる。音響分析部13の詳細については後述する。
このような事前学習により、時間長DNN及び音響特徴量DNNは、話者性及び感情表現と音声波形とを関連付けたモデルとなる。
〔事前学習部3/処理〕
次に、図2に示した事前学習部3の処理について説明する。図10は、事前学習部3の処理例を示すフローチャートである。事前学習部3のテキスト解析部11は、記憶部2の音声コーパスから読み出されたテキストに対し、テキスト解析を行い(ステップS1001)、音素の言語特徴量を生成する。そして、テキスト解析部11は、テキスト解析にて生成した音素の言語特徴量に基づいて、事前学習のための音素の言語特徴量を生成する(ステップS1002)。
話者感情ラベル処理部12は、記憶部2の音声コーパスから読み出された話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与する(ステップS1003)。
音響分析部13は、記憶部2の音声コーパスから読み出された音声波形に対し、音響分析を行い(ステップS1004)、音素の区切り位置を求め、音素の時間長を求める(ステップS1005)。
テキスト解析部11は、事前学習のための音素の言語特徴量、話者ラベル及び感情ラベルを時間長DNNに出力すると共に、音響分析部13は、音素の時間長を時間長DNNに出力する。これにより、時間長DNNの事前学習が行われる(ステップS1006)。
音響分析部13は、音声波形を音響分析することで、ステップS1005にて求めた音素の区切り位置に基づいて、音素フレームの音響特徴量を生成する(ステップS1007)。
テキスト解析部11は、事前学習のための音素の言語特徴量、及び音響分析部13により求めた音素の時間長に基づいて、音素フレームの言語特徴量を生成する(ステップS1008)。
テキスト解析部11は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを音響特徴量DNNに出力すると共に、音響分析部13は、音素フレームの音響特徴量を音響特徴量DNNに出力する。これにより、音響特徴量DNNの事前学習が行われる(ステップS1009)。
〔言語特徴量と音響特徴量との間の関係〕
次に、時間長DNN及び音響特徴量DNNの入出力データである音素の言語特徴量、音素フレームの言語特徴量、音素の時間長及び音素フレームの音響特徴量の関係について説明する。図8は、言語特徴量及び音響特徴量の関係について説明する図である。
テキストを「い」「ま」とし、「い」の音素ラベルを「i」、「ま」の音素ラベルを「m」「a」とする。また、音素ラベル「i」「m」「a」における音素の時間長をそれぞれ「12」「8」「15」とする。音素の時間長は、1音素あたりの音素フレームの数を示す。音素フレームの時間長は、例えば5msecである。
図8に示すように、音素ラベル「i」の時間区間において、この1音素に対応して、1組の音素の言語特徴量(の各情報)が生成され、12組の音素フレームの言語特徴量(の各情報)が生成され、12組の音素フレームの音響特徴量(の各情報)が生成される。
また、音素ラベル「m」の時間区間において、この1音素に対応して、1組の音素の言語特徴量が生成され、8組の音素フレームの言語特徴量が生成され、8組の音素フレームの音響特徴量が生成される。
また、音素ラベル「a」の時間区間において、この1音素に対応して、1組の音素の言語特徴量が生成され、15組の音素フレームの言語特徴量が生成され、15組の音素フレームの音響特徴量が生成される。
このように、事前学習において、時間長DNNの入力層の各ユニットには、音素の言語特徴量、話者ラベル及び感情ラベルが与えられ、出力層のユニットには、音素の時間長が与えられ、この事前学習は音素を単位として行われる。つまり、時間長DNNには、音素毎に、音素の言語特徴量、話者ラベル、感情ラベル及び音素の時間長が与えられ、事前学習が行われる。音声合成においては、音素毎に、時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づいて、音素の時間長が生成され出力される。
また、事前学習において、音響特徴量DNNの入力層の各ユニットには、音素フレームの言語特徴量、話者ラベル及び感情ラベルが与えられ、出力層の各ユニットには、音素フレームの音響特徴量が与えられ、この事前学習は音素フレームを単位として行われる。つまり、音響特徴量DNNには、音素フレーム毎に、音素フレームの言語特徴量、話者ラベル、感情ラベル及び音素フレームの音響特徴量が与えられ、事前学習が行われる。音声合成においては、音素フレーム毎に、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づいて、音素フレームの音響特徴量が生成され出力される。
(テキスト解析部11)
次に、図2に示したテキスト解析部11について詳細に説明する。図3は、テキスト解析部11の構成例を示すブロック図である。このテキスト解析部11は、テキスト解析手段31、前処理手段32及びフレーム処理手段33を備えている。
テキスト解析手段31は、記憶部2の音声コーパスから読み出されたテキストに対し、形態素解析等のテキスト解析を行い、音素毎に音素の言語特徴量を生成する。そして、テキスト解析手段31は、音素の言語特徴量を前処理手段32に出力する。
前処理手段32は、テキスト解析手段31から、テキスト解析により生成された音素の言語特徴量を入力すると共に、話者感情ラベル処理部12から話者ラベル及び感情ラベルを入力する。そして、前処理手段32は、図9に示したように、テキスト解析により生成された音素の言語特徴量、話者ラベル及び感情ラベルからなる情報群を生成する。
前処理手段32は、テキスト解析により生成された音素の言語特徴量(図9を参照)に基づいて、事前学習のための音素の言語特徴量を生成する。そして、前処理手段32は、事前学習のための音素の言語特徴量、話者ラベル及び感情ラベルをフレーム処理手段33に出力すると共に、記憶部4の時間長DNNにおける入力層の各ユニットに出力する。
フレーム処理手段33は、前処理手段32から、事前学習のための音素の言語特徴量、話者ラベル及び感情ラベルを入力すると共に、音響分析部13から音素の時間長を入力する。そして、フレーム処理手段33は、事前学習のための音素の言語特徴量及び音素の時間長に基づいて、音素の時間長が示す音素フレーム数分の音素フレームの言語特徴量を生成する。
フレーム処理手段33は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを、記憶部4の音響特徴量DNNにおける入力層の各ユニットに出力する。
(音響分析部13)
次に、図2に示した音響分析部13について詳細に説明する。図4は、音響分析部13の構成例を示すブロック図である。この音響分析部13は、音素区切り処理手段34及び音響分析手段35を備えている。
音素区切り処理手段34は、テキスト解析部11から音素ラベルを入力し、記憶部2の音声コーパスから読み出された音声波形に対し、所定の学習データを用いて音響分析を行う。そして、音素区切り処理手段34は、音素ラベルの示す音素が音声波形内でどの位置にあるかを特定し、音素の区切り位置を求める。また、音素区切り処理手段34は、音素の区切り位置に基づいて、音素ラベルの示す音素の時間長を求める。前述のとおり、音素の時間長は、音素を構成する音素フレームの数で表される。
音素区切り処理手段34は、音素の区切り位置を音響分析手段35に出力し、音素の時間長をテキスト解析部11に出力すると共に、記憶部4の時間長DNNにおける出力層のユニットに出力する。
音響分析手段35は、音素区切り処理手段34から音素の区切り位置を入力し、記憶部2の音声コーパスから読み出された音声波形に対し、音響分析を行い、音素を構成する複数の音素フレームのそれぞれについて、音素フレームの音響特徴量を生成する。
音響分析手段35は、音素フレームの音響特徴量を、記憶部4の音響特徴量DNNにおける出力層の各ユニットに出力する。
〔合成処理部5〕
次に、図1に示した合成処理部5の構成について詳細に説明する。図5は、合成処理部5の構成例を示すブロック図である。この合成処理部5は、テキスト解析部21、話者感情ラベル処理部22、時間長及び音響特徴量生成部23及び音声波形合成部24を備えている。
テキスト解析部21は、図2に示したテキスト解析部11と同様の処理を行う。具体的には、テキスト解析部21は、合成対象の音声波形に対応するテキストを入力し、テキストに対してテキスト解析を行い、音素毎に音素の言語特徴量を生成する。
テキスト解析部21は、テキスト解析にて生成した音素の言語特徴量に基づいて、図2に示したテキスト解析部11により生成された事前学習のための音素の言語特徴量と同様の音素の言語特徴量を生成し、話者感情ラベル処理部22から話者ラベル及び感情ラベルを入力する。そして、テキスト解析部21は、音素の言語特徴量、話者ラベル及び感情ラベルを時間長及び音響特徴量生成部23に出力する。
テキスト解析部21は、時間長及び音響特徴量生成部23から、当該時間長及び音響特徴量生成部23に出力した音素の言語特徴量、話者ラベル及び感情ラベルに対応する音素の時間長を入力し、音素の言語特徴量及び音素の時間長に基づいて、音素の時間長が示す音素フレーム数分の音素フレームの言語特徴量を生成する。そして、テキスト解析部21は、音素フレームの言語特徴量、話者ラベル及び感情ラベルを、時間長及び音響特徴量生成部23に出力する。
話者感情ラベル処理部22は、図2に示した話者感情ラベル処理部12と同様の処理を行う。具体的には、話者感情ラベル処理部22は、話者情報及び感情情報を入力し、話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与し、話者ラベル及び感情ラベルをテキスト解析部21に出力する。
時間長及び音響特徴量生成部23は、テキスト解析部21から音素の言語特徴量、話者ラベル及び感情ラベルを入力し、記憶部4の時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づいて、音素の時間長を生成する。そして、時間長及び音響特徴量生成部23は、音素の時間長をテキスト解析部21に出力する。
時間長及び音響特徴量生成部23は、テキスト解析部21から音素フレームの言語特徴量、話者ラベル及び感情ラベルを入力し、記憶部4の音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づいて、音素フレームの音響特徴量を生成する。
時間長及び音響特徴量生成部23は、音素フレームの音響特徴量を音声波形合成部24に出力する。
音声波形合成部24は、時間長及び音響特徴量生成部23から音素フレームの音響特徴量を入力し、音素フレームの音響特徴量に基づいて、音声波形を合成し、合成した音声波形を出力する。
具体的には、音声波形合成部24は、音素フレームの音響特徴量に含まれるピッチ、雑音特性等の情報に基づいて、声帯音源波形を生成する。そして、音声波形合成部24は、声帯音源波形に対し、音素フレームの音響特徴量に含まれるスペクトル係数等の情報に基づいて声道フィルタ処理を施し、音声波形を合成する。
音素フレームの音響特徴量に基づいて音声波形を合成する手法は既知であるから、ここでは詳細な説明を省略する。
このような音声合成により、話者情報及び感情情報と音声波形とを関連付けた時間長DNN及び音響特徴量DNNを用いることで、テキスト、話者情報及び感情情報に対応する音声波形が合成される。
〔合成処理部5/処理〕
次に、図5に示した合成処理部5の処理について説明する。図11は、合成処理部5の処理例を示すフローチャートである。合成処理部5のテキスト解析部21は、合成対象の音声波形に対応するテキストに対し、テキスト解析を行い(ステップS1101)、音素の言語特徴量を生成する(ステップS1102)。
話者感情ラベル処理部22は、話者情報及び感情情報に対し、話者ラベル及び感情ラベルをそれぞれ付与する(ステップS1103)。
時間長及び音響特徴量生成部23は、時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づき音素の時間長を生成する(ステップS1104)。そして、テキスト解析部21は、音素の言語特徴量及び音素の時間長に基づいて、音素フレームの言語特徴量を生成する(ステップS1105)。
時間長及び音響特徴量生成部23は、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づき音素フレームの音響特徴量を生成する(ステップS1106)。
音声波形合成部24は、音素フレームの音響特徴量に基づいて、音声波形を合成し、合成した音声波形を出力する(ステップS1107)。
以上のように、本発明の実施形態の音声合成装置1によれば、学習時に、事前学習部3のテキスト解析部11は、音声コーパスから読み出されたテキストに対しテキスト解析を行い、音素の言語特徴量を生成する。音響分析部13は、音声コーパスから読み出された音声波形に対して音響分析を行い、音素の区切り位置を求め、音素の時間長を求める。テキスト解析部11は、音素の言語特徴量、話者ラベル及び感情ラベルを、時間長DNNにおける入力層の各ユニットに出力すると共に、音響分析部13は、音素の時間長を、時間長DNNにおける出力層のユニットに出力する。これにより、時間長DNNの事前学習が行われる。
また、音響分析部13は、音声波形を音響分析することで、音素の区切り位置に基づいて、音素フレームの音響特徴量を生成する。テキスト解析部11は、音素の言語特徴量及び音素の時間長に基づいて、音素フレームの言語特徴量を生成し、音素フレームの言語特徴量、話者ラベル及び感情ラベルを、音響特徴量DNNにおける入力層の各ユニットに出力すると共に、音響分析部13は、音素フレームの音響特徴量を、音響特徴量DNNにおける出力層の各ユニットに出力する。これにより、音響特徴量DNNの事前学習が行われる。
さらに、本発明の実施形態の音声合成装置1によれば、音声合成時に、合成処理部5のテキスト解析部21は、対象のテキストに対しテキスト解析を行い、音素の言語特徴量を生成する。時間長及び音響特徴量生成部23は、時間長DNNを用いて、音素の言語特徴量、話者ラベル及び感情ラベルに基づき音素の時間長を生成する。
テキスト解析部21は、音素の言語特徴量及び音素の時間長に基づいて、音素フレームの言語特徴量を生成する。時間長及び音響特徴量生成部23は、音響特徴量DNNを用いて、音素フレームの言語特徴量、話者ラベル及び感情ラベルに基づき音素フレームの音響特徴量を生成する。そして、音声波形合成部24は、音素フレームの音響特徴量に基づいて、音声波形を合成する。
これにより、話者性及び感情表現と音声波形とを関連付けた時間長DNN及び音響特徴量DNNを用いるようにしたから、HMM方式よりも音質の良い音声合成を実現することができると共に、話者性及び感情表現を同時に制御することができる。このため、学習時には、話者性及び感情表現に対応した複雑な特徴抽出作業を行う必要がない。
また、時間長DNN及び音響特徴量DNNからなる2つのDNNを用いて音声合成を行うようにしたから、話者及び感情の組み合わせ毎の膨大なDNNを用いる必要がなく、途切れることのない連続的なかつ自然な読み上げ音声を生成することができる。
したがって、簡易な構成にて、話者性及び感情表現を同時に制御可能な音声合成を実現することができる。
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、図1に示したように、音声合成装置1は、事前学習を行う事前学習部3と、音声合成を行う合成処理部5とを備えるようにした。これに対し、事前学習部3と合成処理部5とを、それぞれ異なる装置に備えるようにしてもよい。
具体的には、記憶部2を備えた記憶装置、事前学習部3を備えた学習装置、記憶部4を備えた記憶装置、及び合成処理部5を備えた合成装置により音声合成システムが構成される。この場合、学習装置と、記憶部2を備えた記憶装置及び記憶部4を備えた記憶装置とは、インターネットを介して接続されるようにしてもよい。また、合成装置と、記憶部4を備えた記憶装置とは、同様にインターネットを介して接続されるようにしてもよい。さらに、学習装置は、記憶部2、事前学習部3及び記憶部4を備え、合成装置は、記憶媒体を介して可搬された記憶部4、及び合成処理部5を備えるようにしてもよい。
また、前記実施形態では、時間長DNN及び音響特徴量DNNにおけるそれぞれの入力層のユニットに、話者情報及び感情情報を与えるようにした。これに対し、これらの入力層のユニットに、複数の話者情報及び複数の感情情報を与えるようにしてもよい。例えば、話者が複数の観点から分類され、話者に対して複数の話者情報が紐付けられ、同様に、感情が複数の観点から分類され、感情に対して複数の感情情報が紐付けられ、これらを入力層のユニットに与えるようにしてもよい。
尚、本発明の実施形態による音声合成装置1のハードウェア構成としては、通常のコンピュータを使用することができる。音声合成装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声合成装置1に備えた事前学習部3及び合成処理部5の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1 音声合成装置
2,4 記憶部
3 事前学習部
5 合成処理部
11,21 テキスト解析部
12,22 話者感情ラベル処理部
13 音響分析部
23 時間長及び音響特徴量生成部
24 音声波形合成部
31 テキスト解析手段
32 前処理手段
33 フレーム処理手段
34 音素区切り処理手段
35 音響分析手段

Claims (4)

  1. 事前に学習されたDNN(ディープニューラルネットワーク)を用いて、音声波形を合成する音声合成装置において、
    音素の言語特徴量、話者を識別するための話者ラベル、及び感情を識別するための感情ラベルが入力層に与えられ、音素の時間長が出力層に与えられることで学習された時間長DNNと、
    音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルが入力層に与えられ、音素フレームの音響特徴量が出力層に与えられることで学習された音響特徴量DNNと、
    テキスト、話者情報及び感情情報を入力し、前記時間長DNN及び前記音響特徴量DNNを用いて、前記テキスト、前記話者情報及び前記感情情報に対応する音声波形を合成する合成処理部と、を備え、
    前記合成処理部は、
    前記テキストをテキスト解析して音素の言語特徴量を生成し、
    前記時間長DNNを用いて、前記音素の言語特徴量、前記話者情報に付与した話者ラベル、及び前記感情情報に付与した感情ラベルに基づいて、音素の時間長を生成し、
    前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、
    前記音響特徴量DNNを用いて、前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、音素フレームの音響特徴量を生成し、
    当該音素フレームの音響特徴量に基づいて、前記音声波形を合成する、ことを特徴とする音声合成装置。
  2. 請求項1に記載の音声合成装置において、
    前記合成処理部は、
    前記話者情報に前記話者ラベルを付与すると共に、前記感情情報に前記感情ラベルを付与する話者感情ラベル処理部と、
    前記テキストをテキスト解析して前記音素の言語特徴量を生成し、前記音素の言語特徴量及び前記音素の時間長に基づいて、前記音素フレームの言語特徴量を生成するテキスト解析部と、
    前記時間長DNNを用いて、前記テキスト解析部により生成された前記音素の言語特徴量、前記話者感情ラベル処理部により付与された前記話者ラベル及び前記感情ラベルに基づいて、前記音素の時間長を生成し、
    前記音響特徴量DNNを用いて、前記テキスト解析部により生成された前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、前記音素フレームの音響特徴量を生成する時間長及び音響特徴量生成部と、
    前記時間長及び音響特徴量生成部により生成された前記音素フレームの音響特徴量に基づいて、前記音声波形を合成する音声波形合成部と、
    を備えたことを特徴とする音声合成装置。
  3. 請求項1または2に記載の音声合成装置において、
    さらに、テキスト、話者情報、感情情報及び音声波形が格納された音声コーパスを用いて、前記時間長DNN及び前記音響特徴量DNNを学習する学習部を備え、
    前記学習部は、
    前記音声コーパスから前記テキストを読み出し、当該テキストをテキスト解析して音素の言語特徴量を生成し、
    前記音声コーパスから前記音声波形を読み出し、当該音声波形を音響分析して音素の区切り位置を求めると共に、音素の時間長を求め、
    前記音響コーパスから前記話者情報及び前記感情情報を読み出し、話者ラベル及び感情ラベルをそれぞれ付与し、
    前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、
    前記音素の言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素の時間長を用いて、前記時間長DNNを学習し、
    前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素フレームの音響特徴量を用いて、前記音響特徴量DNNを学習する、ことを特徴とする音声合成装置。
  4. コンピュータを、請求項1から3までのいずれか一項に記載の音声合成装置として機能させるためのプログラム。
JP2017042169A 2017-03-06 2017-03-06 音声合成装置及びプログラム Active JP6846237B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017042169A JP6846237B2 (ja) 2017-03-06 2017-03-06 音声合成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017042169A JP6846237B2 (ja) 2017-03-06 2017-03-06 音声合成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2018146803A true JP2018146803A (ja) 2018-09-20
JP6846237B2 JP6846237B2 (ja) 2021-03-24

Family

ID=63592055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017042169A Active JP6846237B2 (ja) 2017-03-06 2017-03-06 音声合成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6846237B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018205654A (ja) * 2017-06-09 2018-12-27 日本電信電話株式会社 音声合成学習装置、音声合成装置、これらの方法及びプログラム
WO2020026536A1 (ja) 2018-08-03 2020-02-06 株式会社Jvcケンウッド 情報表示装置、情報表示システム、情報表示方法、及びプログラム
WO2020071213A1 (ja) * 2018-10-05 2020-04-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、及びプログラム
WO2020116490A1 (ja) * 2018-12-05 2020-06-11 株式会社レボーン 情報処理装置、情報処理方法、学習済みモデルの生成方法及びプログラム
CN112216307A (zh) * 2019-07-12 2021-01-12 华为技术有限公司 语音情感识别方法以及装置
JP2021056467A (ja) * 2019-10-02 2021-04-08 日本放送協会 学習装置、音声合成装置及びプログラム
JP2021157193A (ja) * 2020-11-11 2021-10-07 北京百度網訊科技有限公司 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP2022133392A (ja) * 2021-08-17 2022-09-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法、装置、電子機器及び記憶媒体
JP7372402B2 (ja) 2021-08-18 2023-10-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法、装置、電子機器及び記憶媒体
US11842720B2 (en) 2018-11-06 2023-12-12 Yamaha Corporation Audio processing method and audio processing system
US11942071B2 (en) 2018-11-06 2024-03-26 Yamaha Corporation Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272399A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声規則合成方式
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN104538024A (zh) * 2014-12-01 2015-04-22 百度在线网络技术(北京)有限公司 语音合成方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0272399A (ja) * 1988-09-07 1990-03-12 Hitachi Ltd 音声規則合成方式
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN104538024A (zh) * 2014-12-01 2015-04-22 百度在线网络技术(北京)有限公司 语音合成方法、装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LUONG, HIEU THI、外3名: ""DNNに基づくテキスト音声合成における話者・ジェンダー・年齢コード利用の検討"", 電子情報通信学会技術研究報告, vol. 116, no. 279, JPN6020041294, 20 October 2016 (2016-10-20), ISSN: 0004379382 *
清山 信正: ""解説02 音声合成技術の動向と放送・通信分野における応用展開"", NHK技研R&D, JPN6020041291, 15 January 2017 (2017-01-15), ISSN: 0004379380 *
高木 信二: ""とてもDeepなテキスト音声合成"", 電子情報通信学会技術研究報告, vol. 116, no. 414, JPN6020041293, 14 January 2017 (2017-01-14), pages 41 - 46, ISSN: 0004379381 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018205654A (ja) * 2017-06-09 2018-12-27 日本電信電話株式会社 音声合成学習装置、音声合成装置、これらの方法及びプログラム
WO2020026536A1 (ja) 2018-08-03 2020-02-06 株式会社Jvcケンウッド 情報表示装置、情報表示システム、情報表示方法、及びプログラム
JP7125608B2 (ja) 2018-10-05 2022-08-25 日本電信電話株式会社 音響モデル学習装置、音声合成装置、及びプログラム
WO2020071213A1 (ja) * 2018-10-05 2020-04-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、及びプログラム
JP2020060633A (ja) * 2018-10-05 2020-04-16 日本電信電話株式会社 音響モデル学習装置、音声合成装置、及びプログラム
US11942071B2 (en) 2018-11-06 2024-03-26 Yamaha Corporation Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles
US11842720B2 (en) 2018-11-06 2023-12-12 Yamaha Corporation Audio processing method and audio processing system
WO2020116490A1 (ja) * 2018-12-05 2020-06-11 株式会社レボーン 情報処理装置、情報処理方法、学習済みモデルの生成方法及びプログラム
CN112216307B (zh) * 2019-07-12 2023-05-16 华为技术有限公司 语音情感识别方法以及装置
CN112216307A (zh) * 2019-07-12 2021-01-12 华为技术有限公司 语音情感识别方法以及装置
JP2021056467A (ja) * 2019-10-02 2021-04-08 日本放送協会 学習装置、音声合成装置及びプログラム
JP7469015B2 (ja) 2019-10-02 2024-04-16 日本放送協会 学習装置、音声合成装置及びプログラム
JP2021157193A (ja) * 2020-11-11 2021-10-07 北京百度網訊科技有限公司 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP7194779B2 (ja) 2020-11-11 2022-12-22 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム
US11769482B2 (en) 2020-11-11 2023-09-26 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium
JP2022133392A (ja) * 2021-08-17 2022-09-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法、装置、電子機器及び記憶媒体
JP7372402B2 (ja) 2021-08-18 2023-10-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
JP6846237B2 (ja) 2021-03-24

Similar Documents

Publication Publication Date Title
JP6846237B2 (ja) 音声合成装置及びプログラム
US11443733B2 (en) Contextual text-to-speech processing
US11763797B2 (en) Text-to-speech (TTS) processing
CN116034424A (zh) 两级语音韵律迁移
US9978359B1 (en) Iterative text-to-speech with user feedback
JP6392012B2 (ja) 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
EP4073786A1 (en) Attention-based clockwork hierarchical variational encoder
Zhao et al. Using phonetic posteriorgram based frame pairing for segmental accent conversion
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
Dua et al. Spectral warping and data augmentation for low resource language ASR system under mismatched conditions
JP2016151736A (ja) 音声加工装置、及びプログラム
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
WO2010104040A1 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
KR102277205B1 (ko) 오디오 변환 장치 및 방법
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
Louw et al. The Speect text-to-speech entry for the Blizzard Challenge 2016
JP2021148942A (ja) 声質変換システムおよび声質変換方法
JP2021085943A (ja) 音声合成装置及びプログラム
JP2018205768A (ja) 発話リズム変換装置、方法及びプログラム
KR102426020B1 (ko) 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치
Kaur et al. Formant Text to Speech Synthesis Using Artificial Neural Networks
KR102677459B1 (ko) 2-레벨 스피치 운율 전송
Louw Neural speech synthesis for resource-scarce languages
Astrinaki et al. sHTS: A streaming architecture for statistical parametric speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210301

R150 Certificate of patent or registration of utility model

Ref document number: 6846237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250