JP7088796B2 - 音声合成に用いる統計モデルを学習する学習装置及びプログラム - Google Patents

音声合成に用いる統計モデルを学習する学習装置及びプログラム Download PDF

Info

Publication number
JP7088796B2
JP7088796B2 JP2018175221A JP2018175221A JP7088796B2 JP 7088796 B2 JP7088796 B2 JP 7088796B2 JP 2018175221 A JP2018175221 A JP 2018175221A JP 2018175221 A JP2018175221 A JP 2018175221A JP 7088796 B2 JP7088796 B2 JP 7088796B2
Authority
JP
Japan
Prior art keywords
feature amount
pose
unit
language
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018175221A
Other languages
English (en)
Other versions
JP2020046551A (ja
Inventor
信正 清山
清 栗原
正 熊野
篤 今井
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2018175221A priority Critical patent/JP7088796B2/ja
Publication of JP2020046551A publication Critical patent/JP2020046551A/ja
Application granted granted Critical
Publication of JP7088796B2 publication Critical patent/JP7088796B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、テキストから音声信号を合成するために用いる統計モデルを学習する学習装置及びプログラムに関する。
従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する合成音声を得る方法として、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いた深層学習(DL:Deep Learning)に基づく技術が知られている(例えば、非特許文献1を参照)。
図13は、非特許文献1に記載された従来の学習方法及び合成方法を示す説明図である。この学習方法を実現する学習装置は、事前に用意された音声コーパスのテキストとこれに対応する音声信号を用いて、テキストについては言語分析処理により言語特徴量を抽出する(ステップS1301)。また、学習装置は、音声信号について音声分析処理により音響特徴量を抽出する(ステップS1302)。
学習装置は、言語特徴量と音響特徴量の時間的な対応付けを行い(ステップS1303)、言語特徴量と音響特徴量を用いて統計モデルを学習する(ステップS1304)。
また、この合成方法を実現する音声合成装置は、任意のテキストを入力し、テキストの言語分析処理により言語特徴量を抽出する(ステップS1305)。そして、音声合成装置は、学習装置により学習された統計モデルを用いて、言語特徴量から音響特徴量を推定し(ステップS1306)、音声生成処理により、音響特徴量から音声信号波形を求める(ステップS1307)。これにより、任意のテキストに対応する合成音声信号を得ることができる。
Zhizheng Wu, Oliver Watts, Simon King," Merlin:An Open Source Neural Network Speech Synthesis System", in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA.
前述の非特許文献1の方法は、言語特徴量を入力データとし、音響特徴量を出力データとする統計モデルを用いて、任意のテキストに対して合成音声信号を得るものである。
統計モデルの学習時において、言語特徴量が網羅する範囲内に十分な量の学習データが存在し、かつ、統計モデルを用いた合成時において、この範囲内で言語特徴量が指定された場合には、安定的な品質の合成音声信号を得ることができる。
しかしながら、学習時において、前記範囲内に十分な量の学習データが存在しない場合、または、合成時において、言語特徴量の指定が前記範囲を逸脱する場合には、不安定な品質の合成音声信号となってしまう。
例えば、学習装置は、発話中のポーズの特徴量について、予め設定された閾値に基づきポーズ長を分類して設定値(分類値)を求め、このポーズ長の設定値を含む言語特徴量を生成し、この言語特徴量を用いて統計モデルを学習する。音声合成装置は、合成時に、発話中のポーズの特徴量について、前記閾値に基づきポーズ長の設定値を求め、このポーズ長の設定値を含む言語特徴量を入力データとし、統計モデルを用いて音響特徴量を推定し、合成音声信号を得る。
ここで、統計モデルの学習時に、前記閾値に基づき求めたポーズ長の設定値について、当該ポーズ長の設定値が網羅する範囲内に十分な量の学習データが存在しない場合には、安定的な品質の合成音声信号を得るための統計モデルを生成することができない。つまり、このような統計モデルを用いて生成された合成音声信号は音質劣化が生じ、不安定な品質となってしまう。このように、前述の非特許文献1の方法では、安定的な品質の合成音声信号を得ることができないという問題があった。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、ポーズに関する情報を含む言語特徴量の学習データを用いて学習を行う際に、安定的な品質の合成音声信号を得るための統計モデルを生成可能な学習装置及びプログラムを提供することにある。
前記課題を解決するために、請求項1の学習装置は、音声コーパスのテキスト及び音声信号に基づいて、音声合成に用いる統計モデルを学習する学習装置において、前記テキストを言語分析し、言語特徴量を求める言語分析部と、前記テキストに対応する前記音声信号を音声分析し、音響特徴量を求める音声分析部と、前記言語分析部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を時間的に対応付ける対応付け部と、前記対応付け部により対応付けられた前記言語特徴量に含まれるポーズ長に関する情報を変更し、前記言語特徴量に対して、変更後の前記ポーズ長に関する情報を反映したポーズ変更後言語特徴量を生成すると共に、前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ長に関する情報を反映したポーズ変更後音響特徴量を生成するポーズ変更部と、前記対応付け部により対応付けられた前記言語特徴量及び前記音響特徴量、並びに、前記ポーズ変更部により生成された前記ポーズ変更後言語特徴量及び前記ポーズ変更後音響特徴量を用いて、前記統計モデルを学習する学習部と、を備えたことを特徴とする。
また、請求項2の学習装置は、請求項1に記載の学習装置において、前記対応付け部が、音素毎の特徴量からなる前記言語特徴量と、フレーム毎の特徴量からなる前記音響特徴量とを時間的に対応付けることで、前記言語特徴量に対して音素毎に、当該音素と前記フレームとを対応付けた時間情報を追加すると共に、前記ポーズ長に関する情報をポーズ情報として追加し、前記ポーズ変更部が、前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を変更すると共に、当該ポーズ情報の変更に伴い、前記言語特徴量に含まれる前記時間情報を変更し、変更後の前記ポーズ情報及び変更後の前記時間情報を反映した前記ポーズ変更後言語特徴量を生成する言語特徴量生成部と、前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ情報を反映したポーズ変更後音響特徴量を生成する音響特徴量生成部と、を備えたことを特徴とする。
また、請求項3の学習装置は、請求項2に記載の学習装置において、前記音響特徴量生成部が、前記音声分析部により前記音響特徴量を求める際に用いた前記音声信号に基づいて、変更後の前記ポーズ情報を反映した新たな音声信号を生成し、当該新たな音声信号を音声分析し、前記ポーズ変更後音響特徴量を生成する、ことを特徴とする。
また、請求項4の学習装置は、請求項2または3に記載の学習装置において、前記言語特徴量生成部が、予め設定された固定時間長にランダムな値を加算し、加算結果を新たなポーズ長とし、前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を、前記新たなポーズ長を反映した新たなポーズ情報に変更する、ことを特徴とする。
また、請求項5の学習装置は、請求項1から4までのいずれか一項に記載の学習装置において、前記統計モデルを、ディープニューラルネットワークとする、ことを特徴とする。
さらに、請求項6のプログラムは、コンピュータを、請求項1から5までのいずれか一項に記載の学習装置として機能させることを特徴とする。
以上のように、本発明によれば、ポーズに関する情報を含む言語特徴量の学習データを用いて学習を行う際に、安定的な品質の合成音声信号を得るための統計モデルを生成することができる。
本発明の実施形態による学習装置の構成例を示すブロック図である。 本発明の実施形態による学習装置の処理例を示すフローチャートである。 言語特徴量のデータ構成例を説明する図である。 音声分析部による音声分析処理例を示すフローチャートである。 音響特徴量のデータ構成例を説明する図である。 時間情報及びポーズ情報が追加された言語特徴量のデータ構成例を説明する図である。 ポーズ変更部の構成例を示すブロック図である。 ポーズ変更部の処理例を示すフローチャートである。 ステップS807において、部分ポーズ長Pij1,Pij2,Pij3を反映した音響特徴量の生成処理例を示すフローチャートである。 時間長モデルの学習処理例を説明する図である。 音響モデルの学習処理例を説明する図である。 音声合成時の言語分析処理にて生成された言語特徴量のデータ構成例を説明する図である。 非特許文献1に記載された従来の学習方法及び合成方法を示す説明図である。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、言語特徴量及び音響特徴量のポーズに関する情報を変更し、新たな言語特徴量及び音響特徴量を生成することで、学習データを追加することを特徴とする。
これにより、ポーズ長の設定値が網羅する範囲内(ポーズ長の取り得る範囲内)で、十分な量の学習データを生成することができるから、安定的な品質の合成音声信号を得るための統計モデルを生成することができる。
以下、本発明の実施形態による学習装置について説明する。図1は、本発明の実施形態による学習装置の構成例を示すブロック図であり、図2は、その処理例を示すフローチャートである。
この学習装置1は、記憶部10,16、言語分析部11、音声分析部12、対応付け部13、ポーズ変更部14及び学習部15を備えている。音声信号はモノラルであり、標本化周波数48kHz及びビット数16で標本化されているものとする。
記憶部10には、予め設定された音声コーパスが格納されている。音声コーパスは、テキストと、これに対応する音声信号から構成される。例えば、ATR(株式会社国際電気通信基礎技術研究所)により作成された音素バランス503文を利用する場合、テキストとこれを読み上げた音声信号は、503対からなる。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、 pp.89-90(1988.3)
〔言語分析部11〕
言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、テキストについて既知の学習用言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める(ステップS201)。そして、言語分析部11は、音素毎の言語特徴量を対応付け部13に出力する。
具体的には、言語分析部11は、言語分析処理により、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報を求め、これらの情報からなる言語特徴量を求める。
言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab:Yet Another Part-of-Speech and Morphological Analyzer”,インターネット<URL:http://taku910.github.io/mecab/>
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜:Yet Another Japanese Dependency Structure Analyzer”,インターネット<URL:https://taku910.github.io/cabocha/>
図3は、言語特徴量のデータ構成例を説明する図である。図3に示すように、言語特徴量は、図2のステップS201の学習用言語分析処理により生成され、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。この例は、テキストが「晴れ、のち、曇り・・・」の場合の言語特徴量である。
〔音声分析部12〕
図1及び図2に戻って、音声分析部12は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出す。そして、音声分析部12は、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音声(音響)分析処理を行い、フレーム毎の所定情報からなる音響特徴量を求める(ステップS202)。音声分析部12は、フレーム毎の音響特徴量を対応付け部13に出力し、記憶部10から読み出した音声信号をポーズ変更部14に出力する。
音声分析処理としては、例えば以下に記載された処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”,インターネット<URL:https://github.com/mmorise/World>
また、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”,インターネット<URL:http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
図4は、音声分析部12による音声分析処理例を示すフローチャートである。音声分析部12は、記憶部10から音声コーパスの各音声信号を読み出し、フレーム長25msの音声信号をフレームシフト5ms毎に切り出す(ステップS401)。そして、音声分析部12は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める(ステップS402)。
音声分析部12は、スペクトルをメルケプストラム分析してメルケプストラム係数MGCを求める(ステップS403)。また、音声分析部12は、ピッチ周波数から有声/無声判定情報VUVを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数LF0を求める(ステップS404)。また、音声分析部12は、非周期成分をメルケプストラム分析して帯域非周期成分BAPを求める(ステップS405)。
これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数MGC、有声/無声判定情報VUV、対数ピッチ周波数LF0及び帯域非周期成分BAPが得られる。
音声分析部12は、メルケプストラム係数MGCの1次差分Δを算出して1次差分メルケプストラム係数ΔMGCを求め(ステップS406)、2次差分Δ2を算出して2次差分メルケプストラム係数Δ2MGCを求める(ステップS407)。
音声分析部12は、対数ピッチ周波数LF0の1次差分Δを算出して1次差分対数ピッチ周波数ΔLF0を求め(ステップS408)、2次差分Δ2を算出して2次差分対数ピッチ周波数Δ2LF0を求める(ステップS409)。
音声分析部12は、帯域非周期成分BAPの1次差分Δを算出して1次差分帯域非周期成分ΔBAPを求め(ステップS410)、2次差分Δ2を算出して2次差分帯域非周期成分Δ2BAPを求める(ステップS411)。
これにより、動特性の音響特徴量として、フレーム毎に、1次差分メルケプストラム係数ΔMGC、2次差分メルケプストラム係数Δ2MGC、1次差分対数ピッチ周波数ΔLF0、2次差分対数ピッチ周波数Δ2LF0、1次差分帯域非周期成分ΔBAP及び2次差分帯域非周期成分Δ2BAPが得られる。
音声分析部12は、フレーム毎の静特性及び動特性の所定情報からなる音響特徴量を対応付け部13に出力する。
図5は、音響特徴量のデータ構成例を説明する図である。図5に示すように、音響特徴量は、フレーム毎に、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVから構成される。この音響特徴量は、後述するように、199次元のデータから構成される。
〔対応付け部13〕
図1及び図2に戻って、対応付け部13は、言語分析部11から音素毎の言語特徴量を入力すると共に、音声分析部12からフレーム毎の音響特徴量を入力する。そして、対応付け部13は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付ける(ステップS203)。
対応付け部13は、時間的な対応付けにより、テキストの文を構成する各音素が音声信号のどの時刻に位置(対応)するのかを算出し、音素毎に時間情報を生成し、各音素についてポーズ長を求め、ポーズ長に基づいてポーズ情報を生成する。
対応付け部13は、音素毎の言語特徴量に時間情報及びポーズ情報を追加し、時間的に対応付けた言語特徴量を生成し、時間的に対応付けた言語特徴量及び音響特徴量をポーズ変更部14及び学習部15に出力する。
具体的には、対応付け部13は、時間的な対応付けにより、音素毎に、対応する開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、音素の時間長(フレーム数)を求める。また、対応付け部13は、時間的な対応付けにより音素のポーズ長を求め、所定の閾値に基づいて、ポーズ長を当該ポーズ長の設定値PAUに分類し、ポーズ長の設定値PAUを含むポーズ情報を生成する。
ポーズ長を分類するための所定の閾値及びポーズ長の設定値PAUは、予め設定されているものとする。例えば、ポーズ長を3段階の値に分類するものとし(ポーズ長の設定値PAUを3段階の値とし)、ポーズ長が50ms未満の場合、ポーズ長の設定値PAU=1、ポーズ長が50ms以上かつ250ms未満の場合、ポーズ長の設定値PAU=2とする。また、ポーズ長が250ms以上の場合、ポーズ長の設定値PAU=3とする。
対応付け部13は、言語特徴量を構成する音素毎の所定情報に、時間情報及びポーズ情報を追加し、時間的に対応付けた音素毎の言語特徴量を生成する。また、対応付け部13は、音素毎の時間長を音響特徴量に含め、時間的に対応付けたフレーム毎の音響特徴量(時間長については音素毎のデータ)を学習部15に出力する。
音素毎の時間長からなる音響特徴量は、時間長モデルを学習するために用いられる。この音響特徴量は、言語特徴量及び音響特徴量の対応付けにて算出されるミリ秒(ms)単位の時間の長さを、フレームシフト5msで除算した5msのフレーム単位の数値、すなわち音素のフレーム数が用いられる。
音素アラインメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit(HTK)”,インターネット<URL:http://htk.eng.cam.ac.uk>
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”
尚、対応付け部13は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。
図6は、時間情報及びポーズ情報が追加された言語特徴量のデータ構成例を説明する図である。図6に示すように、時間情報及びポーズ情報が追加された言語特徴量は、図2のステップS203の処理により生成され、図3に示した言語特徴量に時間情報及びポーズ情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、時間情報、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報及びポーズ情報から構成される。
前述のとおり、時間情報は、当該音素に対応する開始フレームの番号及び終了フレームの番号からなる。また、ポーズ情報は、ポーズ長が分類された際の分類値を示すポーズ長の設定値PAU(例えば1,2,3)等からなる。音素がポーズ区間(無音区間)である場合、当該音素のポーズ情報には、当該音素におけるポーズ長の設定値PAUが含まれる。音素が無音区間でない場合、当該音素のポーズ情報には、当該音素よりも前の直近の無音区間の音素におけるポーズ長の設定値PAU、及び、当該音素よりも後の直近の無音区間の音素におけるポーズ長の設定値PAUが含まれる。
図6の言語特徴量において、αの音素は無音区間の音素である。その時間情報は、開始フレームの番号が65及び終了フレームの番号が95であることを示している(「65 95」)いる。また、そのポーズ情報には、当該音素におけるポーズ長の設定値PAU=2が含まれる(「P:2・・・」)。
さらに、βの音素も無音区間の音素である。その時間情報は、開始フレームの番号が178であり、終了フレームの番号が252であることを示している(「178 252」)。また、そのポーズ情報には、当該音素におけるポーズ長の設定値PAU=3が含まれる(「P:3・・・」)。
〔ポーズ変更部14〕
図1及び図2に戻って、ポーズ変更部14は、対応付け部13から時間的に対応付けた音素毎の言語特徴量及びフレーム毎の音響特徴量(時間長については音素毎のデータ)を入力すると共に、音声分析部12から音声信号を入力する。音声分析部12から入力した音声信号は、対応付け部13から入力した音響特徴量の元となる(音響特徴量に対応する)信号である。
ポーズ変更部14は、言語特徴量における音素のポーズ情報の示すポーズ長を変更する。そして、ポーズ変更部14は、言語特徴量における各音素について、変更後のポーズ長を反映したポーズ情報及び時間情報を生成し、ポーズ変更後の言語特徴量を生成する(ステップS204)。
ポーズ変更部14は、変更後のポーズ長を反映した音声信号を生成し(ステップS205)、フレーム毎の音声信号について、ステップS202と同様の既知の音声分析処理を行う。そして、ポーズ変更部14は、フレーム毎の所定情報からなるポーズ変更後の音響特徴量を生成する(ステップS206)。ポーズ変更部14は、ポーズ変更後の言語特徴量及び音響特徴量を学習部15に出力する。
これにより、時間的に対応付けられた言語特徴量及び音響特徴量の学習データを利用して、発話内のポーズ長が変更された新たな学習データが生成される。
図7は、ポーズ変更部14の構成例を示すブロック図であり、図8は、ポーズ変更部14の処理例を示すフローチャートである。このポーズ変更部14は、言語特徴量生成部20及び音響特徴量生成部21を備えている。
前述の例のとおり、ポーズ長を3段階の値に分類するものとし、ポーズ長が50ms未満の場合、ポーズ長の設定値PAU=1、ポーズ長が50ms以上かつ250ms未満の場合、ポーズ長の設定値PAU=2とする。また、ポーズ長が250ms以上の場合、ポーズ長の設定値PAU=3とする。
言語特徴量生成部20は、対応付け部13から時間的に対応付けた音素毎の言語特徴量を入力する。また、音響特徴量生成部21は、対応付け部13から時間的に対応付けたフレーム毎の音響特徴量(時間長については音素毎のデータ)を入力すると共に、音声分析部12から音声信号を入力する(ステップS801)。この場合、音響特徴量生成部21は、言語特徴量生成部20から、ポーズ変更後のポーズ長、及びポーズ変更の対象となるフレーム番号情報を入力する。詳細については後述する。
言語特徴量生成部20は、言語特徴量に含まれるポーズ情報に基づいて、無音区間の音素を特定する(ステップS802)。そして、言語特徴量生成部20は、言語特徴量における各音素の情報のうち特定した音素の情報からポーズ情報を抽出し、ポーズ情報からポーズ長の設定値PAUijを抽出する(ステップS803)。ここで、学習データである言語特徴量において、i番目の発話データUiに含まれるj番目のポーズ長の設定値をPAUij、ポーズ長をPijとする。ステップS803にて抽出されたポーズ長の設定値PAUijは、前述の例において1,2,3のうちのいずれかの値である。
言語特徴量生成部20は、ステップS803にて抽出したポーズ長の設定値PAUijに対し、部分設定値PAUij=1,2,3をそれぞれ設定する(ステップS804)。例えばポーズ長の設定値PAUijが1として、部分設定値PAUij=1を設定した場合は、再設定であるが、部分設定値PAUij=2または3を設定した場合は、変更となる。
そして、言語特徴量生成部20は、ポーズ長の設定値PAUijを部分設定値PAUij=1,2,3に設定することで、元の発話データUiに対して新たな発話データUi1,Ui2,Ui3をそれぞれ生成する。
言語特徴量生成部20は、ポーズ長の部分設定値PAUij=1,2,3について、以下のように、部分ポーズ長Pij1,Pij2,Pij3をそれぞれ算出する(ステップS805)。
(部分設定値PAUij=1の場合)
言語特徴量生成部20は、ポーズ長の部分設定値PAUij=1について、以下の式にて、0ms以上かつ50ms未満のランダムな部分ポーズ長Pij1を算出する。
[数1]
ij1=int(rnd()×50) ・・・(1)
rnd()は、0から1(1を含まない)までの乱数を出力する関数であり、int()は、整数を出力する関数とする。前記式(1)は、0の値に、0ms以上かつ50ms未満のランダムな値を加算する演算式である。
これにより、言語特徴量における元のポーズ長の設定値PAUijは、部分設定値PAUij=1に再設定または変更され、元のポーズ長Pijは、0ms以上かつ50ms未満のランダムな部分ポーズ長Pij1に変更される。
(部分設定値PAUij=2の場合)
言語特徴量生成部20は、ポーズ長の部分設定値PAUij=2について、以下の式にて、50ms以上かつ250ms未満のランダムな部分ポーズ長Pij2を算出する。
[数2]
ij2=50+int(rnd()×200) ・・・(2)
前記式(2)は、50の値に、0ms以上かつ200ms未満のランダムな値を加算する演算式である。
これにより、言語特徴量における元のポーズ長の設定値PAUijは、部分設定値PAUij=2に再設定または変更され、元のポーズ長Pijは、50ms以上かつ250ms未満のランダムな部分ポーズ長Pij2に変更される。
(部分設定値PAUij=3の場合)
言語特徴量生成部20は、ポーズ長の部分設定値PAUij=3について、以下の式にて、250ms以上かつ500ms未満のランダムな部分ポーズ長Pij3を算出する。
[数3]
ij3=250+int(rnd()×250) ・・・(3)
前記式(3)は、250の値に、0ms以上かつ250ms未満のランダムな値を加算する演算式である。
これにより、言語特徴量における元のポーズ長の設定値PAUijは、部分設定値PAUij=3に再設定または変更され、元のポーズ長Pijは、250ms以上かつ500ms未満のランダムな部分ポーズ長Pij3に変更される。
元の発話データUiに含まれる全てのポーズについて、ステップS802~S805の処理が行われる。
これにより、各ポーズについて、元のポーズ長の設定値PAUijは、部分設定値PAUij=1,2,3に再設定または変更される。また、各ポーズについて、再設定または変更された部分設定値PAUij=1,2,3に対応する部分ポーズ長Pij1,Pij2,Pij3が算出される。
つまり、入力した言語特徴量に含まれる全ての無音区間の音素について、ポーズ情報に含まれるポーズ長の設定値PAUijに対し、部分設定値PAUij=1,2,3がそれぞれ設定され、部分設定値PAUij=1,2,3に対応する部分ポーズ長Pij1,Pij2,Pij3がそれぞれ算出される。
言語特徴量生成部20は、入力した言語特徴量に含まれる全ての無音区間の音素について、ポーズ長の変更対象となる音素(ポーズ長の設定値PAUijの再設定または変更対象となる音素)を決定する。ポーズ長の変更対象となる音素は、全ての無音区間の音素のうち1以上であればよい。
言語特徴量生成部20は、ポーズ長の変更対象となる音素及びこれ以外の音素(ポーズ長の変更に伴い影響を受ける音素)について、ポーズ長の部分設定値PAUij=1,2,3を反映したポーズ情報をそれぞれ生成する。また、言語特徴量生成部20は、ポーズ長の変更対象となる音素及びこれ以外の音素について、ポーズ長の変更対象となる音素の部分ポーズ長Pij1,Pij2,Pij3に基づいて、当該音素の開始時間(フレーム)及び終了時間(フレーム)をそれぞれ算出し、時間情報を生成する。
言語特徴量生成部20は、元の言語特徴量について、ポーズ情報及び時間情報を変更し、ポーズ変更後の言語特徴量を生成する(ステップS806)。
音響特徴量生成部21は、再設定または変更されたポーズ長の部分設定値PAUij=1,2,3に対応する部分ポーズ長Pij1,Pij2,Pij3を反映した音響特徴量を、ポーズ変更後の音響特徴量として生成する(ステップS807)。これにより、ポーズ変更後の言語特徴量に対応するポーズ変更後の音響特徴量が生成される。
例えば、言語特徴量における無音区間の音素について、ポーズ長の設定値PAUij(=1)が部分設定値PAUij=2に変更された場合、当該音素に時間的に対応付けられた音響特徴量のフレームの長さが、部分設定値PAUij=2から算出された部分ポーズ長Pij2となるように、無音区間のフレームが挿入され、ポーズ変更後の音響特徴量が生成される。音響特徴量生成部21によるポーズ変更後の音響特徴量を生成する処理の詳細については後述する。
言語特徴量生成部20は、ポーズ変更後の言語特徴量を学習部15に出力し、音響特徴量生成部21は、ポーズ変更後の音響特徴量を学習部15に出力する(ステップS808)。
ここで、学習データである元の発話データUiに含まれるポーズの数がJ個とする。全てのポーズについて設定が行われる場合、1か所のポーズにつき3個の設定が行われる組み合わせにより、合計3J個の新しい学習データが生成される。この場合、1個の元の学習データを利用して、3J個の学習データが追加される。ただし、ある程度学習データの多様性を担保できる場合は、全てのポーズのうち1か所のポーズのみが変更され、1か所のポーズにつき3個の設定が行われるから、合計3×Jの新しい学習データが生成される。この場合、1個の元の学習データを利用して、3×J個の学習データが追加される。
また、全てのポーズについて変更が行われる場合(ポーズ長の設定値PAUijに対し、設定値PAUijとは異なる部分設定値PAUij=1,2,3が設定される場合、すなわち設定値PAUijが異なる部分設定値PAUij=1,2,3に変更される場合)、1か所のポーズにつき2個の変更が行われる組み合わせにより、合計2J個の新しい学習データが生成される。この場合、1個の元の学習データを利用して、2J個の学習データが追加される。
図9は、図8のステップS807において、部分ポーズ長Pij1,Pij2,Pij3を反映した音響特徴量の生成処理例を示すフローチャートである。音響特徴量生成部21は、音声分析部12から音声信号を入力すると共に、言語特徴量生成部20から、言語特徴量のポーズ情報が変更された音素の部分ポーズ長Pij1,Pij2,Pij3(部分ポーズ長Pij1,Pij2,Pij3のうちのいずれかの値)及びフレーム番号情報を入力する(ステップS901)。この場合、言語特徴量生成部20は、ポーズ情報が変更された無音区間の音素に対応するフレーム番号に関する情報を、プレーム番号情報として音響特徴量生成部21に出力する。
音響特徴量生成部21は、入力した音声信号に対し、フレーム番号情報に基づいて、ポーズ情報が変更された無音区間の音素に対応するフレームを特定する。そして、音響特徴量生成部21は、特定したフレーム(無音区間のフレーム)の時間長が、入力した部分ポーズ長Pij1,Pij2,Pij3(部分ポーズ長Pij1,Pij2,Pij3のうちのいずれかの値)のポーズ長となるように、無音区間の挿入を繰り返し、またはフレームを削除する等して、新たな音声信号を生成する(ステップS902)。ポーズ長を変更する音声信号の生成手法は既知であり、ここではその詳細な説明を省略する。
音響特徴量生成部21は、フレーム毎に新たな音声信号を切り出し、フレーム毎の音声信号について既知の音声分析処理を行う(ステップS903)。そして、音響特徴量生成部21は、フレーム毎の所定情報からなる音響特徴量を、ポーズ変更後の音響特徴量として生成し、学習部15に出力する(ステップS904)。
〔学習部15〕
図1及び図2に戻って、学習部15は、対応付け部13から言語特徴量及び音響特徴量を入力すると共に、ポーズ変更部14からポーズ変更後の言語特徴量及び音響特徴量を入力する。学習部15は、対応付け部13から入力した言語特徴量及び音響特徴量の組を1つの学習データとして扱うと共に、ポーズ変更部14から入力したポーズ変更後の言語特徴量及び音響特徴量の組も1つの学習データとして扱う。そして、学習部15は、学習データである言語特徴量及び音響特徴量を標準化し、統計モデルである時間長モデル及び音響モデルを学習し、統計モデルを記憶部16に格納する(ステップS207)。
(時間長モデルの学習)
次に、学習部15による時間長モデルの学習処理について説明する。図10は、時間長モデルの学習処理例を説明する図である。学習部15は、対応付け部13またはポーズ変更部14から入力した学習データである言語特徴量及び音響特徴量のうちの言語特徴量に基づいて、テキストを表現する音素毎に、言語特徴を表す312次元のバイナリデータ及び13次元の数値データ(整数値)を生成する。言語特徴量の次元数は325である。
ここで、言語特徴量における312次元のバイナリデータ及び13次元の数値データは、言語特徴量に含まれる音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報及びポーズ情報に基づいて生成される。
学習部15は、言語特徴量の312次元のバイナリデータ及び13次元の数値データからなる325次元のデータを、時間長モデルの入力データとして扱う(ステップS1001)。
学習部15は、言語特徴量の325次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部16に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する(ステップS1002)。
また、学習部15は、対応付け部13またはポーズ変更部14から入力した学習データである言語特徴量及び音響特徴量のうちの音響特徴量から、音素毎の時間長を抽出する。そして、学習部15は、当該時間長の1次元のデータを、時間モデルの出力データとして扱う(ステップS1003)。この時間長は、5ms単位のフレーム数であり、テキストを表現する音素毎に1次元の整数値からなる。
学習部15は、時間長の1次元の全てのデータを用いて、平均値及び標準偏差を求めて記憶部16に格納すると共に、全てのデータのそれぞれについて、平均値及び標準偏差を用いて標準化する(ステップS1004)。
学習部15は、ステップS1002,S1004から移行して、音素毎に、言語特徴量の325次元の標準化されたデータを入力データとし、時間長の1次元の標準化されたデータを出力データとして時間長モデルを学習する(ステップS1005)。そして、学習部15は、学習済みの時間長モデルを記憶部16に格納する。
ステップS1005における時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”,インターネット<URL:https://github.com/CSTR-Edinburgh/merlin>
後述する図11のステップS1105における音響モデルの学習の場合も同様である。
時間長モデルは、例えば入力層を325次元、隠れ層を1024次元×6層、出力層を1次元とした順伝播型のディープニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を64、エポック数を25とし、学習係数の最適化方法として確率的勾配降下法を用い、開始学習率を0.002とし、10エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、15エポックを過ぎてから、5エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。
図10に示したステップS1001~S1005の処理は、対応付け部13から入力した学習データである言語特徴量及び音響特徴量の組、及びポーズ変更部14から入力した学習データであるポーズ変更後の言語特徴量及び音響特徴量の組毎に行われる。
これにより、記憶部16には、統計モデルとして時間長モデルが格納される。また、記憶部16には、統計モデルとして、時間長モデルの入力データである言語特徴量の312次元のバイナリデータ及び13次元の数値データからなる325次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部16には、統計モデルとして、時間長モデルの出力データである時間長の1次元のデータに関する平均値及び標準偏差が格納される。
(音響モデルの学習)
次に、学習部15による音響モデルの学習処理について説明する。図11は、音響モデルの学習処理例を説明する図である。学習部15は、対応付け部13またはポーズ変更部14から入力した学習データである言語特徴量及び音響特徴量のうちの言語特徴量に基づいて、音素毎に、言語特徴を表す312次元のバイナリデータ、13次元の数値データ(整数値)及び4次元の時間データを生成する。言語特徴量の次元数は329である。
学習部15は、音素毎の言語特徴量における312次元のバイナリデータ、13次元の数値データ及び4次元の時間データからなる329次元のデータから、5msのフレーム毎の言語特徴量における329次元のデータを生成する。
4次元の時間データは、当該フレームに対応する音素のフレーム数(1次元のデータ)、及び当該フレームの音素内における位置(3次元のデータ)からなる。
学習部15は、フレーム毎の言語特徴量について、言語特徴量の312次元のバイナリデータ、13次元の数値データ及び4次元の時間データからなる329次元のデータを、音響モデルの入力データとして扱う(ステップS1101)。
学習部15は、言語特徴量の329次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部16に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する(ステップS1102)。
また、学習部15は、対応付け部13またはポーズ変更部14から入力した学習データである言語特徴量及び音響特徴量のうちの音響特徴量から、時間長を除く音響特徴量を抽出する。そして、学習部15は、時間長を除くフレーム毎の音響特徴量について、199次元のデータを、音響モデルの出力データとして扱う(ステップS1103)。
ここで、前述のとおり、時間長を除く音響特徴量は、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVからなる。
学習部15は、音響特徴量の199次元の全てのデータを用いて、次元毎に、平均値及び標準偏差を求めて記憶部16に格納し、全てのデータのそれぞれについて、次元毎の平均値及び標準偏差を用いて標準化する(ステップS1104)。
学習部15は、ステップS1102,S1104から移行して、フレーム毎に、言語特徴量の329次元の標準化されたデータを入力データとし、音響特徴量の199次元の標準化されたデータを出力データとして音響モデルを学習する(ステップS1105)。そして、学習部15は、学習済みの音響モデルを記憶部16に格納する。
音響モデルは、例えば入力層を329次元、隠れ層を1024次元×6層、出力層を199次元とした順伝播型のディープニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を256、エポック数を25とし、学習係数の最適化方法として確率的勾配降下法を用い、開始学習率を0.002とし、10エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、15エポックを過ぎてから、5エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。
図11に示したステップS1101~S1105の処理は、対応付け部13から入力した学習データである言語特徴量及び音響特徴量の組、及びポーズ変更部14から入力した学習データであるポーズ変更後の言語特徴量及び音響特徴量の組毎に行われる。
これにより、記憶部16には、統計モデルとして音響モデルが格納される。また、記憶部16には、統計モデルとして、音響モデルの入力データである言語特徴量の312次元のバイナリデータ、13次元の数値データ及び4次元の時間データからなる329次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部16には、統計モデルとして、音響モデルの出力データである音響特徴量の199次元のデータに関する次元毎の平均値及び標準偏差が格納される。
以上のように、本発明の実施形態の学習装置1によれば、対応付け部13は、言語分析部11により生成された音素毎の言語特徴量と、音声分析部12により生成されたフレーム毎の音響特徴量とを時間的に対応付ける。対応付け部13は、時間的な対応付けにより音素のポーズ長を求め、所定の閾値に基づいて、ポーズ長を当該ポーズ長の設定値PAUに分類し、ポーズ長の設定値PAUを含むポーズ情報を生成し、ポーズ情報及び時間情報を含む言語特徴量を生成する。
ポーズ変更部14は、時間的に対応付けられた言語特徴量に含まれるポーズ情報の示すポーズ長を変更し、変更後のポーズ長を反映したポーズ情報及び時間情報を生成し、ポーズ変更後の言語特徴量を生成する。また、ポーズ変更部14は、変更後のポーズ長を反映した音声信号を生成し、フレーム毎の音声信号について音声分析処理を行い、ポーズ変更後の音響特徴量を生成する。
学習部15は、対応付け部13により時間的に対応付けられた言語特徴量及び音響特徴量の組を学習データとして扱うと共に、ポーズ変更部14により生成されたポーズ変更後の言語特徴量及び音響特徴量の組も学習データとして扱う。学習部15は、これの学習データを用いて、統計モデルである時間長モデル及び音響モデルを学習し、統計モデルを記憶部16に格納する。
ここで、ポーズ変更部14により生成されたポーズ変更後の言語特徴量及び音響特徴量は、対応付け部13により時間的に対応付けられた言語特徴量及び音響特徴量を基準として、当該基準のポーズ長の設定値PAUが網羅する範囲(基準のポーズ長の取り得る範囲)の学習データである。
これにより、ポーズ長の設定値PAUが網羅する範囲内(ポーズ長の取り得る範囲内)で、十分な量の学習データを生成することができるから、安定的な品質の合成音声信号を得るための統計モデルを生成することができる。
〔音声合成装置〕
次に、図1に示した学習装置1により学習された統計モデルを用いる音声合成装置について説明する。音声合成装置は、図13のステップS1305~S1307と同様の処理を行う。
具体的には、音声合成装置は、音声合成対象のテキストを入力し、テキストについて合成用言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める。合成用言語分析処理は、図2に示したステップS201の学習用言語分析処理により求められる情報に加え、ポーズ情報も求められる。ポーズ情報は、学習用言語分析処理で求められる情報及び構文構造等の情報を用いて設定された規則に基づき、ポーズ長の設定値PAUの範囲内の値を含む情報として求められる。
図12は、音声合成時の言語分析処理(合成用言語分析処理)にて生成された言語特徴量のデータ構成例を説明する図である。図12に示すように、合成用言語分析処理にて生成された言語特徴量は、図3に示した言語特徴量にポーズ情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報及びポーズ情報から構成される。この例は、テキストが「晴れ、のち、曇り・・・」の場合の言語特徴量である。
音声合成装置は、合成用言語分析処理により求めた音素毎の言語特徴量に基づき、学習装置1により学習された統計モデルの最大値及び平均値等を用いて標準化及び逆標準化の処理を行う。そして、音声合成装置は、統計モデルの時間長モデル及び音響モデルを用いて、フレーム毎の音響特徴量を推定する。
このようにして推定された音響特徴量は、フレーム毎に不連続な値をとる。このため、音声合成装置は、連続するフレームの音響特徴量に対して最尤推定または移動平均を算出することで、滑らかな値を算出する。これにより、フレーム毎の音響特徴量は、連続した値となる。
音声合成装置は、推定した音響特徴量を用いてフレーム毎に音声信号を合成し、音声信号波形を求める。これにより、任意のテキストに対応する合成音声信号を得ることができる。
以上のように、音声合成装置は、本発明の実施形態の学習装置1により学習された統計モデルを用いて、任意のテキストに対応する合成音声信号を生成する。
ここで、学習装置1により学習された統計モデルは、ポーズ長の設定値PAUが網羅する範囲内(ポーズ長の取り得る範囲内)で、十分な量の学習データを用いて得られたモデルである。
これにより、学習装置1により学習された統計モデルを用いることで、安定的な品質の合成音声信号を得ることができる。
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば学習装置1の対応付け部13及びポーズ変更部14は、言語特徴量に含まれるポーズ情報について、ポーズ長の設定値PAUを3段階の値として扱うようにしたが、2段階の値として扱うようにしてもよいし、4段階以上の値として扱うようにしてもよい。
尚、本発明の実施形態による学習装置1のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
学習装置1に備えた言語分析部11、音声分析部12、対応付け部13、ポーズ変更部14及び学習部15の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1 学習装置
10,16 記憶部
11 言語分析部
12 音声分析部
13 対応付け部
14 ポーズ変更部
15 学習部
20 言語特徴量生成部
21 音響特徴量生成部

Claims (6)

  1. 音声コーパスのテキスト及び音声信号に基づいて、音声合成に用いる統計モデルを学習する学習装置において、
    前記テキストを言語分析し、言語特徴量を求める言語分析部と、
    前記テキストに対応する前記音声信号を音声分析し、音響特徴量を求める音声分析部と、
    前記言語分析部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を時間的に対応付ける対応付け部と、
    前記対応付け部により対応付けられた前記言語特徴量に含まれるポーズ長に関する情報を変更し、前記言語特徴量に対して、変更後の前記ポーズ長に関する情報を反映したポーズ変更後言語特徴量を生成すると共に、前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ長に関する情報を反映したポーズ変更後音響特徴量を生成するポーズ変更部と、
    前記対応付け部により対応付けられた前記言語特徴量及び前記音響特徴量、並びに、前記ポーズ変更部により生成された前記ポーズ変更後言語特徴量及び前記ポーズ変更後音響特徴量を用いて、前記統計モデルを学習する学習部と、を備えたことを特徴とする学習装置。
  2. 請求項1に記載の学習装置において、
    前記対応付け部は、
    音素毎の特徴量からなる前記言語特徴量と、フレーム毎の特徴量からなる前記音響特徴量とを時間的に対応付けることで、前記言語特徴量に対して音素毎に、当該音素と前記フレームとを対応付けた時間情報を追加すると共に、前記ポーズ長に関する情報をポーズ情報として追加し、
    前記ポーズ変更部は、
    前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を変更すると共に、当該ポーズ情報の変更に伴い、前記言語特徴量に含まれる前記時間情報を変更し、変更後の前記ポーズ情報及び変更後の前記時間情報を反映した前記ポーズ変更後言語特徴量を生成する言語特徴量生成部と、
    前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ情報を反映したポーズ変更後音響特徴量を生成する音響特徴量生成部と、を備えたことを特徴とする学習装置。
  3. 請求項2に記載の学習装置において、
    前記音響特徴量生成部は、
    前記音声分析部により前記音響特徴量を求める際に用いた前記音声信号に基づいて、変更後の前記ポーズ情報を反映した新たな音声信号を生成し、当該新たな音声信号を音声分析し、前記ポーズ変更後音響特徴量を生成する、ことを特徴とする学習装置。
  4. 請求項2または3に記載の学習装置において、
    前記言語特徴量生成部は、
    予め設定された固定時間長にランダムな値を加算し、加算結果を新たなポーズ長とし、前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を、前記新たなポーズ長を反映した新たなポーズ情報に変更する、ことを特徴とする学習装置。
  5. 請求項1から4までのいずれか一項に記載の学習装置において、
    前記統計モデルを、ディープニューラルネットワークとする、ことを特徴とする学習装置。
  6. コンピュータを、請求項1から5までのいずれか一項に記載の学習装置として機能させるためのプログラム。
JP2018175221A 2018-09-19 2018-09-19 音声合成に用いる統計モデルを学習する学習装置及びプログラム Active JP7088796B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018175221A JP7088796B2 (ja) 2018-09-19 2018-09-19 音声合成に用いる統計モデルを学習する学習装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018175221A JP7088796B2 (ja) 2018-09-19 2018-09-19 音声合成に用いる統計モデルを学習する学習装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020046551A JP2020046551A (ja) 2020-03-26
JP7088796B2 true JP7088796B2 (ja) 2022-06-21

Family

ID=69899684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018175221A Active JP7088796B2 (ja) 2018-09-19 2018-09-19 音声合成に用いる統計モデルを学習する学習装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7088796B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102386635B1 (ko) * 2020-04-16 2022-04-14 주식회사 카카오엔터프라이즈 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013008385A1 (ja) 2011-07-11 2013-01-17 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP2013205697A (ja) 2012-03-29 2013-10-07 Toshiba Corp 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
JP2017032839A (ja) 2015-08-04 2017-02-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2019032427A (ja) 2017-08-08 2019-02-28 日本電信電話株式会社 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013008385A1 (ja) 2011-07-11 2013-01-17 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
JP2013205697A (ja) 2012-03-29 2013-10-07 Toshiba Corp 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
JP2017032839A (ja) 2015-08-04 2017-02-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2019032427A (ja) 2017-08-08 2019-02-28 日本電信電話株式会社 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム

Also Published As

Publication number Publication date
JP2020046551A (ja) 2020-03-26

Similar Documents

Publication Publication Date Title
CN109147758B (zh) 一种说话人声音转换方法及装置
Van Den Oord et al. Wavenet: A generative model for raw audio
Oord et al. Wavenet: A generative model for raw audio
Capes et al. Siri on-device deep learning-guided unit selection text-to-speech system.
O'shaughnessy Interacting with computers by voice: automatic speech recognition and synthesis
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
Giacobello et al. Sparse linear prediction and its applications to speech processing
DK2579249T3 (en) PARAMETER SPEECH SYNTHESIS PROCEDURE AND SYSTEM
KR102209689B1 (ko) 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP6802958B2 (ja) 音声合成システム、音声合成プログラムおよび音声合成方法
JP7362976B2 (ja) 音声合成装置及びプログラム
KR20030035522A (ko) 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
JP2024502049A (ja) 情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
KR20200138993A (ko) 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
JP7088796B2 (ja) 音声合成に用いる統計モデルを学習する学習装置及びプログラム
Bollepalli et al. Lombard speech synthesis using long short-term memory recurrent neural networks
Giacobello et al. Stable 1-norm error minimization based linear predictors for speech modeling
Nandi et al. Implicit excitation source features for robust language identification
JP7133998B2 (ja) 音声合成装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220609

R150 Certificate of patent or registration of utility model

Ref document number: 7088796

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150