JP2022081691A - Voice synthesis device and program - Google Patents
Voice synthesis device and program Download PDFInfo
- Publication number
- JP2022081691A JP2022081691A JP2022049374A JP2022049374A JP2022081691A JP 2022081691 A JP2022081691 A JP 2022081691A JP 2022049374 A JP2022049374 A JP 2022049374A JP 2022049374 A JP2022049374 A JP 2022049374A JP 2022081691 A JP2022081691 A JP 2022081691A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- adjustment
- data
- unit
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title abstract description 12
- 238000003786 synthesis reaction Methods 0.000 title abstract description 12
- 238000013179 statistical model Methods 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 description 58
- 238000012545 processing Methods 0.000 description 29
- 230000003068 static effect Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000001308 synthesis method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 241000272186 Falco columbarius Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 235000000832 Ayote Nutrition 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 240000001980 Cucurbita pepo Species 0.000 description 1
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000015136 pumpkin Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Abstract
Description
本発明は、テキストから音声信号を合成するための統計モデルを用いて音声信号を合成する音声合成装置及びプログラムに関する。 The present invention relates to a speech synthesizer and a program that synthesizes speech signals using a statistical model for synthesizing speech signals from text.
従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する合成音声を得る方法として、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いた深層学習(DL:Deep Learing)に基づく技術が知られている(例えば、非特許文献1を参照)。 Conventionally, as a method of learning a statistical model using a text and a voice signal corresponding to the text and obtaining a synthetic voice for an arbitrary text, deep learning (DL: Deep Learing) using a deep neural network (DNN) is used. ) Is known (see, for example, Non-Patent Document 1).
一方、音声信号の読み上げ方を調整する方法として、音声分析生成処理に基づく技術が知られている(例えば、非特許文献2を参照)。 On the other hand, as a method of adjusting how to read out a voice signal, a technique based on a voice analysis generation process is known (see, for example, Non-Patent Document 2).
図15は、非特許文献1に記載された従来の学習方法及び合成方法を示す説明図である。この学習方法を実現する学習装置は、事前に用意された音声コーパスのテキストとこれに対応する音声信号を用いて、テキストについては言語分析処理により言語特徴量を抽出する(ステップS1501)。また、学習装置は、音声信号について音声分析処理により音響特徴量を抽出する(ステップS1502)。
FIG. 15 is an explanatory diagram showing a conventional learning method and synthesis method described in Non-Patent
学習装置は、言語特徴量と音響特徴量の時間対応付けを行い(ステップS1503)、言語特徴量と音響特徴量を用いて統計モデルを学習する(ステップS1504)。 The learning device performs time correspondence between the language features and the acoustic features (step S1503), and learns the statistical model using the language features and the acoustic features (step S1504).
また、この合成方法を実現する音声合成装置は、任意のテキストを入力し、テキストの言語分析処理により言語特徴量を抽出する(ステップS1505)。そして、音声合成装置は、学習装置により学習された統計モデルを用いて、言語特徴量から音響特徴量を推定し(ステップS1506)、音声生成処理により、音響特徴量から音声信号波形を求める(ステップS1507)。これにより、任意のテキストに対応する合成音声信号を得ることができる。 Further, the speech synthesizer that realizes this synthesis method inputs an arbitrary text and extracts a language feature amount by a language analysis process of the text (step S1505). Then, the voice synthesizer estimates the acoustic feature amount from the language feature amount using the statistical model learned by the learning device (step S1506), and obtains the voice signal waveform from the acoustic feature amount by the voice generation process (step S1506). S1507). This makes it possible to obtain a synthetic speech signal corresponding to any text.
図16は、非特許文献2に記載された従来の音声信号調整方法を示す説明図である。この音声信号調整方法を実現する音声調整装置は、音声分析処理により、音声信号からフレーム毎の音響特徴量を抽出し(ステップS1601)、調整パラメータに基づいて、音響特徴量の所望の部分に所望の調整を加える(ステップS1602)。
FIG. 16 is an explanatory diagram showing a conventional audio signal adjusting method described in Non-Patent
音声調整装置は、音声生成処理により、調整が加えられたフレーム毎の音響特徴量から音声信号を生成する(ステップS1603)。これにより、調整を加えた音声信号を得ることができる。 The voice adjusting device generates a voice signal from the acoustic feature amount for each frame to which the voice is adjusted by the voice generation process (step S1603). This makes it possible to obtain an audio signal with adjustments.
例えば、放送番組等のコンテンツ制作に合成音声信号を利用する際に、演出効果として、テキストの特定部分の読み上げ方を調整した合成音声信号が求められることがある。 For example, when a synthetic voice signal is used for producing content such as a broadcast program, a synthetic voice signal adjusted for reading a specific part of a text may be required as an effect.
前述の非特許文献1の方法は、任意のテキストに対して合成音声信号を得るものであり、同一のテキストに対して常に同一の合成音声信号が得られる。また、前述の非特許文献2の方法は、音声信号の読み上げ方を調整するものである。
The above-mentioned method of Non-Patent
そこで、テキストの特定部分の読み上げ方を調整した合成音声信号を求める方法として、前述の非特許文献1,2を組み合わせることが想定される。
Therefore, it is assumed that the above-mentioned
図17は、非特許文献1,2の従来技術を組み合わせた想定例を示す説明図である。この想定例の学習方法は、図15に示したステップS1501~S1504と同様である(ステップS1701~S1704)。
FIG. 17 is an explanatory diagram showing a hypothetical example in which the prior arts of
この想定例の合成方法は、図15に示したステップS1505~S1507の処理に、図16に示したステップS1602の処理を挿入したものである。具体的には、音声合成装置は、任意のテキストから言語特徴量を抽出し(ステップS1705)、統計モデルを用いて言語特徴量から音響特徴量を推定する(ステップS1706)。 In the synthesis method of this assumed example, the process of step S1602 shown in FIG. 16 is inserted into the process of steps S1505 to S1507 shown in FIG. Specifically, the speech synthesizer extracts language features from arbitrary text (step S1705) and estimates acoustic features from language features using a statistical model (step S1706).
音声合成装置は、調整パラメータに基づいて、音響特徴量の所望の部分に所望の調整を加える(ステップS1707)。音声合成装置は、音声生成処理により、調整が加えられたフレーム毎の音響特徴量から音声信号を生成する(ステップS1708)。これにより、任意のテキストに対応する合成音声信号を得ることができる。 The speech synthesizer makes a desired adjustment to a desired portion of the acoustic feature amount based on the adjustment parameter (step S1707). The voice synthesizer generates a voice signal from the adjusted acoustic feature amount for each frame by the voice generation process (step S1708). This makes it possible to obtain a synthetic speech signal corresponding to any text.
しかしながら、この想定例では、ステップS1706にて統計モデルを用いて言語特徴量から推定した音響特徴量は、実際の音声信号から音声分析処理により抽出した音響特徴量とは異なり、時間的に平滑化された特性を持っている。このため、ステップS1707にて統計モデルを用いて推定した音響特徴量に調整を加え、ステップS1708にて調整後のフレーム毎の音響特徴量から合成音声信号を得ると、合成音声信号に音質劣化を生じてしまう。 However, in this assumed example, the acoustic features estimated from the language features using the statistical model in step S1706 are different from the acoustic features extracted from the actual voice signal by the voice analysis process, and are smoothed in time. Has the characteristics that have been made. Therefore, if the acoustic features estimated using the statistical model in step S1707 are adjusted and the synthesized speech signal is obtained from the adjusted acoustic features for each frame in step S1708, the sound quality of the synthesized speech signal deteriorates. It will occur.
このように、図17に示した想定例では、高品質の合成音声信号を得ることができないという問題があった。このため、テキストの特定部分の読み上げ方を調整した、高品質の合成音声信号を得るために、新たな手法が所望されていた。 As described above, in the assumed example shown in FIG. 17, there is a problem that a high-quality synthetic voice signal cannot be obtained. Therefore, a new method has been desired in order to obtain a high-quality synthetic speech signal in which the reading method of a specific part of the text is adjusted.
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることが可能な音声合成装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above-mentioned problems, and an object thereof is to obtain a high-quality synthetic speech signal when generating a synthetic speech signal in which a reading method of a specific part of a text is adjusted. It is an object of the present invention to provide a speech synthesizer and a program capable of the above.
前記課題を解決するために、請求項1の音声合成装置は、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に、音響の特徴を調整するための調整パラメータの調整量情報を追加する調整量追加部と、前記調整量追加部により前記調整量情報が追加された前記言語特徴量に基づき、予め学習された統計モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記テキストに対して前記調整パラメータによる調整が加えられた音声信号を出力する音声生成部と、を備えたことを特徴とする。
In order to solve the above-mentioned problem, the speech synthesizer according to
また、請求項2の音声合成装置は、請求項1に記載の音声合成装置において、前記統計モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記音響特徴量推定部が、前記時間長モデルを用いて、音素毎の前記言語特徴量を前記時間長モデルの入力データとして、前記時間長モデルの出力データである音素毎の時間長を推定し、音素毎の前記時間長からフレーム毎の時間長を生成し、前記音響モデルを用いて、フレーム毎の前記言語特徴量及びフレーム毎の前記時間長を入力データとし、前記音響モデルの出力データであるフレーム毎の前記音響特徴量を推定する、ことを特徴とする。
Further, in the speech synthesizer according to
また、請求項3の音声合成装置は、請求項1または2に記載の音声合成装置において、前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータのうちのいずれか1つまたは2つ以上の組み合わせとする、ことを特徴とする。
Further, in the speech synthesizer according to
また、請求項4の音声合成装置は、請求項1または2に記載の音声合成装置において、前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータとし、当該4つのパラメータのうちのいずれか1つのパラメータの調整量は、所定範囲内の任意の値が指定され、他の3つのパラメータの調整量は、固定値が用いられる、ことを特徴とする。
Further, the speech synthesizer according to
また、請求項5の音声合成装置は、請求項1または2に記載の音声合成装置において、前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータとし、当該4つのパラメータにおけるそれぞれの調整量は、それぞれの所定範囲内の任意の値が指定される、ことを特徴とする。
Further, in the speech synthesizer according to
また、請求項6のプログラムは、コンピュータを、請求項1から5までのいずれか一項に記載の音声合成装置として機能させることを特徴とする。
The program according to claim 6 is characterized in that the computer functions as the speech synthesizer according to any one of
以上のように、本発明によれば、テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることが可能となる。 As described above, according to the present invention, it is possible to obtain a high-quality synthetic speech signal when generating a synthetic speech signal in which the reading method of a specific part of the text is adjusted.
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。図1は、学習装置の構成例を示すブロック図であり、図2は、学習装置による事前学習処理例を示すフローチャートである。
Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings.
[Learning device]
First, a learning device according to an embodiment of the present invention will be described. FIG. 1 is a block diagram showing a configuration example of a learning device, and FIG. 2 is a flowchart showing an example of pre-learning processing by the learning device.
この学習装置1は、記憶部10,17、言語分析部11、音声分析部12、対応付け部13、調整量追加部14、音響特徴量調整部15及び学習部16を備えている。音声信号はモノラルであり、標本化周波数48kHz及びビット数16で標本化されているものとする。
The
記憶部10には、予め設定された音声コーパスが格納されている。音声コーパスは、テキストと、これに対応する音声信号から構成される。例えば、ATR(株式会社国際電気通信基礎技術研究所)により作成された音素バランス503文を利用する場合、テキストと、これを読み上げた音声信号は、503対からなる。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、 pp.89-90(1988.3)
A preset voice corpus is stored in the
Kenichi Iso, Takao Watanabe, Nao Kuwahara, "Design of Sentence Set for Speech Database", Otokoron (Spring), pp.89-90 (1988.3)
言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、テキストについて既知の言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める(ステップS201)。そして、言語分析部11は、音素毎の言語特徴量を対応付け部13に出力する。
The
具体的には、言語分析部11は、言語分析処理により、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報を求め、これらの情報からなる言語特徴量を求める。
Specifically, the
言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab:Yet Another Part-of-Speech and Morphological Analyzer”,インターネット<URL:http://taku910.github.io/mecab/>
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜:Yet Another Japanese Dependency Structure Analyzer”,インターネット<URL:https://taku910.github.io/cabocha/>
As the language analysis process, for example, the morphological analysis process described below is used.
"MeCab: Yet Another Part-of-Speech and Morphological Analyzer", Internet <URL: http://taku910.github.io/mecab/>
Further, as the language analysis process, for example, the dependency analysis process described below is used.
“CaboCha / Pumpkin: Yet Another Japanese Dependency Structure Analyzer”, Internet <URL: https://taku910.github.io/cabocha/>
図3は、言語特徴量のデータ構成例を説明する図である。図3に示すように、言語特徴量は、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。 FIG. 3 is a diagram illustrating an example of data composition of language features. As shown in FIG. 3, the language feature amount is composed of phoneme information, accent information, part-of-speech information, accent phrase information, exhalation paragraph information, and total number information for each phoneme.
図1及び図2に戻って、音声分析部12は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出し、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音響分析処理を行う。そして、音声分析部12は、フレーム毎の所定情報からなる音響特徴量を求め(ステップS202)、フレーム毎の音響特徴量を対応付け部13に出力する。音響特徴量は、後述するように、199次元のデータから構成される。
Returning to FIGS. 1 and 2, the
音響分析処理としては、例えば以下に記載された音響分析処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”,インターネット<URL:https://github.com/mmorise/World>
また、音響分析処理としては、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”,インターネット<URL:http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
As the acoustic analysis process, for example, the acoustic analysis process described below is used.
“A high-quality speech analysis, manipulation and synthesis system”, Internet <URL: https://github.com/mmorise/World>
Further, as the acoustic analysis processing, for example, the voice signal processing described below is used.
“Speech Signal Processing Toolkit (SPTK) Version 3.11 December 25, 2017”, Internet <URL: http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
図4は、音声分析部12による音声分析処理例を示すフローチャートである。音声分析部12は、記憶部10から音声コーパスの各音声信号を読み出し、フレーム長25msの音声信号をフレームシフト5ms毎に切り出す(ステップS401)。そして、音声分析部12は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める(ステップS402)。
FIG. 4 is a flowchart showing an example of voice analysis processing by the
音声分析部12は、スペクトルをメルケプストラム分析してメルケプストラム係数MGCを求める(ステップS403)。また、音声分析部12は、ピッチ周波数から有声/無声判定情報VUVを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数LF0を求める(ステップS404)。また、音声分析部12は、非周期成分をメルケプストラム分析して帯域非周期成分BAPを求める(ステップS405)。
The
これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数MGC、有声/無声判定情報VUV、対数ピッチ周波数LF0及び帯域非周期成分BAPが得られる。 As a result, the mer cepstrum coefficient MGC, the voiced / unvoiced determination information VUV, the logarithmic pitch frequency LF0, and the band aperiodic component BAP can be obtained for each frame as the acoustic features of the static characteristics.
音声分析部12は、メルケプストラム係数MGCの1次差分Δを算出して1次差分メルケプストラム係数ΔMGCを求め(ステップS406)、2次差分Δ2を算出して2次差分メルケプストラム係数Δ2MGCを求める(ステップS407)。
The
音声分析部12は、対数ピッチ周波数LF0の1次差分Δを算出して1次差分対数ピッチ周波数ΔLF0を求め(ステップS408)、2次差分Δ2を算出して2次差分対数ピッチ周波数Δ2LF0を求める(ステップS409)。
The
音声分析部12は、帯域非周期成分BAPの1次差分Δを算出して1次差分帯域非周期成分ΔBAPを求め(ステップS410)、2次差分Δ2を算出して2次差分帯域非周期成分Δ2BAPを求める(ステップS411)。
The
これにより、動特性の音響特徴量として、フレーム毎に、1次差分メルケプストラム係数ΔMGC、2次差分メルケプストラム係数Δ2MGC、1次差分対数ピッチ周波数ΔLF0、2次差分対数ピッチ周波数Δ2LF0、1次差分帯域非周期成分ΔBAP及び2次差分帯域非周期成分Δ2BAPが得られる。 As a result, as the acoustic feature amount of the dynamic characteristics, the first-order difference mel cepstrum coefficient ΔMGC, the second-order difference mel cepstrum coefficient Δ 2 MGC, the first-order difference log-pitch frequency ΔLF0, and the second-order difference log-pitch frequency Δ 2 LF0 are used for each frame. The first-order difference band aperiodic component ΔBAP and the second-order difference band aperiodic component Δ 2 BAP are obtained.
音声分析部12は、フレーム毎の静特性及び動特性の所定情報からなる音響特徴量を対応付け部13に出力する。
The
図5は、音響特徴量のデータ構成例を説明する図である。図5に示すように、音響特徴量は、フレーム毎に、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVから構成される。この音響特徴量は、後述するように、199次元のデータから構成される。 FIG. 5 is a diagram illustrating an example of data composition of acoustic features. As shown in FIG. 5, the acoustic feature amount is the static characteristic merkepstrum coefficient MGC, the logarithmic pitch frequency LF0 and the band aperiodic component BAP, and the dynamic characteristic first-order difference merkepstrum coefficient ΔMGC, first-order difference logarithm for each frame. Pitch frequency ΔLF0, primary difference band aperiodic component ΔBAP, secondary difference mel cepstrum coefficient Δ 2 MGC, secondary difference log pitch frequency Δ 2 LF0 and secondary difference band aperiodic component Δ 2 BAP, and static characteristic voice / It is composed of silent judgment information VUV. As will be described later, this acoustic feature amount is composed of 199-dimensional data.
図1及び図2に戻って、対応付け部13は、言語分析部11から音素毎の言語特徴量を入力すると共に、音声分析部12からフレーム毎の音響特徴量を入力する。そして、対応付け部13は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付けることで、テキストの文を構成する各音素が音声信号のどの時刻に位置(対応)するのかを算出する(ステップS203)。
Returning to FIGS. 1 and 2, the
対応付け部13は、音素毎に、対応する開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、言語特徴量を構成する音素毎の所定情報に時間情報を追加すると共に、音素の時間長(フレーム数)を求める。そして、対応付け部13は、対応付けた音素毎の時間情報を追加した言語特徴量を調整量追加部14に出力する。また、対応付け部13は、音素毎の時間長を音響特徴量に含め、対応付けたフレーム毎の音響特徴量(時間長については音素毎のデータ)を音響特徴量調整部15に出力する。
The
ここで、言語特徴量に追加される時間情報は、ミリ秒単位の情報である。また、音素毎の時間長は、後述する統計モデルにおける時間長モデルの出力データに用いられ、音素におけるミリ秒単位の時間の長さをフレームシフト5msで除算した5msフレーム単位の数値、すなわち音素のフレーム数が用いられる。 Here, the time information added to the language feature is information in milliseconds. The time length for each phonetic element is used for the output data of the time length model in the statistical model described later, and is a numerical value in 5 ms frame units obtained by dividing the time length in milliseconds in the phonetic element by a frame shift of 5 ms, that is, the sound element. The number of frames is used.
音素アラインメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit(HTK)”,インターネット<URL:http://htk.eng.cam.ac.uk>
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”
As a technique for phoneme alignment, for example, the speech recognition process described below is used.
"The Hidden Markov Model Toolkit (HTK)", Internet <URL: http://htk.eng.cam.ac.uk>
“Speech Signal Processing Toolkit (SPTK) Version 3.11 December 25, 2017”
尚、対応付け部13は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。
The
図6は、時間情報が追加された言語特徴量のデータ構成例を説明する図である。図6に示すように、時間情報が追加された言語特徴量は、図3に示した言語特徴量に時間情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、時間情報、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。 FIG. 6 is a diagram illustrating an example of data composition of a language feature amount to which time information is added. As shown in FIG. 6, the language feature amount to which the time information is added is configured by adding the time information to the language feature amount shown in FIG. Specifically, this language feature quantity is composed of time information, phoneme information, accent information, part-of-speech information, accent phrase information, exhalation paragraph information, and total number information for each phoneme.
図1及び図2に戻って、調整量追加部14は、対応付け部13から音素毎の言語特徴量を入力すると共に、所定の調整パラメータを入力する。そして、調整量追加部14は、言語特徴量を構成する音素毎の所定情報に、調整パラメータの調整量情報を追加する(ステップS204)。調整量追加部14は、音素毎の調整量情報を追加した言語特徴量を学習部16に出力する。
Returning to FIGS. 1 and 2, the adjustment
所定の調整パラメータは、音声信号を調整する(音響の特徴を調整する)ためのパラメータであり、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのいずれか、またはこれらの組み合わせとし、ユーザにより選択されるものとする。また、調整パラメータは、学習部16において学習データの一部として用いられる。
The predetermined adjustment parameters are parameters for adjusting the audio signal (adjusting the acoustic characteristics), and are any of the speaking speed R ST , the power R PW , the pitch R PT and the intonation R P D, or these. It shall be a combination and shall be selected by the user. Further, the adjustment parameter is used as a part of the learning data in the
話速RSTは話速の調整量を示し、パワーRPWはパワー(声の大きさ)の調整量を示し、RPTはピッチ(声の高さ)の調整量を示し、抑揚RPDは抑揚(声の高さの変化幅)の調整量を示す。尚、話速の代わりに、時間長を用いるようにしてもよい。 Speaking speed RST indicates the amount of adjustment of speaking speed, power RPW indicates the amount of adjustment of power (loudness), RPT indicates the amount of adjustment of pitch (pitch of voice), and intonation RPD indicates the amount of adjustment. The amount of adjustment of intonation (change range of voice pitch) is shown. It should be noted that the time length may be used instead of the speaking speed.
話速RSTの範囲(話速の調整量範囲)は、例えば以下のとおりとする。
(遅い)0.5<=RST<=4.0(速い)
これは、話速RSTは0.5から4.0までの範囲において、0.5に近いほど遅く、4.0に近いほど速いことを意味する。
The range of the speaking speed R ST (range of adjusting the speaking speed) is as follows, for example.
(Slow) 0.5 <= R ST <= 4.0 (Fast)
This means that the speaking speed RST is slower as it is closer to 0.5 and faster as it is closer to 4.0 in the range of 0.5 to 4.0.
パワーRPWの範囲(パワーの調整量範囲)は、例えば以下のとおりとする。
(小さい)1.0E-5<=RPW<=2.0(大きい)
これは、パワーRPWは1.0E-5から2.0までの範囲において、1.0E-5に近いほど小さく、2.0に近いほど大きいことを意味する。
The range of power R PW (power adjustment amount range) is, for example, as follows.
(Small) 1.0E-5 <= R PW <= 2.0 (Large)
This means that the power R PW is smaller as it is closer to 1.0E-5 and larger as it is closer to 2.0 in the range of 1.0E-5 to 2.0.
ピッチRPTの範囲(ピッチの調整量範囲)は、例えば以下のとおりとする。
(低い)0.5<=RPT<=2.0(高い)
これは、ピッチRPTは0.5から2.0までの範囲において、0.5に近いほど低く、2.0に近いほど高いことを意味する。
The range of pitch R PT (pitch adjustment amount range) is, for example, as follows.
(Low) 0.5 <= R PT <= 2.0 (High)
This means that the pitch R PT is lower as it is closer to 0.5 and higher as it is closer to 2.0 in the range of 0.5 to 2.0.
抑揚RPDの範囲(抑揚の調整量範囲)は、例えば以下のとおりとする。
(小さい)1.0E-5<=RPD<=2.0(大きい)
これは、抑揚RPDは1.0E-5から2.0までの範囲において、1.0E-5に近いほど小さく、2.0に近いほど大きいことを意味する。話速RST、パワーRPW、ピッチRPT及び抑揚RPDの標準値は、いずれも1.0とする。
The range of intonation RPD (range of adjustment amount of intonation) is as follows, for example.
(Small) 1.0E-5 <= R PD <= 2.0 (Large)
This means that the intonation RPD is smaller as it is closer to 1.0E-5 and larger as it is closer to 2.0 in the range of 1.0E-5 to 2.0. The standard values for speaking speed R ST , power R PW , pitch R PT , and intonation R PD are all 1.0.
また、これらの調整パラメータのそれぞれは、例えば以下に示す11個のデータから選択されるものとする。すなわち、学習装置1における話速RST、パワーRPW、ピッチRPT及び抑揚RPDの調整パラメータは、それぞれ11個のデータのいずれかが使用される。
[数1]
Further, each of these adjustment parameters shall be selected from, for example, 11 data shown below. That is, any one of 11 data is used as the adjustment parameter of the speaking speed R ST , the power R PW , the pitch R PT , and the intonation R PD in the
[Number 1]
ここで、4つの調整パラメータを以下の調整ベクトルで表現する。
話速、パワー等の調整量を変化させないで元の話速、パワー等を維持する場合、調整ベクトルは以下のとおりである。
Here, the four adjustment parameters are expressed by the following adjustment vectors.
When maintaining the original speaking speed, power, etc. without changing the adjustment amount of speaking speed, power, etc., the adjustment vector is as follows.
4つの調整パラメータにおいて、それぞれ11個のデータから1個のデータが選択されるものとすると、全ての組み合わせ数は、114=14,641となる。このため、統計モデルを学習するためには、膨大なデータ量が必要となることから、学習の負荷が高くなり、時間もかかってしまう。 Assuming that one data is selected from each of 11 data in each of the four adjustment parameters, the total number of combinations is 114 = 14,641. Therefore, in order to train the statistical model, a huge amount of data is required, which increases the learning load and takes time.
そこで、本発明の実施形態では、ユーザは、4つの調整パラメータのうちの1つの調整パラメータについて、所定範囲の11個のデータから1個のデータを選択し、他の3つの調整パラメータについては、標準値1.0を固定値として用いるようにしてもよい。音響特徴量調整部15、及び後述する図10の音声合成装置2についても同様である。
Therefore, in the embodiment of the present invention, the user selects one data from 11 data in a predetermined range for one of the four adjustment parameters, and the other three adjustment parameters are set. The standard value 1.0 may be used as a fixed value. The same applies to the acoustic feature
例えば、ユーザは、話速RSTについて11個のデータから1個のデータを選択し、パワーRPW、ピッチRPT及び抑揚RPDについて標準値1.0を固定値として用いるものとすると、調整ベクトルは以下のとおりである。
この場合、調整量追加部14は、調整パラメータとして、ユーザにより11個のデータのうち1個のデータが選択された話速RST、並びに、標準値1.0を固定値としたパワーRPW、ピッチRPT及び抑揚RPDを入力する。
For example, assume that the user selects one data out of 11 data for the speaking speed RST and uses the standard value 1.0 as the fixed value for the power RPW , pitch RP T and intonation RP D, and the adjustment vector is It is as follows.
In this case, the adjustment
このように、4つの調整パラメータのうちの1つの調整パラメータについては11個のデータから1個のデータが選択され、他の3つの調整パラメータについては標準値である1.0を固定値として用いることは、調整ベクトルRのいずれか1つの要素の軸方向のみに調整量をプロットしたことと等価である。この場合の組み合わせ数は、10×4+1=41となる。これにより、統計モデルを学習する際に、学習データの数を減らすことができるから、学習処理の負荷を低減し、学習処理の時間を短縮することができる。 In this way, one data is selected from 11 data for one of the four adjustment parameters, and the standard value of 1.0 is used as a fixed value for the other three adjustment parameters. , Is equivalent to plotting the adjustment amount only in the axial direction of any one element of the adjustment vector R. In this case, the number of combinations is 10 × 4 + 1 = 41. As a result, when learning the statistical model, the number of training data can be reduced, so that the load of the learning process can be reduced and the time of the learning process can be shortened.
また、本発明の実施形態における他の例として、ユーザは、4つの調整パラメータを11段階で連動させて選択するようにしてもよい。音響特徴量調整部15、及び後述する図10の音声合成装置2についても同様である。
Further, as another example in the embodiment of the present invention, the user may select the four adjustment parameters in an interlocking manner in 11 steps. The same applies to the acoustic feature
この場合、調整量追加部14は、調整パラメータとして、予め設定された11種類のパターンのうち、ユーザにより選択されたいずれかのパターンの話速RST、パワーRPW、ピッチRPT及び抑揚RPDを入力する。11種類のパターンの調整ベクトルは以下のとおりである。
a1,b1,・・・,c11,d11は、対応する調整パラメータの調整量範囲に含まれる値とする。
In this case, the adjustment
a1, b1, ..., c11, d11 are values included in the adjustment amount range of the corresponding adjustment parameter.
この場合の組み合わせ数は、11となる。これにより、統計モデルを学習する際に、学習データの数を一層減らすことができるから、その負荷を一層低減し、その時間を一層短縮することができる。 In this case, the number of combinations is 11. As a result, when training the statistical model, the number of training data can be further reduced, so that the load can be further reduced and the time can be further shortened.
尚、調整量追加部14は、文章単位、呼気段落単位またはアクセント句単位で、異なる調整パラメータを入力するようにしてもよい。音響特徴量調整部15、及び後述する音声合成装置2についても同様である。
The adjustment
図7は、調整量情報が追加された言語特徴量のデータ構成例を説明する図である。図7に示すように、調整量情報が追加された言語特徴量は、図6に示した言語特徴量に、調整パラメータの調整量情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、時間情報、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報及び調整量情報から構成される。 FIG. 7 is a diagram illustrating an example of data configuration of a language feature amount to which adjustment amount information is added. As shown in FIG. 7, the language feature amount to which the adjustment amount information is added is configured by adding the adjustment amount information of the adjustment parameter to the language feature amount shown in FIG. Specifically, this language feature amount is composed of time information, phoneme information, accent information, part-of-speech information, accent phrase information, exhalation paragraph information, total number information, and adjustment amount information for each phoneme.
調整量情報は、話速RST、パワーRPW、ピッチRPT及び抑揚RPDの調整パラメータにおける調整量が反映された情報である。 The adjustment amount information is information that reflects the adjustment amount in the adjustment parameters of the speaking speed R ST , the power R PW , the pitch R PT , and the intonation R PD .
前述のとおり、調整量追加部14は、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせの調整パラメータを入力する。調整量追加部14は、例えば話速RSTのみの調整パラメータを入力した場合、言語特徴量に、入力した話速RST、並びに固定値である標準値1.0のパワーRPW、ピッチRPT及び抑揚RPDの調整量情報を追加する。また、調整量追加部14は、例えば話速RST及びパワーRPWの調整パラメータを入力した場合、言語特徴量に、入力した話速RST及びパワーRPW、並びに固定値である標準値1.0のピッチRPT及び抑揚RPDの調整量情報を追加する。
As described above, the adjustment
図1及び図2に戻って、音響特徴量調整部15は、対応付け部13から、調整量追加部14が入力する音素毎の言語特徴量に対応するフレーム毎の音響特徴量(時間長については音素毎のデータ)を入力する。また、音響特徴量調整部15は、調整量追加部14と同様の所定の調整パラメータを入力する。
Returning to FIGS. 1 and 2, the acoustic feature
音響特徴量調整部15は、調整パラメータに従ってフレーム毎の音響特徴量を調整し、調整後のフレーム毎の音響特徴量(時間長については音素毎のデータ)を学習部16に出力する。
The acoustic feature
話速RSTの調整パラメータに従い話速が調整される場合、音響特徴量調整部15は、以下の式のとおり、対応付け部13から入力した時間長DURに話速RSTの逆数を乗算し、乗算結果を整数化し、新たな時間長DUR’を求めることで、時間長を調整する。
[数2]
DUR’= int(DUR×1/RST) ・・・(2)
対応付け部13から入力した時間長をDUR、調整後の時間長をDUR’とする。
When the speaking speed is adjusted according to the adjustment parameter of the speaking speed RST , the acoustic feature
[Number 2]
DUR'= int (DUR x 1 / R ST ) ・ ・ ・ (2)
The time length input from the matching
尚、話速RSTの代わりに時間長の調整パラメータRDR(=1/RST)に従い時間長が調整される場合、音響特徴量調整部15は、対応付け部13から入力した時間長DURに対し、話速RSTの逆数の代わりに、時間長の調整パラメータRDRを乗算し、乗算結果を整数化し、新たな時間長DUR’を求めることで、時間長を調整する。
When the time length is adjusted according to the time length adjustment parameter R DR (= 1 / R ST ) instead of the speaking speed R ST , the acoustic feature
音響特徴量調整部15は、調整後の時間長に応じて、対応付け部13から入力したフレームの音響特徴量を繰り返しまたは間引きして、音響特徴量のフレーム数を揃えることで、音響特徴量を調整する。このように、音素毎の時間長の調整に応じて、音響特徴量のフレーム数が揃えられる。
The acoustic feature
尚、音響特徴量調整部15は、調整後の時間長に応じて、対応するフレームの音響特徴量を繰り返しまたは間引くことで音響特徴量を調整する際に、前後のフレームの音響特徴量を用いて補間を行うようにしてもよい。これにより、高品質の音響特徴量を得ることができる。また、話速RSTの調整パラメータ及び他の調整パラメータに従い話速等が調整される場合、音響特徴量調整部15は、話速を調整する前に、他の調整パラメータによる調整を行う。
The acoustic feature
また、パワーRPWの調整パラメータに従い音声のパワーが調整される場合、音響特徴量調整部15は、対応付け部13から入力した音響特徴量に含まれる静特性のメルケプストラム係数MGCにおける0次元目の値MGC[0]に、パワーRPWを対数化した値を加算する。
Further, when the voice power is adjusted according to the adjustment parameter of the power R PW , the acoustic feature
音響特徴量調整部15は、以下の式のとおり、加算した値と0とを比較して大きい方を、新たな静特性のメルケプストラム係数MGCにおける0次元目の値MGC[0]’として求めることで、音響特徴量を調整する。
[数3]
MGC[0]’= max(0,MGC[0]+logRPW) ・・・(3)
対応付け部13から入力した音響特徴量に含まれる静特性のメルケプストラム係数MGCにおける0次元目の値をMGC[0]、調整後の値をMGC[0]’とする。
As shown in the following equation, the acoustic feature
[Number 3]
MGC [0]'= max (0, MGC [0] + logR PW ) ・ ・ ・ (3)
The 0th-dimensional value in the mer cepstrum coefficient MGC of the static characteristic included in the acoustic feature amount input from the corresponding
また、ピッチRPTの調整パラメータに従い音声のピッチ周波数が調整される場合、音響特徴量調整部15は、対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0における0次元目の値LF0[0]に、ピッチRPTを対数化した値を加算する。
Further, when the pitch frequency of the voice is adjusted according to the adjustment parameter of the pitch R PT , the acoustic feature
音響特徴量調整部15は、以下の式のとおり、加算した値と0とを比較して大きい方を、新たな静特性の対数ピッチ周波数LF0における0次元目の値LF0[0]’として求めることで、音響特徴量を調整する。
[数4]
LF0[0]’= max(0,LF0[0]+logRPT) ・・・(4)
対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0における0次元目の値をLF0[0]、調整後の値をLF0[0]’とする。
As shown in the following equation, the acoustic feature
[Number 4]
LF0 [0]'= max (0, LF0 [0] + logR PT ) ・ ・ ・ (4)
The 0th dimension value in the logarithmic pitch frequency LF0 of the static characteristic included in the acoustic feature amount input from the corresponding
また、抑揚RPDの調整パラメータに従い音声の抑揚が調整される場合、音響特徴量調整部15は、対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0から、予め算出しておいた平均値μLF0を減算する。そして、音響特徴量調整部15は、減算結果を、予め算出しておいた標準偏差ΣLF0で除算し、除算結果を求める。平均値μLF0は、対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0の平均値であり、標準偏差ΣLF0はその標準偏差である。
Further, when the intonation of voice is adjusted according to the adjustment parameter of the intonation RPD, the acoustic feature
音響特徴量調整部15は、以下の式のとおり、対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0について、その平均値μLF0及び標準偏差ΣLF0を文毎に算出しておくものとする。Nは、文に対応するフレーム数である。
[数5]
[数6]
As shown in the following equation, the acoustic feature
[Number 5]
[Number 6]
音響特徴量調整部15は、標準偏差ΣLF0に、抑揚RPDを対数化した値を加算し、加算結果と0とを比較して大きい方を求める。そして、音響特徴量調整部15は、前記除算結果に、大きい方の値を乗算し、乗算結果に平均値μLF0を加算する。
The acoustic feature
音響特徴量調整部15は、加算した値と0とを比較して大きい方を、新たな静特性の対数ピッチ周波数LF0’として求める。音響特徴量調整部15による演算処理の式は以下のとおりである。
[数7]
LF0’= max(0,((LF0-μLF0)/ΣLF0)×max(0,ΣLF0+logRPD)+μLF0)
・・・(7)
対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数をLF0、その平均値をμLF0、その標準偏差をΣLF0、調整後の静特性の対数ピッチ周波数をLF0’とする。
The acoustic feature
[Number 7]
LF0'= max (0, ((LF0-μ LF0 ) / Σ LF0 ) × max (0, Σ LF0 + logR PD ) + μ LF0 )
... (7)
The logarithmic pitch frequency of the static characteristics included in the acoustic feature quantity input from the
音響特徴量調整部15は、前記のように各調整パラメータに従い算出された新たな静特性の1次差分Δを算出して新たな動特性の1次差分を求める。また、音響特徴量調整部15は、2次差分Δ2を算出して新たな動特性の2次差分を求める。このようにして、音響特徴量調整部15は、音響特徴量を調整する。
The acoustic feature
尚、音響特徴量調整部15による音響特徴量の調整処理は、調整量追加部14による調整量情報の言語特徴量への追加処理と連動するものとする。
The adjustment process of the acoustic feature amount by the acoustic feature
学習部16は、調整量追加部14から音素毎の言語特徴量を入力すると共に、音響特徴量調整部15からフレーム毎の音響特徴量(時間長については音素毎のデータ)を入力する。そして、学習部16は、これらのデータを標準化し、統計モデルである時間長モデル及び音響モデルを学習する。
The
(時間長モデルの学習)
次に、学習部16による時間長モデルの学習処理について説明する。図8は、時間長モデルの学習処理例を説明する図である。学習部16は、調整量追加部14から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリ値及び13次元の数値データ、並びに1次元の調整データを生成する。1次元の調整データは話速データであり、言語特徴量の次元数は326である。
(Learning of time length model)
Next, the learning process of the time length model by the
ここで、言語特徴量における312次元のバイナリ値及び13次元の数値データは、言語特徴量に含まれる音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報に基づいて生成される。言語特徴量における1次元の調整データは、言語特徴量に含まれる調整量情報(話速の調整量、パワーの調整量、ピッチの調整量及び抑揚の調整量)のうち、話速の調整量に基づいて生成される。 Here, the 312-dimensional binary value and the 13-dimensional numerical data in the language feature are generated based on the phoneme information, the accent information, the part of speech information, the accent phrase information, the exhalation paragraph information, and the total number information included in the language feature. To. The one-dimensional adjustment data in the language feature amount is the adjustment amount of the speech speed among the adjustment amount information (speaking speed adjustment amount, power adjustment amount, pitch adjustment amount, and intonation adjustment amount) included in the language feature amount. Is generated based on.
学習部16は、言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータを、時間長モデルの入力データとして扱う(ステップS801)。
The
学習部16は、言語特徴量の326次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部17に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する(ステップS802)。
The
また、学習部16は、音響特徴量調整部15から入力したフレーム毎の音響特徴量(時間長については音素毎のデータ)のうちの音素毎の時間長について、当該時間長の1次元のデータを、時間モデルの出力データとして扱う(ステップS803)。この時間長は、5ms単位のフレーム数であり、テキストを表現する音素毎に1次元の整数値からなる。
Further, the
学習部16は、時間長の1次元の全てのデータを用いて、平均値及び標準偏差を求めて記憶部17に格納すると共に、全てのデータのそれぞれについて、平均値及び標準偏差を用いて標準化する(ステップS804)。
The
学習部16は、ステップS802,S804から移行して、音素毎に、言語特徴量の326次元の標準化されたデータを入力データとし、時間長の1次元の標準化されたデータを出力データとして時間長モデルを学習する(ステップS805)。そして、学習部16は、学習済みの時間長モデルを記憶部17に格納する。
The
ステップS805における時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”,インターネット<URL:https://github.com/CSTR-Edinburgh/merlin>
後述する図9のステップS905における音響モデルの学習の場合も同様である。
When learning the time length model in step S805, the technique described at the following site is used.
"CSTR-Edinburgh / merlin", Internet <URL: https://github.com/CSTR-Edinburgh/merlin>
The same applies to the learning of the acoustic model in step S905 of FIG. 9, which will be described later.
時間長モデルは、例えば入力層を326次元、隠れ層を1024次元の6層、出力層を1次元とした順伝播型のニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を64、エポック数を100、dropout(ドロップアウト)率を0.5、学習係数の最適化方法として確率的勾配降下法、開始学習率を0.01、10エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、15エポックを過ぎてから、5エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。 The time-length model is composed of, for example, a forward propagation type neural network in which the input layer is 326 dimensions, the hidden layer is 1024 dimensions, and the output layer is one dimension. The hyperbolic tangential function is used as the activation function in the hidden layer, and the mean square error function is used as the loss error function. In addition, the number of mini-batch is 64, the number of epochs is 100, the dropout rate is 0.5, the stochastic gradient descent method is used as the learning coefficient optimization method, and the start learning rate is 0.01. The learning rate is exponentially attenuated for each epoch, and learning is performed by the error back propagation method. If the evaluation error does not decrease for 5 consecutive epochs after 15 epochs, the learning is terminated early.
これにより、記憶部17には、統計モデルとして時間長モデルが格納される。また、記憶部17には、統計モデルとして、時間長モデルの入力データである言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部17には、統計モデルとして、時間長モデルの出力データである時間長の1次元のデータに関する平均値及び標準偏差が格納される。
As a result, the time length model is stored in the
(音響モデルの学習)
次に、学習部16による音響モデルの学習処理について説明する。図9は、音響モデルの学習処理例を説明する図である。学習部16は、調整量追加部14から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データを生成する。
(Learning of acoustic model)
Next, the learning process of the acoustic model by the
4次元の時間データは、当該フレームに対応する音素のフレーム数(1次元のデータ)、及び当該フレームの音素内における位置(3次元のデータ)からなる。3次元の調整データは、パワーデータ、ピッチデータ及び抑揚データである。これらの調整データは、言語特徴量に含まれる調整量情報(話速の調整量、パワーの調整量、ピッチの調整量及び抑揚の調整量)のうち、パワーの調整量、ピッチの調整量及び抑揚の調整量に基づいて生成される。また、言語特徴量の次元数は332である。 The four-dimensional time data consists of the number of frames of the sound element corresponding to the frame (one-dimensional data) and the position of the frame in the sound element (three-dimensional data). The three-dimensional adjustment data are power data, pitch data, and intonation data. These adjustment data are the power adjustment amount, the pitch adjustment amount, and the adjustment amount information (speaking speed adjustment amount, power adjustment amount, pitch adjustment amount, and intonation adjustment amount) included in the language feature amount. Generated based on the amount of intonation adjustment. The number of dimensions of the language feature is 332.
学習部16は、音素毎の言語特徴量における312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータから、フレーム毎の言語特徴量における332次元のデータを生成する。
The
学習部16は、フレーム毎の言語特徴量について、言語特徴量の312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータを、音響モデルの入力データとして扱う(ステップS901)。
Regarding the language feature amount for each frame, the
学習部16は、言語特徴量の332次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部17に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する(ステップS902)。
The
また、学習部16は、音響特徴量調整部15から入力したフレーム毎の音響特徴量(時間長については音素毎のデータ)のうちの時間長を除く音響特徴量について、199次元のデータを、音響モデルの出力データとして扱う(ステップS903)。
Further, the
ここで、前述のとおり、時間長を除く音響特徴量は、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVからなる。 Here, as described above, the acoustic feature amount excluding the time length is the static characteristic mel cepstrum coefficient MGC, the logarithmic pitch frequency LF0 and the band aperiodic component BAP, and the dynamic characteristic first-order difference mel cepstrum coefficient ΔMGC, the first-order difference log. Pitch frequency ΔLF0, primary difference band aperiodic component ΔBAP, secondary difference mel cepstrum coefficient Δ 2 MGC, secondary difference log pitch frequency Δ 2 LF0 and secondary difference band aperiodic component Δ 2 BAP, and static characteristic voice / It consists of silent judgment information VUV.
具体的には、時間長を除く音響特徴量は、静特性の60次元のメルケプストラム係数、1次元の対数ピッチ周波数及び5次元の帯域非周期成分を併せた静特性の66次元のデータと、これらの静特性のデータを1次差分及び2次差分して得られた動特性の132次元のデータと、1次元の有声/無声判定データとからなる。つまり、時間長を除く音響特徴量の次元数は199である。 Specifically, the acoustic feature amount excluding the time length includes the static characteristic 60-dimensional Melkeptrum coefficient, the static characteristic 66-dimensional data that combines the one-dimensional log pitch frequency and the five-dimensional band aperiodic component. It consists of 132-dimensional data of dynamic characteristics obtained by first-order difference and second-order difference of these static characteristic data, and one-dimensional voiced / unvoiced determination data. That is, the number of dimensions of the acoustic feature amount excluding the time length is 199.
学習部16は、音響特徴量の199次元の全てのデータを用いて、次元毎に、平均値及び標準偏差を求めて記憶部17に格納すると共に、全てのデータのそれぞれについて、次元毎の平均値及び標準偏差を用いて標準化する(ステップS904)。
The
学習部16は、ステップS902,S904から移行して、フレーム毎に、言語特徴量の332次元の標準化されたデータを入力データとし、音響特徴量の199次元の標準化されたデータを出力データとして音響モデルを学習する(ステップS905)。そして、学習部16は、学習済みの音響モデルを記憶部17に格納する。
The
音響モデルは、例えば入力層を332次元、隠れ層を1024次元の6層、出力層を199次元とした順伝播型のニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を256、エポック数を100、dropout(ドロップアウト)率を0.5
学習係数の最適化方法として確率的勾配降下法、開始学習率を0.001、10エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、15エポックを過ぎてから、5エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。
The acoustic model is composed of, for example, a forward propagation type neural network in which the input layer is 332 dimensions, the hidden layer is 1024 dimensions, and the output layer is 199 dimensions. The hyperbolic tangential function is used as the activation function in the hidden layer, and the mean square error function is used as the loss error function. In addition, the number of mini batches is 256, the number of epochs is 100, and the dropout rate is 0.5.
As a method for optimizing the learning coefficient, it is assumed that the learning is performed by the stochastic gradient descent method, the starting learning rate is 0.001, the learning rate is exponentially attenuated for each epoch after passing 10 epochs, and the learning is performed by the error back propagation method. If the evaluation error does not decrease for 5 consecutive epochs after 15 epochs, the learning is terminated early.
これにより、記憶部17には、統計モデルとして音響モデルが格納される。また、記憶部17には、統計モデルとして、音響モデルの入力データである言語特徴量の312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部17には、統計モデルとして、音響モデルの出力データである音響特徴量の199次元のデータに関する次元毎の平均値及び標準偏差が格納される。
As a result, the acoustic model is stored in the
以上のように、本発明の実施形態の学習装置1によれば、言語分析部11は、音声コーパスのテキストについて既知の言語分析処理を行い、音素毎の言語特徴量を求める。音声分析部12は、音声コーパスのテキストに対応する音声信号をフレーム毎に切り出し、フレーム毎の音声信号について既知の音響分析処理を行い、フレーム毎の音響特徴量を求める。
As described above, according to the
対応付け部13は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付け、音素毎の時間長を求める。そして、対応付け部13は、時間情報を追加した音素毎の言語特徴量を生成し、対応付けたフレーム毎の音響特徴量(時間長については音素毎のデータ)を生成する。
The associating
調整量追加部14は、時間情報を追加した音素毎の言語特徴量に、調整パラメータの調整量情報を追加する。音響特徴量調整部15は、調整パラメータに従って、フレーム毎の音響特徴量(時間長については音素毎のデータ)を調整する。
The adjustment
学習部16は、言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータに基づいて、次元毎に、最大値及び最小値を求め、全てのデータのそれぞれを標準化する。また、学習部16は、時間長の1次元のデータに基づいて平均値及び標準偏差を求め、時間長の1次元のデータを標準化する。
The
学習部16は、音素毎に、言語特徴量の326次元の標準化されたデータを入力データとし、時間長の1次元の標準化されたデータを出力データとして時間長モデルを学習する。
The
学習部16は、言語特徴量の312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータに基づいて、次元毎に、最大値及び最小値を求め、全てのデータのそれぞれを標準化する。また、学習部16は、音響特徴量の199次元のデータに基づいて、次元毎に、平均値及び標準偏差を求め、全てのデータのそれぞれを標準化する。
The
学習部16は、フレーム毎に、言語特徴量の332次元の標準化されたデータを入力データとし、音響特徴量の199次元の標準化されたデータを出力データとして音響モデルを学習する。
The
これにより、記憶部17には、学習済みの統計モデルとして、調整パラメータの調整量情報が反映された時間長モデル、音響モデル及び最大値等が格納される。
As a result, the
そして、後述の音声合成装置2により、調整パラメータの調整量情報が反映された学習モデルを用いて、調整パラメータの調整量情報が追加された言語特徴量に基づき音響特徴量が推定され、フレーム毎の音響特徴量から合成音声信号が生成される。
Then, by the
図17に示した非特許文献1,2の従来技術を組み合わせた想定例では、学習モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、合成音声信号に音質劣化が生じてしまう。さらに、入力文章の特定部分に対応する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、調整を加えた部分と、これに隣接する調整を加えていない部分との間の接続部分において、合成音声信号に不連続を生じてしまう。
In the assumed example in which the prior arts of
これに対し、本発明の実施形態による音声合成装置2は、調整パラメータの調整量情報が反映された学習モデルを用いて音響特徴量を推定し、合成音声信号を生成するから、学習モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加える必要がない。また、入力文章の特定部分に対応する言語特徴量を調整したものを学習モデルに入力して音響特徴量を求め、合成音声信号を生成することから、調整を加えた部分と、これに隣接する調整を加えていない部分との間の接続部分において、合成音声信号に不連続を生じることがない
On the other hand, the
したがって、テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることができる。 Therefore, it is possible to obtain a high-quality synthetic speech signal when generating a synthetic speech signal in which the reading method of a specific part of the text is adjusted.
また、本発明の実施形態では、調整パラメータは、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせであり、ユーザにより選択される。この場合、ユーザは、例えば4つの調整パラメータのうちの1つの調整パラメータについて、11個のデータから1個のデータを選択し、他の3つの調整パラメータについては、標準値1.0を固定値として用いる。または、ユーザは、例えば4つの調整パラメータを11段階で連動させて選択する。 Further, in the embodiment of the present invention, the adjustment parameter is any one of the speaking speed R ST , the power R PW , the pitch R PT and the intonation R P D, or a combination thereof, and is selected by the user. In this case, for example, the user selects one data from 11 data for one of the four adjustment parameters, and uses the standard value 1.0 as a fixed value for the other three adjustment parameters. .. Alternatively, the user selects, for example, four adjustment parameters in an interlocking manner in 11 steps.
このように、調整パラメータの選択範囲を限定することにより、統計モデルを学習する際の学習データを少なくすることができ、低負荷かつ短時間で、統計モデルを学習することができる。 By limiting the selection range of the adjustment parameter in this way, it is possible to reduce the training data when learning the statistical model, and it is possible to learn the statistical model with a low load and in a short time.
〔音声合成装置〕
次に、本発明の実施形態による音声合成装置について説明する。図10は、音声合成装置の構成例を示すブロック図であり、図11は、音声合成装置による音声合成処理例を示すフローチャートである。
[Speech synthesizer]
Next, the speech synthesizer according to the embodiment of the present invention will be described. FIG. 10 is a block diagram showing a configuration example of a voice synthesizer, and FIG. 11 is a flowchart showing an example of voice synthesis processing by the voice synthesizer.
この音声合成装置2は、言語分析部20、調整量追加部21、音響特徴量推定部22、記憶部17及び音声生成部23を備えている。記憶部17は、図1に示した記憶部17に相当し、学習装置1により学習された統計モデルとして、時間長モデル、音響モデル及び最大値等が格納されている。
The
尚、学習装置1により学習された統計モデルは、学習装置1に備えた記憶部17から読み出され、音声合成装置2に備えた記憶部17に格納されるようにしてもよい。また、音声合成装置2は、インターネットを介して、学習装置1に備えた記憶部17へ直接アクセスするようにしてもよい。
The statistical model learned by the
言語分析部20は、音声合成対象のテキストを入力し、図1に示した言語分析部11と同様に、テキストについて既知の言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める(ステップS1101)。そして、言語分析部20は、音素毎の言語特徴量を調整量追加部21に出力する。
The
調整量追加部21は、言語分析部20から音素毎の言語特徴量を入力すると共に、所定の調整パラメータを入力する。そして、調整量追加部21は、図1に示した調整量追加部14と同様に、言語特徴量を構成する音素毎の所定情報に、調整パラメータの調整量情報を追加する(ステップS1102)。調整量追加部21は、音素毎の調整量情報を追加した言語特徴量を音響特徴量推定部22に出力する。
The adjustment
所定の調整パラメータは、前述と同様に、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせとし、ユーザにより指定されるものとする。調整パラメータの値は、前述した調整の範囲において任意の実数とする。つまり、所定の調整パラメータは、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのいずれか1つまたは2つ以上の組み合わせとする。 As described above, the predetermined adjustment parameter shall be any one of the speaking speed R ST , the power R PW , the pitch R PT and the intonation R P D, or a combination thereof, and shall be specified by the user. The value of the adjustment parameter shall be an arbitrary real number within the range of the adjustment described above. That is, the predetermined adjustment parameter is any one or a combination of two or more of the speaking speed R ST , the power R PW , the pitch R PT , and the intonation R PD .
尚、所定の調整パラメータは、話速RST、パワーRPW、ピッチRPT及び抑揚RPDとし、これらの4つのパラメータのうちのいずれか1つのパラメータの調整量は、所定範囲内の任意の値が指定され、他の3つのパラメータの調整量は、固定値が用いられるようにしてもよい。また、所定の調整パラメータは、前述の4つのパラメータとし、それぞれの調整量は、それぞれの所定範囲内の任意の値が指定されるようにしてもよい。 The predetermined adjustment parameters are speaking speed R ST , power R PW , pitch R PT , and intonation R PD , and the adjustment amount of any one of these four parameters is arbitrary within the predetermined range. A value is specified, and a fixed value may be used as the adjustment amount of the other three parameters. Further, the predetermined adjustment parameters may be the above-mentioned four parameters, and any value within the respective predetermined range may be specified for each adjustment amount.
尚、調整量追加部21は、図1に示した調整量追加部14と同様に、文章単位、呼気段落単位またはアクセント句単位で、異なる調整パラメータを入力するようにしてもよい。
The adjustment
音響特徴量推定部22は、調整量追加部21から音素毎の言語特徴量を入力し、記憶部17に格納された最大値等を用いて標準化及び逆標準化の処理を行い、時間長モデルを用いて音素毎の時間長を推定する。
The acoustic feature
音響特徴量推定部22は、記憶部17に格納された最大値等を用いて標準化及び逆標準化の処理を行い、音響モデルを用いてフレーム毎の音響特徴量を推定する(ステップS1103)。音響特徴量推定部22は、フレーム毎の音響特徴量を音声生成部23に出力する。
The acoustic feature
(時間長モデルを用いた時間長の推定)
次に、音響特徴量推定部22による時間長モデルを用いた時間長の推定処理について説明する。図12は、時間長モデルを用いた時間長推定処理例を説明する図である。音響特徴量推定部22は、調整量追加部21から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリ値及び13次元の数値データ、並びに1次元の調整データ(話速データ)を生成する。言語特徴量の次元数は326である。
(Estimation of time length using time length model)
Next, the time length estimation process using the time length model by the acoustic feature
音響特徴量推定部22は、言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータを、時間長モデルの入力データとして扱う(ステップS1201)。
The acoustic feature
音響特徴量推定部22は、記憶部17から、時間長モデルの入力データである言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータに関する次元毎の最大値及び最小値を読み出す。そして、音響特徴量推定部22は、言語特徴量の326次元のデータのそれぞれについて、次元毎に、最大値及び最小値を用いて標準化を行う(ステップS1202)。
From the
音響特徴量推定部22は、記憶部17に格納された時間長モデルを用いて、言語特徴量の326次元の標準化されたデータを時間長モデルの入力データとして、時間長モデルの出力データである時間長の1次元の標準化されたデータを推定する(ステップS1203)。
The acoustic feature
音響特徴量推定部22は、記憶部17から、時間長モデルの出力データである時間長の1次元のデータに関する平均値及び標準偏差を読み出す。そして、音響特徴量推定部22は、ステップS1203にて推定した時間長の1次元の標準化されたデータについて、平均値及び標準偏差を用いて逆標準化を行い(ステップS1204)、時間長の1次元のデータを求める(ステップS1205)。
The acoustic feature
これにより、記憶部17に格納された時間長モデル、時間長モデルの入力データである言語特徴量の326次元のデータに関する次元毎の最大値及び最小値、並びに、時間長モデルの出力データである時間長の1次元のデータに関する平均値及び標準偏差を用いて、音素毎の言語特徴量の326次元のデータから、音素毎の時間長の1次元のデータを得ることができる。
As a result, the time length model stored in the
(音響モデルを用いた音響特徴量の推定)
次に、音響特徴量推定部22による音響モデルを用いた音響特徴量の推定処理について説明する。図13は、音響モデルを用いた音響特徴量推定処理例を説明する図である。音響特徴量推定部22は、ステップS1205にて求めた音素毎の時間長の1次元のデータに基づいて、図9のステップS901と同様に、音素に対応する複数フレームのそれぞれについて、時間データの4次元のデータを生成する(ステップS1301)。
(Estimation of acoustic features using an acoustic model)
Next, the acoustic feature estimation process using the acoustic model by the acoustic
音響特徴量推定部22は、調整量追加部21から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリ値、13次元の数値データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)を生成する。そして、音響特徴量推定部22は、音素毎の言語特徴量における312次元のバイナリ値、13次元の数値データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる328次元のデータから、フレーム毎の言語特徴量における328次元のデータを生成する。
The acoustic feature
音響特徴量推定部22は、フレーム毎の言語特徴量の312次元のバイナリ値、13次元の数値データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる328次元のデータ、並びにステップS1301にて生成した時間データの4次元のデータを、音響モデルの入力データとして扱う(ステップS1302)。
The acoustic feature
音響特徴量推定部22は、記憶部17から、音響モデルの入力データである言語特徴量の312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータに関する次元毎の最大値及び最小値を読み出す。そして、音響特徴量推定部22は、言語特徴量の328次元のデータ及び時間データの4次元のデータからなる332次元のデータのそれぞれについて、次元毎に、最大値及び最小値を用いて標準化を行う(ステップS1303)。
From the
音響特徴量推定部22は、記憶部17に格納された音響モデルを用いて、言語特徴量の328次元の標準化されたデータ及び時間データの4次元の標準化されたデータからなる332次元の標準化されたデータを音響モデルの入力データとして、音響モデルの出力データである音響特徴量の199次元の標準化されたデータを推定する(ステップS1304)。
The acoustic
音響特徴量推定部22は、記憶部17から、音響モデルの出力データである音響特徴量の199次元のデータに関する平均値及び標準偏差を読み出す。そして、音響特徴量推定部22は、ステップS1304にて推定した音響特徴量の199次元の標準化されたデータについて、次元毎に、平均値及び標準偏差を用いて逆標準化を行う(ステップS1305)。音響特徴量推定部22は、フレーム毎の音響特徴量の199次元のデータを生成する(ステップS1306)。
The acoustic feature
このようにして推定され逆標準化された音響特徴量は、フレーム毎に離散的な値をとる。そこで、音響特徴量推定部22は、連続するフレーム毎の音響特徴量の199次元のデータに対して、最尤推定または移動平均をとり、新たなフレーム毎の音響特徴量の199次元のデータを求める。これにより、フレーム毎の音響特徴量は滑らかな値となる。
The acoustic features estimated and destandardized in this way take discrete values for each frame. Therefore, the acoustic
これにより、記憶部17に格納された音響モデル、音響モデルの入力データである言語特徴量の332次元のデータに関する次元毎の最大値及び最小値、並びに、音響モデルの出力データである音響特徴量の199次元のデータに関する平均値及び標準偏差を用いて、フレーム毎の言語特徴量の328次元のデータ及び時間データの4次元のデータから、フレーム毎の音響特徴量の199次元のデータを得ることができる。
As a result, the acoustic model stored in the
図10及び図11に戻って、音声生成部23は、音響特徴量推定部22からフレーム毎の音響特徴量を入力し、フレーム毎の音響特徴量に基づいて音声信号を合成する(ステップS1104)。そして、音声生成部23は、音声合成対象のテキストに対して調整パラメータによる調整が加えられた音声信号を出力する。
Returning to FIGS. 10 and 11, the
図14は、音声生成部23による音声合成処理例を説明する図である。音声生成部23は、音響特徴量推定部22から入力したフレーム毎の音響特徴量のうち、フレーム毎のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAPである静特性の音響特徴量を選択する(ステップS1401)。
FIG. 14 is a diagram illustrating an example of voice synthesis processing by the
音声生成部23は、メルケプストラム係数MGCをメルケプストラムスペクトル変換し、スペクトルを求める(ステップS1402)。また、音声生成部23は、対数ピッチ周波数LF0から有声/無声判定情報VUVを求め、対数ピッチ周波数LF0の有声区間を指数化し、無声及び無音区間についてはゼロとし、ピッチ周波数を求める(ステップS1403)。また、音声生成部23は、帯域非周期成分BAPをメルケプストラムスペクトル変換し、非周期成分を求める(ステップS1404)。
The
音声生成部23は、ステップS1402にて求めたフレーム毎のスペクトル、ステップS1403にて求めたフレーム毎のピッチ周波数、及びステップS1404にて求めたフレーム毎の非周期成分を用いて連続的に音声波形を生成し(ステップS1405)、音声信号を出力する(ステップS1406)。
The
これにより、音声合成対象のテキストに対して所定の調整パラメータによる調整が加えられた音声信号を得ることができる。 As a result, it is possible to obtain a voice signal adjusted by a predetermined adjustment parameter with respect to the text to be voice-synthesized.
以上のように、本発明の実施形態の音声合成装置2によれば、言語分析部20は、音声合成対象のテキストについて既知の言語分析処理を行い、音素毎の言語特徴量を求め、調整量追加部21は、音素毎の言語特徴量に、調整パラメータの調整量情報を追加する。
As described above, according to the
音響特徴量推定部22は、言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータを、記憶部17に格納された最大値等を用いて標準化する。そして、音響特徴量推定部22は、記憶部17に格納された時間長モデルを用いて、これらの標準化されたデータを入力データとして、出力データである時間長の1次元の標準化されたデータを推定する。
The acoustic feature
音響特徴量推定部22は、時間長の1次元の標準化されたデータを、記憶部17に格納された平均値等を用いて逆標準化し、フレーム毎の時間データを求める。音響特徴量推定部22は、言語特徴量の329次元のデータのうち312次元のバイナリ値、13次元の数値データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる328次元のデータ、並びに時間データの4次元のデータを、記憶部17に格納された最大値等を用いて標準化する。そして、音響特徴量推定部22は、記憶部17に格納された音響モデルを用いて、これらの標準化されたデータを入力データとして、出力データである音響特徴量の199次元の標準化されたデータを推定する。
The acoustic feature
音響特徴量推定部22は、音響特徴量の199次元の標準化されたデータを、記憶部17に格納された平均値等を用いて逆標準化し、フレーム毎の音響特徴量を求める。そして、音声生成部23は、フレーム毎の音響特徴量に基づいて音声信号を合成し、合成音声信号を生成する。
The acoustic feature
図17に示した非特許文献1,2の従来技術を組み合わせた想定例では、学習モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、合成音声信号に音質劣化を生じてしまう。さらに、入力文章の特定部分に対応する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、調整を加えた部分と、これに隣接する調整を加えていない部分との間の接続部分において、合成音声信号に不連続を生じてしまう。
In the assumed example in which the prior arts of
これに対し、本発明の実施形態による音声合成装置2は、調整パラメータの調整量情報が反映された学習モデルを用いて音響特徴量を推定し、合成音声信号を生成するから、学習モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加える必要がない。また、入力文章の特定部分に対応する言語特徴量を調整したものを学習モデルに入力して音響特徴量を求め、合成音声信号を生成することから、調整を加えた部分と、これに隣接する調整を加えていない部分との間の接続部分において、合成音声信号に不連続を生じることがない。
On the other hand, the
したがって、テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることができる。 Therefore, it is possible to obtain a high-quality synthetic speech signal when generating a synthetic speech signal in which the reading method of a specific part of the text is adjusted.
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。 Although the present invention has been described above with reference to embodiments, the present invention is not limited to the above-described embodiment and can be variously modified without departing from the technical idea.
尚、本発明の実施形態による学習装置1及び音声合成装置2のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1及び音声合成装置2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
As the hardware configuration of the
学習装置1に備えた記憶部10,17、言語分析部11、音声分析部12、対応付け部13、調整量追加部14、音響特徴量調整部15及び学習部16の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、音声合成装置2に備えた言語分析部20、調整量追加部21、音響特徴量推定部22、記憶部17及び音声生成部23の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
The functions of the
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, read by the CPU, and executed. In addition, these programs can be stored and distributed in storage media such as magnetic disks (floppy (registered trademark) disks, hard disks, etc.), optical disks (CD-ROM, DVD, etc.), semiconductor memories, etc., and can be distributed via a network. You can also send and receive.
1 学習装置
2 音声合成装置
10,17 記憶部
11,20 言語分析部
12 音声分析部
13 対応付け部
14,21 調整量追加部
15 音響特徴量調整部
16 学習部
22 音響特徴量推定部
23 音声生成部
1
Claims (6)
前記言語分析部により求めた前記言語特徴量に、音響の特徴を調整するための調整パラメータの調整量情報を追加する調整量追加部と、
前記調整量追加部により前記調整量情報が追加された前記言語特徴量に基づき、予め学習された統計モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記テキストに対して前記調整パラメータによる調整が加えられた音声信号を出力する音声生成部と、を備えたことを特徴とする音声合成装置。 A language analysis unit that linguistically analyzes the text to be voice-synthesized and obtains linguistic features.
An adjustment amount addition unit that adds adjustment amount information of adjustment parameters for adjusting acoustic characteristics to the language feature amount obtained by the language analysis unit, and an adjustment amount addition unit.
An acoustic feature amount estimation unit that estimates an acoustic feature amount using a statistical model learned in advance based on the language feature amount to which the adjustment amount information is added by the adjustment amount addition unit.
A voice generation unit that synthesizes a voice signal based on the acoustic feature amount estimated by the acoustic feature amount estimation unit and outputs a voice signal adjusted by the adjustment parameter to the text is provided. A voice synthesizer characterized by the fact that.
前記統計モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記音響特徴量推定部は、
前記時間長モデルを用いて、音素毎の前記言語特徴量を前記時間長モデルの入力データとして、前記時間長モデルの出力データである音素毎の時間長を推定し、
音素毎の前記時間長からフレーム毎の時間長を生成し、
前記音響モデルを用いて、フレーム毎の前記言語特徴量及びフレーム毎の前記時間長を入力データとし、前記音響モデルの出力データであるフレーム毎の前記音響特徴量を推定する、ことを特徴とする音声合成装置。 In the voice synthesizer according to claim 1,
The statistical model consists of a time-length model and an acoustic model composed of a neural network.
The acoustic feature amount estimation unit is
Using the time length model, the time length of each phoneme, which is the output data of the time length model, is estimated by using the language feature amount for each phoneme as the input data of the time length model.
The time length for each frame is generated from the time length for each phoneme.
Using the acoustic model, the language feature amount for each frame and the time length for each frame are used as input data, and the acoustic feature amount for each frame, which is the output data of the acoustic model, is estimated. Speech synthesizer.
前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータのうちのいずれか1つまたは2つ以上の組み合わせとする、ことを特徴とする音声合成装置。 In the speech synthesizer according to claim 1 or 2.
A speech synthesizer comprising the adjustment parameter as any one or a combination of two or more of the four parameters of speaking speed or time length, power, pitch, and intonation.
前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータとし、
当該4つのパラメータのうちのいずれか1つのパラメータの調整量は、所定範囲内の任意の値が指定され、他の3つのパラメータの調整量は、固定値が用いられる、ことを特徴とする音声合成装置。 In the speech synthesizer according to claim 1 or 2.
The adjustment parameters are set as four parameters of speaking speed or time length, power, pitch, and intonation.
The adjustment amount of any one of the four parameters is specified as an arbitrary value within a predetermined range, and the adjustment amount of the other three parameters is a fixed value. Synthesizer.
前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータとし、
当該4つのパラメータにおけるそれぞれの調整量は、それぞれの所定範囲内の任意の値が指定される、ことを特徴とする音声合成装置。 In the speech synthesizer according to claim 1 or 2.
The adjustment parameters are set as four parameters of speaking speed or time length, power, pitch, and intonation.
A speech synthesizer characterized in that an arbitrary value within a predetermined range is specified for each adjustment amount in the four parameters.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022049374A JP7362976B2 (en) | 2018-06-14 | 2022-03-25 | Speech synthesis device and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018113433A JP7126384B2 (en) | 2018-06-14 | 2018-06-14 | learning device and program |
JP2022049374A JP7362976B2 (en) | 2018-06-14 | 2022-03-25 | Speech synthesis device and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018113433A Division JP7126384B2 (en) | 2018-06-14 | 2018-06-14 | learning device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022081691A true JP2022081691A (en) | 2022-05-31 |
JP7362976B2 JP7362976B2 (en) | 2023-10-18 |
Family
ID=68919387
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018113433A Active JP7126384B2 (en) | 2018-06-14 | 2018-06-14 | learning device and program |
JP2022049374A Active JP7362976B2 (en) | 2018-06-14 | 2022-03-25 | Speech synthesis device and program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018113433A Active JP7126384B2 (en) | 2018-06-14 | 2018-06-14 | learning device and program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7126384B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402855B (en) * | 2020-03-06 | 2021-08-27 | 北京字节跳动网络技术有限公司 | Speech synthesis method, speech synthesis device, storage medium and electronic equipment |
EP4293660A1 (en) | 2021-06-22 | 2023-12-20 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling same |
CN113450758B (en) * | 2021-08-27 | 2021-11-16 | 北京世纪好未来教育科技有限公司 | Speech synthesis method, apparatus, device and medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2009107441A1 (en) * | 2008-02-27 | 2011-06-30 | 日本電気株式会社 | Speech synthesis apparatus, text generation apparatus, method thereof, and program |
JP2017032839A (en) * | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | Acoustic model learning device, voice synthesis device, acoustic model learning method, voice synthesis method, and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009107441A (en) | 2007-10-29 | 2009-05-21 | Toyota Motor Corp | Vehicle body structure |
JP6594251B2 (en) * | 2016-04-18 | 2019-10-23 | 日本電信電話株式会社 | Acoustic model learning device, speech synthesizer, method and program thereof |
-
2018
- 2018-06-14 JP JP2018113433A patent/JP7126384B2/en active Active
-
2022
- 2022-03-25 JP JP2022049374A patent/JP7362976B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2009107441A1 (en) * | 2008-02-27 | 2011-06-30 | 日本電気株式会社 | Speech synthesis apparatus, text generation apparatus, method thereof, and program |
JP2017032839A (en) * | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | Acoustic model learning device, voice synthesis device, acoustic model learning method, voice synthesis method, and program |
Non-Patent Citations (1)
Title |
---|
山田 修平 SHUHEI YAMADA: "テーラーメイド音声合成のための差分特徴量を用いたDNNに基づくF0制御", 日本音響学会 2017年 春季研究発表会講演論文集CD−ROM [CD−ROM], JPN6023008195, 17 February 2023 (2023-02-17), JP, pages 271 - 274, ISSN: 0005004091 * |
Also Published As
Publication number | Publication date |
---|---|
JP2019215468A (en) | 2019-12-19 |
JP7362976B2 (en) | 2023-10-18 |
JP7126384B2 (en) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7362976B2 (en) | Speech synthesis device and program | |
US7831420B2 (en) | Voice modifier for speech processing systems | |
US9009052B2 (en) | System and method for singing synthesis capable of reflecting voice timbre changes | |
JP4738057B2 (en) | Pitch pattern generation method and apparatus | |
WO2020145353A1 (en) | Computer program, server device, terminal device, and speech signal processing method | |
CN114694632A (en) | Speech processing device | |
EP3824461A1 (en) | Method and system for creating object-based audio content | |
US10636412B2 (en) | System and method for unit selection text-to-speech using a modified Viterbi approach | |
CN109416911B (en) | Speech synthesis device and speech synthesis method | |
CN105957515A (en) | Voice Synthesis Method, Voice Synthesis Device, Medium for Storing Voice Synthesis Program | |
US20240087558A1 (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
Laskar et al. | Comparing ANN and GMM in a voice conversion framework | |
KR20210035042A (en) | Emotional speech synthesis method and apparatus for controlling the emotion between emotions | |
Hayes et al. | A review of differentiable digital signal processing for music & speech synthesis | |
JP7133998B2 (en) | speech synthesizer and program | |
JP7088796B2 (en) | Learning equipment and programs for learning statistical models used in speech synthesis | |
JP6400526B2 (en) | Speech synthesis apparatus, method thereof, and program | |
US11195511B2 (en) | Method and system for creating object-based audio content | |
JP5106274B2 (en) | Audio processing apparatus, audio processing method, and program | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
Kammili et al. | Handling emotional speech: a prosody based data augmentation technique for improving neutral speech trained ASR systems | |
Jayasinghe | Machine Singing Generation Through Deep Learning | |
US9230536B2 (en) | Voice synthesizer | |
Calzada Defez et al. | Voice Quality Modification Using a Harmonics Plus Noise Model: Transferring Vocal Effort with Parallel Corpora | |
Ardaillon et al. | A mouth opening effect based on pole modification for expressive singing voice transformation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230728 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20230823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230824 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7362976 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |