JP2018013722A - Acoustic model optimization device and computer program therefor - Google Patents

Acoustic model optimization device and computer program therefor Download PDF

Info

Publication number
JP2018013722A
JP2018013722A JP2016144766A JP2016144766A JP2018013722A JP 2018013722 A JP2018013722 A JP 2018013722A JP 2016144766 A JP2016144766 A JP 2016144766A JP 2016144766 A JP2016144766 A JP 2016144766A JP 2018013722 A JP2018013722 A JP 2018013722A
Authority
JP
Japan
Prior art keywords
acoustic model
parameters
model
parameter
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016144766A
Other languages
Japanese (ja)
Inventor
橘 健太郎
Kentaro Tachibana
健太郎 橘
戸田 智基
Tomoki Toda
智基 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2016144766A priority Critical patent/JP2018013722A/en
Publication of JP2018013722A publication Critical patent/JP2018013722A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To optimize two acoustic models for combining the acoustic models in a PoE framework.SOLUTION: An acoustic model optimization device comprises: a program; a storage device for storing parameters of acoustic models 380, 382; and a processor. The processor is programmed so as to execute: a step 420 for combining the acoustic models 380, 382 according to the PoE framework, and calculating a likelihood function of an integrated model; a step 422 for introducing a latent variable to parameters of the acoustic models 380, 382, using the likelihood function of the integrated model, for estimating a post probability density function of the latent variable; a step 402 for performing maximum likelihood estimation of the parameters of the acoustic models 380, 382 individually, with the post probability density function of the estimated latent variable, as an observation vector; and a step 404 for, repeating the steps 420, 422, 402 until a finish condition is established, with the obtained parameters of the acoustic models 380, 382 as inputs.SELECTED DRAWING: Figure 8

Description

この発明は統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis SPSS)に関し、特に、合成音声の品質を従来技術より高めることができる統計的パラメトリック音声合成に関する。   The present invention relates to a statistical parametric speech synthesis (Statistical Parametric Speech Synthesis SPSS), and more particularly to a statistical parametric speech synthesis capable of improving the quality of synthesized speech over the prior art.

SPSSは、統計モデルに基づき音声信号を生成するためのパラメータを推定し、推定されたパラメータから音声を合成する枠組みである。SPSSは、発話様式制御等、柔軟な音声合成処理を容易に実現できる等、様々な利点を持つ。一方で、SPSSを用いた音声合成では、合成された音声の品質に関して、肉声と比べて種々の理由により劣化する傾向にある。したがって合成音声の改善は、SPSSにおける重要な研究課題である。   SPSS is a framework for estimating parameters for generating a speech signal based on a statistical model and synthesizing speech from the estimated parameters. SPSS has various advantages such as easy implementation of flexible speech synthesis processing such as speech style control. On the other hand, in speech synthesis using SPSS, the quality of synthesized speech tends to be deteriorated for various reasons as compared to real voice. Therefore, improvement of synthesized speech is an important research topic in SPSS.

SPSSには主に2種の手法がある。一方が隠れマルコフモデル(Hidden Markov Model:HMM)に基づく手法であり、他方がディープニューラルネットワーク(Deep Neural Network:DNN)に基づく手法である。以下、これら従来の2種の手法について説明する。   There are two main methods for SPSS. One is a method based on a Hidden Markov Model (HMM), and the other is a method based on a deep neural network (DNN). Hereinafter, these two conventional methods will be described.

HMMは、発話が音素に対応する状態の遷移から生じると考える。状態及び状態の遷移は観測できないが、状態の遷移に伴って出力される発話から得られる情報系列を観測し統計的に処理することにより、状態とその遷移、すなわち音素列を推定することが可能になる。発話から得られる情報としては、音声信号を所定時間長で所定シフト量のフレームに分割(重複可能)し、各フレームの音声信号から得た特徴量を用いる。特徴量としては複数の値が用いられ、特徴量ベクトルをなす。音声合成の分野では一般的に、特徴量としてはメルケプストラム係数(Mel-Cepstrum coefficients)及びパワー、それらのデルタ(隣接フレーム間の差分)及びデルタデルタ(隣接するデルタの差分)等が用いられる。   HMM considers utterances to arise from state transitions corresponding to phonemes. State and state transition cannot be observed, but it is possible to estimate the state and its transition, that is, phoneme sequence by observing and statistically processing the information sequence obtained from the utterances output with the state transition become. As information obtained from the utterance, a voice signal is divided into frames of a predetermined shift amount with a predetermined time length (can be overlapped), and a feature amount obtained from the voice signal of each frame is used. A plurality of values are used as the feature quantity to form a feature quantity vector. In the field of speech synthesis, mel cepstrum coefficients (Mel-Cepstrum coefficients) and power, their delta (difference between adjacent frames), delta delta (difference between adjacent deltas) and the like are generally used as feature quantities.

ここでは図1に示す3状態のHMM60について説明する。なお、以下の説明では、同じ部品には同じ参照番号を付すものとし、それらの詳細については繰り返さない。   Here, the three-state HMM 60 shown in FIG. 1 will be described. In the following description, the same parts are denoted by the same reference numerals, and details thereof will not be repeated.

図1を参照して、HMM60は、このHMM60が表す音素に対応する状態S12と、その音素の前に位置する音素に対応する状態S11と、後に位置する音素に対応する状態S13とを含む。発話に出現する各音素について、その前後の音素との組み合わせに応じてこのHMM60のようなモデルを準備する。したがって、同じ音素でも前後の音素が異なる場合には別々のHMMが用いられる(記憶領域を節約するために、異なる組み合わせを1つのHMMで表す場合もある)。なお、状態数は3に限定されず、他の数の状態が用いられる場合もある。   Referring to FIG. 1, HMM 60 includes a state S12 corresponding to the phoneme represented by HMM 60, a state S11 corresponding to the phoneme located in front of the phoneme, and a state S13 corresponding to the phoneme located behind. For each phoneme that appears in the utterance, a model such as this HMM 60 is prepared according to the combination with the phonemes before and after the phoneme. Therefore, different HMMs are used when the phonemes before and after the same phoneme are different (in order to save the storage area, different combinations may be represented by one HMM). The number of states is not limited to 3, and other numbers of states may be used.

図1を参照して、状態S11から状態S12への遷移80には遷移確率a12が割り当てられる。状態S12から状態S13への遷移82には遷移確率a23が割り当てられる。状態S13からこのHMM60の終端への遷移84には遷移確率a3eが割り当てられる。状態S11、状態S12、及び状態S13はそれぞれ自分自身への遷移70、72、及び74を持ち、これらにはそれぞれ遷移確率a11、a22、及びa33が割り当てられる。これら遷移確率は、学習データを用いて予め算出される。   Referring to FIG. 1, transition probability a12 is assigned to transition 80 from state S11 to state S12. Transition probability a23 is assigned to transition 82 from state S12 to state S13. A transition probability a3e is assigned to the transition 84 from the state S13 to the end of the HMM 60. State S11, state S12, and state S13 have transitions 70, 72, and 74 to themselves, respectively, and are assigned transition probabilities a11, a22, and a33, respectively. These transition probabilities are calculated in advance using learning data.

図2を参照して、HMMを用いる従来の音声合成装置100は、入力テキスト102が与えられると、その入力テキストに応じた音声を生成するためのパラメータを出力するパラメータ生成部110と、パラメータ生成部110により生成されたパラメータを用いて音声信号104を合成し出力する音声合成部112とを含む。   Referring to FIG. 2, a conventional speech synthesizer 100 using HMM, when input text 102 is given, parameter generation unit 110 that outputs a parameter for generating speech according to the input text, and parameter generation And a speech synthesis unit 112 that synthesizes and outputs the speech signal 104 using the parameters generated by the unit 110.

パラメータ生成部110は、入力テキスト102に対して形態素解析、構文解析等を行って、発話すべき音素及びその文脈情報等を表すラベルからなるラベル列132を出力するテキスト解析処理部130と、ラベル列132に依存した決定木からなり、ラベル列132に対応する各音素の継続長を出力する継続長モデル134と、ラベル列132に依存した決定木に基づきHMMの状態ごとに音声合成パラメータの確率密度関数を出力するHMM音響モデル136と、ラベル列132を入力として、継続長モデル134の決定木に基づきHMMの状態系列を出力するHMM状態系列決定部138と、HMM状態系列決定部138が出力するHMM状態系列からHMM音響モデル136を用いて推定した各状態の確率密度関数に基づいて、F0パラメータ142、有声/無声パラメータ144及び調音のためのスペクトル包絡パラメータ146を出力する音声合成パラメータ算出部140とを含む。スペクトル包絡パラメータ146は、例えば、ケプストラム係数、メルケプストラム係数、線形予測係数などが考えられる。   The parameter generation unit 110 performs a morphological analysis, a syntax analysis, and the like on the input text 102, and outputs a label sequence 132 including labels representing phonemes to be uttered and context information thereof, and a label A duration model 134 that includes a decision tree depending on the sequence 132 and outputs the duration of each phoneme corresponding to the label sequence 132; and a probability of a speech synthesis parameter for each state of the HMM based on the decision tree that depends on the label sequence 132 The HMM acoustic model 136 that outputs the density function, the HMM state sequence determination unit 138 that outputs the HMM state sequence based on the decision tree of the duration model 134 with the label sequence 132 as input, and the HMM state sequence determination unit 138 output Based on the probability density function of each state estimated from the HMM state sequence to be estimated using the HMM acoustic model 136, the F0 parameter 142, voiced / And a voice synthesis parameter calculating unit 140 outputs the parameters 144 and the spectral envelope parameter 146 for articulation. The spectrum envelope parameter 146 may be, for example, a cepstrum coefficient, a mel cepstrum coefficient, a linear prediction coefficient, or the like.

音声合成部112は、音声合成パラメータ算出部140からF0パラメータ142及び有声/無声パラメータ144を受けて音源信号を生成する音源信号生成部150と、音源信号生成部150により生成される音源信号にスペクトル包絡パラメータ146に基づいて変調することにより音声信号104を出力する音声合成フィルタ152とを含む。   The speech synthesizer 112 receives the F0 parameter 142 and the voiced / unvoiced parameter 144 from the speech synthesis parameter calculator 140 and generates a sound source signal, and the sound source signal generated by the sound source signal generator 150 has a spectrum. And a speech synthesis filter 152 that outputs the speech signal 104 by modulating based on the envelope parameter 146.

音声合成時、HMM状態系列決定部138は、ラベル列132を入力として、継続長モデル134の決定木を探索することにより、HMM状態系列の各状態の継続長を決定し、その時間情報が付されたラベル列を音声合成パラメータ算出部140に与える。音声合成パラメータ算出部140は、発話のフレームごとに、そのフレームに対応する状態の出力の確率密度関数を用いて、最尤となる音声合成パラメータ系列を推定し、F0パラメータ142、有声/無声パラメータ144、及びスペクトル包絡パラメータ146を生成して音声合成部112に与える。   At the time of speech synthesis, the HMM state sequence determination unit 138 determines the continuation length of each state of the HMM state sequence by searching the decision tree of the continuation length model 134 using the label sequence 132 as input, and adds the time information. The obtained label sequence is given to the speech synthesis parameter calculation unit 140. The speech synthesis parameter calculation unit 140 estimates the maximum likelihood speech synthesis parameter sequence for each utterance frame using the probability density function of the output corresponding to the frame, and uses the F0 parameter 142, the voiced / unvoiced parameter. 144 and the spectral envelope parameter 146 are generated and provided to the speech synthesizer 112.

音声合成部112の音源信号生成部150は、音声合成パラメータ算出部140からのF0パラメータ142及び有声/無声パラメータ144にしたがって音源信号を生成する。音声合成フィルタ152がこの音源信号をスペクトル包絡パラメータ146により定まる特性で変調し、音声信号104を出力する。   The sound source signal generation unit 150 of the speech synthesis unit 112 generates a sound source signal according to the F0 parameter 142 and the voiced / unvoiced parameter 144 from the speech synthesis parameter calculation unit 140. The voice synthesis filter 152 modulates the sound source signal with characteristics determined by the spectrum envelope parameter 146 and outputs the voice signal 104.

HMM音声合成は、利点として、長年の知見が蓄積され、声質及び発話様式に対する制御及び操作技術が確立していることが挙げられる。そのため、生成されたパラメータに異音が発生した場合でもその問題特定と修正が容易である。一方、状態単位のモデル化及びHMM状態系列決定の際の決定木によるハードクラスタリングが要因となって、合成音声の品質の低下を招くという問題がある。   As an advantage of HMM speech synthesis, many years of knowledge are accumulated, and control and operation techniques for voice quality and speech style are established. Therefore, even when abnormal noise occurs in the generated parameters, it is easy to identify and correct the problem. On the other hand, there is a problem that the quality of the synthesized speech is deteriorated due to hard clustering by a decision tree at the time of state unit modeling and HMM state sequence determination.

一方、DNN音声合成は、図3に概略を示すDNN170のようなDNNをパラメータ生成に用いる。図3に示すDNN170は、ラベル列132に基づき生成されたベクトルを入力として、そのラベル列132に対応する音声パラメータを出力する。ネットワーク重み及びバイアスは、学習データを用いて予め算出される。   On the other hand, DNN speech synthesis uses a DNN such as DNN 170 schematically shown in FIG. 3 for parameter generation. The DNN 170 shown in FIG. 3 receives a vector generated based on the label string 132 and outputs a speech parameter corresponding to the label string 132. The network weight and bias are calculated in advance using learning data.

DNN170は、ラベル列132を2値表現又は数値に変換したベクトルをノードに持つ入力層172と、音声パラメータからなるノードを持つ出力層178と、入力層172と出力層178との間に順番に設けられた1又は複数の隠れ層174及び176とを含む。図3では、図を簡略にするために各層が持つノード数は同じとしているが、隠れ層が持つノードの数はこれらに限定されない。また、図3で隠れ層は2つだが、1つでもよいし、3つ以上であってもよい。また、図3に示すDNN170は入力が入力層172から出力層178に向けて順次伝搬する形となっているが、途中の隠れ層の一部の出力をその入力に戻すパスを持つ、いわゆるリカレント型NN等、他の形式のNNを用いても良い。   The DNN 170 includes an input layer 172 having a vector obtained by converting the label sequence 132 into a binary expression or a numerical value as a node, an output layer 178 having a node made up of audio parameters, and an input layer 172 and an output layer 178 in order. One or more hidden layers 174 and 176 provided. In FIG. 3, in order to simplify the drawing, the number of nodes included in each layer is the same, but the number of nodes included in the hidden layer is not limited thereto. Moreover, although there are two hidden layers in FIG. 3, there may be one or three or more. The DNN 170 shown in FIG. 3 has a form in which the input sequentially propagates from the input layer 172 to the output layer 178, but has a path for returning a part of the output of the hidden layer in the middle to the input. Other types of NN such as type NN may be used.

図4を参照して、従来のDNNを用いた音声合成装置200は、入力テキスト102を受けて、F0パラメータ242、有声/無声パラメータ244及びスペクトル包絡パラメータ246を出力するためのパラメータ生成部210と、パラメータ生成部210が出力するF0パラメータ242、有声/無声パラメータ244及びスペクトル包絡パラメータ246を受けて音声信号204を出力する、図2と同じ音声合成部112とを含む。   Referring to FIG. 4, a conventional speech synthesizer 200 using DNN receives input text 102 and outputs parameter F0 242, voiced / unvoiced parameter 244, and spectral envelope parameter 246. 2, which receives the F0 parameter 242, the voiced / unvoiced parameter 244 and the spectrum envelope parameter 246 output from the parameter generation unit 210 and outputs the speech signal 204.

パラメータ生成部210は、入力テキスト102を受けてラベル列132を出力するテキスト解析処理部130と、ラベル列132を入力として受けてフレームごとに音声パラメータの確率密度関数の平均ベクトルを出力するDNNからなるDNN音響モデル230と、予め学習データに基づいて算出された、音声パラメータのグローバル平均ベクトルと共分散行列を記憶する正規化パラメータ記憶部234と、DNN音響モデル230から与えられる平均ベクトルと、正規化パラメータ記憶部234から読み出したグローバル平均ベクトルと共分散行列とに基づいて逆正規化した音声合成パラメータを算出した後、最も尤度が高くなるような音声合成パラメータであるF0パラメータ242、有声/無声パラメータ244、及びスペクトル包絡パラメータ246の系列を出力し音声合成部112に与える音声合成パラメータ算出部232とを含む。F0パラメータ242及び有声/無声パラメータ244は音源信号生成部150に、スペクトル包絡パラメータ246は音声合成フィルタ152に、それぞれ与えられる。正規化パラメータ記憶部234に記憶されるグローバル平均ベクトル及び共分散行列は、DNNの学習時に学習データから算出され、全てのフレームにおいて共通して用いられる。   The parameter generation unit 210 receives the input text 102 and outputs a label sequence 132, and the DNN receives the label sequence 132 as an input and outputs an average vector of the probability density function of speech parameters for each frame. DNN acoustic model 230, a normalization parameter storage unit 234 that stores a global average vector of speech parameters and a covariance matrix, which are calculated based on learning data in advance, an average vector given from DNN acoustic model 230, After calculating speech synthesis parameters that have been denormalized based on the global average vector and the covariance matrix read from the generalization parameter storage unit 234, the F0 parameter 242 that is the speech synthesis parameter that has the highest likelihood, voiced / Silent parameter 244 and spectral envelope parameters Outputs 246 series and a voice synthesis parameter calculating unit 232 to be supplied to the speech synthesis unit 112. The F0 parameter 242 and the voiced / unvoiced parameter 244 are provided to the sound source signal generation unit 150, and the spectrum envelope parameter 246 is provided to the speech synthesis filter 152, respectively. The global average vector and the covariance matrix stored in the normalization parameter storage unit 234 are calculated from learning data during DNN learning, and are used in common in all frames.

テキスト解析処理部130が出力するラベル列132はDNN音響モデル230の入力にフレームごとに与えられる。この入力に応答してDNN音響モデル230はフレームごとに出力の確率密度関数の平均ベクトルを出力する。このベクトルは音声合成パラメータ算出部232に与えられる。音声合成パラメータ算出部232は、正規化パラメータ記憶部234から正規化パラメータを読み出し、DNN音響モデル230からの平均ベクトルと組み合わせて得られる確率密度関数にしたがって、F0パラメータ242、有声/無声パラメータ244及びスペクトル包絡パラメータ246を生成し出力する。   The label sequence 132 output from the text analysis processing unit 130 is given to the input of the DNN acoustic model 230 for each frame. In response to this input, DNN acoustic model 230 outputs an average vector of output probability density functions for each frame. This vector is given to the speech synthesis parameter calculation unit 232. The speech synthesis parameter calculation unit 232 reads the normalization parameter from the normalization parameter storage unit 234, and according to the probability density function obtained in combination with the average vector from the DNN acoustic model 230, the F0 parameter 242, the voiced / unvoiced parameter 244, and A spectral envelope parameter 246 is generated and output.

音声合成部112の音源信号生成部150及び音声合成フィルタ152は、図2に示すものと同様にして音声信号204を合成し出力する。   The sound source signal generation unit 150 and the speech synthesis filter 152 of the speech synthesis unit 112 synthesize and output the speech signal 204 in the same manner as shown in FIG.

DNN音声合成は、DNNに基づき、フレーム単位でモデル化が可能であり、加えて、HMM音声合成よりも高い品質の音声を生成可能である。しかしその中核をなすDNNについての制御・操作技術は未だ限定的であり、異音が発生した場合の修正の難しさ、及び、近年音声合成に適用されたことによる知見の少なさが問題点として挙げられる。   DNN speech synthesis can be modeled in units of frames based on DNN, and in addition, higher quality speech than HMM speech synthesis can be generated. However, the control and operation technology for DNN, which is the core of the system, is still limited, and it is difficult to correct abnormal sounds and the lack of knowledge due to recent application to speech synthesis. Can be mentioned.

B. Chen, Z. Chen, J. Xu and K. Yu, “An investigation of context clustering for statistical speech synthesis with deep neural network,” in Proc. ICASSP, pp. 2212-2216, 2015.統合手法B. Chen, Z. Chen, J. Xu and K. Yu, “An investigation of context clustering for statistical speech synthesis with deep neural network,” in Proc. ICASSP, pp. 2212-2216, 2015. H. Zen, M. Gales, Y. Nankaku and K. Tokuda, “Product of experts for statistical parametric speech synthesis.” Audio, Speech, and Language Processing, IEEE Transactions on, 20(3) pp. 794-805, 2012.H. Zen, M. Gales, Y. Nankaku and K. Tokuda, “Product of experts for statistical parametric speech synthesis.” Audio, Speech, and Language Processing, IEEE Transactions on, 20 (3) pp. 794-805, 2012 .

SPSSの品質改善のため、様々な取り組みがなされている。その一つとして、異なるモデルを統合する試みがある。モデル統合には主に2種の方法が考えられる。一方はモデル同士を直列に接続する手法であり、他方は、モデルを並列に接続する手法である。   Various efforts have been made to improve the quality of SPSS. One of these is an attempt to integrate different models. There are two main methods for model integration. One is a method of connecting models in series, and the other is a method of connecting models in parallel.

直列に接続する手法として、SPSSの代表的な手法であるDNNとHMM音声合成を組み合わせる手法が提案されている(非特許文献1)。この手法では、HMMの推定結果をDNNの入力としている。しかし、モデルを直列に接続しているため、柔軟にモデルを変更したり、複数のモデルを統合したりすることが困難である。   As a technique for connecting in series, a technique combining DNN, which is a typical technique of SPSS, and HMM speech synthesis has been proposed (Non-Patent Document 1). In this method, the HMM estimation result is used as the DNN input. However, since the models are connected in series, it is difficult to change the model flexibly or to integrate a plurality of models.

一方、並列に接続する手法は、柔軟性に優れ、簡易に複数のモデルを統合することが可能である。この手法の例として、Product-of-Experts(PoE)のフレームワークを用いた統合が挙げられる(非特許文献2)。非特許文献2に記載の手法では、2つの異なる種類のHMMをPoEにしたがって統合している。しかし、この手法は依然としてHMM音声合成を用いていることにより、確率密度関数が状態単位でしか変化しないため、フレーム単位で精緻にモデル化可能なDNNと比較して、性能面で課題が残る疑念がある。   On the other hand, the parallel connection method is excellent in flexibility and can easily integrate a plurality of models. An example of this technique is integration using a Product-of-Experts (PoE) framework (Non-Patent Document 2). In the method described in Non-Patent Document 2, two different types of HMMs are integrated according to PoE. However, since this method still uses HMM speech synthesis, the probability density function changes only on a state-by-state basis, so there is a suspicion that performance issues remain compared to DNN, which can be modeled precisely on a frame-by-frame basis. There is.

HMM音声合成は、ラベル列から状態ごとに確率密度関数を推定し、系列として出力する。そのため、得られた確率分布系列は、状態ごとに平均ベクトル、共分散行列が変化する。また、DNN音声合成は、フレーム単位で確率密度関数の平均ベクトルを高精度に推定するが、共分散行列は全てのフレームで予め計算された固定の値を用いる。HMMとDNN音声合成のように特性の異なる2つの音響モデルの利点を活かすよう、本発明では、PoEフレームワークで両者を組み合わせるために2つの音響モデルを最適化する手段を提供する。   In HMM speech synthesis, a probability density function is estimated for each state from a label string and output as a sequence. Therefore, in the obtained probability distribution series, the average vector and the covariance matrix change for each state. In DNN speech synthesis, an average vector of a probability density function is estimated with high accuracy in units of frames, but a covariance matrix uses a fixed value calculated in advance for all frames. In order to take advantage of two acoustic models having different characteristics such as HMM and DNN speech synthesis, the present invention provides a means for optimizing the two acoustic models in order to combine them in the PoE framework.

本発明の第1の局面に係る音響モデル最適化装置は、第1の音響モデル、及び第1の音響モデルとは異なる種類の第2の音響モデルを、PoEフレームワークにしたがって組み合わせて使用するために、第1の音響モデル及び第2の音響モデルを最適化する。この音響モデル最適化装置は、プログラムと、第1の音響モデルのパラメータと、第2の音響モデルのパラメータとを記憶するための記憶装置と、記憶装置に接続されたプロセッサとを含む。   The acoustic model optimizing device according to the first aspect of the present invention uses the first acoustic model and the second acoustic model different from the first acoustic model in combination according to the PoE framework. In addition, the first acoustic model and the second acoustic model are optimized. This acoustic model optimizing device includes a storage device for storing a program, parameters of a first acoustic model, and parameters of a second acoustic model, and a processor connected to the storage device.

このプロセッサは、プログラムにより、第1の音響モデル及び第2の音響モデルをPoEフレームワークにしたがって音声信号のフレームごとに組合せることにより、フレームごとに第1の音響モデルと第2の音響モデルを統合した統合モデルの尤度関数を算出する算出ステップと、第1の音響モデルのパラメータ及び第2の音響モデルのパラメータに第1の潜在変数及び第2の潜在変数をそれぞれ導入し、統合モデルの尤度関数を用いて第1の潜在変数及び第2の潜在変数の事後確率密度関数を推定する第1の推定ステップと、第1の推定ステップにより推定された第1の潜在変数及び第2の潜在変数の事後確率密度関数を観測ベクトルとして、第1の音響モデル及び第2の音響モデルのパラメータを別々に最尤推定する第2の推定ステップと、第2の推定ステップにより得られた第1の音響モデル及び第2の音響モデルのパラメータを入力として、算出ステップ、第1の推定ステップ、及び第2の推定ステップを終了条件が成立するまで繰返し、終了条件が成立した時の第1の音響モデル及び第2の音響モデルのパラメータを出力するステップとを含む方法を実行するようにプログラムされている。   The processor combines the first acoustic model and the second acoustic model for each frame according to a program by combining the first acoustic model and the second acoustic model for each frame of the audio signal according to the PoE framework. A calculation step for calculating a likelihood function of the integrated model, and a first latent variable and a second latent variable are introduced into the parameters of the first acoustic model and the second acoustic model, respectively. A first estimation step for estimating a posteriori probability density function of the first latent variable and the second latent variable using the likelihood function; a first latent variable estimated by the first estimation step; A second estimation step of separately estimating maximum likelihood of parameters of the first acoustic model and the second acoustic model using the posterior probability density function of the latent variable as an observation vector; Using the parameters of the first acoustic model and the second acoustic model obtained in the second estimation step as inputs, the calculation step, the first estimation step, and the second estimation step are repeated until an end condition is satisfied, And outputting a parameter of the first acoustic model and the second acoustic model when the end condition is satisfied.

好ましくは、出力するステップは、第2の推定ステップにより得られた第1の音響モデル及び第2の音響モデルのパラメータを入力として、第1の推定ステップ及び第2の推定ステップを所定回数繰返したときの第1の音響モデル及び第2の音響モデルのパラメータを出力するステップを含む。   Preferably, in the outputting step, the first estimation step and the second estimation step are repeated a predetermined number of times, with the first acoustic model and the second acoustic model parameters obtained in the second estimation step as inputs. Outputting the parameters of the first acoustic model and the second acoustic model of the time.

より好ましくは、出力するステップは、第2の推定ステップにより得られた第1の音響モデル及び第2の音響モデルを入力として、第1の推定ステップ及び第2の推定ステップを、第1の音響モデルのパラメータと第2の音響モデルのパラメータの値が収束するまで繰返し、当該パラメータが収束したときの第1の音響モデル及び第2の音響モデルのパラメータを出力するステップを含む。   More preferably, the outputting step receives the first acoustic model and the second acoustic model obtained by the second estimation step as input, and the first estimation step and the second estimation step are performed as the first acoustic model. It repeats until the parameter value of the model and the parameter value of the second acoustic model converge, and includes outputting the parameters of the first acoustic model and the second acoustic model when the parameter converges.

さらに好ましくは、第1の音響モデルは隠れマルコフモデルを含み、第2の音響モデルはニューラルネットワークを含む。   More preferably, the first acoustic model includes a hidden Markov model and the second acoustic model includes a neural network.

音響モデル最適化装置は、第1の音響モデル及び第2の音響モデルを、PoEフレームワークにしたがって次の式で与えられる尤度関数を最大化することにより最適化する。   The acoustic model optimizing device optimizes the first acoustic model and the second acoustic model by maximizing a likelihood function given by the following equation according to the PoE framework.

算出ステップは、第1の音響モデル及び第2の音響モデルをPoEフレームワークにより、音声信号のフレームごとに組合せることにより、フレームごとの統合モデルの尤度関数を以下の式により算出するステップと、 The calculation step includes a step of calculating a likelihood function of the integrated model for each frame by the following equation by combining the first acoustic model and the second acoustic model for each frame of the audio signal by the PoE framework. ,

第1の音響モデルのパラメータと第2の音響モデルのパラメータとを以下の式にしたがって合成するステップとを含む。 Synthesizing the parameters of the first acoustic model and the parameters of the second acoustic model according to the following equations.

第1の推定ステップは、第1の音響モデル及び第2の音響モデルに対してそれぞれ以下の事後確率密度関数 The first estimation step includes the following posterior probability density functions for the first acoustic model and the second acoustic model, respectively.

を算出するステップを含み、第2の推定ステップは、以下の補助関数 And the second estimating step includes the following auxiliary function:

を決定するステップを含む。 Determining the step.

本発明の第2の局面に係るコンピュータプログラムは、コンピュータを、上記のいずれかの音響モデル最適化装置として機能させる。   A computer program according to the second aspect of the present invention causes a computer to function as any one of the acoustic model optimization devices described above.

HMMの概念的構成を示す模式図である。It is a schematic diagram which shows the conceptual structure of HMM. 従来のHMM音声合成手法を用いる音声合成装置のブロック図である。It is a block diagram of the speech synthesizer using the conventional HMM speech synthesis method. DNNの概念的構成を示す模式図である。It is a schematic diagram which shows the conceptual structure of DNN. 従来のDNN音声合成手法を用いる音声合成装置のブロック図である。It is a block diagram of the speech synthesizer using the conventional DNN speech synthesis method. 本発明の実施の形態に係る音声合成装置のブロック図である。1 is a block diagram of a speech synthesizer according to an embodiment of the present invention. PoEによる確率密度関数の乗算結果を説明するグラフである。It is a graph explaining the multiplication result of the probability density function by PoE. 本発明の実施の形態に係る音声合成装置においてフレームごとに音声合成パラメータを生成する処理を実現するコンピュータプログラムの概略フローチャートである。It is a schematic flowchart of the computer program which implement | achieves the process which produces | generates a speech synthesis parameter for every flame | frame in the speech synthesizer which concerns on embodiment of this invention. 本発明の実施の形態に係る音声合成装置において使用するHMM及びDNNの学習を行うモデル学習装置のブロック図である。It is a block diagram of the model learning apparatus which performs learning of HMM and DNN used in the speech synthesizer concerning an embodiment of the invention. 本発明に係る音声合成装置で使用するモデルにおいてHMMとDNNを統合する際の重みによるF0パラメータの2乗平均誤差の変化を示すグラフである。It is a graph which shows the change of the root mean square error of F0 parameter by the weight at the time of integrating HMM and DNN in the model used with the speech synthesizer concerning the present invention. 本発明の各実施の形態に係る音声合成装置を実現するためのコンピュータシステムの外観を示す図である。It is a figure which shows the external appearance of the computer system for implement | achieving the speech synthesizer which concerns on each embodiment of this invention. 図10に示すコンピュータシステムを構成するコンピュータのハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the computer which comprises the computer system shown in FIG.

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰り返さない。以下に述べる実施の形態は、いずれもPoEのフレームワークを用いてDNNとHMMとを組み合わせる手法を採用している。なお、本実施の形態ではDNNを用いているが、NNとしてはこれに限らず、リカレントNN等を用いても良い。   In the following description and drawings, the same parts are denoted by the same reference numerals. Therefore, detailed description thereof will not be repeated. Each of the embodiments described below employs a technique of combining DNN and HMM using a PoE framework. Although DNN is used in the present embodiment, NN is not limited to this, and recurrent NN or the like may be used.

<構成>
本発明の実施の形態に係る音声合成パラメータ生成装置を含む音声合成装置の概略ブロック図を図5に示す。図5を参照して、この音声合成装置260は、入力テキスト102を受けて、HMMとDNNを用いて入力テキスト102に対する音声合成パラメータを推定し、F0パラメータ292、有声/無声パラメータ294、及びスペクトル包絡パラメータ296を生成するパラメータ生成部270と、パラメータ生成部270からF0パラメータ292、有声/無声パラメータ294及びスペクトル包絡パラメータ296を受けて音声信号262を出力する、従来の技術で説明したものと同じ構成の音声合成部112とを含む。
<Configuration>
FIG. 5 shows a schematic block diagram of a speech synthesis apparatus including a speech synthesis parameter generation apparatus according to an embodiment of the present invention. Referring to FIG. 5, the speech synthesizer 260 receives the input text 102, estimates speech synthesis parameters for the input text 102 using the HMM and DNN, and sets F0 parameter 292, voiced / unvoiced parameter 294, and spectrum A parameter generation unit 270 that generates an envelope parameter 296, and an F0 parameter 292, a voiced / unvoiced parameter 294, and a spectrum envelope parameter 296 that are received from the parameter generation unit 270 and outputs an audio signal 262. And a speech synthesizer 112 having a configuration.

パラメータ生成部270は、入力テキスト102に対して従来と同一のテキスト解析処理を行って、音素情報及び文脈情報を含むラベル列132を出力するテキスト解析処理部130と、ラベル列132を入力として受けてフレームごとに音声パラメータの確率密度関数の平均ベクトルを出力する、DNNからなるDNN音響モデル280と、図2に示したものと同様に接続された継続長モデル134及びHMM状態系列決定部138と、HMM音響モデル136とを含む。   The parameter generation unit 270 performs the same text analysis processing as before on the input text 102 and outputs a label sequence 132 including phoneme information and context information, and the label sequence 132 as an input. A DNN acoustic model 280 that outputs an average vector of a probability density function of speech parameters for each frame, a duration model 134 and an HMM state sequence determination unit 138 connected in the same manner as shown in FIG. HMM acoustic model 136.

パラメータ生成部270はさらに、DNN音響モデル280からフレームごとに出力される平均ベクトル、及び、DNN音響モデル280の学習時に予め算出されたグローバル平均ベクトルと共分散行列により規定される確率密度関数と、HMM状態系列決定部138から出力されるHMM系列にしたがってHMM音響モデル136から状態ごとに出力される平均ベクトル及び共分散行列により規定される確率密度関数とを、PoEフレームワークにしたがってフレームごとに重み付きで乗算して音声パラメータを統合し、統合後の音声パラメータを出力する音声パラメータ統合部284と、音声パラメータ統合部284による音声パラメータの統合時に使用される重みを記憶し音声パラメータ統合部284に出力する重み記憶部288と、DNN音響モデル280に対応する固定したグローバル平均ベクトルと共分散行列を記憶し、DNN音響モデル280の出力する音声パラメータを正規化するために音声パラメータ統合部284に出力する正規化パラメータ記憶部286と、音声パラメータ統合部284から出力される合成後の音声パラメータを用いて、F0パラメータ292、有声/無声パラメータ294、及びスペクトル包絡パラメータ296からなる音声合成パラメータを生成し出力する音声合成パラメータ算出部290とを含む。なお、上記した確率密度関数は、本実施の形態では、平均ベクトル及び共分散行列により定義されるガウス分布である。   The parameter generation unit 270 further includes an average vector output from the DNN acoustic model 280 for each frame, a probability average function defined by a global average vector and a covariance matrix calculated in advance when learning the DNN acoustic model 280, According to the HMM sequence output from the HMM state sequence determination unit 138, the average vector output for each state from the HMM acoustic model 136 and the probability density function defined by the covariance matrix are weighted for each frame according to the PoE framework. The voice parameter integration unit 284 that integrates the voice parameters and outputs the voice parameters after the integration, and the weight used when the voice parameters are integrated by the voice parameter integration unit 284 are stored in the voice parameter integration unit 284. Supports output weight storage unit 288 and DNN acoustic model 280 A normalization parameter storage unit 286 that stores a fixed global average vector and a covariance matrix, and outputs to a speech parameter integration unit 284 in order to normalize a speech parameter output from the DNN acoustic model 280, and a speech parameter integration unit 284 A speech synthesis parameter calculation unit 290 that generates and outputs a speech synthesis parameter including an F0 parameter 292, a voiced / unvoiced parameter 294, and a spectrum envelope parameter 296 using the synthesized speech parameter output from. Note that the probability density function described above is a Gaussian distribution defined by an average vector and a covariance matrix in the present embodiment.

この実施の形態では、前述したようにHMMとDNNとから得られる音声パラメータをPoEフレームワークにしたがって統合する。以下、この統合について説明する。PoEは複数の確率密度関数を、それらの間の積をとることにより1つの確率密度関数に統合する。   In this embodiment, as described above, voice parameters obtained from the HMM and DNN are integrated according to the PoE framework. Hereinafter, this integration will be described. PoE combines multiple probability density functions into one probability density function by taking the product between them.

図6に示すように、乗算により、HMMとDNNを同時に満たす確率密度関数が得られる。図6において、横軸は確率変数を表し、縦軸は確率密度を表す。   As shown in FIG. 6, a probability density function that simultaneously satisfies HMM and DNN is obtained by multiplication. In FIG. 6, the horizontal axis represents a random variable, and the vertical axis represents a probability density.

本実施の形態では、DNNにより予測された確率密度関数と、HMMにより予測された確率密度関数とを以下のように統合する。なおこの実施の形態でも、DNNの確率密度関数のグローバル平均ベクトル及び共分散行列は、予め学習データから求められた、全てのフレームに共通のものを用いる。   In the present embodiment, the probability density function predicted by DNN and the probability density function predicted by HMM are integrated as follows. Also in this embodiment, the global average vector and covariance matrix of the DNN probability density function are the same for all frames, which are obtained in advance from learning data.

この式によれば、一方では、PoEによる確率密度関数の平均ベクトルはDNNから得られる平均ベクトルの変動とともにフレームごとに変動する。他方では、確率密度関数の共分散行列はHMMの状態遷移に伴う共分散行列の変動とともに状態ごとに変動する。したがって、この確率密度関数は、フレームの移動に追従して変動する平均ベクトルと、HMMの状態の移動に追従して変動する共分散行列とにより定義されることになり、DNNとHMMの良い所を組み合わせたものとなる。   According to this equation, on the other hand, the average vector of the probability density function by PoE varies from frame to frame together with the variation of the average vector obtained from DNN. On the other hand, the covariance matrix of the probability density function varies from state to state along with the variation of the covariance matrix accompanying the state transition of the HMM. Therefore, this probability density function is defined by an average vector that changes following the movement of the frame and a covariance matrix that changes following the movement of the HMM state. Will be combined.

なお、本実施の形態ではさらに、両者の合成の際の重みを導入し、以下の式によりPoEによるモデルの合成を行う。   In the present embodiment, weights for the combination of both are further introduced, and the PoE model is synthesized by the following equation.

図7は、図5に示す音声パラメータ統合部284をコンピュータにより実現するためのコンピュータプログラムの制御構造を示すフローチャートである。図7を参照して、このプログラムは、以下に説明するモデル合成ステップ332を、音声合成の各フレームについて実行するステップ330を含む。   FIG. 7 is a flowchart showing a control structure of a computer program for realizing the voice parameter integration unit 284 shown in FIG. 5 by a computer. Referring to FIG. 7, the program includes a step 330 of executing a model synthesis step 332 described below for each frame of speech synthesis.

モデル合成ステップ332は、図5のHMM状態系列決定部138が出力するHMMの状態系列のうち、処理対象のフレームの時刻を含む状態の平均ベクトルと共分散行列とを含むHMMパラメータを読むステップ340と、図5のDNN音響モデル280が処理対象のフレームについて出力する平均ベクトルと、正規化パラメータ記憶部286に記憶されている固定されたグローバル平均ベクトル及び共分散行列とを含むDNNパラメータを読むステップ342とを含む。   The model synthesis step 332 reads an HMM parameter including an average vector of a state including the time of a frame to be processed and a covariance matrix among the HMM state sequences output by the HMM state sequence determination unit 138 in FIG. 5. A DNN parameter including a mean vector output by the DNN acoustic model 280 of FIG. 5 for a frame to be processed, and a fixed global mean vector and covariance matrix stored in the normalized parameter storage unit 286 342.

上記した実施の形態に係るDNN音響モデル280及びHMM音響モデル136とは、互いに独立に学習したものでもよいが、PoEによる統合を行うために最適化されたものであればより好ましい。以下、DNNとHMMとをこの実施の形態に係る音声合成装置260のために最適化するためのDNNとHMMの同時学習方法について説明する。   The DNN acoustic model 280 and the HMM acoustic model 136 according to the above-described embodiment may be learned independently of each other, but it is more preferable if they are optimized for integration by PoE. Hereinafter, a DNN and HMM simultaneous learning method for optimizing DNN and HMM for speech synthesis apparatus 260 according to this embodiment will be described.

図8に、このDNNとHMMの同時学習方法をフローチャート形式で示す。図8を参照して、この学習方法360は、通常のDNN及びHMMの学習と同様に、音響特徴量と、各音響特徴量に対応する音素及び文脈情報からなるラベル列とを含む学習データ362を準備するステップと、この学習データ362を用いて初期HMMの学習を行うステップ380及び初期DNNの学習を行うステップ382とを含む。このようにして初期学習が行われたHMMのパラメータ集合及びDNNのパラメータ集合を、ステップ384においてPoEにより次の式で与えられる尤度関数を最大化することにより最適化する。   FIG. 8 shows a flowchart of this DNN and HMM simultaneous learning method. Referring to FIG. 8, this learning method 360 is similar to normal DNN and HMM learning, and includes learning data 362 including acoustic feature amounts and a label string made up of phonemes and context information corresponding to each acoustic feature amount. And a step 380 for learning the initial HMM using the learning data 362 and a step 382 for learning the initial DNN. The HMM parameter set and DNN parameter set subjected to the initial learning in this way are optimized by maximizing the likelihood function given by the following equation by PoE in step 384.

ここで、EMアルゴリズムのEステップで算出される事後確率密度関数は次の式で与えられる。 Here, the posterior probability density function calculated in the E step of the EM algorithm is given by the following equation.

すなわち、図8を参照して、ステップ384は、与えられたHMM及びDNNを用いてPoEモデルを算出し、そのモデルを用いてHMM及びDNNに対する潜在変数の事後確率密度関数を同時に推定するEステップ400と、Eステップ400でそれぞれのモデルについて推定された事後確率分布を観測ベクトルとしてDNN及びHMMのパラメータを別々に最尤推定するMステップ402と、終了条件が充足するまで、Mステップ402の結果得られたモデルパラメータを新たなモデルパラメータとして、Eステップ400及びMステップ402を繰り返し行うステップ404と、ステップ404で終了条件が成立したと判定されたときに、そのときのHMM及びDNNのパラメータ集合をHMM音響モデル364及びDNN音響モデル366として出力するステップ380とを含む。終了条件としては、PoEによる尤度関数が収束したか否か、HMM及びDNNのパラメータが収束したか否か、又は所定回数の繰り返しが終了したか否か、等が用いられる。HMM及びDNNのパラメータ集合はいずれも事前学習の段階で一度収束するまで学習が行われている。したがって、この処理で改めて更新する場合にも収束は早く、1回又は2回、上記処理を繰り返すことにより収束することが多い。   That is, referring to FIG. 8, step 384 calculates an PoE model using a given HMM and DNN, and simultaneously estimates an a posteriori probability density function of a latent variable for the HMM and DNN using the model. 400, M step 402 for estimating maximum likelihood of DNN and HMM parameters separately using the posterior probability distribution estimated for each model in E step 400 as an observation vector, and the result of M step 402 until the termination condition is satisfied Using the obtained model parameter as a new model parameter, step 404 in which the E step 400 and M step 402 are repeated, and when it is determined in step 404 that the termination condition is satisfied, the HMM and DNN parameter sets at that time Are output as an HMM acoustic model 364 and a DNN acoustic model 366. As the termination condition, whether or not the likelihood function by PoE has converged, whether or not the parameters of HMM and DNN have converged, whether or not a predetermined number of iterations have been completed, and the like are used. Both HMM and DNN parameter sets are learned until they converge once at the pre-learning stage. Therefore, even when renewed in this process, the convergence is fast and often converges by repeating the above process once or twice.

Eステップ400は、入力されるHMM及びDNNに基づいてPoEモデルを算出するステップ420と、ステップ420で算出されたPoEモデルを用いてHMM及びDNNに対する潜在変数を同時推定し出力するステップ422とを含む。   E step 400 includes a step 420 for calculating a PoE model based on the input HMM and DNN, and a step 422 for simultaneously estimating and outputting latent variables for the HMM and DNN using the PoE model calculated in step 420. Including.

Mステップ402は、ステップ422で同時推定された潜在変数を用いた事後確率分布を観測ベクトルとしてHMMのパラメータ集合を最尤推定し更新するステップ440と、同様にDNNのパラメータ集合を最尤推定し更新するステップ442とを含む。   M step 402 performs maximum likelihood estimation and update of the HMM parameter set using the posterior probability distribution using the latent variable simultaneously estimated in step 422 as an observation vector, and similarly performs maximum likelihood estimation of the DNN parameter set. Updating 442.

HMMのパラメータ集合の更新には最急降下法等が用いられる。DNNのパラメータ集合の更新には確率的勾配降下法等が用いられる。   The steepest descent method is used to update the HMM parameter set. Stochastic gradient descent is used to update the DNN parameter set.

<動作>
図5〜図7に示した装置は以下のように動作する。なお、HMM及びDNNの最適化は、図8に示したとおりである。最適化したときの重みは重み記憶部288に記憶される。また、DNNの学習時にDNNの出力の確率密度関数の共分散行列が計算され、正規化パラメータ記憶部286に記憶される。
<Operation>
The apparatus shown in FIGS. 5 to 7 operates as follows. The optimization of HMM and DNN is as shown in FIG. The weight when optimized is stored in the weight storage unit 288. Further, a covariance matrix of the probability density function of the DNN output is calculated during DNN learning and stored in the normalization parameter storage unit 286.

図5を参照して、テキスト解析処理部130は、入力テキスト102を解析することにより、ラベル列132を出力する。ラベル列132の各ラベルは、発話を構成する音素と、文脈情報とを含む。   Referring to FIG. 5, the text analysis processing unit 130 analyzes the input text 102 and outputs a label string 132. Each label of the label column 132 includes phonemes constituting the utterance and context information.

DNN音響モデル280は、ラベル列132を受けて、発話のフレームごとに平均ベクトルを出力し音声パラメータ統合部284に与える。HMM状態系列決定部138は、ラベルに応じて決定木を探索して継続長モデル134から継続長を読み出すことにより入力テキスト102に対応するHMM状態系列を決定し、各状態における出力の確率密度関数の平均ベクトル及び共分散行列をHMM状態系列として音声パラメータ統合部284に与える。   The DNN acoustic model 280 receives the label sequence 132, outputs an average vector for each utterance frame, and provides it to the speech parameter integration unit 284. The HMM state sequence determining unit 138 determines an HMM state sequence corresponding to the input text 102 by searching the decision tree according to the label and reading the duration from the duration model 134, and the probability density function of the output in each state Are provided to the speech parameter integration unit 284 as an HMM state sequence.

音声パラメータ統合部284は、フレームごとに以下の処理(図7のステップ332)を繰り返す。すなわち、まずそのフレームを含む状態におけるHMMパラメータ(平均ベクトルと共分散行列)を読む(ステップ340)。続いて、そのフレームに対するDNNパラメータ(平均ベクトル)と、正規化パラメータ記憶部286に記憶されたグローバル平均ベクトル及び共分散行列を読む(ステップ342)。ステップ343で、両者の有声/無声パラメータが一致するか否かを判定する。両者が一致する場合、ステップ344で、PoEに基づくモデルの確率密度関数の平均ベクトル及び共分散行列を式(7)及び式(8)により算出する。さもなければ、ステップ345で有声/無声パラメータを除いてPoEに基づくモデルの確率密度関数の平均ベクトル及び共分散行列をそれぞれ式(7)及び式(8)により算出し、有声/無声パラメータとしてはDNNのものをそのまま出力する。続くステップ346で、こうして算出された平均ベクトルと共分散行列を現フレームにおける確率密度関数として出力する。   The audio parameter integration unit 284 repeats the following process (step 332 in FIG. 7) for each frame. That is, first, HMM parameters (average vector and covariance matrix) in a state including the frame are read (step 340). Subsequently, the DNN parameter (average vector) for the frame and the global average vector and covariance matrix stored in the normalized parameter storage unit 286 are read (step 342). In step 343, it is determined whether both voiced / unvoiced parameters match. If the two match, in step 344, the average vector and covariance matrix of the probability density function of the model based on PoE are calculated using equations (7) and (8). Otherwise, in step 345, the mean vector and the covariance matrix of the probability density function of the model based on PoE are calculated by Equation (7) and Equation (8), respectively, excluding the voiced / unvoiced parameters. The DNN output is output as is. In the following step 346, the average vector and covariance matrix calculated in this way are output as a probability density function in the current frame.

ステップ332の処理を、発話を構成する全てのフレームについて行うことにより、入力テキスト102に基づく音声合成が行われる。   The speech synthesis based on the input text 102 is performed by performing the processing in step 332 for all the frames constituting the utterance.

我々は、PoEによるモデルの合成において、DNNとHMMとの重みを様々な値に替えて、得られたPoEモデルによる音声合成の品質について調べた。結果を図9に示す。   We investigated the quality of speech synthesis using the PoE model obtained by changing the weights of DNN and HMM to various values. The results are shown in FIG.

図9を参照して、HMMの重みが1でDNNの重みが0のときが左端、HMMの重みが0でDNNの重みが1のときが右端である。図9のグラフから、DNNの重みが0.75から0.98程度の範囲でPoEによるシステムがDNN及びHMMの単独のシステムの性能を明らかに上回っている。DNNの重みが0.9の前後±0.05の範囲で特に性能が高くなることが分かる。   Referring to FIG. 9, the left end is when the HMM weight is 1 and the DNN weight is 0, and the right end is when the HMM weight is 0 and the DNN weight is 1. From the graph of FIG. 9, the system based on PoE clearly outperforms the performance of the single DNN and HMM system when the DNN weight is in the range of about 0.75 to 0.98. It can be seen that the performance is particularly high when the DNN weight is in the range of ± 0.05 around 0.9.

なお、上記実施の形態では、図7に示すようにフレームごとにそのフレームに対応するDNNからのパラメータ及びHMMからのパラメータを読み出している。しかし本発明はそのような実施の形態には限定されない。HMMパラメータは状態ごとに変化するだけなので、状態が変化したときにのみ読みだすこととし、各フレームの処理では読み出さないようにしてもよい。   In the above embodiment, as shown in FIG. 7, the parameters from the DNN and the parameters from the HMM corresponding to the frame are read for each frame. However, the present invention is not limited to such an embodiment. Since the HMM parameter only changes for each state, the HMM parameter may be read only when the state changes, and may not be read in the processing of each frame.

また上の実施の形態は、2つのモデルDNNとHMMをPoEフレームワークにより合成している。しかし本発明はそのような実施の形態には限定されない。3つ以上のモデルであっても、一つのモデルの欠点を他のモデルにより補うことができるような場合、すなわち、互いが異なる考え方により作成された音響モデルであるような場合には、本発明を適用できる。   In the above embodiment, two models DNN and HMM are synthesized by the PoE framework. However, the present invention is not limited to such an embodiment. Even if there are three or more models, the present invention can be applied to the case where the shortcomings of one model can be compensated for by other models, that is, the acoustic models are created based on different ideas. Can be applied.

[コンピュータによる実現]
本発明の実施の形態に係る音声合成パラメータ生成装置を含む音声合成装置260は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図10はこのコンピュータシステム530の外観を示し、図11はコンピュータシステム530の内部構成を示す。
[Realization by computer]
The speech synthesis apparatus 260 including the speech synthesis parameter generation apparatus according to the embodiment of the present invention can be realized by computer hardware and a computer program executed on the computer hardware. FIG. 10 shows the external appearance of this computer system 530, and FIG. 11 shows the internal configuration of the computer system 530.

図10を参照して、このコンピュータシステム530は、メモリポート552及びDVD(Digital Versatile Disc)ドライブ550を有するコンピュータ540と、キーボード546と、マウス548と、モニタ542とを含む。   Referring to FIG. 10, the computer system 530 includes a computer 540 having a memory port 552 and a DVD (Digital Versatile Disc) drive 550, a keyboard 546, a mouse 548, and a monitor 542.

図11を参照して、コンピュータ540は、メモリポート552及びDVDドライブ550に加えて、CPU(中央処理装置)556と、CPU556、メモリポート552及びDVDドライブ550に接続されたバス566と、ブートプログラム等を記憶する読出専用メモリ(ROM)558と、バス566に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)560と、ハードディスク554を含む。コンピュータシステム530はさらに、他端末との通信を可能とするネットワーク568への接続を提供するネットワークインターフェイス(I/F)544を含む。   11, in addition to the memory port 552 and the DVD drive 550, the computer 540 includes a CPU (Central Processing Unit) 556, a bus 566 connected to the CPU 556, the memory port 552, and the DVD drive 550, and a boot program. And the like, a read only memory (ROM) 558 for storing etc., a random access memory (RAM) 560 connected to the bus 566 for storing program instructions, system programs, work data and the like, and a hard disk 554. Computer system 530 further includes a network interface (I / F) 544 that provides a connection to a network 568 that allows communication with other terminals.

コンピュータシステム530を上記した実施の形態に係る音声合成装置260の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ550又はメモリポート552に装着されるDVD562又はリムーバブルメモリ564に記憶され、さらにハードディスク554に転送される。又は、プログラムはネットワーク568を通じてコンピュータ540に送信されハードディスク554に記憶されてもよい。プログラムは実行の際にRAM560にロードされる。DVD562から、リムーバブルメモリ564から又はネットワーク568を介して、直接にRAM560にプログラムをロードしてもよい。   A computer program for causing the computer system 530 to function as each functional unit of the speech synthesis apparatus 260 according to the above-described embodiment is stored in the DVD drive 550 or the DVD 562 or the removable memory 564 installed in the memory port 552, and further the hard disk 554. Alternatively, the program may be transmitted to the computer 540 through the network 568 and stored in the hard disk 554. The program is loaded into the RAM 560 when executed. The program may be loaded directly into the RAM 560 from the DVD 562, from the removable memory 564, or via the network 568.

このプログラムは、コンピュータ540を、上記実施の形態に係る音声合成装置260の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ540にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ540上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ540にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。   This program includes an instruction sequence including a plurality of instructions for causing the computer 540 to function as each functional unit of the speech synthesizer 260 according to the above embodiment. Some of the basic functions necessary to cause the computer 540 to perform this operation are an operating system or third party program running on the computer 540 or various dynamically linkable programming toolkits or programs installed on the computer 540. Provided by the library. Therefore, this program itself does not necessarily include all the functions necessary for realizing the system, apparatus, and method of this embodiment. The program is a system as described above by dynamically calling an appropriate program in an appropriate function or programming toolkit or program library in a controlled manner to obtain a desired result among instructions, It is only necessary to include an instruction for realizing a function as an apparatus or a method. Of course, all necessary functions may be provided only by the program.

<実施の形態の作用及び効果>
本発明では、HMM音声合成とDNN音声合成のモデルを、どちらの制約も満たすことの出来るProduct-of-Expertsのフレームワークを用いて、統合する。つまり、HMMとDNNの制約を満たした上で、平均ベクトルは精度の高いDNNを用いて、分散はHMMを利用するといったことが可能となる。DNN音声合成の精度で平均ベクトルを推定しつつ、HMM音声合成の分散を考慮した音声合成パラメータを生成することが可能となり、より品質の高い合成音声を生成する。すなわち、DNNとHMM音声合成等、音声合成のための複数の異なるタイプのモデルで生成されたパラメータの内、どちらか一方では品質劣化を招く場合に、もう一方のパラメータで補うことが出来る。同様の考え方で、複数のモデルを統合することも可能である。統合する対象のモデルも、互いに異なる種類のモデルで相互の長所を組み合わせることができるモデルであれば、それらから得られるパラメータを統合して音声合成パラメータの品質を高くできる。また上記実施の形態のように、統合対象となるモデルを最適化するにあたって、PoEのフレームワークに潜在変数を導入することにより、統合元のモデルに対して条件付き独立性を生み出し、EMアルゴリズムによる学習を可能にする。EMアルゴリズムにより、最尤な解に収束することが保証される。したがって複数のモデルから得た音声パラメータを安定して統合することが可能になる。複数のモデルの制約を満たした音声パラメータ系列が生成できることにより、合成音声の品質劣化を防止し、品質の高い合成音声が生成できる。
<Operation and effect of embodiment>
In the present invention, HMM speech synthesis and DNN speech synthesis models are integrated using a Product-of-Experts framework that can satisfy both constraints. That is, while satisfying the restrictions of HMM and DNN, it is possible to use DNN with high accuracy for the average vector and HMM for dispersion. It is possible to generate a speech synthesis parameter considering the variance of HMM speech synthesis while estimating the average vector with the accuracy of DNN speech synthesis, and to generate synthesized speech with higher quality. In other words, when one of the parameters generated by a plurality of different types of models for speech synthesis such as DNN and HMM speech synthesis causes quality degradation, the other parameter can be supplemented. In the same way, it is possible to integrate multiple models. If the models to be integrated are models that can combine the advantages of different types of models, the parameters obtained from them can be integrated to improve the quality of the speech synthesis parameters. Also, as in the above embodiment, when optimizing the model to be integrated, by introducing latent variables into the PoE framework, conditional independence is created for the original model, and the EM algorithm is used. Enable learning. The EM algorithm guarantees convergence to the most likely solution. Therefore, it is possible to stably integrate speech parameters obtained from a plurality of models. Since a speech parameter sequence that satisfies the constraints of a plurality of models can be generated, quality degradation of the synthesized speech can be prevented and a synthesized speech with high quality can be generated.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

S11、S12、S13 状態
60 HMM
100、200、260 音声合成装置
102 入力テキスト
104、204、262 音声信号
110、210、270 パラメータ生成部
112 音声合成部
130 テキスト解析処理部
132 ラベル列
134 継続長モデル
136、364 HMM音響モデル
138 HMM状態系列決定部
140、232、290 音声合成パラメータ算出部
142、242、292 F0パラメータ
144、244、294 有声/無声パラメータ
146、246、296 スペクトル包絡パラメータ
150 音源信号生成部
152 音声合成フィルタ
170 DNN
172 入力層
174、176 隠れ層
178 出力層
230、280、366 DNN音響モデル
234、286 正規化パラメータ記憶部
284 音声パラメータ統合部
288 重み記憶部
332 モデル合成ステップ
362 学習データ
400 Eステップ
402 Mステップ
S11, S12, S13 State 60 HMM
100, 200, 260 Speech synthesizer 102 Input text 104, 204, 262 Speech signal 110, 210, 270 Parameter generator 112 Speech synthesizer 130 Text analysis processor 132 Label sequence 134 Duration model 136, 364 HMM acoustic model 138 HMM State series determination unit 140, 232, 290 Speech synthesis parameter calculation unit 142, 242, 292 F0 parameters 144, 244, 294 Voiced / unvoiced parameters 146, 246, 296 Spectrum envelope parameter 150 Sound source signal generation unit 152 Speech synthesis filter 170 DNN
172 Input layer 174, 176 Hidden layer 178 Output layer 230, 280, 366 DNN acoustic model 234, 286 Normalization parameter storage unit 284 Speech parameter integration unit 288 Weight storage unit 332 Model synthesis step 362 Learning data 400 E step 402 M step

Claims (6)

第1の音響モデル、及び前記第1の音響モデルとは異なる種類の第2の音響モデルを、Product-of-Experts(PoE)フレームワークにしたがって組み合わせて使用するために、前記第1の音響モデル及び前記第2の音響モデルを最適化する音響モデル最適化装置であって、
プログラムと、前記第1の音響モデルのパラメータと、前記第2の音響モデルのパラメータとを記憶するための記憶装置と、
前記記憶装置に接続されたプロセッサとを含み、
前記プロセッサは、前記プログラムにより、前記第1の音響モデル及び前記第2の音響モデルをPoEの枠組みにしたがって音声信号のフレームごとに組合せることにより、フレームごとに前記第1の音響モデルと前記第2の音響モデルを統合した統合モデルの尤度関数を算出する算出ステップと、
前記第1の音響モデルのパラメータ及び前記第2の音響モデルのパラメータに第1の潜在変数及び第2の潜在変数をそれぞれ導入し、前記統合モデルの前記尤度関数を用いて前記第1の潜在変数及び前記第2の潜在変数の事後確率密度関数を推定する第1の推定ステップと、
前記第1の推定ステップにより推定された前記第1の潜在変数及び前記第2の潜在変数の事後確率密度関数を観測ベクトルとして、前記第1の音響モデル及び前記第2の音響モデルのパラメータを別々に最尤推定する第2の推定ステップと、
前記第2の推定ステップにより得られた前記第1の音響モデル及び前記第2の音響モデルのパラメータを入力として、前記算出ステップ、前記第1の推定ステップ、及び前記第2の推定ステップを終了条件が成立するまで繰返し、終了条件が成立した時の前記第1の音響モデル及び前記第2の音響モデルのパラメータを出力するステップとを含む方法を実行するようにプログラムされている、音響モデル最適化装置。
In order to use a first acoustic model and a second acoustic model of a type different from the first acoustic model in combination according to a Product-of-Experts (PoE) framework, the first acoustic model And an acoustic model optimizing device for optimizing the second acoustic model,
A storage device for storing a program, parameters of the first acoustic model, and parameters of the second acoustic model;
A processor connected to the storage device,
The processor uses the program to combine the first acoustic model and the second acoustic model for each frame of an audio signal according to a PoE framework, so that the first acoustic model and the first acoustic model are combined for each frame. A calculation step of calculating a likelihood function of an integrated model obtained by integrating the two acoustic models;
A first latent variable and a second latent variable are respectively introduced into the parameters of the first acoustic model and the second acoustic model, and the first latent variable is used by using the likelihood function of the integrated model. A first estimation step for estimating a posterior probability density function of a variable and the second latent variable;
Using the posterior probability density functions of the first latent variable and the second latent variable estimated in the first estimating step as observation vectors, the parameters of the first acoustic model and the second acoustic model are separately set. A second estimation step that estimates the maximum likelihood to
With the parameters of the first acoustic model and the second acoustic model obtained in the second estimation step as inputs, the calculation step, the first estimation step, and the second estimation step are terminated. Acoustic model optimization programmed to execute a method comprising: repeating until a termination condition is satisfied, and outputting a parameter of the first acoustic model and the second acoustic model when the termination condition is satisfied apparatus.
前記出力するステップは、前記第2の推定ステップにより得られた前記第1の音響モデル及び前記第2の音響モデルのパラメータを入力として、前記第1の推定ステップ及び前記第2の推定ステップを所定回数繰返したときの前記第1の音響モデル及び前記第2の音響モデルのパラメータを出力するステップを含む、請求項1に記載の音響モデル最適化装置。 The outputting step receives the parameters of the first acoustic model and the second acoustic model obtained in the second estimation step as inputs, and the first estimation step and the second estimation step are predetermined. The acoustic model optimization apparatus according to claim 1, comprising a step of outputting parameters of the first acoustic model and the second acoustic model when the number of repetitions is repeated. 前記出力するステップは、前記第2の推定ステップにより得られた前記第1の音響モデル及び前記第2の音響モデルを入力として、前記第1の推定ステップ及び前記第2の推定ステップを、前記第1の音響モデルのパラメータと前記第2の音響モデルのパラメータの値が収束するまで繰返し、当該パラメータが収束したときの前記第1の音響モデル及び前記第2の音響モデルのパラメータを出力するステップを含む、請求項1に記載の音響モデル最適化装置。 The outputting step includes inputting the first acoustic model and the second acoustic model obtained in the second estimation step as inputs, and performing the first estimation step and the second estimation step as the first estimation step. Repeatedly outputting the parameters of the first acoustic model and the second acoustic model until the values of the parameters of the first acoustic model and the second acoustic model converge, and outputting the parameters of the first acoustic model and the second acoustic model when the parameters converge The acoustic model optimization device according to claim 1, further comprising: 前記第1の音響モデルは隠れマルコフモデルを含み、
前記第2の音響モデルはニューラルネットワークを含む、請求項1〜請求項3のいずれかに記載の音響モデル最適化装置。
The first acoustic model includes a hidden Markov model;
The acoustic model optimization apparatus according to claim 1, wherein the second acoustic model includes a neural network.
前記方法は、前記第1の音響モデル及び前記第2の音響モデルを、PoEフレームワークにしたがって次の式で与えられる尤度関数を最大化することにより最適化し、
前記算出ステップは、前記第1の音響モデル及び前記第2の音響モデルをPoEフレームワークにより、音声信号のフレームごとに組合せることにより、フレームごとの前記統合モデルの尤度関数を以下の式により算出するステップと、
前記第1の音響モデルのパラメータと前記第2の音響モデルのパラメータとを以下の式にしたがって合成するステップとを含み、
前記第1の推定ステップは、前記第1の音響モデル及び前記第2の音響モデルに対してそれぞれ以下の事後確率密度関数
を算出するステップを含み、
前記第2の推定ステップは、以下の補助関数
を決定するステップを含む、請求項1に記載の音響モデル最適化装置。
The method optimizes the first acoustic model and the second acoustic model by maximizing a likelihood function given by the following equation according to the PoE framework:
The calculating step combines the first acoustic model and the second acoustic model for each frame of the audio signal by the PoE framework, and the likelihood function of the integrated model for each frame is expressed by the following equation: A calculating step;
Synthesizing the parameters of the first acoustic model and the parameters of the second acoustic model according to the following equation:
The first estimating step includes the following posterior probability density functions for the first acoustic model and the second acoustic model, respectively.
Including the step of calculating
The second estimation step includes the following auxiliary function:
The acoustic model optimizing device according to claim 1, comprising a step of determining.
コンピュータに、上記請求項1〜請求項5のいずれかに記載の方法を実行させるように機能する、コンピュータプログラム。   A computer program that functions to cause a computer to execute the method according to any one of claims 1 to 5.
JP2016144766A 2016-07-22 2016-07-22 Acoustic model optimization device and computer program therefor Pending JP2018013722A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016144766A JP2018013722A (en) 2016-07-22 2016-07-22 Acoustic model optimization device and computer program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016144766A JP2018013722A (en) 2016-07-22 2016-07-22 Acoustic model optimization device and computer program therefor

Publications (1)

Publication Number Publication Date
JP2018013722A true JP2018013722A (en) 2018-01-25

Family

ID=61020143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016144766A Pending JP2018013722A (en) 2016-07-22 2016-07-22 Acoustic model optimization device and computer program therefor

Country Status (1)

Country Link
JP (1) JP2018013722A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144402A (en) * 2018-02-20 2019-08-29 日本電信電話株式会社 Voice conversion learning device, voice conversion device, method and program
WO2020220541A1 (en) * 2019-04-29 2020-11-05 平安科技(深圳)有限公司 Speaker recognition method and terminal
US10957308B2 (en) 2018-05-11 2021-03-23 Samsung Electronics Co., Ltd. Device and method to personalize speech recognition model

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144402A (en) * 2018-02-20 2019-08-29 日本電信電話株式会社 Voice conversion learning device, voice conversion device, method and program
US10957308B2 (en) 2018-05-11 2021-03-23 Samsung Electronics Co., Ltd. Device and method to personalize speech recognition model
WO2020220541A1 (en) * 2019-04-29 2020-11-05 平安科技(深圳)有限公司 Speaker recognition method and terminal

Similar Documents

Publication Publication Date Title
JP6727607B2 (en) Speech recognition device and computer program
US9626621B2 (en) Systems and methods for combining stochastic average gradient and hessian-free optimization for sequence training of deep neural networks
CN107615376B (en) Voice recognition device and computer program recording medium
JP5242724B2 (en) Speech processor, speech processing method, and speech processor learning method
Zen Acoustic modeling in statistical parametric speech synthesis-from HMM to LSTM-RNN
EP1515305B1 (en) Noise adaption for speech recognition
JP6499305B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, speech synthesis model learning apparatus, speech synthesis model learning method, and speech synthesis model learning program
WO2016181951A1 (en) Recurrent neural network learning method, computer program for same, and voice recognition device
JP5398909B2 (en) Text-to-speech synthesis method and system
JP6293912B2 (en) Speech synthesis apparatus, speech synthesis method and program
JP6884946B2 (en) Acoustic model learning device and computer program for it
JP2010152081A (en) Speaker adaptation apparatus and program for the same
JP5249967B2 (en) Speech recognition device, weight vector learning device, speech recognition method, weight vector learning method, program
WO2016172871A1 (en) Speech synthesis method based on recurrent neural networks
Zen et al. Recent development of the HMM-based speech synthesis system (HTS)
JP2018013722A (en) Acoustic model optimization device and computer program therefor
JP2019179257A (en) Acoustic model learning device, voice synthesizer, acoustic model learning method, voice synthesis method, and program
JPWO2019044401A1 (en) Computer system realizing unsupervised speaker adaptation of DNN speech synthesis, method and program executed in the computer system
JP3920749B2 (en) Acoustic model creation method for speech recognition, apparatus thereof, program thereof and recording medium thereof, speech recognition apparatus using acoustic model
JP4881357B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP2018013721A (en) Voice synthesis parameter generating device and computer program for the same
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP6542823B2 (en) Acoustic model learning device, speech synthesizer, method thereof and program
JP6840124B2 (en) Language processor, language processor and language processing method
CN114270433A (en) Acoustic model learning device, speech synthesis device, method, and program