JP5717097B2 - Hidden Markov model learning device and speech synthesizer for speech synthesis - Google Patents
Hidden Markov model learning device and speech synthesizer for speech synthesis Download PDFInfo
- Publication number
- JP5717097B2 JP5717097B2 JP2011194907A JP2011194907A JP5717097B2 JP 5717097 B2 JP5717097 B2 JP 5717097B2 JP 2011194907 A JP2011194907 A JP 2011194907A JP 2011194907 A JP2011194907 A JP 2011194907A JP 5717097 B2 JP5717097 B2 JP 5717097B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- learning
- hidden markov
- hmm
- markov model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は音声合成に関し,特に,HMM(隠れマルコフモデル)を用いて音声合成用フィルタのパラメータを生成するための技術に関する。 The present invention relates to speech synthesis, and more particularly to a technique for generating parameters of a speech synthesis filter using an HMM (Hidden Markov Model).
マン・マシン・インターフェイスの必須技術として,音声認識技術と音声合成技術とがある。音声認識と音声合成とを組み合わせることにより,音声を使うという,人間にとって自然な動作で,複雑な操作指示を必要とする最新の装置を利用できる。 The essential technologies for man-machine interface include speech recognition technology and speech synthesis technology. By combining speech recognition and speech synthesis, it is possible to use the latest devices that use speech and that are natural for humans and require complex operation instructions.
これらの技術のうちでも,音声合成技術に関しては,単に目的のテキストを発声すればよいというわけではなく,より自然な発声を得ることが必要である。そのために様々な方式が提案されている。 Among these technologies, with regard to speech synthesis technology, it is not necessary to simply utter the desired text, but it is necessary to obtain a more natural utterance. Various schemes have been proposed for this purpose.
そうした方式の1つに,HMMを用いるものがある。HMMを用いる音声合成では,予め多数の音声から音声の規則合成用のパラメータを推定するためのHMMを学習しておく。音声合成時には,入力テキストを解析して音素ラベル列を得て,それら音素ラベル列に含まれる各音素を合成するためのフィルタパラメータを上記したHMMから生成する。 One such method uses HMM. In speech synthesis using an HMM, an HMM for estimating speech rule synthesis parameters from a large number of speeches is learned in advance. At the time of speech synthesis, the input text is analyzed to obtain phoneme label strings, and filter parameters for synthesizing each phoneme included in these phoneme label strings are generated from the above HMM.
そのような技術は,例えば特許文献1に開示されている。特許文献1に開示された音声合成装置の基本的構成を図1に示す。
Such a technique is disclosed in
図1を参照して,従来の音声合成システム40は,大きく分けて音声合成用のHMMの学習を行なうための学習装置50と,学習装置50を記憶するためのHMM記憶部52と,入力テキスト54が与えられると,入力テキスト54を構成する各音素について,HMM記憶部52に記憶されたHMMを用いて規則合成のための合成フィルタのパラメータと音声生成のためのF0パラメータとを生成して音声を合成するための音声合成装置56とを含む。
Referring to FIG. 1, a conventional
学習装置50は,音素別にラベル付けされた多数の音声データを記憶する音声データベース60を含む。音声は所定フレーム長及び所定シフト長でフレーム化されている。学習装置50はさらに,音声データベース60に記憶された音声の各フレームについて基本周波数(F0)を抽出するためのF0抽出処理部62と,音声データベース60に記憶された音声の各フレームについて,音響パラメータとしてMFCC(Mel Frequency Cepstrum Coefficient)を算出するMFCC算出部64と,音声データベース60に記憶された音声データの各フレームについて,音素ラベルと,F0抽出処理部62により抽出されたF0と,MFCC算出部64により算出されたMFCCとを1組にしてHMM学習用データとして記憶するHMM学習用データ記憶部66と,HMM学習用データ記憶部66に記憶されたHMM学習用データを用いてHMMの学習を行なうための,HTSツールキット(参考文献1)を用いるHMM学習部68とを含んでおり,HMM学習部68による学習が行なわれたHMMはHMM記憶部52に記憶される。典型的には,HMM記憶部52に記憶されたHMMは,コンテキスト依存の3音素HMMである。
The
一方,音声合成装置56は,入力テキスト54に対してテキスト解析を行ない,合成音声が持つべき韻律情報等が付された音素ラベル列82を出力するテキスト解析部80と,音素ラベル列82を受け,HMM記憶部52から,音素ラベル列82の各音素について各音素のコンテキスト及び韻律情報に基づいて,最も適合したHMMをHMM記憶部52から選択して接続することにより音声合成用のF0のパラメータ系列及びMFCCのパラメータ系列を生成するパラメータ生成部84と,パラメータ生成部84により生成されたF0のパラメータ系列にしたがい,音源信号を生成する音源生成部86と,パラメータ生成部84により生成されたMFCCのパラメータ系列にしたがい,音源生成部86により生成された音源信号をフィルタリング(変調)することにより,合成音声信号を生成する合成フィルタ88とを含む。
On the other hand, the
このようなHMMを用いた音声合成は高速であるとともに,話者対応が容易で,種々の発話様式にも対応可能な柔軟なものであることが知られている。しかし,HMMを用いた音声合成では,汎化処理のために,合成音声が不自然なものになることも多い。そうした問題を解決するために,音声のダイナミックな特徴量と,系列内変動(global variance)とを用いる方式が提案されている。ダイナミックな特徴量としては,例えばMFCCの差分(デルタ)と,差分の差分(デルタ─デルタ)とが用いられる. It is known that speech synthesis using such an HMM is fast, flexible for speakers, and flexible for various utterance styles. However, in speech synthesis using HMM, the synthesized speech often becomes unnatural due to generalization processing. In order to solve such a problem, a method using a dynamic feature amount of speech and global variation has been proposed. For example, the MFCC difference (delta) and the difference between the differences (delta-delta) are used as dynamic features.
HMMを用いた音声合成における問題は,以下の3つの局面に分けることができる。 Problems in speech synthesis using HMM can be divided into the following three aspects.
(1)音声パラメータをHMM生成時に統計処理して平滑化してしまうために,音質が劣化してしまうこと。 (1) Since the voice parameters are statistically processed and smoothed when the HMM is generated, the sound quality is deteriorated.
(2)種々の話者の音声を用いるため,音声の変化がノイズとして作用し,音質が劣化すること。 (2) Since the voices of various speakers are used, the voice change acts as noise and the sound quality deteriorates.
(3)定型化されていない音声収録環境で,種々の話者の種々の発話スタイルの音声をHMMの学習に用いるために合成音声にひずみが生じること。 (3) In a non-standardized voice recording environment, synthesized voices are distorted because voices of different utterance styles of different speakers are used for HMM learning.
第1の局面については,MFCCパラメータに振幅だけでなく位相も含ませることが必要であることが知られている。しかし,通常はそうした位相に関する情報は利用できない。発話の特徴量を生成するという観点からは,位相情報を持たないMFCCパラメータは,厳密には非線形パラメータと考えるべきである。したがって,種々の位相のMFCCパラメータをHMM学習時に統計処理し平均化してしまうことにより,合成音声にひずみが生じることになる。そうしたひずみはバズノイズを生じさせる。 As for the first aspect, it is known that it is necessary to include not only the amplitude but also the phase in the MFCC parameter. However, information about such phases is usually not available. Strictly speaking, the MFCC parameter having no phase information should be considered as a non-linear parameter from the viewpoint of generating the feature amount of the utterance. Accordingly, the MFCC parameters of various phases are statistically processed and averaged during HMM learning, so that the synthesized speech is distorted. Such distortion causes buzz noise.
第2の局面に関しては,発話の変化しやすさは,ノイズの発生源の1つと考えることができる。 Regarding the second aspect, the susceptibility to utterance change can be considered as one of the sources of noise.
第3の局面は,エキスパートでないユーザが音声合成を利用してコミュニケーションをとる上では重大な問題である。 The third aspect is a serious problem for users who are not experts to communicate using speech synthesis.
バズノイズについていうと,上記したようにダイナミックな音響特徴量(MFCCのデルタ及びデルタ−デルタ)を用いることでかなり音声が改善されることが分かってきた。こうした手法を用いると,あるフレームの特徴量の計算に,そのフレームの前後の複数フレームの特徴量を用いる必要がある。すなわち,MFCCパラメータの応答が,1フレームだけでなく複数フレームにまたがってくる。 Regarding buzz noise, it has been found that the use of dynamic acoustic features (MFCC delta and delta-delta) as described above significantly improves speech. When such a method is used, it is necessary to use the feature values of a plurality of frames before and after the frame for calculating the feature value of the frame. That is, the response of the MFCC parameter extends over a plurality of frames as well as one frame.
こうした手法で信号処理にウィンドウを用いたりする場合,スペクトル間での,干渉の生じないような属性を維持する必要が生ずる。さもなければ合成音声にひずみが生じてしまうという問題がある。 When a window is used for signal processing by such a method, it is necessary to maintain attributes that do not cause interference between spectra. Otherwise, there is a problem that the synthesized speech is distorted.
それゆえに本発明の目的は,HMMを用いる音声合成装置であって,合成音声波形にひずみが生じることを抑えることが可能な音声合成装置,及びそのためのHMM学習装置を提供することである。 Therefore, an object of the present invention is to provide a speech synthesizer using an HMM, which can suppress the occurrence of distortion in a synthesized speech waveform, and an HMM learning device therefor.
本発明の第1の局面に係る音声合成用の隠れマルコフモデル学習装置は,各々に音素ラベルが付された複数の音声単位を含む音声データベースを記憶するための音声データベース記憶手段と,複数の音声単位の各々から基本周波数を抽出し,基本周波数情報を出力するための基本周波数抽出手段と,複数の音声単位の各々について,所定の音響特徴量を算出するための音響特徴量算出手段とを含む。隠れマルコフモデル学習装置はさらに,所定の音響特徴量の算出のための時間領域のサンプリングと双対をなす,周波数領域のサンプリングを行なうことにより,複数の音声単位の各々について,所定の音響特徴量を角度量に変換するための変換手段と,音声データベースに含まれる複数の音声単位について,基本周波数抽出手段の出力する基本周波数情報,及び,変換手段の出力する角度量に,当該音声単位のラベルが付された学習用データを用い,別々の音素コンテキストに対する隠れマルコフモデルの学習と,音素ラベル列から隠れマルコフモデルのいずれかを選択するための決定木の学習とを行なうための学習手段と,学習手段により学習が行なわれた隠れマルコフモデルと決定木とを記憶するための記憶手段とを含む。 The hidden Markov model learning device for speech synthesis according to the first aspect of the present invention includes a speech database storage means for storing a speech database including a plurality of speech units each having a phoneme label, and a plurality of speech A fundamental frequency extracting means for extracting a fundamental frequency from each unit and outputting fundamental frequency information; and an acoustic feature quantity calculating means for calculating a predetermined acoustic feature quantity for each of a plurality of speech units. . The hidden Markov model learning device further performs a frequency domain sampling that is dual with a time domain sampling for calculating a predetermined acoustic feature, thereby obtaining a predetermined acoustic feature for each of a plurality of speech units. For a plurality of speech units included in the speech database and the conversion means for converting into angle quantities, the fundamental frequency information output by the fundamental frequency extraction means, and the angle quantities output by the conversion means are labeled with the speech units. Learning means for learning hidden Markov models for different phoneme contexts and learning decision trees for selecting either hidden Markov models from phoneme label sequences, using the attached learning data, and learning Storage means for storing the hidden Markov model learned by the means and the decision tree.
好ましくは,所定の音響特徴量はMFCCを含む。音響特徴量算出手段は,複数の音声単位の各々について,所定次元までのMFCCを算出するための手段を含んでもよい。 Preferably, the predetermined acoustic feature amount includes MFCC. The acoustic feature quantity calculating means may include means for calculating an MFCC up to a predetermined dimension for each of a plurality of sound units.
本発明の第2の局面に係る音声合成装置は,上記した音声合成用の隠れマルコフモデル学習装置のいずれかにより学習が行なわれた隠れマルコフモデルを用い,入力されるテキストに対する音声を合成するための音声合成装置である。この音声合成装置は,テキストに対しテキスト解析を行なうことにより,音素ラベル列を出力するためのテキスト解析手段と,テキスト解析手段により出力される音素ラベル列を用い,各音素ラベルについて,決定木を用いて隠れマルコフモデルを選択し,当該隠れマルコフモデルに基づいて,基本周波数情報と角度量とを生成するためのパラメータ生成手段と,パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段とを含む。音声合成装置はさらに,パラメータ生成手段により生成された角度量に対し,変換手段による変換の逆変換に相当する変換を行なって所定の音響特徴量を算出するための逆変換手段と,逆変換手段により変換された音響特徴量に基づくフィルタ特性により,音源生成手段により生成された音源信号を変調するための合成フィルタとを含んでもよい。 A speech synthesizer according to the second aspect of the present invention uses a hidden Markov model learned by any of the above-described hidden Markov model learning devices for speech synthesis to synthesize speech for input text. This is a speech synthesizer. This speech synthesizer uses a text analysis means for outputting a phoneme label string by performing text analysis on the text and a phoneme label string output by the text analysis means, and determines a decision tree for each phoneme label. To select a hidden Markov model, and based on the hidden Markov model, parameter generation means for generating fundamental frequency information and angle amount, and a sound source signal based on the fundamental frequency information generated by the parameter generation means Sound source generating means for generating. The speech synthesizer further includes an inverse conversion unit for performing a conversion corresponding to the inverse conversion of the conversion by the conversion unit on the angular amount generated by the parameter generation unit, and calculating a predetermined acoustic feature amount, and an inverse conversion unit And a synthesis filter for modulating the sound source signal generated by the sound source generation means, based on the filter characteristics based on the acoustic feature value converted by.
以下の説明及び図面では,同一の部品には同一の参照番号を付してある。したがって,それらについての詳細な説明は繰返さない。 In the following description and drawings, the same parts are denoted by the same reference numerals. Therefore, detailed description thereof will not be repeated.
[構成]
本実施の形態では,合成音声のひずみを軽減するために,音声信号の帯域幅を広げることなくMFCCパラメータを整形する,帯域内整形を用いる。そのため,本実施の形態では,デュアルサンプリングを用いる。本明細書でのデュアルサンプリングは,時間領域と周波数領域との双方でのサンプリングを意味する。このデュアルサンプリングに基づき,音声パラメータのデュアル量子化を行なう。さらに,MFCCパラメータに対し,アンチ・エイリアシング・フィルタリング及び平滑化による帯域内波形整形(帯域を増加させない)を行なう。
[Constitution]
In this embodiment, in order to reduce the distortion of the synthesized speech, in-band shaping is used in which the MFCC parameters are shaped without increasing the bandwidth of the speech signal. Therefore, in this embodiment, dual sampling is used. Dual sampling in this specification means sampling in both time domain and frequency domain. Based on this dual sampling, voice parameters are dual quantized. Further, in-band waveform shaping (not increasing the band) by anti-aliasing filtering and smoothing is performed on the MFCC parameters.
図2を参照して,本発明の1実施の形態に係る音声合成システム100は,図1に示す学習装置50に相当する学習装置110と,学習装置110による学習が行なわれたHMMを記憶するためのHMM記憶部112と,図1に示す音声合成装置56に相当する音声合成装置116とを含む。
Referring to FIG. 2,
学習装置110が学習装置50(図1参照)と異なるのは,図1のMFCC算出部64の後に,各フレームについてMFCC算出部64により算出されたMFCCパラメータΛを,本実施の形態の特徴の1つである,周波数領域のパラメータΘに変換するMFCC変換部120をさらに含む点と,図1のHMM学習用データ記憶部52に代えて,F0抽出処理部62により各フレームについて抽出されたF0と,MFCC変換部120により各フレームについて算出されたパラメータΘとを,そのフレームのラベルとともに1組にしてHMM学習用データとして記憶するHMM学習用データ記憶部122を含む点と,図1のHMM学習部68に代えて,このHMM学習用データ記憶部122に記憶されたHMM学習用データを用いて音声合成用のHMMの学習を行なう,HMM学習部68と同様のHTSツールキット(参考文献1)からなるHMM学習部124を含む点とである。学習の終わった後のHMMは,図1のHMM記憶部52に代えてHMM記憶部112に記憶されるが,HMM記憶部112とHMM記憶部52とは,内部に記憶されるHMMのパラメータが異なるだけであって,そのハードウェアは同じである。
The
図2に示す音声合成装置116が図1に示す音声合成装置56と異なるのは,パラメータ生成部84に代えて,音素ラベル列82を受けてHMM記憶部112から各音素ラベル及び韻律情報に最も適合したHMMを選択し,F0の系列とパラメータΘの系列とを出力するパラメータ生成部134を含む点と,パラメータ生成部134から出力されるパラメータΘの系列を受け,図2のMFCC変換部120で行なわれる処理と逆の関係になる処理を行なってMFCCの系列を出力し,合成フィルタ88に設定するMFCC逆変換部136を含む点とである。
The
以下,MFCC変換部120で行なわれるパラメータΘの計算,及びMFCC逆変換部136で行なわれるパラメータΘからMFCCパラメータΛを計算する手法とその考え方について説明する。MFCC変換部120での処理はデュアルサンプリングとデュアル量子化に相当する。
Hereinafter, a method of calculating the MFCC parameter Λ from the parameter Θ performed by the
基本的に,デュアルサンプリングは時間とともに変化する関数について,正確な再構成を与えることができる。デュアル量子化では,デュアルサンプリングの結果に基づき,音声パラメータが時間及び周波数の双方によりエンコードされる。デュアル量子化により,周波数の帯域制限について多少のゆとりが得られる。帯域内整形によって,ノイズ及び発話の流動性による合成音声のひずみが小さくなり,HMMによる合成音声の音質が改善される。 Basically, dual sampling can give an accurate reconstruction of functions that change over time. In dual quantization, speech parameters are encoded in both time and frequency based on the result of dual sampling. Dual quantization provides some room for frequency bandwidth limitations. In-band shaping reduces distortion of synthesized speech due to noise and utterance fluidity, and improves the quality of synthesized speech by HMM.
デュアルサンプリングとは,帯域制限された信号を時間と周波数領域との双方でサンプリングすることを意味する。各サンプリング点でのサンプルの対は互いにコヒーレントである。 Dual sampling means sampling a band-limited signal in both time and frequency domain. The sample pair at each sampling point is coherent with each other.
デュアルサンプリングは以下のように表すことができる。 Dual sampling can be expressed as:
ζnはさらに以下の式により単位円回りの回転角αn(ラジアン)に変換される。 ζ n is further converted into a rotation angle α n (radian) around the unit circle by the following equation.
したがって,n番目のサンプリング点λn(0<λn<1)は角αn(0<αn<wc,ただし本実施の形態ではwc=0.33325ラジアンに固定)に対して逆順で双対をなす。さらに,以下の式によりゼロ点αzを中心としてαnを折り返したθnを計算することにより,θnはλnと同じ順番を持つ変数となる。 Therefore, the nth sampling point λ n (0 <λ n <1) is in reverse order with respect to the angle α n (0 <αn <w c , but fixed to w c = 0.33325 radians in this embodiment). Make a dual. Further, by calculating the θn which folded alpha n around the zero point alpha z according to the following equation, theta n is the variable with the same order as the lambda n.
MFCCに関するデュアル量子化は以下のように表すことができる。k次元目のMFCC係数をΛkとし,MFCCΛkが最小値Λkminから最大値Λkmax(k=0,…,K:Kは最大次元の次元番号)の間の範囲にあるものとする。 Dual quantization for MFCC can be expressed as: The MFCC coefficients k-th dimension and lambda k, the maximum value Λ kmax MFCCΛ k is the minimum value Λ kmin (k = 0, ... , K: K is the maximum dimension of the dimension number) shall be in the range of between.
ここで,Λkを再サンプリングし,次の式により時間領域で量子化する。 Here, Λ k is resampled and quantized in the time domain by the following equation.
θnkがλnkとデュアルであって,θmとλnとの間の関係がルックアップテーブル化されているものとする。Λkに関する周波数領域のデュアル関数は以下の式により表される。 Assume that θ nk is dual with λ nk and that the relationship between θ m and λ n is looked up as a look-up table. The frequency domain dual function for Λ k is expressed by the following equation.
時間領域で(可能なら)位相を持つΛkにより表される情報は,1次元(線形)空間ではなく,3/2次元(円形)空間内に存在する。大雑把に言えば,ΛkからΘkへの写像は,幾何学的には,λnkにより表される3/2次元の外部平面から,θnkにより表される2次元の球面への写像であるということができる。周波数領域での再サンプリングにより,情報は,位相を考えなければ球面Θk上にランダムに分配される。Λkに位相情報が含まれない場合,位相情報は考える必要がないと想定できる。 Information represented by Λ k with phase (if possible) in the time domain exists in 3 / 2-dimensional (circular) space, not in 1-dimensional (linear) space. Roughly speaking, the mapping from Λ k to Θ k is geometrically a mapping from a 3/2 dimensional external plane represented by λ nk to a 2 dimensional sphere represented by θ nk. It can be said that there is. By re-sampling in the frequency domain, the information is randomly distributed on the sphere Θ k if no phase is considered. When phase information is not included in Λk, it can be assumed that phase information need not be considered.
帯域内波形整形は,本実施の形態ではHMMの学習と発話パラメータの生成とに密接に関与している。基本的には,HMMによる音声の生成にこれらの技術を組込む手続は以下を含む。 In-band waveform shaping is closely related to HMM learning and speech parameter generation in this embodiment. Basically, the procedures for incorporating these techniques into the generation of speech by HMM include:
〈パラメータ化〉
MFCCを角度量に変換する。
<Parameterization>
Convert MFCC into angular quantities.
発話コーパス中の全ての発話について,例えばK=39,フレームシフト=5ミリ秒としてMFCCを計算する。MFCCをΛkiで示す(k=0,…,K,i=0,…,Iとする。Iは発話のフレーム数を指す。)。MFCCの集合からΛkmax及びΛkminを見つけ,Λkiの全てをΘkiにマッピングする。 For all utterances in the utterance corpus, for example, MFCC is calculated with K = 39 and frame shift = 5 milliseconds. MFCC is denoted by Λ ki (k = 0,..., K, i = 0,..., I. I indicates the number of frames of speech). Find Λ kmax and Λ kmin from the set of MFCCs and map all of Λ ki to Θ ki .
〈HMMの学習〉
MFCCを残りの帯域分に拡張し,最尤基準によってデコードを行なう。この作業にはHTSツールキット(参考文献1)を用いるが,Λkiの代わりにγe×Θkiを用いることにより帯域内整形のために帯域を1.4倍に拡張する。
<Learning HMM>
The MFCC is extended to the remaining bandwidth, and decoding is performed according to the maximum likelihood criterion. The HTS toolkit (reference document 1) is used for this work, but the band is expanded to 1.4 times for in-band shaping by using γ e × Θ ki instead of Λ ki .
〈音声合成〉
アンチ・エイリアシングと平滑化とを行なう。GV(^Θkjで示す。ただしk=0,…,K,J=0,…,J。Jは発話中のフレーム数。)まずΘkjをαkjに変換する。αkj>wcであればαkj=wcとしてエイリアシングの削減を図る。その後,αkjを{αn,n=0,…,N}中のいずれかのαnkjに量子化する。この量子化には,最小誤差基準を用いる。さらに,αnkjにγcを乗算することにより帯域を1.2倍して平滑化し,その結果を再度量子化する。最後に,αnkjをΛnkjにマッピングすることによりMFCCを計算し直す。このマッピングが1対多の場合には,本実施の形態では写像のうちの任意の1つをランダムに選択する。この結果,音声合成のためのMFCCパラメータとしてΛkj,k=0,…,K及びj=0,…,Jが得られる。
<Speech synthesis>
Perform anti-aliasing and smoothing. GV (indicated by ^ Θ kj, where k = 0,..., K, J = 0,..., J. J is the number of frames in speech.) First, Θ kj is converted to α kj . If α kj > w c , α kj = w c is set to reduce aliasing. Thereafter, α kj is quantized to any α nkj in {α n , n = 0,..., N}. A minimum error criterion is used for this quantization. Further, α nkj is multiplied by γ c to smooth the band by 1.2, and the result is quantized again. Finally, recalculate the MFCC by mapping α nkj to Λ nkj . When this mapping is one-to-many, in this embodiment, an arbitrary one of the maps is selected at random. As a result, Λ kj , k = 0,..., K and j = 0 ,.
〈学習後のHMM〉
HMM学習用データ記憶部122に記憶される学習後のHMMについて図3を参照して説明する。本実施の形態では,HMMはコンテキスト依存の3状態HMMである。例えば中間の音素として/a/を含むHMM140,142及び144等を考える。これらは,2番目の音素160として/a/を持つが,先頭の音素としてそれぞれc11,c21及びc31を持ち,3番目の音素としてそれぞれc12,c22及びc32を持つものとする。これ以外にも同様に2番目の音素に/a/を持つ3状態HMMは多数存在し得るが,ここでは図の理解を容易にするためにこの3つのHMM140,142及び144のみを示す。
<HMM after learning>
The learned HMM stored in the HMM learning
2番目の音素160として/a/を持つHMMのうち,いずれかを選択するために,HMMに関する決定木162の学習が行なわれる。この決定木162は,例えば複数のノード180〜200を持つ。これらのうち,ノード184,188,190,196,198及び200がリーフノードであり,HMM140〜144等のいずれかに対応する。決定木162の各ノードには2値の質問が対応付けられており,音声の合成条件(韻律情報を持つラベル列により定められる。)に応じて各ノードの質問に対して答えながら決定木162をルートノード180からたどっていき,到達したリーフノードに対応するHMMを選択する。
In order to select one of the HMMs having / a / as the
[動作]
図2に示した音声合成システム100は以下のように動作する。音声データベース60には,音声データベースとして多数の発話データが準備される。これらの発話データはいずれもフレーム化され,音素ラベルが付されている。F0抽出処理部62は,音声データベース60内の各フレームからF0を抽出して出力する。MFCC算出部64は各フレームからMFCCパラメータΛkiを算出しMFCC変換部120に与える。MFCC変換部120は,上記したとおりMFCCの集合からΛkmax及びΛkminを見つけ,Λkiの全てをΘkiにマッピングする。
[Operation]
The
各フレームについて算出されたF0及びΘkiには,そのフレームの音素ラベルが付され,HMM学習用データ記憶部122に記憶される。
The F0 and Θ ki calculated for each frame are assigned the phoneme label of that frame and stored in the HMM learning
HMM学習部124の実体は,上記したとおりHMM学習部68同様のHTSツールキットであって,Θkiを用いてHMM記憶部112内のHMMの学習を行なう。全ての発話データについてHMMの学習が終了すると,HMM記憶部112を用いて音声の合成を行なうことが可能になる。
The entity of the HMM learning
音声合成では,入力テキスト54が与えられると,音声合成装置116のテキスト解析部80は入力テキスト54に対するテキスト解析を行ない,韻律情報が付された音素ラベル列82をパラメータ生成部134に与える。パラメータ生成部134は,与えられた韻律情報付の音素ラベル列を用い,HMM記憶部112に格納された決定木162(図3参照)をたどることで各音素に対応するHMMを選択し,HMMのシーケンスを出力する。このシーケンスに対応してF0のシーケンスも得られ,音源生成部86に与えられる。HMMのシーケンスから得られたΘkjの各々をαkjに変換する。αkj>wcであればαkj=wcとしてエイリアシングの削減を図る。さらにαkjを{αn,n=0,…,N}中のいずれかのαnkjに量子化する。この量子化には,最小誤差基準を用いる。さらに,αnkjにγcを乗算して平滑化し,その結果を再度量子化する。最後に,αnkjをΛnkjにマッピングすることによりMFCCを計算し直す。このマッピングが1対多の場合には,写像のうちの任意の1つをランダムに選択する。この結果,MFCCパラメータとしてΛkjのシーケンス(k=0,…,K及びj=0,…,J)が得られる。このシーケンスを構成するMFCCパラメータΛkiの各々により合成フィルタ88を各フレームについて設定し,当該フレームについてのF0に基づいて音源生成部86が生成する音源信号を合成フィルタ88でフィルタリングすることにより,合成音声が得られる。
In speech synthesis, when
[実施の形態の効果]
以上のように本実施の形態によれば,時間及び周波数領域におけるデュアルサンプリング点でのサンプルはコヒーレントである。いずれか一方に何らかの変化があれば,他方にもそれに対応した変化が生ずる。これは,共鳴曲線と平衡条件とによる。すなわち,ζの値は,入力λと出力λとの値が互いに等しくなるように選ばれる。この結果,デュアルサンプリングによって,音声パラメータを時間及び周波数領域の双方で量子化するための基本的枠組が得られ,双方の領域で音声パラメータを処理することが可能になる。
[Effect of the embodiment]
As described above, according to the present embodiment, the samples at the dual sampling points in the time and frequency domains are coherent. If there is some change in either one, the corresponding change will occur in the other. This depends on the resonance curve and the equilibrium conditions. That is, the value of ζ is selected so that the values of the input λ and the output λ are equal to each other. As a result, the dual sampling provides a basic framework for quantizing speech parameters in both the time and frequency domains, and allows speech parameters to be processed in both domains.
第2に,周波数領域では処理対象は円であるため,「振幅」は一定であり,したがって統計的平均値は線形である角度量によって表される。 Second, since the object to be processed is a circle in the frequency domain, the “amplitude” is constant, and thus the statistical average value is represented by an angular amount that is linear.
第3に,MFCCの量子化は基本的には,デュアルサンプリングにより定義される106個の位置のうち,0.3535×106個の位置を抽出し,必要であればさらに内挿を行なう余地を残している。利用できない位相情報のために生ずるこうした余地は,HMMの学習を行なう際には,Θkを統計的に平均することにより生ずるノイズに対処するために好適である。ただし,このノイズがガウシアンノイズと同じ統計的特徴を示すものと想定した場合であるが。人間の聴覚が,位相のある程度の量には不感であることはよく知られている。したがって音声パラメータを効率的に統計的分類及び平均化するための手段が得られる。 Third, the MFCC quantization basically extracts 0.3535 × 10 6 positions out of 10 6 positions defined by dual sampling, and performs further interpolation if necessary. There is room for it. Such room for phase information that is not available is suitable for dealing with noise caused by statistically averaging Θ k when learning HMMs. However, it is assumed that this noise exhibits the same statistical characteristics as Gaussian noise. It is well known that human hearing is insensitive to a certain amount of phase. Thus, a means for efficiently statistically classifying and averaging speech parameters is obtained.
第4に,ボコーダは通常,ある周波数のグループ,特に高い周波数のグループをかなりの程度までまとめることを利用する。周波数領域でのデュアルサンプリングはこの要求に合致する。高い周波数の圧縮の程度は,低い周波数と比較して約2.5倍である。 Fourth, vocoders typically make use of grouping certain frequency groups, particularly high frequency groups, to a significant degree. Dual sampling in the frequency domain meets this requirement. The degree of compression of the high frequency is about 2.5 times that of the low frequency.
最後に,パラメータΘkに線形係数γを乗ずることにより,デュアルサンプリングの効用によって時間領域での群遅延を可能にするための簡便な手段が得られる。 Finally, by multiplying the parameter Θ k by the linear coefficient γ, a simple means for enabling group delay in the time domain by using the dual sampling is obtained.
[利用例]
少数の女性話者によるATR503データセットを用い,上記実施の形態に係る方法を従来の方法と比較する実験を行なった。結果を図4に示す。この図4は,MFCCの応答を1より大きなフレームに拡大したときのMFCCの帯域内整形の結果を示す。この結果は,本発明におけるリーフノード数が従来法より全般的に少なく,音響的特徴の多様性が縮小されていることを示している。このことは,上記実施の形態に係る方法により,話者に固有の特徴と普遍的な特徴が良好に分離された結果,HMM学習に際して話者に固有の特徴が被る平均化が改善されたことを意味する。
[Usage example]
Using the ATR503 data set by a small number of female speakers, an experiment was conducted comparing the method according to the above embodiment with the conventional method. The results are shown in FIG. FIG. 4 shows the result of in-band shaping of the MFCC when the MFCC response is expanded to a frame larger than 1. This result shows that the number of leaf nodes in the present invention is generally smaller than that of the conventional method, and the diversity of acoustic features is reduced. This is because, as a result of the method according to the above embodiment, the speaker-specific features and the universal features are well separated, and the averaging that the speakers-specific features are subjected to during HMM learning has been improved. Means.
上記方法によって合成された音声を発明者達が聞いて評価した結果,従来の方法と比較して本実施の形態によってバズノイズがかなり低減され,HMMによる合成音声の音質が改善されることが確認された。 As a result of the inventors listening and evaluating the speech synthesized by the above method, it has been confirmed that the buzz noise is considerably reduced by the present embodiment and the sound quality of the synthesized speech by the HMM is improved as compared with the conventional method. It was.
今回開示された実施の形態は単に例示であって,本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.
[参考文献]
[1]K.Tokuda,H.Zen,J.Yamagishi,T.Masuko,S.Sako,A.B.Black,T.Nose,“The HMM−Based Speech Synthesis System(HTS) Version 2.1.”[Online]。URL:http://hts.sp.nitech.ac.jp/.
[References]
[1] K. Tokuda, H .; Zen, J. et al. Yamagishi, T .; Masuko, S .; Sako, A .; B. Black, T.M. Nose, “The HMM-Based Speech Synthesis System (HTS) Version 2.1.” [Online]. URL: http://hts.sp.nitech.ac.jp/.
40,100 音声合成システム
50,110 学習装置
52,112 HMM記憶部
54 入力テキスト
56,116 音声合成装置
60 音声データベース
62 F0抽出処理部
64 MFCC算出部
66,122 HMM学習用データ記憶部
68,124 HMM学習部
80 テキスト解析部
82 音素ラベル列
84,134 パラメータ生成部
86 音源生成部
88 合成フィルタ
136 MFCC逆変換部
40, 100
Claims (3)
前記複数の音声単位の各々から基本周波数を抽出し,基本周波数情報を出力するための基本周波数抽出手段と,
前記複数の音声単位の各々について,所定の音響特徴量を算出するための音響特徴量算出手段と,
前記所定の音響特徴量の算出のための時間領域のサンプリングと双対をなす,周波数領域のサンプリングを行なうことにより,前記複数の音声単位の各々について,前記所定の音響特徴量を角度量に変換するための変換手段と,
前記音声データベースに含まれる前記複数の音声単位について,前記基本周波数抽出手段の出力する基本周波数情報,及び,前記変換手段の出力する前記角度量に,当該音声単位のラベルが付された学習用データを用い,別々の音素コンテキストに対する隠れマルコフモデルの学習と,音素ラベル列から前記隠れマルコフモデルのいずれかを選択するための決定木の学習とを行なうための学習手段と,
前記学習手段により学習が行なわれた前記隠れマルコフモデルと前記決定木とを記憶するための記憶手段とを含む,音声合成用の隠れマルコフモデルの学習装置。 Speech database storage means for storing a speech database including a plurality of speech units each having a phoneme label;
A fundamental frequency extracting means for extracting a fundamental frequency from each of the plurality of voice units and outputting fundamental frequency information;
Acoustic feature amount calculating means for calculating a predetermined acoustic feature amount for each of the plurality of speech units;
The predetermined acoustic feature quantity is converted into an angular quantity for each of the plurality of speech units by performing frequency domain sampling that is dual with the time domain sampling for calculating the predetermined acoustic feature quantity. Conversion means for,
Learning data in which the fundamental frequency information output from the fundamental frequency extraction unit and the angular amount output from the conversion unit are labeled with the unit of the speech unit for the plurality of speech units included in the speech database. Learning means for learning a hidden Markov model for different phoneme contexts and learning a decision tree for selecting one of the hidden Markov models from a phoneme label sequence;
An apparatus for learning a hidden Markov model for speech synthesis, comprising: a storage means for storing the hidden Markov model learned by the learning means and the decision tree.
前記音響特徴量算出手段は,前記複数の音声単位の各々について,所定次元までのメル周波数ケプストラム係数を算出するための手段を含む,請求項1に記載の,音声合成用の隠れマルコフモデル学習装置。 The predetermined acoustic feature amount includes a mel frequency cepstrum coefficient,
2. The hidden Markov model learning device for speech synthesis according to claim 1, wherein the acoustic feature amount calculating means includes means for calculating a mel frequency cepstrum coefficient up to a predetermined dimension for each of the plurality of speech units. .
前記テキストに対しテキスト解析を行なうことにより,音素ラベル列を出力するためのテキスト解析手段と,
前記テキスト解析手段により出力される音素ラベル列を用い,各音素ラベルについて,前記決定木を用いて隠れマルコフモデルを選択し,当該隠れマルコフモデルに基づいて,基本周波数情報と前記角度量とを生成するためのパラメータ生成手段と,
前記パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段と,
前記パラメータ生成手段により生成された前記角度量に対し,前記変換手段による変換の逆変換に相当する変換を行なって前記所定の音響特徴量を算出するための逆変換手段と,
前記逆変換手段により変換された音響特徴量に基づくフィルタ特性により,前記音源生成手段により生成された前記音源信号を変調するための合成フィルタとを含む,音声合成装置。 A speech synthesizer for synthesizing speech for input text using a hidden Markov model learned by a speech synthesis hidden Markov model learning device according to claim 1 or 2,
Text analysis means for outputting a phoneme label string by performing text analysis on the text;
Using the phoneme label sequence output by the text analysis means, for each phoneme label, select a hidden Markov model using the decision tree, and generate fundamental frequency information and the angular amount based on the hidden Markov model. Parameter generation means for
Sound source generating means for generating a sound source signal based on the fundamental frequency information generated by the parameter generating means;
An inverse conversion means for calculating the predetermined acoustic feature quantity by performing a conversion corresponding to an inverse conversion of the conversion by the conversion means on the angle amount generated by the parameter generation means;
A speech synthesizer comprising: a synthesis filter for modulating the sound source signal generated by the sound source generation means based on a filter characteristic based on the acoustic feature value converted by the inverse conversion means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011194907A JP5717097B2 (en) | 2011-09-07 | 2011-09-07 | Hidden Markov model learning device and speech synthesizer for speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011194907A JP5717097B2 (en) | 2011-09-07 | 2011-09-07 | Hidden Markov model learning device and speech synthesizer for speech synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013057735A JP2013057735A (en) | 2013-03-28 |
JP5717097B2 true JP5717097B2 (en) | 2015-05-13 |
Family
ID=48133682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011194907A Active JP5717097B2 (en) | 2011-09-07 | 2011-09-07 | Hidden Markov model learning device and speech synthesizer for speech synthesis |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5717097B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108346423A (en) * | 2017-01-23 | 2018-07-31 | 北京搜狗科技发展有限公司 | The treating method and apparatus of phonetic synthesis model |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6293912B2 (en) | 2014-09-19 | 2018-03-14 | 株式会社東芝 | Speech synthesis apparatus, speech synthesis method and program |
KR102051235B1 (en) * | 2015-06-11 | 2019-12-02 | 인터랙티브 인텔리전스 그룹, 인코포레이티드 | System and method for outlier identification to remove poor alignments in speech synthesis |
JP6137708B2 (en) * | 2015-08-06 | 2017-05-31 | 国立研究開発法人情報通信研究機構 | Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program |
JP6495781B2 (en) * | 2015-08-19 | 2019-04-03 | 日本電信電話株式会社 | Voice parameter generation device, voice parameter generation method, program |
CN109300339A (en) * | 2018-11-19 | 2019-02-01 | 王泓懿 | A kind of exercising method and system of Oral English Practice |
CN109671440B (en) * | 2019-01-09 | 2020-08-14 | 四川虹微技术有限公司 | Method, device, server and storage medium for simulating audio distortion |
CN112420070A (en) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | Automatic labeling method and device, electronic equipment and computer readable storage medium |
CN110556093B (en) * | 2019-09-17 | 2021-12-10 | 浙江同花顺智富软件有限公司 | Voice marking method and system |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002539482A (en) * | 1999-03-08 | 2002-11-19 | シーメンス アクチエンゲゼルシヤフト | Method and apparatus for determining sample speech |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
JP3973492B2 (en) * | 2002-06-04 | 2007-09-12 | 日本電信電話株式会社 | Speech synthesis method and apparatus thereof, program, and recording medium recording the program |
JP5228283B2 (en) * | 2006-04-19 | 2013-07-03 | カシオ計算機株式会社 | Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program |
JP5238205B2 (en) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | Speech synthesis system, program and method |
JP2011028131A (en) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | Speech synthesis device |
-
2011
- 2011-09-07 JP JP2011194907A patent/JP5717097B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108346423A (en) * | 2017-01-23 | 2018-07-31 | 北京搜狗科技发展有限公司 | The treating method and apparatus of phonetic synthesis model |
CN108346423B (en) * | 2017-01-23 | 2021-08-20 | 北京搜狗科技发展有限公司 | Method and device for processing speech synthesis model |
Also Published As
Publication number | Publication date |
---|---|
JP2013057735A (en) | 2013-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5717097B2 (en) | Hidden Markov model learning device and speech synthesizer for speech synthesis | |
KR102158743B1 (en) | Data augmentation method for spontaneous speech recognition | |
Erro et al. | Voice conversion based on weighted frequency warping | |
US8234110B2 (en) | Voice conversion method and system | |
JP4294724B2 (en) | Speech separation device, speech synthesis device, and voice quality conversion device | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
JPH10307599A (en) | Waveform interpolating voice coding using spline | |
WO2005117517A2 (en) | Neuroevolution-based artificial bandwidth expansion of telephone band speech | |
US11393452B2 (en) | Device for learning speech conversion, and device, method, and program for converting speech | |
JPH09101798A (en) | Method and device for expanding voice band | |
JP4516157B2 (en) | Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
GB2546981A (en) | Noise compensation in speaker-adaptive systems | |
Gu et al. | Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension. | |
JP2019008206A (en) | Voice band extension device, voice band extension statistical model learning device and program thereof | |
CN108369803B (en) | Method for forming an excitation signal for a parametric speech synthesis system based on a glottal pulse model | |
JP6821970B2 (en) | Speech synthesizer and speech synthesizer | |
JPH10319996A (en) | Efficient decomposition of noise and periodic signal waveform in waveform interpolation | |
Kornagel | Techniques for artificial bandwidth extension of telephone speech | |
Nercessian | Differentiable world synthesizer-based neural vocoder with application to end-to-end audio style transfer | |
JP2006521576A (en) | Method for analyzing fundamental frequency information, and voice conversion method and system implementing this analysis method | |
Giacobello et al. | Stable 1-norm error minimization based linear predictors for speech modeling | |
US20170263239A1 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP2017520016A (en) | Excitation signal generation method of glottal pulse model based on parametric speech synthesis system | |
JP6542823B2 (en) | Acoustic model learning device, speech synthesizer, method thereof and program | |
JPH08305396A (en) | Device and method for expanding voice band |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140717 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5717097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |