JP5717097B2 - Hidden Markov model learning device and speech synthesizer for speech synthesis - Google Patents

Hidden Markov model learning device and speech synthesizer for speech synthesis Download PDF

Info

Publication number
JP5717097B2
JP5717097B2 JP2011194907A JP2011194907A JP5717097B2 JP 5717097 B2 JP5717097 B2 JP 5717097B2 JP 2011194907 A JP2011194907 A JP 2011194907A JP 2011194907 A JP2011194907 A JP 2011194907A JP 5717097 B2 JP5717097 B2 JP 5717097B2
Authority
JP
Japan
Prior art keywords
speech
learning
hidden markov
hmm
markov model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011194907A
Other languages
Japanese (ja)
Other versions
JP2013057735A (en
Inventor
晋富 倪
晋富 倪
恒 河井
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2011194907A priority Critical patent/JP5717097B2/en
Publication of JP2013057735A publication Critical patent/JP2013057735A/en
Application granted granted Critical
Publication of JP5717097B2 publication Critical patent/JP5717097B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は音声合成に関し,特に,HMM(隠れマルコフモデル)を用いて音声合成用フィルタのパラメータを生成するための技術に関する。   The present invention relates to speech synthesis, and more particularly to a technique for generating parameters of a speech synthesis filter using an HMM (Hidden Markov Model).

マン・マシン・インターフェイスの必須技術として,音声認識技術と音声合成技術とがある。音声認識と音声合成とを組み合わせることにより,音声を使うという,人間にとって自然な動作で,複雑な操作指示を必要とする最新の装置を利用できる。   The essential technologies for man-machine interface include speech recognition technology and speech synthesis technology. By combining speech recognition and speech synthesis, it is possible to use the latest devices that use speech and that are natural for humans and require complex operation instructions.

これらの技術のうちでも,音声合成技術に関しては,単に目的のテキストを発声すればよいというわけではなく,より自然な発声を得ることが必要である。そのために様々な方式が提案されている。   Among these technologies, with regard to speech synthesis technology, it is not necessary to simply utter the desired text, but it is necessary to obtain a more natural utterance. Various schemes have been proposed for this purpose.

そうした方式の1つに,HMMを用いるものがある。HMMを用いる音声合成では,予め多数の音声から音声の規則合成用のパラメータを推定するためのHMMを学習しておく。音声合成時には,入力テキストを解析して音素ラベル列を得て,それら音素ラベル列に含まれる各音素を合成するためのフィルタパラメータを上記したHMMから生成する。   One such method uses HMM. In speech synthesis using an HMM, an HMM for estimating speech rule synthesis parameters from a large number of speeches is learned in advance. At the time of speech synthesis, the input text is analyzed to obtain phoneme label strings, and filter parameters for synthesizing each phoneme included in these phoneme label strings are generated from the above HMM.

そのような技術は,例えば特許文献1に開示されている。特許文献1に開示された音声合成装置の基本的構成を図1に示す。   Such a technique is disclosed in Patent Document 1, for example. A basic configuration of the speech synthesizer disclosed in Patent Document 1 is shown in FIG.

図1を参照して,従来の音声合成システム40は,大きく分けて音声合成用のHMMの学習を行なうための学習装置50と,学習装置50を記憶するためのHMM記憶部52と,入力テキスト54が与えられると,入力テキスト54を構成する各音素について,HMM記憶部52に記憶されたHMMを用いて規則合成のための合成フィルタのパラメータと音声生成のためのF0パラメータとを生成して音声を合成するための音声合成装置56とを含む。   Referring to FIG. 1, a conventional speech synthesis system 40 is roughly divided into a learning device 50 for learning a speech synthesis HMM, an HMM storage unit 52 for storing the learning device 50, and an input text. 54, for each phoneme constituting the input text 54, a synthesis filter parameter for rule synthesis and an F0 parameter for speech generation are generated using the HMM stored in the HMM storage unit 52. And a speech synthesizer 56 for synthesizing speech.

学習装置50は,音素別にラベル付けされた多数の音声データを記憶する音声データベース60を含む。音声は所定フレーム長及び所定シフト長でフレーム化されている。学習装置50はさらに,音声データベース60に記憶された音声の各フレームについて基本周波数(F0)を抽出するためのF0抽出処理部62と,音声データベース60に記憶された音声の各フレームについて,音響パラメータとしてMFCC(Mel Frequency Cepstrum Coefficient)を算出するMFCC算出部64と,音声データベース60に記憶された音声データの各フレームについて,音素ラベルと,F0抽出処理部62により抽出されたF0と,MFCC算出部64により算出されたMFCCとを1組にしてHMM学習用データとして記憶するHMM学習用データ記憶部66と,HMM学習用データ記憶部66に記憶されたHMM学習用データを用いてHMMの学習を行なうための,HTSツールキット(参考文献1)を用いるHMM学習部68とを含んでおり,HMM学習部68による学習が行なわれたHMMはHMM記憶部52に記憶される。典型的には,HMM記憶部52に記憶されたHMMは,コンテキスト依存の3音素HMMである。   The learning device 50 includes a speech database 60 that stores a large number of speech data labeled by phoneme. Audio is framed with a predetermined frame length and a predetermined shift length. The learning device 50 further includes an F0 extraction processing unit 62 for extracting a fundamental frequency (F0) for each frame of speech stored in the speech database 60, and an acoustic parameter for each frame of speech stored in the speech database 60. MFCC (Mel Frequency Cepstrum Coefficient) 64, phoneme labels, F0 extracted by the F0 extraction processing unit 62, and MFCC calculation unit for each frame of audio data stored in the audio database 60 HMM learning data storage unit 66 that stores a set of MFCCs calculated by H.64 as HMM learning data, and HMM learning data stored in HMM learning data storage unit 66 HTS two to do Kit contains an HMM learning section 68 using (Reference 1), HMM learning by HMM learning section 68 is performed is stored in the HMM storage 52. Typically, the HMM stored in the HMM storage unit 52 is a context-dependent triphone HMM.

一方,音声合成装置56は,入力テキスト54に対してテキスト解析を行ない,合成音声が持つべき韻律情報等が付された音素ラベル列82を出力するテキスト解析部80と,音素ラベル列82を受け,HMM記憶部52から,音素ラベル列82の各音素について各音素のコンテキスト及び韻律情報に基づいて,最も適合したHMMをHMM記憶部52から選択して接続することにより音声合成用のF0のパラメータ系列及びMFCCのパラメータ系列を生成するパラメータ生成部84と,パラメータ生成部84により生成されたF0のパラメータ系列にしたがい,音源信号を生成する音源生成部86と,パラメータ生成部84により生成されたMFCCのパラメータ系列にしたがい,音源生成部86により生成された音源信号をフィルタリング(変調)することにより,合成音声信号を生成する合成フィルタ88とを含む。   On the other hand, the speech synthesizer 56 performs text analysis on the input text 54 and receives a phoneme label sequence 82 and a text analysis unit 80 that outputs a phoneme label sequence 82 to which prosodic information that the synthesized speech should have is attached. , F0 parameter for speech synthesis by selecting and connecting the most suitable HMM from the HMM storage unit 52 based on the context and prosodic information of each phoneme for each phoneme in the phoneme label sequence 82 from the HMM storage unit 52 In accordance with the F0 parameter sequence generated by the parameter generation unit 84, the parameter generation unit 84 that generates the sequence and the MFCC parameter sequence, and the MFCC generated by the parameter generation unit 84 The sound source signal generated by the sound source generator 86 is filtered according to the parameter series of By grayed (modulation), and a synthesis filter 88 to generate a synthesized speech signal.

このようなHMMを用いた音声合成は高速であるとともに,話者対応が容易で,種々の発話様式にも対応可能な柔軟なものであることが知られている。しかし,HMMを用いた音声合成では,汎化処理のために,合成音声が不自然なものになることも多い。そうした問題を解決するために,音声のダイナミックな特徴量と,系列内変動(global variance)とを用いる方式が提案されている。ダイナミックな特徴量としては,例えばMFCCの差分(デルタ)と,差分の差分(デルタ─デルタ)とが用いられる.   It is known that speech synthesis using such an HMM is fast, flexible for speakers, and flexible for various utterance styles. However, in speech synthesis using HMM, the synthesized speech often becomes unnatural due to generalization processing. In order to solve such a problem, a method using a dynamic feature amount of speech and global variation has been proposed. For example, the MFCC difference (delta) and the difference between the differences (delta-delta) are used as dynamic features.

特開2011−028131号公報JP 2011-02811 A

HMMを用いた音声合成における問題は,以下の3つの局面に分けることができる。   Problems in speech synthesis using HMM can be divided into the following three aspects.

(1)音声パラメータをHMM生成時に統計処理して平滑化してしまうために,音質が劣化してしまうこと。   (1) Since the voice parameters are statistically processed and smoothed when the HMM is generated, the sound quality is deteriorated.

(2)種々の話者の音声を用いるため,音声の変化がノイズとして作用し,音質が劣化すること。   (2) Since the voices of various speakers are used, the voice change acts as noise and the sound quality deteriorates.

(3)定型化されていない音声収録環境で,種々の話者の種々の発話スタイルの音声をHMMの学習に用いるために合成音声にひずみが生じること。   (3) In a non-standardized voice recording environment, synthesized voices are distorted because voices of different utterance styles of different speakers are used for HMM learning.

第1の局面については,MFCCパラメータに振幅だけでなく位相も含ませることが必要であることが知られている。しかし,通常はそうした位相に関する情報は利用できない。発話の特徴量を生成するという観点からは,位相情報を持たないMFCCパラメータは,厳密には非線形パラメータと考えるべきである。したがって,種々の位相のMFCCパラメータをHMM学習時に統計処理し平均化してしまうことにより,合成音声にひずみが生じることになる。そうしたひずみはバズノイズを生じさせる。   As for the first aspect, it is known that it is necessary to include not only the amplitude but also the phase in the MFCC parameter. However, information about such phases is usually not available. Strictly speaking, the MFCC parameter having no phase information should be considered as a non-linear parameter from the viewpoint of generating the feature amount of the utterance. Accordingly, the MFCC parameters of various phases are statistically processed and averaged during HMM learning, so that the synthesized speech is distorted. Such distortion causes buzz noise.

第2の局面に関しては,発話の変化しやすさは,ノイズの発生源の1つと考えることができる。   Regarding the second aspect, the susceptibility to utterance change can be considered as one of the sources of noise.

第3の局面は,エキスパートでないユーザが音声合成を利用してコミュニケーションをとる上では重大な問題である。   The third aspect is a serious problem for users who are not experts to communicate using speech synthesis.

バズノイズについていうと,上記したようにダイナミックな音響特徴量(MFCCのデルタ及びデルタ−デルタ)を用いることでかなり音声が改善されることが分かってきた。こうした手法を用いると,あるフレームの特徴量の計算に,そのフレームの前後の複数フレームの特徴量を用いる必要がある。すなわち,MFCCパラメータの応答が,1フレームだけでなく複数フレームにまたがってくる。   Regarding buzz noise, it has been found that the use of dynamic acoustic features (MFCC delta and delta-delta) as described above significantly improves speech. When such a method is used, it is necessary to use the feature values of a plurality of frames before and after the frame for calculating the feature value of the frame. That is, the response of the MFCC parameter extends over a plurality of frames as well as one frame.

こうした手法で信号処理にウィンドウを用いたりする場合,スペクトル間での,干渉の生じないような属性を維持する必要が生ずる。さもなければ合成音声にひずみが生じてしまうという問題がある。   When a window is used for signal processing by such a method, it is necessary to maintain attributes that do not cause interference between spectra. Otherwise, there is a problem that the synthesized speech is distorted.

それゆえに本発明の目的は,HMMを用いる音声合成装置であって,合成音声波形にひずみが生じることを抑えることが可能な音声合成装置,及びそのためのHMM学習装置を提供することである。   Therefore, an object of the present invention is to provide a speech synthesizer using an HMM, which can suppress the occurrence of distortion in a synthesized speech waveform, and an HMM learning device therefor.

本発明の第1の局面に係る音声合成用の隠れマルコフモデル学習装置は,各々に音素ラベルが付された複数の音声単位を含む音声データベースを記憶するための音声データベース記憶手段と,複数の音声単位の各々から基本周波数を抽出し,基本周波数情報を出力するための基本周波数抽出手段と,複数の音声単位の各々について,所定の音響特徴量を算出するための音響特徴量算出手段とを含む。隠れマルコフモデル学習装置はさらに,所定の音響特徴量の算出のための時間領域のサンプリングと双対をなす,周波数領域のサンプリングを行なうことにより,複数の音声単位の各々について,所定の音響特徴量を角度量に変換するための変換手段と,音声データベースに含まれる複数の音声単位について,基本周波数抽出手段の出力する基本周波数情報,及び,変換手段の出力する角度量に,当該音声単位のラベルが付された学習用データを用い,別々の音素コンテキストに対する隠れマルコフモデルの学習と,音素ラベル列から隠れマルコフモデルのいずれかを選択するための決定木の学習とを行なうための学習手段と,学習手段により学習が行なわれた隠れマルコフモデルと決定木とを記憶するための記憶手段とを含む。   The hidden Markov model learning device for speech synthesis according to the first aspect of the present invention includes a speech database storage means for storing a speech database including a plurality of speech units each having a phoneme label, and a plurality of speech A fundamental frequency extracting means for extracting a fundamental frequency from each unit and outputting fundamental frequency information; and an acoustic feature quantity calculating means for calculating a predetermined acoustic feature quantity for each of a plurality of speech units. . The hidden Markov model learning device further performs a frequency domain sampling that is dual with a time domain sampling for calculating a predetermined acoustic feature, thereby obtaining a predetermined acoustic feature for each of a plurality of speech units. For a plurality of speech units included in the speech database and the conversion means for converting into angle quantities, the fundamental frequency information output by the fundamental frequency extraction means, and the angle quantities output by the conversion means are labeled with the speech units. Learning means for learning hidden Markov models for different phoneme contexts and learning decision trees for selecting either hidden Markov models from phoneme label sequences, using the attached learning data, and learning Storage means for storing the hidden Markov model learned by the means and the decision tree.

好ましくは,所定の音響特徴量はMFCCを含む。音響特徴量算出手段は,複数の音声単位の各々について,所定次元までのMFCCを算出するための手段を含んでもよい。   Preferably, the predetermined acoustic feature amount includes MFCC. The acoustic feature quantity calculating means may include means for calculating an MFCC up to a predetermined dimension for each of a plurality of sound units.

本発明の第2の局面に係る音声合成装置は,上記した音声合成用の隠れマルコフモデル学習装置のいずれかにより学習が行なわれた隠れマルコフモデルを用い,入力されるテキストに対する音声を合成するための音声合成装置である。この音声合成装置は,テキストに対しテキスト解析を行なうことにより,音素ラベル列を出力するためのテキスト解析手段と,テキスト解析手段により出力される音素ラベル列を用い,各音素ラベルについて,決定木を用いて隠れマルコフモデルを選択し,当該隠れマルコフモデルに基づいて,基本周波数情報と角度量とを生成するためのパラメータ生成手段と,パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段とを含む。音声合成装置はさらに,パラメータ生成手段により生成された角度量に対し,変換手段による変換の逆変換に相当する変換を行なって所定の音響特徴量を算出するための逆変換手段と,逆変換手段により変換された音響特徴量に基づくフィルタ特性により,音源生成手段により生成された音源信号を変調するための合成フィルタとを含んでもよい。   A speech synthesizer according to the second aspect of the present invention uses a hidden Markov model learned by any of the above-described hidden Markov model learning devices for speech synthesis to synthesize speech for input text. This is a speech synthesizer. This speech synthesizer uses a text analysis means for outputting a phoneme label string by performing text analysis on the text and a phoneme label string output by the text analysis means, and determines a decision tree for each phoneme label. To select a hidden Markov model, and based on the hidden Markov model, parameter generation means for generating fundamental frequency information and angle amount, and a sound source signal based on the fundamental frequency information generated by the parameter generation means Sound source generating means for generating. The speech synthesizer further includes an inverse conversion unit for performing a conversion corresponding to the inverse conversion of the conversion by the conversion unit on the angular amount generated by the parameter generation unit, and calculating a predetermined acoustic feature amount, and an inverse conversion unit And a synthesis filter for modulating the sound source signal generated by the sound source generation means, based on the filter characteristics based on the acoustic feature value converted by.

従来の音声合成システム40の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the conventional speech synthesis system. 本発明の1実施の形態に係る音声合成システム100の概略構成を示すブロック図である。1 is a block diagram showing a schematic configuration of a speech synthesis system 100 according to an embodiment of the present invention. 図2に示すシステムにおいて,HMMを選択するための決定木の構成を示す模式図である。FIG. 3 is a schematic diagram showing a configuration of a decision tree for selecting an HMM in the system shown in FIG. 2. 図2に示すシステムによる音声合成の効果を示すための実験結果を示すグラフである。It is a graph which shows the experimental result for showing the effect of the speech synthesis by the system shown in FIG.

以下の説明及び図面では,同一の部品には同一の参照番号を付してある。したがって,それらについての詳細な説明は繰返さない。   In the following description and drawings, the same parts are denoted by the same reference numerals. Therefore, detailed description thereof will not be repeated.

[構成]
本実施の形態では,合成音声のひずみを軽減するために,音声信号の帯域幅を広げることなくMFCCパラメータを整形する,帯域内整形を用いる。そのため,本実施の形態では,デュアルサンプリングを用いる。本明細書でのデュアルサンプリングは,時間領域と周波数領域との双方でのサンプリングを意味する。このデュアルサンプリングに基づき,音声パラメータのデュアル量子化を行なう。さらに,MFCCパラメータに対し,アンチ・エイリアシング・フィルタリング及び平滑化による帯域内波形整形(帯域を増加させない)を行なう。
[Constitution]
In this embodiment, in order to reduce the distortion of the synthesized speech, in-band shaping is used in which the MFCC parameters are shaped without increasing the bandwidth of the speech signal. Therefore, in this embodiment, dual sampling is used. Dual sampling in this specification means sampling in both time domain and frequency domain. Based on this dual sampling, voice parameters are dual quantized. Further, in-band waveform shaping (not increasing the band) by anti-aliasing filtering and smoothing is performed on the MFCC parameters.

図2を参照して,本発明の1実施の形態に係る音声合成システム100は,図1に示す学習装置50に相当する学習装置110と,学習装置110による学習が行なわれたHMMを記憶するためのHMM記憶部112と,図1に示す音声合成装置56に相当する音声合成装置116とを含む。   Referring to FIG. 2, speech synthesis system 100 according to one embodiment of the present invention stores learning device 110 corresponding to learning device 50 shown in FIG. 1 and an HMM that has been learned by learning device 110. And a speech synthesizer 116 corresponding to the speech synthesizer 56 shown in FIG.

学習装置110が学習装置50(図1参照)と異なるのは,図1のMFCC算出部64の後に,各フレームについてMFCC算出部64により算出されたMFCCパラメータΛを,本実施の形態の特徴の1つである,周波数領域のパラメータΘに変換するMFCC変換部120をさらに含む点と,図1のHMM学習用データ記憶部52に代えて,F0抽出処理部62により各フレームについて抽出されたF0と,MFCC変換部120により各フレームについて算出されたパラメータΘとを,そのフレームのラベルとともに1組にしてHMM学習用データとして記憶するHMM学習用データ記憶部122を含む点と,図1のHMM学習部68に代えて,このHMM学習用データ記憶部122に記憶されたHMM学習用データを用いて音声合成用のHMMの学習を行なう,HMM学習部68と同様のHTSツールキット(参考文献1)からなるHMM学習部124を含む点とである。学習の終わった後のHMMは,図1のHMM記憶部52に代えてHMM記憶部112に記憶されるが,HMM記憶部112とHMM記憶部52とは,内部に記憶されるHMMのパラメータが異なるだけであって,そのハードウェアは同じである。   The learning device 110 is different from the learning device 50 (see FIG. 1) in that the MFCC parameter Λ calculated by the MFCC calculation unit 64 for each frame after the MFCC calculation unit 64 in FIG. One FMF extracted by the F0 extraction processing unit 62 instead of the HMF learning data storage unit 52 shown in FIG. And an HMM learning data storage unit 122 that stores the parameter Θ calculated for each frame by the MFCC conversion unit 120 together with a label of the frame as HMM learning data, and the HMM in FIG. Instead of the learning unit 68, the HMM learning data stored in the HMM learning data storage unit 122 is used for speech synthesis. Perform learning of HMM, it is a point including the HMM learning section 124 made of the same HTS toolkit and HMM learning section 68 (Reference 1). The HMM after the learning is completed is stored in the HMM storage unit 112 instead of the HMM storage unit 52 in FIG. 1. The HMM storage unit 112 and the HMM storage unit 52 have the HMM parameters stored therein. The only difference is the hardware.

図2に示す音声合成装置116が図1に示す音声合成装置56と異なるのは,パラメータ生成部84に代えて,音素ラベル列82を受けてHMM記憶部112から各音素ラベル及び韻律情報に最も適合したHMMを選択し,F0の系列とパラメータΘの系列とを出力するパラメータ生成部134を含む点と,パラメータ生成部134から出力されるパラメータΘの系列を受け,図2のMFCC変換部120で行なわれる処理と逆の関係になる処理を行なってMFCCの系列を出力し,合成フィルタ88に設定するMFCC逆変換部136を含む点とである。   The speech synthesizer 116 shown in FIG. 2 differs from the speech synthesizer 56 shown in FIG. 1 in that the phoneme label string 82 is received instead of the parameter generator 84 and the phoneme label and prosody information are received from the HMM storage unit 112. The MFCC converter 120 shown in FIG. 2 receives a point including a parameter generation unit 134 that selects a suitable HMM and outputs an F0 sequence and a parameter Θ sequence, and a parameter Θ sequence output from the parameter generation unit 134. The process includes a MFCC reverse conversion unit 136 that outputs a MFCC sequence by performing a process having a reverse relationship to the process performed in, and sets the synthesized filter 88.

以下,MFCC変換部120で行なわれるパラメータΘの計算,及びMFCC逆変換部136で行なわれるパラメータΘからMFCCパラメータΛを計算する手法とその考え方について説明する。MFCC変換部120での処理はデュアルサンプリングとデュアル量子化に相当する。   Hereinafter, a method of calculating the MFCC parameter Λ from the parameter Θ performed by the MFCC conversion unit 120 and the parameter Θ performed by the MFCC inverse conversion unit 136 will be described. The processing in the MFCC conversion unit 120 corresponds to dual sampling and dual quantization.

基本的に,デュアルサンプリングは時間とともに変化する関数について,正確な再構成を与えることができる。デュアル量子化では,デュアルサンプリングの結果に基づき,音声パラメータが時間及び周波数の双方によりエンコードされる。デュアル量子化により,周波数の帯域制限について多少のゆとりが得られる。帯域内整形によって,ノイズ及び発話の流動性による合成音声のひずみが小さくなり,HMMによる合成音声の音質が改善される。   Basically, dual sampling can give an accurate reconstruction of functions that change over time. In dual quantization, speech parameters are encoded in both time and frequency based on the result of dual sampling. Dual quantization provides some room for frequency bandwidth limitations. In-band shaping reduces distortion of synthesized speech due to noise and utterance fluidity, and improves the quality of synthesized speech by HMM.

デュアルサンプリングとは,帯域制限された信号を時間と周波数領域との双方でサンプリングすることを意味する。各サンプリング点でのサンプルの対は互いにコヒーレントである。   Dual sampling means sampling a band-limited signal in both time and frequency domain. The sample pair at each sampling point is coherent with each other.

デュアルサンプリングは以下のように表すことができる。   Dual sampling can be expressed as:

Figure 0005717097
ただしAは対称な共鳴曲線を表し,λは周波数比の二乗を表し,ζは強制振動の減衰係数を表し,ζ<0.5である。nは整数でn=0,…,N,本実施の形態ではN=10,εはnにより変化する,ほぼ10−10程度の小さな値である。
Figure 0005717097
Where A represents a symmetrical resonance curve, λ represents the square of the frequency ratio, ζ represents the damping coefficient of forced vibration, and ζ 2 <0.5. n is an integer and n = 0,..., N, and in this embodiment, N = 10 6 , and ε n is a small value of about 10 −10 that varies with n.

ζはさらに以下の式により単位円回りの回転角α(ラジアン)に変換される。 ζ n is further converted into a rotation angle α n (radian) around the unit circle by the following equation.

Figure 0005717097
Figure 0005717097

したがって,n番目のサンプリング点λ(0<λ<1)は角α(0<αn<w,ただし本実施の形態ではw=0.33325ラジアンに固定)に対して逆順で双対をなす。さらに,以下の式によりゼロ点αを中心としてαを折り返したθnを計算することにより,θはλと同じ順番を持つ変数となる。 Therefore, the nth sampling point λ n (0 <λ n <1) is in reverse order with respect to the angle α n (0 <αn <w c , but fixed to w c = 0.33325 radians in this embodiment). Make a dual. Further, by calculating the θn which folded alpha n around the zero point alpha z according to the following equation, theta n is the variable with the same order as the lambda n.

Figure 0005717097
この折り返しの関係から,周波数領域におけるデュアルサンプリングは,平行移動に関して不変であり,かつ線形であるということができる。したがって,離散周波数系は線形かつ平行移動に関して不変であり,離散時間系も同様である。
Figure 0005717097
From this aliasing relationship, it can be said that dual sampling in the frequency domain is invariant and linear with respect to translation. Therefore, discrete frequency systems are linear and invariant with respect to translation, as are discrete time systems.

MFCCに関するデュアル量子化は以下のように表すことができる。k次元目のMFCC係数をΛとし,MFCCΛが最小値Λkminから最大値Λkmax(k=0,…,K:Kは最大次元の次元番号)の間の範囲にあるものとする。 Dual quantization for MFCC can be expressed as: The MFCC coefficients k-th dimension and lambda k, the maximum value Λ kmax MFCCΛ k is the minimum value Λ kmin (k = 0, ... , K: K is the maximum dimension of the dimension number) shall be in the range of between.

ここで,Λを再サンプリングし,次の式により時間領域で量子化する。 Here, Λ k is resampled and quantized in the time domain by the following equation.

Figure 0005717097
ただしQ[x]はxを最も近いλ,n∈{0,…,N}に丸めることを示す。
Figure 0005717097
However, Q [x] indicates that x is rounded to the nearest λ n , nε {0,.

θnkがλnkとデュアルであって,θとλとの間の関係がルックアップテーブル化されているものとする。Λに関する周波数領域のデュアル関数は以下の式により表される。 Assume that θ nk is dual with λ nk and that the relationship between θ m and λ n is looked up as a look-up table. The frequency domain dual function for Λ k is expressed by the following equation.

Figure 0005717097
Figure 0005717097

時間領域で(可能なら)位相を持つΛにより表される情報は,1次元(線形)空間ではなく,3/2次元(円形)空間内に存在する。大雑把に言えば,ΛからΘへの写像は,幾何学的には,λnkにより表される3/2次元の外部平面から,θnkにより表される2次元の球面への写像であるということができる。周波数領域での再サンプリングにより,情報は,位相を考えなければ球面Θ上にランダムに分配される。Λkに位相情報が含まれない場合,位相情報は考える必要がないと想定できる。 Information represented by Λ k with phase (if possible) in the time domain exists in 3 / 2-dimensional (circular) space, not in 1-dimensional (linear) space. Roughly speaking, the mapping from Λ k to Θ k is geometrically a mapping from a 3/2 dimensional external plane represented by λ nk to a 2 dimensional sphere represented by θ nk. It can be said that there is. By re-sampling in the frequency domain, the information is randomly distributed on the sphere Θ k if no phase is considered. When phase information is not included in Λk, it can be assumed that phase information need not be considered.

帯域内波形整形は,本実施の形態ではHMMの学習と発話パラメータの生成とに密接に関与している。基本的には,HMMによる音声の生成にこれらの技術を組込む手続は以下を含む。   In-band waveform shaping is closely related to HMM learning and speech parameter generation in this embodiment. Basically, the procedures for incorporating these techniques into the generation of speech by HMM include:

〈パラメータ化〉
MFCCを角度量に変換する。
<Parameterization>
Convert MFCC into angular quantities.

発話コーパス中の全ての発話について,例えばK=39,フレームシフト=5ミリ秒としてMFCCを計算する。MFCCをΛkiで示す(k=0,…,K,i=0,…,Iとする。Iは発話のフレーム数を指す。)。MFCCの集合からΛkmax及びΛkminを見つけ,Λkiの全てをΘkiにマッピングする。 For all utterances in the utterance corpus, for example, MFCC is calculated with K = 39 and frame shift = 5 milliseconds. MFCC is denoted by Λ ki (k = 0,..., K, i = 0,..., I. I indicates the number of frames of speech). Find Λ kmax and Λ kmin from the set of MFCCs and map all of Λ ki to Θ ki .

〈HMMの学習〉
MFCCを残りの帯域分に拡張し,最尤基準によってデコードを行なう。この作業にはHTSツールキット(参考文献1)を用いるが,Λkiの代わりにγ×Θkiを用いることにより帯域内整形のために帯域を1.4倍に拡張する。
<Learning HMM>
The MFCC is extended to the remaining bandwidth, and decoding is performed according to the maximum likelihood criterion. The HTS toolkit (reference document 1) is used for this work, but the band is expanded to 1.4 times for in-band shaping by using γ e × Θ ki instead of Λ ki .

〈音声合成〉
アンチ・エイリアシングと平滑化とを行なう。GV(^Θkjで示す。ただしk=0,…,K,J=0,…,J。Jは発話中のフレーム数。)まずΘkjをαkjに変換する。αkj>wであればαkj=wとしてエイリアシングの削減を図る。その後,αkjを{α,n=0,…,N}中のいずれかのαnkjに量子化する。この量子化には,最小誤差基準を用いる。さらに,αnkjにγを乗算することにより帯域を1.2倍して平滑化し,その結果を再度量子化する。最後に,αnkjをΛnkjにマッピングすることによりMFCCを計算し直す。このマッピングが1対多の場合には,本実施の形態では写像のうちの任意の1つをランダムに選択する。この結果,音声合成のためのMFCCパラメータとしてΛkj,k=0,…,K及びj=0,…,Jが得られる。
<Speech synthesis>
Perform anti-aliasing and smoothing. GV (indicated by ^ Θ kj, where k = 0,..., K, J = 0,..., J. J is the number of frames in speech.) First, Θ kj is converted to α kj . If α kj > w c , α kj = w c is set to reduce aliasing. Thereafter, α kj is quantized to any α nkj in {α n , n = 0,..., N}. A minimum error criterion is used for this quantization. Further, α nkj is multiplied by γ c to smooth the band by 1.2, and the result is quantized again. Finally, recalculate the MFCC by mapping α nkj to Λ nkj . When this mapping is one-to-many, in this embodiment, an arbitrary one of the maps is selected at random. As a result, Λ kj , k = 0,..., K and j = 0 ,.

〈学習後のHMM〉
HMM学習用データ記憶部122に記憶される学習後のHMMについて図3を参照して説明する。本実施の形態では,HMMはコンテキスト依存の3状態HMMである。例えば中間の音素として/a/を含むHMM140,142及び144等を考える。これらは,2番目の音素160として/a/を持つが,先頭の音素としてそれぞれc11,c21及びc31を持ち,3番目の音素としてそれぞれc12,c22及びc32を持つものとする。これ以外にも同様に2番目の音素に/a/を持つ3状態HMMは多数存在し得るが,ここでは図の理解を容易にするためにこの3つのHMM140,142及び144のみを示す。
<HMM after learning>
The learned HMM stored in the HMM learning data storage unit 122 will be described with reference to FIG. In this embodiment, the HMM is a context-dependent three-state HMM. For example, consider HMMs 140, 142, and 144 that include / a / as an intermediate phoneme. These have / a / as the second phoneme 160 but have c 11 , c 21 and c 31 as the first phoneme, respectively, and c 12 , c 22 and c 32 as the third phoneme, respectively. To do. There can be many other three-state HMMs having / a / in the second phoneme, but only these three HMMs 140, 142, and 144 are shown here for easy understanding of the drawing.

2番目の音素160として/a/を持つHMMのうち,いずれかを選択するために,HMMに関する決定木162の学習が行なわれる。この決定木162は,例えば複数のノード180〜200を持つ。これらのうち,ノード184,188,190,196,198及び200がリーフノードであり,HMM140〜144等のいずれかに対応する。決定木162の各ノードには2値の質問が対応付けられており,音声の合成条件(韻律情報を持つラベル列により定められる。)に応じて各ノードの質問に対して答えながら決定木162をルートノード180からたどっていき,到達したリーフノードに対応するHMMを選択する。   In order to select one of the HMMs having / a / as the second phoneme 160, learning of the decision tree 162 related to the HMM is performed. The decision tree 162 has a plurality of nodes 180 to 200, for example. Among these, the nodes 184, 188, 190, 196, 198 and 200 are leaf nodes and correspond to any one of the HMMs 140 to 144 and the like. A binary question is associated with each node of the decision tree 162, and the decision tree 162 is answered while answering the question of each node according to the speech synthesis condition (determined by a label string having prosodic information). Is selected from the root node 180, and the HMM corresponding to the reached leaf node is selected.

[動作]
図2に示した音声合成システム100は以下のように動作する。音声データベース60には,音声データベースとして多数の発話データが準備される。これらの発話データはいずれもフレーム化され,音素ラベルが付されている。F0抽出処理部62は,音声データベース60内の各フレームからF0を抽出して出力する。MFCC算出部64は各フレームからMFCCパラメータΛkiを算出しMFCC変換部120に与える。MFCC変換部120は,上記したとおりMFCCの集合からΛkmax及びΛkminを見つけ,Λkiの全てをΘkiにマッピングする。
[Operation]
The speech synthesis system 100 shown in FIG. 2 operates as follows. In the voice database 60, a large number of utterance data are prepared as a voice database. These speech data are all framed and phoneme-labeled. The F0 extraction processing unit 62 extracts F0 from each frame in the audio database 60 and outputs it. The MFCC calculation unit 64 calculates an MFCC parameter Λ ki from each frame and supplies it to the MFCC conversion unit 120. MFCC conversion unit 120 finds the lambda kmax and lambda kmin from a set of MFCC as described above, to map all lambda ki to theta ki.

各フレームについて算出されたF0及びΘkiには,そのフレームの音素ラベルが付され,HMM学習用データ記憶部122に記憶される。 The F0 and Θ ki calculated for each frame are assigned the phoneme label of that frame and stored in the HMM learning data storage unit 122.

HMM学習部124の実体は,上記したとおりHMM学習部68同様のHTSツールキットであって,Θkiを用いてHMM記憶部112内のHMMの学習を行なう。全ての発話データについてHMMの学習が終了すると,HMM記憶部112を用いて音声の合成を行なうことが可能になる。 The entity of the HMM learning unit 124 is an HTS toolkit similar to the HMM learning unit 68 as described above, and learns the HMM in the HMM storage unit 112 using Θ ki . When the HMM learning is completed for all utterance data, it is possible to synthesize speech using the HMM storage unit 112.

音声合成では,入力テキスト54が与えられると,音声合成装置116のテキスト解析部80は入力テキスト54に対するテキスト解析を行ない,韻律情報が付された音素ラベル列82をパラメータ生成部134に与える。パラメータ生成部134は,与えられた韻律情報付の音素ラベル列を用い,HMM記憶部112に格納された決定木162(図3参照)をたどることで各音素に対応するHMMを選択し,HMMのシーケンスを出力する。このシーケンスに対応してF0のシーケンスも得られ,音源生成部86に与えられる。HMMのシーケンスから得られたΘkjの各々をαkjに変換する。αkj>wであればαkj=wとしてエイリアシングの削減を図る。さらにαkjを{α,n=0,…,N}中のいずれかのαnkjに量子化する。この量子化には,最小誤差基準を用いる。さらに,αnkjにγを乗算して平滑化し,その結果を再度量子化する。最後に,αnkjをΛnkjにマッピングすることによりMFCCを計算し直す。このマッピングが1対多の場合には,写像のうちの任意の1つをランダムに選択する。この結果,MFCCパラメータとしてΛkjのシーケンス(k=0,…,K及びj=0,…,J)が得られる。このシーケンスを構成するMFCCパラメータΛkiの各々により合成フィルタ88を各フレームについて設定し,当該フレームについてのF0に基づいて音源生成部86が生成する音源信号を合成フィルタ88でフィルタリングすることにより,合成音声が得られる。 In speech synthesis, when input text 54 is given, the text analysis unit 80 of the speech synthesizer 116 performs text analysis on the input text 54 and gives a phoneme label sequence 82 with prosodic information to the parameter generation unit 134. The parameter generation unit 134 selects the HMM corresponding to each phoneme by following the decision tree 162 (see FIG. 3) stored in the HMM storage unit 112 using the given phoneme label string with prosodic information. The sequence of is output. Corresponding to this sequence, a sequence of F0 is also obtained and given to the sound source generator 86. Each Θ kj obtained from the HMM sequence is converted to α kj . If α kj > w c , α kj = w c is set to reduce aliasing. Further, α kj is quantized to any α nkj in {α n , n = 0,..., N}. A minimum error criterion is used for this quantization. Further, α nkj is multiplied by γ c for smoothing, and the result is quantized again. Finally, recalculate the MFCC by mapping α nkj to Λ nkj . If this mapping is one-to-many, an arbitrary one of the maps is selected at random. As a result, a sequence of Λ kj (k = 0,..., K and j = 0,..., J) is obtained as the MFCC parameter. A synthesis filter 88 is set for each frame by each of the MFCC parameters Λ ki constituting this sequence, and the synthesis filter 88 filters the sound source signal generated by the sound source generation unit 86 based on F0 for the frame, thereby synthesizing the synthesis filter 88. Voice is obtained.

[実施の形態の効果]
以上のように本実施の形態によれば,時間及び周波数領域におけるデュアルサンプリング点でのサンプルはコヒーレントである。いずれか一方に何らかの変化があれば,他方にもそれに対応した変化が生ずる。これは,共鳴曲線と平衡条件とによる。すなわち,ζの値は,入力λと出力λとの値が互いに等しくなるように選ばれる。この結果,デュアルサンプリングによって,音声パラメータを時間及び周波数領域の双方で量子化するための基本的枠組が得られ,双方の領域で音声パラメータを処理することが可能になる。
[Effect of the embodiment]
As described above, according to the present embodiment, the samples at the dual sampling points in the time and frequency domains are coherent. If there is some change in either one, the corresponding change will occur in the other. This depends on the resonance curve and the equilibrium conditions. That is, the value of ζ is selected so that the values of the input λ and the output λ are equal to each other. As a result, the dual sampling provides a basic framework for quantizing speech parameters in both the time and frequency domains, and allows speech parameters to be processed in both domains.

第2に,周波数領域では処理対象は円であるため,「振幅」は一定であり,したがって統計的平均値は線形である角度量によって表される。   Second, since the object to be processed is a circle in the frequency domain, the “amplitude” is constant, and thus the statistical average value is represented by an angular amount that is linear.

第3に,MFCCの量子化は基本的には,デュアルサンプリングにより定義される10個の位置のうち,0.3535×10個の位置を抽出し,必要であればさらに内挿を行なう余地を残している。利用できない位相情報のために生ずるこうした余地は,HMMの学習を行なう際には,Θを統計的に平均することにより生ずるノイズに対処するために好適である。ただし,このノイズがガウシアンノイズと同じ統計的特徴を示すものと想定した場合であるが。人間の聴覚が,位相のある程度の量には不感であることはよく知られている。したがって音声パラメータを効率的に統計的分類及び平均化するための手段が得られる。 Third, the MFCC quantization basically extracts 0.3535 × 10 6 positions out of 10 6 positions defined by dual sampling, and performs further interpolation if necessary. There is room for it. Such room for phase information that is not available is suitable for dealing with noise caused by statistically averaging Θ k when learning HMMs. However, it is assumed that this noise exhibits the same statistical characteristics as Gaussian noise. It is well known that human hearing is insensitive to a certain amount of phase. Thus, a means for efficiently statistically classifying and averaging speech parameters is obtained.

第4に,ボコーダは通常,ある周波数のグループ,特に高い周波数のグループをかなりの程度までまとめることを利用する。周波数領域でのデュアルサンプリングはこの要求に合致する。高い周波数の圧縮の程度は,低い周波数と比較して約2.5倍である。   Fourth, vocoders typically make use of grouping certain frequency groups, particularly high frequency groups, to a significant degree. Dual sampling in the frequency domain meets this requirement. The degree of compression of the high frequency is about 2.5 times that of the low frequency.

最後に,パラメータΘに線形係数γを乗ずることにより,デュアルサンプリングの効用によって時間領域での群遅延を可能にするための簡便な手段が得られる。 Finally, by multiplying the parameter Θ k by the linear coefficient γ, a simple means for enabling group delay in the time domain by using the dual sampling is obtained.

[利用例]
少数の女性話者によるATR503データセットを用い,上記実施の形態に係る方法を従来の方法と比較する実験を行なった。結果を図4に示す。この図4は,MFCCの応答を1より大きなフレームに拡大したときのMFCCの帯域内整形の結果を示す。この結果は,本発明におけるリーフノード数が従来法より全般的に少なく,音響的特徴の多様性が縮小されていることを示している。このことは,上記実施の形態に係る方法により,話者に固有の特徴と普遍的な特徴が良好に分離された結果,HMM学習に際して話者に固有の特徴が被る平均化が改善されたことを意味する。
[Usage example]
Using the ATR503 data set by a small number of female speakers, an experiment was conducted comparing the method according to the above embodiment with the conventional method. The results are shown in FIG. FIG. 4 shows the result of in-band shaping of the MFCC when the MFCC response is expanded to a frame larger than 1. This result shows that the number of leaf nodes in the present invention is generally smaller than that of the conventional method, and the diversity of acoustic features is reduced. This is because, as a result of the method according to the above embodiment, the speaker-specific features and the universal features are well separated, and the averaging that the speakers-specific features are subjected to during HMM learning has been improved. Means.

上記方法によって合成された音声を発明者達が聞いて評価した結果,従来の方法と比較して本実施の形態によってバズノイズがかなり低減され,HMMによる合成音声の音質が改善されることが確認された。   As a result of the inventors listening and evaluating the speech synthesized by the above method, it has been confirmed that the buzz noise is considerably reduced by the present embodiment and the sound quality of the synthesized speech by the HMM is improved as compared with the conventional method. It was.

今回開示された実施の形態は単に例示であって,本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

[参考文献]
[1]K.Tokuda,H.Zen,J.Yamagishi,T.Masuko,S.Sako,A.B.Black,T.Nose,“The HMM−Based Speech Synthesis System(HTS) Version 2.1.”[Online]。URL:http://hts.sp.nitech.ac.jp/.
[References]
[1] K. Tokuda, H .; Zen, J. et al. Yamagishi, T .; Masuko, S .; Sako, A .; B. Black, T.M. Nose, “The HMM-Based Speech Synthesis System (HTS) Version 2.1.” [Online]. URL: http://hts.sp.nitech.ac.jp/.

40,100 音声合成システム
50,110 学習装置
52,112 HMM記憶部
54 入力テキスト
56,116 音声合成装置
60 音声データベース
62 F0抽出処理部
64 MFCC算出部
66,122 HMM学習用データ記憶部
68,124 HMM学習部
80 テキスト解析部
82 音素ラベル列
84,134 パラメータ生成部
86 音源生成部
88 合成フィルタ
136 MFCC逆変換部
40, 100 Speech synthesis system 50, 110 Learning device 52, 112 HMM storage unit 54 Input text 56, 116 Speech synthesis device 60 Speech database 62 F0 extraction processing unit 64 MFCC calculation unit 66, 122 Data storage unit 68, 124 for HMM learning HMM learning unit 80 Text analysis unit 82 Phoneme label sequence 84, 134 Parameter generation unit 86 Sound source generation unit 88 Synthesis filter 136 MFCC inverse conversion unit

Claims (3)

各々に音素ラベルが付された複数の音声単位を含む音声データベースを記憶するための音声データベース記憶手段と,
前記複数の音声単位の各々から基本周波数を抽出し,基本周波数情報を出力するための基本周波数抽出手段と,
前記複数の音声単位の各々について,所定の音響特徴量を算出するための音響特徴量算出手段と,
前記所定の音響特徴量の算出のための時間領域のサンプリングと双対をなす,周波数領域のサンプリングを行なうことにより,前記複数の音声単位の各々について,前記所定の音響特徴量を角度量に変換するための変換手段と,
前記音声データベースに含まれる前記複数の音声単位について,前記基本周波数抽出手段の出力する基本周波数情報,及び,前記変換手段の出力する前記角度量に,当該音声単位のラベルが付された学習用データを用い,別々の音素コンテキストに対する隠れマルコフモデルの学習と,音素ラベル列から前記隠れマルコフモデルのいずれかを選択するための決定木の学習とを行なうための学習手段と,
前記学習手段により学習が行なわれた前記隠れマルコフモデルと前記決定木とを記憶するための記憶手段とを含む,音声合成用の隠れマルコフモデルの学習装置。
Speech database storage means for storing a speech database including a plurality of speech units each having a phoneme label;
A fundamental frequency extracting means for extracting a fundamental frequency from each of the plurality of voice units and outputting fundamental frequency information;
Acoustic feature amount calculating means for calculating a predetermined acoustic feature amount for each of the plurality of speech units;
The predetermined acoustic feature quantity is converted into an angular quantity for each of the plurality of speech units by performing frequency domain sampling that is dual with the time domain sampling for calculating the predetermined acoustic feature quantity. Conversion means for,
Learning data in which the fundamental frequency information output from the fundamental frequency extraction unit and the angular amount output from the conversion unit are labeled with the unit of the speech unit for the plurality of speech units included in the speech database. Learning means for learning a hidden Markov model for different phoneme contexts and learning a decision tree for selecting one of the hidden Markov models from a phoneme label sequence;
An apparatus for learning a hidden Markov model for speech synthesis, comprising: a storage means for storing the hidden Markov model learned by the learning means and the decision tree.
前記所定の音響特徴量はメル周波数ケプストラム係数を含み,
前記音響特徴量算出手段は,前記複数の音声単位の各々について,所定次元までのメル周波数ケプストラム係数を算出するための手段を含む,請求項1に記載の,音声合成用の隠れマルコフモデル学習装置。
The predetermined acoustic feature amount includes a mel frequency cepstrum coefficient,
2. The hidden Markov model learning device for speech synthesis according to claim 1, wherein the acoustic feature amount calculating means includes means for calculating a mel frequency cepstrum coefficient up to a predetermined dimension for each of the plurality of speech units. .
請求項1又は請求項2に記載の,音声合成用の隠れマルコフモデル学習装置により学習が行なわれた隠れマルコフモデルを用い,入力されるテキストに対する音声を合成するための音声合成装置であって,
前記テキストに対しテキスト解析を行なうことにより,音素ラベル列を出力するためのテキスト解析手段と,
前記テキスト解析手段により出力される音素ラベル列を用い,各音素ラベルについて,前記決定木を用いて隠れマルコフモデルを選択し,当該隠れマルコフモデルに基づいて,基本周波数情報と前記角度量とを生成するためのパラメータ生成手段と,
前記パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段と,
前記パラメータ生成手段により生成された前記角度量に対し,前記変換手段による変換の逆変換に相当する変換を行なって前記所定の音響特徴量を算出するための逆変換手段と,
前記逆変換手段により変換された音響特徴量に基づくフィルタ特性により,前記音源生成手段により生成された前記音源信号を変調するための合成フィルタとを含む,音声合成装置。
A speech synthesizer for synthesizing speech for input text using a hidden Markov model learned by a speech synthesis hidden Markov model learning device according to claim 1 or 2,
Text analysis means for outputting a phoneme label string by performing text analysis on the text;
Using the phoneme label sequence output by the text analysis means, for each phoneme label, select a hidden Markov model using the decision tree, and generate fundamental frequency information and the angular amount based on the hidden Markov model. Parameter generation means for
Sound source generating means for generating a sound source signal based on the fundamental frequency information generated by the parameter generating means;
An inverse conversion means for calculating the predetermined acoustic feature quantity by performing a conversion corresponding to an inverse conversion of the conversion by the conversion means on the angle amount generated by the parameter generation means;
A speech synthesizer comprising: a synthesis filter for modulating the sound source signal generated by the sound source generation means based on a filter characteristic based on the acoustic feature value converted by the inverse conversion means.
JP2011194907A 2011-09-07 2011-09-07 Hidden Markov model learning device and speech synthesizer for speech synthesis Active JP5717097B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011194907A JP5717097B2 (en) 2011-09-07 2011-09-07 Hidden Markov model learning device and speech synthesizer for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011194907A JP5717097B2 (en) 2011-09-07 2011-09-07 Hidden Markov model learning device and speech synthesizer for speech synthesis

Publications (2)

Publication Number Publication Date
JP2013057735A JP2013057735A (en) 2013-03-28
JP5717097B2 true JP5717097B2 (en) 2015-05-13

Family

ID=48133682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011194907A Active JP5717097B2 (en) 2011-09-07 2011-09-07 Hidden Markov model learning device and speech synthesizer for speech synthesis

Country Status (1)

Country Link
JP (1) JP5717097B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346423A (en) * 2017-01-23 2018-07-31 北京搜狗科技发展有限公司 The treating method and apparatus of phonetic synthesis model

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6293912B2 (en) 2014-09-19 2018-03-14 株式会社東芝 Speech synthesis apparatus, speech synthesis method and program
KR102051235B1 (en) * 2015-06-11 2019-12-02 인터랙티브 인텔리전스 그룹, 인코포레이티드 System and method for outlier identification to remove poor alignments in speech synthesis
JP6137708B2 (en) * 2015-08-06 2017-05-31 国立研究開発法人情報通信研究機構 Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program
JP6495781B2 (en) * 2015-08-19 2019-04-03 日本電信電話株式会社 Voice parameter generation device, voice parameter generation method, program
CN109300339A (en) * 2018-11-19 2019-02-01 王泓懿 A kind of exercising method and system of Oral English Practice
CN109671440B (en) * 2019-01-09 2020-08-14 四川虹微技术有限公司 Method, device, server and storage medium for simulating audio distortion
CN112420070A (en) * 2019-08-22 2021-02-26 北京峰趣互联网信息服务有限公司 Automatic labeling method and device, electronic equipment and computer readable storage medium
CN110556093B (en) * 2019-09-17 2021-12-10 浙江同花顺智富软件有限公司 Voice marking method and system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002539482A (en) * 1999-03-08 2002-11-19 シーメンス アクチエンゲゼルシヤフト Method and apparatus for determining sample speech
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
JP3973492B2 (en) * 2002-06-04 2007-09-12 日本電信電話株式会社 Speech synthesis method and apparatus thereof, program, and recording medium recording the program
JP5228283B2 (en) * 2006-04-19 2013-07-03 カシオ計算機株式会社 Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program
JP5238205B2 (en) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド Speech synthesis system, program and method
JP2011028131A (en) * 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd Speech synthesis device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346423A (en) * 2017-01-23 2018-07-31 北京搜狗科技发展有限公司 The treating method and apparatus of phonetic synthesis model
CN108346423B (en) * 2017-01-23 2021-08-20 北京搜狗科技发展有限公司 Method and device for processing speech synthesis model

Also Published As

Publication number Publication date
JP2013057735A (en) 2013-03-28

Similar Documents

Publication Publication Date Title
JP5717097B2 (en) Hidden Markov model learning device and speech synthesizer for speech synthesis
KR102158743B1 (en) Data augmentation method for spontaneous speech recognition
Erro et al. Voice conversion based on weighted frequency warping
US8234110B2 (en) Voice conversion method and system
JP4294724B2 (en) Speech separation device, speech synthesis device, and voice quality conversion device
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JPH10307599A (en) Waveform interpolating voice coding using spline
WO2005117517A2 (en) Neuroevolution-based artificial bandwidth expansion of telephone band speech
US11393452B2 (en) Device for learning speech conversion, and device, method, and program for converting speech
JPH09101798A (en) Method and device for expanding voice band
JP4516157B2 (en) Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
GB2546981A (en) Noise compensation in speaker-adaptive systems
Gu et al. Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension.
JP2019008206A (en) Voice band extension device, voice band extension statistical model learning device and program thereof
CN108369803B (en) Method for forming an excitation signal for a parametric speech synthesis system based on a glottal pulse model
JP6821970B2 (en) Speech synthesizer and speech synthesizer
JPH10319996A (en) Efficient decomposition of noise and periodic signal waveform in waveform interpolation
Kornagel Techniques for artificial bandwidth extension of telephone speech
Nercessian Differentiable world synthesizer-based neural vocoder with application to end-to-end audio style transfer
JP2006521576A (en) Method for analyzing fundamental frequency information, and voice conversion method and system implementing this analysis method
Giacobello et al. Stable 1-norm error minimization based linear predictors for speech modeling
US20170263239A1 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP2017520016A (en) Excitation signal generation method of glottal pulse model based on parametric speech synthesis system
JP6542823B2 (en) Acoustic model learning device, speech synthesizer, method thereof and program
JPH08305396A (en) Device and method for expanding voice band

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140717

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150310

R150 Certificate of patent or registration of utility model

Ref document number: 5717097

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250