JP5722295B2 - Acoustic model generation method, speech synthesis method, apparatus and program thereof - Google Patents

Acoustic model generation method, speech synthesis method, apparatus and program thereof Download PDF

Info

Publication number
JP5722295B2
JP5722295B2 JP2012248151A JP2012248151A JP5722295B2 JP 5722295 B2 JP5722295 B2 JP 5722295B2 JP 2012248151 A JP2012248151 A JP 2012248151A JP 2012248151 A JP2012248151 A JP 2012248151A JP 5722295 B2 JP5722295 B2 JP 5722295B2
Authority
JP
Japan
Prior art keywords
speech
tone
information
learning
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012248151A
Other languages
Japanese (ja)
Other versions
JP2014095851A (en
Inventor
勇祐 井島
勇祐 井島
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012248151A priority Critical patent/JP5722295B2/en
Publication of JP2014095851A publication Critical patent/JP2014095851A/en
Application granted granted Critical
Publication of JP5722295B2 publication Critical patent/JP5722295B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、HMM(Hidden Markov Model)音声合成方式に用いる音響モデルを生成する音響モデル生成方法と音声合成方法と、それらの装置とプログラムに関する。   The present invention relates to an acoustic model generation method and a speech synthesis method for generating an acoustic model used for an HMM (Hidden Markov Model) speech synthesis method, and an apparatus and a program thereof.

近年、音声合成方式として、HMM音声合成方式が提案されている(例えば非特許文献1)。HMM音声合成方式における音響モデル(音声データベース)は、合成単位ごとにスペクトルやF0を平均化した音声データのパラメータとして、合成単位ごとに一つのモデルを保持している。これにより、少量の音声データでも肉声感は低いが安定した品質の音声合成を可能にしている。   In recent years, an HMM speech synthesis method has been proposed as a speech synthesis method (for example, Non-Patent Document 1). The acoustic model (speech database) in the HMM speech synthesis method holds one model for each synthesis unit as a parameter of speech data obtained by averaging the spectrum and F0 for each synthesis unit. As a result, even with a small amount of voice data, the voice feeling is low, but stable voice synthesis is possible.

一方、非特許文献2に開示されているように、アクセント句間の音調結合型を導入することで、合成音声の自然性が向上することが知られている。   On the other hand, as disclosed in Non-Patent Document 2, it is known that the naturalness of synthesized speech is improved by introducing a tone coupling type between accent phrases.

益子他、「動的特徴を用いたHMMに基づく音声合成」信学論、vol.J79-D-II, no.12, pp.2184-2190, Dec.1996.Masuko et al., "HMM-based speech synthesis using dynamic features", Theory of Science, vol.J79-D-II, no.12, pp.2184-2190, Dec. 1996. 箱田他、「文章音声の音調結合型導出規則の検討」信学技法、SP89-5, pp.33-38, 1989.Hakoda et al., `` Examination of Tone Combined Derivation Rules for Sentence Voices '', IEICE Tech.

従来のHMM音声合成方式では、モデル学習時、音声合成時に音調結合型を考慮できていないため、合成音声の品質が低下する課題がある。しかし、モデル学習のための音声データに対して、人手で音調結合型を付与することは高コストであるため、音調結合型を考慮したHMM音声合成方式はほとんど普及していない。   In the conventional HMM speech synthesis method, the tone combination type cannot be considered at the time of model learning and speech synthesis. However, since it is expensive to manually add a tone coupling type to voice data for model learning, HMM speech synthesizing methods that take into account the tone coupling type are rarely used.

本発明は、この課題に鑑みてなされたものであり、音調結合型を自動的に付与した音響モデルを学習して生成することができる音響モデル生成方法と音声合成方法と、それらの装置とプログラムを提供することを目的とする。   The present invention has been made in view of this problem, and an acoustic model generation method, a speech synthesis method, an apparatus, and a program capable of learning and generating an acoustic model automatically provided with a tone coupling type The purpose is to provide.

本発明の音響モデル生成方法は、モデル学習過程と、音調結合型抽出過程と、音調結合型モデル学習過程と、を備える。モデル学習過程は、音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報を含む発話情報とを入力として音声合成用HMMを学習する。音調結合型抽出過程は、音声合成用HMMから発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する。音調結合型モデル学習過程は、学習用音声データと発話情報と音調結合型とを入力として、音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する。 The acoustic model generation method of the present invention includes a model learning process, a tone coupling type extraction process, and a tone coupling type model learning process. In the model learning process, the speech synthesis HMM is learned by inputting the learning speech data including the pitch parameter and the spectrum parameter, and the phoneme segmentation information and the speech information including the accent information of the learning speech data. The tone combination type extraction process generates a speech parameter having the same phoneme segmentation information as speech information from the speech synthesis HMM, and uses the speech parameter and the parameter of the learning speech data to generate a pitch pattern between the accent phrases. Extract the tone combination type that affects the shape . In the tone coupled model learning process, the learning speech data, the utterance information, and the tone coupled type are input, and model learning considering the tone coupled type is performed to generate a tone coupled acoustic model.

また、本発明の音声合成方法は、テキスト解析過程と、音声パラメータ生成過程と、音声合成フィルタ過程と、を備える。テキスト解析過程は、音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力する。音声パラメータ生成過程は、上記した音響モデル生成方法で生成した音調結合型音響モデルと、テキスト情報とを用いて、音声パラメータを生成する。音声合成フィルタ過程は、上記音声パラメータを用いて音声波形を生成する。   The speech synthesis method of the present invention includes a text analysis process, a speech parameter generation process, and a speech synthesis filter process. In the text analysis process, the speech synthesis target text is input, the text synthesis target text is analyzed, and text information including reading, accent, and tone combination types is output. In the speech parameter generation process, speech parameters are generated using the tone-coupled acoustic model generated by the above-described acoustic model generation method and text information. The speech synthesis filter process generates a speech waveform using the speech parameters.

本発明の音響モデル生成方法によれば、音調結合型を自動的に付与した音響モデルを生成することができるので、音調結合型を考慮したHMM音声合成方式を実現するためのコストを低減させることができる。   According to the acoustic model generation method of the present invention, it is possible to automatically generate an acoustic model to which a tone coupling type is assigned, so that the cost for realizing an HMM speech synthesis method considering the tone coupling type can be reduced. Can do.

また、本発明の音声合成方法によれば、音調結合型を考慮した音響モデルを用いて合成音を生成するので、通常のHMM音声合成より合成音の品質を向上させることができる。   In addition, according to the speech synthesis method of the present invention, the synthesized sound is generated using the acoustic model that takes into account the tone combination type, so that the quality of the synthesized sound can be improved over the normal HMM speech synthesis.

この発明の音響モデル生成装置100の機能構成例を示す図。The figure which shows the function structural example of the acoustic model production | generation apparatus 100 of this invention. 音響モデル生成装置100の動作フローを示す図。The figure which shows the operation | movement flow of the acoustic model production | generation apparatus 100. FIG. 音素セグメンテーション情報の例を示す図。The figure which shows the example of phoneme segmentation information. 3状態の音声合成用HMMの例を示す図。The figure which shows the example of HMM for speech synthesis of 3 states. 音調結合型抽出部20の機能構成例を示す図。The figure which shows the function structural example of the tone combination type | mold extraction part 20. FIG. 音声パラメータ生成手段201が生成する音声パラメータの概念を示す図。The figure which shows the concept of the audio | voice parameter which the audio | voice parameter production | generation means 201 produces | generates. アクセント句間の概念を示す図。The figure which shows the concept between accent phrases. 音調結合型抽出部20の動作フローを示す図。The figure which shows the operation | movement flow of the tone combination type | mold extraction part 20. FIG. 音調結合型抽出部20′の動作フローを示す図。The figure which shows the operation | movement flow of tone combination type | mold extraction part 20 '. この発明の音声合成装置200の機能構成例を示す図。The figure which shows the function structural example of the speech synthesizer 200 of this invention. 音声合成装置200の動作フローを示す図。The figure which shows the operation | movement flow of the speech synthesizer.

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。   Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.

図1に、この発明の音響モデル生成装置100の機能構成例を示す。その動作フローを図2に示す。音響モデル生成装置100は、モデル学習部10と、音調結合型抽出部20と、音調結合型モデル学習部30と、制御部40と、を具備する。音響モデル生成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。   FIG. 1 shows an example of the functional configuration of an acoustic model generation apparatus 100 according to the present invention. The operation flow is shown in FIG. The acoustic model generation apparatus 100 includes a model learning unit 10, a tone coupling type extraction unit 20, a tone coupling type model learning unit 30, and a control unit 40. The acoustic model generation apparatus 100 is realized by a predetermined program being read into a computer including, for example, a ROM, a RAM, a CPU, and the like, and the CPU executing the program.

モデル学習部10は、音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報を含む発話情報と、を入力として音声合成用HMMを学習する(ステップS10)。学習用音声データは、音声データベースを構築する対象の話者がN個の文章を発話した音声を収録したデータである。学習用音声データには、音声信号に対して信号処理を行った結果得られる音高パラメータ(基本周波数:F0)とスペクトルパラメータ(ケプストラム、メルケプストラム等)とが含まれる。   The model learning unit 10 learns the speech synthesis HMM by using the speech data for learning including the pitch parameter and the spectrum parameter, and the speech information including the phoneme segmentation information and the accent information of the speech data for learning (step). S10). The voice data for learning is data in which voices in which N speakers have spoken N sentences are recorded. The speech data for learning includes a pitch parameter (basic frequency: F0) and spectrum parameters (cepstrum, mel cepstrum, etc.) obtained as a result of performing signal processing on the speech signal.

これらのパラメータは、フレームと呼ばれる所定の時間間隔毎のデータである。1フレームは、音声信号を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換した音声信号の所定数(例えば160個)から成る時間(10ms)である。なお、モデル学習部10に、音声データそのものを与え、ディジタル信号処理によって、パラメータを生成するようにしても良い。   These parameters are data at predetermined time intervals called frames. One frame is a time (10 ms) consisting of a predetermined number (for example, 160) of audio signals obtained by converting the audio signals into discrete digital signals at a sampling frequency of 16 kHz, for example. Note that the speech data itself may be given to the model learning unit 10 and the parameters may be generated by digital signal processing.

発話情報は、学習用音声データ中の各発話に付与された情報であり、少なくとも発話を構成する各音素の開始時間と終了時間の情報から成る音素セグメンテーション情報と、アクセント句境界、アクセント型、アクセント句長等のアクセント情報と、から成る。図3に、音素セグメンテーション情報の例を示す。図3の1列目は音素名、2列目は開始時間、3列目は終了時間である。開始・終了時間は、各発話の始点を0[秒]とした時の経過時間である。   The utterance information is information given to each utterance in the speech data for learning, and includes phoneme segmentation information including at least the start time and end time information of each phoneme constituting the utterance, accent phrase boundary, accent type, accent And accent information such as phrase length. FIG. 3 shows an example of phoneme segmentation information. The first column in FIG. 3 is the phoneme name, the second column is the start time, and the third column is the end time. The start / end time is an elapsed time when the start point of each utterance is set to 0 [seconds].

モデル学習部10では、学習用音声データと発話情報から音声合成用のHMMを学習する。このHMMは、3状態または5状態のleft-to-right型HMMと呼ばれるものである。図4に、3状態の音声合成用HMMの例を示す。1は第1状態でHMMの開始を表す。2は第2状態、3は第3状態を表す。そしてHMMは、自己遷移a11,a22,a33と、次状態への状態遷移a12,a23とから成る確率連鎖で表される。 The model learning unit 10 learns an HMM for speech synthesis from learning speech data and speech information. This HMM is a three-state or five-state left-to-right type HMM. FIG. 4 shows an example of a three-state speech synthesis HMM. 1 represents the start of the HMM in the first state. 2 represents the second state, and 3 represents the third state. The HMM is represented by a probability chain including self transitions a 11 , a 22 , a 33 and state transitions a 12 , a 23 to the next state.

HMMの各状態1,2,3には、それぞれ出力確率分布b(o),b(o),b(o),が対応付けられている。出力確率分布は、F0、ケプストラム等の音を特徴付けるモデルパラメータである。モデル学習部10は、音素ラベルに従って、例えばBaum-Welchアルゴリズム等を用いて音声合成用HMMを学習する。学習した音声合成用HMMは、音調結合型抽出部20に出力される。学習した音声合成用HMMは、音声合成用HMM50として記録装置に蓄えるようにしても良い。 The HMM states 1, 2, and 3 are associated with output probability distributions b 1 (o t ), b 2 (o t ), and b 3 (o t ), respectively. The output probability distribution is a model parameter that characterizes sounds such as F0 and cepstrum. The model learning unit 10 learns the speech synthesis HMM using, for example, a Baum-Welch algorithm according to the phoneme label. The learned speech synthesis HMM is output to the tone combination type extraction unit 20. The learned speech synthesis HMM may be stored in the recording device as the speech synthesis HMM 50.

音調結合型抽出部20は、音声合成用HMMから発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと、外部から入力される学習用音声データのパラメータとを用いてアクセント句間の音調結合型を抽出する(ステップS20)。音調結合型抽出部20の詳しい動作説明は後述する。   The tone combination type extraction unit 20 generates a speech parameter having the same phoneme segmentation information as the speech information from the speech synthesis HMM, and uses the speech parameter and a parameter of learning speech data input from the outside as an accent. The tone combination type between phrases is extracted (step S20). Detailed operation of the tone combination type extraction unit 20 will be described later.

音調結合型モデル学習部30は、外部から入力される学習用音声データと発話情報と、音調結合型抽出部20で抽出した音調結合型を入力として音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する(ステップS30)。音調結合型モデル学習部30におけるモデルの学習は、音調結合型を加えて学習する点で、モデル学習部10のモデル学習と異なる。制御部40は、各部の時系列的な動作を制御する。   The tone combination type model learning unit 30 performs model learning considering the tone combination type by inputting the learning voice data and speech information input from the outside and the tone combination type extracted by the tone combination type extraction unit 20 to perform tone combination. A type acoustic model is generated (step S30). The model learning in the tone coupled model learning unit 30 is different from the model learning in the model learning unit 10 in that learning is performed by adding the tone coupled type. The control unit 40 controls the time series operation of each unit.

以上説明したように、音響モデル生成装置100によれば、学習用音声データから自動的に音調結合型を抽出し、その音調結合型も加えた形で音声合成用HMMを学習することができる。従って、音調結合型を考慮した音響モデルを低コストで提供することが可能になる。   As described above, the acoustic model generation apparatus 100 can automatically extract the tone combination type from the learning speech data, and learn the speech synthesis HMM with the tone combination type added. Therefore, it is possible to provide an acoustic model considering the tone coupling type at a low cost.

図5に、本発明の要部である音調結合型抽出部20のより具体的な機能構成例を示して更に詳しく動作を説明する。音調結合型抽出部20は、音声パラメータ生成手段201と、音調結合型抽出手段202と、を備える。   FIG. 5 shows a more specific functional configuration example of the tone coupling type extraction unit 20 which is a main part of the present invention, and the operation will be described in more detail. The tone combination type extraction unit 20 includes a sound parameter generation unit 201 and a tone combination type extraction unit 202.

音声パラメータ生成手段201は、モデル学習部10で生成された音声合成用HMMと、外部から入力される発話情報とを入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成する(ステップS201、図2)。図6に、音声パラメータ生成手段201が生成する音声パラメータの概念を示す。   The speech parameter generation unit 201 receives the speech synthesis HMM generated by the model learning unit 10 and the utterance information input from the outside, and generates a speech parameter having the same phoneme segmentation information as the utterance information ( Step S201, FIG. 2). FIG. 6 shows the concept of audio parameters generated by the audio parameter generation unit 201.

まず、発話iのp番目の音素のs番目の状態のフレーム数を求める。各状態のフレーム数の算出は、p番目の音素の継続時間長を状態数で等分することにより行う。例えば、図3に示した音素「o」の継続時間長は150[ms]である。そして、音声合成用HMMの状態数を例えば3状態とすると、各状態には50[ms]の時間が割り振られる。1フレームを例えば10[ms]とすると各状態は、それぞれ5フレームで構成される(図6の3行目)。   First, the number of frames in the sth state of the pth phoneme of utterance i is obtained. The number of frames in each state is calculated by equally dividing the duration of the p-th phoneme by the number of states. For example, the duration of the phoneme “o” shown in FIG. 3 is 150 [ms]. If the number of states of the speech synthesis HMM is three, for example, a time of 50 [ms] is allocated to each state. If one frame is 10 [ms], for example, each state is composed of 5 frames (third line in FIG. 6).

次に、音声パラメータ生成手段201は、各フレームにモデルパラメータの平均ベクトルμpsを割り振ることで発話iの音声パラメータ系列を生成する(図6の4行目)。そして最後に、当該音声パラメータ系列に対して補間を行う。音声パラメータの補間は、非特許文献1に開示されているように、モデルパラメータの動的特徴量と分散を用いて行う。なお、スプライン補間のような一般的な補間手法を用いても良い
音調結合型抽出手段202は、音声パラメータ生成手段201で生成した音声パラメータ系列と、外部から入力される学習用音声データとを用いて、アクセント句間の音調結合型を抽出する。図7に、アクセント句間の概念を示す。例えば「今日は打ち合わせです。」の一文は、「今日は」、「打ち合わせ」、「です」の3つのアクセント句で構成される。このアクセント句の位置(時間)は、発話情報を参照することで得られる。
Next, the voice parameter generation unit 201 generates a voice parameter series of the utterance i by assigning an average vector μ ps of model parameters to each frame (fourth line in FIG. 6). Finally, interpolation is performed on the speech parameter series. As disclosed in Non-Patent Document 1, the speech parameter interpolation is performed using the dynamic feature amount and variance of the model parameter. Note that a general interpolation method such as spline interpolation may be used. The tone combination extraction unit 202 uses a speech parameter sequence generated by the speech parameter generation unit 201 and learning speech data input from the outside. To extract the tone combination type between accent phrases. FIG. 7 shows the concept between accent phrases. For example, a sentence “Today is a meeting” is composed of three accent phrases “Today”, “Meeting”, and “I”. The position (time) of this accent phrase can be obtained by referring to the utterance information.

音調結合型抽出手段202は、音声パラメータ生成手段201で生成した音声パラメータ系列のi番目の発話のj番目、j+1番目のアクセント句の境界周辺のF0の対数値の平均値をmsijを求めると共に、学習用音声データの同じアクセント句の境界周辺のF0の対数値の平均値をmoijを求める。そして、その差分dを計算し、差分dが閾値αより大きい場合の音調結合型を弱結合、小さい場合を強結合として抽出する。 The tone combination type extraction unit 202 calculates ms ij as an average value of logarithmic values of F0 around the boundary of the j-th and j + 1-th accent phrases of the i-th utterance of the speech parameter series generated by the speech parameter generation unit 201. Then, mo ij is obtained as an average value of logarithmic values of F0 around the boundary of the same accent phrase of the speech data for learning. Then, the difference d is calculated, and the tone coupling type when the difference d is larger than the threshold value α is extracted as weak coupling, and the case where the difference d is small is extracted as strong coupling.

一般的に、アクセント句間の結合の強さが小さい場合(強結合)、二つのアクセント句の境界付近の学習音声データのF0は低くなる傾向があり、結合の強さが大きい場合(弱結合)、二つのアクセント句間の境界付近のF0は高くなる傾向がある。一方、生成した音声パラメータ系列のF0は、音調結合型を考慮せずに学習した音声合成用HMMから生成しているため、強結合・弱結合が考慮されていない中間程度の高さのF0が生成される。そのため、音声パラメータ生成手段201で生成した音声パラメータ系列のF0と比較して学習音声データのF0が低い(差分が小さい)場合は強結合、高い(差分dが大きい)場合は弱結合として音調結合型を判別することができる。   In general, when the strength of coupling between accent phrases is small (strong coupling), F0 of learning speech data near the boundary between two accent phrases tends to be low, and when coupling strength is large (weak coupling) ), F0 near the boundary between two accent phrases tends to be high. On the other hand, F0 of the generated speech parameter series is generated from the speech synthesis HMM learned without considering the tone coupling type, so that F0 having an intermediate height without considering strong coupling or weak coupling is obtained. Generated. Therefore, tone coupling is performed as strong coupling when F0 of learning speech data is low (difference is small) compared to F0 of the speech parameter series generated by the speech parameter generation unit 201, and weak coupling when high (difference d is large). The type can be determined.

図7に音調結合型抽出部20で行う処理を、図8にその動作フローを示して更に具体適に説明する。図7の横軸は経過時間t[ms]、縦軸はF0[Hz]であり、ある一つのアクセント境界のF0を示している。   The processing performed by the tone combination type extraction unit 20 in FIG. 7 will be described more specifically with reference to FIG. The horizontal axis in FIG. 7 is the elapsed time t [ms], and the vertical axis is F0 [Hz], indicating F0 of a certain accent boundary.

音声パラメータ生成手段201は、モデル学習部10で生成された音声合成用HMMと、外部から入力される発話情報とを用いて、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を全ての発話iについて生成する(ループS201のステップS201a、図8)。   The speech parameter generation unit 201 uses the speech synthesis HMM generated by the model learning unit 10 and utterance information input from the outside to convert all speech parameter sequences having the same phoneme segmentation information as the utterance information. An utterance i is generated (step S201a of loop S201, FIG. 8).

音調結合型抽出手段202は、音声パラメータ系列のi番目の発話のj番目、j+1番目のアクセント句の境界周辺のF0の対数値の平均値をmsijを求めると共に、学習用音声データの同じアクセント句の境界周辺のF0の対数値の平均値をmoijを求め、その差分dを計算する(ループS202のステップS202a)。アクセント句間の境界付近のF0の平均値は、アクセント句の境界の前後t[ms]のF0を用いて計算する(図7のmsijとmoijを参照)。 The tone combination type extraction unit 202 obtains ms ij as an average value of logarithmic values of F0 around the boundary of the j-th and j + 1-th accent phrases of the i-th utterance of the speech parameter series, and the same accent of the speech data for learning The average value of logarithmic values of F0 around the phrase boundary is determined as mo ij , and the difference d is calculated (step S202a of loop S202). The average value of F0 near the boundary between accent phrases is calculated using F0 before and after the boundary of the accent phrase (see ms ij and mo ij in FIG. 7).

そして音調結合型抽出手段202は、差分dが閾値αより大であればそのアクセント句は弱結合(ステップS202b)、差分dが閾値α以下であればそのアクセント句は強結合(ステップS202b′)と判定する。この音調結合型の抽出は、全ての発話の全てのアクセント句に対して行われる。   The tone combination type extraction unit 202 weakly connects the accent phrase if the difference d is greater than the threshold value α (step S202b), and strongly connects the accent phrase if the difference d is equal to or less than the threshold value α (step S202b ′). Is determined. This tone combination type extraction is performed for all accent phrases of all utterances.

〔変形例1〕
アクセント句の境界の前後t[ms]のF0の平均値から音調結合型を求める例を説明したが、j番目とj+1番目のアクセント句を構成する全ての発話のF0の平均値の差分で音調結合型を判別しても良い。音声パラメータ系列のi番目の発話のj番目、j+1番目のアクセント句の平均値をfsij,fsij+1、学習用音声データの同じアクセント句の平均値をfoij,foij+1として求め、音声パラメータ系列の差分をds=fsij−fsij+1、学習用音声データの差分do=foij−foij+1とした時のdsとdoとの差分(do−ds)が閾値αより大の場合を弱結合、小の場合を強結合として判別しても良い。
[Modification 1]
The example in which the tone combination type is obtained from the average value of F0 around t [ms] before and after the boundary of the accent phrase has been described, but the tone is determined by the difference between the average values of F0 of all utterances constituting the jth and j + 1th accent phrases. The coupling type may be determined. The average value of the jth and j + 1th accent phrases of the i-th utterance of the speech parameter series is obtained as fs ij and fs ij + 1 , and the average value of the same accent phrase of the speech data for learning is obtained as fo ij and fo ij + 1 , and the speech parameter series The difference between ds and do when the difference between ds and fs ij + 1 is ds = fs ij −fs ij + 1 and learning speech data difference do = fo ij −fo ij + 1 is weakly coupled. A small case may be determined as strong coupling.

〔変形例2〕
音調結合型として弱結合と強結合の2種類のみを抽出する例で説明をしたが、任意のN種類の音調結合型を抽出することも可能である。図9に、N種類の音調結合型を抽出するようにした音調結合型抽出部20の動作フローを示す。
[Modification 2]
Although an example in which only two types of weak coupling and strong coupling are extracted as the tone coupling type has been described, any N types of tone coupling types can be extracted. FIG. 9 shows an operation flow of the tone combination type extraction unit 20 that extracts N types of tone combination types.

図9は、図8に対して複数の閾値αを備え、差分を判定するステップS202bが、複数の閾値α,α,…,αN−1のそれぞれと、差分dを比較してN個の結合型に判別する点で異なる。このように2種類以上の音調結合型に分類することで、合成音声をより自然な音声にすることが可能になる。 9 includes a plurality of threshold values α i compared to FIG. 8, and the step S202b for determining the difference compares the difference d with each of the plurality of threshold values α 1 , α 2 ,..., Α N−1. It is different in that it is discriminated into N coupled types. Thus, by classifying into two or more types of tone coupling types, it becomes possible to make the synthesized speech more natural.

〔音声合成装置〕
図10に、この発明の音声合成装置200の機能構成例を示す。その動作フローを図11に示す。音声合成装置200は、テキスト解析部210と、音声パラメータ生成部220と、音調結合型音響モデル230と、音声合成フィルタ部250と、制御部240と、を具備する。音声合成装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
[Speech synthesizer]
FIG. 10 shows a functional configuration example of the speech synthesizer 200 of the present invention. The operation flow is shown in FIG. The speech synthesizer 200 includes a text analysis unit 210, a speech parameter generation unit 220, a tone-coupled acoustic model 230, a speech synthesis filter unit 250, and a control unit 240. The speech synthesizer 200 is realized by reading a predetermined program into a computer composed of, for example, a ROM, a RAM, a CPU, and the like, and executing the program by the CPU.

テキスト解析部210は、音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析し、読みとアクセントと音調結合型とから成るテキスト情報を出力する(ステップS210)。音調結合型音響モデル230は、上記した音響モデル生成装置100で生成した音調結合型を考慮したモデル学習した音響モデルである。   The text analysis unit 210 receives the speech synthesis target text, performs text analysis on the speech synthesis target text, and outputs text information composed of reading, accent, and tone combination types (step S210). The tone coupled acoustic model 230 is an acoustic model that has been model-trained in consideration of the tone coupled type generated by the acoustic model generating apparatus 100 described above.

音声パラメータ生成部220は、音調結合型音響モデル230とテキスト情報を用いて、音声パラメータを生成する(ステップS220)。音声合成フィルタ部250は、音声パラメータ生成部220が出力する音声パラメータを用いて音声波形を生成する(ステップS250)。ステップS210〜S250は全てのテキストについての処理が終了するまで繰り返される(ステップS240)。この繰り返し動作に制御は制御部240が行う。   The voice parameter generation unit 220 generates a voice parameter using the tone coupled acoustic model 230 and text information (step S220). The speech synthesis filter unit 250 generates a speech waveform using the speech parameters output from the speech parameter generation unit 220 (step S250). Steps S210 to S250 are repeated until the processing for all texts is completed (step S240). The control unit 240 performs control for this repeated operation.

この発明の音声合成装置200によれば、音調結合型を考慮した音響モデルに基づいて音声を合成するので、通常のHMM音声合成より合成音の品質を向上させることができる。   According to the speech synthesizer 200 of the present invention, since the speech is synthesized based on the acoustic model that takes into account the tone combination type, the quality of the synthesized speech can be improved over the normal HMM speech synthesis.

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。   When the processing means in the above apparatus is realized by a computer, the processing contents of the functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることが出来る。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording media, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.

Claims (7)

音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用HMMを学習して生成するモデル学習過程と、
上記音声合成用HMMから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する音調結合型抽出過程と、
上記学習用音声データと上記発話情報と上記音調結合型とを入力として、上記音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習過程と、
を備える音響モデル生成方法。
A model learning process for learning and generating a speech synthesis HMM by using as input speech data for learning including pitch parameters and spectrum parameters, and speech information including phoneme segmentation information and accent information of the speech data for learning; ,
A speech parameter having the same phoneme segmentation information as the utterance information is generated from the speech synthesis HMM, and the pitch pattern shape between the accent phrases is influenced using the speech parameter and the parameter of the learning speech data. Tone combination type extraction process to extract the tone combination type to give ,
As inputs and the training speech data and the speech information and the tone-linked, and tone-linked model learning process of generating a tonal binding acoustic model performs model learning considering the tone-linked,
An acoustic model generation method comprising:
請求項1に記載した音響モデル生成方法において、
上記音調結合型抽出過程は、
上記モデル学習過程で生成された音声合成用HMMと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成ステップと、
上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の上記音調結合型を抽出する音調結合型抽出ステップと、
を含むことを特徴とする音響モデル生成方法。
The acoustic model generation method according to claim 1,
The tone combination extraction process is
A speech parameter generation step for generating a speech parameter sequence having the same phoneme segmentation information as the speech information, using the speech synthesis HMM generated in the model learning process and the speech information as inputs;
Using the parameters of the speech parameter sequence and speech data for the learning, and the tone-linked extracting the tonal coupled between accent phrases,
A method for generating an acoustic model, comprising:
請求項1又は2に記載した音響モデル生成方法で生成した音調結合型音響モデルと、
音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析過程と、
上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成過程と、
上記音声パラメータを用いて音声波形を生成する音声合成フィルタ過程と、
を備える音声合成方法。
Tone-coupled acoustic model generated by the acoustic model generation method according to claim 1 or 2,
A text analysis process in which the speech synthesis target text is input, the text synthesis target text is analyzed, and text information consisting of reading, accent, and tone combination type is output;
Using the tone-coupled acoustic model and the text information, a speech parameter generation process for generating speech parameters;
A speech synthesis filter process for generating a speech waveform using the speech parameters;
A speech synthesis method comprising:
音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用HMMを学習して生成するモデル学習部と、
上記音声合成用HMMから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する音調結合型抽出部と、
上記学習用音声データと上記発話情報と上記音調結合型とを入力として、上記音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習部と、
を具備する音響モデル生成装置。
A model learning unit that learns and generates a speech synthesis HMM by using as input speech data for learning including pitch parameters and spectrum parameters, and speech information including phoneme segmentation information and accent information of the speech data for learning; ,
A speech parameter having the same phoneme segmentation information as the utterance information is generated from the speech synthesis HMM, and the pitch pattern shape between the accent phrases is influenced using the speech parameter and the parameter of the learning speech data. A tone combination type extraction unit for extracting a tone combination type to be given ;
As inputs and the training speech data and the speech information and the tone-linked, and tone-linked model learning unit for generating a tonal binding acoustic model performs model learning considering the tone-linked,
An acoustic model generation apparatus comprising:
請求項4に記載した音響モデル生成装置において、
上記音調結合型抽出部は、
上記モデル学習部で生成された音声合成用HMMと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成手段と、
上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の上記音調結合型を抽出する音調結合型抽出手段と、
を備えることを特徴とする音響モデル生成装置。
In the acoustic model generation device according to claim 4,
The tone combination type extraction unit is
Speech parameter generation means for generating a speech parameter sequence having the same phoneme segmentation information as the speech information, using the speech synthesis HMM generated by the model learning unit and the speech information as inputs;
Using the parameters of the speech parameter sequence and speech data for the learning, and the tone-linked extracting means for extracting the tonal coupled between accent phrases,
An acoustic model generation device comprising:
請求項4又は5に記載した音響モデル生成装置で生成した音調結合型音響モデルと、
音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析部と、
上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成部と、
上記音声パラメータを用いて音声波形を生成する音声合成フィルタ部と、
を具備する音声合成装置。
Tone-coupled acoustic model generated by the acoustic model generation device according to claim 4 or 5,
A text analysis unit that receives the speech synthesis target text as input and outputs text information composed of reading, accent, and tone combination type by text analysis of the speech synthesis target text;
Using the tone-coupled acoustic model and the text information, a speech parameter generating unit that generates speech parameters;
A speech synthesis filter unit that generates a speech waveform using the speech parameters;
A speech synthesizer comprising:
請求項4又は5に記載した音響モデル生成装置、又は請求項6に記載した音声合成装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the acoustic model generation device according to claim 4 or the voice synthesis device according to claim 6.
JP2012248151A 2012-11-12 2012-11-12 Acoustic model generation method, speech synthesis method, apparatus and program thereof Active JP5722295B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012248151A JP5722295B2 (en) 2012-11-12 2012-11-12 Acoustic model generation method, speech synthesis method, apparatus and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012248151A JP5722295B2 (en) 2012-11-12 2012-11-12 Acoustic model generation method, speech synthesis method, apparatus and program thereof

Publications (2)

Publication Number Publication Date
JP2014095851A JP2014095851A (en) 2014-05-22
JP5722295B2 true JP5722295B2 (en) 2015-05-20

Family

ID=50938934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012248151A Active JP5722295B2 (en) 2012-11-12 2012-11-12 Acoustic model generation method, speech synthesis method, apparatus and program thereof

Country Status (1)

Country Link
JP (1) JP5722295B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719641B (en) * 2016-01-19 2019-07-30 百度在线网络技术(北京)有限公司 Sound method and apparatus are selected for waveform concatenation speech synthesis
CN110534089B (en) * 2019-07-10 2022-04-22 西安交通大学 Chinese speech synthesis method based on phoneme and prosodic structure

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3334471B2 (en) * 1995-09-25 2002-10-15 三菱電機株式会社 A pitch pattern generation device, a pitch pattern generation method, a learning device in a pitch pattern generation device, and a learning method in a pitch pattern generation method.
JP3583929B2 (en) * 1998-09-01 2004-11-04 日本電信電話株式会社 Pitch pattern deformation method and recording medium thereof
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
JP4559950B2 (en) * 2005-10-20 2010-10-13 株式会社東芝 Prosody control rule generation method, speech synthesis method, prosody control rule generation device, speech synthesis device, prosody control rule generation program, and speech synthesis program
JP4829912B2 (en) * 2008-02-27 2011-12-07 日本電信電話株式会社 Fundamental frequency estimation device, fundamental frequency estimation method, fundamental frequency estimation program, storage medium
JP6036682B2 (en) * 2011-02-22 2016-11-30 日本電気株式会社 Speech synthesis system, speech synthesis method, and speech synthesis program

Also Published As

Publication number Publication date
JP2014095851A (en) 2014-05-22

Similar Documents

Publication Publication Date Title
JP6622505B2 (en) Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
JP5665780B2 (en) Speech synthesis apparatus, method and program
JP6342428B2 (en) Speech synthesis apparatus, speech synthesis method and program
US10497362B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
JP6266372B2 (en) Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
JP6680933B2 (en) Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program
JP5411845B2 (en) Speech synthesis method, speech synthesizer, and speech synthesis program
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP6631883B2 (en) Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program
JP5807921B2 (en) Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
KR20200138993A (en) Method and apparatus for synthesizing emotional speech using emotion token
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
JP6594251B2 (en) Acoustic model learning device, speech synthesizer, method and program thereof
JP5722295B2 (en) Acoustic model generation method, speech synthesis method, apparatus and program thereof
JP5320341B2 (en) Speaking text set creation method, utterance text set creation device, and utterance text set creation program
JP6000326B2 (en) Speech synthesis model learning device, speech synthesis device, speech synthesis model learning method, speech synthesis method, and program
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2001255887A (en) Speech recognition device, speech recognition method and medium recorded with the method
JP2009300716A (en) Speech recognition device and its method, and program and its recording medium
JP6137708B2 (en) Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program
JP6370732B2 (en) Utterance intention model learning device, utterance intention extraction device, utterance intention model learning method, utterance intention extraction method, program
JP5155836B2 (en) Recorded text generation device, method and program
Piqueras et al. Statistical text-to-speech synthesis of Spanish subtitles

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150325

R150 Certificate of patent or registration of utility model

Ref document number: 5722295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150