JP6400526B2 - Speech synthesis apparatus, method thereof, and program - Google Patents
Speech synthesis apparatus, method thereof, and program Download PDFInfo
- Publication number
- JP6400526B2 JP6400526B2 JP2015103692A JP2015103692A JP6400526B2 JP 6400526 B2 JP6400526 B2 JP 6400526B2 JP 2015103692 A JP2015103692 A JP 2015103692A JP 2015103692 A JP2015103692 A JP 2015103692A JP 6400526 B2 JP6400526 B2 JP 6400526B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- phoneme
- boundary
- speech
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は音声合成技術に関し、特に合成音声の品質を向上させる技術に関する。 The present invention relates to speech synthesis technology, and more particularly to technology for improving the quality of synthesized speech.
近年の統計的音声合成技術の発展に伴い、高品質な合成音声の生成が可能になってきている。例えば、HMM(隠れマルコフモデル)音声合成技術(例えば非特許文献1等参照)の発展に伴い、任意の話者の音声データを学習することで、その話者の声質や調子での合成音声の生成が可能である。
With the recent development of statistical speech synthesis technology, high-quality synthesized speech can be generated. For example, with the development of HMM (Hidden Markov Model) speech synthesis technology (for example, see Non-Patent
また、合成音声の高品質化技術として様々な方法(例えば非特許文献2等参照)が提案されている。しかしながら、統計的な音声合成では実際の音声の様々な現象をとらえることはできず、品質の向上には限界がある。そのため、原音声の品質を生かすことで合成音声の品質を改善する方法が提案されている。例えば非特許文献3では、原音声の品質を生かす素片接続型音声合成方式(例えば、特許文献1参照)とHMM音声合成方式を組み合わせ、高域部分に素片接続型音声合成方式によるスペクトルを利用し、低域部分にHMM音声合成方式によるスペクトルを利用することで、合成音声の品質を改善する方法が提案されている。 In addition, various methods (for example, see Non-Patent Document 2) have been proposed as techniques for improving the quality of synthesized speech. However, statistical speech synthesis cannot capture various phenomena of actual speech, and there is a limit to improving quality. Therefore, a method for improving the quality of synthesized speech by utilizing the quality of the original speech has been proposed. For example, in Non-Patent Document 3, a unit connection type speech synthesis method (for example, see Patent Document 1) that utilizes the quality of the original speech is combined with a HMM speech synthesis method, and the spectrum of the unit connection type speech synthesis method is applied to the high frequency part. There has been proposed a method for improving the quality of synthesized speech by using the spectrum of the HMM speech synthesis method in the low frequency part.
非特許文献3の方法では、高域部分と低域部分の接続境界となる境界周波数が合成音声の品質に大きな影響を与える。すなわち、境界周波数を下げるほど、合成音声に占める素片接続型音声合成方式によるスペクトルが増加し、HMM音声合成方式によるスペクトルが減少する。そのため、境界周波数を下げるほど、合成音声の自然感(肉声感)は向上するが、隣接する音素(素片)の接続部での歪みに基づく異音発生頻度が高くなる。一方、境界周波数を上げるほど、合成音声に占める素片接続型音声合成方式によるスペクトルが減少し、HMM音声合成方式によるスペクトルが増加する。そのため、境界周波数を上げるほど、音素の接続部での歪みに基づく異音発生頻度は低くなるが、合成音声の自然感は低下する。よって、音素の接続部での歪に基づく異音発生と、素片接続型音声合成方式導入による自然感の向上との両方を考慮しなければ、合成音声の品質を向上することはできない。 In the method of Non-Patent Document 3, the boundary frequency serving as the connection boundary between the high frequency part and the low frequency part greatly affects the quality of the synthesized speech. That is, as the boundary frequency is lowered, the spectrum by the unit connection type speech synthesis method in the synthesized speech increases and the spectrum by the HMM speech synthesis method decreases. For this reason, the lower the boundary frequency, the better the natural feeling (speech feeling) of the synthesized speech, but the higher the frequency of abnormal noise generation based on the distortion at the connection of adjacent phonemes (segments). On the other hand, as the boundary frequency is increased, the spectrum of the unit connection type speech synthesis method occupied in the synthesized speech decreases and the spectrum of the HMM speech synthesis method increases. For this reason, the higher the boundary frequency, the lower the frequency of abnormal noise generation based on the distortion at the phoneme connection, but the natural feeling of the synthesized speech decreases. Therefore, the quality of synthesized speech cannot be improved unless both the generation of abnormal sounds based on distortion at the phoneme connection portion and the improvement of natural feeling due to the introduction of the unit connection type speech synthesis method are taken into consideration.
これらを考慮した適切な境界周波数は素片接続される音素に依存する。しかしながら、非特許文献3の方法では一律の境界周波数が設定されていたため、十分な品質向上効果が得られない場合があった。また、従来は境界周波数を手動で設定する必要があった。 An appropriate boundary frequency considering these depends on the phoneme connected to the unit. However, in the method of Non-Patent Document 3, since a uniform boundary frequency is set, a sufficient quality improvement effect may not be obtained. Conventionally, it has been necessary to manually set the boundary frequency.
本発明の課題は、適切な境界周波数を自動的に決定し、合成音声の品質を向上する技術を提供することである。 An object of the present invention is to provide a technique for automatically determining an appropriate boundary frequency and improving the quality of synthesized speech.
テキストに応じて素片接続される音素の素片境界前後のスペクトル特徴量の距離に基づいて境界周波数を決定し、テキストに応じた素片接続によって得られる第1合成音声のスペクトルの境界周波数に応じた高域側の成分と、テキストに音声合成のための音響モデルを適用して得られる第2合成音声のスペクトルの境界周波数に応じた低域側の成分とを混合した混合スペクトルを得る。 The boundary frequency is determined based on the distance between the spectral feature quantities before and after the boundary of the phoneme unit connected in accordance with the text, and the boundary frequency of the spectrum of the first synthesized speech obtained by the segment connection in accordance with the text is determined. A mixed spectrum is obtained by mixing the corresponding high-frequency component and the low-frequency component corresponding to the boundary frequency of the spectrum of the second synthesized speech obtained by applying an acoustic model for speech synthesis to the text.
これにより、適切な境界周波数を自動的に決定し、合成音声の品質を向上できる。 Thereby, an appropriate boundary frequency is automatically determined, and the quality of the synthesized speech can be improved.
以下、本発明の実施形態を説明する。
[概要]
実施形態の概要を説明する。実施形態では、入力された「テキスト」に応じて素片接続される音素の素片境界前後のスペクトル特徴量の距離に基づいて境界周波数を決定し、「テキスト」に応じた素片接続によって得られる第1合成音声のスペクトルの境界周波数に応じた高域側の成分と、「テキスト」に音声合成のための「音響モデル」を適用して得られる第2合成音声のスペクトルの境界周波数に応じた低域側の成分とを混合した混合スペクトルを得る。「音響モデル」の例はHMMなどの確率モデルである。境界周波数よりも高域の帯域が「境界周波数に応じた高域側」であり、それ以外の帯域が「境界周波数に応じた低域側」であってもよいし、境界周波数以上の高域が「境界周波数に応じた高域側」であり、それ以外の帯域が「境界周波数に応じた低域側」であってもよい。境界周波数よりも高域の帯域が「境界周波数に応じた高域側」であり、境界周波数よりも低域の帯域が「境界周波数に応じた低域側」であってもよい。境界周波数に定数または変数を加算または減算した周波数を境界として「境界周波数に応じた高域側」および「境界周波数に応じた低域側」が定められてもよい。「境界周波数に応じた高域側」の帯域と「境界周波数に応じた低域側」の帯域とが一部で重複してもよい。ここで、素片境界前後のスペクトル特徴量の距離に基づいて境界周波数を決定するため、境界周波数の設定を自動化できるとともに、音素の接続部での歪の大きさに応じ、合成音声に占める素片接続型音声合成方式によるスペクトルが含まれる帯域を調整できる。その結果、音素の接続部での歪に基づく異音発生と、素片接続型音声合成方式導入による自然感の向上との両方を考慮して合成音声の品質を向上させることができる。
Embodiments of the present invention will be described below.
[Overview]
An overview of the embodiment will be described. In the embodiment, the boundary frequency is determined based on the distance between the spectral features before and after the segment boundary of the phoneme unit connected in accordance with the input “text”, and obtained by the segment connection in accordance with “text”. According to the boundary frequency of the spectrum of the second synthesized speech obtained by applying the “acoustic model” for speech synthesis to the “text”. A mixed spectrum obtained by mixing the low-frequency components is obtained. An example of the “acoustic model” is a probabilistic model such as an HMM. The higher frequency band than the boundary frequency may be “the high frequency side corresponding to the boundary frequency”, and the other band may be “the low frequency side corresponding to the boundary frequency”, or the high frequency above the boundary frequency May be “the high frequency side corresponding to the boundary frequency”, and the other band may be “the low frequency side corresponding to the boundary frequency”. The higher frequency band than the boundary frequency may be “a high frequency side corresponding to the boundary frequency”, and the lower frequency band than the boundary frequency may be “a low frequency side corresponding to the boundary frequency”. “A high frequency side corresponding to the boundary frequency” and “a low frequency side corresponding to the boundary frequency” may be determined with a frequency obtained by adding or subtracting a constant or a variable to or from the boundary frequency as a boundary. The band on the “high band side corresponding to the boundary frequency” and the band on the “low band side corresponding to the boundary frequency” may partially overlap. Here, since the boundary frequency is determined based on the distance between the spectral feature quantities before and after the segment boundary, setting of the boundary frequency can be automated, and the element occupied in the synthesized speech according to the magnitude of distortion at the phoneme connection portion. It is possible to adjust the band including the spectrum by the single connection type speech synthesis method. As a result, it is possible to improve the quality of the synthesized speech in consideration of both the generation of abnormal noise based on distortion at the phoneme connection portion and the improvement of natural feeling by introducing the unit connection type speech synthesis method.
「テキスト」に応じて素片接続される音素の種別に応じ、(a)スペクトル特徴量の距離に基づいて「所定の周波数区間」内の境界周波数を決定する第1方式、(b)「所定の周波数区間」の上限値以上の周波数を境界周波数とする第2方式、または(c)「所定の周波数区間」の下限値以下の周波数を境界周波数とする第3方式の何れかを選択してもよい。これにより、素片接続される音素の種別に応じて適切な境界周波数を選択でき、合成音声の品質を向上させることができる。 (A) a first method for determining a boundary frequency within a “predetermined frequency section” based on a distance of a spectrum feature amount according to the type of phoneme connected according to “text”; and (b) “predetermined” And select either the second method in which the frequency equal to or higher than the upper limit value of “frequency interval” is the boundary frequency, or (c) the third method in which the frequency equal to or lower than the lower limit value of “predetermined frequency interval” is the boundary frequency. Also good. As a result, an appropriate boundary frequency can be selected according to the type of phoneme connected, and the quality of the synthesized speech can be improved.
例えば、「テキスト」に応じて素片接続される音素のそれぞれである「現音素」と「現音素」の直前の「先行音素」との間の歪みが音質に与える影響が大きく、かつ、「現音素」と「現音素」の直後の「後続音素」との間の歪みが音質に与える影響が小さい場合、「現音素」に対する境界周波数を決定するために「第1方式」が選択される。例えば「現音素」が母音または有声子音を表し、「現音素」の直前の「先行音素」が母音または有声子音を表し、「現音素」の直後の「後続音素」が無声子音を表す場合に、「現音素」に対して「第1方式」が選択される。これらの例の「第1方式」では「現音素」と「現音素」の直前の「先行音素」とのスペクトル特徴量の距離に基づいて「現音素」に対する境界周波数を決定する。これにより、「現音素」と「先行音素」との間の歪みに基づく異音発生と、素片接続型音声合成方式導入による自然感の向上との両方を考慮し、「現音素」に対応する合成音声の品質を向上できる。 For example, the distortion between the “present phoneme” that is each of the phonemes connected according to the “text” and the “preceding phoneme” immediately before the “present phoneme” has a great influence on the sound quality, and “ If the distortion between the “current phoneme” and the “subsequent phoneme” immediately after the “current phoneme” has little effect on the sound quality, the “first method” is selected to determine the boundary frequency for the “current phoneme”. . For example, when “present phoneme” represents a vowel or voiced consonant, “preceding phoneme” immediately before “present phoneme” represents a vowel or voiced consonant, and “succeeding phoneme” immediately after “present phoneme” represents an unvoiced consonant. , “First method” is selected for “current phoneme”. In the “first method” in these examples, the boundary frequency for the “current phoneme” is determined based on the distance of the spectral feature amount between the “current phoneme” and the “preceding phoneme” immediately before the “current phoneme”. As a result, both the generation of abnormal sounds based on the distortion between the “present phoneme” and the “preceding phoneme” and the improvement of the natural feeling through the introduction of the unit-connected speech synthesis method are supported. The quality of synthesized speech can be improved.
例えば、「現音素」と「後続音素」との間の歪みが音質に与える影響が大きい場合、「現音素」に対する境界周波数を決定するために「第2方式」が選択される。例えば、「現音素」が母音または有声子音を表し、「現音素」の直後の「後続音素」が母音または有声子音を表す場合に、「現音素」に対して「第2方式」が選択される。これによって境界周波数を高くし、「現音素」に対応する合成音声に占める素片接続型音声合成方式によるスペクトルを減少させ、「現音素」と「後続音素」との間の歪みに基づく異音発生を抑制する。 For example, when the distortion between the “current phoneme” and the “succeeding phoneme” has a great influence on the sound quality, the “second method” is selected to determine the boundary frequency for the “current phoneme”. For example, when “present phoneme” represents a vowel or voiced consonant and “succeeding phoneme” immediately after “present phoneme” represents a vowel or voiced consonant, “second method” is selected for “present phoneme”. The As a result, the boundary frequency is increased, the spectrum of the unit-connected speech synthesis method that occupies the synthesized speech corresponding to the “present phoneme” is reduced, and the abnormal sound based on the distortion between the “present phoneme” and the “subsequent phoneme” is reduced. Suppresses the occurrence.
例えば、「現音素」と「現音素」の直前の「先行音素」との間の歪みが音質に与える影響が小さく、かつ、「現音素」と「現音素」の直後の「後続音素」との間の歪みが音質に与える影響が小さい場合、「現音素」に対して「第3方式」を選択する。例えば、「現音素」が母音または有声子音を表し、「現音素」の直前の「先行音素」および直後の「後続音素」が無声子音を表す場合、および/または、現音素が無声子音を表す場合に、「現音素」に対して「第3方式」が選択される。このように歪みが音質に与える影響が小さい場合、境界周波数を低くし、「現音素」に対応する合成音声に占める素片接続型音声合成方式によるスペクトルを増加させる。これにより、歪みに基づく異音発生を抑えつつ、合成音声の自然感を向上させる。 For example, the distortion between “present phoneme” and “preceding phoneme” immediately before “present phoneme” has little effect on the sound quality, and “following phoneme” immediately after “present phoneme” and “present phoneme” When the effect of the distortion during the period on the sound quality is small, the “third method” is selected for the “current phoneme”. For example, when “present phoneme” represents a vowel or voiced consonant, “preceding phoneme” immediately before “present phoneme” and “succeeding phoneme” immediately following represent unvoiced consonant, and / or present phoneme represents unvoiced consonant. In this case, the “third method” is selected for the “current phoneme”. When the influence of distortion on the sound quality is small in this way, the boundary frequency is lowered, and the spectrum by the unit connection type speech synthesis method that occupies the synthesized speech corresponding to the “current phoneme” is increased. This improves the natural feeling of the synthesized speech while suppressing the generation of abnormal noise based on distortion.
「第1方式」で、所定の周波数区間の一部の帯域である「第1判定帯域」での前述の「スペクトル特徴量の距離」を得、「第1判定帯域」での「スペクトル特徴量の距離」が「許容限界値(閾値)」未満であれば、「第1判定帯域」に応じた周波数を境界周波数とし、「第1判定帯域」での「スペクトル特徴量の距離」が「許容限界値」未満でなければ、「第1判定帯域」よりも周波数の高い帯域を「第2判定帯域」とし、「第2判定帯域」を「第1判定帯域」とした同様な処理を再び実行してもよい。すなわち、低域側の「第1判定帯域」から順次「スペクトル特徴量の距離」を計算し、「スペクトル特徴量の距離」が「許容限界値」未満であれば、そのときの「第1判定帯域」に応じた周波数を境界周波数としてもよい。「第1判定帯域に応じた周波数」の例は、「第1判定帯域」の下限周波数、「第1判定帯域」の上限周波数、または「第1判定帯域」の中心周波数などである。「第2判定帯域」の例は、「第1判定帯域」の上限周波数または当該上限周波数に隣接する周波数を下限周波数とする帯域、あるいは「第1判定帯域」の上限周波数よりも高いその他の周波数を下限周波数とする帯域である。「第1判定帯域」の初期値の例は、所定の周波数区間の下限周波数を下限とする帯域である。人間の聴覚特性上、周波数が高いほど隣接する音素の接続部での歪みに基づく異音が合成音声の品質に与える影響が小さい。そのため、「第1判定帯域」での「スペクトル特徴量の距離」が「許容限界値」未満であって音素間の歪みが小さいのであれば、「第1判定帯域」よりも周波数が高い帯域でも音素間の歪みに基づく異音が合成音声の品質に与える影響も小さいことが多い。そのため、「スペクトル特徴量の距離」が「許容限界値」未満となった「第1判定帯域」に応じた周波数を境界周波数とすることで、歪みに基づく異音の影響を抑えつつ、合成音声の自然感を向上できる。また、「スペクトル特徴量の距離」が「許容限界値」未満となるまで、「第1判定帯域」の周波数を上げながら上述の処理を繰り返すことにより、歪みに基づく異音の影響を抑制可能なできるだけ低い周波数を境界周波数とできる。その結果、歪みに基づく異音の影響を抑えつつ、合成音声に占める素片接続型音声合成方式によるスペクトルをできるだけ増加させ、合成音声の自然感を向上できる。 In the “first method”, the above-described “spectral feature amount distance” in the “first determination band” which is a partial band of the predetermined frequency section is obtained, and the “spectral feature amount” in the “first determination band” If the “distance” is less than the “allowable limit value (threshold)”, the frequency corresponding to the “first determination band” is set as the boundary frequency, and the “spectral feature distance” in the “first determination band” is “allowable”. If it is not less than the “limit value”, the same processing is executed again with the frequency band higher than the “first determination band” as the “second determination band” and the “second determination band” as the “first determination band”. May be. That is, the “spectral feature amount distance” is calculated sequentially from the “first determination band” on the low frequency side, and if the “spectral feature amount distance” is less than the “allowable limit value”, the “first determination” at that time A frequency corresponding to “band” may be used as the boundary frequency. Examples of the “frequency according to the first determination band” are the lower limit frequency of the “first determination band”, the upper limit frequency of the “first determination band”, or the center frequency of the “first determination band”. Examples of the “second determination band” include a band having the upper limit frequency of the “first determination band” or a frequency adjacent to the upper limit frequency as the lower limit frequency, or other frequencies higher than the upper limit frequency of the “first determination band”. Is a band having a lower limit frequency. An example of the initial value of the “first determination band” is a band whose lower limit is the lower limit frequency of a predetermined frequency section. From the viewpoint of human auditory characteristics, the higher the frequency, the smaller the influence that an abnormal sound based on the distortion at the connection part of adjacent phonemes has on the quality of the synthesized speech. Therefore, if the “spectral feature distance” in the “first determination band” is less than the “allowable limit value” and the distortion between phonemes is small, even in a band having a higher frequency than the “first determination band”. In many cases, the influence of abnormal sounds based on distortion between phonemes on the quality of synthesized speech is small. For this reason, the frequency corresponding to the “first determination band” in which the “spectral feature amount distance” is less than the “allowable limit value” is set as the boundary frequency, thereby suppressing the influence of abnormal noise based on the distortion and the synthesized speech. Can improve the natural feeling. Further, by repeating the above processing while increasing the frequency of the “first determination band” until the “spectral feature distance” becomes less than the “allowable limit value”, it is possible to suppress the influence of abnormal noise based on distortion. The lowest possible frequency can be used as the boundary frequency. As a result, it is possible to increase the spectrum of the unit connection type speech synthesis method that occupies the synthesized speech as much as possible and to improve the natural feeling of the synthesized speech while suppressing the influence of abnormal sounds based on distortion.
「許容限界値」は、「第1判定帯域」ごと(第1判定帯域に応じた周波数ごと)に定められてもよいし、すべての「第1判定帯域」に対して均一であってもよい。「許容限界値」が「第1判定帯域」ごとに定められる場合、「許容限界値」が「第1判定帯域」に応じた周波数に対して広義単調増加する関係にあってもよい。例えば「第1判定帯域」に応じた周波数が高いほど「許容限界値」が大きくてもよい。この場合、「許容限界値」が大きいほど、「第1判定帯域」での「スペクトル特徴量の距離」が「許容限界値」未満となる頻度が上がり、低い周波数が境界周波数として選択される頻度が高くなる。一方、周波数が高いほど隣接する音素の接続部での歪みに基づく異音が合成音声の品質に与える影響は小さくなる。そのため、「許容限界値」が「第1判定帯域」に応じた周波数に対して広義単調増加する関係にある場合、歪みに基づく異音の影響を抑えつつ、合成音声に占める素片接続型音声合成方式によるスペクトルをできるだけ増加させ、合成音声の自然感を向上させることができる。 The “allowable limit value” may be determined for each “first determination band” (for each frequency according to the first determination band), or may be uniform for all “first determination bands”. . When the “allowable limit value” is determined for each “first determination band”, the “allowable limit value” may be monotonously increased in a broad sense with respect to the frequency corresponding to the “first determination band”. For example, the “allowable limit value” may be larger as the frequency corresponding to the “first determination band” is higher. In this case, as the “allowable limit value” is larger, the frequency at which the “spectral feature distance” in the “first determination band” is less than the “allowable limit value” increases, and the frequency at which a lower frequency is selected as the boundary frequency. Becomes higher. On the other hand, the higher the frequency, the smaller the influence of abnormal sound on the quality of the synthesized speech due to distortion at the connection part of adjacent phonemes. Therefore, when the “allowable limit value” is in a monotonically increasing relationship with respect to the frequency corresponding to the “first determination band”, the unit-connected speech occupying the synthesized speech while suppressing the influence of abnormal noise based on distortion. The spectrum by the synthesis method can be increased as much as possible to improve the natural feeling of the synthesized speech.
「第2方式」および「第3方式」が、「テキスト」に応じて素片接続される音素の基本周波数に対する、「テキスト」に前述の「音響モデル」を適用して得られる基本周波数の「変更度合い」に基づいて境界周波数を決定する方式であってもよい。「第2方式」および「第3方式」で選択される「境界周波数」が「変更度合い」の大きさに対して広義単調増加する関係にあってもよい。例えば、「第2方式」において、「変更度合い」が所定の範囲内である場合に「所定の周波数区間」の上限値を境界周波数とし、そうでない場合に「所定の周波数区間」の上限値を超える周波数(例えば、ナイキスト周波数)を境界周波数としてもよい。「第3方式」において、「変更度合い」が所定の範囲内である場合に「所定の周波数区間」の下限値未満の周波数(例えば、0Hz)を境界周波数とし、そうでない場合に「所定の周波数区間」の下限値を境界周波数としてもよい。一般に「変更度合い」が大きいほど、素片接続型音声合成方式で得られる合成音声の品質は低下する。そのため、「変更度合い」に基づいて境界周波数を決定することで、合成音声の品質を向上させることができる。 The “second method” and the “third method” are fundamental frequencies “obtained by applying the above-mentioned“ acoustic model ”to“ text ”with respect to the fundamental frequencies of phonemes connected in accordance with“ text ”. A method of determining the boundary frequency based on the “degree of change” may be used. The “boundary frequency” selected by the “second method” and the “third method” may be monotonically increasing in a broad sense with respect to the “change degree”. For example, in the “second method”, when the “degree of change” is within a predetermined range, the upper limit value of the “predetermined frequency section” is set as the boundary frequency, and otherwise, the upper limit value of the “predetermined frequency section” is set. It is good also considering the frequency (for example, Nyquist frequency) beyond as a boundary frequency. In the “third method”, when the “change degree” is within a predetermined range, a frequency less than the lower limit value of the “predetermined frequency section” (for example, 0 Hz) is set as the boundary frequency, and otherwise, the “predetermined frequency” The lower limit value of “section” may be the boundary frequency. In general, the greater the “change degree”, the lower the quality of synthesized speech obtained by the unit connection type speech synthesis method. Therefore, by determining the boundary frequency based on the “degree of change”, the quality of the synthesized speech can be improved.
[第1実施形態]
第1実施形態を説明する。
<構成>
図1に例示するように、本形態の音声合成装置1は、入力部11、音声コーパス記憶部212、音声データベース(DB)記憶部122、音響モデル記憶部123、音声データベース(DB)構築部131、音響モデル生成部132、素片接続型音声合成部133、HMM音声合成部134、境界周波数決定部135、スペクトル混合処理部136、および波形生成処理部137を有する。図2Aに例示するように、本形態の境界周波数決定部135は決定部1352を含む。図2Bに例示するように、本形態のスペクトル混合処理部136は、ハイパスフィルタ1361、ローパスフィルタ1362、および混合部1363を有する。実施形態の音声合成装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
[First Embodiment]
A first embodiment will be described.
<Configuration>
As illustrated in FIG. 1, the
<前処理>
前処理として音声コーパス記憶部121に音声コーパスが格納される。音声DB構築部131は、音声コーパス記憶部121に格納された音声コーパスを用い、素片接続型音声合成方式による音声合成に利用可能な音声DBを生成する。例えば、音声DB構築部131は、特許2761552号公報、特許4430960号公報などに記載された公知の方法を用いて音声DBを生成できる。生成された音声DBは、音声DB記憶部122に格納される。音響モデル生成部132には、音声コーパス記憶部121に格納された音声コーパスを学習データとして用い、音声合成のための音響モデルを生成する。音響モデルの例は、HMM音声合成用の音響モデルであり、例えば非特許文献1などに記載された公知の方法を用いて生成できる。本形態の音響モデルは、HMMスペクトル(周波数スペクトル)および基本周波数等をモデル化したものである。生成された音響モデルは音響モデル記憶部123に格納される。
<Pretreatment>
The speech corpus is stored in the speech
<音声合成処理>
次に、図3を用いて本形態の音声合成処理を説明する。入力部11には音声合成の対象となる文章を表すテキストが入力される。テキストは素片接続型音声合成部133およびHMM音声合成部134に入力される。HMM音声合成部134は、音響モデル記憶部123に格納された音響モデルにテキストを適用(例えば、テキストのテキスト解析結果を適用)してHMMスペクトルおよび基本周波数等を得て出力する。HMMスペクトルおよび基本周波数等はスペクトル混合処理部136に送られ、基本周波数はさらに素片接続型音声合成部133に送られる(ステップS134:HMM音声合成処理)。素片接続型音声合成部133は、テキストおよび基本周波数を入力とし、音声DB記憶部122に格納された音声DBを用いて当該テキストに応じた素片接続(素片接続型音声合成)を行い、素片スペクトル(当該テキストに応じた素片接続によって得られる第1合成音声のスペクトル)およびそれに対応する時間情報付の音素系列を得て出力する。「時間情報付の音素系列」は、素片接続された音素の系列であって各音素の時間情報が付与されたものである。音素の時間情報とは、例えば、所定の時刻(例えば、音素系列の先頭時刻)を基準とした音素の時間軸上の位置(例えば、音素の開始時刻または終了時刻)を表す情報である。素片スペクトルおよびそれに対応する時間情報付の音素系列は境界周波数決定部135に送られ、素片スペクトルはさらにスペクトル混合処理部136に送られる(ステップS133:素片接続型音声合成処理)。
<Speech synthesis processing>
Next, the speech synthesis process of this embodiment will be described with reference to FIG. The
境界周波数決定部135は、素片スペクトルおよび時間情報付の音素系列を入力とし、前述のようにテキストに応じて素片接続された音素の素片境界前後のスペクトル特徴量の距離に基づいて境界周波数Bを決定して出力する(ステップS135:境界周波数決定処理)。 The boundary frequency determination unit 135 receives a segment spectrum and a phoneme sequence with time information as input, and based on the distance between the spectral feature quantities before and after the segment boundary of the phonemes connected according to the text as described above The frequency B is determined and output (step S135: boundary frequency determination process).
≪ステップS135の詳細の例示≫
図4Aおよび図4Bを用い、ステップS135の詳細を例示する。本形態では素片接続された音素ごとに境界周波数を決定する。本形態では、境界周波数を決定しようとする現音素(i番目の音素)と当該現音素の直前の先行音素(i−1番目の音素)との音素境界Tiの前後の計算区間長Tの時間区間における「所定の周波数区間」がN個(たとえば10個)の帯域(周波数帯域)b1,・・・,bNに区分される。ただし、Tは正値であり、例えば20msecである。Nは2以上の正整数であり、例えばT=10である。「所定の周波数区間」の上限値BNおよび下限値B0は予め定められている。上限値BNの例は母音の第2フォルマントの上限周波数(例えば3kHz)であり、下限値B0の例は母音の第1フォルマントの下限周波数(例えば200Hz)である。各帯域bnの上限値をBnと表記する。本形態ではnが大きな帯域bnほど周波数が高く、帯域bn’−1の上限値Bn’−1が帯域bn’の下限値と一致する。帯域b1,・・・,bNは「所定の周波数区間」をメル尺度(メル周波数)上で等間隔に区分したものであることが望ましいが、線形尺度(線形周波数)上で等間隔に区分したもの等、それ以外の基準で区分されたものであってもよい。
<< Example of details of step S135 >>
The details of step S135 are illustrated using FIGS. 4A and 4B. In this embodiment, the boundary frequency is determined for each phoneme connected to the segment. In this embodiment, the calculation interval length T before and after the phoneme boundary T i between the current phoneme (i-th phoneme) whose boundary frequency is to be determined and the preceding phoneme (i−1th phoneme) immediately before the current phoneme The “predetermined frequency section” in the time section is divided into N (for example, 10) bands (frequency bands) b 1 ,..., B N. However, T is a positive value, for example, 20 msec. N is a positive integer equal to or greater than 2, for example, T = 10. The upper limit value B N and the lower limit value B 0 of the “predetermined frequency section” are determined in advance. An example of the upper limit value B N is the upper limit frequency (for example, 3 kHz) of the second formant of the vowel, and an example of the lower limit value B 0 is the lower limit frequency (for example, 200 Hz) of the first formant of the vowel. The upper limit value of each band b n is expressed as B n . High frequency the larger the band b n is n is in this embodiment, the upper limit B n'-1 band b n'-1 matches the lower limit of the band b n '. The bands b 1 ,..., B N are preferably obtained by dividing the “predetermined frequency section” at equal intervals on the mel scale (mel frequency), but at equal intervals on the linear scale (linear frequency). It may be classified according to other criteria such as classified.
境界周波数決定部135の決定部1352(図2A)はn:=1と初期化する。ただし、「n:=1」はnを1とする(nに1を代入する)ことを意味する(ステップS1352a)。決定部1352は、先行音素のTi−TからTiまでの時間区間における帯域bn(所定の周波数区間の一部の帯域である第1判定帯域)でのスペクトル特徴量の平均値Sn,i−1と、現音素のTiからTi+Tまでの時間区間における帯域bnでのスペクトル特徴量の平均値Sn,iとを計算する。例えば、帯域bnでのi−1番目の音素(先行音素)の離散時刻tでのスペクトル特徴量をsn,i−1,tとし、帯域bnでのi番目の音素(現音素)の離散時刻tでのスペクトル特徴量をsn,i,tとすると、以下の関係が成り立つ。
なお、スペクトル特徴量の例は、パワースペクトル、メルケプストラム係数、ケプストラム係数などである(ステップS1352b)。
The determination unit 1352 (FIG. 2A) of the boundary frequency determination unit 135 initializes n: = 1. However, “n: = 1” means that n is 1 (1 is substituted for n) (step S1352a). The
Note that examples of the spectrum feature amount include a power spectrum, a mel cepstrum coefficient, a cepstrum coefficient, and the like (step S1352b).
次に決定部1352は、Sn,i−1とSn,iとの距離Dn,i(第1判定帯域bnでのスペクトル特徴量の距離)を計算する。Sn,i−1およびSn,iがスカラーである場合、距離Dn,iはSn,i−1とSn,iとの差分(絶対値)であり、Sn,i−1およびSn,iがベクトルである場合、距離Dn,iはSn,i−1とSn,iとのノルムである(ステップS1352c)。決定部1352は、帯域bnにおける許容限界値Lnと距離Dn,iとを比較し、Ln>Dn,iであるかを判定する。ただし、許容限界値Lnは聴取実験などによって予め定めておいた値である。許容限界値Lnは、帯域bnごとに定められてもよいし、すべての帯域b1,・・・,bNに対して均一であってもよい。許容限界値Lnが帯域bnごとに定められる場合、許容限界値Lnが帯域bnに応じた周波数(例えば、BnまたはBn−1)に対して広義単調増加する関係にあってもよい(ステップS1352d)。ここで、距離Dn,iが許容限界値Ln未満(Ln>Dn,i)であれば、決定部1352は、帯域bnに応じた周波数を境界周波数Bとする。例えば、B=Bnとしてもよいし、B=Bn−1としてもよいし、B=(Bn−1+Bn)/2としてもよい(ステップS1352g)。一方、距離Dn,iが許容限界値Ln未満でなければ、決定部1352はn=Nであるかを判定する(ステップS1352e)。ここで、n=Nでなければ、決定部1352は、n:=n+1として(ステップS1352f)、ステップS1352b以降の処理を実行する。すなわち決定部1352は、第1判定帯域(帯域bn)でのスペクトル特徴量の距離Dn,iが許容限界値Ln未満でなければ、第1判定帯域よりも周波数の高い帯域bn+1(この例では1つ高域側の帯域)を第2判定帯域とし、第2判定帯域を第1判定帯域とした処理を行う。一方、n=NであればステップS1352gが実行され、帯域bNに応じた周波数(例えば上限値BN)を境界周波数Bとする(ステップS1352g)。以上のステップS1352a〜S1352gの処理は、音素接続される各音素を現音素としてそれぞれ実行される。このような処理により、定量的な基準に基づいて各音素に対応する境界周波数Bを決定できる。
Next, the
境界周波数決定部135から出力された境界周波数Bはスペクトル混合処理部136に送られる。スペクトル混合処理部136は、音素ごとに、入力された素片スペクトル(テキストに応じた素片接続によって得られる第1合成音声のスペクトル)の境界周波数Bに応じた高域側の成分と、HMMスペクトル(テキストに音声合成のための音響モデルを適用して得られる第2合成音声のスペクトル)の境界周波数Bに応じた低域側の成分とを混合した混合スペクトルを得る。図5の例では、素片スペクトルおよび境界周波数Bがハイパスフィルタ1361に入力される。ハイパスフィルタ1361は、ハイパスフィルタ処理によって素片スペクトルの境界周波数B以下の低域部をカットし、素片スペクトルの高域側の成分を得て出力する。またHMMスペクトルおよび境界周波数Bがローパスフィルタ1362に入力される。ローパスフィルタ1362は、ローパスフィルタ処理によってHMMスペクトルの境界周波数B以上の高域部をカットすることによりHMMスペクトルの低域側の成分を得て出力する。混合部1363は、素片スペクトルの高域側の成分およびHMMスペクトルの低域側の成分を入力とし、これらを混合(合成)して混合スペクトルを得て出力する。これらの処理は全て音素毎に行う。混合スペクトルは基本周波数とともに波形生成処理部137に送られる(ステップS136:スペクトル混合処理)。
The boundary frequency B output from the boundary frequency determination unit 135 is sent to the spectrum
波形生成処理部137は、入力された混合スペクトルおよび基本周波数を用い、混合スペクトルに対応する時間領域の波形(合成音声)を生成して出力する。この処理には、例えば、参考文献1(H.Kawahara, ”STRAIGHT, exploitation of the other aspect of VOCODER : Perceptually isomorphic decomposition of speech sounds”, Acoustic Science and Technology, Vol.27, No.6, pp.349-353, 2006)に記載された方法を用いることができる(ステップS137:波形生成処理)。
The waveform
[第2実施形態]
本形態は第1実施形態の変形例である。本形態では、テキストに応じて素片接続される音素の種別に応じ、(a)スペクトル特徴量の距離に基づいて所定の周波数区間内の境界周波数を決定する第1方式、(b)周波数区間の上限値以上の周波数を境界周波数とする第2方式、または(c)周波数区間の下限値以下の周波数を境界周波数とする第3方式の何れかを選択する。以下では既に説明した事項との相違点を中心に説明し、説明済みの事項についてはそれまでに用いた参照番号を流用して説明を省略する。
[Second Embodiment]
This embodiment is a modification of the first embodiment. In this embodiment, according to the type of phoneme connected according to the text, (a) a first method for determining a boundary frequency within a predetermined frequency interval based on the distance of the spectral feature amount, (b) the frequency interval Is selected from the second method in which the frequency equal to or higher than the upper limit value is set as the boundary frequency, or (c) the third method in which the frequency equal to or lower than the lower limit value of the frequency section is set as the boundary frequency. In the following, differences from the items already described will be mainly described, and for the items already described, the reference numbers used so far will be used and description thereof will be omitted.
<構成>
図1に例示するように、本形態の音声合成装置2は、入力部11、音声コーパス記憶部212、音声DB記憶部122、音響モデル記憶部123、音声DB構築部131、音響モデル生成部132、素片接続型音声合成部133、HMM音声合成部134、境界周波数決定部235、スペクトル混合処理部136、および波形生成処理部137を有する。図2Aに例示するように、本形態の境界周波数決定部235は、決定方法選択部2351および決定部2352を含む。
<Configuration>
As illustrated in FIG. 1, the speech synthesizer 2 of this embodiment includes an
<前処理>
第1実施形態と同じである。
<Pretreatment>
The same as in the first embodiment.
<音声合成処理>
第1実施形態との相違点は、境界周波数決定部135がステップS135の境界周波数決定処理を行うことに代えて、境界周波数決定部235がステップS235の境界周波数決定処理を行うことである。その他は第1実施形態で説明した通りである。以下では、ステップS235の境界周波数決定処理のみを説明する。
<Speech synthesis processing>
The difference from the first embodiment is that the boundary frequency determination unit 235 performs the boundary frequency determination process in step S235 instead of the boundary frequency determination unit 135 performing the boundary frequency determination process in step S135. Others are as described in the first embodiment. Hereinafter, only the boundary frequency determination processing in step S235 will be described.
≪ステップS235≫
境界周波数決定部235は、素片スペクトルおよび時間情報付の音素系列を入力とし、前述のようにテキストに応じて素片接続された音素の素片境界前後のスペクトル特徴量の距離に基づいて境界周波数Bを決定して出力する(ステップS235:境界周波数決定処理)。図6を用いて本形態のステップS235の処理を説明する。
<< Step S235 >>
The boundary frequency determination unit 235 receives the segment spectrum and the phoneme sequence with time information as input, and based on the distance between the spectrum feature quantities before and after the segment boundary of the phonemes connected according to the text, as described above. The frequency B is determined and output (step S235: boundary frequency determination process). The process of step S235 of the present embodiment will be described using FIG.
まず、境界周波数決定部235の決定方法選択部2351(図2A)は、時間情報付の音素系列によって表された素片接続される音素の種別(音素そのものの種別および隣接する音素の種別の組み合わせ)に応じ、音素ごとに、スペクトル特徴量の距離に基づいて、方式a(第1方式)、方式b(第2方式)、または方式c(第3方式)の何れかを選択する(図7B参照)。 First, the determination method selection unit 2351 (FIG. 2A) of the boundary frequency determination unit 235 determines the type of phoneme connected by the phoneme sequence with time information (the combination of the type of the phoneme itself and the type of the adjacent phoneme). ), A method a (first method), a method b (second method), or a method c (third method) is selected for each phoneme based on the distance of the spectral feature amount (FIG. 7B). reference).
方式aは「所定の周波数区間(下限値B0から上限値BNまでの区間)」内の境界周波数Bを決定する方式であり、第1実施形態で説明した方式である。前述のように、方式aでは、テキストに応じて素片接続される音素のそれぞれである「現音素」と「現音素」の直前の「先行音素」とのスペクトル特徴量の距離に基づいて「現音素」に対する境界周波数Bを決定する(例えば、図4A)。すなわち方式aは「現音素」と「先行音素」との間の歪みが大きいときには素片接続型音声合成方式に適さないが、「現音素」と「先行音素」との間の歪みが小さいときには素片接続型音声合成方式を適用可能な「現音素」に向いている。決定方法選択部2351は、このような「現音素」に対して方式aを選択すればよい。
The method a is a method for determining the boundary frequency B in the “predetermined frequency section (section from the lower limit value B 0 to the upper limit value B N )”, and is the method described in the first embodiment. As described above, in the method a, based on the distance between the spectral feature amounts of “present phoneme” that is each of phonemes connected in units according to text and “preceding phoneme” immediately before “current phoneme”. The boundary frequency B for “current phoneme” is determined (for example, FIG. 4A). That is, the method a is not suitable for the unit-connected speech synthesis method when the distortion between the “present phoneme” and the “preceding phoneme” is large, but when the distortion between the “present phoneme” and the “preceding phoneme” is small. It is suitable for “present phonemes” to which the unit-connected speech synthesis method can be applied. The determination
方式bは「所定の周波数区間」の上限値BN以上の周波数を境界周波数Bとする方式である。方式bで選択される境界周波数Bの上限値は例えばナイキスト周波数である。この場合には、上限値BNからナイキスト周波数までの間の境界周波数Bが選択される。方式bで選択される境界周波数Bは方式aで選択される境界周波数以上となる。すなわち方式bは、基本的に素片接続型音声合成方式に適さない「現音素」、および隣接する音素とそのような関係を持った「現音素」に向いている。決定方法選択部2351は、このような「現音素」に対して方式bを選択すればよい。
Method b is a method for the boundary frequency B the upper limit B N frequencies above the "predetermined frequency interval." The upper limit value of the boundary frequency B selected by the method b is, for example, the Nyquist frequency. In this case, the boundary frequency B between the upper limit value B N and the Nyquist frequency is selected. The boundary frequency B selected by the method b is equal to or higher than the boundary frequency selected by the method a. That is, the method b is suitable for “present phonemes” that are basically unsuitable for the unit-connected speech synthesis method and “present phonemes” having such a relationship with adjacent phonemes. The determination
方式cは「所定の周波数区間」の下限値B0以下の周波数を境界周波数Bとする方式である。方式cで選択される境界周波数Bの下限値は例えば0Hzである。この場合には、0Hzから下限値B0までの間の境界周波数Bが選択される。方式cで選択される境界周波数Bは方式aで選択される境界周波数以下となる。すなわち方式cは、基本的に素片接続型音声合成方式に適した「現音素」、および隣接する音素とそのような関係を持った「現音素」に向いている。決定方法選択部2351は、このような「現音素」に対して方式cを選択すればよい。
The system c is a system in which the boundary frequency B is a frequency equal to or lower than the lower limit B 0 of the “predetermined frequency section”. The lower limit value of the boundary frequency B selected by the method c is, for example, 0 Hz. In this case, the boundary frequency B between 0 Hz and the lower limit value B 0 is selected. The boundary frequency B selected by the method c is equal to or lower than the boundary frequency selected by the method a. That is, the method c is suitable for the “present phoneme” that is basically suitable for the unit connection type speech synthesis method and the “present phoneme” having such a relationship with the adjacent phonemes. The determination
≪方式の選択方法の例示1≫
方式の選択方法を例示する。
(a)決定方法選択部2351は、「現音素」と「現音素」の直前の「先行音素」との間の歪みが音質に与える影響が大きく、かつ、「現音素」と「現音素」の直後の「後続音素」との間の歪みが音質に与える影響が小さい場合に、「現音素」に対して方式aを選択する。
(b)決定方法選択部2351は、「現音素」と「現音素」の直後の「後続音素」との間の歪みが音質に与える影響が大きい場合に、「現音素」に対して方式bを選択する。
(c)決定方法選択部2351は、「現音素」と「現音素」の直前の「先行音素」との間の歪みが音質に与える影響が小さく、かつ、「現音素」と「現音素」の直後の「後続音素」との間の歪みが音質に与える影響が小さい場合に、「現音素」に対して方式cを選択する。
<Example 1 of method selection method>
A method for selecting a method is illustrated.
(A) The determination
(B) When the distortion between the “current phoneme” and the “subsequent phoneme” immediately after the “current phoneme” has a great influence on the sound quality, the determination
(C) The determination
≪方式の選択方法の例示2≫
より具体的な方式の選択方法を例示する(図7A)。
(a)決定方法選択部2351は、「現音素」が母音または有声子音を表し、「現音素」の直前の「先行音素」が母音または有声子音を表し、「現音素」の直後の「後続音素」が無声子音を表す場合に、「現音素」に対して方式aを選択する。
(b)決定方法選択部2351は、「現音素」が母音または有声子音を表し、「現音素」の直後の「後続音素」が母音または有声子音を表す場合に、「現音素」に対して方式bを選択する。
(c)決定方法選択部2351は、「現音素」が母音または有声子音を表し、「現音素」の直前の「先行音素」および直後の「後続音素」が無声子音を表す場合、および/または、「現音素」が無声子音を表す場合に、「現音素」に対して方式cを選択する。
<Example 2 of method selection method>
A more specific method of selecting a method is illustrated (FIG. 7A).
(A) The determination
(B) When the “current phoneme” represents a vowel or a voiced consonant and the “succeeding phoneme” immediately after the “current phoneme” represents a vowel or a voiced consonant, Select scheme b.
(C) The determination
このような境界周波数の決定方法の切り替えにより、音素の種別に基づいた最適な境界周波数の決定が可能となる。選択された方式を特定する情報、素片スペクトル、および時間情報付の音素系列は決定部2352に送られる(ステップS2351)。 By switching the boundary frequency determination method, it is possible to determine the optimum boundary frequency based on the phoneme type. Information for identifying the selected method, segment spectrum, and phoneme sequence with time information are sent to the determination unit 2352 (step S2351).
方式aを特定する情報が決定部2352に送られた場合、決定部2352は第1実施形態のステップS135で説明した処理によって「現音素」に対応する境界周波数Bを決定して出力する(ステップS2352a)。方式bを特定する情報が決定部2352に送られた場合、決定部2352は、上限値BN以上の周波数(例えばナイキスト周波数)を「現音素」に対応する境界周波数Bとして決定して出力する(ステップS2532b)。方式cを特定する情報が決定部2352に送られた場合、決定部2352は、下限値B0以下の周波数(例えば、0Hz)を「現音素」に対応する境界周波数Bとして決定して出力する(ステップS2532c)。以降の処理は第1実施形態と同じである。 When information specifying the method a is sent to the determination unit 2352, the determination unit 2352 determines and outputs the boundary frequency B corresponding to the “current phoneme” by the process described in step S135 of the first embodiment (step S135). S2352a). When information specifying the method b is sent to the determination unit 2352, the determination unit 2352 determines and outputs a frequency (for example, a Nyquist frequency) equal to or higher than the upper limit value B N as the boundary frequency B corresponding to the “current phoneme”. (Step S2532b). When the information specifying the method c is sent to the determination unit 2352, the determination unit 2352 determines and outputs a frequency (for example, 0 Hz) equal to or lower than the lower limit value B 0 as the boundary frequency B corresponding to the “current phoneme”. (Step S2532c). The subsequent processing is the same as in the first embodiment.
[第3実施形態]
本形態は第2実施形態の変形例である。本形態では、方式b(第2方式)および方式c(第3方式)は、テキストに応じて素片接続される音素の基本周波数に対する、「第1合成音声」の基本周波数の変更度合いに基づいて境界周波数Bを決定する。
[Third Embodiment]
This embodiment is a modification of the second embodiment. In this embodiment, the method b (second method) and the method c (third method) are based on the degree of change of the fundamental frequency of the “first synthesized speech” with respect to the fundamental frequency of phonemes connected in units according to text. To determine the boundary frequency B.
<構成>
図1に例示するように、本形態の音声合成装置3は、入力部11、音声コーパス記憶部212、音声DB記憶部122、音響モデル記憶部123、音声DB構築部131、音響モデル生成部132、素片接続型音声合成部133、HMM音声合成部134、境界周波数決定部335、スペクトル混合処理部136、および波形生成処理部137を有する。図2Aに例示するように、本形態の境界周波数決定部335は、決定方法選択部2351および決定部3352を含む。
<Configuration>
As illustrated in FIG. 1, the speech synthesizer 3 of this embodiment includes an
<前処理>
第1実施形態と同じである。
<Pretreatment>
The same as in the first embodiment.
<音声合成処理>
第2実施形態との相違点は、境界周波数決定部235がステップS235の境界周波数決定処理を行うことに代えて、境界周波数決定部335がステップS335の境界周波数決定処理を行うことである。ステップS335のステップS235との相違点は、決定部2352に代えて決定部3352が以下の処理を行うことである。その他は第1,2実施形態で説明した通りである。以下では決定部3352の処理のみを説明する。
<Speech synthesis processing>
The difference from the second embodiment is that the boundary frequency determination unit 235 performs the boundary frequency determination process in step S335 instead of the boundary frequency determination unit 235 performing the boundary frequency determination process in step S235. The difference between step S335 and step S235 is that, instead of the determination unit 2352, the determination unit 3352 performs the following processing. Others are as described in the first and second embodiments. Only the processing of the determination unit 3352 will be described below.
本形態では、決定方法選択部2351で選択された方式を特定する情報、素片スペクトル、および時間情報付の音素系列が決定部3352に送られる。さらに、決定部3352には、ステップS134でHMM音声合成部134から出力された基本周波数も送られる。方式aを特定する情報が決定部3352に送られた場合、決定部3352は第1実施形態のステップS135で説明した処理によって「現音素」に対応する境界周波数Bを決定して出力する(ステップS2352a)。
In this embodiment, information for specifying the method selected by the determination
方式bを特定する情報が決定部3352に送られた場合、決定部3352は、「現音素」の音素区間における音素の基本周波数の平均値F0orgと、当該音素区間におけるHMM音声合成部134での合成音の基本周波数の平均値F0synとの比率F0org/F0syn(基本周波数の変更度合い)が予め定めた値(たとえば0.5以上2.0以下)の範囲を超えるかを判定する。基本周波数の平均値F0synはHMM音声合成部134から出力された基本周波数に基づいて定められる(ステップS3352ba)。比率F0org/F0synが予め定めた値の範囲内の場合、決定部3352は境界周波数B=BNとして出力する(ステップS3352bb)。一方、比率F0org/F0synが予め定めた値の範囲内でない場合、決定部3352は、前述のステップS2352bによって境界周波数Bを決定して出力する(ステップS2352b)。
When information specifying the method b is sent to the determination unit 3352, the determination unit 3352 uses the average value F 0org of the fundamental frequency of the phoneme in the phoneme section of “current phoneme” and the HMM
方式cを特定する情報が決定部3352に送られた場合も、決定部3352は比率F0org/F0synが予め定めた値の範囲を超えるかを判定する(ステップS3352ca)。比率F0org/F0synが予め定めた値の範囲内の場合、決定部3352は前述のステップS2352cによって境界周波数Bを決定して出力する(ステップS2352c)。一方、比率F0org/F0synが予め定めた値の範囲内でない場合、決定部3352は、境界周波数B=B0として出力する(ステップS2352cb)。以降の処理は第1実施形態と同じである。 Even when information specifying the method c is sent to the determination unit 3352, the determination unit 3352 determines whether the ratio F 0org / F 0syn exceeds the predetermined value range (step S3352ca). When the ratio F 0org / F 0syn is within a predetermined value range, the determination unit 3352 determines and outputs the boundary frequency B in step S2352c described above (step S2352c). On the other hand, when the ratio F 0org / F 0syn is not within the range of the predetermined value, the determination unit 3352 outputs the boundary frequency B = B 0 (step S2352cb). The subsequent processing is the same as in the first embodiment.
[第3実施形態の変形例]
第3実施形態では、方式bが選択され、かつ、比率F0org/F0synが予め定めた値の範囲内の場合にB=BNとし、方式bが選択され、かつ、比率F0org/F0synが予め定めた値の範囲内でない場合にナイキスト周波数をBとした。しかしながら、方式bが選択された場合に、その他の基準に則って、比率F0org/F0synに応じてBN以上ナイキスト周波数以下の周波数がBとされてもよい。例えば、BN以上ナイキスト周波数以下の範囲で、比率F0org/F0synが予め定められた値(例えば1)に近いほど、BNに近い周波数がBとされてもよい。
[Modification of Third Embodiment]
In the third embodiment, method b is selected and the ratio F 0org / F 0syn is a B = B N in the case of the range of a predetermined value, method b is selected and the ratio F 0org / F The Nyquist frequency was set to B when 0syn was not within a predetermined value range. However, when the method b is selected, the frequency from B N to the Nyquist frequency may be set to B according to the ratio F 0org / F 0syn according to other criteria. For example, in the range from B N to the Nyquist frequency, the frequency closer to B N may be set to B as the ratio F 0org / F 0 syn is closer to a predetermined value (eg, 1).
第3実施形態では、方式cが選択され、かつ、比率F0org/F0synが予め定めた値の範囲内の場合にB=0とし、方式cが選択され、かつ、比率F0org/F0synが予め定めた値の範囲内でない場合にB=B0とした。しかしながら、方式cが選択された場合に、その他の基準に則って、比率F0org/F0synに応じて0以上B0以下の周波数がBとされてもよい。例えば、0以上B0以下の範囲で、比率F0org/F0synが予め定められた値(例えば1)に近いほど、0に近い周波数がBとされてもよい。 In the third embodiment, when the method c is selected and the ratio F 0org / F 0 syn is within a predetermined value range, B = 0 is set, the method c is selected, and the ratio F 0org / F 0 syn is selected. There was B = B 0 if not within the predetermined range of values. However, when the method c is selected, a frequency of 0 or more and B 0 or less may be set to B according to the ratio F 0org / F 0syn according to other criteria. For example, in the range of 0 or more and B 0 or less, the frequency closer to 0 may be set to B as the ratio F 0org / F 0syn is closer to a predetermined value (for example, 1).
第3実施形態では、「基本周波数の変更度合い」として比率F0org/F0synを用いたが、これに代えてその他の指標を用いてもよい。例えば、比率F0syn/F0org、差分|F0org−F0syn|、二乗誤差{(F0org)2−(F0syn)2}等を「基本周波数の変更度合い」として用いてもよい。 In the third embodiment, the ratio F 0org / F 0 syn is used as the “degree of change of the fundamental frequency”, but other indicators may be used instead. For example, the ratio F 0syn / F 0org , the difference | F 0org −F 0syn |, the square error {(F 0org ) 2 − (F 0syn ) 2 }, and the like may be used as the “basic frequency change degree”.
第3実施形態では、ステップS3352caで比率F0org/F0synが予め定めた値の範囲を超えた場合に境界周波数Bを下限値B0としたが、この場合に境界周波数Bをナイキスト周波数としてもよい。 In the third embodiment, when the ratio F 0org / F 0syn exceeds the predetermined value range in step S3352ca, the boundary frequency B is set to the lower limit value B 0 , but in this case, the boundary frequency B may be set as the Nyquist frequency. Good.
[特徴]
以上のように各実施形態では、隣接する音素間の連続性に基づく定量的な尺度、音素の種別、基本周波数の変更度合等に応じて適切に境界周波数を設定できる。これにより、HMM音声合成方式および素片接続型音声合成方式それぞれの長所を生かし、音素の接続部における異音の発生を抑制しつつ、音素のスペクトルの有する肉声感を導入した合成音声を生成できる。
[Feature]
As described above, in each embodiment, the boundary frequency can be appropriately set according to a quantitative scale based on continuity between adjacent phonemes, the type of phoneme, the degree of change of the fundamental frequency, and the like. This makes it possible to generate synthesized speech that introduces the real voice feeling of the phoneme spectrum while suppressing the occurrence of abnormal sounds at the phoneme connection portion, taking advantage of the HMM speech synthesis method and the unit connection type speech synthesis method. .
また各実施形態では、予め設定した許容限界値、音素の種別、基本周波数の変更度合いなどに基づいて定量的に境界周波数を決定する。そのため、話者や音声合成対象のテキストを変更するたびに手作業で境界周波数を定める作業が不要となり、自動的に境界周波数を決定できる。 In each embodiment, the boundary frequency is quantitatively determined based on a preset allowable limit value, a phoneme type, a change degree of the fundamental frequency, and the like. Therefore, it is not necessary to manually determine the boundary frequency every time the speaker or the text to be synthesized is changed, and the boundary frequency can be automatically determined.
[その他の変形例]
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[Other variations]
The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。 When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. By executing this program on a computer, the above processing functions are realized on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own recording device and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer. The processing according to the received program may be executed sequentially. The above-described processing may be executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. Good.
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。 In the above embodiment, the processing functions of the apparatus are realized by executing a predetermined program on a computer. However, at least a part of these processing functions may be realized by hardware.
1,2,3 音声合成装置 1,2,3 Speech synthesizer
Claims (8)
前記テキストに応じた素片接続によって得られる第1合成音声のスペクトルの前記境界周波数に応じた高域側の成分と、前記テキストに音声合成のための音響モデルを適用して得られる第2合成音声のスペクトルの前記境界周波数に応じた低域側の成分とを混合した混合スペクトルを得るスペクトル混合処理部と、
を有する音声合成装置。 A boundary frequency determination unit that determines a boundary frequency based on a distance between spectral feature amounts before and after a boundary between phoneme segments connected according to text;
A high frequency component corresponding to the boundary frequency of the spectrum of the first synthesized speech obtained by segment connection according to the text, and a second synthesis obtained by applying an acoustic model for speech synthesis to the text A spectrum mixing processing unit for obtaining a mixed spectrum obtained by mixing a low-frequency component corresponding to the boundary frequency of the spectrum of speech;
A speech synthesizer.
前記境界周波数決定部は、
前記テキストに応じて素片接続される音素の種別に応じ、(a)前記スペクトル特徴量の距離に基づいて所定の周波数区間内の前記境界周波数を決定する第1方式、(b)前記周波数区間の上限値以上の周波数を前記境界周波数とする第2方式、または(c)前記周波数区間の下限値以下の周波数を前記境界周波数とする第3方式の何れかを選択する、音声合成装置。 The speech synthesizer of claim 1,
The boundary frequency determination unit
(A) a first method for determining the boundary frequency within a predetermined frequency section based on the distance of the spectral feature amount, according to the type of phoneme connected in units according to the text; and (b) the frequency section. A speech synthesizer that selects either the second method in which a frequency equal to or higher than the upper limit value is used as the boundary frequency, or (c) the third method in which a frequency equal to or lower than the lower limit value of the frequency section is used as the boundary frequency.
前記第2方式および前記第3方式は、前記テキストに応じて素片接続される音素の基本周波数に対する、前記テキストに前記音響モデルを適用して得られる基本周波数の変更度合いに基づいて前記境界周波数を決定する、音声合成装置。 The speech synthesizer according to claim 2,
In the second method and the third method, the boundary frequency is based on a change degree of a fundamental frequency obtained by applying the acoustic model to the text with respect to a fundamental frequency of phonemes connected in units according to the text. A speech synthesizer.
前記第1方式は、前記テキストに応じて素片接続される音素のそれぞれである現音素と前記現音素の直前の先行音素との前記スペクトル特徴量の距離に基づいて前記現音素に対する前記境界周波数を決定し、
前記境界周波数決定部は、
前記現音素と前記現音素の直前の先行音素との間の歪みが音質に与える影響が大きく、かつ、前記現音素と前記現音素の直後の後続音素との間の歪みが音質に与える影響が小さい場合に、前記現音素に対して前記第1方式を選択し、
前記現音素と前記現音素の直後の後続音素との間の歪みが音質に与える影響が大きい場合に、前記現音素に対して前記第2方式を選択し、
前記現音素と前記現音素の直前の先行音素との間の歪みが音質に与える影響が小さく、かつ、前記現音素と前記現音素の直後の後続音素との間の歪みが音質に与える影響が小さい場合に、前記現音素に対して前記第3方式を選択する、音声合成装置。 The speech synthesizer according to claim 2 or 3,
In the first method, the boundary frequency for the current phoneme is based on a distance of the spectral feature amount between a current phoneme that is a phoneme connected in units according to the text and a preceding phoneme immediately before the current phoneme. Decide
The boundary frequency determination unit
The distortion between the current phoneme and the preceding phoneme immediately before the current phoneme has a large effect on the sound quality, and the distortion between the current phoneme and the subsequent phoneme immediately after the current phoneme has an effect on the sound quality. If so, select the first method for the current phoneme;
When the distortion between the current phoneme and the subsequent phoneme immediately after the current phoneme has a great influence on the sound quality, the second method is selected for the current phoneme,
The effect of distortion between the current phoneme and the preceding phoneme immediately before the current phoneme on the sound quality is small, and the distortion between the current phoneme and the subsequent phoneme immediately after the current phoneme has an effect on the sound quality. A speech synthesizer that, when smaller, selects the third method for the current phoneme.
前記境界周波数決定部は、
所定の周波数区間の一部の帯域である第1判定帯域での前記スペクトル特徴量の距離を得、前記第1判定帯域での前記スペクトル特徴量の距離が許容限界値未満であれば、前記第1判定帯域に応じた周波数を前記境界周波数とし、前記第1判定帯域での前記スペクトル特徴量の距離が前記許容限界値未満でなければ、前記第1判定帯域よりも周波数の高い帯域を第2判定帯域とし、前記第2判定帯域を前記第1判定帯域とした処理を行う、音声合成装置。 The speech synthesizer according to any one of claims 1 to 4,
The boundary frequency determination unit
Obtain the distance of spectral features of the first determination zone, which is part of a band of a predetermined frequency interval, the distance of the spectral feature amount in the first determination band is less than the allowable limit, the If the frequency corresponding to the first determination band is the boundary frequency, and the distance of the spectral feature amount in the first determination band is not less than the allowable limit value, a band having a frequency higher than the first determination band is A speech synthesizer that performs processing with the second determination band as the first determination band.
前記許容限界値は、前記第1判定帯域に応じた周波数に対して広義単調増加する関係にある、音声合成装置。 The speech synthesizer according to claim 5,
The permissible limit value is a speech synthesizer that is monotonically increasing in a broad sense with respect to a frequency corresponding to the first determination band.
前記テキストに応じた素片接続によって得られる第1合成音声のスペクトルの前記境界周波数に応じた高域側の成分と、前記テキストに音声合成のための音響モデルを適用して得られる第2合成音声のスペクトルの前記境界周波数に応じた低域側の成分とを混合した混合スペクトルを得るスペクトル混合処理ステップと、
を有する音声合成方法。 A boundary frequency determination step for determining a boundary frequency based on a distance between spectral feature amounts before and after the boundary between phoneme segments connected according to text;
A high frequency component corresponding to the boundary frequency of the spectrum of the first synthesized speech obtained by segment connection according to the text, and a second synthesis obtained by applying an acoustic model for speech synthesis to the text A spectral mixing processing step for obtaining a mixed spectrum obtained by mixing a low-frequency side component corresponding to the boundary frequency of the voice spectrum;
A speech synthesis method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015103692A JP6400526B2 (en) | 2015-05-21 | 2015-05-21 | Speech synthesis apparatus, method thereof, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015103692A JP6400526B2 (en) | 2015-05-21 | 2015-05-21 | Speech synthesis apparatus, method thereof, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016218281A JP2016218281A (en) | 2016-12-22 |
JP6400526B2 true JP6400526B2 (en) | 2018-10-03 |
Family
ID=57578987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015103692A Active JP6400526B2 (en) | 2015-05-21 | 2015-05-21 | Speech synthesis apparatus, method thereof, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6400526B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112017005615T5 (en) | 2016-11-08 | 2019-09-12 | Denso Corporation | DISPLAY DEVICE FOR A VEHICLE |
CN111583901B (en) * | 2020-04-02 | 2023-07-11 | 湖南声广科技有限公司 | Intelligent weather forecast system of broadcasting station and weather forecast voice segmentation method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3465734B2 (en) * | 1995-09-26 | 2003-11-10 | 日本電信電話株式会社 | Audio signal transformation connection method |
JP3727885B2 (en) * | 2002-01-31 | 2005-12-21 | 株式会社東芝 | Speech segment generation method, apparatus and program, and speech synthesis method and apparatus |
US20110046957A1 (en) * | 2009-08-24 | 2011-02-24 | NovaSpeech, LLC | System and method for speech synthesis using frequency splicing |
-
2015
- 2015-05-21 JP JP2015103692A patent/JP6400526B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016218281A (en) | 2016-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Morise et al. | WORLD: a vocoder-based high-quality speech synthesis system for real-time applications | |
Takamichi et al. | Postfilters to modify the modulation spectrum for statistical parametric speech synthesis | |
JP4738057B2 (en) | Pitch pattern generation method and apparatus | |
US9905219B2 (en) | Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature | |
JP2013539558A (en) | Parameter speech synthesis method and system | |
JP2003150187A (en) | System and method for speech synthesis using smoothing filter, device and method for controlling smoothing filter characteristic | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
JP6561499B2 (en) | Speech synthesis apparatus and speech synthesis method | |
CN101131818A (en) | Speech synthesis apparatus and method | |
JP2018141915A (en) | Speech synthesis system, speech synthesis program and speech synthesis method | |
US10636412B2 (en) | System and method for unit selection text-to-speech using a modified Viterbi approach | |
WO2010032405A1 (en) | Speech analyzing apparatus, speech analyzing/synthesizing apparatus, correction rule information generating apparatus, speech analyzing system, speech analyzing method, correction rule information generating method, and program | |
CN112735454A (en) | Audio processing method and device, electronic equipment and readable storage medium | |
CN108369803B (en) | Method for forming an excitation signal for a parametric speech synthesis system based on a glottal pulse model | |
Zhuang et al. | Litesing: Towards fast, lightweight and expressive singing voice synthesis | |
WO2015025788A1 (en) | Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern | |
US9805711B2 (en) | Sound synthesis device, sound synthesis method and storage medium | |
JP6400526B2 (en) | Speech synthesis apparatus, method thereof, and program | |
JP5726822B2 (en) | Speech synthesis apparatus, method and program | |
KR102198598B1 (en) | Method for generating synthesized speech signal, neural vocoder, and training method thereof | |
JP5930738B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2016065900A (en) | Voice synthesizer, method and program | |
JP2009122381A (en) | Speech synthesis method, speech synthesis device, and program | |
KR102198597B1 (en) | Neural vocoder and training method of neural vocoder for constructing speaker-adaptive model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6400526 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |