JP4034751B2 - Speech synthesis apparatus, speech synthesis method, and speech synthesis program - Google Patents
Speech synthesis apparatus, speech synthesis method, and speech synthesis program Download PDFInfo
- Publication number
- JP4034751B2 JP4034751B2 JP2004106711A JP2004106711A JP4034751B2 JP 4034751 B2 JP4034751 B2 JP 4034751B2 JP 2004106711 A JP2004106711 A JP 2004106711A JP 2004106711 A JP2004106711 A JP 2004106711A JP 4034751 B2 JP4034751 B2 JP 4034751B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- fused
- speech unit
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 107
- 238000003786 synthesis reaction Methods 0.000 title claims description 97
- 238000001308 synthesis method Methods 0.000 title claims description 12
- 230000004927 fusion Effects 0.000 claims description 261
- 238000000034 method Methods 0.000 claims description 75
- 238000012545 processing Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 40
- 230000000717 retained effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 abstract description 5
- 238000003860 storage Methods 0.000 description 173
- 239000011295 pitch Substances 0.000 description 80
- 230000006870 function Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 20
- 238000001228 spectrum Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000357297 Atypichthys strigatus Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- QIQXTHQIDYTFRH-UHFFFAOYSA-N octadecanoic acid Chemical compound CCCCCCCCCCCCCCCCCC(O)=O QIQXTHQIDYTFRH-UHFFFAOYSA-N 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
Images
Abstract
Description
本発明は、音声の韻律系列等に基づいて、音声合成を行う音声合成装置、音声合成方法および音声合成プログラムに関するものである。 The present invention relates to a speech synthesizer, a speech synthesis method, and a speech synthesis program that synthesize speech based on a prosodic sequence of speech.
任意の文章から人工的に音声信号を作り出す、テキスト音声合成技術が知られている。テキスト音声合成は、一般的に言語処理段階、韻律処理段階および音声合成段階の3つの段階によって行われる。 A text-to-speech synthesis technique that artificially creates a speech signal from an arbitrary sentence is known. Text-to-speech synthesis is generally performed in three stages: a language processing stage, a prosody processing stage, and a speech synthesis stage.
テキスト音声合成では、まず言語処理段階において入力されたテキストに対して形態素解析や構文解析などが行われる。次に韻律処理段階では、アクセントやイントネーションの処理が行われる。そして、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。最後に、音声信号合成段階では、音韻系列・韻律情報から音声信号を合成する。 In text-to-speech synthesis, morphological analysis, syntax analysis, and the like are first performed on text input at the language processing stage. Next, in the prosody processing stage, accent and intonation processing is performed. Then, phoneme series / prosodic information (basic frequency, phoneme duration, power, etc.) is output. Finally, in the speech signal synthesis stage, a speech signal is synthesized from the phoneme sequence / prosodic information.
このようにテキスト音声合成においては、任意の韻律記号列から音声信号を合成する。したがって、当該テキスト音声合成に用いる音声合成方法は、任意の韻律記号列を任意の韻律で音声合成することができる方法である必要がある。 Thus, in text-to-speech synthesis, a speech signal is synthesized from an arbitrary prosodic symbol string. Therefore, the speech synthesis method used for the text-to-speech synthesis needs to be a method that can synthesize an arbitrary prosodic symbol string with an arbitrary prosody.
従来、このような音声合成方法として、音声合成単位がCV、CVC、VCV(Vは母音、Cは子音を表す)といった小さな単位の特徴パラメータ(これを代表音声素片という)を記憶し、これらを選択的に読み出した後、基本周波数や継続時間長を制御して接続することにより、音声を合成するというものが知られている(例えば、特許文献1参照)。 Conventionally, as such a speech synthesis method, speech synthesis units are stored as small unit feature parameters (this is referred to as a representative speech segment) such as CV, CVC, and VCV (V represents a vowel and C represents a consonant). Is known to synthesize a voice by controlling the fundamental frequency and duration and connecting them after selectively reading (see, for example, Patent Document 1).
また、統計学習に基づく手法として、HMMに基づく音声合成手法が開示されている(例えば非特許文献1参照)。HMMに基づく音声合成手法では、スペクトル包絡パラメータおよび基本周波数パラメータを隠れマルコフモデルに基づいて同時にモデル化し、合成時にはパラメータの静的特徴量および動的特徴量の統計量を考慮してスペクトル包絡パラメータおよび基本周波数パラメータを生成する。未知コンテキストに対応する分布は、HMMの各状態において保持している決定木を辿ることにより選択される。この決定木は各ノードにおいて質問をもち、入力属性情報が各ノードの質問に該当するかどうかで決定木を辿り、リーフノードにおける分布を選択するものである。 Further, as a technique based on statistical learning, a voice synthesis technique based on HMM is disclosed (for example, see Non-Patent Document 1). In the speech synthesis method based on the HMM, the spectral envelope parameter and the fundamental frequency parameter are modeled simultaneously based on the hidden Markov model, and the spectral envelope parameter and the dynamic feature statistic are taken into consideration at the time of synthesis. Generate fundamental frequency parameters. The distribution corresponding to the unknown context is selected by following the decision tree held in each state of the HMM. This decision tree has a question in each node, follows the decision tree depending on whether the input attribute information corresponds to the question of each node, and selects the distribution in the leaf nodes.
代表音声素片を使用する音声合成方法においては、予め作成しておいた代表音声素片が利用される。しかし、この方法では、利用できる音声素片は、予め作成しておいた代表音声素片に限定される。したがって、入力される韻律や音韻環境の多様なバリエーションに対応することが難しいという問題があった。 In a speech synthesis method using a representative speech element, a representative speech element created in advance is used. However, in this method, usable speech segments are limited to representative speech segments created in advance. Therefore, there is a problem that it is difficult to cope with various variations of input prosodic and phonological environments.
予め作成しておく代表音声素片の数を増加させることにより、入力される韻律環境の多様なバリエーションに対応できるが、その一方で、予め作成しておく代表音声素片の数を増加させた場合には、処理効率が低下してしまう。また、音声合成に割り当てられる計算資源には限界があり、予め作成しておく代表音声素片の数も制限されてしまう。 By increasing the number of representative speech segments to be created in advance, it is possible to cope with various variations of the input prosodic environment, but on the other hand, the number of representative speech segments to be created has been increased. In this case, the processing efficiency is lowered. Moreover, there is a limit to the computational resources allocated to speech synthesis, and the number of representative speech segments created in advance is also limited.
また、素片選択型の音声合成方法においては、人が自然に聞こえるような音声素片系列を選択する規則をコスト関数として定式化することが困難であるという問題があった。さらに、不良素片の排除が困難であるという問題があった。 In addition, in the unit selection type speech synthesis method, there is a problem that it is difficult to formulate a rule for selecting a speech unit sequence that can be heard naturally as a cost function. Furthermore, there is a problem that it is difficult to eliminate defective pieces.
本発明は、上記に鑑みてなされたものであって、自然で高品質な音声を効率的に合成することのできる音声合成装置を提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide a speech synthesizer that can efficiently synthesize natural and high-quality speech.
上述した課題を解決し、目的を達成するために、本発明は、同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と、当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段と、予め設定されている教師音声の韻律を示す教師音声韻律情報と前記音声素片保持手段に保持されている前記音声素片韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択手段と、前記音声素片選択手段によって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組合せ決定手段と、決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成手段と、決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成手段と、前記融合音声素片作成手段によって作成された前記融合音声素片と、前記融合音声素片韻律情報作成手段によって作成された前記融合音声素片韻律情報とを対応付けて保持する融合音声素片保持手段と、音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得手段と、前記取得手段によって得られた前記セグメントの韻律を示すセグメント韻律情報と前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報との間の歪みの度合いを推定する保持音声歪み推定手段と、前記保持音声歪み推定手段によって推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択手段と、前記融合音声素片選択手段が各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成手段とを備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention provides a plurality of speech units for the same speech unit, and a plurality of speech units having different prosody of the speech unit, and the speech Speech unit holding means for holding speech unit prosody information indicating the prosody of the unit in association with each other, teacher speech prosody information indicating the prosody of teacher speech set in advance, and the speech unit holding unit Speech unit selection means for selecting a plurality of speech units from the speech unit holding means based on the speech unit prosody information, and the plurality of speech units selected by the speech unit selection means. Based on the plurality of speech units included in the determined combination, a plurality of speech units based on the combination determination means for determining a combination of the plurality of speech units satisfying a predetermined condition from the segment Fusing Fusion speech unit creating means for creating a fused speech unit, and fusion indicating the prosody of the fused speech unit based on the prosodic information corresponding to each of the plurality of speech units included in the determined combination Fusion speech unit prosody information creating means for creating speech unit prosodic information, the fused speech unit created by the fused speech unit creating means, and the fused speech unit prosody information creating means created by the fused speech unit prosody information creating means Fusion speech unit holding means for holding the fusion speech unit prosodic information in association with each other, and acquisition means for acquiring a prosodic sequence for the target speech to be synthesized for each of a plurality of segments that are synthesis units of speech synthesis Segment prosody information indicating the prosody of the segment obtained by the acquisition unit and the fused speech unit prosody held in the fused speech unit holding unit Holding speech distortion estimation means for estimating the degree of distortion between the information and the fusion speech unit selection means for selecting the fusion speech unit based on the degree of distortion estimated by the holding speech distortion estimation means And speech synthesis means for generating synthesized speech by connecting the fused speech units selected by the fused speech unit selection means for each segment.
また、本発明は、同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップとを有することを特徴とする。
Also, the present invention provides a plurality of speech units for the same speech unit, and a plurality of speech units having different prosody of the speech unit and speech unit prosody information indicating the prosody of the speech unit. Based on the speech segment prosody information held in the speech unit holding means held in association with the speech unit prosody information indicating the prosody of the teacher speech set in advance, from the speech unit holding means A speech unit selection step for selecting a plurality of speech units, and a combination of the plurality of speech units satisfying a predetermined condition is determined from the plurality of speech units selected by the speech unit selection step. A combined speech unit creating step for creating a fused speech unit by fusing a plurality of speech units based on the plurality of speech units included in the determined combination. And fused speech unit prosody for creating fused speech unit prosody information indicating the prosody of the fused speech unit based on the prosodic information corresponding to each of the plurality of speech units included in the determined combination A fused speech in which an information creating step, the fused speech segment created by the fused speech segment creating step, and the fused speech segment prosodic information created by the fused speech segment prosodic information creating step are associated with each other; a storage step of storing the segment holding means, a prosody series with respect to the target speech to be speech synthesis, an acquisition step of acquiring the respective plurality of segments is a composite unit of speech synthesis, the fused speech unit holding means The fused speech segment prosody information held; segment prosody information indicating the prosody of the segment obtained in the acquisition step; Holding audio distortion estimating step of estimating the degree of distortion between, based on the degree of the distortion estimated in the holding audio distortion estimation step, a fused speech unit selection step of selecting the fused speech unit,
A speech synthesis step of generating synthesized speech by connecting the fused speech units selected for each segment in the fused speech unit selection step.
また、本発明は、音声合成処理をコンピュータに実行させる音声合成プログラムであって、同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップとを有することを特徴とする。 The present invention also provides a speech synthesis program for causing a computer to perform speech synthesis processing, a plurality of speech units for the same speech unit, and a plurality of speech units having different prosody of the speech unit. The speech unit prosody information held in the speech unit holding means that holds the speech unit prosody information indicating the prosody of the speech unit in association with the teacher and the teacher showing the prosody of the preset teacher speech Based on speech prosody information, a speech unit selection step for selecting a plurality of speech units from the speech unit holding means, and a plurality of speech units selected by the speech unit selection step are determined in advance. A combination determining step for determining a combination of a plurality of speech units that satisfy a given condition, and a plurality of speech units included in the determined combination, Based on the prosody information corresponding to each of the plurality of speech units included in the determined combination, and a fusion speech unit creation step of creating a fused speech unit by fusing the recorded speech units Fusion speech segment prosodic information creation step for creating fused speech segment prosodic information indicating the prosody of the segment, the fused speech segment created by the fused speech segment creation step, and the fused speech segment prosodic information A step of associating the fusion speech unit prosody information created in the creation step with the fusion speech unit holding means in association with each other, and a plurality of prosody sequences for the target speech to be synthesized as speech synthesis units an acquisition step of acquiring a segment for each, and the fused speech unit prosody information held in the fused speech unit holding means, said acquisition stearate Based on the degree of distortion estimated in the retained speech distortion estimation step, the retained speech distortion estimation step for estimating the degree of distortion between the segment prosody information indicating the prosody of the segment obtained in the step, A fusion speech unit selection step for selecting a fusion speech unit; and a speech synthesis step for generating a synthesized speech by connecting the fusion speech units selected for each segment in the fusion speech unit selection step. It is characterized by that.
本発明にかかる音声合成装置は、融合音声素片保持手段が、融合音声素片と、当該融合音声素片の融合音声素片韻律情報とを対応付けて保持し、保持音声歪み推定手段によって推定された歪みの度合いに基づいて、融合音声素片選択手段が選択した融合音声素片を利用して音声合成を行うので、音声合成時に融合音声素片を作成する場合に比べて、処理の効率化を図ることができ、かつ自然で高品質な音声を合成することができるという効果を奏する。 In the speech synthesizer according to the present invention, the fused speech unit holding unit holds the fused speech unit and the fused speech unit prosodic information of the fused speech unit in association with each other, and estimates by the held speech distortion estimation unit Since speech synthesis is performed using the fusion speech unit selected by the fusion speech unit selection means based on the degree of distortion, the processing efficiency is higher than when creating a fusion speech unit during speech synthesis. It is possible to achieve the effect of synthesizing a natural and high-quality voice.
以下に、本発明にかかる音声合成装置、音声合成方法および音声合成プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。 Hereinafter, embodiments of a speech synthesizer, a speech synthesis method, and a speech synthesis program according to the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to the embodiments.
(実施の形態1)
図1は、本発明の第1の実施形態に係るテキスト音声合成装置の全体構成を示すブロック図である。テキスト音声合成装置10は、テキスト取得部11と、言語処理部12と、韻律処理部13と、音声合成部14と、音声波形出力部15とを備えている。
(Embodiment 1)
FIG. 1 is a block diagram showing the overall configuration of the text-to-speech synthesizer according to the first embodiment of the present invention. The text-to-
テキスト取得部11は、外部から音声合成の対象となるテキストデータを取得する。言語処理部12は、テキスト取得部11が取得したテキストデータの形態素解析・構文解析を行う。そして、その結果を韻律処理部13へ送る。
The text acquisition unit 11 acquires text data that is a target of speech synthesis from the outside. The
韻律処理部13は、言語解析結果に基づいて、テキストデータのアクセントやイントネーションなどを特定する。すなわち、韻律に関する特性を特定する。韻律処理部13は、特定した韻律に関する特性に基づいて、音声合成の目標となる目標音声の音韻系列(音韻記号列)及び韻律情報を生成する。そして、韻律系列および韻律情報を音声合成部14へ送る。ここで、韻律情報とは、基本周波数、音韻継続時間長、およびパワーなどを示す情報である。
The
音声合成部14は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部15で出力される。
The
図2は、図1の音声合成部14の詳細な構成を示すブロック図である。音声合成部14は、音韻系列・韻律情報取得部110と、歪み推定部130と、融合音声素片選択部140と、融合音声素片編集・接続部150と、融合音声素片作成部180と、融合音声素片記憶部160と、融合音声素片音素環境記憶部170とを有している。
FIG. 2 is a block diagram showing a detailed configuration of the
音韻系列・韻律情報取得部110は、韻律処理部13から目標音声の音韻系列及び韻律情報を取得する。以下、音韻系列・韻律情報取得部110が取得する音韻系列および韻律情報を、それぞれ入力音韻系列および入力韻律情報と称する。入力音韻系列は、例えば音韻記号の系列である。
The phoneme sequence / prosodic
一方、融合音声素片記憶部160は、既に作成されている複数の融合音素片を格納している。ここで、融合音声素片とは、同一の音声単位に対する複数の音声素片を融合することにより得られた音声素片である。なお、本実施の形態における音声単位は音素である。なお、音声単位は音素に限定されるものではない。また、融合音声素片記憶部160は、同一の音素に対する複数の音声素片であって、かつ当該音素の韻律が互いに異なる複数の音声素片を格納している。
On the other hand, the fusion speech
融合音声素片記憶部160は、合成音声を生成する際に用いる音声の単位(合成単位)で融合音声素片を格納している。
The fused speech
ここで、合成単位とは、音素または音素を分割したものの組み合わせである。例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などである(Vは母音、Cは子音を表す)。または、これらが混在していてもよい。この場合は、可変長であってもよい。 Here, the synthesis unit is a phoneme or a combination of phonemes divided. For example, semi-phonemes, phonemes (C, V), diphones (CV, VC, VV), triphones (CVC, VCV), syllables (CV, V), etc. (V represents vowels and C represents consonants) . Or these may be mixed. In this case, the length may be variable.
融合音声素片音素環境記憶部170は、融合音声素片記憶部160に格納されている融合音声素片に対する融合音声素片音素環境を格納している。
The fused speech unit phoneme
ここで、融合音声素片音素環境とは、当該融合音声素片にとっての環境となる要因の組み合わせに対応する情報である。要因としては、例えば、当該融合音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、および感情などがある。このように、融合音声素片音素環境は、融合音声素片の韻律を示す融合音声素片韻律情報を含む情報である。 Here, the fused speech unit phoneme environment is information corresponding to a combination of factors that are environments for the fused speech unit. Factors include, for example, the phoneme name of the fusion speech unit, the preceding phoneme, the subsequent phoneme, the subsequent phoneme, the fundamental frequency, the phoneme duration, power, the presence or absence of stress, the position from the accent core, the time from breathing, There are speaking speed and emotion. Thus, the fusion speech unit phoneme environment is information including fusion speech unit prosody information indicating the prosody of the fusion speech unit.
なお、融合音声素片記憶部160に格納される融合音声素片と、融合音声素片音素環境記憶部170に格納される当該融合音声素片に対する融合音声素片音素環境とは対応付けられている。具体的には、例えば、融合音声素片音素環境記憶部170に格納されている前記融合音声素片音素環境は、対応する融合音声素片を識別する融合音声素片番号を対応付けて格納されていてもよい。
Note that the fusion speech unit stored in the fusion speech
ここで、本実施の形態における融合音声素片記憶部160および融合音声素片音素環境記憶部170は、特許請求の範囲に記載の融合音声素片保持手段を構成する。
Here, the fusion speech
融合音声素片作成部180は、融合音声素片記憶部160に格納すべき融合音声素片および融合音声素片音素環境記憶部170に格納すべき融合音声素片音素環境を作成する。本実施の形態においては、融合音声素片作成部180は予め融合音声素片および融合音声素片音素環境を作成し、融合音声素片記憶部160および融合音声素片音素環境記憶部170に格納している。
The fusion speech
歪み推定部130は、融合音声素片音素環境記憶部170に格納されている融合音声素片音素環境と、歪み推定部130から取得した、所定のセグメントに対する入力韻律情報とに基づいて、当該セグメントと融合音声素片音素環境記憶部170に格納されている融合音声素片音素環境との歪みの度合いを推定する。
Based on the fusion speech unit phoneme environment stored in the fusion speech unit phoneme
ここで、本実施の形態にかかる歪み推定部130は、本発明の保持音声歪み推定手段と、作成音声歪み推定手段を構成する。
Here, the
融合音声素片選択部140は、歪み推定部130によって推定された歪みの度合いに基づいて、融合音声素片記憶部160から融合音声素片を選択する。
The fusion speech
具体的には、まず、歪み推定部130は、所定のセグメントに対する入力韻律情報と融合音声素片音素環境記憶部170に格納されている複数の融合音声素片音素環境それぞれとの歪みの度合いを推定する。そして、融合音声素片選択部140は、各融合音声素片環境に対して得られた歪みの度合いの最小値を特定する。そして、最小値を示す融合音声素片環境に対応する融合音声素片を融合音声素片記憶部160から選択する。これにより、入力音韻系列の音韻記号の系列に対応する融合音声素片の系列を得ることができる。なお、歪みの度合いを推定する方法については後述する。
Specifically, first, the
融合音声素片編集・接続部150は、各セグメントに対して得られた融合音声素片の系列を適宜編集し、接続する。これにより合成音声の音声波形が生成される。こうして生成された音声波形は音声波形出力部15を介して外部に出力される。
The fusion speech unit editing /
図3は、図2において説明した融合音声素片作成部180の詳細な機能構成を示すブロック図である。融合音声素片作成部180は、音声素片記憶部181と、融合音声素片音素環境記憶部182と、音声素片組み合わせ作成部183と、融合音声素片作成部184と、融合音声素片音素環境作成部185とを有している。
FIG. 3 is a block diagram showing a detailed functional configuration of the fused speech
音声素片記憶部181は、大量の音声素片を格納している。また、融合音声素片音素環境記憶部182は、音声素片記憶部181に格納されている音声素片にそれぞれに対する音声素片音素環境を格納している。音声素片記憶部181に格納されている音声素片の合成単位は、融合音声素片記憶部160に格納がされている融合音声素片の合成単位と同一である。
The speech
音声素片記憶部181に格納される音声素片と、融合音声素片音素環境記憶部182に格納される音声素片音素環境とは対応付けられている。具体的には、例えば、融合音声素片音素環境記憶部182に格納されている音声素片音素環境は、対応する音声素片を識別する音声素片番号を対応付けて格納されていてもよい。
The speech unit stored in the speech
本実施の形態における音声素片記憶部181および融合音声素片音素環境記憶部182は、特許請求の範囲に記載の音声素片保持手段を構成する。
The speech
音声素片組み合わせ作成部183は、融合音声素片音素環境記憶部182に格納されている音声素片音素環境に基づいて、音声素片記憶部181に格納されている複数の音声素片の中から、融合すべき複数の音声素片の組み合わせを決定する。
The speech unit
融合音声素片作成部184は、音声素片組み合わせ作成部183によって決定された組み合わせに含まれる音声素片を音声素片記憶部181から抽出する。さらに、抽出した音声素片を融合することにより、融合音声素片を作成する。融合音声素片作成部184は、作成した融合音声素片を融合音声素片記憶部160に格納する。
The fused speech
融合音声素片音素環境作成部185は、音声素片組み合わせ作成部183によって決定された組み合わせに含まれる音声素片の音声素片音素環境を融合音声素片音素環境記憶部182から抽出する。さらに、抽出した音声素片音素環境に基づいて、融合音声素片音素環境を作成する。融合音声素片音素環境作成部185は、作成した融合音声素片音素環境を融合音声素片音素環境記憶部170に格納する。
The fused speech unit phoneme
具体的には、融合音声素片音素環境作成部185は、各音声素片の音声素片音素環境のセントロイドを用いて融合音声素片音素環境を作成する。
Specifically, the fused speech unit phoneme
他の例としては、音声素片組み合わせ作成部183によって決定された組み合わせに含まれる複数の音声素片それぞれの音声素片音素環境を、融合音声素片音素環境として作成してもよい。
As another example, a speech unit phoneme environment of each of a plurality of speech units included in the combination determined by the speech unit
ここで、本実施の形態にかかる融合音声素片作成部184は、特許請求の範囲に記載の音声素片選択手段と、融合音声素片作成手段とを構成する。また、本実施の形態にかかる融合音声素片音素環境作成部185は、特許請求の範囲に記載の音声素片選択手段と融合音声素片韻律情報作成手段とを構成する。
Here, the fused speech
図4は、図3に示した音声素片組み合わせ作成部183の詳細な機能構成を示すブロック図である。音声素片組み合わせ作成部183は、音声素片組み合わせ頻度情報記憶部1835と、音韻系列・韻律情報取得部1831と、音声素片選択部1832と、音声素片組み合わせ頻度情報作成部1833と、音声素片組合せ決定部1834とを有している。
FIG. 4 is a block diagram showing a detailed functional configuration of the speech element
音韻系列・韻律情報取得部1831は、文章データを解析して得られる音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対する音韻および入力韻律情報を取得する。なお、入力韻律情報等は、図1において説明した韻律処理部13から取得する。
The phoneme sequence / prosodic
複数音声素片選択部1832は、入力韻律情報と、融合音声素片音素環境記憶部182に格納されている融合音声素片音素環境との間の歪みの度合いを推定する。そして、歪みの度合いに基づいて、音声素片記憶部181に格納されている音声素片の中から複数の音声素片を選択する。選択方法は、融合音声素片選択部140における選択方法と同じ方法であってもよい。
The multiple speech
音声素片組み合わせ頻度情報作成部1833は、複数音声素片選択部1832において選択された複数の音声素片の組み合わせの使用頻度をカウントする。そして、カウントした使用頻度を音声素片組み合わせ頻度情報記憶部1835に格納する。
The speech unit combination frequency
音声素片組合せ決定部1834は、前記音声素片組み合わせ頻度情報記憶部1835に格納された頻度情報に基づいて、複数の音声素片の組み合わせを決定する。音声素片組合せ決定部1834は、例えば、選択した複数の音声素片の使用頻度が、予め定めた閾値以上となるように、複数の音声素片を選択してもよい。
The speech unit
また、他の例としては、複数の組み合わせのうち、使用頻度の高い融合音声素片に対応する組み合わせを選択してもよい。例えば、融合音声素片記憶部160に格納すべき融合音声素片の数を制限している場合等に有効である。
As another example, a combination corresponding to a fusion speech unit that is frequently used may be selected from a plurality of combinations. For example, this is effective when the number of fused speech units to be stored in the fused speech
このように、融合音声素片を作成するために選択する音声素片の組み合わせの選択方法は、本実施の形態に限定されるものではなく、予め定められた条件に基づいて選択すればよい。 As described above, the method for selecting a combination of speech units to be selected for creating a fused speech unit is not limited to the present embodiment, and may be selected based on a predetermined condition.
以下、音声合成部14の各処理について詳しく説明する。ここでは、合成単位の音声素片は音素であるとする。
Hereinafter, each process of the
図5は、融合音声素片記憶部160のデータ構成を模式的に示している。また、図6は、融合音声素片音素環境記憶部170のデータ構成を模式的に示している。
FIG. 5 schematically shows the data configuration of the fused speech
融合音声素片記憶部160は、図5に示すように、各音素の音声信号をピッチ波形として格納している。さらに各音声信号を当該音素を識別するための融合音声素片番号に対応付けて格納している。
As shown in FIG. 5, the fused speech
ここで、ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものを意味する。 Here, the pitch waveform is a relatively short waveform that has a length up to several times the basic period of the voice and does not have a basic period, and its spectrum represents the spectrum envelope of the audio signal. Means.
また、融合音声素片音素環境記憶部170は、図6に示すように、融合音声素片記憶部160に記憶されている各融合音声素片の音素環境情報を、当該音素の素片番号に対応付けて格納している。本実施の形態にかかる融合音声素片音素環境記憶部170は、音素環境として、音素記号(音素名)、基本周波数、音韻継続長、接続境界ケプストラムを格納している。
Further, as shown in FIG. 6, the fusion speech unit phoneme
なお、本実施の形態においては、融合音声素片は音素単位であるが、他の例としては、半音素、ダイフォン、トライフォン、音節であってもよい。また、これらの組み合わせであってもよい。 In the present embodiment, the fusion speech unit is a phoneme unit, but other examples may be a semiphone, a diphone, a triphone, and a syllable. Moreover, these combinations may be sufficient.
次に、図2において説明した歪み推定部130の処理について詳述する。歪み推定部130は、コスト関数により算出されたコストに基づいて歪みの度合いを推定する。そして、融合音声素片選択部140は歪み推定部130によって推定されたコストに基づいて融合音声素片を選択する。
Next, the processing of the
ここで、コスト関数とは、テキストデータに含まれる全セグメントに対する歪みの度合いによって定まる関数である。 Here, the cost function is a function determined by the degree of distortion for all segments included in the text data.
以下、コスト関数について詳述する。融合音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因ごとにサブコスト関数を定める。ここで、サブコスト関数とは、融合音声素片記憶部160に記憶されている融合音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するための関数である。
Hereinafter, the cost function will be described in detail. A sub-cost function is determined for each factor of distortion generated when a synthesized speech is generated by deforming and connecting fused speech segments. Here, the sub-cost function is used to estimate the degree of distortion of the synthesized speech with respect to the target speech that occurs when the synthesized speech is generated using the fused speech unit stored in the fused speech
サブコスト関数をCn(ui、ui−1、ti)(n:1、…、N、Nはサブコスト関数の数)と定める。ここで、tiは、入力音韻系列および入力韻律情報に対応する目標とする音声(目標音声)をt=(t1、…、tI)としたときのi番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表し、uiは融合音声素片記憶部160に記憶されている融合音声素片のうち、tiと同じ音韻の融合音声素片を表す。
The sub cost function is defined as Cn (ui, ui-1, ti) (n: 1,..., N, N is the number of sub cost functions). Here, ti is the speech unit of the portion corresponding to the i-th segment when the target speech (target speech) corresponding to the input phoneme sequence and the input prosodic information is t = (t1,..., TI). Ui represents a fusion speech unit having the same phoneme as ti among the fusion speech units stored in the fusion speech
具体的には、当該コストを算出する際に、目標コストと接続コストの2種類のサブコストを用いる。ここで、目標コストとは、融合音声素片を使用することによって生じる合成音声の目標音声に対する歪みの度合いを推定するためのコストである。また、接続コストとは、融合音声素片を他の音声素片と接続したときに生じる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストである。 Specifically, when calculating the cost, two types of sub-costs, a target cost and a connection cost, are used. Here, the target cost is a cost for estimating the degree of distortion of the synthesized speech with respect to the target speech generated by using the fusion speech unit. The connection cost is a cost for estimating the degree of distortion of the synthesized speech with respect to the target speech that occurs when the fusion speech unit is connected to another speech unit.
さらに、目標コストとして、基本周波数コストおよび音韻継続時間長コストを用いる。ここで、基本周波数コストとは、融合音声素片記憶部160に記憶されている融合音声素片の基本周波数と目標の基本周波数との違い(差)を表すコストである。また、音韻継続時間長コストとは、融合音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表すコストである。接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。
Further, the basic frequency cost and the phoneme duration time cost are used as the target costs. Here, the fundamental frequency cost is a cost representing the difference (difference) between the fundamental frequency of the fused speech unit stored in the fused speech
具体的には、基本周波数コストは、次式によって定義される。
なお、2つの音声素片間のケプストラム距離は次式によって定義される。
これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する。合成単位コスト関数は次式によって定義される。
入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(4)から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式(5)に示すように定義する。
なお、最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いてもよい。これにより、探索処理の更なる効率化を図ることができる。 Note that dynamic programming (DP) may be used for searching for the optimum segment sequence. Thereby, the efficiency of the search process can be further increased.
次に、図7を参照しつつ、図2において説明した融合音声素片編集・接続部150の処理について詳述する。融合音声素片編集・接続部150は、融合音声素片選択部140で選択された最適素片系列の融合音声素片を、入力韻律情報に従って変形する。そして、変形後の融合音声素片を接続して合成音声の音声波形を生成する。
Next, the processing of the fusion speech unit editing / connecting
融合音声素片記憶部160は、融合音声素片はピッチ波形の形で格納されている。そこで、当該融合音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳して音声波形を生成する。
The fusion speech
図7を参照しつつ、音素「m」、「a」、「d」、「o」の各合成単位について選択された融合音声素片を変形・接続して、「まど」という音声波形を生成する場合の処理について具体的に説明する。 Referring to FIG. 7, the fusion speech unit selected for each synthesis unit of phonemes “m”, “a”, “d”, and “o” is transformed and connected to generate a speech waveform “Mado”. The process in the case of producing | generating is demonstrated concretely.
図7に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて、セグメント(合成単位)毎に、融合された音声素片中の各ピッチ波形の基本周波数の変更(音の高さの変更)、ピッチ波形の数の増減(時間長の伸縮)を行う。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。 As shown in FIG. 7, according to the target fundamental frequency and the target phoneme duration duration indicated in the input prosodic information, for each segment (synthesis unit), each pitch waveform in the fused speech unit Change the basic frequency (change the pitch) and increase / decrease the number of pitch waveforms (expand / expand time). After that, synthesized speech is generated by connecting adjacent pitch waveforms within and between segments.
なお、本実施の形態にかかる歪み推定部130は、コスト関数による演算結果を歪みの度合いとして利用したが、歪みの度合いを評価する値はこれに限定されるものではない。
In addition, although the
次に、融合音声素片作成部180の処理について説明する。音声素片記憶部181および、融合音声素片音素環境記憶部182には、音声データベースを分析して得られる音声素片および、その音素環境情報が保存されている。音声素片記憶部181には、大量の音声素片が蓄積されており、それらの音声素片の音素環境の情報(音素環境情報)が融合音声素片音素環境記憶部182に蓄積されている。音声素片記憶部181には、合成音声を生成する際に用いる音声の単位(合成単位)の音声素片が記憶されている。音声素片の合成単位は融合音声素片と同じ単位であり、音素環境情報の種類も融合音声素片と同じものであるとする。
Next, the process of the fusion speech
図8は音声素片記憶部181のデータ構成を模式的に示している。音声素片記憶部181は、各音素の音声信号の波形と当該音素を識別するための素片番号とを対応付けて格納している。また、図9は融合音声素片音素環境記憶部182のデータ構成を模式的に示している。融合音声素片音素環境記憶部182には、融合音声素片音素環境記憶部170と同様に、音声素片記憶部181に記憶されている各音声素片の音素環境情報と当該音素の素片番号とを対応付けて格納している。
FIG. 8 schematically shows the data structure of the speech
音声素片記憶部181に記憶されている各音声素片は、別途収集された多数の音声データに対して音素毎にラベリングを行い、音素毎に音声波形を切り出したものを、音声素片として蓄積したものである。
Each speech unit stored in the speech
例えば、図10には、音声データ101に対し、音素毎にラベリングを行った結果を示している。図10には、ラベリングの境界102により区切られた各音素の音声データ(音声波形)について、音素記号を示している。なお、この音声データから、各音素についての音素環境の情報(例えば、音韻(この場合、音素名(音素記号))、基本周波数、音韻継続時間長など)を併せて抽出する。
For example, FIG. 10 shows the result of labeling the
以上の処理により音声データ101から求めた各音声波形と、当該音声波形に対応する音素環境の情報に、同じ素片番号が付与される。そして、図8および図9に示すように、音声素片記憶部181と融合音声素片音素環境記憶部182にそれぞれ格納される。ここでは、音素環境情報には、音声素片の音韻とその基本周波数及び音韻継続時間長を含むものとする。
The same unit number is assigned to each voice waveform obtained from the
なお、ここでは、音声素片が音素単位に抽出する場合をしめしているが、音声素片が半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であっても上記同様である。 In this example, the speech unit is extracted in units of phonemes. However, the same applies to the case where the speech unit is a semi-phoneme, a diphone, a triphone, a syllable, or a combination or variable length thereof. .
融合音声素片作成部184は、後述する音声素片組み合わせ作成部183によって作成された組み合わせに含まれる複数の音声素片を音声素片記憶部181から取得する。そして、取得した複数の音声素片を融合して融合音声素片を作成する。なお、融合音声素片作成部184は、対象となる音声素片が有声音である場合と無声音である場合とで別の処理を行う。
The fused speech
まず、有声音の場合について説明する。有声音の場合には、音声素片からピッチ波形を取り出し、ピッチ波形のレベルで融合し、新たなピッチ波形を作りだす。ピッチ波形の抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やPSE分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪が小さくなるようなピッチ波形を求める方法など様々なものがある。 First, the case of voiced sound will be described. In the case of voiced sound, a pitch waveform is extracted from the speech segment and fused at the level of the pitch waveform to create a new pitch waveform. The pitch waveform can be extracted by simply cutting out with the fundamental period synchronization window, by inverse discrete Fourier transform of the power spectrum envelope obtained by cepstrum analysis or PSE analysis, and by the impulse response of the filter obtained by linear prediction analysis. There are various methods such as a method for obtaining a waveform and a method for obtaining a pitch waveform that reduces distortion with respect to natural speech at the level of synthesized speech by a closed loop learning method.
本実施の形態においては、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出する。図11を参照しつつ、音声素片組み合わせ作成部183で決められたM個の音声素片を融合して1つの新たな音声素片を生成する場合の処理手順を説明する。
In the present embodiment, the pitch waveform is extracted using a method of cutting out with a basic period synchronization window. With reference to FIG. 11, a processing procedure in the case where one new speech unit is generated by fusing the M speech units determined by the speech unit
ステップS111において、M個の音声素片のそれぞれの音声波形に、その周期間隔毎にマーク(ピッチマーク)を付与する。図12−1には、M個の音声素片のうちの1つの音声素片の音声波形121に対し、その周期間隔毎にピッチマーク122が付けられている場合を示している。
In step S111, marks (pitch marks) are given to the respective speech waveforms of the M speech units for each periodic interval. FIG. 12A shows a case where pitch marks 122 are attached to the
ステップS112では、図12−2に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。窓にはハニング窓123を用い、その窓長は基本周期の2倍とする。そして、図12−3に示すように、窓掛けされた波形124をピッチ波形として切り出す。
In step S112, as shown in FIG. 12B, the pitch waveform is cut out with reference to the pitch mark to cut out the pitch waveform. A
M個の音声素片のそれぞれについて、図12−1から図12−3に示す処理(ステップS112の処理)を施す。その結果、M個の音声素片のそれぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。 The process shown in FIGS. 12-1 to 12-3 (the process of step S112) is performed on each of the M speech units. As a result, a series of pitch waveforms consisting of a plurality of pitch waveforms is obtained for each of the M speech segments.
次にステップS113に進み、当該セグメントのM個の音声素片のそれぞれのピッチ波形の系列のなかで、最もピッチ波形の数が多いものに合わせて、M個全てのピッチ波形の系列中のピッチ波形の数が同じになるように、(ピッチ波形の数が少ないピッチ波形の系列については)ピッチ波形を複製して、ピッチ波形の数を合わせる。 Next, the process proceeds to step S113, and the pitches in the series of all M pitch waveforms are matched with the one having the largest number of pitch waveforms among the series of pitch waveforms of the M speech units of the segment. The pitch waveforms are duplicated so that the number of pitch waveforms is the same (for a series of pitch waveforms with a small number of pitch waveforms).
図13は、当該セグメントのM個(例えば、ここでは、3個)の音声素片d1〜d3のそれぞれから、ステップS112で切り出されたピッチ波形の系列e1〜e3を示している。ピッチ波形の系列e1中のピッチ波形の数は7個、ピッチ波形の系列e2中のピッチ波形の数は5個、ピッチ波形の系列e3中のピッチ波形の数は6個である。すなわち、ピッチ波形の系列e1〜e3のうち最もピッチ波形の数が多いものは、系列e1である。 FIG. 13 shows a series of pitch waveforms e1 to e3 cut out in step S112 from each of M speech segments d1 to d3 of the segment (for example, three here). The number of pitch waveforms in the pitch waveform series e1 is 7, the number of pitch waveforms in the pitch waveform series e2 is 5, and the number of pitch waveforms in the pitch waveform series e3 is 6. That is, among the pitch waveform series e1 to e3, the series having the largest number of pitch waveforms is the series e1.
従って、この系列e1中のピッチ波形の数(例えば、ここでは、ピッチ波形の数は、7個)に合わせる。他の系列e2、e3については、それぞれ、当該系列中のピッチ波形のいずれかをコピーして、ピッチ波形の数を7個にする。その結果得られた、系列e2、e3のそれぞれに対応する新たなピッチ波形の系列がe2´、e3´である。 Accordingly, the number of pitch waveforms in the series e1 (for example, the number of pitch waveforms here is 7). For the other series e2, e3, each of the pitch waveforms in the series is copied to make the number of pitch waveforms seven. As a result, new pitch waveform series corresponding to the series e2 and e3 are e2 ′ and e3 ′, respectively.
次に、ステップS114に進む。このステップでは、ピッチ波形ごとに処理を行う。ステップS114では、当該セグメントのM個のそれぞれの音声素片に対応するピッチ波形をその位置ごとに平均化し、新たなピッチ波形の系列を生成する。この生成された新たなピッチ波形の系列を融合された音声素片とする。 Next, the process proceeds to step S114. In this step, processing is performed for each pitch waveform. In step S114, the pitch waveforms corresponding to the M speech units of the segment are averaged for each position to generate a new pitch waveform sequence. The generated new pitch waveform sequence is used as a fused speech unit.
図14は、当該セグメントのM個(例えば、ここでは、3個)の音声素片d1〜d3のそれぞれからステップS113で求めたピッチ波形の系列e1、e2´、e3´を示している。各系列中には、7個のピッチ波形があるので、ステップS114では、1番目から7番目のピッチ波形をそれぞれ3つの音声素片で平均化し、7個の新たなピッチ波形からなる新たなピッチ波形の系列f1を生成している。すなわち、例えば、系列e1の1番目とピッチ波形と、系列e2´の1番目のピッチ波形と、系列e3´の1番目のピッチ波形のセントロイドを求めて、それを新たなピッチ波形の系列f1の1番目のピッチ波形とする。新たなピッチ波形の系列f1の2番目〜7番目のピッチ波形についても同様である。ピッチ波形の系列f1が、上記「融合音声素片」である。 FIG. 14 shows pitch waveform series e1, e2 ′, e3 ′ obtained in step S113 from each of M (for example, three in this case) speech elements d1 to d3 of the segment. Since there are seven pitch waveforms in each series, in step S114, the first to seventh pitch waveforms are averaged with three speech segments, and a new pitch consisting of seven new pitch waveforms is obtained. A waveform series f1 is generated. That is, for example, the centroid of the first pitch waveform of the series e1, the first pitch waveform of the series e2 ′, and the first pitch waveform of the series e3 ′ is obtained, and is obtained as a new pitch waveform series f1. The first pitch waveform. The same applies to the second to seventh pitch waveforms of the new pitch waveform series f1. A series f1 of pitch waveforms is the above “fusion speech unit”.
一方、融合音声素片作成部184の処理において、無声音のセグメントの場合には、素片選択ステップS111で当該セグメントのM個の音声素片のうち、当該M個の音声素片から音声素片を一つ選択し、選択した音声素片の音声波形をそのまま使用する。すなわち、選択した音声素片の音声波形を融合音声素片記憶部160に蓄積する。なお、便宜的にこれも融合音声素片と呼ぶ。組み合わせに順位がつけられている場合は、1位の素片を選択することにより音声素片を決める。
On the other hand, in the process of the fusion speech
融合音声素片音素環境作成部185は、上記組み合わせの音素環境に基づいて、融合音声素片の音素環境を作成する。融合音声素片の音素環境は、各音素環境のセントロイドとして求める。この場合、融合音声素片の基本周波数fは、各音声素片の基本周波数をfm(1≦m≦M)とすると、次式によって定義される。
これらの処理により、融合音声素片およびその音素環境を作成する。そして、融合音声素片記憶部160および融合音声素片音素環境記憶部170に格納する。
Through these processes, a fusion speech unit and its phoneme environment are created. Then, it is stored in the fused speech
次に、音声素片組み合わせ作成部183の処理について詳述する。音声素片組み合わせ作成部183は、融合音声素片作成部184において融合すべき音声素片の組み合わせを作成する。本実施形態では、融合音声素片選択部140の処理において前述したコスト関数に基づいて複数の音声素片を選択する。さらには、使用頻度に基づいて、融合する複数の音声素片の組み合わせを決定する。
Next, the processing of the speech element
前述したコスト関数は融合音声素片の音素環境情報に基づいてコストを計算しているが、ここでは音声素片に対応する音素環境情報に基づいて計算する。まず、各音声素片の組み合わせの使用頻度を求めるための文章データを用意する。それぞれの文章データを図1のテキスト取得部11、言語処理部12、韻律処理部13により処理し、音韻系列と、韻律情報とを求める。音韻系列を合成単位で区切ることにより得られる各セグメントのそれぞれに対し、前記韻律情報と、融合音声素片音素環境記憶部182に含まれる音素環境情報との間のコストに基づいて1セグメントあたり(すなわち、1合成単位あたり)複数の音声素片を選択する。
The cost function described above calculates the cost based on the phoneme environment information of the fusion speech unit. Here, the cost function is calculated based on the phoneme environment information corresponding to the speech unit. First, text data for obtaining the use frequency of each speech element combination is prepared. Each text data is processed by the text acquisition unit 11, the
図15は、このときの処理を説明するためのフローチャートである。まず、ステップS151において最適な音声素片のパスを、融合音声素片の最適パス計算と同様に、コスト関数および、動的計画法を利用して求める。 FIG. 15 is a flowchart for explaining the processing at this time. First, in step S151, the optimal speech unit path is obtained using a cost function and dynamic programming, as in the optimal path calculation of the fused speech unit.
次に、ステップS152に進み、最適素片系列を用いて、1セグメントあたり複数の音声素片を選ぶ。ここでは、セグメントの数をJ個とし、セグメントあたりM個の音声素片を選ぶこととして説明する。ステップS152の詳細を説明する。 Next, proceeding to step S152, a plurality of speech segments are selected per segment using the optimal segment sequence. Here, it is assumed that the number of segments is J and M speech units are selected per segment. Details of step S152 will be described.
ステップS153およびS154では、J個のセグメントのうちの1つを注目セグメントとする。ステップS153およびS154はJ回繰り返され、J個のセグメントが1回ずつ注目セグメントとなるように処理を行う。まず、ステップS153では、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部181に記憶されている音声素片を式(5)のコストの値に応じて順位付けし、上位M個を選択する。
In steps S153 and S154, one of the J segments is set as a target segment. Steps S153 and S154 are repeated J times, and processing is performed so that J segments become the target segment once. First, in step S153, speech segments of the optimal segment series are fixed to segments other than the target segment. In this state, the speech units stored in the speech
例えば、図16に示すように、入力音韻系列が「ts・i・i・s・a・…」であるとする。この場合、合成単位は、音素「ts」、「i」、「i」、「s」、「a」、…のそれぞれに対応し、これら音素のそれぞれが1つのセグメントに対応する。図16では、入力された音韻系列中の3番目の音素「i」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この3番目の音素「i」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片161a、161b、161d、161e…を固定する。
For example, as shown in FIG. 16, it is assumed that the input phoneme sequence is “ts · i · i · s · a ·. In this case, the synthesis unit corresponds to each of phonemes “ts”, “i”, “i”, “s”, “a”,..., And each of these phonemes corresponds to one segment. FIG. 16 shows a case where a segment corresponding to the third phoneme “i” in the input phoneme sequence is set as a target segment, and a plurality of speech segments are obtained for this target segment. For segments other than the segment corresponding to the third phoneme “i”, the
この状態で、音声素片記憶部181に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のそれぞれについて、式(5)を用いてコストを算出する。ただし、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。
In this state, among the speech units stored in the speech
(手順1) 音声素片記憶部181に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のうちの1つを音声素片u3とする。音声素片u3の基本周波数f(v3)と、目標の基本周波数f(t3)とから、式(1)を用いて、基本周波数コストを算出する。
(Procedure 1) Among the speech elements stored in the speech
(手順2) 音声素片u3の音韻継続時間長g(v3)と、目標の音韻継続時間長g(t3)とから、式(2)を用いて、音韻継続時間長コストを算出する。 (Procedure 2) The phoneme duration length cost is calculated from the phoneme duration length g (v3) of the speech unit u3 and the target phoneme duration length g (t3) using Equation (2).
(手順3) 音声素片u3のケプストラム係数h(u3)と、音声素片161b(u2)のケプストラム係数h(u2)とから、式(3)を用いて、第1のスペクトル接続コストを算出する。また、音声素片u3のケプストラム係数h(u3)と、音声素片161d(u4)のケプストラム係数h(u4)とから、式(3)を用いて、第2のスペクトル接続コストを算出する。
(Procedure 3) The first spectrum connection cost is calculated from the cepstrum coefficient h (u3) of the speech unit u3 and the cepstrum coefficient h (u2) of the
(手順4) 上記(手順1)〜(手順3)で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第1及び第2のスペクトル接続コストの重み付け和を算出して、音声素片u3のコストを算出する。 (Procedure 4) Calculate the weighted sum of the fundamental frequency cost, the phoneme duration time cost, and the first and second spectrum connection costs calculated by using each sub-cost function in (Procedure 1) to (Procedure 3). The cost of the speech unit u3 is calculated.
(手順5) 音声素片記憶部181に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ各音声素片について、上記(手順1)〜(手順4)に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う(図15のステップS153)。そして、上位M個の音声素片を選択する(図15のステップS154)。例えば、図16では、音声素片162aが最も順位が高く、音声素片162dが最も順位が低い。
(Procedure 5) Among the speech elements stored in the speech
以上の(手順1)〜(手順5)をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、M個ずつの音声素片が得られる。 The above (Procedure 1) to (Procedure 5) are performed for each segment. As a result, M speech segments are obtained for each segment.
すべての入力文章の各セグメントに対して、上記手順により、M個の音声素片を選択し、選択されたM個の音声素片の素片番号を、音声素片組み合わせ頻度情報作成部1833に渡す。音声素片組み合わせ頻度情報作成部1833では、素片番号の組み合わせの頻度情報を、複数音声素片組み合わせ頻度情報記憶部1835に蓄積する。
For each segment of all input sentences, M speech units are selected by the above procedure, and the unit numbers of the selected M speech units are input to the speech unit combination frequency
図17は、複数音声素片組み合わせ頻度情報記憶部1835に格納されている複数音声素片組み合わせ頻度情報の例を示す。複数音声素片組み合わせ情報は、組み合わせの番号、音韻(音素名)、1位からM位までの音声素片の素片番号とともに、その出現度数が保持されている。入力されたM個の音声素片の素片番号が、複数音声素片組み合わせ頻度情報に存在する場合はその組み合わせに対応する出現度数に1を加え、存在しない場合はその組み合わせを追加して、出現度数を1とする。これをすべてのセグメントの組み合わせに対して行うことにより、入力文章に対する出現頻度情報が作成される。
FIG. 17 shows an example of multiple speech unit combination frequency information stored in the multiple speech unit combination frequency
次に、音声素片組合せ決定部1834において、実際に融合する音声素片の組み合わせを決定する。組み合わせの決め方は、いくつか考えられるが、予め出現度数の閾値を決めて、複数の音声素片の組み合わせの出現度数がその閾値より大きい素片を利用する方法、音素毎の素片数の上限を定め、出現頻度順に素片を選択する方法、全体の融合音声素片群のサイズを決め、そのサイズを超えない範囲で出現頻度順に選ぶ方法などが挙げられる。
Next, the speech unit
図17の頻度情報において、出現頻度の閾値を30とした場合は、0番の/a/と、2番の/i/は融合音声素片を作成するが、1番の/a/は作成しないことになる。
In the frequency information of FIG. 17, when the appearance frequency threshold is set to 30, the
ここで、第1の実施形態に係る音声合成手法と、従来の音声合成手法との違いについて説明する。COCに基づく方法、HMMに基づく方法では、融合された音韻パラメータを保持し、合成時は融合された音韻パラメータに基づいて合成しているものの、選択する際に決定木を用いている。このため韻律情報の歪みの度合いに基づいて選択を行う本実施形態とは異なる選択手法となっている。 Here, the difference between the speech synthesis method according to the first embodiment and the conventional speech synthesis method will be described. In the method based on COC and the method based on HMM, a fused phoneme parameter is held, and at the time of synthesis, synthesis is performed based on the fused phoneme parameter, but a decision tree is used for selection. For this reason, the selection method is different from the present embodiment in which selection is performed based on the degree of distortion of prosodic information.
本実施形態の手法は決定木の形でクラスタリングする手法と比べ、合成時の自由度が高く、大量の融合音声素片から容易に融合音声素片を選択することができるため、スケーラブルな合成器にしやすい点、すなわち融合音声素片記憶部160のサイズを大きくするにしたがって、高音質な合成音声が得られる点などの利点を持つ。
Compared to the clustering method in the form of a decision tree, the method of this embodiment has a high degree of freedom during synthesis and can easily select a fused speech unit from a large number of fused speech units. Therefore, a scalable synthesizer There is an advantage that a synthesized speech with high sound quality can be obtained as the size of the fusion speech
従来の素片選択型音声合成では、合成単位あたり、一つの音声素片を選択して、接続することで合成を行うが、本実施形態では選択される音声素片が音声波形そのものではなく、融合された音声素片となっている。融合された音声素片を用いることで、安定で高品質な音声素片となり、より自然で高品質な合成音声を生成することができる。また、合成単位あたりの融合音声素片は、事前に作成されているため、合成時の処理量は、素片選択型の音声合成方式に近く、高速に音声合成ができる。 In the conventional unit selection type speech synthesis, synthesis is performed by selecting and connecting one speech unit per synthesis unit, but in this embodiment, the selected speech unit is not the speech waveform itself, It is a fused speech unit. By using the fused speech unit, a stable and high-quality speech unit is obtained, and a more natural and high-quality synthesized speech can be generated. Further, since the fusion speech unit per synthesis unit is created in advance, the processing amount at the time of synthesis is close to that of the unit selection type speech synthesis method, and speech synthesis can be performed at high speed.
図18は、実施例1に係るテキスト音声合成装置10のハードウェア構成を示す図である。テキスト音声合成装置10は、ハードウェア構成として、テキスト音声合成装置10における音声合成処理を実行する音声合成プログラムなどが格納されているROM52と、ROM52内のプログラムに従ってテキスト音声合成装置10の各部を制御し、バッファリング時間変更処理等を実行するCPU51と、ワークエリアが形成され、テキスト音声合成装置10の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。
FIG. 18 is a diagram illustrating a hardware configuration of the text-to-
先に述べたテキスト音声合成装置10における音声合成プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
The speech synthesis program in the text-to-
この場合には、音声合成プログラムは、テキスト音声合成装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
In this case, the speech synthesis program is loaded onto the main storage device by being read from the recording medium and executed by the
また、本実施例の音声合成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。 Further, the speech synthesis program of the present embodiment may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network.
(実施の形態2)
次に、実施の形態2にかかるテキスト音声合成装置10について説明する。図19は、実施の形態2にかかるテキスト音声合成装置10の音声合成部14の詳細な機能構成を示すブロック図である。
(Embodiment 2)
Next, the text-to-
実施の形態2にかかる音声合成部14は、融合音声素片音素環境記憶部170を有さない。また、実施の形態2にかかる音声合成部14は、融合音声素片組み合わせ記憶部200を有する。
The
融合音声素片組み合わせ記憶部200は、融合音声素片記憶部160に格納されている融合音声素片に含まれる音声素片の組み合わせを各融合音声素片に対応付けて格納している。
The fusion speech unit
図20は、融合音声素片組み合わせ記憶部200のデータ構成を模式的に示している。融合音声素片組み合わせ記憶部200は、音韻名、音声素片の組み合わせそれぞれの順位および番号、および融合音声素片番号を対応付けて格納している。
FIG. 20 schematically shows the data configuration of the fused speech unit
実施の形態2においては、音韻系列・韻律情報取得部110は、韻律処理部13から取得した入力韻律系列および入力韻律情報を融合音声素片作成部180に送る。融合音声素片作成部180は、取得した入力韻律系列および入力韻律情報に基づいて複数の音声素片の組み合わせを選択する。そして、歪み推定部130は、融合音声素片作成部180によって選択された音声素片の組み合わせと、音韻系列・韻律情報取得部110から取得した入力韻律情報との間の歪みの度合いを推定する。
In
融合音声素片選択部140は、歪み推定部130が推定した歪みの度合いが最少となる組み合わせを選択する。そして、選択した組み合わせが融合音声素片組み合わせ記憶部200に格納されているか否かを判断する。融合音声素片組み合わせ記憶部200に格納されている場合には、融合音声素片記憶部160から当該組み合わせに対応する融合音声素片を抽出する。一方、選択した組み合わせが融合音声素片組み合わせ記憶部200に格納されていない場合には、融合音声素片作成部180に対して、当該組み合わせに対する融合音声素片を作成するよう指示する。
The fused speech
図21は、実施の形態2にかかる融合音声素片作成部180の詳細な機能構成を示すブロック図である。実施の形態2に係る融合音声素片作成部180は、融合音声素片音素環境作成部185を有さない。そして、融合音声素片作成部180は、融合音声素片音素環境を作成しない。
FIG. 21 is a block diagram of a detailed functional configuration of the fused speech
また、音声素片組み合わせ作成部183は、音韻系列・韻律情報取得部110から取得した入力韻律情報等に基づいて、音声素片の組み合わせを作成する。音声素片組み合わせ作成部183は、実施の形態1において図15を参照しつつ説明した処理によって複数の音声素片を選択する。音声素片組み合わせ作成部183は、作成した音声素片の組み合わせを示す組み合わせ情報を融合音声素片組み合わせ記憶部200に格納する。融合音声素片作成部184は、融合音声素片選択部140からの指示により、指示された複数の音声素片から融合音声素片を作成する。
The speech element
図22は、実施の形態2にかかる融合音声素片選択部140が融合音声素片を選択する処理を示すフローチャートである。
FIG. 22 is a flowchart of a process in which the fused speech
まず、ステップS212において、歪み推定部130が推定した歪みの度合いに基づいて、融合音声素片とすべき音声素片の組み合わせを決定する。次に、ステップS212で決定した組み合わせが融合音声素片組み合わせ記憶部200に格納されているか否かを判定する。
First, in step S212, based on the degree of distortion estimated by the
本実施の形態においては、ステップS212で決定した音声素片の組み合わせの1位からM位までの音声素片番号が、融合音声素片と一致する場合に、融合音声素片が融合音声素片記憶部160に保持されていると判定する。一方、一致しない場合には融合音声素片記憶部160に保持されていないと判定する。ステップS212で決定した組み合わせの融合音声素片が融合音声素片記憶部160に保持されていると判定した場合、ステップS213に進む。
In the present embodiment, when the speech unit numbers from the first place to the Mth place of the speech unit combination determined in step S212 match the fusion speech unit, the fusion speech unit is the fusion speech unit. It is determined that the data is held in the
ステップS213では、融合音声素片組み合わせ記憶部200を参照し、組み合わせに対応する融合音声素片番号を取得する。そして、取得した融合音声素片番号に基づいて、融合音声素片記憶部160から対応する融合音声素片を取得する。
In step S213, the fused speech unit
ステップS212において、融合音声素片が融合音声素片記憶部160に存在しないと判定された場合は、ステップS214において、融合音声素片作成部180に対して、ステップS211において決定した複数の音声素片の組み合わせから融合音声素片を作成する旨の指示を送る。ステップ215では、ステップS214において融合音声素片作成部180に送った指示に対する応答として、融合音声素片作成部180から対応する融合音声素片を取得する。
If it is determined in step S212 that the fusion speech unit does not exist in the fusion speech
このように、本実施の形態にかかるテキスト音声合成装置10は、融合音声記憶部160に適切な融合音声素片が保持されていない場合には、新たに融合音声素片を作成し、当該融合音声素片を利用して音声合成を行うので、より高音質な合成音声を効率的に生成することができる。
As described above, the text-to-
図23は、融合音声素片系列の例を示している。図23は「ts、i、i、s、a」の各音素に対して、融合音声素片記憶部160から抽出された融合音声素片と融合音声素片作成部180によって新たに作成された融合音声素片とのいずれを用いるかを示している。
FIG. 23 shows an example of a fused speech unit sequence. In FIG. 23, for each phoneme of “ts, i, i, s, a”, a fusion speech unit extracted from the fusion speech
ts、i、i、s、a、それぞれに対応する融合音声素片を221a、221b、221c、221d、221eとしている。ここでは、221bおよび221dは融合音声素片記憶部160に存在せず、221a、221c、221eは融合音声素片記憶部160に存在するとする。
The fusion speech segments corresponding to ts, i, i, s, a are 221a, 221b, 221c, 221d, and 221e. Here, it is assumed that 221b and 221d do not exist in the fused speech
この場合、3つの素片は、予め作成されている。一方、残りの2つの素片は素片の融合処理を合成時に必要とする。したがって、すべての素片を合成時に融合する場合に比べ融合処理の回数を2/5に削減することができる。 In this case, the three segments are created in advance. On the other hand, the remaining two pieces need to be fused at the time of synthesis. Therefore, the number of fusion processes can be reduced to 2/5 compared with the case where all the pieces are fused at the time of synthesis.
素片の融合処理は演算量の多い処理であるため、合成時の処理が高速化される。また、音声素片がハードディスクドライブに蓄積されている場合は、それぞれの音声素片のシーク時間を削減することができる。 Since the unit fusion process is a process with a large amount of calculation, the process at the time of synthesis is accelerated. In addition, when speech segments are stored in the hard disk drive, the seek time of each speech segment can be reduced.
すなわち、合成時に融合する場合は、それぞれ融合音声素片数であるM回のシーク時間がかかるのに対し、あらかじめ融合してある場合は1回のシーク時間でM個の素片を融合した融合音声素片を取得することができる。 That is, in the case of merging at the time of synthesis, it takes M seek times that are the number of fused speech units, whereas in the case of merging in advance, the fusion is performed by fusing M segments in one seek time. A speech segment can be acquired.
このように、第2の実施形態では、合成に用いる融合音声素片の一部をあらかじめ融合しておくことにより、すべて合成時に融合する場合と同等の合成音声が得られ、かつ高速に音声を合成することができる。 As described above, in the second embodiment, by synthesizing a part of the fusion speech unit used for synthesis in advance, a synthesized speech equivalent to the case where all of the speech units are fused at the time of synthesis can be obtained, and the speech can be transmitted at high speed. Can be synthesized.
なお、実施の形態2にかかるテキスト音声合成装置10のこれ以外の構成および処理は、実施の形態1にかかるテキスト音声合成装置10の構成および処理と同様である。
Other configurations and processes of the text-to-
第2の実施形態の判定ステップS212においては、S211において入力された各セグメントに対応するM個の音声素片の組み合わせすべてが融合音声素片組み合わせ記憶部181に蓄積されている組み合わせと一致した場合に、前記組み合わせに対応する融合音声素片を融合音声素片記憶部160から取得することにより融合音声素片とし、そうでない場合に選択されたM個の音声素片を音声素片記憶部181から取得して融合することにより融合音声素片を作成するとしたが、これに限定するものではない。
In the determination step S212 of the second embodiment, when all the combinations of M speech units corresponding to the segments input in S211 match the combinations stored in the fusion speech unit
例えば、予め一致させる組み合わせ個数の下限値Nを定めてもよい。各セグメントに対応するM個の音声素片のうち、N個以上の音声素片が融合音声素片組み合わせ記憶部181中の組み合わせと一致した場合に、前記組み合わせに対応する融合音声素片を融合音声素片記憶部160から取得する。一方、一致した組み合わせがN個よりも少ない場合にはM個の音声素片を融合することにより新たに融合音声素片を作成する。
For example, the lower limit value N of the number of combinations to be matched may be determined in advance. When M or more speech units corresponding to each segment match N or more speech units with the combination in the fused speech unit
これにより、合成時に融合音声素片系列中の融合音声素片記憶部160から取得された融合音声素片を用いる割合が増加し、音声合成処理がさらに高速化される。
As a result, the proportion of using the fusion speech unit acquired from the fusion speech
また、他の例としては、図15に示す処理により決定されたM個の音声素片の組み合わせの上位N個の音声素片が、融合音声素片組み合わせ記憶部181に記憶されている組み合わせの上位N個と一致するか否かを基準としてもよい。
As another example, the top N speech units of the combination of M speech units determined by the processing shown in FIG. 15 are the combinations stored in the fusion speech unit
M個の組み合わせの上位N個の音声素片が、融合音声素片組み合わせ記憶部181に記憶されている組み合わせの上位N個と一致した場合に、前記組み合わせに対応する融合音声素片を融合音声素片記憶部160から取得する。一方、一致しない場合に、前記M個の音声素片を融合することにより新たに融合音声素片を作成する。
When the top N speech units of the M combinations match the top N speech units stored in the fused speech unit
上位の音声素片が一致しているので、融合音声素片記憶部160から取得された融合音声素片のコスト関数の値は、選択された複数の音声素片の組み合わせのコスト関数の値に近づき、高音質な合成音声を得ることができる。
Since the higher speech units match, the value of the cost function of the fused speech unit acquired from the fused speech
(第3の実施形態)
次に、第3の実施形態にかかるテキスト音声合成装置10について説明する。図24は、実施の形態3にかかるテキスト音声合成装置10の音声合成部14の詳細な機能構成を示すブロック図である。実施の形態3にかかる音声合成部14においては、融合音声素片選択部140は、歪み推定部130が推定した歪みの度合いに基づいて、融合音声素片記憶部160に格納されている融合音声素片を選択するか否かを判断する。
(Third embodiment)
Next, the text-to-
より具体的には、歪み推定部130から取得した歪みの度合いが予め定められている歪み基準値よりも小さい場合に、対応する融合音声素片を融合音声素片記憶部160から抽出する。一方、歪み推定部130から取得した歪みの度合いが歪み基準値以上である場合には、融合音声素片記憶部160から抽出する代わりに、融合音声素片作成部180に対して融合音声素片の作成を指示する。実施の形態3にかかるテキスト音声合成装置10は、この点で他の実施の形態にかかるテキスト音声合成装置10と異なる。
More specifically, when the degree of distortion acquired from the
図25は、融合音声素片選択部140による処理を示すフローチャートである。まず、ステップS242において、歪み推定部130から各セグメントの韻律情報に対する歪みの度合いを取得する。なお、歪み推定部130からは複数の融合音声素片に対する歪みの度合いのうち最少の値を取得する。
FIG. 25 is a flowchart showing processing by the fused speech
次に、各セグメントに対して、ステップS243以下の処理を行う。ステップS243では、歪み推定部130から取得した歪みの度合いが予め定められている歪み基準値よりも小さいか否かを判断する。歪み基準値以上である場合、すなわち、歪みが大きく許容できない場合には、ステップS245において、融合音声素片作成部180に対して新たに融合音声素片を作成する旨を指示する。
Next, the processing from step S243 is performed on each segment. In step S243, it is determined whether or not the degree of distortion acquired from the
そして、ステップ246において、当該指示に対する応答として、新たな融合音声素片を取得する。なお、この場合融合音声素片作成部180は、分割部120を介して対応する入力韻律情報等を取得する。取得した入力韻律情報等に基づいて、複数の音声素片を選択する。選択した音声素片を融合して融合音声素片を得る。
In step 246, a new fused speech segment is acquired as a response to the instruction. In this case, the fused speech
一方、歪み基準値よりも小さい場合、すなわち、歪みが小さい場合には、ステップS244において対応する融合音声素片を融合音声素片記憶部160から選択する。以上で、融合音声素片選択部140による処理が完了する。
On the other hand, if it is smaller than the distortion reference value, that is, if the distortion is small, the corresponding fused speech element is selected from the fused speech
なお、実施の形態3にかかるテキスト音声合成装置10のこれ以外の構成および処理は、実施の形態1にかかるテキスト音声合成装置10の構成および処理と同様である。
The other configuration and processing of the text-to-
本実施の形態においては、予め歪み基準値、すなわち閾値を設定している。そして、閾値に基づいて、新たに融合音声素片を作成するか否かを判断している。新たな融合音声素片を作成するか否かの判断にあたっては、韻律情報の歪みの度合いを考慮すればよく、閾値に基づく判断に限定されない。 In this embodiment, a distortion reference value, that is, a threshold value is set in advance. Then, based on the threshold value, it is determined whether or not to create a new fused speech segment. In determining whether or not to create a new fused speech unit, the degree of distortion of prosodic information may be taken into consideration, and the determination is not limited to a determination based on a threshold value.
図26は、新たな融合音声素片を作成するか否かの判断方法の他の例を説明するための図である。まず、ステップS251において各セグメントに対する入力融合音声素片の歪みの度合いE1を取得する。ステップS252では、音声素片記憶部181から図15に示した処理により複数の音声素片を選択する。ステップS253では、ステップ252において選択された韻律情報の歪みの度合いの平均値E2を計算する。ステップS254では、E1とE2との差が予め定めた閾値より大きいか否かを判定する。そして、この判定結果に基づいて新たに融合音声素片を作成するか否かを決定する。
FIG. 26 is a diagram for explaining another example of a method for determining whether or not to create a new fused speech unit. First, in step S251, the degree of distortion E1 of the input fusion speech unit for each segment is acquired. In step S252, a plurality of speech units are selected from the speech
具体的には、E1とE2との差が予め定めて閾値よりも小さい場合には、融合音声素片記憶部160から融合音声素片を選択する。一方、E1とE2との差が閾値以上である場合には、新たに融合音声素片を作成する指示を出す。
Specifically, if the difference between E1 and E2 is predetermined and smaller than the threshold value, the fused speech unit is selected from the fused speech
第3の実施形態においては、第2の実施形態と同様に、歪みの度合いが小さい場合には、予め作成されて融合音声素片記憶部160に保持されている融合音声素片を利用することができる。したがって、高速に音声合成を行うことができる。
In the third embodiment, as in the second embodiment, when the degree of distortion is small, a fusion speech unit that is created in advance and held in the fusion speech
また、新たに作成した融合音声素片を適宜融合音声素片記憶部160に追加してもよい。これにより、複数素片の組み合わせをあらかじめ限定している第1の実施形態にかかるテキスト音声合成装置10に比べて、より融合する組み合わせのバリエーションが多くなる。したがって、高音質な合成音声を得ることができる。
Further, the newly created fused speech unit may be added to the fused speech
(実施の形態4)
次に、実施の形態4にかかるテキスト音声合成装置10について説明する。実施の形態4にかかるテキスト音声合成装置10は、融合音声素片記憶部160および融合音声素片音素環境記憶部170の内容を更新する。
(Embodiment 4)
Next, the text-to-
図27は、実施の形態4にかかる音声合成部14の機能構成を示すブロック図である。実施の形態4にかかる音声合成部14は、実施の形態2にかかる音声合成部14の構成に加え更新部210をさらに備えている。更新部210は、融合音声素片編集・接続部150から各セグメントの組み合わせを取得する。そして、当該組み合わせを融合音声素片記憶部160に追加するか否かを判断する。
FIG. 27 is a block diagram of a functional configuration of the
図28は、更新部210における更新処理を示すフローチャートである。まず、ステップS271において、合成時に用いられた複数音声素片組み合わせ系列を融合音声素片編集・接続部150から取得する。ステップS272においては、入力された各セグメントの組み合わせを融合音声素片記憶部160に加えるかどうかを判定する。例えば、融合音声素片編集・接続部150から取得した組み合わせが融合音声素片記憶部160に既に格納されているか否かに基づいて判断する。
FIG. 28 is a flowchart showing an update process in the
そして、追加すると判断した場合には、ステップS273において融合音声素片とその組み合わせ情報を融合音声素片記憶部160に追加する。一方、追加しないと判断した場合には、融合音声素片編集・接続部150から取得した組み合わせを破棄する。以上で、更新処理が完了する。
If it is determined to be added, the fused speech unit and its combination information are added to the fused speech
なお、実施の形態4にかかるテキスト音声合成装置10のこれ以外の構成および処理は、実施の形態2にかかるテキスト音声合成装置10の構成および処理と同様である。
The other configurations and processes of the text-to-
実施の形態4にかかる第1の変更例としては、更新部210は、融合音声素片記憶部160に組み合わせを追加する処理に加えて、さらに融合音声素片記憶部160に格納されている融合音声素片を削除する処理を行ってもよい。例えば、更新部210は、融合音声素片記憶部160に格納されている各融合音声素片の使用頻度を監視する。そして、使用頻度が予め定められた値以下である場合に削除してもよい。
As a first modification example according to the fourth embodiment, the updating
実施の形態4にかかる第2の変更例としては、更新部210は、組み合わせの使用頻度により融合音声素片記憶部160に追加するか否かを決定してもよい。このように、ステップS272における判断基準は、本実施の形態に限定されるものではない。
As a second modification example according to the fourth embodiment, the updating
更新部210は、融合音声素片編集・接続部150から取得した組み合わせごとに、取得した回数を保持しておく。そして、同一の組み合わせを予め定められた回数以上取得した場合に、当該組み合わせを融合音声素片記憶部160に格納してもよい。一方、予め定められた回数以上取得しない場合には破棄する。
The updating
より具体的には、更新部210は、例えばキャッシュメモリ等で構成された組み合わせ一時保持部(図示せず)を有する。一時保持部は、予め定められた期間だけ、組み合わせを保持する。そして、一時保持部に保持されている組み合わせについての回数をカウントし、保持する。なお、本例にかかる更新部210は、本発明にかかる更新手段および使用頻度カウント手段を構成する。
More specifically, the updating
これにより、使用頻度の高い組み合わせに対する融合音声素片のみを融合音声素片記憶部160に追加することができる。従って、メモリを有効に利用することができ、かつ音声合成処理の効率化を図ることができる。
As a result, only the fusion speech unit for the frequently used combination can be added to the fusion speech
第3の変更例としては、第2の変更例においては、音声素片間の類似度を定義したが、同様に融合音声素片間の類似度を定義してもよい。すなわち、本実施の形態においては、融合音声素片作成部180は、組み合わせ頻度および類似度に基づいて融合音声素片を作成することができる。
As a third modification, the similarity between speech units is defined in the second modification, but the similarity between fused speech units may be defined in the same manner. In other words, in the present embodiment, fused speech
本例においては、二つの融合音声素片間の類似度を、二つの融合音声素片のコストの逆数とする。二つの融合音声素片のコストは、式(16)から式(19)と同様に定義することができる。 In this example, the similarity between two fused speech units is the reciprocal of the cost of the two fused speech units. The costs of the two fused speech segments can be defined in the same manner as in equations (16) to (19).
図29は、第3の変更例にかかる融合音声素片作成処理を示すフローチャートである。まず、ステップS291で、利用頻度順に複数音声素片の組み合わせを入力する。これは音声素片組み合わせ作成部183で作成されたものである。
FIG. 29 is a flowchart showing the fused speech segment creation processing according to the third modification. First, in step S291, a combination of a plurality of speech units is input in order of use frequency. This is created by the speech element
次に、組み合わせごとに以下の処理を行う。すなわち、ステップS292では、融合音声素片記憶部160中の各融合音声素片と、取得した組み合わせから作成した融合音声素片との類似度を求める。ここで、融合音声素片記憶部160に該当する音素の融合音声素片が一つもない場合、類似度を0とする。この類似度が予め設定された閾値より大きい場合は、ステップS293に進み、小さい場合はステップS294に進む。
Next, the following processing is performed for each combination. That is, in step S292, the similarity between each fusion speech unit in the fusion speech
ステップS293は、似ている融合音声素片が存在すると判断された場合に対応する。この場合は、取得したされた組み合わせとともに、類似度が最大となる融合音声素片の素片番号を、融合音声素片組み合わせ記憶部200に追加する。
Step S293 corresponds to the case where it is determined that there is a similar fusion speech unit. In this case, together with the acquired combination, the unit number of the fusion speech unit having the maximum similarity is added to the fusion speech unit
ステップS294は、似ている融合音声素片が融合音声素片記憶部160に存在しないと判断された場合に対応する。この場合は、入力された組み合わせに対応する融合音声素片を追加する。そして、ステップS295において、融合音声素片組み合わせ記憶部200に、該当する組み合わせを追加する。これにより、融合音声素片記憶部160中の融合音声素片はあらかじめ定めた閾値より類似度の小さい融合音声素片を蓄積することになり、メモリの利用量を減少させることができる。
Step S294 corresponds to the case where it is determined that there is no similar fused speech unit in the fused speech
第4の変更例としては、本実施の形態においては、予め定められた条件に基づいて、融合音声素片記憶部160に予め保持されている融合音声素片を利用するか、複数の音声素片から新たな融合音声素片を作成するかを判断したが、さらに、利用可能な演算量や音声合成に対する要求スペック等を考慮して条件を定めてもよい。
As a fourth modification, in the present embodiment, based on a predetermined condition, a fusion speech unit stored in the fusion speech
すなわち、融合音声素片記憶部160に予め格納されている融合音声素片を利用することにより処理の効率化を図ることができる一方、音質が低下する可能性がある。
That is, by using the fusion speech unit stored in advance in the fusion speech
具体的には、例えば、融合音声素片に対する音声素片の組み合わせのうちの一部が一致する融合音声素片を融合音声素片記憶部160から選択した場合には、予め作成された融合音声素片を利用するため、高速処理が可能である。一方、一致しない音声素片を含んでいるため、作成される融合音声素片は最適なものとは異なってしまう。
Specifically, for example, when a fusion speech unit that matches a part of a combination of speech units to the fusion speech unit is selected from the fusion speech
そこで、本例においては、融合音声素片記憶部160に格納されている融合音声素片を利用する頻度を、演算量の観点から制御することとする。これにより、演算量の観点と合成音声の品質の観点の両面から制御することができる。
Therefore, in this example, the frequency of using the fusion speech unit stored in the fusion speech
なお、音声合成部14における初期設定値として、演算量等の観点から定めた条件を設定してもよく、また他の例としては、初期設定後も適宜演算量等の観点から条件を変更してもよい。
It should be noted that a condition determined from the viewpoint of calculation amount or the like may be set as the initial set value in the
また、融合音声素片作成部180においては、音声素片群のクラスタリングにより融合音声素片記憶部160に格納すべき融合音声素片を制限してもよい。
Further, the fusion speech
具体的には、まず音声素片記憶部181に保持されている各音声素片間の類似度を算出する。そして、類似度に基づいて音声素片のクラスタリングを行う。より具体的には、類似度が大きい音声素片同士を同一の音声素片群とする。そして、クラスタリングにより得られた各音声素片群に対する融合音声素片を作成する。さらに融合音声素片に対する融合音声素片音声環境を作成する。そして、更新部210は、新たに作成された融合音声素片および融合音声素片音声環境を対応付けて融合音声素片記憶部160に格納する。
Specifically, first, the similarity between each speech unit held in the speech
例えば、二つの音声素片間の類似度に基づいて、音声素片群のクラスタリングを行う。そして、クラスタリングにより、類似度の最も高い融合音声素片のみを融合音声素片記憶部160に保持してもよい。
For example, clustering of speech unit groups is performed based on the similarity between two speech units. Then, only the fused speech unit having the highest similarity may be held in the fused speech
具体的には、まず、コスト関数に基づいて、二つの素片間の類似度を定義する。ここでは類似度は、二つの素片間のコストの逆数とし、コストを最小にするようにクラスタリングを行う。 Specifically, first, the similarity between two segments is defined based on a cost function. Here, the similarity is the reciprocal of the cost between two segments, and clustering is performed so as to minimize the cost.
二つの素片間のコストは、上述したコスト関数に基づいて、式(16)で示される基本周波数コスト、式(17)で示される継続時間長コスト、および式(18)で示される平均スペクトルコストの線形結合とする(式(19))。
このようにして、二つの素辺間のコストを求めた後、全体でのコストが最小になるようなM個の素片を選択する。選択されたM個の素片と、全体のコスト(トータルコスト)は、式(20)のように表される。
以上の演算により求めた各クラスタの素片を融合することにより融合音声素片を作成する。また、各素片の韻律情報のセントロイドを求めることにより融合音声素片の韻律情報を求める。そして、融合音声素片音素環境情報とする。 A fused speech segment is created by fusing the segments of each cluster obtained by the above calculation. Further, the prosodic information of the fusion speech segment is obtained by obtaining the centroid of the prosodic information of each segment. And it is set as fusion speech unit phoneme environment information.
他の例としては、式(18)に替えて、ケプストラムパラメータのDTW(dynamic time warping)距離を用いてもよい。この場合は、各ピッチ波形に対応するケプストラムを求め、ケプストラム距離が最小になるように動的計画法に基づいて時間軸伸縮を行い、最小ケプストラム距離を求める。 As another example, a DTW (dynamic time warping) distance of a cepstrum parameter may be used instead of Expression (18). In this case, a cepstrum corresponding to each pitch waveform is obtained, and time axis expansion / contraction is performed based on the dynamic programming so that the cepstrum distance is minimized to obtain a minimum cepstrum distance.
また、本例においては、類似度をコストに基づいて定義しているが、これに限定するものではなく例えば単純に時間伸縮したケプストラム距離、韻律変形した際の波形の自乗誤差などに基づいて定義してもよい。各クラスタにおいてHMMを学習し、その尤度を類似度として定義してもよい。 In this example, the similarity is defined based on the cost. However, the present invention is not limited to this. For example, the similarity is defined based on the cepstrum distance that is simply time-expanded or the square error of the waveform when the prosody is deformed. May be. The HMM may be learned in each cluster, and the likelihood may be defined as the similarity.
これによりあらかじめ融合音声素片記憶部に記憶する融合音声素片をコスト最小という基準で作成することができ、効率よく融合音声素片群を作成することができ、メモリの使用量を減少させることができる。 This makes it possible to create a fusion speech unit to be stored in advance in the fusion speech unit storage unit on the basis of the minimum cost, to efficiently create a fusion speech unit group, and to reduce the amount of memory used. Can do.
また他の例としては、融合音声素片の類似度について閾値を設定し、当該閾値を基準として融合音声素片記憶部160に格納するか否かを決定してもよい。具体的には、融合音声素片同士の類似度を判定する。そして、類似度が予め定められた閾値以上である場合に融合音声素片記憶部160に格納する。一方、類似度が閾値よりも小さい場合には融合音声素片記憶部160に格納せずに破棄する。
As another example, a threshold may be set for the similarity of fused speech units, and whether to store in the fused speech
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。 As described above, the present invention has been described using the embodiment, but various changes or improvements can be added to the above embodiment.
そうした変更例としては、本実施の形態においては、図11等を参照しつつ説明したように、融合音声素片作成部184は、有声音の融合音声素片をピッチ波形の平均化により作成したが、融合音声素片の作成方法は、これに限定されるものではない。例えば、閉ループ学習を用いてもよい。閉ループ学習を使うことで、それぞれの音声素片のピッチ波形を取り出すことなく、合成音のレベルで最適なピッチ波形系列を作り出すことができる。
As an example of such change, in the present embodiment, as described with reference to FIG. 11 and the like, the fused speech
ここで、閉ループ学習とは、実際に基本周波数や韻律継続時間長を変更して合成された合成音声のレベルで、自然音声に対する歪みが小さくなるような代表音声素片を生成する方法である。すなわち、閉ループ学習においては、合成音声のレベルで歪みが小さくなるような素片を生成する(特許第3281281号参照)。 Here, closed-loop learning is a method of generating a representative speech segment that reduces the distortion of natural speech at the level of synthesized speech that is actually synthesized by changing the fundamental frequency and prosodic duration. That is, in closed-loop learning, a segment whose distortion is reduced at the level of the synthesized speech is generated (see Japanese Patent No. 3281281).
閉ループ学習を用いて、有声音の音声素片を融合する場合について説明する。融合によって求められる音声素片は、第1の実施形態と同様にピッチ波形の系列として求められる。これらのピッチ波形を連結して構成されるベクトルuで音声素片を表すこととする。 A case where voiced speech segments are fused using closed loop learning will be described. The speech segment obtained by the fusion is obtained as a series of pitch waveforms as in the first embodiment. A speech unit is represented by a vector u configured by connecting these pitch waveforms.
まず、音声素片の初期値を用意する。初期値としては、第1の実施形態で述べた手法によって求められるピッチ波形の系列を用いてもよい。また、ランダムなデータを用いても良い。また、音声素片組み合わせ作成部183で作成された組み合わせの音声素片の波形を表すベクトルをrj(j=1、2、…、M)とする。次に、uを用いて、rjを目標としてそれぞれ音声を合成する。生成された合成音声セグメントをsjと表す。sjは、次式(9)のように、ピッチ波形の重畳を表す行列Ajとuの積で表される。
また、行列Ajを求める際のrjのピッチマーク位置を、rjとuの波形の相関に基づいて修正するようにしても良い。 Further, the pitch mark position of rj when obtaining the matrix Aj may be corrected based on the correlation between the waveform of rj and u.
また、ベクトルrjを帯域分割し、各帯域毎に上述した閉ループ学習を行ってuを求め、全帯域のuを加算することによって融合された音声素片を生成するようにしても良い。
このように、閉ループ学習を素片の融合に用いることによって、ピッチ周期変更による合成音声の劣化が小さい音声素片を生成することが可能である。
Alternatively, the vector rj may be divided into bands, the closed loop learning described above is performed for each band to obtain u, and a united speech unit may be generated by adding u of all bands.
In this way, by using closed loop learning for unit fusion, it is possible to generate a speech unit in which the synthesized speech is less degraded by changing the pitch period.
また、融合音声素片記憶部160に新たに作成された融合音声素片を格納するに際して、既に格納されている融合音声素片との類似度を算出してもよい。具体的には、音声素片作成部180が融合音声素片を作成した場合に、作成された融合音声素片と、既に融合音声素片記憶部180に記憶されている融合音声素片との類似度を算出する。そして、類似度が予め定められた値よりも小さい場合には、音声素片作成部180によって融合音声素片を融合音声素片記憶部180に新たに格納する。これにより、比較的類似した融合音声素片が格納されるのを避けることができるので、メモリを有効に利用することができる。
In addition, when a newly created fused speech unit is stored in the fused speech
10 テキスト音声合成装置
11テキスト取得部
12 言語処理部
13 言語処理部
14 音声合成部
15 音声波形出力部
110 音韻系列・韻律情報取得部
120 分割部
130 歪み推定部
140 融合音声素片選択部
150 融合音声素片編集・接続部
160 融合音声素片記憶部
170 融合音声素片音素環境記憶部
180 融合音声素片作成部
181 音声素片記憶部
182 融合音声素片音素環境記憶部
183 音声素片組み合わせ作成部
184 融合音声素片作成部
185 融合音声素片音素環境作成部
200 融合音声素片組み合せ記憶部
210 更新部
1831 音韻系列・韻律情報取得部
1832 複数音声素片選択部
1833 音声素片組み合わせ頻度情報作成部
1834 複数音声素片組み合わせ決定部
1835 音声素片組み合わせ頻度情報頻度情報記憶部
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
DESCRIPTION OF
52 ROM
53 RAM
57 Communication I / F
62 Bus
Claims (17)
予め設定されている教師音声の韻律を示す教師音声韻律情報と前記音声素片保持手段に保持されている前記音声素片韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択手段と、
前記音声素片選択手段によって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組合せ決定手段と、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成手段と、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成手段と、
前記融合音声素片作成手段によって作成された前記融合音声素片と、前記融合音声素片韻律情報作成手段によって作成された前記融合音声素片韻律情報とを対応付けて保持する融合音声素片保持手段と、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得手段と、
前記取得手段によって得られた前記セグメントの韻律を示すセグメント韻律情報と前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報との間の歪みの度合いを推定する保持音声歪み推定手段と、
前記保持音声歪み推定手段によって推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択手段と、
前記融合音声素片選択手段が各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成手段と
を備えたことを特徴とする音声合成装置。 A plurality of speech units corresponding to the same speech unit and having different prosody of the speech unit and speech unit prosody information indicating the prosody of the speech unit are stored in association with each other. Speech segment holding means;
Based on teacher speech prosody information indicating a preset prosody of a teacher speech and the speech unit prosody information held in the speech unit holding unit, a plurality of speech units are generated from the speech unit holding unit. Speech segment selection means for selecting
A combination determining unit that determines a combination of a plurality of speech units that satisfy a predetermined condition from the plurality of speech units selected by the speech unit selection unit;
Based on the plurality of speech units included in the determined combination, fused speech unit creating means for creating a fused speech unit by fusing a plurality of speech units;
Fusion speech segment prosodic information creation for creating fused speech segment prosodic information indicating the prosody of the fused speech segment based on the prosodic information corresponding to each of the plurality of speech segments included in the determined combination Means,
Fused speech unit holding for holding the fused speech unit created by the fused speech unit creating unit and the fused speech unit prosody information created by the fused speech unit prosody information associated with each other Means,
Acquisition means for acquiring a prosodic sequence for a target speech to be synthesized for each of a plurality of segments that are synthesis units of speech synthesis;
Retained speech distortion estimation for estimating the degree of distortion between segment prosodic information indicating the prosody of the segment obtained by the acquiring means and the fused speech segment prosodic information held in the fused speech segment holding means Means,
Based on the degree of distortion estimated by the retained speech distortion estimation means, fused speech segment selection means for selecting the fused speech segment;
A speech synthesizer comprising: speech synthesis means for generating synthesized speech by connecting the fused speech units selected by the fused speech unit selection means for each segment.
前記保持音声歪み推定手段は、前記セグメントの音声における組み合わせと前記組み合わせ情報保持手段が保持している前記組み合わせとの一致度を前記歪みの度合いとして推定することを特徴とする請求項1から4のいずれか一項に記載の音声合成装置。 Further comprising combination information holding means for holding combination information indicating a combination of the plurality of speech units included in the fused speech unit held in the fused speech unit holding means;
The holding audio distortion estimating means of claims 1 to 4, characterized in that for estimating the degree of coincidence between the combination of the combination information holding means and combinations in speech of the segment is held as the degree of the strain The speech synthesizer as described in any one of Claims.
前記融合音声素片選択手段は、前記保持音声歪み推定手段が前記セグメントの音声の前記音声素片の組み合わせと前記融合素片保持手段に保持されている前記融合音声素片の組み合わせとが一致し、かつ当該融合音声素片の優先順位が予め定められた優先順位基準値以上である場合に、当該融合音声素片を選択することを特徴とする請求項6または7に記載の音声合成装置。 The combination information holding unit holds a priority order for the combination in association with each combination,
In the fused speech unit selection means, the held speech distortion estimation means matches the combination of the speech units of the speech of the segment and the combination of the fused speech units held in the fused unit holding means. The speech synthesis apparatus according to claim 6 or 7 , wherein the fusion speech unit is selected when the priority of the fusion speech unit is equal to or higher than a predetermined priority reference value.
前記組合せ決定手段は、前記使用頻度が予め定められた閾値以上である前記組み合わせを決定すること、
を特徴とする請求項1から9のいずれか一項に記載の音声合成装置。 A frequency information creating means for counting the frequency of use of the combination ;
The combination determining means determines the combination in which the use frequency is equal to or higher than a predetermined threshold;
The speech synthesizer according to any one of claims 1 to 9 .
前記更新手段は、前記使用頻度カウント手段が予め定められた使用頻度基準値以上の値をカウントした場合に、対応する融合音声素片を前記融合音声素片保持手段に格納することを特徴とする請求項11に記載の音声合成装置。 The updating means further comprises a usage frequency counting means for counting the usage frequency of the fused speech unit created by the fused speech segment creating means,
The updating means stores the corresponding fused speech element in the fused speech element holding means when the usage frequency counting means counts a value equal to or greater than a predetermined usage frequency reference value. The speech synthesizer according to claim 11 .
前記類似度算出手段によって算出された前記類似度が予め定められた値よりも小さい場合に、前記融合音声素片作成手段によって作成された前記融合音声素片を前記融合音声素片保持手段に格納する更新手段と
をさらに備えたことを特徴とする請求項1から10のいずれか一項に記載の音声合成装置。 Similarity calculating means for calculating the similarity between the fused speech unit created by the fused speech unit creating means and the fused speech unit held in the fused speech unit holding means;
When the similarity calculated by the similarity calculation unit is smaller than a predetermined value, the fusion speech unit created by the fusion speech unit creation unit is stored in the fusion speech unit holding unit. speech synthesis apparatus according to any one of claims 1 to 10, characterized in, further comprising a updating means for.
前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、
前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、
前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、
前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップと
を有することを特徴とする音声合成方法。 A plurality of speech units corresponding to the same speech unit and having a plurality of speech units having different prosody of the speech unit and speech unit prosody information indicating the prosody of the speech unit in association with each other Based on the speech unit prosody information held in the unit holding unit and the teacher speech prosody information indicating the preset prosody of the teacher speech, a plurality of speech units are obtained from the speech unit holding unit. A speech segment selection step to select;
A combination determining step of determining a combination of a plurality of the speech elements that satisfy a predetermined condition from the plurality of speech elements selected by the speech element selection step;
Based on the plurality of speech units included in the determined combination, a fused speech unit creating step for creating a fused speech unit obtained by fusing a plurality of the speech units;
Fusion speech segment prosodic information creation for creating fused speech segment prosodic information indicating the prosody of the fused speech segment based on the prosodic information corresponding to each of the plurality of speech segments included in the determined combination Steps,
In the fused speech unit holding means, the fused speech unit created by the fused speech unit creating step and the fused speech unit prosody information created by the fused speech unit prosody information creating step are associated with each other. A save step to save;
An acquisition step of acquiring a prosodic sequence for a target speech to be synthesized for each of a plurality of segments that are synthesis units of speech synthesis;
Said fused speech unit prosody information held in the fused speech unit holding means, holding audio distortion to estimate the degree of distortion between the resulting segment prosody information indicating the prosody of said segments in said obtaining step An estimation step;
A fusion speech unit selection step of selecting the fusion speech unit based on the degree of distortion estimated in the retained speech distortion estimation step;
A speech synthesis method comprising: a speech synthesis step of generating synthesized speech by connecting each fused speech unit selected for each segment in the fused speech unit selection step.
同一の音声単位に対する複数の音声素片であって、かつ当該音声単位の韻律が互いに異なる複数の音声素片と当該音声素片の韻律を示す音声素片韻律情報とを対応付けて保持する音声素片保持手段に保持されている前記音声素片韻律情報と、予め設定されている教師音声の韻律を示す教師音声韻律情報とに基づいて、前記音声素片保持手段から複数の音声素片を選択する音声素片選択ステップと、
前記音声素片選択ステップによって選択された複数の前記音声素片から、予め定められた条件を満たす複数の前記音声素片の組み合わせを決定する組み合わせ決定ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片に基づいて、複数の前記音声素片を融合した融合音声素片を作成する融合音声素片作成ステップと、
決定された前記組み合わせに含まれる複数の前記音声素片それぞれに対応する前記韻律情報に基づいて、前記融合音声素片の韻律を示す融合音声素片韻律情報を作成する融合音声素片韻律情報作成ステップと、
前記融合音声素片作成ステップによって作成された前記融合音声素片と、前記融合音声素片韻律情報作成ステップによって作成された前記融合音声素片韻律情報とを対応付けて融合音声素片保持手段に保存する保存ステップと、
音声合成すべき目標音声に対する韻律系列を、音声合成の合成単位である複数のセグメントそれぞれに対して取得する取得ステップと、
前記融合音声素片保持手段に保持されている前記融合音声素片韻律情報と、前記取得ステップにおいて得られた前記セグメントの韻律を示すセグメント韻律情報との間の歪みの度合いを推定する保持音声歪み推定ステップと、
前記保持音声歪み推定ステップにおいて推定された前記歪みの度合いに基づいて、前記融合音声素片を選択する融合音声素片選択ステップと、
前記融合音声素片選択ステップにおいて各セグメントに対して選択した各融合音声素片を接続して合成音声を生成する音声合成ステップと
を有することを特徴とする音声合成プログラム。 A speech synthesis program for causing a computer to execute speech synthesis processing,
A plurality of speech units corresponding to the same speech unit and having a plurality of speech units having different prosody of the speech unit and speech unit prosody information indicating the prosody of the speech unit in association with each other Based on the speech unit prosody information held in the unit holding unit and the teacher speech prosody information indicating the preset prosody of the teacher speech, a plurality of speech units are obtained from the speech unit holding unit. A speech segment selection step to select;
A combination determining step of determining a combination of a plurality of the speech elements that satisfy a predetermined condition from the plurality of speech elements selected by the speech element selection step;
Based on the plurality of speech units included in the determined combination, a fused speech unit creating step for creating a fused speech unit obtained by fusing a plurality of the speech units;
Fusion speech segment prosodic information creation for creating fused speech segment prosodic information indicating the prosody of the fused speech segment based on the prosodic information corresponding to each of the plurality of speech segments included in the determined combination Steps,
In the fused speech unit holding means, the fused speech unit created by the fused speech unit creating step and the fused speech unit prosody information created by the fused speech unit prosody information creating step are associated with each other. A save step to save;
An acquisition step of acquiring a prosodic sequence for a target speech to be synthesized for each of a plurality of segments that are synthesis units of speech synthesis;
Said fused speech unit prosody information held in the fused speech unit holding means, holding audio distortion to estimate the degree of distortion between the resulting segment prosody information indicating the prosody of said segments in said obtaining step An estimation step;
A fusion speech unit selection step of selecting the fusion speech unit based on the degree of distortion estimated in the retained speech distortion estimation step;
A speech synthesis program comprising: a speech synthesis step of generating synthesized speech by connecting each fused speech unit selected for each segment in the fused speech unit selection step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004106711A JP4034751B2 (en) | 2004-03-31 | 2004-03-31 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004106711A JP4034751B2 (en) | 2004-03-31 | 2004-03-31 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005292433A JP2005292433A (en) | 2005-10-20 |
JP4034751B2 true JP4034751B2 (en) | 2008-01-16 |
Family
ID=35325425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004106711A Expired - Lifetime JP4034751B2 (en) | 2004-03-31 | 2004-03-31 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4034751B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008102710A1 (en) * | 2007-02-20 | 2008-08-28 | Nec Corporation | Speech synthesizing device, method, and program |
JP5238205B2 (en) | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | Speech synthesis system, program and method |
JP5747471B2 (en) * | 2010-10-20 | 2015-07-15 | 三菱電機株式会社 | Speech synthesis system, speech segment dictionary creation method, speech segment dictionary creation program, and speech segment dictionary creation program recording medium |
CN108877765A (en) | 2018-05-31 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | Processing method and processing device, computer equipment and the readable medium of voice joint synthesis |
-
2004
- 2004-03-31 JP JP2004106711A patent/JP4034751B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005292433A (en) | 2005-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4080989B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
JP5665780B2 (en) | Speech synthesis apparatus, method and program | |
JP5038995B2 (en) | Voice quality conversion apparatus and method, speech synthesis apparatus and method | |
JP4551803B2 (en) | Speech synthesizer and program thereof | |
JP6499305B2 (en) | Speech synthesis apparatus, speech synthesis method, speech synthesis program, speech synthesis model learning apparatus, speech synthesis model learning method, and speech synthesis model learning program | |
JP4469883B2 (en) | Speech synthesis method and apparatus | |
US7603278B2 (en) | Segment set creating method and apparatus | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP4738057B2 (en) | Pitch pattern generation method and apparatus | |
JP3667950B2 (en) | Pitch pattern generation method | |
JP6293912B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP6266372B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program | |
KR20070077042A (en) | Apparatus and method of processing speech | |
CN1787072B (en) | Method for synthesizing pronunciation based on rhythm model and parameter selecting voice | |
Akamine et al. | Analytic generation of synthesis units by closed loop training for totally speaker driven text to speech system (TOS drive TTS) | |
JP4034751B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP2009133890A (en) | Voice synthesizing device and method | |
JP4945465B2 (en) | Voice information processing apparatus and method | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP5062178B2 (en) | Audio recording system, audio recording method, and recording processing program | |
JP4476855B2 (en) | Speech synthesis apparatus and method | |
JP4170819B2 (en) | Speech synthesis method and apparatus, computer program and information storage medium storing the same | |
JP3281281B2 (en) | Speech synthesis method and apparatus | |
JP6523423B2 (en) | Speech synthesizer, speech synthesis method and program | |
JP5275470B2 (en) | Speech synthesis apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071025 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4034751 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |