JP3281266B2 - Speech synthesis method and apparatus - Google Patents

Speech synthesis method and apparatus

Info

Publication number
JP3281266B2
JP3281266B2 JP25015096A JP25015096A JP3281266B2 JP 3281266 B2 JP3281266 B2 JP 3281266B2 JP 25015096 A JP25015096 A JP 25015096A JP 25015096 A JP25015096 A JP 25015096A JP 3281266 B2 JP3281266 B2 JP 3281266B2
Authority
JP
Japan
Prior art keywords
speech
unit
units
representative
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP25015096A
Other languages
Japanese (ja)
Other versions
JPH09319391A (en
Inventor
岳彦 籠嶋
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP25015096A priority Critical patent/JP3281266B2/en
Priority to US08/758,772 priority patent/US6240384B1/en
Publication of JPH09319391A publication Critical patent/JPH09319391A/en
Priority to US09/722,047 priority patent/US6332121B1/en
Priority to US09/984,254 priority patent/US6553343B1/en
Application granted granted Critical
Publication of JP3281266B2 publication Critical patent/JP3281266B2/en
Priority to US10/265,458 priority patent/US6760703B2/en
Priority to US10/792,888 priority patent/US7184958B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、テキスト音声合成
のための音声合成方法に係り、特に音韻記号列、ピッチ
および音韻継続時間長などの情報から音声信号を生成す
る音声合成方法に関する。
The present invention relates to a speech synthesis method for text speech synthesis, and more particularly to a speech synthesis method for generating a speech signal from information such as a phoneme symbol string, a pitch, and a phoneme duration.

【0002】[0002]

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。テキスト音声合成
は、一般的に言語処理部、音韻処理部および音声合成部
の3つの段階によって行われる。入力されたテキスト
は、まず言語処理部において形態素解析や構文解析など
が行われ、次に音韻処理部においてアクセントやイント
ネーシヨンの処理が行われて、音韻記号列・ピッチ・音
韻継続時間長などの情報が出力される。最後に、音声信
号合成部で音韻記号列・ピッチ・音韻継続時間長などの
情報から音声信号を合成する。そこで、テキスト音声合
成に用いる音声合成方法は、任意の音韻記号列を任意の
韻律で音声合成することが可能な方法でなければならな
い。
2. Description of the Related Art Creating a speech signal artificially from an arbitrary sentence is called text-to-speech synthesis. Text-to-speech synthesis is generally performed in three stages: a language processing unit, a phonemic processing unit, and a speech synthesis unit. The input text is first subjected to morphological analysis and syntactic analysis in the language processing unit, and then to accent and intonation processing in the phonological processing unit, resulting in phonological symbol strings, pitch, phonological duration, etc. Is output. Finally, the speech signal synthesizer synthesizes a speech signal from information such as a phoneme symbol string, pitch, and phoneme duration. Therefore, the speech synthesis method used for text speech synthesis must be a method capable of synthesizing an arbitrary phoneme symbol string with an arbitrary prosody.

【0003】このような任意の音韻記号列を音声合成す
る音声合成装置の原理は、母音をV、子音をCで表す
と、CV、CVC、VCVといった基本となる小さな単
位の特徴パラメータ(これを代表音声素片という)を記
憶し、これらを選択的に読み出した後、ピッチや継続時
間長を制御して接続することにより、音声を合成すると
いうものである。従って、記憶されている代表音声素片
が合成音声の品質を大きく左右することになる。
[0003] The principle of such a speech synthesizer for synthesizing an arbitrary phoneme symbol string is that if a vowel is represented by V and a consonant is represented by C, a characteristic parameter of a small basic unit such as CV, CVC, VCV (which is referred to as After representative voice units are stored and selectively read out, the voices are synthesized by controlling the pitch and the duration to connect. Therefore, the stored representative speech unit greatly affects the quality of the synthesized speech.

【0004】従来、これらの代表音声素片の作成はもっ
ぱら人手に頼っており、音声信号の中から試行錯誤的に
切り出してくる場合がほとんどであるため、膨大な労力
を要していた。このような代表音声素片作成の作業を自
動化し、音声合成に使用するのに適した代表音声素片を
容易に生成する方法として、例えば音素環境クラスタリ
ング(COC)と呼ばれる技術が特開昭64−7830
0「音声合成方法」に開示されている。
Heretofore, the production of these representative speech units has relied solely on humans, and most of them are cut out from the speech signal by trial and error, which required a great deal of labor. As a method of automating such a representative speech unit creation operation and easily generating a representative speech unit suitable for use in speech synthesis, for example, a technique called phoneme environment clustering (COC) is disclosed in −7830
0 "Speech synthesis method".

【0005】COCの原理は、音素名や音素環境のラベ
ルを多数の音声素片に付与し、そのラベルが付与された
音声素片を音声素片間の距離尺度に基づいて音素環境に
関する複数のクラスタに分類し、その各クラスタのセン
トロイドを代表音声素片とするものである。ここで、音
素環境とは当該音声素片にとっての環境となる要因全て
の組合せであり、その要因としては当該音声素片の音素
名、先行音素、後続音素、後々続音素、ピッチ周期、パ
ワー、ストレスの有無、アクセント核からの位置、息継
ぎからの時間、発声速度、感情などが考えられる。実音
声中の各音素は音素環境によって音韻が変化しているた
め、音素環境に関する複数のクラスタ毎に代表音声素片
を記憶しておくことにより、音素環境の影響を考慮した
自然な音声を合成することが可能となっている。
[0005] The principle of the COC is that a phoneme name or a label of a phoneme environment is assigned to a large number of speech units, and a plurality of speech units to which the label is assigned are assigned to a plurality of speech units based on a distance measure between the speech units. The speech is classified into clusters, and the centroid of each cluster is used as a representative speech unit. Here, the phoneme environment is a combination of all factors that are an environment for the speech unit, and the factors include a phoneme name, a preceding phoneme, a succeeding phoneme, a subsequent phoneme, a pitch period, power, and the like of the speech unit. The presence or absence of stress, the position from the accent nucleus, the time since breathing, the utterance speed, the emotion, and the like can be considered. Each phoneme in the real speech changes its phoneme depending on the phoneme environment. By storing representative speech units for each of multiple clusters related to the phoneme environment, natural speech taking into account the influence of the phoneme environment is synthesized. It is possible to do.

【0006】[0006]

【発明が解決しようとする課題】上に述べたように、テ
キスト音声合成のための音声合成では、代表音声素片の
ピッチや継続時間長を指定された値に変更して合成する
必要がある。このようなピッチや継続時間長の変更によ
り、代表音声素片を切り出してきた音声信号の音質と比
較して合成音声の音質がある程度劣化することになる。
As described above, in speech synthesis for text speech synthesis, it is necessary to change the pitch and duration of representative speech units to specified values for synthesis. . Due to such a change in the pitch and the duration, the sound quality of the synthesized speech is degraded to some extent as compared with the sound quality of the speech signal from which the representative speech unit has been cut out.

【0007】これに対して、上記のCOCによるクラス
タリングでは、音声素片間の距離尺度に基づいてクラス
タリングを行っているにすぎないため、合成の際のピッ
チや継続時間の変更の効果が全く考慮されていないとい
う問題がある。すなわち、COCによるクラスタリング
および各クラスタの代表音声素片は、実際にピッチや継
続時間長を変更して合成された合成音声のレベルでは、
必ずしも適当なものになっているという保証はない。
On the other hand, in the above-described clustering based on COC, since the clustering is merely performed based on the distance scale between speech units, the effect of changing the pitch and duration during synthesis is completely considered. There is a problem that is not. That is, the clustering by the COC and the representative speech unit of each cluster are actually performed at the level of the synthesized speech synthesized by changing the pitch and the duration.
There is no guarantee that it will be appropriate.

【0008】本発明は、このような問題点を解決すべく
なされたものであり、テキスト音声合成による合成音声
の音質を効果的に向上させることができる音声合成方法
を提供することを目的とする。
The present invention has been made to solve such a problem, and an object of the present invention is to provide a speech synthesis method capable of effectively improving the sound quality of a synthesized speech by text speech synthesis. .

【0009】[0009]

【課題を解決するための手段】上記の課題を解決するた
め、本発明はピッチや継続時間長の変更の影響を考慮し
て、合成音声のレベルで自然音声に対する歪みが小さく
なるような代表音声素片を生成し、その代表音声素片を
用いて音声を合成することにより、自然音声に近い合成
音声を生成するようにしたものである。
SUMMARY OF THE INVENTION In order to solve the above-mentioned problems, the present invention considers the influence of a change in pitch or duration, and reduces the representative voice to reduce distortion of natural voice at the level of synthesized voice. By generating a segment and synthesizing a speech using the representative speech segment, a synthesized speech close to a natural speech is generated.

【0010】すなわち、本発明は複数の入力音声素片
(第2の音声素片)のそれぞれのピッチ及び継続時間長
の少なくとも一方を、前記入力音声素片と同一もしくは
異なる複数のトレーニング音声素片(第1の音声素片)
のいずれかのピッチ及び継続時間長の少なくとも一方と
等しくなるように変更することにより複数の合成音声素
片を生成し、前記合成音声素片のそれぞれと前記トレー
ニング音声素片のそれぞれとの間の距離尺度に基づいて
前記合成音声素片のそれぞれの歪みを評価し、前記入力
音声素片から、前記歪みの情報を用いた歪み評価関数に
基づいて所定数個の音声素片の集合を代表音声素片とし
て選択して記憶し、記憶された前記代表音声素片から入
力音素に従って代表音声素片を選択して接続することに
よって合成音声を生成することを特徴とする。
That is, according to the present invention, at least one of the pitch and the duration of each of a plurality of input speech units (second speech units) is set to a plurality of training speech units which are the same as or different from the input speech units. (First speech unit)
A plurality of synthesized speech units are generated by changing them to be equal to at least one of the pitch and the duration length of any of the above, and between each of the synthesized speech units and each of the training speech units. The distortion of each of the synthesized speech units is evaluated based on a distance measure, and a set of a predetermined number of speech units is represented from the input speech unit based on a distortion evaluation function using the distortion information. A synthesized speech is generated by selecting and storing as a unit, selecting and connecting a representative unit from the stored representative unit according to an input phoneme.

【0011】ここで、第1および第2の音声素片は、C
V,VCV,CVCといった音声合成単位で音声信号中
から切り出される素片であり、切り出された波形もしく
はその波形から何らかの方法で抽出されたパラメータ系
列などを表すものとする。これらのうち、第1の音声素
片は合成音声の歪みを評価するために用いられ、また第
2の音声素片は代表音声素片の候補として用いられる。
合成音声素片は、第2の音声素片に対して少なくともピ
ッチまたは継続時間長を変更して生成される合成音声波
形またはパラメータ系列などを表す。
Here, the first and second speech units are C
It is a segment cut out from a speech signal in a speech synthesis unit such as V, VCV, or CVC, and represents a segmented waveform or a parameter series extracted from the waveform by some method. Among these, the first speech unit is used to evaluate the distortion of the synthesized speech, and the second speech unit is used as a representative speech unit candidate.
The synthesized speech unit represents a synthesized speech waveform or a parameter sequence generated by changing at least the pitch or the duration of the second speech unit.

【0012】合成音声素片と第1の音声素片との間の距
離尺度によって、合成音声の歪みが表わされる。従っ
て、この距離尺度つまり歪みがより小さくなる音声素片
を第2の音声素片から選択して代表音声素片として記憶
しておき、これらの代表音声素片から所定の代表音声素
片を選択して接続すれば、自然音声に近い高品質の合成
音声が生成される。
The distance measure between the synthesized speech unit and the first speech unit represents the distortion of the synthesized speech. Therefore, a speech unit having a smaller distance scale, that is, a distortion, is selected from the second speech units and stored as representative speech units, and a predetermined representative speech unit is selected from these representative speech units. Connection, a high-quality synthesized speech close to natural speech is generated.

【0013】本発明の第1の態様では、音素環境がラベ
ル付けされた複数の第1の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第2の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第1の音声素片との間の距離尺度に基づいて第2の音声
素片から複数の代表音声素片を選択して記憶し、前記距
離尺度に基づいて代表音声素片にそれぞれ対応する複数
の音素環境クラスタを生成し、複数の代表音声素片から
入力音素の音素環境を含む音素環境クラスタに対応する
代表音声素片を選択して接続することによって音声を合
成する。
In a first aspect of the present invention, the pitch and duration of a plurality of second speech units are determined according to at least one of the pitch and duration of the plurality of first speech units labeled with a phoneme environment. A plurality of synthesized speech units are generated by changing at least one of the lengths, and a plurality of representative speeches are generated from the second speech unit based on a distance measure between the synthesized speech units and the first speech unit. A speech unit is selected and stored, a plurality of phoneme environment clusters corresponding to the representative speech units are respectively generated based on the distance scale, and a phoneme environment cluster including a phoneme environment of an input phoneme from the plurality of representative speech units. Is synthesized by selecting and connecting a representative speech unit corresponding to.

【0014】ここで、音素環境とは前述した通り音声素
片にとっての環境となる要因、例えば当該音声素片の音
素名、先行音素、後続音素、後々続音素、ピッチ周期、
パワー、ストレスの有無、アクセント核からの位置、息
継ぎからの時間、発声速度、感情といった要素の組み合
わせであり、音素環境クラスタとは言い換えれば音素環
境の集合であり、例えば「当該素片の音韻が/ka/、
先行音韻が/i/または/u/、ピッチ周波数が200
Ηz以下」というようなものを意味する。
Here, the phoneme environment is a factor which is an environment for a speech unit as described above, such as a phoneme name of the speech unit, a preceding phoneme, a succeeding phoneme, a succeeding phoneme, a pitch period,
It is a combination of elements such as power, the presence or absence of stress, the position from the accent nucleus, the time since breathing, the utterance speed, and the emotion.In other words, the phoneme environment cluster is a set of phoneme environments. / Ka /,
Preceding phoneme is / i / or / u /, pitch frequency is 200
以下 z or less ”.

【0015】第1の態様のように、距離尺度つまり合成
音声の歪みに基づいて代表音声素片にそれぞれ対応する
複数の音素環境クラスタを生成し、入力音素の音素環境
を含む音素環境クラスタに対応する代表音声素片を選択
して接続するようにすれば、例えば同一音素名の音声素
片が複数の音素環境に存在する場合でも、実際の入力音
素の音素環境が含まれる音素環境クラスタに対応する代
表音声素片のみが選択されることにより、より自然な合
成音声が得られる。
As in the first embodiment, a plurality of phoneme environment clusters corresponding to the representative speech units are generated based on the distance scale, ie, the distortion of the synthesized speech, and the phoneme environment clusters including the phoneme environment of the input phoneme are generated. If a representative speech unit is selected and connected, for example, even if a speech unit with the same phoneme name exists in multiple phoneme environments, it corresponds to a phoneme environment cluster that includes the phoneme environment of the actual input phoneme By selecting only the representative speech unit to be synthesized, a more natural synthesized speech can be obtained.

【0016】本発明の第2の態様では、音素環境がラベ
ル付けされた複数の第1の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第2の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第1の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、前記距離尺度に基づいて第2の
音声素片から各音素環境クラスタにそれぞれ対応する複
数の代表音声素片を選択して記憶し、これらの代表音声
素片から所定の代表音声素片を選択して接続することに
よって音声を合成する。この第2の態様は、音声素片が
一つの音素環境にのみ存在する場合に有効である。
According to a second aspect of the present invention, the pitch and duration of the plurality of second speech units are determined according to at least one of the pitch and duration of the plurality of first speech units labeled with a phoneme environment. Generating a plurality of synthesized speech units by changing at least one of the lengths; generating a plurality of phoneme environment clusters based on a distance measure between the synthesized speech units and the first speech unit; A plurality of representative speech units respectively corresponding to each phoneme environment cluster are selected and stored from the second speech unit based on the distance scale, and a predetermined representative speech unit is selected from these representative speech units. Synthesize voice by connecting. The second aspect is effective when a speech unit exists only in one phoneme environment.

【0017】本発明の第3の態様では、音素環境がラベ
ル付けされた複数の第1の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第2の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第1の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、第1の音声素片と合成音声素片
との間の距離尺度に基づいて第2の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、これらの代表音声素片から入力音素の
音素環境を含む音素環境クラスタに対応する代表音声素
片を選択して接続することによって音声を合成する。
According to a third aspect of the present invention, the pitch and duration of a plurality of second speech units are determined according to at least one of the pitch and duration of the plurality of first speech units labeled with a phoneme environment. Generating a plurality of synthesized speech units by changing at least one of the lengths; generating a plurality of phoneme environment clusters based on a distance measure between the synthesized speech units and the first speech unit; A plurality of representative speech units corresponding to each of the phoneme environment clusters are selected and stored from the second speech unit based on a distance scale between the one speech unit and the synthesized speech unit, and these representative speech units are stored. A speech is synthesized by selecting and connecting a representative speech unit corresponding to a phoneme environment cluster including a phoneme environment of an input phoneme from speech units.

【0018】この第3の態様によっても、第1の態様と
同様に、例えば同一音素名の音声素片が複数の音素環境
に存在する場合、実際の入力音素の音素環境が含まれる
音素環境クラスタに対応する代表音声素片のみが選択さ
れることにより、より自然な合成音声が得られる。
According to the third embodiment, similarly to the first embodiment, for example, when a speech unit having the same phoneme name exists in a plurality of phoneme environments, a phoneme environment cluster including a phoneme environment of an actual input phoneme is included. By selecting only the representative speech unit corresponding to, a more natural synthesized speech can be obtained.

【0019】また、本発明に係る他の音声合成方法は、
複数の第1の音声素片のピッチおよび継続時間長の少な
くとも一方に従って複数の第2の音声素片のピッチおよ
び継続時間長の少なくとも一方を変更することにより複
数の合成音声素片を生成し、さらにこれらの合成音声素
片についてスペクトル整形を行い、このスペクトル整形
を行った後の各合成音声素片と第1の音声素片との間の
距離尺度に基づいて第2の音声素片から複数の代表音声
素片を選択して記憶し、これらの代表音声素片から所定
の代表音声素片を選択して接続することによって音声を
合成し、この合成した音声のスペクトル整形を行って最
終的な合成音声を生成することを特徴とする。
Another speech synthesizing method according to the present invention comprises:
Generating a plurality of synthesized speech units by changing at least one of the pitch and the duration of the plurality of second speech units according to at least one of the pitch and the duration of the plurality of first speech units; Further, these synthesized speech units are subjected to spectrum shaping, and a plurality of synthesized speech units are subjected to spectrum shaping based on a distance scale between each synthesized speech unit and the first speech unit. The selected speech unit is selected and stored, and a predetermined representative speech unit is selected from these representative speech units and connected to synthesize a speech. It is characterized by generating a synthesized speech.

【0020】この場合、先に示した第1、第2および第
3の態様においても、複数の合成音声素片を生成した
後、スペクトル整形を行うようにする。ここで、スペク
トル整形は「めりはり」のある明瞭な音声を合成するた
めの処理であり、例えばホルマント強調やピッチ強調を
行う適応ポストフィルタによるフィルタリングによって
実現される。
In this case, also in the first, second and third modes described above, after a plurality of synthesized speech units are generated, spectrum shaping is performed. Here, the spectral shaping is a process for synthesizing a clear voice with a “slippery”, and is realized by, for example, filtering by an adaptive post filter that performs formant emphasis and pitch emphasis.

【0021】このように代表音声素片の接続によって合
成される音声に対してスペクトル整形を行うと共に、合
成音声素片に対しても同様のスペクトル整形を行うこと
によって、スペクトル整形後の最終的な合成音声のレベ
ルで、自然音声に対する歪が小さくなるような代表音声
素片を生成できるため、「めりはり」に優れたより明瞭
な合成音声が得られる。
In this manner, the spectrum synthesized for the speech synthesized by the connection of the representative speech units is performed, and the same spectrum shaping is performed for the synthesized speech unit, so that the final after the spectrum shaping is performed. At the level of the synthesized speech, a representative speech segment that can reduce distortion with respect to natural speech can be generated, so that a clearer synthesized speech excellent in “turning” can be obtained.

【0022】本発明においては、代表音声素片として、
音源信号と該音源信号を入力として合成音声信号を生成
する合成フィルタの係数の組の情報を記憶するようにし
てもよい。この場合、音源信号と合成フィルタの係数を
量子化し、これら量子化した音源信号と合成フィルタの
係数の組の情報を記憶するようにすれば、代表音声素片
として記憶する音源信号と合成フィルタの係数の数を減
少させることができるため、合成単位の学習に要する計
算時間が短縮され、かつ実際の音声合成時に必要なメモ
リ量が低減される。
In the present invention, the representative speech unit is
Information of a sound source signal and a set of coefficients of a synthesis filter that generates a synthesized speech signal by using the sound source signal as an input may be stored. In this case, if the sound source signal and the coefficients of the synthesis filter are quantized, and information of a set of the quantized sound source signal and the coefficient of the synthesis filter is stored, the sound source signal stored as the representative speech unit and the synthesis filter Since the number of coefficients can be reduced, the calculation time required for learning a synthesis unit is shortened, and the amount of memory required for actual speech synthesis is reduced.

【0023】さらに、代表音声素片の情報として記憶す
る音源信号および合成フィルタの係数のうちの少なくと
も一方の数を音声合成単位の総数や、音素環境クラスタ
の総数より少なくすることも可能であり、このようにし
ても良好な合成音声を得ることができる。
Further, the number of at least one of the sound source signal and the coefficient of the synthesis filter stored as information on the representative speech unit can be smaller than the total number of speech synthesis units or the total number of phoneme environment clusters. Even in this way, a good synthesized speech can be obtained.

【0024】[0024]

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。 (第1の実施形態)図1は、本発明の第1の実施形態に
係る音声合成方法を実現する音声合成装置の構成を示す
ブロック図である。この音声合成装置は、大きく分けて
合成単位学習系1と規則合成系2からなる。実際にテキ
スト音声合成を行う場合に動作するのは規則合成系2で
あり、合成単位学習系1は事前に学習を行って代表音声
素片を生成するものである。
Embodiments of the present invention will be described below with reference to the drawings. (First Embodiment) FIG. 1 is a block diagram showing a configuration of a speech synthesis apparatus for realizing a speech synthesis method according to a first embodiment of the present invention. This speech synthesizer is roughly divided into a synthesis unit learning system 1 and a rule synthesis system 2. When text text synthesis is actually performed, the rule synthesis system 2 operates, and the synthesis unit learning system 1 performs learning in advance to generate a representative speech unit.

【0025】まず、合成単位学習系1について説明す
る。合成単位学習系1は、代表音声素片とこれに付随す
る音素環境クラスタを生成する代表音声素片生成部11
と代表音声素片記憶部12および音素環境クラスタ記憶
部13により構成される。代表音声素片生成部11に
は、第1の音声素片であるトレーニング音声素片101
とこれにラベル付けされた音素環境102および第2の
音声素片である入力音声素片103が入力される。
First, the synthesis unit learning system 1 will be described. The synthesis unit learning system 1 includes a representative speech unit generation unit 11 that generates a representative speech unit and a phoneme environment cluster associated therewith.
And a representative speech unit storage unit 12 and a phoneme environment cluster storage unit 13. The representative speech unit generation unit 11 includes a training speech unit 101 that is a first speech unit.
And a phoneme environment 102 and an input speech unit 103 as a second speech unit.

【0026】代表音声素片生成部11では、トレーニン
グ音声素片101にラベル付けされた音素環境102に
含まれるピッチ周期および継続時間長の情報に従って、
入力音声素片103のピッチ周期および継続時間長を変
更することで複数の合成音声素片が内部的に生成され、
さらにこれらの合成音声素片とトレーニング音声素片1
01との距離尺度に従って、代表音声素片104と音素
環境クラスタ105が生成される。音素環境クラスタ1
05は、トレーニング音声素片101を後述するように
音素環境に関するクラスタに分類して生成される。
In the representative speech unit generation unit 11, according to the information of the pitch period and the duration length included in the phoneme environment 102 labeled on the training speech unit 101,
By changing the pitch period and duration of the input speech unit 103, a plurality of synthesized speech units are internally generated,
Further, these synthesized speech unit and training speech unit 1
A representative speech unit 104 and a phoneme environment cluster 105 are generated according to a distance scale of 01. Phoneme environment cluster 1
05 is generated by classifying the training speech units 101 into clusters relating to phoneme environments, as described later.

【0027】代表音声素片104は代表音声素片記憶部
12に記憶され、音素環境クラスタ105は代表音声素
片104と対応付けられて音素環境クラスタ記憶部13
に記憶される。代表音声素片生成部11の処理について
は、後に詳細に説明する。
The representative speech unit 104 is stored in the representative speech unit storage unit 12, and the phoneme environment cluster 105 is associated with the representative speech unit 104 and stored in the phoneme environment cluster storage unit 13.
Is stored. The process of the representative speech unit generation unit 11 will be described later in detail.

【0028】次に、規則合成系2について説明する。規
則合成系2は、代表音声素片記憶部12と音素環境クラ
スタ記憶部13と素片選択部14および音声合成部15
により構成され、代表音声素片記憶部12と音素環境ク
ラスタ記憶部13を合成単位学習系1と共有している。
Next, the rule synthesizing system 2 will be described. The rule synthesis system 2 includes a representative speech unit storage unit 12, a phoneme environment cluster storage unit 13, a unit selection unit 14, and a speech synthesis unit 15.
, And shares the representative speech unit storage unit 12 and the phoneme environment cluster storage unit 13 with the synthesis unit learning system 1.

【0029】素片選択部14には、入力音素の情報とし
て、例えばテキスト音声合成のために入力テキストの形
態素解析・構文解析後さらにアクセントやイントネーシ
ョン処理を行って得られた韻律情報111と音韻記号列
112が入力される。韻律情報111には、ピッチパタ
ーンおよび音韻継続時間長が含まれている。素片選択部
14では、これらの韻律情報111と音韻記号列112
から入力音素の音素環境を内部的に生成する。
The segment selection unit 14 includes, as input phoneme information, prosody information 111 and phonological symbols obtained by morphological analysis / syntax analysis of the input text for text-to-speech synthesis and further performing accent and intonation processing. Column 112 is entered. The prosody information 111 includes a pitch pattern and a phoneme duration. The unit selection unit 14 stores the prosody information 111 and the phoneme symbol string 112
Internally generate the phoneme environment of the input phoneme from

【0030】そして、素片選択部14は音素環境クラス
タ記憶部13より読み出された音素環境クラスタ106
を参照して、入力音素の音素環境がどの音素環境クラス
タに属するかを探索し、探索した音素環境クラスタに対
応する代表音声素片選択情報107を代表音声素片記憶
部12へ出力する。
Then, the segment selecting unit 14 reads the phoneme environment cluster 106 read from the phoneme environment cluster storage unit 13.
, The phoneme environment of the input phoneme belongs to which phoneme environment cluster, and the representative speech unit selection information 107 corresponding to the searched phoneme environment cluster is output to the representative speech unit storage unit 12.

【0031】音声合成部15は、代表音声素片選択情報
107に従って代表音声素片記憶部12より選択的に読
み出された代表音声素片108に対して、韻律情報11
1に従ってピッチ周期および音韻継続時間長を変更する
とともに、素片の接続を行って合成音声信号113を出
力する。ここで、ピッチおよび継続時間長を変更して素
片を接続し音声を合成する方法としては、例えば残差駆
動LSP方法や波形編集方法など公知の技術を用いるこ
とができる。
The speech synthesizer 15 applies the prosody information 11 to the representative speech unit 108 selectively read from the representative speech unit storage unit 12 in accordance with the representative speech unit selection information 107.
In accordance with 1, the pitch period and the phoneme duration are changed, and segments are connected to output the synthesized speech signal 113. Here, as a method of synthesizing voice by connecting the segments by changing the pitch and the duration time, a known technique such as a residual driving LSP method or a waveform editing method can be used.

【0032】次に、本発明の特徴をなす代表音声素片生
成部11の処理手順について具体的に説明する。図2の
フローチャートは、代表音声素片生成部11の第1の処
理手順を示している。
Next, the processing procedure of the representative speech unit generation unit 11 which is a feature of the present invention will be specifically described. The flowchart of FIG. 2 shows a first processing procedure of the representative speech unit generation unit 11.

【0033】この第1の実施形態による代表音声素片生
成処理では、まず準備段階として連続発声された多数の
音声データに対して音韻毎にラベリングを行い、CV,
VCV,CVCなどの合成単位に従って、トレーニング
音声素片Ti (i=1,2,3,…,NT )を切り出
す。また、各卜レーニング音声素片Ti に対応する音素
環境Pi (i=1,2,3,…,NT )も抽出してお
く。ただし、NT はトレーニング音声素片の個数を表
す。音素環境Pi は、少なくともトレーニング音声素片
i の音韻とそのピッチおよび継続時間長の情報を含む
ものとし、その他に必要に応じて前後の音素などの情報
を含むものとする。
In the representative speech unit generation processing according to the first embodiment, a large number of continuously uttered speech data are labeled for each phoneme as a preparatory stage, and CV,
A training speech unit T i (i = 1, 2, 3,..., N T ) is cut out according to a synthesis unit such as VCV and CVC. Also, a phoneme environment P i (i = 1, 2, 3,..., NT ) corresponding to each training speech unit T i is extracted. Here, NT represents the number of training speech segments. The phoneme environment P i shall include at least information on the phoneme of the training speech unit T i , its pitch and duration, and, if necessary, information on the preceding and following phonemes.

【0034】次に、上述したトレーニング音声素片Ti
の作成と同様の方法により、多数の入力音声素片Sj
(i=1,2,3,…,NS )を作成する。ただし、N
S は入力音声素片の個数を表す。ここで、入力音声素片
j としてはトレーニング音声素片Ti と同じものを使
用してもよいし(すなわちTi =Si )、トレーニング
音声素片Ti とは異なる音声素片を作成してもよい。い
ずれにしても、豊富な音韻環境を有する多数のトレーニ
ング音声素片および入力音声素片が用意されていること
が望ましい。
Next, the above described training speech unit T i
Of the input speech units S j
(I = 1, 2, 3,..., N S ). Where N
S represents the number of input speech units. Here, the same input speech unit S j as the training speech unit T i may be used (that is, T i = S i ), or a speech unit different from the training speech unit T i may be created. May be. In any case, it is desirable that a large number of training speech units and input speech units having a rich phonemic environment are prepared.

【0035】このような準備段階を経た後、まず音声合
成ステップS21で、音素環境Piに含まれるピッチお
よび継続時間長に等しくなるように、入力音声素片Sj
のピッチおよび継続時間長を変更して音声を合成するこ
とにより、合成音声素片Gijを生成する。ここでのピッ
チおよび継続時間長の変更は、音声合成部15における
ピッチおよび継続時間長の変更と同様の方法で行われる
ものとする。全ての音素環境Pi (i=1,2,3,
…,NT )に従って入力音声素片Si (j=1,2,
3,…,NS )を用いて音声の合成を行うことにより、
T ×NS 個の合成音声素片Gij(i=1,2,3,
…,NT 、j=1,2,3,…,NS )を生成する。
After passing through such a preparation stage, first, in a speech synthesis step S21, the input speech unit S j is set to be equal to the pitch and duration included in the phoneme environment P i.
The synthesized speech unit G ij is generated by synthesizing speech by changing the pitch and the duration of the speech. Here, the change of the pitch and the duration is performed in the same manner as the change of the pitch and the duration in the voice synthesizer 15. All phoneme environments P i (i = 1, 2, 3,
, N T ), the input speech unit S i (j = 1, 2, 2)
3,..., N S )
N T × N S synthesized speech units G ij (i = 1, 2, 3,
..., N T, j = 1,2,3 , ..., to generate the N S).

【0036】次に、歪み評価ステップS22では、合成
音声素片Gijの歪みeijの評価を行う。この歪みeij
評価は、合成音声素片Gijとトレーニング音声素片Ti
との間の距離尺度を求めることにより行う。距離尺度に
は、何らかのスペクトル距離を用いることができる。例
えば、合成音声素片Gijおよびトレーニング音声素片T
i について、FFT(高速フーリエ変換)などを用いて
パワースペクトルを求めて各パワースペクトル間の距離
を評価する方法や、あるいは線形予測分析を行ってLP
CまたはLSPパラメータなどを求めて各パラメータ間
の距離を評価する方法などがある。その他にも、短時間
フーリエ変換やウェーブレット変換などの変換係数を用
いて評価する方法も用いることができる。また、各素片
のパワーを正規化した上で歪みの評価を行う方法でもよ
い。
Next, the distortion evaluation step S22, the evaluation of the strain e ij synthetic speech unit G ij. The evaluation of the distortion e ij is based on the synthesized speech unit G ij and the training speech unit T i.
This is done by finding a distance measure between. Any spectral distance can be used for the distance measure. For example, a synthesized speech unit G ij and a training speech unit T
For i , a method of obtaining a power spectrum using FFT (Fast Fourier Transform) or the like to evaluate the distance between each power spectrum, or performing a linear prediction analysis to obtain LP
There is a method of obtaining the C or LSP parameters and evaluating the distance between the parameters. In addition, a method of evaluating using a transform coefficient such as a short-time Fourier transform or a wavelet transform can be used. Alternatively, a method of evaluating the distortion after normalizing the power of each segment may be used.

【0037】次に、代表音声素片生成ステップS23で
は、ステップS22で得られた歪みeijに基づいて、入
力音声素片Sj の中から指定された代表音声素片数Νの
代表音声素片Dk (k=1,2,3,…,N)を選択す
る。
Next, in a representative speech unit generation step S23, based on the distortion e ij obtained in step S22, the representative speech units of the number 代表 of the representative speech units designated from the input speech units Sj. A piece D k (k = 1, 2, 3,..., N) is selected.

【0038】代表音声素片選択法の一例を説明する。入
力音声素片Sj の中から選択されたN個の音声素片の集
合U={uk |uk =Sj (k=1,2,3,…,
N)}に対して、歪みの総和を表す評価関数ED1(U)
を次式(1)のように定義する。
An example of the representative speech unit selection method will be described. Set of N speech units are selected from the input speech segments S j U = {u k | u k = S j (k = 1,2,3, ...,
N) 評 価, an evaluation function E D1 (U) representing the sum of distortions
Is defined as in the following equation (1).

【0039】[0039]

【数1】 (Equation 1)

【0040】ただし、min(eij1 ,eij2 ,e
ij3 ,…,eijN )はeij1 ,eij2 ,eij3 ,…,e
ijN の中の最小値を表す関数である。集合Uの組合せは
S !/{N!(NS −N)!}通りあり、これらの音
声素片の集合Uの中から評価関数ED1(U)を最小にす
るUを探索し、その要素uk を代表音声素片Dk とす
る。
Where min (e ij1 , e ij2 , e
ij3 , ..., eijN ) are eij1 , eij2 , eij3 , ..., e
This is a function representing the minimum value in ijN . The combination of the set U is N S! / @ N! (N S -N)! There are} ways, and a set U of these speech units is searched for a U that minimizes the evaluation function E D1 (U), and its element u k is set as a representative speech unit D k .

【0041】最後に、音素環境クラスタ生成ステップS
24では、音素環境Pi 、歪みeijおよび代表音声素片
k より、音素環境に関する複数のクラスタ(音素環境
クラスタ)Ck (k=1,2,3,…,Ν)を生成す
る。音素環境クラスタCk は、例えば次式(2)で表さ
れるクラスタリングの評価関数EC1を最小化するクラス
タを探索することによって得られる。
Finally, a phoneme environment cluster generation step S
At 24, a plurality of clusters (phoneme environment clusters) C k (k = 1, 2, 3,...) Related to the phoneme environment are generated from the phoneme environment P i , the distortion e ij, and the representative speech unit D k . The phoneme environment cluster C k is obtained, for example, by searching for a cluster that minimizes the clustering evaluation function E C1 represented by the following equation (2).

【0042】[0042]

【数2】 (Equation 2)

【0043】こうしてステップS23およびS24で生
成された代表音声素片Dk および音素環境クラスタCk
は、図1の代表音声素片記憶部12および音素環境クラ
スタ記憶部13にそれぞれ記憶される。
The representative speech unit D k and the phoneme environment cluster C k generated in steps S23 and S24 in this way.
Are stored in the representative speech unit storage unit 12 and the phoneme environment cluster storage unit 13 in FIG.

【0044】次に、図3のフローチャートを参照して代
表音声素片生成部11の第2の処理手順について説明す
る。この第2の処理手順による代表音声素片生成処理で
は、まず初期音素環境クラスタ生成ステップS30にお
いて、何らかの先見的な知識に基づいて予め音素環境の
クラスタリングを行い、初期音素環境クラスタを生成す
る。音素環境のクラスタリングには、例えば音韻による
クラスタリングを行うことができる。
Next, the second processing procedure of the representative speech unit generation unit 11 will be described with reference to the flowchart of FIG. In the representative speech unit generation process according to the second processing procedure, first, in an initial phoneme environment cluster generation step S30, clustering of phoneme environments is performed in advance based on some foresight knowledge to generate an initial phoneme environment cluster. For the clustering of the phoneme environment, for example, clustering based on phonemes can be performed.

【0045】そして、入力音声素片Sj およびトレーニ
ング音声素片Ti のうち音韻が一致する音声素片のみを
それぞれ用いて、図2のステップS21,S22,S2
3,S24と同様の合成音声素片生成ステップS31、
歪み評価ステップS32、代表音声素片生成ステップS
33、音素環境クラスタ生成ステップS34の処理を順
次行い、全ての初期音素環境クラスタについて同様の操
作を繰り返すことにより、全ての代表音声素片およびそ
れに対応する音素環境クラスタの生成を行う。こうして
生成された代表音声素片および音素環境クラスタは、図
1の代表音声素片記憶部12および音素環境クラスタ記
憶部13にそれぞれ記憶される。
Then, of the input speech unit S j and the training speech unit T i , only the speech units having the same phoneme are used, and steps S21, S22, S2 in FIG.
3, a synthetic speech unit generation step S31 similar to S24,
Distortion evaluation step S32, representative speech unit generation step S
33, the processing of the phoneme environment cluster generation step S34 is sequentially performed, and the same operation is repeated for all the initial phoneme environment clusters, thereby generating all the representative speech units and the corresponding phoneme environment clusters. The representative speech unit and the phoneme environment cluster thus generated are stored in the representative speech unit storage unit 12 and the phoneme environment cluster storage unit 13 in FIG. 1, respectively.

【0046】ただし、各初期音素環境クラスタ当たりの
代表音声素片数が1であれば、初期音素環境クラスタが
代表音声素片の音素環境クラスタとなるため、音素環境
クラスタ生成ステップS34は不要となり、初期音素環
境クラスタを音素環境クラスタ記憶部13に記憶すれば
よい。
However, if the number of representative speech units per each initial phoneme environment cluster is 1, the initial phoneme environment cluster becomes the phoneme environment cluster of the representative speech unit, so that the phoneme environment cluster generation step S34 becomes unnecessary. The initial phoneme environment cluster may be stored in the phoneme environment cluster storage unit 13.

【0047】次に、図4のフローチャートを参照して代
表音声素片生成部11の第3の処理手順を説明する。こ
の第3の処理手順による代表音声素片生成処理では、図
2に示した第1の処理手順と同様に音声合成ステップS
41および歪み評価ステップS42を順次経た後、次の
音素環境クラスタ生成ステップS43において、音素環
境Pi および歪みeijに基づいて音素環境に関するクラ
スタCk (k=1,2,3,…,Ν)を生成する。音素
環境クラスタCk は、例えば次式(3)(4)で表わさ
れるクラスタリングの評価関数EC2を最小化するクラス
タを探索することによって得られる。
Next, the third processing procedure of the representative speech unit generation unit 11 will be described with reference to the flowchart of FIG. In the representative speech segment generation processing according to the third processing procedure, the speech synthesis step S is performed in the same manner as in the first processing procedure shown in FIG.
41 and a distortion evaluation step S42 in order, in a next phoneme environment cluster generation step S43, a cluster C k (k = 1, 2, 3,..., に 関 す る) relating to the phoneme environment based on the phoneme environment P i and the distortion e ij. ). The phoneme environment cluster C k is obtained, for example, by searching for a cluster that minimizes the clustering evaluation function E C2 represented by the following equations (3) and (4).

【0048】[0048]

【数3】 (Equation 3)

【0049】次に、代表音声素片生成ステップS44に
おいて、歪みeijに基づいて音素環境クラスタCk のそ
れぞれに対応する代表音声素片Dk を入力音声素片Sj
より選択する。この代表音声素片Dk は、入力音声素片
j から例えば次式(5)で表される歪み評価関数ED2
(j) を最小化する音声素片を探索することによって得ら
れる。
Next, representative in speech unit generation step S44, the distortion corresponding to each phoneme environment cluster C k based on e ij representative speech units D k input speech segment S j
Choose more. This representative speech unit D k is obtained from the input speech unit S j by, for example, a distortion evaluation function E D2 represented by the following equation (5).
(j) is obtained by searching for a speech unit that minimizes.

【0050】[0050]

【数4】 (Equation 4)

【0051】なお、この第3の処理手順による代表音声
素片生成処理を変形し、第2の処理手順と同様に、何ら
かの先見的な知識に基づいて予め生成した初期音素環境
クラスタ毎に代表音声素片の生成および音素環境クラス
タの生成を行うことも可能である。
The representative speech unit generation process according to the third processing procedure is modified so that, similar to the second processing procedure, the representative speech unit cluster is generated for each initial phoneme environment cluster generated in advance based on some foresight knowledge. It is also possible to generate segments and generate phoneme environment clusters.

【0052】(第2の実施形態)次に、図5〜図9を用
いて本発明の第2の実施形態について説明する。図5
は、第2の実施形態に係る音声合成方法を実現する音声
合成装置の構成を示すブロック図である。図1と相対応
する部分に同一の参照符号を付して相違点を中心に説明
すると、本実施形態では音声合成部15の後段に適応ポ
ストフィルタ16が追加されている点が第1の実施形態
と異なり、これに加えて代表音声素片生成部11におけ
る複数の合成音声素片の生成法も先の実施形態と異なっ
ている。
(Second Embodiment) Next, a second embodiment of the present invention will be described with reference to FIGS. FIG.
FIG. 3 is a block diagram illustrating a configuration of a speech synthesis device that realizes a speech synthesis method according to a second embodiment. 1 will be described with the same reference numerals attached thereto. The first embodiment differs from the first embodiment in that an adaptive post filter 16 is added after the speech synthesizer 15 in the present embodiment. Unlike the embodiment, in addition to this, the method of generating a plurality of synthesized speech units in the representative speech unit generation unit 11 is also different from the previous embodiment.

【0053】すなわち、代表音声素片生成部11では第
1の実施形態と同様に、トレーニング音声素片101に
ラベル付けされた音素環境102に含まれるピッチ周期
および継続時間長の情報に従って、入力音声素片103
のピッチ周期および継続時間長を変更することで複数の
合成音声素片を内部的に生成した後、これらの合成音声
素片に対して適応ポストフィルタによるフィルタリング
を施してスペクトル整形を行う。そして、この適応ポス
トフィルタによりスペクトル整形を行った後の各合成音
声素片とトレーニング音声素片101との距離尺度に従
って、代表音声素片104と音素環境クラスタ105が
生成される。音素環境クラスタ105は、先の実施形態
と同様にトレーニング音声素片101を音素環境に関す
るクラスタに分類して生成される。
That is, as in the first embodiment, the representative speech unit generation unit 11 inputs the input speech in accordance with the pitch period and duration information included in the phoneme environment 102 labeled on the training speech unit 101. Element 103
After a plurality of synthesized speech units are internally generated by changing the pitch period and the duration time, the synthesized speech units are subjected to filtering by an adaptive post-filter to perform spectrum shaping. Then, a representative speech unit 104 and a phoneme environment cluster 105 are generated in accordance with a distance scale between each synthesized speech unit and the training speech unit 101 after spectrum shaping by the adaptive post filter. The phoneme environment cluster 105 is generated by classifying the training speech units 101 into clusters relating to the phoneme environment, as in the previous embodiment.

【0054】なお、この代表音声素片生成部11におい
て音素環境102に含まれるピッチ周期および継続時間
長の情報に従って入力音声素片103のピッチ周期およ
び継続時間長を変更して生成される複数の合成音声素片
に対してフィルタリングを施してスペクトル整形を行う
適応ポストフィルタは、音声合成部15の後段に配置さ
れる適応ポストフィルタ16と同様の構成でよい。
The representative speech unit generation unit 11 changes the pitch period and the duration of the input speech unit 103 in accordance with the information on the pitch period and the duration included in the phoneme environment 102. The adaptive post-filter that performs filtering on the synthesized speech unit to perform spectrum shaping may have the same configuration as the adaptive post-filter 16 disposed downstream of the speech synthesis unit 15.

【0055】一方、音声合成部15では第1の実施形態
と同様に代表音声素片選択情報107に従って代表音声
素片記憶部12より選択的に読み出された代表音声素片
108に対し、韻律情報111に従ってピッチ周期およ
び音韻継続時間長を変更するとともに、素片の接続を行
って合成音声信号113を生成するが、本実施形態では
この合成音声信号113がさらに適応ポストフィルタ1
6に入力され、ここで音質向上のためのスペクトル整形
が行われた後、最終的な合成音声信号114が取り出さ
れる。
On the other hand, the speech synthesizing unit 15 applies a prosody to the representative speech unit 108 selectively read from the representative speech unit storage unit 12 according to the representative speech unit selection information 107 as in the first embodiment. The synthesized speech signal 113 is generated by changing the pitch period and the phoneme duration according to the information 111 and connecting the segments. In the present embodiment, the synthesized speech signal 113 is further processed by the adaptive post-filter 1.
6, where the spectrum is shaped to improve the sound quality, and the final synthesized speech signal 114 is extracted.

【0056】図6に、適応ポストフィルタ16の一構成
例を示す。この適応ポストフィルタ16は、ホルマント
強調フィルタ21とピッチ強調フィルタ22を縦続配置
して構成される。
FIG. 6 shows an example of the configuration of the adaptive post filter 16. The adaptive post filter 16 is configured by arranging a formant emphasis filter 21 and a pitch emphasis filter 22 in cascade.

【0057】ホルマント強調フィルタ21は、代表音声
素片選択情報107に従って代表音声素片記憶部12か
ら選択的に読み出された代表音声素片108をLPC分
析して得られるLPC係数に基づいて決定されるフィル
タ係数に従って、音声合成部15から入力される合成音
声信号113をフィルタリングすることにより、スペク
トルの山の部分を強調する処理を行う。一方、ピッチ強
調フィルタ22は、韻律情報111に含まれるピッチ周
期に基づいて決定されるパラメータに従って、ホルマン
ト強調フィルタ21の出力をフィルタリングすることに
より、音声信号のピッチを強調する処理を行う。なお、
ホルマント強調フィルタ21とピッチ強調フィルタ22
の配置順序は逆であってもよい。
The formant emphasis filter 21 is determined based on the LPC coefficient obtained by performing the LPC analysis on the representative speech unit 108 selectively read from the representative speech unit storage unit 12 according to the representative speech unit selection information 107. According to the filter coefficient to be applied, the synthesized speech signal 113 input from the speech synthesis unit 15 is filtered to enhance the spectrum peak. On the other hand, the pitch emphasis filter 22 performs a process of emphasizing the pitch of the audio signal by filtering the output of the formant emphasis filter 21 according to a parameter determined based on the pitch cycle included in the prosody information 111. In addition,
Formant emphasis filter 21 and pitch emphasis filter 22
May be reversed.

【0058】このような適応ポストフィルタ16の適用
によりスペクトルが整形され、「めりはり」のある明瞭
な音声を再生可能な合成音声信号114が得られる。適
応ポストフィルタ16としては図6に示した構成のもの
に限られず、音声符号化や音声合成の分野で用いられる
公知の技術に基づく種々の構成を採用することが可能で
ある。
The spectrum is shaped by the application of the adaptive post-filter 16, and a synthesized voice signal 114 capable of reproducing a clear voice with a sharp edge is obtained. The adaptive postfilter 16 is not limited to the configuration shown in FIG. 6, but may employ various configurations based on known techniques used in the fields of voice coding and voice synthesis.

【0059】このように本実施形態では、規則合成系2
において音声合成部15の後段に適応ポストフィルタ1
6が配置される点を考慮して、合成単位学習系1におい
ても代表音声素片生成部11で音素環境102に含まれ
るピッチ周期および継続時間長の情報に従って入力音声
素片103のピッチ周期および継続時間長を変更して生
成される複数の合成音声素片に対し、同様に適応ポスト
フィルタによるフィルタリングを行っている。従って、
適応ポストフィルタ16を通した後の最終的な合成音声
信号114と同様のレベルで、自然音声に対する歪みが
小さくなるような代表音声素片を代表音声素片生成部1
1において生成できるため、さらに自然音声に近い合成
音声を生成することが可能となる。
As described above, in this embodiment, the rule synthesizing system 2
At the subsequent stage of the speech synthesizing unit 15,
In consideration of the fact that 6 is arranged, in the synthesis unit learning system 1 as well, the pitch period of the input speech unit 103 and the pitch period of the input speech unit A plurality of synthesized speech units generated by changing the duration are similarly filtered by an adaptive post filter. Therefore,
At the same level as the final synthesized speech signal 114 after passing through the adaptive post filter 16, a representative speech unit that reduces distortion with respect to natural speech is represented by the representative speech unit generation unit 1.
1, it is possible to generate a synthesized voice closer to a natural voice.

【0060】次に、図5における代表音声素片生成部1
1の処理手順について具体的に説明する。図7、図8お
よび図9のフローチャートは、図5における代表音声素
片生成部11の第1、第2および第3の処理手順を示し
ている。図7、図8および図9では、先に説明した図
2、図3および図4に示した処理手順における音声合成
ステップS21、S31およびS41の後に、ポストフ
ィルタリングステップS25、S36およびS45が追
加されている。
Next, the representative speech unit generator 1 in FIG.
The first processing procedure will be specifically described. The flowcharts of FIGS. 7, 8 and 9 show the first, second and third processing procedures of the representative speech unit generation unit 11 in FIG. 7, 8, and 9, post-filtering steps S25, S36, and S45 are added after the speech synthesis steps S21, S31, and S41 in the processing procedure shown in FIGS. 2, 3, and 4 described above. ing.

【0061】ポストフィルタリングステップS25、S
36およびS45では、前述した適応ポストフィルタに
よるフィルタリングを行う。すなわち、音声合成ステッ
プS21、S31およびS41で生成された合成音声素
片Gijに対し、入力音声素片Si をLPC分析して得ら
れるLPC係数に基づいて決定されるフィルタ係数に従
ってフィルタリングを行うことにより、スペクトルの山
の部分を強調するホルマント強調を行う。また、このホ
ルマント強調後の合成音声素片に対し、さらにトレーニ
ング音声素片Ti のピッチ周期に基づいて決定されるパ
ラメータに従ってフィルタリングを行うことにより、ピ
ッチ強調を行う。
Post-filtering steps S25, S
In 36 and S45, the filtering by the above-mentioned adaptive post filter is performed. That is, for speech synthesis step S21, S31 and S41 synthesized speech segment G ij generated in performs filtering according to filter coefficients determined based on the input speech segments S i to the LPC coefficients obtained by LPC analysis In this way, formant emphasis is performed to emphasize the peaks of the spectrum. Further, the synthesized speech unit after the formant emphasis is further filtered in accordance with a parameter determined based on the pitch cycle of the training speech unit T i , thereby performing pitch emphasis.

【0062】このようにして、ポストフィルタリングス
テップS25、S36およびS45において、スペクト
ル整形を行う。このポストフィルタリングステップS2
5、S36およびS45は、前述したように規則合成系
2において音声合成部15の後段に設けられる適応ポス
トフィルタ16により合成音声信号113のスペクトル
整形を行って音質の向上を図るポストフィルタリングを
行うことを前提に、合成単位の学習を可能とする処理で
あり、この処理を適応ポストフィルタ16による処理と
組み合わせることによって、最終的に「めりはり」のあ
る明瞭な合成音声信号114が生成される。
In this way, spectrum shaping is performed in the post-filtering steps S25, S36 and S45. This post-filtering step S2
5, S36 and S45 are to perform post-filtering for improving the sound quality by shaping the spectrum of the synthesized voice signal 113 by the adaptive post-filter 16 provided in the subsequent stage of the voice synthesis unit 15 in the rule synthesis system 2 as described above. Is a process that enables learning of a synthesis unit. By combining this process with the process by the adaptive post-filter 16, a clear synthesized speech signal 114 having a "finish" is finally generated. .

【0063】(第3の実施形態)次に、図10〜図12
を用いて本発明の第3の実施形態を説明する。図10
は、第2の実施形態に係る音声合成装置における合成単
位学習系の構成を示すブロック図である。
(Third Embodiment) Next, FIGS.
The third embodiment of the present invention will be described with reference to FIG. FIG.
FIG. 9 is a block diagram illustrating a configuration of a synthesis unit learning system in the speech synthesis device according to the second embodiment.

【0064】本実施形態における合成単位学習系30
は、LPC分析・逆フィルタ部31、音源信号記憶部3
2、LPC係数記憶部33、音源信号生成部34、合成
フィルタ35、歪み計算部36および最小歪探索部17
0からなる。この合成単位学習部30には、トレーニン
グ音声素片101と、これにラベル付けされた音素環境
102および入力音声素片103が入力される。入力音
声素片103は、LPC分析・逆フィルタ部31に入力
され、LPC分析が行われてLPC係数201と予測残
差信号202が出力される。LPC係数201はLPC
係数記憶部33に記憶され、また予測残差信号202は
音源信号記憶部32に記憶される。
The synthesis unit learning system 30 in the present embodiment
Are the LPC analysis / inverse filter unit 31 and the sound source signal storage unit 3
2. LPC coefficient storage unit 33, sound source signal generation unit 34, synthesis filter 35, distortion calculation unit 36, and minimum distortion search unit 17
Consists of zero. A training speech unit 101, a phoneme environment 102 and an input speech unit 103 labeled with the training speech unit 101 are input to the synthesis unit learning unit 30. The input speech unit 103 is input to the LPC analysis / inverse filter unit 31, where LPC analysis is performed, and an LPC coefficient 201 and a prediction residual signal 202 are output. LPC coefficient 201 is LPC
The prediction residual signal 202 is stored in the coefficient storage unit 33, and the prediction residual signal 202 is stored in the excitation signal storage unit 32.

【0065】音源信号記憶部32に記憶された予測残差
信号は、最小歪み探索部37からの指令に従って一つず
つ読み出され、音源信号生成部34においてトレーニン
グ音声素片101の音素環境102に含まれるピッチパ
ターンおよび音韻継続時間長の情報に従って、そのピッ
チ周期および継続時間長が変更されることにより、音源
信号が生成される。このようにして生成された音源信号
は、最小歪探索部37からの指令に従ってLPC係数記
憶部33から読み出されたLPC係数をフィルタ係数と
する合成フィルタ35に入力され、合成音声素片が作成
される。
The prediction residual signals stored in the sound source signal storage unit 32 are read out one by one in accordance with a command from the minimum distortion search unit 37, and are read by the sound source signal generation unit 34 into the phoneme environment 102 of the training speech unit 101. According to the information on the pitch pattern and the phoneme duration included, the pitch period and the duration are changed to generate a sound source signal. The sound source signal generated in this manner is input to a synthesis filter 35 using the LPC coefficient read from the LPC coefficient storage unit 33 as a filter coefficient in accordance with an instruction from the minimum distortion search unit 37 to generate a synthesized speech unit. Is done.

【0066】次に、歪計算部36においてトレーニング
音声素片101に対する合成音声素片の誤差つまり歪み
が計算され、この歪みが最小歪探索部37において評価
される。最小歪探索部37は、LPC係数記憶部33と
音源信号記憶部32にそれぞれ記憶されているLPC係
数と予測残差信号の全ての組み合わせを出力するように
指令を出して、それらの組み合わせに対応して合成フィ
ルタ35で合成音声素片を生成させる。そして、最小の
歪みを与えるLPC係数と予測残差信号の組み合わせを
見い出し、それを記憶する。
Next, an error, that is, a distortion of the synthesized speech unit with respect to the training speech unit 101 is calculated in the distortion calculating unit 36, and this distortion is evaluated in the minimum distortion searching unit 37. The minimum distortion search unit 37 issues a command to output all combinations of LPC coefficients and prediction residual signals stored in the LPC coefficient storage unit 33 and the excitation signal storage unit 32, respectively, and responds to those combinations. Then, the synthesis speech unit is generated by the synthesis filter 35. Then, a combination of the LPC coefficient that gives the minimum distortion and the prediction residual signal is found and stored.

【0067】次に、この合成単位学習系30の動作を図
11のフローチャートを用いて説明する。まず、準備段
階として連続発声された多数の音声データに音韻毎にラ
ベリングを行い、CV,VCV,CVCなどの合成単位
に従って、トレーニング音声素片Ti (i=1,2,
3,…,NT )を切り出す。また、各トレーニング音声
素片Ti に対応する音素環境Pi (i=1,2,3,
…,NT )を抽出しておく。ただし、NT はトレーニン
グ音声素片Ti の個数を表す。音素環境は、少なくとも
当該トレーニング音声素片の音韻とそのピッチパターン
および継続時間長を含むものとし、その他に必要に応じ
て前後の音素などを含むものとする。
Next, the operation of the synthesis unit learning system 30 will be described with reference to the flowchart of FIG. First, as a preparation stage, labeling is performed on a large number of continuously uttered speech data for each phoneme, and a training speech unit T i (i = 1,2,2,3) is obtained in accordance with a synthesis unit such as CV, VCV, or CVC.
3,..., N T ). Further, a phoneme environment P i (i = 1, 2, 3, 3) corresponding to each training speech unit T i
.., NT ) are extracted in advance. However, N T is the number of training speech units T i. The phoneme environment includes at least the phoneme of the training speech unit, its pitch pattern and duration, and also includes the preceding and following phonemes as necessary.

【0068】次に、トレーニング音声素片を作成したの
と同様の方法により、多数の入力音声素片Si (i=
1,2,3,…,NS )を作成する。ただし、NS は入
力音声素片Si の個数を表す。ここで、入力音声素片S
i とトレーニング音声素片Tiの合成単位は一致させる
ものとする。例えば、あるCV音節“ka”の代表音声
素片を作成する場合、多数の音声データから切り出され
た音節“ka”から入力音声素片Si とトレーニング音
声素片Ti を設定する。なお、入力音声素片はトレーニ
ング音声素片と同じものを使用してもよいし(すなわ
ち、Ti =Si )、異なる音声素片を作成してもよい。
いずれにしても、豊富な音韻環境を有する多数のレ−ニ
ング音声素片と入力音声素片が用意されていることが望
ましい。
Next, a large number of input speech units S i (i =
1, 2, 3,..., N S ). However, N S represents the number of input speech segments S i. Here, the input speech unit S
Assume that the synthesis unit of i and the training speech unit T i match. For example, when creating a representative speech unit of a certain CV syllable “ka”, an input speech unit S i and a training speech unit T i are set from syllables “ka” cut out from a large number of speech data. The input speech unit may be the same as the training speech unit (that is, T i = S i ), or a different speech unit may be created.
In any case, it is desirable that a large number of training speech units and input speech units having a rich phonemic environment be prepared.

【0069】このような準備段階の後、LPC分析ステ
ップS51で入力音声素片Si (i=1,2,3,…,
S )のLPC分析を行い、LPC係数ai (i=1,
2,3,…,NS )を求めると共に、その係数に基づい
た逆フィルタリングを行い、予測残差信号ei (i=
1,2,3,…,NS )を求める。ただし、aはpをL
PC分析の次数とすると、p個の要素を持つぺクトルで
ある。
After such a preparation stage, the input speech unit S i (i = 1, 2, 3,...,
N S ), and an LPC coefficient a i (i = 1,
2, 3,..., N s ) and perform inverse filtering based on the coefficients to obtain a prediction residual signal e i (i =
1, 2, 3,..., N S ). Where a is p
As an order of PC analysis, it is a vector having p elements.

【0070】次に、求められた予測残差信号を音源信号
として、LPC係数とともにステップS52で保存す
る。次のLPC係数・音源信号組み合わせステップS5
3では、保存されたLPC係数と音源信号の組み合わせ
を一組(ai ,ej )作成する。
Next, the obtained prediction residual signal is stored as a sound source signal in step S52 together with the LPC coefficient. Next LPC coefficient / sound source signal combination step S5
In step 3, a set (a i , e j ) of a combination of the stored LPC coefficient and the sound source signal is created.

【0071】この一組の組み合わせに対して、次の音声
合成ステップS54でPk のピッチパターンおよび継続
時間長に等しくなるようにej のピッチおよび継続時間
長を変更して音源信号を生成した後、LPC係数ai
持つ合成フィルタでフィルタリング演算を行い、合成音
声素片Gk (i,j)を生成する。
[0071] for the combination of the set, to generate a sound source signal by modifying the pitch and duration of e j to be equal to the pitch pattern and duration of P k in the next speech synthesis step S54 Thereafter, a filtering operation is performed by a synthesis filter having LPC coefficients a i to generate a synthesized speech unit G k (i, j).

【0072】このように、全てのPk (k=1,2,
3,…,NT )に従って音声合成を行うことにより、N
T 個の合成音声素片Gk (i,j),(k=1,2,
3,…,NT )を生成する。
As described above, all P k (k = 1, 2, 2)
3,..., N T ) by performing speech synthesis.
T synthesized speech units G k (i, j), (k = 1, 2,
3,..., N T ).

【0073】次の歪み評価ステップS55では、合成音
声素片Gk (i,j)とトレーニング音声素片Tk との
間の歪みEk (i,j)とPk に関する歪みの総和Eを
次式(6)(7)により求める。
In the next distortion evaluation step S55, the sum E of the distortion E k (i, j) between the synthesized speech unit G k (i, j) and the training speech unit T k and the distortion E related to P k is calculated. It is determined by the following equations (6) and (7).

【0074】[0074]

【数5】 (Equation 5)

【0075】ここでDは歪み関数であり、何らかのスペ
クトル距離を用いることができる。例えば、FFTなど
を用いてパワースペクトルを求めて、その間の距離を求
める方法や、あるいは線形予測分析を行ってLPCまた
はLSPパラメータなどを求めて、パラメータ間の距離
を評価する方法などがある。その他にも、短時間フーリ
エ変換やウェーブレット変換などの変換係数を用いて評
価する方法が考えられる。また、各素片のパワーを正規
化した上で、歪みの評価を行うことも考えられる。
Here, D is a distortion function, and any spectral distance can be used. For example, there is a method of obtaining a power spectrum by using FFT or the like and obtaining a distance therebetween, or a method of obtaining a LPC or LSP parameter by performing linear prediction analysis and evaluating a distance between parameters. In addition, there is a method of evaluating using a transform coefficient such as a short-time Fourier transform or a wavelet transform. It is also conceivable to evaluate the distortion after normalizing the power of each element.

【0076】ステップS53〜S55の処理をLPC係
数と音源信号の全ての組み合わせ(ai ,ej ),
(i,j=1,2,3,…,NS )について行い、歪み
評価ステップS55でE(i,j)の最小値を与える
i,jの組を探索する。
The processing of steps S53 to S55 is repeated for all combinations (a i , e j ) of LPC coefficients and sound source signals,
(I, j = 1, 2, 3,..., N S ), and in a distortion evaluation step S55, a set of i, j that gives the minimum value of E (i, j) is searched.

【0077】次の代表音声素片生成ステップS57で
は、E(i,j)の最小値を与えるi,jの組、また
は、対応する(ai,ej)、または、(ai,ej)
から生成される波形を代表音声素片として保存する。た
だし、この代表音声素片生成ステップは、代表音声素片
を各合成単位毎に一組生成する場合の処理であり、N組
生成したい場合は、次のようにする。まず、NS *NS
個の(ai,ej)の組の中からN組選択した集合を式
(8)と置き、歪みの総和を表す評価関数を式(9)の
ように定義する。
In the next representative speech unit generation step S57, a set of i, j giving the minimum value of E (i, j), or the corresponding (ai, ej) or (ai, ej)
Is saved as a representative speech unit. However, this representative speech unit generation step is a process for generating one set of representative speech units for each synthesis unit. If N sets are to be generated, the following is performed. First, N S * N S
A set selected from N sets of (ai, ej) sets is set as equation (8), and an evaluation function representing the sum of distortions is defined as equation (9).

【0078】[0078]

【数6】 (Equation 6)

【0079】ただし、min( )は最小値を表す関数
である。集合Uの組合せは、NS *NSN 通りあり、
これらの集合Uの中から評価関数ED(U)を最小にす
るUを探索し、その要素(ai ,ejk を代表音声素
片とする。
Here, min () is a function representing the minimum value. There are N S * N S C N combinations of the set U,
Evaluation function ED a (U) to explore the U to minimize from these set U, and that element (a i, e j) represent speech units to k.

【0080】次に、本実施形態における規則合成系につ
いて図12を用いて説明する。本実施形態における規則
合成系40は、組み合せ記憶部41、音源信号記憶部4
2、LPC係数記憶部43、音源信号生成部44および
合成フィルタ45からなる。規則合成部40には、入力
されたテキストの言語処理とそれに続く音韻処理の結果
得られる韻律情報111と音韻記号列112が入力され
る。組み合せ記憶部41、音源信号記憶部42およびL
PC係数記憶部43には、図10の合成単位学習部30
で求められたLPC係数と音源信号の組み合わせ情報
(i,j)と、音源信号ej ,LPC係数ai が予め記
憶されている。
Next, the rule synthesizing system in this embodiment will be described with reference to FIG. The rule synthesis system 40 according to the present embodiment includes a combination storage unit 41, a sound source signal storage unit 4
2. It comprises an LPC coefficient storage unit 43, a sound source signal generation unit 44, and a synthesis filter 45. The rule synthesis unit 40 receives prosody information 111 and a phoneme symbol string 112 obtained as a result of language processing of the input text and subsequent phoneme processing. Combination storage unit 41, sound source signal storage unit 42 and L
The PC coefficient storage unit 43 stores the synthesis unit learning unit 30 of FIG.
The combination information (i, j) of the LPC coefficient and the sound source signal obtained in the above, and the sound source signal e j and the LPC coefficient a i are stored in advance.

【0081】組み合せ記憶部41は、音韻記号列112
を入力し、これに対応する合成単位(例えばCV音節)
を与えるLPC係数と音源信号の組合せ情報を出力す
る。音源信号記憶部42に記憶された音源信号は、組み
合せ記憶部41からの指令に従って読み出され、音源信
号生成部44において入力された韻律情報111に含ま
れるピッチパターンおよび音韻継続時間長の情報に従っ
て、そのピッチ周期および継続時間長が変更されると共
に音源信号の接続が行われる。
The combination storage unit 41 stores the phoneme symbol string 112
Is input and the corresponding synthesis unit (for example, CV syllable)
Is output as the combination information of the LPC coefficient and the excitation signal that gives The sound source signal stored in the sound source signal storage unit 42 is read out according to a command from the combination storage unit 41, and is read according to the pitch pattern and phoneme duration information included in the prosody information 111 input in the sound source signal generation unit 44. , Its pitch period and duration are changed, and connection of the sound source signal is performed.

【0082】こうして生成された音源信号は、組み合せ
記憶部41の指令に従ってLPC係数記憶部43から読
み出された係数をフィルタ係数とする合成フィルタ45
に入力され、フィルタ係数の補間とフィルタリング演算
が行われることにより、合成音声信号113が作成され
る。
The sound source signal thus generated is subjected to a synthesis filter 45 using the coefficient read from LPC coefficient storage section 43 as a filter coefficient in accordance with a command from combination storage section 41.
, And the interpolation of the filter coefficients and the filtering operation are performed, so that the synthesized speech signal 113 is created.

【0083】(第4の実施形態)次に、図13および図
14を用いて本発明の第4の実施形態を説明する。図1
3は本実施形態における合成単位学習系の概略構成を示
す図であり、第3の実施形態の図10に示した合成単位
学習系30にクラスタリング部38を付加した構成とな
っている。本実施形態では、クラスタリング部38にお
いて何らかの先見的な知識に基づいて予め音素環境のク
ラスタリングを行い、各クラスタに対して代表音声素片
を生成する点が第3の実施形態と異なる。クラスタリン
グとしては、例えば当該素片のピッチによるクラスタリ
ングが考えられる。この場合、トレーニング音声素片1
01をピッチに基づいてクラスタリングし、各クラスタ
のトレーニング音声素片に対して第3の実施形態で述べ
た代表音声素片の生成を行う。
(Fourth Embodiment) Next, a fourth embodiment of the present invention will be described with reference to FIGS. FIG.
3 is a diagram showing a schematic configuration of a synthesis unit learning system according to the present embodiment, which has a configuration in which a clustering unit 38 is added to the synthesis unit learning system 30 shown in FIG. 10 of the third embodiment. This embodiment is different from the third embodiment in that the clustering unit 38 performs clustering of phoneme environments in advance based on some foresight knowledge and generates a representative speech unit for each cluster. As the clustering, for example, clustering based on the pitch of the segment can be considered. In this case, training speech unit 1
01 is clustered based on the pitch, and the representative speech unit described in the third embodiment is generated for the training speech unit of each cluster.

【0084】図14は、本実施形態における規則合成系
の概略構成を示す図であり、第3の実施形態の図12に
示した規則合成系40にクラスタリング部48を付加し
た構成となっている。韻律情報111をトレーニング音
声素片と同様にピッチクラスタリングし、合成単位学習
系30で求められた各クラスタの代表音声素片に対応す
る音源信号及びLPC係数を用いて音声を合成する。
FIG. 14 is a diagram showing a schematic configuration of a rule synthesizing system according to the present embodiment, in which a clustering unit 48 is added to the rule synthesizing system 40 shown in FIG. 12 of the third embodiment. . The prosody information 111 is pitch-clustered in the same manner as the training speech segments, and speech is synthesized using the sound source signals and LPC coefficients corresponding to the representative speech segments of each cluster obtained by the synthesis unit learning system 30.

【0085】(第5の実施形態)次に、図15〜図17
を用いて本発明の第5の実施形態を説明する。図15
は、本実施形態における合成単位学習系を示すブロック
図であり、クラスタをトレーニング音声素片との歪み尺
度に基づいて自動的に生成する場合の構成例を示してい
る。本実施形態は、図10に示した合成単位学習系30
に音素環境クラスタ生成部51とクラスタ記憶部52が
追加された構成となっている。
(Fifth Embodiment) Next, FIGS.
A fifth embodiment of the present invention will be described with reference to FIG. FIG.
Is a block diagram illustrating a synthesis unit learning system according to the present embodiment, and illustrates a configuration example in which a cluster is automatically generated based on a distortion measure with respect to a training speech unit. In the present embodiment, the synthesis unit learning system 30 shown in FIG.
In this configuration, a phoneme environment cluster generation unit 51 and a cluster storage unit 52 are added.

【0086】本実施形態における合成単位学習系の第1
の処理手順を図16に示すフローチャートを用いて説明
する。この処理手順は第3の実施形態の処理手順を示し
た図11に新たに音素環境クラスタ生成ステップS58
でが追加されている。このステップS58では、音素環
境Pk と歪みEk (i,j)および代表音声素片Dm
り、音素環境に関するクラスタCm (m=1,2,3,
…,N)を生成する。音素環境クラスタCm は、例えば
次式(10)で表されるクラスタリングの評価関数Ecm
を最小化するクラスタを探索することによって得られ
る。
The first example of the synthesis unit learning system in this embodiment
Will be described with reference to the flowchart shown in FIG. This processing procedure is similar to the processing procedure of the third embodiment shown in FIG.
Has been added. In this step S58, a cluster C m (m = 1, 2, 3, 3) relating to the phoneme environment is obtained from the phoneme environment P k , the distortion E k (i, j) and the representative speech unit D m .
.., N). The phoneme environment cluster C m is, for example, a clustering evaluation function E cm represented by the following equation (10).
By searching for a cluster that minimizes

【0087】[0087]

【数7】 (Equation 7)

【0088】図17は、図15の合成単位学習系の第2
の処理手順を示すフローチャートである。この処理で
は、初期音素環境クラスタ生成ステップS50で何らか
の先見的な知識に基づいて予め音素環境のクラスタリン
グを行い、初期音素環境クラスタを生成する。コラスタ
リングとしては、例えば当該素片の音韻によるクラスタ
リングが考えられる。この場合、当該素片の音韻が一致
する音声素片およびトレーニング音声素片だけを用いて
第3の実施形態で述べた代表音声素片の生成および音素
環境クラスタの生成を行い、全ての初期音素環境クラス
タについて同様の操作を繰り返すことによって、全ての
代表音声素片および対応する音素環境クラスタの生成を
行う。
FIG. 17 shows a second example of the synthesis unit learning system shown in FIG.
6 is a flowchart showing the processing procedure of FIG. In this processing, in the initial phoneme environment cluster generation step S50, the phoneme environments are clustered in advance based on some foresight knowledge to generate an initial phoneme environment cluster. As the clustering, for example, clustering based on phonemes of the segment can be considered. In this case, the generation of the representative speech unit and the generation of the phoneme environment cluster described in the third embodiment are performed using only the speech unit and the training speech unit in which the phonemes of the segment match. By repeating the same operation for environment clusters, all representative speech units and corresponding phoneme environment clusters are generated.

【0089】ただし、各初期クラスタ当たりの代表音声
素片数が1であれば、初期音素環境クラスタが代表音声
素片の音素環境クラスタとなるため、音素環境クラスタ
生成ステップS58は不要となり、初期音素環境クラス
タを図15のクラスタ記憶部52に記憶すればよい。
However, if the number of representative speech units per each initial cluster is 1, the initial phoneme environment cluster becomes the phoneme environment cluster of the representative speech unit, so that the phoneme environment cluster generation step S58 becomes unnecessary, and the initial phoneme The environment cluster may be stored in the cluster storage unit 52 of FIG.

【0090】本実施形態における規則合成系は、図14
に示した第4の実施形態における規則合計系40と同様
に構成される。この場合、クラスタリング部48は図1
5のクラスタ記憶部52に蓄積された情報に基づいて処
理を行う。
The rule synthesizing system according to the present embodiment is the same as that shown in FIG.
Is configured similarly to the rule total system 40 in the fourth embodiment shown in FIG. In this case, the clustering unit 48
Processing is performed based on the information stored in the fifth cluster storage unit 52.

【0091】(第6の実施形態)図18に、本発明の第
6の実施形態における合成単位学習系の構成を示す。本
実施形態における合成単位学習系は、図10に示した合
成単位学習系30にバッファ61,62および量子化テ
ーブル作成部63,64が追加された構成となってい
る。
(Sixth Embodiment) FIG. 18 shows a configuration of a synthesis unit learning system according to a sixth embodiment of the present invention. The synthesis unit learning system according to the present embodiment has a configuration in which buffers 61 and 62 and quantization table creation units 63 and 64 are added to the synthesis unit learning system 30 shown in FIG.

【0092】本実施形態において、入力音声素片103
はLPC分析・逆フィルタ部31に入力され、ここでL
PC分析により生成されたLPC係数201と予測残差
信号202が一旦バッファ61,62にそれぞれ蓄えら
れた後、量子化テーブル作成部63,64でそれぞれ量
子化され、量子化されたLPC係数と予測残差信号がL
PC係数記憶部33および音源信号記憶部34にそれぞ
れ記憶される。
In this embodiment, the input speech unit 103
Is input to the LPC analysis / inverse filter unit 31, where L
After the LPC coefficient 201 and the prediction residual signal 202 generated by the PC analysis are temporarily stored in the buffers 61 and 62, respectively, they are quantized by the quantization table creation units 63 and 64, respectively. The residual signal is L
They are stored in the PC coefficient storage unit 33 and the sound source signal storage unit 34, respectively.

【0093】図19は、図18の合成単位学習系の処理
手順を示すフローチャートであり、図11のフローチャ
ートに示した処理手順と異なるところは、LPC分析ス
テップS51の後に量子化ステップS60が追加された
ことである。この量子化ステップS60では、LPC分
析ステップS51で求められたLPC係数ai (i=
1,2,3,…,NS )と予測残差信号ei (1=1,
2,3,…,NS )を一旦バッファに蓄積した後、LB
Gアルゴリズムなどの公知の技術を用いて量子化テーブ
ルを作成し、LPC係数と予測残差信号を量子化する。
このとき、量子化テーブルのサイズ、すなわち量子化の
代表ベクトルの数はNS 未満とする。そして、量子化さ
れたLPC係数と予測残差信号が次のステップS52で
保存される。その後の処理は、図11の場合と同一であ
る。
FIG. 19 is a flowchart showing the processing procedure of the synthesis unit learning system of FIG. 18. The difference from the processing procedure shown in the flowchart of FIG. 11 is that a quantization step S60 is added after the LPC analysis step S51. That is. In this quantization step S60, the LPC coefficient a i (i =
, N s ) and the prediction residual signal e i (1 = 1,
2, 3,..., N S ) are temporarily stored in the buffer, and then LB
A quantization table is created using a known technique such as the G algorithm, and the LPC coefficient and the prediction residual signal are quantized.
At this time, the size of the quantization table, i.e. the number of the representative vector quantization is less than N S. Then, the quantized LPC coefficient and the prediction residual signal are stored in the next step S52. Subsequent processing is the same as in the case of FIG.

【0094】(第7の実施形態)図20は、本発明の第
7の実施形態における合成単位学習系を示すブロック図
であり、クラスタをトレーニング音声素片との歪み尺度
に基づいて自動的に生成する場合の構成例を示してい
る。クラスタの生成は、第5の実施形態と同様に行うこ
とができる。すなわち、本実施形態における合成単位学
習系は、図15に示した第5の実施形態と図18に示し
た第6の実施形態とを組み合わせた構成となっている。
(Seventh Embodiment) FIG. 20 is a block diagram showing a synthesis unit learning system according to a seventh embodiment of the present invention, in which clusters are automatically generated based on a distortion measure with respect to a training speech unit. 4 shows a configuration example in the case of generation. Cluster generation can be performed in the same manner as in the fifth embodiment. That is, the synthesis unit learning system according to the present embodiment has a configuration in which the fifth embodiment illustrated in FIG. 15 and the sixth embodiment illustrated in FIG. 18 are combined.

【0095】(第8の実施形態)図21は、本発明の第
8の実施形態における合成単位学習系であり、LPC分
析部31aと逆フィルタ31bを分離して、バッファ6
1および量子化テーブル作成部63を経て量子化された
LPC係数を用いて逆フイルタリングを行って予測残差
信号を計算する場合の構成例を示している。このように
することにより、LPC係数の量子化歪みによる合成音
声の音質劣化を低減する代表音声素片を生成することが
可能になる。
(Eighth Embodiment) FIG. 21 shows a synthesis unit learning system according to an eighth embodiment of the present invention, in which an LPC analysis section 31a and an inverse filter 31b are separated and a buffer 6
1 shows an example of a configuration in which inverse filtering is performed using the LPC coefficients quantized via the quantization table creation unit 63 and the prediction residual signal is calculated. By doing so, it is possible to generate a representative speech unit that reduces sound quality degradation of synthesized speech due to quantization distortion of LPC coefficients.

【0096】(第9の実施形態)図22は、本発明の第
9の実施形態における合成単位学習系であり、第8の実
施形態と同様に、量子化されたLPC係数を用いて逆フ
イルタリングし、予測残差信号を計算する場合の他の構
成例を示している。ただし、本実施形態では逆フィルタ
31bで逆フィルタリングされた予測残差信号がバッフ
ァ62および量子化テーブル64を経て量子化された
後、音源信号記憶部32に入力される点が第8の実施形
態と異なっている。
(Ninth Embodiment) FIG. 22 shows a synthesis unit learning system according to a ninth embodiment of the present invention. As in the eighth embodiment, inverse filtering is performed using quantized LPC coefficients. 14 shows another configuration example in the case of performing ringing and calculating a prediction residual signal. However, the eighth embodiment is different from the eighth embodiment in that the prediction residual signal inversely filtered by the inverse filter 31b is quantized via the buffer 62 and the quantization table 64 and then input to the excitation signal storage unit 32. Is different.

【0097】第6〜第9の実施形態において、量子化テ
ーブル作成部63,64で作成される量子化テーブルの
サイズ、すなわち量子化の代表スぺクトルの数は、クラ
スタ数または合成単位の総数(例えば、CV,VC音節
の総数)より少なく選ぶことができる。このようにLP
C係数と予測残差信号を量子化することによって、代表
音声素片として記憶されるLPC係数と音源信号の数を
減少させることができるため、合成単位の学習に要する
計算時間を短縮することができると共に、規則合成系で
用いるメモリ量を低減することができる。
In the sixth to ninth embodiments, the size of the quantization table created by the quantization table creation units 63 and 64, that is, the number of representative spectra for quantization is determined by the number of clusters or the total number of synthesis units. (For example, the total number of CV and VC syllables). Thus LP
By quantizing the C coefficient and the prediction residual signal, it is possible to reduce the number of LPC coefficients and the number of sound source signals stored as representative speech units, thereby shortening the calculation time required for learning the synthesis unit. It is possible to reduce the amount of memory used in the rule synthesis system.

【0098】しかも、LPC係数と音源信号の組み合せ
(ai ,ej )で音声合成を行うので、LPC係数と音
源信号数のどちらかの代表音声素片数がクラスタ数や合
成単位の総数(例えば、CV,VC音節の総数)より少
ない場合でも、良好な合成音声を得ることができる。
Moreover, since speech synthesis is performed using a combination of the LPC coefficient and the sound source signal (a i , e j ), the number of representative speech units of either the LPC coefficient or the number of sound source signals is determined by the number of clusters or the total number of synthesis units ( For example, even if it is smaller than the total number of CV and VC syllables), a good synthesized speech can be obtained.

【0099】また、第6〜第9の実施形態において、ト
レーニング音声素片と合成音声素片との歪み尺度として
合成素片間の接続歪みを考慮することにより、より滑ら
かな合成音を得ることもできる。
In the sixth to ninth embodiments, a smoother synthesized speech can be obtained by considering the connection distortion between synthetic speech units as a distortion measure between the training speech unit and the synthesized speech unit. Can also.

【0100】さらに、合成単位の学習および規則合成に
おいて、第2の実施形態で説明したと同様の適応ポスト
フィルタを合成フィルタと合わせて用いることもでき、
これにより合成音声のスペクトルが整形され、「めりは
り」のある明瞭な合成音声を得ることができる。
Further, in the learning of the synthesis unit and the rule synthesis, the same adaptive post-filter as described in the second embodiment can be used together with the synthesis filter.
As a result, the spectrum of the synthesized speech is shaped, and a clear synthesized speech with a “slip” can be obtained.

【0101】[0101]

【発明の効果】以上説明したように、本発明の音声合成
方法によれば、入力音声素片に対してピッチおよび継続
時間長の少なくとも一方の変更を行って生成される合成
音声のレベルで自然音声に対する歪みを評価し、それに
基づいて入力音声素片から選択した音声素片を代表音声
素片とするため、音声合成装置の特性をも考慮した代表
音声素片の生成が可能であり、この代表音声素片を接続
して音声合成を行うことによって、自然音声に近い高品
質の合成音声を生成することができる。
As described above, according to the speech synthesizing method of the present invention, at least one of the pitch and the duration is changed for the input speech unit, so that the level of the synthesized speech is natural. In order to evaluate the distortion of the voice and to select a speech unit selected from the input speech units based on the distortion as a representative speech unit, it is possible to generate a representative speech unit in consideration of the characteristics of the speech synthesizer. By connecting the representative speech units and performing speech synthesis, it is possible to generate high-quality synthesized speech close to natural speech.

【0102】また、本発明ではさらに代表音声素片の接
続によって合成される音声に対してスペクトル整形を行
うと共に、合成音声素片に対しても同様のスペクトル整
形を行うことにより、スペクトル整形後の最終的な合成
音声信号のレベルで、自然音声に対する歪が小さくなる
ような代表音声素片を生成できるため、「めりはり」の
あるより明瞭な合成音声を生成することができる。
Further, in the present invention, the spectrum synthesized for the speech synthesized by the connection of the representative speech units is further performed, and the similar spectrum shaping is also performed for the synthesized speech units, so that the speech after the spectrum shaping is obtained. At the level of the final synthesized speech signal, it is possible to generate a representative speech unit in which distortion with respect to natural speech is reduced, so that a clearer synthesized speech having a “slippery” can be generated.

【0103】また、各代表音声素片を音素環境に基づく
素片選択規則に従って選択して接続することにより、合
成音声は滑らかで自然性の高いものとなる。さらに、代
表音声素片として音源信号(例えば予測残差信号)音源
信号を入力として合成音声信号を生成する合成フィルタ
の係数(例えばLPC係数)の組の情報を記憶する場
合、これらを量子化することによって、代表音声素片と
して記憶する音源信号と合成フィルタの係数の数を減少
させることができるため、合成単位の学習に要する計算
時間を短縮することができると共に、規則合成系で用い
るメモリ量を低減することができる。
Further, by selecting and connecting each representative speech unit in accordance with a unit selection rule based on the phoneme environment, the synthesized speech becomes smooth and highly natural. Furthermore, when storing information of a set of coefficients (for example, LPC coefficients) of a synthesis filter for generating a synthesized speech signal by inputting a sound source signal (for example, a prediction residual signal) as a representative speech unit, the input signal is quantized. As a result, the number of sound source signals stored as representative speech units and the number of synthesis filter coefficients can be reduced, so that the calculation time required for learning a synthesis unit can be reduced, and the amount of memory used in the rule synthesis system can be reduced. Can be reduced.

【0104】しかも、代表音声素片の情報として記憶す
る音源信号および合成フィルタの係数のうちの少なくと
も一方の数を音声合成単位の総数(例えば、CV,VC
音節の総数)や音素環境クラスタ数より少ない場合で
も、良好な合成音声を得ることができる。
Further, the number of at least one of the sound source signal and the coefficient of the synthesis filter stored as the information of the representative speech unit is determined by the total number of speech synthesis units (for example, CV, VC
Even if it is smaller than the total number of syllables) or the number of phoneme environment clusters, a good synthesized speech can be obtained.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態に係る音声合成装置の
構成を示すブロック図
FIG. 1 is a block diagram showing a configuration of a speech synthesizer according to a first embodiment of the present invention.

【図2】図1中の代表音声素片生成部での第1の処理手
順を示すフローチャート
FIG. 2 is a flowchart showing a first processing procedure in a representative speech unit generation unit in FIG. 1;

【図3】図1の中の代表音声素片生成部での第2の処理
手順を示すフローチャート
FIG. 3 is a flowchart showing a second processing procedure in a representative speech unit generation unit in FIG. 1;

【図4】図1中の代表音声素片生成部での第3の処理手
順を示すフローチャート
FIG. 4 is a flowchart showing a third processing procedure in a representative speech unit generation unit in FIG. 1;

【図5】本発明の第2の実施形態に係る音声合成装置の
構成を示すブロック図
FIG. 5 is a block diagram showing a configuration of a speech synthesizer according to a second embodiment of the present invention.

【図6】図5中の適応ポストフィルタの構成例を示すブ
ロック図
FIG. 6 is a block diagram showing a configuration example of an adaptive post filter in FIG. 5;

【図7】図5中の代表音声素片生成部での第1の処理手
順を示すフローチャート
FIG. 7 is a flowchart showing a first processing procedure in a representative speech unit generation unit in FIG. 5;

【図8】図5の中の代表音声素片生成部での第2の処理
手順を示すフローチャート
FIG. 8 is a flowchart showing a second processing procedure in the representative speech unit generation unit in FIG. 5;

【図9】図5中の代表音声素片生成部での第3の処理手
順を示すフローチャート
FIG. 9 is a flowchart showing a third processing procedure in the representative speech unit generation unit in FIG. 5;

【図10】本発明の第3の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図
FIG. 10 is a block diagram showing a configuration of a synthesis unit learning system in a speech synthesis device according to a third embodiment of the present invention.

【図11】図10の合成単位学習系の処理手順を示すフ
ローチャート
11 is a flowchart showing a processing procedure of the synthesis unit learning system of FIG.

【図12】本発明の第3の実施形態に係る音声合成装置
における規則合成系の構成を示すブロック図
FIG. 12 is a block diagram showing a configuration of a rule synthesis system in a speech synthesizer according to a third embodiment of the present invention.

【図13】本発明の第4の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図
FIG. 13 is a block diagram illustrating a configuration of a synthesis unit learning system in a speech synthesis device according to a fourth embodiment of the present invention.

【図14】本発明の第4の実施形態に係る音声合成装置
における規則合成系の構成を示すブロック図
FIG. 14 is a block diagram showing a configuration of a rule synthesis system in a speech synthesis device according to a fourth embodiment of the present invention.

【図15】本発明の第5の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図
FIG. 15 is a block diagram showing a configuration of a synthesis unit learning system in a speech synthesis device according to a fifth embodiment of the present invention.

【図16】図15の合成単位学習系の第1の処理手順を
示すフローチャート
16 is a flowchart showing a first processing procedure of the synthesis unit learning system of FIG.

【図17】図15の合成単位学習系の第2の処理手順を
示すフローチャート
FIG. 17 is a flowchart showing a second processing procedure of the synthesis unit learning system of FIG. 15;

【図18】本発明の第6の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図
FIG. 18 is a block diagram showing a configuration of a synthesis unit learning system in a speech synthesizer according to a sixth embodiment of the present invention.

【図19】図18の合成単位学習系の処理手順を示すフ
ローチャート
FIG. 19 is a flowchart showing a processing procedure of the synthesis unit learning system of FIG. 18;

【図20】本発明の第7の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図
FIG. 20 is a block diagram showing a configuration of a synthesis unit learning system in a speech synthesizer according to a seventh embodiment of the present invention.

【図21】本発明の第8の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図
FIG. 21 is a block diagram showing a configuration of a synthesis unit learning system in a speech synthesis device according to an eighth embodiment of the present invention.

【図22】本発明の第9の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図
FIG. 22 is a block diagram showing a configuration of a synthesis unit learning system in a speech synthesis device according to a ninth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1…合成単位学習系 2…規則合成系 11…代表音声素片生成部 12…音素環境クラスタ記憶部 13…代表音声素片記憶部 14…素片選択部 15…音声合成部 16…適応ポストフィルタ 21…ホルマント強調フィルタ 22…ピッチ強調フィルタ 101…トレーニング音声素片(第1の音声素片) 102…トレーニング音声素片にラベル付けされた音素
環境 103…入力音声素片(第2の音声素片) 104…代表音声素片 105…音素環境クラスタ 106…音素環境クラスタ 107…代表音声素片選択情報 108…代表音声素片 111…韻律情報 112…音韻記号列 113…合成音声信号 114…合成音声信号 30…合成単位学習系 31…LPC分析・逆フィルタ 31a…LPC分析部 31b…逆フィルタ 32…音源信号記憶部 33…LPC係数記憶部 34…音源信号生成部 35…合成フィルタ 36…歪計算部 37…最小歪探索部 38…クラスタリング部 40…規則合成系 41…組み合わせ記憶部 42…音源信号記憶部 43…LPC係数記憶部 44…音源信号生成部 45…合成フィルタ 48…クラスタリング部 51…音素環境クラスタ生成部 52…クラスタ記憶部 61,62…バッファ 63,64…量子化テーブル作成部
DESCRIPTION OF SYMBOLS 1 ... Synthesis unit learning system 2 ... Rule synthesis system 11 ... Representative speech unit generation unit 12 ... Phoneme environment cluster storage unit 13 ... Representative speech unit storage unit 14 ... Unit selection unit 15 ... Speech synthesis unit 16 ... Adaptive post filter 21: Formant emphasis filter 22: Pitch emphasis filter 101: Training speech unit (first speech unit) 102: Phoneme environment labeled on the training speech unit 103: Input speech unit (second speech unit) 104 ... representative speech unit 105 ... phoneme environment cluster 106 ... phoneme environment cluster 107 ... representative speech unit selection information 108 ... representative speech unit 111 ... prosodic information 112 ... phoneme symbol string 113 ... synthesized speech signal 114 ... synthesized speech signal Reference Signs List 30 synthesis unit learning system 31 LPC analysis / inverse filter 31a LPC analysis unit 31b inverse filter 32 sound source signal storage 33 LPC coefficient storage unit 34 sound source signal generation unit 35 synthesis filter 36 distortion calculation unit 37 minimum distortion search unit 38 clustering unit 40 rule synthesis system 41 combination storage unit 42 sound source signal storage unit 43 LPC Coefficient storage unit 44 sound source signal generation unit 45 synthesis filter 48 clustering unit 51 phoneme environment cluster generation unit 52 cluster storage units 61 and 62 buffers 63 and 64 quantization table generation unit

フロントページの続き (56)参考文献 特開 昭64−78300(JP,A) 特開 平3−119394(JP,A) 特開 平5−73100(JP,A) 特開 平6−318094(JP,A) 特開 平8−263095(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 - 13/08 G10L 21/04 Continuation of the front page (56) References JP-A-64-78300 (JP, A) JP-A-3-119394 (JP, A) JP-A-5-73100 (JP, A) JP-A-6-318094 (JP) , A) JP-A-8-263095 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 13/00-13/08 G10L 21/04

Claims (14)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】複数の入力音声素片のそれぞれのピッチ及
び継続時間長の少なくとも一方を、前記入力音声素片と
同一もしくは異なる複数のトレーニング音声素片のいず
れかのピッチ及び継続時間長の少なくとも一方と等しく
なるように変更することにより複数の合成音声素片を生
成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて前記合成音声
素片のそれぞれの歪みを評価し、 前記入力音声素片から、前記歪みの情報を用いた歪み評
価関数に基づいて所定数個の音声素片の集合を代表音声
素片として選択して記憶し、 記憶された前記代表音声素片から入力音素に従って代表
音声素片を選択して接続することによって合成音声を生
成することを特徴とする音声合成方法。
An at least one of a pitch and a duration of each of a plurality of input speech units is set to at least one of a pitch and a duration of a plurality of training speech units that are the same as or different from the input speech unit. A plurality of synthesized speech units are generated by changing to be equal to one, and based on a distance measure between each of the synthesized speech units and each of the training speech units, Each of the distortions is evaluated, and a set of a predetermined number of speech units is selected from the input speech units based on a distortion evaluation function using the distortion information as a representative speech unit, and stored. A synthesized speech is generated by selecting and connecting a representative speech unit from the representative speech units according to an input phoneme.
【請求項2】複数の入力音声素片のそれぞれのピッチ及
び継続時間長の少なくとも一方を、音素環境がラベル付
けされた、前記入力音声素片と同一もしくは異なる複数
のトレーニング音声素片のいずれかのピッチ及び継続時
間長の少なくとも一方と等しくなるように変更すること
により複数の合成音声素片を生成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて前記合成音声
素片のそれぞれの歪みを評価し、 前記入力音声素片から、前記歪みの情報を用いた歪み評
価関数に基づいて所定数個の音声素片の集合を代表音声
素片として選択して記憶し、 前記音素環境及び前記歪みの情報を用いたクラスタリン
グ評価関数に基づいて複数の音素環境クラスタを生成し
て前記代表音声素片のそれぞれに対応させて記憶し、 前記代表音声素片から入力音素の音素環境が属する音素
環境クラスタに対応する代表音声素片を選択して接続す
ることによって合成音声を生成することを特徴とする音
声合成方法。
2. A method according to claim 1, wherein at least one of the pitch and duration of each of the plurality of input speech units is any one of a plurality of training speech units which are the same as or different from the input speech units, and are labeled with a phoneme environment. A plurality of synthesized speech units are generated by changing them to be equal to at least one of the pitch and the duration length of the pitch, and the distance scale between each of the synthesized speech units and each of the training speech units Based on the input speech unit, a set of a predetermined number of speech units is used as a representative speech unit based on a distortion evaluation function using the information on the distortion. Selecting and storing, generating a plurality of phoneme environment clusters based on the clustering evaluation function using the information of the phoneme environment and the distortion, and generating that of the representative speech unit A speech is generated by selecting and connecting a representative speech unit corresponding to a phoneme environment cluster to which a phoneme environment of an input phoneme belongs from the representative speech units, and connecting the selected speech units. Synthesis method.
【請求項3】複数の入力音声素片のそれぞれのピッチ及
び継続時間長の少なくとも一方を、音素環境がラベル付
けされた、前記入力音声素片と同一もしくは異なる複数
のトレーニング音声素片のいずれかのピッチ及び継続時
間長の少なくとも一方と等しくなるように変更すること
により複数の合成音声素片を生成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて前記合成音声
素片のそれぞれの歪みを評価し、 前記音素環境及び前記歪みの情報を用いたクラスタリン
グ評価関数に基づいて複数の音素環境クラスタを生成し
て記憶し、 前記入力音声素片から前記音素環境及び前記歪みの情報
を用いた歪み評価関数に基づいて所定数個の音声素片の
集合を代表音声素片として選択して前記音素環境クラス
タに対応させて記憶し、 前記代表音声素片から入力音素の音素環境が属する音素
環境クラスタに対応する代表音声素片を選択して接続す
ることによって合成音声を生成することを特徴とする音
声合成方法。
3. A training speech unit, wherein at least one of the pitch and duration of each of the plurality of input speech units is one of a plurality of training speech units which are the same as or different from the input speech units, and are labeled with a phoneme environment. A plurality of synthesized speech units are generated by changing them to be equal to at least one of the pitch and the duration length of the pitch, and the distance scale between each of the synthesized speech units and each of the training speech units Evaluating the distortion of each of the synthesized speech units based on the phoneme environment and a clustering evaluation function using the information of the distortion to generate and store a plurality of phoneme environment clusters, from the input speech unit A set of a predetermined number of speech units is selected as a representative speech unit based on the distortion evaluation function using the phoneme environment and the distortion information, and the phoneme is selected. A synthesized speech is generated by selecting and connecting a representative speech unit corresponding to a phoneme environment cluster to which a phoneme environment of an input phoneme belongs from the representative speech unit, and storing the synthesized speech. Speech synthesis method.
【請求項4】複数の入力音声素片のそれぞれのピッチ及
び継続時間長の少なくとも一方を、前記入力音声素片と
同一もしくは異なる複数のトレーニング音声素片のいず
れかのピッチ及び継続時間長の少なくとも一方と等しく
なるように変更することにより複数の合成音声素片を生
成し、 前記合成音声素片についてスペクトル整形を行い、 前記スペクトル整形を行った後の合成音声素片のそれぞ
れと前記トレーニング音声素片のそれぞれとの間の距離
尺度に基づいて前記合成音声素片のそれぞれの歪みを評
価し、 前記入力音声素片から、前記歪みの情報を用いた歪み評
価関数に基づいて所定数個の音声素片の集合を代表音声
素片として選択して記憶し、 記憶された前記代表音声素片から入力音素に従って代表
音声素片を選択して接続することによって合成音声を生
成し、 前記合成音声のスペクトル整形を行って最終的な合成音
声を生成することを特徴とする音声合成方法。
4. The method according to claim 1, wherein at least one of the pitch and the duration of each of the plurality of input speech units is at least one of the pitch and the duration of any of the plurality of training speech units identical to or different from the input speech unit. A plurality of synthesized speech units are generated by changing them to be equal to one, and the spectrum is shaped for the synthesized speech unit, and each of the synthesized speech units after the spectrum shaping is performed and the training speech unit. Evaluating the distortion of each of the synthesized speech units based on a distance measure between each of the segments, and a predetermined number of voices based on a distortion evaluation function using the information of the distortion from the input speech unit. Selecting and storing a set of segments as a representative speech unit, selecting and connecting a representative speech unit from the stored representative speech units according to an input phoneme; A synthesized speech is generated by performing a spectrum shaping on the synthesized speech to generate a final synthesized speech.
【請求項5】複数の入力音声素片のそれぞれのピッチ及
び継続時間長の少なくとも一方を、音素環境がラベル付
けされた、前記入力音声素片と同一もしくは異なる複数
のトレーニング音声素片のいずれかのピッチ及び継続時
間長の少なくとも一方と等しくなるように変更すること
により複数の合成音声素片を生成し、 前記合成音声素片についてスペクトル整形を行い、 前記スペクトル整形を行った後の合成音声素片のそれぞ
れと前記トレーニング音声素片のそれぞれとの間の距離
尺度に基づいて前記合成音声素片のそれぞれの歪みを評
価し、 前記入力音声素片から、前記歪みの情報を用いた歪み評
価関数に基づいて所定数個の音声素片の集合を代表音声
素片として選択して記憶し、 前記音素環境及び前記歪みの情報を用いたクラスタリン
グ評価関数に基づいて複数の音素環境クラスタを生成し
て前記代表音声素片のそれぞれに対応させて記憶し、 前記代表音声素片から入力音素の音素環境が属する音素
環境クラスタに対応する代表音声素片を選択して接続す
ることによって合成音声を生成し、 前記合成音声のスペクトル整形を行って最終的な合成音
声を生成することを特徴とする音声合成方法。
5. A method according to claim 1, wherein at least one of the pitch and the duration of each of the plurality of input speech units is any one of a plurality of training speech units that are the same as or different from the input speech units and are labeled with a phoneme environment. A plurality of synthesized speech units are generated by changing the synthesized speech units to be equal to at least one of the pitch and the duration of the synthesized speech unit, and the synthesized speech unit is subjected to spectrum shaping. Evaluating a distortion of each of the synthesized speech units based on a distance measure between each of the segments and each of the training speech units; and a distortion evaluation function using the information of the distortion from the input speech unit. A set of a predetermined number of speech units is selected and stored as a representative speech unit based on the above, and clustering using the information of the phoneme environment and the distortion is performed. A plurality of phoneme environment clusters are generated based on the evaluation function and stored in correspondence with each of the representative speech units. A representative phoneme corresponding to a phoneme environment cluster to which a phoneme environment of an input phoneme belongs from the representative speech unit A speech synthesis method comprising: generating a synthesized speech by selecting and connecting pieces; and performing spectrum shaping of the synthesized speech to generate a final synthesized speech.
【請求項6】複数の入力音声素片のそれぞれのピッチ及
び継続時間長の少なくとも一方を、音素環境がラベル付
けされた、前記入力音声素片と同一もしくは異なる複数
のトレーニング音声素片のいずれかのピッチ及び継続時
間長の少なくとも一方と等しくなるように変更すること
により複数の合成音声素片を生成し、 前記合成音声素片についてスペクトル整形を行い、 前記スペクトル整形を行った後の合成音声素片のそれぞ
れと前記トレーニング音声素片のそれぞれとの間の距離
尺度に基づいて前記合成音声素片のそれぞれの歪みを評
価し、 前記音素環境及び前記歪みの情報を用いたクラスタリン
グ評価関数に基づいて複数の音素環境クラスタを生成し
て記憶し、 前記入力音声素片から、前記音素環境及び前記歪みの情
報を用いた歪み評価関数に基づいて所定数個の音声素片
の集合を代表音声素片として選択して前記音素環境クラ
スタに対応させて記憶し、 前記代表音声素片から入力音素の音素環境が属する音素
環境クラスタに対応する代表音声素片を選択して接続す
ることによって合成音声を生成し、 前記合成音声のスペクトル整形を行って最終的な合成音
声を生成することを特徴とする音声合成方法。
6. A plurality of training speech units which are the same as or different from the input speech units and have at least one of a pitch and a duration length of each of the plurality of input speech units. A plurality of synthesized speech units are generated by changing the synthesized speech units to be equal to at least one of the pitch and the duration of the synthesized speech unit, and the synthesized speech unit is subjected to spectrum shaping. Evaluating the distortion of each of the synthesized speech units based on a distance measure between each of the segments and each of the training speech units, based on a clustering evaluation function using information of the phoneme environment and the distortion. Generate and store a plurality of phoneme environment clusters, and evaluate distortion from the input speech unit using information on the phoneme environment and the distortion Based on the function, a set of a predetermined number of speech units is selected as a representative speech unit and stored in correspondence with the phoneme environment cluster.From the representative speech unit to a phoneme environment cluster to which the phoneme environment of the input phoneme belongs. A speech synthesis method comprising: generating a synthesized speech by selecting and connecting corresponding representative speech units; and performing a spectrum shaping of the synthesized speech to generate a final synthesized speech.
【請求項7】前記代表音声素片として、音源信号と該音
源信号を入力として合成音声信号を生成する合成フィル
タの係数の組の情報を生成して記憶することを特徴とす
る請求項1〜6のいずれか1項に記載の音声合成方法。
7. The information processing apparatus according to claim 1, wherein information representing a set of a sound source signal and a set of coefficients of a synthesis filter for generating a synthesized speech signal by using the sound source signal as an input is generated and stored as the representative speech unit. 7. The speech synthesis method according to any one of 6.
【請求項8】前記音源信号と前記合成フィルタの係数を
量子化し、これら量子化した音源信号と合成フィルタの
係数の組の情報を前記代表音声素片として生成して記憶
することを特徴とする請求項7に記載の音声合成方法。
8. The apparatus according to claim 1, wherein said sound source signal and coefficients of said synthesis filter are quantized, and information of a set of said quantized sound source signal and coefficients of said synthesis filter is generated and stored as said representative speech unit. The speech synthesis method according to claim 7.
【請求項9】前記代表音声素片として、音源信号と該音
源信号を入力として合成音声信号を生成する合成フィル
タの係数の組の情報を選択して記憶し、 かつ該代表音声素片の情報として記憶する音源信号及び
合成フィルタの係数のうちの少なくとも一方の数が音声
合成単位の総数より少ないことを特徴とする請求項1〜
6のいずれか1項に記載の音声合成方法。
9. Selective information of a set of a sound source signal and a set of coefficients of a synthesis filter for generating a synthesized speech signal using the sound source signal as an input is selected and stored as the representative speech unit; The number of at least one of the sound source signal and the coefficient of the synthesis filter stored as is less than the total number of speech synthesis units.
7. The speech synthesis method according to any one of 6.
【請求項10】前記代表音声素片として、音源信号と該
音源信号を入力として合成音声信号を生成する合成フィ
ルタの係数の組の情報を選択して記憶し、 かつ該代表音声素片の情報として記憶する音源信号及び
合成フィルタの係数のうちの少なくとも一方の数が前記
音素環境クラスタの総数より少ないことを特徴とする請
求項2、3、5、6のいずれか1項に記載の音声合成方
法。
10. As the representative speech unit, information of a set of a sound source signal and a coefficient set of a synthesis filter for generating a synthesized speech signal by inputting the sound source signal is selected and stored, and information of the representative speech unit is selected. The speech synthesis according to any one of claims 2, 3, 5, and 6, wherein the number of at least one of the sound source signal and the coefficient of the synthesis filter stored as is less than the total number of the phoneme environment clusters. Method.
【請求項11】複数の代表音声素片を生成する代表音声
素片生成部と、 前記代表音声素片を記憶する代表音声素片記憶部と、 記憶された代表音声素片から入力音素に対応する代表音
声素片を選択する素片選択部と、 選択された代表音声素片を接続することによって合成音
声を生成する音声合成部とを備え、 前記代表音声素片生成部は、 複数の入力音声素片のそれぞれのピッチ及び継続時間長
の少なくとも一方を、前記入力音声素片と同一もしくは
異なる複数のトレーニング音声素片のいずれかのピッチ
及び継続時間長の少なくとも一方と等しくなるように変
更することにより複数の合成音声素片を生成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて前記合成音声
素片のそれぞれの歪みを評価し、 前記入力音声素片から、前記歪みの情報を用いた評価関
数に基づいて所定数個の音声素片の集合を前記代表音声
素片として選択することを特徴とする音声合成装置。
11. A representative speech unit generation unit for generating a plurality of representative speech units, a representative speech unit storage unit for storing said representative speech units, and corresponding to an input phoneme from the stored representative speech units. A unit for selecting a representative speech unit to be connected, and a speech synthesis unit for generating a synthesized speech by connecting the selected representative speech units. At least one of the pitch and duration of each speech unit is changed to be equal to at least one of the pitch and duration of any of a plurality of training speech units that are the same as or different from the input speech unit. Thereby generating a plurality of synthesized speech units, and distorting each of the synthesized speech units based on a distance measure between each of the synthesized speech units and each of the training speech units. Evaluates, from the input speech segment, speech synthesis apparatus and selects a set of predetermined number of speech units as the representative speech units based on the evaluation function using the information of the strain.
【請求項12】複数の代表音声素片を生成すると共に複
数の音素環境クラスタを生成する代表音声素片生成部
と、 前記代表音声素片を記憶する代表音声素片記憶部と、 前記音素環境クラスタを記憶する音素環境クラスタ記憶
部と、 前記代表音声素片から、前記音素環境クラスタのうち入
力音素の音素環境が属する音素環境クラスタに対応する
代表音声素片を選択する素片選択部と、 選択された代表音声素片を接続することによって合成音
声を生成する音声合成部とを備え、 前記代表音声素片生成部は、 複数の入力音声素片のそれぞれのピッチ及び継続時間長
の少なくとも一方を、音素環境がラベル付けされた、前
記入力音声素片と同一もしくは異なる複数のトレーニン
グ音声素片のいずれかのピッチ及び継続時間長の少なく
とも一方と等しくなるように変更することにより複数の
合成音声素片を生成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて前記合成音声
素片のそれぞれの歪みを評価し、 前記入力音声素片から、前記歪みの情報を用いた歪み評
価関数に基づいて所定数個の音声素片の集合を前記代表
音声素片として選択し、 前記音素環境及び歪みの情報を用いたクラスリング評価
関数に基づいて前記音素環境クラスタを生成することを
特徴とする音声合成装置。
12. A representative speech unit generation unit that generates a plurality of representative speech units and generates a plurality of phoneme environment clusters; a representative speech unit storage unit that stores the representative speech units; A phoneme environment cluster storage unit that stores a cluster; and a unit selection unit that selects a representative speech unit corresponding to a phoneme environment cluster to which a phoneme environment of an input phoneme belongs from the phoneme environment clusters from the representative speech unit. A voice synthesis unit that generates a synthesized voice by connecting the selected representative voice units, wherein the representative voice unit generation unit includes at least one of a pitch and a duration time of each of the plurality of input voice units. Is equal to at least one of the pitch and the duration of any of a plurality of training speech units that are the same as or different from the input speech unit and whose phoneme environment is labeled. A plurality of synthesized speech units are generated by changing so that each of the synthesized speech units is based on a distance scale between each of the synthesized speech units and each of the training speech units. Evaluating the distortion, from the input speech unit, selecting a set of a predetermined number of speech units as the representative speech unit based on a distortion evaluation function using the information of the distortion, A speech synthesizer for generating the phoneme environment cluster based on a classing evaluation function using information.
【請求項13】複数の代表音声素片を生成すると共に複
数の音素環境クラスタを生成する代表音声素片生成部
と、 前記代表音声素片を記憶する代表音声素片記憶部と、 前記音素環境クラスタを記憶する音素環境クラスタ記憶
部と、 記憶された代表音声素片から、記憶された音素環境クラ
スタのうち入力音素の音素環境が属する音素環境クラス
タに対応する代表音声素片を選択する素片選択部と、 選択された代表音声素片を接続することによって合成音
声を生成する音声合成部とを備え、 前記代表音声素片生成部は、 複数の入力音声素片のそれぞれのピッチ及び継続時間長
の少なくとも一方を、音素環境がラベル付けされた、前
記入力音声素片と同一もしくは異なる複数のトレーニン
グ音声素片のいずれかのピッチ及び継続時間長の少なく
とも一方と等しくなるように変更することにより複数の
合成音声素片を生成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて前記合成音声
素片のそれぞれの歪みを評価し、 前記音素環境及び前記歪みの情報を用いたクラスタリン
グ評価関数に基づいて前記複数の音素環境クラスタを生
成し、 前記入力音声素片から、前記音素環境及び前記歪みの情
報を用いた歪み評価関数に基づいて所定数個の音声素片
の集合を前記代表音声素片として選択することを特徴と
する音声合成装置。
13. A representative speech unit generating unit for generating a plurality of representative speech units and a plurality of phoneme environment clusters; a representative speech unit storage unit for storing the representative speech units; A phoneme environment cluster storage unit for storing a cluster, and a unit for selecting a representative speech unit corresponding to a phoneme environment cluster to which the phoneme environment of the input phoneme belongs from the stored phoneme environment clusters, from the stored representative speech units. A selecting unit, and a voice synthesizing unit that generates a synthesized voice by connecting the selected representative voice units, wherein the representative voice unit generating unit includes a pitch and a duration time of each of the plurality of input voice units. At least one of the lengths is reduced in pitch and duration of any of a plurality of training speech units that are the same as or different from the input speech unit, and are labeled with a phoneme environment. Also, a plurality of synthesized speech units are generated by changing them to be equal to one, and the synthesized speech units are generated based on a distance measure between each of the synthesized speech units and each of the training speech units. Evaluating the respective distortions, generating the plurality of phoneme environment clusters based on the clustering evaluation function using the information on the phoneme environment and the distortion, and generating information on the phoneme environment and the distortion from the input speech unit. A speech synthesizer, wherein a set of a predetermined number of speech units is selected as the representative speech unit based on a distortion evaluation function using the above.
【請求項14】前記合成音声のスペクトル整形を行って
最終的な合成音声を生成するポストフィルタをさらに備
え、 前記代表音声素片生成部は、前記合成音声素片について
スペクトル整形を行い、該スペクトル整形を行った後の
合成音声素片のそれぞれと前記トレーニング音声素片の
それぞれとの間の距離尺度に基づいて前記合成音声素片
のそれぞれの歪みを評価することを特徴とする請求項1
1乃至13のいずれか1項に記載の音声合成装置。
14. A post-filter for shaping the spectrum of the synthesized speech to generate a final synthesized speech, wherein the representative speech unit generation unit performs spectrum shaping on the synthesized speech unit, and The distortion of each of the synthesized speech units is evaluated based on a distance measure between each of the synthesized speech units after the shaping and each of the training speech units.
The speech synthesizer according to any one of claims 1 to 13.
JP25015096A 1995-12-04 1996-09-20 Speech synthesis method and apparatus Expired - Lifetime JP3281266B2 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP25015096A JP3281266B2 (en) 1996-03-12 1996-09-20 Speech synthesis method and apparatus
US08/758,772 US6240384B1 (en) 1995-12-04 1996-12-03 Speech synthesis method
US09/722,047 US6332121B1 (en) 1995-12-04 2000-11-27 Speech synthesis method
US09/984,254 US6553343B1 (en) 1995-12-04 2001-10-29 Speech synthesis method
US10/265,458 US6760703B2 (en) 1995-12-04 2002-10-07 Speech synthesis method
US10/792,888 US7184958B2 (en) 1995-12-04 2004-03-05 Speech synthesis method

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP5471496 1996-03-12
JP7739396 1996-03-29
JP8-77393 1996-03-29
JP8-54714 1996-03-29
JP25015096A JP3281266B2 (en) 1996-03-12 1996-09-20 Speech synthesis method and apparatus

Publications (2)

Publication Number Publication Date
JPH09319391A JPH09319391A (en) 1997-12-12
JP3281266B2 true JP3281266B2 (en) 2002-05-13

Family

ID=27295388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25015096A Expired - Lifetime JP3281266B2 (en) 1995-12-04 1996-09-20 Speech synthesis method and apparatus

Country Status (1)

Country Link
JP (1) JP3281266B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109489A (en) 1999-08-03 2001-04-20 Canon Inc Voice information processing method, voice information processor and storage medium
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
JP3706112B2 (en) * 2003-03-12 2005-10-12 独立行政法人科学技術振興機構 Speech synthesizer and computer program
DE04735990T1 (en) 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji LANGUAGE SYNTHESIS DEVICE, LANGUAGE SYNTHESIS PROCEDURE AND PROGRAM
JP4762553B2 (en) * 2005-01-05 2011-08-31 三菱電機株式会社 Text-to-speech synthesis method and apparatus, text-to-speech synthesis program, and computer-readable recording medium recording the program
JP4929896B2 (en) * 2006-07-25 2012-05-09 カシオ計算機株式会社 Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program
JP5747471B2 (en) * 2010-10-20 2015-07-15 三菱電機株式会社 Speech synthesis system, speech segment dictionary creation method, speech segment dictionary creation program, and speech segment dictionary creation program recording medium
CN117571184B (en) * 2024-01-17 2024-03-19 四川省公路规划勘察设计研究院有限公司 Bridge structure cable force identification method and equipment based on sliding window and cluster analysis

Also Published As

Publication number Publication date
JPH09319391A (en) 1997-12-12

Similar Documents

Publication Publication Date Title
US6240384B1 (en) Speech synthesis method
US6144939A (en) Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
KR940002854B1 (en) Sound synthesizing system
US7035791B2 (en) Feature-domain concatenative speech synthesis
US4912768A (en) Speech encoding process combining written and spoken message codes
JP4551803B2 (en) Speech synthesizer and program thereof
US5740320A (en) Text-to-speech synthesis by concatenation using or modifying clustered phoneme waveforms on basis of cluster parameter centroids
JP3667950B2 (en) Pitch pattern generation method
US20050182629A1 (en) Corpus-based speech synthesis based on segment recombination
JPH031200A (en) Regulation type voice synthesizing device
Song et al. ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems
JPH08110789A (en) Voice synthesis method by link and partial overlap of waveforms
JPH1091183A (en) Method and device for run time acoustic unit selection for language synthesis
JP2002244689A (en) Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice
JP3281266B2 (en) Speech synthesis method and apparatus
Lee et al. A segmental speech coder based on a concatenative TTS
JP3281281B2 (en) Speech synthesis method and apparatus
JP2583074B2 (en) Voice synthesis method
Wen et al. Pitch-scaled spectrum based excitation model for HMM-based speech synthesis
EP1589524B1 (en) Method and device for speech synthesis
JPH1195796A (en) Voice synthesizing method
JPH11249676A (en) Voice synthesizer
JP3081300B2 (en) Residual driven speech synthesizer
JPH09179576A (en) Voice synthesizing method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090222

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100222

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100222

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120222

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120222

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130222

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140222

Year of fee payment: 12

EXPY Cancellation because of completion of term