JPH09319394A - Voice synthesis method - Google Patents
Voice synthesis methodInfo
- Publication number
- JPH09319394A JPH09319394A JP9046694A JP4669497A JPH09319394A JP H09319394 A JPH09319394 A JP H09319394A JP 9046694 A JP9046694 A JP 9046694A JP 4669497 A JP4669497 A JP 4669497A JP H09319394 A JPH09319394 A JP H09319394A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- representative
- unit
- phoneme
- units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、テキスト音声合成
のための音声合成方法に係り、特に音韻記号列、ピッチ
および音韻継続時間長などの情報から音声信号を生成す
る音声合成方法に関する。The present invention relates to a speech synthesis method for text speech synthesis, and more particularly to a speech synthesis method for generating a speech signal from information such as a phoneme symbol string, a pitch, and a phoneme duration.
【0002】[0002]
【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。テキスト音声合成
は、一般的に言語処理部、音韻処理部および音声合成部
の3つの段階によって行われる。入力されたテキスト
は、まず言語処理部において形態素解析や構文解析など
が行われ、次に音韻処理部においてアクセントやイント
ネーシヨンの処理が行われて、音韻記号列・ピッチ・音
韻継続時間長などの情報が出力される。最後に、音声信
号合成部で音韻記号列・ピッチ・音韻継続時間長などの
情報から音声信号を合成する。そこで、テキスト音声合
成に用いる音声合成方法は、任意の音韻記号列を任意の
韻律で音声合成することが可能な方法でなければならな
い。2. Description of the Related Art Artificially producing a voice signal from an arbitrary sentence is called text-to-speech synthesis. Text-to-speech synthesis is generally performed by three stages of a language processing unit, a phoneme processing unit, and a speech synthesis unit. The input text is first subjected to morphological analysis and syntactic analysis in the language processing unit, and then subjected to accent and intonation processing in the phoneme processing unit, such as phoneme symbol string, pitch, phoneme duration, etc. Information is output. Finally, the voice signal synthesizer synthesizes a voice signal from information such as a phoneme symbol string, pitch, and phoneme duration. Therefore, the speech synthesis method used for text-to-speech synthesis must be a method capable of speech synthesis of an arbitrary phoneme symbol string with an arbitrary prosody.
【0003】このような任意の音韻記号列を音声合成す
る音声合成装置の原理は、母音をV、子音をCで表す
と、CV、CVC、VCVといった基本となる小さな単
位の特徴パラメータ(これを代表音声素片という)を記
憶し、これらを選択的に読み出した後、ピッチや継続時
間長を制御して接続することにより、音声を合成すると
いうものである。従って、記憶されている代表音声素片
が合成音声の品質を大きく左右することになる。The principle of a speech synthesizer for synthesizing an arbitrary phonological symbol string is such that when a vowel is represented by V and a consonant is represented by C, characteristic parameters in small basic units such as CV, CVC, and VCV A representative voice unit is stored), these are selectively read out, and then the voice is synthesized by connecting by controlling the pitch and duration. Therefore, the stored representative speech unit greatly affects the quality of the synthesized speech.
【0004】従来、これらの代表音声素片の作成はもっ
ぱら人手に頼っており、音声信号の中から試行錯誤的に
切り出してくる場合がほとんどであるため、膨大な労力
を要していた。このような代表音声素片作成の作業を自
動化し、音声合成に使用するのに適した代表音声素片を
容易に生成する方法として、例えば音素環境クラスタリ
ング(COC)と呼ばれる技術が特開昭64−7830
0「音声合成方法」に開示されている。Conventionally, the production of these representative speech units relies solely on human hands, and in most cases, they are cut out from the speech signal by trial and error, which requires enormous labor. As a method for automating the work of creating such a representative speech unit and easily generating a representative speech unit suitable for use in speech synthesis, for example, there is a technique called phoneme environment clustering (COC). -7830
0 "Voice Synthesis Method".
【0005】COCの原理は、音素名や音素環境のラベ
ルを多数の音声素片に付与し、そのラベルが付与された
音声素片を音声素片間の距離尺度に基づいて音素環境に
関する複数のクラスタに分類し、その各クラスタのセン
トロイドを代表音声素片とするものである。ここで、音
素環境とは当該音声素片にとっての環境となる要因全て
の組合せであり、その要因としては当該音声素片の音素
名、先行音素、後続音素、後々続音素、ピッチ周期、パ
ワー、ストレスの有無、アクセント核からの位置、息継
ぎからの時間、発声速度、感情などが考えられる。実音
声中の各音素は音素環境によって音韻が変化しているた
め、音素環境に関する複数のクラスタ毎に代表素片を記
憶しておくことにより、音素環境の影響を考慮した自然
な音声を合成することが可能となっている。The principle of COC is to assign a label of a phoneme name or a phoneme environment to a large number of phonemes, and to attach the labeled phonemes to a plurality of phoneme environments based on a distance scale between the phonemes. The clusters are classified into clusters, and the centroid of each cluster is used as a representative speech unit. Here, the phoneme environment is a combination of all the factors that become the environment for the speech unit, and the factors include the phoneme name of the speech unit, the preceding phoneme, the subsequent phoneme, the subsequent phoneme after, the pitch period, and the power, The presence or absence of stress, the position from the accent nucleus, the time after breathing, the vocalization speed, emotions, etc. can be considered. Since each phoneme in the actual speech has a different phoneme depending on the phoneme environment, by storing representative phonemes for each of a plurality of clusters related to the phoneme environment, natural speech considering the influence of the phoneme environment is synthesized. It is possible.
【0006】[0006]
【発明が解決しようとする課題】上に述べたように、テ
キスト音声合成のための音声合成では、代表音声素片の
ピッチや継続時間長を指定された値に変更して合成する
必要がある。このようなピッチや継続時間長の変更によ
り、代表音声素片を切り出してきた音声信号の音質と比
較して合成音声の音質がある程度劣化することになる。As described above, in speech synthesis for text-to-speech synthesis, it is necessary to change the pitch and duration of representative speech units to designated values for synthesis. . Due to such changes in pitch and duration, the sound quality of the synthesized voice is deteriorated to some extent as compared with the sound quality of the voice signal obtained by cutting out the representative voice unit.
【0007】これに対して、上記のCOCによるクラス
タリングでは、音声素片間の距離尺度に基づいてクラス
タリングを行っているにすぎないため、合成の際のピッ
チや継続時間の変更の効果が全く考慮されていないとい
う問題がある。すなわち、COCによるクラスタリング
および各クラスタの代表音声素片は、実際にピッチや継
続時間長を変更して合成された合成音声のレベルでは、
必ずしも適当なものになっているという保証はない。On the other hand, in the above-mentioned COC clustering, the clustering is performed only on the basis of the distance measure between speech units, so that the effect of changing the pitch and duration during synthesis is taken into consideration. There is a problem that is not done. In other words, the clustering by COC and the representative speech unit of each cluster are the levels of the synthesized speech synthesized by actually changing the pitch and duration.
There is no guarantee that it will be suitable.
【0008】本発明は、このような問題点を解決すべく
なされたものであり、テキスト音声合成による合成音声
の音質を効果的に向上させることができる音声合成方法
を提供することを目的とする。The present invention has been made to solve the above problems, and an object of the present invention is to provide a voice synthesizing method capable of effectively improving the sound quality of synthesized voice by text voice synthesis. .
【0009】[0009]
【課題を解決するための手段】上記の課題を解決するた
め、本発明はピッチや継続時間長の変更の影響を考慮し
て、合成音声のレベルで自然音声に対する歪みが小さく
なるような代表音声素片を生成し、その代表音声素片を
用いて音声を合成することにより、自然音声に近い合成
音声を生成するようにしたものである。SUMMARY OF THE INVENTION In order to solve the above problems, the present invention considers the influence of changes in pitch and duration, and represents a representative voice in which the distortion of natural voice becomes small at the level of synthesized voice. By generating a voice segment and synthesizing a voice using the representative voice voice unit, a synthetic voice close to a natural voice is generated.
【0010】すなわち、本発明に係る音声合成方法は、
複数の第1の音声素片のピッチおよび継続時間長の少な
くとも一方に従って複数の第2の音声素片のピッチおよ
び継続時間長の少なくとも一方を変更することにより複
数の合成音声素片を生成し、これらの合成音声素片と第
1の音声素片との間の距離尺度に基づいて第2の音声素
片から複数の代表音声素片を選択して記憶し、これらの
代表音声素片から所定の代表音声素片を選択して接続す
ることによって音声を合成することを特徴とする。That is, the speech synthesis method according to the present invention is
Generating a plurality of synthetic speech units by changing at least one of the pitch and the duration of the plurality of second speech units according to at least one of the pitch and the duration of the plurality of first speech units, A plurality of representative speech units are selected and stored from the second speech units based on the distance measure between these synthetic speech units and the first speech unit, and a predetermined speech unit is selected from these representative speech units. It is characterized by synthesizing a voice by selecting and connecting the representative voice unit of.
【0011】ここで、第1および第2の音声素片は、C
V,VCV,CVCといった音声合成単位で音声信号中
から切り出される素片であり、切り出された波形もしく
はその波形から何らかの方法で抽出されたパラメータ系
列などを表すものとする。これらのうち、第1の音声素
片は合成音声の歪みを評価するために用いられ、また第
2の音声素片は代表音声素片の候補として用いられる。
合成音声素片は、第2の音声素片に対して少なくともピ
ッチまたは継続時間長を変更して生成される合成音声波
形またはパラメータ系列などを表す。Here, the first and second speech units are C
It is a segment cut out from a voice signal in a voice synthesis unit such as V, VCV, CVC, and represents a cut out waveform or a parameter series extracted from the waveform by some method. Of these, the first speech unit is used to evaluate the distortion of the synthesized speech, and the second speech unit is used as a candidate for the representative speech unit.
The synthetic speech unit represents a synthetic speech waveform or a parameter sequence generated by changing at least the pitch or the duration of the second speech unit.
【0012】合成音声素片と第1の音声素片との間の距
離尺度によって、合成音声の歪みが表わされる。従っ
て、この距離尺度つまり歪みがより小さくなる音声素片
を第2の音声素片から選択して代表音声素片として記憶
しておき、これらの代表音声素片から所定の代表音声素
片を選択して接続すれば、自然音声に近い高品質の合成
音声が生成される。The distance measure between the synthetic speech segment and the first speech segment represents the distortion of the synthetic speech. Therefore, a speech unit having a smaller distance scale, that is, a distortion, is selected from the second speech units and stored as a representative speech unit, and a predetermined representative speech unit is selected from these representative speech units. When connected, a high-quality synthetic voice close to natural voice is generated.
【0013】本発明の第1の態様では、音素環境がラベ
ル付けされた複数の第1の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第2の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第1の音声素片との間の距離尺度に基づいて第2の音声
素片から複数の代表音声素片を選択して記憶し、前記距
離尺度に基づいて代表音声素片にそれぞれ対応する複数
の音素環境クラスタを生成し、複数の代表音声素片から
入力音素の音素環境を含む音素環境クラスタに対応する
代表音声素片を選択して接続することによって音声を合
成する。In a first aspect of the present invention, the pitch and duration of a plurality of second phonemes according to at least one of the pitch and duration of a plurality of first phonemes labeled with phoneme environments. At least one of the lengths is changed to generate a plurality of synthetic speech units, and a plurality of representatives from the second speech unit based on a distance measure between these synthetic speech units and the first speech unit. A phoneme environment cluster including a phoneme environment of input phonemes selected from a plurality of phoneme environments corresponding to the representative phoneme units based on the distance measure. The representative speech unit corresponding to is selected and connected to synthesize the speech.
【0014】ここで、音素環境とは前述した通り音声素
片にとっての環境となる要因、例えば当該音声素片の音
素名、先行音素、後続音素、後々続音素、ピッチ周期、
パワー、ストレスの有無、アクセント核からの位置、息
継ぎからの時間、発声速度、感情といった要素の組み合
わせであり、音素環境クラスタとは言い換えれば音素環
境の集合であり、例えば「当該素片の音韻が/ka/、
先行音韻が/i/または/u/、ピッチ周波数が200
Ηz以下」というようなものを意味する。Here, the phoneme environment is a factor that becomes an environment for a phoneme as described above, for example, the phoneme name of the phoneme, the preceding phoneme, the subsequent phoneme, the subsequent phoneme, the pitch period,
It is a combination of elements such as power, presence / absence of stress, position from accent nucleus, time after breathing, vocalization speed, and emotion.In other words, a phoneme environment cluster is a set of phoneme environments, for example, "the phoneme of the phoneme is / Ka /,
The preceding phoneme is / i / or / u /, the pitch frequency is 200
“Z” or less ”is meant.
【0015】第1の態様のように、距離尺度つまり合成
音声の歪みに基づいて代表音声素片にそれぞれ対応する
複数の音素環境クラスタを生成し、入力音素の音素環境
を含む音素環境クラスタに対応する代表音声素片を選択
して接続するようにすれば、例えば同一音素名の音声素
片が複数の音素環境に存在する場合でも、実際の入力音
素の音素環境が含まれる音素環境クラスタに対応する代
表音声素片のみが選択されることにより、より自然な合
成音声が得られる。As in the first aspect, a plurality of phoneme environment clusters respectively corresponding to the representative phonemes are generated based on the distance measure, that is, the distortion of the synthesized speech, and the phoneme environment cluster including the phoneme environment of the input phoneme is supported. By selecting and connecting the representative phonemes, the phoneme environment cluster that includes the phoneme environment of the actual input phoneme can be supported even if, for example, phonemes with the same phoneme name exist in multiple phoneme environments. A more natural synthesized speech can be obtained by selecting only the representative speech unit to be selected.
【0016】本発明の第2の態様では、音素環境がラベ
ル付けされた複数の第1の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第2の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第1の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、前記距離尺度に基づいて第2の
音声素片から各音素環境クラスタにそれぞれ対応する複
数の代表音声素片を選択して記憶し、これらの代表音声
素片から所定の代表音声素片を選択して接続することに
よって音声を合成する。この第2の態様は、音声素片が
一つの音素環境にのみ存在する場合に有効である。In a second aspect of the present invention, the pitch and duration of a plurality of second phonemes according to at least one of the pitch and duration of the plurality of first phonemes labeled with the phoneme environment. At least one of the lengths is changed to generate a plurality of synthesized speech units, and a plurality of phoneme environment clusters are generated based on a distance measure between the synthesized speech units and the first speech unit, Based on the distance measure, a plurality of representative speech units corresponding to the respective phoneme environment clusters are selected from the second speech unit and stored, and a predetermined representative speech unit is selected from these representative speech units. Synthesize voice by connecting. The second mode is effective when the speech unit exists in only one phoneme environment.
【0017】本発明の第3の態様では、音素環境がラベ
ル付けされた複数の第1の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第2の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第1の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、第1の音声素片と合成音声素片
との間の距離尺度に基づいて第2の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、これらの代表音声素片から入力音素の
音素環境を含む音素環境クラスタに対応する代表音声素
片を選択して接続することによって音声を合成する。In a third aspect of the present invention, the pitch and duration of a plurality of second phonemes according to at least one of the pitch and duration of a plurality of first phonemes labeled with phoneme environments. At least one of the lengths is changed to generate a plurality of synthesized speech units, and a plurality of phoneme environment clusters are generated based on a distance measure between the synthesized speech units and the first speech unit. Based on the distance measure between one speech unit and the synthesized speech unit, a plurality of representative speech units respectively corresponding to each phoneme environment cluster are selected and stored from the second speech unit, and these representative units are stored. A speech is synthesized by selecting and connecting a representative speech unit corresponding to a phoneme environment cluster including a phoneme environment of an input phoneme from the speech units.
【0018】この第3の態様によっても、第1の態様と
同様に、例えば同一音素名の音声素片が複数の音素環境
に存在する場合、実際の入力音素の音素環境が含まれる
音素環境クラスタに対応する代表音声素片のみが選択さ
れることにより、より自然な合成音声が得られる。According to the third aspect as well, similarly to the first aspect, for example, when a phoneme unit having the same phoneme name exists in a plurality of phoneme environments, a phoneme environment cluster including the actual phoneme environment of the input phoneme. By selecting only the representative speech unit corresponding to, a more natural synthesized speech can be obtained.
【0019】また、本発明に係る他の音声合成方法は、
複数の第1の音声素片のピッチおよび継続時間長の少な
くとも一方に従って複数の第2の音声素片のピッチおよ
び継続時間長の少なくとも一方を変更することにより複
数の合成音声素片を生成し、さらにこれらの合成音声素
片についてスペクトル整形を行い、このスペクトル整形
を行った後の各合成音声素片と第1の音声素片との間の
距離尺度に基づいて第2の音声素片から複数の代表音声
素片を選択して記憶し、これらの代表音声素片から所定
の代表音声素片を選択して接続することによって音声を
合成し、この合成した音声のスペクトル整形を行って最
終的な合成音声を生成することを特徴とする。Another speech synthesis method according to the present invention is
Generating a plurality of synthetic speech units by changing at least one of the pitch and the duration of the plurality of second speech units according to at least one of the pitch and the duration of the plurality of first speech units, Further, spectrum shaping is performed on these synthesized speech units, and a plurality of speech units are selected from the second speech units based on the distance scale between each synthesized speech unit and the first speech unit after the spectrum shaping. The representative speech unit is selected and stored, and a predetermined representative speech unit is selected from these representative speech units to connect to synthesize the speech, and the synthesized speech is spectrally shaped to finally It is characterized by generating various synthetic speech.
【0020】この場合、先に示した第1、第2および第
3の態様においても、複数の合成音声素片を生成した
後、スペクトル整形を行うようにする。ここで、スペク
トル整形は「めりはり」のある明瞭な音声を合成するた
めの処理であり、例えばホルマント強調やピッチ強調を
行う適応ポストフィルタによるフィルタリングによって
実現される。In this case, also in the above-described first, second and third modes, spectrum shaping is performed after a plurality of synthesized speech units are generated. Here, the spectrum shaping is a process for synthesizing a clear voice having a “grinding”, and is realized by, for example, filtering by an adaptive post filter that performs formant enhancement or pitch enhancement.
【0021】このように代表音声素片の接続によって合
成される音声に対してスペクトル整形を行うと共に、合
成音声素片に対しても同様のスペクトル整形を行うこと
によって、スペクトル整形後の最終的な合成音声のレベ
ルで、自然音声に対する歪が小さくなるような代表音声
素片を生成できるため、「めりはり」に優れたより明瞭
な合成音声が得られる。In this way, spectrum shaping is performed on the speech synthesized by the connection of the representative speech units, and similar spectrum shaping is also performed on the synthesized speech units, so that the final spectrum-shaping is performed. Since a representative speech unit that produces less distortion with respect to natural speech can be generated at the level of synthetic speech, clearer synthetic speech with excellent “melihari” can be obtained.
【0022】本発明に係るさらに別の音声符号化方法
は、複数の第1の音声素片のピッチおよび継続時間長の
少なくとも一方に従って代表音声素片を用いて複数の合
成音声素片を生成し、これらの合成音声素片と複数の第
1の音声素片との間で定義される歪みの評価関数に基づ
いて複数の代表音声素片を求めて記憶し、これらの代表
音声素片から所定の代表音声素片を選択して接続するこ
とによって音声を合成することを特徴とする。Still another speech coding method according to the present invention generates a plurality of synthesized speech segments using a representative speech segment according to at least one of a pitch and a duration of a plurality of first speech segments. , A plurality of representative speech units are obtained and stored based on an evaluation function of distortion defined between these synthesized speech units and a plurality of first speech units, and predetermined representative speech units are stored from these representative speech units. It is characterized by synthesizing a voice by selecting and connecting the representative voice unit of.
【0023】このように第2に音声素片から代表音声素
片を選択するのでなく、第2の音声素片を用いずに第1
の音声素片に対して最適な代表音声素片を生成すること
も可能である。このようにして生成された代表音声素片
から、先と同様に所定の代表音声素片を選択して接続す
ることにより、自然音声に近い高品質の合成音声が生成
される。As described above, instead of secondly selecting the representative speech unit from the speech units, the first speech unit is used without using the second speech unit.
It is also possible to generate the optimum representative speech unit for the speech unit of. By selecting and connecting a predetermined representative speech unit from the representative speech units thus generated in the same manner as above, high-quality synthesized speech close to natural speech is generated.
【0024】[0024]
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。図1は、本発明の一実施形態に係
る音声合成方法を実現する音声合成装置の構成を示すブ
ロック図であり、大きく分けて合成単位学習系1と規則
合成系2からなる。実際にテキスト音声合成を行う場合
に動作するのは規則合成系2であり、合成単位学習系1
は事前に学習を行って代表音声素片を生成するものであ
る。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the configuration of a speech synthesizing device for realizing a speech synthesizing method according to an embodiment of the present invention. When actually performing text-to-speech synthesis, the rule synthesis system 2 operates, and the synthesis unit learning system 1
Is to generate a representative speech unit by performing learning in advance.
【0025】まず、合成単位学習系1について説明す
る。合成単位学習系1は、代表音声素片とこれに付随す
る音素環境クラスタを生成する代表音声素片生成部11
と代表音声素片記憶部12および音素環境クラスタ記憶
部13により構成される。代表音声素片生成部11に
は、第1の音声素片であるトレーニング音声素片101
とこれにラベル付けされた音素環境102および第2の
音声素片である入力音声素片103が入力される。First, the synthesis unit learning system 1 will be described. The synthesis unit learning system 1 includes a representative speech unit generator 11 that generates a representative speech unit and a phoneme environment cluster associated with the representative speech unit.
And a representative phoneme storage unit 12 and a phoneme environment cluster storage unit 13. The representative speech unit generator 11 includes a training speech unit 101, which is the first speech unit.
And the phoneme environment 102 and the input speech unit 103, which is the second speech unit, are input.
【0026】代表音声素片生成部11では、トレーニン
グ音声素片101にラベル付けされた音素環境102に
含まれるピッチ周期および継続時間長の情報に従って、
入力音声素片103のピッチ周期および継続時間長を変
更することで複数の合成音声素片が内部的に生成され、
さらにこれらの合成音声素片とトレーニング音声素片1
01との距離尺度に従って、代表音声素片104と音素
環境クラスタ105が生成される。音素環境クラスタ1
05は、トレーニング音声素片101を後述するように
音素環境に関するクラスタに分類して生成される。In the representative speech unit generator 11, according to the information of the pitch period and the duration length included in the phoneme environment 102 labeled on the training speech unit 101,
By changing the pitch period and duration of the input speech unit 103, a plurality of synthetic speech units are internally generated,
Furthermore, these synthesized speech units and training speech units 1
The representative speech unit 104 and the phoneme environment cluster 105 are generated according to the distance measure from 01. Phoneme environment cluster 1
05 is generated by classifying the training speech units 101 into clusters related to the phoneme environment as described later.
【0027】代表音声素片104は代表音声素片記憶部
12に記憶され、音素環境クラスタ105は代表音声素
片104と対応付けられて音素環境クラスタ記憶部13
に記憶される。代表音声素片生成部11の処理について
は、後に詳細に説明する。The representative speech unit 104 is stored in the representative speech unit storage unit 12, and the phoneme environment cluster 105 is associated with the representative speech unit 104 and the phoneme environment cluster storage unit 13 is associated.
Is stored. The processing of the representative speech unit generator 11 will be described in detail later.
【0028】次に、規則合成系2について説明する。規
則合成系2は、代表音声素片記憶部12と音素環境クラ
スタ記憶部13と素片選択部14および音声合成部15
により構成され、代表音声素片記憶部12と音素環境ク
ラスタ記憶部13を合成単位学習系1と共有している。Next, the rule composition system 2 will be described. The rule synthesis system 2 includes a representative speech unit storage unit 12, a phoneme environment cluster storage unit 13, a unit selection unit 14, and a speech synthesis unit 15.
And the representative phoneme storage unit 12 and the phoneme environment cluster storage unit 13 are shared with the synthesis unit learning system 1.
【0029】素片選択部14には、入力音素の情報とし
て、例えばテキスト音声合成のために入力テキストの形
態素解析・構文解析後さらにアクセントやイントネーシ
ョン処理を行って得られた韻律情報111と音韻記号列
112が入力される。韻律情報111には、ピッチパタ
ーンおよび音韻継続時間長が含まれている。素片選択部
14では、これらの韻律情報111と音韻記号列112
から入力音素の音素環境を内部的に生成する。The phoneme selection unit 14 uses as input phoneme information, for example, prosodic information 111 and phonological symbols obtained by performing accent and intonation processing after morphological analysis / syntactic analysis of the input text for text-to-speech synthesis. Column 112 is entered. The prosody information 111 includes a pitch pattern and a phoneme duration. In the phoneme selection unit 14, the prosody information 111 and the phoneme symbol string 112 are obtained.
The phoneme environment of the input phoneme is internally generated from.
【0030】そして、素片選択部14は音素環境クラス
タ記憶部13より読み出された音素環境クラスタ106
を参照して、入力音素の音素環境がどの音素環境クラス
タに属するかを探索し、探索した音素環境クラスタに対
応する代表音声素片選択情報107を代表音声素片記憶
部12へ出力する。Then, the unit selection section 14 uses the phoneme environment cluster 106 read from the phoneme environment cluster storage section 13.
The phoneme environment of the input phoneme is searched to refer to which phoneme environment cluster, and the representative speech unit selection information 107 corresponding to the searched phoneme environment cluster is output to the representative speech unit storage unit 12.
【0031】音声合成部15は、代表音声素片選択情報
107に従って代表音声素片記憶部12より選択的に読
み出された代表音声素片108に対して、韻律情報11
1に従ってピッチ周期および音韻継続時間長を変更する
とともに、素片の接続を行って合成音声信号113を出
力する。ここで、ピッチおよび継続時間長を変更して素
片を接続し音声を合成する方法としては、例えば残差駆
動LSP方法や波形編集方法など公知の技術を用いるこ
とができる。The speech synthesis unit 15 sets the prosody information 11 for the representative speech unit 108 selectively read from the representative speech unit storage unit 12 according to the representative speech unit selection information 107.
According to 1, the pitch period and the phoneme duration are changed, and the unit speech is connected to output the synthesized speech signal 113. Here, as a method of changing the pitch and duration and connecting the pieces to synthesize the voice, a known technique such as a residual drive LSP method or a waveform editing method can be used.
【0032】次に、本発明の特徴をなす代表音声素片生
成部11の処理の実施形態について具体的に説明する。
図2のフローチャートは、代表音声素片生成部11の第
1の実施形態による処理手順を示している。Next, an embodiment of the processing of the representative speech unit generator 11 which is a feature of the present invention will be specifically described.
The flowchart of FIG. 2 shows a processing procedure of the representative speech unit generator 11 according to the first embodiment.
【0033】この第1の実施形態による代表音声素片生
成処理では、まず準備段階として連続発声された多数の
音声データに対して音韻毎にラベリングを行い、CV,
VCV,CVCなどの合成単位に従って、トレーニング
音声素片Ti (i=1,2,3,…,NT )を切り出
す。また、各卜レーニング音声素片Ti に対応する音素
環境Pi (i=1,2,3,…,NT )も抽出してお
く。ただし、NT はトレーニング音声素片の個数を表
す。音素環境Pi は、少なくともトレーニング音声素片
Ti の音韻とそのピッチおよび継続時間長の情報を含む
ものとし、その他に必要に応じて前後の音素などの情報
を含むものとする。In the representative speech segment generation process according to the first embodiment, first, as a preparation step, a large number of continuously uttered speech data are labeled for each phoneme, and CV,
A training speech unit T i (i = 1, 2, 3, ..., N T ) is cut out according to a synthesis unit such as VCV or CVC. In addition, the phoneme environment P i (i = 1, 2, 3, ..., N T ) corresponding to each normal training speech unit T i is also extracted. However, N T represents the number of training speech units. The phoneme environment P i includes at least information on the phoneme of the training speech segment T i , its pitch and duration, and other information such as the preceding and following phonemes as necessary.
【0034】次に、上述したトレーニング音声素片Ti
の作成と同様の方法により、多数の入力音声素片Sj
(i=1,2,3,…,NS )を作成する。ただし、N
S は入力音声素片の個数を表す。ここで、入力音声素片
Sj としてはトレーニング音声素片Ti と同じものを使
用してもよいし(すなわちTi =Si )、トレーニング
音声素片Ti とは異なる音声素片を作成してもよい。い
ずれにしても、豊富な音韻環境を有する多数のトレーニ
ング音声素片および入力音声素片が用意されていること
が望ましい。Next, the above-mentioned training speech unit T i.
A large number of input speech units S j
(I = 1, 2, 3, ..., N S ) is created. Where N
S represents the number of input speech units. Here, the same input speech unit S j as the training speech unit T i may be used (that is, T i = S i ), or a speech unit different from the training speech unit T i is created. You may. In any case, it is desirable to prepare a large number of training speech units and input speech units having a rich phonological environment.
【0035】このような準備段階を経た後、まず音声合
成ステップS21で、音素環境Piに含まれるピッチお
よび継続時間長に等しくなるように、入力音声素片Sj
のピッチおよび継続時間長を変更して音声を合成するこ
とにより、合成音声素片G
ijを生成する。ここでのピッチおよび継続時間長の変
更は、音声合成部15におけるピッチおよび継続時間長
の変更と同様の方法で行われるものとする。全ての音素
環境P i (i=1,2,3,…,NT )に従って入力
音声素片Si (j=1,2,3,…,NS )を用いて音
声の合成を行うことにより、NT ×NS 個の合成音声素
片Gij(i=1,2,3,…,NT 、j=1,2,3,
…,NS )を生成する。After passing through such a preparation stage, first, in the speech synthesis step S21, the input speech segment S j is made equal to the pitch and the duration length included in the phoneme environment P i.
By synthesizing the voice by changing the pitch and duration of the
ij is generated. Changes in pitch and duration here
In addition, the pitch and duration of the speech synthesizer 15
Shall be carried out in the same manner as the modification of. All phonemes
By synthesizing speech using the input speech unit S i (j = 1, 2, 3, ..., N S ) according to the environment P i (i = 1, 2, 3, ..., N T ), N T × N S synthesized speech units G ij (i = 1, 2, 3, ..., N T , j = 1, 2, 3,
..., to generate the N S).
【0036】次に、歪み評価ステップS22では、合成
音声素片Gijの歪みeijの評価を行う。この歪みeijの
評価は、合成音声素片Gijとトレーニング音声素片Ti
との間の距離尺度を求めることにより行う。距離尺度に
は、何らかのスペクトル距離を用いることができる。例
えば、合成音声素片Gijおよびトレーニング音声素片T
i について、FFT(高速フーリエ変換)などを用いて
パワースペクトルを求めて各パワースペクトル間の距離
を評価する方法や、あるいは線形予測分析を行ってLP
CまたはLSPパラメータなどを求めて各パラメータ間
の距離を評価する方法などがある。その他にも、短時間
フーリエ変換やウェーブレット変換などの変換係数を用
いて評価する方法も用いることができる。また、各素片
のパワーを正規化した上で歪みの評価を行う方法でもよ
い。Next, the distortion evaluation step S22, the evaluation of the strain e ij synthetic speech unit G ij. The evaluation of the distortion e ij is performed by synthesizing the synthetic speech unit G ij and the training speech unit T i.
This is done by finding the distance measure between and. Any spectral distance can be used as the distance measure. For example, the synthetic speech unit G ij and the training speech unit T
For i , a method of obtaining a power spectrum by using FFT (Fast Fourier Transform) or the like to evaluate the distance between the power spectra, or performing a linear prediction analysis to obtain an LP
There is a method of obtaining a C or LSP parameter and evaluating the distance between the parameters. Besides, a method of evaluating using a transform coefficient such as a short-time Fourier transform or a wavelet transform can also be used. Further, a method of evaluating the distortion after normalizing the power of each element may be used.
【0037】次に、代表音声素片生成ステップS23で
は、ステップS22で得られた歪みeijに基づいて、入
力音声素片Sj の中から指定された代表音声素片数Νの
代表音声素片Dk (k=1,2,3,…,N)を選択す
る。Next, in the representative speech unit generation step S23, based on the distortion e ij obtained in step S22, the number of representative speech units Ν designated from the input speech units S j are designated. A piece D k (k = 1, 2, 3, ..., N) is selected.
【0038】代表音声素片選択法の一例を説明する。入
力音声素片Sj の中から選択されたN個の音声素片の集
合U={uk |uk =Sj (k=1,2,3,…,N)
に対して、歪みの総和を表す評価関数ED1(U)を次式
(1)のように定義する。An example of the representative speech unit selection method will be described. A set of N speech units selected from the input speech units S j U = {u k | u k = S j (k = 1, 2, 3, ..., N)
On the other hand, the evaluation function E D1 (U) representing the total sum of distortions is defined by the following expression (1).
【0039】[0039]
【数1】 [Equation 1]
【0040】ただし、min(eij1 ,eij2 ,e
ij3 ,…,eijN )はeij1 ,eij2 ,eij3 ,…,e
ijN の中の最小値を表す関数である。集合Uの組合せは
NS !/{N!(NS −N)!}通りあり、これらの音
声素片の集合Uの中から評価関数ED1(U)を最小にす
るUを探索し、その要素uk を代表音声素片Dk とす
る。However, min (e ij1 , e ij2 , e
, ij3 , ..., E ijN ) is e ij1 , e ij2 , e ij3 , ..., e
This is a function that represents the minimum value in ijN . The combination of set U is N S ! / {N! (N S -N)! }, A U that minimizes the evaluation function E D1 (U) is searched from the set U of these speech units, and the element u k is set as the representative speech unit D k .
【0041】最後に、音素環境クラスタ生成ステップS
24では、音素環境Pi 、歪みeijおよび代表音声素片
Dk より、音素環境に関する複数のクラスタ(音素環境
クラスタ)Ck (k=1,2,3,…,Ν)を生成す
る。音素環境クラスタCk は、例えば次式(2)で表さ
れるクラスタリングの評価関数EC1を最小化するクラス
タを探索することによって得られる。Finally, a phoneme environment cluster generation step S
At 24, a plurality of clusters (phoneme environment clusters) C k (k = 1, 2, 3, ..., Ν) related to the phoneme environment are generated from the phoneme environment P i , the distortion e ij, and the representative speech unit D k . The phoneme environment cluster C k is obtained, for example, by searching for a cluster that minimizes the clustering evaluation function E C1 represented by the following equation (2).
【0042】[0042]
【数2】 [Equation 2]
【0043】こうしてステップS23およびS24で生
成された代表音声素片Dk および音素環境クラスタCk
は、図1の代表音声素片記憶部12および音素環境クラ
スタ記憶部13にそれぞれ記憶される。The representative speech unit D k and the phoneme environment cluster C k thus generated in steps S23 and S24.
Are stored in the representative speech unit storage unit 12 and the phoneme environment cluster storage unit 13 of FIG. 1, respectively.
【0044】次に、図3のフローチャートを参照して代
表音声素片生成部11の第2の実施形態による処理手順
について説明する。この第2の実施形態による代表音声
素片生成処理では、まず初期音素環境クラスタ生成ステ
ップS30において、何らかの先見的な知識に基づいて
予め音素環境のクラスタリングを行い、初期音素環境ク
ラスタを生成する。音素環境のクラスタリングには、例
えば音韻によるクラスタリングを行うことができる。Next, the processing procedure of the representative speech segment generator 11 according to the second embodiment will be described with reference to the flowchart of FIG. In the representative speech segment generation process according to the second embodiment, first, in an initial phoneme environment cluster generation step S30, phoneme environment clustering is performed in advance based on some foreseeable knowledge to generate an initial phoneme environment cluster. For the phoneme environment clustering, for example, phoneme clustering can be performed.
【0045】そして、入力音声素片Sj およびトレーニ
ング音声素片Ti のうち音韻が一致する音声素片のみを
それぞれ用いて、図2のステップS21,S22,S2
3,S24と同様の合成音声素片生成ステップS31、
歪み評価ステップS32、代表音声素片生成ステップS
33、音素環境クラスタ生成ステップS34の処理を順
次行い、全ての初期音素環境クラスタについて同様の操
作を繰り返すことにより、全ての代表音声素片およびそ
れに対応する音素環境クラスタの生成を行う。こうして
生成された代表音声素片および音素環境クラスタは、図
1の代表音声素片記憶部12および音素環境クラスタ記
憶部13にそれぞれ記憶される。Then, using only the speech units having the same phoneme among the input speech unit S j and the training speech unit T i , steps S21, S22 and S2 of FIG. 2 are used.
3, a synthetic speech segment generation step S31 similar to S24,
Distortion evaluation step S32, representative speech segment generation step S
33, the phoneme environment cluster generation step S34 is sequentially performed, and the same operation is repeated for all initial phoneme environment clusters to generate all the representative speech units and the corresponding phoneme environment clusters. The representative speech unit and the phoneme environment cluster thus generated are stored in the representative speech unit storage unit 12 and the phoneme environment cluster storage unit 13 of FIG. 1, respectively.
【0046】ただし、各初期音素環境クラスタ当たりの
代表音声素片数が1であれば、初期音素環境クラスタが
代表音声素片の音素環境クラスタとなるため、音素環境
クラスタ生成ステップS34は不要となり、初期音素環
境クラスタを音素環境クラスタ記憶部13に記憶すれば
よい。However, if the number of representative phoneme units per initial phoneme environment cluster is 1, the initial phoneme environment cluster becomes the phoneme environment cluster of the representative phoneme unit, so that the phoneme environment cluster generation step S34 becomes unnecessary, The initial phoneme environment cluster may be stored in the phoneme environment cluster storage unit 13.
【0047】次に、図4のフローチャートを参照して代
表音声素片生成部11の第3の実施形態による処理手順
を説明する。この第3の実施形態による代表音声素片生
成処理では、図2に示した第1の実施形態と同様に音声
合成ステップS41および歪み評価ステップS42を順
次経た後、次の音素環境クラスタ生成ステップS43に
おいて、音素環境Pi および歪みeijに基づいて音素環
境に関するクラスタCk (k=1,2,3,…,Ν)を
生成する。音素環境クラスタCk は、例えば次式(3)
(4)で表わされるクラスタリングの評価関数EC2を最
小化するクラスタを探索することによって得られる。Next, the processing procedure of the representative speech segment generator 11 according to the third embodiment will be described with reference to the flowchart of FIG. In the representative speech segment generation processing according to the third embodiment, as in the first embodiment shown in FIG. 2, after the speech synthesis step S41 and the distortion evaluation step S42 are sequentially performed, the next phoneme environment cluster generation step S43 is performed. In, a cluster C k (k = 1, 2, 3, ..., Ν) related to the phoneme environment is generated based on the phoneme environment P i and the distortion e ij . The phoneme environment cluster C k is calculated, for example, by the following equation (3).
It is obtained by searching for a cluster that minimizes the clustering evaluation function E C2 represented by (4).
【0048】[0048]
【数3】 (Equation 3)
【0049】次に、代表音声素片生成ステップS44に
おいて、歪みeijに基づいて音素環境クラスタCk のそ
れぞれに対応する代表音声素片Dk を入力音声素片Sj
より選択する。この代表音声素片Dk は、入力音声素片
Sj から例えば次式(5)で表される歪み評価関数ED2
(j) を最小化する音声素片を探索することによって得ら
れる。Next, representative in speech unit generation step S44, the distortion corresponding to each phoneme environment cluster C k based on e ij representative speech units D k input speech segment S j
Choose more. This representative speech unit D k is the distortion evaluation function E D2 expressed by the following equation (5) from the input speech unit S j.
It is obtained by searching the speech unit that minimizes (j).
【0050】[0050]
【数4】 (Equation 4)
【0051】なお、この第3の実施形態による代表音声
素片生成処理を変形し、第2の実施形態と同様に、何ら
かの先見的な知識に基づいて予め生成した初期音素環境
クラスタ毎に代表音声素片の生成および音素環境クラス
タの生成を行うことも可能である。It should be noted that, as in the case of the second embodiment, the representative speech unit generation processing according to the third embodiment is modified so that the representative speech is generated for each initial phoneme environment cluster based on some foreseeable knowledge. It is also possible to generate a segment and a phoneme environment cluster.
【0052】次に、図5〜図9を用いて本発明の他の実
施形態について説明する。図5は、本発明の他の実施形
態に係る音声合成方法を実現する音声合成装置の構成を
示すブロック図である。図1と相対応する部分に同一の
参照符号を付して相違点を中心に説明すると、本実施形
態では音声合成部15の後段に適応ポストフィルタ16
が追加されている点が先の実施形態と異なり、これに加
えて代表音声素片生成部11における複数の合成音声素
片の生成法も先の実施形態と異なっている。Next, another embodiment of the present invention will be described with reference to FIGS. FIG. 5 is a block diagram showing the configuration of a voice synthesizing device that realizes a voice synthesizing method according to another embodiment of the present invention. The same reference numerals are given to the portions corresponding to those in FIG. 1, and the description will be made centering on the differences. In the present embodiment, the adaptive post filter 16 is provided after the speech synthesizer 15.
Is added to the previous embodiment, and in addition to this, the method of generating a plurality of synthetic speech units in the representative speech unit generation unit 11 is also different from the previous embodiment.
【0053】すなわち、代表音声素片生成部11では先
の実施形態と同様に、トレーニング音声素片101にラ
ベル付けされた音素環境102に含まれるピッチ周期お
よび継続時間長の情報に従って、入力音声素片103の
ピッチ周期および継続時間長を変更することで複数の合
成音声素片を内部的に生成した後、これらの合成音声素
片に対して適応ポストフィルタによるフィルタリングを
施してスペクトル整形を行う。そして、この適応ポスト
フィルタによりスペクトル整形を行った後の各合成音声
素片とトレーニング音声素片101との距離尺度に従っ
て、代表音声素片104と音素環境クラスタ105が生
成される。音素環境クラスタ105は、先の実施形態と
同様にトレーニング音声素片101を音素環境に関する
クラスタに分類して生成される。That is, as in the previous embodiment, the representative speech unit generator 11 receives the input speech units according to the information on the pitch period and duration included in the phoneme environment 102 labeled on the training speech unit 101. A plurality of synthesized speech units are internally generated by changing the pitch period and duration of the unit 103, and then the synthesized speech units are filtered by an adaptive post filter to perform spectrum shaping. Then, the representative speech unit 104 and the phoneme environment cluster 105 are generated in accordance with the distance measure between each synthetic speech unit and the training speech unit 101 after spectrum shaping by this adaptive post filter. The phoneme environment cluster 105 is generated by classifying the training speech units 101 into clusters related to the phoneme environment as in the above embodiment.
【0054】なお、この代表音声素片生成部11におい
て音素環境102に含まれるピッチ周期および継続時間
長の情報に従って入力音声素片103のピッチ周期およ
び継続時間長を変更して生成される複数の合成音声素片
に対してフィルタリングを施してスペクトル整形を行う
適応ポストフィルタは、音声合成部15の後段に配置さ
れる適応ポストフィルタ16と同様の構成でよい。It should be noted that the representative speech unit generator 11 changes the pitch period and duration of the input speech unit 103 according to the information of the pitch period and duration included in the phoneme environment 102 to generate a plurality of units. The adaptive post filter that filters the synthesized speech unit to perform spectrum shaping may have the same configuration as the adaptive post filter 16 arranged in the subsequent stage of the speech synthesis unit 15.
【0055】一方、音声合成部15では先の実施形態と
同様に代表音声素片選択情報107に従って代表音声素
片記憶部12より選択的に読み出された代表音声素片1
08に対し、韻律情報111に従ってピッチ周期および
音韻継続時間長を変更するとともに、素片の接続を行っ
て合成音声信号113を生成するが、本実施形態ではこ
の合成音声信号113がさらに適応ポストフィルタ16
に入力され、ここで音質向上のためのスペクトル整形が
行われた後、最終的な合成音声信号114が取り出され
る。On the other hand, in the speech synthesis unit 15, the representative speech unit 1 selectively read from the representative speech unit storage unit 12 according to the representative speech unit selection information 107 as in the previous embodiment.
For 08, the pitch period and the phoneme duration are changed according to the prosody information 111, and the united speech is connected to generate the synthesized speech signal 113. In the present embodiment, the synthesized speech signal 113 is further adapted to the adaptive post filter. 16
Is input to the input terminal, and after the spectrum shaping for improving the sound quality is performed here, the final synthesized audio signal 114 is extracted.
【0056】図6に、適応ポストフィルタ16の一構成
例を示す。この適応ポストフィルタ16は、ホルマント
強調フィルタ21とピッチ強調フィルタ22を縦続配置
して構成される。FIG. 6 shows a configuration example of the adaptive post filter 16. The adaptive post filter 16 is formed by cascading a formant emphasis filter 21 and a pitch emphasis filter 22.
【0057】ホルマント強調フィルタ21は、代表音声
素片選択情報107に従って代表音声素片記憶部12か
ら選択的に読み出された代表音声素片108をLPC分
析して得られるLPC係数に基づいて決定されるフィル
タ係数に従って、音声合成部15から入力される合成音
声信号113をフィルタリングすることにより、スペク
トルの山の部分を強調する処理を行う。一方、ピッチ強
調フィルタ22は、韻律情報111に含まれるピッチ周
期に基づいて決定されるパラメータに従って、ホルマン
ト強調フィルタ21の出力をフィルタリングすることに
より、音声信号のピッチを強調する処理を行う。なお、
ホルマント強調フィルタ21とピッチ強調フィルタ22
の配置順序は逆であってもよい。The formant emphasizing filter 21 is determined based on the LPC coefficient obtained by LPC analysis of the representative speech unit 108 selectively read from the representative speech unit storage unit 12 according to the representative speech unit selection information 107. The synthesized speech signal 113 input from the speech synthesis unit 15 is filtered according to the filter coefficient to emphasize the peak portion of the spectrum. On the other hand, the pitch emphasizing filter 22 performs processing for emphasizing the pitch of the audio signal by filtering the output of the formant emphasizing filter 21 according to the parameter determined based on the pitch period included in the prosody information 111. In addition,
Formant emphasis filter 21 and pitch emphasis filter 22
The arrangement order of may be reversed.
【0058】このような適応ポストフィルタ16の適用
によりスペクトルが整形され、「めりはり」のある明瞭
な音声を再生可能な合成音声信号114が得られる。適
応ポストフィルタ16としては図6に示した構成のもの
に限られず、音声符号化や音声合成の分野で用いられる
公知の技術に基づく種々の構成を採用することが可能で
ある。By applying the adaptive post filter 16 as described above, the spectrum is shaped, and the synthesized voice signal 114 capable of reproducing clear voice with "gripping" is obtained. The adaptive post filter 16 is not limited to the configuration shown in FIG. 6, and various configurations based on known techniques used in the fields of voice encoding and voice synthesis can be adopted.
【0059】このように本実施形態では、規則合成系2
において音声合成部15の後段に適応ポストフィルタ1
6が配置される点を考慮して、合成単位学習系1におい
ても代表音声素片生成部11で音素環境102に含まれ
るピッチ周期および継続時間長の情報に従って入力音声
素片103のピッチ周期および継続時間長を変更して生
成される複数の合成音声素片に対し、同様に適応ポスト
フィルタによるフィルタリングを行っている。従って、
適応ポストフィルタ16を通した後の最終的な合成音声
信号114と同様のレベルで、自然音声に対する歪みが
小さくなるような代表音声素片を代表音声素片生成部1
1において生成できるため、さらに自然音声に近い合成
音声を生成することが可能となる。As described above, in this embodiment, the rule composition system 2
In the post-stage of the speech synthesis unit 15, the adaptive post filter 1
Considering that 6 is arranged, in the synthesis unit learning system 1 as well, in the representative speech unit generation unit 11, according to the information of the pitch period and duration included in the phoneme environment 102, the pitch period of the input speech unit 103 and The adaptive post filter is similarly applied to a plurality of synthetic speech units generated by changing the duration time. Therefore,
The representative speech unit generation unit 1 selects a representative speech unit having a level similar to that of the final synthesized speech signal 114 that has passed through the adaptive post filter 16 so that distortion with respect to natural speech is reduced.
Since it can be generated in No. 1, it is possible to generate a synthetic voice that is closer to a natural voice.
【0060】次に、図5における代表音声素片生成部1
1の処理の実施形態について具体的に説明する。図7、
図8および図9のフローチャートは、図5における代表
音声素片生成部11の第1、第2および第3の実施形態
による処理手順を示している。図7、図8および図9で
は、先に説明した図2、図3および図4に示した処理手
順における音声合成ステップS21、S31およびS4
1の後に、ポストフィルタリングステップS25、S3
6およびS45が追加されている。Next, the representative speech unit generator 1 in FIG.
The embodiment of the process 1 will be specifically described. FIG.
The flowcharts of FIGS. 8 and 9 show the processing procedure according to the first, second, and third embodiments of the representative speech segment generator 11 in FIG. In FIGS. 7, 8 and 9, speech synthesis steps S21, S31 and S4 in the processing procedure shown in FIGS. 2, 3 and 4 described above.
After 1, post filtering steps S25, S3
6 and S45 are added.
【0061】ポストフィルタリングステップS25、S
36およびS45では、前述した適応ポストフィルタに
よるフィルタリングを行う。すなわち、音声合成ステッ
プS21、S31およびS41で生成された合成音声素
片Gijに対し、入力音声素片Si をLPC分析して得ら
れるLPC係数に基づいて決定されるフィルタ係数に従
ってフィルタリングを行うことにより、スペクトルの山
の部分を強調するホルマント強調を行う。また、このホ
ルマント強調後の合成音声素片に対し、さらにトレーニ
ング音声素片Ti のピッチ周期に基づいて決定されるパ
ラメータに従ってフィルタリングを行うことにより、ピ
ッチ強調を行う。Post filtering steps S25, S
At 36 and S45, filtering by the adaptive post filter described above is performed. That is, the synthesized speech unit G ij generated in the speech synthesis steps S21, S31 and S41 is filtered according to the filter coefficient determined based on the LPC coefficient obtained by the LPC analysis of the input speech unit S i. By doing so, formant emphasis is performed to emphasize the mountain portion of the spectrum. In addition, pitch enhancement is performed by further filtering the synthesized speech unit after the formant enhancement according to a parameter determined based on the pitch period of the training speech unit T i .
【0062】このようにして、ポストフィルタリングス
テップS25、S36およびS45において、スペクト
ル整形を行う。このポストフィルタリングステップS2
5、S36およびS45は、前述したように規則合成系
2において音声合成部15の後段に設けられる適応ポス
トフィルタ16により合成音声信号113のスペクトル
整形を行って音質の向上を図るポストフィルタリングを
行うことを前提に、合成単位の学習を可能とする処理で
あり、この処理を適応ポストフィルタ16による処理と
組み合わせることによって、最終的に「めりはり」のあ
る明瞭な合成音声信号114が生成される。Thus, in the post-filtering steps S25, S36 and S45, spectrum shaping is performed. This post filtering step S2
5, S36 and S45 perform post-filtering for improving the sound quality by performing spectrum shaping of the synthesized speech signal 113 by the adaptive post filter 16 provided in the latter stage of the speech synthesis section 15 in the rule synthesis system 2 as described above. Is a process that enables the learning of the synthesis unit, and by combining this process with the process by the adaptive post filter 16, a clear synthetic speech signal 114 with a “meli” is finally generated. .
【0063】次に、図10〜図13を用いて本発明の別
の実施形態について説明する。図10は、本発明の他の
実施形態に係る音声合成方法を実現する音声合成装置の
構成を示すブロック図である。図1と相対応する部分に
同一の参照符号を付して相違点を中心に説明すると、本
実施形態では代表音声素片生成部31に入力音声素片1
03が入力されていない点がこれまでの実施形態と異な
っている。Next, another embodiment of the present invention will be described with reference to FIGS. FIG. 10 is a block diagram showing the configuration of a voice synthesizing apparatus that realizes a voice synthesizing method according to another embodiment of the present invention. The same reference numerals are given to the portions corresponding to those in FIG. 1, and the description will focus on the differences. In the present embodiment, the input speech unit 1 is input to the representative speech unit generation unit 31.
This is different from the previous embodiments in that 03 is not input.
【0064】すなわち、本実施形態では先の実施形態の
ように入力音声素片103の中から選択した音声素片を
代表音声素片104とするのではなく、トレーニング音
声素片101に対して最適な代表音声素片104を計算
によって新たに生成する。音素環境クラスタ105は、
先の実施形態と同様にトレーニング音声素片101を音
素環境に関するクラスタに分類して生成される。That is, in the present embodiment, the speech unit selected from the input speech units 103 as in the previous embodiment is not used as the representative speech unit 104, but is optimal for the training speech unit 101. A representative speech unit 104 is newly generated by calculation. The phoneme environment cluster 105 is
As in the previous embodiment, the training speech units 101 are generated by classifying them into clusters related to the phoneme environment.
【0065】次に、図10における代表音声素片生成部
31の処理の実施形態について具体的に説明する。図1
1のフローチャートは、代表音声素片生成部31の第1
の実施形態による処理手順を示している。この第1の実
施形態による代表音声素片生成処理では、先の実施形態
の代表音声素片生成部11における代表音声素片生成処
理と同様に、まず、準備段階として連続発声された多数
の音声データに音韻毎にラベリングを行い、CV,VC
V,CVCなどの合成単位に従ってトレーニング音声素
片Ti (i=1,2,3,…,NT )を切り出す。ま
た、各トレーニング音声素片に対応する音素環境P
i(1,2,3,…,Nr)を抽出しておく。ただし、
NT はトレーニング音声素片の個数を表す。音素環境
は、少なくとも当該トレーニング音声素片の音韻とその
ピッチパターンおよび継続時間長を含むものとし、その
他に必要に応じて前後の音素などを含むものとする。Next, an embodiment of the processing of the representative speech segment generator 31 in FIG. 10 will be concretely described. FIG.
The flowchart of No. 1 is the first of the representative speech unit generator 31.
7 shows a processing procedure according to the embodiment. In the representative speech unit generation process according to the first embodiment, first, as with the representative speech unit generation process in the representative speech unit generation unit 11 of the previous embodiment, first, a large number of continuously uttered voices are prepared as a preparation stage. The data is labeled for each phoneme, and CV, VC
The training speech unit T i (i = 1, 2, 3, ..., N T ) is cut out according to a synthesis unit such as V or CVC. In addition, the phoneme environment P corresponding to each training speech unit
i (1, 2, 3, ..., Nr) is extracted. However,
N T represents the number of training speech units. The phoneme environment includes at least the phoneme of the training speech segment, its pitch pattern, and duration, and in addition, it also includes the preceding and following phonemes as necessary.
【0066】このような準備段階を経た後、まず代表音
声素片初期化ステップS51で、指定された代表音声素
片数Nの代表音声素片Dk (k=1,2,3,…,N)
を初期化して初期代表音声素片Dk 0 (k=1,2,
3,…,N)を生成する。初期代表音声素片Dk 0 とし
ては、任意の音声素片を用いることが可能であり、例え
ばトレーニング音声素片Ti からランダムに選択された
素片を用いることができる。After passing through such a preparation step, first, in a representative speech unit initialization step S51, representative speech units D k (k = 1, 2, 3, ... N)
To initialize the initial representative speech unit D k 0 (k = 1, 2,
3, ..., N) are generated. As the initial representative speech unit D k 0 , any speech unit can be used, for example, a unit randomly selected from the training speech units T i can be used.
【0067】次に、音声合成ステップS52で、Dk 0
のピッチおよび継続時間長をPi のピッチパターンおよ
び継続時間長に等しくなるように変更して音声を合成し
て合成音声素片Gikを生成する。ここでのピッチおよび
継続時間長の変更は、音声合成部20におけるピッチお
よび継続時間長の変更と同様の方法で行われるものとす
る。全てのPi (i=1,2,3,…,NT )に従って
Dk 0 (k=1,2,3,…,NT )を用いて合成を行
うことにより、NT ×N個の合成音声素片Gik(i=
1,2,3,…,NT 、k=1,2,3,…N)を生成
する。Next, in the voice synthesis step S52, D k 0
The pitch and the duration time of P i are changed so as to be equal to the pitch pattern and the duration time of P i , and the speech is synthesized to generate a synthesized speech unit G ik . The change of the pitch and the duration here is performed in the same manner as the change of the pitch and the duration in speech synthesizer 20. By performing synthesis using D k 0 (k = 1, 2, 3, ..., N T ) according to all P i (i = 1, 2, 3, ..., N T ), N T × N Of the synthesized speech unit G ik (i =
, 1, 2, 3, ..., N T , k = 1, 2, 3 ,.
【0068】次に、歪み評価ステップS53では、合成
音声素片Gikとトレーニングとの間で定義される歪みe
ijの評価を行う。歪みの評価法としては、波形の2乗誤
差や何らかのスペクトル距離を用いることができる。例
えば、FFTなどを用いてパワースペクトルを求めてそ
の間の距離を求める方法や、あるいは線形予測分析を行
ってLPCまたはLSPパラメータなどを求めてパラメ
ータ間の距離を評価する方法などがある。その他にも、
短時間フーリエ変換やウェーブレット変換などの変換係
数を用いて評価する方法が考えられる。また、各素片の
パワーを正規化した上で歪みの評価を行うことも考えら
れる。Next, in the distortion evaluation step S53, the distortion e defined between the synthesized speech unit G ik and the training is calculated.
ij is evaluated. As a method for evaluating the distortion, a squared error of the waveform or some spectral distance can be used. For example, there is a method of obtaining a power spectrum by using FFT or the like, and a method of obtaining a distance therebetween, or a method of performing linear prediction analysis to obtain an LPC or LSP parameter or the like and evaluating a distance between the parameters. In addition,
A method of evaluation using a transform coefficient such as short-time Fourier transform or wavelet transform can be considered. It is also possible to normalize the power of each element and then evaluate the distortion.
【0069】次に、音素環境クラスタ生成ステップS5
4では音素環境Pi および歪みeikに基づいて、音素環
境に関するクラスタCk (k=1,2,3,…,N)を
生成する。音素環境クラスタCk は、例えば次式で表さ
れるクラスタリングの評価関数EC3を最小化するクラス
タを探索することによって得られる。Next, a phoneme environment cluster generation step S5
In 4, the cluster C k (k = 1, 2, 3, ..., N) related to the phoneme environment is generated based on the phoneme environment P i and the distortion e ik . The phoneme environment cluster C k is obtained, for example, by searching a cluster that minimizes the clustering evaluation function E C3 represented by the following equation.
【0070】[0070]
【数5】 (Equation 5)
【0071】但し、次式に示されるように全ての音素環
境クラスタCk (k=1,2,3,…,N)の和集合は
音素環境の全体集合Aと等しく、かつ任意の異なる2つ
の音素環境クラスタの積集合は空集合φになるものとす
る。However, as shown in the following equation, the union of all the phoneme environment clusters C k (k = 1, 2, 3, ..., N) is equal to the entire set A of the phoneme environments, and any different 2 The product set of two phoneme environment clusters shall be the empty set φ.
【0072】[0072]
【数6】 (Equation 6)
【0073】次に、代表音声素片生成ステップS55で
は、代表音声素片を更新するため、クラスタCk に対応
する代表音声素片Dk 1 をクラスタ毎に求める。代表音
声素片Dk 1 は、クラスタに属するトレーニング音声素
片と、対応する合成音声素片との歪みの総和を表す評価
関数が最小になるように計算される。評価関数として
は、例えば次式に示す波形の2乗誤差の総和を用いるこ
とができる。Next, in the representative speech unit generation step S55, in order to update the representative speech unit, the representative speech unit D k 1 corresponding to the cluster C k is obtained for each cluster. The representative speech unit D k 1 is calculated so that the evaluation function representing the total distortion of the training speech unit belonging to the cluster and the corresponding synthesized speech unit is minimized. As the evaluation function, for example, the sum of squared errors of the waveform shown in the following equation can be used.
【0074】[0074]
【数7】 (Equation 7)
【0075】但し、ti はトレーニング音声素片Ti の
波形を表すベクトル、gik(Dk )はPi に従ってDk
を用いて合成された合成音声素片Gikの波形を表すベク
トルである。また、評価関数の例としては、これ以外に
もパワースペクトルの距離やLPC,LSPなどのパラ
メータ間の距離の総和などがある。評価関数を代表音声
素片で偏微分したものを0とおいた方程式が解ける場合
には、これを解いて評価関数を最小にする代表音声素片
を解析的に求めることができる。それ以外の場合は、公
知の最適化手法を用いて代表音声素片を求めることがで
きる。However, t i is a vector representing the waveform of the training speech segment T i , and g ik (D k ) is D k according to P i.
Is a vector representing the waveform of the synthesized speech unit G ik synthesized by using. Other examples of the evaluation function include the distance of the power spectrum and the total distance between parameters such as LPC and LSP. When the equation in which the evaluation function is partially differentiated with the representative speech unit is set to 0 can be solved, the representative speech unit that minimizes the evaluation function can be analytically obtained by solving the equation. In other cases, the representative speech unit can be obtained using a known optimization method.
【0076】このようにステップS52からS55まで
の処理で、初期代表音声素片Dk 0から代表音声素片Dk
1 に更新される。代表音声素片が更新されたことによ
って音素環境クラスタが変化するため、代表音声素片お
よび音素環境クラスタの変化が十分小さくなり収束する
まで、ステップS52からS55までの処理を繰り返す
必要がある。In this way, in the processing from steps S52 to S55, the initial representative speech unit D k 0 to the representative speech unit D k
Updated to 1 . Since the phoneme environment cluster changes due to the update of the representative speech unit, it is necessary to repeat the processing from steps S52 to S55 until the changes of the representative speech unit and the phoneme environment cluster are sufficiently small and converge.
【0077】そこで、次の収束判定ステップS56で
は、更新の前後における代表音声素片の変化の度合から
代表音声素片および音素環境クラスタの変化が収束した
か否かを判定し、収束していないと判定された場合はス
テップS52からS55までの処理を繰り返してさらに
代表音声素片を更新し、収束したと判定された場合は処
理を終了し、最新の代表音声素片Dk m (k=1,2,
3,…,N、mは繰り返し回数)が代表音声素片Dk
(k=1,2,3,…,N)となる。Therefore, in the next convergence determination step S56, it is determined from the degree of change in the representative speech unit before and after the update whether or not the changes in the representative speech unit and the phoneme environment cluster have converged, and it has not converged. If it is determined that the representative speech unit is further updated by repeating the processing from steps S52 to S55, the process is terminated if it is determined to be converged, and the latest representative speech unit D k m (k = 1, 2,
3, ..., N, and m are the number of repetitions) are representative speech units D k
(K = 1, 2, 3, ..., N).
【0078】こうして生成された代表音声素片Dk およ
び音素環境クラスタCk は、図10の代表音声素片記憶
部12および音素環境クラスタ記憶部13にそれぞれ記
憶される。The representative speech unit D k and the phoneme environment cluster C k thus generated are stored in the representative speech unit storage unit 12 and the phoneme environment cluster storage unit 13 of FIG. 10, respectively.
【0079】次に、図12のフローチャートを参照して
代表音声素片生成部31の第2の実施形態による処理手
順について説明する。この第2の実施形態による代表音
声素片生成処理では、まず初期音素環境クラスタ生成ス
テップS61において、何らかの先見的な知識に基づい
て予め音素環境のクラスタリングを行い、初期音素環境
クラスタを生成する。音素環境のクラスタリングには、
例えば音韻によるクラスタリングを行うことができる。Next, the processing procedure of the representative speech unit generator 31 according to the second embodiment will be described with reference to the flowchart of FIG. In the representative speech segment generation process according to the second embodiment, first, in an initial phoneme environment cluster generation step S61, phoneme environment clustering is performed in advance based on some foresight knowledge to generate an initial phoneme environment cluster. For phoneme environment clustering,
For example, phonological clustering can be performed.
【0080】そして、トレーニング音声素片Ti のうち
音韻が一致する音声素片のみを用いて、図11のステッ
プS51、S52、S53、S54、S55、S56と
同様の代表音声素片初期化ステップS62、音声合成ス
テップS63、歪み評価ステップS64、音素環境クラ
スタ生成ステップS65、代表音声素片生成ステップS
66、収束判定ステップS67の処理を順次行い、全て
の初期音素環境クラスタについて同様の操作を繰り返す
ことにより、全ての代表音声素片およびそれに対応する
音素環境クラスタの生成を行う。こうして生成された代
表音声素片および音素環境クラスタは、図10の代表音
声素片記憶部12および音素環境クラスタ記憶部13に
それぞれ記憶される。Then, using only the speech units having the same phoneme among the training speech units T i , the representative speech unit initialization step similar to steps S51, S52, S53, S54, S55 and S56 of FIG. S62, speech synthesis step S63, distortion evaluation step S64, phoneme environment cluster generation step S65, representative speech segment generation step S
66, the process of the convergence determination step S67 is sequentially performed, and the same operation is repeated for all the initial phoneme environment clusters to generate all the representative speech units and the corresponding phoneme environment clusters. The representative speech unit and the phoneme environment cluster thus generated are stored in the representative speech unit storage unit 12 and the phoneme environment cluster storage unit 13 of FIG. 10, respectively.
【0081】但し、各初期音素環境クラスタ当りの代表
音声素片数が1であれば、初期音素環境クラスタが代表
音声素片の音素環境クラスタとなるため、ステップS6
2、S63、S64、S65、S67の処理は不要とな
り、初期音素環境クラスタに対応する代表音声素片を代
表音声素片生成ステップS66で求めればよい。この場
合には、初期音素環境クラスタを音素環境クラスタ記憶
部13に記憶すればよい。However, if the number of representative phoneme units per initial phoneme environment cluster is 1, the initial phoneme environment cluster becomes the phoneme environment cluster of the representative phoneme unit, so step S6
The processes of 2, S63, S64, S65, and S67 are not necessary, and the representative speech unit corresponding to the initial phoneme environment cluster may be obtained in the representative speech unit generation step S66. In this case, the initial phoneme environment cluster may be stored in the phoneme environment cluster storage unit 13.
【0082】次に、図13のフローチャートを参照して
代表音声素片生成部31の第3の実施形態による処理手
順について説明する。まず、図11のステップS51、
S52、S53と同様の代表音声素片初期化ステップS
71、音声合成ステップS71、歪み評価ステップS7
3の処理を順次行って、合成音声素片Gikとトレーニン
グ音声素片Ti の間の歪みeikを求める。Next, the processing procedure of the representative speech unit generator 31 according to the third embodiment will be described with reference to the flowchart of FIG. First, in step S51 of FIG.
Representative speech unit initialization step S similar to S52 and S53
71, voice synthesis step S71, distortion evaluation step S7
The process of 3 is sequentially performed to obtain the distortion e ik between the synthetic speech unit G ik and the training speech unit T i .
【0083】次に、トレーニング音声素片クラスタ生成
ステップS74では、歪みeikに基づいてトレーニング
音声素片Ti のクラスタC′k (k=1,2,3,…,
N)を生成する。このトレーニング音声素片クラスタ
C′k は、例えば次式で表されるクラスタリングの評価
関数EC4を最小化するクラスタを探索することによって
得られる。[0083] Next, in the training speech segment cluster generation step S74, the distortion cluster C of e ik training speech unit T i based on the 'k (k = 1,2,3, ... ,
N). This training speech segment cluster C ′ k is obtained by searching for a cluster that minimizes the clustering evaluation function E C4 represented by the following expression, for example.
【0084】[0084]
【数8】 (Equation 8)
【0085】次に、図11のステツプS55、S56と
同様の代表音声素片生成ステップS75、収束判定ステ
ップS76の処理を順次行って、代表音声素片およびそ
れに対応するトレーニング音声素片クラスタが生成され
る。Next, a representative speech unit generation step S75 and a convergence determination step S76 similar to steps S55 and S56 in FIG. 11 are sequentially performed to generate a representative speech unit and a corresponding training speech unit cluster. To be done.
【0086】最後に、音素環境クラスタ生成ステップS
77では、トレーニング音声素片クラスタC′k に属す
るトレーニング音声素片Ti に共通する音素環境を抽出
して音素環境クラスタCk を生成する。但し、音素環境
クラスタCk (k=1,2,3,…,N)は、式(7)
(8)の条件を満たすものとする。また、本実施形態の
音声合成方法に前の実施形態と同様にポストフィルタリ
ング処理を組み合わせることも可能である。Finally, a phoneme environment cluster generation step S
At 77, a phoneme environment common to the training speech unit T i belonging to the training speech unit cluster C ′ k is extracted to generate a phoneme environment cluster C k . However, the phoneme environment cluster C k (k = 1, 2, 3, ..., N) is expressed by the equation (7).
The condition of (8) shall be satisfied. It is also possible to combine post-filtering processing with the speech synthesis method of this embodiment as in the previous embodiment.
【0087】[0087]
【発明の効果】以上説明したように、本発明の音声合成
方法によれば、入力音声素片に対してピッチおよび継続
時間長の少なくとも一方の変更を行って生成される合成
音声のレベルで自然音声に対する歪みを評価し、その歪
み評価結果に基づいて入力音声素片から選択した音声素
片を代表音声素片とするか、あるいは歪み評価結果に基
づいて代表音声素片を生成するため、音声合成装置の特
性をも考慮した代表音声素片の生成が可能であり、この
代表素片を接続して音声合成を行うことによって、自然
音声に近い高品質の合成音声を生成することができる。As described above, according to the speech synthesizing method of the present invention, at least one of the pitch and the duration of the input speech unit is changed to produce a natural synthesized speech level. Evaluate the distortion for speech, and use the speech unit selected from the input speech units based on the distortion evaluation result as the representative speech unit, or generate the representative speech unit based on the distortion evaluation result. It is possible to generate a representative voice unit in consideration of the characteristics of the synthesizer, and by connecting the representative units to perform voice synthesis, it is possible to generate high-quality synthesized voice close to natural voice.
【0088】また、本発明ではさらに代表音声素片の接
続によって合成される音声に対してスペクトル整形を行
うと共に、合成音声素片に対しても同様のスペクトル整
形を行うことにより、スペクトル整形後の最終的な合成
音声信号のレベルで、自然音声に対する歪が小さくなる
ような代表音声素片を生成できるため、「めりはり」の
あるより明瞭な合成音声を生成することができる。Further, according to the present invention, spectrum shaping is performed on the speech synthesized by the connection of the representative speech units, and the same spectrum shaping is performed on the synthesized speech units as well. Since it is possible to generate a representative speech unit in which the distortion with respect to natural speech is reduced at the final level of the synthesized speech signal, it is possible to generate clearer synthetic speech with a “gripping”.
【図1】本発明の一実施形態に係る音声合成装置のブロ
ック図FIG. 1 is a block diagram of a speech synthesizer according to an embodiment of the present invention.
【図2】図1中の代表音声素片生成部での第1の実施形
態による処理手順を示すフローチャートFIG. 2 is a flowchart showing a processing procedure according to the first embodiment in a representative speech unit generation unit in FIG.
【図3】図1の中の代表音声素片生成部での第2の実施
形態による処理手順を示すフローチャート3 is a flowchart showing a processing procedure according to a second embodiment in a representative speech unit generation unit in FIG.
【図4】図1中の代表音声素片生成部での第3の実施形
態による処理手順を示すフローチャートFIG. 4 is a flowchart showing a processing procedure in a representative speech unit generation unit in FIG. 1 according to a third embodiment.
【図5】本発明の他の実施形態に係る音声合成装置のブ
ロック図FIG. 5 is a block diagram of a speech synthesizer according to another embodiment of the present invention.
【図6】図5中の適応ポストフィルタの構成例を示すブ
ロック図FIG. 6 is a block diagram showing a configuration example of an adaptive post filter in FIG.
【図7】図5中の代表音声素片生成部での第1の実施形
態による処理手順を示すフローチャートFIG. 7 is a flowchart showing a processing procedure according to the first embodiment in the representative speech unit generation unit in FIG.
【図8】図5の中の代表音声素片生成部での第2の実施
形態による処理手順を示すフローチャートFIG. 8 is a flowchart showing a processing procedure according to the second embodiment in the representative speech unit generator in FIG.
【図9】図5中の代表音声素片生成部での第3の実施形
態による処理手順を示すフローチャート9 is a flowchart showing a processing procedure according to the third embodiment in the representative speech unit generation unit in FIG.
【図10】本発明の別の実施形態に係る音声合成装置の
ブロック図FIG. 10 is a block diagram of a speech synthesizer according to another embodiment of the present invention.
【図11】図10中の代表音声素片生成部での第1の実
施形態による処理手順を示すフローチャートFIG. 11 is a flowchart showing a processing procedure according to the first embodiment in the representative speech unit generation unit in FIG.
【図12】図10の中の代表音声素片生成部での第2の
実施形態による処理手順を示すフローチャートFIG. 12 is a flowchart showing a processing procedure according to the second embodiment in the representative speech unit generation unit in FIG.
【図13】図10中の代表音声素片生成部での第3の実
施形態による処理手順を示すフローチャートFIG. 13 is a flowchart showing a processing procedure according to the third embodiment in the representative speech unit generation unit in FIG.
1…合成単位学習系 2…規則合成系 11…代表音声素片生成部 12…音素環境クラスタ記憶部 13…代表音声素片記憶部 14…素片選択部 15…音声合成部 16…適応ポストフィルタ 21…ホルマント強調フィルタ 22…ピッチ強調フィルタ 101…トレーニング音声素片(第1の音声素片) 102…トレーニング音声素片にラベル付けされた音素
環境 103…入力音声素片(第2の音声素片) 104…代表音声素片 105…音素環境クラスタ 106…音素環境クラスタ 107…代表音声素片選択情報 108…代表音声素片 111…韻律情報 112…音韻記号列 113…合成音声信号 114…合成音声信号1 ... Synthesis unit learning system 2 ... Rule synthesis system 11 ... Representative speech unit generation unit 12 ... Phoneme environment cluster storage unit 13 ... Representative speech unit storage unit 14 ... Element selection unit 15 ... Speech synthesis unit 16 ... Adaptive post filter 21 ... Formant enhancement filter 22 ... Pitch enhancement filter 101 ... Training speech unit (first speech unit) 102 ... Phoneme environment labeled on training speech unit 103 ... Input speech unit (second speech unit) ) 104 ... Representative speech segment 105 ... Phoneme environment cluster 106 ... Phoneme environment cluster 107 ... Representative speech segment selection information 108 ... Representative speech segment 111 ... Prosody information 112 ... Phonological symbol string 113 ... Synthetic speech signal 114 ... Synthetic speech signal
Claims (9)
時間長の少なくとも一方に従って複数の第2の音声素片
のピッチおよび継続時間長の少なくとも一方を変更する
ことにより複数の合成音声素片を生成し、 これらの合成音声素片と前記第1の音声素片との間の距
離尺度に基づいて前記第2の音声素片から複数の代表音
声素片を選択して記憶し、 これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成することを特徴とす
る音声合成方法。1. A plurality of synthetic speech units by changing at least one of a pitch and a duration of a plurality of second speech units according to at least one of a pitch and a duration of a plurality of first speech units. Generate a speech segment, select a plurality of representative speech segments from the second speech segment based on a distance measure between the synthesized speech segment and the first speech segment, and store the selected speech segment. A voice synthesis method comprising synthesizing a voice by selecting a predetermined representative voice unit from the representative voice units and connecting them.
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第2の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、 これらの合成音声素片と前記第1の音声素片との間の距
離尺度に基づいて前記第2の音声素片から複数の代表音
声素片を選択して記憶し、 前記距離尺度に基づいて前記代表音声素片にそれぞれ対
応する複数の音素環境クラスタを生成し、 前記代表音声素片から入力音素の音素環境を含む音素環
境クラスタに対応する代表音声素片を選択して接続する
ことによって音声を合成することを特徴とする音声合成
方法。2. The phoneme environment is modified in accordance with at least one of the pitch and / or duration of a plurality of first speech units labeled with a phoneme environment. Generate a plurality of synthesized speech units, and select a plurality of representative speech units from the second speech unit based on a distance measure between these synthesized speech units and the first speech unit. And storing a plurality of phoneme environment clusters respectively corresponding to the representative speech units based on the distance measure, representative speech corresponding to the phoneme environment cluster including the phoneme environment of the input phoneme from the representative speech unit A voice synthesizing method characterized by synthesizing voice by selecting and connecting unit pieces.
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第2の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、 これらの合成音声素片と前記第1の音声素片との間の距
離尺度に基づいて複数の音素環境クラスタを生成し、 前記距離尺度に基づいて前記第2の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、 これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成することを特徴とす
る音声合成方法。3. The phoneme environment changes at least one of the pitch and duration of a plurality of second speech units according to at least one of the pitch and duration of a plurality of labeled first speech units. To generate a plurality of synthetic speech units, generate a plurality of phoneme environment clusters based on a distance measure between the synthetic speech units and the first speech unit, and generate the phoneme environment cluster based on the distance measure. From the second speech unit, a plurality of representative speech units respectively corresponding to the respective phoneme environment clusters are selected and stored, and a predetermined representative speech unit is selected from these representative speech units to connect the speech units. A method for synthesizing speech, which comprises synthesizing.
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第2の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、 これらの合成音声素片と前記第1の音声素片との間の距
離尺度に基づいて複数の音素環境クラスタを生成し、 前記距離尺度に基づいて前記第2の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、 これらの代表音声素片から入力音素の音素環境を含む音
素環境クラスタに対応する代表音声素片を選択して接続
することによって音声を合成することを特徴とする音声
合成方法。4. The phoneme environment changes at least one of a pitch and a duration of a plurality of second phonemes according to at least one of a pitch and a duration of a plurality of labeled first phonemes. To generate a plurality of synthetic speech units, generate a plurality of phoneme environment clusters based on a distance measure between the synthetic speech units and the first speech unit, and generate a plurality of phoneme environment clusters based on the distance measure. A plurality of representative speech units respectively corresponding to the respective phoneme environment clusters are selected from the second speech unit and stored, and a representative speech corresponding to a phoneme environment cluster including the phoneme environment of the input phoneme from these representative speech units. A voice synthesizing method characterized by synthesizing voice by selecting and connecting unit pieces.
時間長の少なくとも一方に従って複数の第2の音声素片
のピッチおよび継続時間長の少なくとも一方を変更する
ことにより複数の合成音声素片を生成し、 これらの合成音声素片についてスペクトル整形を行い、 このスペクトル整形を行った後の各合成音声素片と前記
第1の音声素片との間の距離尺度に基づいて前記第2の
音声素片から複数の代表音声素片を選択して記憶し、 これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成し、 この合成した音声のスペクトル整形を行って最終的な合
成音声を生成することを特徴とする音声合成方法。5. A plurality of synthetic speech units by changing at least one of a pitch and a duration of a plurality of second speech units according to at least one of a pitch and a duration of a plurality of first speech units. Generate a speech segment, perform spectrum shaping on these synthesized speech segments, and based on the distance measure between each synthesized speech segment after the spectrum shaping and the first speech segment Of a plurality of representative speech units are selected and stored, a predetermined representative speech unit is selected from these representative speech units and connected to synthesize the speech, and the synthesized speech spectrum A voice synthesis method characterized by performing shaping to generate a final synthesized voice.
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第2の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、 これらの合成音声素片についてスペクトル整形を行い、 このスペクトル整形を行った後の各合成音声素片と前記
第1の音声素片との間の距離尺度に基づいて前記第2の
音声素片から複数の代表音声素片を選択して記憶し、 前記距離尺度に基づいて前記代表音声素片にそれぞれ対
応する複数の音素環境クラスタを生成し、 前記代表音声素片から入力音素の音素環境を含む音素環
境クラスタに対応する代表音声素片を選択して接続する
ことによって音声を合成し、 この合成した音声のスペクトル整形を行って最終的な合
成音声を生成することを特徴とする音声合成方法。6. The phoneme environment changes at least one of a pitch and a duration of a plurality of second phonemes according to at least one of a pitch and a duration of a plurality of labeled first phonemes. Generate a plurality of synthesized speech units, perform spectrum shaping on these synthesized speech units, and measure the distance between each synthesized speech unit after the spectrum shaping and the first speech unit. A plurality of representative speech units are selected and stored from the second speech unit based on, and a plurality of phoneme environment clusters respectively corresponding to the representative speech units are generated based on the distance measure. A speech is synthesized by selecting and connecting a representative speech segment corresponding to a phoneme environment cluster including the phoneme environment of the input phoneme from the speech segment, and performing spectrum shaping of this synthesized speech to finally generate the speech. Speech synthesis method characterized by generating a synthesized speech.
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第2の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、 これらの合成音声素片についてスペクトル整形を行い、 このスペクトル整形を行った後の各合成音声素片と前記
第1の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、 前記距離尺度に基づいて前記第2の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、 これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成し、 この合成した音声のスペクトル整形を行って最終的な合
成音声を生成することを特徴とする音声合成方法。7. The phoneme environment changes at least one of a pitch and a duration of a plurality of second phonemes according to at least one of a pitch and a duration of a plurality of labeled first phonemes. Generate a plurality of synthesized speech units, perform spectrum shaping on these synthesized speech units, and measure the distance between each synthesized speech unit after the spectrum shaping and the first speech unit. A plurality of phoneme environment clusters are generated based on the distance measure, and a plurality of representative phoneme units corresponding to the respective phoneme environment clusters are selected and stored from the second phoneme unit based on the distance measure. A sound characterized by synthesizing a voice by selecting and connecting a predetermined representative voice segment from the voice unit, and performing spectrum shaping of the synthesized voice to generate a final synthesized voice. Synthetic methods.
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第2の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、 これらの合成音声素片についてスペクトル整形を行い、 このスペクトル整形を行った後の各合成音声素片と前記
第1の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、 前記距離尺度に基づいて前記第2の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、 これらの代表音声素片から入力音素の音素環境を含む音
素環境クラスタに対応する代表音声素片を選択して接続
することによって音声を合成し、 この合成した音声のスペクトル整形を行って最終的な合
成音声を生成することを特徴とする音声合成方法。8. The phoneme environment changes at least one of a pitch and a duration of a plurality of second phonemes according to at least one of a pitch and a duration of a plurality of labeled first phonemes. Generate a plurality of synthesized speech units, perform spectrum shaping on these synthesized speech units, and measure the distance between each synthesized speech unit after the spectrum shaping and the first speech unit. A plurality of phoneme environment clusters are generated based on the distance measure, and a plurality of representative phoneme units corresponding to the respective phoneme environment clusters are selected and stored from the second phoneme unit based on the distance measure. A speech is synthesized by selecting and connecting a representative speech unit corresponding to a phoneme environment cluster including the phoneme environment of the input phoneme from the speech unit, and performing spectrum shaping of this synthesized speech. Speech synthesis method characterized by generating a final synthetic speech.
時間長の少なくとも一方に従って代表音声素片を用いて
複数の合成音声素片を生成し、 これらの合成音声素片と前記複数の第1の音声素片との
間で定義される歪みの評価関数に基づいて複数の前記代
表音声素片を求めて記憶し、 これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成することを特徴とす
る音声合成方法。9. A plurality of synthetic speech segments are generated using a representative speech segment according to at least one of a pitch and a duration of a plurality of first speech segments, and these synthetic speech segments and the plurality of synthetic speech segments are generated. Based on the distortion evaluation function defined with the first speech unit, a plurality of representative speech units are obtained and stored, and a predetermined representative speech unit is selected from these representative speech units. A voice synthesis method characterized by synthesizing voice by connecting.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04669497A JP3281281B2 (en) | 1996-03-12 | 1997-02-28 | Speech synthesis method and apparatus |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5471496 | 1996-03-12 | ||
JP8-77393 | 1996-03-29 | ||
JP7739396 | 1996-03-29 | ||
JP8-54714 | 1996-03-29 | ||
JP04669497A JP3281281B2 (en) | 1996-03-12 | 1997-02-28 | Speech synthesis method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09319394A true JPH09319394A (en) | 1997-12-12 |
JP3281281B2 JP3281281B2 (en) | 2002-05-13 |
Family
ID=27292700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04669497A Expired - Lifetime JP3281281B2 (en) | 1996-03-12 | 1997-02-28 | Speech synthesis method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3281281B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091475A (en) * | 2000-09-18 | 2002-03-27 | Matsushita Electric Ind Co Ltd | Voice synthesis method |
WO2004109659A1 (en) * | 2003-06-05 | 2004-12-16 | Kabushiki Kaisha Kenwood | Speech synthesis device, speech synthesis method, and program |
JP2007148172A (en) * | 2005-11-29 | 2007-06-14 | Matsushita Electric Ind Co Ltd | Voice quality control apparatus, method, and program storage medium |
US7546241B2 (en) | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
JP2010008922A (en) * | 2008-06-30 | 2010-01-14 | Toshiba Corp | Speech processing device, speech processing method and program |
US7668717B2 (en) | 2003-11-28 | 2010-02-23 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
-
1997
- 1997-02-28 JP JP04669497A patent/JP3281281B2/en not_active Expired - Lifetime
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091475A (en) * | 2000-09-18 | 2002-03-27 | Matsushita Electric Ind Co Ltd | Voice synthesis method |
US7546241B2 (en) | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
WO2004109659A1 (en) * | 2003-06-05 | 2004-12-16 | Kabushiki Kaisha Kenwood | Speech synthesis device, speech synthesis method, and program |
US8214216B2 (en) | 2003-06-05 | 2012-07-03 | Kabushiki Kaisha Kenwood | Speech synthesis for synthesizing missing parts |
US7668717B2 (en) | 2003-11-28 | 2010-02-23 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
US7856357B2 (en) | 2003-11-28 | 2010-12-21 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
JP2007148172A (en) * | 2005-11-29 | 2007-06-14 | Matsushita Electric Ind Co Ltd | Voice quality control apparatus, method, and program storage medium |
JP4664194B2 (en) * | 2005-11-29 | 2011-04-06 | パナソニック株式会社 | Voice quality control device and method, and program storage medium |
JP2010008922A (en) * | 2008-06-30 | 2010-01-14 | Toshiba Corp | Speech processing device, speech processing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP3281281B2 (en) | 2002-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5740320A (en) | Text-to-speech synthesis by concatenation using or modifying clustered phoneme waveforms on basis of cluster parameter centroids | |
JP4328698B2 (en) | Fragment set creation method and apparatus | |
JP3408477B2 (en) | Semisyllable-coupled formant-based speech synthesizer with independent crossfading in filter parameters and source domain | |
US7856357B2 (en) | Speech synthesis method, speech synthesis system, and speech synthesis program | |
US6332121B1 (en) | Speech synthesis method | |
JP4551803B2 (en) | Speech synthesizer and program thereof | |
US7035791B2 (en) | Feature-domain concatenative speech synthesis | |
JP3667950B2 (en) | Pitch pattern generation method | |
JPH031200A (en) | Regulation type voice synthesizing device | |
JPH08110789A (en) | Voice synthesis method by link and partial overlap of waveforms | |
JPH1097267A (en) | Method and device for voice quality conversion | |
JP3281266B2 (en) | Speech synthesis method and apparatus | |
JP4225128B2 (en) | Regular speech synthesis apparatus and regular speech synthesis method | |
JP3281281B2 (en) | Speech synthesis method and apparatus | |
JP2017167526A (en) | Multiple stream spectrum expression for synthesis of statistical parametric voice | |
JP2583074B2 (en) | Voice synthesis method | |
JP5175422B2 (en) | Method for controlling time width in speech synthesis | |
JP3091426B2 (en) | Speech synthesizer with spontaneous speech waveform signal connection | |
JP3727885B2 (en) | Speech segment generation method, apparatus and program, and speech synthesis method and apparatus | |
JP3459600B2 (en) | Speech data amount reduction device and speech synthesis device for speech synthesis device | |
JP3081300B2 (en) | Residual driven speech synthesizer | |
JPH09179576A (en) | Voice synthesizing method | |
JPH11249676A (en) | Voice synthesizer | |
Sassi et al. | A text-to-speech system for Arabic using neural networks | |
JP3310217B2 (en) | Speech synthesis method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080222 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090222 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100222 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100222 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140222 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term |