JP2001092481A - Method for rule speech synthesis - Google Patents

Method for rule speech synthesis

Info

Publication number
JP2001092481A
JP2001092481A JP26988499A JP26988499A JP2001092481A JP 2001092481 A JP2001092481 A JP 2001092481A JP 26988499 A JP26988499 A JP 26988499A JP 26988499 A JP26988499 A JP 26988499A JP 2001092481 A JP2001092481 A JP 2001092481A
Authority
JP
Japan
Prior art keywords
state
phoneme
units
hmnet
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP26988499A
Other languages
Japanese (ja)
Inventor
Hiroyuki Hirai
啓之 平井
Makoto Hashimoto
誠 橋本
Hideji Nishida
秀治 西田
Kazuyoshi Okura
計美 大倉
Hiroki Onishi
宏樹 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP26988499A priority Critical patent/JP2001092481A/en
Publication of JP2001092481A publication Critical patent/JP2001092481A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a method for rule speech synthesis whereby speech synthesis is performed by utilizing CVs and speech elements in a VC unit prepared beforehand and whereby a speech dictionary volume and distortion in a connection plane are reduced. SOLUTION: The method for rule speech synthesis in this invention is characterized by dividing CVs and speech elements in a VC unit into synthesis units smaller than phoneme units by using HMnet, creating an intra-phoneme network over all the synthesis units, and selecting speech elements corresponding to an input phoneme train on the basis of the obtained intra-phoneme network.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、規則音声合成方
法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a rule speech synthesis method.

【0002】[0002]

【従来の技術】規則音声合成では、一般に、音声データ
から抽出した接続単位(音声素片)を、合成したい文章
にあわせて選択し、韻律を修正して接続することによっ
て音声合成が行なわれる。
2. Description of the Related Art In rule-based speech synthesis, speech synthesis is generally performed by selecting a connection unit (speech unit) extracted from speech data in accordance with a sentence to be synthesized, correcting the prosody, and connecting.

【0003】接続単位には、(C,V)、(CV,V
C)、VCV等が用いられる。ここで、Cは子音を示
し、Vは母音を示している。
The connection units are (C, V), (CV, V
C), VCV, etc. are used. Here, C indicates a consonant, and V indicates a vowel.

【0004】接続単位数が最も少ないのは、音素(C,
V)を接続単位とする場合であるが、音素と音素との境
界では、前後の音素の種類によって音響的性質が異なる
ため、各音素毎に1つの素片しか持たないとすると、接
続面での歪みが増加する。このため、一般的に、各音素
毎に複数の素片を持つ必要がある。各接続単位毎に複数
の素片を持たせるようにすると、音質は改善されるが、
音声辞書のサイズを増大させることになる。
The number of connection units is the smallest for phonemes (C,
V) is a connection unit, but at the boundary between phonemes, since the acoustic properties differ depending on the types of the preceding and succeeding phonemes, if each phoneme has only one segment, the connection surface Distortion increases. For this reason, it is generally necessary to have a plurality of segments for each phoneme. Having multiple segments for each connection unit improves sound quality,
This will increase the size of the voice dictionary.

【0005】ところで、(CV,VC)を接続単位にし
た場合、日本語を合成しようとすると、各接続単位毎に
1つの素片しか持たせないとしても、500程度の素片
が必要となる。さらに、音質の面から見ても、各接続単
位毎に1つの素片しか持たないとすると、先行または後
続音素が異なる接続単位を接続する場合が生じ、大きな
接続歪みが発声する原因となる。
By the way, when (CV, VC) is used as a connection unit, about 500 units are required to synthesize Japanese, even if only one unit is provided for each connection unit. . Further, from the viewpoint of sound quality, if each connection unit has only one segment, a preceding or succeeding phoneme may connect different connection units, which may cause significant connection distortion.

【0006】(CV,VC)を接続単位とした場合、異
なる接続単位間でも同じような波形が重複して含まれて
いる。このような部分を削除するためには、接続単位を
より細かくし、同じような音響的性質の部分を1つの接
続単位(合成単位)として共通化すればよい。また、先
行および後続音素が異なることによる影響は、音素全て
に均等に現れるのではない。したがって、接続単位が細
かければ、影響の大きい部分にだけ効率よく接続単位を
増やすことができる。
When (CV, VC) is used as a connection unit, similar waveforms are included in different connection units. In order to eliminate such a portion, the connection unit may be made finer, and a portion having similar acoustic properties may be shared as one connection unit (synthesis unit). In addition, the influence of different preceding and succeeding phonemes does not appear equally for all phonemes. Therefore, if the connection unit is fine, the connection unit can be efficiently increased only in a portion having a large influence.

【0007】このような考え方は、音素(C,V)を接
続単位とした場合でも成り立ち、既に伊藤ら(特開平9
−222898参照)によって提案されている。つま
り、音素毎にノードを介して複数のアークが連結され、
各アークに対応する音響特徴パラメータが添付されてい
る音響パラメータネットワークを記憶しておき、入力音
素列に応じてアークの系列を探索し、音響特徴パラメー
タ列を形成し、音声の合成を行なうものである。
[0007] Such a concept holds even when a phoneme (C, V) is used as a connection unit, and has already been described by Ito et al.
-222898). In other words, multiple arcs are connected via nodes for each phoneme,
A sound parameter network to which sound characteristic parameters corresponding to each arc are attached is stored, a series of arcs is searched according to an input phoneme sequence, a sound characteristic parameter sequence is formed, and speech is synthesized. is there.

【0008】この方法では各音素毎にネットワークを形
成している。一方、予め用意したCV,VC単位の素片
からなる音声データベースに対しては、全ての合成単位
にまたがるネットワークを構成する必要があるため、簡
単にはこの方法を応用できない。
In this method, a network is formed for each phoneme. On the other hand, it is not easy to apply this method to a speech database made up of CV and VC units prepared in advance, since it is necessary to construct a network that spans all synthesis units.

【0009】[0009]

【発明が解決しようとする課題】この発明は、予め用意
したCV,VC単位の素片を利用して音声合成を行なう
音声合成方法であって、音声辞書のサイズの低減させる
ことができるとともに接続面での歪みを減少させること
ができる規則音声合成方法を提供することを目的とす
る。
SUMMARY OF THE INVENTION The present invention relates to a voice synthesizing method for synthesizing voice using a unit of CV or VC prepared in advance. It is an object of the present invention to provide a rule-based speech synthesis method capable of reducing surface distortion.

【0010】[0010]

【課題を解決するための手段】この発明による規則音声
合成方法は、HMnetを用いてCV,VC単位の素片
を、音素単位より細かい合成単位に分割し、全ての合成
単位にまたがる音素内ネットワークを生成し、得られた
音素内ネットワークに基づいて入力音素列に対応する素
片を選択するようにしたことを特徴とする。
The rule speech synthesis method according to the present invention divides a CV / VC unit segment into smaller synthesis units than phoneme units using HMnet, and forms a network within a phoneme spanning all synthesis units. Is generated, and a segment corresponding to the input phoneme sequence is selected based on the obtained intra-phoneme network.

【0011】音素内ネットワークは、たとえば、予め用
意した個々のCV,VC単位の素片の始端部分から得ら
れる複数の第1状態と、全てのCV,VC単位の素片の
中央部分から得られる1つの第2状態と、個々のCV,
VC単位の素片の終端部分から得られる複数の第3状態
とよって構成されるHMnetの初期状態から、逐次状
態分割法によって状態を分割するステップ、および任意
の状態数まで分割されたHMnetと、個々のCV,V
C単位の素片とに基づいて、HMnetの各状態の代表
素片を決定するステップによって生成される。
The intra-phoneme network is obtained, for example, from a plurality of first states obtained from the starting end portions of the individual CV and VC units prepared in advance and the central portion of all the CV and VC units. One second state and individual CVs,
A step of dividing a state by an iterative state division method from an initial state of HMNet composed of a plurality of third states obtained from a terminal part of a VC unit fragment, and HMNet divided to an arbitrary number of states; Individual CV, V
It is generated by the step of determining a representative segment of each state of HMNet based on the segment in C units.

【0012】HMnetの各状態の代表素片を決定する
ステップは、たとえば、個々のCV,VC単位の素片
と、任意の状態数まで分割されHMnetから、各学習
用素片を各状態に分割し、各状態の素片の候補を作成す
るステップ、およびHMnetの全ての状態間の接続点
に、HMnetの同じ音素からなる終端と始端の全ての
組み合わせを加えたものを総接続点とし、総接続点での
接続歪みの総和が最小となるような素片の組み合わせを
各状態の素片候補の中から選択して、代表素片とするス
テップからなる。
The step of determining a representative segment of each state of HMNet is performed, for example, by dividing individual segments in units of CV and VC and an arbitrary number of states, and dividing each learning segment into each state from HMNet. Then, a step of creating a candidate of a segment of each state, and a connection point between all the states of HMNet plus all combinations of the terminal and the starting end of the same phoneme of HMNet are defined as a total connection point. The method comprises the steps of selecting a combination of segments that minimizes the sum of connection distortions at the connection points from the segment candidates in each state and setting the combination as a representative segment.

【0013】[0013]

【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0014】〔1〕発明の特徴についての説明[1] Description of Features of the Invention

【0015】この発明では、CV,VCを接続単位とし
た音声合成方法であって、隠れマルコフ網(HMne
t)を用いて、全ての接続単位に対してネットワークを
形成することにより、音声辞書の圧縮を行なうものであ
る。
According to the present invention, there is provided a speech synthesizing method using CV and VC as connection units, wherein the method comprises a hidden Markov network (HMne).
A speech dictionary is compressed by forming a network for all connection units using t).

【0016】HMnetとは、音声認識で用いられる手
法であり、HMMの学習時に、異なる音素や異音間での
状態の共有を行なうことによって、全体のモデルのパラ
メータを少なくし、統計的に安定なモデルを推定しよう
とするものである(「鷹見,嵯峨山:”逐次状態分割法
(SSS)による隠れマルコフネットワークの自動生
成”日本音響学会平成3年度周期発表会講演論文集,2
−5−1−(1991−9)」参照)。この発明では、
HMnetの1状態に合成の1接続単位(合成単位)を
割り当てた。
HMNet is a technique used in speech recognition. During learning of the HMM, by sharing the state between different phonemes and allophones, the parameters of the entire model are reduced, and statistically stable. ("Takami, Sagayama:" Automatic Generation of Hidden Markov Network by Sequential State Division Method (SSS) "," Proc.
−5-1- (1991-1-9) ”). In the present invention,
One connection unit of synthesis (synthesis unit) was assigned to one state of HMNet.

【0017】図1は、HMnetを用いてCV,VC単
位の素片を、音素単位より細かい合成単位に分割するこ
とにより得られた音素内ネットワークの一例を示してい
る。
FIG. 1 shows an example of an intra-phoneme network obtained by dividing a segment in CV and VC units into smaller synthesis units than phoneme units using HMNet.

【0018】各楕円は各状態を示し、各状態に合成の1
接続単位(音素単位より細かい単位)が割り当てられて
いる。楕円内のa−s,z,nは、この状態を〔a〕で
始まり、〔s〕,〔z〕,〔n〕で終わる素片が通るこ
とを示している。
Each ellipse indicates each state, and each state has a composite 1
Connection units (units smaller than phoneme units) are assigned. The symbols a-s, z, and n in the ellipse indicate that a segment starting with [a] and ending with [s], [z], [n] passes.

【0019】〔2〕 音素内ネットワークを生成する方
法についての説明
[2] Description of method for generating intra-phoneme network

【0020】以下、HMnetを用いてCV,VC素片
をより細かく分割し、音素内ネットワークを生成する方
法について説明する。
Hereinafter, a method of generating a network within a phoneme by dividing a CV / VC segment into smaller pieces by using HMNet will be described.

【0021】図2は、HMnetの初期状態を示してい
る。
FIG. 2 shows the initial state of HMNet.

【0022】左一列は、学習用に用意した全てのCV,
VC素片のうち、〔a〕で始まる素片を抽出し、その始
端部分から計算した音響パラメータの平均値および分散
値からなる状態を〔a*〕、〔u〕で始まる素片から同
様にして計算された状態を〔u*〕、というようにして
生成された複数の第1状態を表している。中央の状態
は、全てのCV,VC素片の中心部分から計算した音響
パラメータの平均値および分散値からなる1つの第2状
態を表している。右一列は、個々のCV,VC素片の終
端部分からそれぞれ計算した音響パラメータの平均値お
よび分散値からなる複数の第3状態を表している。
The left column shows all CVs prepared for learning,
Of the VC segments, a segment beginning with [a] is extracted, and the state consisting of the average value and the variance value of the acoustic parameters calculated from the beginning portion is similarly set from the segments beginning with [a *] and [u]. Represents the plurality of first states generated in such a manner as [u *]. The central state represents one second state including the average value and the variance of the acoustic parameters calculated from the central portions of all the CV and VC segments. The right column shows a plurality of third states including the average value and the variance value of the acoustic parameters calculated from the terminal portions of the individual CV and VC segments.

【0023】状態の分割には、逐次状態分割法を用い
た。音声認識に用いられる逐次状態分割法では、コンテ
キスト方向への分割を、音素の種類あるいは音素環境に
基づいて行なっているが、この実施の形態では、音素の
種類に係わらず状態を増やすことにした。
For the state division, a sequential state division method was used. In the sequential state division method used for speech recognition, division in the context direction is performed based on the phoneme type or phoneme environment. In this embodiment, however, the number of states is increased regardless of the phoneme type. .

【0024】この理由は、音声合成時の音響パラメータ
の歪みが音素環境だけでなく、音韻環境などからも影響
を受けることを考慮し、それらの要因に対しても状態を
割り当てるためである。
The reason for this is to take into account that the distortion of the acoustic parameters at the time of speech synthesis is affected not only by the phoneme environment but also by the phoneme environment, and to assign a state to those factors.

【0025】逐次状態分割法によって、たとえば、図1
に示すように、任意の状態数まで状態が分割されると、
各状態の代表素片を次のようにして決定する。
By the successive state division method, for example, FIG.
As shown in, when the state is divided into an arbitrary number of states,
The representative segment of each state is determined as follows.

【0026】(1)各学習用素片(CV,VC素片)
と、任意の状態数まで分割されHMnetから、Vit
erbiアルゴリズムを用いて、各学習用素片を各状態
に分割し、各状態の素片の候補を作成する。
(1) Each learning unit (CV, VC unit)
And the number of states is divided into
Using the erbi algorithm, each learning segment is divided into each state, and candidate segments for each state are created.

【0027】つまり、HMnetにおける任意の学習用
素片に対応する経路における各状態での時間長の比に基
づいて、当該学習用素片が各状態に分割される。同じ状
態から同じ状態への遷移を伴わない状態についての時間
長を1とした場合には、同じ状態から同じ状態への遷移
を伴う状態については、同じ状態から同じ状態への遷移
回数をnとすると、この状態での時間長は(1+n)と
なる。
That is, the learning unit is divided into the states based on the ratio of the time length in each state on the path corresponding to an arbitrary learning unit in HMNet. Assuming that the time length of a state that does not involve a transition from the same state to the same state is 1, for a state that involves a transition from the same state to the same state, the number of transitions from the same state to the same state is n. Then, the time length in this state is (1 + n).

【0028】(2)HMnetの状態遷移を元に、全て
の状態間の接続関係を求める。
(2) The connection relation between all the states is obtained based on the state transition of HMNet.

【0029】(3)上記接続関係にHMnetの同じ音
素からなる終端と始端の全ての組み合わせを加えたもの
を総接続点とする。
(3) The total connection point is obtained by adding all the combinations of the terminal and the start of the same phoneme of HMNet to the above connection relation.

【0030】(4)総接続点での接続歪みの総和が最小
となるような素片の組み合わせを各状態の素片候補の中
から選択し、代表素片とする。
(4) A combination of segments that minimizes the sum of the connection distortions at the total connection points is selected from the segment candidates in each state and is used as a representative segment.

【0031】上記(4)の代表素片の選択には、シミュ
レーティッドアニーリング(SA)を用いた。また、接
続歪みは、次の数式1により計算した。
For the selection of the representative element in the above (4), simulated annealing (SA) was used. The connection distortion was calculated by the following equation (1).

【0032】[0032]

【数1】 (Equation 1)

【0033】DF0、Dpow およびDcep は、それぞれ接
続する2つの合成単位の接続点での基本周波数の差、パ
ワーの差およびケプストラム距離を表している。また、
FO、wpow およびwcep は、それぞれDF0、Dpow
よびDcep に乗ずる重み係数を表している。
D F0 , D pow and D cep represent a difference in fundamental frequency, a difference in power, and a cepstrum distance at a connection point of the two combining units connected respectively. Also,
w FO , w pow and w cep represent weighting factors by which D F0 , D pow and D cep are multiplied, respectively.

【0034】〔3〕音声合成方法の説明[3] Description of speech synthesis method

【0035】以下、図1の音素内ネットワーク(HMn
et)を用いて、音声合成を行なう場合について説明す
る。
The intra-phoneme network (HMn) shown in FIG.
(et) will be described.

【0036】ここでは、「あさ」を合成する場合につい
て説明する。「あさ」は、”a−s”の素片と、”s−
a”の素片とにより合成される。
Here, a description will be given of a case where "asa" is synthesized. "Asa" is a fragment of "as" and "s-
a ".

【0037】(1)まず、図3に示すように、”a−
s”が通る経路を抽出する。
(1) First, as shown in FIG.
The path through which s "passes is extracted.

【0038】(2)次に、図4に示すように、”s−
a”が通る経路を抽出する。
(2) Next, as shown in FIG.
The path through which a "passes is extracted.

【0039】(3)そして、図5に示すように、これら
の経路を接続する。
(3) Then, as shown in FIG. 5, these routes are connected.

【0040】この場合、状態Aを通る経路と、状態Bを
通る経路とがある。そこで、どちらの経路が接続歪みが
小さいかを調べ、接続歪みが小さい法の経路を選択す
る。選択された経路上の各状態の代表素片を適当な高
さ、長さ、大きさに修正した後、接続することによっ
て、合成音声を生成する。
In this case, there is a path passing through the state A and a path passing through the state B. Therefore, it is checked which path has a small connection distortion, and a modal path with a small connection distortion is selected. After the representative segments in each state on the selected route are corrected to appropriate height, length, and size, they are connected to generate synthesized speech.

【0041】[0041]

【発明の効果】この発明によれば、予め用意したCV,
VC単位の素片を利用して音声合成を行なう音声合成方
法において、音声辞書のサイズの低減させることができ
るとともに接続面での歪みを減少させることができるよ
うになる。
According to the present invention, a CV prepared in advance,
In a speech synthesis method for performing speech synthesis using segments in VC units, it is possible to reduce the size of a speech dictionary and reduce distortion on a connection surface.

【図面の簡単な説明】[Brief description of the drawings]

【図1】HMnetを用いてCV,VC単位の素片を、
音素単位より細かい合成単位に分割することにより得ら
れた音素内ネットワークの一例を示す模式図である。
FIG. 1 shows a CV, VC unit fragment using HMNet.
It is a schematic diagram which shows an example of the intra-phoneme network obtained by dividing | segmenting into a synthesis unit finer than a phoneme unit.

【図2】HMnetの初期状態を示す模式図である。FIG. 2 is a schematic diagram showing an initial state of HMNet.

【図3】図1のHMnetのうち、”a−s”が通る経
路を示す模式図である。
FIG. 3 is a schematic diagram showing a path through which “as” of HMNet of FIG. 1 passes.

【図4】図1のHMnetのうち、”s−a”が通る経
路を示す模式図である。
FIG. 4 is a schematic diagram illustrating a path through which “sa” passes among HMNets of FIG. 1;

【図5】図3の経路と図4の経路とを接続することによ
って得られる経路を示す模式図である。
FIG. 5 is a schematic diagram showing a route obtained by connecting the route in FIG. 3 and the route in FIG. 4;

フロントページの続き (72)発明者 西田 秀治 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内 (72)発明者 大倉 計美 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内 (72)発明者 大西 宏樹 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内 Fターム(参考) 5D045 AA07 Continuation of the front page (72) Inventor Hideharu Nishida 2-5-5 Keihanhondori, Moriguchi-shi, Osaka Sanyo Electric Co., Ltd. (72) Inventor Mitsumi Okura 2-5-5-1 Keihanhondori, Moriguchi-shi, Osaka No. Sanyo Electric Co., Ltd. (72) Inventor Hiroki Onishi 2-5-5 Keihanhondori, Moriguchi-shi, Osaka F-term in Sanyo Electric Co., Ltd. (reference) 5D045 AA07

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 HMnetを用いてCV,VC単位の素
片を、音素単位より細かい合成単位に分割し、全ての合
成単位にまたがる音素内ネットワークを生成し、得られ
た音素内ネットワークに基づいて入力音素列に対応する
素片を選択するようにした規則音声合成方法。
1. A unit of CV and VC units is divided into synthesis units smaller than phoneme units using HMNet, a network within the phoneme over all the synthesis units is generated, and based on the obtained network within the phoneme. A rule speech synthesis method in which a segment corresponding to an input phoneme sequence is selected.
【請求項2】 音素内ネットワークは、 予め用意した個々のCV,VC単位の素片の始端部分か
ら得られる複数の第1状態と、全てのCV,VC単位の
素片の中央部分から得られる1つの第2状態と、個々の
CV,VC単位の素片の終端部分から得られる複数の第
3状態とよって構成されるHMnetの初期状態から、
逐次状態分割法によって状態を分割するステップ、およ
び任意の状態数まで分割されたHMnetと、個々のC
V,VC単位の素片とに基づいて、HMnetの各状態
の代表素片を決定するステップ、 によって生成される請求項1に記載の規則音声合成方
法。
2. The intra-phoneme network is obtained from a plurality of first states obtained from a starting end portion of each CV / VC unit piece prepared in advance and a central portion of all CV / VC unit pieces. From the initial state of HMNet, which is composed of one second state and a plurality of third states obtained from the terminal portions of the individual CV and VC units,
Splitting the states by the sequential state splitting method, and HMNet split into an arbitrary number of states, and individual C
2. The rule speech synthesis method according to claim 1, wherein: a step of determining a representative segment of each state of HMNet based on the segments in V and VC units.
【請求項3】 HMnetの各状態の代表素片を決定す
るステップは、 個々のCV,VC単位の素片と、任意の状態数まで分割
されHMnetから、各学習用素片を各状態に分割し、
各状態の素片の候補を作成するステップ、およびHMn
etの全ての状態間の接続点に、HMnetの同じ音素
からなる終端と始端の全ての組み合わせを加えたものを
総接続点とし、総接続点での接続歪みの総和が最小とな
るような素片の組み合わせを各状態の素片候補の中から
選択して、代表素片とするステップ、 を備えている請求項2に記載の規則音声合成方法。
3. The step of deciding a representative segment of each state of HMNet is performed by dividing individual segments in units of CV and VC and an arbitrary number of states and dividing each learning segment into each state from HMNet. And
Creating a candidate for each state segment; and HMn
The sum of the connection points between all the states of et and all the combinations of the end and start ends of the same phoneme of HMNet is defined as the total connection point, and the element that minimizes the sum of the connection distortion at the total connection point 3. The rule speech synthesis method according to claim 2, further comprising the step of: selecting a combination of segments from the segment candidates in each state to be a representative segment.
JP26988499A 1999-09-24 1999-09-24 Method for rule speech synthesis Pending JP2001092481A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26988499A JP2001092481A (en) 1999-09-24 1999-09-24 Method for rule speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26988499A JP2001092481A (en) 1999-09-24 1999-09-24 Method for rule speech synthesis

Publications (1)

Publication Number Publication Date
JP2001092481A true JP2001092481A (en) 2001-04-06

Family

ID=17478564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26988499A Pending JP2001092481A (en) 1999-09-24 1999-09-24 Method for rule speech synthesis

Country Status (1)

Country Link
JP (1) JP2001092481A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109660A1 (en) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood Device, method, and program for selecting voice data
JP2009080268A (en) * 2007-09-26 2009-04-16 Kddi Corp Piece database generating device, method and program for various kinds of speech synthesizer
US7603278B2 (en) 2004-09-15 2009-10-13 Canon Kabushiki Kaisha Segment set creating method and apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109660A1 (en) * 2003-06-04 2004-12-16 Kabushiki Kaisha Kenwood Device, method, and program for selecting voice data
US7603278B2 (en) 2004-09-15 2009-10-13 Canon Kabushiki Kaisha Segment set creating method and apparatus
JP2009080268A (en) * 2007-09-26 2009-04-16 Kddi Corp Piece database generating device, method and program for various kinds of speech synthesizer

Similar Documents

Publication Publication Date Title
JP3913770B2 (en) Speech synthesis apparatus and method
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US8175881B2 (en) Method and apparatus using fused formant parameters to generate synthesized speech
EP1221693B1 (en) Prosody template matching for text-to-speech systems
JP3910628B2 (en) Speech synthesis apparatus, speech synthesis method and program
US20070282608A1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
EP1884922A1 (en) Speech synthesis apparatus and method
CN104347080A (en) Voice analysis method and device, voice synthesis method and device, and medium storing voice analysis program
EP2462586B1 (en) A method of speech synthesis
JP2001034283A (en) Voice synthesizing method, voice synthesizer and computer readable medium recorded with voice synthesis program
JPH08110789A (en) Voice synthesis method by link and partial overlap of waveforms
US6424937B1 (en) Fundamental frequency pattern generator, method and program
JP2001092481A (en) Method for rule speech synthesis
JP3109778B2 (en) Voice rule synthesizer
JPH08335096A (en) Text voice synthesizer
JP3601974B2 (en) Voice synthesis device and voice synthesis method
EP1589524B1 (en) Method and device for speech synthesis
JP3532248B2 (en) Speech recognition device using learning speech pattern model
JP3344487B2 (en) Sound fundamental frequency pattern generator
JP2000231395A (en) Method and device for synthesizing voice
EP1640968A1 (en) Method and device for speech synthesis
JP2017090856A (en) Voice generation device, method, program, and voice database generation device
JP3310217B2 (en) Speech synthesis method and apparatus
JP2001117577A (en) Voice synthesizing device
JP2005300919A (en) Speech synthesizer

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040914