JPH09222898A - Regular voice synthesizer - Google Patents

Regular voice synthesizer

Info

Publication number
JPH09222898A
JPH09222898A JP8030549A JP3054996A JPH09222898A JP H09222898 A JPH09222898 A JP H09222898A JP 8030549 A JP8030549 A JP 8030549A JP 3054996 A JP3054996 A JP 3054996A JP H09222898 A JPH09222898 A JP H09222898A
Authority
JP
Japan
Prior art keywords
phoneme
acoustic
arc
series
arcs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8030549A
Other languages
Japanese (ja)
Inventor
Yoshiharu Ito
嘉治 伊藤
Norio Higuchi
宜男 樋口
Makoto Hashimoto
誠 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP8030549A priority Critical patent/JPH09222898A/en
Publication of JPH09222898A publication Critical patent/JPH09222898A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a regular sound synthesizer capable of implementing the sound synthesizing process via a smaller quantity of calculation with a memory device having a smaller memory capacity than the conventional example. SOLUTION: An acoustic parameter network connected with multiple arcs via nodes for each phoneme based on a sound data base and added with acoustic feature parameters corresponding to the arcs is stored in a memory 21, the connection state of at least three phonemes is expressed based on it, and a connection point distortion table indicating the connection state on each process phoneme is stored in a memory 22. A unit selection section 1 searches the arc series corresponding to each phoneme of the phoneme series in reference to the table based on the inputted phoneme series and reads out and outputs the acoustic feature parameters corresponding to the searched arc series in reference to the network. A parameter time series generation section 2 generates and outputs the time series of the acoustic feather parameters corresponding to the phoneme series, and a sound synthesis section 3 generates the synthesized sound signal corresponding to the phoneme series.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、規則音声合成装置
に関する。
TECHNICAL FIELD The present invention relates to a regular speech synthesizer.

【0002】[0002]

【従来の技術】従来、音声データから抽出した音声単位
を接続して音声合成する規則音声合成装置では、音声合
成時に付与する韻律とともに、用いる音声単位が合成音
声の品質に大きな影響を与えることが知られており、音
声単位の最適化の方法は、従来からいくつか提案されて
いる。例えば、文献1「中島ほか,“合成単位を自動生
成する規則合成法”,電子情報通信学会技術報告,SI
−87−15,1987年」において開示されたCOC
法は、学習用データを音韻環境に基づいたクラスタリン
グにより、音韻の音響的な変動を表現しようとしたもの
である。また、接続部の歪みを最小にする単位選択法な
ども提案されている(例えば、文献2「広川ほか,“波
形編集型合成方式におけるスペクトル連続性を考慮した
波形選択法”,音響学会講演論文集,2−6−10,1
990年9月」参照。)。
2. Description of the Related Art Conventionally, in a regular voice synthesizing apparatus for connecting voice units extracted from voice data and synthesizing voices, it is possible that the voice units used have a great influence on the quality of the synthesized voice together with the prosody given during the voice synthesis. It is known and several methods for optimizing voice units have been proposed in the past. For example, Reference 1: “Nakajima et al.,“ Rule Synthesis Method for Automatically Generating Synthesis Units ”, IEICE Technical Report, SI
-87-15, 1987 "
The method attempts to represent acoustic variations of phonemes by clustering learning data based on phoneme environments. A unit selection method that minimizes the distortion of the connection part has also been proposed (see, for example, Reference 2 “Hirokawa et al.,“ Waveform Selection Method Considering Spectral Continuity in Waveform Editing Type Synthesis Method ”), Acoustical Society of Japan. Shu, 2-6-10, 1
See September 990 ”. ).

【0003】これに対して、本出願人は、これまで音声
データベース中に含まれる様々な長さの音素連鎖を合成
単位として用いる非均一単位接続音声合成方式を提案
し、その有効性を示してきた(例えば、文献3「岩橋ほ
か,“音響的尺度に基づく複合音声単位選択法”,電子
情報通信学会技術報告,SP91−5,1991年5
月」参照。)。この文献3の方法(以下、第1の従来例
の方法という。)では、音声単位の接続による規則音声
合成装置において、使用環境での音素連鎖に応じて適切
な候補の絞り込みにより、音素を最小単位とする最適な
音声単位を選択する方法が用いられている。この従来例
の方法では、目的とする音素系列の一部と一致する音素
連鎖がデータベース中に存在する場合には、比較的長い
単位のままで利用できるため、調音結合の影響を含んだ
音響特徴が再現可能であり、高い自然性が得られること
が確認されている。
On the other hand, the present applicant has proposed a non-uniform unit connection speech synthesis method using a phoneme chain of various lengths contained in a speech database as a synthesis unit, and has shown its effectiveness. (For example, Reference 3 “Iwahashi et al.,“ Composite voice unit selection method based on acoustic scale ”, IEICE technical report, SP91-5, 1991 May 5
Month ". ). According to the method of Document 3 (hereinafter, referred to as the method of the first conventional example), in a rule-based speech synthesizer that connects voice units, the phoneme is minimized by narrowing down an appropriate candidate according to the phoneme chain in the usage environment. A method of selecting an optimum voice unit as a unit is used. In this conventional method, when a phoneme chain that matches a part of the target phoneme sequence exists in the database, it can be used as a relatively long unit, so that the acoustic features including the influence of articulatory coupling can be used. Has been confirmed to be reproducible and highly natural.

【0004】さらに、文献4「中嶌ほか,“音韻環境に
基づくクラスタリングによる規則合成法”,電子情報通
信学会論文誌、D−II,Vol.J72−D−II,
N0.8,pp.1174−1179,1989年8
月」において、音韻環境に基づくクラスタリングによる
規則合成法(以下、第2の従来例の方法という。)が開
示されている。当該方法では、音韻記号及び境界の付与
された学習用音声データに基づいた統計的手法により合
成単位を自動的に生成する。ここでは、学習データ上で
同一の音韻ん記号の付与されたセグメントの集合である
クラスタを前後の音韻環境によって逐次サブクラスに分
割する。分割の際の音韻環境は、分割後のクラスタの空
間的な広がりを最小化するように選択し、このような逐
次的な分割処理の結果として、最終的に限られたクラス
タの重心マトリックスを合成単位として累積することを
特徴としている。
Reference 4 "Nakamine et al.," Rule Synthesis Method Based on Phonological Environment Clustering ", IEICE Transactions, D-II, Vol. J72-D-II,
N0.8, pp. 1174-1179, 1989 8
"Month" discloses a rule synthesis method by clustering based on a phoneme environment (hereinafter, referred to as a second conventional example method). In this method, a synthesis unit is automatically generated by a statistical method based on learning phonetic data to which phonological symbols and boundaries are added. Here, a cluster, which is a set of segments to which the same phonological symbols are added on the learning data, is sequentially divided into subclasses according to the preceding and following phonological environments. The phonological environment at the time of partitioning is selected so as to minimize the spatial spread of the clusters after partitioning, and as a result of such sequential partitioning processing, finally the center of gravity matrix of the clusters is synthesized. It is characterized by accumulating as a unit.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、第1と
第2の従来例の方法では、音声単位の選択において実際
の音声データによる尺度の計算による候補の絞り込みを
行っていないために、比較的大きな記憶容量の記憶装置
と、大量の演算量が必要であるという問題点があった。
However, in the methods of the first and second prior art examples, candidates are not narrowed down by calculation of a scale based on actual voice data in selection of voice units, which is relatively large. There is a problem that a storage device having a storage capacity and a large amount of calculation are required.

【0006】本発明の目的は以上の問題点を解決し、従
来例に比較して小さな記憶容量の記憶装置を用いて、よ
り少量の演算量で音声合成処理を実行することができる
規則音声合成装置を提供することにある。
An object of the present invention is to solve the above problems, and to use a storage device having a smaller storage capacity as compared with the conventional example to perform a voice synthesis process with a smaller amount of calculation. To provide a device.

【0007】[0007]

【課題を解決するための手段】本発明に係る請求項1記
載の規則音声合成装置は、複数の音素列に対する音響特
徴パラメータを予め記憶した所定の音声データベースに
基づいて予め作成され、音素毎にノードを介して複数の
アークが連結されてなり、上記各アークに対応する音響
特徴パラメータが添付されてなる音響パラメータネット
ワークを予め記憶する第1の記憶手段と、上記音響パラ
メータネットワークに基づいて予め作成され、先行音素
と、当該処理音素と、後続音素とを含む少なくとも3つ
の音素の接続状態が表され、複数の処理音素についての
上記接続状態を表わす接続点ひずみテーブルを予め記憶
する第2の記憶手段と、入力される音素列に基づいて、
上記第2の記憶手段に記憶された接続点ひずみテーブル
を参照して、上記音素列の各音素に対応するアークの系
列を探索した後、上記第1の記憶手段に記憶された音響
パラメータネットワークを参照して上記探索したアーク
の系列に対応する音響特徴パラメータのデータを読み出
して出力する単位選択手段と、上記単位選択手段から出
力される音響特徴パラメータのデータに基づいて、上記
入力された音素列に対応する音響特徴パラメータの時系
列データを生成して出力する生成手段と、上記生成手段
によって生成された上記入力された音素列に対応する音
響特徴パラメータの時系列データに基づいて、上記入力
された音素列に対応する合成音声の音声信号を発生して
出力する音声合成手段とを備えたことを特徴とする。
A rule-based speech synthesizer according to a first aspect of the present invention is created in advance on the basis of a predetermined voice database in which acoustic characteristic parameters for a plurality of phoneme strings are stored in advance, and the phoneme-by-phoneme is defined for each phoneme. First storage means for pre-storing an acoustic parameter network in which a plurality of arcs are connected via nodes and acoustic feature parameters corresponding to each arc are attached, and created in advance based on the acoustic parameter network And a connection state of at least three phonemes including the preceding phoneme, the processed phoneme, and the subsequent phoneme, and the connection point distortion table representing the connection state for a plurality of processed phonemes is stored in advance in the second storage. Based on the means and the input phoneme sequence,
After referring to the connection point distortion table stored in the second storage means to search for a series of arcs corresponding to each phoneme of the phoneme string, the acoustic parameter network stored in the first storage means is searched. Based on the acoustic feature parameter data output from the unit selection means for reading out and outputting the acoustic feature parameter data corresponding to the searched arc series with reference to the input phoneme string Generating means for generating and outputting time-series data of acoustic feature parameters corresponding to, and based on the time-series data of acoustic feature parameters corresponding to the input phoneme sequence generated by the generating means, the input And a voice synthesizing unit for generating and outputting a voice signal of a synthetic voice corresponding to the phoneme sequence.

【0008】また、請求項2記載の規則音声合成装置
は、請求項1記載の規則音声合成装置において、上記音
響パラメータネットワークは、上記音声データベースに
基づいて、音素を構成する複数の素片の中で最大の集中
度を有する素片をアークとして上記第1の記憶手段に記
憶し、アークにならなかった他の素片の部分がアークの
部分と共有できるか否かを判断し、共有可能な部分をア
ークとして置き換えて上記第1の記憶手段に記憶するこ
とにより予め作成されたことを特徴とする。
The rule speech synthesizer according to a second aspect is the rule speech synthesizer according to the first aspect, wherein the acoustic parameter network is based on the voice database and is among a plurality of phonemes constituting a phoneme. In the first storage means, the segment having the highest degree of concentration is stored in the first storage means, and it is determined whether or not the part of the other segment that has not become an arc can be shared with the part of the arc. It is characterized in that it is created in advance by replacing the part as an arc and storing it in the first storage means.

【0009】さらに、請求項3記載の規則音声合成装置
は、請求項1又は2記載の規則音声合成装置において、
上記接続点ひずみテーブルは、上記音響パラメータネッ
トワークに基づいて、各音素の開始素片から終了素片ま
でのすべての素片に関するアークを遷移して埋められる
アークの系列を探索して上記第2の記憶手段に記憶する
ことにより予め作成されたことを特徴とする。
Furthermore, the rule-based speech synthesizing device according to claim 3 is the rule-based speech synthesizing device according to claim 1 or 2.
Based on the acoustic parameter network, the connection point distortion table searches for a sequence of arcs that are filled by transitioning arcs of all phonemes from the start phoneme to the end phoneme of each phoneme, and searches for the second arc. It is characterized in that it is created in advance by storing it in the storage means.

【0010】[0010]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る一
実施形態である規則音声合成装置のブロック図である。
図1において、音声データベースメモリ11は、複数の
文章データについて例えば1人の話者によって発話され
た音声信号に基づいてA/D変換とLPC分析を行って
得られた音響特徴パラメータデータを、例えば公知の臨
界制動モデルによる分析法を用いて分析しかつピッチ周
波数パターンとモデルパターンとを検出して、音素単
位、アクセント句単位及びフレーズ単位でラベリングさ
れた音声データベースを予め格納する。本実施形態の規
則音声合成装置は、図1において、長単位音声データベ
ース生成部(以下、生成部という。)10と、上記音声
データベースに基づいて当該生成部10によって生成さ
れた音響パラメータネットワークを記憶する音響パラメ
ータネットワークメモリ21と、上記音響パラメータネ
ットワークに基づいて上記生成部10によって生成され
た接続ひずみテーブルを記憶する接続ひずみテーブルメ
モリ22と、入力される音素列に基づいて音響パラメー
タネットワークメモリ21内の音響パラメータネットワ
ークと、接続ひずみテーブルメモリ22内の接続ひずみ
テーブルとを参照して音声単位列である音素列を選択し
て、音素列に対応する音響的特徴パラメータをパラメー
タ時系列生成部2に出力する単位選択部1とを備えたこ
とを特徴とする。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a regular speech synthesizer that is an embodiment according to the present invention.
In FIG. 1, the voice database memory 11 stores, for example, acoustic characteristic parameter data obtained by performing A / D conversion and LPC analysis based on a voice signal uttered by one speaker for a plurality of text data, for example. A speech database labeled by a phoneme unit, an accent phrase unit and a phrase unit is stored in advance by performing analysis using a known critical braking model analysis method and detecting a pitch frequency pattern and a model pattern. The rule speech synthesis device of this embodiment stores a long unit speech database generation unit (hereinafter, referred to as a generation unit) 10 in FIG. 1 and an acoustic parameter network generated by the generation unit 10 based on the speech database. Inside the acoustic parameter network memory 21 based on the input phoneme sequence, and the acoustic distortion network memory 21 that stores the acoustic distortion network table 21 that stores the acoustic distortion table generated by the generation unit 10 based on the acoustic parameter network. Of the acoustic parameter network and the connection distortion table in the connection distortion table memory 22 to select a phoneme sequence which is a voice unit sequence, and the acoustic characteristic parameters corresponding to the phoneme sequence are transmitted to the parameter time series generation unit 2. Having a unit selection unit 1 for outputting And it features.

【0011】上述の従来例の問題点を解決するため、単
位接続音声合成方式(サブフォネット(SUBPHON
ET)方式)と呼ぶ接続方式を用いる。ここでは、生成
される音響パラメータ系列のネットワークをサブフォネ
ットと呼ぶ。この方式の基本的な考え方は以下の通りで
ある。 (1)音素毎にノードを介して複数のアークが連結され
てなり、各アークに対して音響パラメータが添付されて
なる音響パラメータネットワークを使う。ノードは次の
ように定義する。音響パラメータ系列間のスペクトル距
離がしきい値値以上又は以下になる点をノードとし、ア
ークはノードで区切られた音響パラメータ系列で定義す
る。ここで、音響パラメータとしては、例えば、1次か
ら30次のケプストラム係数を用い、スペクトル距離
は、2つのケプストラム係数の差の2乗をすべての係数
について総和をとりかつすべてのフレームについての総
和をとったものである。 (2)これらは同一音素に含まれる全ての音響パラメー
タ系列を処理することによって得られる。音素毎のネッ
トワークのサイズは外部から予め与える。 (3)音素より長い合成単位はアーク番号の組み合わせ
で表現する。従って調音結合の影響は効率良く保存さ
れ、記憶データサイズも従来例に比較して小さくなる。
In order to solve the above-mentioned problems of the conventional example, a unit connection voice synthesis system (subphonet (SUBPHON
ET) method) is used. Here, a network of the generated acoustic parameter series is called a subphonet. The basic idea of this method is as follows. (1) An acoustic parameter network is used in which a plurality of arcs are connected via a node for each phoneme, and acoustic parameters are attached to each arc. The node is defined as follows. A node is defined as a point where the spectral distance between acoustic parameter sequences is equal to or greater than a threshold value, and an arc is defined by acoustic parameter sequences separated by the nodes. Here, as the acoustic parameter, for example, a 1st to 30th order cepstrum coefficient is used, and the spectral distance is obtained by summing the square of the difference between the two cepstrum coefficients for all coefficients and the sum for all frames. It was taken. (2) These are obtained by processing all acoustic parameter sequences included in the same phoneme. The network size for each phoneme is given in advance from the outside. (3) A synthesis unit longer than a phoneme is represented by a combination of arc numbers. Therefore, the influence of articulation coupling is efficiently saved, and the storage data size is smaller than that of the conventional example.

【0012】本発明において用いるサブフォネット方式
について説明する。ここで述べる方式は出現頻度が高
く、全ての素片をそのまま記憶するには冗長である様な
音素に有効である。ここで、1つの音素は各フレームに
対応する複数の素片からなる。サブフォネット方式は以
下の6段階に別れる。初めの2段階は合成の準備のため
のプロセスで残りが実際の合成処理である。 (1−1)サブフォネット、すなわち音響パラメータネ
ットワークの生成。 (1−2)学習単語の音響パラメータ系列を、サブフォ
ネットを構成するアーク番号系列にマッピングする。 (2−1)合成単位の決定。 (2−2)音響パラメータネットワークを使ってアーク
番号系列を生成する。 (2−3)音響パラメータ系列の生成。 (2−4)音声波形の合成。
The subphonet method used in the present invention will be described. The method described here has a high appearance frequency, and is effective for phonemes that are redundant in storing all phonemes as they are. Here, one phoneme is composed of a plurality of phonemes corresponding to each frame. The subphonet method is divided into the following 6 stages. The first two stages are the process for preparation for composition, and the rest is the actual composition process. (1-1) Generation of subphonet, that is, acoustic parameter network. (1-2) The acoustic parameter sequence of the learning word is mapped to the arc number sequence forming the subphonet. (2-1) Determination of synthesis unit. (2-2) An arc number sequence is generated using the acoustic parameter network. (2-3) Generation of acoustic parameter sequence. (2-4) Synthesis of voice waveform.

【0013】上記(2−1),(2−3),(2−4)
の処理は第1の従来例の方法と同様の方法がそのまま使
える。残りの4段階を以下に説明する。
The above (2-1), (2-3), (2-4)
The same method as the method of the first conventional example can be used as it is. The remaining four steps are described below.

【0014】(1−1)サブフォネット(又は音響パラ
メータネットワーク)の生成 サブフォネットを生成するために、接続歪みの許容の上
限である所定のしきい値距離DLが用いられ、選択され
たアークとのスペクトル距離がしきい値距離DL以下の
部分はそのアークに置換される。ここでは、i番目の素
片に対する他の素片の集中度又は近接度を表すCt
(i)を評価関数として用いる。本実施形態において
は、次式の評価関数Ct(i)を用いる。当該評価関数
は、2つの素片間が近ければ大きくなる一方、遠ければ
小さくなる。
(1-1) Generation of Subphonet (or Acoustic Parameter Network) In order to generate a subphonet, a predetermined threshold distance DL, which is the upper limit of the allowable connection distortion, is used and selected. The portion whose spectral distance from the arc is the threshold distance DL or less is replaced with the arc. Here, Ct representing the degree of concentration or proximity of another segment to the i-th segment
(I) is used as an evaluation function. In this embodiment, the evaluation function Ct (i) of the following equation is used. The evaluation function becomes large when the two pieces are close to each other, and becomes small when the two pieces are far from each other.

【0015】[0015]

【数1】Ct(i)=exp(−sdi## EQU1 ## Ct (i) = exp (-sd i ).

【0016】ここで、sdiは2つの素片間のユークリ
ッド距離である。 (1−1−1)同一音素の素片をデータベースより抽出
し、長さを最長の素片に正規化する。 (1−1−2)全ての素片に対しCt(i)を計算し、C
t(i)が最大となる素片を最初のアークに登録する。次
に半径DLのパイプを考え、中心を今選ばれたアークと
する。もし、他の素片がこのパイプの中に入ったり、パ
イプから出てくる場合、パイプ内の部分とパイプ外の部
分に分割する。そしてパイプに含まれる部分はアークに
置き換える。1度パイプから出て再びパイプに入るよう
な素片はその間を全てパイプで置き換える。残りのパイ
プ外の部分は新たな素片として登録され、次のアークの
選択の候補となる。このプロセスは登録アークの総量が
しきい値以上になるまで続ける(図5参照)。なお、し
きい値距離DLの与え方として、(a)固定値、又は
(b)パワーに反比例した値の2通りがある。
Here, sd i is the Euclidean distance between two pieces. (1-1-1) A phoneme piece having the same phoneme is extracted from the database, and the length is normalized to the longest phoneme piece. (1-1-2) Ct (i) is calculated for all the pieces and C
The segment with the maximum t (i) is registered in the first arc. Next, consider a pipe of radius DL, and let the center be the arc that has just been selected. If other pieces enter or exit this pipe, split it into an inner part and an outer part. Then, the part included in the pipe is replaced with an arc. For pieces that come out of the pipe once and then enter the pipe again, replace all the spaces between them with the pipe. The remaining part outside the pipe is registered as a new segment and becomes a candidate for the selection of the next arc. This process continues until the total amount of registered arcs is above the threshold (see Figure 5). There are two ways to give the threshold distance DL: (a) fixed value or (b) value inversely proportional to power.

【0017】図5の例においては、ステージ1におい
て、同一音素の素片Seq.#1,Seq.#2,Se
q.#3の音響パラメータの評価関数値Ct(i)が計
算され、評価関数値Ct(i)が最大となる素片がアー
ク#1として選択される。そして、アーク#1の回り
で、半径DLを有するパイプを考える。当該パイプに含
まれる他の素片の音響パラメータを削除し、残りを新た
な素片候補として記憶する。次いで、ステージ2におい
ては、素片Seq.#4,Seq.#5は、Seq.#
3がステージ1で選択されたアーク#1によって削除さ
れ、新たに登録された素片である。素片Seq.#1,
Seq.#4,Seq.#5の音響パラメータの評価関
数値Ct(i)が計算され、評価関数値Ct(i)が最
大となる素片がアーク#2として選択される。そして、
アーク#2の回りで、半径DLを有するパイプを考え
る。当該パイプにおける音響パラメータの素片の一部を
削除し、残りを素片候補として記憶する。次いで、ステ
ージ3においては、素片Seq.#1及びSeq.#4
の音響パラメータの評価関数値Ct(i)が計算され、
評価関数値Ct(i)が最大となる素片がアーク#3と
して選択される。そして、アーク#3の回りで、半径D
Lを有するパイプを考える。当該パイプにおける音響パ
ラメータの素片の一部を削除し、残りを素片候補として
記憶する。さらに、ステージ4においては、素片Se
q.#1,Seq.#2,Seq.#3はそれぞれ、ア
ーク番号{Arc#1},{Arc#1},及び{Ar
c#3,Arc#1,Arc#2}によって置き換えら
れる。
In the example of FIG. 5, in the stage 1, the same phoneme unit Seq. # 1, Seq. # 2, Se
q. The evaluation function value Ct (i) of the acoustic parameter # 3 is calculated, and the segment having the maximum evaluation function value Ct (i) is selected as the arc # 1. Then consider a pipe with a radius DL around arc # 1. The acoustic parameters of other segments included in the pipe are deleted, and the rest are stored as new segment candidates. Next, in stage 2, the segment Seq. # 4, Seq. # 5 is Seq. #
3 is a newly registered segment deleted by the arc # 1 selected in stage 1. Element Seq. # 1,
Seq. # 4, Seq. The evaluation function value Ct (i) of the acoustic parameter # 5 is calculated, and the segment having the maximum evaluation function value Ct (i) is selected as the arc # 2. And
Consider a pipe with a radius DL around arc # 2. A part of the acoustic parameter segments in the pipe is deleted, and the rest is stored as segment candidates. Next, in stage 3, the segment Seq. # 1 and Seq. # 4
The evaluation function value Ct (i) of the acoustic parameter of
The segment having the largest evaluation function value Ct (i) is selected as arc # 3. And around arc # 3, radius D
Consider a pipe with L. A part of the acoustic parameter segments in the pipe is deleted, and the rest is stored as segment candidates. Furthermore, in stage 4, the element Se
q. # 1, Seq. # 2, Seq. # 3 is the arc number {Arc # 1}, {Arc # 1}, and {Ar, respectively.
c # 3, Arc # 1, Arc # 2}.

【0018】(1−1−3)上述したように、音響パラ
メータ系列の1部分がアークとして選ばれる場合があ
る。この場合、各アークはバックワードポインターやフ
ォワードポインターを持っているので、アークの始点や
終点での接続歪みがしきい値距離DL以下で別のアーク
に接続することができる。
(1-1-3) As described above, a part of the acoustic parameter sequence may be selected as the arc. In this case, since each arc has a backward pointer or a forward pointer, it is possible to connect to another arc when the connection distortion at the start point or the end point of the arc is the threshold distance DL or less.

【0019】(1−2)サブフォネットを用いたアーク
番号系列へのマッピング 学習データに含まれる全ての単語は、調音結合の影響を
効率的に記憶するためにアーク番号系列に変換される。 (1−2−1)学習単語の継続長をサブフォネットの長
さに正規化し、各フレームを最も近いアークの番号に置
き換える。ここで使う全てのアーク番号をこの単語のア
ーク番号の集合と呼ぶ。 (1−2−2)単語アーク番号の集合の全ての組み合わ
せで近似誤差を計算する。この近似誤差が最小となる組
み合わせを出力として選択する。ここで、アークの乗り
換えはバックワードポインターとフォワードポインター
で制限されている。この制限によって組み合わせ不可能
なアーク番号がある。従って選択可能な経路の数は非常
に少なくなる可能性がある。更に、この音素の始点から
終点までの経路が全く存在しない可能性もある。
(1-2) Mapping to arc number series using subphonets All words included in the learning data are converted to arc number series in order to efficiently store the influence of articulatory coupling. (1-2-1) Normalize the continuation length of the learning word to the length of the subphonet, and replace each frame with the number of the closest arc. All arc numbers used here are called a set of arc numbers for this word. (1-2-2) Approximate error is calculated for all combinations of the set of word arc numbers. The combination that minimizes this approximation error is selected as the output. Here, the transfer of the arc is restricted by the backward pointer and the forward pointer. Due to this limitation, some arc numbers cannot be combined. Therefore, the number of selectable paths can be very small. Furthermore, it is possible that there is no route from the start point to the end point of this phoneme.

【0020】(2−2)サブフォネットを用いたアーク
番号系列の生成 ここで用いられる全ての合成単位はそれぞれサブフォネ
ット内にアーク番号系列を持っている。従って、変更は
容易である。
(2-2) Generation of Arc Number Sequence Using Subphonet All synthesis units used here each have an arc number sequence in the subphonet. Therefore, the change is easy.

【0021】以下、図1の長単位音声データベース生成
部によって実行される長単位音声データベース生成処理
について詳細に説明する。
The long unit voice database generation process executed by the long unit voice database generation unit shown in FIG. 1 will be described in detail below.

【0022】図2は、図1の長単位音声データベース生
成部によって実行される長単位音声データベース生成処
理を示すフローチャートである。図2に示すように、ま
ず、ステップS1において音声データベースメモリ20
内の音声データベースに基づいて、ケプストラムデータ
を音素単位に切り出す。次いで、ステップS2において
同一の音素を集め、例えば動的計画法(DP法)を用い
て時間長さを最長のユニットの長さに合わせて正規化
し、正規化された複数の音素と各音素のケプストラムデ
ータとを音素データとして音素データメモリ23に記憶
する。そして、ステップS3で音響パラメータネットワ
ーク生成処理を実行し、最後に、接続ひずみテーブル生
成処理を実行する。
FIG. 2 is a flow chart showing the long unit voice database generation processing executed by the long unit voice database generation unit of FIG. As shown in FIG. 2, first, in step S1, the voice database memory 20
The cepstrum data is cut out into phonemes based on the internal speech database. Next, in step S2, the same phonemes are collected, and the time length is normalized according to the length of the longest unit by using, for example, dynamic programming (DP method), and the normalized plurality of phonemes and each phoneme are normalized. The cepstrum data and phoneme data are stored in the phoneme data memory 23 as phoneme data. Then, in step S3, the acoustic parameter network generation process is executed, and finally, the connection distortion table generation process is executed.

【0023】図3は、図2のサブルーチンである音響パ
ラメータネットワーク生成処理のフローチャートであ
る。図3において、まず、ステップS11においては、
音素データメモリ23内の音素データの中で1つの音素
を選択し、その音素の開始フレームと終了フレームの情
報を得る。次いで、ステップS12においては、1つの
音素は複数n個のユニット(素片ともいう。)で構成さ
れており、n個のユニットの中で最大の集中度を有する
ユニットを求める。そして、ステップS13において
は、最大の集中度を有するユニットをアーク番号を付与
して音響パラメータネットワークメモリ21に記憶し、
ステップS14においては、アークにならなかった他の
(n−1)個のユニットの部分がアークの部分と共有で
きるか否かをチェックし、共有できる部分を新しい番号
を有するアークと置き換えて音響パラメータネットワー
クメモリ21に記憶する。
FIG. 3 is a flowchart of the acoustic parameter network generation processing which is the subroutine of FIG. In FIG. 3, first, in step S11,
One phoneme is selected from the phoneme data in the phoneme data memory 23, and information on the start frame and the end frame of the phoneme is obtained. Next, in step S12, one phoneme is composed of a plurality of n units (also referred to as unit pieces), and the unit having the highest concentration degree is obtained from the n units. Then, in step S13, the unit having the highest degree of concentration is given an arc number and stored in the acoustic parameter network memory 21,
In step S14, it is checked whether the other (n-1) unit parts that have not become arcs can be shared with the arc part, and the sharable part is replaced with an arc having a new number, and the acoustic parameter is changed. Stored in the network memory 21.

【0024】ステップS15において、音響パラメータ
ネットワークメモリ21に記憶させて登録されたアーク
の総数が当該メモリ21に占める記憶容量が所定のしき
い値バイト数と比較して等しいか又は小さいとき、ステ
ップS17で次に調べる別の未処理の音素を選択し、そ
の音素の音素の開始フレームと終了フレームの情報を得
た後、ステップS12に戻ってステップS12以降の処
理を繰り返す。一方、ステップS15において、音響パ
ラメータネットワークメモリ21に記憶させて登録され
たアークの総数が当該メモリ21に占める記憶容量が所
定のしきい値バイト数と比較して大きいとき、ステップ
S16ですべての音素の処理を実行したか否かを判断
し、否であるときステップS11に戻って上記の処理を
繰り返す。一方、ステップS16でYESであるときす
べての音素について音響パラメータネットワークを作成
して音響パラメータネットワークメモリ21に記憶した
と判断し、元のメインルーチンに戻る。従って、音響パ
ラメータネットワークメモリ21に記憶された音響パラ
メータネットワークは、例えば図5のステージ4に示す
ように、各音素に対して複数の素片からなり、1つ又は
複数のアークで構成されることを示し、各アークに対し
てケプストラム係数などの音響特徴パラメータのデータ
を含む。
When the total number of arcs stored and registered in the acoustic parameter network memory 21 in step S15 is equal to or smaller than the predetermined threshold byte number in the memory 21, the step S17 Then, another unprocessed phoneme to be examined next is selected, and after the information of the start frame and the end frame of the phoneme of the phoneme is obtained, the process returns to step S12 and the processes of step S12 and thereafter are repeated. On the other hand, in step S15, when the total number of arcs stored and registered in the acoustic parameter network memory 21 is larger than the predetermined threshold byte number in the memory 21, the total number of arcs is determined in step S16. It is determined whether or not the processing of step 1 has been executed, and if the processing is not, the processing returns to step S11 and the above processing is repeated. On the other hand, if YES in step S16, it is determined that acoustic parameter networks have been created for all phonemes and stored in the acoustic parameter network memory 21, and the process returns to the main routine. Therefore, the acoustic parameter network stored in the acoustic parameter network memory 21 is composed of a plurality of segments for each phoneme and is composed of one or a plurality of arcs, for example, as shown in stage 4 of FIG. And includes data of acoustic feature parameters such as cepstrum coefficients for each arc.

【0025】図4は、図2の接続ひずみテーブル生成処
理のフローチャートである。図4において、まず、ステ
ップS21において、音響パラメータネットワークメモ
リ21内の音響パラメータネットワークに基づいて、1
つ又は複数のルートアークを探索する。次いで、ステッ
プS22において、入口番号テーブルと出力番号テーブ
ルを各ルートアーク毎に作成して、接続ひずみテーブル
22に格納する。ここで、入口番号テーブルの構成要素
としては、(a)先行音素、(b)開始アーク番号、
(c)スペクトル距離、を含む。スペクトル距離には以
下のように求めた値をセットする。先行音素が同じデー
タ全てと開始アーク全てとのケプストラム距離の平均を
求める。そして、一番距離が近い開始アーク番号と距離
をこの入口番号テーブルにセットする。但し、第1フレ
ーム目の素片と第2フレーム目の素片しかケプストラム
距離は求めない。上記要素へセットする際の重みは、第
1フレーム目の素片対第2フレーム目の素片=1対0.
5とする。また、出口番号テーブルの構成要素として
は、(a)後続音素、(b)終了アーク番号、(c)ス
ペクトル距離、を含む。スペクトル距離には以下のよう
に求めた値をセットする。後続音素が同じデータ全てと
終了アーク全てとのケプストラム距離の平均を求める。
そして、一番距離が近い末尾アークナンバーと距離をこ
の出口番号テーブルにセットする。但し、終了フレーム
と、終了フレームから1つだけ前のフレーム(以下、終
了第2フレームという。)しか距離は求めない。上記要
素へセットする際の重みは、終了フレームの素片対終了
第2フレームの素片=1対0.5とする。
FIG. 4 is a flowchart of the connection distortion table generation process of FIG. In FIG. 4, first, in step S21, based on the acoustic parameter network in the acoustic parameter network memory 21, 1
Search for one or more root arcs. Next, in step S22, an entrance number table and an output number table are created for each route arc and stored in the connection strain table 22. Here, the components of the entrance number table are (a) the preceding phoneme, (b) the starting arc number,
(C) Spectral distance is included. For the spectral distance, set the value obtained as follows. The average of the cepstrum distances between all the data with the same preceding phoneme and all the starting arcs is calculated. Then, the starting arc number and the distance having the shortest distance are set in this entrance number table. However, the cepstrum distance is obtained only for the first frame segment and the second frame segment. The weights for setting the above elements are as follows: 1st frame segment to 2nd frame segment = 1 to 0.
5 is assumed. The constituent elements of the exit number table include (a) subsequent phonemes, (b) end arc number, and (c) spectral distance. For the spectral distance, set the value obtained as follows. The average of the cepstrum distances between all data with the same succeeding phoneme and all ending arcs is calculated.
Then, the end arc number and the distance having the shortest distance are set in this exit number table. However, the distance is calculated only for the end frame and the frame one frame before the end frame (hereinafter referred to as the end second frame). The weight when setting to the above elements is set to the segment of the end frame versus the segment of the end second frame = 1: 0.5.

【0026】次いで、ステップS23において、ステッ
プS3で生成された音響パラメータネットワークメモリ
21内の音響パラメータネットワークと、ステップS2
2で生成されて接続ひずみテーブル22に記憶された入
口番号テーブルと出口番号テーブルとに基づいて、正規
化された音素の長さを有する開始フレームから終了フレ
ームまでのすべてのフレームを、音響パラメータネット
ワークに登録されたアークを遷移させることにより埋め
られるアーク番号の系列を探索する。次いで、ステップ
S24において、探索されたアーク番号の系列に基づい
て、少なくとも先行音素、当該処理音素及び後続音素と
いうパラメータが与えられたときにアーク番号系列番号
が一意に決定している接続ひずみテーブルを作成して接
続ひずみテーブルメモリ22に記憶する。
Next, in step S23, the acoustic parameter network in the acoustic parameter network memory 21 generated in step S3 and step S2
2 based on the ingress number table and the egress number table stored in the connection distortion table 22, all frames from the start frame to the end frame having the normalized phoneme length are set to the acoustic parameter network. A series of arc numbers to be filled in is searched by transitioning the arcs registered in. Then, in step S24, a connection distortion table in which the arc number sequence number is uniquely determined when at least the parameters of the preceding phoneme, the processed phoneme and the subsequent phoneme are given based on the searched arc number sequence. It is created and stored in the connection strain table memory 22.

【0027】以上の実施形態において、生成部10と、
単位選択部1と、パラメータ系列生成部2とは、例えば
制御装置である、デジタル計算機で構成される。
In the above embodiment, the generation unit 10
The unit selection unit 1 and the parameter sequence generation unit 2 are configured by, for example, a digital computer that is a control device.

【0028】以上のように構成された図1に示す規則音
声合成装置の動作について説明する。音声データベース
メモリ20と音素データメモリ23と音響パラメータネ
ットワークメモリ21と接続ひずみテーブルメモリ22
とは、長単位音声データベース生成部10に接続され、
音響パラメータネットワークメモリ21と接続ひずみテ
ーブルメモリ22とは、単位選択部1に接続される。音
声合成すべき音素列は、単位選択部1に入力され、これ
に応答して、単位選択部1は、入力される音素列に基づ
いて、接続ひずみテーブルメモリ22内の接続ひずみテ
ーブルを参照して、上記音素列の各音素に対応するアー
ク番号の系列を、接続ひずみテーブルで参照される接続
ひずみの最大値が最小になるように、最適な経路を探索
しながら探索した後、音響パラメータネットワークメモ
リ21内の音響パラメータネットワークを参照して上記
探索したアーク番号の系列に対応する音響特徴パラメー
タのデータ(例えば、ケプストラム係数など)を読み出
してパラメータ時系列生成部2に出力する。これに応答
して、パラメータ時系列生成部2は、入力された音素列
に対応する音響特徴パラメータの時系列データを生成し
て音声合成部3に出力する。そして、音声合成部3は、
例えば、パルス発生器と雑音発生器と可変利得増幅器と
フィルタとを備えて構成され、入力される音響特徴パラ
メータの時系列データに基づいて音声信号を発生してス
ピーカ5に出力することにより、入力された音素列に対
する合成音声を発生する。
The operation of the regular voice synthesizing apparatus shown in FIG. 1 and configured as described above will be described. Speech database memory 20, phoneme data memory 23, acoustic parameter network memory 21, connection distortion table memory 22
Is connected to the long unit voice database generation unit 10,
The acoustic parameter network memory 21 and the connection strain table memory 22 are connected to the unit selection unit 1. The phoneme sequence to be speech-synthesized is input to the unit selection unit 1, and in response thereto, the unit selection unit 1 refers to the connection distortion table in the connection distortion table memory 22 based on the input phoneme sequence. , A sequence of arc numbers corresponding to each phoneme of the above phoneme sequence, so that the maximum value of the connection distortion referenced in the connection distortion table is minimized, while searching for the optimal path, acoustic parameter network By referring to the acoustic parameter network in the memory 21, acoustic characteristic parameter data (for example, cepstrum coefficient) corresponding to the searched arc number sequence is read out and output to the parameter time series generation unit 2. In response to this, the parameter time-series generation unit 2 generates time-series data of acoustic feature parameters corresponding to the input phoneme sequence, and outputs the time-series data to the speech synthesis unit 3. Then, the voice synthesizer 3
For example, a pulse generator, a noise generator, a variable gain amplifier, and a filter are provided, and an audio signal is generated based on the time-series data of the input acoustic feature parameter and output to the speaker 5, thereby inputting the audio signal. The synthesized speech for the selected phoneme sequence is generated.

【0029】以上のように構成された規則合成装置にお
いては、例えば音素である各音声単位の接続関係が予め
接続ひずみテーブルとして接続ひずみテーブルメモリ2
2に記憶されていて、音素をより長い少なくとも3つの
音素(先行音素、当該処理音素、後続音素)である長単
位の音素の組み合わせに基づいて、入力された音素列に
対する最適な音素の系列を決定して選択する。従って、
長単位の自然性を保持したまま、最適な音素の系列を決
定することができる。これにより、音質を劣化させるこ
となく、テーブルメモリ22やネットワークメモリ21
の記憶容量を従来例に比較して削減しかつ音声合成に係
る演算量を大幅に削減することができる。それ故、音声
合成処理を高速で実行することができる。
In the rule synthesizing apparatus configured as described above, the connection relation of each voice unit, which is, for example, a phoneme, is used as a connection strain table in advance.
Based on the combination of long-unit phonemes that are stored in No. 2 and have at least three longer phonemes (preceding phonemes, relevant processed phonemes, subsequent phonemes), an optimal phoneme sequence for the input phoneme sequence is generated. Decide and select. Therefore,
The optimal phoneme sequence can be determined while maintaining the long-term naturalness. As a result, the table memory 22 and the network memory 21 are not deteriorated.
It is possible to reduce the storage capacity of the above compared to the conventional example and to significantly reduce the amount of calculation related to voice synthesis. Therefore, the voice synthesis process can be executed at high speed.

【0030】[0030]

【発明の効果】以上詳述したように本発明によれば、複
数の音素列に対する音響特徴パラメータを予め記憶した
所定の音声データベースに基づいて予め作成され、音素
毎にノードを介して複数のアークが連結されてなり、上
記各アークに対応する音響特徴パラメータが添付されて
なる音響パラメータネットワークを予め記憶する第1の
記憶手段と、上記音響パラメータネットワークに基づい
て予め作成され、先行音素と、当該処理音素と、後続音
素とを含む少なくとも3つの音素の接続状態が表され、
複数の処理音素についての上記接続状態を表わす接続点
ひずみテーブルを予め記憶する第2の記憶手段と、入力
される音素列に基づいて、上記第2の記憶手段に記憶さ
れた接続点ひずみテーブルを参照して、上記音素列の各
音素に対応するアークの系列を探索した後、上記第1の
記憶手段に記憶された音響パラメータネットワークを参
照して上記探索したアークの系列に対応する音響特徴パ
ラメータのデータを読み出して出力する単位選択手段
と、上記単位選択手段から出力される音響特徴パラメー
タのデータに基づいて、上記入力された音素列に対応す
る音響特徴パラメータの時系列データを生成して出力す
る生成手段と、上記生成手段によって生成された上記入
力された音素列に対応する音響特徴パラメータの時系列
データに基づいて、上記入力された音素列に対応する合
成音声の音声信号を発生して出力する音声合成手段とを
備える。
As described in detail above, according to the present invention, a plurality of arcs are preliminarily created on the basis of a predetermined speech database in which acoustic feature parameters for a plurality of phoneme strings are stored in advance, and each phoneme is transmitted through a node via a node. First storage means for storing in advance an acoustic parameter network in which acoustic feature parameters corresponding to each of the arcs are attached, and a preceding phoneme, which is created in advance based on the acoustic parameter network. A connection state of at least three phonemes including a processed phoneme and a subsequent phoneme is represented,
Second storage means for storing in advance a connection point distortion table representing the connection state for a plurality of processed phonemes, and a connection point distortion table stored in the second storage means based on an input phoneme sequence. After referring to a sequence of arcs corresponding to each phoneme of the phoneme string, the acoustic feature parameter corresponding to the sequence of arcs searched by referring to the acoustic parameter network stored in the first storage means. Based on the data of the acoustic feature parameter output from the unit selection unit and the unit selection unit for reading and outputting the data of the above, the time series data of the acoustic feature parameter corresponding to the input phoneme sequence is generated and output. Based on the time-series data of the acoustic feature parameter corresponding to the input phoneme sequence generated by the generating means, Serial generates a sound signal of the corresponding synthesized speech to the input phoneme sequence and outputs and a speech synthesis means.

【0031】従って、例えば音素である各音声単位の接
続関係が接続ひずみテーブルに予め記憶されていて、音
素をより長い少なくとも3つの音素(先行音素、当該処
理音素、後続音素)である長単位の音素の組み合わせに
基づいて、入力された音素列に対する最適な音素の系列
を決定して選択する。従って、長単位の自然性を保持し
たまま、最適な音素の系列を決定することができる。こ
れにより、音質を劣化させることなく、第1と第2の記
憶手段の記憶容量を従来例に比較して削減しかつ音声合
成に係る演算量を大幅に削減することができる。それ
故、音声合成処理を高速で実行することができる。
Therefore, for example, a connection relation of each voice unit, which is a phoneme, is stored in advance in the connection distortion table, and a phoneme of at least three longer phonemes (preceding phoneme, the processed phoneme, and subsequent phoneme) is a long unit. Based on the phoneme combination, the optimum phoneme sequence for the input phoneme sequence is determined and selected. Therefore, it is possible to determine the optimum phoneme sequence while maintaining the long-term naturalness. As a result, it is possible to reduce the storage capacities of the first and second storage means as compared with the conventional example and significantly reduce the amount of calculation related to voice synthesis without degrading the sound quality. Therefore, the voice synthesis process can be executed at high speed.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明に係る一実施形態である規則音声合成
装置のブロック図である。
FIG. 1 is a block diagram of a regular voice synthesizing device according to an embodiment of the present invention.

【図2】 図1の長単位音声データベース生成部によっ
て実行される長単位音声データベース生成処理を示すフ
ローチャートである。
FIG. 2 is a flowchart showing a long unit voice database generation process executed by a long unit voice database generation unit in FIG.

【図3】 図2のサブルーチンである音響パラメータネ
ットワーク生成処理のフローチャートである。
3 is a flowchart of an acoustic parameter network generation process which is a subroutine of FIG.

【図4】 図2の接続ひずみテーブル生成処理のフロー
チャートである。
FIG. 4 is a flowchart of a connection distortion table generation process of FIG.

【図5】 図3の音響パラメータネットワーク生成処理
の一例を示す図である。
5 is a diagram showing an example of the acoustic parameter network generation process of FIG.

【符号の説明】[Explanation of symbols]

1…単位選択部、 2…パラメータ時系列生成部、 3…音声合成部、 4…スピーカ、 10…長単位音声データベース生成部、 20…音声データベースメモリ、 21…音響パラメータネットワークメモリ、 22…接続ひずみテーブルメモリ、 23…音素データメモリ。 1 ... Unit selection unit, 2 ... Parameter time series generation unit, 3 ... Speech synthesis unit, 4 ... Speaker, 10 ... Long unit voice database generation unit, 20 ... Voice database memory, 21 ... Acoustic parameter network memory, 22 ... Connection distortion Table memory, 23 ... Phoneme data memory.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 樋口 宜男 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 橋本 誠 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Yoshio Higuchi Kyoto Prefecture Soraku-gun Seika-cho Osamu Osamu Osamu 5 Hiratani No. 5 ATR Co., Ltd. Speech Translation Communication Research Laboratories (72) Inventor Makoto Hashimoto Kyoto Prefecture Shiraka-gun Seika-cho, Osamu Osamu, Osamu Osamu, No. 5, Mihiraya, ATR Co., Ltd.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 複数の音素列に対する音響特徴パラメー
タを予め記憶した所定の音声データベースに基づいて予
め作成され、音素毎にノードを介して複数のアークが連
結されてなり、上記各アークに対応する音響特徴パラメ
ータが添付されてなる音響パラメータネットワークを予
め記憶する第1の記憶手段と、 上記音響パラメータネットワークに基づいて予め作成さ
れ、先行音素と、当該処理音素と、後続音素とを含む少
なくとも3つの音素の接続状態が表され、複数の処理音
素についての上記接続状態を表わす接続点ひずみテーブ
ルを予め記憶する第2の記憶手段と、 入力される音素列に基づいて、上記第2の記憶手段に記
憶された接続点ひずみテーブルを参照して、上記音素列
の各音素に対応するアークの系列を探索した後、上記第
1の記憶手段に記憶された音響パラメータネットワーク
を参照して上記探索したアークの系列に対応する音響特
徴パラメータのデータを読み出して出力する単位選択手
段と、 上記単位選択手段から出力される音響特徴パラメータの
データに基づいて、上記入力された音素列に対応する音
響特徴パラメータの時系列データを生成して出力する生
成手段と、 上記生成手段によって生成された上記入力された音素列
に対応する音響特徴パラメータの時系列データに基づい
て、上記入力された音素列に対応する合成音声の音声信
号を発生して出力する音声合成手段とを備えたことを特
徴とする規則音声合成装置。
1. A plurality of arcs are created in advance based on a predetermined voice database in which acoustic feature parameters for a plurality of phoneme strings are stored in advance, and a plurality of arcs are connected via a node for each phoneme. First storage means for pre-storing an acoustic parameter network to which acoustic characteristic parameters are attached, and at least three pre-created phonemes including the preceding phoneme, the processed phoneme, and the subsequent phoneme, which are created in advance based on the acoustic parameter network. Second storage means that represents a connection state of phonemes and that stores a connection point distortion table that represents the connection states of a plurality of processed phonemes in advance, and the second storage means based on an input phoneme sequence. After searching the sequence of arcs corresponding to each phoneme of the phoneme string by referring to the stored connection point distortion table, Unit selection means for reading out and outputting acoustic feature parameter data corresponding to the searched arc series by referring to the acoustic parameter network stored in the storage means; and acoustic feature parameter data output from the unit selection means Based on the generating means for generating and outputting time-series data of acoustic feature parameters corresponding to the input phoneme sequence, and of the acoustic feature parameters corresponding to the input phoneme sequence generated by the generating means. A regular voice synthesizing device comprising: a voice synthesizing unit for generating and outputting a voice signal of a synthetic voice corresponding to the input phoneme sequence based on time-series data.
【請求項2】 上記音響パラメータネットワークは、上
記音声データベースに基づいて、音素を構成する複数の
素片の中で最大の集中度を有する素片をアークとして上
記第1の記憶手段に記憶し、アークにならなかった他の
素片の部分がアークの部分と共有できるか否かを判断
し、共有可能な部分をアークとして置き換えて上記第1
の記憶手段に記憶することにより予め作成されたことを
特徴とする請求項1記載の規則音声合成装置。
2. The acoustic parameter network stores, in the first storage means, a segment having a maximum concentration degree among a plurality of segments forming a phoneme as an arc based on the speech database. It is determined whether or not the part of the other segment that has not become an arc can be shared with the part of the arc, and the sharable part is replaced as an arc, and the first
The rule-based speech synthesizing apparatus according to claim 1, wherein the rule-based speech synthesizing apparatus is created in advance by storing it in the storage means.
【請求項3】 上記接続点ひずみテーブルは、上記音響
パラメータネットワークに基づいて、各音素の開始素片
から終了素片までのすべての素片に関するアークを遷移
して埋められるアークの系列を探索して上記第2の記憶
手段に記憶することにより予め作成されたことを特徴と
する請求項1又は2記載の規則音声合成装置。
3. The connection point distortion table searches for a sequence of arcs to be filled by transitioning arcs of all phonemes from a start phoneme to an end phoneme of each phoneme, based on the acoustic parameter network. 3. The regular voice synthesizing device according to claim 1, wherein the regular voice synthesizing device is created in advance by storing it in the second storage means.
JP8030549A 1996-02-19 1996-02-19 Regular voice synthesizer Pending JPH09222898A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8030549A JPH09222898A (en) 1996-02-19 1996-02-19 Regular voice synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8030549A JPH09222898A (en) 1996-02-19 1996-02-19 Regular voice synthesizer

Publications (1)

Publication Number Publication Date
JPH09222898A true JPH09222898A (en) 1997-08-26

Family

ID=12306885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8030549A Pending JPH09222898A (en) 1996-02-19 1996-02-19 Regular voice synthesizer

Country Status (1)

Country Link
JP (1) JPH09222898A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008026452A (en) * 2006-07-19 2008-02-07 Kddi Corp Speech synthesizer, method and program
WO2012164835A1 (en) * 2011-05-30 2012-12-06 日本電気株式会社 Prosody generator, speech synthesizer, prosody generating method and prosody generating program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008026452A (en) * 2006-07-19 2008-02-07 Kddi Corp Speech synthesizer, method and program
WO2012164835A1 (en) * 2011-05-30 2012-12-06 日本電気株式会社 Prosody generator, speech synthesizer, prosody generating method and prosody generating program
JPWO2012164835A1 (en) * 2011-05-30 2015-02-23 日本電気株式会社 Prosody generation device, speech synthesizer, prosody generation method, and prosody generation program
US9324316B2 (en) 2011-05-30 2016-04-26 Nec Corporation Prosody generator, speech synthesizer, prosody generating method and prosody generating program

Similar Documents

Publication Publication Date Title
Chu et al. Selecting non-uniform units from a very large corpus for concatenative speech synthesizer
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
EP0458859B1 (en) Text to speech synthesis system and method using context dependent vowell allophones
JP4130190B2 (en) Speech synthesis system
EP1704558B1 (en) Corpus-based speech synthesis based on segment recombination
Bulyko et al. Joint prosody prediction and unit selection for concatenative speech synthesis
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP2007249212A (en) Method, computer program and processor for text speech synthesis
JP2002530703A (en) Speech synthesis using concatenation of speech waveforms
WO2004109659A1 (en) Speech synthesis device, speech synthesis method, and program
CN1787072B (en) Method for synthesizing pronunciation based on rhythm model and parameter selecting voice
Lee et al. A text-to-speech platform for variable length optimal unit searching using perception based cost functions
EP2062252B1 (en) Speech synthesis
US5970454A (en) Synthesizing speech by converting phonemes to digital waveforms
JPH09222898A (en) Regular voice synthesizer
US20070100627A1 (en) Device, method, and program for selecting voice data
JP2005018037A (en) Device and method for speech synthesis and program
JP2005018036A (en) Device and method for speech synthesis and program
JP3515406B2 (en) Speech synthesis method and apparatus
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
JP2886474B2 (en) Rule speech synthesizer
JP3503862B2 (en) Speech recognition method and recording medium storing speech recognition program
JP4430960B2 (en) Database configuration method for speech segment search, apparatus for implementing the same, speech segment search method, speech segment search program, and storage medium storing the same
JP4787686B2 (en) TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM
JP2001249678A (en) Device and method for outputting voice, and recording medium with program for outputting voice