JP3505364B2 - Method and apparatus for optimizing phoneme information in speech database - Google Patents

Method and apparatus for optimizing phoneme information in speech database

Info

Publication number
JP3505364B2
JP3505364B2 JP24875097A JP24875097A JP3505364B2 JP 3505364 B2 JP3505364 B2 JP 3505364B2 JP 24875097 A JP24875097 A JP 24875097A JP 24875097 A JP24875097 A JP 24875097A JP 3505364 B2 JP3505364 B2 JP 3505364B2
Authority
JP
Japan
Prior art keywords
phoneme
information
unit
speech database
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24875097A
Other languages
Japanese (ja)
Other versions
JPH1185193A (en
Inventor
啓之 平井
宏樹 大西
秀治 西田
誠 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP24875097A priority Critical patent/JP3505364B2/en
Publication of JPH1185193A publication Critical patent/JPH1185193A/en
Application granted granted Critical
Publication of JP3505364B2 publication Critical patent/JP3505364B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、予め文章発話から
切り出して蓄積した、音素片情報からなる音声データベ
ースから最適な音素片情報を選択し接続することにより
合成音を得る波形合成に適用される、音声データベース
における音素片情報最適化方法、及び音素片情報最適化
装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is applied to waveform synthesis in which optimum phoneme piece information is selected and connected from a voice database composed of phoneme piece information, which has been cut out from text utterances and accumulated in advance, to obtain a synthesized sound. The present invention relates to a phoneme piece information optimizing method in a speech database and a phoneme piece information optimizing device.

【0002】[0002]

【従来の技術】従来、音声波形を接続して合成音を得る
波形合成に適用される音声データベースの音素片情報に
対してクラスタリングを行い、最適な音素片情報を音声
ファイルに登録する音声ファイル構成方式等が特開平8
―263520号公報に開示されている。
2. Description of the Related Art Conventionally, a voice file structure for performing clustering on the phoneme piece information of a voice database applied to waveform synthesis for connecting voice waveforms to obtain a synthesized voice and registering optimum phoneme piece information in a voice file. The method is Japanese Patent Laid-Open No. 8
-263520.

【0003】図5は、従来のコンテキストクラスタリン
グの処理を示すフローチャートである。同図において、
音声データベース100内の音素ラベリングされた波形
データ中から同一の音素ラベルが付与されている波形デ
ータを全て取り出し、初期クラスタ110とする(ステ
ップ201)。
FIG. 5 is a flowchart showing a conventional context clustering process. In the figure,
From the phoneme-labeled waveform data in the speech database 100, all the waveform data with the same phoneme label are taken out and set as the initial cluster 110 (step 201).

【0004】次に、この初期クラスタ110内の個々の
波形データ(要素)を特徴分析する(ステップ20
2)。この特徴分析においては、LPC(線形予測符号
化法)ケプストラム等の特徴パラメータの次数をnと
し、かつ、分析窓関数のフレーム周期を可変として、フ
レーム数がmフレームとなるように分析を行うことによ
り、各要素に対してn×m次元の特徴パラメータ行列を
得る。
Next, the individual waveform data (elements) in this initial cluster 110 are subjected to feature analysis (step 20).
2). In this feature analysis, the order of feature parameters such as LPC (linear predictive coding) cepstrum is n, and the frame period of the analysis window function is variable, and the analysis is performed so that the number of frames is m frames. Thus, an n × m-dimensional feature parameter matrix is obtained for each element.

【0005】次にこの特徴分析の結果を用いて、初期ク
ラスタ110のクラスタ歪を求める(ステップ20
3)。具体的には、特徴パラメータのベクトル空間にお
いて、初期クラスタ110の全ての要素と予め求めてお
いたセントロイドとの間の距離の2乗和を求めて、これ
を初期クラスタ110のクラスタ歪と定義する。
Next, using the result of this feature analysis, the cluster distortion of the initial cluster 110 is obtained (step 20).
3). Specifically, in the vector space of feature parameters, the sum of squares of the distances between all the elements of the initial cluster 110 and the previously obtained centroid is calculated, and this is defined as the cluster distortion of the initial cluster 110. To do.

【0006】こうして初期クラスタ110のクラスタ歪
を求め、これをコンテキストクラスタテーブル208に
登録する。このコンテキストクラスタテーブル208に
は、図示のように、各クラスタ毎に、それに属するコン
テキストと、そのセントロイドと、そのクラスタ歪と、
それに含まれる要素波形の集合とが登録されている。
In this way, the cluster distortion of the initial cluster 110 is obtained and registered in the context cluster table 208. In the context cluster table 208, as shown in the figure, for each cluster, the context belonging to it, its centroid, its cluster distortion, and
A set of element waveforms included in it is registered.

【0007】尚、初期クラスタ110のクラスタ歪を求
めた段階では、初期クラスタ100だけがコンテキスト
クラスタテーブル208に登録されていることになる。
At the stage of obtaining the cluster distortion of the initial cluster 110, only the initial cluster 100 is registered in the context cluster table 208.

【0008】次にコンテキストクラスタテーブル208
中からクラスタ歪が最大となるクラスタを求め(ステッ
プ204)、この求めたクラスタを、コンテキストクラ
スタテーブル208中から取り出し、コンテキストによ
り更に2つのクラスタに分割する(ステップ205)。
Next, the context cluster table 208
A cluster having the largest cluster distortion is obtained from the inside (step 204), the obtained cluster is taken out from the context cluster table 208, and further divided into two clusters according to the context (step 205).

【0009】尚、最初の段階では、初期クラスタ110
だけがコンテキストクラスタテーブル208に登録され
ているので、この初期クラスタ110に対してクラスタ
分割が行われる。
In the initial stage, the initial cluster 110
Since only the initial cluster 110 is registered in the context cluster table 208, cluster division is performed on this initial cluster 110.

【0010】このようにして、初期クラスタ110の分
割が行われた後、コンテキストクラスタテーブル208
において、初期クラスタ110が削除され、分割された
2つのクラスタが新たに登録される(ステップ20
6)。
In this way, after the initial cluster 110 is divided, the context cluster table 208
In, the initial cluster 110 is deleted, and the two divided clusters are newly registered (step 20).
6).

【0011】以上の処理(ステップ203〜206)を
繰り返すことにより、初期クラスタ110は次第に小さ
いクラスタに細分化されていく。そして、この各繰り返
しループ毎に、コンテキストクラスタリングの終了判定
が行われる(ステップ207)。
By repeating the above processing (steps 203 to 206), the initial cluster 110 is gradually subdivided into smaller clusters. Then, the termination determination of the context clustering is performed for each of the repeated loops (step 207).

【0012】[0012]

【発明が解決しようとする課題】然し乍ら、この音声デ
ータベース100の音素片情報を削減して音声ファイル
(データベース)を作成したとしても、音声データベー
ス100に含まれる文章と音声合成器に入力する文章と
では音素片の出現頻度が異なるため、コンテキストクラ
スタテーブル208には音声合成に際して全く使用され
ない音素片情報を多く含んだままの状態であるといった
問題が依然残っていた。
However, even if the speech file (database) is created by reducing the phoneme piece information in the speech database 100, the sentences included in the speech database 100 and the sentences to be input to the speech synthesizer are However, since the appearance frequency of phoneme pieces is different, the problem that the context cluster table 208 still contains a lot of phoneme piece information that is not used at the time of speech synthesis remains.

【0013】従って、本発明は、大量の学習用テキスト
情報(文章)を予め用意し、それを全ての音素片を用い
た音声合成器で予め合成し、その結果から各音素片の使
用された回数(頻度情報)を求め、その分布にしたがっ
て距離の総和を計算し、クラスタリングを行うことを特
徴とする。
Therefore, according to the present invention, a large amount of learning text information (sentences) is prepared in advance, which is preliminarily synthesized by a speech synthesizer using all the phoneme pieces, and from the result, each phoneme piece is used. The number of times (frequency information) is obtained, the sum of distances is calculated according to the distribution, and clustering is performed.

【0014】これによって、クラスタリング処理の対象
となっている音声データベースに様々な音素片情報が含
まれていたとしても、頻繁に使用される音声に対して多
くの音素片を割り当てた音声ファイル(データベース)
を構築することが可能となる。
As a result, even if the speech database that is the target of the clustering process contains various pieces of phoneme information, a speech file (database that allocates many pieces of speech to frequently used speech). )
It is possible to build.

【0015】[0015]

【課題を解決するための手段】本発明の音声データベー
スにおける音素片情報最適化方法は、文章発話から切り
出した音素片を接続することにより合成音を得る波形合
成に適用される音声データベースにおける音素片情報最
適化方法において、予め学習用テキスト情報を用いて合
成し、その合成結果に従って前記音声データベースを構
成する各音素片情報の使用頻度を求め、該使用頻度に基
づいてクラスタリング処理を行うことにより、音声ファ
イルの音素片情報を最適化することを特徴とする。
A method for optimizing phoneme piece information in a speech database according to the present invention is applied to a phoneme piece in a speech database, which is applied to waveform synthesis to obtain a synthesized sound by connecting phoneme pieces cut out from a sentence utterance. In the information optimizing method, the text data for learning is synthesized in advance, the frequency of use of each phoneme piece information that constitutes the speech database is obtained according to the synthesis result, and the clustering process is performed based on the frequency of use. The feature is that the phoneme piece information of the audio file is optimized.

【0016】また、本発明の音声データベースにおける
音素片情報最適化方法は、文章発話から切り出した音素
片を接続することにより合成音を得る波形合成に適用さ
れる音声データベースにおける音素片情報最適化方法に
おいて、音素選択部が、学習用テキスト情報を入力とし
て、前記文章発話から切り出した音素片を蓄積した音声
データベースから最適な音素片を選択する第1ステップ
と、選択確率計算部が、前記音素選択部によって選択さ
れた各音素片の選択確率を求める第2ステップと、クラ
スタリング処理部が、前記音声データベースに対し、所
定のパラメータ空間において、前記選択確率を音素片の
分布確率としてクラスタリング処理を行う第3ステップ
と、及び音素波形素片登録部が、前記クラスタリング処
理部によってクラスタリングされた、各クラスタの中か
ら代表音素片を選択する第4ステップ、からなることを
特徴とする。
The phoneme piece information optimizing method in the speech database of the present invention is a phoneme piece information optimizing method in a speech database which is applied to waveform synthesis for obtaining a synthesized sound by connecting phoneme pieces cut out from a sentence utterance. In the first step, the phoneme selection unit receives the learning text information as an input, and selects the optimum phoneme unit from the speech database in which the phoneme units cut out from the sentence utterance are accumulated, and the selection probability calculation unit uses the phoneme selection unit. A second step of obtaining a selection probability of each phoneme unit selected by the unit, and a clustering processing unit performing a clustering process on the speech database in the predetermined parameter space using the selection probability as a distribution probability of the phoneme unit. The three steps, and the phoneme waveform segment registration unit are classified by the clustering processing unit. Taringu been characterized by a fourth step, selecting a representative phoneme from each cluster.

【0017】本発明の音声データベースにおける音素片
情報最適化装置は、文章発話から切り出した音素片を接
続することにより合成音を得る波形合成に適用される音
声データベースにおける音素片情報最適化装置におい
て、前記文章発話から切り出した音素片を蓄積した音声
データベースと、学習用テキスト情報を入力として、前
記音声データベースからなる最適な音素片を選択する音
素選択部と、該音素選択部によって選択された、各音素
片の選択確率を求める選択確率計算部と、前記音声デー
タベースに対し、所定のパラメータ空間において、前記
選択確率を音素片の分布確率としてクラスタリング処理
を行うクラスタリング処理部と、該クラスタリング処理
部によってクラスタリング処理された、各クラスタの中
から代表音素片を選択する音素波形素片登録部と、を備
えることを特徴とする。
A phoneme piece information optimizing device in a voice database according to the present invention is a phoneme piece information optimizing device in a voice database applied to waveform synthesis for obtaining a synthesized sound by connecting phoneme pieces cut out from a sentence utterance, A voice database accumulating phoneme pieces cut out from the sentence utterance, a phoneme selecting section for selecting an optimum phoneme piece consisting of the voice database by inputting learning text information, and each selected by the phoneme selecting section, A selection probability calculation unit that obtains a selection probability of a phoneme unit, a clustering processing unit that performs clustering processing on the speech database in the predetermined parameter space using the selection probability as a distribution probability of the phoneme unit, and clustering by the clustering processing unit. Select a representative phoneme from each processed cluster. The phoneme waveform segments registration unit that, characterized in that it comprises a.

【0018】また、前記クラスタリング処理部は、各ク
ラスタ内のセントロイドから前記クラスタ内に含まれる
全ての音素片までの距離が最小になるようにクラスタリ
ング処理することを特徴とする。
Further, the clustering processing unit is characterized by performing clustering processing so that a distance from a centroid in each cluster to all phoneme pieces included in the cluster is minimized.

【0019】前記学習用テキスト情報は、文章から構成
されていることを特徴とする。
The text information for learning is characterized by being composed of sentences.

【0020】更に、前記音素片は、少なくとも波形情報
から構成されていることを特徴とする。
Further, the phoneme piece is characterized by being composed of at least waveform information.

【0021】[0021]

【発明の実施の形態】本発明の実施の形態を図1〜図4
を用いて説明する。
BEST MODE FOR CARRYING OUT THE INVENTION An embodiment of the present invention is shown in FIGS.
Will be explained.

【0022】図1は、本発明を実現するための装置の概
略構成図である。また、図2は、本発明における、音声
データベースにおける音素片情報最適化方法を実現する
ためのフローチャートである。
FIG. 1 is a schematic configuration diagram of an apparatus for realizing the present invention. FIG. 2 is a flow chart for realizing the phoneme unit information optimizing method in the voice database according to the present invention.

【0023】以下、図1を参照し乍ら、図2の処理過程
を説明する。
The process of FIG. 2 will be described below with reference to FIG.

【0024】ステップS1では、学習用テキスト情報
(文章)が言語処理部1に入力されると、言語処理部1
は、形態素解析、係り受け解析を行い、解析後の音素に
対して音素記号、品詞、及びアクセント記号列を付与す
る。
In step S1, when the learning text information (sentence) is input to the language processing unit 1, the language processing unit 1
Performs morphological analysis and dependency analysis, and adds a phoneme symbol, a part of speech, and an accent symbol string to the analyzed phoneme.

【0025】ステップS3では、韻律パターン生成部2
は音素記号、アクセント記号列、及び形態素解析の結果
より得られる入力テキストの品詞情報を用いて、音素中
心付近での基本周波数F0、パワー、音韻継続時間長を
推定する。
In step S3, the prosody pattern generator 2
Estimates the fundamental frequency F 0 , power, and phoneme duration in the vicinity of the phoneme center using the phoneme symbol, the accent symbol string, and the part-of-speech information of the input text obtained from the result of the morpheme analysis.

【0026】ステップS5においては、数1に示す式を
用いてコストを求め、音素を選択する。本ステップにお
ける具体的な音素片の選択は、ステップS3で推定され
た基本周波数F0、パワー、音韻継続時間長の推定値と
の非適合を表わすコスト、及び各音素片を接続するとき
のコストを計算し、その総和が最小になる音素片の組み
合わせをDP(ダイナミックプログラミング)法に従い
数1を用いることにより探索を行う。ここで、コストを
示すコスト関数D(F)を数1に示す。
In step S5, the cost is obtained by using the formula shown in Formula 1 and the phoneme is selected. The specific selection of phonemes in this step is performed by selecting the fundamental frequency F 0 estimated in step S3, the power, the cost representing the incompatibility with the estimated value of the phoneme duration, and the cost of connecting each phoneme. Is calculated, and a combination of phoneme pieces whose sum total is minimized is searched for by using Equation 1 according to the DP (dynamic programming) method. Here, the cost function D (F) indicating the cost is shown in Equation 1.

【0027】[0027]

【数1】 [Equation 1]

【0028】尚、DF0、Dpow、Ddurは、音素中心付近
での基本周波数、パワー、音韻継続時間長の推定値と合
成単位との差であり、 Dposiは、文中の位置(語頭、
語中、及び語尾)の違いを数値化した値である。
c F0、Dc pow、Dc cepは、接続する2つの合成単位の
接続点での基本周波数の差、パワーの差、ケプストラム
の差である。 Dc phは、発話環境を考慮して決定された
接続の行い易さ(接続優先順位)を示す歪である。ま
た、wx、wc xは、夫々のパラメータに乗ずる重み係数
である。
Note that D F0 , D pow , and D dur are the difference between the estimated value of the fundamental frequency, power, and phoneme duration in the vicinity of the phoneme center and the synthesis unit, and D posi is the position in the sentence (start of word). ,
This is a numerical value of the difference between the word and the ending).
D c F0 , D c pow , and D c cep are the difference in fundamental frequency, the difference in power, and the difference in cepstrum at the connection points of the two combined units to be connected. D c ph is a distortion indicating the ease of connection (connection priority) determined in consideration of the utterance environment. Further, w x and w c x are weighting factors by which the respective parameters are multiplied.

【0029】次に、ステップS7では、全ての音素片を
含む音声データベース7を用いて、学習用テキスト情報
(文章)を合成し、各音素片の選択された回数を計算す
る。具体的には、音声データベース7の全ての音素片
を、適当な音素単位に分割する。このとき、無声の子音
を含む場合には、CV、VCに分割し、有声の子音を含
む場合には、VCVに分割している。尚、「C」とは、
子音(Consonant)を表わし、また「V」とは、母音(V
owel)を表わす。
Next, in step S7, the learning text information (sentence) is synthesized by using the speech database 7 including all the phonemes, and the number of times each phoneme is selected is calculated. Specifically, all phoneme pieces in the speech database 7 are divided into appropriate phoneme units. At this time, when an unvoiced consonant is included, it is divided into CV and VC, and when a voiced consonant is included, it is divided into VCV. In addition, "C" means
Represents a consonant, and "V" is a vowel (V
owel).

【0030】次に、各音素単位に含まれる音素片の選択
された回数を平均し、音素単位の選択回数とし、各音素
単位の選択確率を計算する。尚、本発明では、1度も選
択されなかった音素単位にも小さな確率を割り当てるこ
ととした。ステップS9においては、ステップS7で計
算された選択確率に基づいて、クラスタリング処理部5
は、分布が既知の場合のLBGアルゴリズムを用いて、
指定された個数にクラスタリング処理を行う。
Next, the number of times phoneme pieces included in each phoneme unit are selected is averaged to obtain the number of phoneme unit selections, and the selection probability of each phoneme unit is calculated. In the present invention, a small probability is assigned to a phoneme unit that has never been selected. In step S9, the clustering processing unit 5 is executed based on the selection probability calculated in step S7.
Using the LBG algorithm when the distribution is known,
Clustering processing is performed on the specified number.

【0031】ここで、ステップS9を図3を用いて詳細
に説明する。
Here, step S9 will be described in detail with reference to FIG.

【0032】まず、ステップS21では、指定された個
数の初期代表ベクトルA0を任意に決定する。またイン
デックスm=0、平均歪みD-1=―∞とする。
First, in step S21, a specified number of initial representative vectors A 0 are arbitrarily determined. Further, it is assumed that the index m = 0 and the average distortion D- 1 = -∞.

【0033】ステップS23では、音声データベースの
全ての音素片を最も近い代表ベクトルAmが属するクラ
スタP(Am)に分割する。この時の距離の計算は数2を
用いる。
In step S23, all the phonemes in the speech database are divided into clusters P (A m ) to which the nearest representative vector A m belongs. Equation 2 is used to calculate the distance at this time.

【0034】[0034]

【数2】 [Equation 2]

【0035】ステップS25では、各クラスタに属する
全ての音素片に関する重心(セントロイド)を計算し、
m+1の代表ベクトルとする。このセントロイドは、音
素片の音響パラメータのベクトルの各要素ごとの平均を
計算することで求められるが、この平均は、各音素の選
択確率を用いて計算される。
In step S25, the centroids (centroids) of all the phonemes belonging to each cluster are calculated,
Let m + 1 be the representative vector. The centroid is obtained by calculating an average for each element of the vector of acoustic parameters of the phoneme piece, and this average is calculated using the selection probability of each phoneme.

【0036】ステップS27では、代表ベクトル
m+1、クラスタP(Am+1)の時の平均歪みDm+1を計算
する。歪みは、前記数2を選択確率で平均した結果であ
る。
In step S27, the average distortion D m + 1 for the representative vector A m + 1 and the cluster P (A m + 1 ) is calculated. The distortion is a result obtained by averaging the equation 2 with a selection probability.

【0037】ステップS29は、インデックスを1増加
させる。
A step S29 increments the index by 1.

【0038】ステップS30は、終了判定を行ってい
る。歪みの減少率を計算し一定量ε以下ならその時のク
ラスタP(Am)を出力として終了する。
In step S30, the end judgment is made. The reduction rate of the distortion is calculated, and if it is less than a certain amount ε, the cluster P (A m ) at that time is output and the process ends.

【0039】ここで、図2に戻って更に説明を続ける。Now, returning to FIG. 2, the description will be continued.

【0040】最終的に、ステップS11では、ステップ
S9で求められた各クラスタのセントロイドを計算し、
それに最も近い音素を選択音素として音声ファイル作成
部6が登録することによって、縮小(削減)された音声
ファイル(データベース)が新たに作成される。
Finally, in step S11, the centroid of each cluster obtained in step S9 is calculated,
By registering the phoneme closest to it as the selected phoneme by the audio file creating unit 6, a reduced (reduced) audio file (database) is newly created.

【0041】次に、本発明の有効性を確かめるため、評
価実験を行った。本実験では、地名の読み上げを行う合
成器の生成を目的とした。学習用文章には、新郵便番号
データのうち九州地方を除く全てを用いた。新郵便番号
データより、市・郡名称、区町村名称、町域名称を抽出
し、「ここは、X市、Y区、Z町、です。」という文章
に変換し合成を行った。
Next, an evaluation experiment was conducted in order to confirm the effectiveness of the present invention. In this experiment, we aimed to create a synthesizer that reads out place names. All the new postal code data except for the Kyushu region were used as the learning texts. From the new postal code data, the city / county name, ward / town / village name, and town area name were extracted and converted into the sentence "This is X city, Y ward, Z town."

【0042】その結果より、「ここは、」と「です。」
の部分を除き、残りの結果より各音素の選択確率を求め
た。求めた選択確率を用いてクラスタリングした縮小フ
ァイル(データベース)と、選択確率が一様としてクラ
スタリングした縮小ファイル(データベース)を用い
て、学習に用いた地名、学習に用いなかった地名(九州
地方) 、小説の3種類の文章を合成し評価した。
From the result, "here is" and "is."
The selection probability of each phoneme was obtained from the rest of the results except for the part. Using the reduced files (database) clustered using the obtained selection probabilities and the reduced files (database) clustered with uniform selection probabilities, the place names used for learning, the place names not used for learning (Kyushu region), Three types of novel sentences were synthesized and evaluated.

【0043】以下に実験に用いた音声ファイル(データ
ベース)のサイズ、および実験結果を示す。
The size of the audio file (database) used in the experiment and the experimental result are shown below.

【0044】[0044]

【表1】 [Table 1]

【0045】図4において、縦軸は、地名20文章、小説
5文章を合成した時の数1の歪コストの合計を文章の総
音素数で割った1音素当りの平均歪である。また、図4
中の斜線は選択確率が一様として作成した音声ファイル
(データベース)による合成結果(conventional) 、ま
た交差線は提案方式による結果(proposed) 、更に縦線
は全ての音素片を含む音声ファイル(データベース)に
よる合成結果(all)である。
In FIG. 4, the vertical axis represents 20 place names and novels.
It is the average distortion per phoneme obtained by dividing the total distortion cost of number 1 when 5 sentences are combined by the total number of phonemes in the sentence. Also, FIG.
The diagonal lines in the middle are the synthesis results (conventional) by the speech file (database) created with a uniform selection probability, the intersecting lines are the results by the proposed method (proposed), and the vertical lines are the speech files containing all the phonemes (database). ) Is the result of synthesis (all).

【0046】place-name (closed)は学習に用いた地
名、place-name (open)は学習に用いなかった地名(九州
地方) 、novelは全く環境の異なる文章である小説の結
果を示す。
Place-name (closed) indicates a place name used for learning, place-name (open) indicates a place name not used for learning (Kyushu region), and novel indicates a novel result which is a sentence having a completely different environment.

【0047】この結果より、全ての場合で提案方式の方
が選択確率を一様とした場合と比較して歪が少なくなっ
ており、提案方式が有効であることがわかる。それぞれ
の文章の種類ごとに比較すると、proposedの歪は地名読
み上げではallに近いが、小説読み上げではconventiona
lに近い。これは、open-closedに関わらず言えること
で、地名読み上げという環境への最適化が行われている
ことがわかる。
From these results, it can be seen that in all cases, the proposed method has less distortion than the case where the selection probability is uniform, and the proposed method is effective. Comparing each sentence type, the distortion of proposed is similar to all in reading place names, but it is conventiona in reading novels.
close to l. This can be said regardless of open-closed, and it can be seen that optimization to the environment of reading the place name is being done.

【0048】[0048]

【発明の効果】以上の説明から明らかなように、本発明
によれば、文章発話から切り出した音素片を接続するこ
とにより合成音を得る波形合成に適用される音声データ
ベースにおける音素片情報最適化方法において、予め学
習用テキスト情報を用いて合成し、その合成結果に従っ
て前記音声データベースを構成する各音素片情報の使用
頻度を求め、該使用頻度に基づいてクラスタリング処理
を行うことにより、使用頻度の高い音素片情報からなる
音声ファイル(データベース)を作成することができる
効果を奏する。
As is clear from the above description, according to the present invention, phoneme piece information optimization in a speech database applied to waveform synthesis for obtaining a synthesized sound by connecting phoneme pieces cut out from a sentence utterance. In the method, the text data for learning is synthesized in advance, the frequency of use of each piece of phoneme information that constitutes the speech database is obtained according to the synthesis result, and the clustering process is performed based on the frequency of use to determine the frequency of use. It is possible to create an audio file (database) including high phoneme piece information.

【0049】更に、本発明は、文章発話から切り出した
音素片を接続することにより合成音を得る波形合成に適
用される音声データベースにおける音素片情報最適化装
置において、前記文章発話から切り出した音素片を蓄積
した音声データベースと、学習用テキストを入力とし
て、前記音声データベースからなる最適な音素片を選択
する音素選択部と、該音素選択部によって選択された、
各音素片の選択確率を求める選択確率計算部と、前記音
声データベースに対し、所定のパラメータ空間におい
て、前記選択確率を音素片の分布確率としてクラスタリ
ング処理を行うクラスタリング部と、該クラスタリング
部によってクラスタリングされた、各クラスタの中から
代表音素片を選択する音素波形素片登録部と、を備える
ことにより、使用頻度の高い音声には多くの音素片情報
を割り当てることが出来る効果を奏する。
Furthermore, the present invention is a phoneme piece information optimizing device in a speech database applied to waveform synthesis for obtaining a synthesized sound by connecting phoneme pieces cut out from a text utterance, and the phoneme pieces cut out from the text utterance. A phoneme selection unit that selects an optimum phoneme piece composed of the phonetic database by inputting a speech database that has stored a learning text and a phoneme selection unit.
A selection probability calculation unit that obtains a selection probability of each phoneme piece, a clustering unit that performs a clustering process on the speech database in the predetermined parameter space using the selection probability as a distribution probability of the phoneme pieces, and the clustering unit. Further, by providing the phoneme waveform element registration unit that selects a representative phoneme element from each cluster, it is possible to allocate a large amount of phoneme element information to a frequently used speech.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明を実現するための装置の概略構成図であ
る。
FIG. 1 is a schematic configuration diagram of an apparatus for realizing the present invention.

【図2】本発明における、音声データベースにおける音
素片情報最適化方法を実現するためのフローチャートで
ある。
FIG. 2 is a flowchart for realizing a phoneme piece information optimizing method in a voice database according to the present invention.

【図3】図2に示すステップS9の処理を詳細に表した
フローチャートである。
FIG. 3 is a flowchart showing in detail the processing of step S9 shown in FIG.

【図4】本発明の評価実験の結果を示す図である。FIG. 4 is a diagram showing a result of an evaluation experiment of the present invention.

【図5】従来のコンテキストクラスタリングの処理を示
すフローチャートである。
FIG. 5 is a flowchart showing a conventional context clustering process.

【符号の説明】[Explanation of symbols]

1・・・・・言語処理部 2・・・・・韻律パターン生成部 3・・・・・音素選択部 4・・・・・選択確率計算部 5・・・・・クラスタリング処理部 6・・・・・音声ファイル作成部 7・・・・・音声データベース 8・・・・・縮小音声ファイル(データベース) 1-Language processing unit 2 ... Prosody pattern generator 3 ... Phoneme selection section 4 ... Choice probability calculator 5 ... Clustering processing unit 6-Sound file creation section 7: Voice database 8: Reduced audio file (database)

───────────────────────────────────────────────────── フロントページの続き (72)発明者 橋本 誠 大阪府守口市京阪本通2丁目5番5号 三洋電機株式会社内 (56)参考文献 特開 平8−263520(JP,A) 特開 平7−13598(JP,A) 橋本泰秀、斎藤隆,環境依存性を考慮 した音節を合成単位とする音声合成,日 本音響学会研究発表会講演論文集,日 本,日本音響学会,1995年 9月,平成 7年秋季I,245−246 平井啓之、橋本誠、西田秀治、大西宏 樹,音素片の選択結果の頻度情報に基づ いた音声合成用音声データベースの削 減,日本音響学会研究発表会講演論文 集,日本,日本音響学会,1997年 9 月,平成9年秋季,259−260 (58)調査した分野(Int.Cl.7,DB名) G10L 13/06 ─────────────────────────────────────────────────── ─── Continuation of front page (72) Inventor Makoto Hashimoto 2-5-5 Keihan Hondori, Moriguchi City, Osaka Sanyo Electric Co., Ltd. (56) Reference JP-A-8-263520 (JP, A) JP Hei 7-13598 (JP, A) Yasuhide Hashimoto, Takashi Saito, Speech synthesis using syllables in consideration of environmental dependence, Proceedings of the Japan Acoustics Society Conference, Japan, ASJ, 1995 September, 1995 Autumn I, 245-246 Hiroyuki Hirai, Makoto Hashimoto, Shuji Nishida, Hiroki Onishi, Reduction of speech synthesis speech database based on frequency information of phoneme selection results, ASJ study Proceedings of the presentation, Japan, ASJ, September 1997, Autumn 1997, 259-260 (58) Fields investigated (Int.Cl. 7 , DB name) G10L 13/06

Claims (9)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文章発話から切り出した音素片を接続す
ることにより合成音を得る波形合成に適用される音声デ
ータベースにおける音素片情報最適化方法において、 予め学習用テキスト情報を用いて合成し、その合成結果
に従って前記音声データベースを構成する各音素片情報
の使用頻度を求め、該使用頻度に基づいてクラスタリン
グ処理を行うことにより、音声ファイルの音素片情報を
最適化することを特徴とする音声データベースにおける
音素片情報最適化方法。
1. A phoneme piece information optimizing method in a speech database which is applied to a waveform synthesis for obtaining a synthesized sound by connecting phoneme pieces cut out from a sentence utterance, which are synthesized in advance using learning text information, A speech database characterized by optimizing the speech segment information of a speech file by obtaining the frequency of use of each piece of speech element information that composes the speech database according to the synthesis result and performing clustering processing based on the frequency of use. Phoneme piece information optimization method.
【請求項2】 文章発話から切り出した音素片を接続す
ることにより合成音を得る波形合成に適用される音声デ
ータベースにおける音素片情報最適化方法において、 音素選択部が、学習用テキスト情報を入力として、前記
文章発話から切り出した音素片を蓄積した音声データベ
ースから最適な音素片を選択する第1ステップと、 選択確率計算部が、前記音素選択部によって選択された
各音素片の選択確率を求める第2ステップと、 クラスタリング処理部が、前記音声データベースに対
し、所定のパラメータ空間において、前記選択確率を音
素片の分布確率としてクラスタリング処理を行う第3ス
テップと、及び音素波形素片登録部が、前記クラスタリ
ング処理部によってクラスタリングされた、各クラスタ
の中から代表音素片を選択する第4ステップ、からなる
ことを特徴とする音声データベースにおける音素片情報
最適化方法。
2. A phoneme piece information optimizing method in a speech database applied to waveform synthesis for obtaining a synthesized sound by connecting phoneme pieces cut out from a sentence utterance, wherein a phoneme selection unit receives learning text information as an input. A first step of selecting an optimum phoneme piece from a speech database in which phoneme pieces cut out from the sentence utterance are accumulated, and a selection probability calculation unit obtaining a selection probability of each phoneme piece selected by the phoneme selection unit And a third step in which the clustering processing unit performs clustering processing on the voice database in the predetermined parameter space using the selection probability as the distribution probability of the phoneme unit, and the phoneme waveform unit registration unit. Fourth selection of representative phoneme pieces from each cluster clustered by the clustering processing unit A method for optimizing phoneme piece information in a speech database, comprising:
【請求項3】 文章発話から切り出した音素片を接続す
ることにより合成音を得る波形合成に適用される音声デ
ータベースにおける音素片情報最適化装置において、 前記文章発話から切り出した音素片を蓄積した音声デー
タベースと、 学習用テキスト情報を入力として、前記音声データベー
スからなる最適な音素片を選択する音素選択部と、 該音素選択部によって選択された、各音素片の選択確率
を求める選択確率計算部と、 前記音声データベースに対し、所定のパラメータ空間に
おいて、前記選択確率を音素片の分布確率としてクラス
タリング処理を行うクラスタリング処理部と、該クラス
タリング処理部によってクラスタリング処理された、各
クラスタの中から代表音素片を選択する音素波形素片登
録部と、を備えることを特徴とする音声データベースに
おける音素片情報最適化装置。
3. A phoneme piece information optimizing device in a speech database applied to waveform synthesis for obtaining a synthesized sound by connecting phoneme pieces cut out from a text utterance, wherein a voice accumulating phoneme pieces cut out from the text utterance is accumulated. A database, a phoneme selection unit for inputting learning text information and selecting an optimum phoneme unit consisting of the speech database, and a selection probability calculation unit for obtaining a selection probability of each phoneme unit selected by the phoneme selection unit. A clustering processing unit that performs a clustering process on the speech database in a predetermined parameter space using the selection probability as a phoneme unit distribution probability, and a representative phoneme unit from each cluster that is clustered by the clustering processing unit. And a phoneme waveform segment registration unit for selecting Phoneme information optimizing apparatus in voice database.
【請求項4】 前記クラスタリング処理部は、各クラス
タ内のセントロイドから前記クラスタ内に含まれる全て
の音素片までの距離が最小になるようにクラスタリング
処理することを特徴とする請求項1、又は2記載の音声
データベースにおける音素片情報最適化方法。
4. The clustering processing unit performs clustering processing so that a distance from a centroid in each cluster to all phoneme pieces included in the cluster is minimized. A method for optimizing phoneme piece information in the speech database according to 2.
【請求項5】 前記学習用テキスト情報は、文章から構
成されていることを特徴とする請求項1、又は2記載の
音声データベースにおける音素片情報最適化方法。
5. The phoneme piece information optimizing method in a speech database according to claim 1, wherein the learning text information is composed of a sentence.
【請求項6】 前記音素片は、少なくとも波形情報から
構成されていることを特徴とする請求項1、又は2記載
の音声データベースにおける音素片情報最適化方法。
6. The method for optimizing phoneme piece information in a speech database according to claim 1, wherein the phoneme piece is composed of at least waveform information.
【請求項7】 前記クラスタリング処理部は、各クラス
タ内のセントロイドから前記クラスタ内に含まれる全て
の音素片までの距離が最小になるようにクラスタリング
処理することを特徴とする請求項3記載の音声データベ
ースにおける音素片情報最適化装置。
7. The clustering processing unit performs clustering processing such that a distance from a centroid in each cluster to all phoneme pieces included in the cluster is minimized. A phoneme piece information optimization device in a speech database.
【請求項8】 前記学習用テキスト情報は、文章から構
成されていることを特徴とする請求項3記載の音声デー
タベースにおける音素片情報最適化装置。
8. The phoneme unit information optimizing device in a speech database according to claim 3, wherein the learning text information is composed of a sentence.
【請求項9】 前記音素片は、少なくとも波形情報から
構成されていることを特徴とする請求項3記載の音声デ
ータベースにおける音素片情報最適化装置。
9. The phoneme piece information optimizing device in a speech database according to claim 3, wherein the phoneme piece is composed of at least waveform information.
JP24875097A 1997-09-12 1997-09-12 Method and apparatus for optimizing phoneme information in speech database Expired - Fee Related JP3505364B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24875097A JP3505364B2 (en) 1997-09-12 1997-09-12 Method and apparatus for optimizing phoneme information in speech database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24875097A JP3505364B2 (en) 1997-09-12 1997-09-12 Method and apparatus for optimizing phoneme information in speech database

Publications (2)

Publication Number Publication Date
JPH1185193A JPH1185193A (en) 1999-03-30
JP3505364B2 true JP3505364B2 (en) 2004-03-08

Family

ID=17182822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24875097A Expired - Fee Related JP3505364B2 (en) 1997-09-12 1997-09-12 Method and apparatus for optimizing phoneme information in speech database

Country Status (1)

Country Link
JP (1) JP3505364B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001109489A (en) 1999-08-03 2001-04-20 Canon Inc Voice information processing method, voice information processor and storage medium
KR20030060588A (en) * 2002-01-10 2003-07-16 주식회사 현대오토넷 Method for selecting recording sentence for voice synthesis on corpus
JP5020759B2 (en) * 2007-09-26 2012-09-05 Kddi株式会社 Segment database generation apparatus, method and program for various speech synthesizers
JP2009237015A (en) * 2008-03-26 2009-10-15 Nippon Hoso Kyokai <Nhk> Elementary speech unit connector and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
平井啓之、橋本誠、西田秀治、大西宏樹,音素片の選択結果の頻度情報に基づいた音声合成用音声データベースの削減,日本音響学会研究発表会講演論文集,日本,日本音響学会,1997年 9月,平成9年秋季,259−260
橋本泰秀、斎藤隆,環境依存性を考慮した音節を合成単位とする音声合成,日本音響学会研究発表会講演論文集,日本,日本音響学会,1995年 9月,平成7年秋季I,245−246

Also Published As

Publication number Publication date
JPH1185193A (en) 1999-03-30

Similar Documents

Publication Publication Date Title
US11990118B2 (en) Text-to-speech (TTS) processing
US7603278B2 (en) Segment set creating method and apparatus
US20200410981A1 (en) Text-to-speech (tts) processing
Wu et al. Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis
Narendra et al. Development of syllable-based text to speech synthesis system in Bengali
US11763797B2 (en) Text-to-speech (TTS) processing
WO2021061484A1 (en) Text-to-speech processing
JP3910628B2 (en) Speech synthesis apparatus, speech synthesis method and program
US10699695B1 (en) Text-to-speech (TTS) processing
WO2005059895A1 (en) Text-to-speech method and system, computer program product therefor
JP4829477B2 (en) Voice quality conversion device, voice quality conversion method, and voice quality conversion program
JP6013104B2 (en) Speech synthesis method, apparatus, and program
Ipsic et al. Croatian HMM-based speech synthesis
JP3505364B2 (en) Method and apparatus for optimizing phoneme information in speech database
Kim et al. Implementation and evaluation of an HMM-based Korean speech synthesis system
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
Xia et al. HMM-based unit selection speech synthesis using log likelihood ratios derived from perceptual data
Vesnicer et al. Evaluation of the Slovenian HMM-based speech synthesis system
Hsu et al. Speaker-dependent model interpolation for statistical emotional speech synthesis
JP6523423B2 (en) Speech synthesizer, speech synthesis method and program
JPH10254471A (en) Voice synthesizer
EP1589524B1 (en) Method and device for speech synthesis
Demenko et al. Prosody annotation for unit selection TTS synthesis
Demenko et al. Prosody annotation for corpus based speech synthesis
EP1640968A1 (en) Method and device for speech synthesis

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091219

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101219

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101219

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111219

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121219

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131219

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees