JP3444396B2 - Speech synthesis method, its apparatus and program recording medium - Google Patents

Speech synthesis method, its apparatus and program recording medium

Info

Publication number
JP3444396B2
JP3444396B2 JP23974597A JP23974597A JP3444396B2 JP 3444396 B2 JP3444396 B2 JP 3444396B2 JP 23974597 A JP23974597 A JP 23974597A JP 23974597 A JP23974597 A JP 23974597A JP 3444396 B2 JP3444396 B2 JP 3444396B2
Authority
JP
Japan
Prior art keywords
speech
codebook
fundamental frequency
vector
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23974597A
Other languages
Japanese (ja)
Other versions
JPH10143196A (en
Inventor
公人 田中
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP23974597A priority Critical patent/JP3444396B2/en
Publication of JPH10143196A publication Critical patent/JPH10143196A/en
Application granted granted Critical
Publication of JP3444396B2 publication Critical patent/JP3444396B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、音声素片を用い
たテキストから音声への変換技術において、生成する音
声の基本周波数パターンが、音声素片のパターンと大き
く異なる場合に生ずる、合成音声の品質劣化を防いだ
り、分析合成において原音声の基本周波数パターンと大
きく異なる合成音声を生成する場合に生じる合成音声の
品質劣化を防止することを目的とする音声合成方法に関
するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a text-to-speech conversion technique using speech units, which produces a synthesized speech that is generated when the fundamental frequency pattern of the generated speech is significantly different from the pattern of the speech units. The present invention relates to a speech synthesizing method intended to prevent quality degradation and prevent quality degradation of synthetic speech that occurs when synthetic speech that is significantly different from a fundamental frequency pattern of original speech is generated in analysis and synthesis.

【0002】[0002]

【従来の技術】従来においては、例えばテキストから音
声への変換を行う場合、あらかじめ録音した音声素片か
ら基本周期ごとに1周期波形を切り出し、テキストの解
析結果から生成された基本周波数パターンに合わせて、
その波形を再配列するというものであった。これはPS
OLA法と呼ばれ、例えばM. Moulines 等“Pitch-sync
hronous waveform, processing techniques for text-t
o-speech synthesis using diphones" Speech Communic
ation, vol. 9, pp.453-467(1990-12)に示されている。
2. Description of the Related Art Conventionally, for example, when converting text into speech, one period waveform is cut out from a prerecorded speech segment for each fundamental period and matched with a fundamental frequency pattern generated from a text analysis result. hand,
It was to rearrange the waveform. This is PS
It is called the OLA method, and is referred to as “Pitch-sync” by M. Moulines et al.
hronous waveform, processing techniques for text-t
o-speech synthesis using diphones "Speech Communic
ation, vol. 9, pp.453-467 (1990-12).

【0003】また分析合成においては原音声を分析して
スペクトル特徴量を保持し、このスペクトル特徴量を用
いて原音声を合成するものであった。従来の技術では、
あらかじめ録音した音声素片の持つ基本周波数パターン
と、合成したい音声の基本周波数パターンとが大きく異
なっている場合、合成された音声の品質は著しく劣化す
る。これらについては例えば T.Hirokawa 等“Segment
Selection and Pitch Modification for High Quality
Speech Synthesis using Waveform Segments”ICSL
P90 337〜340頁、D. H. Klatt 等“Analysi
s, synthesis, and perception of voice quality vari
ations among female and male talkers ”J. Acoust.
Soc. Am. 87(2),February 1990 ,820〜857
頁、に示されている。このため従来のPSOLA法では
テキストの解析結果から生成される基本周波数パターン
にそのまま合わせて波形配列をすると品質が著しく劣化
することがあるため、基本周波数パターンの変化が小さ
い、平坦なものとを用いることがあった。
Further, in the analysis and synthesis, the original voice is analyzed to retain the spectral feature amount, and the original voice is synthesized using this spectral feature amount. With conventional technology,
When the fundamental frequency pattern of the voice unit recorded in advance and the fundamental frequency pattern of the voice to be synthesized are greatly different, the quality of the synthesized voice is significantly deteriorated. For these, for example, T. Hirokawa et al. “Segment
Selection and Pitch Modification for High Quality
Speech Synthesis using Waveform Segments "ICSL
P90 pp. 337-340, DH Klatt et al., "Analysi
s, synthesis, and perception of voice quality vari
ations among female and male talkers ”J. Acoust.
Soc. Am. 87 (2), February 1990, 820-857.
Page. For this reason, in the conventional PSOLA method, when the waveform array is directly aligned with the basic frequency pattern generated from the text analysis result, the quality may be significantly deteriorated. Therefore, a flat one with a small change in the basic frequency pattern is used. There was an occasion.

【0004】音声素片の基本周波数を大きく変更したと
きに生じる合成音声の品質劣化の原因は、基本周波数と
スペクトルとが音響的にマッチしないためと考えられ
る。従って基本周波数と整合のとれたスペクトル構造を
もつ、数多くの音声素片を用意すれば、品質が良い合成
音声を得ることができる。しかし、全ての音声素片につ
いて、所望する基本周波数で発声させることは難しく、
たとえそれが可能であったとしても、記憶容量が膨大に
なり、実現性に乏しい。
It is considered that the cause of the quality deterioration of the synthesized speech caused when the fundamental frequency of the speech unit is largely changed is that the fundamental frequency and the spectrum do not acoustically match. Therefore, if a large number of speech units having a spectral structure matched with the fundamental frequency are prepared, a synthesized speech with good quality can be obtained. However, it is difficult to utter at the desired fundamental frequency for all speech units,
Even if it is possible, the storage capacity will be huge and the feasibility will be poor.

【0005】このような点から、日本国の特開昭57−
171398号公報(1982年10月21日公開)で
は各音韻ごとに基本周波数の異なる複数の音声に対する
スペクトル包絡パラメータ値を記憶しておき、最も近い
基本周波数のスペクトル包絡パラメータを用いる。これ
は、基本周波数の種類が少ないため、品質向上がわずか
であり、しかも記憶容量が著しく大となる欠点がある。
From this point of view, Japanese Unexamined Patent Publication No. 57-
In 171398 gazette (published on October 21, 1982), spectrum envelope parameter values for a plurality of voices having different fundamental frequencies are stored for each phoneme, and the spectrum envelope parameter of the closest fundamental frequency is used. This is because there are few types of fundamental frequencies, so there is a slight improvement in quality, and the storage capacity is significantly large.

【0006】また日本国の特開平7−104795号公
報(1995年4月21日公開)では人間の声をモデル
化し、変換規則を作成し、基本周波数の変更に応じてス
ペクトルを変形している。この方法は、声のモデル化が
必ずしも正確には行われず、従って変換規則も人間の音
声に正しくマッチしたものとならず、品質のよいものは
期待できない。
Further, in Japanese Patent Laid-Open No. 7-104795 (published on April 21, 1995), a human voice is modeled, a conversion rule is created, and a spectrum is transformed according to a change in fundamental frequency. . In this method, the modeling of the voice is not always performed accurately, and therefore the conversion rule does not match the human voice correctly, and high quality cannot be expected.

【0007】更に日本音響学会平成8年3月の講演論文
集337〜338頁に基本周波数と、スペクトルを変更
して音声合成することが提案されている。この方法は基
本周波数F0 を高くすると、これに伴ってスペクトルの
間隔を広げるという大ざっぱな変更であって、品質の良
い合成音声は得られない。また分析合成においても、原
音声のピッチ周期と大きく異なるピッチ周期の合成音声
を生成する場合、合成音の品質が劣化する問題があっ
た。
[0007] Further, it is proposed in the Acoustical Society of Japan, March 1996, Proceedings, pages 337 to 338, to change the fundamental frequency and the spectrum to perform speech synthesis. This method is a rough modification in which the spectrum interval is widened when the fundamental frequency F 0 is increased, and a good quality synthesized speech cannot be obtained. Further, also in the analysis and synthesis, there is a problem that the quality of the synthesized speech is deteriorated when the synthesized speech having the pitch period greatly different from the pitch period of the original speech is generated.

【0008】なお、この出願の優先権主張日1996年
9月11日より後に本発明者により、この出願の発明の
一部又は全てを、下記学会及びその論文集で発表してい
る。 A.Kimihito Tanaka,and Masanobu Abe,"A New Fundam
ental Frecuency Mod-ification Algorithm With Trans
formation of Spectrum Envelope According to F0”,
1997 International Conference on Acoustics,Speech,
and Signal Processing(ICASSP 97)Vol.II,pp.951-954,
The Institute of Electronics Engineers(IEEE) Signa
l Processing Society,April 21-24,1997 B.田中 公人、阿部 匡伸「基本周波数に応じてスペ
クトル包絡を変形するテキスト音声合成システム」電子
情報通信学会技術研究報告(信学技報)Vol.96
No.566 23〜30頁,SP96−130 19
97年3月7日(公表は6日)社団法人 電子情報通信
学会 C.田中 公人、阿部 匡伸「F0に応じてスペクトル
包絡を変形する音声合成方式」日本音響学会 平成9年
度春季研究発表会 講演論文集I 217〜218頁
1997年3月17日,社団法人 日本音響学会 D.国内発表+論文集 田中 公人、阿部 匡伸「基本周波数に応じてスペクト
ル包絡を変形する音声合成方式」日本音響学会 平成8
年度秋季研究発表会 講演論文集I 217〜218頁
1996年9月25日,社団法人 日本音響学会
[0008] Note that, after the priority claim date of this application, September 11, 1996, the present inventor has announced some or all of the inventions of this application in the following academic conferences and their collections of papers. A. Kimihito Tanaka, and Masanobu Abe, "A New Fundam
ental Frecuency Mod-ification Algorithm With Trans
formation of Spectrum Envelope According to F0 ”,
1997 International Conference on Acoustics, Speech,
and Signal Processing (ICASSP 97) Vol.II, pp.951-954,
The Institute of Electronics Engineers (IEEE) Signa
l Processing Society, April 21-24, 1997 B. Kimito Tanaka, Masanobu Abe "Text-to-speech synthesis system that transforms spectral envelope according to fundamental frequency" IEICE Technical Report Vol. 96
No. 566, pages 23-30, SP96-13019.
March 7, 1997 (published 6th) The Institute of Electronics, Information and Communication Engineers C.I. Kimito Tanaka, Masanobu Abe "Voice Synthesis Method that Transforms Spectral Envelope According to F0", Acoustical Society of Japan, 1997 Spring Research Presentation, Proceedings I 217-218
March 17, 1997, Acoustical Society of Japan D.A. Presentations in Japan + Collection of papers K. Tanaka, T. Abe "Speech synthesis method that transforms spectral envelope according to fundamental frequency" Acoustical Society of Japan 1996
Autumn Research Conference, Proceedings I pp. 217-218 September 25, 1996, The Acoustical Society of Japan

【0009】[0009]

【課題を解決するための手段】前期問題点を解決するた
めに、この発明は、入力音声、つまり音声素片又は原音
声の基本周波数に対する合成する音声の基本周波数の差
に応じて、自然音声のスペクトル包絡と基本周波数との
関係を利用してスペクトル包絡に変形処理を施す。
SUMMARY OF THE INVENTION In order to solve the above-mentioned problems, the present invention relates to a natural speech in accordance with the difference between the fundamental frequency of the input speech, that is, the fundamental frequency of the speech unit or the original speech, of the synthesized speech. The transformation processing is performed on the spectrum envelope by utilizing the relationship between the spectrum envelope of s and the fundamental frequency.

【0010】そのために、例えば数段階の基本周波数レ
ンジで同じテキストを発声させた学習用音声データか
ら、各基本周波数レンジごとにコードブックをあらかじ
め作成しておく。これらのコードブックは、各基本周波
数レンジ間で、コードベクトルが1対1に対応づけられ
ている。音声を合成するときには、入力音声から抽出し
たスペクトル包絡の音声特徴量を、その入力音声がもつ
基本周波数レンジのコードブック(基準コードブック)
を用いてベクトル量子化し、合成したい基本周波数レン
ジのマッピングコードブック上でデコードすることによ
り、スペクトル包絡の変形を行う。変形されたスペクト
ル包絡は、基本周波数とスペクトルが音響的にマッチし
ているので、これを用いることにより、高品質な音声の
合成が可能となる。
For that purpose, for example, a codebook is prepared in advance for each basic frequency range from learning voice data in which the same text is uttered in several basic frequency ranges. In these codebooks, code vectors are associated with each other in one-to-one correspondence between the fundamental frequency ranges. When synthesizing speech, the speech feature amount of the spectral envelope extracted from the input speech is codebook of the fundamental frequency range of the input speech (reference codebook).
Then, the vector envelope is transformed by using and the spectrum envelope is transformed by decoding on the mapping codebook of the fundamental frequency range to be synthesized. In the modified spectrum envelope, the fundamental frequency and the spectrum are acoustically matched, and by using this, high-quality speech synthesis is possible.

【0011】また前記基準コードブックと他の基本周波
数レンジのコードブックとの各対応コードベクトル間の
差分ベクトルを求めて差分ベクトルコードブックを用意
し、更に、基準コードブックと他の基本周波数レンジの
コードブックとの各対応クラスにそれぞれ属する要素ベ
クトルの基本周波数の平均値間の差を求めて差分周波数
コードブックを用意し、前記入力音声のスペクトル包絡
を基準コードブックでベクトル量子化し、その量子化コ
ードと対応する差分ベクトルを、前記差分ベクトルコー
ドブックから求め、また前記量子化コードと対応する差
分周波数を前記差分周波数コードブックから求め、この
差分周波数と、入力音声の基本周波数と、所望基本周波
数とからこれら両基本周波数の差に応じた伸縮率を求
め、その伸縮率に応じて前記差分ベクトルを伸縮させ、
その伸縮させた差分ベクトルを、入力音声のスペクトル
包絡に加算し、その加算したスペクトル包絡を時間領域
に変換して、スペクトル包絡が変形された音声素片が得
られる。この場合は、コードブックを作成した基本周波
数レンジと異なる任意の基本周波数にマッチしたスペク
トル包絡の変形が可能となる。請求項1の発明によれ
ば、入力音声素片波形(以下、入力音声と記す)を、そ
の基本周波数と異なる所望の基本周波数の音声に合成す
る音声合成方法において、基本周波数レンジの違う学習
用音声データから作られた、入力音声の基本周波数レン
ジのスペクトル包絡について作成したコードブック(以
下、このコードブックを基準コードブックと記す)と、
この基準コードブックの各コードベクトルと入力音声と
基本周波数レンジの異なるコードブックの対応コードベ
クトルとの差分ベクトルよりなる差分ベクトルコードブ
ックとを用いて、上記入力音声のスペクトル包絡を、上
記基準コードブックを用いてベクトル量子化し、そのベ
クトル量子化されたコードと対応した差分ベクトルを上
記差分ベクトルコードブックから求め、その差分ベクト
ルを、上記入力音声の基本周波数に対する上記所望基本
周波数のずれ量に応じて伸縮し、その伸縮した差分ベク
トルと、上記ベクトル量子化されたコードのベクトルと
を加算したものから上記入力音声のスペクトル包絡に対
し変形処理されたものを得るものである。
A difference vector codebook is prepared by obtaining a difference vector between corresponding code vectors of the reference codebook and a codebook of another fundamental frequency range, and further, a difference vector codebook is prepared. A difference frequency codebook is prepared by obtaining the difference between the average values of the fundamental frequencies of the element vectors belonging to each corresponding class with the codebook, and the spectrum envelope of the input speech is vector-quantized by the reference codebook, and the quantization is performed. A difference vector corresponding to the code is obtained from the difference vector codebook, and a difference frequency corresponding to the quantized code is obtained from the difference frequency codebook, and the difference frequency, the fundamental frequency of the input voice, and the desired fundamental frequency. The expansion ratio is calculated from the difference between the two fundamental frequencies and To extend and retract the difference vector Te,
The expanded / contracted difference vector is added to the spectrum envelope of the input voice, and the added spectrum envelope is transformed into the time domain to obtain a speech unit with a modified spectrum envelope. In this case, it is possible to modify the spectrum envelope that matches any fundamental frequency different from the fundamental frequency range for which the codebook was created. According to the invention of claim 1
For example, input speech segment waveform (hereinafter referred to as input speech)
To a voice with a desired fundamental frequency different from the fundamental frequency of
Learning with different fundamental frequency ranges
Input audio fundamental frequency range created from audio data
A codebook created for the spectral envelope of
Below, this codebook is referred to as the reference codebook),
With each code vector and input voice of this reference codebook
Corresponding code bases of code books with different basic frequency ranges
Difference vector code block consisting of the difference vector
And the spectral envelope of the input speech above
Vector quantization using the standard codebook and
The difference vector corresponding to the quantized code is
The difference vector obtained from the difference vector codebook
The desired fundamental for the fundamental frequency of the input voice.
Expands and contracts according to the amount of frequency shift, and expands and contracts the differential vector.
And the vector of the vector quantized code above
Is added to the spectral envelope of the input speech above.
The result is a deformed one.

【0012】[0012]

【発明の実施の形態】図1にこの発明の基本手順を示
す。入力音声はステップS1でスペクトル特徴量が抽出
され、ステップS2で入力音声と合成音声との基本周波
数差に応じて、基本周波数とスペクトル包絡との関係を
用いて、入力音声のスペクトル包絡に変形処理を行い、
合成音声を得る。
1 shows the basic procedure of the present invention. In step S1, the spectrum feature amount of the input voice is extracted, and in step S2, the process of transforming into the spectrum envelope of the input voice is performed using the relationship between the fundamental frequency and the spectrum envelope according to the fundamental frequency difference between the input voice and the synthesized voice. And then
Get synthetic speech.

【0013】以下、この発明をテキスト音声合成に適用
する場合の実施例を述べる。音声素片を用いたテキスト
音声合成システムでは、入力されたテキストを解析し
て、合成に用いる音声素片の系列と基本周波数パターン
が得られる。合成する音声の基本周波数パターンと音声
素片が本来持っている基本周波数パターンが大きく異な
る場合、この発明では、音声素片の基本周波数パターン
の、与えられた基本周波数パターンに対する変形量に応
じて、音声素片のスペクトル包絡を変形する。この変形
のためには音声素片、つまり入力音声波形のスペクトル
特徴量の抽出を行うが、これは図2に示すようにして行
う。なお、ここで用いる音声データには、すべて、音素
の境界および基本周期を表すピッチマークが付与されて
いるものとする。
An embodiment in which the present invention is applied to text-to-speech synthesis will be described below. A text-to-speech synthesis system using speech units analyzes an input text and obtains a sequence of speech units and a fundamental frequency pattern used for synthesis. When the fundamental frequency pattern of the speech unit to be synthesized and the fundamental frequency pattern originally possessed by the speech unit are largely different, in the present invention, the fundamental frequency pattern of the speech unit, in accordance with the amount of deformation with respect to the given fundamental frequency pattern, Transform the spectral envelope of a speech unit. For this modification, the speech unit, that is, the spectral feature quantity of the input speech waveform is extracted, which is performed as shown in FIG. In addition, it is assumed that all the voice data used here are provided with pitch marks representing boundaries of phonemes and fundamental periods.

【0014】この図2は、音声信号を効率よく表現する
ための、スペクトル包絡情報を表す音声特徴量を抽出す
る手順である。この手法は、対数スペクトルを基本周波
数の整数倍の近傍の最大値をサンプリングして余弦モデ
ルの最小二乗近似によりスペクトル包絡を推定する方法
(H.Matsumoto 等“A Minimum Distortion SpectralMap
ping Applied to Voice Quality Conversion ”ICS
LP90,5,9,pp. 161〜164(1990))
を改良したものである。
FIG. 2 is a procedure for extracting a voice feature amount representing spectral envelope information for efficiently expressing a voice signal. This method is a method of estimating the spectrum envelope by the least square approximation of the cosine model by sampling the maximum value of the logarithmic spectrum in the vicinity of an integer multiple of the fundamental frequency (H. Matsumoto et al. “A Minimum Distortion SpectralMap
ping Applied to Voice Quality Conversion "ICS
LP90, 5, 9, pp. 161-164 (1990))
Is an improvement of.

【0015】音声波形が入力されると、ステップS10
1では、ピッチマークを中心に、基本周期の例えば5倍
の長さの窓関数をかけ、波形を切り出す。ステップS1
02では、切り出した波形をFFT(高速フーリエ変
換)し、対数パワースペクトルを求める。ステップS1
03では、ステップS102で求めた対数パワースペク
トルについて、基本周波数F0 の整数倍の近傍(nF0
−F0 /2<fn <nF0 +F0/2)における、対数
パワースペクトルの最大値をサンプリングする。ここ
で、nは整数を表す。つまり図3に示すように、周波数
0 、2F0 、3F0 …をそれぞれ中心とする周波数F
0 の区間内における各対数パワースペクトルの最大値を
取り出す。また例えば3F0 を中心とする区間で取り出
された最大値の周波数f3 が3F0 以下でその隣の4F
0 を中心とする区間で取り出された最大値の周波数f4
が4F0 より高く、f3 とf4 の差ΔF、つまり隣接サ
ンプリング間隔が1.5 F0 よりも大きい区間がある場
合、その区間f3 〜f4 における対数パワースペクトル
の極大値もサンプリングする。
When the voice waveform is input, step S10
In 1, a window function having a length of, for example, 5 times the basic period is applied to the center of the pitch mark to cut out the waveform. Step S1
In 02, the cut-out waveform is subjected to FFT (Fast Fourier Transform) to obtain a logarithmic power spectrum. Step S1
In 03, the logarithmic power spectrum obtained in step S102 is in the vicinity of an integral multiple of the fundamental frequency F 0 (nF 0
In -F 0/2 <f n < nF 0 + F 0/2), sampling the maximum value of the log power spectrum. Here, n represents an integer. That is, as shown in FIG. 3, the frequencies F 0 , 2F 0 , 3F 0, ...
The maximum value of each logarithmic power spectrum in the interval of 0 is extracted. The example of the adjacent frequency f 3 of the maximum value extracted by the interval centered on 3F 0 is at 3F 0 less 4F
The maximum frequency f 4 extracted in the section centered around 0
Is higher than 4F 0 and the difference ΔF between f 3 and f 4 , that is, the section where the adjacent sampling interval is larger than 1.5 F 0 , the maximum value of the logarithmic power spectrum in the section f 3 to f 4 is also sampled.

【0016】ステップS104では、ステップS103
で求めたサンプリング点を、直線で補間する。ステップ
S105では、ステップS104で求まった直線補間パ
ターンを、F 0 /m<50Hzを満たす最大のF0 /m
間隔でサンプリングする。ここでmは整数を表す。
In step S104, step S103
The sampling points obtained in step 1 are interpolated with a straight line. Step
In step S105, the linear interpolation pattern obtained in step S104 is
Turn, F 0 / M <50Hz maximum F0 / M
Sampling at intervals. Here, m represents an integer.

【0017】ステップS106では、ステップS105
でサンプリングしたサンプリング点を以下の式(1)で
示す余弦モデルで最小二乗近似する。 Y(λ) =ΣM i=1i cosiλ, (0≦λ≦π) (1) 上記式(1)から、音声特徴量(ケプストラム)Ai
求まる。この音声特徴量抽出法はパワースペクトルのピ
ークを忠実に表現している。この音声特徴量A i の抽出
手法をIPSE法と呼ぶ。
In step S106, step S105
The sampling points sampled by
Least squares approximation is performed using the cosine model shown.           Y (λ) = ΣM i = 1 Aicosiλ, (0 ≦ λ ≦ π) (1) From the above equation (1), the voice feature amount (cepstrum) AiBut
I want it. This speech feature extraction method uses the power spectrum
Faithfully represents the ark. This audio feature A iExtraction of
The method is called the IPSE method.

【0018】次にスペクトル包絡の変形に用いる基本周
波数レンジの違う、コードブックを作成するためのアル
ゴリズムを図5を参照して説明する。ここでは一例とし
て、基本周波数のレンジが、「高」、「中」、「低」の
3段階の場合を考える。入力として用いる音声データ
(学習音声データ)は、3段階の基本周波数レンジで、
一人の話者が同一のテキストをそれぞれ発声したものを
用いる。
Next, an algorithm for creating a codebook having different fundamental frequency ranges used for transforming the spectrum envelope will be described with reference to FIG. Here, as an example, consider a case where the range of the fundamental frequency has three stages of “high”, “medium”, and “low”. The voice data (learning voice data) used as input has three basic frequency ranges,
One speaker speaks the same text.

【0019】図5の中で、ステップS201、S20
2、S203ではそれぞれ、基本周波数レンジ「高」、
「中」、「低」の各音声データから、図2に示したアル
ゴリズムにより、ピッチマークごとに音声特徴量、この
例ではIPSEケプストラムを抽出する。ステップS2
04,S205,S206ではそれぞれステップS20
1,S202,S203で抽出したIPSEケプストラ
ムを、聴覚特性を向上させるため周波数尺度をメル尺度
に変化してメルIPSEケプストラムとする。メル尺度
については例えば“Computation of Spectra with Uneq
ual Resolution Using theFast Fourier Transform”Pr
oceeding of The IEEE February 1971, 299〜3
01頁に示されている。
In FIG. 5, steps S201 and S20 are performed.
2, in S203, the basic frequency range "high",
From each of the "medium" and "low" voice data, the voice feature amount, in this example, the IPSE cepstrum is extracted for each pitch mark by the algorithm shown in FIG. Step S2
In 04, S205, and S206, step S20 is performed.
The IPSE cepstrum extracted in S1, S202, and S203 is changed to a mel scale in the frequency scale in order to improve the auditory characteristics, and is referred to as a mel IPSE cepstrum. For the Mel scale, for example, “Computation of Spectra with Uneq
ual Resolution Using theFast Fourier Transform ”Pr
oceeding of The IEEE February 1971, 299-3
It is shown on page 01.

【0020】ステップS207では、図4に示すよう
に、同一テキストについて、基本周波数レンジ「高」の
音声データ中のピッチマーク列と、基本周波数レンジ
「中」の音声データのピッチマーク列との間で、各有声
音素ごとに線形伸縮マッチングを行い、両音声データの
ピッチマーク間の対応関係を求める。つまり、有声音素
Aの基本周波数レンジ「高」の音声データ中のピッチマ
ーク列がH1、H2、H3、H4、H5であり、基本周
波数レンジ「中」の音声データ中のピッチマーク列がM
1、M2、M3、M4であった場合、H1はM1と、H
2はM2と、H3及びH4はM3と、H5はM4とそれ
ぞれ対応付け、このようにして、基本周波数レンジ
「高」と基本周波数レンジ「中」の対応音素区間内にお
ける各ピッチマークを、時間軸を線形伸縮してその区間
内における位置が近いものを互いに対応付ける。ステッ
プS208においても同様に、基本周波数レンジ「低」
の音声データと、基本周波数レンジ「中」の音声データ
の間で、ピッチマーク間の対応関係を求める。
In step S207, as shown in FIG. 4, between the pitch mark string in the voice data of the basic frequency range "high" and the pitch mark string of the voice data in the basic frequency range "medium" for the same text. Then, linear expansion / contraction matching is performed for each voiced phoneme to find the correspondence between the pitch marks of both voice data. That is, the pitch mark sequence in the voice data of the fundamental frequency range "high" of the voiced phoneme A is H1, H2, H3, H4, H5, and the pitch mark sequence in the voice data of the basic frequency range "medium" is M.
If it is 1, M2, M3, M4, H1 is M1 and H
2 is associated with M2, H3 and H4 are associated with M3, and H5 is associated with M4. In this way, each pitch mark in the corresponding phoneme section of the fundamental frequency range “high” and the fundamental frequency range “medium” is timed. The axes are linearly expanded and contracted so that those that are close to each other in the section are associated with each other. Similarly in step S208, the basic frequency range is "low".
Then, the correspondence between the pitch marks is obtained between the voice data of No. 1 and the voice data of the basic frequency range “medium”.

【0021】ステップS209では、基本周波数レンジ
「中」の音声データからピッチマークごとに抽出した音
声特徴量(メルIPSEケプストラム)をLBGアルゴ
リズムによりクラスタリングし、基本周波数レンジ
「中」のコードブックCBM を作る。なお、LBGアル
ゴリズムの詳細は、例えば、Linde らの、"An Algorith
mfor Vector Quantization Design,"(IEEE CO
M−28(1980−01)84〜95頁)に記載され
ている。
In step S209, the voice feature amount (mel IPSE cepstrum) extracted for each pitch mark from the voice data in the basic frequency range "medium" is clustered by the LBG algorithm, and the codebook CB M in the basic frequency range "medium" is obtained. create. For details of the LBG algorithm, see "An Algorithm" by Linde et al.
mfor Vector Quantization Design, "(IEEE CO
M-28 (1980-01) pp. 84-95).

【0022】ステップS210では、ステップS209
で作った基本周波数レンジ「中」のコードブックを用い
て、基本周波数レンジ「中」のメルIPSEケプストラ
ムをベクトル量子化する。つまり基本周波数レンジ
「中」のメルIPSEケプストラムが属するクラスタを
求める。ステップS211では、ステップS207で求
めた基本周波数レンジ「高」の音声データと基本周波数
レンジ「中」の音声データのピッチマーク間の対応付け
の結果を利用して、ステップS209で作成したコード
ブックのコードベクトルごとに、これと対応する基本周
波数レンジ「高」の音声データから抽出した各音声特徴
量(メルIPSEケプストラム)をそのコードベクトル
のクラスに所属させる。つまり、例えば有声音素Aのピ
ッチマークH1(図4)における特徴量(メルIPSE
ケプストラム)は、ピッチマークM1における特徴量
(メルIPSEケプストラム)が量子化されたコードベ
クトル番号のクラスに所属させ、H2における特徴量は
M2における特徴量の量子化コードベクトル番号のクラ
スに所属させ、H3、H4における各特徴量はM3にお
ける特徴量の量子化コードベクトル番号のクラスにそれ
ぞれ所属させ、H5における特徴量はM4における特徴
量の量子化コードベクトル番号のクラスとし、以下同様
に基本周波数レンジ「高」の各特徴量(メルIPSEケ
プストラム)を、基本周波数レンジ「中」の対応特徴量
(メルIPSEケプストラム)の量子化コードベクトル
番号にクラス分けする。基本周波数レンジ「高」の音声
データの特徴量(メルIPSEケプストラム)に対する
クラスタリングが行われる。
In step S210, step S209
Vector quantizing the mel IPSE cepstrum in the fundamental frequency range "medium" using the codebook in the fundamental frequency range "medium" created in. That is, the cluster to which the mel IPSE cepstrum in the basic frequency range “medium” belongs is obtained. In step S211, the result of the correspondence between the pitch marks of the audio data of the basic frequency range "high" and the audio data of the basic frequency range "medium" obtained in step S207 is used to generate the codebook created in step S209. For each code vector, each voice feature amount (mel IPSE cepstrum) extracted from the voice data of the corresponding basic frequency range “high” is assigned to the code vector class. That is, for example, the feature amount (mel IPSE) in the pitch mark H1 (FIG. 4) of the voiced phoneme A is measured.
Cepstrum) belongs to the class of code vector numbers in which the feature quantity (mel IPSE cepstrum) in the pitch mark M1 is quantized, and the feature quantity in H2 belongs to the class of quantized code vector numbers of the feature quantity in M2. Each of the feature quantities in H3 and H4 belongs to the class of the quantized code vector number of the feature quantity in M3, and the feature quantity in H5 is the class of the quantized code vector number of the feature quantity in M4. Each "high" feature amount (mel IPSE cepstrum) is classified into a quantized code vector number of a corresponding feature amount (mel IPSE cepstrum) in the basic frequency range "medium". Clustering is performed on the feature amount (mel IPSE cepstrum) of the audio data in the basic frequency range “high”.

【0023】ステップS212ではこのクラスタリング
された基本周波数レンジ「高」のメルIPSEケプスト
ラムを、その各クラスごとにこれに属した特徴量の重心
ベクトル(平均)を求め、これを基本周波数レンジ
「高」のコードベクトルとして、コードブックCBH
得る。このようにして1周期波形ごとに時間的対応をと
り、基本周波数レンジ「中」のコードブック(基準コー
ドブック)CBM におけるクラスタリングの結果を参照
しながら基本周波数レンジ「高」の音声データに対する
スペクトルパラメータの写像先であるマッピングコード
ブックが作成される。ステップS213でもステップS
211と同様な手法を用いて、基本周波数レンジ「低」
の音声データの特徴量(メルIPSEケプストラム)を
クラスタリングし、ステップS214でその各クラスの
特徴量の重心ベクトルを求めて基本周波数レンジ「低」
のコードブックCBL を作成する。
In step S212, the clustered mel IPSE cepstrum of the basic frequency range "high" is obtained for each class for the centroid vector (average) of the feature quantities belonging to it, and this is calculated as the basic frequency range "high". The codebook CB H is obtained as the code vector of In this way, take time corresponding to each cycle waveform, the spectrum for the audio data of the basic frequency range "high" with reference to the results of clustering in the codebook (the reference codebook) CB M of the fundamental frequency range, "middle" A mapping codebook, which is a mapping destination of parameters, is created. Also in step S213, step S
Using the same method as 211, the fundamental frequency range "low"
Of the voice data of the above (mel IPSE cepstrum) are clustered, and the centroid vector of the feature amount of each class is obtained in step S214 to obtain the basic frequency range "low".
To create a code book CB L.

【0024】以上により、基本周波数レンジ「低」、
「中」、「高」の3つについて、それぞれ同一コード番
号のコードベクトル間で、1対1の対応付けが行われ
た、3つのコードブックCBL ,CBM ,CBH が作成
された。次にステップS215では基本周波数レンジ
「高」のコードブックCBH と基本周波数レンジ「中」
のコードブックCBM の間での、対応する各コードベク
トルの差分を求め、差分ベクトルコードブックCBMH
作る。同様にステップS216では基本周波数レンジ
「低」のコードブックCBL と基本周波数レンジ「中」
のコードブックCBM の間の対応する各コードベクトル
の差分を求め、差分ベクトルコードブックCBMLを作
る。
From the above, the basic frequency range "low",
Three codebooks CB L , CB M , and CB H were created in which code vectors having the same code number were respectively associated with each other for three of “medium” and “high”. Next, in step S215, the codebook CB H of the basic frequency range “high” and the basic frequency range “medium”.
Then, the difference of each corresponding code vector between the code books CB M of the above is obtained, and a difference vector code book CB MH is created. Similarly the codebook CB L and the fundamental frequency range of the step S216 the fundamental frequency range, "low", "medium"
The difference of each corresponding code vector between the codebooks CB M of the above is calculated, and a difference vector codebook CB ML is created.

【0025】この実施例では更に、ステップS217,
S218,S219では、各コードブックCBH ,CB
M ,CBL の各クラスに属する要素ベクトルに付属する
基本周波数の平均値FH ,FM ,FL をそれぞれ求め
る。ステップS220ではコードブックCBH とCBM
との間で対応するコードベクトル間の周波数平均値FH
とFM との差分ΔFHMを求めて、平均周波数差分コード
ブックCBFMH を作る。同様にステップS221ではコ
ードブックCBM とCBL との間で対応するコードベク
トル間の周波数平均値FM とFL との差分ΔFLMを求め
て平均周波数差分コードブックCBFML を作る。
In this embodiment, further, step S217,
In S218 and S219, in each codebook CB H and CB
Determining M, the average value F H of the fundamental frequency that is included with the element vector belonging to respective classes of CB L, F M, the F L, respectively. In step S220, codebooks CB H and CB M
Frequency mean value F H between corresponding code vectors between
And the difference ΔF HM between F M and F M are obtained to create an average frequency difference codebook CB FMH . Similarly, in step S221, the difference ΔF LM between the frequency average values F M and F L between the corresponding code vectors between the codebooks CB M and CB L is obtained to create the average frequency difference codebook CB FML .

【0026】この実施例では基本周波数レンジ「中」の
コードブックCBM と、二つの差分ベクトルコードブッ
クCBMH,CBMLと、二つの平均周波数差分コードブッ
クCBFMH ,CBFML との5つが用意される。次に、図
5に示した手法により作成した5つのマッピングコード
ブックを用いて、基本周波数に応じてスペクトル包絡変
形を行う音声合成方法の処理手順を図6を参照して説明
する。このアルゴリズムの入力は、テキスト音声合成部
において選択された音声素片波形と、合成したい音声の
基本周波数F0tと、前記選択された音声素片波形の基本
周波数F0uとである。出力は合成音声である。以下、そ
れぞれの処理について詳細に述べる。
In this embodiment, five codebooks CB M of the basic frequency range “medium”, two difference vector codebooks CB MH and CB ML , and two average frequency difference codebooks CB FMH and CB FML are prepared. To be done. Next, the processing procedure of the speech synthesis method for performing the spectral envelope transformation according to the fundamental frequency using the five mapping codebooks created by the method shown in FIG. 5 will be described with reference to FIG. The input of this algorithm is the speech unit waveform selected in the text-to-speech synthesis unit, the fundamental frequency F 0t of the speech to be synthesized, and the fundamental frequency F 0u of the selected speech unit waveform. The output is a synthetic voice. Hereinafter, each processing will be described in detail.

【0027】ステップS401では、入力された音声素
片から、図2中のステップS201〜S203で説明し
たアルゴリズムと同様の手法により音声特徴量、この例
ではIPSEケプストラムを抽出する。更にステップS
402ではその抽出したIPSEケプストラムの周波数
尺度をメル尺度に変換したメルIPSEケプストラムと
する。
In step S401, a voice feature amount, in this example, IPSE cepstrum, is extracted from the input voice segment by a method similar to the algorithm described in steps S201 to S203 in FIG. Further step S
In 402, the frequency scale of the extracted IPSE cepstrum is converted into a mel scale to be a mel IPSE cepstrum.

【0028】ステップS403では、図5に示したアル
ゴリズムにより作成した、基本周波数レンジ「中」のコ
ードブックCBM を用いて、ステップS402で抽出し
た音声特徴量をファジーベクトル量子化して式(2)で
示すようなk−近傍ファジー級関数μk を求める。 μk =(1/(Σ(dk /dj 1/(f-1) (2) dj は入力ベクトルとコードベクトルとの距離、fはフ
ァジネスを表わし、Σはj=1からj=kである。ファ
ジーベクトル量子化の詳細については、例えば、中村、
鹿野の“ファジーベクトル量子化を用いたスペクトログ
ラムの正規化”(音響学会誌45巻2号(1989))
又は(A.Ho-Ping Tseng,Michael J.Sabin and Edward
A Lee,"Fuzzy Vector Quantazation Applied to Hidde
n MarkovModeling",Proceedings of IEEE Internationa
l Conference on Acoustics,Speech,and Signal Proces
sing (ICASSP) Vol.2,pp.641-644,April 1987. )に記
載されている。
In step S403, the voice feature quantity extracted in step S402 is fuzzy vector quantized using the codebook CB M of the fundamental frequency range "medium" created by the algorithm shown in FIG. The k-neighborhood fuzzy class function μ k as shown in FIG. μ k = (1 / (Σ (d k / d j ) 1 / (f-1) (2) d j is the distance between the input vector and the code vector, f is the fuzziness, and Σ is j = 1 to j = K For details of fuzzy vector quantization, see Nakamura,
Kano's "Normalization of spectrograms using fuzzy vector quantization" (Academic Society of Japan, Vol. 45, No. 2 (1989))
Or (A. Ho-Ping Tseng, Michael J. Sabin and Edward
A Lee, "Fuzzy Vector Quantazation Applied to Hidde
n Markov Modeling ", Proceedings of IEEE Internationa
l Conference on Acoustics, Speech, and Signal Proces
sing (ICASSP) Vol.2, pp.641-644, April 1987.).

【0029】ステップS404では式(3)で示すよう
に、差分ベクトルコードブックCB HM又はCBHLを用い
k−近傍における差分ベクトルVi に対して、ファジー
級関数μk による重みづけ合成を行い、入力ベクトルに
対する差分ベクトルVを求める。 V=Σμj j /Σμj (3) Σはj=1からkまで 合成したい音声の基本周波数F0tが、入力音声素片のF
0uより高い場合はコードブックCBHMを用い、低い場合
はコードブックCBMLを用いる。このような差分ベクト
ルVを求める手法はいわゆる移動ベクトル場平滑化法に
よる手法と同一であり、この手法は例えば橋本、樋口の
“話者選択と移動ベクトル場平滑化を用いた声質変換の
ためのスペクトル写像”日本電子情報通信学会、信学技
報SP95−1(1995−051)(この英文はC.
Makoto Hasimoto and Norio Higuchi,"Spectral Mappin
g for Voice Conversion Using Speaker Selection and
Vector Field Smoothing ",Proceedings of 4th Europ
ean Conference on Speech Communication and Technon
ogy(EUROSPEECH)Vol.1,pp.431-434,Sept.95.移動ベクト
ル場平滑化法に関する英文論文)に記載されている。
In step S404, as shown in equation (3),
And the difference vector codebook CB HMOr CBHLUsing
Difference vector V in k-neighborhoodiAgainst fuzzy
Class function μkThe weighted synthesis by
The difference vector V with respect to it is calculated.   V = ΣμjVj/ Σμj                                        (3) Σ is from j = 1 to k The fundamental frequency F of the voice you want to synthesize0tIs the input speech unit F
0uCodebook CB if higherHMAnd if lower
Is the codebook CBMLTo use. Such a difference vector
The method to obtain the rule V is the so-called moving vector field smoothing method.
This is the same as the method by Hashimoto and Higuchi.
“Voice quality conversion using speaker selection and motion vector field smoothing
Spectrum map for "The Institute of Electronics, Information and Communication Engineers, IEICE
Report SP95-1 (1995-051)
Makoto Hasimoto and Norio Higuchi, "Spectral Mappin
g for Voice Conversion Using Speaker Selection and
 Vector Field Smoothing ", Proceedings of 4th Europ
ean Conference on Speech Communication and Technon
ogy (EUROSPEECH) Vol.1, pp.431-434, Sept.95.
Le field smoothing method).

【0030】ステップS405は、合成したい音声の基
本周波数F0tと、入力音声素片の基本周波数F0uと、図
5で求めた平均周波数差分コードブックCBFMH 又はC
FM L とを用いて式(4)により差分ベクトルVに対す
る伸縮率rを求める。 r=(F0t−F0u)/ΔF (4) ΔF=Σμj ΔFj /Σμj (5) Σはj=1からkまで、ΔFj はコードブックCBFMH
又はCBFML のコード平均基本周波数の差分である。
In step S405, the fundamental frequency F 0t of the speech to be synthesized, the fundamental frequency F 0u of the input speech segment, and the average frequency difference codebook CB FMH or C found in FIG.
The expansion / contraction ratio r for the difference vector V is obtained by the equation (4) using B FM L. r = (F 0t −F 0u ) / ΔF (4) ΔF = Σμ j ΔF j / Σμ j (5) Σ is from j = 1 to k, ΔF j is the codebook CB FMH
Alternatively, it is the difference between the code average fundamental frequencies of CB FML .

【0031】ステップS406ではステップS405で
求めた差分ベクトルVを、ステップS406で求めた伸
縮率rに従って線形伸縮する。ステップS407ではス
テップS406で線形伸縮された差分ベクトルをステッ
プS402で求めたメルIPSEケプストラム(入力ベ
クトル)に加算して、合成したい音声の基本周波数F0t
に応じて変形されたメルIPSEケプストラムが求ま
る。
In step S406, the difference vector V calculated in step S405 is linearly expanded / contracted according to the expansion / contraction ratio r calculated in step S406. In step S407, the difference vector linearly expanded and contracted in step S406 is added to the mel IPSE cepstrum (input vector) obtained in step S402, and the fundamental frequency F 0t of the speech to be synthesized is added.
The mel IPSE cepstrum deformed according to is obtained.

【0032】ステップS408ではこの変形されたIP
SEケプストラムを、Oppenheim の漸化式により、メル
尺度から線形尺度に周波数尺度を変換する。ステップS
409ではその線形尺度とされたIPSEケプストラム
を逆高速フーリエ変換し(零位相)、F0tに応じてスペ
クトル包絡が変形された音声波形を得る。
In step S408, the modified IP
The SE cepstrum is transformed from Mel scale to linear scale by Oppenheim's recurrence formula. Step S
In 409, the IPSE cepstrum that has been used as the linear scale is subjected to inverse fast Fourier transform (zero phase) to obtain a speech waveform whose spectrum envelope is modified according to F 0t .

【0033】ステップS410ではステップS409で
求めた音声波形を低域通過フィルタにかけ、低域成分の
みの波形を求める。ステップS411ではステップS4
09で求めた音声波形から、高域通過フィルタにより高
域成分のみを取り出す。この高域通過フィルタの遮断周
波数と、ステップS410で用いる低域通過フィルタの
遮断周波数とを等しくする。
In step S410, the voice waveform obtained in step S409 is low-pass filtered to obtain a waveform of only low-frequency components. In step S411, step S4
From the speech waveform obtained in 09, only the high frequency component is extracted by the high pass filter. The cutoff frequency of the high pass filter is made equal to the cutoff frequency of the low pass filter used in step S410.

【0034】ステップS412では入力音声素片から、
ピッチマーク位置を中心に、基本周期の2倍の長さのハ
ミング窓をかけて、波形を切り出す。ステップS413
ではステップS412で切り出した入力波形をステップ
S411で用いたものと同じ高域通過フィルタに通して
高域成分を取り出す。ステップS414ではステップS
413で求めた入力波形の高域成分のレベルを、ステッ
プS411で求めた、スペクトル包絡が変形された音声
波形の高域成分と同一レベルになるようにレベル調整す
る。
In step S412, from the input speech unit,
A waveform is cut out by applying a Hamming window having a length twice the basic period centering on the pitch mark position. Step S413
Then, the input waveform cut out in step S412 is passed through the same high-pass filter as that used in step S411 to extract high-pass components. In step S414, step S
The level of the high frequency component of the input waveform obtained in 413 is adjusted so as to be the same level as the high frequency component of the speech waveform whose spectrum envelope is deformed, obtained in step S411.

【0035】ステップS415ではステップS414で
レベル調整された高域成分と、ステップS410で取出
された低域成分とが足し合わされる。ステップS416
ではステップS415で求めた波形を、所望の基本周波
数F 0tに合わせて配列して合成音声を得る。以上におけ
るスペクトル包絡の変形処理を概念的に示すと図7に示
すようになる。入力ベクトル(ステップS402で得た
メルIPSEケプストラム)をコードブックCBM でフ
ァジーベクトル量子化されたベクトル11に対し、k個
のその近傍コードベクトル12が決まり、これとコード
ブックCBH の対応コードベクトルとの差分ベクトルV
i がコードブックCBMHにより求まり、更に式(3)に
より、ファジーベクトル量子化されたベクトル11に対
する差分ベクトルVが求まり、このVを、式(4)にも
とづく伸縮率rで線形伸縮され、この伸縮されたベクト
ル13に、入力ベクトルを加算して目的とする変形され
たベクトル(メルIPSEケプストラム)14が得られ
る。差分ベクトルコードブックCBMH,CBMLを用いる
ことなく、コードブックCBH ,CBL を用いることも
できる。その場合の実施例を図8に図6と同一処理に同
一ステップ番号を付けて示す。
In step S415, in step S414
Extract the high-frequency component whose level has been adjusted in step S410
The low frequency components thus generated are added together. Step S416
Then, the waveform obtained in step S415 is changed to the desired fundamental frequency.
Number F 0tTo produce a synthetic voice. Above
Figure 7 shows a conceptual representation of the process of transforming the spectral envelope.
Will come to you. Input vector (obtained in step S402
Mel IPSE Cepstrum) Codebook CBMAt
K vector for quantized vector 11
And its code code 12
Book CBHDifference vector V from the corresponding code vector of
iIs the codebook CBMHThen, in equation (3)
From the fuzzy vector quantized vector 11
Then, the difference vector V is obtained, and this V is also applied to the equation (4).
The linearly expanded and contracted vector with the expansion / contraction ratio r
The target vector is transformed by adding the input vector to
A vector (mel IPSE cepstrum) 14 was obtained.
It Difference vector codebook CBMH, CBMLUse
Without codebook CBH, CBLCan also be used
it can. FIG. 8 shows the same processing as that of FIG.
One step number is attached and shown.

【0036】この場合は処理を簡略化するためメル尺度
変換をしていないがメル尺度変換を行ってもよい。ステ
ップS801では、基本周波数レンジ「高」、「低」の
中から、合成したい音声の基本周波数と最も近いものの
コードブックを選ぶ。ステップS802では、ステップ
S801で選択された基本周波数レンジ、例えば「高」
のコードブックCBH を用いて、ステップS403でフ
ァジーベクトル量子化した音声特徴量をデコードする。
In this case, in order to simplify the processing, the mel scale conversion is not performed, but the mel scale conversion may be performed. In step S801, a codebook having a frequency closest to the basic frequency of the voice to be synthesized is selected from the basic frequency ranges “high” and “low”. In step S802, the fundamental frequency range selected in step S801, for example, "high"
Using the codebook CB H , the speech feature quantity fuzzy vector quantized in step S403 is decoded.

【0037】ステップS409において、ステップS8
02でデコードされたベクトル(音声特徴量)をIFF
T(逆高速フーリエ変換)することにより、音声波形を
求める。ステップS410では、ステップS409で求
めた音声波形を低域ろ過フィルタにかけ、低域成分のみ
の波形を求める。
In step S409, step S8
The vector (voice feature quantity) decoded in 02 is IFF
A voice waveform is obtained by performing T (Inverse Fast Fourier Transform). In step S410, the voice waveform obtained in step S409 is filtered by a low-pass filter to obtain a waveform of only low-pass components.

【0038】この例では図6中のステップS411,S
414が省略、簡素化された場合で、ステップS415
では、ステップS410で求めた低域成分のみの波形
と、ステップS413で求めた高域成分のみの波形をた
し合わせる。その後の処理は図6と同一である。なお1
つのコードブックCBM 中のコードベクトルと対応する
コードベクトルを他のコードブックCBH より取出し
て、音声の性質を変更する技術は例えば文献H.Matsumot
o "A Minimum Distortion Spectral Mapping Applied t
o Voice Quality Conversion" ICSLP90 161
〜164に示されている。
In this example, steps S411 and S in FIG.
If 414 is omitted or simplified, step S415
Then, the waveform of only the low frequency component obtained in step S410 and the waveform of only the high frequency component obtained in step S413 are added together. The subsequent processing is the same as in FIG. 1
For example, a technique for extracting the code vector corresponding to the code vector in one code book CB M from another code book CB H and changing the nature of the voice is disclosed in Reference H. Matsumot.
o "A Minimum Distortion Spectral Mapping Applied t
o Voice Quality Conversion "ICSLP90 161
~ 164.

【0039】図8に示した音声合成アルゴリズムにおい
て、S403で音声特徴量をファジーベクトル量子化す
る代りに移動ベクトル場平滑化の方法を用いて、基本周
波数レンジ「中」のコードブックで基本周波数レンジ
「中」の音声データをベクトル量子化したのち、合成し
たい基本周波数レンジのコードブックへの移動ベクトル
を求め、その移動先でデコードするという方法としても
よい。
In the speech synthesis algorithm shown in FIG. 8, a moving vector field smoothing method is used instead of the fuzzy vector quantization of the speech feature quantity in S403, and the basic frequency range is set in the basic frequency range "medium" codebook. It is also possible to perform vector quantization of the "medium" voice data, obtain a movement vector to the codebook in the basic frequency range to be synthesized, and decode at the movement destination.

【0040】またステップS403でファジーベクトル
量子化や移動ベクトル場平滑化法でコードブックへの移
動ベクトルを求める場合に限らず、通常のベクトル量子
化と同様に、1つの入力特徴量を1つのベクトルコード
として量子化してもよい。しかし、このようにするより
もファジーベクトル量子化や、移動ベクトル場平滑化法
を用いたほうが、ステップS416で得られた時間領域
信号の連続性が優れたものとなる。
Further, not only in the case where the movement vector to the codebook is obtained by the fuzzy vector quantization or the movement vector field smoothing method in step S403, one input feature quantity is converted into one vector as in the ordinary vector quantization. It may be quantized as a code. However, if the fuzzy vector quantization or the moving vector field smoothing method is used, the continuity of the time domain signal obtained in step S416 is superior to the above case.

【0041】またステップS410の低域ろ過フィルタ
による低域成分の取り出しは、入力音声素片の基本周波
数パターンと、合成したい基本周波数パターンとの差が
スペクトル包絡に影響を与える成分を取り出し、ステッ
プS413の高域ろ過フィルタは逆に基本周波数パター
ンの差(変化)によるスペクトル包絡への影響がほとん
どない高域成分が取り出される。これら低域成分と、高
域成分の境界周波数としては500〜2000Hz程度
に選定される。
The low-pass component is extracted by the low-pass filter in step S410. The component in which the difference between the fundamental frequency pattern of the input speech unit and the fundamental frequency pattern to be synthesized affects the spectrum envelope is extracted, and step S413 is performed. On the contrary, the high-pass filter of (1) takes out the high-frequency component that has almost no effect on the spectrum envelope due to the difference (change) in the fundamental frequency pattern. The boundary frequency between the low frequency component and the high frequency component is selected to be about 500 to 2000 Hz.

【0042】なお入力音声波形を、まず低域成分と高域
成分とに分離し、それぞれ図6又は図8のステップS4
01,S412へ渡してもよい。上述ではこの発明をテ
キスト合成における入力音声素片と入力基本周波数パタ
ーンとの差が大きい場合に、合成音声の基本周波数とス
ペクトルとがマッチするように適用した。この場合に限
らず、一般の波形合成にもこの発明を適用でき、更に分
析合成においても、分析した原音声の基本周波数に対
し、合成音声の基本周波数を比較的大きく異ならせる場
合にもこの発明を適用すると良品質の合成音声が得られ
る。この場合は、図6の入力音声波形として原音声を用
い、基本周波数レンジ「中」のコードブック、つまり、
基準コードブックは、原音声の基本周波数レンジについ
て、先に述べたと同様の手法で作ればよい。
The input speech waveform is first separated into a low frequency component and a high frequency component, and the step S4 of FIG. 6 or FIG. 8 is performed, respectively.
01, S412 may be passed. In the above description, the present invention is applied so that the fundamental frequency and the spectrum of the synthesized speech match when the difference between the input speech unit and the input fundamental frequency pattern in text synthesis is large. The present invention can be applied not only to this case but also to general waveform synthesis, and also in the case of analysis and synthesis, the present invention can be applied to a case where the fundamental frequency of the synthesized speech is relatively different from the fundamental frequency of the analyzed original speech. By applying, good quality synthetic speech can be obtained. In this case, the original voice is used as the input voice waveform of FIG. 6, and the codebook of the basic frequency range “medium”, that is,
The reference codebook may be created by the same method as described above for the fundamental frequency range of the original voice.

【0043】分析合成では原音声は前記実施例における
入力音声素片(入力音声波形)と対応しており、この原
音声が通常、特徴量のベクトルコードとして量子化され
ており、これをデコードして音声合成するものであるか
ら、分析合成に、この発明を適用する場合は、例えば図
8中で、合成音声の基本周波数に応じたコードブックを
用いてベクトルコードをステップS802でデコードす
ればよい。分析合成に図6に示した手法を適用するに
は、合成しようとする音声のベクトルコードと対応する
コードベクトルと差分ベクトルをコードブックCBM
差分ベクトルコードブックCBMH又はCBMLからそれぞ
れ取出し、原音声の基本周波数と、合成したい音声の基
本周波数との差に応じて、伸縮率を求め、この伸縮率に
より、前記取出した差分ベクトルを伸縮させ、これと前
記取出したコードベクトルを加算すればよい。
In the analysis and synthesis, the original speech corresponds to the input speech unit (input speech waveform) in the above-mentioned embodiment, and this original speech is normally quantized as a vector code of the feature quantity, which is decoded. When the present invention is applied to analysis and synthesis, the vector code may be decoded in step S802 using a codebook corresponding to the fundamental frequency of the synthesized speech in FIG. 8, for example. . To apply the method shown in FIG. 6 to the analysis and synthesis, the vector code of the speech to be synthesized and the corresponding code vector and difference vector are extracted from the codebook CB M and the difference vector codebook CB MH or CB ML , respectively. Depending on the difference between the fundamental frequency of the original voice and the fundamental frequency of the voice to be synthesized, the expansion / contraction rate is obtained, and by this expansion / contraction rate, the extracted difference vector is expanded / contracted, and this and the extracted code vector are added. Good.

【0044】また上述の各音声合成処理は通常はDSP
(Digital Signal Processor)などによりプログラムを
解読実行して処理される。従ってそのためのプログラム
は記録媒体に記録されている。この発明をテキスト合成
に適用した場合の聴取実験について述べる。ATR音素
バランス520単語を、女性話者1名が高ピッチ、中ピ
ッチ、低ピッチの3段階の高さで発声したものから、各
ピッチについて327個をコードブック作成に、74個
を評価用データに用いた実験条件はサンプリング周波数
12KHz、帯域分離周波数500Hz(ステップS4
10,S411,S413でのフィルタの遮断周波
数)、コードブックサイズ512、ケプストラム次数
(図2の手法で得た特徴量)30次、k近傍数12、フ
ァジネス1.5である。
The above-mentioned voice synthesis processing is usually a DSP.
The program is decoded and executed by (Digital Signal Processor) and processed. Therefore, the program for that is recorded on the recording medium. A listening experiment when the present invention is applied to text synthesis will be described. ATR phoneme balance 520 words uttered by one female speaker at three different pitches: high pitch, medium pitch, and low pitch. For each pitch, 327 were made into a codebook and 74 were made into evaluation data. The experimental conditions used for the sampling frequency are 12 KHz, the band separation frequency is 500 Hz (step S4
10, the cutoff frequency of the filter in S411, S413), the codebook size 512, the cepstrum order (feature amount obtained by the method of FIG. 2) 30th, the number of k neighborhoods 12, and the fuzzyness 1.5.

【0045】次にコードブックマッピングによるスペク
トル包絡の変形が合成音の品質向上に有効であるかを評
価するために、基本周波数変形音声の聴取実験を行っ
た。実験では、5単語について、自然音声Aと同一テキ
ストで基本周波数レンジの異なる自然音声Bの基本周波
数パターンを、従来のPSOLA法により自然音声Aの
ものに変形したもの(従来技術:合成音(1) )、正解音
声(自然音声A)を入力したもの(合成音(2) )、図6
に示した方法により、自然音声Bの基本周波数パターン
を自然音声Aのものに変形したもの(合成音(3) )の3
つの合成音声についてABX法により評価した。A、B
には、それぞれ合成音(1) および(3) 、Xには合成音
(1) 〜(3) を用い、XがAとBのどちらに近いかを被験
者に判断させた。基本周波数パターンの変形は、中ピッ
チ(平均基本周波数216Hz)から低ピッチ(平均基
本周波数172Hz)、および中ピッチから高ピッチ
(平均基本周波数310Hz)とし、ピッチレンジの違
う同一単語音声の基本周波数パターンを入れ替えること
により実現した。また、差分ベクトルの伸縮率rは1.
0に固定し、パワーと音韻継続時間は、基本周波数変形
先の単語に一致させた。被験者は12名である。聴取実
験の結果から、判定率CR( CR=Pj/Pa*100(%)) を求め
た。ここで、PjはXが合成音(3) に近いと判定された回
数、Paは提示回数である。図9A,Bに結果を示す。
Next, in order to evaluate whether the modification of the spectrum envelope by codebook mapping is effective in improving the quality of synthesized speech, a listening experiment of the fundamental frequency modified speech was conducted. In the experiment, the basic frequency pattern of natural speech B having the same text as natural speech A but different fundamental frequency range is transformed into that of natural speech A by the conventional PSOLA method (conventional technique: synthetic speech (1 )), Correct speech (natural speech A) input (synthetic sound (2)), Fig. 6
By the method shown in (3), the fundamental frequency pattern of natural speech B is transformed into that of natural speech A (synthesized speech (3)).
Two synthetic voices were evaluated by the ABX method. A, B
Are synthetic sounds (1) and (3) respectively, and X is a synthetic sound.
Using (1) to (3), the subject was made to judge whether X was closer to A or B. The basic frequency pattern is modified from a medium pitch (average basic frequency 216 Hz) to a low pitch (average basic frequency 172 Hz) and a medium pitch to a high pitch (average basic frequency 310 Hz). It was realized by replacing. The expansion / contraction rate r of the difference vector is 1.
It was fixed at 0, and the power and the phoneme duration were matched with the word to which the fundamental frequency was transformed. There are 12 test subjects. The judgment rate CR (CR = Pj / Pa * 100 (%)) was determined from the results of the listening experiment. Here, Pj is the number of times X is determined to be close to the synthetic sound (3), and Pa is the number of presentations. The results are shown in FIGS. 9A and 9B.

【0046】図9Aは中ピッチから低ピッチへの変換に
対するものであり、自然音声(2) の判定率が85%、中
ピッチから高ピッチに上げる場合(図9B)の自然音声
の判定率が59%であることから、この発明によれば従
来のPSOLA法に比べてより自然音声に近い基本周波
数変形音声の合成が可能であることがわかる。特に基本
周波数を下げる場合に、この発明は非常に有効であるこ
とがわかる。
FIG. 9A is for the conversion from medium pitch to low pitch. The judgment rate of natural speech (2) is 85%, and the judgment rate of natural speech when raising from medium pitch to high pitch (FIG. 9B) is Since it is 59%, it is understood that according to the present invention, it is possible to synthesize a fundamental frequency modified voice closer to a natural voice as compared with the conventional PSOLA method. It can be seen that the present invention is very effective especially when the fundamental frequency is lowered.

【0047】図6に示した方法をテキスト音声合成に適
用した場合と、従来のPSOLA法を適用した場合と比
較した。ATR音素バランス503文から抜き出した5
つの文章をピッチレンジ「低」、「中」、「高」で合成
し、プリファレンステストにより評価した。規則から求
めたピッチパターンの不自然さによるテストへの影響を
避けるため、自然音声から抽出したピッチパターンをピ
ッチ「中」の基本周波数パターンとして用いた。そのピ
ッチレンジを上げてピッチ「高」、下げてピッチ「低」
のピッチパターンを作成し、合成に用いた。スペクトル
包絡変形に用いたコードブックは先の実験に用いたもの
と同一のものを用い、実験条件も先の場合と同じであ
る。図10A,B,Cにその結果を示す。Aは低ピッチ
レンジ、Bは中ピッチレンジ、Cは高ピッチレンジであ
る。この結果から、ピッチレンジが「低」と「中」の合
成音はPSOLA法と比較して、この発明の方法が被験
者に好まれることがわかる。
The case where the method shown in FIG. 6 is applied to text-to-speech synthesis is compared with the case where the conventional PSOLA method is applied. 5 extracted from 503 sentences of ATR phoneme balance
Two sentences were synthesized in a pitch range of "low", "medium", and "high", and evaluated by a preference test. In order to avoid the influence of the unnaturalness of the pitch pattern obtained from the rule on the test, the pitch pattern extracted from the natural speech was used as the fundamental frequency pattern of the "medium" pitch. Raise the pitch range to raise the pitch to "high" and lower it to lower the pitch to "low".
The pitch pattern was prepared and used for synthesis. The codebook used for the spectral envelope transformation is the same as that used in the previous experiment, and the experimental conditions are also the same as in the previous case. The results are shown in FIGS. 10A, 10B, 10C. A is a low pitch range, B is a medium pitch range, and C is a high pitch range. From this result, it is understood that the method of the present invention is preferred by the subject for the synthesized sounds having the pitch ranges of "low" and "medium" as compared with the PSOLA method.

【0048】図8に示したこの発明の方法と、従来法
(PSOLA法)と聴取実験を示す。実験条件は、帯域
分離周波数を1500Hzとした点以外は先の場合と同
一である。従来の波形合成法で合成した基本周波数変形
音声と、この発明方法によるものとを聴取実験により比
較した実験では、この発明方法の最大ポテンシャルをみ
るために、低域部スペクトル包絡(IPSE)の変形は
完全にできたものとして、基本周波数パターン変形先の
単語から抽出したスペクトル包絡(正解スペクトル包
絡)を入力した。基本周波数パターンの変形は、高ピッ
チから低ピッチ、および低ピッチから高ピッチとし、ピ
ッチレンジの違う同一単語音声の基本周波数パターンを
入れ替えることにより実現した。またパワーと音韻継続
部は、FO変形先の単語に一致させた。評価は5単語に
ついて、5段階でその優劣を対比較した。被験者は8名
である。この実験結果を図11Aに示す。この図から、
この発明方法による合成音声の方が従来の波形合成によ
る合成音声よりもかなり品質が高いことが分かる。
The method of the present invention shown in FIG. 8, the conventional method (PSOLA method) and the listening experiment are shown. The experimental conditions are the same as the previous case except that the band separation frequency is 1500 Hz. In an experiment in which the fundamental frequency modified speech synthesized by the conventional waveform synthesis method and the method according to the present invention are compared by a listening experiment, in order to see the maximum potential of the method according to the present invention, a modification of the low frequency spectrum envelope (IPSE) is performed. Assuming that is completely completed, the spectral envelope (correct spectral envelope) extracted from the word of the fundamental frequency pattern transformation destination was input. The modification of the basic frequency pattern was realized by changing the basic frequency pattern of the same word speech with different pitch range from high pitch to low pitch and from low pitch to high pitch. Moreover, the power and the phoneme continuation part were matched with the FO transformation destination word. As for the evaluation, the superiority and inferiority of five words were compared in five stages. There are eight test subjects. The results of this experiment are shown in FIG. 11A. From this figure,
It can be seen that the synthesized speech produced by the method of the present invention has considerably higher quality than the synthetic speech produced by the conventional waveform synthesis.

【0049】図11A中の評価1は従来の波形合成の方
が非常によい、評価2は従来の波形合成の方が少しよ
い、評価3は変わらない、評価4はこの発明方法が少し
よい、評価5はこの発明方法の方が非常によい、をそれ
ぞれ示す。また図9に示した実験結果と同様の実験を行
った。実験条件は帯域分離周波数を1500Hzとした
点以外は先の場合と同一である。その結果を図11B,
Cに示す。Bは中ピッチから低ピッチへの変形であり、
Cは中ピッチから高ピッチへの変形である。
Evaluation 1 in FIG. 11A is very good in the conventional waveform synthesis, evaluation 2 is slightly better in the conventional waveform synthesis, evaluation 3 is the same, evaluation 4 is a little better in the method of the present invention, Evaluation 5 shows that the method of the present invention is much better. An experiment similar to the experiment result shown in FIG. 9 was performed. The experimental conditions are the same as the previous case except that the band separation frequency is 1500 Hz. The result is shown in FIG. 11B,
Shown in C. B is the transformation from medium pitch to low pitch,
C is the transformation from medium pitch to high pitch.

【0050】合成音(1) と(2) の判定率はそれぞれ、基
本周波数を中ピッチから低ピッチへ変形した場合で21
%と91%、中ピッチから高ピッチで10%と94%で
ある。また合成音(3) の判定率は、中ピッチから低ピッ
チで90%、中ピッチから高ピッチで85%であり、コ
ードブックマッピングによって、低域スペクトル包絡が
適切に変形できたことが分かる。図10Aの結果と合わ
せて考えると、この発明の音声合成方法により、従来の
波形合成法と比較して、より高品質な基本周波数変形音
声の合成が可能であることがわかる。
The judgment rates of the synthetic sounds (1) and (2) are 21 when the fundamental frequency is changed from the medium pitch to the low pitch.
% And 91%, and 10% and 94% for medium to high pitches. Further, the determination rate of the synthetic sound (3) is 90% from the middle pitch to the low pitch and 85% from the middle pitch to the high pitch, and it can be seen that the low-frequency spectrum envelope can be appropriately transformed by the codebook mapping. Considering together with the result of FIG. 10A, it can be seen that the speech synthesis method of the present invention can synthesize higher-quality fundamental frequency modified speech as compared with the conventional waveform synthesis method.

【0051】[0051]

【発明の効果】以上説明したように、この発明によれ
ば、例えばテキスト音声合成システムにおいて、音声素
片の基本周波数パターンを大きく変更して合成すること
による、合成音声の品質劣化を防止することが可能とな
る。その結果、従来のテキスト音声合成システムと比較
して、より高品質な音声が合成可能となる。また、分析
合成において、原音声と、基本周波数が比較的大きく異
なっても、高品質の合成音声を得ることができる。つま
りより人間らしい音声、感情のこもった音声を合成する
ためには、基本周波数パターンを様々に変形する必要が
あるが、この発明により、そのような音声が高品質に合
成可能となる。
As described above, according to the present invention, for example, in a text-to-speech synthesis system, it is possible to prevent the quality of synthesized speech from being deteriorated by largely synthesizing the fundamental frequency pattern of the speech unit. Is possible. As a result, it is possible to synthesize higher quality speech as compared with the conventional text speech synthesis system. Further, in the analysis and synthesis, it is possible to obtain high quality synthetic speech even if the fundamental frequency is relatively different from the original speech. That is, in order to synthesize a more human voice and emotional voice, it is necessary to modify the fundamental frequency pattern in various ways, but according to the present invention, such a voice can be synthesized with high quality.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の原理の基本手順を示す図。FIG. 1 is a diagram showing a basic procedure of the principle of the present invention.

【図2】この発明において、音声波形からスペクトル包
絡を抽出するためのアルゴリズムを示すフローチャー
ト。
FIG. 2 is a flowchart showing an algorithm for extracting a spectrum envelope from a voice waveform in the present invention.

【図3】図2のアルゴリズムで最大値のサンプリング点
を説明するための図。
FIG. 3 is a diagram for explaining a maximum sampling point in the algorithm of FIG.

【図4】この発明において、異なった基本周波数レンジ
の音声データの間で、ピッチマーク間の対応付けを説明
するための図。
FIG. 4 is a diagram for explaining correspondence between pitch marks between voice data having different fundamental frequency ranges in the present invention.

【図5】この発明における一実施形態において、テキス
ト音声合成システムにあらかじめ組み込んでおく、3つ
のマッピングコードブックの作成方法を示すフローチャ
ート。
FIG. 5 is a flowchart showing a method of creating three mapping codebooks to be incorporated in advance in the text-to-speech synthesis system according to the embodiment of the present invention.

【図6】この発明の実施例において、合成したい基本周
波数パターンに応じて、音声素片のスペクトル包絡を変
形するアルゴリズムを示すフローチャート。
FIG. 6 is a flowchart showing an algorithm for transforming the spectrum envelope of a speech unit according to a fundamental frequency pattern to be synthesized in the embodiment of the present invention.

【図7】図6に示した差分ベクトルによるスペクトル包
絡変形処理の概念を示す図。
FIG. 7 is a diagram showing a concept of a spectrum envelope transformation process using the difference vector shown in FIG.

【図8】この発明の他の実施例において、合成したい基
本周波数パターンに応じて音声素片のスペクトル包絡を
変形するアルゴリズムを示すフローチャート。
FIG. 8 is a flowchart showing an algorithm for modifying the spectrum envelope of a speech unit according to a fundamental frequency pattern to be synthesized in another embodiment of the present invention.

【図9】A、Bは図6に示した実施例の効果を説明する
ための実験結果を示す図である。
9A and 9B are diagrams showing experimental results for explaining the effect of the embodiment shown in FIG.

【図10】A、Bは図6に示した実施例の効果を説明す
るための他の実験結果を示す図である。
10A and 10B are diagrams showing other experimental results for explaining the effect of the embodiment shown in FIG.

【図11】A〜Cは図8に示した実施例の効果を説明す
るための実験結果を示す図である。
11A to 11C are diagrams showing experimental results for explaining the effect of the embodiment shown in FIG.

フロントページの続き 特許法第30条第1項適用申請有り ・田中公人,阿部匡 伸,F0に応じてスペクトル包絡を変形する音声合成方 式の規則合成システムへの適用,日本音響学会平成9年 度春季研究発表会講演論文集,2−7−1,p.217− 218,平成9年3月17日 特許法第30条第1項適用申請有り ・Kimihito Tanaka,Masanobu Abe,A Ne w Fundamental Frequency M odification Algorithm wit h Transformation of Spect rum Envelope According to F0,Proc.ICASSP97,Vol.II, p.951−954,1997.4.21 (56)参考文献 特開 昭56−55999(JP,A) 特開 平1−237600(JP,A) 特開 平1−97997(JP,A) 特開 平7−104792(JP,A) 特開 平8−248994(JP,A) 特開 平9−152892(JP,A) 田中公人,阿部匡伸,基本周波数に応 じてスペクトル包絡を変形する音声合成 方式,日本音響学会平成8年度秋季研究 発表会講演論文集,1996年 9月25日, 1−4−14,p.217−218 (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 G10L 13/06 G10L 21/04 JICSTファイル(JOIS)Continuation of front page Application for application of Article 30 (1) of the Patent Law ・ Kito Tanaka, Masanobu Abe, application of speech synthesis method to transform spectrum envelope according to F0 to rule synthesis system, Acoustics Society of Japan, Spring 1997 Research Presentation, Proceedings, 2-7-1, p. 217-218, March 17, 1997, application for application of Article 30, Paragraph 1 of the Patent Act ・ Kimihito Tanaka, Masanobu Abe, A New Funding Frequency Requirement Alignment Requirement Alignment Requirement Alignment Alignment Requirement Alignment Requirement Alignment Requirement Requirement Alignment of Alignment Requirement Requirement Alignment Alignment Requirement Alignment Alignment of the Scope ICASSP97, Vol. II, p. 951-954, 1997.4.21 (56) Reference JP 56-55999 (JP, A) JP 1-237600 (JP, A) JP 1-97997 (JP, A) JP 7-104792 (JP, A) JP-A-8-248994 (JP, A) JP-A-9-152892 (JP, A) K. Tanaka, Masanobu Abe, Speech synthesis that transforms the spectral envelope according to the fundamental frequency. Method, Proceedings of the 1996 Autumn Research Conference of ASJ, September 25, 1996, 1-4-14, p. 217-218 (58) Fields investigated (Int.Cl. 7 , DB name) G10L 13/00 G10L 13/06 G10L 21/04 JISST file (JOIS)

Claims (10)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声素片波形(以下、入力音声と記
す)を、その基本周波数と異なる所望の基本周波数
合成する音声合成方法において本周波数レンジの
違う学習用音声データから作られた、入力音声の基本周
波数レンジのスペクトル包絡について作成したコードブ
ック(以下、このコードブックを基準コードブックと記
と、この基準コードブックの各コードベクトル
力音声と基本周波数レンジの異なるコードブックの対応
コードベクトルの差分ベクトルよりなる差分ベクトル
コードブックとを用いて、 上記入力音声のスペクトル包絡を、上記基準コードブッ
クを用いてベクトル量子化し、 そのベクトル量子化されたコードと対応した差分ベクト
ルを上記差分ベクトルコードブックから求め、 その差分ベクトルを、上記入力音声の基本周波数に対す
上記所望基本周波数のずに応じて伸縮し、 その伸縮した差分ベクトルと、上記ベクトル量子化され
たコードのベクトルとを加算したものから上記入力音声
スペクトル包絡に対し変形処理されたものを得ること
を特徴とする音声合成方法。
1. An input speech segment waveform (hereinafter referred to as an input speech).
Vinegar), made from training speech data of different basic frequency range in a speech synthesis method for synthesizing the sound <br/> voice desired fundamental frequency different from its fundamental frequency, spectrum of the fundamental frequency range of the input speech The codebook created for the envelope (hereinafter , this codebook is referred to as the reference codebook ) , each code vector of this reference codebook , and the input
By using the differential vector codebook consisting difference vector between corresponding code vectors of different codebook click of force speech and the fundamental frequency range, the spectral envelope of the input speech, and vector quantized using the reference codebook, the vector The difference vector corresponding to the quantized code is obtained from the difference vector codebook, and the difference vector is set to the fundamental frequency of the input speech.
That the desired base according to the amount Re without frequency stretch, the difference vector that expands and contracts, the vector quantized code vector and the input speech from those obtained by adding the
Speech synthesis method characterized by relative spectral envelope obtain those modified process.
【請求項2】 請求項記載の音声合成方法において、 上記ベクトル量子化はファジーベクトル量子化であるこ
とを特徴とする音声合成方法。
2. The speech synthesis method according to claim 1, wherein the vector quantization is fuzzy vector quantization.
【請求項3】 請求項1又は2記載の何れかの音声合成
方法において、 上記入力音声と同じ基本周波数レンジの学習用音声デー
タのスペクトル包絡を統計的手法によってクラスタリン
グして上記基準コードブックを作り、 上記入力音声と基本周波数レンジの異なる学習用音声デ
ータと、上記入力音声と同じ基本周波数レンジの学習用
音声データとの間で、同一のテキスト中の各有声音素に
あるピッチマークについて時間軸上で線形伸縮マッチン
グを行って、1周期波形ごとに時間的対応をとり、 上記基準コードブックにおけるクラスタリングの結果を
参照しながら、上記入力音声と基本周波数レンジの異な
る上記コードブックを作成することを特徴とする音声合
成方法。
3. A one speech synthesis method according to claim 1 or 2, wherein creating the reference codebook clustered by statistical methods the spectral envelope of learning speech data in the same basic frequency range and the input speech , Between the input voice and the learning voice data having a different fundamental frequency range, and the learning voice data having the same fundamental frequency range as the input voice, the time axis of the pitch mark in each voiced phoneme in the same text. The linear expansion / contraction matching is performed above, the time correspondence is obtained for each period waveform, and the codebook having a different fundamental frequency range from the input speech is created with reference to the clustering result in the reference codebook. Characteristic speech synthesis method.
【請求項4】 請求項乃至記載の何れかの音声合成
方法において、 対数パワースペクトル上で、基本周波数の整数倍近傍に
おける最大値をサンプリングし、 そのサンプリング点の間を直線で補間し、 その補間した直線パターンを等間隔でサンプリングし、 そのサンプリング系列を余弦モデルで近似してそのモデ
ルの係数を、上記スペクトル包絡として用いることを特
徴とする音声合成方法。
4. A either speech synthesis method according to claim 1 to 3, wherein, on a logarithmic power spectrum, samples the maximum value in the vicinity of integral multiples of the fundamental frequency, interpolating between the sampling points by a straight line, A speech synthesis method characterized by sampling the interpolated linear pattern at equal intervals, approximating the sampling sequence with a cosine model, and using the coefficient of the model as the spectral envelope.
【請求項5】 請求項1乃至記載の何れかの音声合成
方法において、 スペクトル領域で所定周波数より低域成分についてのみ
上記スペクトル包絡の変形処理を行うことを特徴とする
音声合成方法。
5. Any of the speech synthesis method according to claim 1 to 4, wherein the speech synthesis method and performing deformation processing of the spectral envelope only for low-frequency component than a predetermined frequency in the spectral region.
【請求項6】 請求項1乃至記載の何れかの音声合成
方法において、 上記入力音声のスペクトル包絡を、メル尺度に変換した
後、上記スペクトル包絡変形処理を行い、そのスペクト
ル包絡変形処理されたものを線形尺度に変換することを
特徴とする音声合成方法。
6. Any of the speech synthesis method according to claim 1 to 4, wherein the spectral envelope of the input speech, after conversion into mel scale, perform the above spectral envelope transformation processing, which is the spectrum envelope deformation processing A speech synthesis method characterized by converting an object into a linear scale.
【請求項7】 請求項乃至記載の何れかの音声合成
方法において、 上記入力音声の基本周波数レンジの異なるコードブック
入力音声の基本周波数レンジより高い基本周波数レン
ジと低い基本周波数レンジとの二つであることを特徴と
する音声合成方法。
7. Any of the speech synthesis method of claims 1 to 6, wherein, different codebooks is higher than the fundamental frequency range of the input speech fundamental frequency Ren of the fundamental frequency range of the input speech
And a low fundamental frequency range .
【請求項8】 入力音声素片波形(以下、入力音声と記
す)を、その基本周波数と異なる所望の基本周波数
合成する音声合成装置において、 上記入力音声と同じ基本周波数レンジの学習用音声デー
タのスペクトル包絡を統計的手法によってクラスタリン
グして作られた基準コードブックと、 上記入力音声と異なる基本周波数レンジをもち、上記学
習用音声データと同一テキストの学習用音声データか
ら、上記基準コードブックのコードベクトルと対応づけ
て作成された他レンジコードブックと、上記基準コード
ブックとの対応コードベクトルの差分ベクトルよりなる
差分ベクトルコードブックと、 上記基準コードブックと上記他レンジコードブックとの
対応クラス間の要素ベクトルの基本周波数平均値の差分
よりなる差分周波数コードブックと、 上記入力音声のスペクトル包絡を、上記基準コードブッ
クを用いてベクトル量子化する量子化手段と、 上記量子化手段により量子化されたコードと対応した差
分ベクトルを、上記差分ベクトルコードブックを用いて
求める差分ベクトル評価手段と、 上記入力音声の基本周波数と、上記所望の基本周波数
と、上記量子化されたコードと対応した上記差分周波数
コードブックより求めた差分周波数とから伸縮率を演算
する伸縮率演算手段と、 上記伸縮率により上記差分ベクトルを伸縮させる伸縮手
段と、 上記伸縮された差分ベクトルと、上記入力音声信号のス
ペクトル包絡とを加算する手段と、 上記加算されたスペクトル包絡を時間領域に変換する時
間領域変換手段と、 を具備することを特徴とする音声合成装置。
8. An input speech segment waveform (hereinafter referred to as an input speech).
In a voice with a desired fundamental frequency different from the fundamental frequency , a spectral envelope of learning voice data having the same fundamental frequency range as the input speech is clustered by a statistical method. Was created from the reference codebook created as above and the learning voice data having the same basic frequency range as the above input voice and the same text as the above learning voice data, in association with the code vector of the above reference codebook. Another range codebook, a difference vector codebook consisting of difference vectors of corresponding code vectors with the reference codebook, and a basic frequency average value of element vectors between corresponding classes of the reference codebook and other range codebooks. The difference frequency codebook consisting of the difference and the spectrum envelope of the input speech are Quantization means for performing vector quantization using the reference codebook, difference vector evaluation means for obtaining the difference vector corresponding to the code quantized by the quantization means using the difference vector codebook, and the input An expansion / contraction ratio calculation means for calculating an expansion / contraction ratio from the fundamental frequency of the voice, the desired fundamental frequency, and the difference frequency obtained from the difference frequency codebook corresponding to the quantized code, and An expansion / contraction means for expanding / contracting the difference vector, a means for adding the expanded / compressed difference vector, and a spectrum envelope of the input speech signal, and a time domain conversion means for converting the added spectrum envelope into a time domain, A voice synthesizing device comprising.
【請求項9】 請求項記載の音声合成装置において、 上記時間領域に変換された信号の低域成分を取り出す低
域通過フィルタと、 その低域通過フィルタの遮断周波数と同一遮断周波数を
もち、上記入力音声信号の高域成分を取り出す高域通過
フィルタと、 上記低域通過フィルタの出力と上記高域通過フィルタの
出力とを加算する手段とを含むことを特徴とする音声合
成装置。
9. The speech synthesizer according to claim 8, wherein a low-pass filter for extracting a low-pass component of the signal converted into the time domain and a cut-off frequency same as a cut-off frequency of the low-pass filter are provided. A voice synthesizing apparatus comprising: a high-pass filter for extracting a high-pass component of the input voice signal; and means for adding an output of the low-pass filter and an output of the high-pass filter.
【請求項10】 請求項8又は9に記載した音声合成装
置としてコンピュータを機能させるためのプログラムを
記録したコンピュータ読み取り可能な記録媒体。
10. A voice synthesizer according to claim 8 or 9.
A computer-readable recording medium recording a program for causing a computer to function as a storage device.
JP23974597A 1996-09-11 1997-09-04 Speech synthesis method, its apparatus and program recording medium Expired - Lifetime JP3444396B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23974597A JP3444396B2 (en) 1996-09-11 1997-09-04 Speech synthesis method, its apparatus and program recording medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-240350 1996-09-11
JP24035096 1996-09-11
JP23974597A JP3444396B2 (en) 1996-09-11 1997-09-04 Speech synthesis method, its apparatus and program recording medium

Publications (2)

Publication Number Publication Date
JPH10143196A JPH10143196A (en) 1998-05-29
JP3444396B2 true JP3444396B2 (en) 2003-09-08

Family

ID=26534401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23974597A Expired - Lifetime JP3444396B2 (en) 1996-09-11 1997-09-04 Speech synthesis method, its apparatus and program recording medium

Country Status (1)

Country Link
JP (1) JP3444396B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4509273B2 (en) * 1999-12-22 2010-07-21 ヤマハ株式会社 Voice conversion device and voice conversion method
JP2002229599A (en) 2001-02-02 2002-08-16 Nec Corp Device and method for converting voice code string
WO2009022454A1 (en) * 2007-08-10 2009-02-19 Panasonic Corporation Voice isolation device, voice synthesis device, and voice quality conversion device
JP7139628B2 (en) * 2018-03-09 2022-09-21 ヤマハ株式会社 SOUND PROCESSING METHOD AND SOUND PROCESSING DEVICE

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田中公人,阿部匡伸,基本周波数に応じてスペクトル包絡を変形する音声合成方式,日本音響学会平成8年度秋季研究発表会講演論文集,1996年 9月25日,1−4−14,p.217−218

Also Published As

Publication number Publication date
JPH10143196A (en) 1998-05-29

Similar Documents

Publication Publication Date Title
US7035791B2 (en) Feature-domain concatenative speech synthesis
JP5038995B2 (en) Voice quality conversion apparatus and method, speech synthesis apparatus and method
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
US5327521A (en) Speech transformation system
US8280724B2 (en) Speech synthesis using complex spectral modeling
Lee et al. MAP-based adaptation for speech conversion using adaptation data selection and non-parallel training.
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JPH09101798A (en) Method and device for expanding voice band
US5751907A (en) Speech synthesizer having an acoustic element database
JP5717097B2 (en) Hidden Markov model learning device and speech synthesizer for speech synthesis
JP4516157B2 (en) Speech analysis device, speech analysis / synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
CN108369803B (en) Method for forming an excitation signal for a parametric speech synthesis system based on a glottal pulse model
EP0829849B1 (en) Method and apparatus for speech synthesis and medium having recorded program therefor
JP3444396B2 (en) Speech synthesis method, its apparatus and program recording medium
JP2003108178A (en) Voice synthesizing device and element piece generating device for voice synthesis
JPH08248994A (en) Voice tone quality converting voice synthesizer
JP3281266B2 (en) Speech synthesis method and apparatus
JP3841596B2 (en) Phoneme data generation method and speech synthesizer
US7822599B2 (en) Method for synthesizing speech
JP5573529B2 (en) Voice processing apparatus and program
JP4468506B2 (en) Voice data creation device and voice quality conversion method
Orphanidou et al. Voice morphing using the generative topographic mapping
JP2000330582A (en) Speech transformation method, device therefor, and program recording medium
JP3283657B2 (en) Voice rule synthesizer
Vijayan et al. Prosody Modification Using Allpass Residual of Speech Signals.

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100627

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100627

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130627

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140627

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term