JPH08248994A - Voice tone quality converting voice synthesizer - Google Patents

Voice tone quality converting voice synthesizer

Info

Publication number
JPH08248994A
JPH08248994A JP7051039A JP5103995A JPH08248994A JP H08248994 A JPH08248994 A JP H08248994A JP 7051039 A JP7051039 A JP 7051039A JP 5103995 A JP5103995 A JP 5103995A JP H08248994 A JPH08248994 A JP H08248994A
Authority
JP
Japan
Prior art keywords
speaker
voice
codebook
mapping
target speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7051039A
Other languages
Japanese (ja)
Other versions
JP2898568B2 (en
Inventor
Makoto Hashimoto
誠 橋本
Norio Higuchi
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP7051039A priority Critical patent/JP2898568B2/en
Publication of JPH08248994A publication Critical patent/JPH08248994A/en
Application granted granted Critical
Publication of JP2898568B2 publication Critical patent/JP2898568B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE: To allow learning with a small amount of learning data and to perform a tone quality conversion with high precision by generating and outputting voices signals of a target speaker corresponding to a character string based on the acoustic feature parameters of the voice signals of the target speaker. CONSTITUTION: A spectrum mapping processing section 22 quantizes the acoustic feature parameters of the voice of a selected speaker stored in a voice data-base 10 based on the inputted character string to be voice synthesized employing the code book of the speaker. Moreover, based on the corresponding relationship between the speaker's code book and the mapping code book, the acoustic parameters of the voice signals of the speaker corresponding to the character string are generated by the section 22. Furthermore, a voice synthesis section 24 generates and outputs the voice signals of the speaker corresponding to the character string based on the acoustic feature parameters of the voice signals of the speaker generated by the section 22. Therefore, the voices for a voice tone quality conversion are allowed to be different and the voice tone quality conversion from learning voices, Japanese and words to English words is accomplished.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、声質変換音声合成装置
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice quality conversion voice synthesizer.

【0002】[0002]

【従来の技術】多様な合成音声を生成することのできる
音声合成システムの実現は、合成音声の高品質化や合成
システム自体の普及のためにも非常に重要である。声質
変換も多様な合成音声生成のために必要な技術であり、
これまでにも種々の研究開発がなされてきた。
2. Description of the Related Art The realization of a speech synthesis system capable of generating various synthesized speech is very important for improving the quality of synthesized speech and popularizing the synthesis system itself. Voice conversion is also a necessary technology for generating various synthetic speech,
Various researches and developments have been made so far.

【0003】例えば、文献1「松本弘ほか,“教師あり
/教師なしスペクトル写像による声質変換”,日本音響
学会誌,Vol.50,No.7,pp.549−55
5,1994年7月」(以下、第1の従来例という。)
においては、声質変換の精度向上と品質の改善を目的と
して、変換音声のスペクトル系列と目標話者のスペクト
ル系列との2乗誤差を最小とする基準で写像を行って学
習し、未学習の部分を補間法により計算することが開示
されている。
For example, reference 1 "Hiroru Matsumoto et al.," Voice quality conversion by supervised / unsupervised spectrum mapping ", Journal of Acoustical Society of Japan, Vol. 50, No. 7, pp. 549-55.
5, July 1994 "(hereinafter referred to as the first conventional example).
In order to improve the accuracy and quality of voice conversion, the learning is performed by performing mapping with a criterion that minimizes the squared error between the spectral sequence of the converted speech and the spectral sequence of the target speaker, and the unlearned part It is disclosed that is calculated by an interpolation method.

【0004】さらに、図3は、文献2「阿部匡伸ほか,
“ベクトル量子化による声質変換”,日本音響学会講演
論文集,2−6−14,昭和62年10月」(以下、第
2の従来例という。)において開示されたピッチ周波数
の変換コードブックを生成する方法を示す第2の従来例
のブロック図であり、図4は、図3の方法で生成された
ピッチ周波数の変換コードブックと同様の方法で生成さ
れたスペクトルパラメータの変換コードブックとを用い
てベクトル量子化による声質変換法を示すブロック図で
ある。この第2の従来例の方法は、話者毎のコードブッ
ク間の対応づけによって話者間の写像をとり、声質変換
を行う方法を用いている。すなわち、大量の学習データ
を用いて予め話者Aから話者Bへの変換コードブックを
作成しておき、これを用いて声質変換を行うものであ
る。変換コードブックを作成するに当たっては、以下の
手順をとる。 (I)クラスタリングされたコードブック間で対応を取
る。 (II)対応するコード間の頻度を用いて写像を行う。
Further, FIG. 3 shows the document 2 “Masanobu Abe et al.,
"Voice Conversion by Vector Quantization", Proceedings of the Acoustical Society of Japan, 2-6-14, October 1987 "(hereinafter referred to as the second conventional example). FIG. 4 is a block diagram of a second conventional example showing a generating method, and FIG. 4 shows a pitch frequency conversion codebook generated by the method of FIG. 3 and a spectrum parameter conversion codebook generated by the same method. It is a block diagram which shows the voice quality conversion method by vector quantization using it. The method of the second conventional example uses a method of performing voice quality conversion by taking a mapping between speakers by associating codebooks for each speaker. That is, a conversion codebook for a speaker A to a speaker B is created in advance using a large amount of learning data, and voice quality conversion is performed using this. Follow the steps below to create a conversion codebook. (I) Correspondence is made between the clustered codebooks. (II) Perform mapping using the frequency between corresponding codes.

【0005】以下、話者A,B間のピッチ周波数の変換
コードブックを作成する過程を、図3を参照して説明す
る。 (1)話者A,及び話者Bのそれぞれのピッチ周波数の
サンプルデータ30,40を取り込み、それぞれクラス
タリング31,41を行ってピッチ周波数のコードブッ
ク32,42を作成する。同様に、スペクトルパラメー
タもクラスタリングしコードブックを作成する。 (2)ピッチ周波数のコードブック32,42を用い
て、学習データのピッチ周波数をコード化し、すなわち
スカラー量子化33,43する。同様に、スペクトルパ
ラメータもコード化し、すなわちベクトル量子化する。 (3)コード化されたパラメータを用いて、学習単語毎
にDPマッチング(動的計画法によるマッチング処理)
を行い、時間の対応づけ34を行う。 (4)時間的に対応している話者Aのピッチコードと話
者Bのピッチコードからヒストグラム35を作成する。 (5)話者Aのピッチコードに対し、ヒストグラムが最
大となっている話者Bのピッチコードを対応づけて、話
者Aから話者Bへの変換コードブック36を作成する。
なお、スペクトルパラメータのマッピングは、ヒストグ
ラムによる重み付けを行い、文献3「中村ほか,“ベク
トル量子化を用いたスペクトログラムの正規化”,日本
音響学会音声研究会資料,SP87−17,1987
年」に記載された手順に従って、変換コードブック(図
4の36a)を作成する。
The process of creating a conversion codebook of pitch frequencies between speakers A and B will be described below with reference to FIG. (1) The pitch frequency sample books 30 and 40 of the speaker A and the speaker B are fetched and clustered 31 and 41, respectively, to generate pitch frequency code books 32 and 42. Similarly, spectral parameters are also clustered to create a codebook. (2) Pitch frequencies of the learning data are coded using the pitch frequency code books 32 and 42, that is, scalar quantization 33 and 43 are performed. Similarly, the spectral parameters are also coded, ie vector quantized. (3) DP matching for each learning word using the coded parameters (matching process by dynamic programming)
Then, the time correspondence 34 is performed. (4) The histogram 35 is created from the pitch code of the speaker A and the pitch code of the speaker B, which correspond in time. (5) The conversion code book 36 from the speaker A to the speaker B is created by associating the pitch code of the speaker A with the pitch code of the speaker B having the largest histogram.
The mapping of spectral parameters is performed by weighting with a histogram, and reference 3 “Nakamura et al.,“ Normalization of spectrogram using vector quantization ”, Material of Acoustical Society of Japan, SP87-17, 1987.
A conversion codebook (36a in FIG. 4) is created according to the procedure described in “Year”.

【0006】次いで、上記作成された変換コードブック
を用いた第2の従来例の声質変換法を図4に示す。図4
に示すように、まず、話者Aの音声をLPC分析50
し、スペクトルパラメータとピッチパラメータを求め、
これを話者Aのスペクトルパラメータとピッチ周波数の
コードブック51,61を用いてそれぞれベクトル量子
化52及びスカラー量子化62する。さらに、復号化5
3,63するときには、話者Aのコードブック51,6
1の代わりに、上記作成された変換コードブック36,
36aを用いる。これによって、話者Bの音声へ変換さ
れたことになり、この後、音声合成手段である合成フィ
ルタ54を用いて話者Bの音声信号を発生して出力す
る。
FIG. 4 shows a second conventional voice quality conversion method using the conversion codebook created above. FIG.
First, as shown in FIG.
To find the spectral and pitch parameters,
This is vector-quantized 52 and scalar-quantized 62 using the speaker A spectral parameters and pitch frequency codebooks 51 and 61, respectively. Furthermore, decryption 5
3 and 63, speaker A's codebook 51,6
Instead of 1, the conversion codebook 36 created above,
36a is used. As a result, it is converted into the voice of the speaker B, and thereafter, the voice signal of the speaker B is generated and output using the synthesis filter 54 which is the voice synthesizing means.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、第1の
従来例では、異なる話者間のスペクトルの差が比較的大
きなとき、学習処理を実行することがきわめて難しい。
また、第2の従来例では、すべての音声データ毎に異な
る話者間の変換コードブックを作成する必要があるの
で、この場合、大量の学習データを必要とする。すなわ
ち、実用化が難しいという問題点があった。
However, in the first conventional example, it is extremely difficult to perform the learning process when the spectrum difference between different speakers is relatively large.
Further, in the second conventional example, since it is necessary to create a conversion codebook between different speakers for every voice data, a large amount of learning data is required in this case. That is, there is a problem that it is difficult to put it into practical use.

【0008】本発明の目的は以上の問題点を解決し、話
者間のスペクトルの差が比較的大きくならないように変
換元話者を選択し、従来例に比較して少量の学習データ
で学習することにより声質変換することができる声質変
換音声合成装置を提供することにある。
The object of the present invention is to solve the above problems, to select a conversion source speaker so that the spectrum difference between speakers does not become relatively large, and to learn with a small amount of learning data compared to the conventional example. It is to provide a voice quality conversion voice synthesizer capable of performing voice quality conversion by doing the above.

【0009】[0009]

【課題を解決するための手段】本発明に係る請求項1記
載の声質変換音声合成装置は、複数の登録話者の音響特
徴パラメータを含む音声データベースとそのコードブッ
クを予め記憶する記憶手段と、入力された目標話者の少
なくとも1単語の音声信号に基づいて、声質変換をすべ
き目標話者に最も近い話者を、上記複数の登録話者の中
から選択する選択手段と、上記選択手段によって選択さ
れた話者の音響空間と目標話者の音響空間との間の差分
を計算することにより、選択された話者から上記目標話
者への写像コードブックを計算する生成手段と、入力さ
れた音声合成すべき文字列に基づいて、上記音声データ
ベースに記憶された上記選択された話者の音声の音響特
徴パラメータを上記選択された話者のコードブックを用
いて量子化し、上記選択された話者のコードブックと上
記写像コードブックの対応関係に基づいて上記文字列に
対応する目標話者の音声信号の音響特徴パラメータを生
成する写像処理手段と、上記写像処理手段によって生成
された目標話者の音声信号の音響特徴パラメータに基づ
いて、上記文字列に対応する目標話者の音声信号を発生
して出力する音声合成手段とを備えたことを特徴とす
る。
According to a first aspect of the present invention, there is provided a voice quality conversion speech synthesizing apparatus according to the present invention, wherein a voice database including acoustic feature parameters of a plurality of registered speakers and a storage means for storing a codebook thereof in advance. Selection means for selecting, from the plurality of registered speakers, a speaker closest to the target speaker to be subjected to voice quality conversion based on the input voice signal of at least one word of the target speaker, and the selection means. Generating means for calculating a mapping codebook from the selected speaker to the target speaker by calculating a difference between the speaker's acoustic space selected by and the target speaker's acoustic space; Based on the character string to be speech-synthesized, the acoustic feature parameter of the voice of the selected speaker stored in the voice database is quantized using the codebook of the selected speaker, and Mapping processing means for generating an acoustic feature parameter of the voice signal of the target speaker corresponding to the character string based on the correspondence relationship between the selected speaker codebook and the mapping codebook, and the mapping processing means. And a voice synthesizing means for generating and outputting a voice signal of the target speaker corresponding to the character string based on the acoustic feature parameter of the voice signal of the target speaker.

【0010】また、請求項2記載の声質変換音声合成装
置は、請求項1記載の声質変換音声合成装置において、
上記生成手段は、移動ベクトル場平滑化法を用いて、選
択された話者から上記目標話者への写像コードブックを
計算することを特徴とする。
A voice quality-converted voice synthesizer according to a second aspect is the voice quality-converted voice synthesizer according to the first aspect.
The generating means is characterized by calculating a mapping codebook from the selected speaker to the target speaker using the moving vector field smoothing method.

【0011】さらに、請求項3記載の声質変換音声合成
装置は、請求項1又は2記載の声質変換音声合成装置に
おいて、上記音響特徴パラメータは、スペクトルデータ
を含むことを特徴とする。またさらに、請求項4記載の
声質変換音声合成装置は、請求項3記載の声質変換音声
合成装置において、上記音響特徴パラメータはさらに、
ピッチ周波数データを含むことを特徴とする。
Further, the voice quality-converted voice synthesizing apparatus according to a third aspect is the voice quality-converting voice synthesizing apparatus according to the first or second aspect, wherein the acoustic feature parameter includes spectral data. Still further, the voice quality-converted voice synthesis apparatus according to claim 4 is the voice quality-converted voice synthesis apparatus according to claim 3, wherein the acoustic feature parameter further comprises:
It is characterized in that it includes pitch frequency data.

【0012】[0012]

【作用】以上のように構成された請求項1記載の声質変
換音声合成装置においては、上記選択手段は、入力され
た目標話者の少なくとも1単語の音声信号に基づいて、
声質変換をすべき目標話者に最も近い話者を、上記複数
の登録話者の中から選択し、上記生成手段は、上記選択
手段によって選択された話者の音響空間と目標話者の音
響空間との間の差分を計算することにより、選択された
話者から上記目標話者への写像コードブックを計算す
る。次いで、上記写像処理手段は、入力された音声合成
すべき文字列に基づいて、上記音声データベースに記憶
された上記選択された話者の音声の音響特徴パラメータ
を上記選択された話者のコードブックを用いて量子化
し、上記選択された話者のコードブックと上記写像コー
ドブックの対応関係に基づいて上記文字列に対応する目
標話者の音声信号の音響特徴パラメータを生成する。さ
らに、上記音声合成手段は、上記写像処理手段によって
生成された目標話者の音声信号の音響特徴パラメータに
基づいて、上記文字列に対応する目標話者の音声信号を
発生して出力する。第2の従来例では、音声データの登
録話者から目標話者への写像を行う場合、異なる話者間
のコードブックのすべてのコードの対応関係を学習によ
って補間することなく求めるために、大量の学習データ
が必要であった。これに対して、本発明によれば、1単
語程度の非常に少ない学習データで登録話者から目標話
者への写像関数を求めることができ、例えばデイジタル
計算機を用いて実用化することができる。また、発話内
容に関係なく従来例に比較してより高い精度で声質を変
換することができる。すなわち、声質変換用音声は異な
ってもよく、本発明を、例えば、学習用音声と日本語の
単語から英語の単語への声質変換、もしくは、英語の単
語から日本語の単語への声質変換に適用することができ
る。
In the voice quality conversion speech synthesizer according to claim 1 configured as described above, the selecting means is based on the input voice signal of at least one word of the target speaker,
The speaker closest to the target speaker to be subjected to voice quality conversion is selected from the plurality of registered speakers, and the generation unit selects the acoustic space of the speaker selected by the selection unit and the sound of the target speaker. Compute the mapping codebook from the selected speaker to the target speaker by calculating the difference to the space. Next, the mapping processing means, based on the input character string to be voice-synthesized, sets the acoustic feature parameters of the voice of the selected speaker stored in the voice database to the codebook of the selected speaker. Quantization is performed by using the above, and the acoustic feature parameter of the voice signal of the target speaker corresponding to the character string is generated based on the correspondence relationship between the codebook of the selected speaker and the mapping codebook. Further, the voice synthesizing means generates and outputs a voice signal of the target speaker corresponding to the character string, based on the acoustic feature parameter of the voice signal of the target speaker generated by the mapping processing means. In the second conventional example, when the registered speaker of the voice data is mapped to the target speaker, in order to obtain the correspondences of all the codes of the code book between different speakers without learning, a large amount of Learning data was required. On the other hand, according to the present invention, the mapping function from the registered speaker to the target speaker can be obtained with very little learning data of about one word, which can be put to practical use by using, for example, a digital computer. . Further, the voice quality can be converted with higher accuracy than the conventional example regardless of the utterance content. That is, the voices for voice quality conversion may be different, and the present invention can be applied to, for example, voice learning and voice quality conversion from Japanese words to English words, or voice quality conversion from English words to Japanese words. Can be applied.

【0013】また、請求項2記載の声質変換音声合成装
置においては、上記生成手段は、移動ベクトル場平滑化
法を用いて、選択された話者から上記目標話者への写像
コードブックを計算する。これにより、より簡単にかつ
精度よく声質変換して音声合成することができる。
Further, in the voice quality conversion speech synthesizer according to the second aspect, the generating means calculates a mapping codebook from the selected speaker to the target speaker by using a moving vector field smoothing method. To do. As a result, it is possible to more easily and accurately convert the voice quality and synthesize the voice.

【0014】さらに、請求項3記載の声質変換音声合成
装置においては、上記音響特徴パラメータは、好ましく
は、スペクトルデータを含む。またさらに、請求項4記
載の声質変換音声合成装置においては、上記音響特徴パ
ラメータはさらに、好ましくは、ピッチ周波数データを
含む。
Further, in the voice quality conversion speech synthesizer according to a third aspect of the invention, the acoustic feature parameter preferably includes spectral data. Still further, in the voice quality conversion speech synthesizer according to the fourth aspect, the acoustic feature parameter further preferably includes pitch frequency data.

【0015】[0015]

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例である
写像コードブック生成装置100と声質変換音声合成装
置200のブロック図である。この実施例のシステム
は、写像コードブック生成装置100において、話者選
択部5と写像コードブック生成部6とを備えたことを特
徴とし、一方、声質変換音声合成装置200において
は、スペクトル写像処理部22を備えたことを特徴とす
る。この実施例においては、実用的な声質変換システム
を実現するためには学習データを極力少なくするため
に、話者選択と移動ベクトル場平滑化法(VFS:Vect
or Field Smoothing)を用いたスペクトル写像による新
しい声質変換法を開示し、この方法は、少ない学習デー
タでも変換が行えるという特有の効果を有する。なお、
この明細書においては、予め音声データベースを用意し
ておく複数の話者を登録話者とし、変換先の話者を目標
話者とし、複数の登録話者から選ばれた1人の話者を選
択話者と定義する。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a mapping codebook generation device 100 and a voice quality conversion voice synthesis device 200 according to an embodiment of the present invention. The system of this embodiment is characterized in that the mapping codebook generating apparatus 100 is provided with a speaker selecting section 5 and a mapping codebook generating section 6, while the voice quality conversion speech synthesis apparatus 200 has a spectrum mapping process. It is characterized in that it has a portion 22. In this embodiment, in order to realize a practical voice quality conversion system, in order to reduce learning data as much as possible, speaker selection and a moving vector field smoothing method (VFS: Vect).
or field smoothing), a new voice quality conversion method by spectrum mapping is disclosed, and this method has a unique effect that conversion can be performed with a small amount of learning data. In addition,
In this specification, a plurality of speakers whose voice databases are prepared in advance are registered speakers, a conversion destination speaker is a target speaker, and one speaker selected from a plurality of registered speakers is defined as a target speaker. Defined as the selected speaker.

【0016】図1に示すように、音声データベースメモ
リ10内の音声データベースと、スペクトルコードブッ
クメモリ11内のスペクトルコードブックとが予め作成
されて記憶される。音声データベースは、複数の登録話
者のピッチ周波数、ケプストラム係数データ、及びパワ
ーデータなどの音響特徴パラメータを含み、スペクトル
コードブックは、複数の登録話者のクラスタリングされ
たケプストラムデータのベクトルをフレーム単位でラベ
リングされてメモリ11内に記憶される。
As shown in FIG. 1, a voice database in the voice database memory 10 and a spectrum codebook in the spectrum codebook memory 11 are created and stored in advance. The speech database includes acoustic feature parameters such as pitch frequencies, cepstral coefficient data, and power data for multiple registered speakers, and the spectral codebook provides a vector of clustered cepstral data for multiple registered speakers in frame units. It is labeled and stored in the memory 11.

【0017】目標話者の任意の1単語の発声音声はマイ
クロホン1に入力されてアナログ音声信号に変換され、
A/D変換器2でディジタル音声信号に変換された後、
特徴抽出部3に入力される。このA/D変換器2では、
サンプリング周波数に対応する例えば20ミリ秒である
所定のフレーム間隔でフレーム毎に音声信号データがラ
ベリングされ、以下の処理はフレーム毎に実行される。
特徴抽出部3は、入力された音声信号を例えばケプスト
ラム分析し、30次ケプストラム係数、パワー及びピッ
チ周波数を含む32次元の特徴パラメータを抽出する。
抽出された特徴パラメータの時系列はバッファメモリ4
を介して話者選択部5に入力される。
The voice of any one word of the target speaker is input to the microphone 1 and converted into an analog voice signal,
After being converted into a digital audio signal by the A / D converter 2,
It is input to the feature extraction unit 3. In this A / D converter 2,
The audio signal data is labeled for each frame at a predetermined frame interval corresponding to the sampling frequency, which is, for example, 20 milliseconds, and the following processing is executed for each frame.
The feature extraction unit 3 performs, for example, cepstrum analysis on the input voice signal, and extracts a 32-dimensional feature parameter including a 30th-order cepstrum coefficient, power, and pitch frequency.
The time series of the extracted characteristic parameters is the buffer memory 4
Is input to the speaker selection unit 5 via.

【0018】話者選択部5は、入力された目標話者のス
ペクトル時系列と、メモリ10内の音声データベースに
登録された各登録話者のスペクトル時系列との互いの継
続長が一致するようにDTW(Dynamic Time Warping:
動的時間整合)法により時間整合した後、目標話者のス
ペクトル時系列と各登録話者のスペクトル時系列との距
離を計算し、2乗誤差が最小となる基準を用いて最も距
離の小さい登録話者を1名だけ選択する。ここで、スペ
クトル時系列はケプストラム時系列に対応する。
The speaker selecting unit 5 ensures that the continuous time lengths of the spectrum time series of the input target speaker and the spectrum time series of each registered speaker registered in the voice database in the memory 10 match each other. DTW (Dynamic Time Warping:
After time matching by the dynamic time matching) method, the distance between the spectrum time series of the target speaker and the spectrum time series of each registered speaker is calculated, and the distance is minimized using the criterion that minimizes the square error. Select only one registered speaker. Here, the spectral time series corresponds to the cepstrum time series.

【0019】図2は、図1の写像コードブック生成部6
によって実行される写像コードブック生成処理を示すフ
ローチャートである。
FIG. 2 shows the mapping codebook generator 6 of FIG.
5 is a flowchart showing a mapping codebook generation process executed by.

【0020】この写像コードブック生成部6では、選択
話者のスペクトルコードブックCsを目標話者の音響空
間に写像して目標話者のスペクトルコードブックCt
変換する。ここで、目標話者の音響空間に写像されたコ
ードブックを、写像コードブックCtと定義する。写像
コードブックCtの生成には移動ベクトル場平滑化法を
用いる。これは、音響空間の話者間の差のベクトルは連
続的に変化するという仮定のもとに、ある話者の音響空
間を他話者の音響空間に写像する方法である。以下に、
その方法の手順を示す。
The mapping codebook generator 6 maps the spectrum codebook C s of the selected speaker into the acoustic space of the target speaker and converts it into the spectrum codebook C t of the target speaker. Here, the codebook mapped in the acoustic space of the target speaker is defined as a mapping codebook C t . The moving vector field smoothing method is used to generate the mapping codebook C t . This is a method of mapping the acoustic space of one speaker to the acoustic space of another speaker under the assumption that the vector of the difference between speakers in the acoustic space changes continuously. less than,
The procedure of the method is shown.

【0021】まず、ステップS1において、選択話者の
スペクトルコードブックCsをスペクトルコードブック
メモリ11から読み出して、写像コードブックCtの初
期状態とする。次いで、ステップS2で、選択話者の学
習音声スペクトル時系列を写像コードブックCtを用い
てベクトル量子化し、このベクトル量子化後のコード列
と、入力された目標話者の音声スペクトル時系列とをD
TW(Dynamic time warping)法を用いて対応付けの処
理を行う。そして、ステップS3において、自然数m番
目のベクトルCm sと、これに対応づけられた入力スペク
トルxの平均ベクトル/Cm sとの差分ベクトルVmを次
の数1に示すように計算し、これを移動ベクトルVm
する。なお、この明細書において、(Cm s)の上線(バ
ー)を記載することができないため、/Cm sと記す。な
お、数2の右辺の(1/Nm)の/は分数を示す。
First, in step S1, the spectrum codebook C s of the selected speaker is read from the spectrum codebook memory 11 to set the mapping codebook C t in the initial state. Then, in step S2, the learning speech spectrum time series of the selected speaker is vector-quantized using the mapping codebook C t, and the code string after the vector quantization and the input speech spectrum time series of the target speaker. To D
The association processing is performed using the TW (Dynamic time warping) method. Then, in step S3, the difference vector V m between the natural number m-th vector C m s and the average vector / C m s of the input spectrum x associated therewith is calculated as shown in the following formula 1, Let this be a movement vector V m . In this specification, since the upper line (bar) of (C m s ) cannot be described, it is referred to as / C m s . In addition, / of (1 / N m ) on the right side of Expression 2 indicates a fraction.

【0022】[0022]

【数1】Vm=/Cm s−Cm s ここで、V m = / C m s −C m s where:

【数2】 [Equation 2]

【0023】ここで、Nmは選択話者のm番目のベクト
ルCm sに対応付けられた入力スペクトルベクトルの個数
であり、MはベクトルCm sに対応付けられた入力スペク
トル時系列のベクトルの集合である。そして、ステップ
S4では、学習で対応付けが行なわれなかった選択話者
のn番目のベクトルCn sと、その近傍にある対応付けが
行なわれた所定数のコードベクトルの集合の要素Ck s
の間のファジィ級関数μn,kを次の数3を用いて計算す
る。
Here, N m is the number of input spectrum vectors associated with the m-th vector C m s of the selected speaker, and M is the vector of the input spectrum time series associated with the vector C m s. Is a set of. Then, in step S4, the n-th vector C n s of the selected speaker that has not been associated in learning and the element C k s of the set of a predetermined number of associated code vectors in the vicinity thereof. The fuzzy class function μ n , k between and is calculated using the following equation 3.

【0024】[0024]

【数3】 (Equation 3)

【0025】ここで、ma=1/(m−1)である。ま
た、dn,kはベクトルCn SとベクトルCk Sとの間の距離
であり、mは制御パラメータ(ファジネス)であり、K
は対応付けのあったベクトルの集合である。さらに、ス
テップS5では、対応付けされなかったベクトルCn s
移動ベクトルVnを、次の数4を用いて、対応付けが行
なわれたコードベクトルCk sの移動ベクトルVkと上記
ファジィ級関数μn,kを用いて計算し、写像コードブッ
クのすべてのベクトルCsを次の数5に示すごとく移動
ベクトルVnの集合Vを用いて目標話者のベクトルCt
更新してステップS6に進む。
Here, ma = 1 / (m-1). Further, d n , k is a distance between the vector C n S and the vector C k S , m is a control parameter (fuzziness), and K
Is a set of associated vectors. Further, in step S5, the movement vector V n of not mapping vector C n s, by using the following Equation 4, the moving vector V k and the fuzzy grade correspondence is performed codevector C k s The calculation is performed using the function μ n , k, and all the vectors C s of the mapping codebook are updated to the vector C t of the target speaker by using the set V of the movement vectors V n as shown in the following equation 5, and step Proceed to S6.

【0026】[0026]

【数4】 [Equation 4]

【数5】Ct=Cs+V[Formula 5] C t = C s + V

【0027】ステップS6では、DTW法による対応づ
けの時間整合処理のときの距離が収束していなければ、
ステップS2へ戻る。一方、収束していればステップS
7に進む。
In step S6, if the distance has not converged in the time matching processing of the correspondence by the DTW method,
Return to step S2. On the other hand, if converged, step S
Proceed to 7.

【0028】ステップS6までの処理では、学習データ
が少ない場合に異話者間の真の対応関係を表せずに移動
ベクトルの誤差が大きくなるという問題が残る。そこ
で、ステップS7においては、移動ベクトル場平滑化法
(VFS法)を用いて、移動ベクトルに連続性の拘束条
件を入れ、以下に示す3つのステップSS1乃至SS3
からなる平滑化処理を行なって、誤差を吸収させる。 (SS1)写像コードブック内の選択話者のl番目のベ
クトルCl sとその近傍にあるベクトルCk sとの間のファ
ジィ級関数μl,kを計算する。 (SS2)上記ファジィ級関数μl,kを用いて平滑化移
動ベクトルVlを次の数6を用いて計算する。
In the processes up to step S6, when the learning data is small, the problem that the error of the movement vector becomes large without representing the true correspondence between the different speakers remains. Therefore, in step S7, a moving vector field smoothing method (VFS method) is used to put a constraint condition of continuity on the moving vector, and the following three steps SS1 to SS3 are performed.
The smoothing process consisting of is performed to absorb the error. (SS1) A fuzzy class function μ l , k between the l-th vector C l s of the selected speaker in the mapping codebook and the vector C k s in the vicinity thereof is calculated. (SS2) Using the fuzzy class functions μ l , k , the smoothed movement vector V l is calculated using the following equation 6.

【0029】[0029]

【数6】 (Equation 6)

【0030】ここで、Nk αは移動ベクトルVkの信頼度
を表し、定数αを持たせた移動ベクトルへの重みとして
いる。ここで、k=lのときファジィ級関数μl,k=1
とする。 (SS3)平滑化された移動ベクトルVlを用いて、写
像コードブックメモリ12内の写像コードブックのすべ
てのベクトルCl sを次の数7に示すごとくベクトルCl t
に更新する。この写像コードブックは、声質変化音声合
成装置200におけるスペクトル写像処理部22で用い
られる。
Here, N k α represents the reliability of the movement vector V k , and is used as a weight for the movement vector having a constant α. Here, when k = 1, fuzzy class function μ l , k = 1
And (SS3) Using the smoothed movement vector V l , all the vectors C l s of the mapping codebook in the mapping codebook memory 12 are vector C l t as shown in the following Expression 7.
To update. This mapping codebook is used by the spectrum mapping processing unit 22 in the voice quality change speech synthesizer 200.

【0031】[0031]

【数7】Cl t=Cl s+V (7) C l t = C l s + V l

【0032】次いで、図1の声質変換音声合成装置20
0の構成と動作について説明する。図1に示すように、
目標話者の音声で音声合成したい文字列をキーボード2
1を用いて入力すると、スペクトル写像処理部22は、
文字列に対応する選択話者の音声スペクトルのデータを
音声データベース10から読み出し、その音声スペクト
ルのベクトル列X を、生成された写像コードブック
12を用いてベクトル量子化することにより、以下のご
とくスペクトル写像を行って復号化処理を実行する。
Next, the voice quality conversion speech synthesizer 20 of FIG.
The configuration and operation of 0 will be described. As shown in Figure 1,
Keyboard 2 for the character string that you want to synthesize with the voice of the target speaker
When input using 1, the spectrum mapping processing unit 22
Data of the voice spectrum of the selected speaker corresponding to the character string is read from the voice database 10, and the vector sequence X p s of the voice spectrum is vector-quantized using the generated mapping codebook 12 to obtain the following. Then, the spectrum mapping is performed and the decoding process is performed.

【0033】スペクトル写像処理部22では、選択話者
の音声スペクトルのベクトル列Xp sと、と、その近傍に
ある所定数k個のベクトルCq s(ここで、q=1,2,
…,k)との間の重み付け関数であるファジィ級関数μ
p,qを計算した後、ベクトルCq sに対応付けられた目標
話者のベクトルCq tとファジィ級関数μp,qとに基づい
て、変換後の目標話者のベクトル列Xp tを計算する。そ
して、当該ベクトル列Xp tから、選択話者から目標話者
に写像された音声スペクトル時系列を計算してパラメー
タ系列生成部23に出力する。
In the spectrum mapping processing section 22, a vector sequence X p s of the speech spectrum of the selected speaker and a predetermined number k of vectors C q s (where q = 1, 2,
,, k) fuzzy class function μ which is a weighting function between
After calculating p , q , based on the target speaker vector C q t and the fuzzy class function μ p , q associated with the vector C q s , the converted target speaker vector sequence X p t To calculate. Then, the voice spectrum time series mapped from the selected speaker to the target speaker is calculated from the vector sequence X p t and output to the parameter sequence generation unit 23.

【0034】以上の処理での説明では、写像コードブッ
ク生成装置100及び声質変換音声合成装置200にお
いて、スペクトルに関する処理のみについて説明してい
るが、ピッチ周波数について、同様に処理して、写像コ
ードブックを作成して、作成した写像コードブックを用
いて目標話者のピッチ周波数の時系列を計算してパラメ
ータ系列生成部23に出力する。これにとって代わっ
て、ピッチ周波数の処理については、これに限らず、目
標話者と選択話者の間のピッチ周波数の対数値の平均の
差を予め計算しておき、選択話者のピッチ周波数の対数
値にその差を加算することにより、目標話者のピッチ周
波数の時系列を計算してもよい。
In the above description of the process, only the process relating to the spectrum is explained in the mapping codebook generating device 100 and the voice quality conversion speech synthesizing device 200, but the pitch code frequency is similarly processed to obtain the mapping codebook. Is generated, the time series of the pitch frequency of the target speaker is calculated using the created mapping codebook, and is output to the parameter series generation unit 23. Instead of this, the pitch frequency processing is not limited to this, and the difference in the average of the logarithmic values of the pitch frequency between the target speaker and the selected speaker is calculated in advance, and the pitch frequency of the selected speaker is calculated. The time series of the pitch frequency of the target speaker may be calculated by adding the difference to the logarithmic value.

【0035】最後に、パラメータ系列生成部23は、入
力されるスペクトル時系列とピッチ周波数の時系列を取
りまとめて内蔵のバッファメモリに一時的に格納した
後、入力された文字列に対応する音声合成のための時系
列データに変換して音声合成部24に出力する。ここ
で、時系列データは、音声合成のためのピッチ、有声/
無声切り換え、振幅及びフィルタ係数のデータを含む。
さらに、音声合成部24は、パルス発生器と雑音発生器
とスイッチと振幅変更型増幅器とフィルタとから構成さ
れ、入力される時系列データに基づいて、発声音声信号
を合成してスピーカ25に出力することにより、上記入
力された文字列に対応する目標話者の合成音声がスピー
カ25から出力される。
Finally, the parameter sequence generation unit 23 collects the input spectrum time series and the time series of the pitch frequency and temporarily stores them in a built-in buffer memory, and then synthesizes the speech corresponding to the input character string. And outputs it to the voice synthesizer 24. Here, the time-series data is pitch for voice synthesis, voiced /
Includes unvoiced switching, amplitude and filter coefficient data.
Further, the voice synthesizing unit 24 is composed of a pulse generator, a noise generator, a switch, an amplitude changing type amplifier and a filter, and synthesizes a vocal voice signal based on the inputted time series data and outputs it to the speaker 25. By doing so, the synthesized voice of the target speaker corresponding to the input character string is output from the speaker 25.

【0036】さらに、本発明者は、以上のように構成さ
れたシステムについてシミュレーションを以下のごとく
行った。このシミュレーションでは、音声試料として音
素バランス216単語のうち、学習用に1語「うちあわ
せ」を使用し、評価用に50語を使用した。アナウンサ
ー又はナレーターである男女各4名を登録話者とし、別
の男女各4名を目標話者として評価のためのシミュレー
ションを行なった。予め作成しておく各登録話者のコー
ドブックは、音素バランスされた503文を用いて作成
した。コードブックサイズは512であり、平滑化時の
ファジネスの値は1.1乃至5.0で変化させ、補間時
のファジネスもこれと同じ値に設定した。復号化時のフ
ァジネスは1.5、平滑化時の重み係数αは0.05に
設定し、その処理の近傍数はすべて4とした。また、ス
ペクトルパラメータは30次FFTケプストラムとし、
距離Dの計算には次の数8を用いた。
Further, the present inventor has performed the following simulation on the system configured as described above. In this simulation, of the phoneme-balanced 216 words as speech samples, one word “Uchime” was used for learning and 50 words were used for evaluation. A simulation for evaluation was carried out by using four male and female announcers or narrators as registered speakers and another four male and female speakers as target speakers. The codebook of each registered speaker created in advance was created using 503 phoneme-balanced sentences. The codebook size is 512, the fuzzyness value during smoothing is changed from 1.1 to 5.0, and the fuzzyness during interpolation is set to the same value. The fuzzyness at the time of decoding was set to 1.5, the weighting coefficient α at the time of smoothing was set to 0.05, and the number of neighbors in the process was set to 4. In addition, the spectrum parameter is the 30th-order FFT cepstrum,
The following formula 8 was used for the calculation of the distance D.

【0037】[0037]

【数8】 (Equation 8)

【0038】ここで、CEPij sはDTW法による時間
整合処理後の選択話者の第iフレームのj次ケプストラ
ム係数であり、CEPij tは目標話者の第iフレームの
j次ケプストラム係数である。また、frはフレーム数
である。本実施例の方法の基本性能を調べるため、変換
音声と目標話者の音声及び選択話者の音声と目標話者の
音声のケプストラム距離を計算した。ケプストラム距離
の50単語の平均値の結果より、男性と女性の目標話者
ともに、変換音声と目標話者の音声との距離は選択話者
の音声と目標話者の音声との距離よりも小さくなり、本
実施例の方法の有効性が示された。
Here, CEP ij s is the j-th cepstral coefficient of the i-th frame of the selected speaker after the time matching processing by the DTW method, and CEP ij t is the j-th cepstrum coefficient of the i-th frame of the target speaker. is there. Further, fr is the number of frames. In order to investigate the basic performance of the method of this embodiment, the cepstrum distances between the converted voice and the voice of the target speaker and the voice of the selected speaker and the voice of the target speaker were calculated. From the result of the average value of 50 words of the cepstrum distance, the distance between the converted voice and the voice of the target speaker is smaller than the distance between the voice of the selected speaker and the voice of the target speaker for both the male and female target speakers. Thus, the effectiveness of the method of this example was shown.

【0039】次に、聴覚的に本実施例の方法の効果があ
るかどうかを調べるため、目標話者男女各1名に対し
て、公知のABX法による聴取シミュレーションを行な
った。A、Bは、それぞれ目標話者の分析合成音、選択
話者の分析合成音、Xはファジネス5の変換音声又は選
択話者の分析合成音である。変換音声は、50単語のう
ちケプストラム距離の減少比が50単語平均よりも小さ
い音声、大きい音声、同程度の音声を、1サンプルずつ
抽出したものとした。スペクトル写像精度のみを評価す
るために、基本周波数、音韻継続時間、パワーは目標話
者に合わせた。被験者には、Xの音声話者がA,Bどち
らの話者に近いかを強制判定させた。被験者は6名、呈
示回数は1サンプル当たり4回である。評価は、次の数
9に従って判定率CRを求め、この値で比較した。
Next, in order to examine whether or not the method of the present embodiment is auditorily effective, a listening simulation by the known ABX method was performed for each of the target speaker male and female. A and B are the analysis and synthesis sounds of the target speaker, the analysis and synthesis sound of the selected speaker, and X is the converted speech of fuzzy 5 or the analysis and synthesis sound of the selected speaker. The converted speech was one in which the reduction rate of the cepstrum distance in the 50 words was smaller than the average of 50 words, the large speech, and the similar speech, which were sampled one by one. In order to evaluate only the spectral mapping accuracy, the fundamental frequency, phoneme duration and power were adjusted to the target speaker. The test subject was forced to determine which of the A and B speakers the X voice speaker was closer to. There were 6 test subjects and the number of presentations was 4 per sample. In the evaluation, the judgment rate CR was calculated according to the following equation 9, and the values were compared.

【0040】[0040]

【数9】CR=(Pj/Pall)×100[%][Equation 9] CR = (P j / P all ) × 100 [%]

【0041】ここで、Pjは「Xが目標話者に近いと判
定された回数」であり、Pallは「呈示回数」である。
Here, P j is “the number of times X is determined to be close to the target speaker” and P all is “the number of presentations”.

【0042】この評価結果より、変換音声が目標話者に
近いと判定された割合は、男性の目標話者の場合約67
%であって、女性の目標話者の場合65%である。ま
た、選択話者が目標話者に近いと判定された割合は、男
性の目標話者の場合約18%であって、女性の目標話者
の場合25%であり、両者とも高い割合で変換音声が目
標話者に近いと判定されており、聴覚的にも効果のある
ことが示された。選択話者が目標話者に近いと判定され
た割合が、目標話者が男性の場合より女性の場合の方が
高いのは、選択話者と目標話者との距離が男性の目標話
者の場合より近かったためと考えられる。このことは、
登録話者の中に存在する目標話者に近い話者が話者選択
によって適切に選ばれたことを示している。また、変換
音声が目標話者に近いと判定された割合が男性の目標話
者の方が高いのは、VFS法の平滑化処理の効果が女性
の目標話者よりも大きいためと考えられる。以上から、
選択話者と目標話者の距離が大きいほどVFS法の平滑
化処理の効果が増し、距離が小さいほど話者選択の効果
が増すという相乗効果があるといえる。
From the result of this evaluation, the rate at which the converted voice is judged to be close to the target speaker is about 67 for the male target speaker.
%, And 65% for female target speakers. In addition, the percentage of the selected speaker determined to be close to the target speaker is about 18% for the male target speaker and 25% for the female target speaker, both of which are converted at a high rate. It was judged that the voice was close to the target speaker, and it was shown to be effective auditorily. The percentage of the selected speaker closer to the target speaker is higher when the target speaker is female than when the target speaker is male, because the distance between the selected speaker and the target speaker is male. It is thought that it was because it was closer than in the case of. This is
It is shown that the speaker close to the target speaker existing in the registered speakers is properly selected by the speaker selection. Further, the reason why the conversion target speech is judged to be closer to the target speaker is higher in the male target speaker because the effect of the VFS smoothing process is larger than that in the female target speaker. From the above,
It can be said that there is a synergistic effect that the effect of smoothing processing of the VFS method increases as the distance between the selected speaker and the target speaker increases, and the effect of speaker selection increases as the distance decreases.

【0043】以上説明したように、少ない学習データで
声質変換を実現するため、話者選択と移動ベクトル場平
滑化法によって選択話者から目標話者へのスペクトル写
像を行なうことによる声質変換法を開示している。スペ
クトル距離および聴取シミュレーションによる評価にお
いて、1単語のみで学習させ、50単語で評価を行なっ
た結果、変換音声と目標話者音声とのスペクトル距離
は、選択話者音声と目標話者音声との距離より小さくな
り、また、聴取シミュレーションでも良好な結果が得ら
れ、本実施例の方法の有効性が示された。
As described above, in order to realize the voice quality conversion with a small amount of learning data, the voice quality conversion method is performed by performing the speaker mapping and the spectrum mapping from the selected speaker to the target speaker by the moving vector field smoothing method. Disclosure. In the evaluation by the spectral distance and the listening simulation, only one word was learned, and the evaluation was performed with 50 words. As a result, the spectral distance between the converted speech and the target speaker speech is the distance between the selected speaker speech and the target speaker speech. It was smaller, and good results were obtained in listening simulations, demonstrating the effectiveness of the method of this example.

【0044】第2の従来例では、音声データの登録話者
から目標話者への写像を行う場合、異なる話者間のコー
ドブックの対応関係を学習によって求めるために、大量
の学習データが必要であったり、合成音声の精度を改善
するために複雑な処理を必要としていた。これに対し
て、本発明に係る本実施例によれば、1単語程度の非常
に少ない学習データで登録話者から目標話者への写像関
数を求めることができ、例えばデイジタル計算機を用い
て実用化することができる。また、音声データベースだ
けを予め格納することにより、発話内容に関係なく従来
例に比較してより高い精度で声質を変換することができ
る。すなわち、音声データベースに格納される単語と、
声質変換しようとする単語は異なってもよく、本実施例
を、例えば、日本語の単語から英語の単語への声質変
換、もしくは、英語の単語から日本語の単語への声質に
適用することができる。
In the second conventional example, a large amount of learning data is required in order to obtain the correspondence of the codebooks between different speakers by learning when mapping the voice data from the registered speaker to the target speaker. However, complicated processing is required to improve the accuracy of synthesized speech. On the other hand, according to the present embodiment of the present invention, the mapping function from the registered speaker to the target speaker can be obtained with very little learning data of about one word, and for example, it can be practically used by using a digital computer. Can be converted. Further, by storing only the voice database in advance, it is possible to convert the voice quality with higher accuracy than in the conventional example regardless of the utterance content. That is, the words stored in the voice database,
The words to be converted in voice quality may be different, and this embodiment can be applied to, for example, voice conversion from Japanese words into English words or voice characteristics from English words into Japanese words. it can.

【0045】なお、以上の実施例において、A/D変換
器2と、特徴抽出部3と、話者選択部5と、写像コード
ブック生成部6と、スペクトル写像処理部22と、パラ
メータ系列生成部23は、例えばディジタル計算機で構
成される。
In the above embodiment, the A / D converter 2, the feature extraction unit 3, the speaker selection unit 5, the mapping codebook generation unit 6, the spectrum mapping processing unit 22, and the parameter sequence generation. The unit 23 is composed of, for example, a digital computer.

【0046】以上の実施例においては、スペクトルデー
タとピッチ周波数について、話者選択、写像コードブッ
ク生成、及びスペクトル写像処理を行っているが、同様
に、他の音響特徴パラメータについて処理を行ってもよ
い。以上の実施例において、マイクロホン1に入力する
単語は少なくとも1つの単語でよい。また、音声データ
ベースメモリ10に予め記憶する音声データベースは、
複数の登録話者の音声データベースのデータでよい。
In the above embodiment, the speaker selection, the mapping codebook generation, and the spectrum mapping processing are performed on the spectrum data and the pitch frequency, but similarly, the processing may be performed on other acoustic feature parameters. Good. In the above embodiments, the word input to the microphone 1 may be at least one word. The voice database stored in advance in the voice database memory 10 is
The data may be data of voice databases of a plurality of registered speakers.

【0047】[0047]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の声質変換音声合成装置によれば、複数の登録話
者の少なくとも1単語の音声信号の音響特徴パラメータ
を含む音声データベースを予め記憶する記憶手段と、入
力された目標話者の少なくとも1単語の音声信号に基づ
いて、声質変換をすべき目標話者に最も近い話者を、上
記複数の登録話者の中から選択する選択手段と、上記選
択手段によって選択された話者の音響空間と目標話者の
音響空間との間の差分を計算することにより、選択され
た話者から上記目標話者への写像コードブックを計算す
る生成手段と、入力された音声合成すべき文字列に基づ
いて、上記音声データベースに記憶された上記選択され
た話者の音声の音響特徴パラメータを上記選択された話
者のコードブックを用いて量子化し、上記選択された話
者のコードブックと上記写像コードブックの対応関係に
基づいて上記文字列に対応する目標話者の音声信号の音
響特徴パラメータを生成する写像処理手段と、上記写像
処理手段によって生成された目標話者の音声信号の音響
特徴パラメータに基づいて、上記文字列に対応する目標
話者の音声信号を発生して出力する音声合成手段とを備
える。第2の従来例では、音声データの登録話者から目
標話者への写像を行う場合、異なる話者間のコードブッ
クの対応関係を学習によって求めるために、大量の学習
データが必要であったり、合成音声の精度を改善するた
めに複雑な処理を必要としていた。これに対して、本発
明によれば、1単語程度の非常に少ない学習データで登
録話者から目標話者への写像関数を求めることができ、
例えばデイジタル計算機を用いて実用化することができ
る。また、上記音声データベースだけを予め格納するこ
とにより、発話内容に関係なく従来例に比較してより高
い精度で声質を変換することができる。すなわち、上記
音声データベースに格納される単語と、声質変換しよう
とする単語は異なってもよく、本発明を、例えば、日本
語の単語から英語の単語への声質変換、もしくは、英語
の単語から日本語の単語への声質に適用することができ
る。
As described in detail above, according to the voice quality conversion voice synthesizer of the first aspect of the present invention, a voice database including acoustic feature parameters of voice signals of at least one word of a plurality of registered speakers is created. A speaker closest to the target speaker whose voice quality should be converted is selected from the plurality of registered speakers based on the storage means stored in advance and the input voice signal of at least one word of the target speaker. By selecting a difference between the selecting means and the acoustic space of the speaker selected by the selecting means and the acoustic space of the target speaker, a mapping codebook from the selected speaker to the target speaker is obtained. Based on the generating means for calculating and the input character string to be voice-synthesized, the acoustic feature parameters of the voice of the selected speaker stored in the voice database are codebook of the selected speaker. Quantization using the mapping processing means for generating the acoustic feature parameter of the voice signal of the target speaker corresponding to the character string based on the correspondence between the selected speaker codebook and the mapping codebook, and A voice synthesizing means for generating and outputting a voice signal of the target speaker corresponding to the character string, based on the acoustic feature parameter of the voice signal of the target speaker generated by the mapping processing means. In the second conventional example, a large amount of learning data is required in order to obtain the correspondence of the codebook between different speakers by learning when mapping the voice data from the registered speaker to the target speaker. , Requires complicated processing to improve the accuracy of synthesized speech. On the other hand, according to the present invention, the mapping function from the registered speaker to the target speaker can be obtained with very little learning data of about one word,
For example, it can be put to practical use by using a digital computer. Further, by storing only the voice database in advance, it is possible to convert the voice quality with higher accuracy than the conventional example regardless of the utterance content. That is, the word stored in the voice database may be different from the word whose voice quality is to be converted, and the present invention can be applied to, for example, voice quality conversion from a Japanese word to an English word or from an English word to a Japanese word. It can be applied to the voice quality of words in words.

【0048】また、請求項2記載の声質変換音声合成装
置においては、上記生成手段は、移動ベクトル場平滑化
法を用いて、選択された話者から上記目標話者への写像
コードブックを計算する。これにより、より簡単にかつ
精度よく声質変換して音声合成することができる。
Further, in the voice quality conversion speech synthesizer according to the second aspect, the generating means calculates a mapping codebook from the selected speaker to the target speaker by using the moving vector field smoothing method. To do. As a result, it is possible to more easily and accurately convert the voice quality and synthesize the voice.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明に係る一実施例である写像コードブッ
ク生成装置100と声質変換音声合成装置200のブロ
ック図である。
FIG. 1 is a block diagram of a mapping codebook generation device 100 and a voice quality conversion voice synthesis device 200 according to an embodiment of the present invention.

【図2】 図1の写像コードブック生成部6によって実
行される写像コードブック生成処理を示すフローチャー
トである。
FIG. 2 is a flowchart showing a mapping codebook generation process executed by a mapping codebook generation unit 6 in FIG.

【図3】 ピッチ周波数の変換コードブックを生成する
方法を示す第2の従来例のブロック図である。
FIG. 3 is a block diagram of a second conventional example showing a method for generating a pitch frequency conversion codebook.

【図4】 図3の方法で生成されたピッチ周波数の変換
コードブックと同様の方法で生成されたスペクトルパラ
メータの変換コードブックとを用いてベクトル量子化に
よる声質変換法を示すブロック図である。
4 is a block diagram showing a voice quality conversion method by vector quantization using a pitch frequency conversion codebook generated by the method of FIG. 3 and a spectrum parameter conversion codebook generated by the same method. FIG.

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4…バッファメモリ、 5…話者選択部、 6…写像コードブック生成部、 10…音声データベース、 11…スペクトルコードブック、 21…キーボード、 22…スペクトル写像処理部、 23…パラメータ系列生成部、 24…音声合成部、 25…スピーカ、 100…写像コードブック生成装置、 200…声質変換音声合成装置。 DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... A / D converter, 3 ... Feature extraction part, 4 ... Buffer memory, 5 ... Speaker selection part, 6 ... Mapping codebook generation part, 10 ... Speech database, 11 ... Spectrum codebook, 21. ... keyboard, 22 ... spectrum mapping processing section, 23 ... parameter series generation section, 24 ... speech synthesis section, 25 ... speaker, 100 ... mapping codebook generation apparatus, 200 ... voice quality conversion speech synthesis apparatus.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 複数の登録話者の音響特徴パラメータを
含む音声データベースとそのコードブックを予め記憶す
る記憶手段と、 入力された目標話者の少なくとも1単語の音声信号に基
づいて、声質変換をすべき目標話者に最も近い話者を、
上記複数の登録話者の中から選択する選択手段と、 上記選択手段によって選択された話者の音響空間と目標
話者の音響空間との間の差分を計算することにより、選
択された話者から上記目標話者への写像コードブックを
計算する生成手段と、 入力された音声合成すべき文字列に基づいて、上記音声
データベースに記憶された上記選択された話者の音声の
音響特徴パラメータを上記選択された話者のコードブッ
クを用いて量子化し、上記選択された話者のコードブッ
クと上記写像コードブックの対応関係に基づいて上記文
字列に対応する目標話者の音声信号の音響特徴パラメー
タを生成する写像処理手段と、 上記写像処理手段によって生成された目標話者の音声信
号の音響特徴パラメータに基づいて、上記文字列に対応
する目標話者の音声信号を発生して出力する音声合成手
段とを備えたことを特徴とする声質変換音声合成装置。
1. A voice database including acoustic feature parameters of a plurality of registered speakers and a storage means for storing a codebook thereof in advance, and voice quality conversion based on an input voice signal of at least one word of a target speaker. The speaker closest to the target speaker
The selected speaker is selected by calculating the difference between the selecting means for selecting from the plurality of registered speakers and the acoustic space of the speaker selected by the selecting means and the acoustic space of the target speaker. From the generating means for calculating the mapping codebook to the target speaker from, and the acoustic feature parameter of the voice of the selected speaker stored in the voice database based on the input character string to be voice synthesized. Quantization using the codebook of the selected speaker, and acoustic characteristics of the voice signal of the target speaker corresponding to the character string based on the correspondence between the codebook of the selected speaker and the mapping codebook A mapping processing means for generating a parameter, and a voice signal of the target speaker corresponding to the character string based on the acoustic feature parameter of the voice signal of the target speaker generated by the mapping processing means. Voice conversion speech synthesis apparatus characterized by comprising a speech synthesis means generates and outputs.
【請求項2】 上記生成手段は、移動ベクトル場平滑化
法を用いて、選択された話者から上記目標話者への写像
コードブックを計算することを特徴とする請求項1記載
の声質変換音声合成装置。
2. The voice quality conversion according to claim 1, wherein the generating means calculates a mapping codebook from the selected speaker to the target speaker by using a moving vector field smoothing method. Speech synthesizer.
【請求項3】 上記音響特徴パラメータは、スペクトル
データを含むことを特徴とする請求項1又は2記載の声
質変換音声合成装置。
3. The voice quality conversion speech synthesis apparatus according to claim 1, wherein the acoustic feature parameter includes spectral data.
【請求項4】 上記音響特徴パラメータはさらに、ピッ
チ周波数データを含むことを特徴とする請求項3記載の
声質変換音声合成装置。
4. The voice quality conversion speech synthesizer according to claim 3, wherein the acoustic feature parameter further includes pitch frequency data.
JP7051039A 1995-03-10 1995-03-10 Voice conversion speech synthesizer Expired - Fee Related JP2898568B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7051039A JP2898568B2 (en) 1995-03-10 1995-03-10 Voice conversion speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7051039A JP2898568B2 (en) 1995-03-10 1995-03-10 Voice conversion speech synthesizer

Publications (2)

Publication Number Publication Date
JPH08248994A true JPH08248994A (en) 1996-09-27
JP2898568B2 JP2898568B2 (en) 1999-06-02

Family

ID=12875668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7051039A Expired - Fee Related JP2898568B2 (en) 1995-03-10 1995-03-10 Voice conversion speech synthesizer

Country Status (1)

Country Link
JP (1) JP2898568B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001209400A (en) * 2000-01-24 2001-08-03 Denso Corp Voice synthesizer and voice guidance system
WO2001078064A1 (en) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Voice character converting device
WO2005109399A1 (en) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis device and method
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
JP2008203543A (en) * 2007-02-20 2008-09-04 Toshiba Corp Voice quality conversion apparatus and voice synthesizer
WO2010137385A1 (en) * 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション Device for learning amount of movement of basic frequency for adapting to speaker, basic frequency generation device, amount of movement learning method, basic frequency generation method, and amount of movement learning program
US20130218568A1 (en) * 2012-02-21 2013-08-22 Kabushiki Kaisha Toshiba Speech synthesis device, speech synthesis method, and computer program product
CN105280177A (en) * 2014-07-14 2016-01-27 株式会社东芝 Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method
CN105741832A (en) * 2016-01-27 2016-07-06 广东外语外贸大学 Spoken language evaluation method based on deep learning and spoken language evaluation system
US10930264B2 (en) 2016-03-15 2021-02-23 Kabushiki Kaisha Toshiba Voice quality preference learning device, voice quality preference learning method, and computer program product
JP2021511533A (en) * 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. Text-to-speech synthesis methods using machine learning, devices and computer-readable storage media

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001209400A (en) * 2000-01-24 2001-08-03 Denso Corp Voice synthesizer and voice guidance system
WO2001078064A1 (en) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Voice character converting device
US7912719B2 (en) 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
WO2005109399A1 (en) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis device and method
JPWO2005109399A1 (en) * 2004-05-11 2007-08-02 松下電器産業株式会社 Speech synthesis apparatus and method
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
JPWO2006040908A1 (en) * 2004-10-13 2008-05-15 松下電器産業株式会社 Speech synthesis apparatus and speech synthesis method
JP2008203543A (en) * 2007-02-20 2008-09-04 Toshiba Corp Voice quality conversion apparatus and voice synthesizer
JP5226867B2 (en) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Basic frequency moving amount learning device, fundamental frequency generating device, moving amount learning method, basic frequency generating method, and moving amount learning program for speaker adaptation
CN102341842A (en) * 2009-05-28 2012-02-01 国际商业机器公司 Device for learning amount of movement of basic frequency for adapting to speaker, basic frequency generation device, amount of movement learning method, basic frequency generation method, and amount of movement learning program
WO2010137385A1 (en) * 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション Device for learning amount of movement of basic frequency for adapting to speaker, basic frequency generation device, amount of movement learning method, basic frequency generation method, and amount of movement learning program
US8744853B2 (en) 2009-05-28 2014-06-03 International Business Machines Corporation Speaker-adaptive synthesized voice
US20130218568A1 (en) * 2012-02-21 2013-08-22 Kabushiki Kaisha Toshiba Speech synthesis device, speech synthesis method, and computer program product
JP2013171196A (en) * 2012-02-21 2013-09-02 Toshiba Corp Device, method and program for voice synthesis
US9135910B2 (en) 2012-02-21 2015-09-15 Kabushiki Kaisha Toshiba Speech synthesis device, speech synthesis method, and computer program product
CN105280177A (en) * 2014-07-14 2016-01-27 株式会社东芝 Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method
JP2016020972A (en) * 2014-07-14 2016-02-04 株式会社東芝 Voice synthesis dictionary generation device, voice synthesis device, voice synthesis dictionary generation method and voice synthesis dictionary generation program
US10347237B2 (en) 2014-07-14 2019-07-09 Kabushiki Kaisha Toshiba Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method, and computer program product
CN105741832A (en) * 2016-01-27 2016-07-06 广东外语外贸大学 Spoken language evaluation method based on deep learning and spoken language evaluation system
CN105741832B (en) * 2016-01-27 2020-01-07 广东外语外贸大学 Spoken language evaluation method and system based on deep learning
US10930264B2 (en) 2016-03-15 2021-02-23 Kabushiki Kaisha Toshiba Voice quality preference learning device, voice quality preference learning method, and computer program product
JP2021511533A (en) * 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. Text-to-speech synthesis methods using machine learning, devices and computer-readable storage media

Also Published As

Publication number Publication date
JP2898568B2 (en) 1999-06-02

Similar Documents

Publication Publication Date Title
US7035791B2 (en) Feature-domain concatenative speech synthesis
US5327521A (en) Speech transformation system
JP2826215B2 (en) Synthetic speech generation method and text speech synthesizer
US4979216A (en) Text to speech synthesis system and method using context dependent vowel allophones
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
JP2733955B2 (en) Adaptive speech recognition device
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US5165008A (en) Speech synthesis using perceptual linear prediction parameters
KR100391243B1 (en) System and method for generating and using context dependent sub-syllable models to recognize a tonal language
Airaksinen et al. A comparison between straight, glottal, and sinusoidal vocoding in statistical parametric speech synthesis
CN109817197B (en) Singing voice generation method and device, computer equipment and storage medium
US5307442A (en) Method and apparatus for speaker individuality conversion
JP4829477B2 (en) Voice quality conversion device, voice quality conversion method, and voice quality conversion program
Choi et al. Korean singing voice synthesis based on auto-regressive boundary equilibrium gan
JP3189598B2 (en) Signal combining method and signal combining apparatus
JP4382808B2 (en) Method for analyzing fundamental frequency information, and voice conversion method and system implementing this analysis method
CN112349289A (en) Voice recognition method, device, equipment and storage medium
Lee Statistical approach for voice personality transformation
JP2898568B2 (en) Voice conversion speech synthesizer
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
Lee MLP-based phone boundary refining for a TTS database
JPH0772900A (en) Method of adding feelings to synthetic speech
JP2912579B2 (en) Voice conversion speech synthesizer
JP3281266B2 (en) Speech synthesis method and apparatus

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees