JP5689782B2 - Target speaker learning method, apparatus and program thereof - Google Patents
Target speaker learning method, apparatus and program thereof Download PDFInfo
- Publication number
- JP5689782B2 JP5689782B2 JP2011256042A JP2011256042A JP5689782B2 JP 5689782 B2 JP5689782 B2 JP 5689782B2 JP 2011256042 A JP2011256042 A JP 2011256042A JP 2011256042 A JP2011256042 A JP 2011256042A JP 5689782 B2 JP5689782 B2 JP 5689782B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- clusters
- data
- cluster
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、所望の話者の音声を合成するための技術に関する。 The present invention relates to a technique for synthesizing a voice of a desired speaker.
これまで、所望の話者の少量の音声データからその話者の音声を合成すること(任意話者音声合成)を目的として、モデル変換に基づく話者適応手法が提案されている(例えば、非特許文献1等参照)。従来の話者適応手法では、音声合成を行おうとする話者(目標話者)の音声を用い、あらかじめ学習された初期モデルを目標話者の適応モデルへ変換する。得られた目標話者の適応モデルを用いて音声合成を行うことで任意話者音声合成が実現される。 Up to now, speaker adaptation methods based on model conversion have been proposed for the purpose of synthesizing a speaker's speech from a small amount of speech data of a desired speaker (arbitrary speaker speech synthesis) (for example, non-speech method). (See Patent Document 1). In the conventional speaker adaptation method, the initial model learned in advance is converted into the target speaker's adaptation model using the speech of the speaker (target speaker) who is to perform speech synthesis. By performing speech synthesis using the obtained target speaker adaptation model, arbitrary speaker speech synthesis is realized.
一方、これまで知覚実験の結果より、音声処理で一般的に使用されている特徴量であるケプストラム以外にも複数の音響特徴量が音声の類似性に寄与することが報告されている(例えば、非特許文献2等参照)。
On the other hand, from the results of perceptual experiments, it has been reported that a plurality of acoustic feature amounts contribute to the similarity of speech in addition to the cepstrum which is a feature amount generally used in speech processing (for example, Non-patent
従来の話者適応手法では、あらかじめ用意した音声データのケプストラム(特徴量)に対応する初期モデルを、目標話者の音声のケプストラムに対応する適応モデルに変換し、この適応モデルを用いて目標話者の音声合成を行っている。しかしながら、初期モデルを目標話者の音声のケプストラムに対応する適応モデルに変換することにより、合成音声の品質(自然性)が劣化することが課題となる。 In the conventional speaker adaptation method, the initial model corresponding to the cepstrum (features) of speech data prepared in advance is converted into an adaptive model corresponding to the cepstrum of the target speaker's speech, and the target speech is converted using this adaptive model. Voice synthesis. However, there is a problem that the quality (naturalness) of synthesized speech is deteriorated by converting the initial model into an adaptive model corresponding to the cepstrum of the target speaker's speech.
本発明では、N人の話者の音声データD(n)(n=1,...,N、N≧2)の特徴F(k)(k=1,...,K、K≧2)を表す特徴量F(k,n)が特徴F(k)ごとに独立にクラスタリングされることで、特徴F(k)ごとにJ(k)個のクラスタCF(k,j(k))(k=1,...,K、j(k)=1,...,J(k)、J(k)≧2)が設定される。これにより、音声データD(n)それぞれのK個の特徴量F(k,n)がいずれかK個のクラスタCF(k,j(k,n))(k=1,...,K、j(k,n)=1,...,J(k)、J(k,n)≧2)に属する。 In the present invention, feature F (k) (k = 1,..., K, K ≧) of speech data D (n) (n = 1,..., N, N ≧ 2) of N speakers. 2) is clustered independently for each feature F (k), so that J (k) clusters CF (k, j (k) for each feature F (k) are obtained. ) (K = 1,..., K, j (k) = 1,..., J (k), J (k) ≧ 2). As a result, each of the K feature values F (k, n) of the audio data D (n) is any one of the K clusters CF (k, j (k, n)) (k = 1,..., K). , J (k, n) = 1,..., J (k), J (k, n) ≧ 2).
設定されたクラスタCF(k,j(k))から、目標話者の音声データD(T)(T≠1,...,N)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択する。さらにN人の話者の音声データD(n)から、K個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択する。 From the set cluster CF (k, j (k)), K feature values F (k, T) (k) of the target speaker's speech data D (T) (T ≠ 1,..., N). = 1,..., K) to which the K clusters CF (k, j (k, T)) (k = 1,..., K, j (k, T) = 1,. J (k)) combination is selected. Further, voice data D (S) corresponding to a combination of K clusters CF (k, j (k, T)) is selected from the voice data D (n) of N speakers.
音声データD(S)のK個の特徴量F(k,S)(k=1,...,K)が属するK個のクラスタCF(k,j(k,S))(k=1,...,K、j(k,S)=1,...,J(k))の組み合わせと、K個のクラスタCF(k,j(k,T))の組み合わせとが異なる場合に、変換関数を用い、K個の特徴量F(k,S)の一部の特徴量F(r,S)(r∈{1,...,K})を特徴量TF(r,S)に変換し、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得る。ただし、この変換関数は、特徴量F(r,S)が属するクラスタCF(r,j(r,S))に属する特徴量を、K個の特徴量F(k,T)の一部の特徴量F(r,T)が属するクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量に変換する。 K clusters CF (k, j (k, S)) (k = 1) to which the K feature values F (k, S) (k = 1,..., K) of the audio data D (S) belong. , ..., K, j (k, S) = 1, ..., J (k)) and the combination of K clusters CF (k, j (k, T)) are different. In addition, using a transformation function, a partial feature amount F (r, S) (rε {1,..., K}) of the K feature amounts F (k, S) is converted into a feature amount TF (r, S) to obtain K feature values F (k ′, S) (k′∈ {1,..., K}, k ′ ≠ r), TF (r, S). However, this conversion function converts the feature quantity belonging to the cluster CF (r, j (r, S)) to which the feature quantity F (r, S) belongs to a part of the K feature quantities F (k, T). Features belonging to the cluster CF (r, j (r, T)) [CF (r, j (r, T)) ≠ CF (r, j (r, S))] to which the feature amount F (r, T) belongs Convert to quantity.
本発明では、音声データD(S)のK個の特徴量F(k,S)の一部の特徴量F(r,S)のみを特徴量TF(r,S)に変換し、目標話者の音声合成のためのK個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得るため、変換される特徴量の種別に応じ、変換による自然性の劣化の影響を制御できる。 In the present invention, only some of the feature values F (r, S) of the K feature values F (k, S) of the audio data D (S) are converted into the feature values TF (r, S), and the target story is converted. Conversion to obtain K feature quantities F (k ′, S) (k′∈ {1,..., K}, k ′ ≠ r), TF (r, S) for the person's speech synthesis Depending on the type of feature quantity to be performed, the influence of deterioration of naturalness due to conversion can be controlled.
図面を参照して実施形態を説明する。
<構成>
図1に例示するように、本形態の音声合成装置1は、話者クラスタリング部110、目標話者学習部120、音声合成部130、及び制御部140を有する。話者クラスタリング部110、目標話者学習部120、及び音声合成部130は、制御部140の制御のもとで各処理を実行する。音声合成装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれることで構成される特別な装置である。
Embodiments will be described with reference to the drawings.
<Configuration>
As illustrated in FIG. 1, the
図2に例示するように、本形態の話者クラスタリング部110は、多数話者音声DB(データベース)記憶部111a、特徴量音声DB記憶部111b、クラスタ情報DB記憶部111c、変換関数DB記憶部111d、特徴量抽出部112b、クラスタリング部112c、及び変換関数学習部112dを有する。
As illustrated in FIG. 2, the
図3に例示するように、本形態の目標話者学習部120は、目標話者音声記憶部121a、特徴量記憶部121b、所属クラスタ記憶部121c、選択話者記憶部121d、目標話者DB記憶部121e、特徴量抽出部122b、クラスタ選択部122c、話者選択部122d、及び特徴量変換部122eを有する。
As illustrated in FIG. 3, the target
図4に例示するように、本形態の音声合成部130は、テキスト記憶部131a、コンテキスト記憶部131b、韻律モデルDB記憶部131c、韻律パラメータ記憶部131d、合成音声記憶部131e、テキスト解析部132b、韻律生成部132d、及び素片選択部132eを有する。
As illustrated in FIG. 4, the
<話者クラスタリング処理>
話者クラスタリング処理では、多数話者の音声データそれぞれの特徴量がクラスタリングされ、クラスタに属する特徴量を他のクラスタの特徴量に変換する変換関数が学習される。以下、図5Aに従って本形態の話者クラスタリング処理を説明する。
N人(N≧2)の話者(多数話者)の音声が事前に収録され、各話者音声を表す音声データD(n)(n=1,...,N)が多数話者音声DB記憶部111a(図2)に格納される(ステップS11)。本形態では、話者と音声データD(n)とが一対一で対応する。目標話者学習部120及び音声合成部130での処理性能の観点から、音声データD(n)は以下の要件を満たすことが望ましい。ただし、これらの条件は本発明を限定しない。
(1)1名あたりの音声データ量(無音区間を除いた音声区間の時間)は、音声合成用のモデルを学習可能な時間以上である。音声合成用のモデルを学習可能な時間は、使用される音声合成方式によって異なる。例えば、素片選択型音声合成方式が用いられる場合、各話者について数時間程度の音声データが必要である。
(2)音声が収録される話者数Nは、性別ごとに最低でも数十名以上である。
<Speaker clustering>
In the speaker clustering process, feature amounts of speech data of a large number of speakers are clustered, and a conversion function for converting a feature amount belonging to a cluster into a feature amount of another cluster is learned. Hereinafter, the speaker clustering processing of this embodiment will be described with reference to FIG. 5A.
Voices of N speakers (N ≧ 2) (multiple speakers) are recorded in advance, and voice data D (n) (n = 1,..., N) representing each speaker voice is a large number of speakers. It is stored in the voice
(1) The amount of speech data per person (the duration of the speech segment excluding the silent segment) is equal to or longer than the time during which the speech synthesis model can be learned. The time during which a model for speech synthesis can be learned varies depending on the speech synthesis method used. For example, when a unit selection type speech synthesis method is used, speech data of about several hours is required for each speaker.
(2) The number of speakers N in which speech is recorded is at least several tens of people for each gender.
本形態では、音声データD(n)のそれぞれにラベルデータ(音素セグメンテーション情報)が対応付けられ、音声データD(n)とラベルデータからなる多数話者の音声DBが多数話者音声DB記憶部111aに格納される。図8Aはラベルデータの一例を示している。図8Aの例では、音声データD(n)に含まれる各音素(無音状態を含む)がそれらの開始時間と終了時間との組に対応付けられている。ラベルデータの付与は人手によって行われてもよいし、特開2004−77901等に開示された方法に従ってコンピュータによって自動的に行われてもよい。 In this embodiment, label data (phoneme segmentation information) is associated with each of the voice data D (n), and a multi-speaker voice DB composed of the voice data D (n) and the label data is a multi-speaker voice DB storage unit. 111a. FIG. 8A shows an example of label data. In the example of FIG. 8A, each phoneme (including a silent state) included in the audio data D (n) is associated with a set of their start time and end time. The label data may be assigned manually or automatically by a computer according to a method disclosed in Japanese Patent Application Laid-Open No. 2004-77901.
特徴量抽出部112bは、多数話者音声DB記憶部111aに格納された音声データD(n)(n=1,...,N)の特徴F(k)(k=1,...,K、K≧2)を表す特徴量F(k,n)を抽出する(ステップS12)。特徴量F(k,n)は、音声データD(n)それぞれの複数の特徴F(k)について抽出される。説明の便宜上、本形態の特徴量F(k,n)は、特徴F(k)と音声データD(n)との組と一対一に対応するものとする。音声データD(n)の特徴F(k)についての特徴量が所定の区間(例えばフレームやサブバンド等)ごとに抽出される場合、特徴F(k)と音声データD(n)との組に対応するすべての特徴量の集合を「特徴量F(k,n)」と表記する。例えば、音声データD(1)の特徴F(1)についての特徴量がフレームごとに抽出される場合、複数のフレームに対して抽出された特徴F(1)と音声データD(1)との組に対応するすべての特徴量の集合を「特徴量F(1,1)」と表記する。抽出された特徴量F(k,n)は、対応する特徴F(k)と音声データD(n)との組に対応付けられて、特徴量DB記憶部111bに格納される。以下に特徴量の具体例を示す。
(特徴量1)音声データのケプストラム(例えばメルケプストラム)。
(特徴量2)帯域を制限した音声データD(n)のスペクトルより得られるケプストラム(例えば帯域を4kHzに制限する等)。
(特徴量3)音声データの各帯域での周期成分と非周期成分の割合を表す非周期性指標。
(特徴量4)音声データの全帯域のスペクトルのパワーに対する各帯域のスペクトルのパワーの比。全帯域のスペクトルのパワーに対するi番目の帯域のスペクトルのパワーの比BSPiは、例えば以下の式により求められる。
BSPi=mean(speci)/mean(specall)
ここで、BSPiはi番目の帯域のパワー比であり、specallは全帯域のスペクトルのパワー、speciはi番目の帯域のスペクトルのパワーである。mean(α)はαの平均値を算出する関数である。帯域の例は、0-1 kHz(i=1), 1-2 kHz(i=2), 2-4 kHz(i=3), 4-6 kHz(i=4), 6-8 kHz(i=5)である。
(特徴量5)音声データの話者間の声道長正規化(VTLN: Vocal Tract Length Normalization)のためのワーピングパラメータ(例えば、「E. Eide, “A Parametric Approach to Vocal Tract Length Normalization,” In Proceedings of the International Conference on Acoustics,. Speech and Signal Processing, pp. 346-348, 1996.」等参照)。
The feature
(Feature 1) A cepstrum of voice data (for example, mel cepstrum).
(Feature 2) A cepstrum obtained from the spectrum of audio data D (n) whose band is limited (for example, the band is limited to 4 kHz).
(Characteristic 3) A non-periodic index indicating the ratio of the periodic component and the non-periodic component in each band of the audio data.
(Feature 4) The ratio of the spectrum power of each band to the spectrum power of the entire band of audio data. The ratio BSP i of the spectrum power of the i-th band to the spectrum power of the entire band can be obtained by the following equation, for example.
BSP i = mean (spec i ) / mean (spec all )
Here, BSP i is the power ratio of the i-th band, spec all is the spectrum power of the entire band, and spec i is the power of the spectrum of the i-th band. mean (α) is a function for calculating the average value of α. Examples of bands are 0-1 kHz (i = 1), 1-2 kHz (i = 2), 2-4 kHz (i = 3), 4-6 kHz (i = 4), 6-8 kHz ( i = 5).
(Feature 5) Warping parameters for vocal tract length normalization (VTLN: Vocal Tract Length Normalization) between voice data (for example, “E. Eide,“ A Parametric Approach to Vocal Tract Length Normalization, ”In Proceedings of the International Conference on Acoustics, Speech and Signal Processing, pp. 346-348, 1996.
これらの特徴量1〜5はすべて音声の類似性に寄与するものである。しかしながら、特徴量1,2は、その特徴量の変換による合成音声の自然性低下への影響が大きい。すなわち、特徴量1,2では、変換前の特徴量から得られる合成音声の自然性に対する、変換後の特徴量から得られる合成音声の自然性の低下度合いが大きい。一方、特徴量3〜5は、その特徴量の変換による合成音声の自然性低下への影響が小さい。すなわち、特徴量3〜5では、変換前の特徴量から得られる合成音声の自然性に対する、変換後の特徴量から得られる合成音声の自然性の低下度合いが小さい。言い換えると、特徴量1,2よりも特徴量3〜5のほうが、特徴量の変換による合成音声の自然性低下への影響が小さい。本形態の特徴F(k)(k=1,...,K、K≧2)は、特徴量の変換による合成音声の自然性低下への影響が互いに相違する複数の特徴を含む。すなわち、本形態の特徴量F(k,n)(k=1,...,K、K≧2)は、特徴量の変換による合成音声の自然性低下への影響が大きい特徴量(例えば、特徴量1,2)と、特徴量の変換による合成音声の自然性低下への影響が小さい特徴量(例えば、特徴量3〜5)とを含む。
なお自然性低下への影響が小さい特徴とは、以下に示す2つの特徴のうち、いずれかを有する特徴量である。
1.ある話者の音声データの特徴量〔スペクトル(ケプストラム)等〕が、1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタ(例えば後述のFILi)等の簡易なフィルタで、異なる話者の音声データの特徴量〔スペクトル(ケプストラム)等〕に変換可能である(例えば、特徴量4,特徴量5)。すなわち、この特徴量F(k,n)は、1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタ等の簡易なフィルタで、特徴量F(k,n’)(n’∈{1,...,N}、n≠ n’)に変換可能である。
2.音声データ(周波数領域の音声データ)の周波数軸上の全帯域での平均パワーが類似性に影響を与える特徴量(例えば、特徴量3)。すなわち、特徴量間の類似度が当該特徴量のそれぞれに対応する音声データの周波数軸上の全帯域での平均パワーの類似度に対応する。
These feature amounts 1 to 5 all contribute to the similarity of speech. However, the
The feature having a small influence on the decrease in naturalness is a feature amount having one of the following two features.
1. A feature amount [spectrum (cepstrum), etc.] of a speaker's voice data is a first-order all-pass function, a high-frequency emphasis filter, a filter (for example, FIL i described later) representing a spectral power ratio of voice data of different speakers, etc. With a simple filter, it can be converted into a feature amount [spectrum (cepstrum) or the like] of voice data of different speakers (for example, feature amount 4 and feature amount 5). That is, the feature value F (k, n) is a simple filter such as a first-order all-pass function, a high-frequency emphasis filter, a filter representing the spectral power ratio of voice data of different speakers, and the feature value F (k, n). ') (N'ε {1, ..., N}, n ≠ n').
2. A feature amount (for example, feature amount 3) in which the average power in the entire band on the frequency axis of the sound data (frequency region sound data) affects the similarity. That is, the similarity between the feature amounts corresponds to the similarity of the average power in the entire band on the frequency axis of the audio data corresponding to each of the feature amounts.
クラスタリング部112cは、特徴量DB記憶部111bに格納された特徴量F(k,n)を特徴F(k)ごとに独立にクラスタリングし、特徴F(k)ごとにJ(k)個のクラスタCF(k,j(k))(k=1,...,K、j(k)=1,...,J(k)、J(k)≧2)を設定する。言い換えると、クラスタリング部112cは、特徴量F(1,n)(n=1,...,N)をクラスタリングしてJ(1)個のクラスタCF(1,j(1))(j(1)=1,...,J(1))を設定し、特徴量F(2,n)(n=1,...,N)をクラスタリングしてJ(2)個のクラスタCF(2,j(2))(j(2)=1,...,J(2))を設定し、・・・特徴量F(K,n)(n=1,...,N)をクラスタリングしてJ(K)個のクラスタCF(K,j(K))(j(K)=1,...,J(K))を設定する(ステップS13)。
The
特徴量抽出部112bでフレームごとに特徴量が抽出される場合、特徴と音声データとの組に対応する特徴量の集合(フレーム単位で得られた特徴量からなる集合)をそのままサンプルとして用いてクラスタリングを行っても、適切なクラスタが生成されない場合が多い。そのような場合には、例えば、特徴量抽出部112bで得られた特徴量の集合から各母音に対応する特徴量を抽出し、特徴と音声データとからなる組ごとに当該集合での各母音の特徴量の平均値を求め、各母音に対応する特徴量の平均値を要素とする話者ベクトルをサンプルとしてクラスタリングを行ってもよい。例えば、各フレームで得られた特徴F(k’)と音声データD(n’)との組に対応する特徴量の集合から各母音に対応する特徴量を抽出し、特徴F(k’)と音声データD(n’)との組ごとに当該集合での母音ごとの特徴量の平均値を求め、各母音に対応する特徴量の平均値を要素とする話者ベクトルを、当該特徴F(k’)と音声データD(n’)との組に対応する特徴量のサンプルとしてクラスタリングを行ってもよい。その他、特徴と音声データとの各組に対応する特徴量の集合から得られるGaussian mixture model (GMM)のスーパーベクトル(例えば、「W. M. Campbell, “Support Vector Machines Using GMM Supervectors for Speaker Verification,” IEEE SIGNAL PROCESSING LETTERS, VOL. 13, NO. 5, pp.308-311, May 2006」等参照)等をサンプルとしてクラスタリングを行ってもよい。クラスタリングアルゴリズムとしては、k-means法やLBG法といった一般的に使用されている手法を使用できる。
When the feature amount is extracted for each frame by the feature
クラスタリングの結果、各特徴量F(k,n)は何れかのクラスタCF(k,j(k,n))に属する。すなわち、音声データD(n)それぞれのK個の特徴量F(k,n)は、何れかK個のクラスタCF(k,j(k,n))(k=1,...,K、j(k,n)=1,...,J(k)、J(k,n)≧2)に属する。言い換えると、音声データD(n)それぞれのK個の特徴量F(k,n)の組み合わせは、何れかK個のクラスタCF(k,j(k,n))の組み合わせに対応する。K個のクラスタCF(k,j(k,n))(k=1,...,K)の組み合わせを「多次元クラスタ」と呼び、以下のように表記する。
C(j(1,n),...,j(K,n))
=(CF(1,j(1,n)),...,CF(K,j(K,n)))
As a result of clustering, each feature amount F (k, n) belongs to one of the clusters CF (k, j (k, n)). That is, the K feature values F (k, n) of each of the audio data D (n) are set to any K clusters CF (k, j (k, n)) (k = 1,..., K). , J (k, n) = 1,..., J (k), J (k, n) ≧ 2). In other words, the combination of K feature values F (k, n) of each of the audio data D (n) corresponds to a combination of any K clusters CF (k, j (k, n)). A combination of K clusters CF (k, j (k, n)) (k = 1,..., K) is called a “multidimensional cluster” and is expressed as follows.
C (j (1, n), ..., j (K, n))
= (CF (1, j (1, n)), ..., CF (K, j (K, n)))
図8Bは、K=2,J(1)=J(2)=5の場合のクラスタリング結果を例示するための図である。図8Bの例では、2個のクラスタCF(1,j(1,n)),CF(2,j(2,n))からなる組、すなわち多次元クラスタC(j(1,n),j(2,n))が5×5の表として表記されている。各列(縦)が特徴量F(1,n)をクラスタリングして得られるクラスタCF(1,j(1,n))を表し、各行(横)が特徴量F(2,n)をクラスタリングして得られるクラスタCF(2,j(2,n))を表す。図8Bの黒点は音声データD(n)の2個の特徴量F(1,n),F(2,n)の組を表す。黒点の行方向(横方向)の座標が音声データD(n)の特徴量F(1,n)を表し、列方向(縦方向)の座標が音声データD(n)の特徴量F(2,n)を表す。図8Bの例では、音声データD(n)それぞれの2個の特徴量F(1,n),F(2,n)が、何れか2個のクラスタCF(1,j(1,n)),CF(2,j(2,n))からなる多次元クラスタC(j(1,n),j(2,n))にそれぞれ属する。例えば、音声データD(α)の特徴量F(1,α)はクラスタCF(1,5)に属し、特徴量F(2,α)はクラスタCF(2,1)に属し、音声データD(α)の2個の特徴量F(1,α),F(2,α)の組み合わせが多次元クラスタC(5,1)=(CF(1,5),CF(2,1))に属する。なお、図8Bでは2種類の特徴量のそれぞれについてクラスタリングが行われた結果を2次元の表として表記したが、K種類の特徴量のそれぞれについてクラスタリングが行われた場合にはJ(1)×・・・×J(K)のK次元の表で表記できる。 FIG. 8B is a diagram for illustrating the clustering result when K = 2, J (1) = J (2) = 5. In the example of FIG. 8B, a set of two clusters CF (1, j (1, n)) and CF (2, j (2, n)), that is, a multidimensional cluster C (j (1, n), j (2, n)) is represented as a 5 × 5 table. Each column (vertical) represents a cluster CF (1, j (1, n)) obtained by clustering the feature amount F (1, n), and each row (horizontal) clustered the feature amount F (2, n). Represents the cluster CF (2, j (2, n)). The black dots in FIG. 8B represent a set of two feature amounts F (1, n) and F (2, n) of the audio data D (n). The coordinates of the black dots in the row direction (horizontal direction) represent the feature amount F (1, n) of the audio data D (n), and the coordinates in the column direction (vertical direction) represent the feature amount F (2) of the audio data D (n). , N). In the example of FIG. 8B, the two feature amounts F (1, n) and F (2, n) of each of the audio data D (n) are converted into any two clusters CF (1, j (1, n). ), CF (2, j (2, n)) belong to a multidimensional cluster C (j (1, n), j (2, n)). For example, the feature value F (1, α) of the voice data D (α) belongs to the cluster CF (1,5), the feature value F (2, α) belongs to the cluster CF (2,1), and the voice data D The combination of the two feature values F (1, α) and F (2, α) of (α) is a multidimensional cluster C (5,1) = (CF (1,5), CF (2,1)) Belonging to. In FIG. 8B, the result of clustering for each of the two types of feature values is represented as a two-dimensional table. However, when clustering is performed for each of the K types of feature values, J (1) × ... can be expressed as a K-dimensional table of × J (K).
すべてのクラスタCF(k,j(k))を表す情報と、クラスタCF(k,j(k))のそれぞれに属する特徴量F(k,n)を表す情報とが対応付けられてクラスタ情報DB記憶部111cに格納される。これらの情報により、音声データD(n)それぞれのK個の特徴量F(k,n)の組み合わせが何れのK個のクラスタCF(k,j(k,n))の組み合わせに属するかを特定できる。
Cluster information is obtained by associating information representing all the clusters CF (k, j (k)) with information representing the feature amount F (k, n) belonging to each of the clusters CF (k, j (k)). Stored in the
変換関数学習部112dは、クラスタ情報DB記憶部111cに格納された情報を用い、特徴F(k)ごとに独立に、クラスタCF(k,j(k))に属する特徴量を別のクラスタCF(k,j’(k))に属する特徴量に変換する変換関数fk,j(k),j’(k)(k=1,...,K,j(k)≠j’(k))を学習(生成)する。変換関数fk,j(k),j’(k)は、クラスタCF(k,j(k))に属するすべての特徴量をクラスタCF(k,j’(k))に属する特徴量に変換するものであってもよいし、クラスタCF(k,j(k))に属する少なくとも一部の特徴量をクラスタCF(k,j’(k))に属する特徴量に変換するものであってもよい。図9Aは、クラスタCF(2,5)に属するすべての特徴量をCF(2,3)に属する特徴量へ変換する変換関数f2,5,3を例示する。変換関数学習部112dは、すべての特徴F(k)(k=1,...,K)について変換関数fk,j(k),j’(k)を生成することにしてもよいし、特徴量の変換による合成音声の自然性低下への影響が小さい特徴F(k)のみについて変換関数fk,j(k),j’(k)を生成することにしてもよい。本形態では、すべての特徴F(k)(k=1,...,K)について変換関数fk,j(k),j’(k)を生成する例を説明する。生成された変換関数fk,j(k),j’(k)は変換関数DB記憶部111dに格納される(ステップS14)。
The conversion
変換関数fk,j(k),j’(k)の学習法の一例として、両クラスタCF(k,j(k)),CF(k,j’(k))の代表値の差を使用する方法を説明する。この方法の場合、まず変換関数学習部112dは、クラスタCF(k,j(k)),CF(k,j’(k))にそれぞれ含まれる全特徴量を用いて、各クラスタCF(k,j(k)),CF(k,j’(k))の各代表値を求める。クラスタの代表値の例は、そのクラスタに属する全特徴量の平均値や中央値等である。次に変換関数学習部112dは、各クラスタCF(k,j(k)),CF(k,j’(k))の各代表値を用い、以下のように変換関数fk,j(k),j’(k)を生成する。
fk,j(k),j’(k)(ν)=ν+(cent(CF(k,j’(k))-cent(CF(k,j(k)))
ここでcent(β)はクラスタβの代表値を求める関数を表し、νはクラスタCF(k,j(k))に属する任意の特徴量(ベクトル等)を表す。
As an example of a learning method of the conversion function f k, j (k), j ′ (k) , a difference between representative values of both clusters CF (k, j (k)) and CF (k, j ′ (k)) is calculated. The method used is described. In the case of this method, first, the conversion
f k, j (k), j ′ (k) (ν) = ν + (cent (CF (k, j ′ (k)) − cent (CF (k, j (k)))
Here, cent (β) represents a function for obtaining a representative value of the cluster β, and ν represents an arbitrary feature amount (vector or the like) belonging to the cluster CF (k, j (k)).
その他、クラスタごとに統計モデル(HMM: Hidden Markov Model)を学習して、変換先のクラスタの特徴量を用い、非特許文献1の話者適応手法により、変換関数fk,j(k),j’(k)が学習されてもよい。この手法では、まずクラスタ毎にクラスタ内に存在する話者の特徴量を用いてHMMを学習する。学習した変換元のクラスタのHMMと変換先のクラスタの特徴量とを用いて、変換元のクラスタのHMMを変換先のクラスタへ変換するための回帰行列W(非特許文献1の式(4))を最尤推定により求める。この回帰行列Wは変換関数fk,j(k),j’(k)に相当する。すべての話者の音声データD(n)(n=1,...,N)が同一テキストを発話して得られたものなのであれば、GMMによる特徴量変換関数を変換関数fk,j(k),j’(k)として学習することも可能である(例えば、参考文献1「A. Kain and M.W. Macon, “Spectral voice conversion for text-to-speech synthesis,” 1998 ICASSP, pp.285-288, 1998.」等参照)。この手法では、まず2名の話者の同一発話の特徴量からGMMを学習する。変換関数fk,j(k),j’(k)は、学習したGMMの平均ベクトル、共分散行列により得られる。一般的に、この手法は2名の話者の音声を変換するための手法であるが、クラスタ内には複数名の話者が存在する場合がある。そのため、GMMの学習データとして、各クラスタに対応する話者の音声データの特徴量の組合せを用いてGMMを学習する。例えば、クラスタCF(k,j(k))に属する特徴量に対応する話者がA,Bの2名であり、クラスタCF(k,j’(k))に属する特徴量に対応する話者がA’,B’の2名であった場合、以下の4通りの特徴量の組み合わせが学習データとされる。
(1)話者Aの音声データの特徴量と話者A’の音声データの特徴量との組み合わせ。
(2)話者Aの音声データの特徴量と話者B’の音声データの特徴量との組み合わせ。
(3)話者Bの音声データの特徴量と話者A’の音声データの特徴量との組み合わせ。
(4)話者Bの音声データの特徴量と話者B’の音声データの特徴量との組み合わせ。
この手法では参考文献1の式(5)が変換関数fk,j(k),j’(k)となる。
In addition, by learning a statistical model (HMM: Hidden Markov Model) for each cluster and using the feature amount of the cluster at the conversion destination, the conversion function f k, j (k), j ′ (k) may be learned. In this method, the HMM is first learned for each cluster using the speaker's feature value existing in the cluster. A regression matrix W for converting the HMM of the conversion source cluster into the conversion destination cluster using the learned HMM of the conversion source cluster and the feature amount of the conversion destination cluster (Equation (4) of Non-Patent Document 1) ) By maximum likelihood estimation. This regression matrix W corresponds to the conversion function f k, j (k), j ′ (k) . If speech data D (n) (n = 1,..., N) of all speakers are obtained by uttering the same text, the feature value conversion function by GMM is converted to the conversion function f k, j. (k), j ′ (k) can also be used for learning (for example,
(1) A combination of the feature amount of the speech data of the speaker A and the feature amount of the speech data of the speaker A ′.
(2) A combination of the feature amount of the speech data of the speaker A and the feature amount of the speech data of the speaker B ′.
(3) A combination of the feature amount of the speech data of the speaker B and the feature amount of the speech data of the speaker A ′.
(4) A combination of the feature amount of the speech data of the speaker B and the feature amount of the speech data of the speaker B ′.
In this method, Equation (5) in
図6を用いて、変換関数fk,j(k),j’(k)の生成手順を例示する。図6の例では、j’(k)=1,...,J(k)について変換関数fk,j(k),j’(k)を学習する処理をj(k)=1,...,J(k)について行うループ処理を、k=1,...,Kのループ処理として実行する(ステップS141〜S147)。この例ではj(k)=j’(k)の変換関数fk,j(k),j’(k)も生成されるが、j(k)=j’(k)の変換関数fk,j(k),j’(k)は生成されなくてもよい。 A procedure for generating the conversion functions f k, j (k), j ′ (k) will be exemplified with reference to FIG. In the example of FIG. 6, j ′ (k) = 1,. . . , J (k), the process of learning the conversion function f k, j (k), j ′ (k) is j (k) = 1,. . . , J (k), k = 1,. . . , K loop processing (steps S141 to S147). In this example, a conversion function f k, j (k), j ′ (k) of j (k) = j ′ (k) is also generated, but a conversion function f k of j (k) = j ′ (k) is generated. , j (k), j ′ (k) may not be generated.
<目標話者学習処理>
目標話者学習処理では、入力された目標話者の音声データからその話者のモデルを学習する。以下、図5Bに従って本形態の目標話者学習処理を説明する。
目標話者の音声が収録され、目標話者の音声を表す音声データD(T)(T≠1,...,N)が目標話者学習部120(図3)の目標話者音声記憶部121aに格納される。本形態では、目標話者と音声データD(T)とが一対一で対応する(ステップS21)。
<Target speaker learning process>
In the target speaker learning process, a model of the speaker is learned from the input target speaker's voice data. Hereinafter, the target speaker learning process of this embodiment will be described with reference to FIG. 5B.
Voice of the target speaker is recorded, and voice data D (T) (T ≠ 1,..., N) representing the voice of the target speaker is stored in the target speaker voice storage of the target speaker learning unit 120 (FIG. 3). Stored in the
特徴量抽出部122bは、目標話者音声記憶部121aに格納された音声データD(T)から、K個の特徴F(k)(k=1,...,K)を表す特徴量F(k,T)(k=1,...,K)を抽出し、特徴量記憶部121bに格納する(ステップS22)。
The feature
クラスタ選択部122cは、特徴量記憶部121bに格納された目標話者の音声データD(T)の特徴量F(k,T)を用い、ステップS13で設定されたクラスタCF(k,j(k))から、目標話者の音声データD(T)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択する。選択されたK個のクラスタCF(k,j(k,T))の組み合わせからなる多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))を表す情報は、所属クラスタ記憶部121cに格納される(ステップS23)。
The
特徴量F(k,T)が属するクラスタCF(k,j(k,T))の選択は特徴F(k)ごとに独立に行われ、最終的にK個の特徴量F(k,T)の組み合わせが属する多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))が選択される。図9Bの例の場合、目標話者の音声データD(T)の2個の特徴量F(1,T),F(2,T)はそれぞれクラスタCF(1,1),CF(2,3)に属し、特徴量F(1,T),F(2,T)の組み合わせが多次元クラスタC(1,3)=(CF(1,1),CF(2,3))に属している。 The selection of the cluster CF (k, j (k, T)) to which the feature value F (k, T) belongs is performed independently for each feature F (k), and finally K feature values F (k, T). ) Of the multidimensional cluster C (j (1, T),..., J (K, T)) = (CF (1, j (1, T)),. j (K, T))) is selected. In the case of the example of FIG. 9B, the two feature amounts F (1, T) and F (2, T) of the target speaker's voice data D (T) are represented by clusters CF (1, 1) and CF (2, 3), and the combination of the feature values F (1, T) and F (2, T) belongs to the multidimensional cluster C (1, 3) = (CF (1, 1), CF (2, 3)). ing.
クラスタの選択手法としては、例えば、目標話者の音声データD(T)のK個の特徴量F(k,T)からステップS13と同様に話者ベクトルを算出し、話者ベクトルとの距離が最も近い代表値を持つクラスタを選択する手法や、入力された特徴量が各クラスタに属する確率を出力するGMM等の統計モデルをクラスタごとに学習しておき、目標話者の音声データD(T)の各特徴量F(k,T)を当該統計モデルに入力して各特徴量F(k,T)が属する確率が最も高い(尤度が最も高い)クラスタをCF(k,j(k,T))として選択する手法等がある。 As a cluster selection method, for example, a speaker vector is calculated from the K feature values F (k, T) of the target speaker's voice data D (T) in the same manner as in step S13, and the distance from the speaker vector is calculated. A method for selecting a cluster having the closest representative value and a statistical model such as GMM that outputs the probability that the input feature value belongs to each cluster are learned for each cluster, and voice data D ( Each feature value F (k, T) of T) is input to the statistical model, and a cluster having the highest probability (highest likelihood) to which each feature value F (k, T) belongs is designated CF (k, j ( k, T)).
話者選択部122dは、話者クラスタリング部110(図3)の多数話者音声DB記憶部111aに格納されたN人の話者の音声データD(n)(n=1,...,N)から、所属クラスタ記憶部121cに格納されたK個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択し、選択した音声データD(S)を表す情報を選択話者記憶部121dに格納する(ステップS24)。
The
話者選択部122dは、例えば、以下のように音声データD(S)を選択する。
(1)N人の話者の音声データD(n)に音声データD(S’)が1個のみ含まれる場合、話者選択部122dは、当該音声データD(S’)を音声データD(S)とする。ただし、「音声データD(S’)」は、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))を構成するK個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データを表す。
(2)N人の話者の音声データD(n)に上記音声データD(S’)が複数含まれる場合、話者選択部122dは、これら複数の音声データD(S’)から選択された1個を音声データD(S)とする。
(3)N人の話者の音声データD(n)に上記音声データD(S’)が含まれない場合、話者選択部122dは、K個のクラスタCF(k,j(k,T))の組み合わせと異なるK個のクラスタCF(k,j(k,S”))(k=1,...,K、j(k,S”)=1,...,J(k))の組み合わせをなす、K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)を、音声データD(S)として選択する。
For example, the
(1) When only one voice data D (S ′) is included in the voice data D (n) of N speakers, the
(2) When the voice data D (n) of N speakers includes a plurality of the voice data D (S ′), the
(3) If the voice data D (S ′) is not included in the voice data D (n) of N speakers, the
次に図7を用いて音声データD(S)の選択手法を例示する。
話者選択部122dは、特徴量DB記憶部111bに格納された各音声データD(n)の特徴量を参照し、多数話者音声DB記憶部111aに格納されたN人の話者の音声データD(n)(n=1,...,N)のうち、所属クラスタ記憶部121cに格納されたK個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)の個数をカウントする。言い換えると、話者選択部122dは、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)の個数をカウントする(ステップS241)。
Next, a method for selecting the audio data D (S) will be illustrated with reference to FIG.
The
上記のN人の話者の音声データD(n)が上記の音声データD(S’)を1個のみ含む場合、話者選択部122dは当該1個の音声データD(S’)を音声データD(S)として選択する(ステップS242)。
When the voice data D (n) of the N speakers includes only one voice data D (S ′), the
上記のN人の話者の音声データD(n)が上記の音声データD(S’)を2個以上含む場合、話者選択部122dは当該音声データD(S’)の何れかを音声データD(S)として選択する。この例の話者選択部122dは、各音声データD(S’)の特徴量F(k,S’)(k=1,...,K)と目標話者の音声データD(T)の特徴量F(k,T)(k=1,...,K)との類似度(距離)を算出し(ステップS243)、類似度が最も高い(最も近い)特徴量F(k,S’)を持つ音声データD(S’)を、音声データD(S)として選択する(ステップS244)。
When the voice data D (n) of the N speakers includes two or more voice data D (S ′), the
上記のN人の話者の音声データD(n)が上記の音声データD(S’)を含まない場合、話者選択部122dは、以下の条件1,2を満たす、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))に最も近い、1個の多次元クラスタC(j(1,S”),...,j(K,S”))=(CF(1,j(1,S”)),...,CF(K,j(K,S”)))を選択する。多次元クラスタ間の距離の比較は、例えば、各多次元クラスタを構成するK個のクラスタの代表値を要素として並べたベクトル間の距離を多次元クラスタ間の距離として行われる。
[条件1]多次元クラスタC(j(1,S”),...,j(K,S”))を構成するK個のクラスタCF(k,j(k,S”))(k=1,...,K)に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)がN人の話者の音声データD(n)(n=1,...,N)に含まれる。
[条件2]多次元クラスタC(j(1,T),...,j(K,T))を構成するK個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(w,T))(w∈{1,...,K})と、多次元クラスタC(j(1,S”),...,j(K,S”))を構成するK個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(w,S”))とが等しい。ただし、特徴f(w)(w∈{1,...,K})は、特徴量の変換による合成音声の自然性低下への影響が大きい特徴(例えば、前述の特徴量1,2)であり、その他の特徴f(r)(r∈{1,...,K},r≠w)は、特徴量の変換による合成音声の自然性低下への影響が小さい特徴(例えば、前述の特徴量3〜5)である(ステップS245)。
図9B及び図9Cの例において、特徴F(1)が特徴量の変換による合成音声の自然性低下への影響が大きい特徴であり、特徴F(2)が特徴量の変換による合成音声の自然性低下への影響が小さい特徴であるとする。この場合、話者選択部122dは、条件1,2を満たす多次元クラスタC(1,1),C(1,2),C(1,5)のうち、多次元クラスタC(1,3)に最も近いC(1,5)を選択する。
When the voice data D (n) of the N speakers does not include the voice data D (S ′), the
[Condition 1] K clusters CF (k, j (k, S ″)) (k constituting the multidimensional cluster C (j (1, S ″),..., J (K, S ″))) = 1,..., K) speech data D (S ″) having K feature values F (k, S ″) (k = 1,. It is included in the audio data D (n) (n = 1,..., N).
[Condition 2] K clusters CF (k, j (k, T)) (k = 1, constituting the multidimensional cluster C (j (1, T),..., J (K, T))) .., K) includes some clusters CF (w, j ( w , T)) (wε {1,..., K}) and multidimensional clusters C (j (1, S ″)). ,..., J (K, S ″)) that are included in K clusters CF (k, j (k, S ″)) (k = 1,..., K). (W, j ( w , S ")) is equal. However, the feature f (w) (wε {1,..., K}) is a feature (for example, the above-described feature amounts 1 and 2) that greatly affects the naturalness of synthesized speech due to the feature amount conversion. And the other features f (r) (rε {1,..., K}, r ≠ w) are features that have a small influence on the deterioration of the naturalness of the synthesized speech due to the feature amount conversion (for example, Feature amounts 3 to 5) (step S245).
In the examples of FIGS. 9B and 9C, the feature F (1) is a feature that has a great influence on the natural speech degradation due to the feature amount conversion, and the feature F (2) is the naturalness of the synthesized speech due to the feature amount conversion. It is assumed that this is a feature that has a small effect on the decline in performance. In this case, the
話者選択部122dは当該音声データD(S”)の何れかを音声データD(S)として選択する。この例の話者選択部122dは、各音声データD(S”)の特徴量F(k,S”)(k=1,...,K)と目標話者の音声データD(T)の特徴量F(k,T)(k=1,...,K)との類似度(距離)を算出し(ステップS246)、類似度が最も高い(最も近い)特徴量F(k,S”)を持つ音声データD(S”)を、音声データD(S)として選択する(ステップS247)。
The
制御部140(図1)は、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))に対応する音声データD(S)が存在しなかったかを判定する。言い換えると、制御部140は、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))と、ステップS24で選択された音声データD(S)のK個の特徴量F(k,S)が属する多次元クラスタC(j(1,),...,j(K,))とが異なるか(図7の例では、ステップS245〜S247が実行されたか)を判定する(ステップS25)。
The control unit 140 (FIG. 1) has voice data D (S) corresponding to the multidimensional cluster C (j (1, T),..., J (K, T)) selected in step S23. Determine if there was no. In other words, the
ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))に対応する音声データD(S)が存在した場合、目標話者学習処理が終了する。この場合、ステップS24で選択された音声データD(S)の特徴量(「目標話者の特徴量」となる)、音声データD(S)及びそのラベルデータ等、又は、目標話者の特徴量に対応するHMMなどの統計モデルが、音声合成部130での目標話者の音声合成処理に利用される。
If the speech data D (S) corresponding to the multidimensional cluster C (j (1, T),..., J (K, T)) selected in step S23 exists, the target speaker learning process ends. To do. In this case, the feature amount of the speech data D (S) selected in step S24 (becomes “target speaker feature amount”), speech data D (S) and its label data, or the feature of the target speaker. A statistical model such as an HMM corresponding to the amount is used for speech synthesis processing of the target speaker in the
ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))に対応する音声データD(S)が存在しなかった場合、特徴量変換部122e(図3)が以下の特徴量変換処理を実行する。
特徴量変換部122eは、変換関数fr,j(r,S),j(r,T)を用い、ステップS24で選択された音声データD(S)のK個の特徴量F(k,S)のうちクラスタCF(r,j(r,S))に属する一部の特徴量F(r,S)(r∈{1,...,K})を、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))を構成するK個のクラスタCF(1,j(1,T)),...,CF(K,j(K,T))の一部のクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量TF(r,S)に変換する。特徴量F(r,S)は、特徴量の変換による合成音声の自然性低下の影響が小さいものである(例えば、前述の特徴量3〜5を表す特徴量)。以上により、目標話者の音声の特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)が得られる。図9Cの例の場合、特徴量変換部122eは、変換関数f2,5,3を用い、ステップS24で選択された音声データD(S)の2個の特徴量F(1,S),F(2,S)のうち、クラスタCF(2,5)に属する一部の特徴量F(2,S)を、ステップS23で選択された多次元クラスタC(1,3)を構成する2個のクラスタCF(1,1),CF(2,3)の一部のクラスタCF(2,3)に属する特徴量TF(2,S)に変換する。これにより、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)が得られる。得られた特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)、音声データD(S)及びそのラベルデータ等、又は、特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)に対応するHMMなどの統計モデルは、音声合成部130での目標話者の音声合成処理に利用される。変換された特徴量TF(r,S)は、特徴量の変換による合成音声の自然性低下の影響が小さいが、音声の類似性には寄与する。よって、このように音声データD(S)の特徴量の一部を変換したものを目標話者の音声の特徴量とし、それを含む情報を音声合成処理に利用することで、自然性を低下させることなく目標話者の音声を合成できる(ステップS26)。特徴量4,5は、スペクトル(ケプストラム)より得られる特徴量であるため、音声を合成する際には、これらの特徴量を用いて合成音声のスペクトル(ケプストラム)が変換される。スペクトル(ケプストラム)の変換は特徴量によって異なり、声道長正規化のワーピングパラメータが特徴量である場合(特徴量5)、1次オールパス関数を用いて合成音声のケプストラムが変換される。各帯域のスペクトルのパワー比が特徴量である場合(特徴量4)、変換前後のスペクトルパワー比から得られる各帯域のフィルタFILiを用いて、合成音声のスペクトルを変換する。
FILi=BSP’i/BSPi
ただし、BSPiは変換前のi番目の帯域のパワー比であり、BSP’iは変換後のi番目の帯域のパワー比である。変換後のi番目の帯域のスペクトルは、変換前のi番目の帯域のスペクトルにFILiを乗ずることにより得られる。
If the audio data D (S) corresponding to the multidimensional cluster C (j (1, T),..., J (K, T)) selected in step S23 does not exist, the feature
The feature
FIL i = BSP ' i / BSP i
Where BSP i is the power ratio of the i-th band before conversion, and BSP ′ i is the power ratio of the i-th band after conversion. The spectrum of the i-th band after conversion is obtained by multiplying the spectrum of the i-th band before conversion by FIL i .
<音声合成処理>
音声合成処理部130は、目標話者学習部120で得られた目的話者の特徴量、音声データ及びラベルデータ等、又は、当該特徴量から得られるHMMなどの統計モデル等を用い、公知の波形接続型音声合成方式(例えば「特許2761552」「特開2009−122381」等参照)、又は、HMM音声合成方式(例えば「益子貴史,徳田恵一,小林隆夫,今井聖,“動的特徴を用いたHMMに基づく音声合成,” 信学論(D-II),vol.J79-D-II, no.12, pp.2184-2190, 1996.」等参照)等に従い、入力されたテキストに対応する目標話者の音声を合成する。
<Speech synthesis processing>
The speech
図4を用い、目標話者学習部120で得られた特徴量、音声データ及びラベルデータ等を含む目標話者の音声データベースTDBを用い、波形接続型音声合成方式に従って音声合成を行う例を示す。図4の例の場合、入力されたテキスト(Text)がテキスト記憶部131aに格納され、テキスト解析部132bがテキスト記憶部131aに記憶されたテキストを読み込み、このテキストを形態素解析し、テキストに対応したコンテキスト情報(読み、アクセント等の情報)を生成し、これをコンテキスト記憶部131bに格納する。
FIG. 4 shows an example in which speech synthesis is performed according to a waveform-connected speech synthesis method using a target speaker speech database TDB including feature amounts, speech data, label data, and the like obtained by the target
韻律生成部132dは、韻律モデルDB記憶部131cに格納された韻律モデルを用い、コンテキスト記憶部131bに格納されたコンテキスト情報に対応する韻律パラメータ(F0パターン、音素継続時間長、パワー情報等)を生成(推定)し、これを韻律パラメータ記憶部131dに格納する。
The
素片選択部132eには、コンテキスト記憶部131bから読み出したコンテキスト情報、韻律パラメータ記憶部131dから読み出した韻律パラメータ、目標話者学習部120で得られた目標話者の音声データベースTDBが入力される。素片選択部132eは、例えば、音声データベースTDBの音声データ及びラベルデータから特定される各音声素片を音声素片候補とし、公知の素片選択方式に従って、コンテキスト情報及び韻律パラメータに対する各音声素片候補の評価コストを求め、評価コストが最良となる音声素片候補を音声素片として抽出する。例えば、参考文献2「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9」に記載された各サブコスト関数の線形和からなる評価コストが用いられる場合には、評価コストが最小となる音声素片候補が音声素片として選択される。さらに素片選択部132eは、公知の素片接続方式に従い、韻律パラメータと音声データベースTDBの音声データの特徴量とを用い、抽出した各音声素片に対応する音声データを接続して目標話者の合成音声Voiceを生成する。特徴量が変換されている場合は、抽出した各音声素片に対応する音声データを接続するのではなく、変換された特徴量(スペクトル、非周期性指標等)から得られる音声データを接続し、目標話者の合成音声Voiceを生成する。生成された合成音声Voiceは合成音声記憶部131eに格納され、必要に応じて読み出されて出力される。
The
<変形例等>
本発明は上述の実施の形態に限定されるものではない。例えば、上記実施形態のステップS26では、音声データD(S)のK個の特徴量F(k,S)のうち、特徴量の変換による合成音声の自然性低下の影響が小さい特徴量F(r,S)のみを特徴量TF(r,S)に変換することとした。しかしながら、音声データD(S)のK個の特徴量F(k,S)のうち、特徴量の変換による合成音声の自然性の影響は多少大きいが音声の類似性への寄与度が大きい特徴量のみを変換する等、用途に応じて変換する特徴量が選択されることとしてもよい。また上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
<Modifications>
The present invention is not limited to the above-described embodiment. For example, in step S26 of the above embodiment, among the K feature amounts F (k, S) of the speech data D (S), the feature amount F () that is less affected by the reduced naturalness of the synthesized speech due to the feature amount conversion. Only r, S) is converted to the feature quantity TF (r, S). However, out of the K feature values F (k, S) of the audio data D (S), the natural speech effect due to the feature value conversion is somewhat large, but the contribution to the similarity of the audio is large. A feature quantity to be converted may be selected depending on the application, such as converting only the quantity. The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capacity of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 When the above configuration is realized by a computer, the processing contents of the functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer. The program describing the processing contents can be recorded on a computer-readable recording medium. An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like. This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads the program stored in its own recording device and executes the process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
上記の実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In the above embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
1 音声合成装置
110 話者クラスタリング部
120 目標話者学習部
130 音声合成部
1
Claims (8)
設定された前記クラスタCF(k,j(k))から、目標話者の音声データD(T)(T≠1,...,N)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択するクラスタ選択ステップと、
前記N人の話者の音声データD(n)から、前記K個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択する話者選択ステップと、
前記音声データD(S)のK個の特徴量F(k,S)(k=1,...,K)が属するK個のクラスタCF(k,j(k,S))(k=1,...,K、j(k,S)=1,...,J(k))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが異なる場合に、変換関数を用い、前記K個の特徴量F(k,S)の一部の特徴量F(r,S)(r∈{1,...,K})を特徴量TF(r,S)に変換し、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得る特徴量変換ステップと、
前記K個のクラスタCF(k,j(k,S))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが等しい場合に、前記特徴量F(k,S)を前記目標話者の特徴量とする設定ステップと、を有し、
前記音声データD(S)は、前記K個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データ、または、K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データであり、前記K個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(w,T))(w∈{1,...,K}、w≠r)と、前記K個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(w,S”))とが等しく、
前記変換関数は、前記特徴量F(r,S)が属する前記クラスタCF(r,j(r,S))に属する特徴量を、前記K個の特徴量F(k,T)の一部の特徴量F(r,T)が属するクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量に変換するものである、目標話者学習方法。 Represents feature F (k) (k = 1,..., K, K ≧ 2) of speech data D (n) (n = 1,..., N, N ≧ 2) of N speakers. The feature quantity F (k, n) is clustered independently for each feature F (k), so that J (k) clusters CF (k, j (k)) ( k = 1,..., K, j (k) = 1,..., J (k), J (k) ≧ 2), and K features of each of the audio data D (n) The quantity F (k, n) is any K clusters CF (k, j (k, n)) (k = 1,..., K, j (k, n) = 1,. (K), J (k, n) ≧ 2)
From the set cluster CF (k, j (k)), K feature values F (k, T) () of the speech data D (T) (T ≠ 1,..., N) of the target speaker. k clusters CF (k, j (k, T)) (k = 1,..., K, j (k, T) = 1,. , J (k)) a cluster selection step for selecting a combination,
A speaker selection step of selecting speech data D (S) corresponding to a combination of the K clusters CF (k, j (k, T)) from the speech data D (n) of the N speakers; ,
K clusters CF (k, j (k, S)) (k =) to which K feature values F (k, S) (k = 1,..., K) of the audio data D (S) belong. 1, ..., K, j (k, S) = 1, ..., J (k)) and the combination of the K clusters CF (k, j (k, T)). If they are different, a conversion function is used to convert a partial feature quantity F (r, S) (rε {1,..., K}) of the K feature quantities F (k, S) to the feature quantity TF. (R, S) to obtain K feature values F (k ′, S) (k′∈ {1,..., K}, k ′ ≠ r), TF (r, S) A quantity conversion step;
When the combination of the K clusters CF (k, j (k, S)) is equal to the combination of the K clusters CF (k, j (k, T)), the feature amount F (k , S) as a feature amount of the target speaker,
The voice data D (S) includes K feature values F (k, S ′) (k = 1,..., K) belonging to the K clusters CF (k, j (k, T)). Or K feature quantities F (k, S ″) (k = 1,..., K) belonging to K clusters CF (k, j (k, S ″)). A part of the clusters CF (w, j (w, T)) (K = 1,..., K) that are voice data and included in the K clusters CF (k, j (k, T)) (k = 1,. w∈ {1,..., K}, w ≠ r) and a part included in the K clusters CF (k, j (k, S ″)) (k = 1,..., K) Cluster CF (w, j (w, S ″)) is equal to
The conversion function converts a feature quantity belonging to the cluster CF (r, j (r, S)) to which the feature quantity F (r, S) belongs to a part of the K feature quantities F (k, T). Belong to the cluster CF (r, j (r, T)) [CF (r, j (r, T)) ≠ CF (r, j (r, S))] A target speaker learning method for converting into feature values.
前記一部の特徴量F(r,S)は、
1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタの何れかで、異なる話者の音声データD(s’)(s’∈{1,...,N}、s’≠S)の特徴量F(r,s’)に変換可能な特徴量、及び、前記音声データD(S)の周波数軸上の全帯域での平均パワーが類似性に影響を与える特徴量の何れかを含む、目標話者学習方法。 The target speaker learning method according to claim 1,
The partial feature amount F (r, S) is:
The voice data D (s ′) (s′∈ {1,..., Different speaker's voice data among the first-order all-pass function, high-frequency emphasis filter, and filter representing the spectral power ratio of voice data of different speakers. N}, s ′ ≠ S) that can be converted into a feature quantity F (r, s ′), and the average power in the entire band on the frequency axis of the audio data D (S) affects the similarity. A target speaker learning method including any one of the feature quantities for providing
前記一部の特徴量F(r,S)は、前記音声データD(S)の非周期性指標、前記音声データD(S)の全帯域のスペクトルのパワーに対する各帯域のスペクトルのパワーの比、又は前記音声データD(S)の声道長正規化のためのワーピングパラメータを表す、目標話者学習方法。 The target speaker learning method according to claim 1 or 2,
The partial feature amount F (r, S) is an aperiodic index of the audio data D (S), and a ratio of spectrum power in each band to spectrum power in the entire band of the audio data D (S). Or a target speaker learning method representing warping parameters for normalizing the vocal tract length of the speech data D (S).
前記話者選択ステップは、
前記N人の話者の音声データD(n)が、前記K個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)を含まない場合に、前記K個のクラスタCF(k,j(k,T))の組み合わせと異なるK個のクラスタCF(k,j(k,S”))(k=1,...,K、j(k,S”)=1,...,J(k))の組み合わせをなす、前記K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)(S”∈{1,...,N})を、前記音声データD(S)として選択するステップを含む、目標話者学習方法。 The target speaker learning method according to any one of claims 1 to 3,
The speaker selection step includes:
The voice data D (n) of the N speakers has K feature values F (k, S ′) (k = 1, belonging to the K clusters CF (k, j (k, T)). K clusters CF (k, j) that are different from the combination of the K clusters CF (k, j (k, T)) when the speech data D (S ′) having. (K, S ″)) (k = 1,..., K, j (k, S ″) = 1,..., J (k)). , J (k, S ″)) and K pieces of feature data F (k, S ″) (k = 1,..., K), speech data D (S ″) (S ″ ∈ {1, .., N}) as the speech data D (S).
前記K個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(k,T))(w∈{1,...,K}、w≠r)と、前記K個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(k,S”))とが等しい、目標話者学習方法。 The target speaker learning method according to claim 4,
A part of the clusters CF (w, j (k, T)) (wε {1, k) included in the K clusters CF (k, j (k, T)) (k = 1,..., K). , K}, w ≠ r) and some clusters CF (w) included in the K clusters CF (k, j (k, S ″)) (k = 1,..., K). , J (k, S ″)) is equal to the target speaker learning method.
前記話者選択ステップは、
前記N人の話者の音声データD(n)が前記音声データD(S’)を1個のみ含む場合に、当該音声データD(S’)を前記音声データD(S)とするステップと、
前記N人の話者の音声データD(n)が前記音声データD(S’)を複数個含む場合に、前記音声データD(S’)から選択された1個を前記音声データD(S)とするステップとを含む、目標話者学習方法。 The target speaker learning method according to claim 4, wherein:
The speaker selection step includes:
The voice data D (n) of the N speakers includes only one voice data D (S ′), the voice data D (S ′) is set as the voice data D (S); ,
When the voice data D (n) of the N speakers includes a plurality of the voice data D (S ′), one selected from the voice data D (S ′) is used as the voice data D (S ′). And a step of learning a target speaker.
設定された前記クラスタCF(k,j(k))から、目標話者の音声データD(T)(T≠1,...,N)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択するクラスタ選択部と、
前記N人の話者の音声データD(n)から、前記K個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択する話者選択部と、
前記音声データD(S)のK個の特徴量F(k,S)(k=1,...,K)が属するK個のクラスタCF(k,j(k,S))(k=1,...,K、j(k,S)=1,...,J(k))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが異なる場合に、変換関数を用い、前記K個の特徴量F(k,S)の一部の特徴量F(r,S)(r∈{1,...,K})を特徴量TF(r,S)に変換し、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得る特徴量変換部と、
前記K個のクラスタCF(k,j(k,S))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが等しい場合に、前記特徴量F(k,S)を前記目標話者の特徴量とする設定部と、を有し、
前記音声データD(S)は、前記K個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データ、または、K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データであり、前記K個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(w,T))(w∈{1,...,K}、w≠r)と、前記K個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(w,S”))とが等しく、
前記変換関数は、前記特徴量F(r,S)が属する前記クラスタCF(r,j(r,S))に属する特徴量を、前記K個の特徴量F(k,T)の一部の特徴量F(r,T)が属するクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量に変換するものである、目標話者学習装置。 Represents feature F (k) (k = 1,..., K, K ≧ 2) of speech data D (n) (n = 1,..., N, N ≧ 2) of N speakers. The feature quantity F (k, n) is clustered independently for each feature F (k), so that J (k) clusters CF (k, j (k)) ( k = 1,..., K, j (k) = 1,..., J (k), J (k) ≧ 2), and K features of each of the audio data D (n) The quantity F (k, n) is any K clusters CF (k, j (k, n)) (k = 1,..., K, j (k, n) = 1,. (K), J (k, n) ≧ 2)
From the set cluster CF (k, j (k)), K feature values F (k, T) () of the speech data D (T) (T ≠ 1,..., N) of the target speaker. k clusters CF (k, j (k, T)) (k = 1,..., K, j (k, T) = 1,. , J (k)), a cluster selection unit for selecting a combination,
A speaker selection unit for selecting speech data D (S) corresponding to a combination of the K clusters CF (k, j (k, T)) from the speech data D (n) of the N speakers; ,
K clusters CF (k, j (k, S)) (k =) to which K feature values F (k, S) (k = 1,..., K) of the audio data D (S) belong. 1, ..., K, j (k, S) = 1, ..., J (k)) and the combination of the K clusters CF (k, j (k, T)). If they are different, a conversion function is used to convert a partial feature quantity F (r, S) (rε {1,..., K}) of the K feature quantities F (k, S) to the feature quantity TF. (R, S) to obtain K feature values F (k ′, S) (k′∈ {1,..., K}, k ′ ≠ r), TF (r, S) A quantity converter,
When the combination of the K clusters CF (k, j (k, S)) is equal to the combination of the K clusters CF (k, j (k, T)), the feature amount F (k , S) and a setting unit that sets the target speaker's feature amount as a feature amount,
The voice data D (S) includes K feature values F (k, S ′) (k = 1,..., K) belonging to the K clusters CF (k, j (k, T)). Or K feature quantities F (k, S ″) (k = 1,..., K) belonging to K clusters CF (k, j (k, S ″)). A part of the clusters CF (w, j (w, T)) (K = 1,..., K) that are voice data and included in the K clusters CF (k, j (k, T)) (k = 1,. w∈ {1,..., K}, w ≠ r) and a part included in the K clusters CF (k, j (k, S ″)) (k = 1,..., K) Cluster CF (w, j (w, S ″)) is equal to
The conversion function converts a feature quantity belonging to the cluster CF (r, j (r, S)) to which the feature quantity F (r, S) belongs to a part of the K feature quantities F (k, T). Belong to the cluster CF (r, j (r, T)) [CF (r, j (r, T)) ≠ CF (r, j (r, S))] A target speaker learning device for converting into a feature value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011256042A JP5689782B2 (en) | 2011-11-24 | 2011-11-24 | Target speaker learning method, apparatus and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011256042A JP5689782B2 (en) | 2011-11-24 | 2011-11-24 | Target speaker learning method, apparatus and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109274A JP2013109274A (en) | 2013-06-06 |
JP5689782B2 true JP5689782B2 (en) | 2015-03-25 |
Family
ID=48706057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011256042A Expired - Fee Related JP5689782B2 (en) | 2011-11-24 | 2011-11-24 | Target speaker learning method, apparatus and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5689782B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6121273B2 (en) * | 2013-07-10 | 2017-04-26 | 日本電信電話株式会社 | Speech learning model learning device, speech synthesizer, and methods and programs thereof |
JP2018155774A (en) * | 2017-03-15 | 2018-10-04 | 株式会社東芝 | Voice synthesizer, voice synthesis method and program |
WO2020145353A1 (en) * | 2019-01-10 | 2020-07-16 | グリー株式会社 | Computer program, server device, terminal device, and speech signal processing method |
JP6821727B2 (en) * | 2019-02-27 | 2021-01-27 | シナノケンシ株式会社 | Text data voice playback device and text data voice playback program |
JP6821728B2 (en) * | 2019-02-27 | 2021-01-27 | シナノケンシ株式会社 | Text data voice playback device and text data voice playback program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
JP2973805B2 (en) * | 1993-12-10 | 1999-11-08 | 日本電気株式会社 | Standard pattern creation device |
JP2007178686A (en) * | 2005-12-27 | 2007-07-12 | Matsushita Electric Ind Co Ltd | Speech converter |
JP4241736B2 (en) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | Speech processing apparatus and method |
JP4996156B2 (en) * | 2006-07-19 | 2012-08-08 | 旭化成株式会社 | Audio signal converter |
-
2011
- 2011-11-24 JP JP2011256042A patent/JP5689782B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013109274A (en) | 2013-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9830904B2 (en) | Text-to-speech device, text-to-speech method, and computer program product | |
US8234110B2 (en) | Voice conversion method and system | |
JP5768093B2 (en) | Speech processing system | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
JP4328698B2 (en) | Fragment set creation method and apparatus | |
JP5106371B2 (en) | Method and apparatus for verification of speech authentication, speaker authentication system | |
US20140114663A1 (en) | Guided speaker adaptive speech synthesis system and method and computer program product | |
US9972300B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
WO2002101719A1 (en) | Voice recognition apparatus and voice recognition method | |
JP5689782B2 (en) | Target speaker learning method, apparatus and program thereof | |
JPH11242494A (en) | Speaker adaptation device and voice recognition device | |
JP4829477B2 (en) | Voice quality conversion device, voice quality conversion method, and voice quality conversion program | |
US10008216B2 (en) | Method and apparatus for exemplary morphing computer system background | |
JP3189598B2 (en) | Signal combining method and signal combining apparatus | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
JP2012141354A (en) | Method, apparatus and program for voice synthesis | |
JP6594251B2 (en) | Acoustic model learning device, speech synthesizer, method and program thereof | |
En-Najjary et al. | A voice conversion method based on joint pitch and spectral envelope transformation. | |
JP4922225B2 (en) | Speech recognition apparatus and speech recognition program | |
JP5376643B2 (en) | Speech synthesis apparatus, method and program | |
JP5268731B2 (en) | Speech synthesis apparatus, method and program | |
KR101078293B1 (en) | Method of voice conversion based on gaussian mixture model using kernel principal component analysis | |
Eslami et al. | Quality improvement of voice conversion systems based on trellis structured vector quantization | |
JPH10254473A (en) | Method and device for voice conversion | |
KR101890303B1 (en) | Method and apparatus for generating singing voice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5689782 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |