JP2013109274A - 目標話者学習方法、その装置及びプログラム - Google Patents

目標話者学習方法、その装置及びプログラム Download PDF

Info

Publication number
JP2013109274A
JP2013109274A JP2011256042A JP2011256042A JP2013109274A JP 2013109274 A JP2013109274 A JP 2013109274A JP 2011256042 A JP2011256042 A JP 2011256042A JP 2011256042 A JP2011256042 A JP 2011256042A JP 2013109274 A JP2013109274 A JP 2013109274A
Authority
JP
Japan
Prior art keywords
feature
clusters
data
speech
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011256042A
Other languages
English (en)
Other versions
JP5689782B2 (ja
Inventor
Yusuke Ijima
勇祐 井島
Mitsuaki Isogai
光昭 磯貝
Hideyuki Mizuno
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011256042A priority Critical patent/JP5689782B2/ja
Publication of JP2013109274A publication Critical patent/JP2013109274A/ja
Application granted granted Critical
Publication of JP5689782B2 publication Critical patent/JP5689782B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】目的話者の合成音声の自然性劣化を抑制する。
【解決手段】事前に得られた複数話者の音声データの特徴量が特徴ごとに独立にクラスタリングされることで、特徴ごとに複数個のクラスタが設定される。目標話者の音声データの特徴量の組み合わせが属するクラスタの組み合わせが選択され、それに対応する音声データが複数話者の音声データから選択される。目標話者の音声データの特徴量の組み合わせが属するクラスタの組み合わせと、選択された音声データの特徴量の組み合わせがクラスタの組み合わせとが異なる場合に、選択された音声データの特徴量の一部の特徴量を変換する。
【選択図】図3

Description

本発明は、所望の話者の音声を合成するための技術に関する。
これまで、所望の話者の少量の音声データからその話者の音声を合成すること(任意話者音声合成)を目的として、モデル変換に基づく話者適応手法が提案されている(例えば、非特許文献1等参照)。従来の話者適応手法では、音声合成を行おうとする話者(目標話者)の音声を用い、あらかじめ学習された初期モデルを目標話者の適応モデルへ変換する。得られた目標話者の適応モデルを用いて音声合成を行うことで任意話者音声合成が実現される。
一方、これまで知覚実験の結果より、音声処理で一般的に使用されている特徴量であるケプストラム以外にも複数の音響特徴量が音声の類似性に寄与することが報告されている(例えば、非特許文献2等参照)。
田村他,"HMMに基づく音声合成におけるピッチ・スペクトルの話者適応",信学論,vol.J85-D-II,no.4,pp.545-553,April 2002. 井島他,"声質類似性知覚と音響特徴量との相関分析",音講論(秋),3-Q-13,pp.383-384,Sep. 2011.
従来の話者適応手法では、あらかじめ用意した音声データのケプストラム(特徴量)に対応する初期モデルを、目標話者の音声のケプストラムに対応する適応モデルに変換し、この適応モデルを用いて目標話者の音声合成を行っている。しかしながら、初期モデルを目標話者の音声のケプストラムに対応する適応モデルに変換することにより、合成音声の品質(自然性)が劣化することが課題となる。
本発明では、N人の話者の音声データD(n)(n=1,...,N、N≧2)の特徴F(k)(k=1,...,K、K≧2)を表す特徴量F(k,n)が特徴F(k)ごとに独立にクラスタリングされることで、特徴F(k)ごとにJ(k)個のクラスタCF(k,j(k))(k=1,...,K、j(k)=1,...,J(k)、J(k)≧2)が設定される。これにより、音声データD(n)それぞれのK個の特徴量F(k,n)がいずれかK個のクラスタCF(k,j(k,n))(k=1,...,K、j(k,n)=1,...,J(k)、J(k,n)≧2)に属する。
設定されたクラスタCF(k,j(k))から、目標話者の音声データD(T)(T≠1,...,N)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択する。さらにN人の話者の音声データD(n)から、K個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択する。
音声データD(S)のK個の特徴量F(k,S)(k=1,...,K)が属するK個のクラスタCF(k,j(k,S))(k=1,...,K、j(k,S)=1,...,J(k))の組み合わせと、K個のクラスタCF(k,j(k,T))の組み合わせとが異なる場合に、変換関数を用い、K個の特徴量F(k,S)の一部の特徴量F(r,S)(r∈{1,...,K})を特徴量TF(r,S)に変換し、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得る。ただし、この変換関数は、特徴量F(r,S)が属するクラスタCF(r,j(r,S))に属する特徴量を、K個の特徴量F(k,T)の一部の特徴量F(r,T)が属するクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量に変換する。
本発明では、音声データD(S)のK個の特徴量F(k,S)の一部の特徴量F(r,S)のみを特徴量TF(r,S)に変換し、目標話者の音声合成のためのK個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得るため、変換される特徴量の種別に応じ、変換による自然性の劣化の影響を制御できる。
図1は、実施形態の音声合成装置を説明するためのブロック図である。 図2は、実施形態の話者クラスタリング部を説明するためのブロック図である。 図3は、実施形態の目標話者学習部を説明するためのブロック図である。 図4は、実施形態の音声合成部を説明するためのブロック図である。 図5Aは、実施形態の話者クラスタリング処理を説明するためのフローチャートであり、図5Bは、実施形態の目標話者学習処理を説明するためのフローチャートである。 図6は、実施形態の変換関数学習処理を説明するためのフローチャートである。 図7は、実施形態の話者選択処理を説明するためのフローチャートである。 図8Aは、実施形態のラベルデータを説明するための図であり、図8Bは、実施形態の多次元クラスタを例示した図である。 図9Aは、実施形態の変換関数学習処理を説明するための図であり、図9Bは、実施形態の多次元クラスタの選択処理を説明するための図であり、図9Cは、実施形態の特徴量変換処理を説明するための図である。
図面を参照して実施形態を説明する。
<構成>
図1に例示するように、本形態の音声合成装置1は、話者クラスタリング部110、目標話者学習部120、音声合成部130、及び制御部140を有する。話者クラスタリング部110、目標話者学習部120、及び音声合成部130は、制御部140の制御のもとで各処理を実行する。音声合成装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれることで構成される特別な装置である。
図2に例示するように、本形態の話者クラスタリング部110は、多数話者音声DB(データベース)記憶部111a、特徴量音声DB記憶部111b、クラスタ情報DB記憶部111c、変換関数DB記憶部111d、特徴量抽出部112b、クラスタリング部112c、及び変換関数学習部112dを有する。
図3に例示するように、本形態の目標話者学習部120は、目標話者音声記憶部121a、特徴量記憶部121b、所属クラスタ記憶部121c、選択話者記憶部121d、目標話者DB記憶部121e、特徴量抽出部122b、クラスタ選択部122c、話者選択部122d、及び特徴量変換部122eを有する。
図4に例示するように、本形態の音声合成部130は、テキスト記憶部131a、コンテキスト記憶部131b、韻律モデルDB記憶部131c、韻律パラメータ記憶部131d、合成音声記憶部131e、テキスト解析部132b、韻律生成部132d、及び素片選択部132eを有する。
<話者クラスタリング処理>
話者クラスタリング処理では、多数話者の音声データそれぞれの特徴量がクラスタリングされ、クラスタに属する特徴量を他のクラスタの特徴量に変換する変換関数が学習される。以下、図5Aに従って本形態の話者クラスタリング処理を説明する。
N人(N≧2)の話者(多数話者)の音声が事前に収録され、各話者音声を表す音声データD(n)(n=1,...,N)が多数話者音声DB記憶部111a(図2)に格納される(ステップS11)。本形態では、話者と音声データD(n)とが一対一で対応する。目標話者学習部120及び音声合成部130での処理性能の観点から、音声データD(n)は以下の要件を満たすことが望ましい。ただし、これらの条件は本発明を限定しない。
(1)1名あたりの音声データ量(無音区間を除いた音声区間の時間)は、音声合成用のモデルを学習可能な時間以上である。音声合成用のモデルを学習可能な時間は、使用される音声合成方式によって異なる。例えば、素片選択型音声合成方式が用いられる場合、各話者について数時間程度の音声データが必要である。
(2)音声が収録される話者数Nは、性別ごとに最低でも数十名以上である。
本形態では、音声データD(n)のそれぞれにラベルデータ(音素セグメンテーション情報)が対応付けられ、音声データD(n)とラベルデータからなる多数話者の音声DBが多数話者音声DB記憶部111aに格納される。図8Aはラベルデータの一例を示している。図8Aの例では、音声データD(n)に含まれる各音素(無音状態を含む)がそれらの開始時間と終了時間との組に対応付けられている。ラベルデータの付与は人手によって行われてもよいし、特開2004−77901等に開示された方法に従ってコンピュータによって自動的に行われてもよい。
特徴量抽出部112bは、多数話者音声DB記憶部111aに格納された音声データD(n)(n=1,...,N)の特徴F(k)(k=1,...,K、K≧2)を表す特徴量F(k,n)を抽出する(ステップS12)。特徴量F(k,n)は、音声データD(n)それぞれの複数の特徴F(k)について抽出される。説明の便宜上、本形態の特徴量F(k,n)は、特徴F(k)と音声データD(n)との組と一対一に対応するものとする。音声データD(n)の特徴F(k)についての特徴量が所定の区間(例えばフレームやサブバンド等)ごとに抽出される場合、特徴F(k)と音声データD(n)との組に対応するすべての特徴量の集合を「特徴量F(k,n)」と表記する。例えば、音声データD(1)の特徴F(1)についての特徴量がフレームごとに抽出される場合、複数のフレームに対して抽出された特徴F(1)と音声データD(1)との組に対応するすべての特徴量の集合を「特徴量F(1,1)」と表記する。抽出された特徴量F(k,n)は、対応する特徴F(k)と音声データD(n)との組に対応付けられて、特徴量DB記憶部111bに格納される。以下に特徴量の具体例を示す。
(特徴量1)音声データのケプストラム(例えばメルケプストラム)。
(特徴量2)帯域を制限した音声データD(n)のスペクトルより得られるケプストラム(例えば帯域を4kHzに制限する等)。
(特徴量3)音声データの各帯域での周期成分と非周期成分の割合を表す非周期性指標。
(特徴量4)音声データの全帯域のスペクトルのパワーに対する各帯域のスペクトルのパワーの比。全帯域のスペクトルのパワーに対するi番目の帯域のスペクトルのパワーの比BSPiは、例えば以下の式により求められる。
BSPi=mean(speci)/mean(specall)
ここで、BSPiはi番目の帯域のパワー比であり、specallは全帯域のスペクトルのパワー、speciはi番目の帯域のスペクトルのパワーである。mean(α)はαの平均値を算出する関数である。帯域の例は、0-1 kHz(i=1), 1-2 kHz(i=2), 2-4 kHz(i=3), 4-6 kHz(i=4), 6-8 kHz(i=5)である。
(特徴量5)音声データの話者間の声道長正規化(VTLN: Vocal Tract Length Normalization)のためのワーピングパラメータ(例えば、「E. Eide, “A Parametric Approach to Vocal Tract Length Normalization,” In Proceedings of the International Conference on Acoustics,. Speech and Signal Processing, pp. 346-348, 1996.」等参照)。
これらの特徴量1〜5はすべて音声の類似性に寄与するものである。しかしながら、特徴量1,2は、その特徴量の変換による合成音声の自然性低下への影響が大きい。すなわち、特徴量1,2では、変換前の特徴量から得られる合成音声の自然性に対する、変換後の特徴量から得られる合成音声の自然性の低下度合いが大きい。一方、特徴量3〜5は、その特徴量の変換による合成音声の自然性低下への影響が小さい。すなわち、特徴量3〜5では、変換前の特徴量から得られる合成音声の自然性に対する、変換後の特徴量から得られる合成音声の自然性の低下度合いが小さい。言い換えると、特徴量1,2よりも特徴量3〜5のほうが、特徴量の変換による合成音声の自然性低下への影響が小さい。本形態の特徴F(k)(k=1,...,K、K≧2)は、特徴量の変換による合成音声の自然性低下への影響が互いに相違する複数の特徴を含む。すなわち、本形態の特徴量F(k,n)(k=1,...,K、K≧2)は、特徴量の変換による合成音声の自然性低下への影響が大きい特徴量(例えば、特徴量1,2)と、特徴量の変換による合成音声の自然性低下への影響が小さい特徴量(例えば、特徴量3〜5)とを含む。
なお自然性低下への影響が小さい特徴とは、以下に示す2つの特徴のうち、いずれかを有する特徴量である。
1.ある話者の音声データの特徴量〔スペクトル(ケプストラム)等〕が、1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタ(例えば後述のFILi)等の簡易なフィルタで、異なる話者の音声データの特徴量〔スペクトル(ケプストラム)等〕に変換可能である(例えば、特徴量4,特徴量5)。すなわち、この特徴量F(k,n)は、1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタ等の簡易なフィルタで、特徴量F(k,n’)(n’∈{1,...,N}、n≠ n’)に変換可能である。
2.音声データ(周波数領域の音声データ)の周波数軸上の全帯域での平均パワーが類似性に影響を与える特徴量(例えば、特徴量3)。すなわち、特徴量間の類似度が当該特徴量のそれぞれに対応する音声データの周波数軸上の全帯域での平均パワーの類似度に対応する。
クラスタリング部112cは、特徴量DB記憶部111bに格納された特徴量F(k,n)を特徴F(k)ごとに独立にクラスタリングし、特徴F(k)ごとにJ(k)個のクラスタCF(k,j(k))(k=1,...,K、j(k)=1,...,J(k)、J(k)≧2)を設定する。言い換えると、クラスタリング部112cは、特徴量F(1,n)(n=1,...,N)をクラスタリングしてJ(1)個のクラスタCF(1,j(1))(j(1)=1,...,J(1))を設定し、特徴量F(2,n)(n=1,...,N)をクラスタリングしてJ(2)個のクラスタCF(2,j(2))(j(2)=1,...,J(2))を設定し、・・・特徴量F(K,n)(n=1,...,N)をクラスタリングしてJ(K)個のクラスタCF(K,j(K))(j(K)=1,...,J(K))を設定する(ステップS13)。
特徴量抽出部112bでフレームごとに特徴量が抽出される場合、特徴と音声データとの組に対応する特徴量の集合(フレーム単位で得られた特徴量からなる集合)をそのままサンプルとして用いてクラスタリングを行っても、適切なクラスタが生成されない場合が多い。そのような場合には、例えば、特徴量抽出部112bで得られた特徴量の集合から各母音に対応する特徴量を抽出し、特徴と音声データとからなる組ごとに当該集合での各母音の特徴量の平均値を求め、各母音に対応する特徴量の平均値を要素とする話者ベクトルをサンプルとしてクラスタリングを行ってもよい。例えば、各フレームで得られた特徴F(k’)と音声データD(n’)との組に対応する特徴量の集合から各母音に対応する特徴量を抽出し、特徴F(k’)と音声データD(n’)との組ごとに当該集合での母音ごとの特徴量の平均値を求め、各母音に対応する特徴量の平均値を要素とする話者ベクトルを、当該特徴F(k’)と音声データD(n’)との組に対応する特徴量のサンプルとしてクラスタリングを行ってもよい。その他、特徴と音声データとの各組に対応する特徴量の集合から得られるGaussian mixture model (GMM)のスーパーベクトル(例えば、「W. M. Campbell, “Support Vector Machines Using GMM Supervectors for Speaker Verification,” IEEE SIGNAL PROCESSING LETTERS, VOL. 13, NO. 5, pp.308-311, May 2006」等参照)等をサンプルとしてクラスタリングを行ってもよい。クラスタリングアルゴリズムとしては、k-means法やLBG法といった一般的に使用されている手法を使用できる。
クラスタリングの結果、各特徴量F(k,n)は何れかのクラスタCF(k,j(k,n))に属する。すなわち、音声データD(n)それぞれのK個の特徴量F(k,n)は、何れかK個のクラスタCF(k,j(k,n))(k=1,...,K、j(k,n)=1,...,J(k)、J(k,n)≧2)に属する。言い換えると、音声データD(n)それぞれのK個の特徴量F(k,n)の組み合わせは、何れかK個のクラスタCF(k,j(k,n))の組み合わせに対応する。K個のクラスタCF(k,j(k,n))(k=1,...,K)の組み合わせを「多次元クラスタ」と呼び、以下のように表記する。
C(j(1,n),...,j(K,n))
=(CF(1,j(1,n)),...,CF(K,j(K,n)))
図8Bは、K=2,J(1)=J(2)=5の場合のクラスタリング結果を例示するための図である。図8Bの例では、2個のクラスタCF(1,j(1,n)),CF(2,j(2,n))からなる組、すなわち多次元クラスタC(j(1,n),j(2,n))が5×5の表として表記されている。各列(縦)が特徴量F(1,n)をクラスタリングして得られるクラスタCF(1,j(1,n))を表し、各行(横)が特徴量F(2,n)をクラスタリングして得られるクラスタCF(2,j(2,n))を表す。図8Bの黒点は音声データD(n)の2個の特徴量F(1,n),F(2,n)の組を表す。黒点の行方向(横方向)の座標が音声データD(n)の特徴量F(1,n)を表し、列方向(縦方向)の座標が音声データD(n)の特徴量F(2,n)を表す。図8Bの例では、音声データD(n)それぞれの2個の特徴量F(1,n),F(2,n)が、何れか2個のクラスタCF(1,j(1,n)),CF(2,j(2,n))からなる多次元クラスタC(j(1,n),j(2,n))にそれぞれ属する。例えば、音声データD(α)の特徴量F(1,α)はクラスタCF(1,5)に属し、特徴量F(2,α)はクラスタCF(2,1)に属し、音声データD(α)の2個の特徴量F(1,α),F(2,α)の組み合わせが多次元クラスタC(5,1)=(CF(1,5),CF(2,1))に属する。なお、図8Bでは2種類の特徴量のそれぞれについてクラスタリングが行われた結果を2次元の表として表記したが、K種類の特徴量のそれぞれについてクラスタリングが行われた場合にはJ(1)×・・・×J(K)のK次元の表で表記できる。
すべてのクラスタCF(k,j(k))を表す情報と、クラスタCF(k,j(k))のそれぞれに属する特徴量F(k,n)を表す情報とが対応付けられてクラスタ情報DB記憶部111cに格納される。これらの情報により、音声データD(n)それぞれのK個の特徴量F(k,n)の組み合わせが何れのK個のクラスタCF(k,j(k,n))の組み合わせに属するかを特定できる。
変換関数学習部112dは、クラスタ情報DB記憶部111cに格納された情報を用い、特徴F(k)ごとに独立に、クラスタCF(k,j(k))に属する特徴量を別のクラスタCF(k,j’(k))に属する特徴量に変換する変換関数fk,j(k),j’(k)(k=1,...,K,j(k)≠j’(k))を学習(生成)する。変換関数fk,j(k),j’(k)は、クラスタCF(k,j(k))に属するすべての特徴量をクラスタCF(k,j’(k))に属する特徴量に変換するものであってもよいし、クラスタCF(k,j(k))に属する少なくとも一部の特徴量をクラスタCF(k,j’(k))に属する特徴量に変換するものであってもよい。図9Aは、クラスタCF(2,5)に属するすべての特徴量をCF(2,3)に属する特徴量へ変換する変換関数f2,5,3を例示する。変換関数学習部112dは、すべての特徴F(k)(k=1,...,K)について変換関数fk,j(k),j’(k)を生成することにしてもよいし、特徴量の変換による合成音声の自然性低下への影響が小さい特徴F(k)のみについて変換関数fk,j(k),j’(k)を生成することにしてもよい。本形態では、すべての特徴F(k)(k=1,...,K)について変換関数fk,j(k),j’(k)を生成する例を説明する。生成された変換関数fk,j(k),j’(k)は変換関数DB記憶部111dに格納される(ステップS14)。
変換関数fk,j(k),j’(k)の学習法の一例として、両クラスタCF(k,j(k)),CF(k,j’(k))の代表値の差を使用する方法を説明する。この方法の場合、まず変換関数学習部112dは、クラスタCF(k,j(k)),CF(k,j’(k))にそれぞれ含まれる全特徴量を用いて、各クラスタCF(k,j(k)),CF(k,j’(k))の各代表値を求める。クラスタの代表値の例は、そのクラスタに属する全特徴量の平均値や中央値等である。次に変換関数学習部112dは、各クラスタCF(k,j(k)),CF(k,j’(k))の各代表値を用い、以下のように変換関数fk,j(k),j’(k)を生成する。
k,j(k),j’(k)(ν)=ν+(cent(CF(k,j’(k))-cent(CF(k,j(k)))
ここでcent(β)はクラスタβの代表値を求める関数を表し、νはクラスタCF(k,j(k))に属する任意の特徴量(ベクトル等)を表す。
その他、クラスタごとに統計モデル(HMM: Hidden Markov Model)を学習して、変換先のクラスタの特徴量を用い、非特許文献1の話者適応手法により、変換関数fk,j(k),j’(k)が学習されてもよい。この手法では、まずクラスタ毎にクラスタ内に存在する話者の特徴量を用いてHMMを学習する。学習した変換元のクラスタのHMMと変換先のクラスタの特徴量とを用いて、変換元のクラスタのHMMを変換先のクラスタへ変換するための回帰行列W(非特許文献1の式(4))を最尤推定により求める。この回帰行列Wは変換関数fk,j(k),j’(k)に相当する。すべての話者の音声データD(n)(n=1,...,N)が同一テキストを発話して得られたものなのであれば、GMMによる特徴量変換関数を変換関数fk,j(k),j’(k)として学習することも可能である(例えば、参考文献1「A. Kain and M.W. Macon, “Spectral voice conversion for text-to-speech synthesis,” 1998 ICASSP, pp.285-288, 1998.」等参照)。この手法では、まず2名の話者の同一発話の特徴量からGMMを学習する。変換関数fk,j(k),j’(k)は、学習したGMMの平均ベクトル、共分散行列により得られる。一般的に、この手法は2名の話者の音声を変換するための手法であるが、クラスタ内には複数名の話者が存在する場合がある。そのため、GMMの学習データとして、各クラスタに対応する話者の音声データの特徴量の組合せを用いてGMMを学習する。例えば、クラスタCF(k,j(k))に属する特徴量に対応する話者がA,Bの2名であり、クラスタCF(k,j’(k))に属する特徴量に対応する話者がA’,B’の2名であった場合、以下の4通りの特徴量の組み合わせが学習データとされる。
(1)話者Aの音声データの特徴量と話者A’の音声データの特徴量との組み合わせ。
(2)話者Aの音声データの特徴量と話者B’の音声データの特徴量との組み合わせ。
(3)話者Bの音声データの特徴量と話者A’の音声データの特徴量との組み合わせ。
(4)話者Bの音声データの特徴量と話者B’の音声データの特徴量との組み合わせ。
この手法では参考文献1の式(5)が変換関数fk,j(k),j’(k)となる。
図6を用いて、変換関数fk,j(k),j’(k)の生成手順を例示する。図6の例では、j’(k)=1,...,J(k)について変換関数fk,j(k),j’(k)を学習する処理をj(k)=1,...,J(k)について行うループ処理を、k=1,...,Kのループ処理として実行する(ステップS141〜S147)。この例ではj(k)=j’(k)の変換関数fk,j(k),j’(k)も生成されるが、j(k)=j’(k)の変換関数fk,j(k),j’(k)は生成されなくてもよい。
<目標話者学習処理>
目標話者学習処理では、入力された目標話者の音声データからその話者のモデルを学習する。以下、図5Bに従って本形態の目標話者学習処理を説明する。
目標話者の音声が収録され、目標話者の音声を表す音声データD(T)(T≠1,...,N)が目標話者学習部120(図3)の目標話者音声記憶部121aに格納される。本形態では、目標話者と音声データD(T)とが一対一で対応する(ステップS21)。
特徴量抽出部122bは、目標話者音声記憶部121aに格納された音声データD(T)から、K個の特徴F(k)(k=1,...,K)を表す特徴量F(k,T)(k=1,...,K)を抽出し、特徴量記憶部121bに格納する(ステップS22)。
クラスタ選択部122cは、特徴量記憶部121bに格納された目標話者の音声データD(T)の特徴量F(k,T)を用い、ステップS13で設定されたクラスタCF(k,j(k))から、目標話者の音声データD(T)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択する。選択されたK個のクラスタCF(k,j(k,T))の組み合わせからなる多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))を表す情報は、所属クラスタ記憶部121cに格納される(ステップS23)。
特徴量F(k,T)が属するクラスタCF(k,j(k,T))の選択は特徴F(k)ごとに独立に行われ、最終的にK個の特徴量F(k,T)の組み合わせが属する多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))が選択される。図9Bの例の場合、目標話者の音声データD(T)の2個の特徴量F(1,T),F(2,T)はそれぞれクラスタCF(1,1),CF(2,3)に属し、特徴量F(1,T),F(2,T)の組み合わせが多次元クラスタC(1,3)=(CF(1,1),CF(2,3))に属している。
クラスタの選択手法としては、例えば、目標話者の音声データD(T)のK個の特徴量F(k,T)からステップS13と同様に話者ベクトルを算出し、話者ベクトルとの距離が最も近い代表値を持つクラスタを選択する手法や、入力された特徴量が各クラスタに属する確率を出力するGMM等の統計モデルをクラスタごとに学習しておき、目標話者の音声データD(T)の各特徴量F(k,T)を当該統計モデルに入力して各特徴量F(k,T)が属する確率が最も高い(尤度が最も高い)クラスタをCF(k,j(k,T))として選択する手法等がある。
話者選択部122dは、話者クラスタリング部110(図3)の多数話者音声DB記憶部111aに格納されたN人の話者の音声データD(n)(n=1,...,N)から、所属クラスタ記憶部121cに格納されたK個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択し、選択した音声データD(S)を表す情報を選択話者記憶部121dに格納する(ステップS24)。
話者選択部122dは、例えば、以下のように音声データD(S)を選択する。
(1)N人の話者の音声データD(n)に音声データD(S’)が1個のみ含まれる場合、話者選択部122dは、当該音声データD(S’)を音声データD(S)とする。ただし、「音声データD(S’)」は、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))を構成するK個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データを表す。
(2)N人の話者の音声データD(n)に上記音声データD(S’)が複数含まれる場合、話者選択部122dは、これら複数の音声データD(S’)から選択された1個を音声データD(S)とする。
(3)N人の話者の音声データD(n)に上記音声データD(S’)が含まれない場合、話者選択部122dは、K個のクラスタCF(k,j(k,T))の組み合わせと異なるK個のクラスタCF(k,j(k,S”))(k=1,...,K、j(k,S”)=1,...,J(k))の組み合わせをなす、K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)を、音声データD(S)として選択する。
次に図7を用いて音声データD(S)の選択手法を例示する。
話者選択部122dは、特徴量DB記憶部111bに格納された各音声データD(n)の特徴量を参照し、多数話者音声DB記憶部111aに格納されたN人の話者の音声データD(n)(n=1,...,N)のうち、所属クラスタ記憶部121cに格納されたK個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)の個数をカウントする。言い換えると、話者選択部122dは、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)の個数をカウントする(ステップS241)。
上記のN人の話者の音声データD(n)が上記の音声データD(S’)を1個のみ含む場合、話者選択部122dは当該1個の音声データD(S’)を音声データD(S)として選択する(ステップS242)。
上記のN人の話者の音声データD(n)が上記の音声データD(S’)を2個以上含む場合、話者選択部122dは当該音声データD(S’)の何れかを音声データD(S)として選択する。この例の話者選択部122dは、各音声データD(S’)の特徴量F(k,S’)(k=1,...,K)と目標話者の音声データD(T)の特徴量F(k,T)(k=1,...,K)との類似度(距離)を算出し(ステップS243)、類似度が最も高い(最も近い)特徴量F(k,S’)を持つ音声データD(S’)を、音声データD(S)として選択する(ステップS244)。
上記のN人の話者の音声データD(n)が上記の音声データD(S’)を含まない場合、話者選択部122dは、以下の条件1,2を満たす、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))=(CF(1,j(1,T)),...,CF(K,j(K,T)))に最も近い、1個の多次元クラスタC(j(1,S”),...,j(K,S”))=(CF(1,j(1,S”)),...,CF(K,j(K,S”)))を選択する。多次元クラスタ間の距離の比較は、例えば、各多次元クラスタを構成するK個のクラスタの代表値を要素として並べたベクトル間の距離を多次元クラスタ間の距離として行われる。
[条件1]多次元クラスタC(j(1,S”),...,j(K,S”))を構成するK個のクラスタCF(k,j(k,S”))(k=1,...,K)に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)がN人の話者の音声データD(n)(n=1,...,N)に含まれる。
[条件2]多次元クラスタC(j(1,T),...,j(K,T))を構成するK個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(k,T))(w∈{1,...,K})と、多次元クラスタC(j(1,S”),...,j(K,S”))を構成するK個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(k,S”))とが等しい。ただし、特徴f(w)(w∈{1,...,K})は、特徴量の変換による合成音声の自然性低下への影響が大きい特徴(例えば、前述の特徴量1,2)であり、その他の特徴f(r)(r∈{1,...,K},r≠w)は、特徴量の変換による合成音声の自然性低下への影響が小さい特徴(例えば、前述の特徴量3〜5)である(ステップS245)。
図9B及び図9Cの例において、特徴F(1)が特徴量の変換による合成音声の自然性低下への影響が大きい特徴であり、特徴F(2)が特徴量の変換による合成音声の自然性低下への影響が小さい特徴であるとする。この場合、話者選択部122dは、条件1,2を満たす多次元クラスタC(1,1),C(1,2),C(1,5)のうち、多次元クラスタC(1,3)に最も近いC(1,5)を選択する。
話者選択部122dは当該音声データD(S”)の何れかを音声データD(S)として選択する。この例の話者選択部122dは、各音声データD(S”)の特徴量F(k,S”)(k=1,...,K)と目標話者の音声データD(T)の特徴量F(k,T)(k=1,...,K)との類似度(距離)を算出し(ステップS246)、類似度が最も高い(最も近い)特徴量F(k,S”)を持つ音声データD(S”)を、音声データD(S)として選択する(ステップS247)。
制御部140(図1)は、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))に対応する音声データD(S)が存在しなかったかを判定する。言い換えると、制御部140は、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))と、ステップS24で選択された音声データD(S)のK個の特徴量F(k,S)が属する多次元クラスタC(j(1,),...,j(K,))とが異なるか(図7の例では、ステップS245〜S247が実行されたか)を判定する(ステップS25)。
ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))に対応する音声データD(S)が存在した場合、目標話者学習処理が終了する。この場合、ステップS24で選択された音声データD(S)の特徴量(「目標話者の特徴量」となる)、音声データD(S)及びそのラベルデータ等、又は、目標話者の特徴量に対応するHMMなどの統計モデルが、音声合成部130での目標話者の音声合成処理に利用される。
ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))に対応する音声データD(S)が存在しなかった場合、特徴量変換部122e(図3)が以下の特徴量変換処理を実行する。
特徴量変換部122eは、変換関数fr,j(r,S),j(r,T)を用い、ステップS24で選択された音声データD(S)のK個の特徴量F(k,S)のうちクラスタCF(r,j(r,S))に属する一部の特徴量F(r,S)(r∈{1,...,K})を、ステップS23で選択された多次元クラスタC(j(1,T),...,j(K,T))を構成するK個のクラスタCF(1,j(1,T)),...,CF(K,j(K,T))の一部のクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量TF(r,S)に変換する。特徴量F(r,S)は、特徴量の変換による合成音声の自然性低下の影響が小さいものである(例えば、前述の特徴量3〜5を表す特徴量)。以上により、目標話者の音声の特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)が得られる。図9Cの例の場合、特徴量変換部122eは、変換関数f2,5,3を用い、ステップS24で選択された音声データD(S)の2個の特徴量F(1,S),F(2,S)のうち、クラスタCF(2,5)に属する一部の特徴量F(2,S)を、ステップS23で選択された多次元クラスタC(1,3)を構成する2個のクラスタCF(1,1),CF(2,3)の一部のクラスタCF(2,3)に属する特徴量TF(2,S)に変換する。これにより、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)が得られる。得られた特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)、音声データD(S)及びそのラベルデータ等、又は、特徴量F(k’,S)(k’=1,...,K、k’≠r),TF(r,S)に対応するHMMなどの統計モデルは、音声合成部130での目標話者の音声合成処理に利用される。変換された特徴量TF(r,S)は、特徴量の変換による合成音声の自然性低下の影響が小さいが、音声の類似性には寄与する。よって、このように音声データD(S)の特徴量の一部を変換したものを目標話者の音声の特徴量とし、それを含む情報を音声合成処理に利用することで、自然性を低下させることなく目標話者の音声を合成できる(ステップS26)。特徴量4,5は、スペクトル(ケプストラム)より得られる特徴量であるため、音声を合成する際には、これらの特徴量を用いて合成音声のスペクトル(ケプストラム)が変換される。スペクトル(ケプストラム)の変換は特徴量によって異なり、声道長正規化のワーピングパラメータが特徴量である場合(特徴量5)、1次オールパス関数を用いて合成音声のケプストラムが変換される。各帯域のスペクトルのパワー比が特徴量である場合(特徴量4)、変換前後のスペクトルパワー比から得られる各帯域のフィルタFILiを用いて、合成音声のスペクトルを変換する。
FILi=BSP’i/BSPi
ただし、BSPiは変換前のi番目の帯域のパワー比であり、BSP’iは変換後のi番目の帯域のパワー比である。変換後のi番目の帯域のスペクトルは、変換前のi番目の帯域のスペクトルにFILiを乗ずることにより得られる。
<音声合成処理>
音声合成処理部130は、目標話者学習部120で得られた目的話者の特徴量、音声データ及びラベルデータ等、又は、当該特徴量から得られるHMMなどの統計モデル等を用い、公知の波形接続型音声合成方式(例えば「特許2761552」「特開2009−122381」等参照)、又は、HMM音声合成方式(例えば「益子貴史,徳田恵一,小林隆夫,今井聖,“動的特徴を用いたHMMに基づく音声合成,” 信学論(D-II),vol.J79-D-II, no.12, pp.2184-2190, 1996.」等参照)等に従い、入力されたテキストに対応する目標話者の音声を合成する。
図4を用い、目標話者学習部120で得られた特徴量、音声データ及びラベルデータ等を含む目標話者の音声データベースTDBを用い、波形接続型音声合成方式に従って音声合成を行う例を示す。図4の例の場合、入力されたテキスト(Text)がテキスト記憶部131aに格納され、テキスト解析部132bがテキスト記憶部131aに記憶されたテキストを読み込み、このテキストを形態素解析し、テキストに対応したコンテキスト情報(読み、アクセント等の情報)を生成し、これをコンテキスト記憶部131bに格納する。
韻律生成部132dは、韻律モデルDB記憶部131cに格納された韻律モデルを用い、コンテキスト記憶部131bに格納されたコンテキスト情報に対応する韻律パラメータ(F0パターン、音素継続時間長、パワー情報等)を生成(推定)し、これを韻律パラメータ記憶部131dに格納する。
素片選択部132eには、コンテキスト記憶部131bから読み出したコンテキスト情報、韻律パラメータ記憶部131dから読み出した韻律パラメータ、目標話者学習部120で得られた目標話者の音声データベースTDBが入力される。素片選択部132eは、例えば、音声データベースTDBの音声データ及びラベルデータから特定される各音声素片を音声素片候補とし、公知の素片選択方式に従って、コンテキスト情報及び韻律パラメータに対する各音声素片候補の評価コストを求め、評価コストが最良となる音声素片候補を音声素片として抽出する。例えば、参考文献2「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9」に記載された各サブコスト関数の線形和からなる評価コストが用いられる場合には、評価コストが最小となる音声素片候補が音声素片として選択される。さらに素片選択部132eは、公知の素片接続方式に従い、韻律パラメータと音声データベースTDBの音声データの特徴量とを用い、抽出した各音声素片に対応する音声データを接続して目標話者の合成音声Voiceを生成する。特徴量が変換されている場合は、抽出した各音声素片に対応する音声データを接続するのではなく、変換された特徴量(スペクトル、非周期性指標等)から得られる音声データを接続し、目標話者の合成音声Voiceを生成する。生成された合成音声Voiceは合成音声記憶部131eに格納され、必要に応じて読み出されて出力される。
<変形例等>
本発明は上述の実施の形態に限定されるものではない。例えば、上記実施形態のステップS26では、音声データD(S)のK個の特徴量F(k,S)のうち、特徴量の変換による合成音声の自然性低下の影響が小さい特徴量F(r,S)のみを特徴量TF(r,S)に変換することとした。しかしながら、音声データD(S)のK個の特徴量F(k,S)のうち、特徴量の変換による合成音声の自然性の影響は多少大きいが音声の類似性への寄与度が大きい特徴量のみを変換する等、用途に応じて変換する特徴量が選択されることとしてもよい。また上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
上記の実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 音声合成装置
110 話者クラスタリング部
120 目標話者学習部
130 音声合成部

Claims (8)

  1. N人の話者の音声データD(n)(n=1,...,N、N≧2)の特徴F(k)(k=1,...,K、K≧2)を表す特徴量F(k,n)が前記特徴F(k)ごとに独立にクラスタリングされることで、前記特徴F(k)ごとにJ(k)個のクラスタCF(k,j(k))(k=1,...,K、j(k)=1,...,J(k)、J(k)≧2)が設定され、前記音声データD(n)それぞれのK個の特徴量F(k,n)がいずれかK個のクラスタCF(k,j(k,n))(k=1,...,K、j(k,n)=1,...,J(k)、J(k,n)≧2)に属し、
    設定された前記クラスタCF(k,j(k))から、目標話者の音声データD(T)(T≠1,...,N)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択するクラスタ選択ステップと、
    前記N人の話者の音声データD(n)から、前記K個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択する話者選択ステップと、
    前記音声データD(S)のK個の特徴量F(k,S)(k=1,...,K)が属するK個のクラスタCF(k,j(k,S))(k=1,...,K、j(k,S)=1,...,J(k))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが異なる場合に、変換関数を用い、前記K個の特徴量F(k,S)の一部の特徴量F(r,S)(r∈{1,...,K})を特徴量TF(r,S)に変換し、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得る特徴量変換ステップと、を有し、
    前記変換関数は、前記特徴量F(r,S)が属する前記クラスタCF(r,j(r,S))に属する特徴量を、前記K個の特徴量F(k,T)の一部の特徴量F(r,T)が属するクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量に変換するものである、目標話者学習方法。
  2. 請求項1の目標話者学習方法であって、
    前記一部の特徴量F(r,S)は、
    1次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタの何れかで、異なる話者の音声データD(s’)(s’∈{1,...,N}、s’≠S)の特徴量F(r,s’)に変換可能な特徴量、及び、前記音声データD(S)の周波数軸上の全帯域での平均パワーが類似性に影響を与える特徴量の何れかを含む、目標話者学習方法。
  3. 請求項1又は2の目標話者学習方法であって、
    前記一部の特徴量F(r,S)は、前記音声データD(S)の非周期性指標、前記音声データD(S)の全帯域のスペクトルのパワーに対する各帯域のスペクトルのパワーの比、又は前記音声データD(S)の声道長正規化のためのワーピングパラメータを表す、目標話者学習方法。
  4. 請求項1から3の何れかの目標話者学習方法であって、
    前記話者選択ステップは、
    前記N人の話者の音声データD(n)が、前記K個のクラスタCF(k,j(k,T))に属するK個の特徴量F(k,S’)(k=1,...,K)を持つ音声データD(S’)を含まない場合に、前記K個のクラスタCF(k,j(k,T))の組み合わせと異なるK個のクラスタCF(k,j(k,S”))(k=1,...,K、j(k,S”)=1,...,J(k))の組み合わせをなす、前記K個のクラスタCF(k,j(k,S”))に属するK個の特徴量F(k,S”)(k=1,...,K)を持つ音声データD(S”)(S”∈{1,...,N})を、前記音声データD(S)として選択するステップを含む、目標話者学習方法。
  5. 請求項4の目標話者学習方法であって、
    前記K個のクラスタCF(k,j(k,T))(k=1,...,K)が含む一部のクラスタCF(w,j(k,T))(w∈{1,...,K}、w≠r)と、前記K個のクラスタCF(k,j(k,S”))(k=1,...,K)が含む一部のクラスタCF(w,j(k,S”))とが等しい、目標話者学習方法。
  6. 請求項4又は5の目標話者学習方法であって、
    前記話者選択ステップは、
    前記N人の話者の音声データD(n)が前記音声データD(S’)を1個のみ含む場合に、当該音声データD(S’)を前記音声データD(S)とするステップと、
    前記N人の話者の音声データD(n)が前記音声データD(S’)を複数個含む場合に、前記音声データD(S’)から選択された1個を前記音声データD(S)とするステップとを含む、目標話者学習方法。
  7. N人の話者の音声データD(n)(n=1,...,N、N≧2)の特徴F(k)(k=1,...,K、K≧2)を表す特徴量F(k,n)が前記特徴F(k)ごとに独立にクラスタリングされることで、前記特徴F(k)ごとにJ(k)個のクラスタCF(k,j(k))(k=1,...,K、j(k)=1,...,J(k)、J(k)≧2)が設定され、前記音声データD(n)それぞれのK個の特徴量F(k,n)がいずれかK個のクラスタCF(k,j(k,n))(k=1,...,K、j(k,n)=1,...,J(k)、J(k,n)≧2)に属し、
    設定された前記クラスタCF(k,j(k))から、目標話者の音声データD(T)(T≠1,...,N)のK個の特徴量F(k,T)(k=1,...,K)が属するK個のクラスタCF(k,j(k,T))(k=1,...,K、j(k,T)=1,...,J(k))の組み合わせを選択するクラスタ選択部と、
    前記N人の話者の音声データD(n)から、前記K個のクラスタCF(k,j(k,T))の組み合わせに対応する音声データD(S)を選択する話者選択部と、
    前記音声データD(S)のK個の特徴量F(k,S)(k=1,...,K)が属するK個のクラスタCF(k,j(k,S))(k=1,...,K、j(k,S)=1,...,J(k))の組み合わせと、前記K個のクラスタCF(k,j(k,T))の組み合わせとが異なる場合に、変換関数を用い、前記K個の特徴量F(k,S)の一部の特徴量F(r,S)(r∈{1,...,K})を特徴量TF(r,S)に変換し、K個の特徴量F(k’,S)(k’∈{1,...,K}、k’≠r),TF(r,S)を得る特徴量変換部と、を有し、
    前記変換関数は、前記特徴量F(r,S)が属する前記クラスタCF(r,j(r,S))に属する特徴量を、前記K個の特徴量F(k,T)の一部の特徴量F(r,T)が属するクラスタCF(r,j(r,T))〔CF(r,j(r,T))≠CF(r,j(r,S))〕に属する特徴量に変換するものである、目標話者学習装置。
  8. 請求項1から6の何れかの目標話者学習方法の各ステップの処理をコンピュータに実行させるためのプログラム。
JP2011256042A 2011-11-24 2011-11-24 目標話者学習方法、その装置及びプログラム Expired - Fee Related JP5689782B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011256042A JP5689782B2 (ja) 2011-11-24 2011-11-24 目標話者学習方法、その装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011256042A JP5689782B2 (ja) 2011-11-24 2011-11-24 目標話者学習方法、その装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2013109274A true JP2013109274A (ja) 2013-06-06
JP5689782B2 JP5689782B2 (ja) 2015-03-25

Family

ID=48706057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011256042A Expired - Fee Related JP5689782B2 (ja) 2011-11-24 2011-11-24 目標話者学習方法、その装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5689782B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015018080A (ja) * 2013-07-10 2015-01-29 日本電信電話株式会社 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム
WO2018168032A1 (ja) * 2017-03-15 2018-09-20 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP2020139994A (ja) * 2019-02-27 2020-09-03 シナノケンシ株式会社 テキストデータ音声再生装置およびテキストデータ音声再生プログラム
JP2020139993A (ja) * 2019-02-27 2020-09-03 シナノケンシ株式会社 テキストデータ音声再生装置およびテキストデータ音声再生プログラム
JPWO2020145353A1 (ja) * 2019-01-10 2021-12-23 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327521A (en) * 1992-03-02 1994-07-05 The Walt Disney Company Speech transformation system
JPH07160287A (ja) * 1993-12-10 1995-06-23 Nec Corp 標準パターン作成装置
JP2007178686A (ja) * 2005-12-27 2007-07-12 Matsushita Electric Ind Co Ltd 音声変換装置
JP2007193139A (ja) * 2006-01-19 2007-08-02 Toshiba Corp 音声処理装置及びその方法
JP2008026489A (ja) * 2006-07-19 2008-02-07 Asahi Kasei Corp 音声信号変換装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327521A (en) * 1992-03-02 1994-07-05 The Walt Disney Company Speech transformation system
JPH07160287A (ja) * 1993-12-10 1995-06-23 Nec Corp 標準パターン作成装置
JP2007178686A (ja) * 2005-12-27 2007-07-12 Matsushita Electric Ind Co Ltd 音声変換装置
JP2007193139A (ja) * 2006-01-19 2007-08-02 Toshiba Corp 音声処理装置及びその方法
JP2008026489A (ja) * 2006-07-19 2008-02-07 Asahi Kasei Corp 音声信号変換装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG200801128006; 井島 勇祐 Yusuke IJIMA: '重回帰HMMに基づくスタイル推定を用いた音声認識における音響モデル学習法 Acoustic Model Training Te' 電子情報通信学会技術研究報告 Vol.108 No.338 IEICE Technical Report , 200812, p.37-42, 社団法人電子情報通信学会 The Institute of Electro *
JPN6014051085; 井島 勇祐 Yusuke IJIMA: '重回帰HMMに基づくスタイル推定を用いた音声認識における音響モデル学習法 Acoustic Model Training Te' 電子情報通信学会技術研究報告 Vol.108 No.338 IEICE Technical Report , 200812, p.37-42, 社団法人電子情報通信学会 The Institute of Electro *
JPN6014051087; 中村 哲,鹿野 清宏: 'セパレートベクトル量子化を用いたスペクトログラムの正規化' 日本音響学会誌 44巻,8号, 19880801, p.595-602, 社団法人日本音響学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015018080A (ja) * 2013-07-10 2015-01-29 日本電信電話株式会社 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム
WO2018168032A1 (ja) * 2017-03-15 2018-09-20 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP2018155774A (ja) * 2017-03-15 2018-10-04 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JPWO2020145353A1 (ja) * 2019-01-10 2021-12-23 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP7309155B2 (ja) 2019-01-10 2023-07-18 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP2020139994A (ja) * 2019-02-27 2020-09-03 シナノケンシ株式会社 テキストデータ音声再生装置およびテキストデータ音声再生プログラム
JP2020139993A (ja) * 2019-02-27 2020-09-03 シナノケンシ株式会社 テキストデータ音声再生装置およびテキストデータ音声再生プログラム

Also Published As

Publication number Publication date
JP5689782B2 (ja) 2015-03-25

Similar Documents

Publication Publication Date Title
US9830904B2 (en) Text-to-speech device, text-to-speech method, and computer program product
US8234110B2 (en) Voice conversion method and system
JP5768093B2 (ja) 音声処理システム
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP4328698B2 (ja) 素片セット作成方法および装置
CN1121679C (zh) 用于语音合成的运行时声频单元选择方法和系统
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP5689782B2 (ja) 目標話者学習方法、その装置及びプログラム
US10008216B2 (en) Method and apparatus for exemplary morphing computer system background
JP3189598B2 (ja) 信号合成方法および信号合成装置
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
WO2022172014A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
En-Najjary et al. A voice conversion method based on joint pitch and spectral envelope transformation.
JP4922225B2 (ja) 音声認識装置及び音声認識プログラム
JP5376643B2 (ja) 音声合成装置、方法およびプログラム
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
Eslami et al. Quality improvement of voice conversion systems based on trellis structured vector quantization
JPH10254473A (ja) 音声変換方法及び音声変換装置
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
Cen et al. Generating emotional speech from neutral speech
JP5486565B2 (ja) 話者クラスタリング方法、話者クラスタリング装置、プログラム
Lee Restricted Boltzmann machine-based voice conversion for nonparallel corpus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150129

R150 Certificate of patent or registration of utility model

Ref document number: 5689782

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees