JP6475572B2

JP6475572B2 - 発話リズム変換装置、方法及びプログラム

Info

Publication number: JP6475572B2
Application number: JP2015106228A
Authority: JP
Inventors: 定男廣谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2019-02-27
Anticipated expiration: 2035-05-26
Also published as: JP2016218386A

Description

この発明は、音声信号の発話リズムを変換する技術に関する。

第二外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語母語話者は、英語母語話者の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、アクセント、イントネーション、発音、発話リズムなどがあるが、これらの違いの克服が、第二外国語での音声コミュニケーションの問題解決に貢献すると考えられる。

これまで、日本語母語話者の発声した英語音声の発話リズムを変換し、ネイティブに聞き取り易くする技術が提案されてきた（例えば、非特許文献１）。しかしながら、発話リズムの変換には、予めネイティブが同一文章を発声した音声が必要であり、任意の英語文章に対して発話リズムを変換することは困難であった。

廣谷定男, "発話リズムを抽出・制御する音声信号処理", NTT技術ジャーナル, 2013, pp.26-29.

非特許文献１の方法により発話リズム変換を行う場合、予めネイティブが同一文章を発声した音声から、目標となる発話リズムを求めておく必要があった。すなわち、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号が必要であった。

この発明の目的は、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる発話リズム変換装置、方法及びプログラムを提供することである。

この発明の一態様による発話リズム変換装置は、第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げたテキストの音声信号である第二音声信号に共通の音素について、第一音声信号におけるその音素の発話リズムである第一発話リズムと、第一音声信号に対応する第二音声信号におけるその音素の発話リズムである第二発話リズムとを結合したベクトルが、Ｍ個のガウス分布を混合したガウス混合分布で表現されるものとしてモデル化したものをガウス混合モデルとして、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、ガウス混合モデルを構成するＭ個のガウス分布の各々における第一発話リズムに対応する次元を第一ガウス分布として、入力発話リズムにＭ個の第一ガウス分布を混合した第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの混合重みを求める重み決定部と、ガウス混合モデルを構成するＭ個のガウス分布の各々における第二発話リズムに対応する次元を第二ガウス分布として、第二ガウス分布を、重み決定部で求めた当該第二ガウス分布に対応する第一ガウス分布の混合重みに従い重み付き加算することにより、変換後の発話リズムを求める変換部と、変換後の発話リズムと、入力された音声の特徴量とを用いて、音声を合成する音声合成部と、を備えている。

発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる。

発話リズム変換装置の例を説明するためのブロック図。発話リズム変換方法の例を説明するための流れ図。時間関数φ_k(t)を説明するための図。

［実施形態］
以下、図面を参照して、この発明の一実施形態について説明する。発話リズム変換装置は、図１に示すように、第一特徴抽出部１、第二特徴抽出部２、ガウス混合モデル生成部３、入力音声特徴抽出部４、重み決定部５、変換部６及び音声合成部７を例えば備えている。発話リズム変換装置の各部が、図２の発話リズム変換ステップの処理を行うことにより、発話リズム変換方法が実現される。

〔発話リズムの学習〕
＜第一特徴抽出部１，第二特徴抽出部２＞
第一グループの話者にテキストを読み上げてもらい、その音声信号（以下、「第一音声信号」とする。）を第一特徴抽出部１に入力する。

同様に、第二グループの話者に上記テキストと同じテキストを読み上げてもらい、その音声信号（以下、「第二音声信号」とする。）を第二特徴抽出部２に入力する。上記テキストは、少なくとも１個の文章を含むとする。

第一グループの話者の人数及び第二グループの話者の人数は、それぞれ少なくとも１人以上とする。

第一グループの話者とは例えば日本語母語話者であり、第二グループの話者とは例えば英語母語話者である。以下、第一グループの話者が日本語母語話者であり、第二グループの話者が英語母語話者である場合を例に挙げて説明する。

第一特徴抽出部１は、第一音声信号に対して音素のラべリングを行う。この例では、第一音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。

第一音声信号、言い換えれば、この例では日本語母語話者の英語音声に対しては、日本語母語話者英語特有の挿入母音を特別な音素として割り当ててもよい。例えば、英単語’round’の最後の/d/を日本語母語話者は/ド/と発声するため、/d/の後ろに/o/を割り当ててもよい。また、息継ぎのタイミングの変換を行うために、無音を表す特別な音素を割り当ててもよい。

同様に、第二特徴抽出部２は、第二音声信号に対して音素のラべリングを行う。この例では、第二音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。

つぎに、第一特徴抽出部１は、時系列信号Yである第一音声信号から声道スペクトルy（例えば、p次のLSPパラメータ）を抽出し、音素ラベルを用いて、非負値時空間分解法（例えば、参考文献１参照。）により、

の二乗誤差を最小にするΦを決定する。すなわち、y_i(t)とy_i(t_k-1)φ_k-1(t)+ y_i(t_k)φ_k(t)との二乗誤差を最小にするΦを決定する。

≪参考文献１≫S. Hiroya, “Non-negative temporal decomposition of speech parameters by multiplicative update rules”, IEEE Trans. Audio, Speech, Lang. Process., 2013, pp.2108-2117.
ここで、時系列信号Yの時間長をTとし、、時刻を表すインデックスをtとし、Y={Y(1),…,Y(t),…,Y(T)}とする。LSPパラメータの分析次数の総数をp、分析次数を表すインデックスをiとすると、Y(t)={y₁(t),…,y_i(t),…,y_p(t)}である。よって、y_i(t)は、時刻tにおけるLSPパラメータの分析次数iの値を表し、単にLSPパラメータy_i(t)とも記載する。

また、Φ={Φ(1),…,Φ(t),…,Φ(T)}であり、時系列信号Yに対応する音声データに含まれる音素の総数を(K-2)とし、kを音素を表すインデックス、k=1,…,Kとすると(ただし、k=1、k=Kをそれぞれ始まりと終わりを表すインデックスとする)、Φ(t)={φ₁(t),…,φ_k(t),…，φ_K(t)}である。φ_k(t)は時刻tにおける音素kの時間関数の値を表し、単に時間関数φ_k(t)とも記載する。t_kは、音素kの中心時刻を表す。

時刻t_k-1≦t≦t_k+1において、φ_k(t)は単峰性かつ[0,1]の範囲の値をとる。ここで、時刻t_k-1≦t≦t_k+1において、φ_k(t)の値が0.5となる時刻が２つ存在するが、それぞれt_sとt_eとすると、D_k=t_e-t_s+1は当該音素の継続時間長と考えることができる。D_kについては、図３を参照のこと。図３において横軸は時刻を表し、縦軸は大きさをφ_k(t)の大きさを表す。図３の破線はφ_k-1(t)を表し、太線はφ_k+1(t)を表す。φ_k(t)が単峰性であるとは、時間関数φ_k(t)を時間tで２回微分した関数φ_k''(t)が、時刻t_k-1≦t≦t_k+1においてφ_k''(t)≦0であることを意味する。D={D₁,…,D_k,…,D_K}とする。

隣り合う音素のみが影響を及ぼすことを考慮して、発話リズム(Φ,D)は音素単位で表現されている。

第一特徴抽出部１は、t_sとt_eの間を予め決められた点数N（例えばN=30）で、[0.5,1,0.5]の範囲の音素k(k=1,2,…,K)のφ_k(t)をサンプリングし直しφ_k’とする。t_sとt_eの間のサンプリング点を1,…,n,…,Nと表記すると、φ_k’={φ_k'(1),…,φ_k'(n),…, φ_k'(N)}である。Φ'={φ₁’,…,φ_k’,…,φ_K’}として、第一特徴抽出部１が求めた、サンプリングし直された、第一音声信号についての発話リズム（Φ',D）を(Φ_J',D_J)と表記する。各音素ｋの発話リズム(Φ_J',D_J)は、ガウス混合モデル生成部３に出力される。

第二特徴抽出部２は、第一特徴抽出部１と同様にして、第二音声信号から、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を求める。第二特徴抽出部２が求めた、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を(Φ_E',D_E)と表記する。各音素ｋの発話リズム(Φ_E',D_E)は、ガウス混合モデル生成部３に出力される。

＜ガウス混合モデル生成部３＞
日本語母語話者及び英語母語話者の発話リズム(Φ_J',D_J)と(Φ_E',D_E)から、発話リズム変換則を求めることを考える。ここで、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeとする。すなわち、kj=keである。

ガウス混合モデル生成部３は、音素kjの発話リズム(φ_J,kj’,D_kj)と、音素keの発話リズム(φ_E,ke’,D_ke)とをベクトルとして、ガウス混合モデル（GMM）により発話リズム変換則の学習を行う。混合数Mは、予め定められた正の整数である。例えばM=1024とする。

すなわち、φ_J,kj’=(φ_J,kj’(1),…,φ_J,kj’(n),…,φ_J,kj’(N))とし、φ_E,ke’=(φ_E,ke’(1),…,φ_E,ke’(n),…,φ_E,ke’(N))として、ガウス混合モデル生成部３は、2N+2次元のベクトル(φ_J,kj’(1),…,φ_J,kj’(n),…,φ_J,kj’(N),D_kj, φ_E,ke’(1),…,φ_E,ke’(n),…,φ_E,ke’(N),D_ke)を、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeの全ての音素についての、第一特徴抽出部１で求まった発話リズムと第二特徴抽出部２で求まった発話リズムとを用いて学習する。

ここで、φ_J,kj’=(φ_J,kj’(1),…,φ_J,kj’(n),…,φ_J,kj’(N))は、第一音声信号の音素kjについてのφ_k'=(φ_k’(1),…,φ_k’(n),…,φ_k’(N))である。また、φ_E,ke’=(φ_E,ke’(1),…,φ_E,ke’(n),…,φ_E,ke’(N))は、第二音声信号の音素keについてのφ_k'=(φ_k’(1),…,φ_k’(n),…,φ_k’(N))である。

このようにして、ある音素kj,keについての発話リズム変換則ベクトルを、第一特徴抽出部１で求まったその音素kjの発話リズム(φ_J,kj’,D_kj)と、第二特徴抽出部２で求まったその音素に基づく発話リズム(φ_E,ke’,D_ke)とを少なくとも要素とするベクトルとして、ガウス混合モデル生成部３は、第一特徴抽出部１で求まった発話リズムと第二特徴抽出部２で求まった発話リズムとから発話リズム変換則ベクトルを表すガウス混合モデルを学習する。生成されたガウス混合モデルは、重み決定部５に出力される。

なお、発話リズム変換則ベクトルには、Dとφ’以外にも、声道スペクトル、文章の開始から何番目の音素かを表わすインデックス、無音であれば0、それ以外は1、または前後の音素におけるこれらのパラメータなどを加えてもよい。

〔発話リズムの変換〕
＜入力音声特徴抽出部４＞
入力音声特徴抽出部４は、入力された、発話リズムの変換の対象となる音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める。求まった、各音素の発話リズムは重み決定部に出力され、特徴量は音声合成部７に出力される。

発話リズムの変換の対象となる音声信号とは、この例では、日本語母語話者の英語の音声信号である。日本語母語話者が読み上げる英文のテキストは任意であり、学習で用いたテキストである必要はない。

音声信号の特徴量は、例えば、p次のLSPパラメータである。

入力音声特徴抽出部４による入力された音声信号についての各音素kの発話リズム(φ_k’,D_k)の求め方は、第一音声信号から第一特徴抽出部１による各音素kの発話リズム(φ_k’,D_k)の求め方と同様であるため、ここでは説明を省略する。

なお、以下では、入力音声特徴抽出部４で求まった発話リズムを(φ’,D)と表記する。ここで、φ=(φ₁’,…,φ_k’,…,φ_K’)であり、D={D₁,…,D_k,…,D_K}である。

＜重み決定部５＞
重み決定部５は、ガウス混合モデル生成部３で生成されたガウス混合モデルの中の、第一特徴抽出部１で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、入力音声特徴抽出部４で求まった各音素kの発話リズム(φ_k’,D_k)に第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。求まった重みは変換部６に出力される。

すなわち、重み決定部５は、
P(φ_k’,D_k) = Σ_m=1 ^M π_mN(φ_k’,D_k|λ_m)
を最大にするような重みπ_m(m=1,2,…,M。ただしΣ_m=1 ^M π_m=1)を求める。ここで、Nは第一ガウス混合モデルを構成するm番目のガウス分布であり、λ_mは第一ガウス混合モデルを構成するm番目のガウス分布の平均値及び分散であり、Mは混合数を表わす。

そのために、重み決定部５は例えば、
π_m = N(φ_k’,D_k|λ_m) /Σ_m=1 ^M N(φ_k’,D_k|λ_m)
となる重みπ_m(m=1,2,…,M)を求める。この式により求まる重みπ_m(m=1,2,…,M)の和は1となる。

なお、重み決定部５の処理は、入力音声特徴抽出部４で求まった各音素kについて行われる。これにより、入力音声特徴抽出部４で求まった各音素kに対応する重みπ_m(m=1,2,…,M)が求まる。

＜変換部６＞
変換部６は、ガウス混合モデルの中の、第二特徴抽出部２で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値ベクトルを重みπ_m(m=1,2,…,M)を用いて重み付き加算することにより、変換後の発話リズムを求める。

すなわち、変換部６は、変換後の発話リズムである(φ_mod’,D_mod)を以下の式により求める。ここで、φ_μ,mは、第二ガウス混合分布の中の、(φ_E,ke’(1),…,φ_E,ke’(n),…,φ_E,ke’(N))に対応する次元のガウス分布のm番目のガウス分布の平均値ベクトルである。D_μ,mは、第二ガウス混合分布の中のD_keに対応する次元のガウス分布のm番目のガウス分布の平均値である。

変換部６の処理は、入力音声特徴抽出部４で求まった各音素kに対応する重みπ_m(m=1,2,…,M)ごとに行われる。これにより、入力音声特徴抽出部４で求まった各音素kに対応する(φ_mod’,D_mod)が求まる。

なお、重み付け和を求める代わりに、最も大きい重みπ_mを1、それ以外を0とすることで変換を行ってもよい。この際、求められたある音素の音素継続長が、前後の音素の音素継続長と大きく異なり、不自然な音声が合成される可能性があることから、最も大きい重みπ_mを1とする代わりに、動的計画法により音素継続長の時間的連続性も考慮して求めたガウス分布の重みを1としてもよい。また、変換の際、日本語母語話者英語特有の挿入母音や無音に対応する発話リズムを取り除いても良い。

＜音声合成部７＞
音声合成部７は、変換後の発話リズム(φ_mod’,D_mod)と、入力音声特徴抽出部４で求まった入力された音声の特徴量とを用いて、音声を合成する。

そのために、音声合成部７は、まず、変換したφ_mod’とD_modより、[0.5,1,0.5]の範囲のφ_modを求める。具体的には、φ_mod’={φ_mod’(1),…,φ_mod’(n),…,φ_mod’(N)}として、φ_mod’(1),…,φ_mod’(n),…,φ_mod’(N)を、D_modに基づいて伸縮し、サンプリング点間の値を線形補間や、スプライン補間することにより、[0.5,1,0.5]の範囲のφ_mod(t)を求めることができる。

つぎに、音声合成部７は、入力された音声信号の音素の順番に従ってφ_mod(t)を接続する。すなわち、音素ｋについてのφ_mod(t)をφ_mod,k(t)として、入力された音声信号の全ての音素についての各時刻tにおけるφ_mod,k(t)を求める。

φ_mod,k-1(t),φ_mod,k(t),φ_mod,k+1(t)は[0.5,1,0.5]の範囲で定義されており、かつ、時間関数の定義よりφ_mod,k-1(t)+φ_mod,k(t)=1であるため、時刻t_k-1≦t≦t_sにおいてφ_mod,k-1(t)が決まれば、時刻t_k-1≦t≦t_sのφ_mod,k(t)は、φ_mod,k(t)=1-φ_mod,k-1(t)により計算することができる。また、時間関数の定義よりφ_mod,k(t)+φ_mod,k+1(t)=1であるため、時刻t_e≦t≦t_k+1においてφ_mod,k+1(t)が決まれば、時刻t_e≦t≦t_k+1におけるφ_mod,k(t)は、φ_mod,k(t)=1-φ_mod,k+1(t)により計算することができる。t＜t_k-1,t＞t_k+1のφ_mod,k(t)は0とする。これを、各音素ｋについてのφ_mod,k(t)について行うことにより、入力された音声信号の全ての音素についての各時刻tにおけるφ_mod,k(t)を求めることができる。

そして、音声合成部７は、

により、発話リズムを変換した声道スペクトルを生成する。音声合成部７は、生成された声道スペクトルに基づいて音源信号をたたみ込むことにより、発話リズムが変換された音声を生成する。

非特許文献１では、目標となる発話リズムはネイティブのそれとなる。一方、この例による発話リズム変換では、日本語母語話者の音素情報と発話リズムを与え、目標となる発話リズムはGMMによる変換により求められる。つまり、非特許文献１では、同一文章発声においては、どの話者が発声しても同一の発話リズムに変換されてしまうが、この例による発話リズム変換では、話者の発話スタイル（話速など）を考慮した発話リズムを目標として与えることができるため、より自然な音声を合成することが可能である。

［変形例］
音声信号に対する音素ラべリングは、人手で行ってもよい。

上記方法によりD_modを求めた場合、GMMの平均値が選ばれることとなり、文章全体として発話リズムにメリハリがない音声が出力される可能性がある。そこで、重み決定部５は、学習データに含まれる英語母語話者の１文章あたりの音素継続長の分散の平均値および分散をM,Vとして、
ωN(D_mod|λ_m) + N(D_modの分散 | M,V)
を最大にするようなD_modを求めてもよい。これにより、英語母語話者のメリハリを与えるような音素継続長を求めることができる（例えば、参考文献２参照。）。ここで、ωは重みであり、例えば0.5とする。なお、上記関数は、最急降下法などを用いて最適化を行ってもよい。

また、上記実施形態では、第一グループとして日本語母語話者、第二グループとして英語母語話者、テキストとして英語を用いたが、第一グループとしてイギリス英語母語話者、第二グループとしてアメリカ英語母語話者や、テキストとして日本語などを用いてもよい。

≪参考文献２≫T. Toda, K. Tokuda, “A speech parameter generation algorithm considering global variance for HMM-based speech synthesis”, IEICE Trans. Inf. & Syst., 2007, pp.816-824.
[プログラム及び記録媒体]
発話リズム変換装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、発話リズム変換装置における各処理をコンピュータによって実現する場合、発話リズム変換装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１第一特徴抽出部
２第二特徴抽出部
３ガウス混合モデル生成部
４入力音声特徴抽出部
５重み決定部
６変換部
７音声合成部

Claims

第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号におけるその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号におけるその音素の発話リズムである第二発話リズムとを結合したベクトルが、Ｍ個のガウス分布を混合したガウス混合分布で表現されるものとしてモデル化したものをガウス混合モデルとして、
入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、
上記ガウス混合モデルを構成するＭ個のガウス分布の各々における上記第一発話リズムに対応する次元を第一ガウス分布として、上記入力発話リズムに上記Ｍ個の第一ガウス分布を混合した第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの混合重みを求める重み決定部と、
上記ガウス混合モデルを構成するＭ個のガウス分布の各々における上記第二発話リズムに対応する次元を第二ガウス分布として、上記第二ガウス分布を、上記重み決定部で求めた当該第二ガウス分布に対応する第一ガウス分布の混合重みに従い重み付き加算することにより、変換後の発話リズムを求める変換部と、
上記変換後の発話リズムと、上記入力された音声の特徴量とを用いて、音声を合成する音声合成部と、
を含む発話リズム変換装置。
第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号におけるその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号におけるその音素の発話リズムである第二発話リズムとを結合したベクトルが、Ｍ個のガウス分布を混合したガウス混合分布で表現されるものとしてモデル化したものをガウス混合モデルとして、
入力音声特徴抽出部が、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出ステップと、
重み決定部が、上記ガウス混合モデルを構成するＭ個のガウス分布の各々における上記第一発話リズムに対応する次元を第一ガウス分布として、上記入力発話リズムに上記Ｍ個の第一ガウス分布を混合した第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの混合重みを求める重み決定ステップと、
変換部が、上記ガウス混合モデルを構成するＭ個のガウス分布の各々における上記第二発話リズムに対応する次元を第二ガウス分布として、上記第二ガウス分布を、上記重み決定ステップで求めた当該第二ガウス分布に対応する第一ガウス分布の混合重みに従い重み付き加算することにより、変換後の発話リズムを求める変換ステップと、
音声合成部が、上記変換後の発話リズムと、上記入力された音声の特徴量とを用いて、音声を合成する音声合成ステップと、
を含む発話リズム変換方法。
請求項１の発話リズム変換装置の各部としてコンピュータを機能させるためのプログラム。