JP6475572B2 - 発話リズム変換装置、方法及びプログラム - Google Patents

発話リズム変換装置、方法及びプログラム Download PDF

Info

Publication number
JP6475572B2
JP6475572B2 JP2015106228A JP2015106228A JP6475572B2 JP 6475572 B2 JP6475572 B2 JP 6475572B2 JP 2015106228 A JP2015106228 A JP 2015106228A JP 2015106228 A JP2015106228 A JP 2015106228A JP 6475572 B2 JP6475572 B2 JP 6475572B2
Authority
JP
Japan
Prior art keywords
rhythm
gaussian
speech
phoneme
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015106228A
Other languages
English (en)
Other versions
JP2016218386A (ja
Inventor
定男 廣谷
定男 廣谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015106228A priority Critical patent/JP6475572B2/ja
Publication of JP2016218386A publication Critical patent/JP2016218386A/ja
Application granted granted Critical
Publication of JP6475572B2 publication Critical patent/JP6475572B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声信号の発話リズムを変換する技術に関する。
第二外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語母語話者は、英語母語話者の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、アクセント、イントネーション、発音、発話リズムなどがあるが、これらの違いの克服が、第二外国語での音声コミュニケーションの問題解決に貢献すると考えられる。
これまで、日本語母語話者の発声した英語音声の発話リズムを変換し、ネイティブに聞き取り易くする技術が提案されてきた(例えば、非特許文献1)。しかしながら、発話リズムの変換には、予めネイティブが同一文章を発声した音声が必要であり、任意の英語文章に対して発話リズムを変換することは困難であった。
廣谷定男, "発話リズムを抽出・制御する音声信号処理", NTT技術ジャーナル, 2013, pp.26-29.
非特許文献1の方法により発話リズム変換を行う場合、予めネイティブが同一文章を発声した音声から、目標となる発話リズムを求めておく必要があった。すなわち、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号が必要であった。
この発明の目的は、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる発話リズム変換装置、方法及びプログラムを提供することである。
この発明の一態様による発話リズム変換装置は、第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げたテキストの音声信号である第二音声信号に共通の音素について、第一音声信号におけるその音素の発話リズムである第一発話リズムと、第一音声信号に対応する第二音声信号におけるその音素の発話リズムである第二発話リズムとを結合したベクトルが、M個のガウス分布を混合したガウス混合分布で表現されるものとしてモデル化したものをガウス混合モデルとして、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、ガウス混合モデルを構成するM個のガウス分布の各々における第一発話リズムに対応する次元を第一ガウス分布として、入力発話リズムM個の第一ガウス分布を混合した第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの混合重みを求める重み決定部と、ガウス混合モデルを構成するM個のガウス分布の各々における第二発話リズムに対応する次元を第二ガウス分布として、第二ガウス分布を、重み決定部で求めた当該第二ガウス分布に対応する第一ガウス分布の混合重みに従い重み付き加算することにより、変換後の発話リズムを求める変換部と、変換後の発話リズムと、入力された音声の特徴量とを用いて、音声を合成する音声合成部と、を備えている。
発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる。
発話リズム変換装置の例を説明するためのブロック図。 発話リズム変換方法の例を説明するための流れ図。 時間関数φk(t)を説明するための図。
[実施形態]
以下、図面を参照して、この発明の一実施形態について説明する。発話リズム変換装置は、図1に示すように、第一特徴抽出部1、第二特徴抽出部2、ガウス混合モデル生成部3、入力音声特徴抽出部4、重み決定部5、変換部6及び音声合成部7を例えば備えている。発話リズム変換装置の各部が、図2の発話リズム変換ステップの処理を行うことにより、発話リズム変換方法が実現される。
〔発話リズムの学習〕
<第一特徴抽出部1,第二特徴抽出部2>
第一グループの話者にテキストを読み上げてもらい、その音声信号(以下、「第一音声信号」とする。)を第一特徴抽出部1に入力する。
同様に、第二グループの話者に上記テキストと同じテキストを読み上げてもらい、その音声信号(以下、「第二音声信号」とする。)を第二特徴抽出部2に入力する。上記テキストは、少なくとも1個の文章を含むとする。
第一グループの話者の人数及び第二グループの話者の人数は、それぞれ少なくとも1人以上とする。
第一グループの話者とは例えば日本語母語話者であり、第二グループの話者とは例えば英語母語話者である。以下、第一グループの話者が日本語母語話者であり、第二グループの話者が英語母語話者である場合を例に挙げて説明する。
第一特徴抽出部1は、第一音声信号に対して音素のラべリングを行う。この例では、第一音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。
第一音声信号、言い換えれば、この例では日本語母語話者の英語音声に対しては、日本語母語話者英語特有の挿入母音を特別な音素として割り当ててもよい。例えば、英単語’round’の最後の/d/を日本語母語話者は/ド/と発声するため、/d/の後ろに/o/を割り当ててもよい。また、息継ぎのタイミングの変換を行うために、無音を表す特別な音素を割り当ててもよい。
同様に、第二特徴抽出部2は、第二音声信号に対して音素のラべリングを行う。この例では、第二音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。
つぎに、第一特徴抽出部1は、時系列信号Yである第一音声信号から声道スペクトルy(例えば、p次のLSPパラメータ)を抽出し、音素ラベルを用いて、非負値時空間分解法(例えば、参考文献1参照。)により、
Figure 0006475572
の二乗誤差を最小にするΦを決定する。すなわち、yi(t)とyi(tk-1k-1(t)+ yi(tkk(t)との二乗誤差を最小にするΦを決定する。
≪参考文献1≫S. Hiroya, “Non-negative temporal decomposition of speech parameters by multiplicative update rules”, IEEE Trans. Audio, Speech, Lang. Process., 2013, pp.2108-2117.
ここで、時系列信号Yの時間長をTとし、、時刻を表すインデックスをtとし、Y={Y(1),…,Y(t),…,Y(T)}とする。LSPパラメータの分析次数の総数をp、分析次数を表すインデックスをiとすると、Y(t)={y1(t),…,yi(t),…,yp(t)}である。よって、yi(t)は、時刻tにおけるLSPパラメータの分析次数iの値を表し、単にLSPパラメータyi(t)とも記載する。
また、Φ={Φ(1),…,Φ(t),…,Φ(T)}であり、時系列信号Yに対応する音声データに含まれる音素の総数を(K-2)とし、kを音素を表すインデックス、k=1,…,Kとすると(ただし、k=1、k=Kをそれぞれ始まりと終わりを表すインデックスとする)、Φ(t)={φ1(t),…,φk(t),…,φK(t)}である。φk(t)は時刻tにおける音素kの時間関数の値を表し、単に時間関数φk(t)とも記載する。tkは、音素kの中心時刻を表す。
時刻tk-1≦t≦tk+1において、φk(t)は単峰性かつ[0,1]の範囲の値をとる。ここで、時刻tk-1≦t≦tk+1において、φk(t)の値が0.5となる時刻が2つ存在するが、それぞれtsとteとすると、Dk=te-ts+1は当該音素の継続時間長と考えることができる。Dkについては、図3を参照のこと。図3において横軸は時刻を表し、縦軸は大きさをφk(t)の大きさを表す。図3の破線はφk-1(t)を表し、太線はφk+1(t)を表す。φk(t)が単峰性であるとは、時間関数φk(t)を時間tで2回微分した関数φk''(t)が、時刻tk-1≦t≦tk+1においてφk''(t)≦0であることを意味する。D={D1,…,Dk,…,DK}とする。
隣り合う音素のみが影響を及ぼすことを考慮して、発話リズム(Φ,D)は音素単位で表現されている。
第一特徴抽出部1は、tsとteの間を予め決められた点数N(例えばN=30)で、[0.5,1,0.5]の範囲の音素k(k=1,2,…,K)のφk(t)をサンプリングし直しφk’とする。tsとteの間のサンプリング点を1,…,n,…,Nと表記すると、φk’={φk'(1),…,φk'(n),…, φk'(N)}である。Φ'={φ1’,…,φk’,…,φK’}として、第一特徴抽出部1が求めた、サンプリングし直された、第一音声信号についての発話リズム(Φ',D)を(ΦJ',DJ)と表記する。各音素kの発話リズム(ΦJ',DJ)は、ガウス混合モデル生成部3に出力される。
第二特徴抽出部2は、第一特徴抽出部1と同様にして、第二音声信号から、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を求める。第二特徴抽出部2が求めた、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を(ΦE',DE)と表記する。各音素kの発話リズム(ΦE',DE)は、ガウス混合モデル生成部3に出力される。
<ガウス混合モデル生成部3>
日本語母語話者及び英語母語話者の発話リズム(ΦJ',DJ)と(ΦE',DE)から、発話リズム変換則を求めることを考える。ここで、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeとする。すなわち、kj=keである。
ガウス混合モデル生成部3は、音素kjの発話リズム(φJ,kj’,Dkj)と、音素keの発話リズム(φE,ke’,Dke)とをベクトルとして、ガウス混合モデル(GMM)により発話リズム変換則の学習を行う。混合数Mは、予め定められた正の整数である。例えばM=1024とする。
すなわち、φJ,kj’=(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N))とし、φE,ke’=(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))として、ガウス混合モデル生成部3は、2N+2次元のベクトル(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N),Dkj, φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N),Dke)を、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeの全ての音素についての、第一特徴抽出部1で求まった発話リズムと第二特徴抽出部2で求まった発話リズムとを用いて学習する。
ここで、φJ,kj’=(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N))は、第一音声信号の音素kjについてのφk'=(φk’(1),…,φk’(n),…,φk’(N))である。また、φE,ke’=(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))は、第二音声信号の音素keについてのφk'=(φk’(1),…,φk’(n),…,φk’(N))である。
このようにして、ある音素kj,keについての発話リズム変換則ベクトルを、第一特徴抽出部1で求まったその音素kjの発話リズム(φJ,kj’,Dkj)と、第二特徴抽出部2で求まったその音素に基づく発話リズム(φE,ke’,Dke)とを少なくとも要素とするベクトルとして、ガウス混合モデル生成部3は、第一特徴抽出部1で求まった発話リズムと第二特徴抽出部2で求まった発話リズムとから発話リズム変換則ベクトルを表すガウス混合モデルを学習する。生成されたガウス混合モデルは、重み決定部5に出力される。
なお、発話リズム変換則ベクトルには、Dとφ’以外にも、声道スペクトル、文章の開始から何番目の音素かを表わすインデックス、無音であれば0、それ以外は1、または前後の音素におけるこれらのパラメータなどを加えてもよい。
〔発話リズムの変換〕
<入力音声特徴抽出部4>
入力音声特徴抽出部4は、入力された、発話リズムの変換の対象となる音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める。求まった、各音素の発話リズムは重み決定部に出力され、特徴量は音声合成部7に出力される。
発話リズムの変換の対象となる音声信号とは、この例では、日本語母語話者の英語の音声信号である。日本語母語話者が読み上げる英文のテキストは任意であり、学習で用いたテキストである必要はない。
音声信号の特徴量は、例えば、p次のLSPパラメータである。
入力音声特徴抽出部4による入力された音声信号についての各音素kの発話リズム(φk’,Dk)の求め方は、第一音声信号から第一特徴抽出部1による各音素kの発話リズム(φk’,Dk)の求め方と同様であるため、ここでは説明を省略する。
なお、以下では、入力音声特徴抽出部4で求まった発話リズムを(φ’,D)と表記する。ここで、φ=(φ1’,…,φk’,…,φK’)であり、D={D1,…,Dk,…,DK}である。
<重み決定部5>
重み決定部5は、ガウス混合モデル生成部3で生成されたガウス混合モデルの中の、第一特徴抽出部1で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、入力音声特徴抽出部4で求まった各音素kの発話リズム(φk’,Dk)に第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。求まった重みは変換部6に出力される。
すなわち、重み決定部5は、
P(φk’,Dk) = Σm=1 M πmN(φk’,Dkm)
を最大にするような重みπm(m=1,2,…,M。ただしΣm=1 M πm=1)を求める。ここで、Nは第一ガウス混合モデルを構成するm番目のガウス分布であり、λmは第一ガウス混合モデルを構成するm番目のガウス分布の平均値及び分散であり、Mは混合数を表わす。
そのために、重み決定部5は例えば、
πm = N(φk’,Dkm) /Σm=1 M N(φk’,Dkm)
となる重みπm(m=1,2,…,M)を求める。この式により求まる重みπm(m=1,2,…,M)の和は1となる。
なお、重み決定部5の処理は、入力音声特徴抽出部4で求まった各音素kについて行われる。これにより、入力音声特徴抽出部4で求まった各音素kに対応する重みπm(m=1,2,…,M)が求まる。
<変換部6>
変換部6は、ガウス混合モデルの中の、第二特徴抽出部2で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値ベクトルを重みπm(m=1,2,…,M)を用いて重み付き加算することにより、変換後の発話リズムを求める。
すなわち、変換部6は、変換後の発話リズムである(φmod’,Dmod)を以下の式により求める。ここで、φμ,mは、第二ガウス混合分布の中の、(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))に対応する次元のガウス分布のm番目のガウス分布の平均値ベクトルである。Dμ,mは、第二ガウス混合分布の中のDkeに対応する次元のガウス分布のm番目のガウス分布の平均値である。
Figure 0006475572
変換部6の処理は、入力音声特徴抽出部4で求まった各音素kに対応する重みπm(m=1,2,…,M)ごとに行われる。これにより、入力音声特徴抽出部4で求まった各音素kに対応する(φmod’,Dmod)が求まる。
なお、重み付け和を求める代わりに、最も大きい重みπmを1、それ以外を0とすることで変換を行ってもよい。この際、求められたある音素の音素継続長が、前後の音素の音素継続長と大きく異なり、不自然な音声が合成される可能性があることから、最も大きい重みπmを1とする代わりに、動的計画法により音素継続長の時間的連続性も考慮して求めたガウス分布の重みを1としてもよい。また、変換の際、日本語母語話者英語特有の挿入母音や無音に対応する発話リズムを取り除いても良い。
<音声合成部7>
音声合成部7は、変換後の発話リズム(φmod’,Dmod)と、入力音声特徴抽出部4で求まった入力された音声の特徴量とを用いて、音声を合成する。
そのために、音声合成部7は、まず、変換したφmod’とDmodより、[0.5,1,0.5]の範囲のφmodを求める。具体的には、φmod’={φmod’(1),…,φmod’(n),…,φmod’(N)}として、φmod’(1),…,φmod’(n),…,φmod’(N)を、Dmodに基づいて伸縮し、サンプリング点間の値を線形補間や、スプライン補間することにより、[0.5,1,0.5]の範囲のφmod(t)を求めることができる。
つぎに、音声合成部7は、入力された音声信号の音素の順番に従ってφmod(t)を接続する。すなわち、音素kについてのφmod(t)をφmod,k(t)として、入力された音声信号の全ての音素についての各時刻tにおけるφmod,k(t)を求める。
φmod,k-1(t),φmod,k(t),φmod,k+1(t)は[0.5,1,0.5]の範囲で定義されており、かつ、時間関数の定義よりφmod,k-1(t)+φmod,k(t)=1であるため、時刻tk-1≦t≦tsにおいてφmod,k-1(t)が決まれば、時刻tk-1≦t≦tsのφmod,k(t)は、φmod,k(t)=1-φmod,k-1(t)により計算することができる。また、時間関数の定義よりφmod,k(t)+φmod,k+1(t)=1であるため、時刻te≦t≦tk+1においてφmod,k+1(t)が決まれば、時刻te≦t≦tk+1におけるφmod,k(t)は、φmod,k(t)=1-φmod,k+1(t)により計算することができる。t<tk-1,t>tk+1のφmod,k(t)は0とする。これを、各音素kについてのφmod,k(t)について行うことにより、入力された音声信号の全ての音素についての各時刻tにおけるφmod,k(t)を求めることができる。
そして、音声合成部7は、
Figure 0006475572
により、発話リズムを変換した声道スペクトルを生成する。音声合成部7は、生成された声道スペクトルに基づいて音源信号をたたみ込むことにより、発話リズムが変換された音声を生成する。
非特許文献1では、目標となる発話リズムはネイティブのそれとなる。一方、この例による発話リズム変換では、日本語母語話者の音素情報と発話リズムを与え、目標となる発話リズムはGMMによる変換により求められる。つまり、非特許文献1では、同一文章発声においては、どの話者が発声しても同一の発話リズムに変換されてしまうが、この例による発話リズム変換では、話者の発話スタイル(話速など)を考慮した発話リズムを目標として与えることができるため、より自然な音声を合成することが可能である。
[変形例]
音声信号に対する音素ラべリングは、人手で行ってもよい。
上記方法によりDmodを求めた場合、GMMの平均値が選ばれることとなり、文章全体として発話リズムにメリハリがない音声が出力される可能性がある。そこで、重み決定部5は、学習データに含まれる英語母語話者の1文章あたりの音素継続長の分散の平均値および分散をM,Vとして、
ωN(Dmodm) + N(Dmodの分散 | M,V)
を最大にするようなDmodを求めてもよい。これにより、英語母語話者のメリハリを与えるような音素継続長を求めることができる(例えば、参考文献2参照。)。ここで、ωは重みであり、例えば0.5とする。なお、上記関数は、最急降下法などを用いて最適化を行ってもよい。
また、上記実施形態では、第一グループとして日本語母語話者、第二グループとして英語母語話者、テキストとして英語を用いたが、第一グループとしてイギリス英語母語話者、第二グループとしてアメリカ英語母語話者や、テキストとして日本語などを用いてもよい。
≪参考文献2≫T. Toda, K. Tokuda, “A speech parameter generation algorithm considering global variance for HMM-based speech synthesis”, IEICE Trans. Inf. & Syst., 2007, pp.816-824.
[プログラム及び記録媒体]
発話リズム変換装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、発話リズム変換装置における各処理をコンピュータによって実現する場合、発話リズム変換装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
1 第一特徴抽出部
2 第二特徴抽出部
3 ガウス混合モデル生成部
4 入力音声特徴抽出部
5 重み決定部
6 変換部
7 音声合成部

Claims (3)

  1. 第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号におけるその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号におけるその音素の発話リズムである第二発話リズムとを結合したベクトルが、M個のガウス分布を混合したガウス混合分布で表現されるものとしてモデル化したものをガウス混合モデルとして、
    入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、
    上記ガウス混合モデルを構成するM個のガウス分布の各々における上記第一発話リズムに対応する次元を第一ガウス分布として、上記入力発話リズム上記M個の第一ガウス分布を混合した第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの混合重みを求める重み決定部と、
    上記ガウス混合モデルを構成するM個のガウス分布の各々における上記第二発話リズムに対応する次元を第二ガウス分布として、上記第二ガウス分布を、上記重み決定部で求めた当該第二ガウス分布に対応する第一ガウス分布の混合重みに従い重み付き加算することにより、変換後の発話リズムを求める変換部と、
    上記変換後の発話リズムと、上記入力された音声の特徴量とを用いて、音声を合成する音声合成部と、
    を含む発話リズム変換装置。
  2. 一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号におけるその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号におけるその音素の発話リズムである第二発話リズムとを結合したベクトルが、M個のガウス分布を混合したガウス混合分布で表現されるものとしてモデル化したものをガウス混合モデルとして、
    入力音声特徴抽出部が、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出ステップと、
    重み決定部が、上記ガウス混合モデルを構成するM個のガウス分布の各々における上記第一発話リズムに対応する次元を第一ガウス分布として、上記入力発話リズムに上記M個の第一ガウス分布を混合した第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの混合重みを求める重み決定ステップと、
    変換部が、上記ガウス混合モデルを構成するM個のガウス分布の各々における上記第二発話リズムに対応する次元を第二ガウス分布として、上記第二ガウス分布を、上記重み決定ステップで求めた当該第二ガウス分布に対応する第一ガウス分布の混合重みに従い重み付き加算することにより、変換後の発話リズムを求める変換ステップと、
    音声合成部が、上記変換後の発話リズムと、上記入力された音声の特徴量とを用いて、音声を合成する音声合成ステップと、
    を含む発話リズム変換方法。
  3. 請求項1の発話リズム変換装置の各部としてコンピュータを機能させるためのプログラム。
JP2015106228A 2015-05-26 2015-05-26 発話リズム変換装置、方法及びプログラム Active JP6475572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015106228A JP6475572B2 (ja) 2015-05-26 2015-05-26 発話リズム変換装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015106228A JP6475572B2 (ja) 2015-05-26 2015-05-26 発話リズム変換装置、方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018160588A Division JP6538944B2 (ja) 2018-08-29 2018-08-29 発話リズム変換装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016218386A JP2016218386A (ja) 2016-12-22
JP6475572B2 true JP6475572B2 (ja) 2019-02-27

Family

ID=57581020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015106228A Active JP6475572B2 (ja) 2015-05-26 2015-05-26 発話リズム変換装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6475572B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020136948A1 (ja) * 2018-12-26 2020-07-02 日本電信電話株式会社 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5143809B2 (ja) * 2009-10-09 2013-02-13 日本電信電話株式会社 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム
JP6167063B2 (ja) * 2014-04-14 2017-07-19 日本電信電話株式会社 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム

Also Published As

Publication number Publication date
JP2016218386A (ja) 2016-12-22

Similar Documents

Publication Publication Date Title
KR102199050B1 (ko) 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
JP5323212B2 (ja) 複数言語音声認識
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP6392012B2 (ja) 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
JP2018146803A (ja) 音声合成装置及びプログラム
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
Kardava et al. Solving the problem of the accents for speech recognition systems
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6538944B2 (ja) 発話リズム変換装置、方法及びプログラム
JP6475572B2 (ja) 発話リズム変換装置、方法及びプログラム
El Amrani et al. Towards using CMU sphinx tools for the holy Quran recitation verification
JP7357518B2 (ja) 音声合成装置及びプログラム
Louw et al. The Speect text-to-speech entry for the Blizzard Challenge 2016
Souza et al. An automatic phonetic aligner for Brazilian Portuguese with a Praat interface
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Hoffmann Analysis-by-Synthesis in Prosody Research
KR20210019151A (ko) 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
Turk et al. An Edinburgh speech production facility

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190201

R150 Certificate of patent or registration of utility model

Ref document number: 6475572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150