JP2019101391A - 系列データ変換装置、学習装置、及びプログラム - Google Patents
系列データ変換装置、学習装置、及びプログラム Download PDFInfo
- Publication number
- JP2019101391A JP2019101391A JP2017248427A JP2017248427A JP2019101391A JP 2019101391 A JP2019101391 A JP 2019101391A JP 2017248427 A JP2017248427 A JP 2017248427A JP 2017248427 A JP2017248427 A JP 2017248427A JP 2019101391 A JP2019101391 A JP 2019101391A
- Authority
- JP
- Japan
- Prior art keywords
- data
- conversion
- unit
- distance
- converter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
Description
2017年12月1日
CS研 基メ部 基識G金子卓弘、亀岡弘和
これらの手法の多くは,パラレルデータを用いて変換音声の特徴量が目標音声の特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし,用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また,仮にそのようなペアデータが用意できる場合でも,高い精度の時間整合が必要となり,これを自動処理で行う際は整合ミスを修正するため目視または手動によるプレスクリーニングが必要となる。
そこで,本稿ではパラレルデータを必要としないパラレルデータフリーな声質変換手法を提案する。提案法は,(1)テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点,(2)従来の多くの声質変換法においてしばしば問題とされる音響パラメータの過剰平滑化が起こりにくい点,(3)変換元と変換目標の音声の時間周波数構造を捉えた変換が可能である点,を特長にもつ。
以上の提案法の特長は,(Disco−GANおよびDualGANという別称としても知られる)Cyclic−consistent adversarial network(CycleGAN)を用いることにより実現している。CycleGANは元々,画像のスタイル変換の方法として提案されたもので,変換元のデータから変換目標のデータへの順方向の変換関数とともに,変換目標データから変換元データへの逆方向の変換関数を同時に学習することで,変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はCycleGANを声質変換問題に適用し,敵対的学習規範(Adversarial loss),循環無矛盾性規準(Cyclic−consistency loss),および恒等写像誤差(Identity−mapping loss)の和を学習規準とすることにより変換元音声から目標音声への音声特徴量の変換関数の学習を可能にしている。循環無矛盾性規準は,変換元データの順変換の逆変換が,どれくらい元通りに変換元データに一致するかを表した規準,および,変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は,変換されたデータと変換目標の実データとが,識別器によってどれくらい区別しやすいかを表した規準で,これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は,変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また,提案法では,順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え,いずれもGated Convolutional Neural Networkにより記述することにより,特徴量変換則に時間依存関係を反映できるようにしている。
上記では,系列データ変換の代表例である声質変換に着目し述べてきたが,より一般的な系列データ変換(例えば,曲調変換,テキスト変換など)でも同様の課題意識はあり,これらに対して,提案手法の特長である(1)データやモジュールを別途必要としない点,(2)特徴量系列の過剰平滑化が起こりにくい点,(3)変換元と変換目標の系列データの系列的・階層的構造を捉えた変換が可能である点,を活かすことが可能である。
本発明の、系列データ変換装置の原理について説明する。
3.CycleGANを用いたパラレルデータフリー系列データ変換
本研究の目的は,ドメインXの系列データx∈XからドメインYの系列データy∈Yへの変換関数をパラレルデータを要することなく学習することである。本研究では,この問題をCycleGAN[14]をベースにして解く。本章では,まず,第4.1節でCycleGANを概説する。CycleGANの元論文では画像データを扱っていたが,本研究の対象は音声データなどの系列データである。系列データを扱う上で重要な工夫点,つまり,我々の提案するパラレルデータフリー系列データ変換手法について第4.2節で述べる。
3.1 CycleGAN
CycleGANでは,変換関数GX→YをAdversarial lossとCycle−consistency lossの二つの損失関数を用いて学習する。学習処理を図3−1に示し、(a)は変換元データの順変換の逆変換が,どれくらい元通りに変換元データに一致するかを表した規準,および,(b)は目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準を示す。
Adversarial loss:Adversarial Loss は,変換データGX→Y(x)が,変換対象ドメインのデータyとしての妥当度合いを測る損失関数であり,変換データの分布PGX→Y(x)と変換対象ドメインのデータ分布PData(y)が近づいたとき,この損失関数の値は小さくなる。
Adversarial lossの定式化として,Generative adversarial network(GAN)[4]を用いた場合,目的関数は以下のようになる。
Cycle−consistency loss:Adversarial lossのみでは,GX→Y(x)が変換対象ドメインのデータ分布に従うようにする制約しか与えられないため,xとのGX→Y(x)の間でコンテキスト情報が保持されるとは限らない。そこで,Cycle−GANではさらに二つの制約を加えることによってこの問題に対処を行う。一つ目
う一つが,Cycle−consistency lossで以下で与えられる。
これら追加した項によって,GX→YとGY→Xは,様々な変換先の候補の中から類似したコンテキスト情報を持った(x,y)のペアデータを擬似的に見つけるよう促進される。
全体の目的関数は,トレードオフパラメータλcycを用いて以下で表される。
CycleGANをパラレルデータフリー系列データ変換に適用するために,本研究では二つの修正を提案する。一つ目がGated CNN[3]を用いた系列データのモデリングと,二つ目がIdentity−mapping loss[9]を用いた言語情報の保持である。なお,本論文では系列データの一例として音声変換を中心に説明を行っているが,提案手法は系列データ一般に有効なものであり,音声データだけに縛られないものであることに留意されたい。
Gated CNN:系列データの特徴として,系列的な構造を持っているということと階層的な構造を持っているということの二点が挙げられる。例えば,音声データの場合であれば,有声・無声区間,音素・形態素などの系列的,階層的構造がある。ニューラルネットワークを用いて,このような構造を捉えようとした場合,ネットワークの構成方法が一つ鍵になる。そこで,本研究では,CycleGANに系列関係・階層関係の表現が可能なモデルの導入すること提案する。具体的には,Gated CNNを用いる。他にも,RNN(LSTMなど)も利用することが可能であるが,RNNは再帰的な構造を持っており並列化が難しく計算コストが高いため,ここではGated CNNを用いる。なお,ここで重要なのは系列構造,階層構造を捉えられるようなモデルを使うということであり,近年提案されているCNNとRNNのハイブリッドであるQuasi−RNN[2]などを用いてもよい。
Gated CNNは,元論文[3]では言語モデリングにおいて最新の性能を示しているものであり,近年,音声モデリングにおいても有効性を示している[5]。
Gated CNNでは,Gated linear units(GLUs)が活性化関数として用いられており,(l+1)層の出力Hl+1は,l層の出力HlとモデルパラメータWl,Vl,bl,clを用いて以下の式により計算できる。
Identity−mapping loss:系列データを変換しようとした場合,意味的な情報の保持も一つの重要な要求項目になる。例えば,音声変換の場合であれば,変換をしたいのは話者性であり,発話内容(言語情報)については保持されることが要求される。上述したように,CycleGANにおいては,Cycle−consistency lossがコンテキスト情報の保持に寄与するが,この制約は,順変換し逆変換したら戻るという緩い制約にとどまっており,言語情報の保持については十分な働きをしない。この問題を音声認識器などの外部モジュールを要することなく解決するために,本研究では,Identity−mapping loss[9]の利用を提案する。Identity−mapping lossは以下の式で表される。
上式では,二つのデータ間の距離を測る方法としてL1を用いた場合を示したが,これは任意の距離尺度を用いることが可能であり,例えば,L2距離やKullback−Leibler divergence,あるいは,任意の特徴量抽出器を用意し,その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については,例えばニューラルネットワークを用いて構成することも可能である。例えば,上記識別器を特徴抽出器として用いることができ,識別器内の特徴量空間で距離を測ってもよい。
なお,このIdentity−mapping lossは学習の方向性を導くような制約であり,学習の全期間にわたり用いるのではなく,学習の初期段階のみ用いるようにしてもよい。
4.全体構成及び各フロー
4.1
全体構成図を図4.1に示し、各部について下記のとおり説明する。
データ変換装置は、機能的には入力部100と、制御部200と、出力部300を含んで構成される。
入力部100は、データ群Xに含まれるデータと、データ群Yに含まれるデータとを受け付ける。
具体的には、データ群Xに含まれるデータx∈Xと、データ群Yに含まれるデータy∈Yを受け付ける。
制御部200は、順変換部210と、状態判断部220と、逆変換部230と、順逆変換距離測定部240と、自己変換部250と、自変換距離測定部260と、ニューラルネットワーク記憶部270と、学習部280と、変換部290とを含んで構成される。
順変換部210は、入力されたデータ群Xのデータを、変換器GX→Yによって変換データ群XYのデータに変換する。また、順変換部210は、入力されたデータ群Yのデータを、変換器GY→Xによって変換データ群YXのデータに変換する。
具体的には、順変換部210は、データ群Xのデータサンプルxを、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群XYのデータGX→Y(x)に変換する。また、順変換部210は、データ群Yのデータサンプルyを、ニューラルネットワーク記憶部270に記憶された変換器GY→Xによって変換データ群YXのデータGY→X(y)に変換する。
状態判断部220は、順変換部210によって得られた変換データ群XYのデータと、入力データyとの各々について、状態判断器DYを用いて状態判断を行う。また、状態判断部220は、順変換部210によって得られた変換データ群YXのデータと、入力データxとの各々について、状態判断器DXを用いて状態判断を行う。
具体的には、状態判断部220は、ニューラルネットワーク記憶部270に記憶されたデータ群Yの状態判断器DYによって、変換データ群XYのデータGX→Y(x)の状態判断と入力データyの状態判断を行い、各々の判断結果DY(GX→Y(x))とDY(y)を学習部280に渡す。また、状態判断部220は、ニューラルネットワーク記憶部270に記憶されたデータ群Xの状態判断器DXによって、変換データ群YXのデータGY→X(y)の状態判断と入力データxの状態判断を行い、各々の判断結果DX(GY→X(y))とDX(x)を学習部280に渡す。
逆変換部230は、順変換部210によって得られた変換データ群XYのデータを変換器GY→Xによって変換データ群XYXのデータに変換する。また、逆変換部230は、順変換部210によって得られた変換データ群YXのデータを変換器GX→Yによって変換データ群YXYのデータに変換する。
具体的には、逆変換部230は、変換データ群XYのデータGX→Y(x)を、ニューラルネットワーク記憶部270に記憶された変換器GY→Xによって変換データ群XYXのデータGY→X(GX→Y(x))に変換する。また、逆変換部230は、変換データ群YXのデータGY→X(y)を、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群YXYのデータGX→Y(GY→X(y))に変換する。
順逆変換距離測定部240は、入力されたデータ群Xのデータと、逆変換部230によって得られた変換データ群XYXのデータとの距離を距離測定器M1によって測定する。また、順逆変換距離測定部240は、入力されたデータ群Yのデータと、逆変換部230によって得られた変換データ群YXYのデータとの距離を距離測定器M1によって測定する。
具体的には、順逆変換距離測定部240は、入力されたデータ群Xのデータxと、逆変換部230によって得られた変換データ群XYXのデータGY→X(GX→Y(x))との距離を距離測定器M1によって測定し、距離の測定結果M1(x,GY→X(GX→Y(x)))を学習部280に渡す。また、順逆変換距離測定部240は、入力されたデータ群Yのデータyと、逆変換部230によって得られた変換データ群YXYのデータGX→Y(GY→X(y))との距離を距離測定器M1によって測定し、距離の測定結果M1(y,(GX→Y(GY→X(y)))を学習部280に渡す。
なお、距離測定器M1の距離基準としては、例えば、L1距離やL2距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ネットワーク記憶部270に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。
自己変換部250は、入力されたデータ群Yのデータを、変換器GX→Yによって変換データ群YYのデータに変換する。また、自己変換部250は、入力されたデータ群Xのデータを、変換器GY→Xによって変換データ群XXのデータに変換する。
具体的には、自己変換部250は、入力されたデータ群Yのデータyを、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群YYのデータGX→Y(y)に変換する。また、自己変換部250は、入力されたデータ群Xのデータxを、ニューラルネットワーク記憶部270に記憶された変換器GY→Xによって変換データ群XXのデータGY→X(x)に変換する。
自己変換距離測定部260は、入力されたデータ群Yのデータと、自己変換部250によって得られた変換データ群YYのデータとの距離を距離測定器M2によって測定する。また、自己変換距離測定部260は、入力されたデータ群Xのデータと、自己変換部250によって得られた変換データ群XXのデータとの距離を距離測定器M2によって測定する。
具体的には、自己変換距離測定部260は、入力されたデータ群Yのデータyと、自己変換部250によって得られた変換データ群YYのデータ(GX→ Y(y))との距離を距離測定器M2によって測定し、距離の測定結果M2(y,GX→Y(y))を学習部280に渡す。また、自己変換距離測定部260は、入力されたデータ群Xのデータxと、自己変換部250によって得られた変換データ群XXのデータ(GY→X(x))との距離を距離測定器M2によって測定し、距離の測定結果M2(x,GY→X(x))を学習部280に渡す。
なお、距離測定器M2の距離基準としては、例えば、L1距離やL2距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ネットワーク記憶部270に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。
ニューラルネットワークの記憶部270は、変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークを記憶している。順逆変換距離測定部240、または、自己変換距離測定部270で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークを記憶している。
変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、Gated CNNやLSTMを用いる。
順逆変換距離測定部240、または、自己変換距離測定部270で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、Gated CNNやLSTMを用いる。
学習部280は、状態判断部220によって判断した結果について、変換データ群XYのデータの状態判断結果と入力データyの状態判断結果が近くなるように、変換データ群YXのデータの状態判断結果と入力データxの状態判断結果が近くなるように、順逆変換距離測定部240によって測定された距離を最小化するように、自己変換距離測定部260によって測定された距離を最小化するように、変換器としてのニューラルネットワークを学習する。
また、状態判断部220によって判断した結果について、変換データ群XYのデータの状態判断結果と入力データyの状態判断結果の差異が明確になるように、また、変換データ群YXのデータの状態判断結果と入力データxの状態判断結果の差異が明確になるように、状態判断器としてのニューラルネットワークを学習する。
具体的には、学習部280は、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の値が近くなるように、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の値が近くなるように、順逆変換距離測定部240によって測定された距離M1(x,GY→X(GX→Y(x)))とM1(y,GX→Y(GY→X(y)))とを最小化するように、自己変換距離測定部260によって測定された距離M2(y,GX→Y(y))とM2(x,GY→X(x))とを最小化するように、変換器としてのニューラルネットワークGX→YとGY→Xを学習する。
より具体的には、学習部280において、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の値が同じなるようにする目的関数としては、例えば、状態判断器DYとして入力データyが与えられた時は確率pを出力し、変換データGX→Y(x)が与えられた時は確率1−pを出力するようなものを考えた場合、Ladv(GX→Y,DY)(論文の式(1))を最小化すればよい。同様に、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の値が同じなるようにする目的関数としては、例えば、状態判断器DXとして入力データxが与えられた時は確率pを出力し、変換データGY→X(y)が与えられた時は確率1−pを出力するようなものを考えた場合、Ladv(GY→X,DX)を最小化すればよい。
なお、学習部280において、自己変換距離測定部260によって測定された距離を最小化する制約は、学習の初期段階で学習を安定化させるためにのみ用い、学習が安定化した後は用いなくてもよい。
また、学習部280において、自己変換距離測定部260によって測定された距離を最小化する制約は、学習において補助的な役割を担うものであり、用いなくても学習が安定しているのであれば、用いなくてもよい。
そして、学習部280は、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の差異が明確になるように、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の差異が明確になるように、状態判断器としてのニューラルネットワークDYとDXとを学習する。
具体的には、学習部280において、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の差異が明確になるようにする目的関数としては、例えば、状態判断器DYとして入力データyが与えられた時は確率pを出力し、変換データGX→Y(x)が与えられた時は確率1−pを出力するようなものを考えた場合、Ladv(GX→Y,DY)(論文の式(1))を最大化すればよい。同様に、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の差異が明確になるようにする目的関数としては、例えば、状態判断器DXとして入力データyが与えられた時は確率pを出力し、変換データGY→X(y)が与えられた時は確率1−pを出力するようなものを考えた場合、Ladv(GY→X,DX)を最大化すればよい。
なお、論文の[式1]では、目的関数内でCross Entropyを用いているが、代わりにEuclidean距離や、Earth Mover距離、エネルギー関数に基づく距離を用いてもよい。
そして、学習部280は、学習結果をニューラルネットワーク記憶部270に渡す。
変換部290は、学習部280によって学習された変換器を用いて、入力された変換対象のデータを変換する。
具体的には、変換部290は、入力部100が入力データとしてデータ群Xのデータxを受け取った場合、変換器GX→Yとしてのニューラルネットワークを、ニューラルネットワークの記憶部270から取得する。そして変換部290は、変換器GX→Yのニューラルネットワークを用いて、変換対象であるデータxを変換データGX→Y(x)に変換する。同様に、変換部290は、入力部100が入力データとしてデータ群Yのデータyを受け取った場合、変換器GY→Xとしてのニューラルネットワークを、ニューラルネットワークの記憶部270から取得する。そして変換部290は、変換器GY→Xのニューラルネットワークを用いて、変換対象であるデータyを変換データGY→X(y)に変換する。
出力部300は、変換部290が変換した変換結果である変換データを出力する。
具体的には、出力部300は、入力部100が入力データとしてデータ群Xのデータxを受け取った場合、変換部290が変換した変換結果である変換データGX→Y(x)を出力する。同様に、出力部300は、入力部100が入力データとしてデータ群Yのデータyを受け取った場合、変換部290が変換した変換結果である変換データGY→X(y)を出力する。
以下に、実施形態を示す。
変換器を用いて、一方のドメインのデータ(順変換入力データ)から、もう一方のドメインのデータ(順変換出力データ)へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ(逆変換出力データ)に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
前記変換部が変換したデータを出力する出力部
を含む系列データ変換装置。
前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
を含む系列データ変換装置。
4.2
学習時の処理ルーチンを図4.2に示し、各ステップについて下記のとおり説明する。
1.入力部100にデータ群Xのデータと、データ群Yのデータとが入力されると、データ変換装置において、学習処理フローが実行される。
2.まず、ステップS100において、順変換部210と自己変換部250は、入力部100から、データ群Xのデータと、データ群Yのデータを取得する。
3.具体的には、入力部100は、データ群Xからランダムに選択されたデータx∈Xと、データ群Yからランダムに選択されたデータy∈Yとを、順変換部210と自己変換部250に渡す。なお、ランダムにデータを選択する際、二つのデータxとyは対応関係が取れている必要はない。例えば、音声データであれば、xとyは同じ発話内容のデータである必要はない。
4.ステップS110において、順変換部210は、変換器GX→Yを用いてxをGX→Y(x)に変換する。また、順変換部210は、変換器GY→Xを用いてyをGY→X(y)に変換する。
5.ステップS120において、状態判断部220は、状態判断器DYを用いて、GX→Y(x)の状態判断結果DY(GX→Y(x))と、yの状態判断結果DY(y)を取得する。また、状態判断部220は、状態判断器DXを用いて、GY→X(y)の状態判断結果DX(GY→X(y))と、xの状態判断結果DX(x)を取得する。
6.ステップS130において、逆変換部230は、変換器GY→Xを用いてGX→Y(x)をGY→X(GX→Y(x))に変換する。また、逆変換部230は、変換器GX→Yを用いてGY→X(y)をGX→Y(GY→X(y))に変換する。
7.ステップS140において、順逆変換距離測定部240は、距離測定器M1を用いてxとGY→X(GX→Y(x))の距離M1(x,GY→X(GX→Y(x)))を測定する。また、順逆変換距離測定部240は、距離測定器M1を用いてyとGX→Y(GY→X(y))の距離M1(y,GX→Y(GY→X(y)))を測定する。
8.ステップS150において、自己変換部250は、変換器GX→Yを用いてyをGX→Y(y)に変換する。また、自己変換部250は、変換器GY→Xを用いてxをGY→X(x)に変換する。
9.ステップS160において、自己変換距離測定部260は、距離測定器M2を用いてyとGX→Y(y)の距離M2(y,GX→Y(y))を測定する。また、自己変換距離測定部260は、距離測定器M2を用いてxとGY→X(x)の距離M2(x,GY→X(x))を測定する。
10.ステップS170において、学習部280は、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の値が近くなるように、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の値が近くなるように、順逆変換距離測定部240によって測定された距離M1(x,GY→X(GX→Y(x)))とM1(y,GX→Y(GY→X(y)))とを最小化するように、自己変換距離測定部250によって測定された距離M2(y,GX→Y(y))とM2(x,GY→X(x))とを最小化するように、変換器としてのニューラルネットワークGX→YとGY→Xを学習し、ニューラルネットワークの記憶部270に記憶されている、変換器としてのニューラルネットワークGX→YとGY→Xのパラメータを更新する。
11.また、学習部280は、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の差異が明確になるように、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の差異が明確になるように、状態判断器としてのニューラルネットワークDYとDXとを学習し、ニューラルネットワークの記憶部270に記憶されている、状態判断器としてのニューラルネットワークDYとDXのパラメータを更新する。
12.ステップS180において、全てのデータについて終了したか否かを判断する。
13.全てのデータについて終了していない場合(ステップS180のNO)、ステップS100に戻り、再度ステップS100〜S170の処理を行う。
14.一方、全てのデータについて終了している場合(ステップS180のYES)、処理を終了する。
4.3変換時の処理ルーチン
変換時の処理ルーチンを図4.3に示し、各ステップについて下記のとおり説明する。
1.入力部100に、変換対象のデータx∈X、または、変換対象のデータy∈Yが入力されると、データ変換装置において、データ変換処理フローが実行される。ここでは、変換対象のデータx∈Xが入力された場合を説明する。なお、変換対象のデータy∈Yが入力された場合も、処理は同様である。
2.ステップS200において、変換部290は、入力部100から、入力された変換対象のデータxを取得する。
3.ステップS210において、変換部290は、ニューラルネットワークの記憶部270から、学習部280によって学習された変換器GX→Yのニューラルネットワークを取得する。
4.ステップS220において、変換部290は、変換器GX→Yを用いて、入力された変換対象のデータxをGX→Y(x)に変換する。
5.ステップS230において、出力部300は、変換部290によってデータxが変換された変換データGX→Y(x)を出力する。
5 評価実験
5.1 実験設定
提案手法は,系列データ変換一般に適用可能なものであるが,実験では一例としてパラレルデータフリーの音声変換に提案手法を適用し,評価を行った。データとしては,VCC 2016 dataset[12]を用いた。本データセットには,プロのアメリカ英語の発話音声が収録されており,5人の男性話者,5人の女性話者を含む。各話者のデータは216個の短文(約13分)に分けられ,そのうち162文は学習用に用いられ,54文は評価用に用いられる。提案手法をパラレルデータなしの条件下で評価するため,提案手法を学習する際は,学習用データ162文のうち,前半の81文をソース音声として用い,後半の81文をターゲット音声として用いた。つまり,ソース音声とターゲット音声間で重複した発話がない条件下で学習を行った。音声データは16kHzにダウンサンプリングされており,24次元のメルケプストラム(MCEP),対数基本周波数(log F0),非同期性指標(AP)をWORLD分析システム[8]を用いて5msで抽出を行った。これらの音声特徴量のうち,メルケプストラムに対して,提案手法を適用し変換を行った。基本周波数については,Logarithm Gaussian normalized transformation[6]を用い,非同期性指標については,変換しても有意差がないことが示されており,ソース音声のものをそのまま用いた。
5.2客観評価
本実験では,提案手法の適用対象はメルケプストラムであるため,変換メルケプストラムの質について客観評価を行った。比較手法としては,パラレルデータありの音声変換で代表的な方法の一つであるGMMベースの音声変換[11]を用いた。GMMベースの音声変換は,学習にパラレルデータが必要であるため,学習用データ162文全てを用いた。なお,提案手法はパラレルデータなしでかつデータ量は半分という不利な状況で学習していたことに留意されたい。また,評価データとしては,ソース音声にはSF1とSM1,ターゲット音声にはTF2とTM3を用いた。
評価指標としては,音声品質の主観評価と相関が高いと言われているGlobal variance(GV)[11]とModulation spectra(MS)[10]を用いた。図5−1に,提案手法(Proposed),比較手法(Conventional),ターゲット音声(Target)のメルケプストラムの次数ごとのGVの比較を示す。この結果より,提案手法では比較手法よりもターゲット音声に近いGVが得られていることが分かる。
図5−2に,提案手法(Proposed),比較手法(Conventional),ターゲット音声(Target)の変調周波数ごとのMSの比較を示す。この結果より,提案手法では比較手法よりもターゲット音声に近いMSが得られていることが分かる。
表1に,ターゲット音声と変換音声の対数MSのRoot mean square error(RMSE)の比較を示す。これらの値は小さい方が変換音声がターゲット音声に近いことを示しており,実験結果より,提案手法の方が比較手法よりターゲット音声に近い対数MSが得られていることが分かる。
5.3主観評価
主観評価実験については,VCC2016[13]のプロトコルに従い,自然性と話者性の評価を行った。比較手法としては,GMMベースのパラレルデータありの変換手法[11]を用いた。まず,自然性の評価についてはMean opinion score(MOS)テストを行った。評価データとしては,評価用データの中から2秒以上5秒以下のデータをランダムに20文選択し用いた。被験者としては英語教育を十分に受けた9人が参加した。MOSテストの結果は,同性話者間の音声変換(SF1−TF2)の場合,提案手法が2.4,比較手法が1.3,また,異性話者間の音声変換(SF1−TM3)の場合,提案手法が2.3,比較手法が1.4であった。このスコアは値が大きいほど自然性が高いことを示しており,自然性の主観評価においても提案手法が比較手法が上回ることが示された。
話者性の評価については,異なる発話内容に対して同一人物が話したように聞こえるかどうかという基準に従って評価を行った。評価データとしては,評価用データの中からランダムに10セット選択し用いた。被験者としては英語教育を十分に受けた9人が参加した。図5−3に同性話者間の音声変換(SF1−TF2)の場合の結果を示す。この図では,提案手法の方が比較手法よりも「ターゲット音声と絶対同じ」と答えた割合が多くなっている。この結果より,話者性においても提案手法の優位性が分かる。
参考文献
[1]Martin Arjovsky,Soumith Chintala,and L_eon Bottou.Wassersteingan.In proc.ICML,2017.
[2]James Bradbury,Stephen Merity,Caiming Xiong,and Richard Socher.Quasi−recurrent neural networks.In Proc.ICLR,2017.
[3]Yann N Dauphin,Angela Fan,Michael Auli,and David Grangier.Lan−guage modeling with gated convolutional networks.In Proc.ICML,pages 933{941,2017.
[4]Ian Goodfellow,Jean Pouget−Abadie,Mehdi Mirza,Bing Xu,DavidWarde−Farley,Sherjil Ozair,Aaron Courville,and Yoshua Bengio.Gen−erative adversarial nets.In Proc.NPIS,pages2672{2680,2014.
[5]Takuhiro Kaneko,Hirokazu Kameoka,Kaoru Hiramatsu,and KunioKashino.Sequence−to−sequence voice conversion with similaritymet−ric learned using generative adversarial networks.In Proc.INTER−SPEECH,pages 1283{1287,2017.
[6]Kun Liu,Jianping Zhang,and Yonghong Yan.High quality voiceconversion through phoneme−based linear mapping functions with STRAIGHT for Mandarin.In Proc.FSKD,pages 410{414,2007.
[7]Xudong Mao,Qing Li,Haoran Xie,Raymond YK Lau,ZhenWang,and Stephen Paul Smolley.Least squares generative adversarialnetworks.In Proc.ICCV,2017.
[8]Masanori Morise,Fumiya Yokomori,and Kenji Ozawa.WORLD:A vocoder−based high−quality speech synthesis system for real−time appli−ations.IEICE Trans.Inf.Syst.,99(7):1877{1884,2016.
[9]Yaniv Taigman,Adam Polyak,and Lior Wolf.Unsupervised cross−domain image generation.In Proc.ICLR,2017.
[10]Shinnosuke Takamichi,Tomoki Toda,Graham Neubig,Sakriani Sakti,and Satoshi Nakamura.A post_lter to modify the modulation spectrum in HMM−based speech synthesis.In Proc.ICASSP,pages290{294,2014.
[11]Tomoki Toda,Alan W Black,and Keiichi Tokuda.Voice conversion ased on maximum−likelihood estimation of spectral parameter tra−jectory.IEEE/ACM Trans.Audio Speech Lang.Process.,15(8):2222{2235,2007.
[12]Tomoki Toda, Ling−Hui Chen,Daisuke Saito,Fernando Villavicencio,Mirjam Wester,Zhizheng Wu,and Junichi Yamagishi.The Voice Conversion Challenge 2016.In Proc.INTERSPEECH,pages1632{1636,2016.
[13]Mirjam Wester,Zhizheng Wu,and Junichi Yamagishi.Analysis ofthe Voice Conversion Challenge 2016 evaluation results.In Proc.INTER−SPEECH,pages 1637{1641,2016.
[14]Jun−Yan Zhu,Taesung Park,Phillip Isola,and Alexei A.Efros.Un−paired image−to−image translation using cycle−consistent adversarial networks.In Proc.ICCV,pages 2223{2232,2017.
入力音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい,テキスト音声合成の話者性変換,発声支援,音声強調,発音変換などへの応用が可能である。声質変換の問題は,変換元の音声の特徴量から変換目標の音声の特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model; GMM) を用いた手法はその有効性と汎用性から広く用いられている。また,近年では,制約つきボルツマンマシン,フィードフォワード型ニューラルネットワーク(Neural Network; NN) , 再帰型NN(Recurrent NN; RNN) , 畳み込み型NN(Convolutional NN; CNN)などのNN 系の手法や非負値行列因子分解(Nonnegative Matrix Factorization; NMF) などを用いた事例(Exemplar)ベースの手法の検討も進められている。
本稿では、パラレルデータフリーな系列データ変換手法を提案する。提案法は、変換元系列データと変換目標系列データのパラレルデータを用いずとも系列データ変換を可能にする点、従来の多くの系列データ変換法(例えば声質変換法)においてしばしば問題とされる系列データ(例えば音響パラメータ)の過剰平滑化が起こりにくい点を特長にもつ。以上の提案法の特長は、Cyclic-consistent adversarial network (CycleGAN)を用いることにより実現している。CycleGAN は元々、画像のスタイル変換の方法として提案されたもので、変換元のデータから変換目標のデータへの順方向の変換関数とともに、変換目標データから変換元データへの逆方向の変換関数を同時に学習することで、変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はCycleGAN を系列データ変換問題に適用し、敵対的学習規範(Adversarial loss)、循環無矛盾性規準(Cyclic-consistency loss)、および恒等写像誤差(Identity-mapping loss)の和を学習規準とすることにより変換元系列データから目標系列データへの特徴量系列の変換関数の学習を可能にしている。循環無矛盾性規準は、変換元データの順変換の逆変換が、どれくらい元通りに変換元データに一致するかを表した規準、および、変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は、変換されたデータと変換目標の実データとが、識別器によってどれくらい区別しやすいかを表した規準で、これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は、変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また、提案法では、順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え、いずれもGated Convolutional Neural Network により記述することにより、特徴量変換則に時間依存関係を反映できるようにしている。実験では、声質変換のタスクに提案手法を適用し評価を行った。定量評価実験により、提案法による変換音声が、変換目標の実音声と近いGlobal Variance (GV)とModulation Spectra (MS)をもつことを確認した。また、主観評価実験により、パラレルデータを用いた声質変換法と比べ、同等以上の自然性および目標話者への類似度が得られることを確認した。
系列データから系列データに変換するタスクの代表例である声質変換における関連研究について述べる。上述のように声質変換の従来法には、パラレルデータを用いることを想定したものが多いが、パラレルデータを必ずしも必要としない方法も最近いくつか提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音声特徴量をペアとすることでパラレルデータを構築する。この方法は、音声認識が極めて高い精度で行えることが想定されるが、そのためには音声認識自体を学習するための大量の音声コーパスが必要となる場合があるため、利用場面によっては難点になりえる。他の手法例としては話者適応技術を用いるものがある。この方法は、変換元音声と変換目標音声のパラレルデータに関しては準備する必要はないが、話者空間を学習するための参照音声のパラレルデータは必要となる。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方法の検討も進められている。これらの方法では、変換元音声と変換目標音声がいずれも低次元の埋め込み空間に属することが仮定されるため、音声のスペクトログラムの細部や詳細な成分をモデル化することが難しくなっている。これらに対し、提案法は変換元の系列データから変換目標の系列データへのマッピングを直接する学習する方法となっている。提案法のこの特徴は、声質変換のように変換されたデータの細部や詳細な構造のリアルさが重要となるタスクにおいては特に利点が大きい。
以下、本発明の実施の形態について説明する。本発明の、系列データ変換装置の原理について説明する。
と変換対象ドメインのデータ分布PData(y)が近づいたとき、この損失関数の値は小さくなる。Adversarial lossの定式化として、Generative adversarial network (GAN) (非特許文献4)を用いた場合、目的関数は以下のようになる。
である。もう一つが、Cycle-consistency lossで以下で与えられる。
は、l 層の出力
とモデルパラメータ
を用いて以下の式により計算できる。
は要素積であり、σはシグモイド関数である。このゲートメカニズムによって、ネットワーク間で情報伝播を行う際、前層の情報に応じて選択的に伝播を行うことが可能である。
を式(3)とともに用いる。
全体構成図を図2に示し、各部について下記のとおり説明する。
二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ(順変換入力データ)から、もう一方のドメインのデータ(順変換出力データ)へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ(逆変換出力データ)に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
前記変換部が変換したデータを出力する出力部を含む系列データ変換装置。
前記系列データ変換装置において、前記順変換部の変換器が変換対象とするドメインのデータ(自己変換入力データ)に対して、前記変換器によって変換してデータ(自己変換出力データ)を得る自己変換部と、
前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
を含む系列データ変換装置。
学習時の処理ルーチンを図5に示し、各ステップについて下記のとおり説明する。
5.1 実験設定
Claims (5)
- 概要1
二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ(順変換入力データ)から、もう一方のドメインのデータ(順変換出力データ)へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ(逆変換出力データ)に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
前記変換部が変換したデータを出力する出力部
を含む系列データ変換装置。 - 概要2
請求項1に従属し、前記系列データ変換装置において、前記順変換部の変換器が変換対象とするドメインのデータ(自己変換入力データ)に対して、前記変換器によって変換してデータ(自己変換出力データ)を得る自己変換部と、
前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
を含む系列データ変換装置。 - 概要3
請求項1または2に従属し、前記変換器、前記状態判断器を系列データ間の関係性を捉えることのできるニューラルネットワークを用いて構成する
概要1又は概要2に記載の系列データ変換装置。 - 概要4
請求項1乃至3のいずれか1項に従属し、前記ニューラルネットワークの一部にGated CNN 又は LSTM 又は Attention構造を持ったモデルを用いる概要3記載の系列データ変換装置。 - 二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ(順変換入力データ)から、もう一方のドメインのデータ(順変換出力データ)へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ(逆変換出力データ)に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
を備え、前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習装置
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017248427A JP6764851B2 (ja) | 2017-12-07 | 2017-12-07 | 系列データ変換装置、学習装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017248427A JP6764851B2 (ja) | 2017-12-07 | 2017-12-07 | 系列データ変換装置、学習装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019101391A true JP2019101391A (ja) | 2019-06-24 |
JP6764851B2 JP6764851B2 (ja) | 2020-10-14 |
Family
ID=66973630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017248427A Active JP6764851B2 (ja) | 2017-12-07 | 2017-12-07 | 系列データ変換装置、学習装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6764851B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021110943A (ja) * | 2019-12-30 | 2021-08-02 | ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル | クロスリンガル音声変換システムおよび方法 |
WO2021199446A1 (ja) * | 2020-04-03 | 2021-10-07 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
WO2022024183A1 (ja) * | 2020-07-27 | 2022-02-03 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
WO2022024187A1 (ja) * | 2020-07-27 | 2022-02-03 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
WO2022085197A1 (ja) * | 2020-10-23 | 2022-04-28 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
WO2022234615A1 (ja) * | 2021-05-06 | 2022-11-10 | 日本電信電話株式会社 | 変換モデル学習装置、変換モデル生成方法、変換装置、変換方法およびプログラム |
JP7492159B2 (ja) | 2020-07-27 | 2024-05-29 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017003622A (ja) * | 2015-06-04 | 2017-01-05 | 国立大学法人神戸大学 | 声質変換方法および声質変換装置 |
-
2017
- 2017-12-07 JP JP2017248427A patent/JP6764851B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017003622A (ja) * | 2015-06-04 | 2017-01-05 | 国立大学法人神戸大学 | 声質変換方法および声質変換装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021110943A (ja) * | 2019-12-30 | 2021-08-02 | ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル | クロスリンガル音声変換システムおよび方法 |
JP7152791B2 (ja) | 2019-12-30 | 2022-10-13 | ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル | クロスリンガル音声変換システムおよび方法 |
US11797782B2 (en) | 2019-12-30 | 2023-10-24 | Tmrw Foundation Ip S. À R.L. | Cross-lingual voice conversion system and method |
WO2021199446A1 (ja) * | 2020-04-03 | 2021-10-07 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
JP7368779B2 (ja) | 2020-04-03 | 2023-10-25 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
WO2022024183A1 (ja) * | 2020-07-27 | 2022-02-03 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
WO2022024187A1 (ja) * | 2020-07-27 | 2022-02-03 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
JP7492159B2 (ja) | 2020-07-27 | 2024-05-29 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
WO2022085197A1 (ja) * | 2020-10-23 | 2022-04-28 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
WO2022234615A1 (ja) * | 2021-05-06 | 2022-11-10 | 日本電信電話株式会社 | 変換モデル学習装置、変換モデル生成方法、変換装置、変換方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6764851B2 (ja) | 2020-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chou et al. | Multi-target voice conversion without parallel data by adversarially learning disentangled audio representations | |
JP6764851B2 (ja) | 系列データ変換装置、学習装置、及びプログラム | |
CN111933110B (zh) | 视频生成方法、生成模型训练方法、装置、介质及设备 | |
Arik et al. | Deep voice 2: Multi-speaker neural text-to-speech | |
Tu et al. | Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition | |
Gibiansky et al. | Deep voice 2: Multi-speaker neural text-to-speech | |
Juvela et al. | Speech waveform synthesis from MFCC sequences with generative adversarial networks | |
JP6876641B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
WO2020036178A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
JP6973304B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
US11393452B2 (en) | Device for learning speech conversion, and device, method, and program for converting speech | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
CN110838294B (zh) | 一种语音验证方法、装置、计算机设备及存储介质 | |
Prabhu et al. | EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data | |
Tripathi et al. | CycleGAN-Based Speech Mode Transformation Model for Robust Multilingual ASR | |
Kotani et al. | Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations | |
US20240153494A1 (en) | Techniques for generating training data for acoustic models using domain adaptation | |
Bahja et al. | An overview of the cate algorithms for real-time pitch determination | |
Khan et al. | Adaptive framing based similarity measurement between time warped speech signals using Kalman filter | |
Sarfjoo et al. | Cross-Lingual Speaker Adaptation for Statistical Speech Synthesis Using Limited Data. | |
Laszko | Word detection in recorded speech using textual queries | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20180105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180316 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6764851 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |