JP7179216B1

JP7179216B1 - 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体

Info

Publication number: JP7179216B1
Application number: JP2022121366A
Authority: JP
Inventors: 伸也北岡; 和之廣芝; 和樹藤田
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-28
Anticipated expiration: 2042-07-29
Also published as: JP2024018197A; JP2024018852A; WO2024024872A1

Abstract

【課題】声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力する。【解決手段】声質変換装置は、変換元の音声と話者情報を入力する入力部と、学習済みのニューラルネットワーク１００を利用して変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部と、学習部と、を備える。ニューラルネットワーク１００は、音声から潜在表現Ｓ１を出力するエンコーダ１１０と、潜在表現Ｓ１を発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現に変換し、変換先の話者性を付加して潜在表現Ｓ２に逆変換するフロー１２０と、潜在表現Ｓ２から変換先の音声を出力するボコーダ１３０と、を備える。学習部は、エンコーダ１１０が出力する潜在表現をボコーダ１３０が元の学習用音声に復元でき、フロー１２０による潜在表現とテキストエンコーダ１４０の出力とが近くなるようニューラルネットワーク１００を学習する。【選択図】図２

Description

本発明は、声質変換装置、声質変換方法、プログラム、および記録媒体に関する。

近年の深層学習技術の進歩により音声合成の品質は大きく向上している。非特許文献１は、テキストからの音声生成と声質変換が行える技術である。非特許文献２は、非特許文献１の技術を基に、学習に利用した音声の話者以外の話者の音声を変換する技術であり、任意の話者の音声を声質変換できる。

Jaehyeon Kim, Jungil Kong, and Juhee Son, "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech," Proceedings of the 38th International Conference on Machine Learning, 2021, Vol. 139 of PMLR, pp. 5530-5540 "[OV2L Evolving Summit]セッション4 「VITSをany-to-many VCに転用してみた話」presented by kaffelun"、インターネット〈 URL：https://youtu.be/uRwFHuXw3Qk〉

従来の声質変換では、変換元の音声をささやき声、裏声、怒り声などの発声の仕方を含む特徴的な音声で入力しても、学習用に用いた変換先の音声の平静音（通常時の音声）に変換される。ささやき声、裏声、怒り声などの音声を個別の話者の音声として学習すれば、変換先の音声としてささやき声、裏声、怒り声を指定することで、特徴的な音声に変換できる。しかしながら、多人数の音声に変換する場合、学習用音声として各人すべてのささやき声、裏声、および怒り声を用意する必要がある。また、平静音とささやき声との間の中間的な声には変換できないという問題があった。

本発明は、上記に鑑みてなされたものであり、声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力することを目的とする。

本発明の一態様の声質変換装置は、変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第１の潜在表現を出力するエンコーダと、前記第１の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現に変換し、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備える。

本発明の一態様の声質変換装置は、変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現を出力する第２のエンコーダと、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備える。

本発明によれば、声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力することができる。

図１は、本実施形態の声質変換装置の構成の一例を示す図である。図２は、第１の実施形態のニューラルネットワークの構成の一例を示す図である。図３は、第１の実施形態の声質変換時の処理の流れの一例を示すフローチャートである。図４は、第２の実施形態のニューラルネットワークの構成の一例を示す図である。図５は、第２の実施形態の声質変換時の処理の流れの一例を示すフローチャートである。図６は、第２の実施形態のニューラルネットワークの学習方法の一例を示す図である。

［第１の実施形態］
図１を参照し、第１の実施形態の声質変換装置１の構成の一例について説明する。同図に示す声質変換装置１は、入力部１１、変換部１２、および学習部１３を備える。声質変換装置１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは声質変換装置１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。

入力部１１は、音声データ（以下、音声と称する）と話者情報を入力する。具体的には、学習時、入力部１１は、互いに変換可能としたい話者の学習用音声とその音声の話者情報を入力する。第１の実施形態の声質変換装置１は、互いに変換可能としたい話者の音声を学習し、学習した話者を多対多で声質変換可能にする。話者情報は話者の識別子である。学習用音声の各話者に話者情報が割り当てられる。学習時、入力部１１が入力した学習用音声と学習用音声の話者情報は学習部１３へ送信される。一方、推論時（声質変換時）、入力部１１は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力する。推論時、入力部１１が入力した変換元の音声と話者情報は変換部１２へ送信される。

変換部１２は、学習済みのニューラルネットワークに、変換元の音声、変換元の話者情報、および変換先の話者情報を入力し、変換元の音声の発声の仕方を反映させて、変換元の音声を変換先の話者情報に対応する音声に声質変換する。発声の仕方とは、ささやき声、裏声、怒り声などであり、例えば、変換元の音声がささやき声の場合、変換先の音声もささやき声で生成される。変換元の話者と変換先の話者のいずれも学習に用いた音声の話者である。

本実施形態のニューラルネットワークは、変換元の音声から特徴を抽出して変換元の音声の潜在表現を出力するエンコーダと、変換元の音声の潜在表現を、発声の仕方を残しつつ話者性（話者の特徴）を取り除いた話者によらない潜在表現に変換し、話者によらない潜在表現に変換先の話者の話者性を付加して変換先の音声の潜在表現に逆変換するフロー、および変換先の音声の潜在表現を入力して変換先の音声を出力するデコーダ（ボコーダ）を備える。モデルの詳細については後述する。

学習部１３は、学習用音声、学習用音声の話者情報、学習用音声のテキスト、および学習用音声の発声の仕方情報（以下、コンディションと称する）を入力し、エンコーダとボコーダからなる変分オートエンコーダの中間表現が従う分布をテキストとコンディションから作った分布に制約してニューラルネットワークを学習する。言い換えると、学習部１３は、エンコーダが出力する潜在表現をボコーダが元の音声に復元でき、かつ、発声の仕方の特徴を残しつつ話者性を取り除いた潜在表現が、話者の特徴を含まないテキストと発声の仕方情報から作った表現に近くなるように、ニューラルネットワークを学習する。テキストは学習用音声の音韻情報である。コンディションは、例えば、ささやき声、裏声、怒り声など学習用音声の発声の仕方を示す０と１のフラグである。学習用音声がささやき声の場合、コンディションとしてささやき声を示す情報を学習部１３に入力する。学習部１３で学習したパラメータ（ニューラルネットワーク）は、声質変換装置１が備える記憶装置に記憶される。

（モデルと学習）
図２を参照し、第１の実施形態のニューラルネットワークの一例と学習の一例について説明する。同図に示すニューラルネットワーク１００は、エンコーダ１１０、フロー１２０、ボコーダ１３０、およびテキストエンコーダ１４０を備える。

エンコーダ１１０とボコーダ１３０からなる構造は、変分オートエンコーダに相当する。音声をエンコーダ１１０に入力すると潜在表現が得られ、潜在表現をボコーダ１３０に入力すると音声が出力される。潜在表現は音に関する情報を持っている。

フロー１２０は、潜在表現と話者情報を入力すると、潜在表現から話者性をできるだけ取り除いた話者によらない潜在表現を出力する。また、フロー１２０は、可逆なニューラルネットワークであり、話者によらない潜在表現を逆方向から入力し、変換先の話者情報を付加すると、変換先の話者の潜在表現が得られる。フロー１２０の出力する潜在表現をボコーダ１３０に入力することで、変換先の話者の音声を出力できる。

テキストエンコーダ１４０は、学習時に利用するニューラルネットワークであり、推論時は必要ない。テキストエンコーダ１４０は、学習用音声のテキストとコンディションを入力し、テキストにコンディションを付与した潜在表現を出力する。テキストエンコーダ１４０が出力する潜在表現は、話者によらないテキストとコンディションから作った表現であり、話者性を含まない。

学習時には、エンコーダ１１０に学習用音声と学習用音声の話者情報を入力し、テキストエンコーダ１４０に学習用音声のテキストとコンディションを入力する。エンコーダ１１０に入力した音声とボコーダ１３０から出力される音声が同じになるようにニューラルネットワークを学習すると同時に、フロー１２０が出力する潜在表現とテキストエンコーダ１４０の出力する話者によらない情報から作った表現とを近づけるように、ニューラルネットワーク１００を学習する。エンコーダ１１０の出力する潜在表現はフロー１２０で変換、逆変換された後にボコーダ１３０に入力される。フロー１２０での変換時に話者性が取り除かれ、逆変換時に話者性が付与される。学習時、逆変換時に付与される話者性は学習用音声の話者性である。エンコーダ１１０に入力した音声のスペクトログラムとボコーダ１３０から出力される音声のスペクトログラムが一致するように学習する。フロー１２０の出力する潜在表現とテキストエンコーダ１４０の出力する表現とを近づける学習は、非特許文献１と同様にMonotonic Alignment Searchを利用できる。フロー１２０の出力する潜在表現は横軸が時間であり、テキストエンコーダ１４０の出力する話者によらない情報から作った表現は横軸が音素である。モノトニックアライメントでそれらの対応をとり、対応がより近くなるように制約をかける。本実施形態では、音素に加えて２番目の情報としてコンディションをテキストエンコーダ１４０に入力する。これにより、フロー１２０が、話者性が取り除かれ発声の仕方の特徴を含む潜在表現を出力するように、ニューラルネットワーク１００が学習される。

学習用音声は、多対多で声質変換したい人の音声を用意する。例えば、Ａさん，Ｂさん，Ｃさんの３人の音声を学習用音声として学習した場合、学習後は、Ａさんの音声をＢさんまたはＣさんの音声に、Ｂさんの音声をＡさんまたはＣさんの音声に、Ｃさんの音声をＡさんまたはＢさんの音声に、声質変換できる。

学習時には、対応するコンディションの全ての学習用音声は必ずしも必要ではない。具体的には、声質変換装置１がささやき声に対応する場合、Ｃさんのささやき声の学習用音声がなくても、ＡさんまたはＢさんのささやき声の学習用音声があればよい。つまり、学習する話者全員分の、声質変換装置１が対応するコンディションのすべてのバリエーションの学習用音声を用意する必要はない。

学習用音声が発声の仕方を含む音声の場合、その発声の仕方情報もテキストと同時にテキストエンコーダ１４０に入力する。例えば、Ａさんのささやき声の音声を学習用音声として学習する場合、エンコーダ１１０にＡさんの学習用音声とＡさんを示す話者情報を入力し、テキストエンコーダ１４０に学習用音声のテキストとささやき声を示すフラグを入力する。

ニューラルネットワーク１００に入力する話者情報は、声質変換時に操作したいメタ情報ともいえる。上述のように話者性をコントロールしたい場合はメタ情報として話者情報を入力する。話者情報として、ピッチやイントネーションを用いると、ピッチやイントネーションをコントロールして声質変換できる。ピッチやイントネーションを指定することで、変換先の話者の高い声、低い声、およびイントネーションを制御した音声を出力できる。一方、テキストエンコーダ１４０に入力するテキストとコンディションは、変換時に不変の情報である。言い換えると、変換後にも残したい音声に含まれる特徴である。

テキストエンコーダ１４０にテキストとともに入力するコンディションとしてイントネーションを入力する場合、つまり、イントネーションを声質変換の際の不変の情報として扱う場合、テキストから得られる音素の各々には時間的長さがあるが、コンディションには時間的長さが無いので、モノトニックアライメントにおいて音韻情報の時間的長さとコンディションの時間的長さを合わせる工夫をするとよい。例えば、イントネーションの情報を学習用音声から抽出し、音声情報の時間的長さにイントネーションの時間的長さを合わせる。

なお、学習用音声のマイクや空間等の環境による違いを考慮するために、ノイズを加えた学習用音声をエンコーダ１１０に入力し、ボコーダ１３０からはクリーンな音声が出力されるように学習してもよい。

（声質変換処理）
図３を参照し、声質変換時の処理の流れについて説明する。

ステップＳ１１にて、入力部１１は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力し、変換部１２へ送信する。声質変換装置１は、音声を所定のサンプリング数（スライス）単位で処理する。変換元の音声をリアルタイムで入力した場合、リアルタイムにスライス単位で処理されて、リアルタイムに声質変換できる。変換元の話者と変換先の話者のいずれも、学習用音声の話者のいずれかの話者である。

ステップＳ１２にて、変換部１２は、変換元の音声と変換元の話者情報をエンコーダ１１０に入力し、エンコーダ１１０から潜在表現Ｓ１を得る。潜在表現Ｓ１は、変換元の音声の話者性を含む潜在表現である。

ステップＳ１３にて、変換部１２は、潜在表現Ｓ１と変換元の話者情報をフロー１２０に入力し、話者によらない潜在表現を得る。話者によらない潜在表現には、変換元の音声の発声の仕方の特徴が含まれる。

ステップＳ１４にて、変換部１２は、変換先の話者情報を付与して、話者によらない潜在表現をフロー１２０で逆変換し、変換先の音声の潜在表現Ｓ２を得る。

ステップＳ１５にて、変換部１２は、潜在表現Ｓ２と変換先の話者情報をボコーダ１３０に入力し、変換元の音声の発声の仕方が反映された変換先の音声を出力する。

以上説明したように、本実施形態の声質変換装置１は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力する入力部１１と、学習済みのニューラルネットワーク１００を利用して、変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部１２を備え、ニューラルネットワーク１００は、音声を入力し、音声から特徴を抽出して潜在表現Ｓ１を出力するエンコーダ１１０と、潜在表現Ｓ１を音声に含まれる発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現に変換し、話者によらない潜在表現を変換先の話者性を付加して潜在表現Ｓ２に逆変換するフロー１２０と、潜在表現Ｓ２を入力して変換先の音声を出力するボコーダ１３０を備える。これにより、声質変換装置１は、入力した音声のささやき声、裏声、および怒り声などの発声の仕方の反映された変換先の話者の声質に変換できる。声質変換装置１は、変換後の音声の発声の仕方を指定するのではなく、エンコーダ１１０とフロー１２０が変換元の音声の発声の仕方を含んだ潜在表現を出力するので、例えば、変換元の音声が平静音とささやき声の中間的な音声の場合、中間的な発声の仕方が反映された音声が出力される。

本実施形態の声質変換装置１は、学習用音声をエンコーダ１１０に入力するとともに、学習用音声のテキストと学習用音声データに含まれる発声の仕方を示すコンディションをテキストエンコーダ１４０に入力し、エンコーダ１１０が出力する潜在表現をボコーダ１３０が元の学習用音声に復元でき、かつ、フロー１２０による変換で得られる話者によらない潜在表現とテキストエンコーダ１４０の出力する、話者によらない情報から作った表現とが近くなるようにニューラルネットワーク１００を学習する学習部１３を備える。これにより、フロー１２０の変換により、話者性が取り除かれ、発声の仕方を含む潜在表現が得られるようになる。この潜在表現に変換先の話者の話者性を付与して逆変換することで、変換先の話者の話者性と発声の仕方を含む潜在表現が得られる。

［第２の実施形態］
第２の実施形態の声質変換装置は、第１の実施形態のニューラルネットワーク１００を追加学習し、任意の話者の音声を声質変換する。第１の実施形態は、多対多で声質変換する声質変換装置である。第２の実施形態では、第１の実施形態のニューラルネットワークを生成後、話者によらない潜在表現を正解の話者情報なしで得られることをタクスとする学習を行う。第２の実施形態の声質変換装置の構成は第１の実施形態と同様であるので、ここでの説明は省略する。

（モデルと学習）
図４を参照し、第２の実施形態のニューラルネットワークの一例と学習方法の一例について説明する。同図に示すニューラルネットワーク１００は、エンコーダ１１０、フロー１２０、ボコーダ１３０、およびａｎｙ用エンコーダ１５０を備える。エンコーダ１１０、フロー１２０、およびボコーダ１３０は、第１の実施形態で学習済みのものを利用する。第２の実施形態の学習時にはテキストエンコーダ１４０は必要ない。

ａｎｙ用エンコーダ１５０は、話者情報のない音声を入力し、話者によらない潜在表現を出力するニューラルネットワークである。第２の実施形態では、変換元の学習用音声の話者情報無しで学習用音声を入力したａｎｙ用エンコーダ１５０の出力が、話者によらない潜在表現に近づくようにニューラルネットワークを学習する。

学習時には、エンコーダ１１０に学習用音声と学習用音声の話者情報を入力し、ａｎｙ用エンコーダ１５０に学習用音声を入力する。第１の実施形態で用いた学習用音声を第２の実施形態でも用いる。学習用音声をエンコーダ１１０とａｎｙ用エンコーダ１５０に入力して、エンコーダ１１０の出力をフロー１２０で変換した潜在表現と、ａｎｙ用エンコーダ１５０の出力が近くなるようにニューラルネットワークを学習する。フロー１２０で変換された潜在表現は、学習用音声から話者性が取り除かれ発声の仕方の特徴を含む潜在表現である。ａｎｙ用エンコーダ１５０は、入力される音声から話者性が取り除かれ発声の仕方の特徴を含む潜在表現を出力するように学習される。数十人から１００人程度の多数の話者の学習用音声で学習すれば一般性を持つと考えられ、学習用音声の話者以外の任意の話者の音声をａｎｙ用エンコーダ１５０に入力しても、話者性が取り除かれ発声の仕方の特徴を含む潜在表現が得られる。

ａｎｙ用エンコーダ１５０が出力する潜在表現をフロー１２０で逆変換し、変換先の話者情報を付与することで、ａｎｙ用エンコーダ１５０に入力した音声を変換先の話者の音声に声質変換できる。

（声質変換処理）
図５を参照し、第２の実施形態の声質変換時の処理の流れについて説明する。

ステップＳ２１にて、入力部１１は、変換元の音声および変換先の話者情報を入力し、変換部１２へ送信する。変換元の音声の話者は学習用音声の話者でなくてもよい。つまり、任意の話者の音声を入力してよい。

ステップＳ２２にて、変換部１２は、変換元の音声をａｎｙ用エンコーダ１５０に入力し、ａｎｙ用エンコーダ１５０から話者によらない潜在表現を得る。話者によらない潜在表現には、変換元の音声の発声の仕方の特徴が含まれる。

ステップＳ２３にて、変換部１２は、変換先の話者情報を付与して、話者によらない潜在表現をフロー１２０で逆変換し、変換先の音声の潜在表現Ｓ２を得る。

ステップＳ２４にて、変換部１２は、潜在表現Ｓ２と変換先の話者情報をボコーダ１３０に入力し、変換元の音声の発声の仕方が反映された変換先の音声を出力する。

（別の学習例）
図６を参照し、第２の実施形態のニューラルネットワークの別の学習方法の一例について説明する。図６のニューラルネットワークの構成は図４のニューラルネットワークの構成と同じである。

図６の学習例では、エンコーダ１１０の出力をフロー１２０で変換および逆変換して得られた潜在表現と、ａｎｙ用エンコーダ１５０の出力をフロー１２０で逆変換して得られた潜在表現が近くなるようにニューラルネットワークを学習する。ａｎｙ用エンコーダ１５０には学習用音声を入力する。フロー１２０での逆変換時には変換先の話者情報を付与する。このように、フロー１２０での逆変換で得られる変換先の話者の音声の潜在表現が近くなるように学習してもよい。

さらに、フロー１２０での逆変換で得られる潜在表現をボコーダ１３０に入力し、波形またはスペクトログラムが互いに近くなるように、ニューラルネットワークを学習してもよい。

また、図６の学習例において、ａｎｙ用エンコーダ１５０に学習用音声と変換先の話者情報Ｓ２を入力し、ａｎｙ用エンコーダ１５０が、フロー１２０を経由せずに、潜在表現Ｓ２を出力するように学習してもよい。この場合、フロー１２０の有無などネットワーク構成の自由度を大きくできる。

図４で示した学習方法と図６で示した学習方法を組み合わせてもよい。

以上説明したように、本実施形態の声質変換装置１は、変換元の音声と変換先の話者情報を入力する入力部１１と、学習済みのニューラルネットワーク１００を利用して、変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部１２を備え、ニューラルネットワーク１００は、音声を入力し、音声に含まれる発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現を出力するａｎｙ用エンコーダ１５０と、話者によらない潜在表現を変換先の話者性を付加して潜在表現Ｓ２に逆変換するフロー１２０と、潜在表現Ｓ２を入力して変換先の音声を出力するボコーダ１３０を備える。これにより、声質変換装置１は、誰の声からでも、入力した音声の発声の仕方が反映された変換先の話者の声質に変換できる。

本実施形態の声質変換装置１は、第１の実施形態のニューラルネットワーク１００を学習した後、学習用音声データをエンコーダ１１０とａｎｙ用エンコーダ１５０に入力し、フロー１２０による変換で得られる話者によらない潜在表現（教師）とａｎｙ用エンコーダ１５０の出力する潜在表現とが近くなるようにニューラルネットワーク１００を学習する学習部を備える。これにより、ａｎｙ用エンコーダ１５０は、任意の話者の音声を入力すると、話者性が取り除かれ、発声の仕方を含む潜在表現を出力できるようになる。この潜在表現に変換先の話者の話者性を付与して逆変換することで、変換先の話者の話者性と発声の仕方を含む潜在表現が得られる。

声質変換装置１は、フロー１２０で変換後に逆変換して得られる潜在表現Ｓ２（教師）とａｎｙ用エンコーダ１５０の出力する話者によらない潜在表現をフロー１２０で逆変換して得られる潜在表現Ｓ２とが近くなるようにニューラルネットワーク１００を学習してもよい。

１声質変換装置
１１入力部
１２変換部
１３学習部
１００ニューラルネットワーク
１１０エンコーダ
１２０フロー
１３０ボコーダ
１４０テキストエンコーダ
１５０ａｎｙ用エンコーダ

Claims

変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、
前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第１の潜在表現を出力するエンコーダと、前記第１の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現に変換し、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備える
声質変換装置。
変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部と、
前記ニューラルネットワークを学習する学習部を備え、
前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第１の潜在表現を出力するエンコーダと、前記第１の潜在表現を前記音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現に変換し、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
前記学習部は、学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第１の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第１の潜在表現を前記フローで変換して得られる第２の潜在表現と、前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習する
声質変換装置。
変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、
前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現を出力する第２のエンコーダと、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備える
声質変換装置。
変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部と、
前記ニューラルネットワークを学習する学習部を備え、
前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現を出力する第２のエンコーダと、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
前記学習部は、学習用音声データをエンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第１の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第１の潜在表現を前記フローで変換して得られる潜在表現と前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習した後、
学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データを前記第２のエンコーダに入力し、前記エンコーダの出力する第１の潜在表現を前記フローで変換して得られる潜在表現と前記第２のエンコーダの出力する第２の潜在表現とが近くなるように前記ニューラルネットワークを学習する
声質変換装置。
請求項４に記載の声質変換装置であって、
前記学習部は、前記第１の潜在表現を前記フローで変換後に逆変換して得られる潜在表現と前記第２の潜在表現を前記フローで逆変換して得られる第３の潜在表現とが近くなるように前記ニューラルネットワークを学習する
声質変換装置。
請求項１ないし５のいずれかに記載の声質変換装置であって、
前記メタ情報は話者を特定する話者情報である
声質変換装置。
コンピュータが、
変換元の音声データと声質変換時に操作したいメタ情報を入力し、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第１の潜在表現を出力するエンコーダと、前記第１の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現に変換し、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備える
声質変換方法。
コンピュータが、
変換元の音声データと声質変換時に操作したいメタ情報を入力し、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第１の潜在表現を出力するエンコーダと、前記第１の潜在表現を前記音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現に変換し、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
コンピュータが、
学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第１の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第１の潜在表現を前記フローで変換して得られる第２の潜在表現と、前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習する
声質変換方法。
コンピュータが、
変換元の音声データと声質変換時に操作したいメタ情報を入力し、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現を出力する第２のエンコーダと、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備える
声質変換方法。
コンピュータが、
変換元の音声データと声質変換時に操作したいメタ情報を入力し、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現を出力する第２のエンコーダと、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
コンピュータが、
学習用音声データをエンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第１の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第１の潜在表現を前記フローで変換して得られる潜在表現と前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習した後、
学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データを前記第２のエンコーダに入力し、前記エンコーダの出力する第１の潜在表現を前記フローで変換して得られる潜在表現と前記第２のエンコーダの出力する第２の潜在表現とが近くなるように前記ニューラルネットワークを学習する
声質変換方法。
請求項１０に記載の声質変換方法であって、
コンピュータが、
前記第１の潜在表現を前記フローで変換後に逆変換して得られる潜在表現と前記第２の潜在表現を前記フローで逆変換して得られる第３の潜在表現とが近くなるように前記ニューラルネットワークを学習する
声質変換方法。
音声データと声質変換時に操作したいメタ情報を入力して前記メタ情報に応じた音声データに声質変換するニューラルネットワークであって、
音声データを入力し、当該音声データから特徴を抽出して第１の潜在表現を出力するエンコーダと、前記第１の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現に変換し、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備える
ニューラルネットワーク。
音声データと声質変換時に操作したいメタ情報を入力して前記メタ情報に応じた音声データに声質変換するニューラルネットワークであって、
音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第２の潜在表現を出力する第２のエンコーダと、前記第２の潜在表現に変換先のメタ情報に対応する特徴を付加して第３の潜在表現に逆変換するフローと、前記第３の潜在表現を入力して変換先の音声データを出力するデコーダを備える
ニューラルネットワーク。
請求項１ないし５のいずれかに記載の声質変換装置の各部としてコンピュータを動作させるプログラム。
請求項１ないし５のいずれかに記載の声質変換装置の各部としてコンピュータを動作させるプログラムを記録した記録媒体。