JP7179216B1 - 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 - Google Patents

声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 Download PDF

Info

Publication number
JP7179216B1
JP7179216B1 JP2022121366A JP2022121366A JP7179216B1 JP 7179216 B1 JP7179216 B1 JP 7179216B1 JP 2022121366 A JP2022121366 A JP 2022121366A JP 2022121366 A JP2022121366 A JP 2022121366A JP 7179216 B1 JP7179216 B1 JP 7179216B1
Authority
JP
Japan
Prior art keywords
latent
latent expression
conversion
expression
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022121366A
Other languages
English (en)
Other versions
JP2024018197A (ja
Inventor
伸也 北岡
和之 廣芝
和樹 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dwango Co Ltd
Original Assignee
Dwango Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dwango Co Ltd filed Critical Dwango Co Ltd
Priority to JP2022121366A priority Critical patent/JP7179216B1/ja
Priority to JP2022181983A priority patent/JP2024018852A/ja
Application granted granted Critical
Publication of JP7179216B1 publication Critical patent/JP7179216B1/ja
Priority to PCT/JP2023/027485 priority patent/WO2024024872A1/ja
Publication of JP2024018197A publication Critical patent/JP2024018197A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力する。【解決手段】声質変換装置は、変換元の音声と話者情報を入力する入力部と、学習済みのニューラルネットワーク100を利用して変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部と、学習部と、を備える。ニューラルネットワーク100は、音声から潜在表現S1を出力するエンコーダ110と、潜在表現S1を発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現に変換し、変換先の話者性を付加して潜在表現S2に逆変換するフロー120と、潜在表現S2から変換先の音声を出力するボコーダ130と、を備える。学習部は、エンコーダ110が出力する潜在表現をボコーダ130が元の学習用音声に復元でき、フロー120による潜在表現とテキストエンコーダ140の出力とが近くなるようニューラルネットワーク100を学習する。【選択図】図2

Description

本発明は、声質変換装置、声質変換方法、プログラム、および記録媒体に関する。
近年の深層学習技術の進歩により音声合成の品質は大きく向上している。非特許文献1は、テキストからの音声生成と声質変換が行える技術である。非特許文献2は、非特許文献1の技術を基に、学習に利用した音声の話者以外の話者の音声を変換する技術であり、任意の話者の音声を声質変換できる。
Jaehyeon Kim, Jungil Kong, and Juhee Son, "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech," Proceedings of the 38th International Conference on Machine Learning, 2021, Vol. 139 of PMLR, pp. 5530-5540 "[OV2L Evolving Summit]セッション4 「VITSをany-to-many VCに転用してみた話」presented by kaffelun"、インターネット〈 URL:https://youtu.be/uRwFHuXw3Qk〉
従来の声質変換では、変換元の音声をささやき声、裏声、怒り声などの発声の仕方を含む特徴的な音声で入力しても、学習用に用いた変換先の音声の平静音(通常時の音声)に変換される。ささやき声、裏声、怒り声などの音声を個別の話者の音声として学習すれば、変換先の音声としてささやき声、裏声、怒り声を指定することで、特徴的な音声に変換できる。しかしながら、多人数の音声に変換する場合、学習用音声として各人すべてのささやき声、裏声、および怒り声を用意する必要がある。また、平静音とささやき声との間の中間的な声には変換できないという問題があった。
本発明は、上記に鑑みてなされたものであり、声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力することを目的とする。
本発明の一態様の声質変換装置は、変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える。
本発明の一態様の声質変換装置は、変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える。
本発明によれば、声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力することができる。
図1は、本実施形態の声質変換装置の構成の一例を示す図である。 図2は、第1の実施形態のニューラルネットワークの構成の一例を示す図である。 図3は、第1の実施形態の声質変換時の処理の流れの一例を示すフローチャートである。 図4は、第2の実施形態のニューラルネットワークの構成の一例を示す図である。 図5は、第2の実施形態の声質変換時の処理の流れの一例を示すフローチャートである。 図6は、第2の実施形態のニューラルネットワークの学習方法の一例を示す図である。
[第1の実施形態]
図1を参照し、第1の実施形態の声質変換装置1の構成の一例について説明する。同図に示す声質変換装置1は、入力部11、変換部12、および学習部13を備える。声質変換装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは声質変換装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。
入力部11は、音声データ(以下、音声と称する)と話者情報を入力する。具体的には、学習時、入力部11は、互いに変換可能としたい話者の学習用音声とその音声の話者情報を入力する。第1の実施形態の声質変換装置1は、互いに変換可能としたい話者の音声を学習し、学習した話者を多対多で声質変換可能にする。話者情報は話者の識別子である。学習用音声の各話者に話者情報が割り当てられる。学習時、入力部11が入力した学習用音声と学習用音声の話者情報は学習部13へ送信される。一方、推論時(声質変換時)、入力部11は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力する。推論時、入力部11が入力した変換元の音声と話者情報は変換部12へ送信される。
変換部12は、学習済みのニューラルネットワークに、変換元の音声、変換元の話者情報、および変換先の話者情報を入力し、変換元の音声の発声の仕方を反映させて、変換元の音声を変換先の話者情報に対応する音声に声質変換する。発声の仕方とは、ささやき声、裏声、怒り声などであり、例えば、変換元の音声がささやき声の場合、変換先の音声もささやき声で生成される。変換元の話者と変換先の話者のいずれも学習に用いた音声の話者である。
本実施形態のニューラルネットワークは、変換元の音声から特徴を抽出して変換元の音声の潜在表現を出力するエンコーダと、変換元の音声の潜在表現を、発声の仕方を残しつつ話者性(話者の特徴)を取り除いた話者によらない潜在表現に変換し、話者によらない潜在表現に変換先の話者の話者性を付加して変換先の音声の潜在表現に逆変換するフロー、および変換先の音声の潜在表現を入力して変換先の音声を出力するデコーダ(ボコーダ)を備える。モデルの詳細については後述する。
学習部13は、学習用音声、学習用音声の話者情報、学習用音声のテキスト、および学習用音声の発声の仕方情報(以下、コンディションと称する)を入力し、エンコーダとボコーダからなる変分オートエンコーダの中間表現が従う分布をテキストとコンディションから作った分布に制約してニューラルネットワークを学習する。言い換えると、学習部13は、エンコーダが出力する潜在表現をボコーダが元の音声に復元でき、かつ、発声の仕方の特徴を残しつつ話者性を取り除いた潜在表現が、話者の特徴を含まないテキストと発声の仕方情報から作った表現に近くなるように、ニューラルネットワークを学習する。テキストは学習用音声の音韻情報である。コンディションは、例えば、ささやき声、裏声、怒り声など学習用音声の発声の仕方を示す0と1のフラグである。学習用音声がささやき声の場合、コンディションとしてささやき声を示す情報を学習部13に入力する。学習部13で学習したパラメータ(ニューラルネットワーク)は、声質変換装置1が備える記憶装置に記憶される。
(モデルと学習)
図2を参照し、第1の実施形態のニューラルネットワークの一例と学習の一例について説明する。同図に示すニューラルネットワーク100は、エンコーダ110、フロー120、ボコーダ130、およびテキストエンコーダ140を備える。
エンコーダ110とボコーダ130からなる構造は、変分オートエンコーダに相当する。音声をエンコーダ110に入力すると潜在表現が得られ、潜在表現をボコーダ130に入力すると音声が出力される。潜在表現は音に関する情報を持っている。
フロー120は、潜在表現と話者情報を入力すると、潜在表現から話者性をできるだけ取り除いた話者によらない潜在表現を出力する。また、フロー120は、可逆なニューラルネットワークであり、話者によらない潜在表現を逆方向から入力し、変換先の話者情報を付加すると、変換先の話者の潜在表現が得られる。フロー120の出力する潜在表現をボコーダ130に入力することで、変換先の話者の音声を出力できる。
テキストエンコーダ140は、学習時に利用するニューラルネットワークであり、推論時は必要ない。テキストエンコーダ140は、学習用音声のテキストとコンディションを入力し、テキストにコンディションを付与した潜在表現を出力する。テキストエンコーダ140が出力する潜在表現は、話者によらないテキストとコンディションから作った表現であり、話者性を含まない。
学習時には、エンコーダ110に学習用音声と学習用音声の話者情報を入力し、テキストエンコーダ140に学習用音声のテキストとコンディションを入力する。エンコーダ110に入力した音声とボコーダ130から出力される音声が同じになるようにニューラルネットワークを学習すると同時に、フロー120が出力する潜在表現とテキストエンコーダ140の出力する話者によらない情報から作った表現とを近づけるように、ニューラルネットワーク100を学習する。エンコーダ110の出力する潜在表現はフロー120で変換、逆変換された後にボコーダ130に入力される。フロー120での変換時に話者性が取り除かれ、逆変換時に話者性が付与される。学習時、逆変換時に付与される話者性は学習用音声の話者性である。エンコーダ110に入力した音声のスペクトログラムとボコーダ130から出力される音声のスペクトログラムが一致するように学習する。フロー120の出力する潜在表現とテキストエンコーダ140の出力する表現とを近づける学習は、非特許文献1と同様にMonotonic Alignment Searchを利用できる。フロー120の出力する潜在表現は横軸が時間であり、テキストエンコーダ140の出力する話者によらない情報から作った表現は横軸が音素である。モノトニックアライメントでそれらの対応をとり、対応がより近くなるように制約をかける。本実施形態では、音素に加えて2番目の情報としてコンディションをテキストエンコーダ140に入力する。これにより、フロー120が、話者性が取り除かれ発声の仕方の特徴を含む潜在表現を出力するように、ニューラルネットワーク100が学習される。
学習用音声は、多対多で声質変換したい人の音声を用意する。例えば、Aさん,Bさん,Cさんの3人の音声を学習用音声として学習した場合、学習後は、Aさんの音声をBさんまたはCさんの音声に、Bさんの音声をAさんまたはCさんの音声に、Cさんの音声をAさんまたはBさんの音声に、声質変換できる。
学習時には、対応するコンディションの全ての学習用音声は必ずしも必要ではない。具体的には、声質変換装置1がささやき声に対応する場合、Cさんのささやき声の学習用音声がなくても、AさんまたはBさんのささやき声の学習用音声があればよい。つまり、学習する話者全員分の、声質変換装置1が対応するコンディションのすべてのバリエーションの学習用音声を用意する必要はない。
学習用音声が発声の仕方を含む音声の場合、その発声の仕方情報もテキストと同時にテキストエンコーダ140に入力する。例えば、Aさんのささやき声の音声を学習用音声として学習する場合、エンコーダ110にAさんの学習用音声とAさんを示す話者情報を入力し、テキストエンコーダ140に学習用音声のテキストとささやき声を示すフラグを入力する。
ニューラルネットワーク100に入力する話者情報は、声質変換時に操作したいメタ情報ともいえる。上述のように話者性をコントロールしたい場合はメタ情報として話者情報を入力する。話者情報として、ピッチやイントネーションを用いると、ピッチやイントネーションをコントロールして声質変換できる。ピッチやイントネーションを指定することで、変換先の話者の高い声、低い声、およびイントネーションを制御した音声を出力できる。一方、テキストエンコーダ140に入力するテキストとコンディションは、変換時に不変の情報である。言い換えると、変換後にも残したい音声に含まれる特徴である。
テキストエンコーダ140にテキストとともに入力するコンディションとしてイントネーションを入力する場合、つまり、イントネーションを声質変換の際の不変の情報として扱う場合、テキストから得られる音素の各々には時間的長さがあるが、コンディションには時間的長さが無いので、モノトニックアライメントにおいて音韻情報の時間的長さとコンディションの時間的長さを合わせる工夫をするとよい。例えば、イントネーションの情報を学習用音声から抽出し、音声情報の時間的長さにイントネーションの時間的長さを合わせる。
なお、学習用音声のマイクや空間等の環境による違いを考慮するために、ノイズを加えた学習用音声をエンコーダ110に入力し、ボコーダ130からはクリーンな音声が出力されるように学習してもよい。
(声質変換処理)
図3を参照し、声質変換時の処理の流れについて説明する。
ステップS11にて、入力部11は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力し、変換部12へ送信する。声質変換装置1は、音声を所定のサンプリング数(スライス)単位で処理する。変換元の音声をリアルタイムで入力した場合、リアルタイムにスライス単位で処理されて、リアルタイムに声質変換できる。変換元の話者と変換先の話者のいずれも、学習用音声の話者のいずれかの話者である。
ステップS12にて、変換部12は、変換元の音声と変換元の話者情報をエンコーダ110に入力し、エンコーダ110から潜在表現S1を得る。潜在表現S1は、変換元の音声の話者性を含む潜在表現である。
ステップS13にて、変換部12は、潜在表現S1と変換元の話者情報をフロー120に入力し、話者によらない潜在表現を得る。話者によらない潜在表現には、変換元の音声の発声の仕方の特徴が含まれる。
ステップS14にて、変換部12は、変換先の話者情報を付与して、話者によらない潜在表現をフロー120で逆変換し、変換先の音声の潜在表現S2を得る。
ステップS15にて、変換部12は、潜在表現S2と変換先の話者情報をボコーダ130に入力し、変換元の音声の発声の仕方が反映された変換先の音声を出力する。
以上説明したように、本実施形態の声質変換装置1は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力する入力部11と、学習済みのニューラルネットワーク100を利用して、変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部12を備え、ニューラルネットワーク100は、音声を入力し、音声から特徴を抽出して潜在表現S1を出力するエンコーダ110と、潜在表現S1を音声に含まれる発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現に変換し、話者によらない潜在表現を変換先の話者性を付加して潜在表現S2に逆変換するフロー120と、潜在表現S2を入力して変換先の音声を出力するボコーダ130を備える。これにより、声質変換装置1は、入力した音声のささやき声、裏声、および怒り声などの発声の仕方の反映された変換先の話者の声質に変換できる。声質変換装置1は、変換後の音声の発声の仕方を指定するのではなく、エンコーダ110とフロー120が変換元の音声の発声の仕方を含んだ潜在表現を出力するので、例えば、変換元の音声が平静音とささやき声の中間的な音声の場合、中間的な発声の仕方が反映された音声が出力される。
本実施形態の声質変換装置1は、学習用音声をエンコーダ110に入力するとともに、学習用音声のテキストと学習用音声データに含まれる発声の仕方を示すコンディションをテキストエンコーダ140に入力し、エンコーダ110が出力する潜在表現をボコーダ130が元の学習用音声に復元でき、かつ、フロー120による変換で得られる話者によらない潜在表現とテキストエンコーダ140の出力する、話者によらない情報から作った表現とが近くなるようにニューラルネットワーク100を学習する学習部13を備える。これにより、フロー120の変換により、話者性が取り除かれ、発声の仕方を含む潜在表現が得られるようになる。この潜在表現に変換先の話者の話者性を付与して逆変換することで、変換先の話者の話者性と発声の仕方を含む潜在表現が得られる。
[第2の実施形態]
第2の実施形態の声質変換装置は、第1の実施形態のニューラルネットワーク100を追加学習し、任意の話者の音声を声質変換する。第1の実施形態は、多対多で声質変換する声質変換装置である。第2の実施形態では、第1の実施形態のニューラルネットワークを生成後、話者によらない潜在表現を正解の話者情報なしで得られることをタクスとする学習を行う。第2の実施形態の声質変換装置の構成は第1の実施形態と同様であるので、ここでの説明は省略する。
(モデルと学習)
図4を参照し、第2の実施形態のニューラルネットワークの一例と学習方法の一例について説明する。同図に示すニューラルネットワーク100は、エンコーダ110、フロー120、ボコーダ130、およびany用エンコーダ150を備える。エンコーダ110、フロー120、およびボコーダ130は、第1の実施形態で学習済みのものを利用する。第2の実施形態の学習時にはテキストエンコーダ140は必要ない。
any用エンコーダ150は、話者情報のない音声を入力し、話者によらない潜在表現を出力するニューラルネットワークである。第2の実施形態では、変換元の学習用音声の話者情報無しで学習用音声を入力したany用エンコーダ150の出力が、話者によらない潜在表現に近づくようにニューラルネットワークを学習する。
学習時には、エンコーダ110に学習用音声と学習用音声の話者情報を入力し、any用エンコーダ150に学習用音声を入力する。第1の実施形態で用いた学習用音声を第2の実施形態でも用いる。学習用音声をエンコーダ110とany用エンコーダ150に入力して、エンコーダ110の出力をフロー120で変換した潜在表現と、any用エンコーダ150の出力が近くなるようにニューラルネットワークを学習する。フロー120で変換された潜在表現は、学習用音声から話者性が取り除かれ発声の仕方の特徴を含む潜在表現である。any用エンコーダ150は、入力される音声から話者性が取り除かれ発声の仕方の特徴を含む潜在表現を出力するように学習される。数十人から100人程度の多数の話者の学習用音声で学習すれば一般性を持つと考えられ、学習用音声の話者以外の任意の話者の音声をany用エンコーダ150に入力しても、話者性が取り除かれ発声の仕方の特徴を含む潜在表現が得られる。
any用エンコーダ150が出力する潜在表現をフロー120で逆変換し、変換先の話者情報を付与することで、any用エンコーダ150に入力した音声を変換先の話者の音声に声質変換できる。
(声質変換処理)
図5を参照し、第2の実施形態の声質変換時の処理の流れについて説明する。
ステップS21にて、入力部11は、変換元の音声および変換先の話者情報を入力し、変換部12へ送信する。変換元の音声の話者は学習用音声の話者でなくてもよい。つまり、任意の話者の音声を入力してよい。
ステップS22にて、変換部12は、変換元の音声をany用エンコーダ150に入力し、any用エンコーダ150から話者によらない潜在表現を得る。話者によらない潜在表現には、変換元の音声の発声の仕方の特徴が含まれる。
ステップS23にて、変換部12は、変換先の話者情報を付与して、話者によらない潜在表現をフロー120で逆変換し、変換先の音声の潜在表現S2を得る。
ステップS24にて、変換部12は、潜在表現S2と変換先の話者情報をボコーダ130に入力し、変換元の音声の発声の仕方が反映された変換先の音声を出力する。
(別の学習例)
図6を参照し、第2の実施形態のニューラルネットワークの別の学習方法の一例について説明する。図6のニューラルネットワークの構成は図4のニューラルネットワークの構成と同じである。
図6の学習例では、エンコーダ110の出力をフロー120で変換および逆変換して得られた潜在表現と、any用エンコーダ150の出力をフロー120で逆変換して得られた潜在表現が近くなるようにニューラルネットワークを学習する。any用エンコーダ150には学習用音声を入力する。フロー120での逆変換時には変換先の話者情報を付与する。このように、フロー120での逆変換で得られる変換先の話者の音声の潜在表現が近くなるように学習してもよい。
さらに、フロー120での逆変換で得られる潜在表現をボコーダ130に入力し、波形またはスペクトログラムが互いに近くなるように、ニューラルネットワークを学習してもよい。
また、図6の学習例において、any用エンコーダ150に学習用音声と変換先の話者情報S2を入力し、any用エンコーダ150が、フロー120を経由せずに、潜在表現S2を出力するように学習してもよい。この場合、フロー120の有無などネットワーク構成の自由度を大きくできる。
図4で示した学習方法と図6で示した学習方法を組み合わせてもよい。
以上説明したように、本実施形態の声質変換装置1は、変換元の音声と変換先の話者情報を入力する入力部11と、学習済みのニューラルネットワーク100を利用して、変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部12を備え、ニューラルネットワーク100は、音声を入力し、音声に含まれる発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現を出力するany用エンコーダ150と、話者によらない潜在表現を変換先の話者性を付加して潜在表現S2に逆変換するフロー120と、潜在表現S2を入力して変換先の音声を出力するボコーダ130を備える。これにより、声質変換装置1は、誰の声からでも、入力した音声の発声の仕方が反映された変換先の話者の声質に変換できる。
本実施形態の声質変換装置1は、第1の実施形態のニューラルネットワーク100を学習した後、学習用音声データをエンコーダ110とany用エンコーダ150に入力し、フロー120による変換で得られる話者によらない潜在表現(教師)とany用エンコーダ150の出力する潜在表現とが近くなるようにニューラルネットワーク100を学習する学習部を備える。これにより、any用エンコーダ150は、任意の話者の音声を入力すると、話者性が取り除かれ、発声の仕方を含む潜在表現を出力できるようになる。この潜在表現に変換先の話者の話者性を付与して逆変換することで、変換先の話者の話者性と発声の仕方を含む潜在表現が得られる。
声質変換装置1は、フロー120で変換後に逆変換して得られる潜在表現S2(教師)とany用エンコーダ150の出力する話者によらない潜在表現をフロー120で逆変換して得られる潜在表現S2とが近くなるようにニューラルネットワーク100を学習してもよい。
1 声質変換装置
11 入力部
12 変換部
13 学習部
100 ニューラルネットワーク
110 エンコーダ
120 フロー
130 ボコーダ
140 テキストエンコーダ
150 any用エンコーダ

Claims (15)

  1. 変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
    学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、
    前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
    声質変換装置。
  2. 変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
    学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部と、
    前記ニューラルネットワークを学習する学習部を備え、
    前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
    前記学習部は、学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第1の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第1の潜在表現を前記フローで変換して得られる第2の潜在表現と、前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習す
    声質変換装置。
  3. 変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
    学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、
    前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
    声質変換装置。
  4. 変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
    学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部と、
    前記ニューラルネットワークを学習する学習部を備え、
    前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
    前記学習部は、学習用音声データをエンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第1の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第1の潜在表現を前記フローで変換して得られる潜在表現と前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習した後、
    学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データを前記第2のエンコーダに入力し、前記エンコーダの出力する第1の潜在表現を前記フローで変換して得られる潜在表現と前記第2のエンコーダの出力する第2の潜在表現とが近くなるように前記ニューラルネットワークを学習す
    声質変換装置。
  5. 請求項4に記載の声質変換装置であって、
    前記学習部は、前記第1の潜在表現を前記フローで変換後に逆変換して得られる潜在表現と前記第2の潜在表現を前記フローで逆変換して得られる第3の潜在表現とが近くなるように前記ニューラルネットワークを学習す
    声質変換装置。
  6. 請求項1ないし5のいずれかに記載の声質変換装置であって、
    前記メタ情報は話者を特定する話者情報であ
    声質変換装置。
  7. コンピュータが、
    変換元の音声データと声質変換時に操作したいメタ情報を入力し、
    学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
    前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
    声質変換方法。
  8. コンピュータが、
    変換元の音声データと声質変換時に操作したいメタ情報を入力し、
    学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
    前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
    ンピュータが、
    学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第1の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第1の潜在表現を前記フローで変換して得られる第2の潜在表現と、前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習する
    声質変換方法。
  9. コンピュータが、
    変換元の音声データと声質変換時に操作したいメタ情報を入力し、
    学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
    前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
    声質変換方法。
  10. コンピュータが、
    変換元の音声データと声質変換時に操作したいメタ情報を入力し、
    学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
    前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
    ンピュータが、
    学習用音声データをエンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第1の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第1の潜在表現を前記フローで変換して得られる潜在表現と前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習した後、
    学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データを前記第2のエンコーダに入力し、前記エンコーダの出力する第1の潜在表現を前記フローで変換して得られる潜在表現と前記第2のエンコーダの出力する第2の潜在表現とが近くなるように前記ニューラルネットワークを学習する
    声質変換方法。
  11. 請求項10に記載の声質変換方法であって、
    コンピュータが、
    前記第1の潜在表現を前記フローで変換後に逆変換して得られる潜在表現と前記第2の潜在表現を前記フローで逆変換して得られる第3の潜在表現とが近くなるように前記ニューラルネットワークを学習する
    声質変換方法。
  12. 音声データと声質変換時に操作したいメタ情報を入力して前記メタ情報に応じた音声データに声質変換するニューラルネットワークであって、
    音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
    ニューラルネットワーク。
  13. 音声データと声質変換時に操作したいメタ情報を入力して前記メタ情報に応じた音声データに声質変換するニューラルネットワークであって、
    音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
    ニューラルネットワーク。
  14. 請求項1ないし5のいずれかに記載の声質変換装置の各部としてコンピュータを動作させるプログラム。
  15. 請求項1ないし5のいずれかに記載の声質変換装置の各部としてコンピュータを動作させるプログラムを記録した記録媒体。
JP2022121366A 2022-07-29 2022-07-29 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 Active JP7179216B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022121366A JP7179216B1 (ja) 2022-07-29 2022-07-29 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
JP2022181983A JP2024018852A (ja) 2022-07-29 2022-11-14 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
PCT/JP2023/027485 WO2024024872A1 (ja) 2022-07-29 2023-07-27 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022121366A JP7179216B1 (ja) 2022-07-29 2022-07-29 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022181983A Division JP2024018852A (ja) 2022-07-29 2022-11-14 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP7179216B1 true JP7179216B1 (ja) 2022-11-28
JP2024018197A JP2024018197A (ja) 2024-02-08

Family

ID=84227631

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022121366A Active JP7179216B1 (ja) 2022-07-29 2022-07-29 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
JP2022181983A Pending JP2024018852A (ja) 2022-07-29 2022-11-14 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022181983A Pending JP2024018852A (ja) 2022-07-29 2022-11-14 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体

Country Status (2)

Country Link
JP (2) JP7179216B1 (ja)
WO (1) WO2024024872A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019163849A1 (ja) 2018-02-20 2019-08-29 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
WO2019240228A1 (ja) 2018-06-14 2019-12-19 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
US20200365166A1 (en) 2019-05-14 2020-11-19 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
WO2021085311A1 (ja) 2019-10-31 2021-05-06 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
JP7069386B1 (ja) 2021-06-30 2022-05-17 株式会社ドワンゴ 音声変換装置、音声変換方法、プログラム、および記録媒体
US20220157329A1 (en) 2020-11-18 2022-05-19 Minds Lab Inc. Method of converting voice feature of voice

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102199050B1 (ko) * 2018-01-11 2021-01-06 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019163849A1 (ja) 2018-02-20 2019-08-29 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
WO2019240228A1 (ja) 2018-06-14 2019-12-19 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
US20200365166A1 (en) 2019-05-14 2020-11-19 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
WO2021085311A1 (ja) 2019-10-31 2021-05-06 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
US20220157329A1 (en) 2020-11-18 2022-05-19 Minds Lab Inc. Method of converting voice feature of voice
JP7069386B1 (ja) 2021-06-30 2022-05-17 株式会社ドワンゴ 音声変換装置、音声変換方法、プログラム、および記録媒体

Also Published As

Publication number Publication date
JP2024018197A (ja) 2024-02-08
JP2024018852A (ja) 2024-02-08
WO2024024872A1 (ja) 2024-02-01

Similar Documents

Publication Publication Date Title
JP6989951B2 (ja) スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP7436709B2 (ja) 非発話テキストおよび音声合成を使う音声認識
JP2885372B2 (ja) 音声符号化方法
US8447606B2 (en) Method and system for creating or updating entries in a speech recognition lexicon
JP6846237B2 (ja) 音声合成装置及びプログラム
Cotescu et al. Voice conversion for whispered speech synthesis
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
KR20200092505A (ko) 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법
JP2023539888A (ja) 声変換および音声認識モデルを使用した合成データ拡大
US11062692B2 (en) Generation of audio including emotionally expressive synthesized content
CN111223474A (zh) 一种基于多神经网络的语音克隆方法和系统
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
KR20230133362A (ko) 다양하고 자연스러운 텍스트 스피치 변환 샘플들 생성
CN112530400A (zh) 基于深度学习的文本生成语音的方法、系统、装置及介质
Wang et al. Speech augmentation using wavenet in speech recognition
US11361780B2 (en) Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore
US20240169973A1 (en) Method and device for speech synthesis based on multi-speaker training data sets
Kons et al. Neural TTS voice conversion
CN113470622A (zh) 一种可将任意语音转换成多个语音的转换方法及装置
JP7179216B1 (ja) 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP6538944B2 (ja) 発話リズム変換装置、方法及びプログラム
Charfuelan et al. MARY TTS unit selection and HMM-based voices for the Blizzard Challenge 2013
JP2018205654A (ja) 音声合成学習装置、音声合成装置、これらの方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220729

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221115

R150 Certificate of patent or registration of utility model

Ref document number: 7179216

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150