JP6876642B2 - 音声変換学習装置、音声変換装置、方法、及びプログラム - Google Patents

音声変換学習装置、音声変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP6876642B2
JP6876642B2 JP2018028301A JP2018028301A JP6876642B2 JP 6876642 B2 JP6876642 B2 JP 6876642B2 JP 2018028301 A JP2018028301 A JP 2018028301A JP 2018028301 A JP2018028301 A JP 2018028301A JP 6876642 B2 JP6876642 B2 JP 6876642B2
Authority
JP
Japan
Prior art keywords
voice
target
source
conversion function
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018028301A
Other languages
English (en)
Other versions
JP2019144404A (ja
Inventor
田中 宏
宏 田中
卓弘 金子
卓弘 金子
弘和 亀岡
弘和 亀岡
伸克 北条
伸克 北条
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018028301A priority Critical patent/JP6876642B2/ja
Priority to PCT/JP2019/006396 priority patent/WO2019163848A1/ja
Priority to US16/970,925 priority patent/US11393452B2/en
Publication of JP2019144404A publication Critical patent/JP2019144404A/ja
Application granted granted Critical
Publication of JP6876642B2 publication Critical patent/JP6876642B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声変換学習装置、音声変換装置、方法、及びプログラムに係り、特に、音声を変換するための音声変換学習装置、音声変換装置、方法、及びプログラムに関する。
音声の声帯音源情報(基本周波数や非周期性指標など)や声道スペクトル情報を表す特徴量は、STRAIGHTやメル一般化ケプストラム分析(Mel-Generalized Cepstral Analysis; MGC) などの音声分析手法により得ることができる。多くのテキスト音声合成システムや音声変換システムでは、このような音声特徴量の系列を入力テキストや変換元音声から予測し、ボコーダ方式に従って音声信号を生成するアプローチがとられる。入力テキストや変換元音声から適切な音声特徴量を予測する問題は一種の回帰(機械学習)問題であり、特に限られた数の学習サンプルしか得られない状況ではコンパクト(低次元)な特徴量表現となっている方が統計的な予測において有利である。多くのテキスト音声合成システムや音声変換システムにおいて(波形やスペクトルを直接予測しようとするのではなく)音声特徴量を用いたボコーダ方式が用いられるのはこの利点を活かすためである。一方で、ボコーダ方式によって生成される音声はボコーダ特有の機械的な音質となることが多く、このことが従来のテキスト音声合成システムや音声変換システムにおける音質の潜在的な限界を与えている。
これに対し、音声特徴量空間上でより自然な音声特徴量へ補正する方法が提案されている。例えば、テキスト音声合成や音声変換において加工された音声特徴量の変調スペクトル(Modulation Spectrum: MS)を自然な音声のMS へ補正する手法(非特許文献1)や、加工・変換した音声特徴量に対して、Generative Adversarial Networks(GAN)を用いて自然性を向上させる成分を足しこむことで自然な音声の音声特徴量へと補正する手法(非特許文献2)が提案されている。
Shinnosuke Takamichi, Tomoki Toda, Graham Neubig, Sakriani Sakti, and Satoshi Naka-mura, "A post_lter to modify the modulation spectrum in hmm-based speech synthesis," in Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014, pp. 290-294. Takuhiro Kaneko, Hirokazu Kameoka, Nobukatsu Hojo, Yusuke Ijima, Kaoru Hiramatsu, and Kunio Kashino, "Generative adversarial network-based postfilter for statistical parametric speech synthesis、" in Proc. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2017), 2017, pp. 4910-4914. Santiago Pascual, Antonio Bonafonte, and Joan Serra, "Segan: Speech enhancement gener-ative adversarial network," arXiv preprint arXiv:1703.09452, 2017. Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," arXiv preprint arXiv:1703.10593, 2017. Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, and Jaegul Choo, "Stargan: Unified generative adversarial networks for multi-domain image-to-image translation、" arXiv preprint arXiv:1711.09020, 2017.
上述の手法は、一定量の音質改善を達成しているもののコンパクト(低次元)空間での補正であることは変わりなく、また最終的な音声合成部はボコーダを通るため、やはり音質改善の潜在的な限界が存在する。一方で、GANを用いて音声波形に対する直接的な補正を行う手法(非特許文献3)も提案されている。音声波形を入力として直接補正を行うため、音声特徴量空間上での補正と比較するとより大きな品質改善が見込まれる。典型的なGANを用いた手法では、適用場面が限られており、入力波形と理想とする目標波形の間で理想的なアライメントが取られている場合において有効である。例えば、理想環境で収録された音声に対して、計算機上で雑音を重畳し雑音環境下音声を生成したのち雑音除去を行う場合は、入力音声である雑音環境下音声と目標音声である理想環境で収録された音声のアライメントは完璧であるため、音質改善が可能である。しかしながら、テキスト音声合成や音声変換において生成された合成音声から自然な音声への補正は上述のアライメント問題により非特許文献3の単純適用では品質改善が難しかった。
本発明は、上記問題点を解決するために成されたものであり、より自然な音質の音声に変換することができる変換関数を学習できる音声変換学習装置、方法、及びプログラムを提供することを目的とする。
また、より自然な音質の音声に変換することができる音声変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る音声変換学習装置は、ソース音声をターゲット音声に変換する変換関数を学習する音声変換学習装置であって、入力されたソース音声と、ターゲット音声とに基づいて、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように前記ソース変換関数及び前記ターゲット変換関数を学習する学習部を含んで構成されている。
本発明に係る音声変換学習方法は、ソース音声をターゲット音声に変換する変換関数を学習する音声変換学習装置における音声変換学習方法であって、学習部が、入力されたソース音声と、ターゲット音声とに基づいて、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように前記ソース変換関数及び前記ターゲット変換関数を学習する。
本発明に係る音声変換装置は、ソース音声をターゲット音声に変換する音声変換装置であって、予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、入力されたソース音声をターゲット音声に変換する音声変換部を含み、前記ターゲット変換関数は、入力されたソース音声と、ターゲット音声とに基づいて、前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたものである。
本発明に係る音声変換方法は、ソース音声をターゲット音声に変換する音声変換装置における音声変換方法であって、音声変換部が、予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、入力されたソース音声をターゲット音声に変換することを含み、前記ターゲット変換関数は、入力されたソース音声と、ターゲット音声とに基づいて、前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたものである。
本発明に係るプログラムは、コンピュータを、上記の音声変換学習装置又は上記の音声変換装置が備える各部として機能させるためのプログラムである。
本発明の音声変換学習装置、方法、及びプログラムによれば、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように学習することにより、より自然な音質の音声に変換することができる、という効果が得られる。
また、本発明の音声変換装置、方法、及びプログラムによれば、前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたターゲット変換関数を用いることにより、より自然な音質の音声に変換することができる、という効果が得られる。
本発明の実施の形態の処理の概念図である。 本発明の実施の形態に係る音声変換学習装置の構成を示すブロック図である。 本発明の実施の形態に係る音声変換装置の構成を示すブロック図である。 本発明の実施の形態に係る音声変換学習装置における学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンを示すフローチャートである。 実験結果を示す図である。 (A)目標の音声の波形を示す図、(B)テキスト音声合成により合成された音声の波形を示す図、及び(C)テキスト音声合成により合成された音声に対し、本発明の実施の形態の処理を適用した結果を示す図である。 ボコーダ方式による音声合成の枠組みを示す図である。 音声特徴量系列に対する補正処理の枠組みを示す図である。 GANを用いた音声波形に対する補正処理の一例を示す図である。 関連技術3の単純適用が難しい一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態では、cycle-consistent adversarial networks(非特許文献4、5)をヒントにしたアプローチによりアライメント問題を解決し、合成音声から自然な音声への波形補正を達成する。本発明の実施の形態の技術の主な目的は、テキスト音声合成や音声変換により加工された音声特徴量を用いてボコーダ方式で合成された音を、より自然な音質の音声へと波形変換することである。ボコーダ方式の音声合成技術の恩恵は大きいことが広く知られているが、本発明の実施の形態はボコーダ方式の音声合成技術への加算的な処理が可能であるため、大きな意義がある。
このように、本発明の実施の形態は、画像生成の分野で注目を集めているcycle-consistent adversarial networks(非特許文献4、5)をヒントにしたアプローチにより音声信号から音声信号へと変換する手法に関するものである。
次に、本発明の実施の形態における関連技術1〜3について説明する。
<関連技術1>
既存のボコーダ方式の音声合成では、声帯音源情報や声道スペクトル情報のような音声特徴量系列を、ボコーダを用いて変換することによって音声を生成する。図8に、ボコーダ方式の音声合成の処理のフローを示す。なお、ここで述べたボコーダとは、人間の発声のメカニズムに関する知見を元に、音の生成過程をモデル化したものである。例えば、ボコーダの代表的なモデルとして、ソースフィルターモデルがあるが、このモデルでは、音の生成過程を音源(ソース)とデジタルフィルターの二つによって説明している。具体的には、ソースから生じる音声信号(パルス信号で表される)に対してデジタルフィルターを随時適用していくことによって、声が生成されるとしている。このように、ボコーダ方式の音声合成では、発声のメカニズムを抽象的にモデル化して表現しているため、音声をコンパクト(低次元)な表現をすることができる。一方で、抽象化した結果、音声の自然さが失われて、ボコーダ特有の機械的な音質となることが多い。
<関連技術2>
既存の音声特徴量補正の枠組み(図9)では、ボコーダに通す前の音声特徴量を補正する。例えば、音声特徴量系列に対する対数振幅スペクトルを自然な音声の音声特徴量系列の対数振幅スペクトルと一致するように補正する。これらの技術は、特に音声特徴量を加工した場合に有効である。例えば、テキスト音声合成・音声変換では、加工後の音声特徴量が過剰に平滑化され微細な構造が失われる傾向にあるが、この問題に対処し、一定量の品質改善を行うことが可能である。しかしながら、コンパクト(低次元)空間での補正であることは変わりなく、また最終的な音声合成部はボコーダを通るため、やはり音質改善の潜在的な限界が存在する。
<関連技術3>
既存の音声波形補正の枠組み(図10)では、波形に対して直接補正する。例えば、理想環境下で収録された音声に対して、計算機上で雑音を重畳し雑音環境下音声を生成したのち、雑音環境下音声波形から理想環境下で収録された音声波形へのマッピングを学習し、変換する。関連技術2と比較して、補正後にボコーダを通らないため、関連技術2のような音質改善の潜在的な限界は存在しない。しかしながら、入力波形と理想とする目標波形の間で時間領域における理想的なアライメントが取られている場合(完全なパラレルデータの場合)において特に有効であり、完全なパラレルデータでない場合は単純適用が難しい。例えば、テキスト音声合成や音声変換において生成された合成音声から自然な音声への補正(図11)は両音声間のアライメント問題により単純適用が難しい。
<提案手法の原理>
本発明の実施の形態の技術は学習処理と補正処理(図1参照)からなる。
<学習処理>
学習処理では、ソース音声(例えばテキスト音声合成により合成された音声)とターゲット音声(例えば通常音声)が与えられているものとする。なお、音声データはパラレルデータでなくても良い。
まず、ソース音声xからターゲット音声へと変換し、変換された音声(以後、変換後ソース音声Gx→y(x))から再度ソース音声(以後、再構成ソース音声Gy→x(Gx→y(x)))へと変換する。一方で、ターゲット音声yからソース音声へと変換し、変換された音声(以後、変換後ターゲット音声Gy→x(y))から再度ターゲット音声(以後、再構成ターゲット音声Gx→y(Gy→x(y)))へと変換する。ここで、ニューラルネットで記述されたモデル(変換関数G)を学習する際に、通常のGAN同様、変換ソース・ターゲット音声と実際のソース・ターゲット音声を識別する識別器Dを用意し、識別器を騙すようにモデルを学習する。なお、再構成ソース・ターゲット音声が本来のソース・ターゲット音声と一致するような制約Lcycを加える。学習時の目的関数Lは、
Figure 0006876642

Figure 0006876642

Figure 0006876642

Figure 0006876642
であり、ここでλは、再構成ソース・ターゲット音声が本来のソース・ターゲット音声と一致するような制約項を制御する重みパラメータである。なお、Gは、Gx→yおよびGy→xのために、2つのモデルを別々に学習しても良いが、条件付きGANとして1つのモデルで表現することも可能である。同様に、DもDxおよびDyと独立な2つのモデルとして表現してもよいが、条件付きGANとして1つのモデルで表現することも可能である。
<補正処理>
一度ニューラルネットワークが学習されれば、任意の音声波形系列を、学習済みニューラルネットワークに入力することによって、目的となる音声データが得られる。
<本発明の実施の形態に係る音声変換学習装置の構成>
次に、本発明の実施の形態に係る音声変換学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係る音声変換学習装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換学習装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部40とを備えている。
入力部10は、学習データとして、ソース音声を生成する元となるテキストと、ターゲット音声である通常の人間の音声データとを入力として受け付ける。
なお、テキストではなく、合成音声を生成する元となる任意の音声特徴量系列を入力として受け付けてもよい。
演算部20は、音声合成部30と、学習部32とを含んで構成されている。
音声合成部30は、入力されたテキストから、図11上段に示すような、音声特徴量から音声を合成するボコーダを用いたテキスト音声合成により、合成音声を、ソース音声として生成する。
学習部32は、音声合成部30により生成されたソース音声と、入力されたターゲット音声とに基づいて、ソース音声をターゲット音声に変換するターゲット変換関数と、変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、ターゲット変換関数と、ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、ターゲット音声をソース音声に変換するソース変換関数と、変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、ソース変換関数と、ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、変換されたターゲット音声からソース変換関数を用いて再構成されたソース音声と元のソース音声とが一致し、変換されたソース音声からターゲット変換関数を用いて再構成されたターゲット音声と元のターゲット音声とが一致するようにソース変換関数及びターゲット変換関数を学習する。
具体的には、上記(1)式〜(4)式に示す目的関数を最大化するように、ターゲット変換関数、ターゲット識別器、ソース変換関数、及びソース識別器の各々を学習する。
このとき、上記図1の上段に示す誤差1、誤差2を最小化するように、ターゲット変換関数、ソース変換関数、及びターゲット識別器の各々を学習することと、上記図1の中段に示す誤差1、誤差2を最小化するように、ターゲット変換関数、ソース変換関数、及びソース識別器の各々を学習することとを交互に繰り返すことにより、上記(1)式〜(4)式に示す目的関数を最大化するように、ターゲット変換関数、ターゲット識別器、ソース変換関数、及びソース識別器の各々を学習する。
ターゲット変換関数、ターゲット識別器、ソース変換関数、ソース識別器、ソース変換関数、及びターゲット変換関数の各々は、ニューラルネットワークを用いて構成されている。
<本発明の実施の形態に係る音声変換装置の構成>
次に、本発明の実施の形態に係る音声変換装置の構成について説明する。図3に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換装置150は、機能的には図3に示すように入力部50と、演算部60と、出力部90とを備えている。
入力部50は、ソース音声を生成する元となるテキストを受け付ける。なお、テキストではなく、合成音声を生成する元となる任意の音声特徴量系列を入力として受け付けてもよい。
演算部60は、音声合成部70と、音声変換部72とを含んで構成されている。
音声合成部70は、入力されたテキストから、図11上段に示すような、音声特徴量から音声を合成するボコーダを用いたテキスト音声合成により、合成音声を、ソース音声として生成する。
音声変換部72は、音声変換学習装置100により予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、音声合成部70により生成されたソース音声をターゲット音声に変換し、出力部90により出力する。
<本発明の実施の形態に係る音声変換学習装置の作用>
次に、本発明の実施の形態に係る音声変換学習装置100の作用について説明する。入力部10において学習データとして、ソース音声を生成する元となるテキストと、ターゲット音声である通常の人間の音声データとを入力として受け付けると、音声変換学習装置100は、図4に示す学習処理ルーチンを実行する。
まず、ステップS100では、入力部10で受け付けたテキストから、ボコーダを用いたテキスト音声合成により、合成音声を、ソース音声として生成する。
次に、ステップS102では、ステップS100で得たソース音声と、入力部10で受け付けたターゲット音声とに基づいて、ソース音声をターゲット音声に変換するターゲット変換関数と、変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、ターゲット変換関数と、ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、ターゲット音声をソース音声に変換するソース変換関数と、変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、ソース変換関数と、ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記変換されたターゲット音声からソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声からターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するようにソース変換関数及びターゲット変換関数を学習し、学習結果を出力部40により出力して、学習処理ルーチンを終了する。
<本発明の実施の形態に係る音声変換装置の作用>
入力部50において音声変換学習装置100による学習結果を受け付ける。また、入力部50においてソース音声を生成する元となるテキストを受け付けると、音声変換装置150は、図5に示す音声変換処理ルーチンを実行する。
ステップS150では、入力部50で受け付けたテキストから、図11上段に示すような、音声特徴量から音声を合成するボコーダを用いたテキスト音声合成により、合成音声を、ソース音声として生成する。
ステップS152では、音声変換学習装置100により予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、上記ステップS150で生成されたソース音声をターゲット音声に変換し、出力部90により出力して、音声変換処理ルーチンを終了する。
<実験結果>
本発明の実施の形態の有効性を示すために、一実現方法を用いて、実験を行った。テキスト音声合成により推定された音声特徴量をボコーダ方式により合成した合成音声を、より自然な音声へと補正する。学習データに含まれない30文を用いて5段階オピニオンスコアによる音声の聴取実験を10名に対して実施した。評価対象音声は、A)目標の音声、B)テキスト音声合成により合成された音声、C)B)の音声に対して提案手法を適用した音声、の3種類であり、評価軸は、「人が発声した音声であるかどうか」である。5を「人が発声した音声」、1を「合成音声」と定義した。
結果は、図6の通りであり、大幅な改善が確認できた。その際の各音声サンプルのスペクトルグラムを図7に記す。
以上説明したように、本発明の実施の形態に係る音声変換学習装置によれば、ソース音声をターゲット音声に変換するターゲット変換関数と、変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、ターゲット変換関数と、ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、ターゲット音声をソース音声に変換するソース変換関数と、変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、ソース変換関数と、ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、変換されたターゲット音声からソース変換関数を用いて再構成されたソース音声と元のソース音声とが一致し、変換された前記ソース音声からターゲット変換関数を用いて再構成されたターゲット音声と元のターゲット音声とが一致するように学習することにより、より自然な音質の音声に変換することができる。
また、本発明の実施の形態に係る音声変換装置によれば、ターゲット変換関数とターゲット識別器とについて、ターゲット変換関数と、ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、ソース変換関数とソース識別器とについて、ソース変換関数と、ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、変換されたターゲット音声からソース変換関数を用いて再構成されたソース音声と元のソース音声とが一致し、変換されたソース音声からターゲット変換関数を用いて再構成されたターゲット音声と元のターゲット音声とが一致するように予め学習されたターゲット変換関数を用いることにより、より自然な音質の音声に変換することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、音声変換学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
また、上述の音声変換学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
30 音声合成部
32 学習部
40 出力部
50 入力部
60 演算部
70 音声合成部
72 音声変換部
90 出力部
100 音声変換学習装置
150 音声変換装置

Claims (7)

  1. ソース音声をターゲット音声に変換する変換関数を学習する音声変換学習装置であって、
    入力されたソース音声と、ターゲット音声とに基づいて、
    前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、
    前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、
    前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように前記ソース変換関数及び前記ターゲット変換関数を学習する学習部
    を含む音声変換学習装置。
  2. 前記ソース音声は、音声特徴量から音声を合成するボコーダを用いて生成された合成音声であり、
    前記ターゲット音声は、通常の音声である請求項1記載の音声変換学習装置。
  3. 前記ターゲット変換関数、前記ターゲット識別器、前記ソース変換関数、及び前記ソース識別器の各々は、ニューラルネットワークを用いて構成される請求項1又は2記載の音声変換学習装置。
  4. ソース音声をターゲット音声に変換する音声変換装置であって、
    予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、入力されたソース音声をターゲット音声に変換する音声変換部を含み、
    前記ターゲット変換関数は、
    入力されたソース音声と、ターゲット音声とに基づいて、
    前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、
    前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、
    前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたものである
    音声変換装置。
  5. ソース音声をターゲット音声に変換する変換関数を学習する音声変換学習装置における音声変換学習方法であって、
    学習部が、入力されたソース音声と、ターゲット音声とに基づいて、
    前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、
    前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、
    前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように前記ソース変換関数及び前記ターゲット変換関数を学習する
    音声変換学習方法。
  6. ソース音声をターゲット音声に変換する音声変換装置における音声変換方法であって、
    音声変換部が、予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、入力されたソース音声をターゲット音声に変換することを含み、
    前記ターゲット変換関数は、
    入力されたソース音声と、ターゲット音声とに基づいて、
    前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、
    前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、
    前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたものである
    音声変換方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の音声変換学習装置又は請求項4記載の音声変換装置が備える各部として機能させるためのプログラム。
JP2018028301A 2018-02-20 2018-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム Active JP6876642B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018028301A JP6876642B2 (ja) 2018-02-20 2018-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム
PCT/JP2019/006396 WO2019163848A1 (ja) 2018-02-20 2019-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム
US16/970,925 US11393452B2 (en) 2018-02-20 2019-02-20 Device for learning speech conversion, and device, method, and program for converting speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018028301A JP6876642B2 (ja) 2018-02-20 2018-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019144404A JP2019144404A (ja) 2019-08-29
JP6876642B2 true JP6876642B2 (ja) 2021-05-26

Family

ID=67687331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018028301A Active JP6876642B2 (ja) 2018-02-20 2018-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11393452B2 (ja)
JP (1) JP6876642B2 (ja)
WO (1) WO2019163848A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600046A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于改进的STARGAN和x向量的多对多说话人转换方法
JP7368779B2 (ja) 2020-04-03 2023-10-25 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN113539233A (zh) * 2020-04-16 2021-10-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
WO2022024183A1 (ja) * 2020-07-27 2022-02-03 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022024187A1 (ja) * 2020-07-27 2022-02-03 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
WO2010137385A1 (ja) * 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP5545935B2 (ja) * 2009-09-04 2014-07-09 国立大学法人 和歌山大学 音声変換装置および音声変換方法
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
JP6472005B2 (ja) * 2016-02-23 2019-02-20 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6468519B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6664670B2 (ja) * 2016-07-05 2020-03-13 クリムゾンテクノロジー株式会社 声質変換システム
US10347238B2 (en) * 2017-10-27 2019-07-09 Adobe Inc. Text-based insertion and replacement in audio narration
US11894008B2 (en) * 2017-12-12 2024-02-06 Sony Corporation Signal processing apparatus, training apparatus, and method

Also Published As

Publication number Publication date
US11393452B2 (en) 2022-07-19
JP2019144404A (ja) 2019-08-29
US20200394996A1 (en) 2020-12-17
WO2019163848A1 (ja) 2019-08-29

Similar Documents

Publication Publication Date Title
JP6876642B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Tachibana et al. An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation
Wali et al. Generative adversarial networks for speech processing: A review
CN110033755A (zh) 语音合成方法、装置、计算机设备及存储介质
Tanaka et al. Synthetic-to-natural speech waveform conversion using cycle-consistent adversarial networks
Zhang et al. A survey on audio diffusion models: Text to speech synthesis and enhancement in generative ai
JP6638944B2 (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JP7274184B2 (ja) 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
CN111833843B (zh) 语音合成方法及系统
JP6649210B2 (ja) 音声合成学習装置、方法、及びプログラム
US20230282202A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
Saito et al. Text-to-speech synthesis using STFT spectra based on low-/multi-resolution generative adversarial networks
Moon et al. Mist-tacotron: End-to-end emotional speech synthesis using mel-spectrogram image style transfer
Pamisetty et al. Prosody-tts: An end-to-end speech synthesis system with prosody control
Nercessian Differentiable world synthesizer-based neural vocoder with application to end-to-end audio style transfer
Cohen et al. Speech time-scale modification with GANs
JP2015161774A (ja) 音合成方法及び音合成装置
Zhang et al. Audio diffusion model for speech synthesis: A survey on text to speech and speech enhancement in generative ai
Tanaka et al. WaveCycleGAN: Synthetic-to-natural speech waveform conversion using cycle-consistent adversarial networks
Kannan et al. Voice conversion using spectral mapping and TD-PSOLA
Huang et al. Generalization of spectrum differential based direct waveform modification for voice conversion
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
Al-Radhi et al. A continuous vocoder using sinusoidal model for statistical parametric speech synthesis
Yun et al. Voice conversion of synthesized speeches using deep neural networks
Wen et al. An excitation model based on inverse filtering for speech analysis and synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210426

R150 Certificate of patent or registration of utility model

Ref document number: 6876642

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150