JP7388495B2 - データ変換学習装置、データ変換装置、方法、及びプログラム - Google Patents

データ変換学習装置、データ変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP7388495B2
JP7388495B2 JP2022121734A JP2022121734A JP7388495B2 JP 7388495 B2 JP7388495 B2 JP 7388495B2 JP 2022121734 A JP2022121734 A JP 2022121734A JP 2022121734 A JP2022121734 A JP 2022121734A JP 7388495 B2 JP7388495 B2 JP 7388495B2
Authority
JP
Japan
Prior art keywords
data
conversion
downsampling
conversion unit
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022121734A
Other languages
English (en)
Other versions
JP2022136297A (ja
Inventor
卓弘 金子
弘和 亀岡
宏 田中
伸克 北条
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2022121734A priority Critical patent/JP7388495B2/ja
Publication of JP2022136297A publication Critical patent/JP2022136297A/ja
Application granted granted Critical
Publication of JP7388495B2 publication Critical patent/JP7388495B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、データ変換学習装置、データ変換装置、方法、及びプログラムに係り、特に、データを変換するためのデータ変換学習装置、データ変換装置、方法、及びプログラムに関する。
外部データ、外部モジュールを要することなく、かつ、系列データのパラレルデータを用意することなく、データ変換を実現する方法が知られている(非特許文献1、2)。
この方法では、Cycle Generative Adversarial Network(CycleGAN)を用いた学習を行っている。また、学習時の損失関数として、Identity-mapping lossを用い、生成器において、Gated CNN(Convolutional Neural Network)を用いている。
CycleGANでは、変換データがターゲットに属するか否かを表すAdversarial lossと、変換データを逆変換すると元に戻ることを表すCycle-consistency lossとを含む損失関数を用いている(図12)。
具体的には、CycleGANは、順方向生成器GX→Yと、逆方向生成器GY→Xと、変換先識別器DYと、変換元識別器DXとを構成要素としている。順方向生成器GX→Yは、ソースデータxをターゲットデータGX→Y(x)に順変換する。逆方向生成器GY→Xは、ターゲットデータyをソースデータGY→X(y)に逆変換する。変換先識別器DYは、変換ターゲットデータGX→Y(x)(生成物、偽物)とターゲットデータy(本物)とを識別する。変換元識別器DXは、 変換ソースデータGY→X(x)(生成物、偽物)とソースデータx(本物)とを識別する。
Adversarial lossは、以下の式(1)で表される。このAdversarial lossが、目的関数に含まれる。


(1)
Adversarial lossでは、変換先識別器DYが、変換ターゲットデータGX→Y(x)(生成物、偽物)と本物のターゲットデータyの各々を識別する際に、変換先識別器DYは、Adversarial lossを最大化することで順方向生成器GX→Yに騙されないように偽物と本物を識別するように学習される。順方向生成器GX→Yは、Adversarial lossを最小化することで変換先識別器DYを騙せるデータを生成するように学習される。
また、Cycle-consistency lossは、以下の式(2)で表される。このCycle-consistency lossが、目的関数に含まれる。


(2)
Adversarial lossは、本物らしくなるように制約を与えるだけなので、適切な変換ができるとは限らない。そこで、Cycle-consistency lossにより、ソースデータxを順方向生成器GX→Yにより順変換して逆方向生成器GY→Xにより逆変換して得られたデータGY→X(GX→Y(x))が、元に戻るように制約を与えること(x = GY→X(GX→Y(x)))で、擬似的なペアデータを探索しながら生成器GX→Y、GY→Xを学習する。
また、Identity-mapping lossは、以下の式(3)で表される(図13)。このIdentity-mappingが、目的関数に含まれる。


(3)
上記Identity-mapping lossにより、生成器GX→Y、GY→Xが入力情報を保つように制約が与えられる。
また、生成器は、図14に示すGated CNNを用いて構成されている。このGated CNNでは、l層と(l+1)層の間でデータドリブンに選択しながら情報を伝播する。これにより、時系列データの系列的構造及び階層的構造を効率的に表現することができる。
T. Kaneko and H. Kameoka," CycleGAN-VC: Non-parallel Voice Conversion Using Cycle-Consistent Adversarial Networks," 2018 26th European Signal Processing Conference (EUSIPCO). T. Kaneko and H. Kameoka, "Parallel-data-free voice conversion using cycle-consistent adversarial networks," in arXiv preprint arXiv:1711.11293, Nov. 30, 2017.
上記式(2)に示すCycle-consistency lossでは、明示的な距離関数(例:L1)でソースデータxと、順変換して逆変換したデータGY→X(GX→Y(x))の距離を計測している。この距離は、実際には複雑な形状をしているが、それを明示的な距離関数(例:L1)で近似する結果、平滑化される。
また、順変換して逆変換したデータGY→X(GX→Y(x))は、距離関数を用いて学習された結果であるため、質の高い(識別が難しい)データを生成しやすいが、ソースデータを順変換したデータGY→X(y)は、距離関数を用いて学習された結果ではないため、質の低い(識別がしやすい)データを生成しやすい。質の高いデータを識別できるように学習が進むと、質の低いデータは簡単に識別できてしまうため、無視されやすくなり、学習が進みにくくなる。
本発明は、上記問題点を解決するために成されたものであり、変換先のドメインのデータに精度よく変換することができる生成器を学習できるデータ変換学習装置、方法、及びプログラムを提供することを目的とする。
また、変換先のドメインのデータに精度よく変換することができるデータ変換装置を提供することを目的とする。
上記目的を達成するために、第一の態様に係るデータ変換学習装置は、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付ける入力部と、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習する学習部であって、前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、前記変換先のドメインのデータについての前記変換先識別器による識別結果、前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記変換元のドメインのデータについての前記変換元識別器による識別結果、前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習する学習部を含む。
また、第二の態様に係るデータ変換学習装置は、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付ける入力部と、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習する学習部とを含み、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、を含み、前記逆方向生成器は、前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、を含む。
また、第三の態様に係るデータ変換装置は、変換元のドメインのデータを受け付ける入力部と、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成するデータ変換部とを含み、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、を含む。
また、第四の態様に係るデータ変換学習方法は、入力部が、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、学習部が、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習することであって、前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、前記変換先のドメインのデータについての前記変換先識別器による識別結果、前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記変換元のドメインのデータについての前記変換元識別器による識別結果、前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習する、ことを含む。
また、第五の態様に係るデータ変換学習方法は、入力部が、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、学習部が、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習すること、を含み、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、を含み、前記逆方向生成器は、前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、を含む。
また、第六の態様に係るデータ変換方法は、入力部が、変換元のドメインのデータを受け付け、データ変換部が、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成すること、を含み、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、を含む。
また、第七の態様に係るプログラムは、コンピュータに、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習することであって、前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、前記変換先のドメインのデータについての前記変換先識別器による識別結果、前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、前記変換元のドメインのデータについての前記変換元識別器による識別結果、前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習することを実行させるためのプログラムである。
また、第八の態様に係るプログラムは、コンピュータに、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習することを実行させるためのプログラムであって、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、を含み、前記逆方向生成器は、前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、を含む。
また、第九の態様に係るプログラムは、コンピュータに、変換元のドメインのデータを受け付け、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成することを実行させるためのプログラムであって、前記順方向生成器は、前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、を含む。
本発明の一態様に係るデータ変換学習装置、方法、及びプログラムによれば、変換先のドメインのデータに精度よく変換することができる生成器を学習することができる、という効果が得られる。
本発明の一態様に係るデータ変換装置、方法、及びプログラムによれば、変換先のドメインのデータに精度よく変換することができる、という効果が得られる。
本発明の実施の形態に係る学習処理の方法を説明するための図である。 本発明の実施の形態に係る生成器の構成を示す図である。 本発明の実施の形態に係る識別器の構成を示す図である。 本発明の実施の形態に係るデータ変換学習装置の構成を示すブロック図である。 本発明の実施の形態に係るデータ変換装置の構成を示すブロック図である。 データ変換学習装置又はデータ変換装置として機能するコンピュータの一例の概略ブロック図である。 本発明の実施の形態に係るデータ変換学習装置におけるデータ変換学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係るデータ変換学習装置における生成器及び識別器を学習する処理の流れを示すフローチャートである。 本発明の実施の形態に係るデータ変換装置におけるデータ変換処理ルーチンを示すフローチャートである。 生成器のネットワーク構成を示す図である。 識別器のネットワーク構成を示す図である。 従来技術のCycleGANを説明するための図である。 従来技術のIdentity-mapping lossを説明するための図である。 従来技術のGated CNNを説明するための図である。 従来技術の1D CNNを説明するための図である。 従来技術の1D CNNを用いた生成器を説明するための図である。 従来技術の2D CNNを説明するための図である。 従来技術の2D CNNを用いた生成器を説明するための図である。 従来技術の識別器を説明するための図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態では、CycleGANを改良して、変換元識別器DX’と変換先識別器DY’とを構成要素として追加する(図1参照)。変換元識別器DX’は、順変換して逆変換したデータGY→X(GX→Y(x))とソースデータxとの各々について、生成物又は偽物であるか、本物であるかを識別する。変換先識別器DY’は、逆変換して順変換したデータGX→Y(GY→X(x))とターゲットデータyとの各々について、生成物又は偽物であるか、本物であるかを識別する。これは、異なる質のfakeデータを適切に識別するためである。つまり、realデータ(ターゲットデータ)との距離を測る損失関数も一緒に学習するRealデータに比較的近いFakeデータと、そのような制約がないため質が低いFakeデータと、の両方を適切に取り扱いたいものの、1つの識別器で、上記のように質の高さが異なる2種類のFakeデータを適切に取り扱うためである。
また、目的関数は、以下の式(4)に示すSecond adversarial lossを更に含む。


(4)
変換元識別器DX’は、Second adversarial lossを最大化することで順方向生成器GX→Y、逆方向生成器GY→Xに騙されないように生成物又は偽物と本物とに正しく識別するように学習される。また、順方向生成器GX→Y、逆方向生成器GY→Xは、Second adversarial lossを最小化することで、変換元識別器DX’を騙せるデータを生成するように学習される。
また、ソースデータxと逆変換したデータGY→X(y)との各々について識別を行う変換元識別器DXのパラメータと、ソースデータxと順変換して逆変換したデータGY→X(GX→Y(x))との各々について識別を行う変換元識別器DX’のパラメータとを、別々に学習することが好ましい。
また、変換先識別器DY’についても、上記式(4)と同様に、Second adversarial lossを定義し、目的関数に含める。
すなわち、最終的な目的関数は、以下の式(5)で表される。


(5)
また、本実施の形態では、生成器のネットワーク構造を、1D CNNと2D CNNを組み合わせたものに改良する。
ここで、1D CNNと2D CNNとについて説明する。
1D CNNでは、図15に示すように、畳み込みによりダウンサンプリングする際に、データのチャネル方向の全領域及び幅方向の局所領域での畳み込みを用いる。
例えば、図16に示すように、1D CNNを用いた生成器において、幅を、時間Tとし、チャネルを特徴量の次元Qとすると、畳み込む際に、時間方向(T)については局所的な関係を見て、特徴量次元方向(Q)については全ての関係を見ることになる。これにより、ダイナミックな変化を表現しやすい一方、変化をし過ぎて詳細構造を失ってしまうことがある。例えば、音声の場合、男性から女性への大きな変換を表現しやすい一方、声の自然性を表す細い構造を失ってしまい、合成音感が増してしまう。
また、1D CNNを用いた生成器では、時間方向について効率的に関係を見るために時間方向についてダウンサンプリングを行い、代わりにチャネル方向に次元を増す。次に、複数層から構成されたメイン変換部により徐々に変換を行う。そして、時間方向についてアップサンプリングを行い、元のサイズに戻す。
このように、1D CNNを用いた生成器では、ダイナミックな変換が可能である一方、詳細情報を失ってしまうことがある。
2D CNNでは、図17に示すように、畳み込みによりダウンサンプリングする際に、データのチャネル方向の局所領域及び幅方向の局所領域での畳み込みを用いる。
例えば、図18に示すように、2D CNNを用いた生成器において、幅を、時間Tとし、チャネルを特徴量の次元Qとすると、畳み込む際に、時間方向(T)については局所的な関係を見て、特徴量次元方向(Q)についても局所的な関係を見ることになる。これにより、変換範囲が局所的となり、詳細構造を保持しやすい一方、ダイナミックな変化を表現しにくい。例えば、音声の場合、声の自然性を表す細い構造を保持しやすい一方、男性から女性への大きな変換を表現しにくく、中立的な声になってしまう。
また、2D CNNを用いた生成器では、時間方向及び特徴量次元方向について効率的に関係を見るために時間方向及び特徴量次元方向についてダウンサンプリングを行い、代わりにチャネル方向に次元を増す。次に、複数層から構成されたメイン変換部により徐々に変換を行う。そして、時間方向及び特徴量次元方向についてアップサンプリングを行い、元のサイズに戻す。
このように、2D CNNを用いた生成器では、詳細な情報を保持することが可能な一方、ダイナミックな変換が難しい。
本発明の実施の形態では、生成器として、2D CNNと1D CNNを組み合わせたものを用いる。例えば、図2に示すように、生成器は、ダウンサンプリング変換部G1と、メイン変換部G2と、アップサンプリング変換部G3と、を含む。まず、ダウンサンプリング変換部G1が、2D CNNを用いた生成器と同様に、時間方向及び特徴量次元方向について効率的に関係を見るために時間方向及び特徴量次元方向についてダウンサンプリングを行う。次に、メイン変換部G2は、1D CNNに合わせた形状に変更した上で、チャネル方向について圧縮を行う。次に、メイン変換部G2は、1D CNNによりダイナミックに変換を行う。そして、メイン変換部G2は、チャネル方向について拡張を行い、そして、2D CNNに合わせた形状に変更する。そして、アップサンプリング変換部G3は、2D CNNを用いた生成器と同様に、時間方向及び特徴量次元方向についてアップサンプリングを行い、元のサイズに戻す。なお、メイン変換部G2は、ダイナミック変換部の一例である。
ここで、ダウンサンプリングやアップサンプリングの部分では、2D CNNを使うことで、詳細構造の保持を優先する。
このように、本実施の形態では、生成器として、2D CNNと1D CNNを組み合わせたものを用いることにより、2D CNNを用いて詳細構造を保持することができ、1D CNNを用いてダイナミックに変換することができる。
また、メイン変換部では、例えば、以下の式に示す通常のNetworkを用いることができる。
y = F(x)
ただし、上記のNetworkでは、変換の過程で元の情報(x)を失ってしまうことがある。
そこで、本発明の実施の形態では、メイン変換部において、例えば、以下の式に示すResidual Networkを用いる。
y = x + R(x)
上記のResidual Networkでは、元の情報(x)を保持しながら変換していくことが可能となる。このように、メイン変換部では、Residual構造により詳細構造の保持が元から可能であるため、生成器において1D CNNを用いることでダイナミックな変換と詳細構造の保持の両方を可能とする。
また、本発明の実施の形態では、従来技術における識別器のネットワーク構造を改良する。
従来技術では、図19に示すように、識別器の最終層において全結合層を用いるため、パラメータ数が多く、学習が困難である。
そこで、本実施の形態では、図3に示すように、識別器の最終層において全結合層の代わりに畳み込み層を用いるため、パラメータ数が減り、学習の難しさが緩和される。
<本発明の実施の形態に係るデータ変換学習装置の構成>
次に、本発明の実施の形態に係るデータ変換学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係るデータ変換学習装置100は、CPUと、RAMと、後述するデータ変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このデータ変換学習装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、変換元のドメインの音声信号の集合、及び変換先のドメインの音声信号の集合を受け付ける。
演算部20は、音響特徴抽出部30と、学習部32を含んで構成されている。
音響特徴抽出部30は、入力された変換元のドメインの音声信号の集合に含まれる音声信号の各々から、音響特徴量系列を抽出する。また、音響特徴抽出部30は、入力された変換先のドメインの音声信号の集合に含まれる音声信号の各々から、音響特徴量系列を抽出する。
学習部32は、変換元のドメインの音声信号の各々における音響特徴量系列と、変換先のドメインの音声信号の各々における音響特徴量系列とに基づいて、変換元のドメインの音声信号の音響特徴量系列から変換先のドメインの音声信号の音響特徴量系列を生成する順方向生成器GX→Yと、変換先のドメインの音声信号の音響特徴量系列から変換元のドメインの音声信号の音響特徴量系列を生成する逆方向生成器GY→Xとを学習する。
具体的には、学習部32は、目的関数の値を最小化するように、順方向生成器GX→Y、逆方向生成器GY→Xを学習する。また、学習部32は、上記式(5)に示す目的関数の値を最大化するように、変換先識別器DY、DY'、変換元識別器DX、DX'を学習する。このとき、変換先識別器DY、DY'のパラメータを別々に学習すると共に、変換元識別器DX、DX'のパラメータを別々に学習する。
この目的関数は、上記式(5)に示すように、(a)順方向生成器GX→Yによって生成された順方向生成データについての、順方向生成器GX→Yによって生成された順方向生成データであるか否かを識別する変換先識別器DYによる識別結果、(b)変換元のドメインの音声信号の音響特徴量系列と、変換元のドメインの音声信号の音響特徴量系列から順方向生成器GX→Yによって生成された順方向生成データから、逆方向生成器GY→Xによって生成された逆方向生成データとの距離、(c)順方向生成データから逆方向生成器GY→Xによって生成された逆方向生成データについての、逆方向生成器GY→Xによって生成された逆方向生成データであるか否かを識別する変換元識別器DX'による識別結果、(d)逆方向生成器GY→Xによって生成された逆方向生成データについての、逆方向生成器GY→Xによって生成された逆方向生成データであるか否かを識別する変換元識別器DXによる識別結果、(e)変換先のドメインの音声信号の音響特徴量系列と、変換先のドメインの音声信号の音響特徴量系列から逆方向生成器GY→Xによって生成された逆方向生成データから、順方向生成器GX→Yによって生成された順方向生成データとの距離、(f)逆方向生成データから順方向生成器GX→Yによって生成された順方向生成データについての、順方向生成器GX→Yによって生成された順方向生成データであるか否かを識別する変換先識別器DY'による識別結果、(g)変換先のドメインの音声信号の音響特徴量系列の変換先識別器DYによる識別結果、(h)変換元のドメインの音声信号の音響特徴量系列についての変換元識別器DXによる識別結果、(i)変換先のドメインの音声信号の音響特徴量系列と、変換先のドメインの音声信号の音響特徴量系列から順方向生成器GX→Yによって生成された順方向生成データとの距離、及び(j)変換元のドメインの音声信号の音響特徴量系列と、変換元のドメインの音声信号の音響特徴量系列から逆方向生成器GY→Xによって生成された逆方向生成データとの距離を用いて表される。
学習部32は、予め定められた終了条件を満たすまで、上記の順方向生成器GX→Y、逆方向生成器GY→X、変換先識別器DY、DY'、及び変換元識別器DX、DX'の学習を繰り返し、最終的に得られた順方向生成器GX→Y、逆方向生成器GY→Xを出力部50により出力する。ここで、順方向生成器GX→Y及び逆方向生成器GY→Xの各々は、2D CNNと1D CNNを組み合わせたものであり、ダウンサンプリング変換部G1と、メイン変換部G2と、アップサンプリング変換部G3と、を含む。順方向生成器GX→Yのダウンサンプリング変換部G1は、変換元のドメインの音声信号の音響特徴量系列の局所的な構造を保持したダウンサンプリングを行う。メイン変換部G2は、ダウンサンプリング変換部G1の出力データをダイナミックに変換する。アップサンプリング変換部G3は、メイン変換部G2の出力データのアップサンプリングにより順方向生成データを生成する。
逆方向生成器GY→Xのダウンサンプリング変換部G1は、変換先のドメインの音声信号の音響特徴量系列の局所的な構造を保持したダウンサンプリングを行う。メイン変換部G2は、ダウンサンプリング変換部G1の出力データをダイナミックに変換する。アップサンプリング変換部G3は、メイン変換部G2の出力データのアップサンプリングにより逆方向生成データを生成する。
また、順方向生成器GX→Y及び逆方向生成器GY→Xの各々は、一部の層について、Gated CNNが用いて出力が計算されるように構成されている。
また、変換先識別器DY、DY'及び変換元識別器DX、DX'の各々は、最終層が畳み込み層を含むように構成されたニューラルネットワークを用いて構成される。
<本発明の実施の形態に係るデータ変換装置の構成>
次に、本発明の実施の形態に係るデータ変換装置の構成について説明する。図5に示すように、本発明の実施の形態に係るデータ変換装置150は、CPUと、RAMと、後述するデータ変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このデータ変換装置150は、機能的には図5に示すように入力部60と、演算部70と、出力部90とを備えている。
入力部60は、変換元のドメインの音声信号を、入力として受け付ける。
演算部70は、音響特徴抽出部72と、データ変換部74と、変換音声生成部78とを含んで構成されている。
音響特徴抽出部72は、入力された変換元のドメインの音声信号から、音響特徴量系列を抽出する。
データ変換部74は、データ変換学習装置100により学習された順方向生成器GX→Yを用いて、音響特徴抽出部72により抽出された音響特徴量系列から、変換先のドメインの音声信号の音響特徴量系列を推定する。
変換音声生成部78は、推定された変換先のドメインの音声信号の音響特徴量系列から、時間領域信号を生成し、変換先のドメインの音声信号として出力部90により出力する。
データ変換学習装置100及びデータ変換装置150の各々は、一例として、図6に示すコンピュータ84によって実現される。コンピュータ84は、CPU86、メモリ88、プログラム82を記憶した記憶部92、モニタを含む表示部94、及びキーボードやマウスを含む入力部96を含んでいる。CPU86、メモリ88、記憶部92、表示部94、及び入力部96はバス98を介して互いに接続されている。
記憶部92はHDD、SSD、フラッシュメモリ等によって実現される。記憶部92には、コンピュータ84をデータ変換学習装置100又はデータ変換装置150として機能させるためのプログラム82が記憶されている。CPU86は、プログラム82を記憶部92から読み出してメモリ88に展開し、プログラム82を実行する。なお、プログラム82をコンピュータ可読媒体に格納して提供してもよい。
<本発明の実施の形態に係るデータ変換学習装置の作用>
次に、本発明の実施の形態に係るデータ変換学習装置100の作用について説明する。入力部10により、変換元のドメインの音声信号の集合、及び変換先のドメインの音声信号の集合を受け付けると、データ変換学習装置100は、図7に示すデータ変換学習処理ルーチンを実行する。
まず、ステップS100では、音響特徴抽出部30は、入力された変換元のドメインの音声信号の各々から、音響特徴量系列を抽出する。また、入力された変換先のドメインの音声信号の各々から、音響特徴量系列を抽出する。
次に、ステップS102では、学習部32は、変換元のドメインの音声信号の各々における音響特徴量系列と、変換先のドメインの音声信号の各々における音響特徴量系列とに基づいて、順方向生成器GX→Y、逆方向生成器GY→X、変換先識別器DY、DY'、及び変換元識別器DX、DX'を学習し、学習結果を出力部50により出力して、データ変換学習処理ルーチンを終了する。
上記ステップS102の学習部32の処理は、図8に示す処理ルーチンにより実現される。
まず、ステップS110において、変換元のドメインの音声信号の各々における音響特徴量系列の集合Xから、変換元のドメインの音声信号における音響特徴量系列xをランダムに1つだけ取得する。また、変換先のドメインの音声信号の各々における音響特徴量系列の集合Yから、変換先のドメインの音声信号における音響特徴量系列yをランダムに1つだけ取得する。
ステップS112では、順方向生成器GX→Yを用いて、変換元のドメインの音声信号における音響特徴量系列xを順方向生成データGX→Y(x)に変換する。また、逆方向生成器GY→Xを用いて、変換先のドメインの音声信号における音響特徴量系列yを逆方向生成データGY→X(y)に変換する。
ステップS114では、変換先識別器DYを用いて、順方向生成データGX→Y(x)の識別結果と、変換先のドメインの音声信号における音響特徴量系列yの識別結果とを取得する。また、変換元識別器DXを用いて、逆方向生成データGY→X(y)の識別結果と、変換元のドメインの音声信号における音響特徴量系列xの識別結果とを取得する。
ステップS116では、逆方向生成器GY→Xを用いて、順方向生成データGX→Y(x)を逆方向生成データGY→X(GX→Y(x))に変換する。また、順方向生成器GX→Yを用いて、逆方向生成データGY→X(y)を順方向生成データGX→Y(GY→X(y))に変換する。
ステップS118において、変換先識別器DY’を用いて、順方向生成データGX→Y(GY→X(y))の識別結果と、変換先のドメインの音声信号における音響特徴量系列yの識別結果とを取得する。また、変換元識別器DX’を用いて、逆方向生成データGY→X(GX→Y(x))の識別結果と、変換元のドメインの音声信号における音響特徴量系列xの識別結果とを取得する。
ステップS120では、変換元のドメインの音声信号における音響特徴量系列xと、逆方向生成データGY→X(GX→Y(x))との距離を測定する。また、変換先のドメインの音声信号における音響特徴量系列yと、順方向生成データGX→Y(GY→X(y))との距離を測定する。
ステップS122では、順方向生成器GX→Yを用いて、変換先のドメインの音声信号における音響特徴量系列yを順方向生成データGX→Y(y)に変換する。また、逆方向生成器GY→Xを用いて変換元のドメインの音声信号における音響特徴量系列xを逆方向生成データGY→X(x)に変換する。
ステップS124では、変換先のドメインの音声信号における音響特徴量系列yと、順方向生成データGX→Y(y)との距離を測定する。また、変換元のドメインの音声信号における音響特徴量系列xと、逆方向生成データGY→X(x)との距離を測定する。
ステップS126では、上記ステップS114、S118、ステップS120、S124で得られた各種データに基づいて、上記式(5)に示す目的関数の値を最小化するように、順方向生成器GX→Y、逆方向生成器GY→Xのパラメータを学習する。また、学習部32は、上記ステップS114、S118、ステップS120、S124で出力された各種データに基づいて、上記式(5)に示す目的関数の値を最大化するように、変換先識別器DY、DY'、及び変換元識別器DX、DX'のパラメータを学習する。
ステップS128において、全てのデータについて終了したか否かを判断する。全てのデータについて終了していない場合、ステップS100に戻り、再度ステップS110~S126の処理を行う。
一方、全てのデータについて終了している場合、処理を終了する。
<本発明の実施の形態に係るデータ変換装置の作用>
次に、本発明の実施の形態に係るデータ変換装置150の作用について説明する。入力部60により、データ変換学習装置100による学習結果を受け付ける。また、入力部60により、変換元のドメインの音声信号を受け付けると、データ変換装置150は、図9に示すデータ変換処理ルーチンを実行する。
まず、ステップS150では、入力された変換元のドメインの音声信号から、音響特徴量系列を抽出する。
次に、ステップS152では、データ変換学習装置100により学習された順方向生成器GX→Yを用いて、音響特徴抽出部72により抽出された音響特徴量系列から、変換先のドメインの音声信号の音響特徴量系列を推定する。
ステップS156では、推定された変換先のドメインの音声信号の音響特徴量系列から、時間領域信号を生成し、変換先の音声信号として出力部90により出力して、データ変換処理ルーチンを終了する。
<実験結果>
本発明の実施の形態の手法によるデータ変換効果を確認するため、Voice Conversion Challenge(VCC)2018の音声データ(女性話者VCC2SF3、男性話者VCC2SM3、女性話者VCC2TF1、男性話者VCC2TM1)を用いて音声変換実験を行った。
また、各話者につき81文を学習データ、35文をテストデータとし、全音声信号のサンプリング周波数は22.05kHzとした。各発話に対し、WORLD分析によりスペクトル包絡、基本周波数(F0)、非周期性指標の抽出を行い、抽出したスペクトル包絡系列に対し35次のメルケプストラム分析を行った。
本実験では、順方向生成器GX→Y及び逆方向生成器GY→Xの各々のネットワーク構成を図10のとおりとし、変換先識別器DY及び変換元識別器DXのネットワーク構成を図11のとおりとした。
ここで、上記図10、図11において、"c", "h", "w" はそれぞれ、生成器の入出力および識別器の入出力を画像と見なしたときのチャネル、高さ、幅を表す。"Conv", "Batch norm", "GLU", "Deconv", "Softmax"はぞれぞれ畳み込み層、バッチ正規化層、ゲート付き線形ユニット、転置畳み込み層、ソフトマックス層を表す。畳み込み層または転置畳み込み層における"k", "c", "s" はそれぞれカーネルサイズ、出力チャネル数、ストライド幅を表す。
また、音声変換の実験結果として、メルケプ歪み(Mel-cepstral distortion (MCD))で評価した結果を表1に示す。このメルケプ歪みでは、変換元のデータと変換先のデータのグローバルな構造(系列データの全体的な変動具合)の差異を評価することができ、値が小さいほうが良いことを示している。

1段目は、従来技術の目的関数を用いた場合であり、すなわち、目的関数として、上記式(5)からSecond adversarial lossを除いたものである。2段目~5段目は、目的関数として、上記式(5)に示したものを用いている。1段目と5段目とを比較すると、本実施の形態に係る目的関数を用いることにより、グローバルな構造に関して音声変換精度が向上することがわかる。
また、音声変換の実験結果として、モジュレーションスペクトログラム距離(Modulation spectra distance (MSD))で評価した結果を表2に示す。このモジュレーションスペクトログラム距離では、変換元のデータと変換先のデータの詳細な構造(系列データの微細な振動具合)の差異を評価することができ、値が小さいほうが良いことを示している。

1段目と5段目とを比較すると、本実施の形態に係る目的関数を用いることにより、詳細な構造に関して音声変換精度が向上することがわかる。また、表1、表2において、2段目は、上記図16に示す生成器を用いた場合である。2段目と5段目とを比較すると、本実施の形態に係る生成器を用いることにより、音声変換精度が向上することがわかる。また、表1、表2において、3段目は、上記図18に示す生成器を用いた場合である。3段目と5段目とを比較すると、本実施の形態に係る生成器を用いることにより、音声変換精度が向上することがわかる。
また、表1、表2において、4段目は、上記図19に示す識別器を用いた場合である。4段目と5段目とを比較すると、本実施の形態に係る生成器を用いることにより、グローバルな構造及び詳細な構造に関して音声変換精度が向上することがわかる。
以上説明したように、本発明の実施の形態に係るデータ変換学習装置は、順方向生成器によって生成された順方向生成データについての、順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器による識別結果、変換元のドメインのデータと、変換元のドメインのデータから順方向生成器によって生成された順方向生成データから、逆方向生成器によって生成された逆方向生成データとの距離、順方向生成データから逆方向生成器によって生成された逆方向生成データについての、逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器による識別結果、逆方向生成器によって生成された逆方向生成データについての、逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器による識別結果、変換先のドメインのデータと、変換先のドメインのデータから逆方向生成器によって生成された逆方向生成データから、順方向生成器によって生成された順方向生成データとの距離、及び逆方向生成データから順方向生成器によって生成された順方向生成データについての、順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器による識別結果、を用いて表される目的関数の値を最適化するように、順方向生成器、逆方向生成器、変換先識別器、及び変換元識別器を学習する。また、順方向生成器及び逆方向生成器の各々は、2D CNNと1D CNNを組み合わせたものであり、ダウンサンプリング変換部G1と、メイン変換部G2と、アップサンプリング変換部G3と、を含む。これにより、変換先のドメインのデータに精度よく変換することができる生成器を学習することができる。
また、本発明の実施の形態に係るデータ変換装置の順方向生成器及び逆方向生成器の各々は、2D CNNと1D CNNを組み合わせたものであり、ダウンサンプリング変換部G1と、メイン変換部G2と、アップサンプリング変換部G3と、を含む。これにより、変換先のドメインのデータに精度よく変換することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、データ変換学習装置及びデータ変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
また、変換対象となるデータが、音声信号の音響特徴量系列であり、女性から男性へと話者変換を行う場合を例に説明したが、これに限定されるものではない。例えば、変換対象となるデータが、音信号の音響特徴量系列であり、曲調変換を行う場合に適用してもよい。例えば、曲調をクラシックからロックへ変換する。
また、変換対象となるデータが、音信号の音響特徴量系列であり、楽器変換を行う場合に適用してもよい。例えば、楽器をピアノからフルートへ変換する。
また、変換対象となるデータが、音声信号の音響特徴量系列であり、感情変換を行う場合に適用してもよい。例えば、怒った声から嬉しい声へ変換する。
また、変換対象となるデータが、音声信号の音響特徴量系列である場合を例に説明したが、これに限定されるものではなく、画像や、センサデータ、映像、テキストなどの特徴量又は特徴量系列を対象としてもよい。例えば、変換元のドメインを機械A種の異常データとした場合、本発明を適用した結果得られた機械B種の異常データ、機械A種の別の異常データ等として、機械B種の異常データの自然性や機械A種もしくは機械B種の異常データらしさを向上させた異常データを得ることができる。
変換対象となるデータが、時系列データである場合を例に説明したが、これに限定されるものではなく、変換対象となるデータが、時系列データではないデータであってもよい。例えば、変換対象となるデータが、画像であってもよい。
また、変換先識別器DY、DY'のパラメータが共通であってもよい。また、変換元識別器DX、DX'のパラメータが共通であってもよい。
また、生成器において、中央の1D CNNの間に2D CNNを挟んだり、中央の1D CNNの部分で1D CNNと2D CNNを交互に配置するように構成してもよい。例えば、前のCNNの出力結果を次のCNNに適するように変形する処理と、次のCNNの出力結果を逆変形する処理と、を追加するようにすることで、2以上の1D CNNと2D CNNを組み合わせることができる。また、上記の実施の形態では、1D CNNと2D CNNを組み合わせる場合を例として記載したが、ND CNNとMD CNNのように任意のCNNを組合せることができる。
また、Adversarial lossでは、binary cross entropyを用いた場合を説明したが、least square lossやWasserstein lossなどの任意のGANの目的関数を用いてもよい。
また、上述のデータ変換学習装置、データ変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10、60 入力部
20、70 演算部
30 音響特徴抽出部
32 学習部
50、90 出力部
72 音響特徴抽出部
74 データ変換部
78 変換音声生成部
82 プログラム
84 コンピュータ
100 データ変換学習装置
150 データ変換装置

Claims (6)

  1. 変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付ける入力部と、
    前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
    前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習する学習部とを含み、
    前記順方向生成器は、
    前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記逆方向生成器は、
    前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記データは、特徴量系列であって、
    前記ダウンサンプリング変換部は、前記データの系列方向及び特徴量次元方向の各々の局所領域での畳み込みにより、ダウンサンプリングを行い、
    前記ダイナミック変換部は、前記ダウンサンプリング変換部の出力データの特徴量次元方向の全領域及び系列方向の局所領域での畳み込みを用いて、前記ダウンサンプリング変換部の出力データをダイナミックに変換する、データ変換学習装置。
  2. 変換元のドメインのデータを受け付ける入力部と、
    前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成するデータ変換部とを含み、
    前記順方向生成器は、
    前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記データは、特徴量系列であって、
    前記ダウンサンプリング変換部は、前記データの系列方向及び特徴量次元方向の各々の局所領域での畳み込みにより、ダウンサンプリングを行い、
    前記ダイナミック変換部は、前記ダウンサンプリング変換部の出力データの特徴量次元方向の全領域及び系列方向の局所領域での畳み込みを用いて、前記ダウンサンプリング変換部の出力データをダイナミックに変換する、データ変換装置。
  3. 入力部が、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、
    学習部が、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
    前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習すること、を含み、
    前記順方向生成器は、
    前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記逆方向生成器は、
    前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記データは、特徴量系列であって、
    前記ダウンサンプリング変換部は、前記データの系列方向及び特徴量次元方向の各々の局所領域での畳み込みにより、ダウンサンプリングを行い、
    前記ダイナミック変換部は、前記ダウンサンプリング変換部の出力データの特徴量次元方向の全領域及び系列方向の局所領域での畳み込みを用いて、前記ダウンサンプリング変換部の出力データをダイナミックに変換する、データ変換学習方法。
  4. 入力部が、変換元のドメインのデータを受け付け、
    データ変換部が、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成すること、を含み、
    前記順方向生成器は、
    前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記データは、特徴量系列であって、
    前記ダウンサンプリング変換部は、前記データの系列方向及び特徴量次元方向の各々の局所領域での畳み込みにより、ダウンサンプリングを行い、
    前記ダイナミック変換部は、前記ダウンサンプリング変換部の出力データの特徴量次元方向の全領域及び系列方向の局所領域での畳み込みを用いて、前記ダウンサンプリング変換部の出力データをダイナミックに変換する、データ変換方法。
  5. コンピュータに、
    変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、
    前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
    前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習すること
    を実行させるためのプログラムであって、
    前記順方向生成器は、
    前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記逆方向生成器は、
    前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記データは、特徴量系列であって、
    前記ダウンサンプリング変換部は、前記データの系列方向及び特徴量次元方向の各々の局所領域での畳み込みにより、ダウンサンプリングを行い、
    前記ダイナミック変換部は、前記ダウンサンプリング変換部の出力データの特徴量次元方向の全領域及び系列方向の局所領域での畳み込みを用いて、前記ダウンサンプリング変換部の出力データをダイナミックに変換する、プログラム。
  6. コンピュータに、
    変換元のドメインのデータを受け付け、
    前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成すること
    を実行させるためのプログラムであって、
    前記順方向生成器は、
    前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
    前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
    前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
    を含み、
    前記データは、特徴量系列であって、
    前記ダウンサンプリング変換部は、前記データの系列方向及び特徴量次元方向の各々の局所領域での畳み込みにより、ダウンサンプリングを行い、
    前記ダイナミック変換部は、前記ダウンサンプリング変換部の出力データの特徴量次元方向の全領域及び系列方向の局所領域での畳み込みを用いて、前記ダウンサンプリング変換部の出力データをダイナミックに変換する、プログラム。
JP2022121734A 2019-02-26 2022-07-29 データ変換学習装置、データ変換装置、方法、及びプログラム Active JP7388495B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022121734A JP7388495B2 (ja) 2019-02-26 2022-07-29 データ変換学習装置、データ変換装置、方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019033199A JP7188182B2 (ja) 2019-02-26 2019-02-26 データ変換学習装置、データ変換装置、方法、及びプログラム
JP2022121734A JP7388495B2 (ja) 2019-02-26 2022-07-29 データ変換学習装置、データ変換装置、方法、及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019033199A Division JP7188182B2 (ja) 2019-02-26 2019-02-26 データ変換学習装置、データ変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2022136297A JP2022136297A (ja) 2022-09-15
JP7388495B2 true JP7388495B2 (ja) 2023-11-29

Family

ID=72238599

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019033199A Active JP7188182B2 (ja) 2019-02-26 2019-02-26 データ変換学習装置、データ変換装置、方法、及びプログラム
JP2022121734A Active JP7388495B2 (ja) 2019-02-26 2022-07-29 データ変換学習装置、データ変換装置、方法、及びプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019033199A Active JP7188182B2 (ja) 2019-02-26 2019-02-26 データ変換学習装置、データ変換装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US20220156552A1 (ja)
JP (2) JP7188182B2 (ja)
WO (1) WO2020175530A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022085197A1 (ja) * 2020-10-23 2022-04-28
WO2023152895A1 (ja) * 2022-02-10 2023-08-17 日本電信電話株式会社 波形信号生成システム、波形信号生成方法及びプログラム
KR102609789B1 (ko) * 2022-11-29 2023-12-05 주식회사 라피치 음성인식 성능 향상을 위한 화자 임베딩과 생성적 적대 신경망을 이용한 화자 정규화 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018203550A1 (ja) 2017-05-02 2018-11-08 日本電信電話株式会社 信号生成装置、信号生成学習装置、方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018203550A1 (ja) 2017-05-02 2018-11-08 日本電信電話株式会社 信号生成装置、信号生成学習装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KANEKO, Takuhiro ほか,CycleGAN-VC: Non-parallel Voice Conversion Using Cycle-Consistent Adversarial Networks,Proceedings of 2018 26th European Signal Processing Conference[online],2018年09月03日,pp.2114-2118,[retrieved on 2023.05.16], Retrieved from the Internet: <URL:https://new.eurasip.org/Proceedings/Eusipco/Eusipco2018/papers/1570438014.pdf>,ISBN 978-90-827970-1-5

Also Published As

Publication number Publication date
US20220156552A1 (en) 2022-05-19
JP7188182B2 (ja) 2022-12-13
JP2020140244A (ja) 2020-09-03
WO2020175530A1 (ja) 2020-09-03
JP2022136297A (ja) 2022-09-15

Similar Documents

Publication Publication Date Title
JP7388495B2 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
Vasquez et al. Melnet: A generative model for audio in the frequency domain
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
CN112927707A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN112349301A (zh) 信息处理装置、信息处理方法以及记录介质
US20230282202A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
CN111341294B (zh) 将文本转换为指定风格语音的方法
JP2007298564A (ja) 信号分離装置、信号分離方法、ならびに、プログラム
WO2019163848A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP6872197B2 (ja) 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
Zhou et al. A denoising representation framework for underwater acoustic signal recognition
Cogliati et al. Piano music transcription with fast convolutional sparse coding
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
JPWO2019171457A1 (ja) 音源分離装置、音源分離方法およびプログラム
Peer et al. DiffPhase: Generative diffusion-based STFT phase retrieval
JPH02165388A (ja) パターン認識方式
US20230326476A1 (en) Bandwidth extension and speech enhancement of audio
Ghosal et al. Speech/music classification using empirical mode decomposition
WO2023152895A1 (ja) 波形信号生成システム、波形信号生成方法及びプログラム
KR20210033853A (ko) 유넷 기반의 음원 대역 변환장치 및 방법
JP2022127898A (ja) 声質変換装置、声質変換方法及びプログラム
CN115798453A (zh) 语音重建方法、装置、计算机设备和存储介质
US11270163B2 (en) Learning device, learning method, and storage medium
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
Doire Online singing voice separation using a recurrent one-dimensional U-NET trained with deep feature losses

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231030

R150 Certificate of patent or registration of utility model

Ref document number: 7388495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150