JP2020140244A - データ変換学習装置、データ変換装置、方法、及びプログラム - Google Patents
データ変換学習装置、データ変換装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2020140244A JP2020140244A JP2019033199A JP2019033199A JP2020140244A JP 2020140244 A JP2020140244 A JP 2020140244A JP 2019033199 A JP2019033199 A JP 2019033199A JP 2019033199 A JP2019033199 A JP 2019033199A JP 2020140244 A JP2020140244 A JP 2020140244A
- Authority
- JP
- Japan
- Prior art keywords
- data
- conversion
- generator
- generated
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 579
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 abstract description 12
- 238000013527 convolutional neural network Methods 0.000 description 56
- 230000005236 sound signal Effects 0.000 description 55
- 238000000605 extraction Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
Description
(1)
(2)
(3)
まず、本発明の実施の形態における概要を説明する。
(4)
(5)
y = F(x)
y = x + R(x)
次に、本発明の実施の形態に係るデータ変換学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係るデータ変換学習装置100は、CPUと、RAMと、後述するデータ変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このデータ変換学習装置100は、機能的には図4に示すように入力部10と、演算部20と、出力部50とを備えている。
次に、本発明の実施の形態に係るデータ変換装置の構成について説明する。図5に示すように、本発明の実施の形態に係るデータ変換装置150は、CPUと、RAMと、後述するデータ変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このデータ変換装置150は、機能的には図5に示すように入力部60と、演算部70と、出力部90とを備えている。
次に、本発明の実施の形態に係るデータ変換学習装置100の作用について説明する。入力部10により、変換元のドメインの音声信号の集合、及び変換先のドメインの音声信号の集合を受け付けると、データ変換学習装置100は、図7に示すデータ変換学習処理ルーチンを実行する。
次に、本発明の実施の形態に係るデータ変換装置150の作用について説明する。入力部60により、データ変換学習装置100による学習結果を受け付ける。また、入力部60により、変換元のドメインの音声信号を受け付けると、データ変換装置150は、図9に示すデータ変換処理ルーチンを実行する。
本発明の実施の形態の手法によるデータ変換効果を確認するため、Voice Conversion Challenge(VCC)2018の音声データ(女性話者VCC2SF3、男性話者VCC2SM3、女性話者VCC2TF1、男性話者VCC2TM1)を用いて音声変換実験を行った。
また、Adversarial lossでは、binary cross entropyを用いた場合を説明したが、least square lossやWasserstein lossなどの任意のGANの目的関数を用いてもよい。
20、70 演算部
30 音響特徴抽出部
32 学習部
50、90 出力部
72 音響特徴抽出部
74 データ変換部
78 変換音声生成部
82 プログラム
84 コンピュータ
100 データ変換学習装置
150 データ変換装置
Claims (12)
- 変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付ける入力部と、
前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習する学習部であって、
前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、
前記変換先のドメインのデータについての前記変換先識別器による識別結果、
前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、
前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、
前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、
前記変換元のドメインのデータについての前記変換元識別器による識別結果、
前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び
前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果
を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習する学習部
を含むデータ変換学習装置。 - 前記学習部は、前記順方向生成器によって生成された順方向生成データについて識別する前記変換先識別器のパラメータと、前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについて識別する前記変換先識別器のパラメータとを別々に学習し、
前記逆方向生成器によって生成された逆方向生成データについて識別する変換元識別器のパラメータと、前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについて識別する前記変換元識別器のパラメータとを別々に学習する請求項1記載のデータ変換学習装置。 - 前記目的関数は、更に、
前記変換先のドメインのデータと、前記変換先のドメインのデータから前記順方向生成器によって生成された前記順方向生成データとの距離、及び
前記変換元のドメインのデータと、前記変換元のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データとの距離
を用いて表される請求項1又は2記載のデータ変換学習装置。 - 変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付ける入力部と、
前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習する学習部とを含み、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
を含み、
前記逆方向生成器は、
前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
を含む、データ変換学習装置。 - 前記データは、特徴量系列であって、
前記ダウンサンプリング変換部は、前記データの系列方向及び特徴量次元方向の各々の局所領域での畳み込みにより、ダウンサンプリングを行い、
前記ダイナミック変換部は、前記ダウンサンプリング変換部の出力データの特徴量次元方向の全領域及び系列方向の局所領域での畳み込みを用いて、前記ダウンサンプリング変換部の出力データをダイナミックに変換する請求項4記載のデータ変換学習装置。 - 変換元のドメインのデータを受け付ける入力部と、
前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成するデータ変換部とを含み、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
を含む、データ変換装置。 - 入力部が、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、
学習部が、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習することであって、
前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、
前記変換先のドメインのデータについての前記変換先識別器による識別結果、
前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、
前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、
前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、
前記変換元のドメインのデータについての前記変換元識別器による識別結果、
前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び
前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、
を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習する、
ことを含むデータ変換学習方法。 - 入力部が、変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、
学習部が、前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習すること、を含み、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
を含み、
前記逆方向生成器は、
前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
を含む、データ変換学習方法。 - 入力部が、変換元のドメインのデータを受け付け、
データ変換部が、前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記入力部により受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成すること、を含み、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
を含むデータ変換方法。 - コンピュータに、
変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、
前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器とを学習することであって、
前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、
前記変換先のドメインのデータについての前記変換先識別器による識別結果、
前記変換元のドメインのデータと、前記変換元のドメインのデータから前記順方向生成器によって生成された前記順方向生成データから、前記逆方向生成器によって生成された逆方向生成データとの距離、
前記順方向生成データから前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、
前記逆方向生成器によって生成された逆方向生成データについての、前記逆方向生成器によって生成された前記逆方向生成データであるか否かを識別する変換元識別器による識別結果、
前記変換元のドメインのデータについての前記変換元識別器による識別結果、
前記変換先のドメインのデータと、前記変換先のドメインのデータから前記逆方向生成器によって生成された前記逆方向生成データから、前記順方向生成器によって生成された順方向生成データとの距離、及び
前記逆方向生成データから前記順方向生成器によって生成された順方向生成データについての、前記順方向生成器によって生成された前記順方向生成データであるか否かを識別する変換先識別器による識別結果、
を用いて表される目的関数の値を最適化するように、前記順方向生成器、前記逆方向生成器、前記変換先識別器、及び前記変換元識別器を学習すること
を実行させるためのプログラム。 - コンピュータに、
変換元のドメインのデータの集合と、変換先のドメインのデータの集合とを受け付け、
前記変換元のドメインのデータの集合と、前記変換先のドメインのデータの集合とに基づいて、
前記変換元のドメインのデータから前記変換先のドメインのデータを生成する順方向生成器と、前記変換先のドメインのデータから前記変換元のドメインのデータを生成する逆方向生成器と、前記順方向生成器によって生成された順方向生成データであるか否かを識別する変換先識別器と、前記逆方向生成器によって生成された逆方向生成データであるか否かを識別する変換元識別器とを学習すること
を実行させるためのプログラムであって、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記順方向生成データを生成するアップサンプリング変換部と、
を含み、
前記逆方向生成器は、
前記変換先のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより前記逆方向生成データを生成するアップサンプリング変換部と、
を含む、プログラム。 - コンピュータに、
変換元のドメインのデータを受け付け、
前記変換元のドメインのデータから変換先のドメインのデータを生成する順方向生成器を用いて、前記受け付けた前記変換元のドメインのデータから、前記変換先のドメインのデータを生成すること
を実行させるためのプログラムであって、
前記順方向生成器は、
前記変換元のドメインのデータの局所的な構造を保持したダウンサンプリングを行うダウンサンプリング変換部と、
前記ダウンサンプリング変換部の出力データをダイナミックに変換するダイナミック変換部と、
前記ダイナミック変換部の出力データのアップサンプリングにより順方向生成データを生成するアップサンプリング変換部と、
を含むプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019033199A JP7188182B2 (ja) | 2019-02-26 | 2019-02-26 | データ変換学習装置、データ変換装置、方法、及びプログラム |
PCT/JP2020/007658 WO2020175530A1 (ja) | 2019-02-26 | 2020-02-26 | データ変換学習装置、データ変換装置、方法、及びプログラム |
US17/433,588 US20220156552A1 (en) | 2019-02-26 | 2020-02-26 | Data conversion learning device, data conversion device, method, and program |
JP2022121734A JP7388495B2 (ja) | 2019-02-26 | 2022-07-29 | データ変換学習装置、データ変換装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019033199A JP7188182B2 (ja) | 2019-02-26 | 2019-02-26 | データ変換学習装置、データ変換装置、方法、及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022121734A Division JP7388495B2 (ja) | 2019-02-26 | 2022-07-29 | データ変換学習装置、データ変換装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020140244A true JP2020140244A (ja) | 2020-09-03 |
JP7188182B2 JP7188182B2 (ja) | 2022-12-13 |
Family
ID=72238599
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019033199A Active JP7188182B2 (ja) | 2019-02-26 | 2019-02-26 | データ変換学習装置、データ変換装置、方法、及びプログラム |
JP2022121734A Active JP7388495B2 (ja) | 2019-02-26 | 2022-07-29 | データ変換学習装置、データ変換装置、方法、及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022121734A Active JP7388495B2 (ja) | 2019-02-26 | 2022-07-29 | データ変換学習装置、データ変換装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220156552A1 (ja) |
JP (2) | JP7188182B2 (ja) |
WO (1) | WO2020175530A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022085197A1 (ja) * | 2020-10-23 | 2022-04-28 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118648061A (zh) * | 2022-02-10 | 2024-09-13 | 日本电信电话株式会社 | 波形信号生成系统、波形信号生成方法及程序 |
KR102609789B1 (ko) * | 2022-11-29 | 2023-12-05 | 주식회사 라피치 | 음성인식 성능 향상을 위한 화자 임베딩과 생성적 적대 신경망을 이용한 화자 정규화 시스템 |
JP2024108533A (ja) * | 2023-01-31 | 2024-08-13 | 株式会社日立国際電気 | データ拡張装置、データ拡張方法およびデータ拡張プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102239714B1 (ko) * | 2014-07-24 | 2021-04-13 | 삼성전자주식회사 | 신경망 학습 방법 및 장치, 데이터 처리 장치 |
JP6912740B2 (ja) | 2017-05-02 | 2021-08-04 | 日本電信電話株式会社 | 信号生成装置、信号生成学習装置、方法、及びプログラム |
-
2019
- 2019-02-26 JP JP2019033199A patent/JP7188182B2/ja active Active
-
2020
- 2020-02-26 US US17/433,588 patent/US20220156552A1/en active Pending
- 2020-02-26 WO PCT/JP2020/007658 patent/WO2020175530A1/ja active Application Filing
-
2022
- 2022-07-29 JP JP2022121734A patent/JP7388495B2/ja active Active
Non-Patent Citations (3)
Title |
---|
BRUNNER, GINO, ET AL.: "Symbolic Music Genre Transfer with CycleGAN", 2018 IEEE 30TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE(ICTAI), JPN6020011506, 2018, pages 786 - 793, XP033475916, ISSN: 0004786227, DOI: 10.1109/ICTAI.2018.00123 * |
KANEKO, TAKUHIRO, ET AL.: "CycleGAN-VC: Non-parallel Voice Conversion Using Cycle-Consistent Adversarial Networks", 2018 26TH EUROPEAN SIGNAL PROCESSING CONFERENCE(EUSIPCO), JPN6020011508, 2018, pages 2100 - 2104, XP033461647, ISSN: 0004786226, DOI: 10.23919/EUSIPCO.2018.8553236 * |
ZHU, JUN-YAN, ET AL.: "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks", 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION(ICCV), JPN6020011507, 2017, pages 2242 - 2251, XP055901486, ISSN: 0004786225, DOI: 10.1109/ICCV.2017.244 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022085197A1 (ja) * | 2020-10-23 | 2022-04-28 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
JP7518429B2 (ja) | 2020-10-23 | 2024-07-18 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7388495B2 (ja) | 2023-11-29 |
US20220156552A1 (en) | 2022-05-19 |
JP7188182B2 (ja) | 2022-12-13 |
WO2020175530A1 (ja) | 2020-09-03 |
JP2022136297A (ja) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7188182B2 (ja) | データ変換学習装置、データ変換装置、方法、及びプログラム | |
Zhang et al. | Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet | |
Défossez et al. | Sing: Symbol-to-instrument neural generator | |
JP2020034624A (ja) | 信号生成装置、信号生成システム、信号生成方法およびプログラム | |
JP6973304B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Singh et al. | Modulation spectral features for speech emotion recognition using deep neural networks | |
US20230282202A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
WO2019163848A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP2018036413A (ja) | 音声合成学習装置、方法、及びプログラム | |
Cogliati et al. | Piano music transcription with fast convolutional sparse coding | |
Feng et al. | Learning bandwidth expansion using perceptually-motivated loss | |
JP2019101391A (ja) | 系列データ変換装置、学習装置、及びプログラム | |
JP6872197B2 (ja) | 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Zhao et al. | Transferring neural speech waveform synthesizers to musical instrument sounds generation | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
KR102128153B1 (ko) | 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법 | |
Kumar et al. | Towards building text-to-speech systems for the next billion users | |
JP2020190605A (ja) | 音声処理装置及び音声処理プログラム | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2021189402A (ja) | 音声処理プログラム、音声処理装置及び音声処理方法 | |
KR101621718B1 (ko) | 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법 | |
CN115798453A (zh) | 语音重建方法、装置、计算机设备和存储介质 | |
CN113241054A (zh) | 语音平滑处理模型生成方法、语音平滑处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7188182 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |