JP7127419B2 - 音声変換学習装置、音声変換装置、方法、及びプログラム - Google Patents
音声変換学習装置、音声変換装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP7127419B2 JP7127419B2 JP2018152394A JP2018152394A JP7127419B2 JP 7127419 B2 JP7127419 B2 JP 7127419B2 JP 2018152394 A JP2018152394 A JP 2018152394A JP 2018152394 A JP2018152394 A JP 2018152394A JP 7127419 B2 JP7127419 B2 JP 7127419B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- attribute
- attribute code
- acoustic feature
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 179
- 238000000034 method Methods 0.000 title claims description 67
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 230000006870 function Effects 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
以上のように上述のCVAE方式とCycleGAN方式にはいずれも一長一短があり、それぞれに解決すべき点が残されている。また、いずれの方式も、変換音声の目標属性の度合いが直接的な規準として考慮されていないため、属性変換の効果も限定的であると考えられる。
まず、本発明の実施の形態における概要を説明する。
<CycleGAN による声質変換(従来法)>
をそれぞれ属性c、 c′の音声の音響特徴量(メルケプストラム係数やパワースペクトルなど)系列を表す配列とする。CycleGAN声質変換では、非パラレル学習サンプルx、yを用いて、xを属性c′に変換する変換器
とyを属性cに変換する変換器
を学習することが目的である。ここで、属性c の実音声かそうでないかを識別する識別器DXと属性c′ の実音声かそうでないかを識別する識別器DYを用いて敵対的学習規準
を
および恒等変換規準
をそれぞれ
は、xをGで変換後、Fで変換したものが元通りxと一致する場合とyをFで変換後Gで変換したものが元通りyと一致する場合に最小になる。一方、
は、yをGの入力としたときの出力がyから変化がない場合とxをFの入力としたときの出力がxから変化がない場合に最小になる。GとFをこれらが小さくなるように学習することで、GとFがいずれも一対一変換となるように促進することができる。これが非パラレル声質変換法を実現する上での鍵となる。以上の三種の規準の重みつき和
が小さくなるように反復更新し、DX、DYのパラメータを
が大きくなるように反復更新することで、属性c、c′の音声の音響特徴量を相互変換する関数G、Fを得ることができる(図12参照)。以上のようにこの方式は、二属性間の変換器を学習する方法となっており、これをそのまま用いて多種の属性への変換を行えるようにするためには属性ペアごとにG、F、DX、DYに相当するNNを用意する必要がある。属性の数に応じて属性ペアの組み合わせは二乗オーダーで増大するため、これに応じて学習すべきパラメータ数も増大し、学習が困難となる。
<学習方法I>
本発明の実施の形態の方法では、音響特徴量系列
と属性コードc を補助入力として受け付けるNNにより多種の属性への変換器Gを構成する。すなわち、
を、任意属性の入力x が属性cに変換されたものと見なす。この
を実音声らしく、かつ属性cをもつ音響特徴量系列とすることが目標であるので、実音声か合成音声かを識別する識別器Dと、属性を識別する属性識別器Cを導入し、G、D、Cの学習規準としてDの損失関数およびCの損失関数をまず考える(図1参照)。ここで、属性はI個のカテゴリからなり、各カテゴリは複数のクラスからなるものとする。従って、属性cはI個のクラスラベルによって表現される。今、実音声クラスのラベルを1、合成音声クラスのラベルを0とし、cを各カテゴリ中の該当クラスを示した1one-hot ベクトルを結合したバイナリベクトル
のような関数とする。すなわち、Dを音響特徴量系列と属性コードc∈{0,1}I×Jを入力として音響特徴量系列が領域(q’,n’)においてどれくらい実音声らしいかを表す確率を出力する関数、Cを音響特徴量系列を入力として音響特徴量系列が領域(q’,n’)においてどれくらいカテゴリiのクラスjらしいかを表す確率を出力する関数とする。従って、D(y,c)の第(q’×n’)要素Dq’,n’(y,c)は領域(q’,n’)においてyがどれくらい実音声らしいかを表す確率のため、
は、
であるクラスjに対応する確率値をC(y)から抜き出す操作に相当する。
は、Dが入力を実音声の音響特徴量系列か合成音声の音響特徴量系列かを正しく識別できている場合、すなわち、D(・,c)に実音声の音響特徴量系列yが入力されたときに
となり、かつ変換音声の音響特徴量系列G(x,c)が入力されたときに
となる場合に小さい値をとる規準となっている。一方、
は、属性cの音声の音響特徴量がCに正しく属性cと識別されるときに小さい値をとる規準となっている。よって、DとCについてはこれらができるだけ小さくなるように学習すれば良い。一方で変換器Gについては、G(x,c)がDに実音声と識別されるように、かつCに属性cと識別されるようにしたいので、
上記学習方法Iでは、実音声/合成音声識別器Dと属性識別器Cを別々のNNで構成することを想定したが、実音声か合成音声かを属性の一カテゴリと見なして、図2のようにCのみに実音声/合成音声識別と属性識別を担わせる方法も可能である。この場合、上述の方式において、例えばi=1を実音声か合成音声かを表す属性カテゴリとし、Cq’n’,1(y)をDq’n’(y)と置き、Cq’n’,2(y),...,Cq’n’,I(y)を改めてCと置いた上で式(25)~(27)を学習規準として用いれば良い。
音声は文脈や発話内容に応じて話し方や声質の変化の仕方は異なる。よって、音響特徴量を変換する関数は、時間依存性を有する(入力音声と出力音声の音響特徴量系列の履歴に依存して決定される)ことが望ましい。そこで、本発明の実施の形態ではG、D、Cに音声の音響特徴量の時間依存性を捉えた変換や識別を行えるように各々のNNを長短期記憶(Long Short-Term Memory; LSTM) や双方向LSTM(Birectional LSTM; BiLSTM) などのRNNや時間方向の畳み込みを含むCNNまたはゲート付きCNNなどによりモデル化する。
音響特徴ベクトルとしては、
(A1) 対数振幅スペクトルを要素としたベクトル
(A2) メルケプストラム係数を要素としたベクトル
(A3) 線形予測係数を要素としたベクトル
(A4) 偏自己相関係数(Partial Correlation; PARCOR)係数を要素としたベクトル
(A5) 線スペクトル対(Line Spectral Pair; LSP)パラメータを要素としたベクトル
などを用いることができる。(A1)はSTFTやウェーブレット変換などの時間周波数解析、(A2)はメルケプストラム分析、(A3)は線形予測分析、(A4)はPARCOR分析、(A5)はLSP分析を用いることにより得ることができる。また、(A1)はSTRAIGHT 分析、WORLD分析などにより得られるスペクトル包絡としても良く、(A2-A5)もスペクトル包絡に対しそれぞれの分析により得られたものとしても良い。例えば、以下の(B1-B5)を音響特徴ベクトルとして用いても良い。
(B2) B1より得られるメルケプストラム係数を要素としたベクトル
(B3) B1より得られる線形予測係数を要素としたベクトル
(B4) B1より得られるPARCOR係数を要素としたベクトル
(B5) B1より得られるLSPパラメータを要素としたベクトル
を得ることができる。以上により得られる
から音響特徴量の算出プロセスに応じた時間領域信号の算出プロセスにより変換音声を得ることができる。例えば音響特徴量として(A1)を用いる場合は時間周波数解析の逆変換(逆STFT、ウェーブレット逆変換など)、(A2)-(A5)、 (B1)-(B5) を用いる場合はボコーダを用いることにより実現できる。
次に、本発明の実施の形態に係る音声変換学習装置の構成について説明する。図3に示すように、本発明の実施の形態に係る音声変換学習装置100は、CPUと、RAMと、後述する音声変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換学習装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。
次に、本発明の実施の形態に係る音声変換装置の構成について説明する。図4に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換装置150は、機能的には図2に示すように入力部60と、演算部70と、出力部90とを備えている。
次に、本発明の実施の形態に係る音声変換学習装置100の作用について説明する。入力部10により、属性が異なる変換元の音声信号の各々、及び変換元の音声信号の各々の属性を示す属性コードを受け付けると、音声変換学習装置100は、図5に示す音声変換学習処理ルーチンを実行する。
次に、本発明の実施の形態に係る音声変換装置150の作用について説明する。入力部60により、音声変換学習装置100による学習結果を受け付ける。また、入力部60により、変換元の音声信号と、目標の音声信号の属性を示す属性コードとを受け付けると、音声変換装置150は、図6に示す音声変換処理ルーチンを実行する。
本発明の実施の形態の手法による音声変換の音質と変換効果を確認するため、Voice Conversion Challenge (VCC)2018 の4話者の音声データ(女性話者VCC2SF1、男性話者VCC2SM1、女性話者VCC2SF2、男性話者VCC2SM2)を用いて話者性変換実験を行った。よってここでは属性コードは話者IDに対応する4次元のone-hot ベクトルとした。各話者につき81文を学習データ、35文をテストデータとし、全音声信号のサンプリング周波数は22050Hz とした。各発話に対し、WORLD分析によりスペクトル包絡、基本周波数(F0)、非周期性指標の抽出を行い、抽出したスペクトル包絡系列に対し35次のメルケプストラム分析を行った。F0に関しては、変換目標音声の学習データから有声区間における対数F0 の平均msrc と標準偏差σsrc、変換元音声の学習データから有声区間における対数F0 の平均mtrg と標準偏差σsrc を算出し、入力音声の対数F0 パターンy(0),…,y(N‐1) を
20 演算部
30 音響特徴抽出部
32 学習部
50 出力部
60 入力部
70 演算部
72 音響特徴抽出部
74 音声変換部
78 変換音声生成部
90 出力部
100 音声変換学習装置
150 音声変換装置
Claims (7)
- 属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する学習部であって、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
を用いて表される学習規準の値を最小化するように、前記変換器を学習し、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、
前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する学習部
を含む音声変換学習装置であって、
前記音声識別器は、前記属性識別器に含まれ、
前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換学習装置。 - 前記変換器、前記音声識別器、及び前記属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される請求項1記載の音声変換学習装置。
- 音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換部
を含み、
前記変換器は、
属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
を用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記音声識別器は、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記音声識別器は、前記属性識別器に含まれ、
前記属性識別器は、
前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換装置。 - 学習部が、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習することであって、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
を用いて表される学習規準の値を最小化するように、前記変換器を学習し、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、
前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する
音声変換学習方法であって、
前記音声識別器は、前記属性識別器に含まれ、
前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換学習方法。 - 音声変換部が、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換方法であって、
前記変換器は、
属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
を用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記音声識別器は、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記音声識別器は、前記属性識別器に含まれ、
前記属性識別器は、
前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換方法。 - コンピュータを、請求項1又は2に記載の音声変換学習装置の各部として機能させるためのプログラム。
- コンピュータを、請求項3に記載の音声変換装置の各部として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018152394A JP7127419B2 (ja) | 2018-08-13 | 2018-08-13 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
US17/268,053 US11869486B2 (en) | 2018-08-13 | 2019-08-13 | Voice conversion learning device, voice conversion device, method, and program |
PCT/JP2019/031844 WO2020036178A1 (ja) | 2018-08-13 | 2019-08-13 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018152394A JP7127419B2 (ja) | 2018-08-13 | 2018-08-13 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020027193A JP2020027193A (ja) | 2020-02-20 |
JP7127419B2 true JP7127419B2 (ja) | 2022-08-30 |
Family
ID=69524745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018152394A Active JP7127419B2 (ja) | 2018-08-13 | 2018-08-13 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11869486B2 (ja) |
JP (1) | JP7127419B2 (ja) |
WO (1) | WO2020036178A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7225857B2 (ja) * | 2019-02-01 | 2023-02-21 | 日本電信電話株式会社 | データ変換学習装置、データ変換装置、方法、及びプログラム |
JP7352243B2 (ja) * | 2019-10-31 | 2023-09-28 | グリー株式会社 | コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法 |
JP7423056B2 (ja) * | 2020-03-30 | 2024-01-29 | 国立研究開発法人情報通信研究機構 | 推論器および推論器の学習方法 |
WO2021199446A1 (ja) * | 2020-04-03 | 2021-10-07 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
JP7492159B2 (ja) | 2020-07-27 | 2024-05-29 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
JP7549252B2 (ja) | 2020-07-27 | 2024-09-11 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
CN112259072B (zh) * | 2020-09-25 | 2024-07-26 | 北京百度网讯科技有限公司 | 语音转换方法、装置和电子设备 |
CN113080990B (zh) * | 2021-03-25 | 2023-01-10 | 南京蝶谷健康科技有限公司 | 一种基于CycleGAN和BiLSTM神经网络方法的心博异常检测方法 |
US11830476B1 (en) * | 2021-06-08 | 2023-11-28 | Amazon Technologies, Inc. | Learned condition text-to-speech synthesis |
CN118648061A (zh) * | 2022-02-10 | 2024-09-13 | 日本电信电话株式会社 | 波形信号生成系统、波形信号生成方法及程序 |
CN116778937B (zh) * | 2023-03-28 | 2024-01-23 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017003622A (ja) | 2015-06-04 | 2017-01-05 | 国立大学法人神戸大学 | 声質変換方法および声質変換装置 |
-
2018
- 2018-08-13 JP JP2018152394A patent/JP7127419B2/ja active Active
-
2019
- 2019-08-13 WO PCT/JP2019/031844 patent/WO2020036178A1/ja active Application Filing
- 2019-08-13 US US17/268,053 patent/US11869486B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017003622A (ja) | 2015-06-04 | 2017-01-05 | 国立大学法人神戸大学 | 声質変換方法および声質変換装置 |
Non-Patent Citations (2)
Title |
---|
KAMEOKA, Hirokazu et al.,"STARGAN-VC: NON-PARALLEL MANY-TO-MANY VOICE CONVERSION WITH STAR GENERATIVE ADVERSARIAL NETWORKS",[online],2018年06月29日,[2021年12月28日検索], インターネット<URL:https://arxiv.org/pdf/1806.02169.pdf> |
金子卓弘 他,"CycleGANを用いたパラレルデータフリー声質変換",日本音響学会2018年春季研究発表会講演論文集,2018年02月27日,pp.331-332 |
Also Published As
Publication number | Publication date |
---|---|
JP2020027193A (ja) | 2020-02-20 |
US11869486B2 (en) | 2024-01-09 |
US20220122591A1 (en) | 2022-04-21 |
WO2020036178A1 (ja) | 2020-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7127419B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Gibiansky et al. | Deep voice 2: Multi-speaker neural text-to-speech | |
Arik et al. | Deep voice 2: Multi-speaker neural text-to-speech | |
JP6876641B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Ghai et al. | Literature review on automatic speech recognition | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
WO2019240228A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
CN113439301A (zh) | 使用序列到序列映射在模拟数据与语音识别输出之间进行协调 | |
Jemine | Real-time voice cloning | |
Polyak et al. | TTS skins: Speaker conversion via ASR | |
JP6764851B2 (ja) | 系列データ変換装置、学習装置、及びプログラム | |
Polyak et al. | Attention-based wavenet autoencoder for universal voice conversion | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
Sakamoto et al. | Stargan-vc+ asr: Stargan-based non-parallel voice conversion regularized by automatic speech recognition | |
EP4275203B1 (en) | Self-learning end-to-end automatic speech recognition | |
Zhao et al. | Research on voice cloning with a few samples | |
Anand et al. | Advancing Accessibility: Voice Cloning and Speech Synthesis for Individuals with Speech Disorders | |
Bargum et al. | Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice Conversion | |
Barman et al. | State of the art review of speech recognition using genetic algorithm | |
Ai et al. | A new approach to accent recognition and conversion for mandarin chinese | |
Prakash et al. | Exploration of End-to-end Synthesisers forZero Resource Speech Challenge 2020 | |
Gody et al. | Automatic Speech Annotation Using HMM based on Best Tree Encoding (BTE) Feature | |
JP7225857B2 (ja) | データ変換学習装置、データ変換装置、方法、及びプログラム | |
Oo et al. | Normal and whispered speech recognition systems for Myanmar digits | |
Tang et al. | Deep neural network trained with speaker representation for speaker normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20180910 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220719 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7127419 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |