JP6638944B2 - 音声変換モデル学習装置、音声変換装置、方法、及びプログラム - Google Patents
音声変換モデル学習装置、音声変換装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6638944B2 JP6638944B2 JP2017030432A JP2017030432A JP6638944B2 JP 6638944 B2 JP6638944 B2 JP 6638944B2 JP 2017030432 A JP2017030432 A JP 2017030432A JP 2017030432 A JP2017030432 A JP 2017030432A JP 6638944 B2 JP6638944 B2 JP 6638944B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- audio signal
- feature amount
- speech
- converted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
第一に、各フレームの音声特徴量の変換が独立に行われるため、特徴量の時間連続性や前後のコンテキストを考慮した変換を行うことできない。第二に、特徴量がメルケプストラムであるため、音声信号を得るためにメルケプストラムボコーダを用いることが前提になっている。このため、変換音声の音質には一定の限界がある。
本発明に係る音声変換装置は、変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力する音声特徴量変換部と、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、を含んで構成されている。
本発明の実施の形態では、上記の2つの課題に対し、以下により解決する。
(第一の課題に対する解決策)
連続する複数フレーム(セグメント)の特徴量を連結したもの(セグメント特徴量)を入出力としたNNを構築し、セグメントごとに変換を行う。これにより特徴量系列の局所的な時間連続性とコンテキストを考慮した変換が可能になる。
音声特徴量として、
(1)メルケプストラム、またはSTRAIGHT(非特許文献2)やWORLD(非特許文献3)などによって得られるスペクトル包絡、または短時間フーリエ変換(Short Time Fourier Transform; STFT)やウェーブレット変換(Constant Q Transform; CQT) などによって得られる振幅スペクトル
(2)基本周波数、又は
(3)非周期性指標
を用いる。
[非特許文献3]M. Morise, F. Yokomori, and K. Ozawa, “WORLD: A vocoder-based high-quality speech synthesis system for real-time applications," IEICE Transactions on Information and Systems、 Vol. E99-D,No. 7, pp. 1877-1884, 2016.
[非特許文献6]Tomohiko Nakamura and Hirokazu Kameoka、 “Fast signal reconstruction from magnitude spec-trogram of continuous wavelet transform based on spectrogram consistency、" in Proc. The 17th International Conference on Digital Audio Effects (DAFx-14)、 pp. 129-135、 Sep. 2014.
深層学習を用いた音声変換手法がMohammadiらにより提案されている(上記非特許文献1参照)。この手法では、元音声から目標音声への特徴量の変換関数がニューラルネットワーク(Neural Network; NN)により表現され、元音声と目標音声のパラレルデータ(非線形時間伸縮(Dynamic Time Warping; DTW) によって時間整合された特徴量系列のペア)を用いて当該NNのパラメータを学習することで特徴量変換関数が構成される。上記非特許文献1では、音声特徴量としてメルケプストラムが用いられ、積層自己符号化器を
用いた事前学習を行うことで学習を効率化する方法が用いられている。積層自己符号化器とは文字どおり単層の自己符号化器を積み重ねたもので、具体的には、単層の自己符号化器を学習することで得られる中間層を別の自己符号化器の入力層として学習する操作を繰り返すことにより構成される多層の自己符号化器である(図1)。
となるようにパラメータθを決定することが自己符号化器学習の目的である。xと^xとの距離を二乗誤差で測る場合、学習規準L(θ) は
<基本方式>
非特許文献1に記載の手法では音声特徴量の変換がフレームごとに独立に行われる。一方、提案手法では、音声特徴量の局所的な系列から系列への変換を行えるようにするため、図3のように複数フレーム(セグメント)の音声特徴量系列を連結したもの(セグメント特徴量)をNNの入出力とすることを考える。セグメント間に重複区間がない場合、変換特徴量系列がセグメント境界において不連続的になる可能性があるため、各セグメントのフレームは互いに重複を許すものとする。図3は、1セグメントのフレーム数を10、重複区間のフレーム数を5とした場合の例である。変換特徴量の大域的な連続性を保証するためには、セグメントの重複区間における変換特徴量が矛盾しないようにする必要がある。そこで、図4の例のように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える仕組みを導入する。例えば図3のようにセグメント分けした場合、1番目のセグメントと2 番目のセグメントでは6〜10番目のフレームが重複する。そこで、2番目のセグメントの変換においては、1番目のセグメントにおける変換特徴量系列のうち6〜10番目のフレームに相当するものを入力の一部として与える。本方式では、図5のように逐次的に特徴量系列を変換していくことができるので、オンライン処理に向いている。
まず、学習データとして同一発話内容の音声データのペア
を用意する。xtを元音声データ、ytを目標音声データとする。これらに音声分析(メルケプストラム分析、STRAIGHT分析、WORLD分析、基本周波数推定、STFT、CQT等)を行い、音声特徴量系列
を得る。ただし、N、Mはフレーム数である。同一発話内容の音声データであっても発話タイミングが揃っているとは限らないため、DTWを用いて
の時間整合を行う。ここではfy mの方をfx nに合わせて時間伸縮することとする。時間整合された音声特徴量系列
をL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量
を得る。ただし、
はl番目のセグメントの始端・終端フレームの番号を表す。ここで、各セグメントに図5のように重複区間があるものとし、l-1番目とl番目のセグメントの重複区間(フレーム番号の集合)を
とする。l-1番目のセグメントの入力に対するNNの出力を
とし、重複区間
における目標音声のセグメントl−1のセグメント特徴量
の一部を
とする。このとき、l番目のセグメントにおける出力
は
とl−1番目の目標セグメント特徴量の重複部
に依存して決まる。
は重複区間
に該当する
の一部であるため,この仕組みにより、
が
のユニットに入る値とできるだけ一致するように変換則を学習することができるようになる。
のペアデータを用い、
となるようにパラメータθを学習するのが目的である。
と
との距離を二乗誤差で測る場合、学習規準
と
がともに非負値の場合は、DEU の代わりにKullback-Leibler (KL) ダイバージェンス
は
または
となるようにθの最適化を行う。積層自己符号化器を構築したのち、非特許文献1に記載の手法と同様に中間層を追加し、全体学習を行うことで変換関数g を構築できる。
音声変換モデルの学習でθが決まれば、
を逐次的に算出することができる。ただし、
は、セグメントl−1における出力
の、重複区間
に該当する部分とする。
と
は重複区間において同一フレームの特徴量系列を含むため、それらの平均値や中央値を取ることで音声特徴量系列
を得ることができる。また、これを用いて信号を合成すれば目標音声の信号
を得ることができる。
本実施の形態の手法では音声特徴量として、メルケプストラムやSTRAIGHT(非特許文献2)やWORLD(非特許文献3)により抽出されるスペクトル包絡などの声道スペクトル特性を反映した量や短時間フーリエ変換(STFT)やウェーブレット変換(CQT)で抽出される振幅(まやはパワー)スペクトル、基本周波数(F0)値、STRAIGHT やWORLDで抽出される非周期性指標などを用いることができる。それぞれの分析手法に備わっている合成手法を用いれば特徴量系列から信号を合成することができる。音声特徴量として振幅(またはパワー)スペクトルを用いる場合は位相再構成方法(STFTの場合はGriffin らの手法(非特許文献5)、CQT の場合は中村らの手法(非特許文献6))などを用いて信号を得ることができる。
信号を合成する前に、特徴量系列
に対してポストフィルタリングを行うこともできる。
と学習に用いた目標音声の特徴量系列
を、非特許文献4の手法における学習データとすることで自然音声と変換音声の特徴量系列のギャップを埋めるポストフィルタを構成することができる。
<音声変換モデル学習装置の構成>
次に、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置、及び学習されたニューラルネットワークを用いて変換対象の音声信号を目標の音声信号に変換する音声変換装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図7に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
次に、本実施の形態に係る音声変換モデル学習装置100の作用について説明する。まず、学習サンプルの変換対象の音声信号(例えば電気音声)の時系列データと目標の音声信号(例えば自然音声)の時系列データとのペアが、音声変換モデル学習装置100に入力されると、音声変換モデル学習装置100において、図8に示す学習処理ルーチンが実行される。
次に、本実施の形態に係る音声変換装置150の作用について説明する。まず、音声変換モデル学習装置100によって学習されたニューラルネットワークのパラメータが、音声変換装置150に入力される。また、変換対象の音声信号(例えば電気音声)の時系列データが、音声変換装置150に入力されると、音声変換装置150において、図9に示す音声変換処理ルーチンが実行される。
本発明の実施の形態による変換結果と、上記非特許文献1に記載の手法による変換結果を示す。ここでは音声特徴量として25次元のメルケプストラムを用いている。図10は学習時にテストデータとして用いた音声特徴量系列を示している。図11は、図10について本発明の実施の形態の手法で変換した結果として得られた音声特徴量系列を示しており、図12は、図10について非特許文献1に記載の手法で変換した結果として得られた音声特徴量系列を示している。これらの図は横軸が時間軸、縦軸がメルケプストラムの各次元に対応している。
20 演算部
22 音声特徴量抽出部
24 学習部
50 出力部
60 入力部
70 演算部
72 音声特徴量抽出部
74 音声特徴量変換部
76 音声信号生成部
90 出力部
100 音声変換モデル学習装置
150 音声変換装置
Claims (7)
- 変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置であって、
前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する学習部
を含む音声変換モデル学習装置。 - 変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、
前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力する音声特徴量変換部と、
前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、
を含む音声変換装置。 - 前記音声信号生成部は、前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項2記載の音声変換装置。
- 変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、
学習部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する
音声変換モデル学習方法。 - 変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、
音声特徴量変換部が、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、
音声信号生成部が、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する
音声変換方法。 - 前記音声信号生成部が前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項5記載の音声変換方法。
- 請求項1に記載の音声変換モデル学習装置又は請求項2若しくは3に記載の音声変換装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017030432A JP6638944B2 (ja) | 2017-02-21 | 2017-02-21 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017030432A JP6638944B2 (ja) | 2017-02-21 | 2017-02-21 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018136430A JP2018136430A (ja) | 2018-08-30 |
JP6638944B2 true JP6638944B2 (ja) | 2020-02-05 |
Family
ID=63365463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017030432A Active JP6638944B2 (ja) | 2017-02-21 | 2017-02-21 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6638944B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102085739B1 (ko) * | 2018-10-29 | 2020-03-06 | 광주과학기술원 | 음성 향상 방법 |
CN110060701B (zh) * | 2019-04-04 | 2023-01-31 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
JP7280605B2 (ja) * | 2019-07-01 | 2023-05-24 | 株式会社テクノスピーチ | 音声処理装置、および音声処理方法 |
JP2021033129A (ja) * | 2019-08-27 | 2021-03-01 | 国立大学法人 東京大学 | 音声変換装置、音声変換方法及び音声変換プログラム |
CN112951253A (zh) * | 2019-11-24 | 2021-06-11 | 华南理工大学 | 一种基于Cycle-GAN的音频风格转换方法及系统 |
WO2021134232A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
JPWO2021251005A1 (ja) * | 2020-06-09 | 2021-12-16 | ||
JP7498408B2 (ja) | 2020-11-10 | 2024-06-12 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
-
2017
- 2017-02-21 JP JP2017030432A patent/JP6638944B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018136430A (ja) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6638944B2 (ja) | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム | |
EP3895159B1 (en) | Multi-speaker neural text-to-speech synthesis | |
Banbrook et al. | Speech characterization and synthesis by nonlinear methods | |
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
US10621969B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
JP6876642B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
US20230282202A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
CN113066511B (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
US11869482B2 (en) | Speech waveform generation | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
Tian et al. | System fusion for high-performance voice conversion | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
CN112216293A (zh) | 一种音色转换方法和装置 | |
EP3113180B1 (en) | Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks | |
JP6475572B2 (ja) | 発話リズム変換装置、方法及びプログラム | |
JP2018205768A (ja) | 発話リズム変換装置、方法及びプログラム | |
JP2019070775A (ja) | 信号解析装置、方法、及びプログラム | |
JP2008299266A (ja) | 音声合成装置および音声合成方法 | |
JP2011247921A (ja) | 信号合成方法、信号合成装置及びプログラム | |
Singh et al. | A Hybrid Deep Learning Model for Emotion Conversion in Tamil Language | |
JP2000330582A (ja) | 音声変形方法、その装置、及びプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20181217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6638944 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |