JP2018136430A - 音声変換モデル学習装置、音声変換装置、方法、及びプログラム - Google Patents

音声変換モデル学習装置、音声変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018136430A
JP2018136430A JP2017030432A JP2017030432A JP2018136430A JP 2018136430 A JP2018136430 A JP 2018136430A JP 2017030432 A JP2017030432 A JP 2017030432A JP 2017030432 A JP2017030432 A JP 2017030432A JP 2018136430 A JP2018136430 A JP 2018136430A
Authority
JP
Japan
Prior art keywords
segment
speech
audio signal
converted
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017030432A
Other languages
English (en)
Other versions
JP6638944B2 (ja
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
卓弘 金子
Takuhiro Kaneko
卓弘 金子
薫 平松
Kaoru Hiramatsu
薫 平松
柏野 邦夫
Kunio Kashino
邦夫 柏野
圭佑 小山田
Keisuke Oyamada
圭佑 小山田
弘泰 安東
Hiroyasu Ando
弘泰 安東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tsukuba NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tsukuba NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017030432A priority Critical patent/JP6638944B2/ja
Publication of JP2018136430A publication Critical patent/JP2018136430A/ja
Application granted granted Critical
Publication of JP6638944B2 publication Critical patent/JP6638944B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】変換音声の音質を向上させることができるようにする。
【解決手段】前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つ前のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、当該セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成する。
【選択図】図4

Description

本発明は、音声変換モデル学習装置、音声変換装置、方法、及びプログラムに係り、変換対象の音声信号を目標の音声信号に変換するための音声変換モデル学習装置、音声変換装置、方法、及びプログラムに関する。
音声信号を、発話内容を変えず非言語情報およびパラ言語情報を自動変換する技術を声質変換といい、音声合成の話者性変換、発声障碍者のための発話補助、帯域拡張、非母語話者音声のコミュニケーション支援などへの応用が期待されている。
近年、深層学習を用いた音声変換手法(非特許文献1)が提案されている。この手法では、元音声から目標音声への特徴量の変換関数がニューラルネットワーク(Neural Network; NN)により表現される。元音声と目標音声のパラレルデータ(非線形時間伸縮(Dynamic Time Warping; DTW)によって時間整合された特徴量系列のペア)を用いてNNのパラメータを学習することで、特徴量変換関数を構成することができる。
Seyed Hamidreza Mohammadi and Alexander Kain, "Voice conversion using deep neural networks with speaker-independent pre-training," in Proc. 2014 IEEE Workshop on Spoken Language Tech-nology (SLT 2014)、 pp. 19-23, 2014.
この方法には以下に示す2つの課題が挙げられる。
第一に、各フレームの音声特徴量の変換が独立に行われるため、特徴量の時間連続性や前後のコンテキストを考慮した変換を行うことできない。第二に、特徴量がメルケプストラムであるため、音声信号を得るためにメルケプストラムボコーダを用いることが前提になっている。このため、変換音声の音質には一定の限界がある。
本発明は、上記課題を解決するためになされたものであり、変換音声の音質を向上させることができる音声変換モデル学習装置、音声変換装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る音声変換モデル学習装置は、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置であって、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する学習部を含んで構成されている。
本発明に係る音声変換モデル学習方法は、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、学習部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する。
本発明に係る音声変換装置は、変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力する音声特徴量変換部と、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、を含んで構成されている。
本発明に係る音声変換方法は、変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、音声特徴量変換部が、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、音声信号生成部が、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する。
本発明に係るプログラムは、上記の音声変換モデル学習装置または音声変換装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の音声変換モデル学習装置、方法、及びプログラムによれば、前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列と、前または後のセグメントとの重複部分に対応する、前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列を出力するように、前記ニューラルネットワークを学習することにより、変換音声の音質を向上させることができるニューラルネットワークを学習することができる、という効果が得られる。
また、本発明の音声変換装置、方法、及びプログラムによれば、前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列と、前または後のセグメントとの重複部分に対応する、前または後のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる、という効果が得られる。
多層自己符号化器の一例を説明するための図である。 中間層に層を追加する方法を説明するための図である。 音声特徴量系列のセグメント分けの方法を説明するための図である。 ニューラルネットワークの入出力の一例を説明するための図である。 ニューラルネットワークの入出力の一例を説明するための図である。 本発明の実施の形態に係る音声変換モデル学習装置の構成を示す概略図である。 本発明の実施の形態に係る音声変換装置の構成を示す概略図である。 本発明の実施の形態に係る音声変換モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンの内容を示すフローチャートである。 実験のテストデータを示す図である。 本発明の実施の形態の手法の実験結果を示す図である。 比較例の手法の実験結果を示す図である。 実験のテストデータを示す拡大図である。 本発明の実施の形態の手法の実験結果を示す拡大図である。 比較例の手法の実験結果を示す拡大図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声特徴量を変換し、変換した特徴量から音声信号を合成することを目的とした音声変換技術である。
<本発明の実施の形態の概要>
本発明の実施の形態では、上記の2つの課題に対し、以下により解決する。
(第一の課題に対する解決策)
連続する複数フレーム(セグメント)の特徴量を連結したもの(セグメント特徴量)を入出力としたNNを構築し、セグメントごとに変換を行う。これにより特徴量系列の局所的な時間連続性とコンテキストを考慮した変換が可能になる。
また、セグメントの重複区間における変換特徴量が矛盾しないように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える。これにより特徴量の大域的な連続性を保証することができる。
(第二の課題に対する解決策)
音声特徴量として、
(1)メルケプストラム、またはSTRAIGHT(非特許文献2)やWORLD(非特許文献3)などによって得られるスペクトル包絡、または短時間フーリエ変換(Short Time Fourier Transform; STFT)やウェーブレット変換(Constant Q Transform; CQT) などによって得られる振幅スペクトル
(2)基本周波数、又は
(3)非周期性指標
を用いる。
[非特許文献2]Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuichi Nisimura, Toshio Irino, Hideki Banno,“Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation," in Proc. 2008 IEEE
[非特許文献3]M. Morise, F. Yokomori, and K. Ozawa, “WORLD: A vocoder-based high-quality speech synthesis system for real-time applications," IEICE Transactions on Information and Systems、 Vol. E99-D,No. 7, pp. 1877-1884, 2016.
また、敵対的生成ネットワーク(Generative Adversarial Network; GAN) を用いたポストフィルタ(非特許文献4)により変換特徴量系列をより自然音声らしくなるようにさらに変換する。
[非特許文献4]金子卓弘、 亀岡弘和、 北条伸克、 井島勇祐、 平松薫、 柏野邦夫. “統計的パラメトリック音声合成のための敵対的学習に基づくポストフィルタリング、” 電子情報通信学会技術研究報告、 2016.
音声特徴量としてメルケプストラムを用いる場合はメルケプストラムボコーダ、STRAIGHTスペクトル包絡を用いる場合はSTRAIGHT ボコーダ、WORLD スペクトル包絡を用いる場合はWORLDボコーダを用いて音声信号を生成する。音声特徴量として振幅スペクトルを用いる場合は位相推定法(非特許文献5、6)を用いて音声信号を生成する。
[非特許文献5]Daniel W. Griffin and Jae S. Lim, “Signal estimation from modified short-time Fourier transform, "IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No. 2、 1984.
[非特許文献6]Tomohiko Nakamura and Hirokazu Kameoka、 “Fast signal reconstruction from magnitude spec-trogram of continuous wavelet transform based on spectrogram consistency、" in Proc. The 17th International Conference on Digital Audio Effects (DAFx-14)、 pp. 129-135、 Sep. 2014.
音声特徴量としてスペクトル包絡、振幅スペクトルなどを用いる場合は学習規準にKullback-Leibler ダイバージェンスや板倉齋藤距離などの非負値同士の近さを測る規準を用いる。
<既存手法>
深層学習を用いた音声変換手法がMohammadiらにより提案されている(上記非特許文献1参照)。この手法では、元音声から目標音声への特徴量の変換関数がニューラルネットワーク(Neural Network; NN)により表現され、元音声と目標音声のパラレルデータ(非線形時間伸縮(Dynamic Time Warping; DTW) によって時間整合された特徴量系列のペア)を用いて当該NNのパラメータを学習することで特徴量変換関数が構成される。上記非特許文献1では、音声特徴量としてメルケプストラムが用いられ、積層自己符号化器を
用いた事前学習を行うことで学習を効率化する方法が用いられている。積層自己符号化器とは文字どおり単層の自己符号化器を積み重ねたもので、具体的には、単層の自己符号化器を学習することで得られる中間層を別の自己符号化器の入力層として学習する操作を繰り返すことにより構成される多層の自己符号化器である(図1)。
自己符号化器の入力をxとすると、出力^x


となるようにパラメータθを決定することが自己符号化器学習の目的である。xと^xとの距離を二乗誤差で測る場合、学習規準L(θ) は
となる。自己符号化器の目的は入力x から冗長な情報をそぎ落とし、コンパクトな表現を得ることにあるので、hθが恒等写像となるようでは意味をなさない。このため、図1のように中間層の次元を入力次元より小さくしたり、適切な正則化を行ったりすることが多い。非特許文献1では、図1のような多層の自己符号化器を学習したのち、中間層に層を追加する(図1から図2となるようにする) ことで変換モデルを構築している。
メルケプストラムは音声の短時間フレームごとの声道特性を特徴付けた低次元の特徴量であるため、メルケプストラムを特徴量とする場合はNNのパラメータ数は比較的少数となる利点がある一方で、フレーム間の特徴量の連続性やコンテキストを考慮した変換が行えないのが本アプローチの難点である。
<提案手法>
<基本方式>
非特許文献1に記載の手法では音声特徴量の変換がフレームごとに独立に行われる。一方、提案手法では、音声特徴量の局所的な系列から系列への変換を行えるようにするため、図3のように複数フレーム(セグメント)の音声特徴量系列を連結したもの(セグメント特徴量)をNNの入出力とすることを考える。セグメント間に重複区間がない場合、変換特徴量系列がセグメント境界において不連続的になる可能性があるため、各セグメントのフレームは互いに重複を許すものとする。図3は、1セグメントのフレーム数を10、重複区間のフレーム数を5とした場合の例である。変換特徴量の大域的な連続性を保証するためには、セグメントの重複区間における変換特徴量が矛盾しないようにする必要がある。そこで、図4の例のように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える仕組みを導入する。例えば図3のようにセグメント分けした場合、1番目のセグメントと2 番目のセグメントでは6〜10番目のフレームが重複する。そこで、2番目のセグメントの変換においては、1番目のセグメントにおける変換特徴量系列のうち6〜10番目のフレームに相当するものを入力の一部として与える。本方式では、図5のように逐次的に特徴量系列を変換していくことができるので、オンライン処理に向いている。
<学習方法>
まず、学習データとして同一発話内容の音声データのペア

を用意する。xtを元音声データ、ytを目標音声データとする。これらに音声分析(メルケプストラム分析、STRAIGHT分析、WORLD分析、基本周波数推定、STFT、CQT等)を行い、音声特徴量系列

を得る。ただし、N、Mはフレーム数である。同一発話内容の音声データであっても発話タイミングが揃っているとは限らないため、DTWを用いて

の時間整合を行う。ここではfy mの方をfx nに合わせて時間伸縮することとする。時間整合された音声特徴量系列

をL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量

を得る。ただし、

はl番目のセグメントの始端・終端フレームの番号を表す。ここで、各セグメントに図5のように重複区間があるものとし、l-1番目とl番目のセグメントの重複区間(フレーム番号の集合)を

とする。l-1番目のセグメントの入力に対するNNの出力を

とし、重複区間

における目標音声のセグメントl−1のセグメント特徴量

の一部を

とする。このとき、l番目のセグメントにおける出力

と書ける。gθはパラメータθのNNにより表現される変換関数である。前述のとおりl番目のセグメントの出力は、l番目のセグメントの元音声データ

とl−1番目の目標セグメント特徴量の重複部

に依存して決まる。

は重複区間

に該当する

の一部であるため,この仕組みにより、



のユニットに入る値とできるだけ一致するように変換則を学習することができるようになる。
学習ステップでは、

のペアデータを用い、

となるようにパラメータθを学習するのが目的である。



との距離を二乗誤差で測る場合、学習規準
となる。また、



がともに非負値の場合は、DEU の代わりにKullback-Leibler (KL) ダイバージェンス
や板倉齋藤距離
を学習規準として用いることもできる。ただし、xi、 yiはベクトルx、yの要素とする。
また、音声変換モデルの学習においても、上記非特許文献1に記載の手法と同様に積層自己符号化器を用いた事前学習を用いることができる。自己符号化器の出力


または
とし、上述の規準を用いて

となるようにθの最適化を行う。積層自己符号化器を構築したのち、非特許文献1に記載の手法と同様に中間層を追加し、全体学習を行うことで変換関数g を構築できる。
<生成方法>
音声変換モデルの学習でθが決まれば、
により元音声のセグメント特徴量系列sxから目標音声のセグメント特徴量系列

を逐次的に算出することができる。ただし、

は、セグメントl−1における出力

の、重複区間

に該当する部分とする。



は重複区間において同一フレームの特徴量系列を含むため、それらの平均値や中央値を取ることで音声特徴量系列

を得ることができる。また、これを用いて信号を合成すれば目標音声の信号

を得ることができる。
<音声特徴量の例>
本実施の形態の手法では音声特徴量として、メルケプストラムやSTRAIGHT(非特許文献2)やWORLD(非特許文献3)により抽出されるスペクトル包絡などの声道スペクトル特性を反映した量や短時間フーリエ変換(STFT)やウェーブレット変換(CQT)で抽出される振幅(まやはパワー)スペクトル、基本周波数(F0)値、STRAIGHT やWORLDで抽出される非周期性指標などを用いることができる。それぞれの分析手法に備わっている合成手法を用いれば特徴量系列から信号を合成することができる。音声特徴量として振幅(またはパワー)スペクトルを用いる場合は位相再構成方法(STFTの場合はGriffin らの手法(非特許文献5)、CQT の場合は中村らの手法(非特許文献6))などを用いて信号を得ることができる。
<ポストフィルタリング>
信号を合成する前に、特徴量系列

に対してポストフィルタリングを行うこともできる。
ポストフィルタリングの手法としては例えば金子らの手法(非特許文献4)がある。非特許文献4では、敵対的生成ネットワーク(Generative Adversarial Network; GAN) に基づく手法であり、自然音声と合成音声(または変換音声)の特徴量系列に現れるミクロな差異の統計分布をGAN により学習する方法である。本発明の実施の形態の手法で生成した目標音声の特徴量系列

と学習に用いた目標音声の特徴量系列

を、非特許文献4の手法における学習データとすることで自然音声と変換音声の特徴量系列のギャップを埋めるポストフィルタを構成することができる。
<システム構成>
<音声変換モデル学習装置の構成>
次に、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置、及び学習されたニューラルネットワークを用いて変換対象の音声信号を目標の音声信号に変換する音声変換装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図6に示すように、本発明の実施の形態に係る音声変換モデル学習装置は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図6に示すように、音声変換モデル学習装置100は、入力部10と、演算部20と、出力部50とを備えている。
入力部10は、学習サンプルの変換対象の音声信号(例えば電気音声)の時系列データと目標の音声信号(例えば自然音声)の時系列データとのペアを受け付ける。
演算部20は、音声特徴量抽出部22と、学習部24とを備えている。
音声特徴量抽出部22は、入力部10によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、音声特徴量抽出部22は、入力部10によって受け付けた学習サンプルの目標の音声信号の時系列データから、音声特徴量系列を抽出する。音声特徴量抽出部22は、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との時間整合を行う。
また、音声特徴量抽出部22は、時間整合された、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との各々を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
学習部24は、変換対象の音声信号のL個のセグメント特徴量と、目標の音声信号のL個のセグメント特徴量とに基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号のl番目のセグメント特徴量が出力されるように、ニューラルネットワークのパラメータを学習する。
学習部24により学習されたニューラルネットワークのパラメータが、出力部50により出力される。
<音声変換装置の構成>
図7に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図7に示すように、音声変換装置150は、入力部60と、演算部70と、出力部90とを備えている。
入力部60は、変換対象の音声信号(例えば電気音声)の時系列データを受け付ける。
演算部70は、音声特徴量抽出部72と、音声特徴量変換部74と、音声信号生成部76とを備えている。
音声特徴量抽出部72は、入力部60によって受け付けた変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、音声特徴量抽出部72は、抽出された音声特徴量系列を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
音声特徴量変換部74は、音声変換モデル学習装置100で学習されたニューラルネットワークのパラメータと、変換対象の音声信号のL個のセグメント特徴量に基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、l番目のセグメントのセグメント特徴量を逐次出力する。
音声信号生成部76は、音声特徴量変換部74によってセグメントの各々について出力されたセグメント特徴量に基づいて、目標の音声信号の時系列データを生成する。ここで、セグメントの重複部分についての目標の音声信号を生成する際には、セグメント特徴量から得られる、当該セグメントの重複部分についての特徴量系列を統合した結果に基づいて、当該セグメントの重複部分についての目標の音声信号を生成する。
<音声変換モデル学習装置の作用>
次に、本実施の形態に係る音声変換モデル学習装置100の作用について説明する。まず、学習サンプルの変換対象の音声信号(例えば電気音声)の時系列データと目標の音声信号(例えば自然音声)の時系列データとのペアが、音声変換モデル学習装置100に入力されると、音声変換モデル学習装置100において、図8に示す学習処理ルーチンが実行される。
まず、ステップS100において、入力部10によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、入力部10によって受け付けた学習サンプルの目標の音声信号の時系列データから、音声特徴量系列を抽出する。そして、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列の時間整合を行う。
ステップS102では、時間整合された、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との各々を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
ステップS104では、変換対象の音声信号のL個のセグメント特徴量と、目標の音声信号のL個のセグメント特徴量とに基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号のl番目のセグメント特徴量が出力されるように、ニューラルネットワークのパラメータを学習する。そして、学習されたニューラルネットワークのパラメータが、出力部50により出力され、学習処理ルーチンを終了する。
<音声変換装置の作用>
次に、本実施の形態に係る音声変換装置150の作用について説明する。まず、音声変換モデル学習装置100によって学習されたニューラルネットワークのパラメータが、音声変換装置150に入力される。また、変換対象の音声信号(例えば電気音声)の時系列データが、音声変換装置150に入力されると、音声変換装置150において、図9に示す音声変換処理ルーチンが実行される。
まず、ステップS110において、入力部60によって受け付けた変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。
ステップS112において、抽出された音声特徴量系列を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
ステップS114では、音声変換モデル学習装置100で学習されたニューラルネットワークのパラメータと、変換対象の音声信号のL個のセグメント特徴量に基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、l番目のセグメントのセグメント特徴量を逐次出力する。
ステップS116では、上記ステップS114でセグメントの各々について出力されたセグメント特徴量に基づいて、目標の音声信号の時系列データを生成し、出力部90により出力して、音声変換処理ルーチンを終了する。
<実験>
本発明の実施の形態による変換結果と、上記非特許文献1に記載の手法による変換結果を示す。ここでは音声特徴量として25次元のメルケプストラムを用いている。図10は学習時にテストデータとして用いた音声特徴量系列を示している。図11は、図10について本発明の実施の形態の手法で変換した結果として得られた音声特徴量系列を示しており、図12は、図10について非特許文献1に記載の手法で変換した結果として得られた音声特徴量系列を示している。これらの図は横軸が時間軸、縦軸がメルケプストラムの各次元に対応している。
図10〜図12の各々について、0〜5次元目について拡大した図が図13〜図15である。
以上説明したように、本発明の実施の形態に係る音声変換モデル学習装置によれば、前後のセグメントと重複したセグメントとし、セグメントの各々について順番に、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つ前のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列を出力するように、ニューラルネットワークを学習することにより、変換音声の音質を向上させることができるニューラルネットワークを学習することができる。
また、本発明の実施の形態に係る音声変換装置によれば、前後のセグメントと重複したセグメントとし、セグメントの各々について順番に、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つの前のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、当該セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施形態では、音声変換モデル学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
また、前から順番にセグメントの各々について、ニューラルネットワークに入力する場合を例に説明したが、これに限定されるものではなく、例えば、後ろから順番にセグメントの各々について、ニューラルネットワークに入力するようにしてもよい。この場合には、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l+1番目のセグメントについてのニューラルネットワークの出力とを入力とすればよい。
また、上述の音声変換モデル学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
22 音声特徴量抽出部
24 学習部
50 出力部
60 入力部
70 演算部
72 音声特徴量抽出部
74 音声特徴量変換部
76 音声信号生成部
90 出力部
100 音声変換モデル学習装置
150 音声変換装置

Claims (7)

  1. 変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置であって、
    前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
    前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する学習部
    を含む音声変換モデル学習装置。
  2. 変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、
    前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
    前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力する音声特徴量変換部と、
    前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、
    を含む音声変換装置。
  3. 前記音声信号生成部は、前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項2記載の音声変換装置。
  4. 変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、
    学習部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
    前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する
    音声変換モデル学習方法。
  5. 変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、
    音声特徴量変換部が、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
    前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、
    音声信号生成部が、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する
    音声変換方法。
  6. 前記音声信号生成部が前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項5記載の音声変換方法。
  7. 請求項1に記載の音声変換モデル学習装置又は請求項2若しくは3に記載の音声変換装置の各部としてコンピュータを機能させるためのプログラム。
JP2017030432A 2017-02-21 2017-02-21 音声変換モデル学習装置、音声変換装置、方法、及びプログラム Active JP6638944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017030432A JP6638944B2 (ja) 2017-02-21 2017-02-21 音声変換モデル学習装置、音声変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017030432A JP6638944B2 (ja) 2017-02-21 2017-02-21 音声変換モデル学習装置、音声変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018136430A true JP2018136430A (ja) 2018-08-30
JP6638944B2 JP6638944B2 (ja) 2020-02-05

Family

ID=63365463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017030432A Active JP6638944B2 (ja) 2017-02-21 2017-02-21 音声変換モデル学習装置、音声変換装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6638944B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060701A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于vawgan-ac的多对多语音转换方法
KR102085739B1 (ko) * 2018-10-29 2020-03-06 광주과학기술원 음성 향상 방법
JP2020118950A (ja) * 2019-07-01 2020-08-06 株式会社テクノスピーチ 音声処理装置、および音声処理方法
JP2021033129A (ja) * 2019-08-27 2021-03-01 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
CN112951253A (zh) * 2019-11-24 2021-06-11 华南理工大学 一种基于Cycle-GAN的音频风格转换方法及系统
WO2021134232A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 一种流式语音转换方法、装置、计算机设备及存储介质
WO2021251005A1 (ja) * 2020-06-09 2021-12-16 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、信号処理方法
WO2022101967A1 (ja) * 2020-11-10 2022-05-19 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102085739B1 (ko) * 2018-10-29 2020-03-06 광주과학기술원 음성 향상 방법
CN110060701A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于vawgan-ac的多对多语音转换方法
CN110060701B (zh) * 2019-04-04 2023-01-31 南京邮电大学 基于vawgan-ac的多对多语音转换方法
JP2020118950A (ja) * 2019-07-01 2020-08-06 株式会社テクノスピーチ 音声処理装置、および音声処理方法
JP7280605B2 (ja) 2019-07-01 2023-05-24 株式会社テクノスピーチ 音声処理装置、および音声処理方法
JP2021033129A (ja) * 2019-08-27 2021-03-01 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
CN112951253A (zh) * 2019-11-24 2021-06-11 华南理工大学 一种基于Cycle-GAN的音频风格转换方法及系统
WO2021134232A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 一种流式语音转换方法、装置、计算机设备及存储介质
WO2021251005A1 (ja) * 2020-06-09 2021-12-16 ソニーセミコンダクタソリューションズ株式会社 信号処理装置、信号処理方法
US11974042B2 (en) 2020-06-09 2024-04-30 Sony Semiconductor Solutions Corporation Signal processing device and signal processing method
WO2022101967A1 (ja) * 2020-11-10 2022-05-19 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Also Published As

Publication number Publication date
JP6638944B2 (ja) 2020-02-05

Similar Documents

Publication Publication Date Title
JP6638944B2 (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
Wang et al. Deep learning based phase reconstruction for speaker separation: A trigonometric perspective
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
US10621969B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN108847249A (zh) 声音转换优化方法和系统
JP2024510679A (ja) 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ
Wang et al. Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis
WO2022151930A1 (zh) 语音合成方法、合成模型训练方法、装置、介质及设备
JP6876642B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Eskimez et al. Adversarial training for speech super-resolution
US20230282202A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
CN111048071A (zh) 语音数据处理方法、装置、计算机设备和存储介质
Choi et al. Korean singing voice synthesis based on auto-regressive boundary equilibrium gan
CN113066511B (zh) 一种语音转换方法、装置、电子设备和存储介质
Morise Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error
Csapó et al. Ultrasound-based silent speech interface built on a continuous vocoder
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
Tian et al. System fusion for high-performance voice conversion
Akhter et al. An analysis of performance evaluation metrics for voice conversion models
JP6764843B2 (ja) 信号解析装置、方法、及びプログラム
JP2018205768A (ja) 発話リズム変換装置、方法及びプログラム
Kaur et al. Formant Text to Speech Synthesis Using Artificial Neural Networks
JP2011247921A (ja) 信号合成方法、信号合成装置及びプログラム
Hoffmann Analysis-by-Synthesis in Prosody Research
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20181217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191213

R150 Certificate of patent or registration of utility model

Ref document number: 6638944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350