JP6638944B2

JP6638944B2 - 音声変換モデル学習装置、音声変換装置、方法、及びプログラム

Info

Publication number: JP6638944B2
Application number: JP2017030432A
Authority: JP
Inventors: 弘和亀岡; 卓弘金子; 薫平松; 柏野　邦夫; 邦夫柏野; 圭佑小山田; 弘泰安東
Original assignee: Nippon Telegraph and Telephone Corp; University of Tsukuba NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tsukuba NUC
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2020-02-05
Anticipated expiration: 2037-02-21
Also published as: JP2018136430A

Description

本発明は、音声変換モデル学習装置、音声変換装置、方法、及びプログラムに係り、変換対象の音声信号を目標の音声信号に変換するための音声変換モデル学習装置、音声変換装置、方法、及びプログラムに関する。

音声信号を、発話内容を変えず非言語情報およびパラ言語情報を自動変換する技術を声質変換といい、音声合成の話者性変換、発声障碍者のための発話補助、帯域拡張、非母語話者音声のコミュニケーション支援などへの応用が期待されている。

近年、深層学習を用いた音声変換手法（非特許文献１）が提案されている。この手法では、元音声から目標音声への特徴量の変換関数がニューラルネットワーク(Neural Network; NN)により表現される。元音声と目標音声のパラレルデータ（非線形時間伸縮(Dynamic Time Warping; DTW)によって時間整合された特徴量系列のペア）を用いてNNのパラメータを学習することで、特徴量変換関数を構成することができる。

Seyed Hamidreza Mohammadi and Alexander Kain, "Voice conversion using deep neural networks with speaker-independent pre-training," in Proc. 2014 IEEE Workshop on Spoken Language Tech-nology (SLT 2014)、 pp. 19-23, 2014.

この方法には以下に示す２つの課題が挙げられる。
第一に、各フレームの音声特徴量の変換が独立に行われるため、特徴量の時間連続性や前後のコンテキストを考慮した変換を行うことできない。第二に、特徴量がメルケプストラムであるため、音声信号を得るためにメルケプストラムボコーダを用いることが前提になっている。このため、変換音声の音質には一定の限界がある。

本発明は、上記課題を解決するためになされたものであり、変換音声の音質を向上させることができる音声変換モデル学習装置、音声変換装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る音声変換モデル学習装置は、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置であって、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する学習部を含んで構成されている。

本発明に係る音声変換モデル学習方法は、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、学習部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する。
本発明に係る音声変換装置は、変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力する音声特徴量変換部と、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、を含んで構成されている。

本発明に係る音声変換方法は、変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、音声特徴量変換部が、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、音声信号生成部が、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する。

本発明に係るプログラムは、上記の音声変換モデル学習装置または音声変換装置の各部としてコンピュータを機能させるためのプログラムである。

以上説明したように、本発明の音声変換モデル学習装置、方法、及びプログラムによれば、前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列と、前または後のセグメントとの重複部分に対応する、前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列を出力するように、前記ニューラルネットワークを学習することにより、変換音声の音質を向上させることができるニューラルネットワークを学習することができる、という効果が得られる。

また、本発明の音声変換装置、方法、及びプログラムによれば、前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列と、前または後のセグメントとの重複部分に対応する、前または後のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる、という効果が得られる。

多層自己符号化器の一例を説明するための図である。中間層に層を追加する方法を説明するための図である。音声特徴量系列のセグメント分けの方法を説明するための図である。ニューラルネットワークの入出力の一例を説明するための図である。ニューラルネットワークの入出力の一例を説明するための図である。本発明の実施の形態に係る音声変換モデル学習装置の構成を示す概略図である。本発明の実施の形態に係る音声変換装置の構成を示す概略図である。本発明の実施の形態に係る音声変換モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンの内容を示すフローチャートである。実験のテストデータを示す図である。本発明の実施の形態の手法の実験結果を示す図である。比較例の手法の実験結果を示す図である。実験のテストデータを示す拡大図である。本発明の実施の形態の手法の実験結果を示す拡大図である。比較例の手法の実験結果を示す拡大図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声特徴量を変換し、変換した特徴量から音声信号を合成することを目的とした音声変換技術である。

＜本発明の実施の形態の概要＞
本発明の実施の形態では、上記の２つの課題に対し、以下により解決する。
（第一の課題に対する解決策）
連続する複数フレーム（セグメント）の特徴量を連結したもの（セグメント特徴量）を入出力としたNNを構築し、セグメントごとに変換を行う。これにより特徴量系列の局所的な時間連続性とコンテキストを考慮した変換が可能になる。

また、セグメントの重複区間における変換特徴量が矛盾しないように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える。これにより特徴量の大域的な連続性を保証することができる。

（第二の課題に対する解決策）
音声特徴量として、
（１）メルケプストラム、またはSTRAIGHT（非特許文献２）やWORLD（非特許文献３）などによって得られるスペクトル包絡、または短時間フーリエ変換(Short Time Fourier Transform; STFT)やウェーブレット変換(Constant Q Transform; CQT) などによって得られる振幅スペクトル
（２）基本周波数、又は
（３）非周期性指標
を用いる。

［非特許文献２］Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuichi Nisimura, Toshio Irino, Hideki Banno，“Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation," in Proc. 2008 IEEE
［非特許文献３］M. Morise, F. Yokomori, and K. Ozawa, “WORLD: A vocoder-based high-quality speech synthesis system for real-time applications," IEICE Transactions on Information and Systems、 Vol. E99-D，No. 7， pp. 1877-1884, 2016.

また、敵対的生成ネットワーク(Generative Adversarial Network; GAN) を用いたポストフィルタ（非特許文献４）により変換特徴量系列をより自然音声らしくなるようにさらに変換する。

［非特許文献４］金子卓弘、亀岡弘和、北条伸克、井島勇祐、平松薫、柏野邦夫. “統計的パラメトリック音声合成のための敵対的学習に基づくポストフィルタリング、” 電子情報通信学会技術研究報告、 2016.

音声特徴量としてメルケプストラムを用いる場合はメルケプストラムボコーダ、STRAIGHTスペクトル包絡を用いる場合はSTRAIGHT ボコーダ、WORLD スペクトル包絡を用いる場合はWORLDボコーダを用いて音声信号を生成する。音声特徴量として振幅スペクトルを用いる場合は位相推定法（非特許文献５、６）を用いて音声信号を生成する。

［非特許文献５］Daniel W. Griffin and Jae S. Lim, “Signal estimation from modified short-time Fourier transform, "IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No. 2、 1984.
［非特許文献６］Tomohiko Nakamura and Hirokazu Kameoka、 “Fast signal reconstruction from magnitude spec-trogram of continuous wavelet transform based on spectrogram consistency、" in Proc. The 17th International Conference on Digital Audio Effects (DAFx-14)、 pp. 129-135、 Sep. 2014.

音声特徴量としてスペクトル包絡、振幅スペクトルなどを用いる場合は学習規準にKullback-Leibler ダイバージェンスや板倉齋藤距離などの非負値同士の近さを測る規準を用いる。

＜既存手法＞
深層学習を用いた音声変換手法がMohammadiらにより提案されている（上記非特許文献１参照）。この手法では、元音声から目標音声への特徴量の変換関数がニューラルネットワーク(Neural Network; NN)により表現され、元音声と目標音声のパラレルデータ（非線形時間伸縮(Dynamic Time Warping; DTW) によって時間整合された特徴量系列のペア）を用いて当該NNのパラメータを学習することで特徴量変換関数が構成される。上記非特許文献１では、音声特徴量としてメルケプストラムが用いられ、積層自己符号化器を
用いた事前学習を行うことで学習を効率化する方法が用いられている。積層自己符号化器とは文字どおり単層の自己符号化器を積み重ねたもので、具体的には、単層の自己符号化器を学習することで得られる中間層を別の自己符号化器の入力層として学習する操作を繰り返すことにより構成される多層の自己符号化器である（図１）。

自己符号化器の入力をxとすると、出力^x

が

となるようにパラメータθを決定することが自己符号化器学習の目的である。xと^xとの距離を二乗誤差で測る場合、学習規準L(θ) は

となる。自己符号化器の目的は入力x から冗長な情報をそぎ落とし、コンパクトな表現を得ることにあるので、h_θが恒等写像となるようでは意味をなさない。このため、図１のように中間層の次元を入力次元より小さくしたり、適切な正則化を行ったりすることが多い。非特許文献１では、図１のような多層の自己符号化器を学習したのち、中間層に層を追加する(図１から図２となるようにする) ことで変換モデルを構築している。

メルケプストラムは音声の短時間フレームごとの声道特性を特徴付けた低次元の特徴量であるため、メルケプストラムを特徴量とする場合はNNのパラメータ数は比較的少数となる利点がある一方で、フレーム間の特徴量の連続性やコンテキストを考慮した変換が行えないのが本アプローチの難点である。

＜提案手法＞
＜基本方式＞
非特許文献１に記載の手法では音声特徴量の変換がフレームごとに独立に行われる。一方、提案手法では、音声特徴量の局所的な系列から系列への変換を行えるようにするため、図３のように複数フレーム（セグメント）の音声特徴量系列を連結したもの（セグメント特徴量）をNNの入出力とすることを考える。セグメント間に重複区間がない場合、変換特徴量系列がセグメント境界において不連続的になる可能性があるため、各セグメントのフレームは互いに重複を許すものとする。図３は、1セグメントのフレーム数を10、重複区間のフレーム数を5とした場合の例である。変換特徴量の大域的な連続性を保証するためには、セグメントの重複区間における変換特徴量が矛盾しないようにする必要がある。そこで、図４の例のように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える仕組みを導入する。例えば図３のようにセグメント分けした場合、1番目のセグメントと2 番目のセグメントでは6〜10番目のフレームが重複する。そこで、2番目のセグメントの変換においては、1番目のセグメントにおける変換特徴量系列のうち6〜10番目のフレームに相当するものを入力の一部として与える。本方式では、図５のように逐次的に特徴量系列を変換していくことができるので、オンライン処理に向いている。

＜学習方法＞
まず、学習データとして同一発話内容の音声データのペア

を用意する。x_tを元音声データ、y_tを目標音声データとする。これらに音声分析（メルケプストラム分析、STRAIGHT分析、WORLD分析、基本周波数推定、STFT、CQT等）を行い、音声特徴量系列

を得る。ただし、N、Mはフレーム数である。同一発話内容の音声データであっても発話タイミングが揃っているとは限らないため、DTWを用いて

の時間整合を行う。ここではf^y _mの方をf^x _nに合わせて時間伸縮することとする。時間整合された音声特徴量系列

をL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量

を得る。ただし、

はｌ番目のセグメントの始端・終端フレームの番号を表す。ここで、各セグメントに図5のように重複区間があるものとし、l-1番目とl番目のセグメントの重複区間（フレーム番号の集合）を

とする。l-1番目のセグメントの入力に対するNNの出力を

とし、重複区間

における目標音声のセグメントｌ−１のセグメント特徴量

の一部を

とする。このとき、l番目のセグメントにおける出力

は

と書ける。ｇ_θはパラメータθのNNにより表現される変換関数である。前述のとおりl番目のセグメントの出力は、l番目のセグメントの元音声データ

とｌ−１番目の目標セグメント特徴量の重複部

に依存して決まる。

は重複区間

に該当する

の一部であるため，この仕組みにより、

が

のユニットに入る値とできるだけ一致するように変換則を学習することができるようになる。

学習ステップでは、

のペアデータを用い、

となるようにパラメータθを学習するのが目的である。

と

との距離を二乗誤差で測る場合、学習規準

となる。また、

と

がともに非負値の場合は、DEU の代わりにKullback-Leibler (KL) ダイバージェンス

や板倉齋藤距離

を学習規準として用いることもできる。ただし、x_i、 y_iはベクトルx、yの要素とする。

また、音声変換モデルの学習においても、上記非特許文献１に記載の手法と同様に積層自己符号化器を用いた事前学習を用いることができる。自己符号化器の出力

は

または

とし、上述の規準を用いて

となるようにθの最適化を行う。積層自己符号化器を構築したのち、非特許文献１に記載の手法と同様に中間層を追加し、全体学習を行うことで変換関数g を構築できる。

＜生成方法＞
音声変換モデルの学習でθが決まれば、

により元音声のセグメント特徴量系列s^xから目標音声のセグメント特徴量系列

を逐次的に算出することができる。ただし、

は、セグメントｌ−１における出力

の、重複区間

に該当する部分とする。

と

は重複区間において同一フレームの特徴量系列を含むため、それらの平均値や中央値を取ることで音声特徴量系列

を得ることができる。また、これを用いて信号を合成すれば目標音声の信号

を得ることができる。

＜音声特徴量の例＞
本実施の形態の手法では音声特徴量として、メルケプストラムやSTRAIGHT（非特許文献２）やWORLD（非特許文献３）により抽出されるスペクトル包絡などの声道スペクトル特性を反映した量や短時間フーリエ変換(STFT)やウェーブレット変換(CQT)で抽出される振幅（まやはパワー）スペクトル、基本周波数(F0)値、STRAIGHT やWORLDで抽出される非周期性指標などを用いることができる。それぞれの分析手法に備わっている合成手法を用いれば特徴量系列から信号を合成することができる。音声特徴量として振幅（またはパワー）スペクトルを用いる場合は位相再構成方法（STFTの場合はGriffin らの手法（非特許文献５）、CQT の場合は中村らの手法（非特許文献６））などを用いて信号を得ることができる。

＜ポストフィルタリング＞
信号を合成する前に、特徴量系列

に対してポストフィルタリングを行うこともできる。

ポストフィルタリングの手法としては例えば金子らの手法（非特許文献４）がある。非特許文献４では、敵対的生成ネットワーク(Generative Adversarial Network; GAN) に基づく手法であり、自然音声と合成音声（または変換音声）の特徴量系列に現れるミクロな差異の統計分布をGAN により学習する方法である。本発明の実施の形態の手法で生成した目標音声の特徴量系列

と学習に用いた目標音声の特徴量系列

を、非特許文献４の手法における学習データとすることで自然音声と変換音声の特徴量系列のギャップを埋めるポストフィルタを構成することができる。

＜システム構成＞
＜音声変換モデル学習装置の構成＞
次に、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置、及び学習されたニューラルネットワークを用いて変換対象の音声信号を目標の音声信号に変換する音声変換装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。

図６に示すように、本発明の実施の形態に係る音声変換モデル学習装置は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図６に示すように、音声変換モデル学習装置１００は、入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、学習サンプルの変換対象の音声信号（例えば電気音声）の時系列データと目標の音声信号（例えば自然音声）の時系列データとのペアを受け付ける。

演算部２０は、音声特徴量抽出部２２と、学習部２４とを備えている。

音声特徴量抽出部２２は、入力部１０によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、音声特徴量抽出部２２は、入力部１０によって受け付けた学習サンプルの目標の音声信号の時系列データから、音声特徴量系列を抽出する。音声特徴量抽出部２２は、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との時間整合を行う。

また、音声特徴量抽出部２２は、時間整合された、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との各々を、前後のセグメントと重複したＬ個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。

学習部２４は、変換対象の音声信号のＬ個のセグメント特徴量と、目標の音声信号のＬ個のセグメント特徴量とに基づいて、１番目のセグメント〜Ｌ番目のセグメントの各々について順番に、変換対象の音声信号のｌ番目のセグメント特徴量と、ｌ−１番目のセグメントとの重複部分に対応する、ｌ−１番目のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号のｌ番目のセグメント特徴量が出力されるように、ニューラルネットワークのパラメータを学習する。

学習部２４により学習されたニューラルネットワークのパラメータが、出力部５０により出力される。

＜音声変換装置の構成＞
図７に示すように、本発明の実施の形態に係る音声変換装置１５０は、ＣＰＵと、ＲＡＭと、後述する音声変換処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図７に示すように、音声変換装置１５０は、入力部６０と、演算部７０と、出力部９０とを備えている。

入力部６０は、変換対象の音声信号（例えば電気音声）の時系列データを受け付ける。

演算部７０は、音声特徴量抽出部７２と、音声特徴量変換部７４と、音声信号生成部７６とを備えている。

音声特徴量抽出部７２は、入力部６０によって受け付けた変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、音声特徴量抽出部７２は、抽出された音声特徴量系列を、前後のセグメントと重複したＬ個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。

音声特徴量変換部７４は、音声変換モデル学習装置１００で学習されたニューラルネットワークのパラメータと、変換対象の音声信号のＬ個のセグメント特徴量に基づいて、１番目のセグメント〜Ｌ番目のセグメントの各々について順番に、変換対象の音声信号のｌ番目のセグメント特徴量と、ｌ−１番目のセグメントとの重複部分に対応する、ｌ−１番目のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、ｌ番目のセグメントのセグメント特徴量を逐次出力する。

音声信号生成部７６は、音声特徴量変換部７４によってセグメントの各々について出力されたセグメント特徴量に基づいて、目標の音声信号の時系列データを生成する。ここで、セグメントの重複部分についての目標の音声信号を生成する際には、セグメント特徴量から得られる、当該セグメントの重複部分についての特徴量系列を統合した結果に基づいて、当該セグメントの重複部分についての目標の音声信号を生成する。

＜音声変換モデル学習装置の作用＞
次に、本実施の形態に係る音声変換モデル学習装置１００の作用について説明する。まず、学習サンプルの変換対象の音声信号（例えば電気音声）の時系列データと目標の音声信号（例えば自然音声）の時系列データとのペアが、音声変換モデル学習装置１００に入力されると、音声変換モデル学習装置１００において、図８に示す学習処理ルーチンが実行される。

まず、ステップＳ１００において、入力部１０によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、入力部１０によって受け付けた学習サンプルの目標の音声信号の時系列データから、音声特徴量系列を抽出する。そして、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列の時間整合を行う。

ステップＳ１０２では、時間整合された、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との各々を、前後のセグメントと重複したＬ個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。

ステップＳ１０４では、変換対象の音声信号のＬ個のセグメント特徴量と、目標の音声信号のＬ個のセグメント特徴量とに基づいて、１番目のセグメント〜Ｌ番目のセグメントの各々について順番に、変換対象の音声信号のｌ番目のセグメント特徴量と、ｌ−１番目のセグメントとの重複部分に対応する、ｌ−１番目のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号のｌ番目のセグメント特徴量が出力されるように、ニューラルネットワークのパラメータを学習する。そして、学習されたニューラルネットワークのパラメータが、出力部５０により出力され、学習処理ルーチンを終了する。

＜音声変換装置の作用＞
次に、本実施の形態に係る音声変換装置１５０の作用について説明する。まず、音声変換モデル学習装置１００によって学習されたニューラルネットワークのパラメータが、音声変換装置１５０に入力される。また、変換対象の音声信号（例えば電気音声）の時系列データが、音声変換装置１５０に入力されると、音声変換装置１５０において、図９に示す音声変換処理ルーチンが実行される。

まず、ステップＳ１１０において、入力部６０によって受け付けた変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。

ステップＳ１１２において、抽出された音声特徴量系列を、前後のセグメントと重複したＬ個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。

ステップＳ１１４では、音声変換モデル学習装置１００で学習されたニューラルネットワークのパラメータと、変換対象の音声信号のＬ個のセグメント特徴量に基づいて、１番目のセグメント〜Ｌ番目のセグメントの各々について順番に、変換対象の音声信号のｌ番目のセグメント特徴量と、ｌ−１番目のセグメントとの重複部分に対応する、ｌ−１番目のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、ｌ番目のセグメントのセグメント特徴量を逐次出力する。

ステップＳ１１６では、上記ステップＳ１１４でセグメントの各々について出力されたセグメント特徴量に基づいて、目標の音声信号の時系列データを生成し、出力部９０により出力して、音声変換処理ルーチンを終了する。

＜実験＞
本発明の実施の形態による変換結果と、上記非特許文献１に記載の手法による変換結果を示す。ここでは音声特徴量として25次元のメルケプストラムを用いている。図１０は学習時にテストデータとして用いた音声特徴量系列を示している。図１１は、図１０について本発明の実施の形態の手法で変換した結果として得られた音声特徴量系列を示しており、図１２は、図１０について非特許文献１に記載の手法で変換した結果として得られた音声特徴量系列を示している。これらの図は横軸が時間軸、縦軸がメルケプストラムの各次元に対応している。

図１０〜図１２の各々について、0〜5次元目について拡大した図が図１３〜図１５である。

以上説明したように、本発明の実施の形態に係る音声変換モデル学習装置によれば、前後のセグメントと重複したセグメントとし、セグメントの各々について順番に、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つ前のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列を出力するように、ニューラルネットワークを学習することにより、変換音声の音質を向上させることができるニューラルネットワークを学習することができる。

また、本発明の実施の形態に係る音声変換装置によれば、前後のセグメントと重複したセグメントとし、セグメントの各々について順番に、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つの前のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、当該セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施形態では、音声変換モデル学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。

また、前から順番にセグメントの各々について、ニューラルネットワークに入力する場合を例に説明したが、これに限定されるものではなく、例えば、後ろから順番にセグメントの各々について、ニューラルネットワークに入力するようにしてもよい。この場合には、変換対象の音声信号のｌ番目のセグメント特徴量と、ｌ−１番目のセグメントとの重複部分に対応する、ｌ＋１番目のセグメントについてのニューラルネットワークの出力とを入力とすればよい。

また、上述の音声変換モデル学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０演算部
２２音声特徴量抽出部
２４学習部
５０出力部
６０入力部
７０演算部
７２音声特徴量抽出部
７４音声特徴量変換部
７６音声信号生成部
９０出力部
１００音声変換モデル学習装置
１５０音声変換装置

Claims

変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置であって、
前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する学習部
を含む音声変換モデル学習装置。
変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、
前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力する音声特徴量変換部と、
前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、
を含む音声変換装置。
前記音声信号生成部は、前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項２記載の音声変換装置。
変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、
学習部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する
音声変換モデル学習方法。
変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、
音声特徴量変換部が、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、
音声信号生成部が、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する
音声変換方法。
前記音声信号生成部が前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項５記載の音声変換方法。
請求項１に記載の音声変換モデル学習装置又は請求項２若しくは３に記載の音声変換装置の各部としてコンピュータを機能させるためのプログラム。