JP2018146821A

JP2018146821A - 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム

Info

Publication number: JP2018146821A
Application number: JP2017042430A
Authority: JP
Inventors: 伸克北条; Nobukatsu Hojo; 勇祐井島; Yusuke Ijima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2018-09-20
Anticipated expiration: 2037-03-07
Also published as: JP6542823B2

Abstract

【課題】スペクトル包絡情報とF0情報の依存関係を明にモデル化し、従来よりも品質の高い音声を合成する音声合成装置等を提供することを目的とする。【解決手段】音響モデル学習装置は、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、N個の基本周波数情報fL,nと、N個の言語特徴量ベクトルlL,nと、N個の学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む。【選択図】図３

Description

本発明は、スペクトル包絡情報と基本周波数(以下「F₀」ともいう)情報とを用いて音声を合成する音声合成装置、音声合成の際に用いる音響モデルを学習する音響モデル学習装置、それらの方法及びプログラムに関する。

音声データから音声合成用モデルを学習し、合成音声を生成する手法として、DNN(deep neural network)に基づく技術がある(非特許文献１参照)。図１は従来技術に係る音響モデル学習装置８０の機能ブロック図、図２は従来技術に係る音声合成装置９０の機能ブロック図を示す。

スペクトル包絡・F₀ベクトルデータ作成部８２は、F₀データ{f₁,f₂,…,f_N}と、スペクトル包絡データ{s₁,s₂,…,s_N}から、スペクトル包絡・F₀データ{x₁,x₂,…,x_N}を作成する。ただし、学習用音声データの総数をNとし、n=1,2,…,Nとする。図中、{f₁,f₂,…,f_N}等をf_n等と表現する。言語特徴量ベクトルデータ作成部８１は、コンテキストデータ{t₁,t₂,…,t_N}から、言語特徴量ベクトルデータ{l₁,l₂,…,l_N}を作成する。スペクトル包絡生成モデル・変換パラメータ学習部８４は、スペクトル包絡・F₀データ{x₁,x₂,…,x_N}、言語特徴量ベクトルデータ{l₁,l₂,…,l_N}から、スペクトル包絡・F₀生成DNNを学習する。

音声合成装置９０では、テキスト解析部９１で合成するテキストtex_oをテキスト解析し、コンテキストt_oを得る。言語特徴量ベクトル抽出部９２は、コンテキストt_oから言語特徴量ベクトルl_oを抽出する。スペクトル包絡生成部９４は、スペクトル包絡・F₀生成DNNを用いて、言語特徴量ベクトルl_oからスペクトル包絡情報s_o、F₀情報f_oを生成する。音声波形生成部９５は、得られたスペクトル包絡情報s_o、F₀情報f_oから、音声波形生成により、合成音声波形z_oを得る。

Zen et al., "Statistical parametric speech synthesis using deep neural networks", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013 pp. 7962-7966.

人間の発話する音声では、スペクトル包絡情報とF₀情報には依存関係があることが知られている。この依存関係を再現することで、合成音声を高品質化することが可能である。

しかしながら、従来技術では、コンテキストから得られる言語特徴量ベクトルを入力とし、スペクトル包絡情報とF₀情報を出力するDNNを利用し、スペクトル包絡情報とF₀情報の依存関係が明にモデル化されていない。そのため、音声品質に改善の余地があると考えられる。

本発明は、スペクトル包絡情報とF₀情報の依存関係を明にモデル化し、従来よりも品質の高い音声を合成する音声合成装置、そのための音響モデルを学習する音響モデル学習装置、その方法、及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報f_L,nと、N個の学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルl_L,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、N個の基本周波数情報f_L,nと、N個の言語特徴量ベクトルl_L,nと、N個の学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報s_L,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習方法は、学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報f_L,nと、N個の学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルl_L,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習ステップと、N個の基本周波数情報f_L,nと、N個の言語特徴量ベクトルl_L,nと、N個の学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報s_L,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習ステップとを含む。

本発明によれば、従来よりも品質の高い音声を合成することができるという効果を奏する。

従来技術に係る音響モデル学習装置の機能ブロック図。従来技術に係る音声合成装置の機能ブロック図。第一実施形態に係る音響モデル学習装置の機能ブロック図。第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。第一実施形態に係る音声合成装置の機能ブロック図。第一実施形態に係る音声合成装置の処理フローの例を示す図。第二実施形態に係る音響モデル学習装置の機能ブロック図。第二実施形態に係る音響モデル学習装置の処理フローの例を示す図。第二実施形態に係る音声合成装置の機能ブロック図。第二実施形態に係る音声合成装置の処理フローの例を示す図。第三実施形態に係る音響モデル学習装置の機能ブロック図。第三実施形態に係る音響モデル学習装置の処理フローの例を示す図。第三実施形態に係る音声合成装置の機能ブロック図。第三実施形態に係る音声合成装置の処理フローの例を示す図。第四実施形態に係る音響モデル学習装置の機能ブロック図。第四実施形態に係る音響モデル学習装置の処理フローの例を示す図。第四実施形態に係る音声合成装置の機能ブロック図。第四実施形態に係る音声合成装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態では、スペクトル包絡情報を生成するDNNの入力に、F₀情報を活用する。音声合成器の入力として、読み、アクセントなどの従来のコンテキストに加え、F₀情報を活用し、対応するF₀情報を反映したスペクトル包絡情報を出力するようにDNNを構成する。このような構成により、F₀情報との依存関係を反映したスペクトル包絡情報を生成することが可能となる。生成されたスペクトル包絡情報とF₀情報の依存関係が満たされることで、合成音声の自然性が向上する。

＜全体構成＞
本実施形態は、音響モデル学習装置１１０および音声合成装置１２０から構成される。図３，４，５，６は、それぞれ音響モデル学習装置１１０の機能ブロック図、その処理フローを示す図、音声合成装置１２０の機能ブロック図、その処理フローを示す図である。

音響モデル学習装置１１０では、F₀データ{f₁,f₂,…,f_N}、スペクトル包絡データ{s₁,s₂,…,s_N}、コンテキストデータ{t₁,t₂,…,t_N}を用いて、F₀生成DNN(図中、DNN_fとも記載する)およびスペクトル包絡生成DNN(図中、DNN_sとも記載する)を学習する。

音声合成装置１２０では、入力テキストtex_oのテキスト解析・言語特徴量ベクトル抽出から得られる言語特徴量ベクトルl_o、およびF₀生成DNNから、F₀情報f_oを生成する。次に、言語特徴量ベクトルl_o、生成されたF₀情報f_o、およびスペクトル包絡生成DNNからスペクトル包絡情報s_oを生成する。

＜用語、使用するデータに関する説明＞
・F₀データ、スペクトル包絡データ
F₀データ、スペクトル包絡データは、それぞれ、音響モデル学習に使用する音声データ(以下、学習用音声データともいう)の音声信号に対して信号処理を行った結果得られる、各発話のF₀情報（音高）f_n、スペクトル包絡情報（ケプストラム、メルケプストラム等）s_nをそれぞれ学習用音声データの総数N個分保持したデータである。コンテキストデータ中の発話数Nを用いて、F₀データを{f₁,f₂,…,f_N}、スペクトル包絡データを{s₁,s₂,…,s_N}で表現する。

例えば、F₀情報f_nは、N個の学習用音声データのうちのn番目の学習用音声データの時間長をT_nフレームとした場合、各フレーム時刻の音高の情報を保持したデータであり、1×T_n次元の実ベクトルとする。または、有声/無声の情報を含む2×T_n次元の実ベクトルとしてもよい。
例えば、スペクトル包絡情報s_nは、n番目の学習用音声データの各フレーム時刻の音韻の情報を保持したデータであり、抽出されたケプストラム、メルケプストラムの低次元のみを抽出して利用してもよい。発話nの時間長をT_nフレームとした場合、例えば、M次元のメルケプストラムを使用して、M×T_n次元の実ベクトル等とする。

・コンテキストデータ
コンテキストデータは、学習用音声データのコンテキスト（発話情報）を学習用音声データの総数N個分保持したデータである。例えば、コンテキストデータを{t₁,t₂,…,t_N}で表現する。
例えば、コンテキストt_nは、n番目の学習用音声データについて付与された発音等の情報である。コンテキストには、音素情報（発音情報）とアクセント情報（アクセント型、アクセント句長）を含んでいる必要がある。コンテキストとして、これ以外にも品詞情報等も含んでいてもよい。また、各音素の開始時間、終了時間の情報（音素セグメンテーション情報）が保存されていてもよい。

・言語特徴量ベクトル
言語特徴量ベクトルl_nは、コンテキストt_nを数値ベクトルで表現したものである。例えば、非特許文献１のように、音素情報、アクセント情報をそれぞれ1-of-K表現し、さらに文長などの数値情報と連結し得られる数値ベクトルとする。当該発話の時間長をT_nフレームとした場合、例えばフレーム辺りK次元のベクトルを使用し、言語特徴量ベクトルl_nとして、K×T_n次元の実ベクトルを使用する。
言語特徴量ベクトルデータは、コンテキストデータ{t₁,t₂,…,t_N}に含まれる各発話について、対応する言語特徴量ベクトルl_nを保持したものである。コンテキストデータ中の発話数Nを用いて、{l₁,l₂,…,l_N}として表現する。

・言語特徴量・F₀ベクトル
言語特徴量・F₀ベクトルは、言語特徴量ベクトルl_nとF₀情報f_nの双方の情報を保持したベクトルである。例えば、言語特徴量ベクトルl_nとF₀情報f_nとを連結し、x_n=[l_n ^T,f_n ^T]^Tとして作成する。
言語特徴量・F₀ベクトルデータは、N個の学習用音声データに含まれる各学習用音声データについて、言語特徴量・F₀ベクトルx_nを抽出し、データとして保持したものである。コンテキストデータ中の発話数Nを用いて、{x₁,x₂,…,x_N}で表現する。

＜第一実施形態に係る音響モデル学習装置１１０＞
F₀データ、スペクトル包絡データ、コンテキストデータから音響モデル学習を行い、DNN音響モデルを出力する。従来手法のアルゴリズムと異なる点は、(1)言語特徴量・F₀ベクトルデータを作成する点、(2)F₀のみを生成するF₀生成DNNを学習する点、(3)スペクトル包絡の生成のために言語特徴量のみでなくF₀情報も活用するため、スペクトル包絡生成DNNの入力として言語特徴量・F₀ベクトルデータを使用する点である。

図３は第一実施形態に係る音響モデル学習装置１１０の機能ブロック図を、図４はその処理フローを示す。
例えば、この音響モデル学習装置１１０は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音響モデル学習装置１１０は、言語特徴量ベクトルデータ作成部１１１と、言語特徴量・F₀ベクトルデータ作成部１１２と、F₀生成モデル学習部１１３と、スペクトル包絡生成モデル学習部１１４とを含む。以下、各部の処理内容を説明する。

＜言語特徴量ベクトルデータ作成部１１１＞
言語特徴量ベクトルデータ作成部１１１は、コンテキストデータ{t₁,t₂,…,t_N}を入力とし、各発話のコンテキストt_nに対し言語特徴量ベクトルl_nを作成し（Ｓ１１１）、その結果を言語特徴量ベクトルデータ{l₁,l₂,…,l_N}として保持する。

＜言語特徴量・F₀ベクトルデータ作成部１１２＞
言語特徴量・F₀ベクトルデータ作成部１１２は、F₀データ{f₁,f₂,…,f_N}と言語特徴量ベクトルデータ{l₁,l₂,…,l_N}とを入力とし、n番目の学習用音声データに対応する言語特徴量ベクトルl_nとF₀情報f_nとを連結し、言語特徴量・F₀ベクトルx_n=[l_n ^T,f_n ^T]^Tとして作成し、N発話分に対して同様の処理を行い、言語特徴量・F₀ベクトルデータ{x₁,x₂,…,x_N}を作成し(Ｓ１１２)、保持する。

＜F₀生成モデル学習部１１３＞
F₀生成モデル学習部１１３は、言語特徴量ベクトルデータ{l₁,l₂,…,l_N}とF₀データ{f₁,f₂,…,f_N}とを入力とし、これらのデータを用いて、言語特徴量ベクトルを入力とし、対応するF₀情報を出力とするDNN(以下、F₀生成モデルともいい、図中、DNN_fとも記載する)を学習し（Ｓ１１３）、保持する。F₀生成モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、入出力で使用するベクトルを除いて、学習方法・モデル構成等は非特許文献１と同様とする。

＜スペクトル包絡生成モデル学習部１１４＞
スペクトル包絡生成モデル学習部１１４は、言語特徴量・F₀ベクトルデータ{x₁,x₂,…,x_N}とスペクトル包絡データ{s₁,s₂,…,s_N}とを入力とし、これらのデータを用いて、言語特徴量・F₀ベクトルを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成DNN(以下、スペクトル包絡生成モデルともいい、図中、DNN_sとも記載する)を学習する（Ｓ１１４）。スペクトル包絡生成モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、入出力で使用するベクトルを除いて、学習方法・モデル構成等は非特許文献１と同様とする。

＜第一実施形態に係る音声合成装置１２０＞
音声合成装置１２０は、合成するテキストtex_oから、合成音声z_oを生成する。従来手法のアルゴリズムと異なる点は、F₀生成DNNから、F₀情報f_nのみを生成し、スペクトル包絡生成DNNからスペクトル包絡情報s_oを生成する際に、言語特徴量l_nと併せてF₀情報f_nを使用する点である。

図５は第一実施形態に係る音声合成装置１２０の機能ブロック図を、図６はその処理フローを示す。

例えば、この音声合成装置１２０は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音声合成装置１２０は、テキスト解析部１２１と、言語特徴量ベクトル抽出部１２２と、F₀生成部１２３と、言語特徴量・F₀ベクトル作成部１２４Ｂと、スペクトル包絡生成部１２４と、音声波形生成部１２５とを含む。以下、各部の処理内容を説明する。

＜テキスト解析部１２１＞
テキスト解析部１２１は、音声合成の対象となるテキストtex_oを入力とし、テキストtex_oをテキスト解析し（Ｓ１２１）、コンテキストt_oを得る。

＜言語特徴量ベクトル抽出部１２２＞
言語特徴量ベクトル抽出部１２２は、コンテキストt_oを入力とし、コンテキストt_oに対応する言語特徴量ベクトルl_oを抽出し（Ｓ１２２）、出力する。

＜F₀生成部１２３＞
F₀生成部１２３は、音声合成に先立ち予めF₀生成モデルDDN_fを受け取っておく。音声合成時には、F₀生成部１２３は、言語特徴量ベクトルl_oを入力とし、F₀生成モデルDDN_fの順伝播を行い、出力ベクトルを、F₀情報f_oとして出力する（Ｓ１２３）。なお、F₀情報f_oは、テキストtex_oに対応する音声波形の基本周波数を示す情報である。

＜言語特徴量・F₀ベクトル作成部１２４Ｂ＞
言語特徴量・F₀ベクトル作成部１２４Ｂは、言語特徴量ベクトルl_oとF₀情報f_oとを入力とし、言語特徴量ベクトルl_oとF₀情報f_oとを連結し、言語特徴量・F₀ベクトルx_o=[l_o ^T,f_o ^T]^Tとして作成し(Ｓ１２４Ｂ)、出力する。

＜スペクトル包絡生成部１２４＞
スペクトル包絡生成部１２４は、音声合成に先立ち予めスペクトル包絡生成モデルDDN_sを受け取っておく。スペクトル包絡生成部１２４は、言語特徴量・F₀ベクトルx_oを入力とし、スペクトル包絡生成モデルDDN_sの順伝播を行い、出力ベクトルを、スペクトル包絡情報s_oとして、出力する（Ｓ１２４）。なお、スペクトル包絡情報s_oは、テキストtex_oに対応する音声波形のスペクトル包絡情報を示す情報である。

＜音声波形生成部１２５＞
音声波形生成部１２５は、F₀情報f_oとスペクトル包絡情報s_oとを受け取り、これらの値を用いて、テキストtex_oに対応する音声波形(合成音声z_o)を生成し（Ｓ１２５）、出力する。音声波形生成の前に、例えば、maximum likelihood generation (MLPG) アルゴリズム（参考文献１参照）を用いて時間方向に平滑化された音声パラメータ系列を得てもよい。また、音声波形生成には、例えば（参考文献２）を用いてもよい。
[参考文献１]益子他，“動的特徴を用いたHMMに基づく音声合成”，信学論，vol.J79-D-II，no.12，pp.2184-2190，Dec. 1996.
[参考文献２]今井他，“音声合成のためのメル対数スペクトル近似（MLSA）フィルタ”，電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.

＜効果＞
以上の構成により、音声合成器の入力として、読み、アクセントなどの従来のコンテキストに加え、F₀情報を反映したスペクトル包絡情報を出力するようスペクトル包絡生成DNNを構成する。これにより、F₀情報との依存関係を満たすスペクトル包絡情報を生成することが可能となる。これにより、合成音声の品質が向上する。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

第一実施形態において、スペクトル包絡生成DNNの入力として、極端に高いF₀、極端に低いF₀が使用される場合がある。その場合、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が不安定となり、合成音声の品質が劣化する可能性がある。

この課題点に対し、本実施形態では、スペクトル包絡生成DNNの入力として、F₀情報をある有界の関数F(x)に入力した際の出力値を使用する。スペクトル包絡生成DNNの入力が有界となることで、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が安定し、合成音声の品質が向上する。

本実施形態は、第一実施形態と比較し、言語特徴量・F₀ベクトル(データ)作成部の前段にF₀変換部があり、F₀情報を変換する点が異なる。

＜用語、使用するデータに関する説明＞
・言語特徴量・変換F₀ベクトル
本実施形態における言語特徴量・変換F₀ベクトルは、言語特徴量ベクトルl_nとF₀情報f_nの双方の情報を保持したベクトルである。F₀値変換した出力を使用する点が第一実施形態と異なる。例えば、言語特徴量ベクトルl_nと変換後のF₀情報f_n ⁽¹⁾の二つのベクトルを連結し、x_n=[l_n ^T,f_n ^(1)T]^Tとして作成する。

＜第二実施形態に係る音響モデル学習装置２１０＞
図７は第二実施形態に係る音響モデル学習装置２１０の機能ブロック図を、図８はその処理フローを示す。
音響モデル学習装置２１０は、言語特徴量ベクトルデータ作成部１１１と、言語特徴量・F₀ベクトルデータ作成部１１２と、F₀生成モデル学習部１１３と、スペクトル包絡生成モデル学習部１１４と、F₀変換部２１５とを含む。

＜F₀変換部２１５＞
F₀変換部２１５は、F₀データ{t₁,t₂,…,t_N}を入力とし、有界のベクトル関数F(f_n)を用いて、F₀データ{f₁,f₂,…,f_N}を変換し（Ｓ２１５）、変換後のF₀データ{f₁ ⁽¹⁾,f₂ ⁽¹⁾,…,f_N ⁽¹⁾}を出力する。例えば、F₀情報f_nのフレーム長をT_nフレームとし、f_n=[f_n1,f_n2,…,f_{nT_n}]^Tとしたとき、F(f_n)=[G(f_n1)、G(f_n2)、…、G(f_{nT_n})]^Tとする。ただし、下付き添え字T_nは、T_nを意味する。ここで、Gは有界のスカラー関数である。例えば、Gとして、sigmoid関数

を使用する。

なお、言語特徴量・F₀ベクトルデータ作成部１１２は、F₀データ{f₁,f₂,…,f_N}に代えて、変換後のF₀データ{f₁ ⁽¹⁾,f₂ ⁽¹⁾,…,f_N ⁽¹⁾}を用いる。他の構成は第一実施形態と同様である。

＜第二実施形態に係る音声合成装置２２０＞
図９は第二実施形態に係る音声合成装置２２０の機能ブロック図を、図１０はその処理フローを示す。
音声合成装置２２０は、テキスト解析部１２１と、言語特徴量ベクトル抽出部１２２と、F₀生成部１２３と、言語特徴量・F₀ベクトル作成部１２４Ｂと、スペクトル包絡生成部１２４と、音声波形生成部１２５と、F₀変換部２２４Ａとを含む。

＜F₀変換部２２４Ａ＞
F₀変換部２２４Ａは、F₀情報f_oとを入力とし、有界のベクトル関数F(f_n)を用いて、F₀情報f_oを変換し（Ｓ２２４Ａ）、変換後のF₀情報f_o ⁽¹⁾を出力する。変換方法としては、F₀変換部２１５と対応する方法を用いればよい。
なお、言語特徴量・F₀ベクトル作成部１２４Ｂは、F₀情報f_oに代えて、変換後のF₀情報f_o ⁽¹⁾を用いる。他の構成は第一実施形態と同様である。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が安定し、合成音声の品質が向上する。なお、第二実施形態では、用いるF₀データ、F₀情報を限定しており、第一実施形態を限定したものとも言える。

＜第三実施形態＞
第二実施形態と異なる部分を中心に説明する。

第二実施形態においては、ベクトル関数F(x)として固定された一つの関数を使用する。一方、学習データから、スペクトル包絡生成DNNの入力として適切なベクトル関数F(x)を推定することができれば、より適切にスペクトル包絡情報とF₀情報の依存関係がモデル化されると考えられる。

この課題点に対し、本実施形態では、固定された一つの関数F(x)の替わりに、F₀値変換パラメータθ⁽⁰⁾を持つ関数F(x;θ⁽⁰⁾)を使用し、学習データを使用してF₀値変換パラメータθ⁽⁰⁾を推定する。適切なベクトル関数を学習することで、スペクトル包絡情報とF₀情報の依存関係がより柔軟にモデル化され、合成音声品質が向上する。

＜用語、使用するデータに関する説明＞
・F₀値変換パラメータ
F₀値変換パラメータは、パラメトリックF₀値変換において使用するパラメータであり、θ⁽⁰⁾で表現する。

・パラメトリック変換F₀情報
パラメトリック変換F₀情報は、パラメトリックF₀値変換により出力される実数値である。f_n ⁽²⁾で表現する。

・言語特徴量・パラメトリック変換F₀ベクトル
言語特徴量・パラメトリック変換F₀ベクトルは、言語特徴量ベクトルl_nと、パラメトリック変換F₀情報f_n ⁽²⁾から得られるベクトルである。x_nで表現する。例えば、言語特徴量ベクトルl_nと、パラメトリック変換F₀情報f_n ⁽²⁾を連結し、x_n=[l_n ^T,f_n ^(2)T]^Tとして作成する。

・パラメトリックF₀値変換
F₀情報f_n、F₀値変換パラメータθ⁽⁰⁾、F₀値変換関数F(x;θ⁽⁰⁾)を用いて、パラメトリック変換F₀情報f_n ⁽²⁾を出力する。この際、F(x;θ⁽⁰⁾)として、値域が有界なベクトルを使用する。また、DNNの誤差逆伝播によるθ⁽⁰⁾の学習を可能とするため、F(x;θ⁽⁰⁾)の出力値がθ⁽⁰⁾について微分可能である関数を使用する。例えば、F₀情報f_nのフレーム長をT_nフレームとし、f_n=[f_n1,f_n2,…,f_{nT_n}]^T、F(f_n;θ⁽⁰⁾)=[G(f_n1;θ⁽⁰⁾),G(f_n2;θ⁽⁰⁾),…,G(f_{nT_n};θ⁽⁰⁾)]^Tとしたとき、パラメトリックなsigmoid関数

を使用する。または、ベクトル関数F(x;θ⁽⁰⁾)を、xを入力ベクトル、θ⁽⁰⁾をパラメータとするニューラルネットワークとしてもよい。

＜第三実施形態に係る音響モデル学習装置３１０＞
図１１は第三実施形態に係る音響モデル学習装置３１０の機能ブロック図を、図１２はその処理フローを示す。

音響モデル学習装置３１０は、スペクトル包絡データ、F₀データ、コンテキストデータから、スペクトル包絡生成DNN学習・F₀値変換パラメータ推定を行い、スペクトル包絡生成DNNおよびF₀値変換パラメータを出力する点が第二実施形態と異なる。スペクトル包絡生成DNN学習・F₀値変換パラメータ推定では、スペクトル包絡データ、F₀データ、言語特徴量ベクトルデータから、スペクトル包絡DNNのF₀値変換パラメータを推定する。

音響モデル学習装置３１０は、言語特徴量ベクトルデータ作成部１１１と、言語特徴量・F₀ベクトルデータ作成部１１２と、F₀生成モデル学習部１１３と、スペクトル包絡生成モデル・変換パラメータ学習部３１４と、F₀変換部３１５とを含む。

＜F₀変換部３１５＞
F₀変換部３１５は、学習に先立ち予めF₀値変換パラメータθ⁽⁰⁾を初期化しておく。例えば、F₀値変換パラメータθ⁽⁰⁾を乱数により初期化する。例えば、F₀値変換パラメータθ⁽⁰⁾の初期化は、有界のベクトル関数F(x;θ⁽⁰⁾)として、パラメトリックなsigmoid関数を使用する場合、標準正規分布からサンプリングする。

F₀変換部３１５は、学習時においてF₀データ{f₁,f₂,…,f_N}を入力とし、F₀データ{f₁,f₂,…,f_N}とF₀値変換パラメータθ⁽⁰⁾とを用いて、パラメトリックF₀値変換を行い(f_n ⁽²⁾=[G(f_n1;θ⁽⁰⁾),G(f_n2;θ⁽⁰⁾),…,G(f_{nT_n};θ⁽⁰⁾)]、Ｓ３１５)、パラメトリック変換F₀データ{f₁ ⁽²⁾,f₂ ⁽²⁾,…,f_N ⁽²⁾}を求め、出力する。
なお、言語特徴量・F₀ベクトルデータ作成部１１２は、F₀データ{f₁ ⁽¹⁾,f₂ ⁽¹⁾,…,f_N ⁽¹⁾}に代えて、変換後のF₀データ{f₁ ⁽²⁾,f₂ ⁽²⁾,…,f_N ⁽²⁾}を用いる。

＜スペクトル包絡生成モデル・変換パラメータ学習部３１４＞
スペクトル包絡生成モデル・変換パラメータ学習部３１４は、F₀値変換パラメータθ⁽⁰⁾(初期値)と、言語特徴量・F₀ベクトルデータ{x₁,x₂,…,x_N}(ただし、x_n=[f_n ^(2)T,l_n ^T]^T)とスペクトル包絡データ{s₁,s₂,…,s_N}とを入力とし、これらのデータを用いて、言語特徴量・F₀ベクトルを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成DNNとF₀値変換パラメータθ⁽⁰⁾を学習し、学習後のスペクトル包絡生成DNNとF₀値変換パラメータθ⁽¹⁾を出力する。例えば、以下のように学習する。

(1)言語特徴量・パラメトリック変換F₀ベクトルx_nをDNNの入力ベクトルとし、DNNを順伝播する。
(2)出力ベクトルz_n(n番目の学習用音声データから得られるスペクトル包絡情報)とスペクトル包絡情報s_nの誤差を計測し、誤差を逆伝播し、DNNのパラメータW、F₀値変換パラメータθ⁽⁰⁾の誤差勾配を算出する。ただし、DNNのパラメータWは、学習に先立ち予め乱数により初期化しておく。例えば、Wの乱数初期化は、非特許文献１と同様の方法を用いる。また、誤差関数としては、例えばz_nとs_nの最小二乗誤差を使用する。
(3)誤差勾配に従い、パラメータWとF₀値変換パラメータθ⁽⁰⁾を更新する。

F₀変換部３１５における処理（Ｓ３１５）、言語特徴量・F₀ベクトルデータ作成部１１２における処理(Ｓ１１２)、及び上述の(1)〜(3)の処理を収束判定されるまで反復する。
得られた(収束したと判断されたときの)パラメータW、F₀値変換パラメータθ⁽⁰⁾をそれぞれ学習後のスペクトル包絡生成DNN、F₀値変換パラメータθ⁽¹⁾として出力する。例えば、収束判定として、反復回数が閾値に達したか、反復ごとの誤差関数の変化が閾値よりも小さくなったか、またはその両方を使用する。

＜第三実施形態に係る音声合成装置３２０＞
図１３は第三実施形態に係る音声合成装置３２０の機能ブロック図を、図１４はその処理フローを示す。
音声合成装置３２０は、音響モデル学習装置３１０で得られるF₀値変換パラメータθ⁽¹⁾を使用し、F₀情報f_oを変換する点が第二実施形態と異なる。
音声合成装置３２０は、テキスト解析部１２１と、言語特徴量ベクトル抽出部１２２と、F₀生成部１２３と、言語特徴量・F₀ベクトル作成部１２４Ｂと、スペクトル包絡生成部１２４と、音声波形生成部１２５と、F₀変換部３２４Ａとを含む。

＜F₀変換部３２４Ａ＞
F₀変換部３２４Ａは、F₀値変換パラメータθ⁽¹⁾とF₀情報f_oとを入力とし、F₀情報f_oとF₀値変換パラメータθ⁽¹⁾とを用いて、パラメトリックF₀値変換を行い(f_o ⁽²⁾=[G(f_o1;θ⁽¹⁾),G(f_o2;θ⁽¹⁾),…,G(f_{oT_o};θ⁽¹⁾)]、Ｓ３２４Ａ)、パラメトリック変換F₀データf_o ⁽²⁾を出力する。このとき、使用する関数F(x;θ⁽¹⁾)は、F₀変換部３１５で使用されるパラメトリックF₀値変換と同一のものを使用する。
なお、言語特徴量・F₀ベクトル作成部１２４Ｂは、変換F₀情報f_o ⁽¹⁾に代えて、パラメトリック変換F₀情報f_o ⁽²⁾を用いる。

＜効果＞
このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、スペクトル包絡情報とF₀情報の依存関係がより柔軟にモデル化され、合成音声品質が向上する。

＜第四実施形態＞
第三実施形態と異なる部分を中心に説明する。

第三実施形態のスペクトル包絡生成DNN学習・F₀値変換パラメータ推定において、高品質な音声を合成可能とするためには、パラメータ生成誤差の小さいスペクトル包絡生成DNNを学習できればよい。ここで、勾配法などの初期値に依存するアルゴリズムを利用する場合、スペクトル包絡生成DNNのパラメータ誤差を十分に小さくするためには、適切な初期値を設定する必要があるという課題がある。

本実施形態では、F₀値変換パラメータの初期値として、第三実施形態のスペクトル包絡生成DNN学習・F₀値変換パラメータ推定において推定されたF₀値変換パラメータθ⁽¹⁾を使用する。第三実施形態で推定されたF₀値変換パラメータθ⁽¹⁾は、あるスペクトル包絡生成DNNのパラメータ生成誤差を最小化する基準で決定されたものであるため、それをF₀値変換パラメータθ⁽¹⁾として設定し、再度スペクトル包絡生成DNN学習・F₀値変換パラメータ推定を実施することで、さらにパラメータ生成誤差の小さいスペクトル包絡生成DNNを学習可能であると期待される。これにより、より合成音声の品質を向上させる。

＜用語、使用するデータに関する説明＞
・再推定パラメトリックF₀値変換パラメータ
再推定パラメトリックF₀値変換パラメータは、音響モデル学習装置４１０により得られる、パラメトリックF₀値変換のためのパラメータであり、θ⁽²⁾と表記する。第三実施形態の学習結果であるパラメトリックF₀値変換パラメータθ⁽¹⁾を初期値として利用し、再推定される点が第三実施形態と異なる。

＜第四実施形態に係る音響モデル学習装置４１０＞
図１５は第三実施形態に係る音響モデル学習装置４１０の機能ブロック図を、図１６はその処理フローを示す。
音響モデル学習装置４１０は、第三実施形態で得られるF₀値変換パラメータθ⁽¹⁾を初期値として利用して、スペクトル包絡生成DNN学習・F₀値変換パラメータ再推定を行い、スペクトル包絡生成DNNと再推定F₀値変換パラメータθ⁽²⁾を出力する点が第三実施形態と異なる。

音響モデル学習装置４１０は、音響モデル学習装置３１０と、言語特徴量ベクトルデータ作成部１１１と、言語特徴量・F₀ベクトルデータ作成部１１２と、F₀生成モデル学習部１１３と、スペクトル包絡生成モデル・変換パラメータ学習部３１４と、F₀変換部４１５とを含む。
なお、音響モデル学習装置３１０は、音響モデル学習装置４１０の処理に先立ち、第三実施形態で説明した処理を実行し、F₀値変換パラメータθ⁽¹⁾を求め（Ｓ３１０）、出力する。

＜F₀変換部４１５及びスペクトル包絡生成モデル・変換パラメータ学習部４１４＞
F₀変換部４１５及びスペクトル包絡生成モデル・変換パラメータ学習部４１４は、学習に先立ち予め、F₀値変換パラメータθ⁽⁰⁾に代えて、音響モデル学習装置３１０の出力値であるF₀値変換パラメータθ⁽¹⁾を初期値として設定する。F₀変換部４１５及びスペクトル包絡生成モデル・変換パラメータ学習部４１４の処理内容は、それぞれF₀変換部３１５及びスペクトル包絡生成モデル・変換パラメータ学習部３１４と同様である（Ｓ４１５、Ｓ４１４）。なお、スペクトル包絡生成モデル・変換パラメータ学習部４１４は、F₀値変換パラメータθ⁽¹⁾に代えて、再推定F₀値変換パラメータθ⁽²⁾を出力する。

＜第四実施形態に係る音声合成装置４２０＞
図１７は第三実施形態に係る音声合成装置４２０の機能ブロック図を、図１８はその処理フローを示す。
音声合成装置４２０は、スペクトル包絡生成時に、F₀値変換パラメータθ⁽¹⁾でなく、再推定F₀値変換パラメータθ⁽²⁾を使用する点が第三実施形態と異なる。
音声合成装置２２０は、テキスト解析部１２１と、言語特徴量ベクトル抽出部１２２と、F₀生成部１２３と、言語特徴量・F₀ベクトル作成部１２４Ｂと、スペクトル包絡生成部１２４と、音声波形生成部１２５と、F₀変換部４２４Ａとを含む。

＜F₀変換部４２４Ａ＞
F₀変換部４２４Ａは、再推定F₀値変換パラメータθ⁽²⁾とF₀情報f_oとを入力とし、F₀情報f_oとF₀値変換パラメータθ⁽¹⁾とを用いて、パラメトリックF₀値変換を行い(f_o ⁽²⁾=[G(f_o1;θ⁽²⁾),G(f_o2;θ⁽²⁾),…,G(f_{oT_o};θ⁽²⁾)]、Ｓ４２４Ａ)、パラメトリック変換F₀データf_o ⁽²⁾を出力する。このとき、使用する関数G(x;θ⁽²⁾)は、F₀変換部４１５で使用されるパラメトリックF₀値変換と同一のものを使用する。
なお、言語特徴量・F₀ベクトル作成部１２４Ｂは、f_o ⁽¹⁾に代えて、パラメトリック変換F₀データf_o ⁽²⁾を用いる。

＜効果＞
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、パラメータ生成誤差の小さいスペクトル包絡生成DNNを学習可能であると期待される。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報f_L,nと、N個の前記学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルl_L,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、
N個の前記基本周波数情報f_L,nと、N個の前記言語特徴量ベクトルl_L,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報s_L,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む、
音響モデル学習装置。
請求項１の音響モデル学習装置であって、
有界のスカラー関数gを用いてN個の前記基本周波数情報f_L,nをそれぞれ変換する基本周波数変換部を含み、
前記スペクトル包絡生成モデル学習部において、用いられるN個の前記基本周波数情報f_L,nは、前記基本周波数変換部において変換された値である、
音響モデル学習装置。
請求項２の音響モデル学習装置であって、
前記基本周波数変換部は、前記スカラー関数g及びそのパラメータθを用いてN個の前記基本周波数情報f_L,nをそれぞれ変換し、
前記スペクトル包絡生成モデル学習部において、N個の変換後の基本周波数情報f_L,nと、N個の前記言語特徴量ベクトルl_L,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報s_L,nとを用いて、変換後の基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルとパラメータθとを学習する、
音響モデル学習装置。
請求項３の音響モデル学習装置であって、
前記スペクトル包絡生成モデル学習部において、学習した後のパラメータをθ⁽¹⁾とし、前記基本周波数変換部は、前記スカラー関数g及びそのパラメータθ⁽¹⁾を用いてN個の前記基本周波数情報f_L,nをそれぞれ変換し、
前記スペクトル包絡生成モデル学習部において、N個の変換後の基本周波数情報f_L,nと、N個の前記言語特徴量ベクトルl_L,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報s_L,nとを用いて、変換後の基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルとスカラー関数のパラメータθ⁽¹⁾を学習する、
音響モデル学習装置。
請求項１から請求項４の何れかの音響モデル学習装置により学習した前記基本周波数生成モデルと前記スペクトル包絡生成モデルとを用いて、音声合成を行う音声合成装置であって、
前記基本周波数生成モデルを用いて、対象テキストをテキスト解析して得られるコンテキストに対応する言語特徴量ベクトルl_Oから前記対象テキストに対応する音声波形の基本周波数を示す基本周波数情報f_Oを生成する基本周波数生成部と、
前記スペクトル包絡生成モデルを用いて、前記言語特徴量ベクトルl_Oと前記基本周波数情報f_Oとから前記対象テキストに対応する音声波形のスペクトル包絡を示すスペクトル包絡情報s_Oを生成するスペクトル包絡生成部と、
前記基本周波数情報f_Oと前記スペクトル包絡情報s_Oとを用いて、対象テキストに対応する音声波形を生成する音声波形生成部とを含む、
音声合成装置。
学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報f_L,nと、N個の前記学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルl_L,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習ステップと、
N個の前記基本周波数情報f_L,nと、N個の前記言語特徴量ベクトルl_L,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報s_L,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習ステップとを含む、
音響モデル学習方法。
請求項６の音響モデル学習方法により学習した前記基本周波数生成モデルと前記スペクトル包絡生成モデルとを用いて、音声合成を行う音声合成方法であって、
前記基本周波数生成モデルを用いて、対象テキストをテキスト解析して得られるコンテキストに対応する言語特徴量ベクトルl_Oから前記対象テキストに対応する音声波形の基本周波数を示す基本周波数情報f_Oを生成する基本周波数生成ステップと、
前記スペクトル包絡生成モデルを用いて、前記言語特徴量ベクトルl_Oと前記基本周波数情報f_Oとから前記対象テキストに対応する音声波形のスペクトル包絡を示すスペクトル包絡情報s_Oを生成するスペクトル包絡生成ステップと、
前記基本周波数情報f_Oと前記スペクトル包絡情報s_Oとを用いて、対象テキストに対応する音声波形を生成する音声波形生成ステップとを含む、
音声合成方法。
請求項１から請求項４の何れかの音響モデル学習装置、または、請求項５の音声合成装置として、コンピュータを機能させるためのプログラム。