JP6542823B2 - Acoustic model learning device, speech synthesizer, method thereof and program - Google Patents

Acoustic model learning device, speech synthesizer, method thereof and program Download PDF

Info

Publication number
JP6542823B2
JP6542823B2 JP2017042430A JP2017042430A JP6542823B2 JP 6542823 B2 JP6542823 B2 JP 6542823B2 JP 2017042430 A JP2017042430 A JP 2017042430A JP 2017042430 A JP2017042430 A JP 2017042430A JP 6542823 B2 JP6542823 B2 JP 6542823B2
Authority
JP
Japan
Prior art keywords
information
fundamental frequency
learning
speech
pieces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017042430A
Other languages
Japanese (ja)
Other versions
JP2018146821A (en
Inventor
伸克 北条
伸克 北条
勇祐 井島
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017042430A priority Critical patent/JP6542823B2/en
Publication of JP2018146821A publication Critical patent/JP2018146821A/en
Application granted granted Critical
Publication of JP6542823B2 publication Critical patent/JP6542823B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、スペクトル包絡情報と基本周波数(以下「F0」ともいう)情報とを用いて音声を合成する音声合成装置、音声合成の際に用いる音響モデルを学習する音響モデル学習装置、それらの方法及びプログラムに関する。 The present invention provides a speech synthesis apparatus that synthesizes speech using spectral envelope information and fundamental frequency (hereinafter also referred to as “F 0 ”) information, an acoustic model learning apparatus that learns an acoustic model used in speech synthesis, and It relates to a method and program.

音声データから音声合成用モデルを学習し、合成音声を生成する手法として、DNN(deep neural network)に基づく技術がある(非特許文献1参照)。図1は従来技術に係る音響モデル学習装置80の機能ブロック図、図2は従来技術に係る音声合成装置90の機能ブロック図を示す。   There is a technology based on DNN (deep neural network) as a method of learning a speech synthesis model from speech data and generating synthesized speech (see Non-Patent Document 1). FIG. 1 is a functional block diagram of an acoustic model learning device 80 according to the prior art, and FIG. 2 is a functional block diagram of a speech synthesizer 90 according to the prior art.

スペクトル包絡・F0ベクトルデータ作成部82は、F0データ{f1,f2,…,fN}と、スペクトル包絡データ{s1,s2,…,sN}から、スペクトル包絡・F0データ{x1,x2,…,xN}を作成する。ただし、学習用音声データの総数をNとし、n=1,2,…,Nとする。図中、{f1,f2,…,fN}等をfn等と表現する。言語特徴量ベクトルデータ作成部81は、コンテキストデータ{t1,t2,…,tN}から、言語特徴量ベクトルデータ{l1,l2,…,lN}を作成する。スペクトル包絡生成モデル・変換パラメータ学習部84は、スペクトル包絡・F0データ{x1,x2,…,xN}、言語特徴量ベクトルデータ{l1,l2,…,lN}から、スペクトル包絡・F0生成DNNを学習する。 Spectral envelope · F 0 vector data creation unit 82, F 0 data {f 1, f 2, ... , f N} and the spectral envelope data {s 1, s 2, ... , s N} from the spectral envelope · F Create 0 data {x 1 , x 2 ,..., X N }. However, it is assumed that the total number of learning voice data is N, and n = 1, 2,. In the figure, {f 1 , f 2 ,..., F N } etc. are expressed as f n etc. Language feature vector data generating unit 81, context data {t 1, t 2, ... , t N} from the language feature vector data {l 1, l 2, ... , l N} to create. Spectrum envelope generation model conversion parameter learning unit 84, the spectral envelope-F 0 data {x 1, x 2, ... , x N}, language feature vector data {l 1, l 2, ... , l N} from The spectral envelope · F 0 generation DNN is learned.

音声合成装置90では、テキスト解析部91で合成するテキストtexoをテキスト解析し、コンテキストtoを得る。言語特徴量ベクトル抽出部92は、コンテキストtoから言語特徴量ベクトルloを抽出する。スペクトル包絡生成部94は、スペクトル包絡・F0生成DNNを用いて、言語特徴量ベクトルloからスペクトル包絡情報so、F0情報foを生成する。音声波形生成部95は、得られたスペクトル包絡情報so、F0情報foから、音声波形生成により、合成音声波形zoを得る。 In the speech synthesizer 90, the text analysis unit 91 analyzes the text tex o synthesized to obtain the context t o . Language feature vector extraction section 92 extracts the language feature vector l o from the context t o. The spectral envelope generation unit 94 generates spectral envelope information s o and F 0 information f o from the language feature quantity vector l o using the spectral envelope and F 0 generation DNN. Speech waveform generation unit 95, resulting spectral envelope information s o, from F 0 information f o, the speech waveform generation, obtain a synthesized speech waveform z o.

Zen et al., "Statistical parametric speech synthesis using deep neural networks", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013 pp. 7962-7966.Zen et al., "Statistical parametric speech synthesis using deep neural networks", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on IEEE. 2013, pp. 7962-7966.

人間の発話する音声では、スペクトル包絡情報とF0情報には依存関係があることが知られている。この依存関係を再現することで、合成音声を高品質化することが可能である。 In speech uttered by humans, it is known that there is a dependency between spectral envelope information and F 0 information. By reproducing this dependency, it is possible to improve the quality of synthetic speech.

しかしながら、従来技術では、コンテキストから得られる言語特徴量ベクトルを入力とし、スペクトル包絡情報とF0情報を出力するDNNを利用し、スペクトル包絡情報とF0情報の依存関係が明にモデル化されていない。そのため、音声品質に改善の余地があると考えられる。 However, in the prior art, an input language feature value vector obtained from the context, using DNN for outputting spectral envelope information and the F 0 information, the dependency of the spectral envelope information and the F 0 information is modeled in light Absent. Therefore, it is considered that there is room for improvement in voice quality.

本発明は、スペクトル包絡情報とF0情報の依存関係を明にモデル化し、従来よりも品質の高い音声を合成する音声合成装置、そのための音響モデルを学習する音響モデル学習装置、その方法、及びプログラムを提供することを目的とする。 The present invention explicitly models the dependency between spectrum envelope information and F 0 information, and synthesizes speech with higher quality speech than before, an acoustic model learning apparatus for learning an acoustic model therefor, and a method therefor The purpose is to provide a program.

上記の課題を解決するために、本発明の一態様によれば、音響モデル学習装置は、学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、N個の基本周波数情報fL,nと、N個の言語特徴量ベクトルlL,nと、N個の学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む。 In order to solve the above problems, according to one aspect of the present invention, the acoustic model learning device sets the total number of learning speech data to N and N is any integer of 1 or more, n = 1, 2 , ..., N, N pieces of fundamental frequency information f L, n respectively indicating the fundamental frequencies of the N pieces of learning speech data, and N pieces of contexts of the N pieces of learning speech data respectively represented by numerical vectors A fundamental frequency generation model learning unit that learns a fundamental frequency generation model using a linguistic feature vector as an input and a corresponding fundamental frequency information as an output using a linguistic feature vector l L, n, and N fundamental frequencies Using fundamental information f L, n , N language feature vectors l L, n, and spectral envelope information s L, n respectively indicating the spectral envelopes of N training speech data, fundamental frequency information and language A feature quantity vector is an input, and spectral envelope information is an output And a spectral envelope generation model learning unit for learning a spectral envelope generation model.

上記の課題を解決するために、本発明の他の態様によれば、音響モデル学習方法は、学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習ステップと、N個の基本周波数情報fL,nと、N個の言語特徴量ベクトルlL,nと、N個の学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習ステップとを含む。 In order to solve the above problems, according to another aspect of the present invention, in the acoustic model learning method, the total number of learning speech data is N, and N is any integer of 1 or more, n = 1, N pieces of fundamental frequency information f L, n indicating the fundamental frequencies of N pieces of learning voice data, and N pieces of contexts of N pieces of learning voice data represented by numerical vectors Basic frequency generation model learning step of learning a fundamental frequency generation model using a language feature vector as an input and a corresponding fundamental frequency information as an output using the language feature vector l L, n of N, and N basics By using frequency information f L, n , N language feature vectors l L, n, and spectral envelope information s L, n respectively indicating the spectral envelope of N learning speech data, basic frequency information and Inputs linguistic feature vectors and outputs spectral envelope information And a spectral envelope generation model learning step of learning a spectral envelope generation model.

本発明によれば、従来よりも品質の高い音声を合成することができるという効果を奏する。   According to the present invention, it is possible to synthesize speech of higher quality than before.

従来技術に係る音響モデル学習装置の機能ブロック図。The functional block diagram of the acoustic model learning apparatus which concerns on a prior art. 従来技術に係る音声合成装置の機能ブロック図。The functional block diagram of the speech synthesizer concerning a prior art. 第一実施形態に係る音響モデル学習装置の機能ブロック図。1 is a functional block diagram of an acoustic model learning device according to a first embodiment. 第一実施形態に係る音響モデル学習装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the acoustic model learning apparatus which concerns on 1st embodiment. 第一実施形態に係る音声合成装置の機能ブロック図。FIG. 1 is a functional block diagram of a speech synthesizer according to a first embodiment. 第一実施形態に係る音声合成装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the speech synthesizer concerning 1st embodiment. 第二実施形態に係る音響モデル学習装置の機能ブロック図。The functional block diagram of the acoustic model learning apparatus which concerns on 2nd embodiment. 第二実施形態に係る音響モデル学習装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the acoustic model learning apparatus which concerns on 2nd embodiment. 第二実施形態に係る音声合成装置の機能ブロック図。FIG. 7 is a functional block diagram of a speech synthesis device according to a second embodiment. 第二実施形態に係る音声合成装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the speech synthesizer concerning 2nd embodiment. 第三実施形態に係る音響モデル学習装置の機能ブロック図。The functional block diagram of the acoustic model learning apparatus which concerns on 3rd embodiment. 第三実施形態に係る音響モデル学習装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the acoustic model learning apparatus which concerns on 3rd embodiment. 第三実施形態に係る音声合成装置の機能ブロック図。The functional block diagram of the speech synthesizer concerning a third embodiment. 第三実施形態に係る音声合成装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the speech synthesizer concerning 3rd embodiment. 第四実施形態に係る音響モデル学習装置の機能ブロック図。The functional block diagram of the acoustic model learning apparatus which concerns on 4th embodiment. 第四実施形態に係る音響モデル学習装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the acoustic model learning apparatus which concerns on 4th embodiment. 第四実施形態に係る音声合成装置の機能ブロック図。The functional block diagram of the speech synthesizer concerning a fourth embodiment. 第四実施形態に係る音声合成装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the speech synthesizer concerning 4th embodiment.

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。   Hereinafter, embodiments of the present invention will be described. In the drawings used in the following description, the same reference numerals are given to constituent parts having the same functions and steps for performing the same processing, and redundant description will be omitted. In the following description, the processing performed for each element of a vector or matrix is applied to all elements of that vector or matrix unless otherwise noted.

<第一実施形態のポイント>
本実施形態では、スペクトル包絡情報を生成するDNNの入力に、F0情報を活用する。音声合成器の入力として、読み、アクセントなどの従来のコンテキストに加え、F0情報を活用し、対応するF0情報を反映したスペクトル包絡情報を出力するようにDNNを構成する。このような構成により、F0情報との依存関係を反映したスペクトル包絡情報を生成することが可能となる。生成されたスペクトル包絡情報とF0情報の依存関係が満たされることで、合成音声の自然性が向上する。
<Point of the first embodiment>
In the present embodiment, the F 0 information is utilized for the input of the DNN that generates the spectral envelope information. The DNN is configured to utilize the F 0 information as input to the speech synthesizer, in addition to the conventional contexts such as reading and accent, and to output spectral envelope information reflecting the corresponding F 0 information. With such a configuration, it is possible to generate spectrum envelope information that reflects the dependency with the F 0 information. The naturalness of the synthesized speech is improved by satisfying the dependency between the generated spectral envelope information and the F 0 information.

<全体構成>
本実施形態は、音響モデル学習装置110および音声合成装置120から構成される。図3,4,5,6は、それぞれ音響モデル学習装置110の機能ブロック図、その処理フローを示す図、音声合成装置120の機能ブロック図、その処理フローを示す図である。
<Overall configuration>
The present embodiment includes an acoustic model learning device 110 and a speech synthesis device 120. FIGS. 3, 4, 5 and 6 are functional block diagrams of the acoustic model learning device 110, a process flow thereof, a functional block diagram of the speech synthesizer 120, and a process flow thereof.

音響モデル学習装置110では、F0データ{f1,f2,…,fN}、スペクトル包絡データ{s1,s2,…,sN}、コンテキストデータ{t1,t2,…,tN}を用いて、F0生成DNN(図中、DNNfとも記載する)およびスペクトル包絡生成DNN(図中、DNNsとも記載する)を学習する。 In the acoustic model learning device 110, F 0 data {f 1 , f 2 ,..., F N }, spectrum envelope data {s 1 , s 2 ,..., S N }, context data {t 1 , t 2 ,. Using t N }, the F 0 generation DNN (also described as DNN f in the figure) and the spectral envelope generation DNN (also described as DNN s in the figure) are learned.

音声合成装置120では、入力テキストtexoのテキスト解析・言語特徴量ベクトル抽出から得られる言語特徴量ベクトルlo、およびF0生成DNNから、F0情報foを生成する。次に、言語特徴量ベクトルlo、生成されたF0情報fo、およびスペクトル包絡生成DNNからスペクトル包絡情報soを生成する。 In the speech synthesis device 120, the input text tex o text analysis and speech feature quantity linguistic feature obtained from vector extraction amount vector l o, and the F 0 generation DNN, generates an F 0 information f o. Next, spectral envelope information s o is generated from the language feature vector l o , the generated F 0 information f o , and the spectral envelope generation DNN.

<用語、使用するデータに関する説明>
・F0データ、スペクトル包絡データ
F0データ、スペクトル包絡データは、それぞれ、音響モデル学習に使用する音声データ(以下、学習用音声データともいう)の音声信号に対して信号処理を行った結果得られる、各発話のF0情報(音高)fn、スペクトル包絡情報(ケプストラム、メルケプストラム等)snをそれぞれ学習用音声データの総数N個分保持したデータである。コンテキストデータ中の発話数Nを用いて、F0データを{f1,f2,…,fN}、スペクトル包絡データを{s1,s2,…,sN}で表現する。
<Terminology, Description of Data to be Used>
・ F 0 data, spectrum envelope data
F 0 data, the spectral envelope data, respectively, the audio data (hereinafter, also referred to as training speech data) to be used in the acoustic model training obtained as a result of performing the signal processing on the audio signal, F 0 information of each utterance a (pitch) f n, spectral envelope information (cepstrum, Mel cepstrum, etc.) n total amount held data of each training speech data s n. Using utterances number N in the context data, the F 0 data {f 1, f 2, ... , f N}, {s 1, s 2, ..., s N} the spectral envelope data is expressed by.

例えば、F0情報fnは、N個の学習用音声データのうちのn番目の学習用音声データの時間長をTnフレームとした場合、各フレーム時刻の音高の情報を保持したデータであり、1×Tn次元の実ベクトルとする。または、有声/無声の情報を含む2×Tn次元の実ベクトルとしてもよい。
例えば、スペクトル包絡情報snは、n番目の学習用音声データの各フレーム時刻の音韻の情報を保持したデータであり、抽出されたケプストラム、メルケプストラムの低次元のみを抽出して利用してもよい。発話nの時間長をTnフレームとした場合、例えば、M次元のメルケプストラムを使用して、M×Tn次元の実ベクトル等とする。
For example, when the time length of the n-th learning speech data of the N pieces of learning speech data is T n frames, the F 0 information f n is data holding pitch information of each frame time. There is a 1 × T n- dimensional real vector. Alternatively, it may be a 2 × T n- dimensional real vector including voiced / unvoiced information.
For example, the spectral envelope information s n is data holding phonological information of each frame time of the n-th training speech data, and even if only low dimensions of the extracted cepstrum and mel cepstrum are extracted and used Good. When the time length of the utterance n is T n frames, for example, an M-dimensional mel cepstrum is used to form an M × T n- dimensional real vector or the like.

・コンテキストデータ
コンテキストデータは、学習用音声データのコンテキスト(発話情報)を学習用音声データの総数N個分保持したデータである。例えば、コンテキストデータを{t1,t2,…,tN}で表現する。
例えば、コンテキストtnは、n番目の学習用音声データについて付与された発音等の情報である。コンテキストには、音素情報(発音情報)とアクセント情報(アクセント型、アクセント句長)を含んでいる必要がある。コンテキストとして、これ以外にも品詞情報等も含んでいてもよい。また、各音素の開始時間、終了時間の情報(音素セグメンテーション情報)が保存されていてもよい。
Context Data Context data is data in which the context (speech information) of learning speech data is held for the total number N of learning speech data. For example, context data is represented by {t 1 , t 2 ,..., T N }.
For example, the context t n is information such as pronunciation given to the n-th learning speech data. The context needs to include phoneme information (pronunciation information) and accent information (accent type, accent phrase length). As a context, part-of-speech information may be included in addition to this. In addition, information on the start time and end time of each phoneme (phoneme segmentation information) may be stored.

・言語特徴量ベクトル
言語特徴量ベクトルlnは、コンテキストtnを数値ベクトルで表現したものである。例えば、非特許文献1のように、音素情報、アクセント情報をそれぞれ1-of-K表現し、さらに文長などの数値情報と連結し得られる数値ベクトルとする。当該発話の時間長をTnフレームとした場合、例えばフレーム辺りK次元のベクトルを使用し、言語特徴量ベクトルlnとして、K×Tn次元の実ベクトルを使用する。
言語特徴量ベクトルデータは、コンテキストデータ{t1,t2,…,tN}に含まれる各発話について、対応する言語特徴量ベクトルlnを保持したものである。コンテキストデータ中の発話数Nを用いて、{l1,l2,…,lN}として表現する。
Language Feature Amount Vector The language feature amount vector l n is the context t n represented by a numerical vector. For example, as in Non-Patent Document 1, the phoneme information and the accent information are each represented by 1-of-K, and further, they are combined with numerical information such as a sentence length to obtain a numerical vector. If the time length of the utterance is T n frames, for example, a K-dimensional vector around a frame is used, and a K × T n- dimensional real vector is used as the language feature vector l n .
The linguistic feature quantity vector data holds corresponding linguistic feature quantity vectors l n for each utterance included in the context data {t 1 , t 2 ,..., T N }. Expressing as {l 1 , l 2 ,..., L N } using the number of utterances N in the context data.

・言語特徴量・F0ベクトル
言語特徴量・F0ベクトルは、言語特徴量ベクトルlnとF0情報fnの双方の情報を保持したベクトルである。例えば、言語特徴量ベクトルlnとF0情報fnとを連結し、xn=[ln T,fn T]Tとして作成する。
言語特徴量・F0ベクトルデータは、N個の学習用音声データに含まれる各学習用音声データについて、言語特徴量・F0ベクトルxnを抽出し、データとして保持したものである。コンテキストデータ中の発話数Nを用いて、{x1,x2,…,xN}で表現する。
Language Feature Value F 0 Vector The language feature value F 0 vector is a vector holding information of both the language feature value vector l n and the F 0 information f n . For example, the language feature vector l n and the F 0 information f n are connected to create x n = [l n T , f n T ] T.
The language feature amount · F 0 vector data is obtained by extracting the language feature amount · F 0 vector x n from each of the learning speech data included in the N pieces of learning speech data, and holding it as data. It is represented by {x 1 , x 2 ,..., X N } using the number of utterances N in the context data.

<第一実施形態に係る音響モデル学習装置110>
F0データ、スペクトル包絡データ、コンテキストデータから音響モデル学習を行い、DNN音響モデルを出力する。従来手法のアルゴリズムと異なる点は、(1)言語特徴量・F0ベクトルデータを作成する点、(2)F0のみを生成するF0生成DNNを学習する点、(3)スペクトル包絡の生成のために言語特徴量のみでなくF0情報も活用するため、スペクトル包絡生成DNNの入力として言語特徴量・F0ベクトルデータを使用する点である。
<Acoustic Model Learning Device 110 According to First Embodiment>
Perform acoustic model learning from the F 0 data, spectral envelope data, and context data, and output a DNN acoustic model. Is different from the algorithm of the conventional method points, (1) the point of creating a language feature value · F 0 vector data, a point to learn the F 0 generation DNN to generate only (2) F 0, the generation of (3) the spectral envelope In order to utilize not only the language feature but also the F 0 information, the language feature / F 0 vector data is used as an input of the spectral envelope generation DNN.

図3は第一実施形態に係る音響モデル学習装置110の機能ブロック図を、図4はその処理フローを示す。
例えば、この音響モデル学習装置110は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音響モデル学習装置110は、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル学習部114とを含む。以下、各部の処理内容を説明する。
FIG. 3 shows a functional block diagram of the acoustic model learning device 110 according to the first embodiment, and FIG. 4 shows its processing flow.
For example, the acoustic model learning device 110 is configured of a computer including a CPU, a RAM, and a ROM storing a program for executing the following processing, and is functionally configured as follows: . The acoustic model learning device 110 includes a language feature vector data generation unit 111, a language feature / F 0 vector data generation unit 112, an F 0 generation model learning unit 113, and a spectrum envelope generation model learning unit 114. The processing content of each part will be described below.

<言語特徴量ベクトルデータ作成部111>
言語特徴量ベクトルデータ作成部111は、コンテキストデータ{t1,t2,…,tN}を入力とし、各発話のコンテキストtnに対し言語特徴量ベクトルlnを作成し(S111)、その結果を言語特徴量ベクトルデータ{l1,l2,…,lN}として保持する。
<Language feature vector data creation unit 111>
The language feature vector data creation unit 111 receives context data {t 1 , t 2 ,..., T N } and creates a language feature vector l n for the context t n of each utterance (S 111). The result is held as language feature vector data {l 1 , l 2 ,..., L N }.

<言語特徴量・F0ベクトルデータ作成部112>
言語特徴量・F0ベクトルデータ作成部112は、F0データ{f1,f2,…,fN}と言語特徴量ベクトルデータ{l1,l2,…,lN}とを入力とし、n番目の学習用音声データに対応する言語特徴量ベクトルlnとF0情報fnとを連結し、言語特徴量・F0ベクトルxn=[ln T,fn T]Tとして作成し、N発話分に対して同様の処理を行い、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}を作成し(S112)、保持する。
<Language Feature Value / F 0 Vector Data Creation Unit 112>
Linguistic feature quantity · F 0 vector data creating unit 112, F 0 data {f 1, f 2, ... , f N} language feature vector data {l 1, l 2, ... , l N} as input and , Lin the language feature vector l n corresponding to the n-th training speech data and the F 0 information f n, and create as the language feature quantity · F 0 vector x n = [l n T , f n T ] T Then, the same processing is performed for N utterances, and the language feature amount / F 0 vector data {x 1 , x 2 ,..., X N } are created (S 112) and held.

<F0生成モデル学習部113>
F0生成モデル学習部113は、言語特徴量ベクトルデータ{l1,l2,…,lN}とF0データ{f1,f2,…,fN}とを入力とし、これらのデータを用いて、言語特徴量ベクトルを入力とし、対応するF0情報を出力とするDNN(以下、F0生成モデルともいい、図中、DNNfとも記載する)を学習し(S113)、保持する。F0生成モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、入出力で使用するベクトルを除いて、学習方法・モデル構成等は非特許文献1と同様とする。
<F 0 Generation Model Learning Unit 113>
F 0 generation model learning unit 113, the language feature vector data {l 1, l 2, ... , l N} and F 0 data {f 1, f 2, ... , f N} as input and these data Learn a DNN (hereinafter also referred to as an F 0 generation model, also described as DN N f in the figure) that takes a language feature amount vector as an input and an output corresponding F 0 information using (S 113), and holds . Any existing technique may be used as a learning method of the F 0 generation model. For example, except for vectors used for input and output, the learning method, model configuration, and the like are the same as in Non-Patent Document 1.

<スペクトル包絡生成モデル学習部114>
スペクトル包絡生成モデル学習部114は、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}とスペクトル包絡データ{s1,s2,…,sN}とを入力とし、これらのデータを用いて、言語特徴量・F0ベクトルを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成DNN(以下、スペクトル包絡生成モデルともいい、図中、DNNsとも記載する)を学習する(S114)。スペクトル包絡生成モデルの学習方法としては、既存の如何なる技術を用いてもよい。例えば、入出力で使用するベクトルを除いて、学習方法・モデル構成等は非特許文献1と同様とする。
<Spectrum envelope generation model learning unit 114>
Spectral envelope generator model learning unit 114, the language characteristic quantity · F 0 vector data {x 1, x 2, ... , x N} and spectral envelope data {s 1, s 2, ... , s N} as input and, These data are used to learn a spectral envelope generation DNN (hereinafter also referred to as a spectral envelope generation model, also described as DNN s in the figure), which receives as input a linguistic feature and an F 0 vector, and outputs spectral envelope information. (S114). Any existing technique may be used as a learning method of the spectral envelope generation model. For example, except for vectors used for input and output, the learning method, model configuration, and the like are the same as in Non-Patent Document 1.

<第一実施形態に係る音声合成装置120>
音声合成装置120は、合成するテキストtexoから、合成音声zoを生成する。従来手法のアルゴリズムと異なる点は、F0生成DNNから、F0情報fnのみを生成し、スペクトル包絡生成DNNからスペクトル包絡情報soを生成する際に、言語特徴量lnと併せてF0情報fnを使用する点である。
<Speech synthesizer 120 according to the first embodiment>
The speech synthesizer 120 generates synthesized speech z o from the text tex o to be synthesized. Conventional approaches algorithm differs from F 0 generation DNN, generates only F 0 information f n, in generating the spectral envelope information s o from the spectrum envelope generating DNN, together with linguistic feature quantity l n F 0 information f n is used.

図5は第一実施形態に係る音声合成装置120の機能ブロック図を、図6はその処理フローを示す。   FIG. 5 shows a functional block diagram of the speech synthesizer 120 according to the first embodiment, and FIG. 6 shows its processing flow.

例えば、この音声合成装置120は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。音声合成装置120は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125とを含む。以下、各部の処理内容を説明する。 For example, the voice synthesizer 120 is configured by a computer including a CPU, a RAM, and a ROM storing a program for executing the following processing, and is functionally configured as follows. The speech synthesizer 120 includes a text analysis unit 121, a language feature vector extraction unit 122, an F 0 generation unit 123, a language feature / F 0 vector generation unit 124B, a spectrum envelope generation unit 124, and an audio waveform generation. And a section 125. The processing content of each part will be described below.

<テキスト解析部121>
テキスト解析部121は、音声合成の対象となるテキストtexoを入力とし、テキストtexoをテキスト解析し(S121)、コンテキストtoを得る。
<Text Analysis Unit 121>
The text analysis unit 121 takes as input the text tex o to be subjected to speech synthesis, analyzes the text tex o as text (S121), and obtains the context t o .

<言語特徴量ベクトル抽出部122>
言語特徴量ベクトル抽出部122は、コンテキストtoを入力とし、コンテキストtoに対応する言語特徴量ベクトルloを抽出し(S122)、出力する。
<Language feature vector extraction unit 122>
The language feature vector extraction unit 122 receives the context t o as an input, extracts the language feature vector l o corresponding to the context t o (S 122), and outputs it.

<F0生成部123>
F0生成部123は、音声合成に先立ち予めF0生成モデルDDNfを受け取っておく。音声合成時には、F0生成部123は、言語特徴量ベクトルloを入力とし、F0生成モデルDDNfの順伝播を行い、出力ベクトルを、F0情報foとして出力する(S123)。なお、F0情報foは、テキストtexoに対応する音声波形の基本周波数を示す情報である。
<F 0 generation unit 123>
The F 0 generation unit 123 receives the F 0 generation model DDN f in advance prior to speech synthesis. At the time of speech synthesis, the F 0 generation unit 123 receives the language feature quantity vector lo as input, performs forward propagation of the F 0 generation model DDN f , and outputs an output vector as F 0 information f o (S 123). Incidentally, F 0 information f o is information showing the basic frequency of the voice waveform corresponding to the text tex o.

<言語特徴量・F0ベクトル作成部124B>
言語特徴量・F0ベクトル作成部124Bは、言語特徴量ベクトルloとF0情報foとを入力とし、言語特徴量ベクトルloとF0情報foとを連結し、言語特徴量・F0ベクトルxo=[lo T,fo T]Tとして作成し(S124B)、出力する。
<Language Feature Value / F 0 Vector Creation Unit 124 B>
Linguistic feature quantity-F 0 vector creation section 124B receives as input the language feature vector l o and F 0 information f o, connects the language feature vector l o and F 0 information f o, linguistic feature quantity and It is created as an F 0 vector x o = [l o T , f o T ] T (S 124 B) and output.

<スペクトル包絡生成部124>
スペクトル包絡生成部124は、音声合成に先立ち予めスペクトル包絡生成モデルDDNsを受け取っておく。スペクトル包絡生成部124は、言語特徴量・F0ベクトルxoを入力とし、スペクトル包絡生成モデルDDNsの順伝播を行い、出力ベクトルを、スペクトル包絡情報soとして、出力する(S124)。なお、スペクトル包絡情報soは、テキストtexoに対応する音声波形のスペクトル包絡情報を示す情報である。
<Spectrum envelope generation unit 124>
The spectrum envelope generation unit 124 receives the spectrum envelope generation model DDN s in advance prior to speech synthesis. Spectrum envelope generating unit 124 inputs the linguistic feature quantity · F 0 vector x o, performs forward propagation of the spectral envelope generating model DDN s, the output vector, as the spectral envelope information s o, and outputs (S124). Incidentally, the spectral envelope information s o is information indicating the spectral envelope information of a speech waveform corresponding to the text tex o.

<音声波形生成部125>
音声波形生成部125は、F0情報foとスペクトル包絡情報soとを受け取り、これらの値を用いて、テキストtexoに対応する音声波形(合成音声zo)を生成し(S125)、出力する。音声波形生成の前に、例えば、maximum likelihood generation (MLPG) アルゴリズム(参考文献1参照)を用いて時間方向に平滑化された音声パラメータ系列を得てもよい。また、音声波形生成には、例えば(参考文献2)を用いてもよい。
[参考文献1]益子他,“動的特徴を用いたHMMに基づく音声合成”,信学論,vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.
[参考文献2]今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.
<Voice waveform generation unit 125>
The speech waveform generation unit 125 receives the F 0 information f o and the spectral envelope information s o and generates a speech waveform (synthesized speech z o ) corresponding to the text tex o using these values (S 125), Output. Prior to speech waveform generation, for example, a speech parameter sequence smoothed in the time direction may be obtained using a maximum likelihood generation (MLPG) algorithm (see reference 1). Further, for example, (Reference 2) may be used for speech waveform generation.
[Reference 1] Masuko et al., "HMM-based speech synthesis using dynamic features," Theory of philosophy, vol. J79-D-II, no. 12, pp. 2184-2190, Dec. 1996.
[Reference 2] Imai et al., "Mel log spectral approximation (MLSA) filter for speech synthesis", Transactions of the Institute of Electronics, Information and Communication Engineers A Vol. J66-A No. 2 pp. 122-129, Feb. 1983.

<効果>
以上の構成により、音声合成器の入力として、読み、アクセントなどの従来のコンテキストに加え、F0情報を反映したスペクトル包絡情報を出力するようスペクトル包絡生成DNNを構成する。これにより、F0情報との依存関係を満たすスペクトル包絡情報を生成することが可能となる。これにより、合成音声の品質が向上する。
<Effect>
With the above configuration, as the input speech synthesizer, read, in addition to the conventional context, such as accents, constituting the spectrum envelope generation DNN to output the spectral envelope information reflecting the F 0 information. This makes it possible to generate spectral envelope information that satisfies the dependency relationship with the F 0 information. This improves the quality of the synthesized speech.

<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
Second Embodiment
Description will be made focusing on parts different from the first embodiment.

第一実施形態において、スペクトル包絡生成DNNの入力として、極端に高いF0、極端に低いF0が使用される場合がある。その場合、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が不安定となり、合成音声の品質が劣化する可能性がある。 In the first embodiment, extremely high F 0 and extremely low F 0 may be used as the input of the spectral envelope generation DNN. In that case, the spectral envelope information generated from the spectral envelope generation DNN may become unstable and the quality of the synthesized speech may be degraded.

この課題点に対し、本実施形態では、スペクトル包絡生成DNNの入力として、F0情報をある有界の関数F(x)に入力した際の出力値を使用する。スペクトル包絡生成DNNの入力が有界となることで、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が安定し、合成音声の品質が向上する。 In order to solve this problem, in this embodiment, an output value when F 0 information is input to a bounded function F (x) is used as an input of the spectral envelope generation DNN. The fact that the input of the spectral envelope generation DNN is bounded stabilizes the spectral envelope information generated from the spectral envelope generation DNN and improves the quality of the synthesized speech.

本実施形態は、第一実施形態と比較し、言語特徴量・F0ベクトル(データ)作成部の前段にF0変換部があり、F0情報を変換する点が異なる。 This embodiment, compared to the first embodiment, there are F 0 conversion unit in front of the linguistic feature quantity · F 0 vector (data) creating unit, that converts the F 0 information is different.

<用語、使用するデータに関する説明>
・言語特徴量・変換F0ベクトル
本実施形態における言語特徴量・変換F0ベクトルは、言語特徴量ベクトルlnとF0情報fnの双方の情報を保持したベクトルである。F0値変換した出力を使用する点が第一実施形態と異なる。例えば、言語特徴量ベクトルlnと変換後のF0情報fn (1)の二つのベクトルを連結し、xn=[ln T,fn (1)T]Tとして作成する。
<Terminology, Description of Data to be Used>
· Linguistic feature quantity and converting F 0 vector linguistic feature quantity and converting F 0 vector in the present embodiment is a vector which holds both the information of the language feature vector l n and F 0 information f n. The point which uses the output which carried out F 0 value conversion differs from a 1st embodiment. For example, two vectors of the language feature vector l n and the converted F 0 information f n (1) are connected to create x n = [l n T , f n (1) T ] T.

<第二実施形態に係る音響モデル学習装置210>
図7は第二実施形態に係る音響モデル学習装置210の機能ブロック図を、図8はその処理フローを示す。
音響モデル学習装置210は、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル学習部114と、F0変換部215とを含む。
<Sound Model Learning Device 210 According to Second Embodiment>
FIG. 7 shows a functional block diagram of the acoustic model learning device 210 according to the second embodiment, and FIG. 8 shows its processing flow.
The acoustic model learning device 210 includes a language feature vector data generation unit 111, a language feature / F 0 vector data generation unit 112, an F 0 generation model learning unit 113, a spectrum envelope generation model learning unit 114, and F 0. And a conversion unit 215.

<F0変換部215>
F0変換部215は、F0データ{t1,t2,…,tN}を入力とし、有界のベクトル関数F(fn)を用いて、F0データ{f1,f2,…,fN}を変換し(S215)、変換後のF0データ{f1 (1),f2 (1),…,fN (1)}を出力する。例えば、F0情報fnのフレーム長をTnフレームとし、fn=[fn1,fn2,…,fnT_n]Tとしたとき、F(fn)=[G(fn1)、G(fn2)、…、G(fnT_n)]Tとする。ただし、下付き添え字T_nは、Tnを意味する。ここで、Gは有界のスカラー関数である。例えば、Gとして、sigmoid関数

Figure 0006542823
を使用する。 <F 0 conversion unit 215>
The F 0 conversion unit 215 receives F 0 data {t 1 , t 2 ,..., T N } as input, and uses bounded vector function F (f n ) to obtain F 0 data {f 1 , f 2 , , F N } is converted (S 215), and the converted F 0 data {f 1 (1) , f 2 (1) ,..., F N (1) } are output. For example, assuming that the frame length of the F 0 information f n is T n frame and f n = [f n1 , f n2 ,..., F nT_n ] T , F (f n ) = [G (f n1 ), G (f n2 ),..., G (f n T — n )] T. However, the subscript T_n means T n . Here, G is a bounded scalar function. For example, as G, sigmoid function
Figure 0006542823
Use

なお、言語特徴量・F0ベクトルデータ作成部112は、F0データ{f1,f2,…,fN}に代えて、変換後のF0データ{f1 (1),f2 (1),…,fN (1)}を用いる。他の構成は第一実施形態と同様である。 Note that the language feature value / F 0 vector data creation unit 112 substitutes the converted F 0 data {f 1 (1) , f 2 (in place of the F 0 data {f 1 , f 2 ,..., F N } ) . 1) , ..., f N (1) } is used. The other configuration is the same as that of the first embodiment.

<第二実施形態に係る音声合成装置220>
図9は第二実施形態に係る音声合成装置220の機能ブロック図を、図10はその処理フローを示す。
音声合成装置220は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部224Aとを含む。
<Speech synthesizer 220 according to the second embodiment>
FIG. 9 shows a functional block diagram of the speech synthesizer 220 according to the second embodiment, and FIG. 10 shows its processing flow.
The speech synthesis unit 220 includes a text analysis unit 121, a language feature vector extraction unit 122, an F 0 generation unit 123, a language feature / F 0 vector generation unit 124B, a spectrum envelope generation unit 124, and an audio waveform generation. Unit 125 and an F 0 conversion unit 224A.

<F0変換部224A>
F0変換部224Aは、F0情報foとを入力とし、有界のベクトル関数F(fn)を用いて、F0情報foを変換し(S224A)、変換後のF0情報fo (1)を出力する。変換方法としては、F0変換部215と対応する方法を用いればよい。
なお、言語特徴量・F0ベクトル作成部124Bは、F0情報foに代えて、変換後のF0情報fo (1)を用いる。他の構成は第一実施形態と同様である。
<F 0 conversion unit 224A>
The F 0 conversion unit 224 A receives the F 0 information f o and uses the bounded vector function F (f n ) to convert the F 0 information f o (S 224 A), and the converted F 0 information f o Output (1) . As a conversion method, a method corresponding to the F 0 conversion unit 215 may be used.
Incidentally, the language characteristic quantity · F 0 vector generating unit 124B has, F 0 instead of the information f o, using F 0 information f o (1) after the conversion. The other configuration is the same as that of the first embodiment.

<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、スペクトル包絡生成DNNから生成されるスペクトル包絡情報が安定し、合成音声の品質が向上する。なお、第二実施形態では、用いるF0データ、F0情報を限定しており、第一実施形態を限定したものとも言える。
<Effect>
With such a configuration, the same effect as that of the first embodiment can be obtained. Furthermore, the spectral envelope information generated from the spectral envelope generation DNN is stabilized, and the quality of synthesized speech is improved. In the second embodiment, the F 0 data and the F 0 information to be used are limited, and it can be said that the first embodiment is limited.

<第三実施形態>
第二実施形態と異なる部分を中心に説明する。
Third Embodiment
Description will be made focusing on parts different from the second embodiment.

第二実施形態においては、ベクトル関数F(x)として固定された一つの関数を使用する。一方、学習データから、スペクトル包絡生成DNNの入力として適切なベクトル関数F(x)を推定することができれば、より適切にスペクトル包絡情報とF0情報の依存関係がモデル化されると考えられる。 In the second embodiment, one fixed function is used as the vector function F (x). On the other hand, from the learning data, if it is possible to estimate an appropriate vector function F (x) as an input spectrum envelope generating DNN, considered more appropriate dependencies of the spectral envelope information and the F 0 information is modeled.

この課題点に対し、本実施形態では、固定された一つの関数F(x)の替わりに、F0値変換パラメータθ(0)を持つ関数F(x;θ(0))を使用し、学習データを使用してF0値変換パラメータθ(0)を推定する。適切なベクトル関数を学習することで、スペクトル包絡情報とF0情報の依存関係がより柔軟にモデル化され、合成音声品質が向上する。 To solve this problem, in the present embodiment, a function F (x; θ (0) ) having an F 0 value conversion parameter θ (0 ) is used instead of one fixed function F (x), The training data is used to estimate the F 0 value conversion parameter θ (0) . By learning an appropriate vector function, the dependency between the spectral envelope information and the F 0 information can be more flexibly modeled, and the synthetic speech quality can be improved.

<用語、使用するデータに関する説明>
・F0値変換パラメータ
F0値変換パラメータは、パラメトリックF0値変換において使用するパラメータであり、θ(0)で表現する。
<Terminology, Description of Data to be Used>
・ F 0 value conversion parameter
The F 0 value conversion parameter is a parameter used in parametric F 0 value conversion, and is expressed by θ (0) .

・パラメトリック変換F0情報
パラメトリック変換F0情報は、パラメトリックF0値変換により出力される実数値である。fn (2)で表現する。
Parametric Transform F 0 Information The parametric transform F 0 information is a real value output by parametric F 0 value transformation. Expressed by f n (2) .

・言語特徴量・パラメトリック変換F0ベクトル
言語特徴量・パラメトリック変換F0ベクトルは、言語特徴量ベクトルlnと、パラメトリック変換F0情報fn (2)から得られるベクトルである。xnで表現する。例えば、言語特徴量ベクトルlnと、パラメトリック変換F0情報fn (2)を連結し、xn=[ln T,fn (2)T]Tとして作成する。
Language Feature Value Parametric Conversion F 0 Vector The language feature value parametric conversion F 0 vector is a vector obtained from the language feature value vector l n and parametric conversion F 0 information f n (2) . Expressed by x n . For example, the language feature vector l n and the parametric conversion F 0 information f n (2) are connected to create x n = [l n T , f n (2) T ] T.

・パラメトリックF0値変換
F0情報fn、F0値変換パラメータθ(0)、F0値変換関数F(x;θ(0))を用いて、パラメトリック変換F0情報fn (2)を出力する。この際、F(x;θ(0))として、値域が有界なベクトルを使用する。また、DNNの誤差逆伝播によるθ(0)の学習を可能とするため、F(x;θ(0))の出力値がθ(0)について微分可能である関数を使用する。例えば、F0情報fnのフレーム長をTnフレームとし、fn=[fn1,fn2,…,fnT_n]T、F(fn(0))=[G(fn1(0)),G(fn2(0)),…,G(fnT_n(0))]Tとしたとき、パラメトリックなsigmoid関数

Figure 0006542823
を使用する。または、ベクトル関数F(x;θ(0))を、xを入力ベクトル、θ(0)をパラメータとするニューラルネットワークとしてもよい。 ・ Parametric F 0 value conversion
Parametric conversion F 0 information f n (2) is output using F 0 information f n , F 0 value conversion parameter θ (0) , and F 0 value conversion function F (x; θ (0) ). At this time, a vector whose value range is bounded is used as F (x; θ (0) ). Also, in order to enable learning of θ (0) by error back propagation of DNN, a function is used in which the output value of F (x; θ (0) ) is differentiable with respect to θ (0) . For example, the frame length F 0 information f n and T n frame, f n = [f n1, f n2, ..., f nT_n] T, F (f n; θ (0)) = [G (f n1; Let θ (0) , G (f n2 ; θ (0) ), ..., G (f nT_n ; θ (0) )] T , then the parametric sigmoid function
Figure 0006542823
Use Alternatively, the vector function F (x; θ (0) ) may be a neural network using x as an input vector and θ (0) as a parameter.

<第三実施形態に係る音響モデル学習装置310>
図11は第三実施形態に係る音響モデル学習装置310の機能ブロック図を、図12はその処理フローを示す。
<Sound Model Learning Device 310 According to Third Embodiment>
FIG. 11 shows a functional block diagram of the acoustic model learning device 310 according to the third embodiment, and FIG. 12 shows its process flow.

音響モデル学習装置310は、スペクトル包絡データ、F0データ、コンテキストデータから、スペクトル包絡生成DNN学習・F0値変換パラメータ推定を行い、スペクトル包絡生成DNNおよびF0値変換パラメータを出力する点が第二実施形態と異なる。スペクトル包絡生成DNN学習・F0値変換パラメータ推定では、スペクトル包絡データ、F0データ、言語特徴量ベクトルデータから、スペクトル包絡DNNのF0値変換パラメータを推定する。 The acoustic model learning device 310 performs spectrum envelope generation DNN learning / F 0 value conversion parameter estimation from spectrum envelope data, F 0 data, and context data, and outputs a spectrum envelope generation DNN and F 0 value conversion parameter. It differs from the two embodiments. The spectral envelope generating DNN learning · F 0 value conversion parameter estimation, spectral envelope data, F 0 data, from the language feature vector data, to estimate the F 0 value conversion parameters of the spectral envelope DNN.

音響モデル学習装置310は、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル・変換パラメータ学習部314と、F0変換部315とを含む。 The acoustic model learning device 310 includes a language feature vector data generation unit 111, a language feature / F 0 vector data generation unit 112, an F 0 generation model learning unit 113, a spectrum envelope generation model / conversion parameter learning unit 314, and the like. , F 0 conversion unit 315.

<F0変換部315>
F0変換部315は、学習に先立ち予めF0値変換パラメータθ(0)を初期化しておく。例えば、F0値変換パラメータθ(0)を乱数により初期化する。例えば、F0値変換パラメータθ(0)の初期化は、有界のベクトル関数F(x;θ(0))として、パラメトリックなsigmoid関数を使用する場合、標準正規分布からサンプリングする。
<F 0 conversion unit 315>
Prior to learning, the F 0 conversion unit 315 initializes the F 0 value conversion parameter θ (0) in advance. For example, the F 0 value conversion parameter θ (0) is initialized by a random number. For example, initialization of the F 0 value conversion parameter θ (0) is sampled from a standard normal distribution when using a parametric sigmoid function as a bounded vector function F (x; θ (0) ).

F0変換部315は、学習時においてF0データ{f1,f2,…,fN}を入力とし、F0データ{f1,f2,…,fN}とF0値変換パラメータθ(0)とを用いて、パラメトリックF0値変換を行い(fn (2)=[G(fn1(0)),G(fn2(0)),…,G(fnT_n(0))]、S315)、パラメトリック変換F0データ{f1 (2),f2 (2),…,fN (2)}を求め、出力する。
なお、言語特徴量・F0ベクトルデータ作成部112は、F0データ{f1 (1),f2 (1),…,fN (1)}に代えて、変換後のF0データ{f1 (2),f2 (2),…,fN (2)}を用いる。
F 0 conversion unit 315, F 0 data {f 1, f 2, ... , f N} at the time of learning as input, F 0 data {f 1, f 2, ... , f N} and F 0 value conversion parameters Perform parametric F 0 value conversion using θ (0) and (f n (2) = [G (f n1 ; θ (0) ), G (f n2 ; θ (0) ), ..., G ( f n T — n ; θ (0) ]], S 315) Parametric transformation F 0 data {f 1 (2) , f 2 (2) ,..., f N (2) } are obtained and output.
Note that the language feature value / F 0 vector data creation unit 112 replaces the F 0 data {f 1 (1) , f 2 (1) ,..., F N (1) } with converted F 0 data { Use f 1 (2) , f 2 (2) ,..., f N (2) }.

<スペクトル包絡生成モデル・変換パラメータ学習部314>
スペクトル包絡生成モデル・変換パラメータ学習部314は、F0値変換パラメータθ(0)(初期値)と、言語特徴量・F0ベクトルデータ{x1,x2,…,xN}(ただし、xn=[fn (2)T,ln T]T)とスペクトル包絡データ{s1,s2,…,sN}とを入力とし、これらのデータを用いて、言語特徴量・F0ベクトルを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成DNNとF0値変換パラメータθ(0)を学習し、学習後のスペクトル包絡生成DNNとF0値変換パラメータθ(1)を出力する。例えば、以下のように学習する。
<Spectrum envelope generation model / conversion parameter learning unit 314>
The spectral envelope generation model / conversion parameter learning unit 314 includes the F 0 value conversion parameter θ (0) (initial value) and the language feature amount / F 0 vector data {x 1 , x 2 , ..., x N } (wherein With x n = [f n (2) T , l n T ] T ) and spectral envelope data {s 1 , s 2 ,..., s N } as input, using these data, the language feature amount F 0 vector as an input, learns the spectrum envelope generation DNN and F 0 value conversion parameter theta (0) to output the spectrum envelope information, outputs the spectral envelope generating DNN and F 0 value after learning transformation parameter theta (1) Do. For example, it learns as follows.

(1)言語特徴量・パラメトリック変換F0ベクトルxnをDNNの入力ベクトルとし、DNNを順伝播する。
(2)出力ベクトルzn(n番目の学習用音声データから得られるスペクトル包絡情報)とスペクトル包絡情報snの誤差を計測し、誤差を逆伝播し、DNNのパラメータW、F0値変換パラメータθ(0)の誤差勾配を算出する。ただし、DNNのパラメータWは、学習に先立ち予め乱数により初期化しておく。例えば、Wの乱数初期化は、非特許文献1と同様の方法を用いる。また、誤差関数としては、例えばznとsnの最小二乗誤差を使用する。
(3)誤差勾配に従い、パラメータWとF0値変換パラメータθ(0)を更新する。
(1) Linguistic Feature Parameter-Parametric Transform F 0 Vector x n is an input vector of DNN, and DNN is forward propagated.
(2) Measure the error between the output vector z n (spectral envelope information obtained from the n-th speech data for learning) and the spectral envelope information s n , back propagate the error, and use the parameters W and F 0 value conversion parameters of DNN Calculate the error gradient of θ (0) . However, the parameter W of DNN is initialized in advance by random numbers prior to learning. For example, random number initialization of W uses the same method as in Non-Patent Document 1. Also, as the error function, for example, the least square error of z n and s n is used.
(3) Update parameter W and F 0 value conversion parameter θ (0) according to the error gradient.

F0変換部315における処理(S315)、言語特徴量・F0ベクトルデータ作成部112における処理(S112)、及び上述の(1)〜(3)の処理を収束判定されるまで反復する。
得られた(収束したと判断されたときの)パラメータW、F0値変換パラメータθ(0)をそれぞれ学習後のスペクトル包絡生成DNN、F0値変換パラメータθ(1)として出力する。例えば、収束判定として、反復回数が閾値に達したか、反復ごとの誤差関数の変化が閾値よりも小さくなったか、またはその両方を使用する。
Processing in the F 0 conversion unit 315 (S315), processing in the linguistic feature quantity · F 0 vector data creation unit 112 (S112), and the above-mentioned (1) to repeat ~ the process (3) until the convergence criterion.
The obtained parameter W ( when determined to have converged) and the F 0 value conversion parameter θ (0) are output as learned spectral envelope generation DNN and F 0 value conversion parameter θ (1) , respectively. For example, as the convergence determination, use is made of whether the number of iterations has reached a threshold, the change in error function between iterations has become smaller than the threshold, or both.

<第三実施形態に係る音声合成装置320>
図13は第三実施形態に係る音声合成装置320の機能ブロック図を、図14はその処理フローを示す。
音声合成装置320は、音響モデル学習装置310で得られるF0値変換パラメータθ(1)を使用し、F0情報foを変換する点が第二実施形態と異なる。
音声合成装置320は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部324Aとを含む。
<Speech synthesizer 320 according to the third embodiment>
FIG. 13 shows a functional block diagram of the speech synthesizer 320 according to the third embodiment, and FIG. 14 shows its processing flow.
The voice synthesizer 320 differs from that of the second embodiment in that the F 0 information f o is converted using the F 0 value conversion parameter θ (1) obtained by the acoustic model learning device 310.
The speech synthesizer 320 includes a text analysis unit 121, a language feature vector extraction unit 122, an F 0 generation unit 123, a language feature / F 0 vector generation unit 124B, a spectrum envelope generation unit 124, and an audio waveform generation. Unit 125 and an F 0 conversion unit 324A.

<F0変換部324A>
F0変換部324Aは、F0値変換パラメータθ(1)とF0情報foとを入力とし、F0情報foとF0値変換パラメータθ(1)とを用いて、パラメトリックF0値変換を行い(fo (2)=[G(fo1(1)),G(fo2(1)),…,G(foT_o(1))]、S324A)、パラメトリック変換F0データfo (2)を出力する。このとき、使用する関数F(x;θ(1))は、F0変換部315で使用されるパラメトリックF0値変換と同一のものを使用する。
なお、言語特徴量・F0ベクトル作成部124Bは、変換F0情報fo (1)に代えて、パラメトリック変換F0情報fo (2)を用いる。
<F 0 conversion unit 324A>
The F 0 conversion unit 324 A receives the F 0 value conversion parameter θ (1) and the F 0 information f o as input, and uses the F 0 information f o and the F 0 value conversion parameter θ (1) to obtain a parametric F 0 performs value conversion (f o (2) = [ G (f o1; θ (1)), G (f o2; θ (1)), ..., G (f oT_o; θ (1))], S324A) , Parametric transformation F 0 data f o (2) is output. At this time, the function F (x; θ (1) ) used is the same as the parametric F 0 value conversion used in the F 0 conversion unit 315.
The language feature amount / F 0 vector creation unit 124 B uses parametric conversion F 0 information f o (2) instead of the conversion F 0 information f o (1) .

<効果>
このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、スペクトル包絡情報とF0情報の依存関係がより柔軟にモデル化され、合成音声品質が向上する。
<Effect>
With such a configuration, the same effect as that of the second embodiment can be obtained. Further, dependency of the spectral envelope information and the F 0 information is more flexible model, synthesized speech quality is improved.

<第四実施形態>
第三実施形態と異なる部分を中心に説明する。
Fourth Embodiment
Description will be made focusing on parts different from the third embodiment.

第三実施形態のスペクトル包絡生成DNN学習・F0値変換パラメータ推定において、高品質な音声を合成可能とするためには、パラメータ生成誤差の小さいスペクトル包絡生成DNNを学習できればよい。ここで、勾配法などの初期値に依存するアルゴリズムを利用する場合、スペクトル包絡生成DNNのパラメータ誤差を十分に小さくするためには、適切な初期値を設定する必要があるという課題がある。 In the spectral envelope generation DNN learning / F 0 value conversion parameter estimation of the third embodiment, in order to enable synthesis of high quality speech, it is sufficient to learn a spectral envelope generation DNN having a small parameter generation error. Here, in the case of using an algorithm dependent on an initial value such as the gradient method, there is a problem that an appropriate initial value needs to be set in order to sufficiently reduce the parameter error of the spectral envelope generation DNN.

本実施形態では、F0値変換パラメータの初期値として、第三実施形態のスペクトル包絡生成DNN学習・F0値変換パラメータ推定において推定されたF0値変換パラメータθ(1)を使用する。第三実施形態で推定されたF0値変換パラメータθ(1)は、あるスペクトル包絡生成DNNのパラメータ生成誤差を最小化する基準で決定されたものであるため、それをF0値変換パラメータθ(1)として設定し、再度スペクトル包絡生成DNN学習・F0値変換パラメータ推定を実施することで、さらにパラメータ生成誤差の小さいスペクトル包絡生成DNNを学習可能であると期待される。これにより、より合成音声の品質を向上させる。 In this embodiment, as an initial value of F 0 value conversion parameters, using the spectrum envelope generation DNN learning · F 0 value conversion parameters estimated F 0 value in the estimation conversion parameters in the third embodiment theta (1). Since the F 0 value conversion parameter θ (1) estimated in the third embodiment is determined by a criterion for minimizing the parameter generation error of a certain spectral envelope generation DNN, it is referred to as the F 0 value conversion parameter θ It is expected that, by setting (1) and performing spectrum envelope generation DNN learning / F 0 value conversion parameter estimation again, it is possible to learn spectrum envelope generation DNN with a smaller parameter generation error. This further improves the quality of synthesized speech.

<用語、使用するデータに関する説明>
・再推定パラメトリックF0値変換パラメータ
再推定パラメトリックF0値変換パラメータは、音響モデル学習装置410により得られる、パラメトリックF0値変換のためのパラメータであり、θ(2)と表記する。第三実施形態の学習結果であるパラメトリックF0値変換パラメータθ(1)を初期値として利用し、再推定される点が第三実施形態と異なる。
<Terminology, Description of Data to be Used>
And re-estimating Parametric F 0 value conversion parameter re-estimation parametric F 0 value conversion parameters are obtained by an acoustic model learning unit 410, a parameter for parametric F 0 value conversion, it is referred to as theta (2). The point which is re-estimated using parametric F 0 value conversion parameter theta (1) which is a learning result of a third embodiment as an initial value differs from a third embodiment.

<第四実施形態に係る音響モデル学習装置410>
図15は第三実施形態に係る音響モデル学習装置410の機能ブロック図を、図16はその処理フローを示す。
音響モデル学習装置410は、第三実施形態で得られるF0値変換パラメータθ(1)を初期値として利用して、スペクトル包絡生成DNN学習・F0値変換パラメータ再推定を行い、スペクトル包絡生成DNNと再推定F0値変換パラメータθ(2)を出力する点が第三実施形態と異なる。
<Acoustic Model Learning Device 410 According to Fourth Embodiment>
FIG. 15 shows a functional block diagram of an acoustic model learning device 410 according to the third embodiment, and FIG. 16 shows its processing flow.
The acoustic model learning device 410 performs spectral envelope generation DNN learning / F 0 value conversion parameter re-estimation using the F 0 value conversion parameter θ (1) obtained in the third embodiment as an initial value, and generates a spectrum envelope. The point of outputting DNN and re-estimated F 0 value conversion parameter θ (2) is different from the third embodiment.

音響モデル学習装置410は、音響モデル学習装置310と、言語特徴量ベクトルデータ作成部111と、言語特徴量・F0ベクトルデータ作成部112と、F0生成モデル学習部113と、スペクトル包絡生成モデル・変換パラメータ学習部314と、F0変換部415とを含む。
なお、音響モデル学習装置310は、音響モデル学習装置410の処理に先立ち、第三実施形態で説明した処理を実行し、F0値変換パラメータθ(1)を求め(S310)、出力する。
The acoustic model learning device 410 includes an acoustic model learning device 310, a language feature vector data generation unit 111, a language feature / F 0 vector data generation unit 112, an F 0 generation model learning unit 113, and a spectrum envelope generation model. A conversion parameter learning unit 314 and an F 0 conversion unit 415 are included.
The acoustic model learning device 310 executes the processing described in the third embodiment prior to the processing of the acoustic model learning device 410, obtains the F 0 value conversion parameter θ (1) (S310), and outputs it.

<F0変換部415及びスペクトル包絡生成モデル・変換パラメータ学習部414>
F0変換部415及びスペクトル包絡生成モデル・変換パラメータ学習部414は、学習に先立ち予め、F0値変換パラメータθ(0)に代えて、音響モデル学習装置310の出力値であるF0値変換パラメータθ(1)を初期値として設定する。F0変換部415及びスペクトル包絡生成モデル・変換パラメータ学習部414の処理内容は、それぞれF0変換部315及びスペクトル包絡生成モデル・変換パラメータ学習部314と同様である(S415、S414)。なお、スペクトル包絡生成モデル・変換パラメータ学習部414は、F0値変換パラメータθ(1)に代えて、再推定F0値変換パラメータθ(2)を出力する。
<F 0 conversion unit 415 and spectrum envelope generation model / conversion parameter learning unit 414>
The F 0 conversion unit 415 and the spectral envelope generation model / conversion parameter learning unit 414 replace the F 0 value conversion parameter θ (0) in advance prior to learning, and convert the F 0 value which is the output value of the acoustic model learning device 310 The parameter θ (1) is set as an initial value. The processing contents of the F 0 conversion unit 415 and the spectrum envelope generation model / conversion parameter learning unit 414 are the same as those of the F 0 conversion unit 315 and the spectrum envelope generation model / conversion parameter learning unit 314 (S 415, S 414). The spectrum envelope generation model / conversion parameter learning unit 414 outputs the re-estimated F 0 value conversion parameter θ (2) in place of the F 0 value conversion parameter θ (1) .

<第四実施形態に係る音声合成装置420>
図17は第三実施形態に係る音声合成装置420の機能ブロック図を、図18はその処理フローを示す。
音声合成装置420は、スペクトル包絡生成時に、F0値変換パラメータθ(1)でなく、再推定F0値変換パラメータθ(2)を使用する点が第三実施形態と異なる。
音声合成装置220は、テキスト解析部121と、言語特徴量ベクトル抽出部122と、F0生成部123と、言語特徴量・F0ベクトル作成部124Bと、スペクトル包絡生成部124と、音声波形生成部125と、F0変換部424Aとを含む。
<Speech synthesizer 420 according to the fourth embodiment>
FIG. 17 shows a functional block diagram of the speech synthesizer 420 according to the third embodiment, and FIG. 18 shows its processing flow.
The speech synthesizer 420 differs from the third embodiment in that the re-estimated F 0 value conversion parameter θ (2) is used instead of the F 0 value conversion parameter θ (1) at the time of spectrum envelope generation.
The speech synthesis unit 220 includes a text analysis unit 121, a language feature vector extraction unit 122, an F 0 generation unit 123, a language feature / F 0 vector generation unit 124B, a spectrum envelope generation unit 124, and an audio waveform generation. Unit 125 and an F 0 conversion unit 424 A.

<F0変換部424A>
F0変換部424Aは、再推定F0値変換パラメータθ(2)とF0情報foとを入力とし、F0情報foとF0値変換パラメータθ(1)とを用いて、パラメトリックF0値変換を行い(fo (2)=[G(fo1(2)),G(fo2(2)),…,G(foT_o(2))]、S424A)、パラメトリック変換F0データfo (2)を出力する。このとき、使用する関数G(x;θ(2))は、F0変換部415で使用されるパラメトリックF0値変換と同一のものを使用する。
なお、言語特徴量・F0ベクトル作成部124Bは、fo (1)に代えて、パラメトリック変換F0データfo (2)を用いる。
<F 0 conversion unit 424A>
The F 0 conversion unit 424 A receives the re-estimated F 0 value conversion parameter θ (2) and the F 0 information f o as a parametric input using the F 0 information f o and the F 0 value conversion parameter θ (1). perform F 0 value conversion (f o (2) = [ G (f o1; θ (2)), G (f o2; θ (2)), ..., G (f oT_o; θ (2))], S424A), and outputs parametric conversion F 0 data f o (2) . At this time, the function G (x; θ (2) ) used is the same as the parametric F 0 value conversion used in the F 0 conversion unit 415.
Note that the language feature value / F 0 vector creation unit 124 B uses parametric transformation F 0 data f o (2) instead of f o (1) .

<効果>
このような構成とすることで、第三実施形態と同様の効果を得ることができる。さらに、パラメータ生成誤差の小さいスペクトル包絡生成DNNを学習可能であると期待される。
<Effect>
With such a configuration, the same effect as that of the third embodiment can be obtained. Furthermore, it is expected that the spectral envelope generation DNN with a small parameter generation error can be learned.

<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other Modifications>
The present invention is not limited to the above embodiments and modifications. For example, the various processes described above may be performed not only in chronological order according to the description, but also in parallel or individually depending on the processing capability of the apparatus that executes the process or the necessity. In addition, changes can be made as appropriate without departing from the spirit of the present invention.

<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and Recording Medium>
In addition, various processing functions in each device described in the above-described embodiment and modification may be realized by a computer. In that case, the processing content of the function that each device should have is described by a program. By executing this program on a computer, various processing functions in each of the above-described devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing content can be recorded in a computer readable recording medium. As the computer readable recording medium, any medium such as a magnetic recording device, an optical disc, a magneto-optical recording medium, a semiconductor memory, etc. may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。   Further, this program is distributed, for example, by selling, transferring, lending, etc. a portable recording medium such as a DVD, a CD-ROM or the like in which the program is recorded. Furthermore, the program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   For example, a computer that executes such a program first temporarily stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage unit. Then, at the time of execution of the process, the computer reads the program stored in its storage unit and executes the process according to the read program. In another embodiment of the program, the computer may read the program directly from the portable recording medium and execute processing in accordance with the program. Furthermore, each time a program is transferred from this server computer to this computer, processing according to the received program may be executed sequentially. In addition, a configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes processing functions only by executing instructions and acquiring results from the server computer without transferring the program to the computer It may be Note that the program includes information provided for processing by a computer that conforms to the program (such as data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In addition, although each device is configured by executing a predetermined program on a computer, at least a part of the processing content may be realized as hardware.

Claims (8)

学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の前記学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習部と、
N個の前記基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習部とを含む、
音響モデル学習装置。
Let N be the total number of learning voice data, N be any integer greater than or equal to 1, n = 1, 2,..., N and N fundamental frequencies indicating the fundamental frequencies of N training voice data A language feature vector is input using information f L, n and N language feature vectors l L, n representing the contexts of the N pieces of speech data for learning as numerical vectors, respectively A fundamental frequency generation model learning unit that learns a fundamental frequency generation model that outputs fundamental frequency information;
N pieces of the fundamental frequency information f L, n , N pieces of the language feature vector l L, n, and spectrum envelope information s L, n respectively indicating spectrum envelopes of the N pieces of learning speech data And a spectral envelope generation model learning unit for learning a spectral envelope generation model using fundamental frequency information and a linguistic feature vector as inputs and using spectral envelope information as outputs.
Acoustic model learning device.
請求項1の音響モデル学習装置であって、
有界のスカラー関数gを用いてN個の前記基本周波数情報fL,nをそれぞれ変換する基本周波数変換部を含み、
前記スペクトル包絡生成モデル学習部において、用いられるN個の前記基本周波数情報fL,nは、前記基本周波数変換部において変換された値である、
音響モデル学習装置。
The acoustic model learning device according to claim 1, wherein
Including a fundamental frequency conversion unit that converts each of the N pieces of the fundamental frequency information f L, n using a bounded scalar function g,
The N pieces of fundamental frequency information f L, n used in the spectrum envelope generation model learning unit are values converted by the fundamental frequency conversion unit,
Acoustic model learning device.
請求項2の音響モデル学習装置であって、
前記基本周波数変換部は、前記スカラー関数g及びそのパラメータθを用いてN個の前記基本周波数情報fL,nをそれぞれ変換し、
前記スペクトル包絡生成モデル学習部において、N個の変換後の基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、変換後の基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルとパラメータθとを学習する、
音響モデル学習装置。
The acoustic model learning device according to claim 2, wherein
The fundamental frequency transformation unit transforms the N pieces of fundamental frequency information f L, n using the scalar function g and its parameter θ,
In the spectrum envelope generation model learning unit, spectrum envelopes of N pieces of converted fundamental frequency information f L, n , N pieces of the language feature vector l L, n , and N pieces of the speech data for learning are generated. Using spectral envelope information s L, n respectively shown, the converted fundamental frequency information and language feature vector are input, and a spectral envelope generation model as output spectral envelope information and parameter θ are learned.
Acoustic model learning device.
請求項3の音響モデル学習装置であって、
前記スペクトル包絡生成モデル学習部において、学習した後のパラメータをθ(1)とし、前記基本周波数変換部は、前記スカラー関数g及びそのパラメータθ(1)を用いてN個の前記基本周波数情報fL,nをそれぞれ変換し、
前記スペクトル包絡生成モデル学習部において、N個の変換後の基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、変換後の基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルとスカラー関数のパラメータθ(1)を学習する、
音響モデル学習装置。
The acoustic model learning device according to claim 3, wherein
In the spectrum envelope generation model learning unit, the parameter after learning is θ (1) , and the fundamental frequency conversion unit uses the scalar function g and its parameter θ (1) to obtain N pieces of fundamental frequency information f Convert L and n respectively,
In the spectrum envelope generation model learning unit, spectrum envelopes of N pieces of converted fundamental frequency information f L, n , N pieces of the language feature vector l L, n , and N pieces of the speech data for learning are generated. A spectral envelope generation model and scalar function parameter θ (1) which takes as input the fundamental frequency information after conversion and the linguistic feature vector using the spectral envelope information s L, n respectively shown and outputs the spectral envelope information To learn
Acoustic model learning device.
請求項1から請求項4の何れかの音響モデル学習装置により学習した前記基本周波数生成モデルと前記スペクトル包絡生成モデルとを用いて、音声合成を行う音声合成装置であって、
前記基本周波数生成モデルを用いて、対象テキストをテキスト解析して得られるコンテキストに対応する言語特徴量ベクトルlOから前記対象テキストに対応する音声波形の基本周波数を示す基本周波数情報fOを生成する基本周波数生成部と、
前記スペクトル包絡生成モデルを用いて、前記言語特徴量ベクトルlOと前記基本周波数情報fOとから前記対象テキストに対応する音声波形のスペクトル包絡を示すスペクトル包絡情報sOを生成するスペクトル包絡生成部と、
前記基本周波数情報fOと前記スペクトル包絡情報sOとを用いて、対象テキストに対応する音声波形を生成する音声波形生成部とを含む、
音声合成装置。
A speech synthesis apparatus which performs speech synthesis using the fundamental frequency generation model learned by the acoustic model learning device according to any one of claims 1 to 4 and the spectrum envelope generation model,
The fundamental frequency generation model is used to generate fundamental frequency information f O indicating the fundamental frequency of the speech waveform corresponding to the target text from the language feature vector l O corresponding to the context obtained by analyzing the target text by text analysis A fundamental frequency generation unit,
Spectrum envelope generation unit that generates spectrum envelope information s O indicating the spectrum envelope of the speech waveform corresponding to the target text from the language feature vector l O and the fundamental frequency information f O using the spectrum envelope generation model When,
And a speech waveform generation unit that generates a speech waveform corresponding to the target text using the fundamental frequency information f O and the spectrum envelope information s O.
Speech synthesizer.
学習用音声データの総数をNとし、Nを1以上の整数の何れかとし、n=1,2,…,Nとし、N個の学習用音声データの基本周波数をそれぞれ示すN個の基本周波数情報fL,nと、N個の前記学習用音声データのコンテキストを数値ベクトルでそれぞれ表現したN個の言語特徴量ベクトルlL,nとを用いて、言語特徴量ベクトルを入力とし、対応する基本周波数情報を出力とする基本周波数生成モデルを学習する基本周波数生成モデル学習ステップと、
N個の前記基本周波数情報fL,nと、N個の前記言語特徴量ベクトルlL,nと、N個の前記学習用音声データのスペクトル包絡をそれぞれ示すスペクトル包絡情報sL,nとを用いて、基本周波数情報と言語特徴量ベクトルとを入力とし、スペクトル包絡情報を出力とするスペクトル包絡生成モデルを学習するスペクトル包絡生成モデル学習ステップとを含む、
音響モデル学習方法。
Let N be the total number of learning voice data, N be any integer greater than or equal to 1, n = 1, 2,..., N and N fundamental frequencies indicating the fundamental frequencies of N training voice data A language feature vector is input using information f L, n and N language feature vectors l L, n representing the contexts of the N pieces of speech data for learning as numerical vectors, respectively A fundamental frequency generation model learning step of learning a fundamental frequency generation model that outputs fundamental frequency information;
N pieces of the fundamental frequency information f L, n , N pieces of the language feature vector l L, n, and spectrum envelope information s L, n respectively indicating spectrum envelopes of the N pieces of learning speech data And a spectral envelope generation model learning step of learning a spectral envelope generation model using the fundamental frequency information and the linguistic feature vector as inputs and the spectral envelope information as output.
Acoustic model learning method.
請求項6の音響モデル学習方法により学習した前記基本周波数生成モデルと前記スペクトル包絡生成モデルとを用いて、音声合成を行う音声合成方法であって、
前記基本周波数生成モデルを用いて、対象テキストをテキスト解析して得られるコンテキストに対応する言語特徴量ベクトルlOから前記対象テキストに対応する音声波形の基本周波数を示す基本周波数情報fOを生成する基本周波数生成ステップと、
前記スペクトル包絡生成モデルを用いて、前記言語特徴量ベクトルlOと前記基本周波数情報fOとから前記対象テキストに対応する音声波形のスペクトル包絡を示すスペクトル包絡情報sOを生成するスペクトル包絡生成ステップと、
前記基本周波数情報fOと前記スペクトル包絡情報sOとを用いて、対象テキストに対応する音声波形を生成する音声波形生成ステップとを含む、
音声合成方法。
A speech synthesis method for speech synthesis using the fundamental frequency generation model learned by the acoustic model learning method according to claim 6 and the spectrum envelope generation model,
The fundamental frequency generation model is used to generate fundamental frequency information f O indicating the fundamental frequency of the speech waveform corresponding to the target text from the language feature vector l O corresponding to the context obtained by analyzing the target text by text analysis A fundamental frequency generation step,
A spectrum envelope generation step of generating spectrum envelope information s O indicating a spectrum envelope of a speech waveform corresponding to the target text from the language feature vector l O and the fundamental frequency information f O using the spectrum envelope generation model When,
An audio waveform generation step of generating an audio waveform corresponding to a target text using the fundamental frequency information f O and the spectrum envelope information s O ;
Speech synthesis method.
請求項1から請求項4の何れかの音響モデル学習装置、または、請求項5の音声合成装置として、コンピュータを機能させるためのプログラム。   A program for causing a computer to function as the acoustic model learning device according to any one of claims 1 to 4 or the speech synthesis device according to claim 5.
JP2017042430A 2017-03-07 2017-03-07 Acoustic model learning device, speech synthesizer, method thereof and program Active JP6542823B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017042430A JP6542823B2 (en) 2017-03-07 2017-03-07 Acoustic model learning device, speech synthesizer, method thereof and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017042430A JP6542823B2 (en) 2017-03-07 2017-03-07 Acoustic model learning device, speech synthesizer, method thereof and program

Publications (2)

Publication Number Publication Date
JP2018146821A JP2018146821A (en) 2018-09-20
JP6542823B2 true JP6542823B2 (en) 2019-07-10

Family

ID=63592116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017042430A Active JP6542823B2 (en) 2017-03-07 2017-03-07 Acoustic model learning device, speech synthesizer, method thereof and program

Country Status (1)

Country Link
JP (1) JP6542823B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916093B (en) * 2020-07-31 2024-09-06 腾讯音乐娱乐科技(深圳)有限公司 Audio processing method and device
CN112037760B (en) * 2020-08-24 2022-01-07 北京百度网讯科技有限公司 Training method and device of voice spectrum generation model and electronic equipment

Also Published As

Publication number Publication date
JP2018146821A (en) 2018-09-20

Similar Documents

Publication Publication Date Title
JP6622505B2 (en) Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program
JP5768093B2 (en) Speech processing system
Blaauw et al. A neural parametric singing synthesizer
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
JP5300975B2 (en) Speech synthesis apparatus, method and program
JP6680933B2 (en) Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program
KR100932538B1 (en) Speech synthesis method and apparatus
JPH04313034A (en) Synthesized-speech generating method
JP5717097B2 (en) Hidden Markov model learning device and speech synthesizer for speech synthesis
JP2012529664A (en) Text-to-speech synthesis method and system
JP6552999B2 (en) Text correction device, text correction method, and program
WO2015025788A1 (en) Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
JP6631883B2 (en) Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program
JP6542823B2 (en) Acoustic model learning device, speech synthesizer, method thereof and program
JP6594251B2 (en) Acoustic model learning device, speech synthesizer, method and program thereof
JP3973492B2 (en) Speech synthesis method and apparatus thereof, program, and recording medium recording the program
JP4705557B2 (en) Acoustic model generation apparatus, method, program, and recording medium thereof
Kotani et al. Voice conversion based on deep neural networks for time-variant linear transformations
JP4964194B2 (en) Speech recognition model creation device and method thereof, speech recognition device and method thereof, program and recording medium thereof
JP6468519B2 (en) Basic frequency pattern prediction apparatus, method, and program
WO2020166359A1 (en) Estimation device, estimation method, and program
WO2010109725A1 (en) Voice processing apapratus, voice processing method, and voice processing program
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
JP6376486B2 (en) Acoustic model generation apparatus, acoustic model generation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190613

R150 Certificate of patent or registration of utility model

Ref document number: 6542823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150