JP2021056467A - Learning device, voice synthesis device and program - Google Patents
Learning device, voice synthesis device and program Download PDFInfo
- Publication number
- JP2021056467A JP2021056467A JP2019181862A JP2019181862A JP2021056467A JP 2021056467 A JP2021056467 A JP 2021056467A JP 2019181862 A JP2019181862 A JP 2019181862A JP 2019181862 A JP2019181862 A JP 2019181862A JP 2021056467 A JP2021056467 A JP 2021056467A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- context
- relative
- language
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 20
- 238000003786 synthesis reaction Methods 0.000 title claims description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 107
- 238000012545 processing Methods 0.000 claims abstract description 88
- 230000001419 dependent effect Effects 0.000 claims abstract description 84
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 69
- 230000002194 synthesizing effect Effects 0.000 abstract description 7
- 230000033764 rhythmic process Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 19
- 238000013179 statistical model Methods 0.000 description 17
- 238000011156 evaluation Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000272186 Falco columbarius Species 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 235000000832 Ayote Nutrition 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 240000001980 Cucurbita pepo Species 0.000 description 1
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000015136 pumpkin Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、テキスト及び音声信号を用いて統計モデルを学習する学習装置、統計モデルを用いてテキストから音声信号を合成する音声合成装置、及びこれらのプログラムに関する。 The present invention relates to a learning device that learns a statistical model using a text and a voice signal, a voice synthesizer that synthesizes a voice signal from a text using a statistical model, and a program thereof.
従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する音声信号を合成する方法として、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いた深層学習(DL:Deep Learning)に基づく技術が知られている(例えば、非特許文献1を参照)。 Conventionally, as a method of learning a statistical model using a text and a corresponding voice signal and synthesizing a voice signal for an arbitrary text, deep learning (DL: Deep) using a deep neural network (DNN) is used. A technique based on Learning) is known (see, for example, Non-Patent Document 1).
図18は、非特許文献1に記載された従来の事前学習処理のフローを示す説明図である。従来の事前学習を行う学習装置は、事前に用意されたテキストとこれに対応する音声信号を用いて、時間長モデル及び音響モデルを学習する。
FIG. 18 is an explanatory diagram showing a flow of the conventional pre-learning process described in
具体的には、学習装置は、テキストについては、音声コーパスから読み出して言語分析処理により文脈依存ラベルを求め(ステップS1801)、事前に用意した文脈に関する質問群を適用して言語特徴行列を求める(ステップS1802)。また、学習装置は、音声信号については、音声コーパスから読み出して音声分析処理により音響特徴量を求める(ステップS1803)。 Specifically, the learning device reads the text from the voice corpus and obtains a context-sensitive label by linguistic analysis processing (step S1801), and applies a group of questions about the context prepared in advance to obtain a language feature matrix (step S1801). Step S1802). Further, the learning device reads out the voice signal from the voice corpus and obtains the acoustic feature amount by the voice analysis process (step S1803).
学習装置は、言語特徴行列と音響特徴量との間の時間対応付けを行うことにより、音素毎の継続時間長を求め(ステップS1804)、音素毎の継続時間長及び言語特徴行列から言語特徴量を求める(ステップS1805)。そして、学習装置は、言語特徴行列及び音素毎の継続時間長を用いて、時間長モデルを学習する(ステップS1806)。また、学習装置は、言語特徴量及び音響特徴量を用いて音響モデルを学習する(ステップS1807)。 The learning device obtains the duration time length for each phoneme by time-associating the language feature matrix and the acoustic feature quantity (step S1804), and the language feature quantity is obtained from the duration time length and the language feature matrix for each phoneme. (Step S1805). Then, the learning device learns the time length model using the language feature matrix and the duration time length for each phoneme (step S1806). Further, the learning device learns the acoustic model using the language features and the acoustic features (step S1807).
図19は、非特許文献1に記載された従来の音声合成処理のフローを示す説明図である。従来の音声合成を行う音声合成装置は、任意のテキストを入力し、テキストから言語分析処理により文脈依存ラベルを求め(ステップS1901)、事前に用意した文脈に関する質問群を適用して言語特徴行列を求める(ステップS1902)。
FIG. 19 is an explanatory diagram showing a flow of the conventional speech synthesis process described in
音声合成装置は、言語特徴行列及び事前に学習した時間長モデルを用いて、音素毎の継続時間長を推定し(ステップS1903)、音素毎の継続時間長及び言語特徴行列から言語特徴量を求める(ステップS1904)。 The speech synthesizer estimates the duration length of each phoneme using the language feature matrix and the time length model learned in advance (step S1903), and obtains the language feature quantity from the duration time length of each phoneme and the language feature matrix. (Step S1904).
音声合成装置は、言語特徴量及び事前に学習した音響モデルを用いて、音響特徴量を推定する(ステップS1905)。そして、音声合成装置は、音響特徴量から音声生成処理にて音声信号波形を求めることにより、任意のテキストに対する合成した音声信号を得る(ステップS1906)。 The speech synthesizer estimates the acoustic features using the language features and the pre-learned acoustic model (step S1905). Then, the voice synthesizer obtains a voice signal waveform synthesized by voice generation processing from the acoustic features to obtain a synthesized voice signal for an arbitrary text (step S1906).
これらの一連の処理において、言語特徴量を求めるためには、学習装置及び音声合成装置は、まず、テキストに対して形態素解析及び構文解析等の言語分析処理を行い、これにより得られる情報に基づいて、文脈依存ラベルを求める。文脈依存ラベルは、所定の文脈依存ラベル形式で記述されたものであり、発話毎に求められ、音素単位で構成される。文脈依存ラベルの形式は言語によって異なるが、日本語においては、所定の形式を利用することができる(例えば、非特許文献2を参照)。 In order to obtain the linguistic feature quantity in these series of processes, the learning device and the speech synthesizer first perform linguistic analysis processing such as morphological analysis and parsing on the text, and based on the information obtained by this. To find the context-sensitive label. The context-sensitive label is described in a predetermined context-sensitive label format, is obtained for each utterance, and is composed of phoneme units. The format of the context-sensitive label differs depending on the language, but in Japanese, a predetermined format can be used (see, for example, Non-Patent Document 2).
学習装置及び音声合成装置は、次に、事前に文脈に関する質問群(例えば、非特許文献3を参照)を用意しておき、文脈依存ラベルにおける各行の音素の情報に質問群を適用し、言語特徴行列を求める。学習装置は、次に、言語特徴行列と音響特徴量との間の時間対応付けを行うことにより、音素毎の継続時間長を求める。一方、音声合成装置は、言語特徴行列及び事前に学習した時間長モデルを用いて、音素毎の継続時間長を推定する。 Next, the learning device and the speech synthesizer prepare a question group regarding the context in advance (see, for example, Non-Patent Document 3), apply the question group to the phoneme information of each line in the context-dependent label, and apply the question group to the language. Find the feature matrix. The learning device then obtains the duration length for each phoneme by time-associating the language feature matrix with the acoustic features. On the other hand, the speech synthesizer estimates the duration length of each phoneme by using the language feature matrix and the time length model learned in advance.
学習装置及び音声合成装置は、発話内における現在着目している音素の継続時間長に応じたフレーム(音響特徴量の処理単位)数分の言語特徴行列に、それぞれ音素の継続時間長に応じたフレーム数及びフレーム内の位置情報を付加することにより、音響特徴量に対応する言語特徴量を得る。 The learning device and the speech synthesizer correspond to the duration length of the phoneme in the language feature matrix of several frames (processing unit of the acoustic feature amount) according to the duration length of the phoneme currently being focused on in the speech. By adding the number of frames and the position information in the frame, the language feature amount corresponding to the acoustic feature amount is obtained.
前述の非特許文献1の方法においては、前述の非特許文献2に記載された形式に対応した文脈依存ラベルに、前述の非特許文献3に記載された文脈に関する質問群を適用して数値化することにより、言語特徴行列を求める。
In the method of the above-mentioned
しかしながら、この方法では、言語特徴行列の取り得る数値の組み合わせが膨大なものとなる。これは、言語特徴行列を構成する複数の要素について、取り得る数値の範囲が広くてまちまちであり、統一されていないからである。 However, in this method, the number of possible combinations of numerical values in the language feature matrix becomes enormous. This is because the range of possible numerical values for a plurality of elements constituting the language feature matrix is wide and different, and is not unified.
図18に示した事前学習処理においては、次元毎に正規化処理及び標準化処理を行うことで、統計モデルの学習が行われる。また、図19に示した音声合成処理においては、次元毎に正規化処理及び逆標準化処理を行うことで、統計モデルを用いた特徴量の推定が行われる。しかし、これらの処理に用いる言語特徴行列を構成する複数の要素のそれぞれは、特に連続的な数値の取り得る範囲が広い。 In the pre-learning process shown in FIG. 18, the statistical model is learned by performing the normalization process and the standardization process for each dimension. Further, in the speech synthesis process shown in FIG. 19, the feature amount is estimated using the statistical model by performing the normalization process and the destandardization process for each dimension. However, each of the plurality of elements constituting the language feature matrix used for these processes has a particularly wide range of continuous numerical values.
事前学習処理においては、言語特徴行列の取り得る数値の組み合わせをカバーすることができず、言語特徴行列の要素によっては連続的に分布しないため、疎(スパース)な状態となり、精度の高い統計モデルを学習することができない。そして、音声合成処理においては、任意のテキストを入力として言語特徴行列を求めたときに、その要素が連続的な数値の取り得る範囲の中にあるとしても、このような統計モデルを用いる限り、音素毎の継続時間長及び音響特徴量の推定精度が低くなってしまう。 In the pre-learning process, it is not possible to cover the possible combinations of numerical values of the language feature matrix, and some elements of the language feature matrix are not continuously distributed, resulting in a sparse state and a highly accurate statistical model. Can't learn. Then, in speech synthesis processing, when a language feature matrix is obtained by inputting arbitrary text, even if the elements are within a range in which continuous numerical values can be taken, as long as such a statistical model is used, The estimation accuracy of the duration length and the acoustic feature amount for each phoneme becomes low.
また、言語特徴行列の要素が、連続的な数値の取り得る範囲を超える外れ値となることにより、音素毎の継続時間長及び音響特徴量を推定する際に誤りが生じてしまう。これでは、合成した音声信号の品質が劣化し、音質が不安定となる可能性がある。 In addition, since the elements of the language feature matrix are outliers that exceed the range in which continuous numerical values can be taken, an error occurs when estimating the duration length and the acoustic feature amount for each phoneme. This may deteriorate the quality of the synthesized voice signal and make the sound quality unstable.
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることが可能な学習装置、音声合成装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above problems, and an object of the present invention is a learning device and voice capable of stably obtaining a high-quality voice signal when synthesizing a voice of an arbitrary text. To provide synthesizers and programs.
前記課題を解決するために、請求項1の学習装置は、予め音声信号がテキストに対応するように設定された前記テキスト及び前記音声信号に基づいて、音声合成に用いる時間長モデル及び音響モデルを学習する学習装置において、予め設定された前記テキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、予め設定された前記テキストに対応する前記音声信号について音声分析処理を行い、音響特徴量を求める音声分析部と、前記文脈質問群処理部により生成された前記言語特徴行列と前記音声分析部により求めた前記音響特徴量との時間的な対応付けを行い、音素毎の継続時間長を求め、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める対応付け部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記対応付け部により求めた前記音素毎の継続時間長を用いて、前記時間長モデルを学習し、前記対応付け部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を用いて、前記音響モデルを学習する学習部と、を備えたことを特徴とする。
In order to solve the above problem, the learning device according to
また、請求項2の学習装置は、請求項1に記載の学習装置において、前記学習部が、前記時間長モデル及び前記音響モデルについて深層学習(DL:Deep Learning)を行う、ことを特徴とする。
The learning device according to
また、請求項3の学習装置は、請求項1に記載の学習装置において、前記相対値化部が、前記韻律に関わる時間情報を、発話内の呼気段落の数及び位置、発話内のアクセント句の数及び位置、発話内の拍の数及び位置、呼気段落内のアクセント句の数及び位置、呼気段落内の拍の数及び位置、アクセント句内の拍の位置、並びにアクセント句におけるアクセント核からの拍の位置のうちの1つまたは複数の情報とし、前記発話内の呼気段落の数の相対値及び位置の相対値、前記発話内のアクセント句の数の相対値及び位置の相対値、前記発話内の拍の数の相対値及び位置の相対値、前記呼気段落内のアクセント句の数の相対値及び位置の相対値、前記呼気段落内の拍の数の相対値及び位置の相対値、前記アクセント句内の拍の位置の相対値、並びに前記アクセント句におけるアクセント核からの拍の位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする。 Further, in the learning device according to the third aspect, in the learning device according to the first aspect, the relative valuation unit obtains time information related to the utterance, the number and position of exhalation paragraphs in the utterance, and an accent phrase in the utterance. From the number and position of, the number and position of beats in the utterance, the number and position of accent phrases in the exhalation paragraph, the number and position of beats in the exhalation paragraph, the position of beats in the accent phrase, and the accent nucleus in the accent phrase. One or more of the beat positions of the utterance, the relative value of the number of exhaled paragraphs and the relative value of the position in the utterance, the relative value of the number of accent phrases in the utterance and the relative value of the position, the above. Relative values of the number of beats and positions in the utterance, relative values of the number of accents and positions in the exhalation paragraph, relative values of the number of beats and positions in the exhalation paragraph, Includes one or more of the relative values of the beat positions in the accent phrase and the relative values of the beat positions from the accent nucleus in the accent phrase that correspond to the time information related to the utterance. It is characterized in that the context-dependent relative label is obtained.
さらに、請求項4の音声合成装置は、請求項1または2の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備えたことを特徴とする。
Further, the speech synthesizer according to
また、請求項5の音声合成装置は、請求項3の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備え、前記相対値化部が、前記韻律に関わる時間情報を、発話内の呼気段落の数及び位置、発話内のアクセント句の数及び位置、発話内の拍の数及び位置、呼気段落内のアクセント句の数及び位置、呼気段落内の拍の数及び位置、アクセント句内の拍の位置、並びにアクセント句におけるアクセント核からの拍の位置のうちの1つまたは複数の情報とし、前記発話内の呼気段落の数の相対値及び位置の相対値、前記発話内のアクセント句の数の相対値及び位置の相対値、前記発話内の拍の数の相対値及び位置の相対値、前記呼気段落内のアクセント句の数の相対値及び位置の相対値、前記呼気段落内の拍の数の相対値及び位置の相対値、前記アクセント句内の拍の位置の相対値、並びに前記アクセント句におけるアクセント核からの拍の位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする。
Further, the speech synthesizer according to
さらに、請求項6のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の学習装置として機能させることを特徴とする。
Further, the program of
さらに、請求項7のプログラムは、コンピュータを、請求項4または5に記載の音声合成装置として機能させることを特徴とする。
Further, the program of claim 7 is characterized in that the computer functions as the speech synthesizer according to
以上のように、本発明によれば、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。 As described above, according to the present invention, it is possible to stably obtain a high-quality voice signal when synthesizing a voice of an arbitrary text.
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、テキストを言語分析して生成した文脈依存ラベルについて、韻律に関わる時間情報を相対値化して文脈依存相対ラベルを生成し、文脈依存相対レベルに文脈質問群を適用して言語特徴行列を生成することを特徴とする。 Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings. In the present invention, for a context-dependent label generated by linguistic analysis of text, time information related to prosody is relativized to generate a context-sensitive relative label, and a context-sensitive question group is applied to the context-dependent relative level to apply a linguistic feature matrix. Is characterized in that.
これにより、事前学習処理において、韻律に関わる時間情報を相対値化することで、言語特徴行列の所定の要素において、取り得る数値の範囲内で連続的に分布させることができ、疎な状態となる程度を低減することができる。そして、精度の高い統計モデル(時間長モデル及び音響モデル)を学習することができる。 As a result, in the pre-learning process, by converting the time information related to prosody into a relative value, it is possible to continuously distribute the time information related to the prosody within the range of possible numerical values in a predetermined element of the language feature matrix, resulting in a sparse state. It can be reduced to a certain extent. Then, a highly accurate statistical model (time length model and acoustic model) can be learned.
また、音声合成処理において、このような時間長モデル及び音響モデルを用いることで、音素毎の継続時間長及び音響特徴量を推定する際の精度を高くすることができる。また、言語特徴行列の要素は、外れ値になり難くなるから、時間長モデル及び音響モデルを用いて音素毎の継続時間長及び音響特徴量を推定する際に、誤りが生じ難くなる。 Further, by using such a time length model and an acoustic model in the speech synthesis processing, it is possible to improve the accuracy in estimating the duration time length and the acoustic feature amount for each phoneme. Further, since the elements of the language feature matrix are less likely to be outliers, errors are less likely to occur when estimating the duration length and the acoustic feature amount for each phoneme using the time length model and the acoustic model.
したがって、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。 Therefore, a high-quality voice signal can be stably obtained when synthesizing arbitrary text.
以下、本発明の実施形態について、時間長モデル及び音響モデルを事前学習する学習装置、及び、学習装置により学習された時間長モデル及び音響モデルを用いて、音声合成を行う音声合成装置について説明する。学習装置及び音声合成装置が扱う音声信号はモノラルであり、標本化周波数は48kHz、ビット数は16で標本化されているものとする。 Hereinafter, embodiments of the present invention will be described with respect to a learning device that pre-learns a time-length model and an acoustic model, and a speech synthesizer that performs speech synthesis using the time-length model and the acoustic model learned by the learning device. .. It is assumed that the speech signal handled by the learning device and the speech synthesizer is monaural, the sampling frequency is 48 kHz, and the number of bits is 16.
尚、本発明の実施形態では、日本語を対象として説明するが、他の言語においても、文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化する手法を適用することができる。 In the embodiment of the present invention, Japanese will be described as an object, but in other languages as well, a method of relativizing the time information related to the prosody included in the context-sensitive label can be applied.
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。図1は、本発明の実施形態による学習装置の構成を示すブロック図であり、図2は、学習装置の事前学習処理を示すフローチャートである。
[Learning device]
First, the learning device according to the embodiment of the present invention will be described. FIG. 1 is a block diagram showing a configuration of a learning device according to an embodiment of the present invention, and FIG. 2 is a flowchart showing a pre-learning process of the learning device.
この学習装置1は、音声コーパスが記憶された記憶部10、言語分析部11、相対値化部12、文脈質問群処理部13、音声分析部14、対応付け部15、学習部16、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18を備えている。
The
(音声コーパス)
記憶部10には、予め設定された音声コーパスが格納されている。音声コーパスは、予め設定されたテキストと、これに対応する予め設定された音声信号から構成される。例えば、ATR(株式会社国際電気通信基礎技術研究所)により作成された音素バランス503文を利用する場合、テキストとこれを読み上げた音声信号は、503対からなる。例えば、503対のうち統計モデルの訓練用に493対、評価用に8対、テスト用に5対を利用する。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、 pp.89-90(1988.3)
(Voice corpus)
A preset voice corpus is stored in the
Kenichi Iso, Takao Watanabe, Nao Kuwahara, "Design of Sentence Set for Speech Database", Sound Lecture (Spring), pp.89-90 (March 1988)
(言語分析部11)
言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、テキストについて既知の言語分析処理を行う(ステップS201)。そして、言語分析部11は、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報等の各情報を求め、文脈依存ラベルを生成する。言語分析部11は、音素毎の文脈依存ラベルを相対値化部12に出力する。
(Language Analysis Department 11)
The
図3は、言語分析部11のステップS201の言語分析処理、及び文脈依存ラベルのデータ構成を説明する図である。図3に示すように、文脈依存ラベルは、図2のステップS201の言語分析処理により生成され、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。この例は、テキストが「あらゆる現実を、すべて自分の方へ捻じ曲げたのだ。」の場合の文脈依存ラベルである。
FIG. 3 is a diagram illustrating the language analysis process of step S201 of the
言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab:Yet Another Part-of-Speech and Morphological Analyzer”,インターネット<URL:http://taku910.github.io/mecab/>
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜:Yet Another Japanese Dependency Structure Analyzer”,インターネット<URL:https://taku910.github.io/cabocha/>
As the language analysis process, for example, the morphological analysis process described below is used.
“MeCab: Yet Another Part-of-Speech and Morphological Analyzer”, Internet <URL: http://taku910.github.io/mecab/>
Further, as the language analysis process, for example, the dependency analysis process described below is used.
“CaboCha / Pumpkin: Yet Another Japanese Dependency Structure Analyzer”, Internet <URL: https://taku910.github.io/cabocha/>
(文脈依存ラベルの形式)
文脈依存ラベルの形式は言語によって異なるが、日本語においては、例えば前述の非特許文献2に記載された形式を利用することができる。図4は、非特許文献2に記載された文脈依存ラベルの形式例を示す図である。
(Context-sensitive label format)
The format of the context-sensitive label differs depending on the language, but in Japanese, for example, the format described in
図4に示す文脈依存ラベルの形式では、文脈依存ラベルにおいて、現在着目している音素に関する情報が1行に記述される。音素毎の文脈依存ラベルとしては、現在着目している音素及びこれに隣接する前後2つの音素を併せた5つの音素(p1〜p5)、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1〜a3)、現在着目している音素の属するアクセント句における形態素の品詞及びその活用形並びに活用型(c1〜c3)、現在着目している音素の属するアクセント句に隣接するアクセント句における形態素の品詞及びその活用形並びに活用型(b1〜b3,d1〜d3)、現在着目している音素の属するアクセント句の拍数、アクセント核の拍単位での位置及びアクセント句のタイプ(疑問形か疑問形でないか)並びに現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f1〜f8)、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置並びに現在着目している音素の属するアクセント句と隣接するアクセント句との間のポーズの有無(e1〜e5,g1〜g5)、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1〜i8)、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)、発話内の呼気段落数、アクセント句数及び拍数(k1〜k3)等が使用される。 In the context-sensitive label format shown in FIG. 4, the information about the phoneme currently being focused on is described in one line in the context-sensitive label. The context-dependent labels for each phoneme are five phonemes (p1 to p5) that combine the phoneme currently being focused on and the two adjacent phonemes before and after it, and the beat unit in the accent phrase to which the phoneme currently being focused belongs. Position and position in beat units from the accent nucleus (a1 to a3), part of the phoneme in the accent phrase to which the phoneme currently being focused on belongs, its utilization form and utilization type (c1 to c3), currently focusing on Part of morphology in the accent phrase adjacent to the accent phrase to which the phoneme belongs, its utilization form and utilization type (b1 to b3, d1 to d3), the number of beats of the accent phrase to which the phoneme currently of interest belongs, and the beat unit of the accent nucleus. Position and accent phrase type (whether questionable or not) and the position and beat unit of the accent phrase to which the currently focused phoneme belongs in the exhalation paragraph to which the currently focused phoneme belongs. Position (f1 to f8), the number of beats of the accent phrase adjacent to the accent phrase to which the currently focused phoneme belongs, the position of the accent core in beat units, and the accent adjacent to the accent phrase to which the currently focused phoneme belongs. Presence or absence of pauses between phrases (e1 to e5, g1 to g5), the number of accent phrases and beats in the exhalation paragraph to which the phoneme currently in focus belongs, and the exhalation paragraph to which the phoneme currently in interest belongs in the utterance. Position in exhalation paragraph unit, position in accent phrase unit and beat unit (i1 to i8), number of accent phrases and beats in exhalation paragraph adjacent to the exhalation paragraph to which the phoneme currently of interest belongs (h1, h2, j1) , J2), the number of exhaled paragraphs in the utterance, the number of accent phrases and the number of beats (k1 to k3), etc. are used.
文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成される。韻律に関わる情報のうちの時間情報は、相対値化部12による相対値化処理の対象である。図4に示した文脈依存ラベルの形式において、韻律に関わる時間情報は、a1〜a3,f1,f2,f5〜f8,e1,e2,g1,g2,i1〜i8,h1,h2,j1,j2である。
A context-sensitive label is composed of information related to phonology and information related to prosody. The time information among the information related to prosody is the target of the relative value processing by the
(相対値化部12)
相対値化部12は、言語分析部11から音素毎の文脈依存ラベルを入力し、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行う(ステップS202)。そして、相対値化部12は、音素毎に、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成し、音素毎の文脈依存相対ラベルを文脈質問群処理部13に出力する。ここでの相対値は、例えば0〜1の範囲における実数値である。
(Relative value conversion unit 12)
The
前述のとおり、文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成され、この韻律に関わる情報は、絶対的な整数値である。これに対し、文脈依存相対ラベルも、音韻に関わる情報及び韻律に関わる情報から構成されるが、この韻律に関わる情報のうち時間情報については、相対的な実数値であり、時間情報以外の情報については、絶対的な整数値である。 As described above, the context-sensitive label is composed of information related to phonology and information related to prosody, and the information related to this prosody is an absolute integer value. On the other hand, the context-dependent relative label is also composed of information related to phonology and information related to prosody, but among the information related to this prosody, time information is a relative real value and information other than time information. Is an absolute integer value.
ここで、従来技術において、言語分析処理(図18のステップS1801または図19のステップS1901の処理)により生成された音素毎の文脈依存ラベルを用いて、文脈質問群適用処理(ステップS1802またはステップS1902)が行われる。これにより生成される言語特徴行列において、文脈依存ラベルの絶対的な整数値に対応する要素の数値も、絶対的な整数値となる。 Here, in the prior art, the context question group application process (step S1802 or step S1902) is performed using the context-dependent label for each phoneme generated by the language analysis process (process of step S1801 of FIG. 18 or step S1901 of FIG. 19). ) Is performed. In the language feature matrix generated by this, the numerical value of the element corresponding to the absolute integer value of the context-sensitive label is also an absolute integer value.
事前学習処理においては、言語特徴行列の要素の値が連続的な数値の取り得る範囲の中にあるとしても、言語特徴行列の要素が疎な状態であるため、統計モデルを精度高く学習することはできない。このため、音声合成処理においては、このような統計モデルを用いて音素毎の継続時間長及び音響特徴量を推定する際の精度が低くなってしまう。また、言語特徴行列の要素の値が連続的な数値の取り得る範囲を超える外れ値となった場合には、音素毎の継続時間長及び音響特徴量の推定に誤りが生じてしまう。これでは、合成した音声信号の品質が劣化する場合があり、音質が不安定となる。 In the pre-learning process, even if the values of the elements of the language feature matrix are within the range of continuous numerical values, the elements of the language feature matrix are sparse, so the statistical model should be learned with high accuracy. Can't. Therefore, in the speech synthesis process, the accuracy when estimating the duration length and the acoustic feature amount for each phoneme using such a statistical model becomes low. Further, when the value of the element of the language feature matrix becomes an outlier exceeding the range in which continuous numerical values can be taken, an error occurs in the estimation of the duration length and the acoustic feature amount for each phoneme. In this case, the quality of the synthesized voice signal may deteriorate, and the sound quality becomes unstable.
そこで、本発明の実施形態では、相対値化部12は、言語分析処理により生成された音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化し、音韻に関わる相対値(相対的な実数値)の時間情報を含む文脈依存相対ラベルを生成するようにした。これにより生成される言語特徴行列において、文脈依存相対ラベルの相対的な実数値に対応する要素の数値も、相対的な実数値となる。
Therefore, in the embodiment of the present invention, the
事前学習処理において、言語特徴行列の要素の値が連続的な数値の取り得る範囲の中にある場合、言語特徴行列の要素は疎な状態とはならない。このため、統計モデルを精度高く学習することができる。そして、音声合成処理において、このような統計モデルを用いることで、高品質な音声信号を安定的に得ることができる。 In the pre-learning process, when the values of the elements of the language feature matrix are within the range of continuous numerical values, the elements of the language feature matrix are not in a sparse state. Therefore, the statistical model can be learned with high accuracy. Then, by using such a statistical model in the speech synthesis processing, a high-quality speech signal can be stably obtained.
(文脈依存相対ラベル)
相対値化部12は、文脈依存ラベルを構成する複数の情報のうち、韻律に関わる時間情報について相対値化し、相対的な数値ではない(相対値化できない)情報について相対値化しないで、文脈依存相対ラベルを生成する。以下、韻律に関わる時間情報の相対値化処理について、具体的に説明する。
(Context-sensitive relative label)
The
尚、相対値化できない情報は、韻律に関わる時間情報以外の情報であり、例えば、発話内の呼気段落数、アクセント句数及び拍数(k1〜k3)である。 The information that cannot be converted into relative values is information other than the time information related to prosody, for example, the number of exhaled paragraphs, the number of accent phrases, and the number of beats (k1 to k3) in the utterance.
<1>韻律に関わる時間情報として、発話内の呼気段落の位置等を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1〜i8)について、それぞれ発話内の呼気段落数、アクセント句数及び拍数(k1〜k3)で除算し、相対値(I1〜I8)を求める。相対値(I1,I2)は相対的な数(割合)を示し、相対値(I3〜I8)は相対的な位置を示す。
[数1]
I1=i1/k2
I2=i2/k3
In=in/k1 for n=3,4
In=in/k2 for n=5,6
In=in/k3 for n=7,8 ・・・(1)
<1> When the position of the exhalation paragraph in the utterance is used as the time information related to the phoneme The
[Number 1]
I1 = i1 / k2
I2 = i2 / k3
In = in / k1 for n = 3,4
In = in / k2 for n = 5,6
In = in / k3 for n = 7,8 ・ ・ ・ (1)
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落におけるアクセント句数(i1)を、発話内のアクセント句数(k2)で除算することで、i1についての相対値(I1)を求める。
In the above equation (1), the
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落における拍数(i2)を、発話内の拍数(k3)で除算することで、i2についての相対値(I2)を求める。
In the above equation (1), the
図5は、文脈依存相対ラベルを生成する際の、韻律に関わる時間情報の相対値化処理の例を説明する図である。図5において、発話は人が発した会話の文である。呼気段落は一息の発話区間であり、発話の文を無音区間で区切った際の段落に相当する。アクセント句は、最大で1つのアクセントが含まれる、文法的または意味的なまとまりである。拍は、一定の時間的長さを有する音の文節単位であり、モーラともいう。また、音素は、言語学的な意味で、音声の最小基本単位である。 FIG. 5 is a diagram illustrating an example of relative valuation processing of time information related to prosody when generating a context-sensitive relative label. In FIG. 5, the utterance is a sentence of a conversation uttered by a person. The exhalation paragraph is the utterance section of a breath, and corresponds to the paragraph when the sentence of the utterance is divided by the silence section. An accent phrase is a grammatical or semantic group containing up to one accent. A beat is a phrase unit of a sound having a certain time length, and is also called a mora. Phonemes are the smallest basic unit of speech in the linguistic sense.
例えば、発話「将来は全部彼の方へ」の場合、呼気段落は、「将来は」及び「全部彼の方へ」である。また、アクセント句は、「将来は」「全部」「彼の」及び「方へ」であり、拍は、「しょ」「う」「ら」「い」「は」「ぜ」「ん」「ぶ」「か」「れ」「の」「ほ」「う」及び「へ」である。 For example, in the case of the utterance "all towards him in the future", the exhalation paragraphs are "in the future" and "all towards him". In addition, the accent phrases are "in the future," "all," "his," and "toward," and the beats are "sho," "u," "ra," "i," "ha," "ze," "n," and "n." They are "bu", "ka", "re", "no", "ho", "u", and "he".
現在着目している音素が、アクセント句「彼の」における拍「か」の時間長の中にある場合を想定する。この場合、現在着目している音素の属する呼気段落は、「全部彼の方へ」であり、当該呼気段落に対応するアクセント句は、「全部」「彼の」及び「方へ」である。また、当該呼気段落に対応する拍は、「ぜ」「ん」「ぶ」「か」「れ」「の」「ほ」「う」及び「へ」である。 Suppose that the phoneme you are currently focusing on is in the time length of the beat "ka" in the accent phrase "his". In this case, the exhalation paragraph to which the phoneme currently being focused belongs is "all toward him", and the accent phrases corresponding to the exhalation paragraph are "all", "his", and "toward". The beats corresponding to the exhaled paragraph are "ze", "n", "bu", "ka", "re", "no", "ho", "u", and "he".
したがって、現在着目している音素の属する呼気段落におけるアクセント句数i1=3であり、発話内のアクセント句数k2=4であり、現在着目している音素の属する呼気段落における拍数i2=9、発話内の拍数k3=14である。したがって、i1についての相対値I1=i1/k2=3/4=0.75、i2についての相対値I2=i2/k3=9/14=0.64となる Therefore, the number of accent phrases i1 = 3 in the exhalation paragraph to which the phoneme currently being focused on belongs, the number of accent phrases k2 = 4 in the utterance, and the number of beats i2 = 9 in the exhalation paragraph to which the phoneme currently being focused belongs. , The number of beats in the utterance k3 = 14. Therefore, the relative value I1 = i1 / k2 = 3/4 = 0.75 for i1 and the relative value I2 = i2 / k3 = 9/14 = 0.64 for i2.
前記式(1)に戻って、相対値化部12は、現在着目している音素の属する呼気段落の呼気段落単位での順方向の位置(i3)を、発話内の呼気段落数(k1)で除算することで、i3についての相対値(I3)を求める。
Returning to the above equation (1), the
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の呼気段落単位での逆方向の位置(i4)を、発話内の呼気段落数(k1)で除算することで、i4についての相対値(I4)を求める。
In the above equation (1), the
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落のアクセント句単位での順方向の位置(i5)を、発話内のアクセント句数(k2)で除算することで、i5についての相対値(I5)を求める。
In the above equation (1), the
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落のアクセント句単位での逆方向の位置(i6)を、発話内のアクセント句数(k2)で除算することで、i6についての相対値(I6)を求める。
In the above equation (1), the
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の拍単位での順方向の位置(i7)を、発話内の拍数(k3)で除算することで、i7についての相対値(I7)を求める。
In the above equation (1), the
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の拍単位での逆方向の位置(i8)を、発話内の拍数(k3)で除算することで、i8についての相対値(I8)を求める。
In the above equation (1), the
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1〜i8)を用いる場合、前記式(1)にて相対値(I1〜I8)を求める。
In this way, the relative
また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)について、それぞれ発話内のアクセント句数及び拍数(k2,k3)で除算し、相対値(H1,H2,J1,J2)を求める。相対値(H1,H2,J1,J2)は相対的な数を示す。
[数2]
H1=h1/k2
H2=h2/k3
J1=j1/k2
J2=j2/k3 ・・・(2)
In addition, the relative
[Number 2]
H1 = h1 / k2
H2 = h2 / k3
J1 = j1 / k2
J2 = j2 / k3 ・ ・ ・ (2)
前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の前に隣接する呼気段落のアクセント句数(h1)を、発話内のアクセント句数(k2)で除算することで、h1についての相対値(H1)を求める。
In the above equation (2), the relative
前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の前に隣接する呼気段落の拍数(h2)を、発話内の拍数(k3)で除算することで、h2についての相対値(H2)を求める。
In the above equation (2), the
前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の後に隣接する呼気段落のアクセント句数(j1)を、発話内のアクセント数(k2)で除算することで、j1についての相対値(J1)を求める。
In the above equation (2), the relative
前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の後に隣接する呼気段落の拍数(j2)を、発話内の拍数(k3)で除算することで、j2についての相対値(J2)を求める。
In the above equation (2), the
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)を用いる場合、前記式(2)にて相対値(H1,H2,J1,J2)を求める。
In this way, the relative
<2>韻律に関わる時間情報として、呼気段落内のアクセント句の位置等を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句の拍数及びアクセント核の拍単位での位置(f1,f2)について、それぞれ現在着目している音素の属する呼気段落における拍数及びアクセント句の拍数(i2,f1)で除算し、相対値(F1,F2)を求める。ここで、アクセント核は、音が低くなる直前の高い音節の部分をいう。相対値(F1)は相対的な数を示し、相対値(F2)は相対的な位置を示す。
[数3]
F1=f1/i2
F2=f2/f1 ・・・(3)
<2> When the position of the accent phrase in the exhalation paragraph is used as the time information related to the phoneme The
[Number 3]
F1 = f1 / i2
F2 = f2 / f1 ・ ・ ・ (3)
前記式(3)において、相対値化部12は、現在着目している音素の属するアクセント句の拍数(f1)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f1についての相対値(F1)を求める。
In the above equation (3), the
前記式(3)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核の拍単位での位置(f2)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、f2についての相対値(F2)を求める。
In the above equation (3), the
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属するアクセント句の拍数及びアクセント核の拍単位での位置(f1,f2)を用いる場合、前記式(3)にて相対値(F1,F2)を求める。
As described above, when the relative
また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f5〜f8)について、それぞれ現在着目している音素の属する呼気段落におけるアクセント句数及び拍数(i1,i2)で除算し、相対値(F5〜F8)を求める。相対値(F5〜F8)は相対的な位置を示す。
[数4]
Fn=fn/i1 for n=5,6
Fn=fn/i2 for n=7,8 ・・・(4)
In addition, the relative
[Number 4]
Fn = fn / i1 for n = 5,6
Fn = fn / i2 for n = 7,8 ・ ・ ・ (4)
前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での順方向の位置(f5)を、現在着目している音素の属する呼気段落におけるアクセント句数(i1)で除算することで、f5についての相対値(F5)を求める。
In the above equation (4), the
前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での逆方向の位置(f6)を、現在着目している音素の属する呼気段落におけるアクセント句数(i1)で除算することで、f6についての相対値(F6)を求める。
In the above equation (4), the
前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句の拍単位での順方向の位置(f7)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f7についての相対値(F7)を求める。
In the above equation (4), the
前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句の拍単位での逆方向の位置(f8)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f8についての相対値(F8)を求める。
In the above equation (4), the
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f5〜f8)を用いる場合、前記式(4)にて相対値(F5〜F8)を求める。
In this way, the relative
また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置(e1,e2,g1,g2)について、それぞれ現在着目している音素の属するアクセント句に隣接するアクセント句の属する呼気段落におけるアクセント句数及びアクセント句の拍数(i’2,e1,i”2,g1)で除算し、相対値(E1,E2,G1,G2)を求める。相対値(E1,G1)は相対的な数を示し、相対値(E2,G2)は相対的な位置を示す。
[数5]
E1=e1/i’2
E2=e2/e1
G1=g1/i”2
G2=g2/g1 ・・・(5)
In addition, the relative
[Number 5]
E1 = e1 / i'2
E2 = e2 / e1
G1 = g1 / i ”2
G2 = g2 / g1 ・ ・ ・ (5)
前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の前に隣接するアクセント句の拍数(e1)を、現在着目している音素の属するアクセント句に隣接する順方向のアクセント句の属する呼気段落におけるアクセント句数(i’2)で除算することで、e1についての相対値(E1)を求める。
In the above equation (5), the relative
前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の前に隣接するアクセント句のアクセント核の拍単位での位置(e2)を、現在着目している音素の属するアクセント句の前に隣接するアクセント句の拍数(e1)で除算することで、e2についての相対値(E2)を求める。
In the above equation (5), the
前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の後に隣接するアクセント句の拍数(g1)を、現在着目している音素の属するアクセント句の後に隣接するアクセント句の属する呼気段落におけるアクセント句数(i”2)で除算することで、g1についての相対値(G1)を求める。
In the above equation (5), the
前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の後に隣接するアクセント句のアクセント核の拍単位での位置(g2)を、現在着目している音素の属するアクセント句の後に隣接するアクセント句の拍数(g1)で除算することで、g2についての相対値(G2)を求める。
In the above equation (5), the relative
このように、相対値化部12は、韻律に関わる時間情報として、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置(e1,e2,g1,g2)を用いる場合、前記式(5)にて相対値(E1,E2,G1,G2)を求める。
In this way, the relative
<3>韻律に関わる時間情報として、アクセント句内の拍の位置及びアクセント句内の拍とアクセント核との間の相対位置(アクセント句内のアクセント核からの拍の位置)を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1〜a3)について、現在着目している音素の属するアクセント句の拍数(f1)で除算し、相対値(A1〜A3)を求める。相対値(A1〜A3)は相対的な位置を示す。
[数6]
An=an/f1 for n=1,2,3 ・・・(6)
<3> When the position of the beat in the accent phrase and the relative position between the beat in the accent phrase and the accent nucleus (the position of the beat from the accent nucleus in the accent phrase) are used as the time information related to the rhyme. In the following equation, the
[Number 6]
An = an / f1 for n = 1,2,3 ・ ・ ・ (6)
前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句における拍単位での位置(a1)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a1についての相対値(A1)を求める。
In the above equation (6), the
前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核からの拍単位での順方向の位置(a2)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a2についての相対値(A2)を求める。
In the above equation (6), the
前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核からの拍単位での逆方向の位置(a3)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a3についての相対値(A3)を求める。
In the above equation (6), the relative
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1〜a3)を用いる場合、前記式(6)にて相対値(A1〜A3)を求める。
In this way, the relative
そして、相対値化部12は、以下のように、文脈依存相対ラベルを生成する。
p1^p2-p3+p4=p5/A:A1+A2+A3
/B:b1-b2_b3/C:c1_c2+c3/D:d1+d2_d3
/E:E1_E2!e3_e4-e5/F:F1_F2#f3_f4@F5_F6|F7_F8/G:G1_G2%g3_g4_g5
/H:H1_H2/I:I1-I2@I3+I4&I5-I6|I7+I8/J:J1_J2
尚、前記の文脈依存相対ラベルは、便宜上4行に分割して記述しているが、実際は音素毎に1行で記述する。詳細については、前述の非特許文献2を参照されたい。
Then, the
p1 ^ p2-p3 + p4 = p5 / A: A1 + A2 + A3
/ B: b1-b2_b3 / C: c1_c2 + c3 / D: d1 + d2_d3
/ E: E1_E2! E3_e4-e5 / F: F1_F2 # f3_f4 @ F5_F6 | F7_F8 / G: G1_G2% g3_g4_g5
/ H: H1_H2 / I: I1-I2 @ I3 + I4 & I5-I6 | I7 + I8 / J: J1_J2
Although the context-sensitive relative label is described by dividing it into four lines for convenience, it is actually described by one line for each phoneme. For details, refer to
(文脈質問群処理部13)
図1及び図2に戻って、文脈質問群処理部13は、相対値化部12から音素毎の文脈依存相対ラベルを入力し、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行う(ステップS203)。そして、文脈質問群処理部13は、音素毎の言語特徴行列を生成し、音素毎の言語特徴行列を対応付け部15に出力する。
(Contextual Question Group Processing Unit 13)
Returning to FIGS. 1 and 2, the context question
図6は、非特許文献3に記載された文脈に関する質問群例を示す図である。この文脈に関する質問群は、1行につき1つの質問が記述されており、質問毎に、1項目目の質問セット種別(「QS(Question Set):質問セット」または「CQS(Continuous Question Set):連続値質問セット」)、2項目目のラベル(“”内の文字列で表したラベル)、及び3項目目の条件({}内の文字列で表した条件)から構成される。
FIG. 6 is a diagram showing an example of a question group regarding the context described in
つまり、質問は、質問セットである「QS」及び連続値質問セットである「CQS」のいずれかで記述される。 That is, the question is described by either the question set "QS" or the continuous value question set "CQS".
質問セット種別が「QS」の場合、2項目目のラベルの値として、文脈依存ラベルのデータが3項目目の条件として指定された文字列に合致するときに「1」、合致しないときに「0」が与えられる。つまり、質問セット種別が「QS」の場合に得られるデータは、2値のうちのいずれかをとるバイナリな特徴量のバイナリデータとなる。 When the question set type is "QS", the value of the label of the second item is "1" when the data of the context-sensitive label matches the character string specified as the condition of the third item, and "1" when it does not match. 0 "is given. That is, the data obtained when the question set type is "QS" is binary data having a binary feature amount that takes one of two values.
尚、3項目目の条件として、複数の文字列を「,」で接続することによって、文字列のいずれかに合致するときに「1」、いずれにも合致しないときに「0」が与えられるという論理和が定義される。 As the condition of the third item, by connecting a plurality of character strings with ",", "1" is given when any of the character strings is matched, and "0" is given when none of the character strings are matched. The logical sum is defined.
質問セット種別が「CQS」の場合、2項目目のラベルの値として、文脈依存ラベルのデータが3項目目の条件として指定した文字列による数値を抽出する正規表現に合致するときに、その数値が与えられ、合致しないときに「0」が与えられる。つまり、質問セット種別が「CQS」の場合に得られるデータは、連続的な特徴量の数値データとなる。 When the question set type is "CQS", as the value of the label of the second item, when the data of the context-sensitive label matches the regular expression that extracts the numerical value of the character string specified as the condition of the third item, that numerical value. Is given, and "0" is given when they do not match. That is, the data obtained when the question set type is "CQS" is the numerical data of the continuous feature amount.
図6に示した文脈に関する質問群例は、従来の非特許文献3に記載されたものであるが、本発明の実施形態においても、同様の質問群例が用いられる。つまり、文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、質問セット種別が「QS」の場合、2項目目のラベルの値として、文脈依存相対ラベルのデータが3項目目の条件として指定した文字列に合致するときに「1」、合致しないときに「0」を与えることで、言語特徴行列のバイナリデータを求める。
The context-related question group example shown in FIG. 6 is described in the conventional
また、文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、質問セット種別が「CQS」の場合、2項目目のラベルの値として、文脈依存相対ラベルのデータが3項目目の条件として指定した文字列による数値を抽出する正規表現に合致するときに、その数値を与え、合致しないときに「0」を与えることで、言語特徴行列の数値データを求める。この場合、文脈依存相対ラベルのデータが音韻に関わる時間情報であるとき、言語特徴行列の数値データとして相対的な実数値が求められる。
Further, regarding the context-dependent relative label for each phonetic element, the context-question
このように、質問セット種別が「CQS」の場合、従来技術では、文脈依存ラベルのデータが音韻に関わる時間情報であるとき、当該時間情報は絶対的な整数値であるため、対応する言語特徴行列の数値データも、絶対的な整数値となる。これに対し、本発明の実施形態では、文脈依存相対ラベルのデータが音韻に関わる時間情報であるとき、当該時間情報は相対的な実数値であるため、対応する言語特徴行列の数値データも、相対的な実数値となる。 As described above, when the question set type is "CQS", in the prior art, when the data of the context-dependent label is the time information related to the phonology, the time information is an absolute integer value, and therefore the corresponding language feature. The numerical data of the matrix is also an absolute integer value. On the other hand, in the embodiment of the present invention, when the data of the context-dependent relative label is the time information related to the phonology, the time information is a relative real value, so that the numerical data of the corresponding language feature matrix is also It is a relative real value.
図7は、文脈質問群処理部13のステップS203の文脈質問群適用処理、及び音素毎の言語特徴行列のデータ構成を説明する図である。文脈質問群処理部13は、文脈依存相対ラベルについて、予め用意しておいた文脈に関する質問群を適用することで、図2のステップS203の処理を行い、音素毎に言語特徴行列を求める。
FIG. 7 is a diagram illustrating the context question group application process of step S203 of the context question
具体的には、文脈質問群処理部13は、文脈依存相対ラベルの1行に記された1つの音素に関する情報毎に、文脈に関する全ての質問群を適用し、全ての質問群に対するデータ(バイナリな特徴量のバイナリデータ、及び連続的な特徴量の数値データ)を求める。そして、文脈質問群処理部13は、音素毎の言語特徴行列を生成する。
Specifically, the context question
例えば、文脈依存相対ラベルのデータの行数(音素数)をNpとし、「QS」で始まる質問数がNb個、「CQS」で始まる質問数がNc個、合計でNq個(Nq=Nb+Nc)の質問群で構成される場合を想定する。この場合、文脈質問群処理部13は、文脈依存相対ラベルの行(音素)毎に、Nq個の質問に対するデータを求める。そして、文脈質問群処理部13は、Nb次元のバイナリデータ及びNc次元の数値データからなる合計Nq次元のベクトルを持つ(Np,Nq)の行列を、言語特徴行列として生成する。
For example, let N p be the number of rows (phonic prime numbers) of the context-sensitive relative label data, and N b the number of questions starting with "QS" and N c the number of questions starting with "CQS", for a total of N q (N q). It is assumed that the question group is composed of N q = N b + N c). In this case, the context question
文脈に関する質問群において、質問セット種別が「QS」の場合の質問数がNb=643個であり、質問セット種別が「CQS」の質問数がNc=25個であるとする。この場合、文脈質問群処理部13は、文脈依存相対ラベルの1行に記述された1つの音素に関する情報について、全ての質問群を適用することで、643次元のバイナリデータ及び25次元の数値データを求める。
In the context-related question group, it is assumed that the number of questions when the question set type is "QS" is N b = 643, and the number of questions when the question set type is "CQS" is N c = 25. In this case, the context question
そして、文脈質問群処理部13は、文脈依存相対ラベルを構成する全ての音素に関する情報について、それぞれ643次元のバイナリデータ及び25次元の数値データを求め、音素毎の言語特徴行列(643次元のバイナリデータ+25次元の数値データ)を生成する。
Then, the context question
ここで、従来技術では、図18のステップS1802及び図19のステップS1902に示したとおり、絶対的な整数値の数値データ(図4において例えばi1=1〜49)を含む文脈依存ラベルを用いて、言語特徴行列が生成される。質問セット種別が「CQS」の場合、絶対的な整数値の数値データを含む文脈依存ラベルから、絶対的な整数値の数値データが得られ、絶対的な整数値の数値データを含む言語特徴行列が生成される。前述のとおり、この絶対的な整数値の数値データは、取り得る値の範囲内で連続的に分布しないため、疎な状態となる。 Here, in the prior art, as shown in step S1802 of FIG. 18 and step S1902 of FIG. 19, a context-sensitive label containing numerical data of absolute integer values (for example, i1 = 1-49 in FIG. 4) is used. , A language feature matrix is generated. When the question set type is "CQS", the numerical data of the absolute integer value is obtained from the context-dependent label containing the numerical data of the absolute integer value, and the language feature matrix containing the numerical data of the absolute integer value. Is generated. As described above, the numerical data of this absolute integer value is not continuously distributed within the range of possible values, so that it is in a sparse state.
これに対し、本発明の実施形態では、図2のステップS203及び後述する図14のステップS1403に示すとおり、相対的な実数値の数値データ(例えば0〜1の範囲における実数値、図5において例えばI1=0.75)を含む文脈依存相対ラベルを用いて、言語特徴行列が生成される。質問セット種別が「CQS」の場合、相対的な実数値の数値データを含む文脈依存相対ラベルから、相対的な実数値の数値データが得られ、相対的な実数値の数値データを含む言語特徴行列が生成される。この相対的な実数値の数値データについては、取り得る値の範囲において連続的に分布するため、疎な状態の程度が従来技術に比べて低減される。これにより、精度の高い時間長モデル及び音響モデルを学習することができる。 On the other hand, in the embodiment of the present invention, as shown in step S203 of FIG. 2 and step S1403 of FIG. 14 described later, relative real value numerical data (for example, real value in the range of 0 to 1, in FIG. 5). A language feature matrix is generated using, for example, a context-sensitive relative label containing I1 = 0.75). When the question set type is "CQS", the relative real-valued numerical data is obtained from the context-dependent relative label containing the relative real-valued numerical data, and the language feature including the relative real-valued numerical data. A matrix is generated. Since this relative real-valued numerical data is continuously distributed within the range of possible values, the degree of sparse state is reduced as compared with the prior art. As a result, it is possible to learn a time-length model and an acoustic model with high accuracy.
(音声分析部14)
図1及び図2に戻って、音声分析部14は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出す。そして、音声分析部14は、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音声(音響)分析処理を行い、フレーム毎の所定情報からなる音響特徴量を求める(ステップS204)。音声分析部14は、フレーム毎の音響特徴量を対応付け部15に出力する。
(Voice analysis unit 14)
Returning to FIGS. 1 and 2, the
音声分析処理としては、例えば以下に記載された処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”,インターネット<URL:https://github.com/mmorise/World>
また、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”,インターネット<URL:http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
As the voice analysis process, for example, the process described below is used.
“A high-quality speech analysis, manipulation and synthesis system”, Internet <URL: https://github.com/mmorise/World>
Further, for example, the audio signal processing described below is used.
“Speech Signal Processing Toolkit (SPTK) Version 3.11 December 25, 2017”, Internet <URL: http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
図8は、音声分析部14のステップS204の音声分析処理、及びフレーム毎の音響特徴量のデータ構成を説明する図である。音声分析部14は、記憶部10から音声コーパスの各音声信号を読み出し、フレーム長25msの音声信号をフレームシフト5ms毎に切り出す(ステップS801)。そして、音声分析部14は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める(ステップS802)。
FIG. 8 is a diagram illustrating the voice analysis process of step S204 of the
音声分析部14は、スペクトルをメルケプストラム分析してメルケプストラム係数MGCを求める(ステップS803)。また、音声分析部14は、ピッチ周波数から有声/無声判定情報VUVを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数LF0を求める(ステップS804)。また、音声分析部14は、非周期成分をメルケプストラム分析して帯域非周期成分BAPを求める(ステップS805)。
The
これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数MGC、有声/無声判定情報VUV、対数ピッチ周波数LF0及び帯域非周期成分BAPが得られる。 As a result, the mer cepstrum coefficient MGC, the voiced / unvoiced determination information VUV, the logarithmic pitch frequency LF0, and the band aperiodic component BAP can be obtained for each frame as the acoustic features of the static characteristics.
音声分析部14は、メルケプストラム係数MGCの1次差分Δを算出して1次差分メルケプストラム係数ΔMGCを求め(ステップS806)、2次差分Δ2を算出して2次差分メルケプストラム係数Δ2MGCを求める(ステップS807)。
The
音声分析部14は、対数ピッチ周波数LF0の1次差分Δを算出して1次差分対数ピッチ周波数ΔLF0を求め(ステップS808)、2次差分Δ2を算出して2次差分対数ピッチ周波数Δ2LF0を求める(ステップS809)。
音声分析部14は、帯域非周期成分BAPの1次差分Δを算出して1次差分帯域非周期成分ΔBAPを求め(ステップS810)、2次差分Δ2を算出して2次差分帯域非周期成分Δ2BAPを求める(ステップS811)。
これにより、動特性の音響特徴量として、フレーム毎に、1次差分メルケプストラム係数ΔMGC、2次差分メルケプストラム係数Δ2MGC、1次差分対数ピッチ周波数ΔLF0、2次差分対数ピッチ周波数Δ2LF0、1次差分帯域非周期成分ΔBAP及び2次差分帯域非周期成分Δ2BAPが得られる。 Thus, as the acoustic feature quantity of the dynamic characteristics, for each frame, the primary difference mel-cepstrum coefficients DerutaMGC, 2-order differential mel-cepstrum coefficient delta 2 MGC, primary differential logarithmic pitch frequency ΔLF0,2 order difference logarithmic pitch frequency delta 2 LF0 primary difference band aperiodic component ΔBAP and secondary differential band aperiodic component delta 2 BAP is obtained.
このようにして得られた音響特徴量は、フレーム毎に、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVから構成される。この音響特徴量は、199次元のデータから構成される。 The acoustic features obtained in this way are the static characteristic merkepstrum coefficient MGC, the logarithmic pitch frequency LF0 and the band aperiodic component BAP, the first-order difference merkepstrum coefficient ΔMGC of the dynamic characteristics, and the first-order difference logarithm for each frame. Pitch frequency ΔLF0, primary difference band aperiodic component ΔBAP, secondary difference mer cepstrum coefficient Δ 2 MGC, secondary difference logarithmic pitch frequency Δ 2 LF0 and secondary difference band aperiodic component Δ 2 BAP, and static characteristic voiced / It is composed of silent judgment information VUV. This acoustic feature is composed of 199-dimensional data.
(対応付け部15)
図1及び図2に戻って、対応付け部15は、文脈質問群処理部13から音素毎の言語特徴行列を入力すると共に、音声分析部14からフレーム毎の音響特徴量を入力する。
(Association unit 15)
Returning to FIGS. 1 and 2, the
対応付け部15は、既知の音素アライメントの技術を用いて、音素毎の言語特徴行列とフレーム毎の音響特徴量との間で時間対応付け処理を行う(ステップS205)。そして、対応付け部15は、テキストの文を構成する言語特徴行列の各音素が、音響特徴量における音声信号のどの時刻に位置(対応)するのかを算出し、音素毎の継続時間長を求める。
The associating
対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長を学習部16に出力する。音素毎の言語特徴行列及び音素毎の継続時間長は、時間長モデルの学習のために用いられる。
The
この継続時間長は、ミリ秒(ms)単位の時間情報がフレームシフト5msで除算され、これにより得られる5msフレーム単位の数値が用いられる。 For this duration length, the time information in milliseconds (ms) is divided by a frame shift of 5 ms, and the value obtained in 5 ms frames is used.
音素アライメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit(HTK)”,インターネット<URL:http://htk.eng.cam.ac.uk>
“The HTK Book (for HTK Version 3.4)”,Cambridge University Engineering Department ,インターネット<URL:www.seas.ucla.edu/spapl/weichu/htkbook/>
As the phoneme alignment technique, for example, the speech recognition process described below is used.
"The Hidden Markov Model Toolkit (HTK)", Internet <URL: http://htk.eng.cam.ac.uk>
“The HTK Book (for HTK Version 3.4)”, Cambridge University Engineering Department, Internet <URL: www.seas.ucla.edu/spapl/weichu/htkbook/>
図9は、対応付け部15のステップS205の音素アライメント処理、及び音素毎の継続時間長のデータ構成を説明する図である。対応付け部15は、1音素あたり668次元のデータからなる言語特徴行列と1フレームあたり199次元の音響特徴量とを用いて、ステップS205の音素アライメント処理の時間的な対応付けにより、音素毎の継続時間長を求める。具体的には、対応付け部15は、言語特徴行列における音素毎に、対応する音響特徴量における開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、音素の時間長(フレーム数)を音素毎の継続時間長(1次元の数値データ)として生成する。
FIG. 9 is a diagram illustrating the phoneme alignment process of step S205 of the
図1及び図2に戻って、対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長について、既知の言語特徴量抽出処理を行い(ステップS206)、音響特徴量に対応するフレーム毎の言語特徴量を求める。そして、対応付け部15は、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習部16に出力する。フレーム毎の言語特徴量及びフレーム毎の音響特徴量は、音響モデルの学習のために用いられる。
Returning to FIGS. 1 and 2, the associating
図10は、対応付け部15のステップS206の言語特徴量抽出処理、及びフレーム毎の言語特徴量のデータ構成を説明する図である。対応付け部15は、発話内における現在着目している音素の継続時間長に応じたフレーム(音響特徴量の処理単位)数分の言語特徴行列に、それぞれ音素の継続時間長に応じたフレーム数及びフレーム内の位置を表現する4次元の時間データを付加することによって、フレーム毎の言語特徴量を生成する。
FIG. 10 is a diagram illustrating the language feature amount extraction process of step S206 of the
つまり、言語特徴量は、フレーム毎に、音響特徴量との間で時間対応付けされた言語特徴行例の643次元のバイナリデータ及び25次元の数値データ、並びに継続時間長に応じた4次元の時間データから構成される。すなわち、言語特徴量は、音素数分の全てのフレームのそれぞれにつき、合計672次元のデータから構成される。 That is, the linguistic feature amount is 643 dimensional binary data and 25 dimensional numerical data of the linguistic feature line example time-associated with the acoustic feature amount for each frame, and 4 dimensional according to the duration length. It consists of time data. That is, the language features are composed of a total of 672-dimensional data for each of all the frames corresponding to the number of phonemes.
尚、対応付け部15は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。
The associating
(学習部16)
図1及び図2に戻って、学習部16は、対応付け部15から音素毎の言語特徴行列及び音素毎の継続時間長を入力する。そして、学習部16は、音素毎の言語特徴行列及び音素毎の継続時間長を学習データとして、時間長モデルを学習し(ステップS207)、時間長モデルを記憶部17に格納する。
(Learning Department 16)
Returning to FIGS. 1 and 2, the
学習部16は、対応付け部15からフレーム毎の言語特徴量及びフレーム毎の音響特徴量を入力する。そして、学習部16は、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習データとして、音響モデルを学習し(ステップS208)、音響モデルを記憶部18に格納する。学習部16は、例えば深層学習にて、時間長モデル及び音響モデルを学習する。
The
(時間長モデル)
時間長モデルの学習処理について説明する。図11は、学習部16のステップS207の時間長モデル学習処理を説明する図である。
(Time length model)
The learning process of the time length model will be described. FIG. 11 is a diagram illustrating the time length model learning process of step S207 of the
学習部16は、テキストを表現する音素毎に、643次元のバイナリデータ及び25次元の数値データからなる668次元の言語特徴行列のデータを、時間長モデルの入力データとし、1次元の整数値の継続時間長(5ms単位のフレーム数)のデータを、時間長モデルの出力データとして扱う。
The
学習部16は、入力データである言語特徴行列のデータについて、次元毎に、全てのデータの最大値及び最小値を求めて記憶部17に格納すると共に、全てのデータのそれぞれを、次元毎の最大値及び最小値を用いて正規化する。
The
学習部16は、出力データである継続時間長のデータについて、全てのデータの平均値及び標準偏差を求めて記憶部17に格納すると共に、全てのデータのそれぞれを、平均値及び標準偏差を用いて標準化する。
The
学習部16は、音素毎に、言語特徴行列の正規化された668次元のデータを入力データとし、継続時間長の標準化された1次元のデータを出力データとして、ステップS207にて時間長モデルを学習する。そして、学習部16は、学習済みの時間長モデルを記憶部17に格納する。
The
時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”,インターネット<URL:https://github.com/CSTR-Edinburgh/merlin>
後述する音響モデルの学習の場合も同様である。
When learning the time-length model, the techniques described at the following sites are used.
"CSTR-Edinburgh / merlin", Internet <URL: https://github.com/CSTR-Edinburgh/merlin>
The same applies to the learning of the acoustic model described later.
(音響モデル)
音響モデルの学習処理について説明する。図12は、学習部16のステップS208の音響モデル学習処理を説明する図である。
(Acoustic model)
The learning process of the acoustic model will be described. FIG. 12 is a diagram illustrating the acoustic model learning process of step S208 of the
学習部16は、音響特徴量と時間対応付けされた、5ms単位のフレーム毎の643次元のバイナリデータ、25次元の数値データ及び4次元の時間データからなる672次元の言語特徴量を、音響モデルの入力データとして扱う。また、学習部16は、5ms単位のフレーム毎の199次元の音響特徴量を、音響モデルの出力データとして扱う。
The
学習部16は、入力データである言語特徴量のデータについて、次元毎に、全てのデータの最大値及び最小値を求めて記憶部18に格納すると共に、全てのデータのそれぞれを、次元毎の最大値及び最小値を用いて正規化する。
The
学習部16は、出力データである音響特徴量のデータについて、次元毎に、全てのデータの平均値及び標準偏差を求めて記憶部18に格納すると共に、全てのデータのそれぞれを、次元毎の平均値及び標準偏差を用いて標準化する。
The
学習部16は、フレーム毎に、言語特徴量の正規化された672次元のデータを入力データとし、音響特徴量の標準化された199次元のデータを出力データとして、ステップS208にて音響モデルを学習する。そして、学習部16は、学習済みの音響モデルを記憶部18に格納する。
The
音響モデルの出力データである音響特徴量は、音声信号から5ms単位のフレーム毎に抽出された199次元のデータにより構成される。具体的には、60次元のメルケプストラム係数、1次元の対数ピッチ周波数及び5次元の帯域非周期成分を併せた静特性66次元と、静特性を1次差分及び2次差分した動特性と有声/無声判定値とを併せて、合計199次元である。 The acoustic feature amount, which is the output data of the acoustic model, is composed of 199-dimensional data extracted from the audio signal every 5 ms unit frame. Specifically, it has a static characteristic of 66 dimensions, which is a combination of a 60-dimensional mel cepstrum coefficient, a 1-dimensional logarithmic pitch frequency, and a 5-dimensional band aperiodic component, and a dynamic characteristic and a voiced characteristic obtained by first-order difference and second-order difference of the static characteristic. / Including the silent judgment value, the total is 199 dimensions.
図11及び図12を参照して、時間長モデルの入力層が668次元、音響モデルの入力層が672次元、両モデル共隠れ層が1024次元×6層、時間長モデルの出力層が1次元、音響モデルの出力層が199次元の順伝播型で構成される。隠れ層における活性化関数は双曲線正接関数、損失誤差関数は平均二乗誤差関数、ミニバッチ数は64、エポック数は25、学習係数の最適化方法として確率的勾配降下法、開始学習率0.002、10epoch(エポック)を過ぎてからepoch毎に学習率を指数減衰させ、誤差逆伝播法で学習する。尚、15epochを過ぎてから、5epoch連続して評価誤差が減少しない場合は早期終了する。 With reference to FIGS. 11 and 12, the input layer of the time length model is 668 dimensions, the input layer of the acoustic model is 672 dimensions, the hidden layer of both models is 1024 dimensions × 6 layers, and the output layer of the time length model is one dimension. , The output layer of the acoustic model is composed of a 199-dimensional forward propagation type. The activation function in the hidden layer is the bicurve tangent function, the loss error function is the mean square error function, the number of mini-batch is 64, the number of epochs is 25, the stochastic gradient descent method as the learning coefficient optimization method, the start learning rate 0.002, After 10 epochs (epochs) are passed, the learning rate is exponentially attenuated for each epoch, and learning is performed by the error back propagation method. If the evaluation error does not decrease continuously for 5 epochs after 15 epochs, the process ends early.
以上のように、本発明の実施形態による学習装置1によれば、言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、言語分析処理を行って音素毎の文脈依存ラベルを生成する。
As described above, according to the
相対値化部12は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行い、音素毎の文脈依存相対ラベルを生成する。文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行い、音素毎の言語特徴行列を生成する。
The
音声分析部14は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出し、フレーム毎の音声信号について音声分析処理を行い、フレーム毎の音響特徴量を求める。
The
対応付け部15は、音素アライメントの技術を用いて、音素毎の言語特徴行列とフレーム毎の音響特徴量とを時間的に対応付け、音素毎の継続時間長を求める。そして、対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長について、言語特徴量抽出処理を行い、音響特徴量に対応するフレーム毎の言語特徴量を求める。
The associating
学習部16は、音素毎の言語特徴行列及び音素毎の継続時間長を学習データとして、時間長モデルを学習し、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習データとして、音響モデルを学習する。
The
ここで、従来技術では、韻律に関わる時間情報は、絶対的な整数値の数値データとして扱われ、韻律に関わる絶対値の時間情報を含む文脈依存ラベルを用いて、言語特徴行列が生成される。このため、言語特徴行列に含まれる韻律に関わる整数値の時間情報の数値データは、取り得る範囲内で連続的に分布せず、疎な状態となる。そして、精度の高い時間長モデル及び音響モデルを学習することができず、これらの統計モデルを用いて任意のテキストを音声合成する場合に、高品質な音声信号を安定的に得ることができなかった。 Here, in the prior art, the time information related to prosody is treated as numerical data of absolute integer values, and a language feature matrix is generated using a context-dependent label including time information of absolute values related to prosody. .. Therefore, the numerical data of the time information of the integer value related to the prosody included in the language feature matrix is not continuously distributed within the range that can be taken, and is in a sparse state. Then, it is not possible to learn a highly accurate time-length model and an acoustic model, and when synthesizing arbitrary texts by using these statistical models, it is not possible to stably obtain a high-quality voice signal. It was.
本発明の実施形態では、韻律に関わる時間情報を相対値化して相対的な小数値の数値データを求め、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを用いて、言語特徴行列を生成するようにした。このため、言語特徴行列に含まれる韻律に関わる相対値の時間情報の数値データは、取り得る範囲内で連続的に分布し、疎な状態の程度が従来技術に比べて低減される。したがって、精度の高い時間長モデル及び音響モデルを学習することができ、これらの統計モデルを用いて任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。 In the embodiment of the present invention, the time information related to the prosody is converted into a relative value to obtain the numerical data of the relative decimal value, and the language feature matrix is created by using the context-dependent relative label including the time information of the relative value related to the prosody. I tried to generate it. Therefore, the numerical data of the time information of the relative value related to the prosody included in the language feature matrix is continuously distributed within the range that can be taken, and the degree of the sparse state is reduced as compared with the prior art. Therefore, it is possible to learn a highly accurate time-length model and an acoustic model, and it is possible to stably obtain a high-quality voice signal when synthesizing an arbitrary text by using these statistical models.
〔音声合成装置〕
次に、本発明の実施形態による音声合成装置について説明する。図13は、本発明の実施形態による音声合成装置の構成を示すブロック図であり、図14は、音声合成装置の音声合成処理を示すフローチャートである。
[Speech synthesizer]
Next, the voice synthesizer according to the embodiment of the present invention will be described. FIG. 13 is a block diagram showing a configuration of a voice synthesizer according to the embodiment of the present invention, and FIG. 14 is a flowchart showing a voice synthesis process of the voice synthesizer.
この音声合成装置2は、言語分析部20、相対値化部21、文脈質問群処理部22、時間長推定部23、音響特徴量推定部24、音声生成部25、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18を備えている。記憶部17に記憶された時間長モデル及び記憶部18に記憶された音響モデルは、図1に示した学習装置1により学習されたモデルである。
The
(言語分析部20〜文脈質問群処理部22)
言語分析部20は、音声合成処理の対象とするテキストを入力し、図1に示した言語分析部11と同様の処理を行い(ステップS1401)、文脈依存ラベルを相対値化部21に出力する。
(Language Analysis Department 20-Contextual Question Group Processing Department 22)
The
相対値化部21は、言語分析部20から文脈依存ラベルを入力し、図1に示した相対値化部12と同様の処理を行い(ステップS1402)、文脈依存相対ラベルを文脈質問群処理部22に出力する。
The
文脈質問群処理部22は、相対値化部21から文脈依存相対ラベルを入力し、図1に示した文脈質問群処理部13と同様の処理を行い(ステップS1403)、音素毎の言語特徴行列を時間長推定部23に出力する。
The context question
(時間長推定部23)
時間長推定部23は、文脈質問群処理部22から音素毎の言語特徴行列を入力し、音素毎の言語特徴行列及び記憶部17に格納された時間長モデルを用いて、音素毎の継続時間長を推定する(ステップS1404)。
(Time length estimation unit 23)
The time
具体的には、時間長推定部23は、記憶部17に格納された時間長モデルの入力データの最大値及び最小値を用いて、音素毎の言語特徴行列を正規化し、正規化した音素毎の言語特徴行列を入力データとして、時間長モデルを用いた演算を行う。そして、時間長推定部23は、記憶部17に格納された時間長モデルの出力データの平均値及び標準偏差を用いて、出力データである標準化された音素毎の継続時間長を逆標準化し、元の音素毎の継続時間長を求める。
Specifically, the time
時間長推定部23は、音素毎の言語特徴行列及び音素毎の継続時間長を用いて、図1に示した対応付け部15と同様の言語特徴量抽出処理を行い、フレーム毎の言語特徴量を求める。そして、時間長推定部23は、フレーム毎の言語特徴量を音響特徴量推定部24に出力する。
The time
(音響特徴量推定部24)
音響特徴量推定部24は、時間長推定部23からフレーム毎の言語特徴量を入力し、フレーム毎の言語特徴量及び記憶部18に格納された音響モデルを用いて、フレーム毎の音響特徴量を推定する(ステップS1405)。音響特徴量推定部24は、フレーム毎の音響特徴量を音声生成部25に出力する。
(Acoustic feature amount estimation unit 24)
The acoustic feature
具体的には、音響特徴量推定部24は、記憶部18に格納された音響モデルの入力データの最大値及び最小値を用いて、フレーム毎の言語特徴量を正規化し、正規化したフレーム毎の言語特徴量を入力データとして、音響モデルを用いた演算を行う。そして、音響特徴量推定部24は、記憶部18に格納された音響モデルの出力データの平均値及び標準偏差を用いて、出力データである標準化されたフレーム毎の音響特徴量を逆標準化し、元のフレーム毎の音響特徴量を求める。
Specifically, the acoustic feature
このようにして推定された音響特徴量は、フレーム毎に離散的な値をとる。このため、音響特徴量推定部24は、連続するフレーム毎の音響特徴量に対して、最尤推定または移動平均を算出することで、滑らかな値の音響特徴量を求める。
The acoustic features estimated in this way take discrete values for each frame. Therefore, the acoustic feature
(音声生成部25)
音声生成部25は、音響特徴量推定部24からフレーム毎の音響特徴量を入力し、フレーム毎の音響特徴量に基づいて音声信号を合成する(ステップS1406)。そして、音声生成部25は、音声合成対象のテキストに対する音声信号を出力する。
(Speech generator 25)
The
図15は、音声生成部25の音声生成処理を説明する図である。音声生成部25は、音響特徴量推定部24から入力したフレーム毎の音響特徴量のうち、フレーム毎のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAPである静特性の音響特徴量を選択する(ステップS1501)。
FIG. 15 is a diagram illustrating a voice generation process of the
音声生成部25は、メルケプストラム係数MGCをメルケプストラムスペクトル変換し、スペクトルを求める(ステップS1502)。また、音声生成部25は、対数ピッチ周波数LF0から有声/無声判定情報VUVを求め、対数ピッチ周波数LF0の有声区間を対数化し、無声及び無音区間についてはゼロとし、ピッチ周波数を求める(ステップS1503)。また、音声生成部25は、帯域非周期成分BAPをメルケプストラムスペクトル変換し、非周期成分を求める(ステップS1504)。
The
音声生成部25は、ステップS1502にて求めたフレーム毎のスペクトル、ステップS1503にて求めたフレーム毎のピッチ周波数、及びステップS1504にて求めたフレーム毎の非周期成分を用いて連続的に音声波形を生成し(ステップS1505)、音声信号を出力する(ステップS1506)。
The
以上のように、本発明の実施形態による音声合成装置2によれば、言語分析部20は、音声合成処理の対象とするテキストについて、言語分析処理を行って音素毎の文脈依存ラベルを生成する。
As described above, according to the
相対値化部21は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行い、音素毎の文脈依存相対ラベルを生成する。文脈質問群処理部22は、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行い、音素毎の言語特徴行列を生成する。
The
時間長推定部23は、音素毎の言語特徴行列、及び学習装置1により生成された時間長モデルを用いて、音素毎の継続時間長を推定する。そして、時間長推定部23は、音素毎の言語特徴行列及び音素毎の継続時間長を用いて、言語特徴量抽出処理を行い、フレーム毎の言語特徴量を求める。
The time
音響特徴量推定部24は、フレーム毎の言語特徴量、及び学習装置1により生成された音響モデルを用いて、フレーム毎の音響特徴量を推定する。音声生成部25は、フレーム毎の音響特徴量に基づいて音声信号を合成する。
The acoustic feature
ここで、従来技術では、韻律に関わる時間情報は、絶対的な整数値の数値データとして扱われ、韻律に関わる絶対値の時間情報を含む文脈依存ラベルを用いて、言語特徴行列が生成される。このため、言語特徴行列に含まれる韻律に関わる整数値の時間情報の数値データは、取り得る範囲内で連続的に分布せず疎な状態となり、精度の高い時間長モデル及び音響モデルを学習することができない。このように統計モデルを用いて任意のテキストを音声合成する場合、高品質な音声信号を安定的に得ることができなかった。 Here, in the prior art, the time information related to prosody is treated as numerical data of absolute integer values, and a language feature matrix is generated using a context-dependent label including time information of absolute values related to prosody. .. For this reason, the numerical data of the time information of the integer value related to the prosody included in the language feature matrix is not continuously distributed within the possible range and becomes a sparse state, and a highly accurate time-length model and acoustic model are learned. Can't. When arbitrary text is voice-synthesized using the statistical model in this way, a high-quality voice signal cannot be stably obtained.
本発明の実施形態では、韻律に関わる時間情報を相対値化して相対的な小数値の数値データを求め、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを用いて、言語特徴行列を生成するようにした。このため、言語特徴行列に含まれる韻律に関わる相対値の時間情報の数値データは、取り得る範囲内で連続的に分布し、疎な状態の程度が従来技術に比べて低減される。したがって、学習装置1により学習された統計モデルを用いて任意のテキストを音声合成する場合、高品質な音声信号を安定的に得ることができる。
In the embodiment of the present invention, the time information related to the prosody is converted into a relative value to obtain the numerical data of the relative decimal value, and the language feature matrix is created by using the context-dependent relative label including the time information of the relative value related to the prosody. I tried to generate it. Therefore, the numerical data of the time information of the relative value related to the prosody included in the language feature matrix is continuously distributed within the range that can be taken, and the degree of the sparse state is reduced as compared with the prior art. Therefore, when an arbitrary text is voice-synthesized using the statistical model learned by the
〔実験結果〕
次に、従来技術と本発明の実施形態とを比較するためのシミュレーションによる実験結果について説明する。以下に説明する実験結果の従来技術は、前述の非特許文献2及び非特許文献3を利用して言語特徴行列を生成し、時間長モデル及び音響モデルを学習したものである。
〔Experimental result〕
Next, experimental results by simulation for comparing the prior art with the embodiments of the present invention will be described. In the prior art of the experimental results described below, a language feature matrix is generated by utilizing the above-mentioned
時間長モデルの入力データである言語特徴行列は、テキストを表現する音素毎に、643次元のバイナリデータ及び25次元の数値データからなる合計668次元のデータから構成される。音響モデルの入力データである言語特徴量は、5ms単位のフレーム毎に、音響特徴量と時間対応付けされた言語特徴行列の643次元のバイナリデータ及び25次元の数値データ、並びに4次元の時間データからなる合計672次元のデータから構成される。 The language feature matrix, which is the input data of the time-length model, is composed of a total of 668-dimensional data consisting of 643-dimensional binary data and 25-dimensional numerical data for each phonetic element expressing the text. The linguistic feature amount, which is the input data of the acoustic model, is 643 dimensional binary data and 25 dimensional numerical data of the linguistic feature matrix time-associated with the acoustic feature amount for each frame of 5 ms, and 4 dimensional time data. It is composed of a total of 672-dimensional data.
図16は、時間長モデルの実験結果を示す図であり、その客観評価値及び訓練誤差を示している。具体的は、本図は、時間長モデルの出力データである継続時間長に関し、所定のDevelopセット及びTestセットのそれぞれについて、リファレンスデータと推定値との間の二乗平均平方根誤差(RMSE)及び相関係数(CORR)を示している。 FIG. 16 is a diagram showing the experimental results of the time length model, and shows the objective evaluation value and the training error. Specifically, this figure shows the root mean square error (RMSE) and phase between the reference data and the estimated value for each of the predetermined Develop set and Test set with respect to the duration time length, which is the output data of the time length model. It shows the number of relationships (CORR).
また、本図は、継続時間長に関し、訓練(学習)時に過剰適合しないように早期終了した際のValidセットの誤差最小値、及びそのときのTrainセットの誤差値を、誤差値(Error)として示している。RMSE及びErrorは小さいほど評価が高く、CORRは大きいほど評価が高いことを示す。 In addition, in this figure, regarding the duration length, the error value of the Valid set at the time of early termination so as not to overfit during training (learning) and the error value of the Train set at that time are set as error values (Error). Shown. The smaller the RMSE and Error, the higher the evaluation, and the larger the CORR, the higher the evaluation.
従来技術と本発明の実施形態とを比較すると、本発明の実施形態のRMSE及びErrorは、いずれも従来技術よりも小さく、本発明の実施形態のCORRは、従来技術よりも大きい。したがって、本発明の実施形態は、従来技術よりも評価値に改善が見られ、時間長モデルを用いた継続時間長の推定精度が向上し、有効性を確認することができる。 Comparing the prior art with the embodiments of the present invention, the RMSE and Error of the embodiments of the present invention are both smaller than those of the prior art, and the CORR of the embodiments of the present invention is larger than those of the prior art. Therefore, in the embodiment of the present invention, the evaluation value is improved as compared with the conventional technique, the estimation accuracy of the duration length using the time length model is improved, and the effectiveness can be confirmed.
図17は、音響モデルの実験結果を示す図であり、その客観評価値及び訓練誤差を示している。具体的は、本図は、音響モデルの出力データである音響特徴量に関し、所定のDevelopセット及びTestセットのそれぞれについて、メルケプストラムのリファレンスデータと推定値との間の二乗平均誤差(MCD)、帯域非周期成分のリファレンスデータと推定値との間の二乗平均誤差(BAP)、ピッチ周波数F0のリファレンスデータと推定値との間の二乗平均平方根誤差(RMSE)、相関係数(CORR)及び有声無声判定誤り率(VUV)を示している。 FIG. 17 is a diagram showing the experimental results of the acoustic model, and shows the objective evaluation value and the training error. Specifically, this figure shows the root mean square error (MCD) between the Melkeptrum reference data and the estimated value for each of the predetermined Develop set and Test set with respect to the acoustic features that are the output data of the acoustic model. Root mean square error (BAP) between reference data and estimates of band aperiodic components, root mean square error (RMSE) between reference data and estimates of pitch frequency F0, correlation coefficient (CORR) and voiced It shows the silent judgment error rate (VUV).
また、本図は、音響特徴量に関し、訓練(学習)時に過剰適合しないよう早期終了した際のValidセットの誤差最小値、及びそのときのTrainセットの誤差値を、誤差値(Error)として示している。MCD、BAP、RMSE、VUV及びErrorは小さいほど評価が高く、CORRは大きいほど評価が高いことを示す。 In addition, this figure shows the minimum error value of the Valid set at the time of early termination so as not to overfit during training (learning), and the error value of the Train set at that time as an error value (Error). ing. The smaller the MCD, BAP, RMSE, VUV and Error, the higher the evaluation, and the larger the CORR, the higher the evaluation.
従来技術と本発明の実施形態とを比較すると、本発明の実施形態のMCD、BAP、RMSE、VUV及びErrorは、いずれも従来技術よりも小さく、本発明の実施形態のCORRは、従来技術よりも大きい。したがって、本発明の実施形態は、従来技術よりも評価値に改善が見られ、音響モデルを用いた音響特徴量の推定精度が向上し、有効性を確認することができる。 Comparing the prior art with the embodiments of the present invention, the MCD, BAP, RMSE, VUV and Error of the embodiments of the present invention are all smaller than those of the prior art, and the CORR of the embodiments of the present invention is smaller than that of the prior art. Is also big. Therefore, in the embodiment of the present invention, the evaluation value is improved as compared with the conventional technique, the estimation accuracy of the acoustic feature amount using the acoustic model is improved, and the effectiveness can be confirmed.
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、学習装置1の相対値化部12は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化し、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成するようにした。
Although the present invention has been described above with reference to embodiments, the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the technical idea. In the above embodiment, the
この場合、相対値化部12は、文脈依存ラベルに含まれる全ての韻律に関わる時間情報を対象として、文脈依存相対ラベルを生成するようにしてもよいし、一部の韻律に関わる時間情報を対象として、文脈依存相対ラベルを生成するようにしてもよい。つまり、相対値化部12は、全ての韻律に関わる時間情報のうち、予め設定された1つまたは複数の韻律に関わる時間情報を対象として相対値化し、1つまたは複数の韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成するようにしてもよい。音声合成装置2の相対値化部21についても同様である。
In this case, the
尚、本発明の実施形態による学習装置1及び音声合成装置2のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1及び音声合成装置2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
As the hardware configuration of the
学習装置1に備えた、音声コーパスが記憶された記憶部10、言語分析部11、相対値化部12、文脈質問群処理部13、音声分析部14、対応付け部15、学習部16、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
A
また、音声合成装置2に備えた言語分析部20、相対値化部21、文脈質問群処理部22、時間長推定部23、音響特徴量推定部24、音声生成部25、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
Further, the
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, read by the CPU, and executed. In addition, these programs can be stored and distributed in storage media such as magnetic disks (floppy (registered trademark) disks, hard disks, etc.), optical disks (CD-ROM, DVD, etc.), semiconductor memories, etc., and can be distributed via a network. You can also send and receive.
1 学習装置
2 音声合成装置
10,17,18 記憶部
11,20 言語分析部
12,21 相対値化部
13,22 文脈質問群処理部
14 音声分析部
15 対応付け部
16 学習部
23 時間長推定部
24 音響特徴量推定部
25 音声生成部
1
Claims (7)
予め設定された前記テキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
予め設定された前記テキストに対応する前記音声信号について音声分析処理を行い、音響特徴量を求める音声分析部と、
前記文脈質問群処理部により生成された前記言語特徴行列と前記音声分析部により求めた前記音響特徴量との時間的な対応付けを行い、音素毎の継続時間長を求め、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める対応付け部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記対応付け部により求めた前記音素毎の継続時間長を用いて、前記時間長モデルを学習し、前記対応付け部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を用いて、前記音響モデルを学習する学習部と、
を備えたことを特徴とする学習装置。 In a learning device that learns a time-length model and an acoustic model used for voice synthesis based on the text and the voice signal in which the voice signal is set in advance to correspond to the text.
A language analysis unit that performs language analysis processing on the preset text and generates context-sensitive labels,
A relative valuation unit that relativizes the time information related to the prosody included in the context-dependent label generated by the language analysis unit and generates a context-dependent relative label including the time information of the relative value related to the prosody.
A context-sensitive question group processing unit that generates a language feature matrix by applying a preset question group related to the context to the context-dependent relative label generated by the relative value conversion unit.
A voice analysis unit that performs voice analysis processing on the voice signal corresponding to the preset text and obtains an acoustic feature amount, and a voice analysis unit.
The language feature matrix generated by the context question group processing unit is temporally associated with the acoustic feature amount obtained by the voice analysis unit, the duration length of each phoneme is obtained, and the continuation of each phoneme is performed. A mapping unit that obtains the language features from the time length and the language feature matrix, and
The language feature matrix generated by the context question group processing unit and the duration time length for each phoneme obtained by the association unit are used to learn the time length model, and the language obtained by the association unit. A learning unit that learns the acoustic model using the feature amount and the acoustic feature amount obtained by the voice analysis unit.
A learning device characterized by being equipped with.
前記学習部は、
前記時間長モデル及び前記音響モデルについて深層学習(DL:Deep Learning)を行う、ことを特徴とする学習装置。 In the learning device according to claim 1,
The learning unit
A learning device characterized in that deep learning (DL) is performed on the time length model and the acoustic model.
前記相対値化部は、
前記韻律に関わる時間情報を、発話内の呼気段落の数及び位置、発話内のアクセント句の数及び位置、発話内の拍の数及び位置、呼気段落内のアクセント句の数及び位置、呼気段落内の拍の数及び位置、アクセント句内の拍の位置、並びにアクセント句におけるアクセント核からの拍の位置のうちの1つまたは複数の情報とし、
前記発話内の呼気段落の数の相対値及び位置の相対値、前記発話内のアクセント句の数の相対値及び位置の相対値、前記発話内の拍の数の相対値及び位置の相対値、前記呼気段落内のアクセント句の数の相対値及び位置の相対値、前記呼気段落内の拍の数の相対値及び位置の相対値、前記アクセント句内の拍の位置の相対値、並びに前記アクセント句におけるアクセント核からの拍の位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする学習装置。 In the learning device according to claim 1,
The relative value conversion unit
The time information related to the rhyme is the number and position of the exhalation paragraph in the utterance, the number and position of the accent phrase in the utterance, the number and position of the beat in the utterance, the number and position of the accent phrase in the exhalation paragraph, and the exhalation paragraph. Information on the number and position of beats within, the position of beats within an accent phrase, and the position of beats from the accent nucleus in the accent phrase.
Relative values and positions of the number of exhaled paragraphs in the utterance, relative values and positions of the number of accent phrases in the utterance, relative values of the number of beats and positions in the utterance, Relative values and positions of the number of accent phrases in the exhalation paragraph, relative values and positions of the number of beats in the exhalation paragraph, relative values of the position of beats in the accent phrase, and the accent. A learning device for obtaining the context-dependent relative label including one or a plurality of the relative values corresponding to the time information related to the utterance among the relative values of the positions of beats from the accent nucleus in the phrase. ..
前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、
前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、
を備えたことを特徴とする音声合成装置。 In a speech synthesizer that synthesizes a speech signal for an arbitrary text by using the time length model and the acoustic model learned by the learning device of claim 1 or 2.
A language analysis unit that performs language analysis processing on the arbitrary text and generates context-sensitive labels,
A relative valuation unit that relativizes the time information related to the prosody included in the context-dependent label generated by the language analysis unit and generates a context-dependent relative label including the time information of the relative value related to the prosody.
A context-sensitive question group processing unit that generates a language feature matrix by applying a preset question group related to the context to the context-dependent relative label generated by the relative value conversion unit.
Using the language feature matrix and the time length model generated by the context question group processing unit, the duration length of each phoneme is estimated, and the language feature quantity is calculated from the duration time length of each phoneme and the language feature matrix. The time length estimation unit to be obtained and
An acoustic feature amount estimation unit that estimates an acoustic feature amount using the language feature amount and the acoustic model obtained by the time length estimation unit, and an acoustic feature amount estimation unit.
A voice generation unit that synthesizes the voice signal based on the acoustic feature amount estimated by the acoustic feature amount estimation unit, and a voice generation unit.
A voice synthesizer characterized by being equipped with.
前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、
前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備え、
前記相対値化部は、
前記韻律に関わる時間情報を、発話内の呼気段落の数及び位置、発話内のアクセント句の数及び位置、発話内の拍の数及び位置、呼気段落内のアクセント句の数及び位置、呼気段落内の拍の数及び位置、アクセント句内の拍の位置、並びにアクセント句におけるアクセント核からの拍の位置のうちの1つまたは複数の情報とし、
前記発話内の呼気段落の数の相対値及び位置の相対値、前記発話内のアクセント句の数の相対値及び位置の相対値、前記発話内の拍の数の相対値及び位置の相対値、前記呼気段落内のアクセント句の数の相対値及び位置の相対値、前記呼気段落内の拍の数の相対値及び位置の相対値、前記アクセント句内の拍の位置の相対値、並びに前記アクセント句におけるアクセント核からの拍の位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする音声合成装置。 In a speech synthesizer that synthesizes a speech signal for an arbitrary text by using the time length model and the acoustic model learned by the learning device of claim 3.
A language analysis unit that performs language analysis processing on the arbitrary text and generates context-sensitive labels,
A relative valuation unit that relativizes the time information related to the prosody included in the context-dependent label generated by the language analysis unit and generates a context-dependent relative label including the time information of the relative value related to the prosody.
A context-sensitive question group processing unit that generates a language feature matrix by applying a preset question group related to the context to the context-dependent relative label generated by the relative value conversion unit.
Using the language feature matrix and the time length model generated by the context question group processing unit, the duration length of each phoneme is estimated, and the language feature quantity is calculated from the duration time length of each phoneme and the language feature matrix. The time length estimation unit to be obtained and
An acoustic feature amount estimation unit that estimates an acoustic feature amount using the language feature amount and the acoustic model obtained by the time length estimation unit, and an acoustic feature amount estimation unit.
A voice generation unit that synthesizes the voice signal based on the acoustic feature amount estimated by the acoustic feature amount estimation unit is provided.
The relative value conversion unit
The time information related to the rhyme is the number and position of the exhalation paragraph in the utterance, the number and position of the accent phrase in the utterance, the number and position of the beat in the utterance, the number and position of the accent phrase in the exhalation paragraph, and the exhalation paragraph. Information on the number and position of beats within, the position of beats within an accent phrase, and the position of beats from the accent nucleus in the accent phrase.
Relative values and positions of the number of exhaled paragraphs in the utterance, relative values and positions of the number of accent phrases in the utterance, relative values of the number of beats and positions in the utterance, Relative values and positions of the number of accent phrases in the exhalation paragraph, relative values and positions of the number of beats in the exhalation paragraph, relative values of the position of beats in the accent phrase, and the accent. Speech synthesis characterized in that the context-dependent relative label containing one or more of the relative values of the position of the beat from the accent nucleus in the phrase corresponding to the time information related to the rhyme is obtained. apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019181862A JP7469015B2 (en) | 2019-10-02 | 2019-10-02 | Learning device, voice synthesis device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019181862A JP7469015B2 (en) | 2019-10-02 | 2019-10-02 | Learning device, voice synthesis device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056467A true JP2021056467A (en) | 2021-04-08 |
JP7469015B2 JP7469015B2 (en) | 2024-04-16 |
Family
ID=75272539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019181862A Active JP7469015B2 (en) | 2019-10-02 | 2019-10-02 | Learning device, voice synthesis device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7469015B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146803A (en) * | 2017-03-06 | 2018-09-20 | 日本放送協会 | Voice synthesizer and program |
WO2018216729A1 (en) * | 2017-05-24 | 2018-11-29 | 日本放送協会 | Audio guidance generation device, audio guidance generation method, and broadcasting system |
JP2020106643A (en) * | 2018-12-27 | 2020-07-09 | 株式会社エーアイ | Language processing unit, language processing program and language processing method |
-
2019
- 2019-10-02 JP JP2019181862A patent/JP7469015B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146803A (en) * | 2017-03-06 | 2018-09-20 | 日本放送協会 | Voice synthesizer and program |
WO2018216729A1 (en) * | 2017-05-24 | 2018-11-29 | 日本放送協会 | Audio guidance generation device, audio guidance generation method, and broadcasting system |
JP2020106643A (en) * | 2018-12-27 | 2020-07-09 | 株式会社エーアイ | Language processing unit, language processing program and language processing method |
Non-Patent Citations (1)
Title |
---|
松永 悟行ほか: ""深層学習を用いた日本語音声合成における基本周波数に適した言語特徴量の正規化手法"", 電子情報通信学会論文誌D, vol. 第J102-D巻, 第10号, JPN6023028402, October 2019 (2019-10-01), pages 721 - 729, ISSN: 0005195198 * |
Also Published As
Publication number | Publication date |
---|---|
JP7469015B2 (en) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sisman et al. | An overview of voice conversion and its challenges: From statistical modeling to deep learning | |
Oord et al. | Wavenet: A generative model for raw audio | |
Van Den Oord et al. | Wavenet: A generative model for raw audio | |
JP5665780B2 (en) | Speech synthesis apparatus, method and program | |
JP6777768B2 (en) | Word vectorization model learning device, word vectorization device, speech synthesizer, their methods, and programs | |
Tokuda et al. | Speech synthesis based on hidden Markov models | |
JP3933750B2 (en) | Speech recognition method and apparatus using continuous density Hidden Markov model | |
Veaux et al. | Intonation conversion from neutral to expressive speech | |
Jemine | Real-time voice cloning | |
Wang et al. | A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural $ F_0 $ Model for Statistical Parametric Speech Synthesis | |
Hsia et al. | Exploiting prosody hierarchy and dynamic features for pitch modeling and generation in HMM-based speech synthesis | |
WO2008038082A2 (en) | Prosody conversion | |
Hashimoto et al. | Trajectory training considering global variance for speech synthesis based on neural networks | |
JP4829477B2 (en) | Voice quality conversion device, voice quality conversion method, and voice quality conversion program | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
Pervaiz et al. | Emotion recognition from speech using prosodic and linguistic features | |
Vekkot et al. | Emotional voice conversion using a hybrid framework with speaker-adaptive DNN and particle-swarm-optimized neural network | |
Vekkot et al. | Hybrid framework for speaker-independent emotion conversion using i-vector PLDA and neural network | |
JP5807921B2 (en) | Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program | |
Koriyama et al. | Semi-Supervised Prosody Modeling Using Deep Gaussian Process Latent Variable Model. | |
JP6594251B2 (en) | Acoustic model learning device, speech synthesizer, method and program thereof | |
Wada et al. | Sequential generation of singing f0 contours from musical note sequences based on wavenet | |
Rashmi et al. | Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model | |
JP7469015B2 (en) | Learning device, voice synthesis device and program | |
Golda Brunet et al. | Transcription correction using group delay processing for continuous speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230710 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20230823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7469015 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |