JP2021056467A - Learning device, voice synthesis device and program - Google Patents

Learning device, voice synthesis device and program Download PDF

Info

Publication number
JP2021056467A
JP2021056467A JP2019181862A JP2019181862A JP2021056467A JP 2021056467 A JP2021056467 A JP 2021056467A JP 2019181862 A JP2019181862 A JP 2019181862A JP 2019181862 A JP2019181862 A JP 2019181862A JP 2021056467 A JP2021056467 A JP 2021056467A
Authority
JP
Japan
Prior art keywords
unit
context
relative
language
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019181862A
Other languages
Japanese (ja)
Other versions
JP7469015B2 (en
Inventor
信正 清山
Nobumasa Seiyama
信正 清山
清 栗原
Kiyoshi Kurihara
清 栗原
正 熊野
Tadashi Kumano
正 熊野
今井 篤
Atsushi Imai
篤 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2019181862A priority Critical patent/JP7469015B2/en
Publication of JP2021056467A publication Critical patent/JP2021056467A/en
Application granted granted Critical
Publication of JP7469015B2 publication Critical patent/JP7469015B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To stably obtain a high-quality voice signal when synthesizing an arbitrary text.SOLUTION: A language analysis unit 11 of a learning device 1 performs language analysis processing on a text of a voice corpus, and generates a context-dependent label. A relative valuation unit 12 converts time information related to rhythm of the context-dependent label into a relative value, and generates a context-dependent relative label. A context question group processing unit 13 performs context question group application processing on the context-dependent relative label, and generates a language feature matrix. A voice analysis unit 14 performs voice analysis processing on a voice signal corresponding to each text of the voice corpus, and obtains an acoustic feature amount. An associating unit 15 obtains the duration length of each phoneme by associating using a phoneme alignment technique, and obtains a language feature amount corresponding to the acoustic feature amount. A learning unit 16 learns a time length model using the language feature matrix and the duration length for each phoneme, and learns an acoustic model using the language feature amount and the acoustic feature amount for each frame.SELECTED DRAWING: Figure 1

Description

本発明は、テキスト及び音声信号を用いて統計モデルを学習する学習装置、統計モデルを用いてテキストから音声信号を合成する音声合成装置、及びこれらのプログラムに関する。 The present invention relates to a learning device that learns a statistical model using a text and a voice signal, a voice synthesizer that synthesizes a voice signal from a text using a statistical model, and a program thereof.

従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する音声信号を合成する方法として、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いた深層学習(DL:Deep Learning)に基づく技術が知られている(例えば、非特許文献1を参照)。 Conventionally, as a method of learning a statistical model using a text and a corresponding voice signal and synthesizing a voice signal for an arbitrary text, deep learning (DL: Deep) using a deep neural network (DNN) is used. A technique based on Learning) is known (see, for example, Non-Patent Document 1).

図18は、非特許文献1に記載された従来の事前学習処理のフローを示す説明図である。従来の事前学習を行う学習装置は、事前に用意されたテキストとこれに対応する音声信号を用いて、時間長モデル及び音響モデルを学習する。 FIG. 18 is an explanatory diagram showing a flow of the conventional pre-learning process described in Non-Patent Document 1. A conventional learning device that performs pre-learning learns a time-length model and an acoustic model using a text prepared in advance and a corresponding voice signal.

具体的には、学習装置は、テキストについては、音声コーパスから読み出して言語分析処理により文脈依存ラベルを求め(ステップS1801)、事前に用意した文脈に関する質問群を適用して言語特徴行列を求める(ステップS1802)。また、学習装置は、音声信号については、音声コーパスから読み出して音声分析処理により音響特徴量を求める(ステップS1803)。 Specifically, the learning device reads the text from the voice corpus and obtains a context-sensitive label by linguistic analysis processing (step S1801), and applies a group of questions about the context prepared in advance to obtain a language feature matrix (step S1801). Step S1802). Further, the learning device reads out the voice signal from the voice corpus and obtains the acoustic feature amount by the voice analysis process (step S1803).

学習装置は、言語特徴行列と音響特徴量との間の時間対応付けを行うことにより、音素毎の継続時間長を求め(ステップS1804)、音素毎の継続時間長及び言語特徴行列から言語特徴量を求める(ステップS1805)。そして、学習装置は、言語特徴行列及び音素毎の継続時間長を用いて、時間長モデルを学習する(ステップS1806)。また、学習装置は、言語特徴量及び音響特徴量を用いて音響モデルを学習する(ステップS1807)。 The learning device obtains the duration time length for each phoneme by time-associating the language feature matrix and the acoustic feature quantity (step S1804), and the language feature quantity is obtained from the duration time length and the language feature matrix for each phoneme. (Step S1805). Then, the learning device learns the time length model using the language feature matrix and the duration time length for each phoneme (step S1806). Further, the learning device learns the acoustic model using the language features and the acoustic features (step S1807).

図19は、非特許文献1に記載された従来の音声合成処理のフローを示す説明図である。従来の音声合成を行う音声合成装置は、任意のテキストを入力し、テキストから言語分析処理により文脈依存ラベルを求め(ステップS1901)、事前に用意した文脈に関する質問群を適用して言語特徴行列を求める(ステップS1902)。 FIG. 19 is an explanatory diagram showing a flow of the conventional speech synthesis process described in Non-Patent Document 1. A conventional speech synthesizer that performs speech synthesis inputs arbitrary text, obtains a context-sensitive label from the text by linguistic analysis processing (step S1901), and applies a group of questions about the context prepared in advance to obtain a language feature matrix. Obtain (step S1902).

音声合成装置は、言語特徴行列及び事前に学習した時間長モデルを用いて、音素毎の継続時間長を推定し(ステップS1903)、音素毎の継続時間長及び言語特徴行列から言語特徴量を求める(ステップS1904)。 The speech synthesizer estimates the duration length of each phoneme using the language feature matrix and the time length model learned in advance (step S1903), and obtains the language feature quantity from the duration time length of each phoneme and the language feature matrix. (Step S1904).

音声合成装置は、言語特徴量及び事前に学習した音響モデルを用いて、音響特徴量を推定する(ステップS1905)。そして、音声合成装置は、音響特徴量から音声生成処理にて音声信号波形を求めることにより、任意のテキストに対する合成した音声信号を得る(ステップS1906)。 The speech synthesizer estimates the acoustic features using the language features and the pre-learned acoustic model (step S1905). Then, the voice synthesizer obtains a voice signal waveform synthesized by voice generation processing from the acoustic features to obtain a synthesized voice signal for an arbitrary text (step S1906).

これらの一連の処理において、言語特徴量を求めるためには、学習装置及び音声合成装置は、まず、テキストに対して形態素解析及び構文解析等の言語分析処理を行い、これにより得られる情報に基づいて、文脈依存ラベルを求める。文脈依存ラベルは、所定の文脈依存ラベル形式で記述されたものであり、発話毎に求められ、音素単位で構成される。文脈依存ラベルの形式は言語によって異なるが、日本語においては、所定の形式を利用することができる(例えば、非特許文献2を参照)。 In order to obtain the linguistic feature quantity in these series of processes, the learning device and the speech synthesizer first perform linguistic analysis processing such as morphological analysis and parsing on the text, and based on the information obtained by this. To find the context-sensitive label. The context-sensitive label is described in a predetermined context-sensitive label format, is obtained for each utterance, and is composed of phoneme units. The format of the context-sensitive label differs depending on the language, but in Japanese, a predetermined format can be used (see, for example, Non-Patent Document 2).

学習装置及び音声合成装置は、次に、事前に文脈に関する質問群(例えば、非特許文献3を参照)を用意しておき、文脈依存ラベルにおける各行の音素の情報に質問群を適用し、言語特徴行列を求める。学習装置は、次に、言語特徴行列と音響特徴量との間の時間対応付けを行うことにより、音素毎の継続時間長を求める。一方、音声合成装置は、言語特徴行列及び事前に学習した時間長モデルを用いて、音素毎の継続時間長を推定する。 Next, the learning device and the speech synthesizer prepare a question group regarding the context in advance (see, for example, Non-Patent Document 3), apply the question group to the phoneme information of each line in the context-dependent label, and apply the question group to the language. Find the feature matrix. The learning device then obtains the duration length for each phoneme by time-associating the language feature matrix with the acoustic features. On the other hand, the speech synthesizer estimates the duration length of each phoneme by using the language feature matrix and the time length model learned in advance.

学習装置及び音声合成装置は、発話内における現在着目している音素の継続時間長に応じたフレーム(音響特徴量の処理単位)数分の言語特徴行列に、それぞれ音素の継続時間長に応じたフレーム数及びフレーム内の位置情報を付加することにより、音響特徴量に対応する言語特徴量を得る。 The learning device and the speech synthesizer correspond to the duration length of the phoneme in the language feature matrix of several frames (processing unit of the acoustic feature amount) according to the duration length of the phoneme currently being focused on in the speech. By adding the number of frames and the position information in the frame, the language feature amount corresponding to the acoustic feature amount is obtained.

Zhizheng Wu, Oliver Watts, Simon King,“Merlin:An Open Source Neural Network Speech Synthesis System”, in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA.Zhizheng Wu, Oliver Watts, Simon King, “Merlin: An Open Source Neural Network Speech Synthesis System”, in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA. “An example of context-dependent label format for HMM-based speech synthesis in Japanese”、[online]、HTS Working Group、Dec. 25, 2015、[令和1年9月7日検索]、インターネット<URL:http://hts.sp.nitech.ac.jp/>“An example of context-dependent label format for HMM-based speech synthesis in Japanese”, [online], HTS Working Group, Dec. 25, 2015, [Search on September 7, 1991], Internet <URL: http //hts.sp.nitech.ac.jp/> > “Added japanese question set compatible with OpenJTalk produced labels.”、[online]、HTS Working Group、Dec. 25, 2015、[令和1年9月7日検索]、インターネット<URL:https://github.com/CSTR-Edinburgh/merlin/blob/master/misc/questions/questions-japanese.hed>“Added japanese question set compatible with OpenJTalk produced labels.”, [Online], HTS Working Group, Dec. 25, 2015, [Searched on September 7, 1991], Internet <URL: https://github.com /CSTR-Edinburgh/merlin/blob/master/misc/questions/questions-japanese.hed >

前述の非特許文献1の方法においては、前述の非特許文献2に記載された形式に対応した文脈依存ラベルに、前述の非特許文献3に記載された文脈に関する質問群を適用して数値化することにより、言語特徴行列を求める。 In the method of the above-mentioned non-patent document 1, the question group regarding the context described in the above-mentioned non-patent document 3 is applied to the context-dependent label corresponding to the format described in the above-mentioned non-patent document 2 and quantified. By doing so, the language feature matrix is obtained.

しかしながら、この方法では、言語特徴行列の取り得る数値の組み合わせが膨大なものとなる。これは、言語特徴行列を構成する複数の要素について、取り得る数値の範囲が広くてまちまちであり、統一されていないからである。 However, in this method, the number of possible combinations of numerical values in the language feature matrix becomes enormous. This is because the range of possible numerical values for a plurality of elements constituting the language feature matrix is wide and different, and is not unified.

図18に示した事前学習処理においては、次元毎に正規化処理及び標準化処理を行うことで、統計モデルの学習が行われる。また、図19に示した音声合成処理においては、次元毎に正規化処理及び逆標準化処理を行うことで、統計モデルを用いた特徴量の推定が行われる。しかし、これらの処理に用いる言語特徴行列を構成する複数の要素のそれぞれは、特に連続的な数値の取り得る範囲が広い。 In the pre-learning process shown in FIG. 18, the statistical model is learned by performing the normalization process and the standardization process for each dimension. Further, in the speech synthesis process shown in FIG. 19, the feature amount is estimated using the statistical model by performing the normalization process and the destandardization process for each dimension. However, each of the plurality of elements constituting the language feature matrix used for these processes has a particularly wide range of continuous numerical values.

事前学習処理においては、言語特徴行列の取り得る数値の組み合わせをカバーすることができず、言語特徴行列の要素によっては連続的に分布しないため、疎(スパース)な状態となり、精度の高い統計モデルを学習することができない。そして、音声合成処理においては、任意のテキストを入力として言語特徴行列を求めたときに、その要素が連続的な数値の取り得る範囲の中にあるとしても、このような統計モデルを用いる限り、音素毎の継続時間長及び音響特徴量の推定精度が低くなってしまう。 In the pre-learning process, it is not possible to cover the possible combinations of numerical values of the language feature matrix, and some elements of the language feature matrix are not continuously distributed, resulting in a sparse state and a highly accurate statistical model. Can't learn. Then, in speech synthesis processing, when a language feature matrix is obtained by inputting arbitrary text, even if the elements are within a range in which continuous numerical values can be taken, as long as such a statistical model is used, The estimation accuracy of the duration length and the acoustic feature amount for each phoneme becomes low.

また、言語特徴行列の要素が、連続的な数値の取り得る範囲を超える外れ値となることにより、音素毎の継続時間長及び音響特徴量を推定する際に誤りが生じてしまう。これでは、合成した音声信号の品質が劣化し、音質が不安定となる可能性がある。 In addition, since the elements of the language feature matrix are outliers that exceed the range in which continuous numerical values can be taken, an error occurs when estimating the duration length and the acoustic feature amount for each phoneme. This may deteriorate the quality of the synthesized voice signal and make the sound quality unstable.

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることが可能な学習装置、音声合成装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above problems, and an object of the present invention is a learning device and voice capable of stably obtaining a high-quality voice signal when synthesizing a voice of an arbitrary text. To provide synthesizers and programs.

前記課題を解決するために、請求項1の学習装置は、予め音声信号がテキストに対応するように設定された前記テキスト及び前記音声信号に基づいて、音声合成に用いる時間長モデル及び音響モデルを学習する学習装置において、予め設定された前記テキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、予め設定された前記テキストに対応する前記音声信号について音声分析処理を行い、音響特徴量を求める音声分析部と、前記文脈質問群処理部により生成された前記言語特徴行列と前記音声分析部により求めた前記音響特徴量との時間的な対応付けを行い、音素毎の継続時間長を求め、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める対応付け部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記対応付け部により求めた前記音素毎の継続時間長を用いて、前記時間長モデルを学習し、前記対応付け部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を用いて、前記音響モデルを学習する学習部と、を備えたことを特徴とする。 In order to solve the above problem, the learning device according to claim 1 uses the text and the voice signal, which are set in advance so that the voice signal corresponds to the text, and uses a time length model and an acoustic model for voice synthesis. In the learning device to be learned, a language analysis unit that performs language analysis processing on the preset text and generates a context-dependent label, and time information related to the rhyme included in the context-dependent label generated by the language analysis unit. Is relativized to generate a context-dependent relative label containing the time information of the relative value related to the rhyme, and the context-dependent relative label generated by the relative value unit is preset. Speech analysis to obtain the amount of acoustic features by performing speech analysis processing on the context question group processing unit that applies the question group related to the context and generates the language feature matrix and the voice signal corresponding to the preset text. The language feature matrix generated by the context question group processing section and the acoustic feature amount obtained by the speech analysis section are temporally associated with each other, and the duration length of each phonetic element is obtained to obtain the phonetic element. The duration length for each and the duration length for each phonetic element obtained by the matching unit for obtaining the language feature quantity from the language feature matrix, the language feature matrix generated by the context question group processing unit, and the matching unit. With the learning unit that learns the time length model and learns the acoustic model using the language feature amount obtained by the association unit and the acoustic feature amount obtained by the speech analysis unit. It is characterized by being prepared.

また、請求項2の学習装置は、請求項1に記載の学習装置において、前記学習部が、前記時間長モデル及び前記音響モデルについて深層学習(DL:Deep Learning)を行う、ことを特徴とする。 The learning device according to claim 2 is the learning device according to claim 1, wherein the learning unit performs deep learning (DL) on the time length model and the acoustic model. ..

また、請求項3の学習装置は、請求項1に記載の学習装置において、前記相対値化部が、前記韻律に関わる時間情報を、発話内の呼気段落の数及び位置、発話内のアクセント句の数及び位置、発話内の拍の数及び位置、呼気段落内のアクセント句の数及び位置、呼気段落内の拍の数及び位置、アクセント句内の拍の位置、並びにアクセント句におけるアクセント核からの拍の位置のうちの1つまたは複数の情報とし、前記発話内の呼気段落の数の相対値及び位置の相対値、前記発話内のアクセント句の数の相対値及び位置の相対値、前記発話内の拍の数の相対値及び位置の相対値、前記呼気段落内のアクセント句の数の相対値及び位置の相対値、前記呼気段落内の拍の数の相対値及び位置の相対値、前記アクセント句内の拍の位置の相対値、並びに前記アクセント句におけるアクセント核からの拍の位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする。 Further, in the learning device according to the third aspect, in the learning device according to the first aspect, the relative valuation unit obtains time information related to the utterance, the number and position of exhalation paragraphs in the utterance, and an accent phrase in the utterance. From the number and position of, the number and position of beats in the utterance, the number and position of accent phrases in the exhalation paragraph, the number and position of beats in the exhalation paragraph, the position of beats in the accent phrase, and the accent nucleus in the accent phrase. One or more of the beat positions of the utterance, the relative value of the number of exhaled paragraphs and the relative value of the position in the utterance, the relative value of the number of accent phrases in the utterance and the relative value of the position, the above. Relative values of the number of beats and positions in the utterance, relative values of the number of accents and positions in the exhalation paragraph, relative values of the number of beats and positions in the exhalation paragraph, Includes one or more of the relative values of the beat positions in the accent phrase and the relative values of the beat positions from the accent nucleus in the accent phrase that correspond to the time information related to the utterance. It is characterized in that the context-dependent relative label is obtained.

さらに、請求項4の音声合成装置は、請求項1または2の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備えたことを特徴とする。 Further, the speech synthesizer according to claim 4 is a speech synthesizer that synthesizes a speech signal for an arbitrary text by using the time length model and the acoustic model learned by the learning device according to claim 1 or 2. The language analysis unit that performs speech analysis processing on the text and generates a context-dependent label and the time information related to the rhyme included in the context-dependent label generated by the language analysis unit are made into relative values, and the relative values related to the rhyme. For the relative valuation unit that generates the context-dependent relative label including the time information of the above and the context-dependent relative label generated by the relative valuation unit, a process of applying a preset question group regarding the context is performed. Using the context question group processing unit that generates the language feature matrix, the language feature matrix generated by the context question group processing unit, and the time length model, the duration length of each phonetic element is estimated, and the duration of each phonetic element is estimated. Acoustic feature amount estimation that estimates the acoustic feature amount using the time length estimation unit that obtains the language feature amount from the duration time length and the language feature matrix, and the language feature amount and the acoustic model obtained by the time length estimation unit. It is characterized by including a unit and a voice generation unit that synthesizes the voice signal based on the acoustic feature amount estimated by the acoustic feature amount estimation unit.

また、請求項5の音声合成装置は、請求項3の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備え、前記相対値化部が、前記韻律に関わる時間情報を、発話内の呼気段落の数及び位置、発話内のアクセント句の数及び位置、発話内の拍の数及び位置、呼気段落内のアクセント句の数及び位置、呼気段落内の拍の数及び位置、アクセント句内の拍の位置、並びにアクセント句におけるアクセント核からの拍の位置のうちの1つまたは複数の情報とし、前記発話内の呼気段落の数の相対値及び位置の相対値、前記発話内のアクセント句の数の相対値及び位置の相対値、前記発話内の拍の数の相対値及び位置の相対値、前記呼気段落内のアクセント句の数の相対値及び位置の相対値、前記呼気段落内の拍の数の相対値及び位置の相対値、前記アクセント句内の拍の位置の相対値、並びに前記アクセント句におけるアクセント核からの拍の位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする。 Further, the speech synthesizer according to claim 5 is a speech synthesizer that synthesizes a speech signal for an arbitrary text by using the time length model and the acoustic model learned by the learning device according to claim 3, with respect to the arbitrary text. The language analysis unit that performs language analysis processing and generates a context-dependent label and the time information related to the rhyme included in the context-dependent label generated by the language analysis unit are converted into relative values, and the relative values related to the rhyme are said. For the relative valuation unit that generates the context-dependent relative label including time information and the context-dependent relative label generated by the relative valuation unit, a process of applying a preset question group regarding the context is performed, and language features are performed. Using the context question group processing unit that generates a matrix, the language feature matrix generated by the context question group processing unit, and the time length model, the duration length of each phonetic element is estimated, and the duration of each phonetic element is estimated. A time length estimation unit that obtains the language feature amount from the length and the language feature matrix, and an acoustic feature amount estimation unit that estimates the acoustic feature amount using the language feature amount and the acoustic model obtained by the time length estimation unit. A voice generation unit that synthesizes the voice signal based on the acoustic feature amount estimated by the acoustic feature amount estimation unit, and the relative valuation unit provides time information related to the rhyme in the speech. Number and position of exhalation paragraphs, number and position of accent phrases in speech, number and position of beats in speech, number and position of accent phrases in exhalation paragraph, number and position of beats in exhalation paragraph, accent phrase Relative value of the number of exhalation paragraphs in the speech, relative value of the position, accent in the speech, with information on one or more of the position of the beat in the speech and the position of the beat from the accent nucleus in the accent phrase. Relative value of number of phrases and relative value of position, relative value of number of beats in the speech and relative value of position, relative value of number of accent phrases in the exhalation paragraph and relative value of position, in the exhalation paragraph Time information related to the rhyme among the relative value of the number of beats and the relative value of the position, the relative value of the position of the beat in the accent phrase, and the relative value of the position of the beat from the accent nucleus in the accent phrase. It is characterized in that the context-dependent relative label containing the one or a plurality of the relative values corresponding to is obtained.

さらに、請求項6のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の学習装置として機能させることを特徴とする。 Further, the program of claim 6 is characterized in that the computer functions as the learning device according to any one of claims 1 to 3.

さらに、請求項7のプログラムは、コンピュータを、請求項4または5に記載の音声合成装置として機能させることを特徴とする。 Further, the program of claim 7 is characterized in that the computer functions as the speech synthesizer according to claim 4 or 5.

以上のように、本発明によれば、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。 As described above, according to the present invention, it is possible to stably obtain a high-quality voice signal when synthesizing a voice of an arbitrary text.

本発明の実施形態による学習装置の構成を示すブロック図である。It is a block diagram which shows the structure of the learning apparatus by embodiment of this invention. 学習装置の事前学習処理を示すフローチャートである。It is a flowchart which shows the pre-learning process of a learning apparatus. 言語分析部のステップS201の言語分析処理、及び文脈依存ラベルのデータ構成を説明する図である。It is a figure explaining the language analysis process of step S201 of the language analysis part, and the data structure of a context-sensitive label. 非特許文献2に記載された文脈依存ラベルの形式例を示す図である。It is a figure which shows the form example of the context-sensitive label described in Non-Patent Document 2. 文脈依存相対ラベルを生成する際の、韻律に関わる時間情報の相対値化処理の例を説明する図である。It is a figure explaining the example of the relative value processing of the time information related to the prosody when generating the context-sensitive relative label. 非特許文献3に記載された文脈に関する質問群例を示す図である。It is a figure which shows the example of the question group about the context described in Non-Patent Document 3. 文脈質問群処理部のステップS203の文脈質問群適用処理、及び音素毎の言語特徴行列のデータ構成を説明する図である。It is a figure explaining the context question group application processing of step S203 of the context question group processing part, and the data structure of the language feature matrix for each phoneme. 音声分析部のステップS204の音声分析処理、及びフレーム毎の音響特徴量のデータ構成を説明する図である。It is a figure explaining the voice analysis process of step S204 of the voice analysis unit, and the data structure of the acoustic feature amount for each frame. 対応付け部のステップS205の音素アライメント処理、及び音素毎の継続時間長のデータ構成を説明する図である。It is a figure explaining the phoneme alignment process of step S205 of the correspondence part, and the data structure of the duration length for each phoneme. 対応付け部のステップS206の言語特徴量抽出処理、及びフレーム毎の言語特徴量のデータ構成を説明する図である。It is a figure explaining the language feature amount extraction process of step S206 of the association part, and the data structure of the language feature amount for each frame. 学習部のステップS207の時間長モデル学習処理を説明する図である。It is a figure explaining the time length model learning process of step S207 of a learning part. 学習部のステップS208の音響モデル学習処理を説明する図である。It is a figure explaining the acoustic model learning process of step S208 of a learning part. 本発明の実施形態による音声合成装置の構成を示すブロック図である。It is a block diagram which shows the structure of the voice synthesis apparatus by embodiment of this invention. 音声合成装置の音声合成処理を示すフローチャートである。It is a flowchart which shows the voice synthesis processing of a voice synthesis apparatus. 音声生成部の音声生成処理を説明する図である。It is a figure explaining the voice generation processing of a voice generation part. 時間長モデルの実験結果を示す図である。It is a figure which shows the experimental result of the time length model. 音響モデルの実験結果を示す図である。It is a figure which shows the experimental result of an acoustic model. 非特許文献1に記載された従来の事前学習処理のフローを示す説明図である。It is explanatory drawing which shows the flow of the conventional pre-learning process described in Non-Patent Document 1. 非特許文献1に記載された従来の音声合成処理のフローを示す説明図である。It is explanatory drawing which shows the flow of the conventional speech synthesis processing described in Non-Patent Document 1.

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、テキストを言語分析して生成した文脈依存ラベルについて、韻律に関わる時間情報を相対値化して文脈依存相対ラベルを生成し、文脈依存相対レベルに文脈質問群を適用して言語特徴行列を生成することを特徴とする。 Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings. In the present invention, for a context-dependent label generated by linguistic analysis of text, time information related to prosody is relativized to generate a context-sensitive relative label, and a context-sensitive question group is applied to the context-dependent relative level to apply a linguistic feature matrix. Is characterized in that.

これにより、事前学習処理において、韻律に関わる時間情報を相対値化することで、言語特徴行列の所定の要素において、取り得る数値の範囲内で連続的に分布させることができ、疎な状態となる程度を低減することができる。そして、精度の高い統計モデル(時間長モデル及び音響モデル)を学習することができる。 As a result, in the pre-learning process, by converting the time information related to prosody into a relative value, it is possible to continuously distribute the time information related to the prosody within the range of possible numerical values in a predetermined element of the language feature matrix, resulting in a sparse state. It can be reduced to a certain extent. Then, a highly accurate statistical model (time length model and acoustic model) can be learned.

また、音声合成処理において、このような時間長モデル及び音響モデルを用いることで、音素毎の継続時間長及び音響特徴量を推定する際の精度を高くすることができる。また、言語特徴行列の要素は、外れ値になり難くなるから、時間長モデル及び音響モデルを用いて音素毎の継続時間長及び音響特徴量を推定する際に、誤りが生じ難くなる。 Further, by using such a time length model and an acoustic model in the speech synthesis processing, it is possible to improve the accuracy in estimating the duration time length and the acoustic feature amount for each phoneme. Further, since the elements of the language feature matrix are less likely to be outliers, errors are less likely to occur when estimating the duration length and the acoustic feature amount for each phoneme using the time length model and the acoustic model.

したがって、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。 Therefore, a high-quality voice signal can be stably obtained when synthesizing arbitrary text.

以下、本発明の実施形態について、時間長モデル及び音響モデルを事前学習する学習装置、及び、学習装置により学習された時間長モデル及び音響モデルを用いて、音声合成を行う音声合成装置について説明する。学習装置及び音声合成装置が扱う音声信号はモノラルであり、標本化周波数は48kHz、ビット数は16で標本化されているものとする。 Hereinafter, embodiments of the present invention will be described with respect to a learning device that pre-learns a time-length model and an acoustic model, and a speech synthesizer that performs speech synthesis using the time-length model and the acoustic model learned by the learning device. .. It is assumed that the speech signal handled by the learning device and the speech synthesizer is monaural, the sampling frequency is 48 kHz, and the number of bits is 16.

尚、本発明の実施形態では、日本語を対象として説明するが、他の言語においても、文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化する手法を適用することができる。 In the embodiment of the present invention, Japanese will be described as an object, but in other languages as well, a method of relativizing the time information related to the prosody included in the context-sensitive label can be applied.

〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。図1は、本発明の実施形態による学習装置の構成を示すブロック図であり、図2は、学習装置の事前学習処理を示すフローチャートである。
[Learning device]
First, the learning device according to the embodiment of the present invention will be described. FIG. 1 is a block diagram showing a configuration of a learning device according to an embodiment of the present invention, and FIG. 2 is a flowchart showing a pre-learning process of the learning device.

この学習装置1は、音声コーパスが記憶された記憶部10、言語分析部11、相対値化部12、文脈質問群処理部13、音声分析部14、対応付け部15、学習部16、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18を備えている。 The learning device 1 includes a storage unit 10 in which a voice corpus is stored, a language analysis unit 11, a relative value conversion unit 12, a context question group processing unit 13, a voice analysis unit 14, a correspondence unit 15, a learning unit 16, and a time length. A storage unit 17 in which a model is stored and a storage unit 18 in which an acoustic model is stored are provided.

(音声コーパス)
記憶部10には、予め設定された音声コーパスが格納されている。音声コーパスは、予め設定されたテキストと、これに対応する予め設定された音声信号から構成される。例えば、ATR(株式会社国際電気通信基礎技術研究所)により作成された音素バランス503文を利用する場合、テキストとこれを読み上げた音声信号は、503対からなる。例えば、503対のうち統計モデルの訓練用に493対、評価用に8対、テスト用に5対を利用する。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、 pp.89-90(1988.3)
(Voice corpus)
A preset voice corpus is stored in the storage unit 10. The voice corpus is composed of a preset text and a corresponding preset voice signal. For example, when using a phoneme balance 503 sentence created by ATR (Advanced Telecommunications Research Institute International, Inc.), the text and the audio signal read aloud are composed of 503 pairs. For example, of the 503 pairs, 493 pairs are used for training statistical models, 8 pairs are used for evaluation, and 5 pairs are used for testing. For the voice corpus, refer to the following documents.
Kenichi Iso, Takao Watanabe, Nao Kuwahara, "Design of Sentence Set for Speech Database", Sound Lecture (Spring), pp.89-90 (March 1988)

(言語分析部11)
言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、テキストについて既知の言語分析処理を行う(ステップS201)。そして、言語分析部11は、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報等の各情報を求め、文脈依存ラベルを生成する。言語分析部11は、音素毎の文脈依存ラベルを相対値化部12に出力する。
(Language Analysis Department 11)
The language analysis unit 11 reads each text of the voice corpus from the storage unit 10 and performs a known language analysis process on the text (step S201). Then, the language analysis unit 11 obtains each information such as phoneme information, accent information, part of speech information, accent phrase information, exhalation paragraph information, and total number information for each phoneme constituting the sentence, and generates a context-dependent label. The language analysis unit 11 outputs a context-dependent label for each phoneme to the relative value conversion unit 12.

図3は、言語分析部11のステップS201の言語分析処理、及び文脈依存ラベルのデータ構成を説明する図である。図3に示すように、文脈依存ラベルは、図2のステップS201の言語分析処理により生成され、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。この例は、テキストが「あらゆる現実を、すべて自分の方へ捻じ曲げたのだ。」の場合の文脈依存ラベルである。 FIG. 3 is a diagram illustrating the language analysis process of step S201 of the language analysis unit 11 and the data structure of the context-sensitive label. As shown in FIG. 3, the context-sensitive label is generated by the language analysis process in step S201 of FIG. 2, and is composed of phoneme information, accent information, part-of-speech information, accent phrase information, exhalation paragraph information, and total number information for each phoneme. Will be done. This example is a context-sensitive label when the text is "Twisted all the reality towards you."

言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab:Yet Another Part-of-Speech and Morphological Analyzer”,インターネット<URL:http://taku910.github.io/mecab/>
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜:Yet Another Japanese Dependency Structure Analyzer”,インターネット<URL:https://taku910.github.io/cabocha/>
As the language analysis process, for example, the morphological analysis process described below is used.
“MeCab: Yet Another Part-of-Speech and Morphological Analyzer”, Internet <URL: http://taku910.github.io/mecab/>
Further, as the language analysis process, for example, the dependency analysis process described below is used.
“CaboCha / Pumpkin: Yet Another Japanese Dependency Structure Analyzer”, Internet <URL: https://taku910.github.io/cabocha/>

(文脈依存ラベルの形式)
文脈依存ラベルの形式は言語によって異なるが、日本語においては、例えば前述の非特許文献2に記載された形式を利用することができる。図4は、非特許文献2に記載された文脈依存ラベルの形式例を示す図である。
(Context-sensitive label format)
The format of the context-sensitive label differs depending on the language, but in Japanese, for example, the format described in Non-Patent Document 2 described above can be used. FIG. 4 is a diagram showing a format example of the context-sensitive label described in Non-Patent Document 2.

図4に示す文脈依存ラベルの形式では、文脈依存ラベルにおいて、現在着目している音素に関する情報が1行に記述される。音素毎の文脈依存ラベルとしては、現在着目している音素及びこれに隣接する前後2つの音素を併せた5つの音素(p1〜p5)、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1〜a3)、現在着目している音素の属するアクセント句における形態素の品詞及びその活用形並びに活用型(c1〜c3)、現在着目している音素の属するアクセント句に隣接するアクセント句における形態素の品詞及びその活用形並びに活用型(b1〜b3,d1〜d3)、現在着目している音素の属するアクセント句の拍数、アクセント核の拍単位での位置及びアクセント句のタイプ(疑問形か疑問形でないか)並びに現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f1〜f8)、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置並びに現在着目している音素の属するアクセント句と隣接するアクセント句との間のポーズの有無(e1〜e5,g1〜g5)、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1〜i8)、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)、発話内の呼気段落数、アクセント句数及び拍数(k1〜k3)等が使用される。 In the context-sensitive label format shown in FIG. 4, the information about the phoneme currently being focused on is described in one line in the context-sensitive label. The context-dependent labels for each phoneme are five phonemes (p1 to p5) that combine the phoneme currently being focused on and the two adjacent phonemes before and after it, and the beat unit in the accent phrase to which the phoneme currently being focused belongs. Position and position in beat units from the accent nucleus (a1 to a3), part of the phoneme in the accent phrase to which the phoneme currently being focused on belongs, its utilization form and utilization type (c1 to c3), currently focusing on Part of morphology in the accent phrase adjacent to the accent phrase to which the phoneme belongs, its utilization form and utilization type (b1 to b3, d1 to d3), the number of beats of the accent phrase to which the phoneme currently of interest belongs, and the beat unit of the accent nucleus. Position and accent phrase type (whether questionable or not) and the position and beat unit of the accent phrase to which the currently focused phoneme belongs in the exhalation paragraph to which the currently focused phoneme belongs. Position (f1 to f8), the number of beats of the accent phrase adjacent to the accent phrase to which the currently focused phoneme belongs, the position of the accent core in beat units, and the accent adjacent to the accent phrase to which the currently focused phoneme belongs. Presence or absence of pauses between phrases (e1 to e5, g1 to g5), the number of accent phrases and beats in the exhalation paragraph to which the phoneme currently in focus belongs, and the exhalation paragraph to which the phoneme currently in interest belongs in the utterance. Position in exhalation paragraph unit, position in accent phrase unit and beat unit (i1 to i8), number of accent phrases and beats in exhalation paragraph adjacent to the exhalation paragraph to which the phoneme currently of interest belongs (h1, h2, j1) , J2), the number of exhaled paragraphs in the utterance, the number of accent phrases and the number of beats (k1 to k3), etc. are used.

文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成される。韻律に関わる情報のうちの時間情報は、相対値化部12による相対値化処理の対象である。図4に示した文脈依存ラベルの形式において、韻律に関わる時間情報は、a1〜a3,f1,f2,f5〜f8,e1,e2,g1,g2,i1〜i8,h1,h2,j1,j2である。 A context-sensitive label is composed of information related to phonology and information related to prosody. The time information among the information related to prosody is the target of the relative value processing by the relative value unit 12. In the context-dependent label format shown in FIG. 4, the time information related to the rhythm is a1 to a3, f1, f2, f5 to f8, e1, e2, g1, g2, i1 to i8, h1, h2, j1, j2. Is.

(相対値化部12)
相対値化部12は、言語分析部11から音素毎の文脈依存ラベルを入力し、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行う(ステップS202)。そして、相対値化部12は、音素毎に、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成し、音素毎の文脈依存相対ラベルを文脈質問群処理部13に出力する。ここでの相対値は、例えば0〜1の範囲における実数値である。
(Relative value conversion unit 12)
The relative valuation unit 12 inputs a context-dependent label for each phoneme from the language analysis unit 11, and performs a time information relative valuation process for relativizing the time information related to prosody for the context-dependent label for each phoneme (step). S202). Then, the relative valuation unit 12 generates a context-dependent relative label including time information of the relative value related to prosody for each phoneme, and outputs the context-dependent relative label for each phoneme to the context question group processing unit 13. The relative value here is, for example, a real value in the range of 0 to 1.

前述のとおり、文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成され、この韻律に関わる情報は、絶対的な整数値である。これに対し、文脈依存相対ラベルも、音韻に関わる情報及び韻律に関わる情報から構成されるが、この韻律に関わる情報のうち時間情報については、相対的な実数値であり、時間情報以外の情報については、絶対的な整数値である。 As described above, the context-sensitive label is composed of information related to phonology and information related to prosody, and the information related to this prosody is an absolute integer value. On the other hand, the context-dependent relative label is also composed of information related to phonology and information related to prosody, but among the information related to this prosody, time information is a relative real value and information other than time information. Is an absolute integer value.

ここで、従来技術において、言語分析処理(図18のステップS1801または図19のステップS1901の処理)により生成された音素毎の文脈依存ラベルを用いて、文脈質問群適用処理(ステップS1802またはステップS1902)が行われる。これにより生成される言語特徴行列において、文脈依存ラベルの絶対的な整数値に対応する要素の数値も、絶対的な整数値となる。 Here, in the prior art, the context question group application process (step S1802 or step S1902) is performed using the context-dependent label for each phoneme generated by the language analysis process (process of step S1801 of FIG. 18 or step S1901 of FIG. 19). ) Is performed. In the language feature matrix generated by this, the numerical value of the element corresponding to the absolute integer value of the context-sensitive label is also an absolute integer value.

事前学習処理においては、言語特徴行列の要素の値が連続的な数値の取り得る範囲の中にあるとしても、言語特徴行列の要素が疎な状態であるため、統計モデルを精度高く学習することはできない。このため、音声合成処理においては、このような統計モデルを用いて音素毎の継続時間長及び音響特徴量を推定する際の精度が低くなってしまう。また、言語特徴行列の要素の値が連続的な数値の取り得る範囲を超える外れ値となった場合には、音素毎の継続時間長及び音響特徴量の推定に誤りが生じてしまう。これでは、合成した音声信号の品質が劣化する場合があり、音質が不安定となる。 In the pre-learning process, even if the values of the elements of the language feature matrix are within the range of continuous numerical values, the elements of the language feature matrix are sparse, so the statistical model should be learned with high accuracy. Can't. Therefore, in the speech synthesis process, the accuracy when estimating the duration length and the acoustic feature amount for each phoneme using such a statistical model becomes low. Further, when the value of the element of the language feature matrix becomes an outlier exceeding the range in which continuous numerical values can be taken, an error occurs in the estimation of the duration length and the acoustic feature amount for each phoneme. In this case, the quality of the synthesized voice signal may deteriorate, and the sound quality becomes unstable.

そこで、本発明の実施形態では、相対値化部12は、言語分析処理により生成された音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化し、音韻に関わる相対値(相対的な実数値)の時間情報を含む文脈依存相対ラベルを生成するようにした。これにより生成される言語特徴行列において、文脈依存相対ラベルの相対的な実数値に対応する要素の数値も、相対的な実数値となる。 Therefore, in the embodiment of the present invention, the relative valuation unit 12 relativizes the time information related to prosody for the context-dependent label for each phoneme generated by the linguistic analysis process, and the relative value (relative) related to phonology. Changed to generate a context-sensitive relative label containing time information (real value). In the language feature matrix generated by this, the numerical value of the element corresponding to the relative real value of the context-sensitive relative label is also a relative real value.

事前学習処理において、言語特徴行列の要素の値が連続的な数値の取り得る範囲の中にある場合、言語特徴行列の要素は疎な状態とはならない。このため、統計モデルを精度高く学習することができる。そして、音声合成処理において、このような統計モデルを用いることで、高品質な音声信号を安定的に得ることができる。 In the pre-learning process, when the values of the elements of the language feature matrix are within the range of continuous numerical values, the elements of the language feature matrix are not in a sparse state. Therefore, the statistical model can be learned with high accuracy. Then, by using such a statistical model in the speech synthesis processing, a high-quality speech signal can be stably obtained.

(文脈依存相対ラベル)
相対値化部12は、文脈依存ラベルを構成する複数の情報のうち、韻律に関わる時間情報について相対値化し、相対的な数値ではない(相対値化できない)情報について相対値化しないで、文脈依存相対ラベルを生成する。以下、韻律に関わる時間情報の相対値化処理について、具体的に説明する。
(Context-sensitive relative label)
The relative valuation unit 12 relativizes the time information related to the prosody among the plurality of information constituting the context-sensitive label, and does not relativize the information that is not a relative numerical value (cannot be relativized), but the context. Generate dependent relative labels. Hereinafter, the relative value processing of the time information related to the prosody will be specifically described.

尚、相対値化できない情報は、韻律に関わる時間情報以外の情報であり、例えば、発話内の呼気段落数、アクセント句数及び拍数(k1〜k3)である。 The information that cannot be converted into relative values is information other than the time information related to prosody, for example, the number of exhaled paragraphs, the number of accent phrases, and the number of beats (k1 to k3) in the utterance.

<1>韻律に関わる時間情報として、発話内の呼気段落の位置等を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1〜i8)について、それぞれ発話内の呼気段落数、アクセント句数及び拍数(k1〜k3)で除算し、相対値(I1〜I8)を求める。相対値(I1,I2)は相対的な数(割合)を示し、相対値(I3〜I8)は相対的な位置を示す。
[数1]
I1=i1/k2
I2=i2/k3
In=in/k1 for n=3,4
In=in/k2 for n=5,6
In=in/k3 for n=7,8 ・・・(1)
<1> When the position of the exhalation paragraph in the utterance is used as the time information related to the phoneme The relative value unit 12 currently pays attention to the plurality of information constituting the context-dependent label by the following formula. About the number of accent phrases and the number of beats in the exhalation paragraph to which the phoneme belongs, the position of the exhalation paragraph to which the phoneme currently of interest belongs in the utterance in the exhalation paragraph unit, the position in the accent phrase unit and the beat unit (i1 to i8) , Divide by the number of exhaled paragraphs, the number of accent phrases and the number of beats (k1 to k3) in the utterance, and obtain the relative values (I1 to I8). Relative values (I1, I2) indicate relative numbers (ratio), and relative values (I3 to I8) indicate relative positions.
[Number 1]
I1 = i1 / k2
I2 = i2 / k3
In = in / k1 for n = 3,4
In = in / k2 for n = 5,6
In = in / k3 for n = 7,8 ・ ・ ・ (1)

前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落におけるアクセント句数(i1)を、発話内のアクセント句数(k2)で除算することで、i1についての相対値(I1)を求める。 In the above equation (1), the relative valuation unit 12 divides the number of accent phrases (i1) in the exhalation paragraph to which the phoneme currently being focused on belongs by the number of accent phrases (k2) in the utterance, thereby relating to i1. Find the relative value (I1) of.

前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落における拍数(i2)を、発話内の拍数(k3)で除算することで、i2についての相対値(I2)を求める。 In the above equation (1), the relative value unit 12 divides the beat number (i2) in the exhalation paragraph to which the phoneme currently being focused belongs by the beat number (k3) in the utterance, thereby making it relative to i2. Find the value (I2).

図5は、文脈依存相対ラベルを生成する際の、韻律に関わる時間情報の相対値化処理の例を説明する図である。図5において、発話は人が発した会話の文である。呼気段落は一息の発話区間であり、発話の文を無音区間で区切った際の段落に相当する。アクセント句は、最大で1つのアクセントが含まれる、文法的または意味的なまとまりである。拍は、一定の時間的長さを有する音の文節単位であり、モーラともいう。また、音素は、言語学的な意味で、音声の最小基本単位である。 FIG. 5 is a diagram illustrating an example of relative valuation processing of time information related to prosody when generating a context-sensitive relative label. In FIG. 5, the utterance is a sentence of a conversation uttered by a person. The exhalation paragraph is the utterance section of a breath, and corresponds to the paragraph when the sentence of the utterance is divided by the silence section. An accent phrase is a grammatical or semantic group containing up to one accent. A beat is a phrase unit of a sound having a certain time length, and is also called a mora. Phonemes are the smallest basic unit of speech in the linguistic sense.

例えば、発話「将来は全部彼の方へ」の場合、呼気段落は、「将来は」及び「全部彼の方へ」である。また、アクセント句は、「将来は」「全部」「彼の」及び「方へ」であり、拍は、「しょ」「う」「ら」「い」「は」「ぜ」「ん」「ぶ」「か」「れ」「の」「ほ」「う」及び「へ」である。 For example, in the case of the utterance "all towards him in the future", the exhalation paragraphs are "in the future" and "all towards him". In addition, the accent phrases are "in the future," "all," "his," and "toward," and the beats are "sho," "u," "ra," "i," "ha," "ze," "n," and "n." They are "bu", "ka", "re", "no", "ho", "u", and "he".

現在着目している音素が、アクセント句「彼の」における拍「か」の時間長の中にある場合を想定する。この場合、現在着目している音素の属する呼気段落は、「全部彼の方へ」であり、当該呼気段落に対応するアクセント句は、「全部」「彼の」及び「方へ」である。また、当該呼気段落に対応する拍は、「ぜ」「ん」「ぶ」「か」「れ」「の」「ほ」「う」及び「へ」である。 Suppose that the phoneme you are currently focusing on is in the time length of the beat "ka" in the accent phrase "his". In this case, the exhalation paragraph to which the phoneme currently being focused belongs is "all toward him", and the accent phrases corresponding to the exhalation paragraph are "all", "his", and "toward". The beats corresponding to the exhaled paragraph are "ze", "n", "bu", "ka", "re", "no", "ho", "u", and "he".

したがって、現在着目している音素の属する呼気段落におけるアクセント句数i1=3であり、発話内のアクセント句数k2=4であり、現在着目している音素の属する呼気段落における拍数i2=9、発話内の拍数k3=14である。したがって、i1についての相対値I1=i1/k2=3/4=0.75、i2についての相対値I2=i2/k3=9/14=0.64となる Therefore, the number of accent phrases i1 = 3 in the exhalation paragraph to which the phoneme currently being focused on belongs, the number of accent phrases k2 = 4 in the utterance, and the number of beats i2 = 9 in the exhalation paragraph to which the phoneme currently being focused belongs. , The number of beats in the utterance k3 = 14. Therefore, the relative value I1 = i1 / k2 = 3/4 = 0.75 for i1 and the relative value I2 = i2 / k3 = 9/14 = 0.64 for i2.

前記式(1)に戻って、相対値化部12は、現在着目している音素の属する呼気段落の呼気段落単位での順方向の位置(i3)を、発話内の呼気段落数(k1)で除算することで、i3についての相対値(I3)を求める。 Returning to the above equation (1), the relative valuation unit 12 determines the forward position (i3) of the exhalation paragraph to which the phoneme currently being focused belongs in the exhalation paragraph unit, and the number of exhalation paragraphs (k1) in the utterance. By dividing by, the relative value (I3) for i3 is obtained.

前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の呼気段落単位での逆方向の位置(i4)を、発話内の呼気段落数(k1)で除算することで、i4についての相対値(I4)を求める。 In the above equation (1), the relative value unit 12 divides the position (i4) in the opposite direction in the exhalation paragraph unit of the exhalation paragraph to which the phoneme currently being focused belongs by the number of exhalation paragraphs (k1) in the utterance. By doing so, the relative value (I4) for i4 is obtained.

前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落のアクセント句単位での順方向の位置(i5)を、発話内のアクセント句数(k2)で除算することで、i5についての相対値(I5)を求める。 In the above equation (1), the relative valuation unit 12 divides the forward position (i5) in the accent phrase unit of the exhalation paragraph to which the phoneme currently being focused belongs by the number of accent phrases (k2) in the utterance. By doing so, the relative value (I5) for i5 is obtained.

前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落のアクセント句単位での逆方向の位置(i6)を、発話内のアクセント句数(k2)で除算することで、i6についての相対値(I6)を求める。 In the above equation (1), the relative value unit 12 divides the position (i6) in the opposite direction in the accent phrase unit of the exhalation paragraph to which the phoneme currently being focused belongs by the number of accent phrases (k2) in the utterance. By doing so, the relative value (I6) for i6 is obtained.

前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の拍単位での順方向の位置(i7)を、発話内の拍数(k3)で除算することで、i7についての相対値(I7)を求める。 In the above equation (1), the relative value unit 12 divides the forward position (i7) in the beat unit of the exhalation paragraph to which the phoneme currently being focused belongs by the number of beats (k3) in the utterance. Then, find the relative value (I7) for i7.

前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の拍単位での逆方向の位置(i8)を、発話内の拍数(k3)で除算することで、i8についての相対値(I8)を求める。 In the above equation (1), the relative value unit 12 divides the position (i8) in the opposite direction in beat units of the exhalation paragraph to which the phoneme currently being focused belongs by the number of beats (k3) in the utterance. Then, find the relative value (I8) for i8.

このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1〜i8)を用いる場合、前記式(1)にて相対値(I1〜I8)を求める。 In this way, the relative value conversion unit 12 uses the number of accent phrases and the number of beats in the exhalation paragraph to which the phoneme currently being focused on belongs as the time information related to the prosody, and the expiratory paragraph to which the phoneme currently being focused in the speech belongs. When the position in the exhaled paragraph unit, the position in the accent phrase unit and the position in the beat unit (i1 to i8) are used, the relative value (I1 to I8) is obtained by the above equation (1).

また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)について、それぞれ発話内のアクセント句数及び拍数(k2,k3)で除算し、相対値(H1,H2,J1,J2)を求める。相対値(H1,H2,J1,J2)は相対的な数を示す。
[数2]
H1=h1/k2
H2=h2/k3
J1=j1/k2
J2=j2/k3 ・・・(2)
In addition, the relative value conversion unit 12 uses the following formula to determine the number of accent phrases and the number of beats of the exhalation paragraph adjacent to the exhalation paragraph to which the phoneme currently being focused belongs, among the plurality of information constituting the context-dependent label. For h1, h2, j1, j2), divide by the number of accent phrases and the number of beats (k2, k3) in the utterance, respectively, to obtain the relative values (H1, H2, J1, J2). Relative values (H1, H2, J1, J2) indicate relative numbers.
[Number 2]
H1 = h1 / k2
H2 = h2 / k3
J1 = j1 / k2
J2 = j2 / k3 ・ ・ ・ (2)

前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の前に隣接する呼気段落のアクセント句数(h1)を、発話内のアクセント句数(k2)で除算することで、h1についての相対値(H1)を求める。 In the above equation (2), the relative value conversion unit 12 uses the number of accent phrases (k2) in the utterance to determine the number of accent phrases (h1) in the expiratory paragraph adjacent to the expiratory paragraph to which the phoneme currently being focused belongs. By dividing, the relative value (H1) for h1 is obtained.

前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の前に隣接する呼気段落の拍数(h2)を、発話内の拍数(k3)で除算することで、h2についての相対値(H2)を求める。 In the above equation (2), the relative value unit 12 divides the beat number (h2) of the expiratory paragraph adjacent to the expiratory paragraph to which the phoneme currently being focused belongs by the beat number (k3) in the utterance. By doing so, the relative value (H2) for h2 is obtained.

前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の後に隣接する呼気段落のアクセント句数(j1)を、発話内のアクセント数(k2)で除算することで、j1についての相対値(J1)を求める。 In the above equation (2), the relative value conversion unit 12 divides the number of accent phrases (j1) in the expiratory paragraph adjacent to the expiratory paragraph to which the phoneme currently being focused belongs by the number of accents (k2) in the utterance. By doing so, the relative value (J1) for j1 is obtained.

前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の後に隣接する呼気段落の拍数(j2)を、発話内の拍数(k3)で除算することで、j2についての相対値(J2)を求める。 In the above equation (2), the relative value unit 12 divides the beat number (j2) of the expiratory paragraph adjacent to the expiratory paragraph to which the phoneme currently being focused belongs by the beat number (k3) in the speech. Then, find the relative value (J2) for j2.

このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)を用いる場合、前記式(2)にて相対値(H1,H2,J1,J2)を求める。 In this way, the relative value conversion unit 12 determines the number of accent phrases and the number of beats (h1, h2, j1, j2) of the expiratory paragraph adjacent to the expiratory paragraph to which the phoneme currently being focused belongs as time information related to the rhyme. When used, the relative values (H1, H2, J1, J2) are obtained by the above equation (2).

<2>韻律に関わる時間情報として、呼気段落内のアクセント句の位置等を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句の拍数及びアクセント核の拍単位での位置(f1,f2)について、それぞれ現在着目している音素の属する呼気段落における拍数及びアクセント句の拍数(i2,f1)で除算し、相対値(F1,F2)を求める。ここで、アクセント核は、音が低くなる直前の高い音節の部分をいう。相対値(F1)は相対的な数を示し、相対値(F2)は相対的な位置を示す。
[数3]
F1=f1/i2
F2=f2/f1 ・・・(3)
<2> When the position of the accent phrase in the exhalation paragraph is used as the time information related to the phoneme The relative value unit 12 currently pays attention to the plurality of information constituting the context-dependent label by the following formula. Regarding the number of beats of the accent phrase to which the phoneme belongs and the position (f1, f2) of the accent nucleus in beat units, the number of beats and the number of beats of the accent phrase (i2, f1) in the exhalation paragraph to which the phoneme currently of interest belongs, respectively. ) To find the relative values (F1, F2). Here, the accent nucleus refers to the part of the high syllable immediately before the sound becomes low. Relative value (F1) indicates a relative number, and relative value (F2) indicates a relative position.
[Number 3]
F1 = f1 / i2
F2 = f2 / f1 ・ ・ ・ (3)

前記式(3)において、相対値化部12は、現在着目している音素の属するアクセント句の拍数(f1)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f1についての相対値(F1)を求める。 In the above equation (3), the relative value unit 12 divides the beat number (f1) of the accent phrase to which the phoneme currently being focused belongs by the beat number (i2) in the exhalation paragraph to which the phoneme currently being focused belongs. By doing so, the relative value (F1) for f1 is obtained.

前記式(3)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核の拍単位での位置(f2)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、f2についての相対値(F2)を求める。 In the above equation (3), the relative value unit 12 determines the position (f2) of the accent nucleus in the accent phrase to which the phoneme currently being focused belongs in beat units, and the beat of the accent phrase to which the phoneme currently being focused belongs. The relative value (F2) for f2 is obtained by dividing by the number (f1).

このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属するアクセント句の拍数及びアクセント核の拍単位での位置(f1,f2)を用いる場合、前記式(3)にて相対値(F1,F2)を求める。 As described above, when the relative value conversion unit 12 uses the number of beats of the accent phrase to which the phoneme currently being focused on and the position (f1, f2) of the accent nucleus in beat units as the time information related to the prosody, the above-mentioned Find the relative values (F1, F2) with Eq. (3).

また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f5〜f8)について、それぞれ現在着目している音素の属する呼気段落におけるアクセント句数及び拍数(i1,i2)で除算し、相対値(F5〜F8)を求める。相対値(F5〜F8)は相対的な位置を示す。
[数4]
Fn=fn/i1 for n=5,6
Fn=fn/i2 for n=7,8 ・・・(4)
In addition, the relative value conversion unit 12 uses the following formula to accent the accent phrase to which the phoneme currently being focused belongs in the exhalation paragraph to which the phoneme currently being focused belongs among the plurality of information constituting the context-dependent label. The position in phrase units and the position in beat units (f5 to f8) are divided by the number of accent phrases and beats (i1, i2) in the exhalation paragraph to which the phoneme of interest belongs, respectively, and the relative values (F5 to i2). Find F8). Relative values (F5 to F8) indicate relative positions.
[Number 4]
Fn = fn / i1 for n = 5,6
Fn = fn / i2 for n = 7,8 ・ ・ ・ (4)

前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での順方向の位置(f5)を、現在着目している音素の属する呼気段落におけるアクセント句数(i1)で除算することで、f5についての相対値(F5)を求める。 In the above equation (4), the relative value unit 12 determines the forward position (f5) of the accent phrase to which the phoneme currently being focused belongs in the expiratory paragraph to which the phoneme currently being focused belongs in the accent phrase unit. The relative value (F5) for f5 is obtained by dividing by the number of accent phrases (i1) in the exhalation paragraph to which the phoneme currently being focused belongs.

前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での逆方向の位置(f6)を、現在着目している音素の属する呼気段落におけるアクセント句数(i1)で除算することで、f6についての相対値(F6)を求める。 In the above equation (4), the relative value unit 12 determines the position (f6) in the opposite direction in the accent phrase unit of the accent phrase to which the phoneme currently being focused belongs in the exhalation paragraph to which the phoneme currently being focused belongs. The relative value (F6) for f6 is obtained by dividing by the number of accent phrases (i1) in the exhalation paragraph to which the phoneme currently being focused belongs.

前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句の拍単位での順方向の位置(f7)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f7についての相対値(F7)を求める。 In the above equation (4), the relative value unit 12 currently determines the forward position (f7) of the accent phrase to which the currently focused phoneme belongs in the exhalation paragraph to which the currently focused phoneme belongs in beat units. The relative value (F7) for f7 is obtained by dividing by the number of beats (i2) in the exhalation paragraph to which the phoneme of interest belongs.

前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句の拍単位での逆方向の位置(f8)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f8についての相対値(F8)を求める。 In the above equation (4), the relative value unit 12 currently determines the position (f8) in the beat unit of the accent phrase to which the currently focused phoneme belongs in the exhalation paragraph to which the currently focused phoneme belongs. The relative value (F8) for f8 is obtained by dividing by the number of beats (i2) in the exhalation paragraph to which the phoneme of interest belongs.

このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f5〜f8)を用いる場合、前記式(4)にて相対値(F5〜F8)を求める。 In this way, the relative value conversion unit 12 uses the position of the accent phrase to which the currently focused phoneme belongs in the exhalation paragraph to which the currently focused phoneme belongs and the beat unit as the time information related to the prosody. When the position (f5 to f8) of is used, the relative value (F5 to F8) is obtained by the above equation (4).

また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置(e1,e2,g1,g2)について、それぞれ現在着目している音素の属するアクセント句に隣接するアクセント句の属する呼気段落におけるアクセント句数及びアクセント句の拍数(i’2,e1,i”2,g1)で除算し、相対値(E1,E2,G1,G2)を求める。相対値(E1,G1)は相対的な数を示し、相対値(E2,G2)は相対的な位置を示す。
[数5]
E1=e1/i’2
E2=e2/e1
G1=g1/i”2
G2=g2/g1 ・・・(5)
In addition, the relative value conversion unit 12 uses the following equation to calculate the number of beats of the accent phrase adjacent to the accent phrase to which the phoneme currently being focused belongs and the beat of the accent nucleus among the plurality of information constituting the context-dependent label. Regarding the position in the unit (e1, e2, g1, g2), the number of accent phrases and the number of beats of the accent phrase (i'2,) in the expiratory paragraph to which the accent phrase that is adjacent to the accent phrase to which the phoneme currently being focused belongs belongs. Divide by e1, i "2, g1) to find the relative values (E1, E2, G1, G2). The relative values (E1, G1) indicate relative numbers, and the relative values (E2, G2) are relative. Indicates a typical position.
[Number 5]
E1 = e1 / i'2
E2 = e2 / e1
G1 = g1 / i ”2
G2 = g2 / g1 ・ ・ ・ (5)

前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の前に隣接するアクセント句の拍数(e1)を、現在着目している音素の属するアクセント句に隣接する順方向のアクセント句の属する呼気段落におけるアクセント句数(i’2)で除算することで、e1についての相対値(E1)を求める。 In the above equation (5), the relative value conversion unit 12 sets the beat number (e1) of the accent phrase adjacent to the accent phrase to which the phoneme currently being focused on belongs to the accent phrase to which the phoneme currently being focused belongs. The relative value (E1) for e1 is obtained by dividing by the number of accent phrases (i'2) in the expiratory paragraph to which the adjacent forward accent phrases belong.

前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の前に隣接するアクセント句のアクセント核の拍単位での位置(e2)を、現在着目している音素の属するアクセント句の前に隣接するアクセント句の拍数(e1)で除算することで、e2についての相対値(E2)を求める。 In the above equation (5), the relative value unit 12 is currently paying attention to the position (e2) of the accent nucleus of the accent phrase adjacent to the accent phrase to which the phoneme currently being focused belongs in beat units. The relative value (E2) for e2 is obtained by dividing by the number of beats (e1) of the adjacent accent phrase before the accent phrase to which the phoneme belongs.

前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の後に隣接するアクセント句の拍数(g1)を、現在着目している音素の属するアクセント句の後に隣接するアクセント句の属する呼気段落におけるアクセント句数(i”2)で除算することで、g1についての相対値(G1)を求める。 In the above equation (5), the relative value unit 12 sets the beat number (g1) of the accent phrase adjacent to the accent phrase to which the phoneme currently being focused on belongs after the accent phrase to which the phoneme currently being focused belongs. The relative value (G1) for g1 is obtained by dividing by the number of accent phrases (i "2) in the exhalation paragraph to which the adjacent accent phrase belongs.

前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の後に隣接するアクセント句のアクセント核の拍単位での位置(g2)を、現在着目している音素の属するアクセント句の後に隣接するアクセント句の拍数(g1)で除算することで、g2についての相対値(G2)を求める。 In the above equation (5), the relative value conversion unit 12 determines the position (g2) of the accent nucleus of the accent phrase adjacent to the accent phrase to which the phoneme currently of interest belongs in beat units. The relative value (G2) for g2 is obtained by dividing by the number of beats (g1) of the adjacent accent phrase after the accent phrase to which the belongs.

このように、相対値化部12は、韻律に関わる時間情報として、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置(e1,e2,g1,g2)を用いる場合、前記式(5)にて相対値(E1,E2,G1,G2)を求める。 In this way, the relative value conversion unit 12 uses the number of beats and the accent of the accent phrase adjacent to the accent phrase to which the phoneme currently being focused on belongs among the plurality of information constituting the context-dependent label as the time information related to the prosody. When the position of the nucleus in beat units (e1, e2, g1, g2) is used, the relative value (E1, E2, G1, G2) is obtained by the above equation (5).

<3>韻律に関わる時間情報として、アクセント句内の拍の位置及びアクセント句内の拍とアクセント核との間の相対位置(アクセント句内のアクセント核からの拍の位置)を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1〜a3)について、現在着目している音素の属するアクセント句の拍数(f1)で除算し、相対値(A1〜A3)を求める。相対値(A1〜A3)は相対的な位置を示す。
[数6]
An=an/f1 for n=1,2,3 ・・・(6)
<3> When the position of the beat in the accent phrase and the relative position between the beat in the accent phrase and the accent nucleus (the position of the beat from the accent nucleus in the accent phrase) are used as the time information related to the rhyme. In the following equation, the conversion unit 12 uses the following formula to describe the position in beat units of the accent phrase to which the phoneme currently being focused belongs and the position in beat units from the accent nucleus among the plurality of information constituting the context-dependent label ( Divide a1 to a3) by the number of beats (f1) of the accent phrase to which the phoneme of interest belongs to obtain the relative value (A1 to A3). Relative values (A1 to A3) indicate relative positions.
[Number 6]
An = an / f1 for n = 1,2,3 ・ ・ ・ (6)

前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句における拍単位での位置(a1)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a1についての相対値(A1)を求める。 In the above equation (6), the relative value unit 12 determines the position (a1) in beat units of the accent phrase to which the phoneme currently being focused belongs, and the number of beats (f1) of the accent phrase to which the phoneme currently being focused belongs. ) To find the relative value (A1) for a1.

前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核からの拍単位での順方向の位置(a2)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a2についての相対値(A2)を求める。 In the above equation (6), the relative value unit 12 determines the forward position (a2) in beat units from the accent nucleus in the accent phrase to which the phoneme currently being focused belongs, to which the phoneme currently being focused belongs. The relative value (A2) for a2 is obtained by dividing by the number of beats (f1) of the accent phrase.

前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核からの拍単位での逆方向の位置(a3)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a3についての相対値(A3)を求める。 In the above equation (6), the relative value conversion unit 12 determines the position (a3) in the opposite direction in beat units from the accent nucleus in the accent phrase to which the phoneme currently being focused belongs, to which the phoneme currently being focused belongs. The relative value (A3) for a3 is obtained by dividing by the number of beats (f1) of the accent phrase.

このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1〜a3)を用いる場合、前記式(6)にて相対値(A1〜A3)を求める。 In this way, the relative value conversion unit 12 determines the position in beat units and the position in beat units (a1 to a3) from the accent nucleus in the accent phrase to which the phoneme currently being focused belongs as time information related to prosody. When used, the relative values (A1 to A3) are obtained by the above formula (6).

そして、相対値化部12は、以下のように、文脈依存相対ラベルを生成する。
p1^p2-p3+p4=p5/A:A1+A2+A3
/B:b1-b2_b3/C:c1_c2+c3/D:d1+d2_d3
/E:E1_E2!e3_e4-e5/F:F1_F2#f3_f4@F5_F6|F7_F8/G:G1_G2%g3_g4_g5
/H:H1_H2/I:I1-I2@I3+I4&I5-I6|I7+I8/J:J1_J2
尚、前記の文脈依存相対ラベルは、便宜上4行に分割して記述しているが、実際は音素毎に1行で記述する。詳細については、前述の非特許文献2を参照されたい。
Then, the relative valuation unit 12 generates a context-sensitive relative label as follows.
p1 ^ p2-p3 + p4 = p5 / A: A1 + A2 + A3
/ B: b1-b2_b3 / C: c1_c2 + c3 / D: d1 + d2_d3
/ E: E1_E2! E3_e4-e5 / F: F1_F2 # f3_f4 @ F5_F6 | F7_F8 / G: G1_G2% g3_g4_g5
/ H: H1_H2 / I: I1-I2 @ I3 + I4 & I5-I6 | I7 + I8 / J: J1_J2
Although the context-sensitive relative label is described by dividing it into four lines for convenience, it is actually described by one line for each phoneme. For details, refer to Non-Patent Document 2 described above.

(文脈質問群処理部13)
図1及び図2に戻って、文脈質問群処理部13は、相対値化部12から音素毎の文脈依存相対ラベルを入力し、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行う(ステップS203)。そして、文脈質問群処理部13は、音素毎の言語特徴行列を生成し、音素毎の言語特徴行列を対応付け部15に出力する。
(Contextual Question Group Processing Unit 13)
Returning to FIGS. 1 and 2, the context question group processing unit 13 inputs the context-dependent relative label for each phoneme from the relative value conversion unit 12, and applies the question group regarding the context to the context-dependent relative label for each phoneme. The context question group application process is performed (step S203). Then, the context question group processing unit 13 generates a language feature matrix for each phoneme, and outputs the language feature matrix for each phoneme to the association unit 15.

図6は、非特許文献3に記載された文脈に関する質問群例を示す図である。この文脈に関する質問群は、1行につき1つの質問が記述されており、質問毎に、1項目目の質問セット種別(「QS(Question Set):質問セット」または「CQS(Continuous Question Set):連続値質問セット」)、2項目目のラベル(“”内の文字列で表したラベル)、及び3項目目の条件({}内の文字列で表した条件)から構成される。 FIG. 6 is a diagram showing an example of a question group regarding the context described in Non-Patent Document 3. In the question group related to this context, one question is described per line, and for each question, the first question set type (“QS (Question Set): Question Set” or “CQS (Continuous Question Set):”: "Continuous value question set"), the second item label (label represented by the character string in ""), and the third item condition (condition represented by the character string in {}).

つまり、質問は、質問セットである「QS」及び連続値質問セットである「CQS」のいずれかで記述される。 That is, the question is described by either the question set "QS" or the continuous value question set "CQS".

質問セット種別が「QS」の場合、2項目目のラベルの値として、文脈依存ラベルのデータが3項目目の条件として指定された文字列に合致するときに「1」、合致しないときに「0」が与えられる。つまり、質問セット種別が「QS」の場合に得られるデータは、2値のうちのいずれかをとるバイナリな特徴量のバイナリデータとなる。 When the question set type is "QS", the value of the label of the second item is "1" when the data of the context-sensitive label matches the character string specified as the condition of the third item, and "1" when it does not match. 0 "is given. That is, the data obtained when the question set type is "QS" is binary data having a binary feature amount that takes one of two values.

尚、3項目目の条件として、複数の文字列を「,」で接続することによって、文字列のいずれかに合致するときに「1」、いずれにも合致しないときに「0」が与えられるという論理和が定義される。 As the condition of the third item, by connecting a plurality of character strings with ",", "1" is given when any of the character strings is matched, and "0" is given when none of the character strings are matched. The logical sum is defined.

質問セット種別が「CQS」の場合、2項目目のラベルの値として、文脈依存ラベルのデータが3項目目の条件として指定した文字列による数値を抽出する正規表現に合致するときに、その数値が与えられ、合致しないときに「0」が与えられる。つまり、質問セット種別が「CQS」の場合に得られるデータは、連続的な特徴量の数値データとなる。 When the question set type is "CQS", as the value of the label of the second item, when the data of the context-sensitive label matches the regular expression that extracts the numerical value of the character string specified as the condition of the third item, that numerical value. Is given, and "0" is given when they do not match. That is, the data obtained when the question set type is "CQS" is the numerical data of the continuous feature amount.

図6に示した文脈に関する質問群例は、従来の非特許文献3に記載されたものであるが、本発明の実施形態においても、同様の質問群例が用いられる。つまり、文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、質問セット種別が「QS」の場合、2項目目のラベルの値として、文脈依存相対ラベルのデータが3項目目の条件として指定した文字列に合致するときに「1」、合致しないときに「0」を与えることで、言語特徴行列のバイナリデータを求める。 The context-related question group example shown in FIG. 6 is described in the conventional non-patent document 3, but the same question group example is also used in the embodiment of the present invention. That is, in the context question group processing unit 13, regarding the context-dependent relative label for each phonetic element, when the question set type is "QS", the data of the context-sensitive relative label is the condition of the third item as the value of the label of the second item. By giving "1" when the character string specified as is matched and "0" when it does not match, the binary data of the language feature matrix is obtained.

また、文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、質問セット種別が「CQS」の場合、2項目目のラベルの値として、文脈依存相対ラベルのデータが3項目目の条件として指定した文字列による数値を抽出する正規表現に合致するときに、その数値を与え、合致しないときに「0」を与えることで、言語特徴行列の数値データを求める。この場合、文脈依存相対ラベルのデータが音韻に関わる時間情報であるとき、言語特徴行列の数値データとして相対的な実数値が求められる。 Further, regarding the context-dependent relative label for each phonetic element, the context-question group processing unit 13 sets the condition that the data of the context-dependent relative label is the third item as the value of the label of the second item when the question set type is "CQS". Extract the numerical value by the character string specified as. When the regular expression is matched, the numerical value is given, and when it does not match, "0" is given to obtain the numerical data of the language feature matrix. In this case, when the context-sensitive relative label data is time information related to phonology, a relative real value is obtained as the numerical data of the language feature matrix.

このように、質問セット種別が「CQS」の場合、従来技術では、文脈依存ラベルのデータが音韻に関わる時間情報であるとき、当該時間情報は絶対的な整数値であるため、対応する言語特徴行列の数値データも、絶対的な整数値となる。これに対し、本発明の実施形態では、文脈依存相対ラベルのデータが音韻に関わる時間情報であるとき、当該時間情報は相対的な実数値であるため、対応する言語特徴行列の数値データも、相対的な実数値となる。 As described above, when the question set type is "CQS", in the prior art, when the data of the context-dependent label is the time information related to the phonology, the time information is an absolute integer value, and therefore the corresponding language feature. The numerical data of the matrix is also an absolute integer value. On the other hand, in the embodiment of the present invention, when the data of the context-dependent relative label is the time information related to the phonology, the time information is a relative real value, so that the numerical data of the corresponding language feature matrix is also It is a relative real value.

図7は、文脈質問群処理部13のステップS203の文脈質問群適用処理、及び音素毎の言語特徴行列のデータ構成を説明する図である。文脈質問群処理部13は、文脈依存相対ラベルについて、予め用意しておいた文脈に関する質問群を適用することで、図2のステップS203の処理を行い、音素毎に言語特徴行列を求める。 FIG. 7 is a diagram illustrating the context question group application process of step S203 of the context question group processing unit 13 and the data structure of the language feature matrix for each phoneme. The context question group processing unit 13 performs the process of step S203 of FIG. 2 by applying the question group related to the context prepared in advance to the context-dependent relative label, and obtains the language feature matrix for each phoneme.

具体的には、文脈質問群処理部13は、文脈依存相対ラベルの1行に記された1つの音素に関する情報毎に、文脈に関する全ての質問群を適用し、全ての質問群に対するデータ(バイナリな特徴量のバイナリデータ、及び連続的な特徴量の数値データ)を求める。そして、文脈質問群処理部13は、音素毎の言語特徴行列を生成する。 Specifically, the context question group processing unit 13 applies all the question groups related to the context to each information related to one phonetic element described in one line of the context-dependent relative label, and data (binary) for all the question groups. Binary data of various features and numerical data of continuous features) are obtained. Then, the context question group processing unit 13 generates a language feature matrix for each phoneme.

例えば、文脈依存相対ラベルのデータの行数(音素数)をNpとし、「QS」で始まる質問数がNb個、「CQS」で始まる質問数がNc個、合計でNq個(Nq=Nb+Nc)の質問群で構成される場合を想定する。この場合、文脈質問群処理部13は、文脈依存相対ラベルの行(音素)毎に、Nq個の質問に対するデータを求める。そして、文脈質問群処理部13は、Nb次元のバイナリデータ及びNc次元の数値データからなる合計Nq次元のベクトルを持つ(Np,Nq)の行列を、言語特徴行列として生成する。 For example, let N p be the number of rows (phonic prime numbers) of the context-sensitive relative label data, and N b the number of questions starting with "QS" and N c the number of questions starting with "CQS", for a total of N q (N q). It is assumed that the question group is composed of N q = N b + N c). In this case, the context question group processing unit 13 obtains data for N q questions for each row (phoneme) of the context-sensitive relative label. Then, the context question group processing unit 13 generates a matrix (N p , N q ) having a total N q dimensional vector composed of N b dimensional binary data and N c dimensional numerical data as a language feature matrix. ..

文脈に関する質問群において、質問セット種別が「QS」の場合の質問数がNb=643個であり、質問セット種別が「CQS」の質問数がNc=25個であるとする。この場合、文脈質問群処理部13は、文脈依存相対ラベルの1行に記述された1つの音素に関する情報について、全ての質問群を適用することで、643次元のバイナリデータ及び25次元の数値データを求める。 In the context-related question group, it is assumed that the number of questions when the question set type is "QS" is N b = 643, and the number of questions when the question set type is "CQS" is N c = 25. In this case, the context question group processing unit 13 applies all the question groups to the information about one phoneme described in one line of the context-sensitive relative label, thereby performing 643 dimensional binary data and 25 dimensional numerical data. Ask for.

そして、文脈質問群処理部13は、文脈依存相対ラベルを構成する全ての音素に関する情報について、それぞれ643次元のバイナリデータ及び25次元の数値データを求め、音素毎の言語特徴行列(643次元のバイナリデータ+25次元の数値データ)を生成する。 Then, the context question group processing unit 13 obtains 643 dimensional binary data and 25 dimensional numerical data for information on all the phonemes constituting the context-dependent relative label, respectively, and obtains a language feature matrix for each phonetic element (643 dimensional binary). Data + 25-dimensional numerical data) is generated.

ここで、従来技術では、図18のステップS1802及び図19のステップS1902に示したとおり、絶対的な整数値の数値データ(図4において例えばi1=1〜49)を含む文脈依存ラベルを用いて、言語特徴行列が生成される。質問セット種別が「CQS」の場合、絶対的な整数値の数値データを含む文脈依存ラベルから、絶対的な整数値の数値データが得られ、絶対的な整数値の数値データを含む言語特徴行列が生成される。前述のとおり、この絶対的な整数値の数値データは、取り得る値の範囲内で連続的に分布しないため、疎な状態となる。 Here, in the prior art, as shown in step S1802 of FIG. 18 and step S1902 of FIG. 19, a context-sensitive label containing numerical data of absolute integer values (for example, i1 = 1-49 in FIG. 4) is used. , A language feature matrix is generated. When the question set type is "CQS", the numerical data of the absolute integer value is obtained from the context-dependent label containing the numerical data of the absolute integer value, and the language feature matrix containing the numerical data of the absolute integer value. Is generated. As described above, the numerical data of this absolute integer value is not continuously distributed within the range of possible values, so that it is in a sparse state.

これに対し、本発明の実施形態では、図2のステップS203及び後述する図14のステップS1403に示すとおり、相対的な実数値の数値データ(例えば0〜1の範囲における実数値、図5において例えばI1=0.75)を含む文脈依存相対ラベルを用いて、言語特徴行列が生成される。質問セット種別が「CQS」の場合、相対的な実数値の数値データを含む文脈依存相対ラベルから、相対的な実数値の数値データが得られ、相対的な実数値の数値データを含む言語特徴行列が生成される。この相対的な実数値の数値データについては、取り得る値の範囲において連続的に分布するため、疎な状態の程度が従来技術に比べて低減される。これにより、精度の高い時間長モデル及び音響モデルを学習することができる。 On the other hand, in the embodiment of the present invention, as shown in step S203 of FIG. 2 and step S1403 of FIG. 14 described later, relative real value numerical data (for example, real value in the range of 0 to 1, in FIG. 5). A language feature matrix is generated using, for example, a context-sensitive relative label containing I1 = 0.75). When the question set type is "CQS", the relative real-valued numerical data is obtained from the context-dependent relative label containing the relative real-valued numerical data, and the language feature including the relative real-valued numerical data. A matrix is generated. Since this relative real-valued numerical data is continuously distributed within the range of possible values, the degree of sparse state is reduced as compared with the prior art. As a result, it is possible to learn a time-length model and an acoustic model with high accuracy.

(音声分析部14)
図1及び図2に戻って、音声分析部14は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出す。そして、音声分析部14は、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音声(音響)分析処理を行い、フレーム毎の所定情報からなる音響特徴量を求める(ステップS204)。音声分析部14は、フレーム毎の音響特徴量を対応付け部15に出力する。
(Voice analysis unit 14)
Returning to FIGS. 1 and 2, the voice analysis unit 14 reads out each voice signal corresponding to each text of the voice corpus from the storage unit 10. Then, the voice analysis unit 14 cuts out a voice signal for each frame, performs a known voice (sound) analysis process on the voice signal for each frame, and obtains an acoustic feature amount consisting of predetermined information for each frame (step S204). The voice analysis unit 14 outputs the acoustic feature amount for each frame to the association unit 15.

音声分析処理としては、例えば以下に記載された処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”,インターネット<URL:https://github.com/mmorise/World>
また、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”,インターネット<URL:http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
As the voice analysis process, for example, the process described below is used.
“A high-quality speech analysis, manipulation and synthesis system”, Internet <URL: https://github.com/mmorise/World>
Further, for example, the audio signal processing described below is used.
“Speech Signal Processing Toolkit (SPTK) Version 3.11 December 25, 2017”, Internet <URL: http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”

図8は、音声分析部14のステップS204の音声分析処理、及びフレーム毎の音響特徴量のデータ構成を説明する図である。音声分析部14は、記憶部10から音声コーパスの各音声信号を読み出し、フレーム長25msの音声信号をフレームシフト5ms毎に切り出す(ステップS801)。そして、音声分析部14は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める(ステップS802)。 FIG. 8 is a diagram illustrating the voice analysis process of step S204 of the voice analysis unit 14 and the data structure of the acoustic feature amount for each frame. The voice analysis unit 14 reads out each voice signal of the voice corpus from the storage unit 10, and cuts out the voice signal having a frame length of 25 ms every 5 ms of a frame shift (step S801). Then, the voice analysis unit 14 performs acoustic analysis processing on the voice signal for each frame, and obtains the spectrum, the pitch frequency, and the aperiodic component (step S802).

音声分析部14は、スペクトルをメルケプストラム分析してメルケプストラム係数MGCを求める(ステップS803)。また、音声分析部14は、ピッチ周波数から有声/無声判定情報VUVを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数LF0を求める(ステップS804)。また、音声分析部14は、非周期成分をメルケプストラム分析して帯域非周期成分BAPを求める(ステップS805)。 The voice analysis unit 14 analyzes the spectrum with mer cepstrum to obtain the mer cepstrum coefficient MGC (step S803). Further, the voice analysis unit 14 obtains the voiced / unvoiced determination information VUV from the pitch frequency, logarithms the voiced sections of the pitch frequency, and interpolates the unvoiced and unvoiced sections using the information of the voiced sections before and after the pitch frequency. The pitch frequency LF0 is obtained (step S804). Further, the voice analysis unit 14 analyzes the aperiodic component by mer cepstrum to obtain the band aperiodic component BAP (step S805).

これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数MGC、有声/無声判定情報VUV、対数ピッチ周波数LF0及び帯域非周期成分BAPが得られる。 As a result, the mer cepstrum coefficient MGC, the voiced / unvoiced determination information VUV, the logarithmic pitch frequency LF0, and the band aperiodic component BAP can be obtained for each frame as the acoustic features of the static characteristics.

音声分析部14は、メルケプストラム係数MGCの1次差分Δを算出して1次差分メルケプストラム係数ΔMGCを求め(ステップS806)、2次差分Δ2を算出して2次差分メルケプストラム係数Δ2MGCを求める(ステップS807)。 The voice analysis unit 14 calculates the first-order difference Δ of the mer-cepstrum coefficient MGC to obtain the first-order difference mer-cepstrum coefficient ΔMGC (step S806), and calculates the second-order difference Δ 2 to calculate the second-order difference mer-cepstrum coefficient Δ 2. Find the MGC (step S807).

音声分析部14は、対数ピッチ周波数LF0の1次差分Δを算出して1次差分対数ピッチ周波数ΔLF0を求め(ステップS808)、2次差分Δ2を算出して2次差分対数ピッチ周波数Δ2LF0を求める(ステップS809)。 Sound analysis unit 14 calculates a primary difference delta logarithmic pitch frequency LF0 seeking primary differential logarithmic pitch frequency DerutaLF0 (step S808), secondary calculates the secondary difference delta 2 differential logarithmic pitch frequency delta 2 LF0 is obtained (step S809).

音声分析部14は、帯域非周期成分BAPの1次差分Δを算出して1次差分帯域非周期成分ΔBAPを求め(ステップS810)、2次差分Δ2を算出して2次差分帯域非周期成分Δ2BAPを求める(ステップS811)。 Sound analysis unit 14 calculates a primary difference delta band aperiodic component BAP but a first differential band aperiodic component DerutaBAP (step S810), 2 calculates the second-order difference delta secondary differential band aperiodic The component Δ 2 BAP is obtained (step S811).

これにより、動特性の音響特徴量として、フレーム毎に、1次差分メルケプストラム係数ΔMGC、2次差分メルケプストラム係数Δ2MGC、1次差分対数ピッチ周波数ΔLF0、2次差分対数ピッチ周波数Δ2LF0、1次差分帯域非周期成分ΔBAP及び2次差分帯域非周期成分Δ2BAPが得られる。 Thus, as the acoustic feature quantity of the dynamic characteristics, for each frame, the primary difference mel-cepstrum coefficients DerutaMGC, 2-order differential mel-cepstrum coefficient delta 2 MGC, primary differential logarithmic pitch frequency ΔLF0,2 order difference logarithmic pitch frequency delta 2 LF0 primary difference band aperiodic component ΔBAP and secondary differential band aperiodic component delta 2 BAP is obtained.

このようにして得られた音響特徴量は、フレーム毎に、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVから構成される。この音響特徴量は、199次元のデータから構成される。 The acoustic features obtained in this way are the static characteristic merkepstrum coefficient MGC, the logarithmic pitch frequency LF0 and the band aperiodic component BAP, the first-order difference merkepstrum coefficient ΔMGC of the dynamic characteristics, and the first-order difference logarithm for each frame. Pitch frequency ΔLF0, primary difference band aperiodic component ΔBAP, secondary difference mer cepstrum coefficient Δ 2 MGC, secondary difference logarithmic pitch frequency Δ 2 LF0 and secondary difference band aperiodic component Δ 2 BAP, and static characteristic voiced / It is composed of silent judgment information VUV. This acoustic feature is composed of 199-dimensional data.

(対応付け部15)
図1及び図2に戻って、対応付け部15は、文脈質問群処理部13から音素毎の言語特徴行列を入力すると共に、音声分析部14からフレーム毎の音響特徴量を入力する。
(Association unit 15)
Returning to FIGS. 1 and 2, the association unit 15 inputs the language feature matrix for each phoneme from the context question group processing unit 13, and inputs the acoustic feature amount for each frame from the voice analysis unit 14.

対応付け部15は、既知の音素アライメントの技術を用いて、音素毎の言語特徴行列とフレーム毎の音響特徴量との間で時間対応付け処理を行う(ステップS205)。そして、対応付け部15は、テキストの文を構成する言語特徴行列の各音素が、音響特徴量における音声信号のどの時刻に位置(対応)するのかを算出し、音素毎の継続時間長を求める。 The associating unit 15 uses a known phoneme alignment technique to perform time associative processing between the language feature matrix for each phoneme and the acoustic feature amount for each frame (step S205). Then, the associating unit 15 calculates at which time of the audio signal each phoneme of the language feature matrix constituting the text sentence is positioned (corresponding) in the acoustic feature amount, and obtains the duration length of each phoneme. ..

対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長を学習部16に出力する。音素毎の言語特徴行列及び音素毎の継続時間長は、時間長モデルの学習のために用いられる。 The association unit 15 outputs the language feature matrix for each phoneme and the duration time for each phoneme to the learning unit 16. The language feature matrix for each phoneme and the duration time for each phoneme are used for learning the time length model.

この継続時間長は、ミリ秒(ms)単位の時間情報がフレームシフト5msで除算され、これにより得られる5msフレーム単位の数値が用いられる。 For this duration length, the time information in milliseconds (ms) is divided by a frame shift of 5 ms, and the value obtained in 5 ms frames is used.

音素アライメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit(HTK)”,インターネット<URL:http://htk.eng.cam.ac.uk>
“The HTK Book (for HTK Version 3.4)”,Cambridge University Engineering Department ,インターネット<URL:www.seas.ucla.edu/spapl/weichu/htkbook/>
As the phoneme alignment technique, for example, the speech recognition process described below is used.
"The Hidden Markov Model Toolkit (HTK)", Internet <URL: http://htk.eng.cam.ac.uk>
“The HTK Book (for HTK Version 3.4)”, Cambridge University Engineering Department, Internet <URL: www.seas.ucla.edu/spapl/weichu/htkbook/>

図9は、対応付け部15のステップS205の音素アライメント処理、及び音素毎の継続時間長のデータ構成を説明する図である。対応付け部15は、1音素あたり668次元のデータからなる言語特徴行列と1フレームあたり199次元の音響特徴量とを用いて、ステップS205の音素アライメント処理の時間的な対応付けにより、音素毎の継続時間長を求める。具体的には、対応付け部15は、言語特徴行列における音素毎に、対応する音響特徴量における開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、音素の時間長(フレーム数)を音素毎の継続時間長(1次元の数値データ)として生成する。 FIG. 9 is a diagram illustrating the phoneme alignment process of step S205 of the association unit 15 and the data structure of the duration length for each phoneme. The associating unit 15 uses a language feature matrix consisting of 668-dimensional data per phoneme and an acoustic feature amount of 199 dimensions per frame, and by temporally associating the phoneme alignment processing in step S205, for each phoneme. Find the duration length. Specifically, the association unit 15 generates time information consisting of a start frame number and an end frame number in the corresponding acoustic feature amount for each phoneme in the language feature matrix, and the time length (number of frames) of the phoneme. Is generated as the duration length (one-dimensional numerical data) for each phoneme.

図1及び図2に戻って、対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長について、既知の言語特徴量抽出処理を行い(ステップS206)、音響特徴量に対応するフレーム毎の言語特徴量を求める。そして、対応付け部15は、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習部16に出力する。フレーム毎の言語特徴量及びフレーム毎の音響特徴量は、音響モデルの学習のために用いられる。 Returning to FIGS. 1 and 2, the associating unit 15 performs a known language feature amount extraction process for the language feature matrix for each phoneme and the duration length for each phoneme (step S206), and corresponds to the acoustic feature amount. Find the language features for each frame. Then, the association unit 15 outputs the language feature amount for each frame and the acoustic feature amount for each frame to the learning unit 16. The language features for each frame and the acoustic features for each frame are used for learning the acoustic model.

図10は、対応付け部15のステップS206の言語特徴量抽出処理、及びフレーム毎の言語特徴量のデータ構成を説明する図である。対応付け部15は、発話内における現在着目している音素の継続時間長に応じたフレーム(音響特徴量の処理単位)数分の言語特徴行列に、それぞれ音素の継続時間長に応じたフレーム数及びフレーム内の位置を表現する4次元の時間データを付加することによって、フレーム毎の言語特徴量を生成する。 FIG. 10 is a diagram illustrating the language feature amount extraction process of step S206 of the association unit 15 and the data structure of the language feature amount for each frame. The association unit 15 has a number of frames corresponding to the duration of the phoneme in the language feature matrix for the number of frames (processing unit of the acoustic feature amount) corresponding to the duration of the phoneme currently being focused on in the speech. And by adding four-dimensional time data expressing the position in the frame, the language feature amount for each frame is generated.

つまり、言語特徴量は、フレーム毎に、音響特徴量との間で時間対応付けされた言語特徴行例の643次元のバイナリデータ及び25次元の数値データ、並びに継続時間長に応じた4次元の時間データから構成される。すなわち、言語特徴量は、音素数分の全てのフレームのそれぞれにつき、合計672次元のデータから構成される。 That is, the linguistic feature amount is 643 dimensional binary data and 25 dimensional numerical data of the linguistic feature line example time-associated with the acoustic feature amount for each frame, and 4 dimensional according to the duration length. It consists of time data. That is, the language features are composed of a total of 672-dimensional data for each of all the frames corresponding to the number of phonemes.

尚、対応付け部15は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。 The associating unit 15 deletes the silent sections at the beginning and end of each sentence after the temporal associating processing of the language features and the acoustic features.

(学習部16)
図1及び図2に戻って、学習部16は、対応付け部15から音素毎の言語特徴行列及び音素毎の継続時間長を入力する。そして、学習部16は、音素毎の言語特徴行列及び音素毎の継続時間長を学習データとして、時間長モデルを学習し(ステップS207)、時間長モデルを記憶部17に格納する。
(Learning Department 16)
Returning to FIGS. 1 and 2, the learning unit 16 inputs the language feature matrix for each phoneme and the duration time for each phoneme from the association unit 15. Then, the learning unit 16 learns the time length model using the language feature matrix for each phoneme and the duration time length for each phoneme as learning data (step S207), and stores the time length model in the storage unit 17.

学習部16は、対応付け部15からフレーム毎の言語特徴量及びフレーム毎の音響特徴量を入力する。そして、学習部16は、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習データとして、音響モデルを学習し(ステップS208)、音響モデルを記憶部18に格納する。学習部16は、例えば深層学習にて、時間長モデル及び音響モデルを学習する。 The learning unit 16 inputs the language feature amount for each frame and the acoustic feature amount for each frame from the association unit 15. Then, the learning unit 16 learns the acoustic model using the language feature amount for each frame and the acoustic feature amount for each frame as learning data (step S208), and stores the acoustic model in the storage unit 18. The learning unit 16 learns the time length model and the acoustic model by, for example, deep learning.

(時間長モデル)
時間長モデルの学習処理について説明する。図11は、学習部16のステップS207の時間長モデル学習処理を説明する図である。
(Time length model)
The learning process of the time length model will be described. FIG. 11 is a diagram illustrating the time length model learning process of step S207 of the learning unit 16.

学習部16は、テキストを表現する音素毎に、643次元のバイナリデータ及び25次元の数値データからなる668次元の言語特徴行列のデータを、時間長モデルの入力データとし、1次元の整数値の継続時間長(5ms単位のフレーム数)のデータを、時間長モデルの出力データとして扱う。 The learning unit 16 uses 668-dimensional language feature matrix data consisting of 643-dimensional binary data and 25-dimensional numerical data for each phonetic element expressing the text as input data of the time-length model, and has one-dimensional integer values. The data of the duration length (the number of frames in units of 5 ms) is treated as the output data of the time length model.

学習部16は、入力データである言語特徴行列のデータについて、次元毎に、全てのデータの最大値及び最小値を求めて記憶部17に格納すると共に、全てのデータのそれぞれを、次元毎の最大値及び最小値を用いて正規化する。 The learning unit 16 obtains the maximum value and the minimum value of all the data for each dimension of the data of the language feature matrix which is the input data and stores it in the storage unit 17, and stores all the data for each dimension. Normalize using the maximum and minimum values.

学習部16は、出力データである継続時間長のデータについて、全てのデータの平均値及び標準偏差を求めて記憶部17に格納すると共に、全てのデータのそれぞれを、平均値及び標準偏差を用いて標準化する。 The learning unit 16 obtains the average value and standard deviation of all the data for the duration length data, which is the output data, and stores the data in the storage unit 17, and uses the average value and the standard deviation for each of the data. To standardize.

学習部16は、音素毎に、言語特徴行列の正規化された668次元のデータを入力データとし、継続時間長の標準化された1次元のデータを出力データとして、ステップS207にて時間長モデルを学習する。そして、学習部16は、学習済みの時間長モデルを記憶部17に格納する。 The learning unit 16 uses the normalized 668-dimensional data of the language feature matrix as input data and the standardized one-dimensional data of the duration length as output data for each phonetic element, and sets the time-length model in step S207. learn. Then, the learning unit 16 stores the learned time length model in the storage unit 17.

時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”,インターネット<URL:https://github.com/CSTR-Edinburgh/merlin>
後述する音響モデルの学習の場合も同様である。
When learning the time-length model, the techniques described at the following sites are used.
"CSTR-Edinburgh / merlin", Internet <URL: https://github.com/CSTR-Edinburgh/merlin>
The same applies to the learning of the acoustic model described later.

(音響モデル)
音響モデルの学習処理について説明する。図12は、学習部16のステップS208の音響モデル学習処理を説明する図である。
(Acoustic model)
The learning process of the acoustic model will be described. FIG. 12 is a diagram illustrating the acoustic model learning process of step S208 of the learning unit 16.

学習部16は、音響特徴量と時間対応付けされた、5ms単位のフレーム毎の643次元のバイナリデータ、25次元の数値データ及び4次元の時間データからなる672次元の言語特徴量を、音響モデルの入力データとして扱う。また、学習部16は、5ms単位のフレーム毎の199次元の音響特徴量を、音響モデルの出力データとして扱う。 The learning unit 16 uses an acoustic model of a 672-dimensional language feature amount consisting of 643-dimensional binary data, 25-dimensional numerical data, and 4-dimensional time data for each frame in units of 5 ms, which are time-associated with the acoustic feature amount. Treat as input data of. Further, the learning unit 16 handles 199-dimensional acoustic features for each frame in units of 5 ms as output data of the acoustic model.

学習部16は、入力データである言語特徴量のデータについて、次元毎に、全てのデータの最大値及び最小値を求めて記憶部18に格納すると共に、全てのデータのそれぞれを、次元毎の最大値及び最小値を用いて正規化する。 The learning unit 16 obtains the maximum value and the minimum value of all the data for each dimension of the language feature amount data which is the input data and stores it in the storage unit 18, and stores all the data for each dimension. Normalize using the maximum and minimum values.

学習部16は、出力データである音響特徴量のデータについて、次元毎に、全てのデータの平均値及び標準偏差を求めて記憶部18に格納すると共に、全てのデータのそれぞれを、次元毎の平均値及び標準偏差を用いて標準化する。 The learning unit 16 obtains the mean value and standard deviation of all the data for each dimension of the acoustic feature amount data, which is the output data, and stores it in the storage unit 18, and stores all the data for each dimension. Standardize using mean and standard deviation.

学習部16は、フレーム毎に、言語特徴量の正規化された672次元のデータを入力データとし、音響特徴量の標準化された199次元のデータを出力データとして、ステップS208にて音響モデルを学習する。そして、学習部16は、学習済みの音響モデルを記憶部18に格納する。 The learning unit 16 learns the acoustic model in step S208 by using the normalized 672-dimensional data of the language features as the input data and the standardized 199-dimensional data of the acoustic features as the output data for each frame. To do. Then, the learning unit 16 stores the learned acoustic model in the storage unit 18.

音響モデルの出力データである音響特徴量は、音声信号から5ms単位のフレーム毎に抽出された199次元のデータにより構成される。具体的には、60次元のメルケプストラム係数、1次元の対数ピッチ周波数及び5次元の帯域非周期成分を併せた静特性66次元と、静特性を1次差分及び2次差分した動特性と有声/無声判定値とを併せて、合計199次元である。 The acoustic feature amount, which is the output data of the acoustic model, is composed of 199-dimensional data extracted from the audio signal every 5 ms unit frame. Specifically, it has a static characteristic of 66 dimensions, which is a combination of a 60-dimensional mel cepstrum coefficient, a 1-dimensional logarithmic pitch frequency, and a 5-dimensional band aperiodic component, and a dynamic characteristic and a voiced characteristic obtained by first-order difference and second-order difference of the static characteristic. / Including the silent judgment value, the total is 199 dimensions.

図11及び図12を参照して、時間長モデルの入力層が668次元、音響モデルの入力層が672次元、両モデル共隠れ層が1024次元×6層、時間長モデルの出力層が1次元、音響モデルの出力層が199次元の順伝播型で構成される。隠れ層における活性化関数は双曲線正接関数、損失誤差関数は平均二乗誤差関数、ミニバッチ数は64、エポック数は25、学習係数の最適化方法として確率的勾配降下法、開始学習率0.002、10epoch(エポック)を過ぎてからepoch毎に学習率を指数減衰させ、誤差逆伝播法で学習する。尚、15epochを過ぎてから、5epoch連続して評価誤差が減少しない場合は早期終了する。 With reference to FIGS. 11 and 12, the input layer of the time length model is 668 dimensions, the input layer of the acoustic model is 672 dimensions, the hidden layer of both models is 1024 dimensions × 6 layers, and the output layer of the time length model is one dimension. , The output layer of the acoustic model is composed of a 199-dimensional forward propagation type. The activation function in the hidden layer is the bicurve tangent function, the loss error function is the mean square error function, the number of mini-batch is 64, the number of epochs is 25, the stochastic gradient descent method as the learning coefficient optimization method, the start learning rate 0.002, After 10 epochs (epochs) are passed, the learning rate is exponentially attenuated for each epoch, and learning is performed by the error back propagation method. If the evaluation error does not decrease continuously for 5 epochs after 15 epochs, the process ends early.

以上のように、本発明の実施形態による学習装置1によれば、言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、言語分析処理を行って音素毎の文脈依存ラベルを生成する。 As described above, according to the learning device 1 according to the embodiment of the present invention, the language analysis unit 11 reads each text of the speech corpus from the storage unit 10 and performs language analysis processing to generate a context-dependent label for each phoneme. To do.

相対値化部12は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行い、音素毎の文脈依存相対ラベルを生成する。文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行い、音素毎の言語特徴行列を生成する。 The relative valuation unit 12 performs a time information relative valuation process for relativizing the time information related to prosody with respect to the context-dependent label for each phoneme, and generates a context-dependent relative label for each phoneme. The context question group processing unit 13 performs context question group application processing for applying a context-related question group to the context-dependent relative label for each phoneme, and generates a language feature matrix for each phoneme.

音声分析部14は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出し、フレーム毎の音声信号について音声分析処理を行い、フレーム毎の音響特徴量を求める。 The voice analysis unit 14 reads out each voice signal corresponding to each text of the voice corpus from the storage unit 10, performs voice analysis processing on the voice signal for each frame, and obtains an acoustic feature amount for each frame.

対応付け部15は、音素アライメントの技術を用いて、音素毎の言語特徴行列とフレーム毎の音響特徴量とを時間的に対応付け、音素毎の継続時間長を求める。そして、対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長について、言語特徴量抽出処理を行い、音響特徴量に対応するフレーム毎の言語特徴量を求める。 The associating unit 15 temporally associates the language feature matrix for each phoneme with the acoustic feature amount for each frame by using the phoneme alignment technique, and obtains the duration length for each phoneme. Then, the associating unit 15 performs a language feature amount extraction process on the language feature matrix for each phoneme and the duration time for each phoneme, and obtains the language feature amount for each frame corresponding to the acoustic feature amount.

学習部16は、音素毎の言語特徴行列及び音素毎の継続時間長を学習データとして、時間長モデルを学習し、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習データとして、音響モデルを学習する。 The learning unit 16 learns a time length model using the language feature matrix for each phoneme and the duration time for each phoneme as learning data, and the language feature amount for each frame and the acoustic feature amount for each frame as learning data, and the acoustic model. To learn.

ここで、従来技術では、韻律に関わる時間情報は、絶対的な整数値の数値データとして扱われ、韻律に関わる絶対値の時間情報を含む文脈依存ラベルを用いて、言語特徴行列が生成される。このため、言語特徴行列に含まれる韻律に関わる整数値の時間情報の数値データは、取り得る範囲内で連続的に分布せず、疎な状態となる。そして、精度の高い時間長モデル及び音響モデルを学習することができず、これらの統計モデルを用いて任意のテキストを音声合成する場合に、高品質な音声信号を安定的に得ることができなかった。 Here, in the prior art, the time information related to prosody is treated as numerical data of absolute integer values, and a language feature matrix is generated using a context-dependent label including time information of absolute values related to prosody. .. Therefore, the numerical data of the time information of the integer value related to the prosody included in the language feature matrix is not continuously distributed within the range that can be taken, and is in a sparse state. Then, it is not possible to learn a highly accurate time-length model and an acoustic model, and when synthesizing arbitrary texts by using these statistical models, it is not possible to stably obtain a high-quality voice signal. It was.

本発明の実施形態では、韻律に関わる時間情報を相対値化して相対的な小数値の数値データを求め、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを用いて、言語特徴行列を生成するようにした。このため、言語特徴行列に含まれる韻律に関わる相対値の時間情報の数値データは、取り得る範囲内で連続的に分布し、疎な状態の程度が従来技術に比べて低減される。したがって、精度の高い時間長モデル及び音響モデルを学習することができ、これらの統計モデルを用いて任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。 In the embodiment of the present invention, the time information related to the prosody is converted into a relative value to obtain the numerical data of the relative decimal value, and the language feature matrix is created by using the context-dependent relative label including the time information of the relative value related to the prosody. I tried to generate it. Therefore, the numerical data of the time information of the relative value related to the prosody included in the language feature matrix is continuously distributed within the range that can be taken, and the degree of the sparse state is reduced as compared with the prior art. Therefore, it is possible to learn a highly accurate time-length model and an acoustic model, and it is possible to stably obtain a high-quality voice signal when synthesizing an arbitrary text by using these statistical models.

〔音声合成装置〕
次に、本発明の実施形態による音声合成装置について説明する。図13は、本発明の実施形態による音声合成装置の構成を示すブロック図であり、図14は、音声合成装置の音声合成処理を示すフローチャートである。
[Speech synthesizer]
Next, the voice synthesizer according to the embodiment of the present invention will be described. FIG. 13 is a block diagram showing a configuration of a voice synthesizer according to the embodiment of the present invention, and FIG. 14 is a flowchart showing a voice synthesis process of the voice synthesizer.

この音声合成装置2は、言語分析部20、相対値化部21、文脈質問群処理部22、時間長推定部23、音響特徴量推定部24、音声生成部25、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18を備えている。記憶部17に記憶された時間長モデル及び記憶部18に記憶された音響モデルは、図1に示した学習装置1により学習されたモデルである。 The speech synthesizer 2 stores a language analysis unit 20, a relative value conversion unit 21, a context question group processing unit 22, a time length estimation unit 23, an acoustic feature amount estimation unit 24, a voice generation unit 25, and a time length model. It includes a storage unit 17 and a storage unit 18 in which an acoustic model is stored. The time-length model stored in the storage unit 17 and the acoustic model stored in the storage unit 18 are models learned by the learning device 1 shown in FIG.

(言語分析部20〜文脈質問群処理部22)
言語分析部20は、音声合成処理の対象とするテキストを入力し、図1に示した言語分析部11と同様の処理を行い(ステップS1401)、文脈依存ラベルを相対値化部21に出力する。
(Language Analysis Department 20-Contextual Question Group Processing Department 22)
The language analysis unit 20 inputs the text to be subjected to the speech synthesis processing, performs the same processing as the language analysis unit 11 shown in FIG. 1 (step S1401), and outputs the context-dependent label to the relative value conversion unit 21. ..

相対値化部21は、言語分析部20から文脈依存ラベルを入力し、図1に示した相対値化部12と同様の処理を行い(ステップS1402)、文脈依存相対ラベルを文脈質問群処理部22に出力する。 The relative valuation unit 21 inputs a context-sensitive label from the language analysis unit 20, performs the same processing as the relative valuation unit 12 shown in FIG. 1 (step S1402), and uses the context-dependent relative label as the context question group processing unit. Output to 22.

文脈質問群処理部22は、相対値化部21から文脈依存相対ラベルを入力し、図1に示した文脈質問群処理部13と同様の処理を行い(ステップS1403)、音素毎の言語特徴行列を時間長推定部23に出力する。 The context question group processing unit 22 inputs a context-dependent relative label from the relative value conversion unit 21, performs the same processing as the context question group processing unit 13 shown in FIG. 1 (step S1403), and performs a language feature matrix for each phoneme. Is output to the time length estimation unit 23.

(時間長推定部23)
時間長推定部23は、文脈質問群処理部22から音素毎の言語特徴行列を入力し、音素毎の言語特徴行列及び記憶部17に格納された時間長モデルを用いて、音素毎の継続時間長を推定する(ステップS1404)。
(Time length estimation unit 23)
The time length estimation unit 23 inputs the language feature matrix for each phoneme from the context question group processing unit 22, and uses the language feature matrix for each phoneme and the time length model stored in the storage unit 17 to use the duration for each phoneme. Estimate the length (step S1404).

具体的には、時間長推定部23は、記憶部17に格納された時間長モデルの入力データの最大値及び最小値を用いて、音素毎の言語特徴行列を正規化し、正規化した音素毎の言語特徴行列を入力データとして、時間長モデルを用いた演算を行う。そして、時間長推定部23は、記憶部17に格納された時間長モデルの出力データの平均値及び標準偏差を用いて、出力データである標準化された音素毎の継続時間長を逆標準化し、元の音素毎の継続時間長を求める。 Specifically, the time length estimation unit 23 normalizes the language feature matrix for each phoneme using the maximum value and the minimum value of the input data of the time length model stored in the storage unit 17, and normalizes each phoneme. Performs an operation using a time-length model using the language feature matrix of. Then, the time length estimation unit 23 destandardizes the duration time length of each standardized phoneme, which is the output data, by using the average value and the standard deviation of the output data of the time length model stored in the storage unit 17. Find the duration of each original phoneme.

時間長推定部23は、音素毎の言語特徴行列及び音素毎の継続時間長を用いて、図1に示した対応付け部15と同様の言語特徴量抽出処理を行い、フレーム毎の言語特徴量を求める。そして、時間長推定部23は、フレーム毎の言語特徴量を音響特徴量推定部24に出力する。 The time length estimation unit 23 uses the language feature matrix for each phoneme and the duration time length for each phoneme to perform the same language feature extraction processing as the association unit 15 shown in FIG. 1, and the language feature extraction process for each frame. Ask for. Then, the time length estimation unit 23 outputs the language feature amount for each frame to the acoustic feature amount estimation unit 24.

(音響特徴量推定部24)
音響特徴量推定部24は、時間長推定部23からフレーム毎の言語特徴量を入力し、フレーム毎の言語特徴量及び記憶部18に格納された音響モデルを用いて、フレーム毎の音響特徴量を推定する(ステップS1405)。音響特徴量推定部24は、フレーム毎の音響特徴量を音声生成部25に出力する。
(Acoustic feature amount estimation unit 24)
The acoustic feature amount estimation unit 24 inputs the language feature amount for each frame from the time length estimation unit 23, and uses the language feature amount for each frame and the acoustic model stored in the storage unit 18 to use the acoustic feature amount for each frame. Is estimated (step S1405). The acoustic feature amount estimation unit 24 outputs the acoustic feature amount for each frame to the voice generation unit 25.

具体的には、音響特徴量推定部24は、記憶部18に格納された音響モデルの入力データの最大値及び最小値を用いて、フレーム毎の言語特徴量を正規化し、正規化したフレーム毎の言語特徴量を入力データとして、音響モデルを用いた演算を行う。そして、音響特徴量推定部24は、記憶部18に格納された音響モデルの出力データの平均値及び標準偏差を用いて、出力データである標準化されたフレーム毎の音響特徴量を逆標準化し、元のフレーム毎の音響特徴量を求める。 Specifically, the acoustic feature amount estimation unit 24 normalizes the language feature amount for each frame by using the maximum value and the minimum value of the input data of the acoustic model stored in the storage unit 18, and normalizes each frame. The linguistic features of are used as input data, and calculations are performed using an acoustic model. Then, the acoustic feature amount estimation unit 24 destandardizes the standardized acoustic feature amount for each frame, which is the output data, by using the average value and the standard deviation of the output data of the acoustic model stored in the storage unit 18. Obtain the amount of acoustic features for each original frame.

このようにして推定された音響特徴量は、フレーム毎に離散的な値をとる。このため、音響特徴量推定部24は、連続するフレーム毎の音響特徴量に対して、最尤推定または移動平均を算出することで、滑らかな値の音響特徴量を求める。 The acoustic features estimated in this way take discrete values for each frame. Therefore, the acoustic feature amount estimation unit 24 obtains a smooth value of the acoustic feature amount by calculating the maximum likelihood estimation or the moving average for the acoustic feature amount for each continuous frame.

(音声生成部25)
音声生成部25は、音響特徴量推定部24からフレーム毎の音響特徴量を入力し、フレーム毎の音響特徴量に基づいて音声信号を合成する(ステップS1406)。そして、音声生成部25は、音声合成対象のテキストに対する音声信号を出力する。
(Speech generator 25)
The voice generation unit 25 inputs the acoustic feature amount for each frame from the acoustic feature amount estimation unit 24, and synthesizes the voice signal based on the acoustic feature amount for each frame (step S1406). Then, the voice generation unit 25 outputs a voice signal for the text to be voice-synthesized.

図15は、音声生成部25の音声生成処理を説明する図である。音声生成部25は、音響特徴量推定部24から入力したフレーム毎の音響特徴量のうち、フレーム毎のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAPである静特性の音響特徴量を選択する(ステップS1501)。 FIG. 15 is a diagram illustrating a voice generation process of the voice generation unit 25. Of the acoustic features for each frame input from the acoustic feature estimation unit 24, the voice generation unit 25 has a mercepstrum coefficient MGC for each frame, a logarithmic pitch frequency LF0, and a static characteristic acoustic feature that is a band aperiodic component BAP. Is selected (step S1501).

音声生成部25は、メルケプストラム係数MGCをメルケプストラムスペクトル変換し、スペクトルを求める(ステップS1502)。また、音声生成部25は、対数ピッチ周波数LF0から有声/無声判定情報VUVを求め、対数ピッチ周波数LF0の有声区間を対数化し、無声及び無音区間についてはゼロとし、ピッチ周波数を求める(ステップS1503)。また、音声生成部25は、帯域非周期成分BAPをメルケプストラムスペクトル変換し、非周期成分を求める(ステップS1504)。 The voice generation unit 25 converts the mel cepstrum coefficient MGC into a mer cepstrum spectrum and obtains the spectrum (step S1502). Further, the voice generation unit 25 obtains the voiced / unvoiced determination information VUV from the logarithmic pitch frequency LF0, logarithms the voiced section of the logarithmic pitch frequency LF0, sets the unvoiced and unvoiced sections to zero, and obtains the pitch frequency (step S1503). .. In addition, the voice generation unit 25 transforms the band aperiodic component BAP into a merkepstrum spectrum to obtain the aperiodic component (step S1504).

音声生成部25は、ステップS1502にて求めたフレーム毎のスペクトル、ステップS1503にて求めたフレーム毎のピッチ周波数、及びステップS1504にて求めたフレーム毎の非周期成分を用いて連続的に音声波形を生成し(ステップS1505)、音声信号を出力する(ステップS1506)。 The voice generation unit 25 continuously uses the spectrum for each frame obtained in step S1502, the pitch frequency for each frame obtained in step S1503, and the aperiodic component for each frame obtained in step S1504 to continuously perform the voice waveform. Is generated (step S1505), and an audio signal is output (step S1506).

以上のように、本発明の実施形態による音声合成装置2によれば、言語分析部20は、音声合成処理の対象とするテキストについて、言語分析処理を行って音素毎の文脈依存ラベルを生成する。 As described above, according to the speech synthesizer 2 according to the embodiment of the present invention, the language analysis unit 20 performs language analysis processing on the text to be speech synthesis processing to generate a context-dependent label for each phoneme. ..

相対値化部21は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行い、音素毎の文脈依存相対ラベルを生成する。文脈質問群処理部22は、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行い、音素毎の言語特徴行列を生成する。 The relative valuation unit 21 performs a time information relative valuation process for relativizing the time information related to prosody with respect to the context-dependent label for each phoneme, and generates a context-dependent relative label for each phoneme. The context question group processing unit 22 performs a context question group application process for applying a context-related question group to the context-dependent relative label for each phoneme, and generates a language feature matrix for each phoneme.

時間長推定部23は、音素毎の言語特徴行列、及び学習装置1により生成された時間長モデルを用いて、音素毎の継続時間長を推定する。そして、時間長推定部23は、音素毎の言語特徴行列及び音素毎の継続時間長を用いて、言語特徴量抽出処理を行い、フレーム毎の言語特徴量を求める。 The time length estimation unit 23 estimates the duration time length for each phoneme by using the language feature matrix for each phoneme and the time length model generated by the learning device 1. Then, the time length estimation unit 23 performs the language feature amount extraction process using the language feature matrix for each phoneme and the duration time length for each phoneme, and obtains the language feature amount for each frame.

音響特徴量推定部24は、フレーム毎の言語特徴量、及び学習装置1により生成された音響モデルを用いて、フレーム毎の音響特徴量を推定する。音声生成部25は、フレーム毎の音響特徴量に基づいて音声信号を合成する。 The acoustic feature amount estimation unit 24 estimates the acoustic feature amount for each frame by using the language feature amount for each frame and the acoustic model generated by the learning device 1. The voice generation unit 25 synthesizes a voice signal based on the acoustic features for each frame.

ここで、従来技術では、韻律に関わる時間情報は、絶対的な整数値の数値データとして扱われ、韻律に関わる絶対値の時間情報を含む文脈依存ラベルを用いて、言語特徴行列が生成される。このため、言語特徴行列に含まれる韻律に関わる整数値の時間情報の数値データは、取り得る範囲内で連続的に分布せず疎な状態となり、精度の高い時間長モデル及び音響モデルを学習することができない。このように統計モデルを用いて任意のテキストを音声合成する場合、高品質な音声信号を安定的に得ることができなかった。 Here, in the prior art, the time information related to prosody is treated as numerical data of absolute integer values, and a language feature matrix is generated using a context-dependent label including time information of absolute values related to prosody. .. For this reason, the numerical data of the time information of the integer value related to the prosody included in the language feature matrix is not continuously distributed within the possible range and becomes a sparse state, and a highly accurate time-length model and acoustic model are learned. Can't. When arbitrary text is voice-synthesized using the statistical model in this way, a high-quality voice signal cannot be stably obtained.

本発明の実施形態では、韻律に関わる時間情報を相対値化して相対的な小数値の数値データを求め、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを用いて、言語特徴行列を生成するようにした。このため、言語特徴行列に含まれる韻律に関わる相対値の時間情報の数値データは、取り得る範囲内で連続的に分布し、疎な状態の程度が従来技術に比べて低減される。したがって、学習装置1により学習された統計モデルを用いて任意のテキストを音声合成する場合、高品質な音声信号を安定的に得ることができる。 In the embodiment of the present invention, the time information related to the prosody is converted into a relative value to obtain the numerical data of the relative decimal value, and the language feature matrix is created by using the context-dependent relative label including the time information of the relative value related to the prosody. I tried to generate it. Therefore, the numerical data of the time information of the relative value related to the prosody included in the language feature matrix is continuously distributed within the range that can be taken, and the degree of the sparse state is reduced as compared with the prior art. Therefore, when an arbitrary text is voice-synthesized using the statistical model learned by the learning device 1, a high-quality voice signal can be stably obtained.

〔実験結果〕
次に、従来技術と本発明の実施形態とを比較するためのシミュレーションによる実験結果について説明する。以下に説明する実験結果の従来技術は、前述の非特許文献2及び非特許文献3を利用して言語特徴行列を生成し、時間長モデル及び音響モデルを学習したものである。
〔Experimental result〕
Next, experimental results by simulation for comparing the prior art with the embodiments of the present invention will be described. In the prior art of the experimental results described below, a language feature matrix is generated by utilizing the above-mentioned Non-Patent Document 2 and Non-Patent Document 3, and a time-length model and an acoustic model are learned.

時間長モデルの入力データである言語特徴行列は、テキストを表現する音素毎に、643次元のバイナリデータ及び25次元の数値データからなる合計668次元のデータから構成される。音響モデルの入力データである言語特徴量は、5ms単位のフレーム毎に、音響特徴量と時間対応付けされた言語特徴行列の643次元のバイナリデータ及び25次元の数値データ、並びに4次元の時間データからなる合計672次元のデータから構成される。 The language feature matrix, which is the input data of the time-length model, is composed of a total of 668-dimensional data consisting of 643-dimensional binary data and 25-dimensional numerical data for each phonetic element expressing the text. The linguistic feature amount, which is the input data of the acoustic model, is 643 dimensional binary data and 25 dimensional numerical data of the linguistic feature matrix time-associated with the acoustic feature amount for each frame of 5 ms, and 4 dimensional time data. It is composed of a total of 672-dimensional data.

図16は、時間長モデルの実験結果を示す図であり、その客観評価値及び訓練誤差を示している。具体的は、本図は、時間長モデルの出力データである継続時間長に関し、所定のDevelopセット及びTestセットのそれぞれについて、リファレンスデータと推定値との間の二乗平均平方根誤差(RMSE)及び相関係数(CORR)を示している。 FIG. 16 is a diagram showing the experimental results of the time length model, and shows the objective evaluation value and the training error. Specifically, this figure shows the root mean square error (RMSE) and phase between the reference data and the estimated value for each of the predetermined Develop set and Test set with respect to the duration time length, which is the output data of the time length model. It shows the number of relationships (CORR).

また、本図は、継続時間長に関し、訓練(学習)時に過剰適合しないように早期終了した際のValidセットの誤差最小値、及びそのときのTrainセットの誤差値を、誤差値(Error)として示している。RMSE及びErrorは小さいほど評価が高く、CORRは大きいほど評価が高いことを示す。 In addition, in this figure, regarding the duration length, the error value of the Valid set at the time of early termination so as not to overfit during training (learning) and the error value of the Train set at that time are set as error values (Error). Shown. The smaller the RMSE and Error, the higher the evaluation, and the larger the CORR, the higher the evaluation.

従来技術と本発明の実施形態とを比較すると、本発明の実施形態のRMSE及びErrorは、いずれも従来技術よりも小さく、本発明の実施形態のCORRは、従来技術よりも大きい。したがって、本発明の実施形態は、従来技術よりも評価値に改善が見られ、時間長モデルを用いた継続時間長の推定精度が向上し、有効性を確認することができる。 Comparing the prior art with the embodiments of the present invention, the RMSE and Error of the embodiments of the present invention are both smaller than those of the prior art, and the CORR of the embodiments of the present invention is larger than those of the prior art. Therefore, in the embodiment of the present invention, the evaluation value is improved as compared with the conventional technique, the estimation accuracy of the duration length using the time length model is improved, and the effectiveness can be confirmed.

図17は、音響モデルの実験結果を示す図であり、その客観評価値及び訓練誤差を示している。具体的は、本図は、音響モデルの出力データである音響特徴量に関し、所定のDevelopセット及びTestセットのそれぞれについて、メルケプストラムのリファレンスデータと推定値との間の二乗平均誤差(MCD)、帯域非周期成分のリファレンスデータと推定値との間の二乗平均誤差(BAP)、ピッチ周波数F0のリファレンスデータと推定値との間の二乗平均平方根誤差(RMSE)、相関係数(CORR)及び有声無声判定誤り率(VUV)を示している。 FIG. 17 is a diagram showing the experimental results of the acoustic model, and shows the objective evaluation value and the training error. Specifically, this figure shows the root mean square error (MCD) between the Melkeptrum reference data and the estimated value for each of the predetermined Develop set and Test set with respect to the acoustic features that are the output data of the acoustic model. Root mean square error (BAP) between reference data and estimates of band aperiodic components, root mean square error (RMSE) between reference data and estimates of pitch frequency F0, correlation coefficient (CORR) and voiced It shows the silent judgment error rate (VUV).

また、本図は、音響特徴量に関し、訓練(学習)時に過剰適合しないよう早期終了した際のValidセットの誤差最小値、及びそのときのTrainセットの誤差値を、誤差値(Error)として示している。MCD、BAP、RMSE、VUV及びErrorは小さいほど評価が高く、CORRは大きいほど評価が高いことを示す。 In addition, this figure shows the minimum error value of the Valid set at the time of early termination so as not to overfit during training (learning), and the error value of the Train set at that time as an error value (Error). ing. The smaller the MCD, BAP, RMSE, VUV and Error, the higher the evaluation, and the larger the CORR, the higher the evaluation.

従来技術と本発明の実施形態とを比較すると、本発明の実施形態のMCD、BAP、RMSE、VUV及びErrorは、いずれも従来技術よりも小さく、本発明の実施形態のCORRは、従来技術よりも大きい。したがって、本発明の実施形態は、従来技術よりも評価値に改善が見られ、音響モデルを用いた音響特徴量の推定精度が向上し、有効性を確認することができる。 Comparing the prior art with the embodiments of the present invention, the MCD, BAP, RMSE, VUV and Error of the embodiments of the present invention are all smaller than those of the prior art, and the CORR of the embodiments of the present invention is smaller than that of the prior art. Is also big. Therefore, in the embodiment of the present invention, the evaluation value is improved as compared with the conventional technique, the estimation accuracy of the acoustic feature amount using the acoustic model is improved, and the effectiveness can be confirmed.

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、学習装置1の相対値化部12は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化し、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成するようにした。 Although the present invention has been described above with reference to embodiments, the present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the technical idea. In the above embodiment, the relative valuation unit 12 of the learning device 1 relativizes the time information related to the prosody for the context-dependent label for each phoneme, and generates a context-dependent relative label including the time information of the relative value related to the prosody. I tried to do it.

この場合、相対値化部12は、文脈依存ラベルに含まれる全ての韻律に関わる時間情報を対象として、文脈依存相対ラベルを生成するようにしてもよいし、一部の韻律に関わる時間情報を対象として、文脈依存相対ラベルを生成するようにしてもよい。つまり、相対値化部12は、全ての韻律に関わる時間情報のうち、予め設定された1つまたは複数の韻律に関わる時間情報を対象として相対値化し、1つまたは複数の韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成するようにしてもよい。音声合成装置2の相対値化部21についても同様である。 In this case, the relative valuation unit 12 may generate the context-dependent relative label for all the time information related to the prosody included in the context-dependent label, or may generate the time information related to a part of the prosody. As a target, a context-sensitive relative label may be generated. That is, the relative value conversion unit 12 relatives the time information related to one or a plurality of preset prosody among all the time information related to the prosody, and the relative value related to one or a plurality of prosody. You may want to generate a context-dependent relative label that contains the time information of. The same applies to the relative value unit 21 of the voice synthesizer 2.

尚、本発明の実施形態による学習装置1及び音声合成装置2のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1及び音声合成装置2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。 As the hardware configuration of the learning device 1 and the speech synthesizer 2 according to the embodiment of the present invention, a normal computer can be used. The learning device 1 and the speech synthesizer 2 are composed of a computer provided with a volatile storage medium such as a CPU and RAM, a non-volatile storage medium such as a ROM, and an interface.

学習装置1に備えた、音声コーパスが記憶された記憶部10、言語分析部11、相対値化部12、文脈質問群処理部13、音声分析部14、対応付け部15、学習部16、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。 A storage unit 10 in which a voice corpus is stored, a language analysis unit 11, a relative value conversion unit 12, a context question group processing unit 13, a voice analysis unit 14, a correspondence unit 15, a learning unit 16, and time provided in the learning device 1. Each function of the storage unit 17 in which the long model is stored and the storage unit 18 in which the acoustic model is stored is realized by causing the CPU to execute a program describing these functions.

また、音声合成装置2に備えた言語分析部20、相対値化部21、文脈質問群処理部22、時間長推定部23、音響特徴量推定部24、音声生成部25、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。 Further, the language analysis unit 20, the relative value conversion unit 21, the context question group processing unit 22, the time length estimation unit 23, the acoustic feature amount estimation unit 24, the voice generation unit 25, and the time length model provided in the speech synthesizer 2 are stored. Each function of the stored storage unit 17 and the storage unit 18 in which the acoustic model is stored is realized by causing the CPU to execute a program describing these functions.

これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, read by the CPU, and executed. In addition, these programs can be stored and distributed in storage media such as magnetic disks (floppy (registered trademark) disks, hard disks, etc.), optical disks (CD-ROM, DVD, etc.), semiconductor memories, etc., and can be distributed via a network. You can also send and receive.

1 学習装置
2 音声合成装置
10,17,18 記憶部
11,20 言語分析部
12,21 相対値化部
13,22 文脈質問群処理部
14 音声分析部
15 対応付け部
16 学習部
23 時間長推定部
24 音響特徴量推定部
25 音声生成部
1 Learning device 2 Speech synthesizer 10, 17, 18 Storage unit 11, 20 Language analysis unit 12, 21 Relative value conversion unit 13, 22 Contextual question group processing unit 14 Speech analysis unit 15 Correspondence unit 16 Learning unit 23 Time length estimation Part 24 Acoustic feature amount estimation part 25 Voice generation part

Claims (7)

予め音声信号がテキストに対応するように設定された前記テキスト及び前記音声信号に基づいて、音声合成に用いる時間長モデル及び音響モデルを学習する学習装置において、
予め設定された前記テキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
予め設定された前記テキストに対応する前記音声信号について音声分析処理を行い、音響特徴量を求める音声分析部と、
前記文脈質問群処理部により生成された前記言語特徴行列と前記音声分析部により求めた前記音響特徴量との時間的な対応付けを行い、音素毎の継続時間長を求め、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める対応付け部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記対応付け部により求めた前記音素毎の継続時間長を用いて、前記時間長モデルを学習し、前記対応付け部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を用いて、前記音響モデルを学習する学習部と、
を備えたことを特徴とする学習装置。
In a learning device that learns a time-length model and an acoustic model used for voice synthesis based on the text and the voice signal in which the voice signal is set in advance to correspond to the text.
A language analysis unit that performs language analysis processing on the preset text and generates context-sensitive labels,
A relative valuation unit that relativizes the time information related to the prosody included in the context-dependent label generated by the language analysis unit and generates a context-dependent relative label including the time information of the relative value related to the prosody.
A context-sensitive question group processing unit that generates a language feature matrix by applying a preset question group related to the context to the context-dependent relative label generated by the relative value conversion unit.
A voice analysis unit that performs voice analysis processing on the voice signal corresponding to the preset text and obtains an acoustic feature amount, and a voice analysis unit.
The language feature matrix generated by the context question group processing unit is temporally associated with the acoustic feature amount obtained by the voice analysis unit, the duration length of each phoneme is obtained, and the continuation of each phoneme is performed. A mapping unit that obtains the language features from the time length and the language feature matrix, and
The language feature matrix generated by the context question group processing unit and the duration time length for each phoneme obtained by the association unit are used to learn the time length model, and the language obtained by the association unit. A learning unit that learns the acoustic model using the feature amount and the acoustic feature amount obtained by the voice analysis unit.
A learning device characterized by being equipped with.
請求項1に記載の学習装置において、
前記学習部は、
前記時間長モデル及び前記音響モデルについて深層学習(DL:Deep Learning)を行う、ことを特徴とする学習装置。
In the learning device according to claim 1,
The learning unit
A learning device characterized in that deep learning (DL) is performed on the time length model and the acoustic model.
請求項1に記載の学習装置において、
前記相対値化部は、
前記韻律に関わる時間情報を、発話内の呼気段落の数及び位置、発話内のアクセント句の数及び位置、発話内の拍の数及び位置、呼気段落内のアクセント句の数及び位置、呼気段落内の拍の数及び位置、アクセント句内の拍の位置、並びにアクセント句におけるアクセント核からの拍の位置のうちの1つまたは複数の情報とし、
前記発話内の呼気段落の数の相対値及び位置の相対値、前記発話内のアクセント句の数の相対値及び位置の相対値、前記発話内の拍の数の相対値及び位置の相対値、前記呼気段落内のアクセント句の数の相対値及び位置の相対値、前記呼気段落内の拍の数の相対値及び位置の相対値、前記アクセント句内の拍の位置の相対値、並びに前記アクセント句におけるアクセント核からの拍の位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする学習装置。
In the learning device according to claim 1,
The relative value conversion unit
The time information related to the rhyme is the number and position of the exhalation paragraph in the utterance, the number and position of the accent phrase in the utterance, the number and position of the beat in the utterance, the number and position of the accent phrase in the exhalation paragraph, and the exhalation paragraph. Information on the number and position of beats within, the position of beats within an accent phrase, and the position of beats from the accent nucleus in the accent phrase.
Relative values and positions of the number of exhaled paragraphs in the utterance, relative values and positions of the number of accent phrases in the utterance, relative values of the number of beats and positions in the utterance, Relative values and positions of the number of accent phrases in the exhalation paragraph, relative values and positions of the number of beats in the exhalation paragraph, relative values of the position of beats in the accent phrase, and the accent. A learning device for obtaining the context-dependent relative label including one or a plurality of the relative values corresponding to the time information related to the utterance among the relative values of the positions of beats from the accent nucleus in the phrase. ..
請求項1または2の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、
前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、
前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、
を備えたことを特徴とする音声合成装置。
In a speech synthesizer that synthesizes a speech signal for an arbitrary text by using the time length model and the acoustic model learned by the learning device of claim 1 or 2.
A language analysis unit that performs language analysis processing on the arbitrary text and generates context-sensitive labels,
A relative valuation unit that relativizes the time information related to the prosody included in the context-dependent label generated by the language analysis unit and generates a context-dependent relative label including the time information of the relative value related to the prosody.
A context-sensitive question group processing unit that generates a language feature matrix by applying a preset question group related to the context to the context-dependent relative label generated by the relative value conversion unit.
Using the language feature matrix and the time length model generated by the context question group processing unit, the duration length of each phoneme is estimated, and the language feature quantity is calculated from the duration time length of each phoneme and the language feature matrix. The time length estimation unit to be obtained and
An acoustic feature amount estimation unit that estimates an acoustic feature amount using the language feature amount and the acoustic model obtained by the time length estimation unit, and an acoustic feature amount estimation unit.
A voice generation unit that synthesizes the voice signal based on the acoustic feature amount estimated by the acoustic feature amount estimation unit, and a voice generation unit.
A voice synthesizer characterized by being equipped with.
請求項3の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、
前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、
前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備え、
前記相対値化部は、
前記韻律に関わる時間情報を、発話内の呼気段落の数及び位置、発話内のアクセント句の数及び位置、発話内の拍の数及び位置、呼気段落内のアクセント句の数及び位置、呼気段落内の拍の数及び位置、アクセント句内の拍の位置、並びにアクセント句におけるアクセント核からの拍の位置のうちの1つまたは複数の情報とし、
前記発話内の呼気段落の数の相対値及び位置の相対値、前記発話内のアクセント句の数の相対値及び位置の相対値、前記発話内の拍の数の相対値及び位置の相対値、前記呼気段落内のアクセント句の数の相対値及び位置の相対値、前記呼気段落内の拍の数の相対値及び位置の相対値、前記アクセント句内の拍の位置の相対値、並びに前記アクセント句におけるアクセント核からの拍の位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする音声合成装置。
In a speech synthesizer that synthesizes a speech signal for an arbitrary text by using the time length model and the acoustic model learned by the learning device of claim 3.
A language analysis unit that performs language analysis processing on the arbitrary text and generates context-sensitive labels,
A relative valuation unit that relativizes the time information related to the prosody included in the context-dependent label generated by the language analysis unit and generates a context-dependent relative label including the time information of the relative value related to the prosody.
A context-sensitive question group processing unit that generates a language feature matrix by applying a preset question group related to the context to the context-dependent relative label generated by the relative value conversion unit.
Using the language feature matrix and the time length model generated by the context question group processing unit, the duration length of each phoneme is estimated, and the language feature quantity is calculated from the duration time length of each phoneme and the language feature matrix. The time length estimation unit to be obtained and
An acoustic feature amount estimation unit that estimates an acoustic feature amount using the language feature amount and the acoustic model obtained by the time length estimation unit, and an acoustic feature amount estimation unit.
A voice generation unit that synthesizes the voice signal based on the acoustic feature amount estimated by the acoustic feature amount estimation unit is provided.
The relative value conversion unit
The time information related to the rhyme is the number and position of the exhalation paragraph in the utterance, the number and position of the accent phrase in the utterance, the number and position of the beat in the utterance, the number and position of the accent phrase in the exhalation paragraph, and the exhalation paragraph. Information on the number and position of beats within, the position of beats within an accent phrase, and the position of beats from the accent nucleus in the accent phrase.
Relative values and positions of the number of exhaled paragraphs in the utterance, relative values and positions of the number of accent phrases in the utterance, relative values of the number of beats and positions in the utterance, Relative values and positions of the number of accent phrases in the exhalation paragraph, relative values and positions of the number of beats in the exhalation paragraph, relative values of the position of beats in the accent phrase, and the accent. Speech synthesis characterized in that the context-dependent relative label containing one or more of the relative values of the position of the beat from the accent nucleus in the phrase corresponding to the time information related to the rhyme is obtained. apparatus.
コンピュータを、請求項1から3までのいずれか一項に記載の学習装置として機能させるためのプログラム。 A program for causing a computer to function as the learning device according to any one of claims 1 to 3. コンピュータを、請求項4または5に記載の音声合成装置として機能させるためのプログラム。 A program for causing a computer to function as the speech synthesizer according to claim 4 or 5.
JP2019181862A 2019-10-02 2019-10-02 Learning device, voice synthesis device and program Active JP7469015B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019181862A JP7469015B2 (en) 2019-10-02 2019-10-02 Learning device, voice synthesis device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019181862A JP7469015B2 (en) 2019-10-02 2019-10-02 Learning device, voice synthesis device and program

Publications (2)

Publication Number Publication Date
JP2021056467A true JP2021056467A (en) 2021-04-08
JP7469015B2 JP7469015B2 (en) 2024-04-16

Family

ID=75272539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019181862A Active JP7469015B2 (en) 2019-10-02 2019-10-02 Learning device, voice synthesis device and program

Country Status (1)

Country Link
JP (1) JP7469015B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146803A (en) * 2017-03-06 2018-09-20 日本放送協会 Voice synthesizer and program
WO2018216729A1 (en) * 2017-05-24 2018-11-29 日本放送協会 Audio guidance generation device, audio guidance generation method, and broadcasting system
JP2020106643A (en) * 2018-12-27 2020-07-09 株式会社エーアイ Language processing unit, language processing program and language processing method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146803A (en) * 2017-03-06 2018-09-20 日本放送協会 Voice synthesizer and program
WO2018216729A1 (en) * 2017-05-24 2018-11-29 日本放送協会 Audio guidance generation device, audio guidance generation method, and broadcasting system
JP2020106643A (en) * 2018-12-27 2020-07-09 株式会社エーアイ Language processing unit, language processing program and language processing method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松永 悟行ほか: ""深層学習を用いた日本語音声合成における基本周波数に適した言語特徴量の正規化手法"", 電子情報通信学会論文誌D, vol. 第J102-D巻, 第10号, JPN6023028402, October 2019 (2019-10-01), pages 721 - 729, ISSN: 0005195198 *

Also Published As

Publication number Publication date
JP7469015B2 (en) 2024-04-16

Similar Documents

Publication Publication Date Title
Sisman et al. An overview of voice conversion and its challenges: From statistical modeling to deep learning
Oord et al. Wavenet: A generative model for raw audio
Van Den Oord et al. Wavenet: A generative model for raw audio
JP5665780B2 (en) Speech synthesis apparatus, method and program
JP6777768B2 (en) Word vectorization model learning device, word vectorization device, speech synthesizer, their methods, and programs
Tokuda et al. Speech synthesis based on hidden Markov models
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
Veaux et al. Intonation conversion from neutral to expressive speech
Jemine Real-time voice cloning
Wang et al. A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural $ F_0 $ Model for Statistical Parametric Speech Synthesis
Hsia et al. Exploiting prosody hierarchy and dynamic features for pitch modeling and generation in HMM-based speech synthesis
WO2008038082A2 (en) Prosody conversion
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
JP4829477B2 (en) Voice quality conversion device, voice quality conversion method, and voice quality conversion program
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
Pervaiz et al. Emotion recognition from speech using prosodic and linguistic features
Vekkot et al. Emotional voice conversion using a hybrid framework with speaker-adaptive DNN and particle-swarm-optimized neural network
Vekkot et al. Hybrid framework for speaker-independent emotion conversion using i-vector PLDA and neural network
JP5807921B2 (en) Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
Koriyama et al. Semi-Supervised Prosody Modeling Using Deep Gaussian Process Latent Variable Model.
JP6594251B2 (en) Acoustic model learning device, speech synthesizer, method and program thereof
Wada et al. Sequential generation of singing f0 contours from musical note sequences based on wavenet
Rashmi et al. Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model
JP7469015B2 (en) Learning device, voice synthesis device and program
Golda Brunet et al. Transcription correction using group delay processing for continuous speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230710

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20230823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240404

R150 Certificate of patent or registration of utility model

Ref document number: 7469015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150