JP2020106643A - Language processing unit, language processing program and language processing method - Google Patents

Language processing unit, language processing program and language processing method Download PDF

Info

Publication number
JP2020106643A
JP2020106643A JP2018244555A JP2018244555A JP2020106643A JP 2020106643 A JP2020106643 A JP 2020106643A JP 2018244555 A JP2018244555 A JP 2018244555A JP 2018244555 A JP2018244555 A JP 2018244555A JP 2020106643 A JP2020106643 A JP 2020106643A
Authority
JP
Japan
Prior art keywords
attribute
phoneme
feature amount
language
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018244555A
Other languages
Japanese (ja)
Other versions
JP6840124B2 (en
Inventor
悟行 松永
Noriyuki Matsunaga
悟行 松永
大和 大谷
Yamato Otani
大和 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Co Ltd
Original Assignee
AI Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Co Ltd filed Critical AI Co Ltd
Priority to JP2018244555A priority Critical patent/JP6840124B2/en
Publication of JP2020106643A publication Critical patent/JP2020106643A/en
Application granted granted Critical
Publication of JP6840124B2 publication Critical patent/JP6840124B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To improve prediction accuracy of an acoustic feature amount since an outlier does not occur.SOLUTION: A speech synthesizer 10 comprises a CPU, and the CPU learns a continuous length DNN and an acoustic feature amount DNN on the basis of voice corpus and generates the constructed continuous length DNN and the acoustic feature amount DNN into a synthesized speech corresponding to a text of a free sentence. A language feature amount based on the text used in learning is normalized by taking a ratio of an associated attribute in terms of language by using only a value in one speech. The language feature amount based on the text synthesized when the synthesized speech is generated is similarly normalized. Thus, an outlier does not occur.SELECTED DRAWING: Figure 1

Description

この発明は言語処理装置、言語処理プログラムおよび言語処理方法に関し、特にたとえば、入力テキストに従う合成音声を生成および出力する、言語処理装置、言語処理プログラムおよび言語処理方法に関する。 The present invention relates to a language processing device, a language processing program, and a language processing method, and more particularly to, for example, a language processing device, a language processing program, and a language processing method for generating and outputting synthetic speech according to an input text.

背景技術の一例が特許文献1に開示される。特許文献1によれば、音声データからディープニューラルネットワーク音響モデルを学習し、学習されたディープニューラルネットワーク音響モデルを用いて合成音声を生成する音声合成装置が開示される。この音声合成装置では、コンテキストデータを数値ベクトルで表現した言語特徴量ベクトルと、話者コードを連結したものを入力とし、話者、コンテキストデータに対応する音声パラメータを出力とするディープニューラルネットワーク音響モデルが学習される。 An example of the background art is disclosed in Patent Document 1. Patent Document 1 discloses a speech synthesis device that learns a deep neural network acoustic model from speech data and generates synthetic speech using the learned deep neural network acoustic model. In this speech synthesizer, a deep neural network acoustic model in which a language feature vector expressing context data as a numerical vector and a speaker code concatenated are input, and speech parameters corresponding to the speaker and context data are output. Is learned.

また、背景技術の他の例が特許文献2に開示される。特許文献2によれば、音声コーパスから時間長DNN(ディープニューラルネットワーク)および音響特徴量DNNを事前学習し、学習された時間長DNNおよび音響特徴量DNNを用いてテキストに対応する音声波形を合成する音声合成装置が開示される。この音声合成装置では、事前学習部は、音声コーパスから音素の言語特徴量、音素フレームの言語特徴量、音素の時間長及び音素フレームの音響特徴量を生成し、話者ラベル及び感情ラベルを付与する。そして、事前学習部は、音素の言語特徴量、話者ラベル、感情ラベル及び音素の時間長を与えて時間長DNNを学習し、音素フレームの言語特徴量、話者ラベル、感情ラベル及び音素フレームの音響特徴量を与えて音響特徴量DNNを学習する。 Another example of the background art is disclosed in Patent Document 2. According to Patent Document 2, a time length DNN (deep neural network) and an acoustic feature amount DNN are pre-learned from a speech corpus, and a speech waveform corresponding to text is synthesized using the learned time length DNN and acoustic feature amount DNN. A speech synthesizer capable of performing is disclosed. In this speech synthesizer, the pre-learning unit generates a phoneme language feature amount, a phoneme frame language feature amount, a phoneme time length, and a phoneme frame acoustic feature amount from a speech corpus, and adds a speaker label and an emotion label. To do. Then, the pre-learning unit learns the time length DNN by giving the phoneme language feature amount, the speaker label, the emotion label, and the phoneme time length, and the phoneme frame language feature amount, the speaker label, the emotion label, and the phoneme frame. The acoustic feature amount DNN is learned by giving the acoustic feature amount of

特開2017−032839JP, 2017-032839, A 特開2018―146803JP, 2018-146803, A

H.Zen et al,IEICE Trans.Inf. & Syst.,vol.E90-D, no.5,pp.825-834,May 2007H.Zen et al, IEICE Trans.Inf. & Syst., vol.E90-D, no.5, pp.825-834, May 2007 Zhizheng Wu et al,ISCA SSW9,vol PS2-13,pp.218-223,Sep 2016Zhizheng Wu et al,ISCA SSW9,vol PS2-13,pp.218-223,Sep 2016

特許文献1や特許文献2においては、言語特徴量の正規化には何ら開示されていないが、これらの特許文献において参照される非特許文献1や非特許文献2においては、すべての学習データから計算される平均と分散または最小値と最大値による正規化が用いられている。しかし、これらの正規化手法では自由文章のテキストが入力となる音声合成装置においては、学習外となる値が言語特徴量に含まれることにより外れ値が発生する。さらに、ニューラルネットワークの外挿能力が不十分でないため、予測が不安定になる問題が生じる。この問題の対策として、一般的には、学習データを多くしてカバーする範囲を広くする対策を採る。しかし、この対策ではすべての入力のパターンをカバーすることはできない。また、多くの学習データを収集するのに必要なコストが高くなってしまう。 In Patent Document 1 and Patent Document 2, nothing is disclosed in the normalization of the language feature amount, but in Non-Patent Document 1 and Non-Patent Document 2 referred to in these Patent Documents, all learning data is used. Normalization with calculated means and variances or minimum and maximum values is used. However, in these normalization methods, an outlier occurs in a speech synthesizer in which a text of free text is input, because a value outside learning is included in the language feature amount. Further, the extrapolation capability of the neural network is not sufficient, which causes a problem of unstable prediction. As a measure against this problem, generally, a measure is taken to increase the learning data and widen the range to be covered. However, this measure cannot cover all input patterns. In addition, the cost required to collect a lot of learning data becomes high.

それゆえに、この発明の主たる目的は、新規な、言語処理装置、言語処理プログラムおよび言語処理方法を提供することである。 Therefore, a main object of the present invention is to provide a novel language processing device, language processing program, and language processing method.

この発明の他の目的は、外れ値が発生するのを防止することができる、言語処理装置、言語処理プログラムおよび言語処理方法を提供することである。 Another object of the present invention is to provide a language processing device, a language processing program, and a language processing method capable of preventing outliers from occurring.

第1の発明は、合成音声を生成する音声合成装置のディープニューラルネットワークに入力され、複数の異なる属性で構成される言語特徴量ベクトル系列を正規化する言語処理装置であって、1発話分の言語特徴量ベクトル系列における第1の属性を、当該第1の属性とは異なる第2の属性で正規化する正規化手段を備える、言語処理装置である。 A first aspect of the present invention is a language processing apparatus for normalizing a language feature vector sequence that is input to a deep neural network of a speech synthesis apparatus that generates synthetic speech, and that normalizes a language feature vector sequence. The language processing apparatus includes a normalization unit that normalizes a first attribute in a language feature vector sequence with a second attribute different from the first attribute.

第2の発明は、第1の発明に従属し、第1の属性および第2の属性は、言語的に関連のある値である。 A second invention is according to the first invention, and the first attribute and the second attribute are linguistically related values.

第3の発明は、第1または第2の発明に従属し、正規化手段は、第1の属性を第2の属性で除することで正規化する。 A third invention is according to the first or second invention, and the normalizing means normalizes by dividing the first attribute by the second attribute.

第4の発明は、第1から第3の発明までのいずれかに従属し、第1の属性の絶対値は、第2の属性の絶対値以下である。 A fourth invention is according to any of the first to third inventions, and the absolute value of the first attribute is equal to or less than the absolute value of the second attribute.

第5の発明は、合成音声を生成する音声合成装置のディープニューラルネットワークに入力され、複数の異なる属性で構成される言語特徴量ベクトル系列を正規化する言語処理装置によって実行される言語処理プログラムであって、言語処理装置のプロセッサに、1発話分の言語特徴量ベクトル系列における第1の属性を、当該第1の属性とは異なる第2の属性で正規化する正規化ステップを実行させる、言語処理プログラムである。 A fifth invention is a language processing program which is input to a deep neural network of a speech synthesizer for generating synthetic speech and is executed by a language processor for normalizing a language feature vector sequence composed of a plurality of different attributes. Then, the processor of the language processing device is caused to execute a normalization step of normalizing the first attribute in the language feature vector sequence for one utterance with a second attribute different from the first attribute. It is a processing program.

第6の発明は、合成音声を生成する音声合成装置のディープニューラルネットワークに入力され、複数の異なる属性で構成される言語特徴量ベクトル系列を正規化する言語処理方法であって、1発話分の言語特徴量ベクトル系列における第1の属性を、当該第1の属性とは異なる第2の属性で正規化する、言語処理方法である。 A sixth invention is a language processing method for normalizing a language feature vector sequence which is input to a deep neural network of a voice synthesizer which generates a synthesized voice and which is composed of a plurality of different attributes. It is a language processing method for normalizing a first attribute in a language feature vector sequence with a second attribute different from the first attribute.

この発明によれば、1発話分の言語特徴量ベクトル系列における第1の属性を、当該第1の属性とは異なる第2の属性で正規化するので、外れ値が発生するのを防止することができる。 According to the present invention, since the first attribute in the language feature vector sequence for one utterance is normalized by the second attribute different from the first attribute, it is possible to prevent an outlier from occurring. You can

この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above-mentioned objects, other objects, features and advantages of the present invention will become more apparent from the following detailed description of the embodiments with reference to the drawings.

図1はこの実施例の音声合成装置の一例を示す機能ブロック図である。FIG. 1 is a functional block diagram showing an example of the speech synthesizer of this embodiment. 図2は図1に示す事前学習部を説明するための図である。FIG. 2 is a diagram for explaining the pre-learning unit shown in FIG. 図3は図2に示すテキスト解析部を説明するための図である。FIG. 3 is a diagram for explaining the text analysis unit shown in FIG. 図4は図2に示す音響分析部を説明するための図である。FIG. 4 is a diagram for explaining the acoustic analysis unit shown in FIG. 図5は図1に示す合成処理部を説明するための図である。FIG. 5 is a diagram for explaining the combination processing unit shown in FIG. 図6は継続長DNNおよび音響特徴量DNNの入力データおよび出力データである音素の言語特徴量、音素フレームの言語特徴量、音素の継続長および音素フレームの音響特徴量の関係について説明するための図である。FIG. 6 is a diagram for explaining the relationship between the phoneme language feature amount, which is the input data and output data of the duration DNN and the acoustic feature amount DNN, the phoneme frame language feature amount, the phoneme duration length, and the phoneme frame acoustic feature amount. It is a figure. 図7は言語特徴量のデータの一例を示す図である。FIG. 7 is a diagram showing an example of language feature amount data. 図8は音声合成装置に内蔵されるCPUの属性値算出処理を示すフロー図である。FIG. 8 is a flowchart showing the attribute value calculation processing of the CPU incorporated in the speech synthesizer. 図9は音声合成装置に内蔵されるCPUの第1属性値算出処理を示すフロー図である。FIG. 9 is a flowchart showing the first attribute value calculation processing of the CPU incorporated in the speech synthesizer. 図10は音声合成装置に内蔵されるCPUの第2属性値算出処理を示すフロー図である。FIG. 10 is a flow chart showing the second attribute value calculation processing of the CPU incorporated in the speech synthesizer.

図1はこの実施例の音声合成装置10の機能ブロック図である。音声合成装置10は、汎用のパーソナルコンピュータまたはワークステーションであり、後述する言語特徴量を正規化する言語処理装置または正規化処理装置としても機能する。図示等は省略するが、音声合成装置10は、CPU、メモリ(HDD、ROM、RAM)および通信装置(ネットワーク接続装置)などのコンポーネントを備えている。 FIG. 1 is a functional block diagram of a speech synthesizer 10 of this embodiment. The speech synthesizer 10 is a general-purpose personal computer or workstation, and also functions as a language processing device or a normalization processing device that normalizes a language feature amount described later. Although illustration is omitted, the voice synthesis device 10 includes components such as a CPU, a memory (HDD, ROM, RAM) and a communication device (network connection device).

以下、音声合成装置10について説明するが、学習および合成音声の生成に関する処理は、音声合成装置10のCPUが種々のプログラムに従って処理する。また、各記憶部12、16は、音声合成装置10のメモリ(HDDまたは/およびRAM)、または、音声合成装置10がアクセス可能なネットワーク上のコンピュータに内蔵されるメモリまたはアクセス可能なネットワーク上のデータベースを意味する。 The speech synthesizer 10 will be described below. The CPU of the speech synthesizer 10 processes learning and generation of synthetic speech according to various programs. In addition, each of the storage units 12 and 16 is a memory (HDD or/and RAM) of the voice synthesizer 10, or a memory built in a computer on a network accessible by the voice synthesizer 10 or an accessible network. Means database.

図1に示すように、音声合成装置10は、記憶部12、事前学習部14、記憶部16および合成処理部18を備える。記憶部12は、音声コーパスを記憶する。音声コーパスは、特定の文章が1または複数の話者によって読み上げられた音声に関する情報である。この実施例では、音声に関する情報は、テキストおよび音声波形である。ただし、テキストおよびそれを読み上げた音声についての音声波形はペアとして(互いに紐付けて)記憶部12に記憶される。 As shown in FIG. 1, the speech synthesis device 10 includes a storage unit 12, a pre-learning unit 14, a storage unit 16, and a synthesis processing unit 18. The storage unit 12 stores a voice corpus. The voice corpus is information about a voice in which a specific sentence is read by one or more speakers. In this example, the information about voice is text and voice waveforms. However, the voice waveforms of the text and the voice reading the text are stored in the storage unit 12 as a pair (associated with each other).

事前学習部14は、記憶部12から読み出した音声コーパスのテキストに対して所定のテキスト解析を行うとともに、当該テキストに対する音声波形に対して所定の音響分析を行うことで、継続長DNNを学習するための言語特徴量および音響特徴量DNNを学習するための音響特徴量等の情報を生成する。ただし、DNNは、ディープニューラルネットワークを意味する。事前学習部14は、言語特徴量および音響特徴量などの情報を用いて、記憶部16に記憶された継続長DNNおよび音響特徴量DNNを事前に学習する。 The pre-learning unit 14 learns the duration DNN by performing a predetermined text analysis on the text of the voice corpus read from the storage unit 12 and a predetermined acoustic analysis on the voice waveform of the text. Information such as the acoustic feature amount for learning the language feature amount and the acoustic feature amount DNN for However, DNN means a deep neural network. The pre-learning unit 14 pre-learns the duration DNN and the acoustic feature amount DNN stored in the storage unit 16 using information such as the language feature amount and the acoustic feature amount.

なお、テキスト解析の手法および音響解析の手法は既知であるから、この実施例では、その詳細な説明は省略することにする。また、この実施例では、継続長DNNおよび音響特徴量DNNは同じ記憶部16に記憶するようにしてあるが、それぞれ異なる記憶部に記憶されてもよい。 Since the method of text analysis and the method of acoustic analysis are known, detailed description thereof will be omitted in this embodiment. Further, in this embodiment, the duration DNN and the acoustic feature amount DNN are stored in the same storage unit 16, but they may be stored in different storage units.

この実施例では、継続長DNNおよび音響特徴量DNNは、それぞれ、複数のノードを、入力層、複数の隠れ層(中間層)および出力層で構成した順伝播型のネットワークである。 In this embodiment, the continuation length DNN and the acoustic feature amount DNN are forward-propagation type networks in which a plurality of nodes are configured by an input layer, a plurality of hidden layers (intermediate layers), and an output layer, respectively.

継続長DNNは、学習時に、音素の言語特徴量が入力層の各ユニットに与えられ、音素の継続長が出力層のユニットに与えられることで、入力層、隠れ層および出力層の各ユニットの重みなどが計算され、音素単位の学習が行われる。この実施例では、学習のための音素の言語特徴量は、たとえば、音素ラベル、モーラの情報、アクセント句の情報、呼気段落の情報および発話の情報などを含む。ただし、音素の継続長は、音素を構成する音素フレームの数で表される。この実施例では、音素フレームの1フレームの長さは5msecである。 The duration length DNN is given to each unit of the input layer, hidden layer, and output layer by giving the language feature amount of the phoneme to each unit of the input layer and the duration length of the phoneme to the unit of the output layer during learning. Weights and the like are calculated, and phoneme-based learning is performed. In this embodiment, the phoneme language features for learning include, for example, phoneme labels, mora information, accent phrase information, expiration paragraph information, and utterance information. However, the phoneme duration is represented by the number of phoneme frames forming the phoneme. In this embodiment, the length of one phoneme frame is 5 msec.

後述する音声合成処理を実行するときには、継続長DNNの入力層の各ユニットに、音素の言語特徴量が与えられる。すると、継続長DNNの出力層のユニットから、入力層に与えられた音素の言語特徴量に対応する音素の継続長が出力される。 When executing a speech synthesis process, which will be described later, a phoneme linguistic feature amount is given to each unit of the input layer having the duration DNN. Then, the unit of the output layer having the duration DNN outputs the phoneme duration corresponding to the language feature amount of the phoneme given to the input layer.

また、音響特徴量DNNは、学習時に、音素フレームの言語特徴量が入力層の各ユニットに与えられ、音素フレームの音響特徴量が出力層の各ユニットに与えられることで、入力層、隠れ層及び出力層の各ユニットの重みなどが計算され、音素フレーム単位の学習が行われる。この実施例では、音素フレームの音響特徴量は、たとえば、スペクトル係数、雑音性係数、ピッチ、有声/無声判定などの情報を含む。 In addition, the acoustic feature amount DNN is given by inputting the language feature amount of the phoneme frame to each unit of the input layer and giving the acoustic feature amount of the phoneme frame to each unit of the output layer at the time of learning. Also, the weight of each unit in the output layer is calculated, and learning is performed for each phoneme frame. In this embodiment, the acoustic feature amount of the phoneme frame includes information such as a spectrum coefficient, a noise characteristic coefficient, a pitch, and a voiced/unvoiced determination.

後述する音声合成処理を実行するときには、音響特徴量DNNの入力層の各ユニットに、音素フレームの言語特徴量が与えられる。すると、音響特徴量DNNの出力層の各ユニットから、入力装置に与えられた音素フレームの言語特徴量に対応する音素フレームの音響特徴量が出力される。 When executing a speech synthesis process described later, the language feature amount of the phoneme frame is given to each unit of the input layer of the acoustic feature amount DNN. Then, each unit of the output layer of the acoustic feature amount DNN outputs the acoustic feature amount of the phoneme frame corresponding to the language feature amount of the phoneme frame given to the input device.

図2は、図1に示した事前学習部14を説明するための図である。図2に示すように、事前学習部14は、テキスト解析部14aと音響分析部14bを含む。図3に示すように、テキスト解析部14aは、テキスト解析手段140、フレーム処理手段142および正規化処理手段144を含む。 FIG. 2 is a diagram for explaining the pre-learning unit 14 shown in FIG. As shown in FIG. 2, the pre-learning unit 14 includes a text analysis unit 14a and an acoustic analysis unit 14b. As shown in FIG. 3, the text analysis unit 14a includes a text analysis unit 140, a frame processing unit 142, and a normalization processing unit 144.

テキスト解析手段140は、記憶部12の音声コーパスから読み出されたテキストに対して形態素解析などのテキスト解析を行い、音素毎に音素の言語特徴量を生成し、音素の言語特徴量をフレーム処理手段142および正規化処理手段144に出力するとともに、音素の言語特徴量に含まれる音素ラベルを音響分析部14bに出力する。 The text analysis unit 140 performs text analysis such as morphological analysis on the text read from the speech corpus of the storage unit 12, generates phoneme language feature amounts for each phoneme, and frame-processes the phoneme language feature amounts. The phoneme label included in the language feature amount of the phoneme is output to the acoustic analysis unit 14b while being output to the unit 142 and the normalization processing unit 144.

ここで、音素の言語特徴量は、テキスト解析により生成された情報を意味する。たとえば、テキスト解析により生成された音素の言語特徴量は、音素毎に、音素ラベル、アクセントの位置、品詞情報、アクセント句情報、呼気段落情報および総数情報などの各種の情報を含む。ただし、音素ラベルは、テキストを構成する音素を特定するための情報(音素情報)であり、当該音素に加え、前後の音素も含まれる。 Here, the linguistic feature amount of a phoneme means information generated by text analysis. For example, the phoneme language feature amount generated by text analysis includes various information such as phoneme labels, accent positions, part-of-speech information, accent phrase information, expiration paragraph information, and total number information for each phoneme. However, the phoneme label is information (phoneme information) for identifying the phonemes forming the text, and includes the preceding and following phonemes in addition to the phoneme.

フレーム処理手段142は、テキスト解析手段140から、事前学習のための音素の言語特徴量を入力されるとともに、音響分析部14bから音素の継続長を入力される。フレーム処理手段142は、事前学習のための音素の言語特徴量および音素の継続長に基づいて、音素の継続長が示す音素フレーム数分の音素フレームの言語特徴量を生成する。生成された音素フレームの言語特徴量は、正規化処理手段144に出力される。 The frame processing unit 142 receives the phoneme language feature amount for pre-learning from the text analysis unit 140, and also receives the phoneme duration from the acoustic analysis unit 14b. The frame processing means 142 generates the language feature amount of the phoneme frames for the number of phoneme frames indicated by the phoneme duration length based on the phoneme language feature amount and the phoneme duration length for pre-learning. The language feature amount of the generated phoneme frame is output to the normalization processing unit 144.

正規化処理手段144は、音素の言語特徴量および音素フレームの言語特徴量のそれぞれについて正規化を行い、正規化された音素言語特徴量を継続長DNNに出力するとともに、正規化された音素フレームの言語特徴量を音響特徴量DNNに出力する。 The normalization processing unit 144 normalizes each of the phoneme language feature amount and the phoneme frame language feature amount, and outputs the normalized phoneme language feature amount to the duration DNN, and also the normalized phoneme frame. The language feature amount of is output to the acoustic feature amount DNN.

なお、正規化処理手段144における正規化処理については後で詳細に説明することにする。 The normalization processing in the normalization processing means 144 will be described later in detail.

図4に示すように、音響分析部14bは、音素区切り処理手段150と音響分析手段152を含む。音素区切り処理手段150は、テキスト解析部14aから音素ラベルを入力され、記憶部12の音声コーパスから読み出された音声波形に対して、所定の学習データを用いて音響分析を行う。音素区切り処理手段150は、音素ラベルの示す音素が音声波形内でどの位置にあるかを特定し、音素の区切り位置を求める。求められた音素の区切り位置は、音響分析手段152に出力される。 As shown in FIG. 4, the acoustic analysis unit 14b includes a phoneme segmentation processing unit 150 and an acoustic analysis unit 152. The phoneme segmentation processing unit 150 receives a phoneme label from the text analysis unit 14a, and performs acoustic analysis on the speech waveform read from the speech corpus of the storage unit 12 using predetermined learning data. The phoneme segmentation processing unit 150 identifies the position of the phoneme indicated by the phoneme label in the speech waveform, and obtains the segmentation position of the phoneme. The obtained phoneme delimiter position is output to the acoustic analysis unit 152.

また、音素区切り処理手段150は、音素の区切り位置に基づいて、音素ラベルの示す音素の継続長を求める。上述したように、音素の継続長は、音素を構成する音素フレームの数で表される。求められた音素の継続長は、記憶部16の継続長DNNにおける出力層の各ユニットに出力されるとともに、テキスト解析部14a(フレーム処理手段142)に出力される。 The phoneme segmentation processing unit 150 also obtains the phoneme duration indicated by the phoneme label based on the segmentation positions of the phonemes. As described above, the phoneme duration is represented by the number of phoneme frames forming the phoneme. The obtained phoneme duration is output to each unit of the output layer in the duration DNN of the storage unit 16 and also to the text analysis unit 14a (frame processing unit 142).

音響分析手段152は、音素区切り処理手段150から音素の区切り位置を入力され、記憶部12の音声コーパスから読み出された音声波形に対して音響分析を行い、音素を構成する複数の音素フレームのそれぞれについて、音素フレームの音響特徴量を生成する。たとえば、音素フレームの音響特徴量は、スペクトル係数、雑音性係数、ピッチ、音声/無声判定等の情報を含む。生成された音素フレームの音響特徴量は、記憶部16の音響特徴量DNNにおける出力層の各ユニットに出力される。 The acoustic analysis unit 152 receives the phoneme delimiter positions from the phoneme delimiter processing unit 150, performs an acoustic analysis on the speech waveform read from the speech corpus of the storage unit 12, and analyzes a plurality of phoneme frames forming a phoneme. For each of them, the acoustic feature amount of the phoneme frame is generated. For example, the acoustic feature amount of a phoneme frame includes information such as spectrum coefficient, noise factor, pitch, voice/unvoiced determination, and the like. The acoustic feature amount of the generated phoneme frame is output to each unit of the output layer in the acoustic feature amount DNN of the storage unit 16.

なお、音響分析により音素の区切り位置及び音素の継続長を求め、音素フレームの音響特徴量を生成する手法は既知であるから、この実施例では、その詳細な説明は省略する。 Since a method of obtaining a phoneme delimitation position and a phoneme duration by acoustic analysis and generating an acoustic feature amount of a phoneme frame is known, detailed description thereof will be omitted in this embodiment.

上述したように、テキスト解析部14aが、事前学習のための音素の言語特徴量を継続長DNNの入力層に出力するとともに、音響分析部14bが、音素の継続長を継続長DNNの出力層に出力する。これにより、継続長DNNの事前学習が行われる。また、テキスト解析部14aが、音素フレームの言語特徴量を音響特徴量DNNの入力層に出力するとともに、音響分析部14bが、音素フレームの音響特徴量を音響特徴量DNNの出力層に出力する。これにより、音響特徴量DNNの事前学習が行われる。 As described above, the text analysis unit 14a outputs the phoneme language feature amount for pre-learning to the input layer of the duration DNN, and the acoustic analysis unit 14b outputs the phoneme duration of the phoneme to the output layer of the duration DNN. Output to. Thereby, the pre-learning of the continuation length DNN is performed. Further, the text analysis unit 14a outputs the language feature amount of the phoneme frame to the input layer of the acoustic feature amount DNN, and the acoustic analysis unit 14b outputs the acoustic feature amount of the phoneme frame to the output layer of the acoustic feature amount DNN. .. As a result, the acoustic feature amount DNN is pre-learned.

図5は、図1に示した合成処理部18の具体的な構成の一例を示す図である。図5に示すように、合成処理部18は、テキスト解析部180、継続長生成部182、音響特徴量生成部184および音声波形合成部186を含む。 FIG. 5 is a diagram showing an example of a specific configuration of the synthesis processing unit 18 shown in FIG. As shown in FIG. 5, the synthesis processing unit 18 includes a text analysis unit 180, a duration generation unit 182, an acoustic feature amount generation unit 184, and a voice waveform synthesis unit 186.

テキスト解析部180は、図2に示したテキスト解析部14aと同様の処理を行う。具体的には、テキスト解析部180は、自由文章によるテキストを入力され、このテキストに対してテキスト解析を行い、音素毎に音素の言語特徴量を生成し、正規化する。テキスト解析部180は、テキスト解析にて生成および正規化した音素の言語特徴量に基づいて、図2に示したテキスト解析部14aにより生成された事前学習のための音素の言語特徴量と同様の音素の言語特徴量を生成する。そして、テキスト解析部180は、生成した音素の言語特徴量を、継続長生成部182および音響特徴量生成部184に出力する。 The text analysis unit 180 performs the same processing as the text analysis unit 14a shown in FIG. Specifically, the text analysis unit 180 is input with a text in free text, performs a text analysis on this text, generates a phoneme language feature amount for each phoneme, and normalizes it. The text analysis unit 180 is similar to the phoneme language feature amount for pre-learning generated by the text analysis unit 14a shown in FIG. 2 based on the phoneme language feature amount generated and normalized by the text analysis. Generate phoneme language features. Then, the text analysis unit 180 outputs the generated language feature amount of the phoneme to the duration length generation unit 182 and the acoustic feature amount generation unit 184.

また、テキスト解析部180は、継続長生成部182および音響特徴量生成部184から、当該継続長生成部182および音響特徴量生成部184に出力した音素の言語特徴量に対応する音素の継続長を入力し、音素の言語特徴量及び音素の継続長に基づいて、音素の継続長が示す音素フレーム数分の音素フレームの言語特徴量を生成する。そして、テキスト解析部180は、音素フレームの言語特徴量を、継続長生成部182および音響特徴量生成部184に出力する。 In addition, the text analysis unit 180 includes the duration length of the phoneme corresponding to the language feature amount of the phoneme output from the duration length generation unit 182 and the acoustic feature amount generation unit 184 to the duration length generation unit 182 and the acoustic feature amount generation unit 184. Is input, and the language feature amount of the phoneme frames for the number of phoneme frames indicated by the phoneme duration length is generated based on the phoneme language feature amount and the phoneme duration length. Then, the text analysis unit 180 outputs the language feature amount of the phoneme frame to the duration length generation unit 182 and the acoustic feature amount generation unit 184.

継続長生成部182は、テキスト解析部180から音素の言語特徴量を入力され、記憶部16の継続長DNNを用いて、音素の言語特徴量に基づいて音素の継続長を生成する。そして、継続長生成部182は、音素の継続長をテキスト解析部180に出力する。また、音響特徴量生成部184は、テキスト解析部180から音素フレームの言語特徴量を入力され、記憶部16の音響特徴量DNNを用いて、音素フレームの言語特徴量に基づいて、音素フレームの音響特徴量を生成し、音素フレームの音響特徴量を音声波形合成部186に出力する。 The duration length generation unit 182 receives the phoneme language feature amount from the text analysis unit 180, and uses the duration length DNN of the storage unit 16 to generate a phoneme duration length based on the phoneme language feature amount. Then, the duration length generation unit 182 outputs the duration length of the phoneme to the text analysis unit 180. Further, the acoustic feature amount generation unit 184 receives the language feature amount of the phoneme frame from the text analysis unit 180, and uses the acoustic feature amount DNN of the storage unit 16 based on the language feature amount of the phoneme frame to extract the phoneme frame The acoustic feature amount is generated, and the acoustic feature amount of the phoneme frame is output to the speech waveform synthesis unit 186.

音声波形合成部186は、音響特徴量生成部184から音素フレームの音響特徴量を入力され、音素フレームの音響特徴量に基づいて、音声波形を合成し、合成した音声波形を出力する。具体的には、音声波形合成部186は、音素フレームの音響特徴量に含まれるピッチ、雑音特性等の情報に基づいて、声帯音源波形を生成する。そして、音声波形合成部186は、声帯音源波形に対し、音素フレームの音響特徴量に含まれるスペクトル係数等の情報に基づいて声道フィルタ処理を施し、音声波形を合成する。つまり、テキストに対応する合成音声が生成および出力される。 The speech waveform synthesis unit 186 receives the acoustic feature amount of the phoneme frame from the acoustic feature amount generation unit 184, synthesizes the speech waveform based on the acoustic feature amount of the phoneme frame, and outputs the synthesized speech waveform. Specifically, the speech waveform synthesizer 186 generates a vocal cord sound source waveform based on information such as pitch and noise characteristics included in the acoustic feature amount of the phoneme frame. Then, the voice waveform synthesizing unit 186 performs vocal tract filter processing on the vocal cord sound source waveform based on information such as a spectral coefficient included in the acoustic feature amount of the phoneme frame to synthesize a voice waveform. That is, the synthetic voice corresponding to the text is generated and output.

なお、音素フレームの音響特徴量に基づいて音声波形を合成する手法は周知であるため、この実施例では、詳細な説明を省略する。 Since a method of synthesizing a speech waveform based on the acoustic feature amount of a phoneme frame is well known, detailed description thereof will be omitted in this embodiment.

図6は、継続長DNNおよび音響特徴量DNNの入力データおよび出力データである音素の言語特徴量、音素フレームの言語特徴量、音素の継続長および音素フレームの音響特徴量の関係について説明するための図である。 FIG. 6 is for explaining the relationship between the phoneme language feature amount, which is the input data and output data of the duration DNN and the acoustic feature amount DNN, the phoneme frame language feature amount, the phoneme duration length, and the phoneme frame acoustic feature amount. FIG.

図6に示すように、1発話分のテキストを「あれがこれで、それはどれ。」とした場合には、呼気段落は「あれがこれで」と「それはどれ」である。また、この場合、「あれがこれで」のアクセント句は「あれが」と「これで」である。さらに、この場合、「あれが」のモーラは、「あ」、「れ」および「が」である。この場合、「あ」の音素ラベルは「a」とされ、「れ」の音素ラベルは「r」および「e」とされ、「が」の音素ラベルは「g」および「a」とされる。図6に示す例では、音素ラベル「a」、「r」、「e」、「g」および「a」の音素の継続長は、それぞれ、「6」、「3」、「5」、「5」、「5」および「3」とする。このように、発話、呼気段落、アクセント句、モーラ、音素は階層的な構造となっており、これらに関する属性を要素とする情報も階層的な構造となっている。上述したように、この実施例では、音素フレームの1フレームの長さは、5msecである。 As shown in FIG. 6, when the text for one utterance is "This is this, which is it?", the exhalation paragraphs are "that is this" and "that is which". Also, in this case, the accent phrases of "that is this" are "that" and "this". Further, in this case, the mora of "that" is "a", "re", and "ga". In this case, the phoneme label of "a" is set to "a", the phoneme label of "re" is set to "r" and "e", and the phoneme label of "ga" is set to "g" and "a". .. In the example shown in FIG. 6, the phoneme durations of the phoneme labels “a”, “r”, “e”, “g” and “a” are “6”, “3”, “5” and “5”, respectively. 5”, “5” and “3”. As described above, the utterance, the exhalation paragraph, the accent phrase, the mora, and the phoneme have a hierarchical structure, and the information having attributes regarding these is also a hierarchical structure. As described above, in this embodiment, the length of one phoneme frame is 5 msec.

図6に示すように、音素ラベル「a」の時間区間において、この1音素に対応して、1組の音素の言語特徴量(上記の各情報)が生成され、6組の音素フレームの言語特徴量(の各情報)が生成され、6組の音素フレームの音響特徴量(の各情報)が生成される。また、音素ラベル「r」の時間区間において、この1音素に対応して、1組の音素の言語特徴量が生成され、3組の音素フレームの言語特徴量が生成され、3組の音素フレームの音響特徴量が生成される。されに、音素ラベル「e」の時間区間において、この1音素に対応して、1組の音素の言語特徴量が生成され、5組の音素フレームの言語特徴量が生成され、5組の音素フレームの音響特徴量が生成される。 As shown in FIG. 6, in the time section of the phoneme label “a”, the language feature amount of each set of phonemes (each of the above information) is generated corresponding to this one phoneme, and the language of the six sets of phoneme frames is generated. The feature amount (each information item) is generated, and the acoustic feature amount (each information item) of the six phoneme frames is generated. Further, in the time section of the phoneme label “r”, the language feature amount of one set of phonemes is generated corresponding to this one phoneme, the language feature amount of three sets of phoneme frames is generated, and three sets of phoneme frames are generated. Acoustic features are generated. In addition, in the time section of the phoneme label “e”, the linguistic feature amount of one set of phonemes is generated, the linguistic feature amount of five sets of phoneme frames is generated, and the five sets of phonemes are generated corresponding to this one phoneme. The acoustic feature amount of the frame is generated.

このように、事前学習において、継続長DNNの入力層の各ユニットには、音素の言語特徴量が与えられ、出力層のユニットには、音素の継続長が与えられ、この事前学習は音素を単位として行われる。つまり、継続長DNNには、音素毎に、音素の言語特徴量および音素の継続長が与えられ、事前学習が行われる。また、音声合成においては、音素毎に、継続長DNNを用いて、音素の言語特徴量に基づいて、音素の継続長が生成され出力される。 Thus, in the pre-learning, each unit of the input layer with the duration DNN is given the linguistic feature amount of the phoneme, and the unit of the output layer is given the duration of the phoneme. It is done as a unit. That is, the phoneme language feature amount and the phoneme duration are given to the duration DNN for each phoneme, and pre-learning is performed. Further, in speech synthesis, the duration length DNN is used for each phoneme, and the duration length of the phoneme is generated and output based on the language feature amount of the phoneme.

また、上述したように、事前学習において、音響特徴量DNNの入力層の各ユニットには、音素フレームの言語特徴量が与えられ、出力層の各ユニットには、音素フレームの音響特徴量が与えられ、この事前学習は音素フレームを単位として行われる。つまり、音響特徴量DNNには、音素フレーム毎に、音素フレームの言語特徴量および音素フレームの音響特徴量が与えられ、事前学習が行われる。音声合成においては、音素フレーム毎に、音響特徴量DNNを用いて、音素フレームの言語特徴量に基づいて、音素フレームの音響特徴量が生成され、出力される。 Further, as described above, in the pre-learning, the language feature amount of the phoneme frame is given to each unit of the input layer of the acoustic feature amount DNN, and the acoustic feature amount of the phoneme frame is given to each unit of the output layer. This pre-learning is performed in units of phoneme frames. That is, the acoustic feature amount DNN is given the language feature amount of the phoneme frame and the acoustic feature amount of the phoneme frame for each phoneme frame, and pre-learning is performed. In speech synthesis, the acoustic feature amount DNN is used for each phoneme frame, and the acoustic feature amount of the phoneme frame is generated and output based on the language feature amount of the phoneme frame.

図7は言語特徴量のデータの一例を示す図である。上述したように、言語特徴量は、音素に関する属性、モーラに関する属性、アクセント句に関する属性、呼気段落に関する属性および発話に関する属性を含み、時刻tにおいてd次元のベクトルで表される。言語特徴量としては、時刻tにおける各属性の情報が数値で表される。各属性の詳細についての説明は省略するが、一例として、アクセント句に関する属性には、「当該アクセント句中のモーラの昇順位置」が含まれる。ただし、「当該」とは、正規化処理を行う場合の処理の対象であることを意味する。 FIG. 7 is a diagram showing an example of language feature amount data. As described above, the linguistic feature amount includes a phoneme-related attribute, a mora-related attribute, an accent phrase-related attribute, an expiratory paragraph-related attribute, and an utterance-related attribute, and is represented by a d-dimensional vector at time t. As the language feature amount, information on each attribute at time t is represented by a numerical value. Although the detailed description of each attribute is omitted, as an example, the attribute relating to the accent phrase includes “the ascending order position of the mora in the accent phrase”. However, “corresponding” means that the process is a target when the normalization process is performed.

ここで、上述した正規化処理手段144には、テキスト解析手段140でテキスト解析された音素の言語特徴量と、テキスト解析された音素の言語特徴量に、フレーム処理手段142で処理を施された音素フレームの言語特徴量が入力される。入力される言語特徴量はベクトル系列であり、数1で示すことができる。正規化処理手段144は、数2に示すように、第1の属性(第1属性値)を、当該第1の属性とは異なる属性であり、かつ当該第1の属性よりも絶対値の大きいまたは等しい第2の属性(第2属性値)で除することで言語特徴量を正規化し、正規化した言語特徴量を出力する。ただし、第1の属性と第2の属性は関連があるものとする。また、1発話分の言語特徴量Lは、図7に示したように、時刻tにおけるd次元の属性を要素に持つ言語特徴量ベクトルの系列である。ただし、数2において、|・|は絶対値を意味する。なお、この実施例では、第1属性値の絶対値は、第2属性値の絶対値以下である。 Here, in the above-described normalization processing unit 144, the language feature amount of the phoneme subjected to the text analysis by the text analysis unit 140 and the language feature amount of the phoneme subjected to the text analysis are processed by the frame processing unit 142. The language feature amount of the phoneme frame is input. The input linguistic feature quantity is a vector series and can be expressed by Equation 1. As shown in Formula 2, the normalization processing unit 144 sets the first attribute (first attribute value) to be an attribute different from the first attribute and having an absolute value larger than that of the first attribute. Alternatively, the language feature amount is normalized by dividing it by an equal second attribute (second attribute value), and the normalized language feature amount is output. However, it is assumed that the first attribute and the second attribute are related. Further, the linguistic feature amount L for one utterance is a series of linguistic feature amount vectors having d-dimensional attributes at time t as elements, as shown in FIG. However, in Equation 2, |·| means an absolute value. In this embodiment, the absolute value of the first attribute value is less than or equal to the absolute value of the second attribute value.

Figure 2020106643
Figure 2020106643

Figure 2020106643
Figure 2020106643

また、上記の「関連があるもの」について図6および図7を用いて説明する。テキスト解析手段140によってテキストを解析すると、図7のように、発話、呼気段落、アクセント句、モーラ、音素に関する属性を要素とする情報が得られる。これらの情報は、図6のように階層的な構造となっており、各階層の情報は主に下位の階層の情報で構成される。たとえば、アクセント句の階層は、モーラと音素の階層を下位に持ち、アクセント句の属性には、当該アクセント句中のモーラの昇順位置や、当該アクセント句中のモーラの総数などがある。よって、この実施例の正規化処理手段144における正規化処理では、基本的に、位置に関する属性は同じ階層という関連性のもとで同じ階層の総数に関する属性で除され、総数に関する属性は総数という関連性のもとで別の階層の総数に関する属性で除されることになる。また、継続長に関しては総数と同様である。なお、正規化処理はすべての階層に対して適用される。 Further, the above-mentioned "related things" will be described with reference to FIGS. When the text analysis unit 140 analyzes the text, as shown in FIG. 7, information having attributes relating to utterances, expiration paragraphs, accent phrases, mora, and phonemes as elements is obtained. These pieces of information have a hierarchical structure as shown in FIG. 6, and the information of each hierarchy is mainly composed of the information of the lower hierarchy. For example, the hierarchy of accent phrases has a hierarchy of mora and phonemes at the lower level, and the attributes of accent phrases include the ascending position of the mora in the accent phrase and the total number of mora in the accent phrase. Therefore, in the normalization processing in the normalization processing unit 144 of this embodiment, basically, the attribute related to the position is divided by the attribute related to the total number of the same hierarchy under the relation of the same hierarchy, and the attribute related to the total number is called the total number. It will be divided by the attribute on the total number of different tiers under relevance. The continuation length is the same as the total length. The normalization process is applied to all layers.

数2に示す正規化手法は、非特許文献1および非特許文献2のようにすべての学習データから計算した平均と分散または最小値と最大値のような当該発話以外の条件が入ることはなく、1発話内の限られた条件で計算されるため外れ値が発生しない。そのため、外れ値による予測性能の低下を回避することができ、従来よりも安定した音響特徴量の予測を可能にする。 The normalization method shown in Formula 2 does not include conditions other than the utterance such as the average and variance or the minimum and maximum values calculated from all learning data as in Non-Patent Document 1 and Non-Patent Document 2. Outliers do not occur because they are calculated under the limited conditions within one utterance. Therefore, it is possible to avoid a decrease in the prediction performance due to an outlier, and it is possible to more stably predict the acoustic feature amount than before.

図8は図1に示した音声合成装置10のCPUの属性正規化処理の一例を示すフロー図である。この属性正規化処理についてのプログラム(「言語処理プログラム」に相当する)は、音声合成装置10のメモリに記憶され、CPUによって実行される。学習処理および音声合成処理に必要な他のプログラムおよびデータについても同様である。 FIG. 8 is a flow chart showing an example of attribute normalization processing of the CPU of the speech synthesizer 10 shown in FIG. A program for this attribute normalization processing (corresponding to a “language processing program”) is stored in the memory of the speech synthesizer 10 and executed by the CPU. The same applies to other programs and data necessary for the learning process and the voice synthesis process.

また、この実施例では、言語特徴量に含まれる複数の属性のうちの「当該アクセント句中のモーラの昇順位置」の属性を正規化する場合の処理について説明する。詳細な説明は省略するが、他の属性についても同様の属性正規化処理が実行される。 Further, in this embodiment, a process for normalizing an attribute of “ascending position of mora in the accent phrase” among a plurality of attributes included in the language feature will be described. Although detailed description is omitted, similar attribute normalization processing is executed for other attributes.

図8に示すように、CPUは、属性正規化処理を開始すると、ステップS1で、後述する第1属性値算出処理(図9参照)を実行し、ステップS3で、後述する第2属性値算出処理(図10参照)を実行する。 As shown in FIG. 8, when the CPU starts the attribute normalization process, the CPU executes a first attribute value calculation process (see FIG. 9) described below in step S1, and a second attribute value calculation described below in step S3. The process (see FIG. 10) is executed.

次のステップS5では、時刻についての変数tを初期化し、配列array m[T]を設定する。つまり、CPUは、変数tに0を代入し、音素フレームの最大値Tまでの要素(ここでは、当該アクセント句中のモーラの昇順位置)を格納可能な配列array m[T]を設定する。ただし、変数tはフレーム数をカウントするための変数である。これは、後述する第1属性値算出処理(図9)および第2属性値算出処理(図10)においても同じである。また、配列array m[T]は正規化された属性値を格納するための配列である。なお、最大値Tは1発話における音素フレームの総数である。 In the next step S5, the variable t for time is initialized and the array array m[T] is set. That is, the CPU substitutes 0 for the variable t and sets an array array m[T] capable of storing elements up to the maximum value T of the phoneme frame (here, the ascending order position of the mora in the accent phrase). However, the variable t is a variable for counting the number of frames. This is the same in the first attribute value calculation process (FIG. 9) and the second attribute value calculation process (FIG. 10) described later. The array array m[T] is an array for storing normalized attribute values. The maximum value T is the total number of phoneme frames in one utterance.

次のステップS7では、変数tが音素フレームの最大値Tよりも小さいかどうかを判断する。ステップS7で“NO”であれた、つまり、変数tが音素フレームの最大値T以上であれば、「当該アクセント句中のモーラの昇順位置」をすべてのモーラについて正規化したと判断し、属性正規化処理を終了する。 In the next step S7, it is determined whether the variable t is smaller than the maximum value T of the phoneme frame. If “NO” in the step S7, that is, if the variable t is equal to or larger than the maximum value T of the phoneme frame, it is determined that “the ascending position of the mora in the accent phrase” is normalized for all the mora, and the attribute The normalization process ends.

一方、ステップS7で“YES”であれば、つまり、変数tが音素フレームの最大値T未満であれば、「当該アクセント句中のモーラの昇順位置」を正規化していないモーラが残っていると判断し、ステップS9で、昇順の位置が変数tにおける要素m[t]を算出し(m[t]=x[t]/y[t])、ステップS11で、変数tを1加算して(t=t+1)、ステップS7に戻る。 On the other hand, if “YES” in the step S7, that is, if the variable t is less than the maximum value T of the phoneme frame, it is determined that there remains a mora for which “the ascending order position of the mora in the accent phrase” is not normalized. In step S9, the element m[t] in which the ascending position is the variable t is calculated (m[t]=x[t]/y[t]), and the variable t is incremented by 1 in step S11. (T=t+1), the process returns to step S7.

図9は図8に示したステップS1および後述する図10のステップS51で実行されるCPUの第1属性値算出処理を示すフロー図である。以下、第1属性値算出処理について説明するが、既に説明した処理と同じ処理については、簡単に説明することにする。 FIG. 9 is a flowchart showing the first attribute value calculation processing of the CPU executed in step S1 shown in FIG. 8 and step S51 in FIG. 10 described later. Hereinafter, the first attribute value calculation process will be described, but the same process as the process already described will be briefly described.

図9に示すように、CPUは、第1属性値算出処理を開始すると、ステップS21で、変数tおよび変数iを初期化するととに(t=0, i=1)、配列array x[T]を用意する(x[0],x[1],…,x[T-1])。ただし、変数iは、当該アクセント句中のモーラの昇順位置をカウントするための変数である。図10においても同じである。また、配列array x[T]は、各属性値についてのモーラの昇順位置を格納するための配列である。 As shown in FIG. 9, when starting the first attribute value calculation processing, the CPU initializes the variables t and i in step S21 (t=0, i=1), and the array array x[T ] (X[0],x[1],...,x[T-1]). However, the variable i is a variable for counting the ascending order position of the mora in the accent phrase. The same applies to FIG. 10. The array array x[T] is an array for storing the ascending order position of the mora for each attribute value.

次のステップS23では、変数tが音素フレームの最大値Tよりも小さいかどうかを判断する。ステップS23で“NO”であれば、第1属性値算出処理を終了して、図8に示した属性正規化処理にリターンする。 In the next step S23, it is determined whether the variable t is smaller than the maximum value T of the phoneme frame. If “NO” in the step S23, the first attribute value calculation process is ended, and the process returns to the attribute normalization process shown in FIG.

一方、ステップS23で“YES”であれば、ステップS25で、要素x[t]に変数iの数値を代入する。つまり、当該アクセント句における当該モーラの昇順の番号が割り当てられる。次のステップS27では、変数tにおいてモーラの終わりかどうかを判断する。ここでは、CPUは、変数tが当該モーラにおける最終フレームを示すかどうかを判断する。ステップS27で“YES”であれば、つまり、変数tにおいてモーラの終わりでなければ、ステップS31に進む。一方、ステップS27で“NO”であれば、つまり、変数tにおいてモーラの終わりであれば、ステップS29で、変数iを1加算して(i=i+1)、ステップS31に進む。 On the other hand, if “YES” in the step S23, the numerical value of the variable i is substituted into the element x[t] in a step S25. That is, the ascending numbers of the mora in the accent phrase are assigned. In the next step S27, it is determined whether or not the mora ends in the variable t. Here, the CPU determines whether the variable t indicates the final frame in the mora. If "YES" in the step S27, that is, if the mora is not the end in the variable t, the process proceeds to a step S31. On the other hand, if “NO” in the step S27, that is, if the mora ends in the variable t, the variable i is incremented by 1 (i=i+1) in a step S29, and the process proceeds to the step S31.

ステップS31では、変数tにおいてアクセント句の終わりであるかどうかを判断する。ここでは、CPUは、変数tが当該アクセント句における最終フレームを示すかどうかを判断する。 In step S31, it is determined whether the variable t is the end of the accent phrase. Here, the CPU determines whether the variable t indicates the final frame in the accent phrase.

ステップS31で“NO”であれば、変数tにおいてアクセント句の終わりでなければ、ステップS35に進む。一方、ステップS31で“YES”であれば、変数tにおいてアクセント句の終わりであれば、ステップS33で、変数iを初期値に設定し、ステップS35で、変数tを1加算して(t=t+1)、ステップS23に戻る。 If "NO" in the step S31, and if the accent phrase is not the end in the variable t, the process proceeds to a step S35. On the other hand, if “YES” in the step S31, that is, if the accent phrase ends in the variable t, the variable i is set to an initial value in a step S33, and the variable t is incremented by 1 in a step S35 (t= t+1), and returns to step S23.

図10は図8に示したステップS3の第2属性値算出処理のフロー図である。図10に示すように、第2属性値算出処理を開始すると、ステップS51で、図9に示した第1属性値算出処理を実行する。 FIG. 10 is a flowchart of the second attribute value calculation process of step S3 shown in FIG. As shown in FIG. 10, when the second attribute value calculation process is started, the first attribute value calculation process shown in FIG. 9 is executed in step S51.

次のステップS53では、変数tおよび変数iを初期化するとともに(t=T, i=x[T-1])、配列array y[T]を用意する(y[0],y[1],…,y[T-1])。ただし、配列array y[T]は、第1属性値の各要素を正規化するための第2属性値(ここでは、、当該アクセント句中のモーラの総数)の各要素を格納するための配列である。なお、この第2属性値算出処理においては、配列array y[T]は末尾の要素y[T-1]から先頭の要素y[0]に向けて値が代入される。 In the next step S53, the variables t and i are initialized (t=T, i=x[T-1]), and the array array y[T] is prepared (y[0], y[1]). ,…,Y[T-1]). However, the array array y[T] is an array for storing each element of the second attribute value (here, the total number of moras in the accent phrase) for normalizing each element of the first attribute value. Is. In the second attribute value calculation process, the array array y[T] is assigned values from the last element y[T-1] to the first element y[0].

続いて、ステップS55では、変数tが0よりも大きいかどうかを判断する。ステップS55で“NO”であれば、第2属性値算出処理を終了して、図8に示した属性正規化処理にリターンする。 Succeedingly, in a step S55, it is determined whether or not the variable t is larger than 0. If “NO” in the step S55, the second attribute value calculation process is ended and the process returns to the attribute normalization process shown in FIG.

一方、ステップS55で“YES”であれば、ステップS57で、変数tを1減算して(t=t-1)、ステップS59で、変数tにおけるアクセント句の終わりかどうかを判断する。ステップS59で“NO”であれば、つまり、変数tにおけるアクセント句の終わりでなければ、ステップS63に進む。 On the other hand, if "YES" in the step S55, the variable t is decremented by 1 (t=t-1) in a step S57, and it is determined in a step S59 whether or not the accent phrase in the variable t is the end. If "NO" in the step S59, that is, if it is not the end of the accent phrase in the variable t, the process proceeds to a step S63.

一方、ステップS59で“YES”であれば、つまり、変数tにおけるアクセント句の終わりであれば、ステップS61で、変数iに要素x[t]を代入し(i=x[t])、さらに、ステップS63で、要素y[t]に変数iを代入して(y[t]=i)、ステップS55に戻る。 On the other hand, if “YES” in the step S59, that is, if the accent phrase in the variable t is the end, in a step S61, the element x[t] is substituted for the variable i (i=x[t]), and further, In step S63, the variable i is assigned to the element y[t] (y[t]=i), and the process returns to step S55.

この実施例によれば、1発話内の値のみを用いて、言語的に関連する属性の比を取ることにより、言語特徴量を正規化するので、外れ値が発生するのを防止することができる。このため、音響特徴量の予測精度が良好である。 According to this embodiment, since the linguistic feature quantity is normalized by taking the ratio of the linguistically related attributes using only the value within one utterance, it is possible to prevent the occurrence of outliers. it can. Therefore, the prediction accuracy of the acoustic feature amount is good.

また、この実施例によれば、外れ値が発生しないため、外れ値が発生するのを防止するために学習データを増やす必要が無い。つまり、この実施例によれば、少量の学習データであっても、音響特徴量の予測精度が良好である。 Further, according to this embodiment, since the outlier does not occur, it is not necessary to increase the learning data in order to prevent the outlier from occurring. That is, according to this embodiment, even with a small amount of learning data, the acoustic feature quantity prediction accuracy is good.

なお、この実施例では、第1属性値(Ltd)の絶対値が第2属性値(Ltδ)の絶対値以下であることを条件とすることにより(数2)、DNNの入力値が0から1の間(または範囲)に収まるように言語特徴量(の各属性)を正規化したが、これに限定される必要はない。たとえば、第1属性値の絶対値が第2属性値の絶対値よりも大きいことを条件とし、第1属性値(Ltd)および第2属性値(Ltδ)に所定の定数を加算したり乗算したりすることでスケールを変化させ、正規化後の値を0から1の範囲を超える値にするようにしてもよい。この場合、各属性値のスケールが変化するだけであるため、スケールを変化させる前と同様の効果が得られる。また、正規化後の値の範囲によっては、第2属性値の絶対値が第1属性値の絶対値より大きいこと(|Ltd|<|Ltδ|)を条件としてもよい。 In this embodiment, the input value of the DNN is set by the condition that the absolute value of the first attribute value (L td ) is less than or equal to the absolute value of the second attribute value (L ). Although the language feature amount (each attribute of the language feature amount) is normalized so as to fall within the range (or range) from 0 to 1, the present invention is not limited to this. For example, on condition that the absolute value of the first attribute value is larger than the absolute value of the second attribute value, a predetermined constant is added to the first attribute value (L td ) and the second attribute value (L ). The scale may be changed by multiplying the normalized value to a value exceeding the range of 0 to 1. In this case, since the scale of each attribute value only changes, the same effect as before changing the scale can be obtained. In addition, depending on the range of values after normalization, the condition may be that the absolute value of the second attribute value is larger than the absolute value of the first attribute value (|L td |<|L |).

なお、上述の実施例で示した具体的な数値は単なる一例であり、限定されるべきではなく、実施される製品等に応じて適宜変更可能である。 It should be noted that the specific numerical values shown in the above-mentioned embodiments are merely examples and should not be limited, and can be appropriately changed according to the product to be implemented.

10 …音声合成装置
12、16 …記憶部
10... Speech synthesizer 12, 16... Storage unit

Claims (12)

合成音声を生成する音声合成装置のディープニューラルネットワークに入力され、複数の異なる属性で構成される言語特徴量ベクトル系列を正規化する言語処理装置であって、
1発話分の前記言語特徴量ベクトル系列における第1の属性を、当該第1の属性とは異なる第2の属性で正規化する正規化手段を備える、言語処理装置。
A language processing device that is input to a deep neural network of a speech synthesis device that generates synthetic speech and normalizes a language feature vector sequence composed of a plurality of different attributes,
A language processing device, comprising: a normalization unit that normalizes a first attribute in the language feature vector sequence for one utterance with a second attribute different from the first attribute.
前記第1の属性および前記第2の属性は、言語的に関連のある値である、請求項1記載の言語処理装置。 The language processing apparatus according to claim 1, wherein the first attribute and the second attribute are values that are linguistically related. 前記正規化手段は、前記第1の属性を前記第2の属性で除することで正規化する、請求項1または2記載の言語処理装置。 The language processing device according to claim 1, wherein the normalizing unit normalizes the first attribute by dividing the first attribute by the second attribute. 前記第1の属性の絶対値は、前記第2の属性の絶対値以下である、請求項1から3までのいずれかに記載の言語処理装置。 The language processing device according to claim 1, wherein an absolute value of the first attribute is equal to or less than an absolute value of the second attribute. 合成音声を生成する音声合成装置のディープニューラルネットワークに入力され、複数の異なる属性で構成される言語特徴量ベクトル系列を正規化する言語処理装置によって実行される言語処理プログラムであって、
前記言語処理装置のプロセッサに、1発話分の前記言語特徴量ベクトル系列における第1の属性を、当該第1の属性とは異なる第2の属性で正規化する正規化ステップを実行させる、言語処理プログラム。
A language processing program that is input to a deep neural network of a speech synthesizer that generates synthetic speech, and that is executed by a language processing apparatus that normalizes a language feature vector sequence composed of a plurality of different attributes,
Language processing for causing a processor of the language processing device to execute a normalization step of normalizing a first attribute in the language feature vector sequence for one utterance with a second attribute different from the first attribute program.
前記第1の属性および前記第2の属性は、言語的に関連のある値である、請求項3記載の言語処理プログラム。 The language processing program according to claim 3, wherein the first attribute and the second attribute are linguistically related values. 前記正規化手段は、前記第1の属性を前記第2の属性で除することで正規化する、請求項5または6記載の言語処理プログラム。 7. The language processing program according to claim 5, wherein the normalizing unit normalizes by dividing the first attribute by the second attribute. 前記第1の属性の絶対値は、前記第2の属性の絶対値以下である、請求項5から7までのいずれかに記載の言語処理プログラム。 8. The language processing program according to claim 5, wherein the absolute value of the first attribute is equal to or less than the absolute value of the second attribute. 合成音声を生成する音声合成装置のディープニューラルネットワークに入力され、複数の異なる属性で構成される言語特徴量ベクトル系列を正規化する言語処理方法であって、
1発話分の前記言語特徴量ベクトル系列における第1の属性を、当該第1の属性とは異なる第2の属性で正規化する、言語処理方法。
A language processing method for normalizing a language feature vector sequence, which is input to a deep neural network of a speech synthesizer for generating synthetic speech, and which comprises a plurality of different attributes,
A language processing method for normalizing a first attribute in the language feature vector sequence for one utterance with a second attribute different from the first attribute.
前記第1の属性および前記第2の属性は、言語的に関連のある値である、請求項9記載の言語処理方法。 The language processing method according to claim 9, wherein the first attribute and the second attribute are linguistically related values. 前記第1の属性を前記第2の属性で除することで正規化する、請求項9または10記載の言語処理方法。 The language processing method according to claim 9, wherein normalization is performed by dividing the first attribute by the second attribute. 前記第1の属性の絶対値は、前記第2の属性の絶対値以下である、請求項9から11までのいずれかに記載の言語処理プログラム。 The language processing program according to claim 9, wherein the absolute value of the first attribute is equal to or less than the absolute value of the second attribute.
JP2018244555A 2018-12-27 2018-12-27 Language processor, language processor and language processing method Active JP6840124B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018244555A JP6840124B2 (en) 2018-12-27 2018-12-27 Language processor, language processor and language processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018244555A JP6840124B2 (en) 2018-12-27 2018-12-27 Language processor, language processor and language processing method

Publications (2)

Publication Number Publication Date
JP2020106643A true JP2020106643A (en) 2020-07-09
JP6840124B2 JP6840124B2 (en) 2021-03-10

Family

ID=71448992

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018244555A Active JP6840124B2 (en) 2018-12-27 2018-12-27 Language processor, language processor and language processing method

Country Status (1)

Country Link
JP (1) JP6840124B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056467A (en) * 2019-10-02 2021-04-08 日本放送協会 Learning device, voice synthesis device and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146576A (en) * 1995-10-31 1997-06-06 Natl Sci Council Synthesizer for meter based on artificial neuronetwork of text to voice
WO2018216729A1 (en) * 2017-05-24 2018-11-29 日本放送協会 Audio guidance generation device, audio guidance generation method, and broadcasting system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146576A (en) * 1995-10-31 1997-06-06 Natl Sci Council Synthesizer for meter based on artificial neuronetwork of text to voice
WO2018216729A1 (en) * 2017-05-24 2018-11-29 日本放送協会 Audio guidance generation device, audio guidance generation method, and broadcasting system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZEN, HEIGA ET AL.: ""Statistical parametric speech synthesis using deep neural networks"", 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6020045207, 26 May 2013 (2013-05-26), pages 7962 - 7966, XP055794938, ISSN: 0004393142 *
高木信二 他: ""Deep Neural Networkに基づく音響特徴抽出・音響モデルを用いた統計的音声合成システムの構築"", 情報処理学会研究報告, JPN6020045206, 20 February 2015 (2015-02-20), pages 1 - 6, ISSN: 0004393141 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021056467A (en) * 2019-10-02 2021-04-08 日本放送協会 Learning device, voice synthesis device and program
JP7469015B2 (en) 2019-10-02 2024-04-16 日本放送協会 Learning device, voice synthesis device and program

Also Published As

Publication number Publication date
JP6840124B2 (en) 2021-03-10

Similar Documents

Publication Publication Date Title
JP5665780B2 (en) Speech synthesis apparatus, method and program
TWI471854B (en) Guided speaker adaptive speech synthesis system and method and computer program product
JP5631915B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, and learning apparatus
JP6523893B2 (en) Learning apparatus, speech synthesis apparatus, learning method, speech synthesis method, learning program and speech synthesis program
JP2015180966A (en) Speech processing system
WO2016042659A1 (en) Speech synthesizer, and method and program for synthesizing speech
JP2005164749A (en) Method, device, and program for speech synthesis
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
JP5411845B2 (en) Speech synthesis method, speech synthesizer, and speech synthesis program
JP4829477B2 (en) Voice quality conversion device, voice quality conversion method, and voice quality conversion program
JP5929909B2 (en) Prosody generation device, speech synthesizer, prosody generation method, and prosody generation program
JP2016151736A (en) Speech processing device and program
JP6271748B2 (en) Audio processing apparatus, audio processing method, and program
JP6121273B2 (en) Speech learning model learning device, speech synthesizer, and methods and programs thereof
JP6840124B2 (en) Language processor, language processor and language processing method
JP6433063B2 (en) Audio processing apparatus and program
JP2017167526A (en) Multiple stream spectrum expression for synthesis of statistical parametric voice
JP5874639B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP2004139033A (en) Voice synthesizing method, voice synthesizer, and voice synthesis program
JP6748607B2 (en) Speech synthesis learning apparatus, speech synthesis apparatus, method and program thereof
JP4684770B2 (en) Prosody generation device and speech synthesis device
CN114270433A (en) Acoustic model learning device, speech synthesis device, method, and program
JP2021099454A (en) Speech synthesis device, speech synthesis program, and speech synthesis method
JP2013003470A (en) Voice processing device, voice processing method, and filter produced by voice processing method
JP6234134B2 (en) Speech synthesizer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210216

R150 Certificate of patent or registration of utility model

Ref document number: 6840124

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250