JP6680933B2 - Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program - Google Patents

Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program Download PDF

Info

Publication number
JP6680933B2
JP6680933B2 JP2019113938A JP2019113938A JP6680933B2 JP 6680933 B2 JP6680933 B2 JP 6680933B2 JP 2019113938 A JP2019113938 A JP 2019113938A JP 2019113938 A JP2019113938 A JP 2019113938A JP 6680933 B2 JP6680933 B2 JP 6680933B2
Authority
JP
Japan
Prior art keywords
data
speakers
voice
speaker
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019113938A
Other languages
Japanese (ja)
Other versions
JP2019179257A (en
Inventor
伸克 北条
伸克 北条
勇祐 井島
勇祐 井島
宮崎 昇
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019113938A priority Critical patent/JP6680933B2/en
Publication of JP2019179257A publication Critical patent/JP2019179257A/en
Application granted granted Critical
Publication of JP6680933B2 publication Critical patent/JP6680933B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声データからディープニューラルネットワーク音響モデルを学習する音響モデル学習装置、学習されたディープニューラルネットワーク音響モデルを用いて合成音声を生成する音声合成装置、音響モデル学習方法、音声合成方法、プログラムに関する。   The present invention relates to an acoustic model learning device that learns a deep neural network acoustic model from speech data, a speech synthesis device that generates synthetic speech using the learned deep neural network acoustic model, an acoustic model learning method, a speech synthesis method, and a program. Regarding

目標話者の音声データから、その話者の合成音声を生成する手法として、DNN(ディープニューラルネットワーク)に基づく技術がある(非特許文献1)。以下、図1、図2を参照して非特許文献1の音響モデル学習装置、音声合成装置の構成、および動作について説明する。図1は、同文献の音響モデル学習装置91の構成を示すブロック図である。図2は、同文献の音声合成装置92の構成を示すブロック図である。   There is a technique based on DNN (Deep Neural Network) as a method of generating a synthesized voice of a target speaker from voice data of the target speaker (Non-Patent Document 1). Hereinafter, configurations and operations of the acoustic model learning device and the speech synthesis device of Non-Patent Document 1 will be described with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing a configuration of an acoustic model learning device 91 of the document. FIG. 2 is a block diagram showing the configuration of the speech synthesizer 92 of the document.

図1に示すように、非特許文献1の音響モデル学習装置91は、話者音声データベース911と、音響モデル学習部913と、音響モデル記憶部914を含む。話者音声データベース911は、音声データ記憶部9111と、コンテキストデータ記憶部9112を含む。音声データ記憶部9111は、目標話者の音声データ(音声パラメータ)を予め記憶している。コンテキストデータ記憶部9112は、目標話者の音声データに対応するコンテキストデータを予め記憶している。詳細は後述するが、コンテキストデータには、少なくとも音声データの音素情報とアクセント情報が含まれるものとする。   As shown in FIG. 1, the acoustic model learning device 91 of Non-Patent Document 1 includes a speaker voice database 911, an acoustic model learning unit 913, and an acoustic model storage unit 914. The speaker voice database 911 includes a voice data storage unit 9111 and a context data storage unit 9112. The voice data storage unit 9111 stores in advance voice data (voice parameters) of the target speaker. The context data storage unit 9112 stores in advance context data corresponding to the voice data of the target speaker. Although details will be described later, it is assumed that the context data includes at least phoneme information and accent information of the voice data.

音響モデル学習部913は、目標話者の音声データ、コンテキストデータを用いて、DNN(ディープニューラルネットワーク)による、目標話者の音響モデルを学習し、学習された音響モデル(以下、DNN音響モデル、またはディープニューラルネットワーク音響モデルと呼称する)を音響モデル記憶部914に記憶する。   The acoustic model learning unit 913 learns the acoustic model of the target speaker by DNN (deep neural network) using the speech data and context data of the target speaker, and the learned acoustic model (hereinafter, the DNN acoustic model, Or, referred to as a deep neural network acoustic model) is stored in the acoustic model storage unit 914.

図2に示すように、非特許文献1の音声合成装置92は、テキスト解析部921と、音声パラメータ生成部922と、音声波形生成部923を含む。   As shown in FIG. 2, the voice synthesis device 92 of Non-Patent Document 1 includes a text analysis unit 921, a voice parameter generation unit 922, and a voice waveform generation unit 923.

テキスト解析部921は、入力テキスト(音声合成目的のテキストデータ)を解析して、前述のコンテキストデータを取得する。音声パラメータ生成部922は、音響モデル記憶部914に記憶されたディープニューラルネットワーク音響モデルを用いて、コンテキストデータから音声パラメータを生成する。音声波形生成部923は、生成された音声パラメータを用いて音声波形を生成する。   The text analysis unit 921 analyzes the input text (text data for speech synthesis purpose) and acquires the context data described above. The voice parameter generation unit 922 uses the deep neural network acoustic model stored in the acoustic model storage unit 914 to generate a voice parameter from the context data. The voice waveform generation unit 923 generates a voice waveform using the generated voice parameter.

Zen et al., "Statistical parametric speech synthesis using deep neural networks." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013 pp. 7962-7966.Zen et al., "Statistical parametric speech synthesis using deep neural networks." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013 pp. 7962-7966.

DNN音響モデルにより高品質な音声合成を達成するためには、音響モデル学習部913において、目標話者の大量の音声データおよびコンテキストデータが必要となる。また、一つのDNN音響モデルからは、単一話者の音声のみが合成可能であった。   In order to achieve high-quality speech synthesis by the DNN acoustic model, the acoustic model learning unit 913 needs a large amount of speech data and context data of the target speaker. Also, only one speaker's voice could be synthesized from one DNN acoustic model.

このため、複数の話者の音声をDNNに基づく音声合成により達成するためには、複数の話者について、それぞれ大量の音声データおよびコンテキストデータが必要であり、学習にかかるコストが大きい。   Therefore, in order to achieve voices of a plurality of speakers by voice synthesis based on DNN, a large amount of voice data and context data are required for each of the plurality of speakers, and learning costs are high.

また、複数の話者の合成音声を得るためには、その人数に応じた数のDNN音響モデルを保持する必要があり、話者数の増大に伴い使用メモリ数が増大する。   Further, in order to obtain the synthesized speech of a plurality of speakers, it is necessary to hold as many DNN acoustic models as the number of speakers, and the number of memories used increases as the number of speakers increases.

そこで本発明では、小さなサイズかつ複数話者の合成音声を生成できるDNN音響モデルを低コストで学習できる音響モデル学習装置を提供することを目的とする。   Therefore, it is an object of the present invention to provide an acoustic model learning device that can learn a DNN acoustic model that can generate synthetic speech of a small size and multiple speakers at low cost.

本発明の音響モデル学習装置は、複数の話者の音声データと、少なくとも音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、話者を特定するデータあるいは話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習する音響モデル学習部を有し、ニューラルネットワークの入力層に、少なくとも音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、話者を特定するデータあるいは話者の特徴を表すデータを入力することを特徴とする。   The acoustic model learning device of the present invention determines the voice data of a plurality of speakers, the context data of a plurality of speakers including at least phoneme information and accent information of the voice data, the data for specifying the speaker, or the characteristics of the speaker. Using the represented data, a pitch parameter, which is necessary for speech waveform synthesis, and an acoustic model learning unit that learns a deep neural network acoustic model for generating a speech parameter including a spectrum parameter. It is characterized in that context data of a plurality of speakers including at least phoneme information and accent information of voice data, data specifying a speaker or data representing characteristics of the speaker is input to the input layer.

本発明の音響モデル学習装置によれば、小さなサイズかつ複数話者の合成音声を生成できるDNN音響モデルを低コストで学習できる。   According to the acoustic model learning device of the present invention, it is possible to learn a DNN acoustic model having a small size and capable of generating synthetic speech of a plurality of speakers at low cost.

非特許文献1の音響モデル学習装置の構成を示すブロック図。The block diagram which shows the structure of the acoustic model learning apparatus of nonpatent literature 1. 非特許文献1の音声合成装置の構成を示すブロック図。FIG. 3 is a block diagram showing the configuration of the speech synthesis device of Non-Patent Document 1. 実施例1の音響モデル学習装置の構成を示すブロック図。3 is a block diagram showing the configuration of an acoustic model learning device of Example 1. FIG. 実施例1の音響モデル学習装置の動作を示すフローチャート。3 is a flowchart showing the operation of the acoustic model learning device of the first embodiment. 実施例1の音声合成装置の構成を示すブロック図。3 is a block diagram showing the configuration of the speech synthesizer of Embodiment 1. FIG. 実施例1の音声合成装置の動作を示すフローチャート。3 is a flowchart showing the operation of the speech synthesizer of the first embodiment. 実施例2の音響モデル学習装置の構成を示すブロック図。3 is a block diagram showing the configuration of an acoustic model learning device of Example 2. FIG. 実施例2の音響モデル学習装置の動作を示すフローチャート。5 is a flowchart showing the operation of the acoustic model learning device of the second embodiment. 実施例2の音声合成装置の構成を示すブロック図。3 is a block diagram showing the configuration of a speech synthesizer of Example 2. FIG. 実施例2の音声合成装置の動作を示すフローチャート。7 is a flowchart showing the operation of the speech synthesizer according to the second embodiment. 実施例3の音響モデル学習装置の構成を示すブロック図。7 is a block diagram showing the configuration of an acoustic model learning device of Example 3. FIG. 実施例3の音響モデル学習装置の動作を示すフローチャート。9 is a flowchart showing the operation of the acoustic model learning device of the third embodiment. 実施例3の音声合成装置の構成を示すブロック図。6 is a block diagram showing the configuration of a speech synthesizer according to a third embodiment. FIG. 実施例3の音声合成装置の動作を示すフローチャート。9 is a flowchart showing the operation of the speech synthesizer according to the third embodiment.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. It should be noted that components having the same function are denoted by the same reference numeral, and redundant description will be omitted.

以下、図3、図4を参照して実施例1の音響モデル学習装置の構成、および動作について説明する。図3は、本実施例の音響モデル学習装置11の構成を示すブロック図である。図4は、本実施例の音響モデル学習装置11の動作を示すフローチャートである。非特許文献1の音響モデル学習装置91と異なる点は、本実施例の音響モデル学習装置11が話者を特定するデータを活用する点である。   Hereinafter, the configuration and operation of the acoustic model learning device according to the first embodiment will be described with reference to FIGS. 3 and 4. FIG. 3 is a block diagram showing the configuration of the acoustic model learning device 11 of this embodiment. FIG. 4 is a flowchart showing the operation of the acoustic model learning device 11 of this embodiment. The difference from the acoustic model learning device 91 of Non-Patent Document 1 is that the acoustic model learning device 11 of the present embodiment utilizes data for identifying a speaker.

図3に示すように、本実施例の音響モデル学習装置11は、複数話者音声データベース111と、音響モデル学習部113と、音響モデル記憶部914を含む。複数話者音声データベース111は、複数の話者(Nを2以上の整数とし、N人の話者)それぞれに対し、各話者の音声データを記憶した音声データ記憶部1111−1、…、1111−Nと、各話者の音声データに対応するコンテキストデータを記憶したコンテキストデータ記憶部1112−1、…、1112−Nを含む。音声データは、音声合成用のDNN音響モデルを学習する対象とされたN人の話者が複数の文章を発話した音声のデータである。コンテキストデータは、音声データ中の各発話につき一つずつ付与された発音等の情報である。コンテキストデータは音声データの発話情報を保持するものであって、少なくとも音素情報(発音情報)とアクセント情報(アクセント型、アクセント句長)が含まれている。コンテキストデータには、これ以外にも品詞情報等が含まれてもよい。なお、音響モデル記憶部914は、前述した非特許文献1の音響モデル学習装置91における同名の構成要素と同じである。   As shown in FIG. 3, the acoustic model learning device 11 according to the present exemplary embodiment includes a multi-speaker speech database 111, an acoustic model learning unit 113, and an acoustic model storage unit 914. The multi-speaker voice database 111 stores, for each of a plurality of speakers (N is an integer of 2 or more, N speakers), voice data storage units 1111-1, ... 1111-N, and context data storage units 1112-1, ..., 1112-N that store context data corresponding to the voice data of each speaker. The voice data is data of voices produced by a plurality of N speakers who are targeted for learning the DNN acoustic model for voice synthesis. The context data is information such as pronunciation that is given one by one for each utterance in the voice data. The context data holds utterance information of voice data and includes at least phoneme information (pronunciation information) and accent information (accent type, accent phrase length). In addition to this, the context data may include part-of-speech information and the like. The acoustic model storage unit 914 is the same as the constituent element of the same name in the acoustic model learning device 91 of Non-Patent Document 1 described above.

音響モデル学習部113は、複数の話者の音声データと、対応するコンテキストデータに加え、話者を特定するデータを用いて、音声波形合成に必要な音声パラメータを生成するためのDNN音響モデルを学習し、学習されたDNN音響モデルを音響モデル記憶部914に記憶する(S113)。話者を特定するデータとは、ある音声データを読み上げた話者を特定するための情報(データ)である。話者を特定するデータを数値ベクトルとして表現した、例えば話者コードを用いることができる。話者コードは、N名の話者のうち、どの話者の発話かを識別する情報を、1−of−K表現で表現したベクトルとすることができる。1−of−K表現とはベクトルのある要素だけが1、他の全ての要素が0となる表現のことである。   The acoustic model learning unit 113 uses, in addition to the voice data of a plurality of speakers and the corresponding context data, the data that specifies the speaker to generate a DNN acoustic model for generating a voice parameter required for voice waveform synthesis. The learned DNN acoustic model is stored in the acoustic model storage unit 914 (S113). The data for specifying the speaker is information (data) for specifying the speaker who read a certain voice data. It is possible to use, for example, a speaker code in which the data specifying the speaker is expressed as a numerical vector. The speaker code can be a vector in which information that identifies which speaker of N speakers is uttered is expressed by a 1-of-K expression. The 1-of-K expression is an expression in which only one element of the vector is 1, and all other elements are 0.

すなわち音響モデル学習部113は、コンテキストデータを数値ベクトルで表現した言語特徴量ベクトルと、話者コードを連結したものを入力とし、話者、コンテキストデータに対応する音声パラメータを出力とするDNN音響モデルを学習する(S113)。   That is, the acoustic model learning unit 113 receives the language feature vector expressing the context data as a numerical vector and the speaker code connected, and outputs the DNN acoustic model that outputs the voice parameters corresponding to the speaker and the context data. Is learned (S113).

以下、図5、図6を参照して、本実施例の音声合成装置12の構成、および動作について説明する。図5は、本実施例の音声合成装置12の構成を示すブロック図である。図6は、本実施例の音声合成装置12の動作を示すフローチャートである。非特許文献1の音声合成装置92と異なる点は、本実施例の音声合成装置12が話者を特定するデータを活用する点である。   The configuration and operation of the speech synthesizer 12 of this embodiment will be described below with reference to FIGS. 5 and 6. FIG. 5 is a block diagram showing the configuration of the speech synthesizer 12 of this embodiment. FIG. 6 is a flowchart showing the operation of the speech synthesizer 12 of this embodiment. The difference from the speech synthesizer 92 of Non-Patent Document 1 is that the speech synthesizer 12 of the present embodiment utilizes data for specifying a speaker.

図5に示すように、本実施例の音声合成装置12は、テキスト解析部921と、音声パラメータ生成部122と、音声波形生成部923を含む。テキスト解析部921と、音声波形生成部923は、前述した非特許文献1の音声合成装置92における同名の構成要素と同じ動作をする。音声パラメータ生成部122は、音響モデル記憶部914に記憶されたDNN音響モデルを用いて、入力テキストを解析して取得されたコンテキストデータと、入力テキストとともに入力される話者を特定するデータ(話者コード)から音声パラメータを生成する(S122)。音声パラメータは、音高パラメータ(基本周波数F0等)、スペクトルパラメータ(ケプストラム、メルケプストラム等)を含むものとする。具体的には、音声パラメータ生成部122は、コンテキストデータと話者コードを連結し、DNN音響モデルへの入力ベクトルを得る。音声パラメータ生成部122は、入力ベクトルをDNN音響モデルへ入力し、順伝播により音声パラメータを生成する(S122)。音声波形生成部923は、非特許文献1と同様に、音声パラメータから、音声波形生成により合成音声を得る(S923)。音声波形生成部923は、音声波形生成の前に、例えば、maximum likelihood generation(MLPG)アルゴリズム(参考非特許文献1)を用いて時間方向に平滑化された音声パラメータ系列を得てもよい。音声波形生成には、例えば(参考非特許文献2)を用いてもよい。
(参考非特許文献1:益子他、“動的特徴を用いたHMMに基づく音声合成”、信学論、vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.)
(参考非特許文献2:今井他、“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”、電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.)
As shown in FIG. 5, the speech synthesis device 12 of this embodiment includes a text analysis unit 921, a speech parameter generation unit 122, and a speech waveform generation unit 923. The text analysis unit 921 and the speech waveform generation unit 923 operate in the same manner as the components of the same name in the speech synthesis device 92 of Non-Patent Document 1 described above. The speech parameter generation unit 122 uses the DNN acoustic model stored in the acoustic model storage unit 914 to analyze the context data obtained by analyzing the input text, and the data (speaker that specifies the speaker input together with the input text. The voice parameter is generated from the person code) (S122). The voice parameters include pitch parameters (fundamental frequency F0, etc.) and spectrum parameters (cepstrum, mel cepstrum, etc.). Specifically, the voice parameter generation unit 122 connects the context data and the speaker code to obtain an input vector to the DNN acoustic model. The voice parameter generation unit 122 inputs the input vector to the DNN acoustic model and generates a voice parameter by forward propagation (S122). The voice waveform generation unit 923 obtains a synthetic voice by voice waveform generation from voice parameters, as in Non-Patent Document 1 (S923). The speech waveform generation unit 923 may obtain a speech parameter sequence smoothed in the time direction using, for example, a maximum likelihood generation (MLPG) algorithm (Reference Non-Patent Document 1) before generating the speech waveform. For example, (Reference Non-Patent Document 2) may be used for the voice waveform generation.
(Reference Non-Patent Document 1: Mashiko et al., "HMM-based speech synthesis using dynamic features", IEICE, vol.J79-D-II, no.12, pp.2184-2190, Dec. 1996. )
(Reference Non-Patent Document 2: Imai et al., “Mel-Log Spectral Approximation (MLSA) Filter for Speech Synthesis”, IEICE Transactions A Vol.J66-A No.2 pp.122-129, Feb. 1983. .)

本実施例の音響モデル学習装置11によれば、コンテキストデータに加え、話者を特定するデータ(話者コード)を活用したため、対応するコンテキストデータと話者性を反映した音声パラメータを出力するDNN音響モデルを学習することができる。   According to the acoustic model learning apparatus 11 of the present embodiment, since the data (speaker code) that specifies the speaker is utilized in addition to the context data, the DNN that outputs the corresponding context data and the voice parameter reflecting the speaker characteristic. Can learn acoustic models.

本実施例では、音声パラメータに話者を特徴づける成分と日本語音声として話者間で共通する成分とが含まれることを仮定している。具体的には、話者を特徴づける成分に対応する入力として各話者の1−of−K表現である話者コードが用いられ、日本語音声として話者間で共通する成分に対応する入力としてコンテキストデータが用いられる。話者を特徴づける成分と話者間で共通する成分とで構成される音声パラメータを教師信号として与えることで、DNN内部でそれぞれの成分に対応したパラメータ推定器が学習される。これにより、単一のDNN音響モデルで学習に用いられた話者それぞれに対応する音声合成が可能となる。   In the present embodiment, it is assumed that the voice parameter includes a component that characterizes the speaker and a component that is common to both speakers as Japanese voice. Specifically, a speaker code, which is a 1-of-K expression of each speaker, is used as an input corresponding to a component that characterizes the speaker, and an input corresponding to a component that is common among speakers as a Japanese voice. Is used as the context data. A parameter estimator corresponding to each component is learned inside the DNN by giving a voice signal composed of a component characterizing the speaker and a component common to the speakers as a teacher signal. This enables speech synthesis corresponding to each speaker used for learning with a single DNN acoustic model.

日本語の音声は多様なコンテキストに対して多様な音声パラメータ表現となるため、多様なコンテキストに対して音声パラメータを精度よく推定するためには大量の音声データが必要となるのが通常であった。しかし本実施例では、音声パラメータに話者を特徴づける成分と日本語音声として話者間で共通する成分とが含まれることを仮定したため、複数話者にまたがって十分な量の音声データが存在すればよく、単一の話者について大量の音声データを準備する必要がない。すなわち、複数の話者の音声データを効率的に活用し、一つのDNN音響モデルを学習するため、学習に必要な音声データを減らすことができる。また、一つの音響モデルで複数の話者性を反映した音声合成を実現するため、より少ないメモリ使用量で、多数の話者を扱う音声合成システムを実現できる。   Since Japanese voice has various voice parameter expressions for various contexts, a large amount of voice data is usually required to accurately estimate voice parameters for various contexts. . However, in the present embodiment, since it is assumed that the voice parameter includes a component that characterizes the speaker and a component that is common among the speakers as Japanese voice, there is a sufficient amount of voice data across multiple speakers. All that is required is not to prepare a large amount of voice data for a single speaker. That is, since the voice data of a plurality of speakers are efficiently used and one DNN acoustic model is learned, the voice data required for learning can be reduced. Further, since voice synthesis that reflects a plurality of speaker characteristics is realized with one acoustic model, a voice synthesis system that handles a large number of speakers can be realized with a smaller memory usage.

実施例1のように、話者コード(1−of−K表現)を用いる場合、複数話者音声データベース111に含まれる話者以外の話者の音声合成を行うことができない。そこで実施例2では、目標話者の参照発話のスペクトル情報の特徴を抽出し、モデル学習・音声合成に使用することにより、参照発話が得られる任意の目標話者についての音声合成を可能とした。以下、図7、図8を参照して実施例2の音響モデル学習装置21の構成、および動作について説明する。図7は、本実施例の音響モデル学習装置21の構成を示すブロック図である。図8は、本実施例の音響モデル学習装置21の動作を示すフローチャートである。実施例1の音響モデル学習装置11と異なる点は、本実施例の音響モデル学習装置21が話者の特徴を表すデータ(話者スペクトル特徴ベクトル)を活用する点である。   When the speaker code (1-of-K expression) is used as in the first embodiment, it is not possible to perform voice synthesis for speakers other than the speakers included in the multi-speaker voice database 111. Therefore, in the second embodiment, the feature of the spectrum information of the reference utterance of the target speaker is extracted and used for model learning and voice synthesis, thereby enabling the voice synthesis for an arbitrary target speaker who can obtain the reference utterance. . Hereinafter, the configuration and operation of the acoustic model learning device 21 according to the second embodiment will be described with reference to FIGS. 7 and 8. FIG. 7 is a block diagram showing the configuration of the acoustic model learning device 21 of this embodiment. FIG. 8 is a flowchart showing the operation of the acoustic model learning device 21 of this embodiment. The difference from the acoustic model learning device 11 according to the first exemplary embodiment is that the acoustic model learning device 21 according to the present exemplary embodiment utilizes data (speaker spectrum characteristic vector) representing the characteristics of the speaker.

図7に示すように、本実施例の音響モデル学習装置21は、複数話者音声データベース111と、スペクトル特徴抽出部212と、音響モデル学習部213と、音響モデル記憶部914を含み、複数話者音声データベース111、音響モデル記憶部914については実施例1の同名の構成要件と同じである。   As shown in FIG. 7, the acoustic model learning device 21 according to the present embodiment includes a multi-speaker speech database 111, a spectrum feature extraction unit 212, an acoustic model learning unit 213, and an acoustic model storage unit 914. The human voice database 111 and the acoustic model storage unit 914 are the same as the constituent requirements of the same name in the first embodiment.

スペクトル特徴抽出部212は、各話者の音声データ記憶部1111−1〜1111−Nから各話者の参照発話を抽出し、各話者の参照発話から各話者の話者スペクトル特徴ベクトルを生成する(S212)。ここで参照発話とは、学習時に使用する話者、または音声合成時の目標話者による発話であって、書き起こしが不要、短文の発話でよいという特徴がある。話者スペクトル特徴ベクトルとは、その話者の発話する音声に見られるスペクトル情報の特徴を、数値ベクトルで表現したものである。話者スペクトル特徴ベクトルの生成には、例えばi−vectorを使用してもよい。スペクトル特徴抽出部212については、例えば参考非特許文献3の知見などを利用し、i−vector抽出器を使用してもよい。
(参考非特許文献3:Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4
(2011): 788-798.)
The spectrum feature extraction unit 212 extracts the reference utterance of each speaker from the voice data storage units 1111-1 to 1111-N of each speaker, and extracts the speaker spectrum feature vector of each speaker from the reference utterance of each speaker. Generate (S212). Here, the reference utterance is an utterance by a speaker used at the time of learning or a target speaker at the time of voice synthesis, and is characterized in that transcription is unnecessary and a short sentence utterance is sufficient. The speaker spectrum feature vector is a numerical vector expressing the features of the spectrum information found in the voice spoken by the speaker. For example, i-vector may be used to generate the speaker spectrum feature vector. For the spectral feature extraction unit 212, for example, the knowledge of Reference Non-Patent Document 3 may be used and an i-vector extractor may be used.
(Reference Non-Patent Document 3: Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4.
(2011): 788-798.)

次に、音響モデル学習部213は、複数の話者の音声データと、複数の話者のコンテキストデータと、話者の特徴を表すデータである話者スペクトル特徴ベクトルとを用いて、DNN音響モデルを学習し、学習されたDNN音響モデルを音響モデル記憶部914に記憶する(S213)。   Next, the acoustic model learning unit 213 uses the voice data of the plurality of speakers, the context data of the plurality of speakers, and the speaker spectrum feature vector that is the data representing the features of the speakers, and the DNN acoustic model. Is learned and the learned DNN acoustic model is stored in the acoustic model storage unit 914 (S213).

以下、図9、図10を参照して、本実施例の音声合成装置22の構成、および動作について説明する。図9は、本実施例の音声合成装置22の構成を示すブロック図である。図10は、本実施例の音声合成装置22の動作を示すフローチャートである。実施例1の音声合成装置12と異なる点は、本実施例の音声合成装置22が話者の特徴を表すデータ(話者スペクトル特徴ベクトル)を活用する点である。   The configuration and operation of the speech synthesizer 22 of this embodiment will be described below with reference to FIGS. 9 and 10. FIG. 9 is a block diagram showing the configuration of the speech synthesizer 22 of this embodiment. FIG. 10 is a flowchart showing the operation of the speech synthesizer 22 of this embodiment. The difference from the speech synthesizer 12 of the first embodiment is that the speech synthesizer 22 of the present embodiment utilizes data (speaker spectrum feature vector) representing the characteristics of the speaker.

図9に示すように、本実施例の音声合成装置22は、テキスト解析部921と、スペクトル特徴抽出部221と、音声パラメータ生成部222と、音声波形生成部923を含む。テキスト解析部921と、音声波形生成部923は、実施例1と同様である。スペクトル特徴抽出部221は、音声合成用のテキストと共に入力された参照発話から前述の話者スペクトル特徴ベクトルを抽出する(S221)。前述したように、参照発話は目標話者による発話である。   As shown in FIG. 9, the speech synthesis device 22 of this embodiment includes a text analysis unit 921, a spectrum feature extraction unit 221, a speech parameter generation unit 222, and a speech waveform generation unit 923. The text analysis unit 921 and the voice waveform generation unit 923 are the same as in the first embodiment. The spectrum feature extraction unit 221 extracts the above-described speaker spectrum feature vector from the reference utterance input together with the text for speech synthesis (S221). As described above, the reference utterance is the utterance by the target speaker.

音声パラメータ生成部222は、音響モデル記憶部914に記憶されたDNN音響モデルを用いて、入力テキストを解析して取得されたコンテキストデータと、参照発話から抽出された話者スペクトル特徴ベクトルから音声パラメータを生成する(S222)。   The speech parameter generation unit 222 uses the DNN acoustic model stored in the acoustic model storage unit 914 to analyze the input text, the context data obtained by analyzing the input text, and the speaker spectrum feature vector extracted from the reference utterance. Is generated (S222).

実施例1の音声合成装置12では、話者コードを使用しているため、音響モデル学習時に使用する複数話者音声データベース111に含まれない目標話者については、音響モデル学習時に未知であるため、音声を合成することができない。この課題を解決するため、本実施例では、音声認識や話者識別の分野で使用されているi−vector等、当該話者の発話する音声のスペクトル情報の特徴を表現するベクトル(話者スペクトル特徴ベクトル)を使用する。これにより、複数話者音声データベース111に含まれない目標話者であっても、目標話者の音声と音響的に類似した話者の音声が音響モデル内でモデル化されているため、目標話者の参照発話が獲得できれば、目標話者に近いスペクトル特徴を持った音声を合成することができる。したがって、複数話者音声データベース111に含まれない目標話者であっても、その合成音声を生成することが可能となる。なお前述したように、話者スペクトル特徴ベクトルの生成には、例えばi−vectorを使用することができるが、ステップS212の実現方法はこれに限られない。   Since the voice synthesizer 12 of the first embodiment uses the speaker code, the target speaker not included in the multi-speaker voice database 111 used during acoustic model learning is unknown during acoustic model learning. , I cannot synthesize voice. In order to solve this problem, in the present embodiment, a vector (speaker spectrum) that expresses the characteristics of the spectrum information of the voice uttered by the speaker, such as i-vector used in the fields of voice recognition and speaker identification. Feature vector). As a result, even if the target speaker is not included in the multi-speaker voice database 111, the voice of the speaker acoustically similar to the voice of the target speaker is modeled in the acoustic model. If the reference utterance of the speaker is acquired, it is possible to synthesize a voice having spectral characteristics close to the target speaker. Therefore, even a target speaker who is not included in the multi-speaker voice database 111 can generate a synthesized voice. As described above, for example, i-vector can be used to generate the speaker spectrum feature vector, but the method of realizing step S212 is not limited to this.

実施例2の方法において、発話から話者情報ベクトルを抽出するための代表的な手法であるi−vectorは、話者識別分野や、音声認識分野においてモデルの話者適応を行う目的で提案されてきたものである。これらの分野では、音声に現れる個人性のうち、スペクトル情報の個人性がベクトルで表現されることが重要であった。一方で、音声合成分野において、目標話者の音声合成を実現するために話者情報ベクトルを抽出する場合、音声に現れる個人性のうち、スペクトル情報の個人性だけではなく、韻律情報の個人性も表現されていることが重要であり、この点が音声認識問題とは異なると考えられる。そこで実施例3の音響モデル学習装置31では、話者の特徴を表すデータに、F0の情報をも含むようにした。以下、図11、図12を参照して実施例3の音響モデル学習装置31の構成、および動作について説明する。図11は、本実施例の音響モデル学習装置31の構成を示すブロック図である。図12は、本実施例の音響モデル学習装置31の動作を示すフローチャートである。実施例2の音響モデル学習装置21と異なる点は、本実施例の音響モデル学習装置31が話者の特徴を表すデータとして話者スペクトル特徴ベクトルだけでなく、話者韻律特徴ベクトルを活用する点である。   In the method of the second embodiment, i-vector, which is a typical method for extracting the speaker information vector from the utterance, is proposed for the purpose of speaker adaptation of the model in the speaker identification field and the voice recognition field. It has come. In these fields, it was important that the individuality of the spectrum information, among the individualities appearing in the voice, be represented by a vector. On the other hand, in the field of speech synthesis, when the speaker information vector is extracted to realize the speech synthesis of the target speaker, among the individualities appearing in the voice, not only the individuality of the spectrum information but also the individuality of the prosodic information. Is also important, which is considered to be different from the speech recognition problem. Therefore, in the acoustic model learning device 31 of the third embodiment, the data representing the characteristics of the speaker also includes F0 information. Hereinafter, the configuration and operation of the acoustic model learning device 31 according to the third embodiment will be described with reference to FIGS. 11 and 12. FIG. 11 is a block diagram showing the configuration of the acoustic model learning device 31 of this embodiment. FIG. 12 is a flowchart showing the operation of the acoustic model learning device 31 of this embodiment. The difference from the acoustic model learning device 21 of the second embodiment is that the acoustic model learning device 31 of the present embodiment utilizes not only the speaker spectrum feature vector but also the speaker prosody feature vector as data representing the features of the speaker. Is.

図11に示すように、本実施例の音響モデル学習装置31は、複数話者音声データベース111と、スペクトル特徴抽出部212と、韻律特徴抽出部312と、音響モデル学習部313と、音響モデル記憶部914を含み、複数話者音声データベース111、スペクトル特徴抽出部212、音響モデル記憶部914については実施例2の同名の構成要件と同じである。   As shown in FIG. 11, the acoustic model learning device 31 of the present exemplary embodiment includes a multi-speaker speech database 111, a spectrum feature extraction unit 212, a prosody feature extraction unit 312, an acoustic model learning unit 313, and an acoustic model storage. The multi-speaker voice database 111, the spectrum feature extraction unit 212, and the acoustic model storage unit 914 including the unit 914 are the same as the constituent elements of the same name in the second embodiment.

韻律特徴抽出部312は、各話者の音声データ記憶部1111−1〜1111−Nから各話者の参照発話を抽出し、各話者の参照発話から各話者の話者韻律特徴ベクトルを生成する(S312)。話者韻律特徴ベクトルとは、音声に現れる個人性のうち、韻律情報の個人性を表現したベクトルである。より詳細には話者韻律特徴ベクトルは、その話者の発話する音声にみられる音響的特徴のうち、韻律情報の特徴を、数値ベクトルで表現したものである。   The prosody feature extraction unit 312 extracts the reference utterance of each speaker from the voice data storage units 1111-1 to 1111-N of each speaker and extracts the speaker prosody feature vector of each speaker from the reference utterance of each speaker. It is generated (S312). The speaker prosody feature vector is a vector expressing the individuality of the prosody information among the individualities appearing in the voice. More specifically, the speaker prosody feature vector is a numerical vector expressing the features of the prosody information among the acoustic features found in the speech uttered by the speaker.

韻律特徴抽出部312は、例えば、参照発話から分析されるF0系列の平均と分散を算出し、F0特徴情報を話者韻律特徴ベクトルとして抽出してもよい。韻律特徴抽出部312は、参考非特許文献4の手法を用いて、より詳細な韻律特徴のモデル化を行ってもよい。(参考非特許文献4:Dehak, Najim, Pierre Dumouchel, and Patrick Kenny. "Modeling prosodic features with joint factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 15.7 (2007): 2095-2103.)   The prosody feature extraction unit 312 may calculate, for example, the average and variance of the F0 sequence analyzed from the reference utterance, and extract the F0 feature information as a speaker prosody feature vector. The prosody feature extraction unit 312 may perform more detailed prosody feature modeling using the method of Reference Non-Patent Document 4. (Reference Non-Patent Document 4: Dehak, Najim, Pierre Dumouchel, and Patrick Kenny. "Modeling prosodic features with joint factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 15.7 (2007): 2095-2103 .)

次に、音響モデル学習部313は、複数の話者の音声データと、複数の話者のコンテキストデータと、話者スペクトル特徴ベクトルと、話者韻律特徴ベクトルとを用いて、DNN音響モデルを学習し、学習されたDNN音響モデルを音響モデル記憶部914に記憶する(S313)。   Next, the acoustic model learning unit 313 learns a DNN acoustic model by using voice data of a plurality of speakers, context data of a plurality of speakers, a speaker spectrum feature vector, and a speaker prosody feature vector. Then, the learned DNN acoustic model is stored in the acoustic model storage unit 914 (S313).

以下、図13、図14を参照して、本実施例の音声合成装置32の構成、および動作について説明する。図13は、本実施例の音声合成装置32の構成を示すブロック図である。図14は、本実施例の音声合成装置32の動作を示すフローチャートである。実施例2の音声合成装置22と異なる点は、本実施例の音声合成装置32が話者の特徴を表すデータとして話者スペクトル特徴ベクトルだけでなく、話者韻律特徴ベクトルを活用する点である。   The configuration and operation of the speech synthesizer 32 of this embodiment will be described below with reference to FIGS. 13 and 14. FIG. 13 is a block diagram showing the configuration of the speech synthesizer 32 of this embodiment. FIG. 14 is a flowchart showing the operation of the speech synthesizer 32 of this embodiment. The difference from the voice synthesizer 22 of the second embodiment is that the voice synthesizer 32 of the present embodiment utilizes not only the speaker spectrum feature vector but also the speaker prosody feature vector as data representing the feature of the speaker. .

図13に示すように、本実施例の音声合成装置32は、テキスト解析部921と、スペクトル特徴抽出部221と、韻律特徴抽出部321と、音声パラメータ生成部322と、音声波形生成部923を含む。テキスト解析部921と、スペクトル特徴抽出部221と、音声波形生成部923は、実施例1と同様である。韻律特徴抽出部321は、音声合成用のテキストと共に入力された参照発話から前述の話者韻律特徴ベクトルを抽出する(S321)。前述したように、参照発話は目標話者による発話である。   As shown in FIG. 13, the speech synthesis device 32 of this embodiment includes a text analysis unit 921, a spectrum feature extraction unit 221, a prosody feature extraction unit 321, a speech parameter generation unit 322, and a speech waveform generation unit 923. Including. The text analysis unit 921, the spectrum feature extraction unit 221, and the voice waveform generation unit 923 are the same as in the first embodiment. The prosody feature extraction unit 321 extracts the above-mentioned speaker prosody feature vector from the reference utterance input together with the text for speech synthesis (S321). As described above, the reference utterance is the utterance by the target speaker.

音声パラメータ生成部322は、音響モデル記憶部914に記憶されたDNN音響モデルを用いて、入力テキストを解析して取得されたコンテキストデータと、話者スペクトル特徴ベクトルと、話者韻律特徴ベクトルから音声パラメータを生成する(S322)。   The voice parameter generation unit 322 uses the DNN acoustic model stored in the acoustic model storage unit 914 to analyze the context data obtained by analyzing the input text, the speaker spectrum feature vector, and the speaker prosody feature vector, and outputs the voice. Parameters are generated (S322).

ある話者の音響的特徴は、スペクトルの特徴、韻律の特徴に分類することができる。実施例2のように、話者スペクトル特徴ベクトルを使用した場合、その話者の特徴のうち、スペクトルの特徴が合成音声にも反映され、目標話者の韻律の特徴が反映されない。本実施例では、目標話者の韻律の情報も表現したベクトルを使用することにより、複数話者音声データベース111に含まれない話者の、韻律の特徴をも反映した音声を合成することが可能となる。   The acoustic characteristics of a speaker can be classified into spectral characteristics and prosody characteristics. When the speaker spectrum feature vector is used as in the second embodiment, of the features of the speaker, the features of the spectrum are reflected in the synthesized voice, and the features of the prosody of the target speaker are not reflected. In the present embodiment, by using a vector that also represents the prosody information of the target speaker, it is possible to synthesize a voice that also reflects the prosody features of the speakers not included in the multi-speaker voice database 111. Becomes

なお、上述の実施例において説明した音響モデル学習装置、音声合成装置をそれぞれ音響モデル学習部、音声合成部として、これらを構成要件として備える単独のハードウェアとして本発明を実現してもよい。   The acoustic model learning device and the speech synthesizing device described in the above embodiments may be implemented as the acoustic model learning unit and the speech synthesizing unit, respectively, and the present invention may be realized as independent hardware having these components as constituent elements.

また、上述の実施例において説明した話者コード、話者スペクトル特徴ベクトル、話者韻律特徴ベクトルなどは、話者の情報について表現したベクトルであるという共通項をもつため、これらを話者情報ベクトルと総称してもよい。   In addition, since the speaker code, the speaker spectrum feature vector, the speaker prosody feature vector, etc. described in the above-mentioned embodiment have a common term that they are vectors expressing the information of the speaker, these are the speaker information vectors. May be collectively referred to.

<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Additional notes>
The device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating with the outside of the hardware entity. Connectable communication unit, CPU (Central Processing Unit, may include a cache memory or register, etc.), RAM or ROM as memory, external storage device as hard disk, and their input unit, output unit, communication unit , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged among external storage devices. If necessary, the hardware entity may be provided with a device (drive) capable of reading and writing a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。   The external storage device of the hardware entity stores a program necessary for realizing the above-described functions and data necessary for processing of this program (not limited to the external storage device, for example, the program is read). It may be stored in a ROM that is a dedicated storage device). In addition, data and the like obtained by the processing of these programs are appropriately stored in the RAM, the external storage device, or the like.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。   In the hardware entity, each program stored in an external storage device (or ROM, etc.) and data necessary for the processing of each program are read into the memory as necessary, and interpreted and executed / processed by the CPU as appropriate. . As a result, the CPU realizes a predetermined function (each constituent element represented by the above, ... Unit, ... Means, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   The present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention. Further, the processes described in the above embodiments are not only executed in time series in the order described, but may be executed in parallel or individually according to the processing capability of the device that executes the processes or as necessary. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。   As described above, when the processing functions of the hardware entity (the device of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on the computer, the processing functions of the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
The program describing the processing contents can be recorded in a computer-readable recording medium. The computer-readable recording medium may be any recording medium such as a magnetic recording device, an optical disc, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, a hard disk device, a flexible disk, a magnetic tape or the like is used as a magnetic recording device, and a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), or a CD-ROM (Compact Disc Read Only) is used as an optical disc. Memory), CD-
R (Recordable) / RW (ReWritable) or the like can be used as a magneto-optical recording medium, MO (Magneto-Optical disc) or the like, and semiconductor memory can be an EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like. .

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The distribution of this program is performed by selling, transferring, or lending a portable recording medium such as a DVD or a CD-ROM in which the program is recorded. Further, the program may be stored in a storage device of a server computer and transferred from the server computer to another computer via a network to distribute the program.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, the program recorded on a portable recording medium or the program transferred from the server computer in its own storage device. Then, when executing the processing, this computer reads the program stored in its own recording medium and executes the processing according to the read program. As another execution form of this program, a computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be sequentially executed. Further, the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by executing the execution instruction and acquiring the result without transferring the program from the server computer to the computer. May be It should be noted that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to a computer but has the property of defining computer processing).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Further, in this embodiment, the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be implemented by hardware.

Claims (10)

複数の話者の音声データと、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習する音響モデル学習部を有し、
ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音響モデル学習装置。
Using voice data of a plurality of speakers, context data of a plurality of speakers including at least phoneme information and accent information of the voice data, data specifying the speaker or data representing characteristics of the speaker An acoustic model learning unit that learns a deep neural network acoustic model for generating a voice parameter including a pitch parameter and a spectrum parameter required for voice waveform synthesis,
In the input layer of the neural network, context data of a plurality of speakers including at least phoneme information and accent information of the voice data, and data specifying the speakers or data representing characteristics of the speakers are input. Acoustic model learning device.
請求項1に記載の音響モデル学習装置であって、
前記音響モデル学習部は、
複数の話者の音声データと、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータとを用いて、前記ディープニューラルネットワーク音響モデルを学習し、
前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータを入力することを特徴とする
音響モデル学習装置。
The acoustic model learning device according to claim 1, wherein
The acoustic model learning unit,
The deep neural network acoustic model is learned using voice data of a plurality of speakers, context data of a plurality of speakers, and data for specifying the speaker represented by a 1-of-K expression vector. ,
An acoustic model learning device, wherein context data of a plurality of speakers and data for specifying the speakers represented by a 1-of-K expression vector are input to an input layer of the neural network.
請求項1に記載の音響モデル学習装置であって、
前記音響モデル学習部は、
複数の話者の音声データと、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を用いて前記ディープニューラルネットワーク音響モデルを学習し、
前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を入力することを特徴とする
音響モデル学習装置。
The acoustic model learning device according to claim 1, wherein
The acoustic model learning unit,
Speech data of a plurality of speakers, context data of a plurality of speakers, a speaker spectrum feature vector represented by i-vector as data representing the features of the speakers, and a speaker prosody feature vector representing F0 feature information. And learn the deep neural network acoustic model using
In the input layer of the neural network, context data of a plurality of speakers, a speaker spectrum feature vector represented by i-vector as data representing the features of the speakers, and a speaker prosody feature vector representing F0 feature information. An acoustic model learning device characterized by inputting ,.
入力テキストを解析して、少なくとも音素情報とアクセント情報を含むコンテキストデータを取得するテキスト解析部と、
複数の話者の音声データと、前記複数の話者の音声データのコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて学習されたディープニューラルネットワーク音響モデルを用いて、前記入力テキストを解析して取得されたコンテキストデータと、前記入力テキストとともに入力される前記話者を特定するデータまたは前記話者の特徴を表すデータから、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成する音声パラメータ生成部と、
前記生成された音声パラメータを用いて音声波形を生成する音声波形生成部を有し、
ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音声合成装置。
A text analysis unit that analyzes the input text and acquires context data including at least phoneme information and accent information,
Deep neural network acoustic model learned using voice data of a plurality of speakers, context data of voice data of the plurality of speakers, and data specifying the speaker or data representing characteristics of the speaker. By using the context data obtained by analyzing the input text, and from the data that specifies the speaker or the data representing the characteristics of the speaker, which is input together with the input text, a pitch parameter and a spectrum. A voice parameter generation unit for generating voice parameters including parameters,
A voice waveform generating unit that generates a voice waveform using the generated voice parameter,
In the input layer of the neural network, context data of a plurality of speakers including at least phoneme information and accent information of the voice data, and data specifying the speakers or data representing characteristics of the speakers are input. A speech synthesizer.
請求項4に記載の音声合成装置であって、
前記ディープニューラルネットワーク音響モデルは、
複数の話者の音声データと、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータとを用いて学習され、
前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータを入力することを特徴とする
音声合成装置。
The voice synthesizer according to claim 4,
The deep neural network acoustic model is
Learned using voice data of a plurality of speakers, context data of a plurality of speakers, and data specifying the speaker represented by a 1-of-K expression vector,
A voice synthesizer, wherein context data of a plurality of speakers and data for specifying the speakers expressed by a 1-of-K expression vector are input to an input layer of the neural network.
請求項4に記載の音声合成装置であって、
前記ディープニューラルネットワーク音響モデルは、
複数の話者の音声データと、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を用いて学習され、
前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を入力することを特徴とする
音声合成装置。
The voice synthesizer according to claim 4,
The deep neural network acoustic model is
Speech data of a plurality of speakers, context data of a plurality of speakers, a speaker spectrum feature vector represented by i-vector as data representing the features of the speakers, and a speaker prosody feature vector representing F0 feature information. And are learned using
In the input layer of the neural network, context data of a plurality of speakers, a speaker spectrum feature vector represented by i-vector as data representing the features of the speakers, and a speaker prosody feature vector representing F0 feature information. A voice synthesizer characterized by inputting ,.
音響モデル学習装置が実行する音響モデル学習方法であって、
複数の話者の音声データと、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習するステップを有し、
ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音響モデル学習方法。
An acoustic model learning method executed by an acoustic model learning device,
Using voice data of a plurality of speakers, context data of a plurality of speakers including at least phoneme information and accent information of the voice data, data specifying the speaker or data representing characteristics of the speaker , A step of learning a deep neural network acoustic model for generating a voice parameter including a pitch parameter and a spectrum parameter required for voice waveform synthesis,
In the input layer of the neural network, context data of a plurality of speakers including at least phoneme information and accent information of the voice data, and data specifying the speakers or data representing characteristics of the speakers are input. Acoustic model learning method.
音声合成装置が実行する音声合成方法であって、
入力テキストを解析して、少なくとも音素情報とアクセント情報を含むコンテキストデータを取得するステップと、
複数の話者の音声データと、前記複数の話者の音声データのコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて学習されたディープニューラルネットワーク音響モデルを用いて、前記入力テキストを解析して取得されたコンテキストデータと、前記入力テキストとともに入力される前記話者を特定するデータまたは前記話者の特徴を表すデータから、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するステップと、
前記生成された音声パラメータを用いて音声波形を生成するステップを有し、
ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音声合成方法。
A voice synthesis method executed by a voice synthesizer, comprising:
Analyzing the input text to obtain context data including at least phoneme information and accent information;
Deep neural network acoustic model learned using voice data of a plurality of speakers, context data of voice data of the plurality of speakers, and data specifying the speaker or data representing characteristics of the speaker. By using the context data obtained by analyzing the input text, and from the data that specifies the speaker or the data representing the characteristics of the speaker, which is input together with the input text, a pitch parameter and a spectrum. Generating voice parameters including parameters,
Generating a voice waveform using the generated voice parameters,
In the input layer of the neural network, context data of a plurality of speakers including at least phoneme information and accent information of the voice data, and data specifying the speakers or data representing characteristics of the speakers are input. Speech synthesis method.
コンピュータを請求項1から3の何れかに記載の音響モデル学習装置として機能させるプログラム。   A program that causes a computer to function as the acoustic model learning device according to claim 1. コンピュータを請求項4から6の何れかに記載の音声合成装置として機能させるプログラム。   A program that causes a computer to function as the voice synthesizer according to claim 4.
JP2019113938A 2019-06-19 2019-06-19 Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program Active JP6680933B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019113938A JP6680933B2 (en) 2019-06-19 2019-06-19 Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019113938A JP6680933B2 (en) 2019-06-19 2019-06-19 Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015153948A Division JP6622505B2 (en) 2015-08-04 2015-08-04 Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program

Publications (2)

Publication Number Publication Date
JP2019179257A JP2019179257A (en) 2019-10-17
JP6680933B2 true JP6680933B2 (en) 2020-04-15

Family

ID=68278672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019113938A Active JP6680933B2 (en) 2019-06-19 2019-06-19 Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program

Country Status (1)

Country Link
JP (1) JP6680933B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489734B (en) * 2020-04-03 2023-08-22 支付宝(杭州)信息技术有限公司 Model training method and device based on multiple speakers
JP7254114B2 (en) * 2020-12-18 2023-04-07 ハイパーコネクト リミテッド ライアビリティ カンパニー Speech synthesizer and method
WO2022141678A1 (en) * 2020-12-31 2022-07-07 科大讯飞股份有限公司 Speech synthesis method and apparatus, device, and storage medium
CN113012681A (en) * 2021-02-18 2021-06-22 深圳前海微众银行股份有限公司 Awakening voice synthesis method based on awakening voice model and application awakening method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282484A (en) * 1998-03-27 1999-10-15 Victor Co Of Japan Ltd Voice synthesizer
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation

Also Published As

Publication number Publication date
JP2019179257A (en) 2019-10-17

Similar Documents

Publication Publication Date Title
JP6622505B2 (en) Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program
JP6680933B2 (en) Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program
US8046225B2 (en) Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof
CN106688034A (en) Text-to-speech with emotional content
JP2019211748A (en) Voice synthesis method and apparatus, computer device and readable medium
JP5175325B2 (en) WFST creation device for speech recognition, speech recognition device using the same, method, program thereof, and storage medium
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
JP2009086581A (en) Apparatus and program for creating speaker model of speech recognition
JP6631883B2 (en) Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program
JP2015041081A (en) Quantitative f0 pattern generation device, quantitative f0 pattern generation method, model learning device for f0 pattern generation, and computer program
US11545135B2 (en) Acoustic model learning device, voice synthesis device, and program
JP6594251B2 (en) Acoustic model learning device, speech synthesizer, method and program thereof
JP6542823B2 (en) Acoustic model learning device, speech synthesizer, method thereof and program
KR20200138993A (en) Method and apparatus for synthesizing emotional speech using emotion token
KR102277205B1 (en) Apparatus for converting audio and method thereof
KR20230148048A (en) Method and system for synthesizing emotional speech based on emotion prediction
JP2008040035A (en) Pronunciation evaluation apparatus and program
JP6167063B2 (en) Utterance rhythm transformation matrix generation device, utterance rhythm transformation device, utterance rhythm transformation matrix generation method, and program thereof
JP5722295B2 (en) Acoustic model generation method, speech synthesis method, apparatus and program thereof
JP6626052B2 (en) Acoustic model generation method, speech synthesis method, acoustic model generation device, speech synthesis device, program
JP6475572B2 (en) Utterance rhythm conversion device, method and program
JP6220733B2 (en) Voice classification device, voice classification method, and program
JP2018205768A (en) Utterance rhythm conversion device, method, and program
JP6137708B2 (en) Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program
JP5155836B2 (en) Recorded text generation device, method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6680933

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150