JP2008026777A - Speech synthesis dictionary structuring device, speech synthesis dictionary structuring method, and program - Google Patents
Speech synthesis dictionary structuring device, speech synthesis dictionary structuring method, and program Download PDFInfo
- Publication number
- JP2008026777A JP2008026777A JP2006201712A JP2006201712A JP2008026777A JP 2008026777 A JP2008026777 A JP 2008026777A JP 2006201712 A JP2006201712 A JP 2006201712A JP 2006201712 A JP2006201712 A JP 2006201712A JP 2008026777 A JP2008026777 A JP 2008026777A
- Authority
- JP
- Japan
- Prior art keywords
- data
- mel cepstrum
- phoneme
- speech
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明は、音声合成等に用いる音声合成辞書を構築する、音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラムに関する。 The present invention relates to a speech synthesis dictionary construction device, a speech synthesis dictionary construction method, and a program for constructing a speech synthesis dictionary used for speech synthesis and the like.
音声認識及び音声合成技術として隠れマルコフモデル(Hidden Markov Model。以下、HMMと称呼する。)に基づいた音声認識技術及び音声合成技術が、広く利用されている。 Speech recognition technology and speech synthesis technology based on a Hidden Markov Model (hereinafter referred to as HMM) are widely used as speech recognition and speech synthesis technology.
HMMに基づいた音声合成においては、音素ラベルとスペクトルパラメータデータ列等の対応関係を記録した音声合成辞書が必要になる。 In speech synthesis based on the HMM, a speech synthesis dictionary in which a correspondence relationship between phoneme labels and spectrum parameter data strings is recorded is required.
音声合成辞書は、音声合成辞書構築装置により構築される。音声合成辞書構築装置は、通例、音素ラベル列とそれに対応する音声データとの組から構成されているデータベース(以下、音声データベースと称呼する。)に記録されているデータについて、メルケプストラム分析とピッチ抽出をし、HMMに基づく学習過程を経ることにより、音声合成辞書を構築する。 The speech synthesis dictionary is constructed by a speech synthesis dictionary construction device. A speech synthesis dictionary construction device generally uses a mel cepstrum analysis and a pitch for data recorded in a database (hereinafter referred to as a speech database) configured from a set of phoneme label sequences and speech data corresponding thereto. A speech synthesis dictionary is constructed by performing extraction and a learning process based on the HMM.
従来の音声合成辞書構築装置は、音声合成辞書を構築する際、音声データベースに記録されている音声データを、特に加工等を施すことなく、そのままHMMに基づく学習に用いて、音声合成辞書を構築していた。 A conventional speech synthesis dictionary construction device constructs a speech synthesis dictionary by using speech data recorded in the speech database as it is for learning based on the HMM without any special processing when constructing the speech synthesis dictionary. Was.
また、従来の音声合成辞書構築装置は、HMMに基づく学習過程において、メルケプストラム分析の結果生成されるメルケプストラム係数系列データを、特に加工等を施すことなく、そのままHMMに基づく学習に用いて、音声合成辞書を構築していた。 Further, the conventional speech synthesis dictionary construction device uses the mel cepstrum coefficient series data generated as a result of the mel cepstrum analysis in the learning process based on the HMM as it is for learning based on the HMM without performing any particular processing. I was building a speech synthesis dictionary.
しかしながら、そのように構築された音声合成辞書を用いて音声を合成すると、音声データのスペクトル包絡の山谷の形状が元の音声データのスペクトル包絡の山谷の形状に比べて平滑化される。 However, when speech is synthesized using the speech synthesis dictionary constructed as described above, the shape of the valley of the spectrum envelope of the speech data is smoothed compared to the shape of the valley of the spectrum envelope of the original speech data.
従来の音声合成辞書構築装置により構築された音声合成辞書を用いた合成音声は、音声データのスペクトル包絡の山谷の形状が平滑化される結果、人間の自然な音声に比べて、明りょう性が損なわれたものとなっていた。 The synthesized speech using the speech synthesis dictionary constructed by the conventional speech synthesis dictionary construction device is smoother than the natural speech of human beings as a result of smoothing the shape of the spectrum envelope of the speech data. It was damaged.
本発明は、上記実情に鑑みてなされたもので、明りょうな音声を合成することを可能とする音声合成辞書を構築可能とする音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and a speech synthesis dictionary construction device, a speech synthesis dictionary construction method, and a program capable of constructing a speech synthesis dictionary capable of synthesizing clear speech. The purpose is to provide.
上記目的を達成するために、この発明の第1の観点に係る音声合成辞書構築装置は、
音素ラベル列とそれに対応する音声データとが入力される入力部と、
前記音声データに対してスペクトルパラメータを強調して強調音声データに変換する音声データ加工部と、
前記音素ラベル列と前記強調音声データとから、音素ラベル毎に音素HMM(Hidden Markov Model)を対応させる音素HMM学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備える。
In order to achieve the above object, a speech synthesis dictionary construction device according to the first aspect of the present invention provides:
An input unit for inputting a phoneme label string and corresponding voice data;
An audio data processing unit for emphasizing spectral parameters for the audio data and converting the audio data into emphasized audio data;
A phoneme HMM learning unit that associates a phoneme HMM (Hidden Markov Model) for each phoneme label from the phoneme label string and the emphasized speech data;
A data writer for recording the learning results in the speech synthesis dictionary;
Is provided.
元の音声データをそのまま利用するのではなく、あらかじめ強調処理を施した音声データを利用して音素HMM学習を行うので、音声合成装置が明りょうな合成音声を生成するために参照する音声合成辞書として好適な音声合成辞書が構築される。 Rather than using the original speech data as it is, the phoneme HMM learning is performed using the speech data that has been subjected to enhancement processing in advance, so that the speech synthesis dictionary that the speech synthesizer refers to generate clear synthesized speech A suitable speech synthesis dictionary is constructed.
前記音声データ加工部は、前記音声データにメルケプストラム分析を施して第1のメルケプストラム係数系列データを生成する加工部内メルケプストラム分析部と、前記第1のメルケプストラム係数系列データにより定義され前記音声データから励起音源データを生成する逆フィルタと、前記第1のメルケプストラム係数系列データに所定の強調処理を施して前記スペクトルパラメータを強調した強調メルケプストラム係数系列データを生成する加工部内ホルマント強調部と、前記強調メルケプストラム係数系列データにより定義され、前記励起音源データを入力してホルマント強調処理済音声データを生成する合成フィルタと、を備えてもよい。 The voice data processing unit is defined by the in-processing mel cepstrum coefficient series data that performs mel cepstrum analysis on the voice data to generate first mel cepstrum coefficient series data, and is defined by the first mel cepstrum coefficient series data. An inverse filter that generates excitation sound source data from the data, and an in-process formant emphasis unit that generates a predetermined emphasis mel cepstrum coefficient series data in which the first mel cepstrum coefficient series data is subjected to a predetermined emphasis process to emphasize the spectral parameters; And a synthesis filter that is defined by the emphasized mel cepstrum coefficient series data and that generates the formant-enhanced processed speech data by inputting the excitation sound source data.
このようにメルケプストラム分析を経た後にメルケプストラム係数系列データを編集することは、音声データにホルマント強調処理を行うための確実かつ簡便な手法である。 Editing the mel cepstrum coefficient series data after the mel cepstrum analysis in this way is a reliable and simple method for performing formant emphasis processing on speech data.
前記音素HMM学習部は、前記ホルマント強調処理済音声データにメルケプストラム分析を施して第2のメルケプストラム係数系列データを生成する学習部内メルケプストラム分析部と、前記ホルマント強調処理済音声データからピッチ系列データを抽出するピッチ抽出部と、前記音素ラベル列と前記第2のメルケプストラム係数系列データとから、音素ラベル毎にメルケプストラムに関する音素HMMを対応させるメルケプストラム学習部と、前記音素ラベル列と前記ピッチ系列データとから、音素ラベル毎にピッチに関する音素HMMを対応させるピッチ学習部と、を備えてもよい。 The phoneme HMM learning unit performs a mel cepstrum analysis on the formant-emphasized processed speech data to generate a second mel cepstrum coefficient sequence data; and a pitch sequence from the formant-enhanced processed speech data A pitch extraction unit that extracts data; a mel cepstrum learning unit that associates a phoneme HMM related to a mel cepstrum for each phoneme label from the phoneme label sequence and the second mel cepstrum coefficient sequence data; A pitch learning unit that associates a phoneme HMM related to the pitch for each phoneme label from the pitch series data may be provided.
これにより、メルケプストラムに関する音素HMM学習の結果が記憶されたメルケプストラム音声合成辞書と、ピッチに関する音素HMM学習の結果が記憶されたピッチ音声合成辞書と、の両方の辞書を生成することができる。 Accordingly, it is possible to generate both a mel cepstrum speech synthesis dictionary storing the phoneme HMM learning results related to the mel cepstrum and a pitch speech synthesis dictionary storing the phoneme HMM learning results related to the pitch.
上記目的を達成するために、この発明の第2の観点に係る音声合成辞書構築装置は、
音素ラベル列とそれに対応する音声データとが入力される入力部と、
前記音声データにメルケプストラム分析を施してメルケプストラム係数系列データを生成する学習部内メルケプストラム分析部と、
前記音声データからピッチ系列データを抽出するピッチ抽出部と、
前記メルケプストラム係数系列データに所定の強調処理を施してスペクトルパラメータを強調した強調メルケプストラム係数系列データを生成する学習部内ホルマント強調部と、
前記音素ラベル列と前記強調メルケプストラム係数系列データとから、音素ラベル毎にメルケプストラムに関する音素HMM(Hidden Markov Model)を対応させるメルケプストラム学習部と、
前記音素ラベル列と前記ピッチ系列データとから、音素ラベル毎にピッチに関する音素HMMを対応させるピッチ学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備える。
In order to achieve the above object, a speech synthesis dictionary construction device according to the second aspect of the present invention provides:
An input unit for inputting a phoneme label string and corresponding voice data;
A mel cepstrum analysis unit in a learning unit that performs mel cepstrum analysis on the speech data to generate mel cepstrum coefficient series data;
A pitch extraction unit that extracts pitch series data from the audio data;
A formant emphasis unit in a learning unit that generates a emphasized mel cepstrum coefficient series data in which a predetermined emphasis process is performed on the mel cepstrum coefficient series data to emphasize spectrum parameters;
A mel cepstrum learning unit that associates a phoneme HMM (Hidden Markov Model) related to a mel cepstrum for each phoneme label from the phoneme label string and the emphasized mel cepstrum coefficient series data;
From the phoneme label string and the pitch series data, a pitch learning unit that associates a phoneme HMM related to pitch for each phoneme label;
A data writer for recording the learning results in the speech synthesis dictionary;
Is provided.
この場合、音素学習部には元の音声データがそのまま入力されるが、音素HMM学習にホルマント強調処理過程が挿入されるため、音声合成装置が明りょうな合成音声を生成するために参照する音声合成辞書として好適な音声合成辞書が構築される。 In this case, the original speech data is input as it is to the phoneme learning unit, but since a formant emphasis process is inserted into the phoneme HMM learning, the speech that is referred to by the speech synthesizer to generate clear synthesized speech A speech synthesis dictionary suitable as a synthesis dictionary is constructed.
前記所定の強調処理は、例えば、前記メルケプストラム係数系列データのうち所定の次数よりも大きい次数のものに1より大きい所定の強調係数を乗じる処理である。 The predetermined enhancement process is, for example, a process of multiplying a degree greater than a predetermined order among the mel cepstrum coefficient series data by a predetermined enhancement coefficient greater than 1.
高次のメルケプストラム係数系列データを増幅することにより、元の音声データのスペクトル包絡に比べてスペクトル包絡の山と谷の差は増幅される。 By amplifying the higher-order mel cepstrum coefficient series data, the difference between the peak and valley of the spectral envelope is amplified compared to the spectral envelope of the original speech data.
前記所定の強調係数は、その強調係数を乗じられるメルケプストラム係数系列データの生成元である音声データ毎に異なるものとしてもよい。 The predetermined enhancement coefficient may be different for each audio data that is a generation source of mel cepstrum coefficient series data multiplied by the enhancement coefficient.
音声データ毎に強調係数を適宜変えることにより、例えば大量の音声データを採取した際の話者の音声の経時的な変化があった場合にも調整することができ、適切な音声合成辞書を構築することができる。 By appropriately changing the emphasis coefficient for each voice data, it can be adjusted even when there is a change in the speaker's voice over time when collecting a large amount of voice data, for example, and an appropriate voice synthesis dictionary is constructed can do.
前記所定の強調係数は、その強調係数を乗じられるメルケプストラム係数系列データの次数によって異ならせてもよい。 The predetermined enhancement coefficient may vary depending on the order of the mel cepstrum coefficient series data multiplied by the enhancement coefficient.
メルケプストラム係数系列データの次数によって異ならせれば、より適切なホルマント強調をすることができるようになる。 If it varies depending on the order of the mel cepstrum coefficient series data, more appropriate formant emphasis can be performed.
上記目的を達成するために、この発明の第3の観点に係る音声合成辞書構築方法は、
データベースから、音素ラベル列とそれに対応する音声データとが入力される入力ステップと、
前記音声データに対してスペクトルパラメータを強調して強調音声データに変換する音声データ加工ステップと、
前記音素ラベル列と前記強調音声データとから、音素ラベル毎に音素HMM(Hidden Markov Model)を対応させる音素HMM学習ステップと、
学習結果を音声合成辞書に記録するデータ書き出しステップと、
から構成される。
In order to achieve the above object, a speech synthesis dictionary construction method according to the third aspect of the present invention provides:
An input step in which a phoneme label string and corresponding speech data are input from the database;
An audio data processing step of enhancing spectral parameters with respect to the audio data and converting them into emphasized audio data;
A phoneme HMM learning step in which a phoneme HMM (Hidden Markov Model) is associated with each phoneme label from the phoneme label string and the emphasized speech data;
A data writing step for recording the learning results in the speech synthesis dictionary;
Consists of
上記目的を達成するために、この発明の第4の観点に係る音声合成辞書構築方法は、
データベースから、音素ラベル列とそれに対応する音声データとが入力される入力ステップと、
前記音声データにメルケプストラム分析を施してメルケプストラム係数系列データを生成する学習部内メルケプストラム分析ステップと、
前記音声データからピッチ系列データを抽出するピッチ抽出ステップと、
前記メルケプストラム係数系列データに所定の強調処理を施してスペクトルパラメータを強調した強調メルケプストラム係数系列データを生成する学習部内ホルマント強調ステップと、
前記音素ラベル列と前記強調メルケプストラム係数系列データとから、音素ラベル毎にメルケプストラムに関する音素HMM(Hidden Markov Model)を対応させるメルケプストラム学習ステップと、
前記音素ラベル列と前記ピッチ系列データとから、音素ラベル毎にピッチに関する音素HMMを対応させるピッチ学習ステップと、
学習結果を音声合成辞書に記録するデータ書き出しステップと、
から構成される。
In order to achieve the above object, a speech synthesis dictionary construction method according to the fourth aspect of the present invention provides:
An input step in which a phoneme label string and corresponding speech data are input from the database;
A mel cepstrum analysis step in a learning unit that performs mel cepstrum analysis on the voice data to generate mel cepstrum coefficient series data;
A pitch extraction step of extracting pitch series data from the audio data;
In-learning formant emphasis step for generating emphasized mel cepstrum coefficient series data in which the mel cepstrum coefficient series data is subjected to predetermined emphasis processing to emphasize spectral parameters;
A mel cepstrum learning step for associating a phoneme HMM (Hidden Markov Model) related to a mel cepstrum for each phoneme label from the phoneme label string and the emphasized mel cepstrum coefficient series data;
From the phoneme label string and the pitch series data, a pitch learning step for associating a phoneme HMM related to pitch for each phoneme label;
A data writing step for recording the learning results in the speech synthesis dictionary;
Consists of
上記目的を達成するために、この発明の第5の観点に係るコンピュータプログラムは、
コンピュータに、
データベースから、音素ラベル列とそれに対応する音声データとが入力される入力ステップと、
前記音声データに対してスペクトルパラメータを強調して強調音声データに変換する音声データ加工ステップと、
前記音素ラベル列と前記強調音声データとから、音素ラベル毎に音素HMM(Hidden Markov Model)を対応させる音素HMM学習ステップと、
学習結果を音声合成辞書に記録するデータ書き出しステップと、
を実行させるコンピュータプログラムである。
In order to achieve the above object, a computer program according to the fifth aspect of the present invention provides:
On the computer,
An input step in which a phoneme label string and corresponding speech data are input from the database;
An audio data processing step of enhancing spectral parameters with respect to the audio data and converting them into emphasized audio data;
A phoneme HMM learning step in which a phoneme HMM (Hidden Markov Model) is associated with each phoneme label from the phoneme label string and the emphasized speech data;
A data writing step for recording the learning results in the speech synthesis dictionary;
It is a computer program that executes
上記目的を達成するために、この発明の第6の観点に係るコンピュータプログラムは、
コンピュータに、
データベースから、音素ラベル列とそれに対応する音声データとが入力される入力ステップと、
前記音声データにメルケプストラム分析を施してメルケプストラム係数系列データを生成する学習部内メルケプストラム分析ステップと、
前記音声データからピッチ系列データを抽出するピッチ抽出ステップと、
前記メルケプストラム係数系列データに所定の強調処理を施してスペクトルパラメータを強調した強調メルケプストラム係数系列データを生成する学習部内ホルマント強調ステップと、
前記音素ラベル列と前記強調メルケプストラム係数系列データとから、音素ラベル毎にメルケプストラムに関する音素HMM(Hidden Markov Model)を対応させるメルケプストラム学習ステップと、
前記音素ラベル列と前記ピッチ系列データとから、音素ラベル毎にピッチに関する音素HMMを対応させるピッチ学習ステップと、
学習結果を音声合成辞書に記録するデータ書き出しステップと、
を実行させるコンピュータプログラムである。
In order to achieve the above object, a computer program according to the sixth aspect of the present invention provides:
On the computer,
An input step in which a phoneme label string and corresponding speech data are input from the database;
A mel cepstrum analysis step in a learning unit that performs mel cepstrum analysis on the voice data to generate mel cepstrum coefficient series data;
A pitch extraction step of extracting pitch series data from the audio data;
In-learning formant emphasis step for generating emphasized mel cepstrum coefficient series data in which the mel cepstrum coefficient series data is subjected to predetermined emphasis processing to emphasize spectral parameters;
A mel cepstrum learning step for associating a phoneme HMM (Hidden Markov Model) related to a mel cepstrum for each phoneme label from the phoneme label string and the emphasized mel cepstrum coefficient series data;
From the phoneme label string and the pitch series data, a pitch learning step for associating a phoneme HMM related to pitch for each phoneme label;
A data writing step for recording the learning results in the speech synthesis dictionary;
It is a computer program that executes
本発明によれば、音声データを、ホルマント強調処理を施してから、音素HMM学習に用いて、音声合成辞書を構築する。あるいは、音素HMM学習過程において生成されたメルケプストラム係数系列データを、ホルマント強調処理を施しつつ、音素HMM学習に用いて、音声合成辞書を構築する。このため、当該音声合成辞書を利用して得られる合成音声を、ホルマントが強調された、明りょうなものとすることができる。 According to the present invention, after speech data is subjected to formant emphasis processing, a speech synthesis dictionary is constructed using phoneme HMM learning. Alternatively, a speech synthesis dictionary is constructed by using the mel cepstrum coefficient series data generated in the phoneme HMM learning process for phoneme HMM learning while performing formant emphasis processing. For this reason, the synthesized speech obtained by using the speech synthesis dictionary can be made clear with formants emphasized.
以下、本発明の実施の形態に係る音声合成辞書構築装置について詳細に説明する。 Hereinafter, the speech synthesis dictionary construction device according to the embodiment of the present invention will be described in detail.
(実施形態1)
図1は、本発明の実施形態1に係る音声合成辞書構築装置111の機能構成図である。
(Embodiment 1)
FIG. 1 is a functional configuration diagram of the speech synthesis dictionary construction device 111 according to
この音声合成辞書構築装置111は、図示するように、入力部121と、データ書き出し部123と、音声データ加工部131と、音素HMM学習部151と、を備える。
As shown in the figure, the speech synthesis dictionary construction device 111 includes an
音声データ加工部131は、加工部内メルケプストラム分析部141と、逆フィルタ143と、加工部内ホルマント強調部145と、合成フィルタ147と、を備える。
The voice
音素HMM学習部151は、学習部内メルケプストラム分析部161と、ピッチ抽出部163と、メルケプストラム学習部165と、ピッチ学習部167と、を備える。
The phoneme HMM learning
音声合成辞書構築装置111は、図1に示すように、音声データベース171と音声合成辞書173に接続される。
The speech synthesis dictionary construction device 111 is connected to a
音声データベース171はハードディスク等で構成され、音素ラベル列とそれに対応する音声データとの組を複数記憶する。音声データベース171と入力部121とが、接続されている。
The
音声データは、音声データベース171から、入力部121を介して、音声データ加工部131の内部の加工部内メルケプストラム分析部141に引き渡される。音声データ加工部131は、音声データに対してスペクトルパラメータを強調する。
The voice data is delivered from the
音素ラベル列は、音声データベース171から、入力部121を介して、音素HMM学習部151の内部のメルケプストラム学習部165とピッチ学習部167とに引き渡される。
The phoneme label string is transferred from the
音声合成辞書173はハードディスク等で構成され、音素ラベルとそれに対応する音素HMMとの組を複数記憶する。音声合成辞書173とデータ書き出し部123とが、接続されている。音声合成辞書173は、音声合成辞書構築装置111によって構築される。
The
加工部内メルケプストラム分析部141は、音声データにメルケプストラム分析を施してメルケプストラム係数系列データを生成し、加工部内ホルマント強調部145に引き渡す。
The in-processing unit mel
また、生成されたメルケプストラム係数系列データにより、逆フィルタ143が定義される。
The
逆フィルタ143には音声データが入力される。その結果、励起音源データが生成され、合成フィルタ147に引き渡される。
Audio data is input to the
加工部内ホルマント強調部145は、加工部内メルケプストラム分析部141から引き渡されたメルケプストラム係数系列データに、高次のメルケプストラム係数系列データを大きくすることによるホルマント強調処理を施すことにより、音声データのスペクトルパラメータを強調した強調メルケプストラム係数系列データを生成して、合成フィルタ147に引き渡す。
The in-process formant emphasizing unit 145 performs formant emphasis processing on the mel cepstrum coefficient series data delivered from the in-process mel
なお、ホルマント強調処理の詳細な手順については、図3及び図6を参照して後述する。 A detailed procedure of the formant emphasis process will be described later with reference to FIGS.
合成フィルタ147は、強調メルケプストラム係数系列データを係数とするMLSA(Mel Log Spectrum Approximation)合成フィルタであって、励起音源データを入力することによりホルマント強調処理済音声データを生成する。
The
合成フィルタ147は、生成したホルマント強調処理済音声データを、音素HMM学習部151の内部の学習部内メルケプストラム分析部161と、ピッチ抽出部163と、に引き渡す。
The
音素HMM学習部151においては、音声データベース171に記録されている音声データが直接参照されるかわりに、音声データ加工部131によりあらかじめホルマント強調が施されたホルマント強調済音声データが参照される。他の点では、既知の手法と同様の手法が採用される。そして、音素ラベル毎に対応する音素HMMが決定される、いわゆる音素HMM学習が行われる。
In the phoneme HMM learning
学習部内メルケプストラム分析部161は、引き渡されたホルマント強調処理済音声データから、メルケプストラム分析により、メルケプストラム係数系列データを取り出す。 The in-learning unit mel cepstrum analysis unit 161 extracts mel cepstrum coefficient series data from the delivered formant-emphasized speech data by mel cepstrum analysis.
ピッチ抽出部163は、引き渡されたホルマント強調処理済音声データから、ピッチ系列データを取り出す。 The pitch extraction unit 163 extracts pitch series data from the delivered formant-enhanced voice data.
メルケプストラム学習部165においては、入力部121を介して音声データベース171から引き渡された音素ラベル列と、学習部内メルケプストラム分析部161が生成したメルケプストラム係数系列データとから、メルケプストラムに関する音素HMM学習が行われる。学習結果は、データ書き出し部123を介して音声合成辞書173に記録される。
In the mel
さらに、入力部121を介して音声データベース171から引き渡された音素ラベル列と、ピッチ抽出部163により生成されたピッチ系列データとから、ピッチ学習部167においてピッチに関する音素HMM学習が行われる。学習結果は、データ書き出し部123を介して音声合成辞書173に記録される。
Further, the phoneme HMM learning regarding the pitch is performed in the
図1に示す音声合成辞書構築装置111は、物理的には、図2に示すような一般的なコンピュータ装置211により、構成される。
The speech synthesis dictionary construction device 111 shown in FIG. 1 is physically configured by a
CPU221、ROM223、記憶部225、ユーザインタフェース(以下、I/Fと書く。)227、及び、データ入出力I/F229は、バス231で相互に接続されている。
The
ROM223は、HMMに基づく学習のための既知の動作プログラムの他に、特に、この実施の形態においては、音声データにホルマント強調処理を施すための動作プログラムを記憶する。
In addition to the known operation program for learning based on the HMM, the
記憶部225は、RAM241やハードディスク243から構成されて、ホルマント強調のための定数、音素ラベル列、音声データ、メルケプストラム係数系列データ、励起音源データ、ピッチ系列データ、音素ラベル毎に音素HMMを対応付けたもの等を、一時的に記憶する。
The
データ入出力I/F229は、元データ入りハードディスク261等及び処理済データ記録用ハードディスク263等に接続するためのインタフェースである。元データ入りハードディスク261は図1の音声データベース171に、処理済データ記録用ハードディスク263は図1の音声合成辞書173に、それぞれ対応する。
The data input / output I /
データ入出力I/F229は、図1に示す音声データベース171に接続され、図2に示すCPU221の制御下に、音素ラベル列と音声データの対を読み出してきて、記憶部225に格納する。
The data input / output I /
CPU221はROM223に記憶されているホルマント強調処理を施すための動作プログラムに従い、音声データを順次記憶部225から読み出し、ホルマント強調処理を施し、処理済音声データを、音素ラベル列と対応づけつつ、記憶部225に格納する。
The
かかるCPU221の処理の結果、記憶部225には、音素ラベル列とホルマント強調処理済み音声データの対が格納される。これが音素HMM学習に用いられる。
As a result of the processing of the
CPU221は、ROM223に格納された、音素HMM学習のための動作プログラムを実行することにより、合成辞書生成動作を実行する。
The
データ入出力I/F229は、図1に示す音声合成辞書173に接続され、図2に示すCPU221による処理の結果である、音素ラベル毎のメルケプストラムに関する音素HMMと、音素ラベル毎のピッチに関する音素HMMとを、図1に示す音声合成辞書173に出力する。
The data input / output I /
図2に示すユーザI/F227は、キーボード251と、モニタ253と、から構成され、任意の指示、データ及びプログラムを入力するために設けられている。特に、ホルマント強調処理においては、ユーザが該I/Fを介して、各種定数を与える必要がある。
The user I /
図1に示すように、本実施形態に係る音声合成辞書構築装置111の特徴は、音声データ加工部131において各音声データのホルマントを強調するための所定の強調処理を行うことである。
As shown in FIG. 1, the feature of the speech synthesis dictionary construction apparatus 111 according to the present embodiment is that the speech
音声データは音声データ加工部131を経ることによりホルマント強調処理済音声データに加工される。より具体的には、加工部内ホルマント強調部145によりメルケプストラム係数系列データのうち高次のものが増幅される。
The voice data is processed into formant-emphasized voice data by passing through the voice
音声データ加工部131が実行する所定の強調処理は、最終的に音声データのホルマントを強調する処理であれば、いかなる処理でもよい。以下に、強調処理の典型的な手順について説明する。
The predetermined emphasis process executed by the audio
なお、以下の説明では、フレームとは、音声データをスペクトルに変換するために用いられる時間区分を意味し、記号fmで表す。 In the following description, a frame means a time segment used to convert audio data into a spectrum, and is represented by the symbol fm.
図3に示すフローチャートを参照して、音声データ加工部131が実行する強調処理の具体例を説明する。
With reference to the flowchart shown in FIG. 3, the specific example of the emphasis process which the audio | voice
本具体例においては、あらかじめ、ユーザが、加工部内メルケプストラム分析部141において行われる、音声データのメルケプストラム分析の次数Daを、図2のユーザI/F227を介して、記憶部225に設定しておくものとする(ステップS315)。
In this example, in advance, the user is performed in the processing portion mel
図1に示すように、音声合成辞書構築装置111により音声合成辞書173を構築する際には、音声合成辞書構築装置111に、音声データベース171と、例えば、空状態の音声合成辞書173が接続される。
As shown in FIG. 1, when the speech synthesis dictionary construction device 111 constructs the
音声合成辞書173構築の開始の指示が図2のユーザI/F227からされると、図2のCPU221の内部のカウンタレジスタにカウンタnの初期値として1が格納される(ステップS311)。このnは、図1の音声データベース171に記録されている音声データを識別するための変数である。
When an instruction to start construction of the
図1の入力部121は、音声データベース171から、音声データ音声Spn(但し、1≦n≦NSPであり、NSPは音声データベースのデータ数である。)を取り出し、図2の記憶部225に記憶する(ステップS313)。
The
図1の加工部内メルケプストラム分析部141は、音声データSpnに対し、Da次(次数は前述のとおり、ステップS315にて与えられている。)のメルケプストラム分析を行う(ステップS317)。
The in-process mel
該分析の結果、メルケプストラム係数系列データMCn、d[fm](1≦n≦NSP、0≦d≦Da、0≦fm≦Nfm[n]、但し、Nfm[n]は音声データSpnに対するフレームの数である。)が生成されるので、これらを図2の記憶部225に記憶する(ステップS319)。
As a result of the analysis, mel cepstrum coefficient series data MC n, d [fm] (1 ≦ n ≦ N SP , 0 ≦ d ≦ D a , 0 ≦ fm ≦ N fm [n], where N fm [n] is is the number of frames to speech data Sp n.) because is generated, and stores them in the
これらのメルケプストラム係数系列データにより、逆MLSAフィルタが定義される(図3のステップS321及び図1の音声データ加工部131内部の点線矢印)。
An inverse MLSA filter is defined by these mel cepstrum coefficient series data (step S321 in FIG. 3 and a dotted arrow in the audio
このように定義された逆MLSAフィルタに音声データSpnを入力した(図3のステップS323)結果、励起音源データExDatanが生成され、図2の記憶部225に記憶される(図3のステップS325)。
As a result of inputting the audio data Sp n to the inverse MLSA filter defined in this way (step S323 in FIG. 3), excitation sound source data ExData n is generated and stored in the
図2のCPU221は、ROM223に格納されている音声データ加工プログラムの指示に従って、記憶部225からメルケプストラム係数系列データMCn、d[fm]を読み込み、後に詳細に説明する所定の強調処理を施すことにより、強調メルケプストラム係数系列データEmMCn、d[fm]を生成し、図2の記憶部225に記憶する(図3のステップS327)。この処理は、図1においては、加工部内ホルマント強調部145が担う。
The
このように生成された強調メルケプストラム係数系列データEmMCn、d[fm]はMLSA合成フィルタの係数とされ、励起音源データExDatanが入力されるとホルマント強調処理済音声データEmSpnが生成される。これは、図2の記憶部225に記憶する。
The enhanced mel cepstrum coefficient series data EmMC n, d [fm] generated in this way is used as the coefficient of the MLSA synthesis filter, and when the excitation sound source data ExData n is input, formant enhanced speech data EmSp n is generated. . This is stored in the
すなわち、励起音源データExDatanをMLSA合成によりホルマント強調処理済音声データEmSpnに変換するために、強調メルケプストラム係数系列データEmMCn、d[fm]によりMLSA合成フィルタの動作内容が定義される(ステップS329)。このように定義されたMLSA合成フィルタに、図2の記憶部225から呼び出された励起音源データExDatanが入力されると(ステップS331)、ホルマント強調処理済音声データEmSpnが計算される。計算結果は、図2の記憶部225に記憶する(ステップS333)。
That is, in order to convert the excitation sound source data ExData n into formant-enhanced processed speech data EmSp n by MLSA synthesis, the operation content of the MLSA synthesis filter is defined by the enhanced mel cepstrum coefficient series data EmMC n, d [fm] ( Step S329). When the excitation sound source data ExData n called from the
図1の音声データベース171に記録された全ての音声データについて、ホルマント強調処理済音声データへの変換が完了したか否かを判別する(ステップS335)。
It is determined whether or not all the audio data recorded in the
具体的には、図2のCPU221の内部のカウンタレジスタにおいてカウンタnが音声データの数NSpよりも小さい場合には(ステップS335;Yes)、nを1だけインクリメントしてから(ステップS337)、音声データSpn取り出しステップ(ステップS313)に戻る。
Specifically, when the counter n is smaller than the number N Sp of audio data in the counter register inside the
nがNSp以上である場合には(ステップS335;No)、図1の音声データベース171に記録された全ての音声データについて、ホルマント強調処理済音声データへの変換が完了したということであるから、データ加工部131におけるホルマント強調処理は終了する。
If n is greater than or equal to N Sp (step S335; No), it means that the conversion of all audio data recorded in the
この後、ホルマント強調処理済音声データは図1の音素HMM学習部151に引き渡される。前述のとおり、音素HMM学習部151においては、音声データベース171に記録されている音声データを直接参照するかわりに音声データ加工部131によりあらかじめホルマント強調が施された音声データを参照する他は、既知の手法と同様の手法により音素HMM学習が行われる。
Thereafter, the formant-enhanced speech data is delivered to the phoneme HMM learning
本実施形態に係る音声合成辞書構築装置111によれば、あらかじめホルマント強調が施された音声データを参照して音素HMM学習を行うので、該装置により構築された音声合成辞書は、音声合成装置が明りょうな合成音声を生成するのに資する。 According to the speech synthesis dictionary construction device 111 according to the present embodiment, phoneme HMM learning is performed with reference to speech data that has been subjected to formant emphasis in advance. Therefore, the speech synthesis dictionary constructed by the device is a speech synthesis device. Contributes to generating clear synthesized speech.
(実施形態2)
図4は、実施形態2に係る音声合成辞書構築装置411の機能構成図である。
(Embodiment 2)
FIG. 4 is a functional configuration diagram of the speech synthesis
前記の実施形態の場合には音素HMM学習の前に音声データ加工を行うのに対し、本実施形態では、音素HMM学習部の内部にホルマント強調部を備えることを特徴とする。 In the case of the above-described embodiment, speech data processing is performed before phoneme HMM learning, whereas in this embodiment, a formant emphasis unit is provided inside the phoneme HMM learning unit.
音声合成辞書構築装置411は、基本的には、音声データベース451を用いてメルケプストラムに関する音素HMM学習とピッチに関する音素HMM学習を行い学習結果を音声合成辞書453に書き出すための、既知の音声合成辞書構築装置と同様の構成を有する。
The speech synthesis
すなわち、図示するように、入力部421と、データ書き出し部423と、音素HMM学習部431と、を備え、音素HMM学習部431は、学習部内メルケプストラム分析部441と、ピッチ抽出部443と、メルケプストラム学習部447と、ピッチ学習部449と、を備える。
That is, as shown in the figure, an input unit 421, a
ただし、本実施形態に係る音声合成辞書構築装置411は、音素HMM学習部431の内部に、学習部内ホルマント強調部445をさらに備える。
However, the speech synthesis
既知の音声合成辞書構築装置においては、学習部内メルケプストラム分析部441による分析結果がそのままメルケプストラム学習部447に引き渡される。
In the known speech synthesis dictionary construction device, the analysis result by the in-learning unit mel
それに対し、本実施形態に係る音声合成辞書構築装置411においては、学習部内メルケプストラム分析部441は、音声データから生成したメルケプストラム係数系列データをまず学習部内ホルマント強調部445に引き渡す。
On the other hand, in the speech synthesis
学習部内ホルマント強調部445は、引き渡されたメルケプストラム係数系列データに対し、所定のホルマント強調処理を施し、強調メルケプストラム係数系列データに変換してから、メルケプストラム学習部447に引き渡す。
The in-learning
所定のホルマント強調処理とは、所定の次数よりも高次のメルケプストラム係数系列データを増加させる処理のことである。かかる強調処理の詳細については、図6を参照して後述する。 The predetermined formant emphasis process is a process of increasing mel cepstrum coefficient series data of higher order than a predetermined order. Details of such enhancement processing will be described later with reference to FIG.
図4に示す音声合成辞書構築装置411も、前期実施形態に係る装置111と同様に、物理的には、図2に示すような一般的なコンピュータ装置211により、構成される。
Similar to the device 111 according to the previous embodiment, the speech synthesis
ROM223は、HMMに基づく学習のための既知の動作プログラムの他に、特に、この実施の形態においては、メルケプストラム係数系列データにホルマント強調処理を施すための動作プログラムを記憶する。
In addition to the known operation program for learning based on the HMM, the
ホルマント強調処理においては、ユーザがユーザI/F227を介して、各種定数を与える必要がある。
In the formant emphasis process, the user needs to give various constants via the user I /
以下では、音素HMM学習部431の内部で学習部内ホルマント強調部445により実行される所定の強調処理を、図5を参照しつつ、説明する。
Hereinafter, a predetermined enhancement process executed by the in-learning
まず、ユーザが、図4の学習部内メルケプストラム分析部441において実行されるメルケプストラム分析の次数Dcを、ユーザI/F227を介して記憶部225に記憶させる(ステップS515)。
First, the user stores the order C of the mel cepstrum analysis executed in the in-learning unit mel
図2のCPU221の内部のカウンタレジスタに音声データ識別用のカウンタnを格納する。nの初期値は1である(ステップS511)。
The counter n for voice data identification is stored in the counter register inside the
図2のCPU221はROM223に格納されたプログラムの指示に従い、データ入出力I/F229を介して、図4の音声データベース451に記録されているNSp個の音声データのうちn番目の音声データSpnを取り出し(ステップS513)、記憶部225に記憶するとともに、Dc次のメルケプストラム分析を施す(ステップS517)。
The
分析の結果、メルケプストラム係数系列データMCn、d[fm](1≦n≦NSp、0≦d≦Dc、0≦fm≦Nfm[n]、但し、Nfm[n]は音声データSpnに対するフレーム数である。)が生成され、図2のCPU221は、これらを記憶部225に記憶する(ステップS519)。
As a result of the analysis, the mel cepstrum coefficient series data MC n, d [fm] (1 ≦ n ≦ N Sp , 0 ≦ d ≦ D c , 0 ≦ fm ≦ N fm [n], where N fm [n] is a voice a number of frames for data Sp n.) are generated,
図2のCPU221は、メルケプストラム係数系列データMCn、d[fm]を記憶部225から順次呼び出し、後に詳細に説明する所定の強調処理を施すことにより強調メルケプストラム係数系列データEmMCn、d[fm]を生成し、記憶部225に記憶する(ステップS521)。
The
図4の音声データベースに記録されたNSp個の音声データの全てについて強調メルケプストラム係数系列データの生成を完了したか否かを判別する(ステップS523)。 It is determined whether or not the generation of the emphasized mel cepstrum coefficient series data has been completed for all of the N Sp speech data recorded in the speech database of FIG. 4 (step S523).
まだ完了していない場合には(ステップS523;Yes)、次の音声データについて(ステップS525)、音声データ取り込み作業から繰り返す(ステップS513)。 If not completed yet (step S523; Yes), the next audio data (step S525) is repeated from the audio data capturing operation (step S513).
完了した場合には(ステップS523;No)、図2の記憶部225に記憶されている音声データSpnと強調メルケプストラム係数系列データEmMCn、d[fm]とから、メルケプストラムに関する音素HMMを学習する(ステップS527)。
If completed (step S523; No), the phoneme HMM related to the mel cepstrum is obtained from the audio data Sp n and the emphasized mel cepstrum coefficient series data EMMC n, d [fm] stored in the
音素HMM学習の結果得られた学習データは、図4のデータ書き出し部423に送られる(ステップS529)。
The learning data obtained as a result of the phoneme HMM learning is sent to the
前述のとおり、メルケプストラムに関する音素HMM学習を行うのに際して、既知の手法と異なり、なんら処理をしていないメルケプストラム係数系列データMCn、d[fm]ではなく、強調メルケプストラム係数系列データEmMCn、d[fm]を用いるため、本実施形態に係る音声合成辞書構築装置411により構築された音声合成辞書は、音声合成装置が明りょうな合成音声を生成するのに資する。
As described above, when performing phoneme HMM learning related to the mel cepstrum, unlike the known method, not the processed mel cepstrum coefficient series data MC n, d [fm] but the emphasized mel cepstrum coefficient series data EMMC n. , D [fm] is used, the speech synthesis dictionary constructed by the speech synthesis
(実施形態3)
図1に示す実施形態1に係る音声合成辞書構築装置111においては、音声データ加工部131と音素HMM学習部151を同一の筐体に収めている。そして、合成フィルタ147が生成するホルマント強調処理済音声データは、図2の記憶部225すなわち音声合成辞書構築装置111の内部に記憶された後、音素HMM学習部151により取り出されて利用されている。
(Embodiment 3)
In the speech synthesis dictionary construction device 111 according to the first exemplary embodiment illustrated in FIG. 1, the speech
ここで、合成フィルタ147が生成するホルマント強調処理データは、必ずしも、単一の音声合成辞書構築装置111の内部の記憶装置、例えば図2に示すハードディスク243、に記憶しなくともよい。
Here, the formant emphasis processing data generated by the
したがって、実施形態3に係る装置セットとして、次のものが考えられる。すなわち、図1に示す実施形態1に係る音声合成装置の、音声データ加工部131と音素HMM学習部151とを分離する。そして、それぞれ独立した音声データ加工装置と音素HMM学習装置の組とする。
Therefore, the following can be considered as the device set according to the third embodiment. That is, the speech
この場合、前記2つの装置は、ハードディスク等の外部記録媒体を介して接続される。すなわち、音声データ加工装置は、外部記録媒体に音声ラベル列とホルマント強調処理済音声データの対を記録し、一方、音素HMM学習装置は、該外部記録媒体から該対の読み出しを行う。 In this case, the two devices are connected via an external recording medium such as a hard disk. That is, the speech data processing device records a pair of speech label string and formant-emphasized speech data on an external recording medium, while the phoneme HMM learning device reads the pair from the external recording medium.
換言すれば、音声データ加工装置は、元の音声データベースを、ホルマント強調処理済音声データベースに作り直す装置であり、一方、音素学習装置は、既知の装置と同じ構成を有しつつも、参照する音声データベースが既知のものとは異なることを特徴とする装置である。 In other words, the speech data processing device is a device that recreates the original speech database into a formant-emphasized speech database, while the phoneme learning device has the same configuration as a known device, but also refers to speech The apparatus is characterized in that the database is different from the known one.
(実施形態4)
実施形態3に係る装置セットのうちの音声データ加工装置と、図4に示す実施形態2に係る音声合成辞書構築装置411とを、ハードディスク等の外部記録媒体を介して接続してもよい。
(Embodiment 4)
The speech data processing device in the device set according to Embodiment 3 and the speech synthesis
あるいは、図1に示す実施形態1に係る音声合成辞書構築装置111の音素HMM学習部151の内部の、学習部内メルケプストラム分析部161とメルケプストラム学習部165との間に、図4に示す学習部内ホルマント強調部445を挿入しても、実質的に同様の機能を有する。
Alternatively, the learning shown in FIG. 4 is performed between the in-learning mel cepstrum analysis unit 161 and the mel
本実施形態によれば、ホルマント強調が2重に行われるので、明りょうな合成音声を生成する音声合成辞書に参照される辞書として、より適切な音声合成辞書が構築され得る。 According to this embodiment, formant emphasis is performed twice, so that a more appropriate speech synthesis dictionary can be constructed as a dictionary that is referred to by the speech synthesis dictionary that generates clear synthesized speech.
(強調処理について)
メルケプストラム係数系列データは、定性的には、本来は周波数を意味する音声スペクトルの横軸を時間に見立て、該スペクトルが実時間領域の波形であるとすればどのような周波数成分を有するか、を分析した結果であるといえる。
(About emphasis processing)
The mel cepstrum coefficient series data qualitatively considers the horizontal axis of the speech spectrum that originally means the frequency as time, and what frequency component the waveform has in the real time domain, It can be said that it is the result of analyzing.
一般に、音声スペクトルに現れる明りょうなホルマントの間には、さほど明りょうでないホルマントが存在する。つまり、概して、明りょうなホルマントが比較的広い周波数間隔で分布するのに対し、他のホルマントはかかる顕著なホルマントの間に比較的狭い周波数間隔で分布する傾向がある。 In general, there are less obvious formants between clear formants appearing in the speech spectrum. That is, generally clear formants are distributed at relatively wide frequency intervals, while other formants tend to be distributed at relatively narrow frequency intervals between such prominent formants.
狭い周波数間隔の変動の成分は、ケプストラムにおける”高域”に対応する。かかる高域は、メルケプストラム係数系列データのうち、高次のものに対応する。 Narrow frequency interval variation components correspond to "high frequencies" in the cepstrum. Such a high frequency corresponds to a higher order of the mel cepstrum coefficient series data.
よって、音声データをメルケプストラム分析して得られるメルケプストラム係数系列データのうち、高次のものを増幅することは、音声スペクトルの包絡の山と谷とを強調することを意味し、かかる山と谷の強調により、音声データのホルマントが強調されることになる。このことを、ここでは、強調処理と呼ぶことにする。以下では、強調処理の具体例を示す。 Therefore, amplifying higher-order mel cepstrum coefficient series data obtained by mel cepstrum analysis of voice data means emphasizing peaks and valleys of the envelope of the voice spectrum. By emphasizing the valley, the formant of the voice data is emphasized. Here, this is called enhancement processing. Below, the specific example of an emphasis process is shown.
なお、該強調処理を行うホルマント強調部は、実施形態が異なる場合、音声合成辞書構築装置内において占める位置が異なることもあるが、メルケプストラム係数系列データに所定の演算処理を施す点では同じであるので、以下では、前述の実施形態の区別に拘泥しないこととする。 It should be noted that the formant emphasis unit that performs the emphasis process may have a different position in the speech synthesis dictionary construction device when the embodiment is different, but is the same in that a predetermined arithmetic process is performed on the mel cepstrum coefficient series data. Therefore, in the following, the distinction between the above-described embodiments is not limited.
(強調処理の具体例1)
強調処理の具体例1について、図6を参照しつつ説明する。
(Specific example 1 of emphasis processing)
Specific example 1 of the enhancement process will be described with reference to FIG.
本具体例においては、まず、ユーザが、何次以上のメルケプストラム係数を増幅するかを決定し、図2のユーザI/F227を介して、記憶部225に記憶する(ステップS611)。以下では、dem(2≦dem≦Db、但し、Dbはメルケプストラム分析の際に考慮された次数である。)次以上メルケプストラム係数を増幅することにしたものとする。
In this specific example, first, the user determines how many or more orders of mel cepstrum coefficients are to be amplified, and stores them in the
なお、NSP個全ての音声データについてのメルケプストラム分析が済んでおり、メルケプストラム係数系列データMCn、d[fm](1≦n≦NSp、0≦d≦Da、0≦fm≦Nfm[n]、Nfm[n]は音声データSpnに対するフレーム数である。)は既に図2の記憶部225に記憶されているものとする。
The mel cepstrum analysis for all N SP speech data has been completed, and the mel cepstrum coefficient series data MC n, d [fm] (1 ≦ n ≦ N Sp , 0 ≦ d ≦ D a , 0 ≦ fm ≦ N fm [n] and N fm [n] are the number of frames for the audio data Sp n .) Are already stored in the
また、以下では、n番目の音声データに関する処理のみを説明する。ホルマント強調処理を完了するためには、全てのn(1≦n≦NSp)について走査する必要がある。 In the following, only the process related to the nth audio data will be described. In order to complete the formant emphasis processing, it is necessary to scan all n (1 ≦ n ≦ N Sp ).
図2のCPU221は、ROM223に格納されている動作プログラムの指示に従って、レジスタに変数dをカウンタとしてロードする。dはメルケプストラムの次数を表し、0≦d≦Dbであるので、初期値は0とする(ステップS613)。
The
図2のCPU221は、ROM223に格納されている動作プログラムの指示に従って、dがステップS611にて与えられたdem以上であるか否かを判別する(ステップS615)。
CPU221 of Figure 2, according to an instruction operation program stored in the
dがdemよりも小さい場合(ステップS615;No)、元のメルケプストラム係数系列データMCn、d[fm](0≦fm≦Nfm[n])を増幅せずに、そのまま強調メルケプストラム係数系列データEmMCn、d[fm]とする。すなわち、EmMCn、d[fm]=MCn、d[fm]とする(ステップS619)。 When d is smaller than d em (step S615; No), the original mel cepstrum coefficient series data MC n, d [fm] (0 ≦ fm ≦ N fm [n]) is not amplified and is directly enhanced mel cepstrum. Coefficient series data EMMC n, d [fm]. That is, EMMC n, d [fm] = MC n, d [fm] is set (step S619).
dがdem以上の場合(ステップS615;Yes)、元のメルケプストラム係数系列データMCn、d[fm](0≦fm≦Nfm[n])を増幅して、強調メルケプストラム係数系列データEmMCn、d[fm]とする。
If d is greater than or equal d em (step S615; Yes), the original Mel cepstrum
本具体例においては、次数によらず1より大きい所定の強調係数を乗じることにより、増幅を行う。すなわち、EmMCn、d[fm]=MCn、d[fm]×(1+β)(但し、β>1である。)とする(ステップS617)。 In this specific example, amplification is performed by multiplying a predetermined enhancement coefficient larger than 1 regardless of the order. That is, EMMC n, d [fm] = MC n, d [fm] × (1 + β) (where β> 1) (step S617).
このように高次のメルケプストラム係数系列データを増幅することは、音声データの高周波成分を強調することになるので、元の音声データに比べてホルマントが強調され、明りょうになる。 Amplifying higher-order mel cepstrum coefficient series data in this way emphasizes the high-frequency component of the audio data, so that the formant is emphasized compared to the original audio data and becomes clear.
次数dについてのステップS619又はステップS617の処理が終了したら、dがDbより小さいか否かを判別する(ステップS621)。d<Dbの場合(ステップS621;Yes)、dを1だけインクリメントして(ステップS623)、次の次数についてのステップS615以降の処理に進む。d≧Dbの場合(ステップS621;No)、全ての次数について強調メルケプストラム係数系列データEmMCn、d[fm]の生成が完了したので、強調処理を終了する。 When finished processing in step S619 or step S617 of degree d, d, it is determined whether or not the D b is smaller than (step S621). For d <D b (step S621; Yes), increments d by 1 (step S623), the process proceeds to step S615 and subsequent steps for the next order. For d ≧ D b (step S621; No), emphasis mel cepstrum coefficient series data eMMC n for all orders, since the generation of d [fm] is completed, and ends the enhancement process.
以上のような処理を施すことにより、音声データのホルマントの強調が簡便に達成できる。そして、このような処理過程を組み込んだ音声合成辞書構築装置を用いれば、音声合成装置が合成音声を生成するに際して参照する音声合成辞書として、合成音声を明りょうなものとするのに好適な音声合意辞書を構築することができる。 By performing the processing as described above, formant emphasis of audio data can be easily achieved. Then, if a speech synthesis dictionary construction device incorporating such a process is used, a speech suitable for making the synthesized speech clear as a speech synthesis dictionary to be referred to when the speech synthesizer generates synthesized speech. A consensus dictionary can be constructed.
(強調処理の具体例2)
前述の具体例では、強調係数を1+βなる定数にしたが、強調係数を音声データによって使い分けてもよい。すなわち、図6のステップS617において、βをnの関数とし、EmMCn、d[fm]=MCn、d[fm]×(1+βn)として強調メルケプストラム係数系列データを得てもよい。
(Specific example 2 of emphasis processing)
In the above-described specific example, the emphasis coefficient is a constant of 1 + β, but the emphasis coefficient may be used depending on the audio data. That is, in step S617 of FIG. 6, the enhanced mel cepstrum coefficient series data may be obtained by setting β as a function of n and EMMC n, d [fm] = MC n, d [fm] × (1 + β n ).
より具体的な例として、図1又は4に示す音声データベース171又は451に、音声データとして録音時のスィチュエイション次第で音声データの特徴が変化した音声が録音されている場合、音声データが録音された時のスィチュエイションに合わせて強調係数を変化させるといったことが挙げられる。
As a more specific example, when the
このように強調係数を音声データ毎に変化させることにより、音声データベースの音声が複数スィチュエイション下での音声であっても、音声データのホルマントの強調を適切に実行することができる。そして、このような処理過程を組み込んだ音声合成辞書構築装置を用いれば、音声合成装置が合成音声を生成するに際して参照する音声合成辞書として、合成音声を明りょうなものとするのに好適な音声合意辞書を構築することができる。 Thus, by changing the enhancement coefficient for each voice data, even if the voice in the voice database is a voice under a plurality of situations, the enhancement of the formant of the voice data can be appropriately executed. Then, if a speech synthesis dictionary construction device incorporating such a process is used, a speech suitable for making the synthesized speech clear as a speech synthesis dictionary to be referred to when the speech synthesizer generates synthesized speech. A consensus dictionary can be constructed.
(強調処理の具体例3)
強調係数をメルケプストラム係数系列データの次数dによって使い分けてもよい。すなわち、図6のステップS617において、βをdの関数とし、EmMCn、d[fm]=MCn、d[fm]×(1+βd)として強調メルケプストラム係数系列データを得てもよい。
(Specific example 3 of emphasis processing)
The enhancement coefficient may be properly used depending on the order d of the mel cepstrum coefficient series data. That is, in step S617 of FIG. 6, the enhanced mel cepstrum coefficient series data may be obtained by setting β as a function of d and EMMC n, d [fm] = MC n, d [fm] × (1 + β d ).
音声スペクトルにおけるホルマントを強調するにあたっては、強調する次数の閾値であるdem以上の次数のメルケプストラム係数系列データを一様に増幅するのが適切であるとは限らない。さらに、一様な増幅により、音声スペクトルの包絡の山と谷が不必要に強調される結果、本来存在すべきでないホルマントが見かけ上出現するなど、明りょうな合成音声の生成に資するという目的にかえって反する可能性もある。 In emphasizing a formant in a speech spectrum, it is not always appropriate to amplify mel cepstrum coefficient series data having an order equal to or higher than dem which is a threshold of the order to be emphasized. Furthermore, the uniform amplification will unnecessarily emphasize the peaks and valleys of the envelope of the speech spectrum, resulting in the appearance of formants that should not exist. On the contrary, there is a possibility that it is contrary.
そこで、強調係数をメルケプストラム係数系列データの次数dによって使い分けることにより、本発明の目的に沿った音声合成辞書構築が可能となる。 Thus, by using different emphasis coefficients depending on the order d of the mel cepstrum coefficient series data, it is possible to construct a speech synthesis dictionary in accordance with the object of the present invention.
(強調処理の具体例4)
前述の具体例2と具体例3とを組み合わせてもよい。すなわち、図6のステップS617において、βをnとd両方の関数とし、EmMCn、d[fm]=MCn、d[fm]×(1+βn、d)として強調メルケプストラム係数系列データを得てもよい。
(Specific example 4 of emphasis processing)
Specific example 2 and specific example 3 described above may be combined. That is, in step S617 of FIG. 6, β is a function of both n and d, and emmmel cepstrum coefficient series data is obtained as EMMC n, d [fm] = MC n, d [fm] × (1 + β n, d ). May be.
これにより、βをnとdとのいかなる関数とするかについての決定が煩雑になり得るが、具体例2と具体例3の長所を兼ね備えたホルマント強調処理が実現される。 This can complicate the determination of what function of β and n is β, but formant emphasis processing that combines the advantages of Specific Example 2 and Specific Example 3 is realized.
(強調処理の具体例5)
図6のステップS611においては、ユーザが、強調する次数の閾値であるdemを定数として与えているが、これを音声データ毎に変化させてもよい。
(Specific example 5 of emphasis processing)
In step S611 of FIG. 6, the user, while giving d em an order of the threshold emphasizing as a constant, which may be changed for each sound data.
音声データ毎に、何次以上の次数のメルケプストラム係数系列データを強調するのが適切であるかが異なる場合もあり得るからである。 This is because there may be a case where it is appropriate to emphasize the mel cepstrum coefficient series data of the order of higher order for each audio data.
なお、本具体例を実行しようとすると、図6のステップS611によれば、ユーザがひとつひとつの音声データに応じていちいち閾値demを与えなければならないが、膨大な音声データの処理のために、所定の規則に従ってnの関数としてのdemを自動的に決定しステップS611を自動化して、ユーザの負担を軽減してもよい。 Incidentally, an attempt to perform this specific example, according to the step S611 of FIG. 6, but the user must give every time threshold d em depending on every single audio data, for the processing of massive speech data, The user's burden may be reduced by automatically determining dem as a function of n according to a predetermined rule and automating step S611.
なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。例えば、上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。また、この発明は、音声合成辞書構築装置に限定されるものではなく、任意のコンピュータを用いて構築可能である。例えば、上述の処理をコンピュータに実行させるためのコンピュータプログラムを記録媒体や通信により配布し、これをコンピュータにインストールして実行させることにより、この発明の音声合成辞書構築装置として機能させることも可能である。 In addition, this invention is not limited to the said embodiment, A various deformation | transformation and application are possible. For example, the above-described hardware configuration, block configuration, and flowchart are examples, and are not limited. The present invention is not limited to the speech synthesis dictionary construction device, and can be constructed using any computer. For example, by distributing a computer program for causing a computer to execute the above-described processing through a recording medium or communication, and installing and executing the computer program on the computer, the computer can function as the speech synthesis dictionary construction device of the present invention. is there.
111・・・実施形態1に係る音声合成辞書構築装置、121・・・入力部、123・・・データ書き出し部、131・・・音声データ加工部、141・・・加工部内メルケプストラム分析部、143・・・逆フィルタ、145・・・加工部内ホルマント強調部、147・・・合成フィルタ、151・・・音素HMM学習部、161・・・学習部内メルケプストラム分析部、163・・・ピッチ抽出部、165・・・メルケプストラム学習部、167・・・ピッチ学習部、171・・・音声データベース、173・・・音声合成辞書、211・・・コンピュータ装置、221・・・CPU、223・・・ROM、225・・・記憶部、227・・・ユーザI/F、229・・・データ入出力I/F、231・・・バス、241・・・RAM、243・・・ハードディスク、251・・・キーボード、253・・・モニタ、261・・・元データ入りハードディスク、263・・・処理済みデータ記録用ハードディスク、411・・・実施形態2に係る音声合成辞書構築装置、421・・・入力部、423・・・データ書き出し部、431・・・音素HMM学習部、441・・・学習部内メルケプストラム分析部、443・・・ピッチ抽出部、445・・・学習部内ホルマント強調部、447・・・メルケプストラム学習部、449・・・ピッチ学習部、451・・・音声データベース、453・・・音声合成辞書
111: Speech synthesis dictionary construction device according to
Claims (11)
前記音声データに対してスペクトルパラメータを強調して強調音声データに変換する音声データ加工部と、
前記音素ラベル列と前記強調音声データとから、音素ラベル毎に音素HMM(Hidden Markov Model)を対応させる音素HMM学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備える音声合成辞書構築装置。 An input unit for inputting a phoneme label string and corresponding voice data;
An audio data processing unit for emphasizing spectral parameters for the audio data and converting the audio data into emphasized audio data;
A phoneme HMM learning unit that associates a phoneme HMM (Hidden Markov Model) for each phoneme label from the phoneme label string and the emphasized speech data;
A data writer for recording the learning results in the speech synthesis dictionary;
A speech synthesis dictionary construction device comprising:
前記音声データにメルケプストラム分析を施して第1のメルケプストラム係数系列データを生成する加工部内メルケプストラム分析部と、
前記第1のメルケプストラム係数系列データにより定義され前記音声データから励起音源データを生成する逆フィルタと、
前記第1のメルケプストラム係数系列データに所定の強調処理を施して前記スペクトルパラメータを強調した強調メルケプストラム係数系列データを生成する加工部内ホルマント強調部と、
前記強調メルケプストラム係数系列データにより定義され、前記励起音源データを入力してホルマント強調処理済音声データを生成する合成フィルタと、
を備える請求項1に記載の音声合成辞書構築装置。 The voice data processing unit
An in-process mel cepstrum analysis unit that performs mel cepstrum analysis on the voice data to generate first mel cepstrum coefficient series data;
An inverse filter that is defined by the first mel cepstrum coefficient series data and generates excitation sound source data from the audio data;
A processing unit formant emphasis unit that performs a predetermined emphasis process on the first mel cepstrum coefficient series data to generate the emphasized mel cepstrum coefficient series data that emphasizes the spectral parameters;
A synthesis filter that is defined by the emphasized mel cepstrum coefficient series data and generates the formant-enhanced processed speech data by inputting the excitation sound source data;
The speech synthesis dictionary construction apparatus according to claim 1.
前記ホルマント強調処理済音声データにメルケプストラム分析を施して第2のメルケプストラム係数系列データを生成する学習部内メルケプストラム分析部と、
前記ホルマント強調処理済音声データからピッチ系列データを抽出するピッチ抽出部と、
前記音素ラベル列と前記第2のメルケプストラム係数系列データとから、音素ラベル毎にメルケプストラムに関する音素HMMを対応させるメルケプストラム学習部と、
前記音素ラベル列と前記ピッチ系列データとから、音素ラベル毎にピッチに関する音素HMMを対応させるピッチ学習部と、
を備える請求項2に記載の音声合成辞書構築装置。 The phoneme HMM learning unit
An in-learning mel cepstrum analysis unit that performs mel cepstrum analysis on the formant-enhanced speech data to generate second mel cepstrum coefficient series data;
A pitch extraction unit that extracts pitch series data from the formant-enhanced speech data;
A mel cepstrum learning unit that associates phoneme HMMs related to mel cepstrum for each phoneme label from the phoneme label string and the second mel cepstrum coefficient series data;
From the phoneme label string and the pitch series data, a pitch learning unit that associates a phoneme HMM related to pitch for each phoneme label;
The speech synthesis dictionary construction apparatus according to claim 2.
前記音声データにメルケプストラム分析を施してメルケプストラム係数系列データを生成する学習部内メルケプストラム分析部と、
前記音声データからピッチ系列データを抽出するピッチ抽出部と、
前記メルケプストラム係数系列データに所定の強調処理を施してスペクトルパラメータを強調した強調メルケプストラム係数系列データを生成する学習部内ホルマント強調部と、
前記音素ラベル列と前記強調メルケプストラム係数系列データとから、音素ラベル毎にメルケプストラムに関する音素HMM(Hidden Markov Model)を対応させるメルケプストラム学習部と、
前記音素ラベル列と前記ピッチ系列データとから、音素ラベル毎にピッチに関する音素HMMを対応させるピッチ学習部と、
学習結果を音声合成辞書に記録するデータ書き出し部と、
を備える音声合成辞書構築装置。 An input unit for inputting a phoneme label string and corresponding voice data;
A mel cepstrum analysis unit in a learning unit that performs mel cepstrum analysis on the speech data to generate mel cepstrum coefficient series data;
A pitch extraction unit that extracts pitch series data from the audio data;
A formant emphasis unit in a learning unit that generates a emphasized mel cepstrum coefficient series data in which a predetermined emphasis process is performed on the mel cepstrum coefficient series data to emphasize spectrum parameters;
A mel cepstrum learning unit that associates a phoneme HMM (Hidden Markov Model) related to a mel cepstrum for each phoneme label from the phoneme label string and the emphasized mel cepstrum coefficient series data;
From the phoneme label string and the pitch series data, a pitch learning unit that associates a phoneme HMM related to pitch for each phoneme label;
A data writer for recording the learning results in the speech synthesis dictionary;
A speech synthesis dictionary construction device comprising:
前記メルケプストラム係数系列データのうち所定の次数よりも大きい次数のものに1より大きい所定の強調係数を乗じる処理である、
ことを特徴とする請求項2乃至4の何れか1項に記載の音声合成辞書構築装置。 The predetermined emphasis process is:
The mel cepstrum coefficient series data is a process of multiplying an order higher than a predetermined order by a predetermined enhancement coefficient greater than 1.
The speech synthesis dictionary construction device according to any one of claims 2 to 4, wherein the speech synthesis dictionary construction device.
その強調係数を乗じられるメルケプストラム係数系列データの生成元である音声データ毎に異なるものとすることができる、
ことを特徴とする請求項5に記載の音声合成辞書構築装置。 The predetermined enhancement factor is:
It can be different for each voice data that is the generation source of the mel cepstrum coefficient series data multiplied by the enhancement coefficient,
The speech synthesis dictionary construction device according to claim 5.
その強調係数を乗じられるメルケプストラム係数系列データの次数によって異なる、
ことを特徴とする請求項5又は6に記載の音声合成辞書構築装置。 The predetermined enhancement factor is:
Depending on the order of the mel cepstrum coefficient series data multiplied by the enhancement coefficient,
The speech synthesis dictionary construction device according to claim 5 or 6.
前記音声データに対してスペクトルパラメータを強調して強調音声データに変換する音声データ加工ステップと、
前記音素ラベル列と前記強調音声データとから、音素ラベル毎に音素HMM(Hidden Markov Model)を対応させる音素HMM学習ステップと、
学習結果を音声合成辞書に記録するデータ書き出しステップと、
から構成される音声合成辞書構築方法。 An input step in which a phoneme label string and corresponding speech data are input from the database;
An audio data processing step of enhancing spectral parameters with respect to the audio data and converting them into emphasized audio data;
A phoneme HMM learning step in which a phoneme HMM (Hidden Markov Model) is associated with each phoneme label from the phoneme label string and the emphasized speech data;
A data writing step for recording the learning results in the speech synthesis dictionary;
A speech synthesis dictionary construction method comprising:
前記音声データにメルケプストラム分析を施してメルケプストラム係数系列データを生成する学習部内メルケプストラム分析ステップと、
前記音声データからピッチ系列データを抽出するピッチ抽出ステップと、
前記メルケプストラム係数系列データに所定の強調処理を施してスペクトルパラメータを強調した強調メルケプストラム係数系列データを生成する学習部内ホルマント強調ステップと、
前記音素ラベル列と前記強調メルケプストラム係数系列データとから、音素ラベル毎にメルケプストラムに関する音素HMM(Hidden Markov Model)を対応させるメルケプストラム学習ステップと、
前記音素ラベル列と前記ピッチ系列データとから、音素ラベル毎にピッチに関する音素HMMを対応させるピッチ学習ステップと、
学習結果を音声合成辞書に記録するデータ書き出しステップと、
から構成される音声合成辞書構築方法。 An input step in which a phoneme label string and corresponding speech data are input from the database;
A mel cepstrum analysis step in a learning unit that performs mel cepstrum analysis on the voice data to generate mel cepstrum coefficient series data;
A pitch extraction step of extracting pitch series data from the audio data;
In-learning formant emphasis step for generating emphasized mel cepstrum coefficient series data in which the mel cepstrum coefficient series data is subjected to predetermined emphasis processing to emphasize spectral parameters;
A mel cepstrum learning step for associating a phoneme HMM (Hidden Markov Model) related to a mel cepstrum for each phoneme label from the phoneme label string and the emphasized mel cepstrum coefficient series data;
From the phoneme label string and the pitch series data, a pitch learning step for associating a phoneme HMM related to pitch for each phoneme label;
A data writing step for recording the learning results in the speech synthesis dictionary;
A speech synthesis dictionary construction method comprising:
データベースから、音素ラベル列とそれに対応する音声データとが入力される入力ステップと、
前記音声データに対してスペクトルパラメータを強調して強調音声データに変換する音声データ加工ステップと、
前記音素ラベル列と前記強調音声データとから、音素ラベル毎に音素HMM(Hidden Markov Model)を対応させる音素HMM学習ステップと、
学習結果を音声合成辞書に記録するデータ書き出しステップと、
を実行させるコンピュータプログラム。 On the computer,
An input step in which a phoneme label string and corresponding speech data are input from the database;
An audio data processing step of enhancing spectral parameters with respect to the audio data and converting them into emphasized audio data;
A phoneme HMM learning step in which a phoneme HMM (Hidden Markov Model) is associated with each phoneme label from the phoneme label string and the emphasized speech data;
A data writing step for recording the learning results in the speech synthesis dictionary;
A computer program that executes
データベースから、音素ラベル列とそれに対応する音声データとが入力される入力ステップと、
前記音声データにメルケプストラム分析を施してメルケプストラム係数系列データを生成する学習部内メルケプストラム分析ステップと、
前記音声データからピッチ系列データを抽出するピッチ抽出ステップと、
前記メルケプストラム係数系列データに所定の強調処理を施してスペクトルパラメータを強調した強調メルケプストラム係数系列データを生成する学習部内ホルマント強調ステップと、
前記音素ラベル列と前記強調メルケプストラム係数系列データとから、音素ラベル毎にメルケプストラムに関する音素HMM(Hidden Markov Model)を対応させるメルケプストラム学習ステップと、
前記音素ラベル列と前記ピッチ系列データとから、音素ラベル毎にピッチに関する音素HMMを対応させるピッチ学習ステップと、
学習結果を音声合成辞書に記録するデータ書き出しステップと、
を実行させるコンピュータプログラム。 On the computer,
An input step in which a phoneme label string and corresponding speech data are input from the database;
A mel cepstrum analysis step in a learning unit that performs mel cepstrum analysis on the voice data to generate mel cepstrum coefficient series data;
A pitch extraction step of extracting pitch series data from the audio data;
In-learning formant emphasis step for generating emphasized mel cepstrum coefficient series data in which the mel cepstrum coefficient series data is subjected to predetermined emphasis processing to emphasize spectral parameters;
A mel cepstrum learning step for associating a phoneme HMM (Hidden Markov Model) related to a mel cepstrum for each phoneme label from the phoneme label string and the emphasized mel cepstrum coefficient series data;
From the phoneme label string and the pitch series data, a pitch learning step for associating a phoneme HMM related to pitch for each phoneme label;
A data writing step for recording the learning results in the speech synthesis dictionary;
A computer program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006201712A JP4929896B2 (en) | 2006-07-25 | 2006-07-25 | Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006201712A JP4929896B2 (en) | 2006-07-25 | 2006-07-25 | Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008026777A true JP2008026777A (en) | 2008-02-07 |
JP4929896B2 JP4929896B2 (en) | 2012-05-09 |
Family
ID=39117436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006201712A Expired - Fee Related JP4929896B2 (en) | 2006-07-25 | 2006-07-25 | Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4929896B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009058708A (en) * | 2007-08-31 | 2009-03-19 | Internatl Business Mach Corp <Ibm> | Voice processing system, method and program |
JP2014102349A (en) * | 2012-11-19 | 2014-06-05 | Nippon Telegr & Teleph Corp <Ntt> | Speech enhancing device, method, program, and recording medium of the same |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06289896A (en) * | 1993-03-31 | 1994-10-18 | Hitachi Ltd | System and device for emphaizing feature of speech |
JPH09319391A (en) * | 1996-03-12 | 1997-12-12 | Toshiba Corp | Speech synthesizing method |
JP2002244689A (en) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice |
JP2004012700A (en) * | 2002-06-05 | 2004-01-15 | Canon Inc | Method and apparatus for synthesizing voice and method and apparatus for preparing dictionary |
-
2006
- 2006-07-25 JP JP2006201712A patent/JP4929896B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06289896A (en) * | 1993-03-31 | 1994-10-18 | Hitachi Ltd | System and device for emphaizing feature of speech |
JPH09319391A (en) * | 1996-03-12 | 1997-12-12 | Toshiba Corp | Speech synthesizing method |
JP2002244689A (en) * | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice |
JP2004012700A (en) * | 2002-06-05 | 2004-01-15 | Canon Inc | Method and apparatus for synthesizing voice and method and apparatus for preparing dictionary |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009058708A (en) * | 2007-08-31 | 2009-03-19 | Internatl Business Mach Corp <Ibm> | Voice processing system, method and program |
US8812312B2 (en) | 2007-08-31 | 2014-08-19 | International Business Machines Corporation | System, method and program for speech processing |
JP2014102349A (en) * | 2012-11-19 | 2014-06-05 | Nippon Telegr & Teleph Corp <Ntt> | Speech enhancing device, method, program, and recording medium of the same |
Also Published As
Publication number | Publication date |
---|---|
JP4929896B2 (en) | 2012-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8682670B2 (en) | Statistical enhancement of speech output from a statistical text-to-speech synthesis system | |
JP3854713B2 (en) | Speech synthesis method and apparatus and storage medium | |
Hennequin et al. | NMF with time–frequency activations to model nonstationary audio events | |
Yapanel et al. | A new perceptually motivated MVDR-based acoustic front-end (PMVDR) for robust automatic speech recognition | |
US20070192100A1 (en) | Method and system for the quick conversion of a voice signal | |
EP2109096B1 (en) | Speech synthesis with dynamic constraints | |
Kadyan et al. | Developing children’s speech recognition system for low resource Punjabi language | |
JP2019008206A (en) | Voice band extension device, voice band extension statistical model learning device and program thereof | |
JP2005157363A (en) | Method of and apparatus for enhancing dialog utilizing formant region | |
WO2015025788A1 (en) | Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern | |
Dua et al. | Spectral warping and data augmentation for low resource language ASR system under mismatched conditions | |
Tychtl et al. | Speech production based on the mel-frequency cepstral coefficients. | |
JP4929896B2 (en) | Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
Shahnawazuddin et al. | Robust children’s speech recognition in zero resource condition | |
JP3282693B2 (en) | Voice conversion method | |
JP2010145855A (en) | Voice synthesis dictionary construction device, voice synthesis dictionary construction method, and program | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
JP4464797B2 (en) | Speech recognition method, apparatus for implementing the method, program, and recording medium therefor | |
JP2951514B2 (en) | Voice quality control type speech synthesizer | |
JP6764843B2 (en) | Signal analyzers, methods, and programs | |
JP6542823B2 (en) | Acoustic model learning device, speech synthesizer, method thereof and program | |
JP4332323B2 (en) | Speech synthesis method and apparatus and dictionary generation method and apparatus | |
JP4760471B2 (en) | Speech synthesis dictionary construction device, speech synthesis dictionary construction method, and program | |
JP6137708B2 (en) | Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4929896 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |