JP4580317B2 - Speech synthesis apparatus and speech synthesis program - Google Patents
Speech synthesis apparatus and speech synthesis program Download PDFInfo
- Publication number
- JP4580317B2 JP4580317B2 JP2005270735A JP2005270735A JP4580317B2 JP 4580317 B2 JP4580317 B2 JP 4580317B2 JP 2005270735 A JP2005270735 A JP 2005270735A JP 2005270735 A JP2005270735 A JP 2005270735A JP 4580317 B2 JP4580317 B2 JP 4580317B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- phonemes
- accented
- speech
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明は、アクセント付き音素を用いて音声合成を行う音声合成装置および音声合成プログラムに関する。 The present invention relates to a speech synthesizer and a speech synthesis program for performing speech synthesis using accented phonemes.
従来、入力されたテキストデータに基づいて音声合成データを出力する音声合成装置が知られている(例えば、特許文献1参照)。特許文献1に開示されている音声合成装置には、音素とこの音素の発話時間が記録された音声データベースが備えられており、この音声合成装置は、入力されたテキストデータを音素に分解した後、分解した音素について音素を探索単位として音声データベースを探索し、連結コストおよび音韻韻律コストの和が最小になる探索結果を音声合成データとして出力するものである。
2. Description of the Related Art Conventionally, a speech synthesizer that outputs speech synthesis data based on input text data is known (see, for example, Patent Document 1). The speech synthesizer disclosed in
また、従来、音声認識において、当該音素の前後に配置された音素(前後の音素環境)を考慮した音素(トライフォン)としてクラスタリングする方法が知られている(例えば、非特許文献1参照)。
しかしながら、非特許文献1に開示されたクラスタリング方法は、前後の音素環境、すなわち、スペクトル包絡の特徴のみを考慮するクラスタリングであるため、基本周波数の変化に起因するアクセントの影響が無視されている。そのため、このクラスタリング方法を用いた音声合成装置では、合成される合成音声(音声合成データ)が不自然な感じになる(前後の音素の接続が不自然になる)、つまり合成音声(音声合成データ)の自然性が劣化してしまうという問題がある。
However, since the clustering method disclosed in Non-Patent
本発明は、以上のような問題点に鑑みてなされたものであり、合成音声(音声合成データ)が不自然に聞こえてしまう自然性の劣化を防止することができる音声合成装置および音声合成プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and a speech synthesizer and a speech synthesizer program capable of preventing deterioration of naturalness that a synthesized speech (speech synthesized data) sounds unnaturally. The purpose is to provide.
前記目的を達成するために、本発明の請求項1に記載の音声合成装置は、テキストデータ解析手段と、音素クラスタリング手段と、音素アクセントクラスタリング手段と、音声データベースと、音声データ探索手段と、音声データ連結手段とを備えることとした。
In order to achieve the above object, a speech synthesizer according to
かかる構成によれば、音声合成装置は、テキストデータ解析手段によって、入力されたテキストデータを形態素解析して、アクセント付き音素に変換する。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいい、形態素解析とは、文章を形態素のレベルまで分解して解析することである。また、アクセントには、音の高低、強弱、長短、リズムのうちの少なくとも1つを含む。そして、音声合成装置は、音素クラスタリング手段によって、前記テキストデータ解析手段で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリングし、音素アクセントクラスタリング手段によって、前記音素クラスタリング手段でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする。ここで、クラスタリングとは、所定のクラスタ(グループ)に分類すべき音素の集合を何らかの属性に注目して分類することを指すものである。また、アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする方法は、前後の音の高低、強弱、長短、リズムのうちの少なくとも1つを用いるものである。 According to such a configuration, the speech synthesizer performs morphological analysis on the input text data by the text data analysis means, and converts the text data into accented phonemes. Here, the morpheme refers to the minimum character string that has no meaning if it is made finer than this, and the morpheme analysis is to analyze the sentence by breaking it down to the morpheme level. In addition, the accent includes at least one of a pitch, strength, length, and rhythm. Then, the speech synthesizer clusters the phonemes with accents converted by the text data analysis unit by the phoneme clustering unit with the phonemes arranged before and after the phonemes with the accents, and the phoneme clustering unit performs the phoneme clustering unit. The phonemes with accents clustered by the means are clustered with phoneme accents arranged before and after the phonemes with accents. Here, clustering refers to classifying a set of phonemes to be classified into a predetermined cluster (group) by paying attention to some attribute. In addition, the clustering method using the phoneme accents arranged before and after the accented phonemes uses at least one of the pitches of the front and back sounds, strength, shortness, and rhythm.
そして、音声合成装置は、音声データ探索手段によって、前記音素アクセントクラスタリング手段でクラスタリングされたアクセント付き音素に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、前記連結スコアが最大となる音声データ列を音声データベースから探索する。この音声データベースは、前記アクセント付き音素の前後に配置された音素および該音素のアクセントでクラスタリングされたアクセント付き音素に対応する音声データを記憶するものである。ここで、ビタービサーチとは、最良(最大)のスコアを与える仮説(アクセント付き音素に対応する音声データの組み合わせ)の履歴のみを残していく手法である。そして、音声合成装置は、音声データ連結手段によって、前記音声データ探索手段で探索された音声データ列を連結する。この音声データ列の連結により、音声合成データが生成され、音声合成装置から出力される。 Then, the speech synthesizer calculates a concatenation score of speech data strings generated by combining speech data corresponding to accented phonemes clustered by the phoneme accent clustering means by means of a Viterbi search. The voice data string that maximizes the connection score is searched from the voice database. This speech database stores phonemes arranged before and after the accented phonemes and speech data corresponding to accented phonemes clustered by the accents of the phonemes. Here, the Viterbi search is a method of leaving only the history of a hypothesis (a combination of speech data corresponding to accented phonemes) that gives the best (maximum) score. Then, the speech synthesizer concatenates the speech data strings searched by the speech data search means by the speech data connection means. By combining the speech data strings, speech synthesis data is generated and output from the speech synthesizer.
また、請求項2に記載の音声合成装置は、テキストデータ解析手段と、音素クラスタリング手段と、音素アクセントクラスタリング手段と、音素列記憶手段と、音声データベースと、音素列分割手段と、音声データ探索手段と、音声データ連結手段とを備えることとした。
Further, the speech synthesizer according to
かかる構成によれば、音声合成装置は、テキストデータ解析手段によって、入力されたテキストデータを形態素解析して、アクセント付き音素に変換する。そして、音声合成装置は、音素クラスタリング手段によって、前記テキストデータ解析手段で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリングし、音素アクセントクラスタリング手段によって、前記音素クラスタリング手段でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする。この音声合成装置は、予め音素列記憶手段に、前記アクセント付き音素の前後に配置された音素および該音素のアクセントでクラスタリングされたアクセント付き音素の列を記憶し、この音素列記憶手段に記憶されたアクセント付き音素の列に対応する音声データを、音声データベースに記憶している。そして、音声合成装置は、音素列分割手段によって、前記音素アクセントクラスタリング手段でクラスタリングされた音素に変換された前記テキストデータを、前記音素列記憶手段に記憶されたアクセント付き音素の列に分割する。したがって、入力テキストデータは、予め登録されている複数の音素列に分割される。 According to such a configuration, the speech synthesizer performs morphological analysis on the input text data by the text data analysis means, and converts the text data into accented phonemes. Then, the speech synthesizer clusters the phonemes with accents converted by the text data analysis unit by the phoneme clustering unit with the phonemes arranged before and after the phonemes with the accents, and the phoneme clustering unit performs the phoneme clustering unit. The phonemes with accents clustered by the means are clustered with phoneme accents arranged before and after the phonemes with accents. In this speech synthesizer, a phoneme sequence storage unit stores in advance a phoneme arranged before and after the accented phoneme and a sequence of accented phonemes clustered with the accent of the phoneme, and is stored in the phoneme sequence storage unit. Voice data corresponding to the accented phoneme string is stored in the voice database. Then, the speech synthesizer divides the text data converted into the phonemes clustered by the phoneme accent clustering means by the phoneme string dividing means into accented phoneme strings stored in the phoneme string storage means. Therefore, the input text data is divided into a plurality of phoneme strings registered in advance.
そして、音声合成装置は、音声データ探索手段によって、前記音素列分割手段で分割された前記アクセント付き音素の列に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、前記連結スコアが最大となる音声データ列を前記音声データベースから探索する。そして、音声合成装置は、音声データ連結手段によって、前記音声データ探索手段で探索された音声データ列を連結する。この音声データ列の連結により、音声合成データが生成され、音声合成装置から出力される。 The speech synthesizer then performs a Viterbi search on a concatenation score of the speech data sequence generated by combining speech data corresponding to the accented phoneme sequence divided by the phoneme sequence division unit by the speech data search unit. The voice data string having the maximum connection score is searched from the voice database. Then, the speech synthesizer concatenates the speech data strings searched by the speech data search means by the speech data connection means. By combining the speech data strings, speech synthesis data is generated and output from the speech synthesizer.
また、請求項3に記載の音声合成プログラムは、テキストデータに対応する音声を合成するために、コンピュータを、テキストデータ解析手段、音素クラスタリング手段、音素アクセントクラスタリング手段、音声データ探索手段と、音声データ連結手段として機能させることを特徴とする。
The speech synthesis program according to
かかる構成によれば、音声合成プログラムは、テキストデータ解析手段によって、入力されたテキストデータを形態素解析して、アクセント付き音素に変換する。そして、音声合成プログラムは、音素クラスタリング手段によって、前記テキストデータ解析手段で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリングし、音素アクセントクラスタリング手段によって、前記音素クラスタリング手段でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする。そして、音声合成プログラムは、音声データ探索手段によって、前記音素アクセントクラスタリング手段でクラスタリングされたアクセント付き音素に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、前記連結スコアが最大となる音声データ列を探索する。そして、音声合成プログラムは、音声データ連結手段によって、前記音声データ探索手段で探索された音声データ列を連結する。 According to such a configuration, the speech synthesis program performs morphological analysis on the input text data by the text data analysis means, and converts the text data into accented phonemes. The speech synthesis program clusters the phonemes with accents converted by the text data analysis unit with the phoneme clustering unit using the phonemes arranged before and after the phonemes with the accents, and the phoneme clustering unit with the phoneme clustering unit. The phonemes with accents clustered by the means are clustered with phoneme accents arranged before and after the phonemes with accents. Then, the speech synthesis program calculates a concatenation score of speech data strings generated by combining speech data corresponding to accented phonemes clustered by the phoneme accent clustering means by means of a Viterbi search. The voice data string that maximizes the connection score is searched. Then, the speech synthesis program connects the speech data strings searched by the speech data search means by the speech data connection means.
また、請求項4に記載の音声合成プログラムは、テキストデータに対応する音声を合成するために、コンピュータを、テキストデータ解析手段、音素クラスタリング手段、音素アクセントクラスタリング手段、音素列分割手段、音声データ探索手段、音声データ連結手段として機能させることを特徴とする。 According to a fourth aspect of the present invention, there is provided a speech synthesis program comprising: a computer for text data analysis means, phoneme clustering means, phoneme accent clustering means, phoneme string dividing means, speech data search, in order to synthesize speech corresponding to text data. And functioning as voice data connection means.
かかる構成によれば、音声合成プログラムは、テキストデータ解析手段によって、入力されたテキストデータを形態素解析して、アクセント付き音素に変換する。そして、音声合成プログラムは、音素クラスタリング手段によって、前記テキストデータ解析手段で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリングし、音素アクセントクラスタリング手段によって、前記音素クラスタリング手段でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする。そして、音声合成プログラムは、音素列分割手段によって、前記音素アクセントクラスタリング手段でクラスタリングされた音素に変換された前記テキストデータをアクセント付き音素の列に分割する。そして、音声合成プログラムは、音声データ探索手段によって、前記音素列分割手段で分割された前記アクセント付き音素の列に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、前記連結スコアが最大となる音声データ列を探索する。そして、音声合成プログラムは、音声データ連結手段によって、前記音声データ探索手段で探索された音声データ列を連結する。 According to such a configuration, the speech synthesis program performs morphological analysis on the input text data by the text data analysis means, and converts the text data into accented phonemes. The speech synthesis program clusters the phonemes with accents converted by the text data analysis unit with the phoneme clustering unit using the phonemes arranged before and after the phonemes with the accents, and the phoneme clustering unit with the phoneme clustering unit. The phonemes with accents clustered by the means are clustered with phoneme accents arranged before and after the phonemes with accents. Then, the speech synthesis program divides the text data converted into the phonemes clustered by the phoneme accent clustering means into phoneme strings with accents by the phoneme string dividing means. Then, the speech synthesis program uses a speech data search means to generate a Viterbi search for a concatenation score of speech data strings generated by combining speech data corresponding to the accented phoneme strings divided by the phoneme string splitting means. And the voice data string having the maximum connection score is searched. Then, the speech synthesis program connects the speech data strings searched by the speech data search means by the speech data connection means.
請求項1または請求項3に記載の発明によれば、アクセント付き音素について、前後の音素環境に加えて前後のアクセント環境を考慮しているので、アクセントの正しい合成音声を作成することが可能になる。その結果、合成音声が不自然に聞こえてしまう自然性の劣化を防止することができる。 According to the first or third aspect of the invention, since the accented phoneme environment is taken into consideration in addition to the preceding and following phoneme environment, it is possible to create a synthesized speech with a correct accent. Become. As a result, it is possible to prevent the deterioration of naturalness that the synthesized speech is heard unnaturally.
請求項2または請求項4に記載の発明によれば、入力されたテキストデータを予め登録されているアクセント付き音素の列に分割し、この音素列を、音声データベースを探索する探索単位として使用するため、探索する際に前後の音素環境が異なる音素を探索することを防止し、音声合成処理に要する時間を短縮できる。その結果、合成した音声合成データの音質の低下を防止することができる。 According to the second or fourth aspect of the invention, the input text data is divided into pre-registered accented phoneme strings, and the phoneme strings are used as search units for searching the speech database. Therefore, it is possible to prevent searching for phonemes having different phoneme environments before and after searching, and to shorten the time required for speech synthesis processing. As a result, it is possible to prevent deterioration in sound quality of the synthesized speech synthesis data.
以下、本発明の実施の形態について図面を参照して説明する。
(第1の実施形態)
[音声合成装置の構成]
図1は、第1の実施形態に係る音声合成装置の構成を示す機能ブロック図である。音声合成装置1は、入力されたテキストデータに基づいて、出力すべき音声を音声データ列によって合成するものであり、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、HDD(Hard Disk Drive)と、入出力インターフェース等(図示を省略)とを備え、CPUがHDD等に格納されたプログラムをRAMに展開することにより後記する各種機能を実現するものである。この音声合成装置1は、図1に示すように、入力手段2と、記憶手段3と、音声合成制御手段4とを備えている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(First embodiment)
[Configuration of speech synthesizer]
FIG. 1 is a functional block diagram showing the configuration of the speech synthesizer according to the first embodiment. The
入力手段2は、テキストデータを音声合成制御手段4に入力するものであり、例えば、キーボードやマウス等から構成される。この入力手段2は、テキストデータをインターネットなどの通信回路網(図示を省略)を介して受信する通信インターフェース等から構成されるようにしてもよい。
記憶手段3は、発音単語記憶手段31と、接続確率記憶手段32と、音声データベース33と、メモリ34とを備えている。
The
The
発音単語記憶手段31は、アクセント付き音素を単語別に記憶したものであって、HDD等の一般的な記録媒体である。
接続確率記憶手段32は、単語の接続確率を記憶したものであって、HDD等の一般的な記録媒体である。
音声データベース33は、単位音声(音声データ)を記憶したものであって、HDD等の一般的な記録媒体である。音声データベース33に記憶されている単位音声は、全ての母音にアクセントの高低が付与されている音素を基盤としている。この音素は、アクセント付き音素の前後に配置された音素および該音素のアクセントでクラスタリングされたアクセント付き音素であり、複数のクラスタに分類されている。ここで、アクセントには、音の高低、強弱、長短、リズムのうちの少なくとも1つを含む。そして、例えば、これらの複数のアクセント付き音素の集合からなる「文章」がデータベースの構成単位となっている。なお、各文章に「文番号」を付与したり、各文章の発話時刻(発話開始時刻および発話終了時刻;発話時間)を記録したりするようにしてもよい。
メモリ34は、半導体メモリや磁気メモリなどの書き換え可能な記憶手段であり、音声合成制御手段4による処理等に利用される。
The pronunciation word storage means 31 stores accented phonemes for each word, and is a general recording medium such as an HDD.
The connection probability storage means 32 stores word connection probabilities and is a general recording medium such as an HDD.
The
The
音声合成制御手段4は、アクセント付き音素について、前後の音素環境および前後のアクセント環境を考慮して、音声データを合成するものであり、図1に示すように、テキストデータ解析手段41と、音素クラスタリング手段42と、音素アクセントクラスタリング手段43と、音声データ探索手段44と、音声データ補正手段45と、音声データ連結手段46とを備えている。
The speech synthesis control means 4 synthesizes speech data for accented phonemes in consideration of the front and back phoneme environment and the front and back accent environment. As shown in FIG. 1, the text synthesis analysis means 41 and the phoneme Clustering means 42, phoneme accent clustering means 43, speech data searching means 44, speech
テキストデータ解析手段41は、記憶手段3に格納された図示しない辞書データを参照して、入力されたテキストデータを形態素解析して、アクセント付き音素に変換して音素クラスタリング手段42に出力するものである。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいい、形態素解析とは、文章を形態素のレベルまで分解して解析することである。例えば、日本語の「今日の天気は晴れです」という文章は、「今日・の・天気・は・晴れ・です」等のように区切ることができる。本実施形態では、テキストデータ解析手段41は、発音単語記憶手段31および接続確率記憶手段32を参照して、アクセント付き音素に変換する。なお、テキストデータ解析手段41は、「単語」ではなく、「品詞」の接続確率を用いるようにしてもよい。また、テキストデータ解析手段41は、「接続確率」の代わりに、「単語の接続に関して予め定められた発音規則」に基づいてアクセント付き音素に変換するようにしてもよい。
The text
音素クラスタリング手段42は、テキストデータ解析手段41で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリング(分類)し、音素アクセントクラスタリング手段43に出力するものである。この音素クラスタリング手段42は、例えば、非特許文献1に記載された公知の方法でクラスタリングする。ここで、クラスタリングとは、所定のクラスタ(グループ)に分類すべき音素の集合を何らかの属性に注目して分類することを指すものである。つまり、音素クラスタリング手段42で注目されている属性は、当該アクセント付き音素の前後に配置された音素の種類(前後の音素環境)である。
The phoneme clustering means 42 clusters (classifies) the accented phonemes converted by the text data analysis means 41 with the phonemes arranged before and after the accented phonemes, and outputs them to the phoneme accent clustering means 43. The phoneme clustering means 42 performs clustering by a known method described in
音素アクセントクラスタリング手段43は、音素クラスタリング手段42でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングするものである。すなわち、音素アクセントクラスタリング手段43は、当該アクセント付き音素の前後に配置された音素のアクセント(前後のアクセント環境)という属性に注目してクラスタリングする。音素アクセントクラスタリング手段43は、前後のアクセント環境として、前後の音の高低を用いている。 The phoneme accent clustering means 43 clusters the phonemes with accents clustered by the phoneme clustering means 42 with the accents of phonemes arranged before and after the accented phonemes. That is, the phoneme accent clustering means 43 performs clustering by paying attention to the attribute of phoneme accents (accent environment before and after) arranged before and after the accented phoneme. The phoneme accent clustering means 43 uses the pitch of the front and rear sounds as the front and rear accent environment.
具体的には、音素アクセントクラスタリング手段43は、例えば、着目する音素(中心音素)が日本語の母音(当該母音)の場合であれば、前後の母音のアクセントが高い場合(高)と、低い場合(低)があるので、以下の7種類(クラスタ“1”〜クラスタ“7”)に分類している。なお、高低は、基本周波数が所定値よりも高いか低いかを示している。 Specifically, the phoneme accent clustering means 43 is low when, for example, the focused phoneme (central phoneme) is a Japanese vowel (the vowel), the accents of the preceding and following vowels are high (high), and low. Since there are cases (low), it is classified into the following seven types (cluster “1” to cluster “7”). Note that high and low indicate whether the fundamental frequency is higher or lower than a predetermined value.
(クラスタ“1”)=(低、低、低)または(高、高、高)
(クラスタ“2”)=(低、低、高)
(クラスタ“3”)=(低、高、低)
(クラスタ“4”)=(低、高、高)
(クラスタ“5”)=(高、低、低)
(クラスタ“6”)=(高、低、高)
(クラスタ“7”)=(高、高、低)
ここで、例えば、クラスタ“3”である(低、高、低)は、前の母音のアクセントが低く、当該母音(中心音素)のアクセントが高く、後ろの母音のアクセントが低い音素からなるクラスタを意味している。
(Cluster “1”) = (Low, Low, Low) or (High, High, High)
(Cluster “2”) = (Low, Low, High)
(Cluster “3”) = (Low, High, Low)
(Cluster “4”) = (Low, High, High)
(Cluster “5”) = (High, Low, Low)
(Cluster “6”) = (High, Low, High)
(Cluster “7”) = (High, High, Low)
Here, for example, cluster “3” (low, high, low) is a cluster composed of phonemes with low accent of the previous vowel, high accent of the vowel (center phoneme), and low accent of the back vowel. Means.
なお、当該母音のアクセントが「低」で、前の母音が無い場合には、前の母音のアクセントを「低」とみなし、クラスタ“1”またはクラスタ“2”に分類することとする。また、当該母音のアクセントが「低」で、後ろの母音が無い場合に、後ろの母音のアクセントを「低」とみなし、クラスタ“1”またはクラスタ“5”に分類することとする。
同様に、当該母音のアクセントが「高」で、前の母音が無い場合には、前の母音のアクセントを「高」とみなし、クラスタ“1”またはクラスタ“7”に分類することとする。また、当該母音のアクセントが「高」で、後ろの母音が無い場合に、後ろの母音のアクセントを「高」とみなし、クラスタ“1”またはクラスタ“4”に分類することとする。
If the accent of the vowel is “low” and there is no previous vowel, the accent of the previous vowel is regarded as “low” and classified as cluster “1” or cluster “2”. Further, when the accent of the vowel is “low” and there is no back vowel, the back vowel accent is regarded as “low” and is classified into cluster “1” or cluster “5”.
Similarly, when the accent of the vowel is “high” and there is no previous vowel, the accent of the previous vowel is regarded as “high” and is classified into cluster “1” or cluster “7”. Further, when the accent of the vowel is “high” and there is no back vowel, the back vowel accent is regarded as “high” and is classified into cluster “1” or cluster “4”.
また、音素アクセントクラスタリング手段43は、例えば、着目する音素(中心音素)が日本語の子音の場合であれば、クラスタを(前の母音のアクセントの高低、後ろの母音のアクセントの高低)で示す場合、以下の3種類(クラスタ“8”〜クラスタ“10”)に分類する。なお、前または後の母音が無い場合には、クラスタ“8”に分類することとする。
(クラスタ“8”)=(低、低)または(高、高)
(クラスタ“9”)=(低、高)
(クラスタ“10”)=(高、低)
The phoneme accent clustering means 43 indicates, for example, the cluster (the level of the accent of the previous vowel and the level of the accent of the back vowel) if the target phoneme (central phoneme) is a Japanese consonant. In this case, it is classified into the following three types (cluster “8” to cluster “10”). If there is no vowel before or after, it is classified into cluster “8”.
(Cluster “8”) = (Low, Low) or (High, High)
(Cluster “9”) = (Low, High)
(Cluster “10”) = (High, Low)
音声データ探索手段44は、音素アクセントクラスタリング手段43でクラスタリングされたアクセント付き音素に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、連結スコアが最大となる音声データ列を音声データベース33から探索し、音声データ補正手段45に出力するものである。この音声データ探索手段44は、音素を探索単位とする。なお、ビタービサーチとは、最良(最大)のスコアを与える仮説(アクセント付き音素に対応する音声データの組み合わせ)の履歴のみを残していく手法のことである。
The voice data search means 44 calculates the connection score of the voice data string generated by combining the voice data corresponding to the phonemes with accents clustered by the phoneme accent clustering means 43 by viterbi search, and the connection score is the maximum. Is searched from the
ここで、この連結スコアの算出の仕方について説明する。2つのアクセント付き音素を、それぞれ、音素A、音素Bとして、音素Aの後ろに音素Bを接続する場合を想定する。この場合の連結スコアSc(A,B)は、例えば、次に示す数式(1)によって求めることができる。 Here, how to calculate the connection score will be described. Assume that two phonemes with accents are phoneme A and phoneme B, respectively, and phoneme B is connected behind phoneme A. The connection score Sc (A, B) in this case can be obtained by, for example, the following mathematical formula (1).
この数式(1)において、pE Aは音素Aの終わり(終端)の基本周波数を表しており、pI Bは音素Bの始め(先端)の基本周波数を表しており、cE jAはj次元目における音素Aの終わり(終端)の特徴量を表しており、cI jBはj次元目における音素Bの始め(先端)の特徴量を表している。 In Equation (1), p E A represents the fundamental frequency at the end (termination) of phoneme A, p I B represents the fundamental frequency at the beginning (tip) of phoneme B, and c E jA represents j The feature amount at the end (end) of the phoneme A in the dimension is represented, and c I jB represents the feature amount at the beginning (tip) of the phoneme B in the jth dimension.
また、この数式(1)において、(a)および(b)はj次元目における音素Aの終わりのトライフォン(音素Aがトライフォンであればそのトライフォン)が含まれるクラスタTE A、TI Bの隠れマルコフモデル(HMM:Hidden Markov Model)の分散値を表しており、(c)および(d)はj次元目における音素Aの終わりのトライフォンが含まれるクラスタc(A)のHMMの平均値を表しており、dは特徴量の総次元数を表しており、ω7、ω8は正の重みを表しており、aは正の定数を表している。なお、δABは音素Aと音素Bとが連続して音声データベース33内にある場合を0、無い場合を1をとしている。
In Equation (1), (a) and (b) are clusters T E A , T including a triphone at the end of phoneme A in the j-th dimension (or triphone if phoneme A is a triphone). hidden Markov models I B (HMM: hidden Markov model ) represents a variance value of, (c) and (d) cluster c is included the triphone end of phonemes a in the j-th dimension (a) HMM D represents the total number of dimensions of the feature quantity, ω 7 and ω 8 represent positive weights, and a represents a positive constant. Note that δ AB is 0 when the phoneme A and the phoneme B are continuously in the
音声データ補正手段45は、音声データ探索手段44で探索された音声データ列を、当該音声データ列の前後の音声データ列で補正するものである。具体的には、音声データ補正手段45は、音声データ探索手段44で探索された音声データ列の基本周波数を平均化して、その平均値と個々の音声データとのずれを補正した音声データ列を音声データ連結手段46に出力する。なお、この補正に関しては、特開平2−47700号公報に記載されている方法を適用することとする。この音声データ補正手段45は、必須の構成ではなく、音声合成装置1に備えないようにしてもよい。
The voice
音声データ連結手段46は、音声データ補正手段45により補正された音声データ列に含まれる音声データそれぞれを連結(接続)して音声出力装置SPに出力するものである。音声合成装置1が、前記した音声データ補正手段45を備えない場合には、音声データ連結手段46は、音声データ探索手段44で探索された音声データ列を連結して音声出力装置SPに出力する。なお、音声出力装置SPは、音声を出力するものであれば何でもよく、例えば、スピーカや、スピーカを含む表示装置(液晶ディスプレイ、CRT(Cathode Ray Tube)等)である。なお、音声合成装置1は、図示しない通信インターフェースによって、インターネットなどの通信回路網(図示を省略)を介して音声出力装置SPに出力するようにしてもよい。
The audio
[音声合成装置の動作]
次に、図2を参照(適宜図1参照)して、音声合成装置の動作について説明する。図2は、図1に示した音声合成装置の動作を示すフローチャートである。まず、音声合成装置1は、入力手段2によって、テキストデータを入力(ステップS1)し、テキストデータ解析手段41によって、入力テキストデータを形態素解析してアクセント付き音素に変換する(ステップS2)。そして、音声合成装置1は、音素クラスタリング手段42によって、前後の音素でクラスタリングし(ステップS3)、音素アクセントクラスタリング手段43によって、前後の音素のアクセントでクラスタリングする(ステップS4)。
[Operation of speech synthesizer]
Next, the operation of the speech synthesizer will be described with reference to FIG. FIG. 2 is a flowchart showing the operation of the speech synthesizer shown in FIG. First, the
続いて、音声合成装置1は、音声データ探索手段44によって、数式(1)に基づいて、連結スコアが最大となる音声データ列を音声データベース33から探索する(ステップS5)。そして、音声合成装置1は、音声データ補正手段45によって、探索された音声データ列を補正する(ステップS6)。これにより、音声データ列は前後の音声データ列に滑らかに接続することができる。そして、音声合成装置1は、音声データ連結手段46によって、補正された音声データ列を連結する(ステップS7)。これにより、連結された音声合成データは、音声出力装置SPから合成音声として出力される。なお、音声合成装置1は、音声データ補正手段45を備えていない場合、ステップS5に続いて、ステップS7に進む。
Subsequently, the
[具体的な音声合成例]
次に、図3を参照(適宜図1参照)して、音声合成装置1の具体的な音声合成例を説明する。図3は、図1に示した音声合成装置の具体的な音声合成例を示す説明図であって、(a)はテキストデータ解析手段の出力例、(b)は音素クラスタリング手段および音素アクセントクラスタリング手段の出力例を示している。
[Specific speech synthesis example]
Next, a specific speech synthesis example of the
一例として、音声合成装置1の入力手段2にテキストデータ(入力日本語テキスト)として、「〈文頭〉おはようございます〈文末〉」が入力されたものとする。すると、音声合成装置1は、テキストデータ解析手段41によって、入力日本語テキストをアクセント付き音素に変換し、図3の(a)に示すように、音素の列「o(低)ha(高)yo:(高)go(高)za(高)i(高)ma(高)su(低)」を出力する。
As an example, it is assumed that “<Sentence> Good morning <End of sentence>” is input as text data (input Japanese text) to the input means 2 of the
そして、図3の(b)に示すように、音声合成装置1は、音素クラスタリング手段42によって、図3の(a)に示した連続した音素の列を構成する各音素301を、当該音素301の前後に配置された音素(前後の音素環境)を考慮してクラスタリングしたアクセント付き音素(トライフォン、音素クラスタリング302)の列を出力する。すなわち、「o(低)+h o−h+a h−a(高)+y a−y+o: y−o:(高)+g o:−g+o g−o(高)+z o−z+a z−a(高)+i a−i(高)+m i−m+a m−a(高)+s a−s+u s−u(低)」が出力される。ここで、例えば、トライフォン「o−h+a」は、中心音素は「h」であって、中心音素の前に配置された音素(先行音素)が「o」で、中心音素の後ろに配置された音素(後続音素)が「a」であることを意味している。
Then, as shown in FIG. 3B, the
さらに、音声合成装置1は、音素アクセントクラスタリング手段43によって、音素クラスタリング手段42から出力されたアクセント付き音素(音素クラスタリング302)を、アクセント付き音素(中心音素)の前後に配置された音素(先行音素、後続音素)のアクセント(前後のアクセント環境)を考慮してクラスタリングしたアクセント付き音素(音素アクセントクラスタリング303)の列として音声データ探索手段44に出力する。すなわち、「o^2+h o−h^9+a h−a^4+y a−y^8+o: y−o:^1+g o:−g^8+o g−o^1+z o−z^8+a z−a^1+i a−i^1+m i−m^8+a m−a^6+s a−s^10+u s−u^5」が出力される。ここで、例えば、「o−h^9+a」は、中心音素が前記した(クラスタ“9”)に属する音素「h」であり、前の音素(先行音素)が「o」であり、後ろの音素(後続音素)が「a」であることを意味している。
Further, the
続いて、音声合成装置1は、音声データ探索手段44によって、該当するクラスタに属する音声データの組み合わせについて音声データベース33の探索を行い、連結スコアを最大にする音声データ列を出力する。このとき、音素(例えば、先行音素、分類された中心音素および後続音素の組である「o−h^9+a」や、分類された中心音素である「h^9」)を探索単位として、連結スコアが最大となる音声データの組み合わせが音声データベース33から探索される。
Subsequently, the
具体的には、音声データ探索手段44は、まず、音声データベース33中の「o^3+h」から音声データベース33中の「o−h^9+a」に接続する音声データ列の全ての組み合わせについて、数式(1)を使用して求められる連結スコアを計算する。
Specifically, the voice data search means 44 first calculates mathematical expressions for all combinations of voice data strings connected from “o ^ 3 + h” in the
計算された結果、音声データベース33中、1番始めの「o−h^9+a」に接続する「o^3+h」の音声データ列(出力候補)の中で連結スコアが一番大きいものが音声データ探索手段44によりメモリ34に記録される。そして、数式(1)を使用して求められる連結スコアの計算と、記録動作とが音声データベース33中の全ての「o−h^9+a」について実行される。
As a result of the calculation, in the
さらに、「h−a^4+y」についても同様に、音声データベース33中、1番始めの「h−a^4+y」に接続する「o−h^9+a」の音声データ列(出力候補)の中で連結スコアが一番大きいものが音声データ探索手段44で記録される。そして、数式(1)を使用して求められる連結スコアの計算と、記録動作とが音声データベース33の全ての「h−a^4+y」について実行される。
Similarly, “h−a ^ 4 + y” is also included in the voice data string (output candidate) of “o−h ^ 9 + a” connected to the first “h−a ^ 4 + y” in the
以下、同様にして、各アクセント付き音素を接続する連結スコアが求められ、最後に、入力日本語テキストに対応する音声データ列(出力候補)の組み合わせの中で、連結スコアが一番大きいものが探索されることとなる。この探索された音声データ列は、音声データ補正手段45によって滑らかに接続され、音声データ連結手段46によって連結され最終的に一つの音声データとなって、合成音声として音声出力装置SPから出力される。
In the same manner, a concatenated score for connecting each accented phoneme is obtained, and finally, the combination of speech data strings (output candidates) corresponding to the input Japanese text has the largest concatenated score. Will be searched. The searched audio data string is smoothly connected by the audio
第1の実施形態によれば、音声合成装置1は、アクセント付き音素について、前後の音素環境に加えて前後のアクセント環境を考慮して、音声データベース33を探索するので、アクセントの正しい合成音声を作成することが可能になる。その結果、合成音声が不自然に聞こえてしまう自然性の劣化を防止することができる。
According to the first embodiment, the
(第2の実施形態)
[音声合成装置の構成]
図4は、第2の実施形態の音声合成装置の構成を示す機能ブロック図である。
音声合成装置1Aは、図4に示すように、記憶手段3Aと、音声合成制御手段4Aの機能が異なる点を除いて、図1に示した音声合成装置1と同一の構成なので、同一の構成には同一の符号を付し、説明を省略する。
(Second Embodiment)
[Configuration of speech synthesizer]
FIG. 4 is a functional block diagram showing the configuration of the speech synthesizer according to the second embodiment.
As shown in FIG. 4, the speech synthesizer 1A has the same configuration as the
記憶手段3Aは、音素列リスト(音素列記憶手段)35を備える。
音素列リスト35は、アクセント付き音素の前後に配置された音素および該音素のアクセントでクラスタリングされたアクセント付き音素の列を記憶したものであって、HDD等の一般的な記録媒体である。この音素列リスト35の作成方法については、特開2005−70164号公報に記載された方法を適用することが出来る。
なお、音声データベース33に記憶されている単位音声は、全ての母音にアクセントの高低が付与されている音素または音素列(音素列分割仮説データ)を基盤としている。
The storage means 3A includes a phoneme string list (phoneme string storage means) 35.
The
Note that the unit speech stored in the
音声合成制御手段4Aは、音素列分割手段51と、音声データ探索手段44Aとを備える。音素列分割手段51は、音素アクセントクラスタリング手段43でクラスタリングされた音素に変換された入力テキストデータを、音素列リスト35に記憶されたアクセント付き音素の列(音素列分割仮説データ)に分割し、音声データ探索手段44Aに出力するものである。この音素列分割手段51は、例えば、接続点数や音素数に基づいて、音素列分割仮説データを出力する。なお、このアクセント付き音素の列への分割に関しては、特開2005−70165号公報に記載されている方法を適用することができる。
The voice synthesis control unit 4A includes a phoneme
音声データ探索手段44Aは、音素列分割手段51で分割されたアクセント付き音素の列に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、連結スコアが最大となる音声データ列を音声データベース33から探索し、音声データ補正手段45に出力するものである。なお、音声データ補正手段45を備えていない場合には音声データ連結手段46に出力する。
この音声データ探索手段44Aは、アクセント付き音素の列(音素列)を探索単位とする。このアクセント付き音素の列は、図3の(b)において音素アクセントクラスタリング303で示した例で表現すると、この音素アクセントクラスタリング303の連結したものに相当し、例えば、連続した中心音素の列と先行音素または/および後続音素の組である「(o^2 h^9)+a」や、「o−(h^9 a^4 y^8)+o」などで表現される。
The speech data search means 44A calculates a concatenation score of speech data strings generated by combining speech data corresponding to accented phoneme strings divided by the phoneme string split means 51 by viterbi search, and the concatenation score is The maximum audio data string is searched from the
The voice data search means 44A uses a string of phonemes with accents (phoneme string) as a search unit. This sequence of phonemes with accents is represented by the example shown by the
[音声合成装置の動作]
次に、図5を参照(適宜図4参照)して、音声合成装置1Aの動作について説明する。図5は、図4に示した音声合成装置の動作を示すフローチャートである。音声合成装置1Aは、ステップS21〜S24を順次処理する。これらのステップS21〜S24は、それぞれ図2に示したステップS1〜S4と同一なので説明を省略する。ステップS24に続けて、音声合成装置1Aは、音素列分割手段51によって、音素アクセントクラスタリング手段43でクラスタリングされた音素に変換された入力テキストデータをアクセント付き音素の列に分割する(ステップS25)。そして、音声合成装置1Aは、ステップS26〜S28を順次処理する。これらのステップS26〜S28は、それぞれ図2に示したステップS5〜S7と同一なので説明を省略する。ただし、ステップS26では、音声データ探索手段44Aは、アクセント付き音素(例えば、「o−h^9+a」や「h^9」)を対象とするのではなく、なるべく分割されたアクセント付き音素の列(例えば、「(o^2 h^9)+a」、「o−(h^9 a^4 y^8)+o」)を対象として、連結スコアが最大となる音声データ列を探索する。
[Operation of speech synthesizer]
Next, the operation of the speech synthesizer 1A will be described with reference to FIG. FIG. 5 is a flowchart showing the operation of the speech synthesizer shown in FIG. The speech synthesizer 1A sequentially processes steps S21 to S24. These steps S21 to S24 are the same as steps S1 to S4 shown in FIG. Subsequent to step S24, the speech synthesizer 1A divides the input text data converted into phonemes clustered by the phoneme
次に、前記したステップS25の処理を具体的に説明する。一例として、音声合成装置1Aの入力手段2にテキストデータ(入力日本語テキスト)として、「〈文頭〉おはようございます〈文末〉」が入力されたものとする。この場合、音声合成装置1Aは、図3の(a)で示したように、テキストデータ解析手段41によって、連続した音素の列「o(低)ha(高)yo:(高)go(高)za(高)i(高)ma(高)su(低)」を出力する。そして、音声合成装置1Aの音素列分割手段51に、図3の(b)で示したように、アクセントクラスタリングされた音素列「o^2+h o−h^9+a h−a^4+y a−y^8+o: y−o:^1+g o:−g^8+o g−o^1+z o−z^8+a z−a^1+i a−i^1+m i−m^8+a m−a^6+s a−s^10+u s−u^5」が入力されることとなる。そして、音素列分割手段51は、入力された14個の音素(中心音素)から成る音素列を、「(o^2 h^9)+a」、「h−(a^4 y^8 o:^1 g^8)+o」、「g−(o^1 z^8 a^1 i^1)+m」、および、「i−(m^8 a^6 s^10 u^5)」の4つの音素列分割仮説データ(アクセント付き音素の列)に分割して、最終的な出力結果として出力することとなる。
Next, the process of step S25 described above will be specifically described. As an example, it is assumed that “<start of sentence> good morning <end of sentence>” is input as text data (input Japanese text) to the
第2の実施形態によれば、音声合成装置1Aは、入力されたテキストデータを音素列リスト35に予め登録されているアクセント付き音素の列に分割し、このアクセント付き音素の列を、音声データベース33を探索する探索単位として使用するため、探索する際に前後の音素環境が異なる音素を探索することを防止し、音声合成処理に要する時間を短縮できる。その結果、合成した音声合成データの音質の低下を防止することができる。
According to the second embodiment, the speech synthesizer 1A divides the input text data into accented phoneme strings registered in the
以上、各実施形態に基づいて本発明を説明したが、本発明はこれらに限定されるものではない。例えば、音声合成装置1(1A)の各構成を一つずつの過程と捉えた音声合成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した音声合成プログラムとみなすことも可能である。この場合、音声合成装置1(1A)と同様の効果を得ることができる。 As mentioned above, although this invention was demonstrated based on each embodiment, this invention is not limited to these. For example, it is possible to regard each configuration of the speech synthesizer 1 (1A) as a speech synthesis method in which each configuration is regarded as one process, or as a speech synthesis program in which the processing of each configuration is described in a general-purpose computer language. is there. In this case, the same effect as the speech synthesizer 1 (1A) can be obtained.
また、各実施形態では、音声データベース33は、基盤としている音素の母音にアクセントの高低を付与されているものとして説明したが、母音にアクセントの強弱を付与するようにしてもよく、また、母音の無声化に対しても、母音があるものとして高低もしくは強弱を付与するようにしてもよい。
また、各実施形態では、音素アクセントクラスタリング手段43は、前後のアクセント環境として、前後の音の高低を用いるものとしたが、前後の音の高低、強弱、長短、リズムのうちの少なくとも1つを用いればよい。
In each embodiment, the
Further, in each embodiment, the phoneme
次に、本発明の効果を確認した実施例について説明する。第2の実施形態の音声合成装置1Aを用いて、前後のアクセント環境まで考慮してクラスタリングすることにより合成した合成音声(実施例)と、従来のように前後の音素環境のみを考慮してクラスタリングすることにより合成した合成音声(比較例)とを、自然性(より自然に聞こえるか)に関して比較した。 Next, examples in which the effects of the present invention have been confirmed will be described. Clustering considering synthesized speech (example) synthesized by clustering in consideration of up to and including the accent environment using the speech synthesizer 1A of the second embodiment, and the conventional phoneme environment as in the past. The synthesized speech (comparative example) synthesized by doing so was compared in terms of naturalness (whether it sounds more natural).
[対比較実験]
音声データベース33に予め蓄積したデータは、1996年6月3日から2001年6月22日までのNHKニュースデータベースに存在する森田アナウンサにより発声された25484文章と森田アナウンサが読み上げたバランス文(音素環境をバランスさせて作成した文)である99文章の計79.5時間分を全て収めたものであり、総トライフォン数は356万であり、異なりトライフォン数は8452である。また、評価用テキストには、2001年6月25日から6月29日までの番組「NHKニュース10」で森田アナウンサが発声した96文章(音素数13267)を使用した。
[Comparison experiment]
The data stored in the
まず、対比較実験について説明する。この対比較実験は、防音室内でスピーカを用いて行い、当該実験の被験者は、音声評定の経験のある3名の女性である。また、この対比較実験では、評価用テキストである96文章全てを実施例と比較例とについて受聴させ、それぞれの受聴は1回のみに限定した。この対比較実験の各試行は、実施例と比較例とを対でランダムな順序で呈示し、被験者がより自然に感じる方を選択するように当該被験者に指示を与えた。なお、この対比較実験は、各被験者に適度な時間間隔で休憩をとってもらいながら行った。 First, a comparative experiment will be described. This paired comparison experiment is performed using speakers in a soundproof room, and the subjects of the experiment are three women who have experience in voice evaluation. In this comparative comparison experiment, all 96 sentences as evaluation texts were listened to for the example and the comparative example, and each listening was limited to once. In each trial of the comparative experiment, the example and the comparative example were presented in pairs in a random order, and the subject was instructed to select the subject that felt more natural. This comparative experiment was conducted while having each subject take a break at an appropriate time interval.
この対比較実験の結果、全体(total)で56.0%の音声に関して、音声合成装置1Aによって合成した合成音声(実施例)の方が、従来のように前後のアクセント環境を考慮しないもの(比較例)に比べて、自然であると評価された。二項検定を用いると、危険率は5%で、この差は有意である。 As a result of this comparison experiment, with respect to a total of 56.0% speech, the synthesized speech synthesized by the speech synthesizer 1A (example) does not consider the accent environment before and after as in the past ( Compared to Comparative Example), it was evaluated as natural. Using the binomial test, the risk is 5%, and this difference is significant.
[5段階品質評価実験]
次に、5段階品質評価実験について説明する。この5段階品質評価実験は、前後のアクセント環境を考慮した音声データベース33を利用して作成した合成音声(実施例)と、前後のアクセント環境を考慮しない音声データベースを利用して作成した合成音声(比較例)と、自然音声とに対して5段階で品質評価を行ったものである。
[5-level quality evaluation experiment]
Next, a five-stage quality evaluation experiment will be described. In this five-step quality evaluation experiment, the synthesized speech (Example) created using the
この5段階品質評価実験は、対比較実験と同様に、防音室内で、スピーカを用いて行っており、被験者は音声評定の経験がある3名の女性である。各試行では、評価用データをランダムな順序で被験者に呈示し、被験者は自然性の違いを評価する。この自然性の評価は、“5”(自然である)、“4”(不自然な部分はあるが気にならない)、“3”(少し気になる)、“2”(気になる)、“1”(非常に気になる)の5段階で品質評価を行うこととした。なお、品質評価に先立ち、被験者には、自然音声を3文章聞かせて、どの程度の音声であれば、自然に聞こえるとするかといった評価基準(インストラクション)を与えた。また、評価用テキストとして実際に放送されたニュース文を利用しているので、1文の長さが平均で10秒程度と長いことから、受聴は1回のみに限定し、適度な間隔で休憩を挟みながら行った。 This five-step quality evaluation experiment is performed using a speaker in a soundproof room as in the comparative comparison experiment, and the subjects are three women who have experience in voice evaluation. In each trial, the evaluation data is presented to the subject in a random order, and the subject evaluates the difference in naturalness. The evaluation of this naturalness is “5” (natural), “4” (unnatural part but not bothered), “3” (somewhat worried), “2” (worried) , "1" (very worrisome) was decided to perform quality evaluation in five stages. Prior to the quality evaluation, the subjects were given 3 sentences of natural speech and given an evaluation standard (instruction) as to how much speech should be heard naturally. In addition, since the news sentence actually broadcasted is used as the evaluation text, the average length of one sentence is about 10 seconds. Therefore, listening is limited to one time and breaks are made at appropriate intervals. I went while holding it.
ここで、平均オピニオン評点(MOS:Mean Opinioin Score)について図6を参照して説明する。図6は、図4に示した音声合成装置を使用した5段階品質評価実験の結果を示すグラフである。図6に示すグラフから、実施例の場合のMOSは「4.19」となり、比較例のMOSは「3.95」となった。実施例のMOS「4.19」は、「自然である」と「不自然な部分があるが気にならない」との間の自然性を持つと言え、比較例のMOS「3.95」と比べ、良い評価であると言える。なお、自然音声のMOSは「4.99」となった。 Here, an average opinion score (MOS) will be described with reference to FIG. FIG. 6 is a graph showing the results of a five-stage quality evaluation experiment using the speech synthesizer shown in FIG. From the graph shown in FIG. 6, the MOS in the example is “4.19”, and the MOS in the comparative example is “3.95”. It can be said that the MOS “4.19” of the example has a naturalness between “natural” and “not natural but there is an unnatural part”, and the MOS “3.95” of the comparative example It can be said that it is a good evaluation. The natural voice MOS was "4.99".
また、図6に示すように、実施例では、全体の49%の合成音声が“5”(自然である)と評価されている。そのため、実施例では、自然音声と変わらない品質の音声データが高頻度で合成されていると言える。なお、“2”および“1”の評価を受けたものは全体の8%である。 Further, as shown in FIG. 6, in the embodiment, 49% of the total synthesized speech is evaluated as “5” (natural). For this reason, in the embodiment, it can be said that voice data having the same quality as natural voice is synthesized with high frequency. In addition, 8% of the total received evaluations of “2” and “1”.
1,1A 音声合成装置
2 入力手段
3,3A 記憶手段
31 発音単語記憶手段
32 接続確率記憶手段
33 音声データベース
34 メモリ
35 音素列リスト(音素列記憶手段)
4,4A 音声合成制御手段
41 テキストデータ解析手段
42 音素クラスタリング手段
43 音素アクセントクラスタリング手段
44,44A 音声データ探索手段
45 音声データ補正手段
46 音声データ連結手段
51 音素列分割手段
SP 音声出力装置
DESCRIPTION OF
4, 4A Speech synthesis control means 41 Text data analysis means 42 Phoneme clustering means 43 Phoneme accent clustering means 44, 44A Speech data searching means 45 Speech data correcting means 46 Speech data connecting means 51 Phoneme sequence dividing means SP Speech output device
Claims (4)
前記テキストデータ解析手段で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリングする音素クラスタリング手段と、
前記音素クラスタリング手段でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする音素アクセントクラスタリング手段と、
前記アクセント付き音素の前後に配置された音素および該音素のアクセントでクラスタリングされたアクセント付き音素に対応する音声データを記憶する音声データベースと、
前記音素アクセントクラスタリング手段でクラスタリングされたアクセント付き音素に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、前記連結スコアが最大となる音声データ列を前記音声データベースから探索する音声データ探索手段と、
前記音声データ探索手段で探索された音声データ列を連結する音声データ連結手段と、
を備えることを特徴とする音声合成装置。 Text data analysis means for converting input text data into accented phonemes by performing morphological analysis,
Phoneme clustering means for clustering accented phonemes converted by the text data analyzing means with phonemes arranged before and after the accented phonemes;
Phoneme accent clustering means for clustering accented phonemes clustered by the phoneme clustering means with phoneme accents arranged before and after the accented phonemes;
A speech database for storing speech data corresponding to phonemes arranged before and after the accented phonemes and accented phonemes clustered by the accents of the phonemes;
A concatenation score of a speech data sequence generated by combining speech data corresponding to accented phonemes clustered by the phoneme accent clustering means is calculated by viterbi search, and a speech data sequence that maximizes the concatenation score A voice data search means for searching from a voice database;
Voice data connection means for connecting the voice data strings searched by the voice data search means;
A speech synthesizer comprising:
前記テキストデータ解析手段で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリングする音素クラスタリング手段と、
前記音素クラスタリング手段でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする音素アクセントクラスタリング手段と、
前記アクセント付き音素の前後に配置された音素および該音素のアクセントでクラスタリングされたアクセント付き音素の列を記憶する音素列記憶手段と、
前記音素列記憶手段に記憶されたアクセント付き音素に対応する音声データを記憶する音声データベースと、
前記音素アクセントクラスタリング手段でクラスタリングされた音素に変換された前記テキストデータを、前記音素列記憶手段に記憶されたアクセント付き音素の列に分割する音素列分割手段と、
前記音素列分割手段で分割された前記アクセント付き音素の列に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、前記連結スコアが最大となる音声データ列を前記音声データベースから探索する音声データ探索手段と、
前記音声データ探索手段で探索された音声データ列を連結する音声データ連結手段と、
を備えることを特徴とする音声合成装置。 Text data analysis means for converting input text data into accented phonemes by performing morphological analysis,
Phoneme clustering means for clustering accented phonemes converted by the text data analyzing means with phonemes arranged before and after the accented phonemes;
Phoneme accent clustering means for clustering accented phonemes clustered by the phoneme clustering means with phoneme accents arranged before and after the accented phonemes;
Phoneme string storage means for storing a phoneme arranged before and after the accented phoneme and a string of accented phonemes clustered by the accent of the phoneme;
A speech database for storing speech data corresponding to accented phonemes stored in the phoneme string storage means;
Phoneme string dividing means for dividing the text data converted into phonemes clustered by the phoneme accent clustering means into accented phoneme strings stored in the phoneme string storage means;
A speech data sequence generated by combining speech data corresponding to the accented phoneme sequence divided by the phoneme sequence partitioning unit is calculated by viterbi search, and the speech data that maximizes the connection score Speech data search means for searching for a sequence from the speech database;
Voice data connection means for connecting the voice data strings searched by the voice data search means;
A speech synthesizer comprising:
入力されたテキストデータを形態素解析して、アクセント付き音素を出力するテキストデータ解析手段、
前記テキストデータ解析手段で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリングする音素クラスタリング手段、
前記音素クラスタリング手段でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする音素アクセントクラスタリング手段、
前記音素アクセントクラスタリング手段でクラスタリングされたアクセント付き音素に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、前記連結スコアが最大となる音声データ列を探索する音声データ探索手段、
前記音声データ探索手段で探索された音声データ列を連結する音声データ連結手段、
として機能させることを特徴とする音声合成プログラム。 In order to synthesize speech corresponding to text data,
Text data analysis means for analyzing input morphological data and outputting accented phonemes,
Phoneme clustering means for clustering accented phonemes converted by the text data analyzing means with phonemes arranged before and after the accented phonemes;
Phoneme accent clustering means for clustering accented phonemes clustered by the phoneme clustering means with phoneme accents arranged before and after the accented phonemes;
A concatenation score of speech data sequences generated by combining speech data corresponding to accented phonemes clustered by the phoneme accent clustering means is calculated by Viterbi search, and a speech data sequence having the maximum concatenation score is searched. Voice data search means to
Voice data connecting means for connecting voice data strings searched by the voice data searching means;
A speech synthesis program characterized by functioning as
入力されたテキストデータを形態素解析して、アクセント付き音素に変換するテキストデータ解析手段、
前記テキストデータ解析手段で変換されたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素でクラスタリングする音素クラスタリング手段、
前記音素クラスタリング手段でクラスタリングされたアクセント付き音素を、当該アクセント付き音素の前後に配置された音素のアクセントでクラスタリングする音素アクセントクラスタリング手段、
前記音素アクセントクラスタリング手段でクラスタリングされた音素に変換された前記テキストデータをアクセント付き音素の列に分割する音素列分割手段、
前記音素列分割手段で分割された前記アクセント付き音素の列に対応する音声データを組み合わせることによって生成される音声データ列の連結スコアをビタービサーチによって計算し、前記連結スコアが最大となる音声データ列を探索する音声データ探索手段、
前記音声データ探索手段で探索された音声データ列を連結する音声データ連結手段、
として機能させることを特徴とする音声合成プログラム。
In order to synthesize speech corresponding to text data,
Text data analysis means for converting input text data into accented phonemes by morphological analysis,
Phoneme clustering means for clustering accented phonemes converted by the text data analyzing means with phonemes arranged before and after the accented phonemes;
Phoneme accent clustering means for clustering accented phonemes clustered by the phoneme clustering means with phoneme accents arranged before and after the accented phonemes;
Phoneme string dividing means for dividing the text data converted into phonemes clustered by the phoneme accent clustering means into accented phoneme strings;
A speech data sequence generated by combining speech data corresponding to the accented phoneme sequence divided by the phoneme sequence partitioning unit is calculated by viterbi search, and the speech data that maximizes the connection score Voice data search means for searching for a sequence;
Voice data connecting means for connecting voice data strings searched by the voice data searching means;
A speech synthesis program characterized by functioning as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005270735A JP4580317B2 (en) | 2005-09-16 | 2005-09-16 | Speech synthesis apparatus and speech synthesis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005270735A JP4580317B2 (en) | 2005-09-16 | 2005-09-16 | Speech synthesis apparatus and speech synthesis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007079476A JP2007079476A (en) | 2007-03-29 |
JP4580317B2 true JP4580317B2 (en) | 2010-11-10 |
Family
ID=37939806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005270735A Expired - Fee Related JP4580317B2 (en) | 2005-09-16 | 2005-09-16 | Speech synthesis apparatus and speech synthesis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4580317B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4528839B2 (en) * | 2008-02-29 | 2010-08-25 | 株式会社東芝 | Phoneme model clustering apparatus, method, and program |
CN105336321B (en) * | 2015-09-25 | 2016-10-19 | 百度在线网络技术(北京)有限公司 | Phone cutting method and device for phonetic synthesis |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06161492A (en) * | 1992-11-19 | 1994-06-07 | Meidensha Corp | Accent processing system of speech synthesizing device |
JPH07239698A (en) * | 1994-02-28 | 1995-09-12 | Hitachi Ltd | Device for synthesizing phonetic rule |
JPH11344997A (en) * | 1998-06-02 | 1999-12-14 | Sanyo Electric Co Ltd | Voice synthesis method |
-
2005
- 2005-09-16 JP JP2005270735A patent/JP4580317B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06161492A (en) * | 1992-11-19 | 1994-06-07 | Meidensha Corp | Accent processing system of speech synthesizing device |
JPH07239698A (en) * | 1994-02-28 | 1995-09-12 | Hitachi Ltd | Device for synthesizing phonetic rule |
JPH11344997A (en) * | 1998-06-02 | 1999-12-14 | Sanyo Electric Co Ltd | Voice synthesis method |
Also Published As
Publication number | Publication date |
---|---|
JP2007079476A (en) | 2007-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8036894B2 (en) | Multi-unit approach to text-to-speech synthesis | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
US9865251B2 (en) | Text-to-speech method and multi-lingual speech synthesizer using the method | |
US10540956B2 (en) | Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus | |
JP5208352B2 (en) | Segmental tone modeling for tonal languages | |
Athanaselis et al. | ASR for emotional speech: clarifying the issues and enhancing performance | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
US20050119890A1 (en) | Speech synthesis apparatus and speech synthesis method | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
JP5148026B1 (en) | Speech synthesis apparatus and speech synthesis method | |
Boothalingam et al. | Development and evaluation of unit selection and HMM-based speech synthesis systems for Tamil | |
Proença et al. | Automatic evaluation of reading aloud performance in children | |
Abushariah et al. | Modern standard Arabic speech corpus for implementing and evaluating automatic continuous speech recognition systems | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
Mullah et al. | Development of an HMM-based speech synthesis system for Indian English language | |
JP4532862B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
JP4580317B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP6170384B2 (en) | Speech database generation system, speech database generation method, and program | |
JP3109778B2 (en) | Voice rule synthesizer | |
JP2001312293A (en) | Method and device for voice recognition, and computer- readable storage medium | |
JP2007163667A (en) | Voice synthesizer and voice synthesizing program | |
JP2011197542A (en) | Rhythm pattern generation device | |
JP2005181998A (en) | Speech synthesizer and speech synthesizing method | |
Yong et al. | Low footprint high intelligibility Malay speech synthesizer based on statistical data | |
JP4839058B2 (en) | Speech synthesis apparatus and speech synthesis program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061227 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100827 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130903 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140903 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |