JP4648878B2 - Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof - Google Patents
Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof Download PDFInfo
- Publication number
- JP4648878B2 JP4648878B2 JP2006189291A JP2006189291A JP4648878B2 JP 4648878 B2 JP4648878 B2 JP 4648878B2 JP 2006189291 A JP2006189291 A JP 2006189291A JP 2006189291 A JP2006189291 A JP 2006189291A JP 4648878 B2 JP4648878 B2 JP 4648878B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- style
- pronunciation
- speech
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この発明は、テキストと、その他に発話様式とを入力して、それらに対応した音声合成出力を得る音声合成方法、及びその装置、そのプログラムとそのプログラムを記憶する記憶媒体に関する。 The present invention relates to a speech synthesis method for inputting a text and an utterance style and obtaining a speech synthesis output corresponding to the text, an apparatus thereof, a program thereof, and a storage medium for storing the program.
テキストを入力し、音声を出力する従来の音声合成技術においては、まず、テキストに対応する発音情報を、辞書や規則などを用いて作成する。ここで、発音情報とは、カナで表現されるような発音に加えて、アクセントの位置や、アクセント句境界、もしくは母音の無声化情報などをさしている。
次に、方式によっては、発音情報から韻律情報を生成する。ここで、韻律とは、例えば声の高さ、声の大きさおよび発話速度の平均的な値や、時間的に変化する変化パタンである。
次に、発音情報や韻律情報に対応する音声波形を生成する。近年の音声合成の技術分野においては、特定の話者が発声した音声データを大量に収集して音声データベースを作成し、この音声データベースの中から発音情報と合致し韻律情報に近い値を持つ音声波形の素片を抽出し、つなぎ合わせて出力する波形素片接続方式が知られている。波形素片接続方式を用いると、高品質な合成音声を得られることが知られている。この発明もこの方式を用いることを前提とする。
テキストを入力し、音声を出力する従来の音声合成技術において、発話様式を考慮したものとしては、非特許文献1に開示されている。発話様式とは、例えば非特許文献1では、喜び、悲しみ等の感情の籠った合成音声の種別である。図13を参照して上記非特許文献1に示された技術を簡単に説明する。
In a conventional speech synthesis technique for inputting text and outputting speech, first, pronunciation information corresponding to the text is created using a dictionary or a rule. Here, the pronunciation information refers to an accent position, an accent phrase boundary, or vowel devoicing information in addition to pronunciation expressed in kana.
Next, prosody information is generated from pronunciation information depending on the method. Here, the prosody is, for example, an average value of voice pitch, voice loudness, and speech rate, or a change pattern that changes with time.
Next, a speech waveform corresponding to pronunciation information and prosodic information is generated. In recent technical fields of speech synthesis, a speech database is created by collecting a large amount of speech data uttered by a specific speaker, and speech that matches the pronunciation information and has a value close to prosodic information from this speech database. There is known a waveform segment connection method in which waveform segments are extracted and connected to be output. It is known that high-quality synthesized speech can be obtained by using the waveform segment connection method. This invention is also premised on the use of this method.
Non-patent
例えばNHKアナウンサーのナレーションの様な感情によらないセリフが記憶された読み上げ音声データベース131(以降、データベースはDBと省略する)の音声と、その同一のセリフを指定した感情に従ってナレータに発話してもらった音声が記憶された感情別音声DB130内の音声と、の差から韻律学習部132が韻律情報を生成し、それらを感情別韻律辞書133に登録する。ここで韻律とは、例えば声の高さ、声の大きさ、および発話速度の平均的な値や、時間的に変化する変化パタンである。感情別韻律辞書133に韻律情報が登録されるのと同時に、素片学習部134が音声波形の素片を抽出して素片辞書135に登録する。
言語解析部136にテキストが入力されると、テキストが単語に分割され、単語に発音(読み)が与えられ1つの発音情報が生成される。その発音情報が入力される韻律生成部137は、指定された発話様式の感情別韻律辞書133に基づいて、発音情報に1つの韻律情報を与える。波形生成部138は、素片辞書の中から発音情報と合致し韻律情報に近い値を持つ音声波形の素片を抽出し、つなぎ合わせて合成音声として出力する。
When text is input to the
ここで、発話様式を、例えば丁寧な人、ぞんざいな人等のような発話者の口調や、その場の状況、及び発話者の感情などを反映した発話のかたちであると定義する。この発明は、その発話様式が反映された音声が、感情や口調を反映しない平静な音声に比べると、特に発音や韻律が大きく変化することに着目する。そこで、発話様式を考慮して発音情報や韻律情報の変更を試みると、表現が多様化するために、様々な発音情報や韻律情報が求められることとなり、音声DBの中に韻律情報に十分近い音声波形が存在しない場合が発生し易くなる。このような場合、従来の音声合成方式では、発音情報は合致するが、韻律情報とは乖離(かいり)の大きな音声波形を代用して用いるため、音声波形の素片をつなぎ合わせる際に大きな不連続性などが発生し、合成音声の品質が致命的に劣化する可能性がある。
上記した従来例では、感情別韻律辞書133及び素片辞書135にデータを登録するときと、全く同じテキストが入力された時の合成音声の品質は高い。しかし、異なるテキストが入力されると、表現を多様化しているために、そのテキストと発話様式に合致した音声波形の素片が、音声DBに無い可能性が高くなる。これは、上記した素片辞書に登録される素片データの数をいくら増やしても完全に回避することは出来ない。
Here, the utterance style is defined as the form of utterance reflecting the tone of the utterer such as a polite person, an awkward person, the situation of the place, and the emotion of the utterer. The present invention pays attention to the fact that the sound reflecting the speech style is greatly changed in pronunciation and prosody compared to a calm voice that does not reflect emotions and tone. Therefore, when changing the pronunciation information and prosodic information in consideration of the utterance style, various pronunciation information and prosodic information are required because the expression is diversified, which is sufficiently close to the prosodic information in the speech DB. A case where there is no voice waveform is likely to occur. In such a case, in the conventional speech synthesis method, the pronunciation information matches, but a speech waveform that has a large divergence (promotion) from prosodic information is used instead. Continuity may occur and the quality of synthesized speech may be fatally degraded.
In the conventional example described above, the quality of the synthesized speech is high when data is registered in the emotion-
つまり、従来の方法では、1つの発音情報とそれに対する1つの韻律情報とに基づいて合成音声を生成するので、必要な音声波形の素片が音声DB内に無い可能性が高く、その様な場合、代用される音声波形の素片が合成音声の品質を致命的に劣化させる。
この発明は、このような点に鑑みてなされたものであり、発話様式を指定して音声合成を行なうが、品質が致命的に悪化した合成音声を出力させる可能性を低めた様式指定型音声合成方法、及びその装置、そのプログラム及びその記憶媒体を提供することを目的とする。
That is, in the conventional method, a synthesized speech is generated based on one pronunciation information and one prosodic information corresponding thereto, so there is a high possibility that a required speech waveform segment is not in the speech DB. In such a case, the fragment of the voice waveform that is substituted fatally degrades the quality of the synthesized voice.
The present invention has been made in view of the above points, and performs speech synthesis by designating an utterance mode, but has reduced possibility of outputting synthesized speech whose quality has been fatally deteriorated. It is an object to provide a synthesis method, an apparatus thereof, a program thereof, and a storage medium thereof.
この発明による様式指定型音声合成装置は、テキストと、テキストで表現される内容以外の音声に変化を与える要因であるところの発話様式情報とが入力され、1つ以上の発音情報と、上記発音情報それぞれに対応し発話様式の反映された程度を表す発話様式スコアとを、発音情報生成手段が出力する。発話様式情報と発音情報を入力として、韻律情報生成手段が、発音情報のそれぞれについて1つ以上の韻律情報と、それら韻律情報それぞれについて発話様式の反映の度合いを表す韻律様式スコアとを出力する。発音情報生成手段からの発音情報と韻律情報生成手段からの韻律情報とを入力として、音声合成手段が、それぞれの上記発音情報または/及び韻律情報が異なる複数の合成音声と、それぞれの合成音声の品質の程度を表す品質スコアを出力する。複数の合成音声の中から、合成音声選択手段が、品質スコアが閾値を超え、且つ、発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。 The style designation type speech synthesizer according to the present invention receives text and utterance style information that is a factor that causes a change in speech other than the contents expressed by the text, and includes one or more pronunciation information and the above-mentioned pronunciation The pronunciation information generating means outputs an utterance style score corresponding to each piece of information and representing the degree to which the utterance style is reflected. With the utterance style information and the pronunciation information as inputs, the prosodic information generation means outputs one or more prosodic information for each of the pronunciation information and a prosodic style score representing the degree of reflection of the utterance style for each of the prosodic information. With the pronunciation information from the pronunciation information generation means and the prosody information from the prosody information generation means as inputs, the speech synthesis means has a plurality of synthesized voices with different pronunciation information or / and prosodic information, and Output a quality score that represents the degree of quality. The synthesized speech selection means selects and outputs the synthesized speech having the highest style score based on the pronunciation style score and the prosodic style score from the plurality of synthesized speech, and exceeds the threshold. If there is no quality score synthesized speech, the synthesized speech with the highest quality score is selected and output.
音声合成の評価においては、高品質で、所望の発話様式を感じられるような合成音声が求められることはもちろんである。しかし、それよりも、大きな接続歪を持ったり異音が含まれたりといった、致命的に劣化した品質の音声が少しでも出力されると、主観的な印象に大きく影響することが知られている。この発明による様式指定型音声合成装置によれば、発話情報または/及び韻律情報が異なる複数の合成音声の中から、品質スコアが閾値を超え、かつ、様式スコアの最も高い合成音声を選択するので品質がよく、かつ、指定した発話様式とよく一致した合成音声となる。しかも品質スコアが閾値を超える合成音声が無い場合も、最も品質スコアの高い合成音声を出力するため、品質スコアが致命的に低い合成音声を出力する可能性を低めることが可能となる。 In the evaluation of speech synthesis, it is a matter of course that a synthesized speech that can feel a desired speech style with high quality is required. However, it is known that the output of fatally deteriorated quality, such as having a large connection distortion or abnormal noise, will greatly affect the subjective impression. . According to the style designation type speech synthesizer according to the present invention, a synthesized voice having a quality score exceeding a threshold and having the highest style score is selected from a plurality of synthesized voices having different utterance information and / or prosodic information. The synthesized speech is of good quality and closely matches the specified utterance style. In addition, even when there is no synthesized speech whose quality score exceeds the threshold, since the synthesized speech with the highest quality score is output, it is possible to reduce the possibility of outputting the synthesized speech with a critically low quality score.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
この発明の様式指定型音声合成装置300の実施例1の機能構成ブロックを図1に示す。漢字かな混じりのテキストαと、テキストαで表現される内容以外の音声に変化を与える要因である発話様式情報βとが、発音情報生成手段10に入力される。発音情報生成手段10は、例えば、「私は傘をさした」のテキストαと、例えば「丁寧な」の発話様式情報βとに基づいて、複数の発音情報と発話様式スコアを韻律情報生成手段12に出力する。発音情報としては、例えば「ワタクシワ、カサヲサシタ」と「ワタシワ、カサヲサシタ」などが考えられる。「丁寧な」の発話様式情報に対する発話様式スコアは、「ワタクシワ、カサヲサシタ」の方が高くなる。
韻律情報生成手段12は、入力された発音情報それぞれに対して、複数の韻律情報を与える。例えば「丁寧な」という発話様式を反映させた音声は、通常の音声に比べればはっきりとした抑揚で発声し、通常よりも改まった発声になる。「ワタクシワ、カサヲサシタ」という発音情報に対して、抑揚を表す声の大きさや声の高さの変化幅が自然性を損なわない範囲で平均よりも大きければ、「丁寧な」という発話様式に対する韻律様式スコアは高くなる。
FIG. 1 shows a functional configuration block of the first embodiment of the style designation type speech synthesizer 300 of the present invention. Text α mixed with kana and kana and utterance style information β, which is a factor that causes a change in speech other than the content expressed by the text α, are input to the pronunciation information generating means 10. The pronunciation information generation means 10 is a prosody information generation means for generating a plurality of pronunciation information and an utterance style score based on, for example, the text α of “I put an umbrella” and the utterance style information β of “Polite”, for example. 12 is output. As pronunciation information, for example, “Watakushi, Kasawosashita” and “Watawashi, Kasawosashita” can be considered. The utterance style score for the “polite” utterance style information is higher for “Watakushi, Kasawo Sashita”.
The prosodic information generation means 12 gives a plurality of prosodic information for each input pronunciation information. For example, a voice that reflects the “careful” utterance style is uttered with a clear inflection compared to a normal voice, resulting in a utterance that is more modified than usual. Prosodic style for the utterance style of “Polite” if the pronunciation level of “Watakushiwa, Kasawosashita” is greater than the average in the range of the loudness of the voice and the change in the pitch of the voice that does not impair the naturalness. The score gets higher.
このような韻律情報は、1つの発音情報に対して1個以上付与される。韻律情報生成手段12は、発音情報生成手段10から入力された発音情報と発音様式スコアと、その発音情報に対して生成した韻律情報と韻律様式スコアとを、音声合成手段14に出力する。
音声合成手段14は、入力された発音情報と韻律情報に基づき全ての合成音声を合成し、各合成音声に対して品質の程度を表す品質スコアを生成する。品質スコアについては、詳しくは後述するが、例えば合成音声と韻律情報との間の基本周波数の一致度合いを反映する値である。音声合成手段14は、生成した合成音声とその品質スコアと、韻律情報生成手段から入力された発音様式スコアと韻律様式スコアと、を合成音声選択手段16に出力する。
合成音声選択手段16は、入力された合成音声の中から、品質スコアが閾値を超え、且つ、発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、上記閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。なお、発音情報生成手段10が生成出力する発音様式スコアは、韻律情報生成手段12、音声合成手段14、合成音声選択手段16の順で転送されて行く例を示したが、図1に破線で示すように発音様式スコアを使用して合成音声を選択する合成音声選択手段16に直接出力するようにしても良い。韻律情報生成手段12が生成出力する韻律様式スコアも同様に、合成音声選択手段16に直接出力するようにしてもよい。
One or more such prosodic information is given to one piece of pronunciation information. The prosodic information generation means 12 outputs the pronunciation information and the pronunciation style score input from the pronunciation information generation means 10 and the prosodic information and the prosodic style score generated for the pronunciation information to the speech synthesis means 14.
The
The synthesized speech selecting means 16 selects and outputs the synthesized speech having the highest quality score based on the pronunciation style score and the prosodic style score from among the inputted synthesized speech, and the quality score exceeds the threshold value. If there is no synthesized speech with a quality score exceeding the threshold, the synthesized speech with the highest quality score is selected and output. Note that the pronunciation style score generated and output by the pronunciation
このようにこの実施例では、発音情報や韻律情報を唯一に定めず、複数の候補を作成し、それら全てに対する合成音声を作成した上で品質スコアが閾値を超えるもの、或いは品質スコアの最も高いものを出力するため、極端に品質の劣化した合成音声を出力する可能性が減る。
上記した実施例1の動作を整理する目的で、実施例1の動作フローを図2に示す。漢字かな混じりのテキストαと発話様式情報βが発音情報生成手段10に入力される(ステップS11)。発音情報生成手段10は、発話様式を反映した1つ以上の発音情報と発音様式スコアを生成する(ステップS12)。韻律情報生成手段12は、上記生成された発音情報に対して発話様式情報βを反映した韻律情報と韻律様式スコアを生成する(ステップS13)。音声合成手段は、発音情報と韻律情報から複数の合成音声と、その合成音声の品質スコアを生成する(ステップS14)。合成音声選択手段16は、上記合成音声中に品質スコアが閾値を越えている合成音声が在る場合は、その中の発音様式スコアと韻律様式スコアに基づいた様式スコア、つまり、様式の度合いを一番反映した合成音声を選択して出力し、品質スコアが閾値を超えるものがない場合は、品質スコアの最も高い合成音声を選択(ステップS15)して出力する(ステップS16)。
As described above, in this embodiment, the pronunciation information and prosodic information are not uniquely defined, a plurality of candidates are created, and the synthesized speech for all of them is created, and the quality score exceeds the threshold value, or the highest quality score. Since the output is, the possibility of outputting synthesized speech with extremely deteriorated quality is reduced.
For the purpose of organizing the operation of the first embodiment, the operation flow of the first embodiment is shown in FIG. Text α mixed with kanji and utterance style information β is input to the pronunciation information generating means 10 (step S11). The pronunciation information generating means 10 generates one or more pronunciation information and a pronunciation style score reflecting the utterance style (step S12). The prosodic information generation means 12 generates prosodic information and prosodic style score reflecting the utterance style information β with respect to the generated pronunciation information (step S13). The speech synthesizer generates a plurality of synthesized speech and a quality score of the synthesized speech from the pronunciation information and prosodic information (step S14). When there is a synthesized speech whose quality score exceeds the threshold value in the synthesized speech, the synthesized speech selecting means 16 determines the style score based on the pronunciation style score and the prosodic style score, that is, the degree of the style. When the synthesized voice most reflected is selected and output, and there is no quality score exceeding the threshold, the synthesized voice with the highest quality score is selected (step S15) and output (step S16).
〔各機能構成ブロックの説明〕
〔発音情報生成手段〕
発音情報生成手段10の機能構成例を図3に示しその動作を説明する。テキストαと発話様式情報βは形態素解析部30に入力される。形態素解析部30は、入力された例えば、「私は傘をさした」のテキストαを単語に分割して、品詞や読み等の単語情報を付与する。このとき、形態素解析部30は、入力された発話様式情報βが例えば「丁寧な」であれば、その様式によって、読みが変わる単語を図4に示すような様式依存辞書31から読みを検索して、複数の発音情報を生成する。
[Description of each functional block]
[Pronunciation information generation means]
An example of the functional configuration of the pronunciation information generating means 10 is shown in FIG. The text α and the speech style information β are input to the
発音情報としては、カタカナの列にアクセント核情報が埋め込まれた形式とし、例えば、発音情報1hであるワタシワ[00]カサオ[01]サシタ[01]と、発音情報2hであるワタクシワ[00]カサオ[01]サシタ[01]とが生成される。[]内の数字は、直前のアクセント句のアクセント核位置を示している。ワタシワの[00]は、アクセントの無い平坦な調子を意味し、アクセントの型は0型とも呼ばれる。カサオの[01]は、最初のカの音にアクセントがあることを意味する。アクセントの型は1型とも呼ばれる。その発音情報に対して、この例の場合、発音情報1hと発音情報2h、それぞれに発音様式スコア生成部が、発音様式スコアを付与する。発話様式スコアとしては、例えば図5に示すように様式依存辞書から引用したアクセント句の割合としてもよい。発音情報1hの、ワタクシワ[00]カサオ[01]サシタ[01]に対しては、3個のアクセント句の内の1個が様式依存辞書31から引用しているので、例えば発音様式スコア1sを0.33としている。
それに対して発音情報2hの、ワタシワ[00]カサオ[01]サシタ[01]に対しては、3個のアクセント句の読みを、図示しない形態素解析部30内の単語辞書から得ているので、発話様式情報βに依存していないとして発音様式スコア1sを0.0としている。
The pronunciation information is in a format in which accent core information is embedded in a row of katakana. For example, Watashiwa [00] Kasao [01] Sashita [01] that is the pronunciation information 1h and Watakushiwa [00] Kasao that is the pronunciation information 2h. [01] Sashita [01] is generated. The number in [] indicates the accent nucleus position of the immediately preceding accent phrase. I [00] means flat tone without accents, and the accent type is also called 0 type. Casao's [01] means that the first mosquito's sound is accented. The accent type is also called
On the other hand, the reading of the three accent phrases is obtained from the word dictionary in the morpheme analysis unit 30 (not shown) for Watashiwa [00] Kasao [01] Sasita [01] of the pronunciation information 2h. The pronunciation style score 1s is set to 0.0 because it is not dependent on the utterance style information β.
この例では、2個の発音情報1hsと2hsが生成される場合を示しているが、入力されるテキストによっては、n個の発音情報とn個の発音様式スコアが生成される。
発音情報1hsと2hsと発話様式情報βは、読み付与部33に入力され、アクセント句が結合されたことによる連濁化の調整がされる。上記した例では、連濁化の調整は必要ないが、例えば、2語が複合して1語をつくるときに下に来る語の初めの清音を濁音に変える必要が在る場合に、ここで読みが調整される。
読み付与部33においても、発話様式情報βに依存した発音情報の調整が可能である。例えば、様式依存句末長音化頻度情報34にアクセント句の語尾の引き伸ばし情報を記憶して置き、その情報に基づいて読み付与部33が語尾を変化させてもよい。例えば、「それで」と言うところを「それでー」と、句末を引き伸ばすことによっても、発話様式情報βに依存させた表現にすることが出来る。
また、例えば「やりました」に対して、よりくだけた調子の「やっちゃいました」や、「行きました」に対して「行っちゃったすよ」のように、同一の意味に対して読み付与部33が、異なる発音情報を記憶した様式依存発音変換情報35の情報に基づき、発音を変換させることでも発話様式情報βに対応させることが可能である。この場合は、発音内容に発音様式スコアは依存する。例えば、「昨日、二次会に行きました」に対して「昨日、二次会に行っちゃったすよ」は、上記したアクセント句の割合よりも、その発音が適用されたことによって、「丁寧な」の発話様式情報βに対する発音様式スコアが低下する。つまり、発音情報そのものにスコアの重み付けをしてもよい。
This example shows the case where two pronunciation information 1hs and 2hs are generated, but depending on the input text, n pronunciation information and n pronunciation style scores are generated.
The pronunciation information 1hs and 2hs and the utterance style information β are input to the
The
Also, for the same meaning, for example, “I did it” for “I did it” or “I did it” for “I went” The
連濁化等の読みが調整された発音情報は発音様式スコアと共に、アクセント付与部36で発音情報全体としてアクセントをどこに置くかのアクセント型が決定され、韻律情報生成手段12に出力される。発音情報とその発音様式スコアは、発音情報生成手段10内の発音情報記憶部37に記憶しても良いし、順次、韻律情報生成手段12に出力するようにしてもよい。説明の例では、ワタクシワ[00]カサオ[01]サシタ[01]の発音情報1hと、その発話様式スコア1sの0.33との組みを発音情報1hs、及び、ワタシワ[00]カサオ[01]サシタ[01]の発音情報2hと、その発話様式スコア2sの0.0との組を発音情報2hsとしている。この発音情報1hsと2hsが、韻律情報生成手段12に入力される。
〔韻律情報生成手段〕
韻律情報生成手段12の構成例を図6に示しその動作を説明する。発音情報生成手段10で生成された発音情報1hsと2hsが順次、発音情報取得部60に取り込まれ、発音情報が韻律生成部61に入力される。韻律生成部61は、発話様式情報βに基づき代表的な発話様式を数段階の割合で強調して発声した音声から作成した韻律DB62を、参照して韻律情報を生成する。この実施例の特徴は、韻律DB62に代表的な発話様式毎に、数段階の水準を用意している点である。
The pronunciation information whose reading such as turbidity is adjusted, together with the pronunciation style score, the
[Prosodic information generation means]
A configuration example of the prosodic information generation means 12 is shown in FIG. 6 and its operation will be described. The
韻律DB62に示すように、例えば、発話様式情報βの「丁寧な」に対して、その様式をより強調した1.0の水準と、あまり反映していない0.5の水準の2種類が用意される。他の発話様式情報βの「喜び」や「怒り」についても同様である。韻律情報とは、音声の基本周波数の変化パタンと、そのポーズの長さであるとし、例えば、横軸が時間、縦軸が基本周波数で表される図7に示すようなものとする。この韻律DB62は、従来技術で説明した感情別韻律辞書133と同様な作り方で作成され、予めハードディスク等に記憶されたものである。
「丁寧な」という発話様式については、図8中の韻律情報1aRと1bRに示す水準1.0(韻律様式スコア)と0.5(韻律様式スコア)の韻律情報例から理解されるように、その様式を反映している度合いの高いものを、例えば、抑揚が大きくて、ポーズをやや長めに取る様式であるとする。その場合、韻律DB62内の水準1.0は、0.5に対して基本周波数の変化幅が大きくて、ポーズの時間が長いものになる。韻律DB62は、このようなものであるので、その水準は2種類に限られることは無く、例えば0.7や0.8の水準も簡単に用意することが出来る。例えば、0.7は、1.0を100%、0.5を50%としたものに対して基本周波数の変化幅やポーズ時間を70%の大きさにすれば良い。このように韻律DB62内の発話様式情報βに対応する水準の数を増やせば、その分、韻律生成部61で生成する韻律情報を増やすことができる。
韻律生成部61は、1個の発音情報に対して複数の韻律情報を生成する。上記した発音情報1hに対して、韻律生成部61は、例えば図8に示すような韻律情報1aRと1bRを生成する。また、発音情報2hに対しては、韻律情報2aRと2bRを生成する。生成された韻律情報それぞれに対して韻律様式スコア付与部63が、韻律様式スコアを付与する。韻律情報1aRには、韻律様式スコア1.0が、韻律情報1bRには0.5が付与され、韻律情報2aRには、韻律様式スコア1.0が、韻律情報2bRには0.5が付与される。
As shown in the prosodic DB 62, for example, two types are prepared for the “careful” utterance style information β, a level of 1.0 that emphasizes the style and a level of 0.5 that does not reflect much. Is done. The same applies to “joy” and “anger” of other utterance style information β. The prosodic information is a change pattern of the fundamental frequency of the voice and the length of the pause. For example, the prosody information is as shown in FIG. 7 where the horizontal axis represents time and the vertical axis represents the fundamental frequency. This prosody DB 62 is created in the same way as the emotion-based
The utterance style “Polite” is understood from the prosodic information examples of levels 1.0 (prosodic style score) and 0.5 (prosodic style score) shown in the prosodic information 1a R and 1b R in FIG. In addition, it is assumed that a high degree of reflection of the style is, for example, a style with a large inflection and a slightly longer pose. In that case, the level 1.0 in the prosody DB 62 has a large change frequency of the fundamental frequency with respect to 0.5 and a long pause time. Since the prosody DB 62 is as described above, the levels are not limited to two types, and for example, levels of 0.7 and 0.8 can be easily prepared. For example, in the case of 0.7, 1.0 may be 100% and 0.5 may be 50%, and the change width and pause time of the basic frequency may be 70%. Thus, if the number of levels corresponding to the utterance style information β in the prosody DB 62 is increased, the prosody information generated by the
The
なお、ここでは韻律情報として基本周波数の時間変化パタンおよびポーズの長さを取り上げたが、発話速度の変化パタンや音声のパワーの変化パタンなどを考慮した韻律情報生成方式も考えられる。
韻律生成部61で生成された複数の韻律情報と韻律様式スコアは、それぞれの発音情報と組になった音声合成情報として、順次、音声合成手段14に出力される。この例では、音声合成情報1gと2gの2個であり、それぞれの音声合成情報には、1個の発音情報と発音様式スコアに対して、2個の韻律情報とそれぞれの韻律スコアとが付与されている。
このような音声合成情報は、発音情報と韻律情報の組み合わせの数だけ生成される。この例の場合、発音情報1と2に対して、それぞれ2個の韻律情報が付与されているので、4個の音声合成情報1g1,1g2,2g1,2g2が生成される。n個の音声合成情報は、韻律情報生成手段12内に音声合成情報記憶部65を設け、そこで記憶しても良い。
なお、発音様式スコアと韻律様式スコアとを様式スコア生成部64で足し合わせて、1個の発話様式の反映の度合いを表す様式スコアとして音声合成情報記憶部65に記憶してもよい。
Here, the time change pattern of the fundamental frequency and the length of the pause are taken up as the prosody information. However, a prosody information generation method that considers a change pattern of speech speed, a change pattern of voice power, and the like is also conceivable.
The plurality of prosody information and prosodic style scores generated by the
Such speech synthesis information is generated by the number of combinations of pronunciation information and prosodic information. In the case of this example, two prosodic information are assigned to the
Note that the pronunciation style score and the prosodic style score may be added together by the style
〔音声合成手段〕
音声合成手段14の構成例を図9に示しその動作を説明する。音声合成情報取得部90が、韻律情報生成手段12から音声合成情報1g*〜Ng*(*は1,2,…,nを省略して表す)を順次取得し、音素片選択部91に出力する。音素片選択部91は、音声合成情報1g*〜Ng*内の発音情報と韻律情報に合致する音声波形の音素片を音声DB92から読み出して、音素片接続部93に出力する。音素片接続部93は、音素片を接続して合成音声を生成し、合成音声選択手段16に出力する。
品質スコア生成部94によって、音素片接続部93で生成されたそれぞれの合成音声に対して、合成音声の品質の指標である品質スコアが付与される。品質スコアは、例えば、参考特許文献、「波形接続型音声合成における知覚的評価に基づく素片選択サブコスト関数の最適化、信学技報SP2003-81」に示されているような、基本周波数の一致度合いを数値化する方法、平均スペクトルの一致度合いを数値化する方法、スペクトルの不連続性を数値化する方法、或いはこれらを統合する方法などが考えられる。
[Voice synthesis means]
A configuration example of the
The quality
ここで、仮に音声DB92に保持されている音声波形の音素片が、上記した音声合成情報1g1の韻律情報1aR及び1bRと、音声合成情報2g1と2g2の韻律情報2aR,2bRに相当する音素片をほぼ含んでいるが、音声合成情報1g1の韻律情報1aRに含まれる「ワタクシ」の「タク」の部分に相当する音素片を含んでいなかったとする。
この場合、音声合成情報1g1の韻律情報1aRに基づいて合成される合成音声1aOは、その該当する音素片の無い部分に、例えば基本周波数の異なる「タ」や「ク」の音素片が用いられる。その結果、韻律情報1aRと合成音声との基本周波数の一致度合いを表す品質スコアが低下する。例えば音声合成情報1g1の韻律情報1aRに基づく合成音声1aOの品質スコア1aQSが0.7であり、音声合成情報1g2の韻律情報1bRに基づく合成音声1bOと音声合成情報2g1,2g2に対する合成音声2aO,2bOの品質スコア1bQS、2aQS、2bQSが0.95であるとする。例えば0.7は、音素片と韻律情報との基本周波数の一致する割合が70%、0.95は95%であると言った意味を持つものである。
合成音声とその品質スコアと、発音様式スコアと韻律様式スコアとは、組みとなって合成音声情報を形成し、これら複数の合成音声情報が合成音声選択手段16に出力される。つまり、各合成音声情報には、発音様式スコアと韻律様式スコアと品質スコアが添付されて合成音声選択手段16へ出力される。従って、合成音声情報を見れば、各合成音声の品質の程度と発話様式の反映の程度が分かるようになっている。
なお、合成音声情報は、音声合成手段14内に音声合成記憶部95を設けて記憶しても良いし、順次、合成音声選択手段16に出力するようにしてもよい。
Here, the phoneme pieces of the speech waveform held in the
In this case, the synthesized speech 1a O synthesized based on the prosody information 1a R of the speech synthesis information 1g 1 is, for example, phonemes of “ta” and “ku” having different fundamental frequencies in a portion where there is no corresponding phoneme. Is used. As a result, the quality score representing the degree of coincidence between the fundamental frequencies of the prosodic information 1a R and the synthesized speech is lowered. For example, the quality score 1a QS of the synthesized speech 1a O based on the prosody information 1a R of the speech synthesis information 1g 1 is 0.7, and the synthesized speech 1b O based on the prosodic information 1b R of the speech synthesis information 1g 2 and the speech synthesis information 2g Assume that the quality scores 1b QS , 2a QS , and 2b QS of the synthesized speech 2a O and 2b O for 1 and 2g 2 are 0.95. For example, 0.7 has the meaning that the proportion of coincidence of the fundamental frequencies of the phoneme pieces and the prosodic information is 70%, and 0.95 is 95%.
The synthesized speech, the quality score thereof, the pronunciation style score, and the prosodic style score are combined to form synthesized speech information, and the plurality of synthesized speech information is output to the synthesized speech selection means 16. In other words, a pronunciation style score, a prosodic style score, and a quality score are attached to each synthesized voice information and output to the synthesized voice selection means 16. Therefore, by looking at the synthesized speech information, the degree of quality of each synthesized speech and the degree of reflection of the speech style can be understood.
Note that the synthesized speech information may be stored by providing the speech synthesis storage unit 95 in the
〔合成音声選択手段〕
合成音声選択手段16の構成例を図10に示しその動作を説明する。合成音声情報取得部100が、音声合成手段14から音声合成情報を取得して合成音声記憶部101に記憶する。このとき、合成音声情報取得部100内の様式スコア生成部100aが、音声合成情報それぞれに添付された発音様式スコアと韻律様式スコアとを、例えば、足し合わせて様式スコアとし、音声合成情報内の合成音声と組にして合成音声記憶部101に記憶する。
ここで、発音様式スコアと韻律様式スコアとを単純に足し合わせて様式スコアにするのでは無く、それぞれに重み付けをして発話様式にそれぞれが反映される影響度を調整するようにしても良い。例えば、発話様式スコアの方が、発話様式に反映される度合いが大きければ、例えば発話様式スコアを0.8倍し、韻律様式スコアを0.2倍に重み付けして足し合わせる。
[Synthetic voice selection means]
An example of the structure of the synthesized speech selecting means 16 is shown in FIG. The synthesized speech
Here, instead of simply adding the pronunciation style score and the prosodic style score to form a style score, the degree of influence reflected in the speech style may be adjusted by weighting each. For example, if the utterance style score has a higher degree of reflection in the utterance style, for example, the utterance style score is multiplied by 0.8 and the prosodic style score is weighted by 0.2 and added.
合成音声選択部102は、合成音声記憶部101に記憶された合成音声情報の中から、品質スコアが、レジスタ102aに保持された閾値γを超え、且つ、様式スコアの最も高い合成音声を選択して出力する。閾値γを超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。
合成音声選択部102の動作フローを図11に示す。まず、合成音声記憶部101内に記憶された合成音声情報の中から、最も様式スコアの高い合成音声情報を選択する(ステップS21)。その選択した合成音声情報の品質スコアが閾値γを上回るか否かが判断される(ステップS22)。選択した合成音声情報の品質スコアが、閾値γを上回る場合(Yes)、合成音声選択部102は、その選択した合成音声情報の合成音声を合成音声として出力する(ステップS25)。
閾値γを下回る場合(No)、次に様式スコアの高い合成音声を選択(ステップS24)し、ステップS22でその合成音声の品質スコアが閾値γを上回るか否かが判断され、閾値γを超えていればその合成音声を出力する(ステップS25)。
The synthesized
The operation flow of the synthesized
If it is below the threshold value γ (No), the synthesized speech with the next highest style score is selected (step S24), and it is judged whether or not the quality score of the synthesized speech exceeds the threshold value γ in step S22. If so, the synthesized speech is output (step S25).
以上の動作を、合成音声選択部102は、様式スコアの低い方向に検索を繰り返し、ステップS23において、合成音声記憶部101内の全ての合成音声情報を調べたか否かを判断する(ステップS23)。全ての合成音声情報を調べていれば(Yes)、その中から最も品質スコアの高い合成音声情報の合成音声を合成音声として出力する(ステップS26)。
つまり、様式スコアが最も高い合成音声情報の品質スコアが、閾値γを上回る場合は、その合成音声を出力とし、そうでない場合は、次に様式スコアの高い合成音声を選択し、その品質スコアが閾値γを超えていればその合成音声を出力とする。この動作を繰り返し行い、品質スコアが閾値γを超える合成音声が無い場合は、品質スコアの最も高い合成音声が出力される。
一例として説明して来た各スコアの値を整理する。合成音声1aと1bの様式スコアは、合成音声1aOが1.33、1bOが0.83である。これは、合成音声1aOと1bOの発話様式スコアが共に0.33(図5を参照)で、合成音声1aOの韻律様式スコア1aRSが1.0(図8を参照)、合成音声1bOの韻律様式スコア1bRSが0.5であることによる。
合成音声2aOと2bOの様式スコアは、合成音声2aOが1.0、2bOが0.5である。これは、合成音声2aOと2bOの発音様式スコアが共に0.0で、合成音声2aOの韻律様式スコア2aRSが1.0、合成音声2bOの韻律様式スコア2bRSが0.5であることによる。
各合成音声1aO〜2bOの品質スコアは、上記したように韻律情報1aRに合致する音素片が無い合成音声1aOの品質スコアが0.7で最も低く、他の合成音声1bOと2aOと2bOの品質スコアは0.95である。
The synthesized
In other words, if the quality score of the synthesized speech information with the highest style score exceeds the threshold γ, the synthesized speech is output, and if not, the synthesized speech with the next highest style score is selected, and the quality score is If the threshold value γ is exceeded, the synthesized speech is output. This operation is repeated, and if there is no synthesized speech whose quality score exceeds the threshold value γ, the synthesized speech with the highest quality score is output.
The score values described as an example are organized. Style score synthesized speech 1a and 1b are synthesized speech 1a O is 1.33,1B O is 0.83. This is because the speech style scores of the synthesized speech 1a O and 1b O are both 0.33 (see FIG. 5), the prosodic style score 1a RS of the synthesized speech 1a O is 1.0 (see FIG. 8), and the synthesized speech prosodic style score 1b RS of 1b O is due to be a 0.5.
Style score synthesized speech 2a O and 2b O are synthesized speech 2a O is 1.0,2B O is 0.5. This is because the pronunciation style scores of the synthesized speech 2a O and 2b O are both 0.0, the prosodic style score 2a RS of the synthesized speech 2a O is 1.0, and the prosodic style score 2b RS of the synthesized speech 2b O is 0.5. Because it is.
Quality score for each synthesized speech 1a O ~2b O is the Quality Score prosodic information 1a R into synthetic speech 1a O phoneme is no match as the lowest 0.7, and other synthetic speech 1b O quality score of 2a O and 2b O is 0.95.
この状況で、閾値γを例えば、0.8とすると、最も様式スコアの高い合成音声は、合成音声1aOと判定される。しかし、合成音声1aOは、その品質スコア1aQSが0.7であるので、合成音声選択部102において、品質が基準を満たさないと判定され、合成音声出力として選択されない。
その次に様式スコアの高い合成音声は、様式スコアが1.0の合成音声2aOであり、この品質スコア2aQSは閾値γを上回る0.95である。従って、合成音声2aOが選択されて出力される。
上記したような例の場合、従来の技術では、1個の発音情報と1個の韻律情報とに基づいて合成された品質スコアの低い合成音声1aOが出力されていた。
それに対して、この実施例1による様式指定型音声合成装置では、複数の発音情報それぞれに対して複数の韻律情報に基づいて生成した複数の合成音声のそれぞれについて品質スコアを計算し、品質スコアと様式スコアの双方を考慮して1個の合成音声を選択するので、品質スコアが致命的に低い合成音声を出力する可能性を低めることができる。
なお、実施例1においては、1個の発音情報に対して複数の韻律情報の合成音声を生成する例で説明を行ったが、複数の発音情報に対して1個の韻律情報を適用して合成音声を生成してもよい。これを簡潔に表現すると、発音情報または/及び韻律情報が異なる複数の合成音声となる。
In this situation, the threshold γ For example, if 0.8, high synthetic speech of most style score, it is determined that the synthetic speech 1a O. However, since the quality score 1a QS of the synthesized speech 1a O is 0.7, the synthesized
High synthesized speech of style score next is a synthetic speech 2a O fashion score 1.0, the Quality Score 2a QS is 0.95 above the threshold gamma. Accordingly, the synthesized speech 2a O is selected and output.
In the case of the above-described example, in the conventional technique, the synthesized speech 1a O having a low quality score synthesized based on one pronunciation information and one prosodic information has been output.
On the other hand, the style designation type speech synthesizer according to the first embodiment calculates a quality score for each of a plurality of synthesized speech generated based on a plurality of prosodic information for each of a plurality of pronunciation information, Since one synthesized speech is selected in consideration of both the style score, the possibility of outputting synthesized speech with a fatally low quality score can be reduced.
In the first embodiment, an example of generating synthesized speech of a plurality of prosodic information for one piece of pronunciation information has been described. However, one piece of prosodic information is applied to a plurality of pieces of pronunciation information. Synthetic speech may be generated. If this is simply expressed, it becomes a plurality of synthesized speeches with different pronunciation information and / or prosodic information.
また、この発明によれば、合成音声の品質と、所望の発話様式のどちらを重視するかを、合成音声選択手段16で用いる閾値γの値で操作することができる。所望の発話様式にできるだけ近い合成音声を得るか、発話様式はあまり反映されなくても品質劣化を避けたいかの判断は、音声合成を用いるアプリケーションに強く依存する。この発明によれば、閾値γを高めに設定すれば低い品質の合成音声が出力することを避けることができ、また、閾値γを低めに設定すれば、多少品質が低くとも所望の発話様式を強く反映した合成音声が得られる。したがって、この発明の様式指定型音声合成装置は、アプリケーションの要求に応じて容易に挙動を変更することが出来る。
上記した様式指定型音声合成方法を整理する。図12に様式指定型音声合成方法の動作フローを示して説明する。まず始めに、発音情報生成過程120において、発音情報生成手段10は、入力されるテキストαと発話様式情報βに基づいて1つ以上の発音情報と上記発音情報それぞれに対応しテキストで表現される内容以外の音声に変化を与える要因を表す発音様式スコアとを生成する。
次に韻律情報生成過程121において、韻律情報生成手段12は、発音情報生成手段からの複数の発音情報と複数の発音様式スコアとが入力され、発音情報のそれぞれについて1つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアとを生成する。
次に音声合成過程122において、音声合成手段14は、韻律情報生成手段12からの発音情報と発音様式スコアと、韻律情報と韻律様式スコアとが入力され、発音情報それぞれについてそれぞれの韻律情報に従った複数の合成音声を生成する。
次に合成音声選択過程123において、発音様式スコアと、韻律様式スコアと、品質スコアとを入力とし、品質スコアが閾値γを超える上記合成音声の中から発音様式スコアと韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する。
Further, according to the present invention, it is possible to operate with the value of the threshold value γ used in the synthesized speech selection means 16, which of the synthesized speech quality and the desired utterance style is emphasized. The determination of whether to obtain synthesized speech as close as possible to the desired utterance style or whether to avoid quality degradation even if the utterance style is not significantly reflected depends strongly on the application using speech synthesis. According to the present invention, if the threshold value γ is set high, it is possible to avoid the output of low-quality synthesized speech, and if the threshold value γ is set low, the desired utterance pattern can be selected even if the quality is somewhat low. Strongly reflected synthesized speech can be obtained. Therefore, the style designation type speech synthesizer of the present invention can easily change the behavior according to the request of the application.
Organize the above style-designated speech synthesis methods. FIG. 12 shows the operation flow of the style designation type speech synthesis method. First, in the pronunciation
Next, in the prosody
Next, in the
Next, in the synthesized
以上の実施例1の他、この発明である各手段と装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、実施例1で示した発音情報に韻律情報を付与する方法以外の方法として、韻律DB62内には発話様式情報に対する上限下限の2水準を用意し、その2水準の間の韻律情報を韻律生成部61が計算して求める方法も考えられる。
また、上記各手段と装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記各手段と装置及び方法における処理機能をコンピュータによって実現する場合、様式指定型音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記様式指定型音声合成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記録しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記憶媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記憶したDVD、CD−ROM等の可搬型記憶媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
In addition to the first embodiment, each means, apparatus, and method according to the present invention are not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. For example, as a method other than the method of adding prosodic information to the pronunciation information shown in the first embodiment, two levels of upper and lower limits for utterance style information are prepared in the prosodic DB 62, and prosodic information between the two levels is prosodic. A method in which the
In addition, the processes described in the above means, devices, and methods are not only executed in time series in the order described, but also executed in parallel or individually as required by the processing capability of the device that executes the processing. It may be.
In addition, when the processing functions in the above means, devices, and methods are realized by a computer, the processing contents of the functions that the form-designating speech synthesizer should have are described by a program. Then, by executing this program on a computer, the processing functions in the style-designated speech synthesizer are realized on the computer.
The program describing the processing contents can be recorded on a computer-readable storage medium. The computer-readable storage medium may be any medium such as a magnetic storage device, an optical disk, a magneto-optical storage medium, and a semiconductor memory. Specifically, for example, as a magnetic storage device, a hard disk device, a flexible disk, a magnetic tape, etc., and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical storage media, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
The program is distributed by selling, transferring, or lending a portable storage medium such as a DVD or CD-ROM storing the program, for example. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
A computer that executes such a program first stores, for example, a program recorded on a portable storage medium or a program transferred from a server computer in its own storage device. When executing the process, this computer reads a program stored in its own storage medium and executes a process according to the read program. As another execution form of the program, the computer may read the program directly from the portable storage medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
In this embodiment, each apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (8)
上記発話様式情報と、上記発音情報生成手段からの上記発音情報とを入力として、上記発音情報のそれぞれについて1つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアと、を生成出力する韻律情報生成手段と、
上記発音情報生成手段からの上記発音情報と、上記韻律情報生成手段からの韻律情報とを入力として、上記発音情報または/及び韻律情報が異なる複数の合成音声と、それぞれの合成音声信号の品質の程度を表す品質スコアを生成出力する音声合成手段と、
上記音声合成手段から上記合成音声と上記品質スコアとが入力され、上記合成音声の中から、上記品質スコアが閾値を超え、且つ、上記発音様式スコアと上記韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択して出力し、上記閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択して出力する合成音声選択手段と、
を具備する様式指定型音声合成装置。 The text and utterance style information that is a factor that changes the voice other than the contents expressed in the text are input, and one or more pronunciation information and the utterance style are reflected corresponding to each of the pronunciation information. A pronunciation information generation means for generating and outputting a pronunciation style score representing a degree;
Using the utterance style information and the pronunciation information from the pronunciation information generating means as inputs, one or more prosodic information for each of the pronunciation information and a prosody representing the degree of reflection of the utterance style for each of the prosodic information Prosody information generating means for generating and outputting a style score;
Using the pronunciation information from the pronunciation information generation means and the prosody information from the prosody information generation means as inputs, a plurality of synthesized speech with different pronunciation information or / and prosody information, and the quality of each synthesized speech signal Speech synthesis means for generating and outputting a quality score representing the degree;
The synthesized speech and the quality score are input from the speech synthesizer, and the quality score exceeds the threshold value among the synthesized speech, and the style score based on the pronunciation style score and the prosodic style score is the highest. Selecting and outputting a high synthesized speech, and if there is no synthesized speech with a quality score exceeding the above threshold, synthesized speech selecting means for selecting and outputting the synthesized speech with the highest quality score;
A style designation type speech synthesizer.
上記韻律情報生成手段における上記韻律情報の生成は、上記発話様式情報の発話様式を数段階の割合で強調した韻律データベースを参照して生成することを特徴とする様式指定型音声合成装置。 The form-designated speech synthesizer according to claim 1,
The prosody information is generated by referring to a prosodic database in which the utterance style of the utterance style information is emphasized at a ratio of several stages.
上記様式スコアを、上記発音様式スコアと上記韻律様式スコアの重み付け和として求める様式スコア生成部を備えることを特徴とする様式指定型音声合成装置。 In the style designation type speech synthesizer according to claim 1 or 2,
A style specification type speech synthesizer comprising: a style score generation unit that obtains the style score as a weighted sum of the pronunciation style score and the prosodic style score.
上記発音情報生成手段における上記発音様式スコアは、発話様式に依存して異なる発音を記録した様式依存辞書から、その発音を適用した単語の数の度合いを生成し、
上記韻律情報生成手段における上記韻律様式スコアは、上記発話様式情報の発話様式の強調割合を生成したものであることを特徴とする様式指定型音声合成装置。 In the style designation type speech synthesizer according to any one of claims 1 to 3,
The pronunciation style score in the pronunciation information generating means generates a degree of the number of words to which the pronunciation is applied from a style-dependent dictionary that records different pronunciations depending on the utterance style,
The style designation type speech synthesizer according to claim 1, wherein the prosodic style score in the prosodic information generation means is generated by generating an emphasis ratio of the utterance style of the utterance style information.
上記閾値は、外部から設定可能であることを特徴とする様式指定型音声合成装置。 The form-designated speech synthesizer according to any one of claims 1 to 4,
The style designation type speech synthesizer characterized in that the threshold value can be set from the outside.
韻律情報生成手段が、上記発話様式情報と、上記発音情報とから、上記発音情報のそれぞれについて1つ以上の韻律情報と、その韻律情報それぞれについて上記発話様式の反映の度合いを表す韻律様式スコアとを生成する韻律情報生成過程と、
音声合成手段が、上記発音情報と上記韻律情報とから、上記発話情報または/及び韻律情報が異なる複数の合成音声信号を生成し、かつその合成音声信号の品質の程度を表す品質スコアを生成する音声合成過程と、
合成音声選択手段が、上記合成音声中から、上記品質スコアが閾値を超え、かつ発音様式スコアと上記韻律様式スコアに基づいた様式スコアの最も高い合成音声を選択し、閾値を超える品質スコアの合成音声が無い場合は、最も品質スコアの高い合成音声を選択する合成音声選択過程と、
を有する様式指定型音声合成方法。 The pronunciation information generating means generates one or more pronunciation information and pronunciation corresponding to each of the pronunciation information and the degree of reflection of the utterance style with respect to the utterance style information which is a factor that changes the input text and voice Pronunciation information generation process for generating a style score;
The prosodic information generating means includes, from the utterance style information and the pronunciation information, one or more prosodic information for each of the pronunciation information, and a prosodic style score representing the degree of reflection of the utterance style for each of the prosodic information; Prosody information generation process to generate
Speech synthesis means generates a plurality of synthesized speech signals having different utterance information and / or prosodic information from the pronunciation information and the prosody information, and generates a quality score representing the degree of quality of the synthesized speech signal. The speech synthesis process,
The synthesized speech selection means selects the synthesized speech having the highest quality score based on the pronunciation style score and the prosodic style score from the synthesized speech, and synthesizes the quality score exceeding the threshold. If there is no speech, the synthesized speech selection process that selects the synthesized speech with the highest quality score,
A style-designated speech synthesis method having
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006189291A JP4648878B2 (en) | 2006-07-10 | 2006-07-10 | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006189291A JP4648878B2 (en) | 2006-07-10 | 2006-07-10 | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008015424A JP2008015424A (en) | 2008-01-24 |
JP4648878B2 true JP4648878B2 (en) | 2011-03-09 |
Family
ID=39072471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006189291A Expired - Fee Related JP4648878B2 (en) | 2006-07-10 | 2006-07-10 | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4648878B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5177135B2 (en) * | 2007-05-08 | 2013-04-03 | 日本電気株式会社 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
JP2010039289A (en) * | 2008-08-06 | 2010-02-18 | Toshiba Corp | Mobile electronic device |
WO2010050103A1 (en) * | 2008-10-28 | 2010-05-06 | 日本電気株式会社 | Voice synthesis device |
JP5301376B2 (en) * | 2009-07-03 | 2013-09-25 | 日本放送協会 | Speech synthesis apparatus and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335096A (en) * | 1995-06-07 | 1996-12-17 | Oki Electric Ind Co Ltd | Text voice synthesizer |
JPH10222187A (en) * | 1996-12-04 | 1998-08-21 | Just Syst Corp | Device and method for preparing speech text and computer-readable recording medium with program stored for executing its preparation process |
JP2004294577A (en) * | 2003-03-26 | 2004-10-21 | Fujitsu Ltd | Method of converting character information into speech |
-
2006
- 2006-07-10 JP JP2006189291A patent/JP4648878B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08335096A (en) * | 1995-06-07 | 1996-12-17 | Oki Electric Ind Co Ltd | Text voice synthesizer |
JPH10222187A (en) * | 1996-12-04 | 1998-08-21 | Just Syst Corp | Device and method for preparing speech text and computer-readable recording medium with program stored for executing its preparation process |
JP2004294577A (en) * | 2003-03-26 | 2004-10-21 | Fujitsu Ltd | Method of converting character information into speech |
Also Published As
Publication number | Publication date |
---|---|
JP2008015424A (en) | 2008-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
EP2140447B1 (en) | System and method for hybrid speech synthesis | |
US7124083B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
US7979274B2 (en) | Method and system for preventing speech comprehension by interactive voice response systems | |
JP4241762B2 (en) | Speech synthesizer, method thereof, and program | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
US20150228271A1 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product | |
JP2002530703A (en) | Speech synthesis using concatenation of speech waveforms | |
JP5148026B1 (en) | Speech synthesis apparatus and speech synthesis method | |
JP4586615B2 (en) | Speech synthesis apparatus, speech synthesis method, and computer program | |
JP2008249808A (en) | Speech synthesizer, speech synthesizing method and program | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP4648878B2 (en) | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof | |
JP4829605B2 (en) | Speech synthesis apparatus and speech synthesis program | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
JP2009122381A (en) | Speech synthesis method, speech synthesis device, and program | |
JP6523423B2 (en) | Speech synthesizer, speech synthesis method and program | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JP2001034284A (en) | Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JP3892691B2 (en) | Speech synthesis method and apparatus, and speech synthesis program | |
JP2006084854A (en) | Device, method, and program for speech synthesis | |
JPH1097268A (en) | Speech synthesizing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101130 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |