JP2001242882A - Method and device for voice synthesis - Google Patents

Method and device for voice synthesis

Info

Publication number
JP2001242882A
JP2001242882A JP2000053822A JP2000053822A JP2001242882A JP 2001242882 A JP2001242882 A JP 2001242882A JP 2000053822 A JP2000053822 A JP 2000053822A JP 2000053822 A JP2000053822 A JP 2000053822A JP 2001242882 A JP2001242882 A JP 2001242882A
Authority
JP
Japan
Prior art keywords
prosody
parameters
information
parameter
accordance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000053822A
Other languages
Japanese (ja)
Other versions
JP3513071B2 (en
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Shigenobu Seto
重宣 瀬戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000053822A priority Critical patent/JP3513071B2/en
Publication of JP2001242882A publication Critical patent/JP2001242882A/en
Application granted granted Critical
Publication of JP3513071B2 publication Critical patent/JP3513071B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a voice synthesizer which is capable of generating synthesized voice having a variety of prosodical characteristics by text voice synthesis. SOLUTION: A text analysis section 10 conducts a morpheme analysis and a sentence structure analysis for an input text 102 to generate language information 104 (for example, necessary information required for the generation of synthesis parameters such as information on voice symbol trains corresponding to the reading of an input text and on an accent phrase that becomes the unit of cadence control, location o f accents and parts of speech). A synthesis parameter generating section 20 refers to a plurality of cadence control dictionaries 24 to 26 in accordance with the information 104 and generates respectively corresponding synthesis parameters 204 to 206. A synthesis parameter interpolation section 22 conducts interpolation process for cadence parameters of the plural synthesis parameters 204 to 206 in accordance with weighting information 201 to generate synthesis parameters 207. A voice synthesis section 13 generates voice information 108 in accordance with the phoneme information and the cadence information specified by the parameters 207.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、テキスト音声合成
のための音声合成方法及び音声合成装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech synthesis method and a speech synthesis apparatus for text speech synthesis.

【0002】[0002]

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。通常、テキスト合
成システムは、テキスト解析、合成パラメータ生成、音
声合成の3つの段階から構成される。
2. Description of the Related Art Creating a speech signal artificially from an arbitrary sentence is called text-to-speech synthesis. Usually, a text synthesis system is composed of three stages: text analysis, synthesis parameter generation, and speech synthesis.

【0003】図10に、従来の一般的な音声合成装置の
構成例を示す。図10に示されるように、従来の一般的
なテキスト合成システムは、通常、テキスト解析部10
10、合成パラメータ生成部1001、音声合成部10
13、韻律制御辞書1002から構成される。入力され
たテキスト1102は、まず、テキスト解析部1010
において形態素解析や構文解析などが行われ、言語情報
1104が出力される。言語情報1104は、テキスト
1102の読みに対応する音声記号列や、韻律制御の単
位となるアクセント句の情報、アクセントの位置、品詞
など、合成パラメータの生成に必要な様々な情報を含ん
でいる。次に、合成パラメータ生成部1001は、言語
情報104に基づき、韻律制御辞書1002を参照して
韻律制御を行い、合成パラメータ1100を生成する。
合成パラメータ1100は、基本周波数・音韻継続時間
・パワーなどの韻律パラメータと音素記号列などの音韻
パラメータとから構成される。そして、音声合成部10
13は、合成パラメータ1100で指定された音韻情報
や韻律情報に従って音声情報1108を生成する。
FIG. 10 shows a configuration example of a conventional general speech synthesizer. As shown in FIG. 10, a conventional general text synthesizing system generally includes a text analysis unit 10.
10, synthesis parameter generation unit 1001, speech synthesis unit 10
13, a prosody control dictionary 1002. First, the input text 1102 is input to a text analysis unit 1010.
Performs morphological analysis, syntax analysis, and the like, and outputs language information 1104. The linguistic information 1104 includes various information necessary for generating a synthesis parameter, such as a phonetic symbol string corresponding to the reading of the text 1102, information on accent phrases that are units of prosody control, accent positions, parts of speech, and the like. Next, the synthesis parameter generation unit 1001 performs prosody control with reference to the prosody control dictionary 1002 based on the language information 104, and generates the synthesis parameter 1100.
The synthesis parameters 1100 are composed of prosodic parameters such as fundamental frequency, phoneme duration and power, and phoneme parameters such as phoneme symbol strings. Then, the voice synthesizer 10
Reference numeral 13 generates audio information 1108 according to the phonemic information or prosodic information specified by the synthesis parameter 1100.

【0004】このような合成システムでは、人間が文章
を読み上げるときのような調子(いわゆる朗読調)の音
声を合成することが普通であったが、近年、発話スタイ
ルを制御して多様な合成音を生成する方法が提案されて
いる。例えば、特開平10−11083号公報では、基
準発話スタイル(朗読調など)を含む複数の発話スタイ
ルの韻律制御辞書を用いて合成音声の発話スタイルを制
御する方法が開示されている。図11に、この従来の音
声合成装置の構成を示す。
In such a synthesizing system, it is common to synthesize a voice having a tone (so-called reading tone) as when a human reads out a sentence. In recent years, however, various utterance styles have been controlled by controlling the utterance style. Have been proposed. For example, Japanese Patent Laying-Open No. 10-11083 discloses a method of controlling a speech style of a synthesized speech using a prosody control dictionary of a plurality of speech styles including a reference speech style (reading tone or the like). FIG. 11 shows the configuration of this conventional speech synthesizer.

【0005】上述した一般的なテキスト合成システムと
の相違は、韻律制御辞書を複数持ち(図11では201
4,2015の2つ)、発話スタイル指定情報2103
に基づいて選択された韻律制御辞書(例えば2015)
と基準発話スタイル韻律制御辞書2016とを用いてそ
れぞれ合成パラメータ2105および合成パラメータ2
106を生成し、発話スタイル強調部2012において
強調度指定情報2101に従って発話スタイルを補正す
ることにある。複数の韻律制御情報2014,2015
は、基準発話スタイルと異なる発話スタイルの韻律制御
辞書であり、例えば会話調スタイルやアナウンサー調ス
タイルなどがある。発話スタイル強調部2012は、発
話スタイル指定情報2103によって選択された発話ス
タイルの合成パラメータ2105と、基準発話スタイル
の合成パラメータ2106との韻律パラメータの差分を
計算し、強調度指定情報2101と該差分に応じて合成
パラメータ2106の韻律パラメータを補正することに
より、発話スタイルが調整された合成パラメータ210
7を生成する。
The difference from the above-described general text synthesis system is that the system has a plurality of prosody control dictionaries (in FIG.
4, 2015), utterance style designation information 2103
Prosody control dictionary (for example, 2015) selected based on
And the reference utterance style prosody control dictionary 2016, respectively.
106, and the utterance style emphasis unit 2012 corrects the utterance style in accordance with the emphasis degree designation information 2101. Plural prosody control information 2014, 2015
Is a prosodic control dictionary of an utterance style different from the reference utterance style, and includes, for example, a conversation style and an announcer style. The utterance style emphasizing unit 2012 calculates the difference between the prosody parameter of the synthesis parameter 2105 of the utterance style selected by the utterance style specification information 2103 and the synthesis parameter 2106 of the reference utterance style, and calculates the emphasis degree specification information 2101 and the difference. By correcting the prosodic parameters of the synthesis parameters 2106 in response, the synthesis parameters 210 whose speech style has been adjusted
7 is generated.

【0006】[0006]

【発明が解決しようとする課題】上述したように従来の
音声合成方法では、基準発話スタイルと選択された1つ
の発話スタイルとの中間的な発話スタイルに変更するこ
としかできず、また文中では常に一定の発話スタイルと
なり変更の自由度は小さい。さらに、変更できるのは、
発話スタイル(朗読調・会話調・アナウンサー調など)
のみであり、話者の個人性(Aさんの声・Bさんの声な
ど)や感情(怒った声・悲しい声など)の変更は不可能
であるという問題があった。
As described above, in the conventional speech synthesis method, it is only possible to change the utterance style to an intermediate utterance style between the reference utterance style and the selected one utterance style. The utterance style is constant, and the degree of freedom for change is small. In addition, you can change
Speech style (reading style, conversation style, announcer style, etc.)
There is a problem that it is impossible to change the speaker's individuality (voice of A, voice of B, etc.) and emotion (angry voice, sad voice, etc.).

【0007】本発明は、上記事情を考慮してなされたも
ので、テキスト音声合成による合成音の韻律の多様性を
向上させることのできる音声合成方法及び音声合成装置
を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above circumstances, and has as its object to provide a speech synthesis method and a speech synthesis apparatus capable of improving the variety of prosody of synthesized speech by text speech synthesis. .

【0008】[0008]

【課題を解決するための手段】本発明は、複数の韻律制
御辞書を用いてそれぞれ生成された韻律パラメータを任
意の割合で内挿して韻律パラメータを生成することによ
り、多様な韻律の合成音声を生成できるようにしたもの
である。ここで、複数の韻律制御辞書は、発話スタイル
が異なる場合の他、話者の個人性や年齢・性別が異なる
ものであってもよいし、感情が異なるものであってもよ
く、また、これらの組み合わせによる様々な特徴を持っ
たものを用いてもよい。
According to the present invention, a plurality of prosody control dictionaries are used to generate prosody parameters by interpolating the generated prosody parameters at an arbitrary ratio, thereby producing synthesized speech of various prosody. It can be generated. Here, the plurality of prosodic control dictionaries may have different utterance styles, may have different personalities, ages and genders of speakers, or may have different emotions. Those having various characteristics depending on the combination of may be used.

【0009】すなわち、本発明(請求項1)に係る音声
合成方法は、入力された言語情報に従って、複数の韻律
制御辞書を用いてそれぞれ第1の韻律パラメータを生成
し、前記韻律制御辞書毎に指定された重み情報に従っ
て、複数の前記第1の韻律パラメータ間で内挿処理を行
って第2の韻律パラメータを生成し、前記第2の韻律パ
ラメータに従って合成音声を生成することを特徴とす
る。
That is, in the speech synthesis method according to the present invention (claim 1), first prosody parameters are respectively generated using a plurality of prosody control dictionaries in accordance with input linguistic information, and According to the designated weight information, interpolation processing is performed between the plurality of first prosody parameters to generate second prosody parameters, and a synthesized speech is generated according to the second prosody parameters.

【0010】ここで、言語情報とは、テキストの読みに
対応する音節記号列や、韻律制御の単位となるアクセン
ト句の情報、アクセントの位置、品詞、かかり受け、な
どのテキストを解析することによって得られる情報と、
平均的な発生速度や声の大きさなどを指定する付加情報
から構成されるものである。
Here, the linguistic information is obtained by analyzing text such as syllable symbol strings corresponding to reading of text, information on accent phrases which are units of prosodic control, accent positions, parts of speech, hanging parts, and the like. The information obtained,
It is composed of additional information that specifies an average generation speed, a loudness of a voice, and the like.

【0011】ここで、韻律制御辞書とは、合成音声の基
本周波数・音韻継続時間長・パワー・ポーズなどの韻律
を制御するために参照するものであり、例えば、基本周
波数の典型的な変化パターンや、アクセント成分・音韻
継続時間長・パワー・ポーズ長などの制御量の統計的な
モデルのパラメータ、あるいは決定木で表現されるルー
ルなどが考えられる。
Here, the prosody control dictionary refers to a prosody such as a fundamental frequency, a phoneme duration, a power, and a pause of a synthesized speech. For example, a typical variation pattern of the fundamental frequency is used. And parameters of a statistical model of a control amount such as an accent component, a phonological duration, a power, and a pause, or a rule represented by a decision tree.

【0012】ここで、韻律パラメータとは、基本周波数
・音韻継続時間長・パワー・ポーズなどの合成音声の韻
律を特徴付けるパラメータの集合である。
Here, the prosody parameter is a set of parameters that characterize the prosody of the synthesized speech, such as fundamental frequency, phoneme duration, power, and pause.

【0013】ここで、韻律パラメータ間の内挿処理と
は、複数の韻律パラメータ間で加重平均などの処理によ
って前記複数の韻律パラメータの中間的な韻律パラメー
タを生成する処理である。ただし、ここで言う内挿処理
には、重みが負になるような、いわゆる外挿処理も含ま
れるものとし、この場合、生成された韻律パラメータ
は、前記複数の韻律パラメータの中間的なものとはなら
ず、いずれかの韻律パラメータの特徴をより強調したよ
うなものとなることもありうる。また、この内挿処理
は、全ての韻律パラメータに対して行ってもよいし、一
部のパラメータ、例えば基本周波数のみに対して行って
もよい。また、例えば基本周波数と音韻継続時間長では
内挿の際の重みが異なるようにしてもよい。
Here, the interpolation between the prosody parameters is a process of generating an intermediate prosody parameter of the plurality of prosody parameters by a process such as weighted averaging between the plurality of prosody parameters. However, the interpolation process referred to here includes a so-called extrapolation process in which the weight is negative. In this case, the generated prosody parameter is an intermediate value between the plurality of prosody parameters. However, it may be that the characteristics of any of the prosodic parameters are more emphasized. Further, this interpolation processing may be performed for all prosodic parameters, or may be performed for some parameters, for example, only the fundamental frequency. Further, for example, the weight at the time of interpolation may be different between the fundamental frequency and the phoneme duration.

【0014】また、好ましくは、前記重み情報が文中で
変化するようにしてもよい。
Preferably, the weight information may be changed in a sentence.

【0015】また、本発明(請求項3)に係る音声合成
方法は、複数の第1の韻律制御辞書間で内挿処理を行っ
て第2の韻律制御辞書を生成し、入力された言語情報に
従って、前記第2の韻律制御辞書を用いて韻律パラメー
タを生成し、前記韻律パラメータに従って合成音声を生
成することを特徴とする。
Further, in the speech synthesis method according to the present invention (claim 3), a second prosody control dictionary is generated by performing interpolation between a plurality of first prosody control dictionaries, and the inputted linguistic information , A prosody parameter is generated using the second prosody control dictionary, and a synthesized speech is generated according to the prosody parameter.

【0016】ここで、韻律辞書間の内挿処理とは、複数
の韻律制御辞書内の対応する情報の間で、加重平均など
の処理によって前記複数の韻律制御辞書の中間的な特性
を持つ音韻制御辞書を生成する処理である。ただし、上
述した韻律パラメータの内挿と同様に、ここで言う内挿
処理には、重みが負になるような、いわゆる外挿処理も
含まれるものとし、この場合、生成された韻律制御辞書
の特性は、前記複数の韻律制御辞書の中間的なものとは
ならず、いずれかの韻律制御辞書の特性をより強調した
ようなものとなることもありうる。また、この内挿処理
は、韻律制御辞書全体に対して行ってもよいし、一部分
だけ、例えば基本周波数制御に関する部分のみに対して
行ってもよい。また、例えば基本周波数に関する部分の
内挿のための重みと音韻継続時間長制御に関する部分の
内挿のための重みが異なるようにしてもよい。
Here, the interpolating process between the prosodic dictionaries means a phoneme having an intermediate characteristic of the plurality of prosodic control dictionaries by processing such as weighted averaging between corresponding information in the plurality of prosodic control dictionaries. This is a process for generating a control dictionary. However, similar to the above-described interpolation of the prosodic parameters, the interpolation processing here includes a so-called extrapolation processing in which the weight becomes negative. In this case, the generated prosody control dictionary The characteristics may not be intermediate between the plurality of prosody control dictionaries, but may be such that the characteristics of any of the prosody control dictionaries are more emphasized. Further, this interpolation processing may be performed on the entire prosody control dictionary, or may be performed only on a part, for example, only a part related to the fundamental frequency control. Also, for example, the weight for interpolation of the part related to the fundamental frequency and the weight for interpolation of the part related to phoneme duration control may be different.

【0017】また、本発明(請求項4)に係る音声合成
方法は、複数の第1の韻律制御辞書間で内挿処理を行う
ことによって生成される第2の韻律制御辞書を用いて、
入力された言語情報に従って韻律パラメータを生成し、
前記韻律パラメータに従って合成音声を生成することを
特徴とする。
Further, the speech synthesis method according to the present invention (claim 4) uses a second prosody control dictionary generated by performing interpolation between a plurality of first prosody control dictionaries.
Generate prosodic parameters according to the input linguistic information,
A synthesized speech is generated according to the prosodic parameter.

【0018】また、好ましくは、前記韻律制御辞書は典
型的な基本周波数の変化パターンを表す代表パターン、
もしくはこれと同等の情報を有するもの、例えば典型的
なピッチ周期の変化パターンなどを含むようにしてもよ
い。
Preferably, said prosody control dictionary is a representative pattern representing a typical fundamental frequency change pattern;
Alternatively, a pattern having equivalent information, for example, a typical pitch cycle change pattern may be included.

【0019】また、本発明(請求項6)に係る音声合成
装置は、入力された言語情報に従って、複数の韻律制御
辞書を用いてそれぞれ第1の韻律パラメータを生成する
手段と、前記韻律制御辞書毎に指定された重み情報に従
って、複数の前記第1の韻律パラメータ間で内挿処理を
行って第2の韻律パラメータを生成する手段と、前記第
2の韻律パラメータに従って合成音声を生成する手段と
を備えたことを特徴とする。
The speech synthesis apparatus according to the present invention (claim 6) includes means for generating first prosody parameters using a plurality of prosody control dictionaries in accordance with input linguistic information, and the prosody control dictionary. Means for performing interpolation between the plurality of first prosody parameters to generate second prosody parameters according to the weight information designated for each, and means for generating synthesized speech in accordance with the second prosody parameters. It is characterized by having.

【0020】また、本発明(請求項7)に係る音声合成
装置は、複数の第1の韻律制御辞書間で内挿処理を行っ
て第2の韻律制御辞書を生成する手段と、入力された言
語情報に従って、前記第2の韻律制御辞書を用いて韻律
パラメータを生成する手段と、前記韻律パラメータに従
って合成音声を生成する手段とを備えたことを特徴とす
る。
Further, the voice synthesizing apparatus according to the present invention (claim 7) performs an interpolation process between a plurality of first prosody control dictionaries to generate a second prosody control dictionary, and the input means. A means for generating a prosody parameter using the second prosody control dictionary in accordance with the linguistic information, and means for generating a synthesized speech in accordance with the prosody parameter.

【0021】また、本発明に係る韻律制御辞書作成方法
は、複数の韻律制御辞書毎に指定された重み情報を入力
し、入力された前記重み情報に従って、複数の第1の韻
律制御辞書間で内挿処理を行って第2の韻律制御辞書を
生成することを特徴とする。
Further, in the method for creating a prosody control dictionary according to the present invention, weight information designated for each of the plurality of prosody control dictionaries is input, and the plurality of first prosody control dictionaries are input according to the input weight information. A second prosody control dictionary is generated by performing an interpolation process.

【0022】また、本発明に係る韻律制御辞書作成装置
は、複数の韻律制御辞書毎に指定された重み情報を入力
する手段と、入力された前記重み情報に従って、複数の
第1の韻律制御辞書間で内挿処理を行って第2の韻律制
御辞書を生成する手段とを備えたことを特徴とする。
Further, the prosody control dictionary creation device according to the present invention includes a means for inputting weight information designated for each of the plurality of prosody control dictionaries, and a plurality of first prosody control dictionaries in accordance with the input weight information. Means for generating a second prosody control dictionary by performing an interpolation process between them.

【0023】また、本発明(請求項10)は、入力され
た言語情報に従って、複数の韻律制御辞書を用いてそれ
ぞれ第1の韻律パラメータを生成させ、前記韻律制御辞
書毎に指定された重み情報に従って、複数の前記第1の
韻律パラメータ間で内挿処理を行って第2の韻律パラメ
ータを生成させ、前記第2の韻律パラメータに従って合
成音声を生成させるためのプログラムを記録したコンピ
ュータ読取り可能な記録媒体である。
Further, according to the present invention (claim 10), a first prosody parameter is generated using a plurality of prosody control dictionaries in accordance with input linguistic information, and weight information designated for each of the prosody control dictionaries is generated. Computer-readable recording on which is recorded a program for generating a second prosody parameter by performing an interpolation process between the plurality of first prosody parameters according to the following. Medium.

【0024】また、本発明(請求項11)は、複数の第
1の韻律制御辞書間で内挿処理を行って第2の韻律制御
辞書を生成させ、入力された言語情報に従って、前記第
2の韻律制御辞書を用いて韻律パラメータを生成させ、
前記韻律パラメータに従って合成音声を生成させるため
のプログラムを記録したコンピュータ読取り可能な記録
媒体である。
Further, according to the present invention (claim 11), a second prosody control dictionary is generated by performing an interpolation process among a plurality of first prosody control dictionaries, and the second prosody control dictionary is generated in accordance with input language information. Prosody parameters are generated using the prosody control dictionary of
A computer-readable recording medium on which a program for generating a synthesized speech according to the prosodic parameter is recorded.

【0025】なお、装置に係る本発明は方法に係る発明
としても成立し、方法に係る本発明は装置に係る発明と
しても成立する。
Note that the present invention relating to the apparatus is also realized as an invention relating to a method, and the present invention relating to a method is also realized as an invention relating to an apparatus.

【0026】また、装置または方法に係る本発明は、コ
ンピュータに当該発明に相当する手順を実行させるため
の(あるいはコンピュータを当該発明に相当する手段と
して機能させるための、あるいはコンピュータに当該発
明に相当する機能を実現させるための)プログラムを記
録したコンピュータ読取り可能な記録媒体としても成立
する。
The present invention relating to an apparatus or a method is provided for causing a computer to execute a procedure corresponding to the present invention (or for causing a computer to function as means corresponding to the present invention, or for causing a computer to correspond to the present invention). The present invention is also realized as a computer-readable recording medium in which a program for realizing the function of performing the above is recorded.

【0027】本発明によれば、複数の韻律制御辞書を用
いて生成された韻律パラメータを任意の重みで内挿処理
して韻律パラメータを生成し、その韻律パラメータを用
いて音声合成を行うことで、多種多様な韻律的特徴を持
つ合成音声を生成することができる。
According to the present invention, a prosody parameter is generated by interpolating a prosody parameter generated using a plurality of prosody control dictionaries with an arbitrary weight, and speech synthesis is performed using the prosody parameter. , It is possible to generate synthetic speech having various prosodic features.

【0028】また、本発明によれば、予め複数の韻律制
御辞書に内挿処理を行って韻律制御辞書を生成し、その
韻律制御辞書を用いて音声合成を行うことによって、計
算量を増加させることなく多種多様な韻律的特徴を持つ
合成音声を生成することができる。
According to the present invention, a plurality of prosody control dictionaries are interpolated in advance to generate a prosody control dictionary, and speech synthesis is performed using the prosody control dictionary, thereby increasing the amount of calculation. It is possible to generate synthesized speech having a variety of prosodic features without any problem.

【0029】[0029]

【発明の実施の形態】以下、図面を参照しながら発明の
実施の形態を説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0030】(第1の実施形態)図1は、本発明の第1
の実施形態に係る音声合成方法を実現する音声合成装置
(もしくは音声合成ソフト)の構成例を示すブロック図
である。
(First Embodiment) FIG. 1 shows a first embodiment of the present invention.
It is a block diagram showing the example of composition of the speech synthesis device (or speech synthesis software) which realizes the speech synthesis method concerning an embodiment.

【0031】図1に示されるように、この音声合成装置
は、テキスト解析部10、合成パラメータ生成部20、
合成パラメータ内挿部22、音声合成部13、複数の韻
律制御辞書(図1では24〜26の3つ)を備えてい
る。
As shown in FIG. 1, the speech synthesizer includes a text analysis unit 10, a synthesis parameter generation unit 20,
The apparatus includes a synthesis parameter interpolation unit 22, a speech synthesis unit 13, and a plurality of prosody control dictionaries (three of 24 to 26 in FIG. 1).

【0032】各ユニットの基本的な構成・動作は次のよ
うになる(基本的には、テキスト解析部10、合成パラ
メータ生成部20、合成パラメータ内挿部22、音声合
成部13の順番で処理が行われる)。
The basic configuration and operation of each unit are as follows (basically, processing is performed in the order of the text analysis unit 10, the synthesis parameter generation unit 20, the synthesis parameter interpolation unit 22, and the speech synthesis unit 13). Is done).

【0033】テキスト解析部10は、入力されたテキス
ト102に対して、形態素解析や構文解析などを行い、
言語情報104を生成する。言語情報104は、テキス
ト102の読みに対応する音声記号列や、韻律制御の単
位となるアクセント句の情報、アクセントの位置、品詞
など、合成パラメータの生成に必要な様々な情報を含ん
でいる。
The text analysis unit 10 performs morphological analysis and syntax analysis on the input text 102,
The language information 104 is generated. The linguistic information 104 includes various information necessary for generating a synthesis parameter, such as a phonetic symbol string corresponding to the reading of the text 102, information on accent phrases that are units of prosody control, accent positions, and parts of speech.

【0034】合成パラメータ生成部20は、言語情報1
04に従って、韻律制御辞書24を参照して合成パラメ
ータ204を、韻律制御辞書25を参照して合成パラメ
ータ205を、韻律制御辞書26を参照して合成パラメ
ータ206をそれぞれ生成する。
The synthesizing parameter generation unit 20 outputs the linguistic information 1
In accordance with 04, a synthesis parameter 204 is generated with reference to the prosody control dictionary 24, a synthesis parameter 205 is generated with reference to the prosody control dictionary 25, and a synthesis parameter 206 is generated with reference to the prosody control dictionary 26.

【0035】合成パラメータ内挿部22は、重み情報2
01に従って、合成パラメータ204・合成パラメータ
205・合成パラメータ206の韻律パラメータに内挿
処理を行って、合成パラメータ207を生成する。
The synthesis parameter interpolating unit 22 calculates the weight information 2
In accordance with 01, the prosody parameters of the synthesis parameter 204, the synthesis parameter 205, and the synthesis parameter 206 are interpolated to generate the synthesis parameter 207.

【0036】音声合成部13は、合成パラメータ207
で指定された音韻情報や韻律情報に従って、音声情報1
08を生成する。
The voice synthesizing section 13 has a synthesizing parameter 207
Audio information 1 according to the phonetic information or prosodic information specified in
08 is generated.

【0037】以下では、基本周波数を韻律パラメータの
例として、本実施形態の動作例について詳細に説明す
る。
In the following, an operation example of the present embodiment will be described in detail using a fundamental frequency as an example of a prosody parameter.

【0038】テキスト解析部10により言語情報104
が生成されると、合成パラメータ生成部20では言語情
報104に従って複数の韻律制御辞書を参照して複数の
合成パラメータを生成する。
Language information 104 is output by the text analysis unit 10.
Is generated, the synthesis parameter generation unit 20 generates a plurality of synthesis parameters by referring to a plurality of prosody control dictionaries in accordance with the language information 104.

【0039】図2に、この合成パラメータ生成部20内
における基本周波数を生成する処理を表す機能ブロック
図を示す。なお、図2では、1つの韻律制御辞書につい
て示してある(実際には複数の韻律制御辞書のそれぞれ
に対して図2の処理が行われる)。
FIG. 2 is a functional block diagram showing a process of generating a fundamental frequency in the synthesis parameter generation section 20. FIG. 2 illustrates one prosody control dictionary (actually, the process of FIG. 2 is performed on each of a plurality of prosody control dictionaries).

【0040】基本周波数制御辞書48は、韻律制御辞書
の一部であり、代表パターン辞書45と代表パターン選
択規則46とオフセット生成規則47から構成される。
代表パターン辞書45は、アクセント句単位の典型的な
基本周波数の変化パターンの集合であり、例えば図3で
表されるようなパターンを格納している。代表パターン
選択部41は、言語情報104に従って、代表パターン
選択規則46を参照して、代表パターン辞書より最も適
当と予想される代表パターン401をアクセント句毎に
選択する。オフセット生成部44は、言語情報104に
従って、オフセット生成規則47を参照してアクセント
句毎にアクセント句の平均的な高さを指定するオフセッ
ト404を生成する。オフセット処理部42は、代表パ
ターン辞書45を対数周波数軸上でオフセット404だ
け並行移動させてアクセント毎に基本周波数パターン4
02を生成する。パターン接続部43は、アクセント句
毎の基本周波数パターン402を滑らかに接続して文章
全体の基本周波数パターン403を出力する。テキスト
「ただいまマイクのテスト中です」を例として、代表パ
ターン401,基本周波数パターン402,基本周波数
パターン403を図4(a),(b),(c)にそれぞ
れ示す。
The fundamental frequency control dictionary 48 is a part of the prosody control dictionary, and includes a representative pattern dictionary 45, a representative pattern selection rule 46, and an offset generation rule 47.
The representative pattern dictionary 45 is a set of typical fundamental frequency change patterns in accent phrase units, and stores, for example, patterns as shown in FIG. The representative pattern selection unit 41 selects a representative pattern 401 expected to be most appropriate from the representative pattern dictionary for each accent phrase, with reference to the representative pattern selection rule 46 according to the language information 104. The offset generation unit 44 generates an offset 404 that specifies the average height of the accent phrase for each accent phrase with reference to the offset generation rule 47 according to the language information 104. The offset processing unit 42 moves the representative pattern dictionary 45 in parallel by the offset 404 on the logarithmic frequency axis, and
02 is generated. The pattern connection unit 43 smoothly connects the fundamental frequency patterns 402 for each accent phrase and outputs a fundamental frequency pattern 403 of the entire sentence. 4A, 4B, and 4C show a representative pattern 401, a fundamental frequency pattern 402, and a fundamental frequency pattern 403, respectively, using the text "Microphone is being tested" as an example.

【0041】合成パラメータ生成部20は、上述した基
本周波数パターン生成の処理を、複数の韻律制御辞書2
4・25・26を参照してそれぞれ行って基本周波数パ
ターンを生成し、合成パラメータ204・205・20
6をそれぞれ出力する。
The synthesis parameter generation unit 20 performs the above-described process of generating the basic frequency pattern by using a plurality of prosody control dictionaries 2.
4, 25, and 26 to generate basic frequency patterns, respectively, and synthesize parameters 204, 205, and 20.
6 are output.

【0042】続いて、合成パラメータ内挿部22は、合
成パラメータ204・205・206の基本周波数パタ
ーンに対して、重み情報201に従って加重平均処理を
行って基本周波数パターンを生成し、合成パラメータ2
07を出力する。
Subsequently, the synthesis parameter interpolation unit 22 performs a weighted average process on the basic frequency patterns of the synthesis parameters 204, 205, and 206 according to the weight information 201 to generate a basic frequency pattern.
07 is output.

【0043】重み情報201は、n(nは複数)個の韻
律制御辞書(図1の場合、24〜26)に対応するn個
(図1の場合、3つ)の重み係数の組で表される。図5
は、重み情報201の入力手段(例えば、GUIによ
る)の一例を示している。この例では、3つの韻律制御
辞書24・25・26はそれぞれA氏、B氏、C氏の口
調の韻律的特徴を表現する韻律制御辞書に対応してい
る。黒丸で示されているポインタの位置で、誰にどの程
度似た韻律にするのかを指定する。ポインタの位置が、
図5のa,b,c,dのときの重み情報201の値を図
6に示す。ポインタの位置がaの場合には重み情報20
1は韻律は3人の中間的なものとなり、bの場合にはB
氏に最も似た韻律でC氏とA氏の特徴も少し含むような
ものとなり、cの場合にはA氏とC氏の中間的な韻律と
なりB氏の特徴は含まれず、dの場合にはA氏の韻律の
特徴を大げさにしたような韻律となる。このように、重
み情報を制御することによって、様々な個人性を持った
合成音声を生成することが可能となる。
The weight information 201 is expressed as a set of n (three in FIG. 1) weighting factors corresponding to n (n is plural) prosody control dictionaries (24 to 26 in FIG. 1). Is done. FIG.
Shows an example of an input unit (for example, by a GUI) of the weight information 201. In this example, the three prosody control dictionaries 24, 25, and 26 correspond to the prosody control dictionaries expressing the prosodic features of the tone of Mr. A, Mr. B, and Mr. C, respectively. At the position of the pointer indicated by a black circle, the prosody to whom and to what extent are designated. The pointer position is
FIG. 6 shows the values of the weight information 201 for a, b, c, and d in FIG. If the position of the pointer is a, weight information 20
1 means that the prosody is intermediate between the three, and in the case of b, B
In the case of c, the prosody most similar to Mr. C also includes some characteristics of Mr. A. In the case of c, the prosody is intermediate between Mr. A and Mr. C, and the characteristics of Mr. B are not included. Is a prosody that exaggerates the features of Mr. A's prosody. As described above, by controlling the weight information, it is possible to generate synthesized speech having various personalities.

【0044】合成パラメータ内挿部22の他の構成例と
して、文中で、重み情報が変化できるようにすることも
可能である。図7は、「この宝くじ当たっている、これ
で一生遊んで暮らせるよ。」に対して、テキストに対応
して変化する重み情報の一例を示している。この例で
は、3つの韻律制御辞書24・25・26は、同一人物
の、平穏なとき・驚いたとき・喜んだときの韻律に対応
している。このような変化する重み情報に従って内挿処
理を行うことによって、感情の細かな変化を表現する基
本周波数パターンを生成することが可能となる。
As another configuration example of the synthesis parameter interpolation unit 22, it is possible to change the weight information in a sentence. FIG. 7 shows an example of weight information that changes in response to a text corresponding to “this lottery has been won, and you can play and live for a lifetime.” In this example, the three prosody control dictionaries 24, 25, and 26 correspond to prosody of the same person when they are calm, surprised, and glad. By performing the interpolation processing in accordance with such changing weight information, it is possible to generate a fundamental frequency pattern expressing a minute change in emotion.

【0045】なお、重み情報201は、ユーザが入力す
る形態、他のプログラム(プロセス)から与える形態、
テキストの所定の単位(例えば、文単位、文の構成要素
単位)ごとに付与する形態、テキスト解析部10がテキ
ストを解析することによって生成する形態など、種々の
形態が可能である。
The weight information 201 may be input by a user, input from another program (process),
Various forms are possible, such as a form provided for each predetermined unit of text (for example, a sentence unit, a constituent element of a sentence), a form generated by analyzing the text by the text analysis unit 10, and the like.

【0046】なお、本実施形態では、代表パターンに基
づく基本周波数制御モデルを用いて説明したが、この他
に、いわゆる藤崎モデルのような、パターンを関数近似
するモデルなど種々の基本周波数制御モデルを用いるこ
とが可能である。
Although the present embodiment has been described using the fundamental frequency control model based on the representative pattern, various other fundamental frequency control models such as a so-called Fujisaki model that approximates the pattern by a function can be used. It can be used.

【0047】また、本実施形態では、韻律パラメータの
例として基本周波数について説明したが、韻律継続時間
長やパワー、ポーズなどの韻律パラメータについても同
様の形態で実施することが可能である。すなわち、音韻
継続時間長やパワー、ポーズなどの系列を、複数の韻律
制御辞書を用いてそれぞれ生成し、上述した重み情報に
従って内挿処理を行うことにより様々な韻律的特徴を持
った合成音声を生成することができる。
Further, in the present embodiment, the fundamental frequency has been described as an example of the prosody parameter. However, the prosody parameter such as the prosody duration, power, and pause can be implemented in the same manner. That is, sequences such as phoneme duration, power, and pause are respectively generated using a plurality of prosody control dictionaries, and interpolation processing is performed according to the above-described weight information to synthesize synthesized speech having various prosodic features. Can be generated.

【0048】以上説明してきたように、本実施形態によ
れば、複数の韻律制御辞書を用いて生成された韻律パラ
メータを任意の重みで内挿処理して韻律パラメータを生
成し、その韻律パラメータを用いて音声合成を行うこと
で、多種多様な韻律的特徴を持つ合成音声を生成するこ
とができる。
As described above, according to this embodiment, the prosody parameters generated by using a plurality of prosody control dictionaries are interpolated with arbitrary weights to generate the prosody parameters. By performing speech synthesis using the synthesized speech, synthesized speech having various prosody characteristics can be generated.

【0049】(第2の実施形態)次に、本発明の第2の
実施形態について説明する。
(Second Embodiment) Next, a second embodiment of the present invention will be described.

【0050】第1の実施形態では、複数の韻律制御辞書
を参照して生成された韻律パラメータに対して内挿処理
を行ったのに対して、第2の実施形態では、複数の韻律
制御辞書に対してあらかじめ内挿処理を行って、韻律の
特徴が調整された韻律制御辞書を作成する点が異なって
いる。
In the first embodiment, interpolation processing is performed on the prosody parameters generated with reference to a plurality of prosody control dictionaries. On the other hand, in the second embodiment, a plurality of prosody control dictionaries are obtained. In that a prosody control dictionary in which the characteristics of the prosody are adjusted is created by performing an interpolation process in advance.

【0051】図8は、本実施形態に係る音声合成方法を
実現する音声合成装置(もしくは音声合成ソフト)の構
成例を示すブロック図である。
FIG. 8 is a block diagram showing a configuration example of a speech synthesizer (or speech synthesis software) for realizing the speech synthesis method according to the present embodiment.

【0052】図8に示されるように、この音声合成装置
は、テキスト解析部10、合成パラメータ生成部30、
韻律制御辞書内挿部31、音声合成部13、内挿のもと
となる複数の韻律制御辞書(図8では24〜26の3
つ)、内挿により得られた韻律制御辞書32を備えてい
る。
As shown in FIG. 8, the speech synthesizer includes a text analysis unit 10, a synthesis parameter generation unit 30,
The prosody control dictionary interpolation unit 31, the speech synthesis unit 13, and a plurality of prosody control dictionaries (3 to 24 in FIG.
And a prosody control dictionary 32 obtained by interpolation.

【0053】以下では、第1の実施形態と相違する部分
を中心に説明する。
The following description focuses on the differences from the first embodiment.

【0054】本実施形態では、韻律制御辞書内挿処理と
音声合成処理の2つに大きく分けられる。すなわち、予
め韻律制御辞書内挿部31により複数の韻律制御辞書
(24〜26)をもとに韻律制御辞書32を生成する。
以降は、韻律制御辞書32を使って、テキスト解析部1
0・合成パラメータ生成部30・音声合成部13により
音声合成を行う。また、韻律制御辞書32の内容を修正
もしくは別のものにしたい場合には、再度、韻律制御辞
書内挿部31により韻律制御辞書32を生成する。
In the present embodiment, the processing is roughly divided into two: a prosody control dictionary interpolation process and a speech synthesis process. That is, the prosody control dictionary 32 is generated in advance by the prosody control dictionary interpolation unit 31 based on the plurality of prosody control dictionaries (24 to 26).
Thereafter, the text analysis unit 1 is used by using the prosody control dictionary 32.
0, synthesis parameter generation unit 30 and speech synthesis unit 13 perform speech synthesis. When the contents of the prosody control dictionary 32 are to be modified or made different, the prosody control dictionary 32 is generated again by the prosody control dictionary interpolation unit 31.

【0055】なお、テキスト解析部10・合成パラメー
タ生成部30・音声合成部13の構成・動作は基本的に
は図10におけるそれらと同様であるので各ユニットに
関するここでの説明は省略する。
The configuration and operation of the text analysis unit 10, the synthesis parameter generation unit 30, and the speech synthesis unit 13 are basically the same as those in FIG. 10, and the description of each unit is omitted here.

【0056】以下、韻律制御辞書内挿部31に関して説
明する。
The prosody control dictionary interpolation section 31 will be described below.

【0057】韻律制御辞書内挿部31は、複数の韻律制
御辞書24・25・26に対して重み情報301に従っ
て内挿処理を行って、韻律制御辞書32を生成する(合
成パラメータ生成部30は、言語情報104に従って、
この韻律制御辞書32を参照して合成パラメータ305
を生成することになる)。
The prosody control dictionary interpolation unit 31 performs an interpolation process on the plurality of prosody control dictionaries 24, 25, and 26 according to the weight information 301 to generate a prosody control dictionary 32 (the synthesis parameter generation unit 30 performs , According to the language information 104,
Referring to the prosody control dictionary 32, the synthesis parameters 305
Will be generated).

【0058】以下では、基本周波数を韻律パラメータの
例として、本実施形態の動作例について詳細に説明す
る。
In the following, an operation example of the present embodiment will be described in detail using a fundamental frequency as an example of a prosody parameter.

【0059】合成パラメータ生成部30における基本周
波数制御モデルは、第1の実施形態と同様に、図2で説
明した代表パターンに基づくモデルを用いて説明する。
The basic frequency control model in the synthesis parameter generation section 30 will be described using a model based on the representative pattern described in FIG. 2, as in the first embodiment.

【0060】この場合、基本周波数制御辞書は、代表パ
ターン辞書・代表パターン選択規則・オフセット生成規
則から構成される。ただし、代表パターン選択規則は、
複数の韻律制御辞書24・25・26について全て共通
となるように韻律制御辞書が作られているものとする。
この場合、韻律制御辞書32の代表パターン選択規則
は、複数の韻律制御辞書24・25・26のいずれかの
代表パターン選択規則の複製とすればよい。そこで、韻
律制御辞書内挿部31における処理は、複数の韻律制御
辞書24・25・26の代表パターン辞書を内挿して韻
律制御辞書32の代表パターン辞書を生成することと、
複数の韻律制御辞書24・25・26のオフセット生成
規則を内挿して韻律制御辞書32のオフセット生成規則
を生成することとなる。
In this case, the fundamental frequency control dictionary is composed of a representative pattern dictionary, a representative pattern selection rule, and an offset generation rule. However, the representative pattern selection rule is
It is assumed that a prosody control dictionary is created so that all of the plurality of prosody control dictionaries 24, 25, and 26 are common.
In this case, the representative pattern selection rule of the prosody control dictionary 32 may be a copy of any one of the plurality of prosody control dictionaries 24, 25, and 26. Therefore, the processing in the prosody control dictionary interpolation unit 31 includes generating a representative pattern dictionary of the prosody control dictionary 32 by interpolating the representative pattern dictionaries of the plurality of prosody control dictionaries 24, 25, and 26.
The offset generation rules of the prosody control dictionary 32 are generated by interpolating the offset generation rules of the plurality of prosody control dictionaries 24, 25, and 26.

【0061】まず、代表パターン辞書の内挿処理につい
て説明する。
First, the interpolation process of the representative pattern dictionary will be described.

【0062】各代表パターン辞書は、N個の代表パター
ンによって構成されている。1番からN番までの代表パ
ターンについて、各代表パターン辞書の同じ番号の代表
パターン同士を、重み情報301に従って加重平均処理
することにより内挿処理された代表パターンが生成され
る。
Each representative pattern dictionary is composed of N representative patterns. With respect to the first to N-th representative patterns, the representative patterns having the same number in each representative pattern dictionary are subjected to weighted averaging processing according to the weight information 301, thereby generating an interpolated representative pattern.

【0063】次に、オフセット生成規則の内挿処理につ
いて説明する。
Next, the interpolation processing of the offset generation rule will be described.

【0064】オフセット生成規則は、統計的なモデルの
一つである数量化I類を用いて行うことができる。数量
化I類によるオフセット生成規則の例を図9に示す。オ
フセットの値は、各言語情報が属するカテゴリに対応す
る係数と平均値mの和で与えられる。例えば、あるアク
セント句の文中位置が文中、モーラ数が4、品詞が名詞
であれば、オフセットの値は、m+a+b+c
なる。そこで、各オフセット生成規則の、同じカテゴリ
に対応する係数同士を、重み情報301に従って加重平
均処理することにより内挿処理されたオフセット生成規
則が生成される。
The offset generation rule can be performed by using quantification class I which is one of the statistical models. FIG. 9 shows an example of an offset generation rule based on quantification type I. The value of the offset is given by the sum of the coefficient corresponding to the category to which each piece of language information belongs and the average value m. For example, a sentence is a sentence position of a accent phrase, the number of moras 4, if the part of speech is a noun, the value of the offset becomes m + a 2 + b 4 + c 1. Therefore, by performing weighted averaging processing on the coefficients corresponding to the same category of each offset generation rule according to the weight information 301, an offset generation rule subjected to interpolation processing is generated.

【0065】重み情報301は、n(nは複数)個の韻
律制御辞書(図8の場合、24〜26)に対応するn個
(図8の場合、3つ)の重み係数の組で表され、重み係
数を変化させて韻律制御辞書を生成することによって、
第1の実施形態と同様に、様々な韻律的特徴を持った合
成音声を生成することができる。
The weight information 301 is represented by a set of n (three in FIG. 8) weighting factors corresponding to n (n is plural) prosody control dictionaries (24 to 26 in FIG. 8). By generating the prosodic control dictionary by changing the weighting factor,
As in the first embodiment, it is possible to generate synthesized speech having various prosodic features.

【0066】以降は、韻律制御辞書32を使って、テキ
スト解析部10・合成パラメータ生成部30・音声合成
部13により音声合成を行うことができる。
Thereafter, speech synthesis can be performed by the text analysis unit 10, the synthesis parameter generation unit 30, and the speech synthesis unit 13 using the prosody control dictionary 32.

【0067】なお、重み情報301を異ならせて生成し
た複数種類の韻律制御辞書32を用意しておき、それら
を適宜選択して使用可能にすることもできる。
It is also possible to prepare a plurality of types of prosody control dictionaries 32 generated with different weight information 301, and to select and use them appropriately.

【0068】なお、本実施形態では、代表パターンに基
づく基本周波数制御モデルを用いて説明したが、この他
に、いわゆる藤崎モデルのようなパターンを関数近似す
るモデルなど種々の基本周波数制御モデルを用いること
が可能である。
Although the present embodiment has been described using a fundamental frequency control model based on a representative pattern, various other fundamental frequency control models such as a so-called Fujisaki model that approximates a pattern by a function are used. It is possible.

【0069】また、本実施形態では、韻律パラメータの
例として基本周波数制御について説明したが、音韻継続
時間長や、パワー、ポーズなどの韻律パラメータについ
ても同様の形態で実施することが可能である。すなわ
ち、音韻継続時間長やパワー、ポーズなどは、数量化I
類などの統計的モデルを用いて制御することが可能であ
るため、上述したオフセット生成規則と同様にモデルの
パラメータを重み情報に従って内挿処理することによ
り、様々な韻律的特徴を持った韻律制御情報を生成する
ことができる。
In the present embodiment, the fundamental frequency control has been described as an example of the prosody parameter. However, the prosody parameter such as the phoneme duration, power, and pause can be implemented in the same manner. That is, the phoneme duration, power, pause, etc.
Since it is possible to control using a statistical model such as a class, the prosody control having various prosodic features is performed by interpolating the model parameters according to the weight information in the same manner as the offset generation rule described above. Information can be generated.

【0070】本実施形態では、複数の韻律制御辞書に対
してあらかじめ内挿処理を行って生成された韻律制御辞
書のみを用いて韻律パラメータを生成するため、音声合
成を行う際の韻律パラメータ生成の計算量が、従来の音
声合成方法と比較して小さいという利点がある。
In the present embodiment, the prosody parameters are generated using only the prosody control dictionaries generated by performing interpolation processing on a plurality of prosody control dictionaries in advance. There is an advantage that the amount of calculation is small as compared with the conventional speech synthesis method.

【0071】ところで、本実施形態では、図8の構成要
素のうちテキスト解析部10と合成パラメータ生成部3
0と音声合成部13と韻律制御辞書32とを含む音声合
成装置(もしくは音声合成ソフト)として構成する形態
も可能である。もしくは、テキスト解析部10と合成パ
ラメータ生成部30と音声合成部13とを含む音声合成
装置(もしくは音声合成ソフト)として構成し、韻律制
御辞書32は別途入力する形態も可能である。このよう
な構成は、例えばテレビゲームの各キャラクターの口調
に適した韻律制御辞書32をそれぞれ作成しておき、こ
のキャラクターにゲームの中で合成音声で喋らせるよう
な用途に利用するなど、種々の装置もしくはアプリケー
ションプログラムに適用することができる。
In the present embodiment, the text analysis unit 10 and the synthesis parameter generation unit 3 of the components shown in FIG.
A configuration that is configured as a speech synthesis device (or speech synthesis software) including 0, the speech synthesis unit 13 and the prosody control dictionary 32 is also possible. Alternatively, a speech synthesis device (or speech synthesis software) including the text analysis unit 10, the synthesis parameter generation unit 30, and the speech synthesis unit 13 may be used, and the prosody control dictionary 32 may be separately input. Such a configuration can be used for various purposes, such as creating a prosody control dictionary 32 suitable for the tone of each character of a video game, and using this character to make the character speak in a synthetic voice in the game. It can be applied to a device or an application program.

【0072】同様に、韻律制御辞書内挿部31および韻
律制御辞書32の素材となる複数の韻律制御辞書を含む
韻律制御辞書作成装置(もしくは韻律制御辞書作成ソフ
ト)として構成する形態も可能である。もしくは、韻律
制御辞書内挿部31を含む韻律制御辞書作成装置(もし
くは韻律制御辞書作成ソフト)として構成し、素材とな
る複数の韻律制御辞書は別途入力する形態も可能であ
る。このような構成によって、様々な韻律制御辞書32
を、ユーザ自身で作成して使用し、あるいはメーカーが
作成してユーザに提供することができる。
Similarly, a configuration in which a prosody control dictionary creation device (or a prosody control dictionary creation software) including a plurality of prosody control dictionaries serving as materials for the prosody control dictionary interpolation unit 31 and the prosody control dictionary 32 is also possible. . Alternatively, it may be configured as a prosody control dictionary creation device (or prosody control dictionary creation software) including the prosody control dictionary interpolating unit 31, and a plurality of prosody control dictionaries serving as materials may be separately input. With such a configuration, various prosody control dictionaries 32
Can be created and used by the user himself, or can be created by the manufacturer and provided to the user.

【0073】以上説明してきたように、本実施形態によ
れば、予め複数の韻律制御辞書に内挿処理を行って韻律
制御辞書を生成し、その韻律制御辞書を用いて音声合成
を行うことによって、計算量を増加させることなく多種
多様な韻律的特徴を持つ合成音声を生成することができ
る。
As described above, according to this embodiment, a plurality of prosody control dictionaries are interpolated in advance to generate a prosody control dictionary, and speech synthesis is performed using the prosody control dictionary. Thus, it is possible to generate synthesized speech having various prosodic features without increasing the amount of calculation.

【0074】なお、以上の各機能は、ハードウェアとし
てもソフトウェアとしても実現可能である。
The above functions can be realized as hardware or software.

【0075】また、本実施形態は、コンピュータに所定
の手段を実行させるための(あるいはコンピュータを所
定の手段として機能させるための、あるいはコンピュー
タに所定の機能を実現させるための)プログラムを記録
したコンピュータ読取り可能な記録媒体としても実施す
ることもできる。
The present embodiment is also directed to a computer which records a program for causing a computer to execute predetermined means (or for causing a computer to function as predetermined means, or for causing a computer to realize predetermined functions). It can also be implemented as a readable recording medium.

【0076】本発明は、上述した実施の形態に限定され
るものではなく、その技術的範囲において種々変形して
実施することができる。
The present invention is not limited to the above-described embodiments, but can be implemented with various modifications within the technical scope thereof.

【0077】[0077]

【発明の効果】本発明によれば、複数の韻律制御辞書を
用いて生成された韻律パラメータを任意の重みで内挿処
理して韻律パラメータを生成し、その韻律パラメータを
用いて音声合成を行うことで、多種多様な韻律的特徴を
持つ合成音声を生成することができる。
According to the present invention, a prosodic parameter is generated by interpolating a prosodic parameter generated using a plurality of prosodic control dictionaries with an arbitrary weight, and speech synthesis is performed using the prosodic parameter. As a result, it is possible to generate synthesized speech having various prosodic features.

【0078】また、本発明によれば、予め複数の韻律制
御辞書に内挿処理を行って韻律制御辞書を生成し、その
韻律制御辞書を用いて音声合成を行うことによって、計
算量を増加させることなく多種多様な韻律的特徴を持つ
合成音声を生成することができる。
According to the present invention, a plurality of prosody control dictionaries are interpolated in advance to generate a prosody control dictionary, and speech synthesis is performed using the prosody control dictionary, thereby increasing the amount of calculation. It is possible to generate synthesized speech having a variety of prosodic features without any problem.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態に係る音声合成装置の
構成例を示す図
FIG. 1 is a diagram showing a configuration example of a speech synthesis device according to a first embodiment of the present invention;

【図2】基本周波数パターン生成モデルを示す図FIG. 2 is a diagram showing a fundamental frequency pattern generation model.

【図3】代表パターンの例を説明するための図FIG. 3 is a diagram illustrating an example of a representative pattern.

【図4】基本周波数パターンの例を説明するための図FIG. 4 is a diagram for explaining an example of a fundamental frequency pattern.

【図5】重み情報の入力手段の例を説明するための図FIG. 5 is a diagram for explaining an example of input means for weight information;

【図6】図5の入力手段により指定された重み情報の例
を示す図
FIG. 6 is a diagram showing an example of weight information specified by the input unit of FIG. 5;

【図7】重み情報の変化の例を説明するための図FIG. 7 is a diagram for explaining an example of a change in weight information;

【図8】本発明の第2の実施形態に係る音声合成装置の
構成例を示す図
FIG. 8 is a diagram showing a configuration example of a speech synthesizer according to a second embodiment of the present invention;

【図9】数量化I類によるオフセット生成規則の一例を
示す図
FIG. 9 is a diagram showing an example of an offset generation rule based on quantification class I;

【図10】従来の一般的な音声合成装置の構成例を示す
FIG. 10 is a diagram showing a configuration example of a conventional general speech synthesizer.

【図11】従来の発話スタイルを制御する音声合成装置
の構成例を示す図
FIG. 11 is a diagram showing a configuration example of a conventional speech synthesizer for controlling a speech style.

【符号の説明】[Explanation of symbols]

10…テキスト解析部 13…音声合成部 20,30…合成パラメータ生成部 22…合成パラメータ内挿部 24〜26,32…韻律制御辞書 31…韻律制御辞書内挿部 41…代表パターン選択部 42…オフセット処理部 43…パターン接続部 44…オフセット生成部 45…代表パターン辞書 46…代表パターン選択規則 47…オフセット生成規則 48…基本周波数制御辞書 DESCRIPTION OF SYMBOLS 10 ... Text analysis part 13 ... Speech synthesis part 20,30 ... Synthesis parameter generation part 22 ... Synthesis parameter interpolation part 24-26,32 ... Prosody control dictionary 31 ... Prosody control dictionary interpolation part 41 ... Representative pattern selection part 42 ... Offset processing unit 43 ... Pattern connection unit 44 ... Offset generation unit 45 ... Representative pattern dictionary 46 ... Representative pattern selection rule 47 ... Offset generation rule 48 ... Basic frequency control dictionary

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】入力された言語情報に従って、複数の韻律
制御辞書を用いてそれぞれ第1の韻律パラメータを生成
し、 前記韻律制御辞書毎に指定された重み情報に従って、複
数の前記第1の韻律パラメータ間で内挿処理を行って第
2の韻律パラメータを生成し、 前記第2の韻律パラメータに従って合成音声を生成する
ことを特徴とする音声合成方法。
1. A first prosody parameter is generated using a plurality of prosody control dictionaries in accordance with input linguistic information, and a plurality of the first prosody is specified in accordance with weight information specified for each of the prosody control dictionaries. A speech synthesis method comprising: performing interpolation processing between parameters to generate a second prosody parameter; and generating a synthesized speech according to the second prosody parameter.
【請求項2】前記重み情報が文中で変化することを特徴
とする請求項1に記載の音声合成方法。
2. The speech synthesis method according to claim 1, wherein said weight information changes in a sentence.
【請求項3】複数の第1の韻律制御辞書間で内挿処理を
行って第2の韻律制御辞書を生成し、 入力された言語情報に従って、前記第2の韻律制御辞書
を用いて韻律パラメータを生成し、 前記韻律パラメータに従って合成音声を生成することを
特徴とする音声合成方法。
3. A second prosody control dictionary is generated by performing an interpolation process among a plurality of first prosody control dictionaries, and a prosody parameter is generated using the second prosody control dictionary in accordance with input linguistic information. And generating a synthesized speech in accordance with the prosodic parameters.
【請求項4】複数の第1の韻律制御辞書間で内挿処理を
行うことによって生成される第2の韻律制御辞書を用い
て、入力された言語情報に従って韻律パラメータを生成
し、 前記韻律パラメータに従って合成音声を生成することを
特徴とする音声合成方法。
4. A prosody parameter is generated in accordance with input linguistic information using a second prosody control dictionary generated by performing interpolation between a plurality of first prosody control dictionaries. A speech synthesis method characterized by generating a synthesized speech according to the following.
【請求項5】前記韻律制御辞書は典型的な基本周波数の
変化パターンを表す代表パターンを含むことを特徴とす
る請求項1ないし4のいずれか1項に記載の音声合成方
法。
5. The speech synthesis method according to claim 1, wherein said prosody control dictionary includes a representative pattern representing a typical fundamental frequency change pattern.
【請求項6】入力された言語情報に従って、複数の韻律
制御辞書を用いてそれぞれ第1の韻律パラメータを生成
する手段と、 前記韻律制御辞書毎に指定された重み情報に従って、複
数の前記第1の韻律パラメータ間で内挿処理を行って第
2の韻律パラメータを生成する手段と、 前記第2の韻律パラメータに従って合成音声を生成する
手段とを備えたことを特徴とする音声合成装置。
6. A means for generating first prosody parameters using a plurality of prosody control dictionaries in accordance with input linguistic information, and a plurality of first prosody parameters in accordance with weight information designated for each of the prosody control dictionaries. A speech synthesis apparatus comprising: means for performing interpolation processing between prosody parameters of the first and second prosody parameters to generate a second prosody parameter; and means for generating a synthesized speech in accordance with the second prosody parameter.
【請求項7】複数の第1の韻律制御辞書間で内挿処理を
行って第2の韻律制御辞書を生成する手段と、 入力された言語情報に従って、前記第2の韻律制御辞書
を用いて韻律パラメータを生成する手段と、 前記韻律パラメータに従って合成音声を生成する手段と
を備えたことを特徴とする音声合成装置。
7. A means for performing an interpolation process between a plurality of first prosody control dictionaries to generate a second prosody control dictionary, and using the second prosody control dictionary according to input linguistic information. A speech synthesizer comprising: means for generating a prosody parameter; and means for generating a synthesized speech according to the prosody parameter.
【請求項8】入力された言語情報に従って、複数の韻律
制御辞書を用いてそれぞれ第1の韻律パラメータを生成
させ、 前記韻律制御辞書毎に指定された重み情報に従って、複
数の前記第1の韻律パラメータ間で内挿処理を行って第
2の韻律パラメータを生成させ、 前記第2の韻律パラメータに従って合成音声を生成させ
るためのプログラムを記録したコンピュータ読取り可能
な記録媒体。
8. A first prosody parameter is generated using a plurality of prosody control dictionaries in accordance with the input linguistic information, and a plurality of the first prosody is specified in accordance with weight information specified for each prosody control dictionary. A computer-readable recording medium storing a program for generating a second prosody parameter by performing an interpolation process between parameters, and generating a synthesized speech in accordance with the second prosody parameter.
【請求項9】複数の第1の韻律制御辞書間で内挿処理を
行って第2の韻律制御辞書を生成させ、 入力された言語情報に従って、前記第2の韻律制御辞書
を用いて韻律パラメータを生成させ、 前記韻律パラメータに従って合成音声を生成させるため
のプログラムを記録したコンピュータ読取り可能な記録
媒体。
9. A second prosody control dictionary is generated by performing an interpolation process between a plurality of first prosody control dictionaries, and a prosody parameter is generated by using the second prosody control dictionary in accordance with input linguistic information. And a computer-readable recording medium recording a program for generating a synthesized speech in accordance with the prosodic parameters.
JP2000053822A 2000-02-29 2000-02-29 Speech synthesis method and speech synthesis device Expired - Fee Related JP3513071B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000053822A JP3513071B2 (en) 2000-02-29 2000-02-29 Speech synthesis method and speech synthesis device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000053822A JP3513071B2 (en) 2000-02-29 2000-02-29 Speech synthesis method and speech synthesis device

Publications (2)

Publication Number Publication Date
JP2001242882A true JP2001242882A (en) 2001-09-07
JP3513071B2 JP3513071B2 (en) 2004-03-31

Family

ID=18575153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000053822A Expired - Fee Related JP3513071B2 (en) 2000-02-29 2000-02-29 Speech synthesis method and speech synthesis device

Country Status (1)

Country Link
JP (1) JP3513071B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233388A (en) * 2002-02-07 2003-08-22 Sharp Corp Device and method for speech synthesis and program recording medium
JP2006337468A (en) * 2005-05-31 2006-12-14 Brother Ind Ltd Device and program for speech synthesis
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
WO2007141993A1 (en) * 2006-06-05 2007-12-13 Panasonic Corporation Audio combining device
JP2009025328A (en) * 2007-07-17 2009-02-05 Oki Electric Ind Co Ltd Speech synthesizer
CN103594082A (en) * 2012-08-16 2014-02-19 株式会社东芝 Sound synthesis device, sound synthesis method and storage medium
JP2014219695A (en) * 2014-07-24 2014-11-20 株式会社東芝 Prosody editing apparatus, prosody editing method and program
JP2017107228A (en) * 2017-02-20 2017-06-15 株式会社テクノスピーチ Singing voice synthesis device and singing voice synthesis method
US9905219B2 (en) 2012-08-16 2018-02-27 Kabushiki Kaisha Toshiba Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200558B2 (en) 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
US8738381B2 (en) 2001-03-08 2014-05-27 Panasonic Corporation Prosody generating devise, prosody generating method, and program
JP2003233388A (en) * 2002-02-07 2003-08-22 Sharp Corp Device and method for speech synthesis and program recording medium
JP2006337468A (en) * 2005-05-31 2006-12-14 Brother Ind Ltd Device and program for speech synthesis
WO2007141993A1 (en) * 2006-06-05 2007-12-13 Panasonic Corporation Audio combining device
JP2009025328A (en) * 2007-07-17 2009-02-05 Oki Electric Ind Co Ltd Speech synthesizer
CN103594082A (en) * 2012-08-16 2014-02-19 株式会社东芝 Sound synthesis device, sound synthesis method and storage medium
JP2014038208A (en) * 2012-08-16 2014-02-27 Toshiba Corp Speech synthesizer, speech synthesis method and program
US9905219B2 (en) 2012-08-16 2018-02-27 Kabushiki Kaisha Toshiba Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature
JP2014219695A (en) * 2014-07-24 2014-11-20 株式会社東芝 Prosody editing apparatus, prosody editing method and program
JP2017107228A (en) * 2017-02-20 2017-06-15 株式会社テクノスピーチ Singing voice synthesis device and singing voice synthesis method

Also Published As

Publication number Publication date
JP3513071B2 (en) 2004-03-31

Similar Documents

Publication Publication Date Title
JP4125362B2 (en) Speech synthesizer
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JPH10153998A (en) Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method
JPH031200A (en) Regulation type voice synthesizing device
JP5039865B2 (en) Voice quality conversion apparatus and method
JP2009139677A (en) Voice processor and program therefor
JPH0632020B2 (en) Speech synthesis method and apparatus
JP2006227589A (en) Device and method for speech synthesis
JP2623586B2 (en) Pitch control method in speech synthesis
JP2001242882A (en) Method and device for voice synthesis
JP2003337592A (en) Method and equipment for synthesizing voice, and program for synthesizing voice
JP2014062970A (en) Voice synthesis, device, and program
US20010029454A1 (en) Speech synthesizing method and apparatus
JP4841339B2 (en) Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program
JP2008015424A (en) Pattern specification type speech synthesis method, pattern specification type speech synthesis apparatus, its program, and storage medium
JP2001034284A (en) Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program
JP3785892B2 (en) Speech synthesizer and recording medium
JPH07244496A (en) Text recitation device
JPH0580791A (en) Device and method for speech rule synthesis
JPH09179576A (en) Voice synthesizing method
JP2002304186A (en) Voice synthesizer, voice synthesizing method and voice synthesizing program
JP3575919B2 (en) Text-to-speech converter
JP3576792B2 (en) Voice information processing method
JP6191094B2 (en) Speech segment extractor
WO2023182291A1 (en) Speech synthesis device, speech synthesis method, and program

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110116

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees