JP4525162B2 - Speech synthesizer and program thereof - Google Patents
Speech synthesizer and program thereof Download PDFInfo
- Publication number
- JP4525162B2 JP4525162B2 JP2004138533A JP2004138533A JP4525162B2 JP 4525162 B2 JP4525162 B2 JP 4525162B2 JP 2004138533 A JP2004138533 A JP 2004138533A JP 2004138533 A JP2004138533 A JP 2004138533A JP 4525162 B2 JP4525162 B2 JP 4525162B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- information
- speech
- replacement
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 55
- 238000003786 synthesis reaction Methods 0.000 claims description 51
- 230000002194 synthesizing effect Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 description 42
- 238000000034 method Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 8
- 230000003247 decreasing effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Description
この発明は、文に基づいて音声合成を行う音声合成装置及びそのプログラムに係るものであり、特に置換可能な可変部を有する参照文と可変部を置換する語句とを組み合わせて合成された合成文の音声合成を行う技術に関する。 The present invention relates to a speech synthesizer that performs speech synthesis based on a sentence and a program thereof, and particularly, a synthesized sentence that is synthesized by combining a reference sentence having a replaceable variable part and a phrase that replaces the variable part. The present invention relates to a technology for voice synthesis.
従来、参照文の定形部と置換語句とを組み合わせて生成した合成文の音声合成を行う音声合成技術では、可変部の韻律を調整するとともに、可変部の韻律を参照しながら定形部の韻律の変形を行うものがあった(例えば特許文献1)。 Conventionally, in speech synthesis technology for synthesizing a synthesized sentence generated by combining a fixed part of a reference sentence and a replacement phrase, the prosody of the fixed part is adjusted while adjusting the prosody of the variable part and referring to the prosody of the variable part. There was a thing which deform | transforms (for example, patent document 1).
従来、このような合成文を対象とした音声合成技術によれば、定形部と置換語句との韻律の接続位置において、置換語句の韻律情報を調整し、定形部のF0(基本周波数)情報を平滑化(スムージング)している。しかしこのような方法では、可変部や置換語句の内容によっては、接続が滑らかに行われず、韻律の自然性が劣化してしまうという問題があった。この発明は、かかる問題を解決するためになされたものであり、可変部が多様化しても韻律の劣化を起こさずに自然な韻律を生成し、合成音声を聞き取りやすいものとすることを目的とする。 Conventionally, according to the speech synthesis technology for such a synthesized sentence, the prosodic information of the replacement phrase is adjusted at the connection position of the prosody of the fixed form part and the replacement phrase, and the F0 (fundamental frequency) information of the fixed form part is changed. Smoothing (smoothing). However, in such a method, there is a problem in that connection is not smoothly performed depending on the contents of the variable part and the replacement phrase, and the naturalness of the prosody is deteriorated. The present invention has been made to solve such a problem, and an object of the present invention is to generate a natural prosody without causing deterioration of the prosody even if the variable part is diversified, and to make it easy to hear the synthesized speech. To do.
この発明に係る音声合成装置は、参照文の可変部分を置換語句に置換してなる合成文の音声情報を、その置換語句の韻律情報を規則合成して得た音声情報と予め格納されている上記参照文の音声情報とを組み合わせて生成し、生成された合成文の音声情報を用いて上記合成文を読み上げる音声の合成を行う音声合成装置において、
上記可変部分の語句と上記置換語句とが韻律的に類似するか否かを判定する語句類似判定手段と、上記語句類似判定手段により上記可変部分の語句と上記置換語句とが韻律的に類似しないと判定された場合に、上記置換語句に先行する上記合成文の部分と後続する上記合成文の部分との何れかの部分を規則合成拡張部分とし、この規則合成拡張部分の音声情報を上記置換語句の音声情報とともに規則合成する規則合成手段、を備えるものである。
The speech synthesizer according to the present invention stores in advance speech information of a synthesized sentence obtained by replacing a variable part of a reference sentence with a replacement phrase, and speech information obtained by regular synthesis of prosodic information of the replacement phrase . In a speech synthesizer that synthesizes speech that is generated in combination with the speech information of the reference sentence and that reads out the synthesized sentence using the generated speech information of the synthesized sentence,
The phrase similarity determination means for determining whether the phrase of the variable part and the replacement phrase are prosodically similar, and the phrase of the variable part and the replacement phrase are not prosodically similar by the phrase similarity determination means Is determined as a rule synthesis extension part, and the speech information of this rule synthesis extension part is replaced with the above part. It comprises rule synthesis means for synthesizing rules together with the speech information of words.
また、このような音声合成装置は、汎用的なコンピュータとこのコンピュータに音声合成処理を行わせる音声合成プログラムとを組み合わせて構成しても構わない。すなわち、この発明に係る音声合成プログラムとは、参照文の可変部分を置換語句に置換してなる合成文の音声情報を、その置換語句の韻律情報を規則合成して得た音声情報と予め格納されている上記参照文の音声情報とを組み合わせて生成し、生成された合成文の音声情報を用いて上記合成文を読み上げる音声の合成を行う音声合成装置において、
上記可変部分の語句と上記置換語句とが韻律的に類似するか否かを判定する語句類似判定ステップと、上記語句類似判定ステップにより上記可変部分の語句と上記置換語句とが韻律的に類似しないと判定された場合に、上記合成文の上記置換語句に先行する部分と後続する部分との何れかの部分を規則合成拡張部分として、この規則合成拡張部分の音声情報を上記置換語句の音声情報とともに規則合成する規則合成ステップと、をコンピュータに実行させるものである。
Such a speech synthesizer may be configured by combining a general-purpose computer and a speech synthesis program that causes the computer to perform speech synthesis processing. That is, the speech synthesis program according to the present invention stores in advance speech information of a synthesized sentence obtained by replacing a variable part of a reference sentence with a replacement phrase, and speech information obtained by regular synthesis of prosodic information of the replacement phrase. In the speech synthesizer that synthesizes the speech that is generated by combining the speech information of the reference sentence and the synthesized text that is read out using the speech information of the generated synthesized sentence,
The phrase similarity determination step for determining whether the phrase of the variable part and the replacement phrase are prosodically similar, and the phrase of the variable part and the replacement phrase are not prosodically similar by the phrase similarity determination step If it is determined that the part of the synthetic sentence preceding or after the replacement phrase is a rule synthesis extension part, the speech information of the rule synthesis extension part is used as the speech information of the replacement phrase. A rule synthesis step for synthesizing rules together is executed by the computer.
このようにして、この発明に係る音声合成装置及びそのプログラムは、合成文における音声情報の規則合成範囲を参照文の可変部と置換語句とが韻律的に類似するか否かに基づいて適宜伸長して、規則合成された音声情報を調整することとしたので、定型部と規則合意性範囲との接続点において自然な韻律を生成することができ、合成音声をききとりやすいものとすることができる。 Thus, the speech synthesizer and the program according to the present invention appropriately expand the rule synthesis range of the speech information in the synthesized sentence based on whether the variable part of the reference sentence and the replacement phrase are similar in terms of prosody. Since the rule-synthesized speech information is adjusted, a natural prosody can be generated at the connection point between the fixed part and the rule agreement range, and the synthesized speech can be easily picked up. .
次にこの発明の実施の形態について、図を用いて説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声合成装置の構成を示すブロック図である。図の音声合成装置1は、この発明の実施の形態1による音声合成装置であって、合成文生成手段としての合成文生成部2、規則合成範囲平滑化手段としての規則合成範囲平滑化部3、語句類似性判定手段としての語句類似性判定部3、拡張平滑化手段としての拡張平滑化部5、局所平滑化手段としての局所平滑化部6、音声生成手段としての音声生成部6を備えている。
Next, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of a speech synthesis apparatus according to
合成文生成部2は参照文の一部を置換語句で置換することにより合成文を生成し、さらに生成した合成文の韻律情報を規則に基づいて生成する部位である。なお、この説明及び以降の説明において、部位という語はそのような機能を備えるために構成された専用の素子又は回路を指すものとして用いるが、汎用のコンピュータ用中央演算装置(CPU:Central processing Unit)とそのCPUに同等の処理を実行させるコンピュータプログラムとを組み合わせて構成しても構わない。 The synthetic sentence generation unit 2 is a part that generates a synthetic sentence by replacing a part of a reference sentence with a replacement phrase, and further generates prosodic information of the generated synthetic sentence based on a rule. In this description and the following description, the term “part” is used to indicate a dedicated element or circuit configured to have such a function. However, a general-purpose computer central processing unit (CPU: Central processing Unit) is used. ) And a computer program that causes the CPU to execute equivalent processing may be combined.
合成文生成部2が扱う参照文とは、例えば「近くの[駅]付近の地図を表示します」のように定型文と可変部との組み合わせから構成される文をいう。この例では、[駅]という部分が可変部に相当する。可変部は一応の語句が割り当てられているものの、後に合成文を生成する上で他の語句と置換されることを予定している部分である。これに対して「近くの」あるいは「付近の地図を表示します」は、定形部と呼ばれる部分である。この参照文の可変部を、「コンビニ」あるいは「ガソリンスタンド」といった置換語句と置き換えることによって、「近くのコンビニ付近の地図を表示します」、あるいは「近くのガソリンスタンド付近の地図を表示します」といった合成文が生成される。 The reference sentence handled by the synthetic sentence generation unit 2 is a sentence composed of a combination of a fixed sentence and a variable part, for example, “Display a map near a nearby [station]”. In this example, the part [station] corresponds to the variable part. The variable part is a part that is assigned a temporary phrase, but is scheduled to be replaced with another phrase in generating a synthesized sentence later. On the other hand, “near” or “display a nearby map” is a part called a fixed part. By replacing the variable part of this reference sentence with a replacement phrase such as “Convenience store” or “Gas station”, “Display a map near a nearby convenience store” or “Display a map near a nearby gas station” Is generated.
なお、合成文生成部2の目的は、文字列操作処理を行って合成文を生成し、生成した合成文の韻律情報を規則的に生成することであるが、このような機能は公知技術に基づいて容易に構成することができる。したがって合成文生成部2という場合には、このような作用を奏するすべての構成を含み、特定の構成に限定するものではない。しかし以下においては、説明の便宜上、合成文生成部2の構成の一例として、図2にその詳細な構成を示すように、音声合成装置1の外部から入力される置換語句を取得する置換語句取得部21と、参照文を記憶する参照文記憶部22、文字列操作部23、規則音声情報生成部24とを備えるように構成されているものとする。
The purpose of the synthetic sentence generation unit 2 is to generate a synthetic sentence by performing character string manipulation processing, and regularly generate prosodic information of the generated synthetic sentence. It can be easily configured on the basis. Therefore, in the case of the compound sentence generation unit 2, it includes all the configurations that exhibit such an action, and is not limited to a specific configuration. However, in the following, for convenience of explanation, as an example of the configuration of the synthetic sentence generation unit 2, as shown in FIG. 2, the replacement phrase acquisition for acquiring a replacement phrase input from the outside of the
ここで、置換語句取得部21は、例えばキーボードなどを通じて参照文の可変部に当てはめる置換語句を取得する部位である。また参照文記憶部22は記憶素子又は回路、あるいはCD−ROMやハードディスク装置などの記憶媒体を用いて参照文に関する情報を記憶する部位である。文字列操作部23は、参照文記憶部22が記憶する参照文テキストを、例えば文字列解析して可変部位置を特定し、置換語句とを可変部位置に代入した文字列を生成する部位である。
Here, the replacement phrase acquisition unit 21 is a part that acquires a replacement phrase applied to the variable part of the reference sentence through, for example, a keyboard. The reference
図3は、参照文に関する情報として参照文記憶部22によって記憶される参照文データの例を示す図である。図に示すように、参照文データ30はレコード31、レコード32などの複数のレコードを備えている。これらの各レコードは、図3がレコード31について示しているように、フィールド(レコードの項目)としてID301、参照文302、韻律情報303、F0情報304、時間長情報305を有している。
FIG. 3 is a diagram illustrating an example of reference sentence data stored by the reference
ID301は、レコード31を一意に識別する識別子である。参照文テキスト302はレコード31が表している文字列情報である。この例では「近くの[駅]付近の地図を表示します。」という内容の文字列が参照文テキスト302のフィールドに格納されている。ここで'['と']'とに囲まれた部分は可変部、すなわち置換語句と置換される対象となる文字列部分を示している。それ以外の文字列部分、すなわち「近くの」及び「付近の地図を表示します。」は定型部と呼ばれる。なお可変部の位置を特定する記号'['と']'は他の記号や文字(制御文字を含む)であってもよい。また、可変部の開始位置と終了位置とを示す記号を用いずに参照文テキスト302を平文(例.「近くの駅付近の地図を表示します。」)として表しておき、可変部の開始位置(先頭から4文字目)と終了位置(先頭から4文字目)とをレコード31の別フィールドとして保持するようにしても構わない。
The
韻律情報303は、参照文テキスト302を読み上げた場合の韻律情報を保持するフィールドであって、この例ではモーラ数とアクセント型とを格納している。F0(エフゼロと読む)情報304は、参照文テキスト302で示される文字列を読み上げた場合(ただし可変部を示す記号は読み上げない)の、F0情報(基本周波数)の配列を格納するフィールドである。ここで、F0情報304には、定型部と可変部を区別することなく参照文302を読み上げた場合のF0情報が格納される。自然な韻律においては、可変部にどのような語句が実際に存在するかによって、前後の定型部の音声情報が変化する。したがって可変部に「駅」という語句を割り当てた場合の参照文テキスト302に対する音声情報(韻律情報、F0情報、時間長情報など)は、他の語句を割り当てた場合の音声情報と異なる場合が多い。参照文302の可変部の表現方法としては、「駅」のように具体的な語句を割り当てずに、抽象的に可変フィールドであることが分かるような表現方法(例えば、「近くの*付近の地図を表示します。」のように、*を可変部であることを示し、かつ読み上げることのない記号として用いる、など)を採用することも考えられる。しかし「近くの*付近の地図を表示します。」のような文を、人間が自然な会話や生活の中で読み上げることはないので、このような抽象的な表現では、音声合成の元となる自然な音声情報が得られない。このような理由により、この発明の実施の形態1では、参照文として現実に存在する文を指定し、その一部を可変部として表現するようにしている。
The prosody information 303 is a field for holding prosody information when the
なお、時間長情報305は、各音韻の時間長情報を数値化して格納するフィールドである。また、レコード32以降のレコードにおいても、ID301、参照文テキスト302、韻律情報303、F0情報304、時間長情報305に相当するフィールドを備えている。
The time length information 305 is a field in which time length information of each phoneme is digitized and stored. Also, the records after the record 32 are provided with fields corresponding to the
引き続き、図1における音声合成装置1の構成について説明する。語句類似性判定部3は、置換語句と参照文の可変部に元々あった語句との類似性を判定する部位である。ここでは、置換語句と参照文の可変部に元々あった語句との類似性として、韻律的に類似するかどうかを判断するようになっている。規則合成部4は合成文の一部の語句について音声情報を規則合成する部位である。規則合成される部位は、語句類似性判定部3の判定結果に基づいて決定されるようになっている。
Next, the configuration of the
局所平滑部5は、規則合成部4によって規則合成された範囲の音声情報とそれ以外の合成文の部分の音声情報との接続をなめらかにするために平滑化を行う部位である。音声生成部6は、生成された音声情報に基づいて音声信号を発生し、人間が聴覚を通じて認識できる音声として再生する部位である。
The
続いて、音声合成装置1の動作について説明する。図4は、音声合成装置1の動作を示すフローチャートである。ここでは、外部から置換語句として「ガソリンスタンド」と、この置換語句と組み合わせることとなる参照文データのレコードを識別する情報(例えばID値や参照文そのもの)とが指定されるものとする。
Next, the operation of the
これに対して、合成文生成部2の置換語句取得部21は、「ガソリンスタンド」という置換語句と、さらにはこの置換語句と組み合わせる参照文データのレコードを識別する情報(ここではID番号001とする)を取得する(ステップS101)。文字列操作部23は、参照文記憶部22が記憶している参照文データ30のうちID番号001から特定されるレコード31の参照文テキスト302の内容「近くの[駅]付近の地図を表示します。」を取得し、この文字列の可変部と置換語句取得部21が取得した置換語句「ガソリンスタンド」とを置き換えて、合成文「近くのガソリンスタンド付近の地図を表示します。」を生成する(ステップS102)。
On the other hand, the replacement phrase acquisition unit 21 of the synthetic sentence generation unit 2 identifies information (here, ID number 001) that identifies the replacement phrase “gas station” and the record of reference sentence data to be combined with this replacement phrase. Is acquired (step S101). The character
次に、語句類似性判定部3は、置換語句と可変部の語句との韻律的な類似性を判定する(ステップS103)。韻律的に類似する場合は、置換語句と可変部の語句の音声情報は似通っており、互換性が高いと考えられる。したがってこのような場合においては、可変部前後の音声情報と置換語句を規則合成して得た音声情報との接続は自然性が高く、そのまま接続しても違和感のない音声が得られる。これに対して、置換語句と可変部の語句とが韻律的に類似しない場合は、合成文において置換語句が他の部分の韻律に及ぼす影響が、参照文における可変部の語句が他の部分に及ぼす影響とは異なってくる。このために、可変部前後の韻律と置換語句との韻律を接続しても自然性が得られない。そこで、語句類似性判定部3によって、置換語句と可変部の語句との韻律的な類似性を判定し、類似と判断した場合と非類似であると判断した場合とで、その後の処理を分けることとしたのである。
Next, the phrase
韻律的な類似性の判定方法の例としては、置換語句と可変部の語句とのそれぞれのモーラ数とアクセント型の比較を行う方法が考えられる。その場合には、例えばアクセント型が同一であって、モーラ数が似通っているときに、韻律的に互換性が高くなるので、韻律的に類似性が高い、と判定することができる。モーラ数が似通っているか否か、についてはそれぞれのモーラ数間の差を求めて、その差が所定値以内かどうかを判定すればよい。例えばモーラ数の差が3以下の場合に「類似である」と判定し、3を超える場合には「非類似である」と判定する、と決めておくと、置換語句「ガソリンスタンド」と可変部の語句「駅」の場合にあっては、もアクセント型は−4となって一致するが、モーラ数はそれぞれ8と2であるので、差は6となり、3以下という条件を満たさない。したがって、置換語句「ガソリンスタンド」と可変部の語句「駅」については韻律的に非類似である、と判断される。 As an example of the prosodic similarity determination method, a method of comparing the number of mora and accent type of each of the replacement phrase and the variable part phrase can be considered. In this case, for example, when the accent type is the same and the number of mora is similar, the prosodic compatibility is increased, so that it can be determined that the prosodic similarity is high. Whether or not the number of mora is similar may be determined by obtaining a difference between the respective mora numbers and determining whether or not the difference is within a predetermined value. For example, if the difference in number of mora is 3 or less, it is determined as “similar”, and if it exceeds 3, it is determined as “dissimilar”. In the case of the part phrase “station”, the accent type is -4 and matches, but the number of mora is 8 and 2, respectively, so the difference is 6 and the condition of 3 or less is not satisfied. Accordingly, it is determined that the replacement phrase “gas station” and the variable phrase “station” are dissimilar in terms of prosody.
一般にモーラ数が大きくなるとアクセント強度が大きくなることが知られている。したがって置換語句と可変部の語句とのモーラ数の差異が大きくなるとアクセント強度の差によって置換後のF0情報の誤差が大きく。上述のアクセント型とモーラ数の差異とに基づく類似性の判断はかかる知見に基づくものである。 Generally, it is known that the accent intensity increases as the number of mora increases. Therefore, when the difference in the number of mora between the replacement phrase and the variable part phrase increases, the error in the F0 information after replacement increases due to the difference in accent strength. The determination of similarity based on the above accent type and the difference in the number of mora is based on such knowledge.
ステップS103において、置換語句と可変部とが韻律的に類似であると判断した場合はステップS105に進む。また置換語句と可変部とが韻律的に非類似であると判断した場合はステップS104を経た後にステップS105に進む。そこで、以下においてはまず置換語句と可変部とが韻律的に非類似であると判断した場合に実行されるステップS104について説明し、ステップS105はその後に説明することとする。 If it is determined in step S103 that the replacement word and the variable part are prosodically similar, the process proceeds to step S105. On the other hand, if it is determined that the replacement word and the variable part are dissimilar in prosody, the process proceeds to step S105 after step S104. Therefore, in the following, step S104, which is executed when it is determined that the replacement phrase and the variable part are prosodically dissimilar, will be described first, and step S105 will be described later.
次に規則合成部4は、規則合成する範囲を拡張する(ステップS104)。参照文データ30は合成文における置換語句部分の音声情報を記憶していないので、少なくとも置換語句部分の音声情報を規則合成することとなる。したがってまず置換語句部分(「ガソリンスタンド」)が基本的な規則合成する範囲となる。さらにここでは、ステップS103において、置換語句(「ガソリンスタンド」)と可変部(「駅」)とが韻律的に非類似であると判断されている。そこでこのような場合にも、合成文の音声情報を自然性の高いものとするために、規則合成する範囲を置換語句部分以外の部分に拡張する。例えば置換語句部分に続く直後の語句(例えば、「付近の」)についても規則合成する範囲に含める。
Next, the rule synthesis unit 4 expands the range for rule synthesis (step S104). Since the
このように、置換語句部分だけでなく、周囲の部分についても規則合成することとしたので、置換語句と可変部とが韻律的に類似していない場合であっても、合成文の音声情報の自然性を高めることができる。 In this way, not only the replacement phrase part but also the surrounding part is rule-synthesized, so even if the replacement phrase and the variable part are not prosodically similar, the speech information of the synthesized sentence Natural nature can be improved.
規則合成する範囲を拡張する方法の例としては、後続部分「付近の地図を表示します。」を形態素解析して最初の形態素(この場合は「付近」)を平滑化する範囲として定める方法がある。また、語句類似性判定部3によって算出された類似性(類似性を表す数値の程度)に基づいて、規則合成する範囲を拡張する量(形態素の個数)を増やすようにしてもよい。例えば語句類似性判定部3において、置換語句と可変部の語句とのアクセント型が異なり、さらにモーラ数も一定数以上異なる場合には、後続部分の韻律情報の影響度合いは大きく異なるので、2つの形態素(この場合は「付近の」)あるいは3つの形態素(「付近の地図」)を平滑化する範囲として定めるようにしてもよい。
As an example of a method for expanding the range of rule synthesis, there is a method in which the subsequent part “display a nearby map” is determined as a range for smoothing the first morpheme (in this case, “near”) by performing morphological analysis. is there. Further, the amount (number of morphemes) for extending the range of rule synthesis may be increased based on the similarity (degree of numerical value representing similarity) calculated by the phrase
このように置換語句に後続する形態素ごとに規則合成するかどうかを決定するようにしたので、発声の切れ目となることの多い形態素単位で平滑化を行い、より自然な音声情報を得ることができるのである。また置換語句と可変部との類似性が乏しくなるにつれて、規則合成する範囲をより拡張するようにすることで、語句変更の影響が大きい場合であっても、規則合成が必要な部位の長さを動的に決定し、自然な音声を得ることができる。 In this way, since it is determined whether or not rule synthesis is performed for each morpheme following the substitution word, smoothing is performed in units of morphemes that often cause utterance breaks, and more natural speech information can be obtained. It is. Also, as the similarity between the replacement word and variable part becomes poor, the range of rule composition is expanded so that the length of the part that requires rule composition even when the influence of the word change is large. Can be determined dynamically, and natural speech can be obtained.
なお、規則合成する範囲の拡張は、置換語句に後続する語句だけに限定されるものではない。例えば、置換語句の語彙や可変部の構成の仕方(何を可変部として参照文30を設計するか)によっては、置換語句に先行する語句を規則合成する範囲に含めるようにしてもよい。また双方(先行する語句と後続する語句の両方)としてもよい。
It should be noted that the expansion of the range for rule synthesis is not limited to only the phrase that follows the replacement phrase. For example, depending on the vocabulary of the replacement phrase and how the variable part is configured (what the
そして規則合成部4は、規則合成する範囲の語句について規則合成によって音声情報を生成する(ステップS105)。規則合成の方法は従来から知られている音声合成の方法を用いる。例えば、規則合成する対象となる語句が「ガソリンスタンド付近の」である場合には、各音素g、a、s、o、r、i、N、s、u、t、…の時間長とF0値を、従来の音声合成方法によって生成する。規則に基づく音声の生成方法の一例としては、点ピッチと呼ばれる制御モデルがある。このモデルでは、文章全体ではピッチ(F0)が下降していく傾向になるので、この傾斜パタンを直線で、その上に付加されるアクセントを形成する成分を台形で表現し、各モーラの中心点のピッチ(F0)を決定する。直線の始点と終点や台形の高さなどは、文字列操作部23により生成された合成文「近くのガソリンスタンド付近の地図を表示します。」のアクセント位置、モーラ数などから決定する。アクセント位置、モーラ数などと直線の始点と終点や台形の高さなどの対応は、あらかめテーブルに記述しておく方法がある。
Then, the rule synthesizing unit 4 generates speech information by rule synthesis for words in the range to be rule synthesized (step S105). As a rule synthesis method, a conventionally known speech synthesis method is used. For example, when the phrase to be subject to rule synthesis is “near a gas station”, the time length of each phoneme g, a, s, o, r, i, N, s, u, t,. The value is generated by a conventional speech synthesis method. One example of a rule-based voice generation method is a control model called point pitch. In this model, the pitch (F0) tends to decrease in the whole sentence. Therefore, the slope pattern is represented by a straight line, and the component that forms the accent added on it is represented by a trapezoid, and the center point of each mora The pitch (F0) is determined. The start and end points of the straight line, the height of the trapezoid, and the like are determined from the accent position, the number of mora, and the like of the synthesized sentence “Display a map near the nearby gas station” generated by the character
次に、局所平滑部5は、規則合成された合成文の音声情報を平滑するために、最初に平滑量を算出し(ステップS106)、続いて合成文の音声情報を、この平滑量を用いて平滑化する(ステップS107)。規則合成部4によって規則合成された音声情報は参照文の定型部と置換語句との接続性を考慮したものではないので、自然性が低く聞き取りにくいものとなることが多い。そこで、局所平滑部5は、合成文の音声情報を平滑化して、自然性を高めるのである。
Next, the
ここで、ステップS106における平滑量の算出は次のように行われる。いま、図5に示すように、置換語句直前の定型部の最後の部分のF0情報をB0、置換語句先頭のF0情報をH0、置換語句末端のF0情報をT0、置換語句直後の定型部の最初の部分のF0情報をA0とした場合、平滑量Δ(デルタ)は式(1)による重み付き平均として算出される。
なお式(1)において、W1やW2を可変部や置換語句の音韻の種類に応じて変更するようにしても構わない。このようにすることで、可変部や置換語句の種類に基づいて、個別具体的に平滑処理の内容を切り替えることができ、合成音声の自然性を増して、より聞き取りやすい音声情報を得ることができる。 In equation (1), W1 and W2 may be changed according to the variable part and the type of phoneme of the replacement phrase. By doing in this way, the content of smoothing processing can be switched individually and specifically based on the type of variable part or replacement phrase, and the naturalness of the synthesized speech can be increased and more easily audible speech information can be obtained. it can.
置換語句直前の定型部の最後の部分のF0情報B0として、置換語句直前の定型部の最後のモーラのF0情報が例として考えられるが、この限りではない。すなわち、可変部によって、可変部に隣接するモーラのF0情報は変形を受けることが多いので、必ずしも最後のモーラである必要はなく、置換語句直前の定型部の最後の部分のF0情報ではなく、可変部による変形を受けにくい最後のモーラの近傍からF0情報を取得するようにしてもよいのである。これと同様に、置換語句先頭のF0情報としては置換語句先頭のモーラのF0情報を用いてもよいが、先頭モーラ近傍のF0情報を用いてもよい。置換語句末端のF0情報T0、置換語句直後の定型部の最初の部分のF0情報A0についても、それぞれ置換語句末端モーラあるいは置換語句直後の定型部の最初のモーラの近傍から選択してもよい。 As the F0 information B0 of the last part of the fixed part immediately before the replacement word, the F0 information of the last mora of the fixed part immediately before the replacement word can be considered as an example, but this is not restrictive. That is, since the F0 information of the mora adjacent to the variable part is often transformed by the variable part, it is not necessarily the last mora, not the F0 information of the last part of the fixed part immediately before the replacement phrase, The F0 information may be acquired from the vicinity of the last mora that is not easily deformed by the variable part. Similarly, the F0 information at the head of the replacement phrase may be used as the F0 information at the head of the replacement phrase, or F0 information near the head mora may be used. The F0 information T0 at the end of the replacement phrase and the F0 information A0 of the first part of the fixed form immediately after the replacement phrase may also be selected from the vicinity of the replacement phrase end mora or the first mora of the fixed form immediately after the replacement phrase.
ステップS107における置換語句の音声情報の平滑化は、この区間の置換語句のF0情報にステップS106で算出したΔを一律に増減(シフト)することによって行われる。このようにすることで、置換語句の最初と最後のF0情報が、それらに接続する定型部のF0情報と極端に離れてしまっている場合に、置換語句全体を増減することでF0情報の差を小さくすることで、韻律の自然性を高めるのである。 The speech information of the replacement phrase in step S107 is smoothed by uniformly increasing / decreasing (shifting) Δ calculated in step S106 to the F0 information of the replacement phrase in this section. In this way, when the first and last F0 information of the replacement phrase is far away from the F0 information of the fixed part connected to them, the difference between the F0 information is increased or decreased by increasing or decreasing the entire replacement phrase. The naturalness of the prosody is increased by reducing the size.
このようにして平滑化する後続部分の範囲を決定した後、局所平滑部5は平滑化する後続部分の音声情報を置換語句部分の音声情報の平滑量と同じ量だけ増減する。ここで用いる平滑量は、例えば式(1)ですでに算出しているΔである。置換語句部分の音声情報として各F0情報をΔだけ増やしている場合には、平滑化する後続部分の各F0情報もΔだけ増やすことになる。
After determining the range of the subsequent part to be smoothed in this way, the
なお、上述の説明では置換語句とその前後の定型文との接続位置から式(1)のB0、H0、T0、A0を算出し、式(1)からΔを算出してこれを後続部分の平滑量として用いることとしている。しかしながら、このような方法に限定するものではなく、例えば置換語句と、局所平滑部5によって決定された平滑化される後続部分とを一体の範囲としてみなし、この一体範囲と、前後の定型部分との接続位置からB0、H0、T0、A0を求めて、Δを先に算出するようにし、算出されたΔを用いて、この一体範囲のF0情報全体を増減するようにしてもよい。このような方法を用いることで、後続部分とその他の定型文との接続状態を平滑量に反映できるようになるので、さらに自然な接続が可能となるのである。
In the above description, B0, H0, T0, and A0 of Equation (1) are calculated from the connection positions of the replacement phrase and the fixed phrases before and after it, and Δ is calculated from Equation (1), which is used as the subsequent part. The smoothing amount is used. However, the present invention is not limited to such a method. For example, the replacement word and the subsequent portion to be smoothed determined by the
また局所平滑部5はステップS107において、規則合成する範囲の境界がフレーズの区切りになる場合は、規則合成する範囲の末端部付近にあるモーラ(例えば最後のモーラ)のF0情報と、その規則合成する範囲に後続する部分の先頭部付近にあるモーラ(例えば第2モーラ)のF0情報とを直線で結んで、規則合成する範囲と後続部分とのF0情報を変形し、さらに平滑化するようにしてもよい。例えば、「ガソリンスタンド付近の」が規則合成する範囲である場合は、規則合成する範囲の境界がフレーズの区切りとなるから、この範囲の最後のモーラのF0情報と後続する部分の「地図を表示します。」の第2モーラのF0情報を直線で結び、規則合成する範囲とその他の範囲とを変形する。
Further, in step S107, when the boundary of the range to be rule-combined becomes a phrase delimiter, the
このようにして、局所平滑部5が、置換語句の後続部分とさらにその後の合成文の部分との音声情報とが滑らかに接続されるように平滑化することとしたので、置換語句及びその後続部分について単純な平滑量を増減しただけでは十分な自然性が得られない場合であっても、最終的に合成文全体として十分に自然な合成音声が得られるのである。
In this way, the
なお、直線で結ぶモーラは規則合成する範囲の末モーラと後続する部分の第2モーラに限るものではなく、他のモーラ、例えば末モーラに替えて、最後から2番目のモーラとしてもよいし、後続する部分の第2モーラに替えて第3モーラとしてもよい。すなわち、近傍するモーラであってもよいのである。なおここで「近傍」という語は、音韻的に近い性質を備えるものと期待される程度に近い位置にあるモーラをいう。自然な音声情報では互いに近い位置にあるモーラの音声情報は近い値となることが多いからである。 It should be noted that the mora that is connected by a straight line is not limited to the second mora of the part that follows the last mora of the range to be regularly synthesized, but may be another mora, for example, the last mora instead of the last mora, A third mora may be used instead of the second mora in the subsequent portion. That is, it may be a nearby mora. Here, the term “neighboring” refers to a mora in a position close to the level expected to have a phonologically close property. This is because, in natural speech information, the speech information of mora that are close to each other often has a close value.
さらに置換語句と置換語句との後続部分のみならず、置換語句の先頭部付近にあるモーラと、置換語句の先行部分の末端部付近にあるモーラとの間を直線で結ぶようにしてもよいことはいうまでもない。 Furthermore, not only the replacement phrase and the subsequent part of the replacement phrase, but also a mora near the beginning of the replacement phrase and a mora near the end of the preceding part of the replacement phrase may be connected with a straight line. Needless to say.
また直線で結ぶ、とは例えば中間に存在するモーラのF0情報の値を基準となる両端のモーラのF0情報を用いて内挿することをいう。なお、このような処理を行う理由は、F0情報が滑らかに推移していくように変形させることにあるから、直線で結ぶ以外に、例えば連続曲線上の値をとるようにしてもよい。 Connecting with a straight line means, for example, interpolating the value of the F0 information of the mora existing in the middle using the F0 information of the mora at both ends serving as a reference. In addition, since the reason for performing such a process is to change the F0 information so that it smoothly changes, for example, a value on a continuous curve may be taken in addition to a straight line.
音声生成部6は、これまで得られた合成文の音声情報から音声を生成する(ステップS109)。この処理は従来の技術と同様であるので、詳細については説明を割愛する。
The
以上のようにして、この音声合成装置1によれば、置換語句の音声情報だけでなく、置換語句の直後の後続部分の音声情報についても平滑化することとしたので、置換語句部分の音声情報を平滑化する場合に比べて自然で聞き取りやすい音声を生成する音声情報を得ることができる。
As described above, according to the
なお上述の例では、主としてF0情報を平滑化することとして説明をしたが、時間長情報についてもF0情報と同様に変形を加えてもよい。この場合の変形量、すなわち平滑量は、定型部の各モーラの時間長の平均と、置換語句、あるいは置換語句とその直後に後続する部分を合わせた語句の各モーラの時間長の平均の差からから算出する。また、可変部に隣接する定型部のモーラの時間長を、このモーラ対応するの規則で作成した時間長と、定型部のモーラの時間長の重み付き平均で置き換えることで変形する。このようにすることで、可変部の音韻の種類に対応した定型部の音韻の時間長を得ることができ、自然な時間長情報の結合を得ることができるのである。 In the above-described example, the description has been made mainly on the smoothing of the F0 information. However, the time length information may be modified similarly to the F0 information. In this case, the amount of deformation, that is, the smoothing amount, is the difference between the average time length of each mora in the fixed form part and the average time length of each mora of the replacement phrase or the phrase including the replacement phrase and the immediately following part. Calculate from Further, the time length of the mora of the fixed part adjacent to the variable part is changed by replacing the time length created by the rule corresponding to this mora with the weighted average of the time length of the mora of the fixed part. By doing in this way, the time length of the phoneme of the fixed part corresponding to the type of phoneme of the variable part can be obtained, and a natural combination of time length information can be obtained.
また上述の例では、F0情報と時間長情報を変形する範囲を同一範囲としたが、これらを独立に決定してもよい。すなわちF0情報と時間長情報についてモーラ数の差について異なる境界値を設定するのである。例えばF0情報については境界値を1とし、時間長情報については境界値を3とすれば、「近くの「駅」付近の地図を表示します。」の可変部「駅」を置換語句「コンビニ」で置換する場合、「コンビニ」のモーラ数は4なので、差異は2となってF0情報についての境界値を超えてしまう一方で、時間長情報についての境界値は超えない。したがってF0情報については「駅」と「コンビニ」は非類似と扱われ、時間長情報については「駅」と「コンビニ」は類似と扱われる。したがってF0情報のみ拡張平滑部5で後続部分の平滑処理がなされるようになる。
Moreover, in the above-mentioned example, although the range which deform | transforms F0 information and time length information was made into the same range, you may determine these independently. That is, different boundary values are set for the difference in the number of mora for the F0 information and the time length information. For example, if the boundary value is set to 1 for F0 information and the boundary value is set to 3 for time length information, a map near “Station” will be displayed. When the variable part “station” of “is replaced by the replacement word“ convenience store ”, the number of mora of“ convenience store ”is 4, so the difference becomes 2 and exceeds the boundary value for F0 information, while the time length information The boundary value for is not exceeded. Accordingly, “station” and “convenience store” are treated as dissimilar for F0 information, and “station” and “convenience store” are treated as similar for time length information. Therefore, only the F0 information is subjected to smoothing of the subsequent portion by the
このようにF0情報と時間長情報とを独立して扱うことで、拡張平滑部5は、後続部分のF0情報と時間長情報とのいずれか一方のみを平滑量分増減することとなる。このような構成によってF0情報については平滑が必要なものの、時間長情報については十分に自然性が確保されているから調整が必要な場合、あるいはその逆の場合など、柔軟な平滑処理を行うことが可能となるのである。
By handling F0 information and time length information independently in this way, the
実施の形態2.
実施の形態1による音声合成装置では、置換語句と可変部の語句との韻律的な類似性に基づいて拡張平滑処理を行うかどうかを決定した。しかしこのような構成の他に、置換語句の音声情報を平滑化(シフト)してもなお、置換語句と前後の定型部との接続点における韻律情報との差異が大きい場合に拡張平滑処理を行うようにしてもよい。実施の形態2による音声合成装置はかかる特徴を有するものである。
Embodiment 2. FIG.
In the speech synthesizer according to the first embodiment, whether or not to perform the extended smoothing process is determined based on the prosodic similarity between the replacement phrase and the variable part phrase. However, in addition to such a configuration, when smoothing (shifting) the speech information of the replacement phrase, extended smoothing processing is performed when the difference between the replacement phrase and the prosodic information at the connection point between the preceding and following fixed parts is large. You may make it perform. The speech synthesizer according to the second embodiment has such a feature.
図6は、この発明の実施の形態2による音声合成装置の構成を示すブロック図である。図において、図1と同一の符号を付した構成要素は実施の形態1と同様であるので説明を省略する。図において、前方差算出手段としての前方差算出部7は、置換語句とその前にある定型部との接続点における韻律情報の差(前方差)を算出する部位である。つまり、前方差算出部7は、規則合成して得た音声情報を平滑量分増減して得た音声情報から前記置換語句の先頭モーラのF0情報を取得し、置換語句より前にある合成文の部分(前方部分)のF0情報を取得して、先頭モーラのF0情報と合成文の部分のF0情報との差を算出するようになっている。 FIG. 6 is a block diagram showing a configuration of a speech synthesis apparatus according to Embodiment 2 of the present invention. In the figure, the components denoted by the same reference numerals as those in FIG. 1 are the same as those in the first embodiment, and the description thereof will be omitted. In the figure, a forward difference calculation unit 7 as a forward difference calculation means is a part that calculates a difference (forward difference) in prosodic information at a connection point between a replacement word and a fixed form part that precedes it. That is, the forward difference calculation unit 7 acquires the F0 information of the first mora of the replacement phrase from the speech information obtained by increasing or decreasing the smoothing amount of the speech information obtained by the rule synthesis, and the synthesized sentence preceding the replacement phrase Is obtained, and the difference between the F0 information of the head mora and the F0 information of the synthesized sentence is calculated.
続いて、実施の形態2による音声合成装置1の動作について説明する。図7は、この音声合成装置1の動作を示すフローチャートである。このフローチャートが実施の形態1のフローチャートである図4と異なっているのは、ステップS201〜S203及びS105−2のみであるので、これらの処理を中心に以降の説明を行うこととする。この発明の実施の形態2においても、実施の形態1と同様にステップS102までに合成文生成部2が合成文を生成する。続いて、規則合成部4は置換語句部分の音声情報を規則合成する(ステップS201)。規則合成の方法は、実施の形態1と同様である。
Next, the operation of the
その後、前方差算出部7は、置換語句部分とその前の定型部との接続点における音声情報の差異を算出する(ステップS202)。この差異として用いられるのはF0情報の差異である。例えば、置換語句部分の最初のモーラのF0情報と置換語句部分の前にある定型部の最後のモーラのF0情報を取得して、それらの差異を前方差として求める。 Thereafter, the forward difference calculation unit 7 calculates the difference in the speech information at the connection point between the replacement word part and the previous fixed part (step S202). It is the difference of F0 information that is used as this difference. For example, F0 information of the first mora of the replacement phrase part and F0 information of the last mora of the fixed part before the replacement phrase part are acquired, and the difference between them is obtained as a forward difference.
続いて、前方差算出部7は算出された前方差と所定のしきい値とを比較する(ステップS203)。前方差がしきい値を上回る場合は、置換語句とその他の部分との接続が不自然であるので、ステップS104に進む。また前方差がしきい値以下の場合はステップS106に進む。ステップS106以降の処理については実施の形態1と同様であるので、説明を省略する。
Subsequently, the forward difference calculation unit 7 compares the calculated forward difference with a predetermined threshold value (step S203). If the forward difference exceeds the threshold value, the connection between the replacement word and other parts is unnatural, and the process proceeds to step S104. If the forward difference is less than or equal to the threshold value, the process proceeds to step S106. Since the process after step S106 is the same as that of
ステップS104では、規則合成部4が実施の形態1と同様に規則合成する範囲を拡張する。そして規則合成部4は拡張した規則合成範囲の音声情報を規則合成する(ステップS105−2)。規則合成の方法についてはステップS201と同様である。そして前方差がしきい値以下の場合と同様にステップS106以降の処理に進む。 In step S104, the rule synthesizing unit 4 extends the range for rule synthesis as in the first embodiment. The rule synthesizing unit 4 synthesizes the speech information in the expanded rule synthesis range (step S105-2). The rule composition method is the same as in step S201. Then, similarly to the case where the forward difference is equal to or smaller than the threshold value, the process proceeds to step S106 and subsequent steps.
このように規則合成部4による平滑処理の結果として、十分に滑らかに接続されていない場合は、後続部分の平滑処理を行うことで合成文全体として自然な音声情報を得ることとしたので、聞き取りやすい音声を生成することが可能となる。 As a result of the smoothing process by the rule synthesizing unit 4 as described above, if the connection is not sufficiently smooth, natural speech information is obtained as the entire synthesized sentence by performing the smoothing process of the subsequent part. Easy voice can be generated.
なおこの例では、置換語句とその前にある語句との接続に基づいて、規則合成する語句の範囲を拡張するかどうかを決定することとした。しかしこれに替えて、置換語句とその後の語句との接続に基づいて規則合成する語句の範囲を拡張するようにしてもよい。つまり前方差算出部7に替えて、規則合成して得た置換語句の末端モーラのF0情報を取得し、置換語句より後にある合成文部分(後方部分)のF0情報を取得して、先頭モーラのF0情報と後方部分のF0情報との差(後方差)を算出する後方差算出手段を用いるようにしても構わない。 In this example, it is determined whether or not to expand the range of the words to be ruled based on the connection between the replacement word and the preceding word. However, instead of this, the range of words to be rule-combined may be expanded based on the connection between the replacement word and the subsequent word. That is, instead of the forward difference calculation unit 7, F0 information of the terminal mora of the replacement phrase obtained by rule synthesis is acquired, F0 information of the synthesized sentence part (rear part) after the replacement phrase is acquired, and the first mora is acquired. A backward difference calculating means for calculating a difference (backward difference) between the F0 information and the rear portion F0 information may be used.
実施の形態3.
実施の形態1のように平滑化する範囲を置換語句と可変部の語句との類似性に基づいて決定するのではなく、置換語句に後続する語句と置換語句とが一定の関係にあるかどうかに基づいて決定するようにしてもよい。例えば、「ガソリンスタンド」という置換語句に「付近」という語句が後続する場合には、常に「付近」という語の音声情報を平滑化するようにしておく。実施の形態3による音声合成装置はかかる特徴を有するものである。
Whether or not the range to be smoothed is determined based on the similarity between the replacement word and the variable part as in the first embodiment, but whether the word following the replacement word and the replacement word have a certain relationship You may make it determine based on. For example, when the word “near” follows the replacement word “gas station”, the voice information of the word “near” is always smoothed. The speech synthesizer according to the third embodiment has such a feature.
図8は、この発明の実施の形態3による音声合成装置の構成を示すブロック図である。図において、図1と同一の符号を付した構成要素は実施の形態1と同様であるので説明を省略する。図の音声合成装置1において、関連語句判定手段としての関連語句判定部8は、置換語句とその置換語句に後続する語が所定の関係にあるかどうかを判定する部位である。
FIG. 8 is a block diagram showing a configuration of a speech synthesizer according to
次に、この音声合成装置1の動作について説明する。図9は音声合成装置1の動作を示すフローチャートである。このフローチャートが実施の形態1のフローチャートである図4と異なっているのは、ステップS301のみであるので、この処理を中心に以降の説明を行うこととする。ステップS102までにおいて、合成文生成部2により、合成文が生成される。そしてステップS301において、関連語句判定部9は、置換語句に続く語句が置換語句と所定の関係にある語句かどうかを判定する。この判定処理のために、関連語句判定部9は図示せぬ記憶装置に置換語句と後続語句との対応関係を、置換語句対応語句一覧表として記憶しておく。そしてステップS301において、関連語句判定部9は合成文を取得すると、置換語句と後続する語句とが置換語句対応語句一覧表に記憶されているかどうかを検索し、記憶されている場合には、後続語句を関連する語句として判断する。そして規則合成部4は、後続語句が関連する語句である場合にはステップS104に進んで規則合成する範囲を拡張する。また関連する語句でない場合には、直接ステップS105に進み、規則合成する範囲の音声情報を合成する。
Next, the operation of the
以上より明らかなように、この発明の実施の形態3の音声合成装置1によれば、置換語句とその後続語句とが特別の関係にある場合に、後続語句をも含めて音声情報を規則合成することとしたので、置換語句と後続語句とが語と語の結びつきによって特別なアクセントを発生させる場合にも対応可能となり、自然な韻律の下聞き取りやすい音声を合成することが可能となるのである。
As is clear from the above, according to the
この発明に係る音声合成装置及び音声合成プログラムは、特に置換可能な可変部を有する参照文と可変部を置換する語句とを組み合わせて合成された合成文の音声合成を行う音声合成装置に適用することができる。 The speech synthesizer and the speech synthesis program according to the present invention are particularly applied to a speech synthesizer that synthesizes a synthesized sentence synthesized by combining a reference sentence having a replaceable variable part and a phrase that replaces the variable part. be able to.
2 合成文生成部、
3 語句類似性判定部、
4 規則合成部、
5 局所平滑部、
6 音声生成部、
7 前方差算出部、
8 関連語句判定部。
2 compound sentence generator,
3 Phrase similarity determination unit,
4 Rule composition part,
5 local smoothing part,
6 voice generator,
7 Forward difference calculation unit,
8 Related phrase determination unit.
Claims (7)
上記可変部分の語句と上記置換語句とが韻律的に類似するか否かを判定する語句類似判定手段と、
上記語句類似判定手段により上記可変部分の語句と上記置換語句とが韻律的に類似しないと判定された場合に、上記置換語句に先行する上記合成文の部分と後続する上記合成文の部分との何れかの部分を規則合成拡張部分とし、この規則合成拡張部分の音声情報を上記置換語句の音声情報とともに規則合成する規則合成手段、
を備えたことを特徴とする音声合成装置。 Combining speech information of a synthesized sentence obtained by replacing a variable part of a reference sentence with a replacement phrase, speech information obtained by regular synthesis of prosodic information of the replacement phrase, and speech information of the reference sentence stored in advance A speech synthesizer that synthesizes speech that reads out the synthesized sentence using speech information of the generated synthesized sentence,
A phrase similarity determination means for determining whether or not the variable part phrase and the replacement phrase are prosodically similar;
When the phrase similarity determination unit determines that the variable part phrase and the replacement phrase are not prosodically similar, the synthesized sentence part preceding the replacement phrase and the subsequent synthesized sentence part Rule synthesis means for synthesizing any of the parts as a rule synthesis extension part and synthesizing the voice information of the rule synthesis extension part together with the voice information of the replacement phrase,
A speech synthesizer characterized by comprising:
上記規則合成手段は、その数値に応じて、上記規則合成拡張部分に含まれる形態素の個数を増減させることを特徴とする請求項3に記載の音声合成装置。 The phrase similarity determination means calculates a numerical value representing the similarity between the variable part phrase and the replacement phrase,
4. The speech synthesizer according to claim 3, wherein the rule synthesizing unit increases or decreases the number of morphemes included in the rule synthesis extension portion according to the numerical value.
上記規則合成手段は、上記前方差算出手段が算出した差が所定値以上となる場合に、上
記規則合成拡張部分の音声情報を規則合成することを特徴とする請求項1に記載の音声合成装置。 Forward difference calculating means for calculating a difference between the F0 information of the first mora of the speech information obtained by rule synthesis from the replacement phrase and the terminal F0 information of the synthesized sentence part preceding the replacement phrase;
2. The speech synthesizer according to claim 1, wherein the rule synthesizing unit synthesizes the speech information of the rule synthesis extended portion when the difference calculated by the forward difference calculation unit is equal to or greater than a predetermined value. .
上記規則合成手段は、上記後方差算出手段が算出した差が所定値以上となる場合に、上
記規則合成拡張部分の音声情報を規則合成することを特徴とする請求項1に記載の音声合成装置。 A backward difference calculating means for calculating a difference between the F0 information of the terminal mora of the speech information obtained by rule synthesis from the replacement phrase and the head F0 information of the synthesized sentence portion following the replacement phrase;
2. The speech synthesizer according to claim 1, wherein the rule synthesizing unit synthesizes the speech information of the rule synthesis extended portion when the difference calculated by the backward difference calculating unit is equal to or greater than a predetermined value. .
上記可変部分の語句と上記置換語句とが韻律的に類似するか否かを判定する語句類似判定ステップと、
上記語句類似判定ステップにより上記可変部分の語句と上記置換語句とが韻律的に類似しないと判定された場合に、上記合成文の上記置換語句に先行する部分と後続する部分との何れかの部分を規則合成拡張部分として、この規則合成拡張部分の音声情報を上記置換語句の音声情報とともに規則合成する規則合成ステップと、
をコンピュータに実行させるための音声合成プログラム。 Combining speech information of a synthesized sentence obtained by replacing a variable part of a reference sentence with a replacement phrase, speech information obtained by regular synthesis of prosodic information of the replacement phrase, and speech information of the reference sentence stored in advance A speech synthesizer that synthesizes speech that reads out the synthesized sentence using speech information of the generated synthesized sentence,
A phrase similarity determination step for determining whether or not the variable part phrase and the replacement phrase are prosodically similar;
When the phrase similarity determination step determines that the variable part phrase and the replacement phrase are not prosodically similar, any part of the synthesized sentence preceding or following the replacement phrase A rule synthesis step for synthesizing the speech information of the rule synthesis extension portion together with the speech information of the replacement phrase,
A speech synthesis program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004138533A JP4525162B2 (en) | 2004-05-07 | 2004-05-07 | Speech synthesizer and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004138533A JP4525162B2 (en) | 2004-05-07 | 2004-05-07 | Speech synthesizer and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005321520A JP2005321520A (en) | 2005-11-17 |
JP4525162B2 true JP4525162B2 (en) | 2010-08-18 |
Family
ID=35468874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004138533A Expired - Lifetime JP4525162B2 (en) | 2004-05-07 | 2004-05-07 | Speech synthesizer and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4525162B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007212884A (en) * | 2006-02-10 | 2007-08-23 | Fujitsu Ltd | Speech synthesizer, speech synthesizing method, and computer program |
JP4878538B2 (en) | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | Speech synthesizer |
JP4964695B2 (en) * | 2007-07-11 | 2012-07-04 | 日立オートモティブシステムズ株式会社 | Speech synthesis apparatus, speech synthesis method, and program |
JP2012042974A (en) * | 2011-10-26 | 2012-03-01 | Hitachi Ltd | Voice synthesizer |
US11182565B2 (en) | 2018-02-23 | 2021-11-23 | Samsung Electronics Co., Ltd. | Method to learn personalized intents |
US11314940B2 (en) | 2018-05-22 | 2022-04-26 | Samsung Electronics Co., Ltd. | Cross domain personalized vocabulary learning in intelligent assistants |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0527789A (en) * | 1991-07-24 | 1993-02-05 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPH1138989A (en) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | Device and method for voice synthesis |
-
2004
- 2004-05-07 JP JP2004138533A patent/JP4525162B2/en not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0527789A (en) * | 1991-07-24 | 1993-02-05 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPH1138989A (en) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | Device and method for voice synthesis |
Also Published As
Publication number | Publication date |
---|---|
JP2005321520A (en) | 2005-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9275631B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
JP3913770B2 (en) | Speech synthesis apparatus and method | |
JP4241762B2 (en) | Speech synthesizer, method thereof, and program | |
US7454343B2 (en) | Speech synthesizer, speech synthesizing method, and program | |
JP4406440B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP6669081B2 (en) | Audio processing device, audio processing method, and program | |
JP4525162B2 (en) | Speech synthesizer and program thereof | |
JP2007212884A (en) | Speech synthesizer, speech synthesizing method, and computer program | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP4533255B2 (en) | Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor | |
JP2007086309A (en) | Voice synthesizer, voice synthesizing method, and program | |
US20110196680A1 (en) | Speech synthesis system | |
US20010029454A1 (en) | Speech synthesizing method and apparatus | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP4841339B2 (en) | Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program | |
JP5862667B2 (en) | Waveform processing apparatus, waveform processing method, and waveform processing program | |
JP5387410B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP5975033B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP4428093B2 (en) | Pitch pattern generation apparatus, pitch pattern generation method, and pitch pattern generation program | |
JP5054632B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP2008191334A (en) | Speech synthesis method, speech synthesis program, speech synthesis device and speech synthesis system | |
JP2007079019A (en) | Method and device for speech synthesis, and computer program | |
JP2005265895A (en) | Piece connecting type voice synthesizer and its method | |
JPH06318094A (en) | Speech rule synthesizing device | |
JP6727477B1 (en) | Pitch pattern correction device, program and pitch pattern correction method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100524 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4525162 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |