JP2005352327A - Device and program for speech synthesis - Google Patents
Device and program for speech synthesis Download PDFInfo
- Publication number
- JP2005352327A JP2005352327A JP2004174943A JP2004174943A JP2005352327A JP 2005352327 A JP2005352327 A JP 2005352327A JP 2004174943 A JP2004174943 A JP 2004174943A JP 2004174943 A JP2004174943 A JP 2004174943A JP 2005352327 A JP2005352327 A JP 2005352327A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- unit data
- long sound
- long
- reading information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声合成装置に関するものである。 The present invention relates to a speech synthesizer.
従来より、テキストを入力するとそれに対応する合成音声を生成する音声合成装置や、このような音声合成装置としてコンピュータを機能させるための音声合成プログラムが開発されている。このような音声合成装置やプログラムにおいて、品質を向上させるためのポイントの1つとして、長音の処理をどのように行なうかが問題となる。例えば、特許文献1では、入力されたテキストを言語辞書を参照して解析し、解析結果に対して予め用意された長音化候補リストを参照して長音化の可能性のある部分を検出する。長音化の候補が存在する部分については、長音化/非長音化規則を参照し、長音化/非長音化の設定が行われているか否かを判定し、長音化の設定がされていれば長音化処理を行なうようにしている。そして、長音化処理を行なう場合には、直前の母音の音素を延長している。
しかしながら、上記従来の音声合成装置のように、長音化を行なう場合に直前の母音を伸ばす方法をとると、当該長音がブザー音のように不自然に聞こえることがある。また、このような直前の母音を伸ばす方法の他にも、直前の母音を重ねることも考えられるが、この場合には、不連続に聞こえてしまうことがある。このような不自然さを解消するために、前の音素と長音の固まりを音素としてデータベースに記憶させて使用することも考えられるが、考えられる組み合わせを全てデータベースに記憶させておこうとすると、必要な容量が膨大になってしまう問題がある。 However, when a method of extending the immediately preceding vowel when the sound is made longer as in the conventional speech synthesizer, the long sound may sound unnaturally like a buzzer sound. In addition to the method of extending the immediately preceding vowel, it may be possible to superimpose the immediately preceding vowel, but in this case, it may sound discontinuous. In order to eliminate such unnaturalness, it is conceivable to store the previous phoneme and the cluster of long sounds as phonemes in the database, but if you try to store all possible combinations in the database, There is a problem that the necessary capacity becomes enormous.
本発明は上記問題を解決するためになされたものであり、簡単な構成でより自然な長音が得られる音声合成装置及び音声合成プログラムを提供することを目的とする。 The present invention has been made to solve the above problems, and an object thereof is to provide a speech synthesizer and a speech synthesis program capable of obtaining a more natural long sound with a simple configuration.
上記目的を達成するために、本発明の請求項1に記載の音声合成装置は、テキストの読み情報に対応する通常音声単位データを記憶した通常音声単位データ記憶手段と、入力されたテキストを、辞書を用いて解析し、アクセント付読み情報を生成する読み情報生成手段と、当該読み情報生成手段により生成された読み情報に、前記通常音声単位データ記憶手段に記憶された通常音声単位データを適用して合成音声を出力する音声合成手段とを備えた音声合成装置において、長音の読み情報に対応する長音用第1音声単位データを記憶した長音用第1音声単位データ記憶手段と、前記読み情報生成手段により生成された読み情報から長音を検出する長音検出手段と、当該長音検出手段が検出した長音がアクセントを含むか否かを判断するアクセント判断手段と、当該アクセント判断手段がアクセント有りと判断した場合には、前記通常音声単位データに代えて、前記長音用第1音声単位データ記憶手段に記憶された長音用第1音声単位データを適用する音声単位データ変更手段とを備えたことを特徴とする。 In order to achieve the above object, a speech synthesizer according to claim 1 of the present invention comprises normal speech unit data storage means for storing normal speech unit data corresponding to text reading information, and input text. Analyzing using a dictionary and generating reading information with accents, and applying normal voice unit data stored in the normal voice unit data storage means to reading information generated by the reading information generating means First speech unit data storage unit for long sound storing first sound unit data for long sound corresponding to reading information of long sound, and the reading information A long sound detecting means for detecting a long sound from the reading information generated by the generating means, and an access for determining whether or not the long sound detected by the long sound detecting means includes an accent. And the first sound unit data for long sound stored in the first sound unit data storage means for long sound, instead of the normal sound unit data, when the accent determination means determines that there is an accent. And a voice unit data changing unit to be applied.
また、本発明の請求項2に記載の音声合成装置は、請求項1に記載の発明の構成に加え、直後にポーズを伴う長音の読み情報に対応する長音用第2音声単位データを記憶した長音用第2音声単位データ記憶手段と、前記長音検出手段が検出した長音の直後の前記読み情報に、ポーズが存在するか否かを判断するポーズ判断手段とを備え、前記音声単位データ変更手段は、当該ポーズ判断手段がポーズ有りと判断した場合には、前記通常音声単位データに代えて、前記長音用第2音声単位データ記憶手段に記憶された長音用第2音声単位データを適用し、前記ポーズ判断手段がポーズなしと判断した場合には、前記長音用第1音声単位データ記憶手段に記憶された長音用第1音声単位データを適用することを特徴とする。
In addition to the configuration of the invention described in claim 1, the speech synthesizer described in
また、本発明の請求項3に記載の音声合成プログラムは、入力されたテキストを、辞書を用いて解析し、アクセント付読み情報を生成する読み情報生成ステップと、当該読み情報生成ステップにおいて生成された読み情報に、テキストの読み情報に対応するように通常音声単位データ記憶手段に記憶された通常音声単位データを適用して合成音声を出力する音声合成ステップとをコンピュータに実行させる音声合成において、前記読み情報生成ステップにおいて生成された読み情報から長音を検出する長音検出ステップと、当該長音検出ステップにおいて検出された長音がアクセントを含むか否かを判断するアクセント判断ステップと、当該アクセント判断ステップにおいてアクセント有りと判断された場合には、前記通常音声単位データに代えて、長音の読み情報に対応するように長音用第1音声単位データ記憶手段に記憶された長音用第1音声単位データを適用する音声単位データ変更ステップとをコンピュータにさらに実行させることを特徴とする。 The speech synthesis program according to claim 3 of the present invention is generated in a reading information generation step of analyzing input text using a dictionary and generating accented reading information, and the reading information generation step. In speech synthesis for causing the computer to execute a speech synthesis step of outputting synthesized speech by applying the normal speech unit data stored in the normal speech unit data storage means so as to correspond to the reading information of the text, In a long sound detecting step for detecting a long sound from the reading information generated in the reading information generating step, an accent determining step for determining whether or not the long sound detected in the long sound detecting step includes an accent, and in the accent determining step If it is determined that there is an accent, the normal voice unit data The computer further executes a sound unit data changing step of applying the first sound unit data for long sound stored in the first sound unit data storage unit for long sound so as to correspond to the reading information of the long sound. To do.
また、本発明の請求項4に記載の音声合成プログラムは、請求項3に記載の発明の構成に加え、前記長音検出ステップにおいて検出された長音の直後の前記読み情報に、ポーズが存在するか否かを判断するポーズ判断ステップをコンピュータにさらに実行させ、前記音声単位データ変更ステップでは、当該ポーズ判断ステップにおいてポーズ有りと判断された場合には、前記通常音声単位データに代えて、直後にポーズを伴う長音の読み情報に対応するように長音用第2音声単位データ記憶手段に記憶された長音用第2音声単位データを適用し、前記ポーズ判断ステップにおいてポーズなしと判断された場合には、前記長音用第1音声単位データを適用することを特徴とする。 Further, in the speech synthesis program according to claim 4 of the present invention, in addition to the configuration of the invention according to claim 3, is there a pause in the reading information immediately after the long sound detected in the long sound detection step? The computer further executes a pause determination step for determining whether or not, and in the voice unit data changing step, when it is determined that there is a pause in the pause determination step, the pause is performed immediately instead of the normal voice unit data. When the second sound unit data for long sound stored in the second sound unit data storage means for long sound is applied so as to correspond to the reading information of the long sound accompanied by the sound, and it is determined that there is no pause in the pause determination step, The first sound unit data for long sound is applied.
本発明の請求項1に記載の音声合成装置によれば、長音用の音声単位データを、アクセントありの場合となしの場合との2パターン用意し、音声合成の対象となるテキストが入力されたら、まず長音を検出し、さらにその長音がアクセントを含むか否かを判断してから、アクセントありの場合となしの場合のそれぞれに合わせて音声単位データを適用するので、より自然な合成音を出力できる。 According to the speech synthesizer described in claim 1 of the present invention, two patterns of voice unit data for long sound, with and without accent, are prepared, and a text to be synthesized is input. First, a long sound is detected, and then whether or not the long sound includes an accent is determined, and then the voice unit data is applied to each of the cases with and without the accent, so that a more natural synthesized sound can be obtained. Can output.
また、本発明の請求項2に記載の音声合成装置によれば、請求項1に記載の発明の効果に加え、アクセントありの場合の長音を、さらに、直後にポーズがあるか否かで場合分けし、長音用の音声データとして3パターン用意するので、さらに自然な合成音を出力できる。
Further, according to the speech synthesizer according to
また、本発明の請求項3に記載の音声合成プログラムによれば、長音用の音声単位データを、アクセントありの場合となしの場合との2パターン用意し、音声合成の対象となるテキストが入力されたら、まず長音を検出し、さらにその長音がアクセントを含むか否かを判断してから、アクセントありの場合となしの場合のそれぞれに合わせて音声単位データを適用するので、より自然な合成音を出力できる。 According to the speech synthesis program of claim 3 of the present invention, two patterns of voice unit data for long sound are prepared, with and without accent, and the text to be synthesized is input. If a long sound is detected, it is first determined whether or not the long sound includes an accent, and then the voice unit data is applied to the case with or without the accent. Sound can be output.
また、本発明の請求項4に記載の音声合成プログラムによれば、請求項3に記載の発明の効果に加え、アクセントありの場合の長音を、さらに、直後にポーズがあるか否かで場合分けし、長音用の音声データとして3パターン用意するので、さらに自然な合成音を出力できる。 According to the speech synthesis program described in claim 4 of the present invention, in addition to the effect of the invention described in claim 3, a long sound when there is an accent is further determined by whether or not there is a pause immediately thereafter. Separately, three patterns are prepared as sound data for long sound, so that a more natural synthesized sound can be output.
次に本発明を実施するための最良の形態について図面を参照して説明する。まず、図1を参照して、本発明を適用した音声合成装置1の構成について説明する。図1は、音声合成装置1の電気的構成を示すブロック図である。 Next, the best mode for carrying out the present invention will be described with reference to the drawings. First, the configuration of a speech synthesizer 1 to which the present invention is applied will be described with reference to FIG. FIG. 1 is a block diagram showing an electrical configuration of the speech synthesizer 1.
図1に示すように、音声合成装置1には、音声合成装置1全体を制御するCPU10が設けられ、CPU10には、BIOS等を記憶したROM12と、CPU10が実行する各種演算処理のワークエリアとして使用されるRAM13と、ハードディスク等の外部記憶装置20と、合成された音声をアナログの音声波形信号に変換するとともに所定の増幅を行なうためのオーディオ部31と、各種の操作を入力するための操作パネル41とがバスを介して接続されている。さらに、CPU10には、所定時間毎にCPU10に対して割込を発生させるタイマ11が接続されている。また、オーディオ部31には、スピーカ32が接続されている。
As shown in FIG. 1, the speech synthesizer 1 is provided with a
ここで、外部記憶装置20には、音声合成装置1が音声合成処理を行なうための音声合成プログラム21,入力されたテキストを言語解析するための言語辞書22,合成音声を構成する3種類の音声単位データ23〜25が記憶されている。言語辞書22には、形態素、形態素の読み、品詞、アクセント型、文法などの言語解析に必要なデータが記憶されている。また、音声単位データとしては、通常音の音声合成処理に使用される通常音声単位データ23,アクセント付長音の場合に使用される長音用第1音声単位データ24,アクセント付で直後にポーズを有する長音の場合に使用される長音用第2音声単位データ25の3種類が記憶されている。
Here, the
通常音声単位データ23には、日本語の各音素を発声した音声単位データが切り出され、音素に対応する周波数(ピッチ)、継続時間長、パワー(音量)とが記憶されている。ここで、音素とは、ある一つの言語(本実施形態では日本語)で用いる音の単位であって、意味の相違をもたらす最小の単位をいう。通常音声単位データ23は、長音固有の音声単位データをもっていない。従って、長音に対して通常音声単位データ23を使用して音声合成を行なう場合には、直前の音素を引き延ばして使用することになる。
In the normal
また、長音用第1音声単位データ24には、直前の音素と同じ音韻を持ち、直後にポーズのない長音の発声を集めて切り出した音声単位データが記憶されている。さらに、長音用第2音声単位データ25には、直前の音素と同じ音韻を持ち、かつ、直後にポーズのある長音の発声を集めて切り出した音声単位データが記憶されている。日本語のアクセントでは、アクセントのある音節から次の音節に向かって急激にピッチが下がることになるが、人の自然な発声においては、同じようにアクセントを有する長音の場合にも、直後にポーズがあるか否かによってピッチの下がり方に差があるため、ポーズの有無で長音の合成に用いる音声単位データを2種類用意することにより、さらに自然な合成音を得ることが可能になる。
Further, the first
次に、以上の構成の音声合成装置1で行なわれる音声合成処理について図2及び図3を参照して説明する。図2は、音声合成処理の流れを示すフローチャートである。図3は、音声合成装置1で実行する音声合成処理の対象となる読み文字列100の例を示す説明図である。
Next, speech synthesis processing performed by the speech synthesizer 1 having the above configuration will be described with reference to FIGS. FIG. 2 is a flowchart showing the flow of the speech synthesis process. FIG. 3 is an explanatory diagram illustrating an example of the read
まず、音声合成処理の対象となるテキストを入力する(S1)。ここで対象テキストは、通常は漢字かな混じり文で入力される。入力は、操作パネル41から行なってもよいし、キーボードを接続してキーボードから入力してもよい。また、音声合成装置1をネットワークに接続して外部から入力してもよいし、外部記憶装置20に記憶されているファイルを読み込んだり、フレキシブルディスクやCD−ROM等の記憶媒体から入力してもよく、入力方法は限定されない。例えば、「ジョー、一週間ばかりニューヨークを取材したよ」という漢字かな混じり文が入力されたとする。
First, a text to be subjected to speech synthesis processing is input (S1). Here, the target text is usually input as a kanji-kana mixed sentence. Input may be performed from the
次に、S1で入力された対象テキストを言語辞書22を用いて周知の方法で形態素解析し、読み、アクセント、ポーズを付与する言語解析処理を実行する(S2)。この言語解析処理が実行されると、対象テキストには、読み、アクセント、ポーズが付与され、図3に示すように読み文字列100が出力される。ここでは、読みがカタカナ文字列で示され、「|」はポーズ、「’」はアクセント、「>」はアクセント区切りを示している。なお、図示しないが、言語解析処理では、音節の区切りも出力される。
Next, the target text input in S1 is subjected to morphological analysis using a
次に、S2の出力結果である読み文字列100の各音節に対し、通常音声単位データ23を使用して、周知の方法で各音節のピッチを計算し(S3)、音量を計算して(S5)、その結果をRAM13内のバッファに記憶する(S7)。
Next, for each syllable of the
次に、出力結果100の音節毎にその音節が長音であるか否かを判断し、長音の場合の音声単位データを変更する音声単位データ変更処理を実行する(S9〜S21)。まず、処理対象音節が長音であるか否かを判断する(S9)。長音でない場合は(S9:NO)、その音節に使用する音声単位データを変更する必要はないので、そのまま通常音声単位データ23を選択し(S11)、S23に進む。
Next, for each syllable of the
処理対象音節が長音の場合には(S9:YES)、さらに、その音節がアクセントを有するか否かを判断する(S13)。その音節にアクセントがない場合には(S13:NO)、長音用の音声単位データは使用せず、通常音声単位データ23を使って、直前の音素の継続時間長を延長して長音とする(S15)。そして、S23に進む。
If the syllable to be processed is a long sound (S9: YES), it is further determined whether or not the syllable has an accent (S13). If there is no accent in the syllable (S13: NO), the sound unit data for long sound is not used, but the normal
処理対象音節が長音であり(S9:YES)、かつアクセントがある場合には(S13:YES)、さらに、その音節がポーズの直前であるか否かを判断する(S17)。ポーズの直前でない場合には(S17:NO)、当該長音用に使用する音声単位データとして長音用第1音声単位データ24に記憶されている音声単位データを選択する(S19)。そして、S23に進む。既述のように、長音用第1音声単位データ24データは、直前の音素と同じ音韻を持ち、直後にポーズのない長音の発声を集めて切り出した音声単位データであるから、これを用いることにより、耳に自然な長音を合成することができる。
If the syllable to be processed is a long sound (S9: YES) and there is an accent (S13: YES), it is further determined whether or not the syllable is immediately before a pause (S17). If it is not immediately before the pause (S17: NO), the voice unit data stored in the first
処理対象音節が長音で(S9:YES)、かつアクセントがあり(S13:YES)、その音節がポーズの直前である場合には(S17:YES)、当該長音用に使用する音声単位データとして長音用第2音声単位データ25に記憶されている音声単位データを選択する(S21)。既述のように、長音用第2音声単位データ25は、直後にポーズのある長音の発声を集めて切り出した音声単位データであり、長音用第1音声単位データ24とはピッチの下がり方が異なるため、ポーズのある場合にもの長音用第2音声単位データ25を用いることにより、より自然な長音を合成することができる。
When the syllable to be processed is a long sound (S9: YES) and there is an accent (S13: YES) and the syllable is immediately before a pause (S17: YES), a long sound is used as voice unit data used for the long sound. The audio unit data stored in the second
以上のS9〜S21の処理により、処理対象音節に使用する音声単位データが選択されたので、その選択に従って、S3及びS5で計算されたピッチと音量を変更し(S23)、RAM12のバッファに記憶する(S25)。そして、全ての音節について処理が終了したか否かを判断し(S27)、全音節について終了していれば(S27:YES)、処理を終了する。バッファに記憶された合成音声信号は、オーディオ部31に送られ、音声波形信号に変換されて、スピーカ32から音響信号として出力されることになる。まだ未処理の音節が残っていれば(S27:NO)、次の音節を処理対象音節として、S9〜S25を繰り返す。
Through the processes of S9 to S21, the voice unit data to be used for the processing target syllable is selected. According to the selection, the pitch and volume calculated in S3 and S5 are changed (S23) and stored in the buffer of the RAM 12 (S25). Then, it is determined whether or not processing has been completed for all syllables (S27). If all syllables have been completed (S27: YES), processing is terminated. The synthesized speech signal stored in the buffer is sent to the
次に図3に示す例を参照して、以上の処理を具体的に説明する。最初の音節101の「ジョー」は、長音であり(S9:YES)、アクセントも有り(S13:YES)、その直後にポーズもあるので(S17:YES)、通常音声データ「jo」と長音用第2音声単位データ25「o-~」が選択され(S21)、ポーズ前長音用モデルである長音用第2音声単位データ25を使用してピッチ・音量を変更し(S23)、バッファに記憶する(S27)。
Next, the above processing will be specifically described with reference to the example shown in FIG. “Joe” in the
次の音節「イッ」は、長音ではないから(S9:NO)、そのまま通常音声単位データが選択され(S11)、ピッチや音量の変更は行なわれない(S23)。3番目の音節102の「シュー」は、長音であるが(S9:YES)、アクセントはない(S13:NO)。従って、選択されている通常音声単位データである「shu」の母音部分「u」の継続時間長を延長することとする(S15)。
Since the next syllable “I” is not a long sound (S9: NO), normal voice unit data is selected as it is (S11), and the pitch and volume are not changed (S23). The “shoe” of the
4〜6番目の音節「カン」「バ」「カ」「リ」は、長音ではないから(S9:NO)、そのまま通常音声単位データが選択され(S11)、ピッチや音量の変更は行なわれない(S23)。 Since the fourth to sixth syllables “Kan” “B” “K” “Li” are not long sounds (S9: NO), normal voice unit data is selected as it is (S11), and the pitch and volume are changed. No (S23).
7番目の音節103の「ニュー」は、長音であるが(S9:YES)、アクセントはない(S13:NO)。従って、通常音声単位データ23に記憶されている対応音声単位データである「nyu」の母音部分「u」の継続時間長を延長することとし(S15)、これに従ってピッチ・音量を変更し(S23)、バッファに記憶する(S27)。
“New” in the
8番目の音節104の「ヨー」は、長音であり(S9:YES)、アクセントも有るが(S13:YES)、その後にポーズはないので(S17:NO)、長音用第1音声単位データ24「o-」が選択され(S19)、ポーズなし長音用モデルである長音用第1音声単位データ24を使用してピッチ・音量を変更し(S23)、バッファに記憶する(S27)。
“Yaw” in the
9番目〜最後の音節には、長音はないので(S9:NO)、そのまま通常音声単位データが選択され(S11)、ピッチや音量の変更は行なわれない(S23)。以上で全ての音節について使用する音声単位データが決定・変更され、ピッチや音量が設定されて合成音声信号が生成され、バッファに記憶されたので、処理を終了して、生成された合成音声信号をオーディオ部31に送る。これを受けたオーディオ部31では、合成音声信号が音声波形信号に変換されて、スピーカ32から音響信号として出力される。
Since the ninth to last syllables have no long sound (S9: NO), normal voice unit data is selected as it is (S11), and the pitch and volume are not changed (S23). The voice unit data to be used for all syllables is determined / changed, the pitch and volume are set, and the synthesized voice signal is generated and stored in the buffer. Is sent to the
以上説明したように、長音の音声単位データとして、アクセントの有無及び直後のポーズの有無で異なるモデルを予め用意しておき、長音やポーズを検出してそれぞれに対応する音声単位データを使用するので、より自然な長音の合成音声を出力することができる。すなわち、同じ長音であっても、アクセントがある音節の場合は、ピッチがアクセントの前後で急激に落ちるため、特別な長音モデルを前の音素に結合しても違う音に聞こえにくく、直前の音素を引き延ばす通常音声単位データを使用するよりも自然に聞こえやすい効果がある。また、直後にポーズがあるかどうかでピッチの下がり方が異なるので、ポーズの有無で長音モデルを別に用意しておけば、さらに自然な長音を得ることができる。 As described above, as long sound unit data, different models are prepared in advance depending on the presence or absence of an accent and the presence or absence of a pause immediately after that, and the sound unit data corresponding to each is used by detecting a long sound or a pause. It is possible to output a synthesized voice of a more natural long sound. That is, even in the case of syllables with the same long sound, but with accents, the pitch drops sharply before and after the accent. It is easier to hear naturally than using normal voice unit data. Moreover, since the way of decreasing the pitch differs depending on whether there is a pause immediately after that, if a long sound model is prepared separately depending on whether there is a pause, a more natural long sound can be obtained.
尚、上記実施の形態において、図2のフローチャートのS2において言語解析処理を実行するCPU10が本発明の読み情報生成手段として機能し、S3及びS5においてピッチ計算・音量計算処理を実行するCPU10が本発明の音声合成手段として機能し、S9において長音か否かを判断するCPU10が本発明の長音検出手段として機能し、S13においてアクセントの有無を判断するCPU10が本発明のアクセント判断手段として機能し、S17でポーズの有無を判断するCPU10が本発明のポーズ判断手段として機能し、S19及びS21で長音用第1音声単位データ又は長音用第2音声単位データを選択し、S23でピッチ・音量を変更するCPU10が本発明の音声単位データ変更手段として機能する。
In the above embodiment, the
1 音声合成装置
10 CPU
13 RAM
20 外部記憶装置
21 音声合成プログラム
22 言語辞書
23 通常音声単位データ
24 長音用第1音声単位データ
25 長音用第2音声単位データ
1
13 RAM
20
Claims (4)
入力されたテキストを、辞書を用いて解析し、アクセント付読み情報を生成する読み情報生成手段と、
当該読み情報生成手段により生成された読み情報に、前記通常音声単位データ記憶手段に記憶された通常音声単位データを適用して合成音声を出力する音声合成手段とを備えた音声合成装置において、
長音の読み情報に対応する長音用第1音声単位データを記憶した長音用第1音声単位データ記憶手段と、
前記読み情報生成手段により生成された読み情報から長音を検出する長音検出手段と、
当該長音検出手段が検出した長音がアクセントを含むか否かを判断するアクセント判断手段と、
当該アクセント判断手段がアクセント有りと判断した場合には、前記通常音声単位データに代えて、前記長音用第1音声単位データ記憶手段に記憶された長音用第1音声単位データを適用する音声単位データ変更手段と、
を備えたことを特徴とする音声合成装置。 Normal speech unit data storage means for storing normal speech unit data corresponding to text reading information;
Reading information generation means for analyzing input text using a dictionary and generating accented reading information;
In a speech synthesizer comprising speech synthesis means for outputting synthesized speech by applying normal speech unit data stored in the normal speech unit data storage means to the reading information generated by the reading information generating means,
First sound unit data storage unit for long sound that stores first sound unit data for long sound corresponding to long sound reading information;
A long sound detecting means for detecting a long sound from the reading information generated by the reading information generating means;
An accent determining means for determining whether or not the long sound detected by the long sound detecting means includes an accent;
When the accent determination means determines that there is an accent, the voice unit data to which the first sound unit data for long sound stored in the first sound unit data storage means for long sound is applied instead of the normal sound unit data Change means,
A speech synthesizer characterized by comprising:
前記長音検出手段が検出した長音の直後の前記読み情報に、ポーズが存在するか否かを判断するポーズ判断手段とを備え、
前記音声単位データ変更手段は、当該ポーズ判断手段がポーズ有りと判断した場合には、前記通常音声単位データに代えて、前記長音用第2音声単位データ記憶手段に記憶された長音用第2音声単位データを適用し、前記ポーズ判断手段がポーズなしと判断した場合には、前記長音用第1音声単位データ記憶手段に記憶された長音用第1音声単位データを適用することを特徴とする請求項1に記載の音声合成装置。 Second sound unit data storage means for long sound storing second sound unit data for long sound corresponding to reading information of a long sound accompanied by a pause immediately after,
Pause determination means for determining whether or not there is a pause in the reading information immediately after the long sound detected by the long sound detection means,
The sound unit data changing means, when the pause determining means determines that there is a pause, the second sound for long sound stored in the second sound unit data storing means for long sound instead of the normal sound unit data. The unit data is applied, and when the pause determination unit determines that there is no pause, the first sound unit data for long sound stored in the first sound unit data storage unit for long sound is applied. Item 2. The speech synthesizer according to Item 1.
当該読み情報生成ステップにおいて生成された読み情報に、テキストの読み情報に対応するように通常音声単位データ記憶手段に記憶された通常音声単位データを適用して合成音声を出力する音声合成ステップとをコンピュータに実行させる音声合成プログラムにおいて、
前記読み情報生成ステップにおいて生成された読み情報から長音を検出する長音検出ステップと、
当該長音検出ステップにおいて検出された長音がアクセントを含むか否かを判断するアクセント判断ステップと、
当該アクセント判断ステップにおいてアクセント有りと判断された場合には、前記通常音声単位データに代えて、長音の読み情報に対応するように長音用第1音声単位データ記憶手段に記憶された長音用第1音声単位データを適用する音声単位データ変更ステップとをコンピュータにさらに実行させる音声合成プログラム。 A reading information generation step of analyzing input text using a dictionary and generating accented reading information;
A speech synthesis step of outputting synthesized speech by applying the normal speech unit data stored in the normal speech unit data storage means to the reading information generated in the reading information generation step so as to correspond to the text reading information. In a speech synthesis program to be executed by a computer,
A long sound detecting step for detecting a long sound from the reading information generated in the reading information generating step;
An accent determination step for determining whether or not the long sound detected in the long sound detection step includes an accent;
If it is determined that there is an accent in the accent determination step, the first long sound first data stored in the long sound first sound unit data storage means so as to correspond to the long sound reading information instead of the normal sound unit data. A speech synthesis program for causing a computer to further execute a speech unit data changing step for applying speech unit data.
前記音声単位データ変更ステップでは、当該ポーズ判断ステップにおいてポーズ有りと判断された場合には、前記通常音声単位データに代えて、直後にポーズを伴う長音の読み情報に対応するように長音用第2音声単位データ記憶手段に記憶された長音用第2音声単位データを適用し、前記ポーズ判断ステップにおいてポーズなしと判断された場合には、前記長音用第1音声単位データを適用することを特徴とする請求項3に記載の音声合成プログラム。 Causing the computer to further execute a pause determination step for determining whether or not there is a pause in the reading information immediately after the long sound detected in the long sound detection step;
In the sound unit data changing step, when it is determined that there is a pause in the pause determining step, the second long sound second information is used so as to correspond to the long sound reading information immediately following the pause instead of the normal sound unit data. The second sound unit data for long sound stored in the sound unit data storage means is applied, and when it is determined that there is no pause in the pause determination step, the first sound unit data for long sound is applied. The speech synthesis program according to claim 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004174943A JP2005352327A (en) | 2004-06-14 | 2004-06-14 | Device and program for speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004174943A JP2005352327A (en) | 2004-06-14 | 2004-06-14 | Device and program for speech synthesis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005352327A true JP2005352327A (en) | 2005-12-22 |
Family
ID=35586842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004174943A Pending JP2005352327A (en) | 2004-06-14 | 2004-06-14 | Device and program for speech synthesis |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005352327A (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05233625A (en) * | 1992-02-18 | 1993-09-10 | Hitachi Ltd | Sentence reading-out device and voice dictionary preparing method |
JPH0736905A (en) * | 1993-07-16 | 1995-02-07 | Oki Electric Ind Co Ltd | Text speech converting device |
JP2000206982A (en) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | Speech synthesizer and machine readable recording medium which records sentence to speech converting program |
JP2001100776A (en) * | 1999-09-30 | 2001-04-13 | Arcadia:Kk | Vocie synthesizer |
-
2004
- 2004-06-14 JP JP2004174943A patent/JP2005352327A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05233625A (en) * | 1992-02-18 | 1993-09-10 | Hitachi Ltd | Sentence reading-out device and voice dictionary preparing method |
JPH0736905A (en) * | 1993-07-16 | 1995-02-07 | Oki Electric Ind Co Ltd | Text speech converting device |
JP2000206982A (en) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | Speech synthesizer and machine readable recording medium which records sentence to speech converting program |
JP2001100776A (en) * | 1999-09-30 | 2001-04-13 | Arcadia:Kk | Vocie synthesizer |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007206317A (en) | Authoring method and apparatus, and program | |
JP2007140200A (en) | Language learning device and program | |
JP4856560B2 (en) | Speech synthesizer | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP2007212884A (en) | Speech synthesizer, speech synthesizing method, and computer program | |
JP5819147B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
JP3728173B2 (en) | Speech synthesis method, apparatus and storage medium | |
JP2006313176A (en) | Speech synthesizer | |
JP2010169973A (en) | System and program for supporting foreign language learning | |
JP2006227564A (en) | Sound evaluating device and program | |
JP4964695B2 (en) | Speech synthesis apparatus, speech synthesis method, and program | |
JP2006030609A (en) | Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program | |
JP2005352327A (en) | Device and program for speech synthesis | |
JP2008257116A (en) | Speech synthesis system | |
JP2006349787A (en) | Method and device for synthesizing voices | |
JP2004171174A (en) | Device and program for reading text aloud, and recording medium | |
JP4751230B2 (en) | Prosodic segment dictionary creation method, speech synthesizer, and program | |
JPH11282494A (en) | Speech synthesizer and storage medium | |
JP2002268664A (en) | Voice converter and program | |
JP3414326B2 (en) | Speech synthesis dictionary registration apparatus and method | |
JP3870583B2 (en) | Speech synthesizer and storage medium | |
JP2004258561A (en) | Program and device for inputting data for singing synthesis | |
JPH11296193A (en) | Voice synthesizer | |
JP6159436B2 (en) | Reading symbol string editing device and reading symbol string editing method | |
JP2005037423A (en) | Speech output device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070328 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100629 |