JPH038000A - Voice rule synthesizing device - Google Patents

Voice rule synthesizing device

Info

Publication number
JPH038000A
JPH038000A JP1142408A JP14240889A JPH038000A JP H038000 A JPH038000 A JP H038000A JP 1142408 A JP1142408 A JP 1142408A JP 14240889 A JP14240889 A JP 14240889A JP H038000 A JPH038000 A JP H038000A
Authority
JP
Japan
Prior art keywords
information
synthesis
speaker
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1142408A
Other languages
Japanese (ja)
Inventor
Akira Yamamura
山村 彰
Noboru Uechi
上地 登
Kanji Kunisawa
国澤 寛治
Junko Omukai
大向 順子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP1142408A priority Critical patent/JPH038000A/en
Publication of JPH038000A publication Critical patent/JPH038000A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To reduce the cost by converting rhythm information which is supplied from outside into rhythm information corresponding to a synthesized voice speaker specified with speaker information. CONSTITUTION:Synthesis unit storage parts 5 - 7 are stored with relatively short acoustic parameters as synthesis units and also stored with synthesis units corresponding to synthesized voice speakers. A synthesis rule storage part 8 is stored with a synthesis rule for combining the synthesis units. A rhythm information conversion part 9 converts the rhythm information which is supplied from outside into the rhythm information corresponding to the synthesized voice speaker specified with the speaker information. A synthesis unit selection part 4 extracts synthesis units specified with the speaker information from storage parts 5 - 7 selectively. A voice parameter generation part 1 generates a voice parameter corresponding to the synthesized voice speaker according to the rhythm information and phoneme information converted by the conversion part 9 and the synthesis units and synthesis rule selected by the selection part 4. A voice synthesizer 2 synthesize a voice according to the voice parameter.

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、比較的に短い音響パラメータで構成された合
成単位に合成規則を適用して合成音声を作成する音声規
則合成装置に関するものである。
[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a speech rule synthesis device that creates synthesized speech by applying synthesis rules to synthesis units composed of relatively short acoustic parameters. .

(従来の技術1 従来のこの種の音声規則合成装置としては第4図に示す
ものがあり、この音声規則合成i置では、音素、CV、
VC,VCV(Cは子音、■は母音)といった比較的に
短い音響パラメータを合成単位として合成単位記憶部5
に蓄積しておき、文字、発音記号等の音韻情報と、長さ
、イントネーシヨン等の韻律情報とを外部から入力とし
て与え、これら情報と共に合成規則記憶部8に記憶され
た合成規則を用いて合成単位を組み合わせて音声パラメ
ータ生成部1で音声パラメータを生成し、この音声パラ
メータを音声合成器2に与えて合成音声を作り出すよう
にしである。この方式を用いれば、与えられた音韻情報
と韻律情報とに基づいて任意の自然な文章を合成するこ
とができる。ところで、上記韻律情報は音韻情報だけか
ら規則により生成することも可能であるが、このように
して生成された韻律情報を基づいて規則合成された合成
音は自然性が不十分となる。そこで、特願昭60−13
8517号([音声コード生成方法」)で示されている
ように、自然音声から韻律情報を抽出すれば、自然性の
高い合成音声を生成することが可能である。
(Prior art 1) A conventional speech rule synthesis device of this type is shown in FIG. 4. In this speech rule synthesis device, phonemes, CV,
A synthesis unit storage unit 5 uses relatively short acoustic parameters such as VC and VCV (C is a consonant and ■ is a vowel) as a synthesis unit.
Phonological information such as characters and phonetic symbols, and prosodic information such as length and intonation are inputted from the outside, and the synthesis rules stored in the synthesis rule storage unit 8 along with these information are used. A speech parameter generation section 1 generates speech parameters by combining synthesis units, and the speech parameters are supplied to a speech synthesizer 2 to produce synthesized speech. Using this method, it is possible to synthesize any natural sentence based on the given phonetic information and prosody information. By the way, although the above-mentioned prosody information can be generated according to rules from only the phonetic information, the synthesized speech synthesized according to the rules based on the prosody information generated in this way is insufficiently natural. Therefore, the special application for 1986-13
As shown in No. 8517 ([Speech code generation method]), if prosody information is extracted from natural speech, it is possible to generate highly natural synthesized speech.

[発明が解決しようとする課題] ところで、異なる合成音声話者の合成音声を作成するた
めには、第5図に示す音声規則合成装置が用いられてい
る。この音声規則合成装置では、合成音声話者を特定す
る話者情報を外部から入力として与えるよ1にし、合成
音声話者毎に対応した合成単位を夫々蓄積する合成単位
記憶部5〜7と、話者情報で特定された合成単位を合成
音声話者に対応する合成単位記憶部5〜7から選択的に
抽出する合成単位選択部4とを備え、同一の音韻情報で
異なる合成音声話者の合成音声を作成することができる
ようになっている。
[Problems to be Solved by the Invention] Incidentally, in order to create synthesized speech of different synthesized speech speakers, a speech rule synthesis device shown in FIG. 5 is used. This speech rule synthesis device includes synthesis unit storage units 5 to 7 which input speaker information specifying a synthesized speech speaker from the outside and store synthesis units corresponding to each synthesized speech speaker. a synthesis unit selection unit 4 that selectively extracts synthesis units specified by the speaker information from the synthesis unit storage units 5 to 7 corresponding to the synthesized speech speaker; It is now possible to create synthetic speech.

しかし、このように異なる合成音声話者の合成音声を作
成する場合に、韻律情報の内の合成単位の長さと強さに
関する情報は、異なる合成音声話者に対しても共通に用
いることができるが、高さに関する情報、即ちピッチ情
報は、合成音声の音質の劣化を招くために共通に用いる
ことができない。つまりは、音韻情報が同一でも異なる
合成音声話者の合成音を合成する場合には、夫々の合成
音声話者に対応した韻律情報を音声合成器に入力する必
要がある。しかし、韻律情報を自然音声から抽出する場
合には、合成音声の自然性を確保するために合成音声を
聴取しながら韻律情報を修正する作業が介在するため、
その生産性は低く、時間的、経済的に問題があった。
However, when creating synthesized speech for different synthesized speech speakers in this way, information regarding the length and strength of the synthesis unit in the prosodic information can be used in common for different synthesized speech speakers. However, information regarding height, that is, pitch information cannot be commonly used because it causes deterioration in the sound quality of synthesized speech. In other words, when synthesizing synthesized speech of different synthesized speech speakers even if the phonetic information is the same, it is necessary to input prosodic information corresponding to each synthesized speech speaker into the speech synthesizer. However, when extracting prosodic information from natural speech, it is necessary to modify the prosodic information while listening to the synthesized speech in order to ensure the naturalness of the synthesized speech.
The productivity was low and there were time and economic problems.

本発明は上述の点に鑑みて為されたものであり、その目
的とするところは、異なる合成音声話者の合成音声を作
成する場合にも、同一の韻律情報を用いることができる
音声規則合成装置を提供することにある。
The present invention has been made in view of the above points, and its purpose is to provide speech rule synthesis that can use the same prosodic information even when creating synthesized speech of different synthesized speech speakers. The goal is to provide equipment.

[課題を解決するための手段] 上記目的を達成するために、本発明は合成音声話者を特
定する話者情報を外部から与えると共に、話者情報で特
定された合成音声話者に応じた韻律情報に外部から与え
られた韻律情報を変換する韻律情報変換部を設けである
。なお、上記話者情報は音韻情報及び韻律情報と関連さ
せて外部から与えても良い。また、話者情報で男声及び
女声を特定する場合には、上記韻律情報変換部で話者情
報により男声が特定された場合に女声の場合よりも7α
ピツチデータを1オクターブ低く変換するようにすれば
良い。
[Means for Solving the Problems] In order to achieve the above object, the present invention externally provides speaker information for specifying a synthesized speech speaker, and provides information on the synthesized speech speaker identified by the speaker information. A prosodic information converter is provided for converting prosodic information given from the outside into prosodic information. Note that the above speaker information may be provided from the outside in association with phoneme information and prosody information. In addition, when specifying a male voice and a female voice using speaker information, when a male voice is specified using the speaker information in the prosodic information converter, it is 7α higher than when a female voice is specified.
All you have to do is convert the pitch data one octave lower.

[作用] 本発明は、上述のように韻律情報変換部で話者情報で特
定されな合成音声話者に応じた韻律情報に外部から与え
られた韻律情報を変換することにより、異なる合成音声
話者の音声を生成する場合にも、外部からは同一の韻律
情報を入力できるようにし、入力情報の作成において最
も手間と費用のかかる韻律情報の作成回数を削減でき、
1つの合成音戸当たりの入力情報作成費用を低くできる
ようにしたものである。
[Operation] As described above, the present invention converts prosodic information given from the outside into prosodic information corresponding to a synthesized speech speaker not specified by the speaker information in the prosodic information converter, thereby converting prosodic information into different synthesized speech stories. Even when generating human speech, the same prosodic information can be input from the outside, reducing the number of times the prosodic information is created, which is the most time-consuming and expensive process when creating input information.
This makes it possible to reduce the input information creation cost per one synthesized sound door.

[実施例1] 第1図及び第2図に本発明の一実施例を示す。[Example 1] An embodiment of the present invention is shown in FIGS. 1 and 2. FIG.

本実施例では、PARCOR方式の音声合成器を用いて
、3人の合成音声話者の合成音声を生成する場合につい
て説明する。この音声規則合成装置においても、合成音
声の音質を設定する音韻情報及び韻律情報と、合成音声
話者を特定する話者情報とが外部から与えられ、これら
情報に基づいて合成音声を生成する。そして、音声規則
合成装置は、比較的に短い音響パラメータを合成単位と
して蓄積すると共に、合成音声話者毎に対応した合成単
位を夫々蓄積する3個の合成単位記憶部5〜7と、合成
単位を組み合わせる際の合成単位の接続方法、イントネ
ーションの付与の方法等に関する合成規則がIF積され
た合成規則記憶部8と、話者情報で特定された合成音声
話者に応じた韻律情報に外部から与えられた韻律情報を
変換する韻律情報変換部9と、話者情報で特定された合
成単位を合成単位記憶部5〜7から選択的に抽出する合
成単位選択部4と、上記韻律情報変換部9により変換さ
れた韻律情報、音韻情報、上記合成単位選択部で選択さ
れた合成音声話者に対応する合成単位、及び合成規則よ
り上記合成音声話者に対応する音声パラメータを生成す
る音声パラメータ生成部1と、この音声パラメータ生成
部1で生成された音声パラメータに応じて合成音声を作
成するPARCOR方式の音声合成器2と、D/A変換
器、ローパスフィルタ、スピーカ等゛の音響pH器から
なる出力処理部3とで構成しである。この音声規則合成
装置では、音韻情報として入力文字系列を■CV音額音
列系列換(例えば、/ yokohama/ (横浜)
をyo、oko、oha、amaの4個の音韻連鎖系列
に区分化)したものを用いである。つまりは、この音声
規則合成装置はvcvm集合成方式を採用したものであ
る。そして、このようなVCV編集合成方式で以下のよ
うな韻律要素を用いる。
In this embodiment, a case will be described in which synthesized speech of three synthesized speech speakers is generated using a PARCOR type speech synthesizer. This speech rule synthesis device also receives phonological information and prosody information for setting the tone quality of the synthesized speech and speaker information for specifying the speaker of the synthesized speech from the outside, and generates the synthesized speech based on these information. The speech rule synthesis device stores relatively short acoustic parameters as synthesis units, and also includes three synthesis unit storage units 5 to 7 that store synthesis units corresponding to each synthesized speech speaker, and synthesis units. Synthesis rule storage unit 8 contains synthesis rules related to how to connect synthesis units when combining, how to add intonation, etc., and prosodic information corresponding to the synthesized speech speaker specified by speaker information is stored from outside. a prosody information converter 9 that converts given prosody information; a synthesis unit selector 4 that selectively extracts synthesis units specified by speaker information from synthesis unit storage units 5 to 7; and the above-mentioned prosody information conversion section. Speech parameter generation that generates speech parameters corresponding to the synthesized speech speaker from the prosodic information and phonological information converted in step 9, the synthesis unit corresponding to the synthesized speech speaker selected by the synthesis unit selection section, and the synthesis rule. 1, a PARCOR-based speech synthesizer 2 that creates synthesized speech according to the speech parameters generated by the speech parameter generation section 1, and an acoustic pH device such as a D/A converter, a low-pass filter, and a speaker. It consists of an output processing section 3. This speech rule synthesis device converts an input character sequence as phoneme information into a CV tone sequence sequence (for example, / yokohama / (Yokohama)).
is segmented into four phoneme chain sequences: yo, oko, oha, and ama). In other words, this speech rule synthesis device employs the VCVM set synthesis method. The following prosodic elements are used in such a VCV editing and synthesis method.

1、母音重心点におけるピッチ(点ピッチ)の値2、隣
接する点ピッチ間の時間間隔が与えられるVCV連鎖長 3、点ピッチ位置における振幅値 そこで、この音声規則合成装置では、韻律情報として第
2図に示すように上記3韻律要素を外部から与えるよう
にしである。また、合成単位記憶部5には、■C■音韻
連鎖データが合成単位として記憶してあり、このVC■
音韻連鎖データは、スペクトル包絡情報を担うPARC
OR係数、音源の性質を示す有声・無性係数、及び振幅
情報等により表現されるものである。さらに、合成規則
としては■CV連頻氏に応じて母音定常部間を直線結合
すると共に、点ピッチを直線結合し、点ピッチにおける
振幅レベル情報から母音定常部の振幅レベルと母音過渡
部と子音部の振幅レベルを生成する方法を用いである。
1. The value of the pitch (point pitch) at the center of vowel gravity 2. The VCV chain length that gives the time interval between adjacent point pitches 3. The amplitude value at the point pitch position Therefore, in this speech rule synthesis device, the value of the pitch (point pitch) at the vowel gravity center point is given as 3. As shown in Figure 2, the three prosodic elements mentioned above are provided externally. In addition, the synthesis unit storage unit 5 stores ■C■ phoneme chain data as a synthesis unit, and this VC■
Phonological chain data is PARC which carries spectral envelope information.
It is expressed by an OR coefficient, a voiced/asexual coefficient indicating the nature of the sound source, amplitude information, etc. Furthermore, as a synthesis rule, ■ linearly connect the vowel constant parts according to the CV series, and linearly connect the point pitches, and from the amplitude level information at the point pitch, the amplitude level of the vowel constant part, the vowel transient part, and the consonant. The method is used to generate the amplitude level of the section.

また、上記話者情報は合成音声話者選択用の8!械的ス
イツチから入力するようにしてあり、ある1人の合成音
声話者の合成音声を生成するときには合成単位記憶部5
〜7のいずれかの合成単位のみが使用される。
Also, the above speaker information is 8! for synthetic voice speaker selection. It is configured to input from a mechanical switch, and when generating synthesized speech of one synthesized speech speaker, the synthesis unit storage unit 5
Only any of the synthetic units .about.7 are used.

今、ひとまとまりの文章に関する音韻情報、韻律情報及
び話者情報が入力されると、合成単位選択部4が合成単
位記憶部5〜7のいずれかを選択する。なお、以下の説
明では合成音声話者AI:対応する合成単位記憶部5、
が選択された場合について説明する。このように合成音
声話者Aが選択されると、韻律情報は韻律情報変換部9
において話者情報により特定された合成音声話者Aに対
応した韻律情報に変換される。この韻律情報を変換する
方法は、例えば!@2図に示すように話者情報に従って
点ピッチデータを乗算器10に接続し、この乗算器10
で点ピッチデータに定数を乗算する方法等がある。次に
、音声パラメータ生成部1では、音韻情報に従つて合成
単位記憶部5から必要な合成単位を読み出し、上記変換
された韻律情報と合成規則記憶部8に記憶された合成規
則に従って長さ、イントネーション等を付与して音声パ
ラメータを生成する。この音声パラメータは、PARC
OR係数、ピッチ・パラメータ等が時系列に並んだもの
である。この音声パラメータは、音声合成器2でディジ
タル信号である合成音声信号に変換され、出力処理部3
を通して合成音声として出力される。このように本実施
例では、複数の合成音声話者について同一韻律情報を持
つ合成音声を生成する場合、音韻情報と韻律情報とは同
一のものを用いることができ、これら情報を格納する記
憶媒体または伝送される情報量を少なくすることができ
る。しかも、例えば上記情報をバーコード中に埋め込ん
だ場合は、人がそれら情報の格納位置を選択するといっ
た繁雑さから解放される。
Now, when the phonetic information, prosody information, and speaker information regarding a group of sentences are input, the synthesis unit selection section 4 selects one of the synthesis unit storage sections 5 to 7. In the following explanation, synthesized voice speaker AI: corresponding synthesis unit storage unit 5,
The case where is selected will be explained. When synthesized speech speaker A is selected in this way, the prosody information is converted to the prosody information converter 9.
The synthesized speech is converted into prosodic information corresponding to the synthesized speech speaker A specified by the speaker information. For example, how to convert this prosodic information! @2 As shown in Figure 2, the point pitch data is connected to the multiplier 10 according to the speaker information, and the multiplier 10
There are methods such as multiplying the point pitch data by a constant. Next, the speech parameter generation section 1 reads the necessary synthesis unit from the synthesis unit storage section 5 according to the phonetic information, and according to the converted prosody information and the synthesis rule stored in the synthesis rule storage section 8, the length, Generate voice parameters by adding intonation, etc. This audio parameter is
OR coefficients, pitch parameters, etc. are arranged in chronological order. These voice parameters are converted into a synthesized voice signal, which is a digital signal, by the voice synthesizer 2, and then sent to the output processing unit 3.
is output as a synthesized voice. In this way, in this embodiment, when generating synthesized speech having the same prosodic information for a plurality of synthetic speech speakers, the same phonological information and prosodic information can be used, and the storage medium that stores this information can be used. Alternatively, the amount of information to be transmitted can be reduced. Furthermore, if the above information is embedded in a barcode, for example, the user is freed from the complexity of selecting the location where the information is stored.

また、合成単位記憶部を追加する場合にも、音韻情報や
韻律情報の変更をすることなく、韻律情報変換部9だけ
を変更すれば良いので、拡張性に富む音声規則合成iI
c置となる。
Furthermore, even when adding a synthesis unit storage section, only the prosodic information conversion section 9 needs to be changed without changing the phonological information or prosody information.
It will be placed in c position.

ところで、上述の実施例では話者情報を合成音声話者選
択用の機械的スイッチから入力するようにしてあったが
、話者情報を音韻情報屋V韻律情報と同じ記憶媒体に格
納しても良い。この場合には話者情報を予め設定してお
いて、音韻gt報及び韻律情報と関連させて外部から与
えることができ、合成音声の発話中に話者を切り換える
といった手操作が不要となり、会話文等のように比較的
に短い時間内で話者が変わる場合であっても、話者の変
更を滑らかに行うことができる。
By the way, in the above embodiment, the speaker information is input from a mechanical switch for selecting a synthesized voice speaker, but even if the speaker information is stored in the same storage medium as the phonological information store V prosodic information, good. In this case, speaker information can be set in advance and given externally in association with phonetic gt information and prosodic information, eliminating the need for manual operations such as switching speakers while the synthesized speech is being uttered. Even when the speaker changes within a relatively short period of time, such as in a sentence, the speaker can be changed smoothly.

[実施例2] 本実施例は男声と女声とを同じ音韻情報及び韻律情報に
基づいて出力する音声規則合成装置に関するものである
。本実施例の場合には、最低で男声及び女声に応じた2
個の合成単位記憶部5,6を設け、話者情報で男声及び
女声を特定するようにすれば良い。なお、男声と女声と
を同じ音韻情報及び韻律情報に基づいて出力する場合に
は、上記韻律情報変換部9に第3図に示すように172
回路11を設け、この1/2回路11で話者情報により
男声が特定された場合に女声の場合よりも韻律情報の内
の点ピッチデータを1オクターブ低く変換するようにす
れば良い。このようにすれば、従来は適当に下げられて
いた点ピッチデータを正確に1オクターブだけ低くでき
、例えば音声合成歌唱器等で有効に用いることができる
。しかも、点ピッチデータを1/2にする処理は簡単に
行える利点もある。
[Embodiment 2] This embodiment relates to a speech rule synthesis device that outputs a male voice and a female voice based on the same phoneme information and prosody information. In the case of this embodiment, at least two voices corresponding to male and female voices are used.
It is sufficient to provide two synthesis unit storage units 5 and 6, and specify male and female voices based on speaker information. In addition, when outputting a male voice and a female voice based on the same phonetic information and prosody information, the prosodic information converting section 9 has 172 as shown in FIG.
A circuit 11 may be provided, and the 1/2 circuit 11 may convert point pitch data in the prosodic information one octave lower than in the case of a female voice when a male voice is specified by the speaker information. In this way, the point pitch data, which was conventionally lowered appropriately, can be lowered by exactly one octave, which can be effectively used in, for example, a voice synthesizer singing device. Moreover, there is an advantage that the process of reducing the point pitch data to 1/2 can be easily performed.

なお、上述の各実施例の説明においては、音声パラメー
タを線形予測分析パラメータの−っであるPARCOR
係数とし、また合成音声話者の種類も3種類としたが、
上述のように限定されるものではない。さらに、合成単
位も■C■連鎖データを用いているが、それに限定され
るものではない。
In addition, in the description of each of the above-mentioned embodiments, the audio parameters are expressed as PARCOR, which is a linear predictive analysis parameter.
coefficients, and three types of synthesized speech speakers.
It is not limited to the above. Furthermore, although the synthetic unit also uses ■C■ chain data, it is not limited thereto.

[発明の効果1 本発明は上述のように、韻律情報変換部で話者情報で特
定された合成音声話者に応じた韻律情報に外部から与え
られた韻律情報を変換しでいるので、異なる合成音声話
者の音声を生成する場合にも、外部からは同一の韻律情
報を入力でき、このため入力情報の作成において最も手
間と費用のかかる韻律情報の作成回数を削減でき、1つ
の合成音戸当たりの入力情報作成費用を低くできる効果
がある。
[Effect of the Invention 1] As described above, the present invention converts prosodic information given from the outside into prosodic information corresponding to the synthesized speech speaker specified by the speaker information in the prosodic information converter, so that different Even when generating the voice of a synthetic voice speaker, the same prosodic information can be input from the outside, which reduces the number of times the prosodic information is created, which is the most time-consuming and expensive process when creating input information. This has the effect of lowering the cost of creating input information.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例の概略構成図、第2図は同上
の韻律情報変換部の構成図、第3図は他の実施例の韻律
情報変換部の構成図、第4図は従来例の概略構成図、第
5図は他の従来例の概略構成図である。 1は音声パラメータ生成部、2は音声合成器、4は合成
単位選択部、5〜7は合成単位記憶部、8は合成規則記
憶部、9は韻律情報変換部である。
FIG. 1 is a schematic block diagram of an embodiment of the present invention, FIG. 2 is a block diagram of the same prosody information converter as above, FIG. 3 is a block diagram of the prosody information converter of another embodiment, and FIG. FIG. 5 is a schematic diagram of another conventional example. 1 is a speech parameter generation section, 2 is a speech synthesizer, 4 is a synthesis unit selection section, 5 to 7 are synthesis unit storage sections, 8 is a synthesis rule storage section, and 9 is a prosodic information conversion section.

Claims (3)

【特許請求の範囲】[Claims] (1)合成音声の音質を設定する音韻情報及び韻律情報
と、合成音声話者を特定する話者情報とが外部から与え
られ、これら情報に基づいて合成音声を生成する音声規
則合成装置であって、比較的に短い音響パラメータを合
成単位として蓄積すると共に、合成音声話者毎に対応し
た合成単位を夫々蓄積する合成単位記憶部と、合成単位
を組み合わせる際の合成規則が蓄積された合成規則記憶
部と、話者情報で特定された合成音声話者に応じた韻律
情報に外部から与えられた韻律情報を変換する韻律情報
変換部と、話者情報で特定された合成単位を合成単位記
憶部から選択的に抽出する合成単位選択部と、上記韻律
情報変換部により変換された韻律情報、音韻情報、上記
合成単位選択部で選択された合成音声話者に対応する合
成単位、及び合成規則より上記合成音声話者に対応する
音声パラメータを生成する音声パラメータ生成部と、こ
の音声パラメータ生成部で生成された音声パラメータに
応じて合成音声を作成する音声合成器とを備えた音声規
則合成装置。
(1) A speech rule synthesis device that receives phonological information and prosody information that sets the sound quality of synthesized speech and speaker information that specifies the speaker of synthesized speech from the outside, and generates synthesized speech based on these information. a synthesis unit storage section that stores relatively short acoustic parameters as synthesis units, and also stores synthesis units corresponding to each synthesized speech speaker; and a synthesis rule that stores synthesis rules for combining synthesis units. a storage unit, a synthesized speech specified by the speaker information; a prosodic information conversion unit that converts prosodic information given from the outside into prosodic information according to the speaker; and a synthesis unit memory for the synthesis unit specified by the speaker information. a synthesis unit selection section that selectively extracts the prosodic information from the prosodic information conversion section, the prosodic information and phonetic information converted by the prosodic information conversion section, synthesis units corresponding to the synthesized speech speaker selected by the synthesis unit selection section, and synthesis rules. A voice rule synthesis device comprising: a voice parameter generation unit that generates voice parameters corresponding to the synthesized voice speaker; and a voice synthesizer that creates synthesized voice according to the voice parameters generated by the voice parameter generation unit. .
(2)上記話者情報が音韻情報及び韻律情報と関連させ
て外部から与えられる請求項1記載の音声規則合成装置
(2) The speech rule synthesis device according to claim 1, wherein the speaker information is provided from the outside in association with phonological information and prosody information.
(3)上記話者情報で男声及び女声を特定すると共に、
上記韻律情報変換部で話者情報により男声が特定された
場合に女声の場合よりも点ピッチデータを1オクターブ
低く変換して成る請求項1記載の音声規則合成装置。
(3) Identify male and female voices using the above speaker information, and
2. The speech rule synthesis device according to claim 1, wherein when said prosodic information converter identifies a male voice based on speaker information, the point pitch data is converted to be one octave lower than that for a female voice.
JP1142408A 1989-06-05 1989-06-05 Voice rule synthesizing device Pending JPH038000A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1142408A JPH038000A (en) 1989-06-05 1989-06-05 Voice rule synthesizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1142408A JPH038000A (en) 1989-06-05 1989-06-05 Voice rule synthesizing device

Publications (1)

Publication Number Publication Date
JPH038000A true JPH038000A (en) 1991-01-16

Family

ID=15314647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1142408A Pending JPH038000A (en) 1989-06-05 1989-06-05 Voice rule synthesizing device

Country Status (1)

Country Link
JP (1) JPH038000A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012108360A (en) * 2010-11-18 2012-06-07 Mitsubishi Electric Corp Prosody generation device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012108360A (en) * 2010-11-18 2012-06-07 Mitsubishi Electric Corp Prosody generation device

Similar Documents

Publication Publication Date Title
US5940797A (en) Speech synthesis method utilizing auxiliary information, medium recorded thereon the method and apparatus utilizing the method
JP3985814B2 (en) Singing synthesis device
US4912768A (en) Speech encoding process combining written and spoken message codes
JPH031200A (en) Regulation type voice synthesizing device
JP2564641B2 (en) Speech synthesizer
US7558727B2 (en) Method of synthesis for a steady sound signal
JPH08335096A (en) Text voice synthesizer
JPH09319391A (en) Speech synthesizing method
JP5175422B2 (en) Method for controlling time width in speech synthesis
JPH038000A (en) Voice rule synthesizing device
JP2011090218A (en) Phoneme code-converting device, phoneme code database, and voice synthesizer
JP2008058379A (en) Speech synthesis system and filter device
JP3081300B2 (en) Residual driven speech synthesizer
JPH11249679A (en) Voice synthesizer
JPH09179576A (en) Voice synthesizing method
JP3059751B2 (en) Residual driven speech synthesizer
JP2910587B2 (en) Speech synthesizer
JP3241582B2 (en) Prosody control device and method
JP2573586B2 (en) Rule-based speech synthesizer
JPS5880699A (en) Voice synthesizing system
Eady et al. Pitch assignment rules for speech synthesis by word concatenation
JPH0863187A (en) Speech synthesizer
JP3310217B2 (en) Speech synthesis method and apparatus
JP2573585B2 (en) Speech spectrum pattern generator
JP2002244693A (en) Device and method for voice synthesis