JPH0447840B2 - - Google Patents

Info

Publication number
JPH0447840B2
JPH0447840B2 JP58127999A JP12799983A JPH0447840B2 JP H0447840 B2 JPH0447840 B2 JP H0447840B2 JP 58127999 A JP58127999 A JP 58127999A JP 12799983 A JP12799983 A JP 12799983A JP H0447840 B2 JPH0447840 B2 JP H0447840B2
Authority
JP
Japan
Prior art keywords
speech
segment
pitch
syllable
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58127999A
Other languages
Japanese (ja)
Other versions
JPS6021098A (en
Inventor
Takashi Yato
Takashi Miki
Makoto Morito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP58127999A priority Critical patent/JPS6021098A/en
Publication of JPS6021098A publication Critical patent/JPS6021098A/en
Publication of JPH0447840B2 publication Critical patent/JPH0447840B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (技術分野) 本発明は、自然有声音における1ピツチの音声
素片に相当する波形データを素片単位として記憶
しておき、合成すべき音声に関する入力情報に応
じて作成された素片単位選択情報の系列に従つて
その素片単位を編集再生することにより音声を合
成する方法に関し、特に、前記入力情報に応じて
作成されるピツチ周期の系列と前記素片単位選択
情報の系列とを良好な音韻性と良好な韻律性とを
保持しつつ対応づけるようにした音声合成方法に
関する。
Detailed Description of the Invention (Technical Field) The present invention stores waveform data corresponding to one pitch speech element in natural voiced speech as a unit of speech element, and stores the waveform data corresponding to one pitch speech segment in natural voiced speech, and The method relates to a method of synthesizing speech by editing and reproducing the segment unit according to a series of created segment unit selection information, and in particular, a series of pitch periods created according to the input information and the segment unit. The present invention relates to a speech synthesis method in which a sequence of selection information is associated with a sequence while maintaining good phonology and prosody.

(従来技術) 汎用的な目的で大量の語彙、もしくは人名、会
社名、地名といつた任意の音声の出力を必要とす
る装置の要求が高まつている。音声の波形を観測
すると、母音などの有音声の区間ではよく似た波
形が繰り返されているのが分かる。この周期をピ
ツチ周期と呼び、この1つの周期内の波形を1ピ
ツチ単位の音声素片という。この音声素片の内容
の変化が音韻性を表し、この周期の変化の時間的
パタンがアクセントを与え、韻律性に一要素を表
す。母音等の有声音区間では殆ど同じ形の波形が
繰り返され、同じ種類の音声では似た形の波形が
現われる。従つて、音声中に現われる波形の中で
音声を作り上げるために必要な特徴的音声素片波
形を記憶装置に蓄積しておき、これを読み出して
編集することにより任意の連続した音声を合成で
きると考えられる。
(Prior Art) There is an increasing demand for devices that require the output of large vocabularies or arbitrary speech such as people's names, company names, and place names for general purposes. When observing the waveform of speech, it can be seen that similar waveforms are repeated in voiced sections such as vowels. This period is called a pitch period, and the waveform within this one period is called a speech unit of one pitch. Changes in the content of this speech segment represent phonology, and the temporal pattern of this periodic change gives an accent and represents an element of prosody. Waveforms of almost the same shape are repeated in voiced sound sections such as vowels, and waveforms of similar shapes appear in the same type of speech. Therefore, it is possible to synthesize arbitrary continuous speech by storing characteristic speech segment waveforms necessary to create speech among the waveforms that appear in speech in a storage device, and reading and editing them. Conceivable.

また、日本語の任意の文章は基本的に百数十種
の単音節で表すことができる。波形領域の合成に
おいて、記憶装置に格納された音声単位を素材と
して此等の韻律を適性に制御するためには、声の
高さ、振幅及び時間長を制御情報の辞書の指示に
従つて変化させながら連続音声を作り上げていく
必要がある。
Additionally, any sentence in Japanese can basically be expressed using over 100 different types of monosyllables. In synthesizing the waveform domain, in order to appropriately control the prosody using speech units stored in the storage device as raw materials, the pitch, amplitude, and duration of the voice must be changed according to the instructions in the dictionary of control information. It is necessary to create a continuous voice while doing so.

任意語彙音声合成方法における音声の基本単位
としては、記憶容量と韻律性を考慮すると音声素
片を用いた方がよく、音韻的には単音節レベルよ
り大きい単位が優れていると考えられている。
As the basic unit of speech in arbitrary vocabulary speech synthesis methods, it is better to use speech segments in terms of memory capacity and prosody, and units that are larger than the monosyllabic level are considered superior in terms of phonology. .

この理由から音韻的には単音節を制御単位と
し、韻律の上では音声素片を制御単位とする方法
が提案されている。即ち、記憶装置に記憶されて
いる音声素片を単音節をブロツクとしてその内部
で順次的に配列しておく方法がある。この方法に
おいては、音声素片が単音節毎に時系列で連続に
取り出されることによつて音韻性が保たれ、ま
た、韻律の制御に当たつて音声素片を単位として
用いることが出来る。
For this reason, a method has been proposed in which the unit of control is a single syllable in terms of phonology, and the unit of control in terms of prosody is a speech segment. That is, there is a method in which phonetic segments stored in a storage device are sequentially arranged within a single syllable block. In this method, phonetic properties are maintained by sequentially extracting speech segments in chronological order for each single syllable, and speech segments can be used as a unit for prosody control.

(従来技術の問題点) ところで、このような波形領域の音声データを
用いた任意語彙合成方式ではピツチを制御するこ
とによつて1つの問題が生じる。
(Problems with the Prior Art) By the way, in such an arbitrary vocabulary synthesis method using audio data in the waveform domain, one problem arises due to pitch control.

自然音声から切り出して記憶装置内に格納され
たある単音節波形が第1図aのごとくn個のピツ
チ素片波形の時系列で構成されているとする。ま
た、簡単のため、此等のn個の素片波形が全てP
なるピツチ周期を持つとすれば、この単音節の時
間長PHLaはP×nで与えられる。合成音に自然
性をもたせるためには、この単音節が用いられる
状況に応じて此等の素片波形に各々適性なピツチ
変化が与えられなければならないが、音声のピツ
チの変化幅はかなり大きく、女性音声の場合、最
短ピツチと最長ピツチとの間には1オクターブ以
上の差がある。従つて、例えば、第1図aの音素
データを用いてその標準的な場合の半分のピツチ
でこの単音節を合成したとすると合成波形は第1
図bのようになり、その継続時間PHLbも半分に
なる。
Assume that a certain monosyllabic waveform extracted from natural speech and stored in a storage device is composed of a time series of n pitch segment waveforms as shown in FIG. 1a. Also, for simplicity, these n piece waveforms are all P
If the pitch period is as follows, the duration of this single syllable PHLa is given by P×n. In order to give naturalness to synthesized speech, appropriate pitch changes must be given to each of these elemental waveforms depending on the situation in which the single syllable is used, but the range of pitch change in speech is quite large. In the case of a female voice, there is a difference of one octave or more between the shortest pitch and the longest pitch. Therefore, for example, if this single syllable is synthesized using the phoneme data in Figure 1a at half the pitch of the standard case, the synthesized waveform will be the first one.
It becomes as shown in Figure b, and its duration PHLb is also halved.

即ち、ピツチ制御を行うことによつて、継続時
間もそれに比例して変化する。本来、ピツチの変
化は声帯振動周期の変化を表し、継続時間の変化
は声道形状の変化状況を表すものと考えられ、互
いに多少の関係はあるもののほぼ分離したものと
見做せる。従つて、ピツチを変化させたとしても
継続時間に対するその他の変化要因がない限り継
続時間は一定に保たれるべきであつて、このよう
に音韻の継続時間が適正でない合成音は、テンポ
の乱れタイミングやリズムの不整を印象付ける。
That is, by performing pitch control, the duration time also changes in proportion to it. Originally, changes in pitch represent changes in the vocal fold vibration period, and changes in duration are considered to represent changes in the vocal tract shape, and although they are somewhat related to each other, they can be considered to be largely separate. Therefore, even if the pitch is changed, the duration should be kept constant unless there are other factors that change the duration, and synthesized sounds where the phoneme duration is not appropriate will result in tempo disturbances. Gives an impression of irregularity in timing and rhythm.

また、ピツチ制御による影響は、継続時間の変
化のみではなく、音韻性にも大きな影響を与え
る。即ち、第1図aにおいては、時間長PHLaの
間で移り変つていた音韻の変化状況が第1図bに
おいてはその半分の時間内PHLbで集約されてし
まう。
Furthermore, the influence of pitch control not only affects changes in duration, but also has a large effect on phonological properties. That is, in FIG. 1a, the state of change in phoneme that changed during the time period PHLa is summarized in half the time period PHLb in FIG. 1b.

従来、この種の合成装置ではピツチ制御による
継続時間への影響は一般的にあまり考慮されてい
ない。これに対して、音節内の後端部の素片を繰
り返し用いたり、削除してしまうことによつて、
音節全体の継続時間だけは一定に保つ方式は見ら
れるが、この方式でも音節内の音韻の変化速度と
いう点では何等解決するものではない。
Conventionally, in this type of synthesizer, the influence of pitch control on duration time has not generally been taken into consideration. On the other hand, by repeatedly using or deleting the segment at the end of a syllable,
There are methods that keep the duration of the entire syllable constant, but even this method does not solve the problem in terms of the speed of change of phoneme within a syllable.

(発明の目的) 本発明は、以上述べた従来技術の欠点を解決す
るために為されたものであり、合成時に与えられ
たピツチに対して、ピツチ毎の素片の開始時点に
於いて、当該区間が如何なる音韻を表現すべき区
間であるかを、記憶装置内に格納された標準音声
データを参照して判断し、合成時に用いる音素片
データを選択することによつて合成音の継続時間
と音韻性を適正に保つことを目的としたものであ
る。
(Objective of the Invention) The present invention has been made to solve the above-mentioned drawbacks of the prior art. The duration of the synthesized speech is determined by referring to the standard speech data stored in the storage device to determine what kind of phoneme should be expressed in the section, and by selecting the phoneme data to be used during synthesis. The purpose is to maintain appropriate phonology.

(発明の概要) 第2図及び第3図は本発明による音声素片選択
方法を示す。第2図及び第3図における上側の図
は標準音声データを示すもので、ある音節或いは
音素等の音声単位がS1〜Soのn個の音声素片から
構成されているとする。此等の音声素片データ
は、音声素片データの時系列であると同時に、継
続時間TPHにおいて時々刻々変化する音韻性の時
系列を表している。即ち、音声素片Siは音声単位
全体の継続時間TPH内における時間ti-1〜tiの区間
の音韻性を表現するもので、この時間長Liを音声
素片Siの音韻長と名付け、音声単位を構成する音
声素片系列(S1〜So)と共に音韻長系列(L1
Lo)として、音声単位に関する標準音声データ
として記憶装置に格納しておく。
(Summary of the Invention) FIGS. 2 and 3 show a speech segment selection method according to the present invention. The upper diagrams in FIGS. 2 and 3 show standard speech data, and it is assumed that a speech unit such as a certain syllable or phoneme is composed of n speech segments S 1 to S o . These speech segment data are not only a time series of speech segment data, but also represent a time series of phonetic properties that change from moment to moment in the duration T PH . That is, the speech segment S i expresses the phonology of the interval from time t i-1 to t i within the duration T PH of the entire speech unit, and this time length L i is defined as the phonology of the speech segment S i . The phoneme length sequence ( L 1 ~
Lo ) is stored in the storage device as standard audio data regarding audio units.

従来技術の第1図aのように自然音声から切り
出した単音節で、しかもピツチ周期毎の素片波形
を音声素片とした場合には、個々の1ピツチ波形
が音声素片Siに相当し、また、各1ピツチ波形の
ピツチ周期が音韻長Liに相当する。
As shown in Figure 1a of the prior art, when a single syllable is extracted from natural speech and the segment waveform for each pitch period is used as a speech segment, each pitch waveform corresponds to a speech segment S i . Furthermore, the pitch period of each one-pitch waveform corresponds to the phoneme length L i .

音声単位合成時には与えられたピツチ周期にお
ける各音声素片の開始時点において、当該区間が
如何なる音韻性を表現すべき区間であるかを、記
憶装置内に記憶されている標準音声データと対比
して判断し、適切な音声素片を選択する。
When synthesizing speech units, at the start of each speech segment in a given pitch period, what kind of phonology should be expressed in that section is determined by comparing it with standard speech data stored in a storage device. judge and select an appropriate speech segment.

第2図は標準音韻長よりも長いピツチ周期で合
成を行う場合を示し、第3図は標準音韻長よりも
短いピツチ周期で合成を行う場合の音声素片選択
方法を示している。
FIG. 2 shows a case where synthesis is performed with a pitch period longer than the standard phoneme length, and FIG. 3 shows a method of selecting speech units when synthesis is performed with a pitch period shorter than the standard phoneme length.

第2図において、音声単位の開始時点tP0はt0
対応するので、当然音声素片S1を用いて合成す
る。音声素片S1には、合成時のピツチ制御によつ
て音韻長L1より長いピツチ周期P1が与えられ、
次の音声素片の開始時点はtp1となる。ここで、
再び次ぎなる音声素片を選択する為に、標準音声
データを参照する。時刻tp1は、標準音声データ
に於いて音声素片S2が使用されるべき区間t1〜t2
であるから、音声素片S2が選択される。更に次の
音声素片の開始時点tp2では、順序からすると従
来の方法では音声素片S3が選択されるところであ
るが、本発明に於いては、標準音声データを参照
した時、時刻tp2は音声素片S4を表現すべき区間t3
〜t4であり、S3の次のS4を選択する。以後同様に
して各音声素片の開始時点tp1毎に使用する音声
素片を決定する。
In FIG. 2, since the start time t P0 of a speech unit corresponds to t 0 , it is natural that the speech unit S 1 is used for synthesis. The speech unit S 1 is given a pitch period P 1 longer than the phoneme length L 1 by pitch control during synthesis, and
The start time of the next speech segment is t p1 . here,
The standard speech data is referred to again in order to select the next speech segment. The time t p1 is the interval t 1 to t 2 in which the speech unit S 2 is to be used in the standard speech data.
Therefore, speech segment S2 is selected. Furthermore, at the start time t p2 of the next speech segment, in the conventional method, speech segment S 3 would be selected based on the order, but in the present invention, when referring to the standard speech data, the speech segment S 3 is selected at time t p2. p2 is the interval t 3 that should represent the speech segment S 4
~t 4 and select S 4 next to S 3 . Thereafter, in the same manner, the speech segment to be used is determined at each start time t p1 of each speech segment.

一方、標準音韻長よりも短いピツチ周期で合成
を行う第3図の例では、はじめに音声素片S1を選
択して合成を行つた後、第2の素片開始時点tp1
は、ピツチ周期P1が標準音韻長L1よりも短いた
めにまだ音声素片S1を選択すべき区間t0〜t1にあ
る。このような場合には、音声素片S1を再び使用
する。
On the other hand, in the example shown in Fig. 3 in which synthesis is performed with a pitch period shorter than the standard phoneme length, speech segment S 1 is first selected and synthesized, and then the second segment start point t p1 is selected.
is still in the interval t 0 to t 1 in which the speech unit S 1 should be selected because the pitch period P 1 is shorter than the standard phoneme length L 1 . In such a case, the speech segment S 1 is used again.

以上のように音声単位合成時に与えられたピツ
チ周期における各音声素片の開始時点において、
当該区間が如何なる音韻性を表現すべき区間であ
るかを記憶装置内に記憶されている標準音声デー
タと対比して判断し、適切な音声素片を選択する
ことによつて、合成時においてピツチを変化させ
た場合においても音韻性及び音声単位全体の継続
時間を適正に保つことが出来る。
As mentioned above, at the start of each speech unit in the pitch period given during speech unit synthesis,
By comparing the phonological characteristics of the section with standard speech data stored in the storage device and selecting appropriate speech segments, the pitch can be adjusted during synthesis. Even when changing the phonological properties and the duration of the entire speech unit, it is possible to maintain appropriate phonology and the duration of the entire speech unit.

(実施例) 第4図は本発明による音声合成装置の一例を示
したもので、マイクロプロセツサ1、タイプライ
タ2、韻律メモリ3、音節メモリ4、素片メモリ
5、波形再生器6から構成される。素片メモリ5
には任意の単語を合成するのに必要な音声素片デ
ータが格納されている。
(Embodiment) FIG. 4 shows an example of a speech synthesis device according to the present invention, which is composed of a microprocessor 1, a typewriter 2, a prosody memory 3, a syllable memory 4, a segment memory 5, and a waveform regenerator 6. be done. Fragment memory 5
stores the speech segment data necessary to synthesize any word.

この種の合成装置では大部分が女性音であるこ
とが要求されていることを考慮して、音声の標本
化周波数を8kHzとして女性音声のピツチ周期を
カバーするのに充分な64サンプルのデータ長とし
ている。
Considering that this type of synthesizer requires mostly female sounds, the data length is 64 samples, which is sufficient to cover the pitch period of female voices with a sampling frequency of 8kHz. It is said that

音節メモリ4は1音節を1ブロツクとして音節
を構成する音声素片データの先頭アドレスが順に
格納されており、更にその音節における各音声素
片の音韻長が格納されている。
The syllable memory 4 sequentially stores the start addresses of speech segment data constituting a syllable with one syllable as one block, and also stores the phoneme length of each speech segment in the syllable.

韻律メモリ3には入力単語に対するアクセン
ト、イントネーシヨン等の韻律制御情報がコード
化されて記憶されている。以下、第4図に従つ
て、合成装置の動作を説明する。
The prosody memory 3 stores coded prosodic control information such as accent and intonation for input words. The operation of the synthesis apparatus will be explained below with reference to FIG.

先ず、タイプライタ2に対して出力すべき単語
の文字列が入力される。
First, a character string of a word to be output is input to the typewriter 2.

マイクロプロセツサ1では、入力単語に対する
アクセント、イントネーシヨン等の韻律制御情報
を韻律メモリ3から検索する。韻律メモリ3から
検索される制御情報はアクセント型、イントネー
シヨン型等のコード形式になつており、マイクロ
プロセツサ1は此等の実際の制御データ、即ち区
間毎のピツチデータ、振幅データに変換する。
The microprocessor 1 searches the prosody memory 3 for prosodic control information such as accent and intonation for the input word. The control information retrieved from the prosody memory 3 is in the form of accent type, intonation type, etc. codes, and the microprocessor 1 converts this into actual control data, that is, pitch data and amplitude data for each section. .

更にマイクロプロセツサ1は入力文字列を音節
に分解し、音節毎に音節メモリ4から各音節を構
成する音声素片の先頭アドレスと当該音声素片の
音韻長を順次入力する。このようにして得られた
アドレス及び制御データは其々編集合成のための
データとなる。
Furthermore, the microprocessor 1 decomposes the input character string into syllables, and sequentially inputs from the syllable memory 4, for each syllable, the start address of the speech element constituting each syllable and the phoneme length of the speech element. The addresses and control data obtained in this way become data for editing and combining.

次に本発明の主旨である音声素片選択動作を第
5図のフローチヤートをもとに説明する。
Next, the speech segment selection operation which is the gist of the present invention will be explained based on the flowchart of FIG.

本発明は基準となる音韻変化を表すデータを参
照することによつて合成時の音素データを選択す
るものであるが、音節メモリ4から読み出された
音声素片の先頭アドレス列とその各々に対応する
音韻長データが基準の音韻変化を表すデータとし
て用いられる。
The present invention selects phoneme data for synthesis by referring to data representing a standard phoneme change. Corresponding phoneme length data is used as data representing a reference phoneme change.

第5図に於いて、PHNOは入力文字列を音節に
分解したときの音節数、PH(i)(i=1〜
PHNO)は、分解された各音節の各々に対応する
音節メモリ4のアドレス系列を一時的に格納する
配列、iは音節アドレス列を示すポインタ、
PHADは音節メモリ4を読み出す音節アドレス、
SNOは、合成すべき音節を構成している音声素片
の素片数を表す変数、S(j)は、音節メモリ4
から読み出した音声素片先頭アドレス系列を格納
する配列、L(j)は、音節メモリ4から読み出
した音韻長系列を格納する配列、P(j)は、合
成すべき音節に関して音韻長区間毎に生成された
ピツチ系列を格納する配列、jは前記配列S
(j),L(j),P(j)を指し示す素片ポインタ、
SADは現時点が如何なる音声素片を用いて合成す
べき区間か、即ち、使用すべき音声素片のアドレ
スを示す参照音声素片アドレスである。また、
CLはサンプリングクロツクにより音韻長を係数
する音韻長カウンタ変数、CPはサンプリングク
ロツクによりピツチを計数するピツチカウンタ変
数、CADは素片メモリ5から音声素片データを1
サンプルずつ読み出す音声素片読み出しアドレス
カウンタである。
In Figure 5, PH NO is the number of syllables when the input character string is broken down into syllables, PH (i) (i = 1 ~
PH NO ) is an array that temporarily stores the address sequence of the syllable memory 4 corresponding to each decomposed syllable, i is a pointer indicating the syllable address sequence,
PH AD is the syllable address to read syllable memory 4,
S NO is a variable that represents the number of phonetic segments that make up the syllable to be synthesized, and S (j) is the syllable memory 4
L(j) is an array that stores the phoneme length sequence read from the syllable memory 4, P(j) is an array that stores the phoneme length sequence read from the syllable memory 4, and P(j) is an array that stores the phoneme length sequence read from the syllable memory 4. An array that stores the generated pitch series, j is the array S
Fragment pointer pointing to (j), L(j), P(j),
S AD is a reference speech segment address indicating which speech segment should be used for synthesis at the current time, that is, the address of the speech segment to be used. Also,
C L is a phoneme length counter variable that counts phoneme length using the sampling clock, C P is a pitch counter variable that counts pitches using the sampling clock, and C AD is a phoneme length counter variable that counts pitches from the phoneme memory 5.
This is a speech unit readout address counter that reads out each sample.

ステツプSP1は合成開始時点における初期設定
を行うステツプで、各変数の初期化及び入力文字
列に応じて定まる音節アドレス系列PH(i)と
その数PHNOを設定する。
Step SP1 is a step for performing initial settings at the start of synthesis, in which each variable is initialized and the syllable address series PH(i) and its number PH NO determined according to the input character string are set.

ステツプSP2では、センプリングクロツク毎の
音韻長を計数する音韻長カウンタ変数CLが0か
否かを判定して音韻長区間の終了判定を行う。即
ち、CL=0であれば素片ポインタjを進め(ス
テツプSP3)、更に後続のステツプSP10,SP11に
おいて参照音声素片アドレスSAD及び音韻長カウ
ンタ変数CLを更新する。但し、音韻長区間の終
了が音節区間あるいは単語区間の終了となる場合
があるため、ステツプSP4。ステツプSP6で其々
音節区間、単語区間の終了を判定している。
At step SP2, the end of the phoneme length section is determined by determining whether a phoneme length counter variable C L that counts the phoneme length for each sampling clock is 0. That is, if C L =0, the segment pointer j is advanced (step SP3), and the reference speech segment address S AD and phoneme length counter variable C L are updated in subsequent steps SP10 and SP11. However, since the end of the phoneme length section may be the end of the syllable section or the word section, step SP4 is performed. At step SP6, the end of each syllable section and word section is determined.

ステツプSP4で、音節区間が終了していれば
(j>SNO)音節ポインタiを進め(ステツプ
SP5)、次の音節の情報を音節メモリ4から読み
出して、素片数SNO、音声素片先頭アドレス列S
(j)音韻長系列L(j)、及びピツチ系列P(j)
を新たに設定する(ステツプSP7〜SP9)。
At step SP4, if the syllable section has ended (j>S NO ), advance the syllable pointer i (step SP4).
SP5), reads the information of the next syllable from the syllable memory 4, calculates the number of segments SNO , and the speech segment start address string S.
(j) Phoneme length series L(j) and pitch series P(j)
(Steps SP7 to SP9).

以上の一連の処理により参照音声素片アドレス
SADには、常にその時点において選択されるべき
標準の音声素片の先頭アドレスが設定される。
Through the above series of processing, the reference speech segment address is
The start address of the standard speech segment to be selected at that time is always set in S AD .

一方、ステツプSP12以降の処理では、前記音
韻長計数による参照音声素片アドレス更新処理
と、同一サンプルクロツク内で平行して行われる
ピツチ周期毎の音声素片開始時点での音声素片の
選択処理が行われる。
On the other hand, in the processes after step SP12, the reference speech unit address updating process by the phoneme length counting and the selection of a speech unit at the start of a speech unit for each pitch cycle are performed in parallel within the same sample clock. Processing takes place.

ステツプSP12ではサンプリングクロツク毎に
ピツチ周期を計数するピツチカウンタCPが0か
否かを判定し、CP=0であれば、次の合成に用
いる音声素片の先頭アドレスを参照音声素片アド
レスSADを参照して、音声素片読み出しアドレス
カウンタCADにセツトする。
In step SP12, it is determined whether the pitch counter C P that counts the pitch period for each sampling clock is 0 or not. If C P = 0, the start address of the speech segment to be used for the next synthesis is referenced. Refer to the address S AD and set the speech unit read address counter C AD .

ステツプSP15,SP16では音声素片読み出しア
ドレスカウンタCADに従つて、素片メモリ5から
音声素片データを1サンプルずつ読み出し、波形
再生を行う。
At steps SP15 and SP16, voice segment data is read sample by sample from the segment memory 5 according to the speech segment read address counter C AD , and the waveform is reproduced.

ステツプSP12〜SP17の一連の処理は、1サン
プルクロツク毎に行われるもので、最後のステツ
プSP17で、CADのインクリメント及びCL,CPのデ
クリメントを行う。
A series of processes from steps SP12 to SP17 is performed every sample clock, and in the final step SP17, CAD is incremented and CL and CP are decremented.

(発明の効果) 以上、詳細に説明したように、本発明によれば
音素波形再生時における各ピツチ周期の音声素片
の開始時点において、当該区間が如何なる音韻を
表現すべき区間であるかを、標準データを参照す
ることによつて逐一判定し、適切な音声素片を選
択するようにしている為、如何なるピツチ周期に
対しても合成音の継続時間及び音韻性が常に良好
に保たれ自然は合成音声を得ることが出来る。従
つて、本発明の方法を波形領域の任意語彙合成装
置に適用することにより、自然な合成音を得るこ
とが出来るという効果がある。
(Effects of the Invention) As described above in detail, according to the present invention, at the start of a speech segment in each pitch period during phoneme waveform reproduction, it is possible to determine what kind of phoneme is to be expressed in the interval. , by referring to standard data and selecting the appropriate speech segment, so the duration and phonology of the synthesized speech are always kept good and natural, regardless of the pitch period. can obtain synthesized speech. Therefore, by applying the method of the present invention to an arbitrary vocabulary synthesizer in the waveform domain, it is possible to obtain natural synthesized speech.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、波形領域合成における音韻性と韻律
性との対応関係を示す図、第2図と第3図は本発
明における音声素片とピツチ周期との対応関係を
示す説明図、第4図は本発明の一実施例を示すブ
ロツク図、第5図は音声素片選択の処理手順を示
す図である。 1……マイクロプロセツサ、2……タイプライ
タ、3……韻律メモリ、4……単音節メモリ、5
……素片メモリ、6……波形再生器。
FIG. 1 is a diagram showing the correspondence between phoneticity and prosody in waveform domain synthesis; FIGS. 2 and 3 are explanatory diagrams showing the correspondence between speech units and pitch periods in the present invention; and FIG. The figure is a block diagram showing one embodiment of the present invention, and FIG. 5 is a diagram showing a processing procedure for selecting a speech unit. 1... Microprocessor, 2... Typewriter, 3... Prosodic memory, 4... Monosyllabic memory, 5
...Fragment memory, 6...Waveform regenerator.

Claims (1)

【特許請求の範囲】 1 自然音声における1ピツチ単位の音声素片に
相当するデータを素片単位として多数記憶してお
き、前記素片単位が音韻、音節、あるいは単語等
の一連の音声区間(音声単位)毎に時系列で連続
して取り出される機能を備え、前記素片単位のデ
ータを読み出して編集再生することによつて音声
を合成する音声合成方法において、 前記音声単位は、素片単位の時系列Si(i=1,
2,……)と、自然音声を基準として定めた前記
素片単位の時系列に対応する音韻長系列Li(i=
1,2,……)とで表され、 音声合成に際しては、前記音韻長Liを係数する
毎に合成に使用すべき素片単位を順次更新する手
段と、 合成時に与えられたピツチ周期を係数する毎に
合成すべき素片単位を選択する手段を有すること
を特徴とする音声合成方法。
[Scope of Claims] 1. A large number of data corresponding to one pitch unit of speech segment in natural speech are stored as segment units, and the segment unit is a series of speech segments such as phonemes, syllables, or words ( In a speech synthesis method, the speech synthesis method has a function of sequentially extracting data in chronological order for each unit of speech, and synthesizes speech by reading, editing and reproducing data in units of segments, wherein the units of speech are units of segments. The time series S i (i=1,
), and the phoneme length sequence L i (i=
1, 2, ...), and during speech synthesis, there is a means for sequentially updating the segment units to be used for synthesis each time the phoneme length L i is multiplied, and a means for updating the pitch period given at the time of synthesis. 1. A speech synthesis method comprising means for selecting a segment unit to be synthesized for each coefficient.
JP58127999A 1983-07-15 1983-07-15 Synthesization of voice Granted JPS6021098A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58127999A JPS6021098A (en) 1983-07-15 1983-07-15 Synthesization of voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58127999A JPS6021098A (en) 1983-07-15 1983-07-15 Synthesization of voice

Publications (2)

Publication Number Publication Date
JPS6021098A JPS6021098A (en) 1985-02-02
JPH0447840B2 true JPH0447840B2 (en) 1992-08-05

Family

ID=14973950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58127999A Granted JPS6021098A (en) 1983-07-15 1983-07-15 Synthesization of voice

Country Status (1)

Country Link
JP (1) JPS6021098A (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6022195A (en) * 1983-07-18 1985-02-04 沖電気工業株式会社 Synthesization of voice
JP3673471B2 (en) 2000-12-28 2005-07-20 シャープ株式会社 Text-to-speech synthesizer and program recording medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5197303A (en) * 1975-02-21 1976-08-26
JPS55111995A (en) * 1979-02-20 1980-08-29 Sharp Kk Method and device for voice synthesis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5197303A (en) * 1975-02-21 1976-08-26
JPS55111995A (en) * 1979-02-20 1980-08-29 Sharp Kk Method and device for voice synthesis

Also Published As

Publication number Publication date
JPS6021098A (en) 1985-02-02

Similar Documents

Publication Publication Date Title
JP3985814B2 (en) Singing synthesis device
US5659664A (en) Speech synthesis with weighted parameters at phoneme boundaries
JP5360489B2 (en) Phoneme code converter and speech synthesizer
JPH0447840B2 (en)
JP5175422B2 (en) Method for controlling time width in speech synthesis
WO2004027753A1 (en) Method of synthesis for a steady sound signal
JP5560769B2 (en) Phoneme code converter and speech synthesizer
GB2284328A (en) Speech synthesis
JP3233036B2 (en) Singing sound synthesizer
JPH1165597A (en) Voice compositing device, outputting device of voice compositing and cg synthesis, and conversation device
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition
JP3081300B2 (en) Residual driven speech synthesizer
JPS5914752B2 (en) Speech synthesis method
JP3394281B2 (en) Speech synthesis method and rule synthesizer
JP7183556B2 (en) Synthetic sound generator, method, and program
JP2001117576A (en) Voice synthesizing method
JPH0895588A (en) Speech synthesizing device
JPH04280B2 (en)
JP2004004440A5 (en)
JPH0572599B2 (en)
O'Shaughnessy Recent progress in automatic text-to-speech synthesis
JPS60113299A (en) Voice synthesizer
JPS5912189B2 (en) speech synthesizer
JPS5912188B2 (en) Audio information compression method
JPS61143799A (en) Voice synthesization system