JPS6021098A - Synthesization of voice - Google Patents

Synthesization of voice

Info

Publication number
JPS6021098A
JPS6021098A JP58127999A JP12799983A JPS6021098A JP S6021098 A JPS6021098 A JP S6021098A JP 58127999 A JP58127999 A JP 58127999A JP 12799983 A JP12799983 A JP 12799983A JP S6021098 A JPS6021098 A JP S6021098A
Authority
JP
Japan
Prior art keywords
time
sample
series
unit
pitch period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58127999A
Other languages
Japanese (ja)
Other versions
JPH0447840B2 (en
Inventor
隆 矢頭
三木 敬
森戸 誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP58127999A priority Critical patent/JPS6021098A/en
Publication of JPS6021098A publication Critical patent/JPS6021098A/en
Publication of JPH0447840B2 publication Critical patent/JPH0447840B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (技術分野) 本発明は、自然有声音における1ピツチの音声素片と対
応づけられる波形のサンプル時系列を表現するデータを
素片単位として記憶しておき、合成すべ声音声に関する
入力情報に応じて作成された素片単位選択情報の系列に
従ってその素片単位を編集再生することによって音声を
合成する方法に関し、特に、前記入力情報に応じて作成
されるピッチ周期の系列と前記素片単位選択情報の系列
とを、良好な音韻性と良好な韻律性を保持しつつ対応づ
けるようにしだ音声合成方法に関する。
Detailed Description of the Invention (Technical Field) The present invention stores data representing a sample time series of waveforms associated with one-pitch speech segment in natural voiced speech as a unit of segment, and synthesizes the data. It relates to a method of synthesizing speech by editing and reproducing segment units according to a series of segment unit selection information created in response to input information regarding voice speech, and in particular, to The present invention relates to a speech synthesis method in which a sequence and a sequence of the segment unit selection information are associated with each other while maintaining good phonological properties and good prosodic properties.

(従来技術) 汎用的な目的で大量のWr: ’竹、もしくは人名、会
社名、地名といった任意の音声の出力を必要とする装置
の要求が高1っている。音声の波形を観測すると、母音
などの有声音の区間ではよく似た波形がくシ返されてい
るのがわかる。この周期をピッチ周期と呼び、この1つ
の周期内の波形をピッチ単位の音声素片(以下音素とい
う)という。この音素の内容の変化が音韻性を表わし、
この周期の変化の時間的・やターンがアクセントを与え
、韻律性の一要素を衣わす。11音などの有声音区間で
はelとんど同じ形の波形が繰シ返され、同じ種類の音
声では似た形の波形が現われる。従って、音声中に現わ
れる波形の中で音声を作シ上げるだめに必要な特徴的音
素波形を記憶装置に蓄積し、この基本的な音素波形を編
集することによって任意の連続した音声を合成できると
考えられる。又、日本語の任意の文章は基本的に百数十
種の単音節で表わすことができる。波形領域の合成にお
いて、記憶装置に格納された音声単位を素材としてこれ
らの韻律を適正に制御するためには声の高さ、振幅及び
時間長を制御情報の辞書の指示に従って変化させながら
連続音声全作り上げていく必要がある。任意語粟音声合
成方法における音声の基本単位としては記憶容量と部律
性については音声素片を用いた方がよく、音韻的には単
音節レベルより大きい単位が優れていると考えられてい
る。この理由から音韻的には単音節をmII御単位とし
、韻律の上では音声素片を制御単位とする方法が提案さ
ている。すなわち、記憶装置に記録されている音声素片
を単音節をゾロツクとしてその内部で順次的に配列して
おく方法である。この方法においては音声素片が単音節
ごとに時系列で連続に取シ出されることによって音韻性
が保たれ、また、韻律の制御にあたって音声素片を単位
として用いることができる。
(Prior art) A large amount of Wr for general purposes: 'There is a high demand for devices that require the output of arbitrary sounds such as bamboo, or names of people, companies, and places. If you observe the waveform of speech, you will see that similar waveforms are repeated in sections of voiced sounds such as vowels. This period is called a pitch period, and the waveform within this one period is called a pitch unit speech element (hereinafter referred to as a phoneme). This change in the content of phonemes represents phonology,
The temporal changes and turns of this cycle give an accent and serve as an element of prosody. In voiced sound sections such as 11 tones, waveforms of almost the same shape as el are repeated, and waveforms of similar shapes appear in the same type of voice. Therefore, it is possible to synthesize arbitrary continuous speech by storing characteristic phoneme waveforms necessary to create speech among the waveforms that appear in speech in a storage device, and editing these basic phoneme waveforms. Conceivable. Additionally, any sentence in Japanese can basically be expressed using over 100 different types of monosyllables. In synthesizing the waveform domain, in order to appropriately control the prosody using speech units stored in the storage device as raw materials, continuous speech is created while changing the pitch, amplitude, and duration of the voice according to the instructions in the dictionary of control information. We need to build everything up. As the basic unit of speech in the arbitrary speech synthesis method, it is better to use speech segments in terms of memory capacity and rhythmicity, and in terms of phonology, it is thought that units larger than the monosyllabic level are better. . For this reason, a method has been proposed in which monosyllables are used as mII control units in terms of phonetics, and speech segments are used as units in prosodic terms. That is, this is a method in which the speech segments recorded in the storage device are sequentially arranged within the unit with single syllables as syllables. In this method, phonetic properties are maintained by sequentially extracting speech segments in chronological order for each single syllable, and speech segments can be used as a unit for prosody control.

(従来技術の問題点) ところで、このような波形領域の音声データを用いた任
意語葉合成方式ではピッチを制御することによって1つ
の問題が生じる。
(Problems with the Prior Art) By the way, in such an arbitrary word synthesis method using audio data in the waveform region, one problem arises due to pitch control.

自然音声から切シ出して記憶装置内に格納されたある単
音節波形が第1図(、)のごとくn個の音素の時系列で
構成されているとする。また、簡単のため、これらのn
個の音素がすべてPなるピッチ周期を持つとすればこの
’l′111 M)の時間長PHLaはPXnで与えら
れる。合成音に自然性を持たせるためには、この単音節
が用いられる状況に応じてこれらの音素に各々適正なピ
ッチ変化が与えられなければならないが、音声のピッチ
の変化幅はがなり大きく、女性音声の場合、最短ピッチ
と最長ピッチの間にはlオクターブ以上の差がある。従
って、例えば第1図(a)の音素データを用いてその標
準的な場合の棒のピッチでこの単音節を合成したとする
と合成波形は第1図(b)のように々シ、その継続時間
PHLbもAとなる。
Assume that a certain monosyllabic waveform extracted from natural speech and stored in a storage device is composed of a time series of n phonemes as shown in FIG. 1 (,). Also, for simplicity, these n
If all phonemes have a pitch period of P, the time length PHLa of this 'l'111 M) is given by PXn. In order to give naturalness to synthesized sounds, appropriate pitch changes must be given to each of these phonemes depending on the situation in which this single syllable is used, but the range of change in pitch of speech is quite large. In the case of female voices, there is a difference of more than one octave between the shortest pitch and the longest pitch. Therefore, for example, if this single syllable is synthesized using the phoneme data shown in Figure 1(a) at the pitch of the bar in the standard case, the synthesized waveform will be as shown in Figure 1(b), and its continuation. Time PHLb is also A.

すなわち、ピッチ制御を行うことによって継続時間もそ
れに比例して変化する。本来ピッチの変化は声帯振動周
期の変化を表わし、継続時間の変化は声道形状の変化状
況を表わすものと考えられ、互いに多少の関係はあるも
ののほぼ分離し/こものと見なせる。従って、ピッチを
変化させたとしても継続時間に対するその他の変化要因
がない限シ継続時間は一定に保たれるべきであって、こ
のように音韻の継続時間が適正でない合成音はテンIの
乱れ、タイミングやリズムの不整を印象づける。
That is, by performing pitch control, the duration also changes in proportion to it. Originally, a change in pitch represents a change in the vocal fold vibration period, and a change in duration is thought to represent a change in the shape of the vocal tract, and although they are somewhat related to each other, they can be regarded as largely separate/common things. Therefore, even if the pitch is changed, the duration should be kept constant as long as there are no other factors that change the duration, and synthesized sounds where the duration of the phoneme is not appropriate will cause a disturbance in the ten I. , giving an impression of irregularity in timing and rhythm.

また、ピッチ制御による影響は継続時間の変化のみでは
なく、音韻性にも大きな影響を及ぼす。すなわち、第1
図(、)においては時間長PHLaO間で移り変わって
いた音韻の変化状況が第1図(b)においてはその半分
の時間内PHLbで集約されてしまう。
Furthermore, the influence of pitch control is not limited to changes in duration, but also has a large effect on phonological properties. That is, the first
In FIG. 1(b), the change state of the phoneme that changes during the time period PHLaO is summarized in half the time period PHLb in FIG. 1(b).

従来、この種の合成装置ではピッチ制御による継続時間
への影響は一般的にあまシ考慮されていない。これに対
して、音節内の後端部の素片をくシ返し用いたシ、削除
してしまったシすることによって音節全体の継続時間だ
けは一定に保つ方式は見られるが、これとても音節内の
音韻の変化速度という点では何ら解決するものではない
、(発明の目的) 本発明は、波形領域の基本単位として、自然的有声音の
lピ、チ単位の音声素片すなわち音素もしくはそれを汲
換して減衰波形としだものを採用して、そのザンノル時
系列を再生し得るデータを素片単位として記憶しておく
形式のものに属する。
Conventionally, in this type of synthesis apparatus, the influence of pitch control on duration time has generally not been taken into consideration. On the other hand, there are methods in which the duration of the entire syllable is kept constant by repeating or deleting the elemental fragment at the end of the syllable, but these (Objective of the Invention) The present invention does not solve the problem in terms of the speed of change of phonemes within a natural voiced sound. It belongs to a type of data that uses attenuated waveforms by converting the above, and stores data that can reproduce the Zannor time series as a unit of fragments.

また、本発明は、合成すべき音声に関する入力情報に基
づいてそれぞれ作成されるピッチ周期の系列と素片単位
選択情報の系列とを、実時間もしくは計算時間のサンプ
ルクロックで測定される時間軸上において、それぞれ独
立に設定する形式のものに属する。
Furthermore, the present invention allows the pitch cycle series and the segment unit selection information series, which are respectively created based on input information regarding speech to be synthesized, to be generated on a time axis measured by a sample clock of real time or calculation time. It belongs to the format where each is set independently.

本発明の目的は、前記時間軸上における葉片単位選択情
報とピッチ周期との設定を、素片単位選択情報はそれに
対応した素片単位のサンプル数に対応した数のサンプル
クロックを計数する毎に更新し、又、ピッチ周期はそれ
に対応した数のサンプルクロックを計数する毎に更新し
、これによって、合成音の音韻性と韻律性、特に継続時
間とを互いに独立に保持させることにあり、また、それ
に伴って生じる波形つなぎ目の不連続性を複数の再生チ
ャンネルを設けることによって回避することにある。
An object of the present invention is to set the leaf unit selection information and the pitch period on the time axis, and set the elemental unit selection information every time a number of sample clocks corresponding to the number of samples of the corresponding elemental piece are counted. and the pitch period is updated every time a corresponding number of sample clocks are counted, thereby maintaining the phonology and prosody of the synthesized sound independently of each other, and The purpose of this method is to avoid discontinuities in waveform joints that occur due to this by providing a plurality of playback channels.

(発明の概要) 本発明の概要を第2図〜第4図を用いて説明する。(Summary of the invention) An outline of the present invention will be explained using FIGS. 2 to 4.

第2図と第3図は、合成すべき音声に関する入力情報に
基づいて1つの単音節が選択された場合につ、いて、そ
の単音節における音素系列ELiと前記入力情報に基づ
いて作成されたピッチ周期の系列PTjとの対応関係を
示すものである。
Figures 2 and 3 show a case where one monosyllable is selected based on input information regarding the speech to be synthesized, and the phoneme sequence ELi in that monosyllable is created based on the input information. It shows the correspondence relationship with the pitch period series PTj.

なお、□第2図及び第3図における各音素EL□は標準
的自然有声音のエビ、チ長に相当するものであシ、同じ
音素が連続する場合においても、異なった番号iで区別
して示している。各音素ELiは、その系列の示す順に
、サンプルクロックで測定される時間軸上において、1
個ずつ選択して設定され、すなわち先行音素ELi、−
[のサンプル数に対応した数のサンプルクロックを計数
する毎に次の音素ELiを選択して設定する。従って、
その時間軸上における単音節継続1侍間1)IILl、
及び音素ELiの配列は、予め記憶している標準的単音
節のそれを再現する。各ピッチ周期PTjは、先行ピッ
チ周期PTj−1に対応した数のサンプルクロックを計
数する毎に更新設定される。そして、合成出力は、ピッ
チ周期PTjの更新毎にり。、tl、・”ntm−1に
、その時点tjで設定されている音素PHiが選択され
、それらの音素が結合されることによって作成される。
Note that each phoneme EL in Figures 2 and 3 corresponds to the standard natural voiced sounds ``ebi'' and ``chi'', and even when the same phoneme is consecutive, it is distinguished by a different number i. It shows. Each phoneme ELi is 1
The preceding phonemes ELi, -
Every time a number of sample clocks corresponding to the number of samples of [ are counted, the next phoneme ELi is selected and set. Therefore,
Monosyllabic continuation on the time axis 1 Samurai 1) IILl,
The arrangement of the phonemes ELi reproduces that of a standard monosyllable stored in advance. Each pitch period PTj is updated and set every time a number of sample clocks corresponding to the preceding pitch period PTj-1 are counted. Then, the composite output is generated every time the pitch period PTj is updated. , tl, ·"ntm-1, the phoneme PHi set at the time tj is selected, and the phonemes are combined to create the phoneme.

第2図は、標準的なものとして採用した音素EL□の音
素長(従って標準的音素のピッチ周期)よシも、合成す
べき音声のピッチ周期が長い場合を示しておシ、例えば
音素EL3の再生を行わないことによって、音韻性、特
に単音節継続時間PHL。
Figure 2 shows a case where the pitch period of the speech to be synthesized is longer than the phoneme length of the phoneme EL□ (therefore the pitch period of the standard phoneme) adopted as the standard one, for example, the phoneme EL3. By not reproducing the phonology, especially the monosyllabic duration PHL.

と韻律性特にピッチ周期の系列との独自性を保つ。and prosodic characteristics, especially the sequence of pitch cycles, maintains its uniqueness.

第3図は、音素PHiの音素長よシも合成出力のピッチ
周期が短かい場合について示しておシ、例えは音素EL
1 、 EL4を重複して再生することによって音韻性
と韻律性との独自性を保つ。
Figure 3 shows a case where the pitch period of the synthesized output is shorter than the phoneme length of the phoneme PHi.
1. Maintain the uniqueness of phonology and prosody by reproducing EL4 repeatedly.

1 第4図は、再生した各音素の重畳方法を示すもので
=sb、複数の再生チャンネルを用意しておき、ピッチ
周期の更新と同期して順次循環的に1つのチャンネルを
指定し、その指定チャンネルにおいて所定の音素ELi
のサンプルを再生し、その後金ての再生チャンネルの出
力を重畳させることによって、合成出力における隣接音
素間あるいは隣接単音節間におけるつなぎ目の不連続性
を回避する。
1 Figure 4 shows the method of superimposing each reproduced phoneme. A predetermined phoneme ELi in a specified channel
By playing back samples of , and then superimposing the outputs of all playback channels, discontinuities at joints between adjacent phonemes or between adjacent monosyllables in the synthesized output are avoided.

(実施例) 次に、第5図〜第9図を用・いて、実施例について説明
する。
(Example) Next, an example will be described using FIGS. 5 to 9.

第5図は、音声合成装置を示すブロッーク図であシ、第
6図はマイクロプロセッサ1が実行する機能及び制御手
順を示すフローチャートである。合成すべき音声に関す
る入力情報は、適当なポーズ等を伴って語句毎に単音節
を示す文字コードの系列の形式で、タイシライタ2から
マイクロプロセッサ1に入力される。韻律メモリ部3に
は、入力語句に関するアクセント型、イントネーション
形、及び継続時間などの韻律制御情報並びに単音11j
情報とが記憶されていて、これらがマイクロプロセッサ
1によって検索され、入力情報に応じて単音節情報の系
列とピッチ周期の系列PTjが作成される。又、単音節
情報は単音節メモリ4における各単音節の先頭アドレス
を指定する単音節選択情報と単音部長とからなるように
作成される。音節メモリ4には、単音節を1ブロツクと
してその単音節を構成する素片単位の遠択情報の系列を
記憶している。素片単位選択情報は、素片メモリ5にお
ける各素片単位の先頭アドレスを指定する情報で記憶し
ている。素片メモリ5には、標準的な任意の音素を再生
するに必要な素片単位を記憶していて、素片単位はDP
CM等の適当な圧縮毒技術によって作成され、又、全て
の素片単位は128サンプルなる予め定められた一定長
のサンプル時系列を再生できるデータ量で記憶している
。波形再生器6は、採用した圧縮技術に対応した構成と
なっており、素片単位のデータに基づいてそれに対応し
たサンプル時系列を再生するものであり、合成出力での
ピッチ周期が短かくても128個のサンプルを再生でき
るように4チヤンネルの再生チャンネルRG1〜RG4
を設けている。波形再生は、サングルクロックの割込起
動によって設定される実時間の時間軸上において、ピッ
チ周期の系列PTユと素片単位選択情報の系列とを対応
設定し、ピッチ周期の更新毎に時間軸上で対応した素片
単位選択情報の素片単位ELjを選択し、同じくピッチ
周期の更新毎に順次循環的に1つの再生チャンネルを選
択することによって再生すべき素片単位と再生チャンネ
ルを対応させ、全ての再生チャンネルにおいて1サンプ
ルずつ再生させ、これを重畳させることによって実行さ
れる。
FIG. 5 is a block diagram showing the speech synthesis device, and FIG. 6 is a flowchart showing the functions and control procedures executed by the microprocessor 1. Input information regarding the speech to be synthesized is input from the transcription writer 2 to the microprocessor 1 in the form of a series of character codes indicating monosyllables for each word with appropriate pauses and the like. The prosody memory unit 3 stores prosodic control information such as accent type, intonation type, and duration regarding input words, as well as single sounds 11j.
These are searched by the microprocessor 1, and a series of monosyllabic information and a series of pitch periods PTj are created according to the input information. Further, the monosyllable information is created to include monosyllable selection information that specifies the start address of each monosyllable in the monosyllable memory 4 and a monosyllable length. The syllable memory 4 stores a series of long selection information in units of elements that constitute a single syllable, with each single syllable as one block. The segment unit selection information is stored as information specifying the start address of each segment unit in the segment memory 5. The segment memory 5 stores the segment units necessary to reproduce standard arbitrary phonemes, and the segment units are DP.
It is created using an appropriate compression technology such as CM, and all the fragment units are stored in an amount of data that can reproduce a sample time series of a predetermined length of 128 samples. The waveform regenerator 6 has a configuration compatible with the compression technology adopted, and reproduces the corresponding sample time series based on the data in units of fragments, and the pitch period in the synthesized output is short. There are also 4 playback channels RG1 to RG4 so that 128 samples can be played back.
has been established. Waveform playback is performed by setting the pitch period sequence PTY and the sequence of segment unit selection information in correspondence on the real-time time axis set by interrupt activation of the sample clock, and changing the time axis every time the pitch period is updated. By selecting the element unit ELj of the element unit selection information corresponding to the above and selecting one reproduction channel sequentially and cyclically every time the pitch period is updated, the element unit to be reproduced and the reproduction channel are made to correspond. , is executed by reproducing one sample at a time in all reproduction channels and superimposing them.

第7図〜第9図はマイクロプロセッサ1が実行する波形
可成のフローを示すものである。
7 to 9 show the waveform generation flow executed by the microprocessor 1. FIG.

第7図は、波形再生のフローを示すものであシ、初期設
定されかつ後述の如く更新される4チャンネル分のアド
レス変数ADj〜AD4を用意しておき、ステップ5P
IIにおいて第1アドレス笈数ADiで素片メモリ5の
アドレスを指定して1つの素片単位の1つのデータを読
み出し、そのデータを波形再生器6の第1再生チヤンネ
ルRG1へ送り、1つのサンプルを再生させる。ステッ
プ5P12〜5P14では、それぞれ第2〜第4アドレ
ス変数AD2〜AD4で素片メモリ5のアドレスを指定
し、それぞれ対応した第2〜第4再生チヤンネルRG2
〜RG4でそれぞれ1つのサンプルを再生させる。ステ
ップ3P15では、全ての再生チャンネルRG1〜RG
4の出力すなわち4サンプルを加算して重畳することに
よって合成出力の1サンプルを再生し出力する。サンプ
ルクロックの割込起動毎に1サングルずつ再生すること
によって合成出力を再生する。
FIG. 7 shows the flow of waveform reproduction. Address variables ADj to AD4 for four channels, which are initialized and updated as described later, are prepared, and step 5P
In II, the address of the elemental piece memory 5 is specified with the first address number ADi, one piece of data of one elemental piece is read out, the data is sent to the first reproduction channel RG1 of the waveform regenerator 6, and one sample is read out. to play. In steps 5P12 to 5P14, the addresses of the segment memory 5 are specified using the second to fourth address variables AD2 to AD4, respectively, and the corresponding second to fourth reproduction channels RG2 are
~Play one sample each on RG4. In step 3P15, all playback channels RG1 to RG
By adding and superimposing the outputs of 4, that is, 4 samples, one sample of the composite output is reproduced and output. The synthesized output is reproduced by reproducing one sample each time the sample clock is activated.

第8図は、サングルクロックの時間軸上で、素片単位選
択情報を設定するフローチャートを示すものである。
FIG. 8 shows a flowchart for setting segment unit selection information on the time axis of the sample clock.

第7図において、サンプルクロ、りの割込によって起動
され、ステ、プ5T21において現在処理中の単音節が
残存しているか判定される。単音部長変数PH7= 0
ならばステ、ゾ5P22において、単音節番号をインク
レメントシて先に作成されている単音節情報の系列から
次の11′L音節情報を取り出し、ステップ5P23に
おいてその単音部長PHLaを単音部長変数PH,4ヘ
コードし、又、その単音節選択情報すなわち単音節先頭
アドレスを単音節メモリ4のアドレス変数AD、にロー
ドする。続いて、ステップ5P24 、5P25におい
て、その%頭アドレスで単音節メモリ4のアドレスを指
定して素片単位ELiの先頭アドレスを読み出し、それ
を素片メモリ5のアドレス変数ADeヘワードする。こ
のステップSP 25において、1つの単音節における
最初の素片単位選択情報がザンブルクロ、りと対応して
設定されたことになる。また、ステップ5P26におい
て現在処理中の素片単位ELjの残存長が判断され、素
片長髪数ELt= Oならば、ステップ5T27におい
てアドレス変数AD、の内容をインクレメントして次の
アドレスを指定し、ステップ5P24゜5P25を経て
、1つの単音節における次の素片単位ELj+1の先頭
アドレスすなわち次の素片単位選択情報がサイプルクロ
、りの時間軸上に設定される。ステップ5P28.5P
29は素片長をサンプルクロックの時間軸上で計数する
過程でアシ、全ての素片単位のサンプル数は同一の12
8個にしているので、ステ、ノ5P28で素片長変数E
LAとして128をロードし、ステップSP 29にお
いてサンプルクロ、りと同期してデクレメントすること
によって実行され、また、ステップ5P30では、同じ
くサンプルクロックと同期して単音部長変数PH6をデ
クレメントしておく。
In FIG. 7, it is started by the interruption of sample cursor, and it is determined in step 5T21 whether the monosyllable currently being processed remains. Single note length variable PH7 = 0
Then, in step 5P22, the monosyllable number is incremented to extract the next 11'L syllable information from the previously created series of monosyllable information, and in step 5P23, the monosyllable length PHLa is set as the monosyllable length variable PH. . Subsequently, in steps 5P24 and 5P25, the address of the monosyllabic memory 4 is designated by the % head address, the first address of the segment unit ELi is read out, and it is worded to the address variable ADe of the segment memory 5. In this step SP25, the first segment unit selection information in one single syllable is set in correspondence with "zamburukuro" and "ri". Further, in step 5P26, the remaining length of the segment unit ELj currently being processed is determined, and if the number of segment long hairs ELt=O, the content of the address variable AD is incremented in step 5T27 to specify the next address. , Steps 5P24 to 5P25, the start address of the next elemental unit ELj+1 in one single syllable, that is, the next elemental unit selection information, is set on the time axis of the siple clock. Step 5P28.5P
29 is a reed in the process of counting the segment length on the time axis of the sample clock, and the number of samples for all segment units is the same 12
Since it is set to 8 pieces, the segment length variable E is set in step 5P28.
This is executed by loading 128 as LA and decrementing it in synchronization with the sample clock in step SP29. Also, in step 5P30, the single note length variable PH6 is decremented in synchronization with the sample clock. .

第9図は、ピッチ周期を実時間上で設定し、且つ同時的
に素片メモリ5か′ら読み出される4個の素片単位を所
定の再生チャンネルRGj〜RG4へ対応づけるフロー
を示す。第9図を参照するに、サンプルクロックで割込
起動がかけられる毎に、ステップ5P40において現在
設定中のピッチ周期PTjの残存長が判定され、ピッチ
周期変数p’rt−〇ならば、ステツノ5P41〜5P
43の処理後、ステップ44においてピッチ番号Jをイ
ンクレメントして先に作成さ−れているピッチ周期系列
から次のピンチ周期PTjを取シ出し、ステラfsP4
5においてそれをピッチ周期変数PH6−\ロードし、
又、ステップSP 46においてサンゾルクロックと同
期してそのピッチ周期変数PH,6をデクレメントする
ことによって、サンプルクロックの時間軸上で各ピッチ
周期PTjを設定する。ピッチ周期PTjの更新と同期
して実行されるステップ5P−4−,1〜43において
、まずステップSP 41において4チヤンネル指定値
CHをインクレメントすることによって順次循環的に1
つのチャンネルを選択し、ステ、プSP 42で素片メ
モリ5の4チャンネル分のアドレス変数ADj〜AD4
のなかから前記指定値CHに対応するアドレス変数AD
chを選択し、ステ、ゾ5P43では現在設定されてい
る素片単位EL□の選択情報すなわち素片単位の先頭ア
ドレスを示すアドレス変数AD、をその選−板されたチ
ャンネルのアドレス変数ADohヘロードすることによ
って、各素片単位を各チャンネルに割シ当てる。ステッ
プ5P47において、各チャンネルのアドレス変数AD
1〜AD4をそれぞれインクレメントすることによって
、各アドレス変数AD1〜AD4は、それぞれ異なった
素片単位であってしかも異なった順番のサンプルを再生
するデータを、サンプルクロックと同X1jL−c順次
アドレスしていくことができる。
FIG. 9 shows a flowchart for setting the pitch period in real time and associating four segment units simultaneously read out from the segment memory 5' with predetermined reproduction channels RGj to RG4. Referring to FIG. 9, each time an interrupt is activated by the sample clock, the remaining length of the pitch period PTj currently being set is determined in step 5P40, and if the pitch period variable p'rt-〇 is set, the remaining length of the pitch period PTj is determined. ~5P
After the processing in step 43, in step 44, the pitch number J is incremented to extract the next pinch period PTj from the previously created pitch period series, and the result is Stellar fsP4.
5, load it into the pitch period variable PH6-\,
Further, in step SP46, each pitch period PTj is set on the time axis of the sample clock by decrementing the pitch period variable PH,6 in synchronization with the Sansol clock. In steps 5P-4-, 1 to 43, which are executed in synchronization with the update of the pitch period PTj, first, in step SP41, the 4-channel specified value CH is incremented to 1 in a cyclical manner.
Select one channel, and in step SP42 address variables ADj to AD4 for four channels in the segment memory 5 are selected.
Address variable AD corresponding to the specified value CH from among
Channel is selected, and in step 5P43, the selection information of the currently set segment unit EL□, that is, the address variable AD indicating the start address of the segment unit, is loaded into the address variable ADoh of the selected channel. By doing this, each elemental unit is assigned to each channel. In step 5P47, the address variable AD of each channel
By incrementing 1 to AD4, each address variable AD1 to AD4 addresses data for reproducing samples in different unit of fragments and in different orders in the same X1jL-c sequential manner as the sample clock. I can go.

上記実施例においては、実時間のサンプルクロックを採
用しているために、アドレス変数を4個だけ用意してl
サンプルずつ再生できるようにしているが、計算時間の
サンプルクロ、りを基準にして再生する場合には、ピッ
チ周期の更新毎にその時間軸で対応した素片単位の全て
のデータを対応した再生チャンネルに読み出して再生さ
せ、各再生チャンネルにおける再生サンプル時系列を一
度記憶させ、その後、1μr接先行ピ、チ周期のものに
対して後続隣接ピッチ族jυ」のサンプル時系列がピッ
チ周期労連れた関係にあるサンプル同志を加算すること
によっても合成波形を得ることができる。又、素片単位
から再生されるサンプルの個数すなわち素片長を一定に
していない場合にも、単音節メモリに素片単位選択情報
と共に素片長を記憶しておき、素片長変数として定数の
代わシにその素片長をロードするようにすることによっ
て対応できる。
In the above embodiment, since a real-time sample clock is used, only four address variables are prepared.
Although it is possible to play back one sample at a time, if you want to play back based on the sample rate of the calculation time, it is necessary to play back all the data for each segment corresponding to the time axis every time the pitch period is updated. Read and play the sample time series in each playback channel once, and then store the sample time series of the subsequent adjacent pitch family jυ for those with 1 μr adjacent pitch and chi period with the pitch period. A composite waveform can also be obtained by adding related samples. Also, even when the number of samples played from a segment unit, that is, the segment length, is not constant, the segment length is stored in the monosyllabic memory together with the segment unit selection information, and the segment length is used as the segment length variable instead of a constant. This can be handled by loading the length of the segment into .

(発明の効果) 以上の説明から明らかなように、本発明は、合成時に与
えられたピッチ周期に対しそれぞれに応じた音素片の選
択を行うため、任意のピッチ制御に対して合成音の継続
時間および音韻性が常に良好に保たれ、波形領域の任意
語零合成装置において自然な合成音を得ることができる
(Effects of the Invention) As is clear from the above explanation, the present invention selects phoneme pieces in accordance with each pitch period given at the time of synthesis. Time and phonology are always maintained well, and natural synthesized sounds can be obtained in the waveform domain arbitrary word zero synthesizer.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、波形領域合成における音韻性と韻律性との対
応関係を示す説明図、第2図と第3図は本発明における
音素とピッチ周期との対応関係を示す説明図。第4図は
本発明における波形重畳の関係を示す説明図、第5図は
本発明の一実施例を示すプロ、り図、第6図はその全体
フローを示す図、・第7図〜第9図はその一部詳細フロ
ーを示す図である。 1・・・マイクロプロセ、す、2・・・タイプライタ、
3・・・韻律メモリ部、4・・・単音節メモリ部、5・
・・素片メモリ部、6・・・波形再生器。 手続補正書(師) 58.11. 1 昭和 年 月 日 特許庁長官 殿 1 事件の表示 昭和58年 特 a′r i第127999号2、発明
の名称 音声合成方法 3 補正をする者 事件との関係 特許出願人 5、補正の対象 明細書中「発明の詳細な説明」の欄す
る。
FIG. 1 is an explanatory diagram showing the correspondence between phoneticity and prosody in waveform domain synthesis, and FIGS. 2 and 3 are explanatory diagrams showing the correspondence between phonemes and pitch periods in the present invention. Fig. 4 is an explanatory diagram showing the relationship of waveform superimposition in the present invention, Fig. 5 is a diagram showing an embodiment of the present invention, Fig. 6 is a diagram showing the overall flow, and Figs. FIG. 9 is a diagram showing a part of the detailed flow. 1...Microprocessor, 2...Typewriter,
3... Prosodic memory section, 4... Monosyllabic memory section, 5.
... Fragment memory unit, 6... Waveform regenerator. Procedural amendment (master) 58.11. 1 Director General of the Japan Patent Office, 1939 1. Indication of the case 1988 Special A'r i No. 127999 2. Name of the invention Speech synthesis method 3. Person making the amendment Relationship with the case Patent applicant 5. Subject of the amendment Details The "Detailed Description of the Invention" section is included in the book.

Claims (1)

【特許請求の範囲】 a)自然有声音における1ピッチ単位の音声素片と対応
づけられる波形のサンプル時系列を表現するデータを素
片単位として記憶しておき、b)素片単位に基づいて波
形のサンプル時系列を再生する複数の再生チャンネルを
用意しておき、C)合成すべき音声に関する人力情報に
基づいて作成されるピッチ周期の系列を実時間もしくは
計算時間のサンプルクロックで測定される時間軸上で監
視して、その時間軸上で設定されている1つのピッチ周
期に対応した数のサンプルクロックを計数する毎に前記
ピッチ周期系列における次のピッチ周期を更新設定し、 d)合成すべき音声に関する前記入力情報に基づいて作
成される素片ヱ)1位選択(rJ報の系列を前記時間軸
上で監視して、その時間軸上で設定されている1つの素
片単位選択情報に対応した素片単位におけるサンゾル個
数に対応した数のサンプルクロックを計数する毎に、前
記素片単位選択情報系列における素片単位選択情報を更
新設定し、e)ピッチ周期の更新と同期して前記時間軸
上で対応する素片単位選択情報を選択し且っピッチ周期
の更新と同期して前記再生チャンネルの1つを順次循環
的に選択することによって各素片単位選択情報と各再生
チャンネルとを対応させ、f)各再生チャンネルにそれ
ぞれ対応した各素片単位選択情報の素片単位を与えてそ
れぞれサンプル時系列を再生させ、 g)全ての再生チャンネルのサンプル時系列を重畳させ
、その重畳サンプル時系列に基づいて音声出力を発生さ
せることを特徴とした音声合成方法。
[Scope of Claims] a) Data representing a sample time series of a waveform associated with a speech unit of one pitch unit in natural voiced speech is stored as a unit of unit, and b) A plurality of playback channels are prepared to play sample time series of the waveform, and C) a pitch period series created based on human information about the speech to be synthesized is measured using a real-time or calculation-time sample clock. Monitoring on the time axis and updating and setting the next pitch period in the pitch period series every time a number of sample clocks corresponding to one pitch period set on the time axis is counted; d) Synthesis. A segment created based on the input information regarding the voice to be used. (i) Selecting the first place (monitoring the rJ report series on the time axis and selecting one segment unit set on the time axis) Every time a number of sample clocks corresponding to the number of Sansols in the elemental piece unit corresponding to the information are counted, the elemental piece unit selection information in the elemental piece unit selection information series is updated and set, e) synchronized with the update of the pitch period. select the corresponding piece unit selection information on the time axis, and sequentially and cyclically select one of the playback channels in synchronization with the update of the pitch period, thereby selecting each piece unit selection information and each playback. f) giving each playback channel a corresponding fragment unit of the fragment unit selection information and playing the sample time series respectively; g) superimposing the sample time series of all playback channels; A speech synthesis method characterized by generating speech output based on the superimposed sample time series.
JP58127999A 1983-07-15 1983-07-15 Synthesization of voice Granted JPS6021098A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58127999A JPS6021098A (en) 1983-07-15 1983-07-15 Synthesization of voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58127999A JPS6021098A (en) 1983-07-15 1983-07-15 Synthesization of voice

Publications (2)

Publication Number Publication Date
JPS6021098A true JPS6021098A (en) 1985-02-02
JPH0447840B2 JPH0447840B2 (en) 1992-08-05

Family

ID=14973950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58127999A Granted JPS6021098A (en) 1983-07-15 1983-07-15 Synthesization of voice

Country Status (1)

Country Link
JP (1) JPS6021098A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6022195A (en) * 1983-07-18 1985-02-04 沖電気工業株式会社 Synthesization of voice
US7249021B2 (en) 2000-12-28 2007-07-24 Sharp Kabushiki Kaisha Simultaneous plural-voice text-to-speech synthesizer

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5197303A (en) * 1975-02-21 1976-08-26
JPS55111995A (en) * 1979-02-20 1980-08-29 Sharp Kk Method and device for voice synthesis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5197303A (en) * 1975-02-21 1976-08-26
JPS55111995A (en) * 1979-02-20 1980-08-29 Sharp Kk Method and device for voice synthesis

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6022195A (en) * 1983-07-18 1985-02-04 沖電気工業株式会社 Synthesization of voice
US7249021B2 (en) 2000-12-28 2007-07-24 Sharp Kabushiki Kaisha Simultaneous plural-voice text-to-speech synthesizer

Also Published As

Publication number Publication date
JPH0447840B2 (en) 1992-08-05

Similar Documents

Publication Publication Date Title
JP5360489B2 (en) Phoneme code converter and speech synthesizer
JPS6021098A (en) Synthesization of voice
JP5560769B2 (en) Phoneme code converter and speech synthesizer
JP2005539267A (en) Speech synthesis using concatenation of speech waveforms.
JP2005539261A (en) Method for controlling time width in speech synthesis
JP3081300B2 (en) Residual driven speech synthesizer
JPS6022195A (en) Synthesization of voice
JP5471138B2 (en) Phoneme code converter and speech synthesizer
JP5481957B2 (en) Speech synthesizer
JPS5914752B2 (en) Speech synthesis method
JPH0895588A (en) Speech synthesizing device
JP2987089B2 (en) Speech unit creation method, speech synthesis method and apparatus therefor
JP5233737B2 (en) Phoneme code correction device, phoneme code database, and speech synthesizer
JP5481958B2 (en) Phoneme code converter and speech synthesizer
JP2001312291A (en) Method for generating numeral voice waveform and method and device for synthesizing numerical voice
JPS59148094A (en) Voice synthesizer
JPS6022194A (en) Synthesization of voice
JP3830200B2 (en) Human image synthesizer
JPH06250685A (en) Voice synthesis system and rule synthesis device
JP2000066693A (en) Voice synthesizing method, voice synthesizer, recording medium having recorded voice synthesis program thereon, and voice element record, preparing method therefor, and recording medium having recorded voice element record preparing program thereon
JP2573585B2 (en) Speech spectrum pattern generator
JPS6295595A (en) Voice response system
JPS59177597A (en) Musical note synthesizer
JPH03296100A (en) Voice synthesizing device
JPS60113299A (en) Voice synthesizer