JPH0376480B2 - - Google Patents

Info

Publication number
JPH0376480B2
JPH0376480B2 JP56027313A JP2731381A JPH0376480B2 JP H0376480 B2 JPH0376480 B2 JP H0376480B2 JP 56027313 A JP56027313 A JP 56027313A JP 2731381 A JP2731381 A JP 2731381A JP H0376480 B2 JPH0376480 B2 JP H0376480B2
Authority
JP
Japan
Prior art keywords
data
phoneme
waveform
speech
phoneme piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP56027313A
Other languages
Japanese (ja)
Other versions
JPS57141698A (en
Inventor
Hiroshi Yasuda
Yoichi Tamura
Masakatsu Toyoshima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP56027313A priority Critical patent/JPS57141698A/en
Publication of JPS57141698A publication Critical patent/JPS57141698A/en
Publication of JPH0376480B2 publication Critical patent/JPH0376480B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

この発明は音素片合成方法に基いて音声の合成
を行なうようにした音声合成装置に関する。 人間の音声のうち、例えば“ア”のような声帯
の振動を伴なう有声音は、話す速度によつても異
なるが数10msec程度の短かい区間についてみれ
ば、同じような形をした波形の繰り返しからでき
ている。従つて、有声音を合成するには、いくつ
かの繰り返し単位の波形(その長さLをビツチと
いう、第1図参照)を用意しておき(例えば
“ア”に対する波形、“イ”に対する波形など)、
各々決められた順序に従つて所要の繰り返し数だ
け単位波形を繰り返し再生すればよい。 また、例えば“シ”の始めの音のように声帯の
振動を伴なわない無声音を合成するには、無声音
をそのまま用意するか、あるいは有声音と同じく
ある長さの波形を用意しておき、これを数回繰り
返して再生すればよい。 このような音声合成方法は音素片合成方法と呼
ばれ、繰り返しの単位となる波形を音素片とい
う。 従つて、この音素片合成方式では、いかにして
能率よく音響的特性(物理的特性)の良い音素片
を原音声から抽出するかが、合成された音声の品
質を左右するとになる。 従来から知られている音素片データを作成方法
の一例を次に示す。 まず、原音声から音素片を抽出する場合に、原
音声信号をA−D変換してメモリーに格納すると
共に、必要なときメモリーから信号を読み出して
これをデイスプレー装置に供給し原音声信号波形
を映し出しながら、音素片となる単位波形を抽出
する方法がある。例えば、第2図において、区間
Kは同じような波形の繰り返しなので、,,
のうちのいずれかの波形を音素片として抽出す
る方法である。 ところが、この方法では音素片としては、,
,の波形のいずれでも使用することができる
から、音素片を抽出する基準がない。また〜
の波形は厳密には夫々若干異なるので〜のう
ちのいずれかに固定して音素片を抽出するように
すると、音声の物理的性質とな何ら関係がない音
素片を抽出するようなことにもなりかねない。 また、この方法では区間Kを1つの単位波形の
周波数特性で代表させるものであるから、音質上
の劣化を招く。すなわち、区間Kをデイスクリー
トフーリエ変換すると、第3図に示すような周波
数−振幅特性、すなわちスペクトル強度特性が得
られる。このスペクトル強度特性に示される激し
い凹凸は区間Kが同じような波形の繰り返しであ
るために生じたもので、この区間Kの音韻情報は
破線で示すスペクトル包絡が担つている。上述の
ように1つの単位波形の周波数特性で区間Kの周
波数特性を代表させると、第3図に示すようなス
ペクトル包絡が得られず、そのために音質が劣化
することになる。 従つて、このような抽出方法による音素片デー
タの作成方法では原音声に忠実な音声合成を実現
できない。 また、他の方法として音声信号が定常とみなせ
る区間ごとにLPC(Linear Predictive Coding)
分析を行ない、その区間のLPC分析により得ら
れたスペクトル包絡を音素片のスペクトル特性に
もつようにLPC合成でその音素片を作成する作
成方法もあるが、この方法では全極モデルを仮定
しているために第4図に示すように、その区間K
のスペクトル包絡のうち、凹部よりも凸部をよく
近似する。 そのため、鼻音のようにスペクトル包絡の急激
な凹部が聞えの本質的な役割をはたす音素片は、
この方法によつては形成できない。 また、人間の耳は短区間(数10msec)のスペ
クトルの位相に対して比較的鈍いことを利用し
て、音素片データをメモリーする際、デイスクリ
ートフーリエ変換により音素片を周波数領域のデ
ータに変換したのち、この振幅データの位相を0
相またはπ相に振り分け、その後逆デイスクリー
トフーリエ変換して、例えば第5図に示すような
対称波形(偶関数)の信号を形成することによつ
て、軸対称である一方のデータのみメモリーする
ようにして、使用するメモリー容量を削減するよ
うにしたものがある。 ところが、このような方法によつて音素片デー
タを形成した場合には、対称波形の両端e(第5
図)の値は、有声音によつて相異するため、常に
一定の値になることはない。従つて、この音素片
データを使つて音声合成する場合、第6図で示す
ように異なる音素片V1,V2の接続部分が不連続
になることがあり、これによつて合成された音声
の品質が劣化してしまう。 また、音素片にピツチを付加する方法として、
データ“0”を詰める方法がある。これは例えば
第7図で示すように、ピツチP0より短かい音素
片に対し、この音素片をピツチP0の長さにした
い場合に、その不足部分にデータ“0”を補つて
希望するピツチP0をもつた音素片を作成するよ
うにしたものである。しかし、この音素片データ
はデータ“0”を補うものであるから、本来の音
素片データとは異なつたものとなり、そのため、
音素片の周波数特性が変り、合成音声の品質は当
然のことながら劣化する。 原音声の音響的特性を損なうことなく原音声か
ら音素片を抽出して音素片データを作成するに
は、例えば第8図のように構成すればよい。 まず、原音声をマイクロフオンなどを用いてア
ナログ音声信号(電気信号)に変換し、これをゲ
ート1に供給して適当な時間長l(20msec程度)
だけ切り出したのち(第9図A)、A−D変換器
2にて所定ビツト数のデイタル信号Saに変換す
る。A−D変換器2のサンプリングレートは6k
Hz位に設定される。 このデジタル信号Saは後段の回路3で原音声
有声音であるか無声音であるかの判別が行なわれ
て判別出力V/VLが出力されると共に、有声音
である場合にはピツチ周期P0の抽出が行なわれ
て、そのデータが出力される。その出力を説明の
便宜上同じくP0とする。 続いて、このデジタル信号Saより、音素片の
音韻的な情報をもつたスペクトル包絡が抽出され
る。このスペクトル包絡の抽出のためにケプスト
ラム分析器10が使用される。 すなわち、デジタル信号Saはデイスクリート
高速フーリエ変換によつて、その音声により、よ
り物理的な意味を有する周波数領域のパワースペ
クトルに変換する(ステツプ(○イ)。このパワー
スペクトルSbの概形を第9図Bに示す。ステツ
プ○ロにおいて、パワースペクトルSbの絶対値の
対数をとつたのち、第3図に示す原音声のスペク
トル包絡Scの情報を抽出するため、このパワー
スペクトルSbを信号波形とみなして高速フーリ
エ逆変換を施す(ステツプ○ハ)。フーリエ逆変換
によつて得られた波形が第9図Cのケプストラム
Seである。 次に、ステツプ○ニにおいて、ピツチ周期P0
基づきこのピツチ周期P0以上の高ケフレンシ部
のデータを零にし(第9図D)、得られた低ケフ
レンシ部Sfをステツプ○ホにおいて再度高速フーリ
エ変換することにより、ステツプ○イでの高速フー
リエ変換出力のうちの低周波成分Sgが得られ、
この低周波成分はさらにステツプ○ヘにおいて逆対
数化されて第9図Eに示すスペクトル包絡Sh(第
1のデジタル信号)が求められる。 このようにケプストラム分析によつて抽出され
たスペクトル包絡Shはもとのデータのスペクト
ル包絡Scの凸部と凹部の双方を一様に近似した
包絡特性となるから、原音声の音韻情報を十分に
保有し、従つてどのような原音声に対しても常に
一定の音質が保証されることになる。 さて、上述したようにA−D変換器2で得られ
た複数の符号化デジタルデータはケプストラム分
析器10に供給されて原音声に対する1つのスペ
クトル包絡Shが形成される訳であるが、このス
ペクトル包絡Shにはピツチ周期P0の情報が全く
含まれていない。従つて、ステツプ○トにおいて、
ピツチ周期P0の情報に基いてスペクトル包絡Sh
が再編成される。すなわち、A−D変換器2のサ
ンプリング周波数fsによつて決定される、ピツチ
周期P0内に含まれるスペクトル包絡Shを形づく
るデータが、補間を使つてfs・P0個のデーダ(第
2のデジタル信号)に再編成(再サンプリング)
される。 ピツチ周期P0の情報に基いて再編成されたス
ペクトル包絡Shを構成するデータは、さらに次
のステツプ○チにおいて音韻決定要素及び奇関数へ
の関数変換要素が付加される。つまり、スペクト
ル包絡Shを構成するデータが虚軸(+π/2、−π/2 の軸)上のデータに位相変換されて出力波形でみ
た場合、すべて奇関数となるように関数変換処理
が行なわれると共に、+π/2軸と−π/2軸とへのデ ータ位相の振り分けを行つて、所定のケフレンシ
にスペクトラムを集中させる。データ位相の振り
分け方によつてスペクトラムの集中するケフレン
シが異なり、この相違は音韻の相違となる。従つ
て、このデータの振り分けによつてスペクトル包
絡Shに音韻要素が付加されることになる。 なお、取扱う原音声が無声音である場合には、
乱数などを用いてデータを振り分ければよい。従
つて、このデータの振り分けは有声音、無声音の
判別出力V/VLを参照する。 このように音韻決定要素と関数変換要素を付加
した後は、ステツプ○リにおいてさらにこのスペク
トル包絡Shを逆デイスクリートフーリエ変換し
て周波数領域のデータから時間領域のデータ(音
素片用のデジタル信号Si)を形成する。このデジ
タル信号Siは切り出された音声信号区間、すなわ
ち原音声に対応する情報圧縮された時間領域での
ピツチ周期P0に相当するデータであつて、出力
波形は逆対称波形になる(第9図F)。このデー
タにはさらに、同一データの繰り返し回数n(n
=l/P0)を示すデータが付加されたのち、ス
テツプ○ルにおいてそのデータが最終的な音素片デ
ータとしてメモリー装置に格納される。 以上のような音素片データ処理のような音素片
データ処理を次の音声区間においても行ない、以
上の操作を音声信号がなくなるまで繰り返す。 音声を合成するには、メモリー等に格納された
素片データをn回繰り返して使用すると共に、こ
の処理を定められた順序に従つて行うことによ
り、必要とする音声を合成することができる。 以上説明したような手段によつて音素片データ
を作成すれば、まず、ケプストラム分析器10を
使用して音声信号からスペクトル包絡を抽出する
方法を採ると、スペクトル包絡Scの凸部と凹部
を一様に近似したスペクトル包絡Shを抽出する
ことができるので、求めようとする音声の音韻的
な情報のほぼすべてをデータとして格納できるた
め、常に一定の音質を確保できる。 また、スペクトル包絡Shにピツチ周期P0の情
報を付加して、このスペクトル包絡Shを形成す
るデータを再編成したので、従来のように希望す
るピツチ周期に音素片の長さを揃えるため、その
音素片データとは全く無関係なデータ“0”を詰
めるようにしたものに比べ、音素片の周波数特性
が劣化せず、従つて合成音声の品質が低下しない
で済む。すなわち、より原音声に近い音質が得ら
れる。 そして、音素片の波形が逆対称化波形となるよ
うにデータを変換したので、波形の両端eは必ず
零になる。そのため、異なる音素片の波形の間で
不連続になることがないから、従来のような音質
の劣化は生じない。 この発明は、例えば以上のような手段を用いて
形成された音素片データを能率よくメモリー装置
に貯えられるようにした音声合成装置を提案する
ものである。 そのため、まずこの発明において使用される音
素片データは、これをアナログ化したときそのア
ナログ波形が上述したように奇関数化された点対
称波形となるようなデータであつて、差分PCM
データとして貯えられる。また、この音素片デー
タのアナログ波形は例えば第10図のような点対
称波形であるから、点対称な一対の波形のうち前
半部(半サイクル)の波形SIFの音素片データを
貯えるようにし、残り後半部の波形SIBの音素片
データは前半部の波形SIFの音素片データを利用
して復元する。 データを復元する場合、第11図Aのようにサ
ンプリングポイントが偶数個であるときには前半
部の波形SIFの最後のサンプリングポイントqの
音素片データは後半部の波形SIBを復元するため
には使用されないが、同図Bのようにサンプリン
グポイントが奇数個であるときには最後のサンプ
リングポイントqの音素片データは後半部の波形
SIBの最初のサンプリグポイントqの音素片デー
タを使用して復元する必要がある。 従つて、第12図のデータストレージフオーマ
ツトに示すように音素片データDA,DB……とは
別個にその音素片のサンプリングポイントが偶数
個であるか奇数個であるか従つて、音素片データ
DA1,DA2……DB1……の数が奇数であるか偶数で
あるかを示すコードXが当てられる。 また、この音素片データは上述のように差分
PCMが利用されるが、第10図で示すように差
分PCMの差分値(+7、−2等)は音素片の波形
によつて大きく相違するから、この例では差分値
の大小によつて差分PCMのデータ数が変更され
る。実施例では差分値の絶対値が7以上のとき8
ビツトのデータ数が当てられ、それ以下のときに
は4ビツトのデータ数が当てられる。そのため、
第12図で示すように音素片データDA,DB……
は夫々が不等長ビツトとして構成される場合があ
る。 不等長ビツトとして構成する場合には、4ビツ
トデータを8ビツトデータに復元する必要があ
る。そのため識別コードが、上述したデータ数識
別用のコードXに当てられる。 ビツト数、データ数とコードXとの関係の一例
の次の<表−1>に示す。
The present invention relates to a speech synthesis device that synthesizes speech based on a phoneme segment synthesis method. Among human voices, for example, voiced sounds that involve vibration of the vocal cords, such as "a", differ depending on the speaking speed, but if you look at short intervals of about 10 msec, the waveforms have a similar shape. It is made up of repetitions of Therefore, in order to synthesize voiced sounds, prepare several repeating unit waveforms (the length L is called a bit, see Figure 1) (for example, the waveform for "A", the waveform for "I"). Such),
The unit waveforms may be repeatedly reproduced for the required number of repetitions in each predetermined order. In addition, to synthesize an unvoiced sound that does not involve vibration of the vocal cords, such as the first sound of "shi", you can either prepare the unvoiced sound as is, or prepare a waveform of the same length as the voiced sound. You can repeat this several times to play. Such a speech synthesis method is called a phoneme piece synthesis method, and the waveform that is a unit of repetition is called a phoneme piece. Therefore, in this phoneme segment synthesis method, the quality of synthesized speech depends on how efficiently phonemes with good acoustic properties (physical properties) are extracted from the original speech. An example of a conventionally known method for creating phoneme piece data is shown below. First, when extracting phoneme fragments from the original speech, the original speech signal is A-D converted and stored in memory, and when necessary, the signal is read from the memory and supplied to the display device to form the original speech signal waveform. There is a method of extracting unit waveforms that become phoneme pieces while projecting the phoneme. For example, in Figure 2, section K is a repetition of a similar waveform, so...
This method extracts one of the waveforms as a phoneme piece. However, with this method, as a phoneme piece,
, any of the waveforms can be used, so there is no standard for extracting phoneme pieces. Also~
Strictly speaking, the waveforms of are slightly different, so if you extract phoneme segments by fixing them to one of ~, you may end up extracting phoneme segments that have no relation to the physical properties of speech. It could happen. Furthermore, in this method, the section K is represented by the frequency characteristic of one unit waveform, which leads to deterioration in sound quality. That is, when section K is subjected to discrete Fourier transform, frequency-amplitude characteristics, ie, spectral intensity characteristics, as shown in FIG. 3 are obtained. The severe unevenness shown in this spectral intensity characteristic is caused by the repetition of similar waveforms in section K, and the phonological information in section K is carried by the spectral envelope shown by the broken line. If the frequency characteristics of section K are represented by the frequency characteristics of one unit waveform as described above, a spectral envelope as shown in FIG. 3 will not be obtained, resulting in deterioration of sound quality. Therefore, the method of creating phoneme segment data using such an extraction method cannot realize speech synthesis that is faithful to the original speech. Another method is to use LPC (Linear Predictive Coding) for each section where the audio signal can be considered stationary.
There is also a creation method in which a phoneme segment is created by LPC synthesis so that the spectral envelope obtained by LPC analysis of that interval is the spectral characteristic of the phoneme segment, but this method assumes an all-pole model. Therefore, as shown in Figure 4, the section K
of the spectrum envelope, the convex portions are better approximated than the concave portions. Therefore, for phonemes such as nasal sounds, where a sharp concavity in the spectral envelope plays an essential role in hearing,
It cannot be formed using this method. In addition, by taking advantage of the fact that the human ear is relatively insensitive to the phase of the spectrum over a short period (several tens of milliseconds), when storing phoneme data, we use discrete Fourier transform to convert the phoneme into frequency domain data. After that, set the phase of this amplitude data to 0.
By distributing the data into phase or π phase, and then performing inverse discrete Fourier transform to form a signal with a symmetrical waveform (even function) as shown in Figure 5, only one data that is axially symmetric is memorized. There are some methods that reduce the amount of memory used. However, when phoneme piece data is formed by such a method, both ends e (fifth
The value shown in the figure) differs depending on the voiced sound, so it is not always a constant value. Therefore, when performing speech synthesis using this phoneme piece data, the connection between different phoneme pieces V 1 and V 2 may become discontinuous, as shown in Figure 6, and this may cause the synthesized speech to become discontinuous. quality deteriorates. In addition, as a method of adding pitch to phoneme pieces,
There is a way to pad the data with "0". For example, as shown in Fig. 7, if you want to make a phoneme piece shorter than pitch P 0 to the length of pitch P 0 , you can fill in the missing part with data "0". This is to create a phoneme segment with pitch P 0 . However, since this phoneme piece data supplements the data "0", it is different from the original phoneme piece data, and therefore,
The frequency characteristics of the phonemes change, and the quality of the synthesized speech naturally deteriorates. In order to extract phoneme segments from the original speech and create phoneme segment data without impairing the acoustic characteristics of the original speech, a configuration as shown in FIG. 8 may be used, for example. First, the original audio is converted into an analog audio signal (electrical signal) using a microphone, etc., and this is supplied to gate 1 for an appropriate length of time l (about 20 msec).
After cutting out the signal (FIG. 9A), the A/D converter 2 converts it into a digital signal Sa of a predetermined number of bits. The sampling rate of A-D converter 2 is 6k
It is set to about Hz. This digital signal Sa is discriminated in the subsequent circuit 3 as to whether it is the original voiced sound or unvoiced sound, and a discrimination output V/VL is outputted.If it is a voiced sound, the pitch period P0 is Extraction is performed and the data is output. For convenience of explanation, the output is also referred to as P 0 . Next, a spectral envelope containing phonetic information of the phoneme is extracted from this digital signal Sa. A cepstral analyzer 10 is used for extracting this spectral envelope. That is, the digital signal Sa is converted into a power spectrum in the frequency domain that has more physical meaning by the sound by discrete fast Fourier transform (step (○a).The outline of this power spectrum Sb is This is shown in Figure 9B.In Step ○Pro, after taking the logarithm of the absolute value of the power spectrum Sb, this power spectrum Sb is converted into a signal waveform in order to extract information on the spectral envelope Sc of the original voice shown in Figure 3. The waveform obtained by the Fourier inverse transform is the cepstrum in Figure 9C.
It is Se. Next, in step ◯◯◯, data of the high quenching frequency part with pitch period P 0 or more is set to zero based on the pitch period P 0 (Fig. 9D), and the obtained low quenching rate part Sf is set to high speed again in step ◯◯. By performing Fourier transform, the low frequency component Sg of the fast Fourier transform output in step ○I is obtained,
This low frequency component is further anti-logarithmized in step ◯ to obtain the spectral envelope Sh (first digital signal) shown in FIG. 9E. In this way, the spectral envelope Sh extracted by cepstral analysis has an envelope characteristic that uniformly approximates both the convex and concave parts of the spectral envelope Sc of the original data, so it can sufficiently capture the phonological information of the original speech. Therefore, a constant sound quality is always guaranteed for any original sound. Now, as mentioned above, a plurality of encoded digital data obtained by the A-D converter 2 are supplied to the cepstrum analyzer 10 to form one spectral envelope Sh for the original voice. The envelope Sh does not include any information about the pitch period P 0 . Therefore, in step○,
Spectral envelope Sh based on information of pitch period P 0
will be reorganized. In other words, the data forming the spectral envelope Sh included within the pitch period P 0 determined by the sampling frequency fs of the A/D converter 2 is divided into fs P 0 data (second Reorganized (resampled) into digital signals)
be done. In the next step, a phoneme determining element and a function conversion element to an odd function are added to the data constituting the spectral envelope Sh that has been reorganized based on the information of the pitch period P0 . In other words, when the data constituting the spectral envelope Sh is phase-converted to data on the imaginary axis (+π/2, -π/2 axes) and viewed as an output waveform, the function conversion process is performed so that all the data become odd functions. At the same time, the data phase is distributed to the +π/2 axis and the −π/2 axis to concentrate the spectrum at a predetermined quefrency. The quefrency at which the spectrum concentrates differs depending on how the data phase is distributed, and this difference results in a difference in phoneme. Therefore, by allocating this data, a phonological element is added to the spectral envelope Sh. In addition, if the original audio to be handled is unvoiced,
The data can be sorted using random numbers or the like. Therefore, the distribution of this data refers to the voiced/unvoiced sound discrimination output V/VL. After adding the phoneme determining element and the function transformation element in this way, in step ○, this spectral envelope Sh is further inversely discrete Fourier transformed to convert frequency domain data to time domain data (digital signal Si for phoneme segment). ) to form. This digital signal Si is data corresponding to the pitch period P 0 in the extracted audio signal section, that is, the information-compressed time domain corresponding to the original audio, and the output waveform is an antisymmetric waveform (see Fig. 9). F). This data further includes the number of repetitions n(n
=l/P 0 ) is added, and in step ○, the data is stored in the memory device as final phoneme piece data. The phoneme piece data processing similar to the phoneme piece data processing described above is performed in the next voice section, and the above operations are repeated until there are no more voice signals. In order to synthesize speech, the required speech can be synthesized by repeatedly using segment data stored in a memory or the like n times and performing this processing in a predetermined order. If phoneme segment data is created by the means described above, first, if a method is adopted in which the spectral envelope is extracted from the speech signal using the cepstrum analyzer 10, the convex and concave parts of the spectral envelope Sc can be combined. Since it is possible to extract a spectral envelope Sh that is similar to the above, almost all of the phonetic information of the speech to be obtained can be stored as data, so that a constant sound quality can always be ensured. In addition, we added information about the pitch period P 0 to the spectral envelope Sh and reorganized the data that forms this spectral envelope Sh. Compared to the case where data "0" which is completely unrelated to the phoneme piece data is filled, the frequency characteristics of the phoneme piece do not deteriorate, and therefore the quality of the synthesized speech does not deteriorate. In other words, a sound quality closer to the original sound can be obtained. Since the data was converted so that the waveform of the phoneme piece became an inversely symmetrized waveform, both ends e of the waveform are always zero. Therefore, there is no discontinuity between the waveforms of different phoneme pieces, so the deterioration of sound quality as in the conventional case does not occur. The present invention proposes a speech synthesis device that can efficiently store phoneme segment data formed using, for example, the above-described means in a memory device. Therefore, first of all, the phoneme piece data used in this invention is data whose analog waveform becomes a point-symmetric waveform with an odd function as described above when it is converted into analog data,
Stored as data. Moreover, since the analog waveform of this phoneme piece data is a point-symmetric waveform as shown in FIG. 10, for example, the phoneme piece data of the first half (half cycle) of the waveform S IF of the pair of point-symmetric waveforms is stored. , the remaining phoneme piece data of the waveform S IB in the latter half is restored using the phoneme piece data of the waveform S IF in the first half. When restoring data, when there is an even number of sampling points as shown in Figure 11A, the phoneme data at the last sampling point q of the waveform S IF in the first half is used to restore the waveform S IB in the second half. Although it is not used, when there is an odd number of sampling points as shown in B of the same figure, the phoneme piece data of the last sampling point q is the waveform of the latter half.
It is necessary to restore it using the phoneme piece data of the first sampling point q of S IB . Therefore, as shown in the data storage format of Fig. 12, it is determined whether the phoneme piece data D A , D B . piece of data
A code X indicating whether the numbers of D A1 , D A2 . . . D B1 . . . is odd or even is applied. In addition, this phoneme piece data is divided into differences as described above.
PCM is used, but as shown in Figure 10, the difference value (+7, -2, etc.) of the difference PCM varies greatly depending on the waveform of the phoneme, so in this example, the difference value (+7, -2, etc.) The number of PCM data is changed. In the example, when the absolute value of the difference value is 7 or more, 8
The number of bits of data is guessed, and if it is less than that, the number of 4 bits of data is guessed. Therefore,
As shown in Fig. 12, phoneme piece data D A , D B . . .
may each be configured as bits of unequal length. When configured as unequal length bits, it is necessary to restore 4-bit data to 8-bit data. Therefore, the identification code is assigned to the code X for identifying the number of data mentioned above. An example of the relationship between the number of bits, the number of data, and code X is shown in Table 1 below.

【表】 コードXは4ビツトで構成され、ビツト数とデ
ータ数とに応じて振り分けられる。 なお、<表−1>にはコードXのほかにコード
Yが示されているが、これは音声合成の際に音素
片データDA,DB……を何回繰り返して使用する
かを示す繰り返しコードであつて、この例では4
ビツトで構成するため繰り返し回数nは0から15
回まで指示できる。従つて、コードXとYで8ビ
ツトデータとなる(第12図参照)。 なお、第12図に示すように区切りコードZ、
識別コードX、Y及び音素片データDAでデータ
の単位ブロツクが構成され、これが多数、メモリ
ー装置20に貯えられる。 また、単位ブロツクを複数用いて音素片データ
を複数集合させると、1つの単語、1つのまとま
つた文章などの音片が形成されるので、音素片の
頭、終り、音片の終りには夫々を区別するための
区切りコードZが当てられる。この区切りコード
Zはヘキサデシマル表示であつて、この例では音
素片の区切りコードは“80”、音片の区切りコー
ドは“7F”としてある。従つて、区切りコード
Zは音素片あるいは音片のいずれかのコードが当
てられる。 これら識別コードX,Y、区切りコードZ及び
音素片データD(DA,DB……)のストレージフオ
ーマツトの一例を第12図に示す。この図におい
て1つのブロツクが8ビツトデータとなる。この
ようなフオーマツトのなるようにメモリー装置に
格納される。 なお、音素片データDはア,イ……のような音
声のほかに、半濁音や拗音等の音声を含むものと
する。 さて、希望する音声をこのメモリー装置の出力
によつて合成するには、例えば第13図に示すよ
うな音声合成装置を使用すればよい。 第13図において、20が音素片データD等が
格納されたメモリー装置であつて、30が入力装
置、40がシーケンスコントローラである。ま
た、50は音片アドレステーブル、60は音片コ
ードテーブルである。 メモリー装置20より読出された所望のデータ
は読出しレジスタ21に供給されたのちデータ復
元器22に供給されて4ビツトデータが8ビツト
データに復元される。そのため、そのレジスタ2
1に取込まれたデータはデータ識別回路23に供
給されてデータ内容の判別及び後述するコード
X,Y,Zの識別が行なわれたのちシーケンスコ
ントローラ40に加えられる。なお、このコント
ローラ40から出力される各種の制御信号によつ
てこの音声合成装置全体が制御される。 識別回路23ではまず読出しレジスタ21のデ
ータ内容が判別され、8ビツトデータならば制御
信号Paによつてそのデータそのものが後段のア
キユムレータ(復調レジスタを含む)24に供給
され、4ビツトデータならば制御信号Paによつ
てこのデータが8ビツトデータに復元される。 すなわち、4ビツトデータが例えば、“0011”
のように正の値であるときには、そのMSB側に
上位4ビツト“0000”が加られて8ビツトデータ
に復元されてからアキユムレータ24に供給さ
れ、逆に例えば“1100”のように負の値であると
きには、そのMBS側に上位4ビツト“1111”が
加えられて8ビツトデータに復元されてからアキ
ユムレータ24の供給される。 アキユムレータ24では波形の再現が行なわれ
る。すなわち、音素片データDは波形SIの前半部
の波形SIFに対応したデータであるから、後半部
の波形SIBに対応するデータは、この音素片デー
タDを往復するようにアキユムレータ24に設け
られた復調レジスタに加算されることによつて形
成される。 このとき、データ数の識別コードXを検出した
出力に基づく制御信号Paで、データDの加算回
数が制御される(第11図参照)。また繰り返し
コードYを検出した出力に基づく制御信号Pcで
再現された1サイクル分の音素片データの繰り返
し数が定まる。 この1サイクル分の音素片データは復調レジス
タ(D−A変換器)25にてアナログ音声信号に
復調されたのち、ローパスフイルタ26にて所望
の音声周波数帯域の音声信号が取出される。その
場合、復調レジスタ25の1回の加算をM倍の速
度でM回行なうことにより、見掛け上のサンプリ
ングレートをM倍に高めることができる。これに
よつてローパルフイルタ26のカツトオフ周波数
もM倍になるから、カツトオフ点の周波数特性が
急峻なフイルタを使わないでもフイルタリング処
理できる。 このように、入力装置30からのデータに基づ
き希望する音素片データDが読出されて合成され
ることによつて希望する音片や文章の音声信号を
出力端子27から得ることができる。 以上説明したようにこの発明に係る音声合成装
置によれば、音素片データが不等長ビツトの形式
で記憶されているため、メモリの容量を音質低下
をまねくことなく小規模とすることができる。ま
た逆に多くの音素片データをメモリに記憶させる
ことができるため一層の音質向上をはかることが
できる。
[Table] Code X consists of 4 bits and is distributed according to the number of bits and the number of data. Note that in addition to code X, code Y is shown in <Table 1>, which indicates how many times the phoneme piece data D A , D B . . . are repeated during speech synthesis. It is a repeating code, in this example 4
Since it is composed of bits, the number of repetitions n is from 0 to 15.
You can give instructions up to once. Therefore, codes X and Y become 8-bit data (see FIG. 12). In addition, as shown in FIG. 12, the delimiter code Z,
The identification codes X, Y and the phoneme piece data D A constitute a unit block of data, and a large number of these blocks are stored in the memory device 20 . In addition, when multiple unit blocks are used to collect multiple phoneme data, a phoneme such as one word or one coherent sentence is formed, so the beginning, end, and end of the phoneme are each A delimiter code Z is assigned to distinguish between the two. This delimiter code Z is expressed in hexadecimal, and in this example, the delimiter code for the phoneme segment is "80" and the delimiter code for the speech piece is "7F". Therefore, the delimiter code Z is either a phoneme piece code or a phoneme piece code. An example of the storage format of these identification codes X, Y, delimiter code Z, and phoneme piece data D ( DA , DB ...) is shown in FIG. In this figure, one block is 8-bit data. The data is stored in the memory device in this format. It is assumed that the phoneme piece data D includes sounds such as semi-voiced sounds and persistent sounds, in addition to sounds such as A, I.... Now, in order to synthesize desired speech using the output of this memory device, a speech synthesis device as shown in FIG. 13, for example, may be used. In FIG. 13, 20 is a memory device in which phoneme piece data D and the like are stored, 30 is an input device, and 40 is a sequence controller. Further, 50 is a speech unit address table, and 60 is a speech unit code table. Desired data read from the memory device 20 is supplied to a read register 21 and then to a data restorer 22, where 4-bit data is restored to 8-bit data. Therefore, that register 2
The data fetched in 1 is supplied to a data identification circuit 23, where the data content is determined and codes X, Y, and Z, which will be described later, are identified, and then added to the sequence controller 40. The entire speech synthesis apparatus is controlled by various control signals output from the controller 40. The identification circuit 23 first determines the data content of the read register 21, and if it is 8-bit data, the data itself is supplied to the subsequent accumulator (including a demodulation register) 24 by the control signal Pa, and if it is 4-bit data, it is supplied to the subsequent accumulator (including the demodulation register) 24. This data is restored to 8-bit data by signal Pa. In other words, 4-bit data is, for example, “0011”.
When the data is a positive value, such as ``1100'', the upper 4 bits ``0000'' are added to the MSB side to restore the data to 8-bit data, which is then supplied to the accumulator 24; If so, the upper 4 bits "1111" are added to the MBS side and the data is restored to 8 bits before being supplied to the accumulator 24. The waveform is reproduced in the accumulator 24. That is, since the phoneme piece data D is data corresponding to the waveform SIF in the first half of the waveform S I , the data corresponding to the waveform SIB in the latter half is sent to the accumulator 24 so that the phoneme piece data D is reciprocated. It is formed by being added to a demodulation register provided. At this time, the number of additions of the data D is controlled by the control signal Pa based on the output of the detected data number identification code X (see FIG. 11). Furthermore, the number of repetitions of one cycle of phoneme piece data reproduced by the control signal Pc based on the output of the detected repetition code Y is determined. This one cycle of phoneme piece data is demodulated into an analog audio signal by a demodulation register (DA converter) 25, and then an audio signal in a desired audio frequency band is extracted by a low-pass filter 26. In that case, by performing one addition in the demodulation register 25 M times at M times the speed, the apparent sampling rate can be increased by M times. As a result, the cutoff frequency of the low-pass filter 26 is also multiplied by M, so that filtering processing can be performed without using a filter with a steep frequency characteristic at the cutoff point. In this manner, the desired phoneme piece data D is read out and synthesized based on the data from the input device 30, so that the audio signal of the desired phoneme or sentence can be obtained from the output terminal 27. As explained above, according to the speech synthesis device according to the present invention, since the phoneme piece data is stored in the format of unequal length bits, the memory capacity can be reduced without deteriorating the sound quality. . On the other hand, since a large amount of phoneme data can be stored in the memory, the sound quality can be further improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は有声音の波形の一例を示す図、第2図
は音素片抽出のための説明図、第3図は音素片の
パワースペクトル図、第4図はLPC合成に基づ
くパワースペクトル図、第5図は音素片を対称化
した波形の説明図、第6図はこの対称化波形の合
成の説明図、第7図はビツチ付加の説明図、第8
図は音素片データの作成方法の一例を示す信号処
理の系統図、第9図はその動作説明に供する波形
図、第10図、第11図はこの発明の説明に供す
る図、第12図はデータストレージフオーマツト
の一例の図、第13図はこの発明に係る音声合成
装置の一例を示す要部の系統図である。 10はケプストラム分析器、P0はピツチ周期、
nはP0の繰り返し回数、Shはスペクトル包絡、
20はメモリー装置、21は読出しレジスタ、2
2はデータ復元器、24はアキユムレータ、30
は入力装置、40はシーケンスコントローラであ
る。
Fig. 1 is a diagram showing an example of the waveform of a voiced sound, Fig. 2 is an explanatory diagram for phoneme segment extraction, Fig. 3 is a power spectrum diagram of a phoneme segment, and Fig. 4 is a power spectrum diagram based on LPC synthesis. Fig. 5 is an explanatory diagram of a waveform obtained by symmetricalizing phoneme pieces, Fig. 6 is an explanatory diagram of the synthesis of this symmetrical waveform, Fig. 7 is an explanatory diagram of bit addition, and Fig. 8
The figure is a signal processing system diagram showing an example of a method for creating phoneme piece data, FIG. 9 is a waveform diagram for explaining its operation, FIGS. 10 and 11 are diagrams for explaining the present invention, and FIG. 12 is a diagram for explaining the operation. FIG. 13, which is a diagram illustrating an example of a data storage format, is a system diagram of essential parts showing an example of a speech synthesis device according to the present invention. 10 is the cepstrum analyzer, P 0 is the pitch period,
n is the number of repetitions of P 0 , Sh is the spectral envelope,
20 is a memory device, 21 is a read register, 2
2 is a data restorer, 24 is an accumulator, 30
is an input device, and 40 is a sequence controller.

Claims (1)

【特許請求の範囲】[Claims] 1 差分PCMで形成された音素片データに基い
て音声合成を行う音声合成装置であつて、メモリ
には上記各音素片を表わす差分PCMデータが不
等長ビツトの形式で記憶されると共に各音素片デ
ータを区切るための区切りコード及び音素片デー
タのくり返し回数を示すための繰り返しコードが
記憶されており、該メモリから各音素片に対応し
た比等長ビツト、区切りコード、繰り返しコード
を読み出して所望の音声を音素片合成するように
したことを特徴とする音声合成装置。
1 A speech synthesis device that performs speech synthesis based on phoneme piece data formed by differential PCM, in which the differential PCM data representing each phoneme piece is stored in the form of unequal length bits, and each phoneme is A delimiter code for dividing piece data and a repetition code for indicating the number of repetitions of phoneme piece data are stored, and the equal length bits, delimiter code, and repetition code corresponding to each phoneme piece are read out from the memory and used as desired. A speech synthesis device is characterized in that the speech of is synthesized into phoneme segments.
JP56027313A 1981-02-26 1981-02-26 Voice synthesizer Granted JPS57141698A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56027313A JPS57141698A (en) 1981-02-26 1981-02-26 Voice synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56027313A JPS57141698A (en) 1981-02-26 1981-02-26 Voice synthesizer

Publications (2)

Publication Number Publication Date
JPS57141698A JPS57141698A (en) 1982-09-02
JPH0376480B2 true JPH0376480B2 (en) 1991-12-05

Family

ID=12217591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56027313A Granted JPS57141698A (en) 1981-02-26 1981-02-26 Voice synthesizer

Country Status (1)

Country Link
JP (1) JPS57141698A (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59104699A (en) * 1982-12-08 1984-06-16 沖電気工業株式会社 Voice synthsizer
JPS6022194A (en) * 1983-07-18 1985-02-04 沖電気工業株式会社 Synthesization of voice
JPS6059398A (en) * 1983-09-13 1985-04-05 沖電気工業株式会社 Voice synthesizer
JP2844588B2 (en) * 1984-12-06 1999-01-06 日本電気株式会社 Waveform editing type speech synthesizer

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55147700A (en) * 1979-05-08 1980-11-17 Sharp Kk Sound sysnthesis system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55147700A (en) * 1979-05-08 1980-11-17 Sharp Kk Sound sysnthesis system

Also Published As

Publication number Publication date
JPS57141698A (en) 1982-09-02

Similar Documents

Publication Publication Date Title
US5153913A (en) Generating speech from digitally stored coarticulated speech segments
EP1000499B1 (en) Generation of voice messages
CA1065490A (en) Emphasis controlled speech synthesizer
CA2452022C (en) Apparatus and method for changing the playback rate of recorded speech
JPH0376480B2 (en)
JP3373933B2 (en) Speech speed converter
JP3081469B2 (en) Speech speed converter
JPH03233500A (en) Voice synthesis system and device used for same
JP3803306B2 (en) Acoustic signal encoding method, encoder and program thereof
JPH0258639B2 (en)
JPH0376479B2 (en)
JP2005524118A (en) Synthesized speech
JPH07192392A (en) Speaking speed conversion device
KR100359988B1 (en) real-time speaking rate conversion system
JPS6295595A (en) Voice response system
JPH0414813B2 (en)
JPS58100900A (en) Voice synthesization for arbitrary word
JP2861005B2 (en) Audio storage and playback device
JPH03160500A (en) Speech synthesizer
JP2865714B2 (en) Audio storage and playback device
JPS60500A (en) Voice analyzer/synthesizer
JPS62296198A (en) Voice synthesization system
JPS6325700A (en) Long vowel connection
JPS63223697A (en) Generation of parameter for voice rule synthesization
JPS6247700A (en) Fundamental unit voice filing for rule generator