JPH0125080B2 - - Google Patents

Info

Publication number
JPH0125080B2
JPH0125080B2 JP55072061A JP7206180A JPH0125080B2 JP H0125080 B2 JPH0125080 B2 JP H0125080B2 JP 55072061 A JP55072061 A JP 55072061A JP 7206180 A JP7206180 A JP 7206180A JP H0125080 B2 JPH0125080 B2 JP H0125080B2
Authority
JP
Japan
Prior art keywords
phoneme
clock
sampling data
binary signal
rear end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55072061A
Other languages
Japanese (ja)
Other versions
JPS56167200A (en
Inventor
Yoji Sugiura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP7206180A priority Critical patent/JPS56167200A/en
Publication of JPS56167200A publication Critical patent/JPS56167200A/en
Publication of JPH0125080B2 publication Critical patent/JPH0125080B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Analogue/Digital Conversion (AREA)

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は音声の合成装置に関し、合成音声信号
の品質を高める事を目的としている。 一般に音素片即ち単語、音節、あるいはこれよ
り更に短い音声セグメントを結合編集して合成さ
れた音声信号(単語、句、話声)の品質は音声の
構成単位である音素片の接続部の処理によつて決
まると言える。例えば接続部に発生する波形の急
激な変化、即ち波形の不連続性は高調波ノイズの
原因となり、合成音のS/N比を低下させ、明瞭
度を落す。又、声帯振動の基本周波数であるピツ
チ周波数の変動は合成音声の自然性を劣化させる
ことも知られている。ピツチ周波数の変化に対し
て人間の聴覚はきわめて敏感であり(検知限は
0.1%と言われる)、結合された音素片のピツチ周
波数が不連続な場合、合成音声は聞きづらい不自
然なものとなる。 本発明は、音素片波形のパターンを認識して自
然な形で各音声片を結合することにより高品質の
合成音を得ることを可能とするものである。音素
片波形としては、自然音声からたとえばピツチ区
間毎に切り出したものを用いたり、別の音声合成
装置で一素片分を合成したものを取り出したりし
て用いる方法があるが、本発明は比較的短時間
の、具体的には数拾ミリ秒の音素片を、接続部に
於ける波形の不連続及びピツチ周波数の変動なし
に結合する方法を明らかにするものである。即
ち、かかる短時間の音素片は、相隣る音素片の少
なくとも結合部については波形が類似しているは
ずであり、従つて、各音素片の時間軸をそれぞれ
若干修正することにより、接続部をなめらかに結
合して行くことが出来る。本発明は結合される音
素片の接続部について、波形の類似度を信号のレ
ベルの形で把握し、これにもとづき音素片の時間
軸に適当な時間的修正を施こすものである。 本発明の詳細な内容について、以下音声の時間
軸変換装置をその具体的実施例として説明する。 第1図は従来の時間軸伸長装置を例示するブロ
ツク図である。同図に於て端子1は音声入力端
子、2は出力端子、3及び4はいずれもNビツト
の例えばBBDなどのアナログシフトレジスタ、
5は低域通過フイルタ(LPF)である。6,7,
8及び9はアナログスイツチであり、入力端子1
からアナログシフトレジスタ3或いは4、LPF
5を経て出力端子2に至る音声信号をスイツチ制
御する。 かつ、これらアナログスイツチは、アナログシ
フトレジスタ3,4の書込クロツク回路10を
2mN(mについては後述する)分周する分周回路
11のQ及び出力によつて図示の如く開閉制御
される。 アナログシフトレジスタ3及び4はクロツク回
路10及び分周回路11のQ,出力のANDゲ
ート12及び13によりORゲート14及び15
を介して交互に書込みクロツク制御され、又、読
出しクロツク回路16及び分周回路11のQ,
出力のANDゲート17及び18により同じくOR
ゲート14及び15を介して交互に読出しクロツ
ク制御される。即ち、例えば入力端子に与えられ
た時間軸がm倍(m>1)に圧縮された音声信号
(かかる圧縮信号は、例えばテープレコーダの再
生速度を録音速度のm倍にすることにより得られ
る)は、分周回路11のQ出力が1のとき、アナ
ログスイツチ8を経てアナログシフトレジスタ4
に書込まれる。該シフトレジスタのビツト数はN
であるため、入力音声信号がmN個のサンプリン
グ列として順次入力を完了したとき、該シフトレ
ジスタにはmN個のサンプリング列の後端N個が
記憶され、分周回路11のQ出力は反転して0と
なり、スイツチ8を閉じる。同時に該分周回路の
Q出力は1となり、スイツチ6を開いて、同様に
アナログシフトレジスタ3に書込みを行なう。こ
のとき図の構成から明らかなように、アナログシ
フトレジスタ4は読出しクロツク回路16により
クロツクされて、同様に出力により制御されて
いるスイツチ9を経て読み出される。アナログシ
フトレジスタ3への書き込み期間中、別のアナロ
グシフトレジスタ4はこのように読み出しを行な
い、続いて分周回路11のQ、出力が反転する
と、再びアナログシフトレジスタ4が書込み、3
が読出しを行なう。ここで書込みクロツク回路1
0のクロツク周波数を1、読出しクロツク回路1
6のクロツク周波数を2としたとき、 12=m (1) となるように、各クロツク周波数を決めれば、時
間軸はm倍に伸長され、音声入力端子1に入力し
た圧縮音声は、出力端子2に時間軸が復元されて
あらわれる。読出しクロツク周波数2は、当然、
必要な出力音声周波数帯域に対しナイキストのサ
ンプリング定理を満たすように決められる。 上述の如き従来装置に於ては、アナログシフト
レジスタ3及び4を交互に出力する音素片の接続
タイミングは、書き込みクロツク10を2mN分
周する分周回路11の出力によりmN/1秒毎に
自動的に決められるため、従つて第6図に図示す
るように音素片の接続部に不連続な波形変化とピ
ツチ周波数の変動とが発生する。前記の如く、こ
のような音素片の接続部に於ける波形やピツチの
不連続は音質や明瞭度をいちじるしく低下させ
る。 次にこのような従来装置の欠点を改良できる本
発明の内容について第2図のブロツク図と共に説
明する。同図に於いて、103及び104はアナ
ログスイツチ107及び109によつて開閉制御
されるアナログシフトレジスタ、110及び11
6はそれぞれ周波数1および2のクロツク回路、
111は2mN分周回路であり、これらの構成は
第1図の従来装置と同じである。 本発明は、前述の如く接続する音素片の接続部
について時間的修正を加えるのであるが、これを
ROM120によりプログラムされたコンピユー
タ(演算処理装置)(CPU)121により行な
う。 計数回路(カウンター)122は分周回路11
1の出力が反転する毎にクリアされ、クロツク回
路110の出力を計数し、I/Oポート123を
経てCPU121にタイミング指示する回路、
A/D変換器124は入力信号をデイジタル変換
する回路、CPU121に縦続する記憶回路
(RAM)125は、これらA/D変換された信
号のうち最上位桁だけを記憶すると同時に、
CPU121の演算処理結果を一時保存する機能
をあわせ有するものである。 ここでA/D変換器出力の最上位桁だけを使用
するのは、前述の如く数拾ミリ秒の短時間の音素
片は、相隣る音素片の少なくとも結合部について
は、波形が類似しているはずであり、音声の基本
ピツチの変動を抑えるためには、音声の基本ピツ
チ波形のゼロクロス点を最も誤差が少なく結合す
ることにより、目的は達成されるから、入力波形
を粗くパターン化しても、後述の演算処理により
A/D変換器出力の全桁を使用した場合と比較し
ほぼ同様の結果が得られるからである。 A/D変換器出力の最上位桁だけで、入力波形
をパターン化するということは、A/D変換器出
力が自然2進コードの場合は、入力波形がA/D
変換器のダイナミツクレンジの1/2を超えるか否
かにより、それぞれ〔1〕
The present invention relates to a speech synthesis device, and an object of the present invention is to improve the quality of a synthesized speech signal. In general, the quality of speech signals (words, phrases, speech) synthesized by combining and editing phoneme fragments (words, syllables, or even shorter speech segments) depends on the processing of connections between phoneme fragments, which are the constituent units of speech. It can be said that it depends on the situation. For example, a sudden change in the waveform that occurs at the connection, that is, a discontinuity in the waveform, causes harmonic noise, lowers the S/N ratio of the synthesized sound, and reduces the clarity. It is also known that fluctuations in the pitch frequency, which is the fundamental frequency of vocal cord vibration, degrade the naturalness of synthesized speech. Human hearing is extremely sensitive to changes in pitch frequency (the detection limit is
0.1%), and if the pitch frequencies of the combined phoneme segments are discontinuous, the synthesized speech will be difficult to hear and unnatural. The present invention makes it possible to obtain high-quality synthesized speech by recognizing the pattern of phoneme segment waveforms and combining each speech segment in a natural manner. As the phoneme segment waveform, there are methods to use one cut out from natural speech, for example, for each pitch interval, or to use a phoneme segment waveform synthesized by another speech synthesizer, but the present invention uses a comparison method. The purpose of this study is to clarify a method for combining phoneme segments of a short period of time, specifically several tens of milliseconds, without discontinuities in waveforms at connections and without fluctuations in pitch frequency. In other words, such short-time phoneme segments should have similar waveforms at least at the joints of adjacent phoneme segments. Therefore, by slightly modifying the time axis of each phoneme, the waveforms of adjacent phoneme segments should be similar. can be smoothly combined. The present invention grasps the degree of waveform similarity in the form of a signal level for the connecting portions of phoneme segments to be combined, and makes appropriate temporal corrections to the time axes of the phoneme segments based on this. The detailed content of the present invention will be explained below using an audio time axis conversion device as a specific example. FIG. 1 is a block diagram illustrating a conventional time axis expansion device. In the figure, terminal 1 is an audio input terminal, 2 is an output terminal, and 3 and 4 are N-bit analog shift registers such as BBD.
5 is a low pass filter (LPF). 6,7,
8 and 9 are analog switches, and input terminal 1
From analog shift register 3 or 4, LPF
The switch controls the audio signal that reaches the output terminal 2 via the terminal 5. In addition, these analog switches control the write clock circuit 10 of the analog shift registers 3 and 4.
Opening/closing is controlled as shown by the Q and output of a frequency dividing circuit 11 which divides the frequency by 2 mN (m will be described later). Analog shift registers 3 and 4 are connected to OR gates 14 and 15 by the clock circuit 10 and Q of the frequency divider circuit 11, and the output AND gates 12 and 13.
The write clock is alternately controlled via the read clock circuit 16 and the frequency divider circuit 11.
Similarly, OR is performed by output AND gates 17 and 18.
It is alternately read clock controlled via gates 14 and 15. That is, for example, an audio signal in which the time axis applied to the input terminal is compressed by m times (m>1) (such a compressed signal can be obtained by, for example, increasing the playback speed of a tape recorder to m times the recording speed). When the Q output of the frequency divider circuit 11 is 1, the signal is sent to the analog shift register 4 via the analog switch 8.
written to. The number of bits of the shift register is N
Therefore, when the input audio signal completes sequential input as mN sampling strings, the rear end N of the mN sampling strings are stored in the shift register, and the Q output of the frequency dividing circuit 11 is inverted. becomes 0, and the switch 8 is closed. At the same time, the Q output of the frequency dividing circuit becomes 1, the switch 6 is opened, and data is written into the analog shift register 3 in the same way. As is clear from the structure shown, the analog shift register 4 is then clocked by a readout clock circuit 16 and read out via a switch 9 which is also controlled by the output. During the writing period to the analog shift register 3, another analog shift register 4 performs reading in this way, and then when the Q and output of the frequency divider circuit 11 is inverted, the analog shift register 4 writes again, and the 3
performs the read. Here write clock circuit 1
0 clock frequency to 1 , read clock circuit 1
If the clock frequency of 6 is set to 2 , then if each clock frequency is determined so that 1/2 = m (1), the time axis will be expanded by m times, and the compressed audio input to audio input terminal 1 will be The restored time axis appears on output terminal 2. The read clock frequency 2 is, of course,
It is determined to satisfy Nyquist's sampling theorem for the required output audio frequency band. In the conventional device as described above, the connection timing of the phoneme pieces that are alternately output from the analog shift registers 3 and 4 is automatically determined every mN/ second by the output of the frequency dividing circuit 11 that divides the write clock 10 by 2 mN. Therefore, as shown in FIG. 6, discontinuous waveform changes and pitch frequency fluctuations occur at the connecting portions of phoneme pieces. As mentioned above, such discontinuities in waveform and pitch at the junctions of phoneme segments significantly degrade sound quality and clarity. Next, the contents of the present invention which can improve the drawbacks of the conventional device will be explained with reference to the block diagram of FIG. In the figure, 103 and 104 are analog shift registers 110 and 11 whose opening and closing are controlled by analog switches 107 and 109.
6 are clock circuits with frequencies 1 and 2 , respectively;
111 is a 2 mN frequency dividing circuit, and the configuration thereof is the same as that of the conventional device shown in FIG. The present invention adds temporal correction to the connected parts of connected phoneme pieces as described above.
This is performed by a computer (processing unit) (CPU) 121 programmed by a ROM 120. The counting circuit (counter) 122 is the frequency dividing circuit 11
A circuit that is cleared every time the output of clock circuit 110 is inverted, counts the output of clock circuit 110, and instructs timing to CPU 121 via I/O port 123;
The A/D converter 124 is a circuit that digitally converts input signals, and the memory circuit (RAM) 125 cascaded to the CPU 121 stores only the most significant digit of these A/D converted signals.
It also has a function of temporarily storing the results of arithmetic processing by the CPU 121. The reason why only the most significant digit of the A/D converter output is used here is because, as mentioned above, for short phoneme segments of several tens of milliseconds, the waveforms are similar at least at the joints of adjacent phoneme pieces. In order to suppress fluctuations in the basic pitch of the audio, the purpose is achieved by combining the zero-crossing points of the basic pitch waveform of the audio with the least error, so it is necessary to roughly pattern the input waveform. This is because almost the same result can be obtained when compared with the case where all digits of the A/D converter output are used through the calculation processing described later. Patterning the input waveform using only the most significant digit of the A/D converter output means that if the A/D converter output is a natural binary code, the input waveform is
[1] depending on whether it exceeds 1/2 of the converter's dynamic range.

〔0〕の出力を出すこ
とになる。 これと同じ機能を得る為の他の方法としては、
例えば第2図中の一点鎖線内の如く、コンパレー
タ126によつて行なうことができる。 また増幅器により信号の振幅を飽和させ、極性
判別することでも同じ機能を得ることができる。 次にそのような振幅飽和用の増幅器を使用する
実施例の要部を第3図に示す。第3図において1
28は利得が充分大きい増幅器、129はクラン
プ回路である。今、入力端子(In)101に第4
図aの如き入力信号が印加されると、増幅器12
8により入力信号は増幅されると共に飽和して増
幅器128の出力は第4図bの如くなる。更にク
ランプ回路129により信号の下端(或は上端)
がクランプされるので、クランプ回路129の出
力は第4図cの如くなる。そしてクランプ回路1
29の出力はANDゲート127に印加され、
TTLレベルのデイジタル信号に変換される。 このようにA/D変換器の最上位桁だけを使用
する構成であれば、出力ビツト数の少ないA/D
変換器を使用することができ、またコンパレータ
あるいは飽和増幅器でも同じ機能を果すことがで
きる。 換言すれば入力信号の極性に対応した2値信号
に変換する2値信号変換装置としてはA/D変換
器やコンパレータ等を使用できる。そして、これ
らA/D変換器やコンパレータ等は安価に構成で
きる。 斯る構成の場合、さらにコンピユータが処理す
る情報量が少なくなり、ROM及びRAMの容量
が少なくできる等、コンピユータ部の構成も安価
にできる効果が得られる。 さて、まずCPU121は計数回路122の出
力にもとずき、入力クロツクの最後部よりM個の
サンプルを、A/D変換器出力124によりデイ
ジタル化して最上位桁だけをI/Oポート123
から読み込み、記憶回路125に保存する。次に
分周回路111の出力が反転すると、CPU12
1は同様に計数回路122の出力にもとずき入力
クロツクの前端から(M+r)個のサンプルを読
み込む。 引き続きCPU121はROM120のプログラ
ムにもとづき入力された先行音素片の後端と、続
く音素片の類似性を演算するのであるがこれには
各サンプリング列の二乗誤差を計算するのが良
い。先行音素片の後端のサンプリング数列をXp
(P=1,2,3…M)、後続の音素片の前端サン
プリング数列をYp(p=1,2,3,…M+r)
としたとき2つの波形間の二乗誤差は、 ek2=1/MMp=1 (Xp−X/σx−Yp+k−y/σy)2 …(2) 但し、=1/MMp=1 xp,=1/MMp=1 yp, k=0,1,2,…,r, であらわされる。これはサンプリング波形xpに
対してypをk個だけずらせて重ね合わせたとき
の類似度をあらわすものである。 しかしながら(2)式にもとづく演算処理は、実際
には膨大な計算ステツプ数となり、短時間(少な
くとも数10ミリ秒の間)で計算するには、高性能
のコンピユータによらねばならない。もともと(2)
式は振幅やレベルの異なる2つの波形の相関をし
らべるものであつて、その為標準偏差(σx)、
(σy)で波形を正規化し、更に平均レベルと
の差について二乗和をとることにより誤差を計算
している。ところで本発明の音声の合成装置の場
合、取扱う音素片は時間的に近接した波形であ
り、従つて振幅およびレベル共もともと類似して
いるとみて良い。この場合2つの波形間の差は(2)
式に代えて ek2=1/MMp=1 (xp−yp+k)2 (3) を計算しても良い。しかも、本発明の場合は2つ
の波形の類似度が最大のタイミングを把握すれば
良いのであり、従つて(3)式は更に次の(4)式に代え
られる。 ek=Mp=1 |xp−yp+k| …(4) ここで(xp)及び(yp+k)はA/D変換器
の最上位桁だけのデータであるから、いずれも
〔1〕又は
It will output an output of [0]. Another way to get the same functionality is to
For example, this can be done by a comparator 126 as shown in the dashed line in FIG. The same function can also be obtained by saturating the amplitude of the signal using an amplifier and determining the polarity. Next, the main part of an embodiment using such an amplifier for amplitude saturation is shown in FIG. In Figure 3, 1
28 is an amplifier with a sufficiently large gain, and 129 is a clamp circuit. Now, the fourth input terminal (In) 101 is connected.
When an input signal as shown in figure a is applied, the amplifier 12
8, the input signal is amplified and saturated, and the output of the amplifier 128 becomes as shown in FIG. 4b. Furthermore, the lower end (or upper end) of the signal is clamped by the clamp circuit 129.
is clamped, the output of the clamp circuit 129 becomes as shown in FIG. 4c. and clamp circuit 1
The output of 29 is applied to AND gate 127,
It is converted to a TTL level digital signal. If the configuration uses only the most significant digit of the A/D converter, it is possible to use an A/D converter with a small number of output bits.
A converter can be used, and a comparator or saturating amplifier can also perform the same function. In other words, an A/D converter, a comparator, or the like can be used as a binary signal converter that converts an input signal into a binary signal corresponding to the polarity. These A/D converters, comparators, etc. can be constructed at low cost. In the case of such a configuration, the amount of information processed by the computer is further reduced, the capacity of ROM and RAM can be reduced, and the configuration of the computer section can be made inexpensive. First, based on the output of the counting circuit 122, the CPU 121 digitizes M samples from the last part of the input clock using the A/D converter output 124, and only the most significant digit is sent to the I/O port 122.
, and store it in the memory circuit 125. Next, when the output of the frequency dividing circuit 111 is inverted, the CPU 12
1 similarly reads (M+r) samples from the front end of the input clock based on the output of the counting circuit 122. Subsequently, the CPU 121 calculates the similarity between the rear end of the input preceding phoneme and the following phoneme based on the program in the ROM 120, and it is preferable to calculate the squared error of each sampling sequence. The sampling sequence at the end of the preceding phoneme is Xp
(P = 1, 2, 3...M), the front end sampling sequence of the subsequent phoneme segment is Yp (p = 1, 2, 3,...M+r)
Then, the square error between the two waveforms is: ek 2 = 1/M Mp=1 (Xp-X/σx-Yp+k-y/σy) 2 ...(2) However, = 1/M Mp =1 xp, =1/M Mp=1 yp, It is expressed as k=0, 1, 2,..., r,. This represents the degree of similarity when yp is shifted by k points and superimposed on the sampling waveform xp. However, the arithmetic processing based on equation (2) actually requires a huge number of calculation steps, and requires a high-performance computer to perform calculations in a short period of time (at least several tens of milliseconds). Originally (2)
The formula examines the correlation between two waveforms with different amplitudes and levels, and therefore the standard deviation (σx),
The error is calculated by normalizing the waveform by (σy) and then calculating the sum of squares of the difference from the average level. By the way, in the case of the speech synthesis apparatus of the present invention, the phoneme pieces handled have waveforms that are close in time, and therefore, it can be considered that the amplitude and level are originally similar. In this case the difference between the two waveforms is (2)
Instead of the formula, ek 2 =1/M Mp=1 (xp−yp+k) 2 (3) may be calculated. Furthermore, in the case of the present invention, it is only necessary to know the timing at which the similarity between the two waveforms is maximum, and therefore equation (3) can be further replaced with the following equation (4). ek= Mp=1 |xp−yp+k| …(4) Here, (xp) and (yp+k) are only the data of the most significant digit of the A/D converter, so they are both [1] or

〔0〕である。即ち、これは各対応す
るサンプリング値の差の絶対値を積分したもので
あり、これが極小となるkを知る事により接続タ
イミングが決定される。 本発明では計算処理時間を極力小さくする為、
(4)式にかえて gk=Mp=1 (XpYp+k) …(5) を計算する。(5)式において、(xp)及び(Yp+
k)はA/D変換器の最上位桁のデータであり、
〔1〕又は
It is [0]. That is, this is the integral of the absolute value of the difference between the corresponding sampling values, and the connection timing is determined by knowing k at which this is the minimum. In the present invention, in order to minimize calculation processing time,
Instead of formula (4), calculate gk= Mp=1 (XpYp+k)...(5). In equation (5), (xp) and (Yp+
k) is the most significant digit data of the A/D converter,
[1] or

〔0〕である。の記号は排他的論理
和をとる記号であり、従つて、(XpYp+k)
は(Xp)と(Yp+k)の排他的論理和、すなわ
ち(Xp)と(Yp+k)が共に〔1〕、又は
It is [0]. The symbol is the symbol for exclusive OR, therefore, (XpYp+k)
is the exclusive OR of (Xp) and (Yp+k), that is, (Xp) and (Yp+k) are both [1], or

〔0〕
のとき
[0]
When

〔0〕が与えられ、その他の時〔1〕が与
えられる。従つて先行音素片の後端部の2値信号
サンプリングデータ(Xp)と、後続音素片の先
端部の2値信号サンプリングデータ(Yp)の類
似性が(gk)により与えられ、この(gk)を最
小にするkを知る事により接続タイミングが決定
される。即ち、演算処理装置121はgkをk=
0,1,…rについてそれぞれ計算し、これが最
も小さくなるkを決定する。即ち、第5図に示す
ように先行音素片の後端M個のサンプル列は、後
続音素片の先頭よりk個ずれた部分から重ね合わ
せるのが最も誤差が少ないということになる。
尚、第5図aは先行音素片の後端を示す図面、第
5図bは後続音素片の前端を示す図面、第5図c
はタイミングチヤートを示す図面である。 そこで演算処理装置121は後続音素片の先頭
より(k+M+N)個のサンプルをとり込み、
I/Oポート123を通じてANDゲート112
あるいは113を制御し、書き込みクロツクを停
止する。 アナログシフトレジスタ103あるいは104
の容量はNであるから、従つて該アナログメモリ
ーには、図示の如く(k+M+1)番目からNビ
ツトが記憶され、次の読み出しタイミングに順次
読み出されるのであるが、以上の説明から明らか
な通り先行音素片の最後端Mサンプルと、後続の
音素片の(k+1)番目からのMサンプルとが最
も誤差が少なく重なるので、従つて音素片は全く
自然な形で音素片が引き続き出力される。前述の
通り後続音素片は(k+M+N)サンプルがアナ
ログメモリーに取り込まれるのであるが、このう
ち最後尾からMサンプルが同様にA/D変換器出
124、I/Oポート123を経てCPU121
の記憶装置125に保存される。これは更に続く
音素片の先頭から(M+r)個のサンプルとの類
似性を調べて接続する為に必要である。以上の処
理のタイムチヤートは第5図cに図示する通りで
ある。尚、アナログシフトレジスタ103あるい
は104はNビツトであり、従つてこれ以上のビ
ツト(M+k+N)のサンプル値が読み込まれて
も記憶されるのは、後方のNビツトだけである。 以上説明した処理方法は比較的短い時間で処理
できるものであるが決して充分な処理の高速性を
為すものではない。以下この点を具体的な数値を
用いて、明らかにし、その問題的を解決すべく、
新らしい処理方式を示す。 音声のうち、母音は百ミリ秒〜数百ミリ秒の比
較的長い継続時間を有し、子音は母音にくらべて
その継続時間が短い事が知られている。従つて、
本発明実施例におけるQ反転時間が長くなると、
いわゆる子音の抜けと言う音声情報の欠落を引き
起す確率が高くなる。一方、2値信号サンプリン
グデータの取り込み及び計算処理の為には、この
Q反転時間は必要量なくてはならない。第7図に
第5図cに示したタイムチヤートのQ反転時間の
箇所を取り出して示す。この第7図において、a
はk=0の場合、cはk=rの場合を示す。尚、
この第7図は書き込みクロツクの数を単位として
時間軸を記してある。従つて、Q反転区間の書き
込みクロツクの数は、m×N個である。先行音素
片及び後続音素片の類似度の計算に供する事ので
きる時間(To)は、先行音素片のサンプルデー
タを取り込んだあと、後続音素片のサンプルデー
タを取り込むまでの時間であり、従つて第7図a
に於ては、 Tc=〔N−(M+r)〕τ …(6) bに於ては、Tc=〔N−(M+k)〕τ cでは Tc=〔N−M〕τ となる。但しτは書き込みクロツクの周期であ
る。 ここで書き込みクロツク回路10のクロツク周
波数1を40KHz、読み出しクロツク回路16のク
ロツク周波数2を20KHz、N=512とすると τ=1/1=1/m・1/2=0.025〔ミリ秒〕 となり、従つてQ反転時間は、 mNτ=25.6〔ミリ秒〕となる。 また、先行音素片の後端部サンプリングデータ
の区間(Mτ)は、音声は基本ピツチ以上の周期
に対応する時間が望ましい。又、後続音素片前端
部のサンプリングデータ区間“(M+r)τ”か
ら“Mτ”を減じた区間も同様の時間巾を必要と
し、従つて100Hzの基本ピツチを有した男性の声
に対応する為には、Mτ=1/m×10〔ミリ秒〕、(M +r)τ=1/m×20〔ミリ秒〕となり、従つてM= r=200となる。 これを(6)式に代入すると、Tc=112τ=2.8〔ミ
リ秒〕となる。また類似度の計算は、先行音素片
の後端部の2値信号の2値信号サンプリングデー
タ200個と後続音素片の先端部の2値信号のサン
プリングデータの排他的論理和の計算を、200回
行わなければならず、とても2.8ミリ秒間では処
理出来ない。 そこで、2値信号をサンプリングする間隔を長
くし、且つMτ、rτを小さくするという妥協点に
本発明の基本的考え方がある。然し乍ら2値信号
のサンプリング間隔を長くするという事は、音声
素片接続部の分解能を下げ、又、Mτ、rτを小さ
くするという事は、低音の音声がつながらないと
言う欠点がある。 従つて本発明は、音声接続部の分解能が高く、
しかもデータ演算時間の短い処理方式を採用して
おり、以下に詳述する。 第8図は、先行音素片後端部aと、後続音素片
前端部bとのそれぞれについての音声信号と、2
値信号とを示す。2値信号をサンプリングする祭
のサンプリング間隔は、アナログシフトレジスタ
の書き込みクロツク1(以下第一クロツクと称す
る。)の整数倍(例えば4倍)のサンプリング間
隔(第2クロツクと以下称する。)で行なう。 これにより、2値信号のサンプリングデータを
例えば1/4に減じる。第8図aの先行音素片端後
端部の2値信号サンプリングデータの取り込みに
おいては、該第2クロツクによりサンプリングし
て、2値信号サンプリングデータを取り込むと同
時に、該取り込み開始時点から見て、最初に現わ
れる2値信号の立ち上り時点を監視し、その取り
込み開始時点から、その2値信号の立ち上り時点
までのクロツク(第3クロツクと称する。)のカ
ウント数CMを記憶する。第3クロツクは、第1
クロツクと同じものを用いることもできる。 後続音素片先端部の2値信号サンプリングデー
タの取り込みにおいても、第2クロツクにより2
値信号をサンプリングして2値信号のサンプリン
グデータを取り込む。この場合、取り込み開始時
点から、2値信号の立ち上りが発生する時点毎の
第3クロツクの計数値Cx(C1,C2,C3……)を記
憶する。 以上の様に2値信号サンプリングデータの取り
込みと同様に2値信号の立ち上り時点に対応する
第3クロツクの計算値を記憶しておく。 一方、類似度の計算は、該CMをC1,C2,C3
…と対応するよう、先行音素片後端部の2値信号
サンプリングデータをシフトし、このシフト毎に
先行音素片後端部2値信号サンプリングデータと
各対応する後続音素片先端部2値信号サンプリン
グデータについて、排他的論理和を計数し、該計
数値が最小となる場合の第3クロツクの計数値
Cxより、シフト量kを決定する。(ただし、k=
Cx−CM)。 このように2値信号は第2クロツクによりサン
プリングされ、従つて、サンプリングデータの数
は少ないが、CM及びCXのサンプリングされるク
ロツクは、第3クロツクを用いる事に依り、分解
能の高い繋ぎめを作る事が出来る。また2値信号
の立ち上りの周期は、前記第2クロツクの周期に
比べて充分に長く構成する事が出来、従つて上述
した排他的論理和の計数を行う回数を少くし得、
計算時間の短縮が可能となる。 2値信号の立ち上りの周期を前記第2クロツク
の周期と比べて充分に長いように構成する具体例
を第9図に示す。2値信号変換回路を第2図の
A/D変換器124又は一点鎖線内のコンパレー
タ126及びゲート127を、第9図の一点鎖線
内の電圧制御型フイルタ130、飽和増巾回路1
28、クランプ回路129及びゲート127に置
き換える。但し、書き込みクロツク1を発生する
クロツク回路110は電圧制御型発振回路とし、
その制御電圧を可変抵抗器VRの摺動接点202
から得るものとする。この可変抵抗器VRは直流
電源端子201とグランド間に接続され、摺動接
点202の電位はその可変抵抗器VRの調整値に
依り決定される。時間軸変換比率mは、(1)式で既
述した如く、読み出しクロツク2と、書き込みク
ロツク1との比であり、読み出しクロツク2は一
定である構成であるから、可変抵抗器VRの調整
に依り、時間軸変換比率mが可変される。入力端
子101に得られる再生された音声信号は、再生
装置の再生速度に依つて周波数が高くなつてい
る。2値信号変換回路150に於て変換する2値
信号の立ち上りの周期を可能な限り長くする為に
電圧制御型フイルタ130は摺動接点202の電
位に依り制御し、音声信号の基本周波数情報が消
滅しない程度に帯域制限を加える構成を採る。帯
域制限された音声信号は、既述の如く飽和増巾回
路128で飽和増巾され、クランプ回路129で
クランプされ、ゲート127でTTLレベルの信
号に変換され、2値信号としてI/Oポート12
3に出力される。 以上の説明から明らかな如く、本発明装置は先
行及び後続音素片の接続部に於て、先行音素片の
後端部のサンプリング値と後続音素片の前端部の
サンプリング値との排他的論理和の積分値が最小
となるよう重ね合せるべく時間軸の修正を行うも
のであり、従つて従来装置の如き接続部の波形の
不連続やピツチ周波数の変動のない合成音を得る
事が出来る。
[0] is given, and at other times [1] is given. Therefore, the similarity between the binary signal sampling data (Xp) at the rear end of the preceding phoneme and the binary signal sampling data (Yp) at the tip of the following phoneme is given by (gk), and this (gk) The connection timing is determined by knowing k that minimizes . That is, the arithmetic processing unit 121 converts gk to k=
Calculate each of 0, 1, . . . r, and determine k for which this is the smallest. That is, as shown in FIG. 5, the least error is achieved when the M sample strings at the end of the preceding phoneme are superimposed from a portion shifted by k from the beginning of the succeeding phoneme.
Furthermore, Fig. 5a shows the rear end of the preceding phoneme, Fig. 5b shows the front end of the succeeding phoneme, and Fig. 5c
is a drawing showing a timing chart. Therefore, the arithmetic processing unit 121 takes in (k+M+N) samples from the beginning of the subsequent phoneme, and
AND gate 112 through I/O port 123
Alternatively, it controls 113 and stops the write clock. Analog shift register 103 or 104
Since the capacity of is N, therefore, N bits are stored in the analog memory from the (k+M+1)th as shown in the figure, and are sequentially read out at the next read timing. Since the last M samples of a phoneme and the (k+1)th M samples of the subsequent phoneme overlap with the least error, the phoneme is successively output in a completely natural manner. As mentioned above, (k+M+N) samples of the subsequent phoneme are taken into the analog memory, and among these, M samples from the end are similarly sent to the CPU 121 via the A/D converter output 124 and the I/O port 123.
The data is stored in the storage device 125 of. This is necessary in order to check the similarity with (M+r) samples from the beginning of the subsequent phoneme and connect them. A time chart of the above processing is shown in FIG. 5c. Note that the analog shift register 103 or 104 has N bits, so even if a sample value of more than this bit (M+k+N) is read, only the rear N bits are stored. Although the processing method described above can perform processing in a relatively short time, it does not provide sufficient processing speed. In order to clarify this point using specific numerical values and solve the problem,
Introducing a new processing method. It is known that among speech sounds, vowels have a relatively long duration of one hundred milliseconds to several hundred milliseconds, and consonants have a shorter duration than vowels. Therefore,
When the Q inversion time becomes longer in the embodiment of the present invention,
This increases the probability of causing a so-called omission of consonants, which is a loss of speech information. On the other hand, this Q inversion time must be a necessary amount in order to take in binary signal sampling data and perform calculation processing. FIG. 7 shows the Q inversion time portion of the time chart shown in FIG. 5c. In this Figure 7, a
indicates the case where k=0, and c indicates the case where k=r. still,
In FIG. 7, the time axis is plotted in units of the number of write clocks. Therefore, the number of write clocks in the Q inversion period is m×N. The time (To) that can be used to calculate the similarity between the preceding phoneme and the following phoneme is the time from when the sample data of the preceding phoneme is taken until when the sample data of the following phoneme is taken. Figure 7a
For b, Tc = [N-(M+k)]τ. For c, Tc = [N-M]τ. Here, τ is the period of the write clock. Here, if the clock frequency 1 of the write clock circuit 10 is 40 KHz, the clock frequency 2 of the read clock circuit 16 is 20 KHz, and N = 512, then τ = 1/1 = 1/m・1/2 = 0.025 [millisecond]. Therefore, the Q inversion time is mNτ = 25.6 [milliseconds]. Furthermore, it is desirable that the period (Mτ) of the trailing end sampling data of the preceding phoneme corresponds to a period equal to or longer than the basic pitch of the voice. In addition, the sampling data section at the front end of the subsequent phoneme segment "(M+r)τ" minus "Mτ" requires a similar time width, and therefore, in order to correspond to a male voice with a basic pitch of 100 Hz. Then, Mτ=1/m×10 [milliseconds], (M+r)τ=1/m×20 [milliseconds], and therefore M=r=200. Substituting this into equation (6) yields Tc = 112τ = 2.8 [milliseconds]. In addition, the similarity calculation is performed by calculating the exclusive OR of 200 binary signal sampling data of the trailing end of the preceding phoneme and the sampling data of the binary signal at the tip of the succeeding phoneme. It has to be done twice, and it cannot be processed in 2.8 milliseconds. Therefore, the basic idea of the present invention is to make a compromise between increasing the sampling interval of the binary signal and decreasing Mτ and rτ. However, increasing the sampling interval of the binary signal lowers the resolution of the speech unit connection part, and decreasing Mτ and rτ has the disadvantage that low-pitched voices are not connected. Therefore, the present invention has high resolution in the audio connection section,
Furthermore, a processing method with short data calculation time is adopted, which will be explained in detail below. FIG. 8 shows audio signals for the trailing end a of the preceding phoneme and the front end b of the succeeding phoneme, and 2
and a value signal. The sampling interval for sampling the binary signal is a sampling interval (hereinafter referred to as the second clock) that is an integral multiple (for example, four times) of the write clock 1 of the analog shift register (hereinafter referred to as the first clock). . As a result, the sampling data of the binary signal is reduced to, for example, 1/4. When capturing the binary signal sampling data at the end of one end of the preceding phoneme in FIG. The clock (referred to as the third clock) count number CM from the start of capture to the rise of the binary signal is stored. The third clock is
The same thing as the clock can also be used. Also in the acquisition of the binary signal sampling data at the tip of the subsequent phoneme, the second clock
The value signal is sampled and sampling data of the binary signal is taken in. In this case, the count value Cx (C 1 , C 2 , C 3 . . . ) of the third clock is stored every time the binary signal rises from the start of acquisition. As described above, in the same way as the binary signal sampling data is taken in, the calculated value of the third clock corresponding to the rising edge of the binary signal is stored. On the other hand, the similarity calculation calculates the CM by C 1 , C 2 , C 3 , etc.
The binary signal sampling data at the rear end of the preceding phoneme segment is shifted to correspond to the binary signal sampling data at the rear end of the preceding phoneme segment and the binary signal sampling data at the leading end of each corresponding subsequent phoneme segment for each shift. The count value of the third clock when the exclusive OR is counted for the data and the count value is the minimum
The shift amount k is determined from Cx. (However, k=
Cx−C M ). In this way, the binary signal is sampled by the second clock, and therefore the number of sampled data is small, but by using the third clock, the sampled clock for C M and C You can make a meal. Furthermore, the period of the rise of the binary signal can be configured to be sufficiently longer than the period of the second clock, and therefore the number of times the above-mentioned exclusive OR counting is performed can be reduced.
It is possible to shorten calculation time. FIG. 9 shows a specific example of configuring the rising cycle of the binary signal to be sufficiently longer than the cycle of the second clock. The binary signal conversion circuit is the A/D converter 124 in FIG. 2 or the comparator 126 and gate 127 in the dashed-dotted line in FIG.
28, clamp circuit 129 and gate 127. However, the clock circuit 110 that generates the write clock 1 is a voltage controlled oscillator circuit,
The control voltage is applied to the sliding contact 202 of the variable resistor VR.
shall be obtained from This variable resistor VR is connected between the DC power supply terminal 201 and the ground, and the potential of the sliding contact 202 is determined by the adjusted value of the variable resistor VR. As already mentioned in equation (1), the time axis conversion ratio m is the ratio of the read clock 2 and the write clock 1 , and since the read clock 2 is configured to be constant, it is difficult to adjust the variable resistor VR. Therefore, the time axis conversion ratio m is varied. The reproduced audio signal obtained at the input terminal 101 has a high frequency depending on the reproduction speed of the reproduction device. In order to make the rising cycle of the binary signal converted by the binary signal conversion circuit 150 as long as possible, the voltage-controlled filter 130 is controlled by the potential of the sliding contact 202, so that the fundamental frequency information of the audio signal is A configuration is adopted that limits the bandwidth to the extent that it does not disappear. As described above, the band-limited audio signal is amplified by the saturation amplification circuit 128, clamped by the clamp circuit 129, converted to a TTL level signal by the gate 127, and sent to the I/O port 12 as a binary signal.
3 is output. As is clear from the above description, the device of the present invention performs an exclusive OR of the sampling value at the rear end of the preceding phoneme and the sampling value at the front end of the succeeding phoneme at the connection point between the preceding and succeeding phonemes. The time axes are corrected so that the integral value of the signals is superimposed to a minimum. Therefore, it is possible to obtain a synthesized sound without discontinuities in the waveform at the connection part or fluctuations in the pitch frequency as in the conventional device.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は現存する音声合成装置の構成を示すブ
ロツク図、第2図は本発明装置の構成を示すブロ
ツク図、第3図は第2図の要部のブロツク図、第
4図は第3図の動作説明の為の波形図、第5図は
本発明装置の動作を説明する波形図、第6図は第
1図の装置に依る特性を示す波形図、第7図は本
発明装置に於ける処理可能時間を説明する為のタ
イミングチヤート、第8図は本発明装置でのデー
タ処理状況を示す波形図、第9図は本発明装置の
要部の構成を示すブロツク図であつて、101は
信号入力端子、102は信号出力端子、103,
104はアナログ記憶手段、110は書き込み用
クロツク、116は読み出し用クロツク、120
はROM、121はCPU、124はA/D変換
器、125はRAM、を夫々示している。
FIG. 1 is a block diagram showing the configuration of an existing speech synthesis device, FIG. 2 is a block diagram showing the configuration of the device of the present invention, FIG. 3 is a block diagram of the main part of FIG. Figure 5 is a waveform diagram to explain the operation of the device of the present invention, Figure 6 is a waveform diagram showing the characteristics depending on the device of Figure 1, and Figure 7 is a waveform diagram of the device of the present invention. 8 is a waveform diagram showing the data processing situation in the device of the present invention, and FIG. 9 is a block diagram showing the configuration of the main parts of the device of the present invention. 101 is a signal input terminal, 102 is a signal output terminal, 103,
104 is an analog storage means, 110 is a writing clock, 116 is a reading clock, 120
121 represents a ROM, 121 represents a CPU, 124 represents an A/D converter, and 125 represents a RAM.

Claims (1)

【特許請求の範囲】 1 アナログ音声波形から抽出された音素片を用
いて編集合成する音声合成装置に於て、 (a) 第1クロツクに従つてアナログ入力信号をサ
ンプリングして記憶する記憶手段と、 (b) アナログ入力信号の極性を2値信号に変換す
る2値信号変換手段と、 (c) この2値信号変換手段に依つて変換された先
行音素片の後端部及び後続音素片の前端部の2
値信号を前記第1クロツクに関連する第2クロ
ツクにてサンプリングした両音素片のサンプリ
ングデータを記憶する2値信号サンプリングデ
ータ記憶手段と、 (d) 該2値信号サンプリングデータ記憶手段に記
憶された先行音素片の後端部の2値信号サンプ
リングデータと後続音素片の前端部の2値信号
サンプリングデータとの排他的論理和を採る排
他的論理和手段と、 (e) 該排他的論理和手段での排他的論理和を計数
する排他的論理和計数手段と、 (f) 前記第1クロツクに関連する第3クロツクに
て前記音素片の後端部と前端部の2値信号の極
性反転時点を計数し、該計数された極性反転時
点を記憶する極性反転時点記憶手段と、 を備え、前記先行音素片の後端部と後続音素片の
前端部の2値信号極性反転時点が一致するように
該後端部或は前端部のサンプリングデータを相対
的にシフトして対応させ乍ら、且つ前記先行音素
片の後端部の2値信号サンプリングデータと後続
音素片の前端部の2値信号サンプリングデータと
の前記排他的論理和が最小となるように、前記先
行音素片の後端部と後続音素片の前端部のサンプ
リングデータを相対的にシフトし、該シフトされ
た極性反転時点の前記計数手段の計数値を前記極
性反転時点記憶手段より読み出し、これに基づい
てアナログ音素片を接続することを特徴とする音
声合成装置。
[Claims] 1. A speech synthesis device that performs editing and synthesis using phoneme pieces extracted from an analog speech waveform, comprising: (a) storage means for sampling and storing an analog input signal in accordance with a first clock; (b) binary signal converting means for converting the polarity of an analog input signal into a binary signal; and (c) the rear end of the preceding phoneme and the subsequent phoneme converted by the binary signal converting means. 2 at the front end
(d) binary signal sampling data storage means for storing sampling data of both phonemes obtained by sampling the value signal at a second clock related to the first clock; (e) exclusive OR means for calculating an exclusive OR of binary signal sampling data at the rear end of the preceding phoneme and binary signal sampling data at the front end of the subsequent phoneme; (f) a polarity inversion point of the binary signals at the rear end and front end of the phoneme segment at a third clock related to the first clock; and a polarity reversal time storage means for counting the counted polarity reversal time and storing the counted polarity reversal time. The sampling data at the rear end or the front end of the preceding phoneme segment is relatively shifted to correspond to the sampling data at the rear end of the preceding phoneme and the binary signal at the front end of the succeeding phoneme. The sampling data at the rear end of the preceding phoneme and the front end of the succeeding phoneme are relatively shifted so that the exclusive OR with the sampling data is minimized, and the sampling data at the shifted polarity inversion point is A speech synthesis device characterized in that the counted value of the counting means is read out from the polarity reversal time point storage means, and analog phoneme pieces are connected based on this.
JP7206180A 1980-05-28 1980-05-28 Voice synthesizer Granted JPS56167200A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7206180A JPS56167200A (en) 1980-05-28 1980-05-28 Voice synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7206180A JPS56167200A (en) 1980-05-28 1980-05-28 Voice synthesizer

Publications (2)

Publication Number Publication Date
JPS56167200A JPS56167200A (en) 1981-12-22
JPH0125080B2 true JPH0125080B2 (en) 1989-05-16

Family

ID=13478492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7206180A Granted JPS56167200A (en) 1980-05-28 1980-05-28 Voice synthesizer

Country Status (1)

Country Link
JP (1) JPS56167200A (en)

Also Published As

Publication number Publication date
JPS56167200A (en) 1981-12-22

Similar Documents

Publication Publication Date Title
US4214125A (en) Method and apparatus for speech synthesizing
US5842172A (en) Method and apparatus for modifying the play time of digital audio tracks
JPS623439B2 (en)
JPH0361959B2 (en)
JPS58165443A (en) Encoded storage device of signal
EP0081595B1 (en) Voice synthesizer
JPS5982608A (en) System for controlling reproducing speed of sound
US4210781A (en) Sound synthesizing apparatus
JPH0125080B2 (en)
USRE31172E (en) Sound synthesizing apparatus
JPS642960B2 (en)
JP3147562B2 (en) Audio speed conversion method
JPS6060077B2 (en) Analog signal synthesizer
JPS6036598B2 (en) speech synthesizer
JPS6042959B2 (en) Analog signal synthesizer
JPS6042960B2 (en) Analog signal synthesizer
JPS6060079B2 (en) Analog signal synthesizer
JPH0713596A (en) Speech speed converting method
JPH0358518B2 (en)
JPS5968793A (en) Voice synthesizer
JPH035599B2 (en)
JPS60216393A (en) Information processor
JPS6265098A (en) Music vocoder
JPS63210899A (en) Voice synthesizer
JPH10282991A (en) Speech rate converting device