JPH035599B2 - - Google Patents
Info
- Publication number
- JPH035599B2 JPH035599B2 JP56024692A JP2469281A JPH035599B2 JP H035599 B2 JPH035599 B2 JP H035599B2 JP 56024692 A JP56024692 A JP 56024692A JP 2469281 A JP2469281 A JP 2469281A JP H035599 B2 JPH035599 B2 JP H035599B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- digital
- clock
- analog
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000000034 method Methods 0.000 description 4
- 239000003990 capacitor Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Description
本発明は音声の合成装置に関し、合成音声信号
の品質を高める事を目的としている。 一般に音素片即ち単語、音節、あるいはこれよ
り更に短い音声セグメントを結合編集して合成さ
れた音声信号(単語、句、話声)の品質は音声の
構成単位である音素片の接続部の処理によつて決
まると言える。例えば接続部に発生する波形の急
激な変化、即ち波形の不連続性は高調波ノイズの
原因となり、合成音のS/N比を低下させ、明瞭
度を落す。又、声帯振動の基本周波数であるビツ
チ周波数の変動は合成音声の自然性を劣化させる
ことも知られている。ピツチ周波数の変化に対し
て人間の聴覚はきわめて敏感であり(検知限は
0.1%と言われる)、結合された音素片のピツチ周
波数が不連続な場合、合成音声は聞きづらい不自
然なものとなる。 本発明は音素片波形のパターンを認識して自然
な形で各音素片を結合することにより高品質の合
成音を得ることを可能とするものである。音素片
波形としては、自然音声からたとえばピツチ区間
毎に切り出したものを用いたり、別の音声合成装
置で一素片分を合成したものを取り出したりして
用いる方法があるが、本発明は比較的短時間の、
具体的には数拾ミリ秒の音素片を接続部に於ける
波形の不連続及びピツチ周波数の変動なしに結合
する方法を明らかにするものである。即ち、かか
る短時間の音素片は相隣る音素片の少なくとも結
合部については波形が類似しているはずであり、
従つて、各音素片の時間軸をそれぞれ若干修正す
ることにより、接続部をなめらかに結合して行く
ことが出来る。本発明は結合される音素片の接続
部について、波形の類似度を信号のレベルの形で
把握し、これにもとづき音素片の時間軸に適当な
時間的修正を施こすものである。 本発明の詳細な内容について、以下音声の時間
軸変換装置をその具体的実施例として説明する。 第1図は従来の時間軸伸長装置を例示するブロ
ツク図である。同図に於て端子1は音声入力端
子、2は出力端子、3及び4はいずれもNビツト
の例えばBBDなどのアナログシフトレジスタ、
5は低域通過フイルタ(LPF)である。6,7,
8及び9はアナログスイツチであり、入力端子1
からアナログシフトレジスタ3或いは4、LPF
5を経て出力端子2に至る音声信号をスイツチ制
御する。かつ、これらアナログスイツチはアナロ
グシフトレジスタ3,4の書込みクロツク回路1
0を2mN(mについては後述する)分周する分周
回路11の(Q)及び()出力によつて図示の
如く開閉制御される。 アナログシフトレジスタ3及び4はクロツク回
路10及び分周回路11の(Q)、()出力の
ANDゲート12及び13によりORゲート14及
び15を介して交互に書込みクロツク制御され、
又、読出しクロツク回路16及び分周回路11の
(Q)、()出力のANDゲート17及び18によ
り同じくORゲート14及び15を介して交互に
読出しクロツク制御される。即ち、例えば入力端
子に与えられた時間軸がm倍(m>1)に圧縮さ
れた音声信号(かかる圧縮信号は、例えばテープ
レコーダの再生速度を録音速度のm倍にすること
により得られる)は、分周回路11の(Q)出力
が1のとき、アナログスイツチ8を経てアナログ
シフトレジス4に書込まれる。該シフトレジスタ
のビツト数はNであるため、入力音声信号がmN
個のサンプリング列として順次入力を完了したと
き、該シフトレジスタにはmN個のサンプリング
列の後端N個が記憶され、分周回路11の(Q)
出力は反転して0となり、スイツチ8を閉じる。
同時に該分周回路の()出力は1となり、スイ
ツチ6を開いて、同様にアナログシフトレジスタ
3に書込みを行なう。このとき図の構成から明ら
かなように、アナログシフトレジスタ4は読出し
クロツク回路16によりクロツクされて、同様に
()出力により制御されているスイツチ9を経
て読み出される。アナログシフトレジスタ3への
書き込み期間中、別のアナログシフトレジスタ4
はこのように読み出しを行ない、、続いて分周回
路11の(Q)、()出力が反転すると、再びア
ナログシフトレジスタ4が書込み、3が読出しを
行なう。ここで書込みクロツク回路10のクロツ
ク周波数を(f1)、読出しクロツク回路16のク
ロツク周波数(f2)としたとき、 f1/f2=m (1) となるように、各クロツク周波数を決めれば、時
間軸はm倍に伸長され、音声入力端子1に入力し
た圧縮音声は出力端子2に時間軸が復元されてあ
らわれる。読出しクロツク周波数(f2)は、当
然、必要な出力音声周波数帯域に対しサイキスト
のサンプリング定理を満たすように決められる。 上述の如き従来装置に於ては、アナログシフト
レジスタ3及び4を交互に出力する音素片の接続
タイミングは、書き込みクロツク10を2mN分
周する分周回路11の出力によりmN/f1秒毎に
自動的に決められるため、従つて第6図に図示す
るように音素片の接続部に不連続な波形変化とピ
ツチ周波数の変動とが発生する。前記の如く、こ
のような音素片の接続部に於ける波形やピツチの
不連続は音質や明瞭度をいちじるしく低下させ
る。 次にこのような従来装置の欠点を改良できる本
発明の内容について第2図のブロツク図と共に説
明する。同図に於いて、101は音声信号入力端
子、102は音声信号出力端子、103は音声信
号をデイジタルデータに変換するアナログ−デイ
ジタル変換回路(以下A/Dと称す)である。1
04は2Aバイトの記憶要素を持つランダムアク
セスメモリ(以下RAMと称す)であり、制御入
力端子(LT3)が論理レベル“0”のとき、デー
タ入力端子(I1〜ID)(下位I1)に与えられたデイ
ジタル値をアドレス入力端子(A1〜AA)(下位
A1)により与えられるアドレスに記憶する。制
御入力端子(LT3)が論理レベル“1”のとき
は、アドレス入力端子(A1〜AA)により与えら
れるアドレスの内容をデータ出力端子(O1〜
D)に出力する。106,108はクロツク発生
回路である。クロツク発生回路106の出力
(fR)はプリセツトカウンタ107のクロツク入
力端子(T)に供給される。該カウンタ107は
Aビツトのプリセツトカウンタであり、演算制御
回路105の出力により初期値が設定される。即
ち、制御入力(LT4)にパルスが印加されると、
プリセツト入力端子(P1〜PA)に与えられる論
理レベルがそれぞれ出力(Y1〜YA)の論理レベ
ルを設定する。尚、制御入力(LT4)にパルスが
印加されていない時は、(Y1〜YA)は(fR)を
分周する(下位f1)。クロツク発生回路108は
RAM104の書込みクロツクタイミングを与え
る。クロツク発生回路108の出力(fW)はA
ビツトの分周回路109のクロツク入力端子
(T)に入力供給され、分周回路109の出力
(W1〜WA)(下位W1)を順次歩進させる。11
0は切り換え回路であり、制御入力(LT1)が論
理レベル“1”のとき、分周回路109の出力
(W1〜WA)を、また論理レベル“0”のときプ
リセツトカウンタ107の出力をRCM104の
アドレス入力(A1〜AA)へ出力する。114,
116はインバータであり、115はANDゲー
ト、117はNANDゲートである。R1,R2及び
R3は抵抗器であり、C1,C2及びC3はコンデンサ
である。R1とC1、R2とC2、及びR3とC3はそれぞ
れ積分回路を構成している。これらの時定数をそ
れぞれ(τ1)(τ2)(τ3)とすると、これらは全て
書込みクロツク(fW)の周期よりも充分に小さ
く、τ1>τ3>τ2となるよう構成する。即ち、第3
図に示す如く、ANDゲート115の出力(同図
b)はfW(同図a)の立ち上りで論理レベル
“1”となり、時定数(τ1)でコンデンサC1が
充電されると、立ち下がる。NANDゲート11
7の出力(同図c)はfW(同図a)の立ち上りよ
り遅れて立ち下がり、ANDゲート115の出力
が立ち下がる時点より先に立ち上がる。111は
ラツチ回路であり、制御入力端子(LT2)の論理
レベルが“0”のとき、入力を出力に伝え、“1”
のときは立ち上りの時点の情報をラツチする。1
12はデイジタル−アナログ変換回路(以下D/
Aと称す)であり、デイジタル値をアナログ値に
変換する。113はローパスフイルタであり、
D/A変換された音声信号のサンプリングノイズ
を除去する。 このように構成すると、入力端子に与えられた
音声信号はA/D103によりデイジタル値に変
換され、書込みクロツク(fW)の周期でRAM1
04に記憶される。即ち、ANDゲート115の
出力が“1”のとき、RAM104のアドレス入
力(A1〜AA)は分周回路109の出力が与えら
れ、制御入力端子(LT3)が“0”となり、A/
D103の出力が記憶される。(fW)の周期で分
周回路109は歩進するので、音声信号がサンプ
リングされ記憶されるRAM104のアドレスは
連続的である。但し、2Aのアドレスは0となる。
書込みクロツク(fW)に従つてサンプリングさ
れデイジタル値としてRAM104に記憶された
音声信号は読出しクロク(fR)に従つて読み出
され、D/A変換(112)され、アナログ信号
として音声信号が再生される。この書込みクロツ
ク(fW)と読出しクロツク(fR)の比が時間軸
変換される比率となる。 プリセツトカウンタは読出しクロツク(fR)
の周期で歩進され、従つてRAM104の記憶内
容を読み出すアドレスは(fR)の周期で歩進さ
れる。ラツチ回路111を設けたのはRAM10
4の書き込み時に誤つたアドレスの内容を読み出
さなくする為である。即ち、RAM104の読み
出しは書き込み時以外常時行なわれている。 さて、本発明は第1図従来例にて説明した如
く、接続する音素片の接続部について時間的修正
を加えるものであるが、これを演算制御回路10
5により行なう。演算制御回路105は、ROM
によりプログラムされた演算処理装置(CPU)
(コンピユータ)であつても構わない。第4図は
演算制御回路105の働きを示すものである。各
処理周期は読出しクロツクがNケ計数される周期
である。以下、時間軸(t)方向は書込みクロツ
ク(fw)を単位に述べる。〔処理周期2〕で読み
出される音素片サンプル列N個のうち、最終端の
M個のサンプル列を〔処理周期1〕において書込
みクロツク(fw)に従つて記憶する。〔処理周期
2〕の先頭から(M+r)個のサンプル列をとり
こみ、これと前述のM個のサンプル列について、
相関度の高い点(k)を算出する。この(k)の算出につ
いは後述する。〔処理周期2〕の先頭から(k)個経
た時点から、前述のM個のサンプル列の相関度が
高い故、〔処理周期3〕の先端で、〔処理周期2〕
の先頭から(k+M)個すぎた時点の分周回路1
09の出力をプリセツトカウンタ107にセツト
する。これにより〔処理周期2〕と〔処理周期
3〕の接続点において読み出される音声波形のサ
ンプル列は連続的に連なつていくことができる。
〔処理周期2〕の先頭から(k+N)個の書込み
クロツク(fw)を計数した時点からM個のサン
プル列は、〔処理周期3〕で読み出される後端部
M個のサンプル列であり、次の処理周期の間の接
続点の算出の為、これを記憶する。以後、処理周
期毎にこの操作をすれば、波形は滑らかに接続さ
れてゆく。 さて、相関度の高い接続点の値kの算出につい
て以下述べる。第5図a及びbはそれぞれ第4図
の〔処理周期1〕で書き込まれる先行音素片の後
端部のサンプルM個及び〔処理周期2〕の先端の
後続音素片の前端部(M+r)個のサンプルを示
す。この先行音素片後端部のサンプル数列を
(Xp)(P=1、2、…M)、後続音素片前端部の
サンプル数列を(Yp)(P=1、2、…M+r)
とする。この(Xp)及び(Yp)はA/D103
の出力を書込みクロツク(fw)でサンプリング
して得られる。この音素片の類似性を演算するに
は、(Xp)と(Yp)の二乗誤差(e2 k)を計算す
るのがよい。二乗誤差(e2 k)は、 e2 k=1/MM 〓 〓P=1 (Xp−X/―/σx−Yp+k−Y/―/σy)2………
(2) 但し、 =1/MM 〓P=1 Xp、=1/MM 〓P=1 Yp、
の品質を高める事を目的としている。 一般に音素片即ち単語、音節、あるいはこれよ
り更に短い音声セグメントを結合編集して合成さ
れた音声信号(単語、句、話声)の品質は音声の
構成単位である音素片の接続部の処理によつて決
まると言える。例えば接続部に発生する波形の急
激な変化、即ち波形の不連続性は高調波ノイズの
原因となり、合成音のS/N比を低下させ、明瞭
度を落す。又、声帯振動の基本周波数であるビツ
チ周波数の変動は合成音声の自然性を劣化させる
ことも知られている。ピツチ周波数の変化に対し
て人間の聴覚はきわめて敏感であり(検知限は
0.1%と言われる)、結合された音素片のピツチ周
波数が不連続な場合、合成音声は聞きづらい不自
然なものとなる。 本発明は音素片波形のパターンを認識して自然
な形で各音素片を結合することにより高品質の合
成音を得ることを可能とするものである。音素片
波形としては、自然音声からたとえばピツチ区間
毎に切り出したものを用いたり、別の音声合成装
置で一素片分を合成したものを取り出したりして
用いる方法があるが、本発明は比較的短時間の、
具体的には数拾ミリ秒の音素片を接続部に於ける
波形の不連続及びピツチ周波数の変動なしに結合
する方法を明らかにするものである。即ち、かか
る短時間の音素片は相隣る音素片の少なくとも結
合部については波形が類似しているはずであり、
従つて、各音素片の時間軸をそれぞれ若干修正す
ることにより、接続部をなめらかに結合して行く
ことが出来る。本発明は結合される音素片の接続
部について、波形の類似度を信号のレベルの形で
把握し、これにもとづき音素片の時間軸に適当な
時間的修正を施こすものである。 本発明の詳細な内容について、以下音声の時間
軸変換装置をその具体的実施例として説明する。 第1図は従来の時間軸伸長装置を例示するブロ
ツク図である。同図に於て端子1は音声入力端
子、2は出力端子、3及び4はいずれもNビツト
の例えばBBDなどのアナログシフトレジスタ、
5は低域通過フイルタ(LPF)である。6,7,
8及び9はアナログスイツチであり、入力端子1
からアナログシフトレジスタ3或いは4、LPF
5を経て出力端子2に至る音声信号をスイツチ制
御する。かつ、これらアナログスイツチはアナロ
グシフトレジスタ3,4の書込みクロツク回路1
0を2mN(mについては後述する)分周する分周
回路11の(Q)及び()出力によつて図示の
如く開閉制御される。 アナログシフトレジスタ3及び4はクロツク回
路10及び分周回路11の(Q)、()出力の
ANDゲート12及び13によりORゲート14及
び15を介して交互に書込みクロツク制御され、
又、読出しクロツク回路16及び分周回路11の
(Q)、()出力のANDゲート17及び18によ
り同じくORゲート14及び15を介して交互に
読出しクロツク制御される。即ち、例えば入力端
子に与えられた時間軸がm倍(m>1)に圧縮さ
れた音声信号(かかる圧縮信号は、例えばテープ
レコーダの再生速度を録音速度のm倍にすること
により得られる)は、分周回路11の(Q)出力
が1のとき、アナログスイツチ8を経てアナログ
シフトレジス4に書込まれる。該シフトレジスタ
のビツト数はNであるため、入力音声信号がmN
個のサンプリング列として順次入力を完了したと
き、該シフトレジスタにはmN個のサンプリング
列の後端N個が記憶され、分周回路11の(Q)
出力は反転して0となり、スイツチ8を閉じる。
同時に該分周回路の()出力は1となり、スイ
ツチ6を開いて、同様にアナログシフトレジスタ
3に書込みを行なう。このとき図の構成から明ら
かなように、アナログシフトレジスタ4は読出し
クロツク回路16によりクロツクされて、同様に
()出力により制御されているスイツチ9を経
て読み出される。アナログシフトレジスタ3への
書き込み期間中、別のアナログシフトレジスタ4
はこのように読み出しを行ない、、続いて分周回
路11の(Q)、()出力が反転すると、再びア
ナログシフトレジスタ4が書込み、3が読出しを
行なう。ここで書込みクロツク回路10のクロツ
ク周波数を(f1)、読出しクロツク回路16のク
ロツク周波数(f2)としたとき、 f1/f2=m (1) となるように、各クロツク周波数を決めれば、時
間軸はm倍に伸長され、音声入力端子1に入力し
た圧縮音声は出力端子2に時間軸が復元されてあ
らわれる。読出しクロツク周波数(f2)は、当
然、必要な出力音声周波数帯域に対しサイキスト
のサンプリング定理を満たすように決められる。 上述の如き従来装置に於ては、アナログシフト
レジスタ3及び4を交互に出力する音素片の接続
タイミングは、書き込みクロツク10を2mN分
周する分周回路11の出力によりmN/f1秒毎に
自動的に決められるため、従つて第6図に図示す
るように音素片の接続部に不連続な波形変化とピ
ツチ周波数の変動とが発生する。前記の如く、こ
のような音素片の接続部に於ける波形やピツチの
不連続は音質や明瞭度をいちじるしく低下させ
る。 次にこのような従来装置の欠点を改良できる本
発明の内容について第2図のブロツク図と共に説
明する。同図に於いて、101は音声信号入力端
子、102は音声信号出力端子、103は音声信
号をデイジタルデータに変換するアナログ−デイ
ジタル変換回路(以下A/Dと称す)である。1
04は2Aバイトの記憶要素を持つランダムアク
セスメモリ(以下RAMと称す)であり、制御入
力端子(LT3)が論理レベル“0”のとき、デー
タ入力端子(I1〜ID)(下位I1)に与えられたデイ
ジタル値をアドレス入力端子(A1〜AA)(下位
A1)により与えられるアドレスに記憶する。制
御入力端子(LT3)が論理レベル“1”のとき
は、アドレス入力端子(A1〜AA)により与えら
れるアドレスの内容をデータ出力端子(O1〜
D)に出力する。106,108はクロツク発生
回路である。クロツク発生回路106の出力
(fR)はプリセツトカウンタ107のクロツク入
力端子(T)に供給される。該カウンタ107は
Aビツトのプリセツトカウンタであり、演算制御
回路105の出力により初期値が設定される。即
ち、制御入力(LT4)にパルスが印加されると、
プリセツト入力端子(P1〜PA)に与えられる論
理レベルがそれぞれ出力(Y1〜YA)の論理レベ
ルを設定する。尚、制御入力(LT4)にパルスが
印加されていない時は、(Y1〜YA)は(fR)を
分周する(下位f1)。クロツク発生回路108は
RAM104の書込みクロツクタイミングを与え
る。クロツク発生回路108の出力(fW)はA
ビツトの分周回路109のクロツク入力端子
(T)に入力供給され、分周回路109の出力
(W1〜WA)(下位W1)を順次歩進させる。11
0は切り換え回路であり、制御入力(LT1)が論
理レベル“1”のとき、分周回路109の出力
(W1〜WA)を、また論理レベル“0”のときプ
リセツトカウンタ107の出力をRCM104の
アドレス入力(A1〜AA)へ出力する。114,
116はインバータであり、115はANDゲー
ト、117はNANDゲートである。R1,R2及び
R3は抵抗器であり、C1,C2及びC3はコンデンサ
である。R1とC1、R2とC2、及びR3とC3はそれぞ
れ積分回路を構成している。これらの時定数をそ
れぞれ(τ1)(τ2)(τ3)とすると、これらは全て
書込みクロツク(fW)の周期よりも充分に小さ
く、τ1>τ3>τ2となるよう構成する。即ち、第3
図に示す如く、ANDゲート115の出力(同図
b)はfW(同図a)の立ち上りで論理レベル
“1”となり、時定数(τ1)でコンデンサC1が
充電されると、立ち下がる。NANDゲート11
7の出力(同図c)はfW(同図a)の立ち上りよ
り遅れて立ち下がり、ANDゲート115の出力
が立ち下がる時点より先に立ち上がる。111は
ラツチ回路であり、制御入力端子(LT2)の論理
レベルが“0”のとき、入力を出力に伝え、“1”
のときは立ち上りの時点の情報をラツチする。1
12はデイジタル−アナログ変換回路(以下D/
Aと称す)であり、デイジタル値をアナログ値に
変換する。113はローパスフイルタであり、
D/A変換された音声信号のサンプリングノイズ
を除去する。 このように構成すると、入力端子に与えられた
音声信号はA/D103によりデイジタル値に変
換され、書込みクロツク(fW)の周期でRAM1
04に記憶される。即ち、ANDゲート115の
出力が“1”のとき、RAM104のアドレス入
力(A1〜AA)は分周回路109の出力が与えら
れ、制御入力端子(LT3)が“0”となり、A/
D103の出力が記憶される。(fW)の周期で分
周回路109は歩進するので、音声信号がサンプ
リングされ記憶されるRAM104のアドレスは
連続的である。但し、2Aのアドレスは0となる。
書込みクロツク(fW)に従つてサンプリングさ
れデイジタル値としてRAM104に記憶された
音声信号は読出しクロク(fR)に従つて読み出
され、D/A変換(112)され、アナログ信号
として音声信号が再生される。この書込みクロツ
ク(fW)と読出しクロツク(fR)の比が時間軸
変換される比率となる。 プリセツトカウンタは読出しクロツク(fR)
の周期で歩進され、従つてRAM104の記憶内
容を読み出すアドレスは(fR)の周期で歩進さ
れる。ラツチ回路111を設けたのはRAM10
4の書き込み時に誤つたアドレスの内容を読み出
さなくする為である。即ち、RAM104の読み
出しは書き込み時以外常時行なわれている。 さて、本発明は第1図従来例にて説明した如
く、接続する音素片の接続部について時間的修正
を加えるものであるが、これを演算制御回路10
5により行なう。演算制御回路105は、ROM
によりプログラムされた演算処理装置(CPU)
(コンピユータ)であつても構わない。第4図は
演算制御回路105の働きを示すものである。各
処理周期は読出しクロツクがNケ計数される周期
である。以下、時間軸(t)方向は書込みクロツ
ク(fw)を単位に述べる。〔処理周期2〕で読み
出される音素片サンプル列N個のうち、最終端の
M個のサンプル列を〔処理周期1〕において書込
みクロツク(fw)に従つて記憶する。〔処理周期
2〕の先頭から(M+r)個のサンプル列をとり
こみ、これと前述のM個のサンプル列について、
相関度の高い点(k)を算出する。この(k)の算出につ
いは後述する。〔処理周期2〕の先頭から(k)個経
た時点から、前述のM個のサンプル列の相関度が
高い故、〔処理周期3〕の先端で、〔処理周期2〕
の先頭から(k+M)個すぎた時点の分周回路1
09の出力をプリセツトカウンタ107にセツト
する。これにより〔処理周期2〕と〔処理周期
3〕の接続点において読み出される音声波形のサ
ンプル列は連続的に連なつていくことができる。
〔処理周期2〕の先頭から(k+N)個の書込み
クロツク(fw)を計数した時点からM個のサン
プル列は、〔処理周期3〕で読み出される後端部
M個のサンプル列であり、次の処理周期の間の接
続点の算出の為、これを記憶する。以後、処理周
期毎にこの操作をすれば、波形は滑らかに接続さ
れてゆく。 さて、相関度の高い接続点の値kの算出につい
て以下述べる。第5図a及びbはそれぞれ第4図
の〔処理周期1〕で書き込まれる先行音素片の後
端部のサンプルM個及び〔処理周期2〕の先端の
後続音素片の前端部(M+r)個のサンプルを示
す。この先行音素片後端部のサンプル数列を
(Xp)(P=1、2、…M)、後続音素片前端部の
サンプル数列を(Yp)(P=1、2、…M+r)
とする。この(Xp)及び(Yp)はA/D103
の出力を書込みクロツク(fw)でサンプリング
して得られる。この音素片の類似性を演算するに
は、(Xp)と(Yp)の二乗誤差(e2 k)を計算す
るのがよい。二乗誤差(e2 k)は、 e2 k=1/MM 〓 〓P=1 (Xp−X/―/σx−Yp+k−Y/―/σy)2………
(2) 但し、 =1/MM 〓P=1 Xp、=1/MM 〓P=1 Yp、
【式】
【式】
k=0、1、2、…、r−1
であらわされる。これはサンプリング波形(Xp)
に対して(Yp)をk個だけずらせて重ね合わせ
たときの類似度をあらわすものである。 しかしながら、(2)式にもとづく演算処理は、実
際には膨大な計算ステツプ数となり、短時間(少
なくとも数10ミリ秒の間)で計算するには、高性
能のコンピユータによらねばならない。もともと
(2)式は振幅やレベルの異なる2つの波形の相関を
しらべるものであつて、更に平均レベル()
()との差について二乗和をとることにより誤
差を計算している。ところで本発明の音声の合成
装置の場合、取扱う音素片は時間的に近接した波
形であり、従つて振幅およびレベル共もともと類
似しているとみて良い。この場合2つの波形間の
差は(2)式に代えて e2 k=1/MM 〓P=1 (Xp−Yp+k)2 ………(3) を計算しても良い。しかも、本発明の場合は2つ
の波形の類似度が最大のタイミングを把握すれば
良いのであり、従つて(3)式は更に次の(4)式に代え
られる。 ek=M 〓P=1 |Xp−Yp+k| ………(4) ここで(Xp)及び(Yp+k)はA/D変換器
の最上位桁だけを用いてもよい。また、入力信号
の交流交叉点付近の極性を用いてもよい。この場
合(Xp)及び(Yp+k)はいずれも〔1〕又は
に対して(Yp)をk個だけずらせて重ね合わせ
たときの類似度をあらわすものである。 しかしながら、(2)式にもとづく演算処理は、実
際には膨大な計算ステツプ数となり、短時間(少
なくとも数10ミリ秒の間)で計算するには、高性
能のコンピユータによらねばならない。もともと
(2)式は振幅やレベルの異なる2つの波形の相関を
しらべるものであつて、更に平均レベル()
()との差について二乗和をとることにより誤
差を計算している。ところで本発明の音声の合成
装置の場合、取扱う音素片は時間的に近接した波
形であり、従つて振幅およびレベル共もともと類
似しているとみて良い。この場合2つの波形間の
差は(2)式に代えて e2 k=1/MM 〓P=1 (Xp−Yp+k)2 ………(3) を計算しても良い。しかも、本発明の場合は2つ
の波形の類似度が最大のタイミングを把握すれば
良いのであり、従つて(3)式は更に次の(4)式に代え
られる。 ek=M 〓P=1 |Xp−Yp+k| ………(4) ここで(Xp)及び(Yp+k)はA/D変換器
の最上位桁だけを用いてもよい。また、入力信号
の交流交叉点付近の極性を用いてもよい。この場
合(Xp)及び(Yp+k)はいずれも〔1〕又は
〔0〕である。即ち、これは各対応するサンプリ
ング値の差の絶対値を積分したものであり、これ
が極小となるkを知る事により接続タイミングが
決定される。 本発明では計算処理時間を極力小さくする為、
(4)式にかえて gk=M 〓P=1 (XpYp+k) ………(5) を計算してもよい。(5)式において、(Xp)及び
(Yp+k)はA/D変換器の最上位桁のデータで
あり、〔1〕又は
ング値の差の絶対値を積分したものであり、これ
が極小となるkを知る事により接続タイミングが
決定される。 本発明では計算処理時間を極力小さくする為、
(4)式にかえて gk=M 〓P=1 (XpYp+k) ………(5) を計算してもよい。(5)式において、(Xp)及び
(Yp+k)はA/D変換器の最上位桁のデータで
あり、〔1〕又は
〔0〕である。の記号は排他
的論理和をとる記号であり、従つて、(XpYp
+k)は(Xp)と(Yp+k)の排他的論理和、
すなわち(Xp)と(Yp+k)が共に〔1〕、又
は
的論理和をとる記号であり、従つて、(XpYp
+k)は(Xp)と(Yp+k)の排他的論理和、
すなわち(Xp)と(Yp+k)が共に〔1〕、又
は
〔0〕のとき
〔0〕が与えられ、その他の時
〔1〕が与えられる。従つて先行音素片の後端部
の2値信号サンプリングデータ(Xp)と、後続
音素片の先端部の2値信号サンプリングデータ
(Yp)の類似性が(gk)により与えられ、この
(gk)を最小にするkを知る事により接続タイミ
ングが決定される。即ち、演算制御回路105は
(gk)をk=0、1、…r−1についてそれぞれ
計算し、これが最も小さくなるkを決定する。即
ち、第5図に示すように先行音素片の後端M個の
サンプル列は、後端音素片の先頭よりk個ずれた
部分から重ね合わせるのが最も誤差が少ないとい
うことになる。 以上説明したように演算制御回路105は入力
端子101に与えられた音声信号がA/D103
により変換されたデイジタル値を、クロツク発生
回路108の出力である書込みクロツク(fw)
でサンプリングして、前記サンプル列(Xp)と
(Yp)を得る。このサンプル列(Xp)及び
(Yp)を取り込むタイミングは全て、分周回路1
09の出力(W1〜WA)の値により指示される。
又、演算制御回路105はクロツク発生回路10
6の出力である読み出しクロツクを計数し、これ
がN個計数された時、プリセツトカウンタ107
をセツトし、次の処理周期に入る。このプリセツ
トカウンタをセツトする値は、(Xp)と(Yp)
の演算により得られた(k)に(Yp)を取り込んだ
時の分周回路の指示値を加えたものである。 このように本発明は、演算制御回路105の働
きにより滑らかに接続点の得られる時間軸変換回
路を提供するものであり、従つて従来装置の如き
接続部波形の不連続やピツチ周波数の変動のない
合成音を得ることができる。 更にまた、本発明においてはデイジタル記憶手
段104の記憶内容を読み出す番地を指示するプ
リセツトカウンタ107を設け、このプリセツト
カウンタの値を先行音素片の後端部近傍のデイジ
タル値と後続音素片の前端部近傍のデイジタル値
の類似度の最も高い移動量に基づいて設定してい
るので、例えばテープ等の走行速度を遅くし且つ
それに伴ない再生音声の信号周波数を高くする場
合にも、また逆に走行速度を速くし且つそれに伴
ない再生音声の信号周波数を低くする場合の双方
ともに適用でき、而も波形接続が滑らかになる。
〔1〕が与えられる。従つて先行音素片の後端部
の2値信号サンプリングデータ(Xp)と、後続
音素片の先端部の2値信号サンプリングデータ
(Yp)の類似性が(gk)により与えられ、この
(gk)を最小にするkを知る事により接続タイミ
ングが決定される。即ち、演算制御回路105は
(gk)をk=0、1、…r−1についてそれぞれ
計算し、これが最も小さくなるkを決定する。即
ち、第5図に示すように先行音素片の後端M個の
サンプル列は、後端音素片の先頭よりk個ずれた
部分から重ね合わせるのが最も誤差が少ないとい
うことになる。 以上説明したように演算制御回路105は入力
端子101に与えられた音声信号がA/D103
により変換されたデイジタル値を、クロツク発生
回路108の出力である書込みクロツク(fw)
でサンプリングして、前記サンプル列(Xp)と
(Yp)を得る。このサンプル列(Xp)及び
(Yp)を取り込むタイミングは全て、分周回路1
09の出力(W1〜WA)の値により指示される。
又、演算制御回路105はクロツク発生回路10
6の出力である読み出しクロツクを計数し、これ
がN個計数された時、プリセツトカウンタ107
をセツトし、次の処理周期に入る。このプリセツ
トカウンタをセツトする値は、(Xp)と(Yp)
の演算により得られた(k)に(Yp)を取り込んだ
時の分周回路の指示値を加えたものである。 このように本発明は、演算制御回路105の働
きにより滑らかに接続点の得られる時間軸変換回
路を提供するものであり、従つて従来装置の如き
接続部波形の不連続やピツチ周波数の変動のない
合成音を得ることができる。 更にまた、本発明においてはデイジタル記憶手
段104の記憶内容を読み出す番地を指示するプ
リセツトカウンタ107を設け、このプリセツト
カウンタの値を先行音素片の後端部近傍のデイジ
タル値と後続音素片の前端部近傍のデイジタル値
の類似度の最も高い移動量に基づいて設定してい
るので、例えばテープ等の走行速度を遅くし且つ
それに伴ない再生音声の信号周波数を高くする場
合にも、また逆に走行速度を速くし且つそれに伴
ない再生音声の信号周波数を低くする場合の双方
ともに適用でき、而も波形接続が滑らかになる。
第1図は現存する音声合成装置のブロツク・ダ
イヤグラム、第2図は本発明の音声合成装置の構
成を示すブロツク・ダイヤグラム、第3図は第2
図の同装置のゲート115及び117の出力を説
明する為のタイムチヤートを示す図面、第4図は
第2図の同装置の演算制御回路105の働きを説
明する為のタイムチヤートを示す図面、第5図は
先行音素片M個と後続音素片(M+r)個のサン
プル列(Xp)と(Yp)の波形図、第6図は従来
の装置の特性を示す図面である。 101は信号入力端子、102は信号出力端
子、103はアナログ−デイジタル変換回路、1
04はランダムアクセスメモリ、105は演算制
御回路、106は読出しクロツクを発生するクロ
ツク回路、107はプリセツトカウンタ、108
は書込みクロツクを発生するクロツク回路、11
0は切り換え回路、111はラツチ回路、112
はデイジタル−アナログ変換回路、113はロー
パスフイルタである。
イヤグラム、第2図は本発明の音声合成装置の構
成を示すブロツク・ダイヤグラム、第3図は第2
図の同装置のゲート115及び117の出力を説
明する為のタイムチヤートを示す図面、第4図は
第2図の同装置の演算制御回路105の働きを説
明する為のタイムチヤートを示す図面、第5図は
先行音素片M個と後続音素片(M+r)個のサン
プル列(Xp)と(Yp)の波形図、第6図は従来
の装置の特性を示す図面である。 101は信号入力端子、102は信号出力端
子、103はアナログ−デイジタル変換回路、1
04はランダムアクセスメモリ、105は演算制
御回路、106は読出しクロツクを発生するクロ
ツク回路、107はプリセツトカウンタ、108
は書込みクロツクを発生するクロツク回路、11
0は切り換え回路、111はラツチ回路、112
はデイジタル−アナログ変換回路、113はロー
パスフイルタである。
Claims (1)
- 【特許請求の範囲】 1 アナログ音声波形から抽出された音素片を用
いて編集合成する音声合成装置に於いて、 (a) アナログ入力信号をデイジタル信号に変換す
る変換手段と、 (b) 第1クロツクに従つて該変換手段出力を記憶
するデイジタル記憶手段と、 (c) 第2クロツクにより歩進され、且つ前記デイ
ジタル記憶手段の記憶内容を読み出す番地を指
示するプリセツトカウンタと、 (d) 前記アナログ入力信号からデイジタル信号に
変換された先行音素片の後端部近傍のデイジタ
ル値と後続音素片の前端部近傍のデイジタル値
を前記第1クロツクに応答してサンプリング
し、且つ該サンプリングされた両音素片のサン
プル列についてサンプル列を移動させ乍ら類似
度の演算を行ない、該類似度の最も高い移動量
に基づき、前記プリセツトカウンタの値を設定
する演算制御手段と、 (e) 前記デイジタル記憶手段より読み出されたデ
イジタル信号をアナログ信号に変換してアナロ
グ音声信号を再生するデイジタル・アナログ変
換手段と、 を備えることを特徴とする音声合成装置。 2 演算制御手段は、アナログ入力信号をデイジ
タル信号に変換する変換手段の上位ビツトを前記
第1クロツクに応答してサンプリングし、該サン
プリングされた先行音素片の後端部近傍と後続音
素片の前端部近傍のサンプル列について、両サン
プル列を相対的に移動させ乍ら類似度の演算を行
なう演算制御手段であることを特徴とする特許請
求の範囲第1項記載の音声合成装置。 3 演算制御手段は、入力アナログ信号の交流交
叉点付近の極性を前記第1クロツクに応答してサ
ンプリングし、該サンプリングされた先行音素片
の後端部近傍と後続音素片の前端部近傍のサンプ
ル列について、両サンプル列を相対的に移動させ
乍ら類似度の演算を行なう演算制御手段であるこ
とを特徴とする特許請求の範囲第1項記載の音声
合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56024692A JPS57138699A (en) | 1981-02-20 | 1981-02-20 | Voice synthesizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56024692A JPS57138699A (en) | 1981-02-20 | 1981-02-20 | Voice synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS57138699A JPS57138699A (en) | 1982-08-27 |
JPH035599B2 true JPH035599B2 (ja) | 1991-01-25 |
Family
ID=12145217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56024692A Granted JPS57138699A (en) | 1981-02-20 | 1981-02-20 | Voice synthesizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS57138699A (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5483703A (en) * | 1977-12-16 | 1979-07-04 | Sanyo Electric Co Ltd | Audio synthesizer |
JPS5548813A (en) * | 1978-10-02 | 1980-04-08 | Kanbayashi Seisakusho:Kk | Compressing and expanding unit for time axis of audio |
-
1981
- 1981-02-20 JP JP56024692A patent/JPS57138699A/ja active Granted
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5483703A (en) * | 1977-12-16 | 1979-07-04 | Sanyo Electric Co Ltd | Audio synthesizer |
JPS5548813A (en) * | 1978-10-02 | 1980-04-08 | Kanbayashi Seisakusho:Kk | Compressing and expanding unit for time axis of audio |
Also Published As
Publication number | Publication date |
---|---|
JPS57138699A (en) | 1982-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4214125A (en) | Method and apparatus for speech synthesizing | |
CA1065490A (en) | Emphasis controlled speech synthesizer | |
JPS623439B2 (ja) | ||
JPS6030960B2 (ja) | デイジタル語フレームをアナログ信号に変換する合成装置 | |
JPH0736455A (ja) | 音楽イベントインデックス作成装置 | |
US4314105A (en) | Delta modulation method and system for signal compression | |
US4384170A (en) | Method and apparatus for speech synthesizing | |
EP0081595B1 (en) | Voice synthesizer | |
EP0351848A2 (en) | Voice synthesizing device | |
JPH11259066A (ja) | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 | |
JPH035599B2 (ja) | ||
JPH0358518B2 (ja) | ||
JPS6060079B2 (ja) | アナログ信号合成装置 | |
JPH0373000B2 (ja) | ||
JPS6042959B2 (ja) | アナログ信号合成装置 | |
JPS6042960B2 (ja) | アナログ信号合成装置 | |
JPS6097396A (ja) | 音声合成装置 | |
JPS6060078B2 (ja) | アナログ信号合成装置 | |
JPS58143398A (ja) | 音声合成装置 | |
JPS5968793A (ja) | 音声合成装置 | |
JPS6036599B2 (ja) | 音声合成装置 | |
JPS6036598B2 (ja) | 音声合成装置 | |
JPS60216393A (ja) | 情報処理装置 | |
JPH0125080B2 (ja) | ||
JPS6060077B2 (ja) | アナログ信号合成装置 |