JPS58154000A - 音声合成方式 - Google Patents

音声合成方式

Info

Publication number
JPS58154000A
JPS58154000A JP57036444A JP3644482A JPS58154000A JP S58154000 A JPS58154000 A JP S58154000A JP 57036444 A JP57036444 A JP 57036444A JP 3644482 A JP3644482 A JP 3644482A JP S58154000 A JPS58154000 A JP S58154000A
Authority
JP
Japan
Prior art keywords
waveform
residual
residual waveform
frame
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57036444A
Other languages
English (en)
Inventor
中田 和男
英夫 原
稲田 宏光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Microcomputer System Ltd
Hitachi Ltd
Original Assignee
Hitachi Ltd
Hitachi Microcomputer Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Microcomputer Engineering Ltd filed Critical Hitachi Ltd
Priority to JP57036444A priority Critical patent/JPS58154000A/ja
Publication of JPS58154000A publication Critical patent/JPS58154000A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音声合成方式に係り、特に高品質の音声を比較
的少ない情報量から合成するのに好適な分析合成方式、
なかでもスペクトル符号化方式とくにPARCOR方式
の改良に関する。
従来の音声合成方式、とくにその主流をなすスペクトル
符号化方式(板倉文忠ニスベクトル符号化に基づく音声
分析合成1日本音響学会誌、37巻5号、197〜20
3)においては、音源の生成とスペクトルの形成を分離
して扱い、音源をパ胤 ルスと離音で近似しているため、情報圧縮率は10 k
 bit/sec以下と高いが、音質の劣化をともない
、実用上その教養が強く望まれてきた。
現在音声合成という名称のもとに呼ばれているものは、
厳密に框、分析合成法と呼ばれるべきものであり、第1
図(Jl)に示すように合成に先立って人間の原音声波
形が入力熾子10に与えられており、それをA/D変換
部11でディジタル信号に変換してから点線でかこまれ
た音声分析装置におけるスペクトル分析部12と音源分
析部13で分析して情報を圧縮し、その圧縮された情報
(スペクトルの形成に必要な情報と音源の近似生成に必
要な情報)をメモリ14に記憶(または伝送してもよい
)シ、それから音声合成装置15において分析の逆操作
によって音声波形を出力熾子16に再生復元するもので
ある。いま音声の生成過程を、音源波形g(t)によっ
て励振されたスペクトル形成系(−門から唇までの空間
(声道と呼ぶ)で形成される音響的な管、そのイノパル
ス応答1h(1)とする)の出力と考えると、音声波形
s (j)は次のように与えられる。
s (t)=g(t)oh(t) ここで、優ニいわゆる畳みこみ積分操作(convol
ution )をあられす。
これをフーリエ変換してスペクトルの次元であられせば
8(ω)=G(ω]・H(ω) となる。ここで8(ω)、G(ω)、H(ω)はそれぞ
れ5(t)、g(t)およびh(t)のフーリエ変換ス
ペクトルである。。
スペクトル符号化方式では、各種の処理によって、との
H(ω)を分析近似して抽出する。その結果を貧(ω)
とするとき、一般に介(ω)扛H(ω)の良い近似とに
なっているが完全に等しくはない。そこで、H(ω)の
逆特性をH(ω)−1であられせば、 =G(ω)−H(ω)・H(ω)−1 とあられされ、G(ω)に対応する波形g(t)=F−
’CG(ω)〕を残差波形と呼ぶ。
は、 =G(ω)・H(ω) となり%  5(t)は5(t)に等しくなる。
このことは、残差波形g(t)を入力とすれば、スペク
トル符号化系H(ω)によって完全に分析音声波形を再
生することができ、音質の劣化はないことを示している
るのでは、G(ω)またはg(t)の複雑さによって結
果的に情報圧縮にならず、分析合成系とする意味がない
そこで、たとえば↑(1)を平滑化し、サンプリング周
波数を采げて情報圧縮する方法(伊藤。
斉藤:合成音における駆動音源信号の符号化について1
日本音響学会研究発表講−輪文、1−2−9、昭和55
年5月)や、各種の近似処理をほどこして情報圧縮をす
る方法(4I公昭55−36155号および特公昭55
−36156号公報参照)が提案されているが近似が不
適切て情報圧縮率が低いわりに音質の改善効果が顕著で
なく、実用化されていない。
一方典形的な母音区間からの代表的な1ピッチ分の残差
波形を(固足)音源波形として利用する改善策も提案さ
れている(入路他;ワンチップ音声合aL S I 、
 信学技報Vol、 81.4236゜EA8G−68
年1月)。たとえばPARCOR方式における残差波形
の一例を第1図中)に示す。第1図(b)におけるマは
時間の切れ目、すなわち、フレーム番号のはじまりの時
点を示す。この図から見られるように残差波形は決して
一個の代表的な残差波形ですべて近似できるというほど
簡単なものではない。
このように従来の残差波形利用方式には、情報を多用し
ている割に音質改善が顕著でなく、または情報圧縮は十
分されているが簡単化しすぎて音質改善効果が少ないと
いう欠点かあつ友。
本発明の目的は、残差波形の情報を有効に圧縮利用する
高品質分析合成方式を提供することにある。
この目的を達成するための本発明の基本的な考え方は以
下のようである。
(1)  音源とくに有声音部の音源として残差波形を
利用して音声合成をおこなう。
(2)  残差波形はフレーム毎に抽出する。フレーム
毎の代表または平均化残差波形(lピッチ周期分残差波
形)を求め、これを利用する一方式! (3)上記lピッチ周期分残差波形から、その主要部分
(−幅の大きな部分)のみを数サンプル−十数サンプル
にわたって抽出し、それをそのlフレー^内の音源波形
として使用する。
一方式I (4)  特に残差波形の抽出に当って、分析の結果を
低ビットに符号化し友結果の逆フイルタ回路(実際にそ
のフレームの合成に使われる合成回路の逆回路)を用い
て、より整合度(復元能力)の高い残差波形を作成して
用いる。
つぎに、第1図(畠)の音源分析部13において残差波
形を抽出する公知の方法について説明する。
1)分析すべき音声波形1フレーム(通常20〜30ミ
リ秒)分のデータを公知の手法にしたがって線形予測分
析または偏自己相関係数する。
鰺)抽出され丸線形予測係数または偏自己相関係数を所
定のフォーマットに従って低ビツト量子化を行う。この
場合、量子化歪によるスペクトル歪を軽減するため、)
適切な非線形変換もしくは存在領域の限定を行って符号
化することもまた公知である(北脇他; PARCOR係数の非線形量子化と不均一標本化による
音声の能率的符号化、信学会論文誌J61−A、A6,
543.昭和53年6月)m >童子化結果から、合成
時に使用するのと同じ変換表の索表によって、各係数t
−高精度の復号値に変換する。
IV)第2図に示す逆フイルタ回路によって、(ilで
求めた復号値(第2図でにに、〜kso)を使って残差
波形22を生成する。第2図における各段は1サンプル
期間の遅延時間を有する遅延回路210と、2個の掛算
器211および212と、2個の加算器213および2
14と、からなる。
以上の手順のフローチャニドを第3図に示す。これに続
いて、上記音源分析部13において複素ケプストラム分
析によるフレーム内平均残差渡形を作成する公知の手順
を述べる。
これは一般的にホモモ″:λフィックアナリシス(Ho
momorfhic  Analysis )と呼ばれ
る公知の手法の適用であるe  (Oppenheim
A、V、and 8chafer  R,W* tHo
momorphic  analysis  of  
5peech。
IEEE  Trans  AU−16,p221.J
une1968) ■)残差波形のフーリエ変換によって残差スペ− クトルR(6) ) を求める。R(ω) = IR(
ω)IeVl)R(ω)の複素対数をとることによって
残差の複本対数スペクトルを求める。
log(:R(ω))=t6glR(ω)I+j#←)
Vii)上記複素対数スペクトルの逆フーリエ変換をと
ることによって、複素残差ケプストラムr(りを求める
。  rF)=F−’(togRta+))vm >複
索残差ケプストラムr(り上の調波構造からピッチ周期
T=r、を求める。これはケプストラムによるピッチ抽
出法として公知である( No1l A、 M、富Ce
pstrum pitchdetermination
、 J、 Acoustic、 f3oc。
Am、 Vol 41. I)I)293〜309. 
Fe f 、 H67)。
iX)上記11′jIAケプヌトラム上で、ケフレンシ
ーy=lll、以下の低ケフレンシー成分子(、(りを
低減りフタ−によって分離する。
re(すzr(リ   0くτ〈T re(す;ZO’>T ×)1[素ケプヌトラムの低ケフレンシー成分子o(り
から、そのフーリエ変換によって、平均残差波形の対数
スペクトルlog(R,←)〕を求める。zog[:R
e−)] = F (re(T) )×1)上記対数ス
ペクトルから、その指数管とってさらに逆フーリエ変換
することによって、平均残差波形 re(t)を求める
r、 (t)= F [exp(zog(&り) ) 
)= F’−1[Rn!’)) 以上の手順のフローチャートを第4図に示す。
この考え方の基本は、有声音部における残差波形(第1
図(b)参照)は、第5図に示すように、ピッチ周期と
等しい周期Tをもつ九パルス列p v (t)に対する
残差生成系G、の出力であると考える点にある。いま、
G、のインパルスレスポンスをgo(i)とすれば、残
差波形r (t)は、r(t)= py(t)111g
o (t)とあられされる。いまそれぞれのスペクトル
をRに)、Pt−−Ge tie)とすれは、上式のフ
ーリエ変換をとることによって R(fll)=Pt←)・G・に) となり1畳み込み演算(醤)は単純な積演算(りにおき
かえられる。さらにその対数をとることによって、lo
g(R←)) = 1ott [”Pt(ロ)) + 
toy (Go IP) )と線形な1畳に分解される
。しかしこのままでは右辺の2項はωについての存在域
が重なシ合っており、簡単に分離することにできない。
そこで、さらにその逆7−リエ変換をとることによって
複素ケプストラムに変換する。
g(す=P″亀 (tog[R■〕〕 ” F−” (1011(Pt IP))) ) + 
F″’(tog(G、←D〕= p!(す+go(り ここで、Pt−は周期T=2π/ω。を基本周期!iる
高調波線スペクトル列毎あり、その複素ケプストラム似
、ケアレンジ−r=’ft基本周期とするくりかえし波
形となる。一方、go(りはgo(1)がピッチ周期T
以内に減衰する波形であること(低次元の零回路を主と
することから妥当な仮定といえる)を考えると、その主
成分がケフレンシーr、=’l’以下の低域に存在する
と考えられるから、T・=Tを境とする低域リフターに
よってその主要部分を分離抽出することができる。
したがって、r o (’): g e (す、oくr
<’rであり、re(りは、go (t)のよい近似と
なっている。
代表的な残差波形と、上記公知の手順によって求められ
た途中処理結果を第6図に示し、求められた平均残差波
形の例を第7図に示す。
第6図において、(姉はT′1にピッチ周期とする1フ
レ一ム分(30msao)の残差波形を示し、 (b)
t!複素対数残差スペクトル波形を示し、(C)は複素
残差ケプストラム波形を示し、 (d)U(C)の絶対
値波形を示す。(Toはピッチ周期)また、第7図にお
いて、(−に残差波形を示し、 (b)は(a)から抽
出され1.、・:″。
たフレーム内平均残差渡形を示す。
また、第7図(Jlに示す残差波形の1フレ一ム分から
、残差波形の絶対値の最大値を求め、その点から1ピッ
チ周期分、もしくはあらかじめ定めたサンプル数(数サ
ンプル−十数サンプル)をとり出して、そのフレーム内
の代表残差波形としてもよい。
その手順を第8図に、切り出された代表残差波形の例を
纂9図に示す。
本発明においては、上記のようにして抽出された平均も
しくは代表残差波形は1ピッチ周期の有声音源波形に対
応するから、このフレーム区間では、そのピッチ周期に
対応してこの平均残差音源波形をメモリに格納したうえ
これをくりかえし使用して合成をおこなう。
いま、平均ピッチ周期を8ミリ秒(125Hg=男声)
〜4ズリ秒(25011:女声)とすれば、8KH!サ
ンプリングでのサンプル数は、8X10”/125〜8
X10”/250 =64〜32となL  tサンプル
を8ビツトであられすとして、512bit〜256 
bitとなる。したがって1秒間では、フレーム周期を
20ミリ秒として、512X1G”/20ピッ)=2&
6〜256 X 10”720ビツト=118kb量t
/寥となる。これが前記の方式Iである。このままでは
なお情報量が多すぎるのでさらに低減することを考える
残差波形は第7図(a)上にみられるように、その振幅
の大きい主1部分はほとんど最初の数サンプルーす士サ
ンプル以内に集中しているので、たとえば最初のサンプ
ル点から8〜16サンプルまでをとることにすれば、(
8×8〜8X16)X10”/20 ! 3.2〜6.
4 kbit /secトなる。コレに従来通りの低ビ
ツト符号化特徴パラメータ24kbit/aec12加
え、&6〜&8kbit/sea 、あるいはリピート
・ビットを使用してパラメータの分を1.2kbit/
謝にしたとして4.4〜7.6kbit/1Iacトナ
リ、従来の高品質用9.6kbit/secと同じもし
くはそれ以下の情報量となり、メモリ量が低減される。
また平均もしくは代表残差音源波形の直流成分をOとす
るため、その波形を原点に関して点対称に反転して使用
することも考えられるが、実効メモリ量はかわらない。
以下1本発明を実施例により詳細に説明する。
第10図は本発明の方法を用いた音声合成装置のブロッ
ク図である。合成出力すべき内容を指示する情報101
が、装置全体の制御部1o2(たとえばマイクロプロセ
ッサで構成される)にキーーード(図示せず)などによ
って入力されると、制御部102はその内容に応じて、
索表にょシ、音声合成用制御情報メモリ103(たとえ
ばROMで構成される)の必要アドレスを決定し、その
情報にもとづいて、メモリ103の中の必要部分に読み
出しの起動をかける。この起動によってメモリ103内
の必要情報がフレー五単位でよみ出され、メモリ103
の内部に設けられたインターフェース104をへて音声
合成部105(たとえば音声合成LSI内のディジタル
フィルタ部)および音源メモリ部106(たとえば音声
合成LSI内の音源波形用RAM)にセットされ、公知
のように音声合成を行い(佐藤他:PA’B、COR形
音**gat。LS I(?、、 (l$!1ilil
i’8D79−122.1980 年3月)出力スピー
カ107より合成音−が得られる。
要するに1本発明の主眼はフレー五単位に、lピッチ分
の平均もしくは代表残差波形を音源として音声合成を行
うことにあり、そのために、第10図におけるメモリ1
03の内部に、1フレ一ム単位の情報が、たとえば第1
1図(14に示すように記憶されている。ここでAは音
源強度(A=0は無音)、Tはピッチ周期(T=0は無
声音)を、k、〜に、。は、たとえば10次までの偏自
己相関係数をあられす。
ここまでは従来の、たとえばPARCOR形音声合成の
場合の制御情報となんら異るところはない。
本発明の方式ではこれらに続いて平均残差波形のサンプ
ル値g・からgsまてが記憶されており、その大きさは
第11図(呻で示すような本ので、工詳しくいえば、A
\0で!=00場5合には無声音であるから、とのg、
〜g1は記憶されておらず、音源メモ!7106の内容
は音声合成L8 IK内蔵されているM系列発生器の符
号ビットでおきかえられる。
この場合は、従来の合成方式となんら変るものではない
以下、この1フレ一五単位の制御情報が終るまでS7レ
一五周期毎に上記メモリ103から制御情報が時系列的
によみ出され、合成が継続される。
以上のべたごとく、本発明によれば、従来パルスでおき
かえられていた有声音源波形を、より近位置の高いフレ
ーム内平均、もしくは代li!残差波形tおきかえ、し
かもその残差波形の主要部分のみをメモリに格納して効
果的に使うことによって、従来の高品質用9.6kbロ
/160と大差ない(それより少ない)情報量で、波形
的に、シ友がってスペクトル的にも歪の少ない音声波形
を合成することができ、その効果は大きい。
合成音の試聴結果から、明瞭性はもちろんであるが、自
然性や個人性上の改善が顕著であることが確認された。
【図面の簡単な説明】
第1図(荀は音声分析合成装置のシステム構成図、第1
図(b)は残差波形の一例、第2図は残差波形を求める
だめの逆フィルタの構成ブロック図、第3図は残差波形
生成手順のフローチャート、第4図は平均残差波形生成
手順のフローチャート、第5図は残差波形生成の考え方
の説明図、第6図は残差波形抽出過程の途中結果を示す
図、第7図に代表的残差波形と抽出された平均残差波形
の一例を示す図、第8図はフレーム毎代表残差波形の抽
出手順のフローチャート、第9回灯代表残差渡形の一例
を示す図、第10図は本発明の方式管用いた音声合成装
置のブロック図、第11図(a)H第1θ図におけるメ
モリ103内のデータ配列例を示す図、第11図(b)
H平均化残差波形の一例を示す図である。

Claims (1)

    【特許請求の範囲】
  1. 1、音源の生成処理と該音源によるスペクトル形成処理
    とを分離して実行する音声合成方式において、合成のフ
    レーム毎に合成時のスペクトル形成処理とは逆のフィル
    タリング処理により残差波形を生成し、該残差波形から
    フレーム別平均残差波形または代表残差波形を抽出し、
    該平均残差波形の1ピッチ周期分または該代表残差波形
    の高振幅部分を分析抽出し九結果をメモリに誓きこみ、
    合成時のフレーム毎に上記結果をメモリより読み出し音
    源の基本ユニット波形とし、該基本ユニット波形の蚕幅
    と絢期を所定値になるよう制御することにより合成音を
    生成することを特徴とする音声合成方式。
JP57036444A 1982-03-10 1982-03-10 音声合成方式 Pending JPS58154000A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57036444A JPS58154000A (ja) 1982-03-10 1982-03-10 音声合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57036444A JPS58154000A (ja) 1982-03-10 1982-03-10 音声合成方式

Publications (1)

Publication Number Publication Date
JPS58154000A true JPS58154000A (ja) 1983-09-13

Family

ID=12469976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57036444A Pending JPS58154000A (ja) 1982-03-10 1982-03-10 音声合成方式

Country Status (1)

Country Link
JP (1) JPS58154000A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6295600A (ja) * 1985-10-23 1987-05-02 株式会社リコー 残差駆動型音声合成方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6295600A (ja) * 1985-10-23 1987-05-02 株式会社リコー 残差駆動型音声合成方式

Similar Documents

Publication Publication Date Title
JP3294604B2 (ja) 波形の加算重畳による音声合成のための処理装置
JP4843124B2 (ja) 音声信号を符号化及び復号化するためのコーデック及び方法
US6741960B2 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
JP3483958B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
Childers et al. Voice conversion: Factors responsible for quality
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US20050065784A1 (en) Modification of acoustic signals using sinusoidal analysis and synthesis
WO2011026247A1 (en) Speech enhancement techniques on the power spectrum
CA1065490A (en) Emphasis controlled speech synthesizer
JPH07248794A (ja) 音声信号処理方法
JPH1097287A (ja) 周期信号変換方法、音変換方法および信号分析方法
JP4928703B2 (ja) スペクトル増強実行方法および装置
JPH03136100A (ja) 音声処理方法及び装置
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
JP2001508197A (ja) 構成信号にノイズを加算してlpc原理により符号化された音声のオーディオ再生のための方法及び装置
JPS58154000A (ja) 音声合成方式
JPH05297898A (ja) データ数変換方法
JP3583945B2 (ja) 音声符号化方法
JPH05500573A (ja) 低減されたスペクトルひずみを有するポストフィルタを備えたデジタル音声デコーダ
JPH0651800A (ja) データ数変換方法
JP2003216189A (ja) 符号化装置及び復号装置
JPH0876799A (ja) 広帯域音声信号復元方法
JPH0736484A (ja) 音響信号符号化装置
Yazu et al. The speech synthesis system for an unlimited Japanese vocabulary
JPH06202695A (ja) 音声信号処理装置