JP2539351B2 - 音声合成方法 - Google Patents

音声合成方法

Info

Publication number
JP2539351B2
JP2539351B2 JP59005583A JP558384A JP2539351B2 JP 2539351 B2 JP2539351 B2 JP 2539351B2 JP 59005583 A JP59005583 A JP 59005583A JP 558384 A JP558384 A JP 558384A JP 2539351 B2 JP2539351 B2 JP 2539351B2
Authority
JP
Japan
Prior art keywords
residual
error
waveform
value
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59005583A
Other languages
English (en)
Other versions
JPS60150100A (ja
Inventor
昌一 武田
熹 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59005583A priority Critical patent/JP2539351B2/ja
Publication of JPS60150100A publication Critical patent/JPS60150100A/ja
Application granted granted Critical
Publication of JP2539351B2 publication Critical patent/JP2539351B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は音声分析合成方式の改良に関する。
〔発明の背景〕
音声を|ア|とか|イ|のような情報を主に担うスペ
クトル・エンベロープ情報と、アクセントやイントネー
ションのような抑揚を担う音源情報に分離して処理ある
いは伝送する方式は生成源方式と呼ばれている。PARCOR
方式、LSP方式などがその例である。これら生成源方式
は、狭帯域伝送が可能であり、そのためボイスメール、
玩具、教育機器などへの応用に適している。また、生成
源方式の上記の情報分離性は、規則合成には不可欠な性
質である。従来の生成源方式においては、第1図(a)
に示すように、音源情報として疑似的に発生させるため
白色雑声1あるいはインパルス列2を切換えて用いてい
た。このとき合成器に印加する音源情報は、音声/無
声情報3、音源振幅4、およびピツチ周期(あるい
はピツチ周波数)5であつた。すなわち、上記の情報
を用いて、有声の場合インパルス列を発生させ、無声の
場合白色雑音を発生させる。これらの信号の振幅は上記
により与えられる。またインパルス列の発生間隔は上
記により与えられる。
このような疑似音源を用いることにより次のような音
質劣化が起こり、従来の生成源方式による分析合成音声
が一定の品質の限界を乗り越えることは不可能であつ
た。
(1)分析時に起こる有声/無声の誤判定による音質劣
化。
(2)ピツチ抽出誤りによる音質劣化。
(3)女声|イ|や|ウ|などに発生するホルマント成
分とピツチ成分の分離の不完全性に基く音質劣化。
(4)PARCOR方式などARモデルの限界により、スペクト
ルの零の情報を担えないために生ずる音質劣化。
(5)音声の自然性に重要な非定常成分、ゆらぎの情報
が棄てられるために生ずる音質劣化。
〔発明の目的〕
本発明の目的は、これらの音質劣化の要因を一きよに
除去する手段として、PARCOR方式やLSP方式の予測残差
の情報を用いることにより、自然な音質を与え効果的に
残差情報を圧縮する音声合成方法を提供することにあ
る。
〔発明の概要〕
上記の目的を達成するため、本発明は生成源処理によ
る音声分析合成装置に音声の品質上重要性の少ない部分
を取除いた残差信号を用いることにより、原音声のもつ
高品質を維持しながら伝送情報を圧縮する。
つまり、音声分析器にて音声の原波形の残差波形をデ
ィジタル化することにより残差パルス列を得て、残差情
報圧縮手段にて残差パルス列を圧縮して、音声合成器に
て圧縮した残差パルス列を用いて音声の合成波形を合成
する音声合成方法であって、誤差計算手段にて原波形と
合成波形との誤差を計算し、残差情報圧縮手段にて誤差
が最小となるように残差パルス列から所定の数の残差パ
ルスを除去することにより残差パルス列を圧縮する。
〔発明の実施例〕
第1図(b)は、同図(a)に示す従来の分析合成方
式の疑似音源の代りに、分析器の出力信号として得られ
る残差信号の合成器の音源として用いた場合の分析合成
系を示したものである。このような分析合成系を通過し
て得られる合成波形は、原理的に原波形と一致するので
音質劣化は生じない。しかしながら伝送情報が全く圧縮
されないので、生成源方式を利用する長所もまた薄れて
くる。
そこで本発明では、伝送情報を圧縮するために第2図
に示すような残差情報圧縮方式を提供する。
以下に、第2図を引用して残差情報を圧縮する方式を
説明する。基本的には、音声の原波形を分析して得られ
る残差波形を構成するパルスの中から適当な1本あるい
は数本を抜取り(すなわち0の値に置き換え)、抜取り
後の残つた残差パルス列(圧縮化残差波形)を駆動音源
として合成器に入力して合成波形を得る。この合成波形
は残差圧縮によるひずみを含んでいる。そこで原波形と
この合成波形の誤差を計算することにより、そのひずみ
の度合を評価する。このような誤差計算を対象となつて
いる音声短区間中のあらゆる残差パルスの所定の本数の
抜取りの組合せについて行う。そしてその中で最も誤差
が小さくなるような組合せで残差パルスを抜取つた後の
残りの残差パルスを記憶しておく。上記抜取操作は必要
に応じて数段階繰返してもよい。このようにして最後ま
で残つた残差パルスを伝送残差信号(圧縮化残差波形)
とし、合成器の音源として用いる。
上記の方式において、誤差の定義のし方、および抜取
操作方法によつて多種類の手法が実現できる。例えば上
記誤差としては、原波形と合成波形の対応するサンプ
ル点における差の2乗和、上記の誤差に例えばNois
e Weighting Filter*のような重み付けフイルタを適用
して聴覚補正を施した誤差尺度、残差パルス抜取りに
より変化した合成波形の振幅値を補正した上記あるい
はの誤差尺度、原波形と合成波形のスペクトルひず
み、重み付けフイルタを適用して聴覚補正を施したス
ペクトルひずみ、などが挙げられる。また、抜取方法と
しては、1本ごとに誤差が最小となるような残差パル
スを求め、所定の本数になるまで順次抜取りを続けてい
く(これを逐次抜取法と呼ぶことにする)、一度に所
定の本数の残差パルスを誤差が最小となる組合せで抜く
(これを同時抜取法と呼ぶことにする)、などの方法が
挙げられる。上記〜およびの組合せだけでも10
通りの手法が存在することになる。勿論、上記以外の組
合せも存在し得る。
当然のことながら、合成音声の品質は、残差パルスの
抜取り本数の増加とともに劣化していく。そこで、目的
に応じて要求される品質あるいは情報伝送量を満足する
ように抜取り本数を決定する必要がある。抜取り本数
は、合成音声の長時間平均の品質が所望の水準を満たす
ような一定値、あるいは所望の情報伝送量となる一定値
として定めることも可能である。しかしながら、一般に
同一の品質を得るための抜取り本数は、音韻の種類等音
声波形の性質により異なるため、抜取り本数を一定値に
定めると合成音声の品質にムラが生ずる。そのため、た
とえばもし最も品質が悪い場合でも少くともある水準の
品質を保つように抜取り本数を決定しようとすれば、合
成音声に不必要に高品質な部分が生じ、この部分では過
剰な情報を伝送することによるムダが生ずる。このよう
に品質のムラ、あるいは情報のムダを減らし、効率的に
情報を伝送するために、以下に説明するような音声波形
の性質に適応して、最適な残差パルス抜取本数(以下、
略して「残差抜取数」と呼ぶことにする)を決定する方
式を導入する。
第3図は、左から右に一定区間の残差パルスを振幅値
の小さい方から大きい方へ順に並べたもので、振幅の大
きさを棒の高さで表現したものである。第3図のうち
(a)図は音韻|a|の例であり、(b)図は|i|の例であ
る。図中の矢印は、それで示した残差パルス以上の振幅
を持つ残差パルスは、ピツチ情報等音声の品質上重要な
情報を担つているので不可欠であることを示している。
図からわかるように、|a|の場合はさまざまな振幅値の
残差パルスが含まれているが、|i|の場合は、ほとんど
が小さい振幅値の残差パルスであり、大きい振幅値の残
差パルスはわずかしか含まれていない。このように、一
般に残差パルスの振幅値の分布は、音韻によつて異な
る。さらに、音声の品質上重要な情報を担つている残差
パルスは、振幅の大きい残差パルスであることもわか
る。したがつて、大きい振幅値の残差パルスが多く含ま
れている|a|では多くの残差パルスを必要とし、大きい
振幅値の残差パルスがわずかしか含まれていない|i|で
はわずかな数の残差パルスだけを伝送すればよいと言え
る。以上より、残差抜取数はその残差波形の振幅の大き
さに存在する量として設定すればよい。
上に述べたことは、一定の短区間における残差振幅値
の分布に着目して残差抜取数が決定できるということで
あつたが、他の方法としては、長時間の音声データの残
差の振幅値の分布に着目して定めたしきい値より小さい
振幅値の残差パルスを抜取るという方法も存在する。
第4図は以上の方式をまとめて概念的に示したもので
ある。
残差抜取数を決定する他の方式として、第5図に示す
ように、原波形と合成波形の誤差値に基いて決定すると
いう方式がある。横軸に残差抜取数、縦軸に波形誤差あ
るいはスペクトルひずみ尺度のような誤差値をとつて誤
差増加曲線を描くと、第3図と類似の傾向が見られる。
すなわち、|a|の場合は少い残差抜取数で比較的誤差増
加の立ち上りが早く、|i|の場合は逆に、残差抜取数が
多くなつてもなかなか誤差値が大きくならない。このこ
とは、|i|の方がより多くの残差を抜取れることを意味
している。したがつて、例えば誤差値が予め定めた一定
値以下で最大となるように残差抜取数を決定すれば、所
期の目的が達成できる。
そのほかの変形方式としては、例えば原波形の振幅情
報、あるいは合成波形の振幅情報に基いて残差抜取数を
決定する方式がある。いずれにせよ、基本的に何らかの
音声情報を用いて適応的に残差抜取数を自動決定すると
いう共通の方式であり、上に述べた方式に準じて実施す
ることが出来る。
以上の原理に基く方式は、高品質音声合成のための音
源を得る分析方式として用いることができることはもと
より、この音源を用いた高品質音声合成方式として単独
に用いることも可能である。さらに上記分析方式と合成
方式を一体とした分析合成方式として用いることができ
ることは言うまでもない。
第6図は第1の実施例を示したもので、具体例として
PARCOR分析器、PARCOR合成器を使用した分析合成系につ
いて説明してあるが、スペクトル・エンベロープ情報と
音源情報を分離することを基本とする生成源処理の分析
・合成器であるならば、PARCOR分析・合成器の代りに用
いることができる。以下の説明は音声データから切出さ
れた短区間(1フレーム)音声データについての一回の
処理内容についてであつて、全音声区間については、以
下に説明する処理を繰返し実行すればよい。
第1の実施例は、誤差の評価に波形誤差を用いる方式
であつて、評価量は具体的には次式によつて表わされ
る。
ここにεは誤差の評価量、jは原音声信号xjを聴覚補
正などを目的とした重み付けフイルタW(Z)(ZはZ
変換を意味する)に通過させた出力信号、′jは合成
音声信号x′をW(Z)に通過させた出力信号であ
る。また、aは残差パルス抜取りに伴う振幅の変化を補
正する係数である。さらに、Lは誤差を評価する区間の
データの個数である。なお、本実施例では、重み付けフ
イルタとして、Noise Weighting Filterを例にとつた場
合について説明することにする。
振幅補正係数aは(1)式においてεの最小値を与え
る解として与えられる。したがつて(1)式において、 と置けば、(2)式よりaは次式のように求まる。
残差パルスの抜き方については、前述の1本ずつ誤
差εの最小値を求めながら所定の本数(これをM本とす
る)まで抜いていく方式(逐次抜取法)と、前述の一
度にM本抜く方式(同時抜取法)の2方式を例示する。
以下の説明では、1フレーム内の抜取り対象の残差パル
スの総本数をN本とする。ここで評価区間データ数Lと
上記Nとの表記が異なるのは、評価区間と残差抜取区間
とは必ずしも一致しないからである。一般に残差抜取区
間は評価区間内に含まれる。
以下、の残差パルスを1本ずつ誤差εの最小値を求
めながら所定の本数まで抜いていく方式(逐次抜取法)
について説明する。
まず、切出された1フレーム音声データ(原音声)
は、メモリ6に格納される。次にメモリ6に格納された
音声データxjはPARCOR分析器7に入力され、PARCOR分析
によりPARCOR係数ki(i=1,2,…,p)が計算され、同時
にPARCOR分析器7の出力信号として残差信号が求められ
る。残差信号ujは、一たんメモリ8に格納される。以上
の演算は1フレームにつき唯一回だけ行われる。次に、
メモリ8に格納されている残差信号はそのままメモリ9
に転送される。しかる後に、誤差最小値探索部10の中に
設置されているカウンタ値CNで指定されるメモリ9内の
番地のレジスタに0を書き込む。この動作はメモリ9に
書込まれている残差パルス列uj(j=1,2,…,N)中のj
=CNの残差パルスを抜取る(すなわちujCN=0とする)
ことを意味している。ここでCNの値は、抜取り対象残差
パルスの時間方向並びに対応して、クロツクの起動によ
りCN=1,2,…,Nまで順次変化する。すなわち、メモリ9
内では、クロツクの起動ごとに、残差パルスがu1,u2
u3,…uNの順に0に置き換えられる。第1回目の誤差計
算前にはカウンタ値CNはリセツトされCN=1にセツトさ
れる。従つて第1回目はCN=1であるからu1=0とした
場合の誤差が計算される。誤差計算は以下のとおりであ
る。すなわち、ujのうちの1本を0としたメモリ9内の
残差パルス列(これらを改めてu′と表記する)をPA
RCOR合成器11に入力し、その出力波形をメモリ12に格納
する。このときのPARCOR係数k1は前もつてPARCOR分析器
7によつて求めておいたものを用いる。上記メモリ12に
格納された波形(合成波形)x′を重み付けフイルタ
W(Z)13に通過させ、W(Z)13の出力として′j
を得る。他方メモリ6に格納された原音声波形xjもW
(Z)13′を通過させ、W(Z)13′の出力としてj
を得る。このから上記′jに掛算器14によりaを掛
けたものを加算器18により引くとj−a′jが計算さ
れ、さらに掛算器15により2乗計算をしたものとメモリ
16内のデータ値との和を加算器17により求め、改めてメ
モリ16に格納すれば(1)式によるεの値が計算され
る。ただしメモリ16はεの値の計算に先立つてゼロクリ
アしておく。ここでaの値は掛算器14による計算を行う
前に計算回路19により(3)式を計算することにより求
めておく。以下、計算回路19の詳細を第7図により説明
する。メモリ20,21は予めゼロクリアをしておく。ま
ず、掛算器22によりj・′jを計算し、その結果とメ
モリ20の値の和を加算器23により計算し、その結果を改
めてメモリ20内に格納する。これをj=1からL回繰返
せばその結果としてメモリ20内に(3)式の分子を得
る。同様にして、掛算器24、加算器25およびメモリ21を
用いて(3)式の分母をメモリ21に得ることができる。
メモリ20の値を割算器26を用いてメモリ21の値で割れ
ば、(3)式によりaの値が求まるので、この値を第6
図のメモリ27に格納する。
以上により求まつた、ujを抜取つたときの誤差εは、
誤差最小値探索部10に入力される。第8図は誤差最小値
探索部10の詳細図であり、ここでは、εが前回までに演
算された誤差最小値(メモリ29に格納されている)より
も小さいか否か比較器28により比較される。もしそうで
あれば比較器28からラツチ信号LTが出力され、ここで計
算したεの値が誤差最小値としてメモリ29に更新登録さ
れ、同時にそのときのカウンタ値CNもメモリ30に更新登
録される。第1回目の誤差計算においては、メモリ29に
予めセツトしてある、εの値とはなり得ない十分大きい
値EMAXとの比較であるため必ずεの値およびCN=1が登
録される。
以上の誤差計算処理を第8図のクロツク信号CLKに同
期させてカウンタ値CN=1からN回繰返す。このとき1
回の誤差計算が終り誤差最小値が確定してから2回目の
誤差計算が始まるまでの間に、第6図のメモリ9の内容
をメモリ8の内容に書き換えることによりリセツトして
おく。
このようにしてN回の誤差計算が終ると第8図のメモ
リ30には最小誤差を与える残差パルス位置Rが格納され
ている。そこで次のステツプに入る前に第6図のメモリ
8の中のRで指定された番地のレジスタの値を0に置換
える。かくして第1段階における圧縮化残差波形は、メ
モリ8に格納されることになる。このようなステツプを
M段階繰返せば、最終的にM本抜取つた所望の圧縮化残
差波形は、メモリ8に格納されることになる。そこで、
最後にこの圧縮圧残差波形をメモリ9を通過させた後、
PARCOR合成器11に入力すれば、結果としてメモリ12に1
フレーム分の合成波形が得られる。
以上の説明において、PARCOR分析器7、PARCOR合成器
11、重み付けフイルタ13,13′は公知なので実現可能で
ある。さらに重み付けフイルタに与えるLPCパラメータ
α(i=1,2,…,p)を求めるLPC分析器32も公知なの
で実現可能である。
次に、前述のの残差パルスを一度に所定の本数(M
本)抜く方式(同時抜取法)について説明する。
全体構成は、前述の逐次抜取法と同様、第6図に示
すとおりである。との相違点は誤差最小値探索部10の
機能であり、その内容は第9図〜第11図に示すとおりで
ある。方式については方式と異なる部分についての
み説明する。第9図は誤差最小値探索部10の詳細を示し
たものである。図中のカウンタ31′からの出力値Iは、
クロツクCLKに同期して0,1,2,…,cの順に変化してい
く。ここにCはN個の残差パルスの中からM個を抜取る
組合せの数で である。I=0となるのは、所期設定のとき、および後
述の組合せ発生部33から、すべての組合せの発生終了を
知らせるフラグ(Iout=0′)が出力されたときであ
り、これによりカウンタ31′はリセツトされる。組合せ
発生部33では、上記カウンタ31′から出力されたIの値
に対応する上記組合せICOMBI(1),ICOMBI(2),…,
ICOMBI(M)が出力される。第10図はN=5,M=3とし
た場合のIの値(Iinで表わした値)とそれに対応する
組合せICOMBI(1),ICOMBI(2),ICOMBI(3)の値を
例示したものである。ここでIoutと書いてあるのは、組
合せ発生部33で組合せ発生終了後に更新されたIの値で
あり、Iの値として0〜C−1が入力されたとき、これ
に1加えられたものが出力される。ただしI=Cが入力
されたときには、すべての組合せの発生が終了したこと
を示すグラフとしてIout=0が出力される。この組合せ
発生部33を動作させるに先立つてNおよびMの値は予め
与えておく。組合せ発生部33を実現するには、たとえば
マイクロ・コンピュータなどを用いて第11図のフローチ
ヤートに示すような処理を実行すればよい。このように
して求まつた組合せICOMBIは、第6図のメモリ9内のレ
ジスタの番地指定に用いられる。すなわち、ICOMB
(1),ICOMBI(2),…,ICOMBI(M)の値で指定した
番地の上記レジスタの値を0に置換えることにより、そ
れに対応する残差パルスは取除かれる。かくして、同時
にM個の残差パルスが抜取られることになる。なお、複
数個の番地指定を同時に実行することが困難であるなら
ば、第9図のクロツクCLKの1周期内にICOMBI(1),IC
OMBI(2),…,ICOMBI(M)の順に残差パルスを抜い
ていけばよい。このようにして一部取除かれた残差パル
スを音源として音声合成を行い誤差を評価する動作は、
方式の場合と同様である。このとき第9図において誤
差εがメモリ29の値より小さいときにメモリ30′にラツ
チされるのは、これまでの計算で最小誤差を与える抜取
り残差位置の組合せである。かくしてI=0,1,2,…,C−
1まで誤差の比較が終了すると、最終結果としてメモリ
30′にはすべての組合せのうちで最小誤差を与える抜取
り残差位置の組合せRが格納され、メモリ29にはその最
小誤差値が格納されている。この直後から次のフレーム
での誤差計算が開始するまで(したがつてメモリ30′の
内容がクリアされる前)に上記組合せRが第6図のメモ
リ8に与えられ、それに対応する残差パルスが抜取られ
る。このようにして得られた最適抜取り後の圧縮された
残差パルスは合成器の駆動音源として用いられる。第9
図に立ち返り、前にも述べたように、すべての組合せ発
生が終了すると組合せ発生部33からIout=0が出力され
るので、この情報を利用して、カウンタ31′、メモリ29
などのリセツトが行われる。このときカウンタ31′には
0が、またメモリ29にはEMAXの値がセツトされる。
次に、残差抜取数Mを音声情報から適応的に決定する
方法を説明する。
第12図は、第3図と同様残差パルスを左から右へ、振
幅値の小さいものから大きいものへ順に並べたものを包
絡線により示したものである。第12図(a)のumaxは、
該短区間の残差パルスの振幅の最大値であり、uthは残
差抜取り操作により、この値未満の振幅値の残差パルス
が抜取られる最大本数Mで抜取り操作を打切るという、
振幅のしきい値である。uthの値の定め方の1例を示す
と、次式のようになる。
uth=r1・umax (5) ここに、r1は0<r1<1なる定数である。
uthを決定する他の例を示すと、次式のようになる。
uth=r2・ (6) ここに、r2はr2>0なる定数、は残差振幅の長時間平
均値である。なお、(6)式は、r2の選び方や音声信号
のレベルによつては、uthの値がumaxの値を超えること
がある。この場合は全残差パルスを抜取ることになり、
合成器を駆動する音源がなくなり不都合である。したが
つて(10)式を用いるときには、最大残差抜取数M
max(Mmax<N)を予め定めておき、(6)式の計算の
結果、もしM>MmaxなるMを与えるuthが求まつたとき
には(6)式によらずM=Mmaxに定めることとする。
(6)式は、長時間の音声波形の中で、音声の品質の
影響は、振幅の大きい部分でより多く受けるので、残差
伝送量は、音声の振幅の大きさに対応して増加させると
いう考えに基くものである。なお、uthは必ずしもに
比例して定める必要はなく、 uth=r2・f() (6)′ としてもよい。ここにf()はの一価の非線形増加
関係である。
(5)式によるuthを求め方は計算が簡単であるが、u
maxの値のばらつきに左右され易いという難点がある。
そこでより安定にMの値を求める方法を次に説明する。
いま、小さい方から大きい方へ並べた残差パルスの振幅
値をu1 S,▲uS 2▼,…,▲uS M▼,…,▲uS N▼(=
umax)で表わすものとする。基本的な考え方は、第12図
(b)においてS1/Sを一定になるようにMの値を定める
といういことである。
ここに、 である。これは、音声の品質上重要な情報量は、振幅の
大きい残差パルスの振幅値の総和に比例するという考え
方に基くものである。この演算が安定である理由は、S1
やSの計算が総和を求める演算であり、ばらつきを平滑
化する機能があるからである。
上記説明したuthを求める方法は、音声の品質を表わ
す物理量と直接に対応が付きにくいという欠点がある。
そこで、音声の品質を表わす諸量によりMの値を決定す
る方式を示す。
音声の情報として重要でない振幅の小さい残差パルス
列は白色雑音と見なすことができる。したがつて全く圧
縮していない残差パルス列を雑音のない信号と見た場
合、上記小振幅の残差パルスを抜取る操作は、信号に白
色雑音を−1倍して加えたものと等価的に等しい。した
がつて、合成音声の品質をS/N比として評価するのは自
然である。このような考え方に立てば、残差抜取本数M
は、次式で定義するS/N比を超えない最大抜取本数とし
て定めればよい。
ここに であり、σ,σはそれぞれ信号および雑音の標準偏差
を表わしている。ただし、それぞれ信号、雑音の直流成
分は0として計算している。
更に、もう一つの方法は残差抜取数を原波形と合成波
形の誤差に依存して決定するという方法で、例えば
(1)式の誤差εを用いれば、 ε≦εth (13) なる最大抜取本数として残差抜取数Mを決定すればよ
い。ここでεthはしきい値である。勿論誤差は、(1)
式で示した波形誤差に限定されず、スペクトルひずみ尺
度など他の誤差で評価してもよい。
以上説明した実施例以外に、残差振幅情報あるいは誤
差情報の代りに、原音声波形、合成音声波形などの情報
を基に抜取本数Mを決定する、さまざまな変形方式が存
在する。
上記の抜取本数Mを求める一連の計算は、四則演算
器、メモリ、テーブル参照、比較器などにより容易に実
行することができる。例えば、(6)′式のf()
は、f()を関数テーブルとして用意しておき、テー
ブル参照により求めればよい。また(11)(12)式にお
いては、平方根の演算を行わずσおよび▲σ ▼を
求めておき、(10)式の代りに を計算すれば、演算量を減らすことができる。
なお、残差パルス等の信号の振幅を小さい方から大き
い方へ順に並べる処理は、公知のソーテイング手法を用
いれば実現できる。
第13図は第2の実施例の構成図を示したもので、第1
の実施例との違いは、振幅補正を省略したということで
ある。すなわち、(1)式においてa=1とした場合の
を誤差の評価式として用いたということである。振幅補
正を省略した場合、振幅誤差は省略しない場合より大き
くはなるが、回路構成を大幅に簡略化できるという長所
が生れる。第13図と第6図の違いは、第1図においてa
を計算する回路構成、すなわち、計算回路19、メモリ2
7、および掛算器14を取除いたということを、重み付け
フイルタ13,13′を1つにまとめたということである。
これにより回路構成が大幅に簡略化されている。なお重
み付けフイルタを1つにまとめられるのは、このフイル
タが線形フイルタである場合に限られる。すなわち、重
み付けフイルタのインパルス応答をwj,xjとwjのたたみ
込み演算をxjwjで表わせばjjは定義により、j =xjwj (14) ′j=x′wj (15) で表わされる。これを(1)′式に代入し、式の線形性
を考慮に入れて(1)′式を整理すれば、 を得る。(7)式は、原波形xjおよび合成波形のおのお
のに重み付けを行つてから引き算を行うのではなく、引
き算を行つてから重み付けを行えばよいことを示してお
り、これを図示したのが第13図の加算器18、重み付けフ
イルタ13の部分である。
以上が重み付けフイルタを1つにまとめられる根拠で
ある。
第14図は第3の実施例の構成図を示したもので、第1
および第2の実施例との違いは、誤差の評価式として、
波形誤差の代りに(8)式で示されるスペクトルひずみ
尺度SDを用いた点である。すなわち、 ここにXi,X′iはそれぞれ原波形xjおよび合成波形x′j
のフーリエ変換、N′はXiあるいはX′iのデータの個
数である。波形誤差とスペクトルひずみ尺度との特性上
の相違は、波形誤差はスペクトルの振幅成分と位相成分
が共に誤差の中に盛込まれているが、スペクトルひずみ
尺度はスペクトルの振幅成分のみを評価する尺度である
という点である。さらに、スペクトルひずみ尺度は信号
値の対数をとつていることより、一般に大きいパワーを
もつホルマント成分が抑制され、零が相対的に強調され
るという特性を有している。以上より両誤差尺度により
得られる圧縮化残差波形の性質は一般に異なつたものと
なる。演算量の観点から言えば、スペクトルひずみ尺度
では窓かけ、FFT演算、対数演算などを実行しなければ
ならないので、波形誤差に比べて演算量は膨大なものと
なり著しく不利である。その反面、零が強調されるの
で、零の情報が品質上重要な鼻音や無声破裂音などの品
質を適切に評価することができる。
以下、第1あるいは第2の実施例と異なる部分につい
てのみ説明する。第14図では、重み付けおよび振幅補正
を施した例について説明する。このとき、(8)式にお
いてXiの代りにijのフーリエ変換)、X′iの代
りにa′i(′jのフーリエ変換に振幅補正係数を乗
じたもの)を用いることになる。第14図において、原波
形を重み付けフイルタ13′に通過させた出力波形j
対して、ハニング窓、ハミング窓等の公知の窓かけ処理
を施す。これは波形を短区間で切出したために生ずる切
出し端の不連続の影響を和らげるための処理であり、窓
かけ回路34により実行する。次に窓かけ処理を施した後
の波形に対してFFT演算器35によりFFT演算を適用し、
jの振幅スペクトル|i|を求め、一たんバッフアメモ
リ36に格納しておく。次にバツフアメモリ36より|i
|を1要素ずつ取出し、常用対数計算回路37により、そ
の常用対数を求める。同様にして、合成波形に重み付け
を施し、振幅補正係数を掛けた波形a′jに対して
も、34′,35′,36′,37′により順次窓かけ、FFT、バツ
フアメモリへ格納、要素の常用対数計算を行つていく。
次に常用対数計算回路37,37′からの出力を加算器18を
用いて減算し、該要素のlog10|ai|−log10i
(=log10|a′ii)の値を得る。さらにこの値を
掛算器38により20倍し、続いて掛算器15により2乗した
結果の値をメモリ16に格納してある値(初期値は0)と
加算器17により足し合せ、その値を改めてメモリ16に格
納する。以上、メモリ36,36′からそれぞれ|i|,|a
i|を1要素ずつ取出した以降の上記の演算をi=
1からi=N′まで繰返せば、最終的にメモリ16にスペ
クトルひずみ尺度の値を求めることができる。但しここ
では演算を簡略にするためにN′で割る処理と平方根を
求める処理は省いている。スペクトルひずみ尺度値を求
める目的が、誤差を最小とする抜取残差を求めることで
あるので、値の相対比較さえ出来ればよい。したがつて
上記の演算を省略しても何ら支障はない。
上記演算は、(17)式の値を求める1例を示したもの
で、(17)式を演算する手順は本実施例が唯一の方法で
はない。例えば加算器18で引算を行う代りに|a′i
i|の演算を実行した後に対数演算を行つてもよい。
また、窓かけ処理、FFT演算などを2つの回路で行わず
1つに共通化してもよい。
勿論、本実施例は、重み付けフイルタを省略した場
合、振幅補正を行わない場合等にも適用出来、組合せに
よりさまざまな変形が存在する。
残差パルスの抜取方法についても、逐次抜取法、同時
抜取法のいずれにも適用可能である。
なお、重み付けフイルタについては、必ずしもNoise
Weighting Filterに限定される必要はない。例えば、ロ
ーパス・フイルタを用いれば、ベースバンド(1KHz以下
の周波数成分)のみを強調できるので、ピツチ周波数成
分を張調して評価することができる。すなわち、残差パ
ルスのうちでピツチの情報を担うパルスの欠落の有無を
より忠実に評価する尺度を構成することができる。この
ように周波数のどのような特徴を強調したいかによつ
て、任意の重み付けフイルタを用い得る。
今まで述べてきた方法は、誤差を計算するたびに合成
処理を実行しなければならない。演算量の多い合成処理
を誤差計算回数だけ実行する計算回数の総和は莫大な数
となり、処理時間も長大なものとなる。そこで、前もつ
て合成器のインパルス応答を求めておくだけで、後は合
成処理は全く行わずに誤差を計算する。以下その原理に
ついて述べる。誤差εの一般式は(1)式で示される。
そこでxjjとの関係、あるいはx′jと′jとの関
係は、wjをW(Z)のインパルス応答とすれば、それぞ
れ(18),(19)式に示すたたみ込みで表わされる。
また、原音声信号xjのZ変換をX(Z)、残差信号uj
のZ変換をU(Z)とすれば、U(Z)は線形予測分析
フイルタG-1(Z)の出力であるからX(Z)とU
(Z)の関係は U(Z)=G-1(Z)X(Z) (20) で表わされる。したがつて X(Z)=G(Z)U(Z) (21) が成立する。ただしG(Z)はG-1(Z)の逆フイル
タ、すなわち合成器の伝達関数である。(21)式を時間
領域で表現すると、G(Z)のインパルス応答をgjとし
て(22)式で表わされる。
一方、圧縮された残差信号u′iで表わせば、合成音
声信号x′jは(23)式で表わされる。
ただし、抜取る残差パルスの個数をM、k番目に抜取る
残差パルス位置をnkで表わせばu′1は、 ここにδm,nはクロネツカーのデルタ、すなわちδm,n
1(m=n),δm,n=0(m≠n)である。(24)式
を(23)式に代入して整理するとx′jは次のようにな
る。
x′j=xj−lj(M) (25) ここに (a)式から、lj(M)は、抜取られた残差パルスを音
源として駆動して得られた合成器の出力波形すなわち残
差パルスを抜取ることにより発生した音声信号の誤差成
分となつている。
いま、(1)式の誤差εを抜取り個数に依存する量と
いう意味で改めてε(M)と表わせば、ε(M)は(1
8),(19),(22),(25)および(26)式を用いて
(1)式を整理すると(27)式のようになる。
ここに であり、hjは合成器と重み付けフイルタW(Z)を縦続
接続させた系、すなわち のインパルス応答である。ただし、重み付けを行わない
場合、すなわちW(Z)≡1の場合はhjはgjに等しくな
る。
次に(27)式からaを消去することを考える。まず、
振幅補正を施させない場合は次のようになる。振幅補正
を施さない場合はa=1であるから(27)式はさらに次
のように簡単になる。
ここで と置くと、fj(M)は残差パルスを抜取ることにより発
生した音声信号の誤差成分に重み付けを施して表現した
もので、重み付けを施さない場合のlj(M)((26)
式)に対応するものである。
次に、振幅補正を施した場合は次のようになる。振幅
補正係数aは、(1)式においてεの最小値を与える解
として与えられる。したがつて(1)式において と置けば、aは次式のように求まる。
ここで、(18),(19),(25),(26),(28)およ
び(30)式を用いて′jjの関係を求めれば、最終
的に次の(16)式が得られる。ただし評価区間の有限長
演算打切りにより生ずる誤差は無視している。
jj−fj(M) (32) この式を(15)式に代入すれば、aは次のようになる。
さらに(32),(33)式を(1)式に代入して整理すれ
ば、誤差の式として最終的に次式を得る。
ここに 以上で誤差を計算することができるわけで、以下にこ
れらの誤差の式を用いて誤差の最小値を与えるM個の除
去パルス位置nk(k=1,2,…,M)を求めるアルゴリズム
について説明する。
まず逐次抜取法について説明する。逐次抜取法は、
(29)式あるいは(34)式において、逐次的にそれぞれ
ε(1),ε(2),…,ε(M)の最小値を求めつつ
パルスを抜取つていく処理である。
振幅補正を施さない場合、(29)式を書き直すと次の
ようになる。
ここで{ }内の第1項は直前までのステツプで既に抜
取られたパルス、すなわち なので0となる。したがつて(29)′式は、 となる。パルスの抜取りは、評価区間の端部の影響をで
きるだけ受けないようにするため、評価区間〔1,L〕の
中心部付近の一部の区間〔n1,n2〕で行うこととする。
ここで、 n1≦nM≦n2 (39) 1<<n1<n2<<L (40) である。(26)式の条件よりhjはj≒Lではほとんど0
に減衰していると見なせば、 の値はnMの値に関係なくほぼ一定となる。そこで と置き、この式を(38)式に代入すれば次式を得る。
(42)式は、直前までのステツプで既に抜取られ0と置
き換えられたパルスを除いて、抜取区間〔n1,n2〕内で
振幅が最も小さいパルスを取除けば、抜取りにより生ず
る誤差が最小となることを示している。すなわち、振幅
補正を施さない場合の逐次抜取法のアルゴリズムは、抜
取区間内で振幅が小さい順に所定の数だけ残差パルスを
取除く、というものである。これは極めて単純なアルゴ
リズムであり、誤差計算すら必要としないのが大きな特
長である。この方式を次に述べる振幅補正を施した場合
の逐次抜取法と区別するために特に「小振幅順残差抜取
法」と呼ぶことにする。これに対して振幅補正を施した
場合の逐次抜取法を「補正付逐次抜取法」と呼ぶことに
する。
振幅補正を施した場合、上で述べたのと同じ理由でfj
(M)は次式のように簡略化できる。
∴ηj,k=ukhj-k (43)′ (35),(37)式におけるfj(M)として(30)式の
代りに(43)式を計算することにより演算量を減らすこ
とができる。なお、(36)式におけるAはA−b−Sに
関係なく一定値であるから前もつて一回だけ計算してお
けばよい。またφは前もつて(43)′式を計算してη
j,kの2次元のテーブルを作成しておき、A−b−S時
に各パルスごとに(35)式をjとηj,kの積和として計
算すればよい。同様にBはA−b−S時にηj,kの2乗
和として計算すればよい。
次に同時抜取法について説明する。同時抜取法とは、
(29)式あるいは(34)式で表わされるε(M)の値を
取除くM個のパルスの起り得るすべての組合せについて
計算し、ε(M)の最小値を求めるこのときの除去パル
ス位置を求める処理である。
振幅補正を施さない場合、ε(M)を(29)式により
計算してε(M)の最小値を求める。
また振幅補正を施した場合、ε(M)を(34)式によ
り計算してε(M)の最小値を求める。ただしfj(M)
の値は(30)式により求める。
上記のように同時抜取法は、逐次抜取法のような式の
簡略化ができないので、ε(M)を求める演算量そのも
のも逐次抜取法により大きくなる。ただし、逐次抜取法
の場合と同様にA−b−Sに先立つてηj,kテーブルを
作成しておけば、A−b−Sごとにηj,kを計算する場
合より著しく演算量が減少できる。
第15図は第4の実施例を示したもので、音声分析およ
び音声合成の具体例としてPARCOR分析器、PARCOR合成器
を使用した分析合成系について説明する、スペクトル・
エンベロープ情報と音源情報を分離することを基本とす
る生成源処理の分析・合成器であるならばPARCOR分析・
合成器の代りに用いることができる(実施例5以降につ
いても同様)。以下の説明は音声データから切出された
短区間(1フレーム)音声データについての一回の処理
内容についてであつて、全音声区間については、以下に
説明する処理を繰返し実行すればよい(実施例5以降に
ついても同様)。
残差パルスの抜き方については、前述の1本ずつ誤
差εの最小値を求めながら所定の本数(M本)まで抜い
ていく方式(逐次抜取法)と、前述の一度にM本抜く
方式(同時抜取法)の2次式を例示する。以下の説明で
は、1フレーム内の抜取り対象の残差パルスの総本数を
N本とする。ここで評価区間データ数Lと上記Nとの表
記が異なるのは、評価区間と残差抜取区間とは必ずしも
一致しないからである。一般に残差抜取区間は評価区間
内に含まれる。
以下、の残差パルスを1本ずつ誤差εの最小値を求
めながら所定の本数まで抜いていく方式(逐次抜取法)
について説明する。
まず、切出された1フレーム音声データ(原音声)
は、メモリ6に格納される。次にメモリ6に格納された
音声データxjはPARCOR分析器7に入力され、PARCOR分析
によりPARCOR係数ki(i=1,2,…,p)が計算され、同時
にPARCOR分析器7の出力信号として残差信号uiが求めら
れる。残差信号ujは、一たんメモリ8に格納される。以
上の演算は1フレームにつき唯一回だけ行われる。次
に、メモリ8に格納されている残差信号はそのままメモ
リ9に転送される。しかる後に、誤差最小値探索分10の
中に設置されているカウンタ値CNで指定されるメモリ9
内の番地のレジスタに0を書き込む。この動作はメモリ
9に書込まれている残差パルス列uj(j=1,2,…,N)中
のj=CNの残差パルスを抜取る(すなわちuCN=0とす
る)ことを意味している。ここでCNの値は、抜取り対象
残差パルスの時間方向並びに対応して、クロツクの起動
によりCN=1,2,…,Nまで順次変化する。すなわち、メモ
リ9内では、クロツクの起動ごとに、残差パルスがu1
u2,u3,…,uNの順に0に書き換えられる。第1回目の
誤差計算前にはカウンタ値CNはリセツトされCN=1にセ
ツトされる。従つて第1回目はCN=1であるからu1=0
とした場合の誤差が計算される。誤差計算は以下のとお
りである。すなわち、ujのうちの抜取るべき1本のパル
スを上記と同様にカウンタ値CNにより指定することによ
り、抜取残差選択回路13により抽出し、同回路13内のメ
モリに格納する。一方前にPARCOR分析器7により求めた
PARCOR係数ki(i=1,2,…,p)の値をPARCOR合成器11′
に与え、この合成器11′に音源として単位インパルス信
号を入力して得られたインパルス応答波形gjを重み付け
フイルタ14に入力し、その応答波形としてhjを得、メモ
リ15に格納する。なおこのhjを求める処理は、A−b−
Sに先だつて1フレームに唯一度だけ実行しておけばよ
い。次にこのhjと先程求めた抜取残差パルス を用いて、(M=kとして)抜取誤差成分計算回路16に
より(43)式を計算しfj(M)を得る。なお、この計算
はA−b−S中に行つてもよいが、前にも述べたように
A−b−Sに先立つて上の方法により(43)′式のη
j,kテーブルを作成しておき、A−b−S時にはテーブ
ル検索のみによつてfj(M)を求めるようにした方が処
理が速くなる。他方、A−b−Sに先立つて予め原音声
波形xjより、重み付けフイルタ14′(14と併用してもよ
い)処理を施した音声波形jを求め、メモリ17に格納
しておく。このjと先に述べておいたfj(M)を用い
て、誤差計算回路18により、(35)〜(37)式を計算
し、さらにこれらを基に(18)式を計算して誤差ε
(M)を求める。このとき、前に述べたように(20)式
のAはA−b−Sに先立つて計算しておいた方が処理速
度が速くなり望ましい。
以上により求まつた、ujを抜取つたときの誤差ε
(M)は、誤差最小値探索部10に入力される。第8図は
誤差最小値探索部10の詳細図であり、ここではε(M)
が前回までに演算された誤差最小値(メモリ29に格納さ
れている)よりも小さいか否か比較器28により比較され
る。もしそうであれば比較器28からラツチ信号LTが出力
されここで計算したε(M)の値が誤差最小値としてメ
モリ29に更新登録され、同時にそのときのカウンタ値CN
もメモリ30に更新登録される。ただし、第1回目の誤差
計算においては、メモリ29に予めセツトしてある、ε
(M)の値とはなり得ない十分大きい値EMAXとの比較で
あるため必ずε(M)の値およびCN=1が登録される。
以上の誤差計算処理を第8図のクロツク信号CLKに同
期させてカウンタ値CN=1からN回繰返す。このとき1
回の誤差計算が終り誤差最小値が確定してから2回目の
誤差計算が始まるまでの間に、第6図のメモリ9の内容
をメモリ8の内容に書き換えることによりリセツトして
おく。
このようにしてN回の誤差計算が終ると第5図のメモ
リ30には最小誤差を与える残差パルス位置Rが格納され
ている。そこで次のステツプに入る前に第6図のメモリ
8の中のRで指定された番地のレジスタの値を0に置換
える。かくして第1段階における圧縮化残差波形は、メ
モリ8に格納されることになる。このようなステツプを
M段階繰返せば、最終的にM本抜取つた所望の圧縮化残
差波形は、メモリ8に格納されることになる。そこで、
最後にこの圧縮圧残差波形をメモリ9を通過させた後、
PARCOR合成器11に入力すれば、結果としてメモリ12に1
フレーム分の合成波形が得られる。
以上の説明において、PARCOR分析器7、PARCOR合成器
11、重み付けフイルタ14,14′は公知なので実現可能で
ある。また、重み付けフイルタに与えるLPCパラメータ
αi(i=1,2,…,p)を求めるLPC分析手段も公知なので
実現可能である。さらに、第3図の誤差計算部19におけ
る演算(34)〜(37)式、(43),(43)′式等はすべ
て公知の四則演算手段により実行できるので実現可能で
ある。
第5の実施例は、の同時抜取法において、振幅補正
を省略した場合の例である。すなわち、(1)式におい
てa=1とした場合の式 を誤差の評価式として用いた場合の例である。この場
合、振幅誤差は省略しない場合より大きくはなるが、回
路構成を簡略化できるという長所が生れる。以下に、第
1の実施例と異なる部分に限り説明する。
第5の実施例の回路構成は、第15図において重み付け
フイルタ14′およびメモリ17を省いたものに等しい。
第4の実施例と同様の手順に従つてfj(M)を求めた
後、誤差計算回路18により、(34)式を計算しないで代
りに(29)式を計算すれば誤差ε(M)が求まる。(2
9)式は公知の四則演算手段で実行できるので、実現可
能である。
第6の実施例は、の逐次抜取法において、振幅補正
を省略した場合の例で、第5の実施例同様誤差は
(1)′式により表わされる。ただし、この場合は、発
明の総括的説明のところで述べたように、誤差式ε
(M)は究極的に(42)式で表わされ、「抜取区間内で
振幅が小さい順にM本残差パルスを取除く」処理に帰着
でき、誤差計算すら不要な極めて単純かつ演算量の少な
い処理となる。この処理を実現する方法の例を第16図お
よび第17図を引用して説明する。
第16図において 第4の実施例と同様、メモリ6中の原音声波形をPARC
OR分析器により分析し残差波形ujを求めメモリ8に格納
する。残差波形は別続きメモリ9にも格納し、小振幅順
抜取制御部34により振幅の小さい方から順に番号を付し
たM本の残差パルスの位置nk(k=1,2,…,M)を指定
し、メモリ9中のnkの位置のレジスタの内容を0に置換
えることにより、その位置の残差パルスを消去する。な
おメモリ8は非圧縮残差格納用に設けてあるだけなの
で、この機能をメモリ9と兼用してメモリを1つに減ら
してもよい。次に小振幅順抜取制御部34の機能について
第17図を引用して説明する。残差波形ujは一たんバツフ
アメモリ35に格納しておく。まずujをソーテイング手段
36により、振幅の小さい順に並べなおす。の並べなおし
た残差パルス列を、振幅の小さい順に▲uS 1▼,▲u
S 2▼,…,▲uS k▼,…,▲uS N▼(=umax)と呼ぶこと
にする。これら▲uS k▼(k=1,2,…,N)はメモリ37に
格納される。次に予め設定しておいた残差抜取り本数M
でメモリ37中のアドレスを指定する。この指定されたア
ドレスの残差振幅を▲uS M▼とし、特に残差振幅のしき
い値と呼ぶことにする。しかる後に、クロツクCLKによ
りカウンタ38の値を1,2,…,,je,…,Nの順に変化させ
る。このカウンタ値jeに対応した残差パルスujeをバツ
フアメモリ35よりアドレス指定により読出し、前に求め
たしきい値▲uS M▼と比較器39により比較する。そして
▲uS M▼≧ujeを満足したときにラツチ信号LTを出力する
ようにしておき、このときに限りメモリ40に格納された
カウンタ値jeを残差抜取位置nkとして出力する。
上の例は、残差抜取本数Mを何らかの手段によつて予
め指定した場合の例であるが、Mを指定する代りに、残
差振幅のしきい値▲uS M▼を他の手段によつて指定して
もよい。このときソーテイング手段36およびメモリ37は
不要となる。
上の実施例において、ソーテイング手段36は公知のソ
ーテイング法により実行できるので実現可能である。
以上述べた処理により得られた圧縮化残差波形u′j
はPARCOR合成器11(第16図)の音源として印加され、11
の出力として1フレーム分の合成音声波形x′jが得ら
れ、メモリ12に格納される。
第18図は、補正付逐次抜取法(実施例1における逐次
抜取法)および同時抜取法(実施例4における同時抜取
法および実施例5)の誤差ε(M)の計算回数を、1フ
レーム内の抜取り対象の残差パルスの総本数Nと残差パ
ルス抜取本数Mをさまざまな値に選んだ場合について示
したものである。この図よりε(M)の計算回数はNの
減少に伴い、いずれの抜取法でも著しく減少することが
わかる。そこで、残差抜取区間をK個の小区間に分割し
(その小区間に含まれる抜取り対象の残差パルスの総本
数をそれぞれ、N1,N2,…,Nkとする)、各区間ごとに
A−b−Sを実行すれば、演算量の大幅な減少が期待で
きる。ここで、分割は一般に等分割でなくてもよい。も
し等分割の場合は となる。すなわち、nは で計算することができる。この実施例4に示す方式を分
割A−b−S法と呼ぶことにする。
以上の第4,5の実施例において、重み付けフイルタを
省略することもできる。この場合は第15図において14お
よび14′が省略でき回路が簡単になる。
以上説明したごとく、本発明によれば、音声の品質上
重要な情報のみを有効に残し、不要な部分を取除いた残
差パルスを、合成器の音源として用いることができるの
で、合成音声を高品質に保ちながら、有効に音源情報の
圧縮を行うことができる。これにより、パラメータの情
報伝送量の低減化を図ることができる。
特に分割A−b−S法の効果の一例を示すと、N=40
本、M=20本、K=4の場合、分割しない場合に比して
次のようにε(M)の計算回数が減少する。
補正付逐次抜取法 0.26 倍 同時抜取法(補正付無共) 0.73×10-8 引用文献 B.S.Atal and J.R.Remde:A New Model of LPC Excitation for Producing Natural− Sounding Speech at Low Bit Ratcs,Proc.ICASSP 82,pp
614−617(1982)
【図面の簡単な説明】
第1図(a)は従来の分析合成方式を説明する図、
(b)は残差を音源としたときの分析合成系を示す図、
第2図は本発明の原理を説明する図、第3図は残差パル
スを振幅の小さい方から並べた図、第4図及び第5図は
残差抜取数を求める図、第6図は本発明の第1の実施例
を示す図、第7図は残差パルス抜取に伴う振幅の変化を
補正する係数を求める回路図、第8図及び第9図は誤差
最小値探索部を説明する図、第10図はN=5、u=3と
した場合のIin及びICOMBI(i)i=1〜3の値を示す
図、第11図は組合せ発生部のフローチヤートを示す図、
第12図は残差パルスの包絡線を示す図、第13図は本発明
の第2の実施例を示す図、第14図は本発明の第3の実施
例を示す図、第15図は本発明の第4の実施例を示す図、
第16図は第6の実施例を説明する図、第17図は小振幅順
抜取制御部の機能を示す図、第18図は誤差の計算回路を
示す図。 7…PARCOR分析器、10…誤差最小値探索部、11…PARCOR
合成器、13,13′,14,14′…重み付けフイルタ、16,18…
誤差計算回路、19…誤差計算回路部、32…LPC分析器、3
3…組合せ発生部、34…小振幅順抜取制御部、35,35′…
FFT演算器。

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】音声分析器にて音声の原波形の残差波形を
    ディジタル化することにより残差パルス列を得て、 残差情報圧縮手段にて上記残差パルス列を圧縮して、 音声合成器にて圧縮した上記残差パルス列を用いて音声
    の合成波形を合成する音声合成方法であって、 誤差計算手段にて上記原波形と上記合成波形との誤差を
    計算し、 上記残差情報圧縮手段にて上記誤差が最小となるように
    上記残差パルス列から所定の数の残差パルスを除去する
    ことにより上記残差パルス列を圧縮することを特徴とす
    る音声合成方法。
  2. 【請求項2】上記誤差計算手段にて上記音声合成器のイ
    ンパルス応答波形と除去する残差パルスとに基づいて上
    記誤差を計算することを特徴とする特許請求の範囲第1
    項記載の音声合成方法。
  3. 【請求項3】上記誤差計算手段にて上記音声合成器のイ
    ンパルス応答波形と除去する残差パルスと上記原波形と
    に基づいて上記誤差を計算することを特徴とする特許請
    求の範囲第1項記載の音声合成方法。
  4. 【請求項4】上記残差情報圧縮手段にて上記音声分析器
    より得られる上記残差パルス列から振幅の小さい残差パ
    ルスの順に所定の数だけ除去することにより上記残差パ
    ルス列を圧縮することを特徴とする特許請求の範囲第1
    項記載の音声合成方法。
  5. 【請求項5】上記誤差計算手段にて上記合成波形の振幅
    の変化を補正して上記原波形との誤差を計算することを
    特徴とする特許請求の範囲第1項記載の音声合成方法。
  6. 【請求項6】予め定められた周波数以下の帯域を強調す
    るフィルタに上記原波形と上記合成波形とを通過させた
    後に、上記誤差計算手段にて誤差を計算することを特徴
    とする特許請求の範囲第1項記載の音声合成方法。
  7. 【請求項7】上記残差情報圧縮手段にて上記誤差が最小
    となる残差パルスを所定の数になるまで逐次除去するこ
    とを特徴とする特許請求の範囲第1項記載の音声合成方
    法。
  8. 【請求項8】上記残差情報圧縮手段にて上記誤差が最小
    となる残差パルスを所定の数だけ同時に除去することを
    特徴とする特許請求の範囲第1項記載の音声合成方法。
  9. 【請求項9】上記残差情報圧縮手段にて除去する残差パ
    ルスの数を上記残差パルスの振幅の値に応じて設定する
    ことを特徴とする特許請求の範囲第1項記載の音声合成
    方法。
  10. 【請求項10】上記残差情報圧縮手段にて除去するパル
    スの数を上記誤差に応じて設定することを特徴とする特
    許請求の範囲第1項記載の音声合成方法。
  11. 【請求項11】上記残差情報圧縮手段にて除去する残差
    パルスの数を上記原波形の振幅の値に応じて設定するこ
    とを特徴とする特許請求の範囲第1項記載の音声合成方
    法。
  12. 【請求項12】上記残差情報圧縮手段にて除去する残差
    パルスの数を上記合成波形の振幅の値に応じて設定する
    ことを特徴とする特許請求の範囲第1項記載の音声合成
    方法。
JP59005583A 1984-01-18 1984-01-18 音声合成方法 Expired - Lifetime JP2539351B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59005583A JP2539351B2 (ja) 1984-01-18 1984-01-18 音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59005583A JP2539351B2 (ja) 1984-01-18 1984-01-18 音声合成方法

Publications (2)

Publication Number Publication Date
JPS60150100A JPS60150100A (ja) 1985-08-07
JP2539351B2 true JP2539351B2 (ja) 1996-10-02

Family

ID=11615259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59005583A Expired - Lifetime JP2539351B2 (ja) 1984-01-18 1984-01-18 音声合成方法

Country Status (1)

Country Link
JP (1) JP2539351B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
JP5119716B2 (ja) * 2007-04-04 2013-01-16 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
CN103119650B (zh) * 2010-10-20 2014-11-12 松下电器(美国)知识产权公司 编码装置和编码方法

Also Published As

Publication number Publication date
JPS60150100A (ja) 1985-08-07

Similar Documents

Publication Publication Date Title
EP3262639B1 (en) Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope
O'Shaughnessy Linear predictive coding
US6240384B1 (en) Speech synthesis method
US20120265534A1 (en) Speech Enhancement Techniques on the Power Spectrum
US20020052736A1 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
EP2881947A1 (en) Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis
US20050131680A1 (en) Speech synthesis using complex spectral modeling
EP1005021A2 (en) Method and apparatus to extract formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
JPS63113600A (ja) 音声信号の符号化及び復号化のための方法及び装置
JPH03501896A (ja) 波形の加算重畳による音声合成のための処理装置
US20050065784A1 (en) Modification of acoustic signals using sinusoidal analysis and synthesis
US20130046540A9 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
US20040199381A1 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
JP2539351B2 (ja) 音声合成方法
JP2798003B2 (ja) 音声帯域拡大装置および音声帯域拡大方法
JP3282693B2 (ja) 声質変換方法
JP2600384B2 (ja) 音声合成方法
Hasan et al. An approach to voice conversion using feature statistical mapping
US20040210440A1 (en) Efficient implementation for joint optimization of excitation and model parameters with a general excitation function
JP3398968B2 (ja) 音声分析合成方法
Srivastava Fundamentals of linear prediction
US20220277754A1 (en) Multi-lag format for audio coding
JPS62102294A (ja) 音声符号化方式
JP2605256B2 (ja) Lspパタンマツチングボコーダ
Yim et al. Comparison of arma modelling methods for low bit rate speech coding