JPH0572780B2 - - Google Patents
Info
- Publication number
- JPH0572780B2 JPH0572780B2 JP59076793A JP7679384A JPH0572780B2 JP H0572780 B2 JPH0572780 B2 JP H0572780B2 JP 59076793 A JP59076793 A JP 59076793A JP 7679384 A JP7679384 A JP 7679384A JP H0572780 B2 JPH0572780 B2 JP H0572780B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- sound source
- source pulse
- signal sequence
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 230000004044 response Effects 0.000 claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 50
- 230000005236 sound signal Effects 0.000 claims description 38
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 25
- 230000003595 spectral effect Effects 0.000 claims description 11
- 230000005284 excitation Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 5
- 230000003111 delayed effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000007796 conventional method Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
(産業上の利用分野)
本発明は音声信号の低ビツトレイト波形符号化
方式、特に伝送情報量を10kビツト/秒以下とな
るような符号化方式に関する。 (従来技術とその問題点) 音声信号を10kビツト/秒程度以下の伝送情報
量で符号化するための効果的な方法として、音声
信号の駆動音源信号系列をそれを用いて再生した
信号と入力信号との誤差最小を条件として短時間
毎に探索する方法が知られている。米国ベル電話
研究所のビー・エス・アタール(B.S.ATAL)
氏らによる、駆動音源信号系を複数個のパルスで
表わし、その振幅と位相を短時間毎に符号器側で
アナリシス バイ、シンセシス(Analysis−by
−Synthesis);A−b−S法により求める方式は
有効である。これに対する説明は1982年度のア
イ・シー・エー・エス・エス・ピー(ICASSP)
の予稿集614〜617頁、「ア ニユー モデル オ
ブ エル・ピー・シー エクサイテイシヨン フ
オー プロデユースイング ナチユラル サウン
デイング スピーチ アツト ロー ビツト レ
ーツ(A new model of LPC excitation for
producing natural sounding speech at low
bit rates)」(文献1)に掲載されているので、
ここでは詳細な説明は省く。文献1の従来方式は
パルス系列を求める手段としてA−b−S法を用
いているため、演算量が非常に多いという欠点が
ある。それに対し特許出願番号昭57−231603号
明細書(文献2)においては上記パルス系列を求
めるための演算量を大幅に縮少する方式が提案さ
れている。これらの方式により、伝送レイトを
10kビツト/秒以下とした領域で良好な再生音質
が得られると報告されている。 ここで、前記文献2の従来方式を簡単に説明す
る。1フレーム内K個のパルス系列からなる駆動
音源系列を次のように表わす。 d(n)=K 〓k=1 gkδ(n−k)n=0,…,N−1 (1) ここでδ(・)はクロネツカー
(KRONECKER)のδである。Nはフレーム長、
gkは位置lkに立つパルスの振幅を表わす。d(n)を
合成フイルタに入力して得られる再生信号x〜(n)
は、合成フイルタの予側係数をαi(i=1,…,
M,Mは合成フイルタの次数)とすると次のよう
に書ける。 x〜(n)=d(n)+M 〓i=1 δix〜(n−i) −(2) 入力音声信号x(n)と再生信号x〜(n)との1フレー
ム内の重み付二乗誤差Jは J=N-1 〓n=0 {(x(n)−x〜(n)*w(n))}2 −(3) となる。ここで*はたたみ込み積分の記号であ
り、w(n)は重み関数を表わす。重み関数は入力音
声信号と再生信号との聴覚上での誤差を最も小さ
くするために導入される。聴覚のマスキング効果
によれば、音声エネルギーの大きい帯域では雑音
は抑圧される。重み関数は、誤差にこのような聴
覚の特性を考離慮した重み付けを行うものであ
る。重み関数としては、その大文字変換W(z)を合
成フイルタの予測パラメータαiと0≦r≦1を満
足する実定数rによりW(z)=(1−M 〓i=1 αiz-i)/
(1−M 〓i=1 αiriz-i)と表わされるものが提案されて
いる(前記文献1)。さらにx(n),x〜(n)のZ変換
をそれぞれX(z),X〜(z)とすると(3)式は次のように
表わされる。 J=|X(z)W(z)−X〜(z)W(z)|2 −(4) また、(2)式の関係からx〜(z)は次のようになる。 x〜(z)=H(z)D(z) −(5) ここで H(z)=1/(1+M 〓i=1 αiz-i) H(z)は合成フイルタのZ変換、D(z)は駆動音源
のZ変換である。(5)を(4)に代入すると J=|X(z)W(z)−H(z)W(z)D(z)|2 −(6) である。従つて、X(z)W(z)とH(z)W(z)の逆Z変換
の信号をそれぞれxw(n)=x(n)w(n)とhw(n)=h(n)
*w(n)と記すと、(6)は次のようになる。 J=N-1 〓n=0 (xw(n)−K 〓k=1 gkhw(n−lk))2 −(7) (7)式を最小にするような音源パルス系列の振幅
gk、位置lkを求めるのに、(7)式をgkで偏微分して
0とおいた式、つまり
方式、特に伝送情報量を10kビツト/秒以下とな
るような符号化方式に関する。 (従来技術とその問題点) 音声信号を10kビツト/秒程度以下の伝送情報
量で符号化するための効果的な方法として、音声
信号の駆動音源信号系列をそれを用いて再生した
信号と入力信号との誤差最小を条件として短時間
毎に探索する方法が知られている。米国ベル電話
研究所のビー・エス・アタール(B.S.ATAL)
氏らによる、駆動音源信号系を複数個のパルスで
表わし、その振幅と位相を短時間毎に符号器側で
アナリシス バイ、シンセシス(Analysis−by
−Synthesis);A−b−S法により求める方式は
有効である。これに対する説明は1982年度のア
イ・シー・エー・エス・エス・ピー(ICASSP)
の予稿集614〜617頁、「ア ニユー モデル オ
ブ エル・ピー・シー エクサイテイシヨン フ
オー プロデユースイング ナチユラル サウン
デイング スピーチ アツト ロー ビツト レ
ーツ(A new model of LPC excitation for
producing natural sounding speech at low
bit rates)」(文献1)に掲載されているので、
ここでは詳細な説明は省く。文献1の従来方式は
パルス系列を求める手段としてA−b−S法を用
いているため、演算量が非常に多いという欠点が
ある。それに対し特許出願番号昭57−231603号
明細書(文献2)においては上記パルス系列を求
めるための演算量を大幅に縮少する方式が提案さ
れている。これらの方式により、伝送レイトを
10kビツト/秒以下とした領域で良好な再生音質
が得られると報告されている。 ここで、前記文献2の従来方式を簡単に説明す
る。1フレーム内K個のパルス系列からなる駆動
音源系列を次のように表わす。 d(n)=K 〓k=1 gkδ(n−k)n=0,…,N−1 (1) ここでδ(・)はクロネツカー
(KRONECKER)のδである。Nはフレーム長、
gkは位置lkに立つパルスの振幅を表わす。d(n)を
合成フイルタに入力して得られる再生信号x〜(n)
は、合成フイルタの予側係数をαi(i=1,…,
M,Mは合成フイルタの次数)とすると次のよう
に書ける。 x〜(n)=d(n)+M 〓i=1 δix〜(n−i) −(2) 入力音声信号x(n)と再生信号x〜(n)との1フレー
ム内の重み付二乗誤差Jは J=N-1 〓n=0 {(x(n)−x〜(n)*w(n))}2 −(3) となる。ここで*はたたみ込み積分の記号であ
り、w(n)は重み関数を表わす。重み関数は入力音
声信号と再生信号との聴覚上での誤差を最も小さ
くするために導入される。聴覚のマスキング効果
によれば、音声エネルギーの大きい帯域では雑音
は抑圧される。重み関数は、誤差にこのような聴
覚の特性を考離慮した重み付けを行うものであ
る。重み関数としては、その大文字変換W(z)を合
成フイルタの予測パラメータαiと0≦r≦1を満
足する実定数rによりW(z)=(1−M 〓i=1 αiz-i)/
(1−M 〓i=1 αiriz-i)と表わされるものが提案されて
いる(前記文献1)。さらにx(n),x〜(n)のZ変換
をそれぞれX(z),X〜(z)とすると(3)式は次のように
表わされる。 J=|X(z)W(z)−X〜(z)W(z)|2 −(4) また、(2)式の関係からx〜(z)は次のようになる。 x〜(z)=H(z)D(z) −(5) ここで H(z)=1/(1+M 〓i=1 αiz-i) H(z)は合成フイルタのZ変換、D(z)は駆動音源
のZ変換である。(5)を(4)に代入すると J=|X(z)W(z)−H(z)W(z)D(z)|2 −(6) である。従つて、X(z)W(z)とH(z)W(z)の逆Z変換
の信号をそれぞれxw(n)=x(n)w(n)とhw(n)=h(n)
*w(n)と記すと、(6)は次のようになる。 J=N-1 〓n=0 (xw(n)−K 〓k=1 gkhw(n−lk))2 −(7) (7)式を最小にするような音源パルス系列の振幅
gk、位置lkを求めるのに、(7)式をgkで偏微分して
0とおいた式、つまり
【化】
の関係を利利用する。ここでψxh(・)はXw(n)と
hw(n)から計算した相互相関関数を、ψhh(・)は
hw(n)の自己相関々数列をそれぞれ表わし、次の
ように表わされる。尚ψhh(・)は共分散関数とも
呼ばれる。 ψxh(lk)=N-1 〓n=0 Xw(n)hw(n−lk)=ψhx(−lk) (9) 0≦lk≦N−1 ψhh(li,lj)=N-(li-li)+1 〓n=0 hw(n−li)hw(n−lj) (10) 0≦li,lj≦N−1 従来方式は、(8)のgkをlkだけの関数とみること
により、k番目のパルスの振幅と位置を決めるも
のである。つまり、(8)の|gk|を最大にするlkを
k番目のパルスの位置とし、そのときのgkをk番
目のパルスの振幅とするものである。この方式は
gkが正確にlkだけの関数であれば、(7)式を最も小
さくする音源パルス系列が計算されるが、実際の
音声信号はその限りでなく、一般にgkは、l1,l2,
…,lkなどの関数である。 第1図は文献2の従来方式の一実施例を示すブ
ロツク図である。第2図は、音源パルス系列計算
回路140で文献2の従来方式に従い行われる音
源パルス系列の振幅gk、位置lkを求める処理手順
を表わす流れ図である。以後第1図に示す文献2
従来方式の実施例の構成要素と第2図に示す文献
2従来方式による音源パルス系列探索アルゴリズ
ムについて詳述する。第1図において、各構成要
素は1フレーム毎に処理を行う。100は符号器
入力端子を示し、A/D変換された音声信号系列
x(n)が入力力される。110はバツフアメモリ回
路で、音声信号系列を1フレーム分蓄積する。K
パラメータ計算回路180は、バツフアメモリ回
路110に蓄積された音声信号x(n)を入力し、あ
らかじめ定められた数だけKパラメータKi(1≦
i≦M)を計算する。この値はKパラメータ符号
化回路190に出力される。Kパラメータ符号化
回路190は、例えばあらかじめ定められた量子
化ビツト数に基づいてKiを符号化し、その符号Iki
をマルチプレクサ160へ出力する。またKパラ
メータ符号化回路190は、Ikiを復号化し復号値
K′i(1≦i≦M)をインパルス応答計算回路12
0と重み付け回路200へ出力する。重み付け回
路200は、入力音声信号x(n)とKパラメータ復
号値K′iを入力し、合成フイルタの周波数特性に
依存した重み関数w(n)を用い、前述のxw(n)を計
算し、得られたxw(n)を相互相関々数計算回路1
35へ出力する。インパルス応答計算回路120
は、K′iを入力し、前述のhw(n)(インパルス応答
と前述の重み関数のたたみ込み積分)を定められ
たサンプル数だけ計算し、求まつたhw(n)を共分
散関数計算回路130と相互相関関数計算回路1
35とへ出力する。共分散関数計算回路130
は、あらかじめ定められたサンプル数のhw(n)を
入力し、前述の(10)式に従つてψhh(li,lj)(0≦li
,
lj≦N−1)を計算し、これを音源パルス系列計
算回路140へ出力する。相互相関々数計算回路
135は、入力されたxw(n)とhw(n)との相互相
関々数を計算し音源パルス系列計算回路140へ
出力する。次に音源パルス系列計算回路の説明を
する。音源パルス系列計算回路140は、相互相
関々数計算回路135からψxh(lk)(0≦lk≦N−
1)を共分散数関数計算回路130からψhh(li,
lj)(0≦li,lj≦N−1)をそれぞれ入力し、前
述のパルス計算アルゴリズム(8)式を用いて音源パ
ルス系列の振幅gk及び位置lkを計算する。第2図
は、文献2の従来方式における音源パルス系列計
算回路140で行なわれ処理手順を表わす流れ図
である。1つ目のパルスは(8)式において、K=1
とおき振幅g1を位置l1の関数、g1=ψxh(l1)/ψhh
l1,l1)として表わす。次に|g1|を最大にする
l1を選び、その際のl1,g1を1番目のパルス位置
及び振幅とする。2番目のパルスは、(8)式におい
てK=2とおき|g2|を最大にするl2を選び、そ
の際のl2,g2を2番目のパルスの位置及び振幅と
する。3番目以後のパルスも同様にして計算し、
あらかじめ定まつたパルス数に達するまで続け
る。第2図において、1はパルスの個数を計算す
る計算カウンターを1に初期化する。2は比較で
あり、パルスの個数があらかじめ定められた個数
より大きいか小さいかを判断し、定められた個数
より大きければ、パルス系列計算の処理を終え
る。3は(8)式の計算を行うもので、(8)式において
l1,…,lk-1,及びg1,…,gk-1を既知とし、|gk
|を最大にするlkを求め、そのときのgk,lkをk
番目のパルスの振幅と位置として出力する。4は
加算器で、パルスの個数を計算する計算カウンタ
ーの内容を1つふやす。以上で音源パルス計算回
路140の説明を終える。 第1図に戻つて、符号化回路150は、音源パ
ルス計算回路140の出力であるパルス系列の振
幅gk及び位置lkを入力し、それらを符号化する。
振幅gkが位置lkの符号化については従来よく知ら
れている方法を用いることができる。振幅gkにつ
いては、例えば1フレーム内のパルス系列の振幅
の最大値を正規化係数として、この値で各パルス
の振幅を正規化し、その後量子化、符号化する方
法が考えれる。位置lkについては、例えばフアク
シミリ信号符号化の分野でよく知られているラン
レングス符号化を用いることが考えられる。これ
は符号“0”の続く長さをあらかじめ定められた
符号系列を用いて表わすものである。マルチプレ
クサ160は、Kパラメータ符号化回路190の
出力符号と符号化回路150の出力符号を入力
し、これらを組み合わせて、送信側出力端子17
0から通信路へ出力する。 以上、文献2従来方式において提案された駆動
音源パルス系列探索法について述べた。文献2従
来方式は音源パルス系列の振幅と位置とを求める
アルゴリズムにおいて、パルス振幅はそのパルス
が立つ位置だけの関数という仮定をおいている。
しかし、実際の音声信号に対しては前述の仮定は
成り立たず、文献2従来方式において音源パルス
系列を求めるために使用した前記(8)式にあるgkは
一般にl1,…,lkなどの関数となる。したがつて、
文献2従来方式により決定された音源パルス系列
は、前記(7)式のJを真に小さくするものではな
く、更に適した音源パルス系列が存在する。駆動
音源信号系列を複数のパルスで表わす方式におい
て、伝送レイトが10kビツト/秒以下の領域で更
に良い音声品質を得るためには、より適した音源
パルス系列の振幅と位置とを求める必要がある。
また、このような音源パルス系列を直接量子化す
る方法では、量子化特性は音源パルス系列の振幅
の量子化幅に大きく依存しており、良い量子化特
性を得るためには音源パルス系列の振幅に多くの
情報量を割合てなければならない。 (発明の目的) 本発明の目的は、10kビツト/秒程度の伝送レ
ートに適した高品質な音声符号化方式及びその装
置を提供することである。 (発明の構成) 本発明によれば、音声信号の低ビツトレイト波
形符号化方式における音声符号化装置および音声
復号化装置において、前記音声符号化装置は、離
散的音声信号系列を入力し前記音声信号系列を短
時間毎に分割した短時間音声信号系列を求める手
段と、前記短時間音声信号系列からスペクトル包
絡を表すパラメータを抽出して符号化する手段
と、前記スペクトル包絡にあらかじめ定められた
補正を加えたスペクトルを持つインパルス応答系
列を計算する手段と、前記短時間音声信号系列に
前記あらかじめ定められた補正を加えた短時間音
声信号系列を計算する手段と、前記短時間音声信
号系列の駆動音源として適した音源パルス系列を
記述するパラメータを逐次的に求める際に新たに
定める音源パルスの位置に相当する位相の遅れた
前記補正を加えたスペクトルを持つインパルス応
答系列をシユミツトの直交化により逐次変換しな
がら前記補正を加えた短時間音声信号系列と前記
新たに定める音源パルスの位置に相当する位相の
遅れた前記補正を加えたスペクトルを持つインパ
ルス応答系列を用いて新たに定める音源パルスの
位置を決定し前記短時間音声信号系列と前記直交
化された信号系列とのあらかじめ定められた時間
に渡る内積を計算し前記計算された内積と前記決
定した音源パルスの位置とから駆動音源系列を記
述するパラメータを求めて符号化する手段と、前
記スペクトル包絡を表すパラメータの符号と前記
駆動音源パルス系列を記述するパラメータの符号
とを組み合わせ出力する手段とを有し、前記音声
復号化装置は、符号化された信号系列を入力し前
記符号化信号系列か音声信号系列のスペクトル包
絡を表すパラメータの符号化系列と前記音声信号
系列の駆動音源信号系列となる音源パルス系列を
記述するパラメータの符号系列とを分離する手段
と、前記スペクトル包絡を表す符号を復号し前記
スペクトル包絡を持つインパルス応答系列を計算
する手段と、前記音源パルス系列を記述するパラ
メータの符号を復号する手段と、前記計算された
インパルス応答系列と前記復号化された音源パル
ス系列を記述するパラメータとを用いて音源パル
ス系列の振幅を計算する手段と、前記復号された
音源パルス系列を記述するパラメータのうち音源
パルス系列の位置を表すものと前記計算された音
源パルス系列の振幅と前記復号されたスペクトル
包絡を表すパラメータとを用い音声信号系列を再
生させる手段とを有することを特徴としている。 (発明の原理) 本発明による音声符号化方式は、上記音源パル
ス系列の表現方法とそれらを求めるアルゴリズム
に特徴がある。したがつて、以後(7)式が与えられ
たときにJを最も小さくする音源パルス系列の振
幅gk′k=1,…,Kと位置lk′k=1,…,Kを
逐次求める本発明のアルゴリズムについて説明す
る。 K個のパルスが加わつたときの重み付き二乗誤
差を表わす式 J=N-1 〓n=0 (Xw(n)−K 〓k=1 gkhw(n−lk))2 −(11) をgk(k=1,…,K)で偏微分して0とおくとN-1 〓n=0 Xw(n)hw(n−lk)=K 〓i=1 gihw(n−li)hw(n−lj)
(12) ここで、内積および二乗誤差を 〈f(n),g(n)〉=N-1 〓n=0 f(n)g(n) −(R) ||f(n)||2=〈f(n),f(n)〉=N-1 〓n=0 f2(n) −(14) と表わすことにすると、式は 〈Xw(n),hw(n−lk)〉=K 〓i=1 gi〈hw(n−li),hw(n−lj)〉 (15) ,k=1,…,K (15)式の関係を(11)式に代入すると J=〈xw(n),xw(n)〉−K 〓k=1 gk〈xw(n),hW(n−lk)〉 −(16) となる。(11)式において、位相の異なるhw(n−
lk),k=1,…Kの群{hw(n−lk)}は一般に直
交系を為さない。すなわち 〈hw(n−li),hw(n−lj)〉≠0,i≠j −(17) という関係がある。そこで、(11)式のJを小さくす
る{lk}をkに関し逐次求めるために{hw(n−
lk)}を直交系列{ηk(n)}に逐次変換していくこ
とを考える。この逐次変換にシユミツト
(SCHIMDT)の直交化を用いると次のようにな
る。 η1(n)=hw(n−l1) η2(n)=hw(n−l2)−〈hw(n−l2),η1(n)〉/〈
η1(n),η1(n)〉η1(n)=hw(n−l2)−b21η1(n) η3(n)=hw(n−l3)−〈hw(n−l3),η2(n)
〉/〈η2(n),η2(n)〉η2(n) −〈hw(n−l3),η1(n)〉/〈η1(n),η1(n)〉η
1(n)=hw(n−l3)−b32η2(n)−b31η1(n) ηk(n)=hw(n−lk)−K-1 〓 〓i=1 〈hw(n−l1),ηi(n)〉/〈ηi(n),ηi(n)〉ηi
(n)=hw(n−lk)−K-1 〓i=1 bkiηi(n),k=1,…,K −(18) このシユミツトの直交化はhw(n−lk)から {hw(n−li)},i=1,…,k−1との相関を
除くことと等価である。{ηk(n)}は次のような直
交関係 〈ηi(n),ηj(n)〉=0 i≠j −(19) をなすので、{ηk(n)}でxw(n)を線形最小二乗近似
したときの誤差は J=〈xw(n),xw(n)〉−K 〓k=1 〈xw(n),ηk(n)〉2/〈ηk(n),ηk(n)〉 −(20) となる(一松 信著、近似式、24頁、竹内書店
(昭38)、文献3)。ここで、さらに ξk=〈xw(n),ηk(n)〉 −(21) とおくと、(20)式は J=〈xw(n),xw(n)〉−K 〓k=1 ξ2/k/〈ηk(n),ηk(n)〉 (22) と表現される。 以上導出された漸化式(18)と(22)式を用いて音源
パルス系列の位置lkを逐次求めていく。逐次過程
において、l1,…,lk-1が決定されているとする
と(18)式の漸化式よりη1(n),…,ηk-1(n)まで計算さ
れていることになる。よつてk番目のパルス位置
lkは(22)式の二乗誤差を最も小さくするように、
つまり ξ2/k/〈ηk(n),ηk(n)〉 −(23) を最大にするものとして決定される。 (21)式と23式とによりξk,k=1,…,Kとlk,
k=1,…,Kとが定まれば、ξk,k=1,…,
Kとlk,k=1,…,Kとを量子化し伝送パラメ
ータとする。一方、ξk,k=1,…,Kとlk,k
=1,…,Kとが決定されれば、gk,k=1,
…,Kは次のように計算される。(16)式と(20)式との
比較から K 〓k=1 gk〈xw(n),hw(n−lk)〉=K 〓k=1 〈xw(n),ηk(n)〉2/〈ηk(n),ηk(n)〉 −(25) という関係がある。この式に、(18)式にある {hw(n−lk)と{ηk(n)}との関係式
hw(n)から計算した相互相関関数を、ψhh(・)は
hw(n)の自己相関々数列をそれぞれ表わし、次の
ように表わされる。尚ψhh(・)は共分散関数とも
呼ばれる。 ψxh(lk)=N-1 〓n=0 Xw(n)hw(n−lk)=ψhx(−lk) (9) 0≦lk≦N−1 ψhh(li,lj)=N-(li-li)+1 〓n=0 hw(n−li)hw(n−lj) (10) 0≦li,lj≦N−1 従来方式は、(8)のgkをlkだけの関数とみること
により、k番目のパルスの振幅と位置を決めるも
のである。つまり、(8)の|gk|を最大にするlkを
k番目のパルスの位置とし、そのときのgkをk番
目のパルスの振幅とするものである。この方式は
gkが正確にlkだけの関数であれば、(7)式を最も小
さくする音源パルス系列が計算されるが、実際の
音声信号はその限りでなく、一般にgkは、l1,l2,
…,lkなどの関数である。 第1図は文献2の従来方式の一実施例を示すブ
ロツク図である。第2図は、音源パルス系列計算
回路140で文献2の従来方式に従い行われる音
源パルス系列の振幅gk、位置lkを求める処理手順
を表わす流れ図である。以後第1図に示す文献2
従来方式の実施例の構成要素と第2図に示す文献
2従来方式による音源パルス系列探索アルゴリズ
ムについて詳述する。第1図において、各構成要
素は1フレーム毎に処理を行う。100は符号器
入力端子を示し、A/D変換された音声信号系列
x(n)が入力力される。110はバツフアメモリ回
路で、音声信号系列を1フレーム分蓄積する。K
パラメータ計算回路180は、バツフアメモリ回
路110に蓄積された音声信号x(n)を入力し、あ
らかじめ定められた数だけKパラメータKi(1≦
i≦M)を計算する。この値はKパラメータ符号
化回路190に出力される。Kパラメータ符号化
回路190は、例えばあらかじめ定められた量子
化ビツト数に基づいてKiを符号化し、その符号Iki
をマルチプレクサ160へ出力する。またKパラ
メータ符号化回路190は、Ikiを復号化し復号値
K′i(1≦i≦M)をインパルス応答計算回路12
0と重み付け回路200へ出力する。重み付け回
路200は、入力音声信号x(n)とKパラメータ復
号値K′iを入力し、合成フイルタの周波数特性に
依存した重み関数w(n)を用い、前述のxw(n)を計
算し、得られたxw(n)を相互相関々数計算回路1
35へ出力する。インパルス応答計算回路120
は、K′iを入力し、前述のhw(n)(インパルス応答
と前述の重み関数のたたみ込み積分)を定められ
たサンプル数だけ計算し、求まつたhw(n)を共分
散関数計算回路130と相互相関関数計算回路1
35とへ出力する。共分散関数計算回路130
は、あらかじめ定められたサンプル数のhw(n)を
入力し、前述の(10)式に従つてψhh(li,lj)(0≦li
,
lj≦N−1)を計算し、これを音源パルス系列計
算回路140へ出力する。相互相関々数計算回路
135は、入力されたxw(n)とhw(n)との相互相
関々数を計算し音源パルス系列計算回路140へ
出力する。次に音源パルス系列計算回路の説明を
する。音源パルス系列計算回路140は、相互相
関々数計算回路135からψxh(lk)(0≦lk≦N−
1)を共分散数関数計算回路130からψhh(li,
lj)(0≦li,lj≦N−1)をそれぞれ入力し、前
述のパルス計算アルゴリズム(8)式を用いて音源パ
ルス系列の振幅gk及び位置lkを計算する。第2図
は、文献2の従来方式における音源パルス系列計
算回路140で行なわれ処理手順を表わす流れ図
である。1つ目のパルスは(8)式において、K=1
とおき振幅g1を位置l1の関数、g1=ψxh(l1)/ψhh
l1,l1)として表わす。次に|g1|を最大にする
l1を選び、その際のl1,g1を1番目のパルス位置
及び振幅とする。2番目のパルスは、(8)式におい
てK=2とおき|g2|を最大にするl2を選び、そ
の際のl2,g2を2番目のパルスの位置及び振幅と
する。3番目以後のパルスも同様にして計算し、
あらかじめ定まつたパルス数に達するまで続け
る。第2図において、1はパルスの個数を計算す
る計算カウンターを1に初期化する。2は比較で
あり、パルスの個数があらかじめ定められた個数
より大きいか小さいかを判断し、定められた個数
より大きければ、パルス系列計算の処理を終え
る。3は(8)式の計算を行うもので、(8)式において
l1,…,lk-1,及びg1,…,gk-1を既知とし、|gk
|を最大にするlkを求め、そのときのgk,lkをk
番目のパルスの振幅と位置として出力する。4は
加算器で、パルスの個数を計算する計算カウンタ
ーの内容を1つふやす。以上で音源パルス計算回
路140の説明を終える。 第1図に戻つて、符号化回路150は、音源パ
ルス計算回路140の出力であるパルス系列の振
幅gk及び位置lkを入力し、それらを符号化する。
振幅gkが位置lkの符号化については従来よく知ら
れている方法を用いることができる。振幅gkにつ
いては、例えば1フレーム内のパルス系列の振幅
の最大値を正規化係数として、この値で各パルス
の振幅を正規化し、その後量子化、符号化する方
法が考えれる。位置lkについては、例えばフアク
シミリ信号符号化の分野でよく知られているラン
レングス符号化を用いることが考えられる。これ
は符号“0”の続く長さをあらかじめ定められた
符号系列を用いて表わすものである。マルチプレ
クサ160は、Kパラメータ符号化回路190の
出力符号と符号化回路150の出力符号を入力
し、これらを組み合わせて、送信側出力端子17
0から通信路へ出力する。 以上、文献2従来方式において提案された駆動
音源パルス系列探索法について述べた。文献2従
来方式は音源パルス系列の振幅と位置とを求める
アルゴリズムにおいて、パルス振幅はそのパルス
が立つ位置だけの関数という仮定をおいている。
しかし、実際の音声信号に対しては前述の仮定は
成り立たず、文献2従来方式において音源パルス
系列を求めるために使用した前記(8)式にあるgkは
一般にl1,…,lkなどの関数となる。したがつて、
文献2従来方式により決定された音源パルス系列
は、前記(7)式のJを真に小さくするものではな
く、更に適した音源パルス系列が存在する。駆動
音源信号系列を複数のパルスで表わす方式におい
て、伝送レイトが10kビツト/秒以下の領域で更
に良い音声品質を得るためには、より適した音源
パルス系列の振幅と位置とを求める必要がある。
また、このような音源パルス系列を直接量子化す
る方法では、量子化特性は音源パルス系列の振幅
の量子化幅に大きく依存しており、良い量子化特
性を得るためには音源パルス系列の振幅に多くの
情報量を割合てなければならない。 (発明の目的) 本発明の目的は、10kビツト/秒程度の伝送レ
ートに適した高品質な音声符号化方式及びその装
置を提供することである。 (発明の構成) 本発明によれば、音声信号の低ビツトレイト波
形符号化方式における音声符号化装置および音声
復号化装置において、前記音声符号化装置は、離
散的音声信号系列を入力し前記音声信号系列を短
時間毎に分割した短時間音声信号系列を求める手
段と、前記短時間音声信号系列からスペクトル包
絡を表すパラメータを抽出して符号化する手段
と、前記スペクトル包絡にあらかじめ定められた
補正を加えたスペクトルを持つインパルス応答系
列を計算する手段と、前記短時間音声信号系列に
前記あらかじめ定められた補正を加えた短時間音
声信号系列を計算する手段と、前記短時間音声信
号系列の駆動音源として適した音源パルス系列を
記述するパラメータを逐次的に求める際に新たに
定める音源パルスの位置に相当する位相の遅れた
前記補正を加えたスペクトルを持つインパルス応
答系列をシユミツトの直交化により逐次変換しな
がら前記補正を加えた短時間音声信号系列と前記
新たに定める音源パルスの位置に相当する位相の
遅れた前記補正を加えたスペクトルを持つインパ
ルス応答系列を用いて新たに定める音源パルスの
位置を決定し前記短時間音声信号系列と前記直交
化された信号系列とのあらかじめ定められた時間
に渡る内積を計算し前記計算された内積と前記決
定した音源パルスの位置とから駆動音源系列を記
述するパラメータを求めて符号化する手段と、前
記スペクトル包絡を表すパラメータの符号と前記
駆動音源パルス系列を記述するパラメータの符号
とを組み合わせ出力する手段とを有し、前記音声
復号化装置は、符号化された信号系列を入力し前
記符号化信号系列か音声信号系列のスペクトル包
絡を表すパラメータの符号化系列と前記音声信号
系列の駆動音源信号系列となる音源パルス系列を
記述するパラメータの符号系列とを分離する手段
と、前記スペクトル包絡を表す符号を復号し前記
スペクトル包絡を持つインパルス応答系列を計算
する手段と、前記音源パルス系列を記述するパラ
メータの符号を復号する手段と、前記計算された
インパルス応答系列と前記復号化された音源パル
ス系列を記述するパラメータとを用いて音源パル
ス系列の振幅を計算する手段と、前記復号された
音源パルス系列を記述するパラメータのうち音源
パルス系列の位置を表すものと前記計算された音
源パルス系列の振幅と前記復号されたスペクトル
包絡を表すパラメータとを用い音声信号系列を再
生させる手段とを有することを特徴としている。 (発明の原理) 本発明による音声符号化方式は、上記音源パル
ス系列の表現方法とそれらを求めるアルゴリズム
に特徴がある。したがつて、以後(7)式が与えられ
たときにJを最も小さくする音源パルス系列の振
幅gk′k=1,…,Kと位置lk′k=1,…,Kを
逐次求める本発明のアルゴリズムについて説明す
る。 K個のパルスが加わつたときの重み付き二乗誤
差を表わす式 J=N-1 〓n=0 (Xw(n)−K 〓k=1 gkhw(n−lk))2 −(11) をgk(k=1,…,K)で偏微分して0とおくとN-1 〓n=0 Xw(n)hw(n−lk)=K 〓i=1 gihw(n−li)hw(n−lj)
(12) ここで、内積および二乗誤差を 〈f(n),g(n)〉=N-1 〓n=0 f(n)g(n) −(R) ||f(n)||2=〈f(n),f(n)〉=N-1 〓n=0 f2(n) −(14) と表わすことにすると、式は 〈Xw(n),hw(n−lk)〉=K 〓i=1 gi〈hw(n−li),hw(n−lj)〉 (15) ,k=1,…,K (15)式の関係を(11)式に代入すると J=〈xw(n),xw(n)〉−K 〓k=1 gk〈xw(n),hW(n−lk)〉 −(16) となる。(11)式において、位相の異なるhw(n−
lk),k=1,…Kの群{hw(n−lk)}は一般に直
交系を為さない。すなわち 〈hw(n−li),hw(n−lj)〉≠0,i≠j −(17) という関係がある。そこで、(11)式のJを小さくす
る{lk}をkに関し逐次求めるために{hw(n−
lk)}を直交系列{ηk(n)}に逐次変換していくこ
とを考える。この逐次変換にシユミツト
(SCHIMDT)の直交化を用いると次のようにな
る。 η1(n)=hw(n−l1) η2(n)=hw(n−l2)−〈hw(n−l2),η1(n)〉/〈
η1(n),η1(n)〉η1(n)=hw(n−l2)−b21η1(n) η3(n)=hw(n−l3)−〈hw(n−l3),η2(n)
〉/〈η2(n),η2(n)〉η2(n) −〈hw(n−l3),η1(n)〉/〈η1(n),η1(n)〉η
1(n)=hw(n−l3)−b32η2(n)−b31η1(n) ηk(n)=hw(n−lk)−K-1 〓 〓i=1 〈hw(n−l1),ηi(n)〉/〈ηi(n),ηi(n)〉ηi
(n)=hw(n−lk)−K-1 〓i=1 bkiηi(n),k=1,…,K −(18) このシユミツトの直交化はhw(n−lk)から {hw(n−li)},i=1,…,k−1との相関を
除くことと等価である。{ηk(n)}は次のような直
交関係 〈ηi(n),ηj(n)〉=0 i≠j −(19) をなすので、{ηk(n)}でxw(n)を線形最小二乗近似
したときの誤差は J=〈xw(n),xw(n)〉−K 〓k=1 〈xw(n),ηk(n)〉2/〈ηk(n),ηk(n)〉 −(20) となる(一松 信著、近似式、24頁、竹内書店
(昭38)、文献3)。ここで、さらに ξk=〈xw(n),ηk(n)〉 −(21) とおくと、(20)式は J=〈xw(n),xw(n)〉−K 〓k=1 ξ2/k/〈ηk(n),ηk(n)〉 (22) と表現される。 以上導出された漸化式(18)と(22)式を用いて音源
パルス系列の位置lkを逐次求めていく。逐次過程
において、l1,…,lk-1が決定されているとする
と(18)式の漸化式よりη1(n),…,ηk-1(n)まで計算さ
れていることになる。よつてk番目のパルス位置
lkは(22)式の二乗誤差を最も小さくするように、
つまり ξ2/k/〈ηk(n),ηk(n)〉 −(23) を最大にするものとして決定される。 (21)式と23式とによりξk,k=1,…,Kとlk,
k=1,…,Kとが定まれば、ξk,k=1,…,
Kとlk,k=1,…,Kとを量子化し伝送パラメ
ータとする。一方、ξk,k=1,…,Kとlk,k
=1,…,Kとが決定されれば、gk,k=1,
…,Kは次のように計算される。(16)式と(20)式との
比較から K 〓k=1 gk〈xw(n),hw(n−lk)〉=K 〓k=1 〈xw(n),ηk(n)〉2/〈ηk(n),ηk(n)〉 −(25) という関係がある。この式に、(18)式にある {hw(n−lk)と{ηk(n)}との関係式
【表】K
K
Σ Σ gkbki〓xw(n)、ηi(n)〓=
i=1 i=1
K
〓xw(n)、ηk(n)〓2
Σ
Σ Σ gkbki〓xw(n)、ηi(n)〓=
i=1 i=1
K
〓xw(n)、ηk(n)〓2
Σ
Claims (1)
- 【特許請求の範囲】 1 音声信号の低ビツトレイト波形符号化方式に
おける音声符号化装置および音声復号化装置にお
いて、 前記音声符号化装置は、離散的音声信号系列を
入力し前記音声信号系列を短時間毎に分割した短
時間音声信号系列を求める手段と、前記短時間音
声信号系列からスペクトル包絡を表すパラメータ
を抽出して符号化する手段と、前記スペクトル包
絡にあらかじめ定められた補正を加えたスペクト
ルを持つインパルス応答系列を計算する手段と、
前記短時間音声信号系列に前記あらかじめ定めら
れた補正を加えた短時間音声信号系列を計算する
手段と、前記短時間音声信号系列の駆動音源とし
て適した音源パルス系列を記述するパラメータを
逐次的に求める際に新たに定める音源パルスの位
置に相当する位相の遅れた前記補正を加えたスペ
クトルを持つインパルス応答系列をシユミツトの
直交化により逐次変換しながら前記補正を加えた
短時間音声信号系列と前記新たに定める音源パル
スの位置に相当する位相の遅れた前記補正を加え
たスペクトルを持つインパルス応答系列を用いて
新たに定める音源パルスの位置を決定し前記短時
間音声信号系列と前記直交化された信号系列との
あらかじめ定められた時間に渡る内積を計算し前
記計算された内積と前記決定した音源パルスの位
置とから駆動音源系列を記述するパラメータを求
めて符号化する手段と、前記スペクトル包絡を表
すパラメータの符号と前記駆動音源パルス系列を
記述するパラメータの符号とを組み合わせ出力す
る手段とを有し、 前記音声復号化装置は、符号化された信号系列
を入力し前記符号化信号系列から音声信号系列の
スペクトル包絡を表すパラメータの符号化系列と
前記音声信号系列の駆動音源信号系列となる音源
パルス系列を記述するパラメータの符号系列とを
分離する手段と、前記スペクトル包絡を表す符号
を復号し前記スペクトル包絡を持つインパルス応
答系列を計算する手段と、前記音源パルス系列を
記述するパラメータの符号を復号する手段と、前
記計算されたインパルス応答系列と前記復号化さ
れた音源パルス系列を記述するパラメータとを用
いて音源パルス系列の振幅を計算する手段と、前
記復号された音源パルス系列を記述するパラメー
タのうち音源パルス系列の位置を表すものと前記
計算された音源パルス系列の振幅と前記復号され
たスペクトル包絡を表すパラメータとを用い音声
信号系列を再生させる手段とを有することを特徴
とする音声符号化装置および音声復号化装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59076793A JPS60219823A (ja) | 1984-04-17 | 1984-04-17 | 音声符号化装置および音声復号化装置 |
US06/723,987 US4724535A (en) | 1984-04-17 | 1985-04-16 | Low bit-rate pattern coding with recursive orthogonal decision of parameters |
CA000479256A CA1226946A (en) | 1984-04-17 | 1985-04-16 | Low bit-rate pattern coding with recursive orthogonal decision of parameters |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59076793A JPS60219823A (ja) | 1984-04-17 | 1984-04-17 | 音声符号化装置および音声復号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60219823A JPS60219823A (ja) | 1985-11-02 |
JPH0572780B2 true JPH0572780B2 (ja) | 1993-10-13 |
Family
ID=13615505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59076793A Granted JPS60219823A (ja) | 1984-04-17 | 1984-04-17 | 音声符号化装置および音声復号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60219823A (ja) |
-
1984
- 1984-04-17 JP JP59076793A patent/JPS60219823A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS60219823A (ja) | 1985-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5873059A (en) | Method and apparatus for decoding and changing the pitch of an encoded speech signal | |
JPH096397A (ja) | 音声信号の再生方法、再生装置及び伝送方法 | |
US4945565A (en) | Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses | |
JPH04134400A (ja) | 音声符号化装置 | |
JP2000155597A (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
JP3531780B2 (ja) | 音声符号化方法および復号化方法 | |
JP2615548B2 (ja) | 高能率音声符号化方式とその装置 | |
JP2829978B2 (ja) | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 | |
JP3299099B2 (ja) | 音声符号化装置 | |
JPH0572780B2 (ja) | ||
JP2956068B2 (ja) | 音声符号化復号化方式 | |
KR100341398B1 (ko) | 씨이엘피형 보코더의 코드북 검색 방법 | |
JP3163206B2 (ja) | 音響信号符号化装置 | |
JPH058839B2 (ja) | ||
JPH0235994B2 (ja) | ||
JPH0632030B2 (ja) | 音声符号化方法 | |
JPH0426119B2 (ja) | ||
JPH0378637B2 (ja) | ||
JP3092654B2 (ja) | 信号符号化装置 | |
JP2658438B2 (ja) | 音声符号化方法とその装置 | |
JPH0632034B2 (ja) | 音声符号化方法 | |
JP3144244B2 (ja) | 音声符号化装置 | |
JPH0378638B2 (ja) | ||
JPS6396699A (ja) | 音声符号化装置 | |
JPH0426120B2 (ja) |