JPH0572780B2

JPH0572780B2 -

Info

Publication number: JPH0572780B2
Application number: JP59076793A
Authority: JP
Inventors: Shigeru Ono
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1984-04-17
Filing date: 1984-04-17
Publication date: 1993-10-13
Also published as: JPS60219823A

Description

【発明の詳細な説明】

（産業上の利用分野）本発明は音声信号の低ビツトレイト波形符号化
方式、特に伝送情報量を10kビツト／秒以下とな
るような符号化方式に関する。（従来技術とその問題点）音声信号を10kビツト／秒程度以下の伝送情報
量で符号化するための効果的な方法として、音声
信号の駆動音源信号系列をそれを用いて再生した
信号と入力信号との誤差最小を条件として短時間
毎に探索する方法が知られている。米国ベル電話
研究所のビー・エス・アタール（B.S.ATAL）
氏らによる、駆動音源信号系を複数個のパルスで
表わし、その振幅と位相を短時間毎に符号器側で
アナリシスバイ、シンセシス（Analysis−by
−Synthesis）；Ａ−ｂ−Ｓ法により求める方式は
有効である。これに対する説明は1982年度のア
イ・シー・エー・エス・エス・ピー（ICASSP）
の予稿集614〜617頁、「アニユーモデルオ
ブエル・ピー・シーエクサイテイシヨンフ
オープロデユースイングナチユラルサウン
デイングスピーチアツトロービツトレ
ーツ（Ａ new model of LPC excitation for
producing natural sounding speech at low
bit rates）」（文献１）に掲載されているので、
ここでは詳細な説明は省く。文献１の従来方式は
パルス系列を求める手段としてＡ−ｂ−Ｓ法を用
いているため、演算量が非常に多いという欠点が
ある。それに対し特許出願番号昭57−231603号
明細書（文献２）においては上記パルス系列を求
めるための演算量を大幅に縮少する方式が提案さ
れている。これらの方式により、伝送レイトを
10kビツト／秒以下とした領域で良好な再生音質
が得られると報告されている。ここで、前記文献２の従来方式を簡単に説明す
る。１フレーム内Ｋ個のパルス系列からなる駆動
音源系列を次のように表わす。ｄ(n)＝_K 〓^k=1 g_kδ（ｎ−ｋ）ｎ＝０，…，Ｎ−１ (1) ここでδ（・）はクロネツカー
（KRONECKER）のδである。Ｎはフレーム長、
g_kは位置l_kに立つパルスの振幅を表わす。ｄ(n)を
合成フイルタに入力して得られる再生信号ｘ〜(n)
は、合成フイルタの予側係数をα_i（ｉ＝１，…，
Ｍ，Ｍは合成フイルタの次数）とすると次のよう
に書ける。ｘ〜(n)＝ｄ(n)＋_M 〓ⁱ⁼¹ δ_iｘ〜（ｎ−ｉ） −(2) 入力音声信号ｘ(n)と再生信号ｘ〜(n)との１フレー
ム内の重み付二乗誤差ＪはＪ＝_N-1 〓ⁿ⁼⁰ ｛（ｘ(n)−ｘ〜(n)＊ｗ(n)）｝² −(3) となる。ここで＊はたたみ込み積分の記号であ
り、ｗ(n)は重み関数を表わす。重み関数は入力音
声信号と再生信号との聴覚上での誤差を最も小さ
くするために導入される。聴覚のマスキング効果
によれば、音声エネルギーの大きい帯域では雑音
は抑圧される。重み関数は、誤差にこのような聴
覚の特性を考離慮した重み付けを行うものであ
る。重み関数としては、その大文字変換Ｗ(z)を合
成フイルタの予測パラメータα_iと０≦ｒ≦１を満
足する実定数ｒによりＷ(z)＝（１−_M 〓ⁱ⁼¹ α_iz^-i）／
（１−_M 〓ⁱ⁼¹ α_irⁱz^-i）と表わされるものが提案されて
いる（前記文献１）。さらにｘ(n)，ｘ〜(n)のＺ変換
をそれぞれＸ(z)，Ｘ〜(z)とすると(3)式は次のように
表わされる。Ｊ＝｜Ｘ(z)Ｗ(z)−Ｘ〜(z)Ｗ(z)｜² −(4) また、(2)式の関係からｘ〜(z)は次のようになる。ｘ〜(z)＝Ｈ(z)Ｄ(z) −(5) ここでＨ(z)＝１／（１＋_M 〓ⁱ⁼¹ α_iz^-i）Ｈ(z)は合成フイルタのＺ変換、Ｄ(z)は駆動音源
のＺ変換である。(5)を(4)に代入するとＪ＝｜Ｘ(z)Ｗ(z)−Ｈ(z)Ｗ(z)Ｄ(z)｜² −(6) である。従つて、Ｘ(z)Ｗ(z)とＨ(z)Ｗ(z)の逆Ｚ変換
の信号をそれぞれx_w(n)＝ｘ(n)ｗ(n)とh_w(n)＝ｈ(n)
＊ｗ(n)と記すと、(6)は次のようになる。Ｊ＝_N-1 〓ⁿ⁼⁰ （x_w(n)−_K 〓^k=1 g_kh_w（ｎ−l_k））² −(7) (7)式を最小にするような音源パルス系列の振幅
g_k、位置l_kを求めるのに、(7)式をg_kで偏微分して
０とおいた式、つまり

【化】の関係を利利用する。ここでψ_xh（・）はX_w(n)と
h_w(n)から計算した相互相関関数を、ψ_hh（・）は
h_w(n)の自己相関々数列をそれぞれ表わし、次の
ように表わされる。尚ψ_hh（・）は共分散関数とも
呼ばれる。 ψ_xh（l_k）＝_N-1 〓ⁿ⁼⁰ X_w(n)h_w（ｎ−l_k）＝ψ_hx（−l_k） (9) ０≦l_k≦Ｎ−１ ψ_hh（l_i，l_j）＝_N-(li-li)+1 〓ⁿ⁼⁰ h_w（ｎ−l_i）h_w（ｎ−l_j） (10) ０≦l_i，l_j≦Ｎ−１従来方式は、(8)のg_kをl_kだけの関数とみること
により、ｋ番目のパルスの振幅と位置を決めるも
のである。つまり、(8)の｜g_k｜を最大にするl_kを
ｋ番目のパルスの位置とし、そのときのg_kをｋ番
目のパルスの振幅とするものである。この方式は
g_kが正確にl_kだけの関数であれば、(7)式を最も小
さくする音源パルス系列が計算されるが、実際の
音声信号はその限りでなく、一般にg_kは、l₁，l₂，
…，l_kなどの関数である。第１図は文献２の従来方式の一実施例を示すブ
ロツク図である。第２図は、音源パルス系列計算
回路１４０で文献２の従来方式に従い行われる音
源パルス系列の振幅g_k、位置l_kを求める処理手順
を表わす流れ図である。以後第１図に示す文献２
従来方式の実施例の構成要素と第２図に示す文献
２従来方式による音源パルス系列探索アルゴリズ
ムについて詳述する。第１図において、各構成要
素は１フレーム毎に処理を行う。１００は符号器
入力端子を示し、Ａ／Ｄ変換された音声信号系列
ｘ(n)が入力力される。１１０はバツフアメモリ回
路で、音声信号系列を１フレーム分蓄積する。Ｋ
パラメータ計算回路１８０は、バツフアメモリ回
路１１０に蓄積された音声信号ｘ(n)を入力し、あ
らかじめ定められた数だけＫパラメータK_i（１≦
ｉ≦Ｍ）を計算する。この値はＫパラメータ符号
化回路１９０に出力される。Ｋパラメータ符号化
回路１９０は、例えばあらかじめ定められた量子
化ビツト数に基づいてK_iを符号化し、その符号I_ki
をマルチプレクサ１６０へ出力する。またＫパラ
メータ符号化回路１９０は、I_kiを復号化し復号値
K′_i（１≦ｉ≦Ｍ）をインパルス応答計算回路１２
０と重み付け回路２００へ出力する。重み付け回
路２００は、入力音声信号ｘ(n)とＫパラメータ復
号値K′_iを入力し、合成フイルタの周波数特性に
依存した重み関数ｗ(n)を用い、前述のx_w(n)を計
算し、得られたx_w(n)を相互相関々数計算回路１
３５へ出力する。インパルス応答計算回路１２０
は、K′_iを入力し、前述のh_w(n)（インパルス応答
と前述の重み関数のたたみ込み積分）を定められ
たサンプル数だけ計算し、求まつたh_w(n)を共分
散関数計算回路１３０と相互相関関数計算回路１
３５とへ出力する。共分散関数計算回路１３０
は、あらかじめ定められたサンプル数のh_w(n)を
入力し、前述の(10)式に従つてψ_hh（l_i，l_j）（０≦l_i，
l_j≦Ｎ−１）を計算し、これを音源パルス系列計
算回路１４０へ出力する。相互相関々数計算回路
１３５は、入力されたx_w(n)とh_w（ｎ）との相互相
関々数を計算し音源パルス系列計算回路１４０へ
出力する。次に音源パルス系列計算回路の説明を
する。音源パルス系列計算回路１４０は、相互相
関々数計算回路１３５からψ_xh（l_k）（０≦l_k≦Ｎ−
１）を共分散数関数計算回路１３０からψ_hh（l_i，
l_j）（０≦l_i，l_j≦Ｎ−１）をそれぞれ入力し、前
述のパルス計算アルゴリズム(8)式を用いて音源パ
ルス系列の振幅g_k及び位置l_kを計算する。第２図
は、文献２の従来方式における音源パルス系列計
算回路１４０で行なわれ処理手順を表わす流れ図
である。１つ目のパルスは(8)式において、Ｋ＝１
とおき振幅g₁を位置l₁の関数、g₁＝ψ_xh（l₁）／ψ_hh
l₁，l₁）として表わす。次に｜g₁｜を最大にする
l₁を選び、その際のl₁，g₁を１番目のパルス位置
及び振幅とする。２番目のパルスは、(8)式におい
てＫ＝２とおき｜g₂｜を最大にするl₂を選び、そ
の際のl₂，g₂を２番目のパルスの位置及び振幅と
する。３番目以後のパルスも同様にして計算し、
あらかじめ定まつたパルス数に達するまで続け
る。第２図において、１はパルスの個数を計算す
る計算カウンターを１に初期化する。２は比較で
あり、パルスの個数があらかじめ定められた個数
より大きいか小さいかを判断し、定められた個数
より大きければ、パルス系列計算の処理を終え
る。３は(8)式の計算を行うもので、(8)式において
l₁，…，l_k-1，及びg₁，…，g_k-1を既知とし、｜g_k
｜を最大にするl_kを求め、そのときのg_k，l_kをｋ
番目のパルスの振幅と位置として出力する。４は
加算器で、パルスの個数を計算する計算カウンタ
ーの内容を１つふやす。以上で音源パルス計算回
路１４０の説明を終える。第１図に戻つて、符号化回路１５０は、音源パ
ルス計算回路１４０の出力であるパルス系列の振
幅g_k及び位置l_kを入力し、それらを符号化する。
振幅g_kが位置l_kの符号化については従来よく知ら
れている方法を用いることができる。振幅g_kにつ
いては、例えば１フレーム内のパルス系列の振幅
の最大値を正規化係数として、この値で各パルス
の振幅を正規化し、その後量子化、符号化する方
法が考えれる。位置l_kについては、例えばフアク
シミリ信号符号化の分野でよく知られているラン
レングス符号化を用いることが考えられる。これ
は符号“０”の続く長さをあらかじめ定められた
符号系列を用いて表わすものである。マルチプレ
クサ１６０は、Ｋパラメータ符号化回路１９０の
出力符号と符号化回路１５０の出力符号を入力
し、これらを組み合わせて、送信側出力端子１７
０から通信路へ出力する。以上、文献２従来方式において提案された駆動
音源パルス系列探索法について述べた。文献２従
来方式は音源パルス系列の振幅と位置とを求める
アルゴリズムにおいて、パルス振幅はそのパルス
が立つ位置だけの関数という仮定をおいている。
しかし、実際の音声信号に対しては前述の仮定は
成り立たず、文献２従来方式において音源パルス
系列を求めるために使用した前記(8)式にあるg_kは
一般にl₁，…，l_kなどの関数となる。したがつて、
文献２従来方式により決定された音源パルス系列
は、前記(7)式のＪを真に小さくするものではな
く、更に適した音源パルス系列が存在する。駆動
音源信号系列を複数のパルスで表わす方式におい
て、伝送レイトが10kビツト／秒以下の領域で更
に良い音声品質を得るためには、より適した音源
パルス系列の振幅と位置とを求める必要がある。
また、このような音源パルス系列を直接量子化す
る方法では、量子化特性は音源パルス系列の振幅
の量子化幅に大きく依存しており、良い量子化特
性を得るためには音源パルス系列の振幅に多くの
情報量を割合てなければならない。（発明の目的）本発明の目的は、10kビツト／秒程度の伝送レ
ートに適した高品質な音声符号化方式及びその装
置を提供することである。（発明の構成）本発明によれば、音声信号の低ビツトレイト波
形符号化方式における音声符号化装置および音声
復号化装置において、前記音声符号化装置は、離
散的音声信号系列を入力し前記音声信号系列を短
時間毎に分割した短時間音声信号系列を求める手
段と、前記短時間音声信号系列からスペクトル包
絡を表すパラメータを抽出して符号化する手段
と、前記スペクトル包絡にあらかじめ定められた
補正を加えたスペクトルを持つインパルス応答系
列を計算する手段と、前記短時間音声信号系列に
前記あらかじめ定められた補正を加えた短時間音
声信号系列を計算する手段と、前記短時間音声信
号系列の駆動音源として適した音源パルス系列を
記述するパラメータを逐次的に求める際に新たに
定める音源パルスの位置に相当する位相の遅れた
前記補正を加えたスペクトルを持つインパルス応
答系列をシユミツトの直交化により逐次変換しな
がら前記補正を加えた短時間音声信号系列と前記
新たに定める音源パルスの位置に相当する位相の
遅れた前記補正を加えたスペクトルを持つインパ
ルス応答系列を用いて新たに定める音源パルスの
位置を決定し前記短時間音声信号系列と前記直交
化された信号系列とのあらかじめ定められた時間
に渡る内積を計算し前記計算された内積と前記決
定した音源パルスの位置とから駆動音源系列を記
述するパラメータを求めて符号化する手段と、前
記スペクトル包絡を表すパラメータの符号と前記
駆動音源パルス系列を記述するパラメータの符号
とを組み合わせ出力する手段とを有し、前記音声
復号化装置は、符号化された信号系列を入力し前
記符号化信号系列か音声信号系列のスペクトル包
絡を表すパラメータの符号化系列と前記音声信号
系列の駆動音源信号系列となる音源パルス系列を
記述するパラメータの符号系列とを分離する手段
と、前記スペクトル包絡を表す符号を復号し前記
スペクトル包絡を持つインパルス応答系列を計算
する手段と、前記音源パルス系列を記述するパラ
メータの符号を復号する手段と、前記計算された
インパルス応答系列と前記復号化された音源パル
ス系列を記述するパラメータとを用いて音源パル
ス系列の振幅を計算する手段と、前記復号された
音源パルス系列を記述するパラメータのうち音源
パルス系列の位置を表すものと前記計算された音
源パルス系列の振幅と前記復号されたスペクトル
包絡を表すパラメータとを用い音声信号系列を再
生させる手段とを有することを特徴としている。（発明の原理）本発明による音声符号化方式は、上記音源パル
ス系列の表現方法とそれらを求めるアルゴリズム
に特徴がある。したがつて、以後(7)式が与えられ
たときにＪを最も小さくする音源パルス系列の振
幅g_k′ｋ＝１，…，Ｋと位置l_k′ｋ＝１，…，Ｋを
逐次求める本発明のアルゴリズムについて説明す
る。Ｋ個のパルスが加わつたときの重み付き二乗誤
差を表わす式Ｊ＝_N-1 〓ⁿ⁼⁰ （X_w(n)−_K 〓^k=1 g_kh_w（ｎ−l_k））² −(11) をg_k（ｋ＝１，…，Ｋ）で偏微分して０とおくと_N-1 〓ⁿ⁼⁰ X_w(n)h_w（ｎ−l_k）＝_K 〓ⁱ⁼¹ g_ih_w（ｎ−l_i）h_w（ｎ−l_j）
(12) ここで、内積および二乗誤差を〈ｆ(n)，ｇ(n)〉＝_N-1 〓ⁿ⁼⁰ ｆ(n)ｇ(n) −(R) ｜｜ｆ(n)｜｜₂＝〈ｆ(n)，ｆ(n)〉＝_N-1 〓ⁿ⁼⁰ f²(n) −(14) と表わすことにすると、式は〈X_w(n)，h_w（ｎ−l_k）〉＝_K 〓ⁱ⁼¹ g_i〈h_w（ｎ−l_i），h_w（ｎ−l_j）〉 (15) ，ｋ＝１，…，Ｋ (15)式の関係を(11)式に代入するとＪ＝〈x_w(n)，x_w(n)〉−_K 〓^k=1 g_k〈x_w(n)，h_W（ｎ−l_k）〉 −(16) となる。(11)式において、位相の異なるh_w（ｎ−
l_k），ｋ＝１，…Ｋの群｛h_w（ｎ−l_k）｝は一般に直
交系を為さない。すなわち〈h_w（ｎ−l_i），h_w（ｎ−l_j）〉≠０，ｉ≠ｊ −(17) という関係がある。そこで、(11)式のＪを小さくす
る｛l_k｝をｋに関し逐次求めるために｛h_w（ｎ−
l_k）｝を直交系列｛η_k(n)｝に逐次変換していくこ
とを考える。この逐次変換にシユミツト
（SCHIMDT）の直交化を用いると次のようにな
る。 η₁(n)＝h_w（ｎ−l₁） η₂(n)＝h_w（ｎ−l₂）−〈h_w（ｎ−l₂），η₁(n)〉／〈
η₁(n)，η₁(n)〉η₁(n)＝h_w（ｎ−l₂）−b₂₁η₁(n) η₃(n)＝h_w（ｎ−l₃）−〈h_w（ｎ−l₃），η₂(n)
〉／〈η₂(n)，η₂(n)〉η₂(n) −〈h_w（ｎ−l₃），η₁(n)〉／〈η₁(n)，η₁(n)〉η
₁(n)＝h_w（ｎ−l₃）−b₃₂η₂(n)−b₃₁η₁(n) η_k(n)＝h_w（ｎ−l_k）−_K-1 〓〓ⁱ⁼¹ 〈h_w（ｎ−l₁），η_i(n)〉／〈η_i(n)，η_i(n)〉η_i(n)＝h_w（ｎ−l_k）−_K-1 〓ⁱ⁼¹ b_kiη_i(n)，ｋ＝１，…，Ｋ −(18) このシユミツトの直交化はh_w（ｎ−l_k）から｛h_w（ｎ−l_i）｝，ｉ＝１，…，ｋ−１との相関を
除くことと等価である。｛η_k(n)｝は次のような直
交関係〈η_i(n)，η_j(n)〉＝０ｉ≠ｊ −(19) をなすので、｛η_k(n)｝でx_w(n)を線形最小二乗近似
したときの誤差はＪ＝〈x_w(n)，x_w(n)〉−_K 〓^k=1 〈x_w(n)，η_k(n)〉²／〈η_k(n)，η_k(n)〉 −(20) となる（一松信著、近似式、24頁、竹内書店
（昭38）、文献３）。ここで、さらに ξ_k＝〈x_w(n)，η_k(n)〉 −(21) とおくと、(20)式はＪ＝〈x_w(n)，x_w(n)〉−_K 〓^k=1 ξ²／_k／〈η_k(n)，η_k(n)〉 (22) と表現される。以上導出された漸化式(18)と(22)式を用いて音源
パルス系列の位置l_kを逐次求めていく。逐次過程
において、l₁，…，l_k-1が決定されているとする
と(18)式の漸化式よりη₁(n)，…，η_k-1(n)まで計算さ
れていることになる。よつてｋ番目のパルス位置
l_kは(22)式の二乗誤差を最も小さくするように、
つまり ξ²／_k／〈η_k(n)，η_k(n)〉 −(23) を最大にするものとして決定される。 (21)式と23式とによりξ_k，ｋ＝１，…，Ｋとl_k，
ｋ＝１，…，Ｋとが定まれば、ξ_k，ｋ＝１，…，
Ｋとl_k，ｋ＝１，…，Ｋとを量子化し伝送パラメ
ータとする。一方、ξ_k，ｋ＝１，…，Ｋとl_k，ｋ
＝１，…，Ｋとが決定されれば、g_k，ｋ＝１，
…，Ｋは次のように計算される。(16)式と(20)式との
比較から _K 〓^k=1 g_k〈x_w(n)，h_w（ｎ−l_k）〉＝_K 〓^k=1 〈x_w(n)，η_k(n)〉²／〈η_k(n)，η_k(n)〉 −(25) という関係がある。この式に、(18)式にある｛h_w（ｎ−l_k）と｛η_k(n)｝との関係式

【表】_Ｋ _Ｋ
Σ Σ g_ｋb_ｋｉ〓x_ｗ(n)、η_ｉ(n)〓＝
^ｉ＝１ ^ｉ＝１
_Ｋ
〓x_ｗ(n)、η_ｋ(n)〓^２
Σ

Claims

【特許請求の範囲】１音声信号の低ビツトレイト波形符号化方式に
おける音声符号化装置および音声復号化装置にお
いて、前記音声符号化装置は、離散的音声信号系列を
入力し前記音声信号系列を短時間毎に分割した短
時間音声信号系列を求める手段と、前記短時間音
声信号系列からスペクトル包絡を表すパラメータ
を抽出して符号化する手段と、前記スペクトル包
絡にあらかじめ定められた補正を加えたスペクト
ルを持つインパルス応答系列を計算する手段と、
前記短時間音声信号系列に前記あらかじめ定めら
れた補正を加えた短時間音声信号系列を計算する
手段と、前記短時間音声信号系列の駆動音源とし
て適した音源パルス系列を記述するパラメータを
逐次的に求める際に新たに定める音源パルスの位
置に相当する位相の遅れた前記補正を加えたスペ
クトルを持つインパルス応答系列をシユミツトの
直交化により逐次変換しながら前記補正を加えた
短時間音声信号系列と前記新たに定める音源パル
スの位置に相当する位相の遅れた前記補正を加え
たスペクトルを持つインパルス応答系列を用いて
新たに定める音源パルスの位置を決定し前記短時
間音声信号系列と前記直交化された信号系列との
あらかじめ定められた時間に渡る内積を計算し前
記計算された内積と前記決定した音源パルスの位
置とから駆動音源系列を記述するパラメータを求
めて符号化する手段と、前記スペクトル包絡を表
すパラメータの符号と前記駆動音源パルス系列を
記述するパラメータの符号とを組み合わせ出力す
る手段とを有し、前記音声復号化装置は、符号化された信号系列
を入力し前記符号化信号系列から音声信号系列の
スペクトル包絡を表すパラメータの符号化系列と
前記音声信号系列の駆動音源信号系列となる音源
パルス系列を記述するパラメータの符号系列とを
分離する手段と、前記スペクトル包絡を表す符号
を復号し前記スペクトル包絡を持つインパルス応
答系列を計算する手段と、前記音源パルス系列を
記述するパラメータの符号を復号する手段と、前
記計算されたインパルス応答系列と前記復号化さ
れた音源パルス系列を記述するパラメータとを用
いて音源パルス系列の振幅を計算する手段と、前
記復号された音源パルス系列を記述するパラメー
タのうち音源パルス系列の位置を表すものと前記
計算された音源パルス系列の振幅と前記復号され
たスペクトル包絡を表すパラメータとを用い音声
信号系列を再生させる手段とを有することを特徴
とする音声符号化装置および音声復号化装置。