JP3178732B2

JP3178732B2 - 音声符号化装置

Info

Publication number: JP3178732B2
Application number: JP26784091A
Authority: JP
Inventors: 田幸司吉; 正 ▲吉▼田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1991-10-16
Filing date: 1991-10-16
Publication date: 2001-06-25
Anticipated expiration: 2016-06-25
Also published as: JPH05108098A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ディジタル通信、ボイ
スメール等に利用する音声符号化装置に関するものであ
る。

【０００２】

【従来の技術】近年、４．８〜８．０ｋｂ／ｓ程度の低
ビットレートにおける音声符号化装置は、図３に示すよ
うなＣＥＬＰ（Code Excited Linear Prediction Coder
)と呼ばれる音声符号化装置が広く用いられている。

【０００３】以下、従来のこの種の音声符号化装置につ
いて説明する。図３において、３１は入力音声の聴覚重
み付けを行なう聴覚重み付けフィルタであり、重み付き
入力音声を出力する。３２は適応コードブックであり、
過去の駆動音源を蓄えている。３３は確率的コードブッ
クであり、複数の雑音音源を予め保持している。３４は
適応コードブック３２と確率的コードブック３３とから
駆動音源信号を生成する駆動音源生成器である。３５は
駆動音源を入力として重み付き合成音声を生成する重み
付き合成フィルタである。３６は重み付き入力音声に対
する重み付き合成音声の歪を計算し、この歪が最も小さ
くなるような長期予測遅延とゲイン、確率的コードブッ
ク中の代表ベクトルとゲインの量子化符号を出力する歪
最小化器である。

【０００４】以上のように構成された音声符号化装置に
ついて、以下その動作について説明する。まず、聴覚重
み付きフィルタ３１で重み付き入力音声ｖ［ｎ］を求め
る。ＣＥＬＰ符号化装置は、これに最も近い重み付き合
成音声を生成するような駆動音源ｅ［ｎ］を符号化する
ものである。ここで、駆動音源はｅ［ｎ］は次式のよう
に、適応コードブック３２の出力である長期予測信号ａ
［ｎ−Ｌ］と確率的コードブック３３中のベクトルｃ_I
［ｎ］からなる。

【０００５】ｅ［ｎ］＝β・ａ［ｎ−Ｌ］＋γ・ｃ_I［ｎ］・・・・（１）

【０００６】実際には、両成分を同時に決定するのは困
難であり、通常、適応コードブック３２から長期予測成
分のみをまず歪最小化器３６により決定し（適応コード
ブック探索）、過去の駆動信号をどれだけ遡るかを示す
長期予測遅延Ｌと最適ゲインβを出力する。次に、残り
の歪が最小となるように確率的コードブック３３により
歪最小化し（確率的コードブック探索）、選ばれた代表
コードブックの番号Ｉと最適ゲインγを出力する。

【０００７】

【発明が解決しようとする課題】しかしながら、上記従
来の音声符号化装置では、４．８ｋｂ／ｓ程度以下の低
ビットレートでは、駆動音源信号の生成の性能が下がる
に伴い、その過去の駆動音源信号を蓄えた適応コードブ
ックからの長期予測成分の生成にも性能の劣化が生じ、
特にパルス性のピッチ周期音源を持つ有声音で顕著な音
声品質の劣化が生じるという問題を有していた。

【０００８】本発明は、上記従来の問題を解決するもの
であり、低ビットレートでも、パルス性のピッチ周期音
源を持つ有声音での音声品質の劣化を抑えた優れた音声
符号化装置を提供することを目的とするものである。

【０００９】本発明の他の目的は、長期予測信号のパル
スと雑音成分のゲインを制御することにより、高い音声
品質を有する音声符号化装置を提供することである。

【００１０】

【課題を解決するための手段】本発明は、上記目的を達
成するために、音声符号化装置を、一定区間の入力音声
の聴覚重み付けを行ない、重み付き入力音声を生成する
聴覚重み付けフィルタと、過去の駆動音源を蓄える適応
コードブックと、ピッチ周期間隔で単一インパルスを持
つパルス列で構成されるパルス音源を生成するパルス音
源生成器と、複数の雑音音源を予め格納する確率的コー
ドブックと、前記パルス音源生成器または確率的コード
ブックから生成された音源のいずれかを選択する音源切
り替え器と、前記パルス音源生成器または確率的コード
ブックのいずれかから選択された音源と適応コードブッ
クの出力とから駆動音源を生成する駆動音源生成器と、
前記駆動音源生成器から生成した駆動音源を入力として
音声を合成する重み付き合成フィルタと、前記重み付き
入力音声に対する重み付き合成音声の誤差の二乗和を計
算し、それを最小とする長期予測遅延の符号と、その長
期予測のゲイン、前記計算の結果、パルス音源又は雑音
音源のどちらかの歪み小さい方の音源が選択され、パル
ス音源が選択された場合にはこの選択されたときのパル
ス位置の符号、およびパルス音源の最適ゲイン、また、
雑音音源が選択された場合にはこの選択されたときの確
率的コードブックの符号、および雑音音源の最適ゲイ
ン、を出力する歪最小化器と、により構成したことを要
旨とするものである。これにより、低ビットレートで
も、パルス性のピッチ周期音源を持つ有声音での音声品
質の劣化を抑えることができる。

【００１１】また本発明の他の目的を達成するために、
適応コードブックの代わりに、長期予測信号のパルス成
分を生成する適応コードブックパルス成分格納器と、雑
音成分を生成する適応コードブック雑音成分格納器と、
長期予測のパルス成分および雑音成分のゲインを制御す
るパルス・雑音成分ゲイン制御器とを備え、長期予測信
号のパルスおよび雑音成分のゲインを制御することによ
り高い音声品質を実現するようにしたものである。

【００１２】

【作用】したがって、本発明によれば、パルス音源生成
器の出力であるパルス音源と確率的コードブックから生
成される雑音音源のいずれか最適な音源を音源切り替え
器により選択することにより、低ビットレートでも、パ
ルス性のピッチ周期音源を持つ有声音でパルス成分を生
成することができ、音声品質の劣化を抑えた符号化が行
なえるという効果を有する。

【００１３】また本発明によれば、長期予測器に設けら
れたパルス・雑音成分ゲイン制御器により、長期予測信
号のパルスおよび雑音成分のゲインを最適に制御するこ
とにより、高い音声品質を有する音声符号化が行なえる
という効果を有する。

【００１４】

【実施例】図１は本発明の第１の実施例の構成を示すも
のである。図１において、１１は入力音声の聴覚重み付
けを行なう聴覚重み付けフィルタ、１２は過去の駆動音
源を蓄える適応コードブック、１３はパルス音源を生成
するパルス音源生成器、１４は複数の雑音音源を保持し
ている確率的コードブック、１５はパルス音源生成器１
３または確率的コードブック１４から生成された音源の
いずれかを選択する音源切り替え器、１６はパルス音源
生成器１３または確率的コードブック１４のいずれかか
ら選択された音源と適応コードブック１２の出力とから
駆動音源を生成する駆動音源生成器、１７は駆動音源か
ら重み付き合成音声を生成する重み付き合成フィルタ、
１８は重み付き入力音声と重み付き合成音声との歪を計
算し、その歪が最小となるような長期予測遅延とパルス
位置または確率的コードブック符号およびこれらのゲイ
ンの量子化符号を出力する歪最小化器である。

【００１５】次に上記第１の実施例の動作について説明
する。まず、聴覚重み付けフィルタ１１で重み付き入力
音声ｖ［ｎ］を求め、以後これに最も近い重み付き合成
音声を生成する駆動音源ｅ［ｎ］を符号化する。ここ
で、駆動音源生成器１６で生成される駆動音源ｅ［ｎ］
は、適応コードブック１２の出力の長期予測信号ａ［ｎ
−Ｌ］、パルス音源生成器１３で生成されたパルス音源
ｐ_Ｍ［ｎ］または確率的コードブック１４から雑音音源
ｃ_Ｉ［ｎ］からなり、以下の式で表わされる。ｅ［ｎ］＝β・ａ［ｎ−Ｌ］＋γ_ｐ・ｐ_Ｍ［ｎ］・・・・（２）または、ｅ［ｎ］＝β・ａ［ｎ−Ｌ］＋γ_Ｎ・ｃ_Ｉ［ｎ］・・・・（３）ここで、ｐ_Ｍ［ｎ］は位置Ｍからピッチ周期間隔で単一
インパルスを持つパルス列、β、γ_Ｐ、γ_Ｎはそれぞれ
長期予測、パルス、白色雑音成分のゲインである。ここ
で、上記ピッチ周期として、予め一定区間の入力音声ま
たはその残差信号から求めたピッチ周期を使用するか、
または、後に説明する長期予測信号決定後の長期予測遅
延を用いても良い。

【００１６】上記式（２）おび（３）は、いずれも２つ
の成分を同時に決定することは困難であり、まず、適応
コードブック１２の長期予測信号をその聴覚重み付き合
成音声の歪最小化により決定し、過去の駆動信号のどの
部分を用いるかを示す長期予測遅延Ｌと最適ゲインβを
出力する。次に、長期予測信号決定後の歪に対して、式
（２）および（３）のそれぞれに対応して、パルス音源
または雑音音源により歪最小化を行ない、歪の小さい方
の音源をその符号化区間で音源として選択し、それがパ
ルス音源であればパルス位置Ｍと最適ゲインγ_Pの量子
化符号、雑音音源であれば選ばれた雑音ベクトルの番号
Ｉと最適ゲインγ_Nの量子化符号を、その音源選択情報
（パルス音源／雑音音源のいずれが選択されたか）と共
に、出力する。

【００１７】このように上記第１の実施例によれば、長
期予測信号決定後の歪に対して、パルス音源または雑音
音源のいずれか歪の小さい音源を選択することにより、
パルス性のピッチ周期音源を持つ有声音でパルス成分を
生成することができ、低ビットレートでも音声品質の劣
化を抑えた符号化が行なえる効果を有する。

【００１８】図２は本発明の第２の実施例の構成を示す
ものである。図２において、２１は適応コードブックの
パルス成分を持つ適応コードブックパルス成分格納器、
２２は適応コードブックの雑音成分を持つ適応コードブ
ック雑音成分格納器、２３は長期予測信号のパルスおよ
び雑音成分のゲインを制御するパルス・雑音成分ゲイン
制御器であり、他は第１の実施例と同じ構成である。す
なわち、２４はパルス音源を生成するパルス音源生成
器、２５は複数の雑音音源を保持している確率的コード
ブック、２６はパルス音源生成器２４または確率的コー
ドブック２５から生成された音源のいずれかを選択する
音源切り替え器、２７はパルス音源生成器２４または確
率的コードブック２５のいずれかから選択された音源と
パルス・雑音成分ゲイン制御器２３の出力とから駆動音
源を生成する駆動音源生成器、２８は駆動音源から重み
付き合成音声を生成する重み付き合成フィルタ、２９は
重み付き入力音声と重み付き合成音声との歪を計算し、
その歪が最小となるような長期予測遅延とパルス位置ま
たは確率的コードブック符号およびこれらのゲインの量
子化符号を出力する歪最小化器、３０は入力音声の聴覚
重み付けを行なう聴覚重み付けフィルタである。

【００１９】次に上記第２の実施例の動作について説明
する。第１の実施例と同様に重み付き入力音声に最も近
い重み付き合成音声を生成する駆動音源ｅ［ｎ］を符号
化するため、まず長期予測信号の歪最小化を行なう。そ
の際、第２の実施例では、長期予測信号ａ_S［ｎ］をパ
ルス成分ａ_P［ｎ−Ｌ］と雑音成分ａ_N［ｎ−Ｌ］の和
で以下の式で表現し、長期予測遅延Ｌおよびそれぞれの
成分のゲインβ_P、β _Nを決定する。ａ_S［ｎ］＝β_P・ａ_P［ｎ−Ｌ］＋β_N・ａ_N［ｎ−Ｌ］・・・（４）

【００２０】長期予測遅延Ｌおよびそれぞれの成分のゲ
インβ_P、β_Nの決定法の一例として、まずβ_P＝β_N
として長期予測遅延Ｌを求め、そのＬに対して、以下の
式（５）で示される入力音声との重み付き二乗誤差Ｅを
最小にするような、最適なパルス成分ゲインβ_Pおよび
雑音成分ゲインβ_Nを決定する。Ｅ＝Σ｛ｐ［ｎ］−β_P・ｂ_P［ｎ］−β_N・ｂ_N［ｎ］｝² →Ｍｉｎ・・・（５）ｐ［ｎ］：聴覚重み付き入力音声ｂ_P［ｎ］：適応コードブックパルス成分出力の聴覚重
み付き合成音声 β_P：パルス成分ゲインｂ_N［ｎ］：適応コードブック雑音成分出力の重み付き
合成音声 β_N：雑音成分ゲイン

【００２１】上記式においてＥが最小になるように
β_P、β_Nについて解くことにより、最適なβ_P、β_N
が以下のように求められる。

【００２２】

【数１】

【００２３】なお、適応コードブックの長期予測成分の
歪最小化後は、第１の実施例と同様に長期予測成分決定
後の歪に対して、パルス音源または雑音音源のいずれか
歪の小さい音源を選択する。また、適応コードブックの
更新は、パルス成分および雑音成分のそれぞれを別々に
行ない、選択された音源がパルス音源であれば、適応コ
ードブックのパルス成分の更新に使用し、雑音音源であ
れば雑音成分の更新に使用する。

【００２４】このように上記第２の実施例によれば、適
応コードブックをパルス成分と雑音成分とに分離して格
納することにより、長期予測信号のパルス成分と雑音成
分のゲインを最適に制御することができ、これにより高
い音声品質を有する音声符号化が行なえるという効果を
有する。

【００２５】

【発明の効果】本発明は、上記実施例から明らかなよう
に、長期予測成分決定後の歪に対して、パルス成分また
白色雑音成分のいずれか歪の小さい音源を選択すること
により、パルス性のピッチ周期音源を持つ有声音でパル
ス成分を生成することができ、低ビットレートでも音声
品質の劣化を抑えた符号化が行なえるという効果を有す
る。

【００２６】また本発明によれば、適応コードブックを
パルス成分と雑音成分とに分離して格納することによ
り、長期予測信号のパルス成分と雑音成分のゲインを最
適に制御することができ、これにより高い音声品質を有
する音声符号化が行なえるという効果を有する。

【図面の簡単な説明】

【図１】本発明の第１の実施例における音声符号化装置
の概略ブロック図

【図２】本発明の第２の実施例における音声符号化装置
の概略ブロック図

【図３】従来のＣＥＬＰ音声符号化装置の概略ブロック
図

【符号の説明】

１１聴覚重み付けフィルタ１２適応コードブック１３パルス音源生成器１４確率的コードブック１５音源切り替え器１６駆動音源生成器１７重み付き合成フィルタ１８歪最小化器２１適応コードブックパルス成分格納器２２適応コードブック雑音成分格納器２３パルス・雑音成分ゲイン制御器２４パルス音源生成器２５確率的コードブック２６音源切り替え器２７駆動音源生成器２８重み付き合成フィルタ２９歪最小化器３０聴覚重み付けフィルタ

フロントページの続き (56)参考文献特開昭64−54497（ＪＰ，Ａ) 特開平３−33900（ＪＰ，Ａ) 特開平３−123400（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】一定区間の入力音声の聴覚重み付けを行
ない、重み付き入力音声を生成する聴覚重み付けフィル
タと、過去の駆動音源を蓄える適応コードブックと、ピッチ周期間隔で単一インパルスを持つパルス列で構成
されるパルス音源を生成するパルス音源生成器と、複数の雑音音源を予め格納する確率的コードブックと、前記パルス音源生成器または確率的コードブックから生
成された音源のいずれかを選択する音源切り替え器と、前記パルス音源生成器または確率的コードブックのいず
れかから選択された音源と適応コードブックの出力とか
ら駆動音源を生成する駆動音源生成器と、前記駆動音源生成器から生成した駆動音源を入力として
音声を合成する重み付き合成フィルタと、前記重み付き入力音声に対する重み付き合成音声の誤差
の二乗和を計算し、それを最小とする長期予測遅延の符号と、その長期予測
のゲイン、前記計算の結果、パルス音源又は雑音音源のどちらかの
歪み小さい方の音源が選択され、パルス音源が選択された場合にはこの選択されたときの
パルス位置の符号、およびパルス音源の最適ゲイン、また、雑音音源が選択された場合にはこの選択されたと
きの確率的コードブックの符号、および雑音音源の最適
ゲイン、を出力する歪最小化器と、を有する音声符号化装置。
【請求項２】適応コードブックの代わりに、長期予測
信号のパルス成分を格納する適応コードブックパルス成
分格納器と、雑音成分を格納する適応コードブック雑音
生成格納器と、長期予測信号のパルス成分および雑音成
分のゲインを制御するパルス・雑音生成ゲイン制御器と
を有し、長期予測信号のパルス成分と雑音成分のゲイン
を独立に制御できることを特徴とする請求項１記載の音
声符号化装置。
【請求項３】パルス・雑音成分ゲイン制御器が、長期
予測信号のパルス成分と雑音成分のゲインを、聴覚重み
付き入力音声に対する聴覚重み付き合成音声の二乗誤差
を最小にするように決定することを特徴とする請求項２
記載の音声符号化装置。