JP4373693B2 - Hierarchical encoding method and hierarchical decoding method for acoustic signals - Google Patents

Hierarchical encoding method and hierarchical decoding method for acoustic signals Download PDF

Info

Publication number
JP4373693B2
JP4373693B2 JP2003092581A JP2003092581A JP4373693B2 JP 4373693 B2 JP4373693 B2 JP 4373693B2 JP 2003092581 A JP2003092581 A JP 2003092581A JP 2003092581 A JP2003092581 A JP 2003092581A JP 4373693 B2 JP4373693 B2 JP 4373693B2
Authority
JP
Japan
Prior art keywords
signal
decoding
encoding
layer
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003092581A
Other languages
Japanese (ja)
Other versions
JP2004301954A (en
Inventor
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2003092581A priority Critical patent/JP4373693B2/en
Publication of JP2004301954A publication Critical patent/JP2004301954A/en
Application granted granted Critical
Publication of JP4373693B2 publication Critical patent/JP4373693B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To perform encoding of high quality at a low bit rate. <P>SOLUTION: A subtracter 110 calculates the difference between the output signal of a delay unit 109 and a 2nd layer decoded signal to generate a 3rd layer residue signal. A 3rd layer encoding part 111 encodes the 3rd layer residue signal so that auditory quality is improved, and determines a 3rd encoded code. A 3rd layer decoding part 112 performs decoding processing by using the 3rd encoded code to generate a 3rd layer decoding residue signal. A predictive filter 116 predictively filters the 3rd layer decoded signal to generate a predictive residue signal. A 1st layer encoding part 102 uses the predictive residue signal as the internal state of an adaptive code book present in the 1st layer encoding part 102. <P>COPYRIGHT: (C)2005,JPO&amp;NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、音響信号の階層符号化方法および階層復号化方法に関し、特に楽音信号または音声信号などの音響信号を高能率に圧縮符号化に用いて好適な音響信号の階層符号化方法および階層復号化方法に関する。
【0002】
【従来の技術】
楽音信号または音声信号を低ビットレートで圧縮する音響符号化技術は、移動体通信における電波等の伝送路容量及び記録媒体の有効利用のために重要である。音声信号を符号化する音声符号化に、ITU(International Telecommunication Union)で規格化されているG726、G729などの方式が存在する。これらの方式は、狭帯域信号(300Hz〜3.4kHz)を対象とし、8kbit/s〜32kbit/sで高品質に符号化が行える。また、広帯域信号(50Hz〜7kHz)を対象とする標準方式としてITUのG722、G722.1や、3GPP(The 3rd Generation Partnership Project)のAMR-WBなどが存在する。これらの方式は、ビットレートが6.6kbit/s〜64kbit/sで広帯域音声信号を高品質に符号化できる。
【0003】
音声信号を低ビットレートで高能率に符号化を行う有効な方法に、CELP(Code Excited Linear Prediction)がある。CELPは、人間の音声生成モデルを工学的に模擬したモデルに基づき、乱数やパルス列で表される励振信号を周期性の強さに対応するピッチフィルタと声道特性に対応する合成フィルタに通し、その出力信号と入力信号の二乗誤差が聴覚特性の重み付けの下で最小になるよう符号化コードを決定する方法である(例えば、非特許文献1参照)。最近の標準音声符号化方式の多くがCELPに基づいており、例えばG729は8kbit/sで狭帯域信号の符号化が行え、AMR-WBは6.6kbit/s〜23.85kbit/sで広帯域信号を符号化できる。
【0004】
一方で、楽音信号を符号化する楽音符号化の場合は、MPEG(Moving Picture Expert Group)で規格化されているレイヤIII方式やAAC方式のように、楽音信号を周波数領域に変換し、聴覚心理モデルを利用して符号化を行う変換符号化が一般的である。これらの方式は、サンプリング周波数が44.1kHzの信号に対しチャネル当たり64kbit/s〜96kbit/sで聴感的な劣化がほとんど生じないことが知られている。
【0005】
しかしながら、音声信号が主体で、背景に音楽や環境音が重畳している信号を符号化する場合、音声符号化方式を適用すると背景部の音楽や環境音の影響で、背景部の信号のみならず音声信号も劣化してしまい全体的な品質が低下するという問題があった。これは、音声符号化方式が、CELPという音声モデルに特化した方式を基本にしているために生じる問題である。また、音声符号化方式が対応できる信号帯域は高々7kHzまでであり、それ以上の高域を持つ信号に対しては構成上十分に対応しきれないという問題があった。
【0006】
一方で、楽音符号化は音楽に対して高品質に符号化を行えるので、前述したような背景に音楽や環境音がある音声信号についても十分な品質を得ることができる。対象となる信号の帯域もCD品質である22kHz程度まで対応可能である。その反面、高品質な符号化を実現するためにはビットレートを高くして使用する必要があり、仮にビットレートを32kbit/s程度まで低く抑えると復号信号の品質が大きく低下するという問題がある。そのため、伝送レートの低い通信網で使用できないという問題があった。
【0007】
上述した問題を回避するためにこれら技術を組み合わせて、最初に入力信号を第1レイヤにてCELPで符号化し、次にその復号信号を入力信号から減算して得られる残差信号を求め、この信号を第2レイヤ以降にて変換符号化を行う方法が考えられる。この方法では、第1レイヤはCELPを用いているため音声信号を高品質に符号化でき、かつ第2レイヤ以降では第1レイヤで表しきれない背景の音楽や環境音、第1レイヤでカバーする周波数帯よりも高い周波数成分の信号を効率よく符号化することができる。
【0008】
しかしながら、音声ではなく音楽を入力したときに十分な品質を確保するためには、第2レイヤ以降へのビット配分を多くする必要があり、その結果ビットレートが高くなってしまうという問題がある。これは第1レイヤにCELPのような音声に特化した符号化方式を適用しているために生じる問題である。つまり、音楽信号が入力されたとき、第1レイヤで用いられるCELPでは音楽に対する符号化効率が高くないので、入力信号と第1レイヤの復号信号との誤差信号(つまり第2レイヤの入力信号)のパワーが大きくなる。この結果、第2レイヤ以降のレイヤに多くのビットを配分して、最終的な復号信号の品質を上げる必要があった。
【0009】
【非特許文献1】
"Code-Excited Linear Prediction (CELP): high quality speech at very low bit rates", Proc. ICASSP 85, pp.937-940, 1985.
【0010】
【発明が解決しようとする課題】
このように、従来の装置においては、低ビットレートで高品質な符号化を行うことが難しいという問題がある。
【0011】
本発明はかかる点に鑑みてなされたものであり、低ビットレートで高品質な符号化を行うことができる音響信号の階層符号化方法および階層復号化方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明の第1の態様に係る階層符号化方法は、入力音声信号を符号化し、前段で符号化した信号を復号し、この復号信号と入力信号との差分を符号化する階層符号化方法であって、所定の長さのフレーム単位で入力音響信号を符号化する第1符号化工程と、前段の符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する第2符号化工程と、前記第2符号化工程の符号化結果を復号化した信号から予測残差信号を生成する予測フィルタ工程と、前記予測フィルタ工程の予測に基づいて符号化に用いる符号帳を更新する更新工程と具備するようにした。
【0013】
本発明の第2の態様に係る階層符号化方法は、前記第1符号化工程は、入力音響信号をCELP方式で符号化し、前記予測フィルタ工程は、量子化後のLPC係数を用いて予測フィルタを生成し、前記更新工程は、前記第2符号化手段の符号化結果を復号化した信号を前記予測フィルタに通した結果を用いて符号帳を更新するようにした。
【0014】
これらの方法によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから上位レイヤの符号化で発生する予測残差信号を生成し、この予測残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で符号化することができ、低ビットレートで高品質な符号化を行うことができる。
【0015】
本発明の第3の態様に係る階層符号化方法は、入力音響信号をダウンサンプリングするダウンサンプリング工程と、前段の符号化結果を復号化した信号をアップサンプリングするアップサンプリング工程とを具備し、前記第2符号化工程は、アップサンプリング後の前段の符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化するようにした。
【0016】
この方法によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0017】
本発明の第4の態様に係る階層符号化方法は、入力音響信号の周期性を測定する周期性算出工程を具備し、前記更新工程は、前記周期性が所定のしきい値以上である場合に前記予測フィルタ工程の予測で得られる予測残差信号を用いて符号帳を更新し、前記周期性が所定のしきい値未満である場合に生成した駆動音源信号とのいずれかを用いて符号帳を更新するようにした。
【0018】
この方法によれば、入力音響信号の周期性が強い場合には、高位レイヤの復号信号から求められる予測残差信号を使って適応符号帳の内部状態を更新することにより適応符号帳による予測精度が増し性能が向上する。また、本実施の形態の階層符号化装置によれば、入力音響信号の周期性が強くない場合には駆動音源信号を使って適応符号帳の内部状態を更新することにより、非周期的な信号に対する効果を上げることができる。
【0019】
本発明の第5の態様に係る階層符号化方法は、予測残差信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪と、駆動音源信号を用いて符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪のいずれが小さいかを判定する判定工程を具備し、前記更新工程は、前記歪みが小さい信号を用いて符号帳を更新するようにした。
【0020】
この方法によれば、予測残差信号もしくは駆動音源信号のいずれを用いて適応符号帳の内部状態を更新するかを判定する際に、予測残差信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪と、駆動音源信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪を算出して比較し、歪が小さくなる信号を用いて適応符号帳の内部状態を更新することにより、歪の小さくなる信号を常に使って適応符号帳の内部状態を更新することになるので、品質を向上することができる。
【0021】
本発明の第6の態様に係る階層復号化方法は、符号側で入力音声信号を符号化し、前段で符号化した信号を復号し、この復号信号と入力信号との差分を符号化した信号を復号する階層復号化方法であって、所定の長さのフレーム単位で入力音響信号を符号化した信号を復号する第1復号化工程と、前段の符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化した信号をそれぞれ復号して加算する第2復号化工程と、前記第1復号化工程と前記第2復号化工程の復号結果から予測残差信号を生成する予測フィルタ工程と、前記予測フィルタ工程の予測に基づいて復号化に用いる符号帳を更新する更新工程と、を具備するようにした。
【0022】
本発明の第7の態様に係る階層復号化方法は、前記第1復号化工程は、入力音響信号を符号化した信号をCELP方式で復号し、前記予測フィルタ工程は、符号化側で符号化されたLPC係数を復号して得られるLPC係数を用いて予測フィルタを生成し、前記更新工程は、前記第1復号化工程と前記第2復号化工程の復号結果を前記予測フィルタに通した結果を用いて符号帳を更新するようにした。
【0023】
これらの方法によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化方法の復号において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから上位レイヤの符号化で発生する残差信号を予測し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で復号することができ、低ビットレートで高品質な信号を復号できる。
【0024】
本発明の第8の態様に係る階層復号化方法は、前段の復号化結果をアップサンプリングするアップサンプリング工程と、アップサンプリングした復号結果と後段の復号結果を加算する加算工程と、前記加算結果をダウンサンプリングするダウンサンプリング工程と、を具備し、前記予測フィルタ工程は、ダウンサンプリング後の復号結果から予測残差信号を生成するようにした。
【0025】
この方法によれば、下位レイヤで復号する信号のサンプリング周波数を上位レイヤで復号する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて信号を符号化した信号を復号することができる。
【0026】
本発明の第9の態様に係る階層復号化方法は、前記更新工程は、符号化側において前記予測フィルタ工程の予測で得られる予測残差信号と生成した駆動音源信号とのいずれかを用いて適応符号帳を更新するか判定した結果に基づいて符号帳を更新するようにした。
【0027】
本発明の第10の態様に係る階層符号化装置は、入力音声信号を符号化し、前段で符号化した信号を復号し、この復号信号と入力信号との差分を符号化する階層符号化装置であって、所定の長さのフレーム単位で入力音響信号を符号化する第1符号化手段と、前段の符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する第2符号化手段と、前記第2符号化手段の符号化結果を復号化した信号から予測残差信号を生成する予測フィルタ手段と、を具備し、前記第1符号化手段は、前記予測フィルタ手段の予測に基づいて符号化に用いる符号帳を更新するようにした。
【0028】
この構成によれば、符号側において入力音響信号の周期性の強さ等に基づいて、予測残差信号もしくは駆動音源信号のいずれを用いて適応符号帳の内部状態を更新するかを判定した結果に基づいて、符号化された音響信号の周期性が強い場合には、高位レイヤの復号信号から求められる予測残差信号を使って適応符号帳の内部状態を更新することにより、階層符号化法の符号化コードを復号することができ、その結果高品質な音響信号を復号することができる。
【0029】
本発明の第11の態様に係る階層符号化装置は、前記第1符号化手段は、入力音響信号をCELP方式で符号化する手段であって、過去に生成した駆動音源信号を保持する符号帳と、入力音響信号からLPC係数を求めるLPC分析手段と、入力音声信号と差が最も小さい駆動音源信号を探索する探索手段と、を具備し、前記予測フィルタ手段は、量子化後のLPC係数を用いて予測フィルタを生成し、前記第1符号化手段は、前記第2符号化手段の符号化結果を復号化した信号を前記予測フィルタに通した結果を用いて符号帳を更新する構成を採る。
【0030】
この構成によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから予測残差信号を生成し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で符号化することができ、低ビットレートで高品質な符号化を行うことができる。
【0031】
本発明の第12の態様に係る階層符号化装置は、入力音響信号をダウンサンプリングして前記第1符号化手段または前記第2符号化手段に出力するダウンサンプリング手段と、前段の符号化結果を復号化した信号をアップサンプリングするアップサンプリング手段とを具備し、前記第2符号化手段は、アップサンプリング後の前段の符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化する構成を採る。
【0032】
この構成によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0033】
本発明の第13の態様に係る階層符号化装置は、前記第1符号化手段は、前記予測フィルタ手段の予測で得られる予測残差信号と生成した駆動音源信号とのいずれかを用いて適応符号帳を更新するか判定する判定手段を具備する構成を採る。
【0034】
本発明の第14の態様に係る階層符号化装置は、前記第1符号化手段は、入力音響信号の周期性を測定する周期性算出手段を具備し、前記判定手段は、前記周期性が所定のしきい値以上である場合に前記予測フィルタ手段の予測で得られる予測残差信号を用いて符号帳を更新し、前記周期性が所定のしきい値未満である場合に生成した駆動音源信号とを用いて符号帳を更新する判定をする構成を採る。
【0035】
これらの構成によれば、入力音響信号の周期性が強い場合には、高位レイヤの復号信号から求められる予測残差信号を使って適応符号帳の内部状態を更新することにより適応符号帳による予測精度が増し性能が向上する。また、本実施の形態の階層符号化装置によれば、入力音響信号の周期性が強くない場合には駆動音源信号を使って適応符号帳の内部状態を更新することにより、非周期的な信号に対する効果を上げることができる。
【0036】
本発明の第15の態様に係る階層符号化装置は、前記判定手段は、予測残差信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪と、駆動音源信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪のいずれが小さいかを判定し、前記第1符号化手段は、前記歪みが小さい信号を用いて符号帳を更新する判定をする構成を採る。
【0037】
この構成によれば、予測残差信号もしくは駆動音源信号のいずれを用いて適応符号帳の内部状態を更新するかを判定する際に、予測残差信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪と、駆動音源信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪を算出して比較し、歪が小さくなる信号を用いて適応符号帳の内部状態を更新することにより、歪の小さくなる信号を常に使って適応符号帳の内部状態を更新することになるので、品質を向上することができる。
【0038】
本発明の第16の態様に係る階層復号化装置は、符号側で入力音声信号を符号化し、前段で符号化した信号を復号し、この復号信号と入力信号との差分を符号化した信号を復号する階層復号化装置であって、所定の長さのフレーム単位で入力音響信号を符号化した信号を復号する第1復号化手段と、前段の符号化結果を復号化した信号と入力音響信号との差分を1段または複数段で符号化した信号をそれぞれ復号して加算する第2復号化手段と、前記第1復号化手段と前記第2復号化手段の復号結果から予測残差信号を生成する予測フィルタ手段と、を具備し、前記復号化手段は、前記予測フィルタ手段の予測に基づいて復号化に用いる符号帳を更新する構成を採る。
【0039】
本発明の第17の態様に係る階層復号化装置は、前記第1復号化手段は、入力音響信号を符号化した信号をCELP方式で復号する手段であって、前記予測フィルタ手段は、符号化側で符号化されたLPC係数を復号して得られるLPC係数を用いて予測フィルタを生成し、前記第1復号化手段は、前記第1復号化手段と前記第2復号化手段の復号結果を前記予測フィルタに通した結果を用いて符号帳を更新する構成を採る。
【0040】
これらの構成によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化方法の復号において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから予測残差信号を生成し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で復号することができ、低ビットレートで高品質な信号を復号できる。
【0041】
本発明の第18の態様に係る階層復号化装置は、前段の復号化結果をアップサンプリングするアップサンプリング手段と、アップサンプリングした復号結果と後段の復号結果を加算する加算手段と、前記加算手段の加算結果をダウンサンプリングするダウンサンプリング手段と、を具備し、前記フィルタ手段は、ダウンサンプリング後の復号結果から予測残差信号を生成する構成を採る。
【0042】
この構成によれば、下位レイヤで復号する信号のサンプリング周波数を上位レイヤで復号する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて信号を符号化した信号を復号することができる。
【0043】
本発明の第19の態様に係る階層復号化装置は、前記第1復号化手段は、符号化側において前記予測フィルタ手段の予測で得られる予測残差信号と生成した駆動音源信号とのいずれかを用いて適応符号帳を更新するか判定した結果に基づいて符号帳を更新する構成を採る。
【0044】
この構成によれば、符号側において入力音響信号の周期性の強さ等に基づいて、予測残差信号もしくは駆動音源信号のいずれを用いて適応符号帳の内部状態を更新するかを判定した結果に基づいて、符号化された音響信号の周期性が強い場合には、高位レイヤの復号信号から求められる予測残差信号を使って適応符号帳の内部状態を更新することにより、階層符号化法の符号化コードを復号することができ、その結果高品質な音響信号を復号することができる。
【0045】
本発明の第20の態様に係る音響信号送信装置は、音響信号を電気的信号に変換する音響入力手段と、この音響入力手段から出力された信号をディジタル信号に変換するA/D変換手段と、このA/D変換手段から出力されたディジタル信号を符号化する上記階層符号化装置と、この符号化装置から出力された符号化コードを無線周波数の信号に変調するRF変調手段と、このRF変調手段から出力された信号を電波に変換して送信する送信アンテナと、を具備する構成を採る。
【0046】
この構成によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから予測残差信号を生成し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で符号化することができ、低ビットレートで高品質な符号化を行うことができる。
【0047】
本発明の第21の態様に係る音響信号受信装置は、電波を受信する受信アンテナと、この受信アンテナに受信された信号を復調するRF復調手段と、このRF復調手段にて得られた情報を復号する上記階層復号化装置と、この復号化装置から出力された信号をアナログ信号に変換するD/A変換手段と、このD/A変換手段から出力された電気的信号を音響信号に変換する音響出力手段と、を具備する構成を採る。
【0048】
この構成によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化方法の復号において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから予測残差信号を生成し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で復号することができ、低ビットレートで高品質な信号を復号できる。
【0049】
本発明の第22の態様に係る通信端末装置は、上記音響信号送信装置あるいは上記音響信号受信装置の少なくとも一方を具備する構成を採る。本発明の第23の態様に係る基地局装置は、上記音響信号送信装置あるいは上記音響信号受信装置の少なくとも一方を具備する構成を採る。
【0050】
これらの構成によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから予測残差信号を生成し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で符号化することができ、低ビットレートで高品質な符号化を行うことができる。
【0051】
【発明の実施の形態】
本発明の骨子は、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから予測残差信号を生成し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で符号化して低ビットレートで高品質な符号化を行うことである。
【0052】
以下、本発明の実施の形態について図面を参照して詳細に説明する。以降の実施の形態の説明ではレイヤ数Nを3にした場合について説明するが、本発明はこの数値に限定されるものではなく、N≧2の条件を満たす構成に適用することが可能である。
【0053】
(実施の形態1)
図1は、本発明の実施の形態1に係る階層符号化装置の構成を示すブロック図である。図1の階層符号化装置100は、入力端子101と、第1レイヤ符号化部102と、第1レイヤ復号化部103と、遅延器104と、減算器105と、第2レイヤ符号化部106と、第2レイヤ復号化部107と、加算器108と、遅延器109と、減算器110と、第3レイヤ符号化部111と、第3レイヤ復号化部112と、加算器113と、多重化部114と、出力端子115と、予測フィルタ116とから主に構成される。
【0054】
本実施の形態では、各レイヤに入力される信号のサンプリング周波数は全て同じであるとし、サンプリング周波数をFsと表すものとする。入力端子101から、サンプリング周波数Fsの音響信号が入力され、第1レイヤ符号化部102に与えられる。
【0055】
第1レイヤ符号化部102は、過去に生成した駆動音源信号を内部状態として保持している適応符号帳を有し、適応符号帳を用いることで周期性の強い信号を効率的に符号化することができる。第1レイヤ符号化部102は、入力音響信号と符号化後に生成される復号信号との間の聴感的な歪が最小となるように第1符号化コードを決定する。第1レイヤ符号化部102に適用される代表的な方法として符号励線形予測法(CELP)があるが、この詳細な説明は後述する。
【0056】
そして、第1レイヤ符号化部102は、得られた第1符号化コードを第1レイヤ復号化部103及び多重化部114に出力する。第1レイヤ復号化部103は、第1符号化コードを用いて第1レイヤ復号信号を生成し、この第1レイヤ復号信号を減算器105及び加算器108に出力する。
【0057】
遅延器104は、入力端子101から入力される音響信号を所定の時間長だけ遅延して減算器105に出力する。すなわち、遅延器104は、第1レイヤ符号化部102と第1レイヤ復号化部103で生じる遅延を補正する役割を持つ。
【0058】
減算器105は、遅延器104の出力信号と前述の第1レイヤ復号信号との差をとり第2レイヤ残差信号を生成する。そして、減算器105は、第2レイヤ残差信号を第2レイヤ符号化部106に出力する。
【0059】
第2レイヤ符号化部106は、第2レイヤ残差信号を聴感的に品質改善が成されるように符号化を行い、第2符号化コードを決定する。そして、第2レイヤ符号化部106は、第2レイヤ復号化部107と第2符号化コードを多重化部114に出力する。
【0060】
同様に第2レイヤ復号化部107に第2符号化コードを与え、第2レイヤ復号化部107は、第2符号化コードを用いて復号処理を行い、第2レイヤ復号残差信号を生成し、この第2レイヤ復号残差信号を加算器108に出力する。
【0061】
加算器108は、第1レイヤ復号信号と第2レイヤ復号残差信号の和をとり、第2レイヤ復号信号を生成する。そして、加算器108は、この第2レイヤ復号信号を減算器110と加算器113に出力する。
【0062】
次に、遅延器109は、入力端子101から入力される音響信号を所定の時間長だけ遅延した後、この音響信号を減算器110に出力する。すなわち、遅延器109は、前段までの符号化部と復号化部で生じる遅延、具体的には第1レイヤ符号化部102と第1レイヤ復号化部103および第2レイヤ符号化部106と第2レイヤ復号化部107で生じる遅延を補正する役割を持つ。
【0063】
減算器110は、遅延器109の出力信号と前述の第2レイヤ復号信号との差をとり第3レイヤ残差信号を生成する。そして、減算器110は、この第3レイヤ残差信号を第3レイヤ符号化部111に出力する。
【0064】
第3レイヤ符号化部111は、第3レイヤ残差信号を聴感的に品質改善が成されるように符号化して第3符号化コードを決定し、この第3符号化コードを第3レイヤ復号化部112と多重化部114に出力する。
【0065】
第3レイヤ復号化部112は、第3符号化コードを用いて復号処理を行い、第3レイヤ復号残差信号を生成し、この第3レイヤ復号残差信号を加算器113に出力する。
【0066】
加算器113は、第2レイヤ復号信号と第3レイヤ復号残差信号の和をとり、第3レイヤ復号信号を生成し、この第3レイヤ復号信号を予測フィルタ116に出力する。
【0067】
多重化部114は、第1符号化コード、第2符号化コードおよび第3符号化コードを所定の手段によって多重化を行い、符号化ビット列を生成する。そして、多重化部114は、この符号化ビット列を出力端子115より出力する。
【0068】
加算器113で生成された第3レイヤ復号信号は予測フィルタ116に与えられる。
【0069】
予測フィルタ116は、第3レイヤ復号信号に予測フィルタをかけ、予測残差信号を生成し、この予測残差信号を第1レイヤ符号化部102に出力する。予測フィルタは、第1レイヤ符号化部102で算出された量子化後のLPC係数により構成される。第3レイヤ復号信号をsyn3(k)、予測残差信号をe(k)、量子化後のLPC係数をαq(i)とすると、予測残差信号e(k)は次の式(1)で表される。
【0070】
【数1】

Figure 0004373693
ここで、NPはLPC係数の次数を表す。
【0071】
第1レイヤ符号化部102は、上記説明で求めた予測残差信号を用いて、第1レイヤ符号化部102に内在する適応符号帳の内部状態として利用する。
【0072】
以下、第1レイヤ符号化部102の詳細について説明する。ここでは、第1レイヤ符号化部102にCELPを用いる場合を例にして説明するが、本発明の要件として第1レイヤ符号化部に過去の駆動音源信号を内部状態として保持している適応符号帳が存在する符号化方法であればよく、本発明はCELPに限定されるものではない。
【0073】
図2は、本実施の形態の階層符号化装置の第1レイヤ符号化部の内部構成を示すブロック図である。図2の第1レイヤ符号化部は、CELPの代表的な構成を基にしたときの構成図である。図2において破線枠で囲まれた部分が図1の第1レイヤ符号化部102に相当する。図2において、第1レイヤ符号化部102は、入力端子201と、LPC分析器202と、LPC量子化器203と、LPC復号器204と、聴感重みフィルタ205と、聴感重み付き合成フィルタ206と、適応符号帳207と、雑音符号帳208と、乗算器209と、乗算器210と、ゲイン符号帳211と、加算器212と、減算器213と、探索器214と、多重化部215と、出力端子216と、出力端子217と、入力端子218とから主に構成される。
【0074】
入力端子201には、図1の入力端子101から入力される音響信号が入力される。LPC分析器202は、入力端子201から入力されたサンプリングレートFsの音響信号からLPC係数を求める。このLPC係数は、聴感的な品質向上のために利用される。LPC分析器202は、このLPC係数をLPC量子化器203、聴感重みフィルタ205、及び聴感重み付き合成フィルタ206に出力する。
【0075】
LPC量子化器203は、LPC係数をLSP係数などの量子化に適したパラメータに変換し、量子化を行う。そして、LPC量子化器203は、この量子化で得られる符号化コードをLPC復号器204と多重化部215に出力する。
【0076】
LPC復号器204は、符号化コードから量子化後のLSP係数を算出し、LPC係数に変換して量子化後のLPC係数を求める。そして、LPC復号器204は、この量子化後のLPC係数を聴感重み付き合成フィルタ206と出力端子217に出力する。この量子化後のLPC係数は、適応符号帳、適応ゲイン、雑音符号帳および雑音ゲインの符号化に利用される。また、量子化後のLPC係数が出力端子217より出力され、前述したように図1の予測フィルタ116に与えられ、予測残差信号e(k)を求める際に利用される。
【0077】
聴感重みフィルタ205は、LPC分析器202で求められたLPC係数を基に入力信号に重み付けを行う。これは、量子化歪のスペクトルを入力信号のスペクトル包絡にマスクされるようスペクトル整形を行うことを目的として行われる。そして、聴感重みフィルタ205は、重み付けされた入力信号を減算器213に出力する。
【0078】
次に、適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの探索する構成の部分について説明する。
【0079】
適応符号帳207は、過去に生成した駆動音源信号を内部状態として保持し、この内部状態を所望のピッチ周期で繰り返すことにより適応ベクトルを生成する。ピッチ周期の取る範囲は、実際の音声のピッチ周期を勘案し60Hz〜400Hzの間が適当である。そして、適応符号帳207は、内部に保持した駆動音源信号を適応ベクトルとして順に乗算器209に出力する。
【0080】
乗算器209は、この適応ベクトルにゲイン符号帳211から出力される適応ベクトルゲインを乗算して加算器212に出力する。
【0081】
また、雑音符号帳208は、あらかじめ記憶領域に格納されている雑音ベクトル、もしくは代数(algebraic)構造のように記憶領域を持たずにルールに従い生成されるベクトルを雑音ベクトルとして出力する。
【0082】
乗算器210は、この雑音ベクトルにゲイン符号帳211から出力される雑音ベクトルゲインを乗算して加算器212に出力する。
【0083】
加算器212は、適応ベクトルゲインが乗じられた適応ベクトルと雑音ベクトルゲインが乗じられた雑音ベクトルとを加算して駆動音源信号を生成し、この駆動音源信号を聴感重み付き合成フィルタ206に出力する。
【0084】
聴感重み付き合成フィルタ206は、駆動音源信号を聴覚重み付き合成フィルタに通して聴覚重み付き合成信号を生成し、この聴覚重み付き合成信号を減算器213に出力する。
【0085】
減算器213は、聴覚重み付き入力信号から聴覚重み付き合成信号を減算し、減算後の信号を探索器214に出力する。
【0086】
探索器214は、減算後の信号から定義される歪が最小となる適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの組み合わせを効率よく探索し、これら検索された符号化コードを多重化部215に出力する。
【0087】
探索器214は、以下の式(2)または式(3)で定義される歪を最小とする符号化コードi,j,mもしくは符号化コードi,j,m,nを決定してそれらを多重化部215に送る。
【0088】
【数2】
Figure 0004373693
【数3】
Figure 0004373693
ここで、t(k)は聴覚重み付き入力信号、pi(k)は第i番目の適応ベクトルを聴覚重み付き合成フィルタに通して得られる信号、ej(k)は第j番目の雑音ベクトルを聴覚重み付き合成フィルタに通して得られる信号、βとγはそれぞれ適応ベクトルゲインと雑音ベクトルゲインを表す。式(2)と式(3)とではゲイン符号帳の構成が異なり、式2の場合、ゲイン符号帳は適応ベクトルゲインβmと雑音ベクトルゲインγmを要素として持つベクトルとして表されており、ベクトルを特定するための符号化コードmが決定されることになる。式3の場合、ゲイン符号帳は適応ベクトルゲインβmと雑音ベクトルゲインγnをそれぞれ独立に有しており、それぞれの符号化コードm,nが独立に決定されることになる。
【0089】
適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの最適化を同時に図ると演算量が膨大になるため対策が必要である。一般的には、適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの順に最適なベクトルまたは値を決定していく方法が採られる。
【0090】
そして、探索器214において符号化コードが決定された後に、多重化部215はこれらの符号化コードを一つにまとめて出力端子216より出力する。
【0091】
上記符号化処理が終了した後に、次のフレーム(もしくはサブフレーム)での符号化処理に備えて、適応符号帳の内部状態を更新する。
【0092】
予測フィルタ116は、加算器113より得られる第3レイヤ復号信号syn(n)と第1レイヤ符号化部102より得られる量子化後のLPC係数αq(i)を用いて、予測残差信号r(n)を出力する。この予測残差信号r(n)を用いて適応符号帳内の内部状態を更新することになる。予測フィルタ116は、量子化後のLPC係数αq(i)を用いて予測フィルタを構成し、この予測フィルタに第3レイヤ復号信号syn(n)を入力することにより予測残差信号r(n)を算出することになる。予測残差信号r(n)は次の式(4)に従い算出される。
【0093】
【数4】
Figure 0004373693
ここでNPはLPC係数の次数を表す。
【0094】
本発明の特徴はこの上記説明の部分にあり、従来の方法では加算器212で求められた駆動音源信号を用いて適応符号帳207の内部状態を更新していたが、本発明では入力端子218から入力される予測フィルタ116の出力信号を用いて適応符号帳の内部状態を更新する。本発明の効果の説明を、図3を用いて行う。
【0095】
図3は、入力音響信号とそれに対応する第1レイヤ復号信号、第2レイヤ復号信号、第3レイヤ復号信号の関係を示す図である。従来の方法では、第1レイヤ復号信号に対応する駆動音源信号を用いて適応符号帳を更新している。
【0096】
各レイヤの復号信号を比較すると、最も入力音響信号に近い信号は第3レイヤ復号信号であり、次いで第2レイヤ復号信号、第1レイヤ復号信号の順となる。これは、本実施の形態ではレイヤが増すごとに入力音響信号と復号信号の誤差が小さくなるように符号化されていくことによる。一方で、適応符号帳の内部状態が入力音響信号と類似な状態になっているほど適応符号帳の性能は高くなる。そのため、第3レイヤ復号信号を用いて適応符号帳の内部状態を更新すると、より効率的な符号化が実現できる。適応符号帳の内部状態は駆動音源信号にする必要があるため、実際上は、第3レイヤ復号信号から、LPC係数を使って予測残差信号を求め、この予測残差信号を用いて適応符号帳の内部状態を更新することになる。
【0097】
このように、本実施の形態の階層符号化装置によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから上位レイヤの符号化で発生する残差信号を予測し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で符号化することができ、低ビットレートで高品質な符号化を行うことができる。
【0098】
なお、上記説明では、予測フィルタ116が第3レイヤ復号信号と第1レイヤ符号化部102より得られる量子化後のLPC係数を用いて、予測残差信号を作成し、第1レイヤ符号化部102は、この予測残差信号を用いて適応符号帳の内部状態を更新しているが、予測フィルタ116が、第2レイヤ復号信号をもちいて予測残差信号を作成してもよい。すなわち、予測残差信号を作成するために必要な復号信号は、第1レイヤ符号化で符号化しきれない残差信号を符号化するレイヤであれば何段目であってもよい。
【0099】
図4は、本発明の実施の形態1に係る階層符号化装置の構成を示すブロック図である。図4において図1と同一の番号が付与されている構成要素については同一の機能を有するものとしてここでは説明を省略する。本実施の形態の特徴は、中間レイヤの復号信号(図4では第2レイヤ復号信号)を予測フィルタ116に与え、その出力信号を適応符号帳207の内部状態の更新に用いる点にある。この構成によれば、中間レイヤまでのスケーラビリティを確保できるという特徴がある。
【0100】
加算器108は、第1レイヤ復号信号と第2レイヤ復号残差信号の和をとり、第2レイヤ復号信号を生成する。そして、加算器108は、この第2レイヤ復号信号を減算器110と予測フィルタ116に出力する。
【0101】
予測フィルタ116は、第2レイヤ復号信号に予測フィルタをかけ、予測残差信号を生成し、この予測残差信号を第1レイヤ符号化部102に出力する。
【0102】
第1レイヤ符号化部102は、予測フィルタ116で求めた予測残差信号を用いて、第1レイヤ符号化部102に内在する適応符号帳の内部状態として利用する。第1レイヤ符号化部102は、入力音響信号と符号化後に生成される復号信号との間の聴感的な歪が最小となるように第1符号化コードを決定する。そして、第1レイヤ符号化部102は、得られた第1符号化コードを第1レイヤ復号化部103及び多重化部114に出力する。
【0103】
このように、本実施の形態の階層符号化装置によれば、中間レイヤの復号信号を予測フィルタに与え、その出力信号を第1レイヤ符号化の適応符号帳の内部状態の更新に用いることにより、中間レイヤまでのスケーラビリティを確保できる。
【0104】
(実施の形態2)
本実施の形態では、実施の形態1の階層符号化装置で符号化された信号を復号する例について説明する。本実施の形態の特徴は、実施の形態1で説明された階層符号化法の符号化コードを復号することができ、その結果高品質な音響信号を復号することが可能になる点にある。
【0105】
図5は、本発明の実施の形態2に係る階層復号化装置の構成を示すブロック図である。図5の階層復号化装置300は、入力端子301と、分離部302と、第1レイヤ復号化部303と、第2レイヤ復号化部304と、第3レイヤ復号化部305と、加算器306と、加算器307と、予測フィルタ308と、出力端子309とから主に構成される。
【0106】
入力端子301から図1の階層符号化装置にて符号化された符号化ビット列が入力される。
【0107】
分離部302は、符号化ビット列を分離し、第1レイヤ符号化で得られる第1符号化コード、第2レイヤ符号化で得られる第2符号化コードおよび第3レイヤ符号化で得られる第3符号化コードを生成する。そして、分離部302は、第1符号化コードを第1レイヤ復号化部303に出力し、第2符号化コードを第2レイヤ復号化部304に出力し、第3符号化コードを第3レイヤ復号化部305に出力する。
【0108】
第1レイヤ復号化部303は、分離部302で得られた第1符号化コードを用いて復号処理を行い、第1レイヤ復号信号を生成する。
【0109】
次に、第2レイヤ復号化部304は、分離部302で得られた第2符号化コードを用いて復号処理を行い、第2レイヤ復号残差信号を生成する。加算器306では、前述の第1レイヤ復号信号と第2レイヤ復号残差信号とを加算し、第2レイヤ復号信号を生成する。そして、加算器306は、第2レイヤ復号信号を加算器307に出力する。
【0110】
次に、第3レイヤ復号化部305は、分離部302で得られた第3符号化コードを用いて復号処理を行い、第3レイヤ復号残差信号を生成する。加算器307は、前述の第2レイヤ復号信号と第3レイヤ復号残差信号とを加算し、第3レイヤ復号信号を生成する。加算器307は、第3レイヤ復号信号を予測フィルタ308と出力端子309に出力する。
【0111】
予測フィルタ308は、前述した実施の形態1の予測フィルタ116と同様の処理を行い、予測残差信号を生成する。予測フィルタ308で使用する量子化後のLPC係数には、第1レイヤ復号化部で得られる復号LPC係数が用いられる。また、予測フィルタ308で生成される予測残差信号は第1レイヤ復号化部に与えられ、第1レイヤ復号化部に内在する適応符号帳の内部状態の更新に用いられる。
【0112】
この様子を詳細に説明するために、次に第1レイヤ復号化部303について説明する。ここでは、第1レイヤ復号化部303にCELPを用いる場合を例にして説明するが、本発明の要件として第1レイヤ復号化部に適応符号帳が存在する復号化方法であればよく、本発明はCELPに限定されるものではない。
【0113】
図6は、本実施の形態の階層復号化装置の第1レイヤ復号化部の内部構成を示すブロック図である。図6の第1レイヤ復号化部は、CELPの代表的な構成を基にしたときの構成図である。図6において破線枠で囲まれた部分が図5の第1レイヤ復号化部303に相当する。図6において、第1レイヤ復号化部303は、入力端子401と、分離部402と、適応符号帳403と、雑音符号帳404と、ゲイン符号帳405と、乗算器406と、乗算器407と、加算器408と、LPC復号器409と、合成フィルタ410と、出力端子412と、出力端子413と、入力端子414とから主に構成される。
【0114】
分離部402は、入力端子401より入力される第1符号化コードから符号化コードを分離し、適応符号帳403、雑音符号帳404、ゲイン符号帳405およびLPC復号器409に出力する。
【0115】
LPC復号器409は、与えられる符号化コードを用いてLPC係数を復号し、合成フィルタ410と出力端子412に出力する。出力端子412より出力されるLPC係数は、前述した予測フィルタ308にて利用されることになる。
【0116】
次に、適応符号帳403は符号化コードを利用して適応ベクトルq(k)を復号して乗算器406に出力する。雑音符号帳404は、符号化コードを利用して雑音ベクトルc(k)を復号して乗算器407に出力する。
【0117】
ゲイン符号帳405は、符号化コードを利用して適応ベクトルゲインβqおよび雑音ベクトルゲインγqを復号する。そして、乗算器406は適応ベクトルゲインβqを乗算器406に出力し、雑音ベクトルゲインγqを乗算器407に出力する。
【0118】
乗算器406は、適応ベクトルと適応ベクトルゲインを乗じ、加算器408に出力する。乗算器407では雑音ベクトルと雑音ベクトルゲインを乗じ、加算器408に出力する。加算器408は、乗算後の適応ベクトルと雑音ベクトルとの信号を加算して駆動音源信号を生成する。駆動音源信号をex(k)と表すと、駆動音源信号ex(k)は次の式(5)で求められる。
【0119】
【数5】
Figure 0004373693
次に、復号されたLPC係数と駆動音源信号ex(k)を用いて合成フィルタ410にて合成信号syn(k)を次の式(6)に従い生成する。
【0120】
【数6】
Figure 0004373693
ここで、αq(i)は復号されたLPC係数、NPはLPC係数の次数を表す。上記動作で復号された復号信号syn(n)は出力端子413より出力される。
【0121】
上記復号化処理が終了した後に、次のフレーム(もしくはサブフレーム)での復号化処理に備えて、適応符号帳の内部状態を最新の駆動音源信号を用いて更新する。
【0122】
本発明の特徴は上記説明部分にあり、従来の方法では加算器408で求められた駆動音源信号を用いて適応符号帳403の内部状態を更新していたが、本発明では入力端子414から入力される予測フィルタ308の出力信号(予測残差信号)を用いて適応符号帳の内部状態を更新する。
【0123】
このように、本実施の形態の階層復号化装置によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化方法の復号において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから予測残差信号を生成し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で復号することができ、低ビットレートで高品質な信号を復号できる。
【0124】
なお、上記説明では、予測フィルタ308が第3レイヤ復号信号と第1レイヤ符号化部102より得られる量子化後のLPC係数を用いて、予測残差信号を作成し、適応符号帳403は、この予測残差信号を用いて適応符号帳の内部状態を更新しているが、予測フィルタ308が、第2レイヤ復号信号をもちいて予測残差信号を作成してもよい。すなわち、予測残差信号を作成するために必要な復号信号は、第1レイヤ符号化で符号化しきれない残差信号を符号化するレイヤであれば何段目であってもよい。
【0125】
図7は、本発明の実施の形態2に係る階層復号化装置の構成を示すブロック図である。図7において図5と同一の番号が付与されている構成要素については同一の機能を有するものとしてここでは説明を省略する。本実施の形態の特徴は、中間レイヤの復号信号(図7では第2レイヤ復号信号)を予測フィルタ308に与え、予測フィルタ308の出力信号を図6の適応符号帳403の内部状態の更新に用いる点にある。この構成によれば、中間レイヤまでのスケーラビリティを確保できるという特徴がある。
【0126】
加算器306は、前述の第1レイヤ復号信号と第2レイヤ復号残差信号とを加算し、第2レイヤ復号信号を生成する。そして、加算器306は、第2レイヤ復号信号を加算器307と予測フィルタ308に出力する。
【0127】
次に、第3レイヤ復号化部305は、分離部302で得られた第3符号化コードを用いて復号処理を行い、第3レイヤ復号残差信号を生成する。加算器307は、前述の第2レイヤ復号信号と第3レイヤ復号残差信号とを加算し、第3レイヤ復号信号を生成する。加算器307は、第3レイヤ復号信号を出力端子309に出力する。
【0128】
予測フィルタ308は、第1レイヤ復号化部303で生成される量子化後のLPC係数と加算器306で生成される第2レイヤ復号信号とから予測残差信号を生成する。そして、予測フィルタ308で生成される予測残差信号は、第1レイヤ復号化部に与えられ、第1レイヤ復号化部に内在する適応符号帳の内部状態の更新に用いられる。
【0129】
このように、本実施の形態の階層復号化装置によれば、中間レイヤの復号信号を予測フィルタに与え、その出力信号を第1レイヤ復号化の適応符号帳の内部状態の更新に用いることにより、中間レイヤまでのスケーラビリティを確保できる。
【0130】
(実施の形態3)
図8は、本発明の実施の形態3に係る階層符号化装置の構成を示すブロック図である。図8の階層符号化装置500は、入力端子501と、DS1部502と、第1レイヤ符号化部503と、第1レイヤ復号化部504と、US1部505と、DS2部506と、遅延器507と、減算器508と、第2レイヤ符号化部509と、第2レイヤ復号化部510と、加算器511と、US2部512と、遅延器513と、減算器514と、第3レイヤ符号化部515と、第3レイヤ復号化部516と、加算器517と、多重化部518と、出力端子519と、DS3部520と、予測フィルタ521とから主に構成される。
【0131】
図8の階層符号化装置は、上位レイヤの符号化信号を復号し、この復号信号をアップサンプリングした信号と入力音響信号との差分を下位レイヤで符号化する方法に関し、下位レイヤで符号化する信号のサンプリング周波数が上位レイヤで符号化する信号のサンプリング周波数より高い点が図1の階層符号化装置と異なる。
【0132】
本実施の形態では、各レイヤに入力される信号のサンプリング周波数には次の式(7)に示す関係がある点に特徴がある。
【0133】
【数7】
Figure 0004373693
ここで、Fs(n)は第nレイヤの信号のサンプリング周波数を表す。本実施の形態によれば、複数のサンプリング周波数に対応した符号化を行うことが可能となる。
【0134】
入力端子501から、サンプリング周波数Fs(3)の音響信号が入力されDS1部502に与えられる。
【0135】
DS1部502は、入力音響信号をダウンサンプリングし、この入力音響信号のサンプリング周波数をFs(3)からFs(1)に下げる。そして、DS1部502は、サンプリング周波数Fs(1)の入力信号を第1レイヤ符号化部503に出力する。
【0136】
第1レイヤ符号化部503は、過去に生成した駆動音源信号を内部状態として保持している適応符号帳を有し、適応符号帳を用いることで周期性の強い信号を効率的に符号化することができる。第1レイヤ符号化部503は、入力音響信号と符号化後に生成される復号信号との間の聴感的な歪が最小となるように第1符号化コードを決定する。第1レイヤ符号化部503に適用される代表的な方法として符号励線形予測法(CELP)がある。
【0137】
そして、第1レイヤ符号化部503は、得られた第1符号化コードを第1レイヤ復号化部504及び多重化部518に出力する。第1レイヤ復号化部504は、第1符号化コードを用いて第1レイヤ復号信号を生成し、この第1レイヤ復号信号をUS1部505に出力する。
【0138】
US1部505は、第1レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(1)からFs(2)に上げる。そして、US1部505は、サンプリング周波数Fs(2)の第1レイヤ復号信号を減算器508と加算器511に出力する。
【0139】
次に、入力端子501から入力される音響信号がDS2部506に与えられる。DS2部506は、入力音響信号をダウンサンプリングし、この入力音響信号のサンプリング周波数をFs(3)からFs(2)に下げる。そして、DS2部506は、サンプリング周波数Fs(2)の入力信号を遅延器507に出力する。
【0140】
遅延器507は、入力端子501から入力される音響信号を所定の時間長だけ遅延して減算器508に出力する。すなわち、DS1部502、第1レイヤ符号化部503、第1レイヤ復号化部504、US1部505およびDS2部506にて生じる遅延を補正する役割を持つ。
【0141】
減算器508は、遅延器507の出力信号と前述の第1レイヤ復号信号との差をとり第2レイヤ残差信号を生成する。そして、減算器508は、第2レイヤ残差信号を第2レイヤ符号化部509に出力する。
【0142】
第2レイヤ符号化部509は、第2レイヤ残差信号を聴感的に品質改善が成されるように符号化を行い、第2符号化コードを決定する。そして、第2レイヤ符号化部509は、第2レイヤ復号化部510と第2符号化コードを多重化部518に出力する。
【0143】
第2レイヤ復号化部510は、第2符号化コードを用いて復号処理を行い、第2レイヤ復号残差信号を生成し、この第2レイヤ復号残差信号を加算器511に出力する。
【0144】
加算器511は、第1レイヤ復号信号と第2レイヤ復号残差信号の和をとり、第2レイヤ復号信号を生成する。そして、加算器511は、この第2レイヤ復号信号をUS2部512に出力する。
【0145】
US2部512は、第2レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(2)からFs(3)に上げる。そして、US2部512は、サンプリング周波数Fs(3)の第2レイヤ復号信号を減算器514と加算器517に出力する。
【0146】
次に、遅延器513は、入力端子501から入力される音響信号を所定の時間長だけ遅延した後、この音響信号を減算器514に出力する。すなわち、遅延器513は、前段までの符号化部と復号化部で生じる遅延、具体的にはDS1部502からUS2部512までの信号処理で生じる遅延を補正する役割を持つ。
【0147】
減算器514は、遅延器513の出力信号と前述の第2レイヤ復号信号との差をとり第3レイヤ残差信号を生成する。そして、減算器514は、この第3レイヤ残差信号を第3レイヤ符号化部515に出力する。
【0148】
第3レイヤ符号化部515は、第3レイヤ残差信号を聴感的に品質改善が成されるように符号化して第3符号化コードを決定し、この第3符号化コードを第3レイヤ復号化部516と多重化部518に出力する。
【0149】
第3レイヤ復号化部516は、第3符号化コードを用いて復号処理を行い、第3レイヤ復号残差信号を生成し、この第3レイヤ復号残差信号を加算器517に出力する。
【0150】
加算器517は、第2レイヤ復号信号と第3レイヤ復号残差信号の和をとり、第3レイヤ復号信号を生成し、この第3レイヤ復号信号をDS3部520に出力する。
【0151】
多重化部518は、第1符号化コード、第2符号化コードおよび第3符号化コードを所定の手段によって多重化を行い、符号化ビット列を生成する。そして、多重化部518は、この符号化ビット列を出力端子519より出力する。
【0152】
DS3部520は、第3レイヤ復号信号をダウンサンプリングし、この第3レイヤ復号信号のサンプリング周波数をFs(3)からFs(1)に下げる。そして、DS3部520は、サンプリング周波数Fs(1)の第3レイヤ復号信号を予測フィルタ521に出力する。
【0153】
予測フィルタ521は、第3レイヤ復号信号に予測フィルタをかけ、予測残差信号を生成し、この予測残差信号を第1レイヤ符号化部503に出力する。予測フィルタは、第1レイヤ符号化部503で算出された量子化後のLPC係数により構成される。DS3部520から出力される第3レイヤ復号信号をsyn3(k)、予測残差信号をe(k)、量子化後のLPC係数をαq(i)とすると、予測残差信号e(k)は次の式(8)で表される。
【0154】
【数8】
Figure 0004373693
ここで、NPはLPC係数の次数を表す。
【0155】
第1レイヤ符号化部503は、上記説明の動作で求めた予測残差信号を用いて、第1レイヤ符号化部503に内在する適応符号帳の内部状態として利用する。
【0156】
このように、本実施の形態の階層符号化装置によれば、下位レイヤで符号化する信号のサンプリング周波数を上位レイヤで符号化する信号のサンプリング周波数より高くすることにより、様々なサンプリング周波数に対応させて入力信号を符号化することができる。
【0157】
なお、上記説明では、予測フィルタ521が第3レイヤ復号信号と第1レイヤ符号化部503より得られる量子化後のLPC係数を用いて、予測残差信号を作成し、第1レイヤ符号化部503は、この予測残差信号を用いて適応符号帳の内部状態を更新しているが、予測フィルタ521が、第2レイヤ復号信号をもちいて予測残差信号を作成してもよい。すなわち、予測残差信号を作成するために必要な復号信号は、第1レイヤ符号化で符号化しきれない残差信号を符号化するレイヤであれば何段目であってもよい。
【0158】
図9は、本発明の実施の形態3に係る階層符号化装置の構成を示すブロック図である。図9において図8と同一の番号が付与されている構成要素については同一の機能を有するものとしてここでは説明を省略する。本実施の形態の特徴は、中間レイヤの復号信号(図9では第2レイヤ復号信号)を予測フィルタ521に与え、その出力信号を適応符号帳207の内部状態の更新に用いる点にある。この構成によれば、中間レイヤまでのスケーラビリティを確保できるという特徴がある。
【0159】
加算器511は、第1レイヤ復号信号と第2レイヤ復号残差信号の和をとり、第2レイヤ復号信号を生成する。そして、加算器511は、この第2レイヤ復号信号をUS2部512に出力する。
【0160】
US2部512は、第2レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(2)からFs(3)に上げる。そして、US2部512は、サンプリング周波数Fs(3)の第1レイヤ復号信号を減算器514とDS3部520に出力する。
【0161】
DS3部520は、第3レイヤ復号信号をダウンサンプリングし、この第3レイヤ復号信号のサンプリング周波数をFs(3)からFs(1)に下げる。そして、DS3部520は、サンプリング周波数Fs(1)の第3レイヤ復号信号を予測フィルタ521に出力する。
【0162】
予測フィルタ521は、第2レイヤ復号信号に予測フィルタをかけ、予測残差信号を生成し、この予測残差信号を第1レイヤ符号化部503に出力する。
【0163】
第1レイヤ符号化部503は、予測フィルタ521で求めた予測残差信号を用いて、第1レイヤ符号化部503に内在する適応符号帳の内部状態として利用する。第1レイヤ符号化部503は、入力音響信号と符号化後に生成される復号信号との間の聴感的な歪が最小となるように第1符号化コードを決定する。そして、第1レイヤ符号化部503は、得られた第1符号化コードを第1レイヤ復号化部504及び多重化部518に出力する。
【0164】
このように、本実施の形態の階層符号化装置によれば、中間レイヤの復号信号を予測フィルタに与え、その出力信号を第1レイヤ符号化の適応符号帳の内部状態の更新に用いることにより、中間レイヤまでのスケーラビリティを確保できる。
【0165】
(実施の形態4)
本実施の形態では、実施の形態3の階層符号化装置で符号化された信号を復号する例について説明する。本実施の形態の特徴は、実施の形態3で説明された階層符号化法の符号化コードを復号することができ、その結果高品質な音響信号を復号することが可能になる点にある。
【0166】
図10は、本発明の実施の形態4に係る階層復号化装置の構成を示すブロック図である。図10の階層復号化装置600は、入力端子601と、分離部602と、第1レイヤ復号化部603と、US1部604と、加算器605と、第2レイヤ復号化部606と、US2部607と、第3レイヤ復号化部608と、加算器609と、出力端子610と、DS3部611と、予測フィルタ612とから主に構成される。
【0167】
入力端子601から図8の階層符号化装置にて符号化された符号化ビット列が入力される。
【0168】
分離部602は、符号化ビット列を分離し、第1レイヤ符号化で得られる第1符号化コード、第2レイヤ符号化で得られる第2符号化コードおよび第3レイヤ符号化で得られる第3符号化コードを生成する。そして、分離部602は、第1符号化コードを第1レイヤ復号化部603に出力し、第2符号化コードを第2レイヤ復号化部606に出力し、第3符号化コードを第3レイヤ復号化部608に出力する。
【0169】
第1レイヤ復号化部603は、分離部602で得られた第1符号化コードを用いて復号処理を行い、第1レイヤ復号信号を生成する。
【0170】
US1部604は、第1レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(1)からFs(2)に上げる。そして、US1部604は、サンプリング周波数Fs(2)の第1レイヤ復号信号を加算器605に出力する。
【0171】
次に、第2レイヤ復号化部606は、分離部602で得られた第2符号化コードを用いて復号処理を行い、第2レイヤ復号残差信号を生成する。加算器605では、前述の第1レイヤ復号信号と第2レイヤ復号残差信号とを加算し、第2レイヤ復号信号を生成する。そして、加算器605は、第1レイヤ復号信号と第2レイヤ復号信号をUS2部607に出力する。
【0172】
US2部607は、第2レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(2)からFs(3)に上げる。そして、US2部607は、サンプリング周波数Fs(3)の第2レイヤ復号信号を加算器609に出力する。
【0173】
次に、第3レイヤ復号化部608は、分離部602で得られた第3符号化コードを用いて復号処理を行い、第3レイヤ復号残差信号を生成する。加算器609は、前述の第2レイヤ復号信号と第3レイヤ復号残差信号とを加算し、第3レイヤ復号信号を生成する。加算器609は、第3レイヤ復号信号をDS3部611と出力端子610に出力する。
【0174】
DS3部611は、第3レイヤ復号信号をダウンサンプリングし、この第3レイヤ復号信号のサンプリング周波数をFs(3)からFs(1)に下げる。そして、DS3部611は、サンプリング周波数Fs(1)の第3レイヤ復号信号を予測フィルタ612に出力する。
【0175】
予測フィルタ612は、前述した実施の形態1の予測フィルタ116と同様の処理を行い、予測残差信号を生成する。予測フィルタ612で使用する量子化後のLPC係数には、第1レイヤ復号化部で得られる復号LPC係数が用いられる。また、予測フィルタ612で生成される予測残差信号は第1レイヤ復号化部に与えられ、第1レイヤ復号化部に内在する適応符号帳の内部状態の更新に用いられる。
【0176】
なお、上記説明では、予測フィルタ612が第3レイヤ復号信号と第1レイヤ復号化部603より得られる量子化後のLPC係数を用いて、予測残差信号を作成し、第1レイヤ復号化部603内の適応符号帳は、この予測残差信号を用いて適応符号帳の内部状態を更新しているが、予測フィルタ612が、第2レイヤ復号信号をもちいて予測残差信号を作成してもよい。すなわち、予測残差信号を作成するために必要な復号信号は、第1レイヤ符号化で符号化しきれない残差信号を符号化するレイヤであれば何段目であってもよい。
【0177】
図11は、本発明の実施の形態4に係る階層復号化装置の構成を示すブロック図である。但し、図10と同一の構成となるものについては、図10と同一番号を付し、詳しい説明を省略する。本実施の形態の特徴は、中間レイヤの復号信号(図11では第2レイヤ復号信号)を予測フィルタ612に与え、予測フィルタ612の出力信号を第1レイヤ復号化部603内の適応符号帳の内部状態の更新に用いる点にある。この構成によれば、中間レイヤまでのスケーラビリティを確保できるという特徴がある。
【0178】
加算器605は、前述の第1レイヤ復号信号と第2レイヤ復号残差信号とを加算し、第2レイヤ復号信号を生成する。そして、加算器605は、第2レイヤ復号信号を加算器US2部607とDS3部611に出力する。
【0179】
US2部607は、第2レイヤ復号信号をアップサンプリングし、サンプリング周波数をFs(2)からFs(3)に上げる。そして、US2部607は、サンプリング周波数Fs(3)の第1レイヤ復号信号を加算器609に出力する。
【0180】
DS3部611は、第2レイヤ復号信号をダウンサンプリングし、この第2レイヤ復号信号のサンプリング周波数をFs(2)からFs(1)に下げる。そして、DS3部611は、サンプリング周波数Fs(1)の第2レイヤ復号信号を予測フィルタ612に出力する。
【0181】
このように、本実施の形態の階層復号化装置によれば、中間レイヤの復号信号を予測フィルタに与え、その出力信号を第1レイヤ復号化の適応符号帳の内部状態の更新に用いることにより、中間レイヤまでのスケーラビリティを確保できる。
【0182】
(実施の形態5)
図12は、本発明の実施の形態5に係る階層符号化装置の第1レイヤ符号化部の構成を示すブロック図である。但し、図2と同一の構成となるものについては、図2と同一番号を付し、詳しい説明を省略する。図12の第1レイヤ符号化部は、周期性算出部701と、判定部702と、スイッチ部703と、適応符号帳704と、多重化器705とを具備し、適応符号帳の内部状態を更新する際に、入力音響信号の周期性の強さに応じて入力端子218から入力される予測残差信号を用いるか、もしくは加算器212より出力される駆動音源信号を用いるかのいずれかを選択する点が図2の第1レイヤ符号化部と異なる。
【0183】
周期性算出部701は、入力端子201から入力された音響信号について相関分析などの処理を行い入力音響信号の周期性の強さの度合いを定量化し、この周期性の強さの度合いを判定部702に出力する。
【0184】
判定部702は、周期性の強さの度合いとあらかじめ定められた閾値と比較を行う。そして、判定部702は、周期性の強さの度合いが閾値を超える場合には入力音響信号の周期性は強いとみなし、フラグを「0」として多重化器705に出力する。また、判定部702は、周期性の強さの度合いが閾値以下のとき、入力音響信号の周期性は弱いとみなし、フラグを「1」として多重化器705に出力する。
【0185】
スイッチ部703では、判定部702より得られるフラグに応じ適応符号帳704の内部状態の更新に使用する信号を切り替える。フラグが0の場合には、スイッチ部703は適応符号帳704の内部状態の更新に使用する信号として入力端子218より入力される予測残差信号を用いるようにスイッチを接続する。同様にフラグが1の場合には、スイッチ部703は適応符号帳704の内部状態の更新に使用する信号として加算器212より出力される駆動音源信号を用いるようにスイッチを接続する。
【0186】
適応符号帳704は、過去に生成した駆動音源信号を内部状態として保持し、この内部状態を所望のピッチ周期で繰り返すことにより適応ベクトルを生成する。すなわち、判定部702において入力音響信号の周期性は強いと判定された場合、適応符号帳704は、入力端子218より入力される予測残差信号を用いて内部状態を更新する。また、判定部702において入力音響信号の周期性は弱いと判定された場合、適応符号帳704は、加算器212より出力される駆動音源信号を用いて内部状態を更新する。そして、適応符号帳704は、内部に保持した駆動音源信号を適応ベクトルとして順に乗算器209に出力する。
【0187】
多重化器705は、LPC量子化器203、探索器214、及び判定部702からの信号を多重化して出力端子216から出力する。
【0188】
このように、本実施の形態の階層符号化装置によれば、入力音響信号の周期性が強い場合には、高位レイヤの復号信号から求められる予測残差信号を使って適応符号帳の内部状態を更新することにより適応符号帳による予測精度が増し性能が向上する。また、本実施の形態の階層符号化装置によれば、入力音響信号の周期性が強くない場合には駆動音源信号を使って適応符号帳の内部状態を更新することにより、非周期的な信号に対する効果を上げることができる。
【0189】
なお、上記説明では、入力音響信号の周期性の強さに基づいて、予測残差信号もしくは駆動音源信号のいずれを用いて適応符号帳の内部状態を更新するかを判定しているが、判定基準は、特に限定されない。
【0190】
例えば、予測残差信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪と、駆動音源信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪を算出して比較してもよい。図13は、本実施の形態の階層符号化装置の動作の一例を示すフロー図である。以下、図13を用いて階層符号化装置の判定動作について説明する。
【0191】
ステップS810において、予測残差信号を用いて適応符号帳の内部状態を更新し、第1レイヤ符号化部の符号化処理を行う。その際の入力音響信号に対する第1レイヤ復号信号の聴感上の歪E1を算出する。
【0192】
ステップS820において、同様に、駆動音源信号を用いて適応符号帳の内部状態を更新し、第1レイヤ符号化部の符号化処理を行う。その際の入力音響信号に対する第1レイヤ復号信号の聴感上の歪E2を算出する。
【0193】
ステップS830では、ステップS810で求めた歪E1とステップS820で求めた歪E2とを比較する。
【0194】
ステップS840にて判定を行い、歪E1の方が歪E2より小さい場合、ステップS850の処理に進む。また、歪E2の方が歪E1より小さい場合にはステップS860の処理に進む。
【0195】
ステップS850では、予測残差信号を用いる方が、効果が大きいと判断し、予測残差信号を使って適応符号帳の内部状態を更新した後に符号化処理を行う。このとき、適応符号帳の更新に予測残差信号を用いたとしてフラグを0にセットする。
【0196】
ステップS860では、駆動音源信号を用いる方が、効果が大きいと判断し、駆動音源信号を使って適応符号帳の内部状態を更新した後に符号化処理を行う。このとき、適応符号帳の更新に駆動音源信号を用いたとしてフラグを1にセットする。
【0197】
ステップS870では、符号化処理により得られた符号化コードとフラグを多重化部にて多重化して出力端子より出力する。
【0198】
このように、本実施の形態の階層符号化装置によれば、予測残差信号もしくは駆動音源信号のいずれを用いて適応符号帳の内部状態を更新するかを判定する際に、予測残差信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪と、駆動音源信号を用いて適応符号帳の内部状態を更新し入力音響信号を実際に符号化して求められる歪を算出して比較し、歪が小さくなる信号を用いて適応符号帳の内部状態を更新することにより、歪の小さくなる信号を常に使って適応符号帳の内部状態を更新することになるので、品質を向上することができる。
【0199】
(実施の形態6)
図14は、本発明の実施の形態6に係る階層復号化装置の第1レイヤ復号化部の構成を示すブロック図である。但し、図6と同一の構成となるものについては、図6と同一番号を付し、詳しい説明を省略する。図14の第1レイヤ復号化部は、入力端子801と、分離部802と、スイッチ部803とを具備し、適応符号帳の内部状態を更新する際に、分離部802より得られるフラグ情報に基づき入力端子801から入力される予測残差信号を用いるか、もしくは加算器408より出力される駆動音源信号を用いるかのいずれかを選択する点が図2の第1レイヤ符号化部と異なる。
【0200】
分離部802は、入力端子401より入力される符号化コードを基に適応符号帳804、雑音符号帳404、ゲイン符号帳405、LPC復号器409で用いられる符号化コードを分離すると共に、適応符号帳804の内部状態の更新に使用する信号の種類を表すフラグ情報を分離する。このフラグ情報は、図12の判定部702から多重化器705に出力される信号である。
【0201】
スイッチ部803は、フラグ情報に応じ適応符号帳804の内部状態の更新に使用する信号を切り替える。フラグが0の場合には、スイッチ部803は適応符号帳804の内部状態の更新に使用する信号として入力端子801より入力される予測残差信号を用いるようにスイッチを接続する。同様にフラグが1の場合には、スイッチ部803は適応符号帳804の内部状態の更新に使用する信号として加算器408より出力される駆動音源信号を用いるようにスイッチを接続する。
【0202】
このように、本実施の形態の階層復号化装置によれば、符号側において入力音響信号の周期性の強さ等に基づいて、予測残差信号もしくは駆動音源信号のいずれを用いて適応符号帳の内部状態を更新するかを判定した結果に基づいて、符号化された音響信号の周期性が強い場合には、高位レイヤの復号信号から求められる予測残差信号を使って適応符号帳の内部状態を更新することにより、階層符号化法の符号化コードを復号することができ、その結果高品質な音響信号を復号することができる。
【0203】
(実施の形態7)
次に、本発明の実施の形態7について、図面を参照して説明する。図15は、本発明の実施の形態7に係る通信装置の構成を示すブロック図である。図15における信号処理装置1503は前述した実施の形態1から実施の形態6に示した音響符号化装置の中の1つによって構成されている点に本実施の形態の特徴がある。
【0204】
図15に示すように、本発明の実施の形態7に係る通信装置1500は、入力装置1501、A/D変換装置1502及びネットワーク1504に接続されている信号処理装置1503を具備している。
【0205】
A/D変換装置1502は、入力装置1501の出力端子に接続されている。信号処理装置1503の入力端子は、A/D変換装置1502の出力端子に接続されている。信号処理装置1503の出力端子はネットワーク1504に接続されている。
【0206】
入力装置1501は、人間の耳に聞こえる音波を電気的信号であるアナログ信号に変換してA/D変換装置1502に与える。A/D変換装置1502はアナログ信号をディジタル信号に変換して信号処理装置1503に与える。信号処理装置1503は入力されてくるディジタル信号を符号化してコードを生成し、ネットワーク1504に出力する。
【0207】
このように、本発明の実施の形態の通信装置によれば、通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく音響信号を符号化する音響符号化装置を提供することができる。
【0208】
(実施の形態8)
次に、本発明の実施の形態8について、図面を参照して説明する。図16は、本発明の実施の形態8に係る通信装置の構成を示すブロック図である。図16における信号処理装置1603は前述した実施の形態1から実施の形態6に示した音響復号化装置の中の1つによって構成されている点に本実施の形態の特徴がある。
【0209】
図16に示すように、本発明の実施の形態8に係る通信装置1600は、ネットワーク1601に接続されている受信装置1602、信号処理装置1603、及びD/A変換装置1604及び出力装置1605を具備している。
【0210】
受信装置1602の入力端子は、ネットワーク1601に接続されている。信号処理装置1603の入力端子は、受信装置1602の出力端子に接続されている。D/A変換装置1604の入力端子は、信号処理装置1603の出力端子に接続されている。出力装置1605の入力端子は、D/A変換装置1604の出力端子に接続されている。
【0211】
受信装置1602は、ネットワーク1601からのディジタルの符号化音響信号を受けてディジタルの受信音響信号を生成して信号処理装置1603に与える。信号処理装置1603は、受信装置1602からの受信音響信号を受けてこの受信音響信号に復号化処理を行ってディジタルの復号化音響信号を生成してD/A変換装置1604に与える。D/A変換装置1604は、信号処理装置1603からのディジタルの復号化音声信号を変換してアナログの復号化音声信号を生成して出力装置1605に与える。出力装置1605は、電気的信号であるアナログの復号化音響信号を空気の振動に変換して音波として人間の耳に聴こえるように出力する。
【0212】
このように、本実施の形態の通信装置によれば、通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく符号化された音響信号を復号することができるので、良好な音響信号を出力することができる。
【0213】
(実施の形態9)
次に、本発明の実施の形態9について、図面を参照して説明する。図17は、本発明の実施の形態9に係る通信装置の構成を示すブロック図である。本発明の実施の形態9において、図17における信号処理装置1703は、前述した実施の形態1から実施の形態6に示した音響符号化手段の中の1つによって構成されている点に本実施の形態の特徴がある。
【0214】
図17に示すように、本発明の実施の形態9に係る通信装置1700は、入力装置1701、A/D変換装置1702、信号処理装置1703、RF変調装置1704及びアンテナ1705を具備している。
【0215】
入力装置1701は人間の耳に聞こえる音波を電気的信号であるアナログ信号に変換してA/D変換装置1702に与える。A/D変換装置1702はアナログ信号をディジタル信号に変換して信号処理装置1703に与える。信号処理装置1703は入力されてくるディジタル信号を符号化して符号化音響信号を生成し、RF変調装置1704に与える。RF変調装置1704は、符号化音響信号を変調して変調符号化音響信号を生成し、アンテナ1705に与える。アンテナ1705は、変調符号化音響信号を電波として送信する。
【0216】
このように、本実施の形態の通信装置によれば、無線通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく音響信号を符号化することができる。
【0217】
なお、本発明は、オーディオ信号を用いる送信装置、送信符号化装置又は音響信号符号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0218】
(実施の形態10)
次に、本発明の実施の形態10について、図面を参照して説明する。図18は、本発明の実施の形態10に係る通信装置の構成を示すブロック図である。本発明の実施の形態10において、図18における信号処理装置1803は、前述した実施の形態1から実施の形態6に示した音響復号化手段の中の1つによって構成されている点に本実施の形態の特徴がある。
【0219】
図18に示すように、本発明の実施の形態10に係る通信装置1800は、アンテナ1801、RF復調装置1802、信号処理装置1803、D/A変換装置1804及び出力装置1805を具備している。
【0220】
アンテナ1801は、電波としてのディジタルの符号化音響信号を受けて電気信号のディジタルの受信符号化音響信号を生成してRF復調装置1802に与える。RF復調装置1802は、アンテナ1801からの受信符号化音響信号を復調して復調符号化音響信号を生成して信号処理装置1803に与える。
【0221】
信号処理装置1803は、RF復調装置1802からのディジタルの復調符号化音響信号を受けて復号化処理を行ってディジタルの復号化音響信号を生成してD/A変換装置1804に与える。D/A変換装置1804は、信号処理装置1803からのディジタルの復号化音声信号を変換してアナログの復号化音声信号を生成して出力装置1805に与える。出力装置1805は、電気的信号であるアナログの復号化音声信号を空気の振動に変換して音波として人間の耳に聴こえるように出力する。
【0222】
このように、本実施の形態の通信装置によれば、無線通信において前述した実施の形態1〜6に示したような効果を享受でき、少ないビット数で効率よく符号化された音響信号を復号することができるので、良好な音響信号を出力することができる。
【0223】
なお、本発明は、オーディオ信号を用いる受信装置、受信復号化装置又は音声信号復号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0224】
また、本発明は上記実施の形態に限定されず、種々変更して実施することが可能である。例えば、上記実施の形態では、信号処理装置として行う場合について説明しているが、これに限られるものではなく、この信号処理方法をソフトウェアとして行うことも可能である。
【0225】
例えば、上記信号処理方法を実行するプログラムを予めROM(Read Only Memory)に格納しておき、そのプログラムをCPU(Central Processor Unit)によって動作させるようにしても良い。
【0226】
また、上記信号処理方法を実行するプログラムをコンピュータで読み取り可能な記憶媒体に格納し、記憶媒体に格納されたプログラムをコンピュータのRAM(Random Access memory)に記録して、コンピュータをそのプログラムにしたがって動作させるようにしても良い。
【0227】
なお、本発明は、オーディオ信号を用いる受信装置、受信復号化装置又は音声信号復号化装置に適用することができる。また、本発明は、移動局装置又は基地局装置にも適用することができる。
【0228】
【発明の効果】
以上説明したように、本発明の音響信号の階層符号化方法および階層復号化方法によれば、上位レイヤで符号化しきれない部分を符号化する下位レイヤで符号化する階層符号化において、第2レイヤ以降の符号化信号を復号した信号と、上位レイヤの符号化で得られるLPC係数とから上位レイヤの符号化で発生する残差信号を予測し、この予測した残差信号を用いて上位レイヤの適応符号帳の更新を行うことにより、音響信号の符号化に近い駆動音源を持つ適応符号帳で符号化して低ビットレートで高品質な符号化を行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る階層符号化装置の構成を示すブロック図
【図2】本実施の形態の階層符号化装置の第1レイヤ符号化部の内部構成を示すブロック図
【図3】入力音響信号とそれに対応する第1レイヤ復号信号、第2レイヤ復号信号、第3レイヤ復号信号の関係を示す図
【図4】本発明の実施の形態1に係る階層符号化装置の構成を示すブロック図
【図5】本発明の実施の形態2に係る階層復号化装置の構成を示すブロック図
【図6】本実施の形態の階層復号化装置の第1レイヤ復号化部の内部構成を示すブロック図
【図7】本発明の実施の形態2に係る階層復号化装置の構成を示すブロック図
【図8】本発明の実施の形態3に係る階層符号化装置の構成を示すブロック図
【図9】本発明の実施の形態3に係る階層符号化装置の構成を示すブロック図
【図10】本発明の実施の形態4に係る階層復号化装置の構成を示すブロック図
【図11】本発明の実施の形態4に係る階層復号化装置の構成を示すブロック図
【図12】本発明の実施の形態5に係る階層符号化装置の第1レイヤ符号化部の構成を示すブロック図
【図13】本実施の形態の階層符号化装置の動作の一例を示すフロー図
【図14】本発明の実施の形態6に係る階層復号化装置の第1レイヤ復号化部の構成を示すブロック図
【図15】本発明の実施の形態7に係る通信装置の構成を示すブロック図
【図16】本発明の実施の形態8に係る通信装置の構成を示すブロック図
【図17】本発明の実施の形態9に係る通信装置の構成を示すブロック図
【図18】本発明の実施の形態10に係る通信装置の構成を示すブロック図
【符号の説明】
102、503 第1レイヤ符号化部
103、303、504、603 第1レイヤ復号化部
106、509 第2レイヤ符号化部
107、304、510、606 第2レイヤ復号化部
111、305、515 第3レイヤ符号化部
112、516、608 第3レイヤ復号化部
116、308、521、612 予測フィルタ
202 LPC分析器
203 LPC量子化器
204 LPC復号器
205 聴感重みフィルタ
206 聴感重み付き合成フィルタ
207、403、704 適応符号帳
214 探索器
409 LPC復号器
410 合成フィルタ
502 DS1部
505、604 US1部
506 DS2部
512、607 US2部
520、611 DS3部
701 周期性算出部
702 判定部
703、803 スイッチ部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an acoustic signal hierarchical encoding method and hierarchical decoding method, and more particularly to an acoustic signal hierarchical encoding method and hierarchical decoding suitable for use in compression encoding with high efficiency for an acoustic signal such as a musical tone signal or an audio signal. It relates to the method.
[0002]
[Prior art]
An acoustic coding technique for compressing a musical sound signal or a voice signal at a low bit rate is important for the effective use of a transmission path capacity such as radio waves and a recording medium in mobile communication. There are methods such as G726 and G729 standardized by ITU (International Telecommunication Union) for voice coding for coding voice signals. These systems are intended for narrowband signals (300 Hz to 3.4 kHz) and can be encoded with high quality at 8 kbit / s to 32 kbit / s. In addition, ITU G722, G722.1, 3GPP (The 3rd Generation Partnership Project) AMR-WB, etc. exist as standard systems for wideband signals (50 Hz to 7 kHz). These systems can encode a wideband audio signal with high quality at a bit rate of 6.6 kbit / s to 64 kbit / s.
[0003]
CELP (Code Excited Linear Prediction) is an effective method for encoding audio signals at a low bit rate with high efficiency. CELP is based on an engineered model of a human voice generation model, and passes excitation signals represented by random numbers and pulse trains through a pitch filter corresponding to the strength of periodicity and a synthesis filter corresponding to vocal tract characteristics, In this method, the coding code is determined so that the square error between the output signal and the input signal is minimized under the weighting of auditory characteristics (see, for example, Non-Patent Document 1). Many of the recent standard audio coding systems are based on CELP, for example, G729 can encode narrowband signals at 8 kbit / s, and AMR-WB encodes wideband signals at 6.6 kbit / s to 23.85 kbit / s. Can be
[0004]
On the other hand, in the case of musical tone coding that encodes a musical tone signal, the musical tone signal is converted into the frequency domain, as in the layer III method and the AAC method standardized by MPEG (Moving Picture Expert Group), and the psychoacoustics Transform coding that performs coding using a model is common. It is known that these systems hardly cause auditory degradation at a sampling frequency of 44.1 kHz at 64 kbit / s to 96 kbit / s per channel.
[0005]
However, when encoding a signal that is mainly an audio signal and music or environmental sound is superimposed on the background, if the audio encoding method is applied, only the signal in the background part is affected by the music in the background part or the environmental sound. There is also a problem that the audio signal is deteriorated and the overall quality is lowered. This is a problem that occurs because the speech coding method is based on a method specialized for a speech model called CELP. In addition, the signal band that can be handled by the speech coding method is up to 7 kHz, and there is a problem that it cannot fully cope with a signal having a higher frequency than that.
[0006]
On the other hand, since the musical sound coding can be performed with high quality for music, sufficient quality can be obtained even for audio signals having music and environmental sounds in the background as described above. The target signal band can also correspond to a CD quality of about 22 kHz. On the other hand, it is necessary to use a higher bit rate in order to realize high-quality encoding, and if the bit rate is reduced to about 32 kbit / s, the quality of the decoded signal is greatly reduced. . Therefore, there is a problem that it cannot be used in a communication network with a low transmission rate.
[0007]
Combining these techniques in order to avoid the problems described above, the input signal is first encoded with CELP in the first layer, and then the decoded signal is subtracted from the input signal to obtain a residual signal. A method of performing transform coding on the signal in the second and subsequent layers is conceivable. In this method, since the first layer uses CELP, the audio signal can be encoded with high quality, and in the second and subsequent layers, background music and environmental sounds that cannot be represented by the first layer are covered by the first layer. A signal having a frequency component higher than the frequency band can be efficiently encoded.
[0008]
However, in order to ensure sufficient quality when music is input instead of voice, it is necessary to increase the bit distribution to the second and subsequent layers, resulting in a problem that the bit rate increases. This is a problem that arises because a coding method specialized for speech such as CELP is applied to the first layer. That is, when a music signal is input, CELP used in the first layer does not have high coding efficiency for music, so an error signal between the input signal and the first layer decoded signal (that is, the second layer input signal). The power of will increase. As a result, it is necessary to allocate many bits to the second and subsequent layers to improve the quality of the final decoded signal.
[0009]
[Non-Patent Document 1]
"Code-Excited Linear Prediction (CELP): high quality speech at very low bit rates", Proc. ICASSP 85, pp.937-940, 1985.
[0010]
[Problems to be solved by the invention]
As described above, the conventional apparatus has a problem that it is difficult to perform high-quality encoding at a low bit rate.
[0011]
The present invention has been made in view of the above points, and an object thereof is to provide a hierarchical encoding method and a hierarchical decoding method for an acoustic signal that can perform high-quality encoding at a low bit rate.
[0012]
[Means for Solving the Problems]
Of the present invention According to the first aspect The hierarchical encoding method is a hierarchical encoding method that encodes an input speech signal, decodes a signal encoded in the previous stage, and encodes a difference between the decoded signal and the input signal, and includes a frame having a predetermined length. A first encoding step for encoding the input acoustic signal in units, and a second encoding step for encoding the difference between the signal obtained by decoding the encoding result of the previous stage and the input acoustic signal in one or more stages, A prediction filter step of generating a prediction residual signal from a signal obtained by decoding the encoding result of the second encoding step, and an update step of updating a codebook used for encoding based on the prediction of the prediction filter step I tried to do it.
[0013]
Of the present invention According to the second aspect In the hierarchical encoding method, in the first encoding step, the input acoustic signal is converted to CELP. By method The prediction filter step generates a prediction filter using the quantized LPC coefficients, and the update step passes a signal obtained by decoding the encoding result of the second encoding means to the prediction filter. The codebook is updated using the result.
[0014]
According to these methods, in hierarchical encoding in which a portion that cannot be encoded in an upper layer is encoded in a lower layer, a signal obtained by decoding an encoded signal in the second layer and later, and encoding in an upper layer By generating a prediction residual signal generated by upper layer encoding from the obtained LPC coefficients, and updating the upper layer adaptive codebook using this prediction residual signal, it is close to the encoding of the acoustic signal Coding can be performed with an adaptive codebook having a driving sound source, and high-quality coding can be performed at a low bit rate.
[0015]
Of the present invention According to the third aspect The hierarchical encoding method includes a downsampling step of downsampling an input audio signal, and an upsampling step of upsampling a signal obtained by decoding a previous encoding result, wherein the second encoding step includes upsampling. The difference between the signal obtained by decoding the subsequent encoding result in the previous stage and the input acoustic signal is encoded in one or more stages.
[0016]
According to this method, the input signal can be encoded corresponding to various sampling frequencies by setting the sampling frequency of the signal encoded in the lower layer higher than the sampling frequency of the signal encoded in the upper layer. .
[0017]
Of the present invention According to the fourth aspect The hierarchical encoding method includes a periodicity calculation step of measuring periodicity of an input acoustic signal, and the updating step is obtained by prediction of the prediction filter step when the periodicity is equal to or greater than a predetermined threshold. The codebook is updated using the predicted residual signal, and the codebook is updated using any one of the driving excitation signals generated when the periodicity is less than a predetermined threshold.
[0018]
According to this method, when the periodicity of the input acoustic signal is strong, the prediction accuracy by the adaptive codebook is updated by updating the internal state of the adaptive codebook using the prediction residual signal obtained from the decoded signal of the higher layer. And the performance is improved. Further, according to the hierarchical coding apparatus of the present embodiment, when the periodicity of the input sound signal is not strong, the aperiodic signal is obtained by updating the internal state of the adaptive codebook using the driving excitation signal. The effect on can be raised.
[0019]
Of the present invention According to the fifth aspect In the hierarchical coding method, the internal state of the adaptive codebook is updated using the prediction residual signal, the distortion obtained by actually encoding the input acoustic signal, and the internal state of the codebook are updated using the driving excitation signal. A determination step for determining which of the distortions obtained by actually encoding the input acoustic signal is small is provided, and the update step updates the codebook using the signal with the small distortion.
[0020]
According to this method, when determining whether to update the internal state of the adaptive codebook using the prediction residual signal or the driving excitation signal, the internal state of the adaptive codebook is updated using the prediction residual signal. The distortion obtained by actually encoding the input acoustic signal is compared with the distortion obtained by updating the internal state of the adaptive codebook using the driving sound source signal and actually encoding the input acoustic signal. By updating the internal state of the adaptive codebook using a signal with a small distortion, the internal state of the adaptive codebook is always updated using a signal with a small distortion, so that the quality can be improved.
[0021]
Of the present invention According to the sixth aspect The hierarchical decoding method is a hierarchical decoding method in which an input speech signal is encoded on the encoding side, a signal encoded in the previous stage is decoded, and a signal in which a difference between the decoded signal and the input signal is encoded is decoded. A first decoding step of decoding a signal obtained by encoding an input acoustic signal in units of a frame of a predetermined length, and a difference between the signal obtained by decoding the previous encoding result and the input acoustic signal in one or more stages A second decoding step of decoding and adding each of the signals encoded in step 1, a prediction filter step of generating a prediction residual signal from the decoding results of the first decoding step and the second decoding step, and the prediction And an update process for updating the codebook used for decoding based on the prediction of the filter process.
[0022]
Of the present invention According to the seventh aspect In the hierarchical decoding method, in the first decoding step, an input acoustic signal is Decode encoded signal by CELP method The prediction filter step generates a prediction filter using an LPC coefficient obtained by decoding the LPC coefficient encoded on the encoding side, and the update step includes the first decoding step and the second decoding step. The codebook is updated using the result obtained by passing the decoding result of the decoding step through the prediction filter.
[0023]
According to these methods, in decoding of a hierarchical encoding method in which a portion that cannot be encoded in an upper layer is encoded in a lower layer, a signal obtained by decoding an encoded signal in the second layer and later, By predicting the residual signal generated in the upper layer encoding from the LPC coefficients obtained by encoding, and updating the upper layer adaptive codebook using the predicted residual signal, the code of the acoustic signal Therefore, it is possible to decode with an adaptive codebook having a driving sound source close to the normalization, and to decode a high quality signal at a low bit rate.
[0024]
Of the present invention According to the eighth aspect The hierarchical decoding method includes an up-sampling step for up-sampling the preceding decoding result, an addition step for adding the up-sampled decoding result and the subsequent decoding result, and a down-sampling step for down-sampling the addition result. The prediction filter step generates a prediction residual signal from the decoded result after downsampling.
[0025]
According to this method, by making the sampling frequency of the signal to be decoded in the lower layer higher than the sampling frequency of the signal to be decoded in the upper layer, it is possible to decode the signal encoded with the signal corresponding to various sampling frequencies. it can.
[0026]
Of the present invention According to the ninth aspect In the hierarchical decoding method, the updating step determines whether to update the adaptive codebook using either the prediction residual signal obtained by prediction of the prediction filter step or the generated driving excitation signal on the encoding side. The codebook is updated based on the result.
[0027]
Of the present invention According to the tenth aspect The hierarchical encoding device is a hierarchical encoding device that encodes an input speech signal, decodes a signal encoded in the previous stage, and encodes a difference between the decoded signal and the input signal, and has a frame of a predetermined length First encoding means for encoding an input acoustic signal in units; second encoding means for encoding a difference between a signal obtained by decoding a previous encoding result and an input acoustic signal in one or more stages; Prediction filter means for generating a prediction residual signal from a signal obtained by decoding the encoding result of the second encoding means, and the first encoding means performs coding based on the prediction of the prediction filter means The codebook used for conversion was updated.
[0028]
According to this configuration, the result of determining on the code side whether to update the internal state of the adaptive codebook using the prediction residual signal or the driving excitation signal based on the strength of the periodicity of the input acoustic signal, etc. If the periodicity of the encoded acoustic signal is strong, the hierarchical coding method is used by updating the internal state of the adaptive codebook using the prediction residual signal obtained from the decoded signal of the higher layer. Can be decoded, and as a result, a high-quality acoustic signal can be decoded.
[0029]
Of the present invention According to the eleventh aspect In the hierarchical encoding device, the first encoding means converts the input acoustic signal to CELP. By method An encoding means, which is a codebook that holds drive sound source signals generated in the past, an LPC analysis means that obtains an LPC coefficient from an input acoustic signal, and a search for searching for a drive sound source signal having the smallest difference from the input audio signal The prediction filter means generates a prediction filter using the quantized LPC coefficients, and the first encoding means decodes the encoding result of the second encoding means A configuration is adopted in which the codebook is updated using the result of passing the signal through the prediction filter.
[0030]
According to this configuration, in hierarchical encoding in which a portion that cannot be encoded in the upper layer is encoded in the lower layer, the signal obtained by decoding the encoded signal in the second layer and later and the encoding in the upper layer are obtained. By generating a predictive residual signal from the LPC coefficients generated and updating the adaptive codebook of the upper layer using the predicted residual signal, an adaptive codebook having a driving sound source close to the encoding of the acoustic signal can be obtained. Encoding can be performed, and high-quality encoding can be performed at a low bit rate.
[0031]
Of the present invention According to the twelfth aspect The hierarchical coding apparatus includes a down-sampling unit that down-samples an input acoustic signal and outputs the down-sampled signal to the first coding unit or the second coding unit, and up-samples a signal obtained by decoding the previous coding result. Sampling means, and the second encoding means encodes a difference between a signal obtained by decoding a previous encoding result after upsampling and an input acoustic signal in one or more stages.
[0032]
According to this configuration, by making the sampling frequency of the signal to be encoded in the lower layer higher than the sampling frequency of the signal to be encoded in the upper layer, the input signal can be encoded corresponding to various sampling frequencies. .
[0033]
Of the present invention According to the thirteenth aspect In the hierarchical encoding device, the first encoding unit determines whether to update the adaptive codebook using either the prediction residual signal obtained by the prediction of the prediction filter unit or the generated driving excitation signal The structure which comprises a means is taken.
[0034]
Of the present invention According to the fourteenth aspect In the hierarchical encoding device, the first encoding unit includes a periodicity calculating unit that measures the periodicity of an input acoustic signal, and the determining unit is configured to detect the periodicity when the periodicity is equal to or greater than a predetermined threshold value. The codebook is updated using the prediction residual signal obtained by the prediction of the prediction filter means, and the codebook is updated using the driving excitation signal generated when the periodicity is less than a predetermined threshold value. A configuration for determining is adopted.
[0035]
According to these configurations, when the periodicity of the input acoustic signal is strong, prediction by the adaptive codebook is performed by updating the internal state of the adaptive codebook using the prediction residual signal obtained from the decoded signal of the higher layer. Increases accuracy and improves performance. Further, according to the hierarchical coding apparatus of the present embodiment, when the periodicity of the input sound signal is not strong, the aperiodic signal is obtained by updating the internal state of the adaptive codebook using the driving excitation signal. The effect on can be raised.
[0036]
Of the present invention According to the fifteenth aspect In the hierarchical encoding device, the determination means updates the internal state of the adaptive codebook using the prediction residual signal and actually encodes the input acoustic signal, and the adaptive codebook using the driving excitation signal. And determining which of the distortions obtained by actually encoding the input acoustic signal is small, and the first encoding means determines to update the codebook using the signal with the low distortion. The structure to do is taken.
[0037]
According to this configuration, when determining whether to update the internal state of the adaptive codebook using the prediction residual signal or the driving excitation signal, the internal state of the adaptive codebook is updated using the prediction residual signal. The distortion obtained by actually encoding the input acoustic signal is compared with the distortion obtained by updating the internal state of the adaptive codebook using the driving sound source signal and actually encoding the input acoustic signal. By updating the internal state of the adaptive codebook using a signal with a small distortion, the internal state of the adaptive codebook is always updated using a signal with a small distortion, so that the quality can be improved.
[0038]
Of the present invention According to the sixteenth aspect The hierarchical decoding device is a hierarchical decoding device that encodes an input speech signal on the encoding side, decodes a signal encoded in the previous stage, and decodes a signal obtained by encoding a difference between the decoded signal and the input signal. A first decoding means for decoding a signal obtained by encoding an input acoustic signal in units of a frame of a predetermined length; and a difference between the input acoustic signal and a signal obtained by decoding a previous encoding result in one or more stages Second decoding means for decoding and adding each of the signals encoded in step 1, and prediction filter means for generating a prediction residual signal from the decoding results of the first decoding means and the second decoding means And the said decoding means takes the structure which updates the codebook used for decoding based on the prediction of the said prediction filter means.
[0039]
Of the present invention According to the seventeenth aspect In the hierarchical decoding device, the first decoding means receives the input acoustic signal. Decode encoded signal by CELP method The prediction filter means generates a prediction filter using an LPC coefficient obtained by decoding an LPC coefficient encoded on the encoding side, and the first decoding means includes the first decoding means A configuration is adopted in which the codebook is updated using the result obtained by passing the decoding results of the decoding means and the second decoding means through the prediction filter.
[0040]
According to these configurations, in the decoding of the hierarchical encoding method in which the portion that cannot be encoded in the upper layer is encoded in the lower layer, the signal obtained by decoding the encoded signal of the second layer and later, A prediction residual signal is generated from the LPC coefficients obtained by encoding, and the adaptive codebook of the upper layer is updated using the predicted residual signal, thereby having a driving sound source close to the encoding of the acoustic signal It can be decoded by an adaptive codebook, and a high-quality signal can be decoded at a low bit rate.
[0041]
Of the present invention According to the 18th aspect The hierarchical decoding apparatus includes an upsampling unit for upsampling a preceding decoding result, an adding unit for adding the upsampled decoding result and a subsequent decoding result, and a downsampling unit for downsampling the addition result of the adding unit And the filter means generates a prediction residual signal from the decoded result after downsampling.
[0042]
According to this configuration, it is possible to decode a signal obtained by encoding a signal corresponding to various sampling frequencies by setting the sampling frequency of the signal decoded in the lower layer higher than the sampling frequency of the signal decoded in the upper layer. it can.
[0043]
Of the present invention According to the nineteenth aspect In the hierarchical decoding device, the first decoding unit updates the adaptive codebook using either the prediction residual signal obtained by the prediction of the prediction filter unit or the generated driving excitation signal on the encoding side. A configuration is adopted in which the codebook is updated based on the determination result.
[0044]
According to this configuration, the result of determining on the code side whether to update the internal state of the adaptive codebook using the prediction residual signal or the driving excitation signal based on the strength of the periodicity of the input acoustic signal, etc. If the periodicity of the encoded acoustic signal is strong, the hierarchical coding method is used by updating the internal state of the adaptive codebook using the prediction residual signal obtained from the decoded signal of the higher layer. Can be decoded, and as a result, a high-quality acoustic signal can be decoded.
[0045]
Of the present invention According to the twentieth aspect The acoustic signal transmitting apparatus includes an acoustic input unit that converts an acoustic signal into an electrical signal, an A / D conversion unit that converts a signal output from the acoustic input unit into a digital signal, and an output from the A / D conversion unit. The hierarchical encoding device that encodes the digital signal that has been encoded, the RF modulation unit that modulates the encoded code output from the encoding device into a radio frequency signal, and the signal output from the RF modulation unit And a transmission antenna that converts and transmits the data.
[0046]
According to this configuration, in hierarchical encoding in which a portion that cannot be encoded in the upper layer is encoded in the lower layer, the signal obtained by decoding the encoded signal in the second layer and later and the encoding in the upper layer are obtained. By generating a predictive residual signal from the LPC coefficients generated and updating the adaptive codebook of the upper layer using the predicted residual signal, an adaptive codebook having a driving sound source close to the encoding of the acoustic signal can be obtained. Encoding can be performed, and high-quality encoding can be performed at a low bit rate.
[0047]
Of the present invention According to the 21st aspect The acoustic signal receiving device includes a receiving antenna that receives radio waves, an RF demodulating unit that demodulates a signal received by the receiving antenna, and the hierarchical decoding device that decodes information obtained by the RF demodulating unit, A configuration comprising D / A conversion means for converting a signal output from the decoding device into an analog signal, and an acoustic output means for converting an electrical signal output from the D / A conversion means into an acoustic signal. Take.
[0048]
According to this configuration, in decoding of a hierarchical encoding method in which a portion that cannot be encoded in an upper layer is encoded in a lower layer, a signal obtained by decoding an encoded signal in the second layer and later, and an upper layer code By generating a prediction residual signal from the LPC coefficients obtained by the encoding and updating the adaptive codebook of the upper layer using the predicted residual signal, an adaptive having a driving sound source close to the encoding of the acoustic signal It can be decoded by a codebook, and a high-quality signal can be decoded at a low bit rate.
[0049]
Of the present invention According to the twenty-second aspect The communication terminal device employs a configuration including at least one of the acoustic signal transmitting device and the acoustic signal receiving device. Of the present invention According to the 23rd aspect The base station apparatus employs a configuration including at least one of the acoustic signal transmitting apparatus and the acoustic signal receiving apparatus.
[0050]
According to these configurations, in hierarchical encoding in which a portion that cannot be encoded in an upper layer is encoded in a lower layer, a signal obtained by decoding an encoded signal in the second layer and later, and encoding in an upper layer By generating a prediction residual signal from the obtained LPC coefficients and updating the adaptive codebook of the upper layer using the predicted residual signal, an adaptive codebook having a driving sound source close to the encoding of the acoustic signal Thus, high-quality encoding can be performed at a low bit rate.
[0051]
DETAILED DESCRIPTION OF THE INVENTION
The essence of the present invention is obtained by decoding a signal obtained by decoding an encoded signal of the second layer and later and encoding of an upper layer in hierarchical encoding that encodes a portion that cannot be encoded by an upper layer. By generating a predictive residual signal from the LPC coefficients generated and updating the adaptive codebook of the upper layer using the predicted residual signal, an adaptive codebook having a driving sound source close to the encoding of the acoustic signal can be obtained. The encoding is to perform high quality encoding at a low bit rate.
[0052]
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the following description of the embodiments, the case where the number of layers N is 3 will be described. However, the present invention is not limited to this value, and can be applied to a configuration that satisfies the condition of N ≧ 2. .
[0053]
(Embodiment 1)
FIG. 1 is a block diagram showing the configuration of the hierarchical coding apparatus according to Embodiment 1 of the present invention. The hierarchical encoding apparatus 100 of FIG. 1 includes an input terminal 101, a first layer encoding unit 102, a first layer decoding unit 103, a delay unit 104, a subtractor 105, and a second layer encoding unit 106. A second layer decoding unit 107, an adder 108, a delay unit 109, a subtractor 110, a third layer encoding unit 111, a third layer decoding unit 112, an adder 113, and a multiplex Mainly comprising a conversion unit 114, an output terminal 115, and a prediction filter 116.
[0054]
In the present embodiment, it is assumed that the sampling frequencies of the signals input to each layer are the same, and the sampling frequency is represented as Fs. An acoustic signal having a sampling frequency Fs is input from the input terminal 101 and provided to the first layer encoding unit 102.
[0055]
First layer encoding section 102 has an adaptive codebook that holds previously generated drive excitation signals as internal states, and efficiently encodes signals with strong periodicity by using the adaptive codebook. be able to. The first layer encoding unit 102 determines the first encoded code so that audible distortion between the input acoustic signal and the decoded signal generated after encoding is minimized. As a typical method applied to the first layer encoding unit 102, code excitation is performed. Shake There is a linear prediction method (CELP), which will be described in detail later.
[0056]
Then, first layer encoding section 102 outputs the obtained first encoded code to first layer decoding section 103 and multiplexing section 114. First layer decoding section 103 generates a first layer decoded signal using the first encoded code, and outputs this first layer decoded signal to subtractor 105 and adder 108.
[0057]
The delay unit 104 delays the acoustic signal input from the input terminal 101 by a predetermined time length and outputs the delayed signal to the subtractor 105. That is, the delay unit 104 has a role of correcting a delay generated in the first layer encoding unit 102 and the first layer decoding unit 103.
[0058]
The subtractor 105 takes the difference between the output signal of the delay unit 104 and the first layer decoded signal and generates a second layer residual signal. Subtractor 105 then outputs the second layer residual signal to second layer encoding section 106.
[0059]
Second layer encoding section 106 encodes the second layer residual signal so that quality improvement is made audibly, and determines a second encoded code. Then, second layer encoding section 106 outputs second layer decoding section 107 and the second encoded code to multiplexing section 114.
[0060]
Similarly, a second encoded code is given to second layer decoding section 107, and second layer decoding section 107 performs a decoding process using the second encoded code to generate a second layer decoded residual signal. The second layer decoded residual signal is output to adder 108.
[0061]
Adder 108 takes the sum of the first layer decoded signal and the second layer decoded residual signal and generates a second layer decoded signal. The adder 108 outputs the second layer decoded signal to the subtractor 110 and the adder 113.
[0062]
Next, the delay unit 109 delays the acoustic signal input from the input terminal 101 by a predetermined time length, and then outputs the acoustic signal to the subtractor 110. That is, the delay unit 109 delays in the encoding unit and decoding unit up to the previous stage, specifically, the first layer encoding unit 102, the first layer decoding unit 103, the second layer encoding unit 106, and the first layer encoding unit. It has a role of correcting a delay generated in the two-layer decoding unit 107.
[0063]
The subtractor 110 takes the difference between the output signal of the delay unit 109 and the above-described second layer decoded signal and generates a third layer residual signal. Then, the subtractor 110 outputs the third layer residual signal to the third layer encoding unit 111.
[0064]
Third layer encoding section 111 determines the third encoded code by encoding the third layer residual signal so that quality improvement is made audibly and performs third layer decoding on the third encoded code. Output to the multiplexing unit 112 and the multiplexing unit 114.
[0065]
Third layer decoding section 112 performs a decoding process using the third encoded code, generates a third layer decoded residual signal, and outputs this third layer decoded residual signal to adder 113.
[0066]
Adder 113 takes the sum of the second layer decoded signal and the third layer decoded residual signal, generates a third layer decoded signal, and outputs this third layer decoded signal to prediction filter 116.
[0067]
The multiplexing unit 114 multiplexes the first encoded code, the second encoded code, and the third encoded code by a predetermined means to generate an encoded bit string. Then, the multiplexing unit 114 outputs this encoded bit string from the output terminal 115.
[0068]
The third layer decoded signal generated by adder 113 is provided to prediction filter 116.
[0069]
The prediction filter 116 applies a prediction filter to the third layer decoded signal, generates a prediction residual signal, and outputs the prediction residual signal to the first layer encoding unit 102. The prediction filter is configured by LPC coefficients after quantization calculated by the first layer encoding unit 102. When the third layer decoded signal is syn3 (k), the prediction residual signal is e (k), and the quantized LPC coefficient is αq (i), the prediction residual signal e (k) is expressed by the following equation (1). It is represented by
[0070]
[Expression 1]
Figure 0004373693
Here, NP represents the order of the LPC coefficient.
[0071]
The first layer encoding unit 102 uses the prediction residual signal obtained in the above description as an internal state of the adaptive codebook included in the first layer encoding unit 102.
[0072]
Details of first layer encoding section 102 will be described below. Here, a case where CELP is used for first layer encoding section 102 will be described as an example. However, as a requirement of the present invention, an adaptive code in which past drive excitation signals are held as internal states in first layer encoding section Any encoding method may be used as long as a book exists, and the present invention is not limited to CELP.
[0073]
FIG. 2 is a block diagram showing an internal configuration of the first layer encoding unit of the hierarchical encoding apparatus according to the present embodiment. The first layer encoding unit in FIG. 2 is a configuration diagram based on a typical configuration of CELP. 2 corresponds to the first layer encoding unit 102 in FIG. 1. In FIG. 2, the first layer encoding unit 102 includes an input terminal 201, an LPC analyzer 202, an LPC quantizer 203, an LPC decoder 204, an auditory weight filter 205, and an auditory weighted synthesis filter 206. , Adaptive codebook 207, noise codebook 208, multiplier 209, multiplier 210, gain codebook 211, adder 212, subtractor 213, searcher 214, multiplexer 215, An output terminal 216, an output terminal 217, and an input terminal 218 are mainly configured.
[0074]
An acoustic signal input from the input terminal 101 in FIG. 1 is input to the input terminal 201. The LPC analyzer 202 obtains an LPC coefficient from the acoustic signal having the sampling rate Fs input from the input terminal 201. This LPC coefficient is used to improve auditory quality. The LPC analyzer 202 outputs the LPC coefficient to the LPC quantizer 203, the perceptual weight filter 205, and the perceptual weighted synthesis filter 206.
[0075]
The LPC quantizer 203 converts the LPC coefficient into a parameter suitable for quantization such as an LSP coefficient, and performs quantization. Then, the LPC quantizer 203 outputs the encoded code obtained by this quantization to the LPC decoder 204 and the multiplexing unit 215.
[0076]
The LPC decoder 204 calculates the LSP coefficient after quantization from the encoded code, converts it to the LPC coefficient, and obtains the LPC coefficient after quantization. Then, the LPC decoder 204 outputs the quantized LPC coefficients to the auditory weighted synthesis filter 206 and the output terminal 217. The quantized LPC coefficients are used for adaptive codebook, adaptive gain, noise codebook, and noise gain coding. Further, the quantized LPC coefficient is output from the output terminal 217 and is provided to the prediction filter 116 of FIG. 1 as described above, and is used when obtaining the prediction residual signal e (k).
[0077]
The audibility weight filter 205 weights the input signal based on the LPC coefficient obtained by the LPC analyzer 202. This is performed for the purpose of spectrum shaping so that the spectrum of the quantization distortion is masked by the spectrum envelope of the input signal. Then, the audibility weight filter 205 outputs the weighted input signal to the subtractor 213.
[0078]
Next, a description will be given of a configuration part for searching for an adaptive vector, an adaptive vector gain, a noise vector, and a noise vector gain.
[0079]
The adaptive codebook 207 holds a driving excitation signal generated in the past as an internal state, and generates an adaptive vector by repeating this internal state at a desired pitch period. The range taken by the pitch period is appropriately between 60 Hz and 400 Hz in consideration of the pitch period of the actual voice. Then, adaptive codebook 207 sequentially outputs the driving excitation signal held therein to adaptive multiplier 209 as an adaptive vector.
[0080]
Multiplier 209 multiplies the adaptive vector by the adaptive vector gain output from gain codebook 211 and outputs the result to adder 212.
[0081]
Also, the noise codebook 208 outputs a noise vector stored in advance in a storage area or a vector generated according to a rule without a storage area such as an algebraic structure as a noise vector.
[0082]
Multiplier 210 multiplies this noise vector by the noise vector gain output from gain codebook 211 and outputs the result to adder 212.
[0083]
The adder 212 adds the adaptive vector multiplied by the adaptive vector gain and the noise vector multiplied by the noise vector gain to generate a driving sound source signal, and outputs the driving sound source signal to the auditory weighted synthesis filter 206. .
[0084]
The auditory weighted synthesis filter 206 passes the driving sound source signal through the auditory weighted synthesis filter to generate an auditory weighted synthesized signal, and outputs the auditory weighted synthesized signal to the subtractor 213.
[0085]
The subtractor 213 subtracts the perceptual weighted composite signal from the perceptual weighted input signal, and outputs the subtracted signal to the searcher 214.
[0086]
The searcher 214 efficiently searches for a combination of an adaptive vector, an adaptive vector gain, a noise vector, and a noise vector gain that minimizes the distortion defined from the subtracted signal, and multiplexes the searched encoded codes. To 215.
[0087]
The searcher 214 determines the encoded code i, j, m or the encoded code i, j, m, n that minimizes the distortion defined by the following formula (2) or (3) and uses them. The data is sent to the multiplexing unit 215.
[0088]
[Expression 2]
Figure 0004373693
[Equation 3]
Figure 0004373693
Here, t (k) is an auditory weighted input signal, pi (k) is a signal obtained by passing the i-th adaptive vector through an auditory weighted synthesis filter, and ej (k) is a j-th noise vector. Signals β and γ obtained through the auditory weighted synthesis filter represent the adaptive vector gain and the noise vector gain, respectively. The structure of the gain codebook differs between Expression (2) and Expression (3). In Expression 2, the gain codebook is represented as a vector having adaptive vector gain βm and noise vector gain γm as elements, and the vector is expressed as The encoding code m for specifying is determined. In the case of Equation 3, the gain codebook has an adaptive vector gain βm and a noise vector gain γn independently, and the respective encoded codes m and n are determined independently.
[0089]
If optimization of the adaptive vector, adaptive vector gain, noise vector, and noise vector gain is attempted simultaneously, the amount of computation becomes enormous, and countermeasures are necessary. In general, an optimum vector or value is determined in the order of an adaptive vector, adaptive vector gain, noise vector, and noise vector gain.
[0090]
After the encoding code is determined by the searcher 214, the multiplexing unit 215 combines these encoded codes into one and outputs them from the output terminal 216.
[0091]
After the encoding process is completed, the internal state of the adaptive codebook is updated in preparation for the encoding process in the next frame (or subframe).
[0092]
The prediction filter 116 uses the third layer decoded signal syn (n) obtained from the adder 113 and the quantized LPC coefficient αq (i) obtained from the first layer encoding unit 102 to use the prediction residual signal r. (N) is output. The internal state in the adaptive codebook is updated using this prediction residual signal r (n). The prediction filter 116 configures a prediction filter using the quantized LPC coefficient αq (i), and inputs the third layer decoded signal syn (n) to the prediction filter, thereby predicting a residual signal r (n). Will be calculated. The prediction residual signal r (n) is calculated according to the following equation (4).
[0093]
[Expression 4]
Figure 0004373693
Here, NP represents the order of the LPC coefficient.
[0094]
The feature of the present invention is in the above-described part. In the conventional method, the internal state of the adaptive codebook 207 is updated using the driving excitation signal obtained by the adder 212. However, in the present invention, the input terminal 218 is used. Is used to update the internal state of the adaptive codebook. The effect of the present invention will be described with reference to FIG.
[0095]
FIG. 3 is a diagram showing the relationship between an input acoustic signal and the corresponding first layer decoded signal, second layer decoded signal, and third layer decoded signal. In the conventional method, the adaptive codebook is updated using the driving excitation signal corresponding to the first layer decoded signal.
[0096]
When the decoded signals of the respective layers are compared, the signal closest to the input acoustic signal is the third layer decoded signal, and then the second layer decoded signal and the first layer decoded signal are in this order. This is because in the present embodiment, encoding is performed so that the error between the input acoustic signal and the decoded signal becomes smaller as the number of layers increases. On the other hand, the performance of the adaptive codebook increases as the internal state of the adaptive codebook becomes similar to the input acoustic signal. Therefore, when the internal state of the adaptive codebook is updated using the third layer decoded signal, more efficient coding can be realized. Since the internal state of the adaptive codebook needs to be a driving excitation signal, in practice, a prediction residual signal is obtained from the third layer decoded signal using the LPC coefficient, and the adaptive code using this prediction residual signal is obtained. The internal state of the book will be updated.
[0097]
As described above, according to the hierarchical encoding apparatus of the present embodiment, in the hierarchical encoding in which the portion that cannot be encoded in the upper layer is encoded in the lower layer, the encoded signals in the second and subsequent layers are decoded. The residual signal generated in the higher layer encoding is predicted from the received signal and the LPC coefficient obtained by the higher layer encoding, and the upper layer adaptive codebook is updated using the predicted residual signal. Thus, encoding can be performed with an adaptive codebook having a driving sound source close to the encoding of an acoustic signal, and high-quality encoding can be performed at a low bit rate.
[0098]
In the above description, the prediction filter 116 creates a prediction residual signal using the third layer decoded signal and the quantized LPC coefficient obtained from the first layer encoding unit 102, and the first layer encoding unit 102 updates the internal state of the adaptive codebook using this prediction residual signal, but the prediction filter 116 may create a prediction residual signal using the second layer decoded signal. That is, the decoded signal necessary to create the prediction residual signal may be any number of layers as long as it encodes the residual signal that cannot be encoded by the first layer encoding.
[0099]
FIG. 4 is a block diagram showing the configuration of the hierarchical coding apparatus according to Embodiment 1 of the present invention. In FIG. 4, components having the same numbers as those in FIG. 1 have the same functions and will not be described here. The feature of this embodiment is that an intermediate layer decoded signal (second layer decoded signal in FIG. 4) is supplied to the prediction filter 116 and the output signal is used to update the internal state of the adaptive codebook 207. According to this configuration, there is a feature that scalability to an intermediate layer can be secured.
[0100]
Adder 108 takes the sum of the first layer decoded signal and the second layer decoded residual signal and generates a second layer decoded signal. Adder 108 then outputs the second layer decoded signal to subtractor 110 and prediction filter 116.
[0101]
The prediction filter 116 applies a prediction filter to the second layer decoded signal, generates a prediction residual signal, and outputs the prediction residual signal to the first layer encoding unit 102.
[0102]
The first layer encoding unit 102 uses the prediction residual signal obtained by the prediction filter 116 as the internal state of the adaptive codebook inherent in the first layer encoding unit 102. The first layer encoding unit 102 determines the first encoded code so that audible distortion between the input acoustic signal and the decoded signal generated after encoding is minimized. Then, first layer encoding section 102 outputs the obtained first encoded code to first layer decoding section 103 and multiplexing section 114.
[0103]
As described above, according to the hierarchical coding apparatus of the present embodiment, the intermediate layer decoded signal is supplied to the prediction filter, and the output signal is used to update the internal state of the adaptive codebook of the first layer coding. Scalability up to the middle layer can be secured.
[0104]
(Embodiment 2)
In the present embodiment, an example in which a signal encoded by the hierarchical encoding apparatus according to Embodiment 1 is decoded will be described. The feature of this embodiment is that it is possible to decode the encoding code of the hierarchical encoding method described in Embodiment 1, and as a result, it is possible to decode a high-quality acoustic signal.
[0105]
FIG. 5 is a block diagram showing the configuration of the hierarchical decoding apparatus according to Embodiment 2 of the present invention. The hierarchical decoding apparatus 300 in FIG. 5 includes an input terminal 301, a separation unit 302, a first layer decoding unit 303, a second layer decoding unit 304, a third layer decoding unit 305, and an adder 306. And an adder 307, a prediction filter 308, and an output terminal 309.
[0106]
An encoded bit string encoded by the hierarchical encoding apparatus in FIG. 1 is input from the input terminal 301.
[0107]
Separating section 302 separates the encoded bit string, the first encoded code obtained by the first layer encoding, the second encoded code obtained by the second layer encoding, and the third encoded by the third layer encoding Generate an encoded code. Separation section 302 then outputs the first encoded code to first layer decoding section 303, outputs the second encoded code to second layer decoding section 304, and converts the third encoded code to the third layer. The data is output to the decoding unit 305.
[0108]
First layer decoding section 303 performs a decoding process using the first encoded code obtained by demultiplexing section 302, and generates a first layer decoded signal.
[0109]
Next, second layer decoding section 304 performs a decoding process using the second encoded code obtained by demultiplexing section 302, and generates a second layer decoded residual signal. Adder 306 adds the first layer decoded signal and the second layer decoded residual signal to generate a second layer decoded signal. Adder 306 then outputs the second layer decoded signal to adder 307.
[0110]
Next, third layer decoding section 305 performs a decoding process using the third encoded code obtained by demultiplexing section 302, and generates a third layer decoded residual signal. Adder 307 adds the above-described second layer decoded signal and third layer decoded residual signal to generate a third layer decoded signal. Adder 307 outputs the third layer decoded signal to prediction filter 308 and output terminal 309.
[0111]
The prediction filter 308 performs the same process as the prediction filter 116 of the first embodiment described above, and generates a prediction residual signal. A decoded LPC coefficient obtained by the first layer decoding unit is used for the LPC coefficient after quantization used in the prediction filter 308. In addition, the prediction residual signal generated by the prediction filter 308 is given to the first layer decoding unit, and is used to update the internal state of the adaptive codebook included in the first layer decoding unit.
[0112]
In order to describe this situation in detail, the first layer decoding unit 303 will be described next. Here, a case where CELP is used for first layer decoding section 303 will be described as an example. However, as a requirement of the present invention, any decoding method having an adaptive codebook in the first layer decoding section may be used. The invention is not limited to CELP.
[0113]
FIG. 6 is a block diagram showing an internal configuration of the first layer decoding unit of the hierarchical decoding apparatus according to the present embodiment. The 1st layer decoding part of FIG. 6 is a block diagram when based on the typical structure of CELP. 6 corresponds to the first layer decoding unit 303 in FIG. 5. In FIG. 6, the first layer decoding unit 303 includes an input terminal 401, a separation unit 402, an adaptive codebook 403, a noise codebook 404, a gain codebook 405, a multiplier 406, and a multiplier 407. , An adder 408, an LPC decoder 409, a synthesis filter 410, an output terminal 412, an output terminal 413, and an input terminal 414.
[0114]
Separating section 402 separates the encoded code from the first encoded code input from input terminal 401, and outputs the encoded code to adaptive codebook 403, noise codebook 404, gain codebook 405, and LPC decoder 409.
[0115]
The LPC decoder 409 decodes the LPC coefficient using the given encoded code, and outputs it to the synthesis filter 410 and the output terminal 412. The LPC coefficient output from the output terminal 412 is used in the prediction filter 308 described above.
[0116]
Next, adaptive codebook 403 decodes adaptive vector q (k) using the encoded code and outputs the result to multiplier 406. The noise codebook 404 decodes the noise vector c (k) using the encoded code and outputs it to the multiplier 407.
[0117]
The gain codebook 405 decodes the adaptive vector gain βq and the noise vector gain γq using the encoded code. Multiplier 406 then outputs adaptive vector gain βq to multiplier 406 and outputs noise vector gain γq to multiplier 407.
[0118]
Multiplier 406 multiplies the adaptive vector and the adaptive vector gain and outputs the result to adder 408. Multiplier 407 multiplies the noise vector and the noise vector gain and outputs the result to adder 408. The adder 408 adds the signals of the adaptive vector and the noise vector after multiplication to generate a driving sound source signal. When the driving sound source signal is expressed as ex (k), the driving sound source signal ex (k) is obtained by the following equation (5).
[0119]
[Equation 5]
Figure 0004373693
Next, a synthesized signal syn (k) is generated by the synthesis filter 410 using the decoded LPC coefficient and the driving excitation signal ex (k) according to the following equation (6).
[0120]
[Formula 6]
Figure 0004373693
Here, αq (i) represents the decoded LPC coefficient, and NP represents the order of the LPC coefficient. The decoded signal syn (n) decoded by the above operation is output from the output terminal 413.
[0121]
After the decoding process is completed, the internal state of the adaptive codebook is updated using the latest driving excitation signal in preparation for the decoding process in the next frame (or subframe).
[0122]
The feature of the present invention is described above, and in the conventional method, the internal state of the adaptive codebook 403 is updated using the driving excitation signal obtained by the adder 408. In the present invention, however, the input from the input terminal 414 is used. The internal state of the adaptive codebook is updated using the output signal (prediction residual signal) of the prediction filter 308.
[0123]
As described above, according to the hierarchical decoding device of the present embodiment, in the decoding of the hierarchical encoding method in which the portion that cannot be encoded in the upper layer is encoded in the lower layer, the encoding in the second and subsequent layers is performed. A prediction residual signal is generated from a signal obtained by decoding the signal and an LPC coefficient obtained by encoding the upper layer, and the adaptive codebook of the upper layer is updated using the predicted residual signal, thereby generating an acoustic signal. Decoding can be performed with an adaptive codebook having a driving excitation similar to signal coding, and high-quality signals can be decoded at a low bit rate.
[0124]
In the above description, the prediction filter 308 creates a prediction residual signal using the third layer decoded signal and the LPC coefficient after quantization obtained from the first layer encoding unit 102, and the adaptive codebook 403 Although the internal state of the adaptive codebook is updated using this prediction residual signal, the prediction filter 308 may create a prediction residual signal using the second layer decoded signal. That is, the decoded signal necessary to create the prediction residual signal may be any number of layers as long as it encodes the residual signal that cannot be encoded by the first layer encoding.
[0125]
FIG. 7 is a block diagram showing the configuration of the hierarchical decoding apparatus according to Embodiment 2 of the present invention. In FIG. 7, components having the same numbers as those in FIG. 5 have the same functions and description thereof is omitted here. A feature of the present embodiment is that an intermediate layer decoded signal (second layer decoded signal in FIG. 7) is supplied to the prediction filter 308, and an output signal of the prediction filter 308 is used to update the internal state of the adaptive codebook 403 in FIG. There is in point to use. According to this configuration, there is a feature that scalability to an intermediate layer can be secured.
[0126]
Adder 306 adds the first layer decoded signal and the second layer decoded residual signal to generate a second layer decoded signal. Adder 306 then outputs the second layer decoded signal to adder 307 and prediction filter 308.
[0127]
Next, third layer decoding section 305 performs a decoding process using the third encoded code obtained by demultiplexing section 302, and generates a third layer decoded residual signal. Adder 307 adds the above-described second layer decoded signal and third layer decoded residual signal to generate a third layer decoded signal. Adder 307 outputs the third layer decoded signal to output terminal 309.
[0128]
The prediction filter 308 generates a prediction residual signal from the quantized LPC coefficients generated by the first layer decoding unit 303 and the second layer decoded signal generated by the adder 306. And the prediction residual signal produced | generated by the prediction filter 308 is given to a 1st layer decoding part, and is used for the update of the internal state of the adaptive codebook which exists in a 1st layer decoding part.
[0129]
As described above, according to the hierarchical decoding apparatus of the present embodiment, the intermediate layer decoded signal is supplied to the prediction filter, and the output signal is used to update the internal state of the adaptive codebook for the first layer decoding. Scalability up to the middle layer can be secured.
[0130]
(Embodiment 3)
FIG. 8 is a block diagram showing the configuration of the hierarchical coding apparatus according to Embodiment 3 of the present invention. 8 includes an input terminal 501, a DS1 unit 502, a first layer encoding unit 503, a first layer decoding unit 504, a US1 unit 505, a DS2 unit 506, and a delay unit. 507, a subtracter 508, a second layer encoding unit 509, a second layer decoding unit 510, an adder 511, a US2 unit 512, a delay unit 513, a subtracter 514, and a third layer code 515, third layer decoding section 516, adder 517, multiplexing section 518, output terminal 519, DS3 section 520, and prediction filter 521.
[0131]
The hierarchical encoding apparatus in FIG. 8 decodes an upper layer encoded signal, and encodes a difference between a signal obtained by up-sampling the decoded signal and an input acoustic signal in the lower layer, and encodes in the lower layer. 1 is different from the hierarchical encoding apparatus of FIG. 1 in that the sampling frequency of the signal is higher than the sampling frequency of the signal encoded in the upper layer.
[0132]
The present embodiment is characterized in that the sampling frequency of the signal input to each layer has a relationship represented by the following equation (7).
[0133]
[Expression 7]
Figure 0004373693
Here, Fs (n) represents the sampling frequency of the n-th layer signal. According to the present embodiment, it is possible to perform encoding corresponding to a plurality of sampling frequencies.
[0134]
An acoustic signal having a sampling frequency Fs (3) is input from the input terminal 501 and provided to the DS1 unit 502.
[0135]
The DS1 unit 502 down-samples the input acoustic signal and lowers the sampling frequency of the input acoustic signal from Fs (3) to Fs (1). DS1 section 502 then outputs an input signal of sampling frequency Fs (1) to first layer encoding section 503.
[0136]
First layer encoding section 503 has an adaptive codebook that holds previously generated drive excitation signals as internal states, and efficiently encodes signals with strong periodicity by using the adaptive codebook. be able to. First layer encoding section 503 determines the first encoded code so that the perceptual distortion between the input acoustic signal and the decoded signal generated after encoding is minimized. As a typical method applied to the first layer encoding unit 503, code excitation is performed. Shake There is a linear prediction method (CELP).
[0137]
Then, first layer encoding section 503 outputs the obtained first encoded code to first layer decoding section 504 and multiplexing section 518. First layer decoding section 504 generates a first layer decoded signal using the first encoded code, and outputs this first layer decoded signal to US1 section 505.
[0138]
US1 unit 505 upsamples the first layer decoded signal and raises the sampling frequency from Fs (1) to Fs (2). Then, the US1 unit 505 outputs the first layer decoded signal having the sampling frequency Fs (2) to the subtracter 508 and the adder 511.
[0139]
Next, an acoustic signal input from the input terminal 501 is given to the DS2 unit 506. The DS2 unit 506 downsamples the input acoustic signal and lowers the sampling frequency of the input acoustic signal from Fs (3) to Fs (2). Then, the DS2 unit 506 outputs the input signal of the sampling frequency Fs (2) to the delay unit 507.
[0140]
The delay unit 507 delays the acoustic signal input from the input terminal 501 by a predetermined time length and outputs the delayed signal to the subtracter 508. That is, it has a role of correcting delays generated in the DS1 unit 502, the first layer encoding unit 503, the first layer decoding unit 504, the US1 unit 505, and the DS2 unit 506.
[0141]
The subtractor 508 takes the difference between the output signal of the delay unit 507 and the first layer decoded signal, and generates a second layer residual signal. Then, the subtracter 508 outputs the second layer residual signal to the second layer encoding unit 509.
[0142]
Second layer encoding section 509 encodes the second layer residual signal so that quality improvement is made audibly, and determines a second encoded code. Then, second layer encoding section 509 outputs second layer decoding section 510 and the second encoded code to multiplexing section 518.
[0143]
Second layer decoding section 510 performs a decoding process using the second encoded code, generates a second layer decoded residual signal, and outputs this second layer decoded residual signal to adder 511.
[0144]
Adder 511 takes the sum of the first layer decoded signal and the second layer decoded residual signal to generate a second layer decoded signal. Then, adder 511 outputs this second layer decoded signal to US2 section 512.
[0145]
US2 unit 512 upsamples the second layer decoded signal and raises the sampling frequency from Fs (2) to Fs (3). Then, the US2 unit 512 outputs the second layer decoded signal having the sampling frequency Fs (3) to the subtracter 514 and the adder 517.
[0146]
Next, the delay unit 513 delays the acoustic signal input from the input terminal 501 by a predetermined time length, and then outputs this acoustic signal to the subtracter 514. That is, the delay unit 513 has a role of correcting a delay generated in the encoding unit and the decoding unit up to the previous stage, specifically, a delay generated in the signal processing from the DS1 unit 502 to the US2 unit 512.
[0147]
The subtractor 514 takes the difference between the output signal of the delay unit 513 and the above-described second layer decoded signal and generates a third layer residual signal. Then, the subtractor 514 outputs the third layer residual signal to the third layer encoding unit 515.
[0148]
Third layer encoding section 515 encodes the third layer residual signal so that quality improvement is made audibly, determines a third encoded code, and performs third layer decoding on the third encoded code. Output to the combining unit 516 and the multiplexing unit 518.
[0149]
Third layer decoding section 516 performs a decoding process using the third encoded code, generates a third layer decoded residual signal, and outputs this third layer decoded residual signal to adder 517.
[0150]
Adder 517 calculates the sum of the second layer decoded signal and the third layer decoded residual signal, generates a third layer decoded signal, and outputs this third layer decoded signal to DS3 section 520.
[0151]
The multiplexing unit 518 multiplexes the first encoded code, the second encoded code, and the third encoded code by a predetermined means to generate an encoded bit string. Then, the multiplexing unit 518 outputs this encoded bit string from the output terminal 519.
[0152]
DS3 section 520 downsamples the third layer decoded signal and lowers the sampling frequency of this third layer decoded signal from Fs (3) to Fs (1). Then, DS3 section 520 outputs the third layer decoded signal having sampling frequency Fs (1) to prediction filter 521.
[0153]
The prediction filter 521 applies a prediction filter to the third layer decoded signal, generates a prediction residual signal, and outputs the prediction residual signal to the first layer encoding unit 503. The prediction filter is configured by the LPC coefficients after quantization calculated by the first layer encoding unit 503. When the third layer decoded signal output from the DS3 unit 520 is syn3 (k), the prediction residual signal is e (k), and the quantized LPC coefficient is αq (i), the prediction residual signal e (k) Is represented by the following equation (8).
[0154]
[Equation 8]
Figure 0004373693
Here, NP represents the order of the LPC coefficient.
[0155]
The first layer encoding unit 503 uses the prediction residual signal obtained by the operation described above as the internal state of the adaptive codebook included in the first layer encoding unit 503.
[0156]
As described above, according to the hierarchical coding apparatus of the present embodiment, the sampling frequency of the signal encoded in the lower layer is made higher than the sampling frequency of the signal encoded in the upper layer, thereby supporting various sampling frequencies. Thus, the input signal can be encoded.
[0157]
In the above description, the prediction filter 521 creates a prediction residual signal using the third layer decoded signal and the LPC coefficient after quantization obtained from the first layer encoding unit 503, and the first layer encoding unit 503 updates the internal state of the adaptive codebook using this prediction residual signal, but the prediction filter 521 may create a prediction residual signal using the second layer decoded signal. That is, the decoded signal necessary to create the prediction residual signal may be any number of layers as long as it encodes the residual signal that cannot be encoded by the first layer encoding.
[0158]
FIG. 9 is a block diagram showing the configuration of the hierarchical coding apparatus according to Embodiment 3 of the present invention. In FIG. 9, components having the same numbers as those in FIG. 8 have the same functions and description thereof is omitted here. The feature of this embodiment is that an intermediate layer decoded signal (second layer decoded signal in FIG. 9) is given to the prediction filter 521 and the output signal is used to update the internal state of the adaptive codebook 207. According to this configuration, there is a feature that scalability to an intermediate layer can be secured.
[0159]
Adder 511 takes the sum of the first layer decoded signal and the second layer decoded residual signal to generate a second layer decoded signal. Then, adder 511 outputs this second layer decoded signal to US2 section 512.
[0160]
US2 unit 512 upsamples the second layer decoded signal and raises the sampling frequency from Fs (2) to Fs (3). Then, the US2 unit 512 outputs the first layer decoded signal having the sampling frequency Fs (3) to the subtractor 514 and the DS3 unit 520.
[0161]
DS3 section 520 downsamples the third layer decoded signal and lowers the sampling frequency of this third layer decoded signal from Fs (3) to Fs (1). Then, DS3 section 520 outputs the third layer decoded signal having sampling frequency Fs (1) to prediction filter 521.
[0162]
The prediction filter 521 applies a prediction filter to the second layer decoded signal, generates a prediction residual signal, and outputs the prediction residual signal to the first layer encoding unit 503.
[0163]
The first layer encoding unit 503 uses the prediction residual signal obtained by the prediction filter 521 as the internal state of the adaptive codebook included in the first layer encoding unit 503. First layer encoding section 503 determines the first encoded code so that the perceptual distortion between the input acoustic signal and the decoded signal generated after encoding is minimized. Then, first layer encoding section 503 outputs the obtained first encoded code to first layer decoding section 504 and multiplexing section 518.
[0164]
As described above, according to the hierarchical coding apparatus of the present embodiment, the intermediate layer decoded signal is supplied to the prediction filter, and the output signal is used to update the internal state of the adaptive codebook of the first layer coding. Scalability up to the middle layer can be secured.
[0165]
(Embodiment 4)
In the present embodiment, an example in which a signal encoded by the hierarchical encoding apparatus according to the third embodiment is decoded will be described. The feature of this embodiment is that it is possible to decode the encoding code of the hierarchical encoding method described in Embodiment 3, and as a result, it is possible to decode a high-quality acoustic signal.
[0166]
FIG. 10 is a block diagram showing the configuration of the hierarchical decoding apparatus according to Embodiment 4 of the present invention. 10 includes an input terminal 601, a separation unit 602, a first layer decoding unit 603, a US1 unit 604, an adder 605, a second layer decoding unit 606, and a US2 unit. 607, a third layer decoding unit 608, an adder 609, an output terminal 610, a DS3 unit 611, and a prediction filter 612.
[0167]
An encoded bit string encoded by the hierarchical encoding apparatus in FIG. 8 is input from the input terminal 601.
[0168]
Separating section 602 separates the encoded bit string, and the first encoded code obtained by the first layer encoding, the second encoded code obtained by the second layer encoding, and the third encoded by the third layer encoding Generate an encoded code. Then, separation section 602 outputs the first encoded code to first layer decoding section 603, outputs the second encoded code to second layer decoding section 606, and outputs the third encoded code to the third layer. The data is output to the decoding unit 608.
[0169]
First layer decoding section 603 performs a decoding process using the first encoded code obtained by separating section 602, and generates a first layer decoded signal.
[0170]
US1 unit 604 upsamples the first layer decoded signal and raises the sampling frequency from Fs (1) to Fs (2). Then, US1 section 604 outputs the first layer decoded signal of sampling frequency Fs (2) to adder 605.
[0171]
Next, second layer decoding section 606 performs a decoding process using the second encoded code obtained by separating section 602, and generates a second layer decoded residual signal. Adder 605 adds the first layer decoded signal and the second layer decoded residual signal to generate a second layer decoded signal. Then, adder 605 outputs the first layer decoded signal and the second layer decoded signal to US2 section 607.
[0172]
US2 unit 607 upsamples the second layer decoded signal and raises the sampling frequency from Fs (2) to Fs (3). Then, the US2 unit 607 outputs the second layer decoded signal having the sampling frequency Fs (3) to the adder 609.
[0173]
Next, third layer decoding section 608 performs a decoding process using the third encoded code obtained by separation section 602, and generates a third layer decoded residual signal. Adder 609 adds the second layer decoded signal and the third layer decoded residual signal described above to generate a third layer decoded signal. Adder 609 outputs the third layer decoded signal to DS3 section 611 and output terminal 610.
[0174]
DS3 section 611 downsamples the third layer decoded signal and lowers the sampling frequency of this third layer decoded signal from Fs (3) to Fs (1). Then, DS3 section 611 outputs the third layer decoded signal of sampling frequency Fs (1) to prediction filter 612.
[0175]
The prediction filter 612 performs the same processing as the prediction filter 116 of the first embodiment described above, and generates a prediction residual signal. A decoded LPC coefficient obtained by the first layer decoding unit is used for the LPC coefficient after quantization used in the prediction filter 612. Also, the prediction residual signal generated by the prediction filter 612 is given to the first layer decoding unit, and is used to update the internal state of the adaptive codebook inherent in the first layer decoding unit.
[0176]
In the above description, the prediction filter 612 uses the third layer decoded signal and the quantized LPC coefficient obtained from the first layer decoding unit 603 to create a prediction residual signal, and the first layer decoding unit The adaptive codebook in 603 updates the internal state of the adaptive codebook using this prediction residual signal, but the prediction filter 612 creates a prediction residual signal using the second layer decoded signal. Also good. That is, the decoded signal necessary to create the prediction residual signal may be any number of layers as long as it encodes the residual signal that cannot be encoded by the first layer encoding.
[0177]
FIG. 11 is a block diagram showing the configuration of the hierarchical decoding apparatus according to Embodiment 4 of the present invention. 10 identical to those in FIG. 10 are assigned the same reference numerals as in FIG. 10 and detailed descriptions thereof are omitted. A feature of the present embodiment is that an intermediate layer decoded signal (second layer decoded signal in FIG. 11) is supplied to the prediction filter 612, and an output signal of the prediction filter 612 is applied to the adaptive codebook in the first layer decoding section 603. It is used for updating the internal state. According to this configuration, there is a feature that scalability to an intermediate layer can be secured.
[0178]
Adder 605 adds the above-described first layer decoded signal and second layer decoded residual signal to generate a second layer decoded signal. Adder 605 then outputs the second layer decoded signal to adder US2 unit 607 and DS3 unit 611.
[0179]
US2 unit 607 upsamples the second layer decoded signal and raises the sampling frequency from Fs (2) to Fs (3). Then, the US2 unit 607 outputs the first layer decoded signal having the sampling frequency Fs (3) to the adder 609.
[0180]
The DS3 unit 611 downsamples the second layer decoded signal and lowers the sampling frequency of the second layer decoded signal from Fs (2) to Fs (1). Then, DS3 section 611 outputs the second layer decoded signal of sampling frequency Fs (1) to prediction filter 612.
[0181]
As described above, according to the hierarchical decoding apparatus of the present embodiment, the intermediate layer decoded signal is supplied to the prediction filter, and the output signal is used to update the internal state of the adaptive codebook for the first layer decoding. Scalability up to the middle layer can be secured.
[0182]
(Embodiment 5)
FIG. 12 is a block diagram showing the configuration of the first layer encoding section of the hierarchical encoding apparatus according to Embodiment 5 of the present invention. 2 identical to those in FIG. 2 are assigned the same reference numerals as in FIG. 2 and detailed descriptions thereof are omitted. The first layer encoding unit in FIG. 12 includes a periodicity calculation unit 701, a determination unit 702, a switch unit 703, an adaptive codebook 704, and a multiplexer 705, and determines the internal state of the adaptive codebook. When updating, whether to use the prediction residual signal input from the input terminal 218 or the driving sound source signal output from the adder 212 according to the strength of the periodicity of the input acoustic signal. The selection is different from the first layer encoding unit in FIG.
[0183]
The periodicity calculation unit 701 performs processing such as correlation analysis on the acoustic signal input from the input terminal 201 to quantify the degree of periodicity of the input acoustic signal, and determines the degree of periodicity. Output to 702.
[0184]
The determination unit 702 compares the degree of periodicity with a predetermined threshold value. Then, when the degree of periodicity exceeds the threshold value, the determination unit 702 considers that the periodicity of the input acoustic signal is strong, and outputs the flag as “0” to the multiplexer 705. In addition, when the degree of periodicity is equal to or less than the threshold, the determination unit 702 considers that the periodicity of the input acoustic signal is weak, and outputs the flag to the multiplexer 705 as “1”.
[0185]
The switch unit 703 switches a signal used for updating the internal state of the adaptive codebook 704 according to the flag obtained from the determination unit 702. When the flag is 0, the switch unit 703 connects the switch so that the prediction residual signal input from the input terminal 218 is used as a signal used for updating the internal state of the adaptive codebook 704. Similarly, when the flag is 1, the switch unit 703 connects the switch so that the driving excitation signal output from the adder 212 is used as a signal used for updating the internal state of the adaptive codebook 704.
[0186]
The adaptive codebook 704 holds a driving excitation signal generated in the past as an internal state, and generates an adaptive vector by repeating this internal state at a desired pitch period. That is, when the determination unit 702 determines that the periodicity of the input acoustic signal is strong, the adaptive codebook 704 updates the internal state using the prediction residual signal input from the input terminal 218. If the determination unit 702 determines that the periodicity of the input acoustic signal is weak, the adaptive codebook 704 updates the internal state using the driving excitation signal output from the adder 212. Then, adaptive codebook 704 sequentially outputs the driving excitation signal held therein as an adaptive vector to multiplier 209.
[0187]
The multiplexer 705 multiplexes signals from the LPC quantizer 203, the searcher 214, and the determination unit 702 and outputs the result from the output terminal 216.
[0188]
As described above, according to the hierarchical coding apparatus of the present embodiment, when the periodicity of the input acoustic signal is strong, the internal state of the adaptive codebook using the prediction residual signal obtained from the decoded signal of the higher layer is used. Is updated, the prediction accuracy by the adaptive codebook is increased, and the performance is improved. Further, according to the hierarchical coding apparatus of the present embodiment, when the periodicity of the input sound signal is not strong, the aperiodic signal is obtained by updating the internal state of the adaptive codebook using the driving excitation signal. The effect on can be raised.
[0189]
In the above description, it is determined whether to update the internal state of the adaptive codebook using the prediction residual signal or the driving excitation signal based on the strength of the periodicity of the input acoustic signal. The standard is not particularly limited.
[0190]
For example, the internal state of the adaptive codebook is updated using the prediction residual signal and the distortion obtained by actually encoding the input acoustic signal, and the internal state of the adaptive codebook is updated using the driving excitation signal and the input acoustic signal May be calculated and compared for distortion obtained. FIG. 13 is a flowchart showing an example of the operation of the hierarchical coding apparatus according to the present embodiment. Hereinafter, the determination operation of the hierarchical encoding device will be described with reference to FIG.
[0191]
In step S810, the internal state of the adaptive codebook is updated using the prediction residual signal, and the encoding process of the first layer encoding unit is performed. An auditory distortion E1 of the first layer decoded signal with respect to the input acoustic signal at that time is calculated.
[0192]
Similarly, in step S820, the internal state of the adaptive codebook is updated using the driving excitation signal, and the encoding process of the first layer encoding unit is performed. An auditory distortion E2 of the first layer decoded signal with respect to the input acoustic signal at that time is calculated.
[0193]
In step S830, the strain E1 obtained in step S810 is compared with the strain E2 obtained in step S820.
[0194]
The determination is made in step S840, and if the strain E1 is smaller than the strain E2, the process proceeds to step S850. If the strain E2 is smaller than the strain E1, the process proceeds to step S860.
[0195]
In step S850, it is determined that the use of the prediction residual signal is more effective, and the encoding process is performed after the internal state of the adaptive codebook is updated using the prediction residual signal. At this time, the flag is set to 0 assuming that the prediction residual signal is used for updating the adaptive codebook.
[0196]
In step S860, it is determined that the use of the driving excitation signal is more effective, and the encoding process is performed after the internal state of the adaptive codebook is updated using the driving excitation signal. At this time, the flag is set to 1 because the driving excitation signal is used for updating the adaptive codebook.
[0197]
In step S870, the encoded code and flag obtained by the encoding process are multiplexed by the multiplexing unit and output from the output terminal.
[0198]
Thus, according to the hierarchical coding apparatus of the present embodiment, when determining which of the prediction residual signal or the driving excitation signal is used to update the internal state of the adaptive codebook, the prediction residual signal To update the internal state of the adaptive codebook using actual and encode the input acoustic signal, and to update the internal state of the adaptive codebook using the driving sound source signal and actually encode the input acoustic signal By calculating and comparing the required distortion and updating the internal state of the adaptive codebook using a signal that reduces distortion, the internal state of the adaptive codebook is always updated using a signal that reduces distortion Therefore, the quality can be improved.
[0199]
(Embodiment 6)
FIG. 14 is a block diagram showing the configuration of the first layer decoding section of the hierarchical decoding apparatus according to Embodiment 6 of the present invention. 6 identical to those in FIG. 6 are assigned the same reference numerals as in FIG. 6 and detailed descriptions thereof are omitted. The first layer decoding unit shown in FIG. 14 includes an input terminal 801, a separation unit 802, and a switch unit 803, and updates flag information obtained from the separation unit 802 when updating the internal state of the adaptive codebook. 2 is different from the first layer encoding unit in FIG. 2 in that either the prediction residual signal input from the input terminal 801 is used or the driving excitation signal output from the adder 408 is used.
[0200]
Separating section 802 separates encoded codes used in adaptive codebook 804, noise codebook 404, gain codebook 405, and LPC decoder 409 based on the encoded code input from input terminal 401, Flag information indicating the type of signal used for updating the internal state of the book 804 is separated. This flag information is a signal output to the multiplexer 705 from the determination unit 702 in FIG.
[0201]
The switch unit 803 switches a signal used for updating the internal state of the adaptive codebook 804 according to the flag information. When the flag is 0, the switch unit 803 connects the switch so that the prediction residual signal input from the input terminal 801 is used as a signal used for updating the internal state of the adaptive codebook 804. Similarly, when the flag is 1, the switch unit 803 connects the switch so that the driving excitation signal output from the adder 408 is used as a signal used for updating the internal state of the adaptive codebook 804.
[0202]
As described above, according to the hierarchical decoding apparatus of the present embodiment, the adaptive codebook is used by using either the prediction residual signal or the driving excitation signal based on the strength of the periodicity of the input acoustic signal on the code side. If the periodicity of the encoded acoustic signal is strong based on the result of determining whether to update the internal state of the adaptive codebook, the prediction residual signal obtained from the decoded signal of the higher layer is used. By updating the state, the encoding code of the hierarchical encoding method can be decoded, and as a result, a high-quality acoustic signal can be decoded.
[0203]
(Embodiment 7)
Next, a seventh embodiment of the present invention will be described with reference to the drawings. FIG. 15 is a block diagram showing a configuration of a communication apparatus according to Embodiment 7 of the present invention. The signal processing device 1503 in FIG. 15 is characterized by being configured by one of the acoustic encoding devices shown in the first to sixth embodiments described above.
[0204]
As shown in FIG. 15, a communication device 1500 according to Embodiment 7 of the present invention includes an input device 1501, an A / D conversion device 1502, and a signal processing device 1503 connected to a network 1504.
[0205]
The A / D conversion device 1502 is connected to the output terminal of the input device 1501. An input terminal of the signal processing device 1503 is connected to an output terminal of the A / D conversion device 1502. An output terminal of the signal processing device 1503 is connected to the network 1504.
[0206]
The input device 1501 converts a sound wave that can be heard by the human ear into an analog signal that is an electrical signal, and provides the analog signal to the A / D converter 1502. The A / D conversion device 1502 converts an analog signal into a digital signal and gives it to the signal processing device 1503. The signal processing device 1503 generates a code by encoding the input digital signal and outputs the code to the network 1504.
[0207]
As described above, according to the communication device of the embodiment of the present invention, it is possible to enjoy the effects described in the first to sixth embodiments in communication, and to efficiently encode an acoustic signal with a small number of bits. An encoding device can be provided.
[0208]
(Embodiment 8)
Next, an eighth embodiment of the present invention will be described with reference to the drawings. FIG. 16 is a block diagram showing a configuration of a communication apparatus according to Embodiment 8 of the present invention. The signal processing apparatus 1603 in FIG. 16 is characterized by being configured by one of the acoustic decoding apparatuses shown in the first to sixth embodiments described above.
[0209]
As shown in FIG. 16, a communication device 1600 according to Embodiment 8 of the present invention includes a receiving device 1602, a signal processing device 1603, a D / A conversion device 1604, and an output device 1605 connected to a network 1601. is doing.
[0210]
An input terminal of the receiving device 1602 is connected to the network 1601. An input terminal of the signal processing device 1603 is connected to an output terminal of the receiving device 1602. An input terminal of the D / A conversion device 1604 is connected to an output terminal of the signal processing device 1603. The input terminal of the output device 1605 is connected to the output terminal of the D / A converter 1604.
[0211]
Receiving device 1602 receives a digital encoded acoustic signal from network 1601, generates a digital received acoustic signal, and provides it to signal processing device 1603. The signal processing device 1603 receives the received acoustic signal from the receiving device 1602, performs a decoding process on the received acoustic signal, generates a digital decoded acoustic signal, and provides it to the D / A conversion device 1604. The D / A conversion device 1604 converts the digital decoded speech signal from the signal processing device 1603 to generate an analog decoded speech signal, and provides it to the output device 1605. The output device 1605 converts an analog decoded acoustic signal, which is an electrical signal, into air vibrations and outputs the sound as a sound wave to the human ear.
[0212]
As described above, according to the communication apparatus of the present embodiment, the effects as described in the first to sixth embodiments can be enjoyed in communication, and an acoustic signal encoded efficiently with a small number of bits is decoded. Therefore, a good acoustic signal can be output.
[0213]
(Embodiment 9)
Next, a ninth embodiment of the present invention will be described with reference to the drawings. FIG. 17 is a block diagram showing a configuration of a communication apparatus according to Embodiment 9 of the present invention. In the ninth embodiment of the present invention, the signal processing apparatus 1703 in FIG. 17 is constituted by one of the acoustic encoding means shown in the first to sixth embodiments described above. There are features of the form.
[0214]
As shown in FIG. 17, a communication device 1700 according to Embodiment 9 of the present invention includes an input device 1701, an A / D conversion device 1702, a signal processing device 1703, an RF modulation device 1704, and an antenna 1705.
[0215]
The input device 1701 converts sound waves that can be heard by the human ear into analog signals, which are electrical signals, and supplies the analog signals to the A / D converter 1702. The A / D conversion device 1702 converts the analog signal into a digital signal and gives it to the signal processing device 1703. The signal processing device 1703 encodes the input digital signal to generate an encoded acoustic signal, and supplies the encoded acoustic signal to the RF modulation device 1704. The RF modulation device 1704 modulates the encoded acoustic signal to generate a modulated encoded acoustic signal, and supplies the modulated encoded acoustic signal to the antenna 1705. The antenna 1705 transmits the modulation-coded acoustic signal as a radio wave.
[0216]
As described above, according to the communication apparatus of the present embodiment, it is possible to enjoy the effects as described in the first to sixth embodiments in wireless communication, and to efficiently encode an acoustic signal with a small number of bits. it can.
[0217]
Note that the present invention can be applied to a transmission device, a transmission encoding device, or an acoustic signal encoding device that uses an audio signal. The present invention can also be applied to a mobile station apparatus or a base station apparatus.
[0218]
(Embodiment 10)
Next, a tenth embodiment of the present invention will be described with reference to the drawings. FIG. 18 is a block diagram showing a configuration of a communication apparatus according to Embodiment 10 of the present invention. In the tenth embodiment of the present invention, the signal processing device 1803 in FIG. 18 is configured by one of the acoustic decoding means shown in the first to sixth embodiments described above. There are features of the form.
[0219]
As shown in FIG. 18, a communication device 1800 according to Embodiment 10 of the present invention includes an antenna 1801, an RF demodulation device 1802, a signal processing device 1803, a D / A conversion device 1804, and an output device 1805.
[0220]
The antenna 1801 receives a digital encoded acoustic signal as a radio wave, generates a digital received encoded acoustic signal of an electrical signal, and provides the RF demodulator 1802 with it. The RF demodulator 1802 demodulates the received encoded acoustic signal from the antenna 1801 to generate a demodulated encoded acoustic signal, and provides the signal processor 1803 with the demodulated encoded acoustic signal.
[0221]
The signal processing device 1803 receives the digital demodulated coded acoustic signal from the RF demodulating device 1802, performs a decoding process, generates a digital decoded acoustic signal, and provides it to the D / A conversion device 1804. The D / A conversion device 1804 converts the digital decoded speech signal from the signal processing device 1803 to generate an analog decoded speech signal, and provides it to the output device 1805. The output device 1805 converts an analog decoded audio signal, which is an electrical signal, into air vibrations and outputs the sound as a sound wave to the human ear.
[0222]
As described above, according to the communication device of the present embodiment, the effects as described in the first to sixth embodiments can be enjoyed in wireless communication, and an acoustic signal encoded efficiently with a small number of bits can be decoded. Therefore, a good acoustic signal can be output.
[0223]
Note that the present invention can be applied to a receiving device, a receiving decoding device, or an audio signal decoding device using an audio signal. The present invention can also be applied to a mobile station apparatus or a base station apparatus.
[0224]
The present invention is not limited to the above-described embodiment, and can be implemented with various modifications. For example, although the case where the signal processing apparatus is used has been described in the above embodiment, the present invention is not limited to this, and the signal processing method may be performed as software.
[0225]
For example, a program for executing the signal processing method may be stored in advance in a ROM (Read Only Memory), and the program may be operated by a CPU (Central Processor Unit).
[0226]
A program for executing the above signal processing method is stored in a computer-readable storage medium, the program stored in the storage medium is recorded in a RAM (Random Access memory) of the computer, and the computer operates according to the program. You may make it let it.
[0227]
Note that the present invention can be applied to a receiving device, a receiving decoding device, or an audio signal decoding device using an audio signal. The present invention can also be applied to a mobile station apparatus or a base station apparatus.
[0228]
【The invention's effect】
As described above, according to the hierarchical encoding method and the hierarchical decoding method for acoustic signals of the present invention, in the hierarchical encoding in which the portion that cannot be encoded in the upper layer is encoded in the lower layer, the second encoding is performed. A residual signal generated in the encoding of the upper layer is predicted from the signal obtained by decoding the encoded signal after the layer and the LPC coefficient obtained by the encoding of the upper layer, and the upper layer is used by using the predicted residual signal. By updating this adaptive codebook, it is possible to perform coding with an adaptive codebook having a driving sound source close to the coding of an acoustic signal and perform high-quality coding at a low bit rate.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a hierarchical coding apparatus according to Embodiment 1 of the present invention.
FIG. 2 is a block diagram showing an internal configuration of a first layer encoding unit of the hierarchical encoding apparatus according to the present embodiment
FIG. 3 is a diagram showing a relationship between an input acoustic signal and the corresponding first layer decoded signal, second layer decoded signal, and third layer decoded signal;
FIG. 4 is a block diagram showing a configuration of a hierarchical coding apparatus according to Embodiment 1 of the present invention.
FIG. 5 is a block diagram showing a configuration of a hierarchical decoding apparatus according to Embodiment 2 of the present invention.
FIG. 6 is a block diagram showing an internal configuration of a first layer decoding unit of the hierarchical decoding apparatus according to the present embodiment
FIG. 7 is a block diagram showing a configuration of a hierarchical decoding apparatus according to Embodiment 2 of the present invention.
FIG. 8 is a block diagram showing a configuration of a hierarchical coding apparatus according to Embodiment 3 of the present invention.
FIG. 9 is a block diagram showing a configuration of a hierarchical coding apparatus according to Embodiment 3 of the present invention.
FIG. 10 is a block diagram showing a configuration of a hierarchical decoding apparatus according to Embodiment 4 of the present invention.
FIG. 11 is a block diagram showing a configuration of a hierarchical decoding apparatus according to Embodiment 4 of the present invention.
FIG. 12 is a block diagram showing the configuration of the first layer encoding section of the hierarchical encoding apparatus according to Embodiment 5 of the present invention.
FIG. 13 is a flowchart showing an example of the operation of the hierarchical coding apparatus according to the present embodiment;
FIG. 14 is a block diagram showing a configuration of a first layer decoding section of a hierarchical decoding apparatus according to Embodiment 6 of the present invention.
FIG. 15 is a block diagram showing a configuration of a communication apparatus according to Embodiment 7 of the present invention.
FIG. 16 is a block diagram showing a configuration of a communication apparatus according to Embodiment 8 of the present invention.
FIG. 17 is a block diagram showing a configuration of a communication apparatus according to Embodiment 9 of the present invention.
FIG. 18 is a block diagram showing a configuration of a communication apparatus according to Embodiment 10 of the present invention.
[Explanation of symbols]
102, 503 First layer encoding unit
103, 303, 504, 603 First layer decoding section
106, 509 Second layer encoding unit
107, 304, 510, 606 Second layer decoding section
111, 305, 515 Third layer encoding section
112, 516, 608 Third layer decoding section
116, 308, 521, 612 Prediction filter
202 LPC analyzer
203 LPC quantizer
204 LPC decoder
205 Auditory weight filter
206 Auditory weighted synthesis filter
207, 403, 704 Adaptive codebook
214 Searcher
409 LPC decoder
410 Synthesis filter
502 DS1 part
505, 604 US 1 part
506 DS2 part
512,607 US2 parts
520,611 DS3 parts
701 Periodicity calculation unit
702 judgment unit
703, 803 Switch part

Claims (23)

入力音響信号を符号化し、前段で符号化した信号を復号し、この復号信号と前記入力音響信号との差分を符号化する階層符号化方法であって、
所定の長さのフレーム単位で前記入力音響信号を符号化する第1符号化工程と、
前段の符号化結果を復号化した信号と前記入力音響信号との差分を1段または複数段で符号化する第2符号化工程と、
前記第1符号化工程の符号化結果を復号化した信号及び前記第2符号化工程の符号化結果を復号化した信号を用いて予測残差信号を生成する予測フィルタ工程と、
前記予測フィルタ工程において生成された前記予測残差信号に基づいて前記第1符号化工程における符号化に用いる符号帳を更新する更新工程と
具備することを特徴とする階層符号化方法。
Input audio signal is encoded, decodes the encoded signal in the previous paragraph, a difference between the input audio signal and the decoded signal to a hierarchical coding method for coding,
A first encoding step of encoding the input acoustic signal frame by frame with a predetermined length,
A second encoding step of encoding in one stage or plural stages a difference between the decoded signal and the input audio signal encoded result of the preceding stage,
A prediction filter step that generates a predictive residual signal using the decoded signal of the encoded result of the first decodes the coded result of the encoding step signal and the second coding step,
An update step of updating a codebook used for encoding in the first encoding step based on the prediction residual signal generated in the prediction filter step ;
Hierarchical coding method characterized by comprising the.
前記第1符号化工程は、前記入力音響信号をCELP方式で符号化し、
前記予測フィルタ工程は、符号化されたLPC係数を復号することにより得られる復号化LPC係数を用いて予測フィルタを生成し、
前記更新工程は、前記第1符号化工程の符号化結果を復号化した信号及び前記第2符号化工程の符号化結果を復号化した信号を前記予測フィルタに通した結果を用いて前記符号帳を更新する
ことを特徴とする請求項1に記載の階層符号化方法。
Said first encoding step, the input acoustic signal coded by CELP scheme,
The prediction filter step generates a prediction filter using a decoded LPC coefficient obtained by decoding an encoded LPC coefficient,
Said updating step, the codebook by using the result of the decoded signal of the encoded result of the first decoding the encoded result of the encoding process the signal and the second encoding step through the prediction filter Update ,
The hierarchical encoding method according to claim 1, wherein:
前記入力音響信号の周期性を測定する周期性算出工程をさらに具備し、
前記更新工程は、前記周期性が所定のしきい値以上である場合に前記予測フィルタ工程において生成された前記予測残差信号を用いて前記符号帳を更新し、前記周期性が所定のしきい値未満である場合に生成した駆動音源信号を用いて前記符号帳を更新する
ことを特徴とする請求項に記載の階層符号化方法。
Further comprising a periodicity calculating step of determining the periodicity of said input acoustic signal,
Said updating step, the periodicity updates the codebook by using the predictive residual signal generated in the prediction filter step in the case is above a predetermined threshold, the periodicity predetermined tooth updating the codebook using the excitation signal generated in the case is less than threshold,
The hierarchical encoding method according to claim 2 , wherein:
前記予測残差信号を用いて前記符号帳の内部状態を更新し前記入力音響信号を実際に符号化して求められる歪と、生成した駆動音源信号を用いて前記符号帳の内部状態を更新し前記入力音響信号を実際に符号化して求められる歪と、のいずれが小さいかを判定する判定工程さらに具備し、
前記更新工程は、前記歪が小さい方の信号を用いて前記符号帳を更新する
ことを特徴とする請求項に記載の階層符号化方法。
Wherein the strain is actually determined by encoding the input acoustic signal and updates the internal state of using the prediction residual signal the codebook, using the generated excitation signal to update the internal state of the code book the further comprising a judging step judges actually a distortion obtained by encoding, either a small of input audio signal,
It said updating step updates the codebook using a signal towards the distortion is small,
The hierarchical encoding method according to claim 2 , wherein:
前記入力音響信号をダウンサンプリングするダウンサンプリング工程と、
前記前段の符号化結果を復号化した信号をアップサンプリングするアップサンプリング工程とさらに具備し、
前記第2符号化工程は、アップサンプリング後の前記前段の符号化結果を復号化した信号と前記入力音響信号との差分を1段または複数段で符号化し、
前記予測フィルタ工程は、アップサンプリング後の前記前段の符号化結果を復号した信号と前記第2符号化工程の符号化結果を復号した信号を加算してダウンサンプリングした後に前記予測残差信号を生成する、
ことを特徴とする請求項1から請求項4のいずれかに記載の階層符号化方法。
A downsampling step of downsampling the input acoustic signal;
Further comprising, upsampling step of upsampling the signal obtained by decoding an encoded result of the preceding stage,
Said second encoding step encodes a difference between decoding said preceding encoded result after the up-sampled signal and the input audio signal in one stage or plural stages,
The prediction filter step generates a prediction residual signal after adding a signal obtained by decoding the preceding encoding result after the upsampling and a signal obtained by decoding the encoding result obtained by the second encoding step and then down-sampling. To
Hierarchical encoding method according to any one of claims 1 to 4, characterized in that.
符号において入力音響信号を符号化し、前段で符号化した信号を復号し、この復号信号と前記入力音響信号との差分を符号化した信号を、入力して復号する階層復号化方法であって、
前記符号化側において所定の長さのフレーム単位で前記入力音響信号を符号化した信号を、入力して復号する第1復号化工程と、
前記符号化側において前記前段の符号化結果を復号化した信号と前記入力音響信号との差分を1段または複数段で符号化した信号をそれぞれ入力して号する第2復号化工程と、
前記第1復号化工程の復号結果と前記第2復号化工程の復号結果とを用いて予測残差信号を生成する予測フィルタ工程と、
前記予測フィルタ工程において生成された前記予測残差信号に基づいて前記第1復号化工程における復号化に用いる符号帳を更新する更新工程と、
を具備することを特徴とする階層復号化方法。
Encodes the input audio signal at the encoding side, and decoding the encoded signal at the preceding stage, the encoded signal the difference between said input acoustic signal and the decoded signal, a hierarchical decoding method of decoding by entering And
A first decoding step of the encoded signal said input acoustic signal frame by frame with a predetermined length, decodes inputted in the encoding side,
The encoded signal at one stage or plural stages a difference between the decoded signal and the input audio signal coded result of the previous stage in the encoding side, a second decoding step of decrypt enter respectively ,
A prediction filter step of generating a prediction residual signal using the decoding result of the first decoding step and the decoding result of the second decoding step;
An update step of updating a codebook used for decoding in the first decoding step based on the prediction residual signal generated in the prediction filtering step;
A hierarchical decoding method comprising:
前記第1復号化工程は、前記入力音響信号を符号化した信号をCELP方式で復号し、
前記予測フィルタ工程は、符号化側において符号化されたLPC係数を、入力して復号することにより得られる復号化LPC係数を用いて予測フィルタを生成し、
前記更新工程は、前記第1復号化工程の復号結果と前記第2復号化工程の復号結果を前記予測フィルタに通した結果を用いて前記符号帳を更新する
ことを特徴とする請求項6に記載の階層復号化方法。
Said first decoding step, a signal obtained by encoding the input acoustic signal decoded by the CELP method,
The prediction filter step generates a prediction filter using a decoded LPC coefficient obtained by inputting and decoding an LPC coefficient encoded on the encoding side,
Said updating step updates the codebook by using the result of the decoding result of the decoding result and said second decoding step of the first decoding step through the prediction filter,
The hierarchical decoding method according to claim 6.
前記更新工程は、符号化側において符号化側での予測残差信号と符号化側での駆動音源信号とのいずれを用いて符号化側での符号帳を更新したかを判定した判定結果を、入力して前記判定結果に基づいて前記符号帳を更新する
ことを特徴とする請求項7に記載の階層復号化方法。
Determining the update process, it is determined whether with Re excitation signal and noise in the prediction residual signal and the encoding side at the encoding side to update the codebook on the encoding side the encoding side the results, updating the codebook based on the determination result by entering,
The hierarchical decoding method according to claim 7, wherein:
前段の復号化結果をアップサンプリングするアップサンプリング工程と、
アップサンプリングした復号結果と後段の復号結果を加算する加算工程と、
前記加算結果をダウンサンプリングするダウンサンプリング工程と、をさらに具備し、
前記予測フィルタ工程は、ダウンサンプリング後の前記加算結果から前記予測残差信号を生成する
ことを特徴とする請求項6から請求項8のいずれかに記載の階層復号化方法。
An upsampling step of upsampling the decoding result of the previous stage;
An adding step of adding the decoded result and the subsequent decoding result obtained by upsampling,
Further comprising a downsampling step of downsampling the addition result,
The prediction filter step generates the prediction residual signal from the addition result after down-sampling,
The hierarchical decoding method according to any one of claims 6 to 8 , wherein the hierarchical decoding method is performed.
入力音響信号を符号化し、前段で符号化した信号を復号し、この復号信号と前記入力音響信号との差分を符号化する階層符号化装置であって、
所定の長さのフレーム単位で前記入力音響信号を符号化する第1符号化手段と、
前段の符号化結果を復号化した信号と前記入力音響信号との差分を1段または複数段で符号化する第2符号化手段と、
前記第1符号化手段の符号化結果を復号化した信号及び前記第2符号化手段の符号化結果を復号化した信号を用いて予測残差信号を生成する予測フィルタ手段と、を具備し、
前記第1符号化手段は、前記予測フィルタ手段において生成された前記予測残差信号に基づいて符号化に用いる符号帳を更新する
ことを特徴とする階層符号化装置。
Input audio signal is encoded, decodes the encoded signal in the previous paragraph, a hierarchical encoding apparatus for encoding a difference between said input acoustic signal and the decoded signal,
A first encoding means for encoding the input acoustic signal frame by frame with a predetermined length,
A second coding means for coding in one stage or plural stages a difference between the decoded signal and the input audio signal encoded result of the preceding stage,
Prediction filter means for generating a prediction residual signal using a signal obtained by decoding the coding result of the first coding means and a signal obtained by decoding the coding result of the second coding means,
The first encoding unit updates a codebook used for encoding based on the prediction residual signal generated by the prediction filter unit ;
A hierarchical encoding device.
前記第1符号化手段は、
前記入力音響信号をCELP方式で符号化する手段であって、
過去に生成した駆動音源信号を保持する符号帳と、
前記入力音響信号からLPC係数を求めるLPC分析手段と、
前記入力音響信号と差が最も小さい駆動音源信号を探索する探索手段と、を具備し、
前記予測フィルタ手段は、符号化されたLPC係数を復号することにより得られる復号化LPC係数を用いて予測フィルタを生成し、
前記第1符号化手段は、前記CELP方式での符号化結果を復号化した信号及び前記第2符号化手段の符号化結果を復号化した信号を前記予測フィルタに通した結果を用いて前記符号帳を更新する
ことを特徴とする請求項10に記載の階層符号化装置。
The first encoding means includes
It said input acoustic signal and means for encoding in CELP method,
A codebook that holds drive excitation signals generated in the past;
And LPC analysis means for determining the LPC coefficients from said input acoustic signal,
Anda search means the difference between the input audio signal is searched smallest excitation signal,
The prediction filter means generates a prediction filter using a decoded LPC coefficient obtained by decoding an encoded LPC coefficient;
Said first encoding means, using said results through the decoded signal of the encoded result of the decoded signal and the second coding means coding result in the CELP scheme to the prediction filter code Update the book ,
The hierarchical coding apparatus according to claim 10.
前記第1符号化手段は、前記予測フィルタ手段において生成された前記予測残差信号と生成した前記駆動音源信号とのいずれかを用いて前記符号帳を更新するか判定する判定手段をさらに具備する
ことを特徴とする請求項11に記載の階層符号化装置。
Said first encoding means further comprises a determination unit to update the codebook using any of the excitation signals the generated the prediction residual signal generated in the prediction filter means ,
The hierarchical coding apparatus according to claim 11, wherein:
前記第1符号化手段は、前記入力音響信号の周期性を測定する周期性算出手段をさらに具備し、
前記判定手段は、前記周期性が所定のしきい値以上である場合に前記予測フィルタ手段において生成された前記予測残差信号を用いて前記符号帳を更新し、前記周期性が所定のしきい値未満である場合に生成した前記駆動音源信号を用いて前記符号帳を更新する判定をする
ことを特徴とする請求項12に記載の階層符号化装置。
It said first encoding means further comprises a periodicity calculation means for measuring a periodicity of said input acoustic signal,
It said determining means, said periodicity is updating the codebook using the predictive residual signal generated in the prediction filter unit in the case where more than a predetermined threshold, the teeth the periodicity of a given a decision to update the codebook using said excitation signal generated in the case is less than threshold,
The hierarchical coding apparatus according to claim 12 , wherein
前記判定手段は、前記予測残差信号を用いて前記符号帳の内部状態を更新し前記入力音響信号を実際に符号化して求められる歪と、生成した前記駆動音源信号を用いて前記符号帳の内部状態を更新し前記入力音響信号を実際に符号化して求められる歪と、のいずれが小さいかを判定し、
前記第1符号化手段は、前記歪が小さい方の信号を用いて前記符号帳を更新する
ことを特徴とする請求項12に記載の階層符号化装置。
The determining means comprises a strain obtained by actually encoding the input acoustic signal and updates the internal state of the codebook by using the predictive residual signal, generated using said excitation signal of the codebook a strain obtained by actually encoding the input acoustic signal and updates the internal state, one is small and determination,
It said first encoding means updates the codebook using a signal towards the distortion is small,
The hierarchical coding apparatus according to claim 12 , wherein
前記入力音響信号をダウンサンプリングして前記第1符号化手段に出力するダウンサンプリング手段と、
前記前段の符号化結果を復号化した信号をアップサンプリングするアップサンプリング手段とさらに具備し、
前記第2符号化手段は、アップサンプリング後の前記前段の符号化結果を復号化した信号と前記入力音響信号との差分を1段または複数段で符号化し、
前記予測フィルタ手段は、前記アップサンプリング後の前記前段の符号化結果を復号化した信号と前記第2符号化手段の符号化結果を復号した信号を加算してダウンサンプリングした後に前記予測残差信号を生成する、
ことを特徴とする請求項10から請求項14のいずれかに記載の階層符号化装置。
A down sampling means for said input acoustic signal by down-sampling the output to the first coding means,
Further comprising, upsampling means for upsampling the signal obtained by decoding an encoded result of the preceding stage,
It said second encoding means encodes the difference between the decoded signal the previous stage of the encoding results after upsampling and said input acoustic signal in one stage or plural stages,
The prediction filter means adds the signal obtained by decoding the previous-stage encoding result after the upsampling and the signal obtained by decoding the encoding result of the second encoding means, and then downsamples the prediction residual signal. Generate
15. The hierarchical encoding apparatus according to claim 10, wherein the hierarchical encoding apparatus is any one of claims 10 to 14 .
符号において入力音響信号を符号化し、前段で符号化した信号を復号し、この復号信号と前記入力音響信号との差分を、入力して符号化した信号を復号する階層復号化装置であって、
前記符号化側において所定の長さのフレーム単位で前記入力音響信号を符号化した信号を、入力して復号する第1復号化手段と、
前記符号化側において前記前段の符号化結果を復号化した信号と前記入力音響信号との差分を1段または複数段で符号化した信号をそれぞれ入力し復号して加算する第2復号化手段と、
前記第1復号化手段の復号結果と前記第2復号化手段の復号結果とを用いて予測残差信号を生成する予測フィルタ手段と、を具備し、
前記復号化手段は、前記予測フィルタ手段において生成された前記予測残差信号に基づいて前記第1復号化手段における復号化に用いる符号帳を更新する
ことを特徴とする階層復号化装置。
Encodes the input audio signal at the encoding side, and decoding the encoded signal in the previous paragraph, a difference between the input audio signal and the decoded signal, a hierarchical decoding apparatus for decoding a coded signal by entering And
A first decoding means signals that encode the input audio signals in frames of predetermined length, decodes inputted in the encoding side,
Second decoding means for adding to the encoded signal in one stage or plural stages a difference between the decoded signal and the input audio signal coded result of the previous stage in the encoding side, and respectively input decoded When,
Prediction filter means for generating a prediction residual signal using the decoding result of the first decoding means and the decoding result of the second decoding means,
The decoding means updates a codebook used for decoding in the first decoding means based on the prediction residual signal generated in the prediction filter means ;
A hierarchical decoding device.
前記第1復号化手段は、前記入力音響信号を符号化した信号をCELP方式で復号する手段であって、
前記予測フィルタ手段は、前記符号化側において符号化されたLPC係数を、入力して復号することにより得られる復号化LPC係数を用いて予測フィルタを生成し、
前記第1復号化手段は、前記CELP方式で信号を復号した復号結果と前記第2復号化手段の復号結果を前記予測フィルタに通した結果を用いて前記符号帳を更新する
ことを特徴とする請求項16に記載の階層復号化装置。
It said first decoding means, a signal obtained by encoding the input acoustic signal and means for decoding at CELP method,
Said prediction filter means, the LPC coefficients encoded in the encoding side, using a decoding LPC coefficient obtained by decoding by entering generate prediction filter,
It said first decoding means updates the codebook by using the result of the decoding result of decoding result and said second decoding means decodes the signal in the CELP system through the prediction filter,
The hierarchical decoding device according to claim 16, wherein
前記第1復号化手段は、前記符号化側において符号化側での予測残差信号と符号化側での駆動音源信号とのいずれを用いて符号化側での符号帳を更新したかを判定した判定結果を、入力して前記判定結果に基づいて前記符号帳を更新する
ことを特徴とする請求項17に記載の階層復号化装置。
Or the first decoding means, by using the Re excitation signal and noise in the prediction residual signal and the encoding side at the encoding side at the encoding side to update the codebook on the encoding side the determination result of the determining, updating the codebook based on the determination result by entering,
The hierarchical decoding device according to claim 17, wherein:
前段の復号化結果をアップサンプリングするアップサンプリング手段と、
アップサンプリングした復号結果と後段の復号結果を加算する加算手段と、
前記加算手段の加算結果をダウンサンプリングするダウンサンプリング手段と、をさらに具備し、
前記予測フィルタ手段は、ダウンサンプリング後の前記加算結果から前記予測残差信号を生成する
ことを特徴とする請求項16から請求項18のいずれかに記載の階層復号化装置。
Upsampling means for upsampling the decoding result of the previous stage;
Adding means for adding the decoded result and the subsequent decoding result obtained by upsampling,
Further comprising a down-sampling means for down-sampling an addition result of the adding means,
It said prediction filter means generates the prediction residual signal from the addition result after down-sampling,
The hierarchical decoding device according to any one of claims 16 to 18 , characterized by:
音響信号を電気的信号に変換する音響入力手段と、
この音響入力手段から出力された信号をディジタル信号に変換するA/D変換手段と、
このA/D変換手段から出力されたディジタル信号を符号化する請求項10から請求項15のいずれかに記載の階層符号化装置と、
この階層符号化装置から出力された符号化コードを無線周波数の信号に変調するRF変調手段と、
このRF変調手段から出力された信号を電波に変換して送信する送信アンテナと、
を具備することを特徴とする音響信号送信装置。
Acoustic input means for converting an acoustic signal into an electrical signal;
A / D conversion means for converting the signal output from the acoustic input means into a digital signal;
The hierarchical encoding device according to any one of claims 10 to 15, which encodes a digital signal output from the A / D conversion means,
RF modulation means for modulating the encoded code output from this hierarchical encoding device into a radio frequency signal;
A transmission antenna for converting the signal output from the RF modulation means into a radio wave and transmitting it;
An acoustic signal transmission device comprising:
電波を受信する受信アンテナと、
この受信アンテナに受信された信号を復調するRF復調手段と、
このRF復調手段にて得られた情報を復号する請求項16から請求項19のいずれかに記載の階層復号化装置と、
この階層復号化装置から出力された信号をアナログ信号に変換するD/A変換手段と、
このD/A変換手段から出力された電気的信号を音響信号に変換する音響出力手段と、
を具備することを特徴とする音響信号受信装置。
A receiving antenna for receiving radio waves,
RF demodulating means for demodulating the signal received by the receiving antenna;
The hierarchical decoding device according to any one of claims 16 to 19, which decodes information obtained by the RF demodulation means;
D / A conversion means for converting the signal output from the hierarchical decoding device into an analog signal;
Acoustic output means for converting the electrical signal output from the D / A conversion means into an acoustic signal;
An acoustic signal receiving device comprising:
請求項20記載の音響信号送信装置あるいは請求項21記載の音響信号受信装置の少なくとも一方を具備することを特徴とする通信端末装置。  A communication terminal device comprising at least one of the acoustic signal transmitting device according to claim 20 or the acoustic signal receiving device according to claim 21. 請求項20記載の音響信号送信装置あるいは請求項21記載の音響信号受信装置の少なくとも一方を具備することを特徴とする基地局装置。  A base station apparatus comprising at least one of the acoustic signal transmitting apparatus according to claim 20 or the acoustic signal receiving apparatus according to claim 21.
JP2003092581A 2003-03-28 2003-03-28 Hierarchical encoding method and hierarchical decoding method for acoustic signals Expired - Lifetime JP4373693B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003092581A JP4373693B2 (en) 2003-03-28 2003-03-28 Hierarchical encoding method and hierarchical decoding method for acoustic signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003092581A JP4373693B2 (en) 2003-03-28 2003-03-28 Hierarchical encoding method and hierarchical decoding method for acoustic signals

Publications (2)

Publication Number Publication Date
JP2004301954A JP2004301954A (en) 2004-10-28
JP4373693B2 true JP4373693B2 (en) 2009-11-25

Family

ID=33405626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003092581A Expired - Lifetime JP4373693B2 (en) 2003-03-28 2003-03-28 Hierarchical encoding method and hierarchical decoding method for acoustic signals

Country Status (1)

Country Link
JP (1) JP4373693B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4809370B2 (en) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Adaptive bit allocation in multichannel speech coding.
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US8428956B2 (en) 2005-04-28 2013-04-23 Panasonic Corporation Audio encoding device and audio encoding method
US8306827B2 (en) 2006-03-10 2012-11-06 Panasonic Corporation Coding device and coding method with high layer coding based on lower layer coding results
JP5539592B2 (en) * 2010-09-14 2014-07-02 サムスン エレクトロニクス カンパニー リミテッド Multi-layer image encoding and decoding apparatus and method

Also Published As

Publication number Publication date
JP2004301954A (en) 2004-10-28

Similar Documents

Publication Publication Date Title
JP3881943B2 (en) Acoustic encoding apparatus and acoustic encoding method
JP5343098B2 (en) LPC harmonic vocoder with super frame structure
US7636055B2 (en) Signal decoding apparatus and signal decoding method
KR100574031B1 (en) Speech Synthesis Method and Apparatus and Voice Band Expansion Method and Apparatus
JP3881946B2 (en) Acoustic encoding apparatus and acoustic encoding method
WO2004097796A1 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
JP4958780B2 (en) Encoding device, decoding device and methods thereof
WO2003091989A1 (en) Coding device, decoding device, coding method, and decoding method
JPWO2009057327A1 (en) Encoding device and decoding device
JP2003323199A (en) Device and method for encoding, device and method for decoding
KR20070029754A (en) Audio encoding device, audio decoding device, and method thereof
JP4445328B2 (en) Voice / musical sound decoding apparatus and voice / musical sound decoding method
JP4603485B2 (en) Speech / musical sound encoding apparatus and speech / musical sound encoding method
JP4558734B2 (en) Signal decoding device
JP4786183B2 (en) Speech decoding apparatus, speech decoding method, program, and recording medium
JP4373693B2 (en) Hierarchical encoding method and hierarchical decoding method for acoustic signals
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JP4578145B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP4287840B2 (en) Encoder
JP3576485B2 (en) Fixed excitation vector generation apparatus and speech encoding / decoding apparatus
JP3338885B2 (en) Audio encoding / decoding device
JP2006072269A (en) Voice-coder, communication terminal device, base station apparatus, and voice coding method
JPH09269798A (en) Voice coding method and voice decoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090811

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090904

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120911

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4373693

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130911

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term