JP4327420B2 - Audio signal encoding method and audio signal decoding method - Google Patents

Audio signal encoding method and audio signal decoding method Download PDF

Info

Publication number
JP4327420B2
JP4327420B2 JP2002211570A JP2002211570A JP4327420B2 JP 4327420 B2 JP4327420 B2 JP 4327420B2 JP 2002211570 A JP2002211570 A JP 2002211570A JP 2002211570 A JP2002211570 A JP 2002211570A JP 4327420 B2 JP4327420 B2 JP 4327420B2
Authority
JP
Japan
Prior art keywords
band
encoding
unit
audio signal
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002211570A
Other languages
Japanese (ja)
Other versions
JP2003058196A (en
Inventor
峰生 津島
武志 則松
智一 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2002211570A priority Critical patent/JP4327420B2/en
Publication of JP2003058196A publication Critical patent/JP2003058196A/en
Application granted granted Critical
Publication of JP4327420B2 publication Critical patent/JP4327420B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、オーディオ信号符号化方法、及びオーディオ信号復号化方法に関し、特に、音声信号や音楽信号などのオーディオ信号から得られる特徴量、特にオーディオ信号を直交変換等の手法を用いて、時間領域から周波数領域に変換した信号を用い、その変換した信号を原オーディオ信号と比較して、できるだけ少ない符号列で表現するために効率的に符号化する方法と、符号化された信号である符号化列のすべて、あるいはその一部のみを用いて、高い品質と広帯域なオーディオ信号を、復号可能な構成の復号化方法に関するものである。
【0002】
【従来の技術】
オーディオ信号を効率的に符号化、および復号化する様々な手法が提案されている。音楽信号など、20kHz以上の周波数帯域を有するオーディオ信号の圧縮符号化式には、MPEGオーディオ方式や、Twin VQ (TC-WVQ)方式などがある。MPEG方式に代表される符号化方式は、時間軸のディジタルオーディオ信号を、コサイン変換などの直交変換を用いて、周波数軸上のデータに変換し、その周波数軸上の情報を、人間の聴覚的な感度特性を利用して、聴覚的に重要な情報から符号化していく方式であり、聴覚的に重要でない情報や、冗長な情報は符号化しない方式である。一方、Twin VQ (TC-WVQ)方式は、ベクトル量子化手法を用いて、原ディジタル信号の情報量に対して、かなり少ない情報量で表現しようとする符号化方式がある。MPEGオーディオ、および Twin VQ (TC−WVQ) は、それぞれISO/IEC 標準IS-11172-3、およびT.Moriya,H.Suga:An 8 Kbits transform coder for noisy channels, Proc.ICASSP 89,pp196-199、などに述べられている。
【0003】
ここで、図10を用いて、一般の、Twin VQ 方式の概要を説明する。
原オーディオ信号101を解析長判定部102に入力し、解析長を算出する。また同時に、解析長判定部102は解析長112を量子化し、解析長符号列111を出力する。次に、その解析長112に従って、時間周波数変換部103で、原オーディオ信号101を周波数領域の原オーディオ信号104に変換する。次に、周波数領域の原オーディオ信号104は、正規化処理部(平坦化処理部)106で正規化処理(平坦化処理)され、正規化処理後のオーディオ信号108を得る。正規化処理は、原オーディオ信号104から周波数概形105を計算し、原オーディオ信号104を算出した周波数概形105で割ることにより行われる。さらに、正規化処理部106は、正規化処理に用いた周波数概形情報を量子化し、正規化符号列107を出力する。次に、正規化処理後のオーディオ信号108を、ベクトル量子化部109により量子化し、符号列110が得られる。
【0004】
近年、復号器に入力する符号列の一部を用いても、オーディオ信号を再生することができる構造を持つものがある。上記の構造を、スケーラブル構造と呼び、スケーラブル構造を実現できるように符号化することを、スケーラブルコーディングと呼ぶ。
【0005】
図11に一般の、Twin VQ 方式で採用されている、固定スケーラブルコーディングの一例を示す。
原オーディオ信号1301から解析長判定部1303により判定された解析長1314に従って、時間周波数変換部1302により、周波数領域の原オーディオ信号1304を得る。次に、周波数領域の原オーディオ信号1304を、低域符号化器1305に入力すると、量子化誤差1306と、低域符号列1311とが出力される。さらに、量子化誤差1306を中域符号化器1307に入力すると、量子化誤差1308と、中域符号列1312とが出力される。さらに、量子化誤差1308を高域符号化器1309に入力すると、量子化誤差1310と、高域符号列1313とが出力される。ここで、上記低域、または中域、または高域符号化器は、正規化処理部と、ベクトル量子化部とを併せ持ち、その出力は、量子化誤差、および正規化処理部、ならびにベクトル量子化部により出力された各符号列を含む、低域、中域、または高域符号列を、出力するものである。
【0006】
【発明が解決しようとする課題】
従来方式の固定スケーラブルコーディングでは、図11に示すように、低域、中域、高域の各帯域量子化器が固定されているため、図12に示すように、原オーディオ信号の分布に対して、量子化誤差をできるだけ少なくするように符号化することが困難であった。それゆえ、多種多様な性質や分布を持つオーディオ信号の符号化を行う際には、十分な性能を発揮できず、高音質で高効率なスケーラブルコーディングを行なうことが困難であった。
【0007】
本発明は上記の問題点を解消するためになされたもので、多種多様なオーディオ信号の符号化に際して、オーディオ信号を符号化する際、図13に示すように、多種多様なオーディオ信号を適応的にスケーラブルコーディングすることにより、効率よく、低ビットレートで、かつ、高音質に、符号化を行なうことのできるオーディオ信号符号化方法、及びオーディオ信号復号化方法を提供することを目的としている。
【0008】
【課題を解決するための手段】
この課題を解決するために、本発明にかかるオーディオ信号符号化方法、及びオーディオ信号復号化方法は、固定スケーラブルコーディングを用いず、原オーディオ信号の性質,分布にあわせて符号化する周波数範囲を変化させる適応スケーラブルコーディングを行なうようにしたものである。
【0009】
本発明に係るオーディオ信号符号化方法は、特性判定ステップ、符号化帯域制御ステップ、符号化ステップを包含し、時間−周波数変換されたオーディオ信号を符号化列に変換するオーディオ信号符号化方法であって、符号化列は、符号化情報と帯域制御符号列とを含み、符号化ステップは、複数の符号化サブステップを有し、符号化帯域制御ステップの制御によりオーディオ信号の多段符号化を行い符号化情報を出力し、特性判定ステップは、入力されるオーディオ信号を判定し、符号化する各周波数帯域の重み付けを示す帯域重み情報を出力し、符号化帯域制御ステップは、帯域重み情報に基づいて、多段符号化を構成する各符号化サブステップの量子化帯域、接続順を決定し、決定した各符号化サブステップの量子化帯域、接続順に基づいてスケーラブルに構成される多段符号化を符号化ステップに行わせ、決定した各符号化サブステップの量子化帯域、接続順を示す帯域制御符号列を出力するものである。
【0010】
本発明に係るオーディオ信号符号化方法は、前記オーディオ信号符号化方法において、符号化帯域制御ステップが、予め定義された多段符号化のいずれかになるように、各符号化サブステップの量子化帯域、接続順を決定するようにしたものである。
【0011】
本発明に係るオーディオ信号符号化方法は、前記オーディオ信号符号化方法において、符号化ステップが、量子化誤差を出力し、符号化帯域制御ステップが、帯域重み情報と量子化誤差とに基づいて、各符号化サブステップの量子化帯域、接続順を決定するようにしたものである。
【0012】
本発明に係るオーディオ信号復号化方法は、復号化帯域制御ステップ、復号化ステップを包含し、符号化情報と帯域制御符号列とを含む符号化列をオーディオ信号に復号するオーディオ信号復号化方法であって、帯域制御符号列は、符号化情報を多段符号化した際の各符号化の量子化帯域、接続順を示し、復号化ステップは、複数の復号化サブステップを有し、復号化帯域制御ステップの制御により符号化情報の多段復号化を行い、復号化帯域制御ステップは、帯域制御符号列に基づいてスケーラブルに構成される多段復号化を復号化ステップに行わせるようにしたものである。
【0013】
【発明の実施の形態】
以下、本発明の実施の形態1について、図1ないし図9を用いて、また、実施の形態2について、図14ないし図20を用いて、説明する。
【0014】
(実施の形態1)
図1は、本発明の実施の形態1による、適応スケーラブルコーディングを行なう、オーディオ信号符号化装置のブロック図を示す。
図1において、1001は原オーディオ信号501を符号化する符号化装置である。該符号化装置1001において、502は上記原オーディオ信号501を解析する際の解析長504を判定する解析長判定部、503は上記解析長504の単位で、原オーディオ信号501の時間軸を周波数軸に変換する時間周波数変換部、504は上記解析長判定部502で判定された解析長、505は原オーディオ信号のスペクトル、701は該原オーディオ信号のスペクトル505が入力されるフィルタ、506は原オーディオ信号のスペクトル505の特性を判定し、上記符号化装置1001における複数の各段の各符号化器511,512,513,511b等、の量子化するオーディオ信号の周波数帯域を決定する特性判定部、507は該特性判定部506で決定された各符号化器の周波数帯域と、上記周波数変換されたオーディオ信号をその入力とし、複数の各段の各符号化器512,513,514,511b等、の接続順を決定し、各符号化器の量子化帯域、及び接続順を符号列に変換する符号化帯域制御部、508は、該符号化帯域制御部507より出力される上記符号列である帯域制御符号列、510は上記解析長判定部502より出力された上記解析長504を符号列とした解析長符号列、511,512,513は、上述した、それぞれ低域,中域,高域の信号を符号化する低域符号化器、中域符号化器、高域符号化器、511bは第1段の低域符号化器511の量子化誤差518を符号化する第2段低域符号化器、521,522,523は該各符号化器511,512,513から出力される符号化信号である低域符号列、中域符号列、高域符号列、521bは第2段低域符号化器511bの符号化出力である第2段低域符号列、518,519,520は該各符号化器511,512,513から出力される、符号化される前の信号と上記各符号化信号との差である量子化誤差、518bは第2段低域符号化器511bの量子化誤差である第2段量子化誤差である。
【0015】
一方、1002は上記符号化装置1001で符号化された符号化列を復号化する復号化装置である。該復号化装置1002において、5は上記符号化装置1001における時間周波数変換部503と逆の変換を行なう周波数時間変換部、6は時間軸上で窓関数を乗じる窓掛けを行なう窓掛け部、7はフレーム重ねあわせ部、8は復号信号、9は帯域合成部、1201は復号化帯域制御部、1202,1203,1204は、それぞれ上記低域符号化器、中域符号化器、高域符号化器511,512,513に対応して、復号化を行なう低域復号化器、中域復号化器、高域復号化器、1202bは第1段低域復号化器1202の出力を復号化する第2段低域復号化器である。
【0016】
ここで、第2段以降の符号化器、復号化器はさらに他の帯域にも、またさらに、多段にも設けてもよいものであり、これが多段になるほど、必要に応じて、符号化、復号化の精度を向上できるものである。
【0017】
以下、先ず、符号化装置1001の動作について説明する。
符号化しようとする原オーディオ信号501は、時間的に連続するディジタル信号系列であるとする。例えば、音声信号を、サンプリング周波数48kHzで16ビットに量子化したディジタル信号であるとする。
【0018】
上記原オーディオ信号501を解析長判定部502に入力する。上記解析長判定部502は、入力された上記原オーディオ信号501の特性を判断し、解析長504を決定し、その結果は解析長符号列510として、復号化装置1002に送られる。解析長504としては、たとえば256、1024、4096などが用いられる。例えば、原オーディオ信号501に含まれる高域周波数成分が所定の値を超える場合には、解析長504を256とし、低域周波数成分が所定の値を超え、かつ高域周波数成分が所定の値より小さい場合には、解析長504を4096とし、それ以外の場合は、解析長504を1024とする。
こうして決定された解析長504に従って、時間周波数変換部503により原オーディオ信号501のスペクトル505を算出する。
【0019】
図2に、本発明の実施の形態1によるオーディオ信号符号化装置における、時間周波数変換部503のブロック図を示す。
上記原オーディオ信号501は、そのサンプル値が所定のサンプル数に達するまでフレーム分割部201で蓄積され、該蓄積されたサンプル数が、上記解析長判定部502で決定された解析長504に達すると、出力を行なう。また、フレーム分割部201は、あるシフト長ごとに出力を行う構成のものであり、例えば、解析長504を4096サンプルとした場合において、解析長504の半分のシフト長を設定すれば、解析長504が2048サンプルに達するに相当する時間ごとに、最新の4096サンプルを出力するなどの構成を持つ。当然ながら、解析長504や、サンプリング周波数が変わっても、同様に、シフト長を解析長504の半分に設定した構成を持つことは可能である。
そして、このフレーム分割部201からの出力は、後段の窓掛け部202へと入力される。窓掛け部202では、フレーム分割部201からの出力に対して、時間軸上で窓関数を乗じて、窓掛け部202の出力とする。この様子は、例えば、(数1)で示される。
【0020】
【数1】

Figure 0004327420
ただし、ここで、xiはフレーム分割部201からの出力で、hiは窓関数、hxiは窓掛け部202からの出力である。まだ、iは時間のサフィックスである。なお、(数1)で示した窓関数hiは一例であり、窓関数は必ずしも、(数1)のものである必要はない。
【0021】
窓関数の選択は、窓掛け部202に入力される信号の特徴と、フレーム分割部201の解析長504と、時間的に前後に位置するフレームにおける窓関数の形状とに依存する。例えば、窓掛け部202に入力される信号の特徴として、フレーム分割部201の解析長504をNとした場合、N/4ごとに入力される信号の平均パワーを算出して、その平均パワーが非常に大きく変動する場合は、解析長504をNよりも短くして(数1)に示した演算を実行する、などの選択を行う。また、前の時刻のフレームの窓関数の形状と、後ろのフレームの窓関数の形状とに応じて、現在の時刻のフレームの窓関数の形状に歪みがないように、適宜選択するのが望ましい。
【0022】
次いで、窓掛け部202からの出力は、MDCT部203に入力され、ここで変形離散コサイン変換が施され、MDCT係数が出力される。変形離散コサイン変換の一般式は、(数2)で表される。
【0023】
【数2】
Figure 0004327420
このようにMDCT部203の出力であるMDCT係数は、(数2)中の、ykで表せるとすると、MDCT部203の出力は周波数特性を示し、ykの変数k が0に近いほど、低い周波数成分に、0から増大してN/2-1 に近くなるほど、高い周波数成分に、線形に対応する。こうして算出された上記MDCT係数が、原オーディオ信号のスペクトル505となる。
【0024】
次に、上記原オーディオ信号のスペクトル505をフィルタ701へと入力する。該フィルタ701の入力を、x701(i)、出力を、y701(i)とすると、例えば、(数3)で表されるフィルタを用いる。
【0025】
【数3】
Figure 0004327420
ここで、fsは解析長504である。
(数3)で表されるフィルタ701は、一種の移動平均フィルタであるが、当然ながら、移動平均フィルタに限定する必要はなく、他の、たとえば高域通過フィルタであってもいいし、帯域抑制フィルタであっても良い。
【0026】
フィルタ701の出力と、解析長判定部502で算出した解析長504とを、特性判定部506に入力する。図6に、特性判定部506の詳細を示す。特性判定部506では、原オーディオ信号501、および原オーディオ信号のスペクトル505、の聴覚的、物理的な特性を決定する。原オーディオ信号501、および該スペクトル505の聴覚的、物理的特性とは、例えば、音声か、音楽か、の違いである。音声の場合、たとえば6kHzより低域に、大半の周波数成分があるものである。
【0027】
次に、特性判定部506の動作を、図6を用いて説明する。
特性判定部506に入力された原オーディオ信号のスペクトル505をフィルタ701によってフィルタリングした信号を、x506(i)とすると、このx506(i)を基に、スペクトルパワーp506(i)を、(数4)により、スペクトルパワー計算部803で計算する。
【0028】
【数4】
Figure 0004327420
このスペクトルパワーp506(i)を、符号化帯域制御部507の入力の一つとし、各符号化器の帯域制御重み517とする。
また、解析長504が小さい場合、例えば256なるとき、各符号化器を固定的に配置するよう、配置決定部804で決定し、符号化帯域制御部507へと、符号化帯域配置情報516を、固定配置として送る。
【0029】
解析長504が小さい場合以外の場合、たとえば4096や1024のときは、各符号化器を動的に配置するよう、配置決定部804で決定し、符号化帯域制御部507へと、符号化帯域配置情報516を、動的配置として送る。
【0030】
次に、符号化帯域制御部507の動作を、図7を用いて説明する。
符号化帯域制御部507には、上記特性判定部506からの出力である帯域制御重み517と、符号化帯域配置情報516、および原オーディオ信号のスペクトル505をフィルタ701でフィルタリングした信号と、各符号化器の出力した量子化誤差518、または519、または520が入力される。ただし、これらの入力があるのは、各符号化器511、512、513、511bと、符号化帯域制御部507とが、再帰的に動作するためであり、初回の符号化帯域制御部507の動作においては、量子化誤差がないため、量子化誤差を除いた3つの入力となる。
【0031】
上記のように、解析長504が小さく、符号化帯域配置情報516が固定配置となる場合は、予め定義された帯域の固定配置に従って、符号化を、低域から中域、高域へと順に実行するよう、量子化順序決定部902、および、符号化器数決定部903、帯域幅算出部901により、符号化器の量子化帯域,個数,接続順を決定し、符号化を行う。即ち、その時の帯域制御符号列508には、符号化器の帯域情報、符号化器数、および、その接続順序が、情報として符号化される。
【0032】
たとえば、各符号化器の符号化帯域、および符号化器数を、それぞれ0Hz 〜4kHzに1つ、0Hz 〜8kHzに1つ、4kHz〜12kHz に1つ、8kHz〜16kHz に2つ、16kHz 〜24kHz に3つ、となるように、符号化器を配置し、符号化を行う。
【0033】
次に、符号化帯域配置情報516が動的配置になっている場合の、符号化帯域制御部507の動作について説明する。
符号化帯域制御部507は、各符号化器の量子化帯域幅を決定する帯域幅算出部901、各符号化器の量子化順序を決定する量子化順序決定部902、さらに各帯域の符号化器の数を決定する符号化器数決定部903、の3つよりなる。符号化帯域制御部507に入力された信号をもとに、各符号化器の帯域幅を決定する訳であるが、所定の帯域、例えば、0Hz 〜4kHz、0kHz〜8kHz、4kHz〜12kHz 、8kHz〜16kHz 、16kHz 〜24kHz の各帯域において、帯域制御重み517、および各符号化器が符号化した後の量子化誤差、を乗算したものの平均値を算出する。ここで、帯域制御重み517を、weight517(i)、量子化誤差を、err507(i) とすると、(数5)により、平均値を算出する。
【0034】
【数5】
Figure 0004327420
ここで、jは各帯域のインデックス、Ave901(j) は、帯域jにおける平均値、fupper(j) 、およびflower(j) は、帯域jの上限周波数、および下限周波数である。こうして得られた平均値 Ave901(j)が最大となるjを検索し、それが、符号化器が符号化する帯域となる。さらに、検索されたjの値を、符号化器数決定部903に送り、jに対応する帯域の符号化器数を一つ増やすようにし、所定の符号化帯域にいくつの符号化器が存在するのかを記憶しておき、記憶している符号化器数の合計が、予め決定しておいた符号化器の総数になるまで、符号化を繰り返す。最後に、符号化器の帯域、および符号化器数を、帯域制御符号列508として、復号化器へと伝送する。
【0035】
次に、符号化器3の動作について、図3を用いて説明する。
符号化器3は、正規化部301と、量子化部302とからなる。
正規化部301では、フレーム分割部201からの出力である時間軸の信号と、MDCT部203からの出力であるMDCT係数、との両者を入力として、いくつかのパラメータを用いて、MDCT係数を正規化する。ここで、MDCT係数の正規化とは、低域成分と高域成分とで非常に大きさに違いのあるMDCT係数の大きさのばらつきを抑圧することを意味し、例えば、低域成分が高域成分に対して非常に大きい場合などは、低域成分では大きな値、高域成分では小さな値、となるようなパラメータを選出し、これで上記MDCT係数を除算することにより、MDCT係数の大きさのばらつきを抑圧することを指す。また正規化部301では、正規化に用いたパラメータを表現するインデックスを、正規化符号列303として符号化する。
【0036】
量子化部302では、正規化部301で正規化されたMDCT係数を入力として、MDCT係数の量子化を行う。この際、該量子化部302は、該量子化した値と、コードブック中にある複数のコードインデックスに対応する各量子化出力、との間の差が最も小さくなるような,そのような該コードイッデックスを出力する。この場合、上記量子化部302で量子化した値と、該量子化部302から出力されるコードインデックスに対応する値、との差が量子化誤差である。
【0037】
次に、図4を用いて、上記正規化部301の詳細な一例を説明する。
図4において、401はフレーム分割部201とMDCT部203の出力を受ける周波数概形正規化部、402は上記周波数概形正規化部401の出力を受け、帯域テーブル403を参照して、正規化を行う帯域振幅正規化部である。
【0038】
次に、動作について説明する。
周波数概形正規化部401では、フレーム分割部201からの時間軸上のデータ出力を用いて、大まかな周波数の概形である周波数概形を算出し、MDCT部203からの出力であるMDCT係数を除算する。周波数概形を表現するのに用いたパラメータは、正規化符号列303として符号化される。帯域振幅正規化部402では、周波数概形正規化部401からの出力信号を入力として、帯域テーブル403で示された帯域ごとに正規化を行う。例えば、周波数概形正規化部401の出力であるMDCT係数が、dct(i)(i = 0〜2047) とし、帯域テーブル403が、例えば、(表1)に示されるようなものであるとすると、(数6)などを用いて、各帯域毎の振幅の平均値を算出する。
【0039】
【表1】
Figure 0004327420
【数6】
Figure 0004327420
ここで、bjlow,bjhighは、帯域テーブル403に示されたj 番目の帯域におけるdct(i)が属する最も低域のインデックスi と、最も高域のインデックスi をそれぞれ示している。また、p は距離計算におけるノルムであり、2 などが望ましい。avejは、各帯域番号j における振幅の平均値である。帯域振幅正規化部402では、avejを量子化して、qavej を算出して、例えば、(数7)を用いて正規化する。
【0040】
【数7】
Figure 0004327420
avejの量子化は、スカラーの量子化を用いてもよいし、コードブックを用いてベクトル量子化を行ってもよい。帯域振幅正規化部402では、qavej を表現するのに用いたパラメータのインデックスを、正規化符号列303として符号化する。
【0041】
なお、符号化器における正規化部301の構成は、図4の周波数概形正規化部401と、帯域振幅正規化部402、との両者を用いた構成のものを示したが、周波数概形正規化部401のみを用いた構成でもよく、帯域振幅正規化部402のみを用いた構成でもよい。さらに、MDCT部203から出力されるMDCT係数の低域成分と、高域成分とで大きなばらつきがない場合には、上記両者を用いない構成で、MDCT部203の出力信号を、そのまま量子化部302に入力する構成としてもよい。
【0042】
次に、図5を用いて、図4の周波数概形正規化部401の詳細について説明する。
図5において、601はフレーム分割部201の出力を受ける線形予測分析部、602は線形予測分析部601の出力を受ける概形量子化部、603はMDCT部203の出力を受ける包絡特性正規化部である。
【0043】
次に、上記周波数概形正規化部401の動作について、図5を参照して説明する。
上記線形予測分析部601では、フレーム分割部201からの時間軸上のオーディオ信号を入力として、線形予測分析(Linear Predictive Coding)を行う。線形予測分析の線形予測係数(LPC係数)は、ハミング窓などの窓掛けされた信号の自己相関関数を算出し、正規方程式などを解くことで、一般に算出可能である。算出された線形予測係数は、線スペクトル対係数(LSP(Line Spectrum Pair) 係数)などに変換され、概形量子化部602で量子化される。ここでの量子化手法としては、ベクトル量子化を用いてもよいし、スカラー量子化を用いてもよい。そして、概形量子化部602で量子化されたパラメータが表現する周波数伝達特性を、包絡特性正規化部603で算出し、MDCT部203からの出力であるMDCT係数を、これで除算することによって正規化する。具体的な算出例としては、概形量子化部602で量子化されたパラメータと等価な線形予測係数を、qlpc(i) とすれば、包絡特性正規化部603で算出される上記周波数伝達特性は、例えば、(数8)で表すことができる。
【0044】
【数8】
Figure 0004327420
ここで、ORDER は10〜40くらいが望ましい。fft() は高速フーリエ変換を意味する。算出された周波数伝達特性env(i)を用いて、包絡特性正規化部603では、例えば、下記に示す(数9)を用いて、正規化を行う。
【数9】
Figure 0004327420
ここで、mdct(i) はMDCT部203からの出力信号で、fdct(i) は正規化された包絡特性正規化部603からの出力信号である。
【0045】
次に図8を用いて、上記符号化装置1における量子化部302の量子化方法の詳細な動作について説明する。
量子化部302に入力されるMDCT係数1001は、そのMDCT係数1001から幾つかを抜き出して、音源サブベクトル1003を構成する。同様に、正規化部301で、正規化部301の入力であるMDCT係数を、正規化部301の出力であるMDCT係数で割った係数列を、正規化成分1002とした時、この正規化成分1002についても、MDCT係数1001から音源サブベクトル1003を抜き出したのと同じ規則で、該正規化成分1002からサブベクトルの抽出を行い、重みサブベクトル1004を構成することができる。音源サブベクトル1003、および重みサブベクトル1004を、MDCT係数1001および正規化成分1002からそれぞれ抽出する規則は、例えば、(数10)で示す方法などがある。
【0046】
【数10】
Figure 0004327420
ここで、i 番目の音源サブベクトルのj 番目の要素はsubvector i(j) であり、MDCT係数1001はvector()であり、MDCT係数1001の総要素数がTOTAL で、音源サブベクトル1003の要素数がCR、VTOTALは、TOTAL と同じ値かより大きい値で、VTOTAL/CR が正数値になるように設定する。例えば、TOTAL が2048の時、CRが19で、VTOTALが2052、CRが23で、VTOTALが2070、CRが21で、VTOTALが2079などである。重みサブベクトル1004も、数10の手順で抽出可能である。ベクトル量子化器1005では、コードブック1009中のコードベクトルの中から、音源サブベクトル1003との距離が、重みサブベクトル1004で重み付けて最も小さくなるものを探し、その最小の距離を与えたコードベクトルのインデックスと、最小の距離を与えたコードベクトルと入力音源サブベクトル1003との量子化誤差に相当する残差サブベクトル1010とを出力する。
【0047】
実際の計算手順例においては、ベクトル量子化器1005が、距離計算手段1006,コード決定手段1007,残差生成手段1008、の3つの構成要素からなるものとして、説明する。
距離計算手段1006では、例えば、(数11)を用いて、i 番目の音源サブベクトル1003と、コードブック1009のk 番目のコードベクトル、との距離を算出する。
【0048】
【数11】
Figure 0004327420
ここで、wjは、重みサブベクトルのj 番目の要素、Ck(j) は、k 番目のコードベクトルのj 番目の要素、R、Sは、距離計算のノルムであり、R、Sの値としては、1, 1.5, 2 などが望ましい。なお、このノルムRとSは、同一の値である必要はない。dik は、i 番目の音源サブベクトルに対するk 番目のコードベクトルの距離を意味する。コード決定手段1007では、(数11)などで算出された距離の中で、最小となるコードベクトルを選出し、そのインデックスを符号列304として符号化する。例えば、複数の上記dik があるうちの,diu が最小値である場合、i 番目のサブベクトルに対する符号化されるインデックスは、u となる。残差生成手段1008では、コード決定手段1007で選出したコードベクトルを用いて、(数12)により残差サブベクトル1010を生成する。
【0049】
【数12】
Figure 0004327420
ここで、i 番目の残差サブベクトル1010のj 番目の要素は、resi(j) であり、コード決定手段1007で選出されたコードベクトルのj番目の要素を、Cu(j) とする。上記残差サブベクトル1010を用いて(数10)の逆過程の演算を行ってベクトルを求め、該ベクトルと、当該符号化器の元々の符号化対象であったベクトルとの差を、それ以降の各符号化器の量子化対象となるMDCT係数として保持する。ただし、ある帯域の符号化が、それ以降の符号化器に影響を与えない帯域に対して符号化を行っている場合、つまり、以降の符号化器が符号化をすることがない場合は、残差生成手段1008による,残差サブベクトル1010,MDCT1011の生成は必要ない。なお、コードブック1009が持つコードベクトルの個数はいくつでもよいが、メモリ容量、計算時間等を考慮すると、64程度とすることが好ましい。
【0050】
なお、上記ベクトル量子化器1005の他の例としては、以下のような構成も可能である。すなわち、距離計算手段1006では、(数13)を用いて距離を算出する。
【0051】
【数13】
Figure 0004327420
ただし、Kは、コードブック1009のコード検索に用いるコードベクトルの総数である。
コード決定手段1007では、(数13)で算出された距離dik の最小値を与えるk を選出し、そのインデックスを符号化する。ただし、k は0から2K-1までの値となる。残差生成手段1008では、(数14)を用いて残差サブベクトル1010を生成する。
【0052】
【数14】
Figure 0004327420
ここで、コードブック1009が持つコードベクトルの個数はいくつでもよいが、メモリの容量、計算時間等を考慮すると、64程度とすることが好ましい。また、上記では、重みサブベクトル1004を、正規化成分1002のみから生成する構成について述べたが、重みサブベクトル1004に、人間の聴覚特性を考慮した重みをさらに乗じて、重みサブベクトルを生成することも可能である。
以上のようにして、複数の各段の各符号化器の帯域幅、符号化器の個数、及び、接続順序が動的に決定される。そして、こうして決定された各符号化器の情報を基に、量子化を行なう。
【0053】
一方、復号化装置1002では、各帯域の符号化器の出力である正規化符号列と、該正規化符号列に対応した量子化部からの符号列、さらに符号化装置における符号化帯域制御部の出力である帯域制御符号列、また解析長判定部の出力である解析長符号列、を用いて、復号を行う。
【0054】
図9に、復号化器1202、1203、…の構成を示す。各復号化器は、正規化されたMDCT係数を再生する逆量子化部1101と、正規化係数を復号し、上記再生された正規化されたMDCT係数と、正規化係数とを乗算する逆正規化部1102とからなる。
【0055】
逆正規化部1102では、各符号化器の正規化部301からの正規化符号列303から、符号化装置1で正規化に用いたパラメータの復元を行い、逆量子化部1101の出力と、該パラメータとを乗算し、MDCT係数の復元を行う。
【0056】
復号化帯域制御部1201では、符号化帯域制御部507の出力である帯域制御符号列508を用いて、符号化装置で用いた符号化器の配置や、符号化器の個数の情報を復元し、その情報に基づいて各帯域に各復号化器1202、1203、1204、1202bを配置し、符号化装置での各符号化器511、512、513、511bの符号化順序とは逆順に帯域を合成する帯域合成部9により、MDCT係数を得る。こうして得られた該MDCT係数を入力とする周波数時間変換部5では、逆MDCTを行い、周波数領域の信号から時間領域の信号への復元を行う。上記逆MDCT係数の計算は、例えば、(数15)で示される。
【0057】
【数15】
Figure 0004327420
ここで、yykは帯域合成部9で復元されたMDCT係数で、xx(n)は逆MDCT係数であり、これを周波数時間変換部5の出力とする。
窓掛け部6では、周波数時間変換部5からの出力xx(i)を用いて窓掛けを行う。窓掛けは、符号化装置1の時間周波数変換部503にある窓掛け部202で用いた窓を用い、たとえば、(数16)で示される処理を行う。
【0058】
【数16】
Figure 0004327420
ここで、 z(i) は窓掛け部6の出力である。
フレーム重ね合わせ部7では、窓掛け部6からの出力を用いて、オーディオ信号を再生する。窓掛け部6からの出力は、時間的に重複した信号となっているので、フレーム重ね合わせ部7では、例えば、(数17)を用いて、復号化装置1002の出力信号とする。
【0059】
【数17】
Figure 0004327420
ここで、zm(i) は、第m 時刻フレームの第i番目の窓掛け部6の出力信号 z(i) で、zm-1(i) は、第m-1 時刻フレームの第i番目の窓掛け部6の出力信号とし、SHIFT は、符号化装置の解析長504に相当するサンプル数、out m(i)は、フレーム重ね合わせ部7の第m時刻フレームにおける復号化装置1002の出力信号とする。
【0060】
また、本実施の形態1においては、以下のように、符号化帯域制御部507において、帯域幅算出部901で算出する量子化可能周波数範囲を、解析長504により制限することもある。
たとえば、解析長504が256の場合、各符号化器の量子化可能周波数範囲の下限を4kHz程度、上限を24kHz程度にする。解析長が1024あるいは2048の場合、下限を0Hz、上限を16kHz程度にする。さらに一度、解析長504が256になれば、その後一定時間の間、たとえば20msec程度の間、各量子化器の量子化可能周波数範囲や、量子化器の配置を固定するように、量子化順序決定部902により制御することもできる。この処理を用いることにより、経時的に量子化器の配置を一定にし、聴感的な帯域の出入り感(ある瞬間まで高い帯域が中心の音声であったものが、突然、低い帯域が中心の音声に変わったときのように、音声帯域の出入りがあったような感覚)が発生するのを抑制することができる。
【0061】
このような本実施の形態1によるオーディオ信号符号化装置,及び復号化装置では、複数の各段の符号化器の量子化するオーディオ信号の周波数帯域を決定する特性判定部と、上記特性判定部で決定された周波数帯域と、周波数変換された元々のオーディオ信号とをその入力とし、上記複数の各段の符号化器の接続順を決定し、符号化器の量子化帯域、及び接続順を符号列に変換する符号化帯域制御部とを備え、適応的にスケーラブルコーディングを行なう構成としたので、多種多様なオーディオ信号の符号化を行なう際にも、高品質,高効率の、十分な性能を発揮できる適応スケーラブルコーディングを行なうオーディオ信号符号化装置,及びこれを復号する復号化装置を得ることができる。
【0062】
(実施の形態2)
図14に、本発明の実施の形態2について、図14ないし図20を用いて説明する。
図14は、本発明の実施の形態2による、適応スケーラブルコーディングを行なう符号化装置2001、及び復号化装置2002のブロック図を示す。図に示すように、符号化装置2001において、200105は、符号化器の個数、ビットレート、入力オーディオ信号のサンプリング周波数、各符号化器の符号化帯域情報、等の符号化条件、200107は複数の各段の各符号化器の量子化するオーディオ信号の周波数帯域を決定する特性判定部、200109は符号化帯域配置情報、200110は特性判定部200107で決定された周波数帯域と、周波数変換されたオーディオ入力信号とを入力とし、上記複数の各段の符号化器の量子化帯域、及び接続順を符号列に変換する符号化帯域制御部、200111は符号化列、200112は伝送符号化列合成器である。
【0063】
また、復号化装置2002において、200150は伝送符号化列分解器、200151は符号化列、200153bは符号化列200151を入力とし、これを復号化する各復号化器の復号化帯域を制御する復号化帯域制御部、200154bは復号化スペクトルである。
【0064】
本発明の実施の形態2による符号化装置2001は、上記実施の形態1と同じく、適応スケーラブルコーディングを行なうものであるが、実施の形態1に比し、新たに、符号化装置2001に、復号化帯域制御部200153を含む符号化帯域制御部200110を、復号化装置2002に、上記復号化帯域制御部200153と同じ処理を行なう復号化帯域制御部200153bを追加し、さらに、本実施の形態2の特性判定部200107においては、上記実施の形態1における特性判定部506のスペクトルパワー計算部803に代えて、図16に示すように、聴覚心理モデル計算部200602を設け、さらに、該特性判定部200107内に、符号化条件200105と、符号化帯域算出部200601より計算される符号化帯域情報200702と、配置決定部200603より出力される帯域番号200606とより、符号化帯域配置情報200109を生成する符号化帯域配置情報生成手段200604を設けたものである。
【0065】
また、復号化装置2002において、200150は伝送符号化列分解器、200151は符号化列、200153bは符号化列200151を入力とし、これを復号化する各復号化器の復号化帯域を制御する復号化帯域制御部、200154bは復号化スペクトルである。
【0066】
次に、本実施の形態2の動作について説明する。
本実施の形態2において、符号化しようとする原オーディオ信号501は、上記実施の形態1と同様、時間的に連続するディジタル信号系列であるとする。
まず、上記実施の形態1と同様な処理によって、原オーディオ信号のスペクトル505を得る。本実施の形態2では、符号化装置2001に対して、符号化器数、ビットレート、入力オーディオ信号のサンプリング周波数、各符号器の符号化帯域情報、を含む符号化条件200105を、該符号化装置2001における特性判定部200107に入力する。特性判定部200107は、複数の各段の各符号化器の量子化帯域、個数、及び接続順の情報を含む符号化帯域配置情報200109を出力し、これを符号化帯域制御部200110へ入力する。 符号化帯域制御部200110には、図17に示されるように、符号化帯域配置情報200109以外に、原オーディオ信号のスペクトル505が入力され、これらを基に該符号化帯域制御部200110により制御する各符号化器で符号化を行った符号化列200111を出力し、これは伝送符号化列合成器200112へ入力されてこれにより合成され、その合成された出力が、さらに復号化装置2002へと送信される。
【0067】
復号化装置2002では、符号化装置2001の伝送符号化列合成器200112の出力を、伝送符号化列分解器200150で受け取り、符号化列200151と解析長符号列200152とに分解する。符号化列200151は、復号化帯域制御部200153bへと入力され、該復号化帯域制御部により制御される各復号化器で復号化された復号化スペクトル200154bを得る。そして、該復号化スペクトル200154bと、上記伝送符号化列分解器200150の出力である解析長符号化列200152とから、上記実施の形態1と同様に、周波数時間変換部5、窓掛け部6、及びフレーム重ね合わせ部7を用いて、復号信号8を得る。
【0068】
次に、特性判定部200107の動作を、図15〜図20を用いて説明する。
該特性判定部200107は、符号化条件200105を用いて 符号化帯域配置情報200702を算出する符号化帯域算出部200601、原オーディオ信号のスペクトル505、及び差分スペクトル200108などのスペクトル情報、及び符号化帯域情報200702から、人間の聴覚心理モデルに基づいて聴覚重み200605を算出する聴覚心理モデル計算部200602、解析長503を参照して、これに応じて聴覚重み200605にさらに重み付けを行い、各符号化器の帯域の配置を決定して帯域番号200606を出力する配置決定部200603、及び符号化条件200105と、符号化帯域算出部200601より計算される符号化帯域情報200702と、配置決定部200603より出力される帯域番号200606とより、符号化帯域配置情報200109を生成する符号化帯域配置情報生成手段200604から構成される。
【0069】
符号化帯域算出部200601は、符号化装置2001が動作を開始する前に設定する符号化条件200105を用いて、図15に示される符号化器2003が符号化する符号化帯域の上限 fpu(k) 、下限 fpl(k) を算出し、符号化帯域情報200702として、符号化帯域配置情報生成手段200604に送られる。ここで、kは符号化帯域を扱うための数で、kが0から予め設定された最大数である pmax になるに従って、周波数が大きな帯域を示している。 pmax の一例は、4である。符号化帯域算出部200601の動作の一例を、表2に示す。
【0070】
【表2】
Figure 0004327420
聴覚心理モデル計算部200602は、フィルタ701からの出力信号、または符号化帯域制御部200110の出力である差分スペクトル200108,などのスペクトル情報、及び、符号化帯域算出部200601の出力である符号化帯域情報200702から、人間の聴覚心理モデルに基づいて、聴覚重み200605を算出する。該聴覚重み200605は聴覚上重要な帯域が大きな値で、聴覚上それほど重要でない帯域が小さな値となるようなものである。聴覚心理モデル計算部200602の一例としては、入力スペクトルのパワーを計算する方法を用いるものがある。入力されるスペクトルを x602(i)としたときに、聴覚重み wpsy(k)は、
【0071】
【数18】
Figure 0004327420
となる。こうして算出された聴覚重み200605は、配置決定部200603に入力され、該配置決定部200603では、解析長503を参照しながら、解析長503が小、たとえば128の時には、帯域番号200606が大である,たとえば、4,の帯域の聴覚重み200605が大きくなるように、たとえば、この帯域番号が4の帯域の聴覚重みを2倍に重み付けし、また、解析長503が小でないときには、聴覚重み200605をそのままとして、該聴覚重み200603が最大となる帯域を計算し、その帯域番号200606を、符号化帯域配置情報生成手段200604に送る。
【0072】
符号化帯域配置情報生成手段200604は、上記符号化帯域情報200702、及び帯域番号200606、さらには符号化条件200105、を入力として、符号化帯域配置情報200109を出力するものである。即ち、該符号化帯域配置情報生成手段200604は、符号化条件200105を常に参照しながら、該符号化条件からして、符号化帯域配置情報200109が必要とされる間は、上記符号化帯域情報200702と帯域番号200606とを連結してなる符号化帯域配置情報200109を出力し、これが必要で無くなるとその出力を止める動作をする。たとえば、符号化条件200105で指定された符号化器数になるまで、帯域番号200606を出力する。なお、上記配置決定部200603において、解析長503が小なるときには、出力する帯域番号200606を固定する場合もある。
【0073】
次に、図17を用いて、符号化帯域制御部200110の動作について説明する。
符号化帯域制御部200110は、上記特性判定部200107からの出力である符号化帯域配置情報200109、および原オーディオ信号のスペクトル505を入力とし、符号化列200111、及び差分スペクトル200108をその出力とし、その内部には、符号化帯域配置情報200109を受け、原オーディオ信号のスペクトル505、及び、過去の該原オーディオ信号のスペクトル505と、該スペクトル505を符号化しかつ復号化したスペクトル200705との差分スペクトル200108を、帯域番号200606の帯域にシフトするスペクトルシフト手段200701、符号化器2003、上記原オーディオ信号のスペクトル505と復号化スペクトル200705との差分をとる差分計算手段200703、差分スペクトル保持手段200704、及び、符号列200111を復号化器2004で復号した合成スペクトル2001001を、符号化帯域配置情報200702に基づき、スペクトルシフトを行い、これを順次合成して合成スペクトルを得、復号化スペクトル2007056を算出する復号化帯域制御部200153を含んでいる。スペクトルシフト手段200701の構成は、図20に示すとおりであるが、入力としては、シフトしたい元スペクトル2001101と、符号化帯域配置情報200109とを用いる。符号化帯域制御部200110におけるスペクトルシフト手段200701の入力のうち、シフトしたいスペクトル2001101は、原オーディオ信号のスペクトル505、または差分スペクトル200108であり、それらを帯域番号200606の帯域にシフトして、シフトされたスペクトル2001102と、符号化帯域配置情報200109のうちの符号化帯域情報200702とを出力する。帯域番号200606に対応する帯域は、符号化帯域情報200702のfpl(k)、及びfpu(k)から求めることができる。シフトする手順は、上記fpl(k)とfpu(k)との間のスペクトルを、符号化器2003の処理できる帯域まで移動することである。
【0074】
こうして、シフトされたスペクトル2001102を入力とする符号化器2003は、図15に示すように、正規化符号列303、及び残差符号列304を出力し、それらと、スペクトルシフト手段200701の出力である符号化帯域情報200702とをあわせたものが、符号列200111として、伝送符号化合成器200112、及び復号化帯域制御部200153へと送られる。
【0075】
上記符号化器2003の出力である上記符号化列200111は、該符号化帯域制御部200110内にある復号化帯域制御部200153へと入力される。該復号化帯域制御部200153は、復号化装置2002内に存在するもの(200153b)と、動作は同じである。
【0076】
次に、上記復号化装置2002内に存在する復号化帯域制御部200153bの構成を、図19に示す。
復号化帯域制御部200153bは、伝送符号化列分解器200150からの符号列200111を入力として、復号化スペクトル200705bを出力するもので、その内部には、復号化器2004、スペクトルシフト手段200701、復号化スペクトル算出部2001003を持つ。
【0077】
上記復号化器2004の構成を、図18に示す。
復号化器2004は、逆量子化部1101と逆正規化部1102とから構成されており、逆量子化部1101は、符号列200111のうち残差符号列304を入力として、該残差符号列304をコードインデックスに変換し、符号化器2003で用いたコードブックを参照し、そのコードを再生する。再生されたコードは、逆正規化部1102に送られ、符号列200111内の正規化符号列303から再生された正規化系数列303aと乗算され、合成スペクトル2001001を得る。該合成スペクトル2001001は、スペクトルシフト手段200701に入力される。
【0078】
なお、符号化帯域制御部200110内の復号化帯域制御部200153の出力は、復号化スペクトル200705となっているが、これは、復号化装置2002内の復号化帯域制御部200153bの出力である復号化スペクトル200705bと同じものである。
【0079】
復号化器2004によって合成された合成スペクトル2001001は、スペクトルシフト手段200701によりシフトされて、シフトされた合成スペクトル2001002が得られ、これは復号化スペクトル算出部2001003に入力される。
【0080】
復号化スペクトル算出部2001003内では、入力された合成スペクトルを保持しており、保持しているスペクトルと、最新の合成スペクトルとを加算し、復号化スペクトル200705bとして出力する動作をする。
【0081】
符号化帯域制御部200110内の差分計算手段200703は、原オーディオ信号のスペクトル505と、復号化スペクトル200705との差分を計算して、差分スペクトル200108を出力し、これは特性判定部200107へとフィードバックされる。また同時に、上記差分スペクトル200108は、差分スペクトル保持手段200704により保持されて、スペクトルシフト手段200701へも送られ、次の符号化帯域配置情報200109が入力されるときに備えるように構成されている。特性判定部200107では、符号化条件を参照しながら、該符号化条件を満たすまで符号化帯域配置情報200109を出力しつづけ、それが無くなった段階で、符号化帯域制御部200110の動作も停止する。なお、上記符号化帯域制御部200110は、差分スペクトル200108を計算するために、差分スペクトル保持手段200704を持っている。これは、差分スペクトルを保持するために必要な記憶領域で、たとえば、2048個の数を記憶できるような配列である。
【0082】
以上のように、符号化条件200105を満たすように、特性判定部200107と、それに続く符号化帯域制御部200110とによる処理が繰り返され、逐次、符号化列200111が出力され、それが伝送符号化列合成器200112へと送られ、解析長符号列510とともに、伝送符号化列として合成され、復号化装置2002へと伝送される。
【0083】
復号化装置2002では、符号化装置2001より伝送されてきた伝送符号化列を、伝送符号化列分解器200150にて、符号化列200151と、解析長符号列200152とに分解する。該符号化列200151と、解析長符号列200152とは、符号化装置2001内の符号化列200111、及び解析長符号列510と同じものである。
【0084】
分解された符号化列200151は復号化帯域制御部200153bにおいて復号化スペクトル200154bに変換され、該復号化スペクトル200154bは、解析長符号列200152の情報を用いて、周波数時間変換部5、窓掛け部6、及びフレーム重ね合わせ部7にて、時間領域の信号に変換され、それが復号化信号8となる。
【0085】
このように本実施の形態2によるオーディオ信号符号化装置,復号化装置によれば、上記実施の形態1のように、複数の各段の符号化器の量子化するオーディオ信号の周波数帯域を決定する特性判定部と、上記特性判定部で決定された周波数帯域と、周波数変換された元々のオーディオ信号とをその入力とし、上記複数の各段の符号化器の接続順を決定し、符号化器の量子化帯域、及び接続順を符号列に変換する符号化帯域制御部とを備え、適応的にスケーラブルコーディングを行なう構成において、符号化装置には復号化帯域制御部を含む符号化帯域制御部を、復号化装置には復号化帯域制御部を設けるとともに、さらに、特性判定部におけるスペクトルパワー計算部を、聴覚心理モデル計算部とし、さらに、該特性判定部において、符号化帯域配置情報生成手段を設けた構成としたので、特性判定部のスペクトルパワー計算部にかえて代えて聴覚心理モデル計算部を用いたことにより、聴覚的に重要な部分の判定を精度よく行って、その帯域をより選択することができる。また、本発明が対象とするオーディオ信号符号化装置,復号化装置では、符号化器の配置を決定する演算を行なっている際に、符号化条件が満たされれば、符号化の処理がOKと判定されて符号化帯域配置情報も出ないこととなるが、この符号化器の配置を決定するための演算において、上記実施の形態1では、符号化器を配置するときの帯域を選択するときの各帯域幅、及び各帯域の重みが固定であるのに対し、本実施の形態2では、特性判定部の判定条件として、入力信号のサンプリング周波数と、圧縮率、即ち、符号化のビットレート、も入っていることから、これらに応じて、上記各符号化器の帯域配置を選択するときの各帯域に対する重み付け度合いを変えられるものであり、さらに、特性判定部の判定条件として、圧縮率の条件も入っていることにより、圧縮率が高いとき、即ち、ビットレートが低いときには上記各符号化器の帯域配置を選択するときの各帯域の重み付け度合いをあまり変化させないようにし、一方、圧縮率が低いとき、即ち、ビットレートが高いときには、効率をより追求するために、上記各符号化器の帯域配置を選択するときの各帯域の重み付け度合いを、聴覚上、より大事なところを強調するようにし、これにより、圧縮率と品質とのベストバランスを得ることができるものである。このように、多種多様なオーディオ信号の符号化を行なう際にも、十分な性能を発揮して、高品質、高効率な、適応スケーラブルコーディングを行なう、オーディオ信号符号化,復号化装置を得ることができる。
【0086】
【発明の効果】
以上のように、本発明にかかるオーディオ信号符号化方法、及びオーディオ信号復号化方法によれば、符号化ステップは、複数の符号化サブステップを有し、符号化帯域制御ステップの制御によりオーディオ信号の多段符号化を行い符号化情報を出力し、特性判定ステップは、入力されるオーディオ信号を判定し、符号化する各周波数帯域の重み付けを示す帯域重み情報を出力し、符号化帯域制御ステップは、帯域重み情報に基づいて、多段符号化を構成する各符号化サブステップの量子化帯域、接続順を決定し、決定した各符号化サブステップの量子化帯域、接続順に基づいてスケーラブルに構成される多段符号化を符号化ステップに行わせ、決定した各符号化サブステップの量子化帯域、接続順を示す帯域制御符号列を出力するようにしたことにより、多種多様な性質を持つオーディオ信号に対して、より高音質で、より高効率な、適応スケーラブルコーディングを行なうことができるという,有利な効果が得られる。
【図面の簡単な説明】
【図1】本発明の実施の形態1によるオーディオ信号符号化装置における適応スケーラブルコーディングのブロック図
【図2】上記実施の形態1の符号化装置における時間周波数変換部を示す図
【図3】上記実施の形態1の符号化装置における符号化器を示す図
【図4】上記実施の形態1の符号化装置における正規化部を示す図
【図5】上記実施の形態1の符号化装置における周波数概形正規化部を示す図
【図6】上記実施の形態1の符号化装置における特性判定部を示す図
【図7】上記実施の形態1の符号化装置における符号化帯域制御部を示す図
【図8】上記実施の形態1の符号化装置における量子化部を示す図
【図9】上記実施の形態1の符号化装置における復号化器を示す図
【図10】一般のTwinVQ方式の概要を示す図
【図11】一般のTwinVQスケーラブルコーディング方式を示す図
【図12】一般の固定スケーラブルコーディングの短所を示す図
【図13】一般の適応スケーラブルコーディングの長所を示す図
【図14】本発明の実施の形態2によるオーディオ信号符号化装置における適応スケーラブルコーディングのブロック図
【図15】上記実施の形態2の符号化装置における符号化器を示す図
【図16】上記実施の形態2の符号化装置における特性判定部を示す図
【図17】上記実施の形態2の符号化装置における符号化帯域制御部を示す図
【図18】上記実施の形態2の符号化装置における復号化器を示す図
【図19】上記実施の形態2の符号化装置における復号化帯域制御部を示す図
【図20】上記実施の形態2の符号化装置におけるスペクトルシフト手段を示す図
【符号の説明】
1 符号化装置
2 復号化装置
501 原オーディオ信号
502 解析長判定部
503 時間周波数変換部
504 解析長
505 原オーディオ信号のスペクトル
506 特性判定部
507 符号化帯域制御部
508 帯域制御符号列
510 解析長符号列
511 低域符号化器
512 中域符号化器
513 高域符号化器
511b 第2段低域符号化器
518,519,520,518b 量子化誤差
521 低域符号列
522 中域符号列
523 高域符号列
521b 第2段低域符号列
701 フィルタ
5 周波数時間変換部
6 窓掛け部
7 フレーム重ねあわせ部
8 復号信号
9 帯域合成部
1201 復号化帯域制御部
1202 低域復号化器
1203 中域復号化器
1204 高域復号化器
1202b 第2段低域復号化器
201 フレーム分割部
202 窓掛け部
203 MDCT部
3 符号化器
301 正規化部
302 量子化部
303 正規化符号列
304 符号列
401 周波数概形正規化部
402 帯域振幅正規化部
403 帯域テーブル
601 線形予測分析部
602 概形量子化部
603 包絡特性正規化部
803 スペクトルパワー計算部
804 配置決定部
517 帯域制御重み
516 符号化帯域配置情報
901 帯域幅算出部
902 量子化順序決定部
903 符号化器数決定部
1001 量子化部の量子化する帯域のMDCT
1002 同じ量子化帯域の正規化成分
1003 音源サブベクトル
1004 重みサブベクトル
1005 ベクトル量子化器
1006 距離計算手段
1007 コード決定手段
1008 残差生成手段
1009 コードブック
1010 残差サブベクトル
1011 ある量子化部の量子化する帯域のMDCTの残差
101 原オーディオ信号
102 解析長判定部
103 時間周波数変換部
104 周波数領域の原オーディオ信号
105 周波数概形
106 正規化処理部
107 正規化符号列
108 正規化処理後の現オーディオ信号
109 ベクトル量子化部
110 符号列
111 解析長符号列
1301 原オーディオ信号
1302 時間周波数変換部
1303 解析長判定部
1304 周波数領域の原オーディオ信号
1305 低域符号化器
1306 量子化誤差
1307 中域符号化器
1308 量子化誤差
1309 高域符号化器
1310 量子化誤差
1311 低域符号列
1312 中域符号列
1313 高域符号列
1314 解析長符号列
2001 符号化装置
2002 復号化装置
200105 符号化条件
200107 特性判定部
200108 差分スペクトル
200109 符号化帯域配置情報
200110 符号化帯域制御部
200111 符号化列
200112 伝送符号化列合成器
200150 伝送符号化列分解器
200151 符号化列
200152 解析長符号化列
200153 復号化帯域制御部
200154 復号化スペクトル
2003 符号化器
200305 符号化帯域情報
200601 符号化帯域算出部
200602 聴覚心理モデル計算部
200603 配置決定部
200604 符号化帯域配置情報生成手段
200605 聴覚重み
200701 スペクトルシフト手段
200702 符号化帯域情報
200703 差分計算手段
200704 差分スペクトル保持手段
2004 復号化器
200901 逆量化部
200902 逆正規化部
2001001 合成スペクトル
2001002 シフトされた合成スペクトル
2001003 復号化スペクトル算出部
2001101 元スペクトル
2001102 シフトされたスペクトル[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal encoding method and an audio signal decoding method, and more particularly, a feature amount obtained from an audio signal such as a voice signal or a music signal, in particular, a time domain using a technique such as orthogonal transformation of the audio signal. A method of using a signal converted from the frequency domain to the frequency domain, comparing the converted signal with the original audio signal, and efficiently encoding the signal to express it with as few code sequences as possible, and encoding that is the encoded signal The present invention relates to a decoding method having a configuration capable of decoding a high-quality and wideband audio signal using all or only a part of the columns.
[0002]
[Prior art]
Various techniques for efficiently encoding and decoding audio signals have been proposed. There are MPEG audio systems, Twin VQ (TC-WVQ) systems, and the like as compression encoding systems for audio signals having a frequency band of 20 kHz or higher such as music signals. An encoding method typified by the MPEG method converts a time-axis digital audio signal into data on the frequency axis using orthogonal transform such as cosine transform, and converts the information on the frequency axis into human auditory information. This is a method that encodes from auditory important information by using a sensitive characteristic, and is a method that does not encode information that is not auditorially important or redundant information. On the other hand, the Twin VQ (TC-WVQ) system is a coding system that uses a vector quantization method to express with a considerably small amount of information with respect to the amount of information of the original digital signal. MPEG audio and Twin VQ (TC-WVQ) are ISO / IEC standard IS-11172-3 and T.Moriya, H.Suga: An 8 Kbits transform coder for noisy channels, Proc.ICASSP 89, pp196-199, respectively. , Etc.
[0003]
Here, an outline of a general Twin VQ method will be described with reference to FIG.
The original audio signal 101 is input to the analysis length determination unit 102, and the analysis length is calculated. At the same time, the analysis length determination unit 102 quantizes the analysis length 112 and outputs an analysis length code sequence 111. Next, according to the analysis length 112, the time-frequency conversion unit 103 converts the original audio signal 101 into the original audio signal 104 in the frequency domain. Next, the original audio signal 104 in the frequency domain is normalized (flattened) by a normalization processing unit (flattening processing unit) 106 to obtain a normalized audio signal 108. The normalization process is performed by calculating the frequency outline 105 from the original audio signal 104 and dividing the original audio signal 104 by the calculated frequency outline 105. Further, the normalization processing unit 106 quantizes the frequency outline information used for the normalization process, and outputs a normalized code string 107. Next, the normalized audio signal 108 is quantized by the vector quantization unit 109, and a code string 110 is obtained.
[0004]
In recent years, there is a structure that can reproduce an audio signal even if a part of a code string input to a decoder is used. The above structure is referred to as a scalable structure, and encoding so as to realize a scalable structure is referred to as scalable coding.
[0005]
FIG. 11 shows an example of a fixed scalable coding adopted in the general Twin VQ method.
In accordance with the analysis length 1314 determined by the analysis length determination unit 1303 from the original audio signal 1301, the time-frequency conversion unit 1302 obtains the original audio signal 1304 in the frequency domain. Next, when the original audio signal 1304 in the frequency domain is input to the low frequency encoder 1305, a quantization error 1306 and a low frequency code string 1311 are output. Further, when the quantization error 1306 is input to the midband encoder 1307, a quantization error 1308 and a midband code sequence 1312 are output. Further, when the quantization error 1308 is input to the high frequency encoder 1309, the quantization error 1310 and the high frequency code string 1313 are output. Here, the low-frequency, middle-frequency, or high-frequency encoder has a normalization processing unit and a vector quantization unit, and outputs thereof are a quantization error, a normalization processing unit, and a vector quantization unit. A low-frequency, middle-frequency, or high-frequency code sequence including each code sequence output by the conversion unit is output.
[0006]
[Problems to be solved by the invention]
In the conventional fixed scalable coding, as shown in FIG. 11, each of the low-band, mid-band, and high-band quantizers is fixed. Therefore, as shown in FIG. Thus, it has been difficult to perform coding so as to minimize the quantization error. Therefore, when encoding audio signals having various properties and distributions, sufficient performance cannot be exhibited, and it is difficult to perform scalable coding with high sound quality and high efficiency.
[0007]
The present invention has been made to solve the above-mentioned problems. When encoding various audio signals, the audio signals are adaptively encoded as shown in FIG. It is an object of the present invention to provide an audio signal encoding method and an audio signal decoding method that can perform encoding efficiently and at a low bit rate and with high sound quality.
[0008]
[Means for Solving the Problems]
In order to solve this problem, the audio signal encoding method and the audio signal decoding method according to the present invention change the frequency range to be encoded in accordance with the nature and distribution of the original audio signal without using fixed scalable coding. Adaptive scalable coding is performed.
[0009]
An audio signal encoding method according to the present invention is an audio signal encoding method that includes a characteristic determination step, an encoding band control step, and an encoding step, and converts a time-frequency converted audio signal into an encoded sequence. The encoded sequence includes encoded information and a band control code sequence, and the encoding step includes a plurality of encoding substeps, and performs multi-stage encoding of the audio signal under the control of the encoding band control step. The encoded information is output, the characteristic determining step determines the input audio signal, outputs band weight information indicating the weight of each frequency band to be encoded, and the encoded band control step is based on the band weight information. Thus, the quantization band and connection order of each encoding sub-step constituting the multi-stage encoding are determined, and the determined quantization band and connection order of each encoding sub-step are determined. There made to perform the encoding step the formed multi scalably encoded, the quantization bands of the respective coded sub-steps determined, and outputs a band control code sequence indicating the connection order.
[0010]
The audio signal encoding method according to the present invention is such that, in the audio signal encoding method, the quantization band of each encoding sub-step is set such that the encoding band control step is one of the predefined multistage encodings. The connection order is determined.
[0011]
In the audio signal encoding method according to the present invention, in the audio signal encoding method, the encoding step outputs a quantization error, and the encoding band control step is based on the band weight information and the quantization error. The quantization band and the connection order of each encoding substep are determined.
[0012]
An audio signal decoding method according to the present invention includes a decoding band control step and a decoding step, and is an audio signal decoding method for decoding an encoded sequence including encoded information and a band control code sequence into an audio signal. The band control code string indicates the quantization band and connection order of each encoding when the encoding information is multi-stage encoded, the decoding step has a plurality of decoding sub-steps, and the decoding band The encoded information is subjected to multistage decoding under the control of the control step, and the decoding band control step causes the decoding step to perform multistage decoding configured in a scalable manner based on the band control code string. .
[0013]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the first embodiment of the present invention will be described with reference to FIGS. 1 to 9, and the second embodiment will be described with reference to FIGS.
[0014]
(Embodiment 1)
FIG. 1 is a block diagram of an audio signal encoding apparatus that performs adaptive scalable coding according to Embodiment 1 of the present invention.
In FIG. 1, reference numeral 1001 denotes an encoding apparatus that encodes an original audio signal 501. In the encoding apparatus 1001, 502 is an analysis length determination unit that determines an analysis length 504 when analyzing the original audio signal 501, 503 is a unit of the analysis length 504, and the time axis of the original audio signal 501 is a frequency axis. 504 is the analysis length determined by the analysis length determination unit 502, 505 is the spectrum of the original audio signal, 701 is a filter to which the spectrum 505 of the original audio signal is input, and 506 is the original audio A characteristic determination unit that determines a characteristic of a spectrum 505 of the signal and determines a frequency band of an audio signal to be quantized by each of the encoders 511, 512, 513, and 511b of each of the plurality of stages in the encoding device 1001; Reference numeral 507 denotes a frequency band of each encoder determined by the characteristic determination unit 506 and the above-described frequency-converted audio. The connection order of the encoders 512, 513, 514, 511b, etc. at each of the plurality of stages is determined, and the quantization band and connection order of each encoder are converted into a code string. The coding band control unit 508 is a band control code string that is the code string output from the coding band control unit 507, and 510 is the analysis length 504 output from the analysis length determination unit 502 as a code string. The analysis long code strings 511, 512, and 513 are the low-frequency encoder, mid-frequency encoder, high-frequency encoder, and 511b for encoding the low-frequency, mid-frequency, and high-frequency signals, respectively. Is a second-stage low-band encoder that encodes the quantization error 518 of the first-stage low-band encoder 511, and 521, 522, and 523 are codes output from the respective encoders 511, 512, and 513. Low-frequency code sequence, mid-range code sequence, and high-frequency code sequence Reference numeral 521b denotes an encoded output of the second-stage low-pass encoder 511b. Second-stage low-pass code strings 518, 519, and 520 are output from the respective encoders 511, 512, and 513 and are encoded. A quantization error 518b that is a difference between the previous signal and each of the encoded signals is a second-stage quantization error that is a quantization error of the second-stage low-band encoder 511b.
[0015]
On the other hand, reference numeral 1002 denotes a decoding apparatus that decodes the encoded sequence encoded by the encoding apparatus 1001. In the decoding device 1002, 5 is a frequency time conversion unit that performs the inverse conversion of the time frequency conversion unit 503 in the encoding device 1001, 6 is a windowing unit that performs windowing that multiplies a window function on the time axis, and 7 Is a frame superposition unit, 8 is a decoded signal, 9 is a band synthesis unit, 1201 is a decoding band control unit, 1202, 1203, and 1204 are the above low-band encoder, mid-band encoder, and high-band coding, respectively. Corresponding to the units 511, 512, and 513, the low band decoder, middle band decoder, and high band decoder that perform decoding, 1202b decodes the output of the first stage low band decoder 1202. A second stage low band decoder.
[0016]
Here, the encoders and decoders in the second and subsequent stages may be provided in other bands and further in multiple stages, and as the number of stages increases, the encoding, Decoding accuracy can be improved.
[0017]
Hereinafter, first, the operation of the encoding apparatus 1001 will be described.
Assume that the original audio signal 501 to be encoded is a digital signal sequence that is temporally continuous. For example, assume that the audio signal is a digital signal quantized to 16 bits at a sampling frequency of 48 kHz.
[0018]
The original audio signal 501 is input to the analysis length determination unit 502. The analysis length determination unit 502 determines the characteristics of the input original audio signal 501 to determine the analysis length 504, and the result is sent to the decoding apparatus 1002 as an analysis length code string 510. For example, 256, 1024, 4096 or the like is used as the analysis length 504. For example, when the high frequency component included in the original audio signal 501 exceeds a predetermined value, the analysis length 504 is set to 256, the low frequency component exceeds a predetermined value, and the high frequency component is a predetermined value. If it is smaller, the analysis length 504 is set to 4096, and otherwise, the analysis length 504 is set to 1024.
In accordance with the analysis length 504 determined in this way, the spectrum 505 of the original audio signal 501 is calculated by the time frequency conversion unit 503.
[0019]
FIG. 2 shows a block diagram of time frequency conversion section 503 in the audio signal encoding apparatus according to Embodiment 1 of the present invention.
The original audio signal 501 is accumulated in the frame division unit 201 until the sample value reaches a predetermined number of samples, and when the accumulated number of samples reaches the analysis length 504 determined by the analysis length determination unit 502. , Output. Further, the frame dividing unit 201 is configured to output for every certain shift length. For example, when the analysis length 504 is 4096 samples, the analysis length can be set by setting a half shift length of the analysis length 504. For example, the latest 4096 samples are output every time corresponding to 504 reaching 2048 samples. Of course, even if the analysis length 504 or the sampling frequency changes, it is possible to similarly have a configuration in which the shift length is set to half of the analysis length 504.
The output from the frame dividing unit 201 is input to the subsequent windowing unit 202. The windowing unit 202 multiplies the output from the frame dividing unit 201 by a window function on the time axis to obtain the output of the windowing unit 202. This situation is expressed by, for example, (Equation 1).
[0020]
[Expression 1]
Figure 0004327420
Here, xi is an output from the frame dividing unit 201, hi is a window function, and hxi is an output from the windowing unit 202. I is still the time suffix. Note that the window function hi shown in (Equation 1) is an example, and the window function does not necessarily have to be that in (Equation 1).
[0021]
The selection of the window function depends on the characteristics of the signal input to the windowing unit 202, the analysis length 504 of the frame dividing unit 201, and the shape of the window function in the frames positioned before and after in time. For example, when the analysis length 504 of the frame division unit 201 is N as a feature of the signal input to the windowing unit 202, the average power of the signal input every N / 4 is calculated, and the average power is If it fluctuates significantly, the analysis length 504 is made shorter than N and the calculation shown in (Equation 1) is executed. In addition, it is desirable to appropriately select the window function shape of the frame at the current time so as not to be distorted according to the shape of the window function of the frame at the previous time and the shape of the window function of the subsequent frame. .
[0022]
Next, an output from the windowing unit 202 is input to the MDCT unit 203, where a modified discrete cosine transform is performed, and MDCT coefficients are output. A general expression of the modified discrete cosine transform is expressed by (Equation 2).
[0023]
[Expression 2]
Figure 0004327420
Thus, if the MDCT coefficient that is the output of the MDCT unit 203 can be expressed by yk in (Equation 2), the output of the MDCT unit 203 shows frequency characteristics, and the closer the variable k of yk is to 0, the lower the frequency The component corresponds to a higher frequency component linearly as it increases from 0 and approaches N / 2-1. The MDCT coefficient calculated in this way becomes the spectrum 505 of the original audio signal.
[0024]
Next, the spectrum 505 of the original audio signal is input to the filter 701. When the input of the filter 701 is x701 (i) and the output is y701 (i), for example, a filter represented by (Equation 3) is used.
[0025]
[Equation 3]
Figure 0004327420
Here, fs is the analysis length 504.
The filter 701 represented by (Equation 3) is a kind of moving average filter, but of course, it is not necessary to be limited to the moving average filter, and may be another high-pass filter, for example, It may be a suppression filter.
[0026]
The output of the filter 701 and the analysis length 504 calculated by the analysis length determination unit 502 are input to the characteristic determination unit 506. FIG. 6 shows details of the characteristic determination unit 506. The characteristic determination unit 506 determines auditory and physical characteristics of the original audio signal 501 and the spectrum 505 of the original audio signal. The audio and physical characteristics of the original audio signal 501 and the spectrum 505 are, for example, the difference between voice and music. In the case of voice, for example, most of the frequency components are present in a range lower than 6 kHz.
[0027]
Next, the operation of the characteristic determination unit 506 will be described with reference to FIG.
Assuming that the signal obtained by filtering the spectrum 505 of the original audio signal input to the characteristic determination unit 506 by the filter 701 is x506 (i), the spectrum power p506 (i) is expressed based on this x506 (i) as ), The spectrum power calculation unit 803 calculates.
[0028]
[Expression 4]
Figure 0004327420
This spectrum power p506 (i) is set as one of the inputs of the coding band control unit 507, and is set as the band control weight 517 of each encoder.
Further, when the analysis length 504 is small, for example, 256, the arrangement determining unit 804 decides to arrange each encoder in a fixed manner, and the coding band arrangement information 516 is sent to the coding band control unit 507. Send as a fixed arrangement.
[0029]
In cases other than the case where the analysis length 504 is small, for example, 4096 or 1024, the arrangement determining unit 804 determines that the encoders are dynamically arranged, and the encoding band control unit 507 transmits the encoding band. Placement information 516 is sent as dynamic placement.
[0030]
Next, the operation of the coding band control unit 507 will be described with reference to FIG.
The encoded band control unit 507 includes a band control weight 517 output from the characteristic determination unit 506, the encoded band arrangement information 516, a signal obtained by filtering the spectrum 505 of the original audio signal with the filter 701, and each code. The quantization error 518, 519, or 520 output from the generator is input. However, these inputs are present because the encoders 511, 512, 513, and 511b and the encoding band control unit 507 operate recursively. In operation, there is no quantization error, so there are three inputs excluding the quantization error.
[0031]
As described above, when the analysis length 504 is small and the coding band arrangement information 516 is fixed arrangement, encoding is performed in order from the low band to the middle band and the high band in accordance with the fixed band arrangement. The quantization order determining unit 902, the number-of-encoders determining unit 903, and the bandwidth calculating unit 901 determine the quantization band, the number, and the connection order of the encoders to perform the encoding. That is, the bandwidth control code string 508 at that time is encoded with information on the bandwidth information of the encoder, the number of encoders, and the connection order thereof.
[0032]
For example, the encoding band and the number of encoders for each encoder are one for 0 Hz to 4 kHz, one for 0 Hz to 8 kHz, one for 4 kHz to 12 kHz, two for 8 kHz to 16 kHz, and 16 kHz to 24 kHz. Encoders are arranged so that there are three, and encoding is performed.
[0033]
Next, the operation of the coding band control unit 507 when the coding band arrangement information 516 is dynamically arranged will be described.
The coding band control unit 507 includes a bandwidth calculation unit 901 that determines the quantization bandwidth of each encoder, a quantization order determination unit 902 that determines the quantization order of each encoder, and further encodes each band. The encoder number determination unit 903 determines the number of units. The bandwidth of each encoder is determined based on the signal input to the encoding band control unit 507. The predetermined bandwidth, for example, 0Hz to 4kHz, 0kHz to 8kHz, 4kHz to 12kHz, 8kHz In each of the bands of 16 kHz and 16 kHz to 24 kHz, an average value is calculated by multiplying the band control weight 517 and the quantization error after encoding by each encoder. Here, assuming that the band control weight 517 is weight 517 (i) and the quantization error is err507 (i), the average value is calculated by (Equation 5).
[0034]
[Equation 5]
Figure 0004327420
Here, j is an index of each band, Ave901 (j) is an average value in band j, and fupper (j) and flower (j) are an upper limit frequency and a lower limit frequency of band j. The j having the maximum average value Ave901 (j) obtained in this way is searched, and this is the band to be encoded by the encoder. Further, the value of the retrieved j is sent to the encoder number determination unit 903 so that the number of encoders in the band corresponding to j is increased by one, and there are several encoders in a predetermined encoding band. Whether or not to do so is stored, and the encoding is repeated until the total number of stored encoders reaches the predetermined total number of encoders. Finally, the band of the encoder and the number of encoders are transmitted to the decoder as a band control code string 508.
[0035]
Next, the operation of the encoder 3 will be described with reference to FIG.
The encoder 3 includes a normalization unit 301 and a quantization unit 302.
The normalization unit 301 receives both the time-axis signal output from the frame division unit 201 and the MDCT coefficient output from the MDCT unit 203, and uses several parameters to calculate the MDCT coefficient. Normalize. Here, the normalization of the MDCT coefficient means to suppress the variation in the size of the MDCT coefficient that is very different in magnitude between the low frequency component and the high frequency component. In a case where the frequency component is very large with respect to the band component, a parameter that has a large value for the low frequency component and a small value for the high frequency component is selected, and the MDCT coefficient is divided by the above parameter. It means to suppress the variation of the length. In addition, the normalization unit 301 encodes an index representing a parameter used for normalization as a normalization code string 303.
[0036]
The quantization unit 302 receives the MDCT coefficient normalized by the normalization unit 301 as input and quantizes the MDCT coefficient. At this time, the quantization unit 302 is configured to reduce the difference between the quantized value and each quantized output corresponding to a plurality of code indexes in the codebook. Outputs code index. In this case, the difference between the value quantized by the quantization unit 302 and the value corresponding to the code index output from the quantization unit 302 is a quantization error.
[0037]
Next, a detailed example of the normalization unit 301 will be described with reference to FIG.
In FIG. 4, 401 is a frequency outline normalization unit that receives the outputs of the frame division unit 201 and the MDCT unit 203, 402 receives the output of the frequency outline normalization unit 401, and is normalized by referring to the band table 403. Is a band amplitude normalization unit for performing
[0038]
Next, the operation will be described.
The frequency outline normalization unit 401 uses the data output on the time axis from the frame division unit 201 to calculate a frequency outline that is an approximate form of the frequency, and outputs an MDCT coefficient that is an output from the MDCT unit 203. Divide The parameters used to express the frequency outline are encoded as a normalized code string 303. The band amplitude normalization unit 402 receives the output signal from the frequency outline normalization unit 401 and performs normalization for each band indicated in the band table 403. For example, the MDCT coefficient that is the output of the frequency outline normalization unit 401 is dct (i) (i = 0 to 2047), and the bandwidth table 403 is, for example, as shown in (Table 1). Then, the average value of the amplitude for each band is calculated using (Equation 6) and the like.
[0039]
[Table 1]
Figure 0004327420
[Formula 6]
Figure 0004327420
Here, bjlow and bjhigh respectively indicate the lowest frequency index i and the highest frequency index i to which dct (i) in the j-th bandwidth shown in the bandwidth table 403 belongs. Also, p is the norm in distance calculation, and is preferably 2. avej is an average value of amplitude in each band number j. The band amplitude normalization unit 402 quantizes avej, calculates qavej, and normalizes using, for example, (Equation 7).
[0040]
[Expression 7]
Figure 0004327420
As the quantization of avej, scalar quantization may be used, or vector quantization may be performed using a codebook. The band amplitude normalization unit 402 encodes the parameter index used to represent qavej as a normalized code string 303.
[0041]
Note that the configuration of the normalization unit 301 in the encoder has a configuration using both the frequency outline normalization unit 401 and the band amplitude normalization unit 402 in FIG. A configuration using only the normalization unit 401 or a configuration using only the band amplitude normalization unit 402 may be used. Further, when there is no large variation between the low-frequency component and the high-frequency component of the MDCT coefficient output from the MDCT unit 203, the output signal of the MDCT unit 203 is directly used as the quantization unit without using the above-described configuration. It is good also as a structure which inputs into 302. FIG.
[0042]
Next, details of the frequency outline normalization unit 401 of FIG. 4 will be described with reference to FIG.
In FIG. 5, 601 is a linear prediction analysis unit that receives the output of the frame division unit 201, 602 is a rough quantization unit that receives the output of the linear prediction analysis unit 601, and 603 is an envelope characteristic normalization unit that receives the output of the MDCT unit 203. It is.
[0043]
Next, the operation of the frequency outline normalization unit 401 will be described with reference to FIG.
The linear prediction analysis unit 601 performs linear prediction analysis (Linear Predictive Coding) using the audio signal on the time axis from the frame division unit 201 as an input. The linear prediction coefficient (LPC coefficient) of the linear prediction analysis can be generally calculated by calculating an autocorrelation function of a windowed signal such as a Hamming window and solving a normal equation or the like. The calculated linear prediction coefficient is converted into a line spectrum pair coefficient (LSP (Line Spectrum Pair) coefficient) and the like, and is quantized by the rough quantization unit 602. As the quantization method here, vector quantization may be used, or scalar quantization may be used. Then, the frequency transfer characteristic represented by the parameter quantized by the rough quantization unit 602 is calculated by the envelope characteristic normalization unit 603, and the MDCT coefficient that is the output from the MDCT unit 203 is divided by this. Normalize. As a specific calculation example, if the linear prediction coefficient equivalent to the parameter quantized by the rough quantization unit 602 is qlpc (i), the frequency transfer characteristic calculated by the envelope characteristic normalization unit 603 is used. Can be expressed by, for example, (Equation 8).
[0044]
[Equation 8]
Figure 0004327420
Here, ORDER is preferably about 10-40. fft () means fast Fourier transform. Using the calculated frequency transfer characteristic env (i), the envelope characteristic normalization unit 603 performs normalization using, for example, the following (Equation 9).
[Equation 9]
Figure 0004327420
Here, mdct (i) is an output signal from the MDCT unit 203, and fdct (i) is an output signal from the normalized envelope characteristic normalizing unit 603.
[0045]
Next, a detailed operation of the quantization method of the quantization unit 302 in the encoding apparatus 1 will be described with reference to FIG.
Some MDCT coefficients 1001 input to the quantization unit 302 are extracted from the MDCT coefficients 1001 to form a sound source subvector 1003. Similarly, when the normalization unit 301 sets a coefficient sequence obtained by dividing the MDCT coefficient that is the input of the normalization unit 301 by the MDCT coefficient that is the output of the normalization unit 301 as the normalization component 1002, this normalization component With respect to 1002 as well, a weighting subvector 1004 can be formed by extracting a subvector from the normalized component 1002 in accordance with the same rule as extracting the sound source subvector 1003 from the MDCT coefficient 1001. The rules for extracting the sound source subvector 1003 and the weight subvector 1004 from the MDCT coefficient 1001 and the normalized component 1002 are, for example, the method shown in (Equation 10).
[0046]
[Expression 10]
Figure 0004327420
Here, the j th element of the i th sound source subvector is subvector i (j), the MDCT coefficient 1001 is vector (), the total number of elements of the MDCT coefficient 1001 is TOTAL, and the elements of the sound source sub vector 1003 The numbers CR and VTOTAL are the same or larger than TOTAL, and VTOTAL / CR is set to a positive value. For example, when TOTAL is 2048, CR is 19, VTOTAL is 2052, CR is 23, VTOTAL is 2070, CR is 21, and VTOTAL is 2079. The weight subvector 1004 can also be extracted by the procedure of several tens. The vector quantizer 1005 searches the code vector in the code book 1009 for the smallest distance from the sound source subvector 1003 by weighting with the weight subvector 1004, and the code vector giving the minimum distance. And a residual subvector 1010 corresponding to a quantization error between the code vector giving the minimum distance and the input sound source subvector 1003 are output.
[0047]
In an actual calculation procedure example, description will be made assuming that the vector quantizer 1005 includes three components, that is, a distance calculation unit 1006, a code determination unit 1007, and a residual generation unit 1008.
The distance calculation unit 1006 calculates the distance between the i th sound source subvector 1003 and the k th code vector of the code book 1009 using, for example, (Equation 11).
[0048]
[Expression 11]
Figure 0004327420
Where wj is the jth element of the weight subvector, Ck (j) is the jth element of the kth code vector, R and S are the norms of the distance calculation, and the values of R and S are 1, 1.5, 2 etc. are desirable. The norms R and S do not have to be the same value. dik means the distance of the k th code vector to the i th sound source subvector. The code determining unit 1007 selects a code vector that is the smallest among the distances calculated by (Equation 11) and encodes the index as a code string 304. For example, if diu is the minimum among a plurality of diks, the index to be encoded for the i-th subvector is u. The residual generation unit 1008 generates a residual subvector 1010 according to (Equation 12) using the code vector selected by the code determination unit 1007.
[0049]
[Expression 12]
Figure 0004327420
Here, the j-th element of the i-th residual subvector 1010 is resi (j), and the j-th element of the code vector selected by the code determining means 1007 is Cu (j). Using the residual subvector 1010, the inverse process of (Equation 10) is performed to obtain a vector, and the difference between the vector and the original encoding target of the encoder is calculated thereafter. Are held as MDCT coefficients to be quantized by each encoder. However, when encoding of a certain band is performed on a band that does not affect the subsequent encoder, that is, when the subsequent encoder does not perform encoding, It is not necessary to generate the residual subvector 1010 and MDCT 1011 by the residual generation means 1008. The code book 1009 can have any number of code vectors, but it is preferable to set the code vector to about 64 in consideration of memory capacity, calculation time, and the like.
[0050]
As another example of the vector quantizer 1005, the following configuration is also possible. That is, the distance calculation unit 1006 calculates the distance using (Equation 13).
[0051]
[Formula 13]
Figure 0004327420
Here, K is the total number of code vectors used for code search of the code book 1009.
The code determining means 1007 selects k that gives the minimum value of the distance dik calculated in (Equation 13), and encodes the index. However, k is a value from 0 to 2K-1. Residual generation means 1008 generates residual subvector 1010 using (Equation 14).
[0052]
[Expression 14]
Figure 0004327420
Here, the code book 1009 may have any number of code vectors, but is preferably about 64 in consideration of the memory capacity, calculation time, and the like. In the above description, the configuration in which the weight subvector 1004 is generated only from the normalized component 1002 has been described. However, the weight subvector is generated by further multiplying the weight subvector 1004 by a weight that takes into account human auditory characteristics. It is also possible.
As described above, the bandwidth of each encoder in each of a plurality of stages, the number of encoders, and the connection order are dynamically determined. Then, quantization is performed based on the information of each encoder thus determined.
[0053]
On the other hand, in decoding apparatus 1002, a normalized code string that is an output of the encoder of each band, a code string from a quantization unit corresponding to the normalized code string, and a coding band control unit in the encoding apparatus Using the band control code string that is the output of the analysis length and the analysis length code string that is the output of the analysis length determination unit.
[0054]
FIG. 9 shows the configuration of the decoders 1202, 1203,. Each decoder includes an inverse quantization unit 1101 that reproduces the normalized MDCT coefficient, and an inverse normalization that decodes the normalized coefficient and multiplies the reproduced normalized MDCT coefficient by the normalized coefficient. And the conversion unit 1102.
[0055]
In the denormalization unit 1102, the parameters used for normalization in the encoding device 1 are restored from the normalized code string 303 from the normalization unit 301 of each encoder, and the output of the dequantization unit 1101 The MDCT coefficient is restored by multiplying the parameter.
[0056]
The decoding band control unit 1201 uses the band control code string 508 that is the output of the coding band control unit 507 to restore information on the arrangement of the encoders used in the encoding apparatus and the number of encoders. Based on this information, each decoder 1202, 1203, 1204, 1202b is arranged in each band, and the bands are arranged in the reverse order to the encoding order of each encoder 511, 512, 513, 511b in the encoding device. The MDCT coefficient is obtained by the band synthesizing unit 9 for synthesizing. The frequency time conversion unit 5 that receives the MDCT coefficient obtained in this way performs inverse MDCT to restore the frequency domain signal to the time domain signal. The calculation of the inverse MDCT coefficient is expressed by, for example, (Equation 15).
[0057]
[Expression 15]
Figure 0004327420
Here, yyk is an MDCT coefficient restored by the band synthesizing unit 9, and xx (n) is an inverse MDCT coefficient, which is output from the frequency time conversion unit 5.
The windowing unit 6 performs windowing using the output xx (i) from the frequency time conversion unit 5. The windowing uses the window used in the windowing unit 202 in the time-frequency conversion unit 503 of the encoding device 1 and performs, for example, the processing expressed by (Equation 16).
[0058]
[Expression 16]
Figure 0004327420
Here, z (i) is the output of the windowing unit 6.
The frame superimposing unit 7 uses the output from the windowing unit 6 to reproduce an audio signal. Since the output from the windowing unit 6 is a signal that overlaps in time, the frame superimposing unit 7 uses, for example, (Equation 17) as the output signal of the decoding device 1002.
[0059]
[Expression 17]
Figure 0004327420
Here, zm (i) is the output signal z (i) of the i-th windowing unit 6 of the m-th time frame, and zm-1 (i) is the i-th time of the m-1 time frame. The output signal of the windowing unit 6, SHIFT is the number of samples corresponding to the analysis length 504 of the encoding device, and out m (i) is the output signal of the decoding device 1002 in the mth time frame of the frame superposition unit 7. And
[0060]
In the first embodiment, as described below, in the coding band control unit 507, the quantisable frequency range calculated by the bandwidth calculation unit 901 may be limited by the analysis length 504.
For example, when the analysis length 504 is 256, the lower limit of the quantifiable frequency range of each encoder is set to about 4 kHz, and the upper limit is set to about 24 kHz. When the analysis length is 1024 or 2048, the lower limit is set to 0 Hz and the upper limit is set to about 16 kHz. Once the analysis length 504 reaches 256, the quantization order is fixed so that the quantizer frequency range of each quantizer and the arrangement of the quantizers are fixed for a certain period of time, for example, about 20 msec. Control by the determination unit 902 is also possible. By using this processing, the arrangement of the quantizers is made constant over time, and the perceived in and out of the audible band (the sound that was centered on the high band up to a certain moment is suddenly the sound that is centered on the low band. It is possible to suppress the occurrence of a feeling that the voice band has entered and exited, as in the case of changing to.
[0061]
In such an audio signal encoding device and decoding device according to the first embodiment, a characteristic determining unit that determines a frequency band of an audio signal to be quantized by a plurality of stages of encoders, and the characteristic determining unit The frequency band determined in step 1 and the original audio signal subjected to frequency conversion are used as inputs, the connection order of the encoders in each of the plurality of stages is determined, and the quantization band and connection order of the encoders are determined. It has a coding band control unit that converts to a code string and is configured to adaptively perform scalable coding, so it can provide high quality, high efficiency, and sufficient performance when encoding a wide variety of audio signals. Thus, it is possible to obtain an audio signal encoding apparatus that performs adaptive scalable coding and a decoding apparatus that decodes the same.
[0062]
(Embodiment 2)
FIG. 14 illustrates a second embodiment of the present invention with reference to FIGS. 14 to 20.
FIG. 14 shows a block diagram of an encoding apparatus 2001 and a decoding apparatus 2002 that perform adaptive scalable coding according to Embodiment 2 of the present invention. As shown in the figure, in the encoding apparatus 2001, reference numeral 200105 denotes encoding conditions such as the number of encoders, bit rate, sampling frequency of input audio signal, encoding band information of each encoder, and the like. The characteristic determination unit that determines the frequency band of the audio signal to be quantized by each encoder of each stage of the above, 200109 is the coding band arrangement information, 200110 is the frequency band determined by the characteristic determination unit 200107, and the frequency converted An audio input signal is used as an input, and a coding band control unit that converts the quantization band of each of the plurality of stages of encoders and the connection order into a code string, 200111 is a coded string, and 200112 is a transmission coded string synthesizer. It is a vessel.
[0063]
Also, in the decoding apparatus 2002, 200150 is a transmission coded sequence decomposer, 2000015 is a coded sequence, 2000015b is a coded sequence 20011, and decoding is performed to control the decoding band of each decoder that decodes this. The band control unit 200134b is a decoded spectrum.
[0064]
The encoding apparatus 2001 according to the second embodiment of the present invention performs adaptive scalable coding as in the first embodiment. However, compared with the first embodiment, the encoding apparatus 2001 newly adds a decoding The coding band control unit 200110 including the coding band control unit 200153 is added to the decoding apparatus 2002, and a decoding band control unit 200153b that performs the same processing as the decoding band control unit 200153 is added. In the characteristic determination unit 200107, an auditory psychological model calculation unit 200602 is provided instead of the spectrum power calculation unit 803 of the characteristic determination unit 506 in the first embodiment, as shown in FIG. 200107, the coding condition 200105, and the coding band calculated by the coding band calculation unit 200601 A broadcast 200,702, more and band number 200606 output from the arrangement decision unit 200603, is provided with a coding band arrangement information generation unit 200604 which generates the coding band arrangement information 200109.
[0065]
Also, in the decoding apparatus 2002, 200150 is a transmission coded sequence decomposer, 2000015 is a coded sequence, 2000015b is a coded sequence 20011, and decoding is performed to control the decoding band of each decoder that decodes this. The band control unit 200134b is a decoded spectrum.
[0066]
Next, the operation of the second embodiment will be described.
In the second embodiment, the original audio signal 501 to be encoded is assumed to be a temporally continuous digital signal sequence as in the first embodiment.
First, the spectrum 505 of the original audio signal is obtained by the same processing as in the first embodiment. In the second embodiment, the encoding condition 200105 including the number of encoders, the bit rate, the sampling frequency of the input audio signal, and the encoding band information of each encoder is supplied to the encoding apparatus 2001. The information is input to the characteristic determination unit 200107 in the device 2001. Characteristic determination section 200107 outputs coding band arrangement information 200109 including information on the quantization band, the number, and the connection order of each encoder in each of a plurality of stages, and inputs this to coding band control section 200110. . As shown in FIG. 17, the coding band control unit 200110 receives the spectrum 505 of the original audio signal in addition to the coding band arrangement information 200109, and controls the coding band control unit 200110 based on these. An encoded sequence 200111 encoded by each encoder is output, which is input to the transmission encoded sequence synthesizer 200112 and synthesized thereby, and the synthesized output is further sent to the decoding device 2002. Sent.
[0067]
In the decoding device 2002, the output of the transmission coded sequence synthesizer 200112 of the coding device 2001 is received by the transmission coded sequence decomposing unit 200150 and decomposed into the coded sequence 20011 and the analysis length code sequence 200152. The coded sequence 200151 is input to the decoding band control unit 200153b, and a decoded spectrum 200154b decoded by each decoder controlled by the decoding band control unit is obtained. Then, from the decoded spectrum 200154b and the analysis-length coded sequence 200152 that is the output of the transmission coded sequence decomposer 200150, the frequency time conversion unit 5, the windowing unit 6, The decoded signal 8 is obtained using the frame superimposing unit 7.
[0068]
Next, the operation of the characteristic determination unit 200107 will be described with reference to FIGS.
The characteristic determination unit 200107 uses an encoding condition 200105 to calculate encoding band arrangement information 200702, spectral information such as the spectrum 505 of the original audio signal, the difference spectrum 200108, and the encoding band From the information 200702, the auditory psychology model calculation unit 200602 for calculating the auditory weight 200605 based on the human auditory psychological model and the analysis length 503 are referred to, and the auditory weight 200605 is further weighted accordingly, Output from the arrangement determining unit 200603 for determining the arrangement of the band and outputting the band number 200606, the encoding condition 200105, the encoded band information 200702 calculated by the encoded band calculating unit 200601, and the arrangement determining unit 200603. Band number 2006 06 is composed of encoded band arrangement information generating means 200604 for generating encoded band arrangement information 200109.
[0069]
The coding band calculation unit 200601 uses the coding condition 200105 set before the coding apparatus 2001 starts its operation, and uses the coding band upper limit fpu (k ), The lower limit fpl (k) is calculated and sent to the encoded band arrangement information generating means 200604 as the encoded band information 200702. Here, k is a number for handling the coding band, and indicates a band having a large frequency as k becomes 0 to pmax which is a preset maximum number. An example of pmax is 4. An example of the operation of the coded band calculation unit 200601 is shown in Table 2.
[0070]
[Table 2]
Figure 0004327420
The psychoacoustic model calculation unit 200602 includes spectrum information such as an output signal from the filter 701 or difference spectrum 200108 that is an output of the coding band control unit 200110, and a coding band that is an output of the coding band calculation unit 200601. Auditory weights 200605 are calculated from information 200702 based on a human auditory psychological model. The auditory weight 200605 is such that a band that is important for hearing is a large value, and a band that is not so important for hearing is a small value. As an example of the auditory psychological model calculation unit 200602, there is one that uses a method of calculating the power of an input spectrum. When the input spectrum is x602 (i), the auditory weight wpsy (k) is
[0071]
[Formula 18]
Figure 0004327420
It becomes. The auditory weight 200605 calculated in this way is input to the arrangement determining unit 200603. The arrangement determining unit 200603 refers to the analysis length 503, and when the analysis length 503 is small, for example, 128, the band number 200606 is large. , For example, so that the auditory weight 200605 of the band 4 is increased, for example, the auditory weight of the band of band number 4 is doubled, and the auditory weight 200605 is set when the analysis length 503 is not small. As it is, the band in which the auditory weight 200603 is maximized is calculated, and the band number 200606 is sent to the encoded band arrangement information generating unit 200604.
[0072]
The coded band arrangement information generation unit 200604 receives the coded band information 200702, the band number 200606, and further the coding condition 200105, and outputs the coded band arrangement information 200109. That is, the encoded band arrangement information generation unit 200604 always refers to the encoding condition 200105, and while the encoded band arrangement information 200109 is required based on the encoding condition, Coding band arrangement information 200109 formed by concatenating 200702 and band number 200606 is output, and when this is no longer necessary, the output is stopped. For example, the band number 200606 is output until the number of encoders specified by the encoding condition 200105 is reached. In the arrangement determining unit 200603, the output band number 200606 may be fixed when the analysis length 503 is small.
[0073]
Next, the operation of the coding band control unit 200110 will be described using FIG.
The coding band control unit 200110 receives the coding band arrangement information 200109, which is an output from the characteristic determination unit 200107, and the spectrum 505 of the original audio signal, and the coding sequence 200111 and the difference spectrum 200108 as outputs. Inside, the encoded band arrangement information 200109 is received, and the spectrum 505 of the original audio signal and the difference spectrum between the spectrum 505 of the past original audio signal and the spectrum 200705 obtained by encoding and decoding the spectrum 505 are included. Spectrum shift means 200701 for shifting 200108 to the band of band number 200606, encoder 2003, difference calculation means 200703 for taking the difference between spectrum 505 of the original audio signal and decoded spectrum 200705, difference The spectrum holding means 200704 and the synthesized spectrum 2001001 obtained by decoding the code string 200111 by the decoder 2004 are subjected to spectrum shift based on the coding band arrangement information 200702, and are sequentially synthesized to obtain a synthesized spectrum for decoding. A decoding band control unit 200153 for calculating the spectrum 20077056 is included. The configuration of the spectrum shift means 200701 is as shown in FIG. 20, but the original spectrum 20010101 to be shifted and the coding band arrangement information 200109 are used as inputs. Of the inputs of the spectrum shift means 200701 in the coding band control unit 200110, the spectrum 2001011 to be shifted is the spectrum 505 of the original audio signal or the difference spectrum 200108, which is shifted to the band of the band number 200606 and shifted. And the encoded band information 200702 of the encoded band arrangement information 200109 are output. The band corresponding to the band number 200606 can be obtained from fpl (k) and fpu (k) of the encoded band information 200702. The shifting procedure is to move the spectrum between the fpl (k) and fpu (k) to a band that can be processed by the encoder 2003.
[0074]
Thus, the encoder 2003 that receives the shifted spectrum 2001102 outputs the normalized code string 303 and the residual code string 304 as shown in FIG. A combination of certain coding band information 200702 is sent as a code string 200111 to the transmission coding synthesizer 200112 and the decoding band control unit 200153.
[0075]
The coded sequence 200111 that is the output of the coder 2003 is input to a decoding band control unit 200153 in the coding band control unit 200110. The decoding band control unit 200153 has the same operation as that in the decoding device 2002 (200153b).
[0076]
Next, FIG. 19 shows a configuration of a decoding band control unit 200153b existing in the decoding apparatus 2002.
The decoding band control unit 200153b receives the code sequence 200111 from the transmission coded sequence decomposer 200150 and outputs a decoded spectrum 200705b. The decoding band control unit 200153b includes a decoder 2004, a spectrum shift unit 200701, and a decoding unit. The computerized spectrum calculation unit 2001003 is included.
[0077]
The configuration of the decoder 2004 is shown in FIG.
The decoder 2004 includes an inverse quantization unit 1101 and an inverse normalization unit 1102. The inverse quantization unit 1101 receives the residual code sequence 304 of the code sequence 20011, and inputs the residual code sequence. 304 is converted into a code index, the code book used in the encoder 2003 is referred to, and the code is reproduced. The reproduced code is sent to the denormalization unit 1102 and is multiplied by the normalized series sequence 303a reproduced from the normalized code sequence 303 in the code sequence 200111 to obtain a combined spectrum 2001001. The synthesized spectrum 2001001 is input to the spectrum shift means 200701.
[0078]
Note that the output of the decoding band control unit 200153 in the coding band control unit 200110 is the decoding spectrum 200705, which is the output of the decoding band control unit 200153b in the decoding device 2002. This is the same as the generalized spectrum 200705b.
[0079]
The synthesized spectrum 2001001 synthesized by the decoder 2004 is shifted by the spectrum shift unit 200701 to obtain a shifted synthesized spectrum 2001002, which is input to the decoded spectrum calculation unit 2001003.
[0080]
In the decoded spectrum calculation unit 2001003, the inputted combined spectrum is held, and the held spectrum and the latest synthesized spectrum are added and output as a decoded spectrum 200705b.
[0081]
The difference calculation unit 200703 in the coding band control unit 200110 calculates the difference between the spectrum 505 of the original audio signal and the decoded spectrum 200705, and outputs a difference spectrum 200108, which is fed back to the characteristic determination unit 200107. Is done. At the same time, the difference spectrum 200108 is held by the difference spectrum holding unit 200704 and also sent to the spectrum shift unit 200701 so that the next encoded band arrangement information 200109 is input. The characteristic determination unit 200107 continues to output the coding band arrangement information 200109 until the coding condition is satisfied while referring to the coding condition, and the operation of the coding band control unit 200110 is also stopped when it disappears. . Note that the coding band control unit 200110 has difference spectrum holding means 200704 in order to calculate the difference spectrum 200108. This is a storage area necessary for holding the difference spectrum, and is an array that can store, for example, 2048 numbers.
[0082]
As described above, the processing by the characteristic determination unit 200107 and the subsequent encoding band control unit 200110 is repeated so as to satisfy the encoding condition 200105, and the encoded sequence 200111 is sequentially output, which is transmitted and encoded. The result is sent to the sequence synthesizer 200112, synthesized as a transmission encoded sequence together with the analysis length code sequence 510, and transmitted to the decoding device 2002.
[0083]
In the decoding apparatus 2002, the transmission encoded sequence transmitted from the encoding apparatus 2001 is decomposed into an encoded sequence 200151 and an analysis long code sequence 200152 by the transmission encoded sequence decomposer 200150. The encoded sequence 20011 and the analysis length code sequence 200152 are the same as the encoded sequence 200111 and the analysis length code sequence 510 in the encoding device 2001.
[0084]
Decoded coded sequence 200151 is converted into decoded spectrum 200154b by decoding band control unit 200153b, and decoded spectrum 200154b is converted to frequency time converting unit 5 and windowing unit using information of analysis length code sequence 200152. 6 and the frame superimposing unit 7 convert the signal into a time domain signal, which becomes a decoded signal 8.
[0085]
As described above, according to the audio signal encoding device and the decoding device according to the second embodiment, the frequency band of the audio signal to be quantized by the plurality of encoders is determined as in the first embodiment. The characteristic determining unit, the frequency band determined by the characteristic determining unit, and the original audio signal subjected to frequency conversion are input, and the connection order of the encoders in each of the plurality of stages is determined and encoded. A coding band control unit including a decoding band control unit in a configuration in which adaptive coding is performed in an adaptive manner. And a decoding band control unit in the decoding device, and the spectrum power calculation unit in the characteristic determination unit is an auditory psychological model calculation unit. Since the band arrangement information generating means is provided, the auditory psychological model calculation unit is used in place of the spectrum power calculation unit of the characteristic determination unit, so that an auditory important portion can be accurately determined. The band can be selected more. Also, in the audio signal encoding device and decoding device targeted by the present invention, if the encoding condition is satisfied during the operation of determining the arrangement of the encoder, the encoding process is OK. In this calculation for determining the arrangement of the encoders, in the first embodiment, when selecting the band when the encoders are arranged, it is determined that the coding band arrangement information is not output. In the second embodiment, as the determination conditions of the characteristic determination unit, the sampling frequency of the input signal and the compression rate, that is, the bit rate of encoding, are fixed. Therefore, according to these, the weighting degree with respect to each band when selecting the band arrangement of each encoder can be changed. Further, as a determination condition of the characteristic determination unit, a compression rate Conditions When the compression rate is high, that is, when the bit rate is low, the band weighting degree when selecting the band arrangement of each encoder is not changed so much, while the compression rate is low. In other words, when the bit rate is high, in order to further pursue the efficiency, the weighting degree of each band when selecting the band arrangement of each encoder is emphasized more importantly. Thus, the best balance between compression ratio and quality can be obtained. As described above, an audio signal encoding / decoding device that performs high-quality, high-efficiency, and adaptive scalable coding with sufficient performance even when encoding a wide variety of audio signals is obtained. Can do.
[0086]
【The invention's effect】
As described above, according to the audio signal encoding method and the audio signal decoding method according to the present invention, the encoding step has a plurality of encoding substeps, and the audio signal is controlled by the control of the encoding band control step. The characteristic determination step determines the input audio signal, outputs band weight information indicating the weight of each frequency band to be encoded, and the coding band control step includes: Based on the band weight information, the quantization band and connection order of each encoding sub-step constituting the multi-stage encoding are determined, and the configuration is made scalable based on the determined quantization band and connection order of each encoding sub-step. Multi-stage encoding is performed in the encoding step, and a band control code string indicating the quantization band and connection order of each determined encoding sub-step is output. By, the audio signal having a wide variety of properties, with higher quality, more efficient, being able to perform adaptive scalable coding, advantageous effects can be obtained.
[Brief description of the drawings]
FIG. 1 is a block diagram of adaptive scalable coding in an audio signal encoding apparatus according to Embodiment 1 of the present invention.
FIG. 2 is a diagram showing a time-frequency conversion unit in the coding apparatus according to the first embodiment.
FIG. 3 is a diagram showing an encoder in the encoding apparatus according to the first embodiment.
FIG. 4 is a diagram showing a normalization unit in the encoding apparatus according to the first embodiment.
FIG. 5 is a diagram showing a frequency outline normalization unit in the encoding apparatus of the first embodiment.
FIG. 6 is a diagram showing a characteristic determination unit in the encoding apparatus according to the first embodiment.
FIG. 7 is a diagram showing a coding band control unit in the coding apparatus according to the first embodiment.
FIG. 8 is a diagram illustrating a quantization unit in the coding apparatus according to the first embodiment.
FIG. 9 is a diagram showing a decoder in the coding apparatus according to the first embodiment.
FIG. 10 is a diagram showing an outline of a general TwinVQ method
FIG. 11 shows a general TwinVQ scalable coding scheme.
FIG. 12 shows the disadvantages of general fixed scalable coding.
FIG. 13 is a diagram showing the advantages of general adaptive scalable coding.
FIG. 14 is a block diagram of adaptive scalable coding in an audio signal encoding apparatus according to Embodiment 2 of the present invention.
FIG. 15 is a diagram showing an encoder in the encoding apparatus of the second embodiment.
FIG. 16 is a diagram showing a characteristic determination unit in the coding apparatus according to the second embodiment.
FIG. 17 is a diagram showing a coding band control unit in the coding apparatus according to the second embodiment.
FIG. 18 is a diagram showing a decoder in the coding apparatus according to the second embodiment.
FIG. 19 is a diagram showing a decoding band control unit in the coding apparatus according to the second embodiment.
FIG. 20 is a diagram showing spectrum shift means in the coding apparatus according to the second embodiment.
[Explanation of symbols]
1 Encoder
2 Decryption device
501 Original audio signal
502 Analysis length determination unit
503 Time frequency converter
504 Analysis length
505 The spectrum of the original audio signal
506 Characteristic determination unit
507 Coding band control unit
508 Band control code string
510 Analysis length code string
511 Low-pass encoder
512 mid-range encoder
513 High band encoder
511b Second stage low band encoder
518, 519, 520, 518b Quantization error
521 Low frequency code sequence
522 Mid-range code string
523 High-frequency code string
521b Second stage low frequency code string
701 filter
5 Frequency time converter
6 Window hanging part
7 Frame overlapping part
8 Decoded signal
9 Band combiner
1201 Decoding band control unit
1202 Low frequency decoder
1203 Mid-range decoder
1204 high frequency decoder
1202b Second stage low band decoder
201 Frame division part
202 Window hanging part
203 MDCT section
3 Encoder
301 normalization part
302 Quantization unit
303 Normalized code string
304 code string
401 Frequency outline normalization unit
402 Band amplitude normalization unit
403 Bandwidth table
601 Linear prediction analysis unit
602 Approximate quantization unit
603 Envelope characteristic normalization unit
803 Spectral power calculator
804 Placement determination unit
517 Band control weight
516 Coding band allocation information
901 Bandwidth calculation unit
902 Quantization order determination unit
903 Encoder number determination unit
1001 MDCT of the band to be quantized by the quantizer
1002 Normalization component of the same quantization band
1003 Sound source subvector
1004 Weight subvector
1005 Vector quantizer
1006 Distance calculation means
1007 Code determining means
1008 Residual generation means
1009 Codebook
1010 Residual subvector
1011 MDCT residual of the band to be quantized by a quantizer
101 Original audio signal
102 Analysis length determination unit
103 Time frequency converter
104 Original audio signal in the frequency domain
105 Frequency outline
106 Normalization processing unit
107 Normalized code string
108 Current audio signal after normalization
109 Vector quantization section
110 Code sequence
111 Analysis long code string
1301 Original audio signal
1302 Time frequency converter
1303 Analysis length determination unit
1304 Original audio signal in frequency domain
1305 Low-pass encoder
1306 Quantization error
1307 Mid-range encoder
1308 Quantization error
1309 High band encoder
1310 Quantization error
1311 Low frequency code sequence
1312 Mid-range code string
1313 High-frequency code string
1314 Analysis long code string
2001 Encoder
2002 Decryption device
200105 Coding conditions
200107 Characteristic determination unit
200108 Difference spectrum
200109 Coding band arrangement information
200110 Coding band control unit
200111 coded sequence
200112 Transmission coded sequence synthesizer
200150 Transmission coding sequence decomposer
20011 Coded sequence
200152 Analysis length coded sequence
200153 Decoding Band Control Unit
200154 Decoded spectrum
2003 Encoder
200305 Coding band information
200601 Coding band calculation unit
200602 Auditory psychology model calculator
200603 Placement determination unit
200604 Coding band arrangement information generating means
200605 auditory weight
200701 Spectral shift means
200702 Coding band information
200703 Difference calculation means
200704 Difference spectrum holding means
2004 Decoder
200901 Inverse quantification unit
200902 Denormalization unit
2001001 synthetic spectrum
2001002 Shifted composite spectrum
2001003 Decoded spectrum calculation unit
2001101 original spectrum
2001102 Shifted spectrum

Claims (4)

特性判定ステップ、符号化帯域制御ステップ、符号化ステップを包含し、時間−周波数変換されたオーディオ信号を符号化列に変換するオーディオ信号符号化方法であって、
符号化列は、符号化情報と帯域制御符号列とを含み、
符号化ステップは、複数の符号化サブステップを有し、符号化帯域制御ステップの制御によりオーディオ信号の多段符号化を行い符号化情報を出力し、
特性判定ステップは、入力されるオーディオ信号を判定し、符号化する各周波数帯域の重み付けを示す帯域重み情報を出力し、
符号化帯域制御ステップは、
帯域重み情報に基づいて、多段符号化を構成する各符号化サブステップの量子化帯域、接続順を決定し、
決定した各符号化サブステップの量子化帯域、接続順に基づいてスケーラブルに構成される多段符号化を符号化ステップに行わせ、
決定した各符号化サブステップの量子化帯域、接続順を示す帯域制御符号列を出力する、
オーディオ信号符号化方法。
An audio signal encoding method that includes a characteristic determination step, an encoding band control step, an encoding step, and converts a time-frequency converted audio signal into an encoded sequence,
The encoded sequence includes encoded information and a band control code sequence,
The encoding step has a plurality of encoding sub-steps, performs multi-stage encoding of the audio signal under the control of the encoding band control step, and outputs encoding information.
The characteristic determination step determines the input audio signal, outputs band weight information indicating the weight of each frequency band to be encoded,
The coding band control step is:
Based on the band weight information, determine the quantization band and connection order of each encoding sub-step constituting the multi-stage encoding,
Based on the determined quantization band of each encoding sub-step, the order of connection, the encoding step performs multi-stage encoding configured in a scalable manner,
Output a band control code string indicating the quantization band and connection order of each determined encoding sub-step.
Audio signal encoding method.
符号化帯域制御ステップは、予め定義された多段符号化のいずれかになるように、各符号化サブステップの量子化帯域、接続順を決定する、
請求項1記載のオーディオ信号符号化方法。
The coding band control step determines the quantization band and the connection order of each coding sub-step so as to be one of the predefined multistage codings.
The audio signal encoding method according to claim 1.
符号化ステップは、量子化誤差を出力し、
符号化帯域制御ステップは、帯域重み情報と量子化誤差とに基づいて、各符号化サブステップの量子化帯域、接続順を決定する、
請求項1記載のオーディオ信号符号化方法。
The encoding step outputs a quantization error,
The coding band control step determines the quantization band and connection order of each coding sub-step based on the band weight information and the quantization error.
The audio signal encoding method according to claim 1.
復号化帯域制御ステップ、復号化ステップを包含し、符号化情報と帯域制御符号列とを含む符号化列をオーディオ信号に復号するオーディオ信号復号化方法であって、
帯域制御符号列は、符号化情報を多段符号化した際の各符号化の量子化帯域、接続順を示し、
復号化ステップは、複数の復号化サブステップを有し、復号化帯域制御ステップの制御により符号化情報の多段復号化を行い、
復号化帯域制御ステップは、帯域制御符号列に基づいてスケーラブルに構成される多段復号化を復号化ステップに行わせる、
オーディオ信号復号化方法。
An audio signal decoding method that includes a decoding band control step and a decoding step, and decodes an encoded sequence including encoded information and a band control code sequence into an audio signal,
The band control code string indicates the quantization band and connection order of each encoding when the encoding information is multistage encoded.
The decoding step has a plurality of decoding sub-steps, performs multi-stage decoding of encoded information under the control of the decoding band control step,
The decoding band control step causes the decoding step to perform multi-stage decoding configured in a scalable manner based on the band control code string.
Audio signal decoding method.
JP2002211570A 1998-03-11 2002-07-19 Audio signal encoding method and audio signal decoding method Expired - Fee Related JP4327420B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002211570A JP4327420B2 (en) 1998-03-11 2002-07-19 Audio signal encoding method and audio signal decoding method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5940398 1998-03-11
JP10-59403 1998-03-11
JP2002211570A JP4327420B2 (en) 1998-03-11 2002-07-19 Audio signal encoding method and audio signal decoding method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP06533599A Division JP3344962B2 (en) 1998-03-11 1999-03-11 Audio signal encoding device and audio signal decoding device

Publications (2)

Publication Number Publication Date
JP2003058196A JP2003058196A (en) 2003-02-28
JP4327420B2 true JP4327420B2 (en) 2009-09-09

Family

ID=26400451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002211570A Expired - Fee Related JP4327420B2 (en) 1998-03-11 2002-07-19 Audio signal encoding method and audio signal decoding method

Country Status (1)

Country Link
JP (1) JP4327420B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1890711B (en) 2003-10-10 2011-01-19 新加坡科技研究局 Method for encoding a digital signal into a scalable bitstream, method for decoding a scalable bitstream
US7693707B2 (en) 2003-12-26 2010-04-06 Pansonic Corporation Voice/musical sound encoding device and voice/musical sound encoding method
DK3561810T3 (en) * 2004-04-05 2023-05-01 Koninklijke Philips Nv METHOD FOR ENCODING LEFT AND RIGHT AUDIO INPUT SIGNALS, CORRESPONDING CODES, DECODERS AND COMPUTER PROGRAM PRODUCT

Also Published As

Publication number Publication date
JP2003058196A (en) 2003-02-28

Similar Documents

Publication Publication Date Title
KR100304092B1 (en) Audio signal coding apparatus, audio signal decoding apparatus, and audio signal coding and decoding apparatus
EP0910067B1 (en) Audio signal coding and decoding methods and audio signal coder and decoder
JP3344962B2 (en) Audio signal encoding device and audio signal decoding device
US6904404B1 (en) Multistage inverse quantization having the plurality of frequency bands
JP5343098B2 (en) LPC harmonic vocoder with super frame structure
KR101180202B1 (en) Method and apparatus for generating an enhancement layer within a multiple-channel audio coding system
US5749065A (en) Speech encoding method, speech decoding method and speech encoding/decoding method
WO2004097796A1 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
JP3344944B2 (en) Audio signal encoding device, audio signal decoding device, audio signal encoding method, and audio signal decoding method
JP4359949B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP3297749B2 (en) Encoding method
JP4281131B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP4327420B2 (en) Audio signal encoding method and audio signal decoding method
JP3237178B2 (en) Encoding method and decoding method
JP4578145B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
JP4274614B2 (en) Audio signal decoding method
JP3878254B2 (en) Voice compression coding method and voice compression coding apparatus
JP3916934B2 (en) Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus
JP4354561B2 (en) Audio signal encoding apparatus and decoding apparatus
JP4618823B2 (en) Signal encoding apparatus and method
JP3010655B2 (en) Compression encoding apparatus and method, and decoding apparatus and method
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal
MXPA96003416A (en) Ha coding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090611

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130619

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees