JP2007304258A - オーディオ信号符号化およびその復号化装置、方法ならびにプログラム - Google Patents

オーディオ信号符号化およびその復号化装置、方法ならびにプログラム Download PDF

Info

Publication number
JP2007304258A
JP2007304258A JP2006131324A JP2006131324A JP2007304258A JP 2007304258 A JP2007304258 A JP 2007304258A JP 2006131324 A JP2006131324 A JP 2006131324A JP 2006131324 A JP2006131324 A JP 2006131324A JP 2007304258 A JP2007304258 A JP 2007304258A
Authority
JP
Japan
Prior art keywords
window
window function
audio signal
signal
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006131324A
Other languages
English (en)
Inventor
Kiyotaka Nagai
清隆 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2006131324A priority Critical patent/JP2007304258A/ja
Publication of JP2007304258A publication Critical patent/JP2007304258A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】信号が時間的とともに大きく変化する非定常信号に対して符号化効率を向上する。
【解決手段】窓シーケンスによってオーディオ信号を分割して符号化する装置において、前記窓シーケンスは、ロング窓関数(100)と、ショート窓関数(101)と、スタート窓関数(102)と、ストップ窓関数(103)と、ミドル窓関数(104〜106)とを組み合わせて構成され、オーディオ信号の時間的な変化が大きい場合に、変化が起きる時間と変化の度合いに応じて、ショート窓関数とミドル窓関数とを組み合わせた窓シーケンス(202、204〜207)の1つを選択して符号化することにより、符号化効率の悪い短い窓長の窓関数の使用を最小化して、符号化効率を向上することができる。
【選択図】図2

Description

本発明は、重畳する窓関数を使用して変換符号化を行うオーディオ信号の符号化およびその復号化に関するものである。
近年、オーディオ信号の高能率符号化方式として変換符号化を利用した方式が広く用いられている。変換符号化を利用した方式としては、非特許文献1記載のMPEG(Moving Picture Experts Group)−2 AAC(Advanced Audio Coding)やドルビーディジタル(AC−3)が挙げられる。変換符号化では、オーディオ信号に窓関数を掛けて時間領域の信号を切り出し、前記切り出された時間領域の信号に対して直交変換を行うことにより、周波数領域のスペクトル係数に変換して高能率符号化を行う。
MPEG−2 AAC(以下AACと呼ぶ)では、直交変換として、窓関数が50パーセント重畳する変形離散コサイン変換(以下MDCT(Modified Discrete Cosine Transform)と呼ぶ)を用いる。MDCTでは、時間サンプルの個数の半分の個数のスペクトル(MDCT)係数に変換される。
図9は、従来のAACで使用される4種類の窓関数の形状を示す図である。同図で窓関数の縦軸は振幅であり、横軸は時間である。最初の窓関数は、ロング窓関数100と呼ばれる2048(時間)サンプルの窓関数であり、MDCTにより1024個のスペクトル係数に変換される。ロング窓関数100は、信号の時間的な変化が小さい定常信号に対して使用される。第2の窓関数は、ショート窓関数101と呼ばれる256サンプルの窓関数であり、MDCTにより128個のスペクトル係数に変換される。ショート窓関数101は、信号の時間的な変化が大きい非定常信号に対して使用される。第3の窓関数は、スタート窓関数102と呼ばれる2048サンプルの窓関数であり、MDCTにより1024個のスペクトル係数に変換される。スタート窓関数102は、ロング窓関数100からショート窓関数101に切り替えるときに使用される過渡的な窓関数である。第4の窓関数はストップ窓関数103と呼ばれる2048サンプルの窓関数であり、MDCTにより1024個のスペクトル係数に変換される。ストップ窓関数103は、ショート窓関数101からロング窓関数100に切り替えるときに使用される過渡的な窓関数である。図9において、窓関数の形状を直線で表示しているが、実際には、サイン関数、あるいはKBD(Kaiser−Bessel derived)関数による曲線である。窓関数の重畳する部分は、互いに対をなしていなければならないので、上昇する部分の時間と下降する部分の時間が同一で、上昇するサイン関数は、下降するサイン関数と、また上昇するKBD関数は下降するKBD関数と重畳することができる。
ここで、窓長が異なる2つの基本的な窓関数であるロング窓関数100とショート窓関数101について両者を比較して説明する。長い窓長のロング窓関数100は、周波数分解能が高く、時間分解能が低いので、時間あたりの副情報が少なく符号化効率が良い。一方短い窓長のショート窓関数101は周波数分解能が低く、時間分解能が高いので時間あたりの副情報が多くなり符号化効率が悪い。長い窓長のロング窓関数100を使用した場合、復号化時に符号化時の量子化ノイズが長い窓長全体に広がる。これによって、例えば、信号レベルが急激に上昇するアタック信号の場合に、アタック信号が現れる前の本来静かな部分においてプリエコーと呼ばれる耳障りな量子化ノイズが聞こえ、音質が劣化することがある。同様に、信号レベルが急激に下降するリリース信号の場合には、リリース信号の後の本来静かな部分においてポストエコーと呼ばれる量子化ノイズが聞こえ、音質が劣化することがある。したがって、信号の時間的な変化に応じて、窓長が異なるロング窓関数100とショート窓関数101を切り替えることにより、プリエコーやポストエコーの発生を防止する。
図10は、窓関数の窓長とプリエコーおよびポストエコーの関係を示す図である。同図(a)に示すような急激な立ち上がりと立下りを含む信号を、同図(b)上段のロング窓関数100を使って符号化して復号化すると、同図(b)下段に示すように振幅の大きな部分の引き起こす量子化ノイズが窓長(2048サンプル)全体に広がる。一方、同図(c)上段に示すようなショート窓関数101を使って符号化して復号化すると、同図(c)下段に示すように、振幅の大きな部分の引き起こす量子化ノイズを、ショート窓関数101の窓長(256サンプル)の中に閉じ込めることができる。心理音響学の継時マスキング(temporal masking)に関する実験によれば、プリエコーの方がポストエコーより目立ち、音質を劣化させることが知られている。
AACでは、スペクトル係数の符号化に際して、所定の個数(1024個)のスペクトル係数をまとめて符号化ブロックを構成して符号化する。ロング窓関数100は、1024個のスペクトル係数を生成するのに対して、ショート窓関数101は、128個のスペクトル係数を生成する。このため、ショート窓関数101を使用するときには、連続する8個のショート窓関数101を使って8×128=1024個のスペクトル係数を生成して符号化ブロックを構成して符号化する。このような所定の個数のスペクトル係数を生成するための窓関数のシーケンスを窓シーケンスと呼ぶ。図11は、従来のAACにおける4種類の窓シーケンスを示す図である。第1の窓シーケンス200は、ロング窓関数100と同一である。第2の窓シーケンス201は、スタート窓関数102と同一である。第3の窓シーケンス202は、連続する8個のショート窓関数101のシーケンスである。第4の窓シーケンス203は、ストップ窓関数103と同一である。
また、特許文献1記載のオーディオ信号の符号化方法では、ショート窓関数の使用を削減するために、ロング窓関数を使用する窓シーケンスからショート窓関数を使用する窓シーケンスへ、あるいはその逆のショート窓関数を使用する窓シーケンスからロング窓関数を使用する窓シーケンスへ、さらにはショート窓関数を使用する窓シーケンスを飛び飛びの符号化ブロックで使用する場合の窓シーケンスの切り替え時間を短縮して符号化効率を向上した窓シーケンスが開示されている。
特許第3171598号公報 ISO/IEC 13818−7, Advanced Audio Coding (AAC)
しかしながら、上記従来のAACの窓シーケンスでは、信号が時間とともに大きく変化する非定常信号に対する符号化効率が悪いという問題点を有していた。図12は、従来のAACの入力信号と選択される窓シーケンスの関係を示す図である。同図(a)、(b)で上段は入力信号、下段は上段の入力信号に対して選択される窓シーケンスである。同図(a)、(b)に示すように、入力信号が時間的に大きく変化する場合、時間的に大きく変化する時間が限られていても符号化効率の悪いショート窓関数101を8個使用する第3の窓シーケンス202を使用しなければならないという問題点を有していた。また、同図(a)と(b)で、入力信号が時間的に大きく変化する時間は異なっているのに、(a)と(b)でともに第3の窓シーケンス202を使用しなければならないという問題点を有していた。
また、特許文献1記載の方法では、信号の大きな時間的な変化が起こった後にすぐに定常信号に復帰する場合には符号化効率を向上することができるが、信号の大きな時間的な変化が起こった後に徐々に定常信号に復帰する場合には符号化効率を向上することができない。また、信号の大きな時間的変化が窓シーケンスの中央の時間で起こった場合に対しても符号化効率を向上することができない。
本発明は上記従来の問題点を解決するもので、符号化効率の悪いショート窓関数101の使用を削減する新規な窓シーケンスを提供することにより、入力信号の時間的な変化が大きい場合に前記変化の起きる時間と前記変化の度合いに応じて、ショート窓関数101の使用を最小化して、最適な窓シーケンスを選択し、符号化効率を向上したオーディオ信号符号化およびその復号化装置、方法ならびにソフトウェアを提供することを目的とする。
この課題を解決するために、本発明のオーディオ信号符号化装置は、オーディオ信号の時間的変化を検出する信号変化検出部と、前記信号変化検出部で検出された時間的変化に応じて決定した窓シーケンスによって前記オーディオ信号を分割する窓処理部と、前記窓処理部で分割された信号を符号化する符号化部とを備えたオーディオ信号符号化装置であって、前記窓関数には、少なくとも、その両端に互いに重畳可能な長い重畳部を有する第1の窓関数、もしくはその両端に互いに重畳可能な短い重畳部を有する第2の窓関数、もしくはその片端に前記第1の窓関数の長い重畳部に重畳可能な長い重畳部と他端に前記第2の窓関数の短い重畳部に重畳可能な短い重畳部とこれらの重畳部の中間に値が一定の重畳しない非重畳部とを有する第3の窓関数、もしくはその両端に前記第2の窓関数の短い重畳部に重畳可能な短い重畳部とこれらの重畳部の中間に値が一定の重畳しない非重畳部とを有する第4の窓関数が含まれ、前記信号変化検出部が前記オーディオ信号の大きな時間的変化を検出した場合に、前記窓処理部は、少なくとも1つの前記第2の窓関数と前記第4の窓関数とを組み合わせた窓シーケンスにより前記オーディオ信号を分割するものであり、本構成によって、信号変化検出部でオーディオ信号の大きな時間的変化を検出した場合に、窓処理部が、前記大きな時間的変化の起きる時間に応じて、第2の窓関数を配置した窓シーケンスを選択することにより、非定常信号に対する符号化効率を向上することができる。
また、本発明のオーディオ信号復号化装置は、前記オーディオ信号符号化装置で符号化された信号を復号するためのオーディオ信号復号化装置であって、前記符号化された信号を復号化する復号化部と、前記復号化された信号を、窓シーケンスにしたがって重畳加算する重畳加算部とを備えたものである。
本発明によれば、信号が時間とともに大きく変化する非定常信号に対して、符号化効率の悪い短い窓長の窓関数の使用を最小化して、最適な窓シーケンスを選択することができるので、符号化効率を向上したオーディオ信号符号化とその復号化方法を実現することができる。したがって、本発明によれば、符号化ビットレートの低減、あるいは符号化音質を向上することができる。
以下本発明を実施するための最良の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本発明の実施の形態1のオーディオ信号符号化およびその復号化装置における7種類の窓関数の形状を示す図である。同図で窓関数の縦軸は振幅であり、横軸は時間である。図1において、窓関数の形状を直線で表示しているが、実際には、サイン関数、あるいはKBD(Kaiser−Bessel derived)関数等による曲線である。例えば、サイン関数の場合、上昇する部分はサイン関数の0からπ/2の曲線に相当し、下降する部分はサイン関数のπ/2からπの曲線に相当する。窓関数の重畳する部分は互いに対をなしていなければならないので、上昇する部分の時間と下降する部分の時間が同一で、上昇するサイン関数は下降するサイン関数と、また上昇するKBD関数は下降するKBD関数と重畳することができる。
最初の窓関数は、ロング窓関数100と呼ばれる2048(時間)サンプルの窓関数であり、MDCTにより1024個のスペクトル係数に変換される。ロング窓関数100は時間とともに振幅が上昇する前半部分10aと振幅が下降する後半部分10bとからなる。ロング窓関数100の前半部分10aと後半部分10bは重畳することができる。ロング窓関数100は、信号の時間的な変化が小さい定常信号に対して使用される。第2の窓関数は、ショート窓関数101と呼ばれる256サンプルの窓関数であり、MDCTにより128個のスペクトル係数に変換される。ショート窓関数101は、時間とともに振幅が上昇する前半部分11aと振幅が下降する後半部分11bとからなる。ショート窓関数の前半部分11aと後半部分11bは重畳することができる。ショート窓関数101は、信号の時間的な変化が大きい非定常信号に対して使用される。第3の窓関数は、スタート窓関数102と呼ばれる2048サンプルの窓関数であり、MDCTにより1024個のスペクトル係数に変換される。スタート窓関数102は、ロング窓関数100からショート窓関数101に切り替えるときに使用される過渡的な窓関数である。スタート窓関数102は、ロング窓関数100の前半部分10aと値が一定の部分(これを非重畳部と呼ぶ)12とショート窓関数101の後半部分11bとからなる。第4の窓関数は、ストップ窓関数103と呼ばれる2048サンプルの窓関数であり、MDCTにより1024個のスペクトル係数に変換される。ストップ窓関数103は、ショート窓関数101からロング窓関数100に切り替えるときに使用される過渡的な窓関数である。ストップ窓関数103は、ショート窓関数101の前半部分11aと値が一定の部分12とロング窓関数100の後半部分10bとからなる。以上の4種類の窓関数は、図9の従来のAACの窓関数と同一である。
第5の窓関数は、ミドル(1)窓関数104と呼ぶ512サンプルの窓関数であり、MDCTにより256個のスペクトル係数に変換される。ミドル(1)窓関数104は、ショート窓関数101を2個合成した窓関数であり、ショート窓関数101の2倍の窓長を有する。ミドル(1)窓関数104は、ショート窓関数101の前半部分11aと値が一定の部分13とショート窓関数101の後半部分11bとからなる。第6の窓関数は、ミドル(2)窓関数105と呼ぶ768サンプルの窓関数であり、MDCTにより384個のスペクトル係数に変換される。ミドル(2)窓関数105は、ショート窓関数101を3個合成した窓関数であり、ショート窓関数101の3倍の窓長を有する。ミドル(2)窓関数105は、ショート窓関数101の前半部分11aと値が一定の部分14とショート窓関数101の後半部分11bとからなる。第7の窓関数はミドル(3)窓関数106と呼ぶ1024サンプルの窓関数であり、MDCTにより512個のスペクトル係数に変換される。ミドル(3)窓関数106は、ショート窓関数101を4個合成した窓関数であり、ショート窓関数101の4倍の窓長を有する。ミドル(3)窓関数106は、ショート窓関数101の前半部分11aと値が一定の部分15とショート窓関数101の後半部分11bとからなる。
ミドル(1)窓関数104、ミドル(2)窓関数105、ミドル(3)窓関数106は、相互に及びショート窓関数101と重畳することができる。また、スタート窓関数102の後半と、あるいはストップ窓関数103の前半と重畳することができる。
上記実施の形態1のミドル(1)窓関数104、ミドル(2)窓関数105、ミドル(3)窓関数106の3種類の窓関数は、従来のAACにはない新しい窓関数である。
以上のように実施の形態1では、信号が時間とともに大きく変化する非定常信号を効率的に符号化するために、従来の短い窓長のショート窓関数101に加えて、ロング窓関数100とショート窓関数101の中間の窓長の3種類のミドル(1)窓関数104、ミドル(2)窓関数105、ミドル(3)窓関数106を備えている。これによって信号の時間的な変化の度合いに応じた適切な窓長を有する窓関数を選択することができる。信号の時間的な変化の度合いが大きい順に選択される窓関数を並べると、ショート窓関数101、ミドル(1)窓関数104、ミドル(2)窓関数105、ミドル(3)窓関数106の順である。以上のように実施の形態1では、窓関数として、ミドル(1)窓関数104、ミドル(2)窓関数105、ミドル(3)窓関数106を備えることにより、非定常信号に対する窓関数を選択することができ、これによって非定常信号に対する符号化効率を向上することができる。
図2は、本発明の実施の形態1における8種類の窓シーケンスを示す図である。図2の実施の形態1の窓シーケンスは、図1に示す窓関数のシーケンスから構成されている。
第1の窓シーケンス200、第2の窓シーケンス201、第4の窓シーケンス203は、それぞれロング窓関数100、スタート窓関数102、ストップ窓関数103と同一である。これらは2048サンプルの窓関数であり、MDCTによって1024個のスペクトル係数に変換される。第3の窓シーケンス202は、連続する8個のショート窓関数101のシーケンスである。ショート窓関数101は256サンプルの窓関数であり、MDCTによって128個のスペクトル係数に変換される。したがって、第3の窓シーケンス202では、8×128=1024個のスペクトル係数に変換される。第1から第4の窓シーケンスは、図11に示す従来のAACの窓シーケンスと同一である。
実施の形態1の第5の窓シーケンス204、第6の窓シーケンス205、第7の窓シーケンス206、第8の窓シーケンス207の4種類の窓シーケンスは、従来のAACにはない新規な窓シーケンスである。
第5の窓シーケンス204は、ショート窓関数101が2個とミドル(2)窓関数105が2個の合計4個の窓関数のシーケンスであり、MDCTによって2×128+2×384=1024個のスペクトル係数に変換される。第6の窓シーケンス205は、ミドル(1)窓関数104が1個とショート窓関数101が2個とミドル(3)窓関数106が1個の合計4個の窓関数のシーケンスであり、MDCTによって256+2×128+512=1024個のスペクトル係数に変換される。第7の窓シーケンス206は、ミドル(3)窓関数106が1個とショート窓関数101が2個とミドル(1)窓関数104が1個の合計4個の窓関数のシーケンスであり、MDCTによって512+2×128+256=1024個のスペクトル係数に変換される。第8の窓シーケンス207は、ミドル(2)窓関数105が2個とショート窓関数101が2個の合計4個の窓関数のシーケンスであり、MDCTによって2×384+2×128=1024個のスペクトル係数に変換される。
第5から第8の窓シーケンス204、205、206、207は、第3の窓シーケンス202と同様に、信号が時間とともに大きく変化する非定常信号に対する窓シーケンスである。第5から第8の窓シーケンス204、205、206、207は、いずれも4個の窓関数のシーケンスから構成されている。その内2個の窓関数は、ショート窓関数101であるが、窓シーケンスごとにショート窓関数101を使用する時間が異なっている。これによって、大きな時間的な変化が起きる時間に応じてショート窓関数101の時間を選択して最適な窓シーケンスを選択することができる。第3の窓シーケンス202では符号化効率の悪いショート窓関数101を8個使用しているが、第5から第8の窓シーケンス204、205、206、207ではショート窓関数101を2個しか使用していないので、第3の窓シーケンス202より符号化効率が高い。非定常信号に対して第5から第8の窓シーケンス204、205、206、207を使用して効率的に符号化することができる。
図11に示す従来のAACでは、4種類の窓シーケンスを使用していたので、窓シーケンスを指定するのに2ビット必要であった。これに対して、実施の形態1では、8種類の窓シーケンスを使用するので、窓シーケンスを指定するのに3ビット必要である。実施の形態1では、従来のAACと比較して、窓シーケンスを指定するために必要なビット数が1ビット増えるが、非定常信号に対する符号化効率が向上するので、全体として符号化に必要なビット数を減少することができる。
以上のように実施の形態1の窓シーケンスでは、信号が時間とともに大きく変化する非定常信号に対して、第3の窓シーケンス202に加えて、第5から第8までの窓シーケンス204、205、206、207を備えることにより、前記変化が起きる時間と前記変化の度合いに応じて、符号化効率の悪い短い窓長のショート窓関数101の使用を最小化して、最適な窓シーケンスを選択することができる。これによって符号化効率を向上し、ビットレートの低減あるいは符号化音質の向上を実現することができる。
次に実施の形態1のオーディオ信号符号化方法を用いた符号化装置の動作について以下に説明する。図3は、実施の形態1のオーディオ信号符号化装置の構成を示すブロック図である。図3において、301は信号変化検出部、302は窓処理部、303は変換部、304は量子化及び符号化部である。以上のように構成されたオーディオ信号高能率符号化装置について、その動作を以下に述べる。
入力された時間領域のオーディオ信号に対して、信号変化検出部301では、信号の時間的な変化を検出し、窓処理部302に出力する。窓処理部302では、信号変化検出部301で検出された信号の時間的な変化の起きた時間と変化の度合いに応じて、プリエコーやポストエコーと呼ばれる疑似信号の発生による音質の劣化を防止するように窓関数を決定する。次に前記決定された窓関数に基づいて、窓シーケンスを決定する。窓処理部302では、入力されたオーディオ信号に対して重畳する窓関数を掛けることにより、オーディオ信号を切り出し、分割する。変換部303では、窓処理部302で切り出されたオーディオ信号に対してMDCT処理を行い、周波数領域のスペクトル係数に変換する。量子化及び符号化部304では、変換部303からのスペクトル係数を、心理音響モデルに基づく許容量子化ノイズレベル以下になるように量子化する。次に量子化されたスペクトル係数に対して、ハフマン符号化等の符号化処理を行い、窓シーケンスの種類を表す情報を含む副情報と共に多重化して符号化データとして出力する。
図4は、信号変化検出部301の構成を示すブロック図である。図4において、401はセグメント信号レベル算出器、402はセグメント信号レベルメモリ、403は信号レベル変化検出器である。以上のように構成された信号変化検出部301について、その動作を以下に述べる。
入力されたオーディオ信号は、セグメント信号レベル算出器401で最も短い窓長(実施の形態1では256サンプル)より小さい時間のセグメント(例えば128サンプル)に分割され、各セグメントの信号レベルをセグメント内の信号の2乗値の和、すなわちエネルギーで算出する。セグメント信号レベルメモリ402では、セグメント信号レベル算出器401で算出された各セグメントの信号レベルをメモリに記憶する。信号レベル変化検出器403では、セグメント信号レベルメモリ402から読み出したセグメントの信号レベルを用いて、隣接するセグメントの信号レベルの比を求め、出力する。窓処理部302では、最も長い窓長(実施の形態1では2048サンプル)にわたって前記信号レベルの比が閾値より小さい時には、定常信号として、長い窓長のロング窓関数100を決定し、そうでない時には、非定常信号として、前記信号レベルの比が閾値を越えるときの時間にしたがって短い窓長のショート窓関数101を使用する時間を決定する。ロング窓関数100からショート窓関数101への切り替え、あるいはショート窓関数101からロング窓関数101の切り替えには、それぞれスタート窓関数102、ストップ窓関数103を挿入しなければならないので、窓シーケンスの決定に際しては、1符号化ブロック先の窓関数を予め決定しておく必要がある。
なお、上記説明では、オーディオ信号のレベルの時間的変化を検出するようにしているが、スペクトルの時間的変化を検出するようにしてもよい。
図5は本発明の実施の形態1における入力信号と選択される窓シーケンスの関係を示す図である。同図(a)、(b)で、上段は入力信号、下段は上段の入力信号に対して選択される窓シーケンスである。同図(a)、(b)で、入力信号は、短時間に大きく変化する。同図(a)の入力信号に対する窓シーケンスとしては、最初に定常信号から非定常信号に変化する前の符号化ブロックに用いる第2の窓シーケンス201を選択する。信号が大きく変化する次の符号化ブロックでは、信号が大きく変化する時間に合わせて短い窓長のショート窓関数101を使用することができるように、第5の窓シーケンス204を選択する。次の定常信号に戻る符号化ブロックでは、非定常信号から定常信号に戻るときに使用する第4の窓シーケンス203を選択する。同図(b)の入力信号は、信号が大きく変化する時間が、同図(a)の入力信号と異なるので、信号が大きく変化する時間に合わせて短い窓長のショート窓関数101を使用することができるように第7の窓シーケンス206を使用する。図12に示す従来のAACでは、同図(a)と(b)のように信号が大きく変化する時間が異なっていても、第3の窓シーケンス202を使用しなければならないのに対して、実施の形態1では、図5に示すように信号が大きく変化する時間に合わせて符号化効率の良い窓シーケンスを選択することができる。
次に図3のオーディオ信号符号化装置によって符号化された符号化データを復号化するオーディオ信号復号化装置の動作について以下に説明する。図6は、実施の形態1のオーディオ信号復号化装置の構成を示すブロック図である。図6において、601は復号化及び逆量子化部、602は逆変換部、603は窓処理及び重畳加算部である。以上のように構成されたオーディオ信号復号化装置について、その動作を以下に述べる。
復号化及び逆量子化部601では、入力された符号化データのスペクトル係数と窓シーケンスを含む副情報を分離する。次にスペクトル係数の復号化と逆量子化を行い、スペクトル係数を再生する。逆変換部602では、復号化及び逆量子化部601からの周波数領域のスペクトル係数を、前記窓シーケンスにしたがって逆変形離散コサイン変換処理を行ことにより逆変換し、時間領域の信号に戻す。窓処理部及び重畳加算部603では、逆変換部602からの時間領域の信号に対して窓シーケンスにしたがって窓関数を掛け、50%重畳加算することによりオーディオ信号を再生し出力する。
以上のように実施の形態1のオーディオ信号符号化装置では、少なくとも1つのショート窓関数101と、窓長がロング窓関数100とショート窓関数101との中間の長さでその両端にショート窓関数101と重畳可能な短い重畳部およびこれらの重畳部の中間に値が一定の重畳しない非重畳部を有する3種類のミドル窓関数(104,105,106)とを組み合わせた5種類の窓シーケンス(202,204,205,206,207)を準備し、信号が時間とともに大きく変化する非定常信号に対して、前記変化の起きる時間と前記変化の度合いに応じて前記5種類の窓シーケンスの1種類を選択して符号化する。これによって、符号化効率の悪い短い窓長のショート窓関数101の使用を最小化して、最適な窓シーケンスを選択できるので符号化効率を向上することができる。
また、前記オーディオ信号符号化装置によって符号化されたデータを復号化する装置では、前記符号化されたオーディオ信号のスペクトルを前記符号化されデータの窓シーケンスにしたがって、逆変換し、窓関数をかけて重畳加算して時間信号を復号化することにより、符号化効率の高い符号化データを復号化することができる。
(実施の形態2)
図7と図8は、本発明の実施の形態2におけるオーディオ信号の符号化およびその復号化装置による窓シーケンスを示す図である。図7の窓シーケンスは、信号の時間的な変化が小さい定常信号に対する窓長が2048サンプルの3種類の窓関数のシーケンスと信号の時間的な変化が大きい非定常信号に対する非定常窓シーケンス700の使用を示すフラグとからなる。前記3種類の窓シーケンス、すなわち、第1の窓シーケンス200、第2の窓シーケンス201、第4の窓シーケンス203は、図2の実施の形態1の窓シーケンス、あるいは図11の従来のAACの窓シーケンスと同一であり、説明を省略する。
図8は、図7の非定常窓シーケンス700の使用を示すフラグがオンの場合に選択される128種類の非定常窓シーケンスの例を示す図である。図2の第3の窓シーケンス202に示すように、非定常信号に対する符号化ブロックでは、最大8個のショート窓関数101を使用することが可能である。8個のショート窓関数101の境界は7個である。実施の形態2では、非定常窓シーケンスを指定するのには7ビット必要である。前記7ビットの各ビットの値が1のときには、隣り合うショート窓関数101を合成した窓関数(隣り合うショート窓関数を互いに重畳させた重畳部分を一定の値にした窓関数)を使用し、一方その値が0のときには隣り合うショート窓関数101を合成しない(なお、上記1と0とは逆にしてもよい。)。前記7ビットの各ビットはショート窓関数101の7個の境界の時間順に並んでいる。
図8で最上段の窓シーケンスは、2進数表記で0000000であり、隣り合うショート窓関数101を合成しない窓関数によるシーケンスを表す。すなわち、8個の連続する256サンプルのショート窓関数101を表す。この窓シーケンスは、図2の第3の窓シーケンス202と同一である。この窓シーケンスを使ってMDCTにより、8×128=1024個のスペクトル係数に変換される。図8で中央の窓シーケンスは、2進数表記で1010011であり、最初に2個のショート窓関数101を合成した512サンプルのミドル(1)窓関数104が2個連続し、次に256サンプルのショート窓関数101が1個、最後に3個のショート窓関数101を合成した768サンプルのミドル(2)窓関数1個の合計4個の窓関数のシーケンスである。この窓シーケンスを使って2×256+128+384=1024個のスペクトル係数に変換される。図8で最下段の窓シーケンスは、2進数表記で1111111であり、8個のショート窓関数を合成した2048サンプルの窓関数を表す。この窓シーケンスを使って1024個のスペクトル係数に変換される。
非定常信号に対する窓シーケンスとしては、図11の従来のAACでは1種類(第3の窓シーケンス202)、図2の実施の形態1では、5種類(第3の窓シーケンス202、第5の窓シーケンス204、第6の窓シーケンス205、第7の窓シーケンス206、第8の窓シーケンス207)あるのに対して、実施の形態2では128種類あり、各種の非定常信号に対して最適な窓長の窓関数を選択することができる。
実施の形態2では、非定常信号に対して、ショート窓関数101をベースとして前記ショート窓関数101を合成した任意の窓長の窓関数を使用したシーケンスを選択することができる。これによって、各種の非定常信号に対して、時間的な変化が起きる時間と前記変化の度合いに応じて、最適な窓シーケンスを選択することができる。すなわち急激な時間的変化に対しては短い窓長のショート窓関数101を選択し、時間的な変化が徐々に起きる場合に対してはショート窓関数101を合成した窓関数を選択することができる。
以上のように実施の形態2のオーディオ信号符号化およびその復号化装置では、短い窓長のショート窓関数101とショート窓関数101を合成した窓長の窓関数を有する128種類の非定常窓シーケンスを備え、オーディオ信号の時間的な変化が大きい場合に前記変化の起きる時間と前記変化の度合いに応じて、前記非定常窓シーケンスの1種類を選択して符号化することにより、符号化効率の悪い短い窓長のショート窓関数101の使用を最小化して、最適な窓シーケンスを選択することができ、符号化効率を向上することができる。
なお、図3および図6に記載の各ブロックは、半導体上に集積した集積回路で実現してもよい。
また、図3および図6に記載の各装置は、ソフトウェアによって動作するコンピュータで実現してもよい。
以上のように、本発明にかかるオーディオ信号符号化およびその復号化方法は、重畳する窓関数のシーケンスを使用する変換符号化方法の符号化効率を向上することができ、符号化ビットレートの低減あるいは符号化音質を向上することができるので、オーディオ信号の高能率符号化およびその復号化装置等として有用である。
本発明の実施の形態1における7種類の窓関数の形状を示す図 本発明の実施の形態1における8種類の窓シーケンスを示す図 本発明の実施の形態1におけるオーディオ信号符号化装置の構成を示すブロック図 本発明の実施の形態1における信号検出部の構成を示すブロック図 本発明の実施の形態1における入力信号と選択される窓関数の関係を示す図 本発明の実施の形態1におけるオーディオ信号復号化装置の構成を示すブロック図 本発明の実施の形態2における窓シーケンスを示す図 本発明の実施の形態2における128種類の非定常窓シーケンスの例を示す図 従来のAACの4種類の窓関数の形状を示す図 窓長とプリエコーおよびポストエコーの関係を示す図 従来のAACの4種類の窓シーケンスを示す図 従来のAACの入力信号と選択される窓シーケンスの関係を示す図
符号の説明
10a ロング窓関数の前半部分
10b ロング窓関数の後半部分
11a ショート窓関数の前半部分
11b ショート窓関数の後半部分
12 スタート窓関数とストップ窓関数の値が一定の部分
13 ミドル(1)窓関数の値が一定の部分
14 ミドル(2)窓関数の値が一定の部分
15 ミドル(3)窓関数の値が一定の部分
100 ロング窓関数
101 ショート窓関数
102 スタート窓関数
103 ストップ窓関数
104 ミドル(1)窓関数
105 ミドル(2)窓関数
106 ミドル(3)窓関数
200 第1の窓シーケンス
201 第2の窓シーケンス
202 第3の窓シーケンス
203 第4の窓シーケンス
204 第5の窓シーケンス
205 第6の窓シーケンス
206 第7の窓シーケンス
207 第8の窓シーケンス
301 信号変化検出部
302 窓処理部
303 変換部
304 量子化及び符号化部
401 セグメント信号レベル算出器
402 セグメント信号レベルメモリ
403 信号レベル変化検出器
601 復号化及び逆量子化部
602 逆変換部
603 窓処理及び重畳加算部
700 非定常窓シーケンス

Claims (11)

  1. オーディオ信号の時間的変化を検出する信号変化検出部と、
    前記信号変化検出部で検出された時間的変化に応じて決定した窓シーケンスによって前記オーディオ信号を分割する窓処理部と、
    前記窓処理部で分割された信号を符号化する符号化部とを備えたオーディオ信号符号化装置であって、
    前記窓関数には、少なくとも、その両端に互いに重畳可能な長い重畳部を有する第1の窓関数、もしくはその両端に互いに重畳可能な短い重畳部を有する第2の窓関数、もしくはその片端に前記第1の窓関数の長い重畳部に重畳可能な長い重畳部と他端に前記第2の窓関数の短い重畳部に重畳可能な短い重畳部とこれらの重畳部の中間に値が一定の重畳しない非重畳部とを有する第3の窓関数、もしくはその両端に前記第2の窓関数の短い重畳部に重畳可能な短い重畳部とこれらの重畳部の中間に値が一定の重畳しない非重畳部とを有する第4の窓関数が含まれ、
    前記信号変化検出部が前記オーディオ信号の大きな時間的変化を検出した場合に、前記窓処理部は、少なくとも1つの前記第2の窓関数と前記第4の窓関数とを組み合わせた窓シーケンスにより前記オーディオ信号を分割することを特徴とするオーディオ信号符号化装置。
  2. 前記信号変化検出部で前記オーディオ信号の大きな時間的変化を検出した場合に、前記窓処理部が、前記大きな時間的変化の起きる時間に応じて、前記第2の窓関数を配置することを特徴とする請求項1記載のオーディオ信号符号化装置。
  3. 前記窓処理部が、前記第2及び第4の窓関数の組み合わせ方を、前記第2の窓関数の重畳部が配置される位置に対応する桁を1もしくは0で示した2進数で表すことを特徴とする請求項2記載のオーディオ信号符号化装置。
  4. 前記信号変化検出部がオーディオ信号のレベルもしくはスペクトルの時間的変化を検出することを特徴とする請求項1記載のオーディオ信号符号化装置。
  5. 前記第4の窓関数は、前記第2の窓関数を複数個合成した窓長を有することを特徴とする請求項1記載のオーディオ信号符号化装置。
  6. 請求項1記載のオーディオ信号符号化装置で符号化された信号を復号するためのオーディオ信号復号化装置であって、
    前記符号化された信号を復号化する復号化部と、
    前記復号化された信号を、窓シーケンスにしたがって重畳加算する重畳加算部とを備えたオーディオ信号復号化装置。
  7. 請求項1記載の信号変化検出部および窓処理部を1個もしくは複数個の半導体上に集積した集積回路。
  8. 請求項6記載の重畳加算部を1個もしくは複数個の半導体上に集積した集積回路。
  9. オーディオ信号の時間的変化を検出する信号変化検出ステップと、
    前記信号変化検出ステップで検出された時間的変化に応じて決定した窓シーケンスによって前記オーディオ信号を分割する窓処理ステップと、
    前記窓処理ステップで分割された信号を符号化する符号化ステップとを有するオーディオ信号符号化方法であって、
    前記窓関数には、少なくとも、その両端に互いに重畳可能な長い重畳部を有する第1の窓関数、もしくはその両端に互いに重畳可能な短い重畳部を有する第2の窓関数、もしくはその片端に前記第1の窓関数の長い重畳部に重畳可能な長い重畳部と他端に前記第2の窓関数の短い重畳部に重畳可能な短い重畳部とこれらの重畳部の中間に値が一定の重畳しない非重畳部とを有する第3の窓関数、もしくはその両端に前記第2の窓関数の短い重畳部に重畳可能な短い重畳部とこれらの重畳部の中間に値が一定の重畳しない非重畳部とを有する第4の窓関数が含まれ、
    前記信号変化検出ステップで前記オーディオ信号の大きな時間的変化を検出した場合に、前記窓処理ステップにおいて、少なくとも1つの前記第2の窓関数と前記第4の窓関数とを組み合わせた窓シーケンスにより前記オーディオ信号を分割することを特徴とするオーディオ信号符号化方法。
  10. 請求項9記載のオーディオ信号符号化方法で符号化された信号を復号するためのオーディオ信号復号化方法であって、
    前記符号化された信号を復号化する復号化ステップと、
    前記復号化された信号を、窓シーケンスにしたがって重畳加算する重畳加算ステップとを有するオーディオ信号復号化方法。
  11. 請求項9記載のオーディオ信号符号化方法もしくは請求項10記載のオーディオ信号復号化方法の各ステップをコンピュータに実行させるためのプログラム。
JP2006131324A 2006-05-10 2006-05-10 オーディオ信号符号化およびその復号化装置、方法ならびにプログラム Pending JP2007304258A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006131324A JP2007304258A (ja) 2006-05-10 2006-05-10 オーディオ信号符号化およびその復号化装置、方法ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006131324A JP2007304258A (ja) 2006-05-10 2006-05-10 オーディオ信号符号化およびその復号化装置、方法ならびにプログラム

Publications (1)

Publication Number Publication Date
JP2007304258A true JP2007304258A (ja) 2007-11-22

Family

ID=38838241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006131324A Pending JP2007304258A (ja) 2006-05-10 2006-05-10 オーディオ信号符号化およびその復号化装置、方法ならびにプログラム

Country Status (1)

Country Link
JP (1) JP2007304258A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012531632A (ja) * 2009-06-29 2012-12-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 帯域拡張符号化装置、帯域拡張復号化装置及び位相ボコーダ
CN110097889A (zh) * 2013-02-20 2019-08-06 弗劳恩霍夫应用研究促进协会 生成经编码的信号或对经编码的信号解码的设备及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012531632A (ja) * 2009-06-29 2012-12-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 帯域拡張符号化装置、帯域拡張復号化装置及び位相ボコーダ
CN110097889A (zh) * 2013-02-20 2019-08-06 弗劳恩霍夫应用研究促进协会 生成经编码的信号或对经编码的信号解码的设备及方法
US11621008B2 (en) 2013-02-20 2023-04-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US11682408B2 (en) 2013-02-20 2023-06-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
CN110097889B (zh) * 2013-02-20 2023-09-01 弗劳恩霍夫应用研究促进协会 生成经编码的信号或对经编码的信号解码的设备及方法

Similar Documents

Publication Publication Date Title
US10643630B2 (en) High frequency replication utilizing wave and noise information in encoding and decoding audio signals
KR101586317B1 (ko) 신호 처리 방법 및 장치
US9818411B2 (en) Apparatus for encoding and decoding of integrated speech and audio
CA2831176C (en) Apparatus and method for audio encoding and decoding employing sinusoidal substitution
US9280974B2 (en) Audio decoding device, audio decoding method, audio decoding program, audio encoding device, audio encoding method, and audio encoding program
JP5530454B2 (ja) オーディオ符号化装置、復号装置、方法、回路およびプログラム
JP2010020346A (ja) 音声信号および音楽信号を符号化する方法
JP2004310088A (ja) 半レート・ボコーダ
RU2573231C2 (ru) Устройство и способ для кодирования части аудиосигнала с использованием обнаружения неустановившегося состояния и результата качества
KR20090083070A (ko) 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
ES2900594T3 (es) Procedimiento para determinar un modo de codificación
US20100250260A1 (en) Encoder
EP2439736A1 (en) Down-mixing device, encoder, and method therefor
WO2012004998A1 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
EP1202252B1 (en) Apparatus for bandwidth expansion of speech signals
JP4533386B2 (ja) オーディオ符号化装置及びオーディオ符号化方法
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
JP3894722B2 (ja) ステレオオーディオ信号高能率符号化装置
TW201519219A (zh) 支撐轉換長度切換的頻率域音源編碼
JP2007304258A (ja) オーディオ信号符号化およびその復号化装置、方法ならびにプログラム
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
US20100292986A1 (en) encoder
WO2009022193A2 (en) Devices, methods and computer program products for audio signal coding and decoding
US20090063161A1 (en) Method and apparatus for encoding and decoding continuation sinusoidal signal of audio signal
JP2008026372A (ja) 符号化データの符号化則変換方法および装置