JP2014010335A - オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置 - Google Patents

オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置 Download PDF

Info

Publication number
JP2014010335A
JP2014010335A JP2012147500A JP2012147500A JP2014010335A JP 2014010335 A JP2014010335 A JP 2014010335A JP 2012147500 A JP2012147500 A JP 2012147500A JP 2012147500 A JP2012147500 A JP 2012147500A JP 2014010335 A JP2014010335 A JP 2014010335A
Authority
JP
Japan
Prior art keywords
channel signal
signal
channel
encoding
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012147500A
Other languages
English (en)
Other versions
JP6051621B2 (ja
Inventor
Shunsuke Takeuchi
俊輔 武内
Yohei Kishi
洋平 岸
Masanao Suzuki
政直 鈴木
Miyuki Shirakawa
美由紀 白川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012147500A priority Critical patent/JP6051621B2/ja
Priority to US13/916,848 priority patent/US9299354B2/en
Publication of JP2014010335A publication Critical patent/JP2014010335A/ja
Application granted granted Critical
Publication of JP6051621B2 publication Critical patent/JP6051621B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】予測符号化における誤差を抑制させることが可能となるオーディオ符号化装置と、当該オーディオ符号化装置に対応するオーディオ復号装置を提供する。
【解決手段】オーディオ符号化装置1は、オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出する算出部13を有する。更に、当該オーディオ符号化装置1は、第1チャネル信号と第2チャネル信号とを用いて複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、第1チャネル信号を用いて第2チャネル信号を予測する第2の予測符号化の何れかを、第1の位相に基づいて行う予測符号化部15を有する。オーディオ復号装置は、選択情報に基づいて、第1チャネル信号、第2チャネル信号ならびに第3チャネル信号をマトリクス変換するマトリクス変換部を有する。
【選択図】図1

Description

本発明は、例えば、オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置に関する。
従来より、3チャネル以上のチャネルを有するマルチチャネルオーディオ信号のデータ量を圧縮するためのオーディオ信号の符号化方式が開発されている。そのような符号化方式の一つとして、Moving Picture Experts Group (MPEG)により標準化されたMPEG Surround方式が知られている。MPEG Surround方式では、例えば、符号化対象となる5.1チャネル(5.1ch)のオーディオ信号が時間周波数変換され、その時間周波数変換により得られた周波数信号がダウンミックスされることにより、一旦3チャネルの周波数信号が生成される。さらに、その3チャネルの周波数信号が再度ダウンミックスされることにより2チャネルのステレオ信号に対応する周波数信号が算出される。そしてステレオ信号に対応する周波数信号は、Advanced Audio Coding(AAC)符号化方式及びSpectral Band Replication(SBR)符号化方式により符号化される。その一方で、MPEG Surround方式では、5.1chの信号を3チャネルの信号へダウンミックスする際、及び3チャネルの信号を2チャネルの信号へダウンミックスする際、音の広がりまたは定位を表す空間情報が算出され、この空間情報が符号化される。このように、MPEG Surround方式では、マルチチャネルオーディオ信号をダウンミックスすることにより生成されたステレオ信号とデータ量の比較的少ない空間情報が符号化される。これにより、MPEG Surround方式では、マルチチャネルオーディオ信号に含まれる各チャネルの信号を独立に符号化するよりも高い圧縮効率が得られる。
MPEG Surround方式では、符号化情報量を削減するため、3チャネル周波数信号をステレオ周波数信号と2つの予測係数(channel prediction coefficient)に分けて符号化する。予測係数とは、3チャネル中の一つのチャネルの信号をその他の2つのチャネルの信号に基づいて予測符号化するための係数である。この予測係数は符号帳と称されるテーブルに複数格納されている。この符号帳は、使用ビット効率の向上の為に用いられるものである。符号化器と復号器で予め定められた共通の(あるいは共通の方法で作成する)符号帳を持つことで、少ないビット数でより重要な情報を送ることが出来る。復号時においては、上述の予測係数に基づいて3チャネル中の一つのチャネルの信号を再現する。この為、符号化時においては、符号帳から予測係数を選択する必要がある。
符号帳から予測係数を選択する方法は、予測符号化される前のチャネル信号と予測符号化された後のチャネル信号の差分で規定される誤差を、符号帳に格納されている全ての予測係数を用いて算出し、予測符号化における誤差が最小になる予測係数を選択する方法が開示されている。また、最小二乗法を用いた計算法により誤差が最小になる予測係数を算出する方法も開示されている。
特表2008−517338号公報
上述の最小二乗法を用いた計算法では、少ない処理量で誤差が最小になる予測係数を算出することは出来るものの、最小二乗法の解が存在しない場合があり、この場合には予測係数を算出することは出来ない。更には、最小二乗法を用いた計算法は、符号帳に格納されている予測係数を用いることを前提としていない為、算出した予測係数が符号帳に格納されていない場合がある。この為、予測符号化においては、符号帳に格納されている全ての予測係数を用いて、予測符号化における誤差が最も小さくなる予測係数を選択することが一般的な手法とされている。
しかしながら、本発明者らの検証により、符号帳に格納されている複数の予測係数を用いても、3チャネル中の一つのチャネルの信号をその他の2つのチャネルの信号に基づいて適切に予測符号化することが出来ない場合(換言すると予測符号化における誤差が著しく大きくなる場合)が存在することが新たに見出された。
本発明は、従来の手法では適切に予測符号化が出来ない場合においても、予測符号化における誤差を抑制させることが可能となるオーディオ符号化装置と、当該オーディオ符号化装置に対応するオーディオ復号装置を提供することを目的とする。
本発明が開示するオーディオ符号化装置は、オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出する算出部を有する。更に、当該オーディオ符号化装置は、第1チャネル信号と第2チャネル信号とを用いて複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、第1チャネル信号を用いて第2チャネル信号を予測する第2の予測符号化の何れかを、第1の位相に基づいて行う予測符号化部を有する。
また、本発明が開示するオーディオ復号装置は、オーディオ信号の複数のチャネルに含まれるチャネル信号をダウンミックスした符号化チャネル信号と、複数のチャネル間の強度差と類似度を含む符号化空間情報と、複数のチャネルに含まれる第1チャネル信号と第2チャネル信号とを用いて複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、第1チャネル信号を用いて第2チャネル信号を予測する第2の予測符号化の何れかで予測符号化が行われたことを示す選択情報と、が多重化された入力信号を分離する分離部を有する。更に、当該オーディオ復号装置は、選択情報に基づいて第1チャネル信号、第2チャネル信号ならびに第3チャネル信号をマトリクス変換するマトリクス変換部を有する。
なお、本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。
本明細書に開示されるオーディオ符号化装置ならびにオーディオ復号装置では、予測符号化における誤差を抑制させることが可能となる。
一つの実施形態によるオーディオ符号化装置の機能ブロック図である。 予測係数に対する量子化テーブルの一例を示す図である。 (a)は、第1の予測符号化の概念図である。(b)は、第2の予測符号化の概念図(その1)である。(c)は、第2の予測符号化の概念図(その2)である。 類似度に対する量子化テーブルの一例を示す図である。 インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。 強度差に対する量子化テーブルの一例を示す図である。 符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。 オーディオ符号化処理の動作フローチャートである。 他の実施形態によるオーディオ符号化装置のブロック図である。 (a)は、マルチチャネルのオーディオ信号の原音と、従来の予測符号化を用いたオーディオ信号のパワー周波数特性(比較例)である。(b)は、マルチチャネルのオーディオ信号の原音と、本発明の予測符号化を用いたオーディオ信号のパワー周波数特性である。 一つの実施形態によるオーディオ復号装置の機能ブロックを示す図である。 一つの実施形態によるオーディオ符号化復号システムの機能ブロックを示す図(その1)である。 一つの実施形態によるオーディオ符号化復号システムの機能ブロックを示す図(その2)である。
以下に、一つの実施形態によるオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム、ならびにオーディオ復号装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
(実施例1)
図1は、一つの実施形態によるオーディオ符号化装置1の機能ブロックを示す図である。図1に示す様に、オーディオ符号化装置1は,時間周波数変換部11、第1ダウンミックス部12、算出部13、第2ダウンミックス部14、予測符号化部15、チャネル信号符号化部16、空間情報符号化部20、多重化部21を有する。また、チャネル信号符号化部16は、SBR符号化部17と、周波数時間変換部18と、AAC符号化部19を含んでいる。
オーディオ符号化装置1が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ符号化装置1が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置1に実装されてもよい。さらに、オーディオ符号化装置1が有するこれらの各部は、オーディオ符号化装置1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
時間周波数変換部11は、オーディオ符号化装置1に入力されたマルチチャネルオーディオ信号の時間領域の各チャネルの信号をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。本実施形態では,時間周波数変換部11は、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、各チャネルの信号を周波数信号に変換する。
(数1)

Figure 2014010335

ここでnは時間を表す変数であり、1フレームのオーディオ信号を時間方向に128等分したときのn番目の時間を表す。なお,フレーム長は、例えば、10〜80msecの何れかとすることができる。またkは周波数帯域を表す変数であり、周波数信号が有する周波数帯域を64等分したときのk番目の周波数帯域を表す。またQMF(k,n)は、時間n、周波数kの周波数信号を出力するためのQMFである。時間周波数変換部11は、QMF(k,n)を入力されたチャネルの1フレーム分のオーディオ信号に乗じることにより、そのチャネルの周波数信号を生成する。なお、時間周波数変換部11は、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、各チャネルの信号をそれぞれ周波数信号に変換してもよい。
時間周波数変換部11は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号を第1ダウンミックス部12へ出力する。
第1ダウンミックス部12は、各チャネルの周波数信号を受け取る度に、それら各チャネルの周波数信号をダウンミックスすることにより、左チャネル,中央チャネル及び右チャネルの周波数信号を生成する。例えば、第1ダウンミックス部12は、次式に従って、以下の3個のチャネルの周波数信号を算出する。
(数2)

Figure 2014010335
ここで、LRe(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの実部を表し、LIm(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの虚部を表す。またSLRe(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの実部を表し、SLIm(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの虚部を表す。そしてLin(k,n)は、ダウンミックスにより生成される左チャネルの周波数信号である。なお、LinRe(k,n)は、左チャネルの周波数信号のうちの実部を表し、LinIm(k,n)は、左チャネルの周波数信号のうちの虚部を表す。
同様に、RRe(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの実部を表し、RIm(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの虚部を表す。またSRRe(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの実部を表し、SRIm(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの虚部を表す。そしてRin(k,n)は、ダウンミックスにより生成される右チャネルの周波数信号である。なお、RinRe(k,n)は、右チャネルの周波数信号のうちの実部を表し、RinIm(k,n)は、右チャネルの周波数信号のうちの虚部を表す。
さらに、CRe(k,n)は、中央チャネルの周波数信号C(k,n)のうちの実部を表し、CIm(k,n)は、中央チャネルの周波数信号C(k,n)のうちの虚部を表す。またLFERe(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの実部を表し、LFEIm(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの虚部を表す。そしてCin(k,n)は、ダウンミックスにより生成される中央チャネルの周波数信号である。なお、CinRe(k,n)は、中央チャネルの周波数信号Cin(k,n)のうちの実部を表し、CinIm(k,n)は、中央チャネルの周波数信号Cin(k,n)のうちの虚部を表す。
また、第1ダウンミックス部12は、ダウンミックスされる二つのチャネルの周波数信号間の空間情報として、音の定位を表す情報であるその周波数信号間の強度差と、音の広がりを表す情報となる当該周波数信号間の類似度を周波数帯域ごとに算出する。第1ダウンミックス部12が算出するこれらの空間情報は、3チャネル空間情報の一例である。本実施形態では、第1ダウンミックス部12は、次式に従って左チャネルについての周波数帯域kの強度差CLDL(k)と類似度ICCL(k)を算出する。
(数3)

Figure 2014010335

(数4)

Figure 2014010335


Figure 2014010335
ここで、Nは、1フレームに含まれる時間方向のサンプル点数であり、本実施形態では、Nは128である。また、eL(k)は、左前方チャネルの周波数信号L(k,n)の自己相関値であり、eSL(k)は、左後方チャネルの周波数信号SL(k,n)の自己相関値である。またeLSL(k)は、左前方チャネルの周波数信号L(k,n)と左後方チャネルの周波数信号SL(k,n)との相互相関値である。
同様に、第1ダウンミックス部12は、次式に従って右チャネルについての周波数帯域kの強度差CLDR(k)と類似度ICCR(k)を算出する。
(数5)

Figure 2014010335

(数6)

Figure 2014010335


Figure 2014010335

ここで、eR(k)は、右前方チャネルの周波数信号R(k,n)の自己相関値であり、eSR(k)は、右後方チャネルの周波数信号SR(k,n)の自己相関値である。またeRSR(k)は、右前方チャネルの周波数信号R(k,n)と右後方チャネルの周波数信号SR(k,n)との相互相関値である。
さらに、第1ダウンミックス部12は、次式に従って中央チャネルについての周波数帯域kの強度差CLDc(k)を算出する。
(数7)

Figure 2014010335


Figure 2014010335
ここで、eC(k)は、中央チャネルの周波数信号C(k,n)の自己相関値であり、eLFE(k)は、重低音チャネルの周波数信号LFE(k,n)の自己相関値である。
第1ダウンミックス部12は、3チャネルの周波数信号を生成した後、更に、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号を生成する。第1ダウンミックス部12は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号を生成する。第1ダウンミックス部12は、例えば、次式に従ってステレオ周波数信号の左側周波数信号L0(k,n)及び右側周波数信号R0(k,n)を生成する。さらに第1ダウンミックス部12は、例えば、符号帳に含まれる予測係数を選択する為に利用される中央チャネルの信号C0(k,n)を次式に従って算出する。
(数8)

Figure 2014010335
ここで、Lin(k,n)、Rin(k,n)、Cin(k,n)は、それぞれ、第1ダウンミックス部12により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。左側周波数信号L0(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル、左後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。同様に、右側周波数信号R0(k,n)は、元のマルチチャネルオーディオ信号の右前方チャネル、右後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。
第1ダウンミックス部12は、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネルの信号C0(k,n)を、算出部13と第2ダウンミックス部14へ出力する。また、第1ダウンミックス部12は、空間情報となる強度差CLDL(k)、CLDR(k)、CLDC(k)と、類似度ICCL(k)、ICCR(k)を空間情報符号化部20へ出力する。
算出部13は、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネルの信号C0(k,n)の3チャネルの周波数信号を第1ダウンミックス部12から受け取る。そして、算出部13は、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)の位相を示す第1の位相を算出する。また、必要に応じて、算出部13は、左側周波数信号L0(k,n)または右側周波数信号R0(k,n)と、中央チャネルの信号C0(k,n)との位相を示す第2の位相を算出する。
算出部13は、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネルの信号C0(k,n)ならびに第1の位相を予測符号化部15へ出力する。また、算出部13は、必要に応じて第2の位相を予測符号化部15へ出力する。なお、算出部13が第1の位相や第2の位相を算出する理由の詳細は後述するが、左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)で中央チャネルの信号C0(k,n)を予測符号化することが可能か否か(誤差が著しく大きくなるか否か)を、予測符号化部15が判定する為である。
ここで、算出部13による第1の位相ならびに第2の位相の具体的な計算方法について説明する。先ず、第1の位相を算出する場合について説明する。上述の(数8)の左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)を展開すると次式の通りとなる。
(数9)


Figure 2014010335
この時、上述の(数9)において、

Figure 2014010335

と置換すると、第1の位相に相当するcosθ1は、次式で算出することが可能となる。
(数10)

Figure 2014010335

ここで、cosθ1の値が−1の場合は、第1の位相は逆位相となり、cosθ1の値が1の場合は、第1の位相は同位相となる。なお、第2の位相についても第1の位相と同様に算出することが可能である為、詳細な説明は省略する。
第2ダウンミックス部14は、第1ダウンミックス部12から受け取った左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネルの信号C0(k,n)の3チャネルの周波数信号のうちの二つの周波数信号をダウンミックスすることにより、2チャネルのステレオ周波数信号を生成する。そして、第2ダウンミックス部14は生成したステレオ周波数信号をチャネル信号符号化部16へ出力する。なお、第2ダウンミックス部14の詳細な動作は後述する。
予測符号化部15は、第2ダウンミックス部14においてダウンミックスされる二つのチャネルの周波数信号についての予測係数を符号帳から選択する。なお、説明の便宜上、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)とから中央チャネルの信号C0(k,n)を予測符号化を行うことを第1の予測符号化と称することとする。なお、予測符号化部15が、第1の予測符号化を行う場合は、第2ダウンミックス部14は、右側周波数信号R0(k,n)と左側周波数信号L0(k,n)をダウンミックスすることにより、2チャネルのステレオ周波数信号を生成することになる。また、詳細な理由は後述するが、第1の位相が同位相または逆位相以外の場合、予測符号化部15は、第1の予測符号化を行う。なお、予測符号化部15は、第1の予測符号化を行う場合、周波数帯域ごとに、C0(k,n)と、L0(k,n)、R0(k,n)から次式で定義される予測符号化前と予測符号化後の周波数信号の誤差d(k)が最小となる予測係数c1(k)とc2(k)を符号帳から選択する。この様にして予測符号化部15は、予測符号化後の中央チャネルの信号C'0(k,n)を予測符号化する。
(数11)

Figure 2014010335


Figure 2014010335
予測符号化部15は、符号帳に含まれる予測係数c1(k)、c2(k)を用いて、予測符号化部15が有する予測係数c1(k)、c2(k)の代表値とインデックス値との対応関係を示した量子化テーブルを参照する。そして、予測符号化部15は、量子化テーブルを参照することにより、各周波数帯域についての予測係数c1(k)、c2(k)に対して、最も値が近いインデックス値を決定する。ここで、具体例について説明する。図2は、予測係数に対する量子化テーブルの一例を示す図である。図2に示す量子化テーブル200において、行201、203、205、207及び209の各欄はインデックス値を表す。一方、行202、204、206、208及び210の各欄は、それぞれ、同じ列の行201、203、205、207及び209の各欄に示されたインデックス値に対応する予測係数の代表値を表す。例えば、予測符号化部15は、周波数帯域kに対する予測係数c1(k)が1.21である場合、量子化テーブル200では、インデックス値12が予測係数c1(k)に最も近い。そこで、予測符号化部15は、予測係数c1(k)に対するインデックス値を12に設定する。
次に、予測符号化部15は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、予測符号化部15は、周波数帯域kに対するインデックスの差分値を−2とする。
次に、予測符号化部15は、インデックス間の差分値と予測係数符号の対応を示した符号化テーブルを参照する。そして予測符号化部15は、符号化テーブルを参照することにより、予測係数cm(k)(m=1,2 or m=1)の各周波数帯域kの差分値に対する予測係数符号idxcm(k)(m=1,2 or m=1)を決定する。予測係数符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。なお、量子化テーブル及び符号化テーブルは、予め、予測符号化部15が有する図示しないメモリに格納される。図1において、予測符号化部15は、予測係数符号idxcm(k)(m=1,2 or m=1)を空間情報符号化部20へ出力する。
ここで、本発明者らにより新たに見出された、予測符号化部15が第1の予測符号化を行った場合、上述の(数11)における誤差d(k)が著しく大きくなり、予測符号化が適切に実施出来ない場合が存在する理由について説明する。図3(a)は、第1の予測符号化の概念図である。図3(a)において、座標軸となるRe軸とIm軸はそれぞれ周波数信号の実部と虚部を示す。左側周波数信号L0(k,n)、右側周波数信号R0(k,n)ならびに中央チャネルの信号C0(k,n)は、上述の(数2)、(数8)、(数9)等で表現されている通り、それぞれ実部と虚部からなるベクトルで表現することが可能である。
図3(a)においては、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトル、予測符号化される中央チャネルの信号C0(k,n)のベクトルを模式的に示している。第1の予測符号化においては、中央チャネルの信号C0(k,n)が、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)ならびに予測係数c1(k)、c2(k)によってベクトル分解が出来ることを利用している。
ここで、予測符号化部15は、予測符号化前の中央チャネルの信号C0(k,n)と予測符号化後の中央チャネルの信号C'0(k,n)の周波数信号の誤差d(k)が最小となる予測係数c1(k)とc2(k)を符号帳から選択することで、中央チャネルの信号C0(k,n)を予測符号化することが可能となる。なお、この概念を数式で示したものが上述の(数9)である。また、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルの余弦関数cosθ1が、左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)の位相を示す第1の位相に相当する。また、左側周波数信号L0(k,n)のベクトルまたは右側周波数信号R0(k,n)のベクトルと、中央チャネルの信号C0(k,n)のベクトルとの余弦関数cosθが、中央チャネルの信号C0(k,n)と、左側周波数信号L0(k,n)または右側周波数信号R0(k,n)との位相を示す第2の位相に相当する。
予測符号化部15は、第1の位相が同位相か逆位相以外の場合は、中央チャネルの信号C0(k,n)が、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルに分解可能である為、第1の予測符号化を後述する第2の予測符号化等よりも優先的に行っても良い。これは、一般的には左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)は類似度が高い場合が多く、図1のチャネル信号符号化部16における符号化効率が高い為である。
図3(b)は、第2の予測符号化の概念図(その1)である。なお、第2の予測符号化の定義については後述する。図3(b)においては、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルの余弦関数cosθ1が、180°となっており、第1の位相が逆位相になっていることを示す。この場合、第1の予測符号化を実施すると、第1の位相と第2の位相が同位相または、逆位相でない限り、中央チャネルの信号C0(k,n)が、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルに分解出来ない。この為、上述の(数9)において、誤差d(k)が著しく大きくなり、適切な予測符号化を行うことが出来ない問題生じることが本発明者らによって新たに見出された。
しかしながら、図3(b)において、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルに着目すると、余弦関数cosθ1が、180°となっている。このことを利用すると、例えば、左側周波数信号L0(k,n)のベクトルを利用し、かつ予測符号化における誤差d(k)が最も小さくなる予測係数c1(k)を符号帳から選択することで、右側周波数信号R0(k,n)を予測符号化することが可能となる。予測符号化後の右側周波数信号R'0(k,n)は、次式で表現することが出来る。
(数12)

Figure 2014010335


Figure 2014010335
これにより、中央チャネルの信号C0(k,n)が、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルに分解出来ない場合(中央チャネルの信号C0(k,n)の適切な予測符号化を行うことが出来ない場合)でも、第2の予測符号化で、左側周波数信号L0(k,n)のベクトルを利用して右側周波数信号R0(k,n)の適切な予測符号化を行うことが出来る。このような第2の予測符号化で、中央チャネルの信号C0(k,n)を予測符号化せずに、右側周波数信号R0(k,n)を予測符号化することにより、予測符号化における誤差を抑制することが可能となる。
また、予測符号化部15は、右側周波数信号R0(k,n)のベクトルを利用し、かつ誤差d(k)が最も小さくなる予測係数c1(k)を符号帳から選択することで、左側周波数信号L0(k,n)を予測符号化することも可能である。予測符号化後の左側周波数信号をL'0(k,n)は、次式で表現することが出来る。
(数13)

Figure 2014010335


Figure 2014010335
ここで、右側周波数信号R0(k,n)から左側周波数信号L0(k,n)を予測符号化を行うこと、または、左側周波数信号L0(k,n)から右側周波数信号R0(k,n)を予測符号化を行うことを、説明の便宜上、第2の予測符号化と称することとする。なお、予測符号化部15は、上述の(数12)から算出される最小の誤差d(k)を第1の誤差と規定し、上述の(数13)から算出される最小の誤差d(k)をを第2の誤差を規定し、第1と第2の誤差を比較し、誤差が小さくなる方で第2の予測符号化を行っても良い。
図3(c)は、第2の予測符号化の概念図(その2)である。図3(c)においては、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルの余弦関数cosθ1が、0°となっており、第1の位相が同位相になっていることを示す。この場合、第1の予測符号化を実施すると、第1の位相と第2の位相が同位相または、逆位相でない限り、図3(b)に示す例と同様に、中央チャネルの信号C0(k,n)が、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルに分解出来ない為、上述の(数9)において、誤差d(k)が著しく大きくなり、適切な予測符号化を行うことが出来ない問題生じる。
しかしながら、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルに着目すると、余弦関数cosθ1が、0°となっていることを利用して、例えば、左側周波数信号L0(k,n)のベクトルを利用し、かつ予測符号化における誤差d(k)が最も小さくなる予測係数c1(k)を符号帳から選択するとで、右側周波数信号R0(k,n)が予測符号化することが可能となる。なお、予測符号化後の右側周波数信号R'0(k,n)は、上述の(数12)で表現することが出来る。
また、予測符号化部14は、右側周波数信号R0(k,n)のベクトルを利用し、かつ誤差d(k)が最も小さくなる予測係数c1(k)を符号帳から選択することで、左側周波数信号L0(k,n)を予測符号化することが可能となる。予測符号化後の左側周波数信号をL'0(k,n)は、上述の(数13)で表現することが出来る。
ここで、予測符号化部15が、第2の予測符号化を行う場合は、第2ダウンミックス部14は、右側周波数信号R0(k,n)または左側周波数信号L0(k,n)の何れかと、中央チャネルの信号C0(k,n)をダウンミックスすることにより、2チャネルのステレオ周波数信号を生成することになる。
なお、予測符号化部15は、図3(a)ないし図3(c)において、第1の位相と第2の位相が同位相または、逆位相の場合は、中央チャネルの信号C0(k,n)を右側周波数信号R0(k,n)または、左側周波数信号L0(k,n)から予測符号化することも可能である。予測符号化後の中央チャネルの信号C’0(k,n)は、次式の何れかで算出ことも可能である。
(数14)

Figure 2014010335


Figure 2014010335

(数15)

Figure 2014010335


Figure 2014010335
予測符号化部15は、第1の予測符号化、第2の予測符号化の何れかで予測符号化を行った情報を含む選択情報を生成して、図1の第2ダウンミックス部14と、多重化部21へ選択情報を出力する。なお、選択情報には、第2の予測符号化を行ったことを示す情報が含まれる場合、左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)の何れを用いて予測符号化を行ったことを示す情報が更に含まれる。また、予測符号化部15は、上述の(数14)または(数15)を用いて予測符号化を行った場合は、第1の予測符号化を行ったことを示す情報を選択情報に含ませても良い。これは、チャネル信号符号化部16による符号化効率の観点から第2ダウンミックス部14で右側周波数信号R0(k,n)と左側周波数信号L0(k,n)をダウンミックスすることにより、2チャネルのステレオ周波数信号を生成した方が好ましい為である。
この様に、予測符号化部15は、算出部13から受け取った第1の位相に基づいて予測符号化を行うことで、予測符号化における誤差を抑制させることが可能となる。更に、第2の予測符号化を行った場合は、選択する予測係数を1つに削減させること可能となる為、符号化処理における負荷を軽減させる相乗効果が創出される。
第2ダウンミックス部14は、選択情報を予測符号化部15から受け取り、選択情報に基づいて、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネルの信号C0(k,n)の3チャネルの周波数信号のうちの二つの周波数信号をダウンミックスすることにより、2チャネルのステレオ周波数信号を生成する。具体的には、選択情報に第1の予測符号化を行われたことを示す情報が含まれていた場合、第2ダウンミックス部14は、例えば、第1のステレオ周波数信号として左側周波数信号L0(k,n)、右側周波数信号R0(k,n)をチャネル信号符号化部16へ出力する。また、選択情報に第2の予測符号化が行われたことを示す情報が含まれていた場合、第2ダウンミックス部14は、例えば、第2のステレオ周波数信号として中央チャネルの信号C0(k,n)と、左側周波数信号L0(k,n)または右側周波数信号R0(k,n)の何れかをチャネル信号符号化部16へ出力する。
チャネル信号符号化部16は、第2ダウンミックス部14から受け取ったステレオ周波数信号を符号化する。なお、チャネル信号符号化部16には、SBR符号化部17と、周波数時間変換部18と、AAC符号化部19が含まれる。
SBR符号化部17は、ステレオ周波数信号を受け取る度に、チャネルごとに、ステレオ周波数信号のうち、高周波数帯域に含まれる成分である高域成分を、SBR符号化方式にしたがって符号化する。これにより、SBR符号化部17は、SBR符号を生成する。例えば、SBR符号化部17は、特開2008−224902号公報に開示されているように、SBR符号化の対象となる高域成分と強い相関のある各チャネルの周波数信号の低域成分を複製する。なお、低域成分は、SBR符号化部17が符号化対象とする高域成分が含まれる高周波数帯域よりも低い低周波数帯域に含まれる各チャネルの周波数信号の成分であり、後述するAAC符号化部19により符号化される。そしてSBR符号化部17は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。またSBR符号化部17は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そしてSBR符号化部17は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。SBR符号化部17は、上記の符号化された情報であるSBR符号を多重化部21へ出力する。
周波数時間変換部18は、ステレオ周波数信号を受け取る度に、各チャネルのステレオ周波数信号を時間領域のステレオ信号に変換する。例えば、時間周波数変換部11がQMFフィルタバンクを用いる場合、周波数時間変換部18は、次式に示す複素型のQMFフィルタバンクを用いて各チャネルのステレオ周波数信号を周波数時間変換する。
(数16)

Figure 2014010335

ここでIQMF(k,n)は、時間n、周波数kを変数とする複素型のQMFである。なお、時間周波数変換部11が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いている場合、周波数時間変換部18は、その時間周波数変換処理の逆変換を使用する。周波数時間変換部18は、各チャネルの周波数信号を周波数時間変換することにより得られた各チャネルのステレオ信号をAAC符号化部19へ出力する。
AAC符号化部19は、各チャネルのステレオ信号を受け取る度に、各チャネルの信号の低域成分をAAC符号化方式にしたがって符号化することにより、AAC符号を生成する。そこで、AAC符号化部19は、例えば、特開2007−183528号公報に開示されている技術を利用できる。具体的には、AAC符号化部19は、受け取った各チャネルのステレオ信号を離散コサイン変換することにより、再度ステレオ周波数信号を生成する。そしてAAC符号化部19は、再生成したステレオ周波数信号から心理聴覚エントロピー(PE;Perceptual Entropy)を算出する。PEは、リスナーが雑音を知覚することがないようにそのブロックを量子化するために必要な情報量を表す。
このPEは、打楽器が発する音のようなアタック音など、信号レベルが短時間で変化する音に対して大きな値となる特性を持つ。そこで、AAC符号化部19は、PEの値が比較的大きくなるフレームに対しては、窓を短くし、PEの値が比較的小さくなるブロックに対しては、窓を長くする。例えば、短い窓は、256個のサンプルを含み、長い窓は、2048個のサンプルを含む。AAC符号化部19は、決定された長さを持つ窓を用いて各チャネルのステレオ信号に対して修正離散コサイン変換(MDCT;Modified Discrete Cosine Transform)を実行することにより、各チャネルのステレオ信号をMDCT係数の組に変換する。そしてAAC符号化部19は、MDCT係数の組を量子化し、その量子化されたMDCT係数の組を可変長符号化する。AAC符号化部19は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、AAC符号として多重化部21へ出力する。
空間情報符号化部20は、第1ダウンミックス部12から受け取った空間情報と、予測符号化部15から受け取った予測係数符号からMPEG Surround符号(以下、MPS符号と称する)を生成する。
空間情報符号化部20は、空間情報中の類似度の値とインデックス値の対応を示した量子化テーブルを参照する。そして空間情報符号化部20は、量子化テーブルを参照することにより、各周波数帯域についてそれぞれの類似度ICCi(k)(i=L,R,0)と最も値が近いインデックス値を決定する。なお、量子化テーブルは、予め、空間情報符号化部20が有する図示しないメモリに格納される。
図4は、類似度に対する量子化テーブルの一例を示す図である。図4に示す量子化テーブル400において、上段の行410の各欄はインデックス値を表し、下段の行420の各欄は、同じ列のインデックス値に対応する類似度の代表値を表す。また、類似度が取りうる値の範囲は−0.99〜+1である。例えば、周波数帯域kに対する類似度が0.6である場合、量子化テーブル400では、インデックス値3に対応する類似度の代表値が、周波数帯域kに対する類似度に最も近い。そこで、空間情報符号化部20は、周波数帯域kに対するインデックス値を3に設定する。
次に、空間情報符号化部20は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が3であり、周波数帯域(k-1)に対するインデックス値が0であれば、空間情報符号化部20は、周波数帯域kに対するインデックスの差分値を3とする。
空間情報符号化部20は、インデックス値の差分値と類似度符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部20は、符号化テーブルを参照することにより、類似度ICCi(k)(i=L,R,0)の各周波数についてインデックス間の差分値に対する類似度符号idxicci(k)(i=L,R,0)を決定する。なお、符号化テーブルは、予め、空間情報符号化部20が有するメモリ等に格納される。また、類似度符号は、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
図5は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。図5の例では、類似度符号はハフマン符号である。図5に示す符号化テーブル500において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数帯域kの類似度ICCL(k)に対するインデックスの差分値が3である場合、空間情報符号化部20は、符号化テーブル500を参照することにより、周波数帯域kの類似度ICCL(k)に対する類似度符号idxiccL(k)を"111110"に設定する。
空間情報符号化部20は、強度差の値とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部20は、量子化テーブルを参照することにより、各周波数についての強度差CLDj(k)(j=L,R,C,1,2)と最も値が近いインデックス値を決定する。空間情報符号化部20は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、空間情報符号化部20は、周波数帯域kに対するインデックスの差分値を−2とする。
空間情報符号化部20は、インデックス間の差分値と強度差符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部20は、符号化テーブルを参照することにより、強度差CLDj(k)の各周波数帯域kの差分値に対する強度差符号idxcldj(k)(j=L,R,C)を決定する。強度差符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。なお、量子化テーブル及び符号化テーブルは、予め空間情報符号化部20が有するメモリに格納される。
図6は、強度差に対する量子化テーブルの一例を示す図である。図6に示す量子化テーブル600において、行610、630及び650の各欄はインデックス値を表し、行620、640及び660の各欄は、それぞれ、同じ列の行610、630及び650の各欄に示されたインデックス値に対応する強度差の代表値を表す。例えば、周波数帯域kに対する強度差CLDL(k)が10.8dBである場合、量子化テーブル600では、インデックス値5に対応する強度差の代表値がCLDL (k)に最も近い。そこで、空間情報符号化部20は、CLDL(k)に対するインデックス値を5に設定する。
空間情報符号化部20は、類似度符号idxicci(k)、強度差符号idxcldj(k)及び、予測係数符号idxcm(k)を用いてMPS符号を生成する。例えば、空間情報符号化部20は、類似度符号idxicci(k)、強度差符号idxcldj(k)及び予測係数符号idxcm(k)を所定の順序に従って配列することにより、MPS符号を生成する。この所定の順序については、例えば、ISO/IEC23003−1:2007に記述されている。空間情報符号化部20は、生成したMPS符号を多重化部21へ出力する。
多重化部21は、AAC符号、SBR符号及びMPS符号ならびに選択情報を所定の順序に従って配列することにより多重化する。そして多重化部21は、多重化により生成された符号化オーディオ信号を出力する。図7は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。図7の例では、符号化されたオーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。図7に示される符号化データ列700において、データブロック710にAAC符号が格納される。またADTS形式のFILLエレメントが格納されるブロック720の一部領域にSBR符号及びMPS符号ならびに選択情報が格納される。
図8は、オーディオ符号化処理の動作フローチャートを示す。なお、図9に示されたフローチャートは、1フレーム分のマルチチャネルオーディオ信号に対する処理を表す。オーディオ符号化装置1は、マルチチャネルオーディオ信号を受信し続けている間、フレームごとに図9に示されたオーディオ符号化処理の手順を繰り返し実行する。
時間周波数変換部11は、各チャネルの信号を周波数信号に変換する(ステップS801)。時間周波数変換部11は、各チャネルの周波数信号を第1ダウンミックス部12へ出力する。
次に、第1ダウンミックス部12は、各チャネルの周波数信号をダウンミックスすることにより右、左、中央の3チャネルの周波数信号{ L0(k,n)、R0(k,n)、C0(k,n)}を生成する。さらに第1ダウンミックス部12は、右、左、中央の各チャネルの空間情報を算出する(ステップS802)。第1ダウンミックス部12は、3チャネルの周波数信号を算出部13ならびに第2ダウンミックス部14へ出力する。
算出部13は、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネルの信号C0(k,n)の3チャネルの周波数信号を第1ダウンミックス部12から受け取る。そして、算出部13は、左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)から上述の(数10)を用いて第1の位相を算出する(ステップS803)。更に、算出部13は、第1の位相を予測符号化部15へ出力する。また、算出部13は、ステップS803において、必要に応じて、第2の位相を算出し、当該第2の位相を予測符号化部15へ出力しても良い。
予測符号化部15は、算出部13から第1の位相を受け取る。また、必要に応じて、予測符号化部15は、算出部13から第2の位相を受け取る。予測符号化部15は、第1の位相に基づいて第1の予測符号化または、第2の予測符号化を実施する(ステップS804)。具体的には、予測符号化部15は、第1の位相が、同位相または、逆位相以外の場合は、第1の予測符号化を実施する。また、予測符号化部15は、第1の位相が逆位相または同位相の場合は第2の予測符号化を実施し、予測係数を符号化する。なお、予測符号化部は、算出部13から第2の位相を受け取っている場合は、第1の位相と第2の位相を比較する。予測符号化部15は、第1の位相と第2の位相が同位相または、逆位相の場合は、上述の(数14)または(数15)を用いて中央チャネルの信号C0(k,n)を右側周波数信号R0(k,n)または、左側周波数信号L0(k,n)から予測符号化しても良い。
次に、予測符号化部15は、第1の予測符号化、第2の予測符号化の何れかで予測符号化を行った情報を含む選択情報を生成して、第2ダウンミックス部14と、多重化部21へ選択情報を出力する(ステップS805)。なお、ステップS805において、予測符号化部15は、選択情報に対して、第2の予測符号化を行ったことを示す情報を含ませる場合、左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)の何れを用いて予測符号化を行ったことを示す情報を更に含ませる。また、予測符号化部15は、上述の(数14)または(数15)を用いて予測符号化を行った場合は、第1の予測符号化を行ったことを示す情報を選択情報に含ませても良い。また、ステップS805において、予測符号化部15は第1の予測符号化または第2の予測符号化において符号化した予測係数符号を空間情報符号化部20へ出力する。
第2ダウンミックス部14は、選択情報を予測符号化部15から受け取る。第2ダウンミックス部14は、選択情報に基づいて3チャネルの周波数信号をダウンミックスすることによりステレオ周波数信号を生成する。そして、第2ダウンミックス部14は、ステレオ周波数信号をチャネル信号符号化部16へ出力する(ステップS806)。具体的には、選択信号に第1の予測符号化を行われたことを示す情報が含まれていた場合、第2ダウンミックス部14は、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)をチャネル信号符号化部16へ出力する。また、選択信号に第2の予測符号化が行われたことを示す情報が含まれていた場合、第2ダウンミックス部14は、中央チャネルの信号C0(k,n)と、左側周波数信号L0(k,n)または右側周波数信号R0(k,n)の何れかをチャネル信号符号化部16へ出力する。
空間情報符号化部20は、受け取った第1ダウンミックス部12から受け取った符号化する空間情報と、予測符号化部15から受け取った予測係数符号からMPS符号を生成する(ステップS807)。そして空間情報符号化部20は、MPS符号を多重化部21へ出力する。
チャネル信号符号化部16は、受け取った各チャネルのステレオ周波数信号のうち、高域成分をSBR符号化する。またチャネル信号符号化部16は、受け取った各チャネルのステレオ周波数信号のうち、SBR符号化されない低域成分をAAC符号化する(ステップS808)。そしてチャネル信号符号化部16は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報などのSBR符号と、AAC符号を多重化部21へ出力する。
最後に、多重化部21は、生成されたSBR符号、AAC符号、MPS符号ならびに選択情報を多重化することにより、符号化されたオーディオ信号を生成する(ステップS809)。多重化部21は、符号化されたオーディオ信号を出力する。そしてオーディオ符号化装置1は、符号化処理を終了する。
なお、オーディオ符号化装置1は、ステップS807の処理とステップS808の処理を並列に実行してもよい。あるいは、オーディオ符号化装置1は、ステップS807の処理を行う前にステップS808の処理を実行してもよい。
図9は、他の実施形態によるオーディオ符号化装置のブロック図である。図9に示すように、オーディオ符号化装置1は、制御部901、主記憶部902、補助記憶部903、ドライブ装置904、ネットワークI/F部906、入力部907、表示部908を含む。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
制御部901は、コンピュータの中で、各装置の制御やデータの演算、加工を行うCPUである。また、制御部901は、主記憶部902や補助記憶部903に記憶されたプログラムを実行する演算装置であり、入力部907や記憶装置からデータを受け取り、演算、加工した上で、表示部908や記憶装置などに出力する。
主記憶部902は、ROM(Read Only Memory)やRAM(Random Access Memory)などであり、制御部901が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶または一時保存する記憶装置である。
補助記憶部903は、HDD(Hard Disk Drive)などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
ドライブ装置904は、記録媒体905、例えばフレキシブルディスクからプログラムを読み出し、補助記憶部903にインストールする。
また、記録媒体905に、所定のプログラムを格納し、この記録媒体905に格納されたプログラムはドライブ装置904を介してオーディオ符号化装置1にインストールされる。インストールされた所定のプログラムは、オーディオ符号化装置1により実行可能となる。
ネットワークI/F部906は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された通信機能を有する周辺機器とオーディオ符号化装置1とのインターフェースである。
入力部907は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部908の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部907は、ユーザが制御部901に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
表示部908は、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等により構成され、制御部901から入力される表示データに応じた表示が行われる。
なお、上述したオーディオ符号化処理は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、上述したオーディオ符号化処理を実現することができる。
また、このプログラムを記録媒体905に記録し、このプログラムが記録された記録媒体905をコンピュータや携帯端末に読み取らせて、前述したオーディオ符号化処理を実現させることも可能である。なお、記録媒体905は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
図10(a)は、マルチチャネルのオーディオ信号の原音と、従来の予測符号化を用いたオーディオ信号のパワー周波数特性(比較例)である。図10(b)は、マルチチャネルのオーディオ信号の原音と、本発明の予測符号化を用いたオーディオ信号のパワー周波数特性である、なお、図10(a)ならびに図10(b)においては、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)を同位相の状態にして、中央チャネルの信号C0(k,n)を予測符号化を行っている。
図10(a)に示される通り、従来の予測符号化においては原音との乖離が著しく、予測符号化における誤差が非常に大きくなっており、音質が劣化していることが確認された。一方、図10(b)に示される通り、本発明の予測符号化においては、原音とパワーが殆ど一致しており、予測符号化における音質の劣化を抑制出来ていることが確認された。
(実施例2)
図1の予測符号化部15は、第2の予測符号化を行う場合、左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)の双方を用いて、左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)の何れかを予測符号化を行っても良い。例えば、右側周波数信号R0(k,n)の予測符号化を行う場合、予測符号化後の右側周波数信号R’0(k,n)を、次式で表現することができる。
(数17)

Figure 2014010335


Figure 2014010335

この場合、予測符号化部15は、上述の(数17)において、誤差d(k)が最も小さくなる予測係数c1(k)と、c2(k)の予測係数となる0を選択する。なお、左周波数信号L0(k,n)の予測符号化を行う場合や、第1の位相と第2の位相が同位相または逆位相の場合における中央チャネルの信号C0(k,n)の予測符号化を行う場合についても同様の方法で行うことが可能である為、詳細な説明は省略する。
(実施例3)
図3(b)において、左側周波数信号L0(k,n)のベクトルと、右側周波数信号R0(k,n)のベクトルの余弦関数cosθ1が、180°となっており、第1の位相が逆位相になっていることを示しているが、算出部13は180°に対して所定の角度をマージンとして付与して逆位相と規定も良い。例えばマージンを±5°と設定して、175°〜185°の範囲を逆位相として擬似的に判定しても良い。この場合、例えば、右側周波数信号R0(k,n)の予測符号化を行う場合、予測符号化後の右側周波数信号R0(k,n)は次式で表現することができる。
(数18)

Figure 2014010335


Figure 2014010335

これは、符号帳に含まれる予測係数は、図2に示す様に、有限の個数である故に、図3(a)ないし図3(c)に示すベクトルの合成に用いる係数も限られている為である。換言すると、オーディオ符号化においては、上述の(数12)で算出される誤差よりも、(数18)で算出される誤差が小さくなる場合も想定され得る為である。なお、マージンの角度は、例えば、オーディオ符号化装置1が生成する右側周波数信号R0(k,n)と左側周波数信号L0(k,n)をベクトルで表現した場合において、当該ベクトルの平均的な大きさや方位と、符号帳に含まれる予測係数、ならびに誤差d(k)等をパラメータとしたシミュレーション等によって決定することが出来る。なお、左周波数信号L0(k,n)の予測符号化を行う場合や、第1の位相と第2の位相が同位相または逆位相の場合における中央チャネルの信号C0(k,n)の予測符号化を行う場合についても同様の方法で行うことが可能である為、詳細な説明は省略する。また、図3(c)に示すように、第1の位相が同位相の場合も同様にマージンを設定することが可能である。例えばマージンを±5°と設定して、−5°〜5°の範囲を同位相として擬似的に判定しても良い。その他の具体的な手法については上述の逆位相の場合と同様である為、詳細な説明は省略する。
さらに他の実施形態によれば、オーディオ符号化装置のチャネル信号符号化部は、ステレオ周波数信号を他の符号化方式に従って符号化してもよい。例えば、チャネル信号符号化部は、周波数信号全体をAAC符号化方式にしたがって符号化してもよい。この場合、図1に示されたオーディオ符号化装置1において、SBR符号化部は省略される。
また、符号化の対象となるマルチチャネルオーディオ信号は、5.1chオーディオ信号に限られない。例えば、符号化の対象となるオーディオ信号は、3ch、3.1chまたは7.1chなど、複数のチャネルを持つオーディオ信号であってもよい。この場合も、オーディオ符号化装置は、各チャネルのオーディオ信号を時間周波数変換することにより、各チャネルの周波数信号を算出する。そしてオーディオ符号化装置は、各チャネルの周波数信号をダウンミックスすることにより、元のオーディオ信号よりもチャネル数が少ない周波数信号を生成する。
上記の各実施形態におけるオーディオ符号化装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。
また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装させることが可能である。
(実施例4)
図11は、一つの実施形態によるオーディオ復号装置100の機能ブロックを示す図である。図11に示す様に、オーディオ符号化装置100は、分離部101、チャネル信号復号部102、空間情報復号部106、予測復号部107、マトリクス変換部108、アップミックス部111、周波数時間変換部112を含んでいる。また、チャネル信号復号部102は、AAC復号部103、時間周波数変換部104、SBR復号部105を含んでいる。マトリクス変換部108は、判定部109、変換部110を含んでいる。
オーディオ復号装置100が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ復号装置100が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ復号装置100に実装されてもよい。さらに、オーディオ復号装置100が有するこれらの各部は、オーディオ復号装置100が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
分離部101は、多重化された符号化オーディオ信号を外部から受け取る。分離部101は、符号化オーディオ信号に含まれる選択情報と、符号化された状態のAAC符号、SBR符号とMPS符号を分離する。なお、AAC符号、SBR符号をチャネル符号化信号と称し、MPS符号を符号化空間情報と称しても良い。なお、分離方法は、例えば、ISO/IEC14496−3に記載の方法を用いることが出来る。分離部101は、分離したMPS符号を空間情報復号部106へ、AAC符号をAAC復号部103へ、SBR復号部105へ、選択情報を判定部109へ出力する。
空間情報復号部106は、分離部101からMPS符号を受け取る。空間情報復号部106は、MPS符号から図4に示す類似度に対する量子化テーブルの一例を用いて類似度ICCi(k)を復号し、アップミックス部111に出力する。また、空間情報復号部106は、MPS符号から図6に示す強度差に対する量子化テーブルの一例を用いて強度差CLDj(k)を復号し、アップミックス部111に出力する。また、空間情報復号部106は、MPS符号化から図2に示す予測係数に対する量子化テーブルの一例を用いて予測係数を復号し、予測復号部107へ出力する。
AAC復号部103は、分離部101からAAC符号を受け取り、各チャネルの信号の低域成分をAAC復号方式に従って復号し、時間周波数変換部104へ出力する。なお、AAC復号方法は、例えば、ISO/IEC 13818−7に記載の方法を用いることが出来る。
時間周波数変換部104は、AAC復号部103で復号された時間信号である各チャネルの信号を、例えば、ISO/IEC14496−3記載のQMFフィルタバンクを用いて周波数信号へ変換し、SBR復号部105へ出力する。また、時間周波数変換部104は、次式に示す複素型のQMFフィルタバンクを用いて時間周波数変換しても良い。
(数19)

Figure 2014010335

ここでQMF(k,n)は、時間n、周波数kを変数とする複素型のQMFである。
SBR復号部105は、各チャネルの信号の高域成分をSBR復号方式に従って復号する。なお、SBR復号方法は、例えばISO/IEC14496−3に記載の方法を用いることが出来る。
チャネル信号復号部102は、AAC復号部103と、SBR復号部105で復号された各チャネルのステレオ周波数信号を予測復号部107へ出力する。
予測復号部107は、空間情報復号部106から受け取る予測係数と、チャネル信号復号部102から受け取るステレオ周波数信号から、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)と中央チャネル信号C0(k,n)とのうち予測符号化された何れかの信号の予測復号を行う。例えば、予測復号部107は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)のステレオ周波数信号と予測係数c1(k)、c2(k)から、中央チャネル信号C0(k,n)を予測復号する場合は、次式により予測復号することができる。
(数20)

Figure 2014010335

なお、予測復号部107は、空間情報復号部106から受け取る予測係数と、チャネル信号復号部102から受け取るステレオ周波数信号から予測復号のみを行えば良く、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)と中央チャネル信号C0(k,n)との何れについて予測復号を実施したかを認識する必要はない。これは、後述する判定部109が選択情報に基づいて認識することが出来る為である。
判定部109は、分離部101から受け取る選択情報に基づいて、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)と中央チャネル信号C0(k,n)とのうち、ステレオ周波数信号と予測復号された信号を判定した上で、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)と中央チャネル信号C0(k,n)とを、所定の配列で変換部110へ出力する。所定の配列は、例えば図11に示す様に、上から左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネル信号C0(k,n)となる配列である。
変換部110は、判定部から所定の配列で受け取った左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネル信号C0(k,n)について、次式に従いマトリクス変換を行う。
(数21)

Figure 2014010335

ここで、Lout(k,n)、Rout(k,n)、Cout(k,n)は、それぞれ、左チャネル、右チャネル及び中央チャネルの周波数信号である。マトリックス変換部108は、変換部110でマトリクス変換した、左チャネルの周波数信号Lout(k,n)、右チャネルの周波数信号Rout(k,n)及び、中央チャネルの周波数信号Cout(k,n)をアップミックス部111へ出力する。
アップミックス部111は、空間情報復号部106から受け取る空間情報と、マトリクス変換部108から受け取る左チャネルの周波数信号Lout(k,n)、右チャネルの周波数信号Rout(k,n)及び中央チャネルの周波数信号Cout(k,n)とから、例えば、5.1chのオーディオ信号へアップミックスする。なお、アップミックス方法は例えば、ISO/IEC23003―1に記載の方法を用いることが出来る。
周波数時間変換部112は、アップミックス部111から受け取る各信号を、次式に示すQMFフィルタバンクを用いて周波数信号から時間信号に変換する。
(数22)

Figure 2014010335
この様に、実施例4に開示するオーディオ復号装置においては、誤差を抑制させた予測符号化されたオーディオ信号を、正確に復号することが出来る。
(実施例5)
図12は、一つの実施形態によるオーディオ符号化復号システム1000の機能ブロックを示す図(その1)である。図13は、一つの実施形態によるオーディオ符号化復号システム1000の機能ブロックを示す図(その2)である。図12と図13に示す様に、オーディオ符号化復号システム1000は、時間周波数変換部11、第1ダウンミックス部12、算出部13、第2ダウンミックス部14、予測符号化部15、チャネル信号符号化部16、空間情報符号化部20、多重化部21を有する。また、チャネル信号符号化部16は、SBR符号化部17と、周波数時間変換部18と、AAC符号化部19を含んでいる。また、オーディオ符号化復号システム1000は、分離部101、チャネル信号復号部102、空間情報復号部106、予測復号部107、マトリクス変換部108、アップミックス部111、周波数時間変換部112と含んでいる。また、チャネル信号復号部102は、AAC復号部103、時間周波数変換部104、SBR復号部105を含んでいる。更に、マトリクス変換部108は、判定部109、変換部110を含んでいる。なお、オーディオ符号化復号システム1000が含む各機能は、図1ならびに図11に示す機能と同様となる為、詳細な説明は省略する。
また、上述の実施例において、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
ここに挙げられた全ての例及び特定の用語は、当業者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出する算出部と、
前記第1チャネル信号と前記第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかを、前記第1の位相に基づいて行う予測符号化部と、
を備えることを特徴とするオーディオ符号化装置。
(付記2)
前記予測符号化部は、前記第1の位相が同位相または逆位相以外の場合は、前記第1の予測符号化を行い、前記第1の位相が同位相または逆位相の場合は、前記第2の予測符号化を行うことを特徴とする付記1記載のオーディオ符号化装置。
(付記3)
前記予測符号化部は、前記第1の予測符号化または前記第2の予測符号化の何れかで予測符号化を行ったことを示す選択情報を生成することを特徴とする付記1または付記2記載のオーディオ符号化装置。
(付記4)
前記選択情報に基づいて前記第1チャネル信号と前記第2チャネル信号から第1のステレオ周波数信号または、
前記第1チャネル信号と前記第3チャネル信号から第2のステレオ周波数信号の何れかを生成するダウンミックス部を更に備えることを特徴とする付記1ないし付記3の何れか1つに記載のオーディオ符号化装置。
(付記5)
前記算出部は、前記第3チャネル信号と、前記第1チャネル信号または前記第2チャネル信号との位相を示す第2の位相を更に算出し、
前記予測符号化部は、前記第1の位相と前記第2の位相が同位相または逆位相の場合は、前記第1チャネル信号または前記第2チャネル信号の何れかを用いて、前記第3チャネル信号の予測符号化を行うことを特徴とする付記1ないし付記4の何れか1つに記載のオーディオ符号化装置。
(付記6)
前記予測符号化部は、前記第2の予測符号化を、前記第3チャネル信号を更に用いて前記第2チャネル信号を予測することを特徴とする付記1ないし付記5の何れか1つに記載のオーディオ符号化装置。
(付記7)
前記予測符号化部は、符号帳に含まれる複数の予測係数を用いて前記第1の予測符号化または前記第2の予測符号化を行うことを特徴とする付記1ないし付記5の何れか1つに記載のオーディオ符号化装置。
(付記8)
前記予測符号化部は、前記第2の予測符号化を行う場合、
予測符号化後の前記第2チャネル信号と、予測符号化前の前記第2チャネル信号との差分で規定される第1の誤差と、
前記第2チャネル信号を用いて前記第1チャネル信号を予測した予測符号後の前記第1チャネル信号と、予測符号化前の前記第1チャネル信号との差分で規定される第2の誤差と、を算出し、
前記第1の誤差と前記第2の誤差を比較し、前記第1の誤差よりも前記第2の誤差が小さい場合、前記第1チャネル信号を用いて前記第2チャネル信号を予測せずに、前記第2チャネル信号を用いて前記第1チャネル信号を予測することを特徴とする付記1ないし付記4の何れか1つに記載のオーディオ符号化装置。
(付記9)
前記選択情報を多重化する多重化部を更に備えることを特徴とする付記3に記載のオーディオ符号化装置。
(付記10)
オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出すること、
前記第1チャネル信号と前記第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかを、前記第1の位相に基づいて行うことを含むオーディオ符号化方法。
(付記11)
前記予測符号化することは、前記第1の位相が同位相または逆位相以外の場合は、前記第1の予測符号化を行い、前記第1の位相が同位相または逆位相の場合は、前記第2の予測符号化を行うことを特徴とする付記10記載のオーディオ符号化方法。
(付記12)
前記予測符号化することは、前記第1の予測符号化または前記第2の予測符号化の何れかで予測符号化を行ったことを示す選択情報を生成することを特徴とする付記10または付記11記載のオーディオ符号化方法。
(付記13)
前記選択情報に基づいて前記第1チャネル信号と前記第2チャネル信号から第1のステレオ周波数信号または、
前記第1チャネル信号と前記第3チャネル信号から第2のステレオ周波数信号の何れかを生成することを更に行うことを特徴とする付記10ないし付記12の何れか1つに記載のオーディオ符号化装置。
(付記14)
前記算出することは、前記第3チャネル信号と、前記第1チャネル信号または前記第2チャネル信号との位相を示す第2の位相を更に算出し、
前記予測符号化部することは、前記第1の位相と前記第2の位相が同位相または逆位相の場合は、前記第1チャネル信号または前記第2チャネル信号の何れかを用いて、前記第3チャネル信号の予測符号化を行うことを特徴とする付記10ないし付記13の何れか1つに記載のオーディオ符号化方法。
(付記15)
前記予測符号化することは、前記第2の予測符号化を、前記第3チャネル信号を更に用いて前記第2チャネル信号を予測することを特徴とする付記10ないし付記14の何れか1つに記載のオーディオ符号化方法。
(付記16)
前記予測符号化することは、前記第2の予測符号化を行う場合、
予測符号化後の前記第2チャネル信号と、予測符号化前の前記第2チャネル信号との差分で規定される第1の誤差と、
前記第2チャネル信号を用いて前記第1チャネル信号を予測した予測符号後の前記第1チャネル信号と、予測符号化前の前記第1チャネル信号との差分で規定される第2の誤差と、を算出し、
前記第1の誤差と前記第2の誤差を比較し、前記第1の誤差よりも前記第2の誤差が小さい場合、前記第1チャネル信号を用いて前記第2チャネル信号を予測せずに、前記第2チャネル信号を用いて前記第1チャネル信号を予測することを特徴とする付記10ないし付記15の何れか1つに記載のオーディオ符号化方法。
(付記17)
オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出すること、
前記第1チャネル信号と前記第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかを、前記第1の位相に基づいて行うことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
(付記18)
オーディオ信号の複数のチャネルに含まれるチャネル信号をダウンミックスした符号化チャネル信号と、
前記複数のチャネル間の強度差と類似度を含む符号化空間情報と、
前記複数のチャネルに含まれる第1チャネル信号と第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかで予測符号化が行われたことを示す選択情報と、
が多重化された入力信号を分離する分離部と、
復号処理された前記第1チャネル信号、前記第2チャネル信号ならびに前記第3チャネル信号を前記選択情報に基づいてマトリクス変換するマトリクス変換部と、
を備えることを特徴とするオーディオ復号装置。
(付記19)
前記符号化チャネル信号を復号し、ステレオ周波数信号を生成するチャネル復号部と、
前記符号化空間情報を復号し、空間情報を生成する空間情報復号部と、
前記ステレオ周波数信号と、前記空間情報に基づいて前記第1チャネル信号、前記第2チャネル信号または前記第3チャネル信号の何れかを予測復号する予測復号部と、
を更に備えることを特徴とする付記18記載のオーディオ復号装置。
(付記20)
オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出する算出部と、
前記第1チャネル信号と前記第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかを、前記第1の位相に基づいて行う予測符号化部と、
前記オーディオ信号の複数のチャネルに含まれるチャネル信号をダウンミックスした符号化チャネル信号と、
前記複数のチャネル間の強度差と類似度を含む符号化空間情報と、
前記複数のチャネルに含まれる第1チャネル信号と第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかで予測符号化が行われたことを示す選択情報と、
が多重化された入力信号を分離する分離部と、
前記符号化チャネル信号を復号し、ステレオ周波数信号を生成するチャネル復号部と、
前記符号化空間情報を復号し、空間情報を生成する空間情報復号部と、
前記ステレオ周波数信号と、前記空間情報に基づいて前記第1チャネル信号、前記第2チャネル信号または前記第3チャネル信号の何れかを予測復号する予測復号部と、
前記選択情報に基づいて前記第1チャネル信号、前記第2チャネル信号ならびに前記第3チャネル信号をマトリクス変換するマトリクス変換部と、
を備えることを特徴とするオーディオ符号化復号システム。
1 オーディオ符号化装置
11 時間周波数変換部
12 第1ダウンミックス部
13 算出部
14 第2ダウンミックス部
15 予測符号化部
16 チャネル信号符号化部
17 SBR符号化部
18 周波数時間変換部
19 AAC符号化部
20 空間情報符号化部
21 多重化部
100 オーディオ復号装置
101 分離部
102 チャネル信号復号部
103 AAC復号部
104 時間周波数変換部
105 SBR復号部
106 空間情報復号部
107 予測復号部
108 マトリクス変換部
109 判定部
110 変換部
111 アップミックス部
112 周波数時間変換部

Claims (9)

  1. オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出する算出部と、
    前記第1チャネル信号と前記第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
    前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかを、前記第1の位相に基づいて行う予測符号化部と、
    を備えることを特徴とするオーディオ符号化装置。
  2. 前記予測符号化部は、前記第1の位相が同位相または逆位相以外の場合は、前記第1の予測符号化を行い、前記第1の位相が同位相または逆位相の場合は、前記第2の予測符号化を行うことを特徴とする請求項1記載のオーディオ符号化装置。
  3. 前記予測符号化部は、前記第1の予測符号化または前記第2の予測符号化の何れかで予測符号化を行ったことを示す選択情報を生成することを特徴とする請求項1または請求項2記載のオーディオ符号化装置。
  4. 前記選択情報に基づいて前記第1チャネル信号と前記第2チャネル信号から第1のステレオ周波数信号または、
    前記第1チャネル信号と前記第3チャネル信号から第2のステレオ周波数信号の何れかを生成するダウンミックス部を更に備えることを特徴とする請求項1ないし請求項3の何れか1項に記載のオーディオ符号化装置。
  5. 前記予測符号化部は、前記第2の予測符号化を行う場合、
    予測符号化後の前記第2チャネル信号と、予測符号化前の前記第2チャネル信号との差分で規定される第1の誤差と、
    前記第2チャネル信号を用いて前記第1チャネル信号を予測した予測符号後の前記第1チャネル信号と、予測符号化前の前記第1チャネル信号との差分で規定される第2の誤差と、を算出し、
    前記第1の誤差と前記第2の誤差を比較し、前記第1の誤差よりも前記第2の誤差が小さい場合、前記第1チャネル信号を用いて前記第2チャネル信号を予測せずに、前記第2チャネル信号を用いて前記第1チャネル信号を予測することを特徴とする請求項1ないし請求項4の何れか1項に記載のオーディオ符号化装置。
  6. オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出すること、
    前記第1チャネル信号と前記第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
    前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかを、前記第1の位相に基づいて行うことを含むオーディオ符号化方法。
  7. オーディオ信号の複数のチャネルに含まれる第1チャネル信号と第2チャネル信号との位相を示す第1の位相を算出すること、
    前記第1チャネル信号と前記第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
    前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかを、前記第1の位相に基づいて行うことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
  8. オーディオ信号の複数のチャネルに含まれるチャネル信号をダウンミックスした符号化チャネル信号と、
    前記複数のチャネル間の強度差と類似度を含む符号化空間情報と、
    前記複数のチャネルに含まれる第1チャネル信号と第2チャネル信号とを用いて前記複数のチャネルに含まれる第3チャネル信号を予測する第1の予測符号化または、
    前記第1チャネル信号を用いて前記第2チャネル信号を予測する第2の予測符号化の何れかで予測符号化が行われたことを示す選択情報と、
    が多重化された入力信号を分離する分離部と、
    復号処理された前記第1チャネル信号、前記第2チャネル信号ならびに前記第3チャネル信号を前記選択情報に基づいてマトリクス変換するマトリクス変換部と、
    を備えることを特徴とするオーディオ復号装置。
  9. 前記符号化チャネル信号を復号し、ステレオ周波数信号を生成するチャネル復号部と、
    前記符号化空間情報を復号し、空間情報を生成する空間情報復号部と、
    前記ステレオ周波数信号と、前記空間情報に基づいて前記第1チャネル信号、前記第2チャネル信号または前記第3チャネル信号の何れかを予測復号する予測復号部と、
    を更に備えることを特徴とする請求項8記載のオーディオ復号装置。
JP2012147500A 2012-06-29 2012-06-29 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置 Expired - Fee Related JP6051621B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012147500A JP6051621B2 (ja) 2012-06-29 2012-06-29 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置
US13/916,848 US9299354B2 (en) 2012-06-29 2013-06-13 Audio encoding device and audio encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012147500A JP6051621B2 (ja) 2012-06-29 2012-06-29 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置

Publications (2)

Publication Number Publication Date
JP2014010335A true JP2014010335A (ja) 2014-01-20
JP6051621B2 JP6051621B2 (ja) 2016-12-27

Family

ID=49779010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012147500A Expired - Fee Related JP6051621B2 (ja) 2012-06-29 2012-06-29 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置

Country Status (2)

Country Link
US (1) US9299354B2 (ja)
JP (1) JP6051621B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10356407B2 (en) * 2015-11-20 2019-07-16 Facebook Technologies, Llc Display-side video decompression using quantization tables

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209588A (ja) * 2010-03-30 2011-10-20 Fujitsu Ltd ダウンミクス装置およびダウンミクス方法
JP2011527763A (ja) * 2008-07-11 2011-11-04 サムスン エレクトロニクス カンパニー リミテッド マルチチャネルの符号化及び復号化方法並びに装置
JP2012073351A (ja) * 2010-09-28 2012-04-12 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011527763A (ja) * 2008-07-11 2011-11-04 サムスン エレクトロニクス カンパニー リミテッド マルチチャネルの符号化及び復号化方法並びに装置
JP2011209588A (ja) * 2010-03-30 2011-10-20 Fujitsu Ltd ダウンミクス装置およびダウンミクス方法
JP2012073351A (ja) * 2010-09-28 2012-04-12 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Also Published As

Publication number Publication date
US9299354B2 (en) 2016-03-29
US20140006035A1 (en) 2014-01-02
JP6051621B2 (ja) 2016-12-27

Similar Documents

Publication Publication Date Title
JP4616349B2 (ja) ステレオ互換性のあるマルチチャネルオーディオ符号化
US8046214B2 (en) Low complexity decoder for complex transform coding of multi-channel sound
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
JP2009524108A (ja) 拡張帯域周波数コーディングによる複素変換チャネルコーディング
RU2696952C2 (ru) Аудиокодировщик и декодер
EP2396637A1 (en) Ambience coding and decoding for audio applications
JP5949270B2 (ja) オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
US20120163608A1 (en) Encoder, encoding method, and computer-readable recording medium storing encoding program
KR20170017873A (ko) 오디오 신호 처리 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
JP6179122B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP6094322B2 (ja) 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
JP6051621B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置
JP5799824B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP6303435B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用プログラム、オーディオ復号装置
JP5990954B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、オーディオ復号装置、オーディオ復号方法ならびにオーディオ復号用コンピュータプログラム
CN118016077A (zh) 包括编码hoa表示的位流的解码方法和装置、以及介质
JP6299202B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160329

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161114

R150 Certificate of patent or registration of utility model

Ref document number: 6051621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees