JP5533502B2 - オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム - Google Patents

オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム Download PDF

Info

Publication number
JP5533502B2
JP5533502B2 JP2010217263A JP2010217263A JP5533502B2 JP 5533502 B2 JP5533502 B2 JP 5533502B2 JP 2010217263 A JP2010217263 A JP 2010217263A JP 2010217263 A JP2010217263 A JP 2010217263A JP 5533502 B2 JP5533502 B2 JP 5533502B2
Authority
JP
Japan
Prior art keywords
channel
signal
frequency
frequency signal
spatial information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010217263A
Other languages
English (en)
Other versions
JP2012073351A (ja
Inventor
美由紀 白川
洋平 岸
政直 鈴木
義照 土永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010217263A priority Critical patent/JP5533502B2/ja
Priority to US13/176,932 priority patent/US20120078640A1/en
Publication of JP2012073351A publication Critical patent/JP2012073351A/ja
Application granted granted Critical
Publication of JP5533502B2 publication Critical patent/JP5533502B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Description

本発明は、例えば、オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムに関する。
従来より、3チャネル以上のチャネルを持つマルチチャネルオーディオ信号のデータ量を圧縮するためのオーディオ信号の符号化方式が開発されている。そのような符号化方式の一つとして、Moving Picture Experts Group (MPEG)により標準化されたMPEG Surround方式が知られている。MPEG Surround方式では、例えば、符号化対象となる5.1チャネル(5.1ch)のオーディオ信号が時間周波数変換され、その時間周波数変換により得られた周波数信号がダウンミックスされることにより、一旦3チャネルの周波数信号が生成される。さらに、その3チャネルの周波数信号が再度ダウンミックスされることにより2チャネルのステレオ信号に対応する周波数信号が算出される。そしてステレオ信号に対応する周波数信号は、Advanced Audio Coding(AAC)符号化方式及びSpectral Band Replication(SBR)符号化方式により符号化される。
その一方で、MPEG Surround方式では、5.1chの信号を3チャネルの信号へダウンミックスする際、及び3チャネルの信号を2チャネルの信号へダウンミックスする際、音の広がりまたは定位を表す空間情報が算出され、この空間情報が符号化される。このように、MPEG Surround方式では、マルチチャネルオーディオ信号をダウンミックスすることにより生成されたステレオ信号とデータ量の比較的少ない空間情報が符号化される。これにより、MPEG Surround方式では、マルチチャネルオーディオ信号に含まれる各チャネルの信号を独立に符号化するよりも高い圧縮効率が得られる。
MPEG Surround方式では、ステレオ周波数信号を生成する際に算出される空間情報を符号化するための方式として、エネルギーモード(energy-based mode)と予測モード(prediction mode)が採用されている。
エネルギーモードでは、空間情報は、周波数帯域ごとのチャネル間の電力比を表す2種類のパラメータとして算出される。一方、予測モードでは、空間情報は、周波数帯域ごとに3種類のパラメータにより表される。その3種類のパラメータのうちの二つは、3チャネル中の一つのチャネルの信号をその他の二つのチャネルの信号に基づいて予測するための予測係数である。残りの一つは、予測係数を用いて再生される音声の予測値である予測音と入力音の電力比である。
このように、エネルギーモードにおいて空間情報として算出されるパラメータの数は、予測モードにおいて空間情報として算出されるパラメータの数よりも少ないので、予測モードの圧縮効率よりもエネルギーモードの圧縮効率の方が高い。一方、予測モードはエネルギーモードよりも多くの情報を保持できるので、エネルギーモードで符号化されたオーディオ信号よりも予測モードで符号化されたオーディオ信号の方が再生音声の品質が高い。
そこで、符号化対象のオーディオ信号に応じて、このような2種類の符号化方式のうちの最適な方式が選択されることが好ましい。
一方、ステレオオーディオ信号の符号化方式に関して、符号化対象のオーディオ信号に基づいて、複数の符号化方式の中から適切な符号化方式を選択する技術が開発されている。このような技術では、選択可能な符号化方式には、例えば、チャネルの分離した符号化方式と、元のチャネル数よりも少ないチャネルの信号と信号分布を表す補助情報とを符号化する輝度−ステレオ符号化方式が含まれる(例えば、特許文献1を参照)。
このような公知技術の一例では、各チャネルの信号が周波数ドメインのスペクトル値に変換され、そのスペクトル値に基づいて精神音響計算によって決定される聴取閾値が計算される。そして聴取閾値を用いて選択または評価された実オーディオスペクトル成分に基づいて各チャネルの信号の類似度が算出される。類似度が所定の閾値を超えた場合、チャネルの分離した符号化方式が用いられ、一方、類似度が所定の閾値以下であれば、輝度−ステレオ符号化方式が用いられる。
特表平8−507424号公報
しかしながら、上記の公知技術が選択対象とする符号化方式は、エネルギーモード及び予測モードと異なっているため、上記の公知技術を用いても、必ずしもエネルギーモードと予測モードのうちで適切な符号化方式が選択されない。また、各チャネルの信号の類似度のみが符号化方式を選択するための指標として用いられると、必ずしも最適な符号化方式が選択されないおそれがあった。その結果、符号化データ量が十分に削減されなかったり、あるいは、符号化されたオーディオ信号を再生した場合の音質がリスナーに知覚可能なほど劣化してしまうおそれがあった。
そこで、本明細書は、再生されるオーディオ信号の音質の劣化を抑制しつつ、オーディオ信号の符号化データ量を削減可能なオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムを提供することを目的とする。
一つの実施形態によれば、オーディオ符号化装置が提供される。このオーディオ符号化装置は、複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより第3のチャネルの周波数信号を生成するとともに、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出する第1の空間情報算出部と、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより第3のチャネルの周波数信号を生成するとともに、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報よりも情報量が少ない第2の空間情報を算出する第2の空間情報算出部と、少なくとも一つの第1のチャネルの信号と少なくとも一つの第2のチャネルの信号の類似度を算出する類似度算出部と、少なくとも一つの第1のチャネルの信号と少なくとも一つの第2のチャネルの信号の位相差を算出する位相差算出部と、類似度及び位相差が所定の判定条件を満たす場合に第1の空間情報算出部に第1の空間情報を算出させ、一方、類似度及び位相差がその所定の判定条件を満たさない場合に第2の空間情報算出部に第2の空間情報を算出させる制御部と、第3のチャネルの周波数信号を符号化するチャネル信号符号化部と、第1の空間情報または第2の空間情報を符号化する空間情報符号化部とを有する。
また他の実施形態によれば、オーディオ符号化方法が提供される。このオーディオ符号化方法は、複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号を、それぞれ周波数信号に変換し、複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号の類似度を算出し、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号の位相差を算出し、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成し、類似度及び位相差が所定の判定条件を満たす場合に、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出し、一方、類似度及び位相差がその所定の判定条件を満たさない場合に、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報よりも情報量が少ない第2の空間情報を算出し、第3のチャネルの周波数信号を符号化し、第1の空間情報または第2の空間情報を符号化することを含む。
さらに他の実施形態によれば、コンピュータに入力された複数のチャネルを持つオーディオ信号を符号化させるオーディ符号化用コンピュータプログラムが提供される。このコンピュータプログラムは、複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号を、それぞれ周波数信号に変換し、複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号の類似度を算出し、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号の位相差を算出し、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成し、類似度及び位相差が所定の判定条件を満たす場合に、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出し、一方、類似度及び位相差がその所定の判定条件を満たさない場合に、少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報よりも情報量が少ない第2の空間情報を算出し、第3のチャネルの周波数信号を符号化し、第1の空間情報または第2の空間情報を符号化することをコンピュータに実行させる命令を有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示されたオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムは、再生されるオーディオ信号の音質の劣化を抑制しつつ、オーディオ信号の符号化データ量を削減することができる。
一つの実施形態によるオーディオ符号化装置の概略構成図である。 予測係数として利用可能な量子化予測係数を格納した量子化テーブルの一例を示す図である。 空間情報生成モード選択処理の動作フローチャートである。 類似度に対する量子化テーブルの一例を示す図である。 インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。 強度差に対する量子化テーブルの一例を示す図である。 予測係数に対する量子化テーブルの一例を示す図である。 符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。 オーディオ符号化処理の動作を示すフローチャートである。 (a)は、オリジナルのマルチチャネルオーディオ信号の中央チャネルの信号の一例を示す図である。(b)は、オリジナルのマルチチャネルオーディオ信号を符号化する際にエネルギーモードで空間情報を生成し、その空間情報を用いて復号された中央チャネルの再生信号の一例を示す図である。(c)は、本実施形態によるオーディオ符号化装置により符号化されたマルチチャネルオーディオ信号の中央チャネルの再生信号の一例を示す図である。 他の実施形態による空間情報生成モード選択処理の動作フローチャートである。 さらに他の実施形態によるオーディオ符号化装置の概略構成図である。 さらに他の実施形態による空間情報生成モード選択処理の動作フローチャートである。 何れかの実施形態によるオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。
以下、図を参照しつつ、様々な実施形態による、オーディオ符号化装置について説明する。
発明者は、鋭意研究の結果、特定の条件下で録音されたマルチチャネルオーディオ信号をMPEG Surround方式で符号化する際、空間情報をエネルギーモードで符号化すると、その符号化された信号の再生音質が著しく劣化することを突き止めた。特に、ダウンミックスされる二つのチャネル間で信号の類似度が高く、かつ、位相差が大きい場合、その符号化された信号の再生音質が著しく劣化する。このような条件は、例えば、オーケストラによる演奏またはコンサートの音声など、前方のチャネルに信号が集中するような音源から発した音が録音されたマルチチャネルオーディオ信号で生じ易い。
このような条件下で録音されたマルチチャネルオーディオ信号については、そのオーディオ信号に含まれる二つのチャネルの信号がダウンミックスされることにより、各チャネルの信号が互いに打ち消しあって、ダウンミックス後の信号の振幅が減衰するためである。そのため、空間情報の情報量が少ないエネルギーモードが使用されると、復号されたオーディオ信号において各チャネルの信号が正確に再現されず、各チャネルの元の信号の振幅よりも再生された各チャネルの信号の振幅が小さくなってしまう。
そこでこのオーディオ符号化装置は、二つのチャネル間の信号の類似度が高く、かつ位相差が大きい場合には、空間情報の情報量が相対的に多い予測モードを使用する。一方、その他の場合には、このオーディオ符号化装置は、空間情報の情報量が相対的に少ないエネルギーモードを使用する。
なお、本実施形態では、符号化対象となるマルチチャネルオーディオ信号は、5.1chオーディオ信号である。
図1は、一つの実施形態によるオーディオ符号化装置1の概略構成図である。図1に示すように、オーディオ符号化装置1は、時間周波数変換部11と、ダウンミックス部12と、第2ダウンミックス部13と、セレクタ14、15と、判定部16と、チャネル信号符号化部17と、空間情報符号化部18と、多重化部19とを有する。
オーディオ符号化装置1が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ符号化装置1が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置1に実装されてもよい。さらに、オーディオ符号化装置1が有するこれらの各部は、オーディオ符号化装置1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
時間周波数変換部11は、オーディオ符号化装置1に入力されたマルチチャネルオーディオ信号の時間領域の各チャネルの信号をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。
本実施形態では、時間周波数変換部11は、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、各チャネルの信号を周波数信号に変換する。
ここでnは時間を表す変数であり、1フレームのオーディオ信号を時間方向に128等分したときのn番目の時間を表す。なお、フレーム長は、例えば、10〜80msecの何れかとすることができる。またkは周波数帯域を表す変数であり、周波数信号が有する周波数帯域を64等分したときのk番目の周波数帯域を表す。またQMF(k,n)は、時間n、周波数kの周波数信号を出力するためのQMFである。時間周波数変換部11は、QMF(k,n)を入力されたチャネルの1フレーム分のオーディオ信号に乗じることにより、そのチャネルの周波数信号を生成する。
なお、時間周波数変換部11は、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、各チャネルの信号を、それぞれ、周波数信号に変換してもよい。
時間周波数変換部11は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号をダウンミックス部12へ出力する。
ダウンミックス部12は、各チャネルの周波数信号を受け取る度に、それら各チャネルの周波数信号をダウンミックスすることにより、左チャネル、中央チャネル及び右チャネルの周波数信号を生成する。例えば、ダウンミックス部12は、次式に従ってこれら3個のチャネルの周波数信号を算出する。
ここでLRe(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの実部を表し、LIm(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの虚部を表す。またSLRe(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの実部を表し、SLIm(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの虚部を表す。そしてLin(k,n)は、ダウンミックスにより生成される左チャネルの周波数信号である。なお、LinRe(k,n)は、左チャネルの周波数信号のうちの実部を表し、LinIm(k,n)は、左チャネルの周波数信号のうちの虚部を表す。
同様に、RRe(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの実部を表し、RIm(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの虚部を表す。またSRRe(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの実部を表し、SRIm(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの虚部を表す。そしてRin(k,n)は、ダウンミックスにより生成される右チャネルの周波数信号である。なお、RinRe(k,n)は、右チャネルの周波数信号のうちの実部を表し、RinIm(k,n)は、右チャネルの周波数信号のうちの虚部を表す。
さらに、CRe(k,n)は、中央チャネルの周波数信号C(k,n)のうちの実部を表し、CIm(k,n)は、中央チャネルの周波数信号C(k,n)のうちの虚部を表す。またLFERe(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの実部を表し、LFEIm(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの虚部を表す。そしてCin(k,n)は、ダウンミックスにより生成される中央チャネルの周波数信号である。なお、CinRe(k,n)は、中央チャネルの周波数信号Cin(k,n)のうちの実部を表し、CinIm(k,n)は、中央チャネルの周波数信号Cin(k,n)のうちの虚部を表す。
さらに、ダウンミックス部12は、ダウンミックスされる二つのチャネルの周波数信号間の空間情報として、音の定位を表す情報であるその周波数信号間の強度差と、音の広がりを表す情報であるその周波数信号間の類似度を周波数帯域ごとに算出する。ダウンミックス部12が算出するこれらの空間情報は、3チャネル空間情報の一例である。本実施形態では、ダウンミックス部12は、次式に従って左チャネルについての周波数帯域kの強度差CLDL(k)と類似度ICCL(k)を算出する。
ただしNは、1フレームに含まれる時間方向のサンプル点数であり、本実施形態では、Nは128である。またeL(k)は、左前方チャネルの周波数信号L(k,n)の自己相関値であり、eSL(k)は、左後方チャネルの周波数信号SL(k,n)の自己相関値である。またeLSL(k)は、左前方チャネルの周波数信号L(k,n)と左後方チャネルの周波数信号SL(k,n)との相互相関値である。
同様に、ダウンミックス部12は、次式に従って右チャネルについての周波数帯域kの強度差CLDR(k)と類似度ICCR(k)を算出する。
eR(k)は、右前方チャネルの周波数信号R(k,n)の自己相関値であり、eSR(k)は、右後方チャネルの周波数信号SR(k,n)の自己相関値である。またeRSR(k)は、右前方チャネルの周波数信号R(k,n)と右後方チャネルの周波数信号SR(k,n)との相互相関値である。
さらに、ダウンミックス部12は、次式に従って中央チャネルについての周波数帯域kの強度差CLDC(k)を算出する。
eC(k)は、中央チャネルの周波数信号C(k,n)の自己相関値であり、eLFE(k)は、重低音チャネルの周波数信号LFE(k,n)の自己相関値である。
ダウンミックス部12は、3チャネルの周波数信号を生成する度に、その3チャネルの周波数信号をセレクタ14及び判定部16へ出力し、一方、空間情報を空間情報符号化部18へ出力する。
第2ダウンミックス部13は、セレクタ14を介して受け取った左、右、中央の3チャネルの周波数信号のうちの二つの周波数信号をダウンミックスすることにより、2チャネルのステレオ周波数信号を生成する。さらに第2ダウンミックス部13は、ダウンミックスされる二つの周波数信号についての空間情報を、エネルギーモードまたは予測モードの何れか一方に従って生成する。そのために、第2ダウンミックス部13は、エネルギーモード合成部131と予測モード合成部132とを有する。なお、後述する判定部16が、エネルギーモード合成部131と予測モード合成部132のうち、使用される合成部を選択する。
エネルギーモード合成部131は、第2の空間情報算出部の一例である。エネルギーモード合成部131は、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号を生成する。またエネルギーモード合成部131は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号を生成する。
エネルギーモード合成部131は、例えば、次式に従ってステレオ周波数信号の左側周波数信号Le0(k,n)及び右側周波数信号Re0(k,n)を生成する。
ここで、Lin(k,n)、Rin(k,n)、Cin(k,n)は、それぞれ、ダウンミックス部12により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。なお、(2)式から明らかなように、Lin(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル及び左後方チャネルの周波数信号が合成されたものである。また、Cin(k,n)は、元のマルチチャネルオーディオ信号の中央チャネル及び重低音チャネルの周波数信号が合成されたものである。したがって、左側周波数信号Le0(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル、左後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。同様に、右側周波数信号Re0(k,n)は、元のマルチチャネルオーディオ信号の右前方チャネル、右後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。
さらに、エネルギーモード合成部131は、エネルギーモードにより、ダウンミックスされる二つのチャネルの周波数信号についての空間情報を算出する。具体的には、エネルギーモード合成部131は、空間情報として、周波数帯域ごとの中央チャネルに対する左右のチャネルの信号電力比CLD1(k)と、左右のチャネル間の信号電力比CLD2(k)とを次式に従って算出する。
ここで、eLin(k)は周波数帯域kにおける、左チャネルの周波数信号Lin(k,n)の自己相関値である。またeRin(k)は周波数帯域kにおける、右チャネルの周波数信号Rin(k,n)の自己相関値である。そしてeCin(k)は周波数帯域kにおける、中央チャネルの周波数信号Cin(k,n)の自己相関値である。
エネルギーモード合成部131は、ステレオ周波数信号Le0(k,n)、Re0(k,n)を、セレクタ15を介してチャネル信号符号化部17へ出力する。またエネルギーモード合成部131は、空間情報CLD1(k)、CLD2(k)を、セレクタ15を介して空間情報符号化部18へ出力する。
予測モード合成部132は、第1の空間情報算出部の一例である。予測モード合成部132は、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号を生成する。また予測モード合成部132は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号を生成する。
予測モード合成部132は、例えば、次式に従ってステレオ周波数信号の左側周波数信号Lp0(k,n)及び右側周波数信号Rp0(k,n)を生成する。さらに予測モード合成部132は、空間情報を生成するために利用される中央チャネルの信号Cp0(k,n)を次式に従って算出する。
ここで、Lin(k,n)、Rin(k,n)、Cin(k,n)は、それぞれ、ダウンミックス部12により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。エネルギーモード合成部131により生成されるステレオ周波数信号と同様に、左側周波数信号Lp0(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル、左後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。同様に、右側周波数信号Rp0(k,n)は、元のマルチチャネルオーディオ信号の右前方チャネル、右後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。
さらに、予測モード合成部132は、予測モードにより、ダウンミックスされる二つのチャネルの周波数信号についての空間情報を算出する。具体的には、予測モード合成部132は、空間情報として、周波数帯域ごとに、Cp0(k,n)と、Lp0(k,n)、Rp0(k,n)から次式に従って算出したCp0’(k,n)の誤差Error(k)が最も小さくなるような予測係数CPC1(k)、CPC2(k)を求める。
また、予測モード合成部132は、この予測係数CPC1(k)、CPC2(k)として、予め定められた複数の量子化予測係数の中から、誤差Error(k)が最小となるものを選択してもよい。
図2は、予測係数として利用可能な量子化予測係数を格納した量子化テーブルの一例を示す図である。図2に示されるように、量子化テーブル200では、二つの行が一組となって予測係数が表されている。左端の列に"idx"と示された行の各欄の数値は、インデックスを表す。また左端の列に"CPC[idx]"と示された行の各欄の数値は、一つ上のインデックスに対応する予測係数を表す。例えば、欄201には、インデックスとして'-20'が格納されている。そして欄202には、インデックス値'-20'に対応する予測係数'-2.0'が格納されている。
予測モード合成部132は、空間情報として、さらに、周波数帯域ごとに、予測モード合成部132への入力音に対する予測音の電力比(類似度)ICC0(k)を次式に従って算出する。
ここで、Lin(k,n)、Rin(k,n)、Cin(k,n)は、それぞれ、ダウンミックス部12により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。また、eLin(k)、eRin(k)、eCin(k)は、それぞれ、周波数帯域kにおける、左チャネル、右チャネル、中央チャネルの周波数信号の自己相関値である。l(k,n)、r(k,n)、c(k,n)は、それぞれ、予測係数CPC1(k)、CPC2(k)及びステレオ周波数信号Lp0(k,n)、Rp0(k,n)を用いて算出される、周波数帯域kにおける、左チャネル、右チャネル、中央チャネルの推定復号信号である。そしてel(k)、er(k)、ec(k)は、それぞれ、周波数帯域kにおける、l(k,n)、r(k,n)、c(k,n)の自己相関値である。
予測モード合成部132は、ステレオ周波数信号Lp0(k,n)、Rp0(k,n)を、セレクタ15を介してチャネル信号符号化部17へ出力する。また予測モード合成部132は、空間情報CPC1(k)、CPC2(k)、ICC0(k)を、セレクタ15を介して空間情報符号化部18へ出力する。
セレクタ14は、判定部16からの制御信号に応じて、ダウンミックス部12から出力された3チャネルの周波数信号を第2ダウンミックス部13のエネルギーモード合成部131または予測モード合成部132の何れかへ渡す。
またセレクタ15は、判定部16からの制御信号に応じて、エネルギーモード合成部131または予測モード合成部132の何れかから出力されたステレオ周波数信号をチャネル信号符号化部17へ渡す。またセレクタ15は、判定部16からの制御信号に応じて、エネルギーモード合成部131または予測モード合成部132の何れかから出力された空間情報を空間情報符号化部18へ渡す。
判定部16は、第2ダウンミックス部13にて使用される空間情報生成モードを、予測モードとエネルギーモードの中から選択する。
上記のように、ダウンミックスされる二つのチャネルの信号の類似度が高く、かつ位相差が大きい場合に、その二つのチャネルの信号が互いに打ち消しあう可能性がある。そこで、判定部16は、ダウンミックス部12から受け取った3チャネルの周波数信号に基づいて、第2ダウンミックス部13によりダウンミックスされる二つの信号間の類似度と位相差を求める。そして判定部16は、その類似度と位相差がダウンミックスにより生成されるステレオ周波数信号の振幅が減衰する判定条件を満たすか否かに応じて、予測モードかエネルギーモードの何れかを選択する。そのために、判定部16は、類似度算出部161と、位相差算出部162と、制御信号生成部163とを有する。
図3は、判定部16により実行される、空間情報生成モード選択処理の動作フローチャートである。なお、判定部16は、空間情報生成モード選択処理をフレームごとに実施する。本実施形態では、第2ダウンミックス部13は、左チャネルと中央チャネルの周波数信号をダウンミックスし、かつ右チャネルと中央チャネルの周波数信号をダウンミックスすることでステレオ周波数信号を生成する。そこで判定部16の類似度算出部161は、次式に従って、左チャネルの周波数信号と中央チャネルの周波数信号間の類似度α1と、右チャネルの周波数信号と中央チャネルの周波数信号間の類似度α2とを算出する(ステップS101)。
ただしNは、1フレームに含まれる時間方向のサンプル点数であり、本実施形態では、Nは128である。またKは、周波数帯域の総数であり、本実施形態では、Kは64である。またeLは、左チャネルの周波数信号Lin(k,n)の自己相関値であり、eRは、右チャネルの周波数信号Rin(k,n)の自己相関値である。さらにeCは、中央チャネルの周波数信号Cin(k,n)の自己相関値である。またeLCは、左チャネルの周波数信号Lin(k,n)と中央チャネルの周波数信号Cin(k,n)との相互相関値である。さらに、eRCは、右チャネルの周波数信号Rin(k,n)と中央チャネルの周波数信号Cin(k,n)との相互相関値である。
類似度算出部161は、類似度α1及びα2を制御信号生成部163へ出力する。
また判定部16の位相差算出部162は、次式に従って、左チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ1と、右チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ2とを算出する(ステップS102)。
ここでRe(eLC)は、相互相関値eLCの実部を表し、Im(eLC)は、相互相関値eLCの虚部を表す。またRe(eRC)は、相互相関値eRCの実部を表し、Im(eRC)は、相互相関値eRCの虚部を表す。
位相差算出部162は、位相差θ1及びθ2を制御信号生成部163へ出力する。
判定部16の制御信号生成部163は、制御部の一例であり、類似度α1及び位相差θ1が左側のステレオ周波数信号が減衰する判定条件を満たすか否か判定する。具体的には、制御信号生成部163は、左チャネルと中央チャネル間の周波数信号の類似度α1が所定の類似度閾値Thaより大きく、かつその二つのチャネル間の周波数信号の位相差θ1が所定の位相差範囲(Thb1〜Thb2)内か否か判定する(ステップS103)。類似度α1が類似度閾値Thaより大きく、かつ位相差θ1が所定の位相差範囲内であれば(ステップS103−Yes)、判定条件は満たされ、左チャネルと中央チャネル間の周波数信号は互いに打ち消す可能性が高い。そこで制御信号生成部163は、第2ダウンミックス部13が予測モードを用いるようセレクタ14、15への制御信号を作成する(ステップS105)。
なお、類似度閾値Thaは、例えば、エネルギーモードで生成された空間情報を用いてオーディオ信号が符号化され、かつ再生された場合において、リスナーがその再生されたオーディオ信号の音質の劣化に気付かない類似度の最大値、例えば0.7に設定される。また所定の位相差範囲は、例えば、エネルギーモードで生成された空間情報を用いてオーディオ信号が符号化され、かつ再生された場合において、リスナーがその再生されたオーディオ信号の音質の劣化に気付く位相差の最大範囲となるように設定される。例えば、下限Thb1は0.89πに設定され、上限Thb2は1.11πに設定される。
一方、類似度α1が類似度閾値Tha以下であるか、または位相差θ1が所定の位相差範囲外であれば(ステップS103−No)、判定条件は満たされず、左チャネルと中央チャネル間の周波数信号はダウンミックスされても互いに打ち消す可能性は低い。
この場合、制御信号生成部163は、類似度α2及び位相差θ2が右側のステレオ周波数信号が減衰する判定条件を満たすか否か判定する。具体的には、制御信号生成部163は、右チャネルと中央チャネル間の周波数信号の類似度α2が所定の類似度閾値Thaより大きく、かつその二つのチャネル間の周波数信号の位相差θ2が所定の位相差範囲(Thb1〜Thb2)内か否か判定する(ステップS104)。類似度α2が所定の類似度閾値Thaより大きく、かつ位相差θ2が所定の位相差範囲内であれば(ステップS104−Yes)、判定条件は満たされ、右チャネルと中央チャネル間の周波数信号は互いに打ち消す可能性が高い。そこで制御信号生成部163は、第2ダウンミックス部13が予測モードを用いるようセレクタ14、15への制御信号を作成する(ステップS105)。
一方、類似度α2が類似度閾値Tha以下であるか、または位相差θ2が所定の位相差範囲外であれば(ステップS104−No)、判定条件は満たされず、右チャネルと中央チャネル間の周波数信号はダウンミックスされても互いに打ち消す可能性は低い。
そこで制御信号生成部163は、第2ダウンミックス部13がエネルギーモードを用いるようセレクタ14、15への制御信号を作成する(ステップS106)。
ステップS105またはS106の後、制御信号生成部163は、制御信号をセレクタ14及び15へ出力し、その後、判定部16は空間情報生成モード選択処理を終了する。
このように、判定部16は、ダウンミックスにより生成されるステレオ周波数信号の左側のチャネル及び右側のチャネルの何れか一方でも信号が減衰する可能性があれば、第2ダウンミックス部13に予測モードで空間情報を生成させる。
なお、判定部16は、ステップS101の処理とステップS102の処理を並列に実行してもよく、あるいは、ステップS101の処理とステップS102の処理の順序を入れ替えてもよい。また判定部16は、ステップS103の処理とステップS104の処理の順序を入れ替えてもよい。
チャネル信号符号化部17は、第2ダウンミックス部13から出力され、セレクタ15を介して受け取ったステレオ周波数信号を符号化する。そのために、チャネル信号符号化部17は、SBR符号化部171と、周波数時間変換部172と、AAC符号化部173とを有する。
SBR符号化部171は、ステレオ周波数信号を受け取る度に、チャネルごとに、ステレオ周波数信号のうち、高周波数帯域に含まれる成分である高域成分を、SBR符号化方式にしたがって符号化する。これにより、SBR符号化部171は、SBR符号を生成する。
例えば、SBR符号化部171は、特開2008−224902号公報に開示されているように、SBR符号化の対象となる高域成分と強い相関のある各チャネルの周波数信号の低域成分を複製する。なお、低域成分は、SBR符号化部171が符号化対象とする高域成分が含まれる高周波数帯域よりも低い低周波数帯域に含まれる各チャネルの周波数信号の成分であり、後述するAAC符号化部173により符号化される。そしてSBR符号化部171は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。またSBR符号化部171は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そしてSBR符号化部171は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。
SBR符号化部171は、上記の符号化された情報であるSBR符号を多重化部19へ出力する。
周波数時間変換部172は、ステレオ周波数信号を受け取る度に、各チャネルのステレオ周波数信号を時間領域のステレオ信号に変換する。例えば、時間周波数変換部11がQMFフィルタバンクを用いる場合、周波数時間変換部172は、次式に示す複素型のQMFフィルタバンクを用いて各チャネルのステレオ周波数信号を周波数時間変換する。
ここでIQMF(k,n)は、時間n、周波数kを変数とする複素型のQMFである。
なお、時間周波数変換部11が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いている場合、周波数時間変換部172は、その時間周波数変換処理の逆変換を使用する。
周波数時間変換部172は、各チャネルの周波数信号を周波数時間変換することにより得られた各チャネルのステレオ信号をAAC符号化部173へ出力する。
AAC符号化部173は、各チャネルのステレオ信号を受け取る度に、各チャネルの信号の低域成分をAAC符号化方式にしたがって符号化することにより、AAC符号を生成する。そこで、AAC符号化部173は、例えば、特開2007−183528号公報に開示されている技術を利用できる。具体的には、AAC符号化部173は、受け取った各チャネルのステレオ信号を離散コサイン変換することにより、再度ステレオ周波数信号を生成する。そしてAAC符号化部173は、再生成したステレオ周波数信号から心理聴覚エントロピー(Perceptual Entropy、PE)を算出する。PEは、リスナーが雑音を知覚することがないようにそのブロックを量子化するために必要な情報量を表す。そしてこのPEは、打楽器が発する音のようなアタック音など、信号レベルが短時間で変化する音に対して大きな値となる特性を持つ。そこで、AAC符号化部173は、PEの値が比較的大きくなるフレームに対しては、窓を短くし、PEの値が比較的小さくなるブロックに対しては、窓を長くする。例えば、短い窓は、256個のサンプルを含み、長い窓は、2048個のサンプルを含む。AAC符号化部173は、決定された長さを持つ窓を用いて各チャネルのステレオ信号に対して修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)を実行することにより、各チャネルのステレオ信号をMDCT係数の組に変換する。
そしてAAC符号化部173は、MDCT係数の組を量子化し、その量子化されたMDCT係数の組を可変長符号化する。
AAC符号化部173は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、AAC符号として多重化部19へ出力する。
空間情報符号化部18は、ダウンミックス部12及び第2ダウンミックス部13から受け取った空間情報を符号化することによりMPEG Surround符号(以下、MPS符号と呼ぶ)を生成する。
空間情報符号化部18は、空間情報中の類似度の値とインデックス値の対応を示した量子化テーブルを参照する。そして空間情報符号化部18は、量子化テーブルを参照することにより、各周波数帯域についてそれぞれの類似度ICCi(k)(i=L,R,0)と最も値が近いインデックス値を決定する。なお、量子化テーブルは、予め、空間情報符号化部18が有するメモリに格納される。
図4は、類似度に対する量子化テーブルの一例を示す図である。図4に示す量子化テーブル400において、上側の行410の各欄はインデックス値を表し、下側の行420の各欄は、同じ列のインデックス値に対応する類似度の代表値を表す。また、類似度が取りうる値の範囲は-0.99〜+1である。例えば、周波数帯域kに対する類似度が0.6である場合、量子化テーブル400では、インデックス値3に対応する類似度の代表値が、周波数帯域kに対する類似度に最も近い。そこで、空間情報符号化部18は、周波数帯域kに対するインデックス値を3に設定する。
次に、空間情報符号化部18は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が3であり、周波数帯域(k-1)に対するインデックス値が0であれば、空間情報符号化部18は、周波数帯域kに対するインデックスの差分値を3とする。
空間情報符号化部18は、インデックス値の差分値と類似度符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部18は、符号化テーブルを参照することにより、類似度ICCi(k)(i=L,R,0)の各周波数についてインデックス間の差分値に対する類似度符号idxicci(k)(i=L,R,0)を決定する。なお、符号化テーブルは、予め、空間情報符号化部18が有するメモリに格納される。また、類似度符号は、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
図5は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。この例では、類似度符号はハフマン符号である。図5に示す符号化テーブル500において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数帯域kの類似度ICCL(k)に対するインデックスの差分値が3である場合、空間情報符号化部18は、符号化テーブル500を参照することにより、周波数帯域kの類似度ICCL(k)に対する類似度符号idxiccL(k)を"111110"に設定する。
空間情報符号化部18は、強度差の値とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部18は、量子化テーブルを参照することにより、各周波数についての強度差CLDj(k)(j=L,R,C,1,2)と最も値が近いインデックス値を決定する。空間情報符号化部18は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、空間情報符号化部18は、周波数帯域kに対するインデックスの差分値を-2とする。
空間情報符号化部18は、インデックス間の差分値と強度差符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部18は、符号化テーブルを参照することにより、強度差CLDj(k)の各周波数帯域kの差分値に対する強度差符号idxcldj(k)(j=L,R,C,1,2)を決定する。なお、idxcld1(k)及びidxcld2(k)は、エネルギーモードでステレオ周波数信号に対する空間情報が生成されている場合にのみ求められる。強度差符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
なお、量子化テーブル及び符号化テーブルは、予め、空間情報符号化部18が有するメモリに格納される。
図6は、強度差に対する量子化テーブルの一例を示す図である。図6に示す量子化テーブル600において、行610、630及び650の各欄はインデックス値を表し、行620、640及び660の各欄は、それぞれ、同じ列の行610、630及び650の各欄に示されたインデックス値に対応する強度差の代表値を表す。
例えば、周波数帯域kに対する強度差CLDL(k)が10.8dBである場合、量子化テーブル600では、インデックス値5に対応する強度差の代表値がCLDL(k)に最も近い。そこで、空間情報符号化部18は、CLDL(k)に対するインデックス値を5に設定する。
さらに、空間情報符号化部18は、予測モードでステレオ周波数信号が生成されている場合、予測係数CPC1(k)、CPC2(k)とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部18は、量子化テーブルを参照することにより、各周波数帯域についての予測係数CPC1(k)、CPC2(k)と最も値が近いインデックス値を決定する。空間情報符号化部18は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、空間情報符号化部18は、周波数帯域kに対するインデックスの差分値を-2とする。
空間情報符号化部18は、インデックス間の差分値と予測係数符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部18は、符号化テーブルを参照することにより、予測係数CPCm(k)(m=1,2)の各周波数帯域kの差分値に対する予測係数符号idxcpcm(k)(m=1,2)を決定する。予測係数符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
なお、量子化テーブル及び符号化テーブルは、予め、空間情報符号化部18が有するメモリに格納される。
図7は、予測係数に対する量子化テーブルの一例を示す図である。図7に示す量子化テーブル700において、行710、720、730、740及び750の各欄はインデックス値を表す。一方、行715、725、735、745及び755の各欄は、それぞれ、同じ列の行710、720、730、740及び750の各欄に示されたインデックス値に対応する予測係数の代表値を表す。
例えば、周波数帯域kに対する予測係数CPC1(k)が1.21である場合、量子化テーブル700では、インデックス値12に対応する予測係数の代表値がCPC1(k)に最も近い。そこで、空間情報符号化部18は、CPC1(k)に対するインデックス値を12に設定する。
空間情報符号化部18は、類似度符号idxicci(k)、強度差符号idxcldj(k)及び予測係数符号idxcpcm(k)を用いてMPS符号を生成する。例えば、空間情報符号化部18は、類似度符号idxicci(k)、強度差符号idxcldj(k)及び予測係数符号idxcpcm(k)を所定の順序に従って配列することにより、MPS符号を生成する。この所定の順序については、例えば、ISO/IEC 23003-1:2007に記述されている。
空間情報符号化部18は、生成したMPS符号を多重化部19へ出力する。
多重化部19は、AAC符号、SBR符号及びMPS符号を所定の順序に従って配列することにより多重化する。そして多重化部19は、その多重化により生成された符号化オーディオ信号を出力する。
図8は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。この例では、符号化されたオーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。
図8に示される符号化データ列800において、データブロック810にAAC符号は格納される。またADTS形式のFILLエレメントが格納されるブロック820の一部領域にSBR符号及びMPS符号が格納される。
図9は、オーディオ符号化処理の動作フローチャートを示す。なお、図9に示されたフローチャートは、1フレーム分のマルチチャネルオーディオ信号に対する処理を表す。オーディオ符号化装置1は、マルチチャネルオーディオ信号を受信し続けている間、フレームごとに図9に示されたオーディオ符号化処理の手順を繰り返し実行する。
時間周波数変換部11は、各チャネルの信号を周波数信号に変換する(ステップS201)。時間周波数変換部11は、各チャネルの周波数信号をダウンミックス部12へ出力する。
次に、ダウンミックス部12は、各チャネルの周波数信号をダウンミックスすることにより右、左、中央の3チャネルの周波数信号を生成する。さらにダウンミックス部12は、右、左、中央の各チャネルの空間情報を算出する(ステップS202)。ダウンミックス部12は、3チャネルの周波数信号をセレクタ14及び判定部16へ出力する。またダウンミックス部12は、空間情報を空間情報符号化部18へ出力する。
判定部16は、右、左、中央の各チャネル間の信号の類似度及び位相差に基づいて、空間情報生成モード選択処理を実行する(ステップS203)。なお、判定部16は、例えば、図3に示された動作フローに従って空間情報生成モード選択処理を実行する。そして判定部16は、選択した空間情報生成モードに応じた制御信号をセレクタ14及び15へ出力する。
セレクタ14及び15は、選択されたモードが予測モードか否かによって、エネルギーモード合成部131及び予測モード合成部132の何れか一方を、ダウンミックス部12、チャネル信号符号化部17及び空間情報符号化部18と接続する(ステップS204)。選択されたモードが予測モードであれば(ステップS204−Yes)、セレクタ14は、ダウンミックス部12から受け取った3チャネルの周波数信号を第2ダウンミックス部13の予測モード合成部132へ出力する。
そして予測モード合成部132は、3チャネルの周波数信号をダウンミックスすることによりステレオ周波数信号を生成する。また予測モード合成部132は、予測モードに従って空間情報を算出する(ステップS205)。そして予測モード合成部132は、セレクタ15を介して、ステレオ周波数信号をチャネル信号符号化部17へ出力する。また予測モード合成部132は、セレクタ15を介して、空間情報を空間情報符号化部18へ出力する。
一方、選択されたモードがエネルギーモードであれば(ステップS204−No)、セレクタ14は、ダウンミックス部12から受け取った3チャネルの周波数信号を第2ダウンミックス部13のエネルギーモード合成部131へ出力する。
そしてエネルギーモード合成部131は、3チャネルの周波数信号をダウンミックスすることによりステレオ周波数信号を生成する。またエネルギーモード合成部131は、エネルギーモードに従って空間情報を算出する(ステップS206)。そしてエネルギーモード合成部131は、セレクタ15を介して、ステレオ周波数信号をチャネル信号符号化部17へ出力する。またエネルギーモード合成部131は、セレクタ15を介して、空間情報を空間情報符号化部18へ出力する。
ステップS205またはS206の後、チャネル信号符号化部17は、受け取った各チャネルのステレオ周波数信号のうち、高域成分をSBR符号化する。またチャネル信号符号化部17は、受け取った各チャネルのステレオ周波数信号のうち、SBR符号化されない低域成分をAAC符号化する(ステップS207)。
そしてチャネル信号符号化部17は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報などのSBR符号と、AAC符号を多重化部19へ出力する。
また、空間情報符号化部18は、受け取った空間情報を符号化することによりMPS符号を生成する(ステップS208)。そして空間情報符号化部18は、MPS符号を多重化部19へ出力する。
最後に、多重化部19は、生成されたSBR符号、AAC符号及びMPS符号を多重化することにより、符号化されたオーディオ信号を生成する(ステップS209)。
多重化部19は、符号化されたオーディオ信号を出力する。そしてオーディオ符号化装置1は、符号化処理を終了する。
なお、オーディオ符号化装置1は、ステップS207の処理とステップS208の処理を並列に実行してもよい。あるいは、オーディオ符号化装置1は、ステップS207の処理を行う前にステップS208の処理を実行してもよい。
図10(a)は、コンサートの音を録音したオリジナルのマルチチャネルオーディオ信号の中央チャネルの信号の一例を示す図である。また図10(b)は、オリジナルのマルチチャネルオーディオ信号を符号化する際にエネルギーモードで空間情報を生成し、その空間情報を用いて復号された中央チャネルの再生信号の一例を示す図である。そして図10(c)は、本実施形態に係るオーディオ符号化装置1により符号化されたマルチチャネルオーディオ信号の中央チャネルの再生信号の一例を示す図である。
図10(a)〜図10(c)において、横軸は時間を表し、縦軸は周波数を表す。そして輝線は中央チャネルの信号を表し、輝線の輝度が高いほど、強度が高いことを表す。
図10(a)では、周波数帯域1010及び1020において、ある程度の強度を持つ信号が断続的に観察される。しかし、図10(b)では、周波数帯域1010及び1020における信号強度が、オリジナルの中央チャネルの信号の強度よりも明らかに低下している。そのため、この場合の再生音は、いわゆる「こもり音」となってしまい、リスナーが気付くほど、再生音の品質は、オリジナルの音声の品質よりも低下している。
これに対し、図10(c)では、周波数帯域1010及び1020においても、オリジナルの信号の強度と近い強度を持つ信号が観察される。そのため、この場合の再生音の品質は、図10(b)に示された信号による再生音の品質よりも良い。このように、オーディオ符号化装置1により符号化されたマルチチャネルオーディオ信号を復号することにより、オリジナルのマルチチャネルオーディオ信号を良好に再現できることが分かる。
表1に、図10(a)に示されたマルチチャネルオーディオ信号に対する空間情報についての符号化ビットレートを示す。
表1において、左端の列は、ステレオ周波数信号を生成する際の空間情報の生成に利用される空間情報生成モードを表す。そして各行には、その行の左端に示した空間情報生成モードでマルチチャネルオーディオ信号が符号化された場合における、空間情報の符号化ビットレートが示される。なお、最下行に示した"エネルギーモード/予測モード"は、オーディオ符号化装置1により符号化されたことを示す。表1にされるように、オーディオ符号化装置1による符号化ビットレートは、エネルギーモードのみが用いられた場合の符号化ビットレートよりも大きいものの、予測モードのみが用いられた場合の符号化ビットレートよりも小さくできることが分かる。
以上に説明してきたように、このオーディオ符号化装置は、3チャネルの周波数信号からステレオ周波数信号を生成する際に、ダウンミックスされる二つの周波数信号間の類似度と位相差に応じて、空間情報の生成モードを選択する。そのため、このオーディオ符号化装置は、ダウンミックスによる信号の減衰が生じる特定の条件下で録音されたマルチチャネルオーディオ信号に対してのみ、予測モードを用い、その他の場合には、予測モードよりも圧縮効率が高いエネルギーモードを利用できる。このように、このオーディオ符号化装置は、空間情報生成モードを適切に選択できるので、再生されるマルチチャネルオーディオ信号の音質劣化を抑制しつつ、マルチチャネルオーディオ信号の符号化データ量を削減することができる。
なお、本発明は上記の実施形態に限定されるものではない。他の実施形態によれば、判定部の類似度算出部は、位相差算出部にて算出された位相差θ1及びθ2を用いて左チャネルの周波数信号Lin(k,n)及び右チャネルの周波数信号Rin(k,n)の位相を中央チャネルの周波数信号Cin(k,n)と一致するように補正してもよい。そして類似度算出部は、位相が補正された左チャネルの周波数信号L'in(k,n)と右チャネルの周波数信号R'in(k,n)を用いて類似度α1及びα2を算出する。
この場合、類似度算出部は、上記の(13)式において、Lin(k,n)、Rin(k,n)の代わりに次式に従って算出される、位相補正された左チャネルの周波数信号L'in(k,n)と右チャネルの周波数信号R'in(k,n)を入力することにより類似度α1及びα2を算出する。
またこの実施形態では、図3に示された空間情報生成モード選択処理の動作フローにおいて、位相差を算出するステップS102の処理が類似度を算出するステップS101の処理よりも先に実行される。
類似度算出部は、このように位相補正された左チャネル及び右チャネルの周波数信号を用いることにより、中央チャネルと左チャネルまたは右チャネル間の位相のずれによる周波数信号の相違を打ち消せるので、より正確に類似度を算出することができる。
さらに他の実施形態によれば、判定部の類似度算出部は、周波数帯域ごとに、左チャネルまたは右チャネルと中央チャネル間の周波数信号の類似度を算出してもよい。同様に、判定部の位相差算出部は、周波数帯域ごとに、左チャネルまたは右チャネルと中央チャネル間の周波数信号の位相差を算出してもよい。この場合、判定部の制御信号生成部は、周波数帯域ごとに、類似度及び位相差がダウンミックスにより生成されるステレオ周波数信号が減衰する判定条件を満たすか否か判定する。そして何れか一つの周波数帯域において、類似度及び位相差がその判定条件を満たす場合、制御信号生成部は、第2ダウンミックス部に対して予測モードで空間情報を生成させるよう、制御信号を生成する。一方、全ての周波数帯域において、その判定条件が満たされない場合、制御信号生成部は、第2ダウンミックス部に対してエネルギーモードで空間情報を生成させるよう、制御信号を生成する。
この場合、類似度算出部は、例えば、次式に従って、周波数帯域ごとの左チャネルと中央チャネル間の周波数信号の類似度α1(k)及び右チャネルと中央チャネル間の周波数信号の類似度α2(k)を算出する。
eL(k)、eR(k)、eR(k)は、それぞれ、周波数帯域kにおける、左チャネルの周波数信号Lin(k,n)の自己相関値、右チャネルの周波数信号Rin(k,n)の自己相関値及び中央チャネルの周波数信号Cin(k,n)の自己相関値である。またeLC(k)は、周波数帯域kにおける、左チャネルの周波数信号Lin(k,n)と中央チャネルの周波数信号Cin(k,n)との相互相関値である。さらに、eRC(k)は、周波数帯域kにおける、右チャネルの周波数信号Rin(k,n)と中央チャネルの周波数信号Cin(k,n)との相互相関値である。
また位相差算出部162は、次式に従って、周波数帯域ごとの左チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ1(k)と、右チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ2(k)とを算出する。
ここでRe(eLC(k))は、相互相関値eLC(k)の実部を表し、Im(eLC(k))は、相互相関値eLC(k)の虚部を表す。またRe(eRC(k))は、相互相関値eRC(k)の実部を表し、Im(eRC(k))は、相互相関値eRC(k)の虚部を表す。
図11は、この実施形態による、空間情報生成モード選択処理の動作フローチャートである。類似度算出部は、周波数帯域ごとに、左チャネルの周波数信号と中央チャネルの周波数信号間の類似度α1(k)と、右チャネルの周波数信号と中央チャネルの周波数信号間の類似度α2(k)とを算出する(ステップS301)。類似度算出部は、類似度α1(k)及びα2(k)を制御信号生成部163へ出力する。
また位相差算出部は、周波数帯域ごとに、左チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ1(k)と、右チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ2(k)とを算出する(ステップS302)。位相差算出部は、位相差θ1(k)及びθ2(k)を制御信号生成部へ出力する。
制御信号生成部は、所定の周波数範囲内の最小の周波数帯域を注目する周波数帯域kに設定する(ステップS303)。
制御信号生成部は、注目する周波数帯域kにおける、左チャネルと中央チャネル間の周波数信号の類似度α1(k)が類似度閾値Thaより大きく、かつその二つのチャネル間の周波数信号の位相差θ1(k)が位相差範囲(Thb1〜Thb2)内か否か判定する(ステップS304)。類似度α1(k)が類似度閾値Thaより大きく、かつ位相差θ1(k)が位相差範囲(Thb1〜Thb2)内であれば(ステップS304−Yes)、左チャネルと中央チャネル間の周波数信号は互いに打ち消す可能性が高い。そこで制御信号生成部は、第2ダウンミックス部が予測モードを用いるよう各セレクタへの制御信号を作成する(ステップS308)。
なお、類似度閾値Thaは、上記の実施形態における類似度閾値と同様に、例えば0.7に設定される。また位相差範囲も、上記の実施形態における位相差範囲と同様に設定される。例えば、位相差範囲の下限Thb1は0.89πに設定され、位相差範囲の上限Thb2は1.11πに設定される。
一方、類似度α1(k)が類似度閾値Tha以下であるか、または位相差θ1(k)が位相差範囲外であれば(ステップS304−No)、左チャネルと中央チャネル間の周波数信号はダウンミックスされても互いに打ち消す可能性は低い。
この場合、制御信号生成部は、注目する周波数帯域kにおける、右チャネルと中央チャネル間の周波数信号の類似度α2(k)が類似度閾値Thaより大きく、かつその二つのチャネル間の周波数信号の位相差θ2(k)が位相差範囲内か否か判定する(ステップS305)。類似度α2(k)が所定の類似度閾値Thaより大きく、かつ位相差θ2(k)が位相差範囲内であれば(ステップS305−Yes)、右チャネルと中央チャネル間の周波数信号は互いに打ち消す可能性が高い。そこで制御信号生成部は、第2ダウンミックス部13が予測モードを用いるよう各セレクタへの制御信号を作成する(ステップS308)。
一方、類似度α2(k)が類似度閾値Tha以下であるか、または位相差θ2(k)が位相差範囲外であれば(ステップS305−No)、右チャネルと中央チャネル間の周波数信号はダウンミックスされても互いに打ち消す可能性は低い。
この場合、制御信号生成部は、注目する周波数帯域kが所定の周波数範囲内の最大周波数帯域か否か判定する(ステップS306)。注目する周波数帯域kが所定の周波数範囲内の最大周波数帯域でなければ(ステップS306−No)、制御信号生成部は、注目する周波数帯域を一つ大きな周波数帯域に変更する(ステップS307)。その後制御信号生成部は、ステップS304以降の処理を繰り返す。
一方、注目する周波数帯域kが所定の周波数範囲内の最大周波数帯域であれば(ステップS306−Yes)、全ての周波数帯域について、予測モードを選択するためのステップS304及びS305の判定条件は満たされない。
そこで制御信号生成部は、第2ダウンミックス部がエネルギーモードを用いるよう各セレクタへの制御信号を作成する(ステップS309)。
ステップS308またはS309の後、制御信号生成部は、制御信号を各セレクタへ出力し、その後、判定部は空間情報生成モード選択処理を終了する。
なお、判定部は、ステップS301の処理とステップS302の処理を並列に実行してもよく、あるいは、ステップS301の処理とステップS302の処理の順序を入れ替えてもよい。また判定部は、ステップS304の処理とステップS305の処理の順序を入れ替えてもよい。
なお、所定の周波数範囲は、各チャネルの周波数信号が生成される全ての周波数帯域を含むように設定される。あるいは、所定の周波数範囲は、リスナーが音声の品質の劣化を感知し易い周波数帯域(例えば、0〜9000Hzあるいは、20〜9000Hz)のみを含むように設定されてもよい。
この実施形態によれば、オーディオ符号化装置は、周波数帯域ごとに、ダウンミックスによる信号の減衰が生じる可能性を調べるので、何れかの周波数帯域においてのみ信号の減衰が生じる場合でも、適切に空間情報生成モードを選択できる。
なお、変形例によれば、2以上の所定数の周波数帯域において、ステップS304またはステップS305の判定条件が満たされる場合に、制御信号生成部は第2ダウンミックス部が予測モードを用いるよう各セレクタへの制御信号を生成してもよい。
あるいは、制御信号生成部は、周波数帯域ごとに、予め人の聴覚特性に応じた重み係数を設定してもよい。この重み係数は、例えば、0〜1の間の何れかの値に設定され、かつ音声品質の劣化に感知し易い周波数帯域ほど大きなが値が設定される。
そして制御信号生成部は、所定の周波数範囲内の各周波数帯域についてステップS304またはステップS305の判定条件が満たされるか否か判定する。そして制御信号生成部は、ステップS304またはステップS305の判定条件が満たされた周波数帯域に設定された重み係数の合計を算出する。制御信号生成部は、その合計が所定の閾値(例えば、1または2)を超えた場合にのみ、第2ダウンミックス部に予測モードで空間情報を生成させる。
また変形例によれば、類似度算出部は、周波数帯域ごとに位相差算出部で算出された位相差を用いて左チャネル及び右チャネルの周波数信号の位相と中央チャネルの位相差を打ち消すように、左チャネル及び右チャネルの周波数信号の位相を補正してもよい。そして類似度算出部は、周波数帯域ごとに位相補正された左チャネル及び右チャネルの周波数信号を用いて類似度を算出してもよい。
さらに他の実施形態によれば、判定部は、左、右、中央の各チャネルの時間信号に基づいて、ダウンミックスされる二つの信号間の類似度及び位相差を算出してもよい。
図12は、この実施形態によるオーディオ符号化装置の概略構成図である。図12に示されるオーディオ符号化装置2の各構成要素には、図1に示されたオーディオ符号化装置1の対応する構成要素と同一の参照番号を付した。オーディオ符号化装置2は、オーディオ符号化装置1と比較して、第2周波数時間変換部20を有する点で異なる。そこで、以下では、第2周波数時間変換部20及び関連する各部について説明する。オーディオ符号化装置2のその他の点については、上述したオーディオ符号化装置1の説明を参照されたい。
第2周波数時間変換部20は、ダウンミックス部12から左、右、中央の3チャネルの周波数信号を受け取る度に、各チャネルの周波数信号を時間領域の信号に変換する。例えば、時間周波数変換部11がQMFフィルタバンクを用いる場合、第2周波数時間変換部20は、(15)式に示された複素型のQMFフィルタバンクを用いて各チャネルの周波数信号を時間信号に変換する。
なお、時間周波数変換部11が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いている場合、第2周波数時間変換部20は、その時間周波数変換処理の逆変換を使用する。
第2周波数時間変換部20は、左、右、中央の各チャネルの周波数信号を周波数時間変換することにより得られた各チャネルの時間信号を判定部16へ出力する。
判定部16の類似度算出部161は、次式に従って、左チャネルの時間信号と中央チャネルの時間信号をサンプル点数dだけずらしたときの類似度α1(d)を算出する。同様に、類似度算出部161は、右チャネルの時間信号と中央チャネルの時間信号をサンプル点数dだけずらしたときの類似度α2(d)を算出する。
ここでLt(n)、Rt(n)、Ct(n)は、それぞれ、左チャネル、右チャネル及び中央チャネルの時間信号である。またNは、1フレームに含まれる時間方向のサンプル点数である。Dは二つの時間信号のずれ量の最大値に相当するサンプル点数であり、例えば、1フレームに相当するサンプル点数(例えば、128)に設定される。
類似度算出部161は、dを-DからDまで変化させつつ、それぞれのdの値について類似度α1(d)及びα2(d)を算出する。そして類似度算出部161は、α1(d)の最大値α1max(d)を、左チャネルの時間信号と中央チャネルの時間信号間の類似度α1とする。同様に、類似度算出部161は、α2(d)の最大値α2max(d)を、右チャネルの時間信号と中央チャネルの時間信号間の類似度α2とする。
そして類似度算出部161は、α1及びα2を制御信号生成部163へ出力する。また類似度算出部161は、α1max(d)に対応するサンプル点のずれ量d1及びα2max(d)に対応するサンプル点のずれ量d2を判定部16の位相差算出部162へ渡す。
位相差算出部162は、左チャネルの時間信号と中央チャネルの時間信号間の類似度の最大値α1max(d)に対応するサンプル点のずれ量d1を、左チャネルの時間信号と中央チャネルの時間信号間の位相差とする。また位相差算出部162は、右チャネルの時間信号と中央チャネルの時間信号間の類似度の最大値α2max(d)に対応するサンプル点のずれ量d2を、右チャネルの時間信号と中央チャネルの時間信号間の位相差とする。
位相差算出部162は、d1及びd2を制御信号生成部163へ出力する。
判定部16は、図3に示された空間情報生成モード選択処理の動作フローと同様の動作フローに従って、類似度α1及びα2と、位相差d1及びd2に基づいて、ステレオ周波数信号を生成する際に用いられる空間情報生成モードを選択する。その際、制御信号生成部163は、図3に示された空間情報生成モード選択処理の動作フローチャートにおけるステップS103及びステップS104において、位相差θ1、θ2の代わりにd1及びd2を用いる。またd1及びd2は、二つのチャネルの信号間の類似度が最大となる場合のその二つのチャネルの信号間の時間差に相当するサンプル点数であり、間接的に位相差を表す。そのため、d1及びd2が大きいほど、ダウンミックスされる二つのチャネルの信号間の位相差は大きい。そこで制御信号生成部163は、ステップS103において、位相差に関して、d1の絶対値|d1|が閾値Thcより大きいか否か判定する。なお、閾値Thcは、例えば、エネルギーモードで生成された空間情報を用いてオーディオ信号が符号化され、かつ再生された場合において、リスナーがその再生されたオーディオ信号の音質の劣化に気付かないサンプル点数のずれ量の最大値に設定される。1フレームのサンプル点数が128である場合、例えば、閾値Thcは5〜25に設定される。なお、類似度閾値Thaに関しては、上記の実施形態と同様に、例えば、0.7に設定される。
制御信号生成部163は、α1が類似度閾値Thaより大きく、かつ、|d1|が閾値Thcより大きい場合、あるいは、α2が類似度閾値Thaより大きく、かつ、|d2|が閾値Thcより大きい場合、予測モードが選択されるように制御信号を生成する。一方、それ以外の場合、制御信号生成部163は、エネルギーモードが選択されるように制御信号を生成する。そして制御信号生成部163は、各セレクタに対して、制御信号を送信することで、第2ダウンミックス部13に対して、選択したモードで空間情報を生成させる。
オーディオ符号化装置2の変形例によれば、位相差算出部は、ダウンミックスすることによって信号が減衰する可能性のある周波数帯域を、d1及びd2の値に基づいて推定する。そして、判定部は、その周波数帯域の数と類似度に応じて、エネルギーモードと予測モードのうちの何れかを選択する。
図13は、このオーディオ符号化装置2の変形例による、空間情報生成モード選択処理の動作フローチャートである。類似度算出部は、左チャネルの時間信号と中央チャネルの時間信号間の類似度α1と、右チャネルの時間信号と中央チャネルの時間信号間の類似度α2とを算出する(ステップS401)。類似度算出部は、類似度α1及びα2を制御信号生成部163へ出力する。また類似度算出部は、類似度α1に対応する左チャネルと中央チャネルの時間信号間のずれ量に相当するサンプル点数d1と、類似度α2に対応する右チャネルと中央チャネルの時間信号間のずれ量に相当するサンプル点数d2を位相差算出部へ出力する。
位相差算出部は、サンプル点数d1を、左チャネルと中央チャネルの時間信号間の位相差とする。また位相差算出部は、サンプル点数d2を、右チャネルと中央チャネルの時間信号間の位相差とする(ステップS402)。
次に、位相差算出部は、xを0から1ずつ増加させつつ、次式に従って、ダウンミックスにより信号が減衰する可能性のある周波数帯域θ1(x)、θ2(x)をそれぞれ算出する(ステップS403)。
ここでFsはサンプリング周波数である。またθ1(x)、θ2(x)は、それぞれ、左チャネルと中央チャネルのダウンミックスにより減衰する可能性のある周波数帯域及び右チャネルと中央チャネルのダウンミックスにより減衰する可能性のある周波数帯域を表す。なお、θ1(x)、θ2(x)は、Fs/2以下である。またxは0以上の整数である。di(i=1,2)は、位相差に相当するサンプル点数である。そのため、(20)式により、左チャネルまたは右チャネルの信号と中央チャネルの信号の位相差が大きく、その結果として左チャネルまたは右チャネルの信号と中央チャネルの信号が打ち消しあう可能性のある周波数帯域が求められる。
位相差算出部は、xを0から1ずつ増加させつつ、θ1(x)、θ2(x)をそれぞれ算出する。そして位相差算出部は、θ1(x)がFs/2以下の最大値となったときのxの値をX1maxとする。同様に、位相差算出部は、θ2(x)がFs/2以下の最大値となったときのxの値をX2maxとする(ステップS404)。すなわち、xが0からX1maxまで変化する間に(20)式に従って算出された各周波数帯域θ1(x)が、左チャネルと中央チャネルのダウンミックスにより減衰する可能性のある周波数帯域である。同様に、xが0からX2maxまで変化する間に(20)式に従って算出された各周波数帯域θ2(x)が、右チャネルと中央チャネルのダウンミックスにより減衰する可能性のある周波数帯域である。
位相差算出部は、各周波数帯域θ1(x)及びθ2(x)を制御信号生成部へ通知する。
制御信号生成部は、所定の周波数範囲内に含まれる周波数帯域θ1(x)の数cnt1を求める。また制御信号生成部は、所定の周波数範囲内に含まれる周波数帯域θ2(x)の数cnt2を求める(ステップS405)。なお、所定の周波数範囲は、リスナーが音声の品質の劣化を感知し易い周波数帯域(例えば、0〜9000Hzあるいは、20〜9000Hz)のみを含むように設定されることが好ましい。しかし、所定の周波数範囲は、各チャネルの周波数信号が生成される全ての周波数帯域を含むように設定されてもよい。
制御信号生成部は、所定の周波数範囲内で信号が減衰する可能性のある周波数帯域の数cnt1が少なくとも1以上の所定数Thn以上であり、かつ、左チャネルと中央チャネル間の時間信号の類似度α1が類似度閾値Thaより大きいか否か判定する(ステップS406)。
cnt1が所定数Thn以上であり、かつ、類似度α1が類似度閾値Thaより大きい場合(ステップS406−Yes)、制御信号生成部は予測モードを選択する。そこで制御信号生成部は、第2ダウンミックス部が予測モードを用いるよう各セレクタへの制御信号を作成する(ステップS408)。
一方、cnt1が所定数Thn未満であるか、または、類似度α1が類似度閾値Tha未満である場合(ステップS406−No)、左チャネルの時間信号と中央チャネルの時間信号が互いに打ち消す可能性は低い。そこで制御信号生成部は、所定の周波数範囲内で信号が減衰する可能性のある周波数帯域の数cnt2が所定数Thn以上であり、かつ、右チャネルと中央チャネル間の時間信号の類似度α2が類似度閾値Thaより大きいか否か判定する(ステップS407)。cnt2が所定数Thn以上であり、かつ、類似度α2が類似度閾値Thaより大きい場合(ステップS407−Yes)、制御信号生成部は予測モードを選択する。そこで制御信号生成部は、第2ダウンミックス部が予測モードを用いるよう各セレクタへの制御信号を作成する(ステップS408)。
一方、cnt2が所定数Thn未満であるか、または、類似度α2が類似度閾値Tha未満である場合(ステップS407−No)、右チャネルの時間信号と中央チャネルの時間信号が互いに打ち消す可能性は低い。
そこで制御信号生成部は、第2ダウンミックス部がエネルギーモードを用いるよう各セレクタへの制御信号を作成する(ステップS409)。
ステップS408またはS409の後、制御信号生成部は、制御信号を各セレクタへ出力し、その後、判定部は空間情報生成モード選択処理を終了する。
なお、判定部は、ステップS406の処理とステップS407の処理の順序を入れ替えてもよい。
また所定数Thnは、cnt1またはcnt2が2以上の所定数である場合に限り、予測モードが選択されるように、2以上の値に設定されてもよい。また、類似度閾値Thaは、上記の実施形態における類似度閾値と同様に、例えば0.7に設定される。
この実施形態によれば、二つのチャネルの信号がダウンミックスされることにより互いに打ち消しあって信号が減衰する可能性のある周波数帯域が推定される。そのため、このオーディオ符号化装置は、そのような周波数帯域がリスナーが音質の劣化を感知できる周波数の範囲に含まれるか否かを調べることができる。したがって、このオーディオ符号化装置は、信号が減衰する可能性のある周波数帯域がリスナーが音質の劣化を感知できる周波数の範囲に含まれる場合にのみ予測モードで空間情報を生成できるので、より適切に空間情報の生成モードを選択できる。
また、上記の各実施形態において、類似度算出部及び位相差算出部は、元のマルチチャネルオーディオ信号の各チャネルの信号から、直接類似度及び位相差を算出してもよい。例えば、左チャネルまたは右チャネルと中央チャネル間の信号の類似度及び位相差が、左チャネルまたは右チャネルと中央チャネル間の周波数信号の類似度及び位相差として算出される場合、次式に従ってその類似度α1、α2及び位相差θ1、θ2が算出される。
さらに他の実施形態によれば、オーディオ符号化装置のチャネル信号符号化部は、ステレオ周波数信号を他の符号化方式に従って符号化してもよい。例えば、チャネル信号符号化部は、周波数信号全体をAAC符号化方式にしたがって符号化してもよい。この場合、図1に示されたオーディオ符号化装置において、SBR符号化部は省略される。
また、符号化の対象となるマルチチャネルオーディオ信号は、5.1chオーディオ信号に限られない。例えば、符号化の対象となるオーディオ信号は、3ch、3.1chまたは7.1chなど、複数のチャネルを持つオーディオ信号であってもよい。この場合も、オーディオ符号化装置は、各チャネルのオーディオ信号を時間周波数変換することにより、各チャネルの周波数信号を算出する。そしてオーディオ符号化装置は、各チャネルの周波数信号をダウンミックスすることにより、元のオーディオ信号よりもチャネル数が少ない周波数信号を生成する。その際、オーディオ符号化装置は、何れかのチャネルについて、二つのチャネルの周波数信号をダウンミックスすることにより一つの周波数信号を生成するとともに、そのダウンミックスされる二つの周波数信号についての空間情報をエネルギーモードまたは予測モードの何れかで生成する。そしてオーディオ符号化装置は、その二つの周波数信号間の類似度と位相差を求め、類似度が大きく、かつ、位相差が大きい場合に予測モードを選択し、その他の場合にエネルギーモードを選択すればよい。特に、符号化の対象となるオーディオ信号が3chのオーディオ信号である場合、第2ダウンミックス部により直接ステレオ周波数信号を生成できるので、上記の各実施形態におけるダウンミックス部12は省略されてもよい。
上記の各実施形態におけるオーディオ符号化装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。
また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装される。
図14は、上記の何れかの実施形態に係るオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。映像伝送装置100は、映像取得部101と、音声取得部102と、映像符号化部103と、音声符号化部104と、多重化部105と、通信処理部106と、出力部107とを有する。
映像取得部101は、動画像信号をビデオカメラなどの他の装置から取得するためのインターフェース回路を有する。そして映像取得部101は、映像伝送装置100に入力された動画像信号を映像符号化部103へ渡す。
音声取得部102は、マルチチャネルオーディオ音声信号をマイクロフォンなどの他の装置から取得するためのインターフェース回路を有する。そして音声取得部102は、映像伝送装置100に入力されたマルチチャネルオーディオ音声信号を音声符号化部104へ渡す。
映像符号化部103は、動画像信号のデータ量を圧縮するために、動画像信号を符号化する。そのために、映像符号化部103は、例えば、MPEG-2、MPEG-4、H.264 MPEG-4 Advanced Video Coding(H.264 MPEG-4 AVC)などの動画像符号化規格に従って動画像信号を符号化する。そして映像符号化部103は、符号化動画像データを多重化部105へ出力する。
音声符号化部104は、上記の何れかの実施形態のオーディオ符号化装置を有する。そして音声符号化部104は、マルチチャネルオーディオ信号からステレオ周波数信号と空間情報を生成する。音声符号化部104は、そのステレオ周波数信号をAAC符号化処理及びSBR符号化処理によって符号化する。また音声符号化部104は、空間情報を空間情報符号化処理によって符号化する。音声符号化部104は、生成されたAAC符号、SBR符号及びMPS符号を多重化することにより、符号化オーディオデータを生成する。そして音声符号化部104は、符号化オーディオデータを多重化部105へ出力する。
多重化部105は、符号化動画像データと符号化オーディオデータを多重化する。そして多重化部105は、MPEG-2トランスポートストリームなどの映像データの伝送用の所定の形式に従ったストリームを作成する。
多重化部105は、符号化動画像データと符号化オーディオデータが多重化されたストリームを通信処理部106へ出力する。
通信処理部106は、符号化動画像データと符号化オーディオデータが多重化されたストリームを、TCP/IPなどの所定の通信規格にしたがったパケットに分割する。また通信処理部106は、各パケットに、宛先情報などが格納された所定のヘッダを付す。そして通信処理部106は、パケットを出力部107へ渡す。
出力部107は、映像伝送装置100を通信回線に接続するためのインターフェース回路を有する。そして出力部107は、通信処理部106から受け取ったパケットを通信回線へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出する第1の空間情報算出部と、
前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、前記第3のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で前記第1の空間情報よりも情報量が少ない第2の空間情報を算出する第2の空間情報算出部と、
前記少なくとも一つの第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号の類似度を算出する類似度算出部と、
前記少なくとも一つの第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号の位相差を算出する位相差算出部と、
前記類似度及び前記位相差が所定の判定条件を満たす場合に前記第1の空間情報算出部に前記第1の空間情報を算出させ、一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に前記第2の空間情報算出部に前記第2の空間情報を算出させる制御部と、
前記第3のチャネルの周波数信号を符号化するチャネル信号符号化部と、
前記第1の空間情報または前記第2の空間情報を符号化する空間情報符号化部と、
を有するオーディオ符号化装置。
(付記2)
前記所定の判定条件は、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、前記第3のチャネルの周波数信号が減衰する程度に前記類似度が高く、かつ前記位相差が大きいことである、付記1に記載のオーディオ符号化装置。
(付記3)
前記類似度算出部は、前記位相差算出部により算出された前記位相差を打ち消すように前記少なくとも一つの第1のチャネルの信号を補正し、当該補正された第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号間の前記類似度を算出する、付記1または2に記載のオーディオ符号化装置。
(付記4)
前記類似度算出部は、周波数帯域ごとに前記類似度を算出し、
前記位相差算出部は、周波数帯域ごとに前記位相差を算出し、
前記制御部は、所定の周波数範囲内において、前記類似度と前記位相差が前記所定の判定条件を満たす周波数帯域の数が1以上の所定数以上である場合に前記第1の空間情報算出部に前記第1の空間情報を算出させ、一方、前記類似度と前記位相差が前記所定の判定条件を満たす周波数帯域の数が前記所定数未満である場合、前記第2の空間情報算出部に前記第2の空間情報を算出させる、付記1〜3の何れか一項に記載のオーディオ符号化装置。
(付記5)
前記所定の周波数範囲は、リスナーが前記オーディオ信号の品質の劣化を感知できる周波数範囲である、付記4に記載のオーディオ符号化装置。
(付記6)
前記少なくとも一つの第1のチャネルの信号及び前記少なくとも一つの第2のチャネルの信号は、それぞれ、当該少なくとも一つの第1のチャネルの周波数信号及び当該少なくとも一つの第2のチャネルの周波数信号である、付記1〜5の何れか一項に記載のオーディオ符号化装置。
(付記7)
前記少なくとも一つの第1のチャネルの信号及び前記少なくとも一つの第2のチャネルの信号は、それぞれ、当該少なくとも一つの第1のチャネルの時間領域の信号及び当該少なくとも一つの第2のチャネルの時間領域の信号であり、
前記位相差算出部は、前記少なくとも一つの第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号が最も類似するときの時間のずれ量を前記位相差とするとともに、当該位相差に応じて前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより得られた第3の周波数信号が減衰する可能性のある減衰周波数帯域を前記時間のずれ量に応じて推定し、
前記所定の判定条件は、前記類似度が所定の類似度閾値より大きく、かつ前記減衰周波数帯域の数が少なくとも1つの所定数以上であることである、付記1に記載のオーディオ符号化装置。
(付記8)
少なくとも4以上のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記各チャネルの周波数信号をダウンミックスすることにより第1のチャネルの周波数信号、第2のチャネルの周波数信号及び第3のチャネルの周波数信号を生成し、かつダウンミックスされる各チャネル間の3チャネル空間情報を算出する第1のダウンミックス部と、
前記第1のチャネルの周波数信号と前記第2のチャネルの周波数信号をダウンミックスすることにより第4のチャネルの周波数信号を生成し、かつ、前記第1のチャネルの周波数信号と前記第3のチャネルの周波数信号をダウンミックスすることにより第5のチャネルの周波数信号を生成するとともに、前記第1のチャネルの周波数信号と前記第2のチャネルの周波数信号間及び前記第1のチャネルの周波数信号と前記第3のチャネルの周波数信号間で第1の空間情報を算出する第1の空間情報算出部と、
前記第1のチャネルの周波数信号と前記第2のチャネルの周波数信号をダウンミックスすることにより第4のチャネルの周波数信号を生成し、かつ、前記第1のチャネルの周波数信号と前記第3のチャネルの周波数信号をダウンミックスすることにより第5のチャネルの周波数信号を生成するとともに、前記第1のチャネルの周波数信号と前記第2のチャネルの周波数信号間及び前記第1のチャネルの周波数信号と前記第3のチャネルの周波数信号間で前記第1の空間情報よりも情報量の少ない第2の空間情報を算出する第2の空間情報算出部と、
前記第1のチャネルの周波数信号と前記第2のチャネルの周波数信号間の第1の類似度及び前記第1のチャネルの周波数信号と前記第3のチャネルの周波数信号間の第2の類似度を算出する類似度算出部と、
前記第1のチャネルの周波数信号と前記第2のチャネルの周波数信号間の第1の位相差及び前記第1のチャネルの周波数信号と前記第3のチャネルの周波数信号間の第2の位相差を算出する位相差算出部と、
前記第1の類似度及び前記第1の位相差が前記第4の周波数信号が減衰する条件を満たす場合、あるいは前記第2の類似度及び前記第2の位相差が前記第5の周波数信号が減衰する条件を満たす場合に前記第1の空間情報算出部に前記第1の空間情報を算出させ、一方、前記第4の周波数信号及び前記第5の周波数信号の何れについても前記条件が満たされない場合に前記第2の空間情報算出部に前記第2の空間情報を算出させる制御部と、
前記第4のチャネルの周波数信号及び前記第5のチャネルの周波数信号を符号化するチャネル信号符号化部と、
前記3チャネル空間情報と、前記第1の空間情報または前記第2の空間情報とを符号化する空間情報符号化部と、
を有するオーディオ符号化装置。
(付記9)
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号の類似度を算出し、
前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号の位相差を算出し、
前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成し、
前記類似度及び前記位相差が所定の判定条件を満たす場合に、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出し、
一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で前記第1の空間情報よりも情報量が少ない第2の空間情報を算出し、
前記第3のチャネルの周波数信号を符号化し、
前記第1の空間情報または前記第2の空間情報を符号化する、
ことを含むオーディオ符号化方法。
(付記10)
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号の類似度を算出し、
前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号の位相差を算出し、
前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成し、
前記類似度及び前記位相差が所定の判定条件を満たす場合に、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出し、
一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で前記第1の空間情報よりも情報量が少ない第2の空間情報を算出し、
前記第3のチャネルの周波数信号を符号化し、
前記第1の空間情報または前記第2の空間情報を符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
(付記11)
入力された動画像信号を符号化する動画像符号化部と、
入力された複数のチャネルを持つオーディオ信号を符号化するオーディオ符号化部であって、
前記オーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出する第1の空間情報算出部と、
前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、前記第3のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で前記第1の空間情報よりも情報量が少ない第2の空間情報を算出する第2の空間情報算出部と、
前記少なくとも一つの第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号の類似度を算出する類似度算出部と、
前記少なくとも一つの第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号の位相差を算出する位相差算出部と、
前記類似度及び前記位相差が所定の判定条件を満たす場合に前記第1の空間情報算出部に前記第1の空間情報を算出させ、一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に前記第2の空間情報算出部に前記第2の空間情報を算出させる制御部と、
前記第3のチャネルの周波数信号を符号化することによりチャネル信号符号を生成するチャネル信号符号化部と、
前記第1の空間情報または前記第2の空間情報を符号化することにより空間情報符号を生成する空間情報符号化部と、
前記チャネル信号符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する多重化部とを有するオーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
を有する映像伝送装置。
1、2 オーディオ符号化装置
11 時間周波数変換部
12 ダウンミックス部
13 第2ダウンミックス部
131 エネルギーモード合成部
132 予測モード合成部
14、15 セレクタ
16 判定部
161 類似度算出部
162 位相差算出部
163 制御信号生成部
17 チャネル信号符号化部
18 空間情報符号化部
19 多重化部
20 第2周波数時間変換部
171 SBR符号化部
172 周波数時間変換部
173 AAC符号化部
100 映像伝送装置
101 映像取得部
102 音声取得部
103 映像符号化部
104 音声符号化部
105 多重化部
106 通信処理部
107 出力部

Claims (6)

  1. 複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
    前記複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出する第1の空間情報算出部と、
    前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、前記第3のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で前記第1の空間情報よりも情報量が少ない第2の空間情報を算出する第2の空間情報算出部と、
    前記少なくとも一つの第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号の類似度を算出する類似度算出部と、
    前記少なくとも一つの第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号の位相差を算出する位相差算出部と、
    前記類似度及び前記位相差が所定の判定条件を満たす場合に前記第1の空間情報算出部に前記第1の空間情報を算出させ、一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に前記第2の空間情報算出部に前記第2の空間情報を算出させる制御部と、
    前記第3のチャネルの周波数信号を符号化するチャネル信号符号化部と、
    前記第1の空間情報または前記第2の空間情報を符号化する空間情報符号化部と、
    を有するオーディオ符号化装置。
  2. 前記所定の判定条件は、前記類似度が所定の閾値より大きく、かつ前記位相差が所定の位相差範囲に含まれることである、請求項1に記載のオーディオ符号化装置。
  3. 前記類似度算出部は、前記位相差算出部により算出された前記位相差を打ち消すように前記少なくとも一つの第1のチャネルの信号を補正し、当該補正された第1のチャネルの信号と前記少なくとも一つの第2のチャネルの信号間の前記類似度を算出する、請求項1または2に記載のオーディオ符号化装置。
  4. 前記類似度算出部は、周波数帯域ごとに前記類似度を算出し、
    前記位相差算出部は、周波数帯域ごとに前記位相差を算出し、
    前記制御部は、所定の周波数範囲内において、前記類似度と前記位相差が前記所定の判定条件を満たす周波数帯域の数が1以上の所定数以上である場合に前記第1の空間情報算出部に前記第1の空間情報を算出させ、一方、前記類似度と前記位相差が前記所定の判定条件を満たす周波数帯域の数が前記所定数未満である場合、前記第2の空間情報算出部に前記第2の空間情報を算出させる、請求項1〜3の何れか一項に記載のオーディオ符号化装置。
  5. 複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
    前記複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号の類似度を算出し、
    前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号の位相差を算出し、
    前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成し、
    前記類似度及び前記位相差が所定の判定条件を満たす場合に、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出し、
    一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で前記第1の空間情報よりも情報量が少ない第2の空間情報を算出し、
    前記第3のチャネルの周波数信号を符号化し、
    前記第1の空間情報または前記第2の空間情報を符号化する、
    ことを含むオーディオ符号化方法。
  6. 複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
    前記複数のチャネルのうちの少なくとも一つの第1のチャネルの周波数信号と少なくとも一つの第2のチャネルの周波数信号の類似度を算出し、
    前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号の位相差を算出し、
    前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号をダウンミックスすることにより、第3のチャネルの周波数信号を生成し、
    前記類似度及び前記位相差が所定の判定条件を満たす場合に、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で第1の空間情報を算出し、
    一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に、前記少なくとも一つの第1のチャネルの周波数信号と前記少なくとも一つの第2のチャネルの周波数信号間で前記第1の空間情報よりも情報量が少ない第2の空間情報を算出し、
    前記第3のチャネルの周波数信号を符号化し、
    前記第1の空間情報または前記第2の空間情報を符号化する、
    ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
JP2010217263A 2010-09-28 2010-09-28 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム Expired - Fee Related JP5533502B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010217263A JP5533502B2 (ja) 2010-09-28 2010-09-28 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US13/176,932 US20120078640A1 (en) 2010-09-28 2011-07-06 Audio encoding device, audio encoding method, and computer-readable medium storing audio-encoding computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010217263A JP5533502B2 (ja) 2010-09-28 2010-09-28 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012073351A JP2012073351A (ja) 2012-04-12
JP5533502B2 true JP5533502B2 (ja) 2014-06-25

Family

ID=45871533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010217263A Expired - Fee Related JP5533502B2 (ja) 2010-09-28 2010-09-28 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Country Status (2)

Country Link
US (1) US20120078640A1 (ja)
JP (1) JP5533502B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639605B2 (en) * 2006-04-21 2014-01-28 Thomson Reuters Global Resources Systems and methods for the identification and messaging of trading parties
JP5609591B2 (ja) * 2010-11-30 2014-10-22 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP5799824B2 (ja) * 2012-01-18 2015-10-28 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP6051621B2 (ja) * 2012-06-29 2016-12-27 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置
EP2880773B1 (en) * 2012-08-03 2018-05-02 Mediatek Inc. Radio-frequency processing circuit and related wireless communication device
JP6065452B2 (ja) * 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
CN110265047B (zh) 2013-04-05 2021-05-18 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2854133A1 (en) 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
JP6303435B2 (ja) * 2013-11-22 2018-04-04 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用プログラム、オーディオ復号装置
CN105518558B (zh) 2014-09-30 2018-02-02 深圳市大疆创新科技有限公司 一种飞行任务处理方法、装置及系统
WO2016086365A1 (en) * 2014-12-03 2016-06-09 Nokia Solutions And Networks Oy Control of transmission mode selection

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
JP3951690B2 (ja) * 2000-12-14 2007-08-01 ソニー株式会社 符号化装置および方法、並びに記録媒体
JP2002268694A (ja) * 2001-03-13 2002-09-20 Nippon Hoso Kyokai <Nhk> ステレオ信号の符号化方法及び符号化装置
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
EP2065885B1 (en) * 2004-03-01 2010-07-28 Dolby Laboratories Licensing Corporation Multichannel audio decoding
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
KR100755471B1 (ko) * 2005-07-19 2007-09-05 한국전자통신연구원 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
WO2007055464A1 (en) * 2005-08-30 2007-05-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8266195B2 (en) * 2006-03-28 2012-09-11 Telefonaktiebolaget L M Ericsson (Publ) Filter adaptive frequency resolution
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
EP2048658B1 (en) * 2006-08-04 2013-10-09 Panasonic Corporation Stereo audio encoding device, stereo audio decoding device, and method thereof
JP5232795B2 (ja) * 2007-02-14 2013-07-10 エルジー エレクトロニクス インコーポレイティド オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法

Also Published As

Publication number Publication date
JP2012073351A (ja) 2012-04-12
US20120078640A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
JP5533502B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US9812136B2 (en) Audio processing system
US9741354B2 (en) Bitstream syntax for multi-process audio decoding
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
US8046214B2 (en) Low complexity decoder for complex transform coding of multi-channel sound
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
KR101414354B1 (ko) 부호화 장치 및 부호화 방법
JP5243527B2 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
JP5036317B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
JP5737077B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US20080255859A1 (en) Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
KR20090117883A (ko) 부호화 장치, 복호 장치 및 그 방법
CA2637185A1 (en) Complex-transform channel coding with extended-band frequency coding
KR20100086000A (ko) 오디오 신호 처리 방법 및 장치
RU2420026C2 (ru) Способы и устройства для кодирования и декодирования аудиосигналов на основе объектов
EP3164868A1 (en) Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation
JP5340378B2 (ja) チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
JP5990954B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、オーディオ復号装置、オーディオ復号方法ならびにオーディオ復号用コンピュータプログラム
WO2011058752A1 (ja) 符号化装置、復号装置およびこれらの方法
KR20070108312A (ko) 오디오 신호의 인코딩/디코딩 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5533502

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140414

LAPS Cancellation because of no payment of annual fees