JP2007178684A - Multi-channel audio decoding device - Google Patents
Multi-channel audio decoding device Download PDFInfo
- Publication number
- JP2007178684A JP2007178684A JP2005376570A JP2005376570A JP2007178684A JP 2007178684 A JP2007178684 A JP 2007178684A JP 2005376570 A JP2005376570 A JP 2005376570A JP 2005376570 A JP2005376570 A JP 2005376570A JP 2007178684 A JP2007178684 A JP 2007178684A
- Authority
- JP
- Japan
- Prior art keywords
- subband
- signal
- channel
- coefficient
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、従来の空間情報を用いた低ビットレートマルチチャンネル音響コーデック(たとえば非特許文献1)において、低消費電力で、かつ少ないメモリー容量で処理を行うことのできる復号装置を提供する。本発明は、以下に制限はされないが、放送等の低ビットレートの応用をはじめ、ホームシアターシステム、車載音響システム及び電子ゲームシステムに適用可能である。 The present invention provides a decoding apparatus that can perform processing with low power consumption and a small memory capacity in a low bit rate multi-channel acoustic codec (for example, Non-Patent Document 1) using conventional spatial information. The present invention is not limited to the following, but can be applied to low-bit-rate applications such as broadcasting, home theater systems, in-vehicle audio systems, and electronic game systems.
近年、スペーシャルオーディオコーデック(空間音響コーデック)と呼ばれる新しいマルチチャンネル音響符号化復号化技術が開発されている(非特許文献1)。これは、非常に少ない情報量でマルチチャネルの臨場感を圧縮・符号化することができ、例えば、既に日本デジタルテレビの音声方式として用いられているマルチチャネルコーデックであるAAC方式が、5.1ch当り512kbpsや、384kbpsという多くのビットレートを必要するのに対し、スペーシャルコーデックでは、128kbpsや、64kbps、さらに48kbpsといった非常に少ないビットレートで5.1chのマルチチャネル信号を圧縮・符号化することができる。 In recent years, a new multi-channel acoustic coding / decoding technique called a spatial audio codec (spatial acoustic codec) has been developed (Non-patent Document 1). This can compress and encode the presence of multi-channel with a very small amount of information. For example, the AAC system, which is a multi-channel codec that is already used as an audio system of Japanese digital television, is 5.1ch. While a bit rate of 512 kbps or 384 kbps is required, a spatial codec compresses and encodes a 5.1 channel multi-channel signal at a very low bit rate of 128 kbps, 64 kbps, and 48 kbps. Can do.
図1は、非特許文献1に代表される、従来の空間音響符号化復号化の基本的原理をステレオ入力信号(2ch信号)の場合を例として説明する図である。ここで、Lは左チャンネル、Rは右チャンネルの信号を示す。符号化処理部において、入力音響信号であるLおよびR信号は、所定の時間間隔のフレーム単位に処理され、ダウンミックス部(100)において、たとえばM=(L+R)/2となる式によりダウンミックス信号Mが生成される。空間パラメータ検出モジュール(102)は、L,R及びM信号から、各スペクトルバンドごとに複数の空間パラメータを算出する。音響エンコーダ(104)は、MP3やAAC等の符号化方式を用いて、ダウンミックス信号Mを符号化して、圧縮された符号化列を生成する。さらに多重化装置MUX(106)において、空間パラメータ情報とM信号の符号化列が多重化されビットストリームが生成される。
FIG. 1 is a diagram for explaining the basic principle of conventional spatial acoustic coding and decoding, represented by Non-Patent
空間パラメータ検出モジュール(102)で検出される空間パラメータ情報としては、2つの信号チャンネル間のレベル/強度差を示すInterchannel Level Difference(以下ILDと呼ぶ。)と、2つのチャンネル間の類似性(コヒーレンス/相関度)を示すInter Channel Correlation( 以下ICCと呼ぶ。)などがある。一般に、ILDは、音のバランス/定位を制御し、ICCは音の幅/拡散性を制御する。これらは共に聴き手が聴覚的情景を頭の中で構成するのを助ける空間パラメータである。これらの空間パラメータは、通常音響スペクトルを複数の「パラメータバンド」からなるグループに区分されたとき、それぞれのパラメータバンドごとに算出される。 Spatial parameter information detected by the spatial parameter detection module (102) includes an inter-channel level difference (hereinafter referred to as ILD) indicating a level / intensity difference between two signal channels and a similarity (coherence) between the two channels. Inter Channel Correlation (hereinafter referred to as ICC) indicating (correlation degree). In general, the ILD controls sound balance / localization, and the ICC controls sound width / diffusivity. These are both spatial parameters that help the listener compose an auditory scene in the head. These spatial parameters are calculated for each parameter band when the normal acoustic spectrum is divided into groups consisting of a plurality of “parameter bands”.
復号化処理では、まず逆多重化装置DEMUX(108)によって、入力されたビットストリームを空間パラメータ情報とダウンミックス信号Mの符号化列に分離する。分離されたMの符号化列は、音響デコーダ(110)(たとえばAACデコーダやMP3デコーダ等)により復号され、ダウンミックス信号Mが復元される。ステレオ信号合成モジュール(112)では、復号化されたダウンミックス信号Mと空間パラメータから、2チャンネルの信号に分離し、元のステレオ信号(L信号とR信号)を復元する。 In the decoding process, first, the demultiplexer DEMUX (108) separates the input bit stream into spatial parameter information and a coded sequence of the downmix signal M. The separated M encoded sequence is decoded by an acoustic decoder (110) (for example, an AAC decoder, an MP3 decoder, etc.), and the downmix signal M is restored. The stereo signal synthesis module (112) separates the decoded downmix signal M and the spatial parameters into two-channel signals, and restores the original stereo signals (L signal and R signal).
上記の例では、エンコーダにおいて入力の二つの信号から1つのダウンミックス信号と空間パラメータを抽出し、デコーダにおいて、空間パラメータとダウンミックス信号とから、ダウンミックス信号を2つの信号に分離する場合を説明したが、2チャンネルより多いオーディオ信号(例えば5.1チャンネル音源を構成する6つの信号)を、符号化処理時に1チャンネルもしくは2チャンネルのダウンミックス信号に圧縮し、復号化処理において5.1チャンネル信号(6チャンネル)に復元することができる。図2は、6チャンネルの場合の例であり、各チャンネル分離モジュール(200〜204)において1つの中間ダウンミックス信号を2つの中間ダウンミックス信号に分離する処理が、6チャンネルそれぞれの単一信号に分離されるまで繰り返される。ここで、Lf、Rf、Ls、Rs、C、及びLFEは、それぞれ左前方スピーカ信号、右前方スピーカ信号、左後方スピーカ信号、右後方スピーカ信号、前方中央信号、及び低域周波数信号に相当する。 In the above example, one downmix signal and a spatial parameter are extracted from two input signals in the encoder, and the downmix signal is separated into two signals from the spatial parameter and the downmix signal in the decoder. However, an audio signal having more than 2 channels (for example, 6 signals constituting a 5.1 channel sound source) is compressed into a 1-channel or 2-channel downmix signal at the time of encoding processing, and 5.1 channels at the time of decoding processing. The signal can be restored to 6 channels. FIG. 2 shows an example in the case of 6 channels. In each channel separation module (200 to 204), the process of separating one intermediate downmix signal into two intermediate downmix signals is converted into a single signal for each of the six channels. Repeat until separated. Here, L f , R f , L s , R s , C, and LFE are a left front speaker signal, a right front speaker signal, a left rear speaker signal, a right rear speaker signal, a front center signal, and a low frequency, respectively. Corresponds to the signal.
図3は、2チャンネル入力の場合のチャンネル分離モジュール(300)の原理を説明するブロック図である。入力されたダウンミックス信号Mは、オールパスフィルタ(301)によって処理され、無相関信号Mrevが生成される。次にモジュール303において、上記2つの信号MおよびMrevは、ミキシング係数であるHijと合成され、以下の式(数1)により2つの信号出力L及びRに分離される。
FIG. 3 is a block diagram illustrating the principle of the channel separation module (300) in the case of 2-channel input. The input downmix signal M is processed by an all-pass filter (301) to generate an uncorrelated signal Mrev . Next, in the
ここで使用されるミキシング係数は、ブロック(302)において、分離信号間の相関の程度、及び分離信号の指向性を維持するように空間パラメータILDおよびICCから算出される。 The mixing coefficient used here is calculated from the spatial parameters ILD and ICC in the block (302) so as to maintain the degree of correlation between the separated signals and the directivity of the separated signals.
図4は、従来の空間音響デコーダの主要なモジュールを説明するブロック図である。逆多重化装置によって分離されたダウンミックス信号符号化列は、音響デコーダ(400)によって、時間領域音響信号に復号化され。次に、分析フィルタバンク(401)によって複数のサブバンド信号に変換される。この分析フィルタバンクは、例えば、QMFフィルタバンクと、ナイキストフィルタバンクの2段階のフィルタで構成され、最初にQMFフィルタバンクで複数のサブバンドに分けられた後、低周波数サブバンドのスペクトルの分解能を高めるために、さらにナイキストフィルタバンクで低周波数サブバンドを分割する。 FIG. 4 is a block diagram illustrating main modules of a conventional spatial acoustic decoder. The downmix signal encoded sequence separated by the demultiplexer is decoded into a time domain acoustic signal by the acoustic decoder (400). Next, it is converted into a plurality of subband signals by the analysis filter bank (401). This analysis filter bank is composed of, for example, a QMF filter bank and a Nyquist filter bank, and is divided into a plurality of subbands by the QMF filter bank, and then the spectrum resolution of the low frequency subband is reduced. In order to enhance it, the low frequency subband is further divided by a Nyquist filter bank.
次に、分析フィルタバンク(401)の出力ベクトルx信号から、チャンネル分離されたyベクトル信号が生成される過程を、図2の5.1chの場合を例に説明する。プリマトリクスモジュール(402)の目的は、図2の各チャンネル分離モジュール(200〜204)が無相関信号を生成するために用いることができる中間信号を生成することである。プレマトリックスモジュールは、入力ダウンミックス信号MのエネルギーレベルをスケーリングするILD空間パラメータから合成信号M1からM4のILD空間パラメータの、スケーリングファクタのベクトルR1を算出する。 Next, a process of generating a channel-separated y vector signal from the output vector x signal of the analysis filter bank (401) will be described by taking 5.1ch in FIG. 2 as an example. The purpose of the pre-matrix module (402) is to generate an intermediate signal that can be used by each channel separation module (200-204) of FIG. 2 to generate an uncorrelated signal. The pre-matrix module calculates a vector R 1 of scaling factors of the ILD spatial parameters of the synthesized signals M 1 to M 4 from the ILD spatial parameters that scale the energy level of the input downmix signal M.
この例において、M1、M2、M3、M4はそれぞれ、
M1 = Lf + Rf + C + LFE
M2 = Lf + Rf
M3 = C + LFE
M4 = Ls + Rs
である。
In this example, M 1 , M 2 , M 3 and M 4 are respectively
M 1 = L f + R f + C + LFE
M 2 = L f + R f
M 3 = C + LFE
M 4 = L s + R s
It is.
無相関モジュール(403)は、v(n, sb)にオールパスフィルタ処理を施し、下記の式により無相関信号wを生成する。ここで、Mi,revはMiに無相関処理を施したものである。 The decorrelation module (403) performs an all-pass filter process on v (n, sb) and generates a decorrelation signal w by the following equation. Here, M i, rev is obtained by subjecting M i to decorrelation processing.
ポストマトリクスモジュール(404)は、個々の信号を導出するために、MとMi,revをミキシングするミキシング係数のマトリックスR2を算出する。図2の例を参照すると、
Lf = H11,A * M2 + H12,A * M2,rev
M2 = H11,D * M1 + H12,D * M1,rev
M1 = H11,E * M + H12,E * Mrev
となる。
The post-matrix module (404) calculates a matrix R 2 of mixing coefficients that mixes M and M i, rev to derive individual signals. Referring to the example of FIG.
L f = H 11, A * M 2 + H 12, A * M 2, rev
M 2 = H 11, D * M 1 + H 12, D * M 1, rev
M 1 = H 11, E * M + H 12, E * M rev
It becomes.
ここで、Hij,Aは、チャンネル分離モジュールCS_A(200)等におけるミキシング係数Hijである。上記3つの数式は、以下の(数4)のような一つのベクトル乗算式にまとめることができる。 Here, H ij, A is a mixing coefficient H ij in the channel separation module CS_A (200) or the like. The above three formulas can be combined into one vector multiplication formula as shown in the following (Equation 4).
上記と同様の数式は、Rf、Ls、...LFEを導出するための、R2,Rf, R2,Ls … R2,LFE ベクトルを算出することによって導出することができる。よって、ベクトルyは以下の(数5)のように表すことができる。 Equations similar to the above are R f , L s,. . . It is possible to derive the LFE by calculating the R2 , Rf , R2 , Ls ... R2 , LFE vector for deriving the LFE . Therefore, the vector y can be expressed as (Equation 5) below.
チャンネル分離モジュール(200〜204)からのミキシング係数の倍数集合からなるマトリックスであるR2は、マルチチャンネル信号を生成するために、M, Mrev, M2,rev, ... M4,revを線形結合したようにみられる。 R 2 , which is a matrix consisting of multiple sets of mixing coefficients from the channel separation module (200-204), generates M, M rev , M 2, rev,. . . It seems that M 4, rev is linearly combined.
R1とR2はいずれも,行を示すr,列を示すc,時間を示すn,サブバンドを示すsbによって特定することができる。 Both R 1 and R 2 can be specified by r indicating a row, c indicating a column, n indicating a time, and sb indicating a subband.
最後に、分離された各信号は合成フィルタバンク(405)によって時間領域信号に変換され、マルチチャンネルの出力信号を得る。ここで、分析フィルタバンクがQMF分析フィルタバンクとナイキスト分析フィルタバンクで構成される場合には、合成フィルタバンク(405)は、合成QMFフィルタバンクと、合成ナイキストフィルタバンクで構成される。 Finally, each separated signal is converted into a time domain signal by the synthesis filter bank (405) to obtain a multi-channel output signal. Here, when the analysis filter bank includes a QMF analysis filter bank and a Nyquist analysis filter bank, the synthesis filter bank (405) includes a synthesis QMF filter bank and a synthesis Nyquist filter bank.
本発明の目的は、前述の構成の空間音響デコーダにおいて、高音質を維持しつつ、必要なメモリ容量、消費電力を減らすことである。
しかしながら従来技術において述べられた空間音響デコーダは、複素係数によるフィルタバンクによって実現されており、復号処理が複素領域において実行されるため、多くの演算費とメモリ容量を必要とする。複素係数の代わりに実数係数のフィルターバンクを用いることにより演算量を大幅に削減することが可能であるが、この場合下記に説明するようにエリアジングの影響による音質劣化が生じてしまうという課題がある。 However, the spatial acoustic decoder described in the prior art is realized by a filter bank with complex coefficients, and decoding processing is executed in the complex domain, so that it requires a lot of calculation costs and memory capacity. By using a filter bank of real coefficients instead of complex coefficients, it is possible to greatly reduce the amount of calculation, but in this case, there is a problem that sound quality deterioration due to the effect of aliasing occurs as described below. is there.
複素係数の分析フィルタバンクは、スペクトル領域を複数のサブバンドに分割した際の、それぞれのサブバンドの信号を出力する。現実のフィルタバンクに用いられるプロトタイプフィルタは、サブバンド間で周波数応答の領域が重なるため、エリアジングが発生する。分析フィルタバンクの出力信号が修正されない場合、もしくは全てのサブバンドに対して同量の修正が行われる場合に、合成フィルタバンクにおいて信号スペクトル全体にわたり周辺サブバンドに流れ出すエリアジング要素は削除されるように、フィルタバンクは設計される。 The complex coefficient analysis filter bank outputs a signal of each subband when the spectral region is divided into a plurality of subbands. In the prototype filter used in an actual filter bank, aliasing occurs because frequency response regions overlap between subbands. If the analysis filter bank output signal is not modified, or if the same amount of modification is made for all subbands, the aliasing elements that flow to the surrounding subbands in the synthesis filter bank will be eliminated. In addition, the filter bank is designed.
しかしながら、信号が修正される場合には、複素フィルタバンクは、その「オーバーサンプリング」特性を通して冗長性を持ち込むことによって、エリアジングの問題を軽減するが、演算及びメモリ負荷を軽減するために実数係数のフィルタバンクを用いた場合、信号は「オーバーサンプル」から「クリティカルサンプル」に変化する。言い換えれば、ミキシングマトリックスR1及びR2によって信号帯域が独立してスケーリングされる場合に、エリアジングの影響による音質の劣化をはっきりと聴くことができるようになる。実際に、エリアジングの影響は、信号スペクトルの強いトーナル成分を持つサブバンド域周辺において特に目立つ。 However, if the signal is modified, the complex filter bank alleviates the aliasing problem by introducing redundancy through its “oversampling” property, but the real coefficients to reduce the computation and memory load. When the filter bank is used, the signal changes from “oversample” to “critical sample”. In other words, when the signal band is independently scaled by the mixing matrices R1 and R2, it is possible to clearly hear the deterioration of sound quality due to the influence of aliasing. In fact, the effect of aliasing is particularly noticeable around the subband region having a strong tonal component of the signal spectrum.
上記課題を解決するために、本発明のマルチチャンネルオーディオ復号装置は、入力時間信号系列から複数のサブバンドを生成する実数係数の分析フィルタバンクと、前記サブバンド信号に対応する無相関信号を生成する実数係数のオールパスフィルタを持つ無相関モジュールと、前記サブバンド信号をマルチチャンネルのサブバンド信号に変換するチャンネル拡大モジュールと、前記サブバンド信号から反射係数を算出する反射係数算出モジュールと、前記反射係数を用いてエリアジングが発生する可能性が高い、強いトーナル成分の存在するサブバンドを特定し、さらに前記エリアジングを抑制するために、前記反射係数を用いてチャンネル拡大モジュールの出力信号をイコライジングするイコライジングモジュールと、実数係数の合成フィルタバンクから構成されることを特徴とする。 In order to solve the above problems, a multi-channel audio decoding apparatus according to the present invention generates an analysis filter bank of real coefficients for generating a plurality of subbands from an input time signal sequence, and generates an uncorrelated signal corresponding to the subband signals. A non-correlated module having an all-pass filter with a real coefficient, a channel expansion module for converting the subband signal into a multi-channel subband signal, a reflection coefficient calculation module for calculating a reflection coefficient from the subband signal, and the reflection The sub-bands with strong tonal components that are highly likely to cause aliasing are identified using coefficients, and the output signal of the channel expansion module is equalized using the reflection coefficients to further suppress the aliasing. Equalizing module and real number coefficient synthesis Characterized in that it is composed of Irutabanku.
本発明は、時間領域の信号を複数のサブバンド信号に変換する実数演算の分析フィルターバンクと、前記サブバンド信号に対応する無相関信号を生成する実数型オールパスフィルタを持つ無相関モジュールと、前記サブバンド信号をマルチチャンネルのサブバンド信号に変換するチャンネル拡大モジュールと、前記チャンネル拡大モジュールで変換されたマルチチャンネルのサブバンド信号を時間領域の信号に変換する実数演算の合成フィルタバンクとから構成されるマルチチャンネルオーディオ復号装置であって、さらに、前記各サブバンド信号から反射係数を算出する反射係数算出モジュールと、前記反射係数を用いて強いトーナル成分の存在するサブバンドを特定し、エリアジングの影響を抑圧するために前記反射係数を用いて前記チャンネル拡大モジュールの出力信号を調整するイコライジングモジュールを備えたことを特徴とする、マルチチャンネルオーディオ復号装置を提供する。 The present invention provides a real number analysis filter bank for converting a time domain signal into a plurality of subband signals, a non-correlation module having a real type all-pass filter for generating a non-correlated signal corresponding to the subband signal, It consists of a channel expansion module that converts a subband signal into a multichannel subband signal, and a synthesis filter bank for real number conversion that converts the multichannel subband signal converted by the channel expansion module into a time domain signal. A multi-channel audio decoding device, further comprising: a reflection coefficient calculation module for calculating a reflection coefficient from each of the subband signals; and identifying a subband in which a strong tonal component exists using the reflection coefficient to perform aliasing. In order to suppress the influence, the reflection coefficient is used to Characterized by comprising an equalizing module for adjusting the output signal of the tunnel expansion module provides a multi-channel audio decoding apparatus.
本発明はまた、時間領域の信号を複数のサブバンド信号に変換する実数演算の分析フィルターバンクと、前記サブバンド信号に対応する無相関信号を生成する実数型オールパスフィルタを持つ無相関モジュールと、前記サブバンド信号をマルチチャンネルのサブバンド信号に変換するチャンネル拡大モジュールと、前記チャンネル拡大モジュールで変換されたマルチチャンネルのサブバンド信号を時間領域の信号に変換する実数演算の合成フィルタバンクとから構成されるマルチチャンネルオーディオ復号装置であって、さらに、前記各サブバンド信号から反射係数を算出する反射係数算出モジュールと、前記サブバンド信号からトーナリティを算出するトーナリティ算出モジュールと、前記反射係数を用いて強いトーナル成分の存在するサブバンドを特定し、エリアジングの影響を抑圧するために、前記トーナリティを用いて前記チャンネル拡大モジュールの出力信号を調整するイコライジングモジュールを備えたことを特徴とした、マルチチャンネルオーディオ復号装置を提供する。 The present invention also provides an analysis filter bank for real arithmetic that converts a signal in the time domain into a plurality of subband signals, an uncorrelated module having a real type all-pass filter that generates an uncorrelated signal corresponding to the subband signals, and A channel expansion module for converting the subband signal into a multichannel subband signal, and a synthesis filter bank for real number operation for converting the multichannel subband signal converted by the channel expansion module into a time domain signal A multi-channel audio decoding device, wherein a reflection coefficient calculation module that calculates a reflection coefficient from each subband signal, a tonality calculation module that calculates a tonality from the subband signal, and the reflection coefficient Supports with strong tonal components Identify bands, in order to suppress the influence of aliasing, said characterized in that it comprises an equalizing module for adjusting the output signal of the channel expansion module, provides a multi-channel audio decoding apparatus using the tonality.
本発明の一実施態様において、反射係数は、単一の周波数成分が2つの連続したサブバンドの間に存在しているときに+1または−1に近い値をとり、(数6)を用い、符号は前記連続したサブバンドの偶奇によって決定される値であることを特徴とする。 In one embodiment of the present invention, the reflection coefficient takes a value close to +1 or −1 when a single frequency component exists between two consecutive subbands, and uses (Equation 6): The sign is a value determined by even and odd of the continuous subbands.
本発明のさらなる一実施態様においては、反射係数の正負をテーブル参照によって求めることを特徴とする。 In a further embodiment of the present invention, the sign of the reflection coefficient is obtained by referring to a table.
本発明のさらなる一実施態様において、チャンネル拡大モジュールの出力信号をイコライジングする際に、隣り合ったサブバンドの反射係数の絶対値の平均が第1の閾値以上の場合には前記反射係数の平均値をそれぞれのサブバンドに対応した出力とし、隣り合ったサブバンドの反射係数の絶対値の平均が第2の閾値より小さい場合には前記反射係数をそれぞれのサブバンドに対応した出力とし、隣り合ったサブバンドの反射係数の絶対値の平均が第1の閾値より小さく第2の閾値以上の場合には前記反射係数と前記反射係数の平均値をそれぞれのサブバンドに対応した出力とすることを特徴する。 In a further embodiment of the present invention, when equalizing the output signal of the channel expansion module, the average value of the reflection coefficients if the average absolute value of the reflection coefficients of adjacent subbands is equal to or greater than a first threshold value. Is output corresponding to each subband, and if the average of the absolute values of the reflection coefficients of adjacent subbands is smaller than the second threshold, the reflection coefficient is output corresponding to each subband and adjacent to each other. If the average of the absolute values of the reflection coefficients of the subbands is smaller than the first threshold and greater than or equal to the second threshold, the reflection coefficient and the average value of the reflection coefficients are set as outputs corresponding to the respective subbands. Characterize.
本発明の別の実施態様において、チャンネル拡大モジュールの出力信号をイコライジングする際に、隣り合ったサブバンドのトーナリティの平均値が第1の閾値以上の場合には前記トーナリティの平均値をそれぞれのサブバンドに対応した出力とし、隣り合ったサブバンドのトーナリティの平均値が第2の閾値より小さい場合には前記トーナリティをそれぞれのサブバンドに対応した出力とし、隣り合ったサブバンドのトーナリティの平均値が第1の閾値より小さく第2の閾値以上の場合には前記トーナリティと前記トーナリティの平均値をそれぞれのサブバンドに対応した出力とすることを特徴とする。 In another embodiment of the present invention, when equalizing the output signal of the channel expansion module, if the average value of the tonalities of adjacent subbands is greater than or equal to the first threshold value, the average value of the tonality is set for each sub-band. When the average value of the tonalities of adjacent subbands is smaller than the second threshold value, the tonalities are output corresponding to the respective subbands, and the average value of the tonalities of adjacent subbands. Is smaller than the first threshold and greater than or equal to the second threshold, the tonality and the average value of the tonality are output corresponding to the respective subbands.
本発明の別の実施態様において、分析フィルターバンクは、時間領域の信号を複数のサブバンド信号に変換する実数係数のQMF分析フィルタバンクと、前記サブバンド信号の分解能を拡張する実数係数のナイキスト分析フィルタバンクから構成され、合成フィルターバンクは、実数係数のナイキスト合成フィルタバンクと、実数係数のQMF合成フィルタバンクとから構成されることを特徴とする。 In another embodiment of the present invention, the analysis filter bank includes a real coefficient QMF analysis filter bank that converts a time domain signal into a plurality of subband signals, and a real coefficient Nyquist analysis that extends the resolution of the subband signals. The filter bank is composed of a Nyquist synthesis filter bank with real coefficients and a QMF synthesis filter bank with real coefficients.
本発明の別の一実施態様において、イコライジング処理は、オーディオ信号の一部の周波数帯域のみに適用されることを特徴とする。 In another embodiment of the present invention, the equalizing process is applied to only a part of the frequency band of the audio signal.
本発明の別の一実施態様において、空間パラメータを共用するサブバンドを1つのパラメータバンドとしてまとめ、前記パラメータバンドごとにイコライジング処理を行うことを特徴とする。 In another embodiment of the present invention, subbands sharing a spatial parameter are grouped as one parameter band, and equalizing processing is performed for each parameter band.
本発明はまた、時間領域の信号を実数係数の分析フィルター演算により複数のサブバンド信号に変換するステップと、実数型オールパスフィルタにより前記サブバンド信号に対応する無相関信号を生成するステップと、前記サブバンド信号をマルチチャンネルのサブバンド信号に変換するステップと、前記変換されたマルチチャンネルのサブバンド信号を実数係数の合成フィルタ演算により時間領域の信号に変換するステップとから構成されるマルチチャンネルオーディオ復号方法であって、さらに、前記各サブバンド信号から反射係数を算出するステップと、前記算出された反射係数を用いて強いトーナル成分の存在するサブバンドを特定し、エリアジングの影響を抑圧するために前記反射係数を用いて前記変換されたマルチチャンネルのサブバンド出力信号をイコライジングするステップとを備えたことを特徴とする、マルチチャンネルオーディオ復号方法を提供する。 The present invention also includes a step of converting a time domain signal into a plurality of subband signals by an analysis filter operation of a real number coefficient, a step of generating an uncorrelated signal corresponding to the subband signal by a real type all-pass filter, Multi-channel audio comprising: converting a sub-band signal into a multi-channel sub-band signal; and converting the converted multi-channel sub-band signal into a time-domain signal by a real coefficient synthesis filter operation. In the decoding method, a step of calculating a reflection coefficient from each subband signal, and a subband in which a strong tonal component exists is specified using the calculated reflection coefficient, and the influence of aliasing is suppressed. For the converted multi-channel using the reflection coefficient Characterized by comprising a step of equalizing the subband output signals to provide a multi-channel audio decoding method.
本発明はまた、時間領域の信号を実数係数の分析フィルター演算により複数のサブバンド信号に変換するステップと、実数型オールパスフィルタにより前記サブバンド信号に対応する無相関信号を生成するステップと、前記サブバンド信号をマルチチャンネルのサブバンド信号に変換するステップと、前記変換されたマルチチャンネルのサブバンド信号を実数係数の合成フィルタ演算により時間領域の信号に変換するステップとから構成されるマルチチャンネルオーディオ復号方法であって、さらに、前記各サブバンド信号から反射係数を算出するステップと、前記サブバンド信号からトーナリティを算出するステップと、前記反射係数を用いて強いトーナル成分の存在するサブバンドを特定し、エリアジングの影響を抑圧するために、前記トーナリティを用いて前記変換されたマルチチャンネルの差分バンド出力信号をイコライジングするステップとを備えたことを特徴とした、マルチチャンネルオーディオ復号方法を提供する。 The present invention also includes a step of converting a time domain signal into a plurality of subband signals by an analysis filter operation of a real number coefficient, a step of generating an uncorrelated signal corresponding to the subband signal by a real type all-pass filter, Multi-channel audio comprising: converting a sub-band signal into a multi-channel sub-band signal; and converting the converted multi-channel sub-band signal into a time-domain signal by a real coefficient synthesis filter operation. A decoding method further comprising: calculating a reflection coefficient from each subband signal; calculating a tonality from the subband signal; and identifying a subband in which a strong tonal component exists using the reflection coefficient In order to suppress the effects of aliasing, Wherein the differential band output signal of the converted multi-channel and a step of equalizing was characterized by, providing a multi-channel audio decoding method using Nariti.
本発明はまた、上述のいずれかに記載の前記マルチチャンネルオーディオ復号方法をコンピュータに実行させるためのプログラムを提供する。 The present invention also provides a program for causing a computer to execute the multi-channel audio decoding method described above.
本発明はまた、上述のプログラムを記録した情報記録媒体を提供する。 The present invention also provides an information recording medium on which the above program is recorded.
本発明により、ビットストリームの構造を変形することなく、従来の空間音響復号技術の演算量を大幅に削減することが可能となり、実数係数フィルタを用いた場合に課題であったエリアジング歪による音質劣化を抑え、低演算、高音質を両立させたマルチチャンネルオーディオ復号装置が実現できる。 According to the present invention, it is possible to greatly reduce the amount of calculation of the conventional spatial acoustic decoding technique without changing the structure of the bit stream, and the sound quality due to aliasing distortion, which has been a problem when using a real coefficient filter, is achieved. It is possible to realize a multi-channel audio decoding device that suppresses deterioration and achieves both low computation and high sound quality.
以下の記載では、非特許文献1に示される音響空間符号化技術を、多数かつ直接的に参照しているが、本発明はその特定の技術に限定されるものではない。
In the following description, the acoustic space encoding technique shown in
本発明は、以下の実施の形態および図面を用いて説明されるが、これらに限定されることを意図しない。 The present invention will be described using the following embodiments and drawings, but is not intended to be limited thereto.
(実施の形態1)
図5は、本発明の第1の実施の形態を説明するためのデコーダの構成図である。分析フィルタバンク(501)は、オーディオデコーダ(500)で復号されたダウンミックス出力信号から、複数のサブバンド信号に変換するQMFフィルタバンクとナイキストフィルタバンクとから構成される。ここで従来技術で使用されるQMFフィルタバンク変調係数Mは、下記(数7)の複素数係数であるが、本発明では、以下の(数8)の実数変調係数Mを用いる。
(Embodiment 1)
FIG. 5 is a block diagram of a decoder for explaining the first embodiment of the present invention. The analysis filter bank (501) includes a QMF filter bank and a Nyquist filter bank for converting the downmix output signal decoded by the audio decoder (500) into a plurality of subband signals. Here, the QMF filter bank modulation coefficient M used in the conventional technique is a complex coefficient of the following (Equation 7). In the present invention, the real modulation coefficient M of the following (Equation 8) is used.
非特許文献1に示される空間音響デコーダには、高音質 (HQ) モードと低演算量 (LC) モードの2つのデコーダモードが存在する。HQモードでは、低域の7つのサブバンドがナイキストフィルタバンク(Nyq)によって、それぞれ16, 8, 8, 4, 4, 4, 4のハイブリッドサブバンドに分割される。LCモードで使用されるナイキストフィルタには、表1の4列目に示すように、複素係数を用いるType Aのフィルタと実数係数を用いるType Bフィルタの2種類のフィルタがあり、これらの低域の3つのサブバンドが8, 2, 2のハイブリッドサブバンドに分割される。4列目には対応するハイブリッドサブバンドの数が書かれ、5列目には前記ハイブリッドサブバンドの添字が書かれている。
The spatial acoustic decoder shown in
また、従来技術で用いられるTypeAのナイキストフィルタバンクでは下記(数9)の複素数変調係数が用いられるが、本発明では、以下の(数10)の実数変調係数を用いる。 In the Type A Nyquist filter bank used in the prior art, the following complex modulation coefficient (Equation 9) is used. In the present invention, the following real modulation coefficient (Equation 10) is used.
Type Bフィルタは、下記(数11)の実数係数のナイキストフィルタバンクを使用する。 The Type B filter uses a real coefficient Nyquist filter bank of (Equation 11) below.
重複しないハイブリッドサブバンドの数は、実数型のType Aのナイキストフィルタによって分割されたサブバンドの総数の二分の一となる。表1の6列目には実数係数を用いた場合のハイブリッドサブバンドの数が書かれ、7列目には前記実数係数を用いた場合のハイブリッドサブバンドの添字と複素係数を用いた場合のハイブリッドサブバンドの添字の対応が書かれている。 The number of non-overlapping hybrid subbands is one half of the total number of subbands divided by the real type A Nyquist filter. The sixth column of Table 1 shows the number of hybrid subbands when using real coefficients, and the seventh column shows the case where hybrid subband subscripts and complex coefficients when using real coefficients are used. The subscript correspondence of the hybrid subband is written.
次に上記の実数係数のフィルターバンクを使用した際に発生するエリアジングの影響を抑制するための方法について説明する。
反射係数算出モジュール(506)では、下記(数12)で示されるような式で算出される反射係数ref(sb)を用いて、高いトーナル成分が存在するハイブリッドサブバンドを特定する。
Next, a method for suppressing the influence of aliasing that occurs when the above-described real coefficient filter bank is used will be described.
In the reflection coefficient calculation module (506), a hybrid subband in which a high tonal component exists is specified by using the reflection coefficient ref (sb) calculated by the following equation (Equation 12).
ここで、反射係数ref(sb)の値は−1から1の間の値をとる。 Here, the value of the reflection coefficient ref (sb) takes a value between −1 and 1.
表2は、LCモードにおいて隣り合う2つハイブリッドサブバンドの間にトーナル成分が存在するときの隣接する2つのサブバンドのref(sb)の符号sref(sb)を示す。例えば、トーナル成分が2番目と3番目のハイブリッドサブバンドの間に存在するならば(表2のsb<7, sb=偶数の場合)、表2よりref(2)とref(3)の符号はともに正(+)となる。2つのハイブリッドサブバンドの周波数応答が重なり合う領域のより近くにトーナル成分が存在するほど、ref(sb)の絶対値である|ref(sb)|の値は大きくなり、エリアジングが発生する危険性が高くなる。HQモードについても同様の関係を表3に示す。 Table 2 shows codes sref (sb) of ref (sb) of two adjacent subbands when a tonal component is present between two adjacent hybrid subbands in the LC mode. For example, if a tonal component is present between the second and third hybrid subbands (when sb <7, sb = even in Table 2), the codes of ref (2) and ref (3) from Table 2 Are both positive (+). The closer to the region where the frequency responses of the two hybrid subbands overlap, the greater the value of | ref (sb) |, which is the absolute value of ref (sb), and the risk of aliasing Becomes higher. A similar relationship is shown in Table 3 for the HQ mode.
イコライジング処理は、ref(sb)とref(sb+1)の値から、トーナル成分がsbとsb+1の間に存在することが判明した場合、R(sb)とR(sb+1)は互いに近づくように、トーナル成分が強ければ強いほど、これら2つの値はより近づくよう調整する。 In the equalizing process, when it is determined from the values of ref (sb) and ref (sb + 1) that the tonal component exists between sb and sb + 1, the tonal The stronger the component, the closer these two values are adjusted.
図7は、イコライジングモジュール(507)での上記のイコライジング処理の詳細を説明するためのフローチャートである。ここでv(sb)はハイブリッドサブバンドsbにおけるスケーリングファクタであるR1(sb)とミキシングファクタR2(sb)を示す。モジュール(507)では、r行c列n時点について、v(sb) = R1(sb)となり、モジュール(508)では、r行c列n時点について、v(sb) = R2(sb)となる。 FIG. 7 is a flowchart for explaining the details of the equalizing process in the equalizing module (507). Here, v (sb) represents a scaling factor R 1 (sb) and a mixing factor R 2 (sb) in the hybrid subband sb. In the module (507), v (sb) = R 1 (sb) at the time point r row c column n, and v (sb) = R 2 (sb) at the time point r row c column n in the module (508). It becomes.
始めにステップ(700)によってサブバンドインデックスsbが0に初期化される。ステップ(701)は全てのサブバンドが処理されたかを確認する。すべてのサブバンドの処理が完了すれば、イコライジング処理は終了する。 First, the subband index sb is initialized to 0 by step (700). Step (701) checks if all subbands have been processed. If the processing of all the subbands is completed, the equalizing process ends.
ステップ(702)で各サブバンドsbについて、 ref0とref1を算出する。これらはサブバンドsbとsb+1の反射係数ref(sb)とref(sb+1)に、表2または表3に記載されたそれらの極性sref(sb)とsref(sb+1)をそれぞれ乗じた値である。ここで、ref0とref1の平均値とv(sb)とv(sb+1)の平均値が算出され、それぞれave_refとave_vとして保存される。 In step (702), ref0 and ref1 are calculated for each subband sb. These are values obtained by multiplying the reflection coefficients ref (sb) and ref (sb + 1) of the subbands sb and sb + 1 by their polarities sref (sb) and sref (sb + 1) described in Table 2 or Table 3, respectively. Here, the average value of ref0 and ref1 and the average value of v (sb) and v (sb + 1) are calculated and stored as ave_ref and ave_v, respectively.
任意の実数に対して、その実数の極性(+1あるいは−1)を乗ずると正の値となるので、sbとsb+1との間に単一のトーナル成分が存在する場合、ref0とref1は正の値となる。 ステップ(703)は、ref0およびref1がともに正の値であるかを確認し、層でない場合、ステップ(708)でサブバンドsbをインクリメントし、次のサブバンドについて同様の処理が繰り返し行われる。 When an arbitrary real number is multiplied by the polarity (+1 or -1) of the real number, a positive value is obtained. Therefore, when a single tonal component exists between sb and sb + 1, ref0 and ref1 are positive. Value. In step (703), it is confirmed whether ref0 and ref1 are both positive values. If not, the subband sb is incremented in step (708), and the same processing is repeated for the next subband.
ステップ(704)において、各サブバンドについてのave_refと第2の閾値TH2(ただしTH2>TH1)とが比較され、ave_refの値のほうが大きいならば、sbとsb+1の平均トーナリティは非常に高く、エリアジングの影響が大きく、最大限のイコライジング処理が必要であると判断する。このような場合、ステップ(705)により空間パラメータについて2つのサブバンドの平均値ave_vを出力とする。 In step (704), ave_ref for each subband is compared with a second threshold TH2 (where TH2> TH1), and if the value of ave_ref is greater, the average tonality of sb and sb + 1 is very high and the area It is judged that the influence of ging is large and the maximum equalizing process is necessary. In such a case, the average value ave_v of the two subbands is output for the spatial parameter in step (705).
ステップ(706)ではave_refと第1の閾値TH1(ただしTH1<TH2)とを比較する。Ave_refの値の方が小さいならば、エリアジングの影響を無視できるほどsbとsb+1のトーナリティが低いことを意味する。よってこの場合、イコライジング処理は行わない。 In step (706), ave_ref is compared with the first threshold value TH1 (where TH1 <TH2). If the value of Ave_ref is smaller, it means that the tonality of sb and sb + 1 is so low that the influence of aliasing can be ignored. Therefore, in this case, the equalizing process is not performed.
第1の閾値TH1と第2の閾値TH2の間の値となるave_refを持つすべてのサブバンドについて、ステップ(707)の処理により、sb及びsb+1の空間パラメータは線形的に補間された値に調整される。この補間処理は、ave_refが第1の閾値TH1に近ければv(sb)とv(sb+1)はその元の値に近くなり、ave_refが第2の閾値TH2に近ければ、v(sb)とv(sb+1)はその平均値である0.5*(v(sb)+v(sb+1))に近くなる。 For all subbands having ave_ref that is between the first threshold value TH1 and the second threshold value TH2, the spatial parameter of sb and sb + 1 is adjusted to a linearly interpolated value by the processing of step (707). Is done. In this interpolation process, v (sb) and v (sb + 1) are close to their original values if ave_ref is close to the first threshold TH1, and v (sb) and v are appropriate if ave_ref is close to the second threshold TH2. (Sb + 1) is close to the average value of 0.5 * (v (sb) + v (sb + 1)).
ステップ(700)からステップ(708)までの処理は、R1とR2の全ての行r,列c,時間nについて行われる。 The processing from step (700) to step (708) is performed for all rows r, columns c, and times n of R 1 and R 2 .
空間パラメータの量を削減するため、一定の範囲のsbと nの領域で空間パラメータを共有するパラメータバンドに(n, sb)平面を分割し、連続したサブバンドは同じ空間パラメータを持つという知見を利用して、上記の実施例を高速化することが可能である。パラメータバンドの切り替わりの結果、空間パラメータが変化したサブバンドのみ、イコライジング処理を施す。この場合、例えばステップ(703)の条件式を、次のように変形すればよい。 In order to reduce the amount of spatial parameters, we divide the (n, sb) plane into parameter bands that share spatial parameters in a certain range of sb and n regions, and the knowledge that consecutive subbands have the same spatial parameters By utilizing this, it is possible to speed up the above embodiment. Only the subbands whose spatial parameters have changed as a result of the switching of the parameter bands are subjected to equalizing processing. In this case, for example, the conditional expression in step (703) may be modified as follows.
(ref0>0 && ref1>0) && (PARAM_BAND(sb)!=PARAM_BAND(sb+1)) (Ref0> 0 && ref1> 0) && (PARAM_BAND (sb)! = PARAM_BAND (sb + 1))
無相関化モジュール(503)では、非整数遅延係数は除去され、(数13)の複素ラティス係数の代わりに、以下の式(数14)のように実数ラティス係数を用いて処理が行われる。 In the decorrelation module (503), the non-integer delay coefficient is removed, and processing is performed using a real lattice coefficient as shown in the following expression (Expression 14) instead of the complex lattice coefficient of (Expression 13).
上記のように非整数遅延係数を除去した際の出力信号のエコー密度の現象は僅かであるため、高音質を維持したまま、演算量やメモリ容量の大幅な削減を実現することができる。 As described above, since the phenomenon of the echo density of the output signal when the non-integer delay coefficient is removed is small, it is possible to realize a significant reduction in the calculation amount and the memory capacity while maintaining high sound quality.
最後に、ナイキスト合成フィルタバンク及びQMF合成フィルタバンクから構成される合成フィルタバンク(505)において、従来例で説明した合成フィルタバンク(405)のQMF合成フィルターバンクで用いられる(数15)の複素変調係数に代わって、以下の(数16)の実数変調係数を用いて、合成フィルター処理が行われ、時間領域の復号化されたマルチチャンネル信号が出力される。 Finally, in the synthesis filter bank (505) composed of the Nyquist synthesis filter bank and the QMF synthesis filter bank, the complex modulation of (Expression 15) used in the QMF synthesis filter bank of the synthesis filter bank (405) described in the conventional example. Instead of the coefficients, synthesis filter processing is performed using the following real number modulation coefficients of (Expression 16), and a time-domain decoded multi-channel signal is output.
(実施の形態2)
図6は、本発明の第2の実施の形態を説明するためのデコーダのブロック図である。実施の形態1のブロック図である図5との相違は、反射係数算出モジュール(506)が、反射係数/トーナリティ算出モジュール(606)に置き換わり、イコライジングモジュール(607,608)の動作が一部異なることであり、それ以外のモジュールの動作は図5と同一であるのでここでは説明を省略する。前記第1の実施の形態で説明した反射係数によってトーナル成分が存在するサブバンドを特定し、別のトーナリティ測定手段がイコライジングの必要度合いを評価するために用いられる。
(Embodiment 2)
FIG. 6 is a block diagram of a decoder for explaining the second embodiment of the present invention. The difference from FIG. 5 which is the block diagram of the first embodiment is that the reflection coefficient calculation module (506) is replaced with the reflection coefficient / tonality calculation module (606), and the operations of the equalizing modules (607, 608) are partially different. That is, the operation of the other modules is the same as that in FIG. The subband in which the tonal component is present is specified by the reflection coefficient described in the first embodiment, and another tonality measurement unit is used to evaluate the necessity level of equalization.
例えば、gフレーム目のsbサブバンドにおけるトーナリティ Tg(sb)は次式(数17)に示すようにエネルギで重み付けされたコヒーレンスの平均値として算出される。 For example, the tonality T g (sb) in the sb subband of the g-th frame is calculated as an average value of coherence weighted with energy as shown in the following equation (Equation 17).
ここで、下記(数18)は2つのフレームgとg−1における信号パワーを示し、下記(数19)は前記フレーム間のコヒーレンスを示す。 Here, (Equation 18) below shows the signal power in the two frames g and g-1, and (Equation 19) below shows the coherence between the frames.
また、下記(数20)は0から1の間の値をとり、0はトーナリティがまったく存在しないことを示し、1は非常に高いトーナリティが存在することを示す。次式(数21)に示すように、対象となる2つのフレームのトーナリティの内、小さい方の値を最終的なトーナリティとする。 The following (Equation 20) takes a value between 0 and 1, with 0 indicating no tonality and 1 indicating a very high tonality. As shown in the following equation (Equation 21), the smaller value of the tonalities of the two target frames is set as the final tonality.
図8は、トーナリティを用いたイコライジング処理の方法を説明するためのフローチャートである。第1の実施の形態で説明した反射係数を用いたイコライジング処理(図7)との違いは、(803)で反射係数を用いてトーナル成分が存在するサブバンドを確定した後、ステップ(802)で算出されたサブバンドsbとサブバンドsb+1の平均トーナリティであるave_Tを用いて、ステップ(805)およびステップ(806)の閾値判定を行い、ステップ(807)でave_Tを用いてイコライジング処理を行うことである。それ以外のステップの処理の内容は、図7と同一である。
FIG. 8 is a flowchart for explaining a method of equalizing processing using tonality. The difference from the equalizing process using the reflection coefficient described in the first embodiment (FIG. 7) is that the subband in which the tonal component exists is determined using the reflection coefficient in (803), and then the step (802). Ave_T that is the average tonality of subband sb and subband sb + 1 calculated in
(実施の形態3)
本発明の実施の形態3として、前記実施の形態1および2のイコライジングの処理を、周波数スペクトル上の一部分にのみ適用する場合について図9を用いて説明する。
(Embodiment 3)
As a third embodiment of the present invention, a case where the equalizing process of the first and second embodiments is applied to only a part of the frequency spectrum will be described with reference to FIG.
図9は、周波数スペクトルを、サブバンドSB_STARTおよびSB_STOPで分割した様子を示し、例えば実施の形態1および2で説明したイコライジングの処理を図9のBの領域のみ行うようにする。具体的には、周波数スペクトル上の低域部分に相当する’A’領域では、エリアジングをほとんど発生させないために複素数処理のままにしておき、’B’領域では実施の形態1および2で説明した方法によるイコライジングを行い。’C’領域では従来用いられている他のイコライジングを行う。すなわち、本実施例は従来の他のイコライジング方式と共存することが可能である。 FIG. 9 shows a state where the frequency spectrum is divided by subbands SB_START and SB_STOP. For example, the equalizing process described in the first and second embodiments is performed only in the region B in FIG. Specifically, in the 'A' region corresponding to the low frequency part on the frequency spectrum, complex processing is left in order to hardly generate aliasing, and in the 'B' region, the description will be given in the first and second embodiments. Perform equalization by the method. In the 'C' region, other conventional equalizing is performed. That is, this embodiment can coexist with other conventional equalizing methods.
実際には、上記一部の周波数スペクトル領域へのイコライジングの処理は、たとえば図7および図8のフローチャートにおいて、ステップ(700)およびステップ(800)でsbをSB_STARTという数値で初期化し、ステップ(701)およびステップ(801)において終了条件を sb == SB_STOP - 1 と置き換えることによって実現できる。 Actually, the equalizing process to the part of the frequency spectrum region is performed by, for example, initializing sb with a numerical value SB_START in steps (700) and (800) in the flowcharts of FIGS. ) And step (801) can be realized by replacing the termination condition with sb == SB_STOP-1.
なお、これらの処理は、図9の場合に限定されず、エリアジングの影響が生じる可能性のない周波数スペクトルの帯域があれば、当該帯域についてのイコライジングを行わないようにするように構成することも可能である。 Note that these processes are not limited to the case of FIG. 9, and if there is a band of a frequency spectrum that is not likely to cause aliasing, it is configured not to perform equalization for the band. Is also possible.
(実施の形態4)
本発明の実施の形態4として、1つのQMFサブバンドに2つの近接したトーナル成分が存在する場合を考慮したイコライジング処理方法について説明する。これは表2および表3において、LCモードではsbが7より大きいとき、HQモードではsbが23より大きいときが対象となる。
(Embodiment 4)
As an embodiment 4 of the present invention, an equalizing processing method considering a case where two adjacent tonal components exist in one QMF subband will be described. In Table 2 and Table 3, this applies when sb is larger than 7 in the LC mode and when sb is larger than 23 in the HQ mode.
sbが偶数かつsbとsb+1の間にトーナル成分が存在するならば、表2および表3から明らかなように、ref(sb)とref(sb+1) はともに負の値とある。同様にsbが偶数かつsb+1とsbの間にトーナル成分が存在するならば、ref(sb+1)とref(sb+2) はともに正の値である。 If sb is an even number and a tonal component exists between sb and sb + 1, as is clear from Tables 2 and 3, both ref (sb) and ref (sb + 1) are negative values. Similarly, if sb is an even number and a tonal component exists between sb + 1 and sb, ref (sb + 1) and ref (sb + 2) are both positive values.
しかしながら1つのQMFサブバンドに同時に2つのトーナル成分が存在するときには、ref(sb+1)の符号は対応するトーナル成分のエネルギに依存し、高域側のトーナル成分が低域側のトーナル成分よりエネルギが大きければref(sb+1)は正の値となり、低域側のトーナル成分のエネルギが大きければref(sb+1)は負の値となる。よってこの場合は、ref(sb+1)を用いてイコライジングの量を決定することができない。 However, when two tonal components exist simultaneously in one QMF subband, the sign of ref (sb + 1) depends on the energy of the corresponding tonal component, and the tonal component on the high frequency side has more energy than the tonal component on the low frequency side. If it is large, ref (sb + 1) becomes a positive value, and if the energy of the tonal component on the low frequency side is large, ref (sb + 1) becomes a negative value. Therefore, in this case, the equalizing amount cannot be determined using ref (sb + 1).
以下、実施の形態4のイコライジングの方法を、図10のフローチャートを用いて説明する。まずステップ(1000)においてsbはSTART_SBで初期化される。ここで、LCモードのときSTART_SB は8であり、 HQモードではSTART_SBは24である。 Hereinafter, the equalizing method according to the fourth embodiment will be described with reference to the flowchart of FIG. First, in step (1000), sb is initialized with START_SB. Here, START_SB is 8 in the LC mode, and START_SB is 24 in the HQ mode.
ステップ(1002)においてsbから始まる3つの連続したサブバンドの反射係数ref(sb)、ref(sb+1)、ref(sb+2)が算出され、sbが偶数の時には符号を負、すなわちsign(sb)を−1とし、sbが奇数の時にはsign(sb)を1として、各反射係数にsign(sb)を乗じた値を求め、それぞれref0, ref1, ref2として記録される。 In step (1002), the reflection coefficients ref (sb), ref (sb + 1), and ref (sb + 2) of three consecutive subbands starting from sb are calculated. When sb is an even number, the sign is negative, that is, sign (sb) is set. When -1 is -1 and sb is an odd number, sign (sb) is set to 1, and values obtained by multiplying each reflection coefficient by sign (sb) are obtained and recorded as ref0, ref1, and ref2, respectively.
ステップ(1003)において、 ref0 とref2の符号が異なっているかを調べ、異なっている場合には1つのQMFサブバンドに2つのトーナル成分が存在すると推定される。この場合、ref1は高域のトーナル成分に影響されてしまうため、ステップ(1004)によってave_refとしてref0が用いられる。一方、ref0 とref2の符号が等しい場合には、1つのQMFサブバンドに1つのトーナル成分が存在すると推定され、ステップ(1005)から以降の処理は、実施の形態1で説明したものと同様の処理が行われる。 In step (1003), it is checked whether the signs of ref0 and ref2 are different. If they are different, it is estimated that two tonal components exist in one QMF subband. In this case, since ref1 is affected by the high frequency tonal component, ref0 is used as ave_ref in step (1004). On the other hand, when the codes of ref0 and ref2 are equal, it is estimated that one tonal component exists in one QMF subband, and the processing from step (1005) is the same as that described in the first embodiment. Processing is performed.
なお、本発明の実施の形態1、2,3および4では、図4、図5、図6に示されるようなプリマトリクス化モジュールとポストマトリクス化モジュールで構成される音響空間デコーダを用いて説明したが、R1を生成するためにプリマトリクス化モジュールとポストマトリクス化モジュールを統合した統合マトリクス化モジュールを用いて構成することも可能である。図11は、図5が統合マトリクス化モジュールで構成された場合に、反射係数を用いてイコライジング処理を行う音響空間デコーダのブロック図である。ここでR1をイコライジングするイコライジングモジュール(1106)の処理として、本発明の実施の形態1あるいは4で説明したイコライジングの方法を適用することが可能である。図6に関しても同様に、統合マトリクス化モジュールで構成することができ、イコライジング処理は、実施の形態2あるいは4で説明したものと同様の方法を適用することが可能である。また、これらのいずれの場合においても、u(n.sb) = x(n.sb)と近似すると、反射係数を1回だけ計算すればよく、さらなる演算量の削減も可能となる。 In the first, second, third, and fourth embodiments of the present invention, description will be made using an acoustic space decoder composed of a pre-matrix module and a post-matrix module as shown in FIGS. However, it is also possible to use an integrated matrixing module in which a prematrixing module and a postmatrixing module are integrated to generate R1. FIG. 11 is a block diagram of an acoustic space decoder that performs equalizing processing using reflection coefficients when FIG. 5 is configured by an integrated matrix module. Here, as the process of the equalizing module (1106) for equalizing R1, the equalizing method described in the first or fourth embodiment of the present invention can be applied. Similarly, FIG. 6 can also be configured by an integrated matrix module, and the equalizing process can be performed by the same method as that described in the second or fourth embodiment. Further, in any of these cases, when approximated to u (n.sb) = x (n.sb), the reflection coefficient needs to be calculated only once, and the amount of calculation can be further reduced.
本発明のマルチチャンネルオーディオ復号装置は、低消費電力で、かつ少ないメモリー容量で処理を行うことのできる復号装置であって、放送等の低ビットレートの応用をはじめ、ホームシアターシステム、車載音響システム及び電子ゲームシステムに適用可能である。 The multi-channel audio decoding device of the present invention is a decoding device that can perform processing with low power consumption and a small memory capacity, including application of low bit rate such as broadcasting, home theater system, in-vehicle audio system, and Applicable to electronic game systems.
500 オーディオデコーダ
501 分析フィルタバンク
503 無相関化モジュール
506 反射係数算出モジュール
507 イコライジングモジュール
500
Claims (20)
さらに、前記各サブバンド信号から反射係数を算出する反射係数算出モジュールと、前記反射係数を用いて強いトーナル成分の存在するサブバンドを特定し、エリアジングの影響を抑圧するために前記反射係数を用いて前記チャンネル拡大モジュールの出力信号を調整するイコライジングモジュールを備えたことを特徴とする、マルチチャンネルオーディオ復号装置。 A real number analysis filter bank for converting a signal in the time domain into a plurality of subband signals, a non-correlation module having a real type all-pass filter for generating a decorrelation signal corresponding to the subband signal, and the subband signal Multi-channel audio comprising a channel expansion module for converting to a multi-channel sub-band signal, and a synthesis filter bank for real number operation for converting the multi-channel sub-band signal converted by the channel expansion module to a signal in the time domain A decoding device,
Further, a reflection coefficient calculation module that calculates a reflection coefficient from each subband signal, and a subband in which a strong tonal component exists is specified using the reflection coefficient, and the reflection coefficient is set to suppress the influence of aliasing. A multi-channel audio decoding apparatus, comprising: an equalizing module for adjusting an output signal of the channel expansion module.
前記チャンネル拡大モジュールで変換されたマルチチャンネルのサブバンド信号を時間領域の信号に変換する実数演算の合成フィルタバンクとから構成されるマルチチャンネルオーディオ復号装置であって、
さらに、前記各サブバンド信号から反射係数を算出する反射係数算出モジュールと、前記サブバンド信号からトーナリティを算出するトーナリティ算出モジュールと、前記反射係数を用いて強いトーナル成分の存在するサブバンドを特定し、エリアジングの影響を抑圧するために、前記トーナリティを用いて前記チャンネル拡大モジュールの出力信号を調整するイコライジングモジュールを備えたことを特徴とした、マルチチャンネルオーディオ復号装置。 A real number analysis filter bank for converting a signal in the time domain into a plurality of subband signals, a non-correlation module having a real type all-pass filter for generating a decorrelation signal corresponding to the subband signal, and the subband signal A channel expansion module that converts multi-channel subband signals;
A multi-channel audio decoding device comprising a real-valued synthesis filter bank for converting a multi-channel subband signal converted by the channel expansion module into a time-domain signal,
Further, a reflection coefficient calculation module that calculates a reflection coefficient from each of the subband signals, a tonality calculation module that calculates a tonality from the subband signal, and a subband in which a strong tonal component exists is specified using the reflection coefficient. A multi-channel audio decoding apparatus comprising: an equalizing module that adjusts an output signal of the channel expansion module using the tonality in order to suppress the influence of aliasing.
さらに、前記各サブバンド信号から反射係数を算出するステップと、前記算出された反射係数を用いて強いトーナル成分の存在するサブバンドを特定し、エリアジングの影響を抑圧するために前記反射係数を用いて前記変換されたマルチチャンネルのサブバンド出力信号をイコライジングするステップとを備えたことを特徴とする、マルチチャンネルオーディオ復号方法。 Converting a time-domain signal into a plurality of subband signals by an analysis filter operation of a real coefficient; generating an uncorrelated signal corresponding to the subband signal by a real-type all-pass filter; A multi-channel audio decoding method comprising: a step of converting into a channel sub-band signal; and a step of converting the converted multi-channel sub-band signal into a time-domain signal by a synthesis filter operation of a real coefficient. ,
Further, a step of calculating a reflection coefficient from each of the subband signals, a subband in which a strong tonal component exists is identified using the calculated reflection coefficient, and the reflection coefficient is suppressed in order to suppress the influence of aliasing. And a method of equalizing the converted multi-channel subband output signal using the multi-channel audio decoding method.
さらに、前記各サブバンド信号から反射係数を算出するステップと、前記サブバンド信号からトーナリティを算出するステップと、前記反射係数を用いて強いトーナル成分の存在するサブバンドを特定し、エリアジングの影響を抑圧するために、前記トーナリティを用いて前記変換されたマルチチャンネルの差分バンド出力信号をイコライジングするステップとを備えたことを特徴とした、マルチチャンネルオーディオ復号方法。 Converting a time-domain signal into a plurality of subband signals by an analysis filter operation of a real coefficient; generating an uncorrelated signal corresponding to the subband signal by a real-type all-pass filter; A multi-channel audio decoding method comprising: a step of converting into a channel sub-band signal; and a step of converting the converted multi-channel sub-band signal into a time-domain signal by a synthesis filter operation of a real coefficient. ,
Further, a step of calculating a reflection coefficient from each subband signal, a step of calculating a tonality from the subband signal, a subband in which a strong tonal component is present is identified using the reflection coefficient, and the influence of aliasing And a step of equalizing the converted multi-channel differential band output signal using the tonality.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005376570A JP2007178684A (en) | 2005-12-27 | 2005-12-27 | Multi-channel audio decoding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005376570A JP2007178684A (en) | 2005-12-27 | 2005-12-27 | Multi-channel audio decoding device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007178684A true JP2007178684A (en) | 2007-07-12 |
Family
ID=38303937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005376570A Pending JP2007178684A (en) | 2005-12-27 | 2005-12-27 | Multi-channel audio decoding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007178684A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010005050A1 (en) * | 2008-07-11 | 2010-01-14 | 日本電気株式会社 | Signal analyzing device, signal control device, and method and program therefor |
JP2013524267A (en) * | 2010-03-29 | 2013-06-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Spatial audio processor and method for providing spatial parameters based on an acoustic input signal |
JP5243527B2 (en) * | 2008-07-29 | 2013-07-24 | パナソニック株式会社 | Acoustic encoding apparatus, acoustic decoding apparatus, acoustic encoding / decoding apparatus, and conference system |
CN104995676A (en) * | 2013-02-14 | 2015-10-21 | 杜比实验室特许公司 | Signal decorrelation in an audio processing system |
JP2016537669A (en) * | 2013-10-21 | 2016-12-01 | ドルビー・インターナショナル・アーベー | Parametric reconstruction of audio signals |
-
2005
- 2005-12-27 JP JP2005376570A patent/JP2007178684A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010005050A1 (en) * | 2008-07-11 | 2010-01-14 | 日本電気株式会社 | Signal analyzing device, signal control device, and method and program therefor |
JP5243527B2 (en) * | 2008-07-29 | 2013-07-24 | パナソニック株式会社 | Acoustic encoding apparatus, acoustic decoding apparatus, acoustic encoding / decoding apparatus, and conference system |
JP2013524267A (en) * | 2010-03-29 | 2013-06-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Spatial audio processor and method for providing spatial parameters based on an acoustic input signal |
US9626974B2 (en) | 2010-03-29 | 2017-04-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Spatial audio processor and a method for providing spatial parameters based on an acoustic input signal |
US10327088B2 (en) | 2010-03-29 | 2019-06-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Spatial audio processor and a method for providing spatial parameters based on an acoustic input signal |
CN104995676A (en) * | 2013-02-14 | 2015-10-21 | 杜比实验室特许公司 | Signal decorrelation in an audio processing system |
JP2016537669A (en) * | 2013-10-21 | 2016-12-01 | ドルビー・インターナショナル・アーベー | Parametric reconstruction of audio signals |
US10242685B2 (en) | 2013-10-21 | 2019-03-26 | Dolby International Ab | Parametric reconstruction of audio signals |
US10614825B2 (en) | 2013-10-21 | 2020-04-07 | Dolby International Ab | Parametric reconstruction of audio signals |
US11450330B2 (en) | 2013-10-21 | 2022-09-20 | Dolby International Ab | Parametric reconstruction of audio signals |
US11769516B2 (en) | 2013-10-21 | 2023-09-26 | Dolby International Ab | Parametric reconstruction of audio signals |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4944029B2 (en) | Audio decoder and audio signal decoding method | |
TWI415111B (en) | Spatial decoder unit, spatial decoder device, audio system, consumer electronic device, method of producing a pair of binaural output channels, and computer readable medium | |
US9479871B2 (en) | Method, medium, and system synthesizing a stereo signal | |
AU2007212845B2 (en) | Apparatus and method for encoding/decoding signal | |
CN101385075B (en) | Apparatus and method for encoding/decoding signal | |
JP4918490B2 (en) | Energy shaping device and energy shaping method | |
TWI404429B (en) | Method and apparatus for encoding/decoding multi-channel audio signal | |
JP5053849B2 (en) | Multi-channel acoustic signal processing apparatus and multi-channel acoustic signal processing method | |
CN105917406B (en) | Parametric reconstruction of audio signals | |
CN117037810A (en) | Encoding of multichannel audio content | |
RU2406164C2 (en) | Signal coding/decoding device and method | |
JP2007178684A (en) | Multi-channel audio decoding device | |
KR101464977B1 (en) | Method of managing a memory and Method and apparatus of decoding multi channel data | |
US9837085B2 (en) | Audio encoding device and audio coding method | |
KR20130079895A (en) | Decoding method of audio signal and decoding apparatus thereof | |
KR20080010981A (en) | Method for encoding and decoding data | |
JP2007110565A (en) | Multi-channel sound decoding device and method |