JP2006323314A - Apparatus for binaural-cue-coding multi-channel voice signal - Google Patents
Apparatus for binaural-cue-coding multi-channel voice signal Download PDFInfo
- Publication number
- JP2006323314A JP2006323314A JP2005148771A JP2005148771A JP2006323314A JP 2006323314 A JP2006323314 A JP 2006323314A JP 2005148771 A JP2005148771 A JP 2005148771A JP 2005148771 A JP2005148771 A JP 2005148771A JP 2006323314 A JP2006323314 A JP 2006323314A
- Authority
- JP
- Japan
- Prior art keywords
- channel
- signal
- downmix
- mixing
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
Description
本発明は、符号化処理においてバイノーラルキューを抽出して、ダウンミックス信号を生成し、復号化処理において前記バイノーラルキューを前記ダウンミックス信号に付加することでマルチチャネル音声信号を圧縮する装置に関する。本発明は、ホームシアターシステム、カーオーディオシステム、電子ゲームシステム等に適用可能である。 The present invention relates to an apparatus for compressing a multi-channel audio signal by extracting a binaural cue in an encoding process to generate a downmix signal and adding the binaural cue to the downmix signal in a decoding process. The present invention is applicable to a home theater system, a car audio system, an electronic game system, and the like.
本発明は、マルチチャネル音声信号の符号化に関する。主たる目的は、ビットレートに制約がある場合でも、デジタル音声信号の聴覚上のクオリティーを最大限に保ちつつ当該デジタル音声信号の符号化を行うことである。ビットレートが低くなると、伝送帯域幅および記憶容量を小さくするという点で有利である。 The present invention relates to encoding multi-channel audio signals. The main purpose is to encode the digital audio signal while maintaining the audible quality of the digital audio signal to the maximum even when the bit rate is limited. Lowering the bit rate is advantageous in reducing the transmission bandwidth and storage capacity.
従来より、上記のようにビットレート低減を実現するための方法が多く存在する。
”MSステレオ”による方法では、ステレオチャネルLおよびRが、それらの”和”(L+R)および”差分”(L−R)という形で表現される。これらのステレオチャネルの相関性が高い場合、”差分”信号に含まれるのは、”和”信号よりも少ないビットで粗い量子化を施せる重要度の低い情報である。L=Rとなるような極端な例では、差分信号に関する情報を送信する必要はない。
Conventionally, there are many methods for realizing the bit rate reduction as described above.
In the “MS stereo” method, the stereo channels L and R are represented in the form of their “sum” (L + R) and “difference” (LR). When these stereo channels are highly correlated, the “difference” signal includes less important information that can be coarsely quantized with fewer bits than the “sum” signal. In an extreme example where L = R, it is not necessary to transmit information regarding the differential signal.
”インテンシティステレオ”による方法では、耳が持つ音響心理学的特性を利用し、高周波数領域に対しては、周波数に対応するスケールファクタと共に”和”信号のみを送信し、デコーダ側でそのスケールファクタを”和”信号に適用して、LチャネルおよびRチャネルを合成する。 The “intensity stereo” method uses the psychoacoustic characteristics of the ears, and for the high frequency range, only the “sum” signal is transmitted along with the scale factor corresponding to the frequency, and the scale is set on the decoder side. A factor is applied to the “sum” signal to synthesize the L and R channels.
”バイノーラルキュー符号化”による方法では、復号化処理においてダウンミックス信号の形成を行うために、バイノーラルキューが生成される。バイノーラルキューは、例えば、チャネル間レベル/強度差(ILD)、チャネル間位相/遅延差(IPD)、チャネル間干渉性/相関性(ICC)等である。ILDキューからは相対的な信号のパワーを測定でき、IPDキューからは音が両耳に届くまでの時間差を測定でき、ICCキューからは類似性を測定できる。一般に、レベル/強度キューおよび位相/遅延キューにより音声のバランスや方向性を制御でき、干渉性/相関性キューにより音声の幅や拡がりを制御できる。これらのキューは一体となって、聴き手が聴覚的情景を頭の中で構成するのを助ける空間的パラメータとなる。 In the method by “binaural cue coding”, a binaural cue is generated in order to form a downmix signal in the decoding process. The binaural cue is, for example, an inter-channel level / intensity difference (ILD), an inter-channel phase / delay difference (IPD), an inter-channel coherence / correlation (ICC), or the like. The relative signal power can be measured from the ILD queue, the time difference until the sound reaches both ears can be measured from the IPD queue, and the similarity can be measured from the ICC queue. In general, the balance and direction of voice can be controlled by the level / intensity cue and the phase / delay cue, and the width and spread of the voice can be controlled by the coherence / correlation cue. Together, these cues are spatial parameters that help the listener compose an auditory scene in the head.
図1は、バイノーラルキュー符号化による方法を用いた典型的なコーデックを示す図である。符号化処理において、音声信号はフレームごとに処理される。モジュール(100)は、左チャネルLおよび右チャネルRをダウンミックスし、M=(L+R)/2を生成する。バイノーラルキュー抽出モジュール(102)は、L、RおよびMを処理し、バイノーラルキューを生成する。バイノーラル抽出モジュール(102)は、通常、時間−周波数変換モジュールを備え、当該モジュールにおいてL、RおよびMを例えば、FFT、MDCT等の完全なスペクトル表現に変換するか、またはQMF等のような時間と周波数とのハイブリッド表現に変換する。あるいは、スペクトル表現されたLおよびRの平均値をとることにより、スペクトル変換後にLおよびRからMを生成することもできる。バイノーラルキューは、上記のように表現されたL、RおよびMを、スペクトル帯域ごとに比較することで求めることができる。 FIG. 1 is a diagram illustrating a typical codec using a method based on binaural cue coding. In the encoding process, the audio signal is processed for each frame. Module (100) downmixes left channel L and right channel R to produce M = (L + R) / 2. The binaural queue extraction module (102) processes L, R, and M to generate a binaural queue. The binaural extraction module (102) typically comprises a time-frequency conversion module in which L, R and M are converted into a full spectral representation, eg, FFT, MDCT, or time such as QMF. And a hybrid representation of frequency. Alternatively, M can be generated from L and R after spectral conversion by taking an average value of L and R expressed in a spectrum. The binaural cue can be obtained by comparing L, R, and M expressed as described above for each spectrum band.
オーディオエンコーダ(104)は、M信号を符号化し、圧縮ビットストリームを生成する。オーディオエンコーダの例として、MP3、AACなどがある。バイノーラルキューは、モジュール(106)において量子化されてから、圧縮されたMに多重化され、完全なビットストリームが形成される。復号化処理において、デマルチプレクサ(108)はMのビットストリームをバイノーラルキュー情報から分離する。オーディオデコーダ(110)はMのビットストリームを復号し、ダウンミックス信号Mを復元する。マルチチャネル合成モジュール(112)は、当該ダウンミックス信号および逆量子化されたバイノーラルキューを処理し、マルチチャネル信号を復元する。
本発明は、従来技術におけるバイノーラルキュー符号化に基づく方法を改良することを目的とする。 The present invention aims to improve the method based on binaural cue coding in the prior art.
本発明は、符号化処理においてQMFフィルタバンクを用いてLチャネルおよびRチャネルを時間−周波数(T/F)表現に変換するバイノーラルキュー符号化方法に関する。 The present invention relates to a binaural cue encoding method for converting an L channel and an R channel into a time-frequency (T / F) representation using a QMF filter bank in an encoding process.
非特許文献1では、ダウンミックス信号と”残響信号”とをミキシングすることで音の拡がりを実現している。残響信号は、ダウンミックス信号をShroederのオールパスリンクを用いて処理することで得ることができる。しかしながら、このミキシング方法は、ダウンミックス信号とオリジナル信号との間のベクトル関係を完全に活用しているとはいえない。
In
特許文献1では、ILDキューおよびIPDキューに対して”ランダムシーケンス”を挿入することで、音の拡がり(すなわち、サラウンド効果)を実現している。ランダムシーケンスは、ICCキューによって制御される。
In
本発明の実施の形態1では、最初にダウンミックスチャネルとオリジナルチャネルとの間の所望のベクトル関係をバイノーラルキューから導出した後、ダウンミックス信号とその直交信号との間の正確なベクトル関係をシミュレーションするという新しいミキシング方法を提案する。
In
実施の形態2では、チャネル分離方法をマルチチャネルに応用する方法を提案する。 Embodiment 2 proposes a method of applying the channel separation method to multi-channel.
本発明では、バイノーラルキューを抽出し、オリジナル信号をダウンミキシングする符号化処理において、オリジナル信号が持つ、マルチチャネルならではの効果を高品位に再現することができる。これは、復号化処理において前記バイノーラルキューをダウンミックス信号に適用することで可能となる。 In the present invention, in an encoding process in which binaural cues are extracted and the original signal is downmixed, the multichannel effect of the original signal can be reproduced with high quality. This can be achieved by applying the binaural cue to the downmix signal in the decoding process.
以下に示す実施の形態は、本発明の様々な進歩性の原理を例示しているにすぎず、以下に示す詳細な説明に対して種々変形を加えることが可能であることは、当業者であれば容易に理解するところである。従って、本発明は特許請求の範囲によってのみ制限されるものであって、以下に示す詳細な具体例よって限定されるものではない。 It will be understood by those skilled in the art that the embodiments described below merely illustrate various inventive principles of the present invention, and various modifications can be made to the detailed description given below. If there is, it is easy to understand. Therefore, the present invention is limited only by the scope of the claims, and is not limited by the specific examples shown below.
さらに、ここではステレオ−モノラル−ステレオ(以降、“2-1-2ケース”と記す)および5チャネル−モノラル−5チャネル(以降、“5-1-5ケース”と記す)の2つのケースのみを示しているが、本発明はこれに限定されるものではない。これを、MオリジナルチャネルおよびNダウンミックスチャネルとして一般化することができる。 Furthermore, here only two cases of stereo-mono-stereo (hereinafter referred to as “2-1-2 case”) and 5-channel-mono-5 channel (hereinafter referred to as “5-1-5 case”) are included. However, the present invention is not limited to this. This can be generalized as an M original channel and an N downmix channel.
図2は2-1-2ケースにおける符号化処理を示す図である。変換モジュール(200)は、オリジナルチャネルL(t)およびR(t)を処理し、それぞれの時間−周波数表現L(t,f) およびR(t,f)を得る。ここで、tは時間指標を示し、fは周波数指標を示す。変換モジュール(200)は、例えば、MPEG Audio Extension 1,2で用いられるような複素QMFフィルタバンク等である。L(t,f)およびR(t,f)は連続する複数のサブバンドを含んでおり、それぞれのサブバンドはオリジナル信号の狭い周波数帯域を表している。QMFフィルタバンクは、低周波数サブバンドでは狭い周波数帯域とし、高周波数サブバンドでは広い帯域に対応するため、複数のステージで構成することができる。
FIG. 2 is a diagram showing an encoding process in the 2-1-2 case. The transform module (200) processes the original channels L (t) and R (t) to obtain respective time-frequency representations L (t, f) and R (t, f). Here, t indicates a time index, and f indicates a frequency index. The conversion module (200) is, for example, a complex QMF filter bank as used in MPEG
ダウンミックスモジュール(202)は、L(t,f) およびR(t,f)を処理し、ダウンミックス信号M(t,f)を生成する。本実施の形態では、”重み付け”を用いた単純な方法を示す。 The downmix module (202) processes L (t, f) and R (t, f) and generates a downmix signal M (t, f). In this embodiment, a simple method using “weighting” is shown.
本発明では、ILDキューを用いてレベル調整を行う。ILDキューを計算するために、モジュール(204)は、L(t,f)およびR(t,f)をさらに処理し、ILD(l,b)およびBorderを生成する。図3に示されるように、まず、時間―周波数表現L(t,f)を周波数方向に複数の帯域(300)に分割する。それぞれの帯域は複数のサブバンドを含む。耳が持つ音響心理学的特性を利用して、低周波数帯域は、高周波数帯域よりもサブバンドの数が少なくなっている。例えば、サブバンドを帯域にグループ分けする際に、音響心理学の分野でよく知られている”バーク尺度”または”臨界帯域”を用いることができる。 In the present invention, level adjustment is performed using an ILD queue. To compute the ILD queue, module (204) further processes L (t, f) and R (t, f) to generate ILD (l, b) and Border. As shown in FIG. 3, first, the time-frequency representation L (t, f) is divided into a plurality of bands (300) in the frequency direction. Each band includes a plurality of subbands. Using the psychoacoustic characteristics of the ear, the low frequency band has fewer subbands than the high frequency band. For example, when subbands are grouped into bands, the “Burk scale” or “critical band” well known in the field of psychoacoustics can be used.
L(t,f)およびR(t,f)はさらに時間方向に境界Border(302)で周波数帯域(l,b)に分割され、これに対してEL(l,b)およびER(l,b)を計算する。ここで、lは時間的区分の指標であり、bは帯域の指標を示す。Borderの最適な配置場所は、EL(l,b)およびER(l,b)の比率が急激に変化する時間的位置である。ILD(l,b)は次のように算出される。
符号化処理においてチャネル間干渉性キューを求めるため、モジュール(206)はL(t,f)およびR(t,f)を処理し、以下の数式を用いてICC(b)を求める。
さらに、符号化処理において高周波数サブバンド(>1.5kHzのみ)に対する高周波数チャネル間相関性キューを求めるため、(208)はL(t,f)およびR(t,f)を処理し、以下の数式を用いてICCH(b)を求める。
後述するが、ICC(l,b)をILD(l,b)と組み合わせて用いることでゲインファクターを導出し、Mに対するLおよびRの実際の信号強度を復元する。さらに、ICC(l,b)を用いて低周波数におけるLとRとの間の位相関係を計測するが、これはLとRと分離の度合いを計測するのにも役立つ。しかしながら高周波数においては、音が分離していることによってもたらされる効果は、位相差ではなく、LおよびRの波形の類似度に影響される。例えば、L=cos(ωt+θ)、R=cos(ωt)である場合、ωの値が大きければ、θの値に関わらず同じ立体音響的効果がもたらされる。このような波形相関性の計測にはICCH(l,b)の利用がより適している。 As will be described later, the gain factor is derived by using ICC (l, b) in combination with ILD (l, b), and the actual signal strengths of L and R with respect to M are restored. In addition, ICC (l, b) is used to measure the phase relationship between L and R at low frequencies, which also helps to measure the degree of separation between L and R. However, at high frequencies, the effect brought about by the separation of the sounds is influenced not by the phase difference but by the similarity of the L and R waveforms. For example, when L = cos (ωt + θ) and R = cos (ωt), if the value of ω is large, the same stereoacoustic effect is brought about regardless of the value of θ. The use of ICCH (l, b) is more suitable for such waveform correlation measurement.
上記バイノーラルキューは全て、符号化処理における副情報の一部となる。図4に示すように、バイノーラルキュー生成のための全処理は、上述の入力・出力を用いてモジュール(400)に含めることができる。 All the binaural cues are part of the sub information in the encoding process. As shown in FIG. 4, the entire process for binaural cue generation can be included in the module (400) using the input / output described above.
図5は、上記のように生成されたバイノーラルキューを用いた復号化処理を示す図である。変換モジュール(500)はダウンミックス信号M(t)を処理し、時間−周波数表現M(t,f)に変換する。本実施の形態で示す変換モジュールは、複素QMFフィルタバンクである。 FIG. 5 is a diagram showing a decoding process using the binaural queue generated as described above. The conversion module (500) processes the downmix signal M (t) and converts it into a time-frequency representation M (t, f). The conversion module shown in the present embodiment is a complex QMF filter bank.
無相関器(502)はM(t,f)を処理し、直交信号を二つ生成する。図6において、従来技術における直交信号生成方法の例を二つ示す。非特許文献1ではBlock(600)を用い、分数遅延オールパスフィルタを用いて、ダウンミックス信号M(t,f)に対して直交である残響信号を導出している。Block(604)は直列接続されたオールパスフィルタを示している。なお、上記以外の無相関器を用いることも可能である。例えば、非特許文献2ではBlock(602)を用い、共通オールパスフィルタ(606)においてM(t,f)を処理した後、処理されたM(t,f)を、互いに素の関係となる遅延特性を持つ二つの櫛形フィルタ(608)、(610)において無相関する(mutually-prime orders)。以下では無相関器(600)を想定して説明を行う。
The decorrelator (502) processes M (t, f) and generates two orthogonal signals. FIG. 6 shows two examples of the orthogonal signal generation method in the prior art.
本発明の実施の形態1において、モジュール(504)は(l,b)として示される帯域それぞれについて、バイノーラルキューBorder、ILD(l,b)、ICC(l,b)、およびICCH(l,b)からミキシング係数gL(l,b)、gR(l,b)、θL(l,b)、およびθR(l,b)を求める。次にモジュール(506)は、求められたミキシング係数に基づいてミキシングファクターgL1(l,b)、gL2(l,b)、gR1(l,b)、およびgR2(l,b)を算出する。 In the first embodiment of the present invention, the module (504) performs binaural queues Border, ILD (l, b), ICC (l, b), and ICCH (l, b) for each band indicated as (l, b). ), The mixing coefficients g L (l, b), g R (l, b), θ L (l, b), and θ R (l, b) are obtained. Module (506) then mixes the mixing factors g L1 (l, b), g L2 (l, b), g R 1 (l, b), and g R2 (l, b) based on the determined mixing coefficients. ) Is calculated.
記載の簡略化を図るため、以下では数式において(l,b)の表記を省略する。
符号化器でのダウンミックス処理に基づき、L、R、およびMのエネルギー間の関係を以下のように導出する。
Based on the downmix processing at the encoder, the relationship between the L, R, and M energies is derived as follows.
従来、ILDおよびICCは以下のように定義されている。
このため、上記ILDおよびICCの定義を数式EMに代入すると、分離されたチャネルL’およびR’のレベルにまでMを増幅するのに必要なゲイン係数は以下のようになる。
図7は、ベクトル関係において、MからLおよびRを“分離”する様子を幾何学的に示した図である(特許文献2)。同図において、θLおよびθRは分離の度合いを示す。低周波数に対しては(θL+θR)をθ=cos-1(ICC)に設定し、高周波数(>1.5kHz)に対しては(θL+θR)をθ=cos-1(ICCH)に設定するが、その理由は上に述べたとおりである。図7に示す垂直三角形に対して三角関数を適用すると、
同様に、
非特許文献1においては、相関のない二つの信号は、ダウンミックス信号S1=M と、Mから導出される無相関信号S2=Mrevとである。本発明 においては、ミキシングファクターgL1、gL2、gR1、およ びgR2を用いてMおよびMrevをスケーリングすることでミ キシングを行い、続いてベクトル加算を行う。gL1、gL2、gR1 、およびgR2は、gL、gR、θL、およびθRから導出される 。これは、MrevはMのオールパスバージョンであるため、|M |=|Mrev|となるためである。
In
左チャネルL’を合成する前提として、次の2つの要件が満たされている必要がある。
上記二つの連立方程式を解くことで、左チャネルを導出するためのミキシングファクターを求めることができる。
同様にして、右チャネルを導出するためのミキシングファクターを求めることができる。
最後に、二つのチャネルL’およびR’を合成するために、次のようにミキシングファクターを用いる。
モジュール(508)において、分離されたチャネルL’(l,b)およびR’(l,b)を逆変換し、時間領域信号L’(t)およびR’(t)を形成する。 In module (508), the separated channels L '(l, b) and R' (l, b) are inverse transformed to form time domain signals L '(t) and R' (t).
本発明の実施の形態2では、上記チャネル分離方法をマルチチャネルにも応用する方法を示す。本実施の形態では、5-1-5ケースを用いて説明を行う。また、以下の数式をダウンミックス用の数式として想定する。
上記数式において、LおよびRは二つのフロント(前方)チャネルを示し、LSおよびRSは二つのリア(後方)チャネルを示し、Cはセントラル(中央)チャネルを示す。 In the above equation, L and R indicate two front (front) channels, L S and R S indicate two rear (rear) channels, and C indicates a central (center) channel.
図9に示す5-1-5ケースにおける符号化処理では、図4に示すモジュール(400)において、4通りのチャネルの組合せに対して4回処理を行うことで4つのバイノーラルキューセットを生成する。例えば、一つ目のバイノーラルキューセットを生成するために、ブロック(900)(図4におけるモジュール(400)と同じ)に対してCチャネルと中間ダウンミックスチャネル(L+0.707SLS+R+0.707RS)を入力する。モジュール(902)〜(906)においても同様の処理が行われる。生成された4つのバイノーラルキューセットは、マルチステージ復号化処理においてダウンミックスチャネルMを、L、R、LS、RSおよびCに分離するために用いられる。 In the encoding process in the case of 5-1-5 shown in FIG. 9, four binaural queue sets are generated by performing the process four times for four combinations of channels in the module (400) shown in FIG. . For example, to generate the first binaural cue set, the C channel and the intermediate downmix channel (L + 0.707SL S + R + 0.707R S ) for block (900) (same as module (400) in FIG. 4). Enter. Similar processing is performed in the modules (902) to (906). The generated four binaural queue sets are used to separate the downmix channel M into L, R, L S , R S and C in the multi-stage decoding process.
図10はそのマルチステージ復号化処理を示す図である。図5に示す2-1-2ケースと同様に、ダウンミックスチャネルMに対してQMF変換(1000)および無相関処理(1002)を行ってMrevを生成する。 FIG. 10 is a diagram showing the multistage decoding process. Similarly to the case of 2-1-2 shown in FIG. 5, the MMF is generated by performing QMF conversion (1000) and decorrelation processing (1002) on the downmix channel M.
バイノーラルキューセット1をミキシング係数算出モジュール(1004)において処理し、二つのミキシングファクターセット(gL1、gL2)および(gR1、gR2)を生成する。この処理は、MをCとM1=(L+0.707Ls+R+0.707Rs)とに分離するために行われる。[数15]より、M=0.293C+0.707M1を求めることは容易であり、重み付けの値として0.293および0.707を用いる。 The binaural cue set 1 is processed in the mixing coefficient calculation module (1004) to generate two mixing factor sets (g L1 , g L2 ) and (g R1 , g R2 ). This process is performed to separate M into C and M 1 = (L + 0.707L s + R + 0.707R s ). From [Expression 15], it is easy to obtain M = 0.293C + 0.707M 1, and 0.293 and 0.707 are used as weighting values.
バイノーラルキューセット2をミキシング係数算出モジュール(1006)において処理し、二つのミキシングファクターセット(gL3、gL4)および(gR3、gR4)を生成する。この処理はM1をM2=(L+R)/2とM3=(Ls+Rs)/2とに分離するために行われる。[数15]より、M1=0.586M2+0.414M3を求めることは容易であり、重み付けの値として0.586および0.414を用いる。 The binaural cue set 2 is processed in the mixing coefficient calculation module (1006) to generate two mixing factor sets (g L3 , g L4 ) and (g R3 , g R4 ). This process is performed to separate M 1 into M 2 = (L + R) / 2 and M 3 = (L s + R s ) / 2. From [Equation 15], it is easy to obtain M 1 = 0.586M 2 + 0.414M 3 , and 0.586 and 0.414 are used as weighting values.
バイノーラルキューセット3をミキシング係数算出モジュール(1008)において処理し、二つのミキシングファクターセット(gL5、gL6)および(gR5、gR6)を生成する。この処理はM2をLとRとに分離するために行われる。M2=0.5L+0.5Rであるため、重み付けの値として0.5を用いる。 The binaural cue set 3 is processed in the mixing coefficient calculation module (1008) to generate two mixing factor sets (g L5 , g L6 ) and (g R5 , g R6 ). This process is performed to separate M 2 into L and R. Since M 2 = 0.5L + 0.5R, 0.5 is used as the weighting value.
バイノーラルキューセット4をミキシング係数算出モジュール(1010)において処理し、二つのミキシングファクターセット(gL7、gL8)および(gR7、gR8)を生成する。この処理はM3をLsとRsとに分離するために行われる。M3=0.5Ls+0.5Rsであるため、重み付けの値として0.5を用いる。 The binaural cue set 4 is processed in the mixing coefficient calculation module (1010) to generate two mixing factor sets (g L7 , g L8 ) and (g R7 , g R8 ). This process is performed to separate M 3 into Ls and Rs. Since M 3 = 0.5L s + 0.5R s , 0.5 is used as the weighting value.
チャネルミキシングモジュール(1012)〜(1020)は、一連の行列演算においてミキシングファクターを組み合わせ、全体のミキシングファクターを求める。ここで、まず次の点に留意されたい。 The channel mixing modules (1012) to (1020) combine mixing factors in a series of matrix operations to obtain an overall mixing factor. First of all, please note the following points.
よって、行列形式で表わすと、
L’を求めるため、一連のチャネル分離処理に用いられるミキシングファクターM‐>M1‐>M2を組み合わせる。L’に対するミキシング用の数式は、
同様にして、モジュール(1014)〜(1020)において他のミキシング用の数式を求めることができる。
M‐>M1‐>M2から
From M-> M 1- > M 2
逆QMFモジュール(1022)〜(1030)は、全ての合成チャネルを時間領域信号に変換する。 Inverse QMF modules (1022)-(1030) convert all combined channels into time domain signals.
(その他変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(Other variations)
Although the present invention has been described based on the above embodiment, it is needless to say that the present invention is not limited to the above embodiment. The following cases are also included in the present invention.
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。 (1) Each of the above devices is specifically a computer system including a microprocessor, a ROM, a RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like. A computer program is stored in the RAM or hard disk unit. Each device achieves its functions by the microprocessor operating according to the computer program. Here, the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。 (2) A part or all of the constituent elements constituting each of the above-described devices may be configured by one system LSI (Large Scale Integration). The system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. . A computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。 (3) Part or all of the constituent elements constituting each of the above devices may be configured from an IC card that can be attached to and detached from each device or a single module. The IC card or the module is a computer system including a microprocessor, a ROM, a RAM, and the like. The IC card or the module may include the super multifunctional LSI described above. The IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。 (4) The present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。 The present invention also provides a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray Disc). ), Recorded in a semiconductor memory or the like. The digital signal may be recorded on these recording media.
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。 In the present invention, the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like.
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。 The present invention may be a computer system including a microprocessor and a memory, wherein the memory stores the computer program, and the microprocessor operates according to the computer program.
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。 In addition, the program or the digital signal is recorded on the recording medium and transferred, or the program or the digital signal is transferred via the network or the like, and executed by another independent computer system. It is good.
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。 (5) The above embodiment and the above modifications may be combined.
本発明は、ホームシアターシステム、カーオーディオシステム、電子ゲームシステム等に適用可能である。 The present invention is applicable to a home theater system, a car audio system, an electronic game system, and the like.
200 変換モジュール
202 ダウンミックスモジュール
204 ILDモジュール
206 ICCモジュール
208 ICCHモジュール
400 2−1BCC符号化モジュール
500 QMFフィルタバンク
502 無相関器
504 ミキシング係数算出モジュール
506 チャネルミキシングモジュール
508 QMF-1フィルタバンク
200
Claims (15)
(a) ダウンミックスチャネルを算出し、
(b) 前記複数の音声チャネルとダウンミックスチャネルとを時間−周波数表現に変換し、それらを周波数軸に沿って中間周波数帯域に分割し、
(c)前記ダウンミックスチャネルをマルチステージ復号化処理において個々の音声チャネルに分離するためのチャネル分離ステップを導出し、
(d) 各チャネル分離ステップについて、前記中間周波数帯域をさらに周波数帯域に分割するための、時間方向における境界を決定し、
(e) 各チャネル分離ステップおよび各周波数帯域について、チャネル間レベル差キュー(ILD)を算出し、
(f) 各チャネル分離ステップおよび各周波数帯域について、チャネル間干渉性キュー(ICC)を算出し、
(g) 各チャネル分離ステップおよび各高周波数の周波数帯域について、高周波数チャネル間相関性キュー(ICCH)を算出する
ことを特徴とする装置。 An apparatus for encoding a plurality of audio channels as spatial audio information,
(A) Calculate the downmix channel,
(B) converting the plurality of audio channels and downmix channels into a time-frequency representation, dividing them into intermediate frequency bands along the frequency axis;
(C) deriving a channel separation step for separating the downmix channel into individual audio channels in a multi-stage decoding process;
(D) For each channel separation step, determine a boundary in the time direction for further dividing the intermediate frequency band into frequency bands;
(E) For each channel separation step and each frequency band, calculate an inter-channel level difference queue (ILD);
(F) For each channel separation step and each frequency band, calculate an inter-channel coherence queue (ICC);
(G) A high frequency inter-channel correlation queue (ICCH) is calculated for each channel separation step and each high frequency band.
ことを特徴とする装置。 The apparatus according to claim 1, wherein, for each channel separation step, one composite downmix signal composed of a plurality of signals is input, and each of the one composite downmix signal is composed of one or a plurality of signals. A device characterized in that it is divided into two composite downmix signals.
ことを特徴とする装置。 The apparatus according to claim 1, wherein the boundary is arranged at a temporal position where a large change in the ILD appears in the time direction.
ことを特徴とする装置。 The apparatus according to claim 1, wherein the ILD queue is a ratio of energy of two composite signals in a frequency band.
ことを特徴とする装置。 The apparatus according to claim 1, wherein the ICC queue is used for measuring a phase correlation between two composite signals in a frequency band.
ことを特徴とする装置。 The apparatus according to claim 1, wherein the ICCH queue is used to measure a waveform correlation, not a phase, between two composite signals in a frequency band.
(a) ダウンミックスチャネルを時間−周波数表現に変換し、それらを周波数軸に沿って中間周波数帯域に分割し、
(b) 前記ダウンミックスチャネルに対して相関器による処理を施し、前記ダウンミックス信号の逆相関チャネルを形成し、
(c) 各チャネル分離ステップについて、Border、ILD,ICC、およびICCHをそれぞれが含む全てのバイノーラルキューセットをミキシング係数算出(MCC)モジュールに入力して、ミキシングファクターを導出し、
(d) チャネルミキシング(CM)モジュールにおいて、前記ミキシングファクターを組み合わせることで、個々のチャネルに対する全体のミキシングファクターを算出し、
(e) 前記CMモジュールにおいて、無相関信号と前記全体のミキシングファクターとをミキシングして、前記個々の信号を生成し、
(f) 全ての個々の信号を時間−周波数表現から時間領域に逆変換してマルチチャネル音声を復元する
ことを特徴とする装置。 An apparatus for decoding spatial audio information into a plurality of audio channels,
(A) Convert the downmix channels into a time-frequency representation, divide them into intermediate frequency bands along the frequency axis,
(B) performing processing by a correlator on the downmix channel to form an inverse correlation channel of the downmix signal;
(C) For each channel separation step, input all binaural cue sets each including Border, ILD, ICC, and ICCH into a mixing coefficient calculation (MCC) module to derive a mixing factor;
(D) In the channel mixing (CM) module, by combining the mixing factors, an overall mixing factor for each channel is calculated,
(E) In the CM module, the uncorrelated signal and the overall mixing factor are mixed to generate the individual signals,
(F) A device that restores multi-channel speech by inversely transforming all individual signals from a time-frequency representation into the time domain.
ことを特徴とする装置。 The apparatus according to claim 7, wherein the uncorrelated signals are orthogonal to each other.
ことを特徴とする装置。 The apparatus according to claim 7, wherein the MCC generates two mixing factor sets to be added to the two composite signals output for the corresponding channel separation step, respectively.
ことを特徴とする装置。 10. Apparatus according to claim 7 and 9, wherein the mixing factor is a function of a gain factor and a degree of separation.
ことを特徴とする装置。 11. The apparatus according to claim 7, 9 and 10, wherein the gain factor and the degree of separation are calculated considering a vector relationship between two composite signals predicted from ILD, ICC and ICCH. A device characterized by that.
ことを特徴とする装置。 8. The apparatus according to claim 7, wherein the overall mixing factor is calculated by adding the mixing factors respectively derived at the corresponding channel separation stages by a series of matrix operations.
ことを特徴とする装置。 The apparatus according to claim 7, wherein in the mixing process, the downmix signal is separated from the downmix signal by using an orthogonal and uncorrelated signal in a vector relationship. A device characterized by realizing a desired degree of separation between them.
ことを特徴とする装置。 14. The apparatus according to claim 7 or 13, wherein in the mixing process, a downmix signal and an uncorrelated signal are scaled using the mixing factor, and these signals are added to a vector space. Also, it is possible to generate a separation signal in which the degree of separation from the downmix signal is a desired degree and the signal strength is a desired intensity.
A device characterized by that.
ことを特徴とする装置。 15. The apparatus according to claim 12, 13 and 14, wherein in the matrix operation, a downmix signal and an uncorrelated signal of a current channel separation stage are obtained until an input downmix signal and its uncorrelated signal are reached. , Repeatedly derived as a function of the dowmix signal and uncorrelated signal of the previous channel separation stage.
A device characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005148771A JP2006323314A (en) | 2005-05-20 | 2005-05-20 | Apparatus for binaural-cue-coding multi-channel voice signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005148771A JP2006323314A (en) | 2005-05-20 | 2005-05-20 | Apparatus for binaural-cue-coding multi-channel voice signal |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006323314A true JP2006323314A (en) | 2006-11-30 |
Family
ID=37543018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005148771A Pending JP2006323314A (en) | 2005-05-20 | 2005-05-20 | Apparatus for binaural-cue-coding multi-channel voice signal |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006323314A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009050896A1 (en) * | 2007-10-16 | 2009-04-23 | Panasonic Corporation | Stream generating device, decoding device, and method |
CN101350197B (en) * | 2007-07-16 | 2011-05-11 | 华为技术有限公司 | Method for encoding and decoding stereo audio and encoder/decoder |
JP5340378B2 (en) * | 2009-02-26 | 2013-11-13 | パナソニック株式会社 | Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method |
WO2020009082A1 (en) * | 2018-07-03 | 2020-01-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Encoding device and encoding method |
JP2020034920A (en) * | 2015-03-09 | 2020-03-05 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus and method for encoding or decoding multi-channel signal |
-
2005
- 2005-05-20 JP JP2005148771A patent/JP2006323314A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350197B (en) * | 2007-07-16 | 2011-05-11 | 华为技术有限公司 | Method for encoding and decoding stereo audio and encoder/decoder |
WO2009050896A1 (en) * | 2007-10-16 | 2009-04-23 | Panasonic Corporation | Stream generating device, decoding device, and method |
US8391513B2 (en) | 2007-10-16 | 2013-03-05 | Panasonic Corporation | Stream synthesizing device, decoding unit and method |
JP5340378B2 (en) * | 2009-02-26 | 2013-11-13 | パナソニック株式会社 | Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method |
US9053701B2 (en) | 2009-02-26 | 2015-06-09 | Panasonic Intellectual Property Corporation Of America | Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method |
JP2020034920A (en) * | 2015-03-09 | 2020-03-05 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus and method for encoding or decoding multi-channel signal |
CN112233684A (en) * | 2015-03-09 | 2021-01-15 | 弗劳恩霍夫应用研究促进协会 | Apparatus and method for encoding or decoding multi-channel signal |
US11508384B2 (en) | 2015-03-09 | 2022-11-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding a multi-channel signal |
JP7208126B2 (en) | 2015-03-09 | 2023-01-18 | フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus and method for encoding or decoding multi-channel signals |
CN112233684B (en) * | 2015-03-09 | 2024-03-19 | 弗劳恩霍夫应用研究促进协会 | Apparatus and method for encoding or decoding multi-channel signal |
US11955131B2 (en) | 2015-03-09 | 2024-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding a multi-channel signal |
WO2020009082A1 (en) * | 2018-07-03 | 2020-01-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Encoding device and encoding method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200335115A1 (en) | Audio encoding and decoding | |
JP4934427B2 (en) | Speech signal decoding apparatus and speech signal encoding apparatus | |
RU2388068C2 (en) | Temporal and spatial generation of multichannel audio signals | |
JP5934922B2 (en) | Decoding device | |
RU2409911C2 (en) | Decoding binaural audio signals | |
RU2376655C2 (en) | Energy-dependant quantisation for efficient coding spatial parametres of sound | |
JP4589962B2 (en) | Apparatus and method for generating level parameters and apparatus and method for generating a multi-channel display | |
RU2509442C2 (en) | Method and apparatus for applying reveberation to multichannel audio signal using spatial label parameters | |
JP4918490B2 (en) | Energy shaping device and energy shaping method | |
NO344760B1 (en) | Compatible multi-channel coding / decoding. | |
JPWO2006022190A1 (en) | Audio encoder | |
JP4988716B2 (en) | Audio signal decoding method and apparatus | |
WO2007080225A1 (en) | Decoding of binaural audio signals | |
JP2006323314A (en) | Apparatus for binaural-cue-coding multi-channel voice signal | |
JP2006325162A (en) | Device for performing multi-channel space voice coding using binaural queue | |
JP2007104601A (en) | Apparatus for supporting header transport function in multi-channel encoding | |
JP2009151183A (en) | Multi-channel voice sound signal coding device and method, and multi-channel voice sound signal decoding device and method | |
WO2007080224A1 (en) | Decoding of binaural audio signals |