JP2006323314A - Apparatus for binaural-cue-coding multi-channel voice signal - Google Patents

Apparatus for binaural-cue-coding multi-channel voice signal Download PDF

Info

Publication number
JP2006323314A
JP2006323314A JP2005148771A JP2005148771A JP2006323314A JP 2006323314 A JP2006323314 A JP 2006323314A JP 2005148771 A JP2005148771 A JP 2005148771A JP 2005148771 A JP2005148771 A JP 2005148771A JP 2006323314 A JP2006323314 A JP 2006323314A
Authority
JP
Japan
Prior art keywords
channel
signal
downmix
mixing
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005148771A
Other languages
Japanese (ja)
Inventor
Sen Chon Kok
セン・チョン コク
Naoya Tanaka
直也 田中
Hon Neo Sua
ホン・ネオ スア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005148771A priority Critical patent/JP2006323314A/en
Publication of JP2006323314A publication Critical patent/JP2006323314A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an apparatus for carrying out binaural-cue-coding of a multi-channel voice signal, capable of playing back an effect of an original signal with high quality only by multi-channel, in a coding processing which extracts a binaural cue and down-mixes the original signal. <P>SOLUTION: After deriving a desired vector relation between a down-mix channel and an original channel from a binaural cue at first, an accurate vector relation between a down-mix signal and a signal that is orthogonal and non-correlated thereto is simulated. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、符号化処理においてバイノーラルキューを抽出して、ダウンミックス信号を生成し、復号化処理において前記バイノーラルキューを前記ダウンミックス信号に付加することでマルチチャネル音声信号を圧縮する装置に関する。本発明は、ホームシアターシステム、カーオーディオシステム、電子ゲームシステム等に適用可能である。   The present invention relates to an apparatus for compressing a multi-channel audio signal by extracting a binaural cue in an encoding process to generate a downmix signal and adding the binaural cue to the downmix signal in a decoding process. The present invention is applicable to a home theater system, a car audio system, an electronic game system, and the like.

本発明は、マルチチャネル音声信号の符号化に関する。主たる目的は、ビットレートに制約がある場合でも、デジタル音声信号の聴覚上のクオリティーを最大限に保ちつつ当該デジタル音声信号の符号化を行うことである。ビットレートが低くなると、伝送帯域幅および記憶容量を小さくするという点で有利である。   The present invention relates to encoding multi-channel audio signals. The main purpose is to encode the digital audio signal while maintaining the audible quality of the digital audio signal to the maximum even when the bit rate is limited. Lowering the bit rate is advantageous in reducing the transmission bandwidth and storage capacity.

従来より、上記のようにビットレート低減を実現するための方法が多く存在する。
”MSステレオ”による方法では、ステレオチャネルLおよびRが、それらの”和”(L+R)および”差分”(L−R)という形で表現される。これらのステレオチャネルの相関性が高い場合、”差分”信号に含まれるのは、”和”信号よりも少ないビットで粗い量子化を施せる重要度の低い情報である。L=Rとなるような極端な例では、差分信号に関する情報を送信する必要はない。
Conventionally, there are many methods for realizing the bit rate reduction as described above.
In the “MS stereo” method, the stereo channels L and R are represented in the form of their “sum” (L + R) and “difference” (LR). When these stereo channels are highly correlated, the “difference” signal includes less important information that can be coarsely quantized with fewer bits than the “sum” signal. In an extreme example where L = R, it is not necessary to transmit information regarding the differential signal.

”インテンシティステレオ”による方法では、耳が持つ音響心理学的特性を利用し、高周波数領域に対しては、周波数に対応するスケールファクタと共に”和”信号のみを送信し、デコーダ側でそのスケールファクタを”和”信号に適用して、LチャネルおよびRチャネルを合成する。   The “intensity stereo” method uses the psychoacoustic characteristics of the ears, and for the high frequency range, only the “sum” signal is transmitted along with the scale factor corresponding to the frequency, and the scale is set on the decoder side. A factor is applied to the “sum” signal to synthesize the L and R channels.

”バイノーラルキュー符号化”による方法では、復号化処理においてダウンミックス信号の形成を行うために、バイノーラルキューが生成される。バイノーラルキューは、例えば、チャネル間レベル/強度差(ILD)、チャネル間位相/遅延差(IPD)、チャネル間干渉性/相関性(ICC)等である。ILDキューからは相対的な信号のパワーを測定でき、IPDキューからは音が両耳に届くまでの時間差を測定でき、ICCキューからは類似性を測定できる。一般に、レベル/強度キューおよび位相/遅延キューにより音声のバランスや方向性を制御でき、干渉性/相関性キューにより音声の幅や拡がりを制御できる。これらのキューは一体となって、聴き手が聴覚的情景を頭の中で構成するのを助ける空間的パラメータとなる。   In the method by “binaural cue coding”, a binaural cue is generated in order to form a downmix signal in the decoding process. The binaural cue is, for example, an inter-channel level / intensity difference (ILD), an inter-channel phase / delay difference (IPD), an inter-channel coherence / correlation (ICC), or the like. The relative signal power can be measured from the ILD queue, the time difference until the sound reaches both ears can be measured from the IPD queue, and the similarity can be measured from the ICC queue. In general, the balance and direction of voice can be controlled by the level / intensity cue and the phase / delay cue, and the width and spread of the voice can be controlled by the coherence / correlation cue. Together, these cues are spatial parameters that help the listener compose an auditory scene in the head.

図1は、バイノーラルキュー符号化による方法を用いた典型的なコーデックを示す図である。符号化処理において、音声信号はフレームごとに処理される。モジュール(100)は、左チャネルLおよび右チャネルRをダウンミックスし、M=(L+R)/2を生成する。バイノーラルキュー抽出モジュール(102)は、L、RおよびMを処理し、バイノーラルキューを生成する。バイノーラル抽出モジュール(102)は、通常、時間−周波数変換モジュールを備え、当該モジュールにおいてL、RおよびMを例えば、FFT、MDCT等の完全なスペクトル表現に変換するか、またはQMF等のような時間と周波数とのハイブリッド表現に変換する。あるいは、スペクトル表現されたLおよびRの平均値をとることにより、スペクトル変換後にLおよびRからMを生成することもできる。バイノーラルキューは、上記のように表現されたL、RおよびMを、スペクトル帯域ごとに比較することで求めることができる。   FIG. 1 is a diagram illustrating a typical codec using a method based on binaural cue coding. In the encoding process, the audio signal is processed for each frame. Module (100) downmixes left channel L and right channel R to produce M = (L + R) / 2. The binaural queue extraction module (102) processes L, R, and M to generate a binaural queue. The binaural extraction module (102) typically comprises a time-frequency conversion module in which L, R and M are converted into a full spectral representation, eg, FFT, MDCT, or time such as QMF. And a hybrid representation of frequency. Alternatively, M can be generated from L and R after spectral conversion by taking an average value of L and R expressed in a spectrum. The binaural cue can be obtained by comparing L, R, and M expressed as described above for each spectrum band.

オーディオエンコーダ(104)は、M信号を符号化し、圧縮ビットストリームを生成する。オーディオエンコーダの例として、MP3、AACなどがある。バイノーラルキューは、モジュール(106)において量子化されてから、圧縮されたMに多重化され、完全なビットストリームが形成される。復号化処理において、デマルチプレクサ(108)はMのビットストリームをバイノーラルキュー情報から分離する。オーディオデコーダ(110)はMのビットストリームを復号し、ダウンミックス信号Mを復元する。マルチチャネル合成モジュール(112)は、当該ダウンミックス信号および逆量子化されたバイノーラルキューを処理し、マルチチャネル信号を復元する。
ISO/IEC 14496-3:2001/AMD2, "Parametric Coding for high Quality Audio" US2003/0219130A1, "Coherence-based Audio Coding and Synthesis" Karls, M., Brandenburg, K., et al, "Applications of Digital Signal Processing to Audio and Acoustics", Kluwear Academic Press. JP2004/248989, "Encoding and Decoding Devices for Audio Signals"
The audio encoder (104) encodes the M signal and generates a compressed bit stream. Examples of audio encoders include MP3 and AAC. The binaural cues are quantized in module (106) and then multiplexed into compressed M to form a complete bitstream. In the decoding process, the demultiplexer (108) separates the M bitstreams from the binaural queue information. The audio decoder (110) decodes the M bit stream and restores the downmix signal M. The multi-channel synthesis module (112) processes the downmix signal and the dequantized binaural cue to recover the multi-channel signal.
ISO / IEC 14496-3: 2001 / AMD2, "Parametric Coding for high Quality Audio" US2003 / 0219130A1, "Coherence-based Audio Coding and Synthesis" Karls, M., Brandenburg, K., et al, "Applications of Digital Signal Processing to Audio and Acoustics", Kluwear Academic Press. JP2004 / 248989, "Encoding and Decoding Devices for Audio Signals"

本発明は、従来技術におけるバイノーラルキュー符号化に基づく方法を改良することを目的とする。   The present invention aims to improve the method based on binaural cue coding in the prior art.

本発明は、符号化処理においてQMFフィルタバンクを用いてLチャネルおよびRチャネルを時間−周波数(T/F)表現に変換するバイノーラルキュー符号化方法に関する。   The present invention relates to a binaural cue encoding method for converting an L channel and an R channel into a time-frequency (T / F) representation using a QMF filter bank in an encoding process.

非特許文献1では、ダウンミックス信号と”残響信号”とをミキシングすることで音の拡がりを実現している。残響信号は、ダウンミックス信号をShroederのオールパスリンクを用いて処理することで得ることができる。しかしながら、このミキシング方法は、ダウンミックス信号とオリジナル信号との間のベクトル関係を完全に活用しているとはいえない。   In Non-Patent Document 1, sound spread is realized by mixing a downmix signal and a “reverberation signal”. The reverberation signal can be obtained by processing the downmix signal using Shroeder's all-pass link. However, this mixing method does not fully utilize the vector relationship between the downmix signal and the original signal.

特許文献1では、ILDキューおよびIPDキューに対して”ランダムシーケンス”を挿入することで、音の拡がり(すなわち、サラウンド効果)を実現している。ランダムシーケンスは、ICCキューによって制御される。   In Patent Literature 1, sound expansion (that is, a surround effect) is realized by inserting a “random sequence” into the ILD queue and the IPD queue. The random sequence is controlled by the ICC queue.

本発明の実施の形態1では、最初にダウンミックスチャネルとオリジナルチャネルとの間の所望のベクトル関係をバイノーラルキューから導出した後、ダウンミックス信号とその直交信号との間の正確なベクトル関係をシミュレーションするという新しいミキシング方法を提案する。   In Embodiment 1 of the present invention, a desired vector relationship between the downmix channel and the original channel is first derived from the binaural cue, and then the exact vector relationship between the downmix signal and its orthogonal signal is simulated. A new mixing method is proposed.

実施の形態2では、チャネル分離方法をマルチチャネルに応用する方法を提案する。   Embodiment 2 proposes a method of applying the channel separation method to multi-channel.

本発明では、バイノーラルキューを抽出し、オリジナル信号をダウンミキシングする符号化処理において、オリジナル信号が持つ、マルチチャネルならではの効果を高品位に再現することができる。これは、復号化処理において前記バイノーラルキューをダウンミックス信号に適用することで可能となる。   In the present invention, in an encoding process in which binaural cues are extracted and the original signal is downmixed, the multichannel effect of the original signal can be reproduced with high quality. This can be achieved by applying the binaural cue to the downmix signal in the decoding process.

以下に示す実施の形態は、本発明の様々な進歩性の原理を例示しているにすぎず、以下に示す詳細な説明に対して種々変形を加えることが可能であることは、当業者であれば容易に理解するところである。従って、本発明は特許請求の範囲によってのみ制限されるものであって、以下に示す詳細な具体例よって限定されるものではない。   It will be understood by those skilled in the art that the embodiments described below merely illustrate various inventive principles of the present invention, and various modifications can be made to the detailed description given below. If there is, it is easy to understand. Therefore, the present invention is limited only by the scope of the claims, and is not limited by the specific examples shown below.

さらに、ここではステレオ−モノラル−ステレオ(以降、“2-1-2ケース”と記す)および5チャネル−モノラル−5チャネル(以降、“5-1-5ケース”と記す)の2つのケースのみを示しているが、本発明はこれに限定されるものではない。これを、MオリジナルチャネルおよびNダウンミックスチャネルとして一般化することができる。   Furthermore, here only two cases of stereo-mono-stereo (hereinafter referred to as “2-1-2 case”) and 5-channel-mono-5 channel (hereinafter referred to as “5-1-5 case”) are included. However, the present invention is not limited to this. This can be generalized as an M original channel and an N downmix channel.

図2は2-1-2ケースにおける符号化処理を示す図である。変換モジュール(200)は、オリジナルチャネルL(t)およびR(t)を処理し、それぞれの時間−周波数表現L(t,f) およびR(t,f)を得る。ここで、tは時間指標を示し、fは周波数指標を示す。変換モジュール(200)は、例えば、MPEG Audio Extension 1,2で用いられるような複素QMFフィルタバンク等である。L(t,f)およびR(t,f)は連続する複数のサブバンドを含んでおり、それぞれのサブバンドはオリジナル信号の狭い周波数帯域を表している。QMFフィルタバンクは、低周波数サブバンドでは狭い周波数帯域とし、高周波数サブバンドでは広い帯域に対応するため、複数のステージで構成することができる。   FIG. 2 is a diagram showing an encoding process in the 2-1-2 case. The transform module (200) processes the original channels L (t) and R (t) to obtain respective time-frequency representations L (t, f) and R (t, f). Here, t indicates a time index, and f indicates a frequency index. The conversion module (200) is, for example, a complex QMF filter bank as used in MPEG Audio Extensions 1 and 2. L (t, f) and R (t, f) include a plurality of continuous subbands, and each subband represents a narrow frequency band of the original signal. Since the QMF filter bank has a narrow frequency band in the low frequency subband and a wide band in the high frequency subband, the QMF filter bank can be composed of a plurality of stages.

ダウンミックスモジュール(202)は、L(t,f) およびR(t,f)を処理し、ダウンミックス信号M(t,f)を生成する。本実施の形態では、”重み付け”を用いた単純な方法を示す。   The downmix module (202) processes L (t, f) and R (t, f) and generates a downmix signal M (t, f). In this embodiment, a simple method using “weighting” is shown.

本発明では、ILDキューを用いてレベル調整を行う。ILDキューを計算するために、モジュール(204)は、L(t,f)およびR(t,f)をさらに処理し、ILD(l,b)およびBorderを生成する。図3に示されるように、まず、時間―周波数表現L(t,f)を周波数方向に複数の帯域(300)に分割する。それぞれの帯域は複数のサブバンドを含む。耳が持つ音響心理学的特性を利用して、低周波数帯域は、高周波数帯域よりもサブバンドの数が少なくなっている。例えば、サブバンドを帯域にグループ分けする際に、音響心理学の分野でよく知られている”バーク尺度”または”臨界帯域”を用いることができる。   In the present invention, level adjustment is performed using an ILD queue. To compute the ILD queue, module (204) further processes L (t, f) and R (t, f) to generate ILD (l, b) and Border. As shown in FIG. 3, first, the time-frequency representation L (t, f) is divided into a plurality of bands (300) in the frequency direction. Each band includes a plurality of subbands. Using the psychoacoustic characteristics of the ear, the low frequency band has fewer subbands than the high frequency band. For example, when subbands are grouped into bands, the “Burk scale” or “critical band” well known in the field of psychoacoustics can be used.

L(t,f)およびR(t,f)はさらに時間方向に境界Border(302)で周波数帯域(l,b)に分割され、これに対してEL(l,b)およびER(l,b)を計算する。ここで、lは時間的区分の指標であり、bは帯域の指標を示す。Borderの最適な配置場所は、EL(l,b)およびER(l,b)の比率が急激に変化する時間的位置である。ILD(l,b)は次のように算出される。

Figure 2006323314
L (t, f) and R (t, f) are further divided into frequency bands (l, b) at the boundary Border (302) in the time direction, whereas E L (l, b) and E R ( l, b) is calculated. Here, l is an index of time division, and b is an index of bandwidth. The optimal placement location of Border is the time position where the ratio of E L (l, b) and E R (l, b) changes rapidly. ILD (l, b) is calculated as follows.
Figure 2006323314

符号化処理においてチャネル間干渉性キューを求めるため、モジュール(206)はL(t,f)およびR(t,f)を処理し、以下の数式を用いてICC(b)を求める。

Figure 2006323314
In order to obtain the inter-channel coherence queue in the encoding process, the module (206) processes L (t, f) and R (t, f), and obtains ICC (b) using the following equation.
Figure 2006323314

さらに、符号化処理において高周波数サブバンド(>1.5kHzのみ)に対する高周波数チャネル間相関性キューを求めるため、(208)はL(t,f)およびR(t,f)を処理し、以下の数式を用いてICCH(b)を求める。

Figure 2006323314
Further, to determine the high frequency inter-channel correlation cue for the high frequency subband (> 1.5 kHz only) in the encoding process, (208) processes L (t, f) and R (t, f), ICCH (b) is obtained using the following mathematical formula.
Figure 2006323314

後述するが、ICC(l,b)をILD(l,b)と組み合わせて用いることでゲインファクターを導出し、Mに対するLおよびRの実際の信号強度を復元する。さらに、ICC(l,b)を用いて低周波数におけるLとRとの間の位相関係を計測するが、これはLとRと分離の度合いを計測するのにも役立つ。しかしながら高周波数においては、音が分離していることによってもたらされる効果は、位相差ではなく、LおよびRの波形の類似度に影響される。例えば、L=cos(ωt+θ)、R=cos(ωt)である場合、ωの値が大きければ、θの値に関わらず同じ立体音響的効果がもたらされる。このような波形相関性の計測にはICCH(l,b)の利用がより適している。   As will be described later, the gain factor is derived by using ICC (l, b) in combination with ILD (l, b), and the actual signal strengths of L and R with respect to M are restored. In addition, ICC (l, b) is used to measure the phase relationship between L and R at low frequencies, which also helps to measure the degree of separation between L and R. However, at high frequencies, the effect brought about by the separation of the sounds is influenced not by the phase difference but by the similarity of the L and R waveforms. For example, when L = cos (ωt + θ) and R = cos (ωt), if the value of ω is large, the same stereoacoustic effect is brought about regardless of the value of θ. The use of ICCH (l, b) is more suitable for such waveform correlation measurement.

上記バイノーラルキューは全て、符号化処理における副情報の一部となる。図4に示すように、バイノーラルキュー生成のための全処理は、上述の入力・出力を用いてモジュール(400)に含めることができる。   All the binaural cues are part of the sub information in the encoding process. As shown in FIG. 4, the entire process for binaural cue generation can be included in the module (400) using the input / output described above.

図5は、上記のように生成されたバイノーラルキューを用いた復号化処理を示す図である。変換モジュール(500)はダウンミックス信号M(t)を処理し、時間−周波数表現M(t,f)に変換する。本実施の形態で示す変換モジュールは、複素QMFフィルタバンクである。   FIG. 5 is a diagram showing a decoding process using the binaural queue generated as described above. The conversion module (500) processes the downmix signal M (t) and converts it into a time-frequency representation M (t, f). The conversion module shown in the present embodiment is a complex QMF filter bank.

無相関器(502)はM(t,f)を処理し、直交信号を二つ生成する。図6において、従来技術における直交信号生成方法の例を二つ示す。非特許文献1ではBlock(600)を用い、分数遅延オールパスフィルタを用いて、ダウンミックス信号M(t,f)に対して直交である残響信号を導出している。Block(604)は直列接続されたオールパスフィルタを示している。なお、上記以外の無相関器を用いることも可能である。例えば、非特許文献2ではBlock(602)を用い、共通オールパスフィルタ(606)においてM(t,f)を処理した後、処理されたM(t,f)を、互いに素の関係となる遅延特性を持つ二つの櫛形フィルタ(608)、(610)において無相関する(mutually-prime orders)。以下では無相関器(600)を想定して説明を行う。   The decorrelator (502) processes M (t, f) and generates two orthogonal signals. FIG. 6 shows two examples of the orthogonal signal generation method in the prior art. Non-Patent Document 1 uses Block (600) and uses a fractional delay all-pass filter to derive a reverberation signal that is orthogonal to the downmix signal M (t, f). Block (604) represents an all-pass filter connected in series. It is also possible to use a decorrelator other than the above. For example, in Non-Patent Document 2, Block (602) is used, and after processing M (t, f) in the common all-pass filter (606), the processed M (t, f) is a delay that is relatively prime to each other. Two comb filters (608) and (610) having characteristics are uncorrelated (mutually-prime orders). In the following description, the decorrelator (600) is assumed.

本発明の実施の形態1において、モジュール(504)は(l,b)として示される帯域それぞれについて、バイノーラルキューBorder、ILD(l,b)、ICC(l,b)、およびICCH(l,b)からミキシング係数gL(l,b)、gR(l,b)、θL(l,b)、およびθR(l,b)を求める。次にモジュール(506)は、求められたミキシング係数に基づいてミキシングファクターgL1(l,b)、gL2(l,b)、gR1(l,b)、およびgR2(l,b)を算出する。 In the first embodiment of the present invention, the module (504) performs binaural queues Border, ILD (l, b), ICC (l, b), and ICCH (l, b) for each band indicated as (l, b). ), The mixing coefficients g L (l, b), g R (l, b), θ L (l, b), and θ R (l, b) are obtained. Module (506) then mixes the mixing factors g L1 (l, b), g L2 (l, b), g R 1 (l, b), and g R2 (l, b) based on the determined mixing coefficients. ) Is calculated.

記載の簡略化を図るため、以下では数式において(l,b)の表記を省略する。
符号化器でのダウンミックス処理に基づき、L、R、およびMのエネルギー間の関係を以下のように導出する。

Figure 2006323314
In order to simplify the description, the notation of (l, b) is omitted in the following formulas.
Based on the downmix processing at the encoder, the relationship between the L, R, and M energies is derived as follows.
Figure 2006323314

従来、ILDおよびICCは以下のように定義されている。

Figure 2006323314
Conventionally, ILD and ICC are defined as follows.
Figure 2006323314

このため、上記ILDおよびICCの定義を数式EMに代入すると、分離されたチャネルL’およびR’のレベルにまでMを増幅するのに必要なゲイン係数は以下のようになる。

Figure 2006323314
Figure 2006323314
For this reason, when the definitions of ILD and ICC are substituted into the equation E M , the gain coefficients necessary to amplify M to the level of the separated channels L ′ and R ′ are as follows.
Figure 2006323314
Figure 2006323314

図7は、ベクトル関係において、MからLおよびRを“分離”する様子を幾何学的に示した図である(特許文献2)。同図において、θLおよびθRは分離の度合いを示す。低周波数に対しては(θL+θR)をθ=cos-1(ICC)に設定し、高周波数(>1.5kHz)に対しては(θL+θR)をθ=cos-1(ICCH)に設定するが、その理由は上に述べたとおりである。図7に示す垂直三角形に対して三角関数を適用すると、

Figure 2006323314
FIG. 7 is a diagram geometrically showing how “L” and “R” are separated from M in the vector relationship (Patent Document 2). In the figure, θ L and θ R indicate the degree of separation. For low frequencies, (θ L + θ R ) is set to θ = cos −1 (ICC), and for high frequencies (> 1.5 kHz) (θ L + θ R ) is set to θ = cos −1 ( ICCH) for the same reason as described above. Applying the trigonometric function to the vertical triangle shown in FIG.
Figure 2006323314

同様に、

Figure 2006323314
復号化器ではオリジナルのLおよびRを利用できないため、相関性のない二つの信号 をモジュール(506)においてミックスして、上記分離をシミュレーションする。図 8に示すように、前記相関性のない二つの信号は直交的なベクトル関係を有している。 Similarly,
Figure 2006323314
Since the original L and R cannot be used in the decoder, two uncorrelated signals are mixed in the module (506) to simulate the separation. As shown in FIG. 8, the two signals having no correlation have an orthogonal vector relationship.

非特許文献1においては、相関のない二つの信号は、ダウンミックス信号S1=M と、Mから導出される無相関信号S2=Mrevとである。本発明 においては、ミキシングファクターgL1、gL2、gR1、およ びgR2を用いてMおよびMrevをスケーリングすることでミ キシングを行い、続いてベクトル加算を行う。gL1、gL2、gR1 、およびgR2は、gL、gR、θL、およびθRから導出される 。これは、MrevはMのオールパスバージョンであるため、|M |=|Mrev|となるためである。 In Non-Patent Document 1, two uncorrelated signals are a downmix signal S1 = M and an uncorrelated signal S2 = Mrev derived from M. In the present invention, mixing is performed by scaling M and M rev using mixing factors g L1 , g L2 , g R1 , and g R2 , followed by vector addition. g L1 , g L2 , g R1 , and g R2 are derived from g L , g R , θ L , and θ R. This is because M rev is an all-pass version of M, so | M | = | M rev |.

左チャネルL’を合成する前提として、次の2つの要件が満たされている必要がある。

Figure 2006323314
Figure 2006323314
As a premise for synthesizing the left channel L ′, the following two requirements must be satisfied.
Figure 2006323314
Figure 2006323314

上記二つの連立方程式を解くことで、左チャネルを導出するためのミキシングファクターを求めることができる。

Figure 2006323314
A mixing factor for deriving the left channel can be obtained by solving the above two simultaneous equations.
Figure 2006323314

同様にして、右チャネルを導出するためのミキシングファクターを求めることができる。

Figure 2006323314
Similarly, a mixing factor for deriving the right channel can be obtained.
Figure 2006323314

最後に、二つのチャネルL’およびR’を合成するために、次のようにミキシングファクターを用いる。

Figure 2006323314
Finally, to synthesize the two channels L ′ and R ′, a mixing factor is used as follows.
Figure 2006323314

モジュール(508)において、分離されたチャネルL’(l,b)およびR’(l,b)を逆変換し、時間領域信号L’(t)およびR’(t)を形成する。   In module (508), the separated channels L '(l, b) and R' (l, b) are inverse transformed to form time domain signals L '(t) and R' (t).

本発明の実施の形態2では、上記チャネル分離方法をマルチチャネルにも応用する方法を示す。本実施の形態では、5-1-5ケースを用いて説明を行う。また、以下の数式をダウンミックス用の数式として想定する。

Figure 2006323314
Embodiment 2 of the present invention shows a method in which the above channel separation method is applied to multi-channel. In the present embodiment, the description will be made using the 5-1-5 case. Further, the following formula is assumed as a formula for downmix.
Figure 2006323314

上記数式において、LおよびRは二つのフロント(前方)チャネルを示し、LSおよびRSは二つのリア(後方)チャネルを示し、Cはセントラル(中央)チャネルを示す。 In the above equation, L and R indicate two front (front) channels, L S and R S indicate two rear (rear) channels, and C indicates a central (center) channel.

図9に示す5-1-5ケースにおける符号化処理では、図4に示すモジュール(400)において、4通りのチャネルの組合せに対して4回処理を行うことで4つのバイノーラルキューセットを生成する。例えば、一つ目のバイノーラルキューセットを生成するために、ブロック(900)(図4におけるモジュール(400)と同じ)に対してCチャネルと中間ダウンミックスチャネル(L+0.707SLS+R+0.707RS)を入力する。モジュール(902)〜(906)においても同様の処理が行われる。生成された4つのバイノーラルキューセットは、マルチステージ復号化処理においてダウンミックスチャネルMを、L、R、LS、RSおよびCに分離するために用いられる。 In the encoding process in the case of 5-1-5 shown in FIG. 9, four binaural queue sets are generated by performing the process four times for four combinations of channels in the module (400) shown in FIG. . For example, to generate the first binaural cue set, the C channel and the intermediate downmix channel (L + 0.707SL S + R + 0.707R S ) for block (900) (same as module (400) in FIG. 4). Enter. Similar processing is performed in the modules (902) to (906). The generated four binaural queue sets are used to separate the downmix channel M into L, R, L S , R S and C in the multi-stage decoding process.

図10はそのマルチステージ復号化処理を示す図である。図5に示す2-1-2ケースと同様に、ダウンミックスチャネルMに対してQMF変換(1000)および無相関処理(1002)を行ってMrevを生成する。 FIG. 10 is a diagram showing the multistage decoding process. Similarly to the case of 2-1-2 shown in FIG. 5, the MMF is generated by performing QMF conversion (1000) and decorrelation processing (1002) on the downmix channel M.

バイノーラルキューセット1をミキシング係数算出モジュール(1004)において処理し、二つのミキシングファクターセット(gL1、gL2)および(gR1、gR2)を生成する。この処理は、MをCとM1=(L+0.707Ls+R+0.707Rs)とに分離するために行われる。[数15]より、M=0.293C+0.707M1を求めることは容易であり、重み付けの値として0.293および0.707を用いる。 The binaural cue set 1 is processed in the mixing coefficient calculation module (1004) to generate two mixing factor sets (g L1 , g L2 ) and (g R1 , g R2 ). This process is performed to separate M into C and M 1 = (L + 0.707L s + R + 0.707R s ). From [Expression 15], it is easy to obtain M = 0.293C + 0.707M 1, and 0.293 and 0.707 are used as weighting values.

バイノーラルキューセット2をミキシング係数算出モジュール(1006)において処理し、二つのミキシングファクターセット(gL3、gL4)および(gR3、gR4)を生成する。この処理はM1をM2=(L+R)/2とM3=(Ls+Rs)/2とに分離するために行われる。[数15]より、M1=0.586M2+0.414M3を求めることは容易であり、重み付けの値として0.586および0.414を用いる。 The binaural cue set 2 is processed in the mixing coefficient calculation module (1006) to generate two mixing factor sets (g L3 , g L4 ) and (g R3 , g R4 ). This process is performed to separate M 1 into M 2 = (L + R) / 2 and M 3 = (L s + R s ) / 2. From [Equation 15], it is easy to obtain M 1 = 0.586M 2 + 0.414M 3 , and 0.586 and 0.414 are used as weighting values.

バイノーラルキューセット3をミキシング係数算出モジュール(1008)において処理し、二つのミキシングファクターセット(gL5、gL6)および(gR5、gR6)を生成する。この処理はM2をLとRとに分離するために行われる。M2=0.5L+0.5Rであるため、重み付けの値として0.5を用いる。 The binaural cue set 3 is processed in the mixing coefficient calculation module (1008) to generate two mixing factor sets (g L5 , g L6 ) and (g R5 , g R6 ). This process is performed to separate M 2 into L and R. Since M 2 = 0.5L + 0.5R, 0.5 is used as the weighting value.

バイノーラルキューセット4をミキシング係数算出モジュール(1010)において処理し、二つのミキシングファクターセット(gL7、gL8)および(gR7、gR8)を生成する。この処理はM3をLsとRsとに分離するために行われる。M3=0.5Ls+0.5Rsであるため、重み付けの値として0.5を用いる。 The binaural cue set 4 is processed in the mixing coefficient calculation module (1010) to generate two mixing factor sets (g L7 , g L8 ) and (g R7 , g R8 ). This process is performed to separate M 3 into Ls and Rs. Since M 3 = 0.5L s + 0.5R s , 0.5 is used as the weighting value.

チャネルミキシングモジュール(1012)〜(1020)は、一連の行列演算においてミキシングファクターを組み合わせ、全体のミキシングファクターを求める。ここで、まず次の点に留意されたい。   The channel mixing modules (1012) to (1020) combine mixing factors in a series of matrix operations to obtain an overall mixing factor. First of all, please note the following points.

Figure 2006323314
である場合、その直交信号(+π/2で回転)は以下のようになる。
Figure 2006323314
Figure 2006323314
, The quadrature signal (rotated at + π / 2) is as follows:
Figure 2006323314

よって、行列形式で表わすと、

Figure 2006323314
Therefore, in matrix form,
Figure 2006323314

L’を求めるため、一連のチャネル分離処理に用いられるミキシングファクターM‐>M1‐>M2を組み合わせる。L’に対するミキシング用の数式は、

Figure 2006323314
In order to obtain L ′, mixing factors M → M 1 → M 2 used for a series of channel separation processes are combined. The mixing formula for L ′ is
Figure 2006323314

同様にして、モジュール(1014)〜(1020)において他のミキシング用の数式を求めることができる。
M‐>M1‐>M2から

Figure 2006323314
M‐>M1‐>M3から
Figure 2006323314
M‐>M1‐>M3から
Figure 2006323314
Mから
Figure 2006323314
Similarly, other mathematical formulas for mixing can be obtained in the modules (1014) to (1020).
From M-> M 1- > M 2
Figure 2006323314
From M-> M 1- > M 3
Figure 2006323314
From M-> M 1- > M 3
Figure 2006323314
From M
Figure 2006323314

逆QMFモジュール(1022)〜(1030)は、全ての合成チャネルを時間領域信号に変換する。   Inverse QMF modules (1022)-(1030) convert all combined channels into time domain signals.

(その他変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(Other variations)
Although the present invention has been described based on the above embodiment, it is needless to say that the present invention is not limited to the above embodiment. The following cases are also included in the present invention.

(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。   (1) Each of the above devices is specifically a computer system including a microprocessor, a ROM, a RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like. A computer program is stored in the RAM or hard disk unit. Each device achieves its functions by the microprocessor operating according to the computer program. Here, the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.

(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。   (2) A part or all of the constituent elements constituting each of the above-described devices may be configured by one system LSI (Large Scale Integration). The system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. . A computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.

(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。   (3) Part or all of the constituent elements constituting each of the above devices may be configured from an IC card that can be attached to and detached from each device or a single module. The IC card or the module is a computer system including a microprocessor, a ROM, a RAM, and the like. The IC card or the module may include the super multifunctional LSI described above. The IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.

(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。   (4) The present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.

また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。   The present invention also provides a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray Disc). ), Recorded in a semiconductor memory or the like. The digital signal may be recorded on these recording media.

また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。   In the present invention, the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like.

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。   The present invention may be a computer system including a microprocessor and a memory, wherein the memory stores the computer program, and the microprocessor operates according to the computer program.

また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。   In addition, the program or the digital signal is recorded on the recording medium and transferred, or the program or the digital signal is transferred via the network or the like, and executed by another independent computer system. It is good.

(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。   (5) The above embodiment and the above modifications may be combined.

本発明は、ホームシアターシステム、カーオーディオシステム、電子ゲームシステム等に適用可能である。   The present invention is applicable to a home theater system, a car audio system, an electronic game system, and the like.

典型的なバイノーラルキュー符号化システム。A typical binaural cue coding system. 2-1-2ケースにおける空間音声符号化処理。Spatial speech coding processing in the 2-1-2 case. 周波数帯域を形成するための時間・周波数の分割。Division of time and frequency to form a frequency band. バイノーラルキュー抽出ブロック。Binaural queue extraction block. 2-1-2ケースにおける空間音声復号化処理。2-1-2 spatial audio decoding processing in the case. 二つの無相関器。Two decorrelators. 音声信号のペアとそれらのダウンミックス信号と間のベクトル関係。A vector relationship between a pair of audio signals and their downmix signals. 二つの直交信号ベクトルの和による信号合成。Signal synthesis by the sum of two orthogonal signal vectors. 5-1-5ケースにおける空間音声符号化処理の一部。Part of the spatial speech coding process in the 5-1-5 case. 5-1-5ケースにおける空間音声復号化処理。5-1-5 Spatial speech decoding process in case.

符号の説明Explanation of symbols

200 変換モジュール
202 ダウンミックスモジュール
204 ILDモジュール
206 ICCモジュール
208 ICCHモジュール
400 2−1BCC符号化モジュール
500 QMFフィルタバンク
502 無相関器
504 ミキシング係数算出モジュール
506 チャネルミキシングモジュール
508 QMF-1フィルタバンク
200 Conversion Module 202 Downmix Module 204 ILD Module 206 ICC Module 208 ICCH Module 400 2-1 BCC Coding Module 500 QMF Filter Bank 502 Correlator Correlator 504 Mixing Coefficient Calculation Module 506 Channel Mixing Module 508 QMF -1 Filter Bank

Claims (15)

複数の音声チャネルを空間的音声情報として符号化する装置であって、
(a) ダウンミックスチャネルを算出し、
(b) 前記複数の音声チャネルとダウンミックスチャネルとを時間−周波数表現に変換し、それらを周波数軸に沿って中間周波数帯域に分割し、
(c)前記ダウンミックスチャネルをマルチステージ復号化処理において個々の音声チャネルに分離するためのチャネル分離ステップを導出し、
(d) 各チャネル分離ステップについて、前記中間周波数帯域をさらに周波数帯域に分割するための、時間方向における境界を決定し、
(e) 各チャネル分離ステップおよび各周波数帯域について、チャネル間レベル差キュー(ILD)を算出し、
(f) 各チャネル分離ステップおよび各周波数帯域について、チャネル間干渉性キュー(ICC)を算出し、
(g) 各チャネル分離ステップおよび各高周波数の周波数帯域について、高周波数チャネル間相関性キュー(ICCH)を算出する
ことを特徴とする装置。
An apparatus for encoding a plurality of audio channels as spatial audio information,
(A) Calculate the downmix channel,
(B) converting the plurality of audio channels and downmix channels into a time-frequency representation, dividing them into intermediate frequency bands along the frequency axis;
(C) deriving a channel separation step for separating the downmix channel into individual audio channels in a multi-stage decoding process;
(D) For each channel separation step, determine a boundary in the time direction for further dividing the intermediate frequency band into frequency bands;
(E) For each channel separation step and each frequency band, calculate an inter-channel level difference queue (ILD);
(F) For each channel separation step and each frequency band, calculate an inter-channel coherence queue (ICC);
(G) A high frequency inter-channel correlation queue (ICCH) is calculated for each channel separation step and each high frequency band.
請求項1に記載の装置であって、各チャネル分離ステップについて、複数の信号からなる一つの複合ダウンミックス信号を入力とし、前記一つの複合ダウンミックス信号を、それぞれが一または複数の信号からなる二つの複合ダウンミックス信号に分割する
ことを特徴とする装置。
The apparatus according to claim 1, wherein, for each channel separation step, one composite downmix signal composed of a plurality of signals is input, and each of the one composite downmix signal is composed of one or a plurality of signals. A device characterized in that it is divided into two composite downmix signals.
請求項1に記載の装置であって、前記境界は、時間方向においてILDに大きな変化が現れる時間的位置に配置される
ことを特徴とする装置。
The apparatus according to claim 1, wherein the boundary is arranged at a temporal position where a large change in the ILD appears in the time direction.
請求項1に記載の装置であって、前記ILDキューは、周波数帯域における二つの複合信号のエネルギーの比率である
ことを特徴とする装置。
The apparatus according to claim 1, wherein the ILD queue is a ratio of energy of two composite signals in a frequency band.
請求項1に記載の装置であって、前記ICCキューは、周波数帯域における二つの複合信号間の、位相の相関性を計測するために用いられる
ことを特徴とする装置。
The apparatus according to claim 1, wherein the ICC queue is used for measuring a phase correlation between two composite signals in a frequency band.
請求項1に記載の装置であって、前記ICCHキューは、周波数帯域における二つの複合信号間の、位相ではなく波形の相関性を計測するために用いられる
ことを特徴とする装置。
The apparatus according to claim 1, wherein the ICCH queue is used to measure a waveform correlation, not a phase, between two composite signals in a frequency band.
空間的音声情報を複数の音声チャネルに復号する装置であって、
(a) ダウンミックスチャネルを時間−周波数表現に変換し、それらを周波数軸に沿って中間周波数帯域に分割し、
(b) 前記ダウンミックスチャネルに対して相関器による処理を施し、前記ダウンミックス信号の逆相関チャネルを形成し、
(c) 各チャネル分離ステップについて、Border、ILD,ICC、およびICCHをそれぞれが含む全てのバイノーラルキューセットをミキシング係数算出(MCC)モジュールに入力して、ミキシングファクターを導出し、
(d) チャネルミキシング(CM)モジュールにおいて、前記ミキシングファクターを組み合わせることで、個々のチャネルに対する全体のミキシングファクターを算出し、
(e) 前記CMモジュールにおいて、無相関信号と前記全体のミキシングファクターとをミキシングして、前記個々の信号を生成し、
(f) 全ての個々の信号を時間−周波数表現から時間領域に逆変換してマルチチャネル音声を復元する
ことを特徴とする装置。
An apparatus for decoding spatial audio information into a plurality of audio channels,
(A) Convert the downmix channels into a time-frequency representation, divide them into intermediate frequency bands along the frequency axis,
(B) performing processing by a correlator on the downmix channel to form an inverse correlation channel of the downmix signal;
(C) For each channel separation step, input all binaural cue sets each including Border, ILD, ICC, and ICCH into a mixing coefficient calculation (MCC) module to derive a mixing factor;
(D) In the channel mixing (CM) module, by combining the mixing factors, an overall mixing factor for each channel is calculated,
(E) In the CM module, the uncorrelated signal and the overall mixing factor are mixed to generate the individual signals,
(F) A device that restores multi-channel speech by inversely transforming all individual signals from a time-frequency representation into the time domain.
請求項7に記載の装置であって、前記無相関信号は互いに直交である
ことを特徴とする装置。
The apparatus according to claim 7, wherein the uncorrelated signals are orthogonal to each other.
請求項7に記載の装置であって、前記MCCは、対応するチャネル分離ステップについて出力された二つの複合信号にそれぞれに付加される2つのミキシングファクターセット生成する
ことを特徴とする装置。
The apparatus according to claim 7, wherein the MCC generates two mixing factor sets to be added to the two composite signals output for the corresponding channel separation step, respectively.
請求項7および9に記載の装置であって、前記ミキシングファクターは、ゲインファクターおよび分離の度合いの関数である
ことを特徴とする装置。
10. Apparatus according to claim 7 and 9, wherein the mixing factor is a function of a gain factor and a degree of separation.
請求項7、9および10に記載の装置であって、前記ゲインファクターおよび分離の度合は、ILD、ICC、およびICCHから予測される、二つの複合信号間のベクトル関係を考慮して算出される
ことを特徴とする装置。
11. The apparatus according to claim 7, 9 and 10, wherein the gain factor and the degree of separation are calculated considering a vector relationship between two composite signals predicted from ILD, ICC and ICCH. A device characterized by that.
請求項7に記載の装置であって、前記全体のミキシングファクターは、対応するチャネル分離ステージでそれぞれ導出されるミキシングファクターを、一連の行列演算によって合算することで算出する
ことを特徴とする装置。
8. The apparatus according to claim 7, wherein the overall mixing factor is calculated by adding the mixing factors respectively derived at the corresponding channel separation stages by a series of matrix operations.
請求項7に記載の装置であって、前記ミキシング処理において、前記ダウンミックス信号と、ベクトル的な関係において、直交かつ無相関な信号とを用いることによって、ダウンミックス信号と分離された信号との間の、所望の分離度合いを実現する
ことを特徴とする装置。
The apparatus according to claim 7, wherein in the mixing process, the downmix signal is separated from the downmix signal by using an orthogonal and uncorrelated signal in a vector relationship. A device characterized by realizing a desired degree of separation between them.
請求項7および13に記載の装置であって、前記ミキシング処理において、前記ミキシングファクターを用いてダウンミックス信号と無相関信号とをスケーリングし、それらの信号がベクトル空間に追加された場合であっても、ダウンミックス信号からの分離の度合いが所望の度合いであり、信号強度が所望の強度である分離信号を生成できるようにする、
ことを特徴とする装置。
14. The apparatus according to claim 7 or 13, wherein in the mixing process, a downmix signal and an uncorrelated signal are scaled using the mixing factor, and these signals are added to a vector space. Also, it is possible to generate a separation signal in which the degree of separation from the downmix signal is a desired degree and the signal strength is a desired intensity.
A device characterized by that.
請求項12、13および14に記載の装置であって、前記行列演算において、入力ダウンミックス信号とその無相関信号とに到達するまで、現在のチャネル分離ステージのダウンミックス信号と無相関信号とを、前回のチャネル分離ステージのダウミックス信号と無相関信号との関数として繰り返し導出する。
ことを特徴とする装置。
15. The apparatus according to claim 12, 13 and 14, wherein in the matrix operation, a downmix signal and an uncorrelated signal of a current channel separation stage are obtained until an input downmix signal and its uncorrelated signal are reached. , Repeatedly derived as a function of the dowmix signal and uncorrelated signal of the previous channel separation stage.
A device characterized by that.
JP2005148771A 2005-05-20 2005-05-20 Apparatus for binaural-cue-coding multi-channel voice signal Pending JP2006323314A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005148771A JP2006323314A (en) 2005-05-20 2005-05-20 Apparatus for binaural-cue-coding multi-channel voice signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005148771A JP2006323314A (en) 2005-05-20 2005-05-20 Apparatus for binaural-cue-coding multi-channel voice signal

Publications (1)

Publication Number Publication Date
JP2006323314A true JP2006323314A (en) 2006-11-30

Family

ID=37543018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005148771A Pending JP2006323314A (en) 2005-05-20 2005-05-20 Apparatus for binaural-cue-coding multi-channel voice signal

Country Status (1)

Country Link
JP (1) JP2006323314A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009050896A1 (en) * 2007-10-16 2009-04-23 Panasonic Corporation Stream generating device, decoding device, and method
CN101350197B (en) * 2007-07-16 2011-05-11 华为技术有限公司 Method for encoding and decoding stereo audio and encoder/decoder
JP5340378B2 (en) * 2009-02-26 2013-11-13 パナソニック株式会社 Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method
WO2020009082A1 (en) * 2018-07-03 2020-01-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Encoding device and encoding method
JP2020034920A (en) * 2015-03-09 2020-03-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for encoding or decoding multi-channel signal

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350197B (en) * 2007-07-16 2011-05-11 华为技术有限公司 Method for encoding and decoding stereo audio and encoder/decoder
WO2009050896A1 (en) * 2007-10-16 2009-04-23 Panasonic Corporation Stream generating device, decoding device, and method
US8391513B2 (en) 2007-10-16 2013-03-05 Panasonic Corporation Stream synthesizing device, decoding unit and method
JP5340378B2 (en) * 2009-02-26 2013-11-13 パナソニック株式会社 Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method
US9053701B2 (en) 2009-02-26 2015-06-09 Panasonic Intellectual Property Corporation Of America Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method
JP2020034920A (en) * 2015-03-09 2020-03-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for encoding or decoding multi-channel signal
CN112233684A (en) * 2015-03-09 2021-01-15 弗劳恩霍夫应用研究促进协会 Apparatus and method for encoding or decoding multi-channel signal
US11508384B2 (en) 2015-03-09 2022-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
JP7208126B2 (en) 2015-03-09 2023-01-18 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for encoding or decoding multi-channel signals
CN112233684B (en) * 2015-03-09 2024-03-19 弗劳恩霍夫应用研究促进协会 Apparatus and method for encoding or decoding multi-channel signal
US11955131B2 (en) 2015-03-09 2024-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2020009082A1 (en) * 2018-07-03 2020-01-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Encoding device and encoding method

Similar Documents

Publication Publication Date Title
US20200335115A1 (en) Audio encoding and decoding
JP4934427B2 (en) Speech signal decoding apparatus and speech signal encoding apparatus
RU2388068C2 (en) Temporal and spatial generation of multichannel audio signals
JP5934922B2 (en) Decoding device
RU2409911C2 (en) Decoding binaural audio signals
RU2376655C2 (en) Energy-dependant quantisation for efficient coding spatial parametres of sound
JP4589962B2 (en) Apparatus and method for generating level parameters and apparatus and method for generating a multi-channel display
RU2509442C2 (en) Method and apparatus for applying reveberation to multichannel audio signal using spatial label parameters
JP4918490B2 (en) Energy shaping device and energy shaping method
NO344760B1 (en) Compatible multi-channel coding / decoding.
JPWO2006022190A1 (en) Audio encoder
JP4988716B2 (en) Audio signal decoding method and apparatus
WO2007080225A1 (en) Decoding of binaural audio signals
JP2006323314A (en) Apparatus for binaural-cue-coding multi-channel voice signal
JP2006325162A (en) Device for performing multi-channel space voice coding using binaural queue
JP2007104601A (en) Apparatus for supporting header transport function in multi-channel encoding
JP2009151183A (en) Multi-channel voice sound signal coding device and method, and multi-channel voice sound signal decoding device and method
WO2007080224A1 (en) Decoding of binaural audio signals