JP4625709B2 - Stereo audio signal encoding device - Google Patents

Stereo audio signal encoding device Download PDF

Info

Publication number
JP4625709B2
JP4625709B2 JP2005089855A JP2005089855A JP4625709B2 JP 4625709 B2 JP4625709 B2 JP 4625709B2 JP 2005089855 A JP2005089855 A JP 2005089855A JP 2005089855 A JP2005089855 A JP 2005089855A JP 4625709 B2 JP4625709 B2 JP 4625709B2
Authority
JP
Japan
Prior art keywords
block
channel
determined
block length
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005089855A
Other languages
Japanese (ja)
Other versions
JP2006267943A (en
JP2006267943A5 (en
Inventor
広和 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005089855A priority Critical patent/JP4625709B2/en
Publication of JP2006267943A publication Critical patent/JP2006267943A/en
Publication of JP2006267943A5 publication Critical patent/JP2006267943A5/ja
Application granted granted Critical
Publication of JP4625709B2 publication Critical patent/JP4625709B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、左右チャネルのオーディオ信号をそれぞれ可変長のブロック単位で時間周波数変換する処理を伴う、例えばAAC(Advanced Audio Coding)やMP3(MPEG-1 Audio Layer-3)などのステレオオーディオ信号符号化方法で符号化を行うステレオオーディオ信号符号化装置に関する。   The present invention involves encoding a stereo audio signal such as AAC (Advanced Audio Coding) or MP3 (MPEG-1 Audio Layer-3), for example, with processing for time-frequency conversion of left and right channel audio signals in units of variable lengths. The present invention relates to a stereo audio signal encoding apparatus that performs encoding by a method.

AACやMP3等の符号化では、入力信号の急激な振幅変化に伴うプリエコーを抑制するために、可変長のブロック切替えが行われる。このブロック切替えでは、心理聴覚モデルに基づく知覚エントロピーや時間域の振幅変化(パワー比)などの判定パラメータが閾値を越えた場合に、時間解像度の高いショートブロックに切替える。
「Advanced Audio Coding(AAC)」,ISO/IEC 13818-7 Information technology -Generic coding of moving pictures and associated audio information-,国際標準化機構/国際電気標準会議,1997年12月1日
In encoding such as AAC and MP3, variable-length block switching is performed in order to suppress pre-echo due to a sudden amplitude change of an input signal. In this block switching, when a determination parameter such as perceptual entropy based on a psychoacoustic model or a time domain amplitude change (power ratio) exceeds a threshold value, the block is switched to a short block with high temporal resolution.
"Advanced Audio Coding (AAC)", ISO / IEC 13818-7 Information technology -Generic coding of moving pictures and associated audio information-, International Organization for Standardization / International Electrotechnical Commission, December 1, 1997

左右の相関が高いステレオ信号を符号化する場合で、左右のチャネルの判定パラメータの微妙な違いのためにブロック切換の判定結果が異なった場合には、ロングブロックおよびショートブロックの符号化効率等の違いに伴い、左右の量子化雑音の違いが異音として検知されることがあった。   When encoding a stereo signal with a high correlation between left and right, if the block switching determination results differ due to subtle differences in the determination parameters of the left and right channels, the encoding efficiency of the long block and short block, etc. Along with the difference, the difference between the left and right quantization noises was sometimes detected as an abnormal sound.

本発明はこのような事情を考慮してなされたものであり、その目的とするところは、左右の量子化雑音の違いに伴う異音の発生を抑止できるステレオオーディオ信号符号化装置を提供することにある。   The present invention has been made in view of such circumstances, and an object of the present invention is to provide a stereo audio signal encoding apparatus capable of suppressing the generation of abnormal sounds due to the difference between left and right quantization noises. It is in.

一態様によるステレオオーディオ信号符号化装置は、左チャネルのオーディオ信号および右チャネルのオーディオ信号をそれぞれ可変長のブロック単位で時間周波数変換する処理を伴うステレオオーディオ信号符号化を行うステレオオーディオ信号符号化装置において、前記左チャネルと前記右チャネルの間の相互相関値を求める手段と、前記左チャネルのオーディオ信号の特性を表すとともにブロック判定に必要な左チャネル用の判定パラメータと、前記右チャネルのオーディオ信号の特性を表すとともにブロック判定に必要な右チャネル用の判定パラメータとを算出する算出手段と、前記左チャネルのブロック長を、前記左チャネル用の判定パラメータが第1の閾値未満である場合に第1のブロック長として、また前記左チャネル用の判定パラメータが前記第1の閾値以上である場合に前記第1のブロック長よりも短い第2のブロック長としてそれぞれ判定するとともに、前記右チャネルのブロック長を、前記右チャネル用の判定パラメータが前記第1の閾値未満である場合に前記第1のブロック長として、また前記右チャネル用の判定パラメータが前記第1の閾値以上である場合に前記第2のブロック長としてそれぞれ判定する判定手段と、前記判定された左チャネルおよび右チャネルのブロック長が互いに異なり、かつ前記相互相関値が第2の閾値以上であるときに、前記判定されたブロック長が前記第2のブロック長であるチャネル用の前記判定パラメータが前記第1の閾値よりも大きな第3の閾値未満である場合には、前記左チャネルおよび前記右チャネルともに前記第1のブロック長を前記時間周波数に使用するブロック長として確定し、前記判定されたブロック長が前記第2のブロック長であるチャネル用の前記判定パラメータが前記第3の閾値以上である場合には、前記左チャネルおよび前記右チャネルともに前記第2のブロック長を前記時間周波数変換に使用するブロック長として確定する確定手段とを備える。 A stereo audio signal encoding apparatus according to one aspect performs a stereo audio signal encoding process including a time frequency conversion of a left channel audio signal and a right channel audio signal in units of variable length blocks. Means for obtaining a cross-correlation value between the left channel and the right channel , a determination parameter for the left channel indicating characteristics of the audio signal of the left channel and necessary for block determination, and the audio of the right channel Calculating means for calculating a determination parameter for the right channel necessary for block determination and representing a characteristic of the signal; and a block length of the left channel; when the determination parameter for the left channel is less than a first threshold As the first block length and for the left channel When a constant parameter is greater than or equal to the first threshold value, the second block length is determined to be shorter than the first block length, and the block length of the right channel is determined as the determination parameter for the right channel. A determination unit configured to determine the first block length when it is less than a first threshold, and the second block length when the determination parameter for the right channel is equal to or greater than the first threshold ; Unlike block length before Symbol the determined left and right channels from each other, and for the when the cross-correlation value is not smaller than the second threshold value, the determined block length is the second block length channel When the determination parameter of the left channel and the right channel is less than a third threshold value that is greater than the first threshold value and less than a third threshold value, When the first block length is determined as the block length to be used for the time frequency, and the determination parameter for a channel whose determined block length is the second block length is equal to or greater than the third threshold Comprises determining means for determining the second block length as the block length used for the time-frequency conversion for both the left channel and the right channel .

本発明によれば、左右の量子化雑音の違いに伴う異音の発生を抑止可能となる。   According to the present invention, it is possible to suppress the generation of abnormal noise due to the difference between left and right quantization noise.

以下、図面を参照して本発明の一実施形態について説明する。   Hereinafter, an embodiment of the present invention will be described with reference to the drawings.

図1は本実施形態に係るステレオオーディオ信号符号化装置(以下、符号化装置と称する)のブロック図である。   FIG. 1 is a block diagram of a stereo audio signal encoding apparatus (hereinafter referred to as an encoding apparatus) according to this embodiment.

この符号化装置は、入力されるステレオPCM信号に対して符号化処理を行い、符号化ビットストリームを出力するものである。この符号化装置は、フレーム切り出し部1、心理聴覚モデル部2、フィルタバンク部3、量子化歪み/レート制御部4、ホストプロセッサ5、スケーリング部6、量子化部7、符号化部8およびフォーマッタ9を含む。なお、これらの各部は、ハードウェアによりそれぞれを構成することも可能であるし、各部の機能をDSP(Digital Signal Processor)等によるソフトウェア処理によって実現することも可能である。   This encoding apparatus performs an encoding process on an input stereo PCM signal and outputs an encoded bit stream. The encoding apparatus includes a frame cutout unit 1, a psychoacoustic model unit 2, a filter bank unit 3, a quantization distortion / rate control unit 4, a host processor 5, a scaling unit 6, a quantization unit 7, an encoding unit 8, and a formatter. 9 is included. Each of these units can be configured by hardware, and the function of each unit can be realized by software processing using a DSP (Digital Signal Processor) or the like.

フレーム切り出し部1には、符号化の対象となるステレオPCM信号が与えられる。このステレオPCM信号は、時間域の信号である。フレーム切り出し部1は、このステレオPCM信号からコーデックの処理単位となる規定のフレームサイズのサンプル数毎にデータを切り出す。そしてフレーム切り出し部1は、この切り出した信号を出力する。   The frame cutout unit 1 is provided with a stereo PCM signal to be encoded. This stereo PCM signal is a time domain signal. The frame cutout unit 1 cuts out data from the stereo PCM signal for each number of samples having a prescribed frame size that is a processing unit of the codec. The frame cutout unit 1 outputs the cutout signal.

心理聴覚モデル部2は、フレーム切り出し部1が出力する信号に対してDFT(Discrete Fourier Transform)、DCT(Discrete Cosine Transform)、あるいはMDCT(Modified DCT)等の直交変換を行い、これにより時間域の信号から周波数領域の信号に変換する。心理聴覚モデル部2は、上記の直交変換により得られる変換係数(周波数成分)から知覚エントロピーと呼ばれるパラメータを計算する。このパラメータは、上記の変換係数から、聴感上の周波数分解能、周波数成分の拡散、予測不能性、信号の調音性(tonality)を解析することにより1フレームを符号化するのに必要とされる情報量を推定するためのものであり、計算方法の詳細はISO/IECにより制定された国際標準規格13818-7にて規定されている。   The psychoacoustic model unit 2 performs orthogonal transform such as DFT (Discrete Fourier Transform), DCT (Discrete Cosine Transform), or MDCT (Modified DCT) on the signal output from the frame cutout unit 1, thereby Convert signal to frequency domain signal. The psychoacoustic model unit 2 calculates a parameter called perceptual entropy from the transform coefficient (frequency component) obtained by the orthogonal transform. This parameter is information required to encode one frame by analyzing the auditory frequency resolution, diffusion of frequency components, unpredictability, and signal tonality from the conversion coefficient. This is for estimating the quantity, and details of the calculation method are defined in the international standard 13818-7 established by ISO / IEC.

ところで心理聴覚モデル部2は、ブロック切替え部2aおよびSMR算出部2bを有する。ブロック切替え部2aは、上記の知覚エントロピーに基づいて、あるいはそれに代替する過去信号とのパワー比に基づいて、実際に符号化する時の直交変換処理(MDCT処理)で用いるブロック長を判定する。このブロック切替えは、直交変換による符号化方式でアタック信号(急峻な振幅変化を伴う信号)を符号化した際に量子化誤差の影響で生じる耳障りなノイズ(プリエコー)を抑制するために行われる。図2は、直交変換としてAAC等で使われるMDCTを使った場合のフレームとブロック切替えの様子を示した図である。図2(a)はロングブロックを、図2(b)はショートブロックをそれぞれ示す。プリエコーの原因となるノイズはMDCT処理単位に拡がるため、アタック信号を含むと判定される場合には、MDCTする処理単位を8分割したショートブロックで処理することによりノイズが発生する範囲を抑える。なお、ショートブロックとロングブロックの繋ぎ目は両者の整合を取るための特殊な窓形状によるMDCT処理となる。ブロック切替え部2aは、この判定の結果を示したブロック長情報をフィルタバンク部3へ出力する。SMR算出部2bは、聴覚上の周波数分解能を考慮した尺度(バーク、メル等)での等間隔の帯域毎に、信号に対してマスクされる音、つまりノイズとして存在しても知覚されない許容雑音の量の比を示すSMR(Signal to Mask Ratio)を算出する。SMR算出部2bは、上記算出したSMRを、量子化歪み/レート制御部4へ出力する。   The psychoacoustic model unit 2 includes a block switching unit 2a and an SMR calculation unit 2b. The block switching unit 2a determines the block length used in the orthogonal transform process (MDCT process) when actually encoding based on the perceptual entropy described above or based on the power ratio with the past signal substituted for it. This block switching is performed in order to suppress annoying noise (pre-echo) caused by the influence of a quantization error when an attack signal (a signal with a sharp amplitude change) is encoded by an encoding method based on orthogonal transform. FIG. 2 is a diagram showing how frames and blocks are switched when MDCT used in AAC or the like is used as orthogonal transform. 2A shows a long block, and FIG. 2B shows a short block. Since noise that causes pre-echo spreads to the MDCT processing unit, when it is determined that an attack signal is included, the processing unit for MDCT is processed by a short block divided into eight to suppress the noise generation range. The joint between the short block and the long block is an MDCT process using a special window shape for matching the both. The block switching unit 2a outputs block length information indicating the result of this determination to the filter bank unit 3. The SMR calculation unit 2b is a permissible noise that is not perceived even if it exists as a sound masked with respect to a signal, that is, noise, for each equally-spaced band on a scale (bark, mel, etc.) in consideration of auditory frequency resolution. The SMR (Signal to Mask Ratio) indicating the ratio of the amount of is calculated. The SMR calculation unit 2 b outputs the calculated SMR to the quantization distortion / rate control unit 4.

フィルタバンク部3は、フレーム切り出し部1の出力信号を、心理聴覚モデル部2から出力されるブロック長情報に従って直交変換する。フィルタバンク部3は、上記の直交変換により得られた周波数変換係数を出力する。なお、符号化方式としてAACを採用している場合、フィルタバンク部3での直交変換はMDCTとなる。   The filter bank unit 3 orthogonally transforms the output signal of the frame cutout unit 1 according to the block length information output from the psychoacoustic model unit 2. The filter bank unit 3 outputs the frequency transform coefficient obtained by the orthogonal transform. In addition, when AAC is employ | adopted as an encoding system, the orthogonal transformation in the filter bank part 3 becomes MDCT.

量子化歪み/レート制御部4は、ホストプロセッサ5が指示する符号化レートと、心理聴覚モデル部2が出力するSMRとに基づいて、フレーム毎に割当可能な符号量を算出する。量子化歪み/レート制御部4は、上記算出した符号量を符号化フレームの目標符号量として、スケーリング部6、量子化部7および符号化部8を制御する。例えば量子化歪み/レート制御部4は、量子化部7から与えられる量子化係数から量子化歪み量を算出し、その結果と心理聴覚モデル部2から得られるSMRに応じてスケーリング部6および量子化部7へと出力指示を与える。また量子化歪み/レート制御部4は、符号化部8から通知される符号量が上記目標符号量以内になるまで繰り返し制御を行い、目標符号量以内になった時点で符号化部8へと出力指示を与える。   The quantization distortion / rate control unit 4 calculates a code amount that can be allocated for each frame based on the coding rate instructed by the host processor 5 and the SMR output from the psychoacoustic model unit 2. The quantization distortion / rate control unit 4 controls the scaling unit 6, the quantization unit 7, and the encoding unit 8 using the calculated code amount as the target code amount of the encoded frame. For example, the quantization distortion / rate control unit 4 calculates a quantization distortion amount from the quantization coefficient given from the quantization unit 7, and the scaling unit 6 and the quantum according to the result and the SMR obtained from the psychoacoustic model unit 2. An output instruction is given to the conversion unit 7. The quantization distortion / rate control unit 4 repeatedly performs control until the code amount notified from the encoding unit 8 falls within the target code amount, and when the code amount falls within the target code amount, the quantization distortion / rate control unit 4 Give output instructions.

スケーリング部6は、フィルタバンク部3から出力される周波数変換係数(MDCT係数)を、所定のスケーリング係数でスケーリングする。そしてスケーリング部6は、上記のスケーリングの結果を量子化部7へ出力する。またスケーリング部6は、量子化歪み/レート制御部4からの指示に応じてスケーリング係数をフォーマッタ9へ出力する。   The scaling unit 6 scales the frequency conversion coefficient (MDCT coefficient) output from the filter bank unit 3 with a predetermined scaling coefficient. Then, the scaling unit 6 outputs the scaling result to the quantization unit 7. The scaling unit 6 outputs a scaling coefficient to the formatter 9 in response to an instruction from the quantization distortion / rate control unit 4.

量子化部7は、スケーリング部6から出力された周波数変換係数を規定の式に従って補正したのち、全ての周波数変換係数について量子化を行う。量子化部7は、量子化したのちの係数を、量子化歪み誤差がSMR値に基づく許容誤差であるかを判定するための情報として量子化歪み/レート制御部4へと出力する。量子化部7は、量子化歪み/レート制御部4からの出力指示に応じて、量子化後の周波数変換係数を符号化部8へ出力する。   The quantization unit 7 corrects the frequency conversion coefficient output from the scaling unit 6 according to a prescribed formula, and then quantizes all the frequency conversion coefficients. The quantization unit 7 outputs the quantized coefficient to the quantization distortion / rate control unit 4 as information for determining whether the quantization distortion error is an allowable error based on the SMR value. The quantization unit 7 outputs the quantized frequency transform coefficient to the encoding unit 8 in response to an output instruction from the quantization distortion / rate control unit 4.

符号化部8は、量子化部7の出力を所定の符号化方式に従って圧縮符号化する。例えば、AACの場合は上述の符号化方式としてハフマン符号化方式が適用される。符号化部8は、符号化後の符号量を量子化歪み/レート制御部4へと出力する。符号化部8は、量子化歪み/レート制御部4からの出力指示に応じて、符号化後の周波数変換係数をフォーマッタ9へ出力する。   The encoding unit 8 compresses and encodes the output of the quantization unit 7 according to a predetermined encoding method. For example, in the case of AAC, the Huffman encoding method is applied as the above-described encoding method. The encoding unit 8 outputs the encoded code amount to the quantization distortion / rate control unit 4. The encoding unit 8 outputs the encoded frequency transform coefficient to the formatter 9 in response to an output instruction from the quantization distortion / rate control unit 4.

フォーマッタ9は、符号化部8の出力とスケーリング部6から出力されるスケーリング係数とを所定のフォーマットに従って多重化する。フォーマッタ9は、上記の多重化の結果を、符号化オーディオ信号として出力する。   The formatter 9 multiplexes the output of the encoding unit 8 and the scaling coefficient output from the scaling unit 6 according to a predetermined format. The formatter 9 outputs the result of the above multiplexing as an encoded audio signal.

次に以上のように構成された符号化装置の動作について説明する。なお、本願発明のポイントは、ブロック切替え部2aにおけるブロック長の判定処理にある。そこでここでは、この処理について詳細に説明する。この他の処理については、AACに準拠する既存の符号化装置と同様な処理を適用可能である。   Next, the operation of the encoding apparatus configured as described above will be described. The point of the present invention lies in the block length determination process in the block switching unit 2a. Therefore, here, this process will be described in detail. For other processing, processing similar to that of an existing encoding device that conforms to AAC can be applied.

図3は図1中のブロック切替え部2aにおけるブロック切替え処理の動作フローを示す図である。
フレーム切り出し部1で切り出された規定のフレームサイズのステレオPCM信号が入力されると、このフレームを処理対象として図3に示す処理を実行する。
FIG. 3 is a diagram showing an operation flow of block switching processing in the block switching unit 2a in FIG.
When a stereo PCM signal having a prescribed frame size cut out by the frame cutout unit 1 is input, the processing shown in FIG. 3 is executed with this frame as a processing target.

ステップSa1においてブロック切替え部2aは、左右のチャネル毎にブロック判定に必要な判定パラメータを算出する。判定パラメータとしては、心理聴覚モデルに基づく知覚エントロピーや、アタック信号を検出するために時間域でフレームあるいはサブブロック(フレームより小さい単位)毎でのパワー比等がある。ステップSa2においてブロック切替え部2aは、上記の判定パラメータに基づいてチャネル毎のブロック形状(ブロック長)を判定する。ブロック形状の判定は、判定パラメータと閾値αとの比較によって行われる。判定パラメータが閾値α未満であるとき、定常的な信号と判断することができるため、ブロック切替え部2aはブロック形状をロングブロックと判定する。一方、判定パラメータが閾値α以上であるとき、アタックを含む急峻な信号であると判断されるため、ブロック切替え部2aはブロック形状をショートブロックと判定する。   In step Sa1, the block switching unit 2a calculates a determination parameter necessary for block determination for each of the left and right channels. The determination parameters include perceptual entropy based on the psychoacoustic model, power ratio for each frame or sub-block (unit smaller than the frame) in the time domain in order to detect an attack signal. In step Sa2, the block switching unit 2a determines the block shape (block length) for each channel based on the determination parameter. The block shape is determined by comparing the determination parameter with the threshold value α. When the determination parameter is less than the threshold value α, it can be determined that the signal is a stationary signal, so the block switching unit 2a determines that the block shape is a long block. On the other hand, when the determination parameter is greater than or equal to the threshold value α, it is determined that the signal is a steep signal including an attack, so the block switching unit 2a determines the block shape to be a short block.

ステップSa3においてブロック切替え部2aは、左右のそれぞれのチャネルについて判定されたブロック形状が互いに同一であるか否かを確認する。この確認の結果がYESであるならば、ブロック切替え部2aはステップSa3からステップSa9へ進む。しかしながら、上記の確認の結果がNOであるならば、ブロック切替え部2aはステップSa3からステップSa4へ進む。   In step Sa3, the block switching unit 2a checks whether or not the block shapes determined for the left and right channels are the same. If the result of this confirmation is YES, the block switching unit 2a proceeds from step Sa3 to step Sa9. However, if the result of the above confirmation is NO, the block switching unit 2a proceeds from step Sa3 to step Sa4.

ステップSa4においてブロック切替え部2aは、左右チャネル間の相互相関値を算出する。相互相関値Corrは、Lチャネル側の信号L(k)、Rチャネル側の信号をR(k)、判定すべき信号の範囲をNとした場合、次式で求められる。なお、ここで算出する相互相関値は、時間域であっても、周波数領域であっても良い。   In step Sa4, the block switching unit 2a calculates a cross-correlation value between the left and right channels. The cross-correlation value Corr is obtained by the following equation when the L channel side signal L (k), the R channel side signal R (k), and the signal range to be determined are N. The cross-correlation value calculated here may be a time domain or a frequency domain.

Figure 0004625709
Figure 0004625709

ステップSa5においてブロック切替え部2aは、上記の相互相関値が閾値β以上であるか否かを確認する。左右チャネル間の相関が小さく、上記の確認の結果がNOとなるのであれば、ブロック切替え部2aはステップSa5からステップSa9へ進み、ステップSa2で判定したブロック形状をそのまま用いる。しかしながら、左右チャネル間の相関が大きく、上記の確認の結果がYESとなるのであれば、ブロック切替え部2aはステップSa5からステップSa6へ進む。   In step Sa5, the block switching unit 2a checks whether or not the cross-correlation value is equal to or greater than the threshold value β. If the correlation between the left and right channels is small and the result of the above confirmation is NO, the block switching unit 2a proceeds from step Sa5 to step Sa9 and uses the block shape determined in step Sa2 as it is. However, if the correlation between the left and right channels is large and the result of the above confirmation is YES, the block switching unit 2a proceeds from step Sa5 to step Sa6.

ステップSa6においてブロック切替え部2aは、ショートブロックと判定されているチャネルに関してステップSa1で算出された判定パラメータが閾値α′以上であるか否かを確認する。閾値α′は、閾値αよりも若干大きな値に設定される。上記の確認の結果がYESとなるのであれば、ブロック切替え部2aはステップSa6からステップSa7へ進む。ステップSa7においてブロック切替え部2aは、ロングブロックと判定されているチャネル(ロング側チャネル)をショートブロックに変更する。この後にブロック切替え部2aは、ステップSa9へ進む。これに対して、上記の確認の結果がNOとなるのであれば、ブロック切替え部2aはステップSa6からステップSa8へ進む。ステップSa8においてブロック切替え部2aは、ショートブロックと判定されているチャネル(ショート側チャネル)をロングブロックに変更する。この後にブロック切替え部2aは、ステップSa9へ進む。   In step Sa6, the block switching unit 2a confirms whether or not the determination parameter calculated in step Sa1 is greater than or equal to the threshold value α ′ for the channel determined to be a short block. The threshold value α ′ is set to a value slightly larger than the threshold value α. If the result of the above confirmation is YES, the block switching unit 2a proceeds from step Sa6 to step Sa7. In step Sa7, the block switching unit 2a changes a channel determined to be a long block (long side channel) to a short block. After this, the block switching unit 2a proceeds to Step Sa9. On the other hand, if the result of the above confirmation is NO, the block switching unit 2a proceeds from step Sa6 to step Sa8. In step Sa8, the block switching unit 2a changes a channel determined to be a short block (short side channel) to a long block. After this, the block switching unit 2a proceeds to Step Sa9.

ステップSa9においてブロック切替え部2aは、ここへ進んだ時点における各チャネルのブロック形状を、今回の処理対象としているブロックに関するブロック形状として確定し、これをフィルタバンク部3へ通知する。   In step Sa9, the block switching unit 2a determines the block shape of each channel at the time of proceeding here as the block shape related to the block to be processed this time, and notifies this to the filter bank unit 3.

かくして本実施形態によれば、判定パラメータと閾値αとの比較に基づいて判定されるブロック形状が左右のチャネルで互いに同一であれば、左右チャネルともにその判定されたブロック形状に確定される。   Thus, according to the present embodiment, if the block shape determined based on the comparison between the determination parameter and the threshold value α is the same for the left and right channels, the determined block shape is determined for both the left and right channels.

判定パラメータと閾値αとの比較に基づいて判定されるブロック形状が左右のチャネルで互いに異なり、かつ左右チャネル間の相関が比較的大きいのであれば、左右のチャネルのブロック形状が強制的に共通化される。左右の量子化雑音の違いは小さく抑えられ、異音の発生が抑えられる。   If the block shape determined based on the comparison between the determination parameter and the threshold α is different between the left and right channels and the correlation between the left and right channels is relatively large, the block shape of the left and right channels is forcibly shared. Is done. The difference between the left and right quantization noises is kept small, and the generation of abnormal noise is suppressed.

なお本実施形態では、ショート側チャネルの判定パラメータが閾値αよりも若干大きな閾値α′以上であるならば、左右のチャネルのブロック形状はショートブロックに共通化され、そうでないならばロングブロックに共通化される。従って、ショート側チャネルが、判定パラメータが閾値αより若干大きいためにショートブロックと判定されているのであれば、これをロングブロックに変更しても大きくは品質低下を来さないから、ロングブロックに共通化することで符号化効率を向上させることができる。しかし、ショート側チャネルが、判定パラメータが閾値αよりも十分に大きいのであれば、これをロングブロックに変更することによる品質低下が大きくなってしまう。そこで、ショートブロックに共通化することにより、品質を向上させることができる。   In this embodiment, if the determination parameter of the short side channel is equal to or larger than the threshold value α ′ slightly larger than the threshold value α, the block shape of the left and right channels is made common to the short block, and otherwise, common to the long block. It becomes. Therefore, if the short side channel is determined to be a short block because the determination parameter is slightly larger than the threshold value α, even if this is changed to a long block, the quality will not be greatly reduced. Coding efficiency can be improved by sharing. However, if the determination parameter of the short-side channel is sufficiently larger than the threshold value α, the quality deterioration due to changing this to a long block will increase. Therefore, the quality can be improved by sharing the short block.

判定パラメータと閾値αとの比較に基づいて判定されるブロック形状が左右のチャネルで互いに異なったとしても、左右チャネル間の相関が比較的小さいのであれば、左右のチャネルともにその判定されたブロック形状に確定される。左右チャネル間の相関が比較的小さいステレオPCM信号としては、デュアルモノ音源に係わる信号が想定される。このデュアルモノ音源の場合、チャネル毎独立に聴聞する利用が想定されるため、チャネル間の影響を受けないように独立に符号化することが望ましく、無理にブロック形状を強制的に共通化すると音質劣化が引き起こされる恐れがある。しかし本実施形態では、上記のように左右チャネル間の相関が比較的小さい場合には、左右のチャネルのブロック形状が異なることを許容しているので、デュアルモノ音源に係わる信号も高品質に符号化できる。   Even if the block shape determined based on the comparison between the determination parameter and the threshold α is different between the left and right channels, if the correlation between the left and right channels is relatively small, the determined block shape for both the left and right channels To be confirmed. As a stereo PCM signal having a relatively small correlation between the left and right channels, a signal related to a dual mono sound source is assumed. In the case of this dual mono sound source, it is assumed that each channel is listened to independently, so it is desirable to encode them independently so as not to be affected by the channel. Deterioration may be caused. However, in the present embodiment, when the correlation between the left and right channels is relatively small as described above, the block shape of the left and right channels is allowed to be different. Can be

この実施形態は、次のような種々の変形実施が可能である。
ブロック形状を強制的に共通化する場合に、無条件にロングブロックまたはショートブロックのいずれかに共通化しても良い。例えば、符号化効率を優先するならばロングブロックに、また品質を優先するならばショートブロックにそれぞれ共通化することが考えられる。
This embodiment can be variously modified as follows.
When the block shape is forcibly shared, it may be unconditionally shared with either the long block or the short block. For example, it is conceivable to share a long block if priority is given to coding efficiency, and to a short block if priority is given to quality.

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。   Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment.

本発明の一実施形態に係るステレオオーディオ信号符号化装置のブロック図。1 is a block diagram of a stereo audio signal encoding device according to an embodiment of the present invention. MDCT処理におけるブロック切り替えの様子を示す図。The figure which shows the mode of the block switching in MDCT processing. 図1中のブロック切替え部2aにおけるブロック切替え処理の動作フローを示す図。The figure which shows the operation | movement flow of the block switching process in the block switching part 2a in FIG.

符号の説明Explanation of symbols

1…フレーム切り出し部、2…心理聴覚モデル部、2a…ブロック切替え部、2b…SMR算出部、3…フィルタバンク部、4…量子化歪み/レート制御部、5…ホストプロセッサ、6…スケーリング部、7…量子化部、8…符号化部、9…フォーマッタ。   DESCRIPTION OF SYMBOLS 1 ... Frame cutout part, 2 ... Psychological auditory model part, 2a ... Block switching part, 2b ... SMR calculation part, 3 ... Filter bank part, 4 ... Quantization distortion / rate control part, 5 ... Host processor, 6 ... Scaling part , 7 ... quantization unit, 8 ... encoding unit, 9 ... formatter.

Claims (4)

左チャネルのオーディオ信号および右チャネルのオーディオ信号をそれぞれ可変長のブロック単位で時間周波数変換する処理を伴うステレオオーディオ信号符号化を行うステレオオーディオ信号符号化装置において、
前記左チャネルと前記右チャネルの間の相互相関値を求める手段と、
前記左チャネルのオーディオ信号の特性を表すとともにブロック判定に必要な左チャネル用の判定パラメータと、前記右チャネルのオーディオ信号の特性を表すとともにブロック判定に必要な右チャネル用の判定パラメータとを算出する算出手段と、
前記左チャネルのブロック長を、前記左チャネル用の判定パラメータが第1の閾値未満である場合に第1のブロック長として、また前記左チャネル用の判定パラメータが前記第1の閾値以上である場合に前記第1のブロック長よりも短い第2のブロック長としてそれぞれ判定するとともに、前記右チャネルのブロック長を、前記右チャネル用の判定パラメータが前記第1の閾値未満である場合に前記第1のブロック長として、また前記右チャネル用の判定パラメータが前記第1の閾値以上である場合に前記第2のブロック長としてそれぞれ判定する判定手段と、
前記判定された左チャネルおよび右チャネルのそれぞれのブロック長が互いに異なり、かつ前記相互相関値が第2の閾値以上であるときに、前記判定されたブロック長が前記第2のブロック長であるチャネル用の前記判定パラメータが前記第1の閾値よりも大きな第3の閾値未満である場合には、前記左チャネルおよび前記右チャネルともに前記第1のブロック長を前記時間周波数に使用するブロック長として確定し、前記判定されたブロック長が前記第2のブロック長であるチャネル用の前記判定パラメータが前記第3の閾値以上である場合には、前記左チャネルおよび前記右チャネルともに前記第2のブロック長を前記時間周波数変換に使用するブロック長として確定する確定手段とを具備したことを特徴とするステレオオーディオ信号符号化装置。
In stereo audio signal coding apparatus which performs a stereo audio signal coding with Hidarichi Yaneru audio signal and the right channel audio signals respectively processing for time-frequency transform in blocks of variable length,
It means for obtaining a cross-correlation value between the right channel and the left channel,
The left channel determination parameter necessary for block determination and the right channel determination signal necessary for block determination and the right channel determination parameter necessary for block determination are calculated. A calculation means;
The block length of the left channel is set as a first block length when the determination parameter for the left channel is less than a first threshold, and the determination parameter for the left channel is greater than or equal to the first threshold Are determined as second block lengths shorter than the first block length, and the block length of the right channel is determined when the determination parameter for the right channel is less than the first threshold. Determining means for determining the second block length when the determination parameter for the right channel is equal to or greater than the first threshold ;
A channel in which the determined block length is the second block length when the determined block lengths of the left channel and the right channel are different from each other and the cross-correlation value is equal to or greater than a second threshold. When the determination parameter for use is less than a third threshold value that is greater than the first threshold value, the first block length is determined as the block length to be used for the time frequency for both the left channel and the right channel. When the determination parameter for a channel whose determined block length is the second block length is equal to or greater than the third threshold, the second block length is set for both the left channel and the right channel. Stereo audio signal, comprising: a determining means for determining a block length to be used for the time frequency conversion Goka apparatus.
前記確定手段は、前記判定された左チャネルおよび右チャネルのそれぞれのブロック長が互いに同一であるときに、前記判定されたブロック長のそれぞれを前記時間周波数変換に使用するブロック長として確定する請求項1に記載のステレオオーディオ信号符号化装置。 The determining means determines each of the determined block lengths as a block length to be used for the time-frequency conversion when the determined block lengths of the left channel and the right channel are the same. 1. The stereo audio signal encoding device according to 1. 前記確定手段は、前記判定された左チャネルおよび右チャネルのそれぞれのブロック長が互いに異なり、かつ前記相互相関値が第2の閾値未満であるときに、前記判定されたブロック長のそれぞれを前記時間周波数変換に使用するブロック長として確定する請求項1に記載のステレオオーディオ信号符号化装置。 The determining means determines each of the determined block lengths when the block lengths of the determined left channel and right channel are different from each other and the cross-correlation value is less than a second threshold. The stereo audio signal encoding device according to claim 1, wherein the stereo audio signal encoding device is determined as a block length used for frequency conversion . 前記算出手段は、心理聴覚モデルに基づく知覚エントロピー、または時間域でフレームあるいはサブブロック毎でのパワー比を前記判定パラメータとして算出する請求項1に記載のステレオオーディオ信号符号化装置。 The stereo audio signal encoding apparatus according to claim 1 , wherein the calculation means calculates perceptual entropy based on a psychoacoustic model or a power ratio for each frame or sub-block in the time domain as the determination parameter .
JP2005089855A 2005-03-25 2005-03-25 Stereo audio signal encoding device Expired - Fee Related JP4625709B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005089855A JP4625709B2 (en) 2005-03-25 2005-03-25 Stereo audio signal encoding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005089855A JP4625709B2 (en) 2005-03-25 2005-03-25 Stereo audio signal encoding device

Publications (3)

Publication Number Publication Date
JP2006267943A JP2006267943A (en) 2006-10-05
JP2006267943A5 JP2006267943A5 (en) 2008-04-17
JP4625709B2 true JP4625709B2 (en) 2011-02-02

Family

ID=37203938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005089855A Expired - Fee Related JP4625709B2 (en) 2005-03-25 2005-03-25 Stereo audio signal encoding device

Country Status (1)

Country Link
JP (1) JP4625709B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4743228B2 (en) * 2008-05-22 2011-08-10 三菱電機株式会社 DIGITAL AUDIO SIGNAL ANALYSIS METHOD, ITS DEVICE, AND VIDEO / AUDIO RECORDING DEVICE
WO2011013381A1 (en) * 2009-07-31 2011-02-03 パナソニック株式会社 Coding device and decoding device
JP6909301B2 (en) * 2017-09-25 2021-07-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Coding device and coding method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07154265A (en) * 1993-11-29 1995-06-16 Sony Corp Method and device for information compression, method and device for information expansion, compressed information recorder/transmitter, compressed information reproducing device, compressed information receiver and recording medium
JPH11289599A (en) * 1998-04-03 1999-10-19 Nippon Hoso Kyokai <Nhk> Signal processor, signal processing method and computer-readable recording medium recording signal processing program
JP2005062296A (en) * 2003-08-08 2005-03-10 Fujitsu Ltd Device and method for encoding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07154265A (en) * 1993-11-29 1995-06-16 Sony Corp Method and device for information compression, method and device for information expansion, compressed information recorder/transmitter, compressed information reproducing device, compressed information receiver and recording medium
JPH11289599A (en) * 1998-04-03 1999-10-19 Nippon Hoso Kyokai <Nhk> Signal processor, signal processing method and computer-readable recording medium recording signal processing program
JP2005062296A (en) * 2003-08-08 2005-03-10 Fujitsu Ltd Device and method for encoding

Also Published As

Publication number Publication date
JP2006267943A (en) 2006-10-05

Similar Documents

Publication Publication Date Title
US11094331B2 (en) Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
US9305558B2 (en) Multi-channel audio encoding/decoding with parametric compression/decompression and weight factors
JP4413257B2 (en) Apparatus and method for processing multi-channel signals
JP4934427B2 (en) Speech signal decoding apparatus and speech signal encoding apparatus
EP2250641B1 (en) Apparatus for mixing a plurality of input data streams
KR101428487B1 (en) Method and apparatus for encoding and decoding multi-channel
KR101798117B1 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
KR20060113998A (en) Audio coding
JP4685165B2 (en) Interchannel level difference quantization and inverse quantization method based on virtual sound source position information
JP4625709B2 (en) Stereo audio signal encoding device
CN115843378A (en) Audio decoder, audio encoder, and related methods using joint encoding of scaling parameters for channels of a multi-channel audio signal
JP4116628B2 (en) Audio encoding method and audio encoding apparatus
JP2008026372A (en) Encoding rule conversion method and device for encoded data
JP2006201375A (en) Audio encoding method and device
KR20070035410A (en) Method and Apparatus for encoding/decoding Spatial Parameter of Multi-channel audio signal
MXPA06009933A (en) Device and method for processing a multi-channel signal
JP2005351977A (en) Device and method for encoding audio signal
KR20090029904A (en) Apparatus and method for purceptual audio coding in mobile equipment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080304

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees