JP2008026372A - Encoding rule conversion method and device for encoded data - Google Patents

Encoding rule conversion method and device for encoded data Download PDF

Info

Publication number
JP2008026372A
JP2008026372A JP2006195447A JP2006195447A JP2008026372A JP 2008026372 A JP2008026372 A JP 2008026372A JP 2006195447 A JP2006195447 A JP 2006195447A JP 2006195447 A JP2006195447 A JP 2006195447A JP 2008026372 A JP2008026372 A JP 2008026372A
Authority
JP
Japan
Prior art keywords
data
coding rule
rule
encoding
quantization scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006195447A
Other languages
Japanese (ja)
Other versions
JP4721355B2 (en
Inventor
Koichi Takagi
幸一 高木
Satoshi Miyaji
悟史 宮地
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2006195447A priority Critical patent/JP4721355B2/en
Publication of JP2008026372A publication Critical patent/JP2008026372A/en
Application granted granted Critical
Publication of JP4721355B2 publication Critical patent/JP4721355B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an encoding rule conversion method and device for converting the encoding rule of data which are encoded with a first encoding rule, to a second encoding rule in a short period of time, without degradation in the quality. <P>SOLUTION: In the encoding rule conversion method of the encoded data, a quantization scale calculating section 300 calculates an AAC(advanced audio coding) scale value Q' from an MP3 quantization scale value Q, on the basis of a primary function indicating correlation of the MP3 quantization scale value and the AAC quantization scale value. A quantization section 311 quantizes MDCT (modified discrete cosine transform) coefficient, on the basis of the AAC quantization scale value Q', which is calculated in the quantization scale calculating section 300. Consequently, repeated processings for determining the quantization scale value are not performed in the AAC encoding process. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、第1の符号化則で符号化されているオーディオデータを、第1の符号化則とは異なる第2の符号化則で符号化されたオーディオデータに変換する符号化データの符号化則変換方法および装置に関する。   The present invention relates to encoding of encoded data for converting audio data encoded with the first encoding rule to audio data encoded with a second encoding rule different from the first encoding rule. The present invention relates to a chemical rule conversion method and apparatus.

国際標準で定められたオーディオ圧縮方式として、ISOで標準化されたMP3 (MPEG(Moving Picture Experts Group)-1 Audio Layer 3)規格が広く普及している。MP3はもっとも人気のあるオーディオ圧縮方式の一つであり、多くのポータブル再生デバイスにMP3デコーダが実装されている。   As an audio compression method defined by an international standard, the MP3 (MPEG (Moving Picture Experts Group) -1 Audio Layer 3) standard standardized by ISO is widely used. MP3 is one of the most popular audio compression methods, and many portable playback devices have an MP3 decoder.

一方、MP3とは互換性がないが、音質を保ったまま、より高い圧縮率を実現した符号化方式としてAAC(Advanced Audio Coding)が規定され、いくつかのオンライン音楽配信や各種放送サービスなどで採用されている。AACはCD品質の音声を1チャネルあたり約48〜64 kbpsで実現でき、MP3と比較して約30%の符号量を削減できると言われている。それゆえ、AACの製品やAACに関連するサービスが今後市場に多く出現し、MP3のファイルをAACのファイルに変換したいという要望が増えていくことが予想される。   On the other hand, although it is not compatible with MP3, AAC (Advanced Audio Coding) is defined as an encoding method that achieves a higher compression rate while maintaining sound quality, and it is used in several online music distribution and various broadcasting services, etc. It has been adopted. AAC is said to be capable of realizing CD-quality audio at about 48 to 64 kbps per channel and reducing the code amount by about 30% compared to MP3. Therefore, AAC products and services related to AAC will appear in the market in the future, and the demand for converting MP3 files to AAC files is expected to increase.

MP3をAACに変換する最も簡単な方法として、MP3をPCMデータまで完全にデコードした後、このPCMデータをAACに再エンコードする、非圧縮ドメインでのトランスコーディングが挙げられる。   The simplest way to convert MP3 to AAC is transcoding in the uncompressed domain, where MP3 is completely decoded to PCM data and then this PCM data is re-encoded to AAC.

図5は、従来のMP3デコーダ10の主要部の構成を示したブロック図であり、MP3のハフマン符号を非線形量子化されたデータにデコードするハフマン符号デコード部101と、フレーム内のサイド情報を取り出してデコードするサイド情報デコード部102と、サイド情報に基づいてデータを逆量子化する逆量子化部103と、ハイブリッドフィルターバンクによって生じたエイリアシング(折り返し歪み)を削減するエイリアス削減部104と、逆変形離散コサイン変換を行うIMDCT(Inverse Modified Discrete Cosine Transform)部105と、32分割されたサブバンドを合成してPCMデータを復元するSynthesis Subband Filter Bank部106とを主要な構成としている。このようなMP3デコーダは特許文献1に開示されている。   FIG. 5 is a block diagram showing the configuration of the main part of a conventional MP3 decoder 10, which extracts a Huffman code decoding unit 101 for decoding MP3 Huffman code into nonlinear quantized data and side information in the frame. The side information decoding unit 102 for decoding the data, the inverse quantization unit 103 for dequantizing the data based on the side information, the alias reduction unit 104 for reducing aliasing caused by the hybrid filter bank, and the inverse deformation An IMDCT (Inverse Modified Discrete Cosine Transform) unit 105 that performs discrete cosine transform and a Synthesis Subband Filter Bank unit 106 that synthesizes 32 subbands to restore PCM data are the main components. Such an MP3 decoder is disclosed in Patent Document 1.

図6は、従来のAACエンコーダ20の主要部の構成を示したブロック図であり、入力されたオーディオ信号は、所定のサンプル数毎にブロック化(フレームと呼ぶ)され、2つのパスに分かれて処理される。   FIG. 6 is a block diagram showing a configuration of a main part of a conventional AAC encoder 20, and an input audio signal is blocked (called a frame) every predetermined number of samples and divided into two paths. It is processed.

心理聴覚分析部201は、入力フレームを高速フーリエ変換(FFT)して周波数スペクトルおよび各種のパラメータを求める。MDCT(modified DCT)部202は、心理聴覚分析部で決定されたブロック長で入力オーディオ信号を周波数スペクトル(以下、MDCT係数と表現する場合もある)に変換する。TNS(Temporal Noise Shaping:時間領域雑音整形)部203は、圧縮処理に伴う雑音のレベルを、音の大きさに合わせて変化させることで信号レベルの大きな箇所に量子化ノイズを集中させ、音が小さな部分では雑音も小さくして聴感を向上させる。   The psychoacoustic analysis unit 201 obtains a frequency spectrum and various parameters by performing a fast Fourier transform (FFT) on the input frame. The MDCT (modified DCT) unit 202 converts the input audio signal into a frequency spectrum (hereinafter also referred to as an MDCT coefficient) with the block length determined by the psychoacoustic analysis unit. A TNS (Temporal Noise Shaping) unit 203 concentrates the quantization noise on a portion with a large signal level by changing the noise level accompanying the compression processing according to the volume of the sound, and the sound is In a small part, the noise is reduced and the hearing is improved.

後方予測処理部204は、MDCT係数に対して予測フィルタリングを行う。非線形量子化部205は、心理聴覚分析部で求めたスケールファクタバンド毎の許容量子化雑音電力を下回ることを目標にMDCT係数を量子する。量子化されたMDCT係数は、更にハフマン符号化部206でハフマン符号化されて冗長度を削減される。この量子化・ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量がフレームに割当てられたビット数を下回るまで繰返される。このようなAACエンコーダは特許文献2に開示されている。   The backward prediction processing unit 204 performs prediction filtering on the MDCT coefficient. The nonlinear quantization unit 205 quantizes the MDCT coefficient with the goal of being below the allowable quantization noise power for each scale factor band obtained by the psychoacoustic analysis unit. The quantized MDCT coefficient is further subjected to Huffman coding by the Huffman coding unit 206 to reduce redundancy. This quantization / Huffman encoding process is performed in an iterative loop, and is repeated until the amount of code actually generated falls below the number of bits allocated to the frame. Such an AAC encoder is disclosed in Patent Document 2.

なお、特許文献3には、編集作業が難しい第1の符号化則のオーディオデータ(MP3)を、編集作業が容易な第2の符号化則のオーディオデータ(ATRAC)に変換して、その第2の符号化則のオーディオデータに対して編集処理を行ない、編集後に第1の符号化則のオーディオデータに戻す技術が開示されている。
特開2003−99095号公報 特開2006−145782号公報 特開2001−184840号公報
In Patent Document 3, the audio data (MP3) of the first coding rule that is difficult to edit is converted into the audio data (ATRAC) of the second coding rule that is easy to edit. A technique is disclosed in which editing processing is performed on audio data with the second encoding rule, and the data is restored to audio data with the first encoding rule after editing.
JP 2003-99095 A JP 2006-145882 A JP 2001-184840 A

オーディオデータの符号化則変換において、変換対象データを完全復号化後に再符号化するトランスコーディング方式では、全ての復号化プロセスおよび符号化プロセスが実行され、特に符号化プロセスが全て実行されると、量子化・ハフマン符号化の反復ループで長時間を要するために、変換時間が長くなるという技術課題があった。また、同一データに対して2種類の符号化処理が行われることになるので品質が劣化するという技術課題があった。   In the coding rule conversion of audio data, in the transcoding scheme in which the data to be converted is re-encoded after complete decoding, all decoding processes and encoding processes are executed, especially when all the encoding processes are executed, Since it takes a long time in the iterative loop of quantization and Huffman coding, there is a technical problem that the conversion time becomes long. In addition, since two types of encoding processing are performed on the same data, there is a technical problem that quality deteriorates.

本発明の目的は、上記した従来技術の課題を解決し、第1符号化則で符号化されているデータの符号化則を、品質劣化を最小限に抑えながら短時間で第2符号化則に変換できる符号化則変換方法および装置を提供することにある。   The object of the present invention is to solve the above-mentioned problems of the prior art and to convert the data encoded by the first encoding rule into the second encoding rule in a short time while minimizing quality degradation. It is an object of the present invention to provide a coding rule conversion method and apparatus that can convert the data into a code.

上記した目的を達成するために、本発明は、第1符号化則で符号化された第1符号化則データを、符号化時の量子化が反復ループで繰り返される第2符号化則で符号化された第2符号化則データに変換する符号化データの符号化則変換方法において、以下のような手順を含むことを特徴とする。
(1)第1符号化則データをPCMデータに復号化する復号化プロセスおよびPCMデータを第2符号化則データに符号化する符号化プロセスを含み、さらに、第1符号則データの復号化プロセスにおいて量子化データを逆量子化する手順と、前記逆量子化手順において、第1逆量子化スケール値をサンプルごとに取得する手順と、前記各第1量子化スケール値に所定の関数計算を実行して第2量子化スケール値を算出する手順と、第2符号化則の符号化プロセスにおいて、前記第2各量子化スケール値を用いてデータを量子化する手順とを含むことを特徴とする。
(2)第1符号化則データが、当該第1符号化則データの1フレームのサンプル数と第2符号化則データの1フレームのサンプル数との最小公倍数に相当するフレーム数ずつ、その符号化則を変換されることを特徴とする。
(3)第2符号化則データの符号化プロセスが、データの時間領域を周波数領域に変換するDCT手順を含み、さらに、第1符号則データの復号化プロセスにおける逆量子化手順において、各フレームのフレーム構造を保存する手順と、第2符号則データの符号化プロセスにおけるDCT手順において、前記保存されたフレーム構造に基づいてウインドウサイズを決定する手順とを含むことを特徴とする。
In order to achieve the above-described object, the present invention encodes the first coding rule data encoded with the first coding rule with the second coding rule in which the quantization at the time of encoding is repeated in an iterative loop. An encoded data conversion method for converting encoded data into converted second encoded rule data includes the following procedure.
(1) A decoding process for decoding the first coding rule data into the PCM data, a decoding process for coding the PCM data into the second coding rule data, and a decoding process for the first coding rule data In the inverse quantization procedure, in the inverse quantization procedure, a first inverse quantization scale value is obtained for each sample, and a predetermined function calculation is performed on each first quantization scale value. And calculating a second quantization scale value and, in the encoding process of the second encoding rule, a procedure of quantizing data using each of the second quantization scale values. .
(2) The first coding rule data is encoded by the number of frames corresponding to the least common multiple of the number of samples of one frame of the first coding rule data and the number of samples of one frame of the second coding rule data. It is characterized in that the chemical rule is converted.
(3) The encoding process of the second encoding rule data includes a DCT procedure for converting the time domain of the data into the frequency domain, and each frame in the inverse quantization procedure in the decoding process of the first encoding rule data And a procedure for determining a window size based on the stored frame structure in the DCT procedure in the encoding process of the second code rule data.

本発明によれば、以下のような効果が達成される。
(1)第1符号化則で符号化された第1符号化則データを、符号化時の量子化が反復ループで繰り返される第2符号化則で符号化された第2符号化則データに変換する際、第1符号化則データの復号化プロセスで得られる量子化スケールに関するパラメータを、第2符号化則での符号化プロセスに継承できるので、第2符号化則の符号化プロセスにおいて最も時間を要する繰り返しプロセスを簡略化できるようになる。
(2)符号化則変換が、第1符号化則データの1フレームのサンプル数と第2符号化則データの1フレームのサンプル数との最小公倍数に相当するフレーム数ずつ行われるようにしたので、第1符号化則データのフレームサイズと第2符号化則データのフレームサイズとの相違を解消できるようになる。
(3)第1符号化則で符号化された第1符号化則データを、符号化時の量子化が反復ループで繰り返される第2符号化則で符号化された第2符号化則データに変換する際、第1符号化則データの復号化プロセスで得られるフレーム構造に関するパラメータを、第2符号化則での符号化プロセスに継承できるので、第2符号化則の符号化プロセスにおいて最適なフレーム構造を選択できるようになる。
According to the present invention, the following effects are achieved.
(1) The first encoding rule data encoded by the first encoding rule is converted into the second encoding rule data encoded by the second encoding rule in which the quantization at the time of encoding is repeated in an iterative loop. At the time of conversion, the parameter relating to the quantization scale obtained in the decoding process of the first coding rule data can be inherited by the coding process in the second coding rule, so that the most in the coding process of the second coding rule. It is possible to simplify a time-consuming repetitive process.
(2) Since the coding rule conversion is performed by the number of frames corresponding to the least common multiple of the number of samples of one frame of the first coding rule data and the number of samples of one frame of the second coding rule data. Thus, the difference between the frame size of the first coding rule data and the frame size of the second coding rule data can be resolved.
(3) The first encoding rule data encoded by the first encoding rule is converted into the second encoding rule data encoded by the second encoding rule in which the quantization at the time of encoding is repeated in an iterative loop. At the time of conversion, parameters related to the frame structure obtained in the decoding process of the first coding rule data can be inherited by the coding process in the second coding rule, which is optimal in the coding process of the second coding rule. The frame structure can be selected.

以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。ここでは、MP3からAACへの変換を例にして、初めに本発明の概要について説明し、次いで、その詳細について説明する。   DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the best embodiment of the present invention will be described in detail with reference to the drawings. Here, taking the conversion from MP3 to AAC as an example, the outline of the present invention will be described first, and then the details will be described.

本発明では、AACの符号化プロセスにおいて最も時間を要する量子化の反復プロセスを簡略化することで、上記したトランスコーディング方式の技術課題を解決すべく、MP3の復号化プロセスで得られるフレーム構造および量子化スケールに関するパラメータを、AACの符号化プロセスに継承するようにしている。   In the present invention, the frame structure obtained by the decoding process of MP3 and the above-described technical problem of the transcoding scheme are simplified by simplifying the iterative process of quantization that takes the most time in the encoding process of AAC. The parameters related to the quantization scale are inherited by the AAC encoding process.

MP3デコーダでは、サブバンドごとにフレームを半分ずつオーバラップさせながら、6点(short)または18点(long)のMDCT(modified DCT)を適用することにより、周波数成分が32個のサブバンド信号に分割される。6点のMDCTは、特にプリエコーが起こるような、時間的に見て急峻に変化する部分に適用される。   In MP3 decoder, the frequency component is changed to 32 subband signals by applying 6-point (short) or 18-point (long) MDCT (modified DCT) while overlapping the frames by half in each subband. Divided. The 6-point MDCT is applied to a portion that changes abruptly in time, particularly where pre-echo occurs.

一方、AACはMP3よりも高品質な圧縮符号化を実現するために検討されたものであり、AACで使われている多くの技術はMP3でも既に導入されている。AACにおいてMP3よりも音質が向上した理由のひとつはMDCTフィルタバンクの導入である。AACではフィルタバンクが128点と1024点との間で適応的に変動する(256点および2048点の窓をかけて半分をオーバラップさせる)。   On the other hand, AAC has been studied to achieve higher quality compression coding than MP3, and many techniques used in AAC have already been introduced in MP3. One of the reasons for improved sound quality over MP3 in AAC is the introduction of the MDCT filter bank. In AAC, the filter bank adaptively fluctuates between 128 and 1024 points (half windows overlap with 256 and 2048 points).

オーディオ信号に対しては高周波数解像度のフィルタバンクがしばしば必要とされるが、AACでは1024点のフィルタバンクを適用可能な一方、MP3では高くても576点までである。しかしながら、過渡的な信号の場合は高い周波数解像度が必要とされないため、ともに適応的に窓長をより短く設定することが可能となっている。この場合、周波数解像度の設定をMP3では192点で行うのに対して、AACでは128点で行うことができる。このように、MP3とAACとの違いのひとつは周波数ドメインへの変換の方式の違いである。さらに変換のための各フレームサイズも異なっている。   A filter bank with high frequency resolution is often required for audio signals, but 1024 filter banks can be applied with AAC, but up to 576 with MP3. However, since a high frequency resolution is not required in the case of a transient signal, it is possible to adaptively set the window length shorter. In this case, the frequency resolution can be set at 192 points in MP3, but 128 points in AAC. Thus, one of the differences between MP3 and AAC is the difference in the method of conversion to the frequency domain. Furthermore, each frame size for conversion is also different.

一般に、MP3およびAACの符号化プロセスでは、同一の心理聴覚モデルを用いて符号ビットの割り当てが行われる。さらに、符号割り当ては一般的に反復演算を行うため、これに必要となる時間は符号化プロセスの大半を占める。したがって、この処理のための時間を削減することはオーディオ符号化全体の時間を大きく削減することにつながる。   In general, in the encoding process of MP3 and AAC, code bits are assigned using the same psychoacoustic model. Furthermore, since code assignment is typically an iterative operation, the time required for this takes up most of the encoding process. Therefore, reducing the time for this process greatly reduces the time for the entire audio encoding.

本発明では、反復演算で決定されるAACのパラメータが、MP3のパラメータから計算されるようにすることで、符号化則変換に要する時間の短縮化が図られる。   In the present invention, the time required for coding rule conversion can be shortened by calculating the AAC parameters determined by the iterative calculation from the MP3 parameters.

MP3の逆量子化係数は、グローバル ゲイン(量子化ステップ)とスケールファクタ(1フレームにおける各々のサブバンド信号に対し、最大絶対値をもつサンプルの値を対数に変換して量子化したもの)との和として以下のように表現される。   The inverse quantization coefficient of MP3 is a global gain (quantization step) and a scale factor (for each subband signal in one frame, the value of the sample having the maximum absolute value is converted into a logarithm and quantized). It is expressed as the sum of

Figure 2008026372
Figure 2008026372

ここで、xr[i]は量子化MDCT係数、is[i]はハフマン符号をデコードして得られた576個のデータ(MDCT係数)、Scalefactorはスケールファクターバンド毎に適用されるスケールファクタ、Global_Gain、Subblock_Gain、Scalefactor_Scaleは、それぞれグラニュール情報から得られる値であり、i, gr, w,cbはそれぞれ、MDCT係数のインデックス、グラニュールのインデックス、windowのインデックスおよび符号帳のインデックスを示している。一方、AACの再量子化係数もまた、スケールファクタを利用して以下の通り計算される。   Here, xr [i] is a quantized MDCT coefficient, is [i] is 576 data (MDCT coefficients) obtained by decoding a Huffman code, Scalefactor is a scale factor applied for each scale factor band, Global_Gain , Subblock_Gain, Scalefactor_Scale are values obtained from the granule information, and i, gr, w, and cb indicate the MDCT coefficient index, the granule index, the window index, and the codebook index, respectively. On the other hand, the requantization coefficient of AAC is also calculated as follows using the scale factor.

Figure 2008026372
Figure 2008026372

ここで、g, sfbはそれぞれwindow groupおよびスケールファクタバンドを意味する。上式(1),(2)において、2の指数部で示される量子化スケール値の分布は図3のように表現され、MP3およびAACの各量子化スケール値Q,Q'は絶対的な値こそ異なるものの、高い相関を示していることが判る。   Here, g and sfb mean window group and scale factor band, respectively. In the above formulas (1) and (2), the distribution of the quantization scale value indicated by the exponent part of 2 is expressed as shown in FIG. 3, and the quantization scale values Q and Q ′ of MP3 and AAC are absolute. Although the values are different, it can be seen that they are highly correlated.

本発明では、このような量子化スケール値Q,Q'の相関に着目し、前記相関関係を代表する一次関数を利用して、MP3の量子化スケール値Qから、反復処理なしにAACの量子化スケール値Q'を求めることで、特にAAC符号化プロセスの時間短縮を実現している。   In the present invention, paying attention to the correlation between the quantization scale values Q and Q ′, using the linear function representing the correlation, the quantization scale value Q of the MP3 can be used for the AAC quantum without repetition processing. In particular, the time of the AAC encoding process is shortened by obtaining the conversion scale value Q ′.

図1は、本発明に係る符号化則変換装置1の主要部の構成を示したブロック図である。   FIG. 1 is a block diagram showing the configuration of the main part of a coding rule conversion apparatus 1 according to the present invention.

ハフマン符号デコード部301は、MP3のハフマン符号を非線形量子化されたデータにデコードする。サイド情報デコード部302は、フレーム内のサイド情報を取り出してデコードする。逆量子化部303は、サイド情報に基づいてデータを逆量子化する。エイリアス削減部304は、ハイブリッドフィルターバンクによって生じたエイリアシング(折り返し歪み)を削減する。   The Huffman code decoding unit 301 decodes the MP3 Huffman code into nonlinear quantized data. The side information decoding unit 302 takes out the side information in the frame and decodes it. The inverse quantization unit 303 performs inverse quantization on the data based on the side information. The alias reduction unit 304 reduces aliasing (folding distortion) caused by the hybrid filter bank.

IMDCT部305は、逆変形離散コサイン変換を行う。サブバンドFilter Bank(FB)部306は、32分割されたサブバンドを合成してPCMデータを再生する。量子化スケール算出部300は、前記図3に関して説明したMP3量子化スケール値とAAC量子化スケール値との相関関係を示す一次関数に基づいて、MP3量子化スケール値QからAAC量子化スケール値Q'を算出する。   The IMDCT unit 305 performs inverse deformation discrete cosine transform. A subband filter bank (FB) unit 306 combines the 32 subbands and reproduces PCM data. The quantization scale calculation unit 300 calculates the AAC quantization scale value Q from the MP3 quantization scale value Q based on the linear function indicating the correlation between the MP3 quantization scale value and the AAC quantization scale value described with reference to FIG. 'Is calculated.

心理聴覚分析部307は、入力フレームを心理聴覚分析部でFFTして周波数スペクトルを求める。MDCT部308は、心理聴覚分析部307で決定されたブロック長で入力オーディオ信号を周波数スペクトル(MDCT係数)に変換する。TNS部309は、圧縮処理に伴う雑音のレベルを、音の大きさに合わせて変化させることで信号レベルの大きな箇所に量子化ノイズを集中させ、音が小さな部分では雑音も小さくして聴感を向上させる。   The psychoacoustic analysis unit 307 obtains a frequency spectrum by performing FFT on the input frame in the psychoacoustic analysis unit. The MDCT unit 308 converts the input audio signal into a frequency spectrum (MDCT coefficient) with the block length determined by the psychoacoustic analysis unit 307. The TNS unit 309 concentrates the quantization noise on the part where the signal level is high by changing the level of the noise accompanying the compression process according to the volume of the sound, and reduces the noise at the part where the sound is low, thereby improving the audibility. Improve.

後方予測処理部310は、MDCT係数を時間軸上の信号であるかのように見立てて線形予測を行い、MDCT係数に対して予測フィルタリングを行う。量子化部311は、前記量子化スケール算出部300で算出されたAAC量子化スケール値Q'に基づいてMDCT係数を量子化する。量子化されたMDCT係数は、ハフマン符号化部312でハフマン符号化されて冗長度を削減される。   The backward prediction processing unit 310 performs linear prediction on the assumption that the MDCT coefficient is a signal on the time axis, and performs prediction filtering on the MDCT coefficient. The quantization unit 311 quantizes the MDCT coefficient based on the AAC quantization scale value Q ′ calculated by the quantization scale calculation unit 300. The quantized MDCT coefficient is Huffman encoded by the Huffman encoder 312 to reduce the redundancy.

次いで、図2のフローチャートを参照して、MP3符号化データをAAC符号化データに変換する手順を詳細に説明する。   Next, a procedure for converting MP3 encoded data into AAC encoded data will be described in detail with reference to the flowchart of FIG.

ステップS1では、MP3の1フレーム分のサンプル数と、AACの1フレーム分のサンプル数との最小公倍数分に相当するMP3フレームがバッファに蓄積される。MP3の1フレームは1152サンプルであり、AACの1フレームは1024サンプルなので、ここでは、両者の最小公倍数である9216サンプルが変換単位とされ、8(=9216/1152)フレーム分のサンプルがバッファに蓄積される。これにより、MP3およびAACのフレームサイズの違いの問題を吸収できる。   In step S1, MP3 frames corresponding to the least common multiple of the number of samples of one frame of MP3 and the number of samples of one frame of AAC are accumulated in the buffer. Since one frame of MP3 is 1152 samples and one frame of AAC is 1024 samples, here, 9216 samples which are the least common multiple of them are used as conversion units, and samples for 8 (= 9216/1152) frames are stored in the buffer. Accumulated. As a result, the problem of the difference in frame size between MP3 and AAC can be absorbed.

ステップS2では、バッファ内のMP3データがハフマン符号デコード部301およびサイド情報デコード部302でデコードされ、グラニュール情報、スケールファクタおよび量子化サンプルの576データが得られる。前記グラニュール情報には、グローバルゲイン、サブブロックゲインおよびスケールファクタスケールなどのパラメータが含まれる。   In step S2, the MP3 data in the buffer is decoded by the Huffman code decoding unit 301 and the side information decoding unit 302, and 576 data of granule information, scale factor, and quantized samples are obtained. The granule information includes parameters such as global gain, sub-block gain, and scale factor scale.

ステップS3では、前記逆量子化部303において、上記したグラニュール情報、スケールファクタおよび量子化サンプルの576データを入力として、上式(1)に基づいて逆量子化が実行され、576の量子化MDCT係数xr[i]が算出される。ステップS4では、量子化MDCT係数xr[i]の算出過程で得られる量子化スケール値が変数Q[i](iはサンプル番号)として保存される。このとき、各サンプルのフレーム構造(longまたはshort)も併せて保存される。   In step S3, the inverse quantization unit 303 receives the above-mentioned granule information, scale factor, and 576 data of the quantized samples as input, and performs inverse quantization based on the above equation (1). MDCT coefficient xr [i] is calculated. In step S4, the quantization scale value obtained in the process of calculating the quantized MDCT coefficient xr [i] is stored as a variable Q [i] (i is a sample number). At this time, the frame structure (long or short) of each sample is also stored.

ステップS5では、前記量子化MDCT係数にエイリアス処理が実行され、折り返しひずみが削減される。ステップS6ではIMDCT合成処理が実施され、周波数領域のデータが時間領域のデータに変換される。このとき、フレーム構造がロングブロックのフレームに関しては、576のデータが32×18のデータ構造に変換され、ショートブロックのフレームに関しては、192のデータが32×6のデータ構造に変換される。ステップS7では、32分割されているサブバンドが合成されてPCMデータが復元される。   In step S5, alias processing is performed on the quantized MDCT coefficients to reduce aliasing distortion. In step S6, IMDCT synthesis processing is performed, and the frequency domain data is converted into time domain data. At this time, for a frame having a long block structure, 576 data is converted to a 32 × 18 data structure, and for a short block frame, 192 data is converted to a 32 × 6 data structure. In step S7, the subbands divided into 32 are combined to restore PCM data.

ステップS8では、前記心理聴覚分析部307において、前記PCMデータが所定のフレーム数ずつFFTされ、その周波数スペクトルが求められる。さらに、周波数スペクトルに基づいて聴覚のマスキングが計算され、予め設定された周波数帯域ごとの許容量子化雑音電力と、そのフレームに対する心理聴覚エントロピPEとが求められる。   In step S8, the psychoacoustic analysis unit 307 performs FFT on the PCM data by a predetermined number of frames to obtain the frequency spectrum. Further, auditory masking is calculated based on the frequency spectrum, and allowable quantization noise power for each preset frequency band and psychoacoustic entropy PE for the frame are obtained.

ステップS9では、前記MDCT部308において、前記心理聴覚分析部307で決定されたブロック長で入力オーディオ信号が周波数スペクトル(MDCT係数)に変換される。このとき、前記ステップS4で保存されたフレーム構造が参照され、図4に一例を示したように、MP3においてショートブロック(SB)であったフレームと大部分が重なるフレームではショートウインドウ(SW)が選択され、それ以外のフレームではロングウインドウ(LW)が選択される。   In step S9, the MDCT unit 308 converts the input audio signal into a frequency spectrum (MDCT coefficient) with the block length determined by the psychoacoustic analysis unit 307. At this time, the frame structure stored in step S4 is referred to, and as shown in an example in FIG. 4, a short window (SW) is formed in a frame that largely overlaps a frame that was a short block (SB) in MP3. The long window (LW) is selected in other frames.

ステップS10では、TNS部309において、MDCT係数を時間軸上の信号であるかのように見立てて線形予測が行われ、MDCT係数に対して予測フィルタリングが行われる。ステップS11では、前記後方予測処理部310において、MDCT係数ごとに、過去2フレームにおける量子化されたMDCT係数から現在のMDCT係数の値を予測する後方予測処理が実行され、直前のデータと比較して差分を取ることでデータ量が削減される。ステップS12では、MP3から継承された量子化スケール値Q[i]に基づいて、前記量子化スケール算出部300においてAACの量子化スケール値Q’[i]が算出される。   In step S10, the TNS unit 309 performs linear prediction on the assumption that the MDCT coefficient is a signal on the time axis, and performs prediction filtering on the MDCT coefficient. In step S11, the backward prediction processing unit 310 performs backward prediction processing for predicting the current MDCT coefficient value from the quantized MDCT coefficients in the past two frames for each MDCT coefficient, and compares it with the immediately preceding data. The amount of data is reduced by taking the difference. In step S12, based on the quantization scale value Q [i] inherited from MP3, the quantization scale calculation unit 300 calculates the AAC quantization scale value Q '[i].

ステップS13では、この量子化スケール値Q’[i]に基づいて符号量が決定される。ステップS14では、量子化部205で前記予測残差に対して量子化が実行される。すなわち、本実施形態では量子化スケール値を決定するための反復処理が行われない。   In step S13, the code amount is determined based on the quantization scale value Q '[i]. In step S14, the quantization unit 205 performs quantization on the prediction residual. That is, in this embodiment, iterative processing for determining the quantization scale value is not performed.

ステップS15では、心理聴覚モデルに従ってグローバルゲインが微修正される。ステップS16では、量子化されたMDCT係数に対してハフマン符号が適用されて冗長度が削減される。ステップS17では、未処理のMP3データが残っているか否かが判定され、全てのMP3データに対する変換処理が完了するまで、ステップS1へ戻って上記した各処理が繰り返される。   In step S15, the global gain is finely corrected according to the psychoacoustic model. In step S16, the Huffman code is applied to the quantized MDCT coefficient to reduce the redundancy. In step S17, it is determined whether or not unprocessed MP3 data remains, and the process returns to step S1 and the above-described processes are repeated until the conversion process for all the MP3 data is completed.

なお、上記した実施形態では、本発明をMP3からAACへの変換を例にして説明したが、本発明はこれのみに限定されるものではなく、第1の符号化則で符号化されたデータを第2の符号化則で符号化されたデータに変換する際、第1符号化則の復号化プロセスで得られるパラメータを第2符号化則による符号化プロセスで利用できるのであれば、他の符号化則間の変換にも同様に適用できる。   In the above-described embodiment, the present invention has been described by taking the conversion from MP3 to AAC as an example. However, the present invention is not limited to this, and data encoded by the first encoding rule. Is converted into data encoded by the second encoding rule, if the parameters obtained by the decoding process of the first encoding rule can be used in the encoding process by the second encoding rule, The same applies to conversion between coding rules.

本発明に係る符号化則変換装置の主要部の構成を示したブロック図である。It is the block diagram which showed the structure of the principal part of the encoding rule converter based on this invention. MP3データをAACデータに変換する手順を示したフローチャートである。It is the flowchart which showed the procedure which converts MP3 data into AAC data. MP3およびAACの各量子化スケール値の相関関係を示した図である。It is the figure which showed the correlation of each quantization scale value of MP3 and AAC. MP3のフレーム構造とAACのフレーム構造との関係を示した図である。FIG. 3 is a diagram illustrating a relationship between an MP3 frame structure and an AAC frame structure. 従来のMP3デコーダの構成を示したブロック図である。It is the block diagram which showed the structure of the conventional MP3 decoder. 従来のAACエンコーダの構成を示したブロック図である。FIG. 10 is a block diagram showing a configuration of a conventional AAC encoder.

符号の説明Explanation of symbols

1…符号化則変換装置,10…MP3デコーダ,20…AACエンコーダ,300…量子化スケール算出部,301…ハフマン符号デコード部,302…サイド情報デコード部,303…逆量子化部,304…エイリアス削減部,305…IMDCT部,306…Synthesis Subband Filter Bank部,307…心理聴覚分析部,308…MDCT部,309…TNS部,310…後方予測処理部,311…量子化部,312…ハフマン符号化部 DESCRIPTION OF SYMBOLS 1 ... Coding rule converter, 10 ... MP3 decoder, 20 ... AAC encoder, 300 ... Quantization scale calculation part, 301 ... Huffman code decoding part, 302 ... Side information decoding part, 303 ... Dequantization part, 304 ... Alias Reduction unit, 305... IMDCT unit, 306... Synthesis Subband Filter Bank unit, 307... Psychoacoustic analysis unit, 308... MDCT unit, 309. Chemical department

Claims (8)

第1符号化則で符号化された第1符号化則データを、符号化時の量子化が反復ループで繰り返される第2符号化則で符号化された第2符号化則データに変換する符号化データの符号化則変換方法において、
第1符号化則データをPCMデータに復号化する復号化プロセスおよびPCMデータを第2符号化則データに符号化する符号化プロセスを含み、さらに、
第1符号則データの復号化プロセスにおいて量子化データを逆量子化する手順と、
前記逆量子化手順において、第1逆量子化スケール値をサンプルごとに取得する手順と、
前記各第1量子化スケール値に所定の関数計算を実行して第2量子化スケール値を算出する手順と、
第2符号化則の符号化プロセスにおいて、前記第2各量子化スケール値を用いてデータを量子化する手順とを含み、
前記所定の関数は、同一サンプルに関する第1符号化則の量子化スケール値と第2符号化則の量子化スケール値との相加関係に基づいて第1量子化スケール値を第2量子化スケール値に変換することを特徴とする符号化データの符号化則変換方法。
A code for converting the first coding rule data encoded by the first coding rule into the second coding rule data encoded by the second coding rule in which quantization at the time of encoding is repeated in an iterative loop. In the coding rule conversion method for coded data,
A decoding process for decoding the first coding rule data into PCM data and a coding process for coding the PCM data into second coding rule data;
A procedure of dequantizing the quantized data in the decoding process of the first code rule data;
In the inverse quantization procedure, a procedure for obtaining a first inverse quantization scale value for each sample;
Performing a predetermined function calculation on each first quantization scale value to calculate a second quantization scale value;
A process of quantizing data using the second quantization scale values in an encoding process of a second encoding rule,
The predetermined function is configured to convert the first quantization scale value to the second quantization scale based on an additive relationship between the quantization scale value of the first coding rule and the quantization scale value of the second coding rule for the same sample. A coding rule conversion method for encoded data, characterized by converting into a value.
第1符号化則データが、当該第1符号化則データの1フレームのサンプル数と第2符号化則データの1フレームのサンプル数との最小公倍数に相当するフレーム数ずつ、その符号化則を変換されることを特徴とする請求項1に記載の符号化データの符号化則変換方法。   The first coding rule data has its coding rule for each frame number corresponding to the least common multiple of the number of samples of one frame of the first coding rule data and the number of samples of one frame of the second coding rule data. The encoding rule conversion method for encoded data according to claim 1, wherein conversion is performed. 前記第1符号化則がMP3であり、前記第2符号化則がAACであることを特徴とする請求項1または2に記載の符号化データの符号化則変換方法。   3. The coding rule conversion method for coded data according to claim 1, wherein the first coding rule is MP3 and the second coding rule is AAC. 4. 前記第2符号化則データの符号化プロセスが、データの時間領域を周波数領域に変換するDCT手順を含み、さらに、
前記第1符号則データの復号化プロセスにおける逆量子化手順において、各フレームのフレーム構造を保存する手順と、
前記第2符号則データの符号化プロセスにおけるDCT手順において、前記保存されたフレーム構造に基づいてウインドウサイズを決定する手順とを含むことを特徴とする請求項3に記載の符号化データの符号化則変換方法。
The encoding process of the second encoding rule data includes a DCT procedure for converting the time domain of the data to the frequency domain;
In the inverse quantization procedure in the decoding process of the first code rule data, a procedure for storing a frame structure of each frame;
4. The encoding of encoded data according to claim 3, wherein a DCT procedure in the encoding process of the second encoding rule data includes a procedure for determining a window size based on the stored frame structure. 5. Law conversion method.
第1符号化則で符号化された第1符号化則データを、符号化時の量子化が反復ループで繰り返される第2符号化則で符号化された第2符号化則データに変換する符号化データの符号化則変換装置において、
第1符号則の量子化データを逆量子化する手段と、
前記逆量子化時に得られる第1逆量子化スケール値に所定の関数計算を実行して第2量子化スケール値を算出する手段と、
第2符号化則で符号化するデータを、前記第2各量子化スケール値を用いて量子化する手段とを含み、
前記所定の関数は、同一サンプルに関する第1符号化則の量子化スケール値と第2符号化則の量子化スケール値との相加関係に基づいて第1量子化スケール値を第2量子化スケール値に変換することを特徴とする符号化データの符号化則変換装置。
A code for converting the first coding rule data encoded by the first coding rule into the second coding rule data encoded by the second coding rule in which quantization at the time of encoding is repeated in an iterative loop. In a coding data conversion device for coded data,
Means for dequantizing the quantized data of the first code rule;
Means for performing a predetermined function calculation on the first inverse quantization scale value obtained at the time of the inverse quantization to calculate a second quantization scale value;
Means for quantizing data to be encoded according to a second encoding rule using each of the second quantization scale values,
The predetermined function is configured to convert the first quantization scale value to the second quantization scale based on an additive relationship between the quantization scale value of the first coding rule and the quantization scale value of the second coding rule for the same sample. An encoding rule conversion apparatus for encoded data, characterized by converting into a value.
第1符号化則データを、当該第1符号化則データの1フレームのサンプル数と第2符号化則データの1フレームのサンプル数との最小公倍数に相当するフレーム数ずつ蓄積するバッファ手段を含み、
前記符号化則変換が、前記バッファに蓄積されたフレーム単位で実行されることを特徴とする符号化データの符号化則変換装置。
Buffer means for storing the first coding rule data by the number of frames corresponding to the least common multiple of the number of samples of one frame of the first coding rule data and the number of samples of one frame of the second coding rule data. ,
The coding rule conversion device for coded data, wherein the coding rule conversion is executed in units of frames stored in the buffer.
前記第1符号化則がMP3であり、前記第2符号化則がAACであることを特徴とする請求項5または6に記載の符号化データの符号化則変換装置。   7. The encoded rule conversion apparatus for encoded data according to claim 5, wherein the first encoding rule is MP3 and the second encoding rule is AAC. 前記第2符号化則で符号化するデータの時間領域を周波数領域に変換するDCT手段を含み、
前記DCT手段は、第1符号則データの各フレームのフレーム構造に基づいて各フレームのウインドウサイズを決定することを特徴とする請求項7に記載の符号化データの符号化則変換装置。
DCT means for converting the time domain of the data to be encoded by the second encoding rule into the frequency domain,
8. The coding rule conversion apparatus for coded data according to claim 7, wherein the DCT means determines a window size of each frame based on a frame structure of each frame of the first coding rule data.
JP2006195447A 2006-07-18 2006-07-18 Coding rule conversion method and apparatus for coded data Expired - Fee Related JP4721355B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006195447A JP4721355B2 (en) 2006-07-18 2006-07-18 Coding rule conversion method and apparatus for coded data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006195447A JP4721355B2 (en) 2006-07-18 2006-07-18 Coding rule conversion method and apparatus for coded data

Publications (2)

Publication Number Publication Date
JP2008026372A true JP2008026372A (en) 2008-02-07
JP4721355B2 JP4721355B2 (en) 2011-07-13

Family

ID=39117108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006195447A Expired - Fee Related JP4721355B2 (en) 2006-07-18 2006-07-18 Coding rule conversion method and apparatus for coded data

Country Status (1)

Country Link
JP (1) JP4721355B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9105264B2 (en) 2009-07-31 2015-08-11 Panasonic Intellectual Property Management Co., Ltd. Coding apparatus and decoding apparatus
CN111755017A (en) * 2020-07-06 2020-10-09 全时云商务服务股份有限公司 Audio recording method and device for cloud conference, server and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242891A (en) * 2000-02-28 2001-09-07 Nec Corp Encoded voice signal format conversion apparatus
WO2003098598A1 (en) * 2002-05-13 2003-11-27 Conexant Systems, Inc. Transcoding of speech in a packet network environment
WO2006024977A1 (en) * 2004-08-31 2006-03-09 Koninklijke Philips Electronics N.V. Method and device for transcoding
JP2009532734A (en) * 2006-04-03 2009-09-10 サムスン エレクトロニクス カンパニー リミテッド Input signal quantization and inverse quantization method and apparatus, and input signal encoding and decoding method and apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242891A (en) * 2000-02-28 2001-09-07 Nec Corp Encoded voice signal format conversion apparatus
WO2003098598A1 (en) * 2002-05-13 2003-11-27 Conexant Systems, Inc. Transcoding of speech in a packet network environment
WO2006024977A1 (en) * 2004-08-31 2006-03-09 Koninklijke Philips Electronics N.V. Method and device for transcoding
JP2009532734A (en) * 2006-04-03 2009-09-10 サムスン エレクトロニクス カンパニー リミテッド Input signal quantization and inverse quantization method and apparatus, and input signal encoding and decoding method and apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9105264B2 (en) 2009-07-31 2015-08-11 Panasonic Intellectual Property Management Co., Ltd. Coding apparatus and decoding apparatus
JP5793675B2 (en) * 2009-07-31 2015-10-14 パナソニックIpマネジメント株式会社 Encoding device and decoding device
CN111755017A (en) * 2020-07-06 2020-10-09 全时云商务服务股份有限公司 Audio recording method and device for cloud conference, server and storage medium

Also Published As

Publication number Publication date
JP4721355B2 (en) 2011-07-13

Similar Documents

Publication Publication Date Title
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
JP3391686B2 (en) Method and apparatus for decoding an encoded audio signal
KR102070432B1 (en) Method and apparatus for encoding and decoding high frequency for bandwidth extension
US7337118B2 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
JP3592473B2 (en) Perceptual noise shaping in the time domain by LPC prediction in the frequency domain
JP4081447B2 (en) Apparatus and method for encoding time-discrete audio signal and apparatus and method for decoding encoded audio data
KR101162275B1 (en) A method and an apparatus for processing an audio signal
KR100814673B1 (en) audio coding
KR100840439B1 (en) Audio coding apparatus and audio decoding apparatus
JP4673882B2 (en) Method and apparatus for determining an estimate
KR20170104661A (en) Time domain level adjustment for audio signal decoding or encoding
JP2009537033A (en) Information signal coding
JP2010500631A (en) Free shaping of temporal noise envelope without side information
TWI390502B (en) Processing of encoded signals
US6593872B2 (en) Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method
CA2840785A1 (en) Encoding device and method, decoding device and method, and program
US20150317985A1 (en) Signal Adaptive FIR/IIR Predictors for Minimizing Entropy
EP3175457B1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
WO2010016270A1 (en) Quantizing device, encoding device, quantizing method, and encoding method
US7426462B2 (en) Fast codebook selection method in audio encoding
Yu et al. A scalable lossy to lossless audio coder for MPEG-4 lossless audio coding
JP4721355B2 (en) Coding rule conversion method and apparatus for coded data
US6012025A (en) Audio coding method and apparatus using backward adaptive prediction
RU2807462C1 (en) Audio data quantization device, audio data dequantation device and related methods
RU2809981C1 (en) Audio decoder, audio encoder and related methods using united coding of scaling parameters for multi-channel audio signal channels

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees