JP4618634B2 - Compressed audio data processing method - Google Patents

Compressed audio data processing method Download PDF

Info

Publication number
JP4618634B2
JP4618634B2 JP2004294851A JP2004294851A JP4618634B2 JP 4618634 B2 JP4618634 B2 JP 4618634B2 JP 2004294851 A JP2004294851 A JP 2004294851A JP 2004294851 A JP2004294851 A JP 2004294851A JP 4618634 B2 JP4618634 B2 JP 4618634B2
Authority
JP
Japan
Prior art keywords
frame
audio data
sbr
data
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004294851A
Other languages
Japanese (ja)
Other versions
JP2006106475A (en
Inventor
幸一 高木
茂之 酒澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2004294851A priority Critical patent/JP4618634B2/en
Publication of JP2006106475A publication Critical patent/JP2006106475A/en
Application granted granted Critical
Publication of JP4618634B2 publication Critical patent/JP4618634B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、圧縮オーディオデータ処理方法に関し、特に、圧縮符号化されてフレーム構造をとるオーディオデータから任意箇所のフレームを切り出して良好に再生することができる圧縮オーディオデータ処理方法に関する。   The present invention relates to a compressed audio data processing method, and more particularly, to a compressed audio data processing method capable of cutting out a frame at an arbitrary location from audio data that has been compressed and encoded and has a frame structure, and that can be favorably reproduced.

コンテンツ配信サーバに格納されている音楽などのオーディオデータを携帯電話機にダウンロードし、着信音として利用することができる配信サービスがある。携帯電話機では、ダウンロードしたオーディオデータをメモリに記憶しておき、着信時などに読み出し再生して着信音として鳴動させることができる。   There is a distribution service in which audio data such as music stored in a content distribution server can be downloaded to a mobile phone and used as a ringtone. In the mobile phone, the downloaded audio data can be stored in a memory, read and reproduced when an incoming call is received, and ringed as a ringtone.

また、メモリに記憶したオーディオデータの任意箇所のデータを切り出して再生する技術も知られている。例えば、特許文献1には、メモリに記憶したオーディオデータ(着信メロディデータ)の読み出し開始点および折り返し点を設定可能とし、着信音の鳴動区間を自由に設定可能とした携帯電話機の着信メロディ再生方式が記載されている。   In addition, a technique for cutting out and reproducing data at an arbitrary position of audio data stored in a memory is also known. For example, Patent Document 1 discloses a method for reproducing an incoming melody of a mobile phone that can set a reading start point and a turning point of audio data (ringing melody data) stored in a memory and can freely set a ringing sound ringing section. Is described.

このような配信サービスを利用すれば、ユーザは、メモリに記憶したオーディオデータの任意箇所を指定して着信音として容易に再生できる。また、コンテンツ作成上も、コンテンツ配信サーバに格納する1つのコンテンツを作成するのみでよいのでコスト削減につながる。   By using such a distribution service, the user can easily reproduce a ring tone by designating an arbitrary portion of the audio data stored in the memory. Further, in terms of content creation, it is only necessary to create one content to be stored in the content distribution server, which leads to cost reduction.

MPEG-4オーディオのHE AAC(high efficiency advanced audio coding)プロファイルで圧縮符号化されたオーディオデータはフレーム構造をとる。このフレーム構造は、前フレームを参照して符号化を行う前方参照モードを伴うものであるため、そこから直ちに復号が可能なフレームとそれより前のフレームが存在してはじめて復号が可能となるフレームとがある。   Audio data compression-coded with the HEAAC (high efficiency advanced audio coding) profile of MPEG-4 audio has a frame structure. Since this frame structure involves a forward reference mode in which encoding is performed with reference to the previous frame, a frame that can be decoded immediately from there and a frame that can be decoded only when there is a previous frame. There is.

従って、長時間のコンテンツから必要な箇所を切り出すに際しては、上記フレーム構造を考慮して、元のコンテンツが持っている周期的なシンクポイント(そこから直ちに復号可能なデータ位置)に合わせて切り出しを行うように考慮する必要がある。また、切り出し後にフェードイン/フェードアウト処理を行うことで、自然なオーディオを聞くことができるようにすることができる。
特開2004−23298号公報 特願2004−109728号(先願)
Therefore, when cutting out necessary parts from long-time content, considering the above frame structure, cut out according to the periodic sync point (data position that can be immediately decoded) of the original content. Need to be considered to do. Further, by performing fade-in / fade-out processing after the cut-out, natural audio can be heard.
Japanese Patent Laid-Open No. 2004-23298 Japanese Patent Application No. 2004-109728 (prior application)

上記従来技術では、元のコンテンツが持っている周期的なシンクポイントで切り出しが行われた場合、オーディオデータを直ちに再生することができる。しかし、それ以外の位置で切り出しが行われた場合には、参照とする前フレームがなくなり、オーディオデータを直ちに再生することはできない。切り出し位置がシンクポイントに限定される結果、ユーザは、長時間のコンテンツから任意箇所を自由に切り出すことができず、編集上の自由度が制限されるという課題がある。   In the above prior art, audio data can be reproduced immediately when clipping is performed at a periodic sync point of the original content. However, when clipping is performed at a position other than that, there is no previous frame as a reference, and audio data cannot be reproduced immediately. As a result of the cutout position being limited to the sync point, the user cannot freely cut an arbitrary part from the long-time content, and there is a problem that the degree of freedom in editing is limited.

本発明の目的は、上記課題を解決し、メモリや演算能力が限られた環境下でも、長時間のコンテンツから任意箇所を自由に、しかもオーディオデータを再生可能に切り出すことができ、従って、編集上の自由度を増すことができる圧縮オーディオデータ処理方法を提供することにある。   The object of the present invention is to solve the above-mentioned problems and to cut out any part from a long-time content freely and reproducibly even in an environment with limited memory and computing power. It is an object of the present invention to provide a compressed audio data processing method that can increase the degree of freedom.

上記課題を解決するために、本発明は、フレーム構造をとる圧縮符号化オーディオデータにおける任意箇所のフレームを切り出す際に、前記圧縮符号化オーディオデータの各フレームがサブバンド表現されている場合であって、切り出しフレームにおいて時間方向予測が適用されている場合のみ、前フレームを参照するオーディオデータ表現を、自フレーム内のサブバンドを周波数方向に順次参照するオーディオデータ表現に置換することを特徴としている。 In order to solve the above-described problem, the present invention is a case where each frame of the compression-encoded audio data is expressed in subbands when a frame at an arbitrary location in the compression-encoded audio data having a frame structure is cut out. Thus, the audio data representation that refers to the previous frame is replaced with the audio data representation that sequentially references the subbands in the own frame in the frequency direction only when temporal direction prediction is applied to the cut-out frame. .

また、本発明は、切り出しフレームにおいて時間方向予測が適用されている場合、該フレームに対し、該フレームの直前に表れるシンクポイントの情報を付加するとともに、該フレームのサブバンド中でベースとなるサブバンドは、過去のフレームを用いて前フレームを参照しないオーディオデータ表現に再構成し、それ以外のサブバンドは、同フレーム内で周波数方向に順次参照するオーディオデータ表現に置換することを特徴としている。
また、本発明は、フレーム構造をとる圧縮符号化オーディオデータのデータ構成が時間方向予測を行う成分と時間方向予測を行わない成分の混合で形成されている場合、時間方向予測を行わない成分は元のままとし、時間方向予測を行う成分にのみ置換を施すことを特徴としている。
In addition, when temporal direction prediction is applied to a cut-out frame , the present invention adds information on a sync point that appears immediately before the frame to the frame, and also uses a base subband in the subband of the frame. The band is reconstructed into an audio data representation that does not refer to the previous frame using a past frame, and the other subbands are replaced with an audio data representation that is sequentially referenced in the frequency direction within the frame. .
In the present invention, when the data structure of compression-encoded audio data having a frame structure is formed by mixing a component that performs temporal direction prediction and a component that does not perform temporal direction prediction, a component that does not perform temporal direction prediction It is characterized in that only the component for which the temporal direction prediction is performed is replaced as it is.

ここで、置換したオーディオデータ表現に必要なビット数の増大量がある閾値以上になる場合には、オーディオデータ表現の置換は行わず、別途フェードイン処理を行うようにしてもよい。 Here, when the amount of increase in the number of bits necessary for the replaced audio data expression is equal to or greater than a certain threshold value, the audio data expression may not be replaced, and a separate fade-in process may be performed.

本発明によれば、ユーザは、長時間のコンテンツから任意箇所を自由に、オーディオデータを再生可能に切り出すことができ、従って、編集上の自由度を増すことができる。また、HE AACでは、SBRデータをそのまま直ちに再生できるので、オーディオ出力の音質を良好に保つことができる。   According to the present invention, the user can freely cut out audio data from a long-time content so that the audio data can be reproduced, and thus the degree of freedom in editing can be increased. In HE AAC, SBR data can be reproduced immediately as it is, so that the sound quality of the audio output can be kept good.

以下、図面を参照して本発明を詳細に説明する。まず、本発明の原理について説明する。ここでは、オーディオデータがMPEG-4オーディオのHE AAC Profileであるとする。オーディオ符号化においては、サンプリングされたデジタルオーディオデータを所定のサンプル数ずつまとめ、この単位で符号化を行う。代表的なサンプリング周波数は44.1kHzであり、2048サンプルを単位として符号化を行ってオーディオフレーム(以下、単にフレームと称する。)を構成する。この場合、1フレーム当たりの時間は約46msecとなる。   Hereinafter, the present invention will be described in detail with reference to the drawings. First, the principle of the present invention will be described. Here, it is assumed that the audio data is an MPEG-4 audio HE AAC Profile. In audio encoding, sampled digital audio data is collected by a predetermined number of samples, and encoding is performed in this unit. A typical sampling frequency is 44.1 kHz, and encoding is performed in units of 2048 samples to form an audio frame (hereinafter simply referred to as a frame). In this case, the time per frame is about 46 msec.

HE AACでは、オーディオの低周波成分をAAC方式で符号化し、高周波成分をSBR(spectral band replication)方式で符号化し、それにより得られたAACデータとSBRデータとで各フレームを構成する。適宜のSBRデータにはSBRヘッダを含ませる。   In HE AAC, the low frequency component of audio is encoded by the AAC method, the high frequency component is encoded by the SBR (spectral band replication) method, and each frame is composed of the AAC data and the SBR data obtained thereby. Appropriate SBR data includes an SBR header.

図1は、HE AACによるフレーム(a)、およびAACデータとSBRデータにより再生可能な周波数帯域(b)を概略的に示す。AACデータはオーディオの0〜11.025kHz成分(低周波成分)、SBRデータはオーディオの11.025〜22.05kHz成分(高周波成分)の再生を可能とする。従って、デコードに際し、AACデータを用いれば0〜11.025kHzの低周波数帯域のオーディオを再生でき、さらにSBRデータを用いれば11.025〜22.05kHzの高周波数帯域までのオーディオを再生できる。   FIG. 1 schematically shows a frame (a) by HE AAC and a frequency band (b) that can be reproduced by AAC data and SBR data. AAC data enables playback of audio from 0 to 11.025 kHz (low frequency component), and SBR data enables playback of audio from 11.025 to 22.05 kHz (high frequency component). Therefore, at the time of decoding, if AAC data is used, audio in a low frequency band of 0 to 11.025 kHz can be reproduced, and if SBR data is used, audio up to a high frequency band of 11.025 to 22.05 kHz can be reproduced.

オーディオデータを再生する場合、AACデータについては全てのフレームがシンクポイントであるので、先頭のフレームがどのフレームであっても再生でき、低周波成分のオーディオを直ちに再生できる。   When reproducing audio data, since all frames of AAC data are sync points, reproduction can be performed regardless of the first frame, and audio of low frequency components can be reproduced immediately.

これに対し、SBRデータについては任意のフレームから直ちに再生できるわけではない。まず、各SBRデータを十分に再生するにはSBRヘッダが必要である。また、フレーム間予測が行われている場合には前のフレームが必要である。SBRデータについては定期的にフレーム間予測のないフレームが設定されており、そのフレームからであれば直ちに再生できる。フレーム間予測のないフレーム間周期は、代表的には1秒である。この場合、オーディオデータを再生可能にしつつ切り出すことができる周期も1秒に1回となる。   On the other hand, SBR data cannot be reproduced immediately from an arbitrary frame. First, an SBR header is required to fully reproduce each SBR data. Further, when inter-frame prediction is performed, the previous frame is necessary. As for SBR data, a frame without inter-frame prediction is regularly set, and if it is from that frame, it can be reproduced immediately. The inter-frame period without inter-frame prediction is typically 1 second. In this case, the period in which the audio data can be cut out while being reproducible is once per second.

HE AAC ProfileのSBRデータには、1つ前のフレームを参照して符号化を行う前方参照モードがある。このとき、SBRデータ内部を複数のサブバンドに分け、サブバンドごとに参照を行っている。SBRデータのデータにおいて、シンタックス上、参照方向を示すフラグbs_df_env[i][j]が、bs_df_env[i][j]=1(time direction)となっている箇所がそれにあたる。   The HE AAC Profile SBR data has a forward reference mode in which encoding is performed with reference to the previous frame. At this time, the inside of the SBR data is divided into a plurality of subbands, and reference is made for each subband. In the data of SBR data, the location where the flag bs_df_env [i] [j] indicating the reference direction is bs_df_env [i] [j] = 1 (time direction) corresponds to that in the syntax.

図2は、SBRデータの符号化における参照の説明図である。第kフレームがbs_df_env[i][j]=1(time direction)、つまり時間方向の参照になっているとすると、第kフレームのSBRデータの各サブバンドは、時間的に先行する第(k−1)フレームの対応するサブバンドを参照して符号化されている。   FIG. 2 is an explanatory diagram of reference in encoding of SBR data. Assuming that the k-th frame is bs_df_env [i] [j] = 1 (time direction), that is, the reference in the time direction, each subband of the SBR data of the k-th frame is the first (k -1) Encoded with reference to the corresponding subband of the frame.

第kフレームをトリミングの開始点(以下、IN点と称する。)としてそのまま切り出すと、第kフレームが参照している第(k−1)フレームが存在しなくなるため、再生できない状態になってしまう。一方、AACデータは、前方参照を行っていないため、第kフレームから問題なく再生できる。   If the k-th frame is cut out as it is as a trimming start point (hereinafter referred to as an IN point), the (k-1) -th frame referred to by the k-th frame does not exist, and the reproduction cannot be performed. . On the other hand, since AAC data is not forward-referenced, it can be reproduced without any problem from the k-th frame.

以上の理由から、一般的な構成のHE AAC Profileのデコーダは、当該フレームから再生可能なフレームに行き当たるまでAACデータのみの再生を行い、それをアップサンプリングして出力することを行う。   For the above reasons, the HE AAC Profile decoder having a general configuration reproduces only AAC data until it reaches a reproducible frame from the frame, and upsamples and outputs it.

これまでのSBRデータの観測では、長くても5フレーム程度の間に前方参照のないフレームが出現してリフレッシュされるため、SBRデータの復号できない期間は、理論的には230msec程度である。   In the observation of SBR data so far, since a frame without forward reference appears and is refreshed within about 5 frames at the longest, the period during which SBR data cannot be decoded is theoretically about 230 msec.

しかし、5フレーム程度の間に必ずリフレッシュされることの保証はなく、さらに、SBRデータのシンクポイントを表すsbr_headerが来るまでSBRデータの再生を開始しない実装もあり得るため、意図的なリフレッシュが実現される方式が望まれる。特許文献2には、IN点から遡ったフレーム情報に基づいてsbr_headerを構成してIN点のフレームに付与する対策を行うことが記載されているが、bs_df_env[i][j]=1(time direction)対策は記載されていない。   However, there is no guarantee that it will always be refreshed in about 5 frames, and there is also an implementation that does not start SBR data playback until the sbr_header that represents the sync point of SBR data arrives. The method to be used is desired. Patent Document 2 describes that sbr_header is configured on the basis of frame information traced back from the IN point and a measure is given to the frame at the IN point, but bs_df_env [i] [j] = 1 (time direction) measures are not described.

本発明では、bs_df_env[i][j]=1(time direction)対策を行うことにより、意図的なリフレッシュが実現されるようにする。つまり、IN点のフレームのオーディオデータの、前フレームを参照するオーディオデータ表現を、自フレーム内を参照するオーディオデータ表現に置換して、IN点のフレームを再構成する。これにより、IN点のフレームは自フレーム内の参照という形でリフレッシュされ、直ちに再生可能となる。IN点のフレームが再生されれば、続くフレームは自フレームより前のフレームを参照して再生できる。以上が本発明の原理である。   In the present invention, intentional refresh is realized by taking measures against bs_df_env [i] [j] = 1 (time direction). That is, the audio data representation that refers to the previous frame of the audio data of the IN point frame is replaced with the audio data representation that refers to the inside of the own frame, and the IN point frame is reconstructed. As a result, the frame at the IN point is refreshed in the form of a reference in its own frame and can be immediately reproduced. If the frame at the IN point is reproduced, the subsequent frame can be reproduced with reference to the frame before the own frame. The above is the principle of the present invention.

次に、本発明の実施形態について説明する。本実施形態では、IN点のフレームがbs_df_env[i][j]=1(time direction)となっている場合、該フレームのベースとなるサブバンドを過去のフレームの情報に基づいて再構成し、ベースとなるサブバンド以外のサブバンドについては周波数方向に順次参照するように表現を置き換える。さらに、参照方向を周波数方向とする変更に伴い、参照方向のフラグbs_df_env[i][j]を、bs_df_env[i][j]=0(time direction)に変更する。   Next, an embodiment of the present invention will be described. In this embodiment, when the frame at the IN point is bs_df_env [i] [j] = 1 (time direction), the subband serving as the base of the frame is reconfigured based on the information of the past frame, For subbands other than the base subband, the expression is replaced so as to sequentially refer to the frequency direction. Furthermore, the reference direction flag bs_df_env [i] [j] is changed to bs_df_env [i] [j] = 0 (time direction) in accordance with the change of the reference direction to the frequency direction.

例えば、図3に示すように、bs_df_env[i][j]=1(time direction)となっている第kフレームがIN点となったとき、第kフレームに過去のシンクポイントからのSBRヘッダを付加するとともに、第kフレームのサブバンドの中でベースとなるバンドについては過去のフレームを用いて、前フレームを参照しないデータ表現に再構成し、ベースとなるサブバンド以外のサブバンドについては同フレーム(第kフレーム)内で周波数方向に順次参照(フレーム内参照)する表現に置き換える。さらに、bs_df_env[i][j]=0(time direction)とする変更を加える。これにより第kフレームがシンクポイントとして作り替えられるので、SBRデータについてもここから直ちに再生可能となる。   For example, as shown in FIG. 3, when the kth frame where bs_df_env [i] [j] = 1 (time direction) is the IN point, the SBR header from the past sync point is added to the kth frame. In addition, the base band among the subbands of the kth frame is reconstructed into a data representation that does not refer to the previous frame using the past frame, and the subbands other than the base subband are the same. This is replaced with an expression that is sequentially referenced (referenced within the frame) in the frequency direction within the frame (kth frame). Furthermore, a change is made so that bs_df_env [i] [j] = 0 (time direction). As a result, the k-th frame is recreated as a sync point, so that SBR data can be immediately reproduced from here.

図4は、本発明が適用された圧縮オーディオデータ処理装置の一例を示す機能ブロック図である。本例の圧縮オーディオデータ処理装置は、AAC/SBR分離部41、SBR解析部42、ハフマン復号部43、SBR再構成部44、AAC・SBR合成部45を備える。AAC/SBR分離部41、SBR解析部42、ハフマン復号部43は、通常のHE AACデコーダにおけるAAC/SBR分離、SBR解析、ハフマン復号の機能と等価である。   FIG. 4 is a functional block diagram showing an example of a compressed audio data processing apparatus to which the present invention is applied. The compressed audio data processing apparatus of this example includes an AAC / SBR separation unit 41, an SBR analysis unit 42, a Huffman decoding unit 43, an SBR reconstruction unit 44, and an AAC / SBR synthesis unit 45. The AAC / SBR separation unit 41, the SBR analysis unit 42, and the Huffman decoding unit 43 are equivalent to the functions of AAC / SBR separation, SBR analysis, and Huffman decoding in a normal HE AAC decoder.

AAC/SBR分離部41は、HE ACC符号化ストリームからSBRデータを分離する。SBR解析部42は、AAC/SBR分離部41で分離されたSBRデータを解析する。ハフマン復号部43は、切り取りが行われる際にSBR再構成部44でSBR再構成に必要な過去のフレームおよび当該フレームを再生している。IN点のフレームがbs_df_env[i][j]=1(time direction)となっている場合、SBR再構成部44は、ハフマン復号部43で再生されたフレームを用いて当該フレームのSBRデータを再構成する。すなわち、上述のように、ベースとなるサブバンドについては過去のフレームを用いて、前フレームを参照しないデータ表現に再構成し、それ以外のサブバンドについては同フレーム内で周波数方向に順次参照(フレーム内参照)する表現に置き換える。また、過去のシンクポイントにおけるSBRヘッダを付加する。IN点のフレーム以外のフレームについては何らの処理も行わない。   The AAC / SBR separation unit 41 separates SBR data from the HE ACC encoded stream. The SBR analysis unit 42 analyzes the SBR data separated by the AAC / SBR separation unit 41. In the Huffman decoding unit 43, when cutting is performed, the SBR reconstruction unit 44 reproduces the past frame and the frame necessary for the SBR reconstruction. When the frame at the IN point is bs_df_env [i] [j] = 1 (time direction), the SBR reconstructing unit 44 reconstructs the SBR data of the frame using the frame reproduced by the Huffman decoding unit 43. Constitute. That is, as described above, the base subband is reconstructed into a data representation that does not refer to the previous frame using a past frame, and the other subbands are sequentially referred to in the frequency direction within the same frame ( Replace with the expression to be referenced in the frame. In addition, an SBR header at a past sync point is added. No processing is performed for frames other than the frame at the IN point.

以上のようにしてIN点のフレームがフレーム内参照に表現され、それに続くフレームは時間方向に順次参照するSBRストリームが送出される。AAC・SBR合成部45は、AACストリームとSBRストリームを合成して符号化ストリームを生成する。   As described above, the frame at the IN point is represented by the intraframe reference, and the SBR stream that sequentially refers to the subsequent frame in the time direction is transmitted. The AAC / SBR combining unit 45 combines the AAC stream and the SBR stream to generate an encoded stream.

図5は、本発明による再生可能フレーム(AACデータおよびSBRデータ)を示す説明図である。AACデータについては、全てのフレームがシンクポイントであるので、オーディオ信号の0〜11.025kHz成分(低周波成分)は、IN点がフレーム(1)、(2)、・・・のどのフレームであってもそこから直ちに再生できる。   FIG. 5 is an explanatory diagram showing reproducible frames (AAC data and SBR data) according to the present invention. For AAC data, since all frames are sync points, the 0 to 11.025 kHz component (low frequency component) of the audio signal is the frame at which the IN point is frame (1), (2),. But you can play it right away.

SBRデータについては、シンクポイントであるフレーム(8)が到来した以降に復号可能になるので、フレーム(8)、(9)では11.025〜22.05kHz成分(高周波成分)まで再生でき、それ以前のフレームのSBRデータは再生できないことになる。しかし、本発明によれば、例えばIN点のフレームがフレーム(4)であったとすると、該フレーム(4)は自フレーム内を参照するオーディオデータ表現に再構成され、これにより意図的なリフレッシュが実現されるので、フレーム(4)〜(7)のSBRデータが理論的に再生可能となる。   Since SBR data can be decoded after the frame (8), which is the sync point, has arrived, frames (8) and (9) can be played back up to 11.025-22.05 kHz components (high-frequency components). SBR data cannot be played. However, according to the present invention, for example, if the frame at the IN point is the frame (4), the frame (4) is reconstructed into an audio data representation that refers to the inside of the frame, and thereby intentional refresh is performed. Since this is realized, the SBR data of the frames (4) to (7) can be theoretically reproduced.

bs_df_env[i][j]=1(time direction)対策の結果、IN点のフレームのサイズが増大する。特に、MPEG-4オーディオのHE AAC Profileでは参照値の表現にはハフマン符号を用いるため、より長い符号語が使われることになり、それだけ情報量が増えることになる。ただし、サイズが増大するのはIN点のフレームだけであり、それ以降のフレームのサイズに変化はない。   As a result of countermeasure against bs_df_env [i] [j] = 1 (time direction), the frame size of the IN point increases. In particular, in the HE AAC Profile of MPEG-4 audio, a Huffman code is used to represent a reference value, so that a longer codeword is used, and the amount of information increases accordingly. However, only the frame at the IN point increases in size, and there is no change in the size of subsequent frames.

フレームサイズの変化量について、ハフマン符号でエスケープ表現を最大限に使うなどの理論的最悪値を求めたところ、500Byteであった。実際に、多数のオーディオファイルでフレームサイズの変化量を実験的に求めたところ、平均で4.32Byteの増加であった。48kbps、44.1kHzの条件では、元々、1フレームあたりのサイズは286Byteであるので、平均的には特に問題がない。   Regarding the amount of change in frame size, the theoretical worst value such as maximum use of escape expression with Huffman code was found, and it was 500 bytes. Actually, when the amount of change in the frame size was experimentally obtained with a large number of audio files, it was an increase of 4.32 bytes on average. Under the conditions of 48 kbps and 44.1 kHz, the size per frame is originally 286 bytes, so there is no particular problem on average.

フレームサイズの増大が問題になる場合には上記理論的最悪値に備えて、符号サイズの増大が余りに大きくなったとき、例えば上限値64Byteを超えた場合には、前方参照の解消を中止し、前方参照状態を残したままトリミング・フェード処理を行わせるようにすることもできる。   When the increase in frame size becomes a problem, in preparation for the above theoretical worst value, when the increase in code size becomes too large, for example, when exceeding the upper limit of 64 bytes, cancellation of forward reference is canceled, Trimming / fade processing can also be performed while leaving the forward reference state.

以上説明したように、本発明によれば、長時間のコンテンツから任意箇所のデータを自由に切り出すことができ、また、オーディオ出力の音質を良好に保つことができるので、携帯電話をはじめとするモバイル、ポータブル機器でのオーディオ配信サービスなどに利用できる。   As described above, according to the present invention, data at an arbitrary location can be freely extracted from long-time content, and the sound quality of the audio output can be kept good. It can be used for audio distribution services on mobile and portable devices.

HE AACによるフレーム(a)、および各フレームのAACデータ、SBRデータの周波数帯域(b)を概略的に示す図である。It is a figure which shows schematically the frame (a) by HE AAC, and the frequency band (b) of AAC data and SBR data of each frame. 本発明による置換前のSBRデータの参照を示す説明図である。It is explanatory drawing which shows the reference of the SBR data before replacement by this invention. 本発明による置換後のSBRデータの参照を示す説明図である。It is explanatory drawing which shows the reference of the SBR data after substitution by this invention. 本発明が適用された圧縮オーディオデータ処理装置の一例を示す機能ブロック図である。It is a functional block diagram which shows an example of the compression audio data processing apparatus with which this invention was applied. 本発明により復号が可能なフレームを示す説明図である。It is explanatory drawing which shows the flame | frame which can be decoded by this invention.

符号の説明Explanation of symbols

41・・・AAC/SBR分離部、42・・・SBR解析部、43・・・ハフマン復号部、44・・・SBR再構成部、45・・・AAC・SBR合成部 41 ... AAC / SBR separation unit, 42 ... SBR analysis unit, 43 ... Huffman decoding unit, 44 ... SBR reconstruction unit, 45 ... AAC / SBR synthesis unit

Claims (5)

フレーム構造をとる圧縮符号化オーディオデータにおける任意箇所のフレームを切り出す際に、前記圧縮符号化オーディオデータの各フレームがサブバンド表現されている場合であって、切り出しフレームにおいて時間方向予測が適用されている場合のみ、前フレームを参照するオーディオデータ表現を、自フレーム内のサブバンドを周波数方向に順次参照するオーディオデータ表現に置換することを特徴とする圧縮オーディオデータ処理方法。When extracting a frame at an arbitrary location in compression-encoded audio data having a frame structure, each frame of the compression-encoded audio data is represented by a subband, and temporal direction prediction is applied to the extracted frame. A compressed audio data processing method characterized by replacing an audio data representation that refers to a previous frame with an audio data representation that sequentially refers to subbands in the own frame in the frequency direction only if 切り出しフレームにおいて時間方向予測が適用されている場合、該フレームに対し、該フレームの直前に表れるシンクポイントの情報を付加するとともに、該フレームのサブバンド中でベースとなるサブバンドは、過去のフレームを用いて前フレームを参照しないオーディオデータ表現に再構成し、それ以外のサブバンドは、同フレーム内で周波数方向に順次参照するオーディオデータ表現に置換することを特徴とする請求項1に記載の圧縮オーディオデータ処理方法。When temporal direction prediction is applied to a cut-out frame, information on a sync point appearing immediately before the frame is added to the frame, and a base subband in the subband of the frame is a past frame. 2. The audio data representation that does not refer to the previous frame is reconstructed using the subframe, and the other subbands are replaced with the audio data representation that is sequentially referred to in the frequency direction within the same frame. Compressed audio data processing method. フレーム構造をとる圧縮符号化オーディオデータのデータ構成が時間方向予測を行う成分と時間方向予測を行わない成分の混合で形成されている場合、時間方向予測を行わない成分は元のままとし、時間方向予測を行う成分にのみ置換を施すことを特徴とする請求項2に記載の圧縮オーディオデータ処理方法。When the data structure of compression-encoded audio data having a frame structure is formed by mixing a component that performs temporal direction prediction and a component that does not perform temporal direction prediction, the component that does not perform temporal direction prediction is left as it is, 3. The compressed audio data processing method according to claim 2, wherein only the component for which direction prediction is performed is replaced. 圧縮符号化オーディオデータの圧縮符号化方式がHE−ACCであり、前記シンクポイントの情報が、前記切り出しフレームの直前に存在するシンクポイントのSBRヘッダであることを特徴とする請求項2または3に記載の圧縮オーディオデータ処理方法。4. The compression encoding method of compression encoded audio data is HE-ACC, and the sync point information is an SBR header of a sync point existing immediately before the cut-out frame. The compressed audio data processing method described. 置換したオーディオデータ表現に必要なビット数の増大量がある閾値以上になる場合には、オーディオデータ表現の置換は行わず、別途フェードイン処理を行うことを特徴とする請求項1ないし4のいずれかに記載の圧縮オーディオデータ処理方法。5. If the amount of increase in the number of bits required for the replaced audio data representation exceeds a certain threshold value, the audio data representation is not replaced and a separate fade-in process is performed. A compressed audio data processing method according to claim 1.
JP2004294851A 2004-10-07 2004-10-07 Compressed audio data processing method Expired - Fee Related JP4618634B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004294851A JP4618634B2 (en) 2004-10-07 2004-10-07 Compressed audio data processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004294851A JP4618634B2 (en) 2004-10-07 2004-10-07 Compressed audio data processing method

Publications (2)

Publication Number Publication Date
JP2006106475A JP2006106475A (en) 2006-04-20
JP4618634B2 true JP4618634B2 (en) 2011-01-26

Family

ID=36376275

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004294851A Expired - Fee Related JP4618634B2 (en) 2004-10-07 2004-10-07 Compressed audio data processing method

Country Status (1)

Country Link
JP (1) JP4618634B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818268B1 (en) * 2005-04-14 2008-04-02 삼성전자주식회사 Apparatus and method for audio encoding/decoding with scalability
JP2008076847A (en) * 2006-09-22 2008-04-03 Matsushita Electric Ind Co Ltd Decoder and signal processing system
JP2008102205A (en) * 2006-10-17 2008-05-01 Toshiba Corp Audio data editing apparatus
JP4918841B2 (en) 2006-10-23 2012-04-18 富士通株式会社 Encoding system
US9153241B2 (en) 2006-11-30 2015-10-06 Panasonic Intellectual Property Management Co., Ltd. Signal processing apparatus
JP2009157272A (en) * 2007-12-27 2009-07-16 Roland Corp Audio playback device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315098A (en) * 1999-05-06 2000-11-14 Sharp Corp Voice data processing device
JP2001521648A (en) * 1997-06-10 2001-11-06 コーディング テクノロジーズ スウェーデン アクチボラゲット Enhanced primitive coding using spectral band duplication
JP2002010203A (en) * 2000-06-23 2002-01-11 Sharp Corp Multimedia data editing device
JP2002335161A (en) * 2001-05-07 2002-11-22 Sony Corp Signal processor and processing method, signal encoder and encoding method, signal decoder and decoding method
JP2002366195A (en) * 2001-06-04 2002-12-20 Yrp Kokino Idotai Tsushin Kenkyusho:Kk Method and device for encoding voice and parameter
JP2004166183A (en) * 2002-09-26 2004-06-10 Toshiba Corp Moving picture coding apparatus and method, moving picture encoding method conversion apparatus, and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001521648A (en) * 1997-06-10 2001-11-06 コーディング テクノロジーズ スウェーデン アクチボラゲット Enhanced primitive coding using spectral band duplication
JP2000315098A (en) * 1999-05-06 2000-11-14 Sharp Corp Voice data processing device
JP2002010203A (en) * 2000-06-23 2002-01-11 Sharp Corp Multimedia data editing device
JP2002335161A (en) * 2001-05-07 2002-11-22 Sony Corp Signal processor and processing method, signal encoder and encoding method, signal decoder and decoding method
JP2002366195A (en) * 2001-06-04 2002-12-20 Yrp Kokino Idotai Tsushin Kenkyusho:Kk Method and device for encoding voice and parameter
JP2004166183A (en) * 2002-09-26 2004-06-10 Toshiba Corp Moving picture coding apparatus and method, moving picture encoding method conversion apparatus, and method

Also Published As

Publication number Publication date
JP2006106475A (en) 2006-04-20

Similar Documents

Publication Publication Date Title
KR100587517B1 (en) Audio coding and decoding
JP4056407B2 (en) Scalable lossless audio encoding / decoding apparatus and method
US20040174911A1 (en) Method and apparatus for encoding and/or decoding digital data using bandwidth extension technology
JP2006317972A (en) Audio data editing method, recording medium employing same, and digital audio player
JP2009116371A (en) Encoding device and decoding device
JP2005292702A (en) Device and program for fade-in/fade-out processing for audio frame
KR100852613B1 (en) Editing of audio signals
EP2360684B1 (en) Audio reproducing device and audio reproducing method
JP4618634B2 (en) Compressed audio data processing method
CA2575215A1 (en) Relay device and signal decoding device
JP2006293400A (en) Encoding device and decoding device
JPWO2005096270A1 (en) Content distribution server and terminal for distributing content frame for reproducing music
JP4639966B2 (en) Audio data compression method, audio data compression circuit, and audio data expansion circuit
KR100300887B1 (en) A method for backward decoding an audio data
JP2006030577A (en) Method and device for coded transmission of music
JP2005114813A (en) Audio signal reproducing device and reproducing method
JP3913664B2 (en) Encoding device, decoding device, and system using them
JPH03233500A (en) Voice synthesis system and device used for same
JP4597360B2 (en) Speech decoding apparatus and speech decoding method
KR101260285B1 (en) BSAC arithmetic decoding method based on plural probability model
JP2009122609A (en) Acoustic signal coder and acoustic signal decoder, their method, program and recording medium
JP4159927B2 (en) Digital audio decoder
US20010039495A1 (en) Linking internet documents with compressed audio files
JP4465075B2 (en) Data stream processing method and decoder and method of using the same
JP3240825B2 (en) Voice interpolation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101020

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101020

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4618634

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees