CN1641749B - 用于转换音频数据的方法和装置 - Google Patents
用于转换音频数据的方法和装置 Download PDFInfo
- Publication number
- CN1641749B CN1641749B CN2005100044674A CN200510004467A CN1641749B CN 1641749 B CN1641749 B CN 1641749B CN 2005100044674 A CN2005100044674 A CN 2005100044674A CN 200510004467 A CN200510004467 A CN 200510004467A CN 1641749 B CN1641749 B CN 1641749B
- Authority
- CN
- China
- Prior art keywords
- channel
- data
- supplementary
- audio
- shared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 230000006835 compression Effects 0.000 claims description 24
- 238000007906 compression Methods 0.000 claims description 24
- 238000013139 quantization Methods 0.000 claims description 18
- 230000000873 masking effect Effects 0.000 claims description 11
- 238000007689 inspection Methods 0.000 claims description 10
- 238000007493 shaping process Methods 0.000 claims description 7
- 238000000527 sonication Methods 0.000 claims description 4
- 101000591286 Homo sapiens Myocardin-related transcription factor A Proteins 0.000 claims 4
- 102100034099 Myocardin-related transcription factor A Human genes 0.000 claims 4
- 230000000576 supplementary effect Effects 0.000 description 63
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 6
- 238000011282 treatment Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B09—DISPOSAL OF SOLID WASTE; RECLAMATION OF CONTAMINATED SOIL
- B09B—DISPOSAL OF SOLID WASTE NOT OTHERWISE PROVIDED FOR
- B09B3/00—Destroying solid waste or transforming solid waste into something useful or harmless
- B09B3/40—Destroying solid waste or transforming solid waste into something useful or harmless involving thermal treatment, e.g. evaporation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12M—APPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
- C12M41/00—Means for regulation, monitoring, measurement or control, e.g. flow regulation
- C12M41/12—Means for regulation, monitoring, measurement or control, e.g. flow regulation of temperature
- C12M41/18—Heat exchange systems, e.g. heat jackets or outer envelopes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W30/00—Technologies for solid waste management
- Y02W30/40—Bio-organic fraction processing; Production of fertilisers from the organic fraction of waste or refuse
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Mathematical Physics (AREA)
- Thermal Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Microbiology (AREA)
- Genetics & Genomics (AREA)
- Sustainable Development (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Environmental & Geological Engineering (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了用于转换音频数据的方法和装置。该方法包括依照压缩音频输入数据所采用的格式,来无损地解码音频输入数据;和依照压缩音频输出数据将要采用的格式,来无损地编码所述无损解码的结果。
Description
技术领域
本发明涉及音频数据处理,特别涉及用于将以预定格式压缩的音频数据转换为将要以另一种格式压缩的音频数据的方法和装置。
背景技术
MPEG-2第3层标准或MPEG-1第3层标准(也被称为MP3)音频设备正在逐渐被具有更高压缩效率的MPEG-4设备所取代。MPEG-4被许多数字服务运营者采用来处理视频和音频信号,如欧洲数字音频广播(DAB)系统和韩国陆地数字多媒体广播(DMB)。特别是,在音频信号处理中使用比特分片算术编码(BSAC)格式,而不是高级音频编码(AAC)格式。另一方面,在卫星数字多媒体广播中使用组合了谱带复制(SBR)技术和AAC格式的aacPlus格式,作为音频信号处理技术。
同时,包括以AAC格式或BSAC格式压缩的音频数据的内容已经被广泛地用于音频多媒体市场。另外,连续不断地提供多媒体服务以适合用户的品位或环境是非常重要的。特别是,由于多个设备属于用户的计算环境以及各种内容在世界范围内被使用,对适合用户品位或环境的多媒体服务的需求就进一步的增加了。这里,环境意味着用户所使用的网络或内容。用于向用户提供适合各种环境的服务的多媒体核心技术包括可伸缩性(scalability)和转换方法。在可伸缩性方法中,使得数据适合于各种环境。在转换方法中,将以预定格式压缩的音频数据转换为将要以另一种格式压缩的音频数据。
一般来说,在转换方法中,以预定格式压缩的音频输入数据被完全解码,以产生脉冲编码调制(PCM)数据,并且PCM数据被以期望的压缩格式进行完全编码。因此,需要解码单元来完全解码音频输入数据,并且需要编码单元来以期望的格式对数据进行完全编码。因此,转换方法是昂贵且耗时的。
发明内容
本发明提供一种转换音频数据的方法,利用该方法,依赖于右声道和左声道的部分辅助信息(side information)是否被共享,以预定格式压缩的音频输入数据被简单地转换为将要以另一种格式压缩的音频输出数据。
本发明还提供一种用于转换音频数据的装置,其中依赖于右声道和左声道的部分辅助信息是否被共享,以预定格式压缩的音频输入数据被简单地转换为将要以另一种格式压缩的音频输出数据。
根据本发明的一个方法,提供一种转换音频数据的方法,该方法包括:依照压缩音频输入数据所采用的格式而无损地解码该音频输入数据;以及依照压缩音频输出数据将要采用的格式而无损地编码所述无损解码的结果。
根据本发明的另一个方法,提供一种用于转换音频数据的装置,该装置包括:解码单元,依照压缩音频输入数据所采用的格式无损地解码该音频输入数据;以及编码单元,依照压缩音频输出数据将要采用的格式而无损地编码所述无损解码的结果。
附图说明
通过参考附图详细描述本发明的示例实施例,本发明的上述和其他特征和优点将变得更加清楚,其中:
图1是说明根据本发明一个实施例的转换音频数据的方法的流程图;
图2是说明根据本发明另一个实施例的转换音频数据的方法的流程图;
图3说明以AAC格式压缩的音频数据的结构示例;
图4说明以BSAC格式压缩的音频数据的结构示例;
图5是说明根据本发明另一个实施例的转换音频数据的方法的流程图;
图6是根据本发明一个实施例的用于转换音频数据的装置的框图;
图7是根据本发明另一个实施例的用于转换音频数据的装置的框图;和
图8是根据本发明另一个实施例的用于转换音频数据的装置的框图。
具体实施方式
以下,将参考附图详细描述根据本发明的转换音频数据的方法及实施例。
图1是说明根据本发明一个实施例的转换音频数据的方法的流程图。图1的转换音频数据的方法包括解码音频输入数据(操作10和12)和通过对解码的结果进行编码来获得音频输出数据(操作14和16)。
根据本发明的实施例,在操作10和12中,根据压缩音频输入数据所采用的格式来无损地解码音频输入数据。
例如,在操作10中,从音频输入数据中获得辅助信息。所获得的辅助信息可以包括1比特window_shape(窗口形状)信息、2比特window_sequence(窗口序列)信息、4或6比特max_sfb(最大比例因子频带)信息、或者7比特scale_factor_grouping(比例因子分组)信息。这里,window_shape信息是在具有正弦格式或凯撒-贝塞耳衍生(Kaiser-Bessel derived,KBD)格式的窗口系数中选择一个系数的信息。window_sequence信息是代表在处理一个帧中所使用的窗口的类型是否是长、开始、短或停止的信息。max_sfb信息是根据window_sequence信息确定的并且代表有效比例因子频带的最大值的信息。scale_factor_grouping信息是指仅仅在window_sequence信息是短时存在并且代表怎样分组8个窗口的信息。
操作10之后,在操作12,依照压缩音频输入数据所采用的格式,对除了辅助信息以外的音频输入数据进行无损解码。这里,无损解码的结果被确定为量化的数据。
操作12之后,在操作14和16,依照压缩音频输出数据将要采用的格式对所述量化的数据进行无损编码。例如,在操作14中,依照压缩音频输出数据将要采用的格式对所述量化的数据进行无损编码。操作14之后,在操作16,无损编码结果以及所获得的辅助信息被互相组合,而组合的结果被确定为音频输出数据。
图2是说明根据本发明另一个实施例的转换音频数据的方法的流程图。图2的转换音频数据的方法包括解码音频输入数据(操作30到40)和通过对解码的结果进行编码而获得音频输出数据(操作42到52)。
根据本发明的当前实施例,在操作30到40中,依照压缩音频输入数据所采用的格式对音频输入数据进行无损解码。图2的操作30和32分别对应于图1的操作10和12,并执行同样的操作,因此其具体描述将被忽略。
操作32之后,在操作34,量化的数据被反量化。操作34之后,在操作36,对反量化的结果进行立体声处理。例如,可以使用mid/side(M/S)立体声或强度立体声等对所述反量化的结果进行处理。操作36之后,在操作38,对立体声处理的结果进行瞬时噪声整形(temporal noise shaping,TNS)处理。操作38之后,在操作40,作为TNS处理结果的频域数据被转换为时域数据。
操作40之后,在操作42到52,依照压缩音频输出数据将要采用的格式对时域数据进行无损编码。例如,操作40之后,在操作42,时域数据被转换为频域数据。操作42之后,在操作44,对频域数据进行TNS处理。这里,TNS处理使用预测技术预先调整量化噪声。操作44之后,在操作46,对TNS处理结果进行立体声处理。操作46之后,在操作48,对立体声处理结果进行量化。在这种情况下,在操作48,利用类似于掩蔽阈值(masking thresholdvalue)的信息,例如比例因子,能够最小化量化噪声。这里,类似于掩蔽阈值的信息是这样的一个值,它不是掩蔽阈值,但是能够从掩蔽阈值中获得它。类似于掩蔽阈值的信息可以被包含在从音频输入数据获得的辅助信息中。操作48之后,在操作50,依照压缩音频输出数据将要采用的格式对量化结果进行无损编码。操作50之后,在操作52,无损编码的结果以及所获得的辅助信息被互相组合,并且组合的结果被确定为音频输出数据。
图2的转换音频数据的方法可以包括操作34到40中的至少一个。在这种情况下,当转换音频数据的方法包括操作40、38、36和34时,操作42、44、46和48可以分别被包括在转换音频数据的方法中。例如,当转换音频数据的方法包括操作34时,操作48可以被包括在转换音频数据的方法中,而当转换音频数据的方法包括操作36时,操作46可以被包括在转换音频数据的方法中。此外,当转换音频数据的方法包括操作38时,操作44可以被包括在转换音频数据的方法中,而当转换音频数据的方法包括操作40时,操作42可以被包括在转换音频数据的方法中。
同时,可以使用比特分片算术编码(BSAC)格式、高级音频编码(AAC)格式或双VQ(Twin-VQ)格式,作为压缩音频输入数据所采用的格式,或作为压缩音频输出数据将要采用的格式。在这种情况下,在AAC格式中使用霍夫曼(Huffman)编码,而在BSAC格式中使用算术编码。例如,当压缩音频输入数据所采用的格式是BSAC格式,而压缩音频输出数据将要采用的格式是AAC格式时,在图1的操作12中,使用算术编码执行无损解码,而在图1的操作14中,使用霍夫曼方法执行无损编码。
一般来说,右声道和左声道具有类似的特性。因此,右声道和左声道的部分辅助信息是共享的。然而,在特殊的情况下,右声道和左声道的部分辅助信息也可以不是共享的。当压缩音频输入数据所采用的格式或压缩音频输出数据将要采用的格式是BSAC格式时,右声道和左声道的部分辅助信息是共享的。当时,当压缩音频输入数据所采用的格式或压缩音频输出数据将要采用的格式是AAC格式时,右声道和左声道的部分辅助信息可以是或者不是共享的。
图3说明以AAC格式压缩的音频输入数据或将要以AAC格式压缩的音频输出数据的结构示例。图4说明以BSAC格式压缩音频输入数据或将要以BSAC格式压缩的音频输出数据的结构示例。
如图3所示,以AAC格式压缩的音频输入数据或将要以AAC格式压缩的音频输出数据在“channel pair element()”中具有1比特变量commonwindow。这里,变量common_window代表当音频数据是立体声时右声道和左声道的部分辅助信息是否被共享。
当变量common_window为“0”时,右声道和左声道的辅助信息的任何部分都不是共享的。例如,当变量common_window为“0”时,window_shape信息、window_sequence信息、max_sfb信息或scale_factor_grouping信息中的任何一个都不是共享的。然而,当common_window为“1”时,右声道和左声道的部分辅助信息被共享。例如,当变量common_window为“1”时,window_shape信息、window_sequence信息、max_sfb信息或scale_factor_grouping信息中的至少一个是共享的。
与此相反,参考图4,以BSAC格式压缩的音频输入数据或将要以BSAC格式压缩的音频输出数据没有变量common_window,并且右声道和左声道的部分辅助信息总是共享的。
当右声道和左声道的部分辅助信息被共享时,使用图1而不是图2的转换音频数据的方法,将音频输入数据转换为音频输出数据。例如,当压缩音频输入数据所采用的格式是MPEG-4 BSAC格式,并且压缩音频输出数据将要采用的格式是MPEG-2或MEPG-4 AAC格式时,使用图1的转换音频数据的方法。或者,当压缩音频输入数据所采用的格式是共享右声道和左声道的部分辅助信息的AAC格式,并且压缩音频输出数据将要采用的格式是BSAC格式时,使用图1的转换音频数据的方法。
另一方面,当右声道和左声道的辅助信息的任何部分都不被共享时,使用图2而不是图1的转换音频数据的方法,将音频输入数据转换为音频输出数据。在这种情况下,当在图2的操作42到52中对解码结果进行编码时,使用左声道的辅助信息或者右声道的辅助信息。在这种情况下,可以根据辅助信息的使用目的来确定利用左声道的辅助信息或右声道的辅助信息。例如,当左声道的辅助信息中的window_sequence为长,而右声道的辅助信息中的window_sequence为短时,根据辅助信息的使用目的来确定利用左声道的辅助信息或右声道的辅助信息。这里,即使确定了任何辅助信息,变量common_window基于整个帧为“1”的情况也很少见。因此,一种确定的辅助信息对根据本发明的转换音频数据的方法具有很小的影响。例如,当压缩音频输入数据所采用的格式是MPEG-2或MEPG-4 AAC格式,并且压缩音频输出数据将要采用的格式是MPEG-4 BSAC格式时,使用图2的转换音频数据的方法将音频输入数据转换为音频输出数据,其中在MPEG-2或MEPG-4AAC格式中,右声道和左声道的辅助信息的任何部分都不是共享的。
同时,可以根据每个帧来确定右声道和左声道的部分辅助信息是否是共享的。因此,可以根据每个帧而不同地应用图1或2的转换音频数据的方法。
根据本发明的一个实施例,图2的转换音频数据的方法可以从当前帧执行,直到出现其中右声道和左声道的部分辅助信息被共享的帧为止。
根据本发明的另一个实施例,图2的转换音频数据的方法可以从当前帧的前一个帧执行,直到出现其中右声道和左声道的部分辅助信息被共享的帧为止。左声道的辅助信息不同于右声道的辅助信息的主要原因是左声道的window_sequence信息不同于右声道的window_sequence信息。即,右声道和左声道的其中一个声道使用长窗口,而另一个声道使用短窗口。在这种情况下,由于使用长窗口处理的音频输入数据不能立即被转换为使用短窗口的音频输出数据,一般地,使用长窗口处理的音频输入数据被转换为使用开始窗口(start_window)处理的音频输出数据,然后,使用开始窗口处理的音频输入数据被转换为使用短窗口处理的音频输出数据。因此,因为存在重叠和叠加特性,所以最好考虑到前一个帧来将音频输入数据转换为音频输出数据,在上述重叠和叠加特性中,前一个帧的一半与当前帧的一半被重叠并且被处理,并且上述特性在执行改进型离散余弦反变换(IMDCT)时出现。
首先,如表1所示,假设以AAC格式压缩的音频输入数据被转换为以BSAC格式压的音频输出数据,其中AAC格式在每个帧中都具有不同的比特。
表1
类别 | 信道 | 帧1 | 帧2 | 帧3 | 帧4 | 帧5 | 帧6 |
右声道 | 0 | 0 | 0 | 0 | 0 | 0 | |
左声道 | 0 | 1 | 2 | 3 | 0 | 0 |
如表1所示,假设变量common_window在帧1中为“1”,从帧2到帧4的变量common_window为“0”,而从帧5到帧6的变量common_window为“1”。
基于这些假设,根据本发明的一个实施例,图1的转换音频数据的方法可以被应用到前一个帧(帧1),而图2的转换音频数据的方法可以被应用到从当前帧(帧2)执行,直到出现其中右声道和左声道的部分辅助信息被共享的帧(帧5),即到一个帧(帧4)。
根据本发明的另一个实施例,当转换当前帧(帧2)时,即使图1的转换音频数据的方法被应用到前一个帧(帧1),图2的转换音频数据的方法也可以被应用到从当前帧(帧2)的前一个帧(帧1)执行,直到出现其中右声道和左声道的部分辅助信息被共享的帧(帧5),即到一个帧(帧4)。
图5是说明根据本发明另一个实施例的转换音频数据的方法的流程图。图5的转换音频数据的方法包括解码音频输入数据(操作70到82)和通过对解码的结果进行编码来获得音频输出数据(操作84到94)。
图5的操作70和72分别对应于图2的操作30和32,并执行相同的操作,因此其具体描述将被忽略。此外,图5的操作76到94分别对应于图2的34到52,并执行相同的操作,因此其具体描述将被忽略。从而,除了图5的方法还包括操作74以外,图5的转换音频数据的方法与图2的转换音频数据的方法相同。
根据本发明的当前实施例,在操作74中,确定右声道和左声道的部分辅助信息是否是共享的。
如果确定右声道和左声道的辅助信息的任何部分都不是共享的,则该方法前进到操作76。在这种情况下,图5的转换音频数据的方法与图2的转换音频数据的方法一样,执行操作76到94以产生转换的音频输出数据。在这种情况下,与图2的转换音频数据的方法一样,图5的转换音频数据的方法还包括操作76、78、80、82中的至少一个。在这种情况下,当图5的转换音频数据的方法包括操作76、78、80、82时,操作90、88、86、84可以被包括在图5的转换音频数据的方法中。
然而,如果确定右声道和左声道的部分辅助信息是共享的,则该方法前进到操作92。在这种情况下,图5的转换音频数据的方法与图1的转换音频数据的方法一样,执行操作14和16以产生转换的音频输出数据。
以下,将参考附图详细描述根据本发明的转换音频数据的装置。
图6是根据本发明一个实施例的转换音频数据的装置的框图。图6的转换音频数据的装置包括解码单元110和编码单元112。
解码单元110依照压缩通过输入终端IN1输入的音频输入数据所采用的格式而无损地解码音频输入数额,并输出无损解码的结果到编码单元112。
在这种情况下,编码单元112依照压缩音频输出数据将要采用的格式而无损地编码从所述编码单元110输入的所述无损解码的结果,并输出无损编码的结果到输出终端OUT1。
根据本发明的本实施例,可以如图6所示实施解码单元110和编码单元112。即,解码单元110可以包括数据开包(unpacking)部分130和无损解码部分132,而编码单元112可以包括无损编码部分140和数据组合部分142。在这种情况下,图6的转换音频数据的装置也可以执行图1的转换音频数据的方法。
为了执行操作10,数据开包部分130通过开包通过输入终端IN1输入的具有比特流模式的音频输入数据来获得辅助信息,输出所获得的辅助信息到数据组合部分142,并输出除了辅助信息以外的音频输入数据到无损解码部分132。
为了执行操作12,无损解码部分132从数据开包部分130输入除了辅助信息以外的音频输入数据,依照压缩音频输入数据所采用的格式无损地解码除了辅助信息以外的音频输入数据,并输出无损解码的结果到编码单元112作为量化数据。例如,当音频输入数据的压缩格式是比特分片算术编码(BSAC)格式时,无损解码部分132使用算术方法执行无损解码。然而,当音频输入数据的压缩格式是高级音频编码(AAC)格式时,无损解码部分132使用霍夫曼方法执行无损解码。
为了执行操作14,无损编码部分140依照压缩音频输出数据将要采用的格式,无损地编码从无损解码部分132输入的量化数据,并输出无损编码的结果到数据组合部分142。例如,当压缩音频输出数据将要采用的格式是BSAC格式时,无损编码部分140使用算术编码执行无损编码。然而,当压缩音频输出数据将要采用的格式是AAV格式时,无损编码部分140使用霍夫曼编码执行无损编码。
为了执行操作16,数据组合部分142组合由无损编码部分140获得的无损编码的结果和从数据开包部分130输入的辅助信息,并输出组合的结果到输出终端OUT1作为音频输出数据。
图7是根据本发明另一个实施例的转换音频数据装置的框图。图7的装置包括解码单元160和编码单元162。图7的解码单元160和编码单元162执行与图6的解码单元110和编码单元112相同的操作。
根据本发明的当前实施例,如图7所示,解码单元160可以包括数据开包部分180、无损解码部分182、反量化部分184、第一立体声处理部分186、第一瞬时噪声整形(TNS)部分188和第一域转换部分190。此外,编码单元162可以包括第二域转换部分210、第二TNS部分212、第二立体声处理部分214、量化部分216、无损编码部分218和数据组合部分220。在这种情况下,图7的转换音频数据的装置可以执行图2的转换音频数据的方法。
分别执行图2的操作30和32的图7的数据开包部分180和无损解码部分182,执行与图6的数据开包部分130和无损解码部分132相同的操作,因此其具体描述将被忽略。
为了执行操作34,反量化部分184对从无损解码部分182输入的量化数据进行反量化,并将反量化结果输出到第一立体声处理部分186。
为了执行操作36,第一立体声处理部分186对由反量化部分184获得的反量化结果进行立体声处理,并输出立体声处理的结果到第一TNS部分188。
为了执行操作38,第一TNS部分188对由第一立体声处理部分186获得的立体声处理的结果进行TNS处理,并输出TNS处理的结果到第一域转换部分190。
为了执行操作40,第一域转换部分190将作为由第一TNS部分188获得的TNS处理结果的频域数据转换为时域数据,并输出所述时域数据到编码单元162。
为了执行操作42,第二域转换部分210将从第一域转换部分190输入的时域数据转换为频域数据,并输出转换的频域数据到第二TNS部分212。
为了执行操作44,第二TNS部分212对从第二域转换部分210输入的频域数据进行TNS处理,并输出TNS处理的结果到第二立体声处理部分214。
为了执行操作46,第二立体声处理部分214对由第二TNS部分212获得的TNS处理结果进行立体声处理,并输出立体声处理的结果到量化部分216。
为了执行操作48,量化部分216量化第二立体声处理部分214的立体声处理结果,并输出量化的结果到无损编码部分218。在这种情况下,量化部分216能够使用包含在从数据开包部分180输入的所获得的辅助信息中的类似于掩蔽阈值的信息,来最小化量化噪声。在传统转换方法中,应当提供一个分离的听觉心理声音建模单元(auditory psychological sound modeling unit),它根据包括在音频输入数据中的辅助信息来计算掩蔽阈值,并且使用计算的掩蔽阈值来最小化量化噪声。因此,由于分离的听觉心理声音建模单元而导致成本的增加。
为了执行操作50,无损编码部分218依照压缩音频输出数据将要采用的格式对由量化部分216获得的量化结果进行无损编码,并输出无损编码的结果到数据组合部分220。
为了执行操作52,数据组合部分220利用从数据开包部分180输入的辅助信息对无损编码的结果进行组合,并输出组合的结果到输出终端OUT2作为音频输出数据。
图7的编码单元162只使用右声道和左声道中的一个声道的辅助信息,来编码由解码单元160获得的解码结果。例如,编码单元162的第二域转换部分210、第二TNS部分212、第二立体声处理部分214、量化部分216、无损编码部分218和数据组合部分220输入从数据开包部分180输出的辅助信息,它们只使用右声道和左声道中的一个声道的辅助信息来执行编码。
图7的解码单元160可以包括反量化部分184、第一立体声处理部分186、第一TNS部分188和第一域转换部分190中的至少一个。类似的,编码单元162可以包括第二域转换部分210、第二TNS部分212、第二立体声处理部分214和量化部分216中的至少一个。如果图7的解码单元160包括第一域转换部分190、第一TNS部分188、第一立体声处理部分186和反量化部分184,则编码单元162包括第二域转换部分210、第二TNS部分212、第二立体声处理部分214和量化部分216。
当右声道和左声道的部分辅助信息被共享时,使用图6的转换音频数据的装置,而当右声道和左声道的辅助信息的任何部分都不被共享时,使用图7的转换音频数据的装置。
同时,可以根据每个帧来不同地确定右声道和左声道的部分辅助信息是否被共享。因此,图6或图7的转换音频数据的装置可以被应用到每个帧。
这里,图7的转换音频数据的装置可以被应用到从当前帧的前一个帧,直到出现其中右声道和左声道的部分辅助信息被共享的帧为止,以便将音频输入数据转换为音频输出数据。或者,图7的转换音频数据的装置可以被应用到从当前帧,直到出现其中右声道和左声道的部分辅助信息被共享的帧为止,以便将音频输入数据转换为音频输出数据。
图8是根据本发明另一个实施例的转换音频数据的装置的框图。图8的转换音频数据的装置包括解码单元300、编码单元302和检查单元304。
图8的解码单元300和编码单元302执行与图6的解码单元110和编码单元112相同的操作。
根据本发明的当前实施例,如图8所示,解码单元300可以包括开包部分320、无损解码部分322、反量化部分324、第一立体声处理部分326、第一瞬时噪声整形(TNS)部分328和第一域转换部分330。此外,编码单元302可以包括第二域转换部分360、第二TNS部分362、第二立体声处理部分364、量化部分366、无损编码部分368和数据组合部分370。在这种情况下,图8的转换音频数据的装置可以执行图5的转换音频数据的方法。
除了图8的装置还包括检查单元304,以及解码单元300和编码单元302中的每一个都使用检查单元304的检查结果进行操作以外,图8的转换音频数据的装置与图7的转换音频数据的装置相同。因此,现在只描述图8的转换音频数据的装置和图7的转换音频数据的装置之间的区别。
为了执行操作74,检查单元304检查右声道和左声道的部分辅助信息是否是共享的,并输出检查结果到解码单元300和编码单元302中的每一个。在这种情况下,如果响应于检查单元304的检查结果,即根据检查的结果,识别出右声道和左声道的部分辅助信息是共享的,则反量化部分324、第一立体声处理部分326、第一瞬时噪声整形(TNS)部分328和第一域转换部分330、第二域转换部分360、第二TNS部分362、第二立体声处理部分364和量化部分366进行操作。
如上所述,在根据本发明的转换音频数据的方法和装置中,当右声道和左声道的部分辅助信息被共享时,执行完全解码和完全编码,并且如图1或图6所示,音频输入数据被简单地转换为音频输出数据。因此,降低了成本,并提高了转换速度。即使当右声道和左声道的辅助信息的任何部分都不被共享时,如图2、5、7或8所示,与传统转换方法相比,也将音频输入数据简单地转换为音频输出数据,即,不需要分离的听觉心理声音建模单元(未示出)。因此,降低了成本,并提高了转换速度。因而,无缝地提供多媒体服务,以适合各种应用中用户的品位和环境,并且在一起使用高级音频编码(AAC)格式和比特分片算术编码(BSAC)格式对音频数据进行压缩时,用户能够快捷地使用各种内容格式。例如,在本地网络环境中,当经由本地网关将从外部向房屋接收的数字广播传送到房屋中的设备时,音频输入数据能够被容易地转换为音频输出数据,以适合广播被传输到的设备的压缩格式,以便期望的服务被无缝地提供给房屋中的任何设备。
虽然已经参考示例实施例对本发明进行了具体展示和描述,本领域的技术人员应当理解在不脱离由下面权利要求书所定义的发明的精神和范围的情况下,可以进行各种形式和细节上的改变。
Claims (17)
1.一种转换音频数据的方法,该方法包括:
从音频输入数据中获取辅助信息;
依照压缩所述音频输入数据所采用的格式,来无损地解码除了辅助信息以外的音频输入数据,并确定所述无损解码的结果作为量化数据;
确定右声道和左声道的部分辅助信息是否被共享;
当确定右声道和左声道的部分辅助信息被共享时,依照将要用于压缩音频输出数据的格式,来无损地编码所述量化数据;并且
组合所述无损编码的结果和所获取的辅助信息,以产生所述音频输出数据。
2.如权利要求1所述的方法,其中,当确定右声道和左声道的辅助信息的任何部分都未被共享时,执行下面操作:
(a1)对量化数据进行反量化;
(a2)对反量化的结果进行立体声处理;
(a3)对立体声处理的结果进行瞬时噪声整形TNS处理;
(a4)将作为TNS处理结果的频域数据转换为时域数据;
(b1)将时域数据转换为频域数据;
(b2)对频域数据进行TNS处理;
(b3)对TNS处理的结果进行立体声处理;和
(b4)对立体声处理的结果进行量化。
3.如权利要求2所述的方法,其中,在操作(b4)中,使用包含在从音频输入数据获取的辅助信息中的、类似于掩蔽阈值的信息,来最小化量化噪声。
4.如权利要求2所述的方法,其中,当确定右声道和左声道的辅助信息的任何部分都未被共享时,只使用右声道和左声道中的一个声道的辅助信息,对解码的结果进行编码。
5.如权利要求2所述的方法,其中,根据每个帧执行的所述方法从当前帧的前一个帧执行,直到出现其中右声道和左声道的部分辅助信息被共享的帧为止。
6.如权利要求2所述的方法,其中,根据每个帧执行的所述方法从当前帧执行,直到出现其中右声道和左声道的部分辅助信息被共享的帧为止。
7.如权利要求1所述的方法,其中,压缩所述音频输入数据所采用的格式是比特分片算术编码BSAC格式,而压缩所述音频输出数据将要采用的格式是高级音频编码AAC格式。
8.如权利要求1所述的方法,其中,压缩音频输入数据所采用的格式是高级音频编码AAC格式,而压缩音频输出数据将要采用的格式是比特分片算术编码BSAC格式,并且高级音频编码AAC格式共享右声道和左声道的部分辅助信息。
9.如权利要求2所述的方法,其中,压缩所述音频输入数据所采用的格式是高级音频编码AAC格式,而压缩所述音频输出数据将要采用的格式是比特分片算术编码BSAC格式,并且高级音频编码AAC格式不共享右声道和左声道的任何一部分辅助信息。
10.如权利要求8所述的方法,其中,AAC格式所属于的标准是MPEG-2标准或MPEG-4标准之一。
11.如权利要求8所述的方法,其中,BSAC格式所属于的标准是MPEG-4标准。
12.一种转换音频数据的装置,该装置包括:
数据开包部分,从音频输入数据中获取辅助信息;
无损解码部分,依照压缩所述音频输入数据所采用的格式,来无损地解码除了辅助信息以外的音频输入数据,并输出所述无损解码的结果作为量化数据;
检查单元,确定右声道和左声道的部分辅助信息是否被共享;
无损编码部分,当在检查单元中确定右声道和左声道的部分辅助信息被共享时,依照将要用于压缩音频输出数据的格式,来无损地编码所述量化数据;和
数据组合部分,组合所述无损编码的结果和所述辅助信息,以产生所述音频输出数据。
13.如权利要求12所述的装置,其中,当在检查单元中确定右声道和左声道的辅助信息的任何部分都未被共享时,还包括下面部分:
反量化部分,对从所述无损解码单元输入的量化数据进行反量化;
第一立体声处理部分,对反量化的结果进行立体声处理;
第一瞬时噪声整形TNS部分,对立体声处理的结果进行TNS处理;
第一域转换部分,将作为TNS处理结果的频域数据转换为时域数据;
第二域转换部分,将时域数据转换为频域数据;
第二TNS部分,对频域数据进行TNS处理;
第二立体声处理部分,对TNS处理的结果进行立体声处理;和
量化部分,对由所述第二立体声处理部分获得的立体声处理结果进行量化,并输出量化结果到所述无损编码部分。
14.如权利要求13所述的装置,其中,所述量化部分使用包含在从音频输入数据获取的辅助信息中的、类似于掩蔽阈值的信息,来最小化量化噪声。
15.如权利要求13所述的装置,其中,当在检查单元中确定右声道和左声道的辅助信息的任何部分都未被共享时,所述无损编码部分只使用右声道和左声道中的一个声道的辅助信息,对解码的结果进行编码。
16.如权利要求13所述的装置,其中,根据每个帧进行操作的所述装置从当前帧的前一个帧进行操作,直到出现其中右声道和左声道的部分辅助信息被共享的帧为止。
17.如权利要求13所述的装置,其中,根据每个帧进行操作的所述装置从当前帧进行操作,直到出现其中右声道和左声道的部分辅助信息被共享的帧为止。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2004-0002249A KR100537517B1 (ko) | 2004-01-13 | 2004-01-13 | 오디오 데이타 변환 방법 및 장치 |
KR2249/2004 | 2004-01-13 | ||
KR2249/04 | 2004-01-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1641749A CN1641749A (zh) | 2005-07-20 |
CN1641749B true CN1641749B (zh) | 2010-12-08 |
Family
ID=34588145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005100044674A Expired - Fee Related CN1641749B (zh) | 2004-01-13 | 2005-01-12 | 用于转换音频数据的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7620543B2 (zh) |
EP (1) | EP1553563B1 (zh) |
JP (1) | JP5068429B2 (zh) |
KR (1) | KR100537517B1 (zh) |
CN (1) | CN1641749B (zh) |
DE (1) | DE602005010759D1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070038699A (ko) * | 2005-10-06 | 2007-04-11 | 삼성전자주식회사 | 스케일러블 오디오 데이터 산술복호화 방법 및 장치 |
CN101136200B (zh) * | 2006-08-30 | 2011-04-20 | 财团法人工业技术研究院 | 音频信号转换编码方法与系统 |
US8086465B2 (en) * | 2007-03-20 | 2011-12-27 | Microsoft Corporation | Transform domain transcoding and decoding of audio data using integer-reversible modulated lapped transforms |
US7991622B2 (en) * | 2007-03-20 | 2011-08-02 | Microsoft Corporation | Audio compression and decompression using integer-reversible modulated lapped transforms |
CN105491255A (zh) * | 2014-09-18 | 2016-04-13 | 广东世纪网通信设备有限公司 | 一种降低语音传输负载的方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1218334A (zh) * | 1997-11-20 | 1999-06-02 | 三星电子株式会社 | 可伸缩的立体声音频编码/解码方法和装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1126265A (zh) | 1995-01-07 | 1996-07-10 | 高家榕 | 喷射抹压侧壁压灌混凝土的成桩机及其成桩方法 |
KR100335609B1 (ko) * | 1997-11-20 | 2002-10-04 | 삼성전자 주식회사 | 비트율조절이가능한오디오부호화/복호화방법및장치 |
JP3818819B2 (ja) * | 1999-02-23 | 2006-09-06 | 松下電器産業株式会社 | 画像符号化方式変換装置、画像符号化方式変換方法および記録媒体 |
JP3739959B2 (ja) * | 1999-03-23 | 2006-01-25 | 株式会社リコー | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
US6263022B1 (en) * | 1999-07-06 | 2001-07-17 | Philips Electronics North America Corp. | System and method for fine granular scalable video with selective quality enhancement |
US6639943B1 (en) * | 1999-11-23 | 2003-10-28 | Koninklijke Philips Electronics N.V. | Hybrid temporal-SNR fine granular scalability video coding |
US6931060B1 (en) * | 1999-12-07 | 2005-08-16 | Intel Corporation | Video processing of a quantized base layer and one or more enhancement layers |
GB0003954D0 (en) * | 2000-02-18 | 2000-04-12 | Radioscape Ltd | Method of and apparatus for converting a signal between data compression formats |
US6792044B2 (en) * | 2001-05-16 | 2004-09-14 | Koninklijke Philips Electronics N.V. | Method of and system for activity-based frequency weighting for FGS enhancement layers |
EP1292036B1 (en) * | 2001-08-23 | 2012-08-01 | Nippon Telegraph And Telephone Corporation | Digital signal decoding methods and apparatuses |
WO2003077235A1 (en) * | 2002-03-12 | 2003-09-18 | Nokia Corporation | Efficient improvements in scalable audio coding |
GB2388502A (en) * | 2002-05-10 | 2003-11-12 | Chris Dunn | Compression of frequency domain audio signals |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
US7620545B2 (en) * | 2003-07-08 | 2009-11-17 | Industrial Technology Research Institute | Scale factor based bit shifting in fine granularity scalability audio coding |
US20050010396A1 (en) * | 2003-07-08 | 2005-01-13 | Industrial Technology Research Institute | Scale factor based bit shifting in fine granularity scalability audio coding |
-
2004
- 2004-01-13 KR KR10-2004-0002249A patent/KR100537517B1/ko not_active IP Right Cessation
-
2005
- 2005-01-12 EP EP20050250125 patent/EP1553563B1/en not_active Not-in-force
- 2005-01-12 CN CN2005100044674A patent/CN1641749B/zh not_active Expired - Fee Related
- 2005-01-12 DE DE200560010759 patent/DE602005010759D1/de not_active Expired - Fee Related
- 2005-01-13 JP JP2005005961A patent/JP5068429B2/ja not_active Expired - Fee Related
- 2005-01-13 US US11/033,733 patent/US7620543B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1218334A (zh) * | 1997-11-20 | 1999-06-02 | 三星电子株式会社 | 可伸缩的立体声音频编码/解码方法和装置 |
Non-Patent Citations (1)
Title |
---|
Chi-Min Liu.Audio Coding STANDARDS.1999,1-27. * |
Also Published As
Publication number | Publication date |
---|---|
JP5068429B2 (ja) | 2012-11-07 |
CN1641749A (zh) | 2005-07-20 |
EP1553563A2 (en) | 2005-07-13 |
US7620543B2 (en) | 2009-11-17 |
US20050180586A1 (en) | 2005-08-18 |
JP2005202406A (ja) | 2005-07-28 |
KR20050074040A (ko) | 2005-07-18 |
DE602005010759D1 (de) | 2008-12-18 |
EP1553563A3 (en) | 2006-07-26 |
KR100537517B1 (ko) | 2005-12-19 |
EP1553563B1 (en) | 2008-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1942928B (zh) | 用于处理音频信号的模块和方法 | |
CN1756086B (zh) | 多通道音频数据编码/解码方法和设备 | |
CN101790757B (zh) | 语音与音频信号的改进的变换编码 | |
EP1636791B1 (en) | Apparatus and method for encoding an audio signal and apparatus and method for decoding an encoded audio signal | |
JP7280306B2 (ja) | 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法 | |
CN100481736C (zh) | 用于对多声道数字音频信号进行压缩编码的编码方法 | |
US20020049586A1 (en) | Audio encoder, audio decoder, and broadcasting system | |
CN100571043C (zh) | 一种空间参数立体声编解码方法及其装置 | |
CN101010725A (zh) | 多信道信号编码装置以及多信道信号解码装置 | |
CN103503063B (zh) | 填充变换编码音频信号中的非编码子向量 | |
US8515770B2 (en) | Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined | |
JP2001094433A (ja) | サブバンド符号化・復号方法 | |
JP2001202097A (ja) | 符号化二進オーディオ処理方法 | |
CN1641749B (zh) | 用于转换音频数据的方法和装置 | |
JPH0856163A (ja) | 適応的デジタルオーディオ符号化システム | |
WO2010090019A1 (ja) | 結合装置、遠隔通信システム及び結合方法 | |
JP2017526957A (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
CN103413553B (zh) | 音频编码方法、音频解码方法、编码端、解码端和系统 | |
JP2003523535A (ja) | 複数のデータ圧縮フォーマット間でのオーディオ信号の変換方法及び装置 | |
JP2006003580A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
CN102074243A (zh) | 一种基于比特平面的感知音频分级编码系统及方法 | |
JP5379871B2 (ja) | オーディオ符号化のための量子化 | |
CN103165135A (zh) | 一种数字音频粗分层编码方法和装置 | |
WO2010102537A1 (zh) | 降低多描述编解码冗余度的方法和装置 | |
CN1783726B (zh) | 用于从音频数据码流中解码重建多声道音频信号的解码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101208 Termination date: 20190112 |
|
CF01 | Termination of patent right due to non-payment of annual fee |