CN104378075B - 频域中的音频信号响度确定和修改 - Google Patents
频域中的音频信号响度确定和修改 Download PDFInfo
- Publication number
- CN104378075B CN104378075B CN201410743139.5A CN201410743139A CN104378075B CN 104378075 B CN104378075 B CN 104378075B CN 201410743139 A CN201410743139 A CN 201410743139A CN 104378075 B CN104378075 B CN 104378075B
- Authority
- CN
- China
- Prior art keywords
- block
- block size
- loudness
- data
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 43
- 230000004048 modification Effects 0.000 claims abstract description 140
- 238000012986 modification Methods 0.000 claims abstract description 140
- 238000000034 method Methods 0.000 claims abstract description 118
- 238000001228 spectrum Methods 0.000 claims description 55
- 238000005070 sampling Methods 0.000 claims description 48
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 31
- 230000008859 change Effects 0.000 claims description 21
- 230000005284 excitation Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 14
- 230000008901 benefit Effects 0.000 claims description 7
- 230000033228 biological regulation Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 2
- 235000008434 ginseng Nutrition 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 13
- 238000005259 measurement Methods 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000008447 perception Effects 0.000 description 8
- 230000008878 coupling Effects 0.000 description 7
- 238000010168 coupling process Methods 0.000 description 7
- 238000005859 coupling reaction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 230000001052 transient effect Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000005404 monopole Effects 0.000 description 2
- 230000003362 replicative effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- CNQCVBJFEGMYDW-UHFFFAOYSA-N lawrencium atom Chemical compound [Lr] CNQCVBJFEGMYDW-UHFFFAOYSA-N 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/025—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
用于在频域信息的频率分辨率以及相应时间覆盖范围不恒定的情况下确定和修改频域音频信号的感知响度的方法和设备,以及上面具有当被执行时使得实施这些方法的指令的计算机可读介质。将感知响度处理的频率(以及因而时间)分辨率在最长块尺寸处保持恒定。一种方法包括块组合器和响度修改内插器。
Description
本申请是申请日为2009年12月22日、申请号为200980151996.3、发明名称为“频域中的音频信号响度确定和修改”的发明专利申请的分案申请。
对相关申请的交叉引用
本申请要求在2008年12月24日提交的美国临时专利申请No.61/140,791的权益,在此以引用方式并入其全部内容。
技术领域
本公开一般涉及音频信号处理,特别地,涉及感知音频编码。
背景技术
存在许多用于客观地确定音频信号的感知响度的方法。也已知用于使用例如感知响度模型以希望的量缩放音频信号的感知响度的方法。也已知这样的方法,所述方法包括缩放各单个频带的响度,由此保存感知响度谱或音品,同时调整总体感知响度。这些方法典型地将与数字化的音频信号对应的采样分割成被变换到频域的重叠块。被这样向重叠的数据块施加的变换被称为“重叠变换(lapped transform)”。用于确定以及可能地更改感知响度的方法使用如短时离散傅立叶变换或(短时)变型的离散余弦变换的这些重叠变换。
用于压缩数字化音频信号的感知编码方法也是已知的,这些编码方法包括将与数字化音频信号对应的采样分割成被变换到频域的重叠块。
希望确定以及可能地修改可能被感知编码的音频信号的感知响度。感知编码方法常常具有随时间改变的块长度。AC-3(也已知作为Dolby Digital)和AAC(也已知作为MPEG-2/AAC和MPEG-4/AAC,或者简单地被称为MPEG/AAC音频)各使用两个块尺寸。在可改变的音频信号块尺寸的情况下有效率地确定以及可能地修改频域音频信号的感知响度可能是复杂的操作。
附图说明
图1示出感知音频解码器的简化功能框图。
图2示出包含MDCT域中的响度处理的感知音频解码器的简化框图。
图3示出更详细地描述图2的响度处理元件的实施例中的一些处理的简化框图。
图4示出被配置为在频域(例如MDCT域)中确定响度以及修改响度的本发明的一个设备实施例。
图5A~5E示出在使用利用从示例性响板击打的Dolby Digital信号获得的MDCT谱的本发明的实施例的组合中涉及的不同MDCT谱。
图6示出使用MDCT数据并且用于本发明的一些实施例中的响度确定的例子的简单框图。
图7A和图7B示出对于由使用内插(图7A)和使用复制(图7B)从短块确定的长块获得的Dolby Digital数据的以宋(sone)为单位确定的响度的比较。
图8示出使用MDCT数据并且用于本发明的一些实施例中的用于水平调节(leveling)的响度确定和修改的例子的简单框图。
图9通过简单的例子图示适用于使用256时域采样的短块长度和512时域采样的长块长度的感知编码数据(例如Dolby Digital)的增益内插。
图10通过简单的例子图示适用于使用256时域采样的短块长度和2048时域采样的长块长度的感知编码数据(例如MPEG-2/AAC和MPEG-4/AAC)的增益内插。
图11示出包括处理系统的一个设备实施例的简化框图,所述处理系统在操作中被配置为实施本发明的方法实施例。该设备包括被配置有指令的计算机可读介质,该指令在被执行时使得实施本发明的方法实施例。
具体实施方式
概要
本发明涉及用于在频域信息的频率分辨率以及相应时间覆盖范围不恒定的情况下确定和修改频域音频信号的感知响度的方法和设备,以及上面具有当被执行时使得实施这些方法的指令的计算机可读介质。这直接适用于使用改变的块尺寸的情况下的感知音频编码器,这种可变块尺寸有助于提高瞬变音频信号的声音质量。
用于包括多种块尺寸的数据的一个方面包括:将感知响度处理的频率(以及因而时间)分辨率在最长块尺寸处保持恒定,其包括:对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的数据,组合所述特定短块尺寸的多个块的频域信息以形成用于输入到响度处理的最长块尺寸数据,以及内插从对这种所形成的最长块尺寸数据的响度处理输出的增益信息,以用于与所述特定短块尺寸的频域信号相乘。
特定的实施例包括音频数据的处理方法,所述音频数据包含通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括:接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括:组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括:实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括:确定一个或更多个感知响度参数。所述响度处理可包括确定要应用于接受的频域数据块或其延迟形态的至少一个响度修改。所述至少一个响度修改的确定使用所述一个或更多个确定的感知响度参数。
该方法可包括:对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。
在一些实施例中,所述至少一个响度修改包括一组增益,因此,所述内插确定内插的增益,并且,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益或一组内插的增益。在其中至少一个响度修改包括一组增益的一些实施例中,所述内插确定内插的增益并且使用所确定的增益值之间的线性内插。
一些实施例中的组合特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据包括:交织所述特定短块尺寸的频域数据。在其它的实施例中,所述组合包括:复制所述特定短块尺寸的频域数据的值以创建最长块尺寸的频域数据。例如,最近的(latest)特定短块尺寸块的特定短块尺寸的频域数据被用于创建最长块尺寸的频域数据。
所述一个或更多个感知响度参数可包括音频数据的激励(excitation)和音频数据的特性响度(specific loudness)。实施感知响度处理可包括响度水平调节、增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
所述变换可以是重叠变换,例如,短时离散傅立叶变换(STDFT),或者变型的离散余弦变换(MDCT),或者短时离散正弦变换。也可使用其它的重叠变换。
所述数据可来自通过使用多于一个块尺寸的感知编码器编码的编码音频数据。例子包括AC-3和AAC。
特定的实施例包括一种设备,该设备包括至少包含处理器的处理系统和计算机可读介质,该处理系统在操作中被配置为实施音频数据的感知响度处理的方法,所述音频数据包括通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括:接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括:组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括:实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括:确定一个或更多个感知响度参数。该方法可包括:对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。不同的实施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一个或更多个。
特定的实施例包括配置有指令的计算机可读介质,该指令在被至少一个处理器执行时实施音频数据的感知响度处理的方法,所述音频数据包括通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括:接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括:组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括:实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括:确定一个或更多个感知响度参数。该方法可包括:对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。不同的实施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一个或更多个。
特定的实施例包括程序逻辑,当该程序逻辑被至少一个处理器执行时使得实施音频数据的感知响度处理的方法,所述音频数据包括通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该方法包括:接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括:组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括:实施最长块尺寸的接受的块的感知响度处理。实施所述感知响度处理包括:确定一个或更多个感知响度参数。该方法可包括:对于以所形成的最长块尺寸确定的所述至少一个响度修改,内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块;和将所确定的至少一个响度修改或至少一个内插的响度修改应用于接受的频域数据块。该方法可包括延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。不同的实施例可包括以上在此概要部分或本文的其它部分中描述的特征中的一个或更多个。
特定的实施例包括用于音频数据的感知响度处理的设备,所述音频数据包含通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该设备包括用于接受多种块尺寸的频域音频数据块的装置。该设备还包括:用于组合特定短块尺寸的多个接受的频域数据块以形成最长块尺寸的频域数据块的装置。该设备还包括:用于处理的装置,所述处理被配置为实施最长块尺寸的接受的块的感知响度处理。通过所述用于处理的装置实施所述感知响度处理包括:确定一个或更多个感知响度参数。该设备可进一步包括:用于使用一个或更多个所确定的感知响度参数来确定至少一个响度修改的装置,所述至少一个响度修改用于应用于接受的频域数据块或其延迟形态。这种情况下的该设备进一步包括与用于确定所述至少一个响度修改的所述装置耦合的用于内插响度修改的装置,使得对于以所形成的最长块尺寸确定的所述至少一个响度修改中的任何一个,所确定的至少一个响度修改被内插,以应用于被用于形成所确定的至少一个响度修改的所述特定短块尺寸的接受的数据块。这种情况下的该设备进一步包括用于将所确定的至少一个响度修改或内插的修改应用于接受的频域数据块或其延迟形态的装置。所述修改可以具有一组增益的形式。
特定的实施例包括用于音频数据的感知响度处理的设备,所述音频数据包含通过以多种块尺寸进行例如重叠变换的变换所确定的频域数据。该设备包括块组合器,所述块组合器被配置为接受频域音频数据块,每个块具有多种块尺寸之一,包含接受比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的数据块。所述块组合器被进一步配置为组合所述特定短块尺寸的多个接受的频域数据块以形成最长块尺寸的频域数据块。该设备还包括频域信号处理器,所述频域信号处理器被配置为实施最长块尺寸的接受的块的感知响度处理。通过频域信号处理器实施所述感知响度处理包括确定一个或更多个感知响度参数。所述频域信号处理器可包括响度修改确定器,所述响度修改确定器被配置为确定要应用于由块组合器接受的频域数据块或其延迟形态的至少一个响度修改。这种响度修改确定器使用所述一个或更多个确定的感知响度参数。包括所述响度修改确定器的该设备包括响度修改内插器,所述响度修改内插器与频域信号处理器耦合,并且被配置为对于以所形成的最长块尺寸确定的一个或更多个响度修改的任一组而内插所确定的至少一个响度修改,以将其应用于被用于形成所确定的至少一个响度修改的特定短块尺寸的接受的数据块。包括所述响度修改确定器的该设备还包括响度修改器,所述响度修改器与响度修改内插器耦合,以及,与块组合器的输入端耦合或与和块组合器的输入端耦合的延迟元件耦合。响度修改确定器被配置为将所确定的至少一个响度修改或内插的修改应用于接受的频域数据块或其延迟形态。所述修改可以具有一组增益的形式。
特定的实施例可提供这些方面、特征或优点中的全部或一些或根本不提供它们。特定的实施例可提供一个或更多个其它的方面、特征或优点,本领域技术人员从本文的附图、描述和权利要求中可容易地理解这些方面、特征或优点中的一个或更多个。
感知响度和感知编码
存在许多用于客观地确定音频信号的感知响度的方法。方法的例子包含包括应用强调在感知上比较敏感的频率并且不强调在感知上比较不敏感的频率的预定滤波器的响度的A加权、B加权和C加权功率测量以及诸如在标题为“Acoustics--Method forcalculating loudness level”(1975)的ISO 532中描述的响度的心理声学模型,所述心理声学模型尝试通过将信号划分成频带并且然后在考虑诸如频率掩盖和时间掩盖之类的心理声学现象以及作为信号强度的函数的响度感知的非线性的同时操纵和统合这些频带而将耳朵的内部工作模型化。
指定美国、作为WO 2004111994公布、在美国作为US 20070092089公布并且名称为METHOD,APPARATUS AND COMPUTER PROGRAM FOR CALCULATING AND ADJUSTING THEPERCEIVED LOUDNESS OF AN AUDIO SIGNAL的国际申请No.PCT/US2004/016964(以下称为“WO 2004111994”)描述了一种感知方法,该感知方法不仅进行响度确定并且以希望的量提供音频信号的感知响度的缩放。在WO 2004111994中描述的一个实施例中,通过反转感知响度模型而从感知响度的希望的改变来计算宽带增益。指定美国、作为WO 2006047600公布、还在美国作为US 20070291959公布并且名称为CALCULATING AND ADJUSTING THEPERCEIVED LOUDNESS AND/OR THE PERCEIVED SPECTRAL BALANCE OF AN AUDIO SIGNAL的国际申请No.PCT/US2005/038579(以下称为“WO 2006047600”)特别描述了一种方法,该方法通过缩放各单个频带的响度而甚至更进一步,由此保存感知响度谱或音品,同时调整总体感知响度。在WO 2006047600中描述的一个实施例中,从对多个频率响度带施加的感知响度的希望的改变来计算多个频带增益。
将WO 2004111994和WO 2006047600中的每一个的内容通过引用方式并入在本文中。
WO 2004111994和WO 2006047600描述了各包括通过首先将音频内容变换到频域表现来分析音频信号的方法,所述变换典型地使用重叠变换,例如离散傅立叶变换的重叠加窗形式-短时离散傅立叶变换(STDFT),由于其有效率的实现而常常被提到;快速傅立叶变换(FFT)和短时快速傅立叶变换(STFFT)。如果希望进行感知响度调整,那么这些申请的实施例描述从反转响度模型而计算出的增益如何与频域信息相乘,所述频域信息随后通过由于其有效率的实现而常常被提到的相应的逆离散傅立叶变换(IDFT);逆快速傅立叶变换(IFFT)变换回时域音频信号。
另一时频变换是离散余弦变换(DCT)。DCT变换提供信号的更紧凑的谱表现,并且因而被广泛用于也被称为压缩方法的图像、视频和音频编码方法中。当被用于音频编码中时,DCT以具有50%重叠的加窗重叠和修改的形式被使用,并且被临界地采样以实现时域混叠消除。这种重叠和修改的DCT一般被称为变型的DCT(MDCT)。假设窗口为2N个采样长。MDCT并不是完美可逆的,在于2N采样的窗口的MDCT如果经受逆MDCT(IMDCT)则不产生相同的2N数据采样。但是,当逆变换数据的随后块被添加时,通过使用50%重叠,由变换引入的误差被消除。这是时域混叠消除(TDAC)特性。得益于重叠特征,MDCT对于量化非常有用;例如,它有效地去除否则可容易地检测到的变换块之间的分块伪信息,并且被广泛用于诸如DolbyDigital(也被称为AC-3)和MPEG/AAC之类的音频编码方法以及诸如ITU-T H.261、H.263、MPEG-1、MPEG-2视频和JPEG之类的图像编码系统中。Dolby Digital是杜比特许实验室公司(Dolby Licensing Laboratories Corporation)的商标。这种编码包括将一个或多个待编码音频信号划分成重叠加窗时间段,在这里被称为音频块。各段的MDCT变换被感知编码,并且被量化以压缩信息。量化的数据被封装成编码位流。在解码期间,各段各被解封装,并且通过逆MDCT(IMDCT)变换(具有重叠相加),以重新创建时域PCM音频信号。Dolby Digital例如使用512采样的长块尺寸,这里,所述块的每一半与相邻块的一半重叠。
指定美国、作为WO 2007120452公布并且名称为AUDIO SIGNAL LOUDNESSMEASUREMENT AND MODIFICATION IN THE MDCT DOMAIN的国际申请No.PCT/US2007/007945(以下称为“WO 2007120452”)特别描述了可如何使用通过使用变型离散余弦变换(MDCT)获得的信息来执行感知响度测量和修改。这允许例如感知响度确定和修改与典型地使用MDCT的低位率音频解码器有效率地统合。将WO 2007120452的内容以引用方式并入在本文中。
注意,WO 2007120452将此处以及通常称为MDCT的概念用术语STMDCT来称呼,以便与使用STDFT来描述以重叠方式加窗的数据块的DFT的方式一致。应当理解,本文中使用的MDCT是被临界地采样并且实现TDAC的重叠加窗余弦变换。
感知音频编码方法常常被设计为使用多于一个的块长度的重叠变换数据,其中所述块长度根据音频信号的一个或更多个特定特性而被更改。例如,Dolby Digital使用两个块尺寸;512采样的长块(例如用于明显的静止信号)和256采样的短块(例如用于上升的瞬变音频信号)。结果是,频带的数量和宽度以及MDCT谱值的相应数量在块之间改变。再次使用Dolby Digital作为例子,当块尺寸为512时域采样时,存在256个频带(频率单元,frequency bin),并且,当块尺寸为256时域采样时,存在128个频带(频率单元)。使用这种短块尺寸和长块尺寸两者的原因是因为感知编码器根据它们的天性由于量化而引入误差或噪声,因为它们压缩或降低音频信号的信息速率。量化误差或噪声,特别是来自瞬变信号的量化误差或噪声,跨音频采样的块的长度而扩展并且变得可听。当使用短(时间)采样块时,噪声扩展在时间上更加局部化,因此不那么可听。
使用多于一个的块尺寸的感知音频编码器表现出对于将响度确定和修改与音频解码器组合的困难。WO 2007120452简短地讨论了修改反量化(de-quantization)过程以通过将多个较小的块组合或平均化为较大的块而总是以恒定的块速率输出恒定数量的带,使得可以对恒定的块尺寸执行响度确定。WO 2007120452还简短地讨论了修改响度确定过程以接受改变的块尺寸。响度确定典型地包括滤波、激励计算、特性响度计算、平均化和加和,并且,WO 2007120452建议改变它们。这需要超出例如允许块尺寸维持恒定所需要的复杂度的附加的复杂度以及组合较短的块。
希望形成用于利用不同的块长度数据执行组合或平均化以及当块尺寸改变时如何确定增益并且将这些增益应用于音频信号以用于感知响度修改的实际方法。
一些实施例
这里描述的是用于确定和修改频域音频信号的响度的方法和设备以及软件(例如,在计算机可读介质中实施的处理器可执行的指令),其中,音频信号块尺寸可改变。
在这里详细描述的实施例假设使用由感知音频编码器使用的MDCT谱。但是,本发明的方面也适用于在第一线性空间域-时域到线性空间第二域-频率之间变换的其它变换。这些其它变换包括但不限于前面讨论的DFT、STDFT(STFFT)、DCT(离散余弦变换)以及其它,包括这些变换的逆变换。对于本领域技术人员来说,如何修改这里描述的实现以使用和/或适用于这些其它变换将是清楚和直接的,并且,不意味着权利要求被限于MDCT或逆MDCT(IMDCT),除非明确声明这样限制。
图1示出感知音频解码器的简化功能框图。虽然一般来说诸如图1所示的解码器是现有技术,但是包括这里描述的任何发明要素的这种解码器不是现有技术。从一个或更多个音频信号(音频信道)的感知编码位流101开始,第一元件103产生各信道的MDCT谱,并且包括将位流解封装为码字、将码字反量化以及从反量化的码字重构这种各音频信道的MDCT谱105。MDCT谱信息105包括音频的变换的重叠块的变换系数。这种谱信息然后通过元件107使用IMDCT并且将信息的逆变换块去重叠而被变换到时域,以产生解码的数字音频。更特别地,IMDCT被计算,然后,得到的时间采样被加窗,并且,加窗的采样的前一半被加到先前块的后一半,以创建最终的输出PCM时间采样109。本领域技术人员将理解,发生去重叠,并且每当IMDCT功能被描述时暗示去重叠以产生PCM音频。
在频域105中(在IMDCT功能之前)存在解码的音频。如在WO 2007120452中描述的那样,可在IMDCT之前执行响度确定和修改。图2示出包括MDCT域中的响度处理的感知音频解码器的简化框图。虽然一般来说诸如图2所示的解码器是现有技术,但是包括这里描述的任何本发明的要素的这种解码器不是现有技术。响度处理元件203被配置为根据一个或更多个响度修改参数201来实施音频信号的响度确定和修改两者,以产生在逆处理之后得到输出音频数据209的修改的谱数据205。
图3示出更详细地描述响度处理元件203的一个实施例中的一些处理元件的简化框图。响度处理元件203包括频域信号处理器301,所述频域信号处理器301包括响度参数确定器303,所述响度参数确定器303被配置为确定一个或更多个感知响度参数,例如MDCT音频信号105的感知响度域中的激励和特性响度。例如根据规定对响度的希望的改变的所述一个或更多个参数201,通过响度修改确定器305来修改所得到的感知响度参数。例如,如果响度处理包括噪声补偿,那么响度修改参数包括噪声补偿的量、噪声的谱值和希望的特性响度水平等。在一个实施例中,响度修改确定器305产生被表达为一组增益值或增益谱的对特性响度的修改,例如,对于各音频信道中的各MDCT频带有一个增益值,并且,通过包括乘法器元件的响度修改器309使用所确定的增益来计算这种修改。可在WO 2004111994和WO2006047600中、特别是在WO 2007120452中的MCDCT域中找到响度参数确定和响度修改计算的特定的细节,并且,为了不使本发明的发明方面模糊,这里不详细给出这些特定的细节。MDCT音频信号105可由延迟元件307延迟,以向响度确定器303和响度修改确定器305提供一些向前的展望,即预期音频信号的改变的能力,使得在乘法器元件309中向延迟的谱数据施加增益以产生修改的MDCT音频信号205。
图3的设备和由其实现的方法对于恒定的MDCT块尺寸工作良好。如果块尺寸随时间改变,那么响度确定器303和响度修改确定器305需要适应于新的块尺寸。这实现起来会是复杂的。参见WO2007120452。
图4示出被配置为在频域(例如,MDCT域)中确定响度以及修改响度的本发明的一个设备实施例400。本发明的实施例的一个特征包括操作操作频域信号处理器405,该频域信号处理器405包括响度参数确定器元件406和响度修改确定器元件407,并且,对与所使用的最大MDCT块尺寸(例如,在确定和修改是用于来自解码器的数据的情况下,为音频解码器中的最大MDCT块尺寸)相同的块尺寸或块速率的数据进行操作。该设备包括块组合器403,所述块组合器403被配置为在通过频域信号处理器405的响度参数确定器406进行响度参数确定之前,组合比最大块尺寸小的块,以形成最大块尺寸的块。实施例还包括用于内插由响度修改确定器407确定的修改的修改内插器409,例如,用于内插对于通过组合较小块尺寸的块而获得的最大尺寸块确定的增益的增益内插器。延迟元件411负责块403、406、407和409中涉及的处理延迟,使得向响度修改器元件413呈递的数据被时间对准。
组合块
块组合器403实施块组合,并且被配置为从多个较小的块尺寸谱构造用于大块尺寸谱-“长块”谱-的大块尺寸MDCT谱,所述较小的块尺寸未必都是相对于最大块尺寸的相同的短块尺寸。
使用多于一个的块长度的典型的感知音频编码器通常使用较短块的倍数,其MDCT谱值的总数相当于单个相对长块中的谱值的数量。以不同的方式表达,用于计算短MDCT谱的序列的不同采样时间PCM音频采样的总数相当于用于计算单个长MDCT谱的不同采样时间PCM音频采样的数量。作为一个例子,Dolby Digital使用512个采样的长块尺寸,所述512个采样由与先前的长块重叠的256个采样和与下一个长块重叠的256个附加采样构成,这导致256个MDCT谱值(频率单元)。当Dolby Digital使用短块时,它按照第一和第二短块的对来使用短块。第一短块包括与先前的块重叠的256个采样,所述先前的块在应用MDCT之后导致128个MDCT谱值(频率单元)。第二短块也是与下一个256长块重叠的256个采样,所述下一个256长块也导致128个MDCT谱值(频率单元)。
另一例子是MPEG/AAC,其使用给出1024个MDCT值的2048个采样的长块尺寸和给出128个MDCT值的256个采样的短块尺寸。当MPEG/AAC使用短块时,它总是使用八个短块的倍数-块的八重组(octet),使得在这种八重组中存在8×128=1024个MDCT值(频率单元),数量与单一长块的数量相同。
虽然可以有实施组合步骤块组合器403的许多方式而不背离本发明的实质,但是这里描述两个示例性方法。第一示例性方法包括交织较短块的MDCT值以创建长块的单个谱。第二方法使用短块谱的子集,并且包括复制值以创建长块的单一谱。在使用复制的一些这样的示例性方法中,使用最近的较短谱来创建长块的单一谱。
实施例如组合元件403的组合的替代性实施例包括在短块尺寸的频域数据的值之间进行内插,以创建最长块尺寸的频域数据。对之后的数据也可如此。
图5A~5E示出基于示例性响板击打的Dolby Digital数据的示例性MDCT谱。特别地,图5A和图5B示出各具有128个值的两个连续短块MDCT谱。可以看出,这显然是上升瞬变,因为相对于MDCT数据的第二块中的能量的量,在第一短块中的所有频带中存在相对很少的能量。图5C示出利用交织从图5A和图5B的谱确定的具有256个频域值的谱。图5D示出通过复制图5B的第二短谱的相邻值而创建的长块谱。由于当音频信号能量特别是高频能量迅速上升时如Dolby Digital那样的编码器选择使用短块,因此考虑这一点是有用的。这指示音频信号中的瞬变。结果,第二短谱是用于创建两个短块谱的音频信号的总体谱的较好的代表。当与图5E比较时,可以看到这一点。
实施例如组合元件403的组合的替代性实施例包括在短块尺寸的频域数据的值之间进行内插,以创建最长块尺寸的频域数据。对之后的数据也可如此。
最后,作为参照,图5E示出从用于计算图5A和图5B中的两个较短MDCT谱的相同的采样计算的长MDCT谱。这代表理想化的情况,在该理想化的情况下,Dolby Digital能够以高于正常数据速率的数据速率运行,并且因此将不需要使用较短块来使瞬变信号的量化噪声的可听性最小化。Dolby Digital实际上将既不计算也不使用图5E中的谱,但它代表如果编码器限于仅使用长块的情况下会发生什么。
对于AAC和类似的编码方法,长块的长度是多于两个短块的倍数,例如,对于AAC为8,并且/或者,存在多种类型的长块,例如,对于AAC为3种,假定对于不同类型的长块中的每一个,以基本上相同的方式确定响度。用于这样的多种块尺寸的本发明的一些实施例选择最大尺寸,并且,使用交织来从多个短数据块确定长数据块。
注意,对于上升的瞬变,较后的短块具有增大的功率。如已知的那样,由于下降的瞬变的感知掩盖,瞬变的短块包括上升的瞬变的短块。在其中长块具有短块长度的整数倍(大于两倍)的长度(例如,对于AAC为8倍)的一些实施例中,使用交织来形成具有高于预定阈值的总体能量的连续的较后的块的子组(subgroup),然后,使用复制或交织将这些连续的较后的块与较早的块进行组合,以给出具有长块的块的组合谱。在一些实施例中,所述预定阈值为最后的长块尺寸块的总频域能量的一半。
确定感知响度
WO 2004111994描述了基于心理声学模型的感知响度的客观测量。虽然WO2004111994描述使用获得的对数功率谱,例如使用短时DFT,但是,来自一组MDCT谱的功率确定也是已知的。考虑时间采样x[n,t]的时变加窗块的STDFT,这里,n是块内的时间索引,t是参照该时间的索引。对于长度为T个采样的块,使用STDFT的功率谱时变估计的一种常用的计算是
这里,k是用于STDFT的频率单元,K是数据块的频率单元和时间采样的数量,XSTDFT(k,t)是x[n,t]的STDFT。
由XMDCT(k,t)表示长度为K个采样的时间块t的MDCT。对于大多数的音频信号,|XSTDFT(k,t)|和∠XSTDFT(k,t)沿块而相对独立地改变。此外,对于大多数的音频信号,∠XSTDFT(k,t)在0和2π之间基本上均匀地分布。在这种情况下,它可被示为:
因而,时变功率谱也可从MDCT的平方振幅的移动平均值被确定,并且产生通过使用STDFT获得的值的近似一半。参见WO2007120452。注意,作为近似,可以使用单极平滑滤波器,对于该单极平滑滤波器,
PMDCT[k,t]=λPMDCT[k,t-1]+(1-λ)|XMDCT[k,t]|2,
这里,平滑滤波器的半衰减时间由给出,并且,如果K足够大,那么由此确定的PMDCT[k,t]提供精确的功率谱测量。
WO 2007120452讨论了对于涉及诸如根据由响度修改确定器确定的响度修改的感知响度参数确定和响度修改之类的基于感知的测量和修改的应用,各且每一个频率单元k处的功率谱P(k,t)的值如何不如类似于人类耳朵的特定位置处的基底膜的响应的所谓的临界带那么重要。因而,对于这些应用,确定通过使用MDCT而不是STDFT所引入的误差以确定K是否足够大,可通过检查类似于人类耳朵的特定位置处的基底膜的响应的临界带内的误差而被实施。
可通过将功率谱P(k,t)乘以表示的临界带滤波器并且然后在频率单元k上进行积分来实施对临界带功率谱的确定:
这里,Cb(k)表示由b表示的临界带的滤波器的响应。对于滤波器Cb(k)的形式,参见例如WO 2007120452。
在感知响度确定的实现中,假设提供临界带功率谱的良好估计(除了2的因子)。
出于确定特性响度作为感知响度的客观测量的目的,功率谱值PMDCT(k)(例如从Dolby Digital位流的部分解码中得到,或者否则例如通过取采样的音频信号的块的重叠MDCT变换而得到)可用作对于确定感知响度的方法的输入。在图6的例子中示出这种配置。从WO 2004111994借用术语和表示法,近似沿由b表示的临界带处的内耳的基底膜的能量分布的数据索引t的块的激励信号E(b,t)可从功率谱值被近似,如下:
这里,T(k)表示传送滤波器的频率响应,Cb(k)表示与表示为b的临界带对应的位置处的人类对象的基底膜的频率响应。通过使用相等的响度轮廓,各带处的激励被变换成产生1kHz处的相同响度的激励水平。然后,作为在频率上分布的感知响度的测量的特性响度通过压缩非线性而从被表示为E1kHz[b,t]的变换的激励被计算,如下:
这里,Q1kHz表示1kHz处的安静阈值,常数G和α被选择为与从描述响度的生长的心理声学实验产生的数据匹配。
对于感知响度处理修改的许多形式,使用激励和特性响度值来例如确定实现希望的结果的一组增益值。因而,图4的响度参数确定器406通常导致被响度修改确定器407使用的激励和特性响度值。
可通过在频率带上对特性响度进行加和来计算以宋为单位表示的总体感知响度L:
图6示出MDCT域响度确定器的简化框图。从MDCT确定的功率谱PMDCT[k,t](例如,对于短块的情况,在块组合器403的块组合之后确定)开始,传送滤波器组(transmissionfilter bank)603和听觉滤波器组605分别实现滤波器|Cb(k)|2和|Cb(k)|2。激励确定器607确定对临界带b的激励。在一些实现中,还包括平滑化。得到的激励E[b,t]然后被输入到一组特性响度确定器609以确定特性响度值N[b,t]。
如果希望计算总体感知响度,则加和器611在所有的临界带上将特性响度值进行相加。
图7A和图7B示出从使用内插(图7A)和使用复制(图7B)从短块确定的长块获得的Dolby Digital数据的以宋为单位确定的总体感知响度的比较。从Dolby Digital编码器使用短块时的数据取得该数据。横轴示出在两个连续短块MDCT的交织(图7A)或第二短块MDCT的复制(图7B)之后从原短块测量的响度。纵轴示出对于音频信号的相同部分确定的感知响度,但是这里编码器使用长MDCT谱,例如如图5E所示。
两个示图中的对角线表示从短和长MDCT谱确定的感知响度相同的等同性。在图7A中,一些点处于等同线下方,指示出短MDCT交织方法导致略低的确定的感知响度。对于测量的所有信号,响度的暂时减小最多为15%。在图7B中,所有的点都接近等同线,指示出复制来自第二短MDCT的值与使用长MDCT几乎相同。
响度处理
现在在这里简短描述并且在WO 2004111994和WO 2006047600中更详细地描述可通过响度参数确定器406、响度修改确定器407和响度修改器413的组合实施的一些典型的响度修改。可能在感知响度域中执行的这种处理包含响度水平调节、增益控制、噪声补偿和/或动态均衡化或者这些处理的组合。每一个都包括从激励和特性响度值以及可能更多信息(例如,噪声补偿的情况下,噪声激励)确定可应用于一组频带(例如,要应用于频域中的信号的频率索引k)的一组时变增益。图8示出用于通过确定一组增益的增益求解器确定音频激励值和特性响度值使得特性响度保持接近目标特性响度的响度确定的组合的一个例子。这种处理被称为水平调节,并且在商业上被称为DOLBY VOLUME(杜比智能音量),它是杜比实验室特许公司的商标。从MDCT数据开始,元件803确定功率谱,并且,元件805组合滤波器组603和听觉滤波器组605的传送滤波。激励确定器607如图6那样。图8包括平滑化809。特性响度确定器811确定音频特性响度(音频SL)。修改功能813确定要用于水平调节的目标特性响度(目标SL)。增益求解器815被配置为计算要在各频率索引k中(或者在一些实施例中,对于各临界带b)应用的一组时变增益,并且使用目标特性响度和音频激励值。典型地,增益求解器815使用迭代方法来确定增益。当使用MDCT数据时,在WO 2004111994和WO2006047600以及WO 2007120452中提供细节。
增益内插器
现在,更详细地描述响度修改内插器409,例如作为一组增益来计算修改的情况下的增益内插器。由于感知响度处理假设较长的MDCT尺寸,因此感知响度处理输出一组增益-每个长MDCT谱值有一个增益。对于对短MDCT谱的应用,增益的该长块谱组太长并且需要被减小为每个短MDCT值有一个值。
一个实施例通过简单地将长增益去交织为多个短增益组来实施交织处理的相反处理。这是非常有效率的。但是,在诸如Dolby Digital之类的编码器中,MDCT谱之间的增益调整的差异会导致在IMDCT操作之后得到的PCM音频中的可听的不连续性。
本发明的一些实施例通过创建可用于形成长MDCT的组中的所有短MDCT谱的单组增益来改善这一点。
可以使用各种方法来从较长组创建单个较短增益谱。一些实施例使用增益值对之间的线性内插。图9通过简单的例子图示可应用于使用时域中的256的短块长度和512个时域采样的长块长度的感知编码数据(例如,Dolby Digital)的这种线性增益内插。较短MDCT谱的中心频率落在来自较长MDCT谱的各对中心频率之间。来自较大谱的增益的对可简单地被平均化以计算较短谱的增益值。
图10通过简单的例子图示可应用于使用256个时域采样的块长度和2048个时域采样的长块长度的感知编码数据(例如,MPEG-2/AAC和MPEG-4/AAC)的增益内插。较短MDCT谱的中心频率落在较长MDCT谱的每八个中心频率的中间。较短块频率单元的增益被计算为长块增益值的最接近的对的平均值。
在实施例的替代性组中,注意到存在八倍于短块谱带的长块谱带,短块的增益被计算为由处理的增益求解器部分确定的八个最接近的长块增益的平均值。
因而,如图4所示的完整处理包括确定要应用于频域数据的接受的块或其延迟形态的一组增益。增益确定使用感知响度参数。对于以从由频域数据的短块产生的长块所确定的长块尺寸确定的增益,该方法包括内插所确定的增益,以应用于短块尺寸的接受的数据块。
如图4所示的完整处理方法包括将确定的增益或内插的增益应用于接受的频域数据块,或者,如所示的那样应用于频域数据的延迟形态。
注意,虽然上述的增益内插器的增益内插步骤使用线性内插,但是,基于可用的计算能力,替代性实施例使用其它的内插方法,例如在一些实施例中使用二次或更高次多项式内插,或者在替代性实施例中使用样条内插。
图11示出包括处理系统1100的一个设备实施例的简化框图,所述处理系统1100在操作中被配置为实施在本文中描述的方法中的任一个。处理系统包括处理器,在这种情况下,包括中央处理单元(CPU)1103和存储器1105。CPU 1103和存储器1105通过总线结构1111耦合,为了简化,所述总线结构1111被示为单一总线。CPU包括高速缓存结构1109,该高速缓存结构1109包括一个或更多个高速缓存器。存储器包括程序逻辑1107,其例如是当被执行时使处理系统实施在本文中描述的方法实施例的指令。当然,处理系统包括若干更多的元件,并且,为了不使所示出的方面特别是被配置有指令1107的存储介质1105模糊,未在图11中示出这些更多的元件,其中,指令1107在被执行时使得进行音频数据的处理的方法,所述音频数据包括通过以多种块尺寸进行的变换(例如,重叠变换)确定的频域数据。在本文中所描述的方法包括接受多种块尺寸的频域音频数据块。对于比最长块尺寸短的一个或更多个块尺寸中的特定短块尺寸的接受的数据块,该方法包括组合所述特定短块尺寸的多个频域数据块以形成最长块尺寸的频域数据块。该方法还包括实施最长块尺寸的接受的块的感知响度处理。实施感知响度处理包括确定一个或更多个感知响度参数。
虽然对于从Dolby Digital和AAC编码数据产生的数据进行了描述,但是,本发明适用于在频域中呈现的任何数据,例如,由多种块尺寸的重叠变换确定的数据。因而,它适用于根据公开的已知标准或规范而编码呈现的音频数据,并且也适用于以特定的专有方式编码的数据。此外,编码器可以是以Dolby Digital为例子的变换编码器或以AAC为例子的混合编码器。
此外,虽然本文使用MDCT描述了实施例,但是,可用通过其它变换获得的变换数据实施本发明,所述其它变换例如是诸如DFT的重叠形态-短时DFT(STDFT)、重叠变换形式的离散正弦变换(DST)(其将是短时离散正弦变换)之类的其它重叠变换,或者变换到频域的任何变换
此外,可以在音频解码器装置中,或者,在与解码器耦合或者另外设置有频域数据的任何处理装置中嵌入本文描述的方法。
此外,本领域技术人员会理解,该方法可应用于包含通过以多种块尺寸进行变换(例如,重叠变换)来确定的频域数据的音频数据,其中,所述音频可以是单个音频数据信道或多个音频数据信道的音频。
虽然在本文中描述了感知编码,例如,在本文中以某种详细程度描述了诸如音量控制、AGC、动态范围控制、噪声补偿和/或动态均衡或其组合,但这决不意味着限制本发明所限于的信号处理的类型。本发明适用于对媒体数据的信号处理操作,所述媒体数据具有设置在通过变换(例如,重叠变换)而与时域数据相关的频域中的多种块尺寸。
注意,虽然以上的描述和专利申请公布WO 2004111994和WO 2006047600描述确定特性响度的一些方法,但是,也已知用于确定特性响度的其它方法。参见例如WO2007120453。
从以下的讨论可以清楚地看出,除非另外特别声明,否则,可以理解,在整个说明书中,利用诸如“处理”、“计算”、“算出”或“确定”等的术语的讨论指的是计算机或计算系统或者类似的电子计算装置的动作和/或处理,所述动作和/或处理将表示为诸如电子、量之类的物理量的数据操纵和/或变换成类似地表示为物理量的其它数据。
注意,当描述包括若干要素(例如,若干步骤)的方法时,除非特别声明,否则,不隐含这些要素的次序,例如,步骤的次序。
一些实施例包括配置有程序逻辑的计算机可读介质,例如,该计算机可读介质存储一组指令,当所述一组指令被至少一个处理器执行时使得实施本文中描述的方法的一组方法步骤。
本文中描述的方法在一些实施例中可被一个或更多个处理器执行,所述一个或更多个处理器接受计算机可执行(也称为机器可执行)的程序逻辑,例如,在一个或更多个计算机可读介质中实施(例如,编码或以其它方式存储或配置)的指令。这些指令在被处理器中的一个或更多个执行时实施本文中描述的方法中的至少一个。
术语“处理器”可指的是处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换成例如可存储于寄存器和/或存储器中的其它电子数据的任何装置或装置的一部分。包括能够执行规定要采取的动作的一组指令(顺序的或者另外的方式)的任何处理器。“计算机”或“计算机器”或“计算平台”可包括至少一个处理器。常见的例子包括微处理器、微控制器、将处理器与适用于常见信号处理任务的专用硬件组合起来的数字信号处理(DSP)装置、设计成芯片的计算核芯等。
处理系统的一个例子包括一个处理器或多于一个的处理器。各处理器可包括处理单元(CPU)、图形处理单元、算术处理系统、乘加(multiply-add)子系统和/或可编程DSP单元中的一个或更多个。处理系统还包括存储介质或子系统,或者单独的存储器子系统,以及还包括高速缓存存储器,所述存储介质或子系统可包括在半导体器件中嵌入的存储器,所述单独的存储器子系统包括主RAM和/或静态RAM和/或ROM。存储子系统还可包括一个或更多个其它的存储装置,诸如磁性和/或光学存储装置。可包括总线子系统以用于在部件之间通信。处理系统还可以是处理器与网络耦合的分布式处理系统。如果处理系统需要显示器,那么可包括例如液晶显示器(LCD)、等离子显示器、OLED显示器或阴极射线管(CRT)显示器等的这样的显示器。如果需要手动数据键入,那么处理系统也包括例如诸如键盘之类的数字字母输入单元和诸如鼠标之类的指示控制装置等中的一个或更多个之类的输入装置。如果从上下文可以清楚地看出并且除非另外明确声明,在本文中使用的术语存储装置、存储子系统等单元也包含诸如盘驱动单元或固态驱动器之类的存储装置。一些配置中的处理系统可包括声音输入装置、声音输出装置、视频输入装置和/或网络接口装置。
这样,存储子系统包括计算机可读介质,所述计算机可读介质被配置有例如包括指令的编码/存储的逻辑(例如,软件),所述指令在被执行时使得实施本文中描述的方法中的一个或更多个。在通过处理系统执行程序逻辑期间,程序逻辑可驻留于硬盘中,或者也可完全或至少部分地驻留于RAM内和/或处理器内。因而,存储器和处理器也构成其上编码有程序逻辑(例如,具有指令形式)的计算机可读介质。
此外,计算机可读介质可形成计算机程序产品或被包括于其中。
在替代性实施例中,所述一个或更多个处理器作为单独的装置操作,或者,可在联网部署中连接到(例如,联网到)一个或多个其它处理器,所述一个或更多个处理器可在服务器-客户机网络环境中以服务器或客户机的身份操作,或者在对等式或分布式网络环境中作为对等机器操作。所述一个或更多个处理器可形成个人计算机(PC)、台式PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝式电话、网络设备、网络路由器、交换机或桥,或者能够执行规定要由该机器采取的动作的一组指令(顺序的或另外的方式)的任何机器。
注意,虽然某些图仅示出承载包括指令的逻辑的单个处理器和单个存储器,但是,本领域技术人员将理解,包括许多以上描述的部件,但是为了不使本发明的方面模糊而没有明确示出或描述这些部件。例如,虽然仅图示单个机器,但是,术语“机器”也应被认为包括各自地或共同地执行一组(或多组)指令以执行本文中讨论的方法中的任何一个或更多个的机器的任何集合。
这样,在本文中描述的方法中的每一个的一个实施例具有被配置有一组指令的计算机可读介质的形式,所述一组指令例如是用于在一个或更多个处理器上执行的计算机程序,所述一个或更多个处理器例如是作为信号处理设备的一部分的一个或更多个处理器。因而,如本领域技术人员将理解的,本发明的实施例可被实施为方法、诸如专用设备之类的设备、诸如数据处理系统之类的设备或计算机可读介质,例如被配置有可执行指令的计算机程序产品。本发明的一些实施例也可具有逻辑的形式,所述逻辑在被一个或更多个处理器执行时使得实施本文中描述的方法中的任何一个或更多个。因此,本发明的方面可采取方法、完全硬件实施例、完全软件实施例或组合软件和硬件方面的实施例的形式。此外,本发明可采取例如计算机可读介质中的程序逻辑(例如,计算机可读存储介质上的计算机程序)或者被配置有计算机可读程序代码的计算机可读介质(例如,计算机程序产品)的形式。
虽然计算机可读介质在示例性实施例中被示为单个介质,但是,术语“介质”应被认为包括存储一组或更多组指令的单个介质或多个介质(例如,若干个存储器、中央式或分布式数据库和/或相关联的高速缓存器和服务器)。计算机可读介质可采取许多形式,包括但不限于非易失性介质和易失性介质。非易失性介质包括例如光盘、磁盘和磁光盘。易失性介质包括诸如主存储器之类的动态存储器。
还将理解,本发明的实施例不限于任何特定的实现或编程技术,并且,可使用用于实现在本文中描述的功能的任何适当的技术来实现本发明。此外,实施例不限于任何特定的编程语言或操作系统。
在整个本说明书中对“一个实施例”或“实施例”的提及意味着与该实施例相关地描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此,在整个本说明书的各处出现短语“在一个实施例中”或“在实施例中”未必都指的是同一实施例,而是可以。此外,如本领域技术人员将从本公开容易想到的那样,在一个或更多个实施例中,所述特定特征、结构或特性可以以任何适当的方式被组合。
类似地,应当理解,在本发明的示例性实施例的以上的描述中,出于公开的流畅以及帮助理解各种发明方面中的一个或更多个的目的,本发明的各种特征有时被聚集在单个实施例、图或其描述中。但是,公开的该方法不应被解释为反映要求权利的发明需要比在各权利要求中明确记载的特征更多的特征的意图。而是,如以下的权利要求反映的那样,本发明的方面在于少于单个前述公开的实施例的所有特征。因此,“具体实施方式”之后的权利要求在此被明确并入到此“具体实施方式”中,使得各权利要求作为本发明的单独的实施例而自成一体。
此外,如本领域技术人员将理解的,虽然本文中描述的一些实施例包括一些特征但不包括包含于其它实施例中的其它特征,但是,不同的实施例的特征的组合意味着处于本发明的范围内,并且形成不同的实施例。例如,在以下的权利要求中,可以以任何组合来使用要求权利的实施例中的任何实施例。
此外,实施例中的一些在本文中被描述为可通过计算机系统的处理器或通过实施功能的其它装置实现的方法或方法要素的组合。因而,具有用于实施这种方法或方法要素所必要的指令的处理器形成用于实施该方法或方法要素的装置。此外,设备实施例的在本文中描述的元件是用于实施出于实施本发明的目的由该元件执行的功能的装置的例子。
在本文中提供的描述中,阐述了大量的特定细节。但是,应理解,可以在没有这些特定细节的情况下实施本发明的实施例。在其它的情况中,为了不使对本描述的理解模糊,公知的方法、结构和技术没有被详细示出。
如本文中使用的那样,除非另外规定,否则,使用次序形容词“第一”、“第二”、“第三”等以描述一般对象仅表明提到了类似对象的不同实例,并且不是意图暗示这样描述的对象必须在时间上、空间上、等级上或以任何其它方式处于给定的顺序。
本说明书中的对现有技术的任何讨论决不应被认为是承认这种现有技术是公知的、广泛已知的或者形成本领域中的一般常识的一部分。
在以下的权利要求和本文中的描述中,术语“包含”是意味着至少包括所跟随的要素/特征但不排除其它要素/特征的开放术语。因而,术语“包含”在用于权利要求中时不应被解释为限于其后列出的装置或元件或步骤。例如,表达方式“包含A和B的装置”的范围不应限于仅由元件A和B构成的装置。在本文中使用的术语“包括”也是意味着至少包括跟随该术语的要素/特征但不排除其它要素/特征的开放术语。因而,“包括”与“包含”同义并且意味着“包含”。
类似地,应当注意,术语“耦合”在用于权利要求中时不应被解释为限于仅直接连接。可能使用术语“耦合”和“连接”连同它们的衍生语。应当理解,这些术语不意图作为彼此的同义词。因而,表达方式“与装置B耦合的装置A”的范围不应限于其中装置A的输出直接与装置B的输入连接的装置或系统。它意味着在A的输出和B的输入之间存在路径,该路径可以是包括其它装置或手段的路径。“耦合”可意味着两个或更多个元件直接物理接触或电接触,或者,两个或更多个元件彼此不直接接触但是仍然彼此协作或交互作用。
这样,虽然已描述了被相信是本发明的优选实施例的实施例,但是,本领域技术人员将意识到,在不背离本发明的实质的情况下,可以对这些实施例做出其它的和进一步的修改,并且意图要求对落入本发明的范围内的这些变化和修改的权利。例如,以上给出的任何公式仅是可使用的过程的代表。可以添加或从框图删除功能,并且,可在功能块之间互换操作。对于在本发明的范围内描述的方法,可以添加或删除步骤。
Claims (33)
1.一种使用信号处理装置来确定音频信号的感知响度的方法,该方法包含:
将频域音频数据的块接受到所述信号处理装置中,所述频域音频数据是通过对音频信号的对应的时间采样块进行变换得到的,所述块包括至少两个不同块尺寸的块,所述至少两个不同块尺寸包括最小块尺寸和最长块尺寸,各个接受的块尺寸为所述最小块尺寸或者所述最小块尺寸的大于2的相应整数倍大,其中最长块尺寸是所接受的块的所有块尺寸之中最长的;
对于短于最长块尺寸的各个块尺寸,所述信号处理装置组合具有相应的块尺寸的多个接受的块以形成频域信息的相应形成的最长块尺寸的块;以及
所述信号处理装置确定或接受所接受的块或其延迟形态的一个或更多个感知响度参数,各参数在与最长块尺寸对应的频率分辨率处包含用于临界频带组中的每一个的相应的参数值,所述一个或更多个感知响度参数包括临界带功率谱以及/或者针对所述临界频带组的所接受的块或其延迟形态的特性响度。
2.如权利要求1所述的方法,还包括:
使用与最长块尺寸对应的频率分辨率处的一个或更多个感知响度参数,由信号处理装置确定能够应用于对应的频率分辨率处的频域信息的至少一个感知响度修改,
对于接受的最长块尺寸之外的各个块尺寸的数据,内插所确定的应用于具有所述各个块尺寸的接受的数据块或延迟的接受的数据块的至少一个响度修改,以及
将所确定的至少一个响度修改或至少一个内插的响度修改应用于所接受的频域数据块或者其延迟形态。
3.如权利要求2所述的方法,其中,针对短于最长块尺寸的各个块尺寸的组合包括:
交织相应的短块尺寸的频域数据,以及/或者,
复制相应的短块尺寸的频域数据的值,以及/或者,
在相应短块尺寸的频域数据的值之间进行内插,以及/或者,
对于最长块尺寸是特定块尺寸的大于2的特定整数倍的特定块尺寸,使用交织来组合向着这些块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组以形成中间尺寸块的频域数据,以及通过复制或交织而将中间尺寸块的频域数据与不具有高于所述预定阈值的能量的这些频域数据块进行组合以创建最长块尺寸的频域数据。
4.如权利要求2或3所述的方法,还包括:延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。
5.如权利要求2或3所述的方法,其中,各个所确定的响度修改包括对应的一组增益,其中,所述内插确定内插的增益,并且其中,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益或一组内插的增益。
6.如权利要求2或3所述的方法,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度,并且其中,实施所述感知响度处理包括响度水平调节、增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
7.如权利要求2或3所述的方法,其中,所述变换是被应用到重叠的时间样本块的重叠变换。
8.如权利要求7所述的方法,其中,所述变换是短时离散傅立叶变换、短时离散正弦变换、或者变型离散余弦变换。
9.如权利要求2或3所述的方法,其中,所述数据来自编码音频数据,所述编码音频数据通过使用多于一种块尺寸的感知编码器被编码。
10.如权利要求9所述的方法,其中,所述数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
11.如权利要求9所述的方法,其中,所接受的频域数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码器被编码。
12.一种用于确定音频信号的感知响度的装置,该装置包含:
用于将频域音频数据的块接受到所述装置中的部件,所述频域音频数据是通过对音频信号的对应的时间采样块进行变换得到的,所述块包括至少两个不同块尺寸的块,所述至少两个不同块尺寸包括最小块尺寸和最长块尺寸,各个接受的块尺寸为所述最小块尺寸或者所述最小块尺寸的大于2的相应整数倍大,其中最长块尺寸是所接受的块的所有块尺寸之中最长的;
用于对于短于最长块尺寸的各个块尺寸进行组合的部件,组合具有相应的块尺寸的多个接受的块以形成频域信息的相应形成的最长块尺寸的块;以及
用于确定或接受所接受的块或其延迟形态的一个或更多个感知响度参数的部件,各参数在与最长块尺寸对应的频率分辨率处包含用于临界频带组中的每一个的相应的参数值,所述一个或更多个感知响度参数包括临界带功率谱以及/或者针对所述临界频带组的所接受的块或其延迟形态的特性响度。
13.如权利要求12所述的装置,还包括:
用于确定能够应用于对应的频率分辨率处的频域信息的至少一个感知响度修改的部件,该用于确定所述至少一个感知响度修改的部件使用与最长块尺寸对应的频率分辨率处的一个或更多个感知响度参数,
用于对于接受的最长块尺寸之外的各个块尺寸的数据,内插所确定的应用于具有所述各个块尺寸的接受的数据块或延迟的接受的数据块的至少一个响度修改的部件,以及
用于将所确定的至少一个响度修改或至少一个内插的响度修改应用于所接受的频域数据块或者其延迟形态的部件。
14.如权利要求13所述的装置,其中,用于对于短于最长块尺寸的各个块尺寸进行组合的部件能够操作用于:
交织相应的短块尺寸的频域数据,以及/或者,
复制相应的短块尺寸的频域数据的值,以及/或者,
在相应短块尺寸的频域数据的值之间进行内插,以及/或者,
对于最长块尺寸是特定块尺寸的大于2的特定整数倍的特定块尺寸,使用交织来组合向着这些块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组以形成中间尺寸块的频域数据,以及通过复制或交织而将中间尺寸块的频域数据与不具有高于所述预定阈值的能量的这些频域数据块进行组合以创建最长块尺寸的频域数据。
15.如权利要求13或14所述的装置,还包括:
用于延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态的部件。
16.如权利要求13或14所述的装置,其中,各个所确定的响度修改包括对应的一组增益,其中,所述用于内插的部件确定内插的增益,并且其中,用于应用所确定的至少一个响度修改或内插的响度修改的部件应用所述一组增益或一组内插的增益。
17.如权利要求13或14所述的装置,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度,并且其中,实施所述感知响度处理包括响度水平调节、增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
18.如权利要求13或14所述的装置,其中,所述变换是被应用到重叠的时间样本块的重叠变换。
19.如权利要求18所述的装置,其中,所述变换是短时离散傅立叶变换、短时离散正弦变换、或者变型离散余弦变换。
20.如权利要求13或14所述的装置,其中,所述数据来自编码音频数据,所述编码音频数据通过使用多于一种块尺寸的感知编码器被编码。
21.如权利要求20所述的装置,其中,所述数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
22.如权利要求20所述的装置,其中,所接受的频域数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码器被编码。
23.一种用于确定音频信号的感知响度的装置,该装置包含:
包括一个或更多个处理器和存储器的处理引擎,被配置为执行包含下列内容的方法:
将频域音频数据的块接受到所述装置中,所述频域音频数据是通过对音频信号的对应的时间采样块进行变换得到的,所述块包括至少两个不同块尺寸的块,所述至少两个不同块尺寸包括最小块尺寸和最长块尺寸,各个接受的块尺寸为所述最小块尺寸或者所述最小块尺寸的大于2的相应整数倍大,其中最长块尺寸是所接受的块的所有块尺寸之中最长的;
对于短于最长块尺寸的各个块尺寸,组合具有相应的块尺寸的多个接受的块以形成频域信息的相应形成的最长块尺寸的块;以及
确定或接受所接受的块或其延迟形态的一个或更多个感知响度参数,各参数在与最长块尺寸对应的频率分辨率处包含用于临界频带组中的每一个的相应的参数值,所述一个或更多个感知响度参数包括临界带功率谱以及/或者针对所述临界频带组的所接受的块或其延迟形态的特性响度;
确定能够应用于与最长块尺寸对应的频率分辨率处的频域信息的至少一个感知响度修改,该确定使用与最长块尺寸对应的频率分辨率处的一个或更多个感知响度参数;
对于接受的最长块尺寸之外的各个块尺寸的数据,内插所确定的应用于具有所述各个块尺寸的接受的数据块或延迟的接受的数据块的至少一个响度修改,以及
将所确定的至少一个响度修改或至少一个内插的响度修改应用于所接受的频域数据块或者其延迟形态。
24.如权利要求23所述的装置,还包含:
使用与最长块尺寸对应的频率分辨率处的一个或更多个感知响度参数,由所述装置确定能够应用于对应的频率分辨率处的频域信息的至少一个感知响度修改,
对于接受的最长块尺寸之外的各个块尺寸的数据,内插所确定的应用于具有所述各个块尺寸的接受的数据块或延迟的接受的数据块的至少一个响度修改,以及
将所确定的至少一个响度修改或至少一个内插的响度修改应用于所接受的频域数据块。
25.如权利要求24所述的装置,其中,对于短于最长块尺寸的各个块尺寸进行组合包括:
交织相应的短块尺寸的频域数据,以及/或者,
复制相应的短块尺寸的频域数据的值,以及/或者,
在相应短块尺寸的频域数据的值之间进行内插,以及/或者,
对于最长块尺寸是特定块尺寸的大于2的特定整数倍的特定块尺寸,使用交织来组合向着这些块的末尾出现并且具有高于预定阈值的总体能量的连续块的频域数据子组以形成中间尺寸块的频域数据,以及通过复制或交织而将中间尺寸块的频域数据与不具有高于所述预定阈值的能量的这些频域数据块进行组合以创建最长块尺寸的频域数据。
26.如权利要求24或25所述的装置,其中所述方法还包括:延迟频域音频数据块,使得所述至少一个响度修改或内插的修改被应用于频域数据块的延迟形态。
27.如权利要求24或25所述的装置,其中,各个所确定的响度修改包括对应的一组增益,其中,所述内插确定内插的增益,并且其中,应用所确定的至少一个响度修改或内插的响度修改包括应用所述一组增益或一组内插的增益。
28.如权利要求24或25所述的装置,其中,所述一个或更多个感知响度参数包括音频数据的激励和音频数据的特性响度,并且其中,实施所述感知响度处理包括响度水平调节、增益控制、噪声补偿和/或动态均衡化中的一个或更多个。
29.如权利要求24或25所述的装置,其中,所述变换是被应用到重叠的时间样本块的重叠变换。
30.如权利要求29所述的装置,其中,所述变换是短时离散傅立叶变换、短时离散正弦变换、或者变型离散余弦变换。
31.如权利要求24或25所述的装置,其中,所述数据来自编码音频数据,所述编码音频数据通过使用多于一种块尺寸的感知编码器被编码。
32.如权利要求31所述的装置,其中,所述数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和512个时域采样的长块尺寸的感知编码器被编码。
33.如权利要求31所述的装置,其中,所接受的频域数据来自编码音频数据,所述编码音频数据通过使用256个时域采样的短块尺寸和2048个时域采样的长块尺寸的感知编码器被编码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14079108P | 2008-12-24 | 2008-12-24 | |
US61/140,791 | 2008-12-24 | ||
CN200980151996.3A CN102265513B (zh) | 2008-12-24 | 2009-12-22 | 频域中的音频信号响度确定和修改 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980151996.3A Division CN102265513B (zh) | 2008-12-24 | 2009-12-22 | 频域中的音频信号响度确定和修改 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104378075A CN104378075A (zh) | 2015-02-25 |
CN104378075B true CN104378075B (zh) | 2017-05-31 |
Family
ID=41693219
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410743139.5A Active CN104378075B (zh) | 2008-12-24 | 2009-12-22 | 频域中的音频信号响度确定和修改 |
CN200980151996.3A Active CN102265513B (zh) | 2008-12-24 | 2009-12-22 | 频域中的音频信号响度确定和修改 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980151996.3A Active CN102265513B (zh) | 2008-12-24 | 2009-12-22 | 频域中的音频信号响度确定和修改 |
Country Status (7)
Country | Link |
---|---|
US (2) | US8892426B2 (zh) |
EP (1) | EP2374211B1 (zh) |
JP (1) | JP5270006B2 (zh) |
CN (2) | CN104378075B (zh) |
AT (1) | ATE552651T1 (zh) |
HK (1) | HK1205372A1 (zh) |
WO (1) | WO2010075377A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8700410B2 (en) * | 2009-06-18 | 2014-04-15 | Texas Instruments Incorporated | Method and system for lossless value-location encoding |
US8437480B2 (en) * | 2009-12-17 | 2013-05-07 | Stmicroelectronics Asia Pacific Pte Ltd. | Adaptive loudness levelling for digital audio signals |
WO2012146757A1 (en) | 2011-04-28 | 2012-11-01 | Dolby International Ab | Efficient content classification and loudness estimation |
US20140278911A1 (en) * | 2013-03-15 | 2014-09-18 | Telemetry Limited | Method and apparatus for determining digital media audibility |
CN107093991B (zh) * | 2013-03-26 | 2020-10-09 | 杜比实验室特许公司 | 基于目标响度的响度归一化方法和设备 |
CN114566183A (zh) * | 2013-04-05 | 2022-05-31 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
US9608588B2 (en) * | 2014-01-22 | 2017-03-28 | Apple Inc. | Dynamic range control with large look-ahead |
TWI833562B (zh) | 2014-03-24 | 2024-02-21 | 瑞典商杜比國際公司 | 應用動態範圍壓縮至高階保真立體音響信號之方法和裝置 |
US9462381B2 (en) * | 2014-05-28 | 2016-10-04 | Apple Inc. | Intelligent dynamics processing |
US10013992B2 (en) | 2014-07-11 | 2018-07-03 | Arizona Board Of Regents On Behalf Of Arizona State University | Fast computation of excitation pattern, auditory pattern and loudness |
CN106157978B (zh) * | 2015-04-15 | 2020-04-07 | 宏碁股份有限公司 | 语音信号处理装置及语音信号处理方法 |
US10374564B2 (en) * | 2017-04-20 | 2019-08-06 | Dts, Inc. | Loudness control with noise detection and loudness drop detection |
US11856385B2 (en) * | 2019-02-13 | 2023-12-26 | MOZZAIK IO d.o.o. | Audio signal processing method and device |
CN112040373B (zh) * | 2020-11-02 | 2021-04-23 | 统信软件技术有限公司 | 一种音频数据处理方法、计算设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101161033A (zh) * | 2005-04-13 | 2008-04-09 | 杜比实验室特许公司 | 编码音频的节约式响度测量 |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4460871A (en) * | 1979-08-06 | 1984-07-17 | Orban Associates, Inc. | Multiband cross-coupled compressor with overshoot protection circuit |
DE3943879B4 (de) * | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
US5235623A (en) * | 1989-11-14 | 1993-08-10 | Nec Corporation | Adaptive transform coding by selecting optimum block lengths according to variatons between successive blocks |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
US5291557A (en) | 1992-10-13 | 1994-03-01 | Dolby Laboratories Licensing Corporation | Adaptive rematrixing of matrixed audio signals |
JP3186307B2 (ja) * | 1993-03-09 | 2001-07-11 | ソニー株式会社 | 圧縮データ記録装置及び方法 |
US5434922A (en) * | 1993-04-08 | 1995-07-18 | Miller; Thomas E. | Method and apparatus for dynamic sound optimization |
US5682463A (en) | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
US5699479A (en) | 1995-02-06 | 1997-12-16 | Lucent Technologies Inc. | Tonality for perceptual audio compression based on loudness uncertainty |
JPH08223049A (ja) | 1995-02-14 | 1996-08-30 | Sony Corp | 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法 |
FI950917A (fi) * | 1995-02-28 | 1996-08-29 | Nokia Telecommunications Oy | Puhekoodausparametrien käsittely tietoliikennejärjestelmässä |
ATE192259T1 (de) * | 1995-11-09 | 2000-05-15 | Nokia Mobile Phones Ltd | Verfahren zur synthetisierung eines sprachsignalblocks in einem celp-kodierer |
SG54379A1 (en) * | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
US6092040A (en) | 1997-11-21 | 2000-07-18 | Voran; Stephen | Audio signal time offset estimation algorithm and measuring normalizing block algorithms for the perceptually-consistent comparison of speech signals |
US6029126A (en) * | 1998-06-30 | 2000-02-22 | Microsoft Corporation | Scalable audio coder and decoder |
US6122619A (en) * | 1998-06-17 | 2000-09-19 | Lsi Logic Corporation | Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor |
JP3739959B2 (ja) * | 1999-03-23 | 2006-01-25 | 株式会社リコー | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
WO2000065872A1 (en) * | 1999-04-26 | 2000-11-02 | Dspfactory Ltd. | Loudness normalization control for a digital hearing aid |
US7146313B2 (en) * | 2001-12-14 | 2006-12-05 | Microsoft Corporation | Techniques for measurement of perceptual audio quality |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7027982B2 (en) * | 2001-12-14 | 2006-04-11 | Microsoft Corporation | Quality and rate control strategy for digital audio |
WO2003065353A1 (en) * | 2002-01-30 | 2003-08-07 | Matsushita Electric Industrial Co., Ltd. | Audio encoding and decoding device and methods thereof |
US20030223597A1 (en) | 2002-05-29 | 2003-12-04 | Sunil Puria | Adapative noise compensation for dynamic signal enhancement |
US7039204B2 (en) * | 2002-06-24 | 2006-05-02 | Agere Systems Inc. | Equalization for audio mixing |
KR100467020B1 (ko) | 2002-07-26 | 2005-01-24 | 삼성전자주식회사 | 자기 정렬된 접합영역 콘택홀을 갖는 반도체 장치 및 그제조 방법 |
DE10234130B3 (de) * | 2002-07-26 | 2004-02-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
BRPI0410740A (pt) | 2003-05-28 | 2006-06-27 | Dolby Lab Licensing Corp | método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio |
US7471726B2 (en) * | 2003-07-15 | 2008-12-30 | Microsoft Corporation | Spatial-domain lapped transform in digital media compression |
US20050038579A1 (en) | 2003-08-15 | 2005-02-17 | Lewis Michael W. | Interactive maintenance management alarm handling |
US7912226B1 (en) * | 2003-09-12 | 2011-03-22 | The Directv Group, Inc. | Automatic measurement of audio presence and level by direct processing of an MPEG data stream |
US7639823B2 (en) | 2004-03-03 | 2009-12-29 | Agere Systems Inc. | Audio mixing using magnitude equalization |
JP2008504783A (ja) * | 2004-06-30 | 2008-02-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声信号のラウドネスを自動的に調整する方法及びシステム |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
EP1833163B1 (en) | 2004-07-20 | 2019-12-18 | Harman Becker Automotive Systems GmbH | Audio enhancement system and method |
JP4594681B2 (ja) | 2004-09-08 | 2010-12-08 | ソニー株式会社 | 音声信号処理装置および音声信号処理方法 |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
US7924711B2 (en) * | 2004-10-20 | 2011-04-12 | Qualcomm Incorporated | Method and apparatus to adaptively manage end-to-end voice over internet protocol (VolP) media latency |
CA2581810C (en) * | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
EP1816891A1 (en) * | 2004-11-10 | 2007-08-08 | Hiroshi Sekiguchi | Sound electronic circuit and method for adjusting sound level thereof |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
FR2882458A1 (fr) * | 2005-02-18 | 2006-08-25 | France Telecom | Procede de mesure de la gene due au bruit dans un signal audio |
US8290181B2 (en) | 2005-03-19 | 2012-10-16 | Microsoft Corporation | Automatic audio gain control for concurrent capture applications |
EP1720249B1 (en) | 2005-05-04 | 2009-07-15 | Harman Becker Automotive Systems GmbH | Audio enhancement system and method |
US20070007942A1 (en) | 2005-07-08 | 2007-01-11 | Microchip Technology Incorporated | Automatic non-linear phase response calibration and compensation for a power measurement device |
US7546240B2 (en) * | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
US20070121966A1 (en) * | 2005-11-30 | 2007-05-31 | Microsoft Corporation | Volume normalization device |
US7953604B2 (en) * | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US7715571B2 (en) * | 2006-03-23 | 2010-05-11 | Phonak Ag | Method for individually fitting a hearing instrument |
WO2007113275A1 (en) * | 2006-04-03 | 2007-10-11 | Thomson Licensing | Method and device for coding video levels in a plasma display panel |
EP2002426B1 (en) | 2006-04-04 | 2009-09-02 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the mdct domain |
TWI517562B (zh) * | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
PL2002429T3 (pl) | 2006-04-04 | 2013-03-29 | Dolby Laboratories Licensing Corp | Kontrola słyszalnej charakterystyki głośności sygnału audio |
DE602007011594D1 (de) | 2006-04-27 | 2011-02-10 | Dolby Lab Licensing Corp | Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke |
TWI312982B (en) * | 2006-05-22 | 2009-08-01 | Nat Cheng Kung Universit | Audio signal segmentation algorithm |
CN101155438B (zh) | 2006-09-26 | 2011-12-28 | 张秀丽 | 音频设备的频率响应自适应均衡方法 |
JP4590389B2 (ja) | 2006-11-30 | 2010-12-01 | 本田技研工業株式会社 | 能動型振動騒音制御装置 |
EP2320683B1 (en) * | 2007-04-25 | 2017-09-06 | Harman Becker Automotive Systems GmbH | Sound tuning method and apparatus |
US8103008B2 (en) * | 2007-04-26 | 2012-01-24 | Microsoft Corporation | Loudness-based compensation for background noise |
ATE470931T1 (de) * | 2007-10-11 | 2010-06-15 | Koninkl Kpn Nv | Verfahren und system zur messung der sprachverständlichkeit eines tonübertragungssystems |
EP2232700B1 (en) * | 2007-12-21 | 2014-08-13 | Dts Llc | System for adjusting perceived loudness of audio signals |
US8447591B2 (en) * | 2008-05-30 | 2013-05-21 | Microsoft Corporation | Factorization of overlapping tranforms into two block transforms |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
EP2372705A1 (en) * | 2010-03-24 | 2011-10-05 | Thomson Licensing | Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined |
-
2009
- 2009-12-22 WO PCT/US2009/069178 patent/WO2010075377A1/en active Application Filing
- 2009-12-22 AT AT09802082T patent/ATE552651T1/de active
- 2009-12-22 CN CN201410743139.5A patent/CN104378075B/zh active Active
- 2009-12-22 CN CN200980151996.3A patent/CN102265513B/zh active Active
- 2009-12-22 JP JP2011543637A patent/JP5270006B2/ja active Active
- 2009-12-22 EP EP09802082A patent/EP2374211B1/en active Active
-
2011
- 2011-06-23 US US13/167,593 patent/US8892426B2/en active Active
-
2014
- 2014-10-19 US US14/517,875 patent/US9306524B2/en active Active
-
2015
- 2015-06-16 HK HK15105731.6A patent/HK1205372A1/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101161033A (zh) * | 2005-04-13 | 2008-04-09 | 杜比实验室特许公司 | 编码音频的节约式响度测量 |
Non-Patent Citations (1)
Title |
---|
Transcoding of dynamic range control coefficients and other Metadata into MPEG-4 HE AAC;Wolfgang Schildbach等;《Audio Engineering Society E-Library》;20071008;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN102265513B (zh) | 2014-12-31 |
US20110257982A1 (en) | 2011-10-20 |
US9306524B2 (en) | 2016-04-05 |
CN104378075A (zh) | 2015-02-25 |
CN102265513A (zh) | 2011-11-30 |
EP2374211B1 (en) | 2012-04-04 |
JP2012513729A (ja) | 2012-06-14 |
JP5270006B2 (ja) | 2013-08-21 |
HK1205372A1 (zh) | 2015-12-11 |
US8892426B2 (en) | 2014-11-18 |
WO2010075377A1 (en) | 2010-07-01 |
EP2374211A1 (en) | 2011-10-12 |
US20150106083A1 (en) | 2015-04-16 |
ATE552651T1 (de) | 2012-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104378075B (zh) | 频域中的音频信号响度确定和修改 | |
JP5185254B2 (ja) | Mdct領域におけるオーディオ信号音量測定と改良 | |
EP2786377B1 (en) | Chroma extraction from an audio codec | |
TWI426503B (zh) | 用以使用頻疊切換方案將音訊信號編碼/解碼的裝置與方法 | |
NO20170988A1 (no) | Analysefilterbank, syntesefilterbank, koder, dekoder, blander og konferansesystem | |
KR101792712B1 (ko) | 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조 | |
EP2959482A1 (en) | Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap | |
CN101161033A (zh) | 编码音频的节约式响度测量 | |
CN107527628A (zh) | 用于在音频信号解码器中进行频带扩展的优化缩放因子 | |
RU2616863C2 (ru) | Сигнальный процессор, формирователь окон, кодированный медиа-сигнал, способ обработки сигнала и способ формирования окон | |
CN102855876B (zh) | 音频编码器和音频编码方法 | |
CN108022599A (zh) | 音频信号解码器中改进的频带扩展 | |
Nematollahi et al. | Digital speech watermarking based on linear predictive analysis and singular value decomposition | |
Milivojević et al. | Estimation of the fundamental frequency of the speech signal compressed by mp3 algorithm | |
Helmrich | Efficient Perceptual Audio Coding Using Cosine and Sine Modulated Lapped Transforms | |
Helmrich et al. | Signal-adaptive switching of overlap ratio in audio transform coding | |
Schuller et al. | Psycho-Acoustic Pre-filter | |
Chen et al. | Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec | |
Bazyar et al. | A New MPEG Layer III Steganography Technique By Changing Quantized Spectrum Values | |
Schuijers et al. | Progress on parametric coding for high quality audio | |
Dalal | A Real-time AAC-type Audio Codec on the 16-bit dsPIC Architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1205372 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1205372 Country of ref document: HK |