CN101467203A - 先进音频编码装置 - Google Patents

先进音频编码装置 Download PDF

Info

Publication number
CN101467203A
CN101467203A CNA2006800549760A CN200680054976A CN101467203A CN 101467203 A CN101467203 A CN 101467203A CN A2006800549760 A CNA2006800549760 A CN A2006800549760A CN 200680054976 A CN200680054976 A CN 200680054976A CN 101467203 A CN101467203 A CN 101467203A
Authority
CN
China
Prior art keywords
data
frequency
frequency range
digital audio
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800549760A
Other languages
English (en)
Inventor
伊万·蒂姆科维奇
吉安·卡罗·帕斯库托
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nero AG
Original Assignee
Nero AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nero AG filed Critical Nero AG
Publication of CN101467203A publication Critical patent/CN101467203A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Abstract

一种以降低的比特率编码数字音频数据的方法及装置,该装置包含提供器,提供具有高于该降低的比特率的比特率的心理听觉量化数字音频数据。该装置进一步包含识别器,可根据选择准则来识别频段,该选择准使得:当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据的影响。该装置进一步包含置换器,用于以噪声综合参数取代数字音频数据的识别频段中的数据,该噪声综合参数需要比该识别频段中的数据要少的数据量,该数字音频数据具有降低的比特率。

Description

先进音频编码装置
技术领域
本发明涉及使用如先进音频编码的耗损压缩算法达成低比特率,编码数字音频数据并保持高音频数据质量的领域。
背景技术
如MPEG-4 AAC(MPEG=运动图像专家群组,AAC=先进音频编码)或MP3(MPEG层3)的感知数字音频压缩原理造就现代数字生活方式。典型地,目前技术水平的音频压缩系统系使用时间-频率变换函数,如修正离散余弦变换(MDCT),可分割由多个频谱系数形成的频段中的信号,及以适当量化算法量化这些被分组的系数,随后以如Huffman编码的若干熵编码方法来先进编码这些系数。
该修正离散余弦变换为具有附加重迭特性的富利叶相关变换,也就是其被设计于在较大数据组的连续块上执行,其中连续块是重迭的,使得一块的后半部分与下一块的前半部分重合。除了离散余弦变换的能量压缩质量之外,因为此重迭有助于避免块边界所产生的假像(artifact),所以其亦使该修正离散余弦变换对于信号压缩应用尤其具有吸引力。因此,修正离散余弦变换被运用于如MP3及先进音频编码中。
不幸地,在非常低比特率、也就是高压缩的要求下,编码系统无选择地只有关闭频段,也就是以静音取代它们。此方法被用来满足编解码器的编码需求。此产生频谱上的洞,其特别恼人,且其为音频编码假像的最大贡献者。
图8显示典型目前技术水平音频编码器,用于被PCM(脉冲编码调制)编码并输入至滤波器组810和感知模型815的输入信号。该输入信号由滤波器组810从时域变换至频域,其通常以如修正离散余弦变换的公知信号变换函数为基础。该滤波器组的输出为频率系数。
该信号同时被感知模型815评估,该感知模型通过对人类听觉系统进行数学建模来评估该输入信号,并输出如以信号掩蔽比(SMR)为单位的表示该输入信号能量对正好察觉失真或噪声能量的正好察觉失真(JND)测量。
图8所示目前技术水平编码器中的感知模型块815及剩余块,通过对被称作定标因子频段中的频率系数进行分组,来处理与人类听觉系统临界频宽成比例的滤波器组块810的输出。T.Painter及A.Spanias于2000年4月,IEEE会议记录第451-513页“Perceptual Coding of DigitalAudio”中可找到感知模型的良好摘要。
可通过频率系数的量化来满足目标压缩要求。量化之前,该系数由所谓的定标因子来定标,以决定该量化处理的最终精确度。比特/噪声分配块820负责估测或计算该定标因子,以重建该量化值,从而产生刚好低于感知模型所估测的掩蔽阈值的量化噪声。特定情况下,感知模型815标示特定频段为噪声状,且可通过解码器侧上的特定能量产生噪声而建模。针对这些频段,无需决定定标因子或频率系数,而替代地插入解码器侧的噪声发生器的参数。因为噪声发生器的参数较定标因子及频率系数占据较少量数据,所以可通过将所产生的噪声取代频段来节省数据率。该取代对解码音频数据质量的影响被保持在由感知模型所决定的边界中。例如,将被取代的频段一定不超过特定的音调阈值,其亦不包含任何瞬变信号。决定噪声替代的阈值视感知模型而定。例如,ISO/IEC 14496中描述了作为先进音频编码的特征的感知噪声替代。
用于若干感知编解码器中的先进编码方法,被称作感知噪声替代(PNS),其良好摘要可在Herrer,Jurgen,Schultes,Donald于AES文献4720的“Extending the MPEG-4 AAC Codec by Perceptual NoiseSubstitution”中找到。
图8中的比特分配块820之后,量化块825中进行量化,产生量化频率系数,被输入无关(irrelevancy)降低块830。该无关降低块830运用来自信号理论的公知的信号无关降低方法。例如,Huffman编码、向量量化或算术编码是用于信号无关降低的公知方法。例如,在K.Brandenburg的“MP3 and AAC Explained”in proceedings of the AES 17thInternational Conference on High-Quality Audio Coding,1999中可找到这些方法的概述。
为了达成目标编码需求,如压缩信号的给定比特率,目前技术水平的编解码器可通过增加心理听觉模型或感知模型所规定的噪声许可量来降低编码需求。参考图8,该编码需求被验证于块835中,而若该编码需求不被满足,则在降低块840中进一步降低比特需求,该编码算法回到比特/噪声分配块820。若达成该编码需求,比特流多路复用块845对编码的量化频率系数和编码的定标因子进行多路复用,形成编码的比特流。
若该编码需求不被满足且比特需求被进一步降低,则额外噪声被引入该信号中。当所允许的噪声增大时,该定标因子亦被增大,而量化信号的分辨率被减低,从而降低比特需求。量化分辨率可降低至当噪声大于信号本身时的点,可能的含义是定标因子的量化块输出将为零。此可有效地将烧孔插入频谱中应出现定标因子的信号处。只要该编码的量化系数的传输/储存需求低于施加给编码器的约束,则此操作可被迭代重复。与图8的流程图相较,即使设定所有量化输出为零,此操作也可总是成功地终止。
同时,有了上述目前技术水平方法,假设可对编解码器约束而不需在该约束的降低阶段中过多消除定标因子,编码需求可被有效维持且运作相当好。若编码器的编码需求被设定过高,则该方法可能不利地失败。
这通常发生于若所需比特率低于感知模型的要求的情况下。非最佳编解码器通常因关闭过多定标因子以满足编码约束而引入大量的烧孔。频谱烧孔或关闭通常可轻易地被收听者发觉,且其对听觉质量的恶化有很大影响。包含频谱烧孔的信号通常被分类为响声、嗖嗖声、鸟叫声等。
例如,可在3GPP(3GPP=第三代伙伴计划),TS(TS=技术规格)26.403中找到的最佳目前技术水平的编解码器,运用通常被称为烧孔避免(holeavoidance)的更具优势的编码约束降低策略。此策略通过对每一个定标因子施加最大约束降低限制而工作。只要可降低所有定标因子的编码约束而不违反此限制并且维持被施加到该编码器的约束,便可确保该定标因子中不会引入任何烧孔。然而,即使有此先进策略,该编码约束仍非常可能不被满足,在此情况下,编码器不具有其它选择,通过消除定标因子而开始引入频谱烧孔(spectral hole)。
图9显示100Hz至15kHz范围中的两个编解码器信号的频谱图。所示编解码器为32kbps,其对应于44:1的压缩比,以及320kbps,其对应于4.4:1的压缩比。从图9可轻易看到,该32kbps编解码器被迫引入频谱烧孔来满足编码需求,且可看到上频率范围中的剧烈恶化。
发明内容
本发明的目的是提供不向信号中引入频谱烧孔、并以降低比特率对数字音频数据进行编码的装置及方法。
此目的通过一种以降低比特率对数字音频数据进行编码的装置来达成,该装置包含:具有高于该降低比特率的比特率的心理听觉量化数字音频数据的提供器;以及识别器,用于根据选择准则来识别频段,该选择准使得:当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据的影响。该装置进一步包含置换器,用于以噪声综合参数取代数字音频数据的识别频段中的数据,该噪声综合参数需要比该识别频段中的数据要少的数据量,该数字音频数据具有降低的比特率。
此目的进一步通过一种以降低比特率对数字音频数据进行编码的方法来达成,该方法包含:提供具高于该降低比特率的比特率的心理听觉量化数字音频数据的步骤;以及根据选择准则来识别频段的步骤,该选择准使得:当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据的影响。该方法进一步包含以噪声综合参数取代数字音频数据的识别频段中的数据的步骤,该噪声综合参数需要比该识别频段中的数据要少的数据量,该数字音频数据具有降低的比特率。
本发明基于如下发现:只要平均能量相同或可比较,人类听觉系统即无法在不同类型的窄频段信号与噪声信号之间进行区分。在需要高数据压缩的某些情况下,若使用噪声发生器来取代完全关闭频段,则可更有效地保存数字音频数据的质量。这有效地意指足以在解码器级产生噪声,而无需传送被发现为噪声状的定标因子频段的量化频谱系数。仅需要被传送的信息是定标因子频段的平均能量值或如噪声综合参数的噪声发生器参数,若感知模型指示其适合性,则如MPEG-4AAC的若干编解码器取代传送该频段的定标因子值。然而,若需要较高的压缩率,则这些编解码器关闭进一步引入所产生噪声的频段,产生较佳的数字音频数据质量。
附图说明
本发明实施例将使用附图做说明,其中:
图1显示用于编码数字音频数据的装置的实施例的方块图;
图2显示用于编码数字音频数据的装置的另一实施例的方块图;
图3显示本发明的提供器的实施例;
图4显示用于编码数字音频数据的装置的另一实施例的方块图;
图5显示序列控制器方法的实施例的流程图;
图6显示综合分析方法的实施例的流程图;
图7显示由本发明的方法的实施例所延伸的目前技术水准方法的实施例的流程图;
图8显示目前技术水准的编码处理的流程图;以及
图9显示编码数字音频数据的两个频谱图。
具体实施方式
图1说明以降低比特率编码数字音频数据的装置100的实施例。图1说明的实施例包含提供器110,其可向识别器120提供高于降低比特率的比特率的心理听觉量化数字音频数据。识别器120根据选择准则来识别频段,该选择准使得:当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据的影响。识别器120向置换器130指示被识别的频段。置换器130可以利用噪声综合参数来取代数字音频数据的被识别频段中的数据,该噪声综合参数需要比被识别的频段中的数据要少的数据量,从而该数字音频数据具有降低的比特率。
图2说明用于数字音频数据的装置100的另一实施例。图2显示参考图1说明的提供器110、识别器120和置换器130。此外,图2所示用于编码数字音频数据的装置100的实施例包含以降低比特率编码数字数据的熵编码器140。图1和2所说明的装置100的两个实施例可操作地编码数字原始数据,如PCM数据(PCM=脉冲编码调制)。因此,提供器110可被实施为通过用于实现心理听觉编码的装置来扩展的任何音频数据源,如CD播放器。该心理听觉编码是根据频段完成的,例如,其可通过运用该提供器内的滤波器组中的滤波器来实施。根据图2说明的实施例,装置100可包含熵编码器140,从而对具有降低比特率的数字音频数据进行熵编码,例如可以是Huffman码,以符合AAC或MP3标准。
图3显示提供器110的实施例。此实施例中,提供器110包含滤波器组112,其可将数字音频数据变换到频域,根据频段来提供频率系数。提供器110进一步包含定标因子量化及噪声替代块114,其可根据该数据来决定定标因子和量化以及噪声替代,从输入数字音频数据导出的心理听觉模型及事先分析器块116。心理听觉模型及事先分析器块116可从该数字输入数据决定何频段可立刻被噪声取代,及提供该信息至定标因子量化及噪声替代块114。此外,心理听觉模型提供允许导出定标因子及量化的数据。该事先分析器可分析时域中的数据,而在另一实施例中,其可分析频域中的数据,以决定可以解码器处的噪声来取代的频段。决定这些频段的一种方法是综合分析,其中所有频段基本上依次被噪声取代,完整信号被再次综合并测量质量。跨越所有频段迭代,可识别具有最小质量影响的频段,其接着被选择用于取代。这个处理稍后将被详述。
本发明另一实施例中,提供器110获得例如MP3文件或ACC编码数据的已编码数据,接着使用解码器来移除该熵编码。一旦该熵编码被移除,则已包含取代频段的噪声的心理听觉量化数据可被提供器110传递至识别器120。接着,识别器120的任务是识别频段,将心理听觉量化数据传递至可取代相应频段的置换器130。
另一实施例中,装置100被要求降低数字音频数据的比特率至特定目标比特率。图4说明此发明性装置100的实施例。图4再次显示用于首先对由提供器110提供的数字音频数据进行编码的装置100的实施例。识别器120可识别将被置换器130取代的频段,其中以选择准则为基础进行识别。图4中的装置100进一步包含序列控制器150,其被耦合至识别器120及置换器130。一旦频段被识别,则置换器130可以噪声发生器的综合参数来取代此频段中的数据,产生新比特率。序列控制器150的目的是以达成目标比特率的方式,调整将被取代的频段的选择准则。在一个实施例中,该序列控制器以非常轻松(soft)的选择准则开始,产生非常少量的频段被选择用于取代。若取代后的最终比特率仍高于目标比特率,则该序列控制器必须紧缩(tighten)该选择准则。
图5说明用来达成目标比特率的迭代的流程图。序列控制器150于第一验证块510中检查是否已达到目标比特率。若未达到目标比特率,则序列控制器150于步骤520中紧缩该选择准则,并传送该紧缩的选择准则至识别器120,用于取代的新频段于块530中被识别,而最终置换器130于步骤540中取代新识别的频段。之后,序列控制器150再次验证目标比特率是否已于步骤510中达成。一旦达成目标比特率,则于步骤550中提供目标比特率给数据。
在识别器120处,事后分析器可于一实施例中根据选择准则而操作以分析数据。该事后分析器操作类似于本发明的提供器110的一个实施例中提及的事先分析器。再次,事后分析器可执行综合分析。
图6显示执行综合分析的方法实施例的流程图。第一步骤610中,迭代索引i最初被赋予1。在图6说明的实施例中,假设数字音频数据被分为N个子频段。步骤620中,根据该迭代索引选择频段,也就是说该选择处理以第一频段开始。下一步骤630中,选择的频段被噪声参数取代,而步骤640中,全部数字音频数据被综合在一起。一旦数据被综合,则质量准则或质量测量可在步骤650中被决定。接着,此质量测量可被与指示频段的迭代索引一起储存。步骤660中,验证该迭代是否已完成,也就是是否所有频段均已被检查,而若否,则于步骤670中将迭代索引增大一个步长,而再次于步骤620中选择下一频段。一旦完成全部迭代处理,也就是若所有N个频段均已被测试,则具最低质量影响的频段可被选择及被识别用于取代。该质量影响可通过如信号噪声比的传统测量来决定。另一测量可以是通过心理听觉模型决定的测量,再次决定人类听觉系统的最低质量影响。
如图3显示,编码处理期间提供器110处的噪声替代准则以及识别器120内的事后分析器执行的选择准则,基本上可以参考相同的测量。然而,用于提供器实施例的事前选择准则决定了数字音频数据内的频段,其不损害心理听觉模型再次决定的数字音频数据的质量。与该目标不同,也就是降低质量并引入考虑人类听觉系统的数字音频数据的质量的影响,识别器处的事后分析器选择频段。虽然事前选择准则及选择准则可以参考相同的测量,旦其对质量的影响不同。
例如,被当作事前选择准则及选择准则的事前分析器及事后分析器测量,是最低音调,最低或最高信号噪声比,最低或最高信号掩蔽比,也就是考虑到人类听觉系统特性,频段中最低能量,频段中最高中心频率,或时域中最佳稳定性,也就是时段中的最低可变性。
另一实施例中,置换器130被用于取代频段,其为与单噪声综合参数一起的连续频段,也就是通过取代执行数字音频数据的较高比特率降低的若干频段数据。
然而,目前技术水平中,编解码器感知噪声替代用于取代在实际量化及编码步骤之前被判断为噪声状的定标因子,噪声替代在本发明实施例中被用来降低比特率。与当前技术中仅仅取代感知模型中被发现为噪声状的定标因子频段相比,存在更为有用的感知噪声替代情况。在本发明实施例中,采用感知噪声替代作为更先进约束降低方法中的约束降低装置或比特率降低装置的一部分。
图7显示发明性实施例所扩充的目前技术水平编码处理的完整流程图。图7显示被输入滤波器组705及感知模型710的输入信号。从滤波器组705输出的频率系数接着被输入连接至感知模型710的比特/噪声分配块715。比特/噪声分配块715之后是量化块720和无关降低块725,其均类似于图8解释的比特/噪声分配块820及量化块830。无关降低块725之后,在块730中进行码需求验证。若满足编码需求,则熵编码的量化频率系数及编码拼写因子被输入比特流多路复用器735,而可以获得具有需要的比特率的编码数据。若编码需求块730中所验证的编码需求不被满足,则于740中进行另一验证步骤,其检查在不引入频谱烧孔的情况下是否可进一步降低比特率。若不引入频谱烧孔即可进一步降低比特率,则该编码需求可于块745中降低且限制松弛,使得后续步骤750不会引入频谱烧孔。接着重复该处理,以比特/噪声分配步骤715开始。
可通过图7的盒755内的发明性方法的实施例来扩充此目前技术的过程。若于验证步骤740中确定在不引入频谱烧孔的情况下不能进一步降低数字音频数据的比特率,则该过程之后为选择块760。选择块760选择用于人为噪声替代的最适合的定标因子频段,亦被称为感知噪声替代。一旦识别正确频段,则于块765中产生插入数字数据的感知噪声,其中于步骤770中将被选择的定标因子频段从量化频谱数组中移除,并于步骤775中再次计算编码需求。此后,可于步骤780中验证编码需求,若该编码需求不满足,则返回步骤760,也就是选择下一频段用于感知噪声替代。最后,编码需求得到满足时,该处理将终止,可于步骤735中多路传输比特流,且可获得具有降低比特率的数字数据。
如图7显示,该处理流上部分的本发明实施例非常类似上述目前技术中发现的先进编码方案。不同之处在于约束降低选择,本发明实施例避免引入频谱烧孔。取代移除定标因子频段及引入频谱烧孔,本发明实施例可以更有效的方式解决该问题。主要地,第一步骤中,选择最适合的定标因子频段或频率系数子组,以解码器中的人为噪声来替代。
可通过各种装置来做此选择,如以下的一个或多个:具有最低音调的定标因子频段,具有最低或最高信号噪声比的定标因子频段,具有最低或最高信号信号掩蔽比的定标因子频段,具有最低能量的定标因子频段,具有最高中心频率的定标因子频段,具有最佳时域稳定性的定标因子频段,或完成一个或更多刚提及的度量的频率系数的分组的定标因子频段。
应注意,这些装置仅用于解释,本领域的技术人员已知的其它装置落在本发明的范围及精神之内。
在执行选择后,例如以感知噪声替代工具对被选择的定标因子频段或频率系数的其他分组进行编码,意指本发明实施例可将频谱内容从数字音频数据中移除,而不是该频段的定标因子,例如可传送其近似平均能量连同告知解码器以大致相同于比特流中所传送的能量的人为产生噪声重建该频段的适当标志。
感知噪声替代编码之后的本发明另一实施例中,该被取代频谱系数的比特需求现在可从量化频谱比特需求中移除,而总比特需求可与编码器约束进行比较。若该约束仍不被满足,则该过程继续,直到约束得以满足或以感知噪声替代对所有频段进行编码为止。因此,必须设定最小约束,使得可以针对所有频段来传送感知噪声替代能量因子。若期望达到该限制,则可移除该感知噪声替代定标因子,以达到甚至非常高的编码约束。这可通过迭代地移除最适合的感知噪声替代因子来达成,其中本领域的技术人员熟知评估该因子的方法,如选择最低能量定标因子或最高频率定标因子等。接着重新评估比特需求,并重复该处理,直到其满足约束或所有因子分别被设置为零为止。
本发明实施例提供了如下优点:有效避免引入频谱烧孔,如避免现代感知音频编解码其中与频段关闭或频谱烧孔有联系的假像,产生关于人类听觉系统较佳的数字音频数据质量。
本发明的一个实施例是基于以频率为基础的感知音频编码的音频编码装置,其具有感知模型、时间至频率映射和量化及熵编码块。此外,可以多个频域频谱系数分组为基础编码定标因子,以无关降低对其量化。另一实施例中,可以与人类听觉系统临界频段呈比例的方式来处理该多个频域频谱系数,并以无关降低对其量化。本发明另一实施例包含在编码比特流中传送该系数。
此外,一实施例可利用解码器中人为产生的窄频段噪声取代定标因子频段,而不需传送该定标因子频段的频谱内容,其中该编码约束的评估方法可以感知模型所计算的正好察觉失真测量及频谱系数值为基础。本发明实施例降低编码需求,通过上述方法之一替代定标因子频段来满足该编码约束。例如,可选择适当的定标因子频段,通过具有最类似白噪声的定标因子,具有最高中心频率的定标因子频段,具有最低能量的定标因子频段,具有最高信号噪声比的定标因子频段,具有最低信号噪声比的定标因子频段,具有最高信号对正好察觉失真能量比的定标因子频段,或具有最低信号对正好察觉失真能量比的定标因子频段来降低编码需求。
视发明性方法特定实施需求而定,该发明性方法可实施于硬件或软件中。可使用数字储存媒体,特别是具储存于此以可程序计算机系统操作的电子可读控制信号的盘片,DVD或CD来执行该实施,来执行该发明性方法。通常,本发明为一种计算机程序产品,具有储存在机器可读载体上的程序代码,当该计算机程序产品于计算机上运转时,该程序代码可操作地执行该发明性方法。也就是说,本发明方法为一种计算机程序产品,具有当该计算机程序产品于计算机上运转时,可执行至少一种本发明的方法的程序代码。
附图标记列表
100  用于对数字音频数据进行编码的装置
110  提供器
112  滤波器组
114  定标因子量化和噪声替代
116  心理听觉模型和事先分析器
120  识别器
130  置换器
140  熵编码器
150  序列控制器
510  目标比特率验证
520  选择标准紧缩
530  频段识别
540  频段数据的取代
550  提供数据
610  初始化i
620  选择频段i
630  取代频段i
640  合成总的数字音频数据
660  验证所有频段
670  增大迭代索引i
680  标识频段
705  滤波器组
710  感知模型
715  比特/噪声分配
720  量化
725  无关降低
730  编码需求验证
735  比特流多路复用器
740  验证没有频谱烧孔的情况下进一步降低比特率
745  降低编码需求
750  限制松弛使得不会引入频谱烧孔
755  本发明的方法的实施例
760  选择最适合的频段
765  感知噪声替代
770  移除被选择的频段的所选择的定标因子
775  重新计算编码需求
780  验证编码需求
810  滤波器组
815  感知模型
820  比特/噪声分配
825  量化
830  无关降低
835  编码验证
840  比特需求降低
845  比特流多路复用器

Claims (15)

1.一种以降低的比特率对数字音频数据进行编码的装置,包含:
提供器,提供具有高于该降低的比特率的比特率的心理听觉量化数字音频数据;
识别器,可根据选择准则来识别频段,该选择准则使得:当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据质量的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据质量的影响,以及
置换器,用于以噪声综合参数取代数字音频数据的识别频段中的数据,该噪声综合参数需要比该识别频段中的数据要少的数据量,该数字音频数据具有降低的比特率。
2.如权利要求1所述的装置,其中该提供器适用于针对每频段来提供心理听觉量化数字音频数据,该频段可由滤波器组中的滤波器来决定。
3.如权利要求1所述的装置,进一步包含熵编码器,用于对具有降低的比特率的数字音频数据进行编码。
4.如权利要求1至3之一所述的装置,其中该心理听觉编码的数字数据包含熵编码的量化频谱数据,而且其中该提供器包含熵解码器,该熵解码器用于对该心理听觉编码的数字音频数据进行熵解码,以提供该心理听觉量化频谱数据,而且其中该识别器和该置换器可操作以处理该熵解码的心理听觉量化数字音频数据。
5.如权利要求1至4之一所述的装置,其中该提供器包含噪声替代处理,用于以该噪声替代处理的插入参数取代在事先选择频段中的频谱数据,该事先选择频段由事先选择准则来识别,执行该噪声替代处理以取代对数字音频数据进行心理听觉量化。
6.如权利要求5所述的装置,其中该提供器包含事先分析器,用于根据该事先选择准则分析数字音频数据,以事先选择用于插入噪声替代参数的频段。
7.如权利要求1至6之一所述的装置,其中该识别器包含事后分析器,用于根据该选择准则分析频段中的心理听觉量化数据,以识别用于心理听觉量化数据替代的该频段。
8.如权利要求5至7之一所述的装置,其中该事先分析器或该事后分析器可操作以使用该事先选择准则或该选择准则,该事先选择准则与该选择准则不同,该事先选择频段与该识别频段不同。
9.如权利要求8所述的装置,其中该事先分析器使用该事先选择准则,而该事后分析器使用该选择准则,该选择准则对应于包括以下内容的组中之一或组合:最低音调、最低或最高信号噪声比、最低或最高信号掩蔽比、最低能量、最高中心频率、时域最佳稳定性或时域最低可变性。
10.如权利要求1至9之一所述的装置,进一步包含序列控制器,用于控制该识别器及该置换器,该序列控制器可将该降低的比特率与目标比特率进行比较,调整该选择准则,使得当该降低的比特率高于该目标比特率时,识别更多频段以由噪声综合参数来取代。
11.如权利要求1至10之一所述的装置,其中该置换器适用于以噪声综合参数来取代多个频段的数据,并适用于以噪声综合参数来取代连续频段的数据。
12.如权利要求1至11之一所述的装置,其中该提供器可操作以从编码数字音频数据提供心理听觉量化数据,该编码数字音频数据是根据ISO/IEC 14496而编码的。
13.如权利要求3至12之一所述的装置,其适用于根据ISO/IEC14496以降低的比特率对数字音频数据进行编码。
14.一种以降低的比特率对数字音频数据进行编码的方法,包含如下步骤:
提供具有高于该降低的比特率的比特率的心理听觉量化数字音频数据;
根据选择准则来识别频段,该选择准则使得:当被识别的频段中的数据被所产生的噪声取代时对该数字音频数据质量的影响小于当不同频段中的数据被所产生的噪声取代时对该数字音频数据质量的影响;以及
以噪声综合参数取代数字音频数据的识别频段中的数据,该噪声综合参数需要比该识别频段中的数据要少的数据量,该数字音频数据具有降低的比特率。
15.一种具有程序代码的计算机程序,当该程序代码在计算机中运行时,用于执行权利要求14所述的方法。
CNA2006800549760A 2006-04-24 2006-10-04 先进音频编码装置 Pending CN101467203A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US74549906P 2006-04-24 2006-04-24
US60/745,499 2006-04-24

Publications (1)

Publication Number Publication Date
CN101467203A true CN101467203A (zh) 2009-06-24

Family

ID=37487482

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800549760A Pending CN101467203A (zh) 2006-04-24 2006-10-04 先进音频编码装置

Country Status (10)

Country Link
US (1) US7647222B2 (zh)
EP (1) EP1869669B1 (zh)
JP (1) JP2009534713A (zh)
CN (1) CN101467203A (zh)
AT (1) ATE405923T1 (zh)
DE (1) DE602006002381D1 (zh)
DK (1) DK1869669T3 (zh)
ES (1) ES2312142T3 (zh)
TW (1) TW200746048A (zh)
WO (1) WO2007121778A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
GB2443911A (en) * 2006-11-06 2008-05-21 Matsushita Electric Ind Co Ltd Reducing power consumption in digital broadcast receivers
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
MX2010001394A (es) * 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Frecuencia de transicion adaptiva entre llenado de ruido y extension de anchura de banda.
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US8700406B2 (en) * 2011-05-23 2014-04-15 Qualcomm Incorporated Preserving audio data collection privacy in mobile devices
CN110706715B (zh) * 2012-03-29 2022-05-24 华为技术有限公司 信号编码和解码的方法和设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0692880B1 (en) * 1993-11-04 2001-09-26 Sony Corporation Signal encoder, signal decoder, recording medium and signal encoding method
DE19730129C2 (de) * 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
KR100871999B1 (ko) * 2001-05-08 2008-12-05 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
GB2378370B (en) * 2001-07-31 2005-01-26 Hewlett Packard Co Method of watermarking data
JP4290917B2 (ja) * 2002-02-08 2009-07-08 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法、及び、符号化方法
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
EP1631954B1 (en) * 2003-05-27 2007-02-14 Koninklijke Philips Electronics N.V. Audio coding
JP4347634B2 (ja) * 2003-08-08 2009-10-21 富士通株式会社 符号化装置及び符号化方法
JP2005196029A (ja) * 2004-01-09 2005-07-21 Sony Corp 符号化装置及び方法
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
US20070136055A1 (en) * 2005-12-13 2007-06-14 Hetherington Phillip A System for data communication over voice band robust to noise

Also Published As

Publication number Publication date
ES2312142T3 (es) 2009-02-16
US7647222B2 (en) 2010-01-12
DE602006002381D1 (de) 2008-10-02
ATE405923T1 (de) 2008-09-15
EP1869669B1 (en) 2008-08-20
WO2007121778A1 (en) 2007-11-01
EP1869669A1 (en) 2007-12-26
TW200746048A (en) 2007-12-16
DK1869669T3 (da) 2008-12-01
US20070276661A1 (en) 2007-11-29
JP2009534713A (ja) 2009-09-24

Similar Documents

Publication Publication Date Title
CN101467203A (zh) 先进音频编码装置
CN105679327B (zh) 用于对音频信号进行编码和解码的方法及设备
KR101251813B1 (ko) 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩
KR100949232B1 (ko) 인코딩 장치, 디코딩 장치 및 그 방법
US7991621B2 (en) Method and an apparatus for processing a signal
KR101343267B1 (ko) 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치
KR101238239B1 (ko) 인코더
KR101143225B1 (ko) 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체
RU2393552C2 (ru) Комбинированное аудиокодирование, минимизирующее воспринимаемое искажение
EP2490215A2 (en) Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same
CN105518776A (zh) 用于使用重构频带的能量信息值对音频信号进行解码或编码的设备及方法
KR20130095840A (ko) 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법
JP2011509428A (ja) オーディオ信号処理方法及び装置
WO2012144128A1 (ja) 音声音響符号化装置、音声音響復号装置、およびこれらの方法
TR201902394T4 (tr) Gürültü doldurma konsepti.
KR20070037945A (ko) 오디오 신호의 부호화/복호화 방법 및 장치
KR100695125B1 (ko) 디지털 신호 부호화/복호화 방법 및 장치
JP2019514065A (ja) 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム
JP4639073B2 (ja) オーディオ信号符号化装置および方法
Singh et al. Audio watermarking based on quantization index modulation using combined perceptual masking
KR101393299B1 (ko) 오디오 데이터 부호화 방법 및 장치
KR101770301B1 (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
KR20170008319A (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090624