CN103069482B - 用于噪声注入的系统、方法和设备 - Google Patents
用于噪声注入的系统、方法和设备 Download PDFInfo
- Publication number
- CN103069482B CN103069482B CN201180039077.4A CN201180039077A CN103069482B CN 103069482 B CN103069482 B CN 103069482B CN 201180039077 A CN201180039077 A CN 201180039077A CN 103069482 B CN103069482 B CN 103069482B
- Authority
- CN
- China
- Prior art keywords
- sound signal
- energy
- noise
- gain factor
- frequency field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 109
- 238000009826 distribution Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 115
- 230000005236 sound signal Effects 0.000 claims description 109
- 238000001514 detection method Methods 0.000 claims description 17
- 238000002347 injection Methods 0.000 claims description 15
- 239000007924 injection Substances 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 abstract description 60
- 238000010586 diagram Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 32
- 238000013139 quantization Methods 0.000 description 32
- 238000006243 chemical reaction Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 238000013507 mapping Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 8
- 238000011002 quantification Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 238000007493 shaping process Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000004148 curcumin Substances 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electron Tubes For Measurement (AREA)
Abstract
根据原始频谱的能量在频谱的未译码元素的位置之间的分布的测量值来控制在所述未译码元素处注入噪声的方案。
Description
根据35U.S.C.§119主张优先权
本专利申请案主张2010年8月17日申请的标题为“用于一般音频译码的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLEMEDIAFORGENERALIZEDAUDIOCODING)”的第61/374,565号临时申请案的优先权。本专利申请案主张2010年9月17日申请的标题为“用于一般音频译码的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLEMEDIAFORGENERALIZEDAUDIOCODING)”的第61/384,237号临时申请案的优先权。本专利申请案主张2011年3月31日申请的标题为“用于动态位分配的系统、方法、设备和计算机可读媒体(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTER-READABLEMEDIAFORDYNAMICBITALLOCATION)”的第61/470,438号临时申请案的优先权。
技术领域
本发明涉及音频信号处理领域。
背景技术
基于修改离散余弦变换(MDCT)的译码方案通常用于对一般音频信号进行译码,所述音频信号可以包含语音和/或非语音内容,例如音乐。现有的使用MDCT译码的音频编解码器的实例包含MPEG-1音频层3(MP3)、杜比数码(杜比实验室,英国伦敦;也称为AC-3,且标准化为ATSCA/52)、Vorbis(Xiph.Org基金会,美国马萨诸塞州萨默维尔)、视窗媒体音频(WMA,微软公司,华盛顿州雷蒙德)、自适应变换声学译码(ATRAC,索尼公司,日本东京)和高级音频译码(AAC,最近在ISO/IEC14496-3:2009中标准化)。MDCT译码也是一些电信标准的组成部分,例如增强可变速率编解码器(EVRC,在第3代合作伙伴计划2(3GPP2)文档C.S0014-Dv3.0(2010年10月,电信行业联盟,马萨诸塞州阿灵顿)中标准化)。G.718编解码器(“来自8-32kbit/s的语音和音频的帧误差稳健窄带和宽带嵌入式可变位速率译码(Frameerrorrobustnarrowbandandwidebandembeddedvariablebit-ratecodingofspeechandaudiofrom8-32kbit/s)”(电信标准化部门(ITU-T),日内瓦,CH,2008年6月,于2008年11月和2009年8月修改,于2009年3月和2010年3月修订))是使用MDCT译码的多层编解码器的一个实例。
发明内容
一种根据一般配置处理音频信号的方法,其包含:基于来自所述音频信号的信息,在码簿的多个条目中选择一个条目;以及确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置。此方法包含:计算所述确定的频率域位置处的所述音频信号的能量;计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值;以及基于所述计算出的能量和所述计算出的值,计算噪声注入增益因子。还揭示计算机可读存储媒体(例如,非暂时性媒体),其具有有形特征,所述有形特征使得读取所述特征的机器执行此方法。
一种根据一般配置处理音频信号的设备,其包含:用于基于来自所述音频信号的信息在码簿的多个条目中选择一个条目的装置;以及用于确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置的装置。此设备包含:用于计算所述确定的频率域位置处的所述音频信号的能量的装置;用于计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值的装置;以及用于基于所述计算出的能量和所述计算出的值计算噪声注入增益因子的装置。
一种根据另一一般配置处理音频信号的设备,其包含:向量量化器,其经配置以基于来自所述音频信号的信息在码簿的多个条目中选择一个条目;以及零值检测器,其经配置以确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置。此设备包含:能量计算器,其经配置以计算所述确定的频率域位置处的所述音频信号的能量;稀疏性计算器,其经配置以计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值;以及增益因子计算器,其经配置以基于所述计算出的能量和所述计算出的值,计算噪声注入增益因子。
附图说明
图1展示MDCT操作的典型正弦窗形状的三个实例。
图2展示不同窗函数w(n)的一个实例。
图3A展示根据一般配置处理音频信号的方法M100的框图。
图3B展示方法M100的实施方案M110的流程图。
图4A-C展示增益形状向量量化结构的实例。
图5展示在脉冲编码之前和之后的输入频谱向量的实例。
图6A展示排序的一组频谱系数能量中的一子组的实例。
图6B展示稀疏因子值对增益调整因子值的映射的曲线图。
图6C展示图6B针对特定阈值的映射的曲线图。
图7A展示任务T500的此实施方案T502的流程图。
图7B展示任务T500的实施方案T504的流程图。
图7C展示任务T502和T504的实施方案T506的流程图。
图8A展示任务T520的一实例的限幅操作的曲线图。
图8B展示任务T520针对特定阈值的一实例的曲线图。
图8C展示可执行以执行任务T520的一实施方案的伪码列表。
图8D展示可执行以执行噪声注入增益因子的基于稀疏性的调制的伪码列表。
图8E展示可执行以执行任务T540的一实施方案的伪码列表。
图9A展示根据单调减小函数的LPC增益值(以分贝计)对因子z的值的映射的实例。图9B展示图9A针对特定阈值的映射的曲线图。
图9C展示图9A所示的映射的不同实施方案的一实例。
图9D展示图9C针对特定阈值的映射的曲线图。
图10A展示参考帧与目标帧中的子带位置之间的关系的实例。
图10B展示根据一般配置的噪声注入方法M200的流程图。
图10C展示根据一般配置的噪声注入设备MF200的框图。
图10D展示根据另一一般配置的噪声注入设备A200的框图。
图11展示低带音频信号中的选定子带的实例。
图12展示高带音频信号中的选定子带和残余分量的实例。
图13A展示根据一般配置的用于处理音频信号的设备MF100的框图。
图13B展示根据另一一般配置的用于处理音频信号的设备A100的框图。
图14展示编码器E20的框图。
图15A到E展示编码器El00的应用范围。
图16A展示信号分类方法MZ100的框图。
图16B展示通信装置D10的框图。
图17展示手持机H100的前视图、后视图和侧视图。
具体实施方式
在用于对信号向量进行编码以用于存储或传输的系统中,可能需要包含噪声注入算法以适当地调整被注入的噪声的增益、频谱形状和/或其它特性,以便使感知质量最大化,同时使要传输的信息量最小化。例如,可能需要如本文中所述应用稀疏因子,以控制此噪声注入方案(例如,以控制要注入的噪声的水平)。在此方面,可能需要特别注意避免向不像噪声的音频信号(例如,高音调信号或其它稀疏频谱)添加噪声,因为可以假设这些信号已经通过基础译码方案加以良好译码。同样,可能相对于译码的信号为被注入的信号的频谱成形或者其它方式以调整其频谱特性是有益的。
除非受其上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置组)的状态。除非受其上下文明确地限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如计算或以另外方式产生。除非受其上下文明确地限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如运算、评估、平滑及/或从多个值中进行选择。除非受其上下文明确地限制,否则使用术语“获得”来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件阵列)。除非受其上下文明确地限制,否则使用术语“选择”来指示其普通意义中的任一者,例如识别、指示、应用和/或使用两个或两个以上的组中的至少一者且不到全部。在术语“包含”用于本描述和权利要求书中的情况下,其不排除其它元件或操作。使用术语“基于(如在“A基于B”中)”来指示其普通意义中的任一者,包含以下情况:(i)“从……导出”(例如,“B是A的前体”),(ii)“至少基于”(例如“A至少基于B”),且如果在特定的上下文中合适,(iii)“等于”(例如,“A等于B”)。类似地,使用术语“响应于”来指示其普通意义中的任一者,包含“至少响应于”。
除非另有指示,否则使用术语“系列”来指示两个或两个以上项目的序列。使用术语“对数”来指示底数为十的对数,但是此运算扩展到其它底数也在本发明的范围内。使用术语“频率分量”来指示一组信号频率或频带中的一者,例如信号频率域(例如,由快速傅立叶变换或MDCT产生)或信号的子带(例如,巴克标度(Barkscale)或梅尔标度(melscale)子带)的频率域表示的样本。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可用于参考一种方法、设备和/或系统,如由其特定上下文所指示。除非特定上下文另有指示,否则普遍且互换地使用术语“方法”、“过程”、“程序”和“技术”。具有多个子任务的“任务”也是方法。除非特定上下文另有指示,否则普遍且互换地使用术语“设备”和“装置”。术语“元件”和“模块”通常用于指示较大配置的一部分。除非受其上下文明确限制,否则在本文中使用术语“系统”来指示其普通意义中的任一者,包含“交互以服务于共同目的的一群组的元件”。以引用方式对一份文档的一部分的任何并入应当被理解为并入有所述部分内参考的术语定义或变化形式,而此些定义在文档中的其它地方以及并入部分中参考的任何图中出现。
本文中所述的系统、方法和设备一般适用于频率域中的音频信号的译码表示。此表示的典型实例是变换域中的一系列变换系数。合适变换的实例包含离散正交变换,例如正弦单一变换。合适的正弦单一变换的实例包含离散三角变换,其包含但不限于离散余弦变换(DCT)、离散正弦变换(DST)和离散傅立叶变换(DFT)。合适变换的其它实例包含此些变换的重叠形式。合适变换的一特定实例是上文介绍的修改DCT(MDCT)。
本揭示中始终参照音频频率范围的“低带”和“高带”(等效地称为“上部带”),并且参照零到四千赫(kHz)的低带和3.5到七kHz的高带的特定实例。明确指出,本文中论述的原理不以任何方式限于此特定实例,除非明确陈述了此限制。这些编码、解码、分配、量化和/或其它处理的这些原理对其的应用被明确涵盖且在此揭示的频率范围的其它实例(同样不限于)包含具有0、25、50、100、150和200Hz中的任一者下的下界和3000、3500、4000和4500Hz中的任一者下的上界的低带,和具有3000、3500、4000、4500和5000Hz中的任一者下的下界和6000、6500、7000、7500、8000、8500和9000Hz中的任一者下的上界的高带。还明确涵盖且在此揭示此些原理(同样不限于)对于具有3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500和9000Hz中的任一者下的下界和10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5和16kHz中的任一者下的上界的高带的应用。还明确指出,虽然高带信号一般将在译码过程的较早阶段转换成较低采样速率(例如,经由重新采样和/或抽取),但是其仍然是高带信号,且其承载的信息仍然表示高带音频频率范围。
包含对如本文中所述的噪声注入增益的计算和/或应用的译码方案可以应用于对任何音频信号(例如,包含语音)进行译码。或者,可能需要此译码方案仅用于非语音音频(例如,音乐)。在此情况下,所述译码方案可以配合分类方案一起使用以确定音频信号的每一帧的内容的类型,并且选择一种合适的译码方案。
包含对如本文中所述的噪声注入增益的计算和/或应用的译码方案可以用作主要编解码器或者多层或多阶编解码器中的一层或一阶。在一个此实例中,使用此译码方案对音频信号(例如,低带或高带)的频率含量的一部分进行译码,且使用另一译码方案对信号的频率含量的另一部分进行译码。在另一此实例中,使用此译码方案对另一译码层的残余(即,原始信号与编码的信号之间的误差)进行译码。
可能需要将音频信号处理为频率域中的信号的表示。此表示的典型实例是变换域中的一系列变换系数。通过对时域中的信号的PCM(伪码调制)样本的帧执行变换操作(例如,FFT或MDCT操作),可以获得信号的此变换域表示。变换域译码可有助于提高译码效率,例如通过支持利用信号的子带之间的能量谱在频率(例如,从一个子带到另一个)和/或时间(例如,从一个帧到另一个)上的相关的译码方案。正被处理的音频信号可以是对输入信号(例如,语音和/或音乐信号)的另一译码操作的残余。在一个此实例中,正被处理的音频信号是对输入音频信号(例如,语音和/或音乐信号)的线性预测译码(LPC)分析操作的残余。
本文中所述的方法、系统和设备可以经配置以将音频信号作为一系列区段来处理。一区段(或“帧”)可以是对应于长度一般在从大约五或十毫秒到大约四十或五十毫秒的范围内的时域区段的变换系数块。时域区段可以是重叠(例如,邻近区段重叠25%或50%)或不重叠的。
可能需要获得音频译码器中的高质量和低延迟两者。音频译码器可以使用大的帧大小来获得高质量,但遗憾的是,大的帧大小通常会导致较长的延迟。本文中所述的音频编码器的潜在优势包含对于短的帧大小的高质量译码(例如,二十毫秒的帧大小,其中有十毫秒的预看)。在一个特定实例中,将时域信号分成一系列二十毫秒的非重叠区段,并且获得与每一相邻帧重叠十毫秒的四十毫秒的窗上的用于每一帧的MDCT。可用于产生待由本文中揭示的系统、方法或设备处理的音频信号的MDCT变换操作的一个实例在上文引用的文档C.S0014-Dv3.0的段落4.13.4(修改离散余弦变换(MDCT),pp.4-134到4-135)中予以描述,所述段落作为MDCT变换操作的一实例以引用的方式并入本文中。
由本文中描述的方法、系统或设备处理的区段也可以是通过变换产生的块的一部分(例如,低带或高带),或者是由对此块的先前操作产生的块的一部分。在一个特定实例中,由此方法、系统或设备处理的一系列区段(或“帧”)中的每一者含有表示0到4kHz的低带频率范围的一组160MDCT系数。在一个特定实例中,由此方法、系统或设备处理的一系列帧中的每一者含有表示3.5到7kHz的高带频率范围的一组140个MDCT系数。
MDCT译码方案使用一编码窗,所述编码窗在两个或两个以上连续帧上延伸(即,与其重叠)。对于为M的帧长度,MDCT基于2M个样本的输入而产生M个系数。因此,MDCT译码方案的一个特征在于其允许变换窗在一个或一个以上帧边界上延伸而不会增加表示编码的帧所需的变换系数的数目。
可以将M个MDCT系数的计算表示为其中对于k=0,1,..., 函数w(n)通常经选择为一满足以下条件的窗:w2(n)+w2(n+M)=1(也称为普芮森-布拉德利条件(Princen-Bradleycondition))。对应的逆MDCT操作对于n=0,1,...,2M-1可表示为其中是M个接收到的MDCT系数,且是2M个解码的样本。
图1展示MDCT操作的典型正弦窗形状的三个实例。此满足普芮森-布拉德利条件的窗形状对于0≤n<2M可表示为其中n=0指示当前帧的第一样本。如图中所示,用以对当前帧(帧p)进行编码的MDCT窗804在帧p和帧(p+1)上具有非零值,且在其它方面为零值。用以对先前帧(帧(p-1))进行编码的MDCT窗802在帧(p-1)和帧p上具有非零值,且在其它方面为零值,且用以对随后帧(帧(p+1))进行编码的MDCT窗806经类似地布置。在解码器处,解码的序列用与输入序列相同的方式重叠且被相加。尽管MDCT使用重叠窗函数,但其为经精密采样的滤波器组,因为在重叠与相加之后,每帧的输入样本的数目与每帧的MDCT系数的数目相同。
图2展示可用于(例如,取代图1中图解说明的函数w(n))允许比M短的预看时间间隔的窗函数w(n)的一个实例。在图2中所示的特定实例中,预看时间间隔的长度是M/2个样本,但是此技术可以经实施以允许L个样本的任意预看,其中L具有从0到M的任何值。在此技术(其实例在上文以引用方式并入的文档C.S0014-D的段落4.13.4中描述)中,MDCT窗以长度为(M-L)/2的零填补区域开始和结束,且w(n)满足普芮森-布拉德利条件。此窗函数的一个实施方案可表达如下:
其中是当前帧p的第一样本,且是下一帧(p+1)的第一样本。根据此技术编码的信号保持了完美的重建特性(在没有量化和数值误差的情况下)。请注意,对于L=M的情况,此窗函数与图1中图解说明的窗函数相同,且对于L=0的情况,针对w(n)=1,且在其它情况下w(n)是零,使得不存在重叠。
当在频率域(例如,MDCT或FFT域)中对音频信号进行译码时,特别是在低位速率和高采样速率的情况下,译码的频谱的重要部分中可能含有零能量。这个结果可能对于作为一个或一个以上其它译码操作的残余的信号尤其是真实的,这些信号倾向于从低能量开始。这个结果在频谱的较高频率部分中可能也尤其是真实的,因为音频信号的“粉噪声”平均形状。虽然这些区域通常总体不如被译码的区域重要,但是其在解码的信号中完全不存在可能还是会导致恼人的假象,一般的“迟钝”(dullness),和/或缺乏自然度。
对于许多实际的种类的音频信号来说,此些区域的内容可能被心理声学上良好地建模为噪声。因此,可能需要通过在解码期间将噪声注入到信号中来减少此些假象。为了实现最小的位成本,可以将此噪声注入作为后期处理操作应用于频谱域音频译码方案。在解码器处,此操作可包含计算将作为译码的信号的参数来编码的合适的噪声注入增益因子。在解码器处,此操作可包含用根据噪声注入增益因子调制的噪声来填充输入的译码的信号的空白区域。
图3A展示根据一般配置处理音频信号的方法M100的框图,所述方法包含任务T100、T200、T300、T400和T500。基于来自音频信号的信息,任务T100在码簿的多个条目中选择一个条目。在分裂的VQ或多阶VQ方案中,任务T100可经配置以通过从两个或两个以上码簿中的每一者中选择一条目来将信号向量量化。任务T200确定选定码簿条目的零值元素在频率域中的位置(或基于选定码簿条目的信号(例如基于一个或一个以上额外码簿条目的信号)的此些元素的位置)。任务T300计算所确定的频率域位置处的音频信号的能量。任务T400计算音频信号内的能量分布的测量值。基于计算出的能量和计算出的能量分布值,任务T500计算噪声注入增益因子。方法M100通常经实施使得方法的相应例子针对音频信号的每一帧(例如,针对变换系数的每一块)而执行。方法M100可经配置以获取音频频谱(跨越整个带宽或某个子带)作为其输入。在一个实例中,由方法M100处理的音频信号是LPC残余域中的UB-MDCT频谱。
可能需要配置任务T100以通过将音频信号的帧的一组变换系数处理作向量来产生音频信号的经译码版本。例如,任务T100可经实施以执行向量量化(VQ)方案,所述方案通过将一向量与码簿中的一条目(解码器也知晓)匹配来对所述向量进行编码。在常规VQ方案中,码簿是向量表,且此表内的选定条目的索引用于表示所述向量。码簿索引的长度(其确定码簿中的条目的最大数目)可以是被视为适合于所述应用的任何任意整数。在脉冲译码VQ方案中,选定码簿条目(其也可称为码簿索引)描述特定的脉冲模式。在脉冲译码的情况下,条目(或索引)的长度确定对应模式中的脉冲的最大数目。在分裂的VQ或多阶VQ方案中,任务T100可经配置以通过从两个或两个以上码簿中的每一者中选择一条目来将信号向量量化。
增益形状向量量化是一种译码技术,其可用于通过将向量能量(其由增益因子表示)与向量方向(其由形状表示)分离来高效地对信号向量进行编码(例如,表示音频或图像数据)。此技术可能特别适合于信号的动态范围可能较大的应用,例如对音频信号(例如,基于语音和/或音乐的信号)的译码。
增益形状向量量化器(GSVQ)分别对信号向量x的形状和增益进行编码。图4A展示增益形状向量量化操作的实例。在此实例中,形状量化器SQ100经配置以通过以下方式来执行VQ方案:从码簿中选择量化形状向量作为码簿中与信号向量x最接近的向量(例如,在均方误差意义上最接近),且输出对码簿中的向量的索引。范数计算器NC10经配置以计算信号向量x的范数||x||,且增益量化器GQ10经配置以将所述范数量化以产生量化增益因子。增益量化器GQ10可经配置以将范数量化为标量,且将所述范数与其它增益(例如,来自所述多个向量中的其它向量的范数)组合成增益因子以用于进行向量量化。
形状量化器SQ100通常实施为向量量化器,其中约束条件是码簿向量具有单位范数(即,是单位超球面上的所有点)。此约束条件简化了码簿搜索(例如,从均方误差计算到内积运算)。例如,形状量化器SQ100可经配置以根据例如argmaxk(xTSk)等运算从K个单位范数向量Sk,k=0,1,...,K-1的码簿中选择向量此搜索可以是详尽的或优化的。例如,所述向量可在码簿内经布置以支持特定的搜索策略。
在一些情况下,可能需要将将形状量化器SQ100的输入约束为单位范数(例如,为了启用特定的码簿搜索策略)。图4B展示增益形状向量量化操作的此实例。在此实例中,规范器NL10经配置以使信号向量x规范化以产生向量范数||x||和单位范数形状向量S=x/||x||,且形状量化器SQ100经布置以接收形状向量S作为其输入。在此情况下,形状量化器SQ100可经配置以根据例如argmaxk(STSk)等运算从K个单位范数向量Sk,k=0,1,...,K-1的码簿中选择向量
或者,形状量化器可经配置以从单位脉冲模式的码簿中选择译码的向量。图4C展示此增益形状向量量化操作的实例。在此情况下,量化器SQ200经配置以选择最接近缩放形状向量Ssc(例如,在均方误差意义上最接近)的模式。此模式通常被编码为码簿条目,其指示模式中的每一所占据的位置的脉冲数目和符号。选择模式可包含对信号向量进行缩放(例如,在缩放器SC10中)以获得形状向量Ssc和对应的标量缩放因子gsc,且接着将缩放的形状向量Ssc与所述模式比较。在此情况下,缩放器SC10可经配置以对信号向量x进行缩放,以产生缩放形状向量Ssc,使得Ssc的元素的绝对值总和(在将每一元素舍入成最接近的整数之后)接近期望值(例如,23或28)。通过使用所得的缩放因子gsc来将选定模式规范化之后,可以产生对应的解量化信号向量。可由形状量化器SQ200执行以对此些模式进行编码的脉冲译码方案的实例包含阶乘脉冲译码和组合脉冲译码。可在本文中揭示的系统、方法或设备内执行的脉冲译码向量量化操作的一个实例在上文引用的文档C.S0014-Dv3.0的段落4.13.5(MDCT残余线性频谱量化,pp.4-135到4-137)和4.13.6(全局缩放因子量化,p.4-137)中予以描述,所述段落作为任务T100的实施方案的实例以引用的方式并入本文中。
图5展示在脉冲译码之前和之后的输入频谱向量(例如,MDCT频谱)的实例。在此实例中,在每一维度上的原始值由实线指示的三十维度向量由脉冲模式(0,0,-1,-1,+1,+2,-1,0,0,+1,-1,-1,+1,-1,+1,-1,-1,+2,-1,0,0,0,0,-1,+1,+1,0,0,0,0)来表示,如由指示译码的频谱的点和指示零值元素的正方形所展示。此脉冲模式通常可由远远少于三十个位的码簿条目(或索引)来表示。
任务T200确定零值元素在译码的频谱中的位置。在一个实例中,任务T200经实施以根据例如以下的表达式来产生零检测掩码:
其中zd指示零检测掩码,Xc指示译码输入频谱向量,且k指示样本索引。针对图5中所示的译码的实例,此掩码具有以下形式:{1,1,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0,1,1,1,1}。在此情况下,原始向量的百分之四十(三十个元素中的十二个)被译码为零值元素。
可能需要配置任务T200以指示零值元素在信号的频率范围的子带内的位置。在一个此实例中,Xc是表示0到4kHz的低带频率范围的160MDCT系数的向量,且任务T200经实施以根据例如以下的表达式产生零检测掩码:
(例如,为了在1000到3600Hz的频率范围上检测零值元素)。
任务T300计算在任务T200中确定的频率域位置处的音频信号的能量(例如,如由零检测掩码指示)。在这些位置处的输入频谱也可以称为“未译码输入频谱”或“输入频谱的未译码区域”。在典型的实例中,任务T300经配置以将能量计算为这些位置处的音频信号的值的平方和。对于图5中图解说明的情况,任务T300可经配置以将能量计算为在由正方形标记的频率域位置处的输入频谱的值的平方和。可根据例如以下的表达式来执行此计算:其中K表示输入向量X的长度。在另一实例中,此求和限于一子带,在所述子带上,在任务T200中计算了零检测掩码(例如,在40≤k≤143的范围上)。将了解,在产生复数值系数的变换的情况下,所述能量可以计算为在通过任务T200确定的位置处的音频信号的值的量值的平方和。
基于未译码的频谱内的能量分布的测量(即,在音频信号的确定的频率域位置中),任务T400计算对应的稀疏因子。任务T400可经配置以基于未译码的频谱的总能量(例如,如由任务T300计算)与未译码的频谱的系数的子组的总能量之间的关系来计算稀疏因子。在一个此实例中,所述子组是选自未译码频谱中具有最高能量的系数之中。可理解,这些值之间的关系[例如,(子组的能量)/(未译码的频谱的总能量)]指示未译码的频谱的能量集中或分布的程度。
在一个实例中,任务T400将稀疏因子计算为未译码的输入频谱的LC个最高能量系数的能量的总和除以未译码的输入频谱的总能量(例如,如由任务T300计算)。此计算可包含以降序对未译码的输入频谱向量的元素的能量进行排序。可能需要LC具有大约为未译码的输入频谱向量中的系数的总数的大约百分之五、六、七、八、九、十、十五或二十的值。图6A图解说明选择LC个最高能量的系数的实例。
LC的值的实例包含5、10、15和20。在一个特定实例中,LC等于十,且高带输入频谱向量的长度为140(替代地,且低带输入频谱向量的长度为144)。在本文中所述的实例中,假设任务T400在从零(例如,无能量)到一(例如,LC个最高能量系数中集中的所有能量)的标度上的稀疏因子,但是所属领域的技术人员将明白,这些原则和本文中对其的描述都不限于此约束条件。
在一个实例中,任务T400经实施以根据例如以下的表达式来计算稀疏因子:
其中β表示稀疏因子,且K表示输入向量X的长度。(在此情况下,表达式(3)中的分数的分母可从任务T300获得。)在另一实例中,用于从其选择LC个系数的库和在表达式(3)的分母中的求和限于一子带,在所述子带上在任务T200中计算了零检测掩码(例如,在40≤k≤143的范围上)。
在另一实例中,任务T400经实施以基于未译码的频谱的最高能量系数的数目来计算稀疏因子,所述未译码的频谱的能量总和超过(或者不小于)未译码的频谱的总能量的指定部分(例如,未译码的频谱的总能量的百分之5、10、12、15、20、25或30)。此计算也可限于一子带,在所述子带上,在任务T200中计算了零检测掩码(例如,在40≤k≤143的范围上)。
任务T500计算噪声注入增益因子,所述因子是基于通过任务T300计算的未译码的输入频谱的能量,和通过任务T400计算的未译码的输入频谱的稀疏因子。任务T500可经配置以计算噪声注入增益因子的初始值,所述初始值是基于在确定的频率域位置处计算的能量。在一个此实例中,任务T500经实施以根据例如以下的表达式来计算噪声注入增益因子的初始值:
其中γni表示噪声注入增益因子,K表示输入向量X的长度,且α是具有不大于一的值(例如,0.8或0.9)的因子。(在此情况下,表达式(4)中的分数的分子可从任务T300获得。)在另一实例中,表达式(4)中的求和限于一子带,在所述子带上,在任务T200中计算了零检测掩码(例如,在40≤k≤143的范围上)。
在稀疏因子具有高值时(即,当未译码的频谱不像噪声时)可能需要减小噪声增益。任务T500可经配置以使用稀疏因子来调制噪声注入增益因子,使得增益因子的值随着稀疏因子的增大而减小。图6B展示根据单调减小函数稀疏因子的值β对增益调整因子f1的值的映射的曲线图。此调制可包含于对噪声注入增益因子γni的计算中(例如,可应用于上述表达式(4)的右侧以产生噪声注入增益因子),或者因子f1可用于根据例如γni←f1×γni等表达式来更新噪声注入增益因子γni的初始值。
图6B所示的特定实例使小于指定下阈值L的稀疏因子值的增益值不加改变地通过,线性地减小在L与指定上阈值B之间的稀疏因子值的增益值,且将大于B的稀疏因子值的增益值限幅于零。此曲线图下方的线条图解说明稀疏因子的低值指示较低的能量集中程度(例如,更加分散的能量频谱),且稀疏因子的较高值指示较高的能量集中程度(例如,音调信号)。图6C展示对于L=0.5和B=0.7的值的此实例(其中假设稀疏因子的值在[0,1]的范围中)。这些实例也可经实施使得减小是非线性的。图8D展示可执行以根据图6C所示的映射来执行对噪声注入增益因子的基于稀疏的调制的伪码列表。
可能需要使用少数位来使经稀疏调制的噪声注入增益因子量化,且作为帧的辅助信息来传输量化的因子。图3B展示方法M100的实施方案M110的流程图,所述实施方案包含任务T600,其使通过任务T500产生的调制的噪声注入增益因子量化。例如,任务T600可经配置以使用标量量化器(例如,三位标量量化器)在对数标度(例如,分贝标度)上使噪声注入增益因子量化。
任务T500还可经配置以根据噪声注入增益因子自身的量值来调制噪声注入增益因子。图7A展示包含子任务T510、T520和T530的任务T500的此实施方案T502的流程图。任务T510计算噪声注入增益因子的初始值(例如,如上文参照表达式(4)所述)。任务T520对初始值执行低增益限幅操作。例如,任务T520可经配置以将在指定阈值以下的增益因子的值减小为零。图8A展示任务T520的实例的此操作的曲线图,所述任务将阈值c以下的增益值限幅为零,将c到d的范围中的值线性映射到零到d的范围,且使较高值不加改变地通过。图8B展示任务T520针对值c=200,d=400的特定实例。这些实例也可经实施使得映射是非线性的。任务T530将稀疏因子应用于通过任务T520产生的限幅增益因子(例如,通过如上所述应用增益调整因子f1来更新被限幅的因子)。图8C展示可执行以根据图8B所示的映射来执行任务T520的伪码列表。所属领域的技术人员将认识到,还可实施任务T500,使得任务T520和T530的顺序颠倒(即,使得对任务T510产生的初始值执行任务T530,且对任务T530的结果执行任务T520)。
如本文中指出,由方法M100处理的音频信号可以是输入信号的LPC分析的残余。因为LPC分析,由解码器处的对应LPC合成产生的解码的输出信号可能比输入信号大声或柔和。由对输入信号的LPC分析产生的一组系数(例如,一组反射系数或滤波器系数)可用于计算LPC增益,所述LPC增益总体上指示在信号通过解码器处的合成滤波器时预期所述信号可能会变得大声或柔和多少。
在一个实例中,LPC增益是基于LPC分析所产生的一组反射系数。在此情况下,可根据例如等表达式来计算LPC增益,其中ki是第i个反射系数,且p是LPC分析的阶。在另一个实例中,LPC增益是基于LPC分析所产生的一组滤波器系数。在此情况下,可将LPC增益计算为LPC分析滤波器的脉冲响应的能量(例如,如上文引用的文档C.S0014-Dv3.0的段落4.6.1.2(频谱转移指示符的产生(GenerationofSpectralTransitionIndicator,LPCFLAG),p.4-40)中所述,所述段落作为LPC增益计算的实例以引用的方式并入本文中)。
当LPC增益增加时,可能预期被注入到残余信号中的噪声也将被放大。此外,高LPC增益通常指示信号非常相关(例如,音调)而不是像噪声,并且将注入的噪声添加到此信号的残余可能是不当的。在此情况下,即使频谱在残余域中看起来是非稀疏的,输入信号也可能有强烈的音调,使得高LPC增益可被视为音调性的指示。
可能需要实施任务T500以根据与输入音频频谱相关联的LPC增益的值来调制噪声注入增益因子的值。例如,可能需要配置任务T500以随着LPC增益的增加而减小噪声注入增益因子的值。对噪声注入增益因子的基于LPC增益的控制(其可补充或替代任务T520的低增益限幅操作而执行)可能有助于使LPC增益的帧到帧变化变平滑。
图7B展示包含子任务T510、T530和T540的任务T500的实施方案T504的流程图。任务T540基于LPC增益对任务T530所产生的调制的噪声注入增益因子执行调整。图9A展示根据单调减小函数的LPC增益值gLPC(以分贝计)对因子z的值的映射的实例。在此实例中,当LPC增益小于u时因子z具有零值,且否则具有(2-gLPC)值。在此情况下,任务T540可经实施以根据例如γni←10z/20×γni等表达式来调整任务T530所产生的噪声注入增益因子。图9B展示其中u的值为二的特定实例的此映射的曲线图。
图9C展示图9A中所示的映射的不同实施方案的实例,其中LPC增益值gLPC(以分贝计)根据单调减小的函数被映射到增益调整因子f2的值,并且图9D展示其中u的值为二的特定实例的此映射的曲线图。图9C和9D中的曲线图的轴是对数性的。在此些情况下,任务T540可经实施以根据例如γni←f2×γni等表达式来调整任务T530所产生的噪声注入增益因子,其中当LPC增益大于二时f2的值为10(2-gLPC)20,且否则为一。图8E展示可执行以根据图9B和9D所示的映射来执行任务T540的伪码列表。所属领域的技术人员将认识到,还可实施任务T500,使得任务T530和T540的顺序颠倒(即,使得对任务T510产生的初始值执行任务T540,且对任务T540的结果执行任务T530)。图7C展示包含子任务T510、T520、T530和T540的任务T502和T504的实施方案T506的流程图。所属领域的技术人员将认识到,任务T500也可在任务T520、T530和/或T540用不同顺序执行的情况下实施(例如,其中任务T540在任务T520和/或T530上游执行,且/或其中任务T530在任务T520上游执行)。
图10B展示根据一般配置的噪声注入方法M200的流程图,所述方法包含子任务TD100、TD200和TD300。此方法例如可在解码器处执行。任务TD100获得(例如,产生)长度与输入译码频谱中的空元素的数目相同的噪声向量(例如,独立同分布(i.i.d.)高斯噪声的向量)。可能需要配置任务TD100以根据确定性函数来产生噪声向量,使得在解码器处产生的相同噪声向量也可在编码器处产生(例如,为了支持对译码的信号的闭环分析)。例如,可能需要实施任务TD100以使用用来自编码的信号的值(例如,使用任务T100所产生的码簿索引)作为种子的随机数产生器来产生噪声向量。
任务TD100可经配置以使噪声向量规范化。例如,任务TD100可经配置以缩放噪声向量使其具有等于一的范数(即,平方和)。任务TD100还可经配置以根据可从某种辅助信息(例如,帧的LPC参数)或直接从输入译码的频谱导出的函数(例如,频谱加权函数)对噪声向量执行频谱成形操作。例如,任务TD100可经配置以对高斯噪声向量应用频谱成形曲线,并且使结果规范化而具有单位能量。
可能需要执行频谱成形以维持噪声向量的期望频谱倾斜度。在一个实例中,任务TD100经配置以通过对噪声向量应用共振峰滤波器来执行频谱成形。此操作可能倾向于将噪声更多地集中在LPC滤波器系数所指示的频谱峰值周围,并且在频谱谷值中没有那么集中,这可能在感知上稍微优选。
任务TD200对噪声向量应用解量化的噪声注入增益因子。例如,任务TD200可经配置以将通过任务T600量化的噪声注入增益因子解量化,并且通过解量化的噪声注入增益因子对任务TD100所产生的噪声向量进行缩放。
任务TD300将任务TD200所产生的缩放的噪声向量的元素注入到输入的译码的频谱的对应空元素中以产生输出的译码的注入了噪声的频谱。例如,任务TD300可经配置以将一个或一个以上码簿索引(例如,由任务T100产生)解量化以获得输入的译码的频谱作为解量化的信号向量。在一个实例中,任务TD300经实施以在解量化的信号向量的一端和缩放的噪声向量的一端开始,并且遍历解量化的信号向量,从而在遍历解量化的信号向量期间遇到的每一零值元素处注入缩放的噪声向量的下一元素。在另一实例中,任务TD300经配置以根据解量化的信号向量来计算零检测掩码(例如,如本文中参照任务T200所述),对缩放的噪声向量应用所述掩码(例如,作为元素乘元素乘法),并且将所得的掩蔽的噪声向量添加到解量化的信号向量。
如上所述,可将噪声注入方法(例如,方法M100和M200)应用于对脉冲译码的信号的编码和解码。然而,总地来说,此噪声注入可以作为后期处理或后端操作一般性地应用于任何产生其中频谱的若干区域被设置为零的译码的结果的译码方案。例如,可将方法M100的此实施方案(以及方法M200的对应实施方案)应用于本文中所述的从属模式或谐波译码方案的残余的脉冲译码的结果,或者应用于其中残余被设置为零的此从属模式或谐波译码方案的输出。
音频信号的每一帧的编码通常包含将帧划分成多个子带(即,将帧作为向量划分成多个子向量),为每一子向量指派一位分配,并且将每一子向量编码成对应的分配的位数。举例来说,在典型的音频译码应用中,可能需要执行每一帧的大量(例如,十个、二十个、三十个或四十个)不同子带向量的向量量化。帧大小的实例包含(不限于)100、120、140、160和180个值(例如,变换系数),并且子带长度的实例包含(不限于)五个、六个、七个、八个、九个、十个、十一个、十二个和十六个。
包含设备A100的实施方案或以其它方式经配置以执行方法M100的音频编码器可经配置以接收音频信号的帧(例如,LPC残余)作为变换域中的样本(例如,作为变换系数,例如MDCT系数或FFT系数)。此编码器可经实施以通过根据预定划分方案(即,在接收到帧之前解码器已知的固定划分方案)将变换系数分组成一组子向量和使用增益形状向量量化方案对每一子向量进行编码来对每一帧进行编码。子向量可以但是不需要重叠,并且甚至可能彼此分开(在本文中所述的特定实例中,子向量不重叠,但在0-4-kHz低带与3.5-7-kHz高带之间描述的重叠除外)。此划分可能是预定的(例如,独立于向量内容),使得每一输入向量以相同方式划分。
在此预定划分方案的一个实例中,每一100个元素的输入向量划分成相应长度(25、35、40)的三个子向量。预定划分的另一实例将140个元素的输入向量划分成长度为七的一组二十个子向量。预定划分的另一实例将280个元素的输入向量划分成长度为七的一组四十个子向量。在此些情况下,设备A100或方法M100可经配置以接收子向量中的两个或两个以上中的每一者作为单独输入信号向量,并且计算这些子向量中的每一者的单独噪声注入增益因子。还涵盖经布置以同时处理不同子向量的设备A100或方法M100的多个实施方案。
音频信号的低位速率译码通常要求对可用于对音频信号帧的内容进行译码的位进行最优利用。可能需要识别有待编码的信号内的具有重要能量的区域。将此些区域与信号的其余部分分开可实现对这些区域的有目标的译码,以用于提高译码效率。例如,可能需要通过使用相对更多的位来对此些区域进行编码且使用相对更少的位(或甚至没有位)来对信号的其它区域进行编码而提高译码效率。在此些情况下,可能需要对这些其它区域执行方法M100,因为其译码的频谱通常将包含重大数目的零值元素。
或者,此划分可能是可变的,使得输入向量从一个帧到下一个帧以不同方式划分(例如,根据某些感知准则)。例如,可能需要通过检测信号的谐波分量并且对其进行有目标的译码来执行音频信号的高效的变换域译码。图11展示量值对频率的曲线图,其中通过靠近频率轴的条来指示长度为七的八个选定子带,其对应于低带线性预测译码(LPC)残余信号的谐波间隔峰值。在此情况下,可使用以下两个值对选定子带的位置进行建模:用以表示基本频率F0的第一选定值;和用以表示频率域中的邻近峰值之间的间隔的第二选定值。图12展示高带LPC残余信号的类似实例,其指示处于选定子带之间和内部的残余分量。在此些情况下,可能需要对残余分量(例如,分别对每一残余分量和/或对两个或两个以上残余分量的串联,且可能地对所有残余分量)执行方法M100。可在上文列出的本申请案对其主张优先权的申请案中找到对谐波建模和谐波模式译码的额外描述(包含其中基于峰值在一帧的低带区域的译码形式中的位置来峰值在相同帧的高带区域中的位置进行建模的情况)。
可变划分方案的另一实例基于感知上重要的子带在另一帧(也称为参考帧)的译码形式中的位置来识别一组感知上重要的子带在当前帧(也称为目标帧)中的位置。图10A展示此译码方案中的子带选择操作的一实例。对于具有高谐波含量的音频信号(例如,音乐信号、浊音语音信号)来说,在给定时间重大能量的区域在频率域中的位置可能随时间而相对持久。可能需要通过利用此时间上的相关性来执行对音频信号的高效变换域译码。在一个此实例中,使用动态子带选择方案将有待编码的帧的感知上重要(例如,高能量)的子带与所解码的前一帧的对应感知上重要的子带匹配(也称为“从属模式译码”)。在此些情况下,可能需要对处于选定子带之间或内部的残余分量(例如,分别对每一残余分量和/或对两个或两个以上残余分量的串联,且可能地对所有残余分量)执行方法M100。在特定应用中,使用此方案来对对应于音频信号(例如,线性预测译码(LPC)操作的残余)的0-4kHz范围的MDCT变换系数进行编码。可在上文列出的本申请案主张其优先权的申请案中找到对从属模式译码的额外描述。
通过对一组选定子带(例如,如根据上文所述的动态选择方案中的任一者选择的)进行译码和从原始信号中减去译码的组来获得残余信号的另一实例。在此情况下,可能需要对残余信号的全部或一部分执行方法M100。例如,可能需要对整个残余信号向量执行方法M100或对残余信号的两个或两个以上子向量中的每一者分别执行方法M100,所述残余信号可根据预定划分方案划分成多个子向量。
图13A展示根据一般配置的用于处理音频信号的设备MF100的框图。设备MF100包含用于基于来自音频信号的信息从码簿的多个条目中选择一个(例如,如本文中参照任务T100的实施方案所述)的装置FA100。设备MF100还包含用于确定基于选定码簿条目的第一信号的零值元素在频率域中的位置(例如,如本文中参照任务T200的实施方案所述)的装置FA200。设备MF100还包含用于计算确定的频率域位置处的音频信号的能量(例如,如本文中参照任务T300的实施方案所述)的装置FA300。设备MF100还包含用于计算确定的频率域位置处的音频信号的能量的分布的测量值(例如,如本文中参照任务T400的实施方案所述)的装置FA400。设备MF100还包含用于基于所述计算出的能量和所述计算出的值来计算噪声注入增益因子(例如,如本文中参照任务T500的实施方案所述)的装置FA500。
图13B展示根据一般配置的用于处理音频信号的设备A100的框图,所述设备包含向量量化器100、零值检测器200、能量计算器300、稀疏性计算器400和增益因子计算器500。向量量化器100经配置以基于来自音频信号的信息从码簿的多个条目中选择一个(例如,如本文中参照任务T100的实施方案所述)。零值检测器200经配置以确定基于选定码簿条目的第一信号的零值元素在频率域中的位置(例如,如本文中参照任务T200的实施方案所述)。能量计算器300经配置以计算确定的频率域位置处的音频信号的能量(例如,如本文中参照任务T300的实施方案所述)。稀疏性计算器400经配置以计算确定的频率域位置处的音频信号的能量的分布的测量值(例如,如本文中参照任务T400的实施方案所述)。增益因子计算器500经配置以基于所述计算出的能量和所述计算出的值来计算噪声注入增益因子(例如,如本文中参照任务T500的实施方案所述)。设备A100还可经实施以包含标量量化器,其经配置以将由增益因子计算器500产生的噪声注入增益因子量化(例如,如本文中参照任务T600的实施方案所述)。
图10C展示根据一般配置的噪声注入设备MF200的框图。设备MF200包含用于获得噪声向量(例如,如本文中参照任务TD100所述)的装置FD100。设备MF200还包含用于对噪声向量应用解量化的噪声注入增益因子(例如,如本文中参照任务TD200所述)的装置FD200。设备MF200还包含用于在译码的频谱处的空元素处注入缩放的噪声向量(例如,如本文中参照任务TD300所述)的装置FD300。
图10D展示根据一般配置的噪声注入设备A200的框图,所述设备包含噪声产生器D100、缩放器D200和噪声注入器D300。噪声产生器D100经配置以获得噪声向量(例如,如本文中参照任务TD100所述)。缩放器D200经配置以对噪声向量应用解量化的噪声注入增益因子(例如,如本文中参照任务TD200所述)。例如,缩放器D200可经配置以将噪声向量的每一元素与解量化的噪声注入增益因子相乘。噪声注入器D300经配置以在译码的频谱处的空元素处注入缩放的噪声向量(例如,如本文中参照任务TD300的实施方案所述)。在一个实例中,噪声注入器D300经实施以在解量化的信号向量的一端和缩放的噪声向量的一端开始,并且遍历解量化的信号向量,从而在遍历解量化的信号向量期间遇到的每一零值元素处注入缩放的噪声向量的下一元素。在另一实例中,噪声注入器D300经配置以根据解量化的信号向量来计算零检测掩码(例如,如本文中参照任务T200所述),对缩放的噪声向量应用所述掩码(例如,作为元素乘元素乘法),并且将所得的掩蔽的噪声向量添加到解量化的信号向量。
图14展示编码器E20的框图,所述编码器经配置以接收音频帧SM10作为MDCT域中的样本(例如,作为变换域系数),并且产生对应的编码的帧SE20。编码器E20包含子带编码器BE10,其经配置以对帧的多个子带进行编码(例如,根据VQ方案,例如GSVQ)。从输入帧减去译码的子带,从而产生误差信号ES10(也称为残余),其由误差编码器EE10加以编码。误差编码器EE10可经配置以使用本文中所述的脉冲译码方案对误差信号ES10进行编码,并且执行本文中所述的方法M100的实施方案以计算噪声注入增益因子。组合译码的子带与译码的误差信号(包含计算出的噪声注入增益因子的表示)以获得编码的帧SE20。
图15A-E展示编码器E100的应用范围,所述编码器经实施以在变换域中对信号进行编码(例如,通过执行本文中所述的编码方案中的任一者,例如谐波译码方案或从属模式译码方案,或者作为编码器E20的实施方案),并且还经配置以执行本文中所述的方法M100的例子。图15A展示包含变换模块MM1(例如,快速傅立叶变换或MDCT模块)和经布置以接收音频帧SA10作为变换域中的样本(即,作为变换域系数)且产生对应的编码的帧SE10的编码器E100的例子的音频处理路径的框图。
图15B展示图15A的路径的实施方案的框图,其中使用MDCT变换模块来实施变换模块MM1。修改DCT模块MM10对每一音频帧执行本文中所述的MDCT操作,从而产生一组MDCT域系数。
图15C展示包含线性预测译码分析模块AM10的图15A的路径的实施方案的框图。线性预测译码(LPC)分析模块AM10对分类的帧执行LPC分析操作,以产生一组LPC参数(例如,滤波器系数)和LPC残余信号。在一个实例中,LPC分析模块AM10经配置以对具有从零到4000Hz的带宽的帧执行第十阶LPC分析。在另一实例中,LPC分析模块AM10经配置以对代表从3500到7000Hz的高带频率范围的帧执行第六阶LPC分析。修改DCT模块MM10对LPC残余信号执行MDCT操作,以产生一组变换域系数。对应的解码路径可经配置以对编码的帧SE10进行解码,且对解码的帧执行逆MDCT变换,以获得激发信号用于输入到LPC合成滤波器。
图15D展示包含信号分类器SC10的处理路径的框图。信号分类器SC10接收音频信号的帧SA10,并且将每一帧分类成至少两个类别中的一种。例如,信号分类器SC10可经配置以将帧SA10分类成语音或音乐,使得如果帧被分类为音乐,则使用图15D所示的路径的其余部分来对其进行编码,并且如果帧被分类为语音,则使用不同的处理路径来对其进行编码。此分类可包含信号活动检测、噪声检测、周期性检测、时域稀疏性检测和/或频率域稀疏性检测。
图16A展示可由信号分类器SC10执行的信号分类(例如,对音频帧SA10中的每一者)的方法MZ100的框图。方法MC100包含任务TZ100、TZ200、TZ300、TZ400、TZ500和TZ600。任务TZ100将信号中的活动水平量化。如果活动水平低于阈值,则任务TZ200将信号编码为静默(例如,使用低位速率噪声激发线性预测(NELP)方案和/或非连续传输(DTX)方案)。如果活动水平足够高(例如,高于阈值),则任务TZ300将信号的周期性程度量化。如果任务TZ300确定信号不是周期性的,则任务TZ400使用NELP方案对信号进行编码。如果任务TZ300确定信号是周期性的,则任务TZ500在时间和/或频率域中将信号的稀疏性的程度量化。如果任务TZ500确定信号在时间域中是稀疏的,则任务TZ600使用代码激发线性预测(CELP)方案(例如,松弛CELP(RCELP)或代数CELP(ACELP))对信号进行编码。如果任务TZ500确定信号在频率域中是稀疏的,则任务TZ700使用谐波模型、从属模式或参照编码器E20所述的方案(例如,通过将信号传递到图15D中的处理路径的其余部分)对信号进行编码。
如图15D所示,处理路径可包含感知修剪模块PM10,其经配置以通过应用例如时间掩蔽、频率掩蔽和/或听觉阈值等心理声学准则而简化MDCT域信号(例如,为了减少有待编码的变换域系数的数目)。模块PM10可经实施以通过对原始音频帧SA10应用感知模型而计算此准则的值。在此实例中,编码器E100经布置以对修剪的帧进行编码以产生对应的编码的帧SE10。
图15E展示图15C和15D的路径两者的实施方案的框图,其中编码器E100经布置以对LPC残余进行编码。
图16B展示包含设备A100的实施方案的通信装置D10的框图。装置D10包含芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组),其体现设备A100(或MF100)和可能设备A200(或MF200)的元件。芯片/芯片组CS10可包含一个或一个以上处理器,其可经配置以执行设备A100或MF100的软件和/或固件部分(例如,作为指令)。
芯片/芯片组CS10包含:接收器,其经配置以接收射频(RF)通信信号,且解码和再生在RF信号内编码的音频信号;和发射器,其经配置以发射RF通信信号,所述RF通信信号描述编码的音频信号(例如,包含由设备A100产生的噪声注入增益因子的表示),所述编码的音频信号是基于由麦克风MV10产生的信号。此装置可经配置以经由一个或一个以上编码和解码方案(也称为“编解码器”)来用无线的方式发射和接收语音通信数据。此些编解码器的实例包含:增强可变速率编解码器,如第三代合作伙伴计划2(3GPP2)文档C.S0014-C,vl.0(标题为“增强可变速率编解码器,用于宽带扩展频谱数字系统的语音服务选项3、68和70(EnhancedVariableRateCodec,SpeechServiceOptions3,68,and70forWidebandSpreadSpectrumDigitalSystems)”,2007年2月(可在www-dot-3gpp-dot-org在线获得));可选模式声码器语音编解码器,如3GPP2文档C.S0030-0,v3.0(标题为“用于宽带扩展频谱通信系统的可选模式声码器(SMV)服务选项(SelectableModeVocoderServiceOptionforWidebandSpreadSpectrumCommunicationSystems)”,2004年1月(可在www-dot-3gpp-dot-org在线获得))中所述;自适应多速率(AMR)语音编解码器,如文档ETSITS126092V6.0.0(欧洲电信标准机构(ETSI),法国索菲亚-安提波利斯Cedex,2004年12月)中所述;和AMR宽带语音编解码器,如文档ETSITS126192V6.0.0(ETSI,2004年12月)中所述。例如,芯片或芯片组CS10可经配置以产生将符合一个或一个以上此些编解码器的编码的帧。
装置D10经配置以经由天线C30接收和发射RF通信信号。装置D10还可在到达天线C30的路径中包含双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入,并且经由显示器C20显示信息。在此实例中,装置D10还包含一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如,BluetoothTM)耳机等外部装置的短距离通信。在另一实例中,此通信装置本身是BluetoothTM耳机,并且没有小键盘C10、显示器C20和天线C30。
通信装置D10可体现在各种通信装置中,包含智能电话和膝上型计算机和平板式计算机。图17展示手持机H100(例如,智能电话)的前视图、后视图和侧视图,所述手持机具有布置在正面上的两个语音麦克风MV10-1和MV10-3,布置在背面上的语音麦克风MV10-2,位于正面最上角的误差麦克风ME10,和位于背面上的噪声参考麦克风MR10。扬声器LS10布置在正面的顶部中央,靠近误差麦克风ME10,还提供两个其它扬声器LS20L、LS20R(例如,用于扬声器电话应用)。此手持机的麦克风之间的最大距离通常为大约十或十二厘米。
本文中揭示的方法和设备大体上可应用于任何收发和/或音频感测应用,特别是此些应用的移动或其它方式的便携式的例子。例如,本文中揭示的配置的范围包含驻留在经配置以采用码分多址(CDMA)空中接口的无线电话通信系统的通信装置。然而,所属领域的技术人员将理解,具有本文中所描述的特征的方法和设备可驻留于采用所属领域的技术人员所已知的广泛范围的技术的各种通信系统中的任一者中,例如经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)传输信道采用IP语音(“VoIP”)的系统。
明确涵盖且特此揭示,本文中揭示的通信装置可适于在分组交换式网络(例如,经布置以根据例如VoIP等协议载运音频传输的有线和/或无线网络)和/或电路交换式网络中使用。还明确涵盖且特此揭示,本文中揭示的通信装置可适于在窄带译码系统(例如,对大约四或五千赫的音频频率范围进行编码的系统)中使用和/或在宽带译码系统(例如,对大于五千赫的音频频率进行编码的系统)中使用,包含全带宽带译码系统和分裂带宽带译码系统。
提供对所描述的配置的呈现以使得所属领域的技术人员能够制作或使用本文中揭示的方法和其它结构。本文中展示和描述的流程图、框图和其它结构只是实例,并且这些结构的其它变化形式也属于本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是应被赋予与在本文中(包含在所申请的所附权利要求书中)以任何方式揭示的原理和新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将了解,可使用各种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中所参考的数据、指令、命令、信息、信号、位和符号。
本文中揭示的配置的实施方案的重要设计要求可包含使处理延迟和/或计算复杂度(通常用每秒百万指令或MIPS来测量)最小化,特别是针对计算密集型应用,例如压缩音频或视听信息的回放(例如,根据压缩格式编码的文件或流,例如本文中识别的实例中的一者)或用于宽带通信的应用(例如,在例如12、16、44.1、48或192kHz的高于八千赫的采样速率下的语音通信)。
本文中揭示的设备(例如,设备A100和MF100)可用硬件与软件和/或与固件的被视为适合于预期应用的任何组合来实施。例如,此设备的元件可制造为电子和/或光学装置,其驻留在例如同一芯片上或芯片组中的两个或两个以上芯片之间。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同阵列内。所述阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。
本文中揭示的设备(例如,设备A100和MF100)的各种实施方案的一个或一个以上元件可整体或部分地实施为一组或一组以上指令,其经布置以在逻辑元件的一个或一个以上固定或可编程阵列上执行,所述逻辑元件例如是微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。本文中揭示的设备的实施方案的各种元件中的任一者也可体现为一个或一个以上计算机(例如,包含经编程以执行一组或一组以上或一个序列或一个以上序列的指令的一个或一个以上阵列的机器,也称为“处理器”),以及可在相同此计算机或此些计算机内实施的这些元件中的任何两个或两个以上乃至全部。
本文中揭示的处理器或其它用于处理的装置可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片之间的一个或一个以上电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。所述阵列可实施于一个或一个以上芯片内(例如,包含两个或两个以上芯片的芯片组内)。此些阵列的实例包含逻辑元件的固定或可编程阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。本文中揭示的处理器或其它用于处理的装置也可体现为一个或一个以上计算机(例如,包含经编程以执行一组或一组以上或一个序列或一个以上序列的指令的一个或一个以上阵列的机器)或其它处理器。本文中所述的处理器可以用于执行任务或执行其它不与方法M100或MF200的实施方案的程序直接有关的其它组指令,例如与其中嵌入处理器的装置或系统(例如,音频感测装置)的另一操作有关的任务。本文中揭示的方法的一部分还可以由音频感测装置的处理器执行,且方法的另一部分可以在一个或一个以上其它处理器的控制下执行。
所属领域的技术人员将了解,可将结合本文所揭示的配置而描述的各种说明性模块、逻辑块、电路和测试和其它操作实施为电子硬件、计算机软件或两者的组合。此些模块、逻辑块、电路和操作可以用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生本文中揭示的配置的任何组合来实施或执行。例如,此配置可至少部分地实施为硬连线电路,实施为制造到专用集成电路中的电路配置,或实施为加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体的软件程序,此代码是可由例如通用处理器或其它数字信号处理单元的逻辑元件的阵列执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合,或任何其它此配置。软件模块可驻留在非暂时性存储媒体中,所述媒体例如是RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸磁盘或CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器和存储媒体可作为离散组件驻留于用户终端中。
请注意,本文中揭示的各种方法(例如,方法M100和MF200的实施方案)可由例如处理器的逻辑元件阵列执行,且本文中所述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中使用,术语“模块”或“子模块”可指代任何包含软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的方法、设备、装置、单元或计算机可读数据存储媒体。应了解,多个模块或系统可组合为一个模块或系统,且一个模块或系统可被分离成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关的任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由体现在载波中的计算机数据信号经由传输媒体或通信链路传输。
本文中揭示的方法、方案和技术的实施方案还可有形地体现(例如,在本文中列出的一个或一个以上计算机可读存储媒体的有形计算机可读特征中)为可由包含逻辑元件阵列的机器(例如,处理器、微处理器、微控制器或其它有限状态机)执行的一组或一组以上指令。术语“计算机可读媒体”可包含任何可存储或传送信息的媒体,包含易失性、非易失性、可装卸和不可装卸存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置,CD-ROM/DVD或其它光盘存储装置、硬盘或任何其它可用于存储期望信息的媒体,光纤媒体、射频(RF)链路或任何其它可用于载运期望信息且可存取的媒体。计算机数据信号可包含可经由传输媒体(例如电子网络信道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或内联网等计算机网络来下载。在任何情况下,本发明的范围不应被解释为受此些实施例限制。
本文中所述的方法的任务中的每一者可直接体现为硬件、由处理器执行的软件模块或两者的组合。在本文中揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行所述方法的各种任务中的一者、一者以上乃至全部。所述任务中的一者或一者以上(可能所有)还可实施为在计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、闪存或其它非易失性存储卡、半导体存储器芯片等)中体现的代码(例如,一个或一个以上指令集),所述计算机程序产品可由包含逻辑元件的阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取且/或执行。本文中揭示的方法的实施方案的任务也可由一个以上此阵列或机器来执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置内执行,所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换和/或包交换式网络通信(例如,使用一个或一个以上协议(例如VoIP))。例如,此装置可包含经配置以接收和/或发射编码的帧的RF电路。
明确揭示,本文中揭示的各种方法可由例如手持机、耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文中所述的各种设备可包含在此装置内。典型的实时(例如,在线)应用是使用此移动装置进行的电话会话。
在一个或一个以上示范性实施例中,所描述的操作可实施于硬件、软件、固件或其任一组合中。如果在软件中实施,则可将此些操作作为一个或一个以上指令或代码而在计算机可读媒体上加以存储或传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如,传输)媒体两者。举例来说,且并非限制,计算机可读存储媒体可包括存储元件阵列,例如半导体存储器(其可包含但不限于动态或静态RAM、ROM、EEPROM和/或快闪RAM)或铁电、磁阻、双向、聚合体或相变存储器;CD-ROM或其它光盘存储装置和/或磁盘存储装置或其它磁性存储装置。此存储媒体可存储可由计算机存取的指令或数据结构的形式的信息。通信媒体可包括任何可用于载运指令或数据结构的形式的期望程序代码且可由计算机存取的媒体,包含任何便于将计算机程序从一处传送到另一处的媒体。同样,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波的无线技术包含于媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光盘、数字通用光盘(DVD)、软盘和Blu-rayDiscTM(蓝光光盘协会,加利福尼亚州大学城),其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。上文的组合也应包含在计算机可读媒体的范围内。
本文中所述的声学信号处理设备可并入到电子装置中,所述电子装置接受语音输入以便控制特定操作,或者可用其它方式受益于期望噪声与背景噪声的分离,例如通信装置。许多应用可受益于增强清楚期望声音或从起源于多个方向的背景声音分离清楚期望声音。此些应用可包含电子或计算装置中的人机接口,其并入有例如话音辨识和检测、语音增强和分离、话音激活式控制等能力。可能期望实施此声学信号处理设备以适合于仅提供有限处理能力的装置中。
本文中所述的模块、元件和装置的各种实施方案的元件可制造为电子和/或光学装置,其驻留在例如同一芯片上或芯片组中的两个或两个以上芯片之间。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)的阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC)上执行的一个或一个以上指令集。
可以使如本文中所描述的设备的实施方案的一个或一个以上元件用于执行并非与所述设备的操作直接相关的任务或其它指令集,例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还可以使此设备的实施方案的一个或一个以上元件具有共同结构(例如,用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子和/或光学装置的布置)。
Claims (30)
1.一种处理音频信号的方法,所述方法包括:
基于来自所述音频信号的信息,在码簿的多个条目中选择一个条目;
确定基于选定码簿条目的第一信号的零值元素在频率域中的位置;
计算确定的频率域位置处的所述音频信号的能量;
计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值;以及
基于计算出的能量和计算出的值,计算噪声注入增益因子。
2.根据权利要求1所述的方法,其中所述选定码簿条目是基于单位脉冲模式。
3.根据权利要求1和2中任一权利要求所述的方法,其中计算所述音频信号的所述能量的分布的测量值包含:
计算所述确定的频率域位置中的每一者处的所述音频信号的元素的能量;以及
将所述元素的计算出的能量排序。
4.根据权利要求1所述的方法,其中能量分布的所述测量值是基于以下两者之间的关系:(A)所述确定的频率域位置处的所述音频信号的元素的子组的总能量,与(B)所述确定的频率域位置处的所述音频信号的元素的总能量。
5.根据权利要求1所述的方法,其中所述噪声注入增益因子是基于以下两者之间的关系:(A)所述确定的频率域位置处的所述音频信号的所述计算出的能量,与(B)在包含所述确定的频率域位置的频率范围中的所述音频信号的能量。
6.根据权利要求1所述的方法,其中计算所述噪声注入增益因子包含:
检测所述噪声注入增益因子的初始值不大于阈值;以及
响应于所述检测对所述噪声注入增益因子的所述初始值进行限幅。
7.根据权利要求6所述的方法,其中所述噪声注入增益因子是基于对被限幅的值应用能量分布的测量的计算出的值的结果。
8.根据权利要求1所述的方法,其中所述音频信号是多个经修改的离散余弦变换系数。
9.根据权利要求1所述的方法,其中所述音频信号是基于对第二音频信号的线性预测译码分析的残余。
10.根据权利要求9所述的方法,其中所述噪声注入增益因子还基于线性预测译码增益,且
其中所述线性预测译码增益是基于由对所述第二音频信号的所述线性预测译码分析产生的一组系数。
11.一种用于处理音频信号的设备,所述设备包括:
用于基于来自所述音频信号的信息在码簿的多个条目中选择一个条目的装置;
用于确定基于选定码簿条目的第一信号的零值元素在频率域中的位置的装置;
用于计算确定的频率域位置处的所述音频信号的能量的装置;
用于计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值的装置;以及
用于基于计算出的能量和计算出的值计算噪声注入增益因子的装置。
12.根据权利要求11所述的设备,其中所述选定码簿条目是基于单位脉冲模式。
13.根据权利要求11和12中任一权利要求所述的设备,其中用于计算所述音频信号的所述能量的分布的测量值的装置包含:
用于计算所述确定的频率域位置中的每一者处的所述音频信号的元素的能量的装置;以及
用于将所述元素的计算出的能量排序的装置。
14.根据权利要求11所述的设备,其中能量分布的所述测量值是基于以下两者之间的关系:(A)所述确定的频率域位置处的所述音频信号的元素的子组的总能量,与(B)所述确定的频率域位置处的所述音频信号的元素的总能量。
15.根据权利要求11所述的设备,其中所述噪声注入增益因子是基于以下两者之间的关系:(A)所述确定的频率域位置处的所述音频信号的所述计算出的能量,与(B)在包含所述确定的频率域位置的频率范围中的所述音频信号的能量。
16.根据权利要求11所述的设备,其中用于计算所述噪声注入增益因子的装置包含:
用于检测所述噪声注入增益因子的初始值不大于阈值的装置;以及
用于响应于所述检测对所述噪声注入增益因子的所述初始值进行限幅的装置。
17.根据权利要求16所述的设备,其中所述噪声注入增益因子是基于对被限幅的值应用能量分布的测量的计算出的值的结果。
18.根据权利要求11所述的设备,其中所述音频信号是多个经修改的离散余弦变换系数。
19.根据权利要求11所述的设备,其中所述音频信号是基于对第二音频信号的线性预测译码分析的残余。
20.根据权利要求19所述的设备,其中所述噪声注入增益因子还基于线性预测译码增益,且
其中所述线性预测译码增益是基于由对所述第二音频信号的所述线性预测译码分析产生的一组系数。
21.一种用于处理音频信号的设备,所述设备包括:
向量量化器,其经配置以基于来自所述音频信号的信息在码簿的多个条目中选择一个条目;
零值检测器,其经配置以确定基于选定码簿条目的第一信号的零值元素在频率域中的位置;
能量计算器,其经配置以计算确定的频率域位置处的所述音频信号的能量;
稀疏性计算器,其经配置以计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值;以及
增益因子计算器,其经配置以基于计算出的能量和计算出的值来计算噪声注入增益因子。
22.根据权利要求21所述的设备,其中所述选定码簿条目是基于单位脉冲模式。
23.根据权利要求21和22中任一权利要求所述的设备,其中所述稀疏性计算器经配置以计算所述确定的频率域位置处的所述音频信号的元素的能量,并且将所述元素的计算出的能量排序。
24.根据权利要求21所述的设备,其中能量分布的所述测量值是基于以下两者之间的关系:(A)所述确定的频率域位置处的所述音频信号的元素的子组的总能量,与(B)所述确定的频率域位置处的所述音频信号的元素的总能量。
25.根据权利要求21所述的设备,其中所述噪声注入增益因子是基于以下两者之间的关系:(A)所述确定的频率域位置处的所述音频信号的所述计算出的能量,与(B)包含所述确定的频率域位置的频率范围中的所述音频信号的能量。
26.根据权利要求21所述的设备,其中所述增益因子计算器经配置以检测所述噪声注入增益因子的初始值不大于阈值,且响应于所述检测对所述噪声注入增益因子的所述初始值进行限幅。
27.根据权利要求26所述的设备,其中所述噪声注入增益因子是基于对被限幅的值应用能量分布的测量的计算出的值的结果。
28.根据权利要求21所述的设备,其中所述音频信号是多个经修改的离散余弦变换系数。
29.根据权利要求21所述的设备,其中所述音频信号是基于对第二音频信号的线性预测译码分析的残余。
30.根据权利要求29所述的设备,其中所述噪声注入增益因子还基于线性预测译码增益,且
其中所述线性预测译码增益是基于由对所述第二音频信号的所述线性预测译码分析产生的一组系数。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37456510P | 2010-08-17 | 2010-08-17 | |
US61/374,565 | 2010-08-17 | ||
US38423710P | 2010-09-17 | 2010-09-17 | |
US61/384,237 | 2010-09-17 | ||
US201161470438P | 2011-03-31 | 2011-03-31 | |
US61/470,438 | 2011-03-31 | ||
US13/211,027 | 2011-08-16 | ||
US13/211,027 US9208792B2 (en) | 2010-08-17 | 2011-08-16 | Systems, methods, apparatus, and computer-readable media for noise injection |
PCT/US2011/048056 WO2012024379A2 (en) | 2010-08-17 | 2011-08-17 | Systems, methods, apparatus, and computer-readable media for noise injection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103069482A CN103069482A (zh) | 2013-04-24 |
CN103069482B true CN103069482B (zh) | 2015-12-16 |
Family
ID=45594772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180039077.4A Active CN103069482B (zh) | 2010-08-17 | 2011-08-17 | 用于噪声注入的系统、方法和设备 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9208792B2 (zh) |
EP (1) | EP2606487B1 (zh) |
JP (1) | JP5680755B2 (zh) |
KR (1) | KR101445512B1 (zh) |
CN (1) | CN103069482B (zh) |
ES (1) | ES2808302T3 (zh) |
HU (1) | HUE049109T2 (zh) |
WO (1) | WO2012024379A2 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL2304719T3 (pl) | 2008-07-11 | 2017-12-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder audio, sposoby dostarczania strumienia audio oraz program komputerowy |
EP3693963B1 (en) * | 2009-10-15 | 2021-07-21 | VoiceAge Corporation | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms |
US8831933B2 (en) | 2010-07-30 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization |
EP2681734B1 (en) * | 2011-03-04 | 2017-06-21 | Telefonaktiebolaget LM Ericsson (publ) | Post-quantization gain correction in audio coding |
PL397008A1 (pl) * | 2011-11-17 | 2013-05-27 | Politechnika Poznanska | Sposób kodowania obrazu |
WO2013147666A1 (en) * | 2012-03-29 | 2013-10-03 | Telefonaktiebolaget L M Ericsson (Publ) | Transform encoding/decoding of harmonic audio signals |
CN104620315B (zh) | 2012-07-12 | 2018-04-13 | 诺基亚技术有限公司 | 一种矢量量化的方法及装置 |
PT2951818T (pt) * | 2013-01-29 | 2019-02-25 | Fraunhofer Ges Forschung | Conceito de preenchimento de ruído |
ES2732560T3 (es) * | 2013-01-29 | 2019-11-25 | Fraunhofer Ges Forschung | Llenado de ruido sin información secundaria para codificadores tipo celp |
WO2014168777A1 (en) * | 2013-04-10 | 2014-10-16 | Dolby Laboratories Licensing Corporation | Speech dereverberation methods, devices and systems |
US9502044B2 (en) | 2013-05-29 | 2016-11-22 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US20150149157A1 (en) * | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Frequency domain gain shape estimation |
US9542955B2 (en) | 2014-03-31 | 2017-01-10 | Qualcomm Incorporated | High-band signal coding using multiple sub-bands |
US10770087B2 (en) * | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
CN107424621B (zh) * | 2014-06-24 | 2021-10-26 | 华为技术有限公司 | 音频编码方法和装置 |
US10847170B2 (en) * | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
CN105578115B (zh) * | 2015-12-22 | 2016-10-26 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN108701462B (zh) * | 2016-03-21 | 2020-09-25 | 华为技术有限公司 | 加权矩阵系数的自适应量化 |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
CN113691224A (zh) * | 2021-08-12 | 2021-11-23 | 上海艾为电子技术股份有限公司 | 数字音频功放电路、芯片及减小空闲音的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424939B1 (en) * | 1997-07-14 | 2002-07-23 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method for coding an audio signal |
Family Cites Families (110)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3978287A (en) | 1974-12-11 | 1976-08-31 | Nasa | Real time analysis of voiced sounds |
US4516258A (en) | 1982-06-30 | 1985-05-07 | At&T Bell Laboratories | Bit allocation generator for adaptive transform coder |
JPS6333935A (ja) | 1986-07-29 | 1988-02-13 | Sharp Corp | ゲイン/シエイプ・ベクトル量子化器 |
US4899384A (en) | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
JPH01205200A (ja) | 1988-02-12 | 1989-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方式 |
US4964166A (en) | 1988-05-26 | 1990-10-16 | Pacific Communication Science, Inc. | Adaptive transform coder having minimal bit allocation processing |
US5388181A (en) | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5630011A (en) | 1990-12-05 | 1997-05-13 | Digital Voice Systems, Inc. | Quantization of harmonic amplitudes representing speech |
US5222146A (en) | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
EP0551705A3 (en) | 1992-01-15 | 1993-08-18 | Ericsson Ge Mobile Communications Inc. | Method for subbandcoding using synthetic filler signals for non transmitted subbands |
CA2088082C (en) | 1992-02-07 | 1999-01-19 | John Hartung | Dynamic bit allocation for three-dimensional subband video coding |
IT1257065B (it) | 1992-07-31 | 1996-01-05 | Sip | Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi. |
KR100188912B1 (ko) | 1992-09-21 | 1999-06-01 | 윤종용 | 서브밴드코딩의 비트재할당 방법 |
US5664057A (en) * | 1993-07-07 | 1997-09-02 | Picturetel Corporation | Fixed bit rate speech encoder/decoder |
JP3228389B2 (ja) | 1994-04-01 | 2001-11-12 | 株式会社東芝 | 利得形状ベクトル量子化装置 |
TW271524B (zh) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5751905A (en) | 1995-03-15 | 1998-05-12 | International Business Machines Corporation | Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system |
SE506379C3 (sv) | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
US5692949A (en) * | 1995-11-17 | 1997-12-02 | Minnesota Mining And Manufacturing Company | Back-up pad for use with abrasive articles |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5781888A (en) | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
JP3240908B2 (ja) | 1996-03-05 | 2001-12-25 | 日本電信電話株式会社 | 声質変換方法 |
JPH09288498A (ja) | 1996-04-19 | 1997-11-04 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
JP3707153B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
KR20030096444A (ko) | 1996-11-07 | 2003-12-31 | 마쯔시다덴기산교 가부시키가이샤 | 음원 벡터 생성 장치 및 방법 |
FR2761512A1 (fr) * | 1997-03-25 | 1998-10-02 | Philips Electronics Nv | Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif |
US6064954A (en) | 1997-04-03 | 2000-05-16 | International Business Machines Corp. | Digital audio signal coding |
CN1231050A (zh) | 1997-07-11 | 1999-10-06 | 皇家菲利浦电子有限公司 | 具有改进谐波语音编码器的发射机 |
US6233550B1 (en) | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US5999897A (en) | 1997-11-14 | 1999-12-07 | Comsat Corporation | Method and apparatus for pitch estimation using perception based analysis by synthesis |
JPH11224099A (ja) | 1998-02-06 | 1999-08-17 | Sony Corp | 位相量子化装置及び方法 |
JP3802219B2 (ja) | 1998-02-18 | 2006-07-26 | 富士通株式会社 | 音声符号化装置 |
US6301556B1 (en) | 1998-03-04 | 2001-10-09 | Telefonaktiebolaget L M. Ericsson (Publ) | Reducing sparseness in coded speech signals |
US6115689A (en) | 1998-05-27 | 2000-09-05 | Microsoft Corporation | Scalable audio coder and decoder |
JP3515903B2 (ja) | 1998-06-16 | 2004-04-05 | 松下電器産業株式会社 | オーディオ符号化のための動的ビット割り当て方法及び装置 |
US6094629A (en) | 1998-07-13 | 2000-07-25 | Lockheed Martin Corp. | Speech coding system and method including spectral quantizer |
US7272556B1 (en) | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6766288B1 (en) | 1998-10-29 | 2004-07-20 | Paul Reed Smith Guitars | Fast find fundamental method |
US6363338B1 (en) | 1999-04-12 | 2002-03-26 | Dolby Laboratories Licensing Corporation | Quantization in perceptual audio coders with compensation for synthesis filter noise spreading |
US6246345B1 (en) | 1999-04-16 | 2001-06-12 | Dolby Laboratories Licensing Corporation | Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding |
EP1175670B2 (en) | 1999-04-16 | 2007-09-19 | Dolby Laboratories Licensing Corporation | Using gain-adaptive quantization and non-uniform symbol lengths for audio coding |
JP4242516B2 (ja) | 1999-07-26 | 2009-03-25 | パナソニック株式会社 | サブバンド符号化方式 |
US6236960B1 (en) | 1999-08-06 | 2001-05-22 | Motorola, Inc. | Factorial packing method and apparatus for information coding |
US6782360B1 (en) | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6952671B1 (en) | 1999-10-04 | 2005-10-04 | Xvd Corporation | Vector quantization with a non-structured codebook for audio compression |
JP2001242896A (ja) | 2000-02-29 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 音声符号化/復号装置およびその方法 |
JP3404350B2 (ja) | 2000-03-06 | 2003-05-06 | パナソニック モバイルコミュニケーションズ株式会社 | 音声符号化パラメータ取得方法、音声復号方法及び装置 |
CA2359260C (en) | 2000-10-20 | 2004-07-20 | Samsung Electronics Co., Ltd. | Coding apparatus and method for orientation interpolator node |
GB2375028B (en) | 2001-04-24 | 2003-05-28 | Motorola Inc | Processing speech signals |
JP3636094B2 (ja) | 2001-05-07 | 2005-04-06 | ソニー株式会社 | 信号符号化装置及び方法、並びに信号復号装置及び方法 |
DE60209888T2 (de) | 2001-05-08 | 2006-11-23 | Koninklijke Philips Electronics N.V. | Kodieren eines audiosignals |
JP3601473B2 (ja) | 2001-05-11 | 2004-12-15 | ヤマハ株式会社 | ディジタルオーディオ圧縮回路および伸長回路 |
KR100347188B1 (en) | 2001-08-08 | 2002-08-03 | Amusetec | Method and apparatus for judging pitch according to frequency analysis |
US7027982B2 (en) | 2001-12-14 | 2006-04-11 | Microsoft Corporation | Quality and rate control strategy for digital audio |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7310598B1 (en) | 2002-04-12 | 2007-12-18 | University Of Central Florida Research Foundation, Inc. | Energy based split vector quantizer employing signal representation in multiple transform domains |
DE10217297A1 (de) | 2002-04-18 | 2003-11-06 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten |
JP4296752B2 (ja) | 2002-05-07 | 2009-07-15 | ソニー株式会社 | 符号化方法及び装置、復号方法及び装置、並びにプログラム |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
TWI288915B (en) * | 2002-06-17 | 2007-10-21 | Dolby Lab Licensing Corp | Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components |
KR100728428B1 (ko) | 2002-09-19 | 2007-06-13 | 마츠시타 덴끼 산교 가부시키가이샤 | 오디오 디코딩 장치 및 오디오 디코딩 방법 |
JP4657570B2 (ja) | 2002-11-13 | 2011-03-23 | ソニー株式会社 | 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体 |
FR2849727B1 (fr) | 2003-01-08 | 2005-03-18 | France Telecom | Procede de codage et de decodage audio a debit variable |
JP4191503B2 (ja) | 2003-02-13 | 2008-12-03 | 日本電信電話株式会社 | 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム |
WO2005020210A2 (en) | 2003-08-26 | 2005-03-03 | Sarnoff Corporation | Method and apparatus for adaptive variable bit rate audio encoding |
US7613607B2 (en) | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
CN1998045A (zh) | 2004-07-13 | 2007-07-11 | 松下电器产业株式会社 | 音调频率估计装置以及音调频率估计方法 |
US20060015329A1 (en) | 2004-07-19 | 2006-01-19 | Chu Wai C | Apparatus and method for audio coding |
JP4977471B2 (ja) | 2004-11-05 | 2012-07-18 | パナソニック株式会社 | 符号化装置及び符号化方法 |
JP4599558B2 (ja) | 2005-04-22 | 2010-12-15 | 国立大学法人九州工業大学 | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 |
JP4950210B2 (ja) | 2005-11-04 | 2012-06-13 | ノキア コーポレイション | オーディオ圧縮 |
CN101030378A (zh) | 2006-03-03 | 2007-09-05 | 北京工业大学 | 一种建立增益码书的方法 |
KR100770839B1 (ko) | 2006-04-04 | 2007-10-26 | 삼성전자주식회사 | 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치 |
US8712766B2 (en) | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
US7987089B2 (en) | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
US8374857B2 (en) | 2006-08-08 | 2013-02-12 | Stmicroelectronics Asia Pacific Pte, Ltd. | Estimating rate controlling parameters in perceptual audio encoders |
US20080059201A1 (en) * | 2006-09-03 | 2008-03-06 | Chih-Hsiang Hsiao | Method and Related Device for Improving the Processing of MP3 Decoding and Encoding |
JP4396683B2 (ja) | 2006-10-02 | 2010-01-13 | カシオ計算機株式会社 | 音声符号化装置、音声符号化方法、及び、プログラム |
WO2008045846A1 (en) * | 2006-10-10 | 2008-04-17 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
US20080097757A1 (en) | 2006-10-24 | 2008-04-24 | Nokia Corporation | Audio coding |
KR100862662B1 (ko) | 2006-11-28 | 2008-10-10 | 삼성전자주식회사 | 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치 |
CN101548316B (zh) | 2006-12-13 | 2012-05-23 | 松下电器产业株式会社 | 编码装置、解码装置以及其方法 |
EP2101322B1 (en) | 2006-12-15 | 2018-02-21 | III Holdings 12, LLC | Encoding device, decoding device, and method thereof |
FR2912249A1 (fr) | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
DE602007004943D1 (de) | 2007-03-23 | 2010-04-08 | Honda Res Inst Europe Gmbh | Tonhöhenextraktion mit Hemmung der Harmonischen und Subharmonischen der Grundfrequenz |
US9653088B2 (en) | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8005023B2 (en) * | 2007-06-14 | 2011-08-23 | Microsoft Corporation | Client-side echo cancellation for multi-party audio conferencing |
US7774205B2 (en) | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
US7761290B2 (en) * | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US8111176B2 (en) | 2007-06-21 | 2012-02-07 | Koninklijke Philips Electronics N.V. | Method for encoding vectors |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
DK3401907T3 (da) * | 2007-08-27 | 2020-03-02 | Ericsson Telefon Ab L M | Fremgangsmåde og indretning til perceptuel spektral afkodning af et audiosignal omfattende udfyldning af spektrale huller |
CN101842833B (zh) * | 2007-09-11 | 2012-07-18 | 沃伊斯亚吉公司 | 语音和音频编码中快速代数码本搜索的方法和设备 |
US8527265B2 (en) | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US8139777B2 (en) * | 2007-10-31 | 2012-03-20 | Qnx Software Systems Co. | System for comfort noise injection |
CN101465122A (zh) | 2007-12-20 | 2009-06-24 | 株式会社东芝 | 语音的频谱波峰的检测以及语音识别方法和系统 |
US20090319261A1 (en) | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
EP2410522B1 (en) * | 2008-07-11 | 2017-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, method for encoding an audio signal and computer program |
PL2304719T3 (pl) | 2008-07-11 | 2017-12-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder audio, sposoby dostarczania strumienia audio oraz program komputerowy |
US8300616B2 (en) | 2008-08-26 | 2012-10-30 | Futurewei Technologies, Inc. | System and method for wireless communications |
WO2010053287A2 (en) * | 2008-11-04 | 2010-05-14 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
CA3162807C (en) | 2009-01-16 | 2024-04-23 | Dolby International Ab | Cross product enhanced harmonic transposition |
US8493244B2 (en) | 2009-02-13 | 2013-07-23 | Panasonic Corporation | Vector quantization device, vector inverse-quantization device, and methods of same |
FR2947945A1 (fr) | 2009-07-07 | 2011-01-14 | France Telecom | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
AU2011226143B9 (en) | 2010-03-10 | 2015-03-19 | Dolby International Ab | Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context |
WO2011141772A1 (en) | 2010-05-12 | 2011-11-17 | Nokia Corporation | Method and apparatus for processing an audio signal based on an estimated loudness |
US8831933B2 (en) | 2010-07-30 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization |
-
2011
- 2011-08-16 US US13/211,027 patent/US9208792B2/en active Active
- 2011-08-17 CN CN201180039077.4A patent/CN103069482B/zh active Active
- 2011-08-17 WO PCT/US2011/048056 patent/WO2012024379A2/en active Application Filing
- 2011-08-17 ES ES11750025T patent/ES2808302T3/es active Active
- 2011-08-17 EP EP11750025.6A patent/EP2606487B1/en active Active
- 2011-08-17 KR KR1020137006753A patent/KR101445512B1/ko active IP Right Grant
- 2011-08-17 HU HUE11750025A patent/HUE049109T2/hu unknown
- 2011-08-17 JP JP2013524957A patent/JP5680755B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424939B1 (en) * | 1997-07-14 | 2002-07-23 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method for coding an audio signal |
Non-Patent Citations (1)
Title |
---|
Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems;3rd Generation Partnership Project 2;《3GPP2 C.S0014-D v2.0》;www.3gpp2.org/public_html/specs/C.S0014-D_v2.0_EVRC.pdf;20100125;第4.13.1-4.13.5,4.13.7部分 * |
Also Published As
Publication number | Publication date |
---|---|
HUE049109T2 (hu) | 2020-09-28 |
EP2606487A2 (en) | 2013-06-26 |
EP2606487B1 (en) | 2020-04-29 |
US9208792B2 (en) | 2015-12-08 |
ES2808302T3 (es) | 2021-02-26 |
JP5680755B2 (ja) | 2015-03-04 |
KR101445512B1 (ko) | 2014-09-26 |
WO2012024379A3 (en) | 2012-04-26 |
KR20130030332A (ko) | 2013-03-26 |
CN103069482A (zh) | 2013-04-24 |
JP2013539068A (ja) | 2013-10-17 |
US20120046955A1 (en) | 2012-02-23 |
WO2012024379A2 (en) | 2012-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103069482B (zh) | 用于噪声注入的系统、方法和设备 | |
CN103052984B (zh) | 用于动态位分配的系统、方法、设备 | |
CN102934163B (zh) | 用于宽带语音编码的系统、方法、设备 | |
CN104937662B (zh) | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 | |
EP2599079A2 (en) | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals | |
HUE035162T2 (en) | Systems, procedures, equipment and computer-readable media for decoding harmonic signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |