CN103503063B - 填充变换编码音频信号中的非编码子向量 - Google Patents
填充变换编码音频信号中的非编码子向量 Download PDFInfo
- Publication number
- CN103503063B CN103503063B CN201180070735.6A CN201180070735A CN103503063B CN 103503063 B CN103503063 B CN 103503063B CN 201180070735 A CN201180070735 A CN 201180070735A CN 103503063 B CN103503063 B CN 103503063B
- Authority
- CN
- China
- Prior art keywords
- subvector
- residual error
- code book
- virtual code
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 21
- 230000006835 compression Effects 0.000 claims abstract description 58
- 238000007906 compression Methods 0.000 claims abstract description 58
- 238000001228 spectrum Methods 0.000 claims abstract description 33
- 239000000945 filler Substances 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 27
- 230000008447 perception Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 33
- 238000005516 engineering process Methods 0.000 description 19
- 238000013139 quantization Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005429 filling process Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于填充变换编码音频信号的非编码残差子向量的频谱滤波器,包括子向量压缩器(42),被配置为压缩实际编码的残差子向量。子向量拒绝器(44)被配置为拒绝不满足预定的稀疏标准的压缩残差子向量。子向量收集器(46)被配置为级联剩余的压缩残差子向量以形成第一虚拟码本(VC1)。系数组合器(48)被配置为组合第一虚拟码本(VC1)的系数对以形成第二虚拟码本(VC2)。子向量填充器(50)被配置为使用来自第一虚拟码本(VC1)的系数填充在预定频率以下的非编码残差子向量,并且使用来自第二虚拟码本(VC2)的系数填充在预定频率以上的非编码残差子向量。
Description
技术领域
本技术涉及音频信号编码,具体地涉及填充变换编码音频信号中的非编码子向量。
背景技术
图1示出了典型的基于变换编码的编码器/解码器系统。
变换编码中的主要步骤是:
A、例如通过修正的离散余弦变换(MDCT)将短音频帧(20-40ms)变换到频域。
B、将MDCT向量X(k)划分到多个频带中(子向量SV1、SV2、……),如图2所示。通常,频带的宽度随着频率的增高而增加[1]。
C、计算每一个频带中的能量。这提供了频谱包络的近似,如图3所示。
D、量化频谱包络,并且将量化索引发送到解码器。
E、通过使用包络增益缩放MDCT向量来获得残差向量,例如,通过将MDCT子向量(SV1、SV2、……)缩放至单位均方根(RMS)能量来形成残差向量。
F、基于包络能量来指派用于量化不同残差子向量的比特。由于有限的比特预算,未向子向量中的一些指派任何比特。在图4中示出了这一点,在图4中,未向与在阈值TH以下的包络增益相对应的子向量指派任何比特。
G、根据指派的比特来量化残差子向量,并且将量化索引发送到解码器。例如,可以使用阶乘脉冲编码(FPC)方案[2]来执行残差量化。
H、不对被指派零个比特的残差子向量进行编码,而是取而代之地在解码器处对被指派零个比特的残差子向量进行噪声填充。这一点是通过以级联解码频谱的感知相关系数的方式从编码子向量创建虚拟码本(VC)来实现的。VC创建非编码残差子向量中的内容。
I、在解码器处,通过使用相应的包络增益对残差子向量进行放大来重构MDCT向量,并且逆MDCT用于重构时域音频帧。
例如,如[1]中的传统的噪声填充方案的缺点是在于,当与FPC方案一起使用时,它在步骤H中在重构的音频信号中造成了可听的失真。
发明内容
总的目的是对变换编码音频信号的非编码残差子向量的改善的填充。
另一个目的是生成用于填充非编码残差子向量的虚拟码本。
根据所附权利要求实现这些目的。
本技术的第一方面涉及一种填充变换编码音频信号的非编码残差子向量的方法。该方法包括以下步骤:
·压缩实际编码的残差子向量。
·拒绝不满足预定的稀疏标准的压缩残差子向量。
·级联剩余的压缩残差子向量以形成第一虚拟码本。
·组合所述第一虚拟码本的系数对以形成第二虚拟码本。
·使用来自所述第一虚拟码本的系数来填充在预定频率以下的非编码残差子向量。
·使用来自所述第二虚拟码本的系数来填充在预定频率以上的非编码残差子向量。
本技术的第二方面涉及一种生成用于填充变换编码音频信号中在预定频率以下的非编码残差子向量的虚拟码本的方法。所述方法包括以下步骤:
·压缩实际编码的残差子向量。
·拒绝不满足预定的稀疏标准的压缩残差子向量。
·级联剩余的压缩残差子向量以形成所述虚拟码本。
本技术的第三方面涉及一种生成用于填充变换编码音频信号中在预定频率以上的非编码残差子向量的虚拟码本的方法。所述方法包括以下步骤:
·根据第二方面所述生成第一虚拟码本。
·组合所述第一虚拟码本的系数对。
本技术的第四方面涉及一种用于填充变换编码音频信号的非编码残差子向量的频谱填充器。所述频谱填充器包括:
·子向量压缩器,被配置为压缩实际编码的残差子向量。
·子向量拒绝器,被配置为拒绝不满足预定的稀疏标准的压缩残差子向量。
·子向量收集器,被配置为级联剩余的压缩残差子向量以形成第一虚拟码本。
·系数组合器,被配置为组合所述第一虚拟码本的系数对以形成第二虚拟码本。
·子向量填充器,被配置为使用来自所述第一虚拟码本的系数来填充在预定频率以下的非编码残差子向量,以及使用来自所述第二虚拟码本的系数来填充在预定频率以上的非编码残差子向量。
本技术的第五方面涉及一种解码器,包括根据第四方面所述的频谱填充器。
本技术的第六方面涉及一种用户设备,包括根据第五方面所述的解码器。
本技术的第七方面涉及一种用于生成用于填充变换编码音频信号中在预定频率以下的非编码残差子向量的低频虚拟码本的低频虚拟码本生成器。所述低频虚拟码本生成器包括:
·子向量压缩器,被配置为压缩实际编码的残差子向量。
·子向量拒绝器,被配置为拒绝不满足预定的稀疏标准的压缩残差子向量。
·子向量收集器,被配置为级联剩余的压缩残差子向量以形成所述低频虚拟码本。
本技术的第八方面涉及一种用于生成用于填充变换编码音频信号中在预定频率以上的非编码残差子向量的高频虚拟码本的高频虚拟码本生成器。所述高频虚拟码本生成器包括:
·根据第七方面所述的被配置为生成低频虚拟码本的低频虚拟码本生成器。
·系数组合器,被配置为组合所述低频虚拟码本的系数对以形成所述高频虚拟码本。
与传统的噪声填充相比,本频谱填充技术的优点是解码的音频信号的感知改进。
附图说明
通过参照结合附图给出的以下描述,可以最佳地理解本技术以及本技术的其它目的和优点,在附图中:
图1是示出了典型的基于变换的音频编码/解码系统的框图;
图2是示出了MDCT向量的结构的示意图;
图3是示出了MDCT向量的子向量的能量分布的示意图;
图4是示出了使用频谱包络来进行比特分配的示意图;
图5是示出了编码残差的示意图;
图6是示出了压缩编码残差的示意图;
图7是示出了拒绝编码残差子向量的示意图;
图8是示出了级联依然存在的残差子向量以形成第一虚拟码本的示意图;
图9A至图9B是示出了组合来自第一虚拟码本的系数以形成第二虚拟码本的示意图;
图10是示出了低频虚拟码本生成器的示例性实施例的框图;
图11是示出了高频虚拟码本生成器的示例性实施例的框图;
图12是示出了频谱填充器的示例性实施例的框图;
图13是示出了包括频谱填充器的解码器的示例性实施例的框图;
图14是示出了低频虚拟码本生成的流程图;
图15是示出了高频虚拟码本生成的流程图;
图16是示出了频谱填充的流程图;
图17是示出了低频虚拟码本生成器的示例性实施例的框图;
图18是示出了高频虚拟码本生成器的示例性实施例的框图;
图19是示出了频谱填充器的示例性实施例的框图;以及
图20是示出了用户设备的示例性实施例的框图。
具体实施方式
在更详细地描述本技术之前,将参照图1至图7简短地描述基于变换的编码/解码。
图1是示出了典型的基于变换的音频编码/解码系统的框图。输入信号x(n)被转发给频率变换器,例如,MDCT变换器10,在该频率变换器处,短音频帧(20-40ms)被转换到频域。由此产生的频域信号X(k)被划分到多个频带中(子向量SV1、SV2、……),如图2所示。通常,频带的宽度随着频率的增高而增加[1]。在包络计算器和量化器12中确定每一个频带的能量。这提供了频谱包络的近似,如图3所示。在子向量归一化器14中,通过使用相应的量化包络值(增益)的倒数进行缩放来将每一个子向量归一化为残差子向量。
比特分配器16基于包络能量指派用于量化不同残差子向量的比特。由于有限的比特预算,因此未向子向量中的一些指派任何比特。在图4中示出了这一点,在图4中,未向与在阈值TH以下的包络增益相对应的子向量指派任何比特。在子向量量化器18中根据指派的比特来量化残差子向量。例如,可以使用阶乘脉冲编码(FPC)方案[2]来执行残差量化。然后,通过复用器(MUX)20将残差子向量量化索引和包络量化索引发送到解码器。
在解码器处,在解复用器(DEMUX)22中将接收的比特流解复用为残差子向量量化索引和包络量化索引。在子向量解量化器24中将残差子向量量化索引解量化为残差子向量,并且在包络解量化器26中将包络量化索引解量化为包络增益。比特分配器28使用包络增益来控制残差子向量解量化。
在编码器处不对被指派零个比特的残差子向量进行编码,而是取而代之地在解码器处由噪声填充器30对被指派零个比特的残差子向量进行噪声填充。这一点是通过以级联解码频谱的感知相关的系数的方式根据编码子向量创建虚拟码本(VC)来实现的([1]的部分8.4.1)。因此,VC创建非编码残差子向量中的内容。
在解码器处,然后通过在包络成形器32中使用相应的包络增益放大残差子向量并且在逆MDCT变换器34中对由此产生的频域向量进行变换,以重构MDCT向量
上文所描述的传统的噪声填充方案的缺点在于,当与FPC方案一起使用时,它在重构的音频信号中造成了可听的失真。主要原因是编码向量中的一些可能过于稀疏,这在噪声填充的频带中造成了能量失配的问题。此外,编码向量中的一些可能包含过多结构(颜色),当在高频执行噪声填充时,这导致感知下降。
下面的描述将集中于上面的步骤H中的虚拟码本生成的改进过程的实施例。
如图6所示,根据下式来压缩或量化图5中所示的编码残差
该步骤确保在噪声填充区域中不存在过多的结构(例如,高频处的周期性)。此外,特定形式的压缩残差Y(k)允许以下步骤中的低复杂度。
备选地,可以根据下式来压缩或量化编码残差
其中,T是较小的正数。T的值可以用于控制压缩的量。该实施例对于已经被编码器编码的信号也是有用的,其中,该编码器在围绕0的位置进行对称量化但是不包括实际的0。
仅根据“稠密的(populated)”M维子向量来构造虚拟码本。如果编码残差子向量不满足以下标准:
则认为编码残差子向量是稀疏的,并且拒绝编码残差子向量。例如,如果子向量具有维度8(M=8),则等式(3)确保如果特定的子向量具有多于6个零,则它将被虚拟码本拒绝。在图7中示出了这一点,在图7中,因为子向量SV3具有7个零,因此拒绝子向量SV3。通过级联剩余或依然存在的子向量来形成虚拟码本VC1,如图8所示。因为子向量的长度是M的倍数,因此标准(3)也可以用于更长的子向量。在该情况下,不满足该标准的部分被拒绝。
通常,如果压缩子向量包含多于20-30%的非零分量,则认为它是“稠密的”。在上面关于M=8的示例中,标准是“多于25%的非零分量”。
根据获得的虚拟码本VC1来创建第二虚拟码本VC2。该第二虚拟码本VC2甚至更加“稠密”,并且用于填充在4.8kHz以上的频率(其它过渡频率(transitionfrequency)当然也是可能的;通常,过渡频率在4kHz与6kHz之间)。根据下式来形成第二虚拟码本VC2:
其中,N是第一虚拟码本VC1的大小(系数Y(k)的总数),并且将组合运算定义为:
在图9A至9B中示出了该组合或合并步骤。注意,在合并过程中将同一系数对Y(k),Y(N-k)使用两次,一次在下半区(图9A),一次在上半区(图9B)。
可以通过根据要填充的子向量在过渡频率以下还是以上循环地逐步通过(steppingthrough)相应的虚拟码本VC1或VC2并且将所需数量的码本系数复制到空子向量,来填充非编码子向量。因此,如果码本较短并且存在很多要填充的子向量,则将重新使用相同的系数来填充多于一个子向量。
优选地,以子向量为基础来对填充的子向量进行能量调整。这考虑到在频谱填充以后残差子向量可能不具有预期的单位RMS能量这样的事实。可以根据下式来进行调整:
其中,α≤1,例如,α=0.8,是感知优化的衰减因子。感知衰减的动机在于噪声填充操作通常导致明显不同的残差向量统计,并且期望衰减这些“不准确的”区域。
在更高级的方案中,可以使对特定子向量的能量调整适配于相邻子向量的类型:如果以高比特率对相邻区域进行编码,则当前子向量的衰减将更加大(α趋近于零)。如果以低比特率对相邻区域进行编码或者对相邻区域进行噪声填充,则限制当前子向量的衰减(α趋近于1)。该方案防止衰减较大的连续频谱区域,衰减较大的连续频谱区域可能导致可听的响度损失。同时,如果要衰减的频谱区域较窄,则甚至非常强的衰减也不会影响整体响度。
所描述的技术提供了改善的噪声填充。已经通过听力测试的方式测量了感知改进。这些测试指示,在83%的测试中听众偏向于上文所描述的频谱填充过程,而在17%的测试中偏向于传统的噪声填充过程。
图10是示出了低频虚拟码本生成器60的示例性实施例的框图。残差子向量被转发到子向量压缩器42,子向量压缩器42被配置为例如根据等式(1)压缩实际编码的残差子向量(即,实际上被分配了比特以进行编码的子向量)。压缩子向量被转发给子向量拒绝器44,子向量拒绝器44被配置为拒绝不满足预定的稀疏标准(例如,标准(3))的压缩残差子向量。在子向量收集器46中收集剩余的压缩子向量,子向量收集器64被配置为级联这些压缩子向量以形成低频虚拟码本VC1。
图11是示出了高频虚拟码本生成器70的示例性实施例的框图。残差子向量被转发到子向量压缩器42,子向量压缩器42被配置为例如根据等式(1)压缩实际编码的残差子向量(即,实际上被分配了比特以进行编码的子向量)。压缩子向量被转发给子向量拒绝器44,子向量拒绝器44被配置为拒绝不满足预定的稀疏标准(例如,标准(3))的压缩残差子向量。在子向量收集器46中收集剩余的压缩子向量,子向量收集器64被配置为级联这些压缩子向量以形成低频虚拟码本VC1。因此,到目前为止,高频虚拟码本生成器70包括与低频虚拟码本生成器60相同的元件。低频虚拟码本VC1中的系数被转发到系数组合器48,系数组合器48被配置为例如根据等式(5)组合系数对以形成高频虚拟码本VC2。
图12是示出了频谱填充器40的示例性实施例的框图。残差子向量被转发到子向量压缩器42,子向量压缩器42被配置为例如根据等式(1)压缩实际编码的残差子向量(即,实际上被分配了比特以进行编码的子向量)。压缩子向量被转发给子向量拒绝器44,子向量拒绝器44被配置为拒绝不满足预定的稀疏标准(例如,标准(3))的压缩残差子向量。在子向量收集器46中收集剩余的压缩子向量,子向量收集器46被配置为级联剩余的压缩子向量以形成第一(低频)虚拟码本VC1。第一虚拟码本VC1中的系数被转发给系数组合器48,系数组合器被配置为例如根据等式(5)组合系数对以形成第二(高频)虚拟码本VC2。因此,到目前为止,频谱填充器40包括与高频虚拟码本生成器70相同的元件。残差子向量还被转发给子向量填充器50,子向量填充器50被配置为使用来自第一虚拟码本VC1的系数来填充在预定频率以下的非编码残差子向量并且使用来自第二虚拟码本的系数来填充在预定频率以上的非编码残差子向量。在优选的实施例中,频谱填充器40还包括能量调整器52,能量调整器52被配置为如上所述地调整填充的非编码残差子向量的能量以获得感知衰减。
图13是示出了包括频谱填充器40的解码器300的示例性实施例的框图。解码器300的一般结构与图1中的解码器相同,但是用频谱填充器40替换了噪声填充器30。
图14是示出了低频虚拟码本生成的流程图。步骤S1例如根据等式(1)压缩实际编码的残差子向量。步骤S2拒绝过于稀疏的压缩残差子向量,即,不满足预定的稀疏标准(例如,标准(3))的压缩残差子向量。步骤S3级联剩余的压缩残差子向量以形成虚拟码本VC1。
图15是示出了高频虚拟码本生成的流程图。步骤S1例如根据等式(1)压缩实际编码的残差子向量。步骤S2拒绝过于稀疏的压缩残差子向量,即,不满足预定的稀疏标准(例如,标准(3))的压缩残差子向量。步骤S3级联剩余的压缩残差子向量以形成第一虚拟码本VC1。因此,到目前为止,高频虚拟码本生成包括与低频虚拟码本生成相同的步骤。步骤S4例如根据等式(5)组合第一虚拟码本VC1的系数对,从而形成高频虚拟码本VC2。
图16是示出了频谱填充的流程图。步骤S1例如根据等式(1)压缩实际编码的残差子向量。步骤S2拒绝过于稀疏的压缩残差子向量,即,不满足预定的稀疏标准(例如,标准(3))的压缩残差子向量。步骤S3级联剩余的压缩残差子向量以形成第一虚拟码本VC1。步骤S4例如根据等式(5)组合第一虚拟码本VC1的系数对,以形成第二虚拟码本VC2。因此,到目前为止,频谱填充包括与高频虚拟码本生成相同的步骤。步骤S5使用来自第一虚拟码本VC1的系数来填充在预定频率以下的非编码残差子向量。步骤S6使用来自第二虚拟码本VC2的系数来填充在预定频率以上的非编码残差子向量。可选的步骤S7如上所述地调整填充的非编码残差子向量的能量以获得感知衰减。
图17是示出了低频虚拟码本生成器60的示例性实施例的框图。该实施例基于处理器110,例如微处理器,其执行以下各项:用于压缩实际编码的残差子向量的软件组件120、用于拒绝过于稀疏的压缩残差子向量的软件组件130、以及用于级联剩余的压缩残差子向量以形成虚拟码本VC1的软件组件140。这些软件组件被存储在存储器150中。处理器110通过系统总线与存储器进行通信。由控制I/O总线的输入/输出(I/O)控制器160接收残差子向量,其中,处理器110和存储器150连接到I/O总线。在该实施例中,由I/O控制器160接收的残差子向量被存储在存储器150中,在存储器150中,由软件组件来处理残差子向量。软件组件120可以执行上文参照图10所描述的实施例中的框42的功能。软件组件130可以执行上文参照图10所描述的实施例中的框44的功能。软件组件140可以执行上文参照图10所描述的实施例中的框46的功能。I/O控制器160通过I/O总线从存储器150输出从软件组件140获得的虚拟码本VC1,或者在存储器150中存储从软件组件140获得的虚拟码本VC1。
图18是示出了高频虚拟码本生成器70的示例性实施例的框图。该实施例基于处理器110,例如微处理器,其执行以下各项:用于压缩实际编码的残差子向量的软件组件120、用于拒绝太稀疏的压缩残差子向量的软件组件130、用于级联剩余的压缩残差子向量以形成低频虚拟码本VC1的软件组件140、以及用于组合码本VC1的系数对以形成高频虚拟码本VC2的软件组件170。这些软件组件被存储在存储器150中。处理器110通过系统总线与存储器进行通信。由控制I/O总线的输入/输出(I/O)控制器160接收残差子向量,其中,处理器110和存储器150连接到I/O总线。在该实施例中,由I/O控制器160接收的残差子向量被存储在存储器150中,在存储器150中,由软件组件来处理残差子向量。软件组件120可以执行上文参照图11所描述的实施例中的框42的功能。软件组件130可以执行上文参照图11所描述的实施例中的框44的功能。软件组件140可以执行上文参照图11所描述的实施例中的框46的功能。软件组件170可以执行上文参照图11所描述的实施例中的框48的功能。为此,从软件组件140获得的虚拟码本VC1优选地存储在存储器150中。I/O控制器160通过I/O总线从存储器150输出从软件组件170获得的虚拟码本VC2,或者在存储器150中存储从软件组件170获得的虚拟码本VC2。
图19是示出了频谱填充器40的示例性实施例的框图。该实施例基于处理器110,例如微处理器,其执行以下各项:用于生成低频虚拟码本VC1的软件组件180、用于生成高频虚拟码本VC2的软件组件190、用于根据虚拟码本VC1填充在预定频率以下的非编码残差子向量的软件组件200、以及用于根据虚拟码本VC2填充在预定频率以上的非编码残差子向量的软件组件210。这些软件组件被存储在存储器150中。处理器110通过系统总线与存储器进行通信。由控制I/O总线的输入/输出(I/O)控制器160接收残差子向量,其中,处理器110和存储器150连接到I/O总线。在该实施例中,由I/O控制器160接收的残差子向量被存储在存储器150中,在存储器150中,由软件组件来处理残差子向量。软件组件180可以执行上文参照图12所描述的实施例中的框42-46的功能。软件组件190可以执行上文参照图12所描述的实施例中的框48的功能。软件组件200、210可以执行上文参照图12所描述的实施例中的框50的功能。为此,从软件组件180和190获得的虚拟码本VC1、VC2优选地存储在存储器150中。I/O控制器160通过I/O总线从存储器150输出从软件组件200、210获得的填充残差子向量,或者在存储器150中存储从软件组件200、210获得的填充残差子向量。
上文所描述的技术旨在在音频解码器中使用,其中,音频解码器可以在移动设备(例如,移动电话、膝上型计算机)或静止PC中使用。在这里,术语用户设备(UE)将用作这些设备的通用名称。可以在实时通信场景(主要以语音为目标)或流式传输场景(主要以音乐为目标)中使用利用所提出的频谱填充方案的音频解码器。
图20示出了根据本技术的用户设备的实施例。它包括装备有根据本技术的频谱填充器40的解码器300。该实施例示出了无线电终端,但是其它网络节点也是可行的。例如,如果在网络中使用IP(互联网协议)承载语音,则用户设备可以包括计算机。
在图20中的用户设备中,天线302接收编码的音频信号。无线电单元304将该信号变换为音频参数,音频参数被转发给解码器300以生成数字音频信号,如上文参照各个实施例所描述的。然后,在单元306中对数字音频信号进行D/A转换和放大,并且最后将其转发给扬声器308。
本领域技术人员将理解的是,可以在不偏离由所附权利要求限定的本技术的范围的情况下对本技术进行各种修改和改变。
参考文献
[1]ITU-TRec.G.719,“Low-complexityfull-bandaudiocodingforhigh-qualityconversationalapplications,”2008,Sections8.4.1,8.4.3.
[2]Mittal,J.Ashley,E.Cruz-Zeno,“LowComplexityFactorialPulseCodingofMDCTCoefficientsusingApproximationofCombinatorialFunctions,”ICASSP2007
缩写词
FPC阶乘脉冲编码
MDCT修正的离散余弦变换
RMS均方根
UE用户设备
VC虚拟码本
Claims (14)
1.一种填充变换编码音频信号的非编码残差子向量的方法,所述方法包括以下步骤:
压缩(S1)实际编码的残差子向量;
拒绝(S2)不满足预定的稀疏标准的压缩残差子向量;
级联(S3)剩余的压缩残差子向量以形成第一虚拟码本VC1;
组合(S4)所述第一虚拟码本VC1的系数对以形成第二虚拟码本VC2;
使用来自所述第一虚拟码本VC1的系数来填充(S5)在预定频率以下的非编码残差子向量;以及
使用来自所述第二虚拟码本的系数来填充(S6)在所述预定频率以上的非编码残差子向量;
其中,根据下式来压缩(S1)实际编码的残差子向量的分量
2.根据权利要求1所述的方法,其中,拒绝(S2)具有少于预定百分比的非零分量的压缩残差子向量。
3.根据权利要求1所述的方法,其中,根据下式组合(S3)所述第一虚拟码本VC1的系数对Y(k):
其中,N是所述第一虚拟码本VC1的大小。
4.根据权利要求1所述的方法,包括以下步骤:调整(S7)填充的非编码残差子向量的能量,以获得感知衰减。
5.一种生成虚拟码本VC1的方法,所述虚拟码本VC1用于填充变换编码音频信号中在预定频率以下的非编码残差子向量,所述方法包括以下步骤:
压缩(S1)实际编码的残差子向量;
拒绝(S2)不满足预定的稀疏标准的压缩残差子向量;
级联(S3)剩余的压缩残差子向量以形成所述虚拟码本VC1;
其中,根据下式来压缩(S1)实际编码的残差子向量的分量
6.一种生成虚拟码本VC2的方法,所述虚拟码本VC2用于填充变换编码音频信号中在预定频率以上的非编码残差子向量,所述方法包括以下步骤:
根据权利要求5所述的方法生成第一虚拟码本VC1;
组合(S4)所述第一虚拟码本VC1的系数对。
7.一种用于填充变换编码音频信号的非编码残差子向量的频谱填充器(40),所述频谱填充器包括:
子向量压缩器(42),被配置为压缩实际编码的残差子向量;
子向量拒绝器(44),被配置为拒绝不满足预定的稀疏标准的压缩残差子向量;
子向量收集器(46),被配置为级联剩余的压缩残差子向量以形成第一虚拟码本VC1;
系数组合器(48),被配置为组合所述第一虚拟码本VC1的系数对以形成第二虚拟码本VC2;
子向量填充器(50),被配置为使用来自所述第一虚拟码本VC1的系数来填充在预定频率以下的非编码残差子向量,以及使用来自所述第二虚拟码本VC2的系数来填充在预定频率以上的非编码残差子向量;
其中,所述子向量压缩器(42)被配置为根据下式来压缩实际编码的残差子向量的分量
8.根据权利要求7所述的频谱填充器,其中,所述子向量拒绝器(44)被配置为拒绝具有少于预定百分比的非零分量的压缩残差子向量。
9.根据权利要求7所述的频谱填充器,其中,所述系数组合器(48)被配置为根据下式组合所述第一虚拟码本VC1的系数对Y(k):
其中,N是所述第一虚拟码本VC1的大小。
10.根据权利要求7所述的频谱填充器,包括能量调整器(52),所述能量调整器(52)被配置为调整填充的非编码残差子向量的能量以获得感知衰减。
11.一种解码器(300),包括根据前述权利要求7至10中任意一项所述的频谱填充器(40)。
12.一种用户设备UE,包括根据权利要求11所述的解码器。
13.一种低频虚拟码本生成器(60),用于生成用于填充变换编码音频信号中在预定频率以下的非编码残差子向量的低频虚拟码本,所述生成器包括:
子向量压缩器(42),被配置为压缩实际编码的残差子向量;
子向量拒绝器(44),被配置为拒绝不满足预定的稀疏标准的压缩残差子向量;
子向量收集器(46),被配置为级联剩余的压缩残差子向量以形成所述低频虚拟码本VC1;
其中,子向量压缩器(42)被配置为根据下式来压缩实际编码的残差子向量的分量
14.一种高频虚拟码本生成器(70),用于生成用于填充变换编码音频信号中在预定频率以上的非编码残差子向量的高频虚拟码本,所述生成器包括:
根据权利要求13所述的用于生成低频虚拟码本VC1的低频虚拟码本生成器(60);
系数组合器(48),被配置为组合所述低频虚拟码本VC1的系数对以形成所述高频虚拟码本VC2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510993969.8A CN105448298B (zh) | 2011-03-10 | 2011-09-14 | 填充变换编码音频信号中的非编码子向量 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161451363P | 2011-03-10 | 2011-03-10 | |
US61/451,363 | 2011-03-10 | ||
PCT/SE2011/051110 WO2012121638A1 (en) | 2011-03-10 | 2011-09-14 | Filing of non-coded sub-vectors in transform coded audio signals |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510993969.8A Division CN105448298B (zh) | 2011-03-10 | 2011-09-14 | 填充变换编码音频信号中的非编码子向量 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103503063A CN103503063A (zh) | 2014-01-08 |
CN103503063B true CN103503063B (zh) | 2015-12-09 |
Family
ID=46798435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180070735.6A Active CN103503063B (zh) | 2011-03-10 | 2011-09-14 | 填充变换编码音频信号中的非编码子向量 |
Country Status (11)
Country | Link |
---|---|
US (6) | US9424856B2 (zh) |
EP (3) | EP2975611B1 (zh) |
CN (1) | CN103503063B (zh) |
AU (1) | AU2011361945B2 (zh) |
DK (3) | DK2975611T3 (zh) |
ES (3) | ES2758370T3 (zh) |
HU (2) | HUE037111T2 (zh) |
NO (1) | NO2753696T3 (zh) |
PL (1) | PL2684190T3 (zh) |
PT (2) | PT2684190E (zh) |
WO (1) | WO2012121638A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2013013261A (es) | 2011-05-13 | 2014-02-20 | Samsung Electronics Co Ltd | Asignacion de bits, codificacion y decodificacion de audio. |
KR102078865B1 (ko) | 2011-06-30 | 2020-02-19 | 삼성전자주식회사 | 대역폭 확장신호 생성장치 및 방법 |
KR20130032980A (ko) * | 2011-09-26 | 2013-04-03 | 한국전자통신연구원 | 잔여 비트를 이용하는 코딩 장치 및 그 방법 |
KR101740219B1 (ko) * | 2012-03-29 | 2017-05-25 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 고조파 오디오 시그널의 대역폭 연장 |
CN110223704B (zh) | 2013-01-29 | 2023-09-15 | 弗劳恩霍夫应用研究促进协会 | 对音频信号的频谱执行噪声填充的装置 |
EP2980792A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an enhanced signal using independent noise-filling |
EP3413308A1 (en) * | 2017-06-07 | 2018-12-12 | Nokia Technologies Oy | Efficient storage of multiple structured codebooks |
EP3776546B1 (en) * | 2018-04-05 | 2022-01-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Support for generation of comfort noise, and generation of comfort noise |
GB2578603A (en) * | 2018-10-31 | 2020-05-20 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
EP3874492B1 (en) | 2018-10-31 | 2023-12-06 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
RU2757860C1 (ru) * | 2021-04-09 | 2021-10-21 | Общество с ограниченной ответственностью "Специальный Технологический Центр" | Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2048787A1 (en) * | 2006-12-05 | 2009-04-15 | Huawei Technologies Co., Ltd. | Method and device for quantizing vector |
CN101809657A (zh) * | 2007-08-27 | 2010-08-18 | 爱立信电话股份有限公司 | 用于噪声填充的方法和设备 |
EP2234104A1 (en) * | 2008-01-16 | 2010-09-29 | Panasonic Corporation | Vector quantizer, vector inverse quantizer, and methods therefor |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0451199A (ja) * | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化・復号化方式 |
CA2206652A1 (en) * | 1996-06-04 | 1997-12-04 | Claude Laflamme | Baud-rate-independent asvd transmission built around g.729 speech-coding standard |
US6173257B1 (en) | 1998-08-24 | 2001-01-09 | Conexant Systems, Inc | Completed fixed codebook for speech encoder |
US6714907B2 (en) * | 1998-08-24 | 2004-03-30 | Mindspeed Technologies, Inc. | Codebook structure and search for speech coding |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6952671B1 (en) | 1999-10-04 | 2005-10-04 | Xvd Corporation | Vector quantization with a non-structured codebook for audio compression |
US6944350B2 (en) * | 1999-12-17 | 2005-09-13 | Utah State University | Method for image coding by rate-distortion adaptive zerotree-based residual vector quantization and system for effecting same |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US6909749B2 (en) * | 2002-07-15 | 2005-06-21 | Pts Corporation | Hierarchical segment-based motion vector encoding and decoding |
US8064520B2 (en) * | 2003-09-07 | 2011-11-22 | Microsoft Corporation | Advanced bi-directional predictive coding of interlaced video |
US8165215B2 (en) * | 2005-04-04 | 2012-04-24 | Technion Research And Development Foundation Ltd. | System and method for designing of dictionaries for sparse representation |
WO2007114290A1 (ja) * | 2006-03-31 | 2007-10-11 | Matsushita Electric Industrial Co., Ltd. | ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法 |
US20090198491A1 (en) * | 2006-05-12 | 2009-08-06 | Panasonic Corporation | Lsp vector quantization apparatus, lsp vector inverse-quantization apparatus, and their methods |
US7822289B2 (en) * | 2006-07-25 | 2010-10-26 | Microsoft Corporation | Locally adapted hierarchical basis preconditioning |
MX2010004138A (es) * | 2007-10-17 | 2010-04-30 | Ten Forschung Ev Fraunhofer | Codificacion de audio usando conversion de estereo a multicanal. |
US8619918B2 (en) * | 2008-09-25 | 2013-12-31 | Nec Laboratories America, Inc. | Sparse channel estimation for MIMO OFDM systems |
US8320489B2 (en) * | 2009-02-20 | 2012-11-27 | Wisconsin Alumni Research Foundation | Determining channel coefficients in a multipath channel |
-
2011
- 2011-09-14 EP EP15183624.4A patent/EP2975611B1/en active Active
- 2011-09-14 AU AU2011361945A patent/AU2011361945B2/en active Active
- 2011-09-14 DK DK15183624.4T patent/DK2975611T3/en active
- 2011-09-14 WO PCT/SE2011/051110 patent/WO2012121638A1/en active Application Filing
- 2011-09-14 EP EP17208522.7A patent/EP3319087B1/en active Active
- 2011-09-14 HU HUE15183624A patent/HUE037111T2/hu unknown
- 2011-09-14 PT PT118605930T patent/PT2684190E/pt unknown
- 2011-09-14 ES ES17208522T patent/ES2758370T3/es active Active
- 2011-09-14 HU HUE11860593A patent/HUE026874T2/en unknown
- 2011-09-14 ES ES11860593.0T patent/ES2559040T3/es active Active
- 2011-09-14 US US14/003,820 patent/US9424856B2/en active Active
- 2011-09-14 PT PT172085227T patent/PT3319087T/pt unknown
- 2011-09-14 DK DK17208522T patent/DK3319087T3/da active
- 2011-09-14 CN CN201180070735.6A patent/CN103503063B/zh active Active
- 2011-09-14 PL PL11860593T patent/PL2684190T3/pl unknown
- 2011-09-14 ES ES15183624.4T patent/ES2664090T3/es active Active
- 2011-09-14 EP EP11860593.0A patent/EP2684190B1/en active Active
- 2011-09-14 DK DK11860593.0T patent/DK2684190T3/da active
-
2012
- 2012-09-06 NO NO12758827A patent/NO2753696T3/no unknown
-
2016
- 2016-07-14 US US15/210,505 patent/US9966082B2/en active Active
-
2018
- 2018-03-30 US US15/941,566 patent/US20180226081A1/en not_active Abandoned
-
2021
- 2021-05-28 US US17/333,400 patent/US11551702B2/en active Active
-
2022
- 2022-12-12 US US18/079,088 patent/US11756560B2/en active Active
-
2023
- 2023-08-04 US US18/365,322 patent/US20230410822A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2048787A1 (en) * | 2006-12-05 | 2009-04-15 | Huawei Technologies Co., Ltd. | Method and device for quantizing vector |
CN101809657A (zh) * | 2007-08-27 | 2010-08-18 | 爱立信电话股份有限公司 | 用于噪声填充的方法和设备 |
EP2234104A1 (en) * | 2008-01-16 | 2010-09-29 | Panasonic Corporation | Vector quantizer, vector inverse quantizer, and methods therefor |
Also Published As
Publication number | Publication date |
---|---|
US20180226081A1 (en) | 2018-08-09 |
PL2684190T3 (pl) | 2016-04-29 |
NO2753696T3 (zh) | 2018-04-21 |
EP2975611B1 (en) | 2018-01-10 |
HUE026874T2 (en) | 2016-07-28 |
EP3319087A1 (en) | 2018-05-09 |
AU2011361945B2 (en) | 2016-06-23 |
US20210287685A1 (en) | 2021-09-16 |
WO2012121638A1 (en) | 2012-09-13 |
US11756560B2 (en) | 2023-09-12 |
EP2975611A1 (en) | 2016-01-20 |
DK3319087T3 (da) | 2019-11-04 |
CN103503063A (zh) | 2014-01-08 |
US9424856B2 (en) | 2016-08-23 |
US20230410822A1 (en) | 2023-12-21 |
ES2758370T3 (es) | 2020-05-05 |
US20230106557A1 (en) | 2023-04-06 |
EP2684190B1 (en) | 2015-11-18 |
EP3319087B1 (en) | 2019-08-21 |
US9966082B2 (en) | 2018-05-08 |
ES2664090T3 (es) | 2018-04-18 |
HUE037111T2 (hu) | 2018-08-28 |
US20130346087A1 (en) | 2013-12-26 |
EP2684190A4 (en) | 2014-08-13 |
EP2684190A1 (en) | 2014-01-15 |
AU2011361945A1 (en) | 2013-09-26 |
US20160322058A1 (en) | 2016-11-03 |
US11551702B2 (en) | 2023-01-10 |
PT3319087T (pt) | 2019-10-09 |
PT2684190E (pt) | 2016-02-23 |
ES2559040T3 (es) | 2016-02-10 |
DK2975611T3 (en) | 2018-04-03 |
DK2684190T3 (da) | 2016-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103503063B (zh) | 填充变换编码音频信号中的非编码子向量 | |
US11990147B2 (en) | Adaptive transition frequency between noise fill and bandwidth extension | |
KR101859246B1 (ko) | 허프만 부호화를 실행하기 위한 장치 및 방법 | |
CN101115051B (zh) | 音频信号处理方法、系统以及音频信号收发装置 | |
CN105448298A (zh) | 填充变换编码音频信号中的非编码子向量 | |
Huang et al. | A new error-mapping scheme for scalable audio coding | |
JP2004180058A (ja) | デジタルデータの符号化装置および符号化方法 | |
JP2003067000A (ja) | 音響信号処理装置および音響信号処理方法並びに音響信号処理プログラムおよび音響信号処理プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |