CN102893328A - 信号处理器以及用于处理信号的方法 - Google Patents
信号处理器以及用于处理信号的方法 Download PDFInfo
- Publication number
- CN102893328A CN102893328A CN2011800232959A CN201180023295A CN102893328A CN 102893328 A CN102893328 A CN 102893328A CN 2011800232959 A CN2011800232959 A CN 2011800232959A CN 201180023295 A CN201180023295 A CN 201180023295A CN 102893328 A CN102893328 A CN 102893328A
- Authority
- CN
- China
- Prior art keywords
- window
- value
- signal
- signal processing
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 136
- 238000000034 method Methods 0.000 title claims description 50
- 230000006870 function Effects 0.000 claims description 189
- 238000007493 shaping process Methods 0.000 claims description 50
- 238000004590 computer program Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 24
- 230000000875 corresponding effect Effects 0.000 description 21
- 230000004044 response Effects 0.000 description 21
- 238000005457 optimization Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 238000007906 compression Methods 0.000 description 10
- 230000006835 compression Effects 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 239000003112 inhibitor Substances 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013144 data compression Methods 0.000 description 4
- 238000004134 energy conservation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003750 conditioning effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 239000004606 Fillers/Extenders Substances 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005039 memory span Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
一种信号处理器,用于根据输入信号提供输入信号的处理版本,该信号处理器包括:窗口化器,被配置为根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将输入信号的一部分或其预处理版本窗口化,以获得输入信号的处理版本。该信号处理器还包括窗口提供器,用于根据一个或多个窗口形状参数,提供用于多个窗口值指数值的信号处理窗口值。
Description
技术领域
根据本发明的实施方式涉及用于根据输入信号提供处理版本的输入信号的信号处理器、涉及用于提供信号处理窗口值的窗口提供器、涉及编码的媒体信号、涉及用于处理信号的方法、以及涉及用于提供信号处理窗口值的方法。
根据本发明的一个实施方式涉及用于使用可变的窗口函数将音频或视频信号进行编码或解码的设备。根据本发明的另一个实施方式涉及用于使用可变的窗口函数将音频或视频信号进行编码或解码的方法。
根据本发明的实施方式大致涉及信号分析和处理方法,例如,音频或视频编码系统内可使用的那些方法。
背景技术
离散信号的有限脉冲响应(FIR)过滤,尤其在滤波器组的环境下进行过滤,被广泛地用于频谱分析、处理、合成以及媒体数据压缩等应用。众所周知,FIR滤波器的时间上(或空间上)的有限性以及在时间或空间内的某个瞬间可处理的信号间隔的有限性可产生称为偏置或泄漏的现象。例如,通过不同的增益变化或量子化,修改过滤的间隔时,反转过滤操作时,可发生块效应或环效应。已发现,发生这些效应,可归因于所处理的间隔(后文中称为区段)的信号波形的端点之间的不连续性及其微分的不连续性。已发现,为了减少这种不必要的泄露影响,因此,将区段内的不连续性及其微分的某些不连续性最小化是有利的或者甚至是必须的。通过在过滤之前、以及在过滤域内操作信号的情况下、以及在反向过滤之后,将N长度区段的每个样品s(n),n=0、1、...、N-1乘以某个权重w(n),可实现这种最小化,从而区段的端点及其微分的端点逐渐减小为零。一种等效的方法是,将这些权重用于滤波器组的每个基础滤波器(例如,见参考文献[2])。由于通常使用解析表达式描述加权因子,所以一组因子通常称为加权函数或窗口函数。
在通常的音频和视频编码系统内,如上分割源波形,并且将每个区段量化为更粗糙的形式,以便完成高数据压缩,即,储存或发送信号所需要的较低的比特率。试图通过能量压缩为少于N个样品(或者,换言之,提高用于指定比特率的编码信号的感知质量),从而获得编码增益时,在量子化之前区段的滤波器组变换已经变得普遍。近年来研发的系统使用改进的离散余弦变换(MDCT)形式的重叠正交时间频率转换,滤波器组允许相邻的区段重叠,同时依然允许临界抽样。对于改进性能而言,正向和反向MDCT操作与每个区段的加权结合:在中心侧,在正向MDCT之前应用分析窗口wa(n),并且在接收器侧,在反向MDCT之后使用合成窗口ws(n)。遗憾的是,并非所有的加权函数都适用于MDCT。假设具有预定的(时间/空间不变)窗口,已经发现,为了在没有量子化或传输误差时,整个结构进行完整的输入重构,必须如下选择wa(n)和ws(n):
wa(n)·ws(n)+wa(N/2+n)·wx(N/2+n)=1,n=0,1,...,N/2-1. (1)
如果wa(n)和ws(n)相同,即,wa(n)=ws(n)=w(n),那么等式(1)降低为参考文献[7]内所公布的更熟知的约束条件
w(n)2+w(N/2+n)2=1,n=0,1,...,N/2-1,(2)
为了最好地进行能量压缩,通常使用关于n=N/2-1/2对称的w(n),即
w(N-1-n)=w(n),n=0,1,...,N/2-1,(3)
在高级音频编码(AAC)标准(参考文献[8])内,可使用两个窗口函数。一个为正弦函数,表示为
wsin(n)=sin(π(n+1/2)/N),n=0,1,...,N-1,(4)
另一个为贝塞尔导出(KBD)窗,在Fielder和Davidson申请的题为“Low bit rate transform coder,decoder,and encoder/decoder for high-qualityaudio”的美国专利5109417和5142656中描述了该窗口。该窗口也用于AC-3(杜比数字)编码标准(ATSC,Inc.,“Digital Audio CompressionStandard(AC-3,E-AC-3),修订本B,”文档A/52B,2005年6月)内,虽然具有不同的配置(α=5)。Vorbis规格(参考文献[9])限定了窗口
wvabis(n)=sin(π/2·sin2(π·(n-1/2)/N)),n=0,1,...,N-1.(5)
图5示出了AAC和Vorbis窗口函数的频率响应,根据参考文献[4],通过傅里叶变换获得该频率响应。可见,正弦窗口具有较高的闭频选择性(主瓣较窄)以及较低的阻带抑制度(旁波瓣衰减较低)。相反,KBD窗口具有较高的阻带抑制度以及较低的闭频选择性。Vorbis窗口位于前面两个窗口之间的中间。
已经发现,对于某些应用而言,最好更细微地控制满足等式(2)的加权函数的通带选择性和阻带抑制度。更具体地说,已经发现,为了提高编码效率,窗口参数需要连续地将窗口特性调整成适应于输入频谱的那些特性。在上述所有三个函数中,仅仅KBD函数提供这种参数α,该参数可变化,从而具有不同的选择性/衰减权衡。然而,该函数包括需要大量计算的数学(贝塞尔函数、双曲正弦、平方根以及除法),潜在地阻止了在低功率装置上或在实时系统内计算每个信号区段。这同样适用于窗口函数的类别,在Sinha和Ferreira发布的题为“A New Class of Smooth PowerComplementary Windows and their Application to Audio Signal Processing”的文章中(AES第119次会议,2005年10月,第6604页),显示了这些窗口函数,需要复值操作、谱因子分解和傅里叶变换。也已经发现,两个函数(例如,KBD和正弦)之间的内插(通过加权和最有效),可用于稍微控制频率响应,但是这种方法的灵活性有限。
例如,在参考文献[1]、[2]、[3]、[4]、[5]内,已经引证了多个窗口函数,朝着不同的标准优化这些函数。如今使用的最流行的函数中大概有三个函数由Hann、Hamming以及Blackman报告。
下面描述某些典型的窗口函数。换言之,下面再次访问上述窗口函数(例如,Hann、Hamming以及Blackman),并且确认基本的总体设计等式。
为了与窗口函数的开创性调查一致并且与其相比,在本讨论中采用Nuttall的方法和符号(例如,见参考文献[4])。尤其地,L表示窗口实现的持续时间(长度),t表示加权内的位置(时间)、f表示窗口的功率密度谱内的频率,由窗口函数的傅里叶变换获取。此外,应将所有的窗口函数归一化为一个窗口函数的峰值振幅。由于本文中仅仅研究了对称的(优选地为均匀长度)钟形窗口,所以这表示w(L/2)=1。对于DSP应用而言(t的非负值),要考虑的第一加权函数称为Hann(或Hanning)函数。在参考文献[2]内指定为
如参考文献[2]中所示,并且(11)中可证明,Hann函数为取幂正弦函数的特殊情况:
实际上,a通常取正整数。要注意的是,(12)也可写为偏移和缩放余弦的和:
该公式允许通过改变偏移和缩放因子,Hann窗口(见以下有关估算和优化的讨论)具有特定的谱优化。结果为Hamming函数,在参考文献[4]将其精确的参数化表示为
Nuttall(例如,见参考文献[4])指出,Hann以及Hamming窗口为(k+1)项函数的类别的二项体现,称为余弦总和函数。用于DSP应用中时,将Nuttall的符号简化,可写为
这与参考文献[4]的等式11相等,标量1/L被省略。也常见三项实施方式。简单的实例为(15),K=2,并且因子为
b0=0.375,b1=0.5,b2=0.125,
(16)
这相当于(12),a=4。与Hamming方法一样,Blackman(例如,见参考文献[1])得出以下优化的bk:
b0=0.42,b1=0.5,b2=0.08,
(17)
Nuttall(例如,见参考文献[4])进一步改善Blackman的值,用于更好的近场谱响应(第一旁瓣,见以下有关估算和优化的讨论):
b0=0.40897,b1=0.5,b2=0.09103,
(18)
鼓励有兴趣的读者参看参考文献[4],以便查看其他优化的3和4项余弦总和窗口。
如上所述,需要替换的窗口函数,这种函数的计算复杂性中等,但是提供良好的设计灵活性。
因此,本发明的一个目标在于,提供一种处理信号的思想,这个思想允许获得计算复杂性中等以及设计灵活性良好的窗口函数。
发明内容
根据本发明的一个实施方式,提供了一种信号处理器,用于根据输入信号提供输入信号的处理版本。该信号处理器包括窗口化器,被配置为根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将部分输入信号或其预处理版本窗口化,以便获得输入信号的处理版本。该信号处理器也包括窗口提供器,用于根据一个或多个窗口形状参数,提供用于多个窗口值指数值的信号处理窗口值。窗口提供器被配置为估算与窗口值指数值相关的多个变元(argument,自变量)值的正弦函数,以便获得信号处理窗口值。该窗口提供器被配置为计算线性项和一个或多个整形函数的函数值的加权和,该线性项线性地取决于窗口值指数值,一个或多个整形函数将窗口值指数值映射到相应的函数值上,并且该一个或多个整形函数相对于窗口斜面的中心呈点对称,以便获得变元值。
根据本发明的该实施方式基于以下发现:由于可用非常低的计算工作量计算线性项以及一个或多个整形函数的加权和,所以通过以上述方式确定信号处理窗口值,可用简单的可调节的方式将输入信号窗口化。然而,也已经发现,一个或多个整形函数的点对称以及多个变元值的正弦函数的估算给窗口带来特别好的性能,例如,随后的两个窗口斜面之间具有良好的节能特性。此外,通过根据一个或多个窗口形状参数,修改一个或多个整形函数的加权,能够容易地调节信号处理窗口值所限定的窗口的特性,所以使用较小的计算工作量,可获得具有不同特性的窗口。例如,通过改变一个或多个整形函数的加权,本文中所定义的思想允许获得大量不同的窗口形状,这些形状均具有上述良好的特性。
而且,应注意的是,使用上述思想,可以以非常高的粒度计算具有不同特性的窗口,这些窗口的计算不需要特别困难的计算,仅仅需要形成加权和,以便获得变元值,并且需要使用变元值估算正弦函数。
根据本发明的另一个实施方式,提供了一种信号处理器,用于根据输入信号提供输入信号的处理版本。该信号处理器包括窗口化器,被配置为根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将部分输入信号或其预处理版本窗口化,以便获得输入信号的处理版本。该信号处理窗口值为与窗口值指数值相关的多个变元值的正弦函数估算的结果值,其中,变元值为线性项和一个或多个正弦型整形函数的函数值的加权和,该线性项线性地取决于窗口值指数值,一个或多个正弦型整形函数将窗口值指数值映射到相应的函数值上,并且该一个或多个正弦型整形函数相对于窗口斜面的中心呈点对称。根据本发明的该实施方式基于与上述实施方式相同的关键思想。而且,已发现,使用正弦型整形函数给信号处理窗口带来特别好的特性。
根据本发明的另一个实施方式,提供了一种窗口提供器,用于根据一个或多个窗口形状参数,提供用于多个窗口值指数值的信号处理窗口值。窗口提供器被配置为估算与窗口值指数值相关的多个变元值的正弦函数,以便获得信号处理窗口值。该窗口提供器被配置为计算线性项和一个或多个整形函数的函数值的加权和,该线性项线性地取决于窗口值指数值,以便获得变元值。一个或多个整形函数将窗口值指数值映射到相应的函数值上,并且该一个或多个整形函数相对于窗口斜面的中心呈点对称。
根据本发明的该实施方式基于与上述实施方式相同的思想。
根据本发明的另一个实施方式,提供了一种信号处理器,用于根据输入信号提供输入信号的处理版本。该信号处理器包括窗口化器,被配置为根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将部分输入信号或其预处理版本窗口化,以便获得输入信号的处理版本。该信号处理器也包括窗口提供器,用于根据一个或多个窗口形状参数,提供用于多个窗口值指数值的信号处理窗口值。窗口提供器被配置为计算多个正弦型整形函数的函数值的加权和,以便获得信号处理窗口值,这些正弦型整形函数将窗口函数值指数值映射到相应的函数值上。函数值的加权由窗口形状参数确定。根据本发明的该实施方式基于以下发现:对于多种应用而言,使用窗口形状参数和所述的计算规则,可获得具有足够好的特性的窗口形状,具有良好的计算效率和灵活性,以便调节窗口特性。
根据本发明的另一个实施方式,提供了一种信号处理器,用于根据输入信号提供输入信号的处理版本。该信号处理器包括窗口化器,被配置为根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将部分输入信号或其预处理版本窗口化,以便获得输入信号的处理版本。该信号处理窗口值为多个正弦型整形函数的函数值的加权和的结果值,这些函数将窗口值指数值映射到相应的函数值上。根据本发明的该实施方式基于与上述实施方式相同的关键思想。
根据本发明的另一个实施方式,提供了一种编码的媒体信号,该编码的媒体信号包括媒体内容的编码表示和一个或多个窗口形状参数。一个或多个窗口形状参数限定将媒体内容的编码表示解码时所使用的窗口的形状。一个或多个窗口形状参数描述了加权,用于计算线性地取决于窗口值指数值的线性项和一个或多个整形函数的函数值的加权和,以便获得变元值,用于通过估算多个变元值的正弦函数,从而获得用于多个窗口值指数值的信号处理窗口值。这个编码的媒体信号为窗口化的信令提供较高的灵活性,这是因为使用窗口形状参数,能够描述大量不同类型的窗口,解码器可有效地获得这些窗口。
附图说明
随后参看附图,描述根据本发明的实施方式,其中:
图1a示出根据本发明的一个实施方式的信号处理器的方框示意图;
图1b示出根据本发明的另一个实施方式的信号处理器的方框示意图;
图2示出根据本发明的另一个实施方式的信号处理器的方框示意图;
图3示出根据本发明的一个实施方式的窗口提供器的方框示意图;
图4示出根据本发明的一个实施方式的编码媒体信号的示意图;
图5示出dB纵坐标尺度上的AAC和Vorbis窗口的频率幅度响应的图示;
图6示出AAC KBD窗口函数和本发明函数的某个实例的幅度的图示;
图7示出与线性横坐标和dB纵坐标规模的AAC KBD窗口的频率幅度响应相比,本发明窗口函数的所述实例的频率幅度响应的图示;
图8示出与对数横坐标和dB纵坐标规模的AAC KBD窗口的频率幅度响应相比,本发明窗口函数的所述实例的频率幅度响应的图示;
图9示出与AAC KBD和第三级Sinha-Ferreira窗口的频率幅度响应相比,本发明窗口函数的另外两个实例的频率幅度响应的图示;
图10示出用于本发明的以及相似的窗口函数的信号自适应工序的方框图;
图11示出根据等式(12)的某些取幂正弦函数的频谱的图示;
图12示出根据等式(15)的优化余弦总和函数的频谱的图示;
图13示出根据等式(19)的所提出的优化正弦总和窗口的图示;
图14示出应用不同的窗口函数之后,频率为Lf=32和96.5的两个正弦曲线的DFT频谱的图示;
图15示出两个PC窗口和所提出的窗口的频谱的图示;以及
图16示出窗口的示意图。
具体实施方式
1.根据图1a的信号处理器
图1示出根据本发明的第一实施方式的信号处理器100的方框示意图。信号处理器100被配置为接收输入信号110,并且根据该信号,提供输入信号的处理版本112。信号处理器100包括窗口化器120,被配置为根据用于多个窗口值指数值n的信号处理窗口值122所描述的信号处理窗口,将部分输入信号110或输入信号的预处理版本110'(可通过可选的预处理111获得)窗口化,以便获得输入信号的处理版本112(或在可选的后处理器130内经历进一步进行后处理的输入信号的版本112')。
为此,窗口化器120可从窗口提供器130接收信号处理窗口值w(n),该窗口提供器通常也为信号处理器100的一部分。窗口提供器130被配置为根据一个或多个窗口形状参数132,提供用于多个窗口值指数值n的信号处理窗口值w(n)。窗口提供器被配置为估算与窗口值指数值n相关的多个变元值c’(n)的正弦函数,以便获得信号处理窗口值w(n)。该窗口提供器130也被配置为计算线性项和一个或多个整形函数的函数值的加权和,该线性项例如由c(n)表示,线性地取决于窗口值指数值n。一个或多个整形函数可将窗口值指数值n映射到相应的函数值上。一个或多个整形函数相对于窗口斜面的中心呈点对称。计算加权和,以便获得变元值c’(n)。
因此,窗口提供器130提供信号处理窗口值w(n),这些值描述了具有特别好的特性的窗口。两个相应的窗口斜面重叠时,在窗口提供器内使用正弦函数估算,以便获得信号处理窗口值w(n),这允许获得具有良好的节能特性的窗口。而且,通过使用用于正弦函数估算的变元值c’(n),这些值并非窗口值指数值(也简称为“指数值”)的线性函数,而是为线性项的重叠,该线性项线性地取决于指数值和一个或多个整形函数的函数值,这些函数是非线性的且相对于窗口斜面的中心点对称,能够调节信号处理窗口值w(n)所描述的信号处理窗口的形状。
例如,能够调节一个或多个整形函数对变元值c’(n)的影响,所以根据一个或多个窗口形状参数132,可获得变元值(根据指数值n)的不同演化。因此,可根据一个或多个窗口形状参数132,调节信号处理窗口值所描述的信号处理窗口的特征,以便满足特定的需要。而且,已经发现,选择相对于窗口斜面的中心呈点对称的一个或多个形成函数,有助于确保信号处理窗口具有良好的节能和压缩特性,并且还提供了减少计算变元值的计算工作量的机会。
现在描述与计算信号处理窗口值wnew(n)有关的细节,这些窗口值代替信号处理窗口值w(n)。
2.根据图1b的信号处理器
图1b示出了信号处理器150的方框示意图,该处理器与信号处理器100相似。因此,相同的装置和信号由相同的参考数字表示。然而,信号处理器150包括窗口提供器180,该提供器与窗口提供器130不同。窗口提供器180接收一个或多个形状参数ck’182,并且根据该参数,提供信号处理窗口值w(t),这些值例如由wc(t)表示。在本文中应注意的是,变量t为窗口值指数值,并且也可简称为“指数值”。
窗口提供器180被配置为根据一个或多个窗口形状参数ck,提供用于多个窗口值指数值t的信号处理窗口值w(t)。窗口提供器180被配置为计算将窗口函数值指数值映射到相应的函数值上的多个正弦型整形函数的函数值的加权和,以便获得信号处理窗口值w(t)。函数值的加权由窗口形状参数ck确定。
通过使用窗口提供器180提供信号处理窗口值,从而可提供信号处理窗口值,使得在多种情况下,这些值包括足够好的特性。而且,能够使用一个或多个窗口形状参数ck,调节专有特性,从而对于一个或多个窗口形状参数的不同选择而言,可获得不同的信号处理窗口。
通过使用正弦型整形函数并且形成所述正弦型加权函数的函数值的加权和,从而获得具有良好特性的窗口,下面进行详细的讨论。
而且,应注意的是,下面讨论与计算信号处理窗口值w(t)有关的细节,窗口提供器180提供这些窗口值。
3.根据图2的信号处理器
图2示出根据本发明的一个实施方式的信号处理器200的方框示意图。信号处理器200被配置为接收输入信号210,并且根据该信号,提供输入信号的处理版本212。
信号处理器200包括窗口化器220,被配置为根据用于多个窗口值指数值(简称为“指数值”)的信号处理窗口值所描述的信号处理窗口,将部分输入信号210或输入信号的预处理版本210窗口化,以便获得输入信号的处理版本212。信号处理器200可包括可选的预处理211和可选的后处理213。
该信号处理窗口值为与窗口值指数值相关的多个变元值的正弦函数估算的结果值,其中,变元值为线性项和一个或多个正弦型整形函数的函数值的加权和,该线性项线性地取决于窗口值指数值,一个或多个正弦型整形函数将窗口值指数值映射到相应的函数值上。一个或多个正弦型整形函数相对于窗口斜面的中心呈点对称。
因此,窗口化器220可进行窗口化,这与窗口化器120进行窗口化非常相似。例如,窗口化器220所使用的信号处理窗口值可与窗口化器120所使用的信号处理窗口值相同。窗口化器220所使用的信号处理窗口值例如可储存在查找表内或者可另外获得这些值。
在替换的实施方式中,可使用不同的信号处理窗口值。在一个替换的实施方式中,信号处理窗口值为多个正弦型整形函数的函数值的加权和的结果值,这些函数可将窗口值指数值映射在相应的函数值上。
总之,窗口化器220例如可被配置为将信号处理窗口值wnew(n)所描述的窗口用于输入信号210中或者用于其预处理版本211’中。然而,或者,窗口化器220可将信号处理窗口值wc(t)用于输入信号210中或者用于其预处理版本210’中。
下面可描述与窗口化器220所使用的信号处理窗口有关的细节。
4.根据图3的窗口提供器
图3示出根据本发明的一个实施方式的窗口提供器300的方框示意图。窗口提供器300被配置为接收一个或多个窗口形状参数310(通常为可变值),并且根据这些参数提供用于多个窗口值指数值的一组信号处理窗口值w(n)312。窗口提供器300被配置为估算与窗口值指数值相关的多个变元值的正弦函数,以便获得信号处理窗口值w(n)。该窗口提供器也被配置为计算线性项和一个或多个整形函数的函数值的加权和,该线性项有时称为c(n)并且线性地取决于窗口值指数值n。一个或多个整形函数将窗口值指数值n映射到相应的函数值上。一个或多个整形函数相对于窗口斜面的中心呈点对称。
因此,窗口提供器300基本上履行了窗口提供器130的功能。然而,应注意的是,窗口提供器300可为独立于窗口化器130的部件。然而,或者,窗口提供器300可履行窗口提供器180的功能。
5.根据图4的编码的媒体信号
下面描述编码的媒体信号。图4示出了这种编码的媒体信号的示意图。编码的媒体信号400包括媒体内容的编码表示和窗口形状参数。窗口整形的参数例如适合于用作窗口提供器130的一个或多个窗口形状参数132,或者用作窗口提供器180的一个或多个窗口形状参数132。因此,编码的媒体信号400中的窗口形状参数被选择,从而使用窗口提供器130或窗口提供器180产生信号处理窗口值w(n)或w(t)。而且,通常根据窗口形状参数所描述的窗口,使用窗口化,将媒体内容的编码表示进行编码。
6.有关窗口提供器130所提供的或窗口化器220所使用的窗口的细节
6.1概述和定义
下面描述有关窗口提供器130所提供的窗口的某些细节,窗口化器220也可使用这些窗口。本文中应注意的是,这些窗口在本文中由信号处理窗口值w(n)限定。所述信号处理窗口值w(n)通常乘以输入信号110或其预处理版本110',以便获得输入信号的窗口化版本或其预处理版本110'。窗口通常由信号处理窗口值w(n)描述,其中,n为指数值(例如,时间指数值),该值表示信号处理器窗口值。
此外,应注意的是,窗口通常包括左侧窗口斜面和右侧窗口斜面。可选地,窗口可进一步包括恒定的(或者大致恒定的)中心部分,使得多个中心信号处理窗口值采用同一个预定的值。然而,应注意的是,窗口的左侧窗口斜面和右侧窗口斜面可不同。因此,应指出的是,以下讨论大致描述了单个窗口斜面的形状,即,在较小的窗口值(例如,零窗口值)和较大的窗口值(例如,最大的窗口值1)之间进行转换。
现在参看图16,该图示出了窗口的示意图,在图16的示图中更详细地进行解释,横坐标1610描述了指数值n,并且纵坐标1612描述了与指数值n相关的信号处理窗口值w(n)。可见,窗口1600包括左侧窗口部分1620和右侧窗口部分1622。左侧窗口部分包括左侧窗口斜面1630,作为关键元素。例如,由多个信号处理窗口值w(n)限定左侧窗口斜面1630,n=n1到n=n2。左侧窗口部分1620也可可选地包括左侧外部部分,对于该部分,信号处理窗口值w(n)采取较小的值,例如,w(n)=0。左侧窗口部分可选地也包括一部分中心窗口部分,对于该部分,信号处理窗口值w(n)采取预定的值,例如,w(n)=1。窗口1600包括右侧窗口部分1622,该部分包括右侧窗口斜面1640,作为关键元素。右侧窗口部分可选地包括一部分中心窗口部分,对于该部分,信号处理窗口值采取预定的值,例如,w(n)=1。右侧窗口部分也可选地包括右侧外部部分,对于该部分,信号处理窗口值w(n)采取较小的值,例如,w(n)=0。
应注意,左侧外部部分、中心窗口部分以及右侧外部窗口部分应视为可选。而且,应注意的是,窗口1600可对称或非对称。因此,左侧窗口斜面1630和右侧窗口斜面1640可相等,或者在某些实施方式中可明显不同。
本文中应注意的是,以下讨论大致涉及左侧窗口斜面1630,即,在较小的或零窗口值和较大的或最大窗口值之间进行转换。然而,应注意的是,可选地添加左侧外部部分、可选地添加中心窗口部分、添加右侧窗口斜面以及可选地添加右侧外部部分,从而通过了解左侧窗口斜面1630,可获得整个窗口1600。还应注意,使用简单的镜像处理获得右侧窗口斜面1640的方式可与左侧窗口斜面相同,例如,等式(3)的处理。
本文中还应注意,根据以下讨论,左侧窗口斜面应由值w(n)描述,n=0到n=N/2-1。然而,当然能够使用不同的指数值。
6.2窗口wnew(n)的细节
通过揭示到等式(4)的正弦窗口函数的扩展,根据本发明的实施方式解决了MDCT应用缺少灵活的以及计算上有效的窗口函数这一问题。
要注意的是,等式(4)可视为围绕n=N/2-1/2对称的三角形窗口函数的正弦。给出等式(3),这表示
c(n)=(n+1/2)·2/N, (6)
wsin(n)=sin(π/2·c(n)),n-0,1,...,N/2-1,(7)
其中,c(n)表示窗口核心函数,由于预先确定该函数,所以可提前计算该函数。所提议的扩展将加权的正弦曲线加至等式(7)中的c(n),该正弦曲线具有角频率,角频率为2π的整数倍:
c ′(n)=c(n)+∑af·sin(2π·f·c(n)),f=1,2,...,(8)
wnew(n)=sin(π/2·c′(n)),n=0,1,...,N/2-1. (9)
也可提前计算c'(n)内的正弦项。仅仅需要调节其加权,由af因子规定。因此,以逐个转换的方式,将所提议的窗口调节成信号时,仅仅需要重新计算等式(9)和等式(8)内的加权,使得该调节在计算上的复杂性低于KBD和Sinha-Ferreira窗口。
而且,值得一提的是,由于等式(8)和(9)内的正弦项,所提议的窗口函数类别的每个实现在其端点处均完全衰减为零,这就确保在窗口的频率响应中,旁瓣等级以每倍频程具有至少12dB的速度进行衰减。对于KBD窗口以及Princen和Bradley的文章(“Analysis/Synthesis Filter BankDesign Based on Time Domain Aliasing Cancellation”,IEEE Trans.Acoustics,Speech,and Signal Processing,1986年10月,1153-1161页)以及Ferreira的文章(“Convolutional Effects in Transform Coding with TDAC:An OptimalWindow”,IEEE Trans.Speech and Audio Processing,1996年3月,104-114页)中发布的窗口而言,并非如此,其远频率旁瓣因此以每倍频程少于12dB的速度进行衰减。对于相等的主瓣宽度而言,这表示在远频率旁瓣衰减方面,根据等式(8)和(9)的窗口潜在地超过现有技术的窗口。
根据本发明的窗口计算或调整包括以下步骤:
-基于设计上的考虑,选择c'(n)中正弦项的数量以及合适的加权因子af。
-确定或限定窗口长度N,并且使用所选的af以及正弦项的数量,计算c'(n)。
-计算等式(9)的wnew(n),n=0、1、...、N/2-1,然后,使用等式(3)获得长度N的窗口实例。
-如果一个不同的窗口参数化用于前面相邻的区段,那么通过校正前面窗口实例的右半部,或者校正当前的窗口实例的左半部,或者校正前面实例的右半部以及当前实例的左半部,从而满足任何完整的反向约束条件。
在优选的实施方式中,在计算复杂性方面,窗口函数可与正弦和Vorbis窗口进行比较,但是至少为KBD和Sinha-Ferreira窗口提供设计灵活性。
如上所述,应注意的是,可将值c’(n)视为与窗口值指数值n相关的变元值。而且,应注意的是,可将函数sin(2π·f·c(n))视为整形函数。
而且,应注意的是,不需要将正弦函数用作整形函数。更确切地说,选择整形函数,使得这些整形函数与窗口斜面的中心呈点对称即可。窗口斜面的中心例如由线性项的值c(n)=0.5限定。例如,可使用点对称的多项式函数代替正弦函数,有利于在某些情况下进行估算。而且,整形函数应优选地采取足以接近零的值,c(n)=0和c(n)=1,即,在窗口斜面的最左边的窗口值指数值的环境中以及在窗口斜面的最右边的窗口值指数值的环境中。换言之,在最左边的窗口值指数值(例如,n=0)和最右边的窗口值指数值(例如,n=N/2-1)的环境(或者相邻区域)中,整形函数应具有零,或者应采取大约为零的值。
而且,应注意的是,例如,通过窗口提供器130的变元值计算,可估算等式(6)和(7),并且通过窗口提供器130的正弦函数估算,可估算等式(9)。因此,窗口提供器130的正弦函数估算获得的值wnew(n)(n=0到n=N/2-1)可描述例如左侧窗口斜面1630。
因此,窗口提供器130可被配置为根据与左侧窗口斜面相关的所述信号处理窗口值,组装整个窗口1610。为此,窗口提供器可添加左侧外部部分、中心窗口部分、右侧窗口斜面以及左侧外部部分,如图16所示。通过在对称窗口的情况下,镜像左侧窗口斜面,可获得右侧窗口斜面。然而,或者,右侧窗口斜面可与左侧窗口斜面不同,并且通过镜像与左侧窗口斜面不同的窗口形状参数的窗口斜面,可获得该右侧窗口斜面。
而且,应注意,由于满足了完整的反向约束条件,所以信号处理器可确保,与输入信号的前面部分相关的右侧转换斜面以及与输入信号的后面部分相关的左侧转换斜面匹配。为此,可确保,使用已经用于获得与输入信号的前面部分相关的右侧窗口斜面的相同参数,获得与输入信号的后面部分相关的左侧窗口斜面。
而且,应注意,等式(6)、(8)以及(9)限定的算法适合于在具有有限的计算能力的设备内,在线计算窗口函数。
然而,可将等式(6)、(8)以及(9)限定的窗口估算一次,因此,在某些实施方式中,可将这些结果储存在查找表内,以备后用。
6.3窗口设计的注释
下面讨论某些条件,这些条件产生具有特别好的特性的窗口。然而,应注意的是,遵守下面讨论的条件,不应视为是必须的。
如背景技术部分的讨论中所述,采用MDCT的信号编码器需要将某些条件施加给用于该信号的窗口函数,以便不操作任何信号时,允许完全可反转整个系统,即,提供完整的输入重构。符合等式(2)的函数也称为功率互补函数,表示合适的分类。该窗口类别的所有实现方式属于这个分类。然而,可显示出,具有对于所有部署的n为非负值c'(n)的实现方式
c′(n)≥0,n=0,1,...,N/2-1,(10)产生特别好的通带选择性和阻带抑制度。因此,以下讨论集中于窗口类别的这个子集。在某些情况下,对于所有部署的n为非负值c'(n)的实现方式同时产生满意的通带选择性和阻带抑制度。
通常,在等式(8)内能够使用任意数量的正弦项,以设计适合于指定的使用情况的窗口频率响应,发现两个正弦项(f=1、2)在灵活性、复杂性以及内存使用之间提供充分的权衡。尤其地,使用两个正弦项,可得出参数,在窗口实例中,这些参数
-将主瓣宽度最小化,即,将闭频选择性最大化,
-将某个归一化频率之上的最大旁瓣等级最小化,
-将旁瓣衰减的速率最大化,即,远频率阻带衰减,
-将最大微分最小化为现有的参考窗口实例。
下面,借助于特定实例,检查这些设计考虑中的每一个。
6.3.1具有最大的通带选择性的窗口
虽然等式(2)的功率互补条件限制了可实现的频率响应的范围,尤其是在最初的几个旁瓣的宽度和等级方面,但是通过将c'(n)内所有的af因子设为零,可获得产生最窄主瓣的窗口函数。显而易见,所产生的窗口等于等式(4)的AAC正弦窗口。在图5中描述了其频谱,以及KBD(α=4)和Vorbis窗口的频谱。
然而,总之,应注意的是,优选地,应将至少一个窗口形状参数af设为非零值。然而,窗口提供器113的上述结构具有灵活性,从而通过仅仅设置窗口形状参数af,甚至获得AAC正弦窗口,而没有任何特定的信号。
6.3.2具有最小的旁瓣最大值的窗口
等式(9)的配置将最大的旁瓣等级最小化,通过穷举或基于梯度的搜索方法,共同优化af参数,从而可获得这些配置。然而,由于等式(2),值得推荐的是,限定更低的频率界限Nω0>1.5,在该频率界限上,进行极小极大优化。发现,Nω0=4.5值产生参数a1=0.1224和a2=0.00523。图6中示出了这样配置的窗口函数。与还描绘出的AAC KBD窗口函数的相似性是明显的。图7中示出了相应的窗口频谱。值得注意的是,与KBD窗口相比时,本发明窗口的最初两个旁瓣具有更低的等级,并且Nω0≈5之上的最大的旁瓣等级减小(该频率之上所提出的窗口的最初三个旁瓣的等级为-66.8dB,而KBD窗口到达略微更高的等级-63.0dB)。
由于在c'(n)内使用正弦项,所以该窗口类别的每个实现方式均具有连续性,并且因此确保在其端点处,平稳地衰减为零。在图8中阐述了这个优点。可见,先前获得的窗口的旁瓣以每倍频程12dB的速率衰减。相反,KBD窗口具有更小的衰减速率,这是因为KBD的加权函数的端点具有轻微的不连续性。结果,即使在Nω≈250和Nω≈7之间,KBD窗口超过所提出的窗口,但是在Nω≈250之上,与KBD窗口相比,所提出的窗口具有更高的抑制度。在某些分析或合成应用中,该特征有利。
6.3.3具有最大的旁瓣衰减的窗口
在某些情况下,最好使用其旁瓣以每倍频程大于12dB的速率衰减的窗口。本发明允许例如构成以每倍频程24dB的速率衰减的窗口。要求加权函数具有连续的一阶微分,即,在窗口实例边缘的微分消没,从而实现该目的。该问题最直观的解决方法为配置a1=0.1591、a2=0。图9中描述了所产生的窗口响应,以及下面讨论的另外三个响应。
6.3.4近似参考窗口的窗口
为了完成所提出的窗口类别的灵活性的这种展示,试图产生两个窗口实现方式,这两个实现方式与两个现有的窗口非常相似。由于其多样性,选择KBD (α=4)以及第三阶Sinha-Ferreira函数作为参考。在最小均方的意义上,通过c'(n)和等式(9)进行重构,即,通过将参考和近似值之间的平方差最小化(要注意的是,也能够使用其他方法)。图9示出了结果。可见,本发明的窗口与其现有技术的窗口大致相同,并且主要的差别仅仅在于具有非常低的等级。因此,在复杂性或内存较为关键的环境中,可由使用本窗口类别的装置代替参考窗口,同时将向后兼容性维持较高的程度,并且如果适用,可维持近乎完整的重构的可能性。
7.信号自适应系统内的实施方式
系统处理具有不同长度的信号区段时,该窗口类别显示出额外的优点,该长度为2的整数幂。在AAC内,例如,该过程也被称为区块切换,通过在每个帧的2048(1920)个采样上使用一次MDCT,或者在每个帧的256(240)个采样上使用8次,从而现实该过程。在本文中,等式(8)内的各项的子集(例如,n=0、1、...、N/8-1)可重新用作核心函数,用于长度较小的窗口,或者在正弦项的情况下,甚至用作窗口函数本身。如果可接受长度较小的窗口降低的设计灵活性,那么这可用于进一步减小储存核心函数所需要的存储器容量。
8.本发明的其他应用
对于音频或视频编码以外的若干个应用情况而言,功率互补窗口函数(例如,本文中所报告的那些函数)可相当具有吸引力。如背景技术部分的第6段中引用的论文中所述,功率互补窗口可用于瞬时能量储存软切换或开关系统以及在连续的模块之间具有重叠的逐块进行操作的信号分析和处理装置内。更具体地说,在构建其过滤内核时,在一维或高维信号上执行过滤任务的任何设备可使用该报告的窗口,包括但不限于
高通(微分)、低通(积分)以及带通滤波器,
下采样器(抽取滤波器)和上采样器(内插滤波器),
单频带或多频带均衡器、压缩器、扩展器和限制器,
用于减噪以及相关的提高的算法或特效工具。
通过在这种系统内采用本文中所示的本发明的窗口函数以及使得其频谱特性适用于应用要求,优选地以信号区段自适应的方式,希望可提高感知性能。
9.根据图10的媒体信号编码器和媒体信号解码器
图10示出了媒体信号编码器和媒体信号解码器的方框示意图。媒体信号编码器1010被配置为接收一个或多个信道信号s1(n)到sM(n),并且根据该信号,提供编码表示。输入媒体信号的编码表示可采取MDCT系数S1(k)到SM(k)的方式,或者可为这种MDCT系数的编码表示。信号编码器1010例如包括多个相同的信号路径1012a-1012m,这些路径可单独地操作或者可耦合。此外,信号编码器1010还包括编码参数计算器602,该计算器确定一个或多个编码参数(例如,块长度)、时间噪声成形(TNS)参数、子带增益补偿参数、配置信息和/或心理声学模型信息。下面讨论路径或分支1012a,但是以上讨论也可用于其他的分支,例如,分支1012m。
分支1012a包括窗口检测器603,该检测接收各个信道的输入信号s1(n)以及来自编码参数测定器602的信息。窗口检测器603可提供例如窗口形状信息603a,该信息描述了所需要的窗口的形状。
窗口形状信息例如可根据到窗口检测器603的输入来确定,从而优化或提高编码器1010的客观性能(编码增益、频率选择性或能量压缩、数据压缩、引入的混淆量)或主观性能(无误差或错误的传输和解码之后,编码输出的感知质量)。
分支1012a还包括窗口同步器604,应将该同步器视为可选,并且该同步器可结合该分支1012a的窗口检测器603所提供的窗口形状信息和不同分支的窗口检测器所提供的窗口形状信息。因此,同步的窗口形状信息604a可选地由窗口同步器604提供。信号路径1012a还包括完整的重构实施器605,被配置为接收窗口形状信息603a或同步的窗口形状信息604a,并且根据该信息,提供自适应窗口形状信息605a。例如,完整的重构实施器605可确保与输入信号的前面部分相关的窗口的右侧转换斜面(也称为窗口斜面)是与输入信号的后面部分相关的窗口的窗口斜面的镜像版本。例如,可确保,与输入信号的后面部分相关的窗口的那些窗口斜面由相同的窗口形状参数限定。信号路径1012a还包括窗口计算器606,被配置为将信号处理窗口值w1(n)提供给窗口化器1014。窗口化器1014被配置为将输入信号s1(n)的采样乘以相应的信号处理窗口值w1(n),以便获得窗口化的信号值s1’(n),将这些值输入到改进的离散余弦变换器607内,以便获得MDCT系数S1(k)。
此处应注意,窗口计算器606可具有窗口提供器130或窗口提供器180的功能,从而信号处理窗口值w1(n)等于信号处理窗口值w(n)或者等于信号处理窗口值w(t)。而且,窗口化器1014可采用窗口化器120的功能。
因此,编码器1010被配置为根据自适应窗口形状信息605a,使用多个不同的窗口,从而将输入信号s1(n)窗口化,其中,窗口计算器606提供信号处理窗口值。
编码器1010可选地包括其他编码级,用于有效地编码MDCT变换器607所提供的频谱值S1(k)到SM(k)。
信号解码器1020被配置为接收解码的频谱值Q1(k)到QM(k)。从比特流中可获取解码的频谱值Q1(k)到QM(k),通过编码频谱值S1(k)到SM(k),编码器1010可提供该比特流。换言之,频谱系数Q1(k)到QM(k)可与频谱值S1(k)到SM(k)相同,除了具有量子化误差以外。此处,k为频率指数,并且M≥1表示信道数量(其中,每个信道具有一个分支)。
解码器1020还被配置为接收窗口长度值N1到NM(采用上述变量N的函数)以及一个或多个窗口形状参数a1到aM(例如,每个分支或信道具有一个参数)。解码器1020包括反向的改进离散余弦变换器608,被配置为接收频谱系数Q1(k)到QM(k),并且根据这些系数,提供反向变换的信号q1(n)到qM(n)。解码器1020还包括窗口选择器609,该选择器与完整的重构实施器605一起进行操作,以便从输入窗口形状参数a1到aM获得自适应窗口形状参数605a,其中,可从表示媒体内容的比特流中,提取或获得输入窗口形状参数a1到aM。例如,在编码的媒体信号内可表示输入窗口形状参数a1到aM和频谱值Q1(k)到QM(k)。
解码器1020还包括窗口计算器606,该计算器接收自适应窗口形状参数605a(或者,可替代地,输入窗口形状参数a1到aM),并且根据这些参数,提供信号处理窗口值w1(n)到wM(n)。窗口计算器606可执行窗口提供器130或窗口提供器180的功能,其中,自适应窗口形状参数605a可对应于一个或多个窗口形状参数132或对应于一个或多个窗口形状参数182。同样,信号处理窗口值w1(n)到wM(n)可等同于信号处理窗口值w(n)或等于信号处理窗口值w(t)。
因此,窗口计算器606可根据自适应窗口形状参数605a或输入窗口形状参数a1到aM,提供形状不同的窗口。
例如,通过乘法运算1024可将解码器1020的窗口计算器606所提供的信号处理窗口值w1(n)到wM(n)用于反向的改进离散余弦变换器608所提供的反向变换的信号q1(n)到qM(n),从而获得值q1(n)到qM(n)的窗口化版本q1’(n)到qM’(n)。
解码器1020进一步包括重叠相加器610,被配置为接收反向变换信号q1(n)到qM(n)的后面窗口部分q1’(n)到qM’(n)以及所述后面部分的重叠相加,从而获得重构的信号y1(n)到yM(n)。重叠相加器610优选地与窗口化1024相协调,从而使用“互补”窗口,将由重叠相加器610重叠的窗口化信号部分q1’(n)到qM’(n)窗口化,使得第一窗口的右侧窗口斜面与后面窗口的左侧窗口化斜面重叠,其中,重叠的窗口斜面包括上述节能和/或完整的重构特性。
因此,编码器1010和解码器1020能够将媒体信号编码和解码,例如,音频信号、语音信号、视频信号、图像信号等等。
总之,根据本发明的上述实施方式可用于软件和硬件芯片内以及数字信号处理器(DSP)内,用于各种系统和信号的模拟或数字储存或传输。
总之,图10阐述了所提出的窗口化技术可如何用于类似于信号自适应AAC的音频编解码器或一种不同类型的信号编码器或信号解码器内。将用于构造c'(n)的窗口核心功能601储存在存储器内,同时在存储器内存储可用的参数配置的定义。这些数据由编码器和解码器共享。在窗口检测器和选择器603内分析图10a)内所示的参考数字为1010的编码器、用于M输入信道的每个帧的区段、以及用于M区段s(n)中的每个的频谱时间心理声学模型602的数据,以便确定合适的窗口形状,并且如果适用,确定长度和数量。根据频率选择性(能量压缩)或低帧重叠(使用TNS或子带(SB)增益补偿时减少混淆)等标准,选择适当的窗口。
换言之,编码器1010(或者任何其他的信号处理器)可被配置为用信号自适应的方式,确定、改变或调节一个或多个窗口形状参数af,从而优化或提高信号处理器的客观性能或主观性能。因此,可用输入信号自适应的方式,确定、改变或调节一个或多个窗口形状参数,从而优化或提高信号处理器(例如,音频编码器1010)的客观(即,数字)或主观(即,感知)性能。
通过同步单元604可选地匹配信道的窗口形状参数之后,通过调节现有和先前帧的重叠窗口两等份的参数,在PR实施单元605内,确保了使用所选的窗口参数执行这些变换的完整重构(PR)。根据改进的窗口形状参数,使用等式(8)和(9),计算(606)实际的窗口系数,并且将这些系数乘以各个音频区段,形成窗口化的区段s'(n),通过MDCT 607将该区段最终变换成频域,以便随后进行量子化、编码以及传输。在图10b)内所示的参考数字为1020的解码器内,将用于每个帧和信道的所接收的窗口形状参数解码并且转发给窗口选择器609,在去量子化的频谱Q(k)的反向MDCT 608之后,该选择器将这些参数映射到相应的窗口配置中,以供使用。执行窗口序列的完整重构并且计算与编码器相似的窗口系数之后,将反向MDCT所产生的输出区段q(n)窗口化,并且通过重叠相加器610,重构各信道波形y(n)。
10.可替换的窗口计算
10.1关于可替换的窗口类别的窗口函数的计算的概述
下面描述窗口函数的替换类别,窗口提供器(例如,窗口提供器180或窗口提供器300或窗口计算器606)可使用这种类型,提供信号处理窗口值。
换言之,下面通过大幅修改以上某些等式,描述有关窗口的替换类别的定义的细节。
在以上部分之一中,要注意的是,a=2时的等式(12)(即w2(t))等同于K=1、b0=0.5、b1=0.5时的等式(15)。而且,建立了w4(t)和(15)(K=2)以及(16)的bk之间的等效性。已经调查出,bk产生w1(t)、w3(t)或者一般而言产生任何具有奇数a的wa(t)。观察等式(12)和(15),已经发现,不能构成余弦总和窗口,该窗口等同于奇数取幂正弦窗口。然而,在某些应用中,需要奇数a的wa(t),期望使用与等式(15)相似的公式,以允许如由Hamming、Blackman以及Nuttall进行的频谱泄漏优化。
幸运的是,已发现正弦总和函数
提供了进行优化所需要的方式。可见,通过形成正弦型整形函数sin((2k+1)π·t/L)的加权和,可获得信号处理窗口值wc(t)。可获得信号窗口斜面,用于0和L/2之间的值t。
还应注意的是,优选地,将正弦函数求和,这些函数的频率为基本频率的奇数倍。例如,可将归一化的角频率限定为(2k+1)π/L。可见,更高的归一化频率为基本的归一化频率π/L的奇数倍。
还应注意的是,利用增大的频率指数k(k在零和最大的频率指数值K之间),交替地使用正和负加权(-1)kck将整形函数加权。
通过适当地选择常数ck,可获得两个特征。
首先,可构建与(2)的奇数次幂正弦窗口对应的窗口。此处应规定三个最低阶奇数a的wa(t)的ck。通过设置K=0和c0=1,使用(19)构建时,经典正弦窗口w1(t)并不重要。对于w3(t)而言,K增大为K=1,并且
c0=0.75,c1=0.25.(20)
使用K=2以及
c0=0.625,c1=0.3125,c2=0.0625.(21)
最终获得第五阶w5(t)。
其次,与(15)内的bk一样,可确定ck,从而获得与Blackman、Hamming以及Nuttall窗口的频谱性能相似的频谱性能。然而,在获得用于K=1和K=2的各个ck之前,重要的是,确切地确定应优化窗口频谱响应的哪个方面。为此,需要客观地测量窗口的频谱性能。在下一个部分内,通过某些普遍的措施,分析迄今提及的所有窗口函数。
10.2估算和优化
下面使用具有参考文献[2]内描述的优点的某些图,估算该窗口类别的2项和3项变量的性能,并且将其与其他窗口进行对比。受该结果推动,描述具体优化的实现方式。
下面讨论几组不同的窗口形状参数ck。将展示根据等式(19)的信号处理窗口值的组合允许产生具有不同特性的各种不同的窗口。因此,可总结出,被配置为根据等式(19)提供信号处理窗口wc(t)的窗口提供器具有非常灵活的配置,并且产生非常低的计算复杂性,这是因为可预先计算出整形函数sin((2k+1)π·t/L),而加权的总和产生较小的计算复杂性。
已建立,时间信号与另一个信号的乘积对应于这两个信号的频率变换的卷积。因此,通过将加权函数用于信号,该信号的频谱与加权的频谱卷积。因此,为了估算窗口函数的作用,研究其频谱即可,例如使用傅里叶变换。
图11和12阐述了以上窗口的功率频谱的大小,如在参考文献[4]中将其频率和幅度归一化。由于再现频谱零,所以所有的窗口以零频率显示主瓣,并且随着频率的增大,其旁瓣的幅度衰减。旁瓣的衰减率由窗口函数的边缘的不连续性及其微分的不连续性表示;越多低阶导数连续,那么对于大f而言,窗口就越快地衰减为零。也见参考文献[2]和[4]。
对于图11的取幂正弦函数wa(t)而言,可规定,以每倍频程的渐近衰减(以dB为单位)与a成比例(例如,见参考文献[6]):
这表明不仅为整数,而且为所有的非负实数a保持。对于图12的优化的窗口而言,可观察到一个不同的旁瓣性能。Hamming窗口的主瓣宽度等于w2(t)=wHann(t)的主瓣宽度,该窗口以每倍频程仅仅-6dB的速度衰减,这是因为加权函数不连续。同样,Blackman和Nuttall窗口具有与w4(t)相同的主瓣,这些窗口显示了以每倍频程仅仅-18dB的速度衰减;其加权的一阶导数具有连续性,但是其三阶导数没有连续性。然而,这些窗口具有比其wa(t)对等物更低的最大旁瓣等级。这可造成在某些应用中,明显减少频谱偏置,并且这就是研发优化的窗口的原因。
由于已经发现,用于图12中的余弦总和的窗口的优化过程也可用于(19)的正弦总和函数,所以能够使用(20)修改2项窗口以及使用(21)修改3项窗口,用于最低的最大旁瓣等级(不能这样优化c0=1的一项正弦窗口)。已经发现,由于使用正弦曲线,(15)的任何实现方式在其端点处接近零幅度;因此,保证旁瓣以每倍频程-12dB的速率进行衰减(1/f2,见参考文献[2])。如果允许导数具有非连续性,那么获得额外的自由度,以便确定ck,可用于将峰值旁瓣幅度最小化(例如,见参考文献[4])。
对于2项正弦总和窗口(K=1),提供非连续的一阶导数,在选择c0和c1时,产生一个额外的自由度。发现
c0=0.79445,c1=0.20555
(23)
产生最低的可能旁瓣最大值–54.3dB(第一和第三旁瓣)。在选择ck时,3项窗口(K=2)提供两个额外的自由度。使用
c0=0.69295,c1=0.2758,c2=0.03125
(24)
达到最小的峰值旁瓣等级-82.8dB。
图13示出了窗口(23)和(24)的功率频谱。对于所示出的所有10个窗口而言,在表1中列出最大的旁瓣等级、渐近衰减、主瓣宽度(由第一零的位置表示)、以及6-dB的带宽(测量窗口的分辨率,见参考文献[2])。注意,在整体频谱性能方面,窗口(23)位于2项Hamming和3项Nuttall窗口之间的右边。而且,实现与Blackman窗口的峰值相似的旁瓣峰值时,窗口(23)具有更窄的主瓣。在该讨论中,窗口(24)具有所有窗口最低的旁瓣最大值,但是与w5(t)一起,也显示了最宽的主瓣。
总之,根据等式(19)计算信号处理窗口值,通过仅仅改变参数ck,而不改变基本的计算规则,能够获得具有迥然不同的特性的窗口。这就减少了计算上的工作量以及实施上的工作量。而且,在某些实施方式中,可使用一个或多个不同的参数组(20)、(21)、(23)或(24)。可计算信号处理窗口值,并且将其储存在查找表内,或者根据实际的实施方式,(必要时)可在线计算该值。
10.3正弦总和窗口和离散傅里叶变换(DFT)或MDCT
下面描述用于离散傅里叶变换中时,所提出的窗口类别的关注特征。
细心的读者会注意到正弦总和以及余弦总和窗口的频谱之间的零位置的差异。图中显然可看出,对于余弦总和窗口而言,大部分或所有的零值为Lf的整数倍,而对于正弦总和窗口而言,零值位于整数Lf之间的半途。下面通过使用DFT分析窗口化的谐波信号,阐明该特征。
如上所述,由w(t)加权的信号间隔s(t)的傅里叶变换(FT)等同于s(t)和w(t)的各FT的卷积。正弦窗口w1(t)和Hann窗口w2(t)的FT分别表示为
以及
(例如,见参考文献[3])。因此,对于f=n+0.5,|n|≥1而言,W1(f)=0,并且对于f=n,|n|≥2而言,W2(f)=0,n为整数。具有更高阶的FT和表1的优化窗口与(25)和(26)不同,但是分子中的各个三角项(用于正弦总和的cos(),用于余弦总和窗口的sin())通用。在DFT的背景下,表示具有余弦总和窗口的最大频谱泄漏与具有正弦总和窗口的最小泄漏一致,反之亦然。图14给出一个实例,用于所提出的2项窗口(23)以及256点DFT内使用的Nuttall的3项窗口(18)。
在当代音频或视频编码器内,将信号波形分成区段,并且将每个区段量化为更粗糙的形式,以便获得较高的数据压缩,即,储存或发送信号所需要的较低的比特率。试图通过能量压缩从而获得编码增益(或者换言之,提高指定比特率的编码信号的感知质量)时,量子化之前的区段的滤波器组变换(例如,MDCT变换607)已经变得普遍。近年来研发的系统使用改进的离散余弦变换(MDCT)形式的时间频率转换,滤波器组允许相邻的区段重叠,同时依然提供临界抽样。
为了获得更好的性能,正向和反向MDCT操作(例如,MDCT变换607和反向MDCT变换608)与每个区段的加权结合:在编码器侧,在MDCT之前应用分析窗口(例如,窗口w1(n)),并且在解码器侧,在反向MDCT之后使用合成窗口(例如,合成窗口w1(n))。
遗憾的是,并非所有的加权函数都适用MDCT。假设具有相同的对称分析和合成窗口函数,
w(L-1-t)=w(t),t=0,1,...,T-1,(27)
如果
w2(t)+w2(T+t)=1,t=0,1,...,T-1,(28)
其中T=L/2,那么没有量子化或传输误差时,整个系统可仅仅产生完整的输入重构。这就是[7]中报告的所谓的Princen-Bradley或功率互补型(PC)条件。共同的PC窗口为MPEG-2/-4AAC标准内使用的正弦和KBD窗口(例如,见参考文献[6]和[8]),PC窗口表示为
以及Vorbis编解码器规范的窗口(例如,见参考文献[9])表示为
为了调查等式(19)是否可用于产生满足(28)的正弦总和窗口,要注意的是,考虑(27)时,wsine(t)可视为三角函数的正弦:
同样,wvorbis(t)可写为(32),由
代替τ(t)。
有关(31)和(33)(或31')的T=L/4的幅度互补性
τ(t)+τ(T-1-t)=1,t=0,1,...,L/4-1,(34)
表明这些函数的替换物可设计成优化窗口函数的频率响应,而不损害PC特性。实际上,支持(27)
为符合(34)的(31)的扩展,使用(19)的正弦总和函数的修改;省略交错的符号项,并且不考虑奇数倍的π,而是考虑偶数倍。该作者进行的非正式的实验表明,虽然获得PC,甚至对于某些t而言,dk产生τd(t)<0,但是对于所有的t而言,仅仅具有非负数τd(t)的实现方式同时产生符合要求的通带选择性和阻带抑制度。
而且,在题为“Evaluation and Optimization”的部分内,选择(19)的ck系数,使得将所产生的窗口的最大的旁瓣等级最小化。在本文中可遵循相似的过程。然而,由于(28)的PC约束条件,从而更多地限制频谱设计的可能性,尤其在最初的两个或三个旁瓣方面。通常,必须规定更低的频率界限Lf0>1.5(或者,开始的旁瓣),在该界限上,旁瓣最大值可被最小化一合理的量。举例而言,非正式的穷举搜索(Lf0=4.5)产生2项参数化,
d1=0.12241,d2=0.00523 (36)
该参数化产生一个窗口,其位于Lf0之上的最初三个旁瓣均具有-66.8dB的等级。较高频率的旁瓣以每倍频程-12dB的速率从该值衰减,与先前部分的优化的窗口(23)和(24)的旁瓣一样。图15示出使用(27)、(32)、(35)以及(36)构造的加权函数的频率响应,以及wsine(t)和wvorbis(t)的频率响应。显然,与正弦窗口相比,在所提出的窗口内旁瓣抑制度大幅增大。由于约束条件(28),所以具有这种优点,代价是具有略宽的主瓣和略高的第一旁瓣。与Vorbis窗口相比,表现了最初的两个旁瓣具有基本上相同的主瓣宽度和最大值。对于4.5<Lf0<11.5而言,在旁瓣衰减方面,所提出的窗口超过wvorbis(t)。还要注意的是,Vorbis窗口频谱以每倍频程–18dB的速率衰减,并且处于(或者接近)Lf的整数倍时,其大小为零。因此,其频谱行为与余弦总和窗口的频谱行为相似。实际上,可认为PC等同于Hann窗口。同样,所提出的PC窗口似乎为题为“Evaluation andoptimization”的部分的优化正弦总和窗口的对等物。未来研究的主题在于进行更透彻的调查,包括在进行音频编码时进行性能估算。
11.实施方式替换物
虽然已经描述了设备的某些方面,但是显然,这些方面也表示描述相应的方法,其中,模块或装置与方法步骤或方法步骤的特征对应。类似地,所描述的方法步骤的各方面也表示描述相应设备的相应模块或物品或特征。
由(或使用)硬件设备可执行某些或所有的方法步骤,例如,微处理器、可编程计算机或电子电路。在某些实施方式中,一个或多个最重要的方法步骤可由这种设备执行。
本发明的编码媒体信号可为编码的音频或视频信号,或者窗口函数序列可储存在数字储存介质上或者可在传输介质上传输,例如,无线传输介质或有线传输介质,例如因特网。
根据某些实施方式的要求,本发明的实施方式可用于硬件或软件内。使用数字储存介质可执行该实施方式,例如,软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或者FLASH存储器,将电子可读控制信号储存在其上,这些信号与可编程的计算机系统合作(或者能够与其合作),从而执行各个方法。因此,数字储存介质可为计算机可读介质。
根据本发明的某些实施方式包括数据载体,具有电子可读控制信号,这些信号能够与可编程的计算机系统合作,从而执行本文中所述的一种方法。
通常,本发明的实施方式可被实施为具有编程代码的计算机程序产品,计算机程序产品在计算机上运行时,该程序代码可操作,以便执行一种方法。程序代码例如可储存在机器可读载体上。
其他实施方式包括储存在机器可读载体上的计算机程序,用于执行本文中所述的一种方法。
换言之,因此,本发明的方法的实施方式为具有程序代码的计算机程序,用于计算机程序在计算机上运行时,执行本文中所述的一种方法。
因此,本发明的方法的另一个实施方式为数据载体(或者数字存储介质或计算机可读介质),包括记录在其上的计算机程序,用于执行本文中所述的一种方法。数据载体、数字储存介质或记录的介质通常为有形的和/或永久性的。
因此,本发明的方法的另一个实施方式为数据流或一系列信号,表示用于执行本文中所述的一种方法的计算机程序。该数据流或该系列信号例如可被配置为通过数据通信连接进行传递,例如通过因特网。
另一个实施方式包括处理装置,例如,计算机或可编程逻辑装置,被配置为或用于执行本文中所述的一种方法。
另一个实施方式包括计算机,其上安装了计算机程序,用于执行本文中所述的一种方法。
根据本发明的另一个实施方式包括一种设备或系统,被配置为将计算机程序(例如,电子地或光学地)传递给接收器,该程序用于执行本文中所述的一种方法。接收器例如可为计算机、移动装置、存储器装置等等。该设备或系统例如可包括文件服务器,用于将计算机程序传递给接收器。
在某些实施方式中,可编程的逻辑装置(例如,现场可编程门阵列)可用于执行本文中所述的方法的某些或所有功能。在某些实施方式中,现场可编程门阵列可与微处理器合作,以便执行本文中所述的一种方法。通常,这些方法优选地由任何一种硬件设备执行。
上述实施方式仅仅用于阐述本发明的原理。要理解的是,对于本领域的技术人员而言,本文中所述的这些设置和细节显然可进行修改和变化。因此,其目的在于仅仅由以下专利权利要求书的范围限制,而不由通过描述和解释本文中所述的实施方式而显示的具体细节限制。
12.总结
综上所述,可得出以下结论:计算等式(6)、(8)和(9)所阐明的窗口函数,产生了具有特别好的特性的窗口函数。
此外,可得出以下结论:计算等式(19)所阐明的窗口函数,产生了具有良好的特性的窗口函数。
综上所述,根据本发明的实施方式大致涉及信号分析和处理方法,例如可用于音频或视频编码系统内的那些方法。根据本发明的某些实施方式属于如下应用:这些应用需要通过源的不变的或信号自适应的变化的滤波器组变换,进行信号能量压缩。这些实施方式可用于提高能量压缩性能,同时能够完整地反转所述变换。因此,根据本发明的实施方式形成了需要替换的窗口函数的解决方法,该窗口函数具有中等的计算复杂性,但是提供了良好的设计灵活性。
通过揭示到等式(4)的正弦窗口函数的扩展,所附权利要求书或该说明书所限定的根据本发明的一些实施方式解决了MDCT应用缺少灵活的以及计算上有效的窗口函数这一问题。
然而,根据本发明的其他实施方式产生了改进的窗口函数,这些函数增大了灵活性,但是不能完整地重构MDCT应用。然而,这种窗口函数在多种应用中有用。
还应指出的是,为了便于理解本发明,参看附图,已经通过阐述性实例描述了本发明,而不限制本发明的范围或精神。换言之,本文中所述的实施方式仅仅用于阐述本发明的原理,以便在过滤应用中更灵活地进行窗口化和/或提高信号能量压缩。要理解的是,对于本领域的技术人员而言,本文中所述的设置和细节显然可进行变化和修改。因此,其目的在于仅仅由以下专利权利要求书的范围限制,而不由通过描述和解释本文中所述的实施方式而公开的特定细节限制。
一般而言,通过时间上进行加权,从而将离散信号窗口化,这为用于在处理过程中进行频谱分析必不可少的工具,以便减少偏置效应。多种流行的加权函数(例如,Hann、Hamming、Blackman)基于缩放余弦的总和。
根据本发明的实施方式呈现了一种替换的窗口,使用正弦总和构成这些窗口,并且由于保证加权具有连续性,所以相对于零位置,频谱特性改进(乃至独特),并且旁瓣以每倍频程至少-12dB的速度进行衰减。提供了用于2项和3项实现方式的参数,具有最小的峰值旁瓣等级。根据本发明的某些实施方式涉及通过离散傅里叶变换使用正弦总和窗口以及将其用于重叠的变换中,例如,改进的离散余弦变换(MDCT)。
换言之,根据本发明的实施方式提出了传统窗口函数(例如,Hann、Hamming、Blackman)的替换物,同样容易计算并且在减少泄漏方面,具有相似的乃至独特的性能。
简言之,根据本发明的实施方式提供了一种设备、方法或计算机程序,以便使用可变窗口函数,编码或解码或处理音频或视频信号。
根据本发明的某些实施方式提供了一种设备、方法或计算机程序,以便计算用于音频或视频信号的一系列不同的窗口函数。
根据本发明的其他实施方式提供了包括编码的音频或视频内容以及参数窗口信息的编码音频或视频信号,该信息涉及可变的窗口,用于将音频或视频信号进行编码,从而获得编码的音频或视频信号。
根据本发明的其他实施方式提供了以信号自适应方式确定的一系列可变窗口函数。
根据本发明的某些实施方式提供了该设备、方法、计算机程序、编码信号以及一系列可变窗口函数,其中,根据
c(n)=(n+1/2)·2/N
wsin(n)=sin(π/2·c(n))n=0,1,...,N/2-1
获得窗口(wnew),其中,c(n)表示窗口核心函数,由于预先确定该函数,所以可提前计算该函数。所提出的扩展是在等式(7)中的c(n)上添加加权的正弦曲线,该正弦曲线具有角频率,角频率为2π的整数倍:
c′(n)=c(n)-∑af·sin(2π·f·c(n)),f=1,2,...,
wnew(n)=sin(π/2·c1(n)),n=0,1,...,N/2-1.
而且,总之,已经示出了Hamming、Blackman以及相似的窗口在数学上简单的替换物,使用加权正弦总和生成这些替换物。正弦总和方法产生了独特的特性,例如,保证窗口函数具有连续性,并且该方法也可用于构成功率互补性窗口,用于例如进行音频编码。
参考文献
[1]R.B.Blackman和J.W.Tukey,从通信工程的角度测量功率谱(TheMeasurement of Power Spectra from the Point of View of CommunicationsEngineering),纽约,NY,USA:Dover出版物,1958。
[2]F.J.Harris,窗口在利用离散傅立叶变换进行谐波分析中的使用(On the Use of Windows for Harmonic Analysis with the Discrete FourierTransform),Proc.IEEE,第66卷,第1号,第51–83页,1978年1月。
[3]N.C.和D.Yavuz,一些新颖窗口和窗口族比较的简要指南(Some Novel Windows and a Concise Tutorial Comparison of WindowFamilies),IEEE Trans.,声学、语音和信号处理,第ASSP-26卷,第6号,第501-507页,1978年12月。
[4]A.H.Nuttall,一些具有非常好的旁瓣行为的窗口(Some Windowswith Very Good Sidelobe Behavior),IEEE Trans.,声学、语音和信号处理,第ASSP-29卷,第1号,第84-91页,1981年2月。
[5]S.W.A.Bergen和A.Antoniou,具有指定频谱特性的超球窗口函数的设计(Design of Ultraspherical Window Functions with PrescribedSpectral Characteristics),应用信号处理EURASIP学报,第2004卷,第13号,第2053–2065页,2004。可从以下地址获得:http://www.hindawi.com/GetArticle.aspx?doi=10.1155/S1110865704403114。
[6]J.O.Smith III,频谱音频信号处理(Spectral Audio SignalProcessing),2009年3月起草,音乐和声音计算机研究中心(CCRMA),斯坦福大学,CA,USA。可从以下地址获得:
http://ccrma.stanford.edu/~jos/sasp/(2010年3月访问)
[7]J.P.Princen、A.W.Johnson和A.B.Bradley,使用基于时域偏移消除的滤波器组设计的子带/变换编码(Subband/Transform Coding UsingFilter Bank Designs Based on Time Domain Aliasing Cancellation)Proc.IEEE,1987,ICASSP-12,第2161–2164页,1987年5月。
[8]ISO/IEC 14496-3:2009,信息技术—音频-视频对象的编码—第三部分:音频(Information technology–Coding of audio-visual objects–Part 3:Audio),Geneva,2009年8月。
[9]Xiph.org基金,Vorbis规范(Vorbis I specification),2010年2月。在线http://www.xiph.org/vorbis/doc/Vorbis_I_spec.html。
Claims (7)
1.一种信号处理器(150),用于根据输入信号(110)提供所述输入信号的处理版本(112),所述信号处理器包括:
窗口化器(120),被配置为根据用于多个窗口值指数值(t)的信号处理窗口值(wc(t))所描述的信号处理窗口,将所述输入信号(110)或其预处理版本(110')的一部分窗口化,以获得所述输入信号的处理版本(112);以及
窗口提供器(180),用于根据一个或多个窗口形状参数(ck),提供用于多个窗口值指数值(t)的所述信号处理窗口值(wc(t)),
其中,所述窗口提供器(180)被配置为计算多个正弦型整形函数的函数值的加权和,所述多个正弦型整形函数将窗口值指数值(t)映射到相应的函数值上,以获得所述信号处理窗口值(wc(t)),
其中,所述函数值的加权由所述窗口形状参数(ck)确定。
2.根据权利要求1所述的信号处理器,其中,所述窗口提供器被配置为根据
提供用于多个窗口值指数值t的所述信号处理窗口值wc(t),
其中K≥1;并且
其中,ck’是由所述窗口形状参数确定的窗口形状参数值。
3.一种信号处理器(200),用于根据输入信号(210)提供所述输入信号(210)的处理版本(212),所述信号处理器包括:
窗口化器(220),被配置为根据用于多个窗口值指数值(t)的信号处理窗口值(wc(t))所描述的信号处理窗口,将所述输入信号的一部分或其预处理版本(210')窗口化,以获得所述输入信号的处理版本,
其中,所述信号处理窗口值是多个正弦型整形函数的函数值的加权和的结果值,所述多个正弦型整形函数将所述窗口值指数值映射到相应的函数值上。
4.根据权利要求3所述的信号处理器,其中,根据
定义所述信号处理窗口值wc(t),
其中,对于窗口斜面(1630),t取0和L/2之间的值,并且其中,K≥1。
5.一种用于根据输入信号提供所述输入信号的处理版本的方法,所述方法包括:
根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将所述输入信号或其预处理版本的一部分窗口化,以获得所述输入信号的处理版本;以及
根据一个或多个窗口形状参数,提供用于多个窗口值指数值的所述信号处理窗口值,
其中,计算多个正弦型整形函数的函数值的加权和,以获得所述信号处理窗口值,
其中,所述正弦型整形函数将窗口值指数值映射到相应的函数值上,以及
其中,所述函数值的加权由所述窗口形状参数确定。
6.一种用于根据输入信号提供所述输入信号的处理版本的方法,所述方法包括:
根据用于多个窗口值指数值的信号处理窗口值所描述的信号处理窗口,将所述输入信号或其预处理版本的一部分窗口化,以获得所述输入信号的处理版本;
其中,所述信号处理窗口值是多个正弦型整形函数的函数值的加权和的结果值,所述多个正弦型整形函数将窗口值指数值映射到相应的函数值上。
7.一种计算机程序,当所述计算机程序在计算机上运行时,用于执行根据权利要求5至6中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US31277510P | 2010-03-11 | 2010-03-11 | |
US61/312,775 | 2010-03-11 | ||
EP10175142.8 | 2010-09-02 | ||
EP10175142A EP2372704A1 (en) | 2010-03-11 | 2010-09-02 | Signal processor and method for processing a signal |
PCT/EP2011/053484 WO2011110569A1 (en) | 2010-03-11 | 2011-03-08 | Signal processor and method for processing a signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102893328A true CN102893328A (zh) | 2013-01-23 |
CN102893328B CN102893328B (zh) | 2014-12-10 |
Family
ID=43827399
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180023357.6A Active CN102893329B (zh) | 2010-03-11 | 2011-03-08 | 信号处理器、窗口提供器、用于处理信号的方法以及用于提供窗口的方法 |
CN201180023295.9A Active CN102893328B (zh) | 2010-03-11 | 2011-03-08 | 信号处理器以及用于处理信号的方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180023357.6A Active CN102893329B (zh) | 2010-03-11 | 2011-03-08 | 信号处理器、窗口提供器、用于处理信号的方法以及用于提供窗口的方法 |
Country Status (14)
Country | Link |
---|---|
US (2) | US9252803B2 (zh) |
EP (5) | EP2372704A1 (zh) |
JP (2) | JP5706917B2 (zh) |
KR (2) | KR101445290B1 (zh) |
CN (2) | CN102893329B (zh) |
AU (2) | AU2011226118B2 (zh) |
BR (2) | BR112012022899A2 (zh) |
CA (2) | CA2792453C (zh) |
ES (3) | ES2526774T3 (zh) |
HK (2) | HK1231625A1 (zh) |
MX (2) | MX2012010320A (zh) |
PL (1) | PL2545549T3 (zh) |
RU (2) | RU2611986C2 (zh) |
WO (2) | WO2011110569A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8538042B2 (en) * | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US9305031B2 (en) * | 2013-04-17 | 2016-04-05 | International Business Machines Corporation | Exiting windowing early for stream computing |
US8908796B1 (en) * | 2013-05-15 | 2014-12-09 | University Of South Florida | Orthogonal frequency division multiplexing (OFDM) transmitter and receiver windowing for adjacent channel interference (ACI) suppression and rejection |
PT3028275T (pt) * | 2013-08-23 | 2017-11-21 | Fraunhofer Ges Forschung | Aparelho e método para processamento de um sinal de áudio utilizando uma combinação numa faixa de sobreposição |
US9479272B2 (en) | 2014-05-14 | 2016-10-25 | Samsung Electronics Co., Ltd | Method and apparatus for processing a transmission signal in communication system |
JP6243580B2 (ja) * | 2014-10-20 | 2017-12-06 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | フォトンカウンティングctのための心臓再構成 |
TWI681384B (zh) * | 2018-08-01 | 2020-01-01 | 瑞昱半導體股份有限公司 | 音訊處理方法與音訊等化器 |
CN110889083B (zh) * | 2018-09-10 | 2020-12-22 | 湖南银杏可靠性技术研究所有限公司 | 基于窗谱估计的退化数据一致性检验法 |
JP7422905B1 (ja) | 2022-08-02 | 2024-01-26 | 三菱電機株式会社 | 信号処理装置および信号処理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1520589A (zh) * | 2001-05-15 | 2004-08-11 | ά����ķ����˾ | 声频信号处理设备及方法 |
CN1835078A (zh) * | 2003-11-26 | 2006-09-20 | 联发科技股份有限公司 | 子带分析/合成滤波方法 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5109417A (en) | 1989-01-27 | 1992-04-28 | Dolby Laboratories Licensing Corporation | Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio |
US5142656A (en) | 1989-01-27 | 1992-08-25 | Dolby Laboratories Licensing Corporation | Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio |
JP3465941B2 (ja) * | 1993-01-07 | 2003-11-10 | 三菱電機株式会社 | ピッチ抽出装置 |
US6487574B1 (en) * | 1999-02-26 | 2002-11-26 | Microsoft Corp. | System and method for producing modulated complex lapped transforms |
US6496795B1 (en) * | 1999-05-05 | 2002-12-17 | Microsoft Corporation | Modulated complex lapped transform for integrated signal enhancement and coding |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
CN1408146A (zh) * | 2000-11-03 | 2003-04-02 | 皇家菲利浦电子有限公司 | 音频信号的参数编码 |
MXPA03010237A (es) * | 2001-05-10 | 2004-03-16 | Dolby Lab Licensing Corp | Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido. |
US6963842B2 (en) * | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
EP1394772A1 (en) | 2002-08-28 | 2004-03-03 | Deutsche Thomson-Brandt Gmbh | Signaling of window switchings in a MPEG layer 3 audio data stream |
CA2415105A1 (en) * | 2002-12-24 | 2004-06-24 | Voiceage Corporation | A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding |
US20040162866A1 (en) * | 2003-02-19 | 2004-08-19 | Malvar Henrique S. | System and method for producing fast modulated complex lapped transforms |
JP2004361731A (ja) * | 2003-06-05 | 2004-12-24 | Nec Corp | オーディオ復号装置及びオーディオ復号方法 |
JP3849679B2 (ja) * | 2003-09-25 | 2006-11-22 | ヤマハ株式会社 | 雑音除去方法、雑音除去装置およびプログラム |
US6980933B2 (en) * | 2004-01-27 | 2005-12-27 | Dolby Laboratories Licensing Corporation | Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients |
US7088276B1 (en) * | 2004-02-13 | 2006-08-08 | Samplify Systems Llc | Enhanced data converters using compression and decompression |
JP4355745B2 (ja) * | 2004-03-17 | 2009-11-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化 |
WO2005096274A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Dispositif et procede de codage/decodage audio ameliores |
WO2005096273A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Ameliorations apportees a un procede et un dispositif de codage/decodage audio |
JP2006243664A (ja) * | 2005-03-07 | 2006-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体 |
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
RU2315424C1 (ru) * | 2006-06-06 | 2008-01-20 | Виктор Васильевич Бондаренко | Система связи с высокой скоростью передачи информации сверхширокополосными сигналами |
US7987089B2 (en) * | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
US8036903B2 (en) * | 2006-10-18 | 2011-10-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
EP1918911A1 (en) * | 2006-11-02 | 2008-05-07 | RWTH Aachen University | Time scale modification of an audio signal |
US7522074B2 (en) * | 2007-09-17 | 2009-04-21 | Samplify Systems, Inc. | Enhanced control for compression and decompression of sampled signals |
MX2010004220A (es) * | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
JP4918074B2 (ja) * | 2008-08-18 | 2012-04-18 | 日本電信電話株式会社 | 符号化装置、符号化方法、符号化プログラム、及び記録媒体 |
-
2010
- 2010-09-02 EP EP10175142A patent/EP2372704A1/en not_active Withdrawn
- 2010-09-02 EP EP10175141A patent/EP2372703A1/en not_active Withdrawn
-
2011
- 2011-03-08 CN CN201180023357.6A patent/CN102893329B/zh active Active
- 2011-03-08 WO PCT/EP2011/053484 patent/WO2011110569A1/en active Application Filing
- 2011-03-08 RU RU2012143351A patent/RU2611986C2/ru not_active Application Discontinuation
- 2011-03-08 CN CN201180023295.9A patent/CN102893328B/zh active Active
- 2011-03-08 CA CA2792453A patent/CA2792453C/en active Active
- 2011-03-08 KR KR1020127026487A patent/KR101445290B1/ko active IP Right Grant
- 2011-03-08 JP JP2012556493A patent/JP5706917B2/ja active Active
- 2011-03-08 MX MX2012010320A patent/MX2012010320A/es active IP Right Grant
- 2011-03-08 EP EP11707661.2A patent/EP2545550B1/en active Active
- 2011-03-08 ES ES11707660.4T patent/ES2526774T3/es active Active
- 2011-03-08 ES ES11707661.2T patent/ES2601847T3/es active Active
- 2011-03-08 KR KR1020127026520A patent/KR101445292B1/ko active IP Right Grant
- 2011-03-08 JP JP2012556496A patent/JP5809645B2/ja active Active
- 2011-03-08 BR BR112012022899A patent/BR112012022899A2/pt not_active Application Discontinuation
- 2011-03-08 ES ES16177667.9T patent/ES2691479T3/es active Active
- 2011-03-08 RU RU2012143352A patent/RU2616863C2/ru active
- 2011-03-08 EP EP16177667.9A patent/EP3096317B1/en active Active
- 2011-03-08 WO PCT/EP2011/053491 patent/WO2011110572A1/en active Application Filing
- 2011-03-08 EP EP11707660.4A patent/EP2545549B1/en active Active
- 2011-03-08 PL PL11707660T patent/PL2545549T3/pl unknown
- 2011-03-08 AU AU2011226118A patent/AU2011226118B2/en active Active
- 2011-03-08 AU AU2011226121A patent/AU2011226121B2/en active Active
- 2011-03-08 BR BR112012022898-6A patent/BR112012022898B1/pt active IP Right Grant
- 2011-03-08 MX MX2012010440A patent/MX2012010440A/es active IP Right Grant
- 2011-03-08 CA CA2792454A patent/CA2792454C/en active Active
-
2012
- 2012-09-11 US US13/610,352 patent/US9252803B2/en active Active
- 2012-09-11 US US13/610,361 patent/US8907822B2/en active Active
-
2013
- 2013-07-10 HK HK17105231.9A patent/HK1231625A1/zh unknown
- 2013-07-15 HK HK13108249.7A patent/HK1181179A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1520589A (zh) * | 2001-05-15 | 2004-08-11 | ά����ķ����˾ | 声频信号处理设备及方法 |
CN1835078A (zh) * | 2003-11-26 | 2006-09-20 | 联发科技股份有限公司 | 子带分析/合成滤波方法 |
Non-Patent Citations (2)
Title |
---|
NUTTALL A H: "SOME WINDOWS WITH VERY GOOD SIDELOBE BEHAVIOR", 《IEEE TRANSACTIONS ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING》, vol. 29, no. 1, 1 February 1981 (1981-02-01), XP001152184, DOI: doi:10.1109/TASSP.1981.1163506 * |
PRABHU K M: "A SET OF SUM-COSINE WINDOW FUNCTIONS", 《INTERNATIONAL JOURNAL OF ELECTRONICS》, vol. 58, no. 6, 1 January 1985 (1985-01-01), XP009146964 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102893328B (zh) | 信号处理器以及用于处理信号的方法 | |
US11854559B2 (en) | Decoder for decoding an encoded audio signal and encoder for encoding an audio signal | |
CN102243873B (zh) | 分解滤波器组、合成滤波器组、编码器、解码器、混合器及会议系统 | |
CN101401305A (zh) | 利用复调制滤波器组的高效滤波 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Munich, Germany Patentee after: Fraunhofer Application and Research Promotion Association Address before: Munich, Germany Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. |