CN106575508A

CN106575508A - 音频信号的数字封装

Info

Publication number: CN106575508A
Application number: CN201480081084.4A
Authority: CN
Inventors: 彼得·格雷厄姆·克雷文; 约翰·罗伯特·斯图亚特
Original assignee: Renate Ltd
Current assignee: Lanbrook Industries Ltd
Priority date: 2014-06-10
Filing date: 2014-06-10
Publication date: 2017-04-19
Anticipated expiration: 2034-06-10
Also published as: US20210193157A1; PL3155617T3; KR20230028594A; EP3155617B1; EP3998605A1; US11710493B2; US20190057709A1; JP6700507B2; US10867614B2; US20240029749A1; KR102503347B1; JP2017521977A; KR102661191B1; KR20210132222A; US10115410B2; WO2015189533A1; CN106575508B; EP4002359A1; KR20170023941A; JP6700507B6

Abstract

描述了用于提供音频信号的高质量数字表示的编码和解码系统，特别注意以适度的采样率表现快速瞬态的适当的感知再现。这通过优化下采样和上采样滤波器以最小化脉冲响应的长度同时充分地衰减已发现在感知上有害的混叠乘积来实现。

Description

音频信号的数字封装

技术领域

本发明涉及音频信号的高质量数字表示的规定。

背景技术

在引入压缩光盘(CD)的三十年中，一般公众已经接受“CD质量”作为数字音频的标准。同时，在音频圈中持续有两种争论。一种的中心围绕这样的主张：CD的16位分辨率和44.1kHz的采样率浪费数据，并且等效声音可以通过更紧凑的有损压缩格式(例如MP3或AAC)来传达。另一个采用截然相反的观点，断定CD的分辨率和采样率不足，并且使用例如24位和96kHz的采样率(通常缩写为96/24的规范)获得可听到的更好的结果。

如果确实认为44kHz没有足够好，则出现的问题是96kHz能否实现更好的结果，或者192kHz或甚至384kHz应当是“终极”质量的采样率。许多音响发烧友断言，96kHz比44.1kHz听起来更好，192kHz确实比96kHz听起来更好。

历史上，采样定理(www.en.wikipedia.org/wiki/Sampling_theorem)已经证明从模拟波形的连续时间表示到采样数字表示的转变，该定理规定可以从每秒具有2×f_max个样本的采样表示精确地重构仅包含高达最大f_max的频率的连续时间波形。对应于一半采样率的频率被称为奈奎斯特频率，例如当以96KHz采样时的48kHz。

因此，连续时间波形首先由频带限制的“抗混叠”滤波器滤波，以去除高于f_max的频率，否则该频率将通过采样过程“折射”，并且被再现为低于f_max的图像。按照标准通信惯例，限带抗混叠滤波器通常近似于高达f_max的平坦频率响应，因此频率响应曲线具有“砖墙”的外观。这同样适用于用于从采样表示再生连续波形的重构滤波器。

根据该方法，采样和随后重构的过程完全等效于时不变线性滤波过程，其去除高于f_max的频率，并且对显著低于f_max的频率的改变很小或没有改变。因此很难理解，在192kHz的采样可以比在96kHz的采样听起来更好，因为唯一的区别是存在或不存在大约40kHz以上的频率，其超过传统的人类听觉范围20Hz至20kHz乘以因子2。

尝试部分解释这种悖论的两篇论文是Dunn J的“抗混叠和抗图像滤波：96kHz采样率格式对那些听不到20kHz以上的人的优点(Anti-alias and anti-image filtering:Thebenefits of 96kHz sampling rate formats for those who cannot hear above20kHz)”(1998年AES大会第104届预印本4734)和Story M的“高采样率和常规采样率音频材料之间的(一些)听觉差异的建议解释(A Suggested Explanation For(Some Of)TheAudible Differences Between High SampleRate And Conventional Sample RateAudio Material)”，可得自http://www.cirlinca.com/include/aes97ny.pdf。

两者都建议调和在于查看滤波器的时域响应。Dunn发现通带波动具有像回波前和回波后的效果，而Story则观察滤波器如何在时间上分散脉冲的能量。虽然他们指向不同的属性，对于两位作者，这些问题减小了采样率的增加。如果平坦响应仅保持到20kHz而不是接近奈奎斯特频率，从而在奈奎斯特频率处需要全混叠抑制之前增加过渡带，则尤其如此。

Story的方法进一步在Craven，P.G.的“抗混叠滤波器和高采样率的系统瞬态响应(Antialias Filters and System Transient Response at High Sample Rates)”。在这里，Craven教导了即使在96kHz系统中的抽取和内插系统具有“砖墙”响应，从而造成宽分散的脉冲能量的声音缺点，以96kHz采样率工作的“切趾(apodising)”滤波器可以加宽有效过渡带，从而使脉冲能量的分散变窄。图1示出了说明性的砖墙滤波器下采样到96kHz的频率响应(实线)，以及切趾滤波器的响应(虚线)。然后在图2A和2B中示出滤波器的相应脉冲响应，示出了通过将切趾滤波器应用于图2B中的紧凑时间响应，如何缩短图2A中的砖墙(brickwall)滤波器的高分散的时间响应。

然而，即使使用切趾，今天仍然是这种情况，以高于96kHz的采样率采样可以提供与Story报告相同的术语描述的听得见的改进：“更少混杂”、“更有气氛”、“更好的高频细节”，特别是“更好的空间解析度”。必然的结果是，当使用降低的采样率(例如96kHz)时，当前的现有技术损失了这些声音属性的某些东西，尽管有了对于识别可能导致这种损失的原因的有用的进展。

因而，最高质量的复制品需要使用极高的采样率，从而影响文件大小和带宽要求。因此，使大众对高分辨率声音感兴趣的前景看起来暗淡，无论是格式的繁重要求还是已经丧失质量的变现。因此，需要一种替代方法，用于以降低的采样率分布高质量音频，这种降低的采样率保持与高采样率相关联的感知益处。

发明内容

根据本发明的第一方面，提供了一种包括编码器和解码器的用于传送音频采集的声音的系统，其中所述编码器被适配成以传输采样率从表示所述音频采集的信号提供数字音频信号，并且所述解码器被适配成接收所述数字音频信号并提供重构信号，

其中所述编码器包括下采样器，其被适配成以第一采样率接收表示所述音频采集的信号并且对所述信号进行下采样以提供所述数字音频信号，所述第一采样率是所述传输采样率的倍数；并且

其中所述编码器和解码器的组合的脉冲响应的特征在于其累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的五个采样周期。

在本发明的第一方面的替代性表征中，所述编码器和解码器的组合的脉冲响应具有从不超过所述传输采样率的两个采样周期的累积绝对响应从最终值的1％增加到50％的持续时间。

得到的系统允许用于音频的降低的采样率传输而不损害声音质量，尽管放松与系统的指定组合脉冲响应相关联的抗混叠抑制。此外，编码器和解码器的各个响应可以符合各种合适的设计，只要复合脉冲响应满足紧凑系统响应的指定标准即可。这样，本发明解决了如何降低用于音频采集的分布的采样率，同时保持与高采样率相关联的可听益处的问题，并且以违背常规思维的方式来实现。

发明人通过观察得到该解决方案，其部分地基于人耳的观察到的特性，而不是仅仅在其应用隐含地假设耳朵(包括神经处理)是线性且时间不变的传统通信理论。这包括以下观察：人耳对<20kHz的频率是敏感，而且对于具有比20kHz带宽可能意味的时间精度更高的时间精度的脉冲也是敏感的。

对带限材料上的良好滤波器性能的下采样要求通常与脉冲声音的良好性能的要求冲突。经典理想的砖墙滤波器在非常宽的时间跨度上传播脉冲的能量，使得难以确定确切的属性，例如耳间时差和空间属性。

然而，发明人已经注意到，通过在192kHz和更高的采样率工作所观察到的有益的声学特性至少部分地归因于较高频率信号链中的下采样和上采样滤波器的更紧凑的脉冲响应。他们进一步认识到，通过使用类似紧凑的脉冲响应用于到低采样率的下采样和从低采样率的上采样，可以保持这些声音特性，同时使用低采样率，例如96kHz或更低。

事实上，本发明人已经认识到，通过在高采样率下使用比现有设备更紧凑的脉冲响应，尽管采样率较低，甚至可以改善这些声音特性。

本发明人还认识到，真实世界音频具有上升的噪声谱和下降的信号谱，并且与传统的智能命令相比，需要更少的混叠抑制，尤其是如果通过对有待于进行重采样的实际音频的分析来确定混叠要求时。

虽然，这种非常紧凑的脉冲响应表现出比音频工业认为对于高质量音频所需要的混叠抑制少的混叠抑制，但是发明人已经认识到，紧凑脉冲响应的声音益处远远超过从减少的混叠抑制到所需水平的任何轻微的不利。

最后，发明人已经认识到，通过将两个滤波器设计为一对而不是单独地实施可以改善结合抽取和内插的信号链。

在开发本发明时，发明人发现重要的是，滤波器是紧凑的，没有过多的后振铃，特别是不过度的振铃。虽然这作为一个直观的概念是有意义的，但是建立可听的显著持续时间的量度以便可以比较滤波器持续时间是有帮助的。理想地，该测量应当对应于扩展响应的可听见的结果，但是可能不清楚如何从关于脉冲检测的现有实验数据导出这样的测量。

滤波器的支持(support)是其持续时间的自然度量，但是对于当前的目的是不令人满意的，如可以通过考虑温和型的IIR滤波器，如(1-0.01z^-1)^-1。这种滤波器几乎不分散脉冲，但是具有无限支持。相反，需要一种测量来观察脉冲响应的大部分如何在时间上的展开。

因此，提出了一种措施，其将系统的脉冲响应的绝对量值相对于时间进行积分以形成累积响应。这种整合是为了惩罚即使在低水平也显著延长的振铃。测量从低的第一阈值(例如1％)上升到高的第二阈值(例如95％)的累积响应所经过的时间，其中阈值表示为累积响应的最终值的百分比，如图14所示。然而，应当注意，在表征累积响应时可以使用其他阈值，在这种情况下，可以指定在采样周期方面不同的持续时间以反映不同的度量。

在对系统的输入进行采样的情况下，脉冲响应不连续。然而，我们不想确定累积量何时跨越要量化到输入采样周期的阈值，因此绝对脉冲响应值在采样周期的持续时间内保持恒定。这相当于在采样时刻之间对累积量进行线性内插。

图14示出了根据本发明的滤波器上的这种测量的操作，随后将参考图5B对其进行描述。根据后面描述的本发明的其它滤波器同样符合该措施。输入采样率是传输率的两倍，因此脉冲响应保持半个传输采样周期。使脉冲响应的绝对值积分的累积量从t＝0处的其最终值的0％进行到t＝4.5处的100％(因为滤波器是9抽头FIR)。95％水平在t＝2.69传输速率样本处与累积曲线相交。同样，在t＝0.03样本处，1％的水平与图形相交，但这在图中未示出，因此在底部左下角，在该尺度上不可见。因此，通过这种措施，该滤波器具有2.69-0.03＝2.66传输速率样本的持续时间，从而满足本发明的要求。

试听测试已经表明，较短的脉冲响应几乎总是更好，并且在大多数情况下，已经证明可以通过延伸超过5个传输速率采样周期的该定义设计出不具有的显著响应持续时间的滤波器。然而，在所有其它条件相同的情况下，更短的时间将更好，并且优选的是，持续时间低于4个传输速率样本，更优选地低于3。

时距的这种定义提供了用于与满足标准的系统的特定滤波器设计进行比较的复合脉冲响应的有意义的测量。另外，脉冲响应的时距的相同定义可以应用于系统内的组件的响应，诸如编码器或解码器或单独的滤波器，从而允许直接比较并确定一个是否比另一个更紧凑。

认为重要的是，上述时距定义中的阈值是非对称的，以反映滤波器对后响应的预响应的更高的可听度。进一步的研究可以指向与声音影响更好匹配的其他特定的阈值水平，通过对样品长度的持续时间进行相应修改。

例如，将测量集中在初始迅速上升的累积量上可能是明智的。这可以通过使第一阈值仍然在1％，但是第二阈值在50％来完成。在图14中，在t＝0.99时，50％水平与累积量曲线相交，因此根据该替代测量，该滤波器的持续时间为0.99-0.03＝0.96。显然，使用这种替代测量的持续时间较短，因此在这种情况下，系统脉冲响应的持续时间优选地低于2个传输速率采样，更优选地低于1.5个传输速率采样。

当考虑时不变线性滤波器或系统时，脉冲响应是众所周知的属性。然而，对于包括抽取的系统，对脉冲的响应可以根据何时相对于抽取处理的采样点呈现脉冲而不同。因此，当提及这种系统的脉冲响应时，我们是指在原始脉冲的所有这样的呈现时刻的平均响应。

优选地，所述下采样器包括以所述第一采样率指定的抽取滤波器，其中所述抽取滤波器的混叠抑制在抽取时在将混叠至0-7kHz范围的频率为至少32dB。

0-7kHz的范围是耳朵最敏感的范围。所需的衰减量根据要在其奈奎斯特频率附近编码的信号的频谱极大地变化，并且信号可能需要大于32dB的衰减。

进一步优选的是，应当存在第二滤波器，所述第二滤波器具有与所述抽取滤波器相同的混叠抑制，以及其累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的五个采样周期的响应。优选地，持续时间不超过4个采样周期，更优选地不超过3个采样周期。

这是因为可以优选地设计具有期望的声音性能的第二滤波器，但是用于抽取具有相同混叠抑制的不同滤波器，但是另外结合通带平坦化以便让使用遗留设备的收听者收益。因此，实际的抽取滤波器可能具有较长的持续时间，但是匹配的解码器将取消通带平坦化，从而允许达到原始设计的第二滤波器的声音质量。

在滤波器长度的替代测量下，第二滤波器的特征在于其累积绝对响应从最终值的1％增加到50％的持续时间不超过所述传输采样率的两个采样周期的响应。优选地，持续时间不超过1.5个采样周期

在一些实施方案中，所述编码器包括具有极点的无限脉冲响应(IIR)滤波器，并且所述解码器包括具有零点的滤波器，零点的z平面位置与所述极点的z平面位置重合，由此在所述重构信号中消除其影响。

在其它实施方案中，所述解码器包括具有极点的无限脉冲响应(IIR)滤波器，并且所述编码器包括具有零点的滤波器，零点的z平面位置与所述极点的z平面位置重合，由此在所述重构信号中消除其影响。

优选地，所述解码器包括滤波器，所述滤波器具有在对应于所述传输采样率的奈奎斯特频率周围的区域中上升的响应，并且所述编码器包括具有落入所述区域中的响应的滤波器，从而减少编码器中高于所述奈奎斯特频率的频率与低于所述奈奎斯特频率的频率的向下混叠，而不会影响总系统频率响应或脉冲响应。此特性在原始信号具有陡峭上升的噪声谱的情况下特别有用。

在优选实施方案中，所述传输采样率选自88.2kHz和96kHz之一，并且所述第一采样率选自176.4kHz、192kHz、352.8kHz和384kHz之一，本发明发现在这些频率在听觉上有益。

根据本发明的第二方面，提供了一种通过降低传送采集的音频的声音所需的采样率来提供用于以传输采样率传输的数字音频信号的方法，所述方法包括以下步骤：

使用以所述第一采样率指定的抽取滤波器对具有为所述传输采样率的倍数的第一采样率的所采集音频的表示进行滤波；并且

对所述滤波后的表示进行抽取以提供所述数字音频信号，其中所述抽取滤波器的脉冲响应在抽取时在将混叠至0-7kHz范围的频率具有至少32dB的混叠抑制，

其中存在第二滤波器，所述第二滤波器具有与所述抽取滤波器相同的混叠抑制，以及其累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的五个采样周期的响应。

再次，第二滤波器可以用于允许实际抽取滤波器具有延长的持续时间，这是由于为了让使用不匹配的遗留设备的收听者受益而并入通带平坦化。或者，如果不为遗留收听者执行通带平坦化，则抽取滤波器将与第二滤波器相同。

因此，本发明提供了对不期望的混叠乘积以及在第一采样率下的呈现的奈奎斯特频率附近的任何振铃的充分抑制，同时不会将系统脉冲响应延长超过必要。

在一些实施方案中，该方法还包括分析采集的音频的频谱，并且响应于分析的频谱选择抽取滤波器的步骤。该方法然后可以还包括提供与抽取滤波器的选择有关的信息以供解码器使用的步骤。在一些实施方案中，该方法还包括分析所采集的音频的本底噪声并响应于所分析的本底噪声选择所述抽取滤波器的步骤。这样，解码器中的抽取滤波器和相应的重构滤波器都可以最佳地匹配要传送的信号的噪声谱或其他特性。

尽管本发明以具有不大于传输采样率的6个采样周期的连续时间区域操作，在一些实施方案中，该连续时间区域的范围有利地不大于传输采样率的5个周期，4个周期或甚至3个周期。在一些信号上已经发现，这些较短的脉冲响应在听觉上比具有持续6个周期的脉冲响应的实施方案更有益。

根据本发明的第三方面，数据载体包含通过执行第二方面的方法提供的数字音频信号。

根据本发明的第四方面，用于音频流的编码器被适配成使用第二方面的方法来提供数字音频信号。

在优选实施方案中，编码器包括具有关于所述传输奈奎斯特频率的对称响应的平坦化滤波器。优选地，平坦化滤波器具有极点。

根据本发明的第五方面，提供了一种用于传送音频采集的声音的系统，所述系统包括：

编码器，被适配成接收表示所述音频采集的信号，并以传输采样率提供数字音频信号，所述编码器的特征在于脉冲响应具有累积绝对响应从其最终值的1％上升到95％的持续时间；以及

解码器，被适配成接收所述数字音频信号并提供重构的信号，所述解码器的特征在于脉冲响应具有累积绝对响应从其最终值的1％上升到95％的持续时间，

其中所述编码器和解码器的组合响应总系统脉冲响应，所述总系统脉冲响应具有累积绝对响应从1％上升到95％的持续时间，小于所述编码器单独的脉冲响应的特征持续时间以及所述解码器单独的脉冲响应的特征持续时间。

当编码的材料的特殊特性在编码器频率响应中需要额外的极点或零点以寻址在采集的音频中具有高噪声水平的频谱区域时，该方面可能是有用的。解码器响应中相应的零点或极点使特殊措施对整个系统的通带没有影响，并且还通过特殊措施使整个系统脉冲响应不变。然而，单独的编码器和解码器响应通过这些措施延长，并且可以都比组合的系统响应更长。

优选地，所述解码器包括具有z平面零点的滤波器，所述零点的z平面位置与所述编码器的响应中的极点的位置重合。

优选地，所述解码器包括根据从所述编码器接收的信息选择的滤波器。

在一些实施方案中，优选的是，组合的编码器和解码器的脉冲响应具有最大峰值，并且其特征在于具有不大于传输采样率的6个采样周期的范围的连续时间区域，在其外部平均脉冲响应的绝对值不超过所述最大峰值的10％。

根据本发明的第六方面，提供了一种编码器，该编码器被适配成从呈现音频采集的信号以传输采样率提供数字音频信号，所述编码器包括下采样滤波器，所述下采样滤波器具有等于滤波器的响应的非对称成分的非对称成分，所述滤波器的频率响应在将混叠至零频率的每个频率具有双零点并且在所述传输奈奎斯特频率具有比每八度的负十三分贝更正的斜率。

优选地，编码器包括具有关于所述传输奈奎斯特频率的对称响应的平坦化滤波器。优选地，平坦化滤波器具有极点。进一步优选的是，所述传输频率为44.1kHz，并且所述编码器的频率响应下降在20kHz不超过1dB。

根据本发明的第七方面，提供了一种包括编码器和解码器的用于传送音频采集的声音的系统，其中所述编码器被适配成从表示所述音频采集的信号以传输采样率提供数字音频信号，并且所述解码器被适配成接收所述数字音频信号并提供重构信号，

其中所述编码器包括具有极点的无限脉冲响应(IIR)滤波器，并且所述解码器包括具有零点的滤波器，所述零点的z平面位置与所述极点的z平面位置重合，由此在所述重构信号中消除其影响。

优选地，组合的编码器和解码器的脉冲响应具有最大峰值，并且其特征在于具有不大于传输采样率的6个采样周期的范围的连续时间区域，在其外部平均脉冲响应的绝对值不超过所述最大峰值的10％。

根据本发明的第八方面，提供了一种编码器，被适配成从表示音频采集的信号以传输采样率提供数字音频信号，所述编码器包括下采样滤波器，所述下采样滤波器被适配成以作为所述传输采样率的倍数的第一采样率接收表示所述音频采集的信号，并对所述信号进行下采样以提供所述数字音频信号，其中所述编码器被适配成分析所采集的音频的频谱并响应于所分析的频谱选择所述下采样滤波器。

优选地，如果所分析的频谱在传输奈奎斯特频率处迅速上升，则所选择的下采样滤波器在所述传输奈奎斯特频率处具有更陡峭的衰减响应。

优选地，所述编码器被适配成将识别所选择的下采样滤波器的信息作为元数据发送到解码器。

根据本发明的第九方面，提供了一种用于以传输采样率接收数字音频信号并提供输出音频信号的解码器，其中所述解码器包括具有振幅响应的滤波器，所述振幅响应在对应于所述传输采样率的奈奎斯特频率周围的频率区域中随频率增大。

为了在较高采样率下的表示在所述奈奎斯特频率处表现强上升频谱并且期望使相对于常规音频频带0-20kHz的相位失真最小化的情况下优化奈奎斯特频率附近的频率的信号混叠比，该特征是必要的。

优选地，相对于DC处的响应，滤波器在对应于传输采样率的奈奎斯特频率处具有至少+2dB的振幅响应。通常，上升的解码器响应可以有利地允许编码器提供足够的混叠衰减，同时在音频范围中提供平坦的频率响应，而不延长总系统脉冲响应，并且当解码器响应最终下降时，它通常仍然在所述奈奎斯特频率略微升高。

在一些实施方案中，优选地，滤波器具有根据从编码器接收的信息选择的响应。这允许编码器在个案基础上最佳地选择滤波。

如本领域技术人员将理解的，公开了用于优化重构信号的声音并且特别是用于控制抽取混叠而不以不期望的方式延长系统的总脉冲响应的各种方法。

有利地，响应于源材料特性选择滤波器。同样地，可以针对每种情况适当地采用诸如全零点、全极点和多相位的不同滤波器实施方式。根据本公开，进一步的变化和修改对于本领域技术人员将变得显而易见。

附图说明

将参照附图详细描述本发明的示例，其中：

图1示出了用于96kHz采样一起使用的已知(连续)“砖墙”抗混叠滤波器响应和(虚线)切趾滤波器响应；

图2A和2B示出对应于具有图1所示的频率响应的线性相位滤波器的已知脉冲响应；

图3示出了用于以降低的采样率发送音频信号，随后重构为连续时间的系统。

图4示出了针对DC处的单位增益而归一化的(1/2,1,1/2)重构滤波器的响应；

图5A示出了未衰减的下采样滤波器的频率响应。

图5B示出了整合平坦化的下采样滤波器的频率响应；

图6示出了包括对连续时间的上采样和对于图5A的通带下降的三阶校正的重构滤波器的响应；

图7示出当图4和图5B的滤波器与进一步上采样到连续时间结合时的总系统脉冲响应；

图8示出了具有强烈上升的超声波响应的两个商业记录的频谱。

图9示出了与图5B的下采样滤波器一起使用的关于约48kHz对称的平坦化滤波器的响应；

图10示出了图5A的下采样滤波器的响应(下曲线)以及在使用图9的对称平坦化器进行平坦化之后的响应(上曲线)；

图11示出了线性B样条采样内核；

图12A示出了在88.2kHz处从与原始88.2kHz流的偶样本对齐的44.1kHz红外编码样本的脉冲重构。

图12B示出了在88.2kHz处从与原始88.2kHz流的奇样本对齐的44.1kHz红外编码样本的脉冲重构。

图13A示出具有零点的下采样滤波器在60kHz附近提供强衰减的响应；

图13B示出了具有极点的上采样滤波器的响应，以消除对图13A的滤波器中的零的总响应的影响；

图13C示出了使图13A、图13B与假设的外部下降的响应结合的端对端响应；并且

图14示出了对采样周期中的时间绘制的图5A所示的滤波器的归一化累积脉冲响应。

具体实施方式

本发明可以根据所使用的系统以多种不同的方式实现。下面参考附图描述一些示例的实施方式。

公理

大多数成人听众不能听到高于20kHz的隔离的正弦波，并且迄今常常假设这意味着高于20kHz的信号的频率成分也不重要。虽然通过使用线性系统理论来类推这种假设是似乎合理的，近期的经验表明，这个假设并不正确。

目前对人类听觉的理解非常不完整。为了取得进展，我们因此依赖只经过部分或间接验证的假设。因此，将基于以下假设来解释本发明：

耳朵不表现为线性系统

耳朵除了分析频域中的音调，还分析时域中的瞬变(transients)。这会是超声区域中的主要机制。

即使在40kHz-100kHz的高超声波范围内，用于抗混叠和重构的滤波器的“振铃”是不期望的。

48kHz以上的频率对48kHz以下的频率的混叠对于声音质量不是灾难性的，假设混叠的乘积不落入0-20kHz的传统可听范围内。

相比较于后环，预环通常更是问题，但两者都不好。

能够最小化总系统脉冲响应的时间范围似乎是最佳的。

关于最后一点，“总系统”旨在包括模数转换器和数模转换器，以及其间的整个数字链。理想的是，也可以包括换能器响应，但是这些被认为在本文的范围之外。

抽取和混叠

随着采样率趋于无穷大，连续时间信号可以被视为采样信号的极限情况。在这一点上，我们不关心原始信号是否模拟的，并且因此假定在时间上是连续的，或者它是否是数字的，并且因此已经被采样。当我们谈论重采样时，我们指的是对由原始样本表示的抽象连续时间信号进行抽取。

采样或重采样的频域描述是，原始频率成分存在于重采样信号中，但伴随有与在调幅中形成的“边带”类似的多个图像。因此，如果在96kHz下重采样，原始的45kHz音调在51kHz处产生图像，51kHz是由96kHz的调制的下边带。将所有频率视为相对于48kHz的奈奎斯特频率“镜像”可能更直观；因此51kHz是45kHz的镜像，并且同样地，原始的51kHz音调将在重采样信号中被镜像下至45kHz。

如果传输信道涉及在不同采样率的几次重采样，则原始频谱的图像将累积并且存在一种很大的可能性：音频音调将通过一次重采样向上镜像，然后通过随后的重采样向下镜像，从而落入可听范围内，但是以与原始频率不同的频率。为了防止这种情况，“恰当的”通信实践教导了在每个阶段应当使用抗混叠和重构滤波器，以便抑制所有图像。如果这样做，则可以任意地级联重采样而不堆积伪像，限制仅在于频率范围被限制为可以由链中的最低采样率处理的频率范围。

然而，我们认为，在通信工程中认为适当的滤波器从听觉上来说并不令人满意，至少不是以目前可用于大规模分布的采样率。我们接收会发生混叠，并且提出将混叠与由于滤波引起的系统脉冲响应的延长导致的瞬态的“时间拖尾”平衡。

因此，与传统实践不同，混叠没有完全消除，并且将在信号的每次重采样上累积。因此，在没有损失的情况下不进行对任意采样率的多次重采样，并且最好是信号总是以将用于分布的采样率的整数倍的采样率表示。例如，在192kHz模数转换，随后在96kHz的分布是良好的，并且在384kHz的转换可能仍然更好，这取决于转换器的宽带噪声特性。

在分布之后，消费者的回放设备还需要被设计为不引入长滤波器响应，并且实际上，编码和解码规范应当优选地一起设计以给出总系统响应的确定性。

从192kHz下采样用于96kHz分布

我们考虑采用已经在192kHz数字化的信号的问题，将信号下采样到96kHz用于传输，然后在接收时上采样回到192kHz。应当理解，这里描述的原理适用于存储以及传输，并且词语“传输”包括存储和传输。

参考图3所示的系统，以诸如192kHz的采样率的输入信号1被传递到下采样滤波器2，并且因此到达抽取器3以产生具有低采样率(例如96kHz)的信号4。在通过传输或存储装置5之后，96kHz信号6被上采样7并被滤波8从而以诸如192kHz的采样率提供部分重构的信号9。

本文的主要关注点是产生部分重构的信号9的方法，但是我们还注意到，需要进一步重构10以提供连续时间模拟信号11。本发明的目的是使信号11的声音尽可能接近被数字化以提供输入信号1的模拟信号的声音。这并不一定意味着信号9在工程意义上应尽可能接近信号1。此外，进一步重构10可以具有频率响应下降，如果需要，可以在滤波器2和8的设计中允许频率响应下降。

图3示出了作为单独实体的滤波器2和下采样器3，但是有时将它们组合起来更有效，例如在多相实施方式中。类似地，上采样器7和滤波器8可以不作为单独可识别的功能单元存在。

下采样使用抽取，在这种情况下丢弃来自192kHz信号的交替样本；同时，上采样使用填补，在这种情况下，在96kHz样本的每个连续对之间插入零样本，并且还乘以2以保持对低频的相同响应。在下采样时，高于48kHz的“折叠(foldover)”频率的频率将被镜像到低于折叠频率的相应图像。在上采样时，低于折叠频率的频率将被镜像到高于折叠频率的相应频率。因此，上采样和下采样产生向上混叠乘积和向下混叠乘积，其可由抽取之前的上采样滤波器和填补之后的下采样滤波器控制。上采样和下采样滤波器规定在192kHz的原始采样频率。

如果忽略混叠乘积，则总响应是上采样和下采样滤波器的响应的组合。在时域中，这种组合是卷积。

我们已经发现，通过设计上采样和下采样滤波器来获得良好的结果，使得总响应是最小长度的有限脉冲响应(FIR)滤波器的响应。在z变换域中，可以将零引入到这些滤波器中的每一个中以抑制不期望的响应。特别地，可能的是，每个滤波器将在z＝-1附近具有一个或多个传递函数零，以便抑制接近96kHz的奈奎斯特频率的信号。在没有滤波的下采样中，这样的信号将混叠到音频频率，包括耳朵最敏感的低于10kHz的频率。相反，如果通过填补而不进行滤波来执行上采样，则大的低频信号内容将在96kHz附近产生大的图像能量，无论是否有听觉后果，都会对后续电子产品的转换速率能力产生不可接受的要求，甚至可能烧毁扬声器高音扬声器。

其零点都接近奈奎斯特的FIR滤波器本身不会引起过冲或振铃：脉冲响应将是单极的并且相当紧凑。然而，在192kHz实现的(1+z^-1)因子在20kHz处引入0.47dB的频率响应下降。这将被认为在专业数字音频设备中仅在边际上是可接受的，并且如果我们需要若干这样的因素，例如五个或更多个，则通带下降以及所导致的声音变钝必然变得不可接受。因此，需要校正或“平坦化”滤波器，如将要讨论的。

从96kHz上采样用于播放

通常使用“2×”级的序列来执行对连续时间信号的重构。即，采样率通常每级加倍，并且当采样率已经达到384kHz或更高时，执行数模转换。我们将首先集中在第一个和最关键的阶段：从96kHz上采样到192kHz。

该上采样的核心是概念上或物理上对96kHz样本流进行零填补以产生192kHz流的操作。也就是说，我们产生一个192kHz的信号，其样本交替地是来自96kHz信号和零的样本。

零填补创建具有与混叠的频率相同的振幅的向上混叠的乘积。在当前的上下文中，这些乘积都高于48kHz，并且可以假设它们将是听不见的。然而，信号通常在低音频频率下具有高振幅，这意味着在接近96kHz的频率处的高电平混叠乘积。如已经指出的，这些混叠乘积需要被控制以便不对后续电子设备施加过度的转换速率需求并且冒着扬声器高频扬声器烧毁的风险。上采样或重构滤波器的目的是提供这种控制，并且将看到在96kHz附近的强衰减是主要要求。

我们认为对96kHz至192kHz重构是令人满意的最简单的重构滤波器是具有以192kHz采样率实施的抽头(tap)(1/2,1,1/2)的3抽头FIR滤波器。其归一化响应如图4所示。该滤波器在z＝-1处具有两个z平面零点，对应于96kHz的奈奎斯特频率。这些零点提供96kHz附近的衰减，其可能或可能不够，因此可能需要进一步的近奈奎斯特零点。(1/2,1,1/2)滤波器还引入了在20kHz下0.95dB的下降，或者如果在176.4kHz操作，则下降为1.13dB，这将需要校正。

通带平坦化

由于系统包括下采样器，因此可以以原始采样率或下采样率提供对朝向常规0-20kHz音频范围顶部的频率响应进行平坦化的校正，但是为了对上采样输出提供最短的端对端脉冲响应，应当在高采样率(例如192kHz)下执行平坦化。这仍然留下关于执行校正的选择：

a.编码器(下采样器)和解码器(上采样器)均包含对其自身下降的校正

b.编码器为其自身和解码器提供校正

c.解码器为其自身和编码器提供校正

d.编码器和解码器之间的校正的任意分布。

在实践中选项(a)会是方便的，因为所得到的下采样流将具有平坦频率响应，并且可以在没有特殊解码器的情况下播放。然而，由编码器和解码器的“端对端”脉冲响应组合的结果可能比针对总下降而设计单个校正器的情况更长。

选项(b)和(c)可以提供相同的端对端脉冲响应，如果对于总响应的单个校正器生成、因子化且因子分解，选项(d)也可以提供相同的端对端脉冲响应。然而，尽管端对端响应可以是相同的，但是在下采样之前将平坦化滤波器放置在编码器中通常增加了编码器中的向下混叠，并且试听测试倾向于在上采样之后将平整滤波器放置在解码器中，即使向上的混叠由此得到加强。

对于校正滤波器的设计，本领域技术人员将意识到，在线性相位下降的情况下，可通过将下降的z变换的倒数作为z＝1附近的幂级数展开来获得线性相位校正滤波器。从而可以通过调整幂级数展开的阶使该总响应最大化地平坦到任何期望的阶。然而，在当前上下文中，最小相位校正滤波器是优选的，以便避免预先响应。为此，首先将下降与其自身的时间反转进行卷积以产生对称滤波器和上述应用的过程。这将得到线性相位校正器，其在分贝项提供原始下降所需的两倍校正。线性相位校正器然后被因式分解为z的二次项和线性多项式，一半因子是最小相位，一半是最大相位。最小相位因子被选择，并且组合并归一化为单个DC增益以提供最终校正滤波器。该方法在Craven的上述2004年论文的3.6节中阐述，该论文基于Wilkinson的工作(Wilkinson，RH，“具有最佳阻带的高保真有限脉冲响应滤波器”，IEE Proc-G，第120卷，第2期，第264-272页，1991年4月)。

校正滤波器的效果不仅是使通带变平，而且在情况(b)中增大编码器的近奈奎斯特响应，或者在情况(c)中增加解码器的近奈奎斯特响应，或者在情况(d)可能增大两者的近奈奎斯特响应，该增加可能需要在z＝-1附近引入另外的零，以便实现期望的近尼奎斯特衰减规范。另外的零将需要增加校正滤波器的强度。因此，需要一起调整在奈奎斯特和通带校正滤波器附近衰减的零点，直到获得令人满意的结果。

总系统响应

如果馈送零填补的96kHz信号，则具有以192kHz采样率实现的抽头(1/2,1,1/2)的3抽头重构滤波器的输出是192kHz流，其中每个偶样本具有与其对应的96kHz样本相同的值，并且每个奇样本具有等于其两个相邻偶样本的平均值的值。如果现在多级重构到连续时间类似地在每一级使用3抽头(1/2,1,1/2)重构滤波器，则结果将等效于连续的96kHz样本之间的线性插值。

在频域中，这种多级重构的响应是sinc函数的平方：

其中f是频率和

通带下降可以由f的二次方程式来逼近：

这意味着如果从96kHz重构，在20kHz处的响应为-1.34dB，或者如果从88.2kHz重构，则在20kHz处的响应为-1.61dB。

因此，重构的连续时间信号的转换速率永远不会大于96kHz样本基于线性内插所隐含的转换速率。然而，它将具有小的梯度不连续性。从足够小的时间尺度观察，这在电学上是不可能的，更不用说在声学上。详细考虑模拟处理不在我们的讨论范围内，但是我们注意到，除非是狄拉克delta函数，否则处处为正的脉冲响应必须具有一些频率响应下降。我们不希望使用模拟“峰化”滤波器来产生平坦的整体响应，因为如果在单个点处应用全部通带校正，则可能获得最短的整体脉冲响应。因此，我们希望数字通带平坦化应当具有一定的模拟下降容限。

然而，校正的下降越多，上采样滤波器越不紧凑。在这里提出的滤波器中，我们因此用另外的裕度补偿从192kHz流到连续时间的假定多级重构的sinc(.)²下降，以允许在后续模拟处理中用于小的下降，在20kHz共计0.162dB。该裕度将允许用于具有矩形形状和5μs程度的严格非负冲激响应的模拟系统，或者具有大约3μs的标准偏差的高斯样响应。

图5A示出了根据这些原理设计的6抽头下采样滤波器的响应，其具有72dB的近奈奎斯特衰减和z变换响应：

0.0633+0.2321z^-1+0.3434z^-2+0.2544z^-3+0.0934z^-4+0.0134z^-5

如果与之前讨论的具有响应(1/2+z–1+1/2z–2)的3抽头上采样滤波器配对，则我们发现4抽头校正滤波器：

4.3132-5.3770z^-1+2.4788z^-2-0.4151z^-3

将校正来自下采样滤波器和3抽头上采样滤波器的总下降，以在20kHz提供0.1dB内的端对端响应平坦，包括如上所述的模拟下降的影响。如果该校正滤波器与下采样滤波器折叠，则组合编码滤波器具有z变换：

以及图5B中所示的响应，其上升到20kHz以上，以便预先校正来自随后的上采样和重构的下降。

或者，可以使用上采样滤波器(1/2+z^–1+1/2z^–2)使校正折叠，其响应如图4所示，以产生具有图6所示的响应和z变换的解码滤波器：

2.1566-0.5319z^-1+0.7076z^-2-1.6566z^-3+1.0319z^-4-0.2076z^-5

在这种情况下，解码器具有上升响应，以校正来自具有图5A的响应的6抽头编码滤波器的下降。试听测试已经表明，这种9抽头下采样滤波器相对于更长的滤波器具有明显的优越性，并且我们已经推断出通常优选较短的滤波器。

然而，更重要的是在下采样器、上采样器和假定的模拟响应组合时的总响应。图7示出了来自下采样器、如上所提出的多级上采样器和具有宽度为5μs的矩形脉冲响应的模拟系统的脉冲响应。在没有应用阈值的情况下，响应的总范围是13个样本或67.7μs，但是阈值为-40dB或最大值的1％，该响应的绝对值仅在范围为49.5μs的区域中超过阈值，即192kHz采样率为9.5个采样，或96kHz传输采样率为4.75个样本。类似地，在-20dB或最大值的10％的阈值下，响应的绝对值仅在32.2μs的范围内超过阈值，即192kHz采样率为6.2个样本或96kHz的传输采样率为3.1个样本。因此，可以肯定地说，该滤波器的时间范围不超过传输采样率的4个采样周期。当收紧其他标准时，脉冲响应可能需要稍长，但在几乎所有合理的情况下，可以在传输采样率下实现长度不超过6个采样周期的脉冲响应。

已经发现的是，结合上述下采样和上采样滤波器以及图7所示的总系统响应的编码器和解码器组合在可用的192kHz录音产生了可听的良好结果。实际上，解码信号有时比没有下采样的192kHz流的传统回放更好听，这可能归因于下采样滤波器使192kHz流中已经存在的96kHz附近的任何振铃衰减。

基于噪声频谱分析的混叠交易

由于模数转换器和噪声整形器的行为，许多商业源材料具有在超声区域中上升的本底噪声。例如，Dave Brubeck四重奏的“Take 5”的市售的176.4kHz转录的频谱，如图8中的上迹线所示，示出了在33kHz和55kHz之间增加42dB的噪声基底，这些频率与下采样时的44.1kHz的折叠频率等距。如果在抽取之前没有滤波，则所得的88.2kHz流将在33kHz处具有几乎完全由55kHz混叠的噪声组成的噪声，并且因此将具有比在录音的175.4kHz呈现中高42dB的频谱密度。

图5B的下采样滤波器如果在176.4kHz而不是192kHz下工作，将在33kHz和55kHz分别提供+2.3dB和-6.7dB的增益，差别为9dB。用该滤波器对“Take 5”进行下采样，从55kHz混叠的成分仍然比原始的33kHz成分高33dB。图5A的替代下采样滤波器在这两个频率之间提供16.8dB的区别，得到比原始成分高25dB的混叠成分。由于这是一种稍微特殊的情况，具有更大区别的滤波器(待描述)会是优选的；然而，已发现图5A的滤波器在许多情况下是令人满意的，并且提供比图5B的滤波器更好的可听到的结果。因此，如在之前讨论的选项(c)中将校正滤波器放置在解码器中，似乎优选将其置于编码器中，选项(b)。

上述讨论集中在向下混叠的信号成分，但是应当注意，将校正滤波器放置在解码器中将具有增强向上混叠成分的效果。这是向上混叠与向下混叠交易的问题，并且对于从192kHz到96kHz或从176.4kHz到88.2kHz的下采样，即使由此增加向上混叠，也减少向下混叠，这似乎听起来更好。

对于相对于原始成分应当减少多少混叠成分没有确立的标准，但是可以基于使音频频带中的相位失真与总噪声平衡来得到标准。我们假设总响应应当是最小相位，以避免预先响应。平坦化滤波器总是被设计成给出平坦到四阶的总振幅响应，但是波德的相移定理告诉我们，当引入超声衰减时，在最小相位系统中相位失真是不可避免的。当相位响应作为一系列频率展开时，仅存在奇数功率。线性项是不相关的，因为它等效于时间延迟，因此三次项是主导的。如果现在在以频率f为中心的频率间隔上引入附加衰减δf分贝，我们可以从波德定理推导出，与相位响应中的三次项所得的求和将与δg.δf/f⁴成比例。从依据f的逆四次方，我们可以推导出与给定的相位失真和给定的端对端频率响应一致的最低总噪声，应当平衡向上混叠和向下混叠，使得原始噪声功率与混叠噪声功率的比率等于所涉及的两个频率的比率的逆四次方。

在下采样到96kHz的情况下，该标准意味着由原始60kHz噪声产生的36kHz处的噪声频谱密度应当比原始192kHz采样信号中36kHz处的噪声频谱密度低8.9dB。此外，在48kHz的折叠频率处，由下采样滤波器滤波之后的噪声的频谱应当最优地具有-12dB/8ve的斜率。因此，图5A的下采样滤波器的斜率根据该标准在“Take 5”的情况下不够，并且如果该标准被认为是相关的，则指示具有接近48kHz的更陡的斜率的下采样滤波器。“Take 5”是有点特殊，但“Dire Straits”中的“Brothers in Arms”(也在图8中示出)的频谱在接近频率处也具有高斜率。

平坦化下采样信号

如所讨论的，混叠考虑通常表明下采样滤波器被平坦化，平坦化被推迟到随后的上采样器。因此，所发射的信号将不具有平坦的频率响应，这对于与不平坦的遗留设备的互操作性可能是不利的。

避免不影响下采样器的混叠特性的缺点的一种方法是使用具有如图9所示的关于传输奈奎斯特频率(即传输采样频率的一半)对称的响应的滤波器进行平坦化。如果从192kHz下采样到96kHz，则传输奈奎斯特频率为48kHz，从而得到未平坦化和平坦化的下采样响应，如图10所示。

避免缺点的原因是“遗留平坦化器”是对称的滤波器，其平等地对待每个频率及其混叠图像。两个频率以相同的比率升高或下降，因此在随后的抽取中向上混叠与向下混叠的比率不受影响。

图9中所示的响应实际上是滤波器的响应：

这是最小相位全极点并且仅包含z的偶次幂。在十抽二之前用该滤波器进行滤波等效于使用全极点滤波器对抽取的流进行滤波：

其是可以在解码器中逆转的过程，例如通过应用相应的逆滤波器：

.6022009998(1+0.6108508622z^-1+0.04972426151z^-2)

与上采样之前接收的抽取信号。因此，解码器中的零消除了编码滤波器中的z平面极点。在时域中，解码器中的相应的“遗留未平坦化”抑制由编码器中的遗留平坦化器引起的任何振铃，并且这是编码器和解码器的组合的总脉冲响应比单独的编码器的总脉冲响应更紧凑的方式之一。

在上采样之后，解码器可以以更高的采样率应用心理声学上最佳的平坦化器，就像没有遗留平坦化器一样。因此，完全透明的是，抽取的信号已经被平坦化，然后再次未被平坦化。

或者，可以在上采样之后以较高的采样率使用：

.6022009998(1+0.6108508622z^-2+0.04972426151z^-4)

来实现“遗留非平坦化器”。由于这是FIR滤波器，所以它可以很方便地与上采样滤波器和端对端平坦化器合并。在这种情况下，遗留非平坦化器可能不是可单独识别的功能单元。因此，对于遗留平坦化器和遗留非平坦化器，存在以传输采样率或以高采样率实现的选择，在后一种情况下使用其响应关于传输奈奎斯特频率对称的滤波器。在本文中，这两种实现方法被认为是等效的，并且仅提及其中之一可以被认为包括另一个。此外，如果以更高的采样率实现，则平坦化器或非平坦化器可以与其他滤波合并，尽管如果总抽取滤波或总重构滤波的z-变换分别具有仅包含zⁿ的幂的z变换因子，其中n是抽取或插值比。

不要求遗留平坦化器是全极点的：FIR或一般的IIR滤波器是可以的，只要其响应关于传输奈奎斯特频率对称。例如FIR滤波器：

1.444183138-0.5512608378z^-1+0.1190498978z^-2-0.01197219763z^-3

其可以在编码器中抽取之后以及在逆转的解码器中上采样之前应用，并且这个三阶FIR滤波器在平坦化发送的信号中对图9的二阶全极点滤波器同样有效。在这种情况下，解码器可以具有在编码器中消除零的极点。该FIR平坦化器可以替代地在抽取之前使用：

1.444183138-0.5512608378z-²+0.1190498978z-⁴-0.01197219763z-⁶

并且在该形式中，它可以与下采样滤波器合并，因此不能被识别为单独的功能单元。

虽然这里已经在2：1下采样的上下文中解释了遗留平坦化器，但是相同的原理适用于n：1下采样的情况，其中可以使用通用最小相位滤波器及其反相而以传输采样率执行遗留平坦化和非平坦化，或者可以通过使用仅包含zⁿ的幂的滤波器而以高采样率来执行。在这两种情况下，遗留平坦化器具有关于传输奈奎斯特对称的分贝响应。

注意到以原始采样率应用的可逆对称滤波器对滤波的混叠特性没有差别，并且其效果可以在解码器中完全逆转，因此，在比较一个候选下采样滤波器与另一候选下采样滤波器的适用性时，分贝响应中的对称差异是不相关的。因此，我们将给定滤波器的分贝响应^dB(f)分解为对称成分：

和非对称成分：

其中f是频率，fs_trans是传输采样频率，以及两个下采样滤波器之间的比较，我们关注非对称成分，如果必要，在解码器中留下待调整的对称成分。非对称成分事实上是混叠抑制的一半：

混叠抑制＝dB(f)–dB(fs_trans–f)

红外编码

我们参考Dragotti P.L.、Vetterli M.和Blu T.的论文：“Sampling Moments andReconstructing Signals of Finite Rate of Innovation:Shannon Meets Strang–Fix”，Transactions on Signal Processing，第55卷，第5期，2007年5月。本文的第III节A考虑了由具有任意位置和振幅的狄拉克脉冲流组成的信号，并且问题是询问可以使用什么样的采样内核，使得可以从信号的均匀采样表示来明确地推导出狄拉克脉冲的位置和振幅。

我们认为这个问题可能与音频的再现有关，因为许多自然环境声音(例如树枝折断)是脉冲性的，并且绝不不清楚傅立叶表示是否适合于这种类型的信号。图11所示的线性B样条(spline)内核是最简单的多项式内核，其将使得能够明确重构Dirac脉冲的位置和振幅。我们将基于这些想法的下采样规范称为“红外编码”。

在下采样中，我们从已经采样的信号开始，但是概念模型为这是连续时间信号，其中原始样本呈现狄拉克脉冲序列。连续时间信号与内核卷积并以下采样信号的采样率重采样。参考图11，重采样时刻是整数0、1、2、3等，而原始信号在更精细的网格上呈现。假设原始样本和重采样时刻是对齐的，则连续时间在重采样之后与线性B样条卷积等效于离散时间在抽取之前与以下序列卷积：

(1,2,1)/4 用于以2抽取

(1,2,3,2,1)/9 用于以3抽取

(1,2,3,4,3,2,1)/16 用于以4抽取

…

(1,2,3,4,5,6,7,8,7,6,5,4,3,2,1)/64 用于以8抽取。

这些序列仅仅是B样条内核的原始采样率的采样。由于内核具有以下采样率的两个采样周期的时间范围，因此在所有情况下，下采样滤波器将具有在下采样率不超过两个采样周期的时间范围。

因此，对于十抽二，下采样滤波器将具有z变换(1/4+1/2z^–1+1/4z^–2)。我们已经发现，通过以下方式可以获得非常令人满意的结果：与适当地按比例缩放的用于上采样的同一滤波器，以及在上采样之后可以放置或者与上采样器合并的合适的平坦化器结合地使用用于下采样的滤波器。对于从176.4kHz到88.2kHz的下采样，使用诸如以下的短平坦化器可以将2.25dB(20kHz)的组合的下采样和下采样下降减少到0.12dB：

在176.4kHz为2.1451346747-1.4364916731z^-1+0.2913569984z^-2。

总上采样和下采样响应然后是具有仅7个抽头的FIR，因此得到176.4采样率的6个采样周期或下采样率的3个采样周期的总时间范围。这是我们已知的最短的总滤波器响应，其通常在听觉上令人满意并且在0-20kHz保持平坦的响应。

红外方案不提供对具有强上升噪声频谱的信号所期望的向下混叠的强烈抑制，但是存在许多商业录音，其超声噪声频谱更接近平坦或正在下降。通过使用2:1的下采样比，红外下采样滤波器的斜率在下采样奈奎斯特频率为-9.5dB/8ve；通过使用4:1的下采样比，在从连续时间下采样的极限情况下，其为-12dB/8ve。这与图5A的下采样滤波器的-22.7dB/8ve的斜率相比，并且对于这种类型的源材料，红外编码规范可能不合适。

用于日常专业使用的编码器应当理想地尝试确定用于编码的材料的超声噪声谱，例如通过在平静通过期间测量超声波频谱，并且由此进行最佳下采样和上采样滤波器对的知情选择以重构该特定录音。然后，该选择应当作为元数据传送到相应的解码器，解码器然后可以选择适当的上采样滤波器。

上述讨论主要集中在从诸如192kHz或176.4kHz的“4x”采样率到诸如96kHz或88.2kHz的“2x”采样率的下采样，但从4x或2x采样率到1x采样率(例如48kHz或44.1kHz)的下采样也具有商业重要性。事实上，已发现上面讨论的用于高采样率的相同的“红外”系数1/4+1/2z^–1+1/4z^–2当从88.2kHz到44.1kHz下采样时提供可听的良好结果。这可能是令人惊讶的，因为人们可能预计耳朵将需要在该低采样率下更多地抑制原始频率的向下混叠图像，但是重复的试听测试已经确认似乎不是这种情况。相同的滤波器可以用于上采样，与平坦化器结合或者之后。在此低采样率下，需要具有更多抽头的平坦化器，例如滤波器：

4.0185-5.9764z^-1+4.6929z^-2-2.4077z^-3+0.8436z^-4-0.1971z^-5+0.0279z^-6-0.0018z^-7

其在88.2kHz工作，使下采样器和上采样器的总响应在20kHz下平坦到0.2dB以内，并且发现听起来令人满意。

如前所述，可以提供平坦化器和非平坦化器对，以允许与44.1kHz的再现设备兼容。为了提供在20kHz时下降不超过0.5dB的最大平坦响应，理论上需要在44.1kHz实现的九抽头全极平坦化器：

尽管这里给出的分母的一些后项可以通过最小引入通带波纹来删除。无论哪种方式，这里给出的表达式可以被颠倒以提供相应的FIR非平坦化器。高分辨率解码器通常在44.1kHz不平坦化，上采样到88.2kHz，然后使用88.2kHz的最佳设计的平坦化器(例如上面给出的7阶FIR平坦化器)进行平坦化。在这种情况下，编码器和高分辨率解码器的激励响应一起具有12个非零抽头，而单独的编码器具有连续更长时间的脉冲响应，虽然在诸如-40dB至-60dB的较低水平。

本文提出的用于在44.1kHz采样率工作的平坦化和非平坦化滤波器中的一个或两个可以如先前所指示的那样变换，以在88.2kHz或更高采样率下工作时提供相同的功能，如果这更方便的话。

在图12A和12B中示出了对于在88.2kHz流内在时间t＝0呈现为单个样本的脉冲的44.1kHz红外编码的连续时间的上述重构。在图12A中，重构是从44.1kHz样本(示为菱形)开始，与88.2kHz流的偶样本在时间上一致，而在图12B中，重构是从与88.2kHz流点的奇样本一致的44.1kHz样本(示为圆形)开始。水平轴是以88kHz采样周期为单位的时间t，并且垂直轴表示振幅升高到0.21的权重，其提供小响应的可见性，但也可能具有根据人类听觉的神经生理模型的一些似真性，这表明对于短脉冲，外围强度与提高到0.21的权重的振幅成比例。使用如上所述的红外方法已经导出了44.1kHz的表示，包括为了与传统设备的兼容性而平坦化，而两个高分辨率重构类似地使用遗留非平坦化器，然后是红外重构以及在88.2kHz实现的平坦化器。

将注意到，44kHz流表现出在脉冲的高分辨率重构已经停止之后持续很长时间的时间响应，从而证明了零极点消除在提供比单独的编码器的响应更紧凑的端对端响应的有效性。

图12A和12B还示出了当涉及抽取时，需要更清楚地定义“脉冲响应”的概念。在十抽二情况下，对于在奇样本上出现的脉冲与在偶样本上的结果而言，结果是不同的。在本文中，我们使用术语“脉冲响应”来指在这两种情况下获得的响应的平均值。

将理解，所描述的红外编码在下采样信号的采样频率处以及在下采样率大于2的情况下在该频率的所有倍数处提供两个z平面零点。这可以被认为是红外编码的定义特征。

抑制向下混叠

如上所述，当对诸如“take 5”项进行编码时，参见图8，可能希望下采样滤波器在噪声谱峰值的频率例如55kHz处提供强衰减。自然可以考虑放置一个或多个z平面零点以抑制该频率附近的能量。然而，这样做会增加端对端脉冲响应的总长度：首先因为每个复零需要下采样滤波器上的另外两个抽头，其次因为接近55kHz的零明显地加至总下降，从而可能还需要更长的平坦化滤波器。

要注意的是，使用零极点消除可以避免长度的增加：编码器滤波器中的复零通过解码器中的极点抵消。在一个实施方案中，并入三个这样的零的下采样滤波器与具有三个对应极的上采样滤波器配对。所得到的下采样和上采样滤波器响应如图13A和图13B所示，并且从使这些滤波器与假定的外部下降组合得到的端对端响应如图13C所示。为了与其他图形一致，这些曲线图采用196kHz的采样率，因此最大衰减接近60kHz，而不是55kHz。

这里要注意的是，尽管已抑制向下混叠，但是已增大向上混叠。为了在诸如“Take5”的迹线上使用，陡峭上升的原始噪声完全地覆盖增加的向上混叠噪声。然而，33kHz附近的信号成分也将导致55kHz附近的更大混叠。因此，仅仅提出忽略混叠成分的端到端频率响应可能是误导；然而似乎耳朵相对容忍向上混叠，只要施加到混叠上的提升并未过度。

图13B中所示的57kHz的38dB的重增强可能首先看起来是不明智的，但是如果如上所述使用遗留平坦化器，则解码器将并入遗留非平坦化器，其将补偿大部分这种增强，所以解码器作为一个整体不会表现出增强。

结语

应当注意，本文献中描述的一些解码响应具有通常在重构滤波器中不存在的特征。这些特征包括在44.kkHz或48kHz的半奈奎斯特频率处上升而不是下降的响应，以及具有作为z的偶次幂的函数的一个或多个因子的z变换，并且由此具有关于半奈奎斯特频率对称的单独响应。

权利要求书(按照条约第19条的修改)

1.一种包括编码器和解码器的系统，用于传送音频采集的声音，其中，所述编码器适配成从表示所述音频采集的信号提供传输采样率的数字音频信号，并且所述解码器适配成接收所述数字音频信号并提供重构信号，

其中，所述编码器包括下采样器，适配成以第一采样率接收表示所述音频采集的信号，并且对所述信号进行下采样以提供所述数字音频信号，所述第一采样率是所述传输采样率的倍数；以及

其中，所述编码器和解码器的结合的脉冲响应的特征在于：累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的5个采样周期，其中，所述累积绝对响应是所述脉冲响应的绝对量的时间积分。

2.根据权利要求1所述的系统，其中所述编码器和解码器的结合的所述脉冲响应的所述特征持续时间不大于所述传输采样率的4个周期。

3.一种包括编码器和解码器的系统，用于传送音频采集的声音，其中，所述编码器适配成从表示所述音频采集的信号提供传输采样率的数字音频信号，并且所述解码器适配成接收所述数字音频信号并提供重构信号，

其中，所述编码器和解码器的结合的脉冲响应的特征在于：累积绝对响应从最终值的1％增加到50％的持续时间不超过所述传输采样率的2个采样周期，其中，所述累积绝对响应是所述脉冲响应的绝对量的时间积分。

4.根据权利要求3所述的系统，其中所述编码器和解码器的结合的所述脉冲响应的所述特征持续时间不大于所述传输采样率的1.5个周期。

5.根据前述权利要求中任一项所述的系统，其中所述下采样器包括指定为所述第一采样率的抽取滤波器，其中，在抽取时将混叠至0-7kHz范围的频率处，所述抽取滤波器的混叠抑制为至少32dB。

6.根据从属于权利要求1或权利要求2的权利要求5所述的系统，

其中，存在第二滤波器，所述第二滤波器具有与所述抽取滤波器相同的混叠抑制，以及具有累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的五个采样周期的脉冲响应。

7.根据权利要求1至6中任一项所述的系统，其中所述编码器包括具有极点的无限脉冲响应(IIR)滤波器，并且所述解码器包括具有零点的滤波器，所述零点的z平面位置与所述极点的z平面位置重合，从而在所述重构信号中消除影响。

8.根据权利要求1至6中任一项所述的系统，其中所述解码器包括具有极点的无限脉冲响应(IIR)滤波器，并且所述编码器包括具有零点的滤波器，所述零点的z平面位置与所述极点的z平面位置重合，从而在所述重构信号中消除影响。

9.根据前述权利要求中任一项所述的系统，其中，

所述解码器包括滤波器，所述滤波器具有在对应于所述传输采样率的奈奎斯特频率周围的区域中上升的响应，以及

所述编码器包括具有落入所述区域中的响应的滤波器，从而减少编码器中高于所述奈奎斯特频率的频率与低于所述奈奎斯特频率的频率的向下混叠。

10.根据前述权利要求中任一项所述的系统，其中所述传输采样率选自88.2kHz和96kHz之一，并且所述第一采样率选自176.4kHz、192kHz、352.8kHz和384kHz之一。

11.一种通过降低传送采集的音频的声音所需的采样率来提供用于以传输采样率传输的数字音频信号的方法，所述方法包括以下步骤：

使用指定为第一采样率的抽取滤波器对所述采集的音频的表示进行滤波，其中所述采集的音频的表示具有为所述传输采样率的倍数的第一采样率；以及

对经过滤波后的表示进行抽取以提供所述数字音频信号，其中，在抽取时将混叠至0-7kHz范围的频率处，所述抽取滤波器的脉冲响应具有至少32dB的混叠抑制，

其中，存在有第二滤波器，所述第二滤波器具有与所述抽取滤波器相同的混叠抑制，以及具有累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的五个采样周期的脉冲响应，其中，所述累积绝对响应是所述脉冲响应的绝对量的时间积分。

12.根据权利要求11所述的方法，其中所述第二滤波器的所述脉冲响应的所述特征持续时间不大于所述传输采样率的4个周期。

13.根据权利要求11或12所述的方法，还包括以所述第一采样率建立所采集的音频的表示的步骤。

14.根据权利要求11至13中任一项所述的方法，还包括以下步骤：

分析所述采集的音频的频谱；以及

响应于所分析的频谱选择所述抽取滤波器。

15.根据权利要求11至14中任一项所述的方法，还包括分析所述采集的音频的本底噪声并响应于所分析的本底噪声选择所述抽取滤波器的步骤。

16.根据权利要求14或15所述的方法，还包括提供与抽取滤波器的选择有关的信息以供解码器使用的步骤。

17.根据权利要求11至16中任一项所述的方法，其中所述传输采样率选自88.2kHz和96kHz之一，并且所述第一采样率选自176.4kHz、192kHz、352.8kHz和384kHz之一。

18.一种数据载体，包含通过执行根据权利要求11至17中任一项所述的方法而提供的数字音频信号。

19.一种用于音频流的编码器，其中所述编码器适配成使用根据权利要求11至17中任一项所述的方法提供数字音频信号。

20.根据权利要求19所述的编码器，包括具有关于传输奈奎斯特频率的对称响应的平坦化滤波器。

21.根据权利要求20所述的编码器，其中所述平坦化滤波器具有极点。

22.一种用于传送音频采集的声音的系统，所述系统包括：

编码器，适配成接收表示所述音频采集的信号，并以传输采样率提供数字音频信号，所述编码器的特征在于脉冲响应具有累积绝对响应从最终值的1％上升到95％的持续时间；以及

解码器，适配成接收所述数字音频信号并提供重构的信号，所述解码器的特征在于脉冲响应具有累积绝对响应从最终值的1％上升到95％的持续时间，

其中，所述编码器和解码器的结合响应生成总系统脉冲响应，所述总系统脉冲响应所具有的累积绝对响应从1％上升到95％的持续时间小于所述编码器单独的脉冲响应的特征持续时间以及所述解码器单独的脉冲响应的特征持续时间，其中，所述累积绝对响应是所述脉冲响应的绝对量的时间积分。

23.根据权利要求22所述的系统，其中所述解码器包括具有z平面零点的滤波器，所述零点的z平面位置与所述编码器的响应中的极点的位置重合。

24.根据权利要求22或23所述的系统，其中所述解码器包括根据从所述编码器接收的信息选择的滤波器。

25.根据权利要求22至24中任一项所述的系统，其中所述系统脉冲响应的所述持续时间不大于所述传输采样率的5个采样周期。

26.一种编码器，适配成以传输采样率从表示音频采集的信号提供数字音频信号，所述编码器包括下采样滤波器，其特征在于频率响应在将混叠至零频率的每个频率具有双零点，并且在所述传输奈奎斯特频率具有比每八度的负十三分贝更正的斜率。

27.根据权利要求26所述的编码器，包括具有关于所述传输奈奎斯特频率的对称响应的平坦化滤波器。

28.根据权利要求27所述的编码器，其中所述平坦化滤波器具有极点。

29.根据权利要求27或28所述的编码器，其中所述传输频率为44.1kHz，并且所述编码器的频率响应下降在20kHz不超过1dB。

30.一种包括编码器和解码器的系统，用于传送音频采集的声音，其中所述编码器适配成以传输采样率从表示所述音频采集的信号提供数字音频信号，并且所述解码器适配成接收所述数字音频信号并提供重构信号，

其中所述编码器包括下采样器，适配成以第一采样率接收表示所述音频采集的信号，并且对所述信号进行下采样以提供所述数字音频信号，所述第一采样率是所述传输采样率的倍数；以及

其中，所述编码器包括具有极点的无限脉冲响应(IIR)滤波器，并且所述解码器包括具有零点的滤波器，所述零点的z平面位置与所述极点的z平面位置重合，从而在所述重构信号中消除影响。

31.根据权利要求30所述的系统，其中所述编码器和解码器的组合的脉冲响应的特征在于，其累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的五个采样周期。

32.一种编码器，适配成以传输采样率从表示音频采集的信号提供数字音频信号，所述编码器包括下采样滤波器，所述下采样滤波器适配成以作为所述传输采样率的倍数的第一采样率接收表示所述音频采集的信号，并对所述信号进行下采样以提供所述数字音频信号，其中所述编码器适配成分析所采集的音频的频谱并响应于所分析的频谱选择所述下采样滤波器。

33.根据权利要求32所述的编码器，其中如果所分析的频谱在传输奈奎斯特频率处迅速上升，则所选择的下采样滤波器在所述传输奈奎斯特频率处具有更陡峭的衰减响应。

34.根据权利要求32或33所述的编码器，其中，所述编码器适配成将识别所选择的下采样滤波器的信息作为元数据发送到解码器。

35.根据权利要求32至34中任一项所述的编码器，包括具有关于所述传输奈奎斯特频率的对称响应的平坦化滤波器。

36.根据权利要求35所述的编码器，其中所述平坦化滤波器具有极点。

37.一种用于以传输采样率接收数字音频信号并提供输出音频信号的解码器，其中所述解码器包括具有振幅响应的滤波器，所述振幅响应在对应于所述传输采样率的奈奎斯特频率周围的频率区域中随频率增大。

38.根据权利要求37所述的解码器，其中所述滤波器在对应于所述传输采样率的奈奎斯特频率处相对于在DC处的响应具有至少+2dB的振幅响应。

39.根据权利要求37或38所述的方法，其中，根据从编码器接收的信息来确定所述滤波器响应。

说明或声明(按照条约第19条的修改)

修改了权利要求以提高其清楚性。具体地，将权利要求1、3、11和22修改为并入了对于“累积绝对响应”的定义，该定义出现在说明书的第5页8-9行：“其将系统的脉冲响应的绝对量值相对于时间进行积分以形成累积响应”。权利要求6和11中的“响应”修改为“脉冲响应”以保持术语的一致。

基于上述定义，所要求保护的装置和方法中有多处的特征在于基于上述定义的累积绝对响应周期，并且这种该方法的操作以及优势在说明参照图14的第5页第8行至第6页第20行的描述中记载。

当考虑上下文环境时，所要求保护的设备和方法与现有的设备和方法的区别变得更明显，由于其择脉冲响应得以而选择以满足基于创新性的度量标准，这获得了说明书第3页第26行至第4页第1行中所记载的目标。

Claims

其中，所述编码器和解码器的结合的脉冲响应的特征在于：累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的5个采样周期。

其中，所述编码器和解码器的结合的脉冲响应的特征在于：累积绝对响应从最终值的1％增加到50％的持续时间不超过所述传输采样率的2个采样周期。

其中，存在第二滤波器，所述第二滤波器具有与所述抽取滤波器相同的混叠抑制，以及具有累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的五个采样周期的响应。

9.根据前述权利要求中任一项所述的系统，其中，

其中，存在有第二滤波器，所述第二滤波器具有与所述抽取滤波器相同的混叠抑制，以及具有累积绝对响应从最终值的1％增加到95％的持续时间不超过所述传输采样率的五个采样周期的响应。

分析所述采集的音频的频谱；以及

响应于所分析的频谱选择所述抽取滤波器。

22.一种用于传送音频采集的声音的系统，所述系统包括：

其中，所述编码器和解码器的结合响应生成总系统脉冲响应，所述总系统脉冲响应所具有的累积绝对响应从1％上升到95％的持续时间小于所述编码器单独的脉冲响应的特征持续时间以及所述解码器单独的脉冲响应的特征持续时间。