CN103262162B

CN103262162B - 用于有理重采样器的心理声学滤波器设计

Info

Publication number: CN103262162B
Application number: CN201180059461.0A
Authority: CN
Inventors: W·什德巴赫
Original assignee: Dolby International AB
Current assignee: Dolby International AB; Dolby Sweden AB
Priority date: 2010-12-09
Filing date: 2011-12-09
Publication date: 2015-06-17
Anticipated expiration: 2031-12-09
Also published as: CN103262162A; EP2649614B1; WO2012076689A1; US20130253917A1; EP2649614A1

Abstract

本文档涉及用于使用有理重采样因子的重采样器的防混叠（anti-aliasing）和/或防成像滤波器的设计。具体地，本文件涉及用于设计具有减小的数目的滤波器系数或增大的感知性能的滤波器的方法，以及涉及使用这样的方法设计的滤波器。描述了一种用于设计被配置为减少以输出采样率（fs_out）的输出音频信号（113）的成像和/或混叠的滤波器（102）的方法。所述输出音频信号（113）是以输入采样率（fs_in）的输入音频信号（110）的重采样的版本；输出采样率（fs_out）和输入采样率（fs_in）的比率是有理数N/M。该滤波器（102）以等于输入采样率（fs_in）的N倍的上采样的采样率操作。该方法包括基于指示听觉谱灵敏度的感知频率响应在滤波器（102）的阻带之内选择滤波器（102）的频率响应（531、532）的允许偏差的步骤；其中该允许偏差指示滤波器（102）的频率响应（531、532）与阻带之内的预定衰减的偏差；以及确定滤波器（102）的系数以使得滤波器（102）的频率响应（531、532）被适合于频率响应（531、532）的允许偏差。

Description

用于有理重采样器的心理声学滤波器设计

技术领域

本文件涉及用于使用有理(rational)重采样因子的重采样器的防混叠(anti-aliasing)和/或防成像滤波器的设计。具体地，本文件涉及用于设计具有减小的数目的滤波器系数或增大的感知性能的滤波器的方法，以及涉及使用这样的方法设计的滤波器。

背景技术

不同的音频格式可以需要不同的采样率(例如32kHz、44.1kHz或48kHz)。为了将第一采样率(例如32kHz)的音频信号转换为第二采样率(例如，48kHz)的音频信号，可以使用有理重采样器。通过有理因子对音频的重采样通常将成像/混叠假象引入到重采样的音频信号中。防成像/防混叠滤波器可以用来抑制音频信号的不希望的图像和/或混叠。本文件描述用在有理重采样器中的防成像/防混叠滤波器。此外，本文件描述用于设计这样的防成像/防混叠滤波器的方法。具体地，描述考虑心理声学约束的滤波器设计方法(和产生的滤波器)，以便提供具有减小的数目的滤波器系数的滤波器，同时提供重采样的音频信号的主观上不变的或类似的音频质量。反过来，滤波器设计方法可以用来设计具有给定数目的滤波器系数的滤波器，其提供与根据传统的滤波器设计方法设计的滤波器相比改善的音频质量。

由于设计改善的防成像/防混叠滤波器，因此可以降低有理重采样器的复杂度，同时保持给定的主观音频质量。反过来，可以增大有理重采样器的音频质量，同时将有理重采样器保持在给定的计算复杂度。

发明内容

根据一方面，描述一种用于设计例如防混叠和/或防成像滤波器的滤波器的方法。该滤波器可以是包括滤波器系数集合的数字滤波器。在下文中、滤波器将被称为防混叠滤波器(即使滤波器也可以去掉成像效应)。产生的滤波器可以被配置为减小输出采样率fs_out的输出音频信号的成像和/或混叠。输出音频信号是输入采样率fs_in的输入音频信号的重采样的版本。输出采样率fs_out和输入采样率fs_in的比率是有理数N/M，其中N＞0，M＞0。不失一般性，N和M应该是互素的。在实施例中，N和M都不等于1，意味着重采样器既不是整数因子N的纯的上采样器，也不是整数因子M的纯的下采样器。换句话说，重采样器包括因子N＞1的上采样组件和因子M＞1的下采样组件。再换句话说，分数N/M可以不是整数值，并且N/M可以不是整数值。例如，对于fs_in＝40kHz，fs_out＝48kHz，N＝6，M＝5；或者，对于fs_in＝32kHz，fs_out＝48kHz，N＝3，M＝2；或者，对于fs_in＝44.1kHz，fs_out＝48kHz，N＝160，M＝147；或者，对于fs_in＝32kHz，fs_out＝44.1kHz，N＝441，M＝320；或者，反过来，对于fs_in＝48kHz，fs_out＝40kHz，N＝5，M＝6；或者，对于fs_in＝48kHz，fs_out＝32kHz，N＝2，M＝3；或者，对于fs_in＝48kHz，fs_out＝44.1kHz，N＝147，M＝160；或者，对于fs_in＝44.1kHz，fs_out＝32kHz，N＝320，M＝441。

可以以等于输入采样率fs_in的N倍的上采样的采样率操作滤波器。上采样的采样率也等于输出采样率fs_out的M倍。

用于设计滤波器的方法可以包括选择滤波器的频率响应的通带边缘的步骤。选择通带边缘可以包括选择通带的频率间隔。小于通带边缘的频率包括在该通带之内。该方法可以包括选择滤波器的频率响应的阻带边缘的步骤。选择阻带边缘可以包括选择阻带的频率间隔。大于阻带边缘的频率包括在该阻带之内。

该方法可以包括选择阻带之内的滤波器的频率响应的允许偏差的步骤。该允许偏差指示滤波器的频率响应与阻带之内的预定衰减的偏差。通常，阻带之内的滤波器的预定衰减是0(即-无穷大dB)。因而，允许偏差可以指定阻带衰减与理想的阻带衰减的可容许偏差为预定值0。换句话说，可以确定滤波器的目标频率响应。目标频率响应可以指定通带衰减(例如，1或0dB的值)、阻带衰减(例如，0或-无穷大dB的值)、通带边缘和/或阻带边缘。允许偏差可以是滤波器的频率响应与目标频率响应的允许偏差。

产生的滤波器可以是具有覆盖0kHz到通带边缘的频率范围中的频率间隔的通带的低通滤波器。在这种情况下，产生的滤波器的阻带将覆盖超过阻带边缘的频率间隔，其中阻带边缘对应于比通带边缘更高的频率。

可以基于指示听觉谱灵敏度的感知频率响应选择阻带之内的滤波器的频率响应的允许偏差。感知频率响应可以指示一般听众对音频信号的特定频率的灵敏度。换句话说，感知频率响应可以指示音频信号的某些频率被听众感知的程度。感知频率响应可以与第一感知频率响应相关联。第一感知频率响应可以对应于或可以指示绝对听力阈值曲线的缩放版本。缩放可以取决于阻带的期望的抑制度。具体地，绝对听力阈值(ATH)曲线可以被缩放以使得ATH曲线的最低的绝对阈值或缩放的ATH曲线的平均值对应于目标频率响应的预定衰减度(例如-90dB)。

选择阻带之内的滤波器的频率响应的允许偏差的步骤可以包括基于第一感知频率响应的图像和/或镜像选择允许偏差的步骤。第一感知频率响应的图像可以是第一感知频率响应的副本，可能移置到其它频率间隔。第一感知频率响应的镜像可以是第一感知频率响应的镜像版本，可能移置到其它频率间隔。通常，图像和/或镜像以输出采样率和/或其倍数被移置或偏移。

如上所指出，可以以M*fs_out的上采样的采样率操作产生的滤波器。因而，(上采样的)输出音频信号的频谱可以覆盖从0到M*fs_out/2的频率范围。作为生成输出音频信号的因子M的下采样操作的结果，覆盖频率范围[(m-1)*fs_out/2，(m+1)*fs_out/2]，其中m＝2，4，...，M，的频谱的一部分可以偏移到基带[-fs_out/2，+fs_out/2]，从而在输出音频信号中产生混叠假象。根据在感知频率响应中反映的听觉谱灵敏度，这些假象被人类听众感知到。

为了反映高频范围到基带中的偏移，覆盖频率范围[0，+fs_out/2]的第一感知频率响应以及覆盖频率范围[-fs_out/2，0]的第一感知频率响应的镜像可以偏移到频率范围[(m-1)*fs_out/2，(m+1)*fs_out/2]，其中m＝2，4，...，M，从而产生第一感知频率响应的图像和/或镜像。这些图像和/或镜像相对于由输出采样率fs_out导出的频率是对称的。具体地，这些图像和/或镜像相对于输出采样率fs_out和/或其倍数是对称的。换句话说，这些图像和/或镜像中的一些可以相对于与输出采样率fs_out和/或其倍数对应的对称轴是对称的。

因而，第一感知频率响应可以覆盖从0kHz到输出采样率的一半的频率间隔(即，[0，+fs_out/2])或此频率间隔的一部分。此外，第一感知频率响应的基带镜像(即，沿着0kHz的对称轴镜像的、第一感知频率响应在基带中的镜像)可以覆盖从0kHz到输出采样率的负的一半的频率间隔(即，[-fs_out/2，0])或该后一个频率间隔的一部分。

用于选择阻带之内的滤波器的频率响应的允许偏差的第一感知频率响应的图像可以对应于第一感知频率响应和/或第一感知频率响应偏移了输出采样率和/或其倍数的基带镜像。

选择阻带之内的滤波器的频率响应的允许偏差可以包括将给定频率间隔之内的允许偏差设置为等于给定频率间隔之内的第一感知频率响应的图像(和/或它的基带镜像)的步骤。换句话说，给定频率间隔之内的频率响应的允许偏差可以被设置为等于给定频率间隔之内的第一感知频率响应的图像和/或镜像。给定间隔可以对应于在下面指定的“不关注”间隔之外的、阻带之内的频率间隔。

感知频率响应可以与第二感知频率响应相关联。第二感知频率响应可以包括指示被相邻掩蔽(masker)频率掩蔽的缩放的相对掩蔽阈值曲线。换句话说，第二感知频率响应可以反映掩蔽频率处的信号掩蔽掩蔽频率附近之内的频率处的信号的事实。相对掩蔽阈值曲线可以指示听见掩蔽频率附近的频率的阈值。由于掩蔽频率的掩蔽效应，听力阈值可以在掩蔽频率附近增大。

作为上采样操作的结果，可以在中间(即上采样的)频域中产生基带掩蔽频率的图像。这些图像中的一些在下采样操作期间可以被混叠回基带掩蔽频率。满足此条件的中频域中的基带掩蔽频率的图像可以被称为被掩蔽频率，因为它们的混叠可以被基带掩蔽频率掩蔽。换句话说，基带掩蔽频率(和/或被掩蔽频率)可以满足自掩蔽条件，该自掩蔽条件为：中频域中的被掩蔽频率对应于频率范围[-fs_in/2，fs_in/2]中的输入音频信号偏移了fs_in或其倍数的基带掩蔽频率；并且被掩蔽频率以正的和/或负的基带掩蔽频率混叠到输出音频信号。

基带掩蔽频率可以满足如下条件：对于n＝1，...，N和m＝1，...，M中的至少一些，基带掩蔽频率的绝对值对应于(n*fs_in/2-m*fs_out/2)的绝对值。换句话说，对于基带掩蔽频率，对于n和m的可能值中的至少一些，可以满足条件

|f|＝|n·fs_in/2-m·fs_out/2|，其中n＝1，...，N，m＝1，...，M。

按类似方式，对于n＝-N，...，N和m＝-M，...，M中的至少一些，中频域中的被掩蔽频率可以对应于n*fs_in/2+m*fs_out/2，即对于n和m的可能值中的至少一些，被掩蔽频率可以满足条件

f＝n·fs_in/2+m·fs_out/2，其中n＝-N，...，N，m＝-M，...，M，

上述自掩蔽条件可以用来识别中间域中的一个或多个被掩蔽频率和基带中的一个或多个对应的掩蔽频率。满足自掩蔽条件的一个或多个被掩蔽频率可以对应于缩放的相对掩蔽阈值曲线的最大值。即，对于这些被掩蔽频率，由基带掩蔽频率引起的掩蔽可以是最大的。此外，如果中间域中的频率大致满足上述条件，则此频率的混叠通常将接近于基带掩蔽频率，并且可以经受被该基带掩蔽频率的掩蔽。中间域中的被掩蔽频率附近的频率的此掩蔽可以通过缩放的相对掩蔽阈值曲线的级数来建模。

在实施例中，对于满足自掩蔽条件的每一个被掩蔽频率，第二感知频率响应包括缩放的相对掩蔽阈值曲线。用于确定频率响应的允许偏差的整体感知频率响应可以对应于第一感知频率响应和第二感知频率响应的组合，例如最大值。

选择阻带之内的滤波器的频率响应的允许偏差的步骤可以包括将阻带分割成多个频率间隔的步骤，所述多个频率间隔包括一个或多个“不关注”间隔。允许偏差可以采用“不关注”间隔之内的任意或未定义的值。换句话说，频率响应的允许偏差在“不关注”间隔之内可以是无约束的或未定义的。一个或多个“不关注”间隔可以包括与输入音频信号的频谱低于预定输入能量阈值的频率相关联的一个或多个第一“不关注”间隔。例如，输入音频信号可以被带限到低于奈奎斯特频率fs_in/2的频率fx。结果，输入音频信号的频谱可以低于频率间隔[fx，fs_in/2](以及在镜像的频率间隔[-fs_in/2，-fx])中的输入能量阈值。一个或多个第一“不关注”间隔可以与频率间隔[fx，fs_in/2]的频率(以及与镜像的频率间隔[-fs_in/2，-fx]的频率)相关联。

一个或多个第一“不关注”间隔可以相对于从输入采样率fs_in导出的频率是对称的。具体地，一个或多个第一“不关注”间隔可以相对于输入采样率fs_in和/或其倍数是对称的。在上述示例中，频率间隔[fx，fs_in/2]，以及镜像[-fs_in/2，-fx]可以构成与输入音频信号相关联的第一“不关注”间隔。作为上N(up-by-N)的上采样操作的结果，可以以频率间隔[fx+n*fs_in，fs_in/2+n*fs_in]，以及[-fs_in/2+n*fs_in，-fx+n*fs_in]，其中n＝1，...，N/2，创建这些第一“不关注”间隔的进一步的图像和镜像。这些进一步的图像和镜像也可以构成第一“不关注”间隔。作为移位fs_in的移位操作结果，第一“不关注”间隔中的一些相对于输入采样率fs_in和/或其倍数是对称的。

一个或多个“不关注”间隔可以包括与感知频率响应超过预定感知阈值的频率相关联的一个或多个第二“不关注”间隔。一个或多个第二“不关注”间隔可以对应于感知频率响应的图像和/或镜像超过预定感知阈值的频率。感知频率响应可以采用对于某些频率间隔指示低的听觉谱灵敏度的值。如果感知频率响应超过预定感知阈值，即如果感知频率响应指示低于预定灵敏度阈值的听觉灵敏度，则去掉对目标频率响应的任何约束是有益的，从而增大对于滤波器设计的自由度。因而，可以定义进一步的“不关注”间隔(即，第二“不关注”间隔)。

如上所指出的，该方法可以包括选择滤波器的频率响应的通带边缘和/或阻带边缘的步骤。通带边缘和/或阻带边缘可以基于输入采样率fs_in和输出采样率fs_out中较低的一个。具体地，通带边缘和/或阻带边缘可以被设置为输入音频信号的奈奎斯特速率fs_in/2和输出音频信号的奈奎斯特速率fs_out/2中较低的一个。可替换地或此外，可以基于输入音频信号的带宽选择通带边缘和/或阻带边缘。通带位于低于通带边缘的频率处，并且阻带位于高于阻带边缘的频率处。

该方法可以包括确定滤波器的系数以使得滤波器的频率响应适合于频率响应的允许偏差的步骤。确定滤波器的系数的步骤可以包括使用最大绝对差准则或最小均方准则将滤波器的频率响应适合于允许偏差的步骤。具体地，可以使用Remez交换算法或Parks-McClellan算法确定滤波器的系数。

Parks-McClellan算法最大化近似误差函数的最大值，其中近似误差函数基于滤波器的频率响应与阻带之内的预定衰减之间的差。通常，近似误差函数被加权。权重可以与滤波器的频率响应的允许偏差的倒数成比例。

在实施例中，确定滤波器的系数的步骤包括将滤波器的频率响应适合于一个或多个“不关注”间隔之外的频率响应的允许偏差的步骤。如上所指出的，允许偏差可以采用一个或多个“不关注”间隔之内的任意或未定义的值。因而，将频率响应适合于允许偏差可以通过不对一个或多个“不关注”间隔之内的滤波器的频率响应施加约束来执行。在Parks-McClellan算法的背景下，可以通过忽略“不关注”间隔之内的近似误差函数来考虑“不关注”间隔。换句话说，在“不关注”间隔之内不会最小化最大近似误差函数。

该方法可以包括选择通带之内的滤波器的频率响应的允许偏差的步骤。允许偏差可以指示频率响应的大小与预定的通带衰减的偏差，预定的通带衰减通常为1(即，0dB)。允许偏差可以是通带之内的固定的，即与频率无关，的允许偏差。

根据进一步的方面，描述一种滤波器，其中可以根据在本文件中概述的设计方法和任何相关特征设计滤波器。

根据另一个方面，描述一种滤波器，其中该滤波器被配置为减小输出采样率fs_out的输出音频信号的成像和/或混叠。输出音频信号可以是输入采样率fs_in的输入音频信号的重采样的版本。输出采样率fs_out和输入采样率fs_in的比率可以是有理数N/M，如上所述。滤波器可以以等于输入采样率fs_in的N倍的上采样的采样率操作。如上所指出的，上采样的采样率也可以等于输出采样率fs_out的M倍。滤波器可以包括通带和阻带。此外，滤波器可以具有基于输入采样率和输出采样率中较低的一个的通带边缘和/或阻带边缘(或截止频率)。

阻带之内的滤波器的频率响应可以与指示听觉谱灵敏度的感知频率响应相关联。如上所述，感知频率响应可以与包括绝对听力阈值(ATH)曲线的缩放和/或偏移的版本的第一频率响应相关联。具体地，阻带之内的滤波器的频率响应可以与第一感知频率响应的图像和/或镜像相关联。这些图像和/或镜像可以相对于从输出采样率fs_out导出的频率是对称的。因而，阻带之内的滤波器的频率响应可以与覆盖频率间隔[0，+fs_out/2]的第一感知频率响应以及覆盖频率间隔[-fs_out/2，0]的第一感知频率响应的镜像相关联。具体地，阻带之内的滤波器的频率响应可以与集中在输出采样率fs_out和/或其倍数处的这些第一感知频率响应的图像，即集中在[(m-1)*fs_out/2，(m+1)*fs_out/2](其中m＝2，4，...，M)处的图像相关联。

可替换地或此外，阻带中的频率响应可以与包括缩放的相对掩蔽阈值曲线的第二感知频率响应相关联，缩放的相对掩蔽阈值曲线指示相邻频率的(被掩蔽频率的)掩蔽。具体地，整体感知频率响应可以是第一和第二感知频率响应的组合。

可以使用最大绝对差准则将滤波器的频率响应适合于感知频率响应。在实施例中，滤波器的频率响应不超过选择的频率间隔(例如上述″不关注″间隔之外的频率间隔)之内的感知频率响应。换句话说，滤波器的衰减可以不超过由选择的频率间隔之内的感知频率响应定义的衰减。

根据进一步的方面，描述一种用于将输入采样率fs_in的输入音频信号重采样为输出采样率fs_out的输出音频信号的方法。输出采样率fs_out和输入采样率fs_in的比率可以是有理数N/M。该方法可以包括提供滤波器的系数集合的步骤。滤波器可以是在本文件中描述的任何滤波器，例如根据在本文件中概述的方法设计的任何滤波器。该方法可以进行从系数集合中选择系数的第一子集。此第一子集可以包括该集合的第一系数和在第一系数之后N的倍数的该集合的附加系数。换句话说，对于系数的第一子集可以选择系数集合的每第N个系数(从第一系数开始)。

该方法可以进一步包括基于系数的第一子集和输入音频信号的第一多个样本确定输出音频信号的第一样本的步骤。换句话说，可以通过使用基于系数的第一子集的滤波器对输入音频信号的第一多个样本进行滤波来确定输出音频信号的第一样本。

为了确定输出音频信号的第二样本，该方法可以包括基于第一系数和M选择该集合的第二系数的步骤。该方法可以进行从系数集合中选择系数的第二子集，其中第二子集包括第二系数和第二系数之后N的倍数的该集合的系数。换句话说，该方法可以进行选择包括滤波器系数的偏移的子集的第二子集。最后，该方法可以进一步包括基于系数的第二子集和输入音频信号的第二多个样本确定紧接在第一样本之后的输出音频信号的第二样本。

换句话说，可以使用在本文件中描述的心理声学滤波器的多相有限脉冲响应实施方式确定输出音频信号的样本。

根据另一个方面，描述了被配置为由输入采样率fs_in的输入音频信号生成输出采样率fs_out的输出音频信号的重采样器。输出采样率fs_out和输入采样率fs_in的比率可以是有理数N/M。重采样器可以包括根据在本文件中概述的方面中的任何一个的滤波器。滤波器包括系数集合。此外，重采样器可以包括被配置为从系数集合中选择系数的子集的系数选择单元。子集的选择可以在第一和/或第二子集的背景下如上所述执行。此外，重采样器可以包括被配置为使用系数的子集由输入音频信号的多个样本生成输出音频信号的样本的滤波单元。

根据进一步的方面，描述一种软件程序。软件程序可以被适配为在处理器上执行并且在计算设备上执行时执行在本文件中概述的方面和特征。

根据另一个方面，描述一种包括软件程序的存储介质。软件程序可以被适配为在处理器上执行并且在计算设备上执行时执行在本文件中概述的方面和特征。

根据进一步的方面，描述一种计算机程序产品。计算机程序产品可以包括用于在计算机上执行时执行在本文件中概述的方面和特征的可执行指令。

根据进一步的方面，描述一种用于设计滤波器(102)的设备，所述滤波器被配置为减少以输出采样率(fs_out)的输出音频信号(113)的成像和/或混叠；其中该输出音频信号(113)是以输入采样率(fs_in)的输入音频信号(110)的重采样的版本；

其中输出采样率(fs_out)和输入采样率(fs_in)的比率是有理数N/M；

其中该滤波器(102)以等于输入采样率(fs_in)的N倍的上采样的采样率操作；

所述设备包括：

-用于基于指示听觉谱灵敏度的感知频率响应在滤波器(102)的阻带之内选择滤波器(102)的频率响应(531、532)的允许偏差的装置；其中该允许偏差指示在阻带之内滤波器(102)的频率响应(531、532)与预定衰减的偏差；以及

-所述用于在阻带之内选择滤波器(102)的频率响应(531、532)的允许偏差的装置包括用于将所述阻带分割成多个频率间隔的装置，所述多个频率间隔包括一个或多个“不关注”间隔以及一个或多个“关注”间隔；

-在所述一个或多个“不关注”间隔中，所述输入音频信号(110)的分量不对输出音频信号(113)的频率分量提供贡献；

-所述频率响应(531、532)的允许偏差在所述一个或多个“不关注”间隔之内采用任意或未定义的值，并且在所述一个或多个“不关注”间隔之内是无约束的或未定义的；

-在所述一个或多个“关注”间隔中，滤波器(102)的频率响应(531、532)采用预定的形式；

-所述感知频率响应与指示缩放和/或镜像的绝对听力阈值曲线(505)的第一感知频率响应相关联；

-在所述一个或多个“关注”间隔中，所述频率响应(531、532)的允许偏差由所述绝对听力阈值曲线(505)导出；以及

-用于确定滤波器(102)的系数以使得滤波器(102)的频率响应(531、532)适合于频率响应(531、532)的允许偏差的装置；

-所述用于确定滤波器(102)的系数的装置包括用于在一个或多个″不关注″间隔之外将滤波器(102)的频率响应适合于频率响应(531、532)的允许偏差；同时在一个或多个“不关注”间隔之内不对滤波器(102)的频率响应施加约束的装置。

根据进一步的方面，描述一种用于将以输入采样率(fs_in)的输入音频信号(110)重采样为以输出采样率(fs_out)的输出音频信号(113)的设备；其中输出采样率(fs_out)和输入采样率(fs_in)的比率是有理数N/M；所述设备包括：

-用于提供根据权利要求25到29中的任何一个所述的滤波器(102)的系数集合的装置；

-用于从该系数集合中选择系数的第一子集的装置，其中第一子集包括该集合的第一系数和在第一系数之后N的倍数的该集合的系数；以及

-用于基于系数的第一子集和输入音频信号(110)的第一多个样本确定输出音频信号(113)的第一样本的装置。

应当注意，可以单独地或与在此文件中公开的其它方法和系统结合使用在本文件中概述的方法和系统(包括它的优选实施例)。此外，在本文件中概述的方法和系统的所有方面可以被任意地组合。具体地，权利要求书的特征可以以任意的方式彼此结合。

附图说明

下面参考附图以示范性方式说明在本文件中描述的方法和系统，其中

图1示出了示例重采样器的构思图；

图2描述包括两个正弦信号的示例上采样的输入音频信号的频谱；

图3显示指示示例信号的成像/混叠作用的双频率图；

图4a示出了不对成像/混叠起作用的输入音频信号的示例频率间隔；

图4b显示防成像/防混叠滤波器的示例目标频率响应和示例频率响应。

图5a描述示例绝对听力阈值曲线；

图5b显示示例输出音频信号的频率间隔，其中所示的频率间隔中的输出音频信号的信号分量不被人类听众感知；

图5c显示考虑心理声学特征的防成像/防混叠滤波器的示例目标频率响应和示例频率响应。

图6示出了在具有相同数目的系数的同时考虑和不考虑心理声学方面的防成像/防混叠滤波器的示例频率响应的比较；

图7示出了包括变化的频率的正弦信号的重采样的音频信号的示例频谱；

图8显示用于示出经受上采样的成像的示例三角波函数；

图9示出了突出自掩蔽点的示例双频率图；

图10显示心理声学上采样滤波器的示例频率响应；

图11a示出了线性频率标度到Bark标度的映射；

图11b示出了示例自掩蔽阈值曲线；

图11c示出了由于自掩蔽和由于绝对听力阈值引起的示例重采样滤波器的允许偏差；

图12显示考虑了绝对听力阈值和自掩蔽阈值的心理声学滤波器的示例频率响应；和

图13显示用于设计用于重采样音频信号的心理声学滤波器的示例方法的框图。

具体实施方式

图1概念地示出了有理重采样器100。有理重采样器100包括上N上采样器101，其将输入音频信号110的样本转换为上采样的音频信号111的N个样本。这可以通过在输入音频信号110的两个样本之间插入N-1个零来实现。随后，上采样的音频信号由具有传递函数H(z)的防混叠/防成像滤波器102来滤波。这导致滤波的音频信号112。最后，滤波的音频信号112被传递到下M抽取器或下采样器103，其仅仅保持滤波的音频信号112的每第M个样本，从而提供重采样的(或输出)音频信号113。在将32kHz采样率的输入音频信号110重采样为48kHz采样率的输出音频信号113的情况下，N是3，M是2。在将44.1kHz采样率的输入音频信号110重采样为48kHz采样率的输出音频信号的情况下，N是160，而M是147。

应当注意，滤波器102以输入采样率的N倍或输出采样率的M倍的中频(IF)运行(例如，对于上述情况，IF＝M*48kHz)。这意味着防混叠滤波器102通常以高采样率操作，以使得期望减少计算滤波器操作的数目。换句话说，期望减少防混叠滤波器102的所需系数的数目，以便降低有理重采样器100的整体计算复杂度。

滤波器可以被实现为多相FIR(有限脉冲响应)实施方式。这样的实施方式利用由滤波器102滤波的上采样的音频信号111在输入音频信号110的样本之间包括N-1个零的事实。因此，可以省略“零”乘法和加法。此外，多相实施方式利用如下事实：由于后来的下M抽取器103，仅仅需要确定滤波的音频信号112的每第M个样本。通过在滤波器实施方式期间利用此信息，可以显著地减少乘法和/或加法操作的数目，从而降低有理重采样器100的计算复杂度。然而，期望进一步降低计算复杂度或进一步提高重采样器100的感知性能。

如上所指出的，如果不使用防混叠滤波器102，则重采样操作在输出音频信号113中产生成像和/或混叠假象。作为上采样101和下采样103操作的结果，产生这些成像和/或混叠假象。这示出在图2所示的频谱中，其中在因子N＝6的上采样101之后描述了输入采样率或采样频率fs_in＝40kHz的示例输入音频信号110的频谱200。原始的输入音频信号110包括分别为2和3kHz的两个正弦信号201。可以看出，作为上采样操作101的结果，在上采样的音频信号111的频谱中已经产生了两个正弦信号201的各个图像202，...，206。

输入音频信号110具有fs_in＝40kHz的输入采样率，即输入音频信号110的奈奎斯特频率为fs_in/2＝20kHz。作为上采样操作101的结果，上采样的音频信号111具有N×fs_in＝240kHz的上采样的采样率，即120kHz的奈奎斯特频率。2/3kHz的正弦信号201的图像可以在40kHz±2/3kHz(附图标记202、203)、在80kHz±2/3kHz(附图标记204、205)以及在120kHz-2/3kHz(附图标记206)中找到。因而，上采样的音频信号111包括超过输入音频信号110的奈奎斯特频率20kHz的频率分量。

如果假定输入采样率fs_in＝40kHz的输入音频信号110将要被重采样为输出采样率fs_out＝48kHz的输出音频信号113，则下采样器103必须执行因子M＝5的下采样。但是，由于上采样的音频信号111包括超过输出音频信号113的奈奎斯特频率fs_out/2＝24kHz的频率分量(参见正弦信号图像202，...，206)，因此出现所谓的混叠，从而产生正弦信号图像202，...，206对输出音频信号113的频谱的不希望的贡献。

为了避免这些对输出音频信号113的不希望的贡献，应该使用防混叠滤波器102对上采样的音频信号111进行滤波。滤波器102应当保证在上采样操作101期间产生的频谱图像202，...，206不在下采样操作103期间引起混叠。这可以通过使用具有对应于fs_out/2和fs_in/2中较低的一个的截止频率或通带边缘/阻带边缘，即对应于输入音频信号110和输出音频信号113的奈奎斯特频率中较低的一个的低通滤波器来保证。

防混叠滤波器102通常由一个或多个滤波器设计参数指定。通常，这类滤波器最重要的设计参数是“阻带抑制”、“通带边缘”和“通带纹波”(具体地关于涉及的信号处理)。这三个设计参数可以对防混叠滤波器102的滤波器系数的数目(即长度)具有影响，因此对有理重采样器100的复杂度具有影响。因此，必须找到施加的滤波器设计参数和防混叠滤波器102的长度之间的折衷。例如，通带纹波可以被设置为0.1dB，并且可用的周期预算(即，可用的滤波器系数的数目)可以允许大约-50dB的阻带抑制。

在下文中，描述了在设计适当的防混叠滤波器102时应该考虑的不同的方面。为此，参考图3，其中描述有理重采样器100的示例双频率图300。重采样器100被配置用于输入采样率fs_in＝40kHz的输入信号110和输出采样率fs_out＝48kHz的输出信号113。双频率图300是用于示出输入信号110的频率分量(沿着映射300的横坐标显示的)和输出信号113的频率分量(沿着映射300的纵坐标显示的)之间的关系的手段。因而，双频率图300可以用于示出有理重采样器100的复传递函数。

在双频率图300的列310中，可以看出输入信号110的3kHz的频率分量在输出信号113中产生预期的3kHz的频率分量311。但是，由于成像和混叠效应，输入信号110的3kHz的频率分量也产生输出信号113的其它频率处的频率分量312、313、314、315、316。这些后面的频率分量可以被感知为输出信号113之内的假象。

按类似方式，在双频率图300的行320中，可以看到输出信号113的7kHz的频率分量接收来自于输入信号110的频率分量321的预期的贡献。但是，输出信号113的7kHz的频率分量也接收来自于输入信号110的其它频率的贡献322、323、324、325。这些后面的贡献可以导致输出信号113的可听到的假象。

因而，双频率图300可以用来示出输出信号113的不同频率分量如何受输入信号110的频率分量的影响。因此，双频率图300也可以用于识别输入信号110的不影响输出信号113的某些频率范围。在防混叠滤波器112的设计期间可以考虑此不影响输出信号113的输入信号110的频率范围的知识。结果，可以提高滤波器112的性能和/或可以降低滤波器112的长度/复杂度。

这示出在图4a中，其中在双频率图400之内突出显示输入信号110的某一频率间隔401。可以看出，如果输入信号110不包括17kHz到20kHz的频率范围401中的任何信号分量，则输入信号110的这些分量不存在对输出信号113的频率分量的贡献。此信息可被用于如图4b所示的滤波器设计。换句话说，如果输入音频信号110已被带限到17kHz或更小，则由于没有频率分量预期在输入信号110的17kHz到20kHz的频率范围中，因此滤波器112可以被设计有附加的自由度。

在图4b的图410中可以看出，上采样的信号111的总频率范围(即，0kHz到120kHz的频率范围)可以被分割成频率范围412、413、414以及频率范围411、415、416、417，在频率范围412、413、414中滤波器102的频率响应可以采用任何形式(所谓的“不关注”间隔)，在频率范围411、415、416、417中，滤波器102的频率响应应当采用预定形式(所谓的“关注”间隔)。“不关注”间隔412、413、414对应于17kHz到20kHz的频率范围(即，其内输入信号110没有贡献的频率范围)以及此频率范围的图像(即，20kHz到23kHz、57kHz到60kHz、60kHz到63kHz、97kHz到100kHz、100kHz到103kHz)。因而，可以使用关于输入信号110的(缺少的)贡献的信息以便在滤波器102的设计期间提供附加的自由度。

图420示出了在滤波器102的设计期间施加的约束或参数。在示出的情况中，滤波器102的阶数(即，滤波器系数的数目)被设置为60。阻带抑制或衰减在“关注”间隔415、416、417(分别为约束425、426、427)之内被设置为-28dB。“关注”间隔411对应于滤波器102的期望的通带421(没有衰减，即0dB的通带衰减)。对于“不关注”间隔412、413、414不施加约束或参数。

因而，可以将对滤波器102的目标频率响应的约束集合公式化。这些约束应用于“关注”间隔411、415、416、417，而在“不关注”间隔412、413、414之内滤波器102的目标频率响应可以采用任何形式。可以使用诸如Parks-McClellan算法之类的滤波器设计方法确定满足或接近这些要求的滤波器102的滤波器系数。此算法确定最小化与目标频率响应的最大偏差的滤波器系数集合。

Parks-McClellan算法针对最小化由下式给出的近似误差E(f)的最大值

E(f)＝W(f)|D(f)-H(f)|，

其中D(f)是低通滤波器102的期望的型式，即目标频率响应，并且通常由下式给出

D (f) = \{\begin{matrix} 1, f &Element; [0, f_{p}] \\ 0, f &Element; [f_{s}, Mf s_{out} / 2] \end{matrix},

其中f_p是通带边缘以及f_s是阻带边缘。如上所述，可以在通带和/或阻带中定义其它衰减值。W(f)是近似误差的频率加权函数。H(f)由下式给出：

H (f) = Σ_{k = 0}^{n} d_{k} \cos (2 kπf),

并且与由exp(-j2πnf)H(f)表示的滤波器102的频率响应有关。滤波器102的滤波器系数h_k由下式表示：

h_k＝h_2n-k；d_n-k＝2h_k，k＝0，...，n-1；d₀＝h_n.

Parks-McClellan(Remez交换)算法包括以下步骤：

1)初始化：选择极值频率集合{f⁽⁰⁾}。

2)有限集近似(迭代m)：计算对本极值集合的最佳契比雪夫(Chebyshev)(即，minmax)近似值，给出对于本极值集合的minmax误差的推导值δ^(m)。

3)内插：使用步骤(2)对整个频率集Ω计算误差函数E(f)。

4)在频率集合Ω上寻找E^(m)(f)的局部最大值。

5)如果max_f∈ΩE^(m)(f)＞δ^(m)，则通过挑选E^(m)(f)具有它的局部最大值的新的频率来将极值集合更新为{f^(m+1)}。确保误差在如(4)和(5)中所述的有序的频率集合Ω上交替。返回到步骤2并且重复。

6)如果max_f∈ΩE^(m)(f)≤δ^(m)，则该算法完成。使用集合{f^(m)}和内插公式来计算离散傅里叶逆变换以获得滤波器系数。

关于Parks-McClellan算法的细节在IEEE Transactions onCircuit Theory，CT-19，No.2卷，1972年3月，T.Parks，J.McClellan的“Chebyshev Approximation for Nonrecursive Digital Filters withLinear Phase”中描述，其通过引用而并入。

不指定目标频率响应D(f)的某些频率间隔的事实，即滤波器102的目标频率响应包括“不关注”间隔412、413、414的事实，通常导致用于实现目标频率响应的更短的滤波器102或导致实现在“关注”间隔411、415、416、417之内滤波器102的目标频率响应的提高的近似的给定长度的滤波器102。可以通过忽略“不关注”间隔412、413、414的近似误差E(f)来在Parks-McClellan算法之内考虑“不关注”间隔412、413、414。换句话说，超过“不关注”间隔之内的推导值δ的近似误差E(f)不会触发算法的进一步的迭代。

应当注意，其它滤波器设计方法可以用来确定接近目标频率响应的滤波器102。

在图4b的图420中描述产生的滤波器102的频率响应430。可以看出，在“关注”间隔411、415、416、417之内很好地满足了目标频率响应D(f)(附图标记421、425、426、427)。另一方面，可以看出，在“不关注”间隔412、413、414之内，频率响应430采用任意值并且部分地未能满足施加于相邻“关注”间隔415、416(附图标记431)的阻带抑制425、426。

可替换地或此外，在设计防混叠滤波器102时可以考虑其它方面。具体地，可以考虑音频感知特征，例如绝对听力阈值(ATH)。图5a示出了跨0Hz到大约20kHz的频率范围以dB SPL(声压级)测量的ATH的示例曲线505。可以看出，在较低频率范围506(大约10Hz以及低于10Hz)中以及在较高频率范围507(大约17kHz并且高于17kHz)中，ATH非常高，指示人仅仅能够感知频率范围506、507中的显著的声压级的声音。

ATH曲线505可以通过数学公式近似，例如通过Terhardt提出的公式：

τ_{abs} (f) = 3.64 {(\frac{f}{1000})}^{- 0.8} - 6.5 \exp (- 0.6 {(\frac{f}{1000} - 3.3)}^{2}) + 10^{- 3} {(\frac{f}{1000})}^{4},

其中频率f是以Hz测量的。

图5b示出了与双频率图500中的ATH的高的值对应的频率间隔506、507。可以看出，输出信号113的这些频率范围506、507可以具有来自于输入信号110的高的成像/混叠贡献，而不可被输出信号113的听众听到。换句话说，由于频率范围506、507中的高的绝对听力阈值，输出信号113之内的成像/混叠假象对于输出信号113的感知质量具有降低的重要性。建议在防成像/防混叠滤波器102的设计期间使用此知识。

图5c显示在防成像/防混叠滤波器102的设计期间可以如何考虑关于绝对听力阈值的此信息。按类似于图4b的方式，图410显示由于输入信号110的缺少的频率分量引起的“不关注”间隔412、413、414。此外，示出了通带的“关注”间隔411和阻带的“关注”间隔415、416、417。应当注意，“不关注”间隔和“关注”间隔可以采用各种形式。具体地，如果输入信号110覆盖完整的奈奎斯特范围(直至20Hz)，则可以不存在“不关注”间隔412、413、414。

图5c的图520示出了与滤波器102的目标频率响应的允许偏差。目标频率响应D(f)由某一通带衰减(例如0dB)和某一阻带衰减(例如-100dB)定义。允许偏差指示滤波器102的频率响应可以偏离目标频率响应多少。允许偏差在滤波器102的设计期间可以用作减轻的约束。具体地，可以在上述近似误差E(f)的加权函数W(f)之内考虑允许偏差。甚至更具体地，加权函数W(f)可以与允许偏差的倒数成比例。

即，图520示出了在滤波器102的设计期间使用的约束。按类似图4b的方式，在“不关注”间隔412、413、414之内，不向滤波器102的频率响应施加约束。为了考虑绝对听力阈值的频率演化，在示例“关注”间隔415之内与目标频率响应的允许偏差与ATH曲线505相关联。因而，在“关注”间隔415之内与滤波器102的目标频率响应的允许偏差的片段525-1、525-2、525-3从ATH曲线505导出。

应当注意，ATH值超过某一级别的频率范围，即不能合理地包括输出信号的113的可听见频率分量的频率范围，可以被宣布为“不关注”间隔，从而在此特定频率范围中去掉在滤波器102的设计期间的进一步约束。这示出在片段525-1(与大约20-24kHz的频率范围相关联)中，其中ATH值非常高。因此，可以增大滤波器102的频率响应的自由度的数目。

如图5b所示，绝对听力阈值影响输出信号113的频率被听众感知的方式。因此，ATH曲线505应该反映在输出信号113的相关频率图中。这示出在图5c的图520中，其中虚线528、529反映与输出信号113的24kHz的奈奎斯特频率的2倍和4倍对应的频率。这些虚线528、529是在下M抽取器103的下采样之前的上采样的信号111或112的图像的镜像线(与图2描述的40kHz和80kHz的镜像线相似)。

考虑到以上，ATH曲线505被适合于上采样的输出信号的频率图中，同时考虑由于(假想的)上M上采样(即，在下M抽取之前)产生的图像。因而，在“关注”频率间隔415、416、417中与滤波器102的目标频率响应的允许偏差从上采样的输出信号的频率图(即，根据输出信号113的奈奎斯特频率镜像的频率图)中的ATH曲线505的图像导出。这显示在图5c中，其中与目标频率响应531的允许偏差的片段525-2对应于从0kHz到大约20kHz的频率范围的ATH曲线505的缩放和镜像的版本。与目标频率响应532的允许偏差的片段525-3对应于频率0kHz到17kHz处的ATH曲线505的缩放版本。

片段525-3与对应于“不关注”间隔513的片段523相邻。在片段523之内目标频率响应532保留空白的事实指示在“不关注”间隔513之内不向目标频率响应532施加约束。

整体上，获得与阻带中的目标频率响应531、532的允许偏差，其由ATH曲线505的一连串缩放和可能镜像的图像组成。与目标频率响应531、532的这些允许偏差可以被“不关注”频率间隔中断。使用与目标频率响应531、532的允许偏差作为到诸如Parks-McClellan算法之类的滤波器设计方法的输入，这提供防混叠滤波器102的系数。滤波器102的结果的频率响应430如图5c的图520所示。可以看出，镜像线528、529附近的阻带抑制非常高，从而显著地衰减由人类很好地感知的频率范围中的图像和混叠。同时，对于不被人类很好地感知的频率范围，阻带抑制相对弱。

在图6中，示出了使用从ATH曲线505导出的允许偏差设计的防混叠滤波器601和传统的防混叠滤波器611之间的比较。滤波器601、611二者具有相同数目的滤波器系数(60个系数)。可以看出，在与低的ATH值相关联的频率范围中(即在与相对较高的听觉灵敏度相关联的频率范围中)，滤波器601比滤波器611呈现出显著地较高的阻带抑制。结果，在使用滤波器601时重采样的输出信号的感知质量提高了。

使用防混叠滤波器601的心理声学重采样器100的效果可以在图7中看到，其中描述了重采样的输出信号113的频率图700。横坐标指示时间。输入信号110对应于频率从0kHz(在0秒时)改变到17kHz(在10秒时)的正弦信号。因而，横坐标实际上指示输入信号110的频率。纵坐标指示在特定时刻的重采样的输出信号113的频谱。可以看出，输出信号113的频谱主要包括输入信号110的正弦信号701。此外，输出信号113包括高于15kHz的更高的频率处的频率分量702。这些频率分量702由于重采样器100的图像/混叠引起。但是，由于具有频率响应601的防混叠滤波器102的心理声学设计，这些频率分量702不被人类听众感知。

在下文中，概述在设计防混叠滤波器102时可以考虑的进一步的方面。为此，进一步详细地从数学角度分析由有理重采样引起的成像和混叠。

如上所述，fs_in和fs_out分别是输入和输出采样率。可以看出，在图1的背景下，有理比率M/N＝fs_in/fs_out(M、N是互素的)的重采样，可以通过因子N的上采样步骤101、后面是滤波102、后面是M的下采样步骤103来实现。在上采样过程中，以原始采样率fs_in的倍数产生原始信号的N-1个图像。也就是说，基带频率f_bb∈[-fs_in/2；fs_in/2]的分量将被成像到频率f_bb+n·fs_in(n＝1...N-1)处的分量。如果将要通过相同的比率M＝N下采样，则所有这些图像将混叠回到原始分量中，即上采样和下采样(相同的因子M＝N)是逆处理。

可以定义三角波函数T(x)＝|frac(x+1/2)-1/2|，其中函数“frac(.)”表示它的自变量的分数部分。这样的三角波函数示出在图8中。三角波函数T(x)可以用于分别示出上采样和下采样的成像和混叠操作。具体地，三角波函数T(x)可以用于示出对应于三角波函数T(x)的横坐标间隔x_bb∈[-0.5；0.5]的基带f_bb∈[-fs_in/2；fs_in/2]中的频率被成像到对应于三角波函数T(x)的x_bb+n的频率f_bb+n·fs_in。

另一方面，考虑图像频率f＝f_bb+n·fs_in，三角波函数T(x)可以用于导出图像频率f来源于的基带频率f_bb

f_bb＝fs_in·T(f/fs_in) (1)

同样，在下采样到输出采样率fs_out期间，图像频率f经由函数f_al＝fs_out·T(f/fs_out)混叠回到基带，其中f_al是来源于图像频率f的混叠分量(在输出信号113的基带中)。改变参数f并且绘制周期性改变的基带分量f_bb对混叠分量f_al产生类似李萨如(Lissajous)的图9(这里也称为双频率图)。

图9的双频率图900示出了fs_in＝40Hz和fs_out＝48Hz，即N＝6和M＝5的有理重采样器的示例。双频率图900示出了重采样处理的几个方面。首先，它示出了对于每个输入频率(沿着横坐标绘制)，存在N-1＝6-1＝5个图像。当沿着起始于点(0kHz，0kHz)直至点(20kHz，20kHz)的对角线901，然后向左转并且沿着到点(16kHz，24kHz)的箭头的线901，然后沿着箭头向左转到点(0kHz，8kHz)等等、到点(0kHz，24kHz)时，可以看到每个输入频率的图像。线901表示上采样的信号111的频率轴并且从开始时的0kHz变为结束时的120kHz。因而，线901对应于折合到双频率图900中的图2的频率轴。如图3所示，因子N的上采样由输入频率310产生5个图像(例如，图像312、313、314、315、316)，即输入频率310在上采样的信号111中出现N次。具体地，输入频率f_bb的图像出现在频率f_bb+n·fs_in(n＝1，...，N/2-1)和-f_bb+n·fs_in(n＝1，...，N/2)处。

双频率图900也示出了输出域中的每个频率可以是输入域中的M＝5个频率的混叠，一个频率是输入信号自身中的相同频率。这已经显示在图3中，其中输出域中的频率321接收输入频率322、323、3224、325加上输入频率321(与输出频率321对应)的混叠贡献。

此外，可以在双频率图900中识别点911、912、913、914，其中输入频率的图像的混叠分量与输入频率重合。这些点911、912、913、914可以被称为自掩蔽点。例如，点911位于双频率图900中的坐标(4kHz，4kHz)。线901(对应于上采样的信号111的频率轴)穿过点911两次，第一次在4kHz并且第二次在44kHz。这意味着不仅原始的输入频率f_bb＝4kHz，而且它的图像f_bb+fs_in＝44kHz对输出频率f＝4kHz有贡献。按类似方式，在点912，不仅原始的输入频率f_bb＝8kHz，而且它的图像f_bb+2fs_in＝88kHz对输出频率f＝8kHz有贡献。鉴于输入音频信号是实数信号这一事实，它们的频谱是对称的。因此，不仅原始的输入频率f_bb＝16kHz，而且它的图像-f_bb+2fs_in＝64kkHz对输出频率f＝16kHz(点914)有贡献，以及，不仅原始的输入频率f_bb＝12kHz，而且它的图像-f_bb+3fs_in＝108kkHz对输出频率f＝12kHz(点913)有贡献。

此外，可以识别由于相同的输入频率的图像引起的两个混叠彼此重合(而不与原始的输入频率重合)的点。这些频率可以需要通滤波波器102的特定衰减，因为两个混叠分量可以相长干涉。这些点可以被称为自干涉点。例如，频率坐标(4kHz，12kHz)处的点921穿过上采样的信号111的频率轴901两次，一次在36kHz(即，在-f_bb+fs_in，其中f_bb＝4kHz)并且第二次在84kHz(即，f_bb+2fs_in，其中f_bb＝4kHz)。可以看出，4kHz的基带频率的两个图像对12kHz的输出频率有贡献，即基带频率f_bb的图像对不同于f_bb的输出频率f_al有贡献。

为了进一步分析在上采样操作101期间图像的产生，在下面假定M＝1。因而，输入采样率fs_in和输出采样率之间的关系是fs_out＝N·fs_in。让τ_abs(f)是频率f处的绝对听力阈值，以使得具有低于τ_abs(f)的信号级别的音调不是可听到的。ATH曲线505的数学近似已被在图5a的背景中提供。

考虑频率f＝n fs_in/2，n＝1...N处的图像，防成像(上采样)滤波器102的目的是将图像减少到不可听到的级别。为了确定在频率f处具有能量级L的图像是否将是可听到的，可以将频率f处的信号电平L与ATH曲线相比较。如果L＜τ_abs(f)，则图像是不可听到的。

在设计滤波器102时，基带音频信号110的信号电平通常是未知的，因而图像的信号电平L不是已知的。输入信号101的信号电平越高，滤波器102需要越多的衰减。但是，可以假设基带音频信号的信号电平低于最大可听度τ_P(f_bb)(其中f_bb由等式1给出)。例如，最大可听度τ_P(f_bb)可以通过120dB SPL的与频率无关的常数近似。考虑以上假设，滤波器的衰减应该等于或超过τ_abs(f)/τ_P(f_bb)，即滤波器102的频率响应的大小应该是

|H(f)|²＜τ_abs(f)/τ_P(f_bb) (2)

设计这样的滤波器102的可能的方式可以是上述Parks-McClellan算法，其中通带增益为1并且阻带增益为0，即目标频率响应为如上所述的

D (f) = \{\begin{matrix} 1, f &Element; [0, f_{p}] \\ 0, f &Element; [f_{s}, Mf s_{out} / 2] \end{matrix} .

在阻带之内线性误差加权函数W(f)可以被设置为

W (f) = \sqrt{τ_{P} (f_{bb}) / τ_{abs} (f)} .

图10示出了根据上述方法获得的心理声学滤波器102的频率响应。滤波器用于去掉具有输入采样率s_in＝12kHz和上采样因子N＝4的输入信号110的图像。通带加权已被设置以使得通带纹波保持低于0.1dB。此外，误差加权函数已被修改以使得在高于大约18kHz的频率间隔中，由于ATH曲线505的高的值，不出现无约束的放大(可能除其中可以不混叠能量的“不关注”区域之外)。此外，已经假定音频信号已经被带限到低于5.5kHz(即，在奈奎斯特速率的90％)，从而提供“不关注”间隔。

同样，当通过因子M(即，N＝1)将输入信号从输入采样率fs_in下采样到输出采样率fs_out＝fs_in/M时，听力阈值曲线505可以用来从理想的阻带抑制导出允许偏差。但是，对于音频应用，音频输入信号110已经在可听见的频率范围中。因此，下采样的输出信号113也处于可听见的频率范围中。因此，在纯的下采样情形下使用高的听力阈值用于高频率的潜力被限制。

如在图9的背景下已经概述的，某些输入频率f_bb在上采样操作101期间产生图像f_bb+nfs_in和/或-f_bb+nfs_in，它们在下采样操作103期间被混叠回到相同输出频率f_al，其中f_al＝f_bb。因而，输出信号的混叠分量直接取决于相同频率的输入信号分量。此观察结果可以用来在滤波器设计期间利用感知的自掩蔽效应。

让μ(f，f₀)是由在频率f₀处具有信号电平L的单个音调经受得起的相对掩蔽阈值。也就是说，在频率f处具有级别L′的音调是不可听到的，其中L′＜L·μ(f，f₀)。相对掩蔽阈值曲线的近似(也被称为音调掩蔽音，TMT)可以由下式给出

μ (f, f_{0}) = \{\begin{matrix} - 27 + 25 (Bark (f) - Bark (f_{0})) [dB], f < f_{0} \\ - 27 - 10 (Bark (f) - Bark (f_{0})) [dB], f &GreaterEqual; f_{0} \end{matrix},

其中Bark标度可以通过下式近似

Bark(f)＝13·atan(0，76·10^-3f)+3，5·atan(0，13·10^-3f)²。

Bark标度示出在图11a中，并且与掩蔽频率f₀的相对频率偏差的相对掩蔽阈值曲线1100示出在图11b中。可以看出，接近于掩蔽频率f₀的频率f是仅仅可听到的，如果它的信号电平L超过频率f₀处的信号电平减去27dB的话。

在下文中，考虑在中间(即上采样的)频域中的在频率f∈[0；N·fs_in/2]处的上采样的信号110的信号分量。频率f处的此分量是f_bb＝fs_in·T(f/fs_in)处的基带信号分量的图像。在下采样处理期间，它将被混叠到输出信号113的频率处f_al＝fs_out·T(f/fs_out)的分量。

让L_al＝L·|H(f)|²是在频率f_al的混叠分量的信号电平。在f_al处的混叠分量可以经受来源于上采样-滤波-下采样处理的f_bb处的分量的掩蔽。如果f_al处的混叠分量来源于f_bb处的输入信号分量，其中f_bb≈f_al，则这可以是这样的情况。为了采用来自于f_bb处的分量的掩蔽，即为了确保f_al处的混叠分量是不可听见的，混叠分量的信号电平应该是L_al＝L·|H|²≤L·μ(f_al，f_bb)，即

|H|²≤μ(f_al，f_bb) (3)

在图11b中可以看出，相对掩蔽阈值曲线μ(f_al，f_bb)将在自掩蔽的点处，即在f_al处的混叠分量被来源于f_bb处的基带分量的频率分量掩蔽的点处，达到它的最大值-27dB，其中f_al＝f_bb。

如在图9的背景下描述的，自掩蔽发生在自掩蔽点911、912、913、914的频率附近。如上面已经描述的，自掩蔽点911、912、913、914具有给定频率处的输入信号的频谱的图像混叠到相同的给定频率处的输出信号的频谱的特性。因而，混叠的图像经受给定频率处的输入信号的原始频谱的掩蔽。此发现可以用于在滤波器设计期间定义防混叠滤波器102的频率响应的允许偏差。具体地，滤波器102对原始频谱的各个图像执行的衰减可以由于自掩蔽效应而减小。

这示出在图11c中，其中示出了在40kHz到48kHz的重采用器中的示例滤波器102的允许偏差。图11c示出了由于自掩蔽效应引起的允许偏差1101、1102、1103、1104。可以看出，允许偏差1101、1102、1103、1104分别位于频率44kHz、64kHz、88kHz、108kHz周围。中间域中的这些频率分别对应于与自掩蔽点911、914、912、913相关联的频率。这些频率可以被称为被掩蔽频率(在中频域中)。被掩蔽频率混叠到的频率可以被称为对应的基带掩蔽频率。允许偏差1101、1102、11031104的形式对应于图11b中所示的相对自掩蔽阈值曲线，但是在线性标度上而不是Bark标度上显示。

此外，图11c示出了由于ATH曲线505引起的允许偏差1111、1112、1113、1114、1115。因而，已经识别了对频率响应与目标频率响应的允许偏差的各种感知贡献。由于ATH曲线505引起的允许偏差可以使用公式(2)描述，而由于自掩蔽阈值曲线1100引起的允许偏差可以使用公式(3)描述。假设如果混叠的信号电平低于绝对听力阈值或掩蔽阈值，则混叠将是听不见的，这对传递函数(即，与目标频率响应的允许偏差)的大小提供以下约束

|H(f)|²≤max(τ_abs(f_al)/τ_P(f_BB)，μ(f_al，f_BB))。

阻带增益可以被限制为一或更低以便避免混叠的放大。图12示出了使用允许偏差1202的上述函数产生的滤波器频率响应1201。所示的滤波器102需要每相10抽头(即，整体60个系数)。可以看出，频率响应1201很好地符合由与ATH曲线505和自掩蔽阈值曲线1100相关联的感知频率响应提供的允许偏差1202。

在图13中，显示用于设计用于音频信号的重采样的心理声学滤波器的示例方法1300。方法1300包括与目标频率响应的指定有关的多个步骤1301到1304。在步骤1301中，选择目标频率响应的截止频率(和/或通带边缘/阻带边缘)。如在本文件描述的，截止频率可以被选择为输入音频信号的奈奎斯特速率和输出音频信号的奈奎斯特速率中较小的一个。此外，在步骤1302中，选择目标频率响应的通带。通带的选择包括通带的频率范围的选择，以及通带之内的目标频率响应的目标衰减的选择。

在步骤1303中，识别阻带的“不关注”间隔。“不关注”间隔可以由于具有低能量，即具有低于能量阈值的能量值的输入音频信号的频率间隔引起。此外，“不关注”间隔可以由于输入音频信号的这样的低能量频率范围的频谱图像和/或镜像引起。可替换地或此外，“不关注”间隔可以由于与人类听众的低的听觉谱灵敏度相关联的频率范围引起。如在本文件中描述的，这样的频率范围的图像和/或镜像可以被选择为阻带的“不关注”间隔。

在步骤1304中，指示人类听众的听觉谱灵敏度的感知频率响应的图像或镜像分配给阻带，具体地分配给“不关注”间隔之外的阻带的频率范围。感知频率响应可以与绝对听力阈值曲线的缩放和/或偏移的版本相关联，从而将不同的衰减度归于阻带的不同频率。可替换地或此外，感知频率响应可以与特定频率处的自掩蔽阈值曲线相关联。

作为步骤1301到1304的结果，目标频率响应和与此心理声学滤波器102的目标频率响应的允许偏差已被确定。在“不关注”间隔之内，与目标频率响应的允许偏差采用任意或未定义的值。在阻带的“不关注”间隔之外，与目标频率响应的允许偏差与指示人类听众的听觉谱灵敏度的感知频率响应相关联。在步骤1305中，使用诸如Parks-McClellan算法之类的滤波器设计方法确定滤波器的系数。这样的滤波器设计方法确定滤波器系数以使得产生的滤波器的频率响应适合于目标频率响应，同时考虑与目标频率响应的允许偏差。

在本文件中，已经描述了用于设计心理声学防混叠滤波器的方法和系统。产生的滤波器可以用来实现心理声学重采样器100，其以减少的计算复杂度和/或提高的感知质量执行有理重采样。

在本文件中描述的方法和系统可以被实现为软件、固件和/或硬件。某些组件可以例如被实现为运行在数字信号处理器或微处理器上的软件。其它组件可以例如被实现为硬件和/或特定用途集成电路。描述的方法和系统中遇到的信号可以被存储在诸如随机存取存储器或光存储介质之类的介质上。它们可以经由诸如无线电网络、卫星网络、无线网络或有线网络(例如因特网)被传送。利用在本文件中描述的方法和系统的典型的设备是用于存储和/或再现音频信号的便携式电子设备或其它家用电器。方法和系统也可以在例如因特网网络服务器的计算机系统上使用，所述计算机系统存储和提供例如音乐信号的音频信号以用于下载。

Claims

1.一种用于设计滤波器(102)的方法，所述滤波器被配置为减少以输出采样率fs_out的输出音频信号(113)的成像和/或混叠；其中该输出音频信号(113)是以输入采样率fs_in的输入音频信号(110)的重采样的版本；

其中输出采样率fs_out和输入采样率fs_in的比率是有理数N/M；

其中该滤波器(102)以等于输入采样率fs_in的N倍的上采样的采样率操作；

该方法包括：

-基于指示听觉谱灵敏度的感知频率响应在滤波器(102)的阻带之内选择滤波器(102)的频率响应(531、532)的允许偏差；其中该允许偏差指示在阻带之内滤波器(102)的频率响应(531、532)与预定衰减的偏差；

-所述在阻带之内选择滤波器(102)的频率响应(531、532)的允许偏差的步骤包括将所述阻带分割成多个频率间隔，所述多个频率间隔包括一个或多个“不关注”间隔以及一个或多个“关注”间隔；

-确定滤波器(102)的系数以使得滤波器(102)的频率响应(531、532)适合于频率响应(531、532)的允许偏差；

-所述确定滤波器(102)的系数的步骤包括在一个或多个″不关注″间隔之外将滤波器(102)的频率响应适合于频率响应(531、532)的允许偏差；同时在一个或多个“不关注”间隔之内不对滤波器(102)的频率响应施加约束。

2.如权利要求1所述的方法，其中所述确定滤波器(102)的系数的步骤包括使用最大绝对差准则或最小均方准则将滤波器(102)的频率响应适合于频率响应(531、532)的允许偏差。

3.如权利要求2所述的方法，其中：

-使用Parks-McClellan算法确定滤波器(102)的系数；

-该Parks-McClellan算法最小化在阻带之内滤波器(102)的频率响应(531、532)与预定衰减的近似误差函数的最大值；以及

-所述近似误差函数利用与滤波器(102)的频率响应(531、532)的允许偏差的倒数成比例的值来加权。

4.如权利要求3所述的方法，其中在一个或多个“不关注”间隔之内，Parks-McClellan算法忽略近似误差函数。

5.如权利要求4所述的方法，其中一个或多个“不关注”间隔包括与输入音频信号(110)的频谱低于预定输入能量阈值的频率相关联的一个或多个第一“不关注”间隔。

6.如权利要求5所述的方法，其中一个或多个第一“不关注”间隔相对于从输入采样率fs_in导出的频率是对称的。

7.如权利要求6所述的方法，其中一个或多个第一“不关注”间隔相对于输入采样率fs_in和/或其倍数是对称的。

8.如权利要求1所述的方法，其中所述在阻带之内选择滤波器(102)的频率响应(531、532)的允许偏差的步骤包括：

-基于第一感知频率响应的图像和/或镜像选择允许偏差。

9.如权利要求8所述的方法，其中

-第一感知频率响应覆盖从0kHz到输出采样率fs_out的一半的频率间隔或该频率间隔的一部分；

-第一感知频率响应的基带镜像覆盖从0kHz到输出采样率fs_out的负的一半的频率间隔或该频率间隔的一部分；以及

-第一感知频率响应的图像和/或镜像对应于偏移了输出采样率fs_out和/或其倍数的、第一感知频率响应和/或第一感知频率响应的基带镜像。

10.如权利要求8到9中的任何一个所述的方法，其中在给定频率间隔之内，频率响应(531、532)的允许偏差对应于所述第一感知频率响应在该给定频率间隔之内的图像和/或镜像。

11.如权利要求8到9中的任何一个所述的方法，其中该图像和/或镜像相对于从输出采样率fs_out导出的频率是对称的。

12.如权利要求11所述的方法，其中该图像和/或镜像相对于输出采样率fs_out和/或其倍数是对称的。

13.如权利要求1到9中的任何一个所述的方法，其中该感知频率响应与包括缩放的相对掩蔽阈值曲线(1100)的第二感知频率响应相关联，所述缩放的相对掩蔽阈值曲线指示被相邻频率的掩蔽。

14.如权利要求13所述的方法，其中

-所述缩放的相对掩蔽阈值曲线(1100)在被掩蔽频率处具有最大值；以及

-所述被掩蔽频率对应于(n*fs_in/2+m*fs_out/2)，其中n＝-N，...，N并且m＝-M，...，M。

15.如权利要求14所述的方法，其中所述被掩蔽频率满足自掩蔽条件，所述自掩蔽条件为

-所述被掩蔽频率对应于偏移了fs_in或其倍数的、频率范围[-fs_in/2，fs_in/2]中的输入音频信号(110)的基带掩蔽频率；以及

-被掩蔽频率在正的和/或负的基带掩蔽频率处混叠到输出音频信号(113)。

16.如权利要求15所述的方法，其中第二感知频率响应包括用于满足自掩蔽条件的每一个被掩蔽频率的缩放的相对掩蔽阈值曲线(1100)。

17.如权利要求13所述的方法，其中所述感知频率响应对应于第一感知频率响应和第二感知频率响应的组合。

18.如权利要求17所述的方法，其中所述感知频率响应对应于第一感知频率响应和第二感知频率响应的最大值。

19.如权利要求1到7中的任何一个所述的方法，其中一个或多个“不关注”间隔包括与感知频率响应超过预定感知阈值的频率相关联的一个或多个第二“不关注”间隔。

20.如权利要求8到9中的任何一个所述的方法，其中一个或多个“不关注”间隔包括与感知频率响应超过预定感知阈值的频率相关联的一个或多个第二“不关注”间隔。

21.如权利要求20所述的方法，其中一个或多个第二“不关注”间隔与第一感知频率响应的图像和/或镜像超过所述预定感知阈值的频率对应。

22.如权利要求1至9中的任何一个所述的方法，还包括：

基于输入采样率fs_in和输出采样率fs_out中较低的一个选择滤波器(102)的频率响应(531、532)的通带边缘和/或阻带边缘。

23.如权利要求1至9中的任何一个所述的方法，还包括：

-基于输入音频信号(110)的带宽选择滤波器(102)的频率响应(531、532)的通带边缘和/或阻带边缘。

24.如权利要求1至9中的任何一个所述的方法，还包括：

-在阻带之内限制滤波器(102)的频率响应(531、532)的允许偏差，以避免在阻带之内输入音频信号的放大。

25.一种根据权利要求1到24中的任何一个所述的方法设计的滤波器(102)。

26.一种被配置为减少以输出采样率fs_out的输出音频信号(113)的成像和/或混叠的滤波器(102)；其中

-所述输出音频信号(113)是以输入采样率fs_in的输入音频信号(110)的重采样的版本；

-输出采样率fs_out和输入采样率fs_in的比率是有理数N/M；

-该滤波器(102)以等于输入采样率fs_in的N倍的上采样的采样率操作；

-该滤波器(102)包括通带和阻带；

-在阻带之内滤波器(102)的频率响应与指示听觉谱灵敏度的感知频率响应相关联；

-在阻带之内滤波器(102)的频率响应(531、532)是通过将所述阻带分割成多个频率间隔而选择的，所述多个频率间隔包括一个或多个“不关注”间隔以及一个或多个“关注”间隔；

-所述频率响应在所述一个或多个“不关注”间隔之内采用任意或未定义的值，并且在所述一个或多个“不关注”间隔之内是无约束的或未定义的；

-在所述一个或多个“关注”间隔中，所述频率响应(531、532)由所述绝对听力阈值曲线(505)导出。

27.如权利要求26所述的滤波器(102)，其中在阻带之内滤波器(102)的频率响应与下列项相关联：

-包括缩放的相对掩蔽阈值曲线(1100)的第二感知频率响应，该缩放的相对掩蔽阈值曲线指示被相邻频率的掩蔽。

28.如权利要求27所述的滤波器(102)，其中使用最大绝对差准则或最小均方准则将该滤波器(102)的频率响应适合于感知频率响应。

29.如权利要求28所述的滤波器(102)，其中滤波器(102)的频率响应的大小不超过与在选择的频率间隔之内的感知频率响应相关联的衰减。

30.一种用于将以输入采样率fs_in的输入音频信号(110)重采样为以输出采样率fs_out的输出音频信号(113)的方法；其中输出采样率fs_out和输入采样率fs_in的比率是有理数N/M；所述方法包括：

-提供根据权利要求25到29中的任何一个所述的滤波器(102)的系数集合；

-从该系数集合中选择系数的第一子集，其中第一子集包括该集合的第一系数和在第一系数之后N的倍数的该集合的系数；以及

-基于系数的第一子集和输入音频信号(110)的第一多个样本确定输出音频信号(113)的第一样本。

31.如权利要求30所述的方法，还包括：

-基于第一系数和M选择该集合的第二系数；

-从系数集合中选择系数的第二子集；其中第二子集包括第二系数和在第二系数之后N的倍数的该集合的系数；以及

-基于系数的第二子集和输入音频信号(110)的第二多个样本，确定紧接在第一样本之后的输出音频信号(113)的第二样本。

32.一种被配置为由以输入采样率fs_in的输入音频信号(110)生成以输出采样率fs_out的输出音频信号(113)的重采样器(100)；其中输出采样率fs_out和输入采样率fs_in的比率是有理数N/M；该重采样器(100)包括：

-根据权利要求25到29中的任何一个所述的滤波器(102)；其中该滤波器(102)包括系数集合；

-系数选择单元，其被配置为从系数集合中选择系数的子集；和

-滤波单元，被配置为使用系数的子集由输入音频信号(110)的多个样本生成输出音频信号(113)的样本。

33.一种用于设计滤波器(102)的设备，所述滤波器被配置为减少以输出采样率fs_out的输出音频信号(113)的成像和/或混叠；其中该输出音频信号(113)是以输入采样率fs_in的输入音频信号(110)的重采样的版本；

其中输出采样率fs_out和输入采样率fs_in的比率是有理数N/M；

所述设备包括：

34.一种用于将以输入采样率fs_in的输入音频信号(110)重采样为以输出采样率fs_out的输出音频信号(113)的设备；其中输出采样率fs_out和输入采样率fs_in的比率是有理数N/M；所述设备包括：