CN116964964A

CN116964964A - 音频信号处理系统、扬声器和电子设备

Info

Publication number: CN116964964A
Application number: CN202080108402.7A
Authority: CN
Inventors: J·B·尼尔森
Original assignee: Gn Listening Co
Current assignee: Gn Listening Co
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2023-10-27
Also published as: EP4264855A1; US20240048904A1; WO2022126424A1

Abstract

本发明公开了一种音频信号处理系统、扬声器和电子设备。音频信号处理系统包括：限幅阈值估计器，接收输入音频信号并输出至少一个限幅阈值；音频处理单元，接收输入音频信号，处理输入音频信号以基于限幅阈值控制添加到输入音频信号的非线性失真，并将输出音频信号输出到扬声器驱动器，其中，限幅阈值估计器包括：提取单元，从输入音频信号中提取特征集；和回归或分类单元，接收特征集，并通过使用回归或分类处理将特征集转换为至少一个限幅阈值。

Description

音频信号处理系统、扬声器和电子设备

技术领域

本发明涉及音频信号处理技术领域，并且更具体地，涉及音频信号处理系统、扬声器和电子设备。

背景技术

提高音频设备的音质常常是使用音频算法(例如，均衡器、动态范围压缩器和限制器)补偿设备中扬声器(包括放大器)的非理想能力。通常，期望通过音频算法来增加设备的响度，因为通过使用能够提供更高输出电压的更大的扬声器和/或放大器来做到这一点是不切实际的。

当增强音频信号时，幅值不会超过满量程值。对于在数字域中进行信号处理，满量程值是数字满量程值，而对于在模拟域中进行信号处理，满量程值在此场景下是放大器能够处理的最大输入电压。将幅值限制到满量程限值的一种方法是应用限幅。对于许多音频信号，这将导致听觉失真和音频质量下降。一种更常见的方法是使用峰值限制器，它使用动态增益调节来将信号保持在满量程限值内。对于许多信号，这种方法会得到比限幅方法小的听觉失真，但与限幅相比，也会降低响度，并且可能引入称为抽气效应的不期望的听觉信号调制。

在音乐制作领域，尤其是音乐母带制作领域，最大化响度的常用方法是结合使用峰值限制和限幅。对于许多音乐信号，可以对信号的某些部分应用限幅，同时将听觉失真量保持在合理的限值内。这种方法不能直接用于音频增强领域，因为它高度依赖于内容，并且需要了解从感知的角度来看何时可以接受应用限幅。

因此，本领域需要提出一种新的音频信号处理方案，以解决现有技术中存在的至少一个问题。

发明内容

本发明的一个目的是提供一种新的用于音频信号处理的技术方案。

根据本发明的第一方面，提供了一种音频信号处理系统，包括：限幅阈值估计器，接收输入音频信号，并输出至少一个限幅阈值；和音频处理单元，接收输入音频信号，处理输入音频信号以基于限幅阈值控制添加到输入音频信号的非线性失真，并将输出音频信号输出到扬声器驱动器，其中，限幅阈值估计器包括：提取单元，从输入音频信号中提取特征集；和回归或分类单元，接收特征集，并通过使用回归或分类处理将特征集转换为至少一个限幅阈值。

根据本发明的第二方面，提供了一种扬声器，包括：扬声器驱动器；和根据本公开的实施例的音频信号处理系统，其中，音频信号处理系统将输出音频信号输出到扬声器驱动器。

根据本发明的第三方面，提供了一种包括根据本公开实施例的扬声器的电子设备。

根据本发明的实施例，本发明可以提高音频处理系统的性能。

从以下参照附图对根据本发明的示例性实施例的详细描述，本发明的进一步特征及其优点将变得明显。

附图说明

包含在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且与对其的描述一起用于解释本发明的原理。

图1是示出根据本公开实施例的包括音频信号处理系统的扬声器的示意图。

图2是根据本公开实施例的限幅阈值估计器的示意图。

图3是根据本公开另一实施例的限幅阈值估计器的示意图。

图4是示出根据本公开另一实施例的包括音频信号处理系统的扬声器的示意图。

图5是示出根据本公开另一实施例的包括音频信号处理系统的扬声器的示意图。

图6是示出根据本公开另一实施例的包括音频信号处理系统的扬声器的示意图。

图7是示出根据本公开另一实施例的包括音频信号处理系统的扬声器的示意图。

图8是示出根据本公开另一实施例的包括音频信号处理系统的扬声器的示意图。

图9是示出根据本公开另一实施例的包括音频信号处理系统的扬声器的示意图。

图10是示出根据本公开实施例的包括扬声器的电子设备的示意图。

具体实施方式

现在将参考附图详细描述本发明的各种示例性实施例。需要说明的是，除非另有特别说明，否则这些实施例中所描述的组件和步骤的相对排列、数值表达和数值并不限制本发明的范围。

以下对至少一个示例性实施例的描述在本质上仅是说明性的并且决不旨在限制本发明、其应用或用途。

相关领域的普通技术人员已知的技术、方法和设备可能不会详细讨论，但在适当的时候旨在成为说明书的一部分。

在此处说明和讨论的所有示例中，任何特定值都应解释为仅是说明性的而非限制性的。因此，示例性实施例的其他示例可以具有不同的值。

注意，相似的附图标记和字母指代以下附图中的相似项目，因此一旦在一幅图中定义了项目，则可能不需要对后续附图进一步讨论。

如图1所示，扬声器10包括音频信号处理系统11和扬声器驱动器12。音频信号处理系统11将输出音频信号输出到扬声器驱动器12进行播放。在此，扬声器驱动器12用于解释扬声器的零件，并且可以包括其他部件，例如放大器、驱动电路、膜等。

音频信号处理系统11包括限幅阈值估计器20和音频信号处理单元30。

限幅阈值估计器20接收输入音频信号，并输出至少一个限幅阈值。例如，限幅阈值估计器20可以输出用于音频信号的所有频率的一个限幅阈值，或者它可以输出多个限幅阈值，每个限幅阈值用于输入音频信号的特定频带。

音频处理单元30接收输入音频信号，并处理输入音频信号以基于限幅阈值控制添加到输入音频信号的非线性失真。音频处理单元30处理输入音频信号，以基于限幅阈值控制输入音频信号的峰值和限幅水平。然后，音频处理单元30将输出音频信号输出到扬声器驱动器12进行播放。

如图1所示，限幅阈值估计器20包括提取单元21以及回归或分类单元。提取单元21从输入音频信号中提取特征集。例如，特征集可以包括以下特征中的至少一个：输入音频信号的频带集中的能量分布、输入音频信号的波峰因数、输入音频信号的频谱平坦度、输入音频信号的频谱衰减、输入音频信号的梅尔倒谱系数、输入音频信号的过零率以及输入音频信号的信号值分布统计。回归或分类单元22接收特征集，并通过使用回归或分类处理将特征集转换成至少一个限幅阈值。

在本公开中，限幅阈值估计器使用估计器算法(回归或分类处理)来执行音频信号的分析，以估计可以对信号应用多少限幅，同时将听觉失真保持在可接受水平以下。限幅阈值估计器20提取输入音频信号的特征，并基于输入信号的特征输出限幅阈值。估计器算法的输出是限幅阈值信号，其表明可以通过限幅、限制等方式减少音频信号中的多少峰值。因此，限幅阈值可以取决于输入音频信号的内容。包括这种具有限幅阈值估计器的音频信号处理系统的扬声器可以在减少听者的听觉失真和抽气感受下产生对音频信号的限幅/限制，同时增加响度。

回归或分类处理可以包括使用人工神经网络的处理、使用决策树的处理和逻辑回归处理中的至少一种。当产生限幅阈值时，处理可以通过使用其中的特征来考虑输入音频信号的内容。

回归或分类单元22可以预先通过使用短音频块的训练集来训练。短音频块已经以各种限幅阈值限幅，并且已经标注可听程度。例如，听者可以通过说明每个音频块的限幅的可听度来标注短音频块。也就是说，限幅阈值是可以对信号应用多少限幅，同时将听觉失真保持在可接受水平以下的估计。

替换地，可以在扬声器的使用期间更新(训练)回归或分类单元22。例如，可以使用一个或多个传感器来捕获当以所记录的限幅阈值播放音频信号时听者的反应，并且处理单元可以处理从传感器获得的数据并输出表明听者的可能听觉感受的指示。然后，所记录的限幅阈值和对应的指示可以被用以更新回归或分类单元。传感器可以包括以下部件中的至少一个：捕获听者的反应(例如，面部表情)的摄像头、捕获听者的反应声音的麦克风以及记录听者对扬声器所在的电子设备的音量键的操作的日志记录。这些可以随着用户使用电子设备而连续改善音频信号处理系统。所记录的限幅阈值及其对应的指示可以经由互联网发送给制造实体，并可以用以训练其他音频信号处理系统(后来的扬声器中的音频信号处理系统)。

限幅阈值估计器20还可以接收更新配置数据，以更新其回归或分类单元22。因此，限幅阈值估计器20是可配置和可更新的，以连续改改善听者的收听体验。

例如，限幅阈值估计器20输出多个限幅阈值。每个限幅阈值是当应用在输入音频信号的特定频带中时限幅的可听度的估计。限幅阈值可以用作算法的控制输入，该算法将输入信号划分成多个频带，对每个频带应用增强，并根据所提供的限幅阈值使用限幅来降低每个频带中的峰值幅值。限幅阈值也可以用作多频带动态范围压缩器的控制输入，多频带动态范围压缩器使用限幅阈值以允许限幅与应用于每个频带的压缩和增益相结合。

可以使用单独的回归或分类单元22来计算每个限幅阈值，回归或分类单元22可以以与本公开中描述的类似的方式进行训练。还可以使用更简单的方式(例如，每个频带的乘法因子)根据宽带限幅阈值估计限幅阈值。

图2是根据本公开实施例的限幅阈值估计器的示意图。在图2中，能量分布包括频带集的归一化功率值。提取单元21包括滤波器组211和归一化器212。滤波器组211将输入音频信号划分成频带集。归一化器212计算该频带集的功率值，并对所计算的功率值进行归一化，使得归一化功率值之和等于1。回归或分类处理单元22接收归一化功率值，并将归一化功率值转换为至少一个限幅阈值。

图3是根据本公开另一实施例的限幅阈值估计器的示意图。在图3中，限幅阈值估计器20依赖于输入音频信号的频率上的能量分布。提取单元21包括滤波器组211、归一化器212和最小功率选择器213。滤波器组211将输入音频信号划分成频带集。滤波器组211可以具有对数间隔滤波器(logarithmic spaced filter)。归一化器212计算该频带集的功率值，并对所计算的功率值进行归一化，使得归一化功率值之和等于1。最小功率选择器213接收归一化功率值，并输出第一最小归一化功率值和第二最小归一化功率值，其中，第一最小归一化功率值对于频带集的所有频带都是最小的，第二最小归一化功率值对于频带集中的较高频带集是最小的。较高频带集可以是频率高于输入音频信号的至少一个频带的频带。回归或分类处理单元22接收第一最小归一化功率值和第二最小归一化功率值，并将它们转换成至少一个限幅阈值。

通常，限幅在音频信号中以频率分量的谐波和互调失真的形式引入了失真。这些失真分量的可听度取决于它们如何被音频信号中已经存在的其他频率分量掩蔽(mask)。因此，对音频信号应用限幅的可听度与信号中的能量在频率上如何分布高度相关。一般而言，如果信号中仅存在少量音调分量，则限幅的可听度较高，而如果信号更像噪声，则限幅的可听度较低。本发明的发明人发现这可以用于限幅估计。

如果输入音频信号具有音调特性(character)，则所有频带上的最小功率将为低(接近于零)，如果音频信号是宽带噪声，则所有频带上的最小功率将相对高。此外，如果输入音频信号类似于高频噪声，则较高频带的最小频带功率将相对高，在这种情况下，可以应用高限幅量而不会可听。

这里，两个最小功率值(针对所有频带的第一最小归一化功率值和针对覆盖输入音频信号的较高频率的频带集的第二最小归一化功率值)可以用作估计限幅阈值的特征。该限幅阈值可以原样使用，或者与其他特征结合以提高限幅阈值估计器20的质量。

图4是示出根据本公开另一实施例的包括音频信号处理系统的扬声器的示意图。限幅阈值估计器20可以是如上所述的，因此这里和之后省略对其的重复描述。

在图4中，音频处理单元30包括增强器(booster)301、限幅器(clipper)302和限制器(limiter)303。增强器301将输入音频信号增强一增益。限幅器302接收限幅阈值，并基于限幅阈值对增强后的音频信号进行限幅。限制器303对限幅后的音频信号进行限制。

在图4中，增强器301的增益可以是固定增益。限幅阈值估计器20控制限幅器302的动态限幅水平，使得超过满量程的峰值被减少限幅阈值(而不将峰值减少到满量程以下)。作为示例，对于3dBFS的信号峰值和2dB的限幅阈值，信号将被限幅在3dBFS-2dBFS＝1dBFS。如果信号峰值已经是1dB，则信号将被限幅为0dBFS，以免峰值进一步降低到超过满量程水平。通过在限制器303之前应用限幅，限制器303需要较少的增益降低，并且因此可以实现更高的信号水平和响度。此外，可以减少来自限制器303的增益调节的抽气效应伪像。限幅阈值是根据音频信号内容而变化的实时信号。

如图5所示，音频处理单元30包括动态增强器304和限制器305。动态增强器304接收输入音频信号，并对输入音频信号进行增强。限制器305接收限幅阈值，并基于限幅阈值对增强后的输入音频信号进行限制。

动态增强器304可以是压缩器或多频带压缩器。限幅阈值估计器20估计的限幅阈值控制限制器305中的最大峰值水平，使得限制器305的输出中允许直至限幅阈值的峰值。

在图5中，限幅器被省略，因为限制器305已经基于限幅阈值调节了音频信号。否则，可以在限值器305之后使用具有0dBFs的固定限幅水平的限幅器。

如图6所示，音频处理单元30包括均衡器306、多频带压缩器307和限制器308。均衡器306接收输入音频信号，并对输入音频信号进行均衡。多频带压缩器307接收限幅阈值，并基于限幅阈值对均衡后的音频信号进行压缩。多频带压缩器307接收的限幅阈值可以是由限幅阈值估计器20产生的全部限幅阈值或部分限幅阈值。类似地，限制器308接收的限幅阈值也可以是限幅阈值估计器20产生的全部限幅阈值或部分限幅阈值。

这里，均衡器306用于补偿设备中的扬声器的非理想频率响应，多频带压缩器307用于在频带集中应用动态增益和限幅以增加低音、高音和整体响度。每个频带的专用限幅阈值由限幅阈值估计器20提供，以控制在多频带压缩器中在每个频带中允许多少限幅。宽带限幅阈值被提供给限制器308。如上文所解释的，限幅器可以放置在限制器308之后。

在图7中，音频信号处理系统11还包括均衡器40。均衡器40接收输入音频信号，并对输入音频信号进行均衡。

在图7中，音频处理单元30包括动态增强器309和限制器310。动态增强器309接收均衡后的输入音频信号，并对均衡后的输入音频信号进行增强。限制器310接收限幅阈值，并基于限幅阈值对增强后的音频信号进行限制。音频处理单元30还可以包括限幅器311，其对限制后的音频信号进行限幅。然而，由于限制器310已经使用由限幅阈值估计器20产生的限幅阈值来限制音频信号，所以可以省略限幅器311。

在图7中，限幅阈值估计器20还包括换能器滤波器23。换能器滤波器23接收均衡后的输入音频信号，并对均衡后的输入音频信号进行滤波，以匹配扬声器驱动器的线性幅值响应。提取单元21从滤波后的音频信号中提取特征集。

这里，到限幅阈值估计器20的输入音频信号由换能器滤波器23滤波，以调谐成匹配扬声器驱动器12的线性幅值响应。通过考虑扬声器驱动器的幅值响应，可以获得更好地匹配扬声器10发出的音频的限幅阈值，因为每个频率根据它如何被扬声器10再现而被加权。因此，限幅阈值估计器20不考虑无法再现的频率(例如，远低于扬声器的谐振频率的频率)。在图7中，补偿扬声器10的非理想频率响应的均衡器40的输出用作换能器滤波器23的输入。因此，补偿扬声器幅值响应的任何线性尝试都在限幅阈值估计器20的输入中被捕获。理想情况下，音频信号的动态变化(通过单频带或多频带压缩)也将出现在限幅阈值估计器输入中。音频信号的动态变化会影响估计的限幅阈值的质量。相反，动态算法的平均幅值响应可以是换能器滤波器23的一部分。这里，所使用的音频算法(线性均衡器和动态效果)结合扬声器驱动器12可以在扬声器驱动器12的带宽内具有接近平坦的频率响应。

与图7类似，在图8中，音频信号处理系统11包括均衡器40。均衡器40接收输入音频信号，并对输入音频信号进行均衡。在图8中，限幅阈值估计器20包括换能器滤波器23。换能器滤波器23接收均衡后的输入音频信号，并对均衡后的输入音频信号进行滤波以匹配扬声器驱动器的线性幅值响应。提取单元21从滤波后的音频信号中提取特征集。音频处理单元30包括动态增强器309，其接收均衡后的输入音频信号并增强均衡后的输入音频信号。

在图8中，音频处理单元30包括位移限制器312。位移限制器312通过限制增强后的音频信号的低频分量来限制扬声器驱动器的膜的位移。

这里，扬声器膜位移限制器312可以用于通过限制音频信号的低频内容来限制扬声器膜的位移。这可以使用扬声器模型来完成，该模型估计由于应用音频信号而引起的膜的位移。这可以在使用放大器时保护扬声器驱动器，放大器会提供原本损害扬声器膜的高压输出。由于大多数扬声器在其膜移动到接近限值时具有强的非线性响应，因此扬声器将引入非线性失真。因此，常常需要将膜位移限值设置为低于安全限值以获得可接受的声音质量。与应用限幅时一样，扬声器引起的失真的可听度非常依赖于内容。通过使用限幅阈值估计器20来控制膜位移限值，可以让扬声器在其非线性模式下操作，因此对于扬声器引起的非线性失真根据感知评估为可接受的音频内容获得较高的响度。

本公开实施例使用的限幅可以是硬限幅或不同类型的软限幅。理想地，可以使用在音频处理中使用的限幅类型来创建用以训练限幅阈值估计器20中的回归或分类单元22的标记的音频块。实践中，可以将简单的乘法因子应用于限幅阈值，以补偿不同的限幅类型。

限幅阈值估计器20的使用不限于控制峰值和限幅水平。限幅阈值估计器20还可以用于控制影响添加到音频信号的非线性失真的量的其他参数。例如，它可以是限制器中的启动时间和释放时间。

在图9中，输入音频信号被直接输入到换能器滤波器23。换能器滤波器23也可以简化为对应于扬声器驱动器12的带宽的低通或带通滤波器。输入音频信号将是未处理的音频信号。图9中的其他部件可以与上述相同或相似，因此不再赘述。

图10是示出包括根据本公开实施例的扬声器的电子设备的示意图。

如图10所示，电子设备50包括如上所述的扬声器52。电子设备50可以是智能音箱、智能电视、便携式投影仪等。

尽管已经结合示例对本发明的一些具体实施例进行了详细说明，但是本领域的技术人员应该理解，上述示例仅是示例性的而并不限制本发明的范围。

Claims

1.一种音频信号处理系统，包括：

限幅阈值估计器，接收输入音频信号并输出至少一个限幅阈值；和

音频处理单元，接收所述输入音频信号，处理所述输入音频信号以基于所述限幅阈值控制添加到所述输入音频信号的非线性失真，并将输出音频信号输出到扬声器驱动器，

其中，所述限幅阈值估计器包括：

提取单元，从所述输入音频信号中提取特征集；和

回归或分类单元，接收所述特征集，并通过使用回归或分类处理将所述特征集转换为所述至少一个限幅阈值。

2.根据权利要求1所述的音频信号处理系统，其中，所述回归或分类处理包括使用人工神经网络的处理、使用决策树的处理和逻辑回归处理中的至少一种。

3.根据权利要求1或2所述的音频信号处理系统，其中，所述回归或分类单元是通过使用已经以不同限幅阈值限幅并且已经标注可听程度的短音频块的训练集训练的。

4.根据权利要求1或2所述的音频信号处理系统，其中，所述回归或分类单元输出多个限幅阈值，每个限幅阈值用于所述输入音频信号的特定频带。

5.根据权利要求1或2所述的音频信号处理系统，其中，所述特征集包括以下特征中的至少一个：

所述输入音频信号的频带集中的能量分布，

所述输入音频信号的波峰因数，

所述输入音频信号的频谱平坦度，

所述输入音频信号的频谱衰减，

所述输入音频信号的梅尔频率倒谱系数，

所述输入音频信号的过零率，以及

所述输入音频信号的信号值分布统计。

6.根据权利要求5所述的音频信号处理系统，其中，所述能量分布包括针对所述频带集的归一化功率值，并且所述提取单元包括：

滤波器组，将所述输入音频信号划分成所述频带集；和

归一化器，计算针对所述频带集的功率值，并对所计算的功率值进行归一化，使得归一化功率值之和等于1，

其中，所述回归或分类处理单元接收所述归一化功率值，并将所述归一化功率值转换为所述至少一个限幅阈值。

7.根据权利要求1所述的音频信号处理系统，其中，所述提取单元包括：

滤波器组，将所述输入音频信号划分成所述频带集；

归一化器，计算针对所述频带集的功率值，并对所计算的功率值进行归一化，使得归一化功率值之和等于1；和

最小功率选择器，接收所述归一化功率值，并输出第一最小归一化功率值和第二最小归一化功率值，其中，所述第一最小归一化功率值对于所述频带集的所有频带是最小的，并且所述第二最小归一化功率值对于所述频带集中的较高频带集是最小的，

其中，所述回归或分类处理单元接收所述第一最小归一化功率值和所述第二最小归一化功率值，并将它们转换为所述至少一个限幅阈值。

8.根据权利要求1所述的音频信号处理系统，其中，所述音频处理单元处理所述输入音频信号，以基于所述限幅阈值控制所述输入音频信号的峰值和限幅水平。

9.根据权利要求1所述的音频信号处理系统，其中，所述音频处理单元包括：

增强器，将所述输入音频信号增强一增益；

限幅器，接收所述限幅阈值，并基于所述限幅阈值对增强后的音频信号进行限幅；和

限制器，对限幅后的音频信号进行限制。

10.根据权利要求1所述的音频信号处理系统，其中，所述音频处理单元包括：

动态增强器，接收所述输入音频信号，并对所述输入音频信号进行增强；和

限制器，接收所述限幅阈值，并基于所述限幅阈值对增强后的输入音频信号进行限制。

11.根据权利要求1所述的音频信号处理系统，其中，所述音频处理单元包括：

均衡器，接收所述输入音频信号，并对所述输入音频信号进行均衡；

多频带压缩器，接收所述限幅阈值，并基于所述限幅阈值对均衡后的音频信号进行压缩；和

限制器，接收所述限幅阈值，并基于所述限幅阈值对压缩后的音频信号进行限制。

12.根据权利要求1所述的音频信号处理系统，还包括：均衡器，接收所述输入音频信号，并对所述输入音频信号进行均衡，

其中，所述音频处理单元包括：

动态增强器，接收均衡后的输入音频信号，并对均衡后的输入音频信号进行增强；和

限制器，接收所述限幅阈值，并基于所述限幅阈值对增强后的音频信号进行限制，

其中，所述限幅阈值估计器包括换能器滤波器，所述换能器滤波器接收均衡后的输入音频信号，并对均衡后的输入音频信号进行滤波，以匹配所述扬声器驱动器的线性幅值响应，并且

其中，所述提取单元从滤波后的音频信号中提取所述特征集。

13.根据权利要求1所述的音频信号处理系统，还包括：均衡器，接收所述输入音频信号，并对所述输入音频信号进行均衡，

其中，所述音频处理单元包括：

位移限制器，通过限制增强后的音频信号的低频分量来限制所述扬声器驱动器的膜的位移，

14.根据权利要求1所述的音频信号处理系统，其中，所述限幅阈值估计器包括换能器滤波器，所述换能器滤波器接收所述输入音频信号，并对所述输入音频信号进行滤波，以匹配所述扬声器驱动器的线性幅值响应，并且

15.一种扬声器，包括：

扬声器驱动器；和

根据权利要求1所述的音频信号处理系统，其中，所述音频信号处理系统将所述输出音频信号输出到所述扬声器驱动器。

16.一种电子设备，包括根据权利要求15所述的扬声器。