CN114503197B

CN114503197B - 使用自适应平滑的对话增强

Info

Publication number: CN114503197B
Application number: CN202080069218.6A
Authority: CN
Inventors: 余雪梅
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-08-27
Filing date: 2020-08-26
Publication date: 2023-06-13
Anticipated expiration: 2040-08-26
Also published as: EP3803861A1; WO2021041568A1; EP3803861B1; JP7258228B2; JP2022540511A; US20220277766A1; CN114503197A

Abstract

一种增强音频信号中的对话可懂度的方法，其包括：确定音频内容包含语音内容的语音置信度分数；响应于所述语音置信度分数，确定所述音频内容包含音乐相关内容的音乐置信度分数；及应用所述音频信号的所选择的频带的用户所选择的增益，以获得对话增强音频信号。所述用户所选择的增益通过自适应平滑算法进行平滑，所述平滑算法中的过去帧的影响由平滑因子确定，所述平滑因子响应于所述音乐置信度分数而计算，且针对具有相对较高音乐置信度分数的内容具有相对较高的值，且针对具有相对较低音乐置信度分数的语音内容具有相对较低的值，以便增加过去帧对音乐相关内容的对话增强的影响。

Description

使用自适应平滑的对话增强

相关申请案的交叉引用

本申请案主张2020年1月21日申请的第62/963,711号美国临时专利申请案、2019年9月16日申请的第62/900,969号美国临时专利申请案及2019年8月27日申请的第PCT/CN2019/102775号国际专利申请案的优先权，所有这些申请案的全部内容均以引用的方式并入本文中。

技术领域

本发明涉及包含对话增强的音频处理。明确来说，本发明涉及通过平滑经放大的提取对话改进对话增强。

背景技术

对话增强是一种用于增强音频信号中的语音/对话以改进可懂度的算法。对话增强系统的一个实例在图1中展示。此处的对话增强系统包含用于检测语音的存在的语音检测器。语音检测器可为基于语音活动检测(VAD)或机器学习的语音分类器。来自语音检测器的输出(ON/OFF)乘以用户选择的增益，且接着输入到对话增强模块。为了避免一些不需要的伪像，增益在被输入到对话增强之前进行平滑。

期望进一步改进此类对话增强算法的性能。

发明内容

描述增强音频中的对话可懂度的方法、系统及方法的计算机程序产品。

本发明的第一方面涉及一种增强音频信号中的对话可懂度的方法，其包括：通过语音分类器确定音频内容包含语音内容的语音置信度分数；通过音乐分类器确定所述音频内容包含音乐相关内容的音乐置信度分数；响应于所述语音置信度分数，通过对话增强模块应用所述音频信号的所选择的频带的用户所选择的增益，以获得对话增强音频信号，其中所述用户所选择的增益通过自适应平滑算法进行平滑，所述平滑算法中的过去帧的影响由平滑因子确定，所述平滑因子响应于所述音乐置信度分数而进行选择，且针对具有相对较高音乐置信度分数的内容具有相对较高的值，且针对具有相对较低音乐置信度分数的语音内容具有相对较低的值，以便增加过去帧对音乐相关内容的对话增强的影响。

“音乐相关内容”简单地意在为由于音乐的存在而可预期针对其语音分类可能会更加困难的内容。通过增加过去帧的影响，对话增强对所述语音分类器中的“假阳性”变得不那么敏感。

所述平滑因子与所述自适应平滑中考虑的帧数有关。因此，针对较大的平滑因子，考虑更多的帧，因此使对话增强的应用更加渐进(较慢)，且因此避免“假阳性”引起的波动性提升。针对较小的平滑因子，考虑更少的帧，因此允许对话增强的更快应用。平滑因子与平滑函数之间的关系可为直接的(例如，平滑因子定义要考虑的帧数)，或间接的(例如，平滑因子定义过去帧的相对权重的下降斜率)。

所述自适应平滑因子使基于内容调整平滑因子成为可能。针对其中存在音乐(高音乐置信度分数)的内容，可将所述平滑因子设置得相对较大(例如，约500ms或更大)，而针对不存在音乐(低音乐置信度分数)的内容，可将所述平滑因子设置得相对较小(例如，约100ms或更小)。

可基于额外参数进一步调整所述平滑因子。例如，低信噪比(SNR)可能导致更大的平滑因子，且所述语音分类器中的大延时可能导致更大的平滑因子。

根据第二方面，语音及音乐分类器接收音频信号，所述音频信号包含音频内容。所述语音分类器确定语音置信度，且所述音乐分类器确定音乐置信度。响应于所述语音及分类器的输出，自适应平滑算法计算音乐相关内容的对话平滑因子的较高值及纯语音内容的所述对话平滑因子的较低值。所述自适应平滑算法基于所述音频内容的SNR调整所述对话平滑因子。较低SNR对应于所述对话平滑因子的较大增加。瞬时检测器可用于实时测量语音分类器的延时，所述对话平滑因子应随所述延时的增加而线性增加。对话增强模块基于经调整的对话平滑因子增强所述音频内容，以产生经增强的音频。

附图说明

将参考附图更详细地描述本发明，所述附图展示本发明的当前优选实施例。

图1是说明常规对话增强系统的框图。

图2是说明根据本发明的实施例的实施动态平滑的实例对话增强系统的框图。

图3是根据本发明的实施例的对话增强系统的更详细框图。

图4是说明根据本发明的实施例的各种因子可如何影响平滑因子的流程图。

图5说明使用VAD或瞬时检测器测量语音分类器的延时。

图6是说明使用动态平滑的对话增强的实例过程的流程图。

图7是根据实施例的用于实施参考图1到6所描述的特征及过程的移动装置架构。

具体实施方式

常规对话增强算法(例如，如图1中所说明)通常具有两个主要缺点：

1.分类器的准确率不是100％。语音分类器存在一些典型的困难情况，例如，伴随音乐的语音/歌声及低SNR内容。在一些情况中，对话提取器将会把音频内容错误地识别为对话，而实际上所述音频内容不是对话。被错误地分类为对话的帧有时被称为“假阳性”。因此，当存在音乐且当SNR较低时，对话提升会出现波动。

2.语音检测器的延时取决于内容，且延时可能从低于100ms到高于500ms变化。结果，单词的初始发音(开头)可能会被遗漏，从而导致突然的对话提升。

为了克服这些缺点，有时会引入前瞻来减少语音分类器的假阳性及延时。例如，编码侧上2000ms延时可能是可接受的。然而，在移动重放侧，延时是非常敏感且关键的，且前瞻是不允许的。因此，在常规的语音分类器中，准确度及延时问题更加严重。

此外，可通过使用常规平滑算法消除或至少减轻上述伪像，如图1中所展示。然而，固定的平滑因子将无法满足所有用例。例如，如果由于准确性或延时问题(这在音乐内容上的语音中非常常见)而遗漏了单词的前300ms，那么将需要500ms的平滑因子才能使经提升的声音自然且舒适。然而，此类大的平滑因子不适用于正常的语音内容，其准确度较高，且延时通常只有100ms。

本说明书中所公开的技术涉及对话增强，其使对话不仅清晰而且舒适，且具有更少的伪像。图2展示根据本发明的实施例的实施动态平滑的实例对话增强系统200。如图2中所展示，本发明包含自适应平滑算法，其用于自动为不同内容及背景选择最合适的平滑因子，以减少对话增强的伪像。

以下是如何调整平滑因子的一些实例：

-利用历史及当前的音乐置信度分数

如果音乐在最后几帧或当前帧中占主导地位，那么平滑因子应趋向于较大，例如500ms或更大，以滤除任何假阳性。

-减少纯语音内容的平滑度

如果内容是纯语音，那么平滑因子可较小，例如，50ms到100ms，以使对话提升更明显。

-利用SNR

SNR可经测量以帮助指导平滑，对于低SNR内容，假阳性/阴性趋向于高，因此，平滑因子应更保守而较大，例如，500ms。

-通过实时测量延时动态改变平滑因子

VAD或瞬时检测器可用于实时测量语音分类器的延时，平滑因子应随延时的增加而线性增加。取决于内容，延时可小到100ms，或大到500ms。

本发明的更详细的实施例在图3中展示，其中系统20包含语音分类器21及音乐分类器22。语音分类器生成语音置信度分数，其指示音频信号的特定帧包含语音(对话)的可能性。类似地，音乐分类器生成音乐置信度分数，其指示音频信号的特定帧包含音乐的可能性。分类器可基于任何适当的技术，且可例如包括机器学习自动回归(AR)模型。来自分类器的直接输出通常是从-∞到∞的实值，其使用sigmoid函数(conf_score＝1/(1+e^ax+b))映射到一个介于0与1之间的值，其中x是直接输出，且a及b是常数。

语音置信度分数用于激活例如所属领域中已知的类型的对话增强模块23。在简单的情况下，对话增强模块是静态的，且经配置以通过用户所选择的增益提升音频信号的预选择频率。在更复杂的情况下，增强模块对对话组件进行动态估计，并提升此估计的对话组件。

原则上，语音置信度分数可直接用作激活信号，其乘以用户增益。然而，首先将置信度分数映射到二值ON/OFF可能是有利的。在图2中，此类映射由对话检测器24提供。用以实现此类映射的各种方法是可能的。例如，映射可为简单的阈值，例如0.5，使得大于0.5的置信度分数给出ON信号，且小于0.5的置信度分数给出OFF信号。替代地，可应用滞后模型，使得阈值取决于先前帧的二值而不同。例如，当先前值为ON时阈值＝0.4，且当先前值为OFF时阈值＝0.6。

置信度分数或二进制激活信号乘以用户增益，用户增益在被馈送到对话增强模块23之前被供应到自适应平滑模块25。与图1中的常规平滑模块非常相似，自适应平滑滤波器25在特定长度的平滑因子上应用平滑滤波器。然而，在模块25中，平滑因子的长度是自适应的，且基于例如语音置信度分数及音乐置信度分数。

系统进一步包括信噪比(SNR)检测器26，其检测音频信号中的SNR(逐帧)，并将其提供到自适应平滑模块25。

系统进一步包括不那么复杂但快速的语音检测器27，例如常规语音激活检测器(VAD)或瞬时检测器。来自语音检测器27的输出被提供到自适应平滑模块以能够确定语音分类器的延时。图4通过标绘语音置信度分数及来自VAD的输出展示语音分类器延时的实例。

自适应平滑模块可使用各种平滑函数来平滑应用于对话增强模块23的增益。一般来说，平滑因子与在确定当前帧的增益时考虑的过去帧的数目有关。在一个简单的实例中，平滑因子可界定包含在移动平均数中的过去帧的窗口，以确定当前帧的经平滑增益。

在另一实例中，滤波器是加权平均、单极滤波器方法如下：

Out(n)＝αOut(n-1)+(1-α)In(n),

其中Out(n)是当前帧的经平滑输出增益，Out(n-1)是先前帧的经平滑输出增益，In(n)是当前帧的原始输入增益，且α是介于0与1之间的经自适应调整的变量。很明显，过去帧的影响将以α为底呈指数下降。α的值越大，过去帧将衰减得越慢，且输出增益越平滑地变化。

例如，α与平滑因子之间的关系可如下：

α＝0.5每帧采样数/采样率*平滑因子)

取决于本文所讨论的情况，平滑因子可为例如50ms、300ms、500ms或甚至1s。

图5中的简单流程图提供如何自适应设置平滑因子的实例。在此简单的实例中，仅存在两个可能的平滑因子；小因子，50到100ms，及大因子长度，>500ms。

首先，在步骤S1中，使用音乐置信度分数确定音频信号是否与音乐相关。在简单的方法中，通过比较当前帧的音乐置信度分数与阈值来执行确定，从而生成二值信号ON/OFF。还可使用一个或若干个先前帧的二值应用滞后模型。如果确定为阳性，即发现帧与音乐相关，那么接着应用较大的平滑因子(此处>500ms)。

如果内容与音乐不相关，那么处理继续到步骤S2，其中比较来自检测器26的SNR与阈值(例如，0dB)。如果SNR低于阈值，指示信号相对于噪声来说较弱，那么接着再次应用较大(此处>500ms)的平滑因子。

进一步，在步骤S3中，比较语音分类器的延时与阈值(例如150ms)。如果延时不低于阈值，那么再次应用较大(此处>500ms)的平滑因子。

针对可能被认为是“纯语音”的所有其它内容，应用小的平滑因子(此处范围为50到100ms)。

图6是说明使用动态平滑的对话增强的实例过程400的进一步流程图。过程400可由包含一或多个处理器的对话增强系统执行。

对话增强系统的语音及音乐分类器接收(410)音频信号，音频信号包含音频内容。对话增强系统的语音分类器确定(420)语音置信度。音乐分类器确定(430)音乐置信度。

响应于语音及音乐分类器的输出，自适应平滑算法计算(440)音乐相关内容的对话平滑因子的较高值及纯语音内容的对话平滑因子的较低值。自适应平滑算法基于音频内容的经测量信噪比(SNR)调整(450)对话平滑因子。较低的SNR值对应于对话平滑因子的较大增加。

在一些实施方案中，系统基于延时调整对话平滑因子。基于延时的调整可包含通过瞬时检测器测量语音分类器的输出的延时量；及通过自适应平滑算法，根据延时量增加对话平滑因子。较高的延时对应于较高的增加量。增加量可线性对应于延时量。测量延时量及增加对话平滑因子可实时发生。音频内容的第一部分中的每一者包含给定数目的一或多个帧。对话平滑因子可被设置为用于减少假阳性的最优值。用于减少假阳性的最优值为500毫秒(ms)。对话平滑因子可被设置为用于提升对话的最优值。用于提升对话的最优值在50与100毫秒(ms)之间，包含50毫秒及100毫秒。

对话增强模块基于经调整的对话平滑因子增强(460)音频内容以生成经增强的音频。在增强期间，对话平滑因子的较高值减少增强中的假阳性，且对话平滑因子的较低值增加增强中的对话提升。接着，系统将经增强的音频内容提供(470)到下游装置，例如处理器、放大器、流式传输服务器或用于处理、重放、流式传输或存储的存储媒体。

图7是根据实施例的用于实施参考图1到4所描述的特征及过程的移动装置架构。架构800可在任何电子装置中实施，包含(但不限于)：台式计算机、消费者音频/视频(AV)装备、无线电广播装备、移动装置(例如，智能手机、平板计算机、膝上型计算机、可穿戴装置)。在所展示的实例实施例中，架构800用于智能电话，并包含处理器801、外围设备接口802、音频子系统803、扬声器804、麦克风805、传感器806(例如，加速度计、陀螺仪、气压计、磁强计、相机)、位置处理器807(例如，GNSS接收器)、无线通信子系统808(例如，Wi-Fi、蓝牙、蜂窝)及I/O子系统809，其包含触摸控制器810及其它输入控制器811、触摸表面812及其它输入/控制装置813。具有更多或更少组件的其它架构也可用于实施所公开的实施例。

存储器接口814耦合到处理器801、外围设备接口802及存储器815(例如快闪存储器、RAM、ROM)。存储器815存储计算机程序指令及数据，包含(但不限于)：操作系统指令816、通信指令817、GUI指令818、传感器处理指令819、电话指令820、电子消息传递指令821、网页浏览指令822、音频处理指令823、GNSS/导航指令824及应用程序/数据825。音频处理指令823包含用于执行参考图1到4所描述的音频处理的指令。

本文所描述的系统的方面可在用于处理数字或数字化音频文件的适当的基于计算机的声音处理网络环境中实施。自适应音频系统的部分可包含一或多个网络，其包括任意所期望的数目的个别机器，包含一或多个路由器(未展示)，其用于缓冲及路由在计算机之间传输的数据。此类网络可建立在各种不同的网络协议上，且可为因特网、广域网(WAN)、局域网(LAN)或其任何组合。

可通过控制系统的基于处理器的计算装置的执行的计算机程序来实施一或多个组件、块、过程或其它功能性组件。还应注意，本文所公开的各种功能可使用硬件、固件及/或作为数据及/或指令的任意数目的组合来描述，这些数据及/或指令鉴于其行为、寄存器传送、逻辑组件及/或其它特征体现在各种机器可读或计算机可读媒体中。其中可包含此类格式化数据及/或指令的计算机可读媒体包含(但不限于)各种形式的物理(非暂时性)非易失性存储媒体，例如光学、磁性或半导体存储媒体。

虽然已以实例的方式并鉴于特定实施例描述一或多个实施方案，但应理解，一或多个实施方案不限于所公开的实施例。相反，其旨在涵盖对于所属领域的技术人员来说显而易见的各种修改及类似布置。因此，所附权利要求的范围应被赋予最广泛的解释以便涵盖所有此类修改及类似布置。

列举的示范性实施例(EEE)的列表：

EEE1.一种增强音频中的对话可懂度的方法，其包括：

通过对话增强系统的语音及音乐分类器接收音频信号，所述音频信号包含音频内容；

通过所述语音分类器确定所述音频内容包含纯语音内容的置信度分数；

通过所述音乐分类器确定所述音频内容包含音乐相关内容的置信度分数；

响应于所述语音及音乐分类器的输出，通过自适应平滑算法计算所述音乐相关内容的对话平滑因子的较高值及所述纯语音内容的所述对话平滑因子的较低值；

基于所述音频内容的经测量信噪比(SNR)，通过所述自适应平滑算法调整所述对话平滑因子，其中较低SNR值对应于所述对话平滑因子的较大增加；及

通过对话增强器基于经调整的对话平滑因子增强所述音频内容以产生经增强的音频，其中所述对话平滑因子的较高值减少所述增强中的假阳性，且所述对话平滑因子的较低值增加所述增强中的对话提升，

其中所述确定、计算、调整及增强中的每一者由一或多个处理器执行。

EEE2.根据EEE1所述的方法，其包括基于延时调整所述对话平滑因子，所述基于延时的调整包含：

通过瞬时检测器测量所述语音分类器的所述输出的延时量；及

通过所述自适应平滑算法，根据所述延时量增加所述对话平滑因子，其中较高的延时对应于较高的增加量。

EEE3.根据EEE2所述的方法，其中所述增加量线性对应于延时量。

EEE4.根据EEE2或EEE3所述的方法，其中测量所述延时量及增加所述平滑因子实时发生。

EEE5.根据EEE1到4中任一EEE所述的方法，其中所述音乐相关内容中的每一者包含给定数目的一或多个帧。

EEE6.根据EEE1到5中任一EEE所述的方法，其中所述对话平滑因子被设置为用于减少假阳性的最优值。

EEE7.根据EEE6所述的方法，其中用于减少假阳性的所述最优值为500毫秒(ms)。

EEE8.根据EEE1到7中任一EEE所述的方法，其中所述对话平滑因子被设置为用于提升对话的最优值。

EEE9.根据EEE8所述的方法，其中用于提升对话的所述最优值在50与100毫秒(ms)之间，包含50毫秒及100毫秒。

EEE10.一种系统，其包括：

一或多个计算机处理器；及

非暂时性计算机可读媒体，其存储指令，所述指令当由所述一或多个处理器执行时，致使所述一或多个处理器执行根据EEE1到EEE9中任一EEE所述的操作。

EEE11.一种非暂时性计算机可读媒体，其存储指令，所述指令当由一或多个计算机处理器执行时，致使所述一或多个处理器执行根据EEE1到EEE9中任一EEE所述的操作。

Claims

1.一种增强音频信号中的对话可懂度的方法，其包括，针对所述音频信号的每一帧：

通过语音分类器确定所述帧包含语音内容的语音置信度分数；

通过音乐分类器确定所述帧包含音乐相关内容的音乐置信度分数；

响应于所述语音置信度分数，通过对话增强模块应用所述音频信号的所选择的频带的用户所选择的增益，以获得对话增强音频信号，所述方法的特征在于所述用户所选择的增益通过自适应平滑算法进行平滑，所述平滑算法中的过去帧的影响由平滑因子确定，

所述平滑因子响应于所述音乐置信度分数而进行选择，且针对具有相对较高音乐置信度分数的内容具有相对较高的值，且针对具有相对较低音乐置信度分数的语音内容具有相对较低的值，以便增加过去帧对音乐相关内容的对话增强的影响。

2.根据权利要求1所述的方法，其中当所述音乐置信度分数高于给定阈值时，选择第一较高平滑因子，且当所述音乐置信度分数低于所述给定阈值时，选择第二较低平滑因子。

3.根据权利要求1或2所述的方法，其中所述平滑因子表达为时间段，并涉及所述平滑算法的滤波窗口。

4.根据权利要求3所述的方法，其中所述第一较高平滑因子为500毫秒(ms)。

5.根据权利要求3所述的方法，其中所述第二较低平滑因子在50与100毫秒(ms)之间。

6.根据权利要求1或2所述的方法，其进一步包括：

测量所述音频信号中的信噪比SNR，及

基于所述经测量的SNR调整所述平滑因子，其中较低的SNR值对应于较大的平滑因子。

7.根据权利要求1或2所述的方法，其进一步包括：

测量所述语音分类器中的延时，及

基于所述经测量的延时调整所述平滑因子，其中较高的延时对应于较大的平滑因子。

8.根据权利要求7所述的方法，其中所述平滑因子的增加量线性对应于延时量。

9.根据权利要求7所述的方法，其中测量所述延时及调整所述平滑因子实时发生。

10.根据权利要求1或2所述的方法，其中选择所述平滑因子的所述相对较高值以减少假阳性。

11.根据权利要求1或2所述的方法，其中选择所述平滑因子的所述相对较低值以增强对话。

12.根据权利要求1或2所述的方法，其中所述自适应平滑算法是根据以下公式的加权平均值：

Out(n)＝αOut(n-1)+(1-α)In(n)，

其中Out(n)是当前帧的经平滑输出增益，Out(n-1)是先前帧的经平滑输出增益，In(n)是当前帧的原始输入增益，且α是经自适应调整的变量，其随所述平滑因子的增加而增加。

13.根据权利要求12所述的方法，其中α经界定为：

α＝0.5^{每帧采样数/(采样率*平滑因子)}。

14.一种系统，其包括：

一或多个计算机处理器；及

非暂时性计算机可读媒体，其存储指令，所述指令当由所述一或多个处理器执行时致使所述一或多个处理器执行根据权利要求1到13中任一权利要求所述的方法。

15.一种非暂时性计算机可读媒体，其存储指令，所述指令当由一或多个计算机处理器执行时致使所述一或多个处理器执行根据权利要求1到13中任一权利要求所述的方法。