CN116964665A

CN116964665A - 提高去混响的感知质量

Info

Publication number: CN116964665A
Application number: CN202280020432.1A
Authority: CN
Inventors: 马远星; 李凯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2021-03-11
Filing date: 2022-03-09
Publication date: 2023-10-27

Abstract

用于混响抑制的方法可以包括接收输入音频信号。该方法可以包括针对输入音频信号的至少一帧计算输入音频信号的初始混响抑制增益。该方法可以包括计算至少一个调整后的混响抑制增益，其中该至少一个调整后的混响抑制增益调整以下中的至少一项：1)基于在输入音频信号中检测到的混响强度的混响抑制衰减；2)基于在输入音频信号中检测到的房间共振量的应用于输入音频信号的不同频带的增益；或者3)基于输入音频信号的直达部分的输入音频信号的响度。该方法可以包括通过将至少一个调整后的混响抑制增益应用于输入音频信号来生成输出音频信号。

Description

提高去混响的感知质量

相关申请的交叉引用

本申请要求2021年3月11日提交的国际专利申请PCT/CN2021/080214、2021年4月7日提交的美国临时申请第63/171,620号、以及2021年5月20日提交的欧洲专利申请第21174907.2号的权益，其通过引用并入本文。

技术领域

本公开涉及用于去混响的系统、方法和介质。

背景技术

例如耳机、扬声器等的音频设备被广泛部署。人们经常收听可能包含混响的音频内容(例如，播客、广播节目、电视节目、音乐视频、用户生成的内容、短视频、视频会议、电话会议、小组讨论、采访等)。可以对这样的音频内容执行去混响。然而，去混响可能会产生不需要的感知效果，例如响度降低和感知质量的其他变化。

符号和命名法

在本公开中，包括在权利要求书中，术语“扬声器”、“扩音器”和“音频再现换能器”被同义地使用以表示由单个扬声器馈送驱动的任何发声换能器(或换能器组)。一套典型的耳机包括两个扬声器。扬声器可以被实现为包括多个换能器(例如，低音扬声器和高音扬声器)，这些换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中，一个或多个扬声器馈送可以在耦合到不同换能器的不同电路分支中经受不同的处理。

在本公开中，包括在权利要求中，“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或应用增益)的表述在广义上使用以表示直接对信号或数据执行操作，或者对信号或数据的经处理版本执行操作(例如，对在执行操作之前已经经受初步过滤或预处理的信号版本进行操作)。

在本公开中，包括在权利要求书中，表述“系统”在广义上使用以表示设备、系统或子系统。例如，实现解码器的子系统可以被称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入生成X个输出信号的系统，其中子系统生成M个输入并且其他X-M个输入从外部源接收)也可以被称为解码器系统。

在本公开中，包括在权利要求中，术语“处理器”在广义上使用以表示可编程或以其他方式可配置(例如，利用软件或固件)为对数据(例如，音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式配置为对音频或其他声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

在本公开中，包括在权利要求书中，术语“耦合”或“耦接”用于表示直接或间接连接。因此，如果第一设备耦合到第二设备，则该连接可以通过直接连接，或者通过经由其他设备和连接的间接连接。

在本公开中，包括在权利要求书中，术语“共振”指的是声音脉冲的特定频率比声音脉冲的其他频率需要更长的时间才消失的现象。具有较长持续时间的能量的频率可被称为“共振频率”。共振或哪些频率发生共振可能取决于房间特征，例如房间的大小、房间中的物体、房间墙壁或天花板使用的材料等等。例如，当特定音频频率的某些波长与房间的基本共振相关时，可能会发生房间共振。这些音频频率可能会高涨并产生更长的释放时间。这些声学效应可以由驻波产生，驻波可以在房间内的平行表面之间产生。

在本公开中，包括在权利要求书中，术语“混响”指的是在产生声音之后声音持续存在的现象。混响是由于声音在物体(例如位于产生声音的房间内的物体、墙壁、天花板等)上的反射而产生的。混响语音有“起始阶段(attack phase)”和“释放阶段(releasephase)”。如本文所使用的，“起始阶段”是指音频信号中的混响语音的在其中混响正在增加的部分。即，起始阶段对应于从混响开始到混响达到最大的时间点。如本文所使用的，“释放阶段”指的是音频信号中的混响语音的其中混响正在减少的部分。即，释放阶段对应于混响最大的时间点到混响结束的时间点。

发明内容

本公开的至少一些方面可以通过方法来实现。一些方法可以包括接收输入音频信号。输入音频信号可以包括多个帧。该方法可以包括针对多个帧中的至少一帧计算输入音频信号的初始混响抑制增益。该方法可以包括对于输入音频信号的该至少一帧，计算至少一个调整后的混响抑制增益。该至少一个调整后的混响抑制增益可基于初始混响抑制增益。该至少一个调整后的混响抑制增益可调整以下中的至少一项：1)基于在输入音频信号中检测到的混响强度的混响抑制衰减；2)基于在输入音频信号中检测到的房间共振量的应用于输入音频信号的不同频带的增益；或者3)基于初始混响抑制增益对输入音频信号的直达部分的影响的输入音频信号的响度。该方法可以包括通过将至少一个调整后的混响抑制增益应用于输入音频信号的至少一帧来生成输出音频信号。因此，多个帧中的至少一帧可包括至少两帧。

在一些示例中，至少一个调整后的混响抑制增益可调整混响抑制衰减。计算至少一个调整后的混响抑制增益可以包括对于输入音频信号的多个帧中的至少一帧计算混响强度。计算至少一个调整后的混响抑制增益还可以包括对于输入音频信号的多个帧中的至少一帧基于相应的混响强度来计算混响衰减时间常数。计算至少一个调整后的混响抑制增益还可包括基于对于输入音频信号的多个帧中的至少一帧的混响衰减时间常数来计算至少一个调整后的混响抑制增益。在一些示例中，对于输入音频信号的多个帧中的至少一帧的混响衰减时间常数可以基于确定输入音频信号是对应于混响语音的起始阶段还是混响语音的释放阶段。在一些示例中，可以对于输入音频信号的多个频带计算混响衰减时间常数。在一些示例中，混响衰减时间常数在多个频带上被平滑。因此，调整混响抑制增益的衰减。

在一些示例中，至少一个调整后的混响抑制增益可基于在输入音频信号中检测到的房间共振量来调整应用于输入音频信号的不同频带的增益。计算至少一个调整后的混响抑制增益可包括将输入音频信号划分为多个频带。计算至少一个调整后的混响抑制增益还可以包括对于多个频带中的每个频带，计算在该频带处的输入音频信号中存在的房间共振量。计算至少一个调整后的混响抑制增益还可包括基于在各频带处的输入音频信号中存在的房间共振量，计算对于该频带的至少一个调整后的混响抑制增益。在一些示例中，计算在频带处的输入音频信号中存在的房间共振量可以包括计算各频带的信号与混响能量比(SRR)。在一些示例中，对于多个频带中的一个频带，响应于确定该频带的SRR低于阈值，可以将该频带的房间共振量计算为大于0。在一些示例中，多个频带中的一个频带的房间谐振量可以基于应用于该频带处的SRR的激活函数来计算。在一些示例中，对于每个频带的至少一个调整后的混响抑制增益可以基于对于输入音频信号的多个帧中的至少一帧的以及在每个频带处的房间共振量的缩放值。在一些示例中，对于每个频带的至少一个调整后的混响抑制增益可以基于在输入音频信号的多个帧上平均的在每个频带处的平均房间共振量的缩放值。

在一些示例中，至少一个调整后的混响抑制增益基于初始混响抑制增益对输入音频信号的直达部分的影响来调整输入音频信号的响度。在一些示例中，计算至少一个调整后的混响抑制增益可以包括为输入音频信号的帧选择超过阈值的初始混响抑制增益。在一些示例中，计算至少一个调整后的混响抑制增益还可以包括基于所选择的初始混响抑制增益来对于输入音频信号的帧估计与输入音频信号的直达部分相关联的统计数据，其中至少一个调整后的混响抑制增益基于与输入音频信号的直达部分相关联的被估计统计数据。在一些示例中，方法还可以包括基于所选择的初始混响抑制增益来计算经平滑的初始混响抑制增益。在一些示例中，与输入音频信号的直达部分相关联的被估计统计数据可以包括应用于输入音频信号的直达部分的被估计增益。在一些示例中，应用于输入音频信号的直达部分的被估计增益可以基于经平滑的初始混响抑制增益。在一些示例中，计算经平滑的初始混响抑制增益可以包括对所选择的初始混响抑制增益应用单极平滑。在一些示例中，可以通过将应用于输入音频信号的直达部分的被估计增益与目标增益进行比较来计算至少一个调整后的混响抑制增益。在一些示例中，与输入音频信号的直达部分相关联的被估计统计数据可以包括基于所选择的初始混响抑制增益的对于输入音频信号的帧的输入音频信号的直达部分的经平滑响度水平。在一些示例中，可以通过将输入音频信号的直达部分的经平滑响度水平与目标响度水平进行比较来计算至少一个调整后的混响抑制增益。

本文描述的操作、功能和/或方法中的一些或全部可以由一个或多个设备根据存储在一种或多种非暂态介质上的指令(例如，软件)来执行。这样的非暂态介质可以包括诸如本文描述的那些存储器设备的存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，本公开中描述的主题的一些创新方面可以经由其上存储有软件的一个或多个非暂态介质来实现。

本公开的至少一些方面可以经由装置来实现。例如，一个或多个设备可能能够至少部分地执行本文所公开的方法。在一些实现中，装置是或者包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散硬件组件或其组合。

本说明书中描述的主题的一个或多个实施方式的细节在附图和下文描述中被阐述。其他特征、方面和优点将从说明书、附图和权利要求中变得显而易见。应指出，附图中的相对尺寸可能未按比例绘制。

附图说明

图1A和1B示出了包括混响的示例音频信号的表示。

图2示出了根据一些实施方式的用于提高去混响的感知质量的示例系统的框图。

图3示出了根据一些实施方式的用于提高去混响的感知质量的过程的示例。

图4示出了根据一些实施方式的用于通过调整混响抑制衰减来计算调整后的混响抑制增益的过程的示例。

图5示出了根据一些实施方式的用于基于房间共振来计算调整后的混响抑制增益的过程的示例。

图6A和6B示出了根据一些实施方式的用于计算调整后的混响抑制增益以补偿响度的示例过程。

图7示出了根据一些实施方式的用于确定信号与混响能量比(SRR)的过程的示例。

图8示出了说明能够实现本公开的各个方面的装置的组件的示例的框图。

各个附图中相似的附图标记和标记指示相似的元件。

具体实施方式

当音频信号因各种表面(例如，墙壁、天花板、地板、家具等)的各种反射而失真时，就会发生混响。混响可能对音质和语音可懂度产生重大影响。因此，可以执行音频信号的去混响，例如以提高语音可懂度和清晰度。

到达接收器(例如，人类听众、麦克风等)的声音由直达声和混响声组成，其中直达声包括直接来自声源且没有任何反射的声音，混响声包括从环境中的各个表面反射的声音。混响声包括早期反射和后期反射。早期反射可能在直达声之后不久到达接收器或与直达声同时到达接收器，因此可以部分地融合到直达声中。早期反射与直达声的融合产生谱着色效果，其有助于感知音质。后期反射在早期反射之后(例如，在直达声之后超过50-80毫秒)到达接收器。后期反射可能会对语音可懂度产生不利影响。因此，可以对音频信号执行去混响以减少音频信号中存在的后期反射的影响，从而提高语音可懂度。

图1A示出了混响环境中声脉冲响应的示例。如图所示，早期反射102可以与直达声同时到达接收器或在直达声之后不久到达接收器。相反，晚反射104可在早期反射102之后到达接收器。

图1B示出了时域输入音频信号152和对应的谱图154的示例。如谱图154中所示，早期反射可在谱图154中产生变化，如谱着色156所示。

在一些实施方式中，当对音频信号执行去混响时，去混响可能降低音频质量。例如，去混响可能导致音频信号的直达部分的响度降低，从而导致音频信号的直达部分在去混响音频信号中听起来不像近场捕获。作为另一个示例，去混响可能会在包括房间共振的音频信号中导致音质变化(例如，音色变化)。作为更具体的示例，去混响可以减少与房间的谐振频率相对应的特定频带中的能量，这可能导致去混响信号的音色以不期望的方式改变。作为又一示例，去混响可能导致后期反射被过度抑制。过度抑制后期反射(例如，较长的混响时间)可能会在去混响信号中造成感知连续性问题。

在一些实施方式中，提供了用于提高去混响的感知质量的方法、系统、装置和介质。例如，可以对于输入音频信号计算初始混响抑制增益。继续这一示例，可以基于输入音频信号的内容和/或初始混响抑制增益来对于输入音频信号计算一个或多个调整后的混响抑制增益。在一些实施方式中，一个或多个调整后的混响抑制增益可以有效地抑制混响，且提高关于一种或多种声音特性的感知质量。

例如，一个或多个调整后的混响抑制增益可以基于在输入音频信号中检测到的混响时间来调整混响抑制衰减。作为更具体的示例，可以基于混响强度和/或混响时间来调整混响衰减时间，从而在混响时间较短时实现更好的混响抑制，而在混响时间长时保持感知体验。作为另一示例，一个或多个混响抑制增益可以基于在输入音频信号的频带处检测到的房间共振量来调整应用于输入音频信号的不同频带的增益，从而保留依赖于房间的共振频率的输入音频信号的谱色。作为又一示例，一个或多个混响抑制增益可以基于初始混响抑制增益的效应来调整输入音频信号的响度，从而提高输入音频信号的直达部分的响度。应当注意，一个或多个调整后的混响抑制增益中的任一个可被以任何组合来计算。

然后，可以将一个或多个调整后的混响抑制增益应用于输入音频信号，以生成输出音频信号，该输出音频信号已被去混响，同时保持各种感知质量，例如响度、谱色和感知连续性。

在一些实施方式中，可以使用各种技术来计算初始混响抑制增益。例如，在一些实施方式中，可以基于在各个频带处的输入音频信号的振幅调制来计算初始混响抑制增益。作为更具体的示例，在一些实施例中，时域音频信号可以被变换为频域信号。继续这个更具体的示例，例如通过将滤波器组应用于频域信号，可以将频域信号划分为多个子带。进一步继续这个更具体的示例，可以针对每个子带确定振幅调制值，并且可以将带通滤波器应用于振幅调制值。在一些实施方式中，带通滤波器值可以基于人类语音的节奏来选择，例如，使得带通滤波器的中心频率超过人类语音的节奏(例如，在10-20Hz的范围内，大约15Hz，等等)。更进一步继续该具体示例，可以基于振幅调制信号值和被带通滤波的振幅调制值的函数对于每个子带确定初始混响抑制增益。在一些实施方式中，美国专利第9,520,140号中描述的技术可用于计算初始混响抑制增益，该专利的全部内容通过引用并入本文。

作为另一示例，在一些实施方式中，可以通过使用深度神经网络、加权预测误差方法、方差归一化延迟线性预测方法、多通道线性滤波器等估计去混响信号来计算初始混响抑制增益。作为又一示例，在一些实施方式中，可以通过估计房间响应并基于房间响应对输入音频信号执行反卷积操作来计算初始混响抑制增益。

应指出，本文描述的用于提高去混响的感知质量的技术可以对各种类型或形式的音频内容执行，包括但不限于播客、广播节目、与视频会议相关联的音频内容、与电视节目或者电影相关联的音频内容等等。音频内容可以是现场的或预先录制的。

另外，应指出，本文描述的技术可以针对包括多个音频内容帧的输入音频信号来执行。这些技术可以在多个帧上或者在逐帧的基础上执行。

图2示出了根据一些实施方式的用于提高去混响的感知质量的示例系统200的框图。

如图所示，系统200可以包括初始混响抑制组件202。初始混响抑制组件202可以接收输入音频信号206作为输入。输入音频信号206可以包括音频内容，诸如播客、广播节目、与电视节目相关联的音频内容、与电影或视频相关联的音频内容、与电话会议或视频会议相关联的音频内容等。音频内容可以是现场的或预先录制的。

初始混响抑制组件202可以生成初始抑制增益208，其指示要应用于输入音频信号206的混响抑制增益的初始计算。初始混响抑制组件202可以使用任何合适的去混响技术来计算初始抑制增益208。例如，初始抑制增益208可以基于在各个频带处的输入音频信号206的振幅调制信息、使用神经网络(例如，深度神经网络等)、基于所估计的房间脉冲响应来计算，诸如此类。

混响抑制调整组件204可以获取输入音频信号206和/或初始抑制增益208作为输入，并且可以生成调整后的去混响音频信号210。在一些实施方式中，混响抑制调整组件204可以通过计算对初始抑制增益208的一个或多个调整来生成调整后的去混响音频信号210。例如，混响抑制调整组件204可以计算一个或多个调整后的抑制增益。继续这一示例，可以组合一个或多个调整后的抑制增益以生成总的调整后抑制增益。作为更具体的示例，在一些实施方式中，可以通过将一个或多个调整后抑制增益相加来计算总的调整后抑制增益。混响抑制调整组件204然后可以将总的调整后抑制增益应用到输入音频信号206以生成调整后的去混响音频信号210。

在一些实施方式中，一个或多个调整后抑制增益可由混响抑制调整组件204的子组件(例如动态衰减控制组件204a、谱色调整组件204b和/或响度补偿组件204c)来计算。

在一些实施方式中，动态衰减控制组件204a可以计算调整后抑制增益，使得抑制衰减率基于混响时间。应指出，混响时间与混响强度相关，使得较高的混响强度与较长的混响时间相关。

在一些实现中，动态衰减控制组件204a可以计算抑制衰减率，使得对于具有相对高混响强度的输入音频信号，与抑制衰减率相关联的时间常数相对较长(例如，产生较慢的抑制衰减)，并且相应地，使得对于具有相对低混响强度的输入音频信号，与抑制衰减率相关联的时间常数相对较短(例如，产生较快的抑制衰减)。继续该示例，动态衰减控制组件204a可以基于输入音频信号中的混响是处于起始阶段还是处于释放阶段来向输入音频信号应用不同的抑制衰减率。此外，动态衰减控制组件204a可以通过利用平滑因子来平滑化初始混响抑制增益来生成调整后抑制增益，该平滑因子依赖于输入音频信号的混响强度以及混响是处于起始阶段还是释放阶段。例如，在一些实施方式中，当通过平滑化初始混响抑制增益来计算调整后抑制增益时，对于被确定为处于起始阶段的以及被确定为处于相对低混响强度的混响，初始混响抑制增益可以被更多地加权。用于基于混响时间计算调整后抑制增益的技术在图4中示出并在下面结合图4进行描述。

在一些实施方式中，谱色调整组件204b可以基于所确定的在输入音频信号206中检测到的房间共振量来计算调整后的混响抑制增益。例如，在一些实施方式中，可以针对输入音频信号206的各个频带计算调整后的混响抑制增益，使得每个频带处的调整后的混响抑制增益依赖于检测到的与相应频带相关联的房间共振量。通过基于房间共振缩放不同频带的混响抑制增益，可以在输出去混响信号中保留输入音频信号的谱色。用于基于房间共振计算调整后抑制增益的示例技术在图5中示出并在下面结合图5进行描述。

在一些实施方式中，响度组件204c可以计算调整后的混响抑制增益，其调整输入音频信号206的直达部分的响度。例如，在一些实施方式中，可以基于初始抑制增益208的被应用于输入音频信号206的直达部分的部分来计算调整后的混响抑制增益。作为另一示例，在一些实施方式中，可以基于输入音频信号206的直达部分的响度来计算调整后的混响抑制增益。在一些实施方式中，可计算调整后的混响抑制增益以实现输入音频信号206的直达部分的目标增益或输入音频信号206的直达部分的目标响度。用于计算调整输入音频信号的直达部分的响度的调整后的混响抑制增益的示例技术在图6A和图6B中示出并在下面结合图6A和图6B进行描述。

通过将一个或多个调整后的抑制增益应用于输入音频信号206，调整后的去混响音频信号210可以有效地抑制混响，同时相对于应用了初始抑制增益208的输入音频信号的版本提高了感知质量。例如，通过应用基于混响时间的抑制增益，可以抑制与短混响时间相对应的混响，同时减轻后期反射的过度抑制。作为另一个示例，通过应用基于房间共振的抑制增益，可以保留由房间共振引入的谱色。作为又一示例，通过应用基于音频信号的直达部分的目标响度或目标增益的抑制增益，可以增强直达部分的响度，从而提供在感知上类似于输入音频信号的近场捕获的去混响音频信号。

应指出，一个或多个调整后的抑制增益可以串行地或基本上并行地计算。在串行计算一个或多个调整后的抑制增益的情况下，可以最后计算调整后的基于输入音频信号的直达部分的目标响度或目标增益的抑制增益(例如，在调整后的基于混响时间的抑制增益和/或调整后的基于房间共振的抑制增益之后)，从而允许在确定了其他调整之后计算调整响度的增益。

图3示出了根据一些实施方式的用于提高去混响的感知质量的过程300的示例。在一些实施方式中，过程300中的框可以按图3中未示出的各种顺序来执行。附加地或替代地，在一些实施方式中，过程300中的两个或更多个框可以基本上并行地执行。附加地或替代地，在一些实施方式中，可以省略过程300中的一个或多个框。

过程300可以在302处开始，接收输入音频信号。输入音频信号可以包括一系列帧，其中每个帧对应于输入音频信号的一部分。输入音频信号的特定帧在文中被表示为n。一帧可以具有在约5毫秒至35毫秒的范围内、在约5毫秒至20毫秒的范围内等的持续时间。例如，一帧可以是约10毫秒。一帧的持续时间有时在文中表示为T。

在304，过程300可以计算帧的初始混响抑制增益。可以使用任何合适的去混响技术来计算每帧的初始混响抑制增益。例如，可以根据输入音频信号在不同频带的振幅调制值来计算初始混响抑制增益。作为另一个示例，可以基于机器学习算法(例如深度神经网络)来计算初始混响抑制增益。作为又一示例，可以基于输入音频信号和所估计的房间脉冲响应的去卷积来计算初始混响抑制增益。

在执行框304之后，过程300可以具有一组初始混响抑制增益g(n)，其中n对应于输入音频信号的帧。应指出，帧n可以与多个混响抑制增益相关联。例如，在一些实施例中，帧n可以被划分为多个频带，其中对于不同的频带计算不同的混响抑制增益。

在306，过程300可以基于在输入音频信号中检测到的混响的混响时间来计算第一调整后增益。例如，在一些实施方式中，过程300可以估计输入音频信号的每个帧处的混响强度。继续该示例，过程300然后可以基于每帧处的混响强度以及基于混响是处于起始阶段还是处于释放阶段来计算第一调整后增益。第一调整后增益可被计算为使得混响抑制衰减率取决于混响强度和/或混响是处于起始阶段还是释放阶段。用于通过调整混响抑制衰减来计算调整后增益的示例技术在图4中示出并在下面结合图4进行描述。

在执行框306之后，过程300可以具有第一调整后增益g_1(n)，其中n对应于输入音频信号的帧。应指出，在一些实施方式中，可以省略框306。例如，在不调整混响抑制衰减率的情况下，可以省略框306。

在308处，过程300可以基于所确定的与输入音频信号相关联的房间共振量来计算第二调整后增益。例如，在一些实施方式中，过程300可以对于输入音频信号的每个帧以及对于频带集合中的每个频带确定是否存在共振。继续该示例，过程300然后可以基于所检测到的共振对于每个帧以及每个频带计算调整后增益。用于基于房间共振计算调整后增益的示例技术在图5中示出并在下面结合图5进行描述。

在执行框308之后，过程300可以具有第二调整后增益g_2(n)，其中n对应于输入音频信号的帧。应指出，在一些实施方式中，可以省略框308。例如，在不基于房间共振计算混响增益的情况下(例如，因为在输入音频信号中没有检测到房间共振)，可以省略框308。

在310，过程300可以计算第三调整后增益，以由于初始混响抑制增益导致的响度衰减而补偿输入音频信号的直达部分的响度。例如，在一些实施方式中，过程300可以基于输入音频信号的直达部分的目标增益来调整输入音频信号的直达部分的增益，从而提高输入音频信号的直达部分的响度。作为另一示例，在一些实施方式中，过程300可以基于输入音频信号的直达部分的目标响度来调整输入音频信号的直达部分的增益。用于基于输入音频信号的直达部分计算调整后增益的示例技术在图6A和6B中示出并在下面结合图6A和6B进行描述。

在执行框310之后，过程300可以具有第三调整后增益g_3(n)，其中n对应于输入音频信号的帧。应指出，在一些实施方式中，可以省略框310。例如，在第一调整后增益g_1(n)和/或第二调整后增益g_2(n)在初始混响抑制增益g(n)的预定范围内的情况下，过程300可以确定输入音频信号的直达部分的响度不需要调整。因此，可以省略框310。

在312处，过程300可以通过将第一调整后增益、第二调整后增益和/或第三调整后增益(例如，分别为g_1(n)、g_2(n)和/或g_3(n))中的任意者的组合应用于输入音频信号来生成输出音频信号。在一些实施方式中，第一调整后增益、第二调整后增益和/或第三调整后增益可以被组合以生成要应用于输入音频信号的总的调整后增益。例如，在一些实施方式中，可以将第一调整后增益、第二调整后增益和第三调整后增益相加来计算总的调整后增益。继续该示例，然后可以将总的调整后增益应用于输入音频信号以生成去混响的输出音频信号。

图4示出了根据一些实施方式的用于通过调整混响抑制衰减来计算调整后的混响抑制增益的过程的示例。在一些实施方式中，过程400的框可以按图4中未示出的各种顺序来执行。附加地或替代地，在一些实施方式中，过程400的两个或更多个框可以基本上并行地执行。附加地或替代地，在一些实施方式中，可以省略过程400的一个或多个框。

过程400可以在402处开始，接收输入音频信号以及输入音频信号的帧的初始混响抑制增益。输入音频信号可以具有一系列帧，每个帧对应于输入音频信号的一部分。如文中所使用的，输入音频信号的帧被表示为n。初始混响抑制增益在文中被表示为g(n)，其中每个g(n)指示输入音频信号的帧n的初始混响抑制增益。每个初始混响抑制增益可以使用任何合适的去混响技术或算法来计算，例如，如上面结合图2的初始混响抑制组件202所描述的。

在404处，过程400可以计算输入音频信号的帧的混响强度。帧(n)的混响强度在文中一般表示为r(n)。

例如，在一些实施方式中，可以基于输入音频信号的帧的滑动窗口上的调制谱来计算混响强度。滑动窗口的持续时间的示例可以是0.2秒、0.25秒、0.3秒等。作为更具体的示例，在一些实施方式中，过程400可以计算输入音频信号的调制谱，其指示输入音频信号的各个声频带的振幅调制。调制谱是二维谱，其中y轴是频率，x轴是调制频率。为了确定调制谱，来自滑动窗口内的输入音频信号可以被分成多个频带(例如，8个频带等)以确定时间频率谱。对于每个频带，频带能量可以在滑动窗口内被确定并被变换到频域以确定调制频率-频率谱。过程400可以基于跨调制谱的不同频带的能量分布来确定混响强度。作为具体示例，可以选择具有最大能量的频带，并且可以在所选择的具有最大能量的频带上计算谱倾斜。可以使用调制谱中指示的调制带能量的线性回归来计算谱倾斜，其中将通过线性回归计算的估计斜率作为相应帧的谱倾斜。混响强度r(n)可以计算为r(n)＝1+c*k(n)，其中k(n)是通过线性回归计算出的第n帧的估计斜率，c是缩放因子，其将r(n)归一化在0和1之间。

作为另一个示例，在一些实施方式中，可以基于输入音频信号的各个频带中的信号与混响能量比(SRR)的估计来计算混响强度。SRR可以使用各种技术来计算。

计算SRR的示例技术可以包括将输入音频信号划分为频带并累积每个频带中的功率或能量。功率或能量可以在预定时间段(例如5毫秒、10毫秒、15毫秒等)内累积。应指出，该时间段可以与输入音频信号的帧的帧长度相似或基本相同。然后可以对于每个频带根据每个频带中累积的功率或能量计算SRR。在一些实施方式中，输入音频信号可以被划分为频带，其间距和宽度模拟由人类耳蜗执行的滤波。例如，可以使用变换(例如，离散傅立叶变换(DFT)、离散余弦变换(DCT)、复正交镜像滤波器(CQMF)等)将输入音频信号变换到频域，然后根据模拟人类耳蜗执行的滤波的尺度(例如，梅尔尺度、巴克尺度、等效矩形带宽(ERB)速率尺度等)来累积频率区段的能量。作为另一示例，可以使用伽玛通滤波器组对输入音频信号进行滤波，并且可以通过累积每个滤波器的输出的功率来计算每个频带的能量。

在输入音频信号是立体声通道或多通道的情况下可被应用的计算输入音频信号的SRR的另一示例技术是输入音频信号的通道的相干性分析。

在输入音频信号是立体声通道或多通道的情况下可被应用的计算输入音频信号的SRR的又一示例技术是输入音频信号的通道的特征值分解。

计算输入音频信号的SRR的又一示例技术涉及计算频带中的峰值能量与信号之后的能量的比率。基于频带中的峰值能量计算SRR的更详细技术在图7中示出并在下面结合图7进行描述。

在一些实施方式中，可以计算SRR的平滑版本(文中表示为SRR_smooth(n))。在一些实施方式中，SRR的平滑版本可以使用单极平滑来计算。下面结合图7的框710描述用于计算SRR的平滑版本的更详细技术。

在一些实施方式中，可以基于SRR来计算混响强度r(n)。可替代地，在一些实施方式中，可以基于平滑SRR来计算混响强度r(n)。对于每个帧，混响强度可以是相应帧处的SRR或平滑SRR的缩放表示。用于根据平滑SRR计算混响强度的示例式如下：

r(n)＝1+c*SRR_smooth(n)。

在上面给出的式子中，c可以是将r(n)归一化为0到1之间的值的缩放因子。

在406处，过程400可以基于混响强度来计算起始阶段平滑时间常数t_att和释放阶段平滑时间常数t_rel。

在一些实施方式中，可以基于连续函数计算起始阶段平滑时间常数和/或释放阶段平滑时间常数，该连续函数基于混响强度计算时间常数(例如，起始阶段平滑时间常数和/或释放阶段平滑时间常数)作为连续值。用于起始阶段平滑时间常数的这种连续函数的示例是：

t_att(n)＝r(n)*t_{att_slow}+(1-r(n))*t_{att_fast}，

其中t_att表示起始阶段平滑时间常数，n表示输入音频信号的帧，r(n)表示在块404处计算的混响强度，并且t_{att_slow}和t_{att_fast}是常量。在一些实施方式中，t_{att_slow}可以具有约0.25秒、0.2秒、0.15秒等的值。在一些实施方式中，t_{att_fast}可以具有约0.03秒、0.04秒、0.05秒等的值。这样的起始阶段平滑时间常数可以用作混响抑制增益的衰减的时间常数。

释放阶段平滑时间常数的对应连续函数的示例是：

t_rel(n)＝r(n)*t_{rel_slow}+(1-r(n))*t_{rel_fast}，

其中t_rel表示释放阶段平滑时间常数，n表示输入音频信号的帧，r(n)表示在框404处计算的混响强度，并且t_{rel_}s_low和t_{rel_fast}是常量。在一些实施方式中，t_{rel_slow}可以具有约0.25秒、0.2秒、0.15秒等的值。在一些实施方式中，t_{rel_fast}可以具有约0.04秒、0.05秒、0.06秒等的值。在一些实施方式中，t_{att_slow}的值可以与t_{rel_slow}的值相同。在一些实施方式中，t_{rel_fast}的值可以大于t_{att_fast}的价值。这样的释放阶段平滑时间常数可以用作混响抑制增益的衰减的时间常数。

应指出，在使用连续函数计算t_att的情况下，t_att在t_{att_slow}和t_{att_fast}之间具有连续值，该值是基于混响强度确定的。特别地，在相对较低的混响强度下，t_att具有更接近于t_{att_fast}的值，而在相对较高的混响强度下，t_att具有更接近于t_{att_slow}的值。换句话说，在一些实施方式中，t_att对于低混响强度比对于高混响强度更短。同样，t_rel在t_{rel_slow}和t_{rel_fast}之间具有连续值，其中该值是根据混响强度确定的。特别地，t_rel在相对低的混响强度下具有更接近于t_{rel_fast}的值，并且t_rel在相对高的混响强度下具有更接近于t_{rel_slow}的值。换句话说，在一些实施方式中，t_rel对于低混响强度比对于高混响强度更短。因为较短的时间常数对应于较快的混响抑制衰减，所以与高混响强度相比，较快的抑制衰减可应用于低混响强度。另外，应指出，在一些实施方式中，在相对高混响强度下，t_att的值可以基本上类似于t_rel的值。

附加地或替代地，在一些实施方式中，起始阶段平滑时间常数和/或释放阶段平滑时间常数可以基于混响强度r(n)的值在两组值之间切换。应指出，在一些实施方式中，起始阶段平滑常数可以在两组值之间切换，并且释放阶段平滑时间常数可以被确定为连续值，反之亦然。例如，在一些实现中，起始阶段平滑时间常数t_att可以通过下式在两个值t_{att_slow}和t_{att_fast}之间切换：

t_att(n)＝gating(r(n))*t_{att_slow}+(1-gating(r(n)))*t_{att_fast}

在一些实现中，释放阶段平滑时间常数t_rel可以通过下式在两个值t_{rel_slow}和t_{rel_fast}之间切换：

t_rel(n)＝gating(r(n))*t_{rel_slow}+(1-gating(r(n)))*t_{rel_slow}。

在上式中，gating(r(n))可以定义应用于混响强度r(n)的阈值函数：

阈值可以是常数，例如0.5、0.6等。

在408处，过程400可以计算起始阶段平滑因子和释放阶段平滑因子。在一些实施方式中，起始阶段平滑因子(文中表示为c_att)可以基于起始阶段平滑时间常数t_att通过下式计算：

在上式中，T表示输入音频信号的帧的长度或持续时间。

在一些实施方式中，可以基于释放阶段平滑时间常数t_rel通过下式来计算释放阶段平滑因子(本文中表示为c_rel)：

其中T表示输入音频信号的帧的长度或持续时间。

在一些实施方式中，在相对低混响强度(例如，当r(n)小于0.5时、当r(n)小于0.6时，等等)，c_att可以小于c_rel。在一些实施方式中，在相对高混响强度(例如，当r(n)大于0.5时、当r(n)大于0.7时，等等)，c_att可以与c_rel基本相同。

在410处，过程400可以基于起始阶段平滑因子和释放阶段平滑因子来计算调整后的混响抑制增益(这里表示为g_steered(n))。可用于计算g_steered(n)的式子的示例如下：

在上式中，g(n)>g_steered(n-1)的条件对应于混响语音的起始阶段。因此，因为与在较高混响强度下的c_att(n)的值相比，c_att(n)在低混响强度(例如，当r(n))小于0.5时、当r(n)小于0.6时，等等)下的值较低，因此，与较高混响强度相比，在计算经平滑的调整后的混响抑制增益时，初始混响增益(例如，g(n))可以对于起始阶段以及在相对较低的混响强度下被更多地加权。因此，调整后的混响抑制增益基于在输入音频信号中检测到的混响强度来调整混响抑制增益的衰减。该具体示例使用起始阶段平滑因子和释放阶段平滑因子，然而可以使用其他方法来基于混响强度来调整衰减，包括使用其他时间常数。

图5示出了根据一些实施方式的用于基于房间共振来计算调整后的混响抑制增益的过程500的示例。在一些实施方式中，过程500中的框可被以图5中未示出的各种顺序来执行。附加地或替代地，在一些实施方式中，过程500中的两个或更多个框可以基本上并行地执行。附加地或替代地，在一些实施方式中，可以省略过程500中的一个或多个框。

过程500可以在502处开始，接收输入音频信号。如上所述，输入音频信号可以包括一系列帧，每个帧对应于输入音频信号的一部分。

在504处，过程500可以将输入音频信号划分为频带。在一些实施方式中，输入音频信号可以被划分为频带，频带的间距和宽度模拟由人类耳蜗执行的滤波。例如，可以使用变换(例如，离散傅立叶变换(DFT)、DCT、CQMF等)将输入音频信号变换到频域，然后根据模拟由人类耳蜗执行的滤波的尺度(例如，梅尔尺度、巴克尺度、ERB速率尺度等等)来累积频率区段的能量。作为另一示例，可以使用伽玛通滤波器组对输入音频信号进行滤波，并且可以通过累积各滤波器的输出的功率来计算每个频带的能量。

在506，可以对于帧对于每个频带计算SRR(本文中称为SRR(n))。在一些实施方式中，可以基于频带中的峰值能量与信号之后的能量的比率的计算来计算SRR。基于频带中的峰值能量计算SRR的更详细技术在图7中示出并在下面结合图7进行描述。

在508，过程500可以基于SRR确定每个频带和帧中是否存在房间共振。例如，过程500可以计算res_b(n)，其指示频带b和帧n中存在房间共振。作为更具体的示例，在一些实施方式中，可以通过将SRR与阈值进行比较来计算res_b(n)。可用于通过将平滑SRR与阈值进行比较来计算res_b(n)的式子的示例如下：

在一些实现中，SRR_smooth(n)可以是SRR(n)的平滑版本。在一些实施方式中，可以使用单极平滑来计算SRR_smooth(n)，如下面结合图7的框710所描述的。

作为另一个更具体的示例，在一些实施方式中，可以使用激活函数将res_b(n)计算为连续值。可用于使用激活函数计算res_b(n)的式子的示例如下：

其中，a表示调整过渡区域宽度的尺度因子。应指出，过渡区域可以被定义为res_b(n)的子范围。这样的子范围的例子包括0.2-0.8、0.3-0.7、0.4-0.6。通过调整a以及因此调整过渡区宽度，可以有效地调整激活函数的斜率的陡度。a的示例值可以包括0.8、1.0、1.2等。其中，Th表示软阈值。Th的示例值可以包括10dB、15dB等。

在510处，过程500可以对于频带b以及对于帧n基于房间共振res_b(n)计算调整后的混响抑制增益(文中称为g_color_b(n))。在一些实施方式中，调整后的混响抑制增益可以指示基于在频带中检测到的共振量的要应用于特定频带的混响抑制增益的减小。也就是说，在一些实施方式中，调整后的混响抑制增益可以有效地减小应用于在其中检测到房间共振的频带的混响抑制增益，从而保留输入音频信号的谱色。

在一些实施方式中，对于每个频带的调整后的混响抑制增益可以与该频带的房间共振成比例。用于计算对于每个频带的与该频带的房间共振成比例的调整后混响抑制增益的式子的示例如下：

g_color_b(n)＝-color_scale*r_b(n)，其中color_scale是恒定缩放因子。color_scale的示例值包括3dB、4dB等。

在一些实施方式中，对于每个频带的调整后的混响抑制增益可以基于跨多个帧的房间共振的离线分析。例如，多个帧可以跨越整个输入音频信号，或者包括多个帧的输入音频信号的子集。用于基于跨多个帧的房间共振的离线分析来计算每个频带的调整后的混响抑制增益的式子的示例如下：

g_color_b(n)＝-color_scale*mean(r_b)，

其中mean(r_b)表示跨多个帧的房间共振r_b的均值。

在一些实施方式中，为了避免将过多的不同增益应用于不同频带，过程500可以将时间-频率正则化应用于调整后的混响抑制增益g_color_b(n)。例如，过程500可以使用单极平滑来执行时间平滑。作为另一个示例，过程500可以通过跨相邻频带进行平滑来执行频率平滑。

图6A和图6B示出了用于计算调整后的混响抑制增益以补偿由初始混响抑制增益造成的响度抑制的过程600和650的示例。具体地，图6A示出了用于基于应用于输入音频信号的直达部分的初始抑制增益来计算调整后的混响抑制增益的示例过程。作为对比，图6B示出了用于基于输入音频信号的直达部分的响度水平来计算调整后的混响抑制增益的示例过程。

过程600可以开始于602，接收输入音频信号和/或用于输入音频信号的帧的初始混响抑制增益。这里，初始混响抑制增益一般称为g(n)，其中n表示输入音频信号的帧。

在604处，过程600可以选择与输入音频信号的直达部分相对应的初始混响抑制增益，在文中一般称为g_direct(n)。例如，过程600可以通过选择超过阈值的初始混响抑制增益来选择与输入音频信号的直达部分相对应的初始混响抑制增益。可用于选择与输入音频信号的直达部分相对应的初始混响抑制增益的式子的示例为：

在上文中，阈值可以是依赖于g(n)中的最大抑制增益的常数。例如，阈值可以是最大抑制增益的30％、最大抑制增益的40％等。

在606处，过程600可以计算与输入音频信号的直达部分相对应的经平滑的所选择的初始混响抑制增益。也就是说，过程600可以计算g_direct(n)的平滑版本。在一些实施方式中，可以使用应用于所选择的初始混响抑制增益的单极平滑来计算经平滑的所选择的初始混响抑制增益。用于计算与输入音频信号的直达部分相对应的经平滑的所选择的初始抑制增益(文中称为g_{direct_smooth}(n))的式子的示例如下：

其中c表示平滑时间常数。c的示例值可包括0.1秒、0.15秒等。

在608处，过程600可以基于经平滑的所选择的初始混响抑制增益来估计应用于输入音频信号的直达部分的增益。应用于输入音频信号的直达部分的被估计增益在文中一般被称为

例如，在一些实施方法中，过程600可以通过由经平滑的所选择的初始抑制增益(例如，应用于输入音频信号的直达部分的经平滑的抑制增益)生成直方图，来计算应用于输入音频信号的直达部分的被估计增益。作为更具体的示例，在一些实施方式中，可以基于具有最大样本数的直方图的间隔来估计应用于输入音频信号的直达部分的被估计增益(例如)。作为另一个更具体的示例，在一些实施方式中，应用于输入音频信号的直达部分的被估计增益(例如，/>)可以基于与直方图的预定百分位(例如，第60百分位、第70百分位等)相关联的增益值来估计。作为具体示例，在预定百分位为第60百分位的情况下，应用于输入音频信号的直达部分的被估计增益可以是直方图的如下间隔的如下增益值，即对于该间隔60％增益低于该增益值。/>

作为另一示例，在一些实施方式中，过程600可以基于经平滑的所选择的初始混响抑制增益的平均值(例如，均值、中值等)或方差以及基于经平滑的所选择的初始混响抑制增益的最大值，来计算应用于输入音频信号的直达部分的被估计增益。应指出，在一些实施方式中，可以在离线分析中计算经平滑的所选择的初始混响抑制增益的平均值或方差。作为替代，当作为实时分析的一部分进行计算时，经平滑的所选择的初始混响抑制增益的平均值或方差可以基于滑动时间窗口来计算。用于计算应用于输入音频信号的直达部分的所估计增益的式子的示例如下：

其中c是介于0和1之间的缩放因子。c的示例值包括0.4、0.5、0.6等。在上文中，mean(g_{direct_smooth})和max(g_{direct_smooth})可以在一定数量的帧(例如超过80帧、100帧、120帧等)上计算。在一些实施方式中，诸如在实时应用中，可以利用包括当前帧和先前帧的滑动时间窗口来计算所估计增益。在实时应用中，示例滑动时间窗可以包括0.8秒、1秒、1.2秒等。也就是说，对于10毫秒的帧大小，可以基于80帧、100帧、120帧等来确定所估计增益。在一些实施方式中，诸如当执行离线分析时，可以基于整个文件或许多文件的数据集来计算所估计增益，其中每个文件包括至少一个输入音频信号。

在610处，过程600可以基于应用于输入音频信号的直达部分的所估计增益以及基于目标增益来计算调整后的混响抑制增益。调整后的混响抑制增益可以有效地为补偿混响抑制的响度的增益，并且在文中一般被称为g_loud。计算调整后的混响抑制增益的式子的示例如下：

其中，Target(目标)是表示输入音频信号的直达部分在混响抑制后要增强的量的参数。换句话说，Target对应于输入音频信号的直达部分的目标增益。在要增强输入音频信号的直达部分的情况下，Target可以是大于0dB的值，例如2dB、3dB等。相反，在不增强输入音频信号的直达部分的情况下，Target可以是0dB。应指出，在实时应用中g_loud是n的函数。然而，在离线应用中，被估计增益可以通过分析整个文件或数据库中的若干文件来确定，g_loud不是n的函数。

在一些实施方式中，过程600可以对调整后的混响抑制增益进行平滑。例如，在一些实施方式中，过程600可以在实时计算调整后的混响抑制增益的情况下对调整后的混响抑制增益进行平滑。使用单极平滑计算经平滑的调整后混响抑制增益的式子的示例如下：

g_{loud_smooth}(n)＝c*g_{loud_smooth}(n-1)+(1-c)*g_loud(n)。

其中，c可以是基于平滑时间常数确定的平滑因子。例如，c可以由下式给出：

其中，T对应于帧持续时间，τ是时间常数。

应指出，在基于离线分析计算调整后的混响抑制增益的情况下，可以不需要对调整后的混响抑制增益进行平滑。

转向图6B，示出了根据一些实施方式的用于基于输入音频信号的直达部分的响度水平来计算用于响度补偿的调整后的混响抑制增益的示例过程650。

过程650可以开始于652，接收输入音频信号和/或用于输入音频信号的帧的初始混响抑制增益。这里，初始混响抑制增益一般称为g(n)，其中n表示输入音频信号的帧。

在654处，过程650可以选择与输入音频信号的直达部分相对应的初始混响抑制增益(在文中一般称为g_direct(n))。例如，过程650可以通过选择超过阈值的初始混响抑制增益来选择与输入音频信号的直达部分相对应的初始混响抑制增益。可用于选择与输入音频信号的直达部分相对应的初始混响抑制增益的式子的示例如下：

其中阈值可以是依赖于g(n)中的最大抑制增益的常数。例如，阈值可以是最大抑制增益的30％、最大抑制增益的40％等。

在656处，过程650可以基于与输入音频信号的直达部分相对应的所选择的初始混响抑制增益以及基于被应用了初始混响抑制增益的每个帧的响度，来计算输入音频信号的帧的经平滑的响度水平(文中称为L_smooth)。用于计算输入音频信号的帧的经平滑的响度水平的式子的示例如下：

在上式中，L(n)表示被应用了初始混响抑制增益的帧n的响度。在上式中，c表示平滑时间常数。c的示例值可以包括0.1秒、0.15秒等。

在658处，过程650可以基于经平滑的响度水平来估计输入音频信号的直达部分的响度水平。所估计的响度水平在文中一般被称为

例如，在一些实施方式中，过程650可以通过从经平滑的响度水平生成直方图来计算输入音频信号的直达部分的被估计响度水平。作为更具体的示例，在一些实施方式中，可以基于具有最大样本数的直方图的间隔来估计输入音频信号的直达部分的被估计响度水平(例如，)。作为另一个更具体的示例，在一些实施方式中，输入音频信号的直达部分的被估计响度水平(例如，/>)可以基于与直方图的预定百分位(例如，第60百分位、第70百分位等)相关联的响度水平来估计。作为具体示例，在预定百分位为第60百分位的情况下，输入音频信号的直达部分的被估计响度水平可以是与直方图的如下间隔相关联的响度水平，对于该间隔60％的增益低于该响度水平。

作为另一示例，在一些实施方式中，过程650可以基于经平滑的响度水平的平均值(例如，均值、中值等)或方差以及基于经平滑的响度水平的最大值来计算输入音频信号的直达部分的被估计响度水平。应指出，在一些实施方式中，可以在离线分析中计算经平滑的响度水平的平均值或方差。可替代地，在一些实施方式中，可以在实时分析中使用滑动时间窗口计算经平滑的响度水平的平均值或方差。用于计算输入音频信号的直达部分的被估计响度水平的式子的示例如下：

上式中，c是介于0和1之间的缩放因子。c的示例值包括0.4、0.5、0.6等。在上式中，可以在一定数量的帧(例如超过80帧、100帧、120帧等)上计算mean(L_smooth)和max(L_smooth)。在一些实施方式中，诸如在实时应用中，可以利用包括当前帧和先前帧的滑动时间窗口来计算被估计响度水平。在实时应用中，示例滑动时间窗可以包括0.8秒、1秒、1.2秒等。也就是说，对于10毫秒的帧大小，可以基于80帧、100帧、120帧等来确定被估计增益。在一些实施方式中，诸如当执行离线分析时，可以基于整个文件或许多文件的数据集来计算被估计响度水平，其中每个文件包括至少一个输入音频信号。

在660，过程650可以基于输入音频信号的直达部分的响度水平以及基于目标响度来计算调整后的混响抑制增益，其补偿在应用混响抑制时输入音频信号的直达部分的响度。计算调整后的混响抑制增益的式子的示例如下：

其中，Target_loudness是指示应用混响抑制之后输入音频信号的直达部分的绝对目标响度水平的参数。Target_loudness的示例值可以是-15dB、-10dB等。应指出，Target_loudness的值可以相对于全尺度数字声音。另外，还应指出，在实时应用中，g_loud是n的函数。然而，在离线应用中，被估计的响度水平可以通过分析整个文件或数据库中的若干文件来确定，g_loud不是n的函数。

在一些实施方式中，过程650可以对调整后的混响抑制增益进行平滑。例如，在一些实施方式中，过程650可以在实时计算调整后的混响抑制增益的情况下对调整后的混响抑制增益进行平滑。使用单极平滑计算经平滑的调整后的混响抑制增益的式子的示例如下：

g_{loud_smooth}(n)＝c*g_{loud_smooth}(n-1)+(1-c)*g_loud(n)。

其中，c可以是基于时间常数确定的平滑因子。例如，c可以由下式给出：

其中，T对应于帧时长，τ为时间常数。

图7示出了用于确定SRR的过程700的示例。在一些实施方式中，SRR可用于确定混响强度(例如，如上文结合图4所述)、确定房间共振量(例如，如上文结合图5所述)等。在一些实施方式中，过程700的框可以按图7中未示出的各种顺序来执行。附加地或替代地，在一些实施方式中，过程700的两个或更多个框可以基本上并行地执行。附加地或替代地，在一些实施方式中，可以省略过程700的一个或多个框。

过程700可以在702处开始，接收输入音频信号。如上所述，输入音频信号可以包括一系列帧，每个帧对应于输入音频信号的一部分。

在704处，过程700可以将输入音频信号的每个帧划分成频带。在一些实施方式中，输入音频信号可以被划分为频带，其间距和宽度模拟由人类耳蜗执行的滤波。例如，可以使用变换(例如，DFT、DCT、CQMF等)将输入音频信号变换到频域，然后根据模拟由人类耳蜗执行的滤波的尺度(例如，梅尔尺度、巴克尺度、ERB速率尺度等)来累积频率区段的能量。作为另一示例，可以使用伽玛通滤波器组对输入音频信号进行滤波，并且可以通过累积每个滤波器的输出的功率来计算每个频带的能量。

在706，过程700可以对于输入音频信号的每个帧n的频带计算经平滑的峰值能量(文中表示为P_{peak_smooth})和经平滑的峰值后信号能量(本文表示为P_{signal_smooth})。在一些实施方式中，可以使用单极平滑器来计算经平滑的峰值能量和经平滑的峰值后信号能量。

由P_peak(其表示频带中的峰值能量)计算P_{peak_smooth}的式子的示例为：

在上式中，c_{peak_att}表示起始阶段的时间常数。c_{peak_att}的典型值可以是0.1秒、0.12秒、0.15秒等。在上式中，c_{peak_rel}表示释放阶段的时间常数。c_{peak_rel}的典型值可以是2秒、2.2秒、2.4秒等。

由P_signal(其表示频带中峰值后信号能量)计算P_{signal_smooth}的式子的示例为：

在上式中，c_{signal_att}表示起始阶段的时间常数。c_{signal_att}的典型值可以是0.3秒、0.32秒、0.35秒等。在一些实施方式中，c_{signal_att}可以比c_{peak_att}长(例如，两倍长、三倍长等)。在上式中，c_{signal_rel}表示释放阶段的时间常数。c_{signal_rel}的典型值可以是0.5秒、0.55秒、0.6秒等。在一些实施方式中，c_{signal_rel}可以比c_{peak_rel}短(例如，短四倍、短五倍等)。

在708，过程700可以基于经平滑的峰值上能量(其代表语音能量)与经平滑的具有峰值的信号能量(其代表混响能量)的比率来计算频带的SRR。基于P_{peak_smooth}和P_{signal_smooth}的值计算特定频段的SRR的式子的示例如下：

在710处，过程700可以计算频带的经平滑的SRR。通过计算经平滑的SRR，可以对跨输入音频信号的帧的混响强度波动进行平滑。在一些实施方式中，平滑可以是单极平滑。用于计算经平滑SRR(文中表示为SRR_smooth)的式子的示例如下：

在上式中，coeff_att和coeff_rel分别对应于起始平滑因子和释放平滑因子。coeff_att的示例值可以是0.2秒、0.25秒等。coeff_rel的示例值可以是0.7秒、0.8秒等。在一些实施方式中，coeff_att可以比coeff_rel短。实际上，在混响语音的起始阶段，瞬时SRR值可以比在混响语音的释放阶段中被更大地加权。

图8是示出能够实现本公开的各个方面的装置的组件的示例的框图。与本文提供的其他附图一样，图8中所示的元件的类型和数量仅作为示例被提供。其他实现可以包括更多、更少和/或不同类型和数量的元件。根据一些示例，装置800可以被配置为执行本文公开的方法中的至少一些。在一些实施方式中，装置800可以是或者可以包括电视、音频系统的一个或多个组件、移动设备(诸如蜂窝电话)、膝上型计算机、平板设备、智能扬声器、或者其它类型的设备。

根据一些替代实施方式，装置800可以是或者可以包括服务器。在一些这样的示例中，装置800可以是或者可以包括编码器。因此，在一些实例中，装置800可以是被配置为在诸如家庭音频环境之类的音频环境中使用的设备，而在其他实例中，装置800可以是被配置为在“云”中使用的设备，例如服务器。

在该示例中，装置800包括接口系统805和控制系统810。在一些实现中，接口系统805可以被配置为与音频环境的一个或多个其他设备通信。在一些示例中，音频环境可以是家庭音频环境。在其他示例中，音频环境可以是另一种类型的环境，例如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实现中，接口系统805可以被配置为与音频环境的音频设备交换控制信息和关联数据。在一些示例中，控制信息和关联数据可以涉及装置800正在执行的一个或多个软件应用程序。

在一些实现中，接口系统805可以被配置为接收或提供内容流。内容流可以包括音频数据。音频数据可以包括但不限于音频信号。在一些情况下，音频数据可以包括空间数据，例如通道数据和/或空间元数据。在一些示例中，内容流可以包括视频数据和与视频数据相对应的音频数据。

接口系统805可包括一个或多个网络接口和/或一个或多个外部装置接口(例如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统805可以包括一个或多个无线接口。接口系统805可以包括用于实现用户接口的一个或多个设备，例如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统805可以包括控制系统810和存储系统(诸如图8所示的可选存储系统815)之间的一个或多个接口。然而，在一些情况下，控制系统810可以包括存储系统。在一些实现中，接口系统805可以被配置为从环境中的一个或多个麦克风接收输入。

控制系统810可以例如包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、和/或离散硬件组件。

在一些实施方式中，控制系统810可以驻留在多于一个的设备中。例如，在一些实施方式中，控制系统810的一部分可以驻留在本文所描述的环境之一内的设备中，并且控制系统810的另一部分可以驻留在该环境之外的设备(例如服务器、移动设备(例如智能手机或平板电脑)等)中。在其他示例中，控制系统810的一部分可以驻留在一个环境内的设备中，并且控制系统810的另一部分可以驻留在该环境的一个或多个其他设备中。例如，控制系统功能可以分布在环境的多个智能音频设备上，或者可以由编排设备(诸如本文中可以称为智能家居集线器的设备)和环境的一个或多个其他设备共享。在其他示例中，控制系统810的一部分可以驻留在正在实现基于云的服务的设备(例如服务器)中，并且控制系统810的另一部分可以驻留在正在实现基于云的服务的另一设备(例如另一服务器、存储设备等)中。在一些示例中，接口系统805还可以驻留在多于一个设备中。

在一些实施方式中，控制系统810可以被配置为至少部分地执行本文所公开的方法。根据一些示例，控制系统810可以被配置为实施用于提高去混响的感知质量的方法。

本文中所描述的一些或全部方法可以由一个或多个设备根据存储在一种或多种非暂态介质上的指令(例如，软件)来执行。这样的非暂态介质可以包括诸如本文描述的那些存储设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。例如，一种或多种非暂态介质可以驻留在图8所示的可选存储系统815中和/或控制系统810中。因此，本公开中描述的主题的各种创新方面可以在其上存储有软件的一个或多个非暂态介质中实现。该软件可以例如包括用于控制至少一个设备以计算初始混响抑制增益、基于响度、房间共振和/或混响时间等计算调整后的混响抑制增益的指令。该软件例如可以由诸如图8的控制系统810之类的控制系统的一个或多个组件来执行。

在一些示例中，装置800可以包括图8所示的可选麦克风系统820。可选麦克风系统820可以包括一个或多个麦克风。在一些实施方式中，一个或多个麦克风可以是另一设备(例如扬声器系统的扬声器、智能音频设备等)的一部分或与另一设备相关联。在一些示例中，装置800可以不包括麦克风系统820。然而，在一些这样的实现中，装置800仍然可以被配置为经由接口系统810接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实现中，装置800的基于云的实现可以被配置为经由接口系统810从音频环境中的一个或多个麦克风接收麦克风数据或至少部分对应于麦克风数据的噪声度量。

根据一些实施方式，装置800可以包括图8所示的可选扬声器系统825。可选的扬声器系统825可以包括一个或多个扬声器，其在本文中也可以被称为“扩音器”，或者更一般地被称为“音频再现换能器”。在一些示例中(例如，基于云的实现)，装置800可以不包括扬声器系统825。在一些实施方式中，装置800可以包括耳机。耳机可以经由耳机插孔或经由无线连接(例如，蓝牙)连接或耦合到装置800。

在一些实施方式中，装置800可以包括图8所示的可选传感器系统830。可选的传感器系统830可以包括一个或多个触摸传感器、姿势传感器、运动检测器等。根据一些实施方式，可选传感器系统830可以包括一个或多个相机。在一些实施方式中，相机可以是独立式相机。在一些示例中，可选传感器系统830的一个或多个相机可以驻留在音频设备中，该音频设备可以是单一用途音频设备或虚拟助理。在一些此类示例中，可选传感器系统830的一个或多个相机可以驻留在电视、移动电话或智能扬声器中。在一些示例中，装置800可以不包括传感器系统830。然而，在一些这样的实现中，装置800仍然可以被配置为经由接口系统810接收音频环境中的一个或多个传感器的传感器数据。

在一些实施方式中，装置800可以包括图8所示的可选显示系统835。可选的显示系统835可以包括一个或多个显示器，例如一个或多个发光二极管(LED)显示器。在一些情况下，可选的显示系统835可以包括一个或多个有机发光二极管(OLED)显示器。在一些示例中，可选的显示系统835可以包括电视的一个或多个显示器。在其他示例中，可选的显示系统835可以包括膝上型显示器、移动设备显示器或其他类型的显示器。在装置800包括显示系统835的一些示例中，传感器系统830可以包括靠近显示系统835的一个或多个显示器的触摸传感器系统和/或姿势传感器系统。根据一些这样的实施方式，控制系统810可以被配置为控制显示系统835以呈现一个或多个图形用户界面(GUI)。

根据一些这样的示例，装置800可以是或者可以包括智能音频设备。在一些这样的实现中，装置800可以是或者可以包括唤醒词检测器。例如，装置800可以是或者可以包括虚拟助理。

本公开的一些方面包括一种被配置(例如，编程)为执行所公开的方法的一个或多个示例的系统或设备，以及存储用于实现所公开的方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如，盘)。例如，一些公开的系统可以是或包括可编程通用处理器、数字信号处理器或微处理器，其用软件或固件编程，和/或以其他方式配置成对数据执行多种操作中的任何操作，包括所公开的方法或其步骤的实施例。这种通用处理器可以是或包括计算机系统，该计算机系统包括输入设备、存储器和处理子系统，该处理子系统被编程(和/或以其他方式配置)以响应于所断言的数据执行所公开的方法(或其步骤)的一个或多个示例。

一些实施例可以被实现为可配置的(例如，可编程的)数字信号处理器(DSP)，其被配置(例如，编程和以其他方式配置)为对音频信号执行所需的处理，包括执行所公开的方法的一个或多个示例。可替代地，所公开的系统(或其元件)的实施例可以被实现为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，其被用软件或固件编程和/或以其他方式被配置为执行包括所公开方法的一个或多个示例的多种操作中的任一种。可替代地，本发明系统的一些实施例的元件被实现为被配置(例如，编程)为执行所公开方法的一个或多个示例的通用处理器或DSP，并且该系统还包括其他元件(例如，一个或多个扬声器和/或一个或多个麦克风)。被配置为执行所公开的方法的一个或多个示例的通用处理器可以耦合到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是一种计算机可读介质(例如，盘或其他有形存储介质)，其存储用于执行(例如，可执行以实行)所公开的方法或其步骤的一个或多个示例的代码。

虽然文中已经描述了本公开的具体实施例和本公开的应用，但是对于本领域普通技术人员来说显而易见的是，在不脱离文中所描述的和要求保护的本公开的范围的情况下，本文描述的实施例和应用的许多变化是可能的。应当理解，虽然已经示出和描述了本公开的某些形式，但是本公开不限于所描述和示出的具体实施例或者所描述的具体方法。

本发明的各个方面可以从以下列举的示例实施例(EEE)中理解：

EEE1.一种混响抑制方法，包括：

接收输入音频信号，其中，所述输入音频信号包括多个帧；

针对多个帧中的至少一帧计算输入音频信号的初始混响抑制增益；

对于输入音频信号的该至少一帧，计算至少一个调整后的混响抑制增益。该至少一个调整后的混响抑制增益基于初始混响抑制增益，并且其中该至少一个调整后的混响抑制增益可调整以下中的至少一项：1)基于在输入音频信号中检测到的混响强度的混响抑制衰减；2)基于在输入音频信号中检测到的房间共振量的应用于输入音频信号的不同频带的增益；或者3)基于初始混响抑制增益对输入音频信号的直达部分的影响的输入音频信号的响度；以及

通过将至少一个调整后的混响抑制增益应用于输入音频信号的至少一帧来生成输出音频信号。

EEE2.如EEE1所述的方法，其中，至少一个调整后的混响抑制增益调整混响抑制衰减，并且其中，计算至少一个调整后的混响抑制增益包括：

对于输入音频信号的多个帧中的至少一帧计算混响强度；

对于输入音频信号的多个帧中的至少一帧基于相应的混响强度来计算混响衰减时间常数；以及

基于对于输入音频信号的多个帧中的至少一帧的混响衰减时间常数来计算至少一个调整后的混响抑制增益。

EEE3.如EEE2所述的方法，其中，对于输入音频信号的多个帧中的至少一帧的混响衰减时间常数基于确定输入音频信号是对应于混响语音的起始阶段还是混响语音的释放阶段。

EEE4.如EEE 2或3所述的方法，其中，对于输入音频信号的多个频带计算混响衰减时间常数。

EEE5.如EEE4所述的方法，其中，混响衰减时间常数在多个频带上被平滑。

EEE6.如EEE1-5中任一项所述的方法，其中，至少一个调整后的混响抑制增益基于在输入音频信号中检测到的房间共振量来调整应用于输入音频信号的不同频带的增益，并且其中，计算至少一个调整后的混响抑制增益包括：

将输入音频信号划分为多个频带；

对于多个频带中的每个频带，计算在该频带处的输入音频信号中存在的房间共振量；以及

基于在各频带处的输入音频信号中存在的房间共振量，计算对于该频带的至少一个调整后的混响抑制增益。

EEE7.如EEE6所述的方法，其中，计算在频带处的输入音频信号中存在的房间共振量可以包括计算各频带的信号与混响能量比(SRR)。

EEE8.如EEE7所述的方法，其中，对于多个频带中的一个频带，响应于确定该频带的SRR低于阈值，将房间共振量计算为大于0。

EEE9.如EEE7或8所述的方法，其中，多个频带中的一个频带的房间谐振量基于应用于该频带处的SRR的激活函数来计算。

EEE10.如EEE6-9中任一项所述的方法，其中，对于每个频带的至少一个调整后的混响抑制增益基于对于输入音频信号的多个帧中的至少一帧的以及在每个频带处的房间共振量的缩放值。

EEE11.如EEE6-9中任一项所述的方法，其中，对于每个频带的至少一个调整后的混响抑制增益基于在输入音频信号的多个帧上平均的在每个频带处的平均房间共振量的缩放值。

EEE12.如EEE1-11中任一项所述的方法，其中，至少一个调整后的混响抑制增益基于初始混响抑制增益对输入音频信号的直达部分的影响来调整输入音频信号的响度，并且其中，计算至少一个调整后的混响抑制增益包括：

为输入音频信号的帧选择超过阈值的初始混响抑制增益；以及

基于所选择的初始混响抑制增益来对于输入音频信号的帧估计与输入音频信号的直达部分相关联的统计数据，其中至少一个调整后的混响抑制增益基于与输入音频信号的直达部分相关联的被估计统计数据。

EEE13.如EEE12所述的方法，还包括：

基于所选择的初始混响抑制增益来计算经平滑的初始混响抑制增益，其中，与输入音频信号的直达部分相关联的被估计统计数据包括应用于输入音频信号的直达部分的被估计增益，并且应用于输入音频信号的直达部分的被估计增益基于经平滑的初始混响抑制增益。

EEE14.如EEE13所述的方法，其中，计算经平滑的初始混响抑制增益包括对所选择的初始混响抑制增益应用单极平滑。

EEE15.如EEE13或14所述的方法，其中，通过将应用于输入音频信号的直达部分的被估计增益与目标增益进行比较来计算至少一个调整后的混响抑制增益。

EEE16.如EEE12所述的方法，其中，与输入音频信号的直达部分相关联的被估计统计数据包括基于所选择的初始混响抑制增益的对于输入音频信号的帧的输入音频信号的直达部分的经平滑响度水平。

EEE17.如EEE16所述的方法，其中，通过将输入音频信号的直达部分的经平滑响度水平与目标响度水平进行比较来计算至少一个调整后的混响抑制增益。

EEE18.一种被配置为实现如EEE1-17中任一项所述的方法的装置。

EEE19.一种被配置为实现如EEE1-17中任一项所述的方法的系统。

EEE20.一个或多个非暂态介质，其上存储有软件，该软件包括用于控制一个或多个设备以执行如EEE1-17中任一项所述的方法的指令。

Claims

1.一种混响抑制方法，包括：

接收输入音频信号，其中，所述输入音频信号包括多个帧；

对于所述多个帧中的至少一帧，计算输入音频信号的初始混响抑制增益；

计算用于输入音频信号的所述至少一帧的调整后的混响抑制增益，其中调整后的混响抑制增益基于所述初始混响抑制增益，并且其中，调整后的混响抑制增益基于在输入音频信号中检测到的混响强度调整混响抑制增益的衰减；

通过将调整后的混响抑制增益应用于输入音频信号的所述至少一帧来生成输出音频信号。

2.根据权利要求1所述的方法，其中，计算调整后的混响抑制增益包括：

计算输入音频信号的所述多个帧中的所述至少一帧的混响强度；

计算用于输入音频信号的所述多个帧中的所述至少一帧的混响抑制增益的衰减的时间常数，其与所计算的混响强度成比例；以及

基于针对输入音频信号的所述多个帧中的所述至少一帧计算的时间常数，计算混响抑制增益的调整后的衰减。

3.根据权利要求2所述的方法，其中，计算用于输入音频信号的所述多个帧中的所述至少一帧的混响抑制增益的衰减的时间常数是基于确定输入音频信号的所述帧是对应于混响语音的起始阶段还是混响语音的释放阶段，其中，如果输入音频信号对应于起始阶段，则所计算的时间常数为起始阶段平滑时间常数，如果输入音频信号对应于释放阶段，则所计算的时间常数为释放阶段平滑时间常数，其中起始阶段平滑时间常数和释放阶段平滑时间常数均与所计算的混响强度成比例。

4.根据权利要求2或3所述的方法，其中，针对输入音频信号的多个频带来计算所计算的时间常数，

其中，在所述多个频带上对所计算的时间常数进行平滑。

5.根据权利要求1-4中任一项所述的方法，其中，调整后的混响抑制增益还基于在所述输入音频信号中检测到的房间共振量来调整应用于所述输入音频信号的不同频带的增益，并且其中，计算调整后的混响抑制增益还包括：

将输入音频信号划分为多个频带；

对于多个频带中的每个频带，计算输入音频信号中在该频带处存在的房间共振量；以及

基于输入音频信号中在该频带处存在的房间共振量，计算针对每个频带的调整后的混响抑制增益。

6.根据权利要求5所述的方法，其中计算输入音频信号中在该频带处存在的房间共振量包括计算每个频带的信号与混响能量比(SRR)。

7.根据权利要求6所述的方法，其中，响应于确定所述多个频带中的一个频带的SRR低于阈值，对于该频带将所述房间共振量计算为大于0。

8.根据权利要求6或7所述的方法，其中，基于应用于所述多个频带中的一个频带处的SRR的激活函数，计算该频带的房间谐振量。

9.根据权利要求5-8中任一项所述的方法，其中针对每个频带的调整后的混响抑制增益基于：

在每个频带处的并且针对输入音频信号的所述多个帧中的至少一帧的房间共振量的缩放值；或者

在输入音频信号的多个帧上平均的在每个频带处的平均房间共振量的缩放值。

10.根据权利要求1至9中任一项所述的方法，其中，调整后的混响抑制增益还基于初始混响抑制增益对输入音频信号的直达部分的影响来调整输入音频信号的响度，并且，其中计算调整后的混响抑制增益还包括：

对于输入音频信号的帧选择超过阈值的初始混响抑制增益；

基于所选择的初始混响抑制增益对于输入音频信号的帧估计与输入音频信号的直达部分相关联的统计量，其中调整后的混响抑制增益是基于与输入音频信号的直达部分相关联的被估计统计数据的。

11.根据权利要求10所述的方法，还包括：

基于所选择的初始混响抑制增益来计算经平滑的初始混响抑制增益，其中与输入音频信号的直达部分相关联的被估计统计数据包括应用于输入音频信号的直达部分的估计增益，并且其中应用于输入音频信号的直达部分的估计增益是基于经平滑的初始混响抑制增益的。

12.根据权利要求11所述的方法，其中计算经平滑的初始混响抑制增益包括对所选择的初始混响抑制增益应用单极平滑。

13.根据权利要求11或12中任一项所述的方法，其中，通过将应用于输入音频信号的直达部分的估计增益与目标增益进行比较来计算调整后的混响抑制增益。

14.根据权利要求10所述的方法，其中与所述输入音频信号的直达部分相关联的被估计统计数据包括基于所选择的初始混响抑制增益针对所述输入音频信号的帧的音频信号的直达部分的经平滑响度水平。

15.根据权利要求14所述的方法，其中，通过将输入音频信号的直达部分的平滑响度水平与目标响度水平进行比较来计算调整后的混响抑制增益。