CN117643075A

CN117643075A - 用于言语增强的数据扩充

Info

Publication number: CN117643075A
Application number: CN202280049982.6A
Authority: CN
Inventors: 戴佳; 李凯; 刘晓宇; R·J·卡特怀特; 杨少凡
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2021-07-15
Filing date: 2022-07-12
Publication date: 2024-03-01
Also published as: WO2023287782A1; EP4371311A1

Abstract

提供了一种用于对音频信号进行去混响的方法。在一些实施方式中，所述方法涉及：获得真实声脉冲响应(AIR)；识别所述真实AIR的与直达声的早期反射相对应的第一部分和所述真实AIR的与所述直达声的晚期反射相对应的第二部分；通过修改所述真实AIR的第一部分和/或所述真实AIR的第二部分来生成一个或多个合成AIR；以及使用所述真实AIR和所述一个或多个合成AIR来生成多个训练样本，每个训练样本包括输入音频信号和混响音频信号，其中，所述混响音频信号是基于所述输入音频信号以及所述真实AIR或所述一个或多个合成AIR之一中的至少一者来生成的，所述多个训练样本被用于训练机器学习模型。

Description

用于言语增强的数据扩充

相关申请的交叉引用

本申请要求于2021年8月12日提交的美国临时申请号63/260,201和于2021年7月15日提交的国际申请号PCT/CN2021/106536的优先权权益，所述申请的内容特此以其整体并入本文。

技术领域

本公开涉及用于经由衰减失真进行言语增强的系统、方法和介质。

背景技术

音频设备，如耳机、扬声器等被广泛部署。人们经常收听到可能包括如混响和/或噪声等失真的音频内容(例如，播客、广播节目、电视节目、音乐视频、用户生成内容、短视频、视频会议、电话会议、小组讨论、采访等)。另外，音频内容可以包括远场音频内容，比如背景噪声。可以对这种音频内容执行增强，比如去混响和/或噪声抑制。然而，增强技术可能会引入不必要的感知失真，比如响度或音色的变化。

符号和术语

在整个本公开中，包括在权利要求书中，术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器(或一组换能器)。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器和高音扬声器)，所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中，(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。

在整个本公开中，包括在权利要求中，在广义上使用“对”信号或数据执行操作的表达(例如，对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或对信号或数据的已处理版本(例如，在对其执行操作之前已经历了初步滤波或预处理的信号版本)执行操作。

在整个本公开中，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这样的子系统的系统(例如，响应于多个输入而生成X个输出信号的系统，其中，子系统生成M个输入，而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。

在整个本公开中，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)成对数据(例如，音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。

发明内容

本公开的至少一些方面可以经由方法来实施。一些方法可以涉及由控制系统获得真实声脉冲响应(AIR)。一些方法可以涉及由控制系统识别真实AIR的与直达声的早期反射相对应的第一部分和真实AIR的与直达声的晚期反射相对应的第二部分。一些方法可以涉及由控制系统通过修改真实AIR的第一部分和/或真实AIR的第二部分来生成一个或多个合成AIR。一些方法可以涉及由控制系统使用真实AIR和一个或多个合成AIR来生成多个训练样本，每个训练样本包括输入音频信号和混响音频信号，其中，混响音频信号是至少部分地基于输入音频信号以及真实AIR或一个或多个合成AIR之一中的一者来生成的，其中，所述多个训练样本被用于训练机器学习模型，所述机器学习模型将具有混响的测试音频信号作为输入并生成去混响音频信号作为输出。

在一些示例中，识别真实AIR的与早期反射相对应的第一部分和真实AIR的与晚期反射相对应的第二部分包括选择预定范围内的随机时间值，其中，第一部分包括真实AIR的在随机时间值之前的部分，并且其中，第二部分包括真实AIR的在随机时间值之后的部分。在一些示例中，预定范围为约20毫秒至约80毫秒。

在一些示例中，修改真实AIR的第二部分包括在从晚期反射持续时间的预定范围中随机选择的持续时间之后截断真实AIR的第二部分。

在一些示例中，修改真实AIR的第二部分包括修改包括在真实AIR的第二部分中的一个或多个响应的幅度。在一些示例中，修改包括在真实AIR的第二部分中的一个或多个响应的幅度包括：确定与所述真实AIR的第二部分相关联的目标衰减函数；以及根据所述目标衰减函数修改包括在所述真实AIR的第二部分中的一个或多个响应的幅度。

在一些示例中，混响音频信号是通过将输入音频信号与真实AIR或一个或多个合成AIR之一中的一者进行卷积而生成的。

在一些示例中，方法可以进一步涉及将噪声添加到输入音频信号与真实AIR或一个或多个合成AIR之一中的一者的卷积中，以生成混响音频信号。

在一些示例中，方法可以进一步涉及通过以下方式来生成附加的合成AIR：识别所述真实AIR的更新的第一部分和所述真实AIR的更新的第二部分；以及修改所述真实AIR的更新的第一部分和/或所述真实AIR的更新的第二部分。

在一些示例中，方法可以进一步涉及将多个训练样本提供给机器学习模型以生成经训练的机器学习模型，所述经训练的机器学习模型将具有混响的测试音频信号作为输入并生成去混响音频信号作为输出。在一些示例中，测试音频信号是现场捕获的音频信号。

在一些示例中，真实AIR是在物理房间中测量的测得的AIR。

在一些示例中，真实AIR是使用房间声学模型生成的。

在一些示例中，输入音频信号与特定音频内容类型相关联。在一些示例中，特定音频内容类型包括远场噪声。在一些示例中，特定音频内容类型包括在室内环境中捕获的音频内容。在一些示例中，方法可以进一步涉及在生成多个训练样本之前获得多个输入音频信号的训练集，每个输入音频信号与特定音频内容类型相关联。

本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括比如本文所描述的那些存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此，可以经由其上存储有软件的一种或多种非暂态介质来实施本公开内容中描述的主题的一些创新方面。

本公开的至少一些方面可以经由装置来实施。例如，一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中，装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。

在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从说明书、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。

附图说明

图1示出了根据一些实施方式的时域和频域中的音频信号的示例。

图2示出了根据一些实施方式的用于执行音频信号的去混响的示例系统的框图。

图3示出了根据一些实施方式的用于执行音频信号的去混响的过程的示例。

图4A和图4B示出了声脉冲响应(AIR)的示例。

图5A示出了根据一些实施方式的用于生成合成AIR的过程的示例。

图5B示出了根据一些实施方式的用于使用合成AIR生成训练集的过程的示例。

图6示出了根据一些实施方式的用于对音频信号进行去混响的机器学习模型的示例架构。

图7示出了根据一些实施方式的用于训练对音频信号进行去混响的机器学习模型的示例过程。

图8示出了根据一些实施方式的用于执行音频信号的去混响的示例系统的框图。

图9示出了图示能够实施本公开的各个方面的装置的部件的示例的框图。

在各个附图中，相似的附图标记和名称指示相似的元素。

具体实施方式

音频信号可能包括各种类型的失真，比如噪声和/或混响。例如，当音频信号因各种表面(例如，墙壁、天花板、地板、家具等)的各种反射而失真时，就会发生混响。混响可能对声音质量和言语可懂度产生重大影响。因此，可以执行音频信号的去混响，例如以提高言语可懂度和清晰度。

到达接收器(例如，人类听众、麦克风等)的声音由直达声和混响声组成，直达声包括直接来自声源且没有任何反射的声音，混响声包括从环境中的各个表面反射的声音。混响声包括早期反射和晚期反射。早期反射可能在直达声之后不久或与直达声同时到达接收器，并且因此可以部分地集成到直达声中。早期反射与直达声的集成产生了频谱着色效果，这有助于提高感知的声音质量。晚期反射在早期反射之后到达接收器(例如，在直达声之后超过50至80毫秒到达)。晚期反射可能会对言语可懂度产生不利影响。因此，可以对音频信号执行去混响以减少音频信号中存在的晚期反射的影响，从而提高言语可懂度。

图1示出了时域输入音频信号100和对应的频谱图102的示例。如频谱图102中所图示的，早期反射可以在频谱图104中产生如频谱着色106所描绘的变化。频谱图104还图示了可能对言语可懂度有不利影响的晚期反射108。

对音频信号执行增强(例如，去混响和/或噪声抑制)使得通过增强来提高言语可懂度并且使得保持音频信号的感知质量可能很困难。例如，可以使用如深度神经网络等机器学习模型来预测去混响掩码，所述去混响掩码在应用于混响音频信号时生成去混响音频信号。然而，训练这种机器学习模型可能计算量大且效率低。例如，这种机器学习模型可能需要高度的复杂性才能达到一定程度的准确性。作为更具体的示例，这种机器学习模型可能包括大量的层，从而需要优化对应的大量参数。此外，这种复杂的机器学习模型可能容易过度拟合，这是由于在有限的训练集上进行训练并且要优化大量参数。在这种情况下，这种机器学习模型训练起来可能计算量大，并且最终可能实现较低的性能。

本文公开了用于使用低复杂性机器学习模型和/或使用扩充训练集来增强音频信号的方法、系统、介质和技术。如本文所述(例如，结合图4A、图4B、图5A和图5B)，可以通过生成合成声脉冲响应(AIR)来生成扩充训练集。扩充训练集可能能够更好地涵盖房间环境、噪声、扬声器类型等的潜在组合，这可以允许使用更大和更具代表性的训练集来训练机器学习模型，从而减轻模型过度拟合的问题。另外，如本文所述，可以使用利用具有相对较少层数(并且因此，要优化的参数相对较少)的卷积神经网络(CNN)以及循环元件的低复杂性机器学习模型。通过将CNN与循环元件并行地组合(例如，如下文结合图6所示出和描述的)，可以训练以计算高效的方式生成平滑增强掩码的低复杂性机器学习模型。特别地，循环元件可以向CNN部分通知要在后续训练迭代中使用的音频信号，从而产生更平滑的预测增强掩码。可以使用的循环元件的示例包括门控循环单元(GRU)、长短期记忆(LSTM)网络、埃尔曼循环神经网络(RNN)和/或任何其他合适的循环元件。此外，本文描述了允许机器学习模型生成相对于输入的失真音频信号中的感兴趣信号准确的预测增强音频信号并且进行优化以最小化预测的纯净音频信号中的混响度的损失函数。特别地，如结合图7更详细描述的，这种损失函数可以结合近似于预测的纯净音频信号中的混响度的参数，从而允许基于感兴趣的最终参数(即，与输入信号相比，输出信号是否实质上去混响)来训练机器学习模型。

在一些实施方式中，可以使用经训练的机器学习模型来增强输入音频信号。在一些实施方式中，可以通过提取频域特征将输入音频信号变换到频域。在一些实施方式中，可以将基于人耳蜗处理的感知变换应用于频域表示以获得带状特征。可以应用于频域表示的感知变换的示例包括伽马通滤波器(Gammatone filter)、等效矩形带宽滤波器、基于梅尔标度(Mel scale)的变换等。在一些实施方式中，频域表示可以作为输入提供给经训练的机器学习模型，所述经训练的机器学习模型生成预测增强掩码作为输出。预测增强掩码可以是掩码的频域表示，所述掩码在应用于输入音频信号的频域表示时生成增强的音频信号。在一些实施方式中，可以将感知变换的逆变换应用于预测增强掩码以生成经修改的预测增强掩码。然后，可以通过将输入音频信号的频域表示与经修改的预测增强掩码相乘来生成增强的音频信号的频域表示。然后，可以通过将增强的音频信号的频域表示变换到时域来生成增强的音频信号。

换句话说，用于增强音频信号的经训练的机器学习模型可以被训练成为给定的频域输入音频信号生成预测增强掩码，所述预测增强掩码在应用于频域输入音频信号时生成对应的增强音频信号的频域表示。在一些实施方式中，可以通过将输入音频信号的频域表示与预测增强掩码相乘来将预测增强掩码应用于输入音频信号的频域表示。可替代地，在一些实施方式中，可以取输入音频信号的频域表示的对数。在这样的实施方式中，可以通过从增强的音频信号的频域表示的对数中减去预测增强掩码的对数来获得增强的音频信号的频域表示。

应当注意，在一些实施方式中，训练机器学习模型可以包括确定与机器学习模型的一个或多个节点和/或节点之间的连接相关联的权重。在一些实施方式中，可以在第一设备(例如，服务器、台式计算机、膝上型计算机等)上训练机器学习模型。一旦进行训练，与经训练的机器学习模型相关联的权重然后可以被提供给(例如，传输到)第二设备(例如，服务器、台式计算机、膝上型计算机、媒体设备、智能电视、移动设备、可穿戴计算机等)，以供第二设备在对音频信号进行去混响时使用。

图2和图3示出了用于对音频信号进行去混响的系统和技术的示例。应当注意，尽管图2和图3描述了对音频信号进行去混响，但是结合图2和图3描述的系统和技术也可以应用于其他类型的增强，比如噪声抑制、噪声抑制和去混响的组合等。换句话说，在一些实施方式中，可以生成预测增强掩码，而不是生成预测去混响掩码和预测的去混响音频信号，并且预测增强掩码可以用于生成预测的增强音频信号，其中，预测的增强音频信号是失真输入音频信号的去噪和/或去混响版本。

图2示出了根据一些实施方式的用于对音频信号进行去混响的系统200的示例。如所图示的，去混响音频部件206将输入音频信号202作为输入，并生成去混响音频信号204作为输出。在一些实施方式中，去混响音频部件206包括特征提取器208。特征提取器208可以生成输入音频信号202的频域表示，所述频域表示可以被认为是输入信号频谱。输入信号频谱然后可以被提供给经训练的机器学习模型210。经训练的机器学习模型210可以生成预测去混响掩码作为输出。预测去混响掩码可以被提供给去混响信号频谱生成器212。去混响信号频谱生成器212可以将预测去混响掩码应用于输入信号频谱，以生成去混响信号频谱(例如，去混响音频信号的频域表示)。去混响信号频谱然后可以被提供给时域变换部件214。时域变换部件214可以生成去混响音频信号204。

图3示出了根据一些实施方式的用于对音频信号进行去混响的示例过程300。在一些实施方式中，在图2中示出并且在上文中结合该图进行描述的系统可以实施过程300的框以生成去混响音频信号。在一些实施方式中，过程300的框可以由用户设备来实施，比如移动电话、平板计算机、膝上型计算机、可穿戴计算机(例如，智能手表等)、台式计算机、游戏控制台、智能电视等。在一些实施方式中，过程300的框可以按照图3中未示出的顺序执行。在一些实施方式中，过程300的一个或多个框可以被省略。在一些实施方式中，过程300的两个或更多个框可以基本上并行地执行。

过程300可以开始于302，即，接收包括混响的输入音频信号。输入音频信号可以是现场捕获的音频信号，比如现场流式传输的内容、对应于正在进行的视频会议或音频会议的音频信号等。在一些实施方式中，输入音频信号可以是预先记录的音频信号，比如与预先记录的音频内容(例如，电视内容、视频、电影、播客等)相关联的音频信号。在一些实施方式中，输入音频信号可以由用户设备的麦克风接收。在一些实施方式中，输入音频信号可以比如从服务器设备、另一用户设备等传输到用户设备。

在304处，过程300可以通过生成输入音频信号的频域表示来提取输入音频信号的特征。例如，过程300可以使用如短时傅里叶变换(STFT)、改进离散余弦变换(MDCT)等变换来生成输入音频信号的频域表示。在一些实施方式中，输入音频信号的频域表示在本文中被称为输入音频信号的“装箱特征”。在一些实施方式中，输入音频信号的频域表示可以通过应用模拟人耳蜗的滤波的基于感知的变换来进行修改。基于感知的变换的示例包括伽马通滤波器、等效矩形带宽滤波器、梅尔标度滤波器等。经修改的频域变换在本文中有时被称为输入音频信号的“装箱特征”。

在306处，过程300可以将所提取的特征(例如，输入音频信号的频域表示或输入音频信号的经修改的频域表示)提供给经训练的机器学习模型。机器学习模型可能已经被训练成生成去混响掩码，所述去混响掩码在被应用于输入音频信号的频域表示时生成去混响音频信号的频域表示。在一些实施方式中，可以将所提取特征的对数提供给经训练的机器学习模型。

机器学习模型可以具有任何合适的架构或拓扑。例如，在一些实施方式中，机器学习模型可以是或者可以包括深度神经网络、卷积神经网络(CNN)、长短期记忆(LSTM)网络、循环神经网络(RNN)等。在一些实施方式中，机器学习模型可以组合两种或更多种类型的网络。例如，在一些实施方式中，机器学习模型可以将CNN与循环元件组合。可以使用的循环元件的示例包括GRU、LSTM网络、埃尔曼RNN等。下文结合图6示出和描述了将CNN与GRU组合的机器学习模型架构的示例。注意，下文结合图7示出和描述了用于训练机器学习模型的技术。

在308处，过程300可以从经训练的机器学习模型的输出中获得预测去混响掩码，所述预测去混响掩码在应用于输入音频信号的频域表示时生成去混响音频信号的频域表示。在一些实施方式中，过程300可以通过应用基于感知的逆变换(如逆伽马通滤波器、逆等效矩形带宽滤波器等)来修改预测去混响掩码。

在310处，过程300可以基于由经训练的机器学习模型生成的预测去混响掩码和输入音频信号的频域表示来生成去混响音频信号的频域表示。例如，在一些实施方式中，过程300可以将预测去混响掩码与输入音频信号的频域表示相乘。在其中输入音频信号的频域表示的对数被提供给经训练的机器学习模型的实例中，过程300可以通过从输入音频信号的频域表示的对数中减去预测混响掩码的对数来生成去混响音频信号的频域表示。继续该示例，过程300然后可以对预测混响掩码的对数与输入音频信号的频域表示的对数之差求幂，以获得去混响音频信号的频域表示。

在312处，过程300可以生成去混响音频信号的时域表示。例如，在一些实施方式中，过程300可以通过对去混响音频信号的频域表示应用逆变换(例如，逆STFT、逆MDCT等)来生成去混响音频信号的时域表示。

过程300可以在314处结束。

在一些实施方式中，在生成去混响音频信号的时域表示之后，可以(例如，通过用户设备的一个或多个扬声器设备)播放或呈现去混响音频信号。在一些实施方式中，去混响音频信号可以被存储，比如存储在用户设备的本地存储器中。在一些实施方式中，去混响音频信号可以被传输，比如传输到另一个用户设备以供该另一个用户设备呈现、传输到服务器以供存储，等等。

在一些实施方式中，可以使用训练集来训练用于对音频信号进行去混响的机器学习模型。训练集可以包括任何合适数量的训练样本(例如，100个训练样本、1000个训练样本、10,000个训练样本等)，其中，每个训练样本包括纯净音频信号(例如，无混响)和对应的混响音频信号。如上文结合图2和图3所述，可以使用训练集来训练机器学习模型以生成预测去混响掩码，所述预测去混响掩码在应用于特定的混响音频信号时生成预测的去混响音频信号。

训练可以为不同的混响音频信号鲁棒地生成预测去混响掩码的机器学习模型可以取决于训练集的质量。例如，为了使机器学习模型具有鲁棒性，训练集可能需要捕获来自大量不同的房间类型(例如，具有不同大小、布局、家具等的房间)、大量不同的扬声器等的混响。获取这样的训练集是很困难的。例如，可以通过将各自表征房间混响的各种AIR应用于纯净音频信号来生成训练集，从而生成多对纯净音频信号和对应的混响音频信号，所述对应的混响音频信号是通过将AIR与纯净音频信号进行卷积而生成的。然而，可用的真实AIR的数量可能有限，并且可用的真实AIR可能不完全表征潜在的混响效果(例如，由于未充分捕获不同尺寸、布局等的房间)。

本文公开了用于生成扩充训练集的技术，所述扩充训练集可以用于训练用于对音频信号进行去混响的鲁棒机器学习模型。在一些实施方式中，使用真实AIR来生成一组合成AIR。合成AIR可以通过改变和/或修改测得的AIR的早期反射和/或晚期反射的各种特性来生成，如下文结合图4A、图4B和图5A所示出和描述的。在一些实施方式中，真实AIR可以是(例如，使用放置在房间中的一个或多个麦克风)在房间环境中测量的测得的AIR。可替代地，在一些实施方式中，真实AIR可以是模拟的AIR，所述模拟的AIR例如使用结合了房间形状、房间中的材料、房间的布局、房间内的物体(例如，家具)和/或其任何组合的房间声学模型来生成。相比之下，合成AIR可以是基于真实AIR生成的AIR(例如，通过修改真实AIR的分量和/或特性)，而不论真实AIR是使用房间声学模型来测量的还是生成的。换句话说，真实AIR可以被认为是生成一个或多个合成AIR的起点。下文结合图5A示出和描述了用于生成合成AIR的技术。然后，可以使用真实和/或合成AIR来生成包括基于真实和合成AIR生成的训练样本的训练集，如下文结合图5B所示出和描述的。例如，训练样本可以包括纯净音频信号和对应的混响音频信号，所述对应的混响音频信号是通过将合成AIR与纯净音频信号进行卷积而生成的。因为许多合成AIR可以从单个真实AIR中生成，并且因为多个混响音频信号可以从单个纯净音频信号和单个AIR(无论是测量的还是合成的)中生成，所以扩充训练集可以包括更好地捕获潜在混响效应的扩展的更多训练样本，从而在用扩充训练集进行训练时生成更鲁棒的机器学习模型。

图4A示出了混响环境中测得的AIR的示例。如所图示的，早期反射402可以与直达声406同时或在所述直达声之后不久到达接收器。相比之下，晚期反射404可以在早期反射402之后到达接收器。晚期反射404与持续时间408相关联，所述持续时间可以为大约100毫秒、0.5秒、1秒、1.5秒等。晚期反射404还与衰减410相关联，所述衰减表征了晚期反射404的幅度如何随时间减弱或减小。在一些实例中，衰减410可以被表征为指数衰减、线性函数、多项式函数的一部分等。早期反射与晚期反射之间的边界可以在约50毫秒和80毫秒的范围内。

图4B示出了可以如何修改图4A中描绘的AIR以生成合成AIR的示意性图示。在一些实施方式中，早期反射402的分量时间可以被修改。例如，如图4B所图示的，早期反射分量456的时间可以在合成AIR中进行修改，例如，修改为比测得的AIR中的早期反射分量的时间更早或更晚。在一些实施方式中，晚期反射的持续时间可以被修改。例如，参考图4B中所描绘的合成AIR，持续时间458相对于对应的测得的AIR的持续时间408被截断。在一些实施方式中，可以在合成AIR中修改晚期反射的衰减形状。例如，参考图4B中所描绘的合成AIR，衰减458比测得的AIR的对应衰减408更陡，从而导致合成AIR的晚期反射分量相对于测得的AIR减弱得更多。

图5A示出了用于从单个真实AIR中生成一个或多个合成AIR的过程500的示例。在一些实施方式中，过程500的框可以由生成扩充训练集的设备(如服务器、台式计算机、膝上型计算机等)来实施，所述扩充训练集用于训练用于对音频信号进行去混响的机器学习模型。在一些实施方式中，过程500的两个或更多个框可以基本上并行地执行。在一些实施方式中，过程500的框可以按照图5A中未示出的顺序执行。在一些实施方式中，过程500的一个或多个框可以被省略。

过程500可以开始于502，即，获得AIR。AIR可以是真实AIR。例如，AIR可以使用混响房间环境内的一组麦克风来测量。作为另一个示例，AIR可以是使用房间声学模型生成的AIR。AIR可以从任何合适的来源获得，比如存储测得的AIR的数据库等。

在504处，过程500可以识别AIR的与直达声的早期反射相对应的第一部分和AIR的与直达声的晚期反射相对应的第二部分。在一些实施方式中，过程500可以通过识别AIR中的早期反射与晚期反射之间的分离边界来识别第一部分和第二部分。分离边界可以对应于AIR中将AIR分成早期反射和晚期反射的时间点。在一些实施方式中，可以通过从预定范围内选择随机值来识别分离边界。预定范围的示例包括15毫秒至85毫秒、20毫秒至80毫秒、30毫秒至70毫秒等。在一些实施方式中，分离边界可以是从对应于预定范围的任何合适分布(例如，均匀分布、正态分布等)中选择的随机值。

在506处，过程500可以通过修改AIR的早期反射和/或晚期反射的部分来生成一个或多个合成AIR。在一些实施方式中，可以基于在框504处识别的分离边界在AIR内识别早期反射和晚期反射。在一些实施方式中，过程500可以通过修改AIR的早期反射的部分来生成合成AIR。例如，如在图4B中示出并且在上文中结合该图进行描述的，过程500可以修改早期反射的一个或多个分量的时间点。在一些实施方式中，过程500可以修改早期反射的一个或多个分量的顺序。例如，在一些实施方式中，过程500可以修改早期反射的一个或多个分量的顺序，使得早期反射的一个或多个分量在AIR的早期反射部分内具有不同的时间点。在一些实施方式中，AIR的早期反射部分的分量可以被随机化。

在一些实施方式中，过程500可以通过修改AIR的晚期反射的部分来生成合成AIR。例如，如在图4B中示出并且在上文中结合该图进行描述的，过程500可以通过随机选择持续时间然后从预定范围截断晚期反射来修改合成AIR中的晚期反射的持续时间。在一些实施方式中，可以基于在框502处识别的分离AIR的第一部分和AIR的第二部分的时间点(例如，分离边界)来确定预定范围。例如，在一些实施方式中，可以在从分离边界至1秒、从分离边界至1.5秒等的范围中选择的随机选择的持续时间处截断晚期反射。

作为另一个示例，在一些实施方式中，过程500可以通过修改与晚期反射相关联的衰减来生成合成AIR。作为更具体的示例，在一些实施方式中，过程500可以生成衰减函数(例如，指数衰减函数、线性衰减等)。继续该更具体的示例，过程500然后可以根据生成的衰减函数来修改晚期反射的分量幅度。在一些实施方式中，这可能导致合成AIR的晚期反射分量相对于测得的AIR的对应晚期反射分量有所减弱。相反，在一些实施方式中，这可能导致合成AIR的晚期反射分量相对于测得的AIR的对应晚期反射分量有所放大或增强。与晚期反射相关联的衰减的修改可以改变混响时间(RT)，比如混响时间减少60dB(例如，RT60)。

应当注意，在一些实施方式中，合成AIR可以包括对早期反射分量和晚期反射分量的修改。此外，在一些实施方式中，早期反射分量和/或晚期反射分量可以在合成AIR中相对于真实AIR以多种方式进行修改。例如，在一些实施方式中，合成AIR可以包括已经被截断的晚期反射以及已经至少部分地基于应用于合成AIR的晚期反射的经修改衰减而在幅度上进行修改的晚期反射分量。

另外，在一些实施方式中，合成AIR可以进一步被修改，例如，在后处理中进行修改。例如，在一些实施方式中，可以修改与合成AIR相关联的直接混响比(DRR)。作为更具体的示例，在一些实施方式中，可以通过对一部分(例如，合成AIR的早期反射部分)应用增益以增加或减少DRR来修改与合成AIR相关联的DRR。在一些实施方式中，可以从单个合成AIR中生成多个经修改的合成AIR。例如，在一些实施方式中，可以通过对单个合成AIR应用各自对应于不同经修改的合成AIR的不同增益来生成多个经修改的合成AIR。

在508处，过程500可以基于在框502处获得的AIR来确定是否要生成附加的合成AIR。在一些实施方式中，过程500可以基于是否已经生成要从AIR中生成的目标或阈值数量的合成AIR来确定是否要生成附加的合成AIR。例如，在要从特定AIR中生成N个合成AIR的实例中，过程500可以确定是否已经从在框502处获得的AIR中生成N个合成AIR。应当注意，N可以是任何合适的值，比如1、5、10、20、50、100、500、1000、2000等。

如果在508处，过程500确定不生成附加的合成AIR(在框508处为“否”)，则过程500可以在510处结束。相反，如果在框508处，过程500确定要生成附加的合成AIR(在框508处为“是”)，则过程500可以循环回到框504，并且可以识别在框502处获得的不同的AIR的第一部分和AIR的第二部分。通过循环通过框504-508，过程500可以从单个测得的AIR中生成多个合成AIR。

图5B示出了用于使用真实和/或合成AIR来生成扩充训练集的过程550的示例。扩充训练集可以用于训练用于对音频信号进行去混响的机器学习模型。在一些实施方式中，过程550的框可以由适于生成扩充训练集的设备来实施，比如服务器、台式计算机、膝上型计算机等。在一些实施方式中，设备可以与实施过程500的框的设备相同，如在图5A中示出并且在上文中结合该图进行描述的。在一些实施方式中，过程550的两个或更多个框可以基本上并行地执行。在一些实施方式中，过程550的框可以按照不同于图5B所示的顺序执行。在一些实施方式中，过程550的一个或多个框可以被省略。

过程550可以开始于552，即，获得一组纯净输入音频信号(例如，没有任何混响和/或噪声的输入音频信号)。所述一组纯净输入音频信号中的纯净输入音频信号可能已经被任何合适数量的设备(或与任何合适数量的设备相关联的麦克风)记录。例如，在一些实施方式中，所述纯净输入音频信号中的两个或更多个可能已经被同一设备记录。作为另一个示例，在一些实施方式中，所述纯净输入音频信号中的每一个可能已经被不同设备记录。在一些实施方式中，所述纯净输入音频信号中的两个或更多个可能已经在同一房间环境中被记录。在一些实施方式中，所述纯净输入音频信号中的每一个可能已经在不同房间环境中被记录。在一些实施方式中，所述一组纯净输入音频信号中的纯净输入音频信号可以包括如言语、音乐、音效等可听声音类型的任何组合。然而，每个纯净输入音频信号可能没有混响、回声和/或噪声。

在框554处，过程550可以获得包括真实AIR和/或合成AIR的一组AIR。所述一组AIR可以包括任何合适数量的AIR(例如，100个AIR、200个AIR、500个AIR等)。所述一组AIR可以包括真实AIR与合成AIR的任何合适的比率，比如90％合成AIR和10％真实AIR、80％合成AIR和20％真实AIR等。用于生成合成AIR的更详细技术在图5A中示出并且在上文中结合该图进行描述。

在框556处，过程550可以基于纯净输入音频信号和AIR为所述一组纯净输入音频信号中的纯净输入音频信号和所述一组AIR中的AIR的每个成对组合生成混响音频信号。例如，在一些实施方式中，过程550可以将AIR与纯净输入音频信号进行卷积以生成混响音频信号。在一些实施方式中，给定N个纯净输入音频信号和M个AIR，过程550可以生成至多N×M个混响音频信号。

在一些实施方式中，在框558处，过程550可以为在框556处生成的一个或多个混响音频信号添加噪声以生成有噪声的混响音频信号。可以添加的噪声的示例包括白噪声、粉噪声、棕噪声、多说话者言语嘈杂声等。过程550可以向不同的混响音频信号添加不同类型的噪声。例如，在一些实施方式中，过程550可以向第一混响音频信号添加白噪声以生成第一有噪声的混响音频信号。继续该示例，在一些实施方式中，过程550可以向第一混响音频信号添加多说话者言语嘈杂声以生成第二有噪声的混响音频信号。更进一步地继续该示例，在一些实施方式中，过程550可以向第二混响音频信号添加棕噪声以生成第三有噪声的混响音频信号。换句话说，在一些实施方式中，可以通过向混响音频信号添加不同类型的噪声来生成不同版本的有噪声的混响音频信号。应当注意，在一些实施方式中，框558可以被省略，并且可以在不向任何混响音频信号添加噪声的情况下生成训练集。

在框558结束时，过程550已经生成了包括多个训练样本的训练集。每个训练样本可以包括纯净音频信号和对应的混响音频信号。混响音频信号可以或可以不包括添加的噪声。应当注意，在一些实施方式中，单个纯净音频信号可以与多个训练样本相关联。例如，通过将纯净音频信号与多个不同的AIR进行卷积，纯净音频信号可以用于生成多个混响音频信号。作为另一个示例，单个混响音频信号(例如，通过将单个纯净音频信号与单个AIR进行卷积而生成的)可以用于生成多个有噪声的混响音频信号，每个混响音频信号对应于添加到单个混响音频信号的不同类型的噪声。因此，单个纯净音频信号可以与10个、20个、30个、100个等训练样本相关联，每个训练样本包括不同的对应混响音频信号(或有噪声的混响音频信号)。

在一些实施方式中，可以为特定类型的音频内容生成扩充训练集。例如，特定类型的音频内容可以对应于可能特别难以进行去混响的某种类型的音频内容。举例来说，可能难以对包括远场噪声的音频信号执行去混响，所述远场噪声比如是包括近场言语(例如，来自视频会议、来自音频呼叫等)的音频信号的背景中的狗吠声或婴儿哭声的噪声。难以对远场噪声执行去混响可能导致较差的噪声管理(例如，音频信号的去噪)。因为远场噪声的去混响可能取决于房间特性/声学和/或特定噪声，所以可能难以将模型训练成对这种远场噪声执行去混响。例如，用于训练这种模型的训练数据集可能不具有存在于扩展的房间声学集合中的特定类型的远场噪声的足够训练样本，从而使得用这种有限训练集训练的模型不太鲁棒。因此，为特定类型的音频内容生成扩充训练集可以允许训练更鲁棒的模型。在一些实施方式中，特定类型的音频内容可以包括特定类型的声音或事件(例如，狗吠声、婴儿哭声、经过的紧急警笛声等)和/或特定的音频环境(例如，室内环境、室外环境、室内共享工作空间等)。在一些实施方式中，可以通过首先识别包括特定类型的音频内容的音频信号的训练集来生成扩充训练集。例如，可以获得包括近场言语背景中的狗吠声的训练集。作为另一个示例，可以获得包括在近场言语背景中经过的远场警笛声的训练集。在一些实施方式中，因为混响通常存在于室内环境中，所以可以获得包括在室内环境中捕获的音频内容(并且不包括在室外环境中生成的音频内容)的训练集。注意，在一些实施方式中，可以通过应用来自将每个音频信号分类为与特定类型的音频内容相关联的音频信号语料库的音频信号来获得训练集。在一些实施方式中，可以通过对所识别的训练集应用合成AIR和/或特定类型的噪声(例如，言语噪声、室内房间噪声等)以生成扩充训练集来生成扩充训练集。

应当注意，在一些实施方式中，扩充训练集可以用于训练除了去混响模型之外的言语增强模型。例如，在一些实施方式中，这种扩充训练集可以用于训练用于噪声管理(例如，去噪)的机器学习模型、执行噪声管理和去混响的组合的机器学习模型等。

用于对音频信号进行去混响的机器学习模型可以具有各种类型的架构。机器学习模型可以将混响音频信号的频域表示作为输入并产生预测去混响掩码作为输出，所述预测去混响掩码在应用于混响音频信号的频域表示时生成去混响(例如，纯净)音频信号的频域表示。示例架构类型包括CNN、LSTM、RNN、深度神经网络等。在一些实施方式中，机器学习模型可以组合两种或更多种架构类型，比如CNN和循环元件。在一些这样的实施方式中，CNN可以用于提取不同分辨率的输入混响音频信号的特征。在一些实施方式中，循环元件可以用作控制CNN所使用的先前提供的输入数据的量的存储器门。结合CNN使用循环元件可以允许机器学习模型产生更平滑的输出。另外，结合CNN使用循环元件可以允许机器学习模型实现更高的准确度并且减少训练时间。因此，结合CNN使用循环元件可以通过减少用于训练对音频信号进行去混响的鲁棒、准确的机器学习模型的时间和/或计算资源来提高计算效率。可以使用的循环元件类型的示例包括GRU、LSTM网络、埃尔曼RNN和/或任何其他合适类型的循环元件或架构。

在一些实施方式中，循环元件可以与CNN组合，使得循环元件和CNN并行。例如，循环元件的输出可以被提供给CNN的一个或多个层，使得CNN基于CNN层的输出和循环元件的输出生成输出。

在一些实施方式中，机器学习模型中利用的CNN可以包括多个层。每一层可以提取不同分辨率的输入混响音频信号频谱的特征(例如，混响音频信号的频域表示)。在一些实施方式中，CNN的层可以具有不同的膨胀因子。使用大于1的膨胀因子可以有效地增加用于膨胀因子大于1的特定层的卷积滤波器的感受野，但是不增加参数的数量。因此，使用大于1的膨胀因子可以允许机器学习模型被更鲁棒地训练(通过增加感受野大小)，同时不增加复杂性(例如，通过保持要学习或优化的多个参数)。在一个示例中，CNN可以具有各自具有增加的膨胀率的第一组层和各自具有减小的膨胀率的第二组层。在一个具体示例中，第一组层可以包括膨胀因子分别为1、2、4、8、12和20的6个层。继续该示例，第二组层可以包括膨胀因子减小的5个层(例如，膨胀因子分别为12、8、4、2和1的5个层)。CNN所考虑的感受野的大小与膨胀因子、卷积滤波器大小、步长大小和/或填充大小(例如，模型是否是因果模型)相关。举例来说，给定具有增加的膨胀因子1、2、4、8、12和20的6个CNN层、3×3的卷积滤波器大小、0步长以及因果模型，CNN可以具有(2x(1+2+4+8+12+20))+1个帧或95个帧的总感受野。作为另一个示例，膨胀为0的相同网络将具有(2*(1+1+1+1+1+1))+1＝13的感受野大小。在一些实施方式中，总感受野可以对应于延迟线持续时间，所述延迟线持续时间指示机器学习模型所考虑的频谱的持续时间。应当注意，上述膨胀因子仅仅是示例性的。在一些实施方式中，较小的膨胀因子可以用于例如减少实时音频信号持续时间的延迟持续时间。

在一些实施方式中，机器学习模型可以是零延迟的。换句话说，机器学习模型可以不使用前瞻或未来数据点。这有时被称为因果机器学习模型。相反，在一些实施方式中，机器学习模型可以实施利用前瞻块的层。

图6示出了并行地组合CNN 606和GRU 608的机器学习模型600的示例。如所图示的，机器学习模型600将混响音频信号频谱(例如，混响音频信号的频域表示)作为输入602，并生成对应于预测去混响掩码的输出604。

如所图示的，CNN 606包括具有增加的膨胀因子的第一组层610。特别地，第一组层610包括膨胀因子分别为1、2、4、8、12和20的6个层。第一组层610之后是膨胀因子减小的第二组层612。特别地，第二组层612包括膨胀因子为12、8、4、2和1的5个层。第二组层612之后是第三组层614，所述第三组层的每一层的膨胀因子均为1。在一些实施方式中，第一组层610、第二组层612和第三组层614可以各自包括卷积块。每个卷积块可以利用卷积滤波器。尽管CNN 606利用3×3大小的卷积滤波器，但这仅仅是示例性的，并且在一些实施方式中，可以使用其他滤波器大小(例如，4×4、5×5等)。如图6所图示的，CNN 606的每一层可以前馈到CNN 606的下一层或后续层。另外，在一些实施方式中，具有特定膨胀因子的层的输出可以作为具有相同膨胀因子的第二层的输入提供。例如，膨胀因子为2的第一组层610中的层可以经由连接614被提供给膨胀因子为2的第二组层612中的层。连接616、618和620类似地提供具有相同膨胀因子的层之间的连接。

如图6所图示的，GRU 608的输出可以被提供给CNN 606的各个层，使得CNN 606基于CNN 606的层以及GRU 608的输出来生成输出604。例如，如图6所图示的，GRU 608可以经由连接622、624、626、628、630和632向具有减小的膨胀因子的层(例如，向第二组层612中包括的层)提供输出。GRU 608可以具有任何合适数量的节点(例如，48、56、64等)和/或任何合适数量的层(例如，1、2、3、4、8等)。在一些实施方式中，GRU 608之前可以是第一整形块634，所述第一整形块将输入602的尺寸整形为GRU 608所适合和/或要求的尺寸。第二整形块636可以在GRU 608之后。第二整形块636可以将由GRU 608生成的输出的尺寸整形为适于提供给接收GRU 608的输出的CNN 606的每一层的尺寸。

在一些实施方式中，可以使用损失函数来训练机器学习模型，所述损失函数指示与使用由机器学习模型生成的预测去混响掩码生成的预测去混响音频信号相关联的混响度。通过训练机器学习模型来最小化包括对混响度的指示的损失函数，机器学习模型不仅可以生成在内容上与对应的混响音频信号类似的去混响音频信号(例如，包括与混响音频信号中类似的直达声内容)，而且还可以生成混响较少的去混响音频信号。在一些实施方式中，对于特定训练样本，损失项可以是预测的去混响音频信号与真实数据纯净音频信号之间的差以及与预测的去混响音频信号相关联的混响度的组合。

在一些实施方式中，损失函数中包括的混响度可以是言语到混响调制能量。在一些实施方式中，言语到混响调制能量可以是相对较高调制频率下的调制能量与所有调制频率上的调制能量的比率。在一些实施方式中，言语到混响调制能量可以是相对较高调制频率下的调制能量与相对较低调制频率上的调制能量的比率。在一些实施方式中，可以基于调制滤波器来识别相对较高的调制频率和相对较低的调制频率。例如，在M个调制频带下确定调制能量的实例中，M个(例如，3个、4个、5个等)调制频带中的最高N个调制频带可以被认为对应于“高调制频率”，并且其余频带(例如，M-N)可以被认为对应于“低调制频率”。

图7示出了根据一些实施方式的用于使用结合了预测的去混响音频信号的混响度的损失函数来训练机器学习模型的过程700的示例。在一些实施方式中，过程700的框可以由如服务器、台式计算机、膝上型计算机等设备来实施。在构建扩充训练集来训练机器学习模型的实例中，实施过程700的框的设备可以是与用于构建扩充训练集的设备相同或不同的设备。在一些实施方式中，过程700的两个或更多个框可以基本上并行地执行。在一些实施方式中，过程700的框可以按照不同于图7所示的顺序执行。在一些实施方式中，过程700的一个或多个框可以被省略。

过程700可以开始于702，即，获得包括训练样本的训练集，所述训练样本包括多对混响音频信号和纯净音频信号。在一些实施方式中，纯净音频信号可以被认为是机器学习模型要被训练以预测或生成的“真实数据”信号。在一些实施方式中，训练集可以是已经使用合成AIR构建的扩充训练集，如上文结合图4A、图4B、图5A和图5B所描述的。在一些实施方式中，过程700可以从数据库、远程服务器等获得训练集。

在704处，对于给定的训练样本(例如，对于给定的一对混响音频信号和纯净音频信号)，过程700可以向机器学习模型提供混响音频信号以获得预测去混响掩码。在一些实施方式中，过程700可以通过确定混响音频信号的频域表示并提供混响音频信号的频域表示来提供混响音频信号。在一些实施方式中，混响音频信号的频域表示可能已经使用近似于人耳蜗的滤波的滤波器进行了滤波或变换，如在图3的框304中示出并且在上文中结合该框进行描述的。

应当注意，机器学习模型可以具有任何合适的架构。例如，机器学习模型可以包括深度神经网络、CNN、LSTM、RNN等。在一些实施方式中，机器学习模型可以组合两个或更多个架构，比如CNN和循环元件。在一些实施方式中，CNN可以使用不同层的膨胀因子。可以使用的机器学习模型的具体示例在图6中示出并且在上文中结合该图进行描述。

在706处，过程700可以使用预测去混响掩码来获得预测的去混响音频信号。例如，在一些实施方式中，过程700可以将预测去混响掩码应用于混响音频信号的频域表示以获得去混响音频信号的频域表示，如在图3的框310中示出并且在上文中结合该框进行描述的。继续该示例，在一些实施方式中，过程700然后可以生成去混响音频信号的时域表示，如在图3的框312中示出并且在上文中结合该框进行描述的。

在708处，过程700可以确定与预测的去混响音频信号相关联的混响度量值。混响度量可以是预测的去混响音频信号的一个或多个帧的言语到混响调制能量(本文通常表示为f_srmr(z)，其中，z是预测的去混响音频信号)。确定言语到混响调制能量的示例方程考虑了相对较高调制频率下的能量与相对较低调制频率下的能量的比率，所述方程由下式给出：

在以上给出的方程中，z_j,k表示由第k个调制滤波器分组的第j个临界频带的帧上的平均调制能量，其中，有23个临界频带和8个调制频带。f_srmr(z)的值越高，混响度就越高。应当注意，可以使用其他数量的临界频带和/或调制频带来确定言语到混响调制能量。

在710处，过程700可以基于纯净音频信号、预测的去混响音频信号和混响度量值来确定损失项。在一些实施方式中，损失项可以是纯净音频信号与预测的去混响音频信号之间的差和混响度量值的组合。在一些实施方式中，所述组合可以是加权和，其中，混响度量值通过最小化使用机器学习模型产生的输出中的混响的重要性来加权。特定的预测去混响音频信号(本文表示为y_pre)和特定的纯净音频信号(本文表示为y_ref)的损失项的示例方程由下式给出：

损失＝(y_pre-y_ref)²+w*f_srmr(z)

如以上方程所说明的，在预测的纯净音频信号中存在相对较高程度的混响和/或预测的去混响音频信号与真实数据纯净音频信号有很大不同的实例中，损失项会增加。

在712处，过程700可以至少部分地基于损失项来更新机器学习模型的权重。例如，在一些实施方式中，过程700可以使用梯度下降和/或任何其他合适的技术来计算与机器学习模型相关联的更新权重值。权重可以基于其他因子来更新，比如学习率、丢弃率等。权重可以与机器学习模型的各种节点、层等相关联。

在框714处，过程700可以确定是否要继续训练机器学习模型。过程700可以基于是否达到停止标准的确定来确定是否要继续训练机器学习模型。停止标准可以包括确定与机器学习模型相关联的误差已经降低到预定误差阈值以下、确定与机器学习模型相关联的权重从一次迭代到下一次迭代的变化小于预定变化阈值，等等。

如果在框714处，过程700确定不继续训练机器学习模型(在框714处为“否”)，则过程700可以在716处结束。相反，如果在框714处，过程700确定要继续训练机器学习模型(在框714处为“是”)，则过程700可以循环回到704，并且可以用不同的训练样本循环通过框704-714。

在一些实施方式中，扩充训练集(例如，如上文结合图4A、图4B、图5A和图5B所描述的)可以与机器学习模型结合使用，所述机器学习模型利用结合了预测的纯净音频信号的混响度的损失函数，如上文结合图7所描述的。在一些实施方式中，机器学习模型可以具有并行地结合CNN和GRU的架构，如在图6中示出并且在上文中结合该图进行描述的。通过将包括使用合成AIR生成的训练样本的扩充训练集与利用损失函数中优化的混响度量并且可以可选地具有利用CNN和GRU两者的架构的机器学习模型相结合，机器学习模型可能能够被高效地训练(例如，以使计算资源最小化的方式)，同时实现预测的去混响音频信号中的高准确度和预测的去混响音频信号中的低混响度。这种系统对于实时音频信号的去混响可能特别有用，所述实时音频信号可能需要在扩展的训练集和低延迟机器学习模型架构上进行训练。图8示出了示例系统800的示意图，所述示例系统利用与机器学习模型相结合的扩充训练集，所述机器学习模型利用结合了混响度度量的损失函数。

如所图示的，系统800包括训练集创建部件802。训练集创建部件802可以生成扩充训练集，所述扩充训练集可以被机器学习模型用于对音频信号进行去混响。在一些实施方式中，训练集部件802可以例如在生成和/或存储扩充训练集的设备上实施。训练集创建部件802可以从AIR数据库806中取得测得的AIR。训练集创建部件802然后可以基于从AIR数据库806中取得的测得的AIR来生成合成AIR。用于生成合成AIR的更详细技术在图4A、图4B和图5A中示出并且在上文中结合这些图进行描述。训练集创建部件802可以从纯净音频信号数据库804中取得纯净音频信号。训练集创建部件802然后可以基于测得的AIR、合成AIR和纯净音频信号来生成扩充训练集808。用于生成扩充训练集的更详细技术在图5B中示出并且在上文中结合该图进行描述。扩充训练集808可以包括多个(例如，一百个、一千个、一万个等)训练样本，其中，每个训练样本是一对纯净音频信号(例如，从纯净音频信号数据库804中取得的)和由训练集创建部件802基于单个AIR(测得的AIR或合成AIR)生成的对应的混响音频信号。

扩充训练集808然后可以用于训练机器学习模型810a。在一些实施方式中，机器学习模型810a可以具有并行地包括CNN和循环元件(例如，GRU、LSTM网络、埃尔曼RNN等)的架构。特别地，CNN可以基于CNN层的输出以及循环元件的输出来生成输出。这种架构的示例在图6中示出并且在上文中结合该图进行描述。机器学习模型810a可以包括预测部件812a和混响确定部件814。预测部件812a可以为从扩充训练集808获得的混响音频信号生成预测的去混响音频信号。用于生成预测的去混响音频信号的示例在上文中结合图2、图3和图7进行更详细的描述。混响确定部件814可以确定预测的去混响音频信号中的混响度。例如，混响度可以基于言语到混响调制能量，如上文结合图7的框708所描述的。混响度可以用于更新与预测部件812a相关联的权重。例如，混响度可以包括在损失函数中，所述损失函数被最小化或优化以更新与预测部件812a相关联的权重，如图7的框710和712中示出并且在上文中结合这些框进行描述的。

在训练之后，经训练的机器学习模型810b可以利用经训练的预测部件812b(例如，对应于最终确定的权重)来生成去混响音频信号。例如，经训练的机器学习模型810b可以将混响音频信号814作为输入，并且可以生成去混响音频信号816作为输出。应当注意，经训练的机器学习模型810b可以具有与机器学习模型810a相同的架构，但是可以不确定推断时的混响度。

图9是示出了能够实施本公开的各个方面的装置的部件的示例的框图。与本文提供的其他图一样，图9中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。根据一些示例，装置900可以被配置用于执行本文公开的方法中的至少一些方法。在一些实施方式中，装置900可以是或者可以包括电视、音频系统的一个或多个部件、移动设备(如蜂窝电话)、膝上型计算机、平板设备、智能扬声器或另一种类型的设备。

根据一些替代性实施方式，装置900可以是或者可以包括服务器。在一些这样的示例中，装置900可以是或者可以包括编码器。因此，在一些情况下，装置900可以是被配置用于在如家庭音频环境的音频环境内使用的设备，然而在其他情况下，装置900可以是被配置用于在“云”中使用的设备，例如，服务器。

在该示例中，装置900包括接口系统905和控制系统910。在一些实施方式中，接口系统905可以被配置用于与音频环境中的一个或多个其他设备进行通信。在一些示例中，音频环境可以是家庭音频环境。在其他示例中，音频环境可以是另一种类型的环境，比如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实施方式中，接口系统905可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中，控制信息和相关联的数据可以与装置900正执行的一个或多个软件应用程序有关。

在一些实施方式中，接口系统905可以被配置用于接收内容流或用于提供内容流。内容流可以包括音频数据。音频数据可以包括但可以不限于音频信号。在一些情况下，音频数据可以包括比如声道数据和/或空间元数据等空间数据。在一些示例中，内容流可以包括视频数据和与视频数据相对应的音频数据。

接口系统905可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式，接口系统905可以包括一个或多个无线接口。接口系统905可以包括用于实施用户接口的一个或多个设备，比如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统905可以包括控制系统910与存储器系统(如图9中示出的可选存储器系统915)之间的一个或多个接口。然而，在一些情况下，控制系统910可以包括存储器系统。在一些实施方式中，接口系统905可以被配置用于从环境中的一个或多个麦克风接收输入。

例如，控制系统910可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。

在一些实施方式中，控制系统910可以驻留在多于一个设备中。例如，在一些实施方式中，控制系统910的一部分可以驻留在本文所描绘的环境之一内的设备中，并且控制系统910的另一部分可以驻留在环境之外的设备中，比如服务器、移动设备(例如，智能电话或平板计算机)等。在其他示例中，控制系统910的一部分可以驻留在一种环境内的设备中，并且控制系统910的另一部分可以驻留在所述环境的一个或多个其他设备中。例如，控制系统910的一部分可以驻留在实施基于云的服务的设备(如服务器)中，并且控制系统910的另一部分可以驻留在实施基于云的服务的另一设备(如另一服务器、存储器设备等)中。在一些示例中，接口系统905还可以驻留在多于一个设备中。

在一些实施方式中，控制系统910可以被配置用于至少部分地执行本文公开的方法。根据一些示例，控制系统910可以被配置用于实施对音频信号进行去混响、训练执行音频信号去混响的机器学习模型、为执行音频信号去混响的机器学习模型生成训练集、生成包括在训练集中的合成AIR等的方法。

本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括比如本文所描述的那些存储器设备，包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如位于图9中所示的可选存储器系统915和/或控制系统910中。因此，可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。例如，软件可以包括用于使用经训练的机器学习模型对音频信号进行去混响、训练执行音频信号去混响的机器学习模型、生成一个或多个合成AIR、生成用于训练执行音频信号去混响的机器学习模型的训练集等的指令。例如，软件可以由如图9的控制系统910等控制系统的一个或多个部件执行。

在一些示例中，装置900可以包括图9中示出的可选麦克风系统920。可选麦克风系统920可以包括一个或多个麦克风。在一些实施方式中，一个或多个麦克风可以是另一个设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中，装置900可以不包括麦克风系统920。然而，在一些这样的实施方式中，装置900仍然可以被配置成经由接口系统910接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实施方式中，装置900的基于云的实施方式可以被配置成经由接口系统910从音频环境中的一个或多个麦克风接收麦克风数据或至少部分地与麦克风数据相对应的噪声指标。

根据一些实施方式，装置900可以包括图9中示出的可选扩音器系统925。可选扩音器系统925可以包括一个或多个扩音器，所述扩音器在本文中也可以被称为“扬声器”，或更通常地被称为“音频再现换能器”。在一些示例(例如，基于云的实施方式)中，装置900可以不包括扩音器系统925。在一些实施方式中，装置900可以包括耳机。耳机可以经由耳机插孔或经由无线连接(例如，蓝牙)连接或耦接到装置900。

本公开的一些方面包括一种被配置(例如，被编程)成执行所公开方法的一个或多个示例的系统或设备，以及一种存储用于实施所公开方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如，磁盘)。例如，一些公开的系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器，该可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置成对数据执行各种操作中的任一个，包括所公开方法或其步骤的实施例。这样的通用处理器可以是或者包括计算机系统，该计算机系统包括输入设备、存储器和处理子系统，该处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的一个或多个示例。

一些实施例可以被实施为可配置的(例如，可编程的)数字信号处理器(DSP)，该数字信号处理器被配置(例如，被编程和以其他方式被配置)为对(多个)音频信号执行需要的处理，包括对所公开方法的一个或多个示例的执行。可替代地，所公开系统(或其元件)的实施例可以被实施为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，该通用处理器用软件或固件编程为和/或以其他方式被配置成执行各种操作中的任一个，包括所公开方法的一个或多个示例。可替代地，本发明系统的一些实施例的元件被实施为被配置(例如，被编程)成执行所公开方法的一个或多个示例的通用处理器或DSP，并且该系统还包括其他元件(例如，一个或多个扩音器和/或一个或多个麦克风)。被配置成执行所公开方法的一个或多个示例的通用处理器可以耦接到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本公开的另一方面是一种计算机可读介质(例如，磁盘或其他有形存储介质)，该计算机可读介质存储用于执行所公开方法或其步骤的一个或多个示例的代码(例如，可执行以执行所公开方法或其步骤的一个或多个示例的编码器)。

虽然在本文中已经描述了本公开的具体实施例和本公开的应用，但是对于本领域普通技术人员而言显而易见的是，在不脱离本文描述的并要求保护的本公开的范围的情况下，可以对本文描述的实施例和应用进行许多改变。应当理解，虽然已经示出和描述了本公开的某些形式，但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。

Claims

1.一种用于对音频信号进行去混响的方法，所述方法包括：

由控制系统获得真实声脉冲响应(AIR)；

由所述控制系统识别所述真实AIR的与直达声的早期反射相对应的第一部分和所述真实AIR的与所述直达声的晚期反射相对应的第二部分；

由所述控制系统通过修改所述真实AIR的所述第一部分和/或所述真实AIR的所述第二部分来生成一个或多个合成AIR；以及

由所述控制系统使用所述真实AIR和所述一个或多个合成AIR来生成多个训练样本，每个训练样本包括输入音频信号和混响音频信号，其中，所述混响音频信号是至少部分地基于所述输入音频信号以及所述真实AIR或所述一个或多个合成AIR之一中的一者来生成的，其中，所述多个训练样本被用于训练机器学习模型，所述机器学习模型将具有混响的测试音频信号作为输入并生成去混响音频信号作为输出。

2.如权利要求1所述的方法，其中，识别所述真实AIR的与早期反射相对应的所述第一部分和所述真实AIR的与晚期反射相对应的所述第二部分包括选择预定范围内的随机时间值，其中，所述第一部分包括所述真实AIR的在所述随机时间值之前的部分，并且其中，所述第二部分包括所述真实AIR的在所述随机时间值之后的部分。

3.如权利要求2所述的方法，其中，所述预定范围为约20毫秒至约80毫秒。

4.如权利要求1至3中任一项所述的方法，其中，修改所述真实AIR的所述第一部分包括使包括在所述真实AIR的所述第一部分中的响应的时间点随机化。

5.如权利要求1至4中任一项所述的方法，其中，修改所述真实AIR的所述第二部分包括在从晚期反射持续时间的预定范围中随机选择的持续时间之后截断所述真实AIR的所述第二部分。

6.如权利要求1至5中任一项所述的方法，其中，修改所述真实AIR的所述第二部分包括修改包括在所述真实AIR的所述第二部分中的一个或多个响应的幅度。

7.如权利要求6所述的方法，其中，修改包括在所述真实AIR的所述第二部分中的所述一个或多个响应的所述幅度包括：

确定与所述真实AIR的所述第二部分相关联的目标衰减函数；以及

根据所述目标衰减函数修改包括在所述真实AIR的所述第二部分中的所述一个或多个响应的所述幅度。

8.如权利要求1至7中任一项所述的方法，其中，所述混响音频信号是通过将所述输入音频信号与所述真实AIR或所述一个或多个合成AIR之一中的一者进行卷积而生成的。

9.如权利要求1至8中任一项所述的方法，进一步包括将噪声添加到所述输入音频信号与所述真实AIR或所述一个或多个合成AIR之一中的一者的卷积中，以生成所述混响音频信号。

10.如权利要求1至9中任一项所述的方法，进一步包括通过以下方式来生成附加的合成AIR：

识别所述真实AIR的更新的第一部分和所述真实AIR的更新的第二部分；以及

修改所述真实AIR的所述更新的第一部分和/或所述真实AIR的所述更新的第二部分。

11.如权利要求1至10中任一项所述的方法，进一步包括将所述多个训练样本提供给所述机器学习模型以生成经训练的机器学习模型，所述经训练的机器学习模型将所述具有混响的所述测试音频信号作为所述输入并生成所述去混响音频信号作为所述输出。

12.如权利要求11所述的方法，其中，所述测试音频信号是现场捕获的音频信号。

13.如权利要求1至12中任一项所述的方法，其中，所述真实AIR是在物理房间中测量的测得的AIR。

14.如权利要求1至13中任一项所述的方法，其中，所述真实AIR是使用房间声学模型生成的。

15.如权利要求1至14中任一项所述的方法，其中，所述输入音频信号与特定音频内容类型相关联。

16.如权利要求15所述的方法，其中，所述特定音频内容类型包括远场噪声。

17.如权利要求15或16中任一项所述的方法，其中，所述特定音频内容类型包括在室内环境中捕获的音频内容。

18.如权利要求15至17中任一项所述的方法，进一步包括在生成所述多个训练样本之前获得多个输入音频信号的训练集，每个输入音频信号与所述特定音频内容类型相关联。

19.一种装置，其被配置用于实施如权利要求1至18中任一项所述的方法。

20.一个或多个非暂态介质，其上存储有软件，所述软件包括用于控制一个或多个设备执行如权利要求1至18中任一项所述的方法的指令。