CN112400325A

CN112400325A - 数据驱动的音频增强

Info

Publication number: CN112400325A
Application number: CN201980041492.XA
Authority: CN
Inventors: 萨默·哈贾兹; 毛雪鸿; 劳尔·亚历翰卓·卡萨斯; 卡米尔·克鲁兹托夫·沃西基; 德罗尔·梅丹; 克里斯托弗·罗文
Original assignee: Babole Laboratories Co ltd
Current assignee: Cisco Technology Inc
Priority date: 2018-06-22
Filing date: 2019-06-19
Publication date: 2021-02-23
Anticipated expiration: 2039-06-19
Also published as: US20190392852A1; CN112400325B; US10991379B2; WO2019246220A1; US20210217436A1; EP3811625A1

Abstract

公开了用于音频增强的系统和方法。例如，方法可以包括：访问音频数据；基于音频数据来确定音频样本窗口；将音频样本窗口输入到分类器以获得分类，其中分类器包括神经网络并且分类从一组多个音频类中取值；基于分类从一组多个音频增强网络中选择音频增强网络；将所选择的音频增强网络应用于音频样本窗口以获得增强音频段，其中所选择的音频增强网络包括已使用与分类相关联的类型的音频信号而被训练的神经网络；以及基于增强音频段来存储、播放或发送增强音频信号。

Description

数据驱动的音频增强

技术领域

本公开涉及数据驱动的音频增强。

背景技术

全世界都在观看和收听大量视频。例如，一个提供商YouTube具有超过70亿个视频的目录，表示约20万年的视频。每秒有300以上小时的新视频内容上传到YouTube。YouTube连同许多其他视频共享服务一起使视频共享突出作为主要服务要素。视频内容本身是专业制作和业余材料的混合物。专业材料—电影和预告片、音乐视频及各种戏剧、喜剧和评论都是在具有高质量的音频装备、仔细地控制的音响效果和最小外来噪声的视频工作室中制作的。然而，大多数视频上传是在智能电话上捕获并在很少或没有编辑情况下上传的业余作品。在最近一月中，所有互联网用户中58％的互联网用户已在该月期间上传了视频。

发明内容

本文公开的是数据驱动的音频增强的实施方案。

在第一方面中，可在包括处理装置的系统中体现本说明书中描述的主题，该处理装置被配置为：访问音频数据；基于音频数据来确定音频样本窗口；将音频样本窗口输入到分类器以获得分类，其中分类器包括神经网络并且分类从一组多个音频类中取值，该组多个音频类包括语音类和音乐类；基于分类从一组多个音频增强网络中选择音频增强网络；将所选择的音频增强网络应用于音频样本窗口以获得增强音频段，其中所选择的音频增强网络包括已使用与分类相关联的类型的音频信号而被训练的神经网络；并且基于增强音频段来存储、播放或发送增强音频信号。

在第二方面中，可在方法中体现本说明书中描述的主题，这些方法包括：访问音频数据；基于音频数据来确定音频样本窗口；将音频样本窗口输入到分类器以获得分类，其中分类器包括神经网络并且分类从一组多个音频类中取值；基于分类从一组多个音频增强网络中选择音频增强网络；将所选择的音频增强网络应用于音频样本窗口以获得增强音频段，其中所选择的音频增强网络包括已使用与分类相关联的类型的音频信号而被训练的神经网络；以及基于增强音频段来存储、播放或发送增强音频信号。

在第三方面中，可在方法中体现本说明书中描述的主题，这些方法包括：访问AV数据，AV数据包括一个或多个视觉轨道和一个或多个音频轨道；从AV数据中提取音频数据；基于音频数据确定音频样本窗口；对音频样本窗口应用音频增强网络以获得增强音频段，其中音频增强网络包括已使用音频信号而被训练的神经网络；将基于增强音频段的增强音频信号与来自AV数据的视觉轨道合并；以及基于增强音频段来存储、播放或发送增强音频信号。

在第四方面中，可在用于训练神经网络以得到语音增强的方法中体现本说明书中描述的主题，这些方法包括：对来自干净语音信号的语料库的干净语音信号应用室内声学模型以获得脏语音信号；使用脏语音信号作为训练输入来训练神经网络，其中反馈基于将所得的增强音频信号与对应的来自干净语音信号的语料库的干净语音信号进行比较的损失函数；以及存储或发送神经网络。

在以下详细描述、所附权利要求和附图中公开了本公开的这些和其他方面。

附图说明

当结合附图阅读时，从以下详细描述中最好地理解本公开。应强调，根据惯例，附图的各个特征未按比例绘制。相反，为了清楚各种特征的尺寸被任意地扩大或缩小。

图1是用于数据驱动的音频增强的系统的示例的框图。

图2是用于训练语音增强网络的系统的示例的框图。

图3A是具有数据驱动的音频增强的被配置用于视频捕获的系统的示例的框图。

图3B是具有数据驱动的音频增强的被配置用于视频捕获的系统的示例的框图。

图4是被配置用于数据驱动的音频增强的系统的示例的框图。

图5是用于数据驱动的音频增强的过程的示例的流程图。

图6A是对音频样本窗口进行处理以生成增强音频段音频增强处理的示例的图示。

图6B是对重叠的音频样本窗口进行处理以生成重叠的增强音频段的音频增强处理的示例的图示。

图7是用于训练语音增强网络的过程的示例的流程图。

具体实施方式

本文档包括用于数据驱动的音频增强的系统和方法的公开内容。可以针对诸如例如视频的音频轨道的各种音频信号采用所公开的音频增强技术。常常视频是用低质量的记录装备在高噪声环境中(例如，在孩子的生日庆祝会中、在后院中、在餐馆和俱乐部里的聚会中以及在街上和公园里的各种外部事件中)捕获的。遗憾的是，音频记录的质量可以使这些音频信号变得难以理解或收听起来不舒服。业余视频记录常常遭受麦克风失真、重背景噪声、明显的风噪声和混响。例如，公开了一种自动化系统以显著地改进视频记录的音频质量，尤其是语音质量，从而减小背景噪声，改进清晰度(例如，语音清晰度)，并且使得与视频相关联的音频更加可理解。

音频质量增强尤其是语音增强的好处不仅限于业余视频。例如，在工作室外的几乎任何音频记录(例如，视频记录)很可能面临语音可理解性的损害。例如，来自现场的新闻报道可能仍然必须对付相当大的背景噪声和其他声学损害。

首先，可以将音频分类为具有不同的显性音频内容的不同的时间段(例如，语音段、音乐段和其他段)，使得可对每种类型的内容应用不同的音频处理算法。其次，可以学习得到所采用的内容特定音频处理算法，该学习通过对使用深度神经网络(DNN)的函数进行处理以学习更全的变换集来使不同的噪声和声学损害的丰富混合与要保留的声音的丰富混合分离(例如，保留语音声音以改进语音可理解性)。

所公开的系统可以灵活地适合典型的音频(例如，视频)制作、存储和消费的当前模式。音频增强方法可作为原始音频记录的一部分被即使实现，作为在音频被存储以供共享(例如，当观看者正在收听视频时，作为视频播放器的一部分被即时共享，或者在基于云的视频访问站点中被共享)的情况下所应用的变换而被即时实现。

所提出的用于数据驱动的音频增强的技术和系统可以提供优于常规音频处理系统的优势。例如，使用分类器来按时间段对音频进行分类并且选择经训练以增强特定类型的音频信号的增强网络可以改进增强音频质量和/或简化针对单独的音频增强网络的训练。例如，如果训练和测试条件很好地匹配，应用环境特定模型来增强来自这种环境的音频可以提供优势。例如，可以通过使用基于室内声学模型的合集的数据增强来以较少的训练示例实现对音频增强网络的训练。一些实施方案可以为特定用户提供讲话者标识和/或定制。

如本文所使用的，术语“AV数据”指代包括与视频相关联的视觉数据(例如，一个或多个视觉轨道)和音频数据(例如，一个或多个音频轨道)的数据结构(例如，文件或比特流)。可以使AV数据的轨道同步。可以对AV数据的轨道进行编码(例如，使用压缩算法)。AV数据的一些示例是MP4文件或MOV文件。

参考附图详细地描述实施方案，这些实施方案作为示例被提供以使得本领域的技术人员能够实践所公开的技术。各图和示例不意在将本公开的范围限于单个实施方案或实施例，并且通过互换所描述或图示的元件中的一些或全部或者与之组合，其他实施方案和实施例是可能的。在方便的地方，将在所有附图中使用相同的附图标记来指代相同或相似的部分。

图1是用于数据驱动的音频增强的系统100的示例的框图。系统100包括音频提取模块110；音频分段与分类模块120；一组音频增强网络，包括语音增强网络130、音乐增强网络132和噪声增强网络134；和合并模块140。系统100可以从视频102中提取音频轨道112，对该轨道中的不同类型的音频内容(例如，语音、音乐、噪声和其他类型)进行分类，处理相应的内容类型(例如，语音内容)以改进可理解性，并且将视觉轨道114与新的音频轨道重新组合以创建增强视频142。例如，系统100可以实现图5的过程500。例如，可以将系统100实现为图3A的系统300的一部分。例如，可以将系统100实现为图3B的系统330的一部分。例如，可以将系统100实现为图4的系统400的一部分。

系统100包括音频提取模块110，该音频提取模块访问与视频102包括在一起的音频数据。例如，在诸如MP4和MOV的典型的视频格式中，编码视觉轨道114和一个或多个编码音频轨道被一起存储在同一文件中。音频提取模块110可以使用标准接口来解析文件结构，以获取音频轨道112。然后音频轨道112可被解压缩成脉冲代码化调制表示，其中每个音频声道由表示某个规则频率下的波形的幅度的采样值的流或序列来表达，其中该频率是采样率。如果音频具有多个声道，则声道可以保持分离或者可以被组合(例如，平均)以形成单个单声道。例如，系统100可以以单个采样率或针对一小组不同的采样率操作。可以将以不同的采样率接收到的音频轨道重新采样成由音频支持的最适当的采样率。音频提取模块110的输出可以包括一个或多个经解压缩、组合、重新采样的音频轨道112，其准备好用于分段和分类。

系统100包括音频分段与分类模块120。例如，对音频内容类型的分类可以由分类器执行，该分类器包括被训练用于为一个或多个音频轨道112的每个段或窗口指定主要音频类型的深度神经网络。分类器可以试图辨识适当持续时间的样本窗口以进行有用增强。分类粒度(即，窗口持续时间)不应该太粗以致在类型边界处的重要材料被错误分类并因此未通过正确类型的音频增强器。类似地，粒度不应该太细以致在较大的语音段内非常短间隔尤其是短间隔的噪声被分类为单独的类型。在一些实施方案中，音频分段与分类模块120可以使用固定分类粒度，通常为1-5秒。用于分类的样本窗口可以重叠或者可以不相交。在一些实施方案中，音频分段与分类模块120可以搜索内容类型之间的更精确边界。

音频分段也可能将音频分成非时间段。例如，可使用波束形成算法来将输入音频轨道分成表示潜在时间重叠信号的两个轨道，每个得到的音频轨道可单独地处理，然后在分类和增强之后，两个得到的增强音频信号可被组合和/或合并在一起。例如，具有来自一个空间位置的语音和来自另一空间位置的音乐的音频轨道可在语音分量上使用语音网络而在音乐上使用音乐网络。

可以在一些数量的内容类型上训练音频分段与分类模块120的分类器，其中该数量由要应用的不同的增强策略的数量确定。这里使用如下三个类来图示典型的系统：“语音”、“音乐”和“其他”，但是类似的系统可适应更少或更多的类别。例如，“其他”类别可以包括具有仅噪声、无声或其他素材的段，对于这些段来说具体增强是不可用或不希望有的。音频的任何给定段可以包括音频类型的混合，例如，添加了噪声的语音、添加了语音的音乐、或具有微弱背景音乐的噪声。分类器评估每个段中的混合的音频内容以辨识显性或主要音频类型和一个或多个次要音频类型。主要类型和次要类型的那些组合可以用于使用策略矩阵(例如下表1中所示的策略矩阵)来选择音频增强网络(130、132或134)，以便在两种可用的增强方法(即语音增强器(“SE”)和音乐增强器(“ME”))之间选取。在表1中示出了一个可能的策略矩阵的示例。

表1：内容处理策略矩阵的示例使用附加准则(诸如针对在前的段和在后的段的分类模式、更多级别的内容检测和更多的类)，更复杂的策略矩阵是可能的。例如，系统100的实施方案可能想要区分不同类型的噪声—风噪声、语音串音噪声或交通噪声或不同类型的音乐，以应用不同的算法来校正背景噪声或声学干扰。在一些实施方案中，可以以概率方式(例如，基于由软分类器确定的类概率)组合(例如，使用加权平均)针对检测到的类而定制的多个语音增强器的输出。

音频分段与分类模块120的分类器可以包括经训练的深度神经网络函数，这些函数从音频样本窗口的空间映射到该段的音频类型的分类(例如语音或音乐或噪声)。分类置信度(例如，各个类权重的softmax函数)也可用于通过针对给定分类改变朝向错误肯定或错误否定的趋势来对策略矩阵选择发生偏向。(例如，面对给定音频段被更好地认为是音乐还是语音的不定性，可在分类矩阵决策中使用置信度因子以使边界线段被视为语音而不是音乐。分类器本身可以为通过随机最陡下降损失函数优化而被训练的多层深度神经网络。训练数据集可以包含具有自然发生的内容混合(例如主要语音+次要音乐)和混响的音频示例以及由纯示例(干净语音、干净音乐和噪声)的混合人工组成的音频示例两者)。

系统100包括语音增强网络130，该语音增强网络可以被训练为基于音频样本窗口121(已经基于由音频分段与分类模块120针对该音频样本窗口121确定的分类为该音频样本窗口121选择了语音增强网络130)来确定增强语音段131。语音增强可以为系统100中的一种困难且复杂的音频增强方法。例如，语音增强网络130可以为一种学习得到的系统，该系统使用在受到噪声、语音串音、音乐和声学混响损害的各式各样语音上训练以涵盖宽范围可能的语音输入的深度神经网络结构。对深度神经网络的训练可以是其成功将由噪声、混响语音映射成混响较少的较干净语音的关键。在图2中示出了训练过程的结构的示例。例如，可以实现图7的过程700以训练语音增强网络130的神经网络。

例如，可以将音频样本窗口121处理成时间特征和频谱特征的混合，该时间特征和频谱特征的混合由深度神经网络使用来从中过滤并重新生成增强语音段131。例如，对增强深度神经网络的评价可以在有噪声音频的0.5秒至2秒的输入跨度上操作。此窗口持续时间可以创建横跨多个语音音素和甚至多个单词的输入音频上下文。通过横跨更多的音素，网络可以提供有足够的上下文信息以允许模型捕获目标语言中统计上频繁的声音和甚至单词使用模式。另外，可有效地学习复杂噪声模式以协助去除这些干扰源。此外，语音增强网络130可以更有效地从噪声中消除语音的歧义，并且在语音声音已被噪声完全掩盖的情况下，甚至部分地重建更合理的遗漏语音声音。语音增强网络130可以对仅当前输入样本和过去的样本进行操作，或者可以对当前样本以及在当前时间之前和之后的样本进行操作。“向前”看几百毫秒，可改进准确性，但是此技术可以将系统100的等待时间增加向前看的时间。在一些实施方案中，语音增强网络130的深度神经网络被应用于重叠的输入音频段。例如，可以像由图6B所图示的那样应用深度神经网络。输入重叠可被选取，以既为语音重建提供足够的上下文又允许输出窗口重叠。例如，可以通过逐样本对结果进行平均(例如，使用加权平均)来组合重叠的输出窗口。此技术可以增加连续性并减少增强语音段131中的音频伪像。

在一些实施方案(在图1中未示出)中，系统100被扩增以包括针对不同类型的语音信号而定制的多个语音增强网络。例如，系统可以包括适于各个用户的语音的一般语音增强网络、儿童语音增强网络、风损害语音增强网络和/或讲话者特定语音增强网络。可以基于一个或多个分类和/或讲话者标识来对这多个语音增强网络进行选择以应用于音频段。在一些实施方案中，可以并发地应用多个语音增强网络，而其输出被以概率方式组合(例如，基于不同类型的语音和噪声源的存在的估计概率)。

系统100包括音乐增强网络132，该音乐增强网络可以被训练为基于音频样本窗口123(对于该音频样本窗口123，已基于对由音频分段与分类模块120确定的该音频样本窗口123的分类而选择了音乐增强网络132)来确定增强音乐段133。音乐增强可以遵循与语音增强类似的策略和结构，但是目的是为了从显性音乐内容中去除干扰背景语音和噪声。可以从可用的音乐库中收集用于训练音乐增强网络132的干净音乐语料库，并且也可使用来自语音增强的许多相同的噪声干扰源。

系统100包括噪声增强网络134，该噪声增强网络可以被训练为基于音频样本窗口125(对于该音频样本窗口125，已基于对由音频分段与分类模块120确定的该音频样本的窗口125的分类选择了噪声增强网络134)来确定增强噪声段135。例如，噪声增强网络可以被配置为通过按比例缩小信号来抑制音频轨道112的有噪声部分。在一些实施方案中，可以在对来自音频样本窗口125的对应样本进行很少或没有修改情况下传递音频段135，以便避免引入附加失真。

系统100包括合并模块140，该合并模块可以被配置为将来自音频增强网络(130、132和134)的增强音频段组合成一个或多个音频轨道，这一个或多个音频轨道可以与视觉轨道114重新同步和/或被编码(例如，根据标准化AV数据格式，诸如MP4或MOV)以生成增强的视频142。例如，当音频的每个段通过适当的增强器(130、132或134)被传递时，它被重建成连续音频流，根据原始AV数据格式的要求重新压缩并且与视觉轨道114的视频图像序列内容重新组合。然后如由最终应用所要求(例如，视频存储或视频重放)的那样，此结构被映射到文件或流。

在一些使用场景中，存在多种类型的失真。在一些实施方案(在图1中未示出)中，确定软分类，该软分类估计在当前音频样本窗口中存在什么类型的噪声源(例如，风、街道、竞争谈话者)并按什么概率估计。可以基于音频增强网络(这些音频增强网络被定制用于检测并抑制相应的噪声和失真(例如，风、街道和竞争谈话者衰减)源)的输出的线性组合来确定对应的增强音频段，其中线性组合是以基于这些相应噪声和失真源的概率的权重而确定的。来自多个音频增强网络(例如，语音增强网络)的输出的这种类型的概率融合可以很好地适合于存在多个噪声源的真实生活混合物的增强，虽然此方法可能消耗更多的计算资源以便并行运行多个音频增强网络。

图2是用于训练语音增强网络的系统200的实施例的框图。系统200包括干净语音分类器210，该干净语音分类器被配置为处理来自原始语音语料库202的原始语音样本并且选择具有低噪声或其他失真的示例以供包括在干净语音语料库212中。例如，干净语音语料库212可以为英语语音的成千上万个示例的合集，总计为来自成千个不同讲话者的数十万小时的独特语音。可以将这些源选取为尽可能没有背景噪声和混响。原始语音语料库202中的音频源可以包括例如TED演讲的公开合集、有声读物的LibriSpeech数据库、来自美国国会图书馆的示例。可以从收集的原始语音语料库202中通过经由干净语音分类器210预过滤来选择源，该干净语音分类器210可以与关于图1的音频分段与分类模块120描述的内容类型分类器类似。在一些实施方案中，仅具有为干净的高置信度的内容才被传递到干净语音语料库212中以供包括在语音混合的构建中。

也从许多背景噪声源收集噪声语料库214，这些背景噪声源包括来自以下各项的记录：咖啡馆、街道、建筑工地、汽车、飞机、酒吧以及视频和音频制作音效。在噪声语料库214中包括常见的人类生成的非语音噪声，诸如笑声和掌声。

室内声学模型216是用于训练数据增强的另一特征。室内声学模型用于为一组空间分布式声学源生成一组室内脉冲响应。每个室内脉冲响应表示从建模室内接收器位置处的表面离开的音频反射的幅度和延迟。在具有高度反射性表面的大空间中，随着声波在室内中来回反弹，单个声音可以回声持续不止一秒。较小的室内具有较快的混响，而更多吸收性材料具有较低幅度的反射。此外，室内材料可以具有非均匀频率响应，从而比其他材料吸收更多的一些频带。高度混响室可以使语音混乱，从而使其变得明显不太可理解，因为在每个时刻，原始直接语音源与来自室内所有声音的延迟回声相组合。例如，可以构建成千上万个不同的室内声学模型，从而表示各种各样的收听环境。

系统200包括语音组合器220，该语音组合器被配置为从干净语音语料库212中选择干净语音示例，从噪声语料库214中选择一个或多个干扰噪声示例，并且从室内声学模型216中选择室内声学模型。例如，噪声可以通过简单的线性组合与语音组合(加性噪声)或者可以使用更复杂的组合函数来表示麦克风饱和或伦巴(Lombard)效应(讲话者在存在噪声的情况下会提高其话音)的效果。在一些实施方案中，将室内声学模型应用于这种组合以创建逼真的语音+噪声干扰混合。在一些实施方案中，在组合语音和噪声分量之前，也可以分别对它们中的每一个应用室内声学模型，以便近似不同的讲话者和噪声源在声学空间中的位置。例如，多个声学源(例如，语音、掩蔽音和/或噪声)可以在空间上分离。可以使用室内声学模型216中的一个来为相应的声学源确定单独的室内脉冲响应。这些室内脉冲响应可以基本上描述线性滤波，该线性滤波当被应用于(例如，无回声)声学信号时将产生在声学接收器(例如，麦克风)位置处观察到的信号。也就是说，在麦克风位置处，声学信号经由具有不同延迟和衰减的许多路径到达。可以在麦克风位置处组合(例如，线性地组合)与室内脉冲响应卷积的这些信号。组合信号可以为麦克风位置处的模拟混合物，其可以被用作脏语音222信号。

脏语音222信号由模型训练模块230用于训练语音增强网络(例如，包括神经网络)。语音增强网络响应于脏语音222信号而输出增强的语音232。损失函数模块240基于增强的语音232和用于生成脏语音222的对应的干净语音信号来确定误差信号。此误差信号由模型训练模块130用作用于训练语音增强网络的反馈。例如，模型训练模块可以实现反向传播算法以基于来自损失函数模块240的误差信号来更新语音增强网络的参数(例如，系数)。

通过对来自大语音和噪声语料库集(212和214)的可用的干净语音样本、噪声源样本和室内声学模型的许多排列进行组合，可以生成非常大的多样但逼真的训练数据输入集作为脏语音222样本。对单个语音增强深度神经网络的典型训练可以在成千上万小时的脏语音222内容上训练以实现高质量的语音增强。

图3A是被配置用于数据驱动的音频增强的系统300的示例的框图。系统300包括视频捕获设备310(例如，相机或无人机)，该视频捕获设备包括处理装置312，该处理装置被配置为接收来自一个或多个图像传感器314的图像和来自一个或多个麦克风316的音频。处理装置312可以包括音频分类器和多个音频增强网络(例如，被实现为软件模块或专用硬件模块)，该音频分类器和多个音频增强网络被配置为对由一个或多个麦克风316捕获的音频段进行分类和增强。处理装置312可以被配置为使用分类器来将音频增强网络选择性地应用于使用一个或多个麦克风316捕获的音频以获得增强音频段，这些增强音频段可与视觉轨道组合和/或合并，以形成增强的视频。视频捕获设备310包括被配置为检测一个或多个图像传感器314和一个或多个麦克风316的运动的一个或多个运动传感器318。视频捕获设备310包括用户接口320，其可以允许用户控制视频捕获功能和/或查看视频。视频捕获设备310包括用于将视频转移到其他设备的通信接口322。视频捕获设备310包括用于给视频捕获设备310供电的电池324。例如，系统300可以用于实现本公开中描述的过程，诸如图5的过程500和/或图7的过程700。

处理装置312可以包括具有单个或多个处理核心的一个或多个处理器。处理装置312可以包括存储器，诸如随机存取存储器(RAM)设备、闪速存储器或任何其他合适类型的存储设备，诸如非暂态计算机可读存储器。处理装置312的存储器可以包括可由处理装置312的一个或多个处理器访问的可执行指令和数据。例如，处理装置312可以包括一个或多个DRAM模块，诸如双倍数据速率同步动态随机存取存储器(DDR SDRAM)。在一些实施方案中，处理装置312可以包括图形处理单元(GPU)。在一些实施方案中，处理装置312可以包括数字信号处理器(DSP)。在一些实施方案中，处理装置312可以包括专用集成电路(ASIC)。例如，处理装置312可以包括定制音频信号处理器。在一些实施方案中，处理装置312可以在视频捕获设备310的不同部分中具有多个处理单元。

处理装置312可以包括被配置为减小使用一个或多个麦克风316捕获的音频信号的噪声和失真的音频分类器和多个音频增强网络(例如，语音增强网络和/或音乐增强网络)。例如，音频分类器和多个音频增强网络可以通过由处理装置312执行的软件来实现。处理装置312可以被配置为：访问音频数据；基于音频数据来确定音频样本窗口；将音频样本窗口输入到分类器以获得分类，其中分类器包括神经网络并且分类从一组多个音频类中取值，该组多个音频类包括语音类和音乐类；基于分类从一组多个音频增强网络中选择音频增强网络；将所选择的音频增强网络应用于音频样本窗口以获得增强音频段，其中所选择的音频增强网络包括已使用与分类相关联的类型的音频信号而被训练的神经网络；并且基于增强音频段来存储、播放或发送增强音频信号。例如，处理装置312可以被配置为使用分类器来基于音频样本窗口确定次级分类；并且基于次级分类从一组多个音频增强网络中选择音频增强网络。例如，处理装置312可以被配置为基于分类器针对来自音频数据的另一音频样本窗口输出的分类和次级分类从一组多个音频增强网络中选择音频增强网络。例如，处理装置312可以被配置为从AV数据中提取音频数据；并且将增强音频信号与来自AV数据的视觉轨道合并。例如，处理装置312可以被配置为从与音频样本窗口相对应的视觉轨道中检测图像中的一对嘴唇；并且将基于描绘该对嘴唇的图像部分的数据输入到分类器，其中分类部分地取决于描绘该对嘴唇的图像部分。例如，处理装置312可以被配置为从与音频样本窗口相对应的视觉轨道中检测图像中的一对嘴唇；并且将基于描绘该对嘴唇的图像部分的数据输入到所选择的音频增强网络，其中增强音频段部分地取决于描绘该对嘴唇的图像部分。例如，处理装置312可以被配置为基于音频数据来确定包括上述音频样本窗口在内的部分重叠的音频样本窗口的序列；使用分类器和来自一组多个音频增强网络的音频增强网络中的至少两个，基于部分重叠的音频样本窗口的序列来确定包括上述增强音频段的相应的增强音频段的序列；并且通过混合相应的增强音频段的序列来确定增强音频信号，包括将来自增强音频段的重叠部分中的多个段的对应样本进行组合(例如，使用加权平均)。例如，处理装置312可以被配置为将残余噪声信号确定为来自音频数据的音频信号与增强音频信号之间的差；并且将增强音频信号与残余噪声信号合并。例如，处理装置312可以被配置为将音频样本窗口输入到讲话者辨识网络以获得讲话者标识，其中讲话者辨识网络包括已使用来自一个或多个用户的语音信号而被训练以识别由一个或多个用户中的用户所发出的语音信号的神经网络；并且基于讲话者标识从一组多个音频增强网络中选择音频增强网络，其中所选择的音频增强网络包括已使用与讲话者标识相关联的人的语音信号而被训练的神经网络。例如，处理装置312可以被配置为将音频样本窗口输入到讲话者辨识网络以获得讲话者标识，其中讲话者辨识网络包括已使用来自一个或多个用户的语音信号而被训练以识别由一个或多个用户中的用户所发出的语音信号；并且基于讲话者标识从一组多个音频增强网络中选择音频增强网络，其中所选择的音频增强网络包括与讲话者标识相关联的讲话者特定嵌入(embedding)。在一些实施方案中，所选择的音频增强网络包括已使用已利用室内声学模型扩增的音频信号而被训练的神经网络。例如，可以通过实现图7的过程700来训练语音增强网络。

一个或多个图像传感器314被配置为捕获图像。一个或多个图像传感器314被配置为检测某个光谱(例如，可见光谱或红外光谱)的光并且将构成图像的信息作为电信号(例如，模拟或数字信号)传达。例如，一个或多个图像传感器314可以包括互补金属氧化物半导体(CMOS)中有源像素传感器或电荷耦合器件(CCD)。一个或多个图像传感器314可以检测通过相应镜头(例如，鱼眼镜头)入射的光。在一些实施方案中，一个或多个图像传感器314包括数模转换器。在一些实施方案中，一个或多个图像传感器314具有重叠的相应视场。一个或多个图像传感器314作为视频捕获设备310的组件附接到处理装置312。

一个或多个麦克风316被配置为捕获音频数据。音频数据可以包括与由一个或多个图像传感器314捕获的一个或多个视觉轨道同步的一个或多个音频轨道。一个或多个麦克风316可以将在一个或多个麦克风316上入射的声波转换成一个或多个数字音频记录。一个或多个麦克风316可以检测声音并将构成音频信号的信息作为电信号(例如，模拟或数字信号)传达。在一些实施方案中，一个或多个麦克风316包括模数转换器。一个或多个麦克风316可以包括被配置为捕获视频捕获设备310附近的声音的麦克风。在一些实施方案中，一个或多个麦克风316包括麦克风阵列以使得能够对在一个或多个麦克风316上入射的声音进行波束形成处理。

一个或多个运动传感器318被配置为检测一个或多个图像传感器314和/或一个或多个麦克风316的运动。例如，一个或多个运动传感器318可以包括惯性测量单元的各部分(例如，包括陀螺仪、加速度计和/或磁力计)，该惯性测量单元被安装在具有一个或多个图像传感器314和一个或多个麦克风316的外壳中。处理装置312可以被配置为基于来自一个或多个运动传感器318的传感器数据确定方位(orientation)估计的序列。例如，确定方位估计的序列可以包括对来自一个或多个运动传感器318的传感器数据应用二次估计。

视频捕获设备310可以包括用户接口320。例如，用户接口320可以包括LCD显示器和一个或多个扬声器以用于向用户呈现视频和/或消息。例如，用户接口320可以包括使得人能够手动地开启和关闭视频捕获设备310的按钮或开关。例如，用户接口320可以包括用于控制视频捕获的记录按钮。

视频捕获设备310可以包括通信接口322，该通信接口可以实现与个人计算设备(例如，智能电话、平板、膝上型计算机或台式计算机)的通信。例如，通信接口322可以用于接收控制视频捕获设备310中的视频捕获和处理的命令。例如，通信接口322可以用于将AV数据转移到个人计算设备。例如，通信接口322可以包括有线接口，诸如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口或FireWire接口。例如，通信接口322可以包括无线接口，诸如蓝牙接口、ZigBee接口和/或Wi-Fi接口。

视频捕获设备310可以包括给视频捕获设备310和/或其外围设备供电的电池324。例如，电池324可以以无线方式或通过微型USB接口而被充电。

图3B是被配置用于数据驱动的音频增强的系统330的示例的框图。系统330包括经由通信链路350通信的视频捕获设备340和个人计算设备360。视频捕获设备340包括被配置为捕获视频的一个或多个图像传感器342和一个或多个麦克风346。视频捕获设备340包括被配置为经由通信链路350将AV数据转移到个人计算设备360的通信接口348。个人计算设备360包括被配置为使用通信接口366来接收来自一个或多个图像传感器342的图像和来自一个或多个麦克风346的音频数据的处理装置362。视频捕获设备340包括附连到一个或多个图像传感器342和一个或多个麦克风346并且被配置为使一个或多个图像传感器342和一个或多个麦克风346保持在人体的一部分(例如，头部、胸部或手臂)上适当的位置中的紧固件344。处理装置362可以包括被配置为对由一个或多个麦克风346捕获的音频段进行分类和增强的音频分类器和多个音频增强网络(例如，实现为软件模块或专用硬件模块)。处理装置362可以被配置为使用分类器来将音频增强网络选择性地应用于使用一个或多个麦克风346捕获的音频以获得增强音频段，这些增强音频段可与视觉轨道组合和/或合并，以形成增强的视频。例如，系统330可以用于实现本公开中描述的过程，诸如图5的过程500和/或图7的过程700。

一个或多个图像传感器342被配置为捕获图像。一个或多个图像传感器342被配置为检测某个光谱(例如，可见光谱或红外光谱)的光并且将构成图像的信息作为电信号(例如，模拟或数字信号)传达。例如，一个或多个图像传感器342可以包括互补金属氧化物半导体(CMOS)中有源像素传感器或电荷耦合器件(CCD)。一个或多个图像传感器342可以检测通过相应镜头(例如，鱼眼镜头)入射的光。在一些实施方案中，一个或多个图像传感器342包括数模转换器。在一些实施方案中，一个或多个图像传感器342具有重叠的相应视场。

紧固件344附连到一个或多个图像传感器342和一个或多个麦克风346并且被配置为将一个或多个图像传感器342和一个或多个麦克风346保持在人体的一部分上适当的位置中。例如，紧固件344可以包括眼镜或护目镜，这些眼镜或护目镜当被人类穿戴时，将一个或多个图像传感器342和一个或多个麦克风346紧固在人类的头部上适当的位置中。例如，紧固件344可包括腕带，该腕带当由人类穿戴时，将一个或多个图像传感器342和一个或多个麦克风346紧固在人类的手臂上适当的位置中。例如，紧固件344可以包括衬衫或背心，该衬衫或背心当由人类穿戴时，将一个或多个图像传感器342和一个或多个麦克风346紧固在人类的胸部上适当的位置中。例如，紧固件344可以包括被配置用于增强现实应用和/或虚拟现实应用的头戴式设备的带或绑带，该带或绑带当由人类穿戴时，将一个或多个图像传感器342和一个或多个麦克风346紧固在人类的头部上适当的位置中。

一个或多个麦克风346被配置为捕获音频数据。音频数据可以包括与由一个或多个图像传感器342捕获的一个或多个视觉轨道同步的一个或多个音频轨道。一个或多个麦克风346可以将在一个或多个麦克风346上入射的声波转换成一个或多个数字音频记录。一个或多个麦克风346可以检测声音并将构成音频信号的信息作为电信号(例如，模拟或数字信号)传达。在一些实施方案中，一个或多个麦克风346包括模数转换器。一个或多个麦克风346可以包括被配置为捕获视频捕获设备340附近的声音的麦克风。在一些实施方案中，一个或多个麦克风346包括麦克风阵列以使得能够对在一个或多个麦克风346上入射的声音进行波束形成处理。

通信链路350可以为有线通信链路或无线通信链路。通信接口348和通信接口366可以通过通信链路350实现通信。例如，通信接口348和通信接口366可以包括高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、FireWire接口、蓝牙接口、ZigBee接口和/或Wi-Fi接口。例如，通信接口348和通信接口366可以用于将AV数据从视频捕获设备340转移到个人计算设备360以进行信号处理(例如，音频增强、滤波、音调映射、拼接、编码)以基于来自一个或多个图像传感器342和一个或多个麦克风346的AV数据生成输出图像和/或元数据。例如，通信接口348和通信接口366可以用于将控制信号从个人计算设备360转移到视频捕获设备340以用于控制视频的捕获。

处理装置362可以包括具有单个或多个处理核心的一个或多个处理器。处理装置362可以包括存储器，诸如随机存取存储器(RAM)设备、闪速存储器或任何其他合适类型的存储设备，诸如非暂态计算机可读存储器。处理装置362的存储器可以包括可由处理装置362的一个或多个处理器访问的可执行指令和数据。例如，处理装置362可以包括一个或多个DRAM模块，诸如双倍数据速率同步动态随机存取存储器(DDR SDRAM)。在一些实施方案中，处理装置362可以包括图形处理单元(GPU)。在一些实施方案中，处理装置362可以包括数字信号处理器(DSP)。在一些实施方案中，处理装置362可以包括专用集成电路(ASIC)。例如，处理装置362可以包括定制图像信号处理器。

处理装置362可以包括被配置为减小使用一个或多个麦克风346捕获的音频信号的噪声和失真的音频分类器和多个音频增强网络(例如，语音增强网络和/或音乐增强网络)。例如，音频分类器和多个音频增强网络可以通过由处理装置362执行的软件来实现。处理装置362可以被配置为访问音频数据；基于音频数据来确定音频样本窗口；将音频样本窗口输入到分类器以获得分类，其中分类器包括神经网络并且分类从一组多个音频类中取值，该组多个音频类从包括语音类和音乐类；基于分类从一组多个音频增强网络中选择音频增强网络；将所选择的音频增强网络应用于音频样本窗口以获得增强音频段，其中所选择的音频增强网络包括已使用与分类相关联的类型的音频信号而被训练的神经网络；并且基于增强音频段来存储、播放或发送增强音频信号。例如，处理装置362可以被配置为使用分类器来基于音频样本窗口确定次级分类；并且基于次级分类从一组多个音频增强网络中选择音频增强网络。例如，处理装置362可以被配置为基于分类器针对来自音频数据的另一音频样本窗口输出的分类和次级分类从一组多个音频增强网络中选择音频增强网络。例如，处理装置362可以被配置为从AV数据中提取音频数据；并且将增强音频信号与来自AV数据的视觉轨道合并。例如，处理装置362可以被配置为从与音频样本窗口相对应的视觉轨道中检测图像中的一对嘴唇；并且将基于描绘该对嘴唇的图像部分的数据输入到分类器，其中分类部分地取决于描绘该对嘴唇的图像部分。例如，处理装置362可以被配置为从与音频样本窗口相对应的视觉轨道中检测图像中的一对嘴唇；并且将基于描绘该对嘴唇的图像部分的数据输入到所选择的音频增强网络，其中增强音频段部分地取决于描绘该对嘴唇的图像部分。例如，处理装置362可以被配置为基于音频数据确定包括上述音频样本窗口在内的部分重叠的音频样本窗口的序列；使用分类器和来自一组多个音频增强网络的音频增强网络中的至少两个，基于部分重叠的音频样本窗口的序列来确定包括上述增强音频段在内的相应的增强音频段的序列；并且通过混合相应的增强音频段的序列来确定增强音频信号，包括将来自增强音频段的重叠部分中的多个段的对应样本进行组合(例如，使用加权平均)。例如，处理装置362可以被配置为将残余噪声信号确定为来自音频数据的音频信号与增强音频信号之间的差。并且将增强音频信号与残余噪声信号合并。例如，处理装置362可以被配置为将音频样本窗口输入到讲话者辨识网络以获得讲话者标识，其中讲话者辨识网络包括已使用来自一个或多个用户的语音信号而被训练以识别由一个或多个用户中的用户所发出的语音信号的神经网络；并且基于讲话者标识从一组多个音频增强网络中选择音频增强网络，其中所选择的音频增强网络包括已使用与讲话者标识相关联的人的语音信号而被训练的神经网络。例如，处理装置362可以被配置为将音频样本窗口输入到讲话者辨识网络以获得讲话者标识，其中讲话者辨识网络包括已使用来自一个或多个用户的语音信号而被训练以识别由一个或多个用户中的用户所发出的语音信号；并且基于讲话者标识从一组多个音频增强网络中选择音频增强网络，其中所选择的音频增强网络包括与讲话者标识相关联的讲话者特定嵌入。在一些实施方案中，所选择的音频增强网络包括已使用已利用室内声学模型扩增的音频信号而被训练的神经网络。例如，可以通过实现图7的过程700来训练语音增强网络。

个人计算设备360可以包括用户接口364。例如，用户接口364可以包括触摸屏显示器和一个或多个扬声器以用于向用户呈现视频和/或消息并从用户接收命令。例如，用户接口364可以包括具有被配置为支持增强现实应用的显示器的护目镜或头戴式设备。例如，用户接口364可以包括使得人能够手动地开启和关闭个人计算设备360的按钮或开关。在一些实施方案中，可以将经由用户接口364接收到的命令(例如，开始记录视频、停止记录视频、或捕捉相片)经由通信链路350传递到视频捕获设备340。

图4是被配置用于数据驱动的音频增强的系统400的示例的框图。系统400包括存储媒体文件(例如，视频文件和/或其他音频文件)并提供对其的访问(例如，用于下载或流式传输)的媒体服务器410。媒体服务器410包括数据存储装置412和网络通信接口414。系统400包括被配置成为存储的音频(例如，来自视频的音频轨道)提供音频增强服务的计算设备430。计算设备430包括处理装置432、用户接口434和网络通信接口436。计算设备430可以经由网络通信链路420与媒体服务器410进行通信。处理装置可以被配置为对由媒体服务器410存储的音频数据应用音频增强处理以用增强音频更新媒体服务器410上的文件和/或按需增强音频以供经由用户接口434的扬声器呈现(例如，音频增强可以与本地音频重放功能集成在一起)。例如，系统400可以用于实现本公开中描述的过程，诸如图5的过程500和/或图7的过程700。

媒体服务器包括数据存储装置412。该数据存储装置可以用于存储视频文件或其他类型的音频文件。例如，数据存储装置412可以包括诸如硬盘驱动器、固态驱动器、只读存储器设备(ROM)、光盘、磁盘之类的非易失性信息存储设备，或诸如非暂态计算机可读存储器之类的任何其他合适类型的存储设备。数据存储装置412可以包括能够存储数据(例如，AV数据或其他音频数据)以供检索或处理的另一类型的设备或多个设备。

媒体服务器包括网络通信接口414。网络通信接口414可以实现对存储在数据存储装置412中的AV数据或其他音频数据的远程访问。例如，网络通信接口414可以实现一种或多种网络通信协议。(例如，以太网、WiFi、SONET、IPv4和/或IPv6协议)。

计算设备430包括处理装置432。处理装置432可以包括具有单个或多个处理核心的一个或多个处理器。处理装置432可以包括存储器，诸如随机存取存储器(RAM)设备、闪速存储器或任何其他合适类型的存储设备，诸如非暂态计算机可读存储器。处理装置432的存储器可包括可由处理装置432的一个或多个处理器访问的可执行指令和数据。例如，处理装置432可以包括一个或多个DRAM模块，诸如双倍数据速率同步动态随机存取存储器(DDRSDRAM)。在一些实施方案中，处理装置432可以包括图形处理单元(GPU)。在一些实施方案中，处理装置432可以包括数字信号处理器(DSP)。在一些实施方案中，处理装置432可以包括专用集成电路(ASIC)。例如，处理装置432可以包括定制图像信号处理器。

处理装置432可以包括被配置为减小由媒体服务器410存储的音频信号的噪声和失真的音频分类器和多个音频增强网络(例如，语音增强网络和/或音乐增强网络)。分类器和多个音频增强网络可以通过由处理装置432执行的软件来实现。处理装置432可以被配置为：访问音频数据；基于音频数据来确定音频样本窗口；将音频样本窗口输入到分类器以获得分类，其中分类器包括神经网络并且分类从一组多个音频类中取值，该组多个音频类包括语音类和音乐类；基于分类从一组多个音频增强网络中选择音频增强网络；将所选择的音频增强网络应用于音频样本窗口以获得增强音频段，其中所选择的音频增强网络包括已使用与分类相关联的类型的音频信号而被训练的神经网络；并且基于增强音频段，存储、播放或发送增强音频信号。例如，处理装置432可以被配置为使用分类器来基于音频样本窗口确定次级分类；并且基于次级分类从一组多个音频增强网络中选择音频增强网络。例如，处理装置432可以被配置为基于分类器针对来自音频数据的另一音频样本窗口输出的分类和次级分类，从一组多个音频增强网络中选择音频增强网络。例如，处理装置432可以被配置为从AV数据中提取音频数据；并且将增强音频信号与来自AV数据的视觉轨道合并。例如，处理装置432可以被配置为从与音频样本窗口相对应的视觉轨道中检测图像中的一对嘴唇；并且将基于描绘该对嘴唇的图像部分的数据输入到分类器，其中分类部分地取决于描绘该对嘴唇的图像部分。例如，处理装置432可以被配置为从与音频样本的窗口相对应的视觉轨道中检测图像中的一对嘴唇；并且将基于描绘该对嘴唇的图像部分的数据输入到所选择的音频增强网络，其中增强音频段部分地取决于描绘该对嘴唇的图像部分。例如，处理装置432可以被配置为基于音频数据来确定包括上述音频样本窗口在内的的部分重叠的音频样本窗口的序列；使用分类器和来自一组多个音频增强网络的音频增强网络中的至少两个，基于部分重叠的音频样本窗口的序列来确定包括上述增强音频段在内的相应的增强音频段的序列；并且通过混合相应的增强音频段的序列来确定增强音频信号，包括将来自增强音频段的重叠部分中的多个段的对应样本进行组合(例如，使用加权平均)。例如，处理装置432可以被配置为将残余噪声信号确定为来自音频数据的音频信号与增强音频信号之间的差；并且将增强音频信号与残余噪声信号合并。例如，处理装置432可以被配置为将音频样本窗口输入到讲话者辨识网络以获得讲话者标识，其中讲话者辨识网络包括已使用来自一个或多个用户的语音信号而被训练以识别由一个或多个用户中的用户所发出的语音信号的神经网络；并且基于讲话者标识从一组多个音频增强网络中选择音频增强网络，其中所选择的音频增强网络包括已使用与讲话者标识相关联的人的语音信号而被训练的神经网络。例如，处理装置432可以被配置为将音频样本窗口输入到讲话者辨识网络以获得讲话者标识，其中讲话者辨识网络包括已使用来自一个或多个用户的语音信号而被训练以识别由一个或多个用户中的用户所发出的语音信号；并且基于讲话者标识从一组多个音频增强网络中选择音频增强网络，其中所选择的音频增强网络包括与讲话者标识相关联的讲话者特定嵌入。在一些实施方案中，所选择的音频增强网络包括已使用已利用室内声学模型扩增的音频信号来训练的神经网络。例如，可以通过实现图7的过程700来训练语音增强网络。

计算设备430包括用户接口434。例如，用户接口434可以包括触摸屏显示器和一个或多个扬声器(例如，耳机)以用于向用户呈现视频和/或消息并从用户接收命令。例如，用户接口434可以包括具有被配置为支持增强现实应用的显示器的护目镜或头戴式设备。在一些实施方案中，用户接口434的一个或多个扬声器用于播放由处理装置432生成的增强音频信号，作为集成音频增强和重放功能的一部分。

计算设备430包括网络通信接口436。网络通信接口414可以实现对存储在媒体服务器410的数据存储装置412中的AV数据或其他音频数据的访问。例如，网络通信接口436可以实现一种或多种网络通信协议(例如，以太网、WiFi、SONET、IPv4和/或IPv6协议)。在一些实施方案中，在音频信号已由处理装置增强(例如，通过实现图5的过程500)之后，可以经由网络通信接口436将所得的增强音频信号发送到媒体服务器410以供存储在数据存储装置412中。

图5是用于数据驱动的音频增强的过程500的示例的流程图。过程500包括：访问510音频数据；基于音频数据确定520音频样本窗口；将音频样本窗口输入530到分类器以获得分类；基于分类从一组多个音频增强网络中选择540音频增强网络；将所选择的音频增强网络应用550于音频样本窗口以获得增强音频段；以及基于增强音频段来存储、播放或发送560增强音频信号。例如，过程500可以由图1的系统100、图3A的系统300、图3B的系统330或图4的系统400来实现。例如，过程500可以由诸如图3A中所示的视频捕获设备310的视频捕获设备来实现。例如，过程500可以由诸如个人计算设备360或计算设备430的计算设备来实现。

过程500包括访问510音频数据。可以以各种方式访问510音频数据。例如，可以通过直接从麦克风(例如，一个或多个麦克风316)或经由总线或其他互连从存储器读取来访问510音频数据。在一些实施方案中，用于捕获音频数据的一个或多个麦克风可以为音频记录系统(例如，视频捕获设备310或视频捕获设备340)的一部分。在一些实施方案中，直接从麦克风访问510音频，而无需中间信号处理。在一些实施方案中，图像在经历中间信号处理(例如，通带滤波或编码和解码)之后而被访问510。在一些实施方案中，通过从存储器或其他数据存储装置中检索音频数据来访问510音频数据。例如，可以通过经由通信链路(例如，通信链路350或网络通信链路420)接收音频数据来访问510音频数据。例如，可以经由无线或有线通信接口(例如，Wi-Fi、蓝牙、USB、HDMI、无线USB、近场通信(NFC)、以太网、射频收发器和/或其他接口)来访问510音频数据。例如，可以经由通信接口366或网络通信接口436访问510音频数据。例如，音频数据可以作为输入音频信号而被访问510，该输入音频信号可以以数字格式例如以脉冲编码调制格式表示声波。在一些实施方案中，音频数据可以为视频的一个或多个音频轨道。例如，访问510音频数据可以包括从AV数据中提取音频数据(例如，作为存储为视频文件的一部分的一个或多个音频轨道)。例如，访问510音频数据可以包括对编码音频轨道(例如，遵照诸如MP3或AAC的标准编码)进行解码以恢复脉冲编码调制音频信号。

过程500包括基于音频数据确定520音频样本窗口。例如，音频样本窗口的持续时间可以是固定的并且可以对应于分类器和/或音频增强网络中的神经网络的输入层的大小。可以选取音频样本窗口的持续时间(例如，1秒、2秒或5秒)以横跨语音的目标语言的多个音素或单词，以为分类和/或音频增强处理提供足够的上下文。可以将音频样本窗口的持续时间选取为足够短以跟踪存在于音频数据中的音频信号的(一种或多种)类型的快速变化。在一些实施方案中，音频样本窗口的持续时间与将基于该音频样本窗口生成的对应的增强音频段比具有更长的持续时间。例如，音频样本窗口可以在所对应的增强音频段的端点之前和/或之后延伸以便向用于获得增强音频段的音频增强网络提供回顾和/或前瞻信息。例如，可以如关于图6A的音频样本的当前窗口610所描述的那样确定音频样本窗口。在一些实施方案中，确定520音频样本窗口是基于音频数据确定520包括该音频样本窗口在内的的部分重叠的音频样本窗口的序列的一部分。例如，部分重叠的音频样本窗口的序列可被确定520，如关于图6B的窗口N 660、窗口N-1 662和窗口N+1 664所描述的那样。在一些实施方案中，确定520音频样本窗口包括：迭代地移位被输入到分类器的音频样本窗口的相位以在音频类型分类中搜索更精确的边界或过渡时间，并且基于在音频类型的分类中检测到的过渡的时间偏移来选择一个或多个音频样本窗口的相位。

过程500包括将音频样本窗口输入530到分类器以获得分类。分类器可以包括神经网络(例如，卷积深度神经网络)并且分类从一组多个音频类中取值。例如，该组多个音频类可以包括语音类和音乐类，并且对应的一组多个音频增强网络可以包括语音增强网络和音乐增强网络。例如，分类器的神经网络的层可以针对这组的多个类中的相应类按元素输出类概率的向量(例如，类激活的softmax函数)。例如，可以使用与这组多个类中的相应类相对应的类型的标记音频信号示例来训练分类器的神经网络。

例如，可以使用分类器来基于音频样本窗口确定次级分类。在一些实施方案中，分类器也响应于将音频样本窗口输入530到分类器而输出一个或多个次级分类。例如，分类器可以将语音检测为主要分类而将背景音乐检测为次级分类。例如，分类器可以将音乐检测为主要分类而将背景低语语音检测为次级分类。例如，主要分类可以对应于在归一化分类向量中具有最高概率的类，而次级分类可以对应于在归一化分类向量中具有低于这种最高概率且高于阈值(例如，对于归一化分类向量上的次高概率的阈值)的概率的类。在一些实施方案中，可以用包括自然发生的音频类型的混合(例如，音乐上的语音或语音上的音乐)的音频信号示例来训练分类器。

在一些实施方案中，分类器可以将针对来自音频数据的先前音频样本窗口的一个或多个分类视为输入并且可以基于一个或多个先前分类来确定针对当前音频样本窗口的主要分类和/或一个或多个次级分类。

在一些实施方案(图5中未示出)中，语音信号可以由扬声器进一步分类。例如，可以使用附加的经训练讲话者辨识分类网络来识别最可能的讲话者。例如，可以将语音信号辨识为源自分类器(例如，包括神经网络)已被训练来辨识的已知用户(例如，来自预定的可能讲话者的目录中的个人)。在一些实施方案中，音频样本窗口被输入到讲话者辨识网络以获得讲话者标识。讲话者辨识网络可以包括已使用来自一个或多个用户的语音信号而被训练以识别由一个或多个用户中的用户所发出的语音信号的神经网络。在一些实施方案中，可以按讲话者的类型(例如，年龄、性别和/或口音)对语音信号进行分类。在一些实施方案中，可以将带有对于讲话者标识的指示的标记应用于视频本身的视觉轨道中或边数据结构中的对应AV数据。

在一些实施方案(图5中未示出)中，可以部分地基于在来自从中提取音频数据的AV数据的视觉轨道的对应窗口中检测到嘴唇运动来对语音信号进行分类。例如，使用标准面部检测和跟踪方法来隔离每个讲话者面部的嘴唇，来自视觉轨道的图像序列可以与音频轨道协调地处理。例如，对视觉轨道的处理可以包括解码(例如，根据诸如H.264或H.265的视频编码标准)。嘴唇和面部表情的图像可以与有噪声音频轨道相结合地使用，以进一步从噪声中消除语音的歧义。例如，可以采用视频自动语音识别(VASR)算法。也可用针对讲话者的面部识别来加强讲话者辨识。例如，可以将过程500扩增为包括：从与音频样本窗口相对应的视觉轨道中检测图像中的一对嘴唇，以及将基于描绘该对嘴唇的图像部分的数据输入到分类器，其中分类部分地取决于描绘该双嘴唇的图像部分。

过程500包括基于分类从一组多个音频增强网络中选择540音频增强网络。在一些实施方案中，分类是主要分类，并且基于主要分类和一个或多个次级分类(这一个或多个次级分类是使用分类器基于音频样本窗口确定的)来选择540音频增强网络。例如，可以使用将主要分类和一个或多个次级分类映射到对音频增强网络的选择的策略矩阵(例如，上表1的策略矩阵)来选择音频增强网络。例如，过程500可以包括基于次级分类(例如，除了主要分类之外)从一组多个音频增强网络中选择540音频增强网络。在一些实施方案中，对音频增强网络的选择除了取决于针对当前音频样本窗口的主要分类和/或一个或多个次级分类之外，还取决于针对另一音频样本窗口(例如，先前窗口和/或后续窗口)的主要分类和/或一个或多个次级分类。例如，可以使用将所考虑的分类映射到对音频增强网络的选择的策略矩阵(例如，比表1的3x3策略矩阵更高维度(表示所考虑的分类的排列)的策略矩阵)来选择音频增强网络。例如，过程500可以包括基于分类器针对来自音频数据的另一音频样本窗口输出的分类和次级分类从一组多个音频增强网络中选择540音频增强网络。

在一些实施方案(图5中未示出)中，语音信号可以通过讲话者进一步分类，并且可以基于讲话者标识来选择和/或修改音频增强网络。例如，一旦通过语音和/或面部识别辨识出了可能的讲话者，则可以通过换入讲话者特定深度神经以进行语音改进来进一步改进语音增强，或者将讲话者特定嵌入(例如，“i向量”)引进到经训练以使用讲话者嵌入信息来进一步从噪声消除语音的歧义的语音增强网络来进一步改进语音增强。例如，过程500可以包括基于讲话者标识(例如，除了一个或多个分类之外)从一组多个音频增强网络中选择540音频增强网络。例如，所选择的音频增强网络可以包括已使用与讲话者标识相关联的人的语音信号而被训练的神经网络。在一些实施方案中，所选择的音频增强网络包括与讲话者标识相关联的讲话者特定嵌入。

过程500包括将所选择的音频增强网络应用550于音频样本窗口以获得增强音频段。例如，所选择的音频增强网络可以包括已使用与分类相关联的类型的音频信号而被训练的神经网络。在一些实施方案中，所选择的音频增强网络包括已使用已利用室内声学模型扩增的音频信号(例如，语音信号或音乐信号)而被训练的神经网络。例如，可能已通过实现图7的过程700训练所选择的音频增强网络。例如，可能已使用图2的系统200训练所选择的音频增强网络。

在一些实施方案(图5中未示出)中，可以部分地基于在来自从中提取音频数据的AV数据的视觉轨道的对应窗口中检测到嘴唇运动来增强语音信号。例如，可以将过程500扩增为包括：从与音频样本窗口相对应的视觉轨道中检测图像中的一对嘴唇；以及将基于描绘该对嘴唇的图像部分的数据输入到所选择的音频增强网络，其中增强音频段部分地取决于描绘该对嘴唇的图像部分。

如果(在操作555处)有来自音频数据的更多音频样本要处理，则确定520下一个音频样本窗口并将其输入530到分类器以获得分类，而且基于分类来选择540音频增强网络并且将其应用550于下一个音频样本窗口以获得下一个增强音频段。过程500可以迭代地继续，直到(在操作555处)没有更多的音频样本窗口要处理为止。例如，过程500可以包括：使用分类器和来自一组多个音频增强网络的至少两个音频增强网络，基于部分重叠的音频样本窗口的序列(例如，如图6B中所图示的)来确定包括上述增强音频段在内的相应的增强音频段的序列。

过程500包括基于增强音频段来存储、播放或发送560增强音频信号。例如，确定增强音频信号可以包括：将相应的增强音频段的序列进行混合，包括将来自增强音频段的重叠部分中的多个段的对应样本进行组合(例如，使用加权平均)。在一些实施方案中，在从AV数据中提取音频数据的情况下，增强音频信号被与来自AV数据的视觉轨道合并(例如，同步和编码)并且作为增强AV数据的一部分被存储或发送560。

多个音频声道或轨道可以用于对增强音频信号和关联的音频信号进行编码。例如，一旦已通过去除噪声和混响增强了音频，就可如上所述简单地丢弃原始音频，或者可将音频分解成一个或多个干净音频轨道以及包含残余噪声的第二组轨道。可以通过从对应的原始轨道中减去干净轨道来计算残余噪声轨道。可以将这些轨道方便地表示为立体声声道，使得可在重放时重新创建音频的替代混合。在一些情况下，如果为用户创建了音频的原始感觉和降低噪声版本的更好平衡，则收听者可能更喜欢混合中稍微更多的噪声。例如，可以将残余噪声信号确定为来自音频数据的音频信号与增强音频信号之间的差，并且可以将残余噪声信号与增强音频信号合并。在一些实施方案中，可以使用多个音频轨道或声道来对与不同的讲话者相对应的相应的增强音频信号进行编码。在一些实施方案中，增强音频轨道连同对应的原始未增强音频轨道一起被包括。正如系统可被训练以辨识具体讲话者一样，可将多个讲话者的音频轨道(包括重叠的语音)分解成单个讲话者轨道，其中每个轨道试图捕获这些讲话者中的仅一个讲话者的隔离的增强语音。例如，增强语音段可以用讲话者标识来标记，该讲话者标识用于选择540讲话者特定音频增强网络以应用于所对应的音频样本窗口。讲话者标识标签可以用于选择增强音频段的子集以供包括在讲话者特定音频轨道或声道中。

例如，可以将增强音频信号发送560到外部设备(例如，媒体服务器410或个人计算设备)以供显示或存储。例如，可以将增强音频信号存储560在处理装置(例如，处理装置312、处理装置362或处理装置432)的存储器中。例如，可以在用户接口320、用户接口364或用户接口434中播放560增强音频信号。例如，可以经由通信接口322、通信接口366或网络通信接口436发送560增强音频信号。

图6A是用于对音频样本的窗口进行处理以生成增强音频段的音频增强处理600的示例的图示。在图3中示出了用于语音增强的深度神经网络的示例结构。音频样本的当前窗口610被处理成时间特征和频谱特征的混合，深度神经网络620使用此时间特征和频谱特征的混合从中过滤并重新生成输出增强音频段630。音频样本的当前窗口610发生在音频信号中，此音频信号前面是先前的样本612并且后面是将来的样本614。例如，先前的样本和/或将来的样本可以发生在音频样本窗口的序列中的先前窗口或后面窗口中。

例如，对增强深度神经网络的评价可以在0.5秒至2秒的有噪声音频的输入跨度上操作。这种窗口的持续时间创建了横跨多个语音音素和甚至多个单词的输入音频上下文。通过横跨更多的音素，网络具有更多的上下文信息以允许模型捕获目标语言中统计上频繁的声音和甚至单词使用模式。另外，可有效地学习复杂的噪声模式以协助去除这些干扰源。此外，可以使得系统能够更有效地从噪声中消除语音的歧义并且在它们已被噪声完全掩盖的情况下甚至部分地重建更合理的遗漏语音声音。系统可以对仅当前的输入样本和过去的样本进行操作，或者可以对当前的样本以及在当前时间之前的样本和之后的样本进行操作。向前看(例如，达几百毫秒)可改进准确性，但是也将处理系统的等待时间增加向前看的时间。

图6B是用于对重叠的音频样本窗口处理以生成重叠的增强音频段的音频增强处理650的示例的图示。当前音频样本窗口N 660被处理成时间特征和频谱特征的混合，深度神经网络670使用此时间特征和频谱特征的混合从中过滤并重新生成输出增强音频段680的。先前的音频样本窗口N-1 662被处理成时间特征和频谱特征的混合，深度神经网络670使用此时间特征和频谱特征的混合从中过滤并重新生成输出增强音频段682。下一个音频样本窗口N+1 664被处理成时间特征和频谱特征的混合，深度神经网络670使用此时间特征和频谱特征的混合从中过滤并重新生成输出增强音频段684。先前的音频样本窗口N-1 662发生在音频信号中，该音频信号前面是先前的样本666，而下一个窗口N+1 664后面是将来的样本668。例如，先前的样本和/或将来的样本可以发生在音频样本窗口的序列中的先前的窗口或后面的窗口中。

深度神经网络670被应用于重叠的音频样本输入窗口(660、662和664)。输入重叠可被选取为既为语音重建提供足够的上下文又允许输出段(680、682和684)重叠。例如，可以通过逐样本对结果进行平均来组合重叠的输出窗口。对重叠的增强音频段进行组合可以改进连续性，同时减少增强语音输出中的音频伪像。

图7是用于训练语音增强网络的过程700的示例的流程图。过程700包括：应用710干净语音分类器以对来自原始语音信号的语料库的原始语音信号进行分类，以选择用于包括在干净语音信号的语料库中的原始语音信号；对来自干净语音信号的语料库的干净语音信号应用720室内声学模型以获得脏语音信号；将来自噪声信号的语料库的噪声信号与干净语音信号组合730；使用脏语音信号作为训练输入来训练740神经网络；以及存储或发送750神经网络。例如，过程700可以由图2的系统200、图3A的系统300、图3B的系统330或图4的系统400来实现。例如，过程700可以由诸如图3A中所示的视频捕获设备310的视频捕获设备来实现。例如，过程700可以由诸如个人计算设备360或计算设备430的计算设备来实现。

过程700包括应用710干净语音分类器以对来自原始语音信号的语料库的原始语音信号进行分类以选择用于包括在干净语音信号的语料库中的原始语音信号。例如，干净语音分类器可以包括被训练为区分高质量的语音记录和低质量的语音记录(例如，使用手动地标记的语音示例的语料库)的神经网络。在一些实施方案中，干净语音分类器可以被配置为确定原始语音信号的一个或多个客观质量度量(例如，语音质量感知评价(PESQ))并且基于一个或多个客观质量度量(例如，对于客观质量度量使用一个或多个阈值)选择用于包括在干净语音信号的语料库中的原始语音信号。

过程700包括对来自干净语音信号的语料库的干净语音信号应用720室内声学模型以获得脏语音信号。例如，可以使用卷积运算来对干净语音信号应用720室内声学模型。例如，可以对干净语音信号的语料库的干净语音信号应用数千个不同的室内声学模型以生成称作脏语音信号的训练信号的大型扩增语料库。

过程700包括将来自噪声信号的语料库的噪声信号与干净语音信号组合730。例如，噪声可以通过简单的线性组合与语音组合(加性噪声)或者可以使用更复杂的组合函数来表示麦克风饱和或伦巴效应的效果。可以从许多背景噪声源(例如，来自咖啡馆、街道、建筑工地、汽车、飞机、酒吧以及视频和音频制作音效的记录)收集噪声信号。也可以在噪声语料库中包括常见的人类生成的非语音噪声，诸如笑声和掌声。在一些实施方案中，在组合语音分量和噪声分量之前，可以单独地对这些分量中的每一个应用720室内声学模型，以便近似不同的讲话者和噪声源在声学空间中的位置。

在一些实施方案(在图7中未示出)中，可以将噪声信号与干净语音信号组合730，之后将室内声学模型应用720于组合信号以获得脏语音信号。训练数据集扩增操作的这种排序可以创建逼真的语音和噪声干扰混合。

过程700包括使用脏语音信号作为训练输入来训练740神经网络，其中反馈基于将所得的增强音频信号与对应的来自干净语音信号的语料库的干净语音信号进行比较的损失函数。例如，损失函数可以基于感知客观收听质量评估(POLQA)得分、PESQ得分或均方误差。例如，可以使用随机最深下降算法来训练740神经网络。

过程700包括存储或发送750神经网络。例如，可以将神经网络(例如，神经网络的模型或状态)发送750到外部设备(例如，个人计算设备)以供显示或存储。例如，可以将神经网络存储750在处理装置(例如，处理装置312、处理装置362或处理装置432)的存储器中以供以后用于增强语音信号。例如，可以经由通信接口322、通信接口366或网络通信接口436来发送750神经网络。

虽然已结合某些实施方式描述了本公开，但是应当理解，本公开不应限于所公开的实施方式，而是相反，旨在涵盖包括在所附权利要求的范围内的各种修改和等同布置，所附权利要求的范围应符合如在法律下所允许的最宽泛解释，以便包含所有此类修改和等同布置。

Claims

1.一种系统，包括：

处理装置，所述处理装置被配置为：

访问音频数据；

基于所述音频数据来确定音频样本窗口；

将所述音频样本窗口输入到分类器以获得分类，其中所述分类器包括神经网络并且所述分类从一组多个音频类中取值，所述一组多个音频类包括语音类和音乐类；

基于所述分类来从一组多个音频增强网络中选择音频增强网络；

将所选择的音频增强网络应用于所述音频样本窗口以获得增强音频段，其中所选择的音频增强网络包括已使用与所述分类相关联的类型的音频信号而被训练的神经网络；并且

基于所述增强音频段来存储、播放或发送增强音频信号。

2.根据权利要求1所述的系统，其中所述处理装置被配置为：

使用所述分类器来基于所述音频样本窗口确定次级分类；并且

基于所述次级分类来从所述一组多个音频增强网络中选择所述音频增强网络。

3.根据权利要求2所述的系统，其中所述处理装置被配置为：

基于所述分类器针对来自所述音频数据的另一音频样本窗口输出的分类和次级分类，从所述一组多个音频增强网络中选择所述音频增强网络。

4.根据权利要求1至3中任一项所述的系统，其中所述处理装置被配置为：

从AV数据中提取所述音频数据；并且

将所述增强音频信号与来自所述AV数据的视觉轨道合并。

5.根据权利要求4所述的系统，其中所述处理装置被配置为：

从与所述音频样本窗口相对应的所述视觉轨道中检测图像中的一对嘴唇；并且

将基于描绘所述一对嘴唇的图像部分的数据输入到所述分类器，其中所述分类部分地取决于描绘所述一对嘴唇的所述图像部分。

6.根据权利要求1至5中任一项所述的系统，其中所述处理装置被配置为：

基于所述音频数据确定包括所述音频样本窗口在内的部分重叠的音频样本窗口的序列；

使用所述分类器和来自所述一组多个音频增强网络中的至少两个音频增强网络来基于所述部分重叠的音频样本窗口的序列确定包括所述增强音频段在内的相应的增强音频段的序列；并且

通过混合所述相应的增强音频段的序列来确定增强音频信号，包括将来自这些增强音频段的重叠部分中的多个段的对应样本进行组合。

7.根据权利要求1至6中任一项所述的系统，其中所述处理装置被配置为：

将残余噪声信号确定为来自所述音频数据的音频信号与所述增强音频信号之间的差；并且

将所述增强音频信号与所述残余噪声信号合并。

8.根据权利要求1至7中任一项所述的系统，其中所述处理装置被配置为：

将所述音频样本窗口输入到讲话者辨识网络以获得讲话者标识，其中所述讲话者辨识网络包括已使用来自一个或多个用户的语音信号而被训练以识别由所述一个或多个用户中的用户所发出的语音信号的神经网络；并且

基于所述讲话者标识，从所述一组多个音频增强网络中选择所述音频增强网络，其中所选择的音频增强网络包括已使用与所述讲话者标识相关联的人的语音信号而被训练的神经网络。

9.根据权利要求1至8中任一项所述的系统，其中所述处理装置被配置为：

基于所述讲话者标识，从所述一组多个音频增强网络中选择所述音频增强网络，其中所选择的音频增强网络包括与所述讲话者标识相关联的讲话者特定嵌入。

10.根据权利要求1至9中任一项所述的系统，其中所选择的音频增强网络包括已使用已利用室内声学模型扩增的音频信号而被训练的神经网络。

11.根据权利要求1至10中任一项所述的系统，包括：

麦克风，所述麦克风被配置为捕获所述音频数据。

12.一种方法，包括：

访问音频数据；

基于所述音频数据来确定音频样本窗口；

将所述音频样本窗口输入到分类器以获得分类，其中所述分类器包括神经网络并且所述分类从一组多个音频类中取值；

基于所述分类，从一组多个音频增强网络中选择音频增强网络；

基于所述增强音频段来存储、播放或发送增强音频信号。

13.根据权利要求12所述的方法，包括：

使用所述分类器来基于所述音频样本窗口确定次级分类；以及

基于所述次级分类，从所述一组多个音频增强网络中选择所述音频增强网络。

14.根据权利要求13所述的方法，包括：

15.根据权利要求12至14中任一项所述的方法，包括：

从AV数据中提取所述音频数据；以及

将所述增强音频信号与来自所述AV数据的视觉轨道合并。

16.根据权利要求15所述的方法，包括：

从与所述音频样本窗口相对应的所述视觉轨道中检测图像中的一对嘴唇；以及

17.根据权利要求15所述的方法，包括：

将基于描绘所述一对嘴唇的图像部分的数据输入到所选择的音频增强网络，其中所述增强音频段部分地取决于描绘所述一对嘴唇的所述图像部分。

18.根据权利要求12至17中任一项所述的方法，包括：

使用所述分类器和来自所述一组多个音频增强网络中的至少两个音频增强网络，基于所述部分重叠的音频样本窗口的序列来确定包括所述增强音频段在内的相应的增强音频段的序列；以及

19.根据权利要求12至18中任一项所述的方法，包括：

将残余噪声信号确定为来自所述音频数据的音频信号与所述增强音频信号之间的差；以及

将所述增强音频信号与所述残余噪声信号合并。

20.根据权利要求12至19中任一项所述的方法，包括：

将所述音频样本窗口输入到讲话者辨识网络以获得讲话者标识，其中所述讲话者辨识网络包括已使用来自一个或多个用户的语音信号而被训练以识别由所述一个或多个用户中的用户所发出的语音信号的神经网络；以及

21.根据权利要求12至20中任一项所述的方法，包括：

22.根据权利要求12至21中任一项所述的方法，其中所选择的音频增强网络包括已使用已利用室内声学模型扩增的音频信号而被训练的神经网络。

23.根据权利要求12至22中任一项所述的方法，其中所述一组多个音频类包括语音类和音乐类，并且所述一组多个音频增强网络包括语音增强网络和音乐增强网络。

24.一种方法，所述方法包括：

访问AV数据，所述AV数据包括一个或多个视觉轨道和一个或多个音频轨道；

从所述AV数据中提取音频数据；

基于所述音频数据确定音频样本窗口；

对所述音频样本窗口应用音频增强网络以获得增强音频段，其中所述音频增强网络包括已使用音频信号而被训练的神经网络；

将基于所述增强音频段的增强音频信号与来自所述AV数据的视觉轨道合并；以及

基于所述增强音频段来存储、播放或发送所述增强音频信号。

25.根据权利要求24所述的方法，包括：

将基于描绘所述一对嘴唇的图像部分的数据输入到所述音频增强网络，其中所述增强音频段部分地取决于描绘所述一对嘴唇的所述图像部分。

26.根据权利要求24至25中任一项所述的方法，包括：

基于所述音频数据确定包括所述音频样本窗口在内的的部分重叠的音频样本窗口的序列；

使用所述音频增强网络，基于所述部分重叠的音频样本窗口的序列来确定包括所述增强音频段在内的相应的增强音频段的序列；以及

27.根据权利要求24至26中任一项所述的方法，包括：

将所述增强音频信号与所述残余噪声信号合并。

28.根据权利要求24至27中任一项所述的方法，包括：

29.根据权利要求24至28中任一项所述的方法，其中所述音频增强网络包括已使用已利用室内声学模型扩增的音频信号而被训练的神经网络。

30.一种训练用于语音增强的神经网络的方法，所述方法包括：

对来自干净语音信号的语料库的干净语音信号应用室内声学模型以获得脏语音信号；

使用所述脏语音信号作为训练输入来训练所述神经网络，其中反馈基于将所得的增强音频信号与对应的来自所述干净语音信号的语料库的干净语音信号进行比较的损失函数；以及

存储或发送所述神经网络。

31.根据权利要求30所述的方法，包括：

将来自噪声信号的语料库的噪声信号与所述干净语音信号组合。

32.根据权利要求30至31中任一项所述的方法，包括：

应用干净语音分类器以对来自原始语音信号的语料库的原始语音信号进行分类以选择用于包括在所述干净语音信号的语料库中的原始语音信号。