CN112513986A

CN112513986A - 使用同步记录的音频噪声降低

Info

Publication number: CN112513986A
Application number: CN201980051455.7A
Authority: CN
Inventors: 亚伊尔·莫夫肖维茨-阿蒂亚斯; 艾尔德·埃德温·茨维·埃班
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-08-09
Filing date: 2019-06-20
Publication date: 2021-03-16
Anticipated expiration: 2039-06-20
Also published as: EP3818527A1; CN112513986B; US10255898B1; WO2020033043A1

Abstract

由于便携式记录设备的局限性，由蜂窝电话或其他便携式记录设备记录的音频(例如，作为演奏或其他事件的视频记录的一部分记录的音频)通常具有低质量。在同一时段期间并且在同一位置附近进行的多个音频记录可以被组合以生成事件的改进质量的音频记录。音频记录可由选择音频记录并执行组合的服务器访问。为了保护使用其音频的人的隐私，多于最小数目的记录可以被组合和/或任何记录的不多于阈值量可以被使用来生成组合记录。此外，提供的‘干净’记录可能包括请求此类‘干净’记录的用户或设备提供的音频的多于阈值量。

Description

使用同步记录的音频噪声降低

背景技术

包括蜂窝电话的各种便携式电子设备被配置成在各式各样的情况下以最小设置或预警来记录音频和/或视频。此类设备的普遍存在意味着记录由全范围的人类活动和事件组成，并且常常经由互联网共享。

然而，这些便携式设备常常在能够生成的音频记录的质量方面受到限制。特别地，在蜂窝电话或类似设备上可用的麦克风常常在质量、频谱响应、噪声抑制、失真和/或其他因素方面受到限制。因此，使用此类设备做出的音频记录可能不令人满意，显示出失真和来自各种源(例如，来自记录设备的环境中的不需要的声音源)的噪声。虽然对此类音频记录进行滤波可以改进其质量，但是时常这样的单个音频记录本身包含不足的信息，而无法恢复所期望的音频信号的高质量表示。

发明内容

本公开的一个方面涉及一种方法，该方法包括：(i)从请求者设备接收目标音频信号，其中目标音频信号包括指示在第一时段期间采样的声音的信息，其中第一时段包括多个时间分段；(ii)获得源音频信号的集合，其中源音频信号中的每一个均包括指示在第一时段的至少一部分期间采样的声音的信息；(iii)对于目标音频信号的每个时间分段，基于音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段；(iv)使所生成的干净音频的分段平滑以生成平滑音频信号；(v)将目标音频信号与平滑音频信号组合以生成输出音频信号；以及(vi)将输出音频信号的指示传送到请求者设备。

本公开的另一方面涉及一种具有存储在其上的程序指令的计算机可读介质(例如，包括这样的计算机可读介质——例如，包括非暂时性计算机可读介质——的制品)，该程序指令在由计算设备执行时，使计算设备执行包括下述的操作：(i)从请求者设备接收目标音频信号，其中目标音频信号包括指示在第一时段期间采样的声音的信息，其中第一时段包括多个时间分段；(ii)获得源音频信号的集合，其中源音频信号中的每一个均包括指示在第一时段的至少一部分期间采样的声音的信息；(iii)对于目标音频信号的每个时间分段，基于音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段；(v)使所生成的干净音频的分段平滑以生成平滑音频信号；(vi)将目标音频信号与平滑音频信号组合以生成输出音频信号；以及(vii)将输出音频信号的指示传送到请求者设备。

本公开的又一方面涉及一种方法，该方法包括：(i)获得目标音频信号，该目标音频信号包括指示在第一时段期间采样的声音的信息，其中第一时段包括多个时间分段；(ii)获得源音频信号的集合，其中源音频信号中的每一个均包括表示在第一时段的至少一部分期间采样的声音的信息；(iii)对于目标音频信号的每个时间分段，基于音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段；(v)使所生成的干净音频的分段平滑以生成平滑音频信号；以及(vi)将目标音频信号与平滑音频信号组合以生成输出音频信号。

本公开的又一个方面涉及一种减少音频数据的噪声的方法，该方法包括：(i)获得目标音频信号，该目标音频信号包括指示在第一位置中在第一时段期间采用的声音的信息，其中第一时段包括多个时间分段；(ii)搜索数据存储以识别一个或多个源音频数据项，每个源音频数据项包括表示在第一时段的至少一部分期间以及在第一位置的阈值距离内采样的声音的信息；(iii)对于目标音频信号的每个时间分段，通过组合目标音频数据与源音频数据的一个或者多个时间上对应的分段来生成干净音频数据的相应的分段；以及(iv)组合干净音频数据的分段以生成输出音频数据。

通过适当地参考附图阅读以下具体实施方式，这些以及其他方面，优点和替代方案对于本领域普通技术人员将变得显而易见。此外，应当理解，在本发明内容部分和本文其他地方提供的描述旨在通过示例而非限制的方式说明所要求保护的主题。

附图说明

图1描绘包含多个设备的示例环境。

图2描绘根据示例实施例的多个音频信号的定时。

图3描绘根据示例实施例的多个音频信号的定时以及用于组合音频信号的时间依赖系数。

图4是示出示例系统的一些组件的简化框图。

图5是根据示例实施例的方法的流程图。

具体实施方式

本文描述了方法和系统的示例。应当理解，词语“示例性”、“示例”和“说明性”在本文中用来表示“用作示例、实例或说明”。本文中被描述为“示例性”、“示例”或“说明性”的任何实施例或特征不必被解释为比其他实施例或特征优选或有利。此外，本文描述的示例性实施例并不意味着是限制性的。容易理解的是，所公开的系统和方法的某些方面可以以多种不同的配置来布置和组合。

I.概述

蜂窝电话和类似设备的普遍存在已使得能够将各式各样的事件(例如，音乐会或其他表演、烟火表演、公开演讲、家庭聚会)捕获到视频。遗憾的是，在蜂窝电话或类似设备上可用的麦克风常常在质量、频谱响应、噪声抑制、失真和/或其他因素方面受到限制，因此可以产生事件的不令人满意的音频记录。

然而，可以通过组合在相同时间并在相同位置附近生成的、由相应不同的蜂窝电话或其他设备生成的多个记录来产生改进的音频记录。以这种方式，能通过将可用信息汇合在次优质量记录的合集中来克服单个设备的缺点。能收集并组合此类多个记录，并且在出席事件的设备当中以对等方式传播所得改进的音频记录(例如，经由自组织网络)。附加地或替换地，云计算服务(例如，云视频存储和共享服务)能接收多个不同的记录并组合它们以生成改进的音频记录。

为了以这种方式组合多个音频记录，可以从候选记录池中选择记录。能基于与感兴趣事件/时段的时间重叠的程度、基于与音频记录相关联的GPS或其他位置信息、基于音频记录彼此的相似性、基于与音频记录相关联的用户生成的标签或其他用户生成的元数据、基于与音频记录相关联的视频记录(或其内容)之间的相似性、或者基于音频记录和/或其内容之间的相似性的某些其他指示标(indicia)来选择音频记录。一旦被选择，音频记录就可以被以各种方式组合，例如，作为选择的音频记录的加权线性组合。能例如使用人工神经网络或其他机器学习算法来确定这样的加权线性组合中的权重。

能以各种方式保护其音频记录用于生成事件的这种改进的音频记录的个人的隐私。除非用户已同意了这样使用(例如，以便访问由此生成的改进的音频记录)，否则可能限制此类音频记录这样使用。能使用不少于最少数目的音频记录(例如，以便减少任何一个记录对所得改进的音频记录的贡献)来生成改进的音频记录和/或能使音频记录的加权线性组合中的任何一个记录的权重维持在最大值以下(例如，以便确保任何一个记录对所得改进的音频记录的贡献小于阈值量)。以这种方式，保护了存在于一些而非全部记录中的信息(例如，附近谈话的内容)的隐私。附加地或替换地，提供给特定用户的改进的音频记录能包括不少于用户自己的音频记录的阈值量(例如，提供给特定用户的改进的记录可能是用户自己的原始记录和从多个其他用户的记录生成的纯净记录的线性组合，其中用户的原始记录表示超过线性组合的最小量)。以这种方式，没有用户能够探知可能存在于其他用户的记录中的私人信息(例如，附近谈话的内容)。

应该理解的是，以上实施例和本文描述的其他实施例是出于说明的目的而提供的，并且不旨在是限制性的。

II.示例音频记录组合和改进

由用户产生的音频记录(例如，作为使用蜂窝电话产生的学生演奏的视频记录的一部分)可能显示出失真、噪声、不需要的外来声音(例如，来自与记录的对象无关的附近谈话)、或与低音频记录质量有关的其他不需要的内容。在用户已产生了这样的音频记录的许多情形(例如，音乐会、演奏、演讲、街头表演、烟火演出、游行)下，多个其他用户也已产生了他们自己的音频记录(例如，使用他们自己的蜂窝电话或其他音频/视频记录设备)。由于这些多个不同的记录是在相同时间并在相同位置附近取得的，所以能通过组合多个不同的记录(例如，通过对记录一起求平均或者对记录执行某种其他线性组合)来产生“改进的”记录。然后能使组合音频记录例如对其音频记录用于生成所述组合音频记录的那些人和/或第三方可用。

在图1中通过示例示出这样的场景。图1示出用户可以使用来做出事件120(例如，音乐会)的音频记录(例如，作为视频剪辑的一部分的音频记录)的第一用户设备110(例如，蜂窝电话)。一个或多个附加用户设备130a-e存在于第一用户设备110附近，因此还能被操作来生成事件120的音频记录。一个或多个用户设备130f-g还可以远离第一设备110存在(例如，在举行事件120的场地外部并从那里跨越街道)。

因此，由第一设备110和附近的设备130a-e记录的音频可以是类似的，每一个包含表示事件120的声音的信息。然而，这些音频记录很可能由于例如本地噪声源(例如，在设备之一附近而不在其他设备附近发生的谈话)中的差异、记录过程所固有的噪声(例如，由设备的麦克风引入的失真和噪声、由放大和采样电子设备引入的噪声)、相对于事件120的位置和定向差异(例如，与为事件120生成声音的一个或多个扬声器的接近度)或其他差异而不同。相反地，使用远设备130f-g生成的音频记录不可能包含关于事件120的声音的有用信息。

注意，图1中描绘的示例场景(出席的许多个人具有能音频记录的多个设备并且在相对远的位置处具有若干附加能音频记录的设备的音乐会)旨在作为本文描述的系统和方法的应用的非限制性示例实施例。本文描述的系统和方法能被应用于为附加或替代环境和/或事件生成改进的音频记录。例如，能基于在演讲、演奏、音乐会、政治集会、街头表演、烟火表演、艺术展、电影或其他视听记录的呈现、比赛、游行或某个其他事件附近取得的音频记录来生成改进的音频记录。能在以下中生成此类音频记录：剧院、音乐厅、室外表演场地、博物馆、城市街道、公园、地铁、飞机的客舱、或其中多个用户正在操作相应的音频记录设备以生成环境中的声音的多个记录的某个其他适用的环境。

一旦已生成了此类多个音频记录，则能应用各种系统来访问和组合记录以便生成改进的音频记录。例如，许多音频记录设备(例如，蜂窝电话)可能是网络(例如，为了安全地共享事件的音频记录数据而形成的对等网络)的一部分并通过网络操作以为了将记录组合成改进的音频记录来(例如，以分布式方式和/或利用作为协调器/服务器的设备中的一个)传送音频记录。在另一示例中，服务器和/或云计算服务能从多个设备接收音频记录(例如，作为音频和/或视频上载、存储和/或共享服务或网站的一部分)并且能操作来将记录组合成改进的音频记录。不管实现方式如何，被采用来执行本文描述的方法的设备和系统能够包括编程和/或电子器件以保护贡献其音频记录以组合的用户的隐私。这能够包括仅使用来自以下用户的音频记录：已显式地同意了这样使用(例如，经由总体同意或在每记录基础上)和/或已通过请求基于其音频记录和已类似地同意了的其他人的音频记录的组合来请求改进的音频记录而同意了这样使用。

一旦已获得和/或访问了记录的音频信号的集合，就能够使用本文描述的系统和方法来组合音频信号，以为事件生成改进的音频信号。这能够包括为特定目标音频信号生成改进的音频信号。例如，特定用户能(例如，从蜂窝电话或其他请求者设备)向服务器或云计算服务传送特定目标音频信号以及对该特定目标音频信号的改进版本的请求。然后能组合并使用在时间上与目标信号至少部分地重叠的许多可用的源音频信号以为目标信号生成相对于目标音频信号关于例如失真水平、噪声、多普勒频移、频谱滤波或失真、音频反馈、欠采样、低信号振幅或某种其他音频质量度量改进的输出音频信号。目标音频信号和源音频信号可以包括仅音频记录、或音频-视频记录(例如，视频剪辑)的音频部分、或它们的任何组合。

生成这种改进的输出音频信号能够包括从对服务器、云计算系统或其他系统可用的另外的音频信号的更大集合中选择源音频信号以用于实现本文描述的方法。能基于源音频信号和目标音频信号的相关性质之间的相似性来选择源音频信号。例如，位置数据(例如，GPS坐标)能与源音频信号并与目标音频信号相关联，并且能基于与目标音频信号相关联的位置和与源音频信号相关联的位置之间的接近度来选择源音频信号(例如，因为在记录目标音频信号的位置附近记录的源音频信号更可能包含在创建目标音频信号的改进版本时有用的音频信息)。能基于其他准则例如基于以下来选择源音频信号：源音频信号与目标音频信号之间的相似性(例如，基于在源音频信号与目标音频信号之间确定的相关性值)、与源音频信号相关联的用户生成的元数据(例如，井号标签、关键词)和/或自动地生成的元数据和与目标音频信号相关联的元数据之间的相似性、源音频信号与目标音频信号之间的时间重叠的程度(例如，选择与至少目标音频信号的阈值持续时间和/或百分比在时间上重叠的源音频信号)、与源音频信号和目标音频信号相关联的视频剪辑之间的相似性(例如，关联视频剪辑的帧之间的相似性或视频剪辑的机器识别的内容之间的相似性)的程度、或者音频信号之间和/或与音频信号相关联的数据之间的某种其他相似性。

附加地或替换地，能基于确定的源音频信号的质量来选择源音频信号。例如，能针对可用的音频信号中的每一个(例如，基于信噪比、信号振幅和/或信号频谱)确定音频质量值。能丢弃或减除(discount)具有低于指定阈值的音频质量值的音频信号以免在为目标音频信号生成改进的音频信号时随后使用或考虑。

本文描述的方法能用于从多个可用的音频信号中选择源音频信号的集合，该源音频信号的集合然后能够用于为目标音频信号生成相对于目标音频信号关于信噪比、失真、信号幅度和/或某种其他感兴趣特性改进的输出音频信号。能指定选择的源音频信号的数目以便(通过选择更多的音频信号)提高输出音频信号的质量，以(通过选择更多的音频信号)保护其音频信号被选择为源音频信号的集合的部分的个人的隐私，以(通过选择较少的音频信号)降低生成改进的输出音频信号的计算成本，或考虑附加因素。

在一些示例中，能跨时间将目标音频信号划分成多个时间分段。在此类示例中，能为时间分段中的每一个选择源音频样本的集合。源音频信号的集合能被选择为使得每个时间分段由至少阈值数目的选择的源音频信号来表示。

在图2中通过示例图示这样的场景。图2示出包括横跨第一时段“T1”的多个时间分段(包括示例时间分段231)的目标音频信号210。目标音频信号210包括指示在时段T1期间采样的声音的信息。许多源音频信号220a-h也是可用的，其中的每一个均与时段T1至少部分地重叠(也就是说，源音频信号220a-h中的每一个均包括指示在时段T1的至少一部分期间采样的声音的信息)。

所图示的源音频信号220a-h的集合包括表示时段Tl的时间分段中的每一个的多个源音频信号(在图2中作为示例为三个或更多个)。例如，示例时间分段231由源音频信号220a-h中的四个的时间上对应的分段235a-d(即，由源音频分段220a、20b、220c和220d的时间上对应的分段)表示。因此，为了针对示例时间分段231创建改进的输出音频信号，能组合或以其他方式使用时间上对应的分段235a-d中的一些或全部。例如，能选择并使用时间上对应的分段235a-d(关于确定的音频质量、与目标音频信号的相似性、与可用的音频信号的均值的相似性、或者特定时间上对应的分段235a-d和/或总体上源音频信号220a-d的某个其他度量)的“最佳”三个(或某个其他指定的数目)来生成分段。

为了使用源音频信号的此类“时间上对应的分段”来生成改进的输出音频信号，有必要确定源音频信号和/或目标音频信号之间的时间对应(即，时间偏移)。在一些示例中，这能包括基于已经与源音频信号相关联的时间戳或其他定时信息(例如，基于对生成了源音频信号的蜂窝电话或其他音频记录设备可用的系统时钟和/或GPS时钟和/或此类设备相对于声音源/其他记录设备的已知位置)来针对源音频信号中的每一个确定相对于目标音频信号和/或某个其他参考时间的时间偏移。

附加地或替换地，音频信号的内容能用于确定音频信号之间的时间偏移。这例如在由相对于感兴趣事件或其他声音源位于不同的距离处的音频记录设备生成不同的源音频信号的情况下可以是有用的。在此类示例中，基于音频信号的音频内容(例如，基于音频信号内的噪声的相对定时)而不是基于现有时间戳来确定音频信号之间的时间偏移可能是更有利的，因为由于声音在空气中的非零传播时间，音频信号的音频内容可以相对于彼此且相对于时间戳偏移。能够通过例如确定两个音频信号之间的互相关并且然后基于与所确定的互相关内的峰值或其他特征相对应的时间延迟确定两个音频信号之间的时间偏移来确定两个示例音频信号之间的时间偏移。附加地或替换地，能在多个音频信号中识别响亮且时间上短的模板声音(例如，与鼓节拍、汽车喇叭、警报器、拍手或其他短的、峰化的噪声相对应的声音)并使用其来确定多个音频之间的时间对应。

在一些示例中，能从可用的音频信号的集合中(例如，从选择的源音频信号的集合中、从包括源音频信号和目标音频信号两者的集合中)选择模板音频信号。模板音频信号可以是具有特性(例如频率和/或振幅特性)的源音频信号或目标音频信号的任何分段，所述特性是足够与众不同的以允许识别可用的音频信号的集合中的其他音频信号的对应分段。然后能在选择的模板音频信号或其选择的模板部分与未选择的音频信号(例如，其他源音频信号、目标音频信号)中的每一个之间确定时间偏移。所确定的时间偏移然后能用于确定与目标音频信号的特定时间分段在时间上相对应的给定源音频信号的分段(例如，以便将给定源音频信号的时间上对应的分段与其他源音频信号的时间上对应的分段组合以便生成改进的输出音频信号的分段)。模板音频信号的使用因此提供了实现模板音频信号与一个或多个源音频信号之间的时间对准的有效且计算上高效的方式。

能通过针对每个潜在音频信号和/或其部分确定与在潜在模板音频信号内存在响亮和/或尖锐特征相对应的峰度值来选择模板音频信号和/或音频信号的模板部分。在模板音频信号内存在此类响亮和/或尖锐特征促进基于模板音频信号确定时间偏移(例如，通过允许以较小的不确定性和/或噪声确定此类时间偏移，即时间偏移是基于替代音频信号确定的)。针对特定音频信号和/或其部分确定这样的峰度值能包括：识别特定音频信号内的最大幅度时间点(例如，在对音频信号进行阈值处理(thresholding)之后，以确保这样确定的最大幅度时间点大于阈值)；确定特定音频信号在最大幅度时间点的幅度；确定特定音频信号在包括最大幅度时间点的指定持续时间时段(例如，关于最大幅度时间点的200ms窗口)内的中值；以及确定所确定的幅度与所确定的中值之间的比值(例如，丢弃或减除比值小于阈值的音频信号和/或其部分)。能将模板音频信号和/或其部分选择为具有最高确定的比值的信号；替换地，能从其确定的比值大于阈值的音频信号的集合中随机地选择模板音频信号。

能通过为目标音频信号的多个时间分段中的每一个生成源音频信号的集合的时间上对应的分段的组合来为目标音频信号生成改进的输出音频信号。例如，能通过组合源音频信号220a-220d的时间上对应的分段235a-d中的一些或全部来针对图2的目标音频信号210的示例时间分段231生成干净音频的分段。这能包括使用生成式人工网络来接收源音频信号的时间上对应的分段并输出干净音频的分段。

附加地或替换地，能通过生成源音频信号的时间上对应的分段的线性组合来生成干净音频的分段。这能包括针对源音频信号的时间上对应的分段中的每一个确定混合系数，然后通过根据混合系数来生成源音频信号的时间上对应的分段的线性组合来生成干净音频的分段。混合系数可以是定义特定源音频信号对干净音频的分段的相对贡献的任何参数。能针对目标音频信号的时间分段中的每一个确定这些混合系数，使得每个源音频信号的相对贡献能够按时间分段(例如，根据哪些源音频信号与每个时间分段重叠、每个音频分段随时间的噪声水平、随时间在每个源音频信号内不需要的声音的存在或其他考虑事项)变化。为了保护可能已提供源音频信号的个人的隐私，能使用于生成干净音频的任何给定分段的源音频信号的数目维持在指定阈值数目(例如，三个)处或以上。附加地或替换地，能使所确定的混合系数维持在指定最大值(例如，0.15、0.05)以下，使得所生成的干净音频的分段不包含超过任何一个贡献者的音频的最大“量”。

能使用长短期记忆循环神经网络来确定混合系数，例如，通过顺序地将源音频信号的时间上对应的分段应用于长短期记忆循环神经网络以便细化干净音频的对应分段的“真实状态”的估计。能基于使用遍布感兴趣环境的高质量麦克风和/或多个附加(例如，较低质量)麦克风来生成的训练数据来训练这样的长期短期记忆循环神经网络。在训练神经网络以组合从附加麦克风记录的音频信号时，能将使用高质量麦克风来记录的音频信号用作目标信号。从附加麦克风记录的音频信号在用于训练神经网络之前可能降级(例如，添加了噪声、添加了杂散环境噪声)。

一旦已生成了干净音频的分段，就能够使它们平滑以生成平滑音频信号。可以执行这种平滑，例如，以便补偿由于后续时间分段之间的混合系数变化、用于生成干净音频的相邻分段的源音频信号的本体变化而可能存在于干净音频的分段的边缘处的伪影(artifact)，或者补偿其他噪声和/或失真源。

能使用各种方法来使干净音频的此类分段平滑。例如，能对干净音频的分段进行滤波。在一些示例中，能生成干净音频的分段的多个重叠集合。然后能通过对于平滑音频信号的每个样本生成来自干净音频样本的集合中的每一个集合的样本的线性组合来从此类重叠集合生成平滑音频信号。这样的线性组合的系数能随时间变化，使得输出音频信号是平滑的或者以其他方式使噪声或失真最小化。

在图3中图示了示例。图3图示第一多个非重叠时间分段310a(包括时间分段311a、313a、315a、317a)和第二多个非重叠时间分段310b(包括时间分段311b、313b、317b)。第一多个310a的时间分段在时间上与第二多个310b的时间分段重叠。第一多个非重叠时间分段310a和第二多个非重叠时间分段310b中的每个时间分段与如上所述生成的干净音频的相应的分段对应。

使干净音频的分段平滑以生成平滑音频信号能够包括：基于来自第一310a多个时间分段和第二310b多个时间分段的时间上对应的样本值的线性组合来生成平滑音频信号的多个样本值。这样的线性组合的系数能随时间(例如，根据时变方程)变化以使所得的平滑音频信号中的噪声、失真或其他伪影的存在最小化。线性组合的系数能随时间变化，使得(例如，第一多个非重叠时间分段的)特定干净音频分段的边缘附近的样本偏离该特定干净音频分段并靠近(例如，第二多个非重叠时间分段的)相对(opposite)的干净音频分段被加权。

这在图3中通过示例图示，图3图示第一系数方程320a(“β”)和第二系数方程320b(“1-β”)。能根据来自于来自第一多个时间分段310a的干净音频样本的依照β加权的样本值以及来自于来自第二多个时间分段310b的干净音频样本的依照1-β加权的样本值的线性组合来生成平滑音频信号的样本。能选取系数方程320a、320b，使得来自第一310a时间分段和第二310b时间分段的干净音频的样本值的线性组合偏离靠近干净音频的其相应的分段的边缘的样本值被加权。这可以被完成以便替代地在第一多个时间分段和第二多个时间分段的样本值之间平滑地过渡，使得当多个时间分段中的一个的干净音频从一个干净音频分段“过渡”到下一个干净音频分段时，输出音频的分段最小地基于来自该多个时间分段的干净音频。

这在图3中在时间点t₁通过示例图示。时间点t₁与第二多个时间分段310b中的时间分段311b和313b之间的边缘相对应。相应地，第二系数方程320b在时间点t₁接近零，然而第一系数方程320a接近最大值(一)。随着时间继续，系数方程变化直到例如与第一多个时间分段310a中的时间分段313a和315a之间的边缘相对应的时间点t₂为止。在时间点t₂，第一系数方程320a接近零，然而第二系数方程320b接近于最大值(一)。如图3中所示，系数方程320a、320b是余弦方程。然而，其他方程、查找表或其他关系能用于生成系数以用于生成重叠干净音频分段的线性组合以便输出平滑音频信号。

为了保护其音频数据在上述方法中用于生成“干净”音频信号的个人的隐私，能将输出音频信号生成为由正在请求改进的输出音频信号和干净音频信号和/或其平滑版本的设备和/或用户提供的目标音频信号的组合(例如，线性组合)。通过返回在某种程度上包括由请求设备和/或用户原始提供的音频的输出音频信号，能够限制被提供给请求者的其他用户的音频数据量。例如，输出音频信号可能是由请求者提供的目标音频数据以及其他用户的源音频信号的纯净和/或平滑组合的线性组合，使得输出音频信号与目标音频数据具有超过阈值相似性值——例如70％——的相似性。为了确保这种程度的相似性，用于将目标音频信号与纯净和/或平滑音频信号组合的系数能大于阈值，例如至少0.7。

然后能各种应用中使用所生成的输出音频信号。在一些示例中，能将输出音频信号传送到原始传送了目标音频信号和/或请求了(例如，针对由请求者设备生成的视频剪辑的)改进的音频信号的请求者设备(例如，蜂窝电话)。附加地或替换地，能在视频和/或音频共享网站或服务上、在社交媒体平台上使所生成的输出音频信号对(例如，给已接收到访问输出音频信号的许可的用户)可用，或者以某种其他方式使所生成的输出音频信号对(例如，给已接收到访问输出音频信号的许可的用户)可用。

III.示例系统

可以由一个或多个计算系统来执行本文描述的计算功能(例如，用于获得目标和/或源音频信号以从较大的可用音频信号的集合中选择源音频信号的集合、用于组合源音频信号以生成干净音频数据的分段，用于平滑纯净音频数据的功能)。这样的计算系统可以被集成到诸如移动电话、平板计算机、膝上型计算机、服务器、家庭自动化元件、独立视频捕获和处理设备、云计算网络和/或可编程逻辑控制器的计算设备中或采取所述计算设备的形式。出于示例的目的，图4是示出示例计算设备400的一些组件的简化框图，该示例计算设备400可以包括麦克风组件424。麦克风组件424可以包括一个或多个麦克风或其他音频检测元件，诸如驻极体麦克风、电容式麦克风、压电传感器元件、微机电麦克风、压敏元件或其他类型的声敏设备或元件。可替代地，示例性计算设备可能缺少这样的组件，并且经由一些其他手段(例如，经由互联网或某种其他网络或其他通信接口)来接收音频信号。

作为示例而非限制，计算设备400可以是蜂窝移动电话(例如，智能电话)、摄像机、独立录音机、计算机(诸如台式机、笔记本电脑、平板电脑、或手持计算机)、个人数字助理(PDA)、可穿戴计算设备或某个其他类型的设备，这些设备可以被装备有一些音频记录和/或音频处理功能。应当理解，计算设备400可以表示物理音频记录设备、音频捕获应用在其上以软件操作的特定物理硬件平台、或者被配置成执行音频捕获和/或音频处理功能的硬件和软件的其他组合。

如图4所示，计算设备400可以包括通信接口402、用户接口404、处理器406和数据存储408以及麦克风组件424，所有这些都可以通过系统总线、网络或其他连接机制410通信地链接在一起。

通信接口402可以用于允许计算设备400使用电、磁、电磁、光或其他信号的模拟或数字调制与其他设备、接入网络和/或传输网络进行通信。因此，通信接口402可以促进电路交换和/或分组交换通信，诸如普通旧电话服务(POTS)通信和/或互联网协议(IP)或其他分组通信。例如，通信接口402可以包括芯片组和天线，所述芯片组和天线被布置用于与无线电接入网络或接入点进行无线通信。而且，通信接口402可以采取有线接口的形式或包括有线接口，诸如以太网、通用串行总线(USB)或高清多媒体接口(HDMI)端口。通信接口402也可以采取无线接口的形式或包括无线接口，诸如Wifi、

全球定位系统(GPS)或广域无线接口(例如，WiMAX或3GPP长期演进(LTE))。然而，可以在通信接口402上使用其他形式的物理层接口和其他类型的标准或专有通信协议。此外，通信接口402可以包括多个物理通信接口(例如，Wifi接口、

在一些实施例中，通信接口402可以用于允许计算设备400与其他设备、远程服务器、接入网络和/或传输网络进行通信。例如，通信接口402可以用于传送音频信号的指示、传送可以包括嵌入的音频信号的视频流的指示或者一些其它信息。例如，计算设备400可以是蜂窝电话、数字相机、录音机、或者其它的音频捕获设备并且远程系统可以是计算机、服务器、云计算系统或配置成执行本文所述方法的其他系统。

用户接口404可以用于允许计算设备400与用户交互，例如从用户接收输入和/或向用户提供输出。因此，用户接口404可以包括输入组件，诸如小型键盘、键盘、触敏或存在敏感面板、计算机鼠标、轨迹球、操纵杆、麦克风等。用户接口404还可以包括一个或多个输出组件，诸如显示屏，该显示屏可以例如与存在敏感面板组合。显示屏可以基于CRT、LCD和/或LED技术，或者其他目前已知或以后开发的技术。用户接口404也可以被配置为经由扬声器、扬声器插孔、音频输出端口、音频输出设备、耳机和/或其他类似设备来生成可听输出。

在一些实施例中，用户接口404可以包括用于向用户呈现视频流(例如，包括使用麦克风组件424生成的音频信号的视频流)的显示器。另外，用户接口404可以包括一个或多个按钮、开关、旋钮和/或刻度盘，其有助于麦克风部件424的配置和操作、使用麦克风部件424捕获音频和/或视频流、或用于配置计算设备400的一些其他操作。这些按钮、开关、旋钮和/或刻度盘的一些或全部可能在触敏或存在敏感面板上作为功能实现。

处理器406可以包括一个或多个通用处理器——例如，微处理器——和/或一个或多个专用处理器——例如，数字信号处理器(DSP)、图形处理单元(GPU)、浮点单元(FPU)、网络处理器或专用集成电路(ASIC)。在某些情况下，专用处理器可能能够执行音频处理、音频分段以及/或者模板对准、和神经网络计算以及其他应用或功能。数据存储408可以包括一个或多个易失性和/或非易失性存储组件，诸如磁性、光学、闪存或有机存储，并且可以全部或部分地与处理器406集成。数据存储408可以包括可移除和/或不可移除的组件。

处理器406能够执行存储在数据存储408中的程序指令418(例如，已编译或未编译的程序逻辑和/或机器代码)以执行本文所述的各种功能。因此，数据存储408可以包括其上存储有程序指令的非暂时性计算机可读介质，该程序指令在由计算设备400执行时使计算设备400执行本说明书和/或附图中公开的任何方法、过程或功能。

举例来说，程序指令418可以包括安装在计算设备400上的操作系统422(例如，操作系统内核、设备驱动程序和/或其他模块)和一个或多个应用程序420(例如，音频和/或视频记录功能、音频滤波)。

应用程序420可以采取“app”的形式，其可以通过一个或多个在线应用商店或应用市场(经由例如通信接口402)下载到计算设备400。然而，应用程序也可以以其他方式安装在计算设备400上，诸如经由web浏览器或通过计算设备400的物理接口(例如，USB端口)。

在一些示例中，根据应用，本文描述的方法的部分可以由不同的设备执行。例如，系统的不同设备可以具有不同量的计算资源(例如，存储器、处理器周期)和用于设备之间的通信的不同信息带宽。例如，第一设备可以是蜂窝电话或其他视听捕获设备，其可以将音频和/或视频流传送到另一设备或服务器，该另一设备或服务器具有必要的计算资源以对所传送的音频流执行本文所述的方法。可以根据这样的考虑来分配本文描述的方法的不同部分。

IV.示例方法

图5是用于基于(例如，由蜂窝电话或其他请求者设备生成的)目标音频信号以及(例如，在相同时间由在请求者设备附近的附加蜂窝电话作为目标音频信号的生成来生成的)一个或多个源音频信号来生成输出音频信号的方法500的流程图，所述输出音频信号相对于目标音频信号关于噪声水平、失真或某种其他音频质量量度被改进。方法500包括获得目标音频信号，其中目标音频信号包括指示在第一时段期间采样的声音的信息，其中第一时段包括多个时间分段(510)。这能够包括由麦克风生成目标音频信号的样本。附加地或替换地，获得目标音频信号能够包括从设备(例如，蜂窝电话)接收目标音频信号的指示。这样的设备可能是请求者设备，例如，请求相对于目标音频信号改进的并且已根据本文描述的方法生成的输出音频信号的设备。

方法500附加地包括获得源音频信号的集合，其中源音频信号中的每一个均包括表示在第一时段的至少一部分期间采样的声音的信息(520)。这能够包括从多个附加蜂窝电话或其他音频捕获设备接收源音频信号的指示。获得源音频信号的集合能包括例如基于源音频信号与目标音频信号之间的相似性和/或与源音频信号和目标音频信号相关联的位置或其他数据之间的相似性来从可用的音频信号的更大集合中选择源音频信号的集合。

方法500附加地包括：对于目标音频信号的每个时间分段，基于源音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段(530)。这能够包括使用人工神经网络(例如，长短期记忆循环神经网络)或某种其他方法来对于源音频信号中的每一个生成混合系数，然后根据所确定的混合系数来生成干净音频的分段作为源音频信号的线性组合。

方法500附加地包括使所生成的干净音频的分段平滑以生成平滑音频信号(540)。这能够包括使用音频滤波器，在干净音频的重叠分段的两个不同集合之间生成线性组合，或者某种其他方法来使所生成的干净音频的分段平滑以生成平滑音频信号。

方法500附加地包括将目标音频信号与平滑音频信号组合以生成输出音频信号(550)。

方法500能包括附加元素或特征。例如，可以使所生成的输出音频信号对请求了输出音频信号的用户可用(例如，通过将输出音频信号的指示传送到从其接收到目标音频信号的请求者设备)或者对给被授权访问输出音频信号的某个其他个人可用(例如，经由音频和/或视频托管服务、经由社交媒体网站)。

V.结论

上面的详细描述参照附图描述了所公开的系统、设备和方法的各种特征和功能。在附图中，除非上下文另外指出，否则相似的符号通常标识相似的组件。在具体实施方式中、附图和权利要求中描述的说明性实施例并不意味着是限制性的。在不脱离本文提出的主题的范围的情况下，可以利用其他实施例，并且可以进行其他改变。容易理解的是，可以以各种不同的配置来布置、替换、组合、分离和设计如本文一般地描述的以及在附图中示出的本公开的各方面，所有这些都是本文明确设想的。

关于附图中以及如本文所讨论的任何或所有消息流图、场景和流程图，每个步骤、框和/或通信可以表示根据示例实施例的信息的处理和/或信息的传输。替代实施例被包括在这些示例实施例的范围内。在这些替代实施例中，例如，根据所涉及的功能，描述为步骤、框、传输、通信、请求、响应和/或消息的功能可以不按所示出或所讨论的顺序执行，包括基本上同时执行或以相反的顺序执行。此外，更多或更少的步骤、框和/或功能可以与本文讨论的消息流图、场景和流程图中的任何一种一起使用，并且这些消息流图、场景和流程图可以部分或全部地彼此组合。

表示信息处理的步骤或框可以对应于可以被配置为执行本文描述的方法或技术的特定逻辑功能的电路。可替代地或附加地，表示信息处理的步骤或框可以对应于程序代码(包括相关数据)的模块、分段或部分。程序代码可以包括一个或多个可由处理器执行的指令，以用于在该方法或技术中实现特定的逻辑功能或动作。程序代码和/或相关数据可以存储在任何类型的计算机可读介质上，诸如存储设备，包括磁盘驱动器、硬盘驱动器或其他存储介质。

计算机可读介质还可以包括非暂时性计算机可读介质，诸如短时段存储数据的计算机可读介质，如寄存器存储器、处理器高速缓存和/或随机存取存储器(RAM)。计算机可读介质还可以包括用于较长时段存储程序代码和/或数据的非暂时性计算机可读介质，诸如辅助或永久性长期存储，例如，如只读存储器(ROM)、光盘或磁盘、和/或光盘只读存储器(CD-ROM)。计算机可读介质还可以是任何其他易失性或非易失性存储系统。例如，计算机可读介质可以被认为是计算机可读存储介质或有形存储设备。

此外，表示一个或多个信息传输的步骤或框可以对应于同一物理设备中的软件和/或硬件模块之间的信息传输。然而，其他信息传输可以在不同物理设备中的软件模块和/或硬件模块之间进行。

尽管本文已经公开了各个方面和实施例，但是其他方面和实施例对于本领域技术人员将是显而易见的。本文所公开的各个方面和实施例是出于说明的目的，而不是旨在进行限制，其真实范围由所附权利要求指示。

VI.枚举的示例实施例

本公开的实施例因此可以涉及在下面列举的枚举的示例实施例(EEE)中的一个。

EEE 1是一种方法，包括：

获得目标音频信号，其中，所述目标音频信号包括指示在第一时段期间采样的声音的信息，其中，所述第一时段包括多个时间分段；

获得源音频信号的集合，其中，所述源音频信号中的每一个均包括表示在所述第一时段的至少一部分期间采样的声音的信息；

对于所述目标音频信号的每个时间分段，基于所述源音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段；

使所生成的干净音频的分段平滑以生成平滑音频信号；以及

将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号。

EEE 2是根据EEE 1所述的方法，其中，获得所述目标音频信号包括从请求者设备接收所述目标音频信号，并且其中，所述方法还包括将所述输出音频信号的指示传送到所述请求者设备。

EEE 3是根据EEE 1或2所述的方法，其中，获得源音频信号的集合包括：

从多个远程设备接收相应的另外的音频信号的集合；以及

从所述另外的音频信号的集合中选择所述源音频信号的集合，其中，特定另外的音频信号是基于以下各项中的至少一个来从所述另外的音频信号的集合中被选择：(i)由所述特定另外的音频信号表示的另外的时段与所述第一时段之间的时间重叠的程度，(ii)与所述特定音频信号相关联的位置和与所述目标音频信号相关联的位置之间的接近度，(iii)与所述特定音频信号相关联的视频剪辑和与所述目标音频信号相关联的视频剪辑之间的相似性，或(iv)所述特定音频信号与所述目标音频信号之间的相似性的程度。

EEE 4是根据EEE 1或2所述的方法，其中，获得源音频信号的集合包括：

从多个远程设备接收相应的另外的音频信号的集合；以及

从所述另外的音频信号的集合中选择所述源音频信号的集合，其中，特定另外的音频信号是基于由所述特定另外的音频信号表示的另外的时段与所述第一时段之间的时间重叠的程度来从所述另外的音频信号的集合中被选择。

EEE 5是根据EEE 1或2所述的方法，其中，获得源音频信号的集合包括：

从多个远程设备接收相应的另外的音频信号的集合；以及

从所述另外的音频信号的集合中选择所述源音频信号的集合，其中，特定另外的音频信号是基于与所述特定音频信号相关联的位置和与所述目标音频信号相关联的位置之间的接近度来从所述另外的音频信号的集合中被选择。

EEE 6是根据EEE 1或2所述的方法，其中，获得源音频信号的集合包括：

从多个远程设备接收相应的另外的音频信号的集合；以及

从所述另外的音频信号的集合中选择所述源音频信号的集合，其中，特定另外的音频信号是基于与所述特定音频信号相关联的视频剪辑和与所述目标音频信号相关联的视频剪辑之间的相似性的程度来从所述另外的音频信号的集合中被选择。

EEE 7是根据EEE 1或2所述的方法，其中，获得源音频信号的集合包括：

从多个远程设备接收相应的另外的音频信号的集合；以及

从所述另外的音频信号的集合中选择所述源音频信号的集合，其中，特定另外的音频信号是基于所述特定音频信号与所述目标音频信号之间的相似性的程度来从所述另外的音频信号的集合中被选择。

EEE 8是根据EEE 3-7中的任一项所述的方法，其中，从所述另外的音频信号的集合中选择所述源音频信号的集合还包括：

针对所述另外的音频信号的集合中的每个音频信号确定音频质量值；以及

从所述另外的音频信号的集合中丢弃或减除具有小于指定阈值的音频质量值的另外的音频信号。

EEE 9是根据EEE 8所述的方法，其中，从所述另外的音频信号的集合中选择所述源音频信号的集合包括选择源音频信号的集合，使得所述第一时段的多个时间分段中的每个时间分段由所选择的源音频信号的集合中至少阈值数目的源音频信号来表示。

EEE 10是根据EEE 1-9中的任一项所述的方法，还包括：

从包括所述目标音频信号和所述源音频信号的集合的集合中选择模板音频信号；以及

确定所述模板音频信号与包括所述目标音频信号和所述源音频信号的集合的所述集合中的未选择的音频信号中的每一个之间的时间偏移，其中，基于所述音频信号的集合中的给定音频信号的时间上对应的分段来生成干净音频的分段包括基于在所述模板音频信号与所述给定音频信号之间确定的所述时间偏移来选择所述给定音频信号的时间上对应的分段。

EEE 11是根据EEE 10所述的方法，其中，选择所述模板音频信号包括：

对于包括所述目标音频信号和所述源音频信号的集合的所述集合中的每个音频信号，确定峰度值，其中，对于特定音频信号确定峰度值包括：

识别所述特定音频信号内的最大幅度时间点；

确定所述特定音频信号在所述最大幅度时间点的幅度；

确定所述特定音频信号在包括所述最大幅度时间点的指定持续时段内的中值；以及

确定所确定的幅度和所确定的中值之间的比值。

EEE 12是根据EEE 1-11中的任一项所述的方法，其中，所述多个时间分段包括第一多个非重叠时间分段和第二多个非重叠时间分段，其中，所述第一多个时间分段中的时间分段在时间上与所述第二多个时间分段中的时间分段重叠，其中，使所生成的干净音频的分段平滑以生成平滑音频信号包括生成所述平滑音频信号的多个样本值，并且其中，生成所述平滑音频信号的特定样本值包括生成所述第一多个时间分段中的时间分段的样本值和所述第二多个时间分段中的时间分段的样本值的线性组合。

EEE 13是根据EEE 1-12中的任一项所述的方法，其中，将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号包括生成所述平滑音频信号和所述目标音频信号的线性组合，其中，所述目标音频信号与所生成的线性组合之间的相似性大于阈值相似性值。

EEE 14是根据EEE 1-13中的任一项所述的方法，其中，基于所述音频信号的集合中的音频信号的对应分段来生成干净音频的分段包括：

使用长短期记忆循环神经网络来针对所述音频信号的集合中的音频信号中的每一个确定混合系数；以及

根据所确定的混合系数来生成所述音频信号的集合中的音频信号的线性组合。

EEE 15是一种具有存储在其上的程序指令的计算机可读介质，所述程序指令在由计算设备执行时使计算设备执行根据EEE 1-14中任一项所述的方法。

EEE 16是一种包括控制器的设备，其中所述控制器被编程成执行根据EEE 1-14中任一项所述的方法。

Claims

1.一种方法，包括：

从请求者设备接收目标音频信号，其中，所述目标音频信号包括指示在第一时段期间采样的声音的信息，其中，所述第一时段包括多个时间分段；

获得源音频信号的集合，其中，所述源音频信号中的每一个包括指示在所述第一时段的至少一部分期间采样的声音的信息；

针对所述目标音频信号的每个时间分段，基于所述源音频信号的集合中的音频信号的时间上对应的分段来生成干净音频的相应的分段；

使所生成的干净音频的分段平滑以生成平滑音频信号；

将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号；以及

将所述输出音频信号的指示传送到所述请求者设备。

2.根据权利要求1所述的方法，其中，获得源音频信号的集合包括：

从多个远程设备接收相应的另外的音频信号的集合；和

从所述另外的音频信号的集合中选择所述源音频信号的集合，其中，基于以下各项中的至少一个来从所述另外的音频信号的集合中选择特定的另外的音频信号：(i)由所述特定的另外的音频信号表示的另外的时段与所述第一时段之间的时间重叠的程度，(ii)与所述特定的音频信号相关联的位置和与所述目标音频信号相关联的位置之间的接近度，(iii)与所述特定的音频信号相关联的视频剪辑和与所述目标音频信号相关联的视频剪辑之间的相似性的程度，或(iv)所述特定的音频信号与所述目标音频信号之间的相似性的程度。

3.根据权利要求2所述的方法，其中，从所述另外的音频信号的集合中选择所述源音频信号的集合还包括：

针对所述另外的音频信号的集合中的每个音频信号，确定音频质量值；和

4.根据权利要求3所述的方法，其中，从所述另外的音频信号的集合中选择所述源音频信号的集合包括：选择源音频信号的集合以使得所述第一时段的所述多个时间分段中的每个时间分段由所选择的源音频信号的集合中的至少阈值数目的源音频信号来表示。

5.根据权利要求1所述的方法，进一步包括：

从包括所述目标音频信号和所述源音频信号的集合的集合中选择模板音频信号；和

确定在所述模板音频信号与包括所述目标音频信号和所述源音频信号的集合的所述集合中的每一个未选择的音频信号之间的时间偏移，其中，基于所述音频信号的集合中的给定音频信号的时间上对应的分段来生成干净音频的分段包括：基于所确定的在所述模板音频信号与所述给定音频信号之间的所述时间偏移来选择所述给定音频信号的所述时间上对应的分段。

6.根据权利要求5所述的方法，其中，选择所述模板音频信号包括：

针对包括所述目标音频信号和所述源音频信号的集合的所述集合中的每个音频信号，确定峰度值，其中，针对特定音频信号确定峰度值包括：

识别所述特定音频信号内的最大幅度时间点；

确定所述特定音频信号在所述最大幅度时间点处的幅度；

确定所确定的幅度和所确定的中值之间的比值。

7.根据权利要求1所述的方法，其中，所述多个时间分段包括第一多个非重叠时间分段和第二多个非重叠时间分段，其中，所述第一多个时间分段中的时间分段在时间上与所述第二多个时间分段中的时间分段重叠，其中，使所生成的干净音频的分段平滑以生成平滑音频信号包括：生成所述平滑音频信号的多个样本值，并且其中，生成所述平滑音频信号的特定样本值包括：生成所述第一多个时间分段中的时间分段的样本值与所述第二多个时间分段中的时间分段的样本值的线性组合。

8.根据权利要求1所述的方法，其中，将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号包括：生成所述平滑音频信号与所述目标音频信号的线性组合，并且其中，所述目标音频信号与所生成的线性组合之间的相似性大于阈值相似性值。

9.根据权利要求1所述的方法，其中，基于所述音频信号的集合中的所述音频信号的对应的分段来生成干净音频的分段包括：

使用长短期记忆循环神经网络，针对所述音频信号的集合中的所述音频信号中的每一个确定混合系数；以及

根据所确定的混合系数来生成所述音频信号的集合中的所述音频信号的线性组合。

10.根据权利要求1所述的方法，其中，基于所述音频信号的集合中的所述音频信号的对应的分段来生成干净音频的分段包括：

针对所述音频信号的集合中的所述音频信号中的每一个，确定混合系数，其中，所确定的混合系数不超过阈值；和

根据所确定的混合系数，生成所述音频信号的集合中的所述音频信号的线性组合。

11.一种具有存储在其上的程序指令的非暂时性计算机可读介质，所述程序指令在由计算设备执行时，使所述计算设备执行操作，所述操作包括：

使所生成的干净音频的分段平滑以生成平滑音频信号；

将所述输出音频信号的指示传送到所述请求者设备。

12.根据权利要求11所述的非暂时性计算机可读介质，其中，获得源音频信号的集合包括：

从多个远程设备接收相应的另外的音频信号的集合；和

13.根据权利要求12所述的非暂时性计算机可读介质，其中，从所述另外的音频信号的集合中选择所述源音频信号的集合还包括：

14.根据权利要求13所述的非暂时性计算机可读介质，其中，从所述另外的音频信号的集合中选择所述源音频信号的集合包括：选择源音频信号的集合以使得所述第一时段的所述多个时间分段中的每个时间分段由所选择的源音频信号的集合中的至少阈值数目的源音频信号来表示。

15.根据权利要求11所述的非暂时性计算机可读介质，其中，所述操作进一步包括：

确定所述模板音频信号与包括所述目标音频信号和所述源音频信号的集合的所述集合中的未选择的音频信号中的每一个之间的时间偏移，其中，基于所述音频信号的集合中的给定音频信号的时间上对应的分段来生成干净音频的分段包括：基于所确定的在所述模板音频信号与所述给定音频信号之间的所述时间偏移来选择所述给定音频信号的所述时间上对应的分段。

16.根据权利要求11所述的非暂时性计算机可读介质，其中，所述多个时间分段包括第一多个非重叠时间分段和第二多个非重叠时间分段，其中，所述第一多个时间分段中的时间分段在时间上与所述第二多个时间分段中的时间分段重叠，其中，使所生成的干净音频的分段平滑以生成平滑音频信号包括：生成所述平滑音频信号的多个样本值，并且其中，生成所述平滑音频信号的特定样本值包括：生成所述第一多个时间分段中的时间分段的样本值与所述第二多个时间分段中的时间分段的样本值的线性组合。

17.根据权利要求11所述的非暂时性计算机可读介质，其中，将所述目标音频信号与所述平滑音频信号组合以生成输出音频信号包括：生成所述平滑音频信号与所述目标音频信号的线性组合，并且其中，所述目标音频信号与所生成的线性组合之间的相似性大于阈值相似性值。

18.根据权利要求11所述的非暂时性计算机可读介质，其中，基于所述音频信号的集合中的所述音频信号的对应的分段来生成干净音频的分段包括：

19.根据权利要求11所述的非暂时性计算机可读介质，其中，基于所述音频信号的集合中的所述音频信号的对应的分段来生成干净音频的分段包括：

20.一种方法，包括：

获得源音频信号的集合，其中，所述源音频信号中的每一个包括表示在所述第一时段的至少一部分期间采样的声音的信息；

使所生成的干净音频的分段平滑以生成平滑音频信号；以及