CN116670755A

CN116670755A - 言语发音噪声事件的自动检测和衰减

Info

Publication number: CN116670755A
Application number: CN202180062729.XA
Authority: CN
Inventors: 叶宗鑫; G·琴加莱; M·D·德伯格
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2020-08-12
Filing date: 2021-08-11
Publication date: 2023-08-29

Abstract

描述了一种对包括至少一个言语发音噪声事件的输入音频信号执行自动音频增强的方法。所述方法包括：将所述输入音频信号分割成多个音频帧；从所述音频帧获得至少一个特征参数；以及至少部分地基于所获得的特征参数来确定所述输入音频信号内的所述言语发音噪声事件的相应类型和与所述言语发音噪声事件相关联的相应时间‑频率范围。

Description

言语发音噪声事件的自动检测和衰减

相关申请的交叉引用

本申请要求以下优先申请的优先权：2020年8月12日提交的西班牙申请P202030864(参考号：D20066ES)和2020年10月29日提交的美国临时申请61/107,012(参考号：D20066USP1)，这些申请通过引用结合于此。

技术领域

本公开涉及对言语发音噪声事件(例如，嘴巴咔嚓声、言语爆破音等)执行如自动检测和衰减等自动音频增强的一般领域。

背景技术

在各种媒体平台上，越来越多的往往质量各异的言语内容已达到了仅靠手动编辑似乎不再可行的程度。自动言语增强如果做得好可以保持言语自然性并且节省编辑工作。

一般来说，言语增强算法可以处理两种类型的不需要的“噪声”：由背景源产生的噪声和由发音产生的噪声。

爆破音属于第二种类型。爆破音通常出现在从口中生成空气爆破(例如，如在包含“p”或“t”的音节发音期间)并且在该空气爆破的冲击下引起麦克风膜片的大幅振荡时。在本公开的上下文中，术语“爆破音”广义地用于包括从口中发出的引起麦克风膜片的大幅振荡的任何空气爆破(例如，包括像“f”、“z”这样的短摩擦音)。

即使是在控制良好的声学环境中录制的言语内容，爆破音也可能经常产生突然的低频提升，即所谓的“噗声”，从而导致不愉快的收听体验。

已提出了降低爆破音强度的几种录音技术，如使用噗声滤除器或挡风板、离轴说话等。然而，由于实际原因，“噗声”减小并不像预期的那样有效：例如，可能无法固定说话者或演员的姿势，或物理滤除器会减少与观众的情感联系。因此，需要信号处理工具来提高这种录音的质量。检测并衰减爆破音的过程通常也称作“去除爆破音”(或有时也称为“去爆破音”或“去爆破音处理”)。

嘴巴咔嚓声是由使用舌头/牙齿/嘴唇与唾液混合进行的言语发音引起的另一类型的瞬态声音。这些嘴巴咔嚓声可能出现在言语部分以及非言语部分中，对于高SNR录音来说通过耳机/耳麦通常是可听到的。嘴巴咔嚓声通常很短，持续时间通常在10ms至100ms之间，并且也可能表现为几个连续的瞬态。

在如TV/电影/游戏对话等专业录音的背景下，无咔嚓声言语质量可能是非常苛刻的。现在，即使是对于用户生成的内容，由于耳麦/耳机收听的普及，嘴巴咔嚓声也变得很明显。

已提出了几种录音技术来减少专业男配音员/女配音员的嘴巴咔嚓声。然而，在大多数情况下，没有办法控制说话者的嘴巴/嘴唇状况。对于后期处理，手动编辑可能很繁琐，使得处理成百上千的对话是不切实际的。因此，需要信号处理工具来更高效地校正嘴巴咔嚓声。检测并衰减嘴巴咔嚓声的过程通常也称作“嘴巴去除咔嚓声”或简称为“去除咔嚓声”(或有时也称为“去咔嚓声”或“去咔嚓声处理”)。

因此，广义上讲，本公开的重点是提出对包括一个或多个言语发音噪声事件(例如，嘴巴咔嚓声、言语爆破音等)的音频信号执行自动音频增强(包括但不限于检测和衰减)的技术。

发明内容

鉴于上文，本公开总体上提供了对包括至少一个言语发音噪声事件的输入音频信号执行自动音频增强的方法，以及具有相应独立权利要求的特征的对应装置、程序和计算机可读存储介质。

根据本公开的一个方面，提供了一种对包括至少一个言语发音噪声事件的输入音频信号执行自动音频增强的方法。如本领域的技术人员将理解和认识到的，自动音频增强可以涉及任何合适的音频增强手段，包括(但不限于)输入音频信号内的(多个)言语发音噪声事件的自动检测和衰减。在这里，术语言语发音噪声事件可以在广义上理解，例如，用于是指以某种方式与言语发音相关或以某种方式由言语发音导致(即，产生)的噪声事件。

特别地，该方法可以包括将输入音频信号分割(例如，通过使用一个或多个合适的窗口)成多个音频帧(例如，大小为100ms)。该方法可以进一步包括从(分割的)音频帧获得(例如，确定、计算、提取等)至少一个特征参数。在一些可能的示例实施方式中，如此获得的特征参数可以被视为与(要检测的)言语发音噪声事件的类型相关联。也就是说，在一些可能的示例实施方式中，取决于(要检测的)言语发音噪声事件的类型，从音频帧获得不同特征参数可能是有必要的(例如，在可以根据要检测的言语发音噪声事件选择特征参数的意义上)。该方法还可以进一步包括至少部分地基于获得的特征参数来确定(例如，检测、计算等)输入音频信号内的言语发音噪声事件的相应类型和与言语发音噪声事件相关联的相应范围(例如，时间和/或频率范围)。

如上述配置，所提出的方法可以提供用于确定(检测)包括在输入音频信号内的(多个)潜在言语发音噪声事件(例如，伪影)的高效和灵活的机制。因此，可以促进适当的进一步增强(后期)处理(例如，衰减)。结果，可以很大程度上避免先前识别并衰减音频信号中的(多个)噪声事件所需要的繁琐的手动编辑/处理。同时，可以很大程度上改进收听体验(在收听者方面)。

在一些示例实施方式中，所确定的范围可以包括所确定的言语发音噪声事件在时域和/或频谱域中的至少一个边界。亦即，由所提出的方法如此确定的范围可以包括指示(检测到的)言语发音噪声事件的一个或多个边界的信息。更特别地，如本领域的技术人员将理解和认识到的，这样的边界可以在时域、频谱域或两者中。

在一些示例实施方式中，该方法可以进一步包括根据言语发音噪声事件的所确定类型和范围来衰减言语发音噪声事件。如本领域的技术人员将理解和认识到的，可以通过任何合适的手段、例如通过根据言语发音噪声事件的所确定类型和范围应用合适的衰减增益来执行衰减。

在一些示例实施方式中，言语发音噪声事件可以包括以下中的至少一项：嘴巴咔嚓声事件或言语爆破音事件。如上文提到的，广义上讲，通常可能存在言语增强算法通常寻求解决的两种可能类型的不需要/不期望的“噪声”，即，由背景源产生的噪声和由发音产生的噪声。爆破音属于第二种类型。这些爆破音出现在从口中生成空气爆破(如在包含“p”或“t”的音节发音期间)并且在风冲击的情况下引起麦克风膜片的大幅振荡时。如上文所指示的，在本公开的上下文中，术语“爆破音”广义地用于包括从口中发出的引起麦克风膜片的大幅振荡的任何空气爆破(例如，包括像“f”、“z”这样的短摩擦音)。甚至对于在控制良好的声学环境中录制的言语内容，爆破音通常产生突然的低频增强，即所谓的“噗声”，从而导致不愉快的收听体验。另一方面，嘴巴咔嚓声是由使用舌头/牙齿/嘴唇与唾液混合进行的言语发音引起的另一类型的瞬态声音。这些嘴巴咔嚓声可能出现在言语部分以及非言语部分中，对于高SNR录音来说通过耳机/耳麦通常是可听到的。嘴巴咔嚓声通常很短，持续时间通常在10ms至100ms之间，并且这些嘴巴咔嚓声也可能表现为几个连续的瞬态。当然，如本领域的技术人员将理解和认识到的，(多个)所提出的方法同样可以应用于检测(并且可选地衰减)(多个)任何其他合适的言语发音噪声事件。

在一些示例实施方式中，言语发音噪声事件可以包括一个或多个嘴巴咔嚓声事件。特别地，一个或多个嘴巴咔嚓声事件可以包括以下中的至少一项：非言语咔嚓声事件、言语咔嚓声事件或咂嘴事件。广义上讲，如本领域的技术人员将理解和认识到的，咂嘴在一些情况下可以被视为一种特殊的非言语咔嚓声，这些非言语咔嚓声通常可能刚好出现在言语开始之前。咂嘴通常可能是有意进行的并且因此表现为强烈而漫长的瞬态事件。在由本公开提出的方法的上下文中，咂嘴事件通常可以与非言语咔嚓声事件单独被检测。

在一些示例实施方式中，在将输入音频信号分割成多个音频帧之后，该方法可以进一步包括将音频帧分类(例如，确定)为言语帧或非言语帧。亦即，可以例如根据音频帧是否包含言语来将分割的音频帧个别地确定为言语帧(即，包含言语)或非言语帧(即，不包含言语)。如本领域的技术人员将理解和认识到的，可以以任何合适的方式执行这样的分类。

在一些示例实施方式中(没有预期限制)，可以通过使用语音活动检测器(VAD)来识别输入音频信号并且将输入音频信号分割成言语帧和非言语帧。亦即，VAD可以用于识别每个(分割的)音频帧/块(例如，短时音频帧/块)是否包含言语。存在于非言语部分中的嘴巴咔嚓声可以被称为“非言语咔嚓声”并且存在于言语部分中的嘴巴咔嚓声可以被称为“言语咔嚓声”，这两种嘴巴咔嚓声是单独检测的。如上文所说明的，咂嘴是一种特殊的非言语咔嚓声(通常刚好出现在言语开始之前)，这种特殊的非言语咔嚓声在本公开的上下文中可以与非言语咔嚓声单独检测。

在一些示例实施方式中，可以通过使用两个不同的窗口大小来执行分割。特别地，两个窗口大小中的一个可以短于(小于)另一个。

在一些示例实施方式中，较短(较小)窗口大小可以(主要)用于检测言语帧中的言语咔嚓声事件，并且较长窗口大小可以(主要)用于检测非言语帧中的非言语咔嚓声事件。这样，可以高效地并可靠地检测短瞬态事件和长瞬态事件两者。在一些可能的实施方式中，足够小的(一个或多个)跳跃大小可以可选地用于达成精细时间分辨率，如本领域的技术人员将认识到的。

在一些示例实施方式中，从音频帧获得至少一个特征参数可以包括：对于每个音频帧，基于音频帧的时域样本振幅来获得至少一个峰度度量。另外，基于获得的特征参数来确定输入音频信号中的言语发音噪声事件的相应类型和言语发音噪声事件的相应范围可以包括：将所获得的峰度度量与预定义峰度阈值进行比较；以及如果峰度度量超过预定义峰度阈值，则确定音频帧包括嘴巴咔嚓声事件，并且基于峰度度量上升到预定义峰度阈值以上和下降到预定义峰度阈值以下的相应位置来确定嘴巴咔嚓声事件的开始边界和结束边界。值得注意地，通过使用峰度度量，可以以高效的方式达成(多个)嘴巴咔嚓声事件的第一(粗略)范围的估计(例如，确定)，这使得能够在必要时进行进一步精细化。

在一些示例实施方式中，从音频帧获得至少一个特征参数可以包括：对于每个言语帧，获得不具有言语谐波分量的相应残差近似和残差近似的(时域)样本振幅的相应第一峰度度量。另外，基于获得的特征参数来确定输入音频信号中的言语发音噪声事件的相应类型和言语发音噪声事件的相应范围可以包括：将所获得的第一峰度度量与第一预定义峰度阈值进行比较；以及如果第一峰度度量超过第一预定义峰度阈值，则确定言语帧包括言语咔嚓声事件，并且基于第一峰度度量上升到第一预定义峰度阈值以上和下降到第一预定义峰度阈值以下的相应位置来确定言语咔嚓声事件的开始边界和结束边界。如上所述，通过使用峰度度量，可以以高效的方式估计(例如，确定)(多个)嘴巴咔嚓声事件的第一(粗略)范围，这使得能够在必要时进行进一步精细化。

在一些示例实施方式中，不具有言语谐波分量的残差近似可以是二阶波形差。

在一些示例实施方式中，该方法可以进一步包括从言语帧的残差样本振幅获得第二峰度度量。特别地，可以基于相对于第一峰度度量的第二峰度度量来确定言语发音噪声事件的类型和范围。作为非限制性示例，基于相对于第一峰度度量的第二峰度度量来确定言语发音噪声事件的类型和范围可以涉及基于第二峰度度量与第一峰度度量之间的差来确定言语发音噪声事件的类型和范围。

在一些示例实施方式中，该方法可以进一步包括通过以下操作精细化(例如，限制)言语咔嚓声事件的确定的(粗略)范围：在所确定的言语咔嚓声事件的范围内定位具有最大二阶差的样本位置；以及通过在所定位的样本位置周围(例如，在其前面和后面、可能居中)应用预定义言语咔嚓声事件持续时间(例如，5ms)来确定言语咔嚓声事件的精细化范围。作为又一非限制性示例，可以将言语咔嚓声事件的精细化范围确定为在所定位的样本位置之前的二分之一预定义言语咔嚓声事件持续时间(例如，2.5ms)和在所定位的样本位置之后的二分之一预定义言语咔嚓声事件持续时间(例如，2.5ms)。当然，取决于相应实施方式，可以采用任何其他合适的措施。

在一些示例实施方式中，该方法可以进一步包括进一步基于从言语帧中的局部最小值和局部最大值计算的最小/最大变化速率来确定言语咔嚓声事件的范围。广义上讲，这个范围确定(或精细化)过程通常可以被视为用于检测在(粗略)咔嚓声范围内的快速调制。特别地，在一些可能的实施方式中，借助于将局部最小值/最大值转换为例如–1值和+1值，在下文称为“最小/最大变化速率”的对应过零率可以用于表征调制的速度。

在一些示例实施方式中，从音频帧获得至少一个特征参数可以包括：对于每个非言语帧，获得非言语帧中的时域样本振幅的相应第三峰度度量。另外，基于获得的特征参数来确定输入音频信号中的言语发音噪声事件的相应类型和言语发音噪声事件的相应范围可以包括：将所获得的第三峰度度量与第二预定义峰度阈值进行比较；以及如果第三峰度度量超过第二预定义峰度阈值，则确定非言语帧包括非言语咔嚓声事件；并且基于第三峰度度量上升到第二预定义峰度阈值以上和下降到第二预定义峰度阈值以下的相应位置来确定非言语咔嚓声事件的开始边界和结束边界。

在一些示例实施方式中，该方法可以进一步包括：如果两个相邻非言语咔嚓声事件在预定义间隙阈值内，则将两个相邻非言语咔嚓声事件合并(例如，为了衰减目的而合并)成单个言语咔嚓声事件。广义上讲，非言语咔嚓声通常趋向于是相对较长的(例如，50ms)。因此，在一些情况下，将相邻咔嚓声合并在预定义间隙或阈值(例如，25ms)内可以是有益的。

在一些示例实施方式中，该方法可以进一步包括：对于紧接在言语帧前面的非言语帧中确定的非言语咔嚓声事件，将高/低频带峰值比率计算为高于预定义频率的最大峰值与低于预定义频率的最大峰值之间的振幅比率；以及如果所计算的高/低频带峰值比率高于预定义比率阈值，则确定非言语咔嚓声事件为咂嘴事件。

在一些示例实施方式中，可以将高/低频带峰值比率计算为高于预定义频率(例如，1.5kHz)的最大峰值与低于预定义频率但高于另一预定义低频(例如，100Hz)的最大峰值之间的振幅比率。一般来说，预定义频率可以被选择为谐波占优势的极限频率。当然，如本领域的技术人员将理解和认识到的，取决于各种实施方式和/或要求，可以采用任何其他合适的计算方式。

在一些示例实施方式中，该方法可以进一步包括基于高/低频带峰值比率、频谱斜率和/或能量包络来精细化所确定的咂嘴事件的范围。

在一些示例实施方式中，所确定的精细化咂嘴事件的范围可以包括：只要满足以下条件，就扩展通过使用第三峰度度量来确定的咂嘴事件的结束位置：高/低频带峰值比率高于预定义比率阈值，频谱斜率低于预定义斜率阈值和/或能量包络中的能量减少。

在一些示例实施方式中，该方法可以进一步包括进一步基于根据另一预定义阈值为言语帧计算的重心(COG)来确定言语发音噪声事件，以区分嘴巴咔嚓声事件与言语瞬态。广义上讲，言语瞬态通常可以在性质上与嘴巴咔嚓声共享类似之处，但通常可以是不同量值或频谱特性。基于短时言语波形(时域中的短时帧的波形)的VAD和/或COG(信号平均时间)的演变，可以识别言语瞬态并且因此避免误报警检测为嘴巴咔嚓声。

在一些示例实施方式中，该方法可以进一步包括基于相应频谱增益来衰减确定的一个或多个嘴巴咔嚓声事件，这些相应频谱增益是从包含检测到的嘴巴咔嚓声事件的音频帧的频谱包络和基于相应参考帧来计算的目标包络得到的。

在一些示例实施方式中，对于每个检测到的嘴巴咔嚓声事件，参考帧可以包括在包含检测到的嘴巴咔嚓声事件的音频帧之前和其之后的音频帧。进一步地，可以通过内插参考帧的频谱包络来计算目标包络。当然，如本领域的技术人员将理解和认识到的，取决于相应实施方式和/或要求，同样可以采用任何其他合适的计算方式。

在一些示例实施方式中，可以针对高于预定义高频阈值(例如，4kHz)的频带应用衰减。更具体地，在一些可能的实施方式中，可以可选地针对言语咔嚓声应用进一步约束条件，以仅允许高频衰减(例如，高于4kHz)以便避免无意修改的言语谐波。

在一些示例实施方式中，该方法可以进一步包括基于相应的相邻音频帧来替换确定的一个或多个嘴巴咔嚓声事件。更具体地，在一些可能的实施方式中，对于言语咔嚓声的校正，也有可能使用自回归建模或与音高同步波形建模类似的基于粒度的方法。亦即，给出咔嚓声事件位置，可以估计左边和右边的局部周期。借助于比较相邻周期，与周期内的相对咔嚓声位置相匹配的“波形切片”可以用于替换具有简单的交叉渐变的咔嚓声。在一些可能的实施方式中，为了选择用于校正的左周期或右周期，可以简单地选择具有较小波形差的周期。当然，如本领域的技术人员将理解和认识到的，取决于相应实施方式和/或要求，可以采用任何其他合适的手段。

在一些示例实施方式中，言语发音噪声事件可以包括至少一个言语爆破音事件。另外，从音频帧获得至少一个特征参数可以包括针对音频帧中的每一个获得相应的低频能量(LFE)度量，以识别其离群值。

在一些示例实施方式中，可以在时域中或在频谱域中计算LFE度量。如本领域的技术人员将理解和认识到的，取决于相应实施方式和/或要求，可以采用任何合适的手段来计算LFE度量。作为非限制性示例，在一些可能的实施方式中，对于时域情况，可以将LFE计算为低通滤波后的信号的均方根(RMS)能量。在一些可能的实施方式中，例如，低通滤波器可以是具有例如80Hz的预定义截止频率的4阶巴特沃斯滤波器。在一些其他可能的实施方式中，对于频谱域情况，可以依据频谱将LFE计算为低于截止频率的RMS能量。

在一些示例实施方式中，该方法可以进一步包括根据从LFE度量识别的离群值和基于LFE度量计算的阈值或根据从先前和当前音频帧计算的LFE比率来确定言语爆破音事件的范围。

在一些示例实施方式中，该方法可以进一步包括针对音频帧中的每一个获得相应的过零最大值(ZCM)度量，以精细化已基于LFE度量确定的言语爆破音事件的范围。特别地，ZCM度量可以被视为指示在音频帧内的连续过零点的最大间隔的长度。在一些可能的实施方式中，可以通过窗口大小(例如，用于分割音频帧的窗口的大小)进一步将ZCM度量归一化。

在一些示例实施方式中，该方法可以进一步包括衰减确定的言语爆破音事件。可以在时域中或在频谱域中执行衰减。

在一些示例实施方式中，可以通过应用高通滤波器(例如，巴特沃斯高通滤波器)执行时域衰减。特别地，在一些可能的实施方式中，可以基于在确定的言语爆破音事件的范围内的音频帧的ZCM度量确定滤波器的截止频率；并且可以基于在确定的言语爆破音事件的范围内的音频帧的LFE度量确定滤波器的阶数。当然，如本领域的技术人员将理解和认识到的，取决于各种实施方式和/或要求，可以确定并使用任何其他合适的高通滤波器，或更一般来说，任何其他合适的时域衰减。

在一些示例实施方式中，可以通过使用具有自适应频谱斜率和频率的重叠相加短时傅里叶变换(STFT)来执行频谱域衰减。

在一些示例实施方式中，频谱域衰减可以涉及用快速傅里叶变换(FFT)处理音频帧、以自适应斜率和频率应用衰减增益、应用逆FFT、窗口化和重叠相加，以便产生衰减后的输出音频信号。特别地，在一些可能的实施方式中，可以基于在确定的言语爆破音事件的范围内的音频帧的ZCM度量确定频率；并且可以基于在确定的言语爆破音事件的范围内的音频帧的LFE度量确定斜率。当然，如本领域的技术人员将理解和认识到的，取决于相应实施方式和/或要求，可以采用任何其他合适的频谱域衰减。

在一些示例实施方式中，该方法可以进一步包括应用噪声频谱估计来限制衰减增益以防止过抑制。也就是说，在一些可能的实施方式中，噪声频谱估计可以用于限制增益减少，使得衰减不影响噪声频谱的整体频谱分布曲线，特别是在低频区域中。

如上配置，本公开的所提出的方法通常衰减具有较高截止频率的更快噗声，因此有效地适应于说话者语音的音高。进一步地，该方法还衰减具有更陡峭截止频率斜率的更强噗声，因此有效地适应于微弱而强烈的爆破音。

在一些示例实施方式中，该方法可以进一步包括将内容分类器(例如，VAD)应用于音频帧以区分言语帧与非言语帧以便确定言语爆破音事件。更具体地，在一些可能的实施方式中，当上文描述的技术应用于包括音乐或言语和音乐的内容时，所提出的算法可能对低频瞬态(如由踢鼓或低音生成的低频瞬态)敏感。为了解决这个问题，在一些可能的实施方式中，计算给定帧n包含言语的概率p(n)的内容分类器(例如，语音/音乐活动检测器)可以用于修改检测或衰减参数，从而确保音乐内容不受去爆破音处理的影响。

在一些示例实施方式中，频谱域衰减可以涉及：通过使用分析滤波器组来产生低于预定义频率阈值的多个近似等效矩形带宽(ERB)间隔频带和高于该预定义频率阈值的多个频带，该预定义频率阈值在确定的言语爆破音事件的频率范围内；将多个衰减增益分别应用于频带中的每一个频带中的音频信号，其中，衰减增益是基于针对频带计算的能量来计算的；以及将衰减后的音频样本馈送到合成滤波器组以生成输出音频信号。与上文说明的频谱域衰减相比较，当计算复杂度允许时通常可以使用这个频谱域衰减。

在一些示例实施方式中，每个频带中的衰减增益可以被进一步约束为不使该频带的能量降低到该频带中的估计本底噪声以下。换句话说，在一些可能的实施方式中，可以对(衰减)增益进行限幅以确保每个频带中的功率不被降低到相应频带中的估计本底噪声以下。一般来说，这将避免当在存在显著背景噪声的情况下有爆破音时可听到的噪声下降。如本领域的技术人员将理解和认识到的，可以通过使用任何合适的手段来估计噪声(或本底噪声)。

在一些示例实施方式中，该方法可以进一步包括计算高于估计本底噪声的音频样本的时间平滑低频能量估计值，以区分输入音频信号中的言语爆破音事件与更高频内容。

在一些示例实施方式中，该方法可以进一步包括计算输入音频信号的频谱中的言语谐波保护度量；以及根据言语谐波保护度量和时间平滑低频能量估计值来计算衰减增益。

在一些示例实施方式中，言语谐波保护度量可以是周期性度量或调性度量。

在一些示例实施方式中，可在分析滤波器组的最终频带计算之前从音频样本的倒谱计算频谱中的周期性度量。

在一些示例实施方式中，可以在分析滤波器组的最终频带计算之前基于与正弦峰值的主瓣相比较的频谱峰值的主瓣来计算频谱中的调性度量。

在一些示例实施方式中，该方法可以进一步包括基于紧邻的频率更低的频带来进一步约束计算的衰减增益。作为非限制性示例，可以约束增益使得对于高于特定阈值(例如70Hz)的频带，增益的衰减不能超过紧邻的频率更低的频带。一般来说，这将强制执行减少或衰减以遵循爆破音能量随频率的物理减少。也就是说，当较低频带的能量显著减少时，如果下一较高频带具有更多能量，则其更有可能是真正的言语能量而不是爆破音相关的能量。广义上讲，非常低的频带(低于例如70Hz)可能不遵循这个趋势，例如，过多的60Hz电源哼声可以使一个频带更响亮，或DC阻塞滤波器可以衰减最低频带，并且这不应限制爆破音能量衰减。

根据本公开的另一方面，提供了一种对输入音频信号执行自动音频增强以检测和/或衰减包含在其中的至少一个言语发音噪声事件的方法。如本领域的技术人员将理解和认识到的，自动音频增强可以涉及任何其他合适的音频增强手段。特别地，言语发音噪声事件可以尤其包括至少一个言语爆破音事件。

更特别地，该方法可以包括：通过使用分析滤波器组来产生低于预定义频率阈值的多个近似等效矩形带宽(ERB)间隔频带和高于该预定义频率阈值的多个频带，该预定义频率阈值在言语爆破音事件的频率范围内。该方法可以进一步包括：将多个衰减增益分别应用于频带中的每一个频带中的音频信号，其中，衰减增益是基于针对频带计算的能量来计算的。该方法还可以进一步包括将衰减后的音频样本馈送到合成滤波器组以生成输出音频信号。

如上述配置，广义上讲，所提出的方法提供了用于确定(检测)并衰减包括在输入音频信号内的(多个)可能/潜在的言语发音噪声事件(例如，言语爆破音事件)的高效和灵活的机制。因此，可以很大程度上避免先前识别并衰减音频信号中的(多个)噪声(例如，爆破音)事件所需要的繁琐的手动编辑/处理。同时，可以很大程度上改进收听体验(在收听者方面)。

在一些示例实施方式中，该方法可以进一步包括基于紧邻的频率更低的频带来进一步约束计算的衰减增益。作为非限制性示例，可以约束增益使得对于高于特定阈值(例如70Hz)的频带，增益的衰减不能超过紧邻的频率更低的频带的衰减。一般来说，这将强制执行减少或衰减以遵循爆破音能量随频率增加而物理减少。也就是说，当较低频带的能量显著减少时，如果下一较高频带具有更多能量，则其更有可能是真正的言语能量而不是爆破音相关的能量。广义上讲，非常低的频带(低于例如70Hz)可能不遵循这个趋势，例如，过多的60Hz电源哼声可以使一个频带更响亮，或DC阻塞滤波器可以衰减最低频带，并且这不应限制爆破音能量衰减。

在一些示例实施方式中，可以以预定义前瞻帧(窗口)大小(例如，50ms)连续地处理输入音频信号。

根据本公开的另一方面，提供了一种包括处理器和耦接到该处理器的存储器的装置。处理器可以适于使装置执行在整个公开中描述的示例方法的所有步骤。

根据本公开的进一步的方面，提供了一种计算机程序。计算机程序可以包括指令，这些指令当由处理器执行时使处理器执行在整个公开中描述的示例方法的所有步骤。

根据又一方面，提供了一种计算机可读存储介质。计算机可读存储介质可以存储上述计算机程序。

将理解，装置特征和方法步骤可以以多种方式互换。特别地，(多种)所公开方法的细节可以由对应装置(或系统)实现，并且反之亦然，如本领域的技术人员将认识到的。此外，关于(多种)方法进行的以上陈述中的任何陈述被理解为同样地适用于对应装置(或系统)，并且反之亦然。

附图说明

下文参考附图解释本公开的示例实施例，在附图中：

图1A是示出了根据本公开的实施例的非言语咔嚓声的示例的简图的示意性图示，

图1B是示出了根据本公开的实施例的言语咔嚓声的示例的简图的示意性图示，

图1C是示出了根据本公开的实施例的咂嘴的示例的简图的示意性图示，

图2是示出了根据本公开的实施例的言语咔嚓声的检测和精细化的示例的简图的示意性图示，

图3是示出了根据本公开的另一实施例的言语咔嚓声的检测和精细化的示例的简图的示意性图示，

图4是示出了根据本公开的实施例的咂嘴的检测的示例的简图的示意性图示，

图5是示出了根据本公开的实施例的频谱衰减的示例的简图的示意性图示，

图6是图示了根据本公开的实施例的技术的功能概述的示例的示意性框图，

图7是示出了过零最大值(ZCM)与过零率(ZCR)之间的示例比较的简图的示意性图示，

图8是示出了根据本公开的实施例的言语爆破音的衰减的示例的简图的示意性图示，

图9是图示了根据本公开的实施例的技术的功能概述的示例的示意性框图，

图10是图示了根据本公开的实施例的技术的功能概述的另一示例的示意性框图，

图11是图示了根据本公开的实施例的方法的示例的示意性流程图，

图12是图示了根据本公开的另一实施例的方法的示例的示意性流程图，

图13是图示了根据本公开的实施例的技术的功能概述的又一示例的示意性框图，以及

图14是用于执行根据本公开的实施例的方法的装置的框图。

具体实施方式

附图和以下描述仅作为说明与优选实施例相关。应当注意的是，根据下面的讨论，本文所公开的结构和方法的替代实施例将容易地被公认为在不背离所要求保护的原理的情况下可以采用的可行替代方案。

现在将详细参照若干实施例，在附图中图示了这些实施例的示例。需要注意的是，在可行的情况下，可以在附图中使用类似或相似的附图标记，并且所述附图标记可以表示类似或相似的功能。附图仅出于说明目的描绘所公开系统(或方法)的实施例。本领域技术人员将容易从以下描述中认识到，在不脱离本文描述的原理的情况下，可以采用本文所图示的结构和方法的替代实施例。

此外，在连接元件(如实线或虚线或箭头)用于图示两个或更多个其他示意性元件之间的连接、关系或关联性的附图中，缺乏任何这样的连接元件并不意味着暗示可以不存在连接、关系或关联性。换句话说，未在附图中示出元件之间的一些连接、关系或关联性以便不模糊公开内容。另外，为了便于图示，使用单个连接元件来表示元件之间的多个连接、关系或关联性。例如，在连接元件表示信号、数据或指令的通信的情况下，本领域的技术人员应理解，这样的元件表示一个或多个信号路径(根据可能需要的)，以影响通信。

如上文所指示的，在各种媒体平台上越来越多的往往可以质量各异的言语内容已达到了手动编辑似乎不再是可行的解决方案的程度。自动言语增强在做得好时通常将保持言语自然性并且节省编辑时间。

广义上讲，言语增强算法通常尝试解决两种类型的不需要的“噪声”事件，亦即，由背景源产生的噪声和由发音产生的噪声。尤其，爆破音以及嘴巴咔嚓声两者都属于第二类型。

更具体地，一方面，言语爆破音通常出现在从口中生成空气爆破(如在包含“p”或“t”的音节发音期间)并且在风冲击的情况下引起麦克风膜片的大幅振荡时。如上所述，在本公开的上下文中，术语“爆破音”可以广义地用于包括从口中发出的引起麦克风膜片的大幅振荡的任何空气爆破(例如，包括像“f”、“z”这样的短摩擦音)。即使是在控制良好的声学环境中录制的言语内容，爆破音也可能经常产生突然的低频提升，即所谓的“噗声”，从而导致不愉快的听觉体验。可以从例如图8中的简图8200看到言语爆破音事件的说明性示例(特别地，稍后将更详细地讨论的低频部分中的白色部分)。

已提出了降低爆破音强度的几种录音技术，如使用噗声滤除器或挡风板、离轴说话等。然而，由于实际原因，“噗声”减小并不像预期的那样有效：例如，无法固定说话者或(语音)演员的姿势。因此，需要信号处理工具来提高这种录音的质量。存在用于自动爆破音检测的两个主要的可行方法，包括基于简单特征的检测和基于电话的检测(用于言语识别的多维特征)。尽管基于电话的检测可以在识别爆破音事件的精确时间跨度方面似乎有其优势，但它更复杂并且因此需要更多的资源来计算。基于简单特征的检测通常是本地的而无需对爆破音事件边界进行精细化。另一可行解决方案通常为其去除爆破音模块提供三个用户参数(灵敏度/强度/频率极限)。然而，为了获得最好的结果，用户可能需要手动编辑这些参数的自动化曲线，因为爆破音的强度和频率在相同录音中变化，并且相应地，用户可能想要衰减这些爆破音。结果，这个过程可能是耗时的。

另一方面，嘴巴咔嚓声通常是由使用舌头/牙齿/嘴唇与唾液混合进行的言语发音引起的瞬态声音。这些嘴巴咔嚓声通常出现在言语部分以及非言语部分中，对于高SNR录音来说通过耳机/耳麦通常是可听到的。嘴巴咔嚓声通常很短，持续时间通常在10ms至100ms之间，并且这些嘴巴咔嚓声也可能表现为几个连续的瞬态。在如TV/电影/游戏对话等专业录音的背景下，无咔嚓声言语质量可能被视为是非常苛刻的。现在，即使是对于用户生成的内容，由于耳麦/耳机收听的普及，嘴巴咔嚓声也往往变得很明显。

在本公开的上下文中，所提出的方法通常寻求解决三个类型的嘴巴咔嚓声，亦即：1)非言语咔嚓声；2)言语咔嚓声；和3)咂嘴(还可以被视为一种/类型的特殊非言语咔嚓声)。

现在参考附图，图1A示意性地图示了非言语咔嚓声的示例(例如，在大约0.1s处)；图1B示意性地图示了言语咔嚓声的示例(特别是在最左侧循环结束时在大约0.7056s处示出的，由圆圈指示的)；并且图1C示意性地图示了咂嘴的示例(特别地被示出为刚好在言语片段之前的强烈瞬态，在大约2.1s处)。

已提出了几种录音技术来减少专业男配音员/女配音员的嘴巴咔嚓声。然而，在大多数情况下，没有办法控制说话者的嘴巴/嘴唇状况。对于后期处理，手动编辑可能很繁琐，使得处理成百上千的对话是不切实际的。因此，需要信号处理工具来更高效地校正嘴巴咔嚓声。然而，目前很少有关于嘴巴咔嚓声检测的可用学术研究。咂嘴检测可以被视为类似问题，但瞬态能量通常大得多，因此相应方法可能不直接适用于如嘴巴咔嚓声等小瞬态。进一步地，在数字音频修复的背景下，“去除咔嚓声”通常用于移除通常存在于留声机唱片播放中的脉冲噪声。当受损的音频持续时间较长时，问题变成了一般信号内插/外插问题。

鉴于此，本公开提出了对包括这样的言语发音(相关或引起的)噪声事件中的一个或多个的(多个)输入音频信号执行自动音频增强的方法。更特别地，本公开寻求提供对包括在输入音频信号内的言语爆破音和嘴巴咔嚓声以及其他噪声事件执行自动检测和衰减的方法，从而避免手动编辑同时保持或甚至改进收听者方面的音频质量。

首先，将讨论与根据本公开的实施例的“去除咔嚓声”有关的方法。

在广义上，本公开中描述的用于嘴巴咔嚓声的自动检测和衰减的方法主要包括两个关键方面。亦即，作为第一方面，检测算法通常分别针对非言语区域中的嘴巴咔嚓声和言语区域中的嘴巴咔嚓声。波形振幅的峰度度量通常用作适用于原始波形以及其2阶差两者的主要标准，其中，2阶差用作非谐波信号部分的近似。粗略检测到的咔嚓声位置进一步被精细化以更准确地限定咔嚓声样本区域。另外，作为第二方面，嘴巴咔嚓声衰减通常基于频谱增益衰减，该频谱增益衰减是从跨包含(检测到的)咔嚓声的短时帧进行的频谱包络内插得到的。

现在将参考图6更详细地讨论“去除咔嚓声”方法，该图大体上提供根据本公开的实施例的(去除咔嚓声)技术的示意性功能概述。

更具体地，如框6010中所示出的，可以例如以输入文件或流的形式(或以任何其他合适的形式)提供输入音频信号。取决于其形式(例如，格式)，输入音频信号可能需要经历合适的分割过程以被划分成例如多个(短时)音频帧(例如，具有相等或不同帧大小)。

值得注意地，在继续进行到后续去咔嚓声处理之前，可选去噪声过程(被示出为虚线框6020)可以应用于输入信号以更好地揭露潜在的嘴巴咔嚓声。

然后，给出如在框6030中例示的语音活动检测器(VAD)，可以将言语信号的每个短时框(音频帧)识别为包含言语或不包含言语。这允许单独处理言语部分(例如，帧)和非言语部分中的嘴巴咔嚓声。存在于非言语部分中的嘴巴咔嚓声通常称作“非言语咔嚓声”(例如，如图1A中所示出的)并且存在于言语部分中的嘴巴咔嚓声称作“言语咔嚓声”(例如，如图1B中所示出的)，这两种嘴巴咔嚓声是单独检测的。如上文所指示的，在本公开的上下文中，咂嘴通常被视为一种特殊的非言语咔嚓声，这些非言语咔嚓声通常刚好出现在言语开始之前。咂嘴通常可能是有意进行的并且因此表现为强烈而漫长的瞬态事件(例如，如图1C中所示出的)。因此，为了检测短瞬态事件和长瞬态事件两者，使用两个(不同)窗口大小可以被视为有益的。特别地，在一些可能的实施方式中，较短(较小)窗口大小可以(主要)用于检测言语帧中的言语咔嚓声事件，并且较长窗口大小可以(主要)用于检测非言语帧中的非言语咔嚓声事件。这样，可以高效地并可靠地检测短瞬态事件和长瞬态事件两者。另外，在一些可能的实施方式中，足够小的跳跃大小也可以用于达成精细时间分辨率。

另一方面，对于非言语咔嚓声事件的检测，尽管能量微弱，但它们通常比背景噪声强烈并且因此可以通过瞬态检测算法来识别。在本公开中，通常提出使用短时波形(时域)振幅的(第一)峰度度量k_W(框6040)来识别并区分有峰分布(在一些情况下还被称为大离群值)与平坦分布。然后可以将峰度度量k_W与预定义阈值进行比较(框6100)以检测(或确定)嘴巴咔嚓声(在目前情况下，非言语咔嚓声)，如框6060中所示出的。这样检测到的(多个)非言语咔嚓声事件的(多个)开始和/或结束位置然后可以简单地定义为其峰度上升到预定义阈值以上和/或下降到预定义阈值以下的位置。一般来说，非言语咔嚓声可能趋向于是相对长的(例如，50ms)并且因此在一些情况下合并(例如，为了衰减目的)在预定义间隙/阈值(例如，25ms)内的相邻咔嚓声事件可以是有益的。

另一方面，关于言语咔嚓声的检测，通常考虑有声言语中的嘴巴咔嚓声趋向于表现为快速调制并且因此更难检测到。理想地，如果言语谐波被很好地建模，则它可能依赖于残差波形(减去谐波)来检测任何突然改变。然而，这通常将涉及使用可能增加检测算法的复杂性的鲁棒F0(也被称为基频)/谐波估计算法。因此，在本公开中，通常提出使用2阶样本差(框6050)来近似缓慢变化的信号分量(谐波)的移除，使得可以揭露潜在的瞬态。类似于非言语咔嚓声的检测，可以针对差(残差)波形计算(第二)短时峰度度量k_D(再次为框6040)。然而，如本领域的技术人员将理解的，在这个阶段除了2阶样本差还可以使用其他形式的残差信号，只要它们允许识别潜在瞬态即可。

在一些可能的实施方式中，可以关于(或相对于)(第一)峰度度量k_W评估(第二)峰度度量k_D。更具体地，

k_R＝k_D-α×k_W (1)

其中，α是(例如，预定义)加权参数。

由于言语咔嚓声通常发生在有声部分中，因此谐波能量可以是相当强烈的并且因此表现为平滑振幅分布(其通常意味着k_W将是相对小的)。因此，这隐含地避免了将言语瞬态(其通常意味着有峰振幅分布或换句话说k_W是大的)检测为嘴巴咔嚓声。也就是说，k_R对于言语咔嚓声将是相对较大的，但对于言语瞬态是相对较小的，这允许将两者区分开。

进一步地，言语咔嚓声可能趋向于是非常短的并且因此以更好的样本精度精细化上文定义的(粗略)咔嚓声事件位置通常可能是有必要的。

简单方法可以是为了在通过峰度检测到的粗略咔嚓声范围内定位最大二阶差(其通常意味着最快改变)。然后，例如5ms的预定义言语咔嚓声持续时间可以用于在最快变化的样本位置周围确定精细化开始和/或结束位置。如本领域的技术人员将理解和认识到的，这可以以任何合适的手段来达成。例如(不作为限制)，在与言语咔嚓声持续时间相对应的间隔可以在所述最快变化的样本位置上居中的意义上，这样的言语咔嚓声持续时间(例如，5ms)可以简单地被均匀划分在所述最快变化的样本位置之前和之后。

在图2中示意性地示出了这样的精细化过程的示例。特别地，在图2的示例中，波形2100通常示出了原始输入音频波形，而波形2200通常示出了从原始波形2100获得的2阶差波形。然后，如上文所说明的，可以基于2阶差波形2200来确定非言语咔嚓声事件的精细化范围2300。

另一可能的精细化方法可以是为了检测在粗略咔嚓声范围内的最快调制。特别地，借助于将局部最小值/最大值转换为例如–1和+1值(或任何其他合适的值，例如具有不同正负号和相等量值)，对应过零率(ZCR)(在下文也被称为“最小/最大变化速率”)可以用于表征调制速度。

在图3中示意性地示出了这个精细化过程的示例。特别地，在图3的示例中，类似于图2中示出的示例，波形3100通常示出了原始输入音频波形。然而，在这个精细化过程中，代替使用二阶差，从原始波形3100获得最小/最大变化速率波形3200。随后，可以基于最小/最大变化速率波形3200来确定非言语咔嚓声事件的精细化范围3310、3320和3330，如图3中所示出的。

在一些可能的实施方式中，可以组合地使用峰度阈值和最小/最大变化速率以用于以更好的精度检测言语咔嚓声。

关于如上所述的咂嘴检测，咂嘴事件通常表现为通常刚好在言语之前的强烈瞬态(如图1C的示例中所示出的)。为了区分咂嘴事件与前述两个咔嚓声事件(即，言语咔嚓声和常规非言语咔嚓声)，可以考虑依赖于例如借助于使用频谱特征来验证共振的突然变化。在本公开中，通常提出使用频谱斜率(在下文还表示为“SpS”)以及高/低频带峰值比率(在下文还表示为“ratioHL”)。

一般来说，在一些可能的实施方式中，可以将特征ratioHL计算为高于预定义频率freq_HL(例如，1.5kHz)的最大峰值与低于freq_HL的最大峰值之间的振幅比率。在一些可能的实施方式中，进一步选择高于(预定义)低频freq_L(例如，100Hz)的较低频带中的最大峰值以避免低频噪声可以是优选的。

在一些可能的实施方式中，对于刚好在言语之前检测到的非言语咔嚓声，如果ratioHL>th_R(其中，th_R可以是预定义阈值)，则它可以随后被视为咂嘴候选(例如，如图6的框6070中所示出的)。

通常，当发生咂嘴时，高/低频带峰值比率ratioHL可能趋向于变得更大，而且频谱斜率可能由于高频共振而趋向于变得更陡峭。由于咂嘴事件与小(常规)嘴巴咔嚓声相比较通常大得多(例如，通常为100ms的持续时间)，因此通常可以提出基于包括ratioHL、SpS和能量包络的特征来精细化(多个)事件开始/结束位置。

在一些可能的实施方式中，只要以下条件之一成立，就可以连续地扩展初始(粗略)结束位置(即，通过k_W检测到的)：1)ratioHL>th_R；2)SpS<th_S，其中，th_S是预定义阈值；和3)能量减少。

可以借助于将事件位置精细化之前和之后的偏斜度进行比较来执行扩展的结束位置的附加验证。亦即，事件的扩展可能仅添加较小振幅的样本，使得样本振幅分布变得“更歪斜”。

当然，如本领域的技术人员将理解和认识到的，可以视情况采用任何其他合适的实施方式。

图4是示出了根据本公开的实施例的咂嘴的检测的示例的简图的示意性图示。特别地，图4中的波形分别大体上和说明性地示出了原始波形、频谱斜率(SpS)、能量以及高/低频带峰值比率(ratioHL)。

在一些情况下，可以有必要或期望避免将言语瞬态检测为咔嚓声。特别地，言语瞬态通常可以在性质上与嘴巴咔嚓声共享某种程度的类似之处，但另一方面通常可以是不同量值和/或频谱特性。因此，基于短时言语波形的VAD和/或重心(COG，其通常可以被视为信号平均时间)的演变，可以积极地识别言语瞬态并且因此避免误检测为嘴巴咔嚓声。

在一些可能的实施方式中，可以如下计算COG：

其中，/>

进入窗口的右侧的瞬态的开头暗示着可以用于借助于COG＞th_COG(其中，例如th_COG＝0.2)进行瞬态检测的正值。更具体地，当VAD指示无言语时，将处理非言语咔嚓声而无论COG如何。相反地，当VAD指示言语时，如果任何COG接近咔嚓声事件的开始并且是高于th_COG的值，则将不处理咔嚓声。

广义上讲，使用“归一化”度量(即，COG)的原因是更等效地处理言语瞬态同时使用“非归一化”度量(即，峰度)通常有助于选择各种程度的瞬态性来校正。

在已检测到嘴巴咔嚓声(包括非言语咔嚓声、言语咔嚓声以及咂嘴)之后，这些咔嚓声的衰减(或校正)(即，去除咔嚓声处理)可以是下一步骤。

更具体地，如本公开中所提出的去除咔嚓声处理通常基于从观察到的频谱包络(在下文表示为“E”)和目标包络(在下文表示为“E_T”)得到的频谱增益衰减(图6的框6090)，如在图6的框6080中所例示的。更特别地，在一些可能的实施方式中，给出咔嚓声的(多个)开始/结束位置，通常提出将在咔嚓声之前(具有包络E₀)和在咔嚓声之后(具有包络E₁)的一个块视为参考帧。这两个参考帧的频谱包络然后可以用于估计涵盖咔嚓声事件的每个短时块的目标包络。然后，在一些可能的实施方式中，可以将目标包络简单地计算为两个参考包络的线性内插。相应地，然后通过目标包络除以观察到的包络来定义频谱增益，其中，限制条件是仅允许衰减。亦即，对于跨总共B帧的给定帧b处的每个段k，可以将衰减增益计算为：

其中，

特别地，对于言语咔嚓声，可以可选地应用又一约束条件以仅允许高频衰减(例如，高于4kHz)，以便避免无意地修改言语谐波。

在一些可能的实施方式中，当残差估计(移除了谐波分量)可用(例如，如图13的框13040中所例示的)，可以将包络衰减应用于残差信号并且然后将谐波分量作为处理后的输出加回来(例如，如图13的框13090中所例示的)。

在一些可能的实施方式中，对于言语咔嚓声的校正，还可以使用其他算法，如自回归建模或与音高同步波形建模类似的基于粒度的方法。特别地，给出咔嚓声事件位置，可以估计左边和右边的局部周期。借助于比较相邻周期，与周期内的相对咔嚓声位置相匹配的“波形切片”可以用于替换具有简单的交叉渐变的咔嚓声。为了选择用于校正的左周期或右周期，可以简单地选择较小波形差的周期。在将存在连续咔嚓声的情况下，上述方法有时可能不太有效并且更有生成性的方法然后可以成为更好的选项。

图5是示出了根据本公开的实施例的频谱衰减的示例的简图的示意性图示，其中，分别说明性地示出了观察到的频谱波形、处理后的频谱波形、观察到的包络和目标包络。如可以从图5的示例中看出的，衰减(检测到的)咔嚓声的频谱区域。为了完整性，然而需要注意的是，即使如当前在图5中所示出的示例可能与“去咔嚓声”有关，相似或类似衰减概念亦可以应用于“去爆破音”情景。在一些实施方式中，例如，这可以涉及对残差频谱的包络进行平滑处理，如本领域的技术人员将认识到的。

其次，将讨论与根据本公开的实施例的“去除爆破音”有关的方法。

类似于上文，在广义上，本公开中描述的用于言语爆破音的自动检测和自适应衰减的方法也主要包括两个关键方面。亦即，作为第一方面，使用过零最大值(ZCM)度量的特征。与过零率(ZCR)度量相比较，可以看出ZCM仅仅采取最大过零长度。因此，ZCM通常可以被视为对噪声交叉信息是鲁棒的，尤其是当如在ZCR的情况下以平均方式使用时。另外，作为第二方面，可以基于低频能量(LFE)和ZCM来执行爆破音事件边界的精确检测。特别地，可以选择来自观察到的低频能量分布(例如，对于跨文件或录音的所有短时帧)的离群值作为可能的(恼人的)爆破音事件，并且然后可以使用ZCM来精细化事件时间位置/边界。最终，通常可以基于高通滤波在时域或频谱域中执行爆破音衰减，其中，滤波器阶数自适应于LFE并且滤波器频率自适应于检测到的爆破音的ZCM。

现在，将参考图9和/或图10更详细地讨论“去除爆破音”方法，这两个图分别提供了根据本公开的实施例的(去除爆破音)技术的示意性功能概述。在广义上，图9可以被视为更大体示例，而图10可以被视为特定可能实施方式的更详细示例。因此，图9和图10中示出的示例可以同时展现出某种程度的类似之处(例如，在一些块中)和差(例如，在一些其他块中)，如本领域的技术人员将理解和认识到的。

更具体地，如块9010或10010中所示出的，提供输入音频信号并且可以将该输入音频信号分割/划分成多个(短时)重叠音频帧(例如，具有相等帧大小)。这可以以任何合适的方式来达成，如本领域的技术人员将理解和认识到的。例如，在一些可能的实施方式中，音频帧的这个分割可以通过使用汉明窗口执行短时帧分析来达成。特别地，在一些可能的实施方式中，帧大小可以被设置得足够大以允许提取过零最大值的可靠值。类似地，重叠大小可以被设置得足够大以追踪具有精细时间分辨率的短时特征。

随后，可以计算(获得)两个短时特征(或有时也称为特征参数)，亦即：如框9020或10020中例示的低频能量(LFE)和如框9040或10050中例示的过零最大值(ZCM)。

可以在时域中或在频谱域中并且通过使用任何合适的手段来计算LFE。在一些可能的实施方式中，对于时域情况，可以将LFE计算为低通滤波后的信号的均方根(RMS)能量。在一些可能的实施方式中，低通滤波器可以是具有例如80Hz的预定义截止频率的4阶巴特沃斯滤波器。另一方面，在一些其他实施方式中，对于频谱域情况，可以依据频谱将LFE计算为低于截止频率的RMS能量。

如上文提到的，ZCM通常是在短时帧内的连续过零点的最大间隔的长度，可能进一步由窗口大小归一化。值得注意地，本公开中提出的技术通常不依赖于通常在爆破音检测机制中使用的ZCR。

由于低频突然噗声通常是主要的问题，因此可以通过识别观察到的LFE分布的离群值来开始爆破音检测(框9030或10030)。在一些可能的实施方式中，可以基于标准得分的概念/原则来识别离群值：

其中，x是LFE样本值，μ是其平均值，并且σ表示标准偏差。

如果存在任何离群值，则可以将它们传送到下一阈值检测阶段。否则，可以假设不存在需要进一步处理的可能(恼人的)爆破音。在非限制性示例中，离群值可以由z＞1(或任何其他合适的值)指示。

在一些可能的实施方式中，自适应阈值th_LFE可以用于检测到的离群值以根据下式来选择优势分量：

th_LFE＝α×(maxLFE-th_Z)+th_Z (5)

其中，maxLFE是最大LFE，并且

th_Z＝μ+z₀×σ (6)

值得注意地，在这里，th_z适于比平均值高出标准偏差的预定义因数z₀。方程(5)中的倍增因数α可以被设置为调整检测灵敏度。在一些可能的实施方式中，倍增因数α可以根据下式根据全局去除爆破音amount参数来设置：

α＝1-amount，其中，0≤amout≤1 (7)

在将需要低时延的线上(实时)处理的情况下，可能无法可靠地估计上述统计阈值。因此，在一些情况下，还可以根据下式针对当前帧n替代地使用LFE比率：

如果LFE[n-1]＞0 (8)

否则，可以关于先前有效的LFE计算该比率。

然后可以将检测函数表达为R＞1+f(α)，其中，f(α)是可定制的映射函数。相应地，检测函数还可以简单地写为R＞1+α。

在一些可能的实施方式中，超过检测阈值的帧可以用于定义被视为要衰减的爆破音事件的信号区域，这还隐含地定义爆破音事件开始和/或结束的(初始)时间位置(框9030或10040)。然而，事件边界可能需要进一步精细化(框9050或10060)，通常因为实际爆破音可能以非常低的能量开始和/或结束。因此，在一些可能的实施方式中，例如，ZCM度量(框9040或10050)可以用于扩展帧的边界，其中，ZCM<0.1(或任何其他合适的值)。

进一步地，类似于“去除咔嚓声”情景，在两个爆破音事件可以重叠或非常接近的一些情况下，它们可以合并为一单个爆破音事件(例如，用于进一步的“去除爆破音”处理)。

图7示意性地图示了ZCM与ZCR之间的比较的示例。特别地，如可以从图7的示例看到的，ZCM简图7100通常比ZCR简图7200噪声少，并且因此更好地适合于识别潜在爆破音事件。

在已确定在音频帧内的言语爆破音事件和其对应范围/位置/边界(框9080)之后，这些爆破音的衰减(或校正)(即，去除爆破音处理)可以是下一步骤(框9110)。在一些可能的具体实施方式(例如，如图10中所示出的)中，可以通过使用高通滤波执行衰减(例如，如框10070中所例示的)。

特别地，类似于“去除咔嚓声”情况，还可以在时域中或在频谱域中执行言语爆破音的衰减。

广义上讲，在一些可能的实施方式中，时域衰减可以使用具有自适应阶数和频率的巴特沃斯高通滤波器(或任何其他合适的手段)；而频谱域衰减可以使用具有自适应频谱斜率和频率的重叠相加短时傅里叶变换(STFT)(或任何其他合适的手段)。

特别地，对于时域和频谱域衰减两者，衰减频率(框9070)或在一些可能的实施方式中滤波器(截止)频率freq_C(例如，如框10072中所例示的)可以被设置为自适应于爆破音事件的“速度”(框9070)，该“速度”通常可以定义为1-max(ZCM_plosive)，其中，在这里使用的ZCM是在0与1之间归一化的，并且max(ZCM_plosive)是从爆破音事件的开始帧到结束帧的最大ZCM。映射然后可以定义为：

freq_C＝minFreq+speed×(maxFreq-minFreq) (9)

在一些可能的实施方式中，截止频率freq_C可以进一步被约束到预定义范围，例如[minFreq＝100Hz，maxFreq＝150Hz]。当然，取决于相应实施方式和/或要求，也可以采用任何其他合适的范围。

对于时域衰减，巴特沃斯滤波器的阶数可以自适应于爆破音事件的强度(框9060)。特别地，爆破音强度st可以在一些可能的实施方式中定义为：

st＝g(max(LFE_plosive)-th_Z)) (10)

其中，max(LFE_plosive)是从爆破音事件的开始帧到结束帧的最大LFE；g(x)是主要用于确保0≤st≤1的可定制映射函数，这可以通过简单地应用归一化因数来达成。

然后，衰减增益(如框9090中所例示的)或在一些可能的情况下滤波器阶数(如框10071中所例示的)可以通过映射来获得：

order＝round(minOrder+st×(maxOrder-minOrder)) (11)

在一些可能的实施方式中，阶数可以进一步被约束到预定义范围，例如[minOrder＝2，maxOrder＝12]。当然，取决于相应实施方式和/或要求，也可以采用任何其他合适的范围。

此外，在一些可能的实施方式中，例如10ms的交叉渐变区域可以进一步用于产生从输入信号到滤波后的信号的平滑转变。

另一方面，对于频谱域衰减情况，可以在一些可能的实施方式中用快速傅里叶变换(FFT)处理输入短时信号，后续接着以自适应截止频率和斜率应用衰减增益、应用逆FFT以及最终应用窗口化和重叠相加以产生(衰减后的)输出。当然，如本领域的技术人员将理解和认识到的，取决于相应实施方式，也可以应用任何其他合适的衰减机制。

还可以基于爆破音强度来估计频谱低截止/高通增益斜率。在一些可能的实施方式中，对于每个爆破音事件，目标减少增益可以定义为：

其中，st_mean是输入信号的平均强度。亦即，通常提出目标在于将爆破音强度降低到平均水平而不会过抑制。

对于LFE比率用于表示强度的情况，该比率可以直接表达为目标增益。虽然在一些情况下以dB为单位来表达targetGain(对于减少为负值)，但衰减增益斜率可以定义为：

slope＝-targetGain_dB×β (13)

这将目标增益映射到斜率(每倍频程的dB作为正值)，并且β是用于控制攻击性的缩放因数。对于低于x_C的每个频率段x(处于freq_C的段)，以dB为单位的衰减增益然后可以计算为：

gain_dB[x]＝(log₂x-log₂(0.5*x_C))×slope-slope (14)

在一些可能的实施方式中，噪声频谱估计可以用于限制增益减少，使得衰减不影响低频区域中的整体频谱分布曲线。

因此，广义上讲，所提出的方法通常衰减具有较高截止频率的更快噗声，因此有效地适应于说话者语音的音高。该方法还衰减具有更陡峭截止频率斜率的更强噗声，因此有效地适应于微弱而强烈的爆破音。

值得注意地，当上文描述的技术应用于包括音乐或言语与音乐组合的内容时，算法可能对低频瞬态(如由踢鼓或低音生成的低频瞬态)敏感。为了解决这个问题，在一些可能的实施方式中，计算给定帧n包含言语(或不包含言语)的概率p(n)的内容分类器(例如，语音/音乐活动检测器)可以用于修改检测或衰减参数，从而确保音乐内容不会受去爆破音处理的影响。在一些可能的实施方式中，p(n)>th_p(其中，th_p是预定义阈值)的帧可以从LFE和ZCM池中移除以确保相关爆破音检测和衰减。p(n)还可以用于例如通过如下操作动态地修改amount参数：将该参数与逻辑映射函数f(p(n))相乘，其中，例如f(x)＝1/(1+κ*e^-(x-0.5))是当x分别接近0和1时接近0和1的连续函数。κ通常表示映射的陡度参数。

在一些实施方式中，特别是当计算复杂度允许时，可以采用并且现在将更详细地描述频率/频谱域衰减的另一实施例。

特别地，可以提出首先使用分析滤波器组以产生在爆破音频率区域上低于(预定义)频率阈值(例如，大约500Hz)的(近似)等效矩形带(ERB)间隔频带，并且另外产生高于这个频率阈值(例如，500Hz)的一个或多个频带，以便覆盖剩余频率范围。在每个时间点t处，这些频带b中的每一个中的能量(表示为e(b,t))用于控制减少过程以产生应用于每个滤波后的信号的一系列增益g(b,t)。然后将结果馈送到合成滤波器组从而以减少的爆破音能量产生输出信号。

更特别地，在一些可能的实施方式中，可以首先通过压缩曲线的输出基于频带的能量来将每个频带g(b，t)中的爆破音减少增益计算为：

g₁(b，t)＝C(e_dB(b，t) (15)

其中，

e_dB(b，t)＝10log₁₀(e(b，t) (16)

在一些可能的实施方式中，可以将具有阈值T、膝宽W和压缩比率R的压缩曲线(其中，以分贝为单位来表达所有量)描述为：

如本领域的技术人员将理解和认识到的，可以使用阈值T、膝宽W和压缩比率R的任何合适的值。在说明性示例中，可以使用T＝-65、W＝10、R＝6。然后，压缩曲线在低能量下是0dB并且可能仅给出随着能量增加的衰减。还应理解，T可以随着时间与时间平滑言语能量包络动态地相适应。

在一些可能的实施方式中，然后可以进一步对增益进行限幅以根据下式确保每个频带中的功率不会降低到频带中的估计本底噪声(表示为或以dB为单位表示为)以下：

这通常将避免当在存在显著背景噪声的情况下可能有爆破音时可听到的噪声下降。

估计噪声的一种可能的方式可以是：

其中，t1的负值意味着使用估计历史，并且t2的正值在一些情况下可能需要对因果关系的一些时延补偿并且因此可以被设置为0。在一些可能的实施方式中，良好估计值可以由-t1＝t2＝300ms给出。在一些可能的实施方式中，从最小计算中移除低于80dB的值也可以是有用的，因为它们通常将不表示言语期间的本底噪声(并且更有可能由噪声门产生)。

在一些情况下，当最低频率大约为例如80Hz时，难以处理的情况可能是区分爆破音事件的不期望的低频能量与元音声音中期望的低频能量。取决于相应实施方式，一些工具通常可以用于解析这些条件。更具体地，在一些可能的实施方式中，可以使用信号高于本底噪声的时间平滑低频能量估计值(这寻求维持压缩增益)以及检测元音的重复峰度并降低增益的调性度量(或在一些可能的实施方式中，(某种)周期性度量)。这些可以如下实施：

其中，b＝B对应于以例如200Hz为中心的频带。然后可以用指数平滑器以例如50ms的攻击时间和例如100ms的释放时间对这个估计值进行时间平滑处理，从而给出平滑化的LFE_S。最终，减去估计的本底噪声将给出：

这然后可以例如根据下式被进一步阈值化并且缩放到有用范围以产生因数：

f_lf＝(min(max(LFE_n，30),40)-30)/10 (22)

在一些可能的实施方式中，可以在转换成滤波器组域之前(最好地)估计调性(或在一些情况下，周期性度量)。在一些可能的实施方式中，滤波器组可以计算重叠的窗口化音频信号的FFT值。为了便于图示，在一些可能的实施方式中，可以假设FFT段中的功率p(k)是可用的并且将使用段k＝0一直到k＝K，其中，例如，K对应于在给定采样率下的500Hz。

然后可以在这些段上计算周期性度量(例如，在一些可能的实施方式中为倒谱)，如下：

其中，可以是正向或逆向傅里叶变换。这可以被认为是一种自相关。广义上讲，可以预期元音具有约100Hz或更少的周期性。因此，在一些可能的实施方式中，可以考虑C_p的第一100Hz并且找出最小C_p(min)和在第一100Hz中出现在这个最小值之后的最大值C_p(max)。在一些可能的实施方式中，这个元音然后被限幅并且缩放到调性度量：

tonality＝(min(max(C_p(max)-C_p(min)，0)，6))/6 (24)

在一些可能的实施方式中，调性度量可能替代地通过在例如频率范围60Hz至250Hz内搜索p(k)中的最大频谱峰值并且要求峰值是合理的正弦峰值(主瓣应是足够窄和深的)来计算。例如，调性度量可以(例如，线性地)从0缩放到1，因为峰值中心处的深度加上或减去60Hz的范围是从5dB到15dB。

例如，还可以以75ms攻击时间和300ms释放时间对这个值进行时间平滑处理，从而给出平滑化的调性。

这个(平滑化的)调性度量以及上文计算的f_lf可以进一步组合成增益缩放因数：

g₃＝g₂×f_lf+(1-f_lf)×(1-tonality_s)² (25)

需要注意的是，上文说明的周期性/调性度量还可以在本公开的上下文中被称为“言语谐波保护度量”。进一步地，可以互换地使用周期性度量和调性度量。

然后可以进一步约束增益，使得对于高于特定(预定)阈值(例如，70Hz)的频带，根据下式，增益的衰减不能超过紧邻的频率更低的频带：

g₄(b，t)＝max(g₃(b，t)，g₃(b-1，t)) (26)

其中，b具有高于例如70Hz的频带中心频率。

广义上讲，上文提出的方法通常强制执行减少以遵循爆破音能量随频率增加而物理减少。特别地，当较低频带的能量显著减少时，如果下一较高频带具有更多能量，则其更有可能是真正的言语能量而不是与爆破音有关的能量。一般来说，在一些可能的实施方式中，非常低的频带(低于例如70Hz)可能不遵循这个趋势，例如，过多的60Hz电源哼声可以使一个频带更响亮，或DC阻塞滤波器可以衰减最低频带，并且这不应限制爆破音能量衰减。

最终，在一些可能的实施方式中，可以进一步以例如20ms的攻击时间和50ms的释放时间对这些增益g₄(b，t)进行时间平滑处理以产生将应用于滤波后的信号(例如，子频带信号)的最终增益g(b，t)。在一些实施方式中，例如，可以以逐频带方式应用最终增益。

图8是示出了根据本公开的实施例的言语爆破音的衰减的示例的简图的示意性图示。特别地，如可以从图8中看到的，在对应的衰减简图8100中，言语爆破音事件(比较简图8200的低频部分中的白色区域)已有效地衰减。

图11是图示了根据本公开的实施例的对包括至少一个言语发音噪声事件的输入音频信号执行自动音频增强的方法11000的示例的示意性流程图。

特别地，可以应用本文描述的方法11000以针对言语爆破音噪声事件或嘴巴咔嚓声噪声事件执行自动音频增强(例如，检测、衰减等)。

更特别地，方法11000可以通过以下操作以步骤S11010开始：将输入音频信号分割(例如，通过使用一个或多个合适的窗口)成多个音频帧(例如，大小为100ms)。方法11000然后可以通过以下操作以步骤S11020继续：从(分割的)音频帧获得(例如，确定、计算、提取等)至少一个特征参数。在一些可能的示例实施方式中，如此获得的特征参数可以被视为与(要检测的)言语发音噪声事件的类型相关联。也就是说，在一些可能的示例实施方式中，取决于(要检测的)言语发音噪声事件的类型，将必须从音频帧获得不同的特征参数。最终，方法11000可以通过以下操作以步骤S11030继续：至少部分地基于获得的特征参数来确定(例如，检测、计算等)输入音频信号内的言语发音噪声事件的相应类型和与言语发音噪声事件相关联的相应范围(例如，时间和/或频率范围)。

如上述配置，广义上讲，所提出的方法11000提供了用于确定(检测)包括在输入音频信号内的(多个)可能/潜在的言语发音噪声事件(例如，伪影)的高效和灵活的机制。因此，可以促进适当的进一步增强(后期)处理(例如，衰减)。结果，可以很大程度上避免先前识别并衰减音频信号中的(多个)噪声事件所需要的手动编辑/处理。同时，可以很大程度上改进收听体验。

图12是图示了根据本公开的另一实施例的对输入音频信号执行自动音频增强以检测和/或衰减包含在其中的至少一个言语发音噪声事件的方法12000的示例的示意性流程图。言语发音噪声事件可以尤其包括至少一个言语爆破音事件。因此，可以考虑本文描述的方法12000可以特别地适合于针对言语爆破音噪声事件执行自动音频增强(例如，检测、衰减等)。

特别地，方法12000可以通过以下操作以步骤S12010开始：通过使用分析滤波器组来产生低于预定义频率阈值的多个近似等效矩形带宽(ERB)间隔频带和高于该预定义频率阈值的多个频带，该预定义频率阈值在言语爆破音事件的频率范围内。方法12000然后可以通过以下操作以步骤S12020继续：将多个衰减增益分别应用于频带中的每一个频带中的音频信号，其中，这些衰减增益是基于针对频带计算的能量来计算的。最终，方法12000还可以进一步通过以下操作以步骤S12030继续：将衰减后的音频样本馈送到合成滤波器组以生成输出音频信号。

如上述配置，广义上讲，所提出的方法12000提供了用于确定(检测)并衰减包括在输入音频信号内的(多个)可能/潜在的言语发音噪声事件(例如，言语爆破音事件)的高效和灵活的机制。因此，可以很大程度上避免先前识别并衰减音频信号中的(多个)噪声(例如，爆破音)事件所需要的手动编辑/处理。同时，可以很大程度上改进收听体验。

顺便提及，需要注意的是，尽管用于去咔嚓声和去爆破音处理的方法/技术似乎是单独图示的，但本领域的技术人员将理解并且认识到，可以互换地使用上文说明的至少一些技术。

作为说明性非限制性示例，在一些可能的实施方式中，滤波器组方法(其在上文在去爆破音处理的背景下进行描述)还可以应用于去咔嚓声，其中，频谱包络可以由ERB频带能量定义并且可以应用类似的多频带压缩(由目标衰减增益和相应的攻击/释放时间确定的压缩器比率)方案。可以注意到，有效ERB频带可能扩展直到去咔嚓声技术的奈奎斯特极限，但对于爆破音过程，它们限制于低频(例如，500Hz)。进一步地，可以利用还用于去爆破音处理的“残差”(其在上文被描述为仅用于去咔嚓声处理)，作为基于倒谱的周期性度量的替代方案。可以注意到，用于去爆破音处理的残差无法使用二阶样本差，但必须使用一些其他合适的估计。

图13说明性地示出了目标在于在(单个)功能概述中组合用于去咔嚓声处理以及去爆破音处理的技术的示例。

特别地，需要注意的是，图13中的功能块13010、13020和13030通常相似或类似于图6中的功能块6010、6020和6030，使得可以为了简洁而省略其重复描述。需要进一步注意的是，图13中所示出的虚线框通常可以意味着相应功能步骤可以是可选的，如下文将更详细地描述的。

如上所述，对于去爆破音处理，可以应用ERB频带分析(虚线框13050)以检测对应言语伪影(在目前情况下为言语爆破音事件)(如框13060中所例示的)并且随后衰减这种言语伪影(框13070)。另一方面，对于去咔嚓声情景，可以在已检测到言语伪影(在目前情况下为嘴巴咔嚓声事件)之后执行ERB相关程序(或在一些情况下也称为滤波器组方法)(框13060)。在这样的情况下，这样的ERB相关程序还可以被称为用于衰减检测到的嘴巴咔嚓声(框13070)的ERB频带合成(如虚线框13080中所例示的)。如上文所说明的，当滤波器组方法(其在上文在去爆破音处理的背景下进行描述)要应用于去咔嚓声时，频谱包络可以由ERB频带能量定义并且可以应用类似多频带压缩(由目标衰减增益和相应攻击/释放时间或包络内插确定的压缩器比率)方案。如本领域的技术人员将理解和认识到的，取决于各种实施方式和/或要求，可以采用任何其他或进一步合适的过程。

此外，如在上文所描述的并且也在图13中所示出的，本文描述的技术可以进一步(可选地)利用用于去咔嚓声处理以及去爆破音处理两者的“残差”(例如，通过移除言语谐波分量，如虚线框13040中所例示的)(其中，该残差用作周期性/调性度量的替代方案)。然而需要注意的是，在这样的情况(即，使用残差)下，例如在包络衰减已应用于残差信号之后谐波可能必须最终被复原或加回来(如虚线/可选框13090中所例示的)。

本公开同样地涉及一种用于执行在整个公开中描述的方法和技术的装置。图14示出了这种装置14000的示例。所述装置14000包括处理器14010和耦接到处理器14010的存储器14020。存储器14020可以存储用于处理器14010的指令。处理器14010可以接收音频数据14030作为输入。音频数据14030可以具有上文在对输入音频信号执行自动音频增强以检测和/或衰减包含在其中的至少一个言语发音噪声事件的相应方法的上下文中描述的性质。处理器14010可以适于执行在整个公开中描述的方法/技术。相应地，处理器14010可以输出去噪声的(例如，去咔嚓声的、去爆破音的)音频数据14040。在一些进一步可能的实施方式中，还可以使得处理器14010能够接收进一步输入(例如，控制参数，图14中未示出)，例如以用于控制音频增强处理行为。

解释

实施上文描述的技术的计算设备可以具有以下示例架构。其他架构也是可能的，包括具有更多或更少部件的架构。在一些实施方式中，示例架构包括一个或多个处理器(例如，双核处理器)、一个或多个输出设备(例如，LCD)、一个或多个网络接口、一个或多个输入设备(例如，鼠标、键盘、触敏显示器)和一个或多个计算机可读介质(例如，RAM、ROM、SDRAM、硬盘、光盘、闪速存储器等)。这些部件可以经由一个或多个通信信道(例如，总线)交换通信和数据，这些通信信道可以利用各种硬件和软件来促进数据和控制信号在部件之间的传送。

术语“计算机可读介质”是指参与向处理器提供指令以用于执行的介质，包括而不限于非易失性介质(例如，光碟或磁碟)、易失性介质(例如，存储器)和传输介质。传输介质包括而不限于同轴电缆、铜线和光纤。

计算机可读介质可以进一步包括操作系统(例如，操作系统)、网络通信模块、音频接口管理器、音频处理管理器和实时内容分发器。操作系统可以是多用户、多处理、多任务、多线程、实时等。操作系统执行基本任务，包括但不限于：识别来自网络接口和/或设备的输入并向网络接口和/或设备提供输出；记录并管理计算机可读介质(例如，存储器或存储设备)上的文件和目录；控制外围设备；以及管理一个或多个通信信道上的业务。网络通信模块包括用于建立并维护网络连接的各种部件(例如，用于实施如TCP/IP、HTTP等通信协议的软件)。

架构可以在并行处理或对等基础设施中实施，或者在具有一个或多个处理器的单个设备上实施。软件可以包括多个软件部件或可以是单个代码体。

所描述的特征可以有利地在一个或多个计算机程序中实施，这些计算机程序可在包括至少一个可编程处理器的可编程系统上执行，该至少一个可编程处理器被耦接以从数据存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并且将数据和指令传输到其。计算机程序是可以直接或间接在计算机中使用以执行某个活动或带来某个结果的一组指令。计算机程序可以用任何形式的编程语言(例如，Objective-C、Java)来编写，包括编译或解译语言，并且它可以以任何形式来部署，包括作为独立的程序或作为模块、部件、子例程、基于浏览器的网络应用程序或适于在计算环境中使用的其他单元。

举例来说，用于执行指令程序的合适处理器包括通用处理器和专用处理器两者，以及任何种类的计算机的单独处理器或者多个处理器或核之一。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器。通常，计算机还将包括用于存储数据文件的一个或多个大容量存储设备，或者可操作地耦接成与其通信；这种设备包括磁盘，如内部硬盘和可移动盘；磁光盘；以及光盘。适合于有形地体现计算机程序指令和数据的存储设备包括所有形式的非易失性存储器，这些非易失性存储器举例来说包括半导体存储器设备，如EPROM、EEPROM和闪速存储器设备；磁盘，如内部硬盘和可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由ASIC(专用集成电路)补充或并入在ASIC中。

为了提供与用户的交互，特征可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备，如CRT(阴极射线管)或LCD(液晶显示器)监视器或视网膜显示设备。计算机可以具有触摸表面输入设备(例如，触摸屏)或键盘以及如鼠标或轨迹球等指向设备，用户可以通过这些触摸表面输入设备或键盘以及指向设备向计算机提供输入。计算机可以具有用于接收来自用户的语音命令的语音输入设备。

特征可以在计算机系统中实施，该计算机系统包括后端部件，如数据服务器，或包括中间件部件，如应用程序服务器或因特网服务器，或包括前端部件，如具有图形用户界面或因特网浏览器的客户端计算机，或它们的任何组合。系统的部件可以由数字数据通信的任何形式或介质(如通信网络)连接。通信网络的示例包括例如LAN、WAN以及形成因特网的计算机和网络。

计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且典型地通过通信网络来交互。客户端与服务器的关系是由于计算机程序在相应计算机上运行并且相对于彼此具有客户端-服务器关系而产生的。在一些实施例中，服务器将数据(例如，HTML页)传输到客户端设备(例如，为了向与客户端设备交互的用户显示数据并且接收来自用户的用户输入)。可以从服务器处的客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

一个或多个计算机的系统可以被配置成凭借将在操作中使系统执行动作的软件、固件、硬件或它们的组合安装在系统上来执行特定动作。一个或多个计算机程序可以被配置成凭借包括指令来执行特定动作，这些指令当由数据处理装置执行时使装置执行这些动作。

虽然本说明书包含许多特定实施细节，但这些细节不应被解释为对任何发明或可以要求的内容的范围的限制，而是相反，被视为对特定发明的特定实施例所特有的特征的描述。本说明书中在单独实施例的上下文中描述的特定特征还可以在单个实施例中以组合形式实施。相反地，在单个实施例的上下文中描述的各种特征还可以在多个实施例中单独地或以任何合适的子组合形式实施。此外，尽管特征可以在上文被描述为以特定组合起作用并且甚至最初是如此要求的，但在一些情况下可以从组合中删去来自所要求组合的一个或多个特征，并且所要求组合可以针对子组合或子组合的变体。

类似地，虽然在附图中按特定顺序描绘了操作，但这不应被理解为需要按所示出的特定顺序或按先后顺序执行这样的操作，或执行所有所图示的操作以实现期望的结果。在某些情况下，多任务和并行处理可以是有利的。此外，上文描述的实施例中的各种系统部件的分离不应被理解为在所有实施例中需要这样的分离，并且应理解，所描述程序部件和系统通常可以一起集成在单个软件产品中或封装到多个软件产品中。

除非另外特别声明，从以下讨论中显而易见的是，应当理解，在整个公开的讨论中，利用如“处理”、“计算(computing)”、“计算(calculating)”“确定”、“分析”等术语来指代计算机或计算系统或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。

在整个公开中对“一个示例实施例”、“一些示例实施例”或“示例实施例”的提及意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此，在整个公开中各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都是指代同一个示例实施例。此外，在一个或多个示例实施例中，特定特征、结构或特性可以以任何合适的方式组合，这根据本公开对于本领域的普通技术人员而言将是显而易见的。

如本文所使用的，除非另外指定，否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象，仅表明提及相似对象的不同实例，并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。

同样，应理解，本文中所使用的措词和术语是出于描述的目的且不应视为是限制性的。“包括(including)”、“包括(comprising)”或“具有”及其变体的使用意在涵盖其后列出的项目及其等同物以及附加项目。除非另有规定或限制，否则术语“安装”、“连接”、“支撑”和“耦接”及其变体被广泛使用并且涵盖直接和间接安装、连接、支撑和耦接。

在下文的权利要求和本文的描述中，术语包括(comprising)、包括(comprisedof)或其包括(which comprises)中的任何一个是开放术语，其意指至少包括随后的要素/特征，但不排除其他要素/特征。因此，当在权利要求中使用术语“包括”时，所述术语不应当被解释为限于在其之后列出的装置或要素或步骤。例如，包括A和B的设备的表达的范围不应限于仅包括元件A和B的设备。如本文所使用的，术语包括(including)或其包括(whichincludes)或包括(that includes)中的任何一个也是开放术语，其也意指至少包括所述术语之后的元件/特征，但不排除其他元件/特征。因此，包括(including)与包括(comprising)同义并且意指包括(comprising)。

应当认识到，在以上对本公开的示例实施例的描述中，有时在单个示例实施例/图或其描述中将本公开的各种特征组合在一起，以便简化本公开，并且帮助理解各创造性方面中的一个或多个。然而，本公开的方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反，如以下权利要求所反映的，各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此，在说明书之后的权利要求书特此明确地并入本说明书中，其中，每个权利要求独立地作为本公开的单独的示例实施例。

此外，虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征，但是如本领域技术人员将理解的，不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如，在所附权利要求中，要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。

在本文提供的描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中，未详细示出众所周知的方法、结构和技术，以避免模糊对本说明书的理解。

因此，尽管已经描述了被认为是本公开的最佳模式的模式，但是本领域技术人员将认识到，可以在不背离本公开的精神的情况下对其做出其他和进一步的修改，并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如，以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能，并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。

本公开的各个方面和实施方式也可以从以下所枚举的示例实施例(EEE)中理解，所述示例实施例不是权利要求。

EEE 1.一种用于基于以下项来检测并衰减言语内容录音中的嘴巴咔嚓声的方法：

a.将音频划分成言语帧和非言语帧；

b.计算言语帧的2阶波形差；

c.基于每个短时波形的峰度来检测嘴巴咔嚓声；

d.基于频谱包络在咔嚓声的开始与结束之间的内插来计算目标频谱增益；以及

e.对每个帧应用增益并执行重叠相加再合成。

EEE 2.如EEE 1所述的方法，其中，言语和非言语帧的识别由现有VAD(语音活动检测器)给出。

EEE 3.如EEE 1所述的方法，其中，可以将可选的去噪声应用到输入信号以更好地揭露潜在的嘴巴咔嚓声。

EEE 4.如EEE 1a所述的方法，其中，分别使用两个窗口大小以检测言语咔嚓声(短)和非言语咔嚓声(长)。

EEE5.如EEE 1c所述的方法，其中，计算原始波形的峰度k_W和2阶波形差的峰度以用于嘴巴咔嚓声检测。

EEE 6.如EEE 1c所述的方法，其中，通过预定义峰度阈值检测嘴巴咔嚓声。这些阈值对于k_W和k_D可以是不同的。

EEE 7.如EEE 5所述的方法，其中，基于k_W来检测非言语咔嚓声并且基于具有加权参数α的k_D-α*k_W来检测言语咔嚓声。

EEE 8.如EEE 7所述的方法，其中，可以从基于峰度的检测中进一步排除言语瞬态。这仅需要留意言语咔嚓声。

EEE 9.如EEE 8所述的方法，其中，可以基于短时信号的重心(平均时间)来检测言语瞬态。

EEE 10.如EEE 7所述的方法，其中，嘴巴咔嚓声的开始定义为当峰度升到阈值以上时并且嘴巴咔嚓声的结束定义为当峰度降到阈值以下时。因此，嘴巴咔嚓声事件通常涵盖几个连续的短时帧。

EEE 11.如EEE 7所述的方法，其中，非言语咔嚓声的持续时间趋向于较长，并且因此合并接近的非言语咔嚓声是优选的。

EEE 12.如EEE 7所述的方法，其中，刚好在言语开始前面的非言语咔嚓声被视为咂嘴候选。

EEE 13.如EEE 12所述的方法，其中，基于以下特征来扩展咂嘴事件的结束位置：频谱斜率、高/低峰值比率和能量包络。

EEE 14.如EEE 13所述的方法，其中，高/低峰值比率定义为高频带中的最大峰值与低频带中的最大峰值之间的振幅比率。

EEE 15.如EEE 14所述的方法，其中，高/低频带被分隔开预定义频率(例如1.5kHz)。

EEE 16.如EEE 7所述的方法，其中，言语咔嚓声趋向于较短，并且因此精细化开始/结束样本位置是优选的。

EEE 17.如EEE 16所述的方法，其中，简单精细化方法是在通过峰度检测到的初始咔嚓声范围内定位最大2阶波形差(maxD)。例如2ms的预定义言语咔嚓声持续时间然后可以用于在maxD周围确定精细化开始/结束位置。

EEE 18.如EEE 16所述的方法，其中，替代性精细化方法是“最小/最大变化速率”。转换后的波形的过零率(cZCR)在局部最小值/最大值处是–1/+1并且在任何其他地方为0。具有高于阈值的cZCR的帧定义精细化位置。

EEE 19.如EEE 1d所述的方法，其中，基于观察到的频谱包络和目标频谱包络来计算频谱增益衰减。由频谱包络继承的频谱增益定义了每个频谱段处的频率相关增益值。

EEE 20.如EEE 19所述的方法，其中，可以通过在咔嚓声事件的每次结束时频谱包络在两个“干净”帧(不包含任何咔嚓声事件)之间的线性内插来估计目标频谱包络。

EEE 21.如EEE 19所述的方法，其中，每个短时帧处的频谱增益定义为目标包络除以观察到的包络。

EEE 22.如EEE 19所述的方法，其中，频谱增益被限制仅用于衰减。所得放大增益被强制设置为1。

EEE 23.如EEE 19所述的方法，其中，言语帧的频谱增益适用于高于预定义有声频率(例如4kHz)的频谱区域。

EEE 24.一种用于基于以下项来检测并衰减言语内容录音中不期望的爆破音事件的方法：

a.将音频划分成重叠帧；

b.分析每个帧的低频能量(LFE)和过零最大值(ZCM)；

c.检测具有精确的开始/结束时间位置的爆破音事件；以及

d.借助于具有自适应阶数和截止频率的高通滤波来衰减爆破音。

EEE 25.如EEE 24b所述的方法，其中，可以在时域中或在具有预定义截止频率的频谱域中计算LFE。

EEE 26.如EEE 25所述的方法，其中，可以将时域LFE计算为输入信号的低通滤波版本的RMS能量。

EEE 27.如EEE 25所述的方法，其中，可以将频谱域LFE计算为低于截止频率的短时频谱的RMS能量。

EEE 28.如EEE 24b所述的方法，其中，ZCM是由窗口大小归一化的连续过零点的最大间隔。

EEE 29.如EEE 24a所述的方法，其中，帧大小被设置得足够大以提取过零最大值的可靠值。重叠大小被设置得足够大以追踪具有精细时间分辨率的短时特征。

EEE 30.如EEE 24c所述的方法，其中，爆破音检测是基于跨文件的所有短时帧选择LFE分布的离群值。

EEE 31.如EEE 30所述的方法，其中，通过标准得分来检测离群值并且使用自适应阈值来选择优势离群值。

EEE 32.如EEE 31所述的方法，其中阈值自适应于最大LFE与标准得分阈值之间的差乘以缩放因数。

EEE 33.如EEE 32所述的方法，其中，缩放因数可以从全局爆破音移除量控制[0,1]得到。

EEE 34.如EEE 24c所述的方法，其中，用于低时延用例的爆破音检测是基于两个相邻帧之间的LFE比率。

EEE 35.如EEE 34所述的方法，预定义阈值用于检测，该预定义阈值可以定义为1加上检测灵敏度。

EEE 36.如EEE 32或EEE 34所述的方法，其中，超过阈值的连续帧定义爆破音事件的时间跨度。

EEE 37.如EEE 24c所述的方法，其中，初始爆破音事件边界通过EEE 36的方法来限定。

EEE 38.如EEE 36所述的方法，其中，基于ZCM来进一步精细化初始事件边界。

EEE 39.如EEE 38所述的方法，其中，扩展开始位置和结束位置直到ZCM降到预定义阈值以下。

EEE 40.如EEE 24d所述的方法，其中，可以在时域或频谱域中执行衰减过程。

EEE 41.如EEE 40所述的方法，其中，滤波器频率在预定义范围的频率约束条件下自适应于ZCM。

EEE 42.如EEE 40所述的方法，其中，时域衰减使用巴特沃斯滤波器，该巴特沃斯滤波器的滤波器阶数在预定义范围的阶数约束条件下自适应于低频能量的强度。

EEE 43.如EEE 42所述的方法，其中，滤波后的输出在事件边界处以预定义转变持续时间与原始输入信号交叉渐变。

EEE 44.如EEE 40所述的方法，其中，频谱域衰减使用标准STFT重叠相加框架。

EEE 45.如EEE 44所述的方法，其中，频谱衰减增益斜率自适应于低频能量的强度。

EEE 46.如EEE 45所述的方法，其中，增益斜率被表达为低于截止频率的每倍频程的dB。

EEE 47.如EEE 44所述的方法，其中，可以通过估计的噪声频谱来限制衰减增益以防止过抑制。

EEE 48.如EEE 32所述的方法，其中，缩放因数可以并入从内容分类器获得的言语的概率。所得因数相应地对检测阈值进行加权以避免非语音帧的处理。

EEE 49.一种用于检测并衰减音频数据中的嘴巴咔嚓声的方法，包括：

接收表示音频数据的多个音频帧；

基于多个音频帧来计算一个或多个短时波形；

基于一个或多个短时波形的峰度来检测一个或多个嘴巴咔嚓声；

至少部分地基于频谱包络在一个或多个检测到的嘴巴咔嚓声的开始与结束之间的内插来计算一组目标频谱增益；以及

通过将该组目标频谱增益应用到多个音频帧并且执行重叠相加再合成来衰减一个或多个嘴巴咔嚓声。

EEE 50.如EEE 49所述的方法，进一步包括：

将多个音频帧中的每一个分类为言语帧或非言语帧；并且其中：

基于多个音频帧来计算一个或多个短时波形包括：

计算从音频内容得到的原始波形；以及

计算言语帧的2阶波形差；

检测一个或多个嘴巴咔嚓声包括：

使用从音频内容得到的原始波形来检测非言语帧的一个或多个嘴巴咔嚓声；以及

使用言语帧的2阶波形差来检测言语帧的一个或多个嘴巴咔嚓声。

EEE 51.如EEE 49或50所述的方法，进一步包括：在计算一个或多个短时波形之前将音频帧去噪声。

EEE 52.如EEE 50至51中任一项所述的方法，其中，由现有的语音活动检测器执行将多个音频帧中的每一个分类为言语帧或非言语帧。

EEE 53.如EEE 49至52中任一项所述的方法，其中，根据第一预定义峰度阈值(K_T1)来检测言语帧的一个或多个嘴巴咔嚓声。

EEE 54.如EEE 53所述的方法，其中，根据不同于第一预定义峰度阈值的第二预定义峰度阈值(K_T2)来检测言语帧的一个或多个嘴巴咔嚓声。

EEE 55.如EEE 49至54中的任一项所述的方法，其中，检测言语瞬态并从基于峰度的嘴巴咔嚓声检测中排除言语瞬态。

EEE 56.如EEE 55所述的方法，其中，至少部分地基于从音频内容得到的原始波形(例如，基于音频内容的短时信号)的重心(平均时间)来检测言语瞬态。

EEE 57.如EEE 49至56中任一项所述的方法，其中，相应嘴巴咔嚓声的开始定义为当峰度升到K_T以上时并且相应嘴巴咔嚓声的结束定义为当峰度降到K_T以下时。

EEE 58.如EEE 50至57中任一项所述的方法，其中，检测非言语帧的一个或多个嘴巴咔嚓声包括合并被分隔开少于第一持续时间的非言语咔嚓声。

EEE 59.如EEE 50至58中任一项所述的方法，其中，检测言语帧的一个或多个嘴巴咔嚓声进一步包括：精细化言语帧的一个或多个嘴巴咔嚓声中的每个相应嘴巴咔嚓声的开始位置和结束位置。

EEE 60.如EEE 59所述的方法，其中，精细化开始位置和结束位置包括：

在通过峰度检测到的相应嘴巴咔嚓声的粗略咔嚓声范围内定位最大2阶波形差(MD)；以及

基于预定义言语咔嚓声持续时间来定义相应嘴巴咔嚓声的精细化开始位置或精细化停止位置。

EEE 61.如EEE 59所述的方法，其中，精细化开始位置和结束位置包括：

基于转换后的波形的过零率(cZCR)来定义相应嘴巴咔嚓声的精细化开始位置或精细化停止位置。(例如，转换后的波形将观察到的波形的局部最小值/最大值映射到-1/1并且将所有其他值映射到0)

EEE 62.如EEE 48所述的方法，其中，至少部分地基于观察到的频谱包络和目标频谱包络来计算该组目标频谱增益。

EEE 63.如EEE 62所述的方法，其中，通过在咔嚓声事件的每次结束时频谱包络在两个“干净”帧(例如，不包含任何咔嚓声事件的周围帧)之间的线性内插来估计目标频谱包络。

EEE 64.如EEE 62所述的方法，其中，每个短时帧处的该组目标频谱增益定义为目标包络除以观察到的包络。

EEE 65.如EEE 64所述的方法，其中，该组目标频谱增益被限制仅用于衰减。(例如，所得放大增益被强制设置为1。)

EEE 66.如EEE 64所述的方法，其中，言语帧的该组目标频谱增益适用于高于预定义有声频率的频谱区域。

EEE 67.一种用于基于以下项来检测并衰减包括言语内容的音频中不期望的爆破音事件的方法：

将音频划分成多个重叠帧；

确定多个重叠帧中的每一个的低频能量；

确定多个重叠帧中的至少一个的过零最大值；

检测具有精确开始/结束时间位置的多个爆破音事件；

通过使用自适应高通滤波器衰减多个爆破音事件来生成输出音频，其中，自适应高通滤波器的阶数和截止频率适应于多个爆破音事件中的每一个。

EEE 68.如EEE 67所述的方法，其中，低频能量是输入信号的低通滤波版本的RMS能量。

EEE 69.如EEE 67的方法，其中，过零最大值是由窗口大小归一化的连续过零点的最大间隔。

EEE 70.如EEE 67所述的方法，其中，帧大小被设置得足够大以提取过零最大值的可靠值。重叠大小被设置得足够大以追踪具有精细时间分辨率的短时特征。

EEE 71.如EEE 67所述的方法，其中，检测多个爆破音事件包括根据第一阈值跨文件的所有短时帧检测低频能量分布的离群值。

EEE 72.如EEE 67至71中任一项所述的方法，其中，检测多个爆破音事件进一步包括：

基于标准得分来计算用于LFE离群值检测的阈值；以及

应用不同于第一阈值的第二阈值(例如，用于选择优势分量的自适应阈值)。

EEE 73.如EEE 72所述的方法，其中，第二阈值自适应于最大离群值与第一阈值之间的差。

EEE 74.如EEE 73所述的方法，其中，超过自适应阈值的连续帧定义爆破音事件的时间跨度。

EEE 75.如EEE 73所述的方法，其中，将全局衰减效应量[0,1]映射到按一定因数缩放的自适应阈值。

EEE 76.如EEE 67所述的方法，其中，初始爆破音事件边界(例如，开始/停止位置)通过EEE 73的方法来限定。

EEE 77.如EEE 67至74中任一项所述的方法，进一步包括：基于过零最大值来精细化爆破音事件位置(例如，初始边界)。

EEE 78.如EEE 77所述的方法，进一步包括：扩展爆破音事件的开始和结束位置直到过零最大值降到预定义阈值以下。

EEE 79.如EEE 67所述的方法，其中，生成输出音频包括在多个爆破音事件的爆破音事件边界处以预定义转变持续时间交叉渐变。

EEE 80.如EEE 67所述的方法，其中，滤波器阶数在预定义结束范围内自适应于低频率能量的强度。

EEE 81.如EEE 67所述的方法，其中，截止频率在预定义截止频率范围内自适应于过零最大值。

EEE 82.如EEE 75所述的方法，进一步包括：

从内容分类器获得多个重叠帧中的一个或多个的言语概率；以及

当相应概率小于第一分类阈值时减少检测量(例如，通过更改全局衰减效应量)。

EEE 83.如EEE 75所述的方法，进一步包括：

当相应概率小于第二分类阈值时移除来自检测到的爆破音事件的帧。

EEE 84.如EEE 67所述的方法，其中，使用自适应高通滤波器来衰减多个爆破音事件包括：

使用第一滤波器阶数和第一截止频率对多个爆破音事件中的第一爆破音事件进行滤波；以及

使用第二滤波器阶数和第二截止频率对多个爆破音事件中的第二爆破音事件进行滤波，其中，第二滤波器阶数和第二截止频率中的至少一个分别不同于第一滤波器阶数和第一截止频率。

EEE 85.如EEE 67所述的方法，其中，自适应高通滤波器是巴特沃斯滤波器。

EEE 86.一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储包括指令的一个或多个程序，这些指令当由一个或多个处理器执行时执行如EEE 67至85中任一项所述的方法。

EEE 87.一种电子设备，包括一个或多个处理器以及存储器，该存储器存储包括指令的一个或多个程序，这些指令当由一个或多个处理器执行时致使设备执行如EEE 67至85中任一项所述的方法。

EEE 88.一种对包括至少一个言语发音噪声事件的输入音频信号执行自动音频增强的方法，所述方法包括：

将所述输入音频信号分割成多个音频帧；

从所述音频帧获得至少一个特征参数；以及

至少部分地基于所获得的特征参数来确定所述输入音频信号内的所述言语发音噪声事件的相应类型和与所述言语发音噪声事件相关联的相应时间-频率范围。

EEE 89.根据EEE 88所述的方法，其中，所确定的范围包括所确定的言语发音噪声事件在时域和/或频谱域中的至少一个边界。

EEE 90.根据EEE 88或89所述的方法，进一步包括：

根据所述言语发音噪声事件的所确定类型和范围来衰减所述言语发音噪声事件。

EEE 91.根据前述EEE中任一项所述的方法，其中，所述言语发音噪声事件包括以下中的至少一项：嘴巴咔嚓声事件或言语爆破音事件。

EEE 92.根据EEE 91所述的方法，其中，所述言语发音噪声事件包括一个或多个嘴巴咔嚓声事件；并且其中，所述一个或多个嘴巴咔嚓声事件包括以下中的至少一项：非言语咔嚓声事件、言语咔嚓声事件或咂嘴事件。

EEE 93.根据EEE 92所述的方法，其中，在将所述输入音频信号分割成多个音频帧之后，所述方法进一步包括：

将所述音频帧分类为言语帧或非言语帧。

EEE 94.根据EEE 93所述的方法，其中，通过使用语音活动检测器VAD来识别所述输入音频信号并将所述输入音频信号分割成所述言语帧和所述非言语帧。

EEE 95.根据EEE 92至94中任一项所述的方法，其中，通过使用两个不同的窗口大小来执行所述分割，所述两个窗口大小中的一个短于另一个。

EEE 96.根据EEE 95在附属于EEE 93或94时所述的方法，其中，较短窗口大小用于检测所述言语帧中的言语咔嚓声事件，并且较长窗口大小用于检测所述非言语帧中的非言语咔嚓声事件。

EEE 97.根据EEE 91至96中任一项所述的方法，其中，从所述音频帧获得至少一个特征参数包括：

对于每个音频帧，基于所述音频帧的时域样本振幅来获得至少一个峰度度量，并且

其中，基于所获得的特征参数来确定所述输入音频信号中的所述言语发音噪声事件的相应类型和所述言语发音噪声事件的相应范围包括：

将所获得的峰度度量与预定义峰度阈值进行比较；以及

如果所述峰度度量超过所述预定义峰度阈值，则确定所述音频帧包括嘴巴咔嚓声事件，并且基于所述峰度度量上升到所述预定义峰度阈值以上和下降到所述预定义峰度阈值以下的相应位置来确定所述嘴巴咔嚓声事件的开始边界和结束边界。

EEE 98.根据EEE 93至97中任一项所述的方法，其中，从所述音频帧获得至少一个特征参数包括：

对于每个言语帧，获得不具有言语谐波分量的相应残差近似和所述残差近似的样本振幅的相应第一峰度度量，并且

将所获得的第一峰度度量与第一预定义峰度阈值进行比较；以及

如果所述第一峰度度量超过所述第一预定义峰度阈值，则确定所述言语帧包括言语咔嚓声事件，并且基于所述第一峰度度量上升到所述第一预定义峰度阈值以上和下降到所述第一预定义峰度阈值以下的相应位置来确定所述言语咔嚓声事件的开始边界和结束边界。

EEE 99.根据EEE 98所述的方法，其中，不具有言语谐波分量的所述残差近似是二阶波形差。

EEE 100.根据EEE 98或99所述的方法，进一步包括：

从所述言语帧的残差样本振幅获得第二峰度度量；

其中，基于相对于所述第一峰度度量的所述第二峰度度量来确定所述言语发音噪声事件的类型和范围。

EEE 101.根据EEE 98至100中任一项所述的方法，进一步包括：

通过以下操作精细化所确定的所述言语咔嚓声事件的范围：

在所确定的所述言语咔嚓声事件的范围内定位具有最大二阶差的样本位置；以及

通过在所定位的样本位置周围应用预定义言语咔嚓声事件持续时间来确定所述言语咔嚓声事件的精细化范围。

EEE 102.根据EEE 98至101中任一项所述的方法，进一步包括：

进一步基于从所述言语帧中的局部最小值和局部最大值计算的最小/最大变化速率来确定所述言语咔嚓声事件的范围。

EEE 103.根据EEE 93至102中任一项所述的方法，其中，从所述音频帧获得至少一个特征参数包括：

对于每个非言语帧，获得所述非言语帧中的时域样本振幅的相应第三峰度度量，并且

将所获得的第三峰度度量与第二预定义峰度阈值进行比较；以及

如果所述第三峰度度量超过所述第二预定义峰度阈值，则确定所述非言语帧包括非言语咔嚓声事件；并且基于所述第三峰度度量上升到所述第二预定义峰度阈值以上和下降到所述第二预定义峰度阈值以下的相应位置来确定所述非言语咔嚓声事件的开始边界和结束边界。

EEE 104.根据EEE 103所述的方法，进一步包括：

如果两个相邻非言语咔嚓声事件在预定义间隙阈值内，则将所述两个相邻非言语咔嚓声事件合并成单个言语咔嚓声事件。

EEE 105.根据EEE 103或104所述的方法，其中，

对于紧接在言语帧前面的非言语帧中确定的非言语咔嚓声事件：

将高/低频带峰值比率计算为高于预定义频率的最大峰值与低于所述预定义频率的最大峰值之间的振幅比率；并且

如果所计算的高/低频带峰值比率高于预定义比率阈值，则确定所述非言语咔嚓声事件为咂嘴事件。

EEE 106.根据EEE 105所述的方法，其中，将所述高/低频带峰值比率计算为高于预定义频率的最大峰值与低于所述预定义频率但高于另一预定义低频的最大峰值之间的振幅比率。

EEE 107.根据EEE 105或106所述的方法，进一步包括：

基于所述高/低频带峰值比率、频谱斜率和能量包络来精细化所确定的所述咂嘴事件的范围。

EEE 108.根据EEE 107所述的方法，其中，精细化所确定的所述咂嘴事件的范围包括：

只要满足以下条件，就扩展通过使用所述第三峰度度量来确定的所述咂嘴事件的结束位置：所述高/低频带峰值比率高于所述预定义比率阈值，所述频谱斜率低于预定义斜率阈值，并且所述能量包络中的能量减少。

EEE 109.根据EEE 93至102中任一项所述的方法，进一步包括：

进一步基于根据另一预定义阈值为所述言语帧计算的重心COG来确定所述言语发音噪声事件，以区分嘴巴咔嚓声事件与言语瞬态。

EEE 110.根据EEE 98至109中任一项所述的方法，进一步包括：

基于相应频谱增益来衰减所确定的一个或多个嘴巴咔嚓声事件，所述相应频谱增益是从包含所检测到的嘴巴咔嚓声事件的所述音频帧的频谱包络和基于相应参考帧来计算的目标包络得到的。

EEE 111.根据EEE 110所述的方法，其中，对于每个检测到的嘴巴咔嚓声事件，所述参考帧包括在包含所述检测到的嘴巴咔嚓声事件的所述音频帧之前和其之后的音频帧；并且其中，通过内插所述参考帧的频谱包络来计算所述目标包络。

EEE 112.根据EEE 110或111所述的方法，其中，针对高于预定义高频阈值的频带应用所述衰减。

EEE 113.根据EEE 98至109中任一项所述的方法，进一步包括：

基于相应的相邻音频帧来替换所确定的一个或多个嘴巴咔嚓声事件。

EEE 114.根据EEE 91所述的方法，其中，所述言语发音噪声事件包括至少一个言语爆破音事件；并且其中，从所述音频帧获得至少一个特征参数包括：

针对所述音频帧中的每一个获得相应的低频能量LFE度量，以识别其离群值。

EEE 115.根据EEE 114所述的方法，其中，在所述时域中或在所述频谱域中计算所述LFE度量。

EEE 116.根据EEE 114或115所述的方法，进一步包括：

根据从所述LFE度量识别的所述离群值和基于所述LFE度量计算的阈值或根据从先前和当前音频帧计算的LFE比率来确定所述言语爆破音事件的范围。

EEE 117.根据EEE 116所述的方法，进一步包括：

针对所述音频帧中的每一个获得相应的过零最大值ZCM度量，以精细化已基于所述LFE度量确定的所述言语爆破音事件的范围，

其中，所述ZCM度量指示在所述音频帧内的连续过零点的最大间隔的长度。

EEE 118.根据EEE 116或117所述的方法，进一步包括：

衰减所确定的言语爆破音事件，其中，在所述时域中或在所述频谱域中执行所述衰减。

EEE 119.根据EEE 118所述的方法，其中，通过应用高通滤波器来执行时域衰减，其中，基于在所确定的言语爆破音事件的范围内的所述音频帧的ZCM度量确定所述滤波器的截止频率；并且其中，基于在所确定的言语爆破音事件的范围内的所述音频帧的LFE度量确定所述滤波器的阶数。

EEE 120.根据EEE 118所述的方法，其中，通过使用具有自适应频谱斜率和频率的重叠相加短时傅里叶变换STFT来执行频谱域衰减。

EEE 121.根据EEE 118或120所述的方法，其中，所述频谱域衰减涉及用快速傅里叶变换FFT处理所述音频帧、以自适应斜率和频率应用衰减增益、应用逆FFT、窗口化和重叠相加，以便产生衰减后的输出音频信号；其中，基于在所确定的言语爆破音事件的范围内的所述音频帧的ZCM度量确定所述频率；并且其中，基于在所确定的言语爆破音事件的范围内的所述音频帧的LFE度量确定所述斜率。

EEE 122.根据EEE 121所述的方法，进一步包括：

应用噪声频谱估计来限制所述衰减增益以防止过抑制。

EEE 123.根据EEE 114至122中任一项所述的方法，进一步包括：

将内容分类器应用于所述音频帧以区分言语帧与非言语帧以便确定所述言语爆破音事件。

EEE 124.根据EEE 118所述的方法，其中，所述频谱域衰减涉及：

通过使用分析滤波器组来产生低于预定义频率阈值的多个近似等效矩形带宽ERB间隔频带和高于所述预定义频率阈值的多个频带，所述预定义频率阈值在所确定的言语爆破音事件的频率范围内；

将多个衰减增益分别应用于所述频带中的每一个频带中的音频信号，其中，所述衰减增益是基于针对所述频带计算的能量来计算的；以及

将所衰减后的音频样本馈送到合成滤波器组以生成输出音频信号。

EEE 125.根据EEE 124所述的方法，其中，每个频带中的所述衰减增益被进一步约束为不使所述频带的能量降低到所述频带中的估计本底噪声以下。

EEE 126.根据EEE 125所述的方法，进一步包括：

计算高于所估计本底噪声的音频样本的时间平滑低频能量估计值，以区分所述输入音频信号中的言语爆破音事件与更高频内容。

EEE 127.根据EEE 126所述的方法，进一步包括：

计算所述输入音频信号的频谱中的言语谐波保护度量；以及

根据所述言语谐波保护度量和所述时间平滑低频能量估计值来计算所述衰减增益。

EEE 128.根据EEE 127所述的方法，其中，所述言语谐波保护度量是周期性度量或调性度量。

EEE 129.根据EEE 128所述的方法，其中，在所述分析滤波器组的最终频带计算之前从所述音频样本的倒谱计算所述频谱中的所述周期性度量。

EEE 130.根据EEE 128所述的方法，其中，在所述分析滤波器组的最终频带计算之前基于与正弦峰值的主瓣相比较的频谱峰值的主瓣来计算所述频谱中的所述调性度量。

EEE 131.根据EEE 127至130中任一项所述的方法，进一步包括：

基于紧邻的频率更低的频带来进一步约束所计算的衰减增益。

EEE 132.一种对输入音频信号执行自动音频增强以检测和/或衰减包含在其中的至少一个言语发音噪声事件的方法，所述言语发音噪声事件包括至少一个言语爆破音事件，所述方法包括：

通过使用分析滤波器组来产生低于预定义频率阈值的多个近似等效矩形带宽ERB间隔频带和高于所述预定义频率阈值的多个频带，所述预定义频率阈值在所述言语爆破音事件的频率范围内；

EEE 133.根据EEE 132所述的方法，其中，每个频带中的所述衰减增益被进一步约束为不使所述频带的能量降低到所述频带中的估计本底噪声以下。

EEE 134.根据EEE 133所述的方法，进一步包括：

EEE 135.根据EEE 132或EEE 134所述的方法，进一步包括：

计算所述输入音频信号的频谱中的言语谐波保护度量；以及

EEE 136.根据EEE 135所述的方法，其中，所述言语谐波保护度量是周期性度量或调性度量。

EEE 137.根据EEE 136所述的方法，其中，在所述分析滤波器组的最终频带计算之前从所述音频样本的倒谱计算所述频谱中的所述周期性度量。

EEE 138.根据EEE 136所述的方法，其中，在所述分析滤波器组的最终频带计算之前基于与正弦峰值的主瓣相比较的频谱峰值的主瓣来计算所述频谱中的所述调性度量。

EEE 139.根据EEE 132至138所述的方法，进一步包括：

EEE 140.根据EEE 132至139中任一项所述的方法，其中，以预定义前瞻帧大小连续地处理所述输入音频信号。

EEE 141.一种装置，包括处理器和耦接到所述处理器的存储器，其中，所述处理器适于使所述装置执行根据前述EEE中任一项所述的方法。

EEE 142.一种程序，包括指令，所述指令当由处理器执行时使所述处理器执行根据EEE 88至140中任一项所述的方法。

EEE 143.一种计算机可读存储介质，存储有根据EEE 142所述的程序。

Claims

1.一种对包括至少一个言语发音噪声事件的输入音频信号执行自动音频增强的方法，所述方法包括：

将所述输入音频信号分割成多个音频帧；

从所述音频帧获得至少一个特征参数；以及

2.根据权利要求1所述的方法，其中，所确定的范围包括所确定的言语发音噪声事件在时域和/或频谱域中的至少一个边界。

3.根据权利要求1或2所述的方法，进一步包括：

根据所述言语发音噪声事件的所确定的类型和范围来衰减所述言语发音噪声事件。

4.根据前述权利要求中任一项所述的方法，其中，所述言语发音噪声事件包括以下中的至少一项：嘴巴咔嚓声事件或言语爆破音事件。

5.根据权利要求4所述的方法，其中，所述言语发音噪声事件包括一个或多个嘴巴咔嚓声事件；并且其中，所述一个或多个嘴巴咔嚓声事件包括以下中的至少一项：非言语咔嚓声事件、言语咔嚓声事件或咂嘴事件。

6.根据权利要求5所述的方法，其中，在将所述输入音频信号分割成多个音频帧之后，所述方法进一步包括：

将所述音频帧分类为言语帧或非言语帧。

7.根据权利要求6所述的方法，其中，通过使用语音活动检测器VAD来识别所述输入音频信号并将所述输入音频信号分割成所述言语帧和所述非言语帧。

8.根据权利要求5至7中任一项所述的方法，其中，通过使用两个不同的窗口大小来执行所述分割，所述两个窗口大小中的一个短于另一个。

9.根据权利要求8当从属于权利要求6或7时所述的方法，其中，较短窗口大小用于检测所述言语帧中的言语咔嚓声事件，并且较长窗口大小用于检测所述非言语帧中的非言语咔嚓声事件。

10.根据权利要求4至9中任一项所述的方法，其中，从所述音频帧获得至少一个特征参数包括：

将所获得的峰度度量与预定义峰度阈值进行比较；以及

11.根据权利要求6至10中任一项所述的方法，其中，从所述音频帧获得至少一个特征参数包括：

12.根据权利要求11所述的方法，其中，不具有言语谐波分量的所述残差近似是二阶波形差。

13.根据权利要求11或12所述的方法，进一步包括：

从所述言语帧的残差样本振幅获得第二峰度度量；

14.根据权利要求11至13中任一项所述的方法，进一步包括：

通过以下操作精细化所确定的所述言语咔嚓声事件的范围：

15.根据权利要求11至14中任一项所述的方法，进一步包括：

16.根据权利要求6至15中任一项所述的方法，其中，从所述音频帧获得至少一个特征参数包括：

17.根据权利要求16所述的方法，进一步包括：

18.根据权利要求16或17所述的方法，其中，

19.根据权利要求18所述的方法，其中，将所述高/低频带峰值比率计算为高于预定义频率的最大峰值与低于所述预定义频率但高于另一预定义低频的最大峰值之间的振幅比率。

20.根据权利要求18或19所述的方法，进一步包括：

21.根据权利要求20所述的方法，其中，精细化所确定的所述咂嘴事件的范围包括：

22.根据权利要求6至15中任一项所述的方法，进一步包括：

23.根据权利要求11至22中任一项所述的方法，进一步包括：

24.根据权利要求23所述的方法，其中，对于每个检测到的嘴巴咔嚓声事件，所述参考帧包括在包含所述检测到的嘴巴咔嚓声事件的所述音频帧之前和其之后的音频帧；并且其中，通过内插所述参考帧的频谱包络来计算所述目标包络。

25.根据权利要求23或24所述的方法，其中，针对高于预定义高频阈值的频带应用所述衰减。

26.根据权利要求11至22中任一项所述的方法，进一步包括：

27.根据权利要求4所述的方法，其中，所述言语发音噪声事件包括至少一个言语爆破音事件；并且其中，从所述音频帧获得至少一个特征参数包括：

28.根据权利要求27所述的方法，其中，在所述时域中或在所述频谱域中计算所述LFE度量。

29.根据权利要求27或28所述的方法，进一步包括：

30.根据权利要求29所述的方法，进一步包括：

31.根据权利要求29或30所述的方法，进一步包括：

32.根据权利要求31所述的方法，其中，通过应用高通滤波器来执行时域衰减，其中，基于所确定的言语爆破音事件的范围内的所述音频帧的ZCM度量确定所述滤波器的截止频率；并且其中，基于在所确定的言语爆破音事件的范围内的所述音频帧的LFE度量确定所述滤波器的阶数。

33.根据权利要求31所述的方法，其中，通过使用具有自适应频谱斜率和频率的重叠相加短时傅里叶变换STFT来执行频谱域衰减。

34.根据权利要求31或33所述的方法，其中，所述频谱域衰减涉及用快速傅里叶变换FFT处理所述音频帧、以自适应斜率和频率应用衰减增益、应用逆FFT、窗口化和重叠相加，以便产生衰减后的输出音频信号；其中，基于在所确定的言语爆破音事件的范围内的音频帧的ZCM度量确定所述频率；并且其中，基于在所确定的言语爆破音事件的范围内的音频帧的LFE度量确定所述斜率。

35.根据权利要求34所述的方法，进一步包括：

应用噪声频谱估计来限制所述衰减增益以防止过抑制。

36.根据权利要求27至35中任一项所述的方法，进一步包括：

37.根据权利要求31所述的方法，其中，所述频谱域衰减涉及：

38.根据权利要求37所述的方法，其中，每个频带中的所述衰减增益被进一步约束为不使所述频带的能量降低到所述频带中的估计本底噪声以下。

39.根据权利要求38所述的方法，进一步包括：

40.根据权利要求39所述的方法，进一步包括：

计算所述输入音频信号的频谱中的言语谐波保护度量；以及

41.根据权利要求40所述的方法，其中，所述言语谐波保护度量是周期性度量或调性度量。

42.根据权利要求41所述的方法，其中，在所述分析滤波器组的最终频带计算之前根据所述音频样本的倒谱计算所述频谱中的所述周期性度量。

43.根据权利要求41所述的方法，其中，在所述分析滤波器组的最终频带计算之前基于与正弦峰值的主瓣相比较的频谱峰值的主瓣来计算所述频谱中的所述调性度量。

44.根据权利要求40至43中任一项所述的方法，进一步包括：

基于紧邻的更低频率的频带来进一步约束所计算的衰减增益。

45.一种对输入音频信号执行自动音频增强以检测和/或衰减包含在其中的至少一个言语发音噪声事件的方法，所述言语发音噪声事件包括至少一个言语爆破音事件，所述方法包括：

46.根据权利要求45所述的方法，其中，每个频带中的所述衰减增益被进一步约束为不使所述频带的能量降低到所述频带中的估计本底噪声以下。

47.根据权利要求46所述的方法，进一步包括：

48.根据权利要求45和47所述的方法，进一步包括：

计算所述输入音频信号的频谱中的言语谐波保护度量；以及

49.根据权利要求48所述的方法，其中，所述言语谐波保护度量是周期性度量或调性度量。

50.根据权利要求49所述的方法，其中，在所述分析滤波器组的最终频带计算之前从所述音频输入样本的倒谱计算所述频谱中的所述周期性度量。

51.根据权利要求49所述的方法，其中，在所述分析滤波器组的最终频带计算之前基于与正弦峰值的主瓣相比较的频谱峰值的主瓣来计算所述频谱中的所述调性度量。

52.根据权利要求45至51所述的方法，进一步包括：

53.根据权利要求45至52中任一项所述的方法，其中，以预定义前瞻帧大小连续地处理所述输入音频信号。

54.一种装置，包括处理器和耦接到所述处理器的存储器，其中，所述处理器适于使所述装置执行根据前述权利要求中任一项所述的方法。

55.一种程序，包括指令，所述指令当由处理器执行时使所述处理器执行根据权利要求1至53中任一项所述的方法。

56.一种计算机可读存储介质，存储有根据权利要求55所述的程序。