CN114127848A

CN114127848A - 基于检测音频信号中的特定声音来调整齿音检测

Info

Publication number: CN114127848A
Application number: CN202080051216.4A
Authority: CN
Inventors: 马远星; 李凯; 房倩倩
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-07-17
Filing date: 2020-07-16
Publication date: 2022-03-01
Also published as: EP4000064B1; WO2021011814A3; EP4000064A2; JP2022532959A; US20220383889A1; JP7350973B2; WO2021011814A2

Abstract

本文公开了一种用于调整齿音检测器的参数的方法。从正在接收的音频信号中提取时频特征。基于这些时频特征，确定音频信号是否包括短期特征或长期特征。根据确定音频信号包括短期特征或长期特征，对用于检测音频信号中的齿音的齿音检测器的一个或多个参数进行调整。使用具有一个或多个经调整的参数的齿音检测器来检测音频信号中的齿音。

Description

基于检测音频信号中的特定声音来调整齿音检测

相关申请的交叉引用

本申请要求于2019年8月8日提交的美国临时申请号62/884,320和2019年7月17日提交的国际申请号PCT/CN 2019/096399的优先权，其中每个均通过援引并入本文。

技术领域

本公开的实施例总体上涉及音频信号处理，并且更具体地涉及齿音(sibilance)检测的调整。

背景技术

在语音学中，齿音是指具有强烈重读的摩擦辅音(例如，s、sh、ch、z、v和f)的言语。这些辅音是当通过声道的空气受到舌头和嘴唇的位置限制时产生的。音频信号中的齿音通常在4kHz(“千赫兹”)到12kHz的频率范围内，这取决于各说话的人。如果齿音的能量高，则言语将具有不自然的刺耳感，这将降低音频信号的质量并使收听者感到厌烦。

发明内容

所公开的实施例检测音频信号中的短期特征和长期特征并且调整齿音检测，以避免将特征误认为音频信号中的过度齿音。所公开的系统和方法的优点在于，通过不抑制可能是音频内容的期望部分的短期特征或长期特征来保持音频信号的质量。所公开的系统和方法对于低保真度设备特别有用，如对高频具有较差麦克风频率响应的低质量头戴式设备或具有低质量扬声器的移动设备。

在一些方面，本公开描述了一种用于调整齿音参数并且在齿音检测中使用经调整的齿音参数的方法。系统接收音频信号(例如，电影配乐、音乐、用户生成的音频或播客)并且从音频信号中提取多个时频特征(例如，多个频带的能量数据)，时频特征包括短期特征(如冲击音(例如，枪声)和/或平摩擦音(例如，字母“f”音))和/或长期特征(如经平滑的频谱平衡特征)。根据确定输入信号包括短期特征和/或长期特征，系统对用于检测音频信号中的齿音的齿音检测器的一个或多个参数进行调整。使用具有一个或多个经调整的参数的齿音检测器，系统继续检测音频信号中的齿音并且使用多频带压缩器抑制齿音，或者将检测到的齿音用于任何其他期望的应用。在实施例中，使用基于监督或无监督机器学习的分类器(例如，神经网络)来实施齿音检测器，所述分类器在具有一个或多个短期特征和/或长期特征的音频样本上被训练。

这些和其他方面、特征和实施例可以被表达为用于执行功能的方法、装置、系统、部件、程序产品、构件或步骤，并且可以以其他方式表达。

通过以下描述，包括权利要求，这些和其他方面、特征和实施例将变得显而易见。

附图说明

在附图中，为了便于描述，示出了示意性元件的特定布置或排序，如那些表示设备、模块、指令块和数据元素的示意性元件。然而，本领域技术人员应当理解，附图中示意性元件的特定排序或布置并不意味着需要特定的处理次序或顺序、或者过程的分离。进一步地，在附图中包括示意性元件并不意味着在所有实施例中都需要这种元件，或者在一些实施例中，由这种元件表示的特征可以不包括在其他元件中或与其他元件组合。

进一步地，在使用如实线或虚线或箭头等连接元件来说明两个或更多个其他示意性元件之间的连接、关系或关联的附图中，不存在任何这种连接元件并不意味着不能存在连接、关系或关联。换句话说，元件之间的一些连接、关系或关联没有在附图中示出，以免混淆本公开。另外，为了便于说明，使用单个连接元件来表示元件之间的多种连接、关系或关联。例如，在连接元件表示信号、数据或指令的通信的情况下，本领域技术人员应当理解，这种元件表示可能需要的用于影响通信的一个或多个信号路径。

图1A是根据本公开的一些实施例的调整用于齿音检测的参数的系统的框图。

图1B是根据本公开的一些实施例的调整用于齿音检测的参数的系统的框图，所述系统包括冲击音检测器和平摩擦音检测器。

图2图示了根据本公开的一些实施例的用于调整在齿音检测中使用的参数的动作。

图3图示了根据本公开的一些实施例的齿音检测模块为检测冲击音而执行的动作。

图4图示了根据本公开的一些实施例的齿音检测模块为检测平摩擦音而执行的动作。

图5图示了根据本公开的一些实施例的用于进一步确定是否存在齿音的动作。

图6图示了根据本公开的一些实施例的可以在齿音抑制中使用的齿音抑制曲线。

图7是根据本公开的一些实施例的用于实施齿音检测的框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了许多具体细节以提供对本公开的透彻理解。然而，明显的是，可以在没有这些具体细节的情况下实践本公开。

现在将详细参考实施例，附图中图示了这些实施例的示例。在以下详细说明中，阐述了许多具体细节以便提供对所描述的各种实施例的透彻理解。然而，对于本领域普通技术人员而言将明显的是，可以在没有这些具体细节的情况下实践所描述的各种实施例。在其他实例中，并未详细描述公知的方法、程序、部件和电路以免不必要地模糊实施例的各方面。下文描述了若干特征，每个特征可以彼此独立使用或者与其他特征的任何组合一起使用。

如本文所使用的，术语“包括”及其变型将被理解为意指“包括但不限于”的开放式术语。除非上下文另外明确指出，否则术语“或”将被理解为“和/或”。术语“基于”将被理解为“至少部分地基于”。

图1A和图1B是根据本公开的一些实施例的调整用于检测齿音的参数的系统100的框图。系统100包括变换模块110、分带(banding)模块120、齿音检测模块130、多频带压缩器140和逆变换模块150。图1A包括用于检测音频信号中的短期特征的短期特征检测器131。在一些实施例中，短期特征包括对于如打击乐器的敲击声或枪声等瞬时声音的检测。这些声音通常持续时间短，有时约为五毫秒。图1B包括短期特征检测器的两个示例。冲击音检测器132用于检测冲击音，如枪声、如铙钹等打击乐器的敲击声，而平摩擦语音检测器136用于检测平摩擦音(例如，字母v音、字母t音、字母f音或“th”音)。在一些实施例中，冲击音检测器132和平摩擦语音检测器136被组合成单个检测器模块。

变换模块110被配置成接收音频信号并且将音频信号变换到期望的变换域。在一些实施例中，音频信号包括言语和非言语声音。为了执行齿音参数调整，变换模块110对音频信号的帧执行变换操作(例如，使用滤波器组)，以将音频信号变换成频域中的多个频谱特征带。例如，变换模块110可以执行快速傅立叶变换(FFT)、改进的离散余弦变换(MDCT)、正交镜像滤波器(QMF)或另外的变换算法来将音频信号从时域变换到频域或时频域。在一些实施例中，变换模块输出多个等距间隔的频率仓。

分带模块120执行分带操作，该分带操作将变换模块110的输出(例如，由变换模块110生成的频率仓)分组或聚集成多个频带(例如，等效矩形带宽(“ERB”)频带)。在一些实施例中，在分带模块中使用1/3倍频程滤波器组。频带包括齿音频带(例如，从约4kHz到约12kHz)和非齿音频带(例如，低于4kHz和从约12kHz到约16kHz)。在实施例中，齿音检测模块130包括短期特征检测器131、短期齿音检测器134和长期齿音检测器136，如图1A所示。齿音检测模块130及其部件将在本公开中进一步详细讨论。多频带压缩器140根据齿音检测模块130的输出修改应用于齿音带和/或非齿音带的增益。在一些实施例中，特定带上的增益被映射成要应用于由变换模块(110)输出的频率仓的子集上的增益。在应用增益之后，频带被输入到逆变换模块150，在所述逆变换模块中频带被变换回时域。时域音频信号然后被发送到一个或多个输出设备(例如，扬声器系统、存储设备)。

本公开中执行的动作将被描述为由齿音检测模块执行。应当注意，齿音检测模块可以包括软件、硬件或两者的组合。可以用于实施系统100的硬件的示例实施例关于图7进一步描述。尽管下文描述的示例实施例包括分别提供短期特征的冲击音检测和平摩擦音检测，但是实施例可以使用任何检测到的短期特征。

图1B是根据本公开的一些实施例的调整用于齿音检测参数的系统的框图，所述系统包括冲击音检测器和平摩擦音检测器。

图2图示了用于调整在齿音检测中使用的参数的动作。在202处，齿音检测模块130接收音频信号。音频信号通过变换模块110和分带模块120进行接收和处理。如上文所讨论的，变换模块110将音频信号从时域变换到频域，并且分带模块120将变换模块110的输出分组或聚集成多个频带，包括齿音频带和非齿音频带。

在204处，齿音检测模块130从音频信号中提取多个时频特征。这些特征包括音频信号的特定帧的齿音频带中的每个频带的能量水平。在206处，齿音检测模块130使用多个时频特征来确定音频信号是否包括冲击音或平摩擦音。齿音检测模块130被配置成根据模块可用的资源来并行或串行地检测冲击音和平摩擦音。

在包括冲击音检测器132的实施例中，冲击音检测器132确定音频信号是否包括冲击音。冲击音检测器132可以包括软件部件和硬件部件两者。在一些实施例中，使用短期时频特征(例如，约5毫秒)来检测冲击音。

图3图示了齿音检测模块130为检测冲击音而执行的动作。在302处，对于音频信号中的第一时间间隔，齿音检测模块130计算一个或多个齿音频带中的第一总功率和一个或多个非齿音频带中的第二总功率。在实施例中，齿音检测模块120使用等式1(下文)来执行齿音频带的计算：

其中b是齿音频带的数量，P_b是齿音频带b中的功率，并且n是第一时间间隔(例如，当前帧或当前时间段)。在实施例中，齿音检测模块130使用等式2(下文)来对非齿音频带执行计算：

其中b是非齿音频带的数量，P_b是非齿音频带b中的功率，并且n是第一时间间隔(例如，当前帧或当前时间段)。如上文所讨论的，齿音频带包括约4kHz与约12kHz之间的频率，并且非齿音频带包括约4kHz以下和约12kHz与约16kHz之间的频率。

在304处，对于第二时间间隔(例如，更早的时间间隔)，齿音检测模块130确定一个或多个齿音频带中的第三总功率和一个或多个非齿音频带中的第四总功率。例如，在实施例中，齿音检测模块130使用等式3(下文)来对先前时间间隔(例如，先前帧)的齿音频带执行计算：

其中b是齿音频带的数量，P_b是齿音频带b中的功率，n是第一时间间隔(例如，当前帧或时间段)，并且k是使[n-k]成为先前时间间隔(例如，先前帧)的整数。在一些实施例中，k是一到三范围内的整数。

在实施例中，齿音检测模块130使用等式4(下文)来对先前时间间隔(例如，先前帧)的非齿音频带执行计算：

其中b是非齿音频带的数量，P_b是非齿音频带中的功率，n是第一时间间隔(例如，当前帧或时间段)，并且k是使[n-k]成为先前时间间隔(例如，先前帧或时间段)的整数。在一些实施例中，k是一到三范围内的整数。

在306处，齿音检测模块130基于第一总功率与第三总功率之间的差值来确定第一通量值，并且基于第二总功率与第四总功率之间的差值来确定第二通量值。例如，在实施例中，齿音检测模块130使用等式5(下文)来计算第一通量值：

其中P_{sib_bands}[n]是时间间隔n(例如，当前时间间隔或当前帧)的齿音频带的总功率，并且

是先前时间间隔[n-k]的齿音频带的总功率，其中k可以是一到三之间的整数。在一些实施例中，k可以是更大的整数。

在实施例中，齿音检测模块130使用等式6(下文)来计算第二通量值：

S_{non_sib_bands}[n]＝P_{non_sib_bands}[n]-P_{non_sib_bands}[n-k] 等式6

其中P_{non_sib_bands}[n]是时间间隔n(例如，当前时间间隔或当前帧)的非齿音频带的总功率，并且P_{non_sib_bands}[n-k]是先前时间间隔[n-k]的非齿音频带的总功率，其中k是一到三之间的整数。在一些实施例中，k可以是更大的整数。

在308处，齿音检测模块130确定第一通量值是否满足第一阈值以及第二通量值是否满足第二阈值。如果第一通量值和第二通量值两者都满足其各自的阈值，则过程300移动到310，在所述310处，齿音检测模块130确定存在冲击音。如果第一通量值或第二通量值中的一者不满足其各自的阈值，则过程300移动到312，在所述312处，齿音检测模块130确定不存在冲击音。等式7(下文)的逻辑举例说明了关于是否存在冲击音的确定：

其中S_{sib_bands}[n]是时间间隔n(例如，当前帧)的齿音频带的通量值，Th_{sib_band}是齿音频带的阈值，S_{non_sib_bands}[n]是非齿音频带的通量值，并且Thnon_sib_band是非齿音频带的阈值。在一些实施例中，阈值为十分贝(“dB”)。在一些实施例中，如果I[n]＝1，则齿音检测模块130确定存在冲击音。如果I[n]＝0，则齿音检测模块130确定不存在冲击音。

在一些实施例中，在输出是否检测到冲击音的决定之前，齿音检测模块130对等式7所输出的值应用平滑。等式8(下文)的逻辑举例说明了平滑操作：

其中α_A是起音时间(attacktime)常数，其在一些实施例中的值为0秒，并且α_R是释放时间常数，其在一些实施例中的值为一秒。因此，I_smooth[n]是冲击音检测器132的输出(即，R_ISD[n]＝I_smooth[n])。

在一些实施例中，起音时间常数和释放时间常数基于冲击音的类型进行调整。例如，一种类型的冲击音可以比另一种类型的冲击音长。在这种情况下，可以增加释放时间常数。在另一个示例中，一种类型的冲击音在声音开始时能量较低(例如，低于阈值)，因此，增加起音时间常数。

在一些实施例中，齿音检测模块130基于时频特征来识别冲击音的类型。在一些实施例中，齿音检测模块120能够访问已知冲击音和对应的能量和/或通量水平。也就是说，给定的声音可以在齿音频带和非齿音频带两者中具有一组特定的能量和/或通量水平。在一些实施例中，这些能量水平和/或通量水平被存储并与检测到的冲击音的能量水平和/或通量水平进行比较。针对所有已知冲击音重复所述比较以识别接收到的冲击音。

在一些实施例中，齿音检测模块130基于齿音频带和非齿音频带中的通量，使用齿音频带和非齿音频带的不同阈值来识别冲击音的类型。例如，每个已知冲击音可以与特定齿音阈值和特定非齿音阈值相关联。因此，冲击音类型A的齿音阈值可以为15dB并且非齿音阈值可以为8dB。冲击音B的齿音频带阈值可以为20dB并且非齿音频带阈值可以为15dB。因此，当计算齿音频带和非齿音频带两者的通量值时，将这些通量值与每个已知冲击音的通量值进行比较以确定是哪种冲击音。例如，最接近的齿音和非齿音阈值匹配可以被用于确定冲击音的类型。等式9(下文)的逻辑举例说明了冲击音检测。

其中S_{sib_bands}[n]是时间间隔n(例如，当前帧)的齿音频带的通量值，Th_{sib_bandA}是A型冲击音的齿音频带的阈值，S_{non_sib_bands}[n]是非齿音频带的通量值，并且Th_{non_sib-bandA}是非齿音频带的阈值。另外，Th_{sib_bandB}是B型冲击音的齿音频带的阈值，并且Th_{non_sib_bandB}是B型冲击音的非齿音频带的阈值。

在一些实施例中，齿音检测模块130使用计数器从冲击音检测器132生成输出。等式10(下文)的逻辑举例说明了使用计数器从冲击音检测器132生成输出：

其中W_countdown是预设倒数值，n是当前时间段(例如，当前帧)。在一些实施例中，值取决于采样率和帧大小。在一些实施例中，倒数持续时间等于一秒。等式11(下文)的逻辑举例说明了使用倒数从冲击音检测器132的输出：

其中I_count[n]是等式10的计数器的输出。

在一些实施例中，齿音检测模块130使用平摩擦语音检测器136来确定音频信号是否包括平摩擦音。在一些实施例中，平摩擦语音检测器136包括软件部件和硬件部件两者。在一些实施例中，使用短期时频特征(例如，约5毫秒)来检测平摩擦音。通常，与齿音声音(例如，具有过度或刺耳的齿音的那些声音)相比，平摩擦音/言语具有平坦频谱。在一些实施例中，齿音频谱平坦度通过将功率频谱的几何平均值除以功率频谱的算术平均值来计算。因此，可以基于齿音频谱平坦度度量(“SSFM”)来检测平摩擦音。在一些实施例中，齿音检测模块130使用等式12(下文)来计算SSFM：

其中X(k)是频带索引k的齿音语音频带频谱，并且K是频带的数量。在一些实施例中，齿音检测模块120使用相邻的齿音频带中的功率的方差和/或标准偏差来确定是否存在平摩擦音。在一些实施例中，齿音检测模块120使用齿音频带中的功率的峰值-均值比(peak-to-average ratio)或峰值-中值比(peak-to-median ratio)来确定是否存在平摩擦音。在又一些实施例中，齿音检测模块120使用齿音频带中的功率的谱熵来确定是否存在平摩擦音。等式13(下文)的逻辑说明了平摩擦语音检测器136的输出：

其中Th_SSFM是用于检测的阈值。因此，如果SSFM的输出大于阈值，则齿音检测模块130确定存在平摩擦音。

图4图示了齿音检测模块130为检测平摩擦音而执行的动作。在402处，齿音检测模块130基于齿音语音频带频谱和频带数量来计算齿音频谱平坦度度量。在一些实施例中，齿音检测模块130使用等式12来执行计算。在404处，齿音检测模块130取得(例如，从关于图7所讨论的存储器中)齿音频谱平坦度阈值。在406处，齿音检测模块130将齿音频谱平坦度度量与齿音频谱平坦度阈值进行比较。在408处，齿音检测模块130确定齿音频谱平坦度度量是否满足齿音频谱平坦度阈值。如果齿音频谱平坦度度量满足齿音频谱平坦度阈值，则过程400移动到410，在所述410处，齿音检测模块130确定存在平摩擦音。如果齿音频谱平坦度度量不满足齿音频谱平坦度阈值，则过程400移动到412，在所述412处，齿音检测模块130确定不存在平摩擦音。

返回图2的过程200，在208处，根据确定输入信号包括冲击音或平摩擦音，齿音检测模块130对用于检测音频信号中的齿音的齿音检测的一个或多个参数进行调整。在一些实施例中，在208处，齿音检测模块基于来自短期特征检测器131的输出，调整用于检测音频信号中的齿音的齿音检测的一个或多个参数。例如，短期特征检测器可以包括一个或多个检测器(例如，冲击音检测器、平摩擦音检测器和其他合适的检测器)。短期特征检测器131的输出被输入到短期齿音检测器134中。在一些实施例中，齿音检测模块130基于由确定是否检测到冲击音而产生的输出值和由确定是否检测到平摩擦音而产生的输出值来调整齿音检测阈值。在又一些实施例中，齿音检测模块130基于短期特征检测器131的任何合适特征的输出调整齿音检测阈值。齿音检测模块130在短期齿音检测操作中使用齿音检测阈值。因此，在210处，齿音检测模块130使用具有一个或多个经调整的参数的齿音检测来检测音频信号中的齿音。

如上文所讨论的，齿音检测模块包括短期齿音检测器134。在一些实施例中，上文所描述的动作由短期齿音检测器134执行。在那些实施例中，短期齿音检测器134使用来自冲击音检测器132、平摩擦语音检测器136和/或短期特征检测器131的任何其他部件的输出，确定是否存在需要被抑制的齿音类型。短期齿音检测器134可以是软件、硬件或软件和硬件的组合。在一些实施例中，齿音检测模块130(例如，使用短期齿音检测器134)计算频谱平衡特征，将所述频谱平衡特征与阈值(例如，基于包括冲击音检测器132、平摩擦语音检测器136和/或任何其他合适的检测器的短期特征检测器的输出的阈值)进行比较，以确定音频信号中是否存在齿音。

在本文中，术语“频谱平衡”是指信号能量在语音频带上的平衡性质。在一些情况下，频谱平衡表征信号能量在整个语音频带上的平衡程度。本文所使用的术语“语音频带”意指语音信号所在的且例如范围从大约0kHz到大约16kHz的频带。由于齿音具有特殊的频谱分布特征(即，齿音语音通常集中在某个频带)，因此频谱平衡特征对于区分非齿音语音和齿音语音是有用的。

在一些实施例中，频谱平衡特征是基于齿音频带中的信号能量和整个语音频带中的信号能量获得的。具体地，频谱平衡特征可以被计算为齿音频带中的信号能量与整个语音频带中的信号能量之比。也就是说，频谱平衡特征可以被表示为所有齿音频带上的信号能量的总和与整个语音频带上的信号能量的总和之比。

在一些实施例中，频谱平衡特征是基于齿音频带中的信号能量和非齿音频带中的信号能量来计算的。在这种情况下，语音频带被分成两个部分：齿音频带和非齿音频带。也就是说，频带被分成两组频带，一组可以包含齿音的信号能量，而另一组不包含或几乎不包含齿音的信号能量。因此，频谱平衡特征被计算为两个频带上的信号能量之比。

在本公开的一些实施例中，频谱平衡特征是基于齿音频带和非齿音频带中的信噪比(SNR)来确定的。具体地，频谱平衡特征被确定为两个SNR之比。

在一些实施例中，齿音检测模块130使用短期检测器131(例如，冲击音检测器132和/或平摩擦语音检测器136)的输出计算用于与频谱平衡特征进行比较的阈值。在一些实施例中，齿音检测模块130使用冲击音检测器132的输出和平摩擦音检测器136的输出之中的较高值。例如，如果检测到冲击音并且来自冲击音检测器132的输出为一，但是未检测到平摩擦音并且来自平摩擦音检测器的输出为零，则齿音检测模块130使用值一作为短期齿音检测器134的输入。因此，在实施例中，齿音检测模块130使用等式14(下文)来确定阈值：

Th_STSD[n]＝Th_normal+f(R_FFVD[n]，R_ISD[n])·Th_aelta 等式14

其中Th_normal是未检测到冲击音或平摩擦音时使用的正常阈值。在一些实施例中，阈值为-5dB。Th_delta是正常阈值Th_normal与严格阈值Th_tight之间的差值，其中Th_tight的值可以为-1 dB。另外，f(R_FFVD[n]，R_ISD[n])可以是max(R_FFVD[n]，R_ISD[n])，其中RFFVD[n]表示来自平摩擦音检测器136的输出值，并且R_ISD[n]表示来自冲击音检测器132的输出值。也就是说，使用max函数来选择较高值。尽管等式14确定冲击音检测器132和平摩擦语音检测器136的输出的最大值，但是在一些实施例中，齿音检测模块确定任何短期特征检测的输出的最大值。

在一些实施例中，函数更复杂。例如，可以对短期检测器131的每个输出给予权重(例如，替代性地或另外地给予平摩擦音检测器136和冲击音检测器132)。如果短期特征检测器131的特定输出与语音相关并且在正在处理的音频信号部分中检测到语音，则对所述输出给予更大的权重。如果短期特征检测器131的特定输出与非语音相关并且在正在处理的音频信号部分中检测到语音，则对所述输出给予更小的权重。在一些实施例中，f(R_FFVD[n]，R_ISD[n])更复杂。例如，如果音频类型是言语，则给予平摩擦语音检测器136更多的权重，并且如果内容是非言语(例如，音乐、声音效果或另外合适的声音)，则给予冲击音检测器132更多的权重。在实施例中，齿音检测模块130使用等式15(下文)来确定要添加到等式14的值：

f(R_FFVD[n]，R_ISD[n])＝w_FFVD[n]·R_FFVD[n]+w_ISD[n]·R_ISD[n] 等式15

其中w_FFVD[n]和w_ISD[n]分别是对应于平摩擦语音检测器136的输出和冲击音检测器132的输出的权重。在一些实施例中，权重是基于来自内容类型分类器(例如，神经网络)的输出确定的。尽管等式15使用冲击音检测器132和平摩擦语音检测器136的输出的权重，但是在一些实施例中，齿音检测模块可以为任何短期特征检测的输出指派/使用权重。因此，在一些实施例中，等式15可以包括来自具有相关权重的其他短期特征检测器的结果。

在一些实施例中，当确定阈值时，齿音检测模块130使用阈值来确定是否存在齿音。在实施例中，齿音检测模块130使用等式16(下文)的逻辑来进行确定。

其中SPD[n]是频谱平衡特征并且Th_STSD[n]是由例如等式14确定的阈值。

在一些实施例中，齿音检测模块130将短期齿音检测器134的结果传输到多频带压缩器140。在一些实施例中，齿音检测模块130使用短期齿音检测器134的结果来执行长期齿音检测(例如，通过使用长期齿音检测器138)。在一些实施例中，对音频信号的较长部分(例如，大约200毫秒)执行长期齿音检测。在一些实施例中，齿音检测模块130使用参考图5描述的动作来进一步确定是否存在齿音。这些动作仅展示了长期齿音检测的示例。在一些实施例中，使用分类器(例如，神经网络)来执行长期齿音检测。例如，任何检测到的短期特征和适当的音频信号部分可以用作分类器的输入(例如，分类器可以被配置成获取短期特征、和音频信号的一部分)，并且分类器的输出是对关于是否存在齿音的确定。

在502处，齿音检测模块130访问短期齿音检测器134的输出。例如，短期齿音检测器134可以是输出是否检测到齿音的值(例如，一或零)的函数，并且还可以输出上文所讨论的频谱平衡特征。在504处，齿音检测模块130基于短期齿音检测器134是否检测到齿音来选择时间常数。在一些实施例中，如果在短期齿音检测器134中检测到齿音，则常数为0.2秒，并且如果在短期齿音检测器134中未检测到齿音，则常数为一秒。

在504处，齿音检测模块130使用所选的时间常数来计算频谱平衡特征的平滑版本。在实施例中，齿音检测模块130使用等式17的逻辑来进行计算：

其中α_s是由短期齿音检测器134检测齿音时使用的时间常数，即，R_STSD[n]＝1，并且α_ns是未检测到齿音时使用的时间常数。

在一些实施例中，非齿音平滑频谱平衡特征的结果由等式18(下文)给出：

R_NSSSPD[n]＝f(SPD_smooth[n]) 等式18

其中f(·)是与阈值的比较。在实施例中，齿音检测模块130使用等式19(下文)的逻辑进行计算：

其中Th_NSSSPD是阈值(例如，-12dB)。

在一些实施例中，f(·)是更复杂的函数，如等式20(下文)所示：

其中Th_NSSSPD1和Th_NSSSPD2是阈值(例如，值分别为-15dB和-12dB)并且SPD_smooth[n]是频谱平衡特征的平滑版本。

为了继续图5的过程500，齿音检测模块130确定频谱平衡特征的平滑版本是否满足阈值。在一些实施例中，如关于等式20所描述的，齿音检测模块130确定频谱平衡特征是否满足多个阈值。如果频谱平衡特征的平滑版本满足阈值，则过程500移动到510，在所述510处，齿音检测模块130确定存在齿音。如果频谱平衡特征的平滑版本不满足阈值，则过程500移动到512，在所述512处，齿音检测模块130确定不存在齿音。

在一些实施例中，长期齿音检测器138的输出包括短期齿音检测和长期齿音检测两者的结果。在一些实施例中，齿音检测模块130使用函数来确定长期齿音检测器138的输出。在实施例中，输出如等式21所示：

R_LTSD[n]＝f(R_STSD[n]，R_NSSSPD[n]) 等式21

其中R_STSD[n]和R_NSSSPD[n]分别是来自短期齿音检测器134和长期齿音检测器138的输出。例如，在等式21中，f(·)是R_STSD[n]和R_NSSSPD[n]的乘积。

在一些实施例中，短期齿音检测、长期齿音检测、或短期齿音检测和长期齿音检测两者的输出被用于齿音抑制。然而，本领域技术人员将理解，齿音抑制只是使用检测到的齿音的示例。例如，齿音检测模块130可以使用输出以控制多频带压缩器140。因此，动态调节多频带压缩器140的阈值以抑制音频信号中的齿音。在一些实施例中，等式21(下文)被用于齿音抑制：

Th_k[n]＝Th_static_k+a_kR_LTSD[n] 等式21

其中k在多频带压缩器140的齿音频带(例如，4kHz到10kHz)中，Th_static_k是频带k的静态阈值，并且a_k是频带k的动态调节值。在一些实施例中，动态调节在所有齿音频带上是相同的。在一些实施例中，对于一些齿音频带，动态调节是不同的。动态调节包括预设值、可调参数或其他合适的动态调节。可调参数可以用于适应设备(例如，移动设备)的各种特性。

在一些实施例中，齿音检测模块130基于短期特征和长期特征的组合来调整齿音检测器的一个或多个参数。齿音检测模块130确定一个或多个短期特征(例如，冲击音、平摩擦音或另外的合适的特征)。齿音检测模块130基于一个或多个短期特征来确定一个或多个长期特征。例如，齿音检测模块130获取短期特征检测器的输出并且使用所述输出作为对长期特征检测器的输入，如上文所描述的。齿音检测模块然后基于短期特征和长期特征的组合来调整一个或多个齿音参数。例如，如上文所描述的，齿音检测模块130基于如使用短期齿音特征的输出或使用变换模块110和/或分带模块120的输出所确定的长期齿音特征来改变齿音阈值。

在一些实施例中，齿音检测模块使用基于机器学习的分类器(例如，神经网络)来确定齿音的存在。在这些实施例中，齿音检测模块130使用短期特征检测器131(包括冲击音检测器132、平摩擦语音检测器136和/或任何其他短期特征检测器)、短期齿音检测器134和长期齿音检测器138的任何输出的组合作为对基于机器学习的分类器的输入。可以训练基于机器学习的分类器以基于所述信息输出关于是否存在齿音的确定。

图6图示了可以在齿音抑制中使用的齿音抑制曲线。齿音抑制曲线包括三个部分C1、C2和C3。在C1部分，齿音水平低于低阈值TH_low，并且因此齿音抑制的衰减增益将为0dB，这意味着将不进行非齿音声音和非齿音声音的抑制处理。在C2部分，齿音水平落在TH_Low与TH_high之间的范围内，并且因此可以触发线性抑制。在C3部分，齿音水平高于高阈值TH_high，并且齿音抑制的衰减增益设置为G1，即系统的最大齿音抑制深度。

图7示出了适合于实施本公开的示例实施例的示例系统700的框图。如所示出的，系统700包括中央处理单元(CPU)701，所述中央处理单元能够根据存储在例如只读存储器(ROM)702中的程序、或者从例如存储单元708加载到随机存取存储器(RAM)703的程序来执行各种进程。在RAM 703中，还根据需要存储CPU 701执行各种进程时所需的数据。CPU 701、ROM 702和RAM 703经由总线704相互连接。输入/输出(I/O)接口705也连接到总线704。

以下部件连接到I/O接口705：输入单元706，所述输入单元可以包括键盘、鼠标等；输出单元707，所述输出单元可以包括如液晶显示器(LCD)等显示器以及一个或多个扬声器；存储单元708，所述存储单元包括硬盘或另外的合适的存储设备；以及通信单元709，所述通信单元包括如网卡(例如，有线或无线的)等网络接口卡。通信单元709被配置成与其他设备通信(例如，经由网络)。根据需要，驱动器710也连接到I/O接口705。根据需要，如磁盘、光盘、磁光盘、闪存驱动器或其他合适的可移动介质等可移动介质711被安装在驱动器710上，使得从中读取的计算机程序被安装到存储单元708中。本领域技术人员将理解，尽管系统700被描述为包括上文所描述的部件，但是在实际应用中，可以添加、移除和/或替换这些部件中的一些部件，并且所有这些修改或变更都落入本公开的范围内。

根据本公开的示例实施例，上文所描述的进程可以实施为计算机软件程序。例如，本公开的实施例包括计算机程序产品，所述计算机程序产品包括有形地体现在机器可读介质上的计算机程序，计算机程序包括用于执行方法的程序代码。在这种实施例中，计算机程序可以经由通信单元709从网络下载和安装，和/或从可移动介质711安装。

通常，本公开的各种示例实施例可以以硬件或专用电路(例如，控制电路)、软件、逻辑或其任何组合实施。例如，齿音检测模块130可以由控制电路(例如，与图7的其他部件组合的CPU)执行，因此，控制电路可以执行本公开中描述的动作。一些方面可以以硬件来实施，而其他方面可以以可以由控制器、微处理器或其他计算设备(例如，控制电路)执行的固件或软件来实施。尽管本公开的示例实施例的各个方面被图示和描述为框图、流程图或使用一些其他图形表示，应当理解，本文所描述的框、装置、系统、技术或方法，作为非限制性示例，可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器、或其他计算设备、或其某种组合来实施。

另外，流程图中所示的各个框可以被视为方法步骤、和/或由计算机程序代码的操作产生的操作、和/或被构造为执行相关联的(多个)功能的多个耦接的逻辑电路元件。例如，本公开的实施例包括计算机程序产品，所述计算机程序产品包括有形地体现在机器可读介质上的计算机程序，计算机程序包含被配置成执行上文所描述的方法的程序代码。

在本公开的上下文中，机器可读介质可以是可以包含或存储用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以是非暂态的并且可以包括但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置、或前述的任何合适的组合。机器可读存储介质的更具体的示例将包括具有一条或多条导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或者前述各项的任何合适的组合。

用于执行本公开的方法的计算机程序代码可以用一种或多种编程语言的任何组合来编写。这些计算机程序代码可以被提供给通用计算机、专用计算机或具有控制电路的其他可编程数据处理装置的处理器，使得程序代码在由计算机或其他可编程数据处理装置的处理器执行时，实施流程图和/或框图中指定的功能/操作。程序代码可以完全在计算机上执行，部分在计算机上执行，作为独立的软件包，部分在计算机上执行并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行，或者分布在一个或多个远程计算机和/或服务器上。

Claims

1.一种方法，包括：

接收音频信号；

从所述音频信号中提取多个时频特征，所述多个时频特征包括一个或多个短期特征或长期特征；

根据所提取的短期特征或长期特征，对用于检测所述音频信号中的齿音的齿音检测器的一个或多个参数进行调整；以及

使用具有一个或多个经调整的参数的所述齿音检测器来检测所述音频信号中的齿音。

2.如权利要求1所述的方法，其中，所述短期特征包括冲击音。

3.如权利要求1所述的方法，其中，所述短期特征包括平摩擦音。

4.如权利要求1所述的方法，其中，所述长期特征包括经平滑的音频频谱平衡特征。

5.如权利要求1所述的方法，其中，调整齿音检测器的所述一个或多个参数包括生成控制信号，所述控制信号包括由短期特征检测产生的值。

6.如权利要求1所述的方法，其中，调整齿音检测器的所述一个或多个参数包括：

确定所述一个或多个短期特征；

确定所述一个或多个长期特征；以及

基于所述一个或多个短期特征和所述一个或多个长期特征的组合来调整所述一个或多个齿音参数。

7.如权利要求1或2所述的方法，其中，使用所述多个时频特征来确定所述音频信号是否包括所述冲击音包括：

对于所述音频信号中的第一时间间隔，计算一个或多个齿音频带中的第一总功率和一个或多个非齿音频带中的第二总功率；

对于所述音频信号中的第二时间间隔，计算一个或多个齿音频带中的第三总功率和一个或多个非齿音频带中的第四总功率；

基于所述第一总功率与所述第三总功率之间的差值来确定第一通量值，并且基于所述第二总功率与所述第四总功率之间的差值来确定第二通量值；以及

基于所述第一通量值是否满足第一阈值以及所述第二通量值是否满足第二阈值来确定是否存在所述冲击音。

8.如权利要求1至3中任一项所述的方法，进一步包括响应于确定存在所述冲击音：

生成输出值；以及

对所述输出值应用平滑算法。

9.如权利要求4所述的方法，其中，对所述输出值应用所述平滑算法包括使用起音时间常数和释放时间常数。

10.如权利要求5所述的方法，进一步包括基于所述冲击音的类型来调整所述起音时间常数或所述释放时间常数。

11.如权利要求1至6中任一项所述的方法，进一步包括基于所述多个时频特征来确定所述冲击音的类型。

12.如权利要求7所述的方法，其中，确定冲击音的类型包括：

将所述齿音频带和非齿音频带中的每一者的数据与多个已知冲击音的对应频带数据进行比较；以及

基于所述比较来识别所述冲击音。

13.如权利要求1至12中任一项所述的方法，其中，使用所述多个时频特征来确定所述音频信号是否包括所述平摩擦音包括：

基于齿音语音频带频谱和频带数量来计算齿音频谱平坦度度量。

14.如权利要求1至12中任一项所述的方法，其中，使用所述多个时频特征来确定所述音频信号是否包括所述平摩擦音包括：

计算相邻齿音频带的功率的方差。

15.如权利要求1至12中任一项所述的方法，其中，使用所述多个时频特征来确定所述音频信号是否包括所述平摩擦音包括：

计算齿音频带中的功率的峰值-均值比或峰值-中值比。

16.如权利要求1至12中任一项所述的方法，其中，使用所述多个时频特征来确定所述音频信号是否包括所述平摩擦音包括：

计算齿音频带中的谱熵度量。

17.如权利要求1至16中任一项所述的方法，其中，对用于检测所述音频信号中的齿音的齿音检测器的一个或多个参数进行调整包括：基于由确定是否检测到所述冲击音而产生的输出值和由确定是否检测到所述平摩擦音而产生的输出值来调整齿音检测阈值。

18.如权利要求16所述的方法，其中，调整所述齿音检测器的一个或多个参数包括：

确定所述音频信号的当前部分是否包括言语；

响应于确定所述音频信号的所述当前部分包括言语，将第一权重添加到由确定是否检测到所述冲击音而产生的所述输出值，并且将高于所述第一权重的第二权重添加到由确定是否检测到所述平摩擦音而产生的所述输出值；以及

响应于确定所述音频信号的所述当前部分包括非言语，将第一权重添加到由确定是否检测到所述冲击音而产生的所述输出值，并且将低于所述第一权重的第二权重添加到由确定是否检测到所述平摩擦音而产生的所述输出值。

19.如权利要求1至17中任一项所述的方法，进一步包括：

访问所述齿音检测器的输出和频谱平衡值；

基于所述齿音检测器是否检测到齿音来选择时间常数；

使用所选的时间常数来计算所述频谱平衡值的平滑版本；

将所述频谱平衡的平滑版本与阈值进行比较；

基于将所述频谱平衡的平滑版本与阈值进行比较来确定是否存在齿音。

20.如权利要求1至18中任一项所述的方法，进一步包括：

将短期特征检测器、短期齿音检测器和长期齿音检测器的输出中的一个或多个输入到基于机器学习的分类器中；以及

从所述基于机器学习的分类器接收关于是否存在齿音的确定。

21.一种系统，包括：

一个或多个计算机处理器；以及

存储指令的一个或多个非暂态存储介质，所述指令当由所述一个或多个计算机处理器执行时使得执行如权利要求1至20中任一项所述的方法。