CN105190751A

CN105190751A - 键盘输入检测和抑制

Info

Publication number: CN105190751A
Application number: CN201480005008.5A
Authority: CN
Inventors: J·E·N·克里斯滕森; S·J·戈德西尔; J·斯科格伦德
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-02-28
Filing date: 2014-02-12
Publication date: 2015-12-23
Anticipated expiration: 2034-02-12
Also published as: US9520141B2; JP6147873B2; WO2014133759A3; CN105190751B; US20140244247A1; JP2016510436A; WO2014133759A4; WO2014133759A2; KR20150115885A; KR101729634B1; EP2929533A2

Abstract

提供用于主要使用或仅使用传入音频数据检测音频流中瞬态噪音事件的方法和系统。此类方法提供经过改进的时间分辨率，且具有计算有效性。所述方法和系统使用音频信号的一些时频表示作为预测模型的基础，以尝试找到较远的瞬态噪音事件，并将真正的检测状态解释为隐马尔可夫模型(HMM)，以便为瞬态噪音事件所共有的时序和频率内聚度建模。

Description

键盘输入检测和抑制

技术领域

本说明书所述发明一般涉及信号处理的方法、系统和装置。具体而言，本说明书所述发明的各方面是关于使用传入音频数据检测音频流中的瞬态噪音事件。

背景技术

高速互联网连接的广泛普及使个人电脑成为电话会议应用的热门基础。虽然借助笔记本电脑中内置的麦克风、扬声器和摄像头，可以非常轻松地设置会议通话，但这些功能也带来特定噪声妨害，例如反馈杂音、风扇噪音和按键噪音。尤其是，按键噪音一般由于击键导致的机械脉冲而造成，长久以来都是无法解决的问题。对于笔记本电脑，基于笔记本电脑中的麦克风和键盘之间的机械连接，按键噪音可能会造成重大妨害。

击键产生的噪音脉冲可能因多种因素而异，例如击键速度和时长、麦克风位置和响应、笔记本电脑架或基台、键盘或触控板类型，甚至包括放置电脑的表面。而且，在许多情况下，麦克风和噪音声源甚至可能未机械相连，而有时，键盘击键声可能来自完全不同的设备，这使任何加入软件提示的尝试都无功而返。

存在多种试图解决上述问题的方法。不过，这些拟议解决方案都没有尝试实时解决问题，其中也没有一项解决方案是完全基于音频流的。例如，第一种方法使用针对相关音频帧周围区域内的频点的线性预测模型。虽然此方法能够处理具有尖锐音调的语音段，但所需前望范围为20-30毫秒(ms)，这将导致任何检测延迟至少相同时间。此类方法被建议只能作为辅助，其中最终检测决定需要来自硬件键盘的确认。

需要注意的是，在20ms帧长和10ms重叠量情况下，所述瞬态段的准确位置会丢失。如果要将所述瞬态段从音频流中移除，需要其准确位置。还需注意，许多瞬态噪音可能不会检测为键盘的硬件输入，而且一种更一般的方法将提供更稳定一致的瞬态噪音减弱效果。

第二种方法提议使用中值滤波器来识别较远的噪音事件，然后基于中值滤波器数据恢复音频。第二种方法主要用于仅有少数损坏样本的损坏事件，此类事件的速度要快得多。

第三种方法与上述第二种方法相似，但基于小波。虽然第三种方法改进了检测的时间分辨率，但独立考虑尺度的做法可能导致基于更多瞬态浊音分量而造成错误检测。

第四种解决按键噪音妨害的方法提出一种不采用辅助数据的算法。在此方法中，检测基于短时傅立叶变换，且由频谱平坦度和不断增加的高频分量率进行识别，这可能会导致错误检测突发浊音段。此方法中提出的算法用于后处理，而且以计算有效的方式实时实施此算法将造成时间分辨率丢失。而且尚不清楚，此方法是否适用于实际应用中发现的瞬态噪音范围。检测状态的概率解释可能会产生更具适应性、更可靠的检测基础。此方法还提出基于经过扩展的频率分量进行恢复(加上低时间分辨率，可能过于富有攻击性，且会让听者感到烦躁不安)。

发明内容

本发明内容简单介绍了一些概念，以帮助读者基本了解本说明书所述发明的部分方面。本发明内容不是本说明书所述发明的详细综述，且不用于识别本说明书所述发明的主要或关键要素，也不用于描述本说明书所述发明的范围。本发明内容仅作为下面提供的实施方式的序言，介绍本说明书所述发明的一些概念。

本说明书所述发明的一项实施方式有关检测音频信号中瞬态噪音的方法，所述实施方式包括：识别音频信号的一个或多个浊音部分；从所述音频信号中提取所述一个或多个识别的浊音部分，其中提取所述一个或多个浊音部分产生所述音频信号的残余部分；估算所述信号的所述残余部分的一个或多个检测状态的初始概率；计算各检测状态间的转移概率；以及基于所述一个或多个检测状态的初始概率和所述一个或多个检测状态间的转移概率，确定所述信号的所述残余部分的可能检测状态。

在另一种实施方式中，所述检测瞬态噪音的方法进一步包括通过递归去除音调分量来预处理所述音频信号。

在检测瞬态噪音方法的另一种实施方式中，所述预处理音频信号的步骤包括将所述音频信号分解为一组系数。

在另一种实施方式中，所述检测瞬态噪音的方法进一步包括对音频信号的残余部分执行时频分析，以生成音频信号残余部分的预测模型。

在另一种实施方式中，检测瞬态噪音的方法进一步包括将所述音频信号的所述残余部分与所述一个或多个提取的浊音部分重组。

在另一种实施方式中，所述检测瞬态噪音的方法进一步包括基于所述音频信号的所述残余部分，确定所述音频信号的所述残余部分中是否有其他浊音部分，以及从所述音频信号的所述残余部分提取一个或多个所述其他浊音部分。

在另一种实施方式中，所述检测瞬态噪音的方法进一步包括在将所述残余部分和所述一个或多个提取的浊音部分重组前，确定所述一个或多个提取的浊音部分是否包括所述瞬态噪音的低频分量，以及从所述一个或多个提取的浊音部分中筛除所述瞬态噪音的所述低频分量。

仍是在另一种实施方式中，所述检测瞬态噪音的方法进一步包括将所述信号的所述残余部分中的加性噪音作为零均值高斯过程建模。

在另一种实施方式中，所述检测瞬态噪音的方法进一步包括将所述信号的所述残余部分中的加性噪音作为具有估算系数的自回归(AR)过程建模。

在另一种实施方式中，所述检测瞬态噪音的方法进一步包括基于所述估算检测状态识别所述音频信号的受损样本，以及恢复所述音频信号中的所述受损样本。

在所述检测瞬态噪音方法的另一种实施方式中，所述恢复受损样本的步骤包括从所述音频信号中移除所述受损样本。

在一种或多种其他实施方式中，本说明书所述方法可能有选择地包括一项或多项以下其他特征：所述时频分析为一种离散小波变换；所述时频分析为一种小波包变换；所述音频信号的所述一个或多个浊音部分通过检测所述频率域中的频谱峰值进行识别；所述频谱峰值通过中值滤波器输出阈值进行检测，和/或所述一个或多个其他浊音部分通过检测所述音频信号的所述残余部分的所述频率域中的频谱峰值进行识别。

有关本说明书所述发明的进一步适用范围的明确描述，参见下面提供的详细说明。不过，应了解，在指明具体实施方式时，提供的详细说明和具体实施例仅用于举例说明，因为通过此详细说明，本领域技术人员了解显然存在属于本说明书所述发明的精神和范围的各种变化和修改。

附图说明

通过有关所附权利要求和附图(共同构成本说明书的一部分)的详细说明研究，本领域技术人员了解显然存在本说明书所述发明的这些和其他宗旨、特色和特征。在附图中：

图1是图示用于根据本说明书所述一项或多项实施方式使用传入音频数据检测音频流中瞬态噪音事件的示例系统的块状图。

图2是图示根据本说明书所述一项或多项实施方式的浊音信号提取的示例输出的示意图。

图3是图示用于根据本说明书所述一项或多项实施方式使用传入音频数据检测音频流中瞬态噪音事件的示例方法的流程图。

图4是图示根据本说明书所述一项或多项实施方式的瞬态噪音检测的示例性能的示意图。

图5是图示用于根据本说明书所述一项或多项实施方式使用传入音频数据检测音频流中瞬态噪音的示例计算设备的块状图。

本说明书提供的标题仅为方便起见而提供，不一定影响本说明书所述发明中所要求的范围或方法。

在所述附图中，为便于了解和方便起见，相同的引用编号和任何首字母缩写词表示具有相同或相似结构或功能的要素或行为。所述附图将在下面的详细说明中详细描述。

具体实施方式

下面将说明多个实施例和实施方式。以下描述提供了具体细节，以便读者彻底理解并能够描述本说明书所述发明的这些实施例。不过，本领域技术人员应了解，可以在没有这些细节的情况下实施所述的一项或多项实施方式。同样，本领域技术人员还应了解，本说明书所述发明的一项或多项实施方式可包括本说明书未详述的许多其他明显特征。此外，下面未详细显示或描述一些已知结构或功能，以免不必要地使相关描述失去清晰重点。

1.概述

本说明书所述发明的实施方式有关用于主要使用或仅使用传入音频数据检测音频流中瞬态噪音的方法和系统。此类方法提供经过改进的时间分辨率，且具有计算有效性。如下面所详述，所述方法和系统使用一些音频信号的时频表示(例如，离散小波变换(DWT)、小波包变换(WPT)等)作为预测模型的基础，以尝试找到较远的瞬态噪音事件。而且，本说明书所述发明的所述方法将真正的检测状态解释为隐马尔可夫模型(HMM)，以便为瞬态噪音事件所共有的时序和频率内聚度建模。

如下所述，拟议算法使用预处理阶段，来将音频信号分解为有关噪音脉冲的系数稀疏集。为尽可能减少错误检测，所述音频数据可通过递归减去单音波来进行预处理(如果系统资源允许)。虽然所述方法主要基于单个音频流检测和恢复瞬态噪音事件，但如果可通过操作系统(OS)信息等确认正向检测，则可调整多个参数。

下面所述算法利用瞬态噪音脉冲与语音信号间所发现的频谱和时序特征比较。虽然许多线下应用中使用交换噪音过程来检测噪音脉冲，其中某些为稀疏基础，而其他方法则为批处理实施，但这些应用均不适用于实时实施。另外，这些现有方法的处理要求较高，因此无法作为实时通信系统的一部分进行实施。

其他系统使用马尔可夫链蒙特卡洛理论(MCMC)方法，来为双状态检测系统的时序和频谱内聚度建模。不过，这些系统还被考虑用于具有高度计算要求的批处理实施。虽然本说明书所述发明的一项或多项实施方式中提议的贝叶斯恢复步骤与其他恢复方法相似，但本说明书所述发明利用的高斯脉冲和背景模型大幅简化了恢复计算有效实施的过程(将在下面进一步说明)。

2.检测

图1图示用于根据本说明书所述一项或多项实施方式使用传入音频数据检测音频流中瞬态噪音事件的示例系统。在至少一项实施方式中，所述检测系统100可能包括语音提取分量110、时频检测器120，及残余信号和浊音信号分别的插补分量130和160。另外，所述检测系统100可能执行与图3中所示算法相似的算法(将在下面详述)。

输入所述检测系统100的音频信号105可能经过语音提取110，产生浊音信号部分150和残余信号部分140。经过语音提取110后，残余信号部分140可能经过时频分析(通过所述时频检测器120)，以便为所述潜在恢复步骤(通过所述插补分量130)提供信息。所述语音信号150可能要求基于所述时频检测器120的发现进行恢复，这可能通过所述语音信号150的所述插补分量160执行。然后所述插补语音信号150和残余信号140可能重组，以构成输出信号。所述语音提取110、所述时频检测器120和所述插补130/160将分别在下面的段落中详细说明。

应注意，根据所述的至少一项实施方式，所述检测系统100可能以迭代方式执行所述检测算法。例如，当所述插补语音信号150和残余信号140在执行任何必要恢复处理(例如通过插补分量130和160)后重组后，可能会确定是否需要进一步恢复所述信号。如果认定需要进行进一步恢复，则所述重组信号可能会通过所述检测系统100的所述多项分量进行再次处理。在初始迭代期间从所述信号移除一些瞬态分量后，后续迭代可能会影响所述音频分离，并导致更好的总体结果。

图2图示根据本说明书所述一项或多项实施方式的浊音信号提取的示例输出。例如，输入信号205的语音提取输出(例如，通过图1所示示例系统中输入信号105的语音提取分量110)可能包括浊音信号部分250和残余信号部分240(例如，图1所示示例系统中的所述浊音信号部分150和所述残余信号部分140)。

在以下段落中，可能会引用图3，其中图示用于根据本说明书所述一项或多项实施方式使用传入音频数据检测音频流中瞬态噪音事件的示例过程。在至少一项实施例中，所示过程可能通过图1所示和上述检测系统100的所述语音提取分量110、所述时频检测器120和所述插补分量130、160执行。

2.1音调提取器

为降低错误检测率，可能会提取所述信号的浊音部分(例如，通过图1所示的所述示例检测系统的所述语音提取110)。所述信号的所述浊音部分可能在经过识别后，分别在图3所示过程中的块300和305进行提取。例如，所述信号的所述浊音部分可能通过检测频率域中的声共振或频谱峰值进行识别。然后可在所述检测程序前，提取所述浊音部分。例如，频谱域中的峰值可通过中值滤波器输出阈值或一些其他峰值检测方法进行识别。

对于块310，可能会确定是否需要进行进一步提取(例如语音提取)。如果需要进一步提取，可能会返回块300和305执行所述过程。通过为不同帧尺寸和阈值重复多次识别和提取(例如，对于块300和305)，可能会提取所述信号的其他浊音部分。如果无需对块310进行进一步提取，所述过程可能转至估算所述检测状态的所述初始概率(块315)、计算所述状态间的转移概率(块320)、基于所述各状态的概率确定最可能的检测状态(块325)，以及插补所述受损音频样本(块330)。块315至330中显示的运算将在下面详细描述。

在至少一项实施方式中，在所述估算检测状态后，所述过程可能会转至可能重新引入所述信号的所述浊音部分的块335(例如，如图1所示，以下语音提取110、时频分析120、插补130和残余信号部分140可能与所述提取的浊音信号部分150重组[例如在插补160之后])。

所述音频信号现可能通过以下方式表示：

x (t) = \underset{i}{Σ} c_{i} Φ_{i} (t) + \underset{j}{Σ} w_{j} (t) Ψ_{j} (t) - - - (1)

其中c_i为所述信号的所述浊音部分的系数，且Φ为可能基于标准傅里叶、倒频谱或伽柏分析或语音筛选器的基础函数。而且，w_j(t)是所述残余部分的系数，其中j是有关一些基础函数Ψ的部分转换和/或扩展的整数。

2.2所述残余部分的时频分析

上述等式(1)的系数w_j(t)可以理解为小波包分解(WPD)中的小波系数，其中j表示第j个终端节点或尺度j∈{1,...,J}，其中J＝L²(对于L级分解)。在以下说明中，基于抽取造成的尺度变化，n将取代t作为所述小波系数中的时间索引，但对于非抽取变换，t＝n。而且，w(n)将用于表示给定时间索引n的所有系数的向量。可假设，各终端节点的系数j可作为交换加性噪音过程建模，使得：

w_j(n)＝i_n,jθ_n,j+v_n,j，(2)

其中i_n,j是二元(1/0)交换变量，表示存在i_n,j＝1的θ_n,j，否则i_n,j＝0。所述瞬态信号θ_n,j是被加性噪音v_n,j损坏的交换突发噪音。应注意，所述瞬态噪音突发的分组可能依赖于i_n,j的统计数据。不同尺度j和具有连续时间索引n的相应i_n,j值可作为马尔可夫链建模，这将描述频率和时间之间的内聚度。例如，所述瞬态噪音脉冲通常具有相似的开始指数，且将可能在具有小波尺度j的时间比例时长中保持活跃。

所述模型现可能使用加性噪音和系数矩阵表示：

w＝θ+v，(3)

其中对于第j组系数，w＝[w₁,w₂,...,w_J]，且w_j＝[w_1,j,w_2,j,...,w_N,j]^T。而且在等式(3)中，θ表示相应的交换突发噪音J，其中N矩阵包括要素i_n,jθ_n,j，且v是描述语音对系数的影响的随机加性噪音。为简单起见，不同尺度j的i_n,j可认为是常量，因此离散向量i＝[i₁,i₂,...,i_N]可采用任一2^N值。因此，所述检测任务现可变为通过所述观察到的序列w估算i的真正状态。在更复杂的实施中，不同尺度的i值可能各不相同，且将通过隐式马尔可夫树或相似结构统计相连。

假设所述突发噪音θ和背景噪音(例如语音)v可作为零均值高斯分布建模，则可推断：

θ_{n} ~ N_{θ_{n}} (0, Λ) - - - (4)

其中Λ是协方差矩阵。在一个实施例中，所述Λ的对角元素可能仅为[λ₁,λ₂,...,λ_J]。不过，在另一个实施例中，所述Λ的对角元素还可能表示更复杂的方差内聚度。在噪音脉冲期间，比起将方差视为常数，基于变化的方差包络的变方差模型可能提供更准确的相关瞬态匹配。

所述背景噪音可能仅作为零均值高斯过程建模，例如：

v_{n} ~ N_{v_{n}} (0, C_{v}) - - - (5)

其中，C_v是一个协方差矩阵。在一个实施例中，所述C_v的对角分量可能仅为[σ_v,1,σ_v,2,...,σ_v,J]。一个更具计算密集性的实施例可能会将v作为具有估算系数或简单平均系数组的自回归(AR)过程建模。

一项基于AR背景噪音的直接实施可假设，各系数可通过M前发(和可能的后续)系数加上某些噪音进行估算。将各尺度视为独立，则所述组合概率可通过各尺度的概率结果进行计算。在此类实施例中，瞬态噪音事件可通过所述组合概率阈值进行检测。此类实施的其他算法的详细信息在下面的“实施例”中提供。

将所述检测状态i处理为离散型随机向量后，可基于观察到的(和受损的)数据w和其他可用的先验信息确定i概率。有关检测的先验信息可能包括：来自操作系统(OS)的信息、基于最近检测推断的可能检测计时、基于来自用户的经验信息推断的可能检测计时等。根据至少一项实施方式，所述后验概率p(i|w)可能使用贝叶斯规则表示，因此

p (i | w) = \frac{p (w | i) p (i)}{p (w)}, - - - (6)

其中概率p(w|i)可被视为所述计算的主要部分。

如上所述，θ表示所述交换随机噪音过程。所述交换随机噪音过程的振幅可通过所述噪音突发振幅p.d.f.p_θ进行定义，这是所述突发振幅的联合分布，其中i_n＝1。

由于函数p_v(v)和p_θ(θ)都是零均值高斯函数，因此每组小波系数均可表示为w_j(n)，例如：

w_{j} (n) ~ \{\begin{matrix} N (0, σ_{v, j} + λ_{j}) & ; i_{n} = 1 \\ N (0, σ_{v, j}) & ; i_{n} = 0 \end{matrix} - - - (7)

且所述概率函数p(w|i)变为

p (w | i) = \overset{J}{Π} \overset{N}{Π} N (0, σ_{v, j} + i_{n} λ_{j}) - - - (8)

i_n的最大后验概率(MAP)估算现可能计算为

{\hat{i}}_{n}^{M L E} = \arg \underset{i &Element; {0, 1}}{m a x} \overset{J}{Π} N (0, σ_{v, j} + i_{n} λ_{j}) - - - (9)

根据本说明书所述发明的一项或多项实施方式，可将检测通常为块检测的认知纳入所述模型。例如，将状态向量i考虑为HMM，则可将有关预期检测性质的具体认知纳入所述模型。在至少一项实施方式中，维特比算法可用于计算最可能的i演化或i_n序列。给定数据序列的最可能检测状态可能表示为：

{\hat{i}}^{M L E} = \arg \underset{i &Element; {0, 1}}{m a x} p (i_{0}) \underset{n}{Π} p (i_{n} | i_{n - 1}) p (w (n) | i_{n}) - - - (10)

在等式(10)中，p(i₀)为起始概率，p(i_n|i_n-1)为从一个状态至下一个状态的转移概率，而p(w(n)|i_n)为发射概率或观察概率。

根据本说明书所述发明的至少一项实施方式，上述及图3中所示算法的延伸可能包括以迭代方式运行整个算法。例如，所述过程可能从块335移至块340，在块335中，所述信号的浊音部分可能重新引入并与所述残余信号部分组合(例如，在语音提取110、时频分析120和插补130之后，所述残余信号部分140可能与所述提取浊音信号部分150重组，如图1所示)，在块340中确定是否需要进一步恢复所述信号(图3中以虚线表示)。如果在块340确定需要进行进一步恢复，则可能返回块300执行并重复执行所述过程。在前一迭代过程中从所述信号中移除一些所述瞬态分量后，所述后续迭代可能会影响所述音频分离，并导致更好的总体结果。如果在块340确定无需进行进一步恢复，则可能会结束所述过程。

图4图示根据本说明书所述一项或多项实施方式的瞬态噪音检测的示例性能。在所述示意图中，所述步骤函数405表示检测，在高值发现一个检测，在低值未发现检测。所述检测405还表示具有分量130和160的插补(如图1所示)的可能区域。

在图4所示的实施例中，所述检测状态符合所述实施例的实际状况，且所述瞬态被提取出(尽管周围为浊音信号)。所述步骤函数405表示一列受损样本，且不仅是各瞬态噪音事件的单独检测。这是因为在本实施例中，所述算法正确确定了适当数量的受损样本。使用合适时间分辨率的分解的好处是可更准确地确定所述检测的开始时间和时长，且能够以干扰较少的方式处理受损帧。

3.插补

如上文所述估算i的最可能状态后，现在可使用一种或多种不同方法插补受损样本(例如时间n的w(n)值，i_n＝1)。

在至少一项实施方式中，可通过估算p(v_n|w_n,i_n)来执行贝叶斯定理方法。例如，使用贝叶斯规则可获得：

p(v_n|w_n,i_n)∝p(w_n|v_n,i_n)p(v_n|i_n)(11)

其中

p(w_n|v_n,i_n＝1)～N(w_n,Λ)(12)

以及

p(v_n|i_n)＝p(v_n)～N(0,C_v)(13)

将等式(12)和(13)替换至等式(11)(其中所述结果与第三个高斯函数成比例)中可获得：

p (v_{n} | w_{n}, i_{n} = 1) &Proportional; N ({(C_{v} + Λ)}^{- 1} C_{v} w_{n}, {(C_{v}^{- 1} + Λ^{- 1})}^{- 1}) - - - (14)

在本实施例中，估算所述条件分布均值相当于仅按维纳式小波收缩中(C_v+Λ)^-1C_v的一个要素扩展受损样本，所述背景噪音v_n和所述突发噪音θ_n为高斯函数。在上述实施例中，此类估算的一般式应以对角协方差矩阵表示。

在一项或多项其他实施方式中，一种更直接的恢复方法可完全移除所述违反系数，而一种更复杂的方法可能尝试利用以前发和后续系数训练的AR过程填补所述受损系数。

根据本说明书所述发明的至少一项实施方式，估算i_n的最可能状态后，可能进一步需要筛除所述瞬态噪音中与所述浊音语音(图1所示的浊音信号部分150)一起移除/提取的任何低频(例如，低于预定的阈值频率)分量。

在所述恢复过程后，可能通过重组所述经过处理的残余信号部分(例如移除击键声)与等式(1)中的音调分量库执行所述算法。

4.实施例

下面说明了用于根据本说明书所述发明的至少一项实施方式检测瞬态噪音事件的实施例。应注意，本实施例为经过简化的具体实施方式，其中贝叶斯/HMM分量被移除，并替换为所述瞬态噪音的传统AR模型检测器。因此，以下内容仅用于说明，不以任何方式限制本说明书所述发明的范围。

本实施例基于AR背景噪音，假设各系数可通过M前发(和可能的后续)系数加上某些噪音进行估算(其中“M”为任意数)。将各尺度视为独立，则所述组合概率可通过各尺度的概率结果进行计算。在此类实施例中，瞬态噪音事件可通过所述组合概率阈值进行检测。此类实施的其他算法的详细信息在下面提供。

时长N的传入音频序列x(n)的WPD终端节点系数或一些其他时频分析系数可定义为X(j,t)，其中j是第j个终端节点(尺度或频率)，j∈{1,...,J}，且t为有关n的时间索引。L级WPD使J＝2^L终端节点。下面的X(t)可用于表示给定时间索引t的所有系数的向量。另外，可假设各终端节点j的系数符合所述线性预测模型

X (j, t) = Σ_{m = 1}^{M} a_{j, m} X (j, t - m) + v (j, t), - - - (15)

其中a_jm是第m个应用于第j个终端节点的权重，使得a_j＝{a_j,1,...,a_j,M}，M为所用缓冲尺寸，而v(j,t)是具有零均值的高斯噪音，使得

v (j, t) ~ N_{v} (0, σ_{j, t}^{2}) . - - - (16)

基于X前值的X(j,t)概率现在可表示为

p (X (j, t) | X (j, t - 1), ..., X (j, t - M)) = N_{X} (Σ_{m = 1}^{M} a_{j, m} X (j, t - m), σ_{j, t}^{2}), - - - (17)

且所述边际概率可表示为

p (X (t)) = \overset{J}{Π} p (X (j, t)), - - - (18)

假设各组系数的条件概率相互独立。

当前系数X(t)的对数概率logL＝logp(X(t))可计算为

\begin{matrix} \log L = l o g {\overset{J}{Π} p (X (j, t) | X (j, t - 1), ..., X (j, t - M))} \\ = \overset{J}{Σ} \log L = \log {p (X (j, t) | X (j, t - 1), ..., X (j, t - M))} \\ = - \frac{1}{2} \overset{J}{Σ} \frac{1}{σ_{j, t}^{2}} {(X (j, t) - Σ_{m = 1}^{M} a_{j, m} X (j, t - m))}^{2} C_{j, t} \end{matrix}, - - - (19)

其中C_j,t为常数。值logL现在表示X(t)可通过其之前的值预测的概率。

图5是图示用于根据本说明书所述发明的一项或多项实施方式使用传入音频数据检测音频流中瞬态噪音事件的示例计算设备500的块状图。例如，计算设备500可配置为将传入音频信号的时频表示用作预测模型的基础，以尝试找到较远的瞬态噪音事件(如上所述)。根据至少一项实施方式，所述计算设备500可进一步配置为将真正的检测状态解释为隐马尔可夫模型(HMM)，以便为瞬态噪音事件所共有的时序和频率内聚度建模。在非常基础的配置501中，计算设备500通常包括一个或多个处理器510和系统存储器520。存储器总线530可用于所述处理器510和所述系统存储器520之间的通信。

根据所需配置，处理器510可为任何类型，包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)，或上述任意组合。处理器510可能包括一个或多个级别的缓存，例如一级缓存511和二级缓存512，一个处理器核心513，以及寄存器514。所述处理器核心513可能包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核心(DSP核心)，或上述任意组合。存储器控制器515还可能与所述处理器510一起使用，或在某些实施方式中，所述存储器控制器515可作为所述处理器510的内部部分。

根据所述所需配置，所述系统存储器520可为任何类型，包括但不限于易失存储器(例如RAM)、非易失性存储器(例如ROM、闪存等)，或上述任意组合。系统存储器520通常包括操作系统521、一个或多个应用522和程序数据524。在一项或多项实施方式中，应用程序522可包括配置为主要使用或仅使用所述传入音频数据检测音频流中瞬态噪音事件(例如，图1示例系统中所示的输入信号105)的检测算法523。例如，在一项或多项实施方式中，所述检测算法523可配置为对传入音频信号执行预处理，以将所述信号分解为有关所述噪音脉冲的系数稀疏集，然后对所述分解信号执行时频分析以确定可能的检测状态。作为所述预处理的一部分，所述检测算法523可进一步配置为对所述输入音频信号执行语音提取，以提取所述浊音信号部分(例如，通过图1所示的示例检测系统的所述语音提取分量110)。

程序数据524可能包括可用于检测传入音频流中瞬态噪音的音频信号数据525。在某些实施方式中，应用程序522可安排为使用操作系统521上的程序数据524，以便所述检测算法523使用所述音频信号数据525执行语音提取、时频分析和插补(例如，图1中所示的示例检测系统100中的语音提取110、时频检测器120和插补130)。

计算设备500可具有其他特征和/或功能以及其他接口，以达成所述基础配置501和任何所需设备及接口之间的通信。例如，总线/接口控制器540可用于达成所述基础配置501和一个或多个数据存储设备550之间通过存储接口总线541的通信。所述数据存储设备550可为可拆卸的存储设备551、不可拆卸的存储设备552，或上述任意组合。可拆卸存储设备和非可拆卸存储设备包括磁盘设备(例如灵活的磁盘驱动器和硬盘驱动器(HDD))、光盘驱动器(例如光盘(CD)驱动器或数字通用光盘(DVD)驱动器)、固态驱动器(SSD)、磁带驱动器等。计算机存储介质可包括任何信息存储方法或技术中实施的易失和非易失、可拆卸和非可拆卸介质，例如计算机可读指令、数据结构、程序模块和/或其他数据。

系统存储器520、可拆卸存储551和非可拆卸存储552都属于计算机存储介质。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者其他任何可用于存储所需信息和可供计算设备500访问的介质。任何此类计算机存储介质都可能是计算设备500的一部分。

计算设备500还可能包括用于达成多个接口设备(例如，输出接口、外围接口、通信接口等)通过所述总线/接口控制器540到所述基础配置501的通信的接口总线542。示例输出设备560包括图形处理单元561和音频处理单元562，这两个单元中任一或两者都可配置为通过一个或多个A/V端口563与多个外部设备(例如显示屏或扬声器)通信。示例外围接口570包括串行接口控制器571或并行接口控制器572，所述控制器可配置为通过一个或多个I/O端口573与输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备等)或其他外围设备(例如，打印机、扫描仪等)等外部设备通信。

示例通信设备580包括网络控制器581，所述控制器可用于达成通过采用一个或多个通信端口582的网络通信(未显示)与一个或多个其他计算设备590的通信。所述通信连接是通信介质的一个示例。通信介质通常可具体表现为计算机可读指令、数据结构、程序模块或经过调整的数据信号中的其他数据(例如载波或其他传输机制)，且包含任何信息传递介质。“经过调整的数据信号”可能是具有一个或多个其特征经过设定或更改以编码所述信号中信息的信号。例如(但不限于)，通信介质可包括有线介质(例如有线网络或直接连线连接)和无线介质(例如声学无线电频率(RF)、红外线(IR)和其他无线介质)。本说明书所述“计算机可读介质”可包括存储介质和通信介质。

计算设备500可实施为小封装便携式(或移动)电子设备，例如手机、个人数据助理(PDA)、个人媒体播放器设备、无线网络手表设备、个人耳机设备、应用特定设备，或兼具任何上述功能的混合设备。计算设备500还可实施为个人计算机，包括笔记本电脑和非笔记本电脑配置。

系统方面的硬件和软件实施之间存在的区别极少；所述硬件或软件使用一般(但并非总是，因为在特定情况下，硬件和软件之间的选择可能非常重要)是表示成本与效率之间权衡的设计选择。所述过程和/或系统和/或其他技术可受多种介质的影响(例如，硬件、软件和/或固件)，且首选介质因所述过程和/或系统和/或其他技术的部署环境而异。例如，如果实施者认为速度和准确度是最重要的考虑要素，则实施者可能会选择主要采用硬件和/或固件介质；如果认为灵活度是最重要的考虑要素，则实施者可能会选择主要利用软件实施。在一个或多个其他场景中，实施者可能选择组合使用硬件、软件和/或固件。

上述详细说明已通过使用块状图、流程图和/或实施例，设定了所述设备和/或过程的多项实施方式。在此类块状图、流程图和/或实施例包含一个或多个功能和/或操作的情况下，本技术领域人员应了解，此类块状图、流程图或实施例中的各功能和/或操作可由范围广泛的各类硬件、软件、固件或几乎上述任意组合单独和/或共同实施。

在一项或多项实施方式中，所述主题的多个部分可能通过应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成格式实施。不过，本技术领域人员将了解，所述实施方式的某些方面可完全或部分地在集成电路中等效实施，例如作为一个或多个运行在一台或多台计算机上的计算机程序(例如，一个或多个运行在一个或多个计算机系统上的程序)、一个或多个运行在一个或多个处理器上的程序(例如，一个或多个运行在一个或多个微处理器上的程序)、固件，或者几乎上述任意组合。本技术领域人员将进一步了解，基于本说明书所述发明，设计所述电路和/或编写所述软件代码和/或固件属于本技术领域人员所熟知的技能范围。

另外，本技术领域人员将了解，所述主题的机制能够作为程序产品以多种形式分布，且所述主题的示意实施例可以进行应用，无论用于实际执行所述分布的特定类型信号承载介质如何。信号承载介质包括但不限于：可记录类型的介质，例如软盘、硬盘驱动器、光盘(CD)、数字视频磁盘(DVD)、数字磁带、计算机内存等；和传输类型的介质，例如数字和/或模拟通信介质(例如，光缆、波导、有线通信链路、无线通信链路等)。

本技术领域人员还将了解，以所述方式描述设备和/或过程，以及之后使用工程实践来将此类所述设备和/或过程集成入数据处理系统中属于本技术领域的公知常识。也就是说，所述设备和/或过程的至少一部分可通过合理数量的实验集成到数据处理系统中。本技术领域人员将了解，典型的数据处理系统一般包括一个或多个系统单元装置、一个视频显示设备、一个存储器(例如易失和非易失存储器)、处理器(例如微处理器和数字信号处理器)、计算实体(例如操作系统、驱动器、图形用户界面和应用程序)、一个或多个互动装置(例如触控板或触摸屏)和/或反馈回路和控制电机等控制系统(例如，位置和/或速度感应反馈；用于移动和/或调整组件和/或数量的控制电机)。典型数据处理系统可能利用任何适用的商业可用组件实施，例如通常用于数据计算/通信和/或网络计算/通信系统的组件。

对于本说明书所使用的几乎任何单复数术语，本技术领域人员可以根据具体背景和/或应用变换单复数状态。为明确起见，本说明书清楚说明了多项单复数变换。

虽然本说明书说明了多个方面和实施方式，但本技术领域人员了解显然存在其他方面和实施方式。本说明书所述多个方面和实施方式用于说明，不限制以下权利要求所述的真正范围和精神。

权利要求书(按照条约第19条的修改)

1.一种方法，所述方法包括：

识别(300)音频信号的一个或多个浊音部分；

从所述音频信号中提取(305)一个或多个识别出的浊音部分，其中提取所述一个或多个浊音部分会产生所述音频信号的所述残余部分；

估算(315)所述信号的所述残余部分的一个或多个检测状态的初始概率，其中所述一个或多个检测状态有关所述音频信号中是否存在瞬态噪音；

计算(320)一个或多个检测状态中各状态间的转移概率；和

基于一个或多个检测状态的初始概率和所述一个或多个检测状态间的转移概率，确定(325)所述信号的所述残余部分的可能检测状态。

2.根据权利要求1所述的方法，进一步包括通过递归去除音调分量，对所述音频信号进行预处理。

3.根据权利要求2所述的方法，其中所述预处理所述音频信号包括将所述音频信号分解为一组系数。

4.根据权利要求1所述的方法，进一步包括对所述音频信号的所述残余部分执行时频分析，以生成所述音频信号的所述残余部分的预测模型。

5.根据权利要求4所述的方法，其中所述时频分析是一种离散小波变换。

6.根据权利要求4所述的方法，其中所述时频分析是一种小波包变换。

7.根据权利要求1所述的方法，进一步包括将所述音频信号的所述残余部分与所述提取的一个或多个浊音部分重组(335)。

8.根据权利要求7所述的方法，进一步包括基于与所述提取的一个或多个浊音部分重组的所述残余部分确定(340)是否进一步恢复所述音频信号。

9.根据权利要求7所述的方法，进一步包括在将所述残余部分与所述提取的一个或多个浊音部分重组前：

确定所述提取的一个或多个浊音部分包括所述瞬态噪音的低频分量；和

从所述提取的一个或多个浊音部分中筛除所述瞬态噪音的所述低频分量。

10.根据权利要求1所述的方法，其中所述音频信号的所述提取的一个或多个浊音部分通过检测所述频率域中的频谱峰值进行识别。

11.根据权利要求10所述的方法，其中所述频谱峰值通过中值滤波器输出阈值进行检测。

12.根据权利要求1所述的方法，进一步包括将所述信号的所述残余部分中的加性噪音作为零均值高斯过程建模。

13.根据权利要求1所述的方法，进一步包括将所述信号的所述残余部分中的加性噪音作为具有估算系数的自回归(AR)过程建模。

14.根据权利要求1所述的方法，进一步包括：

基于所述可能检测状态，识别所述音频信号的受损样本；和

恢复(330)所述音频信号中的所述受损样本。

15.根据权利要求14所述的方法，其中恢复所述受损样本包括从所述音频信号中移除所述受损样本。

16.根据权利要求1所述的方法，进一步包括：

基于所述音频信号的所述残余部分，确定所述音频信号的所述残余部分中保留的其他浊音部分；和

从所述音频信号的所述残余部分中提取一个或多个所述其他浊音部分。

17.根据权利要求16所述的方法，其中所述一个或多个其他浊音部分通过检测所述音频信号的所述残余部分的所述频率域中的频谱峰值进行识别。

18.根据权利要求17所述的方法，其中所述频谱峰值通过中值滤波器输出阈值进行检测。

Claims

1.一种用于检测音频信号中瞬态噪音的方法，所述方法包括：

识别(300)所述音频信号的一个或多个浊音部分；

估算(315)所述信号的所述残余部分的一个或多个检测状态的初始概率；

计算(320)一个或多个检测状态中各状态间的转移概率；和

14.根据权利要求1所述的方法，进一步包括：

基于所述估算检测状态，识别所述音频信号的受损样本；和

恢复(330)所述音频信号中的所述受损样本。

16.根据权利要求1所述的方法，进一步包括：