CN111508512A

CN111508512A - 语音信号中的摩擦音检测

Info

Publication number: CN111508512A
Application number: CN202010060966.XA
Authority: CN
Inventors: V.坎达德拉詹
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2019-01-31
Filing date: 2020-01-19
Publication date: 2020-08-07
Also published as: KR20200095370A; DE102019102414A1; US11183172B2; US20200251090A1; DE102019102414B4

Abstract

检测包含干净语音信号和噪声信号的含噪语音信号中的摩擦音包括：利用具有第一通带范围的第一传递函数对所述含噪语音信号进行带通滤波以提供第一滤波后的含噪语音信号，以及利用具有第二通带范围的第二传递函数对所述含噪语音信号进行带通滤波，所述第二通带不同于所述第一通带以提供第二滤波后的含噪语音信号。检测摩擦音还包括：对所述第一滤波后的含噪语音信号和所述第二滤波后的含噪语音信号应用最大值运算以提供表示最大摩擦音能量的频率范围的最大频谱，以及基于所述最大频谱来判决所述含噪语音信号中是否包含摩擦音并提供表示所述判决的判决信号。

Description

语音信号中的摩擦音检测

技术领域

本公开涉及一种用于语音信号中的摩擦音检测的方法和系统(通常被称为“方法”)。

背景技术

语音包含不同的发音，诸如元音、摩擦音、鼻音等。这些发音和其他属性(诸如短时功率)可以用于辅助系统(诸如降噪系统和语音识别系统)中的语音信号增强。在此类系统中通常使用被称为话音激活检测器(VAD)的检测器。话音激活检测器生成检测信号，当为二进制时，所述检测信号采取0或1来指示存在或不存在语音，反之亦然。检测信号还可以采取0至1之间的值以允许软判决，所述软判决可以指示信号中语音存在的某一度量或某一概率。例如，检测信号可以应用于语音增强系统的各个阶段，诸如回声消除器、波束形成器、噪声估计器、降噪阶段等。

摩擦声音可以被定义为语音音节的“清音”部分，当通过牙齿和嘴唇对空气加压时会产生所述清音部分。诸如单词“stop”中的/s/、单词“shop”中的/sh/、单词“four”中的/f/等声音是摩擦音的示例。世界上大多数语言在其口语中都包含摩擦声音。对此类声音的检测具有挑战性，因为从技术上讲，此类声音类似于宽带形成的噪声。然而，如果能被准确地检测到，则摩擦音可以帮助识别信号中存在的大多数语音，并且可以补充正常话音激活检测器。因此，需要改善对摩擦音的检测。

发明内容

一种用于检测包含干净语音信号和噪声信号的含噪语音信号中的摩擦音的方法包括：利用具有第一通带范围的第一传递函数对所述含噪语音信号进行带通滤波以提供第一滤波后的含噪语音信号，以及利用具有第二通带范围的第二传递函数对所述含噪语音信号进行带通滤波，所述第二通带不同于所述第一通带以提供第二滤波后的含噪语音信号。所述方法还包括：对所述第一滤波后的含噪语音信号和所述第二滤波后的含噪语音信号应用最大值运算以提供表示最大摩擦音能量的频率范围的最大频谱，以及基于所述最大频谱来判决所述含噪语音信号中是否包含摩擦音并提供表示所述判决的判决信号。

一种用于检测包含干净语音信号和噪声信号的含噪语音信号中的摩擦音的系统包括连接到输入和输出的至少一个处理单元，并且被配置为：利用具有第一通带范围的第一传递函数对所述含噪语音信号进行带通滤波以提供第一滤波后的含噪语音信号，以及利用具有第二通带范围的第二传递函数对所述含噪语音信号进行带通滤波，所述第二通带不同于所述第一通带以提供第二滤波后的含噪语音信号。所述至少一个处理单元还被配置为：对所述第一滤波后的含噪语音信号和所述第二滤波后的含噪语音信号应用最大值运算以提供表示最大摩擦音能量的频率范围的最大频谱，以及基于所述最大频谱来判决所述含噪语音信号中是否包含摩擦音并提供表示所述判决的判决信号。

在查阅以下详细描述和随附附图后，其他系统、方法、特征和优点将对所属领域技术人员显而易见。期望所有此类附加系统、方法、特征以及优点都应当包括在本说明书中、在本发明的范围内并且受所附权利要求的保护。

附图说明

参考以下附图和描述可以更好地理解所述系统。附图中的部件不一定按比例绘制，而是强调说明本发明的原理。此外，在附图中，相似的附图标记在所有不同视图中指示对应部分。

图1是示出示例性常见摩擦音检测系统的信号流结构的框图。

图2是示出用于含噪语音信号的增强帧间摩擦音检测系统的示例性传递函数的幅频图。

图3是示出用于含噪语音信号的示例性增强帧间摩擦音检测系统的信号流结构的框图。

图4是示出用于含噪语音信号的示例性增强帧间摩擦音检测方法的流程图。

具体实施方式

对于干净语音(这意指未伴随不希望噪声的语音)，可以很可靠地检测到摩擦音。对语音信号和发音的分析表明，摩擦音主要涉及两个频率范围：一个频率范围在2kHz至4kHz之间，而另一个频率范围在4kHz至6kHz之间。例如，鉴于语音信号的短时能量增加，利用两个带通滤波器同时监测这些频率范围允许可靠地推断：所研究的语音片段是否为摩擦音。图1示出了这种系统的实现方式。频域和子带域中的信号在本文中也被称为频谱或频谱信号。在利用两个带通滤波过程101和102同时对干净语音信号进行带通滤波之后，通过这种方式推导出的两个滤波后频谱S_b1(μ,k)和S_b2(μ,k)例如通过求和过程103进行组合。子带域中的两个滤波后频谱S_b1(μ,k)和S_b2(μ,k)是由干净语音信号的频谱S(μ,k)在根据以下等式利用两个带通滤波过程101和102的相应传递函数H_bp1(μ,k)和H_bp2(μ,k)进行滤波(在频域或子带域中：相乘)之后产生：

S_b1(μ，k)＝S(μ，k)·H_bp1(μ，k)， (1)

S_b2(μ，k)＝S(μ，k)·H_bp2(μ，k)， (2)

其中相应的子带由μ表示，而相应(时间)帧由k表示。传递函数H_bp1(μ,k)可以包括2kHz至4kHz之间的通带，而传递函数H_bp2(μ,k)可以包括4kHz至6kHz之间的通带，如图1中的相应频谱图所示。两个带通滤波后频谱S_b1(μ,k)和S_b2(μ,k)根据以下等式进行组合(在频域或子带域中：相加)以获得频谱S_bp(μ,k)，在所述频谱中，预期摩擦音能量较高：

S_bp(μ，k)＝S_bp1(μ，k)·S_bp2(μ，k)。 (3)

通过在短时能量比较过程104中将当前帧的频带限制能量与前一帧的频带限制能量进行比较来执行摩擦音检测。如果帧k的所有子带中的能量|S_bp(μ,k)|²大于前一帧k-1中的能量|S_bp(μ,k-1)|²，则可以根据以下等式将片段分类为摩擦音：

如果|S_bp(μ,k)|²>|S_bp(μ,k-1)|²，

则为摩擦音，否则为非摩擦音。 (4)

如果不是这种情况，则将片段分类为非摩擦音。可以将此类片段的帧大小选定为50ms至250ms之间。在语音增强系统中，这种类型的检测可能会失败，因为输入信号通常是含噪声的，并且难以甚至不可能区分开语音片段中的(稳态和非稳态)背景噪声和摩擦音。

为了在含噪语音信号中更可靠地检测摩擦音片段，可以对上述主要检测方法进行修改和补充以提高其检测性能，在下文中被称为“稳健性”。如所提及的，摩擦音检测器的输入通常是含噪语音信号，在频域中所述含噪语音信号在本文由输入频谱Y(μ,k)表示。如上面结合图1所述，对输入频谱进行带通滤波，使得在当前情况下，通过将等式(1)和等式(2)中的干净语音频谱S(μ,k)替换为含噪语音频谱Y(μ,k)来获得所述频谱，这分别可以用等式(5)和等式(6)进行描述：

Y_b1(μ，k)＝Y(μ，k)·H_bp1(μ，k)， (5)

Y_b2(μ，k)＝Y(μ，k)·H_bp2(μ，k)， (6)

其中再次地，H_bp1(μ,k)和H_bp2(μ,k)表示图1中所示的两个带通滤波过程101和102中所采用的传递函数，而Y_b1(μ,k)和Y_b2(μ,k)表示通过利用传递函数H_bp1(μ,k)和H_bp2(μ,k)进行滤波从含噪输入频谱Y(μ,k)推导出的两个带通滤波后频谱。含噪输入频谱Y(μ,k)是干净语音频谱S(μ,k)与背景噪声谱B(μ,k)的组合。

用于改善含噪输入频谱的稳健性的第一措施是对两个带通滤波后频谱Y_b1(μ,k)和Y_b2(μ,k)应用最大值运算。两个带通滤波后频谱Y_b1(μ,k)和Y_b2(μ,k)的频谱分量可以包含在任何子带中的摩擦音能量。将两个频谱相加很可能会导致信噪比的不希望劣化。相反，最大值运算会从两个带通滤波后频谱Y_b1(μ,k)和Y_b2(μ,k)的幅度中精确地选择彼此相对较大的那些子带。通过这种方式，仅选择高能量子带用于进一步处理。最大值(argmax)运算根据等式(7)输出与相应的其他频谱的对应子带相比包含最大能量的那些子带以获得最大频谱Y_bpm(μ,k)：

Y_bpm(μ，k)＝argmax_μ(max|Y_b1(μ，k)|，|Y_b2(μ，k)|)。 (7)

因此，通过带通滤波过程101(例如，在2kHz至4kHz之间)或带通滤波过程102(例如，在4kHz至6kHz之间)来检测最大摩擦音能量的频率范围，即，包括最大幅度或(总)能量的频率范围。此外，因为可以在每个子带上应用最大值运算，所以仅选择包含足够能量的片段。

在不断变化的背景噪声情况下，仅对带通滤波后频谱进行摩擦音检测是不够的。为了对含噪语音信号进行滤波以获得(估计的)干净语音，可以应用不同类型的滤波，诸如标准的(传统的)或修改后的维纳滤波或动态噪声抑制。

诸如维纳滤波器的降噪滤波器的功能是抑制噪声，由此增加信号的信噪比(SNR)。确定信号的信噪比包括幅度平方运算。从信噪比的定义可以看出，为了增加信噪比，仅处理信号的幅度就已经足够了。在频域中，可以应用具有传递函数H(e^jΩ)(e^jΩ是复频率)的噪声抑制滤波器以根据以下等式获得干净语音的

估计值

其中Y(e^jΩ)表示作为传声器的输入的含噪输入频谱，其可以用以下等式描述

Y(e^jΩ)＝S(e^jΩ)+B(e^jΩ) (9)

S(e^jΩ)表示包含在传声器输入中的语音分量，而B(e^jΩ)表示包含在传声器输入和输出中的背景噪声分量，即，要抑制的噪声。因此，所述情况可以看作是单通道降噪问题。具有传递函数H(e^jΩ)(其用于抑制背景噪声B(e^jΩ))的滤波器取决于背景噪声B(e^jΩ)的属性。如果背景噪声B(e^jΩ)以某个固定频率出现，则滤波器可以被设计成在该特定的固定频率(如果已知)处具有衰减以去除例如由电力线在电力线频率的谐波下生成的伪影。这可以例如通过固定滤波器来实现。

然而，背景噪声通常不同于例如固定频率下的恒定噪声。一些背景噪声属性本质上是统计性的，并且可以用其概率分布、一阶矩、二阶矩等来进行最佳描述。单通道语音增强可能涉及用于含噪信号的降噪的统计滤波，诸如维纳滤波。维纳滤波使对平方误差信号的平均值的预期最小化。误差信号是期望信号与估计的期望信号之间的差异。维纳解可以被扩展为适用于语音应用中的降噪。在使频域中的均方误差最小化方面，用于降噪的维纳解或最佳滤波器传递函数H_winener(e^jΩ)通过以下等式给出：

项S_ss(e^jΩ)表示感兴趣信号的功率谱密度(PSD)，而S_bb(e^jΩ)表示背景噪声的功率谱密度。等式(10)描述了感兴趣信号的功率谱密度S_ss(e^jΩ)，它是不可存取的。假设期望信号和失真正交，则含噪输入频谱可以用等式(11)进行描述：

S_yy(e^jΩ)＝S_ss(e^jΩ)+S_bb(e^jΩ)。 (11)

等式(10)在频域中用公式表达，并且可以在子带域中重写，即，可以根据等式(12)进行描述：

因此维纳滤波器可以由子带域传递函数H_wiener(μ,k)表示，并且可以看作取决于帧k中每个子带μ的信噪比的子带衰减滤波器。

表示估计的背景噪声谱，而Y(μ,k)表示输入频谱。标准的维纳滤波器(在子带域中由其传递函数H_wf(μ,k)表示)根据以下等式抑制由背景噪声估计器估计的噪声：

其中Λ_o-est表示噪声高估因子，而H_floor表示用于滤波的固定最小值。

存在用于估计噪声的功率谱密度的几种方法。例如，本文讨论了两种噪声估计过程，其中一种是基本噪声PSD估计器，而另一种是基于含噪信号模型和基本噪声PSD估计器的高级噪声功率谱密度估计器。根据含噪信号模型，噪声和语音信号作为相互正交随机过程而被建模，并且交叉项变为零，因此如等式(14)所示可以直接将其功率谱密度相加：

|Y(μ，k)|²＝|S(μ，k)|²+|B(μ，k)|²。 (14)

基本噪声PSD估计器是根据基于时间常数的乘法方法，并且被操作来以固定常数逐步跟踪和遵循平滑的含噪输入幅度谱。该过程是基于先前的噪声功率估计值而执行以计算当前的噪声功率估计值。所述方法类似于时间递归方法，但是此处仅使用前一噪声估计值，而不是将前一噪声估计值与当前输入幅度结合使用。可以通过以下等式描述这种噪声估计值：

其中

是当前帧k的(背景)噪声谱的估计值，

是前一帧k-1的(背景)噪声谱的估计值，并且Δ_basic(μ，k)是可以根据以下等式确定的时频变化乘法常数：

可以选择增量乘法常数Δ_inc作为时频变化乘法常数，Δ_basic(μ，k)前提是平滑的输入误差幅度谱

大于前一噪声估计值，否则选择减量乘法常数Δ_dec。平滑的误差幅度谱

可以由以下等式(17)进行描述。

平滑化减小了输入误差幅度谱

的方差。可以在每个子带中随时间(帧)执行平滑化。对输入误差频谱的平滑化可以通过一阶无限冲激响应(IIR)滤波器来执行，所述一阶IIR滤波器可以被描述为：

其中α_y表示平滑常数，

表示前一平滑输入误差幅度谱，而Y_mag(μ,k)是根据以下等式来确定：

对噪声功率估计器的跟踪取决于平滑输入幅度谱，其中

表示实部，而

表示虚部。

与维纳滤波相比，动态噪声抑制在噪声抑制方面更为积极。动态噪声抑制意图根据目标噪声形状对噪声进行整形。维纳型噪声抑制滤波会改善含噪输入信号的信噪比，这对于包含语音信号的帧而言是理想的。在仅包含(背景)噪声的帧中，维纳滤波有时可能是不理想的或提供不充分的噪声抑制。在如下实际情况中可能会遇到此类缺点：例如，通信装置可以放置在任何地方和所有地方使得噪声PSD估计器无法跟踪高度非稳态噪声。此外，高度非稳态噪声可能会使听者非常烦恼。

一般来说，噪声整形可以为任何形式，包括例如对残留噪声应用固定噪声形状或固定滤波。在降噪的背景下，可以用控制含噪输入频谱的高动态波动和变化的方式执行系统噪声幅度整形。实现这一点的一种方式是预定义期望噪声形状。通过这样做，可以用使噪声幅度整形的输出等同于期望噪声形状的方式设计合适的滤波器。为了实现动态噪声抑制，有必要确定期望残留噪声的幅度形状。动态噪声抑制可以基于输入幅度谱或输入幅度谱的平滑版本来估计期望的噪声幅度形状(参见上面的等式(18))。因为含噪输入频谱是高度动态的，所以预定义的且固定的形状会产生非常“静态”发声的残留噪声。为了使残留噪声声音对听者来说更加自然和舒适，可以用特定方式估计期望的噪声形状并从含噪输入频谱中“提取”(例如，滤除)期望的噪声形状。例如，可以将对含噪输入幅度谱的长时估计值用作残留噪声的期望形状。可以如等式(19)和(20)所述的那样获得这样的长时估计值：

其中

表示增量或减量常数，而Y_des-shape(μ,k)表示期望的噪声幅度形状，例如基于慢变乘法常数的跟踪器，其可以如下所述：

期望的噪声幅度形状Y_des-shape(μ,k)是通过将噪声幅度形状的前一估计值与增量或减量常数

相乘而获得的。用设定为1.5和0.5的阈值计算当前帧到期望幅度的距离，所述阈值是可以改变或调整的。所述算法还提供了“保持时间”，在“保持时间”期间不会更新期望形状。

动态噪声抑制可以利用被调谐的多个(例如，五个)参数。这些参数影响动态噪声抑制在不同情况下的行为方式。如已经结合等式(20)讨论的那样，可以基于前一期望幅度与当前平滑输入频谱的幅度之间的距离来确定期望幅度。当距离大于1.5或小于0.5时，可以通过将增量或减量常数

替换为固定常数来修改该过程。这些固定跟踪常数可以针对增量部分而被设定为一固定值(例如，1dB/s)并且针对减量部分而被设定为另一个固定值(例如，-6dB/s)。

另一个调谐参数可以通过平滑常数

来解决所确定的抑制因子的频谱平滑化(频率上的平滑化)，所述平滑常数可以用对于远端听者来说从一个帧到另一帧的过渡更加平滑的方式进行调谐。受抑制信号的响度可以通过两个高估参数

和

进行有效控制，其中一个估计参数

控制期望幅度的宽带级，而另一估计参数

控制抑制因子的宽带级。为了进行实际调谐，将参数

设定为维纳滤波器本底H_floor的因子。最后，由动态噪声抑制滤波器应用的控制最大值和最小值抑制的两个参数受最大值和最小值以及抑制参数

和

控制。当应用动态噪声抑制滤波器时，音乐噪声伪影可以是听得见的。这可以通过调谐最大值抑制参数

和最小值抑制参数

来解决。

可以应用动态抑制的修改后版本(由传递函数H_dyf(μ，k)表示)，其可以描述为如下：

其中平滑抑制因子

可以与控制参数

相乘。平滑抑制因子

可以根据等式22来确定：

在抑制因子可用的情况下，最终的“动态”噪声抑制滤波器(其具有传递函数

)通过简单地将计算出的抑制因子偏移期望的抑制量来确定，由以下等式给出：

其中平滑抑制因子可以再次用控制参数

补充。通常基于噪声本底H_floor调谐该参数以考虑在动态抑制方法中应用的抑制量。为了控制不希望的音乐噪声，可以将抑制滤波器限制为最大值和最小值，由以下等式给出：

其中在调谐过程期间调整最小值和最大值。

可以看出，标准的H_wf(μ,k)和动态抑制滤波器H_dyf(μ,k)在闭合性方程中进行组合：

由此推导出的噪声抑制滤波器具有传递函数H_dwf(μ,k)，所述传递函数通过基于频率仓将两个噪声抑制滤波器(例如，标准噪声抑制滤波器和动态噪声抑制滤波器)进行组合而获得，对于所述频率仓，传递函数H_dyf(μ,k)在较低频率μ_bp-low与较高频率μ_bp-high之间的预定义频率范围之外。传递函数H_wf(μ,k)是针对摩擦音能量预期所在的(带通)频率范围而选择的。示例性传递函数H_dwf(μ,k)在图2中通过幅频图示出。

上述滤波方法允许充分去除摩擦音范围内的背景噪声而同时不会损害摩擦音能量。处于摩擦音能量范围之外的频率的信号被视为噪声。这种抑制滤波的传递函数(通常也被称为一个或多个特性)可以诸如由等式(21)描述。然后将确定的传递函数H_dwf(μ,k)应用于最大值运算Y_bpm(μ,k)的结果以获得既没有带外噪声也没有稳态和非稳态背景噪声的频谱，所述频谱在本文中用

表示。这可以用等式(26)进行描述：

根据等式(4)，将当前帧k的能量和前一帧k-1的能量相互比较。对后续帧的能量进行比较是一种任选的检测方式，另一种更稳健的方式是在比较中采用识别过去语音片段的参数θ。参数θ取决于包含在含噪语音信号中的“背景噪声”。如果在特定帧上背景噪声很高，则检测在高度非稳态嘈杂情况下将会失败。例如在置于嘈杂环境中的汽车应用或智能扬声器应用中，语音增强应用可能会发生很大变化。因此，可以根据当前背景噪声情况来估计参数θ。此外，摩擦音跳变比F_ratio(k)可以基于每个子带而不是各个子带的非稳态背景噪声

的总和根据以下等式来确定：

摩擦音跳变比F_ratio(k)可以用于与阈值进行比较以便检测。

为了在背景噪声影响下使检测更加可靠，摩擦音跳变比F_ratio(k)的频带可以在子带域中限制为下限频率μ_fr-min和上限频率μ_fr-max。例如，下限频率μ_fr-min可以被设定为大约1500Hz，而上限频率μ_fr-max可以被设定为大约6000Hz。对带宽进行限制允许更早的检测、在选定的频率范围内更高的频谱信噪比(每个子带)及因此更高的检测概率和在宽范围的嘈杂环境中更大的稳健性。频带受限的摩擦音跳变比F_ratio-bl(k)可以由以下等式进行描述：

基于用于提高稳健性的上述措施，可以通过将频带受限的摩擦音跳变比与阈值进行比较来更可靠地在含噪语音信号中检测出摩擦音片段，F_ratio-bl(k)由以下等式给出：

如果F_ratio-bl(k)>F_thr，则为摩擦音，否则为非摩擦音。 (29)

语音信号中的摩擦音可以用作预检测器以支持其他话音激活检测算法，例如在降噪系统中利用的算法。如上文所讨论的，在用于检测含噪语音帧中的摩擦音的方法中，可以通过三种稳健性增强措施中的至少一种来增强用于摩擦音检测的主要方法。

图3是示出用于含噪语音信号的示例性帧间摩擦音检测方法的信号流结构的框图，所述帧间摩擦音检测方法是基于上面进一步详细描述的方法并且通过由诸如控制器、微处理器、微型计算机等处理单元300执行的程序代码来实现。第一带通滤波器301、第二带通滤波器302和背景噪声估计器303在处理器300中实现，并且经由信号路径305从例如传声器304接收时域(t)含噪语音信号y(t)，所述信号路径可以包括多个信号处理块(未示出)，诸如放大器、一个或多个滤波器、模/数转换器、时频域转换器等。时域含噪语音信号也可以由其频谱进行描述，所述频谱在本文被称为输入频谱Y(μ,k)。

通过两个带通滤波器301和302(其可以与上文结合图1描述的带通滤波器101和102类似或相同)，生成两个局部频谱Y_b1(μ,k)和Y_b2(μ,k)。将两个局部频谱Y_b1(μ,k)和Y_b2(μ,k)供应给最大值检测器306，所述最大值检测器选择两个局部频谱Y_b1(μ,k)和Y_b1(μ,k)中的最大值以作为频谱Y_bpm(μ,k)提供给组合滤波器307、第一噪声抑制器308和第二噪声抑制器309。第一噪声抑制器308以上面描述并且还被称为“标准(类型)噪声抑制”的方式进行操作，并输出第一抑制频谱，在上文被称为频谱H_wf(μ,k)。第二噪声抑制器309以上面描述并且还被称为“动态(类型)噪声抑制”的方式进行操作，并输出第二抑制频谱，在上文被称为频谱H_dyf(μ,k)。第一噪声抑制器308和第二噪声抑制器309还接收由背景噪声估计器303提供的估计的背景噪声谱

除了来自最大值检测器306的频谱Y_bpm(μ,k)之外，组合滤波器307还从第一噪声抑制器308和第二噪声抑制器309接收频谱H_wf(μ,k)和H_dyf(μ,k)，并提供估计的干净语音频谱

用于生成频带受限的摩擦音跳变比的框310接收估计的干净语音频谱

并由此生成比率Fratio-bl(k)，所述比率在比较器311中与给定阈值进行比较以判决是否存在摩擦音。判决结果可以被转发到语音识别系统(未示出)或任何其他语音处理系统。由处理器300进行的操作可以视情况在时域、频域、子带域及其组合中进行。

图4是示出用于含噪语音信号的示例性增强帧间摩擦音检测方法的流程图。用于检测包含干净语音信号和噪声信号的含噪语音信号400中的摩擦音的方法包括：利用具有第一通带范围的第一传递函数对所述含噪语音信号进行带通滤波以提供第一滤波后的含噪语音信号(过程401)，以及利用具有第二通带范围的第二传递函数对所述含噪语音信号进行带通滤波，所述第二通带不同于所述第一通带以提供第二滤波后的含噪语音信号(过程402)。所述方法还包括：对所述第一滤波后的含噪语音信号和所述第二滤波后的含噪语音信号应用最大值运算以提供表示最大摩擦音能量的频率范围的最大频谱(过程403)，以及基于所述最大频谱来判决所述含噪语音信号中是否包含摩擦音(过程404)。任选地，利用作为例如如上所述的标准(传统)噪声抑制滤波器和动态噪声抑制滤波器的两个降噪滤波器的特定组合的滤波器来对所述最大频谱进行滤波(过程405)。任选地，根据由此推导出的滤波后的最大频谱，再次如上面描述的那样确定摩擦音跳变比(过程406)。将所述摩擦音跳变比与阈值进行比较(过程407)以提供表示所述判决的判决信号408。

上述方法可以作为指令被编码在诸如CD ROM、磁盘、快闪存储器、RAM或ROM、电磁信号或其他机器可读介质等计算机可读介质中以供由处理器执行。可选地或另外，可以利用任何类型的逻辑，并且可以使用诸如一个或多个集成电路(包括放大器、加法器、延迟器和滤波器)或执行放大、加法、延迟和滤波指令的一个或多个处理器等硬件将任何类型的逻辑实现为模拟或数字逻辑；或在应用程序编程接口(API)或动态链接库(DLL)中的软件中，将任何类型的逻辑实现为在共享存储器中可用或定义为本地或远程过程调用的功能；或实现为硬件和软件的组合。

所述方法可以由存储在计算机可读介质、机器可读介质、信号传播介质和/或信号承载介质上或之中的软件和/或固件来实现。所述介质可以包括包含、存储、传达、传播或输送可执行指令以供由指令可执行系统、设备或装置使用或与指令可执行系统、设备或装置结合使用的任何装置。机器可读介质可以选择性地为(但不限于)电、磁、光学、电磁或红外信号或半导体系统、设备、装置或传播介质。机器可读介质的示例的非详尽列表包括：磁盘或光盘、易失性存储器，诸如随机存取存储器“RAM”、只读存储器“ROM”、可擦除可编程只读存储器(即，EPROM)或快闪存储器，或光纤。机器可读介质还可以包括上面印刷有可执行指令的有形介质，因为逻辑可以电子方式存储为图像或以另一种格式(例如，通过光学扫描)存储、然后被编译和/或解译或以其他方式进行处理。然后，可以将处理后的介质存储在计算机和/或机器存储器中。

所述系统可以包括附加的或不同的逻辑，并且可以通过多种不同方式来实现。控制器可以实现为微处理器、微控制器、专用集成电路(ASIC)、离散逻辑或其他类型的电路或逻辑的组合。类似地，存储器可以是DRAM、SRAM、快闪存储器或其他类型的存储器。参数(例如，条件和阈值)和其他数据结构可以分开存储和管理，可以合并到单个存储器或数据库中，或者可以通过多种不同方式在逻辑和物理上进行组织。程序和指令集可以是单个程序的多个部分、多个独立程序，或者可以跨多个存储器和处理器分布。所述系统可以包括在各种电子装置中，所述电子装置包括蜂窝电话、头戴式耳机、免提设备、免提电话、通信接口或信息娱乐系统。

已经出于示出和描述的目的而呈现了对实施方案的描述。可以根据以上描述执行或可以在方法实践中获得实施方案的合适修改和变化。例如，除非另外指出，否则所述方法中的一种或多种可以由合适的装置和/或装置组合来执行。所述方法和相关联的动作也可以按照除本申请中所述的顺序之外的各种顺序执行、并行地执行和/或同时地执行。所述系统本质上是示例性的，并且可以包括附加的元件和/或省略元件。

如本申请中所使用的，以单数形式列举并且前面带有单词“一个(a、an)”的元件或步骤应当被理解为并不排除多个所述元件或步骤，除非指出这种排除情况。此外，对本公开的“一个实施方案”或“一个示例”的提及并非意图解释为排除也并入有所列举特征的附加实施方案的存在。术语“第一”、“第二”和“第三”等只用作标签，而不意图对其宾语施加数字要求或特定位置顺序。

尽管已描述了本发明的各种实施方案，但是对于所属领域普通技术人员来说显而易见的是，在本发明的范围内，更多的实施方案和实现方式是可能的。具体地，技术人员将认识到来自不同实施方案的各种特征的可互换性。尽管在某些实施方案和示例的背景中已公开了这些技术和系统，但是应当理解，这些技术和系统可以超出具体公开的实施方案而扩展到其他实施方案和/或用途以及其明显修改。

Claims

1.一种用于检测包括干净语音信号和噪声信号的含噪语音信号中的摩擦音的方法，所述方法包括：

利用具有第一通带范围的第一传递函数对所述含噪语音信号进行带通滤波以提供第一滤波后的含噪语音信号；

利用具有第二通带范围的第二传递函数对所述含噪语音信号进行带通滤波，所述第二通带不同于所述第一通带以提供第二滤波后的含噪语音信号；

对所述第一滤波后的含噪语音信号和所述第二滤波后的含噪语音信号应用最大值运算以提供表示最大摩擦音能量的频率范围的最大频谱；以及

基于所述最大频谱来判决所述含噪语音信号中是否包含摩擦音并提供表示判决的判决信号。

2.如权利要求1所述的方法，其中判决包括通过利用噪声抑制传递函数滤除包含在所述最大频谱中的噪声来估计包含在所述含噪语音信号中的所述干净语音信号的频谱。

3.如权利要求2所述的方法，其还包括估计背景噪声以提供所述背景噪声的估计频谱，其中估计所述干净语音信号的所述频谱是基于所述背景噪声的所述估计频谱。

4.如权利要求3所述的方法，其中所述噪声抑制传递函数选自两个不同的主噪声抑制传递函数，所述两个主噪声抑制传递函数是基于所述背景噪声的所述估计频谱来确定的，所做的选择取决于频率是在预定义频率范围之内还是之外。

5.如权利要求4所述的方法，其中所述主噪声抑制传递函数中的一者是维纳滤波器传递函数。

6.如权利要求4或5所述的方法，其中所述主噪声抑制传递函数中的另一者是以高估权重对所述背景噪声进行加权的维纳滤波器传递函数。

7.如权利要求4至6中任一项所述的方法，其中针对摩擦音能量被预期所在的频率范围选择所述主噪声抑制传递函数中的一者，否则选择另一主噪声抑制传递函数。

8.如权利要求1至7中任一项所述的方法，其中基于包含在所述估计的干净语音频谱中的每个子带的非稳态背景噪声的总和来确定摩擦音跳变比，并且通过将所述摩擦音跳变比与预定阈值进行比较来做出是否存在摩擦音的判决。

9.如权利要求8所述的方法，其中所述摩擦音跳变比在频谱上是频带受限的。

10.如权利要求8或9所述的方法，其中基于表示过去语音片段的参数来确定所述摩擦音跳变比。

11.一种用于检测包括干净语音信号和噪声信号的含噪语音信号中的摩擦音的系统，所述系统包括连接到输入和输出的至少一个处理单元，所述系统被配置为：

12.如权利要求11所述的系统，其中判决包括通过利用噪声抑制传递函数滤除包含在所述最大频谱中的噪声来估计包含在所述含噪语音信号中的所述干净语音信号的频谱。

13.如权利要求12所述的系统，其中所述至少一个处理单元还被配置为估计背景噪声以提供所述背景噪声的估计频谱，其中估计所述干净语音信号的所述频谱是基于所述背景噪声的所述估计频谱。

14.如权利要求13所述的系统，其中所述至少一个处理单元还被配置为从两个不同的主噪声抑制传递函数中选择所述噪声抑制传递函数，所述两个主噪声抑制传递函数是基于所述背景噪声的所述估计频谱来确定的，所做的选择取决于频率是在预定义频率范围之内还是之外。

15.如权利要求14所述的系统，其中所述主噪声抑制传递函数中的一者是维纳滤波器传递函数。

16.如权利要求14或15所述的系统，其中所述主噪声抑制传递函数中的另一者是以高估权重对所述背景噪声进行加权的维纳滤波器传递函数。

17.如权利要求14至16中的任一项所述的系统，其中所述至少一个处理单元还被配置为针对摩擦音能量被预期所在的频率范围选择所述主噪声抑制传递函数中的一者，其中否则选择另一主噪声抑制传递函数。

18.如权利要求11至17中任一项所述的系统，其中所述至少一个处理单元还被配置为基于包含在所述估计的干净语音频谱中的每个子带的非稳态背景噪声的总和来确定摩擦音跳变比，并且通过将所述摩擦音跳变比与预定阈值进行比较来做出是否存在摩擦音的判决。

19.如权利要求18所述的系统，其中所述摩擦音跳变比在频谱上是频带受限的。

20.如权利要求18或19所述的系统，其中所述至少一个处理单元还被配置为基于表示过去语音片段的参数来确定所述摩擦音跳变比。

21.一种计算机可读存储介质，其包括指令，所述指令在由计算机执行时使所述计算机执行权利要求1至10中任一项所述的方法。