CN104112446A

CN104112446A - 呼吸声检测方法及装置

Info

Publication number: CN104112446A
Application number: CN201310137268.5A
Authority: CN
Inventors: 张德军; 王田; 吴文海
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-04-19
Filing date: 2013-04-19
Publication date: 2014-10-22
Anticipated expiration: 2033-04-19
Also published as: CN104112446B

Abstract

本发明实施例提供一种呼吸声检测方法及装置。方法包括：获取输入语音帧，并提取所述语音帧的特征参数；判断所述语音帧是否是独立语音段的截止帧；如果判断结果为是，根据所述独立语音段包含的语音帧的特征参数，和/或，根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声。本发明技术方案解决了现有技术中参会者的呼吸声会降低通话质量的问题。

Description

呼吸声检测方法及装置

技术领域

本发明实施例涉及通信技术，尤其涉及一种呼吸声检测方法及装置。

背景技术

在基于网际协议（Internet Protocol，简称为IP）的语音会议中，每个参会者在通话前需要事先带好耳机，并凭感觉将麦克风放置到与嘴对应的某个位置。在实际通话过程中，在参会者讲话时，由于麦克风到其嘴和/或鼻孔的距离的不同，会产生不同的通话效果。其中，如果麦克风位于鼻孔下方且距离鼻孔较近，不仅在参会者讲话的情况下，即使在参会者不讲话的情况下，麦克风也会采集到参会者的呼吸声并传递到对方，这会极大的降低整个语音会议的通话质量。

发明内容

本发明实施例提供一种呼吸声检测方法及装置，用以解决现有技术中参会者的呼吸声会降低通话质量的问题。

第一方面提供一种呼吸声检测方法，包括：

获取输入语音帧，并提取所述语音帧的特征参数；

判断所述语音帧是否是独立语音段的截止帧；

如果判断结果为是，根据所述独立语音段包含的语音帧的特征参数，和/或，根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声。

结合第一方面，在第一方面的第一种可能的实现方式中，所述判断所述语音帧是否是独立语音段的截止帧包括：

如果所述语音帧是静音帧，且所述语音帧的上一个语音帧为非静音帧，则确定所述语音帧是所述独立语音段的截止帧。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据所述独立语音段包含的语音帧的特征参数，判断所述独立语音段是否为呼吸声包括：

根据所述独立语音段包含的语音帧的特征参数，获取所述独立语音段对应的特征参数；

将所述独立语音段对应的特征参数与预设的参数门限进行比较，以判断所述独立语音段是否为呼吸声。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述语音帧的特征参数包括以下任一参数或其组合：基音周期、基音增益和长时预测压缩比；

所述根据所述独立语音段包含的语音帧的特征参数，获取所述独立语音段对应的特征参数包括以下任一操作或其组合：

对所述独立语音段包含的语音帧的基音增益进行统计，获取基音增益低于基音增益门限的语音帧在所述独立语音段包含的所有语音帧中的比例，作为所述独立语音段对应的呼吸帧比例；

计算所述独立语音段包含的语音帧的长时预测压缩比的平均值，将所述平均值作为所述独立语音段对应的平均长时压缩比；

根据所述独立语音段包含的语音帧的基音周期，获取最大连续稳定帧包括的语音帧的帧数，作为所述独立语音段对应的连续平滑基音周期帧数，所述连续稳定帧包括至少两个连续的语音帧，且两两相邻语音帧的基音周期的差值均小于基音周期门限。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述将所述独立语音段对应的特征参数与预设的参数门限进行比较，以判断所述独立语音段是否为呼吸声包括：

如果所述独立语音段对应的呼吸帧比例小于呼吸帧比例门限，且所述独立语音段对应的连续平滑基音周期帧数小于或等于第一帧数门限，则判定所述独立语音段为非呼吸声；或者

如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第二帧数门限，且所述独立语音段对应的平均长时压缩比大于第一压缩比门限，则判定所述独立语音段为非呼吸声；或者

如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第三帧数门限，且所述独立语音段对应的平均长时压缩比大于第二压缩比门限，则判定所述独立语音段为非呼吸声；或者

如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第四帧数门限，且所述独立语音段对应的平均长时压缩比大于第三压缩比门限，则判定所述独立语音段为非呼吸声；或者

如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第五帧数门限，则判定所述独立语音段为非呼吸声。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声包括：

如果所述独立语音段包含的语音帧的数量小于或等于预设的门限，则判定所述独立语音段为非呼吸声。

结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式或第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述方法还包括：

如果判定所述独立语音段是呼吸声，通过用户界面向用户显示提示信息，以告知所述用户检测到呼吸声，和/或，向所述用户发出提示音，以告知所述用户检测到呼吸声。

第二方面提供一种呼吸声检测装置，包括：

获取模块，用于获取输入语音帧；

特征提取模块，用于提取所述获取模块获取的所述语音帧的特征参数；

第一判断模块，用于判断所述获取模块获取的所述语音帧是否是独立语音段的截止帧；

第二判断模块，用于在所述第一判断模块的判断结果为是时，根据所述特征提取模块提取的所述独立语音段包含的语音帧的特征参数，和/或，根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声。

结合第二方面，在第二方面的第一种可能的实现方式中，所述第一判断模块具体用于在判断出所述获取模块获取的所述语音帧是静音帧，且所述语音帧的上一个语音帧是非静音帧时，确定所述获取模块获取的所述语音帧是所述独立语音段的截止帧。

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述第二判断模块包括：

第一判断单元，用于在所述第一判断模块的判断结果为是时，根据所述特征提取模块提取的所述独立语音段包含的语音帧的特征参数，判断所述独立语音段是否为呼吸声；

和/或，

第二判断单元，用于在所述第一判断模块的判断结果为是时，根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述第一判断单元包括：

获取子单元，用于根据所述特征提取模块所提取的所述独立语音段包含的语音帧的特征参数，获取所述独立语音段对应的特征参数；

判断子单元，用于在所述第一判断模块的判断结果为是时，将所述获取子单元获取的所述独立语音段对应的特征参数与预设的参数门限进行比较，以判断所述独立语音段是否为呼吸声。

结合第二方面的第二种可能的实现方式，在第二方面的第四种可能的实现方式中，所述语音帧的特征参数包括以下任一参数或其组合：基音周期、基音增益和长时预测压缩比；

所述获取子单元具体用于对所述独立语音段包含的语音帧的基音增益进行统计，获取基音增益低于基音增益门限的语音帧在所述独立语音段包含的所有语音帧中的比例，作为所述独立语音段对应的呼吸帧比例；和/或

所述获取子单元具体用于计算所述独立语音段包含的语音帧的长时预测压缩比的平均值，将所述平均值作为所述独立语音段对应的平均长时压缩比；和/或

所述获取子单元具体用于根据所述独立语音段包含的语音帧的基音周期，获取最大连续语音帧包括的语音帧的帧数，作为所述独立语音段对应的连续平滑基音周期帧数，所述连续稳定帧包括至少两个连续的语音帧，且两两相邻语音帧的基音周期的差值均小于基音周期门限。

结合第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述判断子单元具体用于如果所述独立语音段对应的呼吸帧比例小于呼吸帧比例门限，且所述独立语音段对应的连续平滑基音周期帧数小于或等于第一帧数门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第二帧数门限，且所述独立语音段对应的平均长时压缩比大于第一压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第三帧数门限，且所述独立语音段对应的平均长时压缩比大于第二压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第四帧数门限，且所述独立语音段对应的平均长时压缩比大于第三压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第五帧数门限，则判定所述独立语音段为非呼吸声。

结合第二方面的第二种可能的实现方式，在第二方面的第六种可能的实现方式中，所述第二判断单元具体用于如果所述独立语音段包含的语音帧的数量小于或等于预设的门限，则判定所述独立语音段为非呼吸声。

结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式或第二方面的第四种可能的实现方式或第二方面的第五种可能的实现方式或第二方面的第六种可能的实现方式，在第二方面的第七种可能的实现方式中，所述装置还包括：

显示模块，用于如果所述第二判断模块判定所述独立语音段是呼吸声，通过用户界面向用户显示提示信息，以告知所述用户检测到呼吸声；

和/或，

提示音模块，用于如果所述第二判断模块判定所述独立语音段是呼吸声，向所述用户发出提示音，以告知所述用户检测到呼吸声。

本发明实施例提供的呼吸声检测方法及装置，获取输入语音帧，提取语音帧的特征参数，判断所获取的语音帧是否是独立语音段的截止帧，如果判断结果为是，即说明所获取的语音帧可以构成独立语音段，则根据该独立语音段包含的语音帧的特征参数，和/或，根据该独立语音段包含的语音帧的帧数，判断该独立语音段是否为呼吸声，该呼吸声检测方法可用于任何语音通信，例如可应用于语音会议，对于语音会议中的参与者可以根据该独立语音段是否为呼吸声的判断结果，适应性的调整麦克风距离嘴和/或鼻孔的位置，从而降低呼吸声对通话质量的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种呼吸声检测方法的流程图；

图2为本发明实施例提供的步骤102的一种可选实施方式的流程图；

图3为本发明实施例提供的另一种呼吸声检测方法的流程图；

图4为本发明实施例提供的一种呼吸声检测装置的结构示意图；

图5为本发明实施例提供的另一种呼吸声检测装置的结构示意图；

图6为本发明实施例提供的又一种呼吸声检测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种呼吸声检测方法的流程图。如图1所示，所述方法包括：

101、获取输入语音帧，并提取所述语音帧的特征参数。

102、判断所获取的语音帧是否是独立语音段的截止帧；如果判断结果为是，则执行步骤103；如果判断结果为否，则返回继续执行步骤101。

103、根据所述独立语音段包含的语音帧的特征参数，和/或，根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声。

在发明本实施例中，语音帧包括多种类型，例如包括静音帧、浊音帧、清音帧以及其他类型的帧；其中，除静音帧之外的浊音帧、清音帧及其它类型的帧，可称为非静音帧。其中，静音帧是指没有检测到语音，为背景噪声的语音帧；浊音帧是指具有周期特性的语音帧；清音帧是指没有周期特性的语音帧。

在本实施例中，呼吸声检测装置获取语音帧，所述语音帧主要是指从麦克风采集的语音信号，根据语音通信场景以及使用的通信设备等的不同，语音帧的长度会有所不同，对于实时通信的场景，语音帧的长度一般在20毫秒（ms）左右，但不限于此。

在本实施例中，呼吸声检测装置会周期性的获取语音帧，并对获取的语音帧进行特征参数的提取，同时判断获取的语音帧是否为独立语音段的截止帧，即判断到当前获取的语音帧是否构成一个独立语音段；如果判断结果为是，进一步可以判断该独立语音段是否为呼吸声。

本发明实施例中的独立语音段（talk spurt）是指连续两个静音帧之间的活动语音，通俗的理解就是从检测到的一个起始帧开始作为所述独立语音段的起始点，继续获取语音帧直到获取到一个截止帧，则将这段语音称为一个独立独立语音段。其中，如果在上一个独立语音段结束后或者在语音检测刚开始时，检测到第一个静音帧且该静音帧的下一帧为非静音帧，则将这个静音帧称为一个独立语音段的起始帧；如果在检测到起始帧之后，又检测到的静音帧且又检测到的静音帧的下一个语音帧是非静音帧，则将又检测到的静音帧称为该独立语音段的截止帧。

基于此，步骤102的实施方式包括：如果所获取的语音帧是静音帧，且该语音帧的上一个语音帧为非静音帧，则可以确定所获取的语音帧是独立语音段的截止帧。

基于前面对静音帧和截止帧等的定义，呼吸声检测装置可以根据每个语音帧的特征参数中的谱倾斜、能量以及长时预测压缩比等参数，区分每个语音帧具体是哪种类型的语音帧，即可以区分每个语音帧是否是静音帧，进而区分每个语音帧是否是截止帧等，进而可以根据前面对独立语音段的定义，确定出所获取的语音帧是否可以构成独立的独立语音段。

其中，语音帧的谱倾斜可以根据公式（1），计算获得。

μ = \frac{Σ_{i = 1}^{L - 1} x (i) \times x (i - 1)}{\sqrt{Σ_{i = 0}^{L - 1} x (i) \times x (i)} \cdot \sqrt{Σ_{i = 1}^{L - 1} x (i - 1) \times x (i - 1)}} - - - (1)

公式（1）中，μ为语音帧的谱倾斜；x(i)表示所述语音帧中的第i个采样点，x(i-1)表示所述语音帧中的第i-1个采样点；L表示所述语音帧的长度（简称为帧长）。

语音帧的长时预测压缩比可以根据公式（2）计算获得。

cmpratio = 10 \log 10 (\frac{Σ_{i = 0}^{L - 1} x^{2} (i)}{Σ_{i = 0}^{L - 1} {res}^{2} (i)}) - - - (2)

公式（2）中，cmpratio表示所述语音帧的长时预测压缩比；x(i)表示所述语音帧中的第i个符号；L表示所述语音帧的长度；res(i)表示所述语音帧的长时预测参差信号，res(i)=x(i)-pit_gain×x(i-pit),i=0,1,...,L-1。其中，pit为所述语音帧的基音周期，pit=max{k|g(k)}；pit_gain表示所述语音帧的基音增益，pit_gain=g(pit)。g(k)如公式（3）：

g (k) = \frac{Σ_{i = 0}^{L - 1} x (i) \times x (i - k)}{\sqrt{Σ_{i = 0}^{L - 1} x (i) \times x (i)}}, k &Element; [PIT_MIN, PIT_MAX] - - - (3)

公式（3）中，PIT_MIN为可允许的基音周期的最小值，PIT_MAX为可允许的基音周期的最大值。使上述公式（3）最大的k值即为基音周期pit，根据最大k值计算出的结果即为基音增益pit_gain。

在本实施例中，当判断出当前已经接收的语音帧可以构成一个独立语音段后，呼吸声检测装置可以根据该独立语音段包含的语音帧的特征参数，判断该独立语音段是否为呼吸声；或者，呼吸声检测装置可以根据该独立语音段包含的语音帧的帧数，判断该独立语音段是否为呼吸声；或者，呼吸声检测装置可以同时根据该独立语音段包含的语音帧的特征参数和该独立语音段包含的语音帧的帧数，判断该独立语音段是否为呼吸声。

由上述可见，在本实施例中，呼吸声检测装置获取语音帧，提取语音帧的特征参数，在判断出所获取的语音帧是独立语音段的截止帧时，则根据该独立语音段包含的语音帧的特征参数，和/或，根据该独立语音段包含的语音帧的帧数，判断该独立语音段是否为呼吸声，该呼吸声检测方法可用于任何语音通信，例如可应用于语音会议，对于语音会议中的参与者可以根据该独立语音段是否为呼吸声的判断结果，适应性的调整麦克风距离嘴和/或鼻孔的位置，从而降低呼吸声对通话质量的影响。

在本实施例的一可选实施方式中，给出一种根据所述独立语音段包含的语音帧的特征参数，判断所述独立语音段是否为呼吸声的实施方式，如图2所示，所述实施方式包括：

1021、根据所述独立语音段包含的语音帧的特征参数，获取所述独立语音段对应的特征参数。

1022、将所述独立语音段对应的特征参数与预设的参数门限进行比较，以判断所述独立语音段是否为呼吸声。

该实施方式主要是通过对该独立语音段包含的语音帧的特征参数进行统计，获取该独立语音段对应的特征参数，再根据该独立语音段对应的特征参数判断该独立语音段是否为呼吸声。

本发明实施例中，所述语音帧的特征参数包括但不限于以下任一参数或其组合：能量、谱倾斜、基音周期、基音增益和长时预测压缩比。进一步，本发明实施例中，可用于判断独立语音段是否为呼吸声的语音帧的特征参数包括但不限于以下任一参数或其组合：基音周期、基音增益和长时预测压缩比。关于基音周期、基音增益和长时预测压缩比的计算过程，可采用前述相应的公式。

基于上述用于判断独立语音段是否为呼吸声的语音帧的特征参数，步骤1021的一种可选实施方式包括以下任一操作或其组合：

根据所述独立语音段包含的语音帧的基音周期，获取最大连续语音帧包括的语音帧的帧数，作为所述独立语音段对应的连续平滑基音周期帧数。其中，所述连续稳定帧包括至少两个连续的语音帧，且两两相邻语音帧的基音周期的差值均小于基音周期门限。最大连续语音帧是指包含的连续语音帧最多的连续语音帧。

基于上述，在统计完所述独立语音段对应的特征参数后，在该独立语音段截止后进行如下条件判决，如果满足如下任一条件，则不是呼吸声，其余均为呼吸声。即步骤1022的一种可选实施方式可以包括：

在此说明，根据不同的通话场景，上述各种门限的取值可能不同。本发明实施例对上述各门限的取值不做限定。下面以语音帧的长度为20ms为例，对上述各门限的取值进行举例说明。

例如，上述呼吸帧比例门限可以设置为0.45，第一帧数门限可以设置为1，则如果所述独立语音段对应的呼吸帧比例<0.45，且所述独立语音段对应的连续平滑基音周期帧数<=1，则判定所述独立语音段为非呼吸声。

例如，上述第二帧数门限可以设置为4，第一压缩比门限可以设置为1.0，则如果所述独立语音段对应的连续平滑基音周期帧数>=4，且所述独立语音段对应的平均长时压缩比>1.0，则判定所述独立语音段为非呼吸声。

例如，上述第三帧数门限可以设置为3，第二压缩比门限可以设置为1.48，则如果所述独立语音段对应的连续平滑基音周期帧数>=3，且所述独立语音段对应的平均长时压缩比>1.48，则判定所述独立语音段为非呼吸声。

例如，上述第四帧数门限可以设置为2，第三压缩比门限可以设置为2.0，则如果所述独立语音段对应的连续平滑基音周期帧数>=2，且所述独立语音段对应的平均长时压缩比>2.0，则判定所述独立语音段为非呼吸声。

例如，上述第五帧数门限可以设置为5，则如果所述独立语音段对应的连续平滑基音周期帧数>=5，则判定所述独立语音段为非呼吸声。

在本实施例的另一可选实施方式中，给出一种根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声的实施方式，包括：判断所述独立语音段包含的语音帧的数量是否小于或等于预设的门限；如果判断出所述独立语音段包含的语音帧的数量小于或等于预设的门限，则判定所述独立语音段为非呼吸声。本发明实施例对所述门限的取值也不做限定，例如可以是15，则当所述独立语音段包含的语音帧的数量<=15时，判定所述独立语音段为非呼吸声。

在此说明，上述可选实施方式给出的根据所述独立语音段包含的语音帧的特征参数，判断所述独立语音段是否为呼吸声的实施方式，与给出的根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声的实施方式，可以进行组合扩展出更多实施方式。

图3为本发明实施例提供的另一种呼吸声检测方法的流程图。如图3所示，所述方法包括：

301、获取输入语音帧，并提取所述语音帧的特征参数。

302、判断所获取的语音帧是否是独立语音段的截止帧；如果判断结果为是，则执行步骤303；如果判断结果为否，则返回继续执行步骤301。

303、根据所述独立语音段包含的语音帧的特征参数，和/或，根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声；如果判断结果为是，则执行步骤304；如果判断结果为否，结束此次操作。

上述步骤301-303可参见上述步骤101-103的描述，在此不再赘述。

304、通过用户界面向用户显示提示信息，以告知所述用户检测到呼吸声，和/或，向所述用户发出提示音，以告知所述用户检测到呼吸声。

在本实施例中，如果判断出所述独立语音段为呼吸声，则通过用户界面向用户显示提示信息，以告知用户检测到呼吸声，或者通过向用户发出提示音，以告知用户检测到呼吸声，有利于用户及时调整麦克风与嘴和/或鼻孔的位置，以降低呼吸声，减少呼吸声对通话质量的影响。

可选的，通过用户界面向用户显示的提示信息的方式可以是在用户界面上弹出一个窗口，窗口中有文字信息，提示用户检测到呼吸声，以便用户及时调整麦克风的位置；还可以是在用户界面上弹出一个窗口，窗口中为图片信息，提示用户检测到呼吸声，以便用户及时调整麦克风的位置。

图4为本发明实施例提供的一种呼吸声检测装置的结构示意图。如图4所示，所述装置包括：获取模块41、特征提取模块42、第一判断模块43和第二判断模块44。

获取模块41，用于获取输入语音帧。

特征提取模块42，与获取模块41连接，用于提取获取模块41获取的所述语音帧的特征参数。

第一判断模块43，与获取模块41连接，用于判断获取模块41获取的所述语音帧是否是独立语音段的截止帧。

第二判断模块44，与第一判断模块43和特征提取模块42连接，用于在第一判断模块43的判断结果为是时，根据特征提取模块42提取的所述独立语音段包含的语音帧的特征参数，和/或，根据所述独立语音段包含的语音帧的帧数，判断所述语音帧是否为呼吸声。

在一可选实施方式中，第一判断模块43具体用于在判断出获取模块41获取的所述语音帧是静音截，且所述语音帧的上一个语音帧为非静音帧时，确定获取模块41获取的所述语音帧是所述独立语音段的截止帧。

在一可选实施方式中，如图5所示，第二判断模块44包括：第一判断单元441和/或第二判断单元442。

第一判断单元441，用于在第一判断模块43的判断结果为是时，根据特征提取模块42提取的所述独立语音段包含的语音帧的特征参数，判断所述独立语音段是否为呼吸声。

第二判断单元442，用于在第一判断模块43的判断结果为是时，根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声。

可选的，如图5所示，第一判断单元441包括：获取子单元4411和判断子单元4412。

获取子单元4411，用于根据特征提取模块42所提取的所述独立语音段包含的语音帧的特征参数，获取所述独立语音段对应的特征参数。

判断子单元4412，用于在第一判断模块43的判断结果为是时，将获取子单元4411获取的所述独立语音段对应的特征参数与预设的参数门限进行比较，以判断所述独立语音段是否为呼吸声。

可选的，本实施例中语音帧的特征参数可以包括以下任一参数或其组合：基音周期、基音增益和长时预测压缩比。

基于上述，获取子单元4411具体用于对所述独立语音段包含的语音帧的基音增益进行统计，获取基音增益低于基音增益门限的语音帧在所述独立语音段包含的所有语音帧中的比例，作为所述独立语音段对应的呼吸帧比例。和/或

获取子单元4411具体用于计算所述独立语音段包含的语音帧的长时预测压缩比的平均值，将所述平均值作为所述独立语音段对应的平均长时压缩比。和/或

获取子单元4411具体用于根据所述独立语音段包含的语音帧的基音周期，获取最大连续语音帧包括的语音帧的帧数，作为所述独立语音段对应的连续平滑基音周期帧数。其中，所述连续稳定帧包括至少两个连续的语音帧，且两两相邻语音帧的基音周期的差值均小于基音周期门限。

相应的，判断子单元4412具体用于如果所述独立语音段对应的呼吸帧比例小于呼吸帧比例门限，且所述独立语音段对应的连续平滑基音周期帧数小于或等于第一帧数门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第二帧数门限，且所述独立语音段对应的平均长时压缩比大于第一压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第三帧数门限，且所述独立语音段对应的平均长时压缩比大于第二压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第四帧数门限，且所述独立语音段对应的平均长时压缩比大于第三压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第五帧数门限，则判定所述独立语音段为非呼吸声。

可选的，第二判断单元442具体用于如果所述独立语音段包含的语音帧的数量小于或等于预设的门限，则判定所述独立语音段为非呼吸声。

在一可选实施方式中，如图5所示，所述呼吸声检测装置还包括：显示模块45和/或提示音模块46。

显示模块45，用于如果第二判断模块44判定所述独立语音段是呼吸声，通过用户界面向用户显示提示信息，以告知所述用户检测到呼吸声。

提示音模块46，用于如果第二判断模块44判定所述独立语音段是呼吸声，向所述用户发出提示音，以告知所述用户检测到呼吸声。

本实施例提供的呼吸声检测装置的各功能模块或单元可用于执行图1-图3所示方法实施例的流程，其具体工作原理不再赘述，详见方法实施例的描述。

本实施例提供的呼吸声检测装置，获取输入语音帧，提取语音帧的特征参数，判断所获取的语音帧是否是独立语音段的截止帧，如果判断结果为是，说明所获取的语音帧可以构成独立语音段，则根据该独立语音段包含的语音帧的特征参数，和/或，根据该独立语音段包含的语音帧的帧数，判断该独立语音段是否为呼吸声，该呼吸声检测方法可用于任何语音通信，例如可应用于语音会议，对于语音会议中的参与者可以根据该独立语音段是否为呼吸声的判断结果，适应性的调整麦克风距离嘴和/或鼻孔的位置，从而降低呼吸声对通话质量的影响。

图6为本发明实施例提供的又一种呼吸声检测装置的结构示意图。如图6所示，所述装置包括：存储器61和处理器62。

存储器61，用于存储程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。

存储器61可以包含高速RAM存储器，也可以包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

处理器62，用于获取输入语音帧，提取所述获取模块获取的所述语音帧的特征参数，判断所获取的所述语音帧是否是独立语音段的截止帧，在判断结果为是时，根据所提取的所述独立语音段包含的语音帧的特征参数，和/或，根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声。

在一可选实施方式中，处理器62用于判断所获取的所述语音帧是否是独立独立语音段的截止帧包括：处理器62具体用于在判断出所获取的所述语音帧是静音帧，且所述语音帧的上一个语音帧为非静音帧时，确定所获取的所述语音帧是所述独立语音段的截止帧。

在一可选实施方式中，处理器62用于根据所提取的所述独立语音段包含的语音帧的特征参数，判断所述独立语音段是否为呼吸声包括：处理器62具体用于根据所提取的所述独立语音段包含的语音帧的特征参数，获取所述独立语音段对应的特征参数，在判断出所获取的语音帧构成所述独立语音段时，将所获取的所述独立语音段对应的特征参数与预设的参数门限进行比较，以判断所述独立语音段是否为呼吸声。

其中，本实施例中所述语音帧的特征参数包括以下任一参数或其组合：基音周期、基音增益和长时预测压缩比。

基于上述特征参数，处理器62用于根据所提取的所述独立语音段包含的语音帧的特征参数，获取所述独立语音段对应的特征参数包括：处理器62具体用于对所述独立语音段包含的语音帧的基音增益进行统计，获取基音增益低于基音增益门限的语音帧在所述独立语音段包含的所有语音帧中的比例，作为所述独立语音段对应的呼吸帧比例；和/或，计算所述独立语音段包含的语音帧的长时预测压缩比的平均值，将所述平均值作为所述独立语音段对应的平均长时压缩比；和/或，根据所述独立语音段包含的语音帧的基音周期，获取最大连续语音帧包括的语音帧的帧数，作为所述独立语音段对应的连续平滑基音周期帧数。其中，所述连续稳定帧包括至少两个连续的语音帧，且两两相邻语音帧的基音周期的差值均小于基音周期门限。

相应的，处理器62用于将所获取的所述独立语音段对应的特征参数与预先设定的参数门限进行比较，以判断所述独立语音段是否为呼吸声包括：处理器62具体用于如果所述独立语音段对应的呼吸帧比例小于呼吸帧比例门限，且所述独立语音段对应的连续平滑基音周期帧数小于或等于第一帧数门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第二帧数门限，且所述独立语音段对应的平均长时压缩比大于第一压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第三帧数门限，且所述独立语音段对应的平均长时压缩比大于第二压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第四帧数门限，且所述独立语音段对应的平均长时压缩比大于第三压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第五帧数门限，则判定所述独立语音段为非呼吸声。

在一可选实施方式中，处理器62用于根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声包括：处理器62具体用于如果所述独立语音段包含的语音帧的数量小于或等于预设的门限，则判定所述独立语音段为非呼吸声。

处理器62可以是一个中央处理器（Central Processing Unit，简称为CPU），具体可用于执行存储器61存储的程序来完成上述功能；或者可以是特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者是被配置成实施本发明实施例的一个或多个集成电路。

进一步，如图6所示，所述呼吸声检测装置还包括：显示器63。

显示器63，用于如果处理器62判定所述独立语音段是呼吸声，通过用户界面向用户显示提示信息，以告知所述用户检测到呼吸声。

进一步，如图6所示，所述呼吸声检测装置还包括：音视频模块64。

音视频模块64，用于如果处理器62判定所述独立语音段是呼吸声，向所述用户发出提示音，以告知所述用户检测到呼吸声。

进一步，如图6所示，所述呼吸声检测装置还包括：通信接口65，主要负责完成所述呼吸声检测装置与其他设备之间的通信。通信接口65可以是呼吸声检测装置上的各种通信模块，例如WiFi模块、红外模块或射频（RadioFrequency，简称为RF）模块等。

可选的，在具体实现上，如果存储器61、处理器62、显示器63、音视频模块64和通信接口65独立实现，则存储器61、处理器62、显示器63、音视频模块64和通信接口65可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构（Industry Standard Architecture，简称为ISA）总线、外部设备互连（Peripheral Component，简称为PCI）总线或扩展工业标准体系结构（Extended Industry Standard Architecture，简称为EISA）总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器61、处理器62、显示器63、音视频模块64和通信接口65集成在一块芯片上实现，则存储器61、处理器62、显示器63、音视频模块64和通信接口65可以通过内部接口完成相同间的通信。

本实施例提供的呼吸声检测装置可用于执行图1-图3所示方法实施例的流程，其具体工作原理不再赘述，详见方法实施例的描述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种呼吸声检测方法，其特征在于，包括：

获取输入语音帧，并提取所述语音帧的特征参数；

判断所述语音帧是否是独立语音段的截止帧；

2.根据权利要求1所述的方法，其特征在于，所述判断所述语音帧是否是独立语音段的截止帧包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述独立语音段包含的语音帧的特征参数，判断所述独立语音段是否为呼吸声包括：

4.根据权利要求3所述的方法，其特征在于，所述语音帧的特征参数包括以下任一参数或其组合：

基音周期、基音增益和长时预测压缩比；

5.根据权利要求4所述的方法，其特征在于，所述将所述独立语音段对应的特征参数与预设的参数门限进行比较，以判断所述独立语音段是否为呼吸声包括：

6.根据权利要求1或2所述的方法，其特征在于，所述根据所述独立语音段包含的语音帧的帧数，判断所述独立语音段是否为呼吸声包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：

8.一种呼吸声检测装置，其特征在于，包括：

获取模块，用于获取输入语音帧；

9.根据权利要求8所述的装置，其特征在于，所述第一判断模块具体用于在判断出所述获取模块获取的所述语音帧是静音帧，且所述语音帧的上一个语音帧是非静音帧时，确定所述获取模块获取的所述语音帧是所述独立语音段的截止帧。

10.根据权利要求8或9所述的装置，其特征在于，所述第二判断模块包括：

和/或，

11.根据权利要求10所述的装置，其特征在于，所述第一判断单元包括：

12.根据权利要求11所述的装置，其特征在于，所述语音帧的特征参数包括以下任一参数或其组合：

基音周期、基音增益和长时预测压缩比；

13.根据权利要求12所述的装置，其特征在于，所述判断子单元具体用于如果所述独立语音段对应的呼吸帧比例小于呼吸帧比例门限，且所述独立语音段对应的连续平滑基音周期帧数小于或等于第一帧数门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第二帧数门限，且所述独立语音段对应的平均长时压缩比大于第一压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第三帧数门限，且所述独立语音段对应的平均长时压缩比大于第二压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第四帧数门限，且所述独立语音段对应的平均长时压缩比大于第三压缩比门限，则判定所述独立语音段为非呼吸声，或者，如果所述独立语音段对应的连续平滑基音周期帧数大于或等于第五帧数门限，则判定所述独立语音段为非呼吸声。

14.根据权利要求10所述的装置，其特征在于，所述第二判断单元具体用于如果所述独立语音段包含的语音帧的数量小于或等于预设的门限，则判定所述独立语音段为非呼吸声。

15.根据权利要求8-14任一项所述的装置，其特征在于，还包括：

和/或，