CN111009263A

CN111009263A - 一种用于肺部啰音识别的系统及方法

Info

Publication number: CN111009263A
Application number: CN201911385046.9A
Authority: CN
Inventors: 路程; 刘国栋; 李鑫慧; 许梓艺; 刘炳国; 林春红; 侯代玉; 包智慧; 王晓辉
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2020-04-14

Abstract

一种用于肺部啰音识别的系统及方法，它属于机器学习的分类技术领域。本发明解决了现有研究对肺部啰音识别的准确率低的问题。本发明首先对输入的原始呼吸音信号进行预处理，再根据预处理结果提取原始呼吸音信号的时域和频域特征，将提取出的原始呼吸音信号的时域和频域特征输入神经网络模块获得识别结果。采用本发明方法对原始呼吸音信号进行啰音识别，在测试集上的识别准确率可以达到80％以上。本发明可以应用于肺部啰音的识别。

Description

一种用于肺部啰音识别的系统及方法

技术领域

本发明属于机器学习的分类技术领域，具体涉及一种用于肺部啰音识别的系统及方法。

背景技术

啰音是肺部呼吸音的一种，从成因和音色上，啰音可分为干啰音和湿啰音。湿啰音是由于小气道的爆炸性打开造成的，而这条气道异常关闭。它们是短的、爆炸性的、非音乐性的声音，根据音调、持续时间、数量和时间进行评估。此外，湿啰音的频谱在200HZ和2000HZ之间。干啰音是由气道中的空气与支气管壁的相互作用引起的。这些高振幅的声音引起支气管壁几乎相互接触，干啰音的频率范围是可变的。

对肺部啰音的识别具有重要意义，虽然目前国内外已经展开一些针对肺部啰音识别的研究，但是现有研究对肺部啰音识别的准确率仍然较低。

发明内容

本发明的目的是为解决现有研究对肺部啰音识别的准确率低的问题，而提出了一种用于肺部啰音识别的系统及方法。

本发明为解决上述技术问题采取的技术方案是：

基于本发明的一个方面，一种用于肺部啰音识别的系统，所述用于肺部啰音识别的系统包括输入模块、信号预处理与特征提取模块、神经网络模块以及输出模块；

所述输入模块用于输入原始呼吸音信号给信号预处理与特征提取模块；

所述信号预处理与特征提取模块用于对原始呼吸音信号进行预处理，并计算原始呼吸音信号的特征；将计算出的特征输入神经网络模块，神经网络模块根据输入特征获得识别结果；

所述输出模块用于输出神经网络模块的识别结果。

基于本发明的另一个方面，一种用于肺部啰音识别的方法，该方法包括以下步骤：

将原始呼吸音信号通过输入模块输入到信号预处理与特征提取模块；

利用信号预处理与特征提取模块对输入的原始呼吸音信号进行预处理后，计算出原始呼吸音信号的特征；

将原始呼吸音信号特征输入神经网络模块，利用输入特征对神经网络模块进行训练，直至神经网络模块的误差值小于T时停止训练，获得训练好的神经网络模块；

待测呼吸音信号依次通过输入模块、信号预处理与特征提取模块和训练好的神经网络模块后，通过输出模块输出识别结果。

本发明的有益效果是：本发明提出了一种用于肺部啰音识别的系统及方法，本发明首先对输入的原始呼吸音信号进行预处理，再根据预处理结果提取原始呼吸音信号的时域和频域特征，将提取出的原始呼吸音信号的时域和频域特征输入神经网络模块获得识别结果。采用本发明方法对原始呼吸音信号进行啰音识别，在测试集上的识别准确率可以达到80％以上。

附图说明

图1是本发明的一种用于肺部啰音识别的方法的流程图；

图2是粗湿啰音经切比雪夫带通滤波器滤波后的频域波形图；

图3是粗湿啰音经切比雪夫带通滤波器滤波后的时域波形图；

图4是切比雪夫带通滤波器的幅频特性曲线图；

图5是切比雪夫带通滤波器的相频特性曲线图；

图6是空间中多个将两类训练样本分开的超平面的示意图；

图中：x₁和x₂均代表特征；

图7是支持向量与间隔的示意图；

图中：r代表最佳分类面，||·||代表二范数；

图8是对神经网络模块进行测试的结果图。

具体实施方式

具体实施方式一：如图1所示。本实施方式所述的一种用于肺部啰音识别的系统，所述用于肺部啰音识别的系统包括输入模块、信号预处理与特征提取模块、神经网络模块以及输出模块；

所述输出模块用于输出神经网络模块的识别结果。

本实施方式中，原始呼吸音信号来自采集于志愿者的数据与相关标准数据两部分。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述信号预处理与特征提取模块用于对原始呼吸音信号进行预处理，并计算原始呼吸音信号的特征，所述特征具体包括：

原始呼吸音信号的滤波前过零率、滤波后过零率、滤波前平均能量、滤波后能量占比、滤波前平均幅度、滤波后幅度占比、滤波前功率谱能量密度、滤波后功率谱能量密度、滤波前后频谱能量比和滤波后频谱中最高能量位置索引。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述原始呼吸音信号的滤波前过零率Z_n的计算方式为：

其中，x(n)是滤波前原始呼吸音信号，n代表时刻，n＝1,2，…，L，x(n-1)为x(n)的前一时刻的点，L是滤波前原始呼吸音信号的长度，sgn[·]是符号函数，符号函数的定义为：

对原始呼吸音信号x(n)进行滤波，获得滤波后信号x′(n)；

所述对原始呼吸音信号x(n)进行滤波采用的是切比雪夫带通滤波器，切比雪夫带通滤波器H_a(jΩ)的表达式为：

其中，Ω为原始呼吸音信号的频率，Ω_pu为通带上截止频率，Ω_pl为通带下截止频率，

为中心频率，ε为小于1的正数，表示通带内的波动程度，C_N(·)为切比雪夫多项式；

以粗湿啰音为例，如图2和图3所示，为粗湿啰音经切比雪夫多项式滤波后的频域和时域波形图。

绘制切比雪夫带通滤波器示意图，如图4和图5所示：结合啰音信号的性质，在本发明中选取了两大类特征，即时域特征与频域特征，共十个特征来进行学习分析。

滤波后过零率Z′_n的计算方式为：

其中，x′(n-1)为x′(n)的前一时刻的点。

短时平均过零率指每帧内信号通过零值的次数。它是语音信号时域分析中的一种常用的特征参数，原用于语音信号的端点检测。对有时间横轴的连续语音信号，可以观察到语音的时域波形通过横轴的情况。在离散时间语音信号情况下，如果相邻的采样具有不同的代数符号就称为发生了过零，因此可以计算过零的次数。单位时间内过零的次数就称为过零率。一段长时间内的过零率称为平均过零率。过零率在一定程度上可以反映信号的频率信息。由于本发明中选取的是呼吸音信号，与语音信号不同，因此修改定义为公式(2)。

短时平均过零率原用于语音信号请浊音的判断。如果过零率高，语音信号就是清音，如果过零率低，语音信号就是浊音。清音的频率高，浊音的频率低，在啰音信号中呼吸音的频率分布范围低，啰音则较高，可以提取该特征。

由于含啰音部分与不含啰音的呼吸音存在能量上的差别，啰音信号的能量较呼吸音要高些，因此选用此特征。

具体实施方式四：本实施方式与具体实施方式二不同的是：所述滤波前平均能量和滤波后能量占比的计算过程为：

其中：n＝1,2,…,L，E_n为原始呼吸音信号滤波前平均能量；

但由于采样所得的音频信号响度不同，因此先对该帧信号内的能量值归一化，再求取平均能量；

其中：x₁(n)为x(n)的能量归一化信号，E_n1为原始呼吸音信号滤波前的归一化平均能量；

在常规的呼吸音信号中不存在啰音，也就是频率范围在100—200Hz之间，在啰音频段不存在信号，将滤波后的归一化平均能量与滤波前的归一化平均能量做比，含有啰音的能量比会高于不含啰音的能量比，可以将其提取为特征，定义如下：

其中：x₂(n)为x₁(n)经滤波后获得的信号，E_n2为滤波后的归一化平均能量，r为滤波后能量占比(即滤波后能量占滤波前能量之比)。

对该帧信号内的幅度绝对值归一化后求和并除以帧长。啰音是叠加在呼吸音上的声音，含有啰音的音频信号在幅值归一化后，所得的短时平均幅度应当大于呼吸音的短时平均幅度，故而选取该特征。

具体实施方式五：本实施方式与具体实施方式二不同的是：所述滤波前平均幅度和滤波后幅度占比的计算过程为：

其中：|x(n)|是x(n)的幅度，E_n′为原始呼吸音信号滤波前平均幅度；

但由于采样所得的音频信号响度不同，因此先对该帧信号内的幅度值归一化，再求取平均幅度，如公式(10)所示：

其中：|x₁(n)|为x₁(n)的幅度，E′_n1为原始呼吸音信号滤波前的归一化平均幅度；

在常规的呼吸音信号中不存在啰音，也就是频率范围在100—200Hz之间，在啰音频段不存在信号，将滤波后的归一化平均幅度与滤波前的归一化平均幅度做比，含有啰音的幅度比会高于不含啰音的幅度比，可以将其提取为特征，定义如下：

其中：x₂(n)为x(n)先经过幅度归一化再进行滤波获得的信号，|x₂(n)|为x₂(n)的幅度，E′_n2为滤波后的归一化平均幅度，r′为滤波后幅度占比。

具体实施方式六：本实施方式与具体实施方式二不同的是：所述滤波前功率谱能量密度、滤波后功率谱能量密度以及滤波前后频谱能量比的计算方式为：

其中：X(n)为x(n)经过傅里叶变换后的能量归一化信号，E″_n为原始呼吸音信号滤波前功率谱能量密度；

与时域特征相似，能量在频域上也可以反映出部分信号的信息，作为特征的选择之一；

其中：X₁(n)为x₁(n)经过傅里叶变换后的能量归一化信号，L₁为截取频谱的长度，E″_n1为滤波后功率谱能量密度；

标准的呼吸音中不含啰音，所以滤波后的能量低于含啰音的信号，故将其选为特征。

滤波后功率谱能量密度与滤波前功率谱能量密度之比，即滤波前后频谱能量比r″定义为：

由于两组平均能量信号长度不同，这里不再除以信号长度，直接将滤波前后的总能量做比，不含啰音的呼吸音，在理论上滤波后的频谱能量占总能量的比例会低于含有啰音的呼吸音。因此选取此特征。

具体实施方式七：本实施方式与具体实施方式二不同的是：所述滤波后频谱中最高能量位置索引的获得方式为：

由呼吸音的频谱来看，滤出的250Hz—500Hz范围下，呼吸音对应的最高能量位置会处在啰音对应的最高能量位置的左侧，可以将其提取为特征。

滤波后频谱中最高能量位置索引f的表达式为：

f＝arc max(E_n2(f)) (16)

其中，E_n2(f)为滤波后频谱能量。

具体实施方式八：本实施方式与具体实施方式一不同的是：所述神经网络模块采用的是支持向量机。

具体实施方式九：如图1所示。基于具体实施方式一所述的一种用于肺部啰音识别的系统的识别方法，所述识别方法具体包括以下步骤：

具体实施方式十：本实施方式与具体实施方式九不同的是：所述计算出原始呼吸音信号的特征，所述特征具体包括：

具体实施方式十一：本实施方式与具体实施方式十不同的是：所述原始呼吸音信号的滤波前过零率Z_n的计算方式为：

对原始呼吸音信号x(n)进行滤波，获得滤波后信号x′(n)；

为中心频率，ε为小于1的正数，C_N(·)为切比雪夫多项式；

滤波后过零率Z_n′的计算方式为：

其中，x′(n-1)为x′(n)的前一时刻的点。

具体实施方式十二：本实施方式与具体实施方式十不同的是：所述滤波前平均能量和滤波后能量占比的计算过程为：

其中：n＝1,2,…,L，E_n为原始呼吸音信号滤波前平均能量；

其中：x₂(n)为x₁(n)经滤波后获得的信号，E_n2为滤波后的归一化平均能量，r为滤波后能量占比。

具体实施方式十三：本实施方式与具体实施方式十不同的是：所述滤波前平均幅度和滤波后幅度占比的计算过程为：

其中：|x(n)|是x(n)的幅度，E′_n为原始呼吸音信号滤波前平均幅度；

具体实施方式十四：本实施方式与具体实施方式十不同的是：所述滤波前功率谱能量密度、滤波后功率谱能量密度以及滤波前后频谱能量比的计算方式为：

滤波前后频谱能量比r″定义为：

具体实施方式十五：本实施方式与具体实施方式十不同的是：所述滤波后频谱中最高能量位置索引的获得方式为：

滤波后频谱中最高能量位置索引f的表达式为：

f＝arc max(E_n2(f)) (16)

其中，E_n2(f)为滤波后频谱能量。

具体实施方式十六：本实施方式与具体实施方式十不同的是：所述神经网络模块采用的是支持向量机。

具体实施方式十七：本实施方式与具体实施方式十不同的是：所述直至神经网络模块的误差值小于T时停止训练，T的取值为0.001。

表1显示了有无啰音情况下的信号特征数值对比。

表1

将全部数据的三分之二作为训练集投入神经网络进行训练，剩余部分作为测试集进行测试。每个数据会根据有无啰音存在被加上0或1的标签，投入网络时，保证训练集与测试集中含0标签的数据与含1标签数据比大致相等，即同源同分布状态，观察分类结果。

图1中的神经网络为支持向量机(SVM)，它针对二分类的问题具有非常好的效果。这个模型以线性函数ω^Tx+b＝0为基础，但与传统逻辑回归不同，支持向量机的输出参数不是概率，而是编码后的类别。类别取决于ω^Tx+b的正负，将正编码为1，负编码为0。则当ω^Tx+b为正时，支持向量机的预测输出为1类；当ω^Tx+b为负时，其预测输出为0类。

如图6所示，高维空间中存在众多超平面，需要寻找一个合适的超平面将训练样本划分开。很多超平面都可以实现对样本的分类，但应该寻找划分得最好的一个，如图6中加粗部分。该划分超平面距离两类样本的距离类似，距离都较大，对训练样本局部扰动的适应性最好。这个划分超平面所产生的分类结果是最鲁棒的，对未见实例的泛化能力最强。

在样本空间中，划分超平面使用高维线性方程ω^Tx+b＝0来描述，其中ω＝(ω₁；ω₂；...；ω_d)为法向量，决定了超平面的方向；b为位移项，决定了超平面与原点之间的距离。显然划分超平面可被法向量ω和位移b确定，将此超平面写为(ω,b)。样本空间任意点x到超平面(ω,b)的距离可写为

假设超平面(ω,b)能将训练样本正确分类，设D为训练样本集，则对于(x_i,y_i)∈D，若y_i＝+1，则有ω^Tx_i+b＞0；若y_i＝-1，则有ω^Tx_i+b＜0。令

不等式的成立取决于训练样本点的选取，而距离超平面较近的样本点使等式成立，如图7所示。这些样本被称为“支持向量”，两个异类支持向量到超平面的距离之和为

它被称为“间隔”。

欲找到最大间隔的划分超平面，也就是要找到能满足公式(18)中约束的参数ω和b，使得γ最大，即

由公式(20)可知，最大化间隔要求最大化||ω||^-1，也可以理解为最小化||ω||²。于是，公式(20)可重写为

这就是支持向量机的基本型。

支持向量机引入核函数，使其在基础逻辑回归的基础上得到了重要的创新。核技巧利用样本间点积的形式对机器学习算法进行改写。例如支持向量机中的线性函数可以重写为

其中，x⁽ⁱ⁾是训练样本，α是系数向量。学习算法重写为这种形式允许将x替换为特征函数φ(x)的输出，点积替换为被称为核函数的函数k(x,x⁽ⁱ⁾)＝φ(x)·φ(x⁽ⁱ⁾)。运算符·表示类似于φ(x)^Tφ(x⁽ⁱ⁾)的点积。

使用核估计替换点积之后，可以用如下函数进行预测

这个函数关于x是非线性的，关于φ(x)是线性的。α和f(x)之间的关系也是线性的。核函数完全等价于用φ(x)预处理所有的输入，然后在新的转换空间学习线性模型。

最常用的核函数是高斯核，

k(u,v)＝N(u-v；0,σ²I) (24)

其中N(x；μ,∑)是标准正态密度。这个核也被称为径向基函数核，因为其值沿v中从u向外辐射的方向减小。

图8展现了在总数据量为264时，进行同源同分布的训练与测试的结果。

本方法所用数据都是在相对安静的条件下采集的，所以正确率较高，欲将其应用，还需要进一步的处理和调试。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种用于肺部啰音识别的系统，其特征在于，所述用于肺部啰音识别的系统包括输入模块、信号预处理与特征提取模块、神经网络模块以及输出模块；

所述输出模块用于输出神经网络模块的识别结果。

2.根据权利要求1所述的一种用于肺部啰音识别的系统，其特征在于，所述信号预处理与特征提取模块用于对原始呼吸音信号进行预处理，并计算原始呼吸音信号的特征，所述特征具体包括：

3.根据权利要求2所述的一种用于肺部啰音识别的系统，其特征在于，所述原始呼吸音信号的滤波前过零率Z_n的计算方式为：

对原始呼吸音信号x(n)进行滤波，获得滤波后信号x′(n)；

为中心频率，ε为小于1的正数，C_N(·)为切比雪夫多项式；

滤波后过零率Z′_n的计算方式为：

其中，x′(n-1)为x′(n)的前一时刻的点。

4.根据权利要求2所述的一种用于肺部啰音识别的系统，其特征在于，所述滤波前平均能量和滤波后能量占比的计算过程为：

其中：n＝1,2,…,L，E_n为原始呼吸音信号滤波前平均能量；

5.根据权利要求2所述的一种用于肺部啰音识别的系统，其特征在于，所述滤波前平均幅度和滤波后幅度占比的计算过程为：

6.根据权利要求2所述的一种用于肺部啰音识别的系统，其特征在于，所述滤波前功率谱能量密度、滤波后功率谱能量密度以及滤波前后频谱能量比的计算方式为：

其中：X(n)为x(n)经过傅里叶变换后的能量归一化信号，E_n″为原始呼吸音信号滤波前功率谱能量密度；

其中：X₁(n)为x₁(n)经过傅里叶变换后的能量归一化信号，L₁为截取频谱的长度，E_n″₁为滤波后功率谱能量密度；

滤波前后频谱能量比r″定义为：

7.根据权利要求2所述的一种用于肺部啰音识别的系统，其特征在于，所述滤波后频谱中最高能量位置索引的获得方式为：

滤波后频谱中最高能量位置索引f的表达式为：

f＝arc max(E_n2(f)) (16)

其中，E_n2(f)为滤波后频谱能量。

8.根据权利要求1所述的一种用于肺部啰音识别的系统，其特征在于，所述神经网络模块采用的是支持向量机。

9.基于权利要求1所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述识别方法具体包括以下步骤：

10.根据权利要求9所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述计算出原始呼吸音信号的特征，所述特征具体包括：

11.根据权利要求10所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述原始呼吸音信号的滤波前过零率Z_n的计算方式为：

对原始呼吸音信号x(n)进行滤波，获得滤波后信号x′(n)；

为中心频率，ε为小于1的正数，C_N(·)为切比雪夫多项式；

滤波后过零率Z_n′的计算方式为：

其中，x′(n-1)为x′(n)的前一时刻的点。

12.根据权利要求10所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述滤波前平均能量和滤波后能量占比的计算过程为：

其中：n＝1,2,…,L，E_n为原始呼吸音信号滤波前平均能量；

13.根据权利要求10所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述滤波前平均幅度和滤波后幅度占比的计算过程为：

14.根据权利要求10所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述滤波前功率谱能量密度、滤波后功率谱能量密度以及滤波前后频谱能量比的计算方式为：

滤波前后频谱能量比r″定义为：

15.根据权利要求10所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述滤波后频谱中最高能量位置索引的获得方式为：

滤波后频谱中最高能量位置索引f的表达式为：

f＝arc max(E_n2(f)) (16)

其中，E_n2(f)为滤波后频谱能量。

16.根据权利要求10所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述神经网络模块采用的是支持向量机。

17.根据权利要求10所述的一种用于肺部啰音识别的系统的识别方法，其特征在于，所述直至神经网络模块的误差值小于T时停止训练，T的取值为0.001。