CN116842460A

CN116842460A - 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统

Info

Publication number: CN116842460A
Application number: CN202310534442.3A
Authority: CN
Inventors: 孙文胜; 邹家豪; 缪梓萍; 陈奕娟; 刘社兰; 潘金仁; 许崇旸
Original assignee: Hangzhou Dianzi University; Zhejiang Center for Disease Control and Prevention
Current assignee: Hangzhou Dianzi University; Zhejiang Center for Disease Control and Prevention
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-10-03

Abstract

本发明公开了一种基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统。本发明将通道注意力机制CAM加入到ResNet18神经网络每个残差块的最后一个卷积块中，使神经网络模型主动抑制不重要的信息，关注更具区分性的语言特征，强化对于咳嗽关联疾病的识别。该神经网络模型以咳嗽音的梅尔语谱图作为输入，利用所提出的神经网络进行特征提取，在咳嗽声音的病理分类任务中能够将关注点更好地放在与识别咳嗽病理信息相关的特征上，减少噪声的影响。本发明可以起到初步筛选病人，减轻医疗人员的工作量达到节省医疗资源的目的。

Description

基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统

技术领域

本发明属于深度学习技术和智慧医疗技术领域，具体涉及一种基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统。

背景技术

当今世界上有较多的人患有呼吸系统疾病，这些疾病都会引起咳嗽症状。在医学诊断中，医生可以根据听诊患者的咳嗽声音来进行快速识别患者病因，进行对症治疗。然而医护人员的数量有限，技术要求很高，而且他们需要处理大量的患者，因此借助于信息处理技术来自动识别咳嗽音频并得出其关联疾病的方法显得非常有必要。

近年来，深度学习技术已经广泛应用于音频识别分类，包括咳嗽音频的分类。这种技术可以通过对大量的咳嗽音频样本进行训练，获得机器学习模型，然后能够对病人的咳嗽音频进行识别和分类。

目前，在深度学习方面最常见的是使用卷积神经网络(CNN)或者长短期记忆神经网络(LSTM)对咳嗽声音进行分类和识别，但此类技术方案对特征提取的能力有限、在训练模型中容易出现过拟合现象。基于此现状，考虑如何更有效地提取目标特征，提高对咳嗽音频的识别准确率，是本领域所亟待解决的技术问题。

发明内容

为解决现有深度学习技术在咳嗽音识别方面上的缺陷，本发明综合现在的深度学习技术与智慧医疗技术，提供了一种引入通道注意力机制CAM与残差神经网络ResNet18相结合的咳嗽关联疾病识别方法系统，本发明可对被测对象的咳嗽声音进行分析处理，输出被测人员的病症诊断结果。

本发明的一方面提供了基于注意力机制与残差神经网络的咳嗽关联疾病识别方法，该方法包括以下步骤：

(1)收集各种病因引起咳嗽的大量咳嗽音频，根据病因分类获得咳嗽音频数据库及对应病因标签，并按照一定比例分为训练集和测试集；

(2)对收集到的所有咳嗽音频进行预处理操作：

将所有的音频数据进行归一化、端点检测；

对同一类标签中的音频进行计算得到语谱图；

对得到的语谱图按照咳嗽疾病类别标上相应的标签；

(3)构建神经网络模型：主干网络选用残差神经网络ResNet18，在所述残差神经网络ResNet18中每个残差块的最后一个卷积块后加入通道注意力机制模块CAM；

(4)将训练集中咳嗽音的语谱图作为输入，输入至步骤(3)所构建的神经网络模型进行训练；通过设置损失函数二元交叉熵，选择Adam优化器和调整学习率来将模型训练至收敛；

(5)最后将测试集中音频的语谱图输入到收敛的神经网络模型中，并且使用Softmax分类函数进行分类，其中获得最大概率的类别，即为最终的预测结果。

本发明的另一方面提供了一种基于注意力机制与残差神经网络的咳嗽关联疾病识别系统，包括：

样本收集模块：收集各种病因引起咳嗽的大量咳嗽音频，根据病因分类获得咳嗽音频数据库及对应病因标签，并按照一定比例分为训练集和测试集；

样本预处理模块：对收集到的所有咳嗽音频进行预处理操作：

将所有的音频数据进行归一化、端点检测；

对同一类标签中的音频进行计算得到语谱图；

对得到的语谱图按照咳嗽疾病类别标上相应的标签；

神经网络模型构建模块：主干网络选用残差神经网络ResNet18，在所述残差神经网络ResNet18中每个残差块的最后一个卷积块后加入通道注意力机制模块CAM；

神经网络模型训练模块：将训练集中咳嗽音的语谱图作为输入，输入至所构建的神经网络模型进行训练；通过设置损失函数二元交叉熵，选择Adam优化器和调整学习率来将模型训练至收敛；

结果预测模块：将测试集中音频的语谱图输入到收敛的神经网络模型中，并且使用Softmax分类函数进行分类，其中获得最大概率的类别，即为最终的预测结果。

本发明的有益效果：

本发明将通道注意力机制CAM加入到ResNet18神经网络每个残差块的最后一个卷积块中，使神经网络模型主动抑制不重要的信息，关注更具区分性的语言特征，强化对于咳嗽关联疾病的识别。

该神经网络模型以咳嗽音的梅尔语谱图作为输入，利用所提出的神经网络进行特征提取，在咳嗽声音的病理分类任务中能够将关注点更好地放在与识别咳嗽病理信息相关的特征上，减少噪声的影响。

加入了通道注意力机制CAM的ResNet18神经网络，在用于对咳嗽关联疾病检测的识别中，相较于未加入通道注意力机制CAM的ResNet18神经网络，能使提取到的声音特征更加明显、提高训练的速度与识别率。

本发明可以起到初步筛选病人，减轻医疗人员的工作量达到节省医疗资源的目的。

附图说明

图1为本发明方法流程图。

图2为结合了通道注意力机制CAM与ResNet18神经网络模型图。

图3为本发明系统结构图。

具体实施方式

如图1所示，本发明中提出的咳嗽关联疾病检测方法，包括步骤：

(1)采集不同病症患者的大量咳嗽音频，并根据病因将其分类(可分为哮喘、新冠、支气管炎、慢性阻塞性肺病、上呼吸道感染等多种类别。)给其加上对应的标签，构建咳嗽数据集，标签为咳嗽病人的病名、年龄、性别等，并按照8:2的比例分为训练集和测试集；其中音频样本是通过医院用关的设备采集。

(2)对收集到的所有音频数据进行预处理：先进行归一化、端点检测、预加重、分帧、加窗；再对同一类标签中的音频进行短时傅里叶变换、取对数振幅得到语谱图，最后对得到的语谱图按照咳嗽疾病类别标上相应的标签。

(3)构建神经网络模型：主干网络选用残差神经网络ResNet18，通过引入通道注意力模块CAM，在神经网络ResNet18每个残差块的最后一个卷积块后加入通道注意力机制CAM，构建一个更为精准的神经网络模型，具体模型结构如图2所示；其中ResNet18神经网络是一种深度卷积神经网络，ResNet18神经网络具有以下具体结构：输入层、卷积层、最大池化层、四个残差块、全连接层、Softmax分类层。通道注意力机制CAM是一种用于卷积神经网络的注意力机制，通过自适应地计算每个通道的重要性权重，来调整卷积神经网络中每个通道的输出。本实施例将通道注意力模块CAM添加到神经网络ResNet18每个残差块的最后一个卷积块后，最后一个卷积块是整个残差块中的最后一个卷积操作，由于ResNet18中每个残差块的结构都相同，因此这里引入通道注意力机制CAM可以针对性地加强每个残差块的特征学习能力，同时不会影响其它残差块的特征提取，可以提高模型对不同类型咳嗽声音的区分能力。

在某个实施例中，具体的实现方式如下：

S1.首先在神经网络ResNet18每个残差块的最后一个卷积块后添加全局最大池化层和全局平均池化层，因为通道注意力机制CAM的输入是一个特征图，维度设为H*W*C，对输入的特征图分别进行全局最大池化和全局平均池化处理：

全局最大池化是分别对输入特征图每个通道进行取最大值运算，对该通道所有元素取最大值，故输出通道数不变，但每个通道只有一个元素；

全局平均池化是分别对每个通道进行平均运算，对该通道所有元素计算并输入一个平均值，故输出通道数不变，但每个通道只有一个元素。

在空间维度进行池化，压缩空间尺寸，提取特征图中最显著的区域。

S2.接着在全局最大池化层和全局平均池化层后添加两层全连接层，第一个全连接层神经元个数较少，通常取特征图通道数的1/4，第二个全连接层神经元个数和输入特征图通道数一样；然后分别将全局最大池化和全局平均池化后的结果输入到两个全连接层中进行学习，学习通道维度的特征和各个通道的重要性。

S3.将经过两个全连接层后输出的两个结果，进行相加；接着在第二个全连接层后添加一个Sigmoid激活函数，将相加后的结果经过Sigmoid激活函数得到输入特征图每个通道的注意力权重，其取值范围在0到1之间，权重的值越接近于1，表明该通道上的特征对于咳嗽音病理识别起了更为关键的作用。最后将注意力权重与最开始输入的特征图相乘得到经过注意力加权的特征图，经过注意力加权的特征图强化了与咳嗽音识别相关的特征，减少了其它无关信息对模型识别的干扰，能够更准确地判断咳嗽声音与相关疾病之间的联系。

S4.将经过注意力加权的特征图送入到ResNet18的后续层进行分类任务。

以上就是将通道注意力机制CAM加入ResNet18神经网络的全部流程。

在本申请的一些实施例中，在上述的流程中，根据以下公式对输入的特征图进行最大池化和平均池化处理：

其中x是输入的特征图，h、w分别是输入特征图的高度和宽度。

在本申请的一些实施例中，根据以下公式来得到最后的通道注意力权重：

其中，M_c(F)表示通道注意力权重，F表示输入的特征图，c表示通道数，W₀和W₁代表全连接层中学习的参数，MLP是由两个全连接层构成的多层感知机，σ表示Sigmoid激活函数。

在本申请的一些实施例中，通过以下公式来得到经过通道注意力加权的特征图：

Z＝M_c×[(F(x)+x)]

其中，Z表示注意力加权后的特征图，M_c表示通道注意力权重，x表示输入F(x)表示输入x经过卷积层和激活函数后的输出。

(4)将训练集中的咳嗽音语谱图作为输入，输入至结合了通道注意力机制CAM的ResNet18神经网络模型中，进行模型训练。在训练的过程中，模型的损失函数采用交叉熵损失函数，优化器选择Adam优化器，设置学习率为0.01。交叉熵损失函数用来表示真实概率分布与预测概率分布之间的差异，需要在数学上对哮喘、新冠、支气管炎、慢性阻塞性肺病、上呼吸道感染五种疾病进行表示，如果输入的是一张新冠咳嗽音语谱图，那么它的真实标签为一个独热编码的向量[0,1,0,0,0]，只在新冠对应的第二维度上为1，哮喘、支气管炎、慢性阻塞性肺病、上呼吸道感染这四种疾病对应维度上为0。而模型输出的预测结果是一个维度与真实标签维度相同的向量[q₁,q₂,q₃,q₄,q₅],各维度上的值分别表示模型预测为哮喘、新冠、支气管炎、慢性阻塞性肺病、上呼吸道感染5种疾病的概率，他们的和为1。

(5)将预测概率和真实标签用以下交叉熵公式来计算获得损失值：

其中，H表示损失值，P(x)表示真实标签值，q(x)表示预测概率。

训练过程中，在交叉熵损失函数的约束下，网络会持续更新参数，使模型预测正确的概率值越来越大：假设输入的语谱图为新冠类型，则它的真实标签值为[0,1,0,0,0],若模型的预测结果为[q₁,q₂,q₃,q₄,q₅]，则交叉熵损失函数H(p,q)的结果为-log(q₂)。为使模型的预测结果和真实结果差距最小，仅需使交叉熵损失函数的值最小。故模型在训练过程中，会不断更新模型参数，使真实病理新冠对应的第二个维度上的输出预测值q₂接近于1，而其余四项接近于0，从而提升模型的识别准确性，达到利用深度学习算法进行咳嗽音识别的目标。

(6)当训练至模型收敛时，再将测试集中的语谱图输入到训练好的模型中，并且使用Softmax分类函数进行分类。具体地，在ResNet18的末尾，全连接层将输出特征向量，然后通过Softmax函数将特征向量映射为一个介于0和1之间的概率值，并且这些概率值之和等于1，这个概率分布表示每个可能的类别的概率，最大概率的类别，即为最终的预测结果。

在另一个实施例中，如图3所示，基于注意力机制与残差神经网络的咳嗽关联疾病识别系统，包括：

将所有的音频数据进行归一化、端点检测；

对同一类标签中的音频进行计算得到语谱图；

对得到的语谱图按照咳嗽疾病类别标上相应的标签；

验证例：

以下给出本发明与不同模型之间的分类性能对比

网络结构	新冠	慢性阻塞肺病	哮喘	支气管	上呼吸道感染
						ResNet18	88.33％	87.50％	89.16％	88.17％	90％
本发明	92.50％	90.83％	91.66％	91.81％	93.33％

表中展示本发明所改进的模型在测试集上与其他方法准确率的对比，每种疾病的测试样本量均为120，本发明提出的神经网络模型是通过将通道注意力机制CAM与ResNet18相结合，在神经网络ResNet18每个残差块的最后一个卷积块后加入通道注意力机制CAM，由表可知，在新冠、慢性阻塞性肺病、哮喘、支气管、上呼吸道感染这五种咳嗽关联疾病的分类准确率上，本发明模型与ResNet18模型相比，准确率分别提升了4.17％、3.33％、2.50％、3.64％、3.33％，并在识别过程中，本发明模型的收敛速度更快、稳定性更强。因此可说明，在结合了通道注意力机制后，本发明对疾病分类能力得到了显著的提升。

综上，本发明通过利用收集到的咳嗽音频数据集，将所有音频样本分类处理获得语谱图和对应的病因标签，然后构建新型的神经网络模型：将通道注意力模块CAM加入到神经网络ResNet18每个残差块的最后一个卷积块后。将训练集中的咳嗽音的语谱图和对应咳嗽标签输入进网络进行模型训练，得到模型参数并优化参数，从而根据测试集中的语谱图输入得到相关的疾病分类。本发明采用ResNet18神经网络能克服训练过程中的梯度消失和梯度爆炸问题，加入通道注意力机制CAM，能帮助网络更好学习特征，减少模型的过拟合，提高模型泛化能力，加快模型的训练速度，使网络具有较高的准确性。

Claims

1.基于注意力机制与残差神经网络的咳嗽关联疾病识别方法，其特征在于该方法包括以下步骤：

（1）收集各种病因引起咳嗽的大量咳嗽音频，根据病因分类获得咳嗽音频数据库及对应病因标签，并按照一定比例分为训练集和测试集；

（2）对收集到的所有咳嗽音频进行预处理操作：

将所有的音频数据进行归一化、端点检测；

对同一类标签中的音频进行计算得到语谱图；

对得到的语谱图按照咳嗽疾病类别标上相应的标签；

（3）构建神经网络模型：主干网络选用残差神经网络ResNet18，在所述残差神经网络ResNet18中每个残差块的最后一个卷积块后加入通道注意力机制模块CAM；

（4）将训练集中咳嗽音的语谱图作为输入，输入至步骤（3）所构建的神经网络模型进行训练；通过设置损失函数二元交叉熵，选择Adam优化器和调整学习率来将模型训练至收敛；

（5）最后将测试集中音频的语谱图输入到收敛的神经网络模型中，并且使用Softmax分类函数进行分类，其中获得最大概率的类别，即为最终的预测结果。

2.根据权利要求1所述的基于注意力机制与残差神经网络的咳嗽关联疾病识别方法，其特征在于：

将ResNet18神经网络每个残差块的最后一层的输出作为输入并行经过两路：

第一路，输入的特征图依次经过全局最大池化层、第一全连接层、第二全连接层后得到第一个输出；

第二路，输入的特征图经过全局平均池化层、第三全连接层、第四全连接层后得到第二个输出；

将两路输出结果相加再经过Sigmoid激活函数获得特征图每个通道的注意力权重；

将得到的注意力权重与最开始输入的特征图相乘得到经过注意力加权的特征图；

把经过注意力加权的特征图送入到ResNet18的后续层进行分类任务。

3.根据权利要求1所述的基于注意力机制与残差神经网络的咳嗽关联疾病识别方法，其特征在于：对同一类标签中的音频进行计算得到语谱图，具体是对同一类标签中的音频进行短时傅里叶变换、取对数振幅得到语谱图。

4.根据权利要求3所述的基于注意力机制与残差神经网络的咳嗽关联疾病识别方法，其特征在于：所述的语谱图采用梅尔语谱图。

5.根据权利要求2所述的基于注意力机制与残差神经网络的咳嗽关联疾病识别方法，其特征在于：所述的第一全连接层、第三全连接层的神经元个数为特征图通道数的1/4；第二全连接层、第四全连接层神经元个数与特征图通道数一样。

6.基于注意力机制与残差神经网络的咳嗽关联疾病识别系统，其特征在于：包括：

将所有的音频数据进行归一化、端点检测；

对同一类标签中的音频进行计算得到语谱图；

对得到的语谱图按照咳嗽疾病类别标上相应的标签；