CN116842460A - 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 - Google Patents
基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 Download PDFInfo
- Publication number
- CN116842460A CN116842460A CN202310534442.3A CN202310534442A CN116842460A CN 116842460 A CN116842460 A CN 116842460A CN 202310534442 A CN202310534442 A CN 202310534442A CN 116842460 A CN116842460 A CN 116842460A
- Authority
- CN
- China
- Prior art keywords
- cough
- neural network
- spectrogram
- residual
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010011224 Cough Diseases 0.000 title claims abstract description 88
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 42
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 35
- 230000007246 mechanism Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 33
- 201000010099 disease Diseases 0.000 title claims abstract description 29
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 230000001575 pathological effect Effects 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 8
- 208000006673 asthma Diseases 0.000 description 7
- 208000006545 Chronic Obstructive Pulmonary Disease Diseases 0.000 description 6
- 206010057190 Respiratory tract infections Diseases 0.000 description 6
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 206010006451 bronchitis Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 210000000621 bronchi Anatomy 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000002555 auscultation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 238000002636 symptomatic treatment Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统。本发明将通道注意力机制CAM加入到ResNet18神经网络每个残差块的最后一个卷积块中,使神经网络模型主动抑制不重要的信息,关注更具区分性的语言特征,强化对于咳嗽关联疾病的识别。该神经网络模型以咳嗽音的梅尔语谱图作为输入,利用所提出的神经网络进行特征提取,在咳嗽声音的病理分类任务中能够将关注点更好地放在与识别咳嗽病理信息相关的特征上,减少噪声的影响。本发明可以起到初步筛选病人,减轻医疗人员的工作量达到节省医疗资源的目的。
Description
技术领域
本发明属于深度学习技术和智慧医疗技术领域,具体涉及一种基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统。
背景技术
当今世界上有较多的人患有呼吸系统疾病,这些疾病都会引起咳嗽症状。在医学诊断中,医生可以根据听诊患者的咳嗽声音来进行快速识别患者病因,进行对症治疗。然而医护人员的数量有限,技术要求很高,而且他们需要处理大量的患者,因此借助于信息处理技术来自动识别咳嗽音频并得出其关联疾病的方法显得非常有必要。
近年来,深度学习技术已经广泛应用于音频识别分类,包括咳嗽音频的分类。这种技术可以通过对大量的咳嗽音频样本进行训练,获得机器学习模型,然后能够对病人的咳嗽音频进行识别和分类。
目前,在深度学习方面最常见的是使用卷积神经网络(CNN)或者长短期记忆神经网络(LSTM)对咳嗽声音进行分类和识别,但此类技术方案对特征提取的能力有限、在训练模型中容易出现过拟合现象。基于此现状,考虑如何更有效地提取目标特征,提高对咳嗽音频的识别准确率,是本领域所亟待解决的技术问题。
发明内容
为解决现有深度学习技术在咳嗽音识别方面上的缺陷,本发明综合现在的深度学习技术与智慧医疗技术,提供了一种引入通道注意力机制CAM与残差神经网络ResNet18相结合的咳嗽关联疾病识别方法系统,本发明可对被测对象的咳嗽声音进行分析处理,输出被测人员的病症诊断结果。
本发明的一方面提供了基于注意力机制与残差神经网络的咳嗽关联疾病识别方法,该方法包括以下步骤:
(1)收集各种病因引起咳嗽的大量咳嗽音频,根据病因分类获得咳嗽音频数据库及对应病因标签,并按照一定比例分为训练集和测试集;
(2)对收集到的所有咳嗽音频进行预处理操作:
将所有的音频数据进行归一化、端点检测;
对同一类标签中的音频进行计算得到语谱图;
对得到的语谱图按照咳嗽疾病类别标上相应的标签;
(3)构建神经网络模型:主干网络选用残差神经网络ResNet18,在所述残差神经网络ResNet18中每个残差块的最后一个卷积块后加入通道注意力机制模块CAM;
(4)将训练集中咳嗽音的语谱图作为输入,输入至步骤(3)所构建的神经网络模型进行训练;通过设置损失函数二元交叉熵,选择Adam优化器和调整学习率来将模型训练至收敛;
(5)最后将测试集中音频的语谱图输入到收敛的神经网络模型中,并且使用Softmax分类函数进行分类,其中获得最大概率的类别,即为最终的预测结果。
本发明的另一方面提供了一种基于注意力机制与残差神经网络的咳嗽关联疾病识别系统,包括:
样本收集模块:收集各种病因引起咳嗽的大量咳嗽音频,根据病因分类获得咳嗽音频数据库及对应病因标签,并按照一定比例分为训练集和测试集;
样本预处理模块:对收集到的所有咳嗽音频进行预处理操作:
将所有的音频数据进行归一化、端点检测;
对同一类标签中的音频进行计算得到语谱图;
对得到的语谱图按照咳嗽疾病类别标上相应的标签;
神经网络模型构建模块:主干网络选用残差神经网络ResNet18,在所述残差神经网络ResNet18中每个残差块的最后一个卷积块后加入通道注意力机制模块CAM;
神经网络模型训练模块:将训练集中咳嗽音的语谱图作为输入,输入至所构建的神经网络模型进行训练;通过设置损失函数二元交叉熵,选择Adam优化器和调整学习率来将模型训练至收敛;
结果预测模块:将测试集中音频的语谱图输入到收敛的神经网络模型中,并且使用Softmax分类函数进行分类,其中获得最大概率的类别,即为最终的预测结果。
本发明的有益效果:
本发明将通道注意力机制CAM加入到ResNet18神经网络每个残差块的最后一个卷积块中,使神经网络模型主动抑制不重要的信息,关注更具区分性的语言特征,强化对于咳嗽关联疾病的识别。
该神经网络模型以咳嗽音的梅尔语谱图作为输入,利用所提出的神经网络进行特征提取,在咳嗽声音的病理分类任务中能够将关注点更好地放在与识别咳嗽病理信息相关的特征上,减少噪声的影响。
加入了通道注意力机制CAM的ResNet18神经网络,在用于对咳嗽关联疾病检测的识别中,相较于未加入通道注意力机制CAM的ResNet18神经网络,能使提取到的声音特征更加明显、提高训练的速度与识别率。
本发明可以起到初步筛选病人,减轻医疗人员的工作量达到节省医疗资源的目的。
附图说明
图1为本发明方法流程图。
图2为结合了通道注意力机制CAM与ResNet18神经网络模型图。
图3为本发明系统结构图。
具体实施方式
如图1所示,本发明中提出的咳嗽关联疾病检测方法,包括步骤:
(1)采集不同病症患者的大量咳嗽音频,并根据病因将其分类(可分为哮喘、新冠、支气管炎、慢性阻塞性肺病、上呼吸道感染等多种类别。)给其加上对应的标签,构建咳嗽数据集,标签为咳嗽病人的病名、年龄、性别等,并按照8:2的比例分为训练集和测试集;其中音频样本是通过医院用关的设备采集。
(2)对收集到的所有音频数据进行预处理:先进行归一化、端点检测、预加重、分帧、加窗;再对同一类标签中的音频进行短时傅里叶变换、取对数振幅得到语谱图,最后对得到的语谱图按照咳嗽疾病类别标上相应的标签。
(3)构建神经网络模型:主干网络选用残差神经网络ResNet18,通过引入通道注意力模块CAM,在神经网络ResNet18每个残差块的最后一个卷积块后加入通道注意力机制CAM,构建一个更为精准的神经网络模型,具体模型结构如图2所示;其中ResNet18神经网络是一种深度卷积神经网络,ResNet18神经网络具有以下具体结构:输入层、卷积层、最大池化层、四个残差块、全连接层、Softmax分类层。通道注意力机制CAM是一种用于卷积神经网络的注意力机制,通过自适应地计算每个通道的重要性权重,来调整卷积神经网络中每个通道的输出。本实施例将通道注意力模块CAM添加到神经网络ResNet18每个残差块的最后一个卷积块后,最后一个卷积块是整个残差块中的最后一个卷积操作,由于ResNet18中每个残差块的结构都相同,因此这里引入通道注意力机制CAM可以针对性地加强每个残差块的特征学习能力,同时不会影响其它残差块的特征提取,可以提高模型对不同类型咳嗽声音的区分能力。
在某个实施例中,具体的实现方式如下:
S1.首先在神经网络ResNet18每个残差块的最后一个卷积块后添加全局最大池化层和全局平均池化层,因为通道注意力机制CAM的输入是一个特征图,维度设为H*W*C,对输入的特征图分别进行全局最大池化和全局平均池化处理:
全局最大池化是分别对输入特征图每个通道进行取最大值运算,对该通道所有元素取最大值,故输出通道数不变,但每个通道只有一个元素;
全局平均池化是分别对每个通道进行平均运算,对该通道所有元素计算并输入一个平均值,故输出通道数不变,但每个通道只有一个元素。
在空间维度进行池化,压缩空间尺寸,提取特征图中最显著的区域。
S2.接着在全局最大池化层和全局平均池化层后添加两层全连接层,第一个全连接层神经元个数较少,通常取特征图通道数的1/4,第二个全连接层神经元个数和输入特征图通道数一样;然后分别将全局最大池化和全局平均池化后的结果输入到两个全连接层中进行学习,学习通道维度的特征和各个通道的重要性。
S3.将经过两个全连接层后输出的两个结果,进行相加;接着在第二个全连接层后添加一个Sigmoid激活函数,将相加后的结果经过Sigmoid激活函数得到输入特征图每个通道的注意力权重,其取值范围在0到1之间,权重的值越接近于1,表明该通道上的特征对于咳嗽音病理识别起了更为关键的作用。最后将注意力权重与最开始输入的特征图相乘得到经过注意力加权的特征图,经过注意力加权的特征图强化了与咳嗽音识别相关的特征,减少了其它无关信息对模型识别的干扰,能够更准确地判断咳嗽声音与相关疾病之间的联系。
S4.将经过注意力加权的特征图送入到ResNet18的后续层进行分类任务。
以上就是将通道注意力机制CAM加入ResNet18神经网络的全部流程。
在本申请的一些实施例中,在上述的流程中,根据以下公式对输入的特征图进行最大池化和平均池化处理:
其中x是输入的特征图,h、w分别是输入特征图的高度和宽度。
在本申请的一些实施例中,根据以下公式来得到最后的通道注意力权重:
其中,Mc(F)表示通道注意力权重,F表示输入的特征图,c表示通道数,W0和W1代表全连接层中学习的参数,MLP是由两个全连接层构成的多层感知机,σ表示Sigmoid激活函数。
在本申请的一些实施例中,通过以下公式来得到经过通道注意力加权的特征图:
Z=Mc×[(F(x)+x)]
其中,Z表示注意力加权后的特征图,Mc表示通道注意力权重,x表示输入F(x)表示输入x经过卷积层和激活函数后的输出。
(4)将训练集中的咳嗽音语谱图作为输入,输入至结合了通道注意力机制CAM的ResNet18神经网络模型中,进行模型训练。在训练的过程中,模型的损失函数采用交叉熵损失函数,优化器选择Adam优化器,设置学习率为0.01。交叉熵损失函数用来表示真实概率分布与预测概率分布之间的差异,需要在数学上对哮喘、新冠、支气管炎、慢性阻塞性肺病、上呼吸道感染五种疾病进行表示,如果输入的是一张新冠咳嗽音语谱图,那么它的真实标签为一个独热编码的向量[0,1,0,0,0],只在新冠对应的第二维度上为1,哮喘、支气管炎、慢性阻塞性肺病、上呼吸道感染这四种疾病对应维度上为0。而模型输出的预测结果是一个维度与真实标签维度相同的向量[q1,q2,q3,q4,q5],各维度上的值分别表示模型预测为哮喘、新冠、支气管炎、慢性阻塞性肺病、上呼吸道感染5种疾病的概率,他们的和为1。
(5)将预测概率和真实标签用以下交叉熵公式来计算获得损失值:
其中,H表示损失值,P(x)表示真实标签值,q(x)表示预测概率。
训练过程中,在交叉熵损失函数的约束下,网络会持续更新参数,使模型预测正确的概率值越来越大:假设输入的语谱图为新冠类型,则它的真实标签值为[0,1,0,0,0],若模型的预测结果为[q1,q2,q3,q4,q5],则交叉熵损失函数H(p,q)的结果为-log(q2)。为使模型的预测结果和真实结果差距最小,仅需使交叉熵损失函数的值最小。故模型在训练过程中,会不断更新模型参数,使真实病理新冠对应的第二个维度上的输出预测值q2接近于1,而其余四项接近于0,从而提升模型的识别准确性,达到利用深度学习算法进行咳嗽音识别的目标。
(6)当训练至模型收敛时,再将测试集中的语谱图输入到训练好的模型中,并且使用Softmax分类函数进行分类。具体地,在ResNet18的末尾,全连接层将输出特征向量,然后通过Softmax函数将特征向量映射为一个介于0和1之间的概率值,并且这些概率值之和等于1,这个概率分布表示每个可能的类别的概率,最大概率的类别,即为最终的预测结果。
在另一个实施例中,如图3所示,基于注意力机制与残差神经网络的咳嗽关联疾病识别系统,包括:
样本收集模块:收集各种病因引起咳嗽的大量咳嗽音频,根据病因分类获得咳嗽音频数据库及对应病因标签,并按照一定比例分为训练集和测试集;
样本预处理模块:对收集到的所有咳嗽音频进行预处理操作:
将所有的音频数据进行归一化、端点检测;
对同一类标签中的音频进行计算得到语谱图;
对得到的语谱图按照咳嗽疾病类别标上相应的标签;
神经网络模型构建模块:主干网络选用残差神经网络ResNet18,在所述残差神经网络ResNet18中每个残差块的最后一个卷积块后加入通道注意力机制模块CAM;
神经网络模型训练模块:将训练集中咳嗽音的语谱图作为输入,输入至所构建的神经网络模型进行训练;通过设置损失函数二元交叉熵,选择Adam优化器和调整学习率来将模型训练至收敛;
结果预测模块:将测试集中音频的语谱图输入到收敛的神经网络模型中,并且使用Softmax分类函数进行分类,其中获得最大概率的类别,即为最终的预测结果。
验证例:
以下给出本发明与不同模型之间的分类性能对比
网络结构 | 新冠 | 慢性阻塞肺病 | 哮喘 | 支气管 | 上呼吸道感染 |
ResNet18 | 88.33% | 87.50% | 89.16% | 88.17% | 90% |
本发明 | 92.50% | 90.83% | 91.66% | 91.81% | 93.33% |
表中展示本发明所改进的模型在测试集上与其他方法准确率的对比,每种疾病的测试样本量均为120,本发明提出的神经网络模型是通过将通道注意力机制CAM与ResNet18相结合,在神经网络ResNet18每个残差块的最后一个卷积块后加入通道注意力机制CAM,由表可知,在新冠、慢性阻塞性肺病、哮喘、支气管、上呼吸道感染这五种咳嗽关联疾病的分类准确率上,本发明模型与ResNet18模型相比,准确率分别提升了4.17%、3.33%、2.50%、3.64%、3.33%,并在识别过程中,本发明模型的收敛速度更快、稳定性更强。因此可说明,在结合了通道注意力机制后,本发明对疾病分类能力得到了显著的提升。
综上,本发明通过利用收集到的咳嗽音频数据集,将所有音频样本分类处理获得语谱图和对应的病因标签,然后构建新型的神经网络模型:将通道注意力模块CAM加入到神经网络ResNet18每个残差块的最后一个卷积块后。将训练集中的咳嗽音的语谱图和对应咳嗽标签输入进网络进行模型训练,得到模型参数并优化参数,从而根据测试集中的语谱图输入得到相关的疾病分类。本发明采用ResNet18神经网络能克服训练过程中的梯度消失和梯度爆炸问题,加入通道注意力机制CAM,能帮助网络更好学习特征,减少模型的过拟合,提高模型泛化能力,加快模型的训练速度,使网络具有较高的准确性。
Claims (6)
1.基于注意力机制与残差神经网络的咳嗽关联疾病识别方法,其特征在于该方法包括以下步骤:
(1)收集各种病因引起咳嗽的大量咳嗽音频,根据病因分类获得咳嗽音频数据库及对应病因标签,并按照一定比例分为训练集和测试集;
(2)对收集到的所有咳嗽音频进行预处理操作:
将所有的音频数据进行归一化、端点检测;
对同一类标签中的音频进行计算得到语谱图;
对得到的语谱图按照咳嗽疾病类别标上相应的标签;
(3)构建神经网络模型:主干网络选用残差神经网络ResNet18,在所述残差神经网络ResNet18中每个残差块的最后一个卷积块后加入通道注意力机制模块CAM;
(4)将训练集中咳嗽音的语谱图作为输入,输入至步骤(3)所构建的神经网络模型进行训练;通过设置损失函数二元交叉熵,选择Adam优化器和调整学习率来将模型训练至收敛;
(5)最后将测试集中音频的语谱图输入到收敛的神经网络模型中,并且使用Softmax分类函数进行分类,其中获得最大概率的类别,即为最终的预测结果。
2.根据权利要求1所述的基于注意力机制与残差神经网络的咳嗽关联疾病识别方法,其特征在于:
将ResNet18神经网络每个残差块的最后一层的输出作为输入并行经过两路:
第一路,输入的特征图依次经过全局最大池化层、第一全连接层、第二全连接层后得到第一个输出;
第二路,输入的特征图经过全局平均池化层、第三全连接层、第四全连接层后得到第二个输出;
将两路输出结果相加再经过Sigmoid激活函数获得特征图每个通道的注意力权重;
将得到的注意力权重与最开始输入的特征图相乘得到经过注意力加权的特征图;
把经过注意力加权的特征图送入到ResNet18的后续层进行分类任务。
3.根据权利要求1所述的基于注意力机制与残差神经网络的咳嗽关联疾病识别方法,其特征在于:对同一类标签中的音频进行计算得到语谱图,具体是对同一类标签中的音频进行短时傅里叶变换、取对数振幅得到语谱图。
4.根据权利要求3所述的基于注意力机制与残差神经网络的咳嗽关联疾病识别方法,其特征在于:所述的语谱图采用梅尔语谱图。
5.根据权利要求2所述的基于注意力机制与残差神经网络的咳嗽关联疾病识别方法,其特征在于:所述的第一全连接层、第三全连接层的神经元个数为特征图通道数的1/4;第二全连接层、第四全连接层神经元个数与特征图通道数一样。
6.基于注意力机制与残差神经网络的咳嗽关联疾病识别系统,其特征在于:包括:
样本收集模块:收集各种病因引起咳嗽的大量咳嗽音频,根据病因分类获得咳嗽音频数据库及对应病因标签,并按照一定比例分为训练集和测试集;
样本预处理模块:对收集到的所有咳嗽音频进行预处理操作:
将所有的音频数据进行归一化、端点检测;
对同一类标签中的音频进行计算得到语谱图;
对得到的语谱图按照咳嗽疾病类别标上相应的标签;
神经网络模型构建模块:主干网络选用残差神经网络ResNet18,在所述残差神经网络ResNet18中每个残差块的最后一个卷积块后加入通道注意力机制模块CAM;
神经网络模型训练模块:将训练集中咳嗽音的语谱图作为输入,输入至所构建的神经网络模型进行训练;通过设置损失函数二元交叉熵,选择Adam优化器和调整学习率来将模型训练至收敛;
结果预测模块:将测试集中音频的语谱图输入到收敛的神经网络模型中,并且使用Softmax分类函数进行分类,其中获得最大概率的类别,即为最终的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534442.3A CN116842460A (zh) | 2023-05-12 | 2023-05-12 | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310534442.3A CN116842460A (zh) | 2023-05-12 | 2023-05-12 | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116842460A true CN116842460A (zh) | 2023-10-03 |
Family
ID=88169485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310534442.3A Pending CN116842460A (zh) | 2023-05-12 | 2023-05-12 | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842460A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132606A (zh) * | 2023-10-24 | 2023-11-28 | 四川大学 | 用于肺部病变图像的分割方法 |
CN117911957A (zh) * | 2024-03-19 | 2024-04-19 | 凉山彝族自治州农业科学研究院 | 一种针对观赏葵病虫害的防治监控系统及方法 |
-
2023
- 2023-05-12 CN CN202310534442.3A patent/CN116842460A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132606A (zh) * | 2023-10-24 | 2023-11-28 | 四川大学 | 用于肺部病变图像的分割方法 |
CN117132606B (zh) * | 2023-10-24 | 2024-01-09 | 四川大学 | 用于肺部病变图像的分割方法 |
CN117911957A (zh) * | 2024-03-19 | 2024-04-19 | 凉山彝族自治州农业科学研究院 | 一种针对观赏葵病虫害的防治监控系统及方法 |
CN117911957B (zh) * | 2024-03-19 | 2024-05-14 | 凉山彝族自治州农业科学研究院 | 一种针对观赏葵病虫害的防治监控系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109620152B (zh) | 一种基于MutiFacolLoss-Densenet的心电信号分类方法 | |
CN116842460A (zh) | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 | |
CN110755108A (zh) | 一种基于智能听诊器的心脏声音分类方法、系统、装置及可读存储介质 | |
CN110120230B (zh) | 一种声学事件检测方法及装置 | |
CN111354338B (zh) | 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统 | |
CN104077598B (zh) | 一种基于语音模糊聚类的情感识别方法 | |
CN111986699A (zh) | 基于全卷积网络的声音事件检测方法 | |
CN115457966B (zh) | 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法 | |
CN113674767A (zh) | 一种基于多模态融合的抑郁状态识别方法 | |
CN114023354A (zh) | 基于聚焦损失函数的指导型声学事件检测模型训练方法 | |
CN116861303A (zh) | 一种变电站数字孪生多源信息融合诊断方法 | |
CN114373452A (zh) | 基于深度学习的嗓音异常识别和评价的方法及系统 | |
CN116259415A (zh) | 一种基于机器学习的患者服药依从性预测方法 | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN114299996A (zh) | 基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统 | |
CN116570284A (zh) | 一种基于语音表征的抑郁症识别方法、系统 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN115862639A (zh) | 一种基于k—均值聚类分析的人工智能语音分析方法 | |
CN113851148A (zh) | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 | |
CN113571050A (zh) | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 | |
CN118098288B (zh) | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 | |
Xu et al. | Voiceprint recognition of Parkinson patients based on deep learning | |
CN114238558A (zh) | 一种电子病历的质检方法、装置、存储介质及设备 | |
CN107492384B (zh) | 一种基于模糊最近邻算法的语音情感识别方法 | |
CN118098288A (zh) | 一种基于自学习标签校正的弱监督语音抑郁症检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |