CN115565547A

CN115565547A - 一种基于深度神经网络的异常心音识别方法

Info

Publication number: CN115565547A
Application number: CN202211047069.0A
Authority: CN
Inventors: 王庆洁; 赵根亮; 刘开亚
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-01-03

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于深度神经网络的异常心音识别方法，构建ECAPA‑TDNN模型和wav2vec模型；使用心音数据集训练更新ECAPA‑TDNN模型和wav2vec模型的网络参数，得到ECAPA‑TDNN心音识别模型和wav2vec心音识别模型；采集待识别心音数据集；将待识别心音数据集分割为2s的音频片段；将音频片段输入wav2vec心音识别模型进行识别，得到第一结果组；提取音频片段的fbank特征送入ECAPA‑TDNN心音识别模型，得到第二结果组；设置阈值，并基于阈值对第一结果组和第二结果组进行异常判断，得到最终结果，提高了识别得到的分类结果的可信度，提高了准确率，解决了现有的心音识别方法对心音的识别的准确率较差的问题。

Description

一种基于深度神经网络的异常心音识别方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于深度神经网络的异常心音识别方法。

背景技术

传统心音识别，一般分为三个部分：心音预处理、心音分段、心音分类。由于心音是由电子仪器采集得来。在采集的过程中受到环境因素，设备因素的影响，导致部分采集来的数据噪音大，不可用，所以在传统心音识别往往需要对心音数据做预处理，预处理一般是指对心音信号判定心音数据是否可用。

传统的心音识别使用提取MFCC特征—音频特征作为分类特征，而众所周知，MFCC特征是针对语音信号，符合语音发声的仿生特征，在语音方向取得了很好的效果，但是心音和语音信号虽然都是声音，但发声机制，声音采集设备都不同，MFCC特征并不是很适合心音识别。

发明内容

本发明的目的在于提供一种基于深度神经网络的异常心音识别方法，旨在解决现有的心音识别方法对心音的识别的准确率较差的问题。

为实现上述目的，本发明提供了一种基于深度神经网络的异常心音识别方法，包括以下步骤：

构建ECAPA-TDNN模型和wav2vec模型；

使用心音数据集训练更新所述ECAPA-TDNN模型和所述wav2vec模型的网络参数，得到ECAPA-TDNN心音识别模型和wav2vec心音识别模型；

采集待识别心音数据集；

将所述待识别心音数据集分割为2s的音频片段；

将所述音频片段输入所述wav2vec心音识别模型进行识别，得到第一结果组；

提取所述音频片段的fbank特征送入所述ECAPA-TDNN心音识别模型，得到第二结果组；

设置阈值，并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断，得到最终结果。

其中，所述wav2vec模型包括卷积神经网络层、Transformer模型和全连接层。

所述ECAPA-TDNN模型包括卷积神经网络层、Attentive Statistics Pooling层、SE-Res2Block层和全连接层。

其中，所述使用心音数据集训练更新所述所述wav2vec模型的网络参数，得到wav2vec心音识别模型的具体方式为：

对心音数据进行分割，得到一维音频信号；

将所述一维音频信号输入所述卷积神经网络层得到潜在心音特征；

将所述潜在心音特征输入所述Transformer模型进行特征提取，得到提取特征；

将所述提取特征输入所述全连接层进行softmax分类，得到分类结果；

基于所述分类结果利用损失函数通过反向传播更新网络参数，得到心音识别模型。

其中，所述使用心音数据集训练更新所述ECAPA-TDNN模型的网络参数，得到ECAPA-TDNN心音识别模型的具体方式为：

将心音数据分割为2s的音频片段，并对每个音频片段以25ms窗长，10ms窗移进行分帧提取Fbank特征；

通过卷积神经网络层对所述Fbank特征进行一维卷积操作，得到潜在音频特征；

通过SE-Res2Block层将所述潜在音频特征进行多层SE-Res2Block特征融合，提取全局信息；

对所述全局信息再次进行一维卷积运算，得到最终全局信息；

通过Attentive Statistics Pooling层将所述最终全局信息压缩为3072维的向量；

通过全连接层对所述向量进行softmax分类，得到分类结果；

基于所述分类结果利用损失函数通过反向传播更新网络参数，得到ECAPA-TDNN心音识别模型。

其中，所述损失函数为交叉熵损失函数。

其中，所述设置阈值，并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断，得到最终结果的具体方式为：

将阈值设置为0.8；

若所述分类结果组中，假设基于wav2vec模型的分类结果中心音正常的个数为a1，分类结果中心音异常的个数为b1,基于ECAPA-TDNN的模型分类结果中心音正常的个数为a2，分类结果为心音异常的个数为不b2,若a1+a2/a1+b1+a2+b2大于等于0.8，则认定为心音正常，若b1+b2/a1+b1+a2+b2大于等于0.8则判定为异常，否则认定为音频无效。

本发明的一种基于深度神经网络的异常心音识别方法，构建ECAPA-TDNN模型和wav2vec模型；使用心音数据集训练更新ECAPA-TDNN模型和wav2vec模型的网络参数，得到ECAPA-TDNN心音识别模型和wav2vec心音识别模型；采集待识别心音数据集；将待识别心音数据集分割为2s的音频片段；将音频片段输入wav2vec心音识别模型进行识别，得到第一结果组；提取音频片段的fbank特征送入ECAPA-TDNN心音识别模型，得到第二结果组；设置阈值，并基于阈值对第一结果组和第二结果组进行异常判断，得到最终结果，提高了识别得到的分类结果的可信度，提高了准确率，解决了现有的心音识别方法对心音的识别的准确率较差的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于深度神经网络的异常心音识别方法的流程图。

图2是自监督模型的结构图。

图3是自监督模型的CNN模块结构图。

图4是自监督模型的Transformer模块的结构图。

图5是全连接层的结构图。

图6是ECAPA-TDNN的结构图。

图7是SE-ResNet的结构图。

图8是ECAPA-TDNN的SE-Res2Block的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图8，本发明提供一种基于深度神经网络的异常心音识别方法，包括以下步骤：

S1构建ECAPA-TDNN模型和wav2vec模型；

具体的，所述自监督训练模型(wav2vec 2.0)包括卷积神经网络层(CNN网络层)、Transformer模型和全连接层。

基于wav2vec模型：

所述将所述潜在心音特征输入所述Transformer模型，利用transformer内部的自注意力机制进行特征提取，提取的特征将包含上下文信息。

基于ECAPA-TDNN模型：

ECAPA-TDNN模型Attentive Statistics Pooling模块将注意力机制引入池化统计当中，SE-Res2Block模块也给数据每个通道进行了scale操作，从而使特征具有全局信息。

S2使用心音数据集训练更新所述ECAPA-TDNN模型和所述wav2vec模型的网络参数，得到ECAPA-TDNN心音识别模型和wav2vec心音识别模型；

具体的，使用心音数据集来fine-tune(微调)所述预训练模型，缓解数据集小的压力，同时针对心音数据集缺乏的问题。

所述使用心音数据集训练更新所述所述wav2vec模型的网络参数，得到wav2vec心音识别模型的具体方式为：

S211对心音数据进行分割，得到一维音频信号；

具体的，设置窗长为2s，窗移为0.8s，将心音数据集分割为2s的音频片段，得到一维音频信号。分割为2s片段：心音信号为连续信号，但是经设备采集的过程中，会将信号进行抽样，假设采样率为16000，即1s的心音信号可以采样到16000个点。我们通常用到的数据格式，mp3，flac，opus等音频格式，读出来的都是采样后的数据，时间上离散的点，2s的音频对应为32000个点，利用python自带的包librosa将音频数据读出来，只要每次区设置窗长为32000，窗移为6400，每次都能取到32000数据点，即为2s。

S212将所述一维音频信号输入所述卷积神经网络层得到潜在心音特征；

S213将所述潜在心音特征输入所述Transformer模型进行特征提取，得到提取特征；

具体的，Transformer模型提取特征的能力是很强大的，Wav2vec 2.0中就是采用了transformer来提取特征，且由于transformer的self-attention的全局注意力机制，使得提取的特征表征能力更为强大。Wav2vec 2.0还引入了乘积量化，将无限的特征表达空间坍缩为有限的离散空间，让特征的鲁棒性更强。

具体的，将所述一维音频信号经过mask后送入transformer模块。

S214将所述提取特征输入所述全连接层进行softmax分类，得到分类结果；

S215基于所述分类结果利用损失函数通过反向传播更新网络参数，得到心音识别模型。

所述使用心音数据集训练更新所述ECAPA-TDNN模型的网络参数，得到ECAPA-TDNN心音识别模型的具体方式为：

S221将心音数据分割为2s的音频片段，并对每个音频片段以25ms窗长，10ms窗移进行分帧提取Fbank特征；

具体的，MFCC特征是针对语音信号，符合语音发声的仿生特征，在语音方向取得了很好的效果，但是心音和语音信号虽然都是声音，但发声机制，声音采集设备都不同，音频特征并不是很适合心音识别.所以取Fbank特征作为模型的输入特征，这样就可以保留等多原始音频的信息来给模型学习。

S212通过卷积神经网络层对所述Fbank特征进行一维卷积操作，得到潜在音频特征；

S213通过SE-Res2Block层将所述潜在音频特征进行多层SE-Res2Block特征融合，提取全局信息；

S214对所述全局信息再次进行一维卷积运算，得到最终全局信息；

S215通过Attentive Statistics Pooling层将所述最终全局信息压缩为3072维的向量；

S216通过全连接层对所述向量进行softmax分类，得到分类结果；

S217基于所述分类结果利用损失函数通过反向传播更新网络参数，得到ECAPA-TDNN心音识别模型。

损失函数Loss:即L

其中，y_i表示样本i的lable，正类为1，负类为0；

p_i表示样本i预测为正类的概率；

N表示样本数。

具体的，训练时损失函数使用cross entropy，通过反向传播更新网络参数。

S3采集待识别心音数据集；

S4将所述待识别心音数据集分割为2s的音频片段；

具体的，将所述待识别心音数据集分割为2s的音频片段为特征1，对2s音频片段取Fbank特征为特征2；

S5将所述音频片段输入所述wav2vec心音识别模型进行识别，得到第一结果组；

S6提取所述音频片段的fbank特征送入所述ECAPA-TDNN心音识别模型，得到第二结果组。

S7设置阈值，并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断，得到最终结果。

具体方式为：

S71将阈值设置为0.8；

若所述分类结果组中，假设基于wav2vec模型的分类结果中心音正常的个数为a1，分类结果中心音异常的个数为b1,基于ECAPA-TDNN的模型分类结果中心音正常的个数为a2，分类结果为心音异常的个数为不b2；若a1+a2/a1+b1+a2+b2大于等于0.8，则认定为心音正常，若b1+b2/a1+b1+a2+b2大于等于0.8则判定为异常，否则认定为音频无效。

有益效果：

心音信号和其他的声音信号相比具有规律性和独特性，心音信号为周期信号，一次心跳的起始到下一次心跳的起始为一次完整的心跳周期，一个心跳周期一般为0.8s左右，而采集的心音音频时长一般为20s，综合考虑既要能保留心音周期信性特征又不会使得数据量过大，所以取2s为分割时长，实现了数据10倍的扩充。

Tansformer算法具有强大的特征提取的能力，在深度学习各个领域都取得明显的提升效果，在语音识别领域，针对方言的语音识别：如粤语、四川话等，也是存在数据集小的问题，引入自监督训练的技术，在表现好的普通话模型方言数据来fine-tune模型，可以取得不错的效果，由此产生灵感，心音信号和语音信号同属于声音信号，具有一些共性特征，所以采用wav2vec2.0在大量语音数据下训练模型，后续加入心音数据来fine-tune模型，可以提升模型的识别准确率。

以上所揭露的仅为本发明一种基于深度神经网络的异常心音识别方法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于深度神经网络的异常心音识别方法，其特征在于，包括以下步骤：

构建ECAPA-TDNN模型和wav2vec模型；

采集待识别心音数据集；

将所述待识别心音数据集分割为2s的音频片段；

2.如权利要求1所述的基于深度神经网络的异常心音识别方法，其特征在于，

所述wav2vec模型包括卷积神经网络层、Transformer模型和全连接层。

3.如权利要求2所述的基于深度神经网络的异常心音识别方法，其特征在于，

对心音数据进行分割，得到一维音频信号；

将所述潜在心音特征输入所述Transformer模型再次进行特征提取，得到提取特征；

4.如权利要求3所述的基于深度神经网络的异常心音识别方法，其特征在于，

通过全连接层对所述向量进行softmax分类，得到分类结果；

5.如权利要求4所述的基于深度神经网络的异常心音识别方法，其特征在于，

所述损失函数为交叉熵损失函数。

6.如权利要求5所述的基于深度神经网络的异常心音识别方法，其特征在于，

所述设置阈值，并基于所述阈值对所述第一结果组和所述第二结果组进行异常判断，得到最终结果的具体方式为：

将阈值设置为0.8；