CN116778969A - 一种基于双通道交叉注意力的域适应的心音分类方法 - Google Patents
一种基于双通道交叉注意力的域适应的心音分类方法 Download PDFInfo
- Publication number
- CN116778969A CN116778969A CN202310744420.XA CN202310744420A CN116778969A CN 116778969 A CN116778969 A CN 116778969A CN 202310744420 A CN202310744420 A CN 202310744420A CN 116778969 A CN116778969 A CN 116778969A
- Authority
- CN
- China
- Prior art keywords
- layer
- attention mechanism
- features
- channel
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 47
- 238000013145 classification model Methods 0.000 claims abstract description 36
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims description 168
- 238000010606 normalization Methods 0.000 claims description 99
- YKGYQYOQRGPFTO-UHFFFAOYSA-N bis(8-methylnonyl) hexanedioate Chemical compound CC(C)CCCCCCCOC(=O)CCCCC(=O)OCCCCCCCC(C)C YKGYQYOQRGPFTO-UHFFFAOYSA-N 0.000 claims description 54
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- QGBSISYHAICWAH-UHFFFAOYSA-N dicyandiamide Chemical compound NC(N)=NC#N QGBSISYHAICWAH-UHFFFAOYSA-N 0.000 claims 1
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B7/00—Instruments for auscultation
- A61B7/02—Stethoscopes
- A61B7/04—Electric stethoscopes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Acoustics & Sound (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Epidemiology (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Complex Calculations (AREA)
Abstract
一种基于双通道交叉注意力的域适应的心音分类方法,涉及心音信号分类技术领域,提取心音信号的梅尔倒谱系数作为特征,之后搭建双通道交叉注意力的域自适应分类模型,通过双向交叉注意力实现特征的域自适应学习,既实现了源域心音信号的学习,又能实现目标域心音信号的学习,减少域差异对分类结果的影响。
Description
技术领域
本发明涉及心音信号分类技术领域,具体涉及一种基于双通道交叉注意力的域适应的心音分类方法。
背景技术
心音信号是一种能够很好的检测心脏机械运动的声音信号,心脏的不同的状态会反映出不同的心音信号特征,通过深度学习可以实现心音信号的分类。但是,当前心音信号的采集设备的质量和标准不一样,导致了心音信号的特征分布显著不同,目前常用的深度学习模型往往会偏向于大多数训练数据的来源,所以,在不同的听诊器和不同的环境下,采集的心音数据会显著影响网络模型对心音信号的分类性能,域差异会很大程度上影响最终心音的分类结果。
发明内容
本发明为了克服以上技术的不足,提供了一种减少域差异对分类结果的影响的心音分类方法。
本发明克服其技术问题所采用的技术方案是:
一种基于双通道交叉注意力的域适应的心音分类方法,包括如下步骤:
a)获取心音信号数据构成源域数据及获取心音信号数据构成目标域数据;
b)提取源域数据中的心音信号的梅尔倒谱系数,得到源域数据特征矩阵Xs,提取目标域数据中的心音信号的梅尔倒谱系数,得目标域数据特征矩阵Xt;
c)建立双通道交叉注意力的域自适应分类模型,双通道交叉注意力的域自适应分类模型由卷积层、Relu激活函数层、Batch Normalization层、第一DIDA模块、第二DIDA模块、第三DIDA模块、全局平均池化层、Droupout层、Dense层、Softmax函数层构成,第一DIDA模块、第二DIDA模块、第三DIDA模块均由上层通道和下层通道构成;
d)将源域数据特征矩阵Xs输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征
e)将特征输入到第一DIDA模块的上层通道中,输出得到特征将特征输入到第二DIDA模块的上层通道中,输出得到特征将特征输入到第三DIDA模块的上层通道中,输出得到特征
f)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征将特征输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y,标签y为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号;
g)将目标域数据特征矩阵Xt输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征
h)将特征输入到第一DIDA模块的下层通道中,输出得到特征将特征输入到第二DIDA模块的上层通道中,输出得到特征将特征输入到第三DIDA模块的上层通道中,输出得到特征i)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征将特征输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y′,标签y′为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号。
优选的,步骤a)中将Physionet2016心音数据库作为源域数据,将Khan心音数据库作为目标域数据,源域数据中的心音信号和目标域数据中的心音信号的时长均设置为5秒,采样率均为16000Hz。
优选的,步骤b)中梅尔倒谱系数的维度设置为40。
优选的,双通道交叉注意力的域自适应分类模型的卷积层的卷积核大小为3×3,步长为2。
进一步的,步骤e)包括如下步骤:
e-1)第一DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中Concat(·)为拼接操作,WO为随机产生的参数矩阵,headi为多头注意力机制第i个头,i∈{1,2,...,n},n为多头注意力机制的头的总数,softmax(·)为Softmax函数,Wi Q、Wi K、Wi V均为随机产生的参数矩阵,T为转置,Qs为多头注意力机制的查询向量,Ks为多头注意力机制的键向量,Vs为多头注意力机制的值向量,d为查询向量Qs的矩阵维度, 均为随机产生的参数矩阵,将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二LayerNormalization层中,输出得到特征e-2)第二DIDA模块的上层通道由第一LayerNormalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二LayerNormalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中,headi′为多头注意力机制第i个头,Qs′为多头注意力机制的查询向量,Ks′为多头注意力机制的键向量,Vs′为多头注意力机制的值向量,d′为查询向量Qs′的矩阵维度, 将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二LayerNormalization层中,输出得到特征e-3)第三DIDA模块的上层通道由第一LayerNormalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二LayerNormalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中,headi″为多头注意力机制第i个头,Qs″为多头注意力机制的查询向量,Ks″为多头注意力机制的键向量,Vs″为多头注意力机制的值向量,d″为查询向量Qs″的矩阵维度, 将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二LayerNormalization层中,输出得到特征
优选的,n取值为8,d、d′、d″取值均为40。
进一步的,步骤h)包括如下步骤:
h-1)第一DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中Wt O为随机产生的参数矩阵,为多头注意力机制第i个头,i∈{1,2,...,n},Wi K,t、Wi V,t均为随机产生的参数矩阵,Kt为多头注意力机制的键向量,Vt为多头注意力机制的值向量,均为随机产生的参数矩阵,将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为随机产生的参数矩阵,为多头注意力机制第i个头,i∈{1,2,...,n},Wi st、Wi t,s,k、Wi t,s,v均为随机产生的参数矩阵,Qst为多头注意力机制的查询向量,Kts为多头注意力机制的键向量,Vts为多头注意力机制的值向量,均为随机产生的参数矩阵,为随机产生的参数矩阵,为多头注意力机制第i个头,i∈{1,2,...,n},Qt为多头注意力机制的查询向量,均为随机产生的参数矩阵,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征h-2)第二DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt′为多头注意力机制的键向量,Vt′为多头注意力机制的值向量, 将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Qst′为多头注意力机制的查询向量,Kts′为多头注意力机制的键向量,Vts′为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},Qt′为多头注意力机制的查询向量,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征h-3)第三DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt″为多头注意力机制的键向量,Vt″为多头注意力机制的值向量, 将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Qst″为多头注意力机制的查询向量,Kts″为多头注意力机制的键向量,Vts″为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},Qt″为多头注意力机制的查询向量,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征本发明的有益效果是:提取心音信号的梅尔倒谱系数作为特征,之后搭建双通道交叉注意力的域自适应分类模型,通过双向交叉注意力实现特征的域自适应学习,既实现了源域心音信号的学习,又能实现目标域心音信号的学习,减少域差异对分类结果的影响。
附图说明
图1为本发明的双通道交叉注意力的域自适应模型结构图;
图2为本发明的DIDA模块结构图。
具体实施方式
下面结合附图1、附图2对本发明做进一步说明。
一种基于双通道交叉注意力的域适应的心音分类方法,包括如下步骤:
a)获取心音信号数据构成源域数据及获取心音信号数据构成目标域数据。
b)提取源域数据中的心音信号的梅尔倒谱系数,得到源域数据特征矩阵Xs,提取目标域数据中的心音信号的梅尔倒谱系数,得目标域数据特征矩阵Xt。
c)建立双通道交叉注意力的域自适应分类模型,双通道交叉注意力的域自适应分类模型由卷积层、Relu激活函数层、Batch Normalization层、第一DIDA模块、第二DIDA模块、第三DIDA模块、全局平均池化层、Droupout层、Dense层、Softmax函数层构成,第一DIDA模块、第二DIDA模块、第三DIDA模块均由上层通道和下层通道构成。
d)将源域数据特征矩阵Xs输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征
e)将特征输入到第一DIDA模块的上层通道中,输出得到特征将特征输入到第二DIDA模块的上层通道中,输出得到特征将特征输入到第三DIDA模块的上层通道中,输出得到特征
f)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征将特征输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y,标签y为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号。
g)将目标域数据特征矩阵Xt输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征
h)将特征输入到第一DIDA模块的下层通道中,输出得到特征将特征输入到第二DIDA模块的上层通道中,输出得到特征将特征输入到第三DIDA模块的上层通道中,输出得到特征i)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征将特征输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y′,标签y′为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号。
搭建双通道交叉注意力的域自适应分类模型,通过双向交叉注意力实现特征的域自适应学习,既实现了源域心音信号的学习,又能实现目标域心音信号的学习,减少域差异对分类结果的影响。
在本发明的一个实施例中,优选的,步骤a)中将Physionet2016心音数据库作为源域数据,将Khan心音数据库作为目标域数据,源域数据中的心音信号和目标域数据中的心音信号的时长均设置为5秒,采样率均为16000Hz。步骤b)中梅尔倒谱系数的维度设置为40。双通道交叉注意力的域自适应分类模型的卷积层的卷积核大小为3×3,步长为2。
在本发明的一个实施例中,步骤e)包括如下步骤:
e-1)第一DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中Concat(·)为拼接操作,WO为随机产生的参数矩阵,headi为多头注意力机制第i个头,i∈{1,2,...,n},n为多头注意力机制的头的总数,softmax(·)为Softmax函数,Wi Q、Wi K、Wi V均为随机产生的参数矩阵,T为转置,Qs为多头注意力机制的查询向量,Ks为多头注意力机制的键向量,Vs为多头注意力机制的值向量,d为查询向量Qs的矩阵维度, 均为随机产生的参数矩阵,将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二LayerNormalization层中,输出得到特征e-2)第二DIDA模块的上层通道由第一LayerNormalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二LayerNormalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中,headi′为多头注意力机制第i个头,Qs′为多头注意力机制的查询向量,Ks′为多头注意力机制的键向量,Vs′为多头注意力机制的值向量,d′为查询向量Qs′的矩阵维度, 将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二LayerNormalization层中,输出得到特征e-3)第三DIDA模块的上层通道由第一LayerNormalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二LayerNormalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中,headi″为多头注意力机制第i个头,Qs″为多头注意力机制的查询向量,Ks″为多头注意力机制的键向量,Vs″为多头注意力机制的值向量,d″为查询向量Qs″的矩阵维度, 将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二LayerNormalization层中,输出得到特征在该实施例中,优选的n取值为8,d、d′、d″取值均为40。
在本发明的一个实施例中,步骤h)包括如下步骤:
h-1)第一DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中Wt O为随机产生的参数矩阵,为多头注意力机制第i个头,i∈{1,2,...,n},Wi K,t、Wi V,t均为随机产生的参数矩阵,Kt为多头注意力机制的键向量,Vt为多头注意力机制的值向量,均为随机产生的参数矩阵,将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为随机产生的参数矩阵,为多头注意力机制第i个头,i∈{1,2,…,n},Wi st、Wi t,s,k、Wi t,s,v均为随机产生的参数矩阵,Qst为多头注意力机制的查询向量,Kts为多头注意力机制的键向量,Vts为多头注意力机制的值向量,均为随机产生的参数矩阵,为随机产生的参数矩阵,为多头注意力机制第i个头,i∈{1,2,...,n},Qt为多头注意力机制的查询向量,均为随机产生的参数矩阵,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征
h-2)第二DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt′为多头注意力机制的键向量,Vt′为多头注意力机制的值向量, 将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Qst′为多头注意力机制的查询向量,Kts′为多头注意力机制的键向量,Vts′为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},Qt′为多头注意力机制的查询向量,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征h-3)第三DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt″为多头注意力机制的键向量,Vt″为多头注意力机制的值向量, 将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Qst″为多头注意力机制的查询向量,Kts″为多头注意力机制的键向量,Vts″为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},Qt″为多头注意力机制的查询向量,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于双通道交叉注意力的域适应的心音分类方法,其特征在于,包括如下步骤:
a)获取心音信号数据构成源域数据及获取心音信号数据构成目标域数据;
b)提取源域数据中的心音信号的梅尔倒谱系数,得到源域数据特征矩阵Xs,提取目标域数据中的心音信号的梅尔倒谱系数,得目标域数据特征矩阵Xt;
c)建立双通道交叉注意力的域自适应分类模型,双通道交叉注意力的域自适应分类模型由卷积层、Relu激活函数层、Batch Normalization层、第一DIDA模块、第二DIDA模块、第三DIDA模块、全局平均池化层、Droupout层、Dense层、Softmax函数层构成,第一DIDA模块、第二DIDA模块、第三DIDA模块均由上层通道和下层通道构成;
d)将源域数据特征矩阵Xs输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征
e)将特征输入到第一DIDA模块的上层通道中,输出得到特征将特征输入到第二DIDA模块的上层通道中,输出得到特征将特征输入到第三DIDA模块的上层通道中,输出得到特征
f)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征将特征输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y,标签y为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号;
g)将目标域数据特征矩阵Xt输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征
h)将特征输入到第一DIDA模块的下层通道中,输出得到特征将特征输入到第二DIDA模块的上层通道中,输出得到特征将特征输入到第三DIDA模块的上层通道中,输出得到特征
i)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征将特征输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y′,标签y′为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号。
2.根据权利要求1所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于:步骤a)中将Physionet2016心音数据库作为源域数据,将Khan心音数据库作为目标域数据,源域数据中的心音信号和目标域数据中的心音信号的时长均设置为5秒,采样率均为16000Hz。
3.根据权利要求1所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于:步骤b)中梅尔倒谱系数的维度设置为40。
4.根据权利要求1所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于:双通道交叉注意力的域自适应分类模型的卷积层的卷积核大小为3×3,步长为2。
5.根据权利要求1所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于,步骤e)包括如下步骤:
e-1)第一DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中Concat(·)为拼接操作,WO为随机产生的参数矩阵,headi为多头注意力机制第i个头,i∈{1,2,...,n},n为多头注意力机制的头的总数,softmax(·)为Softmax函数,均为随机产生的参数矩阵,T为转置,Qs为多头注意力机制的查询向量,Ks为多头注意力机制的键向量,Vs为多头注意力机制的值向量,d为查询向量Qs的矩阵维度, 均为随机产生的参数矩阵,将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征
e-2)第二DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中,headi′为多头注意力机制第i个头,Qs′为多头注意力机制的查询向量,Ks′为多头注意力机制的键向量,Vs′为多头注意力机制的值向量,d′为查询向量Qs′的矩阵维度, 将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征
e-3)第三DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到上层通道的多头注意力机制中通过公式计算得到特征式中,headi″为多头注意力机制第i个头,Qs″为多头注意力机制的查询向量,Ks″为多头注意力机制的键向量,Vs″为多头注意力机制的值向量,d″为查询向量Qs″的矩阵维度 将特征与特征进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征
6.根据权利要求5所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于:n取值为8,d、d′、d″取值均为40。
7.根据权利要求5所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于,步骤h)包括如下步骤:
h-1)第一DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中Wt O为随机产生的参数矩阵,为多头注意力机制第i个头,i∈{1,2,...,n},Wi K,t、Wi V,t均为随机产生的参数矩阵,Kt为多头注意力机制的键向量,Vt为多头注意力机制的值向量,均为随机产生的参数矩阵,将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为随机产生的参数矩阵,为多头注意力机制第i个头,Wi st、Wi t,s,k、Wi t,s,v均为随机产生的参数矩阵,Qst为多头注意力机制的查询向量,Kts为多头注意力机制的键向量,Vts为多头注意力机制的值向量,均为随机产生的参数矩阵, 为随机产生的参数矩阵,为多头注意力机制第i个头,i∈{1,2,...,n},Qt为多头注意力机制的查询向量,均为随机产生的参数矩阵,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征
h-2)第二DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt′为多头注意力机制的键向量,Vt′为多头注意力机制的值向量, 将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Qst′为多头注意力机制的查询向量,Kts′为多头注意力机制的键向量,Vts′为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},Qt′为多头注意力机制的查询向量,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征h-3)第三DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征输入到下层通道的第一多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt″为多头注意力机制的键向量,Vt″为多头注意力机制的值向量, 将特征输入到下层通道的第一Linear线性层,输出得到特征将特征输入到下层通道的第二多头注意力机制中通过公式计算得到特征式中为多头注意力机制第i个头,i∈{1,2,...,n},Qst″为多头注意力机制的查询向量,Kts″为多头注意力机制的键向量,Vts″为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},Qt″为多头注意力机制的查询向量,将特征输入到下层通道的第二Layer Normalization层中,输出得到特征将特征依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征将特征与特征进行特征融合,得到特征
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310744420.XA CN116778969B (zh) | 2023-06-25 | 2023-06-25 | 一种基于双通道交叉注意力的域适应的心音分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310744420.XA CN116778969B (zh) | 2023-06-25 | 2023-06-25 | 一种基于双通道交叉注意力的域适应的心音分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116778969A true CN116778969A (zh) | 2023-09-19 |
CN116778969B CN116778969B (zh) | 2024-03-01 |
Family
ID=88009481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310744420.XA Active CN116778969B (zh) | 2023-06-25 | 2023-06-25 | 一种基于双通道交叉注意力的域适应的心音分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116778969B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460953A (zh) * | 2020-03-26 | 2020-07-28 | 山东省人工智能研究院 | 一种基于对抗域自适应学习的心电信号分类方法 |
CN112656431A (zh) * | 2020-12-15 | 2021-04-16 | 中国科学院深圳先进技术研究院 | 基于脑电的注意力识别方法、装置、终端设备和存储介质 |
CN113011456A (zh) * | 2021-02-05 | 2021-06-22 | 中国科学技术大学 | 用于图像分类的基于类别自适应模型的无监督域适应方法 |
CN113936339A (zh) * | 2021-12-16 | 2022-01-14 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
CN114841209A (zh) * | 2022-05-13 | 2022-08-02 | 山东省人工智能研究院 | 一种基于深度领域自适应的多目标域心电信号分类方法 |
CN115169384A (zh) * | 2022-06-15 | 2022-10-11 | 中国科学院深圳先进技术研究院 | 脑电信号分类模型训练方法、意图识别方法、设备及介质 |
CN116186593A (zh) * | 2023-03-10 | 2023-05-30 | 山东省人工智能研究院 | 一种基于可分离卷积和注意力机制的心电信号检测方法 |
-
2023
- 2023-06-25 CN CN202310744420.XA patent/CN116778969B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460953A (zh) * | 2020-03-26 | 2020-07-28 | 山东省人工智能研究院 | 一种基于对抗域自适应学习的心电信号分类方法 |
CN112656431A (zh) * | 2020-12-15 | 2021-04-16 | 中国科学院深圳先进技术研究院 | 基于脑电的注意力识别方法、装置、终端设备和存储介质 |
CN113011456A (zh) * | 2021-02-05 | 2021-06-22 | 中国科学技术大学 | 用于图像分类的基于类别自适应模型的无监督域适应方法 |
CN113936339A (zh) * | 2021-12-16 | 2022-01-14 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
CN114841209A (zh) * | 2022-05-13 | 2022-08-02 | 山东省人工智能研究院 | 一种基于深度领域自适应的多目标域心电信号分类方法 |
CN115169384A (zh) * | 2022-06-15 | 2022-10-11 | 中国科学院深圳先进技术研究院 | 脑电信号分类模型训练方法、意图识别方法、设备及介质 |
CN116186593A (zh) * | 2023-03-10 | 2023-05-30 | 山东省人工智能研究院 | 一种基于可分离卷积和注意力机制的心电信号检测方法 |
Non-Patent Citations (1)
Title |
---|
CHI YANG 等: "Dual-Channel Domain Adaptation Model", WI-IAT ’21 COMPANION * |
Also Published As
Publication number | Publication date |
---|---|
CN116778969B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648748B (zh) | 医院噪声环境下的声学事件检测方法 | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN112989977B (zh) | 一种基于跨模态注意力机制的视听事件定位方法及装置 | |
EP0538626B1 (en) | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks | |
CN110047506B (zh) | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN112328994A (zh) | 声纹数据处理方法、装置、电子设备和存储介质 | |
US20230386502A1 (en) | Audio-Visual Separation of On-Screen Sounds based on Machine Learning Models | |
CN115393968A (zh) | 一种融合自监督多模态特征的视听事件定位方法 | |
CN113627233A (zh) | 基于视觉语义信息的人脸伪造检测方法和装置 | |
US7207068B2 (en) | Methods and apparatus for modeling based on conversational meta-data | |
CN116778968B (zh) | 一种基于深度可分离卷积与注意力机制的心音分类方法 | |
CN116778969B (zh) | 一种基于双通道交叉注意力的域适应的心音分类方法 | |
US8560469B2 (en) | Method for a pattern discovery and recognition | |
CN110489470B (zh) | 基于稀疏表示分类的hrtf个人化方法 | |
McEwen et al. | Active few-shot learning for rare bioacoustic feature annotation | |
CN117351988B (zh) | 一种基于数据分析的远程音频信息处理方法及系统 | |
CN117935813B (zh) | 一种声纹识别方法及系统 | |
CN111179546B (zh) | 一种自适应分布式音频报警方法及系统 | |
US20220208184A1 (en) | Anomaly detection apparatus, anomaly detection method, and anomaly detection system | |
CN116052725A (zh) | 一种基于深度神经网络的细粒度肠鸣音识别方法及装置 | |
CN117912470A (zh) | 声纹识别方法、装置、计算机设备和存储介质 | |
JUNKLEWITZ et al. | Clustering and Unsupervised Classification in Forensics | |
CN118136045A (zh) | 语音特征提取方法及相关方法、装置、设备和存储介质 | |
CN116269226A (zh) | 一种检测预警方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |