CN116778969B - 一种基于双通道交叉注意力的域适应的心音分类方法 - Google Patents

一种基于双通道交叉注意力的域适应的心音分类方法 Download PDF

Info

Publication number
CN116778969B
CN116778969B CN202310744420.XA CN202310744420A CN116778969B CN 116778969 B CN116778969 B CN 116778969B CN 202310744420 A CN202310744420 A CN 202310744420A CN 116778969 B CN116778969 B CN 116778969B
Authority
CN
China
Prior art keywords
layer
attention mechanism
features
channel
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310744420.XA
Other languages
English (en)
Other versions
CN116778969A (zh
Inventor
舒明雷
李金萌
王英龙
周书旺
徐鹏摇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Original Assignee
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Institute of Artificial Intelligence filed Critical Qilu University of Technology
Priority to CN202310744420.XA priority Critical patent/CN116778969B/zh
Publication of CN116778969A publication Critical patent/CN116778969A/zh
Application granted granted Critical
Publication of CN116778969B publication Critical patent/CN116778969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B7/00Instruments for auscultation
    • A61B7/02Stethoscopes
    • A61B7/04Electric stethoscopes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于双通道交叉注意力的域适应的心音分类方法,涉及心音信号分类技术领域,提取心音信号的梅尔倒谱系数作为特征,之后搭建双通道交叉注意力的域自适应分类模型,通过双向交叉注意力实现特征的域自适应学习,既实现了源域心音信号的学习,又能实现目标域心音信号的学习,减少域差异对分类结果的影响。

Description

一种基于双通道交叉注意力的域适应的心音分类方法
技术领域
本发明涉及心音信号分类技术领域,具体涉及一种基于双通道交叉注意力的域适应的心音分类方法。
背景技术
心音信号是一种能够很好的检测心脏机械运动的声音信号,心脏的不同的状态会反映出不同的心音信号特征,通过深度学习可以实现心音信号的分类。但是,当前心音信号的采集设备的质量和标准不一样,导致了心音信号的特征分布显著不同,目前常用的深度学习模型往往会偏向于大多数训练数据的来源,所以,在不同的听诊器和不同的环境下,采集的心音数据会显著影响网络模型对心音信号的分类性能,域差异会很大程度上影响最终心音的分类结果。
发明内容
本发明为了克服以上技术的不足,提供了一种减少域差异对分类结果的影响的心音分类方法。
本发明克服其技术问题所采用的技术方案是:
一种基于双通道交叉注意力的域适应的心音分类方法,包括如下步骤:
a)获取心音信号数据构成源域数据及获取心音信号数据构成目标域数据;
b)提取源域数据中的心音信号的梅尔倒谱系数,得到源域数据特征矩阵Xs,提取目标域数据中的心音信号的梅尔倒谱系数,得目标域数据特征矩阵Xt
c)建立双通道交叉注意力的域自适应分类模型,双通道交叉注意力的域自适应分类模型由卷积层、Relu激活函数层、Batch Normalization层、第一DIDA模块、第二DIDA模块、第三DIDA模块、全局平均池化层、Droupout层、Dense层、Softmax函数层构成,第一DIDA模块、第二DIDA模块、第三DIDA模块均由上层通道和下层通道构成;
d)将源域数据特征矩阵Xs输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征/>依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征/>
e)将特征输入到第一DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第二DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第三DIDA模块的上层通道中,输出得到特征/>
f)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征/>将特征/>输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y,标签y为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号;
g)将目标域数据特征矩阵Xt输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征/>依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征/>
h)将特征输入到第一DIDA模块的下层通道中,输出得到特征/>将特征/>输入到第二DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第三DIDA模块的上层通道中,输出得到特征/>i)将特征/>依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征/>将特征/>输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y′,标签y′为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号。
优选的,步骤a)中将Physionet2016心音数据库作为源域数据,将Khan心音数据库作为目标域数据,源域数据中的心音信号和目标域数据中的心音信号的时长均设置为5秒,采样率均为16000Hz。
优选的,步骤b)中梅尔倒谱系数的维度设置为40。
优选的,双通道交叉注意力的域自适应分类模型的卷积层的卷积核大小为3×3,步长为2。
进一步的,步骤e)包括如下步骤:
e-1)第一DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式计算得到特征/>式中Concat(·)为拼接操作,WO为随机产生的参数矩阵,headi为多头注意力机制第i个头,i∈{1,2,...,n},n为多头注意力机制的头的总数,softmax(·)为Softmax函数,Wi Q、Wi K、Wi V均为随机产生的参数矩阵,T为转置,Qs为多头注意力机制的查询向量,Ks为多头注意力机制的键向量,Vs为多头注意力机制的值向量,d为查询向量Qs的矩阵维度, 均为随机产生的参数矩阵,将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征/>e-2)第二DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征/>输入到上层通道的第一LayerNormalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式/>计算得到特征式中,headi′为多头注意力机制第i个头,Qs′为多头注意力机制的查询向量,Ks′为多头注意力机制的键向量,Vs′为多头注意力机制的值向量,d′为查询向量Qs′的矩阵维度,/> 将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二LayerNormalization层中,输出得到特征/>e-3)第三DIDA模块的上层通道由第一LayerNormalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二LayerNormalization层构成,将特征/>输入到上层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式计算得到特征/>式中,headi″为多头注意力机制第i个头,/>Qs″为多头注意力机制的查询向量,Ks″为多头注意力机制的键向量,Vs″为多头注意力机制的值向量,d″为查询向量Qs″的矩阵维度,/> 将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征/>
优选的,n取值为8,d、d′、d″取值均为40。
进一步的,步骤h)包括如下步骤:
h-1)第一DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到下层通道的第一多头注意力机制中通过公式/>计算得到特征/>式中Wt O为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,...,n},/>Wi K,t、Wi V,t均为随机产生的参数矩阵,Kt为多头注意力机制的键向量,Vt为多头注意力机制的值向量,均为随机产生的参数矩阵,将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征/>式中/>为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,...,n},/>Wi st、Wi t,s,k、Wi t,s,v均为随机产生的参数矩阵,Qst为多头注意力机制的查询向量,Kts为多头注意力机制的键向量,Vts为多头注意力机制的值向量,均为随机产生的参数矩阵,/>为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,...,n},Qt为多头注意力机制的查询向量,均为随机产生的参数矩阵,将特征/>输入到下层通道的第二Layer Normalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征/>与特征/>进行特征融合,得到特征/>h-2)第二DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征/>输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征/>输入到下层通道的第一多头注意力机制中通过公式计算得到特征/>式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt′为多头注意力机制的键向量,Vt′为多头注意力机制的值向量,/> 将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Qst′为多头注意力机制的查询向量,Kts′为多头注意力机制的键向量,Vts′为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},/>Qt′为多头注意力机制的查询向量,/>将特征/>输入到下层通道的第二LayerNormalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征/>与特征进行特征融合,得到特征/>h-3)第三DIDA模块的下层通道由第一LayerNormalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征/>输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征/>输入到下层通道的第一多头注意力机制中通过公式计算得到特征/>式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt″为多头注意力机制的键向量,Vt″为多头注意力机制的值向量,/> 将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征/>式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Qst″为多头注意力机制的查询向量,Kts″为多头注意力机制的键向量,Vts″为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},/>Qt″为多头注意力机制的查询向量,/>将特征/>输入到下层通道的第二LayerNormalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征/>与特征进行特征融合,得到特征/>本发明的有益效果是:提取心音信号的梅尔倒谱系数作为特征,之后搭建双通道交叉注意力的域自适应分类模型,通过双向交叉注意力实现特征的域自适应学习,既实现了源域心音信号的学习,又能实现目标域心音信号的学习,减少域差异对分类结果的影响。
附图说明
图1为本发明的双通道交叉注意力的域自适应模型结构图;
图2为本发明的DIDA模块结构图。
具体实施方式
下面结合附图1、附图2对本发明做进一步说明。
一种基于双通道交叉注意力的域适应的心音分类方法,包括如下步骤:
a)获取心音信号数据构成源域数据及获取心音信号数据构成目标域数据。
b)提取源域数据中的心音信号的梅尔倒谱系数,得到源域数据特征矩阵Xs,提取目标域数据中的心音信号的梅尔倒谱系数,得目标域数据特征矩阵Xt
c)建立双通道交叉注意力的域自适应分类模型,双通道交叉注意力的域自适应分类模型由卷积层、Relu激活函数层、Batch Normalization层、第一DIDA模块、第二DIDA模块、第三DIDA模块、全局平均池化层、Droupout层、Dense层、Softmax函数层构成,第一DIDA模块、第二DIDA模块、第三DIDA模块均由上层通道和下层通道构成。
d)将源域数据特征矩阵Xs输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征/>依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征/>
e)将特征输入到第一DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第二DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第三DIDA模块的上层通道中,输出得到特征/>
f)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征/>将特征/>输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y,标签y为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号。
g)将目标域数据特征矩阵Xt输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征/>依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征/>
h)将特征输入到第一DIDA模块的下层通道中,输出得到特征/>将特征/>输入到第二DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第三DIDA模块的上层通道中,输出得到特征/>i)将特征/>依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征/>将特征/>输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y′,标签y′为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号。
搭建双通道交叉注意力的域自适应分类模型,通过双向交叉注意力实现特征的域自适应学习,既实现了源域心音信号的学习,又能实现目标域心音信号的学习,减少域差异对分类结果的影响。
在本发明的一个实施例中,优选的,步骤a)中将Physionet2016心音数据库作为源域数据,将Khan心音数据库作为目标域数据,源域数据中的心音信号和目标域数据中的心音信号的时长均设置为5秒,采样率均为16000Hz。步骤b)中梅尔倒谱系数的维度设置为40。双通道交叉注意力的域自适应分类模型的卷积层的卷积核大小为3×3,步长为2。
在本发明的一个实施例中,步骤e)包括如下步骤:
e-1)第一DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式计算得到特征/>式中Concat(·)为拼接操作,WO为随机产生的参数矩阵,headi为多头注意力机制第i个头,i∈{1,2,...,n},n为多头注意力机制的头的总数,softmax(·)为Softmax函数,Wi Q、Wi K、Wi V均为随机产生的参数矩阵,T为转置,Qs为多头注意力机制的查询向量,Ks为多头注意力机制的键向量,Vs为多头注意力机制的值向量,d为查询向量Qs的矩阵维度, 均为随机产生的参数矩阵,将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征/>e-2)第二DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征/>输入到上层通道的第一LayerNormalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式/>计算得到特征式中,headi′为多头注意力机制第i个头,Qs′为多头注意力机制的查询向量,Ks′为多头注意力机制的键向量,Vs′为多头注意力机制的值向量,d′为查询向量Qs′的矩阵维度,/> 将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二LayerNormalization层中,输出得到特征/>e-3)第三DIDA模块的上层通道由第一LayerNormalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二LayerNormalization层构成,将特征/>输入到上层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式计算得到特征/>式中,headi″为多头注意力机制第i个头,/>Qs″为多头注意力机制的查询向量,Ks″为多头注意力机制的键向量,Vs″为多头注意力机制的值向量,d″为查询向量Qs″的矩阵维度,/> 将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征/>在该实施例中,优选的n取值为8,d、d′、d″取值均为40。
在本发明的一个实施例中,步骤h)包括如下步骤:
h-1)第一DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到下层通道的第一多头注意力机制中通过公式/>计算得到特征/>式中Wt O为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,...,n},/>Wi K,t、Wi V,t均为随机产生的参数矩阵,Kt为多头注意力机制的键向量,Vt为多头注意力机制的值向量,均为随机产生的参数矩阵,将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征/>式中/>为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,…,n},/>Wi st、Wi t,s,k、Wi t,s,v均为随机产生的参数矩阵,Qst为多头注意力机制的查询向量,Kts为多头注意力机制的键向量,Vts为多头注意力机制的值向量,均为随机产生的参数矩阵,/>为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,...,n},Qt为多头注意力机制的查询向量,均为随机产生的参数矩阵,将特征/>输入到下层通道的第二Layer Normalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征/>与特征/>进行特征融合,得到特征/>
h-2)第二DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到下层通道的第一多头注意力机制中通过公式/>计算得到特征/>式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Kt′为多头注意力机制的键向量,Vt′为多头注意力机制的值向量,/> 将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Qst′为多头注意力机制的查询向量,Kts′为多头注意力机制的键向量,Vts′为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},/>Qt′为多头注意力机制的查询向量,/>将特征/>输入到下层通道的第二LayerNormalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征/>与特征进行特征融合,得到特征/>h-3)第三DIDA模块的下层通道由第一LayerNormalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征/>输入到下层通道的第一Layer Normalization层中归一化处理得到特征将特征/>输入到下层通道的第一多头注意力机制中通过公式计算得到特征/>式中为多头注意力机制第i个头,i∈{1,2,...,n},Kt″为多头注意力机制的键向量,Vt″为多头注意力机制的值向量,/> 将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征/>式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Qst″为多头注意力机制的查询向量,Kts″为多头注意力机制的键向量,Vts″为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},/>Qt″为多头注意力机制的查询向量,/>将特征/>输入到下层通道的第二LayerNormalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征/>与特征进行特征融合,得到特征/>最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。/>

Claims (5)

1.一种基于双通道交叉注意力的域适应的心音分类方法,其特征在于,包括如下步骤:
a)获取心音信号数据构成源域数据及获取心音信号数据构成目标域数据;
b)提取源域数据中的心音信号的梅尔倒谱系数,得到源域数据特征矩阵Xs,提取目标域数据中的心音信号的梅尔倒谱系数,得目标域数据特征矩阵Xt
c)建立双通道交叉注意力的域自适应分类模型,双通道交叉注意力的域自适应分类模型由卷积层、Relu激活函数层、Batch Normalization层、第一DIDA模块、第二DIDA模块、第三DIDA模块、全局平均池化层、Droupout层、Dense层、Softmax函数层构成,第一DIDA模块、第二DIDA模块、第三DIDA模块均由上层通道和下层通道构成;
d)将源域数据特征矩阵Xs输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征/>依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征/>
e)将特征输入到第一DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第二DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第三DIDA模块的上层通道中,输出得到特征/>
f)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征/>将特征/>输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y,标签y为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号;
g)将目标域数据特征矩阵Xt输入到双通道交叉注意力的域自适应分类模型的卷积层中,输出得到特征将特征/>依次输入到双通道交叉注意力的域自适应分类模型的Relu激活函数层及Batch Normalization层中,输出得到特征/>
h)将特征输入到第一DIDA模块的下层通道中,输出得到特征/>将特征/>输入到第二DIDA模块的上层通道中,输出得到特征/>将特征/>输入到第三DIDA模块的上层通道中,输出得到特征/>
i)将特征依次输入到双通道交叉注意力的域自适应分类模型的全局平均池化层、Droupout层、Dense层中,输出得到特征/>将特征/>输入到双通道交叉注意力的域自适应分类模型的Softmax函数层映射得到0到1区间概率分布的标签y′,标签y′为0时表示心音信号为正常信号,标签y为1时表示心音信号为异常信号;
步骤e)包括如下步骤:
e-1)第一DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式计算得到特征/>式中Concat(·)为拼接操作,WO为随机产生的参数矩阵,headi为多头注意力机制第i个头,i∈{1,2,...,n},n为多头注意力机制的头的总数,softmax(·)为Softmax函数,Wi Q、Wi K、Wi V均为随机产生的参数矩阵,T为转置,Qs为多头注意力机制的查询向量,Ks为多头注意力机制的键向量,Vs为多头注意力机制的值向量,d为查询向量Qs的矩阵维度, 均为随机产生的参数矩阵,将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征/>
e-2)第二DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式计算得到特征/>式中,headi′为多头注意力机制第i个头,/>Qs′为多头注意力机制的查询向量,Ks′为多头注意力机制的键向量,Vs′为多头注意力机制的值向量,d′为查询向量Qs′的矩阵维度,/> 将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征/>
e-3)第三DIDA模块的上层通道由第一Layer Normalization层、多头注意力机制、第一Linear线性层、第二Linear线性层、第二Layer Normalization层构成,将特征输入到上层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到上层通道的多头注意力机制中通过公式计算得到特征/>式中,headi″为多头注意力机制第i个头,/>Qs″为多头注意力机制的查询向量,Ks″为多头注意力机制的键向量,Vs″为多头注意力机制的值向量,d″为查询向量Qs″的矩阵维度,/> 将特征/>与特征/>进行特征融合后依次输入到上层通道的第一Linear线性层、第二Linear线性层、第二Layer Normalization层中,输出得到特征/>步骤h)包括如下步骤:
h-1)第一DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到下层通道的第一多头注意力机制中通过公式/>计算得到特征/>式中Wt O为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,...,n},/>Wi K,t、Wi V,t均为随机产生的参数矩阵,Kt为多头注意力机制的键向量,Vt为多头注意力机制的值向量, 均为随机产生的参数矩阵,将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征/>式中/>为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,...,n},/>Wi st、Wi t,s,k、Wi t,s,v均为随机产生的参数矩阵,Qst为多头注意力机制的查询向量,Kts为多头注意力机制的键向量,Vts为多头注意力机制的值向量,/> 均为随机产生的参数矩阵,/> 为随机产生的参数矩阵,/>为多头注意力机制第i个头,i∈{1,2,...,n},Qt为多头注意力机制的查询向量,Wi Q,t,Wi K,s、Wi V,s、/>均为随机产生的参数矩阵,将特征/>输入到下层通道的第二Layer Normalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征与特征/>进行特征融合,得到特征/>
h-2)第二DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到下层通道的第一多头注意力机制中通过公式/>计算得到特征/>式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Kt′为多头注意力机制的键向量,Vt′为多头注意力机制的值向量,/> 将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Qst′为多头注意力机制的查询向量,Kts′为多头注意力机制的键向量,Vts′为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},/>Qt′为多头注意力机制的查询向量,/>将特征/>输入到下层通道的第二LayerNormalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征/>与特征进行特征融合,得到特征/>
h-3)第三DIDA模块的下层通道由第一Layer Normalization层、第一多头注意力机制、第一Linear线性层、第二多头注意力机制、第二Layer Normalization层、第二Linear线性层、第三线性层、第三Layer Normalization层构成,将特征输入到下层通道的第一Layer Normalization层中归一化处理得到特征/>将特征/>输入到下层通道的第一多头注意力机制中通过公式/>计算得到特征/>式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Kt″为多头注意力机制的键向量,Vt″为多头注意力机制的值向量,/> 将特征/>输入到下层通道的第一Linear线性层,输出得到特征/>将特征/>输入到下层通道的第二多头注意力机制中通过公式/>计算得到特征/>式中/>为多头注意力机制第i个头,i∈{1,2,...,n},Qst″为多头注意力机制的查询向量,Kts″为多头注意力机制的键向量,Vts″为多头注意力机制的值向量, 为多头注意力机制第i个头,i∈{1,2,...,n},/>Qt″为多头注意力机制的查询向量,/>将特征/>输入到下层通道的第二LayerNormalization层中,输出得到特征/>将特征/>依次输入到下层通道的第二Linear线性层、第三线性层、第三Layer Normalization层中,输出得到特征/>将特征/>与特征进行特征融合,得到特征/>
2.根据权利要求1所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于:步骤a)中将Physionet2016心音数据库作为源域数据,将Khan心音数据库作为目标域数据,源域数据中的心音信号和目标域数据中的心音信号的时长均设置为5秒,采样率均为16000Hz。
3.根据权利要求1所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于:步骤b)中梅尔倒谱系数的维度设置为40。
4.根据权利要求1所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于:双通道交叉注意力的域自适应分类模型的卷积层的卷积核大小为3×3,步长为2。
5.根据权利要求1所述的基于双通道交叉注意力的域适应的心音分类方法,其特征在于:n取值为8,d、d′、d″取值均为40。
CN202310744420.XA 2023-06-25 2023-06-25 一种基于双通道交叉注意力的域适应的心音分类方法 Active CN116778969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310744420.XA CN116778969B (zh) 2023-06-25 2023-06-25 一种基于双通道交叉注意力的域适应的心音分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310744420.XA CN116778969B (zh) 2023-06-25 2023-06-25 一种基于双通道交叉注意力的域适应的心音分类方法

Publications (2)

Publication Number Publication Date
CN116778969A CN116778969A (zh) 2023-09-19
CN116778969B true CN116778969B (zh) 2024-03-01

Family

ID=88009481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310744420.XA Active CN116778969B (zh) 2023-06-25 2023-06-25 一种基于双通道交叉注意力的域适应的心音分类方法

Country Status (1)

Country Link
CN (1) CN116778969B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460953A (zh) * 2020-03-26 2020-07-28 山东省人工智能研究院 一种基于对抗域自适应学习的心电信号分类方法
CN112656431A (zh) * 2020-12-15 2021-04-16 中国科学院深圳先进技术研究院 基于脑电的注意力识别方法、装置、终端设备和存储介质
CN113011456A (zh) * 2021-02-05 2021-06-22 中国科学技术大学 用于图像分类的基于类别自适应模型的无监督域适应方法
CN113936339A (zh) * 2021-12-16 2022-01-14 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN114841209A (zh) * 2022-05-13 2022-08-02 山东省人工智能研究院 一种基于深度领域自适应的多目标域心电信号分类方法
CN115169384A (zh) * 2022-06-15 2022-10-11 中国科学院深圳先进技术研究院 脑电信号分类模型训练方法、意图识别方法、设备及介质
CN116186593A (zh) * 2023-03-10 2023-05-30 山东省人工智能研究院 一种基于可分离卷积和注意力机制的心电信号检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460953A (zh) * 2020-03-26 2020-07-28 山东省人工智能研究院 一种基于对抗域自适应学习的心电信号分类方法
CN112656431A (zh) * 2020-12-15 2021-04-16 中国科学院深圳先进技术研究院 基于脑电的注意力识别方法、装置、终端设备和存储介质
CN113011456A (zh) * 2021-02-05 2021-06-22 中国科学技术大学 用于图像分类的基于类别自适应模型的无监督域适应方法
CN113936339A (zh) * 2021-12-16 2022-01-14 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN114841209A (zh) * 2022-05-13 2022-08-02 山东省人工智能研究院 一种基于深度领域自适应的多目标域心电信号分类方法
CN115169384A (zh) * 2022-06-15 2022-10-11 中国科学院深圳先进技术研究院 脑电信号分类模型训练方法、意图识别方法、设备及介质
CN116186593A (zh) * 2023-03-10 2023-05-30 山东省人工智能研究院 一种基于可分离卷积和注意力机制的心电信号检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chi yang 等.Dual-Channel Domain Adaptation Model.WI-IAT ’21 Companion.2021, *

Also Published As

Publication number Publication date
CN116778969A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN108648748B (zh) 医院噪声环境下的声学事件检测方法
Tak et al. Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation
CN112766355B (zh) 一种标签噪声下的脑电信号情绪识别方法
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
CN116612335B (zh) 一种基于对比学习的少样本细粒度图像分类方法
Liu et al. Efficient self-supervised learning representations for spoken language identification
CN115393968A (zh) 一种融合自监督多模态特征的视听事件定位方法
Huang et al. A novel video forgery detection model based on triangular polarity feature classification
CN111259759A (zh) 基于域选择迁移回归的跨数据库微表情识别方法及装置
CN115271063A (zh) 基于特征原型投影的类间相似性知识蒸馏方法与模型
CN116778969B (zh) 一种基于双通道交叉注意力的域适应的心音分类方法
Ollerenshaw et al. Insights on neural representations for end-to-end speech recognition
Schwenker et al. Radial basis function neural networks and temporal fusion for the classification of bioacoustic time series
EP2382587A2 (en) Method for a pattern discovery and recognition
Zhang et al. Audio-visual speech separation with visual features enhanced by adversarial training
Yin et al. An analysis of speaker diarization fusion methods for the first dihard challenge
CN117351988B (zh) 一种基于数据分析的远程音频信息处理方法及系统
US11869492B2 (en) Anomaly detection system and method using noise signal and adversarial neural network
Liao et al. Grouping Intrinsic Mode Functions and Residue for Pathological Classifications via Electroglottograms
US11756570B2 (en) Audio-visual separation of on-screen sounds based on machine learning models
Xia et al. Data-driven Attention and Data-independent DCT based Global Context Modeling for Text-independent Speaker Recognition
Anemüller et al. Deep network source localization and the influence of sensor geometry
CN116230009A (zh) 一种基于特征值聚类的声学信号模式分类方法
CN116052725A (zh) 一种基于深度神经网络的细粒度肠鸣音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant