CN111652066B - 基于多自注意力机制深度学习的医疗行为识别方法 - Google Patents

基于多自注意力机制深度学习的医疗行为识别方法 Download PDF

Info

Publication number
CN111652066B
CN111652066B CN202010363589.7A CN202010363589A CN111652066B CN 111652066 B CN111652066 B CN 111652066B CN 202010363589 A CN202010363589 A CN 202010363589A CN 111652066 B CN111652066 B CN 111652066B
Authority
CN
China
Prior art keywords
attention
multiplied
self
dimension
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010363589.7A
Other languages
English (en)
Other versions
CN111652066A (zh
Inventor
单光存
苏银沛
尹明
储冰峰
曾祥睿
屈晓磊
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everlasting Technology Hangzhou Co ltd
Chinese PLA General Hospital
Beihang University
Original Assignee
Everlasting Technology Hangzhou Co ltd
Chinese PLA General Hospital
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everlasting Technology Hangzhou Co ltd, Chinese PLA General Hospital, Beihang University filed Critical Everlasting Technology Hangzhou Co ltd
Priority to CN202010363589.7A priority Critical patent/CN111652066B/zh
Publication of CN111652066A publication Critical patent/CN111652066A/zh
Application granted granted Critical
Publication of CN111652066B publication Critical patent/CN111652066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多自注意力机制深度学习的医疗行为识别方法,包括:对视频逐帧采样,并分解为若干个视频单元,并在时间维度上堆叠为一定大小的时间序列。将序列中的单帧图像抽取出来作为卷积神经网络的输入,得到视频单元的特征,再堆叠为序列的特征;然后将序列的特征输入循环神经网络捕捉序列时间维度上的特征;再将时间特征输入到多头注意力模型,提取非局部的时间特征,并将整个序列的信息充分的融合;最终经过全连接层得到人体动作类别预测。

Description

基于多自注意力机制深度学习的医疗行为识别方法
技术领域
本发明涉及视频内容理解技术,尤其涉及面向行为分析的基于多自注意力机制深度学习的医疗行为识别方法。
背景技术
随着21世纪信息时代的到来,各种各样的视频信息充斥着我们的生活。动作识别是计算机视觉中的一个重要问题,在视觉监控、人机交互、智慧、智能机器人、无人驾驶等领域有着广泛的应用。一方面,利用人工智能、模式识别等技术,来观察分析医护人员是否佩戴完备的医疗防护用具,从而判断或提醒医护人员的卫生规范性。另一方面,可以检测进入医院的人员或病人是否按照规定佩戴口罩等防护用具,提示医疗的安全性。
在合理的患者知情同意告知前提下,可以通过对患者全方位视频进行智能分析人体行为动作识别,从而可以研究该患者个体的生活习惯、饮食特征、运动模式从而更科学更细致把握了解病人的身体状况,为科学的行为干预提供依据。
人体动作识别,目的在于通过对摄像头拍摄的视频的智能理解,从而对人体的动作进行分类识别研究。其研究对象往往是视频信息,而不再局限于单帧的图像分析。因此,一套完整有效的动作识别系统依赖于对视频序列中的时间、空间特征进行有效的特征提取与分类。
这是一项非常具有挑战性的工作,主要存在以下几方面的难题:(1)相同的动作,个体之间存在明显的差异。针对同一类动作,由于具体场景的不同,不同的个体可能会有不同的表现。即使是相同个体,在做同一类动作时也可能会有不同的表现。具体表现为行为动作的运动轨迹、运动速度以及运动幅度存在较大差异。(2)动态视频中往往存在许多干扰信息,比如动作相同但环境背景不同,以及个体与背景环境之间发生的相对运动、视频序列中的光照强度的变化,视频拍摄过程中镜头的抖动等等。这些难点均使得视频序列中的动作识别研究具有极大的挑战性。
发明内容
为了克服上述问题,本发明提供了一种基于多自注意力机制深度学习的医疗行为识别方法,包括以下步骤:
步骤1、读取视频,将视频分解为若干个单帧图像,然后将L个单帧图像进行堆叠,得到一个图像序列结构,同时为每个序列结构确定对应的动作分类标签;
步骤2、设计卷积神经网络,将序列中的单帧图像抽取出来作为视频单元,输入到该卷积神经网络中,通过多层计算得到视频单元的空间特征,维度为M;然后将一个序列中的L个视频单元特征进行堆叠,得到L×M的特征结构;
步骤3、设计循环神经网络结构,将步骤2中得到的L×M的特征结构作为单元,输入到该循环神经网络中捕捉时间维度上的特征,通过计算得到L×D维向量输出;
步骤4、设计多头自注意力模型,将步骤3中的得到的L×D维特征结构作为单元,输入到多头自注意力模型中,通过一系列计算得到L×D维的特征结构;然后通过平均池化和两层全连接层,最终得到N维向量输出。
步骤5、结合最终的N维向量输出和输入样本对应的标签,构建损失函数,通过最小化损失函数,训练卷积神经网络、循环神经网络和多头自注意力模型;
步骤6、得到效果最好的网络模型后,通过迁移学习将N分类模型学到的知识迁移到二分类模型上重新训练二分类模型。
步骤7、训练好最终的结合迁移学习的二分类模型后,用于医疗行为动作识别。
进一步的,所述步骤1中序列结构的获取方法如下:
在原始视频数据中每X帧读取一次图像,作为一个视频单元;将L个视频单元在时间维度上进行堆叠,得到许多能完整呈现一个动作的大小为L×C×H×W的序列结构,其中C代表图像的通道数,H代表图像的高度,W代表图像的宽度,L代表时间轴上的长度,也就是视频单元的个数;同时,为每个序列结构确定对应的动作分类标签。
进一步的,所述步骤2设计的卷积神经网络结构为:
卷积神经网络的整体结构由Resnet和最后的数层全连接层构成;其中经过预训练Resnet用于提取图像的空间特征信息,通过152层卷积操作,得到多个特征图;再经过两层全连接层,每层之后使用BatchNorm方法,以及ReLU激活函数进行非线性变换,并使用Dropout方法,得到初步的特征向量;再经过一层维度为M的全连接层,得到M维的特征向量;然后将L个视频单元特征进行堆叠,得到L×M的特征结构。
进一步的,所述步骤3所设计的循环神经网络结构为:
循环网络的基本单元为LSTM,单元节点数为L,隐藏状态的维度为D;取所有的L个隐藏单元的状态作为输出,得到维度为L×D的特征结构F。
进一步的,所述步骤4所设计的多头自注意力模型结构为:
设定注意力头的个数为H;对于每一个注意力头,设计三个权重矩阵Wq,Wk,Wv,维度均为D×d,其中
Figure BDA0002475941870000031
将步骤3中得到的L×D的特征结构F分别与上述三个权重矩阵相乘,得到三个特征向量分别为Q、K、V,维度均为L×d;然后计算注意力头,公式如下:
Figure BDA0002475941870000032
上式中,Q、K、V为步骤4中得到的特征向量,d为特征向量的第二个维度大小,Ai代表第i个注意力头,维度为L×d,T为转置符号,Softmax为多元逻辑回归函数。
进一步的,将以上所有的注意力头在第二个维度上拼接起来,得到维度为L×D的多头注意力矩阵A;再计算最终的特征矩阵F′,公式如下:
F′=WA+F
上式中,W为维度为D×D的权重矩阵,A为步骤4中得到的多头注意力矩阵,F为步骤3中得到的特征结构,F′为得到的维度为L×D的特征矩阵。
进一步的,将特征矩阵F′作为单元,经过平均池化得到D维的特征向量;再经过一层全连接层,并使用BatchNorm方法,以及线性整流函数ReLU进行非线性变换,得到初步的特征向量;再经过一层维度为N的全连接层,并借助Softmax函数得到最终的N维向量,对应为对输入样本N分类的相应归属概率:
Figure BDA0002475941870000033
上式中,zi代表Softmax前的输出值,p(zi)代表输入样本属于第i类动作的概率。
进一步的,所述步骤5构建损失函数的具体过程为:
选择平均交叉熵作为损失函数,即:
Figure BDA0002475941870000034
上式中,S代表一个Batch的样本总量,P(xi)代表第i个样本预测类别为真实动作类别的概率。
进一步的,所述步骤6迁移学习的具体过程为:
变更最后一层维度为N的全连接层的结构,重新训练这个二分类模型,挑选出分类结果最好的网络模型作为最终的二分类模型。
本发明所具有的有益效果包括:
(1)本发明所述方法只需提取少量的视频信息,加快了运算速度;
(2)采用了卷积神经网络和循环神经网络同时提取视频的空间和时间特征;
(3)本发明采用的自注意力机制可以更充分的关注视频序列中的关键信息;
(4)本发明设计的多头注意力模型可以提取非局部的时间特征,将整个序列的信息充分的融合。
总之,本发明以视频中人体动作的识别为主,针对原始视频数据,使用深度学习中的卷积神经网络和循环神经网络模型分别提取视频序列的空间、时间特征,并结合多头注意力模型提取非局部的时间特征,将整个序列的信息充分的融合,最终通过分类器得到动作类别。
附图说明
图1为本发明所述方法的流程示意图;
图2为卷积神经网络模型结构示意图;
图3为循环神经网络模型和多头自注意力模型结构示意图;
图4为实验例得到的mAP%-epoch曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明主要关注视频分析中的动作识别任务,即给定一段人体动作视频,识别出当前视频中的人体动作类别。
如图1所示,本发明基于多自注意力机制深度学习的医疗行为识别方法具体实现如下步骤:
步骤1、读取视频数据。
根据本发明一种优选的实施方式,对视频每6帧读取一次,作为一个视频单元,将4个视频单元堆叠在一起,组成一个视频序列。
视频序列的维度为4×C×H×W,其中C代表图像的通道数,H代表图像的高度,W代表图像的宽度,4为时间轴上的长度,也就是视频单元的个数。
由于本视频的输入图像为RGB图像,所以图像通道数为3。
根据本发明一种优选的实施方式,将图像宽度和高度均resize改变大小到224。
于是,视频序列的维度变为4×3×224×224。
同时,为每个视频序列确定动作分类标签,标签编码为0到N-1。
步骤2、利用卷积神经网络结构提取视频序列的空间特征,网络结构如图2所示。
根据本发明一种优选的实施方式,步骤2包括以下子步骤:
步骤2-1、将视频序列中每一个视频单元抽取出来,维度为3×224×224。
步骤2-2、将视频单元输入预训练好的Resnet中,得到512维的特征向量。
步骤2-3、经过两层维度均为1024的全连接层。
步骤2-4、在每层全连接层之后使用Batchnorm方法,具体公式如下:
Figure BDA0002475941870000051
上式中,z代表Batchnorm操作前的输出值,μ为一个batch中所有z的均值,σ2为batch中z的方差,ε为一个极小值,避免分母为零;γ和β为可学习的参数,默认值分别被设为1、0。
步骤2-5、在Batchnorm操作之后使用线性整流函数(ReLU)作为激活函数进行非线性变换,ReLU函数如下:
f(z)=max(0,z)
上式中,z代表ReLU操作前的输出值。
步骤2-6、在每层全连接层之后使用Dropout方法。
步骤2-7、经过最后一层全连接层,得到1024维的特征向量,作为视频单元的特征。
步骤2-8、将视频序列中4个视频单元的特征堆叠在一起,得到4×1024的特征向量,作为视频序列的特征。
步骤3、利用循环神经网络提取视频序列的时间特征。
使用LSTM作为基本的循环神经网络单元,单元节点数L=4,隐藏状态的维度D=2048;取所有的4个隐藏单元的状态作为输出,得到维度为4×2048的特征结构F。
步骤4、利用多头自注意力模型、平均池化层和两层全连接层,得到最终的N维输出向量,模型结构如图3所示。
根据本发明一种优选的实施方式,步骤4包括以下子步骤:
步骤4-1、设定注意力头的个数H=8;对于每一个注意力头,设计三个权重矩阵Wq,Wk,Wv,维度均为2048×d,其中
Figure BDA0002475941870000061
步骤4-2、将步骤3中得到的4×2048的特征结构F分别与上述三个权重矩阵相乘,得到三个特征向量分别为Q、K、V,维度均为4×256;然后计算注意力头,公式如下:
Figure BDA0002475941870000062
上式中,Q、K、V为步骤4中得到的特征向量,d为特征向量的第二个维度大小,Ai代表第i个注意力头,维度为4×256,T为转置符号,Softmax为多元逻辑回归函数,用于求得归一化的概率。
步骤4-3、将以上所有的8个注意力头在第二个维度上拼接起来,得到维度为4×2048的多头注意力矩阵A;再计算最终的特征矩阵F′,公式如下:
F′=WA+F
上式中,W为维度为2048×2048的权重矩阵,A为步骤4中得到的多头注意力矩阵,F为步骤3中得到的特征结构,F′为得到的维度为4×2048的特征矩阵。
步骤4-4、将特征矩阵F′作为单元,对一个维度上做平均池化,得到2048维的特征向量。
步骤4-5、再经过一层全连接层,并使用BatchNorm方法,以及ReLU激活函数进行非线性变换,得到初步的特征向量;
步骤4-6、最后经过一层维度为N的全连接层,并借助Softmax函数得到最终的N维向量,对应为对输入样本N分类的相应归属概率:
Figure BDA0002475941870000063
上式中,N代表一个batch的样本总量,zi为全连接层的输出,P(zi)代表第i个样本预测类别为真实动作类别的概率。
步骤5、训练卷积神经网络、循环神经网络和多头自注意力模型。
根据本发明一种优选的实施方式,步骤5包括以下子步骤:
步骤5-1、将数据分成若干个batch,每一个batch包含32个数据。
步骤5-2、将每一个batch中的所有数据传入卷积神经网络、循环神经网络和多头自注意力模型,得到输出。
步骤5-3、选择平均交叉熵作为损失函数计算损失,即:
Figure BDA0002475941870000071
上式中,S代表一个Batch的样本总量,P(xi)代表第i个样本预测类别为真实动作类别的概率。
步骤5-4、反向传播计算梯度,再采用Adam优化方法对模型中的参数进行更新。
步骤5-5、每完成一次训练迭代,将模型在测试集上测试一次。
步骤5-6、测试时,通过max函数得到概率最大的动作类别作为预测,并计算总的准确率。
步骤5-7、当测试准确率大于最好的准确率时,我们保存当前模型;否则,执行学习率衰减。
步骤6、迁移学习训练二分类模型。
根据本发明一种优选的实施方式,步骤6包括以下子步骤:
步骤6-1、将最后一层全连接层的维度改为2。
步骤6-2、保存模型参数用于迁移学习。
步骤6-3、在医疗行为数据集上重新进行训练。
步骤7、训练好最终的结合迁移学习的二分类模型后,用于医疗行为动作识别。
(1)本发明所述方法只需提取少量的视频信息,加快了运算速度;
(2)本发明采用的多注意力模型可以提取非局部的时间特征,将整个序列的信息充分的融合。
(3)循环卷积网络和多注意力模型相互补充,训练速度更快并且准确率显著提升。
(4)采用迁移学习,只需要少量的训练即可得到高准确度的模型。
实验例1
在实验中,本发明将YouTube Action数据集随机分割为训练集和测试集,比例为8:2。首先在训练集上对模型进行训练:为防止过拟合,设置dropout系数为0.5;选择Adam作为优化函数,学习率为1e-4,其中,当模型准确率低于最高准确率时,学习率衰减为一半。
实验效果评估
在测试集上对模型进行测试,得到预测的动作标签后与真实动作数据进行对比,其中,使用mAP%-epoch作为评价指标,评价指标分析方法说明:
mAP%-epoch曲线:纵轴mAP%为多物体类别平均准确率,横轴epoch为训练时模型迭代次数。
采用本发明实施例所述的方法以及CNN_Transformer和CNN_RNN方法分别对YouTube Action数据集进行训练和预测,验证其效果,结果如图4所示。
如图4可以看出,(1)本发明的训练速度最快,在3个epoch时,准确率已经达到了92%,对比75%(CNN_Transformer)和54%(CNN_RNN)分别提高了17%和38%。(2)本发明的准确率最高,在8个epoch之后准确率稳定在95%,模型最高准确率可以达到97%,对比81%(CNN_Transformer)和60%(CNN_RNN)分别提高了16%和37%。
因此,本发明所述方法,不仅可以提升训练速度,还可以显著的提高准确率,模型的效果得到了验证。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。

Claims (9)

1.一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于,包括以下步骤:
步骤1、读取视频,将视频分解为若干个单帧图像,然后将L个单帧图像进行堆叠,得到一个图像序列结构,同时为每个序列结构确定对应的动作分类标签;
步骤2、设计卷积神经网络,将序列中的单帧图像抽取出来作为视频单元,输入到该卷积神经网络中,通过多层计算得到视频单元的空间特征,维度为M;然后将一个序列中的L个视频单元特征进行堆叠,得到L×M的特征结构;
步骤3、设计循环神经网络结构,将步骤2中得到的L×M的特征结构作为单元,输入到该循环神经网络中捕捉时间维度上的特征,通过计算得到L×D维向量输出;
步骤4、设计多头自注意力模型,将步骤3中的得到的L×D维特征结构作为单元,输入到多头自注意力模型中,通过一系列计算得到L×D维的特征结构;然后通过平均池化和两层全连接层,最终得到N维向量输出;
步骤5、结合最终的N维向量输出和输入样本对应的标签,构建损失函数,通过最小化损失函数,训练卷积神经网络、循环神经网络和多头自注意力模型;
步骤6、得到效果最好的网络模型后,通过迁移学习将N分类模型学到的知识迁移到二分类模型上重新训练二分类模型;
步骤7、训练好最终的结合迁移学习的二分类模型后,用于医疗行为动作识别。
2.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤1中序列结构的获取方法如下:
在原始视频数据中每X帧读取一次图像,作为一个视频单元;将L个视频单元在时间维度上进行堆叠,得到许多能完整呈现一个动作的大小为L×C×H×W的序列结构,其中C代表图像的通道数,H代表图像的高度,W代表图像的宽度,L代表时间轴上的长度,也就是视频单元的个数;同时,为每个序列结构确定对应的动作分类标签。
3.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤2设计的卷积神经网络结构为:
卷积神经网络的整体结构由Resnet和最后的数层全连接层构成;其中经过预训练Resnet用于提取图像的空间特征信息,通过152层卷积操作,得到多个特征图;再经过两层全连接层,每层之后使用BatchNorm方法,以及线性整流函数ReLU进行非线性变换,并使用Dropout方法,得到初步的特征向量;再经过一层维度为M的全连接层,得到M维的特征向量;然后将L个视频单元特征进行堆叠,得到L×M的特征结构。
4.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤3所设计的循环神经网络结构为:
循环网络的基本单元为LSTM,单元节点数为L,隐藏状态的维度为D;取所有的L个隐藏单元的状态作为输出,得到维度为L×D的特征结构F。
5.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤4所设计的多头自注意力模型结构为:
设定注意力头的个数为H;对于每一个注意力头,设计三个权重矩阵Wq,Wk,Wv,维度均为D×d,其中
Figure FDA0002475941860000021
将步骤3中得到的L×D的特征结构F分别与上述三个权重矩阵相乘,得到三个特征向量分别为Q、K、V,维度均为L×d;然后计算注意力头,公式如下:
Figure FDA0002475941860000022
上式中,Q、K、V为步骤4中得到的特征向量,d为特征向量的第二个维度大小,Ai代表第i个注意力头,维度为L×d,T为转置符号,Softmax为多元逻辑回归函数。
6.根据权利要求4所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
将所有的注意力头在第二个维度上拼接起来,得到维度为L×D的多头注意力矩阵A;再计算最终的特征矩阵F′,公式如下:
F′=WA+F
上式中,W为维度为D×D的权重矩阵,A为步骤4中得到的多头注意力矩阵,F为步骤3中得到的特征结构,F′为得到的维度为L×D的特征矩阵。
7.根据权利要求6所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
将特征矩阵F′作为单元,经过平均池化得到D维的特征向量;再经过一层全连接层,并使用BatchNorm方法,以及ReLU激活函数进行非线性变换,得到初步的特征向量;再经过一层维度为N的全连接层,并借助Softmax函数得到最终的N维向量,对应为对输入样本N分类的相应归属概率:
Figure FDA0002475941860000031
上式中,zi代表Softmax前的输出值,p(zi)代表输入样本属于第i类动作的概率,N代表一个batch的样本总量。
8.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤5构建损失函数的具体过程为:选择平均交叉熵作为损失函数,即:
Figure FDA0002475941860000032
上式中,S代表一个Batch的样本总量,P(xi)代表第i个样本预测类别为真实动作类别的概率。
9.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤6迁移学习的具体过程为:变更最后一层维度为N的全连接层的结构,重新训练这个二分类模型,挑选出分类结果最好的网络模型作为最终的二分类模型。
CN202010363589.7A 2020-04-30 2020-04-30 基于多自注意力机制深度学习的医疗行为识别方法 Active CN111652066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010363589.7A CN111652066B (zh) 2020-04-30 2020-04-30 基于多自注意力机制深度学习的医疗行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010363589.7A CN111652066B (zh) 2020-04-30 2020-04-30 基于多自注意力机制深度学习的医疗行为识别方法

Publications (2)

Publication Number Publication Date
CN111652066A CN111652066A (zh) 2020-09-11
CN111652066B true CN111652066B (zh) 2022-07-26

Family

ID=72349437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010363589.7A Active CN111652066B (zh) 2020-04-30 2020-04-30 基于多自注意力机制深度学习的医疗行为识别方法

Country Status (1)

Country Link
CN (1) CN111652066B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN112257572B (zh) * 2020-10-20 2022-02-01 神思电子技术股份有限公司 一种基于自我注意力机制的行为识别方法
CN112528077B (zh) * 2020-11-10 2022-12-16 山东大学 基于视频嵌入的视频人脸检索方法及系统
CN112587129B (zh) * 2020-12-01 2024-02-02 上海影谱科技有限公司 一种人体动作识别方法及装置
CN112365385B (zh) * 2021-01-18 2021-06-01 深圳市友杰智新科技有限公司 基于自注意力的知识蒸馏方法、装置和计算机设备
CN112957052B (zh) * 2021-01-25 2023-06-23 北京工业大学 一种基于nlf-cnn导联融合深度网络的多导联心电信号分类方法
CN115050064A (zh) * 2021-03-08 2022-09-13 腾讯科技(深圳)有限公司 人脸活体检测方法、装置、设备及介质
CN112906673A (zh) * 2021-04-09 2021-06-04 河北工业大学 一种基于注意力机制的下肢运动意图预测方法
CN113111822B (zh) * 2021-04-22 2024-02-09 深圳集智数字科技有限公司 用于拥堵识别的视频处理方法、装置与电子设备
CN113688871B (zh) * 2021-07-26 2022-07-01 南京信息工程大学 基于Transformer的视频多标签动作识别方法
CN113723312B (zh) * 2021-09-01 2024-01-23 东北农业大学 基于视觉transformer的水稻病害识别方法
CN113807027B (zh) * 2021-10-09 2023-08-18 华北电力大学(保定) 一种风电机组健康状态评估模型、方法及系统
CN113989933B (zh) * 2021-10-29 2024-04-16 国网江苏省电力有限公司苏州供电分公司 一种在线行为识别模型训练、检测方法及系统
CN114155480A (zh) * 2022-02-10 2022-03-08 北京智视数策科技发展有限公司 一种低俗动作识别方法
CN114973120B (zh) * 2022-04-14 2024-03-12 山东大学 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统
CN114863561B (zh) * 2022-05-06 2024-07-26 山东省人工智能研究院 一种基于关节点序列的实时人体动作识别方法
CN114783003B (zh) * 2022-06-23 2022-09-20 之江实验室 一种基于局部特征注意力的行人重识别方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
US20180061058A1 (en) * 2016-08-26 2018-03-01 Elekta, Inc. Image segmentation using neural network method
CN108304795A (zh) * 2018-01-29 2018-07-20 清华大学 基于深度强化学习的人体骨架行为识别方法及装置
US20190188866A1 (en) * 2017-12-19 2019-06-20 Canon Kabushiki Kaisha System and method for detecting interaction
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262996A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Action localization in sequential data with attention proposals from a recurrent network
US20180061058A1 (en) * 2016-08-26 2018-03-01 Elekta, Inc. Image segmentation using neural network method
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
US20190188866A1 (en) * 2017-12-19 2019-06-20 Canon Kabushiki Kaisha System and method for detecting interaction
CN108304795A (zh) * 2018-01-29 2018-07-20 清华大学 基于深度强化学习的人体骨架行为识别方法及装置
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
END-TO-END LEARNING OF DEEP CONVOLUTIONAL NEURAL NETWORK FOR 3D HUMAN ACTION RECOGNITION;Chao Li 等;《IEEE》;20170907;第609-612页 *
基于深度学习的疟疾检测;刘银萍 等;《实验技术与管理》;20200229;第37卷(第2期);第67-71页 *

Also Published As

Publication number Publication date
CN111652066A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111652066B (zh) 基于多自注意力机制深度学习的医疗行为识别方法
CN112784798B (zh) 一种基于特征-时间注意力机制的多模态情感识别方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
Zhi et al. Action unit analysis enhanced facial expression recognition by deep neural network evolution
Pathar et al. Human emotion recognition using convolutional neural network in real time
Wlodarczak et al. Multimedia data mining using deep learning
CN113749657B (zh) 一种基于多任务胶囊的脑电情绪识别方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN117198468B (zh) 基于行为识别和数据分析的干预方案智慧化管理系统
Yin et al. Classification of eye tracking data using a convolutional neural network
CN117257302B (zh) 人员心理健康状态评估方法及系统
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
CN114781441A (zh) Eeg运动想象分类方法及多空间卷积神经网络模型
Mohana et al. Emotion recognition from facial expression using hybrid CNN–LSTM network
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
Alankar et al. Facial emotion detection using deep learning and Haar Cascade Face Identification algorithm
CN114611556B (zh) 一种基于图神经网络的多类别运动想象任务识别方法
CN111414846B (zh) 基于关键时空信息驱动和组群共现性结构化分析的组群行为识别方法
Eghbali et al. Deep Convolutional Neural Network (CNN) for Large-Scale Images Classification
Shultana et al. CvTSRR: A Convolutional Vision Transformer Based Method for Social Relation Recognition
CN113705328A (zh) 基于面部特征点与面部运动单元的抑郁检测方法和系统
Bhat et al. Real Time Bimodal Emotion Recognition using Hybridized Deep Learning Techniques
Tresnawati et al. Real-Time Emotion Recognition Using CNN and OpenCV
Tian Multimodal Data Analytics and Fusion for Data Science
Mahajan et al. Classification of emotions using a 2-channel convolution neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant