CN110852273A - 一种基于强化学习注意力机制的行为识别方法 - Google Patents

一种基于强化学习注意力机制的行为识别方法 Download PDF

Info

Publication number
CN110852273A
CN110852273A CN201911099446.3A CN201911099446A CN110852273A CN 110852273 A CN110852273 A CN 110852273A CN 201911099446 A CN201911099446 A CN 201911099446A CN 110852273 A CN110852273 A CN 110852273A
Authority
CN
China
Prior art keywords
network model
neural network
reinforcement learning
channel set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911099446.3A
Other languages
English (en)
Other versions
CN110852273B (zh
Inventor
葛永新
李自强
杨丹
张小洪
徐玲
洪明坚
杨梦宁
黄晟
王洪星
陈飞宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201911099446.3A priority Critical patent/CN110852273B/zh
Publication of CN110852273A publication Critical patent/CN110852273A/zh
Application granted granted Critical
Publication of CN110852273B publication Critical patent/CN110852273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于强化学习注意力机制的行为识别方法,该基于强化学习注意力机制的行为识别方法包括以下步骤:S1:将构建的TSN卷积神经网络模型进行预训练,并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集;S2:将构建的深度强化学习网络模型进行预训练,并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择;S3:将构建的判别器神经网络模型进行预训练,并通过所述判别器神经网络模型对所述关键通道集进行动作分类。有益效果:本发明使用深度强化学习的方法获得一个能够主动关注到关键特征通道的注意力机制,并通过该深度强化学习方法可以达到提高视频识别精度的效果。

Description

一种基于强化学习注意力机制的行为识别方法
技术领域
本发明涉及行为识别技术领域,具体来说,涉及一种基于强化学习注意力机制的行为识别方法。
背景技术
在计算机视觉中,使用注意力机制,将注意点放在图像中的有用的部分,在分类、视频理解、目标检测中都有着运用,而在现在运用到行为识别的深度学习方法中或多或少都体现了注意力机制的思想。在行为识别中,由于许多的注意力方法都是关注着人体肢体,忽略了与动作有关的物体,所以我们提出一个能够学习到动作和动作有关的物体的注意力机制。
目前,最先进的动作识别方法都是依赖于一个独立处理外观和动作的双流架构,所以我们将在双流网络改进的TSN网络上进行改进。我们将注意力机制放在TSN网络输出的2048特征通道中,在我们的可视化分析中,2048通道映射回原图像的不同部分,可以看出有的通道映射到了动作部分的肢体,也有部分映射到了动作有关的物体。因此我们提出的注意力机制放在TSN网络输出的2048通道上是非常有意义的,将关注点放在有关于动作和与动作有联系的物体的特征通道上,提高与动作分类有关的通道值的作用。
强化学习方法从上世纪到如今在游戏上一直表现着不错的效果,同时在最近几年在计算机视觉深度强化学习的方法也有许多,在行为识别注意力机制方面方法将强化学习方法训练得到一种注意力机制应用到关键视频帧的选取中,这个过程体现了主动关注到关键帧注意力机制,并且在关键帧的选中取得了不错的效果。因此我们将强化学习作为训练注意力机制方法,通过对通道的强化学习方法过程,主动学习到关注关键的特征通道的注意力机制。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于强化学习注意力机制的行为识别方法,具备提高视频识别精度的效果的优点,进而解决背景技术中的问题。
(二)技术方案
为实现上述具备提高视频识别精度的效果的优点,本发明采用的具体技术方案如下:
一种基于强化学习注意力机制的行为识别方法,该基于强化学习注意力机制的行为识别方法包括以下步骤:
S1:将构建的TSN卷积神经网络模型进行预训练,并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集;
S2:将构建的深度强化学习网络模型进行预训练,并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择;
S3:将构建的判别器神经网络模型进行预训练,并通过所述判别器神经网络模型对所述关键通道集进行动作分类。
进一步的,所述步骤S1中将构建的TSN卷积神经网络模型进行预训练,并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集具体包括以下步骤:
S11:通过预设方法构建所述TSN卷积神经网络模型,并进行预训练;
S12:采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集。
进一步的,所述步骤S11中通过预设方法构建所述TSN卷积神经网络模型,并进行预训练具体包括以下步骤:
S111:给定一段视频V,将其相等间隔分为K段{S1,S2,S3...,SK},并对所述K段片段进行建模得到:TSN(T1,T2,…,TK)=H(G(F(T1;W),F(T2;W),…,F(TK;W)));其中(T1,T2,…,TK)代表的从视频中选取的片段序列,具体而言TK就是从视频段SK中随机采样得到的短片段,其中函数F(TK;W)对应的就是短片段TK采用参数W的卷积网络部分,而函数的返回值就是断片段TK对于所有类的得分,G是被作为段共识函数,共识函数是结合了其中多个短片段的类别的得分输出,最后得出短片段之间关于识别类别的共识,H为预测函数,它基于共识函数G得到的结果,然后预测整个视频所属每个行为类别的概率;
S112:结合标准分类交叉熵损失,获取损失函数:
Figure BDA0002269394160000021
其中,
Figure BDA0002269394160000022
i表示对应类的类别,C是数据中预测行为的总类别数,yi是每个行为类别i的标签值,共识函数G表示为Gi=g(Fi(T1),Fi(T2),…,Fi(TK)),g就是对所有片段中相同类别的得分推断为Gi的聚合函数,Gj表示第j类共识函数获得的值;
S113:在预训练过程中,使用反向传播算法,并利用多个片段联合优化模型参数W,获取模型参数W关于损失值L的梯度为:其中,
Figure BDA0002269394160000032
表示偏微分。
进一步的,所述步骤S12中采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集具体包括以下步骤:
S121:将所述数据集中的一个视频分为多个帧,并从中分段随机选取8帧;
S122:将随机选取的8帧图片中的每帧图片大小裁剪为224*224,并分为R,G,B三个通道模式,使得输入所述TSN卷积神经网络模型的输入数据大小为8*3*224*224;
S123:将大小为8*3*224*224的输入数据输入所述TSN卷积神经网络模型中,得到大小为8*2048*7*7的输出结果。
进一步的,所述步骤S2中将构建的深度强化学习网络模型进行预训练,并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择具体包括以下步骤:
S21:通过预设方法构建所述深度强化学习网络模型,并进行预训练;
S22:采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集。
进一步的,所述步骤S21中通过预设方法构建所述深度强化学习网络模型,并进行预训练具体包括以下步骤:
S211:设定选择m个特征通道集,将全部特征通道集和所述m个特征通道集组合的状态表示为Sa=[M,Ms],并设定表示选择特征通道集位置信息的状态信息Sb,得到最终感知的状态S={Sa,Sb},其中,M表示2048个特征通道集,Ms表示选择的m个特征通道集,Sb表示的是值为0或者1的2048维数组,里面的取值是和被选取的特征通道集的序列相关,特征通道集被选取,其相应序列的数组Sb的值为1,相反则为0;
S212:采用三层2D卷积神经网络和一层全连接神经网络对输入的所述状态Sa进行感知,并采用一层全连接神经网络对输入的所述状态Sb进行感知;
S213:将所述输入状态Sa的感知结果与所述输入状态Sb的感知结果相连,并采用一层全连接网络对所述相连结果进行感知,得到所述深度强化学习网络模型;
S214:对所述深度强化学习网络模型进行预训练。
进一步的,所述步骤S22中采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集具体包括以下步骤:
S221:根据所述TSN卷积神经网络模型得到的2048*7*7的特征通道集,设定选择关键的通道个数为KS,0≤KS≤2048,在2048通道中初始化随机选取KS个;
S222:定义Sb∈R2048,表示选取的KS个特征通道集在原始2048通道中的位置信息,选取的位置Sb的值设置为1,如原始通道中的第8个被选取了,那么Sb[8]=1,未被选取的位置值设置为0,定义
Figure BDA0002269394160000041
表示原始特征通道集与选取的KS个特征通道集合并的结果;
S223:将Sa、Sb输入至所述深度强化学习网络模型中,通过输出获取选择动作的结果,定义A∈R6144,其中,A表示2048*3的一维数组,其中2048是与2048通道数目对应,如i是2048通道中的位置,那么A中的位置(3*i)、(3*i)+1、(3*i)+2就表示对原始通道的第i个进行向左移动、不移动、向右移动三个动作,A中的三个位置中谁的值最大,原始通道对应的i位置就执行值最大的动作,只有原始通道中被选取了的通道才能执行动作,重新选取KS个通道后,再重新计算新的Sa、Sb
S224:反复迭代步骤S222和S223的过程,直到迭代的T步完成,当T步完成后,得到了最后的KS个通道。
进一步的,所述步骤S3中将构建的判别器神经网络模型进行预训练,并通过所述判别器神经网络模型对所述关键通道集进行动作分类具体包括以下步骤:
S31:通过使用三层全连接神经网络构建所述判别器神经网络模型,并进行预训练;
S32:将所述关键通道集作为所述判别器神经网络模型的输入数据,并通过所述判别器神经网络模型的输出得到分类结果。
进一步的,所述三层全连接神经网络包括前两层的Relu激活函数和最后一层的softmax激活函数。
进一步的,所述步骤S3中将构建的判别器神经网络模型进行预训练,并通过所述判别器神经网络模型对所述关键通道集进行动作分类还包括以下步骤:对所述判别器神经网络模型的损失函数直接进行误差平方和处理,得到
Figure BDA0002269394160000042
其中,C表示动作分类的数目,li表示该动作的真实分类值,yi表示模型的预测值,w表示所述判别器神经网络模型的参数,E(w)表示关于参数w的目标损失函数,所述w参数的梯度优化为
Figure BDA0002269394160000043
其中η表示梯度下降法中的学习率。
(三)有益效果
与现有技术相比,本发明提供了基于强化学习注意力机制的行为识别方法,具备以下有益效果:通过设计深度强化学习网络模型和判别器神经网络模型,使用网络结构去感知以特征通道作为的状态,然后得出动作集结果,进行关键特征通道的选择,再使用深度强化学习的方法获得一个能够主动关注到关键特征通道的注意力机制,并通过该深度强化学习方法可以达到提高视频识别精度的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于强化学习注意力机制的行为识别方法的流程图;
图2是根据本发明实施例的基于强化学习注意力机制的行为识别方法的原理图;
图3是根据本发明实施例中TSN卷积神经网络模型由resnet101网络模型组合所得的示意图;
图4是根据本发明实施例的基于强化学习注意力机制的行为识别方法中所述特征通道集的选择原理图;
图5是根据本发明实施例的基于强化学习注意力机制的行为识别方法中注意力机制网络结构的示意图;
图6是根据本发明实施例的基于强化学习注意力机制的行为识别方法中深度强化学习的过程示意图;
图7是根据本发明实施例的基于强化学习注意力机制的行为识别方法中判别器网络模型的结构图;
图8是根据本发明实施例中将深度强化学习中的网络和分类器网络结构的融合示意图;
图9是根据本发明实施例中分类较差的图像随机6个通道在原图上映射的热图;
图10是根据本发明实施例中分类较好的图像随机6个通道在原图上映射的热图;
图11是根据本发明实施例中某些分类准确度较差的动作在原图上映射的热图;
图12是根据本发明实施例中的方法与原始方法的精度对比图;
图13是根据本发明实施例中的方法与原始方法中每一个类预测准确度的对比图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于强化学习注意力机制的行为识别方法。
现结合附图和具体实施方式对本发明进一步说明,如图1-13所示,根据本发明实施例的基于强化学习注意力机制的行为识别方法,该基于强化学习注意力机制的行为识别方法包括以下步骤:
S1:将构建的TSN卷积神经网络模型进行预训练,并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集;具体应用时,所述TSN卷积神经网络模型可以从整个视频中进行建模,具体而言TSN卷积神经网络模型是对整个视频中稀疏采样的一系列短片段,而每个片段都会给其本身对于行为类别的初步预测,然后利用这些片段共同得出的特征就可以得到视频级的预测结果。
其中,所述步骤S1具体包括以下步骤:
S11:通过预设方法构建所述TSN卷积神经网络模型,并进行预训练;如图3所示,所述TSN卷积神经网络模型由resnet101网络模型组合所得的。
具体的,所述步骤S11具体包括以下步骤:
S111:给定一段视频V,将其相等间隔分为K段{S1,S2,S3...,SK},并对所述K段片段进行建模得到:TSN(T1,T2,…,TK)=H(G(F(T1;W),F(T2;W),…,F(TK;W)));其中(T1,T2,…,TK)代表的从视频中选取的片段序列,具体而言TK就是从视频段SK中随机采样得到的短片段,其中函数F(TK;W)对应的就是短片段TK采用参数W的卷积网络部分,而函数的返回值就是断片段TK对于所有类的得分,G是被作为段共识函数,共识函数是结合了其中多个短片段的类别的得分输出,最后得出短片段之间关于识别类别的共识,H为预测函数,它基于共识函数G得到的结果,然后预测整个视频所属每个行为类别的概率;
S112:结合标准分类交叉熵损失,获取损失函数:
Figure BDA0002269394160000071
其中,
Figure BDA0002269394160000072
i表示对应类的类别,C是数据中预测行为的总类别数,yi是每个行为类别i的标签值,共识函数G表示为Gi=g(Fi(T1),Fi(T2),…,Fi(TK)),g就是对所有片段中相同类别的得分推断为Gi的聚合函数,Gj表示第j类共识函数获得的值;
S113:在预训练过程中,使用反向传播算法,并利用多个片段联合优化模型参数W,获取模型参数W关于损失值L的梯度为:
Figure BDA0002269394160000073
其中,
Figure BDA0002269394160000074
表示偏微分。
S12:采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集。具体的,如图4所示,整个网络中的输入视频会被分为K段,其中每一个小片段会从这分为K个对应的段中随机采样得到。在这K个片段的类别的得分是采用段共识函数对这些段进行融合然后来产生段共识,这种表示就是对一个视频级的预测。
具体的,所述步骤S12具体包括以下步骤:
S121:将所述数据集中的一个视频分为多个帧,并从中分段随机选取8帧;
S122:将随机选取的8帧图片中的每帧图片大小裁剪为224*224,并分为R,G,B三个通道模式,使得输入所述TSN卷积神经网络模型的输入数据大小为8*3*224*224;
S123:将大小为8*3*224*224的输入数据输入所述TSN卷积神经网络模型中,得到大小为8*2048*7*7的输出结果。
S2:将构建的深度强化学习网络模型进行预训练,并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择;具体应用时,所述深度强化学习网络模型又叫注意力机制网络模型,该注意力机制网络模型是深度强化学习方法中的感知网络,将该网络名叫做RLANet,该网络部分的作用是用于对使用特征通道作为的状态给出相应的特征通道动作。
其中,所述步骤S2具体包括以下步骤:
S21:通过预设方法构建所述深度强化学习网络模型,并进行预训练;
如图5所示,表示注意力机制网络结构(深度强化学习网络模型),Sa表示输入部分进行卷积过程,Sb表示输入部分直接使用全连接神经网络,最后在将这两部分结果使用全连接网络进行融合,得出动作感知结果。
具体的,所述步骤S21具体包括以下步骤:
S211:设定选择m个特征通道集,将全部特征通道集和所述m个特征通道集组合的状态表示为Sa=[M,Ms],并设定表示选择特征通道集位置信息的状态信息Sb,得到最终感知的状态S={Sa,Sb},其中,M表示2048个特征通道集,Ms表示选择的m个特征通道集,Sb表示的是值为0或者1的2048维数组,里面的取值是和被选取的特征通道集的序列相关,特征通道集被选取,其相应序列的数组Sb的值为1,相反则为0;
S212:采用三层2D卷积神经网络和一层全连接神经网络对输入的所述状态Sa进行感知,并采用一层全连接神经网络对输入的所述状态Sb进行感知;
S213:将所述输入状态Sa的感知结果与所述输入状态Sb的感知结果相连,并采用一层全连接网络对所述相连结果进行感知,得到所述深度强化学习网络模型;
S214:对所述深度强化学习网络模型进行预训练。
具体应用时,最后一个全连接层进行了softmax操作,对每种动作进行了打分。网络的输出是每个帧的动作选取值,相邻三个值是该通道下对三个动作的评判打分,在该通道下选取分值最高的动作进行移动。
在本实施例中,希望得到最大的折扣奖励,因此策略轨迹的综合奖励
Figure BDA0002269394160000081
其中,γ表示奖励折扣因子,rt表示每一步动作获得的奖励,而对于注意力网络的优化损失函数,使用了交叉熵损失,公式如下:
Figure BDA0002269394160000082
其中,T表示的是迭代步数,πθ表示选择的策略,πθ(St,At)表示在状态St下执行动作At的策略值。而在这个损失函数里面的参数θ就是直接给出的,而网络θ参数的更新公式为:
Figure BDA0002269394160000083
其中,
Figure BDA0002269394160000084
表示L(θ)的微分结果,
Figure BDA0002269394160000085
表示归一化后的R值,这个方式可以加强梯度下降。
S22:采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集;
具体应用时,由于需要感知的部分是2048个特征通道集信息,所以本实施例使用深度强化学习方法,用神经网络去感知2048个特征通道集信息,然后对动作做出不同的反应。将注意力机制网络进行强化学习训练,其中,强化学习部分的奖励机制模块需要我们预先训练的判别器神经网络,在对策略进行优化的过程中,本实施例选取策略梯度方式,而这种方式的消耗只是与输出的维度成线性关系。
如图6所示,表示深度强化学习过程。在训练过程中的动作是通过注意力网络进行调节的,每次产生动作后新的状态会产生。其中判别器神经网网络(ArbNet网络)是对选择的特征通道集进行评分,以产生损失反向传播到注意力网络进行参数更新。
本实施中采用的深度强化学习方法算法1如下所示:
输入:训练特征通道集M,分类的标签值l,预先训练好的判别器网络,训练次数E,迭代步数T;
输出:深度强化学习网络的参数θ。
具体的,包括以下步骤:
初始化:初始化深度强化学习网络的参数θ;
进行训练:For epoch=1,2,3,…,E do;
选取特征通道集:ForMi inM do,从Mi选出m个特征通道集
Figure BDA0002269394160000091
使用选择的特征通道集对状态S1
进行强化学习步数迭代:For t=1,2,3…,T,do,使用状态St作为网络的输入,生成动作集At=RLANet(St,θ),从动作集At选择对应选择特征通道集的动作;使用选择的动作和公式Mi′=Mii更新选择的特征通道集
Figure BDA0002269394160000092
再使用选择的特征通道集
Figure BDA0002269394160000093
更新状态St+1;最后使用判别器网络和l通过公式
Figure BDA0002269394160000094
End:通过公式
Figure BDA0002269394160000095
计算损失函数,计算出归一化的总奖励值
Figure BDA0002269394160000096
使用公式
Figure BDA0002269394160000097
更新强化学习网络的参数θ;
End:返回参数θ。
具体的,所述步骤S22具体包括以下步骤:
S221:根据所述TSN卷积神经网络模型得到的2048*7*7的特征通道集,设定选择关键的通道个数为KS,0≤KS≤2048,在2048通道中初始化随机选取KS个;
S222:定义Sb∈R2048,表示选取的KS个特征通道集在原始2048通道中的位置信息,选取的位置Sb的值设置为1,如原始通道中的第8个被选取了,那么Sb[8]=1,未被选取的位置值设置为0,定义
Figure BDA0002269394160000098
表示原始特征通道集与选取的KS个特征通道集合并的结果;
S223:将Sa、Sb输入至所述深度强化学习网络模型中,通过输出获取选择动作的结果,定义A∈R6144,其中,A表示2048*3的一维数组,其中2048是与2048通道数目对应,如i是2048通道中的位置,那么A中的位置(3*i)、(3*i)+1、(3*i)+2就表示对原始通道的第i个进行向左移动、不移动、向右移动三个动作,A中的三个位置中谁的值最大,原始通道对应的i位置就执行值最大的动作,只有原始通道中被选取了的通道才能执行动作,重新选取KS个通道后,再重新计算新的Sa、Sb
S224:反复迭代步骤S222和S223的过程,直到迭代的T步完成,当T步完成后,得到了最后的KS个通道。
具体应用时,所述深度强化学习网络模型中还包括以下部分:
状态设计:由于本实施例是直接对2048个通道选择最好的通道,所以在本文中马尔科夫过程的一部分状态就是TSN网络融合时间和空间特征过后的2048个特征通道集。由于优秀和具有代表性的特征通道集数量不确定,本实施例在训练过程中设定选择m个特征通道集,而这一部分也是状态的一部分,并将全部特征通道集和所述m个特征通道集组合的状态表示为Sa=[M,Ms],其中,M表示2048个特征通道集,Ms表示选择的m个特征通道集,为了表示选择特征通道集的位置信息,设置状态信息Sb,其表示的是值为0或者1的2048维数组,里面的取值是和被选取的特征通道集的序列相关,特征通道集被选取,其相应序列的数组Sb的值为1,相反则为0,设定最终感知的状态S={Sa,Sb};
动作设计:由于本实施例进行调整的特征通道集是一个2048长度的数组,所以设计的动作为三种:1)通道组不移动,2)通道组向左移,3)通道组向右移动。为了能够选择到更多不同通道进行验证,本实施例中将步长设为Sstep∈[1,2,3,……],动作的动作集为A=[0,-1,1],每次移动的值为Mjump=Ai*Sstepi∈[0,1,2],为了保证m个特征通道集之间的顺序和所在位置不会出现交替现象,如第一组的最后一个特征通道集位置一定比第二组的第一个通道位置靠前,本实施例设置了每一组特征通道集调整时的上界和下界,还有选择通道组的每一个组的第一个通道位置,上界为Ui(i=1,2,3,...,m),下界为Di(i=1,2,3,...,m),通道组位置M∈Rm,以下公式为上界取值:
Figure BDA0002269394160000101
同样下界取值为:
Figure BDA0002269394160000102
当然上界U和下界D都是两个大小为m的数组,所每次动作的调整更新公式为:Mi′=Mii,其中,即为动作的设计和移动;
奖励的设计:在对通道的选择过程,要设置奖励反应的是在状态S下选择的动作是否促进关键通道集的选取。奖励函数的表示就是r(S,A),本实施例中对选取的通道组进行增强,然后再把修改好后的通道集放入训练好的TSN网络得出预测,同预测值的改变而做出相应的奖赏,如预测值比前一步的优秀就奖励,反之则惩罚,为更能够反映动作的影响,本实施例将奖励函数设置为:rreward=sgn(Vn,c-Vn-1,c),其中,n表示迭代的次数是多少,c表示被预测为的类别,Vn,c就表示在第n次迭代中使用修改后的通道值输入到判别器网络中进行预测的结果值,其中,rreward的取值为{-1,1}。另外,修改通道值过后可能会导致预测结果发生大的变化,如类直接预测错误,或者预测结果在通道值修改过后,由错误变为了正确。本实施例在为了进行更大的奖励或者惩罚,添加∏作为更强的奖励和惩罚值,如果激励奖赏rreward=∏,如果严厉惩罚rreward=-∏,所以奖励rreward重写为:
Figure BDA0002269394160000112
S3:将构建的判别器神经网络模型进行预训练,并通过所述判别器神经网络模型对所述关键通道集进行动作分类。具体应用时,判别器网络有两个作用,一个就是在深度强化学习方法中,对动作执行后选择的特征通道集进行预测,给奖励机制提供一个动作好坏的信息。第二个就是将网络模型融合后,判别器作为注意力机制选择特征后对动作进行预测的分类器模型。该判别器需要预先训练好,然后才能对强化学习中的动作进行反馈。作为本实施例中判别器网络模型的输入是2048纬度的特征通道集,而这些通道的确切大小是2048×7×7。得到的特征通道集已经是包含了够多的与动作有关的信息,因此不需要再次对特征通道集进行卷积过程。在本实施中,对特征通道集进行均值池化操作,然后获得2048×1×1的值,而这就作为判别器网络的输入。
其中,所述步骤S3具体包括以下步骤:
S31:通过使用三层全连接神经网络构建所述判别器神经网络模型,并进行预训练;具体的,所述三层全连接神经网络包括前两层的Relu激活函数和最后一层的softmax激活函数。如图7所示,为判别器网络结构图,一共三层,第一层和第二层的激活函数为Relu,最后一层的激活函数是softmax。
S32:将所述关键通道集作为所述判别器神经网络模型的输入数据,并通过所述判别器神经网络模型的输出得到分类结果。具体应用时,所述判别器神经网络模型还可以将ArbNet(判别器网络)的输出(分类结果)作为强化学习算法训练中的reward函数的一个输入,引导强化学习训练,是强化学习过程能够选择出最好的关键通道集。
由于本实施例中的判别器神经网络模型只是全连接网络层,因此对所述判别器神经网络模型的损失函数直接进行误差平方和,公式如下:
Figure BDA0002269394160000121
其中,C表示动作分类的数目,li表示该动作的真实分类值,yi表示模型的预测值,w表示所述判别器神经网络模型的参数,E(w)表示关于参数w的目标损失函数,所述w参数的梯度优化为
Figure BDA0002269394160000122
其中η表示梯度下降法中的学习率。
本实施例中,当使用深度强化学习方法学习到了能够选出关键特征信息通道的注意力机制后,再将注意力机制主动选择的特征通道集输入到所述判别器网络中,最终对动作进行分类。而输入到所述注意力机制网络RLANet和判别器网络ArbNet的特征通道集都是来源于原网络,通道集的产生是在F(Tk,W),的卷积网络上,通道集的数目是与片段数K相同的,都为2048。所述网络模块中的输入通道集都需要在每个片段的神经网络提取,通道集中需要选择的通道我们定为Me∈Rm,其中m是选择的通道数,对于注意力机制网络的输出的动作集我们以A∈R6144表示,用I∈R2048表示选择特征通道集后的结果,选择的部分是特征通道集原始值,未选择的部分用0值填充。所述注意力机制部分的网络模型为:A=RLANet(Me),在注意力机制网络模型输出动作集A后,再将选择后的特征通道集将输入到判别器进行动作的分类。这部分的模型公式如下:C=ArbNet(S(A)),其中C是分类后的结果,S函数表示的是通过动作集A后选择的特征通道集。判别器模型输出的就是最终的分类结果,以上两个公式表示的就是设计的网络结构的作用。
如图8所示,将原网络特征通道集提取部分与本实施中的网络部分融合,通过强化学习注意力机制网络对TSN网络的每一段输出特征通道集都进行了感知,对每个片段上的网络函数就改进为A(R(Tk,W)),R表示注意力机制网络RLANet,A表示判别器/分类网络ArbNet,那么最终改进后的网络模型表达式为:ETSN(T1,T2,...,TK)=G(A(R(T1,W)),A(R(T2,W)),...A(R(Tk,W))),最终的融合模型结构如图2所示,其中(a)部分是TSN网络提取特征通道数据,(b)部分是深度强化学习网络模型进行关键通道的选择,(c)是由三层全连接神经网络组成的分类网络。本发明设计网络结构的部分只是在原结构上的添加,本发明的方法只是修改网络深层的特征通道集的选择过程,在不会增加计算消耗量上进行提高识别精准度的探索。
此外,本发明的网络模型使用Python的Pytorch框架进行实现,其中改进的TSN网络源码来源于Github。Pytorch框架是一个基于深度学习的应用框架,它给用户提供了一个能够简单搭建网络并且能够在GPU上稳定训练的平台。
本实施中的算法实现过程主要分为三大部分:TSN网络训练和判别器训练,强化学习训练和最后融合网络模型测试。
在进行训练TSN网络时,TSN除了输入传统的RGB图像和光流场外,还增加了RGB差异图和扭曲光流场。其中单一的RGB图像信息缺少山下文信息,而对应于运动显著区域,两个连续帧的RGB差异表示动作的改变,所以RGB差异堆可以作为一种输入。纯粹的光流场不只是表示运动的变化,也可能包含了背景的水平运动,而扭曲的光流场抑制了背景运动,专注于人物运动,所以也作为一种输入。而由于行为识别的数据较少,为了防止过拟合本文采用交叉输入模式进行预训练。在数据集上,本实施例进行了数据增强,采用角裁剪和尺度抖动的方式增加训练样本。当训练出较好的TSN网络后,再将行为识别数据集作为输入,得出每个动作的通道集进行另外存储,作为强化学习中的输入数据。
在强化学习过程中,本实施例将TSN网络获得到的特征通道集作为新的数据集,将这新获得的数据集训练判别器网络。训练好的判别器网络的输出值将会作为强奖励函数的输入,进行对强化学习中的动作进行奖赏。而训练强化学习模型的过程中,本实施例也将TSN网络模型得出的特征通道集作为输入进行训练。
当强化学习部分的注意力机制模块学习完成后,本实施例进行模型融合,获得本发明方法的模型,然后进行测试。
具体应用时,本实施中还包括分析与实验;
数据集的分析:1)HMDB51,该数据集是布兰恩大学在2011年发布的。其中的视频数据很多都是来源于电影,剩余部分来自于公共数据库和一些网络视频库。在这些视频中一共有6849个样本,而这些样本被分为了51个大类,在这些类别中包括“击剑、招手”等动作。由于数据来源于网络和电影,这一导致了样本中噪声信息会非常大,模型的特征比较难提取,这对模型方法是一个巨大挑战。
2)特征通道集。在使用强化学习模型过程中,需要使用TSN网络得到特征通道集,然后进行注意力机制训练。从TSN网络中得到的特征通道集是2048维的,而其中每个通道映射到原RGB图像中的部分各不相同。通过TSN网络获取的通道特征的过程可以理解为该网络对输入数据的编码过程,获得的通道集也已经包含了原始RGB的信息了。为了验证本实施例中通过TSN网络获得的特征通道集中的不同通道具有不同的信息,不同通道对分类有着不同的作用,将这些特征通道集映射到原本的输入图像中。分别对TSN原网络分类结果最好的类和最差的类,进行了其特征通道集对原图的热图显示,图9显示了分类较差的动作不同通道对原图的映射情况,图10显示了分类最好的动作不同通道对原图的映射情况。在这两个图中,都有通道区域在图像动作部分,也有特征通道集不在动作部分区域。两个结果显示表明了不管分类的好坏,不同的特征通道集来源于原图的不同部分,特征通道集的取样与分类好坏无关。而分类所依靠的特征依然是与动作部分有关的特征信息,因此可以在特征通道集上进行注意力机制使用。目前,有的学者使用注意力机制直接获取人体动作肢体部分,而这样就忽略了动作所作用的物体,导致分类出错。本发明中同样对TSN网络中的某些分类准确度较差的动作进行了原图的特征映射(图11所示),发现关注的部分大多依然是人体部分,而对与人体动作有关的物体却没怎么关注。所以本发明在特征通道集上进行注意力机制的使用,可以增强对与动作有关的物体的通道,做到既提取动作有关的肢体特征又提取动作交互的物体的特征,最终增强动作分类的准确度。
实验设置:(1)TSN网络设置:在训练原始神经网络TSN时,对网络训练的输入有RGB视频序列和光流场图像。TSN网络在空间网络流中的输入是RGB图像,对于整个动作视频数据,为从整个视频得到更多的信息,将视频分为8个大段,而空间网络的输入就是每个大段中随机选择的一个RGB图像帧,在时间网络上,输入的就是该大段视频上所作的光流图。在两个独立的空间和时间卷积过程中设置的激活函数都是Relu,在对图像进行卷积的过程也只采用Max池化方式,当所有卷积层的操作完成后的到的特征图,方法再采用均值池化,同时在均值池化后的全连接过程,将dropout设置为80%,而在训练过程中我们将训练集的batchsize设置为10。在TSN网络最后完成每一大段都进行评分后,对整个视频的评分就为所有段评分后的均值。
(2)深度强化学习网络设置:在深度强化学习网络中,输入值是作为强化学习过程中的状态部分,状态部分为全部的特征通道集和选择的特征通道集,再加上选择特征通道集位置信息的2048维度的0/1数组。而强化学习网络分为两部分,一个是对全部特征通道集和选择的特征通道集组合一起作为输入的卷积神经网络部分,另一个是将选择特征通道集位置信息作为0/1数组输入的全连接神经网络。在第一部分的卷积神经网络上,设置了三个卷积层进行卷积,而卷积后进行max池化操作。而在这部分最后一层的卷积网络中,将dropout设置为20%,以防止过拟合。在第二部分的全连接神经网络中,因为选择的特征通道集的位置信息比较简单,只使用单层的全连接网络,同样使用Relu作为激活函数。然后对这两部分的全连接结果进行连接,在使用一层全连接网络进行动作结果预测。而在强化学习训练过程中,对选择的特征通道集设置为100,步数设置为50。
(3)判别器网络设置:判别器网络预测结果将作为强化学习模块中奖励机制的输入,同时也会作为融合网络结构后最后的分类网络。在作为判别器之前,需要对该网络结构进行预先训练,对于特征通道集在作为该网络输入时,首先要进行最大池化操作。在训练过程中,将通道输入的batchsize设置为10,判别器使用三层全连接,第一层的大小设置为2048x4096,采用Relu激活函数,第二层大小设置4096x4096,也采用Relu作为激活函数,最后一层大小为4096x51,使用softmax作为激活函数。而训练过程的学习率设置以5e-4、1e-4、5e-5、1e-5、1e-6进行变换,最后放在过拟合,将dropout设置为80%。
实验结果:TSN模型的训练使用的是HMDI数据集,强化学习部分的网络结构使用训练输入数据的也是从TSN网络模型提取的特征通道集。对本发明的方法和原始方法的精度进行了对比,如图12所示,这证明了本发明的采用强化学习方法主动学习注意力机制探索关键特征通道集是有意义的,本发明的方法使其精度有了提高。
再将本发明方法和原始方法中的每一个类的预测准确度进行了比较,如图13所示。在某些预测结果比较差的网络上,本发明的方法有明显的提升,这表示主动选择关键特征通道集的注意力机制有了效果,本发明训练的注意力机制关注到了关键的特征通道集。虽然只在HDMI数据集上进行了实验,但本发明的方法结果与原方法相比有了提升,并且本发明的方法在该数据集上准确度为60.1%,前五的准确率也到达了82.3%。这些都证明了本发明方法的意义和有效性。
综上所述,借助于本发明的上述技术方案,通过设计深度强化学习网络模型和判别器神经网络模型,使用网络结构去感知以特征通道作为的状态,然后得出动作集结果,进行关键特征通道的选择,再使用深度强化学习的方法获得一个能够主动关注到关键特征通道的注意力机制,并通过该深度强化学习方法可以达到提高视频识别精度的效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习注意力机制的行为识别方法,其特征在于,该基于强化学习注意力机制的行为识别方法包括以下步骤:
S1:将构建的TSN卷积神经网络模型进行预训练,并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集;
S2:将构建的深度强化学习网络模型进行预训练,并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择;
S3:将构建的判别器神经网络模型进行预训练,并通过所述判别器神经网络模型对所述关键通道集进行动作分类。
2.根据权利要求1所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,所述步骤S1中将构建的TSN卷积神经网络模型进行预训练,并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集具体包括以下步骤:
S11:通过预设方法构建所述TSN卷积神经网络模型,并进行预训练;
S12:采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集。
3.根据权利要求2所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,所述步骤S11中通过预设方法构建所述TSN卷积神经网络模型,并进行预训练具体包括以下步骤:
S111:给定一段视频V,将其相等间隔分为K段{S1,S2,S3...,SK},并对所述K段片段进行建模得到:TSN(T1,T2,…,TK)=H(G(F(T1;W),F(T2;W),…,F(TK;W)));其中(T1,T2,…,TK)代表的从视频中选取的片段序列,具体而言TK就是从视频段SK中随机采样得到的短片段,其中函数F(TK;W)对应的就是短片段TK采用参数W的卷积网络部分,而函数的返回值就是断片段TK对于所有类的得分,G是被作为段共识函数,共识函数是结合了其中多个短片段的类别的得分输出,最后得出短片段之间关于识别类别的共识,H为预测函数,它基于共识函数G得到的结果,然后预测整个视频所属每个行为类别的概率;
S112:结合标准分类交叉熵损失,获取损失函数:
Figure FDA0002269394150000011
其中,
Figure FDA0002269394150000012
i表示对应类的类别,C是数据中预测行为的总类别数,yi是每个行为类别i的标签值,共识函数G表示为Gi=g(Fi(T1),Fi(T2),…,Fi(TK)),g就是对所有片段中相同类别的得分推断为Gi的聚合函数,Gj表示第j类共识函数获得的值;
S113:在预训练过程中,使用反向传播算法,并利用多个片段联合优化模型参数W,获取模型参数W关于损失值L的梯度为:
Figure FDA0002269394150000021
其中,
Figure FDA0002269394150000022
表示偏微分。
4.根据权利要求2所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,其中,所述步骤S12中采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集具体包括以下步骤:
S121:将所述数据集中的一个视频分为多个帧,并从中分段随机选取8帧;
S122:将随机选取的8帧图片中的每帧图片大小裁剪为224*224,并分为R,G,B三个通道模式,使得输入所述TSN卷积神经网络模型的输入数据大小为8*3*224*224;
S123:将大小为8*3*224*224的输入数据输入所述TSN卷积神经网络模型中,得到大小为8*2048*7*7的输出结果。
5.根据权利要求4所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,所述步骤S2中将构建的深度强化学习网络模型进行预训练,并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择具体包括以下步骤:
S21:通过预设方法构建所述深度强化学习网络模型,并进行预训练;
S22:采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集。
6.根据权利要求5所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,所述步骤S21中通过预设方法构建所述深度强化学习网络模型,并进行预训练具体包括以下步骤:
S211:设定选择m个特征通道集,将全部特征通道集和所述m个特征通道集组合的状态表示为Sa=[M,Ms],并设定表示选择特征通道集位置信息的状态信息Sb,得到最终感知的状态S={Sa,Sb},其中,M表示2048个特征通道集,Ms表示选择的m个特征通道集,Sb表示的是值为0或者1的2048维数组,里面的取值是和被选取的特征通道集的序列相关,特征通道集被选取,其相应序列的数组Sb的值为1,相反则为0;
S212:采用三层2D卷积神经网络和一层全连接神经网络对输入的所述状态Sa进行感知,并采用一层全连接神经网络对输入的所述状态Sb进行感知;
S213:将所述输入状态Sa的感知结果与所述输入状态Sb的感知结果相连,并采用一层全连接网络对所述相连结果进行感知,得到所述深度强化学习网络模型;
S214:对所述深度强化学习网络模型进行预训练。
7.根据权利要求6所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,所述步骤S22中采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集具体包括以下步骤:
S221:根据所述TSN卷积神经网络模型得到的2048*7*7的特征通道集,设定选择关键的通道个数为KS,0≤KS≤2048,在2048通道中初始化随机选取KS个;
S222:定义Sb∈R2048,表示选取的KS个特征通道集在原始2048通道中的位置信息,选取的位置Sb的值设置为1,如原始通道中的第8个被选取了,那么Sb[8]=1,未被选取的位置值设置为0,定义
Figure FDA0002269394150000031
表示原始特征通道集与选取的KS个特征通道集合并的结果;
S223:将Sa、Sb输入至所述深度强化学习网络模型中,通过输出获取选择动作的结果,定义A∈R6144,其中,A表示2048*3的一维数组,其中2048是与2048通道数目对应,如i是2048通道中的位置,那么A中的位置(3*i)、(3*i)+1、(3*i)+2就表示对原始通道的第i个进行向左移动、不移动、向右移动三个动作,A中的三个位置中谁的值最大,原始通道对应的i位置就执行值最大的动作,只有原始通道中被选取了的通道才能执行动作,重新选取KS个通道后,再重新计算新的Sa、Sb
S224:反复迭代步骤S222和S223的过程,直到迭代的T步完成,当T步完成后,得到了最后的KS个通道。
8.根据权利要求1所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,所述步骤S3中将构建的判别器神经网络模型进行预训练,并通过所述判别器神经网络模型对所述关键通道集进行动作分类具体包括以下步骤:
S31:通过使用三层全连接神经网络构建所述判别器神经网络模型,并进行预训练;
S32:将所述关键通道集作为所述判别器神经网络模型的输入数据,并通过所述判别器神经网络模型的输出得到分类结果。
9.根据权利要求8所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,所述三层全连接神经网络包括前两层的Relu激活函数和最后一层的softmax激活函数。
10.根据权利要求8所述的一种基于强化学习注意力机制的行为识别方法,其特征在于,所述步骤S3中将构建的判别器神经网络模型进行预训练,并通过所述判别器神经网络模型对所述关键通道集进行动作分类还包括以下步骤:对所述判别器神经网络模型的损失函数直接进行误差平方和处理,得到
Figure FDA0002269394150000041
其中,C表示动作分类的数目,li表示该动作的真实分类值,yi表示模型的预测值,w表示所述判别器神经网络模型的参数,E(w)表示关于参数w的目标损失函数,所述w参数的梯度优化为其中η表示梯度下降法中的学习率。
CN201911099446.3A 2019-11-12 2019-11-12 一种基于强化学习注意力机制的行为识别方法 Active CN110852273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911099446.3A CN110852273B (zh) 2019-11-12 2019-11-12 一种基于强化学习注意力机制的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911099446.3A CN110852273B (zh) 2019-11-12 2019-11-12 一种基于强化学习注意力机制的行为识别方法

Publications (2)

Publication Number Publication Date
CN110852273A true CN110852273A (zh) 2020-02-28
CN110852273B CN110852273B (zh) 2023-05-16

Family

ID=69601405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911099446.3A Active CN110852273B (zh) 2019-11-12 2019-11-12 一种基于强化学习注意力机制的行为识别方法

Country Status (1)

Country Link
CN (1) CN110852273B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401452A (zh) * 2020-03-17 2020-07-10 北京大学 一种基于偏微分算子的等变卷积网络模型的图像分类方法
CN111401260A (zh) * 2020-03-18 2020-07-10 南通大学 基于Quick-OpenPose模型的仰卧起坐测试计数方法及系统
CN111918144A (zh) * 2020-08-12 2020-11-10 桂林电子科技大学 一种基于深度学习的去除视频水印的方法
CN111914731A (zh) * 2020-07-28 2020-11-10 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN112857373A (zh) * 2021-02-26 2021-05-28 哈尔滨工业大学 一种最小化无用动作的节能性无人车路径导航方法
CN112957740A (zh) * 2021-03-26 2021-06-15 南京大学 一种适配分层强化学习的自动分解游戏环境的方法
CN113285872A (zh) * 2021-03-09 2021-08-20 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
CN113343566A (zh) * 2021-05-31 2021-09-03 北京信息科技大学 基于深度学习的镍基合金断裂韧性预测方法及系统
CN113469111A (zh) * 2021-07-16 2021-10-01 中国银行股份有限公司 图像关键点检测方法及系统、电子设备、存储介质
CN113516028A (zh) * 2021-04-28 2021-10-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113625757A (zh) * 2021-08-12 2021-11-09 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN114423061A (zh) * 2022-01-20 2022-04-29 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN114821669A (zh) * 2022-05-26 2022-07-29 重庆大学 一种基于深度学习的细粒度行为识别方法
CN116975695A (zh) * 2023-08-30 2023-10-31 山东大学 一种基于多智能体强化学习的肢体运动识别系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110124906A (ko) * 2010-05-12 2011-11-18 한국항공대학교산학협력단 검지체계간의 데이터 퓨전을 통한 실시간 통행시간 산정방법
US20150106306A1 (en) * 2013-10-16 2015-04-16 University Of Tennessee Research Foundation Method and apparatus for constructing a neuroscience-inspired artificial neural network with visualization of neural pathways
US20160286283A1 (en) * 2014-03-28 2016-09-29 Panasonic Intellectual Property Management Co., Ltd. Image reception apparatus, parameter setting method, and additional information displaying system
CN107480642A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于时域分段网络的视频动作识别方法
US20180144208A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Adaptive attention model for image captioning
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN109002807A (zh) * 2018-07-27 2018-12-14 重庆大学 一种基于ssd神经网络的驾驶场景车辆检测方法
CN109670446A (zh) * 2018-12-20 2019-04-23 泉州装备制造研究所 基于线性动态系统和深度网络的异常行为检测方法
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110110686A (zh) * 2019-05-14 2019-08-09 中国石油大学(华东) 基于多损失双流卷积神经网络的人体动作识别方法
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110348381A (zh) * 2019-07-11 2019-10-18 电子科技大学 一种基于深度学习的视频行为识别方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110124906A (ko) * 2010-05-12 2011-11-18 한국항공대학교산학협력단 검지체계간의 데이터 퓨전을 통한 실시간 통행시간 산정방법
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
US20150106306A1 (en) * 2013-10-16 2015-04-16 University Of Tennessee Research Foundation Method and apparatus for constructing a neuroscience-inspired artificial neural network with visualization of neural pathways
US20160286283A1 (en) * 2014-03-28 2016-09-29 Panasonic Intellectual Property Management Co., Ltd. Image reception apparatus, parameter setting method, and additional information displaying system
US20180144208A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Adaptive attention model for image captioning
CN107480642A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于时域分段网络的视频动作识别方法
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN109002807A (zh) * 2018-07-27 2018-12-14 重庆大学 一种基于ssd神经网络的驾驶场景车辆检测方法
CN109670446A (zh) * 2018-12-20 2019-04-23 泉州装备制造研究所 基于线性动态系统和深度网络的异常行为检测方法
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110110686A (zh) * 2019-05-14 2019-08-09 中国石油大学(华东) 基于多损失双流卷积神经网络的人体动作识别方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110348381A (zh) * 2019-07-11 2019-10-18 电子科技大学 一种基于深度学习的视频行为识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
冯欣;杨丹;张凌;: "基于视觉注意力变化的网络丢包视频质量评估" *
刘舒娴;林伟;陆培民: "基于卷积神经网络的车型识别研究", 有线电视技术 *
孔言;梁鸿;张千: "基于视觉注意力的人体行为识别" *
杨梦宁: "软件维护中的关键预测问题研究" *
许有疆: "基于循环卷积神经网络的视频动作识别" *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401452B (zh) * 2020-03-17 2022-04-26 北京大学 一种基于偏微分算子的等变卷积网络模型的图像分类方法
CN111401452A (zh) * 2020-03-17 2020-07-10 北京大学 一种基于偏微分算子的等变卷积网络模型的图像分类方法
CN111401260A (zh) * 2020-03-18 2020-07-10 南通大学 基于Quick-OpenPose模型的仰卧起坐测试计数方法及系统
CN111914731A (zh) * 2020-07-28 2020-11-10 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN111914731B (zh) * 2020-07-28 2024-01-23 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN111918144A (zh) * 2020-08-12 2020-11-10 桂林电子科技大学 一种基于深度学习的去除视频水印的方法
CN112857373A (zh) * 2021-02-26 2021-05-28 哈尔滨工业大学 一种最小化无用动作的节能性无人车路径导航方法
CN112857373B (zh) * 2021-02-26 2024-02-20 哈尔滨工业大学 一种最小化无用动作的节能性无人车路径导航方法
CN113285872A (zh) * 2021-03-09 2021-08-20 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
CN112957740A (zh) * 2021-03-26 2021-06-15 南京大学 一种适配分层强化学习的自动分解游戏环境的方法
CN112957740B (zh) * 2021-03-26 2023-09-29 南京大学 一种适配分层强化学习的自动分解游戏环境的方法
CN113516028B (zh) * 2021-04-28 2024-01-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113516028A (zh) * 2021-04-28 2021-10-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113343566B (zh) * 2021-05-31 2023-09-01 北京信息科技大学 基于深度学习的镍基合金断裂韧性预测方法及系统
CN113343566A (zh) * 2021-05-31 2021-09-03 北京信息科技大学 基于深度学习的镍基合金断裂韧性预测方法及系统
CN113469111A (zh) * 2021-07-16 2021-10-01 中国银行股份有限公司 图像关键点检测方法及系统、电子设备、存储介质
CN113625757A (zh) * 2021-08-12 2021-11-09 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN113625757B (zh) * 2021-08-12 2023-10-24 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN114423061A (zh) * 2022-01-20 2022-04-29 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN114423061B (zh) * 2022-01-20 2024-05-07 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN114821669A (zh) * 2022-05-26 2022-07-29 重庆大学 一种基于深度学习的细粒度行为识别方法
CN114821669B (zh) * 2022-05-26 2024-05-31 重庆大学 一种基于深度学习的细粒度行为识别方法
CN116975695A (zh) * 2023-08-30 2023-10-31 山东大学 一种基于多智能体强化学习的肢体运动识别系统
CN116975695B (zh) * 2023-08-30 2024-03-19 山东大学 一种基于多智能体强化学习的肢体运动识别系统

Also Published As

Publication number Publication date
CN110852273B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN110852273A (zh) 一种基于强化学习注意力机制的行为识别方法
Dai et al. Human action recognition using two-stream attention based LSTM networks
CN109523463B (zh) 一种基于条件生成对抗网络的人脸老化方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
CN107506712A (zh) 一种基于3d深度卷积网络的人类行为识别的方法
CN110377710A (zh) 一种基于多模态融合的视觉问答融合增强方法
CN111723674B (zh) 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法
CN111126488B (zh) 一种基于双重注意力的图像识别方法
CN109978021B (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN113158875A (zh) 基于多模态交互融合网络的图文情感分析方法及系统
CN110889450B (zh) 超参数调优、模型构建方法和装置
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN114677311A (zh) 一种基于注意力机制的跨模态图像修复方法及装置
Guo et al. A deep reinforcement learning method for multimodal data fusion in action recognition
CN115599942A (zh) 一种基于gcn的深度无监督跨模态检索方法
CN113627424B (zh) 一种协同门控循环融合lstm图像标注方法
CN112381148B (zh) 一种基于随机区域插值的半监督图像分类方法
Deng et al. Evolutionary neural architecture search for facial expression recognition
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN117315223A (zh) 一种基于transformer架构的目标检测方法
Hung Image data augmentation from small training datasets using generative adversarial networks (GANs)
CN113095328A (zh) 一种基尼指数引导的基于自训练的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant