CN110852273A

CN110852273A - 一种基于强化学习注意力机制的行为识别方法

Info

Publication number: CN110852273A
Application number: CN201911099446.3A
Authority: CN
Inventors: 葛永新; 李自强; 杨丹; 张小洪; 徐玲; 洪明坚; 杨梦宁; 黄晟; 王洪星; 陈飞宇
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-02-28
Anticipated expiration: 2039-11-12
Also published as: CN110852273B

Abstract

本发明公开了一种基于强化学习注意力机制的行为识别方法，该基于强化学习注意力机制的行为识别方法包括以下步骤：S1：将构建的TSN卷积神经网络模型进行预训练，并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集；S2：将构建的深度强化学习网络模型进行预训练，并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择；S3：将构建的判别器神经网络模型进行预训练，并通过所述判别器神经网络模型对所述关键通道集进行动作分类。有益效果：本发明使用深度强化学习的方法获得一个能够主动关注到关键特征通道的注意力机制，并通过该深度强化学习方法可以达到提高视频识别精度的效果。

Description

一种基于强化学习注意力机制的行为识别方法

技术领域

本发明涉及行为识别技术领域，具体来说，涉及一种基于强化学习注意力机制的行为识别方法。

背景技术

在计算机视觉中，使用注意力机制，将注意点放在图像中的有用的部分，在分类、视频理解、目标检测中都有着运用，而在现在运用到行为识别的深度学习方法中或多或少都体现了注意力机制的思想。在行为识别中，由于许多的注意力方法都是关注着人体肢体，忽略了与动作有关的物体，所以我们提出一个能够学习到动作和动作有关的物体的注意力机制。

目前，最先进的动作识别方法都是依赖于一个独立处理外观和动作的双流架构，所以我们将在双流网络改进的TSN网络上进行改进。我们将注意力机制放在TSN网络输出的2048特征通道中，在我们的可视化分析中，2048通道映射回原图像的不同部分，可以看出有的通道映射到了动作部分的肢体，也有部分映射到了动作有关的物体。因此我们提出的注意力机制放在TSN网络输出的2048通道上是非常有意义的，将关注点放在有关于动作和与动作有联系的物体的特征通道上，提高与动作分类有关的通道值的作用。

强化学习方法从上世纪到如今在游戏上一直表现着不错的效果，同时在最近几年在计算机视觉深度强化学习的方法也有许多，在行为识别注意力机制方面方法将强化学习方法训练得到一种注意力机制应用到关键视频帧的选取中，这个过程体现了主动关注到关键帧注意力机制，并且在关键帧的选中取得了不错的效果。因此我们将强化学习作为训练注意力机制方法，通过对通道的强化学习方法过程，主动学习到关注关键的特征通道的注意力机制。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于强化学习注意力机制的行为识别方法，具备提高视频识别精度的效果的优点，进而解决背景技术中的问题。

(二)技术方案

为实现上述具备提高视频识别精度的效果的优点，本发明采用的具体技术方案如下：

一种基于强化学习注意力机制的行为识别方法，该基于强化学习注意力机制的行为识别方法包括以下步骤：

S1：将构建的TSN卷积神经网络模型进行预训练，并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集；

S2：将构建的深度强化学习网络模型进行预训练，并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择；

S3：将构建的判别器神经网络模型进行预训练，并通过所述判别器神经网络模型对所述关键通道集进行动作分类。

进一步的，所述步骤S1中将构建的TSN卷积神经网络模型进行预训练，并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集具体包括以下步骤：

S11：通过预设方法构建所述TSN卷积神经网络模型，并进行预训练；

S12：采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集。

进一步的，所述步骤S11中通过预设方法构建所述TSN卷积神经网络模型，并进行预训练具体包括以下步骤：

S111：给定一段视频V，将其相等间隔分为K段{S₁，S₂，S₃...，S_K}，并对所述K段片段进行建模得到：TSN(T₁,T₂,…,T_K)＝H(G(F(T₁；W),F(T₂；W),…,F(T_K；W)))；其中(T₁,T₂,…,T_K)代表的从视频中选取的片段序列，具体而言T_K就是从视频段S_K中随机采样得到的短片段，其中函数F(T_K；W)对应的就是短片段T_K采用参数W的卷积网络部分，而函数的返回值就是断片段T_K对于所有类的得分，G是被作为段共识函数，共识函数是结合了其中多个短片段的类别的得分输出，最后得出短片段之间关于识别类别的共识，H为预测函数，它基于共识函数G得到的结果，然后预测整个视频所属每个行为类别的概率；

S112：结合标准分类交叉熵损失，获取损失函数：

其中，

i表示对应类的类别，C是数据中预测行为的总类别数，y_i是每个行为类别i的标签值，共识函数G表示为G_i＝g(F_i(T₁),F_i(T₂)，…,F_i(T_K))，g就是对所有片段中相同类别的得分推断为G_i的聚合函数，G_j表示第j类共识函数获得的值；

S113：在预训练过程中，使用反向传播算法，并利用多个片段联合优化模型参数W，获取模型参数W关于损失值L的梯度为：其中，

表示偏微分。

进一步的，所述步骤S12中采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集具体包括以下步骤：

S121：将所述数据集中的一个视频分为多个帧，并从中分段随机选取8帧；

S122：将随机选取的8帧图片中的每帧图片大小裁剪为224*224，并分为R,G,B三个通道模式，使得输入所述TSN卷积神经网络模型的输入数据大小为8*3*224*224；

S123：将大小为8*3*224*224的输入数据输入所述TSN卷积神经网络模型中，得到大小为8*2048*7*7的输出结果。

进一步的，所述步骤S2中将构建的深度强化学习网络模型进行预训练，并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择具体包括以下步骤：

S21：通过预设方法构建所述深度强化学习网络模型，并进行预训练；

S22：采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集。

进一步的，所述步骤S21中通过预设方法构建所述深度强化学习网络模型，并进行预训练具体包括以下步骤：

S211：设定选择m个特征通道集，将全部特征通道集和所述m个特征通道集组合的状态表示为S_a＝[M,M_s]，并设定表示选择特征通道集位置信息的状态信息S_b，得到最终感知的状态S＝{S_a,S_b}，其中，M表示2048个特征通道集，M_s表示选择的m个特征通道集，S_b表示的是值为0或者1的2048维数组，里面的取值是和被选取的特征通道集的序列相关，特征通道集被选取，其相应序列的数组S_b的值为1，相反则为0；

S212：采用三层2D卷积神经网络和一层全连接神经网络对输入的所述状态S_a进行感知，并采用一层全连接神经网络对输入的所述状态S_b进行感知；

S213：将所述输入状态S_a的感知结果与所述输入状态S_b的感知结果相连，并采用一层全连接网络对所述相连结果进行感知，得到所述深度强化学习网络模型；

S214：对所述深度强化学习网络模型进行预训练。

进一步的，所述步骤S22中采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集具体包括以下步骤：

S221：根据所述TSN卷积神经网络模型得到的2048*7*7的特征通道集，设定选择关键的通道个数为K_S，0≤K_S≤2048，在2048通道中初始化随机选取K_S个；

S222：定义S_b∈R²⁰⁴⁸，表示选取的K_S个特征通道集在原始2048通道中的位置信息，选取的位置S_b的值设置为1，如原始通道中的第8个被选取了，那么S_b[8]＝1，未被选取的位置值设置为0，定义

表示原始特征通道集与选取的K_S个特征通道集合并的结果；

S223：将S_a、S_b输入至所述深度强化学习网络模型中，通过输出获取选择动作的结果，定义A∈R⁶¹⁴⁴,其中，A表示2048*3的一维数组，其中2048是与2048通道数目对应，如i是2048通道中的位置，那么A中的位置(3*i)、(3*i)+1、(3*i)+2就表示对原始通道的第i个进行向左移动、不移动、向右移动三个动作，A中的三个位置中谁的值最大，原始通道对应的i位置就执行值最大的动作，只有原始通道中被选取了的通道才能执行动作，重新选取K_S个通道后，再重新计算新的S_a、S_b；

S224：反复迭代步骤S222和S223的过程，直到迭代的T步完成，当T步完成后，得到了最后的K_S个通道。

进一步的，所述步骤S3中将构建的判别器神经网络模型进行预训练，并通过所述判别器神经网络模型对所述关键通道集进行动作分类具体包括以下步骤：

S31：通过使用三层全连接神经网络构建所述判别器神经网络模型，并进行预训练；

S32：将所述关键通道集作为所述判别器神经网络模型的输入数据，并通过所述判别器神经网络模型的输出得到分类结果。

进一步的，所述三层全连接神经网络包括前两层的Relu激活函数和最后一层的softmax激活函数。

进一步的，所述步骤S3中将构建的判别器神经网络模型进行预训练，并通过所述判别器神经网络模型对所述关键通道集进行动作分类还包括以下步骤：对所述判别器神经网络模型的损失函数直接进行误差平方和处理，得到

其中，C表示动作分类的数目，l_i表示该动作的真实分类值，y_i表示模型的预测值，w表示所述判别器神经网络模型的参数，E(w)表示关于参数w的目标损失函数，所述w参数的梯度优化为

其中η表示梯度下降法中的学习率。

(三)有益效果

与现有技术相比，本发明提供了基于强化学习注意力机制的行为识别方法，具备以下有益效果：通过设计深度强化学习网络模型和判别器神经网络模型，使用网络结构去感知以特征通道作为的状态，然后得出动作集结果，进行关键特征通道的选择，再使用深度强化学习的方法获得一个能够主动关注到关键特征通道的注意力机制，并通过该深度强化学习方法可以达到提高视频识别精度的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于强化学习注意力机制的行为识别方法的流程图；

图2是根据本发明实施例的基于强化学习注意力机制的行为识别方法的原理图；

图3是根据本发明实施例中TSN卷积神经网络模型由resnet101网络模型组合所得的示意图；

图4是根据本发明实施例的基于强化学习注意力机制的行为识别方法中所述特征通道集的选择原理图；

图5是根据本发明实施例的基于强化学习注意力机制的行为识别方法中注意力机制网络结构的示意图；

图6是根据本发明实施例的基于强化学习注意力机制的行为识别方法中深度强化学习的过程示意图；

图7是根据本发明实施例的基于强化学习注意力机制的行为识别方法中判别器网络模型的结构图；

图8是根据本发明实施例中将深度强化学习中的网络和分类器网络结构的融合示意图；

图9是根据本发明实施例中分类较差的图像随机6个通道在原图上映射的热图；

图10是根据本发明实施例中分类较好的图像随机6个通道在原图上映射的热图；

图11是根据本发明实施例中某些分类准确度较差的动作在原图上映射的热图；

图12是根据本发明实施例中的方法与原始方法的精度对比图；

图13是根据本发明实施例中的方法与原始方法中每一个类预测准确度的对比图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于强化学习注意力机制的行为识别方法。

现结合附图和具体实施方式对本发明进一步说明，如图1-13所示，根据本发明实施例的基于强化学习注意力机制的行为识别方法，该基于强化学习注意力机制的行为识别方法包括以下步骤：

S1：将构建的TSN卷积神经网络模型进行预训练，并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集；具体应用时，所述TSN卷积神经网络模型可以从整个视频中进行建模，具体而言TSN卷积神经网络模型是对整个视频中稀疏采样的一系列短片段，而每个片段都会给其本身对于行为类别的初步预测，然后利用这些片段共同得出的特征就可以得到视频级的预测结果。

其中，所述步骤S1具体包括以下步骤：

S11：通过预设方法构建所述TSN卷积神经网络模型，并进行预训练；如图3所示，所述TSN卷积神经网络模型由resnet101网络模型组合所得的。

具体的，所述步骤S11具体包括以下步骤：

S112：结合标准分类交叉熵损失，获取损失函数：

其中，

S113：在预训练过程中，使用反向传播算法，并利用多个片段联合优化模型参数W，获取模型参数W关于损失值L的梯度为：

其中，

表示偏微分。

S12：采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集。具体的，如图4所示，整个网络中的输入视频会被分为K段，其中每一个小片段会从这分为K个对应的段中随机采样得到。在这K个片段的类别的得分是采用段共识函数对这些段进行融合然后来产生段共识，这种表示就是对一个视频级的预测。

具体的，所述步骤S12具体包括以下步骤：

S2：将构建的深度强化学习网络模型进行预训练，并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择；具体应用时，所述深度强化学习网络模型又叫注意力机制网络模型，该注意力机制网络模型是深度强化学习方法中的感知网络，将该网络名叫做RLANet，该网络部分的作用是用于对使用特征通道作为的状态给出相应的特征通道动作。

其中，所述步骤S2具体包括以下步骤：

如图5所示，表示注意力机制网络结构(深度强化学习网络模型)，S_a表示输入部分进行卷积过程，S_b表示输入部分直接使用全连接神经网络，最后在将这两部分结果使用全连接网络进行融合，得出动作感知结果。

具体的，所述步骤S21具体包括以下步骤：

S214：对所述深度强化学习网络模型进行预训练。

具体应用时，最后一个全连接层进行了softmax操作，对每种动作进行了打分。网络的输出是每个帧的动作选取值，相邻三个值是该通道下对三个动作的评判打分，在该通道下选取分值最高的动作进行移动。

在本实施例中，希望得到最大的折扣奖励，因此策略轨迹的综合奖励

其中，γ表示奖励折扣因子，r_t表示每一步动作获得的奖励，而对于注意力网络的优化损失函数，使用了交叉熵损失，公式如下：

其中，T表示的是迭代步数，π_θ表示选择的策略，π_θ(S_t,A_t)表示在状态S_t下执行动作A_t的策略值。而在这个损失函数里面的参数θ就是直接给出的，而网络θ参数的更新公式为：

其中，

表示L(θ)的微分结果,

表示归一化后的R值，这个方式可以加强梯度下降。

S22：采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集；

具体应用时，由于需要感知的部分是2048个特征通道集信息，所以本实施例使用深度强化学习方法，用神经网络去感知2048个特征通道集信息，然后对动作做出不同的反应。将注意力机制网络进行强化学习训练，其中，强化学习部分的奖励机制模块需要我们预先训练的判别器神经网络，在对策略进行优化的过程中，本实施例选取策略梯度方式，而这种方式的消耗只是与输出的维度成线性关系。

如图6所示，表示深度强化学习过程。在训练过程中的动作是通过注意力网络进行调节的，每次产生动作后新的状态会产生。其中判别器神经网网络(ArbNet网络)是对选择的特征通道集进行评分，以产生损失反向传播到注意力网络进行参数更新。

本实施中采用的深度强化学习方法算法1如下所示：

输入：训练特征通道集M，分类的标签值l，预先训练好的判别器网络，训练次数E,迭代步数T；

输出：深度强化学习网络的参数θ。

具体的，包括以下步骤：

初始化：初始化深度强化学习网络的参数θ；

进行训练：For epoch＝1,2,3,…,E do；

选取特征通道集：ForM_i inM do，从M_i选出m个特征通道集

使用选择的特征通道集对状态S₁；

进行强化学习步数迭代：For t＝1,2,3…,T,do，使用状态S_t作为网络的输入，生成动作集A_t＝RLANet(S_t，θ)，从动作集A_t选择对应选择特征通道集的动作；使用选择的动作和公式M_i′＝M_i+δ_i更新选择的特征通道集

再使用选择的特征通道集

更新状态S_t+1；最后使用判别器网络和l通过公式

End：通过公式

计算损失函数，计算出归一化的总奖励值

使用公式

更新强化学习网络的参数θ；

End：返回参数θ。

具体的，所述步骤S22具体包括以下步骤：

表示原始特征通道集与选取的K_S个特征通道集合并的结果；

具体应用时，所述深度强化学习网络模型中还包括以下部分：

状态设计：由于本实施例是直接对2048个通道选择最好的通道，所以在本文中马尔科夫过程的一部分状态就是TSN网络融合时间和空间特征过后的2048个特征通道集。由于优秀和具有代表性的特征通道集数量不确定，本实施例在训练过程中设定选择m个特征通道集，而这一部分也是状态的一部分，并将全部特征通道集和所述m个特征通道集组合的状态表示为S_a＝[M,M_s]，其中，M表示2048个特征通道集，M_s表示选择的m个特征通道集，为了表示选择特征通道集的位置信息，设置状态信息S_b，其表示的是值为0或者1的2048维数组，里面的取值是和被选取的特征通道集的序列相关，特征通道集被选取，其相应序列的数组S_b的值为1，相反则为0，设定最终感知的状态S＝{S_a,S_b}；

动作设计：由于本实施例进行调整的特征通道集是一个2048长度的数组，所以设计的动作为三种：1)通道组不移动，2)通道组向左移，3)通道组向右移动。为了能够选择到更多不同通道进行验证，本实施例中将步长设为S_step∈[1,2,3,……]，动作的动作集为A＝[0,-1,1]，每次移动的值为M_jump＝A_i*S_stepi∈[0,1,2]，为了保证m个特征通道集之间的顺序和所在位置不会出现交替现象，如第一组的最后一个特征通道集位置一定比第二组的第一个通道位置靠前，本实施例设置了每一组特征通道集调整时的上界和下界，还有选择通道组的每一个组的第一个通道位置，上界为U_i(i＝1,2,3,...,m)，下界为D_i(i＝1,2,3,...,m)，通道组位置M∈R^m，以下公式为上界取值：

同样下界取值为：

当然上界U和下界D都是两个大小为m的数组，所每次动作的调整更新公式为：M_i′＝M_i+δ_i，其中，即为动作的设计和移动；

奖励的设计：在对通道的选择过程，要设置奖励反应的是在状态S下选择的动作是否促进关键通道集的选取。奖励函数的表示就是r(S,A)，本实施例中对选取的通道组进行增强，然后再把修改好后的通道集放入训练好的TSN网络得出预测，同预测值的改变而做出相应的奖赏，如预测值比前一步的优秀就奖励，反之则惩罚，为更能够反映动作的影响，本实施例将奖励函数设置为：r_reward＝sgn(V_n,c-V_n-1,c)，其中，n表示迭代的次数是多少，c表示被预测为的类别，V_n,c就表示在第n次迭代中使用修改后的通道值输入到判别器网络中进行预测的结果值，其中，r_reward的取值为{-1,1}。另外，修改通道值过后可能会导致预测结果发生大的变化，如类直接预测错误，或者预测结果在通道值修改过后，由错误变为了正确。本实施例在为了进行更大的奖励或者惩罚，添加∏作为更强的奖励和惩罚值，如果激励奖赏r_reward＝∏，如果严厉惩罚r_reward＝-∏，所以奖励r_reward重写为：

S3：将构建的判别器神经网络模型进行预训练，并通过所述判别器神经网络模型对所述关键通道集进行动作分类。具体应用时，判别器网络有两个作用，一个就是在深度强化学习方法中，对动作执行后选择的特征通道集进行预测，给奖励机制提供一个动作好坏的信息。第二个就是将网络模型融合后，判别器作为注意力机制选择特征后对动作进行预测的分类器模型。该判别器需要预先训练好，然后才能对强化学习中的动作进行反馈。作为本实施例中判别器网络模型的输入是2048纬度的特征通道集，而这些通道的确切大小是2048×7×7。得到的特征通道集已经是包含了够多的与动作有关的信息，因此不需要再次对特征通道集进行卷积过程。在本实施中，对特征通道集进行均值池化操作，然后获得2048×1×1的值，而这就作为判别器网络的输入。

其中，所述步骤S3具体包括以下步骤：

S31：通过使用三层全连接神经网络构建所述判别器神经网络模型，并进行预训练；具体的，所述三层全连接神经网络包括前两层的Relu激活函数和最后一层的softmax激活函数。如图7所示，为判别器网络结构图，一共三层，第一层和第二层的激活函数为Relu,最后一层的激活函数是softmax。

S32：将所述关键通道集作为所述判别器神经网络模型的输入数据，并通过所述判别器神经网络模型的输出得到分类结果。具体应用时，所述判别器神经网络模型还可以将ArbNet(判别器网络)的输出(分类结果)作为强化学习算法训练中的reward函数的一个输入，引导强化学习训练，是强化学习过程能够选择出最好的关键通道集。

由于本实施例中的判别器神经网络模型只是全连接网络层，因此对所述判别器神经网络模型的损失函数直接进行误差平方和，公式如下：

其中η表示梯度下降法中的学习率。

本实施例中，当使用深度强化学习方法学习到了能够选出关键特征信息通道的注意力机制后，再将注意力机制主动选择的特征通道集输入到所述判别器网络中，最终对动作进行分类。而输入到所述注意力机制网络RLANet和判别器网络ArbNet的特征通道集都是来源于原网络，通道集的产生是在F(T_k,W)，的卷积网络上，通道集的数目是与片段数K相同的，都为2048。所述网络模块中的输入通道集都需要在每个片段的神经网络提取，通道集中需要选择的通道我们定为M_e∈R^m，其中_m是选择的通道数，对于注意力机制网络的输出的动作集我们以A∈R⁶¹⁴⁴表示，用I∈R²⁰⁴⁸表示选择特征通道集后的结果，选择的部分是特征通道集原始值，未选择的部分用0值填充。所述注意力机制部分的网络模型为：A＝RLANet(M_e)，在注意力机制网络模型输出动作集A后，再将选择后的特征通道集将输入到判别器进行动作的分类。这部分的模型公式如下：C＝ArbNet(S(A))，其中C是分类后的结果，S函数表示的是通过动作集A后选择的特征通道集。判别器模型输出的就是最终的分类结果，以上两个公式表示的就是设计的网络结构的作用。

如图8所示，将原网络特征通道集提取部分与本实施中的网络部分融合，通过强化学习注意力机制网络对TSN网络的每一段输出特征通道集都进行了感知，对每个片段上的网络函数就改进为A(R(T_k，W))，R表示注意力机制网络RLANet，A表示判别器/分类网络ArbNet，那么最终改进后的网络模型表达式为：ETSN(T₁,T₂,...,T_K)＝G(A(R(T₁,W)),A(R(T₂,W)),...A(R(T_k,W)))，最终的融合模型结构如图2所示，其中(a)部分是TSN网络提取特征通道数据，(b)部分是深度强化学习网络模型进行关键通道的选择，(c)是由三层全连接神经网络组成的分类网络。本发明设计网络结构的部分只是在原结构上的添加，本发明的方法只是修改网络深层的特征通道集的选择过程，在不会增加计算消耗量上进行提高识别精准度的探索。

此外，本发明的网络模型使用Python的Pytorch框架进行实现，其中改进的TSN网络源码来源于Github。Pytorch框架是一个基于深度学习的应用框架，它给用户提供了一个能够简单搭建网络并且能够在GPU上稳定训练的平台。

本实施中的算法实现过程主要分为三大部分：TSN网络训练和判别器训练，强化学习训练和最后融合网络模型测试。

在进行训练TSN网络时，TSN除了输入传统的RGB图像和光流场外，还增加了RGB差异图和扭曲光流场。其中单一的RGB图像信息缺少山下文信息，而对应于运动显著区域，两个连续帧的RGB差异表示动作的改变，所以RGB差异堆可以作为一种输入。纯粹的光流场不只是表示运动的变化，也可能包含了背景的水平运动，而扭曲的光流场抑制了背景运动，专注于人物运动，所以也作为一种输入。而由于行为识别的数据较少，为了防止过拟合本文采用交叉输入模式进行预训练。在数据集上，本实施例进行了数据增强，采用角裁剪和尺度抖动的方式增加训练样本。当训练出较好的TSN网络后，再将行为识别数据集作为输入，得出每个动作的通道集进行另外存储，作为强化学习中的输入数据。

在强化学习过程中，本实施例将TSN网络获得到的特征通道集作为新的数据集，将这新获得的数据集训练判别器网络。训练好的判别器网络的输出值将会作为强奖励函数的输入，进行对强化学习中的动作进行奖赏。而训练强化学习模型的过程中，本实施例也将TSN网络模型得出的特征通道集作为输入进行训练。

当强化学习部分的注意力机制模块学习完成后，本实施例进行模型融合，获得本发明方法的模型，然后进行测试。

具体应用时，本实施中还包括分析与实验；

数据集的分析：1)HMDB51，该数据集是布兰恩大学在2011年发布的。其中的视频数据很多都是来源于电影，剩余部分来自于公共数据库和一些网络视频库。在这些视频中一共有6849个样本，而这些样本被分为了51个大类，在这些类别中包括“击剑、招手”等动作。由于数据来源于网络和电影，这一导致了样本中噪声信息会非常大，模型的特征比较难提取，这对模型方法是一个巨大挑战。

2)特征通道集。在使用强化学习模型过程中，需要使用TSN网络得到特征通道集，然后进行注意力机制训练。从TSN网络中得到的特征通道集是2048维的，而其中每个通道映射到原RGB图像中的部分各不相同。通过TSN网络获取的通道特征的过程可以理解为该网络对输入数据的编码过程，获得的通道集也已经包含了原始RGB的信息了。为了验证本实施例中通过TSN网络获得的特征通道集中的不同通道具有不同的信息，不同通道对分类有着不同的作用，将这些特征通道集映射到原本的输入图像中。分别对TSN原网络分类结果最好的类和最差的类，进行了其特征通道集对原图的热图显示，图9显示了分类较差的动作不同通道对原图的映射情况，图10显示了分类最好的动作不同通道对原图的映射情况。在这两个图中，都有通道区域在图像动作部分，也有特征通道集不在动作部分区域。两个结果显示表明了不管分类的好坏，不同的特征通道集来源于原图的不同部分，特征通道集的取样与分类好坏无关。而分类所依靠的特征依然是与动作部分有关的特征信息，因此可以在特征通道集上进行注意力机制使用。目前，有的学者使用注意力机制直接获取人体动作肢体部分，而这样就忽略了动作所作用的物体，导致分类出错。本发明中同样对TSN网络中的某些分类准确度较差的动作进行了原图的特征映射(图11所示)，发现关注的部分大多依然是人体部分，而对与人体动作有关的物体却没怎么关注。所以本发明在特征通道集上进行注意力机制的使用，可以增强对与动作有关的物体的通道，做到既提取动作有关的肢体特征又提取动作交互的物体的特征，最终增强动作分类的准确度。

实验设置：(1)TSN网络设置：在训练原始神经网络TSN时，对网络训练的输入有RGB视频序列和光流场图像。TSN网络在空间网络流中的输入是RGB图像，对于整个动作视频数据，为从整个视频得到更多的信息，将视频分为8个大段，而空间网络的输入就是每个大段中随机选择的一个RGB图像帧，在时间网络上，输入的就是该大段视频上所作的光流图。在两个独立的空间和时间卷积过程中设置的激活函数都是Relu，在对图像进行卷积的过程也只采用Max池化方式，当所有卷积层的操作完成后的到的特征图，方法再采用均值池化，同时在均值池化后的全连接过程，将dropout设置为80％，而在训练过程中我们将训练集的batchsize设置为10。在TSN网络最后完成每一大段都进行评分后，对整个视频的评分就为所有段评分后的均值。

(2)深度强化学习网络设置：在深度强化学习网络中，输入值是作为强化学习过程中的状态部分，状态部分为全部的特征通道集和选择的特征通道集，再加上选择特征通道集位置信息的2048维度的0/1数组。而强化学习网络分为两部分，一个是对全部特征通道集和选择的特征通道集组合一起作为输入的卷积神经网络部分，另一个是将选择特征通道集位置信息作为0/1数组输入的全连接神经网络。在第一部分的卷积神经网络上，设置了三个卷积层进行卷积，而卷积后进行max池化操作。而在这部分最后一层的卷积网络中，将dropout设置为20％，以防止过拟合。在第二部分的全连接神经网络中，因为选择的特征通道集的位置信息比较简单，只使用单层的全连接网络，同样使用Relu作为激活函数。然后对这两部分的全连接结果进行连接，在使用一层全连接网络进行动作结果预测。而在强化学习训练过程中，对选择的特征通道集设置为100，步数设置为50。

(3)判别器网络设置：判别器网络预测结果将作为强化学习模块中奖励机制的输入，同时也会作为融合网络结构后最后的分类网络。在作为判别器之前，需要对该网络结构进行预先训练，对于特征通道集在作为该网络输入时，首先要进行最大池化操作。在训练过程中，将通道输入的batchsize设置为10，判别器使用三层全连接，第一层的大小设置为2048x4096，采用Relu激活函数，第二层大小设置4096x4096，也采用Relu作为激活函数，最后一层大小为4096x51，使用softmax作为激活函数。而训练过程的学习率设置以5e-4、1e-4、5e-5、1e-5、1e-6进行变换，最后放在过拟合，将dropout设置为80％。

实验结果：TSN模型的训练使用的是HMDI数据集，强化学习部分的网络结构使用训练输入数据的也是从TSN网络模型提取的特征通道集。对本发明的方法和原始方法的精度进行了对比，如图12所示，这证明了本发明的采用强化学习方法主动学习注意力机制探索关键特征通道集是有意义的，本发明的方法使其精度有了提高。

再将本发明方法和原始方法中的每一个类的预测准确度进行了比较，如图13所示。在某些预测结果比较差的网络上，本发明的方法有明显的提升，这表示主动选择关键特征通道集的注意力机制有了效果，本发明训练的注意力机制关注到了关键的特征通道集。虽然只在HDMI数据集上进行了实验，但本发明的方法结果与原方法相比有了提升，并且本发明的方法在该数据集上准确度为60.1％，前五的准确率也到达了82.3％。这些都证明了本发明方法的意义和有效性。

综上所述，借助于本发明的上述技术方案，通过设计深度强化学习网络模型和判别器神经网络模型，使用网络结构去感知以特征通道作为的状态，然后得出动作集结果，进行关键特征通道的选择，再使用深度强化学习的方法获得一个能够主动关注到关键特征通道的注意力机制，并通过该深度强化学习方法可以达到提高视频识别精度的效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习注意力机制的行为识别方法，其特征在于，该基于强化学习注意力机制的行为识别方法包括以下步骤：

2.根据权利要求1所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，所述步骤S1中将构建的TSN卷积神经网络模型进行预训练，并通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集具体包括以下步骤：

3.根据权利要求2所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，所述步骤S11中通过预设方法构建所述TSN卷积神经网络模型，并进行预训练具体包括以下步骤：

S112：结合标准分类交叉熵损失，获取损失函数：

其中，

其中，

表示偏微分。

4.根据权利要求2所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，其中，所述步骤S12中采用预设方法通过所述TSN卷积神经网络模型从预先配置好的数据集中提取特征通道集具体包括以下步骤：

5.根据权利要求4所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，所述步骤S2中将构建的深度强化学习网络模型进行预训练，并通过所述深度强化学习网络模型对所述特征通道集进行关键通道集的选择具体包括以下步骤：

6.根据权利要求5所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，所述步骤S21中通过预设方法构建所述深度强化学习网络模型，并进行预训练具体包括以下步骤：

S214：对所述深度强化学习网络模型进行预训练。

7.根据权利要求6所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，所述步骤S22中采用深度强化学习算法通过所述深度强化学习网络模型从所述特征通道集中提取与动作有关的关键通道集具体包括以下步骤：

表示原始特征通道集与选取的K_S个特征通道集合并的结果；

8.根据权利要求1所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，所述步骤S3中将构建的判别器神经网络模型进行预训练，并通过所述判别器神经网络模型对所述关键通道集进行动作分类具体包括以下步骤：

9.根据权利要求8所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，所述三层全连接神经网络包括前两层的Relu激活函数和最后一层的softmax激活函数。

10.根据权利要求8所述的一种基于强化学习注意力机制的行为识别方法，其特征在于，所述步骤S3中将构建的判别器神经网络模型进行预训练，并通过所述判别器神经网络模型对所述关键通道集进行动作分类还包括以下步骤：对所述判别器神经网络模型的损失函数直接进行误差平方和处理，得到

其中，C表示动作分类的数目，l_i表示该动作的真实分类值，y_i表示模型的预测值，w表示所述判别器神经网络模型的参数，E(w)表示关于参数w的目标损失函数，所述w参数的梯度优化为其中η表示梯度下降法中的学习率。