CN110287829A

CN110287829A - 一种结合深度q学习和注意模型的视频人脸识别方法

Info

Publication number: CN110287829A
Application number: CN201910504163.6A
Authority: CN
Inventors: 刘惠义; 郑秋文; 居明宇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-27

Abstract

本发明公开了一种结合深度Q学习和注意模型的视频人脸识别方法，包括视频特征提取、视频时间连续性信息提取、局部人脸定位、视频最佳帧序列排序和视频人脸识别匹配五个步骤，具有能够实现视频人脸识别，并解决视频人脸匹配精度不足的问题的特点。

Description

一种结合深度Q学习和注意模型的视频人脸识别方法

技术领域

本发明属于视频人脸识别技术领域，具体涉及一种结合深度Q学习和注意模型的视频人脸识别方法。

背景技术

视频人脸识别在宏观上可分为视频与静止图像的匹配以及视频与视频的匹配两个类别。在现实的应用场景中，静止图像的易采集性和易存储性致使多采用静止图像匹配的方法进行人脸识别。但在很多场景中，如公安系统进行犯罪嫌疑人识别，常采用视频与视频的匹配方法，将视频本身具有的时间信息作为重要元素参与分析，以提高匹配准确率，弥补人脸姿态不良和采光不足等造成的影响。视频与视频的匹配过程中，视频信息处理对匹配结果有着十分重要的影响。在视频集中，往往存在大量的模糊帧、非人脸的背景帧等，对特征表示和后续的人脸识别精度造成很大影响。

为此，有学者提出一种基于注意力的方法，利用特征本身信息寻找特征权重，继而对视频进行非重要区域的取舍，使得聚焦重点在人脸区域，但由于大量信息被剔除，信息量不充足，导致特征空间的表示不够精确。对此，又有学者提出组合不同表情和姿态的多帧人脸建模方法，来增加特征空间的动态信息量，但该方法对视频序列长度有着较高的要求。

发明内容

为解决上述问题，本发明提出一种结合深度Q学习(deep Q-learning)和注意模型的视频人脸识别方法，实现视频人脸识别，解决视频人脸匹配精度不足的技术问题。

本发明解决其技术问题是通过以下技术方案实现的：

一种结合深度Q学习和注意模型的视频人脸识别方法，具体包括以下步骤：

步骤S1、视频特征提取：采用卷积神经网络训练视频数据，提取出视频不同的特征面，组合成视频的多维度特征；

步骤S2、视频时间连续性信息提取：将由步骤S1中的卷积神经网络提取到的视频的多维度特征作为注意模型的输入，所述注意模型的包括循环神经网络，所述循环神经网络可以对时间维度的有序序列数据进行建模，通过添加跨越时间点的自连接隐藏层使得网络内部单元间既存在反馈连接又有前馈连接，从而记录动态时间信息，而隐藏层的自连接的输出记为隐藏值，具体循环递归输出可表示为：

h_t＝f(Ux_t+Wh_t-1)

其中，U为从输入层连接到隐藏层权重，W为从隐藏层连接到自身的权重；h_t表示t时刻的当前记忆，即隐藏层输出的隐藏值；x_t表示t时刻的样本输入，所述注意模型将从步骤S1的卷积神经网络获取的当前视频帧的特征和上一层隐藏层的输出存储在隐藏记忆单元中，通过循环网络优化步骤S1的多维度特征得到的包含时间信息的隐藏数据，存储在隐藏记忆单元中，使得训练所述注意模型时，调取注意模型的数据能够整合先前时间轴上的特征信息；

步骤S3、局部人脸定位：所述注意模型训练前先给出初始位置信息l₀，在模型训练过程中，通过由卷积网络提取的当前视频帧的特征和上一时刻的位置信息，计算出当前时刻观察的区域特征，再将所述区域特征输入注意模型，通过注意模型训练不断更新位置信息l_t，最终提炼出局部人脸特征；

步骤S4、视频最佳帧序列排序：将步骤S3提炼出的局部人脸特征作为状态输入，通过Q学习训练得出对应状态和动作对的值函数，同时，将Q学习训练中所得到的转移样本，包括{s,a,r,s′}保存到样本池，下一次训练时从样本池中抽取部分样本，训练到达终止状态后，得到一组最优策略作为视频中的最优帧序列，并给出注意力权重；

步骤S5、视频人脸识别匹配：采用余弦相似度方法对视频人脸匹配度进行测量，计算由所述局部人脸特征与注意力权重的乘积和与特征表达总和的比值，且所述比值越小，表示匹配度越低，视频间差距越大。

进一步的，所述步骤S1的具体步骤为：

步骤S1.1、利用带标签的视频样本数据对卷积神经网络进行训练；

步骤S1.2、利用训练好的卷积模型对视频数数据提取特征，每个卷积核在输入数据上滑动计算所得的矩阵表示称为一个特征面，多个卷积核进行卷积计算就会产生多个特征面，由多组特征面组合成视频的多维特征，每个特征面之间没有神经元的连接，上一层的特征面输出会送入下一层卷积。

进一步的，所述步骤S3具体包括以下步骤：

S3.1、感知区域划分

首先，注意模型需要框选出待检测区域，根据初始位置信息l₀和输入人脸视频帧的数据表达x，可以框选出以l₀为中心的尺寸为g_w*g_w的方形区域作为当先需要关注的感知区域，可表示为ρ(x,l)，后续的当前时刻观察的区域特征提取便是此方形区域内的信息提取；

S3.2、区域人脸当前时刻观察的区域特征提取

注意模型训练给出初始位置信息l₀，在之后的训练中，不断更新位置信息l_t，由卷积神经网络提取出的感知区域特征信息s_t和其相应的位置信息l_t-1，得到t时刻注意模型的当前时刻观察的区域特征g_t，并作为整个循环网络的输入数据，公式如下：

g_t＝f_g(s_t,l_t-1)

当前时刻观察的区域特征提取过程是关于s和l的一个网络，其中，f_g是视觉感知函数，公式如下：

f_g(h_g,h_l)＝Rect(Linear(h_g)+Linear(h_l))

h_g＝Rect(Linear(ρ(x,l)))

h_l＝Rect(Linear(l))

Rect(x)＝max(x,0)

Linear(x)＝Wx+b

其中，h_l分别是当前观察的特征记忆和位置记忆；W为权重矩阵，b为偏移量；

S3.3、获取局部人脸位置信息

在获取了当前时刻观察的区域特征后，通过连接线性的softmax分类器对当前时刻观察的区域特征作出判断，感知区域知否存在人脸，若softmax分类器成功获取人脸，则停止感知，并输出当前人脸的位置信息和局部人脸特征，若softmax分类器没有成功获取人脸，则进行下一步的位置更新，位置更新网络的输出被定义为：

f_l(h_t)＝Linear(h_t)

并且，成功获取人脸会给出奖励，定为1，若没有成功获取人脸则奖励为0，其他时间的奖励都设为0。

进一步的，注意模型将视觉处理作为目标引导序列决策的过程，所述循环网络给序列决策提供连续人脸视频帧的时间信息，而所述序列决策的过程采用的是马尔可夫决策过程进行过程监督。

进一步的，所述步骤S4具体包括以下步骤：

步骤S4.1、获取步骤S3中的局部人脸特征；

步骤S4.2、通过注意模型提取后的局部人脸特征记作X＝[x₁,x₂,···,x_N]，Q学习网络在t时刻的状态记为s_t，到达下一个状态s_t+1采取的动作记为a_t，其中，动作集由抛弃和保留两个动作构成，状态集包括终止和抛弃低质量帧后的剩余状态，在执行动作后进入下一个状态时，会给出相应的奖励值r_t，其中，从时间t开始到时间T结束时，其奖赏之和定义为R_t：

在Q学习中定义了新的概念策略π，其表示在t时刻处于s_t状态下，选择a_t动作的概率，表示为：

π(a|s)＝p(A_t＝a|S_t＝s)

当给定一个策略后，会产生一个马尔可夫决策过程的运动轨迹，记为：

τ＝s₀,a₀,s₁,r₁,a₁,...,s_T-1,a_T-1,s_T,r_T

根据选择动作的不同会得到不同的策略，使得值函数最大的策略称为最优策略，定义为：

π*表示最优策略，s表示状态，a表示状态s下选择的动作；

此时由CNN逼近的状态动作值函数可表示为：

通过状态动作值函数和奖赏进行算法迭代，迭代公式记为：

其中，s_t表示t时刻的状态，a_t表示在状态s_t时采取的动作，s_t+1表示在s_t状态下采取动作a_t说到达的状态，根据上述公式对状态动作值函数进行更新，在Q学习网络训练时，通过网络Q值间的均方误差更新网络权重，则误差函数可定义为：

其中s_t+1，a_t+1是下一时刻的状态和动作，由最优策略训练得到的帧序列为视频的最佳帧序列。

进一步的，所述步骤S5中，视频匹配度采用余弦相似度方法进行测量，所述余弦相似度方法的定义公式如下：

Sim(X^A,X^B)＝cos(d^A,d^B)

其中，X^A和X^B分别为需要进行识别匹配的两个原始输入帧集，而d^A和d^B为特征表达与权重的乘积和与特征表达总和的比值，公式如下：

其中，a_i表示第i帧的特征表达，φ_i为对应a_i的注意权重。

与现有技术相比，本发明的有益效果为：

(1)Q学习方法使识别的特征聚焦在人脸区域，并对低质量的视频帧进行剔除。同时根据注意模型中的循环神经网络对时间维度信息进行捕捉和利用，弥补剔除低质量帧时特征空间信息的缺失。此外，采用深度CNN网络提取视频的特征向量，替代Q学习离散表格形式的状态表达，可为Q学习提供连续状态空间的输入。

(2)本发明是一种结合深度Q学习和注意模型的视频人脸识别方法，实现视频人脸识别，解决视频人脸匹配精度不足的技术问题。本发明使用卷积神经网络进行特征提取，可以很好地训练出视频的多维特征，为后续的数据加工和筛选提供了基础；同时，利用注意模型对卷积网络提取的特征做加工处理，由注意模型中的循环网络提供时间连续性信息，分析出视频中的局部人脸区域及其特征信息，由此可以剔除大量的无效背景信息，将训练的重点聚焦在人脸区域；利用Q学习对人脸区域进行决策筛选，分析出最佳的视频帧序列，剔除模糊帧等冗余信息；最后利用余弦相似度的计算方式给出匹配结果，在确保匹配精度的同时，提高了识别的速度。

附图说明

图1是本发明的总的流程图；

图2是本发明实施例的卷积神经网络提取特征模型示意图；

图3是本发明实施例的注意模型示意图；

图4是本发明实施例中视频人脸识别的框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例

结合深度Q学习和注意模型的视频人脸识别方法，如图1所示，具体包括以下步骤：

步骤S1：视频特征提取：采用卷积神经网络(Convolutional Neural Networks,CNN)训练视频数据，提取出不同的特征面，组合成视频的多维度特征。

所述步骤S1中，利用带标签的视频样本数据对卷积神经网络进行训练，利用训练好的卷积模型对视频数数据提取特征，每个卷积核在输入数据上滑动计算所得的矩阵表示称为一个特征面，多个卷积核进行卷积计算就会产生多个特征面，由多组特征面组合成视频的多维特征，每个特征面之间没有神经元的连接，上一层的特征面输出会送入下一层卷积，具体方法如下：

采用CNN对输入的视频数据进行特征提取，得到每一帧的当前特征表达，即通过多层卷积后连接到全连接层的输出。所述CNN包括输入层、卷积层、池化层和全连接层。

输入层接收输入的视频帧，将视频帧转换为输入矩阵，并将输入矩阵输出至卷积层。卷积层通过卷积核在输入矩阵上滑动，提取出不同的特征面，最开始的卷积层提取出的特征面比表示的是一些低级特征，如点、线，越往后的卷积层接收上一层提取出的低级特征进行卷积计算，将上一层的低级特征组合成的更复杂的纹理特征，统称为高级特征，也叫深层特征，逐层递进。池化层与卷积层相连，卷积过后图像仍然很大，为了降低数据维度，通过池化层进行下采样，有效地避免了过拟合。

假设视频帧数为N，输入层矩阵表示为X＝[x₁,x₂,···,x_N]，卷积层使用不同卷积核在输入矩阵上滑动，进行卷积操作，提取当前输入视频帧的深层特征，每一层特征面经过下一层任一神经元计算所得输出可表示为：

C＝f(W*X+b)

其中W为权重矩阵，b为偏置，f为激活函数。本发明采用的卷积神经网络的结构是三层，每一层的卷积核大小分别为9*9,4*4,3*3。采用的激活函数f(x_i)是不饱和非线性函数ReLU，其定义为：

卷积层后的池化层采用的是池化核为2*2的最大池化，即取局部接受域中值最大的点。卷积神经网络提取特征模型如图2所示。

步骤S2：视频时间连续性信息提取：将由卷积神经网络提取到的特征作为注意模型的输入，而注意模型的核心是循环神经网络，循环神经网络可以对时间维度的有序序列数据进行建模，通过添加跨越时间点的自连接隐藏层使得网络内部单元间既存在反馈连接又有前馈连接，从而记录动态时间信息，而隐藏层的自连接的输出记为隐藏值，

h_t＝f(Ux_t+Wh_t-1)

其中，U为从输入层连接到隐藏层权重，W为从隐藏层连接到自身的权重。注意模型将从卷积神经网络获取的当前视频帧的特征和上一层隐藏层的输出存储在隐藏记忆单元。需要说明的是，隐藏记忆单元是像输入数据X＝[x1,x2,…,xN]一样的一种数据存储用的空间，用于存储每一个隐藏层的输出，做的是一个历史记录，因为之后的隐藏层是需要前面隐藏层的输出做输入参数的，保证对时间序列上的信息的感知能力中。当前时刻的隐藏值作为调整下一时刻注意模型的输入，因此，其隐藏层对外的输出可以定义为：

其中，V表示从隐藏层连接到输出的权重；为激活函数，本发明选的是softmax函数，上述输出公式根据公式带入推到可以展开为如下公式：

以此类推，通过这种递归的方式可以整合整个时间轴上的信息，并做长时间步的信息规划。通过循环网络整合得到的附有时间信息的特征和隐藏值存储在隐藏记忆单元中，使得训练注意模型时调取其中数据能够整合先前时间轴上的特征信息，为步骤S3的人脸定位做准备。

步骤S3：局部人脸定位：注意模型训练前先给出初始位置信息l₀，注意模型的目的是将网络的关注窗口聚焦在需要关注的重点区域，那么这个区域在一开始没有训练时是不知道重点区域的坐标信息的，因此会事先给出一个初始位置信息，在后续训练时会更新位置信息一步步靠近需要关注的区域，在模型训练过程中，通过由卷积网络提取的当前视频帧的特征和上一时刻的位置信息，计算出当前时刻观察的区域特征，又称为感知信息，将其输入注意模型，通过注意模型训练不断更新位置信息l_t。

注意模型是将视觉处理问题看成是一个控制问题，是一个目标引导序列决策的过程，上述的循环网络是为了给序列决策提供连续人脸视频帧的时间信息，而决策的过程采用的是马尔可夫决策过程进行过程监督，整个注意模型如图3所示。

其中，当前时刻观察的区域特征，即感知信息是为了给注意模型提供观测区域，在当前输入的视频帧画面里，在某一时刻只对当前观测区域进行监测，判断该区域与人脸特征的匹配度，根据匹配结果进行下一区域即位置信息的选择，并根据匹配结果好坏给出奖赏反馈r，通过马尔可夫决策过程的原理，奖赏反馈r将参与决定下步动作的选择。

需要说明的是，上述步骤S3的具体步骤为：

步骤S3-1：感知区域划分

首先，注意模型需要框选出待检测区域，即感知区。根据事先给出的初始位置信息l₀，和输入人脸视频帧的数据表达x，可以框选出以l₀为中心的尺寸为g_w*g_w的方形区域作为当先需要关注的感知区域，可表示为ρ(x,l)，后续的感知信息提取便是此方形区域内的信息提取。

步骤S3-2：区域人脸感知信息提取

注意模型训练前先给出初始位置信息l₀，在之后的训练中，会不断更新位置信息l_t。由卷积神经网络提取出的感知区域特征信息s_t和其相应的位置信息l_t-1，可以得到t时刻注意模型的感知信息g_t，并作为整个循环网络的部分输入数据，公式如下：

g_t＝f_g(s_t,l_t-1)

需要说明的是，f_g(s_t,l_t-1)和f_g(h_g,h_l)是一个函数体系，其中h_g，h_l都是关于x和l的函数，f_g只不过将变量进行了替代，根据下面给出的公式层层带入，就可以得出f_g关于x和l的函数表达)

感知信息提取过程是关于s和l的一个网络，其中，f_g是视觉感知函数，公式如下：

f_g(h_g,h_l)＝Rect(Linear(h_g)+Linear(h_l))

h_g＝Rect(Linear(ρ(x,l)))

h_l＝Rect(Linear(l))

Rect(x)＝max(x,0)

Linear(x)＝Wx+b

公式中，h_g，h_l分别是当前观察的特征记忆和位置记忆；W为权重矩阵，b为偏移量；

步骤S3-3：获取局部人脸位置信息

在获取了感知信息后，需要对感知信息作出判断，感知区域知否存在人脸，因此需要做一个二分类，判断是或者不是，因此需要连接一个线性的softmax分类器进行判决，根据判定的结果决定是否停止感知，若分类成功获取人脸，则停止感知，并输出当前人脸的位置信息和局部人脸特征，若分类没有成功获取人脸，则进行下一步的位置更新，位置更新网络的输出被定义为：

f_l(h_t)＝Linear(h_t)

与此同时，若成功获取人脸会给出奖励，定为1，若没有成功获取人脸则奖励为0，其他时间的奖励都设为0。

构建好的注意模型如图3。

步骤S4：视频最佳帧序列排序：将已经提炼出来的局部人脸特征作为状态输入，通过Q学习训练得出对应状态和动作对的值函数。同时，为了降低样本关联性，将Q学习训练中所得到的转移样本，包括{s,a,r,s′}保存到样本池，下一次训练时从样本池中抽取部分样本。训练到达终止状态后，得到一组最优策略，并给出注意力权重。

所述步骤S4中，获取步骤S3中的局部人脸特征，采用Q学习的方法训练得出视频中的最优帧序列。

通过注意模型提取后的局部人脸特征记作X＝[x₁,x₂,···,x_N]，Q学习网络在t时刻的状态记为s_t，到达下一个状态s_t+1采取的动作记为a_t。其中，动作集由抛弃和保留两个动作构成。状态集包括终止(找到合适的帧集合或仅剩最后一对帧信息)和抛弃低质量帧后的剩余状态。在执行动作后进入下一个状态时，会给出相应的奖励值r_t，作为后续计算值函数的参数。其中，从时间t开始到时间T结束时，其奖赏之和定义为R_t：

在Q学习中定义了新的概念策略π，其表示在t时刻处于s_t状态下，选择a_t动作的概率，可表示为：

π(a|s)＝p(A_t＝a|S_t＝s)

因此，当给定一个策略后，会产生一个马尔可夫决策过程的运动轨迹，记为：

τ＝s₀,a₀,s₁,r₁,a₁,...,s_T-1,a_T-1,s_T,r_T

π*表示最优策略，s表示状态，a表示状态s下选择的动作。

此时由CNN逼近的状态动作值函数可表示为：

通过状态动作值函数和奖赏进行算法迭代，迭代公式记为

其中，s_t表示t时刻的状态，a_t表示在状态s_t时采取的动作，s_t+1表示在s_t状态下采取动作a_t说到达的状态。根据上述公式可以对状态动作值函数进行更新。在Q学习网络训练时，通过网络Q值间的均方误差更新网络权重，则误差函数可定义为

其中s_t+1，a_t+1是下一时刻的状态和动作。由最优策略训练得到的帧序列为视频最佳帧序列。

由以上步骤S1-S4的四个步骤组成的视频人脸识别的框架如图4所示。

步骤S5：视频人脸识别匹配：采用余弦相似度方法对视频人脸匹配度进行测量，计算由注意模型定位得到的人脸特征与注意权重的乘积和与特征表达总和的比值，该比值越小，表示匹配度越低，即视频间差距越大。

步骤S5中利用步骤S4得到的序列采用余弦相似度的方法进行视频对的测量，完成最终的匹配。

视频匹配度由视频相似度进行测量，最常见的余弦相似度方法是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。因此，该方法更加注重两个向量在方向上的差异，更加符合视频数据多样化、特征多维度的特点，定义公式：

Sim(X^A,X^B)＝cos(d^A,d^B)

其中X^A和X^B分别为需要进行识别匹配的两个原始输入帧集，而d^A和d^B为特征表达与权重的乘积和与特征表达总和的比值，见公式：

其中，a_i表示第i帧的特征表达，φ_i为对应a_i的注意权重。由公式可知，余弦值越小，表示匹配度越低，即视频间差距越大。通过排序将匹配度最高的视频输出。

Q学习方法使识别的特征聚焦在人脸区域，并对低质量的视频帧进行剔除。同时根据注意模型中的循环神经网络对时间维度信息进行捕捉和利用，弥补剔除低质量帧时特征空间信息的缺失。此外，采用深度CNN网络提取视频的特征向量，替代Q学习离散表格形式的状态表达，为Q学习提供连续状态空间的输入。

以上所述仅为本发明的优选实施方式，用以说明本发明的技术方案，而非对其限制；应当指出：对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种结合深度Q学习和注意模型的视频人脸识别方法，其特征在于，具体包括以下步骤：

h_t＝f(Ux_t+Wh_t-1)

2.一种结合深度Q学习和注意模型的视频人脸识别方法，其特征在于，所述步骤S1的具体步骤为：

3.一种结合深度Q学习和注意模型的视频人脸识别方法，其特征在于，所述步骤S3具体包括以下步骤：

S3.1、感知区域划分

S3.2、区域人脸当前时刻观察的区域特征提取

g_t＝f_g(s_t,l_t-1)

f_g(h_g,h_l)＝Rect(Linear(h_g)+Linear(h_l))

h_g＝Rect(Linear(ρ(x,l)))

h_l＝Rect(Linear(l))

Rect(x)＝max(x,0)

Linear(x)＝Wx+b

S3.3、获取局部人脸位置信息

f_l(h_t)＝Linear(h_t)

4.一种结合深度Q学习和注意模型的视频人脸识别方法，其特征在于，注意模型将视觉处理作为目标引导序列决策的过程，所述循环网络给序列决策提供连续人脸视频帧的时间信息，而所述序列决策的过程采用的是马尔可夫决策过程进行过程监督。

5.一种结合深度Q学习和注意模型的视频人脸识别方法，其特征在于，所述步骤S4具体包括以下步骤：

步骤S4.1、获取步骤S3中的局部人脸特征；

π(a|s)＝p(A_t＝a|S_t＝s)

τ＝s₀,a₀,s₁,r₁,a₁,...,s_T-1,a_T-1,s_T,r_T

π*表示最优策略，s表示状态，a表示状态s下选择的动作；

此时由CNN逼近的状态动作值函数可表示为：

通过状态动作值函数和奖赏进行算法迭代，迭代公式记为：

6.一种结合深度Q学习和注意模型的视频人脸识别方法，其特征在于，所述步骤S5中，视频匹配度采用余弦相似度方法进行测量，所述余弦相似度方法的定义公式如下：

Sim(X^A,X^B)＝cos(d^A,d^B)

其中，a_i表示第i帧的特征表达，φ_i为对应a_i的注意权重。