CN113239866B

CN113239866B - 一种时空特征融合与样本注意增强的人脸识别方法及系统

Info

Publication number: CN113239866B
Application number: CN202110603019.5A
Authority: CN
Inventors: 刘芳; 李玲玲; 任保家; 黄欣研; 李鹏芳; 杨苗苗; 李硕; 刘旭
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-12-13
Anticipated expiration: 2041-05-31
Also published as: CN113239866A

Abstract

本发明公开了一种基于时空特征融合与样本注意增强的人脸识别方法及系统，通过人脸检测得到视频中特定目标人脸序列并对其进行评分；使用时间序列处理算法ConvGRU对人脸序列进行时间特征提取；从人脸序列中选出分数最高的图像作为关键帧；送入到Resnet50网络中提取出三种不同深度的特征图，使用空间特征融合算法ASFF计算得到空间特征；最后，将上述得到的时间特征和空间特征在通道维度上拼接后送入全局平均池化层和全连接层，使用提出的ADAM‑Softmax损失函数对模型进行训练；由于ADAM‑Softmax损失函数能够自适应增强对类内差异性较大样本的注意，从而使得模型在快速收敛同时也能达到较高识别准确率。

Description

一种时空特征融合与样本注意增强的人脸识别方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于时空特征融合与样本注意增强的人脸识别方法及系统。

背景技术

近年来，借助深度学习技术的飞速发展，基于静态图像的人脸识别技术取得了长足的进步。这得益于不断更新换代的先进神经网络架构和科研工作者在特征提取理论上的坚持不懈的付出。基于静态图像的人脸识别技术的进步也推动着相关的应用产品的成功落地，依托CNN网络的强大的特征提取能力和轻量化神经网络的实时性能，人脸识别已经在校园安全、生活服务等领域取得了较为不错的成果。

但是，基于静态图像的人脸识别技术的缺点也很明显，类似于分布式网络通信中的单点故障问题，基于静态图像的人脸识别算法性能非常的依赖于输入图像的质量。快速、准确的识别要求输入图像清晰、光照均匀、人的姿态不能有大幅度的偏转、人脸的关键部位不能有遮挡物等等。但是在实际的应用中，尤其是视频监控场景中，被识别的对象或者目标通常是无感知的，而且出现在视频中的时间和空间都有一定的随机性。无法保障捕获的图像完全符合基于静态图像的人脸识别的技术要求。因此，将静态人脸识别技术直接应用到视频监控场景中势必会导致识别准确率的降低，给应用落地带来了一定的挑战。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供基于时空特征融合与样本注意增强的人脸识别方法及系统，通过引入时间序列处理算法ConvGRU和空间特征融合算法ASFF算法来得到鲁棒的时空特征，使得算法在图像质量不佳时也可达到准确进行人脸识别的目的，解决现有的人脸识别方法完全依赖于静态图像的质量的问题。

本发明采用以下技术方案：

一种基于时空特征融合与样本注意增强的人脸识别方法，包括以下步骤：

S1、对输入的视频进行人脸检测，得到特定目标类别的人脸边界框B；

S2、使用步骤S1得到的人脸边界框B从视频中提取人脸序列F，并对人脸序列F进行质量评价得到对应的人脸质量分数S；

S3、使用ConvGRU算法对步骤S2中得到的人脸序列F进行时间维度的特征提取，得到时间维度特征F^T；

S4、根据步骤S2中的人脸质量分数S，选出人脸质量分数最高的人脸f_k作为关键帧；调整尺寸后送入到Resnet50网络中提取特征图；

S5、构造空间特征融合网络ASFF，对步骤S4中得到的特征图进行加权融合操作，得到空间维度特征F^S；

S6、将步骤S3得到的时间维度特征F^T和步骤S5中得到的空间维度特征F^S进行通道间的拼接，进行融合操后得到鲁棒的时空特征；

S7、在训练阶段，使用ADAM-Softmax损失函数对ConvGRU算法、空间特征融合网络ASFF和Resnet50网络构成的人脸识别模型进行调整；在测试阶段，使用步骤S6中得到的鲁棒时空特征进行人脸识别操作。

具体的，步骤S2中，使用评价网络Q得到人脸质量评价分数具体为：

S201、将人脸图像f_i输入到评价网络Q中，依次通过第一卷积层、第一最大池化层、第一BatchNorm层、第二卷积层、第二最大池化层、第二BatchNorm层、第三卷积层、第三最大池化层、第三BatchNorm层和全连接层；得到人脸图像的质量特征；

S202、根据步骤S201得到的人脸图像质量特征，使用sigmoid函数计算质量分数，得到质量分数s_i。

具体的，步骤S3中，使用ConvGRU算法对人脸序列F进行时间维度的特征提取具体为：

S301、计算经过更新门后的临时特征r_t；

S302、计算经过遗忘门后的临时特征z_t；

S303、计算临时隐藏特征

S304、计算当前时刻的隐藏特征h_t；

S305、计算当前时刻的输出o_t；

S306、将步骤S301～步骤S305重复执行n次，n为输出的人脸序列个数；得到时间特征F^T。

具体的，步骤S4中，将关键帧的尺寸调整为112×112×3后送入Resnet50网络中，分别提取出28×28×128，14×14×256，7×7×512大小的特征图。

具体的，步骤S5中，使用空间特征融合网络ASFF对特征图进行加权融合操作具体为：

S501、对尺寸为28×28×128的特征图进行处理，依次通过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层；得到7×7×512的新特征图x¹；

S502、对尺寸为14×14×256的特征图进行处理，依次通过第一卷积层、第一最大池化层，得到7×7×512的新特征图x²；

S503、对尺寸为7×7×512的特征图做恒等变换得到新特征图x³；

S504、分别计算步骤S501、S502和S503得到的新特征图x¹，x²，x³对应的权重α，β，γ；

S505、根据步骤S504得到的权重α，β，γ计算得到空间特征F^S。

具体的，步骤S6具体为：

S601、利用残差块对[F^T,F^S]进行通道间信息融合，将[F^T,F^S]依次通过第一1×1卷积层、第一3×3卷积层、第二1×1卷积层，得到临时特征F′；

S602、对临时特征F′进行全局平均池化操作得到临时特征F′′；

S603、对临时特征F′′使用全连接操作得到512维的特征F^ST。

进一步的，512维的特征F^ST具体为：

其中，Pooling表示全局平均池化操作，W^fc表示最后的全连接层参数。

具体的，步骤S7具体为：

S701、计算样本特征到所有类别的样本中心的余弦相似度；

S702、计算与对应样本余弦相似度得分最大的类别k′；

S703、根据步骤S701得到的余弦相似度和步骤S702得到的类别k′计算自适应间隔值m′；

S704、根据步骤S703得到的自适应间隔值m′计算用于更新网络的损失值L_ADAM-Softmax。

进一步的，步骤S704中，更新网络的损失值L_ADAM-Softmax具体为：

其中，M为样本数量，n为类别数量；s为超参数，

为样本与第y_i类的夹角，θ_j为样本与第j类的夹角。

本发明的另一技术方案是，一种基于时空特征融合与样本注意增强的人脸识别系统，包括：

检测模块，对输入的视频进行人脸检测，得到特定目标类别的人脸边界框B；

评价模块，使用检测模块得到的人脸边界框B从视频中提取人脸序列F，并对人脸序列F进行质量评价得到对应的人脸质量分数S；

时间维度模块，使用ConvGRU算法对评价模块得到的人脸序列F进行时间维度的特征提取，得到时间维度特征F^T；

提取模块，根据评价模块的人脸质量分数S，选出人脸质量分数最高的人脸f_k作为关键帧；并将其尺寸调整为112×112×3后，送入到Resnet50网络中，分别提取出28×28×128，14×14×256，7×7×512大小的特征图；

空间维度模块，构造空间特征融合网络ASFF，对提取模块得到的28×28×128，14×14×256，7×7×512特征图进行加权融合操作，得到空间维度特征F^S；

融合模块，将时间维度模块的时间维度特征F^T和空间维度模块的空间维度特征F^S进行通道间的拼接，进行融合操后得到鲁棒时空特征；

识别模块，在训练阶段，使用ADAM-Softmax损失函数对ConvGRU算法、空间特征融合网络ASFF和Resnet50网络构成的人脸识别模型进行调整；在测试阶段，使用融合模块的鲁棒时空特征进行人脸识别操作。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于时空特征融合与样本注意增强的人脸识别方法，与现有的基于静态图像的人脸识别方法使用静态图像作为输入不同，本发明使用人脸图像序列作为输入进行特征提取；规避因单张图像质量差造成识别准确率降低的问题。首先使用时间序列处理算法ConvGRU从图像序列中提取到时间维度的特征；再从图像序列中选择质量最佳的图像进行空间特征提取；得到三种不同深度的特征，然后利用空间特征融合算法ASFF进行自适应的空间特征融合操作得到空间特征；最后，将时间特征和空间特征在通道维度上拼接后执行进一步的融合操作，得到鲁棒的时空特征用于人脸识别，可以有效的提升视频场景下的识别准确率。

进一步的，使用评价网络Q对从视频中得到的人脸序列F进行人脸质量评价可以对序列中的每张人脸进行定量的评分，有助于从中选取关键帧。

进一步的，使用ConvGRU算法对人脸序列F进行时间维度的特征提取可以充分的利用视频场景中的时间维度特征；将人脸序列输入到更新门和遗忘门后，可以有效的剔除无用信息并最大限度的保留时间维度的关键信息，使得生成的时间维度特征F^T可以有效的应对外部环境的变化和人的姿态变化。

进一步的，从人脸序列中获取关键帧，并将尺寸调整为112×112×3后送入Resnet50网络中，分别提取出28×28×128，14×14×256，7×7×512大小的特征图，从而得到不同层次的空间特征，低层次的特征包含了人脸的轮廓信息，高层次的特征包含了人脸的高级语义信息。

进一步的，使用空间特征融合网络ASFF对特征图进行加权融合操作，可以自适应的对各个层次的特征比例进行调整，保留特征中对人脸识别最有利的信息，避免了因特征的层次单一而导致提取到的特征不稳定的问题。有利于生成鲁棒的空间特征F^S。

进一步的，对时间特征F^T和空间特征F^S进行融合操作，使用全局平均池化操作可以有效的保留不同通道中关键信息，使用全连接层可以按照需求降低特征的维度。最终得到精简的、鲁棒的时空特征F^ST。

进一步的，将特征F^ST的维度设置为512维，即最大限度的保留特征的有效信息，又能充分利用计算机可以进行快速的向量计算的特点，可以快速的进行计算。

进一步的，在计算ADAM-Softmax损失时，使用了自适应的角度间隔m′，训练Resnet50模型时，能够自适应的增强对类内差异性较大的样本的注意，可以充分的适应训练数据的特性。

进一步的，本发明使用ADAM-Softmax损失函数对Resnet50模型进行训练，在有效提升收敛速度的同时，也提升识别准确率。

综上所述，本发明通过对获取的人脸序列进行质量评价并从中获取关键帧，使用ConvGRU算法对人脸序列F进行时间维度的特征提取；使用Resnet50网络从关键帧中提取出三个层次的特征图，并使用ASFF特征融合算法对特征图进行加权融合；再将时间特征和空间特征拼接后进行进一步的融合以得到鲁棒的时空特征；最后采用ADAM-Softmax损失函数对模型进行训练，可以有效的提升收敛速度，并提升人脸识别的准确率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的整体结构图；

图2为质量评价网络结构图；

图3为时间序列处理算法ConvGRU的网络结构图；

图4为空间特征融合算法ASFF的网络结构图；

图5为ADAM-Softmax损失函数工作原理示意图；

图6为本发明提出的方法与现有的几种方法的训练准确率结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于时空特征融合与样本注意增强的人脸识别方法，以人脸图像序列作为输入，并使用质量评价网络Q对每一张图像进行评价打分；利用时间序列处理算法ConvGRU对图像序列进行处理；得到时间维度的特征；从图像序列中选出评分最高的一张图像送入到Resnet50网络中提取三种不同深度的特征图，并利用空间特征融合算法ASFF对这三种特征图进行自适应的加权融合操作。得到空间特征；最后，将上述时间特征和空间特征在通道维度上进行拼接后在进一步的融合，经过全局平局池化层和全连接层后得到512维的鲁棒的特征用于人脸识别。特别的，为了提升模型的训练速度和准确率，本发明使用ADAM-Softmax损失函数对模型进行训练，使得模型在快速收敛的同时。也能达到较高的识别准确率。

请参阅图1，本发明一种基于时空特征融合与样本注意增强的人脸识别方法，包括以下步骤：

人脸边界框B为：

B＝{b₁,b₂,…,b_i,…b_n}

其中，n为视频中特定目标的人脸个数；_i为该目标的第i个人脸的边界框坐标；

人脸序列F＝{f₁,f₂,…,f_i,…f_n}，人脸质量分数S＝{s₁,s₂,…,s_i,…s_n}，f_i为该目标的第i个人脸，s_i是相应的人脸质量分数。

请参阅图2，使用评价网络Q得到人脸质量评价分数具体为：

S3、对步骤S2中得到的人脸序列F进行时间维度的特征提取，得到时间维度的特征，表示为

请参阅图3，使用ConvGRU算法对人脸序列F进行时间维度的特征提取具体为：

S301、计算经过更新门后的临时特征r_t；

使用公式r_t＝σ(W_r★[h_t-1,f_t])计算更新后的临时特征；其中σ是sigmoid函数，★代表卷积操作，[,]表示通道拼接操作，W_r是与该卷积操作对应的卷积核参数，h_t-1是上一时刻的隐藏特征，f_t是输入的人脸图像。

S302、计算经过遗忘门后的临时特征z_t；

使用公式z_t＝σ(W_z★[h_t-1,f_t])计算遗忘后的临时特征；其中σ是sigmoid函数，★代表卷积操作，[,]表示通道拼接操作，W_z是与该卷积操作对应的卷积核参数，h_t-1是上一时刻的隐藏特征，f_t是输入的人脸图像。

S303、计算临时隐藏特征

使用公式

计算临时的隐藏特征；其中

是tanh函数，★代表卷积操作，⊙代表哈达玛积，[,]表示通道拼接操作，

是与该卷积操作对应的卷积核参数，r_t是第1步的输出结果，h_t-1是上一时刻的隐藏特征，f_t是输入的人脸图像。

S304、计算当前时刻的隐藏特征h_t；

使用公式

计算当前时刻的隐藏特征；其中z_t为经过遗忘门后的临时特征，

是临时隐藏特征，⊙代表哈达玛积运算，h_t-1是上一时刻的隐藏特征。

S305、计算当前时刻的输出o_t；

使用公式o_t＝σ(W_o★h_t)计算当前时刻的输出；其中★代表卷积操作，W_o是与该卷积操作对应的卷积核参数，h_t是当前时刻的隐藏特征。

r_t＝σ(W_r★[h_t-1,f_t])

z_t＝σ(W_z★[h_t-1,f_t])

o_t＝σ(W_o★h_t)

F^T＝o_t，t＝n

S4、根据步骤S2中的人脸质量分数S，选出人脸质量分数最高的人脸f_k作为关键帧；并将其尺寸调整为112×112×3后，送入到Resnet50网络中，分别提取出28×28×128，14×14×256，7×7×512大小的特征图；

S5、构造空间特征融合网络ASFF，对步骤S4中得到的28×28×128，14×14×256，7×7×512特征图进行加权融合操作，得到空间维度的特征，表示为

请参阅图4，使用空间特征融合网络ASFF对28×28×128，14×14×256，7×7×512三个特征图进行加权融合操作具体为：

S501、对尺寸为28×28×128的特征图进行处理，依次通过第一卷积层、第一最大池化层、第二卷积层、第二最大池化层；得到7×7×512的新特征图，表示为x¹；

S502、对尺寸为14×14×256的特征图进行处理，依次通过第一卷积层、第一最大池化层，得到7×7×512的新特征图，表示为x²；

S503、对尺寸为7×7×512的特征图做恒等变换，表示为x³；

S504、分别计算对应x¹，x²，x³的权重α，β，γ；

权重α为：

其中，φ₁，φ₂，φ₃分别为对应x¹，x²，x³的1×1的卷积操作。

β，γ的计算方式与α相同，且有

α+β+γ＝1

S505、使用公式F^S＝α·x¹+β·x²+γ·x³进行计算，得到空间特征F^S。

S602、对临时特征F′进行全局平均池化操作得到临时特征F″；

S603、对临时特征F″使用全连接操作，得到512维的特征F^ST。

F′＝Block([F^S,F^T])

F″＝Pooling(F′)

其中，[,]表示通道拼接操作，Pooling表示全局平均池化操作，W^fc表示最后的全连接层参数。

S7、在训练阶段，使用ADAM-Softmax损失函数对ConvGRU算法、空间特征融合网络ASFF和Resnet50网络构成的人脸识别模型进行调整；在测试阶段，使用步骤S6中得到的鲁棒时空特征进行人脸识别操作，如图5所示。

S701、计算样本特征到所有类别的样本中心的余弦相似度；

其中，y是该样本的真实类别，m是一个固定的超参数值，θ_k是样本与第k类的样本中心的夹角。

S702、计算与该样本余弦相似度得分最大的类别k′；

S703、计算自适应间隔值m′；

m′＝m+t·(θ_y+m-arccos(g(θ_k′)))

其中，arccos(g(θ_k′))是g(θ_k′)的反余弦函数；t为超参数，用于控制自适应间隔部分的大小。当g(θ_k′)越大，即样本越难分类时，arccos(gθ_k′))会越小；自适应间隔m′就会越大。反之，自适应间隔就会越小。

S704、计算用于更新网络的损失值L_ADAM-softmax。

其中，M为样本数量，n为类别数量，m′为自适应间隔值；s为超参数，用于控制损失的大小。

本发明再一个实施例中，提供一种基于时空特征融合与样本注意增强的人脸识别系统，该系统能够用于实现上述基于时空特征融合与样本注意增强的人脸识别方法，具体的，该基于时空特征融合与样本注意增强的人脸识别系统包括检测模块、评价模块、时间维度模块、提取模块、间维度模块、融合模块以及识别模块。

其中，检测模块，对输入的视频进行人脸检测，得到特定目标类别的人脸边界框B；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于时空特征融合与样本注意增强的人脸识别方法的操作，包括：

对输入的视频进行人脸检测，得到特定目标类别的人脸边界框B；使用人脸边界框B从视频中提取人脸序列F，并对人脸序列F进行质量评价得到对应的人脸质量分数S；对人脸序列F进行时间维度的特征提取，得到时间维度特征F^T；根据人脸质量分数S，选出人脸质量分数最高的人脸f_k作为关键帧；并将其尺寸调整为112×112×3后，送入到Resnet50网络中，分别提取出28×28×128，14×14×256，7×7×512大小的特征图；构造空间特征融合网络ASFF，对28×28×128，14×14×256，7×7×512特征图进行加权融合操作，得到空间维度特征F^S；将时间维度特征F^T和空间维度特征F^S进行通道间的拼接，进行融合操后得到鲁棒的时空特征；在训练阶段，使用ADAM-Softmax损失函数对ConvGRU算法、空间特征融合网络ASFF和Resnet50网络构成的人脸识别模型进行调整；在测试阶段，使用鲁棒时空特征进行人脸识别操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于时空特征融合与样本注意增强的人脸识别方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的效果可通过以下仿真结果进一步说明

1.仿真条件

本发明仿真的硬件条件为：智能感知与图像理解实验室图形工作站，搭载四块显存为11G的GPU；本发明仿真所使用的数据集为MS1M人脸图像集。数据集包含了约100K个ID，约10M张图片。由于数据集包含的数据为静态图像，我们先进行数据清洗,清理后的数据每个ID平均包含50张图像。并且只使用图像数最高的10000个ID。然后对每个ID构建图像序列。最终，每个ID平均包含了1000个图像序列。我们使用数据集的70％训练，30％测试。

2.仿真内容

利用MS1M数据集，我们就提出的方法和现有的人脸识别方法进行对比，在测试集上的准确率结果见表1。

表1

3.仿真结果分析

请参阅图6，给出了基线网络Resnet50模型、ArcFace模型、CosFace模型、和本发明提出的AdaArcFace模型的训练准确率随着训练代数的变化曲线，可以看出本发明提出的方法在收敛速度上要明显优于其他几种方法，并且在训练集上的准确率也是最高的。表1是以上几种方法在测试集上的分类准确率结果，可以看出本发明提出的方法取得了较好的结果。

综上所述，本发明一种基于时空特征融合与样本注意增强的人脸识别方法及系统，能够有效的利用视频场景中丰富的时间信息和空间信息。通过对人脸序列进行时间特征提取和对关键帧进行空间特征提取，并将二者融合的方式获得鲁棒的时空特征。同时，本发明基于样本注意增强的思想设计了一种自适应间隔的损失函数，可以有效的提升模型的收敛速度和人脸识别准确率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种时空特征融合与样本注意增强的人脸识别方法，其特征在于，包括以下步骤：

S4、根据步骤S2中的人脸质量分数S，选出人脸质量分数最高的人脸f_k作为关键帧；调整尺寸后送入到Resnet50网络中提取特征图，将关键帧的尺寸调整为112×112×3后送入Resnet50网络中，分别提取出28×28×128，14×14×256，7×7×512大小的特征图；

S5、构造空间特征融合网络ASFF，对步骤S4中得到的特征图进行加权融合操作，得到空间维度特征F^S，使用空间特征融合网络ASFF对特征图进行加权融合操作具体为：

S503、对尺寸为7×7×512的特征图做恒等变换得到新特征图x³；

S505、根据步骤S504得到的权重α，β，γ计算得到空间特征F^S；

2.根据权利要求1所述的方法，其特征在于，步骤S2中，使用评价网络Q得到人脸质量评价分数具体为：

3.根据权利要求1所述的方法，其特征在于，步骤S3中，使用ConvGRU算法对人脸序列F进行时间维度的特征提取具体为：

S301、计算经过更新门后的临时特征r_t；

S302、计算经过遗忘门后的临时特征z_t；

S303、计算临时隐藏特征

S304、计算当前时刻的隐藏特征h_t；

S305、计算当前时刻的输出o_t；

4.根据权利要求1所述的方法，其特征在于，步骤S6具体为：

S603、对临时特征F″使用全连接操作得到512维的特征F^ST。

5.根据权利要求4所述的方法，其特征在于，512维的特征F^ST具体为：

其中，W^fc表示最后的全连接层参数。

6.根据权利要求1所述的方法，其特征在于，步骤S7具体为：

S701、计算样本特征到所有类别的样本中心的余弦相似度；

S702、计算与对应样本余弦相似度得分最大的类别k′；

7.根据权利要求6所述的方法，其特征在于，步骤S704中，更新网络的损失值L_ADAM-Softmax具体为：

其中，M为样本数量，n为类别数量；s为超参数，

为样本与第y_i类的夹角，θ_j为样本与第j类的夹角。

8.一种时空特征融合与样本注意增强的人脸识别系统，其特征在于，包括：

空间维度模块，构造空间特征融合网络ASFF，对提取模块得到的28×28×128，14×14×256，7×7×512特征图进行加权融合操作，得到空间维度特征F^S，使用空间特征融合网络ASFF对特征图进行加权融合操作具体为：

S503、对尺寸为7×7×512的特征图做恒等变换得到新特征图x³；