CN113743379A

CN113743379A - 一种多模态特征的轻量活体识别方法、系统、装置和介质

Info

Publication number: CN113743379A
Application number: CN202111291734.6A
Authority: CN
Inventors: 李来; 王东; 王月平
Original assignee: Hangzhou Moredian Technology Co ltd
Current assignee: Hangzhou Moredian Technology Co ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2021-12-03
Anticipated expiration: 2041-11-03
Also published as: CN113743379B

Abstract

本申请涉及一种多模态特征的轻量活体识别方法、系统、装置和介质，其中，该方法包括：获取训练图像数据，通过预设残差结构的轻量注意力模块搭建基础主干网络，根据训练图像数据的模态数据和基础主干网络构建得到若干模态分支，进而构建得到多模态分支网络，通过损失函数完成模型的训练，根据预设业务需求，从训练好的多模态分支网络中选择需要的模态分支进行部署，得到预设多模态分支网络，并通过预设多模态分支网络进行活体识别，解决了边缘设备的活体识别准确率低、效率差和部署不灵活的问题，实现了网络结构轻量化、多模态与多尺度数据输入、高层语义特征融合、可拆分部署，提升边缘设备的推理精度和效率，高效灵活。

Description

一种多模态特征的轻量活体识别方法、系统、装置和介质

技术领域

本申请涉及活体识别技术领域，特别是涉及一种多模态特征的轻量活体识别方法、系统、装置和介质。

背景技术

在实际场景中，因为用于活体识别的边缘设备有着功耗和成本要求，基于多特征输入和复杂算法的活体识别模型一般无法应用在边缘设备上，而边缘设备由于其低算力、低功耗和微型便携，大多只支持采集捕获一种或少数几种模态类型图像数据，这就会导致采集的图像模态类型偏少，即关键细节信息会缺失，使得活体识别准确率低，同时也需要根据采集的图像模态类型，训练不同的活体算法，不能做到一次训练多端部署，效率较低；而且若是边缘设备上部署的活体识别算法的复杂度高，实时性就难以保证，同时在考勤或打卡等实际场景中，物体一般处于移动状态，导致人脸尺度多样化，通常的活体算法仅适应单尺度人脸，泛化能力不强。

目前针对相关技术中边缘设备的活体识别准确率低、效率差和部署不灵活的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种多模态特征的轻量活体识别方法、系统、装置和介质，以至少解决相关技术中边缘设备的活体识别准确率低、效率差和部署不灵活的问题。

第一方面，本申请实施例提供了一种多模态特征的轻量活体识别方法，所述方法包括：

获取训练图像数据，所述训练图像数据包含RGB模态数据、IR红外模态数据和Depth深度模态数据；

通过预设残差结构的轻量注意力模块搭建基础主干网络；

根据所述训练图像数据的每种模态数据和所述基础主干网络构建得到若干模态分支，其中，所述模态分支包括融合模态分支和若干基础模态分支；

通过第一损失函数分别计算出所述模态分支的第一损失值，通过第二损失函数计算出多模态分支网络的第二损失值，根据所述第一损失值和所述第二损失值完成所述多模态分支网络的训练，其中，所述多模态分支网络中包含所有的所述模态分支；

根据预设业务需求，从训练好的所述多模态分支网络中选择需要的模态分支进行部署，得到预设多模态分支网络，并通过所述预设多模态分支网络进行活体识别。

在其中一些实施例中，通过预设残差结构的轻量注意力模块搭建基础主干网络包括：

通过残差结构为

的轻量注意力模块搭建基础主干网络，其中，x为所述轻量注意力模块的输入，o为所述轻量注意力模块的输出，

为同位元素的乘积，

为x的高维卷积空间特征，

为高维卷积空间特征的注意力权重。

在其中一些实施例中，根据所述训练图像数据的每种模态数据和所述基础主干网络构建得到若干模态分支包括：

根据所述RGB模态数据和所述基础主干网络构建RGB基础模态分支，根据所述IR模态数据和所述基础主干网络构建IR基础模态分支，根据所述Depth模态数据和所述基础主干网络构建Depth基础模态分支；

对所述RGB基础模态分支、所述IR基础模态分支和所述Depth基础模态分支进行深层特征融合，得到融合模态分支。

在其中一些实施例中，通过第一损失函数分别计算出所述模态分支的第一损失值包括：

通过第一损失函数

计算出所述基础模态分支和所述融合模态分支的第一损失值，其中，k为预测类别数，m和n为类别索引，y_m为真实类别标签，p为模态分支的预测得分。

在其中一些实施例中，通过第二损失函数计算出多模态分支网络的第二损失值包括：

多模态分支网络中包含RGB基础模态分支、IR基础模态分支、Depth基础模态分支和融合模态分支；

通过第二损失函数

计算出所述多模态分支网络的第二损失值，其中，

为多模态分支网络的第二损失值，

为惩罚权重系数，K为基础模态分支数目，

为融合模态分支的第一损失值，

为基础模态分支的第一损失值，i为基础模态分支索引。

在其中一些实施例中，获取训练图像数据包括：

根据预设缩放系数集中的缩放系数，对固定尺度的预设人脸检测框进行缩放，得到若干缩放人脸检测框；

通过所述缩放人脸检测框，获取不同尺度的训练图像数据。

在其中一些实施例中，根据预设业务需求，从训练好的所述多模态分支网络中选择需要的模态分支进行部署，得到预设多模态分支网络包括：

根据预设业务需求，从训练好的所述多模态分支网络中选择需要的模态分支按公式

进行部署，得到预设多模态分支网络，其中，y为基础模态分支的输出结果，

为融合模态分支的输出结果，

为输出分支的权重系数。

第二方面，本申请实施例提供了一种多模态特征的轻量活体识别系统，所述系统包括数据采集单元、模型训练单元和配置识别单元；

所述数据采集单元获取训练图像数据，所述训练图像数据包含RGB模态数据、IR红外模态数据和Depth深度模态数据；

所述模型训练单元通过预设残差结构的轻量注意力模块搭建基础主干网络；

所述模型训练单元根据所述训练图像数据的每种模态数据和所述基础主干网络构建得到若干模态分支，其中，所述模态分支包括融合模态分支和若干基础模态分支；

所述模型训练单元通过第一损失函数分别计算出所述模态分支的第一损失值，通过第二损失函数计算出所述多模态分支网络的第二损失值，根据所述第一损失值和所述第二损失值完成所述多模态分支网络的训练，其中，所述多模态分支网络中包含所有的所述模态分支；

所述配置识别单元根据预设业务需求，从训练好的所述多模态分支网络中选择需要的模态分支进行部署，得到预设多模态分支网络，并通过所述预设多模态分支网络进行活体识别。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的多模态特征的轻量活体识别方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的多模态特征的轻量活体识别方法。

相比于相关技术，本申请实施例提供的一种多模态特征的轻量活体识别方法、系统、装置和介质，获取训练图像数据，通过预设残差结构的轻量注意力模块搭建基础主干网络，根据训练图像数据的每种模态数据和基础主干网络构建得到若干模态分支，通过第一损失函数分别计算出模态分支的第一损失值，通过第二损失函数计算出多模态分支网络的第二损失值，根据第一损失值和第二损失值完成多模态分支网络的训练，根据预设业务需求，从训练好的多模态分支网络中选择需要的模态分支进行部署，得到预设多模态分支网络，并通过预设多模态分支网络进行活体识别，解决了边缘设备的活体识别准确率低和效率差的问题，实现了多模态特征深层融合输入，强化网络表征能力，提升边缘设备的推理精度和效率，可拆分模型部署，高效灵活。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的多模态特征的轻量活体识别方法的步骤流程图；

图2是该轻量注意力模块的结构示意图；

图3是构建得到的若干模态分支的示意图；

图4是多尺度缩放获取训练输入图像的示意图；

图5是根据预设业务进行多模态分支网络部署的示意图；

图6是根据本申请实施例的多模态特征的轻量活体识别系统的结构框图；

图7是根据本申请实施例的电子设备的内部结构示意图。

附图说明：61、数据采集单元；62、模型训练单元；63、配置识别单元。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

实施例1

本申请实施例提供了一种多模态特征的轻量活体识别方法，图1是根据本申请实施例的多模态特征的轻量活体识别方法的步骤流程图，如图1所示，该方法包括以下步骤：

步骤S102，获取训练图像数据，训练图像数据包含RGB模态数据、IR红外模态数据和Depth深度模态数据；

具体地，从活体识别开源数据集中获取训练图像数据，活体识别开源数据集包含的数据模态类型丰富，其中，RGB、IR（Infrared Radiation）、Depth三种数据模态类型的数据比较常用于活体识别，由于在RGB成像中，真假活体的傅里叶频谱不同；在IR成像中，基于皮肤和其他材质在光谱反射率上的差异可以有效防止伪造人脸攻击，如IR不对电子设备中的人脸成像；在Depth成像中，活体深度图充实、平滑、连续，而假体深度图毛刺不连续，此外，训练图像数据也可以包含其他能识别活体的数据。以开源数据作为训练数据，可以降低数据采集的压力。

步骤S104，通过预设残差结构的轻量注意力模块搭建基础主干网络；

步骤S106，根据训练图像数据的每种模态数据和基础主干网络构建得到若干模态分支，其中，模态分支包括融合模态分支和若干基础模态分支；

步骤S108，通过第一损失函数分别计算出模态分支的第一损失值，通过第二损失函数计算出多模态分支网络的第二损失值，根据第一损失值和第二损失值完成多模态分支网络的训练，其中，多模态分支网络中包含所有的模态分支；

步骤S110，根据预设业务需求，从训练好的多模态分支网络中选择需要的模态分支进行部署，得到预设多模态分支网络，并通过预设多模态分支网络进行活体识别。

通过本申请实施例中的步骤S102至步骤S110，解决了边缘设备的活体识别准确率低、效率差和部署不灵活的问题，实现了网络结构轻量化、多模态与多尺度数据输入、高层语义特征融合、可拆分部署，提升边缘设备的推理精度和效率，高效灵活。

在其中一些实施例中，步骤S104，通过预设残差结构的轻量注意力模块搭建基础主干网络包括：

通过残差结构为

的轻量注意力模块搭建基础主干网络，其中，x为轻量注意力模块的输入，o为轻量注意力模块的输出，

为同位元素的乘积，

为x的高维卷积空间特征，

为高维卷积空间特征的注意力权重。

具体地，设计一种新的轻量注意力模块，图2是该轻量注意力模块的结构示意图，该轻量注意力模块采用残差结构

，既可以保持模型的轻量，又可以使用注意力机制关注学习图像中的真假细节信息，提升小模型的判别精度，其中，该残差结构中的x为轻量注意力模块的输入，o为轻量注意力模块的输出，

为同位元素的乘积（element-wise乘积），

表示将x投影到高维卷积空间，

表示对高维卷积空间的特征计算注意力权重，

表示将计算注意力权重作用于高维卷积空间。

通过该残差结构

的轻量注意力模块搭建基础主干网络。

在其中一些实施例中，步骤S106，根据训练图像数据的每种模态数据和基础主干网络构建得到若干模态分支包括：

根据RGB模态数据和基础主干网络构建RGB基础模态分支，根据IR模态数据和基础主干网络构建IR基础模态分支，根据Depth模态数据和基础主干网络构建Depth基础模态分支；

对RGB基础模态分支、IR基础模态分支和Depth基础模态分支进行深层特征融合，得到融合模态分支。

具体地，图3是构建得到的若干模态分支的示意图，如图3所示，图中的RGB为RGB模态数据，IR为IR模态数据，Depth为Depth模态数据，融合为深层特征融合数据，网络为基于基础主干网络的多层网络，

根据RGB模态数据和基于基础主干网络的多层网络构建RGB基础模态分支；

根据IR模态数据和基于基础主干网络的多层网络构建IR基础模态分支；

根据Depth模态数据和基于基础主干网络的多层网络构建Depth基础模态分支；

对RGB基础模态分支、IR基础模态分支和Depth基础模态分支进行深层特征融合，得到融合模态分支。需要说明的是，深层网络提取的是高层的语义信息，表达的语义信息是一致的，此处的深层特征即为深层网络提取的特征，融合后可以充分利用不同输入提取到的信息，同时降低网络的训练难度。

在其中一些实施例中，步骤S108，通过第一损失函数分别计算出模态分支的第一损失值包括：

通过第一损失函数

计算出基础模态分支和融合模态分支的第一损失值，其中，k为预测类别数，m和n为类别索引，y_m为真实类别标签，p 为模态分支的预测得分，进一步地，在本实施例中，k为预测类别数（取值为2），即活体数据分为真假两类；m和n为类别索引，取值范围为1到k；y_m为真实类别标签，即当前图像数据的真实标签（真活体取值为1，假活体取值为零0）。

在其中一些实施例中，步骤S108，通过第二损失函数计算出多模态分支网络的第二损失值包括：

多模态分支网络中包含RGB基础模态分支、IR基础模态分支、Depth基础模态分支和融合模态分支

通过第二损失函数

计算出多模态分支网络的第二损失值，其中，

为多模态分支网络的第二损失值，

为惩罚权重系数，用以平衡所述各模态分支的损失贡献程度，K为基础模态分支数目，

为融合模态分支的第一损失值，

为基础模态分支的第一损失值，i为基础模态分支索引，进一步地，在本实施例中，基础模态分支有RGB，IR，Depth三种，即K设置为3。

在其中一些实施例中，步骤S102，获取训练图像数据包括：

通过缩放人脸检测框，获取不同尺度的训练图像数据。

具体地，设置固定尺度的人脸检测框，宽高分别记为：

和

；

设置缩放系数集，以0.2为步长，从0.8-2.0中均匀间隔抽样，即缩放系数集记为

；

从缩放系数集中随机取样作为系数，通过缩放公式

和

对人脸检测框的宽高进行缩放；

图4是多尺度缩放获取训练输入图像的示意图，如图4所示，通过截取缩放后的人脸检测框，获取不同尺度的训练图像数据。

模拟由远及近的运动过程中人脸尺度的多样性，实现了测试数据分布与训练数据分布的一致，解决了通过单一尺度人脸进行训练的算法鲁棒性低的问题。

在其中一些实施例中，步骤S110，根据预设业务需求，从训练好的多模态分支网络中选择需要的模态分支进行部署，得到预设多模态分支网络包括：

根据预设业务需求，从训练好的多模态分支网络中选择需要的模态分支按公式

为融合模态分支的输出结果，

为输出分支的权重系数，用以调控所选预设基础模态分支和融合模态分支输出结果的可靠程度。

具体地，不同边缘设备的采集图像模态类型不完全相同，针对每种设备单独训练一个模型耗时耗力。在本实施例中可以依据设备输入进行灵活部署。

需要说明的是，由于在步骤S108中是通过第一损失函数和第二损失函数分别对若干模态分支进行反向传播更新的。在边缘设备中进行部署时，不需要对选择得到的模态分支的参数进行重新训练调整。输出分支的权重系数

可以根据步骤S108中训练出来的各个模态分支的可靠度进行设置。

图5是根据预设业务进行多模态分支网络部署的示意图，如图5所示，训练好的多模态分支网络包括三模态分支输入（RGB输入、IR输入和Depth输入）四模态分支输出（RGB输出、IR输出、Depth输出和融合输出）；

设置在边缘设备上部署Depth模态分支和融合模态分支的业务需求；

根据该业务需求，从训练好的多模态分支网络中选择出Depth模态分支和融合模态分支；

按公式

进行部署，得到预设多模态分支网络，其中，y为 Depth模态分支的输出结果，

为融合模态分支的输出结果，

为输出分支的权重系数。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例提供了一种多模态特征的轻量活体识别系统，图6是根据本申请实施例的多模态特征的轻量活体识别系统的结构框图，如图6所示，该系统包括数据采集单元61、模型训练单元62和配置识别单元63；

数据采集单元61获取训练图像数据，训练图像数据包含RGB模态数据、IR红外模态数据和Depth深度模态数据；

模型训练单元62通过预设残差结构的轻量注意力模块搭建基础主干网络；

模型训练单元62根据训练图像数据的每种模态数据和基础主干网络构建得到若干模态分支，其中，模态分支包括融合模态分支和若干基础模态分支；

模型训练单元62通过第一损失函数分别计算出模态分支的第一损失值，通过第二损失函数计算出多模态分支网络的第二损失值，根据第一损失值和第二损失值完成多模态分支网络的训练，其中，多模态分支网络中包含所有的模态分支；

配置识别单元63根据预设业务需求，从训练好的多模态分支网络中选择需要的模态分支进行部署，得到预设多模态分支网络，并通过预设多模态分支网络进行活体识别。

通过本申请实施例中的数据采集单元61、模型训练单元62和配置识别单元63，解决了边缘设备的活体识别准确率低、效率差和部署不灵活的问题，实现了网络结构轻量化、多模态与多尺度数据输入、高层语义特征融合、可拆分部署，提升边缘设备的推理精度和效率，高效灵活。

需要说明的是，上述各个单元可以是功能单元也可以是程序单元，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的单元而言，上述各个单元可以位于同一处理器中；或者上述各个单元还可以按照任意组合的形式分别位于不同的处理器中。

实施例3

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的多模态特征的轻量活体识别方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种多模态特征的轻量活体识别方法。

实施例4

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态特征的轻量活体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图7是根据本申请实施例的电子设备的内部结构示意图，如图7所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图7所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种多模态特征的轻量活体识别方法，数据库用于存储数据。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。