CN113312989B

CN113312989B - 一种基于聚合描述子与注意力的指静脉特征提取网络

Info

Publication number: CN113312989B
Application number: CN202110512291.2A
Authority: CN
Inventors: 康文雄; 涂墨; 黄俊端
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2023-06-20
Anticipated expiration: 2041-05-11
Also published as: CN113312989A

Abstract

本发明提出了一种基于聚合描述子与注意力的指静脉特征提取网络，包括输入端、主干网络模块、描述子聚合与损失模块；所述输入端接收训练/测试静脉图像，并将所述图像转化为张量数据；所述主干网络模块作为静脉网络的特征提取器，接收输入端各个批次的张量数据，然后在网络前向传播的过程中计算出最终的特征图，用于生成全局特征描述子；所述描述子聚合与损失模块包括描述子聚合模块和损失计算模块，本发明在具有精确的认证效果的同时，具有灵活性与可扩展性。

Description

一种基于聚合描述子与注意力的指静脉特征提取网络

技术领域

本发明涉及图像处理技术与生物特征识别领域，更具体地说，涉及一种基于聚合描述子与注意力的指静脉特征提取网络。

背景技术

当今社会正朝着全面移动化、智能化、信息化的形态迅速发展。在人们的日常生活中，需要进行身份认证的场合也变得更加的丰富，例如公共安防、移动支付、网络通信等。与此同时，对于个人安全、便利的身份认证技术的需求也变得愈发紧迫。传统的身份认证方法如智能卡、身份证件、密码等手段难以同时满足个人安全和便利性的需求。此时生物特征识别作为一种新兴的身份认证技术，以其优越的可靠性和便利度，弥补了传统的基于密码学的身份认证方式的缺陷，在智能化场景中为人们的身份认证问题提供了高效且安全的解决方案。

生物特征识别技术可以根据一组可识别和可验证的特征来识别和验证一个人的身份，这些特征专属于个体，具有唯一性。这些特征通常来自于人自身的生理或行为特征，常用的包括人脸、指纹、虹膜、步态、签名、声纹、指静脉等等。

在众多生物特征识别技术中，指静脉识别由于其独特的成像模式成为一种新型、易用、安全同时具有非常广阔发展前景的生物特征识别模态。指静脉图像采集装置利用了活体手指内部血红蛋白细胞和其余组织细胞对特定波长的近红外光的反射率差异来获取指静脉图像，这种成像方式使得获取的手指静脉图像不受皮肤表面褶皱、纹理、粗糙度、干湿度等外部环境因素影响。得益于这种独特的成像方式，指静脉识别技术具有如下特点：1)活体检测2)特征安全3)特征稳定4)用户友好5)部署便利。因此，指静脉这种生物特征模态在近些年得到了越来越多的关注。

文件CN101840511A采用双向特征值加权分块的双向二维主成分分析的方法进行特征提取，文件CN101593275B采用基于谷形区域检测的方法进行静脉特征提取，专利文件CN103870808A采用主分量分析与K均值聚类的方式进行静脉认证，上述三个文件在应对图像质量差异，环境条件变化，手指旋转偏移等多方面鲁棒性不强，存在一定的局限性。

其中，如何从指静脉图像中获取即具有区分度又具有鲁棒性的特征描述通常是整体流程中最为关键的问题。得益于生物识别方法的逐年兴起与指静脉模态的先天优势，指静脉识别与认证任务种的特征提取算法得到了长足的发展。然而，在指静脉识别的整个流程中依然存在着许多亟待解决的问题：在实际应用的场景下，会面对异源传感器、多场景变化等问题，具体表现同一个体在不同设备间、不同光照条件下会呈现不同的图像模式；同时，由于用户的手指在注册和验证过程中自由度较高，手指姿态变化也是一个较为突出的问题，具体表现在旋转过程中静脉纹路发生畸变，边缘静脉纹路消失和新增等。目前在指静脉识别方面的算法大部分是基于传统图像处理方法，根据指静脉的成像模式特征，由人工设计特征描述方法，包括基于全局或局部的纹理模式与细节点特征来对静脉图像进行特征描述。这些方法通常对图像质量差异，环境条件变化，手指旋转偏移等多方面鲁棒性不强，因而存在一定的局限性。为了应对这种方式，目前的研究人员们已经逐步将深度学习方法应用在指静脉识别领域。即使用深度神经网络对指静脉图像进行特征提取。深度学习以其端到端的运行方式，突出的特征提取能力，可以有效缓解传统图像方法表征能力较弱，鲁棒性较差的问题。因此，如何使用基于深度神经网络来解决上述问题，完成高效且准确的手指静脉身份认证任务将成为研究的关键。

发明内容

为了解决上述问题，本发明提出一种基于聚合描述子与注意力的指静脉特征提取网络。

本发明至少通过如下技术方案之一实现。

一种基于聚合描述子与注意力的指静脉特征提取网络，包括输入端、主干网络模块、描述子聚合与损失模块；

所述输入端接收训练/测试静脉图像，并将所述图像转化为张量数据；

所述主干网络模块作为静脉网络的特征提取器，接收输入端各个批次的张量数据，在网络前向传播的过程中计算出最终的特征图，用于生成全局特征描述子；

所述描述子聚合与损失模块包括描述子聚合模块和损失计算模块，所述描述子聚合模块应用不同的全局池化操作得到的特征描述子进行聚合操作；所述损失计算模块包括损失分支部分和辅助用分类损失部分；保存训练好的指静脉特征提取网络参数完成静脉特征提取。

优选的，所述主干网络模块中的主干网络为在通用图像任务中各种经典的预训练网络，所述预训练网络为残差网络ResNet或移动网络MobileNet。

优选的，所述主干网络基本结构为残差网络ResNet，并在主干网络中加入联合注意力机制模块。

优选的，所述注意力机制模块包括特征分组、嵌入和生成位置注意力；

所述特征分组在通道维度上将特征图

平均分为G组，其中H、W、C分别代表特征图的通道数目、高度和宽度；每一个子特征图能够在主干网络的训练过程中获取对应的语义信息，在每一个子特征图中，通过位置敏感的信息编码方式，对局部的通道权重进行再分配；

所述嵌入位置注意力是将全局池化操作分解为两个一维的特征编码操作，输入子特征图张量t，采用两个池化核(H,1)与(1,W)分别沿着相互垂直的方向进行信息编码，在特征图上高度为h，宽度为w处的第c个通道的输出表示为：

式中，

和/>

分别表示输出特征图第c个通道的高度为h位置和宽度为w的值，W是输入特征图的宽度，H代表输入特征图的高度，t_c(h,i)是输入的特征分组后的子特征图的高度为h的位置的值，i用于固定高度时的宽度遍历，t_c(j,w)是输入的特征分组后的子特征图的宽度为w的位置的值，j用于固定宽度时的高度遍历；

经过上述两种类型的转换之后，获得两个不同的位置敏感的特征图，将两个获取的位置敏感特征图进行串联，使用卷积进行通道压缩，公式如下：

g＝δ(W([z^h,z^w]))

式中[,]代表在空间方向上的串联操作，

代表中间特征图，r代表卷积过程中的通道压缩率，以z^h、z^w分别指代上一步经位置注意力嵌入后的特征图，W指代卷积滤波器的参数，δ指ReLU激活函数与批归一化(BatchNormalization)的顺序操作；

将中间特征图在空间维度上分裂为两个，分别使用两个卷积将通道数恢复到原先的数目，如下两式所示：

m^h＝σ(W_h(g^h))

m^w＝σ(W_w(g^w))

其中

W_h和W_w分别表示对经过分裂的两个特征图所使用的卷积滤波器的参数，σ表示Sigmoid激活函数，m^h和m^w分别表示两个特征图经过卷积和激活操作的输出，即两个位置敏感的权重分配图，最后将两个权重分配图与输入的子特征图相乘获得指特征分组后的子特征图经过上述的操作后输出特征图：

式中，t_c(i,j)指本模块最开始的输入子特征图张量t在第c个通道中高度为i，宽度为j处的值，

和/>

分别指代上一步输出的两个位置敏感的权重分配图在第c个通道中，高度为i，宽度为j处的值；

最后通过注意力整合模块将之前的经过分组的各个自特征图的输出在通道维度上串联，然后使用通道置换操作对不同组别的信息进行跨通道交互。

优选的，所述描述子聚合模块将应用不同的全局池化操作得到的特征描述子进行聚合操作；

其中，全局最大池化操作为：

全局平均池化操作为：

GeM池化将全局最大池化和全局平均池化做形式上的统一：

上式中，X_c代表池化前的特征图的第c个通道，

代表对应通道的池化后输出，用m、a、g分别表示全局最大池化、全局平均池化以及GeM池化；p_c是GeM池化的参数；

所述聚合操作为将第i个全局描述子分支经过全连接层与归一化层的输出记为

式中W⁽ⁱ⁾代表全连接层的参数，全局描述子

在d_i＝a时代表全局平均池化，在d_i＝m时代表全局最大池化，在d_i＝g时代表GeM池化；

最终生成的全局描述子ψ_CD是将多个分支的全局描述子经过串联连接与归一化后的输出：

其中，

代表串联操作，/>

代表第n种全局描述子。

优选的，所述损失计算模块主要由两部分组成：第一部分主要为损失分支，多个支路的特征嵌入经全连接层、归一化层与串联聚合后送入基于深度度量损失的计算模块；第二部分为辅助用分类损失，将第一种类的全局描述子经批归一化与全连接层后送入分类损失的计算模块。

优选的，嵌入方式为：

其中，f(x；θ)代表了特征空间的嵌入函数，x为输入的图像，θ表示嵌入的参数，θ^*为优化目标，

表示包含N个样本的数据库/>

x_i和x_j分别表示不同的样本，/>

指数据库中原样本所在的特征空间，/>

值经过特征嵌入后的特征空间，

代表以数据库和嵌入参数为变量的损失函数，即三元组损失；

定义度量函数，衡量样本x_i和x_j在嵌入空间中的距离：

指数据库中原样本所在的特征空间,/>

指经过D()度量函数后的特征空间；

将度量函数D(x_i,x_j)记为D_ij，分别用y_ij＝1代表来自同一类的样本对，y_ij＝0代表来自不同类的样本对。

优选的，所述辅助用分类损失使用分类损失函数对全局描述子支路进行调整，将第一条全局描述子支路产生的全局特征经过批归一化与全连接层后，计算softmax损失。

优选的，所述分类损失函数表达式如下：

式中，N、M和y_i分别代表批大小、分类数量、以及第i个输入对应的标签；W_yi和

分别代表可训练的权重和偏差值；f代表来自第一个全局描述子支路的输出，τ表示温度调节系数。

优选的，采用在线三元组挖掘的方式训练的三元组来优化指静脉特征提取网络；在每一批的输入样本中，通过在线计算来选取有效的三元组，假设目前输入的一批样本由来自

类各/>

个样本组成，这一批的输入样本大小为/>

首先计算出/>

个样本的特征嵌入，然后针对每一个候选样本，在其中选取最难的正例对以及最难的负例对来构成三元组，最终得到/>

个三元组；利用三元组损失的指静脉特征提取网络在训练中由一系列三元组{x_i,x_j,x_k}构成训练样本，其中x_i与x_j代表来自同一类别下的样本对，而x_k代表与前两个样本不同类的样本，以公式的形式表达如下：

式中，D_ij、D_ik分别表示度量函数D(x_i,x_j)和D(x_i,x_k)，α表示间隔值。

与现有的技术相比，本发明的有益效果为：

本发明在主干网络结构中加入了具有位置敏感性的注意力机制；在特征构成阶段采用多种全局描述子聚合的方式来完成多样性特征构建；在模型训练阶段采用基于在线样本挖掘的三元组损失，能够获得具有类内紧致与类间分离特点的特征；在模型训练阶段，加入了辅助分类损失，可以使得网络训练的过程更为高效和稳定，能够应对应对指静脉图像质量差异，采集设备环境条件变化，用户手指旋转偏移等多方面不利条件，在特征提取阶段获取更具区分性与鲁棒性的特征，可以提高实际静脉身份认证系统的准确率与安全性。

附图说明

图1为本实施例多描述子聚合的网络结构图；

图2为本实施例注意力机制模块的结构图；

图3为本实施例网络的性能验证阶段数据划分示意图；

图4为本实施例实际使用的流程框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于聚合描述子与注意力的指静脉特征提取网络，这个网络用于端到端的从输入的指静脉图像到具有区分度的紧密特征向量的映射，称之为指静脉全局描述特征。如图1所示，网络的具体结构包括输入端、主干网络模块、描述子聚合与损失模块；

所述输入端接收一个批次的训练/测试静脉图像，并将其转化为张量数据类型，用于网络前向计算、训练阶段的参数更新以及测试阶段的性能表现测试。

所述主干网络模块包括主干网络，所述主干网络作为静脉网络的特征提取器，在接收输入端的各个批次的张量，然后在网络前向传播的过程中计算出最终的特征图，用于后续的全局特征描述子的生成。

主干网络的类型可以选择在通用图像任务中各种经典的预训练网络，如残差网络ResNet或移动网络MobileNet，也可以建立自己的特征提取网络。本实施例使用的是ResNet的四阶段特征提取网络。

在本实施例中，主干网络基本结构为ResNet的四阶段特征提取网络，并在主干网络中加入联合注意力机制模块。

图2所示，注意力机制模块包括以下几个部分：

1.特征分组

对一个给定的Residual残差特征图

其中H、W、C分别代表特征图的通道数目、高度和宽度。首先在通道维度上将特征图平均分为G组，每一个子特征图能够在主干网络的训练过程中获取其对应的语义信息，例如手指的边缘信息、静脉的纹理分叉或是生长模式，故此处的特征分组为了后续的全局通道交互做准备。而在每一个子特征图中，设计位置敏感的信息编码方式，来对局部的通道权重进行再分配。图中表示为将Residual分为N个组，分别标记为Group1～GroupN。图中通道数×高度×宽度的形式表示当前步骤输出特征图的具体尺寸。

2.位置注意力嵌入

将全局池化操作分解为两个一维的特征编码操作，以鼓励主干网络使用更为精确的位置信息，在空间域上完成远程的交互。具体来说，设置输入的张量

采用两个池化核(H,1)与(1,W)分别沿着相互垂直的两个方向进行信息编码。因此，在特征图上高度为h，宽度为w处的第c个通道的输出表示为：

式中

和/>

分别表示输出特征图第c个通道的高度为h位置和宽度为w的值。W是输入特征图的宽度，H代表输入特征图的高度，t_c(h,i)是输入的特征分组后的子特征图的高度为h的位置的值，i用于固定高度时的宽度遍历，t_c(j,w)是输入的特征分组后的子特征图的宽度为w的位置的值，j用于固定宽度时的高度遍历。图中两个方向的编码分别表示为Xpool和Ypool。

经过上述两种类型的转换之后，获得两个不同的位置敏感的特征图。在对输入的静脉图像感兴趣区域不做更多矫正的情况下，所述联合注意力机制可以建模一个方向上的长期依赖关系，而在另一个方向上保留准确的位置信息，这有助于主干网络更精确地定位感兴趣的对象，并且可以以端到端的学习方式进行训练。

3.生成位置注意力

生成位置注意力有以下三个标准：首先，变换过程中不能带来额外的参数，以满足其在网络中的整合需求；其次，这种变换应该能充分利用上一步所获取的位置信息，从而可以准确的定位到所希望的感兴趣区域。最后一点，变换过程应该能够有效地捕获通道方向上的相互关系。

具体地，首先将两个获取的位置敏感特征图进行串联，然后使用1×1的卷积对他们进行通道压缩，以公式表达如下：

g＝δ(W([z^h,z^w]))

式中[,]代表了在空间方向上的串联操作，

代表了中间特征图，r代表卷积过程中的通道压缩率，以z^h、z^w分别指代上一步经位置注意力嵌入后的特征图，W指代卷积滤波器的参数，δ指ReLU激活函数与批归一化(BatchNormalization)的顺序操作，图中表示为Concat+Conv。

下一步，将中间特征图在空间维度上分裂为两个，然后分别使用两个1×1的卷积将通道数恢复到原先的数目，如下两式所示：

m^h＝σ(W_h(g^h))

m^w＝σ(W_w(g^w))

其中

W_h和W_w分别表示对经过分裂的两个特征图所使用的卷积滤波器的参数，σ表示Sigmoid激活函数，m^h和m^w分别表示两个特征图经过卷积和激活操作的输出，即两个位置敏感的权重分配图，图中表示为Split后分别经过Conv和Sigmoid。这一步的两个输出是两个位置敏感的权重分配图，最后他们将与输入的子特征图相乘获得上述子模块的输出：

t_c(i,j)指本模块最开始的输入子特征图张量t在第c个通道中高度为i，宽度为j处的值。

和/>

分别指代上一步输出的两个位置敏感的权重分配图在第c个通道中，高度为i，宽度为j处的值。相乘的操作在图中表示为Re-weight。

4.注意力整合

最终的注意力整合模块参考ShuffleNetV2中所使用的通道置换策略，首先将之前的经过分组的各个自特征图的输出在通道维度上串联，然后使用通道置换操作对不同组别的信息进行跨通道交互。联合注意力机制的最终输出与输入的张量T具有完全一致的尺寸，因此可以在大多数的经典网络结构中进行轻松的应用。图中表示为Aggregate和ChannelShuffle。

由于所述注意力机制融合了特征分组与通道压缩的操作后，因此注意力模块中相比主干网络的参数来说，基本没有增加参数量。

所述描述子聚合与损失模块包括描述子聚合模块和损失计算模块，用于多种类描述子聚合与损失计算。多种类描述子聚合可以将应用不同的全局池化方法得到的紧密特征描述进行聚合，且池化方法的种类与个数可以灵活配置。

所述描述子聚合模块通过应用不同的全局池化操作得到的特征描述子并进行聚合操作；通过以下方式获得全局特征描述子。

对于一个给定的输入静脉图片，经过卷积层后的输出是一个三维的尺寸为WxHxC的张量，分别代表了特征图的宽度、高度和通道数目。特征池化层现在可以取代全连接层，将一系列特征图转化为一个特征向量。

全局最大池化操作为：

全局平均池化操作为：

GeM(generalized-mean pooling)池化被提出后，被广泛应用于通用的图像检索任务，并且在此项任务上取得了较为优秀的性能提升。具体来说，GeM池化将全局最大池化和全局平均池化做了形式上的统一：

上式中，X_c代表池化前的特征图的第c个通道，

代表了对应通道的池化后输出，用m、a、g分别表示全局最大池化、全局平均池化以及GeM池化。p_c是一个GeM池化的参数，可以通过网络学习，也可以人工指定，通常选用p_c＝3。

其中的池化参数是一个可以学习的参数，在池化参数趋向正无穷时，GeM池化就等同于全局最大池化，而池化参数等于1时，GeM池化就等同于全局平均池化。对于每一个特征图来说，可以使用相同的池化参数，也可以被设置成学习各自不同的参数。非常重要的一点是，GeM池化操作是一个可微分的操作，因此可以在特征提取网络学习的过程中以后向传播的方式进行参数更新，使得整个特征提取网络的训练完全在一个端到端的形式中完成。

全局特征描述子聚合操作如下：

在特征提取网络中，将第i个全局描述子分支经过一个全连接层与归一化层的输出记为

其数学表达式为：

式中Wⁱ代表全连接层的参数，全局描述子

在d_i＝a时代表全局平均池化，在d_i＝m时代表全局最大池化，在d_i＝g时代表GeM池化，

最终生成的全局描述子ψ_CD是将多个分支的全局描述子经过串联连接与归一化后的输出，其数学表达式为：

其中，

代表串联操作，/>

代表了第n种全局描述子。

图1中GD代表了全局描述子，FC代表了全连接层，用于控制全局描述子的特征维度，L2代表了二范数归一化。

在特征提取网络中，经过上述步骤产生的聚合描述子可以用于各种基于度量的损失函数计算。这种组合多种全局描述子的方法具有两个优点：首先，它在仅加入少许附加参数的情况下完成了多种描述子的聚合，同时仅使用单个主干网络完成了特征组合，使其可以在端到端的模式下进行训练；其次，使用多种全局特征描述方法自动为每个分支的输出提供了不同的模式，而不需要进行额外的多样性控制手段。以A、M、G分别代表三种全局描述子的支路结构用A、M、G分别表示全局最大池化、全局平均池化以及GeM池化支路，本框架可以提供的全局聚合方式有A、M、G、AM、MA、AG、GA、MG、GM、AMG、MAG、GAM共12种方式。

损失计算模块主要由两部分组成：第一部分主要为损失分支，多个支路的特征嵌入经全连接层、归一化层与串联聚合后送入基于深度度量损失的计算模块；第二部分为辅助用分类损失，将第一种类的全局描述子经批归一化与全连接层后送入分类损失的计算模块。加入分类损失的计算模块可以帮助扩大样本在特征空间中的类间距离，使得特征提取网络训练更为快速与稳定。

深度度量学习的方法目前已经广泛应用于不同的识别任务中，例如人脸识别，行人重识别以及通用图像检索。深度度量学习的方法可以减少指静脉样本对之间的类内差异，同时增加指静脉样本对之间的类间差异。

所述基于深度度量损失的计算模块采用深度度量学习的方法，考虑一个包含了N个样本的数据库

深度度量学习的目标是找到一个特征嵌入方法/>

能够将语义相似的实例，也就是同一类别的静脉样本，从/>

中的数据流型映射到度量意义/>

上相近的点，其中θ表示的是嵌入方法的参数，以公式形式表示如下：

定义一个度量函数

来衡量样本x_i和x_j在嵌入空间中的距离，/>

指数据库中原样本所在的特征空间，/>

值经过特征嵌入后的特征空间，

代表了以数据库和嵌入参数为变量的损失函数，这里指的就是三元组损失。

指数据库中原样本所在的特征空间,/>

指经过D()度量函数后的特征空间；为了简化表示，将度量函数D(x_i,x_j)记为D_ij，分别用y_ij＝1代表来自同一类的样本对，y_ij＝0代表来自不同类的样本对。基于孪生网络的对比损失在生物特征识别领域已经有了较多的应用。然而值得注意的是，此方法中会出现不平衡的现象。在手指静脉验证任务中需要对图像失真有一定的容忍度，而对比损失的方法对正例对的约束过于严格，从而可能导致带来对网络度量学习效果的负面影响。

利用三元组损失的特征提取网络在训练中通常由一系列三元组{x_i,x_j,x_k}构成训练样本，其中x_i与x_j代表来自同一类别下的样本对，而x_k代表与前两个样本不同类的样本。

与对比损失不同，三元组损失将相对性纳入损失设计的考量中，以公式的形式表达如下：

式中，D_ij、D_ik定义上面已给出，α是人工给定的间隔值，人工选定为1.0。

在应用三元组损失训练网络的过程中，如何选择对特征提取网络训练有积极影响的有效三元组是一个非常重要的步骤。在数据库中选择所有可能的三元组会导致两方面的问题，首先是会消耗大量的计算时间和资源，同时，选择出的一系列三元组中存在着大量的无效的三元组，也就是在计算损失时结果为零，而不能进行反向传播更新网络参数的输入三元组。

作为优选的实施例，采用在线三元组挖掘的方式训练的三元组来优化所提出的网络，具体来说，就是在每一批的输入样本中，通过在线计算来选取有效的三元组。假设目前输入的一批样本由来自

类各/>

个样本组成，这一批的输入样本大小为/>

首先计算出/>

个样本的特征嵌入，然后针对每一个候选样本，在其中选取最难的正例对(D_ij最大)以及最难的负例对(D_ik最小)来构成一个三元组。最终可以得到/>

个三元组，并且选择出的三元组是这一批输入样本中最为困难，即对优化网络最有帮助的三元组，并且能够产生最优的性能。

如图1所示，特征提取网络具有一条辅助分类支路，所述辅助用分类损失使用分类损失函数对全局描述子支路进行微调。采用将第一条全局描述子支路产生的全局特征经过批归一化(BN)与全连接层(FC0)后计算softmax损失的单步训练方式。使用辅助分类损失能够帮助扩大样本类间特征距离，使得训练更加迅速和稳定。使用的softmax分类损失函数如下：

式中N、M和y_i分别代表了批大小(batch size),分类数量，以及第i个输入对应的标签；W和b分别代表了可训练的权重和偏差值；f代表了来自第一个全局描述子支路的输出。温度缩放(temperature scaling)也被纳入softmax损失计算的考量中，使用温度参数τ来对梯度进行控制：当温度参数较小时，对难以分类的手指静脉样本就会产生更大的梯度，能够帮助类内特征的聚合与类间特征的分离，本实施例中选用温度参数τ＝0.5。

指静脉特征提取网络训练过程分为如下步骤：

1).划分训练测试集，如假设数据集中共500有类手指，按照4：1的比例构建训练测试集，即400类样本用于训练，100类样本用于后续测试。

2).根据平衡采样方式构建送入网络的样本批次。平衡采样的形式为针对每一个批次的样本，从所有训练样本类中随机选择N类样本，每类选取M个样本，构成总数为N*M的训练样本。

3).将训练样本送入网络，此时可以指定使用的全局描述子种类与聚合方式，用A、M、G分别表示全局最大池化、全局平均池化以及GeM池化支路，本框架可以提供的全局聚合方式有A、M、G、AM、MA、AG、GA、MG、GM、AMG、MAG、GAM共12种方式。然后根据上述的三元组在线困难选择样本策略来计算三元组损失，加以辅助分类支路的损失来得到总体的损失，并通过反向传播的方式更新网络参数。最终得到训练好的网络参数。

特征提取网络的性能验证阶段分为如下步骤：

1.如图3所示，根据事先划分的测试集进一步按照1：1划分为注册集和查询集，用于构建类内样本对和类间样本对，类内样本对的定义为来自同一根手指的指静脉图像，类间样本对的定义为来自不同手指的指静脉图像。性能验证阶段控制类内与类间样本对数目一致。

2.通过计算等误率来进行性能验证与最佳阈值选取。具体步骤为在0-1范围内等间距取100个数值构成一组阈值THRES，对于每一个阈值thres，计算对应的错误接受率FAR和错误拒绝率FRR。

其中计算错误接受率FAR的公式为：

计算错误拒绝率FRR的公式为

当样本对的余弦距离大于阈值thres时判断为正样本对，当样本对的余弦距离小于等于thres时判断为负样本对。FP代表真实负样本对错误预测为正样本对的数量，TP代表真实正样本对正确预测为正样本对的数量，FN代表真实正样本对错误预测为负样本对的数量，TN代表真实负样本对正确预测为负样本对的数量。对每个阈值计算FAR和FRR的绝对差值，当某个阈值对应的绝对差值最小时，则将该阈值确定为最佳阈值。此时的FAR与FRR的平均值即为等误率，用于评价算法的性能，等误率越低，则认为算法性能效果更佳。此时选取等误率最低的特征提取网络的参数和最佳阈值并保存，用于实际使用阶段。

如图4所示，特征提取网络的实际使用阶段分为如下步骤：

1.通过静脉采集设备完成图像获取；

2.采用所述性能验证阶段保存的的特征提取网络参数完成静脉特征提取；

3.计算提取到的特征和数据库中所存特征之间的距离，完成特征匹配；

4.若特征匹配值大于保存的最佳阈值则接受用户，否则拒绝用户。

根据上述实施方法可以完成本发明所述静脉特征提取网络的实际认证场景应用。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于聚合描述子与注意力的指静脉特征提取网络，其特征在于，所述指静脉特征提取网络包括输入端、主干网络模块、描述子聚合与损失模块；

所述描述子聚合与损失模块包括描述子聚合模块和损失计算模块，所述描述子聚合模块应用不同的全局池化操作得到的特征描述子进行聚合操作；所述损失计算模块包括损失分支部分和辅助用分类损失部分；保存训练好的指静脉特征提取网络参数完成静脉特征提取；

在主干网络中加入联合注意力机制模块，所述注意力机制模块包括特征分组、嵌入和生成位置注意力；

所述特征分组在通道维度上将特征图

所述嵌入和生成位置注意力是将全局池化操作分解为两个一维的特征编码操作，输入子特征图张量t，采用两个池化核(H,1)与(1,W)分别沿着相互垂直的方向进行信息编码，在特征图上高度为h，宽度为w处的第c个通道的输出表示为：

式中，

和/>

经过上述两个池化核(H,1)与(1,W)的转换之后，获得两个不同的位置敏感的特征图，将两个获取的位置敏感特征图进行串联，使用卷积进行通道压缩，公式如下：

g＝δ(W([z^h,z^w]))

式中[,]代表在空间方向上的串联操作，

代表中间特征图，r代表卷积过程中的通道压缩率，以z^h、z^w分别指代上一步获得的位置敏感特征图后的特征图，W指代卷积滤波器的参数，δ指ReLU激活函数与批归一化的顺序操作；

m^h＝σ(W_h(g^h))

m^w＝σ(W_w(g^w))

其中

W_h和W_w分别表示对经过分裂的两个特征图所使用的卷积滤波器的参数，σ表示Sigmoid激活函数，m^h和m^w分别表示两个特征图经过卷积和激活操作的输出，即两个位置敏感的权重分配图，最后将两个权重分配图与输入的子特征图相乘，获得具有位置敏感性的特征图：

和/>

最后通过注意力机制模块将之前的经过分组的各个子特征图的输出在通道维度上串联，然后使用通道置换操作对不同组别的信息进行跨通道交互。

2.根据权利要求1所述的一种基于聚合描述子与注意力的指静脉特征提取网络，其特征在于，所述主干网络模块中的主干网络为在通用图像任务中各种经典的预训练网络，所述预训练网络为残差网络ResNet或移动网络MobileNet。

3.根据权利要求1所述的一种基于聚合描述子与注意力的指静脉特征提取网络，其特征在于，所述主干网络基本结构为残差网络ResNet。

4.根据权利要求1所述的一种基于聚合描述子与注意力的指静脉特征提取网络，其特征在于，所述描述子聚合模块将应用不同的全局池化操作得到的特征描述子进行聚合操作；

其中，全局最大池化操作为：

全局平均池化操作为：

GeM池化将全局最大池化和全局平均池化做形式上的统一：

上式中，X_c代表池化前的特征图的第c个通道，f_c ⁽⁾代表对应通道的池化后输出，用m、a、g分别表示全局最大池化、全局平均池化以及GeM池化；p_c是GeM池化的参数；

所述聚合操作为将第i个全局描述子分支经过全连接层与归一化层的输出记为Φ^di：

式中W⁽ⁱ⁾代表全连接层的参数，全局描述子

在d_i＝时代表全局平均池化，在d_i＝时代表全局最大池化，在d_i＝时代表GeM池化；

其中，

代表串联操作，/>

代表第n种全局描述子。

5.根据权利要求4所述的一种基于聚合描述子与注意力的指静脉特征提取网络，其特征在于，所述损失计算模块主要由两部分组成：第一部分主要为损失分支，多个支路的特征嵌入经全连接层、归一化层与串联聚合后送入基于深度度量损失的计算模块；第二部分为辅助用分类损失，将第一种类的全局描述子经批归一化与全连接层后送入分类损失的计算模块。

6.根据权利要求5所述的一种基于聚合描述子与注意力的指静脉特征提取网络，其特征在于，嵌入方式为：