CN116229230A

CN116229230A - 基于多尺度Transformer的静脉识别神经网络模型、方法与系统

Info

Publication number: CN116229230A
Application number: CN202211591327.1A
Authority: CN
Inventors: 秦华锋; 巩长庆; 王闪闪; 吴燚权; 熊志鹏
Original assignee: Chongqing Financial Technology Research Institute
Current assignee: Chongqing Financial Technology Research Institute
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-06-06

Abstract

本发明属于生物特征识别技术领域，具体涉及一种基于多尺度Transformer的静脉识别神经网络模型、方法与系统。本发明对现有的ViT模型进行了多尺度化改进，将输入图片通过尺寸变换化为包括了不同尺寸的子图的图集，且每一子图均被划分/重叠划分为同样数量同样尺寸的位置块，再通过不同尺度间的同一位置的图块的特征序列来进行计算不同尺寸的子图上此处位置间的联系，进而让模型学习到尺寸的联系，间接的消除不同尺寸的敏感性。使得全局信息更加完善，提取的特征更加友好。本发明通过不同尺度同一位置间以及同一尺度不同位置间的关系去影响分类结果，提高了的模型识别性能。

Description

基于多尺度Transformer的静脉识别神经网络模型、方法与系统

技术领域

本发明属于生物特征识别技术领域，具体涉及一种基于多尺度Transformer的静脉识别神经网络模型、方法与系统。

背景技术

现有很多分类模型可以有效的从静脉图片中提取到静脉纹路等特征信息，通常情况下只选取一种尺度下的静脉图像进行特征提取进而分类。但是在静脉识别终端时，由于是非接触式的静脉采集方式，采集到的静脉图像可能由于距离采集终端的远近不同，造成图像尺寸不同，然而，统一尺寸训练的模型对不同尺度的图像是敏感的，尽管可以调整图像大小到一个尺寸，但这样会忽略同一图像在不同尺寸间的相互关系，没有不同尺寸间的相互关系去影响或者补充同一尺寸的不同信息位置块的高级语义，导致模型的识别性能有限。

发明内容

本发明的目的之一是提供一种基于多尺度Transformer的静脉识别神经网络模型，以解决现有模型中忽略了多样的尺寸的相关关系，导致识别性能有限的技术问题。

本发明中的基于多尺度Transformer的静脉识别神经网络模型，包括，依次连接的尺度变换模块、多尺度分割模块、线性嵌入模块和多尺度Transformer模块；

所述尺度变换模块，用于将静脉图片I，缩放为多个不同的尺寸的子图I_n，n＝1,2…N，令h₀、w₀、c分别为静脉图片I的高、宽和通道数，h_n、w_n、c分别为子图I_n的高、宽和通道数，有：h₁＞h₂＞…h_n，w₁＞w₂＞…w_n；

所述多尺度分割模块用于将各子图I_n分割为尺寸为P×L的位置块(Patch)，其中对于尺寸最大的I₁，采用无重叠分割；其余子图均采用有重叠分割，该有重叠分割使得各子图被分割为相同数量的，尺寸为P×L的位置块；

以及，将各子图的各个位置块展平为长度为C＝PLc的序列P_m,n,m＝1,2…M,n＝1,2…N；其中M为位置块的数量，有：

M＝H×W

所述线性嵌入模块，用于通过可学习的映射矩阵E，将各序列P_m,n映射为长度为D的特征(Token)T_m,n，并将各子的特征拼接为一维的特征序列I_t,n；

以及，对各特征序列I_t,n分别实施可学习的位置编码；

以及，增加一可学习的，形式与特征序列I_t,n相同的尺度嵌入序列E_scale，与各子图的特征序列共同组成特征序列集I_TE；

所述多尺度Transformer模块包括了依次连接的尺度自注意力计算部分和空间自注意力计算部分；

所述尺度自注意力计算部分，用于基于输入的特征序列集I_TE计算不同的子图上对应于同一位置的位置块间的自注意力权重，称尺度自注意力权重，并得到基于特征图块集I_TE的输出X_new；

所述空间自注意力计算部分，用于基于输入X_new计算同一子图上对应于不同位置的位置块间的自注意力权重，称空间自注意力权重，并得到基于X_new的输出X⁽¹⁾。

进一步的，所述多尺度Transformer模块还包括连接在空间自注意力计算部分之后的多层感知部分，包括了依次连接的归一化层(LN)和多层感知子模块(MLP)，该部分中引入有Droppath机制以及残差连接，该部分的输出Y为所述多尺度Transformer模块的输出。

进一步的，所述尺度自注意力计算部分，包括依次连接的归一化层(LN)、尺度自注意力子模块(Scale Attention)和前馈网络模块(FFN)，该部分中在前馈网络模块之后引入有Droppath机制以及残差连接；

其中，所述尺度自注意力子模块用于，以输入中的各特征序列/尺度嵌入序列内对应于同一图块位置的共计N+1个特征为一组输入序列，分别计算各组输入序列中的各特征间的自注意力权重。

进一步的，所述空间自注意力计算部分，包括依次连接的归一化层(LN)和空间自注意力子模块(Space Attention)，该部分中在空间自注意力子模块之后引入有Droppath机制以及残差连接；

其中，所述空间自注意力子模块用于，以输入中同一子图或尺度嵌入图块所对应的特征序列为一组输入序列，计算各输入序列中各特征序列间的自注意力权重。

进一步的，所述多尺度Transformer模块中的自注意力计算为多头自注意力计算。

进一步的，还包括图块卷积模块；

至少一个所述的多尺度Transformer模块与所述图块卷积模块连接形成多尺度Transformer-卷积模组；

若所述多尺度Transformer-卷积模组包含多个多尺度Transformer模块，则各个多尺度Transformer模块依次级联，其中最后一级多尺度Transformer模块与所述图块卷积模块连接；

所述多尺度Transformer模块的输出Y的形式在进入多尺度Transformer-卷积模组时，变换二维特征矩阵集的形式；

所述图块卷积模块，包括依次连接的第一颗粒卷堆栈块、第二颗粒卷堆栈块和降采样层；

所述第一粒卷堆栈块用于，一方面令输入Y通过串连的一全连接层和一卷积核为1×1，步长为1的二维卷积层得到输出Y⁽¹⁾，其中，全连接层和卷积层的输出通道数均为输入Y的通道数的γ＜1倍；

令输入Y首先通过一全连接-DW卷积子模块，该子模块中在全连接层的基础上还加入了卷积核为k×k步长为1的DW(Depth-wise)卷积层(DW-conv)再经过一卷积核为1×1步长为1的二维卷积层，得到输出Y⁽²⁾，全连接-DW卷积子模块和二维卷积层的输出通道数均为输入Y的通道数的γ＜1倍；

以及，将所述Y⁽¹⁾、Y和Y⁽³⁾在通道维度上依次连接，得到输出Z；

所述第二粒卷堆栈块，用于采用与第一粒卷堆栈块同样的方式，基于输入Z得到输出Z⁽¹⁾；

所述降采样层用于基于一2×2的卷积核对Z⁽¹⁾实施降采样，且输入通道数为输入通道数的一半。

进一步的，包括多组级联的所述多尺度Transformer-卷积模组；

其中，后一级多尺度Transformer-卷积模组中的神经网络形式适应于前一级多尺度Transformer-卷积模组的输出形式；

并且，后一级多尺度Transformer-卷积模组中多头自注意计算的头数是前一级多尺度Transformer-卷积模组中的2γ+1倍。

进一步的，包括四组级联的多尺度Transformer-卷积模组。

本发明的另一目的是提供一种静脉识别方法，包括：

步骤1获取静脉图片；

步骤2将该静脉图片输入已训练好的前述的基于多尺度Transformer的静脉识别神经网络模型中得到识别结果。

本发明的又一目的是提供一种静脉识别系统，包括静脉图片获取模块和识别模块；

所述静脉图片获取模块用于获取需识别的静脉图片；

所述识别模块内部署有已训练好的前述的基于多尺度Transformer的静脉识别神经网络模型，用于根据输入的静脉图片，通过该静脉识别神经网络模型得到识别结果。

进一步的，还包括训练模块，该模块用于获取用于训练所述静脉识别神经网络模型的静脉图片样本；

以及利用静脉图片样本对基于多尺度Transformer的静脉识别神经网络模型实施训练，进而更新该神经网络模型中的参数。

本发明的原理和有益效果在于：

本发明有别于现有技术中基于CNN的深度学习静脉识别模型，提出了基于Transformer的静脉识别神经网络模型，其中，本发明对现有的ViT(Vision Transformer)模型进行了多尺度化改进，将输入图片通过尺寸变换化为包括了不同尺寸的子图的图集，且每一子图均被划分/重叠划分为同样数量同样尺寸的位置块，再通过不同尺度间的同一位置的图块的特征序列来进行计算不同尺寸的子图上此处位置间的联系，进而让模型学习到尺寸的联系，间接的消除不同尺寸的敏感性。模型先分位置学习到同一位置上不同尺度间的注意力信息，再分子图学习传统的统一尺寸下的不同位之间注意力信息，此时带有丰富的尺度间信息，使得全局信息更加完善，提取的特征更加友好。为了满足不同尺度下同时能够计算不同位置的相关信息，本模型中又多加了一个记忆不同尺度信息的特征图块序列，与各子图的特征图块形式一致。本发明通过不同尺度同一位置间以及同一尺度不同位置间的关系去影响分类结果，提高了的模型识别性能。

另外，将每幅图像转换为多个不同尺度的图像，扩大训练样本，从而可以提高识别性能。

由于自注意力计算中更为注重全局注意力信息，在本发明一些实施例中，额外的在多尺度Transformer模块后增加新型的图块卷积模块(Patch ConvNN Block)，起到提取局部信息，归纳偏置与降采样作用。卷积算子允许通过使用局部感野并共享权值来学习局部特征，而Transformer中的自注意机制能够捕获全局特征，两个模块的组合可以形成互补，以提高静脉识别精度。

另外，基于Transformer的神经网络模型通常包含较多的需要训练的参数，然而，在静脉识别任务中并没有大量的训练样本，这使得模型的容量可能无法得到有效的利用，模型受训练条件的影响进而在实际应用中对静脉识别任务识别精度的提升有限。本发明实施例中将卷积合并到Transformer中的策略，可以从另一个侧面提高识别精度，对于不具备海量训练样本的静脉识别任务来说非常具有实际意义。

附图说明

图1为本发明实施例中的尺度变换模块、多尺度分割模块、线性嵌入模块和多尺度Transformer模块的连接结构示意图。

图2为本发明实施例中的对不同尺度的子图进行的无重叠/有重叠分割过程的示意图。

图3为本发明实施例中的线性嵌入模块实施位置参数和尺度特征序列嵌入的示意图。

图4为本发明实施例中的多尺度Transformer模块的示意性逻辑框图。

图5为本发明实施例中的多尺度Transformer-卷积模组的示意性逻辑框图。

图6为本发明实施例中的图块卷积模块的示意性逻辑框图。

图7为本发明实施例中的第一/第二堆栈子模块的示意性逻辑框图。

图8为本发明实施例中的基于多尺度Transformer的静脉识别神经网络模型的示意性逻辑框图。

图9为本发明实施例中的静脉识别方法的流程图。

图10为本发明实施例中的静脉识别系统的示意性框图。

图11为本发明又一实施例中的静脉识别系统的示意性框图。

具体实施方式

本部分中，采用四维张量形式(b,h,w,c)表示输入/输出的图片、图块、特征等矩阵/向量形式的数据，其中第一维度b为集合中矩阵/向量的数量也称Batch Size，第二维度h可理解为高度维度或行维度，第三维度w可理解为宽度维度或列维度，第四维c度可理解通道维度。为便于理解，本部分中以单幅图片(第一维度b＝1)输入为示例，但实际应用中输入图集可以是图片数量为B的图集，该情况下，以下所有四维张量的第一维度需要扩大B倍。

本实施例中的基于多尺度Transformer的静脉识别神经网络模型，包括依次连接的尺度变换模块、多尺度分割模块、线性嵌入模块和多尺度Transformer模块；这些模块的连接方式如图1所示。

其中，尺度变换模块(Resize)，用于将形式为(1，h₀，w₀，c)静脉图片I，变换为多个不同的尺寸的，形式为I_n:(1，h_n，w_n，c),n＝1,2…N，的子图，其中，h₀、w₀、c分别为静脉图片I的高、宽和通道数，h_n、w_n、c分别为子图I_n的高、宽和通道数，并且h₁＞h₂＞…h_n，w₁＞w₂＞…w_n；例如，对一张形式为(1，200，200，3)静脉图像I，通过变换得到N＝3个不同尺寸的子图，分别是形式为(1，224，224，3)的第一子图I₁、形式为(1，168，168，3)第二子图I₂以及形式为(1，112，112，3)的第三子图I₃，构成子图集合(Batch)输入到后续模型中去，该成子图集合的大小(Batch size)为N＝3。

多尺度分割模块，用于将各子图I_n分割为尺寸为P×L的图块(Patch)，如图2所示，其中对于尺寸最大的I₁，采用无重叠分割；其余子图均采用有重叠分割，该有重叠分割使得各子图被分割为相同数量的，尺寸为P×L的位置块；

M＝H×W

线性嵌入模块(linar Embeding)，用于通过可学习的映射矩阵

将各各个长度为C的序列P_m,n映射为维度为D的特征(Token)T_m,n，并将各子图的特征拼接为形式为(1,1，M，D)的特征序列I_t,n，各子图的特征序列组成一特征序列集I_T:(N,1，M，D),进而实现对各位置块的浅层特征提取；

以及，对各子图的特征序列I_t,n分别实施可学习的位置编码，本实施例中采用但不限于一维位置编码，即令I_T与一可学习的位置参数集E_P:(N，1，M，D)相叠加；

以及，增加一可学习的，形式为(1,1，M，D)的尺度嵌入序列E_scale，与I_T组成形式为(N+1，1，M，D)的特征序列集I_TE；为了方便输入Transformer模块，将I_TE中的特征序列连接为一个大的特征序列I_TE:(1,1，(N+1)×M，D)。

综上，特征序列I_TE可被表达如下：

具体的，本实施例中的神经网络模型被设置为，通过不同步长(Stride)的二维卷积层配合填充(Padding)运算来等效的实现对各子图的不重叠或重叠分割，以及从不同子图得到序列长度相同的映射后的特征。

以上述的输入子图集为例，令Patch大小为8×8，不同子图对应的卷积步长分别为8、6和4，填充位数分别为0、2和4；三张子图分别通过各自对应的二维卷积层，I₁对应的卷积核大小为8×8，步长为8，填充为0，输入通道为c＝3，输出通道为D＝64，对应于不重叠分割；I₂对应的卷积核大小为8×8，步长为6，填充为2，输入通道为c＝3，输出通道为D＝64；I₃对应的卷积核大小为8×8，步长为4，填充为4，输入通道为c＝3，输出通道为D＝64。经过二维卷积之后，再展平两维得到三个形式均为(1,1，28·28，64)的特征序列I_t,1、I_t,2和I_t,2。

本实施例中，位置参数和尺度参数序列的嵌入过程如图3所示，但不限于此；首先将各特征序列连接为一个大的特征序列，形式为(1，1，3·28·28，64)。此时便完成了同一图像的不同尺寸下的符合模型需求的变换；在此基础上首先叠加上可学习的位置参数序列E_P:(1,1，3·28·28，64)，而后连接上可学习的尺度参数图块E_scale:(1,1，28·28，64)，得到特征图块I_TE:(1，1，4·28·28，64)作为多尺度Transformer模块的输入X，即由4组，每组784个维度为64的特征组成的特征序列，用于输入多尺度Transformer模块(MSU-TransformerBlock)。

多尺度Transformer模块包括了依次连接的尺度自注意力计算部分和空间自注意力计算部分；

尺度自注意力计算部分，用于基于输入X计算不同的子图上对应于同一位置的位置块间的自注意力权重，称尺度自注意力权重，进而得到基于输入X和尺度自注意力权重的，形式为(1,1，(N+1)×M，D)的输出X_new；

空间自注意力计算部分，用于基于输入X_new计算同一子图上对应于不同位置的位置块间的自注意力权重，称空间自注意力权重，进而得到基于X_new和空间自注意力权重的，形式为(1,1，(N+1)×M，D)的输出X⁽¹⁾。

如图4所示，在一些实施例中，多尺度Transformer模块还包括连接在空间自注意力计算部分之后的多层感知部分，包括了依次连接的归一化层(LN)和多层感知子模块(MLP)，该部分中引入有Droppath机制以及残差连接，该部分的输出Y为多尺度Transformer模块的输出，形式为(1,1，(N+1)×M，D)。

如图4所示，在这些实施例中，尺度自注意力计算部分包括依次连接的归一化层(LN)、尺度自注意力子模块(ScaleAttention)和前馈网络模块(FFN)，该部分中在前馈网络模块之后引入有Droppath机制以及残差连接；其中，尺度自注意力子模块用于，以输入中的各特征序列/尺度嵌入序列内对应于同一图块位置的共计N+1个特征为一组输入序列，分别计算各组输入序列中的各特征间的自注意力权重。

具体的，以前述的输入为例，输入的X经过变换维度为X_scale:(28·28，1，4，64)，即以四个特征序列中(包括三个子图的特征序列和尺度参数序列)对应同一个图块位置的四个特征组成一个输入序列，于是得到28*28个输入序列，分别的进行多头自注意力计算，进而获得同一位置上不同尺度间的自注意力权重；

X_scale首先经过归一化层(LN)，再经过多头尺度自注意力子模块(ScaleAttention)进行尺度上的自注意力计算，随后依次经过Droppath机制(图中未示出)处理和一个包括一线性层的前馈神经网络模块，输出的残差R_multi-scale形式保持与输入X一致，即形式为(1,1，28·28·4，64)，再通过残差连接将R_multi-scale与X相加求得该部分的输出X_new。

如图4所示，在这些实施例中，空间自注意力计算部分，包括依次连接的归一化层(LN)和空间自注意力子模块(Space Attention)，该部分中在空间自注意力子模块之后引入有Droppath机制以及残差连接；其中，所述空间自注意力子模块用于，以输入中同一子图或尺度嵌入图块所对应的特征序列为一组输入序列，计算各输入序列中各特征序列间的自注意力权重。

具体的，以前述的输入为例，把尺度自注意力计算部分输出的X_new变换为X_spatial:(4，1，28·28，64)，即以同一特征图块(包括三个子图的特征图块和尺度参数图块)中的28·28个特征序列(经过了空间自注意力计算，在原始的特征序列上加上残差)为1个输入序列，于是得到4个输入序列，分别进行多头自注意力计算，进而获得同一尺度下不同位置间的自注意力权重；

X_spatial经过归一化层(LN)，再经过多头空间自注意力计算模块(SpaceAttention)进行空间位置上的自注意力计算，随后通过Droppath机制得到残差R_spatial，同样的，为了与输入X_new保持一致，变换为R_spatial:(1，1，28·28·4，64)的形式，而后通过残差连接将R_spatial与X_new相加该部分的输出X⁽¹⁾；

在这些实施例中，多尺度Transformer模块中的自注意力计算为多头自注意力计算，但并不限于此。

以前述的输入为例，空间自注意力计算部分的输出X⁽¹⁾在该部分中经过归一化层(LN)、多层感知子模块(MLP)和Droppath机制后得到残差R_x ⁽¹⁾加上X⁽¹⁾得到输出Y:(1，1，28·28·4，64)。

综上，多尺度Transformer模块的输出Y可表达如下：

Y＝X⁽¹⁾+Droppath(MLP(LN(X⁽¹⁾)))

其中Droppath(·)表示Droppath机制处理，

表示多头的空间自注意力计算，d表示头(head)数，LN(·)表示归一化层计算,FFN(·)表示前馈神经网络计算，MLP(·)表示多层感知计算；

在一些实施例中，模型还包括图块卷积模块(Patch ConvNN Block)；

如图5所示，至少一个多尺度Transformer模块与所述图块卷积模块连接形成多尺度Transformer-卷积模组；

若多尺度Transformer-卷积模组包含多个多尺度Transformer模块，则各个多尺度Transformer模块依次级联，其中最后一级多尺度Transformer模块与图块卷积模块连接；

图5中的多尺度Transformer-卷积模组包括了两级多尺度Transformer模块，于是，第二级多尺度Transformer模块与图块卷积模块连接。

多尺度Transformer模块的输出Y的形式在进入图块卷积模块时，变换为((N+1)，H，W，D)，可以理解为从特征序列集(以特征为元素的一维序列的集合)的形式变为了特征图集形式(以特征序列为元素的二维矩阵的集合)。

如图6所示，图块卷积模块包括依次连接的第一颗粒堆栈块(Granular StackBlock1)、第二颗粒堆栈块(Granular Stack Block2)和降采样层(Down sample Layer)；

如图7所示，第一粒卷堆栈块用于，一方面令输入Y通过串连的一全连接层和一卷积核为1×1，步长为1的二维卷积层得到输出Y⁽¹⁾，全连接层和卷积层的输出通道数均为输入Y的通道数γ＜1倍，Y⁽¹⁾可表达如下：

其中，ReLU(·)表述ReLU激活函数，*表示卷积操作，W₁为全连接层的参数矩阵，式中全连接层被等效为输入与一1×1的卷积核进行步长为1的卷积操作后再经过ReLU激活函数，W₂为卷积核为1×1步长为1的二维卷积层的参数矩阵，γ为缩减因子。

另一方面，令输入Y首先通过一全连接-DW卷积子模块，该子模块中在全连接层的基础上还加入了卷积核为k×k(图中示例性的k＝3)步长为1的DW(Depth-wise)卷积层(DW-conv)再经过一卷积核为1×1步长为1的二维卷积层，得到输出Y⁽²⁾，全连接-DW卷积子模块和二维卷积层的输出通道数均为输入Y的通道数的γ＜1倍，Y⁽²⁾可表达如下：

其中，W_d为DW卷积层的参数矩阵。

以及，将所述Y⁽¹⁾、Y和Y⁽²⁾在通道维度上依次连接，得到输出Z，此处该操作称之为粒卷堆栈，Z可表达如下：

其中，Contact(·)表示在通道维度上的连接操作。

第二粒卷堆栈块，用于采用与第一粒卷堆栈块同样的方式，基于输入Z得到输出

降采样层用于基于2×2的卷积核对Z⁽¹⁾实施步长为2的卷积，且输出通道数为输入通道数的一半，进而实现降采样，其输出为

具体的，以前述的输入为例，将多尺度Transformer模块的输出Y的形式变换为特征图集形式Y：(4，28，28，64)，并输入到第一粒卷堆栈块。在该模块中，一方面Y通过串连的一全连接层和一卷积核为1×1，步长为1的二维卷积层得到输出Y⁽¹⁾:(4，28，28，32)，全连接层和二维卷积层的输出通道数均为输入Y的通道数的γ＝0.5倍；另一方面Y通过串连的全连接层、卷积核为3×3步长为1的DW卷积层、卷积核为1×1步长为1的二维卷积层，全连接层、DW卷积层和二维卷积层的输出通道数均为输入Y的通道数的γ＝0.5倍，得到输出Y⁽²⁾；:(4，28，28，32)，然后将Y⁽¹⁾、Y和Y⁽²⁾在通道维度上连接起来成为输出Z:(4，28，28，128)；相较于输入Y，Z⁽¹⁾在通道维度上翻倍；将第一粒卷堆栈块的输出Z⁽¹⁾输入第二粒卷堆栈块在之后做同样的操作，这样第二粒卷堆栈块的输出Z⁽¹⁾形式为(4，28，28，256)，通道维度再次翻倍；之后Z⁽¹⁾在降采样层通过一个卷积核2×2，步长2，输入通道256，输出通道128的二维卷积，得到输出Z⁽²⁾:(4，14，14，128)。

如图8所示，在一些实施例中，模型包括多组级联的多尺度Transformer-卷积模组；

图8中示例性的给出了四个依次级联的模组，每个模组的输入是上一个模组的输出。需要注意的是，每个模组只有一个图块卷积模块，但可以有多级串联的多尺度Transformer模块。不难发现，每经过一次图块卷积模块后输出的通道数会翻倍，这也就给下一层级的自注意力计算带来了挑战，于是下一级模组中的多尺度Transformer模块中的尺度/空间注意力计算模块的头数随通的增加而增加，进而提高自注意力计算的准确性，本例中，γ＝0.5为例，各模组的头数分别为4、8、16和32。另一方面，由于输入形式的变化，各模组的具体设置需要做适应性的变化，变化的大小由γ为缩减因子决定，如图7中所述，以γ＝0.5为例，每经过一个模组，输出的特征图集的H和W维度减半，C维度则翻倍。以前述的输入为例，经历了四个模组后，把最后一个模组得到输出Z⁽²⁾ ₄:(4，2，2，1024)输入分类层(Head layer)；

在分类层中，若最后一个模组输出的特征图集尚未被为降采样到特征集的形式，例如前述的Z⁽²⁾ ₄:(4，2，2，1024)，则输入还需经过全局平均池化层以得到一特征集，例如前前述的Z⁽²⁾ ₄经过全局平均池化层后得到Z⁽³⁾ ₄:(4，1，1，1024)，即尺度参数序列和各子图的特征序列均被归纳为一个特征，而后在四个特征(第一维度)间求均值得到特征最后进入分类层，例如本实施例中最终得到的特征Z⁽⁴⁾ ₄:(1，1，1，1024)。

本例中最终的分类层为一个输入为1024，输出为CL的线性层(全连接层)，把Z⁽⁴⁾ ₄:(1，1，1，1024)输入该线性层得到分类输出K:(1，1，1，CL)，其中CL为类别的个数。

将K:(1，1，1，CL)输入判决函数，如Softmax函数，可得到最终的静脉图像识别(分类)结果。

值得提出的是，本发明及其实施例是对现有文献中的ViT模型的改进，因此本文中着重与于现有文献中的ViT模型的不同之处，其他现有文献中已有的或本领域技术人员较为熟知的细节，如归一化层(LN)、前向神经网络(FFN)、残差连接、Droppath机制处理、自注意力计算机制以及多层感知(MLP)等技术手段，在此没有赘述，或可参见文献A.DosoViTskiy,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehghani,M.Minderer,G.Heigold,S.Gelly et al.,“An image is worth 16x16words:Transformers for image recognition at scale,”arXivpreprint arXiv:2010.11929,2020.以及该文献所引用的其他文献。

本实施例中还公开了一种静脉识别方法，其流程如图9所示，包括：

步骤1获取静脉图片；

本实施例中还公开了一种静脉识别系统，该系统如图10所示，包括：静脉图片获取模块和识别模块；

静脉图片获取模块用于获取需识别的静脉图片；

识别模块内部署有已训练好的基于多尺度Transformer的静脉识别神经网络模型，用于根据输入的静脉图片，通过该基于多尺度Transformer的静脉识别神经网络模型得到识别结果。

在另一些实施例中，如图11所示，静脉识别系统还包括训练模块，该模块用于获取用于训练本实施例中基于多尺度Transformer的静脉识别神经网络模型的静脉图片样本；

实验例

本部分中，建立如图7所示的基于多尺度Transformer的静脉识别神经网络模型(表中称OUR)，利用对不同的数据库中的静脉图片实施训练和并测试模型的识别正确率。作为对比，本部分中还再现了现有技术中的各类网络模型实施训练和并测试，这些模型及其出处包括：

ResNet：K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for imagerecognition,”in Proceedings of the IEEE conference on computer vision andpattern recognition,2016,pp.770–778.

VGG：K.Simonyan and A.Zisserman,“Very deep convolutional networks forlarge-scale image recognition,”arXiv preprint arXiv:1409.1556,2014.

FV-CNN：R.Das,E.Piciucco,E.Maiorana,and P.Campisi,“Convolutionalneural network for finger-vein-based biometric identification,”IEEETransactions on Information Forensics and Security,vol.14,no.2,pp.360–373,2018.

PV-CNN：H.Qin,M.A.El-Yacoubi,Y.Li,and C.Liu,“Multi-scale andmultidirection gan for cnn-based single palm-vein identification,”IEEETransactions on Information Forensics and Security,vol.16,pp.2652–2666,2021.

FVRAS-Net：W.Yang,W.Luo,W.Kang,Z.Huang,and Q.Wu,“Fvras-net:An embeddedfinger-vein recognition and antispoofing system using a unified cnn,”IEEETransactions on Instrumentation and Measurement,vol.69,no.11,pp.8690–8701,2020.

Lightweight CNN：J.Shen,N.Liu,C.Xu,H.Sun,Y.Xiao,D.Li,and Y.Zhang,“Finger vein recognition algorithm based on lightweight deep convolutionalneural network,”IEEE Transactions on Instrumentation andMeasurement,2021.

ViT：A.DosoViTskiy,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehghani,M.Minderer,G.Heigold,S.Gelly et al.,“An image isworth 16x16 words:Transformers for image recognition at scale,”arXiv preprintarXiv:2010.11929,2020.

MS-ViT：H.Fan,B.Xiong,K.Mangalam,Y.Li,Z.Yan,J.Malik,andC.Feichtenhofer,“Multiscale vision transformers,”in Proceedings of the IEEE/CVF International Conference on ComputerVision,2021,pp.6824–6835.

数据库1“The PolyU multispectral palmprintdatabase”，来自香港理工大学，包含6000张手掌静脉图像，包括250个对象，每个对象均采集左右两只手掌，分两个阶段采集，每个阶段每只手掌采集6个图像，两个采集阶段的间的平均时间间隔为9天。也就是说，每个志愿者提供了来自两个手掌的24张图像，所有图像采用近红外(NIR)收集，原始手掌静脉图像包含不能提供鉴别信息的背景区域，因此，实验中仅提取感兴趣区域并将其归一化为100×100大小的图像。

数据库2，“VERA PalmVein”，包含2200张手掌静脉图像，包括110个对象，每个对象均采集左右两只手掌，分两个阶段采集，每个阶段每只手掌采集5个图像，也就是说，每个志愿者提供了来自两个手掌的20张图像，实验中，提取感兴趣区域图像，并通过预处理方法对得到的图像进行归一化。

数据库3同济大学掌纹数据库，包括12000个手掌静脉图像包括300个对象，每个对象均采集左右两只手掌，分两个阶段采集，每个阶段每只手掌采集10个图像，两个采集阶段的间的平均时间间隔为两个月。也就是说，每个志愿者来自两个手掌的40张图像，所有图像都以非接触的方式收集，由于感兴趣区域的图像已包含在数据库中，实验中可以直接使用。

实验中，为了评估模型的性能，将三个公共数据库分别分为两集：训练集和测试集。同一人不同的手掌被视为不同的类，所以数据库1具有500个分类(L＝500)，数据库2具有220个分类，数据库3则具有600个分类。在实验中，将第一阶段采集的手掌图像作为训练集，第二阶段采集的手掌图像作为训练集。因此，在数据库3的训练集和测试集中分别有3000张图像，同样，数据库2的训练集和测试集中分别有6000张图像，数据库3则是1100张图像。

对于每只手掌，实验中从训练数据集中选择不同数量的图像来训练不同的模型，并利用测试集来测试模型的识别精度。对于数据库1，分别使用每个手掌的1到6张图像进行训练，对于数据库2则分别使用每个手掌的2到5张图像进行训练，对于数据库3，分别使用每个手掌的2、4、6、8和10张图像进行训练，表1、表2和表3分别展示了基于数据库1、2和3得到的不同的训练样本数量条件下不同模型的识别精度。

表1基于数据库1得到的识别精度对照表

表2基于数据库2得到的识别精度对照表

表3基于数据库3得到的识别精度对照表

/>

从表1-3可见，相较于现有技术中的各种模型，本实施例中的模型在绝大多数情况都具有更高的识别精度，如此好的表现是因为：

1)本实施例中的神经网络模型不仅可以学习图像中位置块之间的空间依赖关系，而且还可以从不同尺度的图像之间捕获不依赖于当前图像尺寸的信息。因此，本实施例中的神经网络模型能够学会鲁棒特征表示的静脉识别。

2)本实施例中的神经网络模型将卷积合并到Transformer中，卷积算子允许通过使用局部感野并共享权值来学习局部特征，而Transformer中的自注意机制能够捕获全局特征，两个模块的组合可以形成互补，以提高静脉识别精度。

3)将每幅图像转换为多个不同尺度的图像，扩大训练样本，从而提高识别性能。

特别需要指出的是，虽然其他基于Transformer的模型，例如在大规模数据上训练的ViT和MS-ViT，在很多计算视觉任务中显示出了良好的性能，但在本处实验中，它们却与基于CNN的模型取得了类似的结果，这是因为Transformer通常比CNN包含更多的需要训练的参数。然而，在静脉识别任务中并没有大量的训练样本，这些模型的容量没能得到有效的利用。2)图像通常显示出一个空间相关的相邻像素的强二维局部结构，CNN架构允许通过使用局部感受野、共享权值和空间子采样来捕获这种局部结构。由此可见，本发明中将卷积合并到Transformer中的策略，对于不具备海量训练样本的静脉识别任务来说非常具有实际意义。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.基于多尺度Transformer的静脉识别神经网络模型，其特征在于，包括，依次连接的尺度变换模块、多尺度分割模块、线性嵌入模块和多尺度Transformer模块；

所述多尺度分割模块用于将各子图I_n分割为尺寸为P×L的位置块，其中对于尺寸最大的I₁，采用无重叠分割；其余子图均采用有重叠分割，该有重叠分割使得各子图被分割为相同数量的，尺寸为P×L的位置块；

M＝H×W

所述线性嵌入模块，用于通过可学习的映射矩阵E，将各序列P_m,n映射为长度为D的特征T_m,n，并将各子的特征拼接为一维的特征序列I_t,n；

以及，对各特征序列I_t,n分别实施可学习的位置编码；

2.根据权利要求1所述的方法，其特征在于，所述多尺度Transformer模块还包括连接在空间自注意力计算部分之后的多层感知部分，包括了依次连接的归一化层和多层感知子模块，该部分中引入有Droppath机制以及残差连接，该部分的输出Y为所述多尺度Transformer模块的输出。

3.根据权利要求1所述的方法，其特征在于，所述尺度自注意力计算部分，包括依次连接的归一化层、尺度自注意力子模块和前馈网络模块，该部分中在前馈网络模块之后引入有Droppath机制以及残差连接；

4.根据权利要求1所述的方法，其特征在于，所述空间自注意力计算部分，包括依次连接的归一化层和空间自注意力子模块，该部分中在空间自注意力子模块之后引入有Droppath机制以及残差连接；

5.根据权利要求1所述的方法，其特征在于，所述多尺度Transformer模块中的自注意力计算为多头自注意力计算。

6.根据权利要求5所述的方法，其特征在于，还包括图块卷积模块；

另一方面令输入Y首先通过一全连接-DW卷积子模块，该子模块中在全连接层的基础上还加入了卷积核为k×k步长为1的DW卷积层再经过一卷积核为1×1步长为1的二维卷积层，得到输出Y⁽²⁾，全连接-DW卷积子模块和二维卷积层的输出通道数均为输入Y的通道数的γ＜1倍；

7.根据权利要求6所述的方法，其特征在于，包括多组级联的所述多尺度Transformer-卷积模组；

并且，后一级多尺度Transformer-卷积模组中多头自注意计算的头数是前一级多尺度Transformer-卷积模组中的2γ+1倍；

优先的，包括四组级联的多尺度Transformer-卷积模组。

8.一种静脉识别方法，其特征在于，包括：

步骤1获取静脉图片；

9.一种静脉识别系统，其特征在于，包括静脉图片获取模块和识别模块；

所述静脉图片获取模块用于获取需识别的静脉图片；

10.根据权利要求9所述的系统，其特征在于，还包括训练模块，该模块用于获取用于训练所述静脉识别神经网络模型的静脉图片样本；