CN116503918A

CN116503918A - 基于ViT网络的掌静脉图像分类方法、装置、设备及介质

Info

Publication number: CN116503918A
Application number: CN202210073014.0A
Authority: CN
Inventors: 余孟春; 谢清禄; 陈贵祥
Original assignee: Guangzhou Melux Information Technology Co ltd
Current assignee: Guangzhou Melux Information Technology Co ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-07-28

Abstract

本发明实施例公开了一种基于ViT网络的掌静脉图像分类方法、装置、设备及介质。本发明涉及掌静脉图像分类技术领域，其包括：将标注有预设标签的掌静脉图像数据集按预设比例划分为训练数据集及验证数据集；对训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集；基于相似度方法，利用目标训练图像数据集及验证数据集对修改后的ViT网络模型进行训练，以得到分类模型及与分类模型相对应的多个类别特征向量；将待分类掌静脉图像输入分类模型以得到分类特征向量，并根据分类特征向量及多个类别特征向量得到待分类掌静脉图像的分类结果。本申请实施例可提高掌静脉图像的分类准确度。

Description

基于ViT网络的掌静脉图像分类方法、装置、设备及介质

技术领域

本发明涉及掌静脉图像分类技术领域，尤其涉及一种基于ViT网络的掌静脉图像分类方法、装置、设备及介质。

背景技术

手掌静脉识别是一种新兴的生物特征识别技术，利用人体手掌血液中的血红素对近红外光具有较强的吸收特性，获得手掌静脉的分布纹路进行身份识别。掌静脉识别不仅具有非接触式认证和高可靠性的优点，而且必须活体检测，无法造假，安全级别比较高。近年来，对掌静脉特征提取与识别的方法大致分为三大类，第一类是基于整体的子空间学习方法；第二类是基于曲线匹配的方法；第三类是基于深度学习技术的方法，但由于掌静脉图像为特殊的网状结构，易变形，局部相关性弱，拓扑结构复杂，使得掌静脉特征提取的有效性较差，识别准确度较低，进而导致掌静脉图像分类的准确度较低。

发明内容

本发明实施例提供了一种基于ViT网络的掌静脉图像分类方法、装置、设备及介质，旨在解决现有掌静脉特征提取有效性较差及掌静脉图像分类准确度较低的问题。

第一方面，本发明实施例提供了一种基于ViT网络的掌静脉图像分类方法，其包括：

将标注有预设标签的掌静脉图像数据集按预设比例划分为训练数据集及验证数据集；

对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集；

基于相似度方法，利用所述目标训练图像数据集及所述验证数据集对ViT网络模型进行训练，以得到分类模型及与所述分类模型相对应的多个类别特征向量；

将待分类掌静脉图像输入所述分类模型以得到分类特征向量，并根据所述分类特征向量及所述多个类别特征向量得到所述待分类掌静脉图像的分类结果。

第二方面，本发明实施例还提供了一种基于ViT网络的掌静脉图像分类装置，其包括：

划分单元，用于将标注有预设标签的掌静脉图像数据集按预设比例划分为训练数据集及验证数据集；

处理单元，用于对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集；

训练单元，用于基于相似度方法，利用所述目标训练图像数据集及所述验证数据集对ViT网络模型进行训练，以得到分类模型及与所述分类模型相对应的多个类别特征向量；

分类单元，用于将待分类掌静脉图像输入所述分类模型以得到分类特征向量，并根据所述分类特征向量及所述多个类别特征向量得到所述待分类掌静脉图像的分类结果。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

本发明实施例提供了一种基于ViT网络的掌静脉图像分类方法、装置、设备及介质。其中，所述方法包括：将标注有预设标签的掌静脉图像数据集按预设比例划分为训练数据集及验证数据集；对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集；基于相似度方法，利用所述目标训练图像数据集及所述验证数据集对ViT网络模型进行训练，以得到分类模型及与所述分类模型相对应的多个类别特征向量；将待分类掌静脉图像输入所述分类模型以得到分类特征向量，并根据所述分类特征向量及所述多个类别特征向量得到所述待分类掌静脉图像的分类结果。本发明实施例的技术方案，先采用数据增强扩充后的目标训练图像数据集对修改后的ViT网络模型进行训练得到分类模型，再通过分类模型对待分类掌静脉图像进行分类，可提高掌静脉特征提取的有效性，进而提高掌静脉图像的分类准确度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于ViT网络的掌静脉图像分类方法的流程示意图；

图2为本发明实施例提供的一种基于ViT网络的掌静脉图像分类装置的示意性框图；以及

图3为本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1，图1是本发明实施例提供的一种基于ViT网络的掌静脉图像分类方法的流程示意图。本发明实施例的基于ViT网络的掌静脉图像分类方法可应用于服务器中，通过安装于所述服务器上的软件程序来实现所述基于ViT网络的掌静脉图像分类方法，可提高掌静脉特征提取的有效性，进而提高掌静脉图像的识别准确度及分类准确度。如图1所示，该方法包括以下步骤S100-S130。

S100、将标注有预设标签的掌静脉图像数据集按预设比例划分为训练数据集及验证数据集。

在本发明实施例中，在对ViT网络模型进行训练之前，首先需要从预设样本库中获取掌静脉图像，并对所述掌静脉图像进行人工标注。具体地，可通过自行研发的标注工具对同一个人的所述掌静脉图像采样相同的预设标签进行标注，可理解地，对于不同人的所述掌静脉图像采样不同的预设标签进行标注。对所述掌静脉图像中的待检测目标进行标注之后，将所述掌静脉图像保存至掌静脉图像数据集，并将所述掌静脉图像数据集按预设比例划分为训练数据集及验证数据集，其中，所述预设比例为8:2，可理解地，所述预设比例也可根据实际需求自行设置，例如为7:3。在实际应用中，是将所述掌静脉图像数据集中具有同一预设标签的掌静脉图像数据按预设比例进行划分为训练数据集及验证数据集。需要说明的是，在本发明实施例中，ViT(Vision Transformer)是将Transformer应用在图像分类领域的神经网络。通过ViT，可以将Transformer的优势在图像识别领域发挥出来，例如通过Transformer的自注意力机制，可以解决传统的图像识别卷积网络在特征提取时固定且有限的视野问题，自注意力机制可以获得更大范围的特征信息。ViT网络模型包括数据处理模块及分类模块，其中，所述数据处理模块包括Patch Embedding层、Position Embedding层以及Class Token层；所述分类模块包括Transformer Encoder层和MLP Head层。在实际应用中，所述Patch Embedding层用于对输入所述ViT网络模型中的二维图像数据进行分块和降维得到一维序列块数据；Position Embedding层用于将所述一维序列块数据中的每个向量进行线性变换，并嵌入位置信息得到带有序列位置信息的一维序列块数据；所述ClassToken层是为了添加一个分类特征向量，并与带有序列位置信息的一维序列块数据向量进行拼接以得到拼接后的序列块数据，并将拼接后的所述序列块数据输入所述TransformerEncoder层；所述Transformer Encoder层由多头自注意力机制(Multi-head self-attention，MSA)、LayerNorm和两层全连接层组成，经过该层可得到多头自注意力的输出；所述MLP Head层用于取多头自注意力的输出中的第一维输出，并经过一层全连接层，得到最终的输出结果。

S110、对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集。

在本发明实施例中，通过图像裁剪、图像翻转、图像旋转、色彩增强中的一种或多种数据增强扩充方法，对所述训练数据集进行数据增强扩充得到训练图像数据集；可理解地，图像翻转可进行水平或竖直翻转；图像旋转可将图片相对于中心点旋转预设角度，其中，所述预设角度为0度到360度之间；色彩增强可调节图片的饱和度、亮度等；对所述训练数据集进行数据增强扩充得到训练图像数据集之后，再对所述训练图像数据集进行归一化处理得到目标训练图像数据集。

S120、基于相似度方法，利用所述目标训练图像数据集及所述验证数据集对ViT网络模型进行训练，以得到分类模型及与所述分类模型相对应的多个类别特征向量。

在本发明实施例中，对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集之后，将所述目标训练图像数据集输入ViT网络模型进行训练，直至满足预设训练条件为止，以得到预测分类模型及与所述预测分类模型相对应的多个预测类别特征向量，其中，所述预设训练条件为训练次数达到预设训练次数或预设损失函数的值是否小于预设损失值；将所述验证数据集输入训练后的所述ViT网络模型以得到多个分类特征向量；基于相似度方法，根据所述多个分类特征向量及所述多个预测类别特征向量计算分类准确率，具体地，依次计算每个分类特征向量与所述多个预测类别特征向量的相似度，并选择相似度值最大的所述预测类别特征向量作为所述分类特征向量的分类结果；根据所述分类结果所对应的相似度值及预设相似度值计算分类准确率，具体地，判断所述分类结果所对应的相似度值是否大于预设相似度值；若所述相似度值大于所述预设相似度值，则将正确值的个数加1，直至所有所述分类结果判断完成为止，其中，所述正确值的个数初始值为0，可理解地，若所述相似度值不大于所述预设相似度值，所述正确值的个数就不加1；根据所述正确值的个数及所述分类结果的总数计算分类准确率。计算所述分类准确率之后，判断所述分类准确率是否大于预设阈值；若所述分类准确率大于所述预设阈值，则将所述预测分类模型及所述多个预测类别特征向量分别作为分类模型及与所述分类模型相对应的多个类别特征向量。可理解地，若所述分类准确率不大于所述预设阈值，则重新设置所述预设训练条件，并返回执行所述将所述目标训练图像数据集输入ViT网络模型进行训练的步骤。需要说明的是，在本发明实施例中，对所述ViT网络模型进行训练时的预设损失函数为Arcface损失函数。还需要说明的是，在本发明实施例中，与所述分类模型相对应的多个类别特征向量表征多个人的掌静脉特征向量，即同一个人的多张掌静脉图像可归类为同一类别的掌静脉特征向量。

S130、将待分类掌静脉图像输入所述分类模型以得到分类特征向量，并根据所述分类特征向量及所述多个类别特征向量得到所述待分类掌静脉图像的分类结果。

在本发明实施例中，通过掌静脉采集设备采集待分类掌静脉图像，并将所述待分类掌静脉图像上传至安装有所述分类模型的服务器端，服务器端接收所述待分类掌静脉图像，将所述待分类掌静脉图像输入所述分类模型以得到分类特征向量，并依次计算所述分类特征向量与每个所述类别特征向量的相似度，并选择相似度值最大的所述类别特征向量作为所述待分类掌静脉图像的分类结果，并将所述待分类掌静脉图像及所述分类结果保存至预设文件夹，相关人员通过查看预设文件夹中的分类结果可知分类的准确性。需要说明的是，在本发明实施例中，相似度值越大，表明两个特征向量之间越相似，分类准确度越高。

图2是本发明实施例提供的一种基于ViT网络的掌静脉图像分类装置200的示意性框图。如图2所示，对应于以上基于ViT网络的掌静脉图像分类方法，本发明还提供一种基于ViT网络的掌静脉图像分类装置200。该基于ViT网络的掌静脉图像分类装置200包括用于执行上述基于ViT网络的掌静脉图像分类方法的单元，该装置可以被配置于服务器中。具体地，请参阅图2，该基于ViT网络的掌静脉图像分类装置200包括划分单元201、处理单元202、训练单元203以及分类单元204。

其中，所述划分单元201用于将标注有预设标签的掌静脉图像数据集按预设比例划分为训练数据集及验证数据集；所述处理单元202用于对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集；所述训练单元203用于基于相似度方法，利用所述目标训练图像数据集及所述验证数据集对ViT网络模型进行训练，以得到分类模型及与所述分类模型相对应的多个类别特征向量；所述分类单元204用于将待分类掌静脉图像输入所述分类模型以得到分类特征向量，并根据所述分类特征向量及所述多个类别特征向量得到所述待分类掌静脉图像的分类结果。

在某些实施例，例如本实施例中，所述处理单元202包括扩充单元2021及归一化单元2022。

其中，所述扩充单元2021用于通过图像裁剪、图像翻转、图像旋转、色彩增强中的一种或多种数据增强扩充方法，对所述训练数据集进行数据增强扩充得到训练图像数据集；所述归一化单元2022用于对所述训练图像数据集进行归一化处理得到目标训练图像数据集。

在某些实施例，例如本实施例中，所述训练单元203包括训练子单元2031、输入单元2032、计算单元2033、作为单元2034以及返回执行单元2035。

其中，所述训练子单元2031用于将所述目标训练图像数据集输入ViT网络模型进行训练，直至满足预设训练条件为止，以得到预测分类模型及与所述预测分类模型相对应的多个预测类别特征向量；所述输入单元2032用于将所述验证数据集输入训练后的所述ViT网络模型以得到多个分类特征向量；所述计算单元2033用于基于相似度方法，根据所述多个分类特征向量及所述多个预测类别特征向量计算分类准确率，并判断所述分类准确率是否大于预设阈值；所述作为单元2034用于若所述分类准确率大于所述预设阈值，则将所述预测分类模型及所述多个预测类别特征向量分别作为分类模型及与所述分类模型相对应的多个类别特征向量；所述返回执行单元2035用于若所述分类准确率不大于所述预设阈值，则重新设置所述预设训练条件，并返回执行所述将所述目标训练图像数据集输入ViT网络模型进行训练的步骤。

在某些实施例，例如本实施例中，所述计算单元2033包括第一计算子单元20331、判断单元20332、第二计算子单元20333以及第三计算子单元20334。

其中，所述第一计算子单元20331用于依次计算每个分类特征向量与所述多个预测类别特征向量的相似度，并选择相似度值最大的所述预测类别特征向量作为所述分类特征向量的分类结果；所述判断单元20332用于判断所述分类结果所对应的相似度值是否大于预设相似度值；所述第二计算子单元20333用于若所述相似度值大于所述预设相似度值，则将正确值的个数加1，直至所有所述分类结果判断完成为止；所述第三计算子单元20334用于根据所述正确值的个数及所述分类结果的总数计算分类准确率。

在某些实施例，例如本实施例中，所述基于ViT网络的掌静脉图像分类装置200还包括保存单元205。

其中，所述保存单元205用于将所述待分类掌静脉图像及所述分类结果保存至预设文件夹。

本发明实施例的基于ViT网络的掌静脉图像分类装置200的具体实现方式与上述基于ViT网络的掌静脉图像分类方法相对应，在此不再赘述。

上述基于ViT网络的掌静脉图像分类装置可以实现为一种计算机程序的形式，该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3，图3是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备300为服务器，具体地，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参阅图3，该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305，其中，存储器可以包括存储介质303和内存储器304。

该存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时，可使得处理器302执行一种基于ViT网络的掌静脉图像分类方法。

该处理器302用于提供计算和控制能力，以支撑整个计算机设备300的运行。

该内存储器304为存储介质303中的计算机程序3032的运行提供环境，该计算机程序3032被处理器302执行时，可使得处理器302执行一种基于ViT网络的掌静脉图像分类方法。

该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备300的限定，具体的计算机设备300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器302用于运行存储在存储器中的计算机程序3032，以实现如下步骤：将标注有预设标签的掌静脉图像数据集按预设比例划分为训练数据集及验证数据集；对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集；基于相似度方法，利用所述目标训练图像数据集及所述验证数据集对ViT网络模型进行训练，以得到分类模型及与所述分类模型相对应的多个类别特征向量；将待分类掌静脉图像输入所述分类模型以得到分类特征向量，并根据所述分类特征向量及所述多个类别特征向量得到所述待分类掌静脉图像的分类结果。

在某些实施例，例如本实施例中，处理器302在实现所述对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集步骤时，具体实现如下步骤：通过图像裁剪、图像翻转、图像旋转、色彩增强中的一种或多种数据增强扩充方法，对所述训练数据集进行数据增强扩充得到训练图像数据集；对所述训练图像数据集进行归一化处理得到目标训练图像数据集。

在某些实施例，例如本实施例中，处理器302在实现所述基于相似度方法，利用所述目标训练图像数据集及所述验证数据集对ViT网络模型进行训练，以得到分类模型及与所述分类模型相对应的多个类别特征向量步骤时，具体实现如下步骤：将所述目标训练图像数据集输入ViT网络模型进行训练，直至满足预设训练条件为止，以得到预测分类模型及与所述预测分类模型相对应的多个预测类别特征向量；将所述验证数据集输入训练后的所述ViT网络模型以得到多个分类特征向量；基于相似度方法，根据所述多个分类特征向量及所述多个预测类别特征向量计算分类准确率，并判断所述分类准确率是否大于预设阈值；若所述分类准确率大于所述预设阈值，则将所述预测分类模型及所述多个预测类别特征向量分别作为分类模型及与所述分类模型相对应的多个类别特征向量；若所述分类准确率不大于所述预设阈值，则重新设置所述预设训练条件，并返回执行所述将所述目标训练图像数据集输入ViT网络模型进行训练的步骤。

在某些实施例，例如本实施例中，处理器302在实现所述基于相似度方法，根据所述多个分类特征向量及所述多个预测类别特征向量计算分类准确率步骤时，具体实现如下步骤：依次计算每个分类特征向量与所述多个预测类别特征向量的相似度，并选择相似度值最大的所述预测类别特征向量作为所述分类特征向量的分类结果；根据所述分类结果所对应的相似度值及预设相似度值计算分类准确率。

在某些实施例，例如本实施例中，处理器302在实现所述根据所述分类结果所对应的相似度值及预设相似度值计算分类准确率步骤时，具体实现如下步骤：判断所述分类结果所对应的相似度值是否大于预设相似度值；若所述相似度值大于所述预设相似度值，则将正确值的个数加1，直至所有所述分类结果判断完成为止；根据所述正确值的个数及所述分类结果的总数计算分类准确率。

在某些实施例，例如本实施例中，处理器302在实现所述将待分类掌静脉图像输入所述分类模型以得到分类特征向量，并根据所述分类特征向量及所述多个类别特征向量得到所述待分类掌静脉图像的分类结果的步骤之后，具体实现还包括如下步骤：将所述待分类掌静脉图像及所述分类结果保存至预设文件夹。

应当理解，在本申请实施例中，处理器302可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行上述基于ViT网络的掌静脉图像分类方法的任意实施例。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于ViT网络的掌静脉图像分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述训练数据集进行数据增强扩充及归一化处理得到目标训练图像数据集，包括：

通过图像裁剪、图像翻转、图像旋转、色彩增强中的一种或多种数据增强扩充方法，对所述训练数据集进行数据增强扩充得到训练图像数据集；

对所述训练图像数据集进行归一化处理得到目标训练图像数据集。

3.根据权利要求1所述的方法，其特征在于，所述基于相似度方法，利用所述目标训练图像数据集及所述验证数据集对ViT网络模型进行训练，以得到分类模型及与所述分类模型相对应的多个类别特征向量，包括：

将所述目标训练图像数据集输入ViT网络模型进行训练，直至满足预设训练条件为止，以得到预测分类模型及与所述预测分类模型相对应的多个预测类别特征向量；

将所述验证数据集输入训练后的所述ViT网络模型以得到多个分类特征向量；

基于相似度方法，根据所述多个分类特征向量及所述多个预测类别特征向量计算分类准确率，并判断所述分类准确率是否大于预设阈值；

若所述分类准确率大于所述预设阈值，则将所述预测分类模型及所述多个预测类别特征向量分别作为分类模型及与所述分类模型相对应的多个类别特征向量。

4.根据权利要求3所述的方法，其特征在于，所述判断所述分类准确率是否大于预设阈值之后，还包括：

若所述分类准确率不大于所述预设阈值，则重新设置所述预设训练条件，并返回执行所述将所述目标训练图像数据集输入ViT网络模型进行训练的步骤。

5.根据权利要求3所述的方法，其特征在于，所述基于相似度方法，根据所述多个分类特征向量及所述多个预测类别特征向量计算分类准确率，包括：

依次计算每个分类特征向量与所述多个预测类别特征向量的相似度，并选择相似度值最大的所述预测类别特征向量作为所述分类特征向量的分类结果；

根据所述分类结果所对应的相似度值及预设相似度值计算分类准确率。

6.根据权利要求5所述的方法，其特征在于，所述根据所述分类结果所对应的相似度值及预设相似度值计算分类准确率，包括：

判断所述分类结果所对应的相似度值是否大于预设相似度值；

若所述相似度值大于所述预设相似度值，则将正确值的个数加1，直至所有所述分类结果判断完成为止；

根据所述正确值的个数及所述分类结果的总数计算分类准确率。

7.根据权利要求1所述的方法，其特征在于，所述将待分类掌静脉图像输入所述分类模型以得到分类特征向量，并根据所述分类特征向量及所述多个类别特征向量得到所述待分类掌静脉图像的分类结果之后，还包括：

将所述待分类掌静脉图像及所述分类结果保存至预设文件夹。

8.一种基于ViT网络的掌静脉图像分类装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。