CN115564993A

CN115564993A - 一种基于多尺度特征融合和注意力机制的唇纹图像分类算法

Info

Publication number: CN115564993A
Application number: CN202211177810.5A
Authority: CN
Inventors: 韦静; 周洪成; 牛犇; 黄乾峰; 潘磊; 张磊磊
Original assignee: Yancheng Institute of Technology
Current assignee: Yancheng Institute of Technology
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-01-03

Abstract

本发明涉及深度学习技术，揭露了一种基于多尺度特征融合与注意力机制的唇纹图像分类算法，属于生物特征识别中的唇纹识别领域。该发明首先建立包含唇纹图像数据集，通过搭建的采集装置进行图像采集。分别设计了多尺度特征融合模块和注意力机制模块。然后使用Pytorch框架以轻量型MobileNetV2为基础网络搭建神经网络模型，将训练集和验证集数据输入加入注意力机制和多尺度特征融合模块的网络中进行训练，并保存训练后的识别模型，最后使用该模型实现对唇纹图像的分类识别。本发明中的算法解决了传统人工设计特征提取算法复杂繁琐和分类识别精度较低的问题，提高了唇纹识别网络的性能，对其在身份识别和验证领域的推广和应用提供了技术参考。

Description

一种基于多尺度特征融合和注意力机制的唇纹图像分类算法

技术领域

本发明涉及生物特征识别和人工智能领域，尤其涉及一种基于多尺度融合模块、注意力机制的唇纹识别算法。

背景技术

深度学习是机器学习的子集，使用级联的多层(非线性)处理单元，称为人工神经网络(ANN)，以及受大脑结构和功能(神经元)启发的算法。深度学习算法最大的优点是它们尝试以增量方式训练图像，从而学习低级和高级特征。这消除了在提取或工程中对手工制作的特征的需要。随着机器学习和深度学习的发展，人脸识别、指纹识别和掌纹识别等技术成功的应用到各个领域，如智能上下班考勤系统、智能锁、支付密码、手机解锁密码、刑侦、法医学和身份证等，未来生物识别技术将在商业应用、公共项目应用、公共与社会安全应用、个人生活应用、身份证应用等各领域实际使用。

生物特征识别技术是指通过计算机与光学、声学、生物传感器和生物统计学原理等科学技术密切结合，利用人体固有的生理特性(如指纹、人脸、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的识别和验证，具有唯一性、永久性和便携性等重要特征。唇纹识别作为新兴的生物特征识别技术，起源于法医学实践领域，具有较高的安全性、可靠性和隐藏性的特点。现有的唇纹识别算法是基于图像处理技术，识别流程主要包括采集数据集、图像预处理、特征提取和分类识别。基于深度学习的唇纹识别算法属于细粒度分类任务，它具有训练样本数据少、个体间唇纹区分度较低和特征信息之间差异较小的特点。

发明内容

为本发明提供一种基于多尺度特征融合和注意力机制的唇纹图像分类算法，其主要目的在于解决唇纹图像分类识别的实时性差和准确度较低的问题。

为实现上述目的，本发明提供了一种基于多尺度特征融合和注意力机制的唇纹图像分类算法，主要适用于解决现有的唇纹识别算法中细粒度分类任务困难、特征信息提取较难、识别率较低、应用困难以及识别过程太复杂且需要花费大量的时间等问题。相比于现有的唇纹识别算法，其特殊性和创新性在于，该算法将多尺度特征融合模块与注意力机制模块结合起来，加入深度卷积神经网络MobileNetV2网络中，实现提取更细节的唇纹特征信息生成更细化的特征图，注意力机制使得网络更关注重要的分类特征信息，有效的抑制无关干扰性特征信息，促进模型的分类识别能力。本发明所述的算法可以对大规模唇纹数据集进行训练，然后使用小数据样本来预测分类，实现个人身份的识别，利用卷积神经网络中多尺度特征融合模块和注意力机制的功能特性，提高网络模型的尺度适应能力和在测试集的泛化能力。

上述算法具体方案内容包括以下步骤：

步骤1)：使用专业的摄像机搭建采集装置采集唇纹图像，建立包含30个人的唇纹图像数据集；

步骤2)：对采集的唇纹图像进行分文件存储，并将需要进行识别的唇纹数据按照比例分为训练集、验证集和测试集三类，并读取待训练的唇纹图像；

步骤3)：设计多尺度特征融合模块，使网络具有适应多种尺度的能力；

步骤4)：引入注意力机制模块，提高网络对特征提取的细化能力；

步骤5)：基于pytorch深度学习框架，构建融合注意力机制和多尺度特征融合模块的深度卷积神经网络；

步骤6)：输入唇纹图像到搭建好的模型中进行模型训练；

步骤7)：通过步骤6)得到训练后的唇纹识别模型的各层权重参数，并保存其模型文件；

步骤8)：加载步骤7)中保存的模型参数文件，对步骤2)中划分后的测试集输入模型进行预测分类，并输出每张唇纹图片所对应的类别和准确率，算法终止。

进一步地，所述步骤1)具体为：使用采集装置采集唇纹图像，所采集的唇纹图像分别来自于30个志愿者，采用非接触式采集方法采集图像，使用三个枪型网络摄像机，搭配手动变焦、自动光圈的像素为800万的高清镜头进行拍摄。为获取到不同角度的唇纹图像，采取视频录像的方式，在自然光照的条件下，志愿者的嘴唇与摄像机镜头保持30厘米的距离，然后保持闭合状态从左往右、从上往下的移动，最终得到每个志愿者的嘴唇视频录像。由于视频录像中每个人脸大小和位置不同，导致嘴唇的位置也不同，无法进行统一的处理。经过简单的预处理图片均属于低分辨率唇纹图像，更适用于实际生活场景的应用。

进一步地，所述步骤2)具体为：将建立的唇纹数据按照一定的比例划分为三类，分别是训练集、验证集和测试集。最终每个志愿者分别提取了60张清晰的图像，将30个志愿者的唇纹图像分别保存并建立唯一的类别标签，一个数字编号代表一个志愿者，整个数据集共1800张唇纹图像。为了降低数据集的数量对网络模型识别率的影响，使用简单的数据增强方法对数据集进行了数据扩充，如旋转45°、镜像、高斯模糊和增强亮度等方法，将一张照片扩充为5张，扩充后的数据集共9000张。并以7∶2∶1的比例划分为训练集、验证集和测试集。

进一步地，所述步骤3)具体为：为了使网络具有多尺度的特征信息提取能力，适应不同分辨率的输入图像，提出分组式多尺度特征融合(MFF)结构。以通道分离操作实现分组卷积，然后使用3×3、5×5、7×7和9×9四种不同大小的卷积核对输入特征图进行卷积操作，生成对应通道的特征子图f1-f4。对4组通道数中产生的特征图进行拼接操作，并对其输出特征向量F进行归一化处理Batch Normalization和ReLU6激活得到最终的输出特征图，BN可以加快网络的收敛和训练速度以及提高分类精度，非线性激活ReLU6可以减少特征信息的损失。该结构不仅融合了多尺度卷积核提取的特征信息，而且增强了通道间的特征信息交流，提升了网络的特征细化能力，能够学习到更抽象的唇纹特征信息。

进一步地，所述步骤4)具体为：注意力机制模块可以使网络模型获取表达能力更强的语义信息，主要包括通道注意力、空间注意力和混合注意力，通道注意力通过增加通道间的信息交流，学习通道之间的相互依赖关系，以改变网络权重的方式对网络的语义信息进行调整。空间注意力提取空间位置信息，混合注意力则是将通道注意力和空间注意力结合，突出图像的感兴趣区域，使网络重点关注有效的特征信息，抑制干扰性特征。CBAM为混合注意力机制模块，包括通道注意力子模块和空间注意力子模块，将两个子模块进行串行连接。通道注意力模块的计算过程包括：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))))

其中F表示输入特征信息，Mc(F)表示通道注意力子模块的输出，Ms(F)则为空间注意力子模块的输出。使用全局平均池化GAP和全局最大池化GMP对输入特征图进行下采样操作，尽量减少主要特征信息的丢失，生成通道注意特征图，再与输入进行逐元素相乘调整输出特征图的大小。空间注意力子模块的计算过程包括：

M_s(F)＝σ(f^7×7([AvgPool(F)，MaxPool(F)]))

主要是对通道注意力子模块的输出进行池化操作，然后对池化后的特征图基于通道做拼接操作，最后以7×7的卷积核对特征图进行降维，采用sigmoid激活函数生成空间注意力特征子图，与输入特征做乘法操作得到包含重要信息的输出特征图。

进一步地，所述步骤5)具体为：在原MobilenetV2主干网络的结构基础上，分别在第一层卷积和最后一组线性瓶颈层结构的后面加入分组式多尺度特征融合模块，增强网络的多尺度特征信息提取能力。以及在线性瓶颈结构中串联嵌入注意力机制模块，如图所示，注意力机制模块关注重要的特征信息，抑制其他干扰性特征信息。不仅增加了网络的特征细化能力，还提高网络的识别效率。由于加入带有卷积操作的模块难免会增加参数计算量，应用至内存和计算性能受限的终端设备较难，因此我们通过引入参数a对是否嵌入注意力机制模块进行控制，目标是在增加少量参数的情况下提高识别准确率，控制网络的参数计算量以及模型的大小。

本发明的有益效果是：该算法利用多尺度特征融合模块的特征细化能力，使得深度卷积神经网络MobileNetV2中的线性瓶颈结构具有强大的特征表达能力，可以更有效的提取唇纹图像中的分类特征信息，与原MobileNetV2网络的分类识别性能相比，不仅加快了分类速度，还提升了分类精确度。注意力机制模块不仅有效的提取了图像中的重要特征信息，还抑制了干扰性特征信息的贡献，整体的提高了测试数据集分类准确率，提升了识别模型的泛化能力和稳定性；既可以训练不同规模大小的唇纹数据集，以适应其在雇个人身份识别和验证领域的应用；该算法采用包含多种角度的唇纹图像数据集，使得唇纹识别方法不仅更适用于生活实际应用场景，提升刑侦调查和法医学领域中确定犯罪嫌疑人或死者身份的效率，还扩展唇纹识别在信息安全和身份识别领域的应用；该发明算法可以自动提取唇纹特征和分类，具备可靠性、实时性和可解释性强的优势，易于生物识别研究领域的相关研究人员的理解及推广应用。

附图说明

图1是本发明提供的唇纹识别技术的整体流程示意图；

图2是本发明采集唇纹图片的装置示意图；

图3是本发明提供的多尺度融合模块示意图；

图4是本发明提供的混合注意力机制模块示意图；

图5是本发明提供的深度卷积神经网络结构示意图；

图6是本发明实现唇纹分类算法在测试集中分类结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，所述唇纹图像分类识别算法步骤包括：采集唇纹图像、设计多尺度特征融合模块和混合注意力模块、训练唇纹识别模型并保存模型参数、输入测试集到加载好的模型中进行预测分类输出分类结果。

请参阅图2，所述采集装置主要包括三台带有存储器的专业摄像机，放置位置如图所示。保证采集的图像具有多角度性，采集的数据集分别来自于30个志愿者，采用非接触式采集方法采集图像，所用相机型号为DS-2CD4024F-SDI的枪型网络摄像机，搭配手动变焦、自动光圈的像素为800万的高清镜头进行拍摄。为获取到不同角度的唇纹图像，采取视频录像的方式，在自然光照的条件下，志愿者的嘴唇与摄像机镜头保持30厘米的距离，然后保持闭合状态从左往右、从上往下的移动，最终得到每个志愿者的嘴唇视频录像。本发明实施例也可以通过智能手机、摄像头定位拍摄和移动终端自带的摄像头进行拍摄获取得到所述唇纹分类图像。

所述处理图像的具体地实施过程为：通过帧提取的方法，以每隔5帧抓取一张图片的方式获得清晰的RGB图像，并将每张图片大小统一裁剪为458×234。经过简单的预处理图片均属于低分辨率唇纹图像，更适用于实际生活场景的应用。最终每个志愿者分别提取了60张清晰的图像，将30个志愿者的唇纹图像分别保存并建立唯一的类别标签，一个数字编号代表一个志愿者，整个数据集共1800张唇纹图像，为了降低数据集的数量对网络模型识别率的影响，使用简单的数据增强方法对数据集进行了数据扩充，本发明中所述的数据增强方法包括但不限于旋转45°、镜像、高斯模糊和增强亮度等方法，将一张照片扩充为5张，扩充后的数据集共9000张。并以7∶2∶1的比例划分为训练集、验证集和测试集。

请参阅图3，所述设计多尺度特征融合模块，是为了使网络具有多尺度的特征信息提取能力，适应不同分辨率的输入图像，提出分组式多尺度特征融合结构。以通道分离操作实现分组卷积，然后使用3×3、5×5、7×7和9×9四种不同大小的卷积核对输入特征图进行卷积操作，生成对应通道的特征子图f1、f2、f3、f4。对4组通道数中产生的特征图进行拼接操作，并对其输出特征向量F进行归一化处理和ReLU6激活得到最终的输出特征图，BN可以加快网络的收敛和训练速度以及提高分类精度，非线性激活ReLU6可以减少特征信息的损失。该结构不仅融合了多尺度卷积核提取的特征信息，而且增强了通道间的特征信息交流，提升了网络的特征细化能力，能够学习到更抽象的唇纹特征信息。所述的融合特征向量计算公式为：

F＝Concat(f₁，f₂，f₃，f₄)

其中F表示经过多尺度特征融合后的特征向量，Concat表示拼接操作，其中的f1、f2、f3、f4为不同通道产生的特征子图。

请参阅图4，所提供的是混合注意力机制模块，具体设计过程为：混合注意力机制可以使网络模型获取表达能力更强的语义信息，主要包括通道注意力、空间注意力和混合注意力，通道注意力通过增加通道间的信息交流，学习通道之间的相互依赖关系，以改变网络权重的方式对网络的语义信息进行调整。空间注意力提取空间位置信息，混合注意力则是将通道注意力和空间注意力结合，突出图像的感兴趣区域，使网络重点关注有效的特征信息，抑制干扰性特征。混合注意力机制包括通道注意力子模块和空间注意力子模块，将两个子模块进行串行连接。CBAM注意力机制模块的输入输出计算过程为：

其中F1表示输入特征信息，Mc(F1)表示通道注意力子模块的输出，Ms(F2)则为空间注意力子模块的输出。通道注意力模块的计算过程为：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))))

使用全局平均池化和全局最大池化对输入特征图进行下采样操作，尽量减少主要特征信息的丢失，生成通道注意特征图，再与输入进行逐元素相乘调整输出特征图的大小。空间注意力子模块的计算公式为：

M_s(F)＝σ(f^7×7([AvgPool(F)，MaxPool(F)]))

上述公式主要是对通道注意力子模块的输出进行池化操作，然后对池化后的特征图基于通道做拼接操作，最后以7×7的卷积核对特征图进行降维，采用sigmoid激活函数生成空间注意力特征子图，与输入特征做乘法操作得到包含重要信息的输出特征图。

请参阅图5，以预设的卷积神经网络作为主干网络，并在所述主干网络上添加混合注意力机制模块和多尺度特征融合模块，得到初始唇纹识别模型。所述卷积神经网络为MobileNetV2网络。所述MobileNet网络是轻量级卷积神经网络，相比传统的卷积神经网络，在准确率小幅降低的前提下大大减少模型参数与运算量。MobileNet V2网络相比MobileNet网络，准确率稍高，模型更小。

具体地，所述以预设的卷积神经网络作为主干网络，并在所述主干网络上添加混合注意力机制模块和多尺度特征融合模块，得到初始唇纹识别模型，具体地在原MobileNetV2网络的结构上，分别在第一层卷积和最后一组线性瓶颈层结构的后面加入分组式多尺度特征融合模块MFF，增强网络的多尺度特征信息提取能力。以及在线性瓶颈结构中串联嵌入混合注意力机制模块CBAM，注意力机制模块关注重要的特征信息，抑制其他干扰性特征信息。不仅增加了网络的特征细化能力，还提高网络的识别效率。进一步地加入带有卷积操作的模块难免会增加参数计算量，应用至内存和计算性能受限的终端设备较难，因此我们通过引入参数对是否嵌入注意力机制模块进行控制，目标是在增加少量参数的情况下提高识别准确率，控制网络的参数计算量以及模型的大小。

请参阅图6，所述唇纹识别算法，将训练集和验证集输入搭建好的神经网络进行唇纹识别模型训练，并保存模型参数文件；接着将所保存的测试集数据输入到模型中，加载模型参数进行预测分类，从图中可以看出分类识别效果极佳，上述算法存在的问题得到了有效的解决。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多尺度特征融合和注意力机制的唇纹图像分类算法，所述算法包括以下步骤：

1)：使用专业的摄像机搭建采集装置采集唇纹图像，建立包含30个人的唇纹图像数据集；

2)：对图像进行分文件存储，并将需要进行识别的唇纹数据按照比例分为训练集、验证集和测试集三类，并读取待训练的唇纹图像；

3)：设计多尺度特征融合模块，使网络具有适应多种尺度的能力；

4)：引入注意力机制模块，提高网络对特征提取的细化能力；

5)：基于pytorch深度学习框架，构建融合注意力机制和多尺度特征融合模块的深度卷积神经网络；

6)：输入唇纹图像到搭建好的模型中进行模型训练；

7)：通过步骤6)得到训练后的唇纹识别模型的各层权重参数，并保存其模型文件；

8)：加载步骤7)中保存的模型参数文件，对步骤2)中划分后的测试集输入模型进行预测分类，并输出每张唇纹图片所对应的类别和准确率，算法终止。

2.根据权利要求1所述的一种基于多尺度特征融合和注意力机制的唇纹图像分类算法，其特征在于，所述步骤1)中：使用采集装置采集唇纹图像，所采集的唇纹图像分别来自于30个志愿者，采用非接触式采集方法采集图像，使用三个枪型网络摄像机，搭配手动变焦、自动光圈的像素为800万的高清镜头进行拍摄，为获取到不同角度的唇纹图像，采取视频录像的方式，在自然光照的条件下，志愿者的嘴唇与摄像机镜头保持30厘米的距离，然后保持闭合状态从左往右、从上往下的移动，最终得到每个志愿者的嘴唇视频录像，由于视频录像中每个人脸大小和位置不同，导致嘴唇的位置也不同，无法进行统一的处理，经过简单的预处理图片均属于低分辨率唇纹图像，更适用于实际生活场景的应用。

3.根据权利要求1所述的一种基于多尺度特征融合和注意力机制的唇纹图像分类算法，其特征在于，步骤2)中：将建立好的唇纹数据集，按照一定的比例划分为三类，分别是训练集、验证集和测试集，最终每个志愿者分别提取了60张清晰的图像，将30个志愿者的唇纹图像分别保存并建立唯一的类别标签，一个数字编号代表一个志愿者，整个数据集共1800张唇纹图像，为了降低数据集的数量对网络模型识别率的影响，使用简单的数据增强方法对数据集进行了数据扩充，如旋转45°、镜像、高斯模糊和增强亮度等方法，将一张照片扩充为5张，扩充后的数据集共9000张，并以7∶2∶1的比例划分为训练集、验证集和测试集。

4.根据权利要求1所述的一种基于多尺度特征融合和注意力机制的唇纹图像分类算法，其特征在于，所述步骤3)中：为了使网络具有多尺度的特征信息提取能力，适应不同分辨率的输入图像，提出分组式多尺度特征融合(MFF)结构，以通道分离操作实现分组卷积，然后使用3×3、5×5、7×7和9×9四种不同大小的卷积核对输入特征图进行卷积操作，生成对应通道的特征子图f1-f4，对4组通道数中产生的特征图进行拼接操作，并对其输出特征向量F进行归一化处理Batch Normalization和ReLU6激活得到最终的输出特征图，BN可以加快网络的收敛和训练速度以及提高分类精度，非线性激活ReLU6可以减少特征信息的损失，该结构不仅融合了多尺度卷积核提取的特征信息，而且增强了通道间的特征信息交流，提升了网络的特征细化能力，能够学习到更抽象的唇纹特征信息。

5.根据权利要求1所述的一种基于多尺度特征融合和注意力机制的唇纹图像分类算法，其特征在于，所述步骤4)中：注意力机制模块可以使网络模型获取表达能力更强的语义信息，主要包括通道注意力、空间注意力和混合注意力，通道注意力通过增加通道间的信息交流，学习通道之间的相互依赖关系，以改变网络权重的方式对网络的语义信息进行调整，空间注意力提取空间位置信息，混合注意力则是将通道注意力和空间注意力结合，突出图像的感兴趣区域，使网络重点关注有效的特征信息，抑制干扰性特征，CBAM为混合注意力机制模块，包括通道注意力子模块和空间注意力子模块，将两个子模块进行串行连接，通道注意力模块的计算过程包括：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))))

其中F表示输入特征信息，Mc(F)表示通道注意力子模块的输出，Ms(F)则为空间注意力子模块的输出，使用全局平均池化GAP和全局最大池化GMP对输入特征图进行下采样操作，尽量减少主要特征信息的丢失，生成通道注意特征图，再与输入进行逐元素相乘调整输出特征图的大小，空间注意力子模块的计算过程包括：

M_s(F)＝σ(f^7×7([AvgPool(F)，MaxPool(F)]))

6.根据权利要求1所述的一种基于多尺度特征融合和注意力机制的唇纹图像分类算法，其特征在于，所述步骤5)中：在原MobilenetV2主干网络的结构基础上，分别在第一层卷积和最后一组线性瓶颈层结构的后面加入分组式多尺度特征融合模块，增强网络的多尺度特征信息提取能力，以及在线性瓶颈结构中串联嵌入注意力机制模块，如图所示，注意力机制模块关注重要的特征信息，抑制其他干扰性特征信息，不仅增加了网络的特征细化能力，还提高网络的识别效率，由于加入带有卷积操作的模块难免会增加参数计算量，应用至内存和计算性能受限的终端设备较难，因此我们通过引入参数a对是否嵌入注意力机制模块进行控制，目标是在增加少量参数的情况下提高识别准确率，控制网络的参数计算量以及模型的大小。