CN116758610A

CN116758610A - 基于注意力机制和特征融合的轻量化人耳识别方法及系统

Info

Publication number: CN116758610A
Application number: CN202310594964.2A
Authority: CN
Inventors: 雷艳敏; 潘冬; 冯志彬; 钱俊如
Original assignee: Changchun University
Current assignee: Changchun University
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-09-15

Abstract

本发明公开了一种基于注意力机制和特征融合的轻量化人耳识别方法及系统，包括：对YOLOv5s算法架构进行改进，构建轻量化网络，在构建的轻量化网络的主干网络与颈部网络连接处分别设置注意力模块，得到人耳识别模型；获取人耳数据，通过构建的人耳识别模型进行人耳识别，对特征图中的目标进行不同维度上的注意力加权权重，由人耳识别模型的颈部网络进行特征融合，通过输出网络进行人耳识别。对YOLOv5s的主干网络的特征提取和/或颈部网络的特征融合同时进行轻量化，可以大幅度的提高该方法的实时性，同时在主干网络和颈部网络连接处加入CBAM注意力机制和跨区域特征融合，大大提高了识别的准确率。

Description

基于注意力机制和特征融合的轻量化人耳识别方法及系统

技术领域

本发明属于人耳识别检测技术领域，本发明涉及一种基于注意力机制和特征融合的轻量化人耳识别方法及系统。

背景技术

目前，人耳识别方法主要有两大类：传统方法和基于深度学习的方法。传统方法是从人耳图像上提取到人耳的全局特征或者局部特征来进行人耳识别。

基于深度学习的方法主要有两大类，双阶段网络和单阶段网络。双阶段网络对人耳识别时分为两个步骤，第一步对人耳目标生成候选框，第二步是确定人耳类别，代表性的网络主要有Faster R-CNN网络。2018年，Susan等人提出了一种基于双阶段网络Faster R-CNN的人耳检测系统，并在UDN、FERET、WVU和AWE人耳数据集组成的测试集上进行了验证，检测率达到98％。同年，张义提出了一种多尺度Faster-R-CNN人耳检测算法，解决人耳在非受控场景下，识别效果鲁棒性差的问题，在非受控人耳数据库USTB-WebEar和USTB-Helloear上人耳识别精确度达到99％。

单阶段网络是使用回归网络得到人耳目标分类和检测框，代表性的网络是SSD和YOLO系列。2021年，杜保伟提出了基于单阶段网络SSD和轻量级网络MobileNetv1的人耳识别系统，在USTB数据集上人耳识别率达到98％；同年，钱俊如提出了一种基于YOLOv3的动态人耳识别方法，在CCU-DE人耳数据库人耳识别精度达到90％以上。

YOLOv5是一种单阶段深度学习方法，在输入部分加入了自适应图像填充、自适应锚框计算对数据进行处理，增加了数据的多样性，提高了准确性；在主干网络中主要采用CSPDarkNet53网络，该网络引入Focus结构与CSP结构，在不损失训练精度的前提下，提高速度；输出端采用GIOU_Loss损失函数进行回归，加权NMS运算对多个目标锚框进行筛选来提高对目标识别的准确度。

在深度学习中，单阶段网络比双阶段网络更快速，与辅助网络相结合可以提高识别精度，但也会增加网络的计算量、参数数量和模型大小，导致网络的实时性不理想。因此网络的实时性和准确率都有待提高，本发明因此而来。

发明内容

本发明的目的在于提供一种基于注意力机制和特征融合的轻量化人耳识别方法及系统，对YOLOv5s算法架构进行改进，对YOLOv5s的主干网络的特征提取和/或颈部网络的特征融合同时进行轻量化，可以大幅度的提高该方法的实时性，同时在主干网络和颈部网络连接处加入CBAM注意力机制和跨区域特征融合，大大提高了识别的准确率。

实现本发明目的的技术解决方案为：

一种基于注意力机制和特征融合的轻量化人耳识别方法，包括以下步骤：

S01：对YOLOv5s算法架构进行改进，构建轻量化网络，在构建的轻量化网络的主干网络与颈部网络连接处分别设置注意力模块，得到人耳识别模型；

S02：获取人耳数据，通过构建的人耳识别模型进行人耳识别，对特征图中的目标进行不同维度上的注意力加权权重，由人耳识别模型的颈部网络进行特征融合，通过输出网络进行人耳识别。

优选的技术方案中，所述步骤S01中构建轻量化网络包括，采用MobileNetV3网络作为人耳识别模型的主干网络；将YOLOv5s颈部网络中C3模块替换成C3Ghost模块，将Conv模块替换成GhostConv模块，构建YOLOv5s-MG轻量化网络。

优选的技术方案中，所述采用MobileNetV3网络作为人耳识别模型的主干网络的方法包括：

S11：利用MobileNetV3-Small网络的第1层到第12层的特征提取网络代替YOLOv5s主干网络对人耳图像进行特征提取，并保持MobileNetV3-Small的主干网络中深度可分离卷积尺寸不变；

S12：将MobileNetV3-Small网络中第4层、第9层和第12层的MobileNetV3-Block模块作为YOLOv5s的颈部网络的输入，进行特征融合。

优选的技术方案中，所述注意力模块为CBAM注意力模块。

优选的技术方案中，在YOLOv5s-MG轻量化网络的最后一层Bneck，连接注意力模块之后，添加SPPF模块，最后与颈部网络的左侧最后一个GhostConv模块相连。

优选的技术方案中，所述步骤S01中，在主干网络与颈部网络之间增加两条通道，一条是从主干网络第六层开始，连接到颈部网络的第三concat层；另一条是从主干网络第十一层开始，连接到颈部网络的第四concat层；两条路径用于补充特征融合层的上下文信息，在网络中加入更多的浅、深特征，补充图像质量较差的小物体和目标的信息。

优选的技术方案中，所述步骤S01中还包括，通过人耳数据集对人耳识别模型进行训练和检测，采用mAP值、模型大小、计算量、及参数量作为评价指标对人耳识别模型进行评价。

本发明还公开了一种基于注意力机制和特征融合的轻量化人耳识别系统，包括：

人耳识别模型构建模块，对YOLOv5s算法架构进行改进，构建轻量化网络，在构建的轻量化网络的主干网络与颈部网络连接处分别设置注意力模块，得到人耳识别模型；

人耳识别模块，获取人耳数据，通过构建的人耳识别模型进行人耳识别，对特征图中的目标进行不同维度上的注意力加权权重，由人耳识别模型的颈部网络进行特征融合，通过输出网络进行人耳识别。

优选的技术方案中，所述人耳识别模型构建模块还包括，在主干网络与颈部网络之间增加两条通道，一条是从主干网络第六层开始，连接到颈部网络的第三concat层；另一条是从主干网络第十一层开始，连接到颈部网络的第四concat层；两条路径用于补充特征融合层的上下文信息，在网络中加入更多的浅、深特征，补充图像质量较差的小物体和目标的信息。

本发明又公开了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述的基于注意力机制和特征融合的轻量化人耳识别方法。

本发明与现有技术相比，其显著优点为：

对YOLOv5s算法架构进行改进，对YOLOv5s的主干网络的特征提取和/或颈部网络的特征融合同时进行轻量化，可以大幅度的提高该方法的实时性，同时在主干网络和颈部网络连接处加入CBAM注意力机制和跨区域特征融合，大大提高了识别的准确率。

YOLOv5s-MG-CBAM-F方法，与YOLOv5s相比在提升实时性的同时，具有最好的人耳识别准率，特别是针对EarVN1.0人耳数据集图片分辨率差、姿态丰富的情况。本文提出的方法能够满足人耳识别准确率和实时性两方面的性能，对于人耳识别装置在身份识别等领域的应用具有良好前景。

附图说明

图1为较佳实施例的基于注意力机制和特征融合的轻量化人耳识别方法的流程图；

图2为较佳实施例的基于注意力机制和特征融合的轻量化人耳识别系统的原理框图；

图3为较佳实施例的YOLOv5s-MG人耳识别模型网络结构图；

图4为MobileNetV3-Block网络结构图；

图5为C3Ghost模块网络结构图；

图6为GhostConv网络运算过程图；

图7为较佳实施例的YOLOv5s-MG-CBAM-F人耳识别模型网络结构图；

图8a-8d为改进的YOLOv5s-MG-CBAM-F方法在三种人耳数据集上训练mAP@0.5图；

图9a-9d为改进的YOLOv5s-MG-CBAM-F方法与其他方法在三种人耳数据集上性能指标。

具体实施方式

本发明的原理是：采用MobileNetV3和Ghostnet同时轻量化YOLOv5s的骨干网络和颈部网络，构建了YOLOv5s-MG轻量化人耳识别模型，可以提高方法的实时性；在YOLOv5s-MG的骨干网络和颈部网络连接处加入CBAM注意力机制，构建了YOLOv5s-MG-CBAM人耳识别网络，可以提高方法的准确性；加入SPPF层和跨区域特征融合，构建了YOLOv5s-MG-CBAM-F人耳识别模型，进一步提高了准确性。

实施例1：

如图1所示，一种基于注意力机制和特征融合的轻量化人耳识别方法，包括以下步骤：

较佳的实施例中，步骤S01中构建轻量化网络包括，采用MobileNetV3网络作为人耳识别模型的主干网络；将YOLOv5s颈部网络中C3模块替换成C3Ghost模块，将Conv模块替换成GhostConv模块，构建YOLOv5s-MG轻量化网络。

具体的，采用MobileNetV3网络作为人耳识别模型的主干网络的方法包括：

较佳的实施例中，注意力模块为CBAM注意力模块。

较佳的实施例中，在YOLOv5s-MG轻量化网络的最后一层Bneck，连接注意力模块之后，添加SPPF模块，最后与颈部网络的左侧最后一个GhostConv模块相连。

较佳的实施例中，步骤S01中，在主干网络与颈部网络之间增加两条通道，一条是从主干网络第六层开始，连接到颈部网络的第三concat层；另一条是从主干网络第十一层开始，连接到颈部网络的第四concat层；两条路径用于补充特征融合层的上下文信息，在网络中加入更多的浅、深特征，补充图像质量较差的小物体和目标的信息。

较佳的实施例中，步骤S01中还包括，通过人耳数据集对人耳识别模型进行训练和检测，采用mAP值、模型大小、计算量、及参数量作为评价指标对人耳识别模型进行评价。

另一实施例中，一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述的基于注意力机制和特征融合的轻量化人耳识别方法。

又一实施例中，如图2所示，一种基于注意力机制和特征融合的轻量化人耳识别系统，包括：

人耳识别模型构建模块10，对YOLOv5s算法架构进行改进，构建轻量化网络，在构建的轻量化网络的主干网络与颈部网络连接处分别设置注意力模块，得到人耳识别模型；

人耳识别模块20，获取人耳数据，通过构建的人耳识别模型进行人耳识别，对特征图中的目标进行不同维度上的注意力加权权重，由人耳识别模型的颈部网络进行特征融合，通过输出网络进行人耳识别。

较佳的，如图3所示，人耳识别模型构建模块10中构建轻量化网络包括，采用MobileNetV3网络作为人耳识别模型的主干网络；将YOLOv5s颈部网络中C3模块替换成C3Ghost模块，将Conv模块替换成GhostConv模块，构建YOLOv5s-MG轻量化网络。

采用MobileNetV3网络作为人耳识别模型的主干网络的方法包括：

具体的，MobileNetV3-Small网络中第1层为conv_bn_hswish，conv_bn_hswish为卷积、归一化和激活函数，第2层到第12层为Bneck，Bneck表示MobileNetV3-Block网络结构，如图4所示，为了提高计算推理速度，将MobileNetV3中的激活函数替换为h-swish函数，具体结构为：首先对输入特征进行1×1卷积操作，其激活函数为h-swish；然后进行3×3的深度可分离卷积操作；接着采用注意力机制SE，其内部激活函数为h-swish；最后利用1×1卷积对特征进行降维处理。

较佳的，人耳识别模型构建模块中还包括，将YOLOv5s颈部网络中C3模块替换成C3Ghost模块，将Conv模块替换成GhostConv模块，构建YOLOv5s-MG人耳识别模型。

如图5所示，C3Ghost模块是以GhostConv为基本单元形成的网络，其中DWConv表示深度可分离卷积，Stride为步长，Add是特征相加。具体结构为：由主路径和分支组成。主路径首先对输入特征采用GhostConv操作；然后当步长Stride＝2时采用深度可分离卷积(DWConv)，步长为1时此步骤可省略；接着再进行GhostConv操作。分支首先对输入特征采用深度可分离卷积(DWConv)操作；然后当步长Stride＝2时采用卷积(Conv)操作，步长为1时此步骤可省略。最后将主路径和分支进行特征相加(Add)，完成信息提取任务。

GhostConv模块的运算过程如图6所示，当输入大小为D_F×D_F×M特征图时，普通卷积的卷积核为D_K×D_K×N，计算量是D_K×D_K×M×D_F×D_F×N。GhostConv模块第一步假设生成m个特征图，计算量是D_K×D_K×M×D_F×D_F×m。为了保证与传统卷积输出大小相同，GhostConv模块第二步对第一步输出的特征图进行轻量级线性操作，如式(1)所示。

其中y′_i表示第i个特征图，y_ij表示由第i个特征图经过线性运算得到的第j个特征图，φ_ij表示线性运算。GhostConv模块可得到N个输出特征图，且N＝m×s。

从图6中可知，只进行了s-1个占用计算资源的线性变换，因此GhostConv模块计算量为D_K×D_K×M×D_F×D_F×m+(s-1)×D_K×D_K×D_F×D_F。那么GhostConv模块和普通卷积计算量关系如公式(2)所示。

由式(2)可知，在计算量上，普通卷积是GhostConv模块的s倍。因此，GhostConv模块可以大幅度降低网络的参数量和计算量。

Concat为特征拼接，Up-sampling为上采样。

输出网络为多个目标锚框(anchors)。

进一步对YOLOv5s-MG轻量化网络进行改进。改进的人耳识别网络YOLOv5s-MG-CBAM-F如图7所示。具体的步骤如下：

步骤3.1：基于注意力机制的YOLOv5s-MG-CBAM人耳识别网络；

注意力模块可以为SENet、CANet、ECANet或CBAM，较佳的，本实施例利用CBAMNet来改进YOLOv5s-MG轻量化网络。

一般来说，注意力可以添加到图7网络主干网络、颈部网络和输出网络，加到主干网络，主要是为了加强网络的特征提取能力；加到颈部网络主要为了加强特征融合能力；加到输出网络加强网络的输出预测能力。本实施例在主干网络和颈部网络相连接的地方增加一个CBAM注意力模块，如图7中注意力模块所示。

CBAM注意力模块是一种通道注意力模块(Channel Attention Module，CAM)和空间注意力模块(Spatial Attention Module，SAM)结合的轻量型注意力，对特征图依次使用通道注意力模块和空间注意力模块。通道注意力模块使网络能够学习到含有关键信息的通道，空间注意力模块使网络能够学习到通道特征图上的关键信息。

从图7可知，整个网络要进行3次注意力模块的运算，通过对特征图中的目标进行不同维度上的注意力加权权重，以加强网络对特征图中目标重要信息的提取能力，进而提高检测的精度。

步骤3.2：基于特征融合的YOLOv5s-MG-CBAM-F人耳识别网络；

通过对改进的YOLOv5s-MG-CBAM方法的研究，相比于YOLOv5-MG方法，人耳识别精度会增加，但是也会存在一定的局限性。一是特征融合网络对于浅层信息和深层信息利用率不高；二是主干网络提取信息不够稳定。因此，本实施例对基于注意力机制改进的YOLOv5s-MG-CBAM模型进一步改进。

步骤3.2.1：基于SPPF层的网络改进；

为了进一步增加网络的多特征提取能力，在基于注意力机制的YOLOv5s-MG-CBAM人耳识别模型的基础上增加SPPF模块，具体的操作是：在YOLOv5s-MG-CBAM模型的主干网络的最后一层Bneck，连接CBAM注意力模块之后，添加SPPF模块，最后与颈部网络的左侧最后一个GhostConv模块相连。通过SPPF模块中不同大小池化核的最大池化来改善网络的感受野，增加特征提取能力。

对于任意大小图像，SPPF模块是以5×5、9×9、13×13的最大池化模块，以串联的方式连接对图像进行特征提取。将每个池化层输出的特征和输入图像特征连接起来，形成固定长度的特征图。与SPP网络相比，SPPF网络保持了基于多尺度的信息提取，对于提高精度更为有效。

步骤3.2.2：跨区域特征融合；

随着神经网络的不断特征提取操作，图像中的底层特征和高层特征会被逐层分解。图像底层特征包含的语义信息较少，但是特征图分辨率大，位置信息充足，目标位置准确。图像的高层特征又称为语义特征，具有丰富的语义信息，但是目标位置粗略。因此，不同层次特征进行融合有助于神经网络在目标检测和识别上更加准确。

如图7所示，在基于注意力机制改进YOLOv5s-MG-CBAM网络和PANet网络的基础上，增加了两条通道。一条是从主干网络第六层开始，连接到颈部网络的第三concat层。另一条是从主干网络第十一层出发，连接到颈部网络的第四concat层。两条路径补充了特征融合层的上下文信息。在网络中加入更多的浅、深特征，补充图像质量较差的小物体和目标的信息。第一和第二concat层分别与注意力机制连接，在读取浅层特征和深层特征时，注意力机制会对两种特征进行分析，使特征融合网络的特征信息更加准确。

为了验证所提出的YOLOv5s-MG-CBAM-F人耳识别模型的有效性，需要人耳数据集对模型进行训练和检测，本文采用了CCU-DE、USTB和EarVN1.0三个各具特色的人耳数据集。

由于CCU-DE的数据集是动态视频，因此需要对视频进行截帧。10个动态人耳视频以每秒2帧的速度被截取，共有3274张照片。训练集：验证集：测试集按照3：1：1进行分配，其中655张图片作为测试集，655张图片作为验证集，1964张图片作为训练集。

选择database3人耳数据集中70类人耳图像进行标识，并通过左右翻转、旋转和饱和度变化等操作对数据进行增强。增强后每一类别拥有110张图像，共计7700张人耳图像。训练集：验证集：测试集按照3：1：1进行分配，其中1540张图片作为测试集，1540张图片作为验证集，4620张图片作为训练集。

从EarVN1.0数据集中选择了前十五类人耳样本进行实验。共有3201张照片。训练集：验证集：测试集按照3：1：1进行分配，其中640张图片作为测试集，640张图片作为验证集，1921张图片作为训练集。

实验是本文提出的基于特征融合和注意力机制的YOLOv5s-MG-CBAM-F方法和YOLOv5s-MG-SE-F、YOLOv5s-MG-ECA-F和YOLOv5s-MG-CA-F。这三种方法的特征融合与YOLOv5s-MG-CBAM-F一致。

实验平台和实验参数设置如下表1所示。

评价指标

为了评估本文提出的人耳识别网络的性能，本文采用mAP值、模型大小、计算量(GFLOPs)、参数量(params)作为评价指标。

平均识别精度，在目标识别任务中，AP表示识别算法对某一类别的平均精度，mAP表示所有类别的平均精度除以类别总数的和，用于评价目标检测模型的性能。其公式如(3)所示：

其中，C为样本种类数，AP为样本的平均识别精度，计算公式如(4)所示：

其中，N表示recall的数量，r表示召回率，p(r)表示最大准确率，准确率p和召回率r计算如式(5)和式(6)所示：

其中，TP为被正确地划分为正例的数量；FP为被错误地划分为正例的数量；FN为被错误地划分为负例的数量；TN为被正确地划分为负例的数量。

计算量是指模型推断时所需的计算次数，反映了对硬件性能需求。计算通常由浮点运算(FLOPs)表示，模型的计算量等于模型中每层计算量之和，单位为G。

参数量是指网络模型中参与训练的参数总数，与模型在磁盘中所需的空间直接相关。对于卷积神经网络，参数量主要由卷积层和全连接层的权值组成，单位为M。

模型大小是指一个模型的大小，即模型所占存储空间，单位为MB。

为了验证本文提出的基于注意力和特征融合的轻量化人耳识别方法YOLOv5s-MG-CBAM-F的可行性和有效性，并验证YOLOv5s-MG-CBAM-F、YOLOv5s-MG、YOLOv5s-MG-SE-F、YOLOv5s-MG-ECA-F、YOLOv5s-MG-CA-F与原始的YOLOv5s之间性能的异同，本文将六种网络在CCU-DE、USTB和EarVN1.0人耳数据集上以相同的参数进行训练和测试。实验平台和实验参数如表1所示。

图8为YOLOv5s-MG-CBAM-F、YOLOv5s-MG-SE-F、YOLOv5s-MG-ECA-F、YOLOv5s-MG-CA-F、YOLOv5s-MG和YOLOv5s六个网络在三个数据集上的训练曲线，横坐标为训练次数(epoch)，纵坐标为准确率(mAP@0.5)。从图8可知，随着epoch次数逐渐增加，mAP@0.5的值逐渐趋于稳定，即模型收敛。但是对于不同的人耳数据集，因为姿态、分辨率、图像大小和数量的不同，收敛时的epoch不同。在CCU-DE人耳数据集上模型收敛的epoch约为40，如图8a所示。在USTB人耳数据集上模型收敛的epoch约为70，如图8b所示。在EarVN1.0人耳数据集上模型开始收敛时epoch约为150，如图8c所示。在EarVN1.0人耳数据集上模型收敛时epoch约为400，如图8d所示。本实验中分别选择epoch＝150和epoch＝1000作为定量来验证六种模型之间的区别，实验结果分别如表2和图9所示。

从表2和图9a可知，在USTB人耳数据集上，YOLOv5s-MG-CBAM-F和其他方法一样，人耳识别率最高，mAP@0.5值为1；CCU-DE次之，mAP@0.5为0.98以上，YOLOv5s-MG-CBAM-F的mAP@0.5值与其他方法在±0.3％以内。与CCU-DE和USTB人耳数据集相比，EarVN1.0数据集上人耳识别率最低。但是，在EarVN1.0数据集上，epoch＝1000时，YOLOv5s-MG-CBAM-F的mAP@0.5值为0.919，在六种方法中人耳识别率最高，比YOLOv5s提高了3.7％，比YOLOv5s-MG提高了6.4％，比YOLOv5s-MG-SE提高了6.3％，比YOLOv5s-MG-ECA提高了4.1％，比YOLOv5s-MG-CA提高了4.9％。

从表2和图9b、图9c和图9d中，可以看出YOLOv5s-MG-CBAM-F方法的参数量、计算量和模型大小低于YOLOv5s，而略高于其他方法。

在CCU-DE人耳数据集上，改进的YOLOv5s-MG-CBAM-F模型的参数量(params)、计算量(GFLOPS)和模型大小分别是YOLOv5s的78.5％、48.8％和75.2％；在USTB人耳数据集上，改进的YOLOv5s-MG-CBAM-F模型的参数量(params)、计算量(GFLOPS)和模型大小分别是YOLOv5s的85.4％、52.1％和86.3％；在EarVN1.0人耳数据集上，改进的YOLOv5s-MG-CBAM-F模型的参数量(params)、计算量(GFLOPS)和模型大小分别是YOLOv5s的76.9％、50.6％和79.6％。

对比特征融合前后的实验结果，在EarVN1.0数据集上，除了YOLOv5s-MG-SE-F比YOLOv5s-MG-SE的mAP@0.5值低0.3％之外，YOLOv5s-MG-CBAM-F、YOLOv5s-MG-ECA-F和

YOLOv5s-MG-CA-F比YOLOv5s-MG-CBAM、YOLOv5s-MG-ECA和YOLOv5s-MG-CA的mAP@0.5值分别高了3.6％、4.5％和1.5％。实验定量的证明了，在增加注意力机制的轻量化网络YOLOv5s-MG-CBAM中通过添加SPPF网络和跨区域特征融合的PANet网络，确实增加了网络的特征提取和特征融合能力，提高了人耳识别精度。同时，也增加了网络的参数量、计算量和模型的大小，但都低于改进前的YOLOv5s人耳识别网络。

表2改进的YOLOv5s-MG-CBAM-F方法与其他方法在三种人耳数据集上性能指标

因此，由实验结果可知，YOLOv5s-MG-CBAM-F方法在CCU-DE、USTB和EarVN1.0上的人耳识别率分别是98.6％、100％和91.9％，比YOLOv5s低1.3％、相同和高3.7％，该方法的参数量(params)、计算量(GFLOPS)和模型大小比YOLOv5s-MG高，比YOLOv5s低。在CCU-DE、USTB和EarVN1.0B上，YOLOv5s-MG-CBAM-F比YOLOv5s的参数量(params)、计算量(GFLOPS)和模型大小分别提升了21.5％、51.2％、24.8％；14.6％、47.9％、13.7％和23.1％、49.4％、20.4％。YOLOv5s-MG-CBAM方法在人耳识别准确率和实时性两个方面的性能介于YOLOv5s-MG-CBAM-F和YOLOv5s-MG之间。定量结果表明，本文提出的YOLOv5s-MG方法在与YOLOv5s具有相同或者相近的人耳识别准确率的情况下，具有最好的实时性；

上述实施例为本发明优选地实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制和特征融合的轻量化人耳识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力机制和特征融合的轻量化人耳识别方法，其特征在于，所述步骤S01中构建轻量化网络包括，采用MobileNetV3网络作为人耳识别模型的主干网络；将YOLOv5s颈部网络中C3模块替换成C3Ghost模块，将Conv模块替换成GhostConv模块，构建YOLOv5s-MG轻量化网络。

3.根据权利要求2所述的基于注意力机制和特征融合的轻量化人耳识别方法，其特征在于，所述采用MobileNetV3网络作为人耳识别模型的主干网络的方法包括：

4.根据权利要求1所述的基于注意力机制和特征融合的轻量化人耳识别方法，其特征在于，所述注意力模块为CBAM注意力模块。

5.根据权利要求3所述的基于注意力机制和特征融合的轻量化人耳识别方法，其特征在于，在YOLOv5s-MG轻量化网络中主干网络的最后一层Bneck，连接注意力模块之后，添加SPPF模块，最后与颈部网络的左侧最后一个GhostConv模块相连。

6.根据权利要求1所述的基于注意力机制和特征融合的轻量化人耳识别方法，其特征在于，所述步骤S01中，在主干网络与颈部网络之间增加两条通道，一条是从主干网络第六层开始，连接到颈部网络的第三concat层；另一条是从主干网络第十一层开始，连接到颈部网络的第四concat层；两条路径用于补充特征融合层的上下文信息，在网络中加入更多的浅、深特征，补充图像质量较差的小物体和目标的信息。

7.根据权利要求1所述的基于注意力机制和特征融合的轻量化人耳识别方法，其特征在于，所述步骤S01中还包括，通过人耳数据集对人耳识别模型进行训练和检测，采用mAP值、模型大小、计算量、及参数量作为评价指标对人耳识别模型进行评价。

8.一种基于注意力机制和特征融合的轻量化人耳识别系统，其特征在于，包括：

9.根据权利要求8所述的基于注意力机制和特征融合的轻量化人耳识别系统，其特征在于，所述人耳识别模型构建模块还包括，在主干网络与颈部网络之间增加两条通道，一条是从主干网络第六层开始，连接到颈部网络的第三concat层；另一条是从主干网络第十一层开始，连接到颈部网络的第四concat层；两条路径用于补充特征融合层的上下文信息，在网络中加入更多的浅、深特征，补充图像质量较差的小物体和目标的信息。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-7任一项所述的基于注意力机制和特征融合的轻量化人耳识别方法。