CN117523208B - 基于图像语义分割与分类的身份识别方法与系统 - Google Patents
基于图像语义分割与分类的身份识别方法与系统 Download PDFInfo
- Publication number
- CN117523208B CN117523208B CN202410021388.7A CN202410021388A CN117523208B CN 117523208 B CN117523208 B CN 117523208B CN 202410021388 A CN202410021388 A CN 202410021388A CN 117523208 B CN117523208 B CN 117523208B
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- channel
- module
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 79
- 239000011159 matrix material Substances 0.000 claims description 75
- 238000010586 diagram Methods 0.000 claims description 43
- 230000004913 activation Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 31
- 238000011176 pooling Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 11
- 230000007246 mechanism Effects 0.000 abstract description 7
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 24
- 238000004422 calculation algorithm Methods 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 9
- 230000009466 transformation Effects 0.000 description 8
- 238000007635 classification algorithm Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000007667 floating Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000013585 weight reducing agent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像语义分割与分类的身份识别方法与系统,属于图像模式识别领域,包括:构建语义分割网络,基于人眼图像数据集与对应的掩码标签进行训练,获得已训练语义分割网络和虹膜图像集;构建目标分类网络,基于虹膜图像集与对应的身份标签进行训练,获得已训练目标分类网络;获取待识别图像,对待识别图像进行预处理得到待识别实时人眼图像;基于已训练语义分割网络与实时人眼图像获得待识别虹膜图像;通过已训练目标分类网络对待识别虹膜图像进行分类,获得身份标签,实现身份识别。本发明设计一种基于注意力机制和轻量高效模块的语义分割卷积神经网络及目标分类卷积神经网络,使基于虹膜的身份识别方法更准确、更安全、更高效。
Description
技术领域
本发明属于图像模式识别领域,特别是涉及一种基于图像语义分割与分类的身份识别方法与系统。
背景技术
生物识别系统在不断地发展,并有望在数字集成系统中用于有效地认证一个人的身份,而无需用户携带或记住任何东西。其中虹膜识别技术由于精度高被认为在未来身份安全认证场景中具有广阔应用前景。多项研究表明,虹膜特征相比其他生物特征(例如人脸、指纹、静脉图和步态)具有稳定性和防伪性等独有优势,这使其在高可靠性和准确性的生物特征系统中得到了普遍认可。现有的虹膜识别系统总体上包含软件和硬件两部分:软件主要实现虹膜图像预处理、特征提取和特征匹配;硬件主要包括摄像头(图像采集)、图像存储和运算处理器、液晶屏(结果显示)以及电源部分。
对于软件部分,传统的虹膜图像预处理方法(主要包括虹膜分割、定位和归一化)有积分微分算子法、无监督学习、改进的霍夫圆变换等,大多为受控的虹膜识别系统而开发,对光源和用户要求很高,通常可以获取清晰的虹膜图像,因此产生满意的预处理结果。一旦在远距离、移动端和强光反射等非受控条件下,得到的图往往质量差,存在遮挡、模糊、旋转、镜面反射等干扰。面向这种非受控场景,传统的方法必须预设经验性的超参数、复杂的前后处理操作。此外,很多传统的方法只能处理某一类或者几类噪声虹膜图像,不具备普适性,增加了处理未知类别虹膜图像的难度。
另外,传统的虹膜特征提取方法主要是用手工设计特征提取器表示虹膜纹理特征,如小波变换的过零检测、离散傅里叶变换、高阶泰勒展开等。然而,这带来的计算复杂度很高,耗时较长,并且这些提取器通常只能利用虹膜纹理的特定特征。与此同时,随着算力和数据增加,基于深度卷积神经网络的图像识别取得了巨大的突破。网络深度的增加带来了强大的非线性拟合能力,对于复杂的图像,确实能学习和获取到的信息特征更加丰富,但深度增加也存在问题,比如产生梯度消失或爆炸、精度饱和甚至退化以及大量的参数和浮点操作降低计算速度。
在硬件部署方面,现有的边缘设备往往是单独的一套设备,没有后台服务器的支撑,由于成本原因存在不足通常配置的硬件计算资源少、电池容量低、时效性要求高,难以满足运行深度神经网络所需的硬件计算资源要求。而为所有边缘设备配置过高的硬件算力也是一种资源浪费,对于以移动终端为代表的边缘设备而言,在分类精度不损失或损失程度不大的基础上,速度、体积、能效和硬件成本才是最应该优先考虑的因素。
发明内容
本发明的目的是提供一种基于图像语义分割与分类的身份识别方法与系统,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于图像语义分割与分类的身份识别方法,包括:
获取人眼图像数据集,构建语义分割网络,基于所述人眼图像数据集与数据集中各图像对应的掩码标签对所述语义分割网络进行训练,获得已训练语义分割网络和虹膜图像集;
构建目标分类网络,基于所述虹膜图像集与对应的身份标签对所述目标分类网络进行训练,获得已训练目标分类网络;
摄取待识别图像,对所述待识别图像进行预处理后,获取待识别实时人眼图像;
采用所述已训练语义分割网络对所述实时人眼图像进行图像分割,获得待识别虹膜图像;
通过所述已训练目标分类网络对所述待识别虹膜图像进行分类,获得所述待识别虹膜图像的身份标签,实现身份识别。
可选的,获得所述待识别虹膜图像的过程包括:
将待识别实时人眼图像输入至所述已训练语义分割网络,所述已训练语义分割网络通过非对称分解后的大卷积核提取待识别实时人眼图像的信息,获得输出特征图,将所述输出特征图输入第一下采样模块处理后通过依次连接的多个第一特征提取块进行浅层特征提取,获得第一特征矩阵;
所述第一特征矩阵经过第二下采样模块处理后通过依次连接的多个第二特征提取块进行深层特征提取,获得第二特征矩阵;
对所述第一特征矩阵与所述第二特征矩阵进行特征融合,对特征融合后获得的特征图通过空洞卷积进行特征提取后通过点卷积进行通道恢复,最后通过插值操作将处理后的特征图尺寸恢复至与所述待识别实时人眼图像的相同尺寸;
将恢复尺寸的特征图经过argmax操作获得虹膜掩码图;
将所述待识别实时人眼图像与所述虹膜掩码图进行点乘操作,获得待识别虹膜图像。
可选的,所述第一下采样模块和第二下采样模块结构相同,分别包括两条支路;
一条支路将输入的特征图通过3×3的最大池化层进行下采样;
另一条支路将输入的特征图通过ECA模块学习通道的注意力权重后,经过深度卷积进行下采样;
将两条支路的输出结果进行通道拼接,获得具有双倍通道数的特征图并进行通道混洗。
可选的,第一特征提取块进行浅层特征提取的过程包括:
将通过下采样模块处理后的输出图输入至所述第一特征提取块进行通道拆分,获得第一特征图与第二特征图;
所述第一特征图依次通过点卷积、批量归一化,并根据GELU函数进行激活后,经深度分离分组卷积进行通道升维和特征提取;
将处理后的第一特征图通过ECA模块学习通道的注意力权重后,将获得的特征图通过点卷积进行通道降维;
将通道降维后的特征图依次进行批量归一化和GELU函数激活后与所述第二特征图进行拼接;
将拼接后获得的特征图进行通道混洗,获取浅层特征;
多个第一特征提取块级联进行特征提取后获得第一特征矩阵;
其中,ECA模块包括平均池化层与1×1卷积层。
可选的,第二特征提取块进行深层特征提取的过程包括:
对所述第一特征矩阵进行通道拆分,获得第三特征图与第四特征图;
所述第三特征图通过点卷积操作后进行多分支处理;其中,第一分支经过批量归一化和HSwish激活函数进行激活后,获得第五特征图;第二分支通过深度空洞卷积进行特征提取,获得第六特征图;第三分支通过深度卷积进行特征提取,获得第七特征图;
将所述第五特征图、所述第六特征图和所述第七特征图进行叠加再通过ECA模块学习通道的注意力权重后,与所述第四特征图进行拼接恢复通道数;
将拼接获得的特征图进行通道混洗,获得深层特征;
多个第二特征提取块级联进行特征提取后获得第二特征矩阵。
可选的,所述第一特征矩阵与所述第二特征矩阵进行特征融合的过程包括:
将所述第一特征矩阵通过标准卷积操作进行降维后,通过通道注意力模块捕捉关键通道信息;
所述第二特征矩阵通过插值处理增大特征图尺寸后,通过标准卷积操作进行特征提取,再通过通道注意力模块捕捉关键通道信息;
将处理后的第一特征矩阵、第二特征矩阵相加,完成特征融合。
可选的,所述通道注意力模块将输入至模块中的特征分别通过全局平均池化与全局最大池化进行压缩后,分别通过多层感知器进行提取后相加,再经过Sigmoid激活函数处理,获得权重,输入至模块中的特征与所述权重相乘后,完成关键通道信息捕捉。
可选的,对所述待识别虹膜图像进行分类的过程包括:
去除所述待识别虹膜图像的冗余信息并放缩至设定尺寸后输入至所述已训练目标分类网络;
所述已训练目标分类网络通过非对称分解后的大卷积核提取处理后的待识别虹膜图像的特征信息,获得第二输出特征图,所述第二输出特征图经过第三下采样模块进行降维后,通过依次连接的多个第三特征提取块获得第三特征矩阵;
将所述第三特征矩阵经过第四下采样模块处理后,经过依次连接的多个第三特征提取块进行处理,获得第四特征矩阵;
将所述第四特征矩阵通过第五下采样模块处理后,经过若干个第三特征提取块进行处理,获得第五特征矩阵;
将所述第五特征矩阵经全局平均池化后,整合全层空间信息,得到第六特征矩阵;
所述第六特征矩阵通过两层点卷积处理得到分类任务对应类别数的矩阵后,转换为一维矩阵,根据所述一维矩阵的数值大小进行判别,实现身份识别;
所述第三下采样模块、所述第四下采样模块、所述第五下采样模块与所述第一下采样模块和第二下采样模块结构相同。
可选的,所述第三特征提取块进行特征提取的过程包括:
所述第三特征提取块将输入的特征图经过点卷积进行通道升维后,通过批处理归一化层和GELU激活函数进行激活;
通过点卷积进行信息提取后,通过批处理归一化层和GELU激活函数进行激活并降维回初始特征图通道数的一半,获得第一特征输出图;
所述第一特征输出图通过大卷积核进行深度卷积,获得第二特征输出图;
将所述第一特征输出图与所述第二特征输出图进行通道拼接后与所述初始特征图相加,通过ECA模块学习通道的注意力权重,将获得的特征图进行通道混洗后输出。
本发明还提供一种基于图像语义分割与分类的身份识别系统,包括:
图像采集模块,用于摄取待识别图像,对所述待识别图像进行预处理后,获取待识别实时人眼图像;
语义分割模块,用于构建语义分割网络,获取人眼图像数据集与对应的掩码标签对所述语义分割网络进行训练,获得已训练语义分割网络与虹膜图像集;通过所述已训练语义分割网络对所述待识别实时人眼图像进行图像分割,获得对应的待识别虹膜图像;
目标分类模块,用于构建目标分类网络,通过所述虹膜图像集与对应的身份标签对所述目标分类网络进行训练,获得已训练目标分类网络,通过所述已训练目标分类网络对所述待识别虹膜图像进行分类识别,获得身份信息。
本发明的技术效果为:
本发明设计了一种基于注意力机制和轻量高效模块的语义分割卷积神经网络及图像分类卷积神经网络,可用于实时虹膜分割并实现身份识别,使基于虹膜的身份识别方法更安全,更高效。同时,将其部署在资源较少的边缘设备,经验证,可安全实时的进行虹膜识别。本发明可用于对安全性能及处理速度要求高的应用领域。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的方法流程与整体架构图;
图2为本发明实施例中的语义分割算法流程与整体架构图;
图3为本发明实施例中的第一特征提取块的结构示意图;
图4为本发明实施例中的下采样模块的结构示意图;
图5为本发明实施例中的第二特征提取块的结构示意图;
图6为本发明实施例中的图像分类算法流程与整体架构图;
图7为本发明实施例中的第三特征提取块的结构示意图;
图8为本发明实施例中的ECA模块的结构示意图;
图9为本发明实施例中的深度分离分组卷积示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本实施例中提供一种基于图像语义分割与分类的身份识别方法与系统,包括:
首先使用红外摄像头等图像采集模块获取图像,并传输至Jetson Xavier NX开发板上,由部署在其上的算法进行处理。在NX开发板上,算法可分为两个部分,先使用语义分割算法对获取的图像进行中的虹膜部分进行图像分割,再将分割得到的虹膜图像传入下一级图像分类算法进行特征识别,即基于第一阶段的语义分割算法所获得的虹膜图像作为识别的基础,最终通过第二阶段的图像分类算法得到人的身份信息,并通过声音或画面对识别结果进行提示。
本实施例的方法区别于传统的算法中需要采用霍夫圆等算法实现虹膜区域截取、展平并进一步用传统图像处理理论中的图像特征提取算子(比如SURF/HOG/SIFT等等)再采用机器学习方法(比如支持向量机SVM)进行身份识别的方法,本实施例创新性地分别设计了对虹膜图像截取的轻量级语义分割模型、对虹膜区域图像进行身份识别的图像分类模型,提高了识别的速度和准确度。此外,还将本算法模型部署到低功耗嵌入式平台JetsonXavier NX上进行实现,可以方便地将本系统应用在各种移动、室内外、网络边缘等终端设备上。
使用特定的摄像器材对人的整个眼部(甚至是整个脸部)进行拍摄,并将拍摄到的图像传输给虹膜识别系统的数据处理部分。在本发明中,这一部分的工作可以采用中国科学院自动化研究所(CASIA)模式识别国家重点实验室所公布的虹膜图像数据库作为测试图像,其虹膜图像质量和权威性得到了国际同行的认可。
CASIA-IrisV4 共包含来自54,601多个真实主体和1,800个虚拟主体的1,000张虹膜图像。其中含有多个子集,采用距离相对较近的CASIA-Iris-Thousand数据集与人眼离摄像头的距离相对较远的CASIA-Iris-Distance作为训练和测试数据集,以评价算法取得的效果。
语义分割网络(用于准确定位虹膜的位置,从而分割出准确的虹膜区域):
接受上层的输出,本实施例在这一部分采用自主设计的轻量级神经网络进行分割。比起现有的大多数神经网络模型的语义分割算法,自主设计的轻量型网络能更加轻量高效的实现虹膜图像的分割。语义分割神经网络算法在虹膜识别中可以提高分割精度、抑制噪声和干扰,有利于后续的目标检测网络中的特征提取算法更好的利用虹膜信息,最终提高虹膜识别系统的准确性和可靠性。
由于现有的语义分割算法大部分是采用参数量较多、且计算速度较慢的深度神经网络模型,而速度较快的网络模型往往参数也不够轻量,因而不适应边缘设备的硬件内存空间和计算资源。在考虑众多条件的基础上,本发明实施例设计出可调整大小的语义分割网络,满足高精度与轻量化两方面的要求。
针对语义分割神经网络的轻量化,本实施例采用了卷积核分解,通道分离,通道混淆,深度可分离卷积等轻量化措施。由于常规的轻量化时会导致模型精度有所下降。为了在轻量化的同时,保证神经网络的准确度,本实施例采用逆瓶颈层,引入ECA(EfficientChannel Attention,高效通道注意力)层与CAM(Channel Attention Module, 通道注意力模块)等注意力机制以及GELU与HSwish等激活函数。其中,本发明实施例提供的语义分割网络的基本组成结构第一特征提取块(Block1),第二特征提取块(Block2)的数量可由实际需要进行调整,从而可调整语义分割网络的模型大小,同时满足了高精度与轻量化两方面的要求。
对应图2,开始阐述语义分割网络的计算流程与整体架构:
(1):输入一组图像,在进入网络前,将图像进行预处理,即灰度化,并裁剪或放缩到(256×256)或(416×416)的输入形状。
(2):以非对称分解后的大卷积核来提取输入图像的信息。
大卷积核有着较大的感受野,能拥有更好的精度,然而大卷积核的运算成本较大。在经典网络VGG中采用3个3×3的小卷积核来代替7×7的大卷积核。经过许多实验实证,用7×1和1×7的非对称卷积核可以获得相同的感受野,同时运算成本比起3个小卷积核更加轻量高效。
输入图(将以416×416×1的输入图作为例子)首先经过一层7×1的非对称卷积层,后进行批量归一化处理(Batch Normalization,简称BN),BN层的计算公式如下:
其中,mean为均值计算,Var为方差,eps采用1e-5,γ、β采用1和0。
下一步进入高斯误差线性单元激活函数(GELU)进行非线性激活。GELU函数的计算公式如下:
再经过一层1×7的非对称卷积层,后经BN层进入GELU层进行激活。此时网络输出特征图比起输入图将降低一半的分辨率,并升高通道数到预设值C,此时输出图的形状为(208×208×C)。
(3):将特征矩阵经下采样后送入Block1模块(即第一特征提取块)进行进一步特征提取,主要提取浅层特征的细粒度信息。
上层的输入层经过第一下采样模块后,降低一半的分辨率,提高通道数到2C,显著降低计算量,同时升高通道有利于提高精度。然后将经过N1个Block1模块。此时,输出图形状为(104×104×2C),即为第一特征矩阵。
Block1模块的设计如图3所示,现在开始阐述其流程:
在第一层中,经过通道拆分,拆分划分为第一特征图与第二特征图,一部分特征图(第一特征图)进入下一卷积层,另一部分特征图(第二特征图)直接与最后特征图拼接。
在第二层中,上层得到的特征图通过1×1的卷积层与BN层,并经过GELU进行激活。
在第三层中,上层得到的特征图经过深度分离分组卷积(如图9所示)进行升维,并进行特征提取。
在第四层中,升维得到的特征图经由ECA(Efficient Channel Attention,高效通道注意力)模块,学习通道的注意力权重。
在第五层中,通过点卷积对上层的特征图进行降维,并经过BN层,随后进入GELU进行激活。
在第六层中,将第一层得到的特征图与上层特征图进行拼接。
在第七层中,将拼接后的特征图进行通道混洗(Channel Shuffle)。
本实施例采用了通道拆分与合并。通道拆分有效的降低了中间处理层的计算量。拆分后特征图的底层特征直接拼接到了最后的特征图,使底层特征保存下来,同时仅在最后进行拼接,并不是DenseNet所采用的密集连接,使运行速度相对加快,并且不会出现因网络层数过多而出现底层特征丢失。
由于在底层网络中,通道数较低,这不利于准确度的提高,因此采用逆瓶颈层增大中间处理层的通道数。值得注意的是,在深度可分离网络中,计算量较大的一般是点卷积,而访存量较大的则是分组卷积。由于这些特点,影响点卷积速度的往往是计算能力,而影响分组卷积速度的则是访存量。为了克服这一缺点,不在第一个点卷积的时候进行升维,而是在分组卷积时进行升维。在降低点卷积的计算需求的同时在分组卷积时增加计算需求,使访存时间与计算时间达成平衡。
ECA模块如图8所示,采用一维卷积在原本通道数据之间做局部卷积操作,并融合了部分通道信息,最后再做相应的激活。作为轻量高效的通道注意力模块,它有效的提高了网络对通道信息的注意。
现有的大部分网络有着五花八门的分支结构,然而碎片化的网络减少了模型的并行度,降低了网络的运行速度。因此,在本模块中,尽可能少的增加分支。
同时,本模块采用GELU激活函数。在过拟合现象中,靠近网络输入层受到的影响比输出层较大。GELU函数虽然有较大的计算成本,但其有很好的非线性能力与正则化能力,有效避免过拟合。因此在网络底层的这个模块里,采用GELU作为激活函数。值得注意的是,并没有在每个层后都接GELU激活函数,一方面是因为,GELU具有较大的计算成本,同时,几乎所有的激活函数都会增加访存量,影响网络的速度,另一方面是因为,该模块在少量的激活函数下已经有了足够的非线性能力,不需要额外增添计算成本和访存量。
同时,在该模块最后进行通道混洗,合并后特征图的通道之间来回通信,使特征得到充分利用。
下采样模块的设计采用如图4所示的结构:
支路1,输入先通过3×3的最大池化层进行下采样,最后与另一条支路的结果进行拼接。
支路2,输入经过ECA模块(Efficient Channel Attention),学习通道的注意力权重。得到的特征图经过深度卷积进行下采样。
在倒数第二层中,将两支路得到的结果进行拼接。
最后一层,将得到的特征图进行通道混洗(Channel Shuffle)。
下采样模块为了满足增加通道,不再进行通道拆分(Channel Split),而是将输入复制一份,并通过两个支路分别处理,最后进行拼接, 实现通道翻倍。最大程度的保留了信息。
同时,依旧引入通道混洗(Channel Shuffle)使通道之间相互通信,避免通道信息的丢失,使特征充分利用。
(4):将上文所得特征矩阵经下采样后送入Block2模块(可称为第二特征提取块)进行进一步特征提取,主要提取深层抽象的语义信息。
上层的输入层经过第二下采样模块后,降低一半的分辨率,提高通道数到4C。之后,经过N2个Block2模块。此时,输出图形状为(52×52×4C),即为第二特征矩阵。
Block2卷积块的设计如图5所示,基于ECA模块,通道拆分,空洞卷积和深度卷积,通道混洗等设计该模块,现在开始阐述其流程:
在第一层中,经过通道拆分为第三特征图与第四特征图,一部分特征图(第三特征图)进入下一卷积层,另一部分特征图(第四特征图)直接与最后特征图拼接。
在第二层中,通过点卷积进行信息提取,随后进入BN层和HSwish激活函数进行激活,获得第五特征图。
在第三层中,输入分别进入3×3的深度空洞卷积与3×3的深度卷积进行特征提取,获得第六特征图与第七特征图。
在第四层中,将第三层得到的两个特征输出图与第二层的输出进行相加。
在第五层中,将第四层的输出特征图放入ECA模块,学习到通道的注意力权重。
在第六层中,将第五层的输出特征图与第一层拆分出来的另一部分特征图进行拼接。
在第七层中,将第六层的输出特征图进行通道混洗(Channel Shuffle)。
为了减少计算量,同时对特征进行重用,本实施例采用了通道拆分与通道合并。但不同的是,不再采取逆瓶颈层。原因是,一方面,网络通道数已经到达了相当高的数目,不需要继续加宽网络层,另一方面是,加大通道数所带来的收益小于计算成本带来的损失。
除此以外,在网络中加了一种不同于上述模块的激活函数HSwish,这是因为:首先是,靠近输出端的网络顶层往往过拟合受到的影响较小,不需要GELU激活函数的正则化效应;另一方面,GELU的计算成本高于HSwish。同时,Swish激活函数往往在网络的更深处表现较好,且在较低分辨率下,计算成本也大大降低。同时,HSwish是对swish的一种近似计算,降低了原Swish激活函数的计算成本。
同时,经过第一层输入层后,本实施例采用了深度空洞卷积,深度卷积,并将上层输出结果与卷积结果直接相加。对于语义分割网络而言,多尺度信息是相当重要的。空洞卷积增大了感受野,而普通的深度卷积拥有较小的感受野,上层结果可视为更小的感受野,结合三种感受野以提高网络更高的精度,同时该模块并没有带来太大的计算量。
(5):将上述两部分得到的矩阵进行特征融合,即将深层抽象信息与浅层细粒度信息融合,以获得更好的分割效果。
将特征矩阵B通过插值操作升高分辨率到原来的两倍,然后经过一层卷积降低维度,并通过通道注意力模块(Channel Attention Module,以下简称CAM)融合通道信息。而特征矩阵A也通过卷积进行特征提取,最后通过CAM模块融合通道信息。将两部分的结果相加,完成了不同尺度下的特征融合。
CAM模块的目标是增强每个通道的特征表达。公式如下:
其中先经过全局平均池化(AvgPool)与全局最大池化(MaxPool)进行压缩、再分别经过多层感知器(MLP)进行提取,之后相加,并通过Sigmoid激活函数(简称S(n))处理,最后将得到的权重与输入相乘,得到输出。
(6):对融合后的矩阵进行特征提取,转化为通道数为分类数以及分辨率与原图相当的二维矩阵,成功实现训练、验证或测试分割。
通过一层3×3的空洞卷积充分提取融合后特征图的信息,最终经过点卷积完成降维至分类数。此时,若特征图经过argmax操作将得到mask图。就是常规的使得f(x)可以获得最大值的自变量值x,如下:
此时,将输入图像进行掩码操作(即“点乘”操作),即可完成图像中的虹膜区域的分割。在一种优选的实施方式中,语义分割网络可以采用如下表1所述的网络结构进行实现:
表1
其中,stride是指卷积的步伐;C是输入图像的经过第一个卷积层后的输出通道数。
图像分类网络(基于以上分割获得的虹膜区域图像,通过分类模型对人的身份进行识别):
对上部分得到的掩码图像与原图像做点乘后,作为图像分类部分的输入,在这部分采用本实施例自主设计的另一种轻量型图像分类神经网络进行分类。由于在本系统中用了两种神经网络串联,因此,在系统中,将采取极低运算成本、极高运行速度的图像分类算法。在虹膜识别中,语义分割神经网络算法可以将图像中的不同语义区域分割出来,而图像分类算法可以对这些区域进行进一步的分类识别,以提取更加细粒度的虹膜特征。因此,这一部分的主要作用是进一步提取细粒度的特征,并进行虹膜识别的决策和分类。
虹膜图像分类旨在输出其相应的类别。传统的基于人工构造图像特征的目标分类方法包括特征提取和分类器两部分。但不足之处在于,传统算法往往只能提取目标对象的浅层特征。现有的卷积神经网络算法,可以学习更加复杂的变换,能够获取的信息越多、特征也越丰富,获得更好的非线性表达能力,从而获得的分类结果比传统算法更加精准。但这些算法产生非常庞大的参数量和更加复杂的浮点操作数,不适应边缘设备的硬件内存空间和计算资源。为此,本实施例基于ECA模块,逆瓶颈层,深度卷积,点卷积,通道混洗等,在考虑众多条件的情况下,自主设计出了模块数和通道数可调整的轻量型人工神经网络,满足边缘设备实时识别所需的精度和速度。
针对图像分类神经网络的轻量化,本实施例采用了卷积核分解,通道混淆,深度可分离卷积等轻量化措施。由于轻量化时会导致模型精度有所下降。为了在轻量化的同时,保证神经网络的准确度,采用残差结构,逆瓶颈层,引入ECA layer等注意力机制以及GELU等激活函数。其中阶段2,阶段3,阶段4所含有的block3的数量n1,n2,n3可由实际需要进行调整,同时满足了高精度与轻量化两方面的要求。
图像分类算法(虹膜识别)流程与整体架构如图6所示,详细阐述如下:
(1):输入一组图像,在进入网络前,将语义分割得到的图像进行删除整零行和整零列,以此删去冗余信息(即非虹膜区域),只保留虹膜部分,并放缩到(80,80)的输入形状。
(2):以非对称分解后的大卷积核来提取输入图像的信息。
大卷积核有着较大的感受野,能拥有更好的精度,然而大卷积核的运算成本较大。在经典网络VGG中采用3个3×3的小卷积核来代替7×7的大卷积核。经过许多实证,用7×1和1×7的非对称卷积核可以获得相同的感受野,同时运算成本比起3个小卷积核更加轻量高效。
输入图(将以80×80×1的输入图作为例子)首先经过一层7×1的非对称卷积层,后进行批量归一化处理(BN),下一步进入高斯误差线性单元激活函数(GELU)进行非线性激活。再经过一层1×7的非对称卷积层,后经BN层进入GELU层进行激活。BN层与GELU层参数设计与上文语义分割网络基本一致。此时网络输出特征图比起输入图将降低一半的分辨率,并升高通道数到预设值C,此时输出图的形状为(40×40×C),此处输出图为第二特征图。
(3):将特征矩阵经下采样后送入block3模块进行进一步特征提取,之后进行两次相同的操作。
上层的输入层经过第三下采样模块后,降低一半的分辨率,提高通道数到2C,显著降低计算量,同时升高通道有利于提高精度。然后将经过n1个block3模块。此时,输出图形状为(20×20×2C),即为第三特征矩阵。将第三特征矩阵再经过第四下采样模块后,降低一半的分辨率,提高通道数到4C,继续经过n2个block3模块,进一步提取信息。此时,输出图形状为(10×10×4C),即为第四特征矩阵。将第四特征矩阵再经过第五下采样模块后,降低一半的分辨率,提高通道数到8C,继续经过n3个block3模块,进一步提取信息。此时,输出图形状为(5×5×8C),即为第五特征矩阵。
(4):将上文所得特征矩阵(第五特征矩阵)经全局平均池化(Avgpool)后,整合全层空间信息,获得第六特征矩阵,空间尺寸变为1×1,通道数不变。
(5):将上述所得的矩阵通过2层点卷积(1×1卷积)处理得到分类任务对应类别数的矩阵,随后通过张量扁平化(flatten)操作转换维度,变为一维矩阵。成功实现训练、验证或测试分类。
block3模块(第三特征提取块)的设计:
虹膜识别任务一般属于图像分类下的细粒度识别任务,不同人之间虹膜差异小。学习具有代表性的特征是细粒度图像识别的关键。深度抽象特征在一般图像识别任务中取得了前所未有的性能,但在细粒度图像识别中却不太令人满意。故需要设计一种适用于卷积层少,但可获得更丰富的局部信息的模块。出于这种思想,选择了逆瓶颈层与通道混洗和ECA注意力机制等方法,来建立模块。
block3模块的算法流程图7所示,现在开始阐述其流程:
在第一层中,经过点卷积后,将维度变换为输入维度的四倍,并进入BN(BatchNormalization,批量归一化)层和GELU激活函数进行激活。
在第二层中,通过点卷积进行信息提取,随后进入BN层和GELU激活函数进行激活,同时降维回初始通道数的一半,获得第一特征输出图。
在第三层中,第一特征输出图进入3×3的深度卷积线性变换,得到另一半初始通道数的输出特征图,即为第二特征输出图。
在第四层中,将第三层得到的特征输出图与第二层的输出进行拼接,此时通道数恢复到原来通道数。
在第五层中,将第四层的输出特征图与初始特征图相加,即构成残差结构。
在第六层中,将上层放入ECA模块(Efficient Channel Attention),学习通道的注意力权重。
在第七层中,将第六层的输出特征图进行通道混洗(Channel Shuffle)。
为了提高精度,采取逆瓶颈架构,通过点卷积升降维,即通过更多通道的叠加卷积核而非更多层数的叠加卷积核,来获取更高的精度。与更多层数的叠加卷积核相比,这种方法更加注重局部特征,更有利于细粒度识别任务。
在一种优选的实施方式中,本实施例中的目标分类网络可以采用如表2所示的结构组成。
表2
其中,C是第一层网络层的输出通道数;class是指目标分类网络可以区分的目标类别数量。
为了不过多的增加计算量,在逆瓶颈层后将通道降到了原来通道数的一半。这是因为,由卷积产生的特征图中,具有较多的冗余。因此,另一半的输出特征图可以由一个简单的线性变换产生,采用一个7×7的大卷积核进行深度卷积,产生另一半特征图,最后将两部分特征图拼接。避免了产生过多的计算,同时采用的大卷积核还带来了更高的精度。
对于细粒度识别来说,网络更容易因为深层而退化,这是因为细粒度识别比起深层抽象信息,更加关注浅层局部信息。为了避免网络因深层退化,还采用类似残差结构的短跳连接,将输入特征图与卷积输出相加,有效的抑制了过拟合现象。
全卷积(标准卷积)架构:
一般的用于下游分类器的神经网络最后几层往往采用全连接层来将矩阵变换为类别所对应的特征向量。在本实施例的图像分类器中,最后几层采用1×1的卷积层进行矩阵变换,最后再通过转换维度变换回类别所对应的特征向量。
全连接层的主要作用就是将前层(卷积、池化等层)计算得到的特征空间映射样本标记空间。简单的说就是将特征表示整合成一个值,其优点在于减少特征位置对于分类结果的影响,提高了整个网络的鲁棒性。
在神经网络的最后几层,全连接层对比于卷积层其优势在于它更加注重全局特征。但值得注意的是,在细粒度识别中,过度在意全局信息,会使局部信息丢失。而且,由于全连接层的网络参数量大,虽然运行快,但是容易使网络陷入过拟合现象。针对全连接层的过拟合问题,许多网络的解决方法是,在其后添加了dropout层,但并没有完全解决这个问题。
本实施例采用2层点卷积层来代替全连接层,避开了过拟合问题,使网络精度在虹膜识别任务中获得了较大提升。正如下图所示,点卷积层避开了其他分类器面对细粒度识别任务时容易具有的过拟合问题,并仅使用了更少的参数。
硬件部署:
随着数据体量的急速膨胀,大量计算对硬件平台的计算力的需求也在迅猛上涨。神经网络算法(深度学习)准确率高,但其对计算的需求已经超过了传统CPU(CentralProcessing Unit)处理器的能力,且在本发明中,使用双网络进行分割加识别。CPU具有多种功能,其优点在于调度,管理,协调能力强,而计算能力位于其次。其逻辑运算单元(ALU)较少,控制器(Controller)占比较大。因此基于传统CPU的双重神经网络结构很难达到实时虹膜识别。随着摩尔定律走向暮年而深度学习的规模加大,传统CPU处理器并不适合用于目标识别。
GPU(Graphics Processing Unit)即图形处理器。与CPU相比,GPU擅长的则是在不需要被打断的纯净的计算环境中进行类型高度统一的、相互无依赖的大规模数据处理。特别是在3D图形处理方面。由于在浮点运算、并行计算等方面,GPU可以提供数十倍乃至于上百倍于CPU的性能。善于处理图像领域的运算加速的特点,使GPU比CPU更适合应用于目标识别领域。
在边缘设备中,Jetson Xavier系列不仅拥有6 核 NVIDIA Carmel Arm® v8.264 位 CPU,且拥有搭载 48 个 Tensor Core 的 384 核 NVIDIA Volta™ 架构的 GPU,满足边缘设备对神经网络的计算需求,并可使本发明构筑的系统达到实时。
英伟达公司Jetson Xavier系列为边缘设备的计算密度、能效和 AI 推理能力树立了新的标杆。这是具有端到端自主功能的智能机器。在本发明中决定采用Jetson XavierNX。其模组云原生支持使开发者能够在嵌入式和边缘设备上构建和部署高质量、软件定义的功能,为工程部署虹膜识别的神经网络提供了极大的便利。
Jetson Xavier NX 开发板可提供高达 21 TOPS 的性能,是嵌入式和边缘系统中高性能计算和 AI的理想之选。为了尽可能利用这种开发板的超高性能,选择NVIDIA开发的深度学习推理库TensorRT来对模型进行推理和部署。它执行各种优化,例如层融合、精度校准、动态张量内存管理和内核自动调优,以减少内存消耗并提高推理速度。
Jetson Xavier NX 能够并行运行多个现代神经网络,并且同时处理来自摄像头等传感器的数据。选择部署在NX板子上,并构建高性能AI虹膜识别系统。
为了实现精确且实时的虹膜识别,本实施例结合虹膜识别任务的特点即类间仅有细微差异,自主设计了语义分割神经网络和图像分类神经网络,并部署在高性能边缘设备Jetson Xavier NX 上。
本实施例构建了四个模块,基于逆瓶颈层,通道拆分,通道混洗,GELU激活函数设计了浅层特征提取模块Block1。该模块轻量高效,对浅层表象特征具有良好的提取作用;基于ECAlayer,通道拆分,空洞卷积和深度卷积,通道混洗等设计了深层特征提取模块Block2。该模块具有多重感受野且参数量小,对深层抽象特征具有良好的提取作用;设计了下采样模块,比起单用MaxPool(最大池化)操作,可以很好的避免池化过程中的信息丢失,有效的提升了精度;基于逆瓶颈层与通道混洗和ECA注意力机制等设计了细粒度特征提取模块block3,有效的满足了类间差异小的虹膜识别任务的精度需求。
基于Block1与Block2以及下采样模块,设计了轻量级且分割精度较高的语义分割网络,精准对虹膜进行分割。基于block3以及下采样模块,设计了轻量级且识别精度较为不错的图像分类网络,精准的对分割出来的虹膜进行识别。最后将这两个网络部署在JetsonXavier NX上,构建起虹膜识别系统。
语义分割网络的效果:
首先基于ECA模块、通道拆分、通道混洗、逆瓶颈结构、深度可分离卷积、GELU激活函数等构建了一个新的浅层特征提取模块。然后基于ECA模块、通道拆分、通道混洗、深度可分离卷积、HSwish激活函数等构建一个新的深层特征提取模块。同时还搭建采用非对称卷积核的输入层与基于ECA模块、通道混洗等构建了下采样层。这些技术帮助语义分割神经网络降低了计算量和参数,提高了运行速度,并具有不错的准确度。
语义分割神经网络ALFSNet-s2采用N1=3个Block1与N2=11个Block2,并设置其基础通道数为32。其参数量仅为0.221M,且只有0.76G的浮点计算数,运算速度高达151.52fps,但在CASIA-IrisV4-Thousand虹膜数据集中取得了96.33%的mIoU与98.85%的召回率(Recall)。同时,在相对资源较少的英伟达板子NVIDIA Jetson Xavier NX中也取得了117.53 fps的运行速度。结果符合预期,并证明了本发明使用的轻量化技术有效且对精度有着较少的影响。同时,也在CASIA-IrisV4-Distance虹膜数据集上做了测试,经测试,也达到了91.48%的mIoU与96.42%的召回率,说明模型对远距离虹膜也具有良好的分割作用。
与现有的研究相比,该算法在参数量与准确度及运行速度上达到了不错的权衡,适合在资源有限的移动设备进行快速推理,进行准确的虹膜分割。
图像分类网络的效果:
基于逆瓶颈层与通道混洗和ECA注意力机制等设计了新的细粒度特征提取模块。延续语义分割的结构,仍搭建采用非对称卷积核的输入层与基于ECA模块、通道混洗等构建了下采样层。同时将全连接层更换为全卷积层。借由这些技术,图像分类网络有着较高的运行速度,并具有不错的精度。
设置基础通道数C=32,每个阶段有2个block3。其参数量仅为5.7M,而浮点操作数仅为0.081Gflops,运算速度高达239.8 fps(帧每秒)。对经过虹膜分割网络处理的CASIA-IrisV4-Thousand数据集的1000个人一双虹膜作为2000类。本网络在这个数据集上获得了87.75%的准确度,且类别平均召回率也达到87.75%,同时类别平均精度也有86.95%,同时,AUC值为0.76。这些数据表明本模型在精度和速度上均拥有较高水平,结果符合预期。同时,模型在NX开发板中,采用TensorRT部署后,更是达到了520.02 fps的运算速度。
与现有的研究相比,该算法在参数量与准确度及运行速度上达到了不错的权衡,适合在资源有限的移动设备进行快速推理,对分割后的虹膜图像,进行准确的虹膜识别。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (9)
1.一种基于图像语义分割与分类的身份识别方法,其特征在于,包括以下步骤:
获取人眼图像数据集,构建语义分割网络,基于所述人眼图像数据集与数据集中各图像对应的掩码标签对所述语义分割网络进行训练,获得已训练语义分割网络和虹膜图像集;
构建目标分类网络,基于所述虹膜图像集与对应的身份标签对所述目标分类网络进行训练,获得已训练目标分类网络;
摄取待识别图像,对所述待识别图像进行预处理后,获取待识别实时人眼图像;
采用所述已训练语义分割网络对所述实时人眼图像进行图像分割,获得待识别虹膜图像;
获得所述待识别虹膜图像的过程包括:
将待识别实时人眼图像输入至所述已训练语义分割网络,所述已训练语义分割网络通过非对称分解后的大卷积核提取待识别实时人眼图像的信息,获得输出特征图,将所述输出特征图输入第一下采样模块处理后通过依次连接的多个第一特征提取块进行浅层特征提取,获得第一特征矩阵;
所述第一特征矩阵经过第二下采样模块处理后通过依次连接的多个第二特征提取块进行深层特征提取,获得第二特征矩阵;
对所述第一特征矩阵与所述第二特征矩阵进行特征融合,对特征融合后获得的特征图通过空洞卷积进行特征提取后通过点卷积进行通道恢复,最后通过插值操作将处理后的特征图尺寸恢复至与所述待识别实时人眼图像的相同尺寸;
将恢复尺寸的特征图经过argmax操作获得虹膜掩码图;
将所述待识别实时人眼图像与所述虹膜掩码图进行点乘操作,获得待识别虹膜图像;
通过所述已训练目标分类网络对所述待识别虹膜图像进行分类,获得所述待识别虹膜图像的身份标签,实现身份识别。
2.根据权利要求1所述的基于图像语义分割与分类的身份识别方法,其特征在于,所述第一下采样模块和第二下采样模块结构相同,分别包括两条支路;
一条支路将输入的特征图通过3×3的最大池化层进行下采样;
另一条支路将输入的特征图通过ECA模块学习通道的注意力权重后,经过深度卷积进行下采样;
将两条支路的输出结果进行通道拼接,获得具有双倍通道数的特征图并进行通道混洗。
3.根据权利要求1所述的基于图像语义分割与分类的身份识别方法,其特征在于,第一特征提取块进行浅层特征提取的过程包括:
将通过下采样模块处理后的输出图输入至所述第一特征提取块进行通道拆分,获得第一特征图与第二特征图;
所述第一特征图依次通过点卷积、批量归一化,并根据GELU函数进行激活后,经深度分离分组卷积进行通道升维和特征提取;
将处理后的第一特征图通过ECA模块学习通道的注意力权重后,将获得的特征图通过点卷积进行通道降维;
将通道降维后的特征图依次进行批量归一化和GELU函数激活后与所述第二特征图进行拼接;
将拼接后获得的特征图进行通道混洗,获取浅层特征;
多个第一特征提取块级联进行特征提取后获得第一特征矩阵;
其中,ECA模块包括平均池化层与1×1卷积层。
4.根据权利要求1所述的基于图像语义分割与分类的身份识别方法,其特征在于,第二特征提取块进行深层特征提取的过程包括:
对所述第一特征矩阵进行通道拆分,获得第三特征图与第四特征图;
所述第三特征图通过点卷积操作后进行多分支处理;其中,第一分支经过批量归一化和HSwish激活函数进行激活后,获得第五特征图;第二分支通过深度空洞卷积进行特征提取,获得第六特征图;第三分支通过深度卷积进行特征提取,获得第七特征图;
将所述第五特征图、所述第六特征图和所述第七特征图进行叠加再通过ECA模块学习通道的注意力权重后,与所述第四特征图进行拼接恢复通道数;
将拼接获得的特征图进行通道混洗,获得深层特征;
多个第二特征提取块级联进行特征提取后获得第二特征矩阵。
5.根据权利要求1所述的基于图像语义分割与分类的身份识别方法,其特征在于,所述第一特征矩阵与所述第二特征矩阵进行特征融合的过程包括:
将所述第一特征矩阵通过标准卷积操作进行降维后,通过通道注意力模块捕捉关键通道信息;
所述第二特征矩阵通过插值处理增大特征图尺寸后,通过标准卷积操作进行特征提取,再通过通道注意力模块捕捉关键通道信息;
将处理后的第一特征矩阵、第二特征矩阵相加,完成特征融合。
6.根据权利要求5所述的基于图像语义分割与分类的身份识别方法,其特征在于,
所述通道注意力模块将输入至模块中的特征分别通过全局平均池化与全局最大池化进行压缩后,分别通过多层感知器进行提取后相加,再经过Sigmoid激活函数处理,获得权重,输入至模块中的特征与所述权重相乘后,完成关键通道信息捕捉。
7.根据权利要求2所述的基于图像语义分割与分类的身份识别方法,其特征在于,对所述待识别虹膜图像进行分类的过程包括:
去除所述待识别虹膜图像的冗余信息并放缩至设定尺寸后输入至所述已训练目标分类网络;
所述已训练目标分类网络通过非对称分解后的大卷积核提取处理后的待识别虹膜图像的特征信息,获得第二输出特征图,所述第二输出特征图经过第三下采样模块进行降维后,通过依次连接的多个第三特征提取块获得第三特征矩阵;
将所述第三特征矩阵经过第四下采样模块处理后,经过依次连接的多个第三特征提取块进行处理,获得第四特征矩阵;
将所述第四特征矩阵通过第五下采样模块处理后,经过若干个第三特征提取块进行处理,获得第五特征矩阵;
将所述第五特征矩阵经全局平均池化后,整合全层空间信息,得到第六特征矩阵;
所述第六特征矩阵通过两层点卷积处理得到分类任务对应类别数的矩阵后,转换为一维矩阵,根据所述一维矩阵的数值大小进行判别,实现身份识别;
所述第三下采样模块、所述第四下采样模块、所述第五下采样模块与所述第一下采样模块和第二下采样模块结构相同。
8.根据权利要求7所述的基于图像语义分割与分类的身份识别方法,其特征在于,所述第三特征提取块进行特征提取的过程包括:
所述第三特征提取块将输入的特征图经过点卷积进行通道升维后,通过批处理归一化层和GELU激活函数进行激活;
通过点卷积进行信息提取后,通过批处理归一化层和GELU激活函数进行激活并降维回初始特征图通道数的一半,获得第一特征输出图;
所述第一特征输出图通过大卷积核进行深度卷积,获得第二特征输出图;
将所述第一特征输出图与所述第二特征输出图进行通道拼接后与所述初始特征图相加,通过ECA模块学习通道的注意力权重,将获得的特征图进行通道混洗后输出。
9.一种用于实现权利要求1-8任一项所述的基于图像语义分割与分类的身份识别方法的识别系统,其特征在于,包括:
图像采集模块,用于摄取待识别图像,对所述待识别图像进行预处理后,获取待识别实时人眼图像;
语义分割模块,用于构建语义分割网络,获取人眼图像数据集与对应的掩码标签对所述语义分割网络进行训练,获得已训练语义分割网络与虹膜图像集;通过所述已训练语义分割网络对所述待识别实时人眼图像进行图像分割,获得对应的待识别虹膜图像;
目标分类模块,用于构建目标分类网络,通过所述虹膜图像集与对应的身份标签对所述目标分类网络进行训练,获得已训练目标分类网络,通过所述已训练目标分类网络对所述待识别虹膜图像进行分类识别,获得身份信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410021388.7A CN117523208B (zh) | 2024-01-08 | 2024-01-08 | 基于图像语义分割与分类的身份识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410021388.7A CN117523208B (zh) | 2024-01-08 | 2024-01-08 | 基于图像语义分割与分类的身份识别方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117523208A CN117523208A (zh) | 2024-02-06 |
CN117523208B true CN117523208B (zh) | 2024-04-16 |
Family
ID=89746052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410021388.7A Active CN117523208B (zh) | 2024-01-08 | 2024-01-08 | 基于图像语义分割与分类的身份识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523208B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809122B (zh) * | 2024-02-29 | 2024-06-04 | 北京航空航天大学 | 一种颅内大血管图像的处理方法、系统、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164252A1 (zh) * | 2020-02-19 | 2021-08-26 | 平安科技(深圳)有限公司 | 基于虹膜识别的用户身份确定方法及相关装置 |
CN113591747A (zh) * | 2021-08-06 | 2021-11-02 | 合肥工业大学 | 一种基于深度学习的多场景虹膜识别方法 |
CN113706470A (zh) * | 2021-07-29 | 2021-11-26 | 天津中科智能识别产业技术研究院有限公司 | 一种虹膜图像分割方法、装置、电子设备及存储介质 |
CN115131503A (zh) * | 2022-07-01 | 2022-09-30 | 楚楚生机(东莞)医疗有限公司 | 一种虹膜三维识别的健康监测方法及其系统 |
CN116110113A (zh) * | 2022-11-15 | 2023-05-12 | 南昌航空大学 | 一种基于深度学习的虹膜识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2016138608A (ru) * | 2016-09-29 | 2018-03-30 | Мэджик Лип, Инк. | Нейронная сеть для сегментации изображения глаза и оценки качества изображения |
US11113553B2 (en) * | 2018-11-15 | 2021-09-07 | Brown University | Iris recognition using fully convolutional networks |
FR3098960B1 (fr) * | 2019-07-16 | 2021-07-16 | Idemia Identity & Security France | Procédé d’extraction d’un vecteur caractéristique à partir d’une image d’entrée représentative d’un iris au moyen d’un réseau de neurones entrainable de bout-en-bout |
-
2024
- 2024-01-08 CN CN202410021388.7A patent/CN117523208B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164252A1 (zh) * | 2020-02-19 | 2021-08-26 | 平安科技(深圳)有限公司 | 基于虹膜识别的用户身份确定方法及相关装置 |
CN113706470A (zh) * | 2021-07-29 | 2021-11-26 | 天津中科智能识别产业技术研究院有限公司 | 一种虹膜图像分割方法、装置、电子设备及存储介质 |
CN113591747A (zh) * | 2021-08-06 | 2021-11-02 | 合肥工业大学 | 一种基于深度学习的多场景虹膜识别方法 |
CN115131503A (zh) * | 2022-07-01 | 2022-09-30 | 楚楚生机(东莞)医疗有限公司 | 一种虹膜三维识别的健康监测方法及其系统 |
CN116110113A (zh) * | 2022-11-15 | 2023-05-12 | 南昌航空大学 | 一种基于深度学习的虹膜识别方法 |
Non-Patent Citations (2)
Title |
---|
ELANet: Effective Lightweight Attention-Guided Network for Real-Time Semantic Segmentation;Qingming Yi et al;《Neural Processing Letters》;20230106;第6425-6442页 * |
多尺度特征融合的道路场景语义分割;易清明 等;《激光与光电子学进展》;20230630;第60卷(第12期);第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117523208A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bartz et al. | STN-OCR: A single neural network for text detection and text recognition | |
US7711157B2 (en) | Artificial intelligence systems for identifying objects | |
Yaseen et al. | Deep learning hyper-parameter optimization for video analytics in clouds | |
CN109214273A (zh) | 人脸图像比对方法、装置、计算机设备及存储介质 | |
CN117523208B (zh) | 基于图像语义分割与分类的身份识别方法与系统 | |
CN110826534B (zh) | 一种基于局部主成分分析的人脸关键点检测方法及系统 | |
Opu et al. | A lightweight deep convolutional neural network model for real-time age and gender prediction | |
Rajalakshmi et al. | An ensemble based hand vein pattern authentication system | |
Hossain et al. | Comparison of YOLO (V3, V5) and MobileNet-SSD (V1, V2) for Person Identification Using Ear-Biometrics | |
Mahmood et al. | A parallel framework for object detection and recognition for secure vehicle parking | |
Ke et al. | SRN: Side-output residual network for object reflection symmetry detection and beyond | |
Li et al. | Group-level emotion recognition based on faces, scenes, skeletons features | |
Liang et al. | Facial feature extraction method based on shallow and deep fusion CNN | |
Jagtap et al. | An Investigation of Face Recognition System for Criminal Identification in Surveillance Video | |
Zhang et al. | Static hand gesture recognition method based on the Vision Transformer | |
Deng et al. | Hybrid C2 features and spectral residual approach to object recognition | |
Liu et al. | An improved finger vein recognition model with a residual attention mechanism | |
Singh et al. | Identify a person from Iris Pattern using GLCM features and Machine Learning Techniques | |
Talib | A survey of Face detection and Recognition system | |
Biswas et al. | A novel embedding architecture and score level fusion scheme for occluded image acquisition in ear biometrics system | |
Poudel | Face recognition on historical photographs | |
Qi et al. | YOLOFKP: dense face detection based on YOLOv3 key point network | |
Mei | The Recognition of tibetan handwritten numbers based on federated learning | |
Chong et al. | Hand Gesture Recognition with Deep Convolutional Neural Networks: A Comparative Study | |
Kataraki et al. | Scalable Handwritten Digit Recognition Application using Neural Network and Convolutional Neural Network On Heterogeneous Architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |