CN113591747B

CN113591747B - 一种基于深度学习的多场景虹膜识别方法

Info

Publication number: CN113591747B
Application number: CN202110898852.7A
Authority: CN
Inventors: 周博; 杨永跃; 夏远超
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2024-02-23
Anticipated expiration: 2041-08-06
Also published as: CN113591747A

Abstract

本发明公开了一种基于深度学习的多场景虹膜识别方法，解决当下虹膜识别算法的鲁棒性差，开发虹膜识别在复杂场景、非理想成像条件下的识别能力低的技术问题。所述识别方法包括：对人的整个眼部进行拍摄取像得到待识别的人眼部图像；再进行虹膜定位分割得到待识别的虹膜图像；再进行虹膜特征提取得到由元素为虹膜特征构成的待识别的特征矩阵；再进行虹膜特征匹配，若匹配成功则身份识别通过。本发明在虹膜定位分割阶段采用加入了跳跃连接并使用空洞卷积的UNet语义分割模型来得到分离好的虹膜图像，提高了虹膜定位分割的鲁棒性，省去了一些繁琐的需要大量实验来确定参数的预处理步骤，同时可直接去除上下眼睑，无需分两步处理，算法的泛化性强。

Description

一种基于深度学习的多场景虹膜识别方法

技术领域

本发明涉及一种识别方法，尤其涉及一种基于深度学习的多场景虹膜识别方法。

背景技术

生物识别技术的应用在如今信息化趋势愈演愈烈的情况下已经渗入到每个人生活的方方面面，这种利用一些人类本身具有的能够区分不同个体的生理特征进行身份认证的一种技术极大的方便了我们的生活的同时，也保护了我们的隐私和财产安全，常见的生物识别技术有：指纹、人脸、虹膜、静脉、声纹、掌纹等。其中虹膜识别技术以其安全性强、稳定性好、精确度高的特点，在生物识别领域应用广泛。

虹膜是一种成型于人体胚胎发育时期，位于瞳孔和巩膜之间的含色素的结缔组织，其表面具有数量众多的，结构复杂的纹理，有研究表明每只眼睛的虹膜纹理都是有区别的，同一个人不同眼睛的虹膜纹理也会有很大的区别，一般认为自然界出现两只纹理相同的虹膜的概率非常非常小，可以说是基本不可能。此外虹膜独特的纹理结构在人的一生中自成型后基本不会发生变化。虹膜的这两个最主要的特点是它能够成为生物识别特征的先决条件。

同绝大多数生物识别技术相似，虹膜识别的流程主要由以下步骤组成：第一步是虹膜图像的采集，接着对采集到的虹膜图像进行处理，并定位分割虹膜，然后就是对分割后的图像进行特征提取，以提取有效的可区别特征，并将提取的特征处理成易于比对的特征模板存储起来，至此就完成了身份登记的流程，在进行身份识别时，只需要把存储模板的操作替换成用待识别的虹膜图像特征与特征模板库的样本进行比对即可，如果有相似度极高的样本视为比对通过，反之则拒绝。

可见在识别的流程中，识别算法的地位举足轻重，极大程度上决定了识别的准确度和速度。虹膜识别算法主要由虹膜图像的定位分割和特征提取两个步骤。一般硬件采集到的图像是人整个眼睛甚至整个眼眶的图像，包含像眼周、上下眼睑、巩膜等噪声，因此为保证接下来的特征提取效果，首先应把用来识别的虹膜部分从原图像分离开来，分离之后再进行特征提取。

传统的虹膜识别算法主要是通过人工分析抽取图像可利用的特点来实现的，以经典的几种算法为例，Daugman的算法先利用圆形检测微分算子定位虹膜，对虹膜归一化之后利用Gabor滤波器提取特征信息，最后利用海明距离来评估特征之间相似度；Wildes先利用拉普拉斯提取图像边缘，利用霍夫圆检测来检测虹膜边界，用高斯拉普拉斯金字塔多分辨率技术来提取特征，最后用Fisher分类器进行分类。这些算法在虹膜分割定位上多是利用瞳孔近似圆形的形状和二者之间的灰度差的特点，一些参数需要反复实验才能得到，识别的准确率严重依赖于特定的成像条件和图片质量，自适应能力差，鲁棒性弱。在虹膜特征提取方面，传统方法高度依赖手工提取的特征，需要利用人类的先验知识对原始数据进行特征处理，然后对特征进行分类，分类结果对特征的依赖性较大，鲁棒性差。

发明内容

为了提高虹膜识别算法的鲁棒性，开发虹膜识别在复杂场景、非理想成像条件下的识别能力，本发明提出了一种基于深度学习的多场景虹膜识别方法。

本发明采用以下技术方案实现：一种基于深度学习的多场景虹膜识别方法，包括以下步骤：

步骤一、对人的整个眼部进行拍摄取像，得到待识别的人眼部图像；

步骤二、对所述待识别的人眼部图像进行虹膜定位分割，得到待识别的虹膜图像；

步骤三、对所述待识别的虹膜图像进行虹膜特征提取，得到由元素为虹膜特征构成的待识别的特征矩阵；

步骤四、对所述待识别的特征矩阵进行虹膜特征匹配，若匹配成功，则身份识别通过；

其中，在步骤二中，利用预训练好的语义分割网络对所述待识别的人眼部图像进行分割，所述语义分割网络的输入为所述待识别的人眼部图像，输出为分离瞳孔、巩膜以及眼睑的虹膜图像；所述语义分割网络结构骨干部分基于经典的语义分割网络UNet，作为改进在UNet的U型编码-解码结构上加入了跳跃连接，使所述语义分割网络的每个解码器都融合了来自同一层级和更浅层级的所有编码器的特征图，其中更浅层级的特征图通过最大池化操作实现尺寸的统一，另外采用空洞卷积代替所述语义分割网络的编码器、解码器中的普通卷积操作以提高分割精度。

作为上述方案的进一步改进，所述语义分割网络的预训练方法为：利用训练用人眼部图像及对应的虹膜区域二值化掩码分别作为所述语义分割网络的输入和预计输出，输入到所述语义分割网络的网络模型中，训练所述网络模型直至所述网络模型收敛。

作为上述方案的进一步改进，在步骤一中，利用成像设备在预期应用场景下对人的整个眼部进行拍摄，采集具有一定数目可供识别纹理的虹膜数字图像，进行标注，以生成原图像虹膜区域的二值化掩码图，作为所述待识别的虹膜图像，并进行编号以区分不同的眼睛。

进一步地，所述成像设备为数字摄像机。

进一步地，在步骤三中，利用预训练好的虹膜特征提取网络对所述待识别的虹膜图像进行分割，依次分割成编号为1至12的3×4块图块；所述虹膜特征提取网络的输入为所述待识别的虹膜图像上截取的四块图块的拼接，四块图块的图像截取策略为编号为3、6、9、12四块图块，一边与虹膜内边缘相切的正方形图块的拼接；输出为经网络提取后的特征矩阵；

所述虹膜特征提取网络的结构骨干主要由ResNet101(ResNet即残差网络，后缀的101表示该残差网络的卷积或者全连接层共有101层，ResNet101是一种常用的ResNet网络)构成，作为改进在ResNet101的每个block(block模块即残差块，是构成ResNet网络的基本结构)中加入了一种空间注意力模块，以更好的获取虹膜图像关键特征纹理的位置信息。

优选地，残差块中的注意力模块的流程结构为：对输入为C×H×W的图像分别用尺寸为(H,1)和(1,W)的池化核分别沿着水平坐标和垂直坐标对每个通道做最大池化和平均池化得到四组张量，分别为尺寸为C×H×1的Xavg、Xmax和尺寸为C×1×W的Yavg、Ymax，将Xavg、Xmax进行维度变换处理成C×1×H的尺寸，在第2个维度将Xavg、Yavg进行拼接处理，得到尺寸为C×1×(W+H)的Xt，同理对Xmax、Ymax做同样的处理得到Yt，再把Xt和Yt进行拼接得到尺寸为2C×1×(W+H)的Temp张量，再依次通过两次1×1的卷积层接BN层再接非线性激活函数的结构，第一次将通道压缩为2C/r，其中r为人工设置的参数，第二次将通道变化成为C，此时Temp张量的尺寸为C×1×(W+H)，然后在第2个维度上对Temp张量进行拆分操作得到尺寸为C×H×1的X和尺寸为C×1×W的Y，最后分别通过sigmoid激活函数，最终的X和Y分别视为对原图像在水平以及垂直方向上的空间信息编码，将X和Y与原图像做乘积即可找出图片信息中需要被关注的区域；

其中，C为图片通道数；

H为图片尺寸：高度；

W为图片尺寸：宽度；

X为对原图像在水平方向上的空间信息编码，Xavg为对输入图像做水平方向平均池化后得到的张量，Yavg为对输入图像做垂直方向平均池化后得到的张量，Xt为Xavg、Yavg拼接后的张量；

Y为对原图像在垂直方向上的空间信息编码，Xmax为对输入图像做水平方向最大值池化后得到的张量，Ymax为对输入图像做垂直方向最大值池化后得到的张量，Yt为Xmax、Ymax拼接后的张量；

Temp张量为Xt和Yt拼接后的张量。

优选地，所述虹膜特征提取网络的预训练方法为：利用训练用虹膜图像做输入，对应编号做输出按照普通分类网络进行训练，训练好后取整个网络第一层全连接层之前的部分用作所述虹膜特征提取网络。

作为上述方案的进一步改进，在步骤四中，将所述待识别的特征矩阵与一个虹膜样本库中的样本特征矩阵进行虹膜特征匹配。

优选地，所述虹膜样本库中的每个样本特征矩阵都计算有二范数，所述二范数作为初步比较的尺度；当所述待识别的特征矩阵比对时，计算所述待识别的特征矩阵的二范数，将所述待识别的特征矩阵的二范数与所述虹膜样本库中的每个样本特征矩阵的二范数进行比对，如果二范数的差值在一定二范数范围内，则对所述待识别的特征矩阵与相应的样本特征矩阵做进一步比对，比对余弦相似度，若余弦相似度的差值在一定余弦相似度范围内，则认为匹配成功。

优选地，将所述待识别的特征矩阵存储在与所述虹膜样本库中，作为一个新的样本特征矩阵。

本发明在虹膜图像分割阶段，省去了一些繁琐的需要大量实验来确定参数的预处理步骤，定位虹膜的同时可直接去除上下眼睑，无需分两步处理，算法的泛化性强，鲁棒性好。理论上只要训练集足够的好，该模型可以满足各种场景、以及非理想条件下成像下的虹膜图像分割任务需求。

本发明在虹膜图像特征提取方面，省去了虹膜归一化操作，降低了计算量，提高了速度，同时避免了利用的先验知识手工设计特征提取机制对原始数据进行特征提取。理论上是要训练得当，就能够学习到比手工设计的要更加具有代表性和区分度的特征表示。

附图说明

图1为本发明基于深度学习的多场景虹膜识别方法的流程图。

图2为图1中进行虹膜特征提取时ResNet101网络的残差块改进后流程图。

图3为图2中进行虹膜特征提取时引入的注意力模块的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施例的基于深度学习的多场景虹膜识别方法主要包括以下步骤：

步骤四、对所述待识别的特征矩阵进行虹膜特征匹配，若匹配成功，则身份识别通过。

请参阅图1，接下去对每个步骤进行详细解说。

步骤一、对人的整个眼部进行拍摄取像，得到待识别的人眼部图像。这属于数据采集，在本实施例中，数据采集的方式为利用成像设备在预期应用场景下对人的整个眼部进行拍摄，所述成像设备如数字摄像机、手机等。

利用成像设备在预期应用场景下对人的整个眼部进行拍摄，采集具有一定数目可供识别纹理的虹膜数字图像，进行标注，以生成原图像虹膜区域的二值化掩码图，作为所述待识别的虹膜图像，并进行编号以区分不同的眼睛。

步骤二、三、四属于数据处理，其中步骤四输出最后的处理决策。

步骤二、对所述待识别的人眼部图像进行虹膜定位分割，得到待识别的虹膜图像。利用预训练好的语义分割网络对所述待识别的人眼部图像进行分割，所述语义分割网络的输入为所述待识别的人眼部图像，输出为分离瞳孔、巩膜以及眼睑的虹膜图像；所述语义分割网络结构骨干部分基于经典的语义分割网络UNet，作为改进在UNet的U型编码-解码结构上加入了跳跃连接，使所述语义分割网络的每个解码器都融合了来自同一层级和更浅层级的所有编码器的特征图，其中更浅层级的特征图通过最大池化操作实现尺寸的统一，另外采用空洞卷积代替所述语义分割网络的编码器、解码器中的普通卷积操作以提高分割精度。

本发明在虹膜定位分割阶段采用加入了新的跳跃连接并使用空洞卷积的UNet语义分割模型来得到分离好的虹膜图像，提高了虹膜定位分割的鲁棒性。在虹膜图像分割阶段，省去了一些繁琐的需要大量实验来确定参数的预处理步骤，定位虹膜的同时可直接去除上下眼睑，无需分两步处理，算法的泛化性强，鲁棒性好。理论上只要训练集足够的好，该模型可以满足各种场景、以及非理想条件下成像下的虹膜图像分割任务需求。

所述语义分割网络的预训练方法为：利用训练用人眼部图像及对应的虹膜区域二值化掩码分别作为所述语义分割网络的输入和预计输出，输入到所述语义分割网络的网络模型中，训练所述网络模型直至所述网络模型收敛。

步骤三、对所述待识别的虹膜图像进行虹膜特征提取，得到由元素为虹膜特征构成的待识别的特征矩阵。

请结合图2，利用预训练好的虹膜特征提取网络对图像进行分割，该网络的输入为分割后的虹膜图像上截取的四小块图块的拼接，图像截取策略为编号3、6、9、12四块图块，一边与虹膜内边缘相切的正方形图块的拼接，输出为经网络提取后的特征矩阵。虹膜特征提取网络的结构骨干由ResNet101(ResNet即残差网络，后缀的101表示该残差网络的卷积或者全连接层共有101层，ResNet101是一种常用的ResNet网络)构成，作为改进在ResNet101的每个block模块(block模块即残差块，是构成ResNet网络的基本结构)中加入了一种空间注意力模块，以更好的获取虹膜图像关键特征纹理的位置信息。

请结合图3，空间注意力模块的流程结构为：对输入为C×H×W的图像分别用尺寸为(H,1)和(1,W)的池化核分别沿着水平坐标和垂直坐标对每个通道做最大池化和平均池化得到四组张量，分别为尺寸为C×H×1的Xavg、Xmax和尺寸为C×1×W的Yavg、Ymax，将Xavg、Xmax进行维度变换处理成C×1×H的尺寸，在第2个维度将Xavg、Yavg进行拼接处理，得到尺寸为C×1×(W+H)的Xt，同理对Xmax、Ymax做同样的处理得到Yt，再把Xt和Yt进行拼接得到尺寸为2C×1×(W+H)的Temp张量，再依次通过两次1×1的卷积层接BN层再接非线性激活函数的结构，第一次将通道压缩为2C/r，其中r为人工设置的参数，第二次将通道变化成为C，此时Temp张量的尺寸为C×1×(W+H)，然后在第2个维度上对Temp张量进行拆分操作得到尺寸为C×H×1的X和尺寸为C×1×W的Y，最后分别通过sigmoid激活函数，最终的X和Y分别视为对原图像在水平以及垂直方向上的空间信息编码，将X和Y与原图像做乘积即可找出图片信息中需要被关注的区域。该网络的预训练方法为：利用分割后处理好的虹膜图像做输入，对应编号做输出按照普通分类网络进行训练，训练好后取整个网络第一层全连接层之前的部分用作虹膜特征提取网络。

其中，C为图片通道数；

H为图片尺寸：高度；

W为图片尺寸：宽度；

Temp张量为Xt和Yt拼接后的张量。

本发明在虹膜特征提取阶段采用一种注意力模块改进的ResNet网络来提取虹膜图像特征，增加了提取的虹膜特征的代表性和区分度，提高了虹膜匹配的准确率。在虹膜图像特征提取方面，省去了虹膜归一化操作，降低了计算量，提高了速度，同时避免了利用的先验知识手工设计特征提取机制对原始数据进行特征提取。理论上是要训练得当，就能够学习到比手工设计的要更加具有代表性和区分度的特征表示。

将所述待识别的特征矩阵与一个虹膜样本库中的样本特征矩阵进行虹膜特征匹配。所述虹膜样本库中的每个样本特征矩阵都计算有二范数，所述二范数作为初步比较的尺度；当所述待识别的特征矩阵比对时，计算所述待识别的特征矩阵的二范数，将所述待识别的特征矩阵的二范数与所述虹膜样本库中的每个样本特征矩阵的二范数进行比对，如果二范数的差值在一定二范数范围内，则对所述待识别的特征矩阵与相应的样本特征矩阵做进一步比对，比对余弦相似度，若余弦相似度的差值在一定余弦相似度范围内，则认为匹配成功；否则匹配不成功。如果针对匹配不成功的人，想给予权限，可以将所述待识别的特征矩阵存储在与所述虹膜样本库中，作为一个新的样本特征矩阵。这样针对这个人下次的虹膜特征匹配就可以获得成功，身份识别就可以通过。

本发明运用深度学习来实现多场景虹膜识别算法。使用语义分割网络实现虹膜图像的定位分割；使用ResNet图像分类网络的第一层全连接层之前的部分作为虹膜图像的特征提取器；使用二范数和余弦相似度来匹配不同的虹膜样本。也就是说，虹膜定位分割阶段采用加入了新的跳跃连接并使用空洞卷积的UNet语义分割模型来得到分离好的虹膜图像，虹膜特征提取阶段采用一种注意力模块改进的ResNet网络来提取虹膜图像特征。

本发明可根据虹膜识别系统的预期使用场景和成像条件采集到足量的训练集对网络进行训练后，可实现多场景，多种成像条件下的虹膜识别功能，适用于各种需要身份认证的场合。本发明还可内嵌到综合的多重身份认证系统中去，配合其他的唯一生物特征：如声纹、指纹、面部或是密码来实现更高安全性的身份认证。本发明还可作为一个多功能的大型系统中的身份认证模块功能的实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的多场景虹膜识别方法，包括以下步骤：

其特征在于，在步骤二中，利用预训练好的语义分割网络对所述待识别的人眼部图像进行分割，所述语义分割网络的输入为所述待识别的人眼部图像，输出为分离瞳孔、巩膜以及眼睑的虹膜图像；所述语义分割网络结构骨干部分基于经典的语义分割网络UNet，作为改进在UNet的U型编码-解码结构上加入了跳跃连接，使所述语义分割网络的每个解码器都融合了来自同一层级和更浅层级的所有编码器的特征图，其中更浅层级的特征图通过最大池化操作实现尺寸的统一，另外采用空洞卷积代替所述语义分割网络的编码器、解码器中的普通卷积操作以提高分割精度；

其中，在步骤三中，利用预训练好的虹膜特征提取网络对所述待识别的虹膜图像进行分割，依次分割成编号为1至12的3×4块图块；所述虹膜特征提取网络的输入为所述待识别的虹膜图像上截取的四块图块的拼接，四块图块的图像截取策略为编号为3、6、9、12四块图块，一边与虹膜内边缘相切的正方形图块的拼接；输出为经网络提取后的特征矩阵；

所述虹膜特征提取网络的结构骨干主要由ResNet101构成，作为改进在ResNet101的每个残差块中加入了一种空间注意力模块，以更好的获取虹膜图像关键特征纹理的位置信息；

残差块中的注意力模块的流程结构为：对输入为C×H×W的图像分别用尺寸为(H,1)和(1,W)的池化核分别沿着水平坐标和垂直坐标对每个通道做最大池化和平均池化得到四组张量，分别为尺寸为C×H×1的Xavg、Xmax和尺寸为C×1×W的Yavg、Ymax，将Xavg、Xmax进行维度变换处理成C×1×H的尺寸，在第2个维度将Xavg、Yavg进行拼接处理，得到尺寸为C×1×（W+H）的Xt，同理对Xmax、Ymax做同样的处理得到Yt，再把Xt和Yt进行拼接得到尺寸为2C×1×（W+H）的Temp张量，再依次通过两次1×1的卷积层接BN层再接非线性激活函数的结构，第一次将通道压缩为2C/r，其中r为人工设置的参数，第二次将通道变化成为C，此时Temp张量的尺寸为C×1×（W+H），然后在第2个维度上对Temp张量进行拆分操作得到尺寸为C×H×1的X和尺寸为C×1×W的Y，最后分别通过sigmoid激活函数，最终的X和Y分别视为对原图像在水平以及垂直方向上的空间信息编码，将X和Y与原图像做乘积即可找出图片信息中需要被关注的区域；

其中，C为图片通道数；

H为图片尺寸：高度；

W为图片尺寸：宽度；

X为对原图像在水平方向上的空间信息编码，Xavg为对输入图像做水平方向平均池化后得到的张量，Yavg为对输入图像做垂直方向平均池化后得到的张量， Xt为Xavg、Yavg拼接后的张量；

Temp张量为Xt和Yt拼接后的张量。

2.根据权利要求1所述的一种基于深度学习的多场景虹膜识别方法，其特征在于，所述语义分割网络的预训练方法为：利用训练用人眼部图像及对应的虹膜区域二值化掩码分别作为所述语义分割网络的输入和预计输出，输入到所述语义分割网络的网络模型中，训练所述网络模型直至所述网络模型收敛。

3.根据权利要求1所述的一种基于深度学习的多场景虹膜识别方法，其特征在于，在步骤一中，利用成像设备在预期应用场景下对人的整个眼部进行拍摄，采集具有一定数目可供识别纹理的虹膜数字图像，进行标注，以生成原图像虹膜区域的二值化掩码图，作为所述待识别的虹膜图像，并进行编号以区分不同的眼睛。

4.根据权利要求3所述的一种基于深度学习的多场景虹膜识别方法，其特征在于，所述成像设备为数字摄像机。

5.根据权利要求1所述的一种基于深度学习的多场景虹膜识别方法，其特征在于：

所述虹膜特征提取网络的预训练方法为：利用训练用虹膜图像做输入，对应编号做输出按照普通分类网络进行训练，训练好后取整个网络第一层全连接层之前的部分用作所述虹膜特征提取网络。

6.根据权利要求1所述的一种基于深度学习的多场景虹膜识别方法，其特征在于：在步骤四中，将所述待识别的特征矩阵与一个虹膜样本库中的样本特征矩阵进行虹膜特征匹配。

7.根据权利要求6所述的一种基于深度学习的多场景虹膜识别方法，其特征在于：所述虹膜样本库中的每个样本特征矩阵都计算有二范数，所述二范数作为初步比较的尺度；当所述待识别的特征矩阵比对时，计算所述待识别的特征矩阵的二范数，将所述待识别的特征矩阵的二范数与所述虹膜样本库中的每个样本特征矩阵的二范数进行比对，如果二范数的差值在一定二范数范围内，则对所述待识别的特征矩阵与相应的样本特征矩阵做进一步比对，比对余弦相似度，若余弦相似度的差值在一定余弦相似度范围内，则认为匹配成功。

8.根据权利要求6所述的一种基于深度学习的多场景虹膜识别方法，其特征在于：将所述待识别的特征矩阵存储在与所述虹膜样本库中，作为一个新的样本特征矩阵。