CN113343943B

CN113343943B - 基于巩膜区域监督的眼部图像分割方法

Info

Publication number: CN113343943B
Application number: CN202110823193.0A
Authority: CN
Inventors: 田小林; 王凯; 黄小萃; 杨婷; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2023-04-28
Anticipated expiration: 2041-07-21
Also published as: CN113343943A

Abstract

本发明公开了一种基于巩膜区域监督的眼部图像分割方法，主要解决传统方法分割精度低的问题。其方案为：通过残差网络提取巩膜区域的高维特征；利用该高维特征对原眼部图像的高维特征进行注意力调整；对调整后的原眼部图像的高维特征进行编码得到编码语义特征；通过跨连接激励对编码语义特征进行改善，并将其输入到解码器进行解码得到解码语义特征；对解码语义特征进行通道调整，输出初步分割结果；计算初步分割结果与分割标签的总损失，并通过将其与设置阈值的比较，判断是否需要对所有的滤波器、编码器和解码器进行优化，输出瞳孔、虹膜和巩膜的最终分割结果。本发明提高了分割精度，可用于人眼定位、眨眼检测、改善视线估计、瞳孔变化监测。

Description

基于巩膜区域监督的眼部图像分割方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种眼部图像分割方法，可用于人眼定位、眨眼检测、改善视线估计与注视点估计、瞳孔变化监测。

背景技术

眼部图像分割的主要任务是将眼部图像的每一个像素关联到具体的瞳孔、虹膜、巩膜及其他的类别标签中，最终输出带有眼睛各部分具体位置信息的语义分割图。现有的语义分割最流行的方法之一是采用编码和解码的网络结构，编码采用多层卷积和池化即下采样实现，解码通过对编码进行逆运算，将编码得到的特征图不断上采样，最终得到一个与原图尺寸一致的全分辨率分割图。

腾讯医疗健康(深圳)有限公司在其拥有的专利技术“基于先验信息的眼部图像分割方法、装置、设备及介质”(专利申请号CN201910833947.3，授权公告号CN110599491A)中公开了一种基于先验信息的眼部图像分割方法。该方法的实现步骤是：获取眼底图像数据集，根据所述眼底图像数据集计算先验信息，然后构建机器学习模型，基于先验信息获得图像分割模型，从而实现对目标图像的最终分割。但是，该方法存在的不足之处在于，计算先验信息的过程十分耗时，同时对于上述先验信息具体的可解释性不强，且针对真实场景下的眼部图像会存在不同的先验信息，对于先验信息的计算十分困难。

重庆大学陈默涵在其硕士学位论文“人眼分割及瞳孔定位研究”中提出了一种基于随机椭圆拟合的瞳孔分割方法。该方法的实现步骤是，使用自适应阈值法和积分投影对瞳孔进行初分割得到瞳孔区域，结合随机原理和二乘法对初分割的到的瞳孔区域进行椭圆拟合，得到更加精细的瞳孔分割结果。该方法虽然解决了霍夫变换检测椭圆时计算量较大、所需内存较大的问题。但却存在两方面问题：一是其采用的自适应阈值法对于不同样本可能需要不同的设置，从而影响椭圆拟合的精细分割结果，导致分割精度有限；二是该方法没有很好地利用眼部图像中除瞳孔以外的虹膜、巩膜的特征以及它们之间的关系，使得分割效率降低。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于巩膜区域监督的眼部图像分割方法，以提高巩膜先验信息的计算速度与可解释性，提升眼部图像分割的分割速度和分割精度，提高分割效率。

为实现上述目的，本发明的技术方案包括：

1.一种基于巩膜区域监督的眼部图像分割方法，其特征在于，包括：

(1)从OpenEDS眼部分割数据集中获取带有标签的原眼部图像，并将其作为残差网络的输入，提取其巩膜区域的高维特征F_m；

(2)在高维特征空间中，利用巩膜区域的高维特征F_m对原眼部图像进行注意力调整：

(2a)使用非线性滤波器提取原眼部图像的高维特征F_i；

(2b)利用(1)中得到的巩膜区域的高维特征F_m，对眼部图像的高维特征F_i进行注意力调整，获得调整后的高维眼部图像特征F_a：

其中，

表示点乘操作；

(3)通过由残差网络构成的编码器对调整后的高维眼部图像特征进行编码，得到编码语义特征F_e；

(4)通过非线性滤波器提取编码语义特征F_e的激励特征F_s，并使用该激励特征对编码语义特征F_e进行跨连接激励，得到改善后的编码语义特征F_i:

其中，

f(.)表示线性滤波器，

表示点乘操作；

(5)通过由稠密网络构成的解码器对改善的编码语义特征进行解码，得到解码语义特征F_d；

(6)通过一个卷积层对解码语义特征进行通道调整，输出瞳孔、虹膜和巩膜的初步分割结果；

(7)利用OpenEDS眼部分割数据集中的标签集F构建巩膜区域标签集S；

(8)利用(1)中获取的眼部巩膜区域的高维特征生成巩膜区域掩膜图像，并计算该掩膜图像与巩膜区域标签集的均方误差损失MSE；

(9)根据(6)的初步分割结果与(1)获取的原图像标签，计算这两者的交叉熵损失CE；

(10)将均方误差损失MSE与交叉熵损失CE进行求和，得到巩膜区域掩膜图像与初步分割结果的总损失L；

(11)设置损失阈值L_t＝0.08，将总损失L与损失阈值L_t进行比较：

若L<L_t，则将(6)中的瞳孔、虹膜和巩膜的初步分割结果作为最终分割结果，

若L≥L_t，则执行(12)；

(12)利用Adam学习算法对(1)～(6)中所有的滤波器、编码器和解码器进行优化，返回(1)。

本发明与现有技术相比有以下优点：

第一，由于本发明利用残差网络生成巩膜区域掩膜的高维特征，利用该高维特征在高维特征空间中对眼部图像特征进行注意力调整，可得到具有巩膜区域先验信息的眼部图像高维特征，克服了现有技术对于先验信息计算困难、可解释性不强的缺点，且对于不同眼部图像样本都可以生成相应的巩膜区域掩膜，更加具有广泛性。

第二，由于本发明利用非线性滤波器生成编码语义特征的激励特征，并使用该激励特征对解码语义特征进行跨连接激励，从而可利用浅层的细节特征对深层的位置空间特征进行细化调整，克服了现有技术分割精度有限、没有很好利用瞳孔、虹膜和巩膜之间的上下文信息的缺点，提高了在眼部图像分割任务上的鲁棒性。

仿真结果表明，本发明在整个OpenEDS眼部分割数据集的验证集上最后的验证的平均交并比MIOU为95.28％，对其中一幅尺寸为640×480的眼部图像进行分割仅需约0.025秒，在保持分割精度的同时也保证了分割速度，提高了分割效率。

附图说明

图1为本发明的实现流程图；

图2为本发明的仿真结果图。

具体实施方式

下面结合附图对本发明实施例和效果做进一步的描述。

参照图1，对本实例的具体实现包括如下步骤：

步骤1，提取眼部巩膜区域的高维特征F_m。

1.1)在互联网上下载OpenEDS眼部分割数据集，该数据集共有12759张眼部图像，其中有11319张带有瞳孔、虹膜和巩膜区域的分割标签；

1.2)从下载的OpenEDS眼部分割数据集中获取带有标签的原眼部图像；

1.3)使用现有的残差网络对带有标签的原眼部图像进行特征提取，即将该眼部图像输入到残差网络中，输出原眼部图像巩膜区域的高维特征F_m。

步骤2，对原眼部图像进行注意力调整。

2.1)使用现有的非线性滤波器对原眼部图像进行特征提取，即将该眼部图像输入非线性滤波器中，输出原眼部图像的高维特征F_i；

2.2)利用1.3)中得到的巩膜区域的高维特征F_m，对眼部图像的高维特征F_i进行注意力调整，即将巩膜区域的高维特征F_m和眼部图像的高维特征F_i进行点乘操作，获得调整后的高维眼部图像特征F_a：

其中，

表示点乘操作。

步骤3，获取编码语义特征F_e。

3.1)将现有的残差网络与一个平均池化层级联，构成一个编码块；

3.2)将调整后的高维眼部图像特征F_a作为编码块的输入，输出第一次编码语义特征F_e1；

3.3)将第一次编码语义特征F_e1作为编码块的输入，输出第二次编码语义特征F_e2；

3.4)将第二次编码语义特征F_e2作为编码块的输入，输出第三次编码语义特征F_e3；

3.5)将第三次编码语义特征F_e3作为编码块的输入，输出最终的编码语义特征F_e。

步骤4，对编码语义特征进行改善。

由于上述得到的编码语义特征F_e只含有很好的语义信息，而缺少空间位置信息，为了在解码过程中也能利用到眼部图像中的空间位置信息，在进行解码前需对编码语义特征F_e进行改善，其实现如下：

4.1)通过一个现有的非线性滤波器提取编码语义特征F_e的激励特征F_s，即将编码语义特征F_e输入该非线性滤波器，输出激励特征F_s：

其中，f(.)表示一现有线性滤波器；

4.2)使用编码语义特征F_e的激励特征F_s对编码语义特征F_e进行跨连接激励，即将激励特征F_s和编码语义特征F_e进行点乘操作，得到改善后的编码语义特征F_i:

其中，

表示点乘操作。

步骤5，获取解码语义特征F_d。

5.1)将现有的稠密网络与上采样层级联，构建一个解码块；

5.2)将改善的编码语义特征F_i作为解码块的输入，输出第一次初步解码语义特征

5.3)将第三次编码语义特征F_e3作为现有的非线性滤波器的输入，输出激励特征F_s3，并使用F_s3对第一次初步解码语义特征

进行跨连接激励，即将激励特征F_s3和第一次初步解码语义特征

进行点乘操作，得到第一次解码语义特征F_d1:

其中，

f₃(.)表示一现有线性滤波器，

表示点乘操作；

5.4)将第一次解码语义特征F_d1作为解码块的输入，输出第二次初步解码语义特征

5.5)将第二次编码语义特征F_e2作为现有的非线性滤波器的输入，输出激励特征F_s2，并使用F_s2对第二次初步解码语义特征

进行跨连接激励，即将激励特征F_s2和第二次初步解码语义特征

进行点乘操作，得到第二次解码语义特征F_d2:

其中，

f₂(.)表示现有的线性滤波器，

表示点乘操作；

5.6)将第二次编码语义特征F_d2作为解码块的输入，输出第三次初步解码语义特征

5.7)将第一次编码语义特征F_e1作为现有的非线性滤波器的输入，输出激励特征F_s1，并使用F_s1对第三次初步解码语义特征

进行跨连接激励，即将激励特征F_s1和第三次初步解码语义特征

进行点乘操作，得到最终的编码语义特征F_d:

其中，

f₁(.)表示现有的线性滤波器，

表示点乘操作。

步骤6，输出瞳孔、虹膜和巩膜的初步分割结果。

6.1)通过一个尺寸为3×3×32的三维卷积核构成一个卷积层；

6.2)将5.7)中得到的编码语义特征F_d输入到该卷积层，输出瞳孔、虹膜和巩膜初步分割结果。

步骤7，构建巩膜区域标签集S。

7.1)将OpenEDS眼部分割数据集中的标签集用K表示，并用该标签集构建巩膜区域标签集S，即将标签集K中的像素值为1的像素保留下来，作为巩膜区域标签集S：

其中，S_i(x,y)表示巩膜区域标签集S中第i个标签中第x行第y列的像素值，K_i(x,y)表示标签集K中第i个标签中第x行第y列的像素值，i，x和y都是整数，i的取值范围是0～K，x取值范围范围是0～640，y取值范围范围是0～480。

步骤8，计算均方误差损失MSE。

8.1)利用1.2)中获取的眼部巩膜区域的高维特征生成巩膜区域掩膜图像，即将该高维特征输入一个非线性滤波器，输出巩膜区域掩膜图像；

8.2)计算巩膜区域掩膜图像与巩膜区域标签集S的均方误差损失MSE：

其中，I_xy表示生成的巩膜区域掩膜图像的第i行第j列的像素值，S_xy表示巩膜区域掩膜标签的第x行第y列的像素值，h和w分别表示巩膜区域掩膜图像的高和宽，*表示数值相乘。

步骤9，计算交叉熵损失CE。

9.1)根据步骤6的初步分割结果与步骤1获取的原图像标签，计算这两者的交叉熵损失CE：

其中，N表示原图像中的像素总数，c表示分割类别数，根据分割的类别数设置，由于本实例中分割类别包括瞳孔、虹膜、巩膜和其它这四个类别，故c＝4，p_ab表示第a个像素属于第b类的真实概率，

表示第a个像素属于第b类的预测概率。

步骤10，计算总损失L，确定最终分割结果。

10.1)将均方误差损失MSE与交叉熵损失CE进行求和，得到巩膜区域掩膜图像与初步分割结果的总损失：

L＝MSE+CE

10.2)设置损失阈值L_t＝0.08；

10.3)将总损失L与损失阈值L_t进行比较：

若L<L_t，则将步骤6中的瞳孔、虹膜和巩膜的初步分割结果作为最终分割结果，

若L≥L_t，则执行步骤11。

步骤11，对所有的滤波器、编码器和解码器进行优化，重新进行分割。

由于步骤1～6中的所有滤波器、编码器和解码器的参数并不是最佳参数，所以步骤6中的瞳孔、虹膜和巩膜的初步分割结果的精度较低，为了得到更好的分割结果，需要对所有的滤波器、编码器和解码器进行优化，其实现如下：

11.1)计算总损失L对θ的梯度g，其中θ表示待优化的所有滤波器、编码器和解码器的参数；

11.2)计算梯度g的一阶矩m和二阶矩v；

11.3)对一阶矩m进行校正，得到校正后的一阶矩

其中，β₁为一阶衰减系数，本实例中β₁＝0.9，t表示优化次数，

表示β₁的t次方；

11.4)对二阶矩v进行校正，得到校正后的二阶矩

其中，β₂为二阶衰减系数，本实例中β₂＝0.999，t表示优化次数，

表示β₂的t次方；

11.5)对待优化的所有滤波器、编码器和解码器的参数θ进行更新，获得优化后的参数θ_t:

其中，α为优化步长，本实例中α＝0.001，∈为正则化系数，本示例中∈＝1×10^-8；

11.6)本次优化结束，返回步骤2。

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本发明仿真实验的硬件测试平台是：处理器为CPUintelCorei5-6500，主频为3.2GHz，内存8GB，显卡为GeForceGTX1080。

本发明仿真实验的软件平台为：Windows7旗舰版，64位操作系统，VSCode集成开发环境，python3.7，cuda10.1。

仿真实验所用数据来自从互联网下载的OpenEDS眼部图像数据集中验证集的数据，验证集共有2403幅带有标签的眼部图像。

2.仿真内容及结果分析：

本发明仿真实验是在OpenEDS验证集上进行测试，即对于验证集上的单幅眼部图像，首先利用本发明步骤1提取其巩膜区域掩膜的高维特征；接着利用本发明步骤2进行注意力调整；然后，通过本发明步骤3～6生成初步分割结果；最后，通过步骤8～11输出最终分割结果，如图2所示。其中：

图2(a)左图为OpenEDS验证集中的一幅带有眼镜的眼部图像，该图像分割的难点在于，图像中有眼镜遮挡，镜片中有光线反射干扰。

图2(a)右图为利用本发明对图2(a)左图进行分割的最终分割结果，从结果来看，本发明对于带有眼镜遮挡、反射干扰的眼部图像进行分割，也能获得比较好的分割效果，具有很高的鲁棒性。

图2(b)左图为OpenEDS验证集中的一幅睫毛较长的眼部图像，该图像分割的难点在于，图像中睫毛较长，对眼部有一定遮挡，并且眼开合较小，瞳孔、虹膜不完整。

图2(b)右图为利用本发明对图2(b)左图进行分割的最终分割结果，从该分割结果图来看，本发明在对眼开合较小、带有睫毛干扰的眼部图像进行分割时，仍能保持较好的鲁棒性。

获得整个OpenEDS验证集的所有分割结果之后，评估整个OpenEDS验证集上的最终分割结果与所有标签之间的平均交并比MIOU。经过评估，整个验证集上的平均交并比MIOU为95.28％，推理速度大概为40FPS，表明本发明在保证较高精度的同时满足实时性要求，具有较高的分割效率。

以上仿真实验表明：本发明利用巩膜区域的高维特征对眼部图像高维特征进行注意力调整，最终能够实现非常精准的瞳孔、虹膜以及巩膜区域的分割，在具有某些干扰或者眼开合较小时，不仅具有较高的鲁棒性，而且还具有较高的分割效率。

Claims

(1)从OpenEDS眼部分割数据集中获取带有标签的原眼部图像，并将其作为残差网络的输入，提取其眼部巩膜区域的高维特征F_m；

(2a)使用非线性滤波器提取原眼部图像的高维特征F_i′；

其中，表示点乘操作；

(3)通过由残差网络构成的编码器对调整后的高维眼部图像特征进行编码，得到编码语义特征F_e，实现如下：

3.5)将第三次编码语义特征F_e3作为编码块的输入，输出最终的编码语义特征F_e；

其中，f(.)表示线性滤波器，表示点乘操作；

5.1)将现有的稠密网络与上采样层级联，构建一个解码块；

5.3)将第三次编码语义特征F_e3作为现有的非线性滤波器的输入，输出激励特征F_s3，并使用F_s3对第一次初步解码语义特征进行跨连接激励，即将激励特征F_s3和第一次初步解码语义特征进行点乘操作，得到第一次解码语义特征F_d1:

其中，f₃(.)表示一现有线性滤波器，表示点乘操作；

5.5)将第二次编码语义特征F_e2作为现有的非线性滤波器的输入，输出激励特征F_s2，并使用F_s2对第二次初步解码语义特征进行跨连接激励，即将激励特征F_s2和第二次初步解码语义特征进行点乘操作，得到第二次解码语义特征F_d2:

其中，f₂(.)表示现有的线性滤波器，表示点乘操作；

5.7)将第一次编码语义特征F_e1作为现有的非线性滤波器的输入，输出激励特征F_s1，并使用F_s1对第三次初步解码语义特征进行跨连接激励，即将激励特征F_s1和第三次初步解码语义特征进行点乘操作，得到最终的编码语义特征F_d:

其中，f₁(.)表示现有的线性滤波器，表示点乘操作；

(7)利用OpenEDS眼部分割数据集中的标签集K构建巩膜区域标签集S；

若L≥L_t，则执行(12)；

2.根据权利要求1所述的方法，其特征在于，(6)中通过一个卷积层对解码语义特征进行通道调整，是通过尺寸为3×3×32的三维卷积核将通道数为32的解码语义特征调整为通道数为4的瞳孔、虹膜和巩膜分割结果。

3.根据权利要求1所述的方法，其特征在于，(7)中利用OpenEDS眼部分割数据集中的标签集K构建巩膜区域标签集S，公式如下：

其中，S_i(x,y)表示巩膜区域标签集S中第i个标签中第x行第y列的像素值，k_i(x,y)表示OpenEDS眼部分割数据集中的标签集K中第i个标签中第x行第y列的像素值，i，x和y都是整数，i的取值范围是0～标签集K的标签总数，x取值范围范围是0～640，y取值范围范围是0～480。

4.根据权利要求1所述的方法，其特征在于，(8)中计算掩膜图像与巩膜区域标签集的均方误差损失MSE，公式如下：

其中，I_xy表示生成的巩膜区域掩膜图像的第x行第y列的像素值，S_xy表示巩膜区域掩膜标签的第x行第y列的像素值，h和w分别表示巩膜区域掩膜图像的高和宽，*表示数值相乘。

5.根据权利要求1所述的方法，其特征在于，(9)中计算初步分割结果与原图像标签这两者的交叉熵损失CE，公式如下：

其中，CE表示交叉熵损失，N表示原图像中的像素总数，c表示分割类别数，p_ab表示第a个像素属于第b类的真实概率，表示第a个像素属于第b类的预测概率。

6.根据权利要求1所述的方法，其特征在于，(12)中利用Adam学习算法对(1)～(6)中所有的滤波器、编码器和解码器进行优化，实现如下：

(12a)计算(10)中的L对θ的梯度g，其中θ表示待优化的所有滤波器、编码器和解码器的参数；

(12b)计算梯度g的一阶矩m和二阶矩v；

(12c)对一阶矩m进行校正，得到校正后的一阶矩

其中，β₁为一阶衰减系数，t表示优化次数，表示β₁的t次方；

(12d)对二阶矩v进行校正，得到校正后的二阶矩

其中，β₂为二阶衰减系数，t表示优化次数，表示β₂的t次方；

(12e)对待优化的所有滤波器、编码器和解码器的参数θ进行更新，获得优化后的参数θ_t:

其中，α为优化步长，∈为正则化系数。