CN110490083A - 一种基于快速人眼语义分割网络的瞳孔精确检测方法 - Google Patents
一种基于快速人眼语义分割网络的瞳孔精确检测方法 Download PDFInfo
- Publication number
- CN110490083A CN110490083A CN201910667779.5A CN201910667779A CN110490083A CN 110490083 A CN110490083 A CN 110490083A CN 201910667779 A CN201910667779 A CN 201910667779A CN 110490083 A CN110490083 A CN 110490083A
- Authority
- CN
- China
- Prior art keywords
- pupil
- convolution
- semantic
- measurement method
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000001747 pupil Anatomy 0.000 title claims abstract description 90
- 230000011218 segmentation Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims description 40
- 238000000691 measurement method Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 239000011248 coating agent Substances 0.000 claims description 5
- 238000000576 coating method Methods 0.000 claims description 5
- 230000006854 communication Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 17
- 238000001514 detection method Methods 0.000 description 11
- 210000000720 eyelash Anatomy 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 210000000744 eyelid Anatomy 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000000644 propagated effect Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 206010027145 Melanocytic naevus Diseases 0.000 description 2
- 208000007256 Nevus Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000000554 iris Anatomy 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000003733 optic disk Anatomy 0.000 description 2
- 208000010412 Glaucoma Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Ophthalmology & Optometry (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于快速人眼语义分割网络的瞳孔精确测量方法,(a)基于快速人眼语义分割网络,对瞳孔进行精确分割,以获取瞳孔区域;(b)在快速人眼语义分割网络中,膨胀卷积和普通卷积双线并行,扩大感受野同时提升局部精细化能力;(c)引入多个注意力生成模块,充分提取语义特征,获取精细化的语义结果。通过降采样抽取不同层次的特征再结合上采样至原图大小进行推理。其在瞳孔语义特征提取的基础上完成瞳孔的精细化重建,从而进行自动语义分割,避免了在以往算法中存在的一些盲目搜索。
Description
技术领域
本发明涉及检测领域,特别涉及一种基于快速人眼语义分割网络的瞳孔精确检测方法。
背景技术
在计算机视觉研究领域,通过提取人眼特征开展人眼相关技术研究一直是该领域的主要 研究方向之一。瞳孔检测作为人眼检测中一个重要的中间环节,在眨眼检测、疲劳检测、人 机交互等领域有着重要的应用前景。
有人提出了一种将Hough圆变换和轮廓匹配相结合的瞳孔检测算法(Hough-Contour)。 对每帧图像,首先进行灰度化并滤波去噪;然后提取边缘并利用修改后的Hough梯度法检测 出初始圆作为瞳孔参数;最后在滤波后的灰度图上的瞳孔附近用位置和半径在一定范围可变 的圆形轮廓去匹配瞳孔,从而计算出瞳孔中心坐标和直径。这类传统图像处理的研究难以克 服睫毛和皮肤痣干扰以及不均匀光照干扰,在暗光情况下,难以计算出合适的灰度分割阈值 从而导致瞳孔丢失或分割不准确的情况,并且此类算法对于瞳孔不完全漏出或者形变较大的 情况,检测成功率较低。
还有人提出了一种利用卷积神经网络(Convolutional Neural Networks,CNN)结合瞳孔 不同特征的瞳孔检测算法。该算法首先结合三种瞳孔特征,分别通过图像处理算法独立地找 到瞳孔中心,并使用CNN来评估每个结果的质量,选择质量最佳的结果作为输出。实验结果 表明,该算法的性能优于目前的传统图像处理方法,但该算法将神经网络用于传统图像处理 之后,对图像处理的结果进行运算得出最优中心,无法做到端到端的深度学习,检测结果受 到前期图像处理的质量和瞳孔特征选择的影响较大。
另外,有人提出了一种基于深度学习的视盘自动分割的通用方法,其采用了FCN[12]与 U-Net以及基于U-Net的改进网络的设计思想,通过对U-Net的网络结构进行改进,加深了 网络的深度,从而提取出更高的抽象特征,为全局分类提供基础。该研究在青光眼视盘分割 中取得了较好的效果,可以对瞳孔语义分割提供借鉴。但是由于瞳孔和上下眼睑之间的距离 十分相近,因此单纯的加深U-Net网络可能会导致边界分割不清,因而该方法并不适合瞳孔 的语义分割。
综上所述,当下研究热点正在逐步从传统图像处理算法向深度学习转移,但仍未出现端 到端学习的瞳孔语义分割算法,尽管现有传统图像处理的瞳孔检测方法取得了卓有成效的研 究成果,但是对瞳孔检测高精度、高鲁棒性以及高泛化能力的需求仍然为迫切需要解决的问 题。
发明内容
本发明要解决的技术问题是提供一种基于快速人眼语义分割网络的瞳孔精确检测方法, 通过降采样抽取不同层次的特征再结合上采样至原图大小进行推理。其在瞳孔语义特征提取 的基础上完成瞳孔的精细化重建,从而进行自动语义分割,避免了在以往算法中存在的一些 盲目搜索。
为了解决上述技术问题,本发明的技术方案为:
一种瞳孔精确测量方法,包括以下步骤:
(a)基于快速人眼语义分割网络,对瞳孔进行精确分割,以获取瞳孔区域;
(b)在快速人眼语义分割网络中,膨胀卷积和普通卷积双线并行,扩大感受野同时提升 局部精细化能力;
(c)引入多个注意力生成模块,充分提取语义特征,获取精细化的语义结果。
优选地,所述快速人眼语义分割网络基于深度神经网络,所述深度神经网络包括一收缩 路径和一扩展路径。
优选地,在所述收缩路径中采用膨胀卷积和普通卷积双线并行,且层层融合。
优选地,对所述扩展路径中获得多个特征图分别使用所述注意力生成模块,以生成对应 层级的权重图。
优选地,所述注意力生成模块的生成步骤为:
(c1)对不同尺度和深度的特征输入,采用卷积层进行降维,至与输入层相同的通道数;
(c2)利用激活层对特征图中的值进行0-1转换,由此评估重要性,越接近1则越重要;
(c3)与输入层的结果进行相乘,从而对输入层中的每一个特征图进行注意力加权。
优选地,在所述注意力生成模块中融合在自动通道筛选器。
优选地,通过采用所述注意力生成模块计算出每一个通道中目标特征的被激活程度,再 通过所述自动通道筛选器来选择出合适的通道来继续向前传播。
优选地,所述自动通道筛选器的步骤在于:
(d1)对卷积层进行池化,以减小参数量,采用4*4的卷积核进行平均池化,增加全局 的语义捕捉能力;
(d2)对平均池化后的卷积层,采用全卷积的方法,卷积核为W/4*H/4,生成特征值;
(d3)对特征值张量进行激活,将其区间映射到[-1,1],用以计算每个通道的惩罚因子;
(d4)将惩罚因子作用到每一个通道特征图上;
(d5)对惩罚后的卷积层进性激活,以避免其在后续的传播过程中,带来误差干扰。
优选地,在所述收缩路径中进行4次3层普通卷积后再进行最大池化的操作,原始输入 尺寸被缩放16倍,在所述扩张路径中进行4次上采样并与之前的同尺度的卷积层堆叠融合。
采用上述技术方案,考虑了人眼结构的复杂度、瞳孔运动速度、瞳孔遮挡等因素,首次 提出了一种高效的端到端的深度语义分割网络对人眼图像中瞳孔区域进行语义分割,即基于 注意力的深度膨胀卷积U型网络(Attention-based deep expansionconvolutional U-shaped network,ADEU-Net。通过降采样抽取不同层次的特征再结合上采样至原图大小进行推理。其 在瞳孔语义特征提取的基础上完成瞳孔的精细化重建,从而进行自动语义分割,避免了在以 往算法中存在的一些盲目搜索,实验结果证明了该方法的有效性和可行性。
附图说明
图1是本发明方法中的瞳孔语义分割流程图;
图2是本发明方法中的DC-Block结构图;
图3是本发明方法中的膨胀卷积示意图;
图4是本发明方法中的膨胀卷积的网格效应图;
图5是本发明方法中的注意力生成结构图;
图6是本发明方法中的自动通道筛选器示意图;
图7是本发明方法中的U-Net训练图;
图8是本发明方法中的ADEU-Net训练过程图;
图9是本发明方法中的U-Net网络瞳孔分割效果展示图;
图10是本发明方法中的ADEU-Net网络瞳孔分割效果展示图;
图11是本发明方法中的传统图像处理算法瞳孔分割效果展示图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实 施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发 明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于深度语义分割网络的瞳孔精确检测方法,可以理解的是,如图1 所示,本发明方法的具体流程包括:采集人眼图像和深度语义分割两个部分。本方法的采集 人眼图像过程中,同时并行了普通卷积和膨胀卷积。
进一步地,本发明采用一种新的网络结构ADEU-Net,该网络使用DC-Block结构作为特 征提取前端,也就是说在采集人眼图像阶段通过DC-Block结构完成采集。
在深度语义分割阶段,结合U-net的设计思想通过Deconv反卷积完成特征层的上采样过 程,融入膨胀卷积和注意力机制进一步提升网络效果,并将训练后的网络效果在测试集上进 行预测,最终输出语义分割结果。
具体地,本发明的步骤在于:
第一、将获得的人眼图像调整为320*256的分辨率;
第二、将图像输入进ADEU-Net网络,经过DC-Block(Dialted and commonconvolution kernel block,DC-Block)结构进行多层膨胀卷积与普通卷积并行的操作;(其中,DC-Block 分别提取图像不同层次的抽象特征,层次越高的DC-Block所提取出来的特征则越抽象,能够 从全局角度反映图像的语义)
第三、对不同层次的DC-Block通过反卷积进行上采样并堆叠融合,从而使每一层融合之 后的结果,既包含高度抽象的图像特征又包含局部精细化的图像特征;
第四、经过Attention-Block的加权处理后,瞳孔的语义特征被放大,非瞳孔的语义特 征被缩小甚至遮蔽,最终将融合后的图像特征经过Sigmoid激活层,与原图像的瞳孔分割图 进行代价计算,通过Binary_crossentropy计算网络前馈传播的损失,并通过反向传播计算 梯度来调整参数取值。
需要注意的是,当网络训练迭代至60次时,已经能较为精确地分割出瞳孔区域,并减少 了睫毛、眼睑、虹膜及皮肤痣的干扰,因为这些干扰项本身并不具有瞳孔的语义特征,因此 可以被模型过滤掉。
具体地,所述ADEU-Net神经网络结构主要由两个要有两部分组成:收缩路径和扩展路径。 收缩路径主要是用来捕捉图片中的上下文信息,而与之相对称的扩展路径则是为了对图片中 所需要分割出来的部分进行精准定位。ADEU-Net基于U-Net进行改进,并且利用数据扩充技 术对少量训练样本进行扩增,从而增大训练集的多样性,提高网络的泛化能力。首先,将获 得的人眼图像调整为320*256的分辨率。将图像输入进ADEU-Net网络,经过DC-Block(Dialted and common convolution kernel block,DC-Block)结构进行多层膨胀卷积与普通卷积并行 的操作,不同DC-Block分别提取图像不同层次的抽象特征,层次越高的DC-Block所提取出 来的特征则越抽象,能够从全局角度反映图像的语义。之后,对不同层次的DC-Block通过反 卷积进行上采样并堆叠融合,从而使每一层融合之后的结果,既包含高度抽象的图像特征又 包含局部精细化的图像特征,经过Attention-Block的加权处理后,瞳孔的语义特征被放大, 非瞳孔的语义特征被缩小甚至遮蔽,最终将融合后的图像特征经过Sigmoid激活层,与原图 像的瞳孔分割图进行代价计算,通过Binary_crossentropy计算网络前馈传播的损失,并通 过反向传播计算梯度来调整参数取值。网络训练迭代至60次时,已经能较为精确地分割出瞳 孔区域,并减少了睫毛、眼睑、虹膜及皮肤痣的干扰,因为这些干扰项本身并不具有瞳孔的 语义特征,因此可以被模型过滤掉。
U-Net的网络结构在收缩路径中进行4次3层普通卷积后再进行最大池化(MaxPooling) 的操作,原始输入尺寸被缩放16倍,在扩张路径中进行4次Upsampling上采样并与之前的 同尺度的卷积层堆叠融合,直到达到与原图相同尺度,之后通过Sigmoid激活函数进行输出 并反向传播调整网络参数。
如图2所示,在ADEU-Net神经网络起始于收缩路径,在收缩路径中提出DC-Block结构, 即普通卷积层与膨胀卷积层并行且层层融合的形式。
如图3所示,在深度语义提取过程中,卷积核的感受野十分重要。本文通过DC-Block结 构利用膨胀卷积充分扩大每一个像素点的感受野,提高其全局分类能力。例如下图5所示, 经过两层膨胀卷积,第一层卷积核大小为3*3,膨胀率为2,第二层卷积核大小为3*3,膨胀 率为8,第三层的时候,感受野已经扩张成27*27,这对于大物体的分割能力提升较高,并且 抗干扰能力强,由于考虑了每一个像素其周围大范围的像素点特征,因此对于睫毛、噪声、 深色杂质等干扰项具有较好的抵抗能力,可以减少错误分类的概率。
如图4所示,膨胀卷积的网格效应图。但是单纯的使用膨胀卷积对[25]会导致图像网格 化,使图像丢失大量的局部信息,因此采用膨胀网络对一些大物体分割有较好效果,而对小 物体来说则有弊无利了。瞳孔对于人眼来说,确实是一个小物体,占比人眼约5%-10%的空间。 并且因为膨胀卷积的网格化效应丢失较多局部信息,会导致图像边缘分割粗糙,局部语义抽 取能力较低,对瞳孔进行分割后可能会出现空洞、边界溢出以及睫毛、眼睑的错误分类等现 象。
而当全网络只使用普通非膨胀卷积(如U-Net网络只使用了普通卷积)对图像进行分割 时,由于要抽取更多全局信息,扩大卷积的感受野,不得不对图像进行多层最大池化操作, 使大量局部信息丢失,导致边界变得模糊,眼睑、睫毛和瞳孔无法完全区分开,并且存在瞳 孔分割不完全的现象,如下图8所示。由于受到输入图像尺寸的限制,网络不可能无限加深, 最大池化层的叠加次数有限,同时卷积感受野也会受限,另外睫毛与瞳孔的颜色接近均为黑 色,且位置均处于眼睑和眼白之间,因此对于浓密的睫毛区域较为容易产生错误分类,导致 语义分割困难。因而,提高卷积的全局信息捕捉能力并且保持局部精细化能力是做好瞳孔精 准检测的关键所在。
本结构同时并行了普通卷积与膨胀卷积,用于增强每一个像素点的局部特征与全局特征, 提高分类能力。随后对膨胀卷积计算出的特征图与普通卷积计算出的特征图进行融合,采用 堆叠融合的方式,随后进行最大池化,保留最重要的特征,并为接下来的特征提取操作增大 感受野。这时,在下一层的DC-Block结构中,普通卷积和膨胀卷积既能捕捉每一个像素点的 全局特征又能捕捉其局部特征,在更大的感受野上,进行计算,得出的特征图具有更好的语 义特征。本网络在收缩路径中,连接了2层DC-Block,其每一层计算出的特征图均具备全局 特征和局部特征,为接下来的扩张路径提供了更好的基础。同时,使用膨胀卷积,能够在提 高感受野的同时不增加过多的参数量,为瞳孔的实时语义分割提供了基础。
为了进一步优化检测结果,在收缩路径前向传播的同时,对扩展路径中获得的不同层次 的多个特征图分别使用注意力生成模块(Attention Generation Block)生成对应层级的权 重图,获得精细化的语义结果。
如图5所示的注意力生成结构图,具体地,注意力生成模块的步骤为:
(1)对不同尺度和深度的特征层输入,采用3×3卷积层进行2次降维,降至与Input相 同的通道数;
(2)利用Sigmoid激活层对特征图中的值进行0-1转换,由此评估重要性,越接近1则越 重要;
(3)与Input的结果进行相乘,从而对Input中的每一个特征图进行注意力加权。
本文提出的网络模型通过注意力结构来强调或选择眼部的重要信息即瞳孔区域,并且抑 制一些无关的干扰区域。
由此,引入注意力机制的意义如下所述:
(1)选择聚焦位置,产生更具分辨性的特征表示
网络由双层的注意力模块组成,能产生注意力感知的(Attention-aware)的特征,并且不 同模块的特征随着网络的加深会进行适应性加权,即根据注意力模块学习到的权重分布,调 整不同层中的特征权重。
(2)双层的注意力模块将带来持续的性能提升
不同类型的区域将被大量捕捉到,并在每一层注意力结构中不断调整其关注区域从而向 目标靠近。
对扩展路径的每一次反卷积之后,都其特征图都进行注意力加权操作,这个过程可以表 示成:
Output=Input*σ([Conv(3,3,Conv(3,3,Input))])
其中,Input表示Attention结构的输入,其值与Concatenate相同。Concatenate分为 两块,代表着Input是由反卷积上采样的特征图和收缩路径中尺度相同的特征图堆叠融合的 结果。式中对Input进行了两次3*3的卷积生成特征图。表示对x做Sigmoid非线性变换, 将其区间映射到[0,1],之后再与Input相乘,从而达到加权的效果。
经过网络收缩路径的前向传播,得到了多层不同抽象程度的人眼特征图。图10为注意力 加权效果图,可以形象地说明注意力机制的作用原理。
经过上述操作对注意力机制进行了可视化展示,亮色为神经网络所关注的区域。第一层 注意力结构在边缘处出现了大量的亮黄色像素,表明其主要关注边缘信息,过滤了上下眼睑 带来的干扰;第二层注意力结构在瞳孔区域出现了大量的亮黄色像素,代表着注意力结构当 前主要关注的区域在瞳孔上。
在一个CNN的卷积层的堆栈内,所有的通道都是由之前的层生成的,并会在下一层中得 到平等的对待,但这样的平等对待机制可能不是最优的。为了使网络在收敛程度很高的同时, 瞳孔边缘能够更加细化,新模型在ADEU-Net最高一层卷积层中对所包含的160个通道施行了 注意力(Attention)机制,并将其可视化如图11所示。结果显示其中只有接近55个通道是 与瞳孔特征相关的,即在这些通道内的特征图中瞳孔的被激活程度很高,除此之外的102个 通道分别激活了不同的特征,如全图激活、睫毛特征激活以及眼睑特征激活等,由此可以看 出该卷积层的瞳孔特征激活率仅为34.375%,显然这是个比较低的数字,更重要的是在后续 的传播过程中,这些通道仍会受到平等对待,从而对最终的结果产生负面干扰。
因此,本发明进一步地提供了一自动通道筛选器,通过采用Attention机制计算出每一 个通道中目标特征的被激活程度,再通过通道自动筛选器(CAS)来选择出合适的通道来继续向 前传播。并且此方法可以在网络反向传播中,自动调整参数,学习出最优的特征选择策略以 及通道选择策略。
如图6所示的自动通道筛选器示意图,具体步骤如下所示:
1.假设输入进来的卷积层ConvIn,其形状是[W,H,Channels]。对ConvIn进行池化,以 减小参数量,采用4*4的卷积核进行平均池化,增加全局的语义捕捉能力。此时输出的形状 为[W/4,H/4,Channels];
令ConvPooled上每一个通道上的特征图为Map,通道数为Channels个,当前正在处理 的通道为Mapc,r是特征图Map中每个相邻不相交的4*4的区域。则池化操作,可以表示为下式:
2.对平均池化后的卷积层ConvPooled,采用全卷积的方法,卷积核为W/4*H/4,生成Channels个特征值F。此时输出F的形状为[1,Channels]。
对于第c个特征值其生成方法为:令卷积核为Kernel,卷积之后对每一个特征值加上一 个bc偏置。卷积操作可以表示为下式:
F=[F1,F2,F3,…,Fchannels]
3.对特征值张量进行TanH激活,将其区间映射到[-1,1],用以计算每个通道的惩罚因 子。此时输出的形状为[1,Channels]。
将Fc带入下式,则可得出TanH激活后的结果Tanh(F)。
Tanh(F)=(e(F)-e-(F))/(e(F)+e-(F))
4.将输入进来的ConvOut与Tanh(F)相乘,得到ConvTanh,将惩罚因子作用到每一个通 道特征图上。此时输出的形状为[W,H,Channels],具体如下式所示。
ConvTanh=Tanh(F)*ConvIn
5.对惩罚后的卷积层进性Relu激活,其目的是将被惩罚通道特征图值置于0,以避免 其在后续的传播过程中,带来误差干扰。
将ConvTanh带入下式则可得出Relu激活后的结果ConvOut。
对卷积层进行BACAS后,训练迭代10次。未被遮蔽的通道数一共有69个,其中有38个 通道瞳孔的激活程度高,瞳孔特征激活率为55.072%,随着训练迭代次数的增多,瞳孔的激 活率也在适应性的调整,减少了无效通道的干扰,为后续的卷积操作提供了高质量的输入。
更进一步地,本发明方法中利用数据增强方式能够提高训练样本的多样性,防止训练过 程中样本不足带来的过拟合,同时增强模型的鲁棒性。依据图像目标色彩、形状、纹理等特 征,本文采用七种方式进行数据增强,分别为:随机旋转变换-20°至+20°,随机噪声干 扰,随机光照抖动,随机非等比例缩放0.8至1.2倍,随机翻转变换,随机高斯模糊,随 机水平垂直平移。
同时,通过采集中国科学院苏州生物医学工程技术研究所10名同学的人眼图像共计600 张。将数据集分为训练集、验证集及测试集3个部分,其比例为:1:1:1。其中原始训练集为 200张图像,经过数据扩充后的训练集大小为1200张图像,验证集大小为200张图像,测试 集大小为200张图像。为避免内存溢出,采取批训练方式对ADEU-Net模型进行训练,每轮 迭代完成后在验证集上计算Accuracy模型评价指标值。采用Binary_crossentropy作为代价 函数。
为解决反向传播过程中梯度消失和爆炸问题,引入Dropout[27]随机丢弃神经元。网络 的训练引入了EarlyStopping[28]机制,当训练集在连续迭代8轮,代价Loss值不再减小时, 停止训练。
相同参数设置情况下,ADEU-Net与U-Net模型训练过程对比如图7所示,图8展示了2 种模型在训练集上每轮迭代完成后的Accuracy指标值,两种模型均训练58轮后接近完全收 敛。可以看出ADEU-Net在第4轮时开始收敛,而U-Net直到第11轮才开始收敛;ADEU-Net收敛后的训练集和测试集loss分别为0.0030和0.0032,远小于U-Net的0.0130和0.0136,并且ADEU-Net在验证集Accuracy指标上,也高于U-Net近1.4%,达到99.87%,而U-NetAccuracy为97.43%。从而可以看出ADEU-Net具有更快的收敛速度,更高的精确度。
U-Net收敛后,在测试集上的结果如图9所示。可以看到其对瞳孔的分割不完全,存在 较多的边缘缺失或内部空洞的情况。并且U-Net分割后,存在较多的错误分割,将睫毛错误 分类为瞳孔。
ADEU-Net收敛后,在测试集上的结果如图10所示。可以看到其对瞳孔的分割较为完整, 并且对于瞳孔少量露出、瞳孔形变以及瞳孔被遮挡的情况,其分割结果依然具有较高的精确 度。由此可以看出,使用深层网络进行特征提取,结合注意力机制和DC-Block的结构都对网 络性能的提升起到了实质性的作用。
在传统图像处理研究中,我们以文献6中的方法为代表进行了实验,效果如下图11所示, 可以看出其鲁棒性与精确度较低。
为了进一步验证所提观点,本文在大规模的验证集上进行定量评价,结果如下表1所示。 最优结果用加粗数字标出。实验结果显示,在数据集上,ADEU-Net的像素精度PA相对U-Net、 以文献14为代表的传统图像处理算法分别提高了5%、35%;ADEU-Net的均交并比MIoU达到 94%。在测试集上验证的成功说明ADEU-Net方法的泛化能力很强,能够准确分割出不同情况 下的瞳孔图像。
表1多种瞳孔追踪算法定量评价
Table 1Quantitative Evaluation of Various Pupil Tracking Algorithms
此外,所提出的算法在win10+python3.6+tensorflow1.9.0的软件环境下实现,使用1 块Nvidia GTX1080Ti显卡进行训练,训练耗时约1小时。使用1块Nvidia GTX1080Ti进行测试,处理1张图片平均耗时为0.012s,可达到83帧/s的检测速度,满足瞳孔实时 追踪定位的要求。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。 对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多 种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (9)
1.一种基于快速人眼语义分割网络的瞳孔精确测量方法,其特征在于,包括以下步骤:
(a)基于快速人眼语义分割网络,对瞳孔进行精确分割,以获取瞳孔区域;
(b)在快速人眼语义分割网络中,膨胀卷积和普通卷积双线并行,扩大感受野同时提升局部精细化能力;
(c)引入多个注意力生成模块,充分提取语义特征,获取精细化的语义结果。
2.根据权利要求1所述的瞳孔精确测量方法,其特征在于,所述快速人眼语义分割网络基于深度神经网络,所述深度神经网络包括一收缩路径和一扩展路径。
3.根据权利要求2所述的瞳孔精确测量方法,其特征在于,在所述收缩路径中采用膨胀卷积和普通卷积双线并行,且层层融合。
4.根据权利要求2所述的瞳孔精确测量方法,其特征在于,对所述扩展路径中获得多个特征图分别使用所述注意力生成模块,以生成对应层级的权重图。
5.根据权利要求4所述的瞳孔精确测量方法,其特征在于,所述注意力生成模块的生成步骤为:
(c1)对不同尺度和深度的特征输入,采用卷积层进行降维,至与输入层相同的通道数;
(c2)利用激活层对特征图中的值进行0-1转换,由此评估重要性,越接近1则越重要;
(c3)与输入层的结果进行相乘,从而对输入层中的每一个特征图进行注意力加权。
6.根据权利要求1-5任一所述的瞳孔精确测量方法,其特征在于,在所述注意力生成模块中融合在自动通道筛选器。
7.根据权利要求6所述的瞳孔精确测量方法,其特征在于,通过采用所述注意力生成模块计算出每一个通道中目标特征的被激活程度,再通过所述自动通道筛选器来选择出合适的通道来继续向前传播。
8.根据权利要求7所述的瞳孔精确测量方法,其特征在于,所述自动通道筛选器的步骤在于:
(d1)对卷积层进行池化,以减小参数量,采用4*4的卷积核进行平均池化,增加全局的语义捕捉能力;
(d2)对平均池化后的卷积层,采用全卷积的方法,卷积核为W/4*H/4,生成特征值;
(d3)对特征值张量进行激活,将其区间映射到[-1,1],用以计算每个通道的惩罚因子;
(d4)将惩罚因子作用到每一个通道特征图上;
(d5)对惩罚后的卷积层进性激活,以避免其在后续的传播过程中,带来误差干扰。
9.根据权利要求2所述的瞳孔精确测量方法,其特征在于,在所述收缩路径中进行4次3层普通卷积后再进行最大池化的操作,原始输入尺寸被缩放16倍,在所述扩张路径中进行4次上采样并与之前的同尺度的卷积层堆叠融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667779.5A CN110490083A (zh) | 2019-07-23 | 2019-07-23 | 一种基于快速人眼语义分割网络的瞳孔精确检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667779.5A CN110490083A (zh) | 2019-07-23 | 2019-07-23 | 一种基于快速人眼语义分割网络的瞳孔精确检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110490083A true CN110490083A (zh) | 2019-11-22 |
Family
ID=68548045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910667779.5A Pending CN110490083A (zh) | 2019-07-23 | 2019-07-23 | 一种基于快速人眼语义分割网络的瞳孔精确检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110490083A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541433A (zh) * | 2020-12-11 | 2021-03-23 | 中国电子技术标准化研究院 | 一种基于注意力机制的两阶段人眼瞳孔精确定位方法 |
CN112559781A (zh) * | 2020-12-10 | 2021-03-26 | 西北大学 | 一种图像检索系统和方法 |
CN112883873A (zh) * | 2021-02-22 | 2021-06-01 | 暨南大学 | 叶部病害的识别方法、装置、电子装置和存储介质 |
CN115281603A (zh) * | 2022-10-08 | 2022-11-04 | 北京大学第三医院(北京大学第三临床医学院) | 一种不同时期青光眼视功能障碍的智能验证方法 |
CN115762787A (zh) * | 2022-11-24 | 2023-03-07 | 浙江大学 | 基于眼睑拓扑形态分析的眼睑疾病手术疗效评估方法和系统 |
CN116563649A (zh) * | 2023-07-10 | 2023-08-08 | 西南交通大学 | 基于张量映射网络的高光谱图像轻量化分类方法及装置 |
CN116823746A (zh) * | 2023-06-12 | 2023-09-29 | 广州视景医疗软件有限公司 | 一种基于深度学习的瞳孔尺寸预测方法及装置 |
CN117274256A (zh) * | 2023-11-21 | 2023-12-22 | 首都医科大学附属北京安定医院 | 一种基于瞳孔变化的疼痛评估方法、系统及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815850A (zh) * | 2019-01-02 | 2019-05-28 | 中国科学院自动化研究所 | 基于深度学习的虹膜图像分割及定位方法、系统、装置 |
CN110022753A (zh) * | 2016-09-29 | 2019-07-16 | 奇跃公司 | 用于眼睛图像分割和图像质量估计的神经网络 |
WO2019136623A1 (en) * | 2018-01-10 | 2019-07-18 | Nokia Technologies Oy | Apparatus and method for semantic segmentation with convolutional neural network |
-
2019
- 2019-07-23 CN CN201910667779.5A patent/CN110490083A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110022753A (zh) * | 2016-09-29 | 2019-07-16 | 奇跃公司 | 用于眼睛图像分割和图像质量估计的神经网络 |
WO2019136623A1 (en) * | 2018-01-10 | 2019-07-18 | Nokia Technologies Oy | Apparatus and method for semantic segmentation with convolutional neural network |
CN109815850A (zh) * | 2019-01-02 | 2019-05-28 | 中国科学院自动化研究所 | 基于深度学习的虹膜图像分割及定位方法、系统、装置 |
Non-Patent Citations (2)
Title |
---|
MAXIMILIAN ILSE: "Attention-based Deep Multiple Instance Learning", 《ICML 2018 PAPER》 * |
张贺童 等: "基于ADEU-Net分割网络的瞳孔精确分割方法", 《计算机工程与应用》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559781A (zh) * | 2020-12-10 | 2021-03-26 | 西北大学 | 一种图像检索系统和方法 |
CN112541433B (zh) * | 2020-12-11 | 2024-04-19 | 中国电子技术标准化研究院 | 一种基于注意力机制的两阶段人眼瞳孔精确定位方法 |
CN112541433A (zh) * | 2020-12-11 | 2021-03-23 | 中国电子技术标准化研究院 | 一种基于注意力机制的两阶段人眼瞳孔精确定位方法 |
CN112883873B (zh) * | 2021-02-22 | 2023-08-01 | 暨南大学 | 叶部病害的识别方法、装置、电子装置和存储介质 |
CN112883873A (zh) * | 2021-02-22 | 2021-06-01 | 暨南大学 | 叶部病害的识别方法、装置、电子装置和存储介质 |
CN115281603B (zh) * | 2022-10-08 | 2023-08-04 | 北京大学第三医院(北京大学第三临床医学院) | 一种不同时期青光眼视功能障碍的智能验证方法 |
CN115281603A (zh) * | 2022-10-08 | 2022-11-04 | 北京大学第三医院(北京大学第三临床医学院) | 一种不同时期青光眼视功能障碍的智能验证方法 |
CN115762787A (zh) * | 2022-11-24 | 2023-03-07 | 浙江大学 | 基于眼睑拓扑形态分析的眼睑疾病手术疗效评估方法和系统 |
CN116823746A (zh) * | 2023-06-12 | 2023-09-29 | 广州视景医疗软件有限公司 | 一种基于深度学习的瞳孔尺寸预测方法及装置 |
CN116823746B (zh) * | 2023-06-12 | 2024-02-23 | 广州视景医疗软件有限公司 | 一种基于深度学习的瞳孔尺寸预测方法及装置 |
CN116563649A (zh) * | 2023-07-10 | 2023-08-08 | 西南交通大学 | 基于张量映射网络的高光谱图像轻量化分类方法及装置 |
CN116563649B (zh) * | 2023-07-10 | 2023-09-08 | 西南交通大学 | 基于张量映射网络的高光谱图像轻量化分类方法及装置 |
CN117274256A (zh) * | 2023-11-21 | 2023-12-22 | 首都医科大学附属北京安定医院 | 一种基于瞳孔变化的疼痛评估方法、系统及设备 |
CN117274256B (zh) * | 2023-11-21 | 2024-02-06 | 首都医科大学附属北京安定医院 | 一种基于瞳孔变化的疼痛评估方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490083A (zh) | 一种基于快速人眼语义分割网络的瞳孔精确检测方法 | |
CN107437092B (zh) | 基于三维卷积神经网络的视网膜oct图像的分类方法 | |
CN112132817B (zh) | 一种混合注意力机制的眼底图像视网膜血管分割方法 | |
CN110458844A (zh) | 一种低光照场景的语义分割方法 | |
CN104103033B (zh) | 图像实时处理方法 | |
CN106339998A (zh) | 基于对比度金字塔变换的多聚焦图像融合方法 | |
CN106778664A (zh) | 一种虹膜图像中虹膜区域的分割方法及其装置 | |
González et al. | Delineating trees in noisy 2D images and 3D image-stacks | |
CN105917353A (zh) | 用于生物认证的特征提取及匹配以及模板更新 | |
CN109389129A (zh) | 一种图像处理方法、电子设备及存储介质 | |
CN105005765A (zh) | 一种基于Gabor小波和灰度共生矩阵的人脸表情识别方法 | |
CN106845450A (zh) | 基于近红外成像与深度学习的黑暗环境人脸识别方法 | |
Cao et al. | Gastric cancer diagnosis with mask R-CNN | |
CN109034016A (zh) | 一种普适性的基于s-cnn模型的手背静脉图像识别方法 | |
CN109801225A (zh) | 基于多任务全卷积神经网络的人脸网纹污迹去除方法 | |
Wang et al. | ScleraSegNet: An attention assisted U-Net model for accurate sclera segmentation | |
CN106709431A (zh) | 虹膜识别方法及装置 | |
CN109165658A (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN111598866A (zh) | 一种基于眼部b超图像的晶状体关键特征定位方法 | |
CN113052215A (zh) | 基于神经网络可视化的声呐图像自动目标识别方法 | |
CN113011340A (zh) | 一种基于视网膜图像的心血管手术指标风险分类方法及系统 | |
Li et al. | Region focus network for joint optic disc and cup segmentation | |
CN110909601A (zh) | 一种基于深度学习的美瞳识别方法及系统 | |
CN117765566A (zh) | 一种基于多任务网络的舌象端到端辨识方法 | |
CN115063428B (zh) | 一种基于深度强化学习的空间暗弱小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191122 |