CN117541791B - 基于多域可变形卷积的眼部结构分割方法、系统及设备 - Google Patents
基于多域可变形卷积的眼部结构分割方法、系统及设备 Download PDFInfo
- Publication number
- CN117541791B CN117541791B CN202311572005.7A CN202311572005A CN117541791B CN 117541791 B CN117541791 B CN 117541791B CN 202311572005 A CN202311572005 A CN 202311572005A CN 117541791 B CN117541791 B CN 117541791B
- Authority
- CN
- China
- Prior art keywords
- domain feature
- segmented
- frequency domain
- feature extraction
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 201
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 210000003128 head Anatomy 0.000 claims abstract description 13
- 210000001747 pupil Anatomy 0.000 claims abstract description 10
- 210000000554 iris Anatomy 0.000 claims abstract description 7
- 210000003786 sclera Anatomy 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101000708578 Milk vetch dwarf virus (isolate N) Para-Rep C3 Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Ophthalmology & Optometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于多域可变形卷积的眼部结构分割方法、系统及设备,涉及计算机视觉技术领域,所述方法包括:获取待分割眼部图像;将频率域特征图待分割眼部图像输入至眼部结构分割模型中,得到分割后的眼部图像;频率域特征图分割后的眼部图像为带有预测分割边框和对应的预测标签的眼部图像,频率域特征图标签为分割后的眼部的结构;频率域特征图眼部结构分割模型是利用多个带有先验分割边框和对应的先验标签的训练用眼部图像对初始模型进行训练得到的初始模型包括:空间域特征提取分支、频率域特征提取分支、多维度特征融合注意力模块和检测头;结构包括:瞳孔、虹膜和巩膜。本发明提高了自然光下普通摄像机采集的图像中眼部结构的分割准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于多域可变形卷积的眼部结构分割方法、系统及设备。
背景技术
眼部状态的变化可作为情绪、心理、健康和认知水平变化的依据。由于眼部区域面积较小,瞳孔与虹膜颜色接近,因此,在自然光下基于普通摄像机获取的图像进行眼部状态的分析是当前一项具有较大挑战的任务。准确分割眼部结构是眼部状态分析的前提,在实际应用过程中,常用红外摄像机或头戴式摄像机获取眼部图像以增加眼部结构之间的对比度从而提高眼部结构分割的准确率。眼部结构分割方法包括传统方法和基于深度学习的方法,传统方法对于理想条件下利用专业设备,如红外摄像机、头戴式摄像机,获取到的图像具有较好的分割效果,但是在非理想条件下基于普通摄像机采集到的图像传统算法无法获得较高的分割准确率。此外,光照、遮挡、姿势等外因也会影响分割的效果。不同于传统方法,基于深度学习的方法可以摆脱采集设备和采集环境的要求,获得更准确的分割结果。基于深度学习的方法以卷积神经网络为主,卷积神经网络可以自动的进行特征的提取,被广泛的应用于眼部结构分割任务中。虽然已有方法可以提高眼部区域分割的准确性,但是常规卷积只能依靠一些简单的方法如最大池化,来适应物体的形变,如果形变太大则分割效果较差。有以下两种方法能够适应物体的形变,第一种方法为使用大量的数据进行训练,通过穷举的方法使模型能够适应各种形状的物体,但是该种方法收敛较慢且需要设计复杂的网络结构才能达到理想的分割效果。第二种方法是设计一些特殊的算法以适应物体形状的变化。对于第一种方法,当测试集中的物体未出现在训练集中时,模型测试结果会受到影响,并且依赖数据集来适应物体形变的训练过程耗时较长,需要设计复杂的网络结构。对于第二种方法,如果物体形状特别复杂,能够设计出适应这种复杂结构的算法就更加的困难。此外,已有研究工作主要是在图像的空间域进行特征提取,较少考虑频率域对分割准确率的影响,导致分割准确率较低。
发明内容
本发明的目的是提供一种基于多域可变形卷积的眼部结构分割方法、系统及设备,提高了眼部结构的分割准确率。
为实现上述目的,本发明提供了如下方案:
一种基于多域可变形卷积的眼部结构分割方法,包括:
获取待分割眼部图像;所述待分割眼部图像是利用自然光下普通摄像机采集到的眼部图像;
将所述待分割眼部图像输入至眼部结构分割模型中,得到分割后的眼部图像;所述分割后的眼部图像为带有预测分割边框和对应的预测标签的眼部图像,所述标签为分割后的眼部的结构;所述眼部结构分割模型是利用多个带有先验分割边框和对应的先验标签的训练用眼部图像对初始模型进行训练得到的,所述初始模型包括:空间域特征提取分支、频率域特征提取分支、多维度特征融合注意力模块和检测头;所述结构包括:瞳孔、虹膜和巩膜。
可选地,所述空间域特征提取分支,包括:依次连接的第一空间域特征提取结构、第二空间域特征提取结构、第三空间域特征提取结构、第四空间域特征提取结构和第五空间域特征提取结构;
将所述待分割眼部图像输入至所述第一空间域特征提取结构中,得到第一待分割空间域特征图;将所述第一待分割空间域特征图输入至所述第二空间域特征提取结构中,得到第二待分割空间域特征图;将所述第二待分割空间域特征图输入至所述第三空间域特征提取结构中,得到第三待分割空间域特征图;将所述第三待分割空间域特征图输入至所述第四空间域特征提取结构中,得到第四待分割空间域特征图;将所述第四待分割空间域特征图输入至所述第五空间域特征提取结构中,得到第五待分割空间域特征图;
当所述待分割眼部图像的大小为M×N时,所述第一待分割空间域特征图的大小为(M/2)×(N/2),所述第二待分割空间域特征图的大小为(M/4)×(N/4),所述第三待分割空间域特征图的大小为(M/8)×(N/8),所述第四待分割空间域特征图的大小为(M/16)×(N/16),所述第五待分割空间域特征图的大小为(M/32)×(N/32)。
可选地,所述第一空间域特征提取结构包括:Conv模块;
所述第二空间域特征提取结构、所述第三空间域特征提取结构和所述第四空间域特征提取结构均包括:Conv模块和DCN模块;
所述第五空间域特征提取结构包括:Conv模块、DCN模块和CAM模块。
可选地,所述频率域特征提取分支,包括:依次连接的、分块离散余弦变换结构、第一频率域特征提取结构、第二频率域特征提取结构、第三频率域特征提取结构、第四频率域特征提取结构和第五频率域特征提取结构;
将所述待分割眼部图像输入至所述分块离散余弦变换结构中,得到初始待分割频率域特征图;将所述初始待分割频率域特征图输入至所述第一频率域特征提取结构中,得到第一待分割频率域特征图;将所述第一待分割频率域特征图输入至所述第二频率域特征提取结构中,得到第二待分割频率域特征图;将所述第二待分割频率域特征图输入至所述第三频率域特征提取结构中,得到第三待分割频率域特征图;将所述第三待分割频率域特征图输入至所述第四频率域特征提取结构中,得到第四待分割频率域特征图;将所述第四待分割频率域特征图输入至所述第五频率域特征提取结构中,得到第五待分割频率域特征图;
当所述待分割眼部图像的大小为M×N时,所述初始待分割频率域特征图的大小为M×N,所述第一待分割频率域特征图的大小为(M/2)×(N/2),所述第二待分割频率域特征图的大小为(M/4)×(N/4),所述第三待分割频率域特征图的大小为(M/8)×(N/8),所述第四待分割频率域特征图的大小为(M/16)×(N/16),所述第五待分割频率域特征图的大小为(M/32)×(N/32)。
可选地,所述第一频率域特征提取结构包括:Conv模块;
所述第二频率域特征提取结构、所述第三频率域特征提取结构和所述第四频率域特征提取结构均包括:Conv模块和DCN模块;
所述第五频率域特征提取结构包括:Conv模块、DCN模块和CAM模块。
可选地,所述多维度特征融合注意力模块,包括:5个F-B模块和2个上采样模块;所述F-B模块由融合模块和Biformer模块级联构成。
一种基于多域可变形卷积的眼部结构分割系统,包括:
图像获取模块,用于获取待分割眼部图像;所述待分割眼部图像是利用自然光下普通摄像机采集到的眼部图像;
结构分割模块,用于将所述待分割眼部图像输入至眼部结构分割模型中,得到分割后的眼部图像;所述分割后的眼部图像为带有预测分割边框和对应的预测标签的眼部图像,所述标签为分割后的眼部的结构;所述眼部结构分割模型是利用多个带有先验分割边框和对应的先验标签的训练用眼部图像对初始模型进行训练得到的,所述初始模型包括:空间域特征提取分支、频率域特征提取分支、多维度特征融合注意力模块和检测头;所述结构包括:瞳孔、虹膜和巩膜。
一种设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述设备执行上述所述的基于多域可变形卷积的眼部结构分割方法。
可选地,所述存储器为可读存储介质。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种基于多域可变形卷积的眼部结构分割方法、系统及设备,获取待分割眼部图像;待分割眼部图像是利用自然光下普通摄像机采集到的眼部图像;将频率域特征图待分割眼部图像输入至眼部结构分割模型中,得到分割后的眼部图像;频率域特征图分割后的眼部图像为带有预测分割边框和对应的预测标签的眼部图像,频率域特征图标签为分割后的眼部的结构;频率域特征图眼部结构分割模型是利用多个带有先验分割边框和对应的先验标签的训练用眼部图像对初始模型进行训练得到的,其中,频率域特征图初始模型包括:空间域特征提取分支、频率域特征提取分支、多维度特征融合注意力模块和检测头。本发明综合空间域特征和频率域特征进行结构的分割,提高了眼部结构的分割准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的基于多域可变形卷积的眼部结构分割方法流程示意图;
图2为初始模型结构示意图;
图3为空间域特征提取分支结构示意图;
图4为频率域特征提取分支结构示意图;
图5为F-B模块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于多域可变形卷积的眼部结构分割方法、系统及设备,旨在提高眼部结构的分割准确率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
图1为本发明实施例1提供的基于多域可变形卷积的眼部结构分割方法流程示意图。如图1所示,本实施例中的基于多域可变形卷积的眼部结构分割方法,包括:
步骤101:获取待分割眼部图像。
其中,待分割眼部图像是利用自然光下普通摄像机采集到的眼部图像。眼部图像为彩色图像。
步骤102:将待分割眼部图像输入至眼部结构分割模型中,得到分割后的眼部图像。
其中,分割后的眼部图像为带有预测分割边框和对应的预测标签的眼部图像,标签为分割后的眼部的结构;眼部结构分割模型是利用多个带有先验分割边框和对应的先验标签的训练用眼部图像对初始模型进行训练得到的,初始模型包括:空间域特征提取分支、频率域特征提取分支、多维度特征融合注意力模块和检测头;结构包括:瞳孔、虹膜和巩膜。
作为一种可选的实施方式,空间域特征提取分支,包括:依次连接的第一空间域特征提取结构、第二空间域特征提取结构、第三空间域特征提取结构、第四空间域特征提取结构和第五空间域特征提取结构。
将待分割眼部图像输入至第一空间域特征提取结构中,得到第一待分割空间域特征图;将第一待分割空间域特征图输入至第二空间域特征提取结构中,得到第二待分割空间域特征图;将第二待分割空间域特征图输入至第三空间域特征提取结构中,得到第三待分割空间域特征图;将第三待分割空间域特征图输入至第四空间域特征提取结构中,得到第四待分割空间域特征图;将第四待分割空间域特征图输入至第五空间域特征提取结构中,得到第五待分割空间域特征图。
当待分割眼部图像的大小为M×N时,第一待分割空间域特征图的大小为(M/2)×(N/2),第二待分割空间域特征图的大小为(M/4)×(N/4),第三待分割空间域特征图的大小为(M/8)×(N/8),第四待分割空间域特征图的大小为(M/16)×(N/16),第五待分割空间域特征图的大小为(M/32)×(N/32)。
作为一种可选的实施方式,第一空间域特征提取结构包括:Conv模块。
第二空间域特征提取结构、第三空间域特征提取结构和第四空间域特征提取结构均包括:Conv模块和DCN模块。
第五空间域特征提取结构包括:Conv模块、DCN模块和CAM模块。
作为一种可选的实施方式,频率域特征提取分支,包括:依次连接的、分块离散余弦变换结构、第一频率域特征提取结构、第二频率域特征提取结构、第三频率域特征提取结构、第四频率域特征提取结构和第五频率域特征提取结构。
将待分割眼部图像输入至分块离散余弦变换结构中,得到初始待分割频率域特征图;将初始待分割频率域特征图输入至第一频率域特征提取结构中,得到第一待分割频率域特征图;将第一待分割频率域特征图输入至第二频率域特征提取结构中,得到第二待分割频率域特征图;将第二待分割频率域特征图输入至第三频率域特征提取结构中,得到第三待分割频率域特征图;将第三待分割频率域特征图输入至第四频率域特征提取结构中,得到第四待分割频率域特征图;将第四待分割频率域特征图输入至第五频率域特征提取结构中,得到第五待分割频率域特征图。
当待分割眼部图像的大小为M×N时,初始待分割频率域特征图的大小为M×N,第一待分割频率域特征图的大小为(M/2)×(N/2),第二待分割频率域特征图的大小为(M/4)×(N/4),第三待分割频率域特征图的大小为(M/8)×(N/8),第四待分割频率域特征图的大小为(M/16)×(N/16),第五待分割频率域特征图的大小为(M/32)×(N/32)。
作为一种可选的实施方式,第一频率域特征提取结构包括:Conv模块。
第二频率域特征提取结构、第三频率域特征提取结构和第四频率域特征提取结构均包括:Conv模块和DCN模块。
第五频率域特征提取结构包括:Conv模块、DCN模块和CAM模块。
作为一种可选的实施方式,多维度特征融合注意力模块,包括:5个F-B模块和2个上采样模块;F-B模块由融合模块和Biformer模块级联构成。
具体的,F-B模块的作用是对空间域特征提取分支和频率域特征提取分支获得的多尺度特征进行融合,同时提高图像中小目标的分割准确率。上采样模块的作用是通过对特征图进行上采样以匹配特征的维度。
具体的,如图2-图5所示,眼部结构分割模型以大小为M×N的待分割眼部图像作为输入,空间域特征提取分支用于提取原始图像中眼部结构特征;频率域特征提取分支用于丰富单分支的特征表示和提高低分辨率图像分割的准确性;多维度特征融合注意力模块用于提高小物体分割的准确率;检测头用于根据融合后的特征进行眼部图像的分割。
1、空间域特征提取分支(即图2中的基于空间域的特征提取网络)包括5个阶段:
(1)第一阶段(即图2中的基于空间域的特征提取网络中的阶段1):通过第一空间域特征提取结构对待分割眼部图像进行特征提取,得到大小为(M/2)×(N/2)的第一待分割空间域特征图。
(2)第二阶段(即图2中的基于空间域的特征提取网络中的阶段2):通过第二空间域特征提取结构对第一待分割空间域特征图进行特征提取,得到大小为(M/4)×(N/4)的第二待分割空间域特征图。
(3)第三阶段(即图2中的基于空间域的特征提取网络中的阶段3):通过第三空间域特征提取结构对第二待分割空间域特征图进行特征提取,得到大小为(M/8)×(N/8)的第三待分割空间域特征图。
(4)第四阶段(即图2中的基于空间域的特征提取网络中的阶段4):通过第四空间域特征提取结构对第三待分割空间域特征图进行特征提取,得到大小为(M/16)×(N/16)的第四待分割空间域特征图。
(5)第五阶段(即图2中的基于空间域的特征提取网络中的阶段5):通过第五空间域特征提取结构对第四待分割空间域特征图进行特征提取,得到大小为(M/32)×(N/32)的第五待分割空间域特征图。
进一步,第一空间域特征提取结构包括:Conv模块(普通卷积模块)。第二空间域特征提取结构、第三空间域特征提取结构和第四空间域特征提取结构均包括:Conv模块和可变形卷积(Deformable Convolutional Networks,DCN)模块。第五空间域特征提取结构包括:Conv模块、DCN模块和CAM模块。
Conv模块由卷积层、归一化层和激活函数三部分组成,三部分的作用分别是对特征图进行下采样、归一化和对数据进行非线性处理。DCN模块的作用是提高特征提取的准确性,CAM模块的作用是提高小目标,即瞳孔分割的准确率。
2、频率域特征提取分支包括6个阶段:
(1)第一阶段(即图2中的基于频域的特征提取网络中的阶段0):通过分块离散余弦变换结构(包括频域头Spectral Head)对待分割眼部图像进行特征提取,得到大小为M×N的初始待分割频率域特征图。
具体的,分块离散余弦变换结构的工作过程如下:
首先,按照公式(1)对原始眼部区域图像进行分块离散余弦变换,此时变换后的系数能量主要集中在左上角,其余大部分的系数接近于零。
其中,Bpq为原始眼部区域图像的DCT系数;αp为第一系数项,M为像素数;αq为第二系数项,/> N为像素数;Amn为点(m,n)处的像素值;m为分块离散余弦变换前的横坐标;n为分块离散余弦变换前的纵坐标;p为分块离散余弦变换后的横坐标;q为分块离散余弦变换后的纵坐标;0≤p≤M-1;0≤q≤N-1。
其次,按照公式(2)对灰度矩阵进行量化,将小于阈值的系数置零。
其中,F为灰度矩阵;value为灰度值;Th为阈值。
再次,将经过灰度矩阵量化后的结果按照公式(3)进行分块离散余弦逆变换,从而得到分块离散余弦变换结构的输出结果。
其中,0≤m≤M-1;0≤n≤N-1。
最后,将分块离散余弦变换结构的输出结果作为第一频率域特征提取结构的输入实现不同分辨率情况下图像特征的提取。
(2)第二阶段(即图2中的基于频域的特征提取网络中的阶段1):通过第一频率域特征提取结构对初始待分割频率域特征图进行特征提取,得到大小为(M/2)×(N/2)的第一待分割频率域特征图。
(3)第三阶段(即图2中的基于频域的特征提取网络中的阶段2):通过第二频率域特征提取结构对第一待分割频率域特征图进行特征提取,得到大小为(M/4)×(N/4)的第二待分割频率域特征图。
(4)第四阶段(即图2中的基于频域的特征提取网络中的阶段3):通过第三频率域特征提取结构对第二待分割频率域特征图进行特征提取,得到大小为(M/8)×(N/8)的第三待分割频率域特征图。
(5)第五阶段(即图2中的基于频域的特征提取网络中的阶段4):通过第四频率域特征提取结构对第三待分割频率域特征图进行特征提取,得到大小为(M/16)×(N/16)的第四待分割频率域特征图。
(6)第六阶段(即图2中的基于频域的特征提取网络中的阶段5):通过第五频率域特征提取结构对第四待分割频率域特征图进行特征提取,得到大小为(M/32)×(N/32)的第五待分割频率域特征图。
进一步,第一频率域特征提取结构包括:Conv模块。第二频率域特征提取结构、第三频率域特征提取结构和第四频率域特征提取结构均包括:Conv模块和DCN模块。第五频率域特征提取结构包括:Conv模块、DCN模块和CAM模块。
通过空间域特征提取分支和频率域特征提取分支在各层提取结构的输出的特征图后,将第三待分割空间域特征图和第四待分割频率域特征图进行级联得到第一级联特征图,将第四待分割空间域特征图和第五待分割频率域特征图进行级联得到第二级联特征图,将第五待分割空间域特征图和第六待分割频率域特征图进行级联得到第三级联特征图,并将第一级联特征图、第二级联特征图和第三级联特征图作为多维度特征融合注意力模块的输入。
3、多维度特征融合注意力模块。
眼部区域中,瞳孔较小,且颜色不易识别。因此,为了增强输出特征的表达能力,提升模型对小物体的分割性能,多维度特征融合注意力模块中提出F-B模块,F-B模块由Fusion模块和Biformer模块级联构成,F-B模块的作用是对特征提取主干获得的多尺度特征进行融合,同时提高图像中小目标的分割准确率。
在多维度特征融合注意力模块中,将第二级联特征图和第三级联特征图进行级联得到第四级联特征图,第四级联特征图经过第一F-B模块得到第一融合特征图;第一融合特征图经过第一上采样模块得到第一上采样特征图;将第一级联特征图、第二级联特征图和第一上采样特征图进行级联得到第五级联特征图,第五级联特征图经过第二F-B模块得到第二融合特征图,第二融合特征图经过第二上采样模块得到第二上采样特征图;将第一级联特征图和第二上采样特征图进行级联得到第六级联特征图,第六级联特征图经过第三F-B模块得到第三融合特征图,第二融合特征图和第三融合特征图进行级联得到第七级联特征图,第七级联特征图经过第四F-B模块得到第四融合特征图,将第一融合特征图、第二融合特征图和第四融合特征图进行级联得到第八级联特征图,第八级联特征图经过第五F-B模块得到第五融合特征图,将第三融合特征图、第四融合特征图和第五融合特征图作为检测头的输入。
其中,F-B模块包括FusionBlock和BiformerBlock两部分,Fusion Block以级联后的频域特征和空域特征作为输入,首先通过1×1卷积进行维度匹配,然后通过N个Rep3×3和3×3卷积层进行特征提取。将提取到的特征作为Biformer Block的输入,BiformerBlock用来提高小物体检测的准确率
4、检测头是模型的最后一层,目的是获取网络的输出内容,检测头的输入为多维度特征融合注意力模块的输出,损失函数如公式(4)所示。
Loss=lossbox+lossobj+lossseg(4)。
其中,Loss为总损失;lossbox为边界框回归损失;lossobj为交并比损失;lossseg为掩码回归损失。
实施例2
本实施例中的基于多域可变形卷积的眼部结构分割系统,包括:
图像获取模块,用于获取待分割眼部图像;待分割眼部图像是利用自然光下普通摄像机采集到的眼部图像。
结构分割模块,用于将待分割眼部图像输入至眼部结构分割模型中,得到分割后的眼部图像;分割后的眼部图像为带有预测分割边框和对应的预测标签的眼部图像,标签为分割后的眼部的结构;眼部结构分割模型是利用多个带有先验分割边框和对应的先验标签的训练用眼部图像对初始模型进行训练得到的,初始模型包括:空间域特征提取分支、频率域特征提取分支、多维度特征融合注意力模块和检测头;结构包括:瞳孔、虹膜和巩膜。
实施例3
一种设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使设备执行实施例1中的基于多域可变形卷积的眼部结构分割方法。
作为一种可选的实施方式,存储器为可读存储介质。
本发明的优点:能够提高非理想环境下对普通摄像机采集到的图像中眼部结构分割的准确率,准确的实现眼部结构的分割可为分析用户的情绪、心理、健康和认知水平的变化提供数据支持。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种基于多域可变形卷积的眼部结构分割方法,其特征在于,所述方法包括:
获取待分割眼部图像;所述待分割眼部图像是利用自然光下普通摄像机采集到的眼部图像;
将所述待分割眼部图像输入至眼部结构分割模型中,得到分割后的眼部图像;所述分割后的眼部图像为带有预测分割边框和对应的预测标签的眼部图像,所述标签为分割后的眼部的结构;所述眼部结构分割模型是利用多个带有先验分割边框和对应的先验标签的训练用眼部图像对初始模型进行训练得到的,所述初始模型包括:空间域特征提取分支、频率域特征提取分支、多维度特征融合注意力模块和检测头;所述结构包括:瞳孔、虹膜和巩膜;
空间域特征提取分支,包括:依次连接的第一空间域特征提取结构、第二空间域特征提取结构、第三空间域特征提取结构、第四空间域特征提取结构和第五空间域特征提取结构;
将待分割眼部图像输入至第一空间域特征提取结构中,得到第一待分割空间域特征图;将第一待分割空间域特征图输入至第二空间域特征提取结构中,得到第二待分割空间域特征图;将第二待分割空间域特征图输入至第三空间域特征提取结构中,得到第三待分割空间域特征图;将第三待分割空间域特征图输入至第四空间域特征提取结构中,得到第四待分割空间域特征图;将第四待分割空间域特征图输入至第五空间域特征提取结构中,得到第五待分割空间域特征图;
当待分割眼部图像的大小为M×N时,第一待分割空间域特征图的大小为(M/2)×(N/2),第二待分割空间域特征图的大小为(M/4)×(N/4),第三待分割空间域特征图的大小为(M/8)×(N/8),第四待分割空间域特征图的大小为(M/16)×(N/16),第五待分割空间域特征图的大小为(M/32)×(N/32);
第一空间域特征提取结构包括:Conv模块;
第二空间域特征提取结构、第三空间域特征提取结构和第四空间域特征提取结构均包括:Conv模块和DCN模块;
第五空间域特征提取结构包括:Conv模块、DCN模块和CAM模块;
频率域特征提取分支,包括:依次连接的、分块离散余弦变换结构、第一频率域特征提取结构、第二频率域特征提取结构、第三频率域特征提取结构、第四频率域特征提取结构和第五频率域特征提取结构;
将待分割眼部图像输入至分块离散余弦变换结构中,得到初始待分割频率域特征图;将初始待分割频率域特征图输入至第一频率域特征提取结构中,得到第一待分割频率域特征图;将第一待分割频率域特征图输入至第二频率域特征提取结构中,得到第二待分割频率域特征图;将第二待分割频率域特征图输入至第三频率域特征提取结构中,得到第三待分割频率域特征图;将第三待分割频率域特征图输入至第四频率域特征提取结构中,得到第四待分割频率域特征图;将第四待分割频率域特征图输入至第五频率域特征提取结构中,得到第五待分割频率域特征图;
当待分割眼部图像的大小为M×N时,初始待分割频率域特征图的大小为M×N,第一待分割频率域特征图的大小为(M/2)×(N/2),第二待分割频率域特征图的大小为(M/4)×(N/4),第三待分割频率域特征图的大小为(M/8)×(N/8),第四待分割频率域特征图的大小为(M/16)×(N/16),第五待分割频率域特征图的大小为(M/32)×(N/32);
第一频率域特征提取结构包括:Conv模块;
第二频率域特征提取结构、第三频率域特征提取结构和第四频率域特征提取结构均包括:Conv模块和DCN模块;
第五频率域特征提取结构包括:Conv模块、DCN模块和CAM模块;
多维度特征融合注意力模块,包括:5个F-B模块和2个上采样模块;F-B模块由融合模块和Biformer模块级联构成。
2.一种基于多域可变形卷积的眼部结构分割系统,其特征在于,所述系统包括:
图像获取模块,用于获取待分割眼部图像;所述待分割眼部图像是利用自然光下普通摄像机采集到的眼部图像;
结构分割模块,用于将所述待分割眼部图像输入至眼部结构分割模型中,得到分割后的眼部图像;所述分割后的眼部图像为带有预测分割边框和对应的预测标签的眼部图像,所述标签为分割后的眼部的结构;所述眼部结构分割模型是利用多个带有先验分割边框和对应的先验标签的训练用眼部图像对初始模型进行训练得到的,所述初始模型包括:空间域特征提取分支、频率域特征提取分支、多维度特征融合注意力模块和检测头;所述结构包括:瞳孔、虹膜和巩膜;
空间域特征提取分支,包括:依次连接的第一空间域特征提取结构、第二空间域特征提取结构、第三空间域特征提取结构、第四空间域特征提取结构和第五空间域特征提取结构;
将待分割眼部图像输入至第一空间域特征提取结构中,得到第一待分割空间域特征图;将第一待分割空间域特征图输入至第二空间域特征提取结构中,得到第二待分割空间域特征图;将第二待分割空间域特征图输入至第三空间域特征提取结构中,得到第三待分割空间域特征图;将第三待分割空间域特征图输入至第四空间域特征提取结构中,得到第四待分割空间域特征图;将第四待分割空间域特征图输入至第五空间域特征提取结构中,得到第五待分割空间域特征图;
当待分割眼部图像的大小为M×N时,第一待分割空间域特征图的大小为(M/2)×(N/2),第二待分割空间域特征图的大小为(M/4)×(N/4),第三待分割空间域特征图的大小为(M/8)×(N/8),第四待分割空间域特征图的大小为(M/16)×(N/16),第五待分割空间域特征图的大小为(M/32)×(N/32);
第一空间域特征提取结构包括:Conv模块;
第二空间域特征提取结构、第三空间域特征提取结构和第四空间域特征提取结构均包括:Conv模块和DCN模块;
第五空间域特征提取结构包括:Conv模块、DCN模块和CAM模块;
频率域特征提取分支,包括:依次连接的、分块离散余弦变换结构、第一频率域特征提取结构、第二频率域特征提取结构、第三频率域特征提取结构、第四频率域特征提取结构和第五频率域特征提取结构;
将待分割眼部图像输入至分块离散余弦变换结构中,得到初始待分割频率域特征图;将初始待分割频率域特征图输入至第一频率域特征提取结构中,得到第一待分割频率域特征图;将第一待分割频率域特征图输入至第二频率域特征提取结构中,得到第二待分割频率域特征图;将第二待分割频率域特征图输入至第三频率域特征提取结构中,得到第三待分割频率域特征图;将第三待分割频率域特征图输入至第四频率域特征提取结构中,得到第四待分割频率域特征图;将第四待分割频率域特征图输入至第五频率域特征提取结构中,得到第五待分割频率域特征图;
当待分割眼部图像的大小为M×N时,初始待分割频率域特征图的大小为M×N,第一待分割频率域特征图的大小为(M/2)×(N/2),第二待分割频率域特征图的大小为(M/4)×(N/4),第三待分割频率域特征图的大小为(M/8)×(N/8),第四待分割频率域特征图的大小为(M/16)×(N/16),第五待分割频率域特征图的大小为(M/32)×(N/32);
第一频率域特征提取结构包括:Conv模块;
第二频率域特征提取结构、第三频率域特征提取结构和第四频率域特征提取结构均包括:Conv模块和DCN模块;
第五频率域特征提取结构包括:Conv模块、DCN模块和CAM模块;
多维度特征融合注意力模块,包括:5个F-B模块和2个上采样模块;F-B模块由融合模块和Biformer模块级联构成。
3.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1中所述的基于多域可变形卷积的眼部结构分割方法。
4.根据权利要求3所述的一种电子设备,其特征在于,所述存储器为可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311572005.7A CN117541791B (zh) | 2023-11-23 | 2023-11-23 | 基于多域可变形卷积的眼部结构分割方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311572005.7A CN117541791B (zh) | 2023-11-23 | 2023-11-23 | 基于多域可变形卷积的眼部结构分割方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117541791A CN117541791A (zh) | 2024-02-09 |
CN117541791B true CN117541791B (zh) | 2024-05-28 |
Family
ID=89785751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311572005.7A Active CN117541791B (zh) | 2023-11-23 | 2023-11-23 | 基于多域可变形卷积的眼部结构分割方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117541791B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE720608A (zh) * | 1967-09-28 | 1969-02-17 | ||
CN110705457A (zh) * | 2019-09-29 | 2020-01-17 | 核工业北京地质研究院 | 一种遥感影像建筑物变化检测方法 |
CN111667490A (zh) * | 2020-05-07 | 2020-09-15 | 清华大学深圳国际研究生院 | 一种眼底图片视杯视盘分割方法 |
CN112734695A (zh) * | 2020-12-23 | 2021-04-30 | 中国海洋大学 | 基于区域增强卷积神经网络的sar图像变化检测方法 |
CN113223008A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 基于多尺度引导注意网络的眼底图像分割方法及系统 |
CN113627472A (zh) * | 2021-07-05 | 2021-11-09 | 南京邮电大学 | 基于分层深度学习模型的智慧园林食叶害虫识别方法 |
CN114998369A (zh) * | 2022-06-13 | 2022-09-02 | 依未科技(温州)有限公司 | 图像处理方法、装置、存储介质及电子设备 |
WO2022245434A1 (en) * | 2021-05-21 | 2022-11-24 | Qualcomm Incorporated | Implicit image and video compression using machine learning systems |
CN115861207A (zh) * | 2022-11-25 | 2023-03-28 | 中国科学院深圳先进技术研究院 | 一种轻量化的医学图像分割方法和系统 |
CN115984550A (zh) * | 2022-12-28 | 2023-04-18 | 沈阳化工大学 | 一种眼睛虹膜色素斑纹理自动分割方法 |
CN116258627A (zh) * | 2022-12-13 | 2023-06-13 | 河南大学 | 一种极端退化人脸图像超分辨率恢复系统和方法 |
CN116503932A (zh) * | 2023-05-24 | 2023-07-28 | 北京万里红科技有限公司 | 重点区域加权的眼周特征提取方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130182895A1 (en) * | 2011-12-15 | 2013-07-18 | Bioptigen, Inc. | Spectral Domain Optical Coherence Tomography Analysis and Data Mining Systems and Related Methods and Computer Program Products |
-
2023
- 2023-11-23 CN CN202311572005.7A patent/CN117541791B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE720608A (zh) * | 1967-09-28 | 1969-02-17 | ||
CN110705457A (zh) * | 2019-09-29 | 2020-01-17 | 核工业北京地质研究院 | 一种遥感影像建筑物变化检测方法 |
CN111667490A (zh) * | 2020-05-07 | 2020-09-15 | 清华大学深圳国际研究生院 | 一种眼底图片视杯视盘分割方法 |
CN112734695A (zh) * | 2020-12-23 | 2021-04-30 | 中国海洋大学 | 基于区域增强卷积神经网络的sar图像变化检测方法 |
CN113223008A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 基于多尺度引导注意网络的眼底图像分割方法及系统 |
WO2022245434A1 (en) * | 2021-05-21 | 2022-11-24 | Qualcomm Incorporated | Implicit image and video compression using machine learning systems |
CN113627472A (zh) * | 2021-07-05 | 2021-11-09 | 南京邮电大学 | 基于分层深度学习模型的智慧园林食叶害虫识别方法 |
CN114998369A (zh) * | 2022-06-13 | 2022-09-02 | 依未科技(温州)有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN115861207A (zh) * | 2022-11-25 | 2023-03-28 | 中国科学院深圳先进技术研究院 | 一种轻量化的医学图像分割方法和系统 |
CN116258627A (zh) * | 2022-12-13 | 2023-06-13 | 河南大学 | 一种极端退化人脸图像超分辨率恢复系统和方法 |
CN115984550A (zh) * | 2022-12-28 | 2023-04-18 | 沈阳化工大学 | 一种眼睛虹膜色素斑纹理自动分割方法 |
CN116503932A (zh) * | 2023-05-24 | 2023-07-28 | 北京万里红科技有限公司 | 重点区域加权的眼周特征提取方法、系统及存储介质 |
Non-Patent Citations (5)
Title |
---|
A Spectral Spatial Attention Fusion with Deformable Convolutional Residual Network for Hyperspectral Image Classification;Tianyu Zhang等;《Remote Sensing》;20210909;第13卷(第18期);3590 * |
Iris Segmentation Techniques For Iris Diagnosis: a survey;Poovayar Priya M等;《International Journal of Digital Technologies》;20230315;第2卷(第1期);1-8 * |
Pupil Detection Based on Oblique Projection Using a Binocular Camera;Junjie Zhang等;《IEEE Access》;20200604;第8卷;105754-105765 * |
基于卷积神经网络的眼动识别研究;程炳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190715(第07期);I138-1201 * |
自然光普通摄像头的眼部分割及特征点定位数据集ESLD;张俊杰等;《中国图象图形学报》;20220831;第27卷(第08期);2329-2343 * |
Also Published As
Publication number | Publication date |
---|---|
CN117541791A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361192B2 (en) | Image classification method, computer device, and computer-readable storage medium | |
CN111709902B (zh) | 基于自注意力机制的红外和可见光图像融合方法 | |
Li et al. | Survey of single image super‐resolution reconstruction | |
CN112651978B (zh) | 舌下微循环图像分割方法和装置、电子设备、存储介质 | |
CN107123091A (zh) | 一种基于深度学习的近红外人脸图像超分辨率重建方法 | |
CN111079764B (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN113011253B (zh) | 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质 | |
Liu et al. | Single image super resolution techniques based on deep learning: Status, applications and future directions | |
Gao et al. | Improving the performance of infrared and visible image fusion based on latent low-rank representation nested with rolling guided image filtering | |
Pan et al. | FDPPGAN: remote sensing image fusion based on deep perceptual patchGAN | |
CN111126250A (zh) | 一种基于ptgan的行人重识别方法及装置 | |
CN113962905A (zh) | 基于多阶段特征互补网络的单幅图像去雨方法 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
CN117541791B (zh) | 基于多域可变形卷积的眼部结构分割方法、系统及设备 | |
WO2020187029A1 (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN115641541A (zh) | 基于患者体表泥面状态数据处理系统 | |
CN114821061A (zh) | 上下文聚合网络以及基于该网络的图像实时语义分割方法 | |
Chen et al. | Infrared and visible image fusion using two-layer generative adversarial network | |
Zhang et al. | A target-aware fusion framework for infrared and visible images | |
Sun et al. | Research on semantic segmentation of ground-based cloud image based on fully convolutional network | |
Lindgren et al. | Learning high-level independent components of images through a spectral representation | |
Sharma et al. | Image Fusion with Deep Leaning using Wavelet Transformation | |
CN114943860B (zh) | 一种用于人脸识别的样本分类的方法及装置 | |
Ziani et al. | SH-CNN: Shearlet Convolutional Neural Network for Gender Classification | |
CN115511968B (zh) | 一种二维手部姿态估计方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |