CN117132777A - 图像分割方法、装置、电子设备及存储介质 - Google Patents
图像分割方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117132777A CN117132777A CN202311401358.0A CN202311401358A CN117132777A CN 117132777 A CN117132777 A CN 117132777A CN 202311401358 A CN202311401358 A CN 202311401358A CN 117132777 A CN117132777 A CN 117132777A
- Authority
- CN
- China
- Prior art keywords
- sample image
- classification
- image
- sample
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 227
- 238000003709 image segmentation Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 411
- 230000011218 segmentation Effects 0.000 claims abstract description 150
- 230000008569 process Effects 0.000 claims description 149
- 238000012549 training Methods 0.000 claims description 129
- 238000000605 extraction Methods 0.000 claims description 85
- 210000001747 pupil Anatomy 0.000 claims description 58
- 238000007781 pre-processing Methods 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 210000000554 iris Anatomy 0.000 description 70
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 14
- 238000012804 iterative process Methods 0.000 description 13
- 238000005096 rolling process Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000070023 Phoenicopterus roseus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像分割方法、装置、电子设备及存储介质。本申请的实施例涉及云技术、人工智能、智慧交通、辅助驾驶等技术领域。该方法包括:获取待处理图像,通过目标分割模型对所述待处理图像进行多级二分类处理,以得到所述待处理图像的多级二分类结果;根据所述待处理图像的多级二分类结果以及所述嵌套关系,确定所述N个第一区域中至少一个第一区域的分割结果。本申请中,第一区域的分割结果结合了多级二分类结果以及作为先验信息的嵌套关系,使得第一区域的分割结果的准确率得到提高。
Description
技术领域
本申请涉及人工智能技术领域,更具体地,涉及一种图像分割方法、装置、电子设备及存储介质。
背景技术
图像分割是指从待分割图像中提取需求的目标区域。目前,可以通过训练后的神经网络模型对待分割图像进行识别,得到待分割图像中每个像素点属于不同区域的概率,根据待分割图像中每个像素点属于不同区域的概率,在待分割图像中提取出需求的目标区域。
然而,采用该方法得到的待分割图像中每个像素点属于不同区域的概率的准确率较低,导致提取出目标区域不准确。
发明内容
有鉴于此,本申请实施例提出了一种图像分割方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种图像分割方法,方法包括:获取待处理图像,待处理图像中包含N个第一区域,N个第一区域中相邻两个第一区域存在嵌套关系;N为大于1的自然数;通过目标分割模型对待处理图像进行多级二分类处理,以得到待处理图像的多级二分类结果;在对待处理图像的多级二分类处理中,每级二分类处理用于将待处理图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第一区域中一个第一区域或多个连续第一区域;待处理图像的每级二分类结果包括待处理图像中各像素点属于两部分中的一个部分的概率;根据待处理图像的多级二分类结果以及嵌套关系,确定N个第一区域中至少一个第一区域的分割结果。
第二方面,本申请实施例提供了一种图像分割装置,装置包括:获取模块,用于获取待处理图像,待处理图像中包含N个第一区域,N个第一区域中相邻两个第一区域存在嵌套关系;N为大于1的自然数;分类模块,用于通过目标分割模型对待处理图像进行多级二分类处理,以得到待处理图像的多级二分类结果;在对待处理图像的多级二分类处理中,每级二分类处理用于将待处理图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第一区域中一个第一区域或多个连续第一区域;待处理图像的每级二分类结果包括待处理图像中各像素点属于两部分中的一个部分的概率;确定模块,用于根据待处理图像的多级二分类结果以及嵌套关系,确定N个第一区域中至少一个第一区域的分割结果。
可选地,装置还包括训练模块,用于获取第一样本图像和第一样本图像对应的第一标签信息,第一样本图像包括N个第二区域,N个第二区域中相邻两个第二区域存在嵌套关系,第一标签信息用于指示第一样本图像中各像素点所属的第二区域;通过初始模型对第一样本图像进行多级二分类处理,以得到第一样本图像的多级二分类结果;在对第一样本图像的多级二分类处理中,每级二分类处理用于将第一样本图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第二区域中一个第二区域或多个连续第二区域;第一样本图像的每级二分类结果包括第一样本图像中各像素点属于两部分中的一个部分的概率;根据第一样本图像的多级二分类结果以及第一样本图像的多级二分类结果的分级样本标签,对初始模型进行训练,以得到目标分割模型,第一样本图像的多级二分类结果的分级样本标签是对第一样本图像的多级二分类处理对应的两部分与N个第二区域间的关系,以及第一标签信息确定的。
可选地,训练模块,还用于根据第一样本图像的多级二分类结果以及第一样本图像的多级二分类结果的分级样本标签,确定第一样本图像在每级二分类处理下的第一损失值;通过初始模型对第一样本图像进行分类处理,得第一样本图像对应的多分类结果,第一样本图像对应的多分类结果包括第一样本图像中各像素点属于N个第二区域中每个第二区域的概率;根据第一样本图像对应的多分类结果和第一标签信息,确定第一样本图像对应的第二损失值;根据第一样本图像在每级二分类处理下的第一损失值和第一样本图像对应的第二损失值,对初始模型进行训练,得到目标分割模型。
可选地,训练模块,还用于根据第一样本图像的多级二分类结果以及第一样本图像的多级二分类结果的分级样本标签,确定第一样本图像在每级二分类处理下的第一损失值;根据第一样本图像在每级二分类处理下的第一损失值,对初始模型进行参数调整,得到中间模型;获取第二样本图像和第二样本图像对应的第二标签信息,第二样本图像包括N个第三区域,N个第三区域中相邻两个第三区域存在嵌套关系,第二标签信息用于指示第二样本图像中各像素点所属的第三区域;通过中间模型对第二样本图像进行多级二分类处理,以得到第二样本图像的多级二分类结果;在对第二样本图像的多级二分类处理中,每级二分类处理用于将第二样本图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第三区域中一个第三区域或多个连续第三区域;第二样本图像的每级二分类结果包括第二样本图像中各像素点属于两部分中的一个部分的概率;根据第二样本图像的多级二分类结果以及第二样本图像的多级二分类结果的分级样本标签,确定第二样本图像在每级二分类处理下的第一损失值;第二样本图像的多级二分类结果的分级样本标签是对第二样本图像的多级二分类处理对应的两部分与N个第三区域间的关系,以及第二标签信息确定的;通过中间模型对第二样本图像进行分类处理,得第二样本图像对应的多分类结果,第二样本图像对应的多分类结果包括第二样本图像中各像素点属于N个第三区域中每个第三区域的概率;根据第二样本图像对应的多分类结果和第二标签信息,确定第二样本图像对应的第二损失值;根据第二样本图像在每级二分类处理下的第一损失值和第二样本图像对应的第二损失值,对中间进行训练,得到目标分割模型。
可选地,训练模块,还用于对第一样本图像在多级二分类处理下的第一损失值进行加权求和,得到第一和损失值;根据第一和损失值对初始模型进行参数调整,得到中间模型。
可选地,中间模型包括中间特征提取网络以及多级二分类处理各自对应的中间分类层;训练模块,还用于通过中间特征提取网络对第二样本图像进行特征提取,得到第二样本图像对应的第一样本特征;将第二样本图像对应的第一样本特征输入每级二分类处理各自对应的中间分类层进行分类处理,得到第二样本图像在每级二分类处理下的二分类结果。
可选地,训练模块,还用于对第二样本图像进行第一预处理,得到第一预处理图像;第一预处理包括随机裁剪、旋转以及随机翻转中的至少一项;通过中间特征提取网络对第一预处理图像进行特征提取,得到第二样本图像对应的第一样本特征。
可选地,中间模型包括中间特征提取网络以及中间多分类层;训练模块,还用于将第二样本图像输入中间特征提取网络进行特征提取,得到第二样本图像对应的第二样本特征;通过中间多分类层对第二样本图像对应的第二样本特征分类处理,得到第二样本图像对应的多分类结果。
可选地,训练模块,还用于对第二样本图像进行第二预处理,得到第二预处理图像;第二预处理包括伽马矫正变换以及直方图均衡化中的至少一项;将第二预处理图像输入中间特征提取网络进行特征提取,得到第二样本图像对应的第二样本特征。
可选地,训练模块,还用于对第二样本图像在多级二分类处理下的第一损失值进行加权求和,得到第二和损失值;计算第二和损失值以及第二样本图像对应的第二损失值之和,作为第三和损失值;根据第三和损失值,对中间模型进行参数调整,得到目标分割模型。
可选地,确定模块,还用于根据待处理图像中的每个像素点位于每级二分类处理所对应的两部分中的一个部分的概率,确定待处理图像中每个像素点在每级二分类处理下的参考分类结果;根据待处理图像中每个像素点在每级二分类处理下的参考分类结果进行求和,得到待处理图像中每个像素点的目标分类结果;根据嵌套关系,确定每个第一区域各自的目标值;根据待处理图像中每个像素点的目标分类结果以及每个第一区域各自的目标值,确定N个第一区域中至少一个第一区域的分割结果。
第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述的方法。
本申请实施例提供的一种图像分割方法、装置、电子设备及存储介质,在本申请中,设定多级二分类处理,通过目标分割模型对待处理图像进行处理,得到待处理图像在每级二分类处理下的分类结果,然后结合了处理图像在不同级的二分类处理的分类结果以及不同第一区域之间的嵌套关系,确定待处理图像中的每个第一区域对应的分割结果,第一区域的分割结果结合了多级二分类结果以及作为先验信息的嵌套关系,使得第一区域的分割结果的准确率得到提高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1 示出了本申请实施例适用的应用场景的示意图;
图2示出了本申请实施例中一种目标分割模型的训练方法的流程图;
图3示出了本申请实施例中一种眼部图像的示意图;
图4示出了本申请实施例中一种第一样本图像的预处理过程的示意图;
图5示出了本申请实施例中一种初始模型的训练过程示意图;
图6示出了本申请实施例中又一种目标分割模型的训练方法的流程图;
图7示出了本申请实施例中又一种初始模型的训练过程示意图;
图8示出了本申请实施例中再一种目标分割模型的训练方法的流程图;
图9示出了本申请实施例中再一种初始模型的训练过程示意图;
图10示出了本申请实施例中一种中间模型的训练过程示意图;
图11示出了本申请一个实施例提出的一种图像分割方法的流程图;
图12示出了本申请实施例中一种待处理图像的处理过程的示意图;
图13示出本申请实施例中一种虹膜分割的总体技术方案的示意图;
图14示出了本申请一个实施例提出的一种图像分割装置的框图;
图15示出了用于执行根据本申请实施例的图像分割方法的电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。根据本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请公开了一种图像分割方法、装置、电子设备及存储介质,涉及人工智能技术。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
预训练模型(Pre-training model),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT, CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
分布式训练,指将训练模型的工作负载拆分、共享给多个微型处理器。大模型的参数大,训练数据大,超过单个机器容纳能力,因此需要分布式并行提速。并行机制包括数据并行(Data Parallel,DP)、模型并行(Model Parallel,MP)、流水线并行(PipelineParallel,PP)、混合并行(Hybrid parallel,HP)。结构设计包括基于参数服务器(Parameter Server)、基于规约(Reduce)基于MPI等构造。
模型压缩与量化:指通过压缩与量化的技术帮助减小模型大小和加速模型推理,从而降低模型在存储和计算方面的成本。模型压缩通常包括剪枝、低秩分解、知识蒸馏等,模型量化指将模型中的浮点数参数转换为定点数或整数参数,从而减小模型大小和加速模型推理。
自适应计算:指根据不同的输入数据,自动调整模型的计算量和精度,以达到在保持模型精度的同时提高模型计算效率的目的。自适应计算能够在不同的输入数据上灵活地调整模型的计算量和精度,从而更好地平衡模型的计算效率和精度。
模型并行计算:指将模型的计算任务分配给多个计算设备(例如CPU、GPU、TPU等)同时进行计算,从而加速模型的训练和推理。模型并行计算能够有效地利用计算资源,提高模型的计算效率和训练速度。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
如图1所示,本申请实施例所适用的应用场景包括终端20和服务端10,终端20和服务端10通过有线网络或者无线网络通信连接。终端20可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能家电、车载终端、飞行器、可穿戴设备终端、虚拟现实设备以及其他可以进行页面展示的终端设备,或者运行其他可以调用页面展示应用的其他应用(例如即时通讯应用、购物应用、搜索应用、游戏应用、论坛应用、地图交通应用等)。
服务端10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务端10可以用于为终端20运行的应用提供服务。
其中,终端20可以向服务端10发送待处理图像,服务端10可以根据目标分割模型对待处理图像进行分割,得到N个第一区域中至少一个第一区域的分割结果,然后服务端10将N个第一区域中至少一个第一区域的分割结果返回给终端20。
其中,服务端10可以通过包括N个第二区域的第一样本图像(或结合包括N个第三区域的第二样本图像)对初始模型进行训练,得到目标分割模型,并将目标分割模型部署在服务端10,以便于服务端10根据目标分割模型处理终端20发送的待处理图像。
在另一实施方式中,终端20可以用于执行本申请的方法,来获得N个第一区域中至少一个第一区域的分割结果。终端20也可以获取N个第二区域的第一样本图像(或结合包括N个第三区域的第二样本图像),通过包括N个第二区域的第一样本图像(或结合包括N个第三区域的第二样本图像)对初始模型进行训练,得到目标分割模型。
可以理解的是,服务端10获得目标分割模型之后,可以将目标分割模型存储在分布式云存储系统,由终端20从分布式云存储系统中获取目标分割模型,以在获取到目标分割模型之后,根据目标分割模型对待处理图像进行分割,得到N个第一区域中至少一个第一区域的分割结果。
在本方案的图像分割方法用于虹膜分割场景时,N个第一区域可以包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,可以通过目标分割模型得到虹膜所在的区域。之后,可以根据虹膜所在的区域估计用户当前的视线方向,以根据估计的用户当前的视线方向,进行后续处理。例如,在本申请的图像分割方法用于VR(Virtual Reality,即虚拟现实)或AR(Augmented Reality,增强显示)产品中时,可以利用分割后的虹膜所在的区域确定当前用户的视线方向,从而根据当前用户的视线方向调整VR或AR产品当前显示的画面,以提升用户对VR/AR产品的体验。
为了方便表述,下述各个实施例中,以图像分割方法由电子设备执行为例进行说明。
请参阅图2,图2示出了本申请实施例中一种目标分割模型的训练方法的流程图,该方法可以应用于电子设备,电子设备可以是图1中的终端20或服务端10,该方法包括:
S110、获取第一样本图像和第一样本图像对应的第一标签信息。
其中,第一样本图像包括N个第二区域,N个第二区域中相邻两个第二区域存在嵌套关系,第一标签信息用于指示第一样本图像中各像素点所属的第二区域。其中,在一个区域包围预期相邻的另一个区域时,确定两个区域具有嵌套关系。N为大于1的自然数。
第一样本图像可以是指包括待分割的第二区域的图像,一个第二区域可以是任意对象的其中一部分对应的区域。例如,在零件分割场景中,第一样本图像可以是指包括滚动轴承的图像,N个第二区域从内到外依次可以是轴承内圈内的区域、轴承内圈、滚动体、轴承外圈以及轴承外圈外的区域,轴承外圈外的区域嵌套轴承外圈,轴承外圈嵌套滚动体,滚动体嵌套轴承内圈,轴承内圈嵌套轴承内圈内的区域。
又如,在虹膜分割场景中,第一样本图像可以是指包括虹膜的眼部图像(第一样本图像可以是从包括人脸的视频中提取的包括眼部的视频帧,第一样本图像也可以是对眼部进行拍摄得到的图像)。N个第二区域从内到外依次为瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域(例如包括眼皮等),虹膜所在的区域嵌套瞳孔所在的区域,眼白所在的区域嵌套虹膜所在的区域,眼部周边所在的区域嵌套眼白所在的区域。
第一标签信息可以是指第一样本图像对应的标签信息,第一样本图像包括多个时,第一标签信息包括每个第一样本图像对应的标签信息。第一标签信息可以包括第一样本图像中各像素点各自的子标签,第一样本图像中每个像素点的子标签用于指示该像点所属的第二区域,第一样本图像中各像素点各自的子标签可以是数值或数组的形式。
例如,第一样本图像为眼部图像时,第二区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,第一样本图像中像素点a1的子标签为(1,0,0,0),指示像素点a1位于瞳孔所在的区域,第一样本图像中像素点a2的子标签为(0,1,0,0),指示像素点a2位于虹膜所在的区域,第一样本图像中像素点a3的子标签为(0,0,1,0),指示像素点a3位于眼白所在的区域,第一样本图像中像素点a4的子标签为(0,0,0,1),指示像素点a4位于眼部周边所在的区域。
又如,第一样本图像为眼部图像时,第二区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,可以通过不同的数表示不同的第二区域。例如,第一样本图像中像素点a1的子标签的值为3,指示像素点a1位于瞳孔所在的区域,第一样本图像中像素点a2的子标签的值为2,指示像素点a2位于虹膜所在的区域,第一样本图像中像素点a3的子标签的值为1,指示像素点a3位于眼白所在的区域,第一样本图像中像素点a4的子标签的值为0,指示像素点a4属于眼部周边所在的区域。
作为又一种实施方式,第一样本图像对应的第一标签信息可以包括不同第二区域各自对应的区域标签,每个第二区域对应的区域标签包括第一样本图像中位于该第二区域的像素点的像素坐标(像素点的像素坐标是指像素点在第一样本图像中的像素坐标)。例如,第二区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,瞳孔所在的区域对应的区域标签包括位于瞳孔所在的区域的100个像素点各自的像素坐标。
S120、通过初始模型对第一样本图像进行多级二分类处理,以得到第一样本图像的多级二分类结果。
其中,在对第一样本图像的多级二分类处理中,每级二分类处理用于将第一样本图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第二区域中一个第二区域或多个连续第二区域;第一样本图像的每级二分类结果包括第一样本图像中各像素点属于两部分中的一个部分的概率。
不同第二区域之间存在固定的层级几何结构(也即上述嵌套关系),鉴于此,在本申请中,可以基于不同第二区域之间的嵌套关系来划分多级二分类处理,一级二分类处理对应N个第二区域中一个第二区域或多个连续第二区域,以利用不同第二区域之间的嵌套关系作为先验知识来训练目标分割模型,以提升训练后目标分割模型进行虹膜分割的准确性。
例如,如图3所示,在第一样本图像为眼部图像,第二区域包括瞳孔所在的区域304、虹膜所在的区域303、眼白所在的区域302以及眼部周边所在的区域301,其中,眼部周边所在的区域301嵌套眼白302所在的区域;眼白302所在的区域嵌套虹膜303所在的区域;虹膜303所在的区域嵌套瞳孔304所在的区域。此时,多级二分类处理可以包括一级二分类处理、二级二分类处理以及三级二分类处理,其中,一级二分类处理中,瞳孔所在的区域304作为一部分,虹膜所在的区域303、眼白所在的区域302以及眼部周边所在的区域301作为另一部分;二级二分类处理中,瞳孔所在的区域304以及虹膜所在的区域303作为一部分,眼白所在的区域302以及眼部周边所在的区域301作为另一部分;三级二分类处理中,瞳孔所在的区域304、虹膜所在的区域303以及眼白所在的区域302作为一部分,眼部周边所在的区域301作为另一部分。
需要说明的是,针对每级二分类处理对应的两部分,通常其中一部分为重点关注的部分,另一部分关注度相对较低,重点关注的部分作为该级二分类处理的前景,另一部分作为该级二分类处理的背景。例如,在虹膜分割场景,重点关注的是虹膜,因此,图3中,一级二分类处理中,瞳孔所在的区域304作为一部分,该部分为一级二分类处理的前景;二级二分类处理中,瞳孔所在的区域304以及虹膜所在的区域303作为一部分,该部分作为二级分类处理的前景;三级二分类处理中,瞳孔所在的区域304、虹膜所在的区域303以及眼白所在的区域302作为一部分,该部分作为三级二分类处理的前景。
可以将第一样本图像输入初始模型,直接通过初始模型输出的第一样本图像的多级二分类结果。例如,多级二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理,初始模型输出第一样本图像在一级二分类处理下的二分类结果、在二级二分类处理下的二分类结果以及在三级二分类处理下的二分类结果,作为多级二分类结果。
初始模型可以包括初始特征提取网络以及多级二分类处理各自对应的初始分类层;其中,初始特征提取网络可以是卷积神经网络(Convolutional Neural Network,CNN),初始特征提取网络可以包含有卷积(convolution)计算、非线性激活函数(Relu)计算、池化(Pooling)计算等操作;初始分类层可以设置3-4个网络层,用于实现卷积计算以及非线性激活函数计算等操作。可以通过初始特征提取网络对第一样本图像进行特征提取,得到第一样本图像对应的第一样本特征;将第一样本图像对应的第一样本特征输入每级二分类处理各自对应的初始分类层进行分类处理,得到第一样本图像在每级二分类处理下的二分类结果。
第一样本图像在每级二分类处理下对应的二分类结果包括第一样本图像中各像素点位于该级二分类处理所对应的两个部分中其中一部分的概率;第一样本图像在每级二分类处理下的二分类结果也可以包括第一样本图像中各个像素点位于该二分类处理下所对应的两个部分中每个部分的概率。例如,第一样本图像的尺寸为w×h时,得到第一样本图像在一级二分类处理下的概率为w×h×2的矩阵,第一样本图像在一级二分类处理下的概率包括w×h个像素点位于一级二分类处理对应的两部分中其中一部分的概率以及w×h个像素点位于一级二分类处理对应的两部分中另一部分的概率。
如前述,初始模型用于对第一样本图像进行分类,得到第一样本图像在每级二分类处理下的二分类结果,因此,初始模型是一种分割网络,初始模型又可以叫做初始分割网络。
可选地,S120之前,方法可以包括:对第一样本图像进行第一预处理,得到第三预处理图像;第一预处理包括随机裁剪、旋转以及随机翻转中的至少一项;相应的,S120可以包括:通过初始模型对第三预处理图像进行分类处理,得到第一样本图像在每级二分类处理下的二分类结果。
可以理解的是,在初始模型包括初始特征提取网络以及多级二分类处理各自对应的初始分类层时,S120还可以包括:通过初始特征提取网络对第三预处理图像进行特征提取,得到第一样本图像对应的第一样本特征,再将第一样本图像对应的第一样本特征输入每级二分类处理各自对应的初始分类层进行分类处理,得到第一样本图像在每级二分类处理下的二分类结果。
通过对第一样本图像进行第一预处理,得到第三预处理图像,相较于第一样本图像,第三预处理图像发生改变,相当于在第一样本图像中叠加部分干扰信息得到第三预处理图像,可以增强目标分割模型对于干扰信息的识别能力,具有较高的抗干扰能力。
S130、根据第一样本图像的多级二分类结果以及第一样本图像的多级二分类结果的分级样本标签,对初始模型进行训练,以得到目标分割模型。
其中,第一样本图像的多级二分类结果的分级样本标签是对第一样本图像的多级二分类处理对应的两部分与N个第二区域间的关系,以及第一标签信息确定的。
可以根据眼第二区域之间的嵌套关系,确定多级二分类处理,一级二分类处理对应两个部分,一级二分类处理对应的每个部分包括一个第二区域或多个连续第二区域,以保证不同级的二分类处理对应的每个部分中相邻的第二区域之间具有嵌套关系。
根据第一样本图像对应的第一标签信息所指示第一样本图像中的每个像素点所属的第二区域,以及各第二区域与每级二分类处理对应两个部分之间的关系,确定第一样本图像在每级二分类处理下的分级样本标签。第一样本图像在每级二分类处理下的分级样本标签用于指示第一样本图像中的各像素点是否位于每级二分类处理所对应两个第二区域中其中一个第二区域。
例如,第一样本图像为眼部图像,第二区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,像素点a5位于虹膜所在的区域,像素点a6位于眼白所在的区域;一级二分类处理对应的两部分中的其中一部分j11包括瞳孔所在的区域、虹膜所在的区域以及眼白所在的区域,一级二分类处理对应的两部分中的另一部分j12包括眼部周边所在的区域;二级二分类处理对应的两部分中的其中一部分j21包括瞳孔所在的区域以及虹膜所在的区域,二级二分类处理对应的两部分中的另一部分j22包括眼白所在的区域以及眼部周边所在的区域;三级二分类处理对应的两部分中的其中一部分j31包括瞳孔所在的区域,三级二分类处理对应的两部分中的另一部分j32包括虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域;此时,确定像素点a5以像素点a6在一级二分类处理下的标签均为1,表示像素点a5以及像素点a6位于一级二分类处理所对应的一部分j11;确定像素点a5在二级二分类处理下的标签为1,指示像素点a5位于一级二分类处理所对应一部分j21,确定像素点a6在二级二分类处理下的标签为0,指示像素点a6位于二级二分类处理所对应的一部分j22。
作为一种实施方式,第一样本图像对应的第一标签信息可以包括第一样本图像中各像素点各自的子标签,第一样本图像中每个像素点的子标签用于指示该像点所属的第二区域,不同的第二区域位用不同的子标签指示,子标签可以是数值的形式。
例如,第一样本图像为眼部图像,第二区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,瞳孔所在的区域用子标签3指示,虹膜所在的区域用子标签2指示,眼白所在的区域用子标签1指示,眼部周边所在的区域用子标签0指示,一级二分类处理对应的两部分中的前景包括瞳孔所在的区域、虹膜所在的区域以及眼白所在的区域,二级二分类处理对应的前景包括瞳孔所在的区域以及虹膜所在的区域,三级二分类处理对应的前景包括瞳孔所在的区域。此时,可以按照公式一的方式确定第一样本图像中各像素点在每级二分类处理下的分级样本标签,公式一如下:
(一)
其中,为第一样本图像中像素坐标为(i,j)的像素点在二分类处理n下的分级样本标签,为第一样本图像对应的标签信息中,像素坐标为(i,j)的像素点的子标签;为二分类处理n对应的阈值,其中,一级二分类处理对应的为1,二级二分类处理对应的为2,三级二分类处理对应的为3。其中,在第一样本图像的尺寸为w×h时,i不超过w,j不超过h。第一样本图像中各像素点在每级二分类处理下的分级样本标签可以是与尺寸为w×h×1的矩阵的形式。
例如,第一样本图像为眼部图像,第二区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,多级二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理,第一样本图像在每级二分类处理下的分级样本标签的确定过程如图4所示。
首先获取包括虹膜的第一样本图像,通过标签预处理模块根据第一样本图像对应的第一标签信息、各第二区域与每级二分类处理对应的两部分之间的关系,确定第一样本图像在一级二分类处理下的分级样本标签、二级二分类处理下的分级样本标签以及三级二分类处理下的分级样本标签。
针对每级二分类处理,根据第一样本图像在该二分类处理下的二分类结果以及第一样本图像在该二分类处理下的分级样本标签,计算损失值(例如交叉熵损失值、均方误差损失值以及均绝对误差损失值等),作为第一样本图像在该级二分类处理对应的第一损失值,遍历全部的二分类处理,得到第一样本图像在每级二分类处理对应的第一损失值。
得到第一样本图像在每级二分类处理对应的第一损失值之后,可以根据第一样本图像在每级二分类处理对应的第一损失值,确定训练损失值,再通过训练损失值基于梯度下降的方式(如随机梯度下降以及带动量项的随机梯度下降等)对初始模型进行训练,直到满足训练结束条件,得到目标分割模型。其中,确定目标损失值的过程可以是对第一样本图像在多级二分类处理对应的第一损失值求和、求积以及求平均等。训练结束条件可以是当某次迭代后,训练损失值小于第一预设阈值,或迭代次数达到第一次数,第一预设阈值以及第一次数可以是基于需求设定的值,本申请不做限定。
作为一种实施方式,第一样本图像为多个,初始模型的训练过程包括多个迭代过程,每个迭代过程需要一个批次的第一样本图像,每个批次的第一样本图像也为多个;按照前述S110-S130的步骤确定每个第一样本图像在每级二分类处理下的二分类结果和每个第一样本图像在每级二分类处理下的分级样本标签,并按照公式二的方式,计算每个批次的第一样本图像在每级二分类处理对应的第一损失值,公式二如下:
(二)
其中,为每个批次的第一样本图像在二分类处理a对应的第一损失值,N为每个批次的第一样本图像的数量,为第一样本图像i在二分类处理a下的二分类结果,为第一样本图像i在二分类处理a下的分级样本标签。
针对每级二分类处理,均可以按照公式二的方式,确定第一样本图像在该二分类处理对应的第一损失值。
另外,由于不同二分类处理之间具有嵌套关系,因此也可以将第一样本图像在不同级二分类处理对应的第一损失值称为嵌套损失值。
作为一种实施方式,根据第一样本图像在每级二分类处理对应的第一损失值,确定训练损失值,可以包括:对第一样本图像在多级二分类处理对应的第一损失值进行加权求和,得到训练损失值。此时,确定训练损失值的过程可以通过公式三表征,公式三如下:
(三)
其中,为训练损失值,为第一样本图像在二分类处理m在的第一损失值,为二分类处理m对应的权重。
例如,二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理,目标分割模型的训练过程如图5所示。第一训练数据可以包括第一样本图像在每级二分类处理下的分级样本标签以及第一样本图像。首先,可以将第一样本图像输入初始特征提取网络,得到初始特征提取网络提取到的第一样本图像对应的第一样本特征。
将第一样本图像对应的第一样本特征输入一级二分类处理模块,由一级二分类处理模块中一级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在一级二分类处理下的二分类结果,然后由一级二分类处理模块继续根据第一样本图像在一级二分类处理下的二分类结果和第一样本图像中各像素点在一级二分类处理下的分级样本标签,确定第一样本图像在一级二分类处理对应的第一损失值。
将第一样本图像对应的第一样本特征输入二级二分类处理模块,由二级二分类处理模块中二级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在二级二分类处理下的二分类结果,然后由二级二分类处理模块继续根据第一样本图像在二级二分类处理下的二分类结果和第一样本图像中各像素点在一级二分类处理下的分级样本标签,确定第一样本图像在二级二分类处理对应的第一损失值。
将第一样本图像对应的第一样本特征输入三级二分类处理模块,由三级二分类处理模块中三级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在三级二分类处理下的二分类结果,然后由三级二分类处理模块继续根据第一样本图像在三级二分类处理下的二分类结果和第一样本图像中各像素点在三级二分类处理下的分级样本标签,确定第一样本图像在三级二分类处理对应的第一损失值。
再之后,对第一样本图像在三级二分类处理对应的第一损失值加权求和,得到损失值之和,通过损失值之和对初始模型进行训练。若确定满足训练结束条件,则得到目标分割模型,若确定不满足训练结束条件,继续使用训练数据进行迭代训练。
本实施例中,确定第一样本图像在每级二分类处理下的分级样本标签,进而通过第一样本图像在不同二分类处理下的二分类结果以及在每级二分类处理下的分级样本标签,确定第一样本图像在不同二分类处理下的第一损失值,之后,通过第一样本图像在不同二分类处理下的第一损失值对初始模型进行训练,训练过程联合了不同二分类处理的分类损失,利用了第二区域之间的嵌套关系作为先验信息,这样,参考了第二区域之间的嵌套关系作为约束,可以使得训练后的目标分割模型的分割效果较好,提高了目标分割模型的分割准确率。
另外,第一样本图像在不同二分类处理下的二分类结果包括第一样本图像中各像素点位于该级二分类处理所对应目标区域的概率,根据第一样本图像在不同二分类处理下的二分类结果以及在每级二分类处理下的分级样本标签,确定第一样本图像在不同二分类处理下的第一损失值,使得通过第一样本图像在不同二分类处理下的第一损失值训练目标分割模型时,实现了对第一样本图像中各像素点进行了多分类约束,同时,由于不同级二分类处理对应的背景类像素点(也即本实施例中眼部图像中非目标区域中的像素点)的占比不同,从而有效避免了根据单一二分类处理下的损失值训练目标分割模型时,导致的分割训练发生偏移以及背景类像素点过拟合,导致目标分割模型的识别效果较差的情况发生。
请参阅图6,图6示出了本申请实施例中又一种目标分割模型的训练方法的流程图,该方法可以应用于电子设备,电子设备可以是图1中的终端20或服务端10,该方法包括:
S210、通过初始模型,确定第一样本图像在每级二分类处理对应的第一损失值。
其中,S210的描述参照上文S110-S130的描述,此处不再赘述。
S220、通过初始模型对第一样本图像进行分类处理,得第一样本图像对应的多分类结果。
其中,第一样本图像对应的多分类结果包括第一样本图像中各像素点属于N个第二区域中每个第二区域的概率。例如,在第一样本图像为眼部图像,第二区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,第一样本眼部图的尺寸为w×h,第一样本眼部图对应的多分类结果包括第一样本图像中w×h像素点分别属于四个第二区域中每个第二区域的概率,也即,第一样本图像对应的多分类结果为w×h×4的矩阵。在S220中,相当于将第一样本图像中的像素点按第二区域进行多分类,确定各像素点对应于多个第二区域中每个第二区域的概率。
初始模型可以包括初始特征提取网络(初始特征提取网络的结构参照上文描述)以及初始多分类层,初始多分类层可以设置3-4个网络层,用于实现卷积计算以及非线性激活函数计算等操作。可以将第一样本图像输入初始特征提取网络进行特征提取,得到第一样本图像对应的第二样本特征;通过初始多分类层对第一样本图像对应的第二样本特征分类处理,得到第一样本图像对应的多分类结果。
可选地,S220之前,方法还可以包括:对第一样本图像进行第二预处理,得到第四预处理图像;第二预处理包括伽马矫正变换以及直方图均衡化中的至少一项;相应的,S220可以包括:通过初始模型对第四预处理图像进行分类处理,得第一样本图像对应的多分类结果。
本实施例中,在初始模型包括初始特征提取网络以及初始多分类层时,S220还可以包括:通过初始特征提取网络对第三预处理图像进行特征提取,得到第一样本图像对应的第二样本特征,再将第一样本图像对应的第二样本特征输入初始多分类层进行分类处理,得到第一样本图像对应的多分类结果。
S230、根据第一样本图像对应的多分类结果和第一标签信息,确定第一样本图像对应的第二损失值。
可以根据第一样本图像对应的多分类结果和第一样本图像对应的第一标签信息,计算损失值(例如交叉熵损失值、均方误差损失值以及均绝对误差损失值等),作为第一样本图像对应的第二损失值。
本实施例中,第一样本图像可以为多个,初始模型的训练过程包括多个迭代过程,每个迭代过程通过一个批次的多个第一样本图像对初始模型进行训练;此时,可以按照前述S210-S220的步骤确定每个第一样本图像多分类结果和每个第一样本图像的第一标签信息,并按照公式四的方式,计算每个批次的第一样本图像对应的第二损失值,公式四如下:
(四)
其中,为每个批次的第一样本图像对应的第二损失值,N为每个批次的第一样本图像的数量,k为第二区域的数量,为第一样本图像对应的第一标签信息中像素点(i,j)的子标签,为第一样本图像中像素点(i,j)的多分类结果。
S240、根据第一样本图像在每级二分类处理下的第一损失值和第一样本图像对应的第二损失值,对初始模型进行训练,得到目标分割模型。
可以是根据第一样本图像在每级二分类处理对应的第一损失值和第一样本图像对应的第二损失值,确定目标损失值;根据目标损失值,对初始模型进行训练,得到目标分割模型。
可以对第一样本图像在多级二分类处理对应的第一损失值进行加权求和,得到求和结果,其中,对第一样本图像在多级二分类处理对应的第一损失值进行加权求和的过程可参照上述公式三,不再赘述。
之后,可以将求得的求和结果与第一样本图像对应的第二损失值求和,得到目标损失值,再通过目标损失值对初始模型进行训练,直到满足训练结束条件,得到目标分割模型。其中,此处的训练结束条件可以包括:某次迭代后目标损失值小于第二预设阈值,或迭代次数达到第二次数,第二预设阈值以及第二次数可以是基于需求设定的值,本申请不做限定。
本实施例中,目标损失值联合了第一样本图像在每级二分类处理对应的第一损失值和第一样本图像对应的第二损失值,因此,目标损失值也叫联合损失值。
例如,二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理时,本实施例的目标分割模型的训练过程如图7所示。其中,第二训练数据可以包括第一样本图像在每级二分类处理下的分级样本标签、第一样本图像以及第一样本图像的标签信息。首先通过将第一样本图像输入初始特征提取网络,得到初始特征提取网络提取到的第一样本图像对应的第一样本特征。
将第一样本图像对应的第一样本特征输入一级二分类处理模块,由一级二分类处理模块中一级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在一级二分类处理下的二分类结果,然后由一级二分类处理模块继续根据第一样本图像在一级二分类处理下的二分类结果和第一样本图像中各像素点在一级二分类处理下的分级样本标签,确定第一样本图像在一级二分类处理对应的第一损失值。
将第一样本图像对应的第一样本特征输入二级二分类处理模块,由二级二分类处理模块中二级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在二级二分类处理下的二分类结果,然后由二级二分类处理模块继续根据第一样本图像在二级二分类处理下的二分类结果和第一样本图像中各像素点在一级二分类处理下的分级样本标签,确定第一样本图像在二级二分类处理对应的第一损失值。
将第一样本图像对应的第一样本特征输入三级二分类处理模块,由三级二分类处理模块中三级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在三级二分类处理下的二分类结果,然后由三级二分类处理模块继续根据第一样本图像在三级二分类处理下的二分类结果和第一样本图像中各像素点在三级二分类处理下的分级样本标签,确定第一样本图像在三级二分类处理对应的第一损失值。
将第一样本图像对应的第一样本特征输入多分类模块,由多分类模块中的初始多分类层对第一样本图像对应的第一样本特征进行处理,得到第一样本图像对应的多分类结果,并由多分类模块根据第一样本图像对应的多分类结果和第一样本图像对应的标签信息,确定第一样本图像对应的第二损失值。
再之后,对第一样本图像在三级二分类处理对应的第一损失值加权求和,并将求和结果与第一样本图像对应的第二损失值求和,得到目标损失值,通过目标损失值之和对初始模型进行训练。若确定满足训练结束条件,则得到虹膜分割模,若确定不满足训练结束条件,继续使用训练数据进行迭代训练。
本实施例中,联合了第一样本图像在每级二分类处理对应的第一损失值和第一样本图像对应的第二损失值对初始模型进行训练,初始模型的训练过程联合了不同二分类处理的分类损失,同时,初始模型的训练过程还引入了对不同第二区域的多分类损失,使得训练后的目标分割模型的分割效果较好,进一步提高了目标分割模型的分割准确率。
请参阅图8,图8示出了本申请实施例中再一种目标分割模型的训练方法的流程图,该方法可以应用于电子设备,电子设备可以是图1中的终端20或服务端10,该方法包括:
S310、通过初始模型,确定第一样本图像在每级二分类处理对应的第一损失值。
其中,S310的描述参照上文S110-S130的描述,此处不再赘述。
S320、根据第一样本图像在每级二分类处理下的第一损失值,对初始模型进行参数调整,得到中间模型。
得到第一样本图像在每级二分类处理对应的第一损失值之后,可以直接通过第一样本图像在每级二分类处理对应的第一损失值对初始模型进行参数调整,以得到中间模型。
在一些实施例中,S320可以包括:对第一样本图像在多级二分类处理对应的第一损失值进行加权求和,得到第一和损失值;根据第一和损失值对初始模型进行参数调整,得到中间模型。在初始模型的训练过程包括多的迭代过程时,针对每个迭代过程,确定第一和损失值,通过每个迭代过程的第一和损失值对初始模型进行训练,直到满足训练结束条件,得到中间模型,其中,此处的训练结束条件可以包括:某次迭代后目标损失值小于第三预设阈值,或迭代次数达到第三次数,第三预设阈值以及第三次数可以是基于需求设定的值,本申请不做限定。
S330、获取第二样本图像和第二样本图像对应的第二标签信息。
其中,第二样本图像包括N个第三区域,N个第三区域中相邻两个第三区域存在嵌套关系,第二标签信息用于指示第二样本图像中各像素点所属的第三区域。第二样本图像与第一样本图像均针对同一场景的图像,第二样本图像与第一样本图像可以相同,也可以不同;第一样本图像中的N个第二区域与第二样本图像中的N个第三区域相互对应。
例如,针对零件分割场景,第一样本图像以及第二样本图像均为滚动轴承对应的图像,但是第一样本图像以及第二样本图像中滚动轴承的样式不同。第一样本图像包括轴承内圈内的区域、轴承内圈、滚动体、轴承外圈以及轴承外圈外的区域,相应的,第二样本图像也包括轴承内圈内的区域、轴承内圈、滚动体、轴承外圈以及轴承外圈外的区域;第一样本图像与第二样本图像各自对应的轴承内圈内的区域可以不同,第一样本图像与第二样本图像各自对应的轴承内圈也可以不同。
又如,针对虹膜分割场景,第一样本图像以及第二样本图像均为眼部图像,但是第一样本图像以及第二样本图像中眼部不同。第一样本图像包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,相应的,第二样本图像也包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域;第一样本图像与第二样本图像各自对应的虹膜所在的区域可以不同,第一样本图像与第二样本图像各自对应的瞳孔所在的区域也可以不同。
第二样本图像对应的标签信息为第二标签信息,第二样本图像包括多个时,第二标签信息包括每个第二样本图像对应的标签信息。第二标签信息可以包括第二样本图像中各像素点各自的子标签,第二样本图像中每个像素点的子标签用于指示该像点所属的第三区域,第二样本图像中各像素点各自的子标签可以是数组的形式。
作为又一种实施方式,第二样本图像对应的第二标签信息可以包括不同第三区域各自对应的区域标签,每个第三区域对应的区域标签包括第二样本图像中属于该第三区域的像素点的像素坐标(像素点的像素坐标是指像素点在第二样本图像中的像素坐标)。
S340、通过中间模型对第二样本图像进行多级二分类处理,以得到第二样本图像的多级二分类结果。
其中,在对第二样本图像的多级二分类处理中,每级二分类处理用于将第二样本图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第三区域中一个第三区域或多个连续第三区域;第二样本图像的每级二分类结果包括第二样本图像中各像素点属于两部分中的一个部分的概率。另外,第二样本图像的每级二分类结果包括第二样本图像中各像素点属于两部分中的每个部分的概率。
中间模型为对初始模型训练后所得到的模型。可以将第二样本图像输入中间模型,直接得到中间模型输出的第二样本图像在每级二分类处理下的二分类结果。例如,二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理,中间模型输出第二样本图像在一级二分类处理下的二分类结果、在二级二分类处理下的二分类结果以及在三级二分类处理下的二分类结果。
在初始模型包括初始特征提取网络以及多级二分类处理各自对应的初始分类层时,训练得到的中间模型包括初始特征提取网络对应的中间特征提取网络以及各初始分类层各自对应的中间分类层。可以通过中间特征提取网络对第二样本图像进行特征提取,得到第二样本图像对应的第一样本特征;将第二样本图像对应的第一样本特征输入每级二分类处理各自对应的中间分类层进行分类处理,得到第二样本图像在每级二分类处理下的二分类结果。
第二样本图像在每级二分类处理下对应的二分类结果包括第二样本图像中各像素点位于该级二分类处理所对应的两个部分中的一个部分的概率;第二样本图像在每级二分类处理下的二分类结果还可以包括第二样本图像中各个像素点位于该二分类处理对应的两个部分中每个部分的概率。例如,第二样本图像的尺寸为w×h时,得到第二样本图像在一级二分类处理下的概率为w×h×2的矩阵,第二样本图像在一级二分类处理下的概率包括w×h个像素点位于一级二分类处理对应的两个部分中的一个部分的概率以及w×h个像素点位于一级二分类处理对应的两个部分中的另一个部分的概率。
可选地,S340之前,方法可以包括:对第二样本图像进行第一预处理,得到第一预处理图像;相应的,S340可以包括:通过中间模型对第一预处理图像进行分类处理,得到第二样本图像在每级二分类处理下的二分类结果。
在中间模型包括中间特征提取网络以及多级二分类处理各自对应的中间分类层时,S340还可以包括:通过中间特征提取网络对第一预处理图像进行特征提取,得到第二样本图像对应的第一样本特征,再将第二样本图像对应的第一样本特征输入每级二分类处理各自对应的中间分类层进行分类处理,得到第二样本图像在每级二分类处理下的二分类结果。
通过对第二样本图像进行第一预处理,得到第一预处理图像,相较于第二样本图像,第一预处理图像发生改变,使得根据第一预处理图像得到第二样本图像对应的第一样本特征中添加了一定的干扰信息,从而使得根据第二样本图像对应的第一样本特征训练得到的目标分割模型的识别能力较好,具有较高的抗干扰能力。
S350、根据第二样本图像的多级二分类结果以及第二样本图像的多级二分类结果的分级样本标签,确定第二样本图像在每级二分类处理下的第一损失值。
其中,第二样本图像的多级二分类结果的分级样本标签是对第二样本图像的多级二分类处理对应的两部分与N个第三区域间的关系,以及第二标签信息确定的。
可以根据第二样本图像对应的第二标签信息,确定第二样本图像中的每个像素点所属的第三区域,再根据各第三区域与每级二分类处理对应两个部分之间的关系,确定第二样本图像中各像素点在每级二分类处理下的分级样本标签。
例如,第二样本图像为眼部图像,第三区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,像素点a7位于虹膜所在的区域,像素点a8位于眼白所在的区域,一级二分类处理对应的两部分中的其中一部分j11包括瞳孔所在的区域、虹膜所在的区域以及眼白所在的区域,一级二分类处理对应的两部分中的另一部分j12包括眼部周边所在的区域;二级二分类处理对应的两部分中的其中一部分j21包括瞳孔所在的区域以及虹膜所在的区域,二级二分类处理对应的两部分中的另一部分j22包括眼白所在的区域以及眼部周边所在的区域;三级二分类处理对应的两部分中的其中一部分j31包括瞳孔所在的区域,三级二分类处理对应的两部分中的另一部分j32包括虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域;此时,确定像素点a7以像素点a8在一级二分类处理下的标签均为1,指示像素点a7以及像素点a8位于一级二分类处理所对应一部分j11;确定像素点a7在二级二分类处理下的标签为1,指示像素点a7位于二级二分类处理所对应一部分j21,确定像素点a8在二级二分类处理下的标签为0,指示像素点a8位于二级二分类处理所对应的一部分j22。
如前述,第二样本图像对应的标签信息可以包括第二样本图像中各像素点各自的子标签,第二样本图像中每个像素点的子标签用于指示该像点所属的第三区域。
例如,第二样本图像为眼部图像,第三区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,瞳孔所在的区域用子标签3指示,虹膜所在的区域用子标签2指示,眼白所在的区域用子标签1指示,眼部周边所在的区域用子标签0指示,一级二分类处理对应的前景包括瞳孔所在的区域、虹膜所在的区域以及眼白所在的区域,二级二分类处理对应的前景包括瞳孔所在的区域以及虹膜所在的区域,三级二分类处理对应的前景包括瞳孔所在的区域。此时,可以按照公式一的方式确定第二样本图像中各像素点在每级二分类处理下的分级样本标签;例如,在第二样本图像的尺寸为w×h时,第二样本图像中各像素点在每级二分类处理下的分级样本标签可以是与尺寸为w×h×1的矩阵的形式。
针对每级二分类处理,根据第二样本图像在该二分类处理下的二分类结果以及第二样本图像中各像素点在该二分类处理下的分级样本标签,计算损失值(例如交叉熵损失值、均方误差损失值以及均绝对误差损失值等),作为第二样本图像在该级二分类处理对应的第一损失值,遍历全部的二分类处理,得到第二样本图像在每级二分类处理对应的第一损失值。
作为一种实施方式,第二样本图像为多个,初始模型的训练过程包括多个迭代过程,每个迭代过程需要一个批次的第二样本图像,每个批次的第二样本图像也为多个;按照前述S310-S350的步骤确定每个第二样本图像在每级二分类处理下的二分类结果和每个第二样本图像在每级二分类处理下的分级样本标签,计算每个批次的第二样本图像在每级二分类处理对应的第一损失值,其中,计算每个批次的第二样本图像在每级二分类处理对应的第一损失值的过程可以参照公式二,不再赘述。
S360、通过中间模型对第二样本图像进行分类处理,得第二样本图像对应的多分类结果。
其中,第二样本图像对应的多分类结果包括第二样本图像中各像素点属于N个第三区域中每个第三区域的概率。
初始模型可以包括初始特征提取网络以及每级二分类处理各自对应的初始分类层,相应的,训练后的初始模型可以包括初始特征提取网络对应的中间特征提取网络以及各个初始分类层各自对应的中间分类层,然后可以在训练后的初始模型中添加中间多分类层,得到中间模型,中间多分类层可以设置3-4个网络层,用于实现卷积计算以及非线性激活函数计算等操作。此时,S360可以包括:将第二样本图像输入中间特征提取网络进行特征提取,得到第二样本图像对应的第二样本特征;通过中间多分类层对第二样本图像对应的第二样本特征分类处理,得到第二样本图像对应的多分类结果。
可选地,S360之前,方法还可以包括:对第二样本图像进行第二预处理,得到第二预处理图像;相应的,S360可以包括:通过中间模型对第二预处理图像进行分类处理,得第二样本图像对应的多分类结果。
在中间模型包括中间特征提取网络以及中间多分类层时,S360还可以包括:将第二预处理图像输入中间特征提取网络进行特征提取,得到第二样本图像对应的第二样本特征,再通过中间多分类层对第二样本图像对应的第二样本特征分类处理,得到第二样本图像对应的多分类结果。
S370、根据第二样本图像对应的多分类结果和第二标签信息,确定第二样本图像对应的第二损失值。
可以根据第二样本图像对应的多分类结果和第二样本图像对应的标签信息,计算损失值(例如交叉熵损失值、均方误差损失值以及均绝对误差损失值等),作为第二样本图像对应的第二损失值。
作为一种实施方式,第二样本图像为多个,初始模型的训练过程包括多个迭代过程,每个迭代过程需要一个批次的第二样本图像,每个批次的第二样本图像也为多个;按照前述S310-S360的步骤确定每个第二样本图像多分类结果和每个第二样本图像的标签信息,并按照公式四的方式,计算每个批次的第二样本图像对应的第二损失值。
S380、根据第二样本图像在每级二分类处理下的第一损失值和第二样本图像对应的第二损失值,对中间进行训练,得到目标分割模型。
得到第二样本图像在每级二分类处理对应的第一损失值以及第二样本图像对应的第二损失值之后,联合第二样本图像在每级二分类处理对应的第一损失值以及第二样本图像对应的第二损失值,对中间模型进行参数调整,得到目标分割模型。
作为一种实施方式,S380可以包括:对第二样本图像在多级二分类处理下的第一损失值进行加权求和,得到第二和损失值;计算第二和损失值以及第二样本图像对应的第二损失值之和,作为第三和损失值;根据第三和损失值,对中间模型进行参数调整,得到目标分割模型。
其中,训练过程包括多个迭代过程,每个迭代过程需要一个批次的第二样本图像,针对每个批次的第二样本图像,确定第三和损失值,然后通过该批次的第三和损失值对中间模型进行参数调整,直到满足训练结束条件,得到目标分割模型。此处的训练结束条件可以包括:某次迭代后目标损失值小于第四预设阈值,或迭代次数达到第四次数,第四预设阈值以及第四次数可以是基于需求设定的值,本申请不做限定。
本实施例中,第三和损失值联合了第二样本图像在每级二分类处理对应的第一损失值和第二样本图像对应的第二损失值,因此,第三和损失值也叫联合损失值。
例如,二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理时,本实施例的目标分割模型的训练过程如图9-图10所示。其中,第三训练数据包括第一样本图像在每级二分类处理下的分级样本标签以及第一样本图像;第四训练数据可以包括第二样本图像在每级二分类处理下的分级样本标签、第二样本图像以及第二样本图像的标签信息。
如9图所示,首先,将第一样本图像输入初始特征提取网络,得到初始特征提取网络提取到的第一样本图像对应的第一样本特征。
将第一样本图像对应的第一样本特征输入一级二分类处理模块,由一级二分类处理模块中一级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在一级二分类处理下的二分类结果,然后由一级二分类处理模块继续根据第一样本图像在一级二分类处理下的二分类结果和第一样本图像中各像素点在一级二分类处理下的分级样本标签,确定第一样本图像在一级二分类处理对应的第一损失值。
将第一样本图像对应的第一样本特征输入二级二分类处理模块,由二级二分类处理模块中二级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在二级二分类处理下的二分类结果,然后由二级二分类处理模块继续根据第一样本图像在二级二分类处理下的二分类结果和第一样本图像中各像素点在一级二分类处理下的分级样本标签,确定第一样本图像在二级二分类处理对应的第一损失值。
将第一样本图像对应的第一样本特征输入三级二分类处理模块,由三级二分类处理模块中三级二分类处理对应的初始分类层进行分类处理,得到第一样本图像中各像素点在三级二分类处理下的二分类结果,然后由三级二分类处理模块继续根据第一样本图像在三级二分类处理下的二分类结果和第一样本图像中各像素点在三级二分类处理下的分级样本标签,确定第一样本图像在三级二分类处理对应的第一损失值。
将第一样本图像对应的第一样本特征输入多分类模块,由多分类模块中的初始多分类层对第一样本图像对应的第一样本特征进行处理,得到第一样本图像对应的多分类结果,并由多分类模块根据第一样本图像对应的多分类结果和第一样本图像对应的标签信息,确定第一样本图像对应的第二损失值。
再之后,对第一样本图像在三级二分类处理对应的第一损失值加权求和,得到第一和损失值,通过第一和损失值对初始模型进行训练。若确定满足训练结束条件,则得到训练后的初始模型,并在训练后的初始模型中添加中间多分类层得到中间模型,若确定不满足训练结束条件,继续使用训练数据进行迭代训练。
得到中间模型后,以中间模型为基础,训练目标分割模型,如图10所示。首先,将第二样本图像输入中间特征提取网络,得到中间特征提取网络提取到的第二样本图像对应的第一样本特征。
将第二样本图像对应的第一样本特征输入一级二分类处理模块,由一级二分类处理模块中一级二分类处理对应的中间分类层进行分类处理,得到第二样本图像中各像素点在一级二分类处理下的二分类结果,然后由一级二分类处理模块继续根据第二样本图像在一级二分类处理下的二分类结果和第二样本图像中各像素点在一级二分类处理下的分级样本标签,确定第二样本图像在一级二分类处理对应的第一损失值。
将第二样本图像对应的第一样本特征输入二级二分类处理模块,由二级二分类处理模块中二级二分类处理对应的中间分类层进行分类处理,得到第二样本图像中各像素点在二级二分类处理下的二分类结果,然后由二级二分类处理模块继续根据第二样本图像在二级二分类处理下的二分类结果和第二样本图像中各像素点在一级二分类处理下的分级样本标签,确定第二样本图像在二级二分类处理对应的第一损失值。
将第二样本图像对应的第一样本特征输入三级二分类处理模块,由三级二分类处理模块中三级二分类处理对应的中间分类层进行分类处理,得到第二样本图像中各像素点在三级二分类处理下的二分类结果,然后由三级二分类处理模块继续根据第二样本图像在三级二分类处理下的二分类结果和第二样本图像中各像素点在三级二分类处理下的分级样本标签,确定第二样本图像在三级二分类处理对应的第一损失值。
将第二样本图像对应的第一样本特征输入多分类模块,由多分类模块中的初始多分类层对第二样本图像对应的第一样本特征进行处理,得到第二样本图像对应的多分类结果,并由多分类模块根据第二样本图像对应的多分类结果和第二样本图像对应的标签信息,确定第二样本图像对应的第二损失值。
再之后,对第二样本图像在三级二分类处理对应的第一损失值加权求和,得到第二和损失值,将第二和损失值与第二样本图像对应的第二损失值之和,作为第三和损失值;根据第三和损失值,对中间模型进行训练。若确定满足训练结束条件,则得到目标分割模型,若确定不满足训练结束条件,继续使用训练数据进行迭代训练。
本实施例中,通过第一样本图像在每级二分类处理对应的第一损失值训练得到中间模型,初始模型的训练过程联合了不同二分类处理的分类损失,使得训练后的中间模型具有了较好的识别能力,然后联合第二样本图像在每级二分类处理对应的第一损失值以及第二样本图像对应的第二损失值对中间模型继续进行训练,中间模型的训练过程联合了不同二分类处理的分类损失,同时,中间模型的训练过程还引入了对不同第三区域的多分类损失,使得训练后的目标分割模型的识别能力大大提升,从而提高了目标分割模型的分割准确率。
请参阅图11,图11示出了本申请一个实施例提出的一种图像分割方法的流程图,该方法可以应用于电子设备,电子设备可以是图1中的终端20或服务端10,该方法包括:
S410、获取待处理图像。
其中,待处理图像中包含N个第一区域,N个第一区域中相邻两个第一区域存在嵌套关系;N为大于1的自然数。
待处理图像与第一样本图像均针对同一场景的图像,第一样本图像中的N个第二区域与待处理图像的N个第一区域相互对应。
例如,针对零件分割场景,第一样本图像以及待处理图像均为滚动轴承对应的图像,但是第一样本图像以及待处理图像中滚动轴承的样式不同。第一样本图像包括轴承内圈内的区域、轴承内圈、滚动体、轴承外圈以及轴承外圈外的区域,相应的,待处理图像也包括轴承内圈内的区域、轴承内圈、滚动体、轴承外圈以及轴承外圈外的区域;第一样本图像与待处理图像各自对应的轴承内圈内的区域可以不同,第一样本图像与待处理图像各自对应的轴承内圈也可以不同。
又如,针对虹膜分割场景,第一样本图像以及待处理图像为眼部图像,但是第一样本图像以及待处理图像中眼部不同。第一样本图像包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,相应的,待处理图像也包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域;第一样本图像与待处理图像各自对应的虹膜所在的区域可以不同,第一样本图像与待处理图像各自对应的瞳孔所在的区域也可以不同。
S420、通过目标分割模型对待处理图像进行多级二分类处理,以得到待处理图像的多级二分类结果。
其中,在对待处理图像的多级二分类处理中,每级二分类处理用于将待处理图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第一区域中一个第一区域或多个连续第一区域;待处理图像的每级二分类结果包括待处理图像中各像素点属于两部分中的一个部分的概率。
目标分割模型是对初始模型训练后得到。目标分割模型的训练过程如前述实施例的描述,此处不再赘述。目标分割模型输出的是待处理图像在多级二分类处理中每级二分类处理下的二分类结果,因此,目标分割模型又叫做目标分割网络。
作为一种实施方式,初始模型可以包括初始特征提取网络以及多级二分类处理中每级二分类处理对应的初始分类层,通过第一样本图像在每级二分类处理对应的第一损失值对初始模型进行训练,得到训练后的初始特征提取网络作为目标分割模型中的特征提取网络,得到训练后的每级二分类处理对应的初始分类层,作为目标分割模型中每级二分类处理对应的分类层。
作为一种实施方式,初始模型可以包括初始特征提取网络、初始多分类层以及多级二分类处理中每级二分类处理对应的初始分类层,通过第一样本图像在每级二分类处理对应的第一损失值以及第一样本图像对应的第二损失值对初始模型进行训练,得到训练后的初始特征提取网络作为目标分割模型中的特征提取网络,得到训练后的每级二分类处理对应的初始分类层,作为目标分割模型中每级二分类处理对应的分类层,此时,训练后的初始多分类层可以舍弃,换言之,初始多分类层的目的用于在训练过程中引入第一样本图像对应的第二损失值,其并不用于构成训练后的目标分割模型。
作为再一种实施方式,初始模型可以包括初始特征提取网络以及多级二分类处理中每级二分类处理对应的初始分类层,通过第一样本图像在每级二分类处理对应的第一损失值以及第一样本图像对应的第二损失值对初始模型进行训练,得到中间模型,中间模型包括预置的中间多分类层、各个初始分类层各自对应的中间分类层以及初始特征提取网络对应的中间特征提取网络,通过第二样本图像在每级二分类处理对应的第一损失值以及第二样本图像对应的第二损失值,对中间模型训练,得到训练后的中间特征提取网络作为目标分割模型中的特征提取网络,得到训练后的每级二分类处理对应的中间分类层,作为目标分割模型中每级二分类处理对应的分类层,此时,训练后的中间多分类层可以舍弃,换言之,中间多分类层的目的用于在训练过程中引入第二样本图像对应的第二损失值,其并不用于构成训练后的目标分割模型。
可以将待处理图像输入目标分割模型中的特征提取网络,得到特征提取网络输出的待处理图像对应的目标特征,然后将待处理图像对应的目标特征分别输入每级二分类处理对应的分类层,得到待处理图像在多级二分类处理中每级二分类处理下的二分类结果,待处理图像在每级二分类处理下的二分类结果包括待处理眼眼部图像中各像素点属于两部分中的一个部分的概率;其中,待处理图像在每级二分类处理下的二分类结果也可以包括待处理眼眼部图像中各像素点属于两部分中每个部分的概率。
S430、根据待处理图像的多级二分类结果以及嵌套关系,确定N个第一区域中至少一个第一区域的分割结果。
可以综合待处理图像在多级二分类处理下的二分类结果以及嵌套关系,对待处理图像在多级二分类处理下的分类结果进行处理,得到N个第一区域中至少一个第一区域的分割结果。N个第一区域中至少一个第一区域的分割结果可以包括待处理图像中每个第一区域在待处理图像中所在的位置。
例如,待处理图像为眼部图像,述N个第一区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域。N个第一区域中至少一个第一区域的分割结果可以包括虹膜所在的区域在待处理图像中所在的位置、眼白所在的区域在待处理图像中所在的位置、瞳孔所在的区域在待处理图像中所在的位置以及眼部周边所在的区域在待处理图像中所在的位置中的至少一项。
作为一种实施方式,S430可以包括:针对待处理眼眼部图像中每个像素点,根据该像素点分别位于多级二分类处理所对应的前景的概率进行求和(也可以是加权求和),得到该像素点各自的目标概率,根据各像素点各自的目标概率,确定处理图像的分割结果。
例如,针对不同的第一区域设置不同的概率阈值区间,若某个像素点的目标概率在某个第一区域的概率阈值区间内,该像素点属于该第一区域,如此遍历待处理图像的全部像素点,得到各个像素点各自所属的第一区域,进而得到N个第一区域中至少一个第一区域的分割结果。
作为又一种实施方式,S430还可以包括:根据待处理图像中的每个像素点位于每级二分类处理所对应的两部分中的一个部分的概率,确定待处理图像中每个像素点在每级二分类处理下的参考分类结果;根据待处理图像中每个像素点在每级二分类处理下的参考分类结果进行求和,得到待处理图像中每个像素点的目标分类结果;根据嵌套关系,确定每个第一区域各自的目标值;根据待处理图像中每个像素点的目标分类结果以及每个第一区域各自的目标值,确定N个第一区域中至少一个第一区域的分割结果。
针对待处理图像中的每个像素点,若像素点位于二分类处理所对应的前景的概率达到概率阈值,确定像素点在该二分类处理下的参考分类结果为1,若像素点位于二分类处理所对应的前景的概率未达到概率阈值,确定像素点在该二分类处理下的参考分类结果为0 。遍历全部的二分类处理,得到待处理图像中每个像素点在每个二分类处理下的参考分类结果。
然后对待处理图像中每个像素点在多级二分类处理下的参考分类结果进行求和,得到待处理图像中每个像素点的目标分类结果,此时,待处理图像中每个像素点的目标分类结果的计算过程参照公式五,公式五如下:
(五)
其中,为待处理图像中像素坐标为(i,j)的像素点的目标分类结果,为待处理图像中像素坐标为(i,j)的像素点在二分类处理m下的参考分类结果,s为二分类处理的数量。
理论上来说,针对位于不同的第一区域内的像素点,其在每级二分类处理下的参考分类结果可能是不同的,使得其在多级二分类处理下对应的目标分类结果是不同的。因此,可以根据不同第一区域之间的嵌套关系以及不同级二分类处理的具体数量,确定不同第一区域对应的目标值,并可以通过公式五的方式计算每个像素点的目标分类结果,通过目标分类结果以及不同第一区域对应的目标值,确定每个像素点所属的第一区域,进而得到N个第一区域中至少一个第一区域的分割结果。
例如,待处理图像为眼部图像,N个第一区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理。一级二分类处理对应的前景包括瞳孔所在的区域、虹膜所在的区域以及眼白所在的区域;二级二分类处理对应的前景包括瞳孔所在的区域以及虹膜所在的区域;三级二分类处理对应的前景包括瞳孔所在的区域;此时,针对位于瞳孔所在区域内的像素点h1,在一级二分类处理、二级二分类处理以及三级二分类处理下的参考分类结果均为1,确定该像素点h1的目标分类结果为3;又如,针对位于虹膜所在区域的像素点h2,在一级二分类处理以及二级二分类处理的参考分类结果均为1,在三级二分类处理对应的参考分类结果为0,确定该像素点h2的目标分类结果为2; 此时,可以确定虹膜所在的区域对应的目标值为2,瞳孔所在的区域对应的目标值为3,即筛选目标分类结果为2的像素点作为属于虹膜所在区域的像素点,筛选目标分类结果为3的像素点作为属于瞳孔所在区域的像素点。
第一区域对应的目标值可以是基于各第一区域与二分类处理对应的每个部分中之间的关系确定的。例如,待处理图像为眼部图像,N个第一区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域,二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理,一级二分类处理下待处理图像中瞳孔所在的区域、虹膜所在的区域以及眼白所在的区域作为前景;二级二分类处理下待处理图像中瞳孔所在的区域以及虹膜所在的区域作为前景;三级二分类处理下待处理图像中瞳孔所在的区域作为前景,此时,一级二分类处理以及二级二分类处理的前景均包括虹膜,因此,确定虹膜所在的区域对应的目标值为2。
根据不同第一区域的目标值,从待处理图像中筛选属于每个第一区域的像素点之后,汇总属于同一第一区域的像素点,得到每个第一区域的分割结果。
例如,在二分类处理包括一级二分类处理、二级二分类处理以及三级二分类处理时,待处理图像的处理过程如图12所示,将待处理图像输入目标分割模型的特征提取网络,得到目标特征,将目标特征输入目标分割模型的一级二分类处理模块进行处理,得到待处理图像在一级二分类处理下的分类结果,将目标特征输入目标分割模型的二级二分类处理模块进行处理,得到待处理图像在二级二分类处理下的分类结果,将目标特征输入目标分割模型的三级二分类处理模块进行处理,得到待处理图像在三级二分类处理下的分类结果。
之后,对待处理图像在三个二分类处理下的分类结果进行多分类结果融合,得到待处理图像中每个像素点的目标分类结果,然后根据待处理图像中每个像素点的目标分类结果以及每个第一区域对应的目标值,确定属于每个第一区域的像素点,汇总属于同一第一区域的像素点,得到每个第一区域的分割结果,此时,待处理图像对应的分割结果包括至少一个第一区域的分割结果。
本实施例中图像分割的总体技术方案如图13所示,图像分割的总体技术方案分为训练阶段和推理阶段,其中,训练阶段可以通过数据预处理模块、嵌套损失预训练分割网络模块以及联合损失精细化调整分割网络模块训练得到目标分割模型,推理阶段则是通过目标分割模型对待处理图像中提取虹膜像素区域。
其中,数据预处理模块用于确定样本图像(包括第一样本图像以及第二样本图像)的标签信息、确定样本图像在不同级别的二分类处理下的分级样本标签以及对输入模型前的样本图像的预处理(包括第一预处理以及第二预处理)等。
其中,数据预处理模块的数据处理过程可以是在线处理,也即,电子设备实时获取样本图像,并确定样本图像的标签信息、确定样本图像在不同级别的二分类处理下的分级样本标签以及对输入模型前的样本图像的预处理,并在训练得到目标分割模型时,删除数据,以节省存储空间。
嵌套损失预训练分割网络模块用于根据获得的第一样本图像在不同级别的二分类处理下的分级样本标签以及第一样本图像,确定第一样本图像在每级二分类处理对应的第一损失值,并根据第一样本图像在每级二分类处理对应的第一损失值,对初始模型进行训练,得到中间模型。
联合损失精细化调整分割网络模块用于第二样本图像在不同级别的二分类处理下的分级样本标签以及第二样本图像,确定第二样本图像在每级二分类处理对应的第一损失值,并根据第二样本图像以及第二样本图像对应的标签信息,确定第二样本图像对应的第二损失值,然后联合第二样本图像在每级二分类处理对应的第一损失值以及第二样本图像对应的第二损失值,对中间模型进行参数调整,得到目标分割模型。
针对推理阶段,直接通过目标分割模型对待处理图像进行分割,得到至少一个第一区域的分割结果,分割过程参照前述S410-S430的描述,不再赘述。
本实施例中,设定多级二分类处理,通过目标分割模型对待处理图像进行处理,得到待处理图像在每级二分类处理下的分类结果,然后结合了处理图像在不同级的二分类处理的分类结果以及不同第一区域之间的嵌套关系,确定待处理图像中的每个第一区域对应的分割结果,第一区域的分割结果结合了多级二分类结果以及作为先验信息的嵌套关系,使得第一区域的分割结果的准确率得到提高。
请参阅图14,图14示出了本申请一个实施例提出的一种图像分割装置的框图,装置1400包括:
获取模块1410,用于获取待处理图像,待处理图像中包含N个第一区域,N个第一区域中相邻两个第一区域存在嵌套关系;N为大于1的自然数;
分类模块1420,用于通过目标分割模型对待处理图像进行多级二分类处理,以得到待处理图像的多级二分类结果;在对待处理图像的多级二分类处理中,每级二分类处理用于将待处理图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第一区域中一个第一区域或多个连续第一区域;待处理图像的每级二分类结果包括待处理图像中各像素点属于两部分中的一个部分的概率;
确定模块1430,用于根据待处理图像的多级二分类结果以及嵌套关系,确定N个第一区域中至少一个第一区域的分割结果。
可选地,装置1400还包括训练模块,用于获取第一样本图像和第一样本图像对应的第一标签信息,第一样本图像包括N个第二区域,N个第二区域中相邻两个第二区域存在嵌套关系,第一标签信息用于指示第一样本图像中各像素点所属的第二区域;通过初始模型对第一样本图像进行多级二分类处理,以得到第一样本图像的多级二分类结果;在对第一样本图像的多级二分类处理中,每级二分类处理用于将第一样本图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第二区域中一个第二区域或多个连续第二区域;第一样本图像的每级二分类结果包括第一样本图像中各像素点属于两部分中的一个部分的概率;根据第一样本图像的多级二分类结果以及第一样本图像的多级二分类结果的分级样本标签,对初始模型进行训练,以得到目标分割模型,第一样本图像的多级二分类结果的分级样本标签是对第一样本图像的多级二分类处理对应的两部分与N个第二区域间的关系,以及第一标签信息确定的。
可选地,训练模块,还用于根据第一样本图像的多级二分类结果以及第一样本图像的多级二分类结果的分级样本标签,确定第一样本图像在每级二分类处理下的第一损失值;通过初始模型对第一样本图像进行分类处理,得第一样本图像对应的多分类结果,第一样本图像对应的多分类结果包括第一样本图像中各像素点属于N个第二区域中每个第二区域的概率;根据第一样本图像对应的多分类结果和第一标签信息,确定第一样本图像对应的第二损失值;根据第一样本图像在每级二分类处理下的第一损失值和第一样本图像对应的第二损失值,对初始模型进行训练,得到目标分割模型。
可选地,训练模块,还用于根据第一样本图像的多级二分类结果以及第一样本图像的多级二分类结果的分级样本标签,确定第一样本图像在每级二分类处理下的第一损失值;根据第一样本图像在每级二分类处理下的第一损失值,对初始模型进行参数调整,得到中间模型;获取第二样本图像和第二样本图像对应的第二标签信息,第二样本图像包括N个第三区域,N个第三区域中相邻两个第三区域存在嵌套关系,第二标签信息用于指示第二样本图像中各像素点所属的第三区域;通过中间模型对第二样本图像进行多级二分类处理,以得到第二样本图像的多级二分类结果;在对第二样本图像的多级二分类处理中,每级二分类处理用于将第二样本图像分类成两部分,不同级的二分类处理对应的两部分不同,两部分中的每个部分用于表征N个第三区域中一个第三区域或多个连续第三区域;第二样本图像的每级二分类结果包括第二样本图像中各像素点属于两部分中的一个部分的概率;根据第二样本图像的多级二分类结果以及第二样本图像的多级二分类结果的分级样本标签,确定第二样本图像在每级二分类处理下的第一损失值;第二样本图像的多级二分类结果的分级样本标签是对第二样本图像的多级二分类处理对应的两部分与N个第三区域间的关系,以及第二标签信息确定的;通过中间模型对第二样本图像进行分类处理,得第二样本图像对应的多分类结果,第二样本图像对应的多分类结果包括第二样本图像中各像素点属于N个第三区域中每个第三区域的概率;根据第二样本图像对应的多分类结果和第二标签信息,确定第二样本图像对应的第二损失值;根据第二样本图像在每级二分类处理下的第一损失值和第二样本图像对应的第二损失值,对中间进行训练,得到目标分割模型。
可选地,训练模块,还用于对第一样本图像在多级二分类处理下的第一损失值进行加权求和,得到第一和损失值;根据第一和损失值对初始模型进行参数调整,得到中间模型。
可选地,中间模型包括中间特征提取网络以及多级二分类处理各自对应的中间分类层;训练模块,还用于通过中间特征提取网络对第二样本图像进行特征提取,得到第二样本图像对应的第一样本特征;将第二样本图像对应的第一样本特征输入每级二分类处理各自对应的中间分类层进行分类处理,得到第二样本图像在每级二分类处理下的二分类结果。
可选地,训练模块,还用于对第二样本图像进行第一预处理,得到第一预处理图像;第一预处理包括随机裁剪、旋转以及随机翻转中的至少一项;通过中间特征提取网络对第一预处理图像进行特征提取,得到第二样本图像对应的第一样本特征。
可选地,中间模型包括中间特征提取网络以及中间多分类层;训练模块,还用于将第二样本图像输入中间特征提取网络进行特征提取,得到第二样本图像对应的第二样本特征;通过中间多分类层对第二样本图像对应的第二样本特征分类处理,得到第二样本图像对应的多分类结果。
可选地,训练模块,还用于对第二样本图像进行第二预处理,得到第二预处理图像;第二预处理包括伽马矫正变换以及直方图均衡化中的至少一项;将第二预处理图像输入中间特征提取网络进行特征提取,得到第二样本图像对应的第二样本特征。
可选地,训练模块,还用于对第二样本图像在多级二分类处理下的第一损失值进行加权求和,得到第二和损失值;计算第二和损失值以及第二样本图像对应的第二损失值之和,作为第三和损失值;根据第三和损失值,对中间模型进行参数调整,得到目标分割模型。
可选地,确定模块1430,还用于根据待处理图像中的每个像素点位于每级二分类处理所对应的两部分中的一个部分的概率,确定待处理图像中每个像素点在每级二分类处理下的参考分类结果;根据待处理图像中每个像素点在每级二分类处理下的参考分类结果进行求和,得到待处理图像中每个像素点的目标分类结果;根据嵌套关系,确定每个第一区域各自的目标值;根据待处理图像中每个像素点的目标分类结果以及每个第一区域各自的目标值,确定N个第一区域中至少一个第一区域的分割结果。
需要说明的是,本申请中装置实施例与前述方法实施例是相互对应的,装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
图15示出了用于执行根据本申请实施例的图像分割方法的电子设备的结构框图。该电子设备可以是图1中的终端20或服务端10等,需要说明的是,图15示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图15所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU1201、ROM1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以使于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
根据本申请实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一实施例中的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台电子设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种图像分割方法,其特征在于,所述方法包括:
获取待处理图像,所述待处理图像中包含N个第一区域,所述N个第一区域中相邻两个第一区域存在嵌套关系;N为大于1的自然数;
通过目标分割模型对所述待处理图像进行多级二分类处理,以得到所述待处理图像的多级二分类结果;在对所述待处理图像的多级二分类处理中,每级二分类处理用于将所述待处理图像分类成两部分,不同级的二分类处理对应的所述两部分不同,所述两部分中的每个部分用于表征所述N个第一区域中一个第一区域或多个连续第一区域;所述待处理图像的每级二分类结果包括所述待处理图像中各像素点属于所述两部分中的一个部分的概率;
根据所述待处理图像的多级二分类结果以及所述嵌套关系,确定所述N个第一区域中至少一个第一区域的分割结果。
2.根据权利要求1所述的方法,其特征在于,所述通过目标分割模型对所述待处理图像进行多级二分类处理,以得到多级二分类结果之前,所述方法还包括:
获取第一样本图像和所述第一样本图像对应的第一标签信息,所述第一样本图像包括N个第二区域,所述N个第二区域中相邻两个第二区域存在嵌套关系,所述第一标签信息用于指示所述第一样本图像中各像素点所属的第二区域;
通过初始模型对所述第一样本图像进行多级二分类处理,以得到所述第一样本图像的多级二分类结果;在对所述第一样本图像的多级二分类处理中,每级二分类处理用于将所述第一样本图像分类成两部分,不同级的二分类处理对应的所述两部分不同,所述两部分中的每个部分用于表征所述N个第二区域中一个第二区域或多个连续第二区域;所述第一样本图像的每级二分类结果包括所述第一样本图像中各像素点属于所述两部分中的一个部分的概率;
根据所述第一样本图像的多级二分类结果以及所述第一样本图像的多级二分类结果的分级样本标签,对所述初始模型进行训练,以得到目标分割模型,所述第一样本图像的多级二分类结果的分级样本标签是对所述第一样本图像的多级二分类处理对应的所述两部分与所述N个第二区域间的关系,以及所述第一标签信息确定的。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一样本图像的多级二分类结果以及所述第一样本图像的多级二分类结果的分级样本标签,对所述初始模型进行训练,以得到目标分割模型,包括:
根据所述第一样本图像的多级二分类结果以及所述第一样本图像的多级二分类结果的分级样本标签,确定所述第一样本图像在每级二分类处理下的第一损失值;
通过所述初始模型对所述第一样本图像进行分类处理,得所述第一样本图像对应的多分类结果,所述第一样本图像对应的多分类结果包括所述第一样本图像中各像素点属于所述N个第二区域中每个第二区域的概率;
根据所述第一样本图像对应的多分类结果和所述第一标签信息,确定所述第一样本图像对应的第二损失值;
根据所述第一样本图像在每级二分类处理下的第一损失值和所述第一样本图像对应的第二损失值,对所述初始模型进行训练,得到目标分割模型。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一样本图像的多级二分类结果以及所述第一样本图像的多级二分类结果的分级样本标签,对所述初始模型进行训练,以得到目标分割模型,包括:
根据所述第一样本图像的多级二分类结果以及所述第一样本图像的多级二分类结果的分级样本标签,确定所述第一样本图像在每级二分类处理下的第一损失值;
根据所述第一样本图像在每级二分类处理下的第一损失值,对所述初始模型进行参数调整,得到中间模型;
获取第二样本图像和所述第二样本图像对应的第二标签信息,所述第二样本图像包括N个第三区域,所述N个第三区域中相邻两个第三区域存在嵌套关系,所述第二标签信息用于指示所述第二样本图像中各像素点所属的第三区域;
通过中间模型对所述第二样本图像进行多级二分类处理,以得到所述第二样本图像的多级二分类结果;在对所述第二样本图像的多级二分类处理中,每级二分类处理用于将所述第二样本图像分类成两部分,不同级的二分类处理对应的所述两部分不同,所述两部分中的每个部分用于表征所述N个第三区域中一个第三区域或多个连续第三区域;所述第二样本图像的每级二分类结果包括所述第二样本图像中各像素点属于所述两部分中的一个部分的概率;
根据所述第二样本图像的多级二分类结果以及所述第二样本图像的多级二分类结果的分级样本标签,确定所述第二样本图像在每级二分类处理下的第一损失值;所述第二样本图像的多级二分类结果的分级样本标签是对所述第二样本图像的多级二分类处理对应的所述两部分与所述N个第三区域间的关系,以及所述第二标签信息确定的;
通过所述中间模型对所述第二样本图像进行分类处理,得所述第二样本图像对应的多分类结果,所述第二样本图像对应的多分类结果包括所述第二样本图像中各像素点属于所述N个第三区域中每个第三区域的概率;
根据所述第二样本图像对应的多分类结果和所述第二标签信息,确定所述第二样本图像对应的第二损失值;
根据所述第二样本图像在每级二分类处理下的第一损失值和所述第二样本图像对应的第二损失值,对所述中间进行训练,得到目标分割模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一样本图像在每级二分类处理下的第一损失值,对所述初始模型进行参数调整,得到中间模型,包括:
对所述第一样本图像在多级二分类处理下的第一损失值进行加权求和,得到第一和损失值;
根据所述第一和损失值对所述初始模型进行参数调整,得到中间模型。
6.根据权利要求4所述的方法,其特征在于,所述中间模型包括中间特征提取网络以及多级二分类处理各自对应的中间分类层;
所述通过中间模型对所述第二样本图像进行多级二分类处理,以得到所述第二样本图像的多级二分类结果,包括:
通过所述中间特征提取网络对所述第二样本图像进行特征提取,得到所述第二样本图像对应的第一样本特征;
将所述第二样本图像对应的第一样本特征输入每级二分类处理各自对应的中间分类层进行分类处理,得到所述第二样本图像在每级二分类处理下的二分类结果。
7.根据权利要求6所述的方法,其特征在于,所述通过所述中间特征提取网络对所述第二样本图像进行特征提取,得到所述第二样本图像对应的第一样本特征之前,所述方法还包括:
对所述第二样本图像进行第一预处理,得到第一预处理图像;所述第一预处理包括随机裁剪、旋转以及随机翻转中的至少一项;
所述通过所述中间特征提取网络对所述第二样本图像进行特征提取,得到所述第二样本图像对应的第一样本特征,包括:
通过所述中间特征提取网络对所述第一预处理图像进行特征提取,得到所述第二样本图像对应的第一样本特征。
8.根据权利要求4所述的方法,其特征在于,所述中间模型包括中间特征提取网络以及中间多分类层;
所述通过所述中间模型对所述第二样本图像进行分类处理,得所述第二样本图像对应的多分类结果,包括:
将所述第二样本图像输入所述中间特征提取网络进行特征提取,得到所述第二样本图像对应的第二样本特征;
通过所述中间多分类层对所述第二样本图像对应的第二样本特征分类处理,得到所述第二样本图像对应的多分类结果。
9.根据权利要求8所述的方法,其特征在于,所述将所述第二样本图像输入所述中间特征提取网络进行特征提取,得到所述第二样本图像对应的第二样本特征之前,所述方法还包括:
对所述第二样本图像进行第二预处理,得到第二预处理图像;所述第二预处理包括伽马矫正变换以及直方图均衡化中的至少一项;
所述将所述第二样本图像输入所述中间特征提取网络进行特征提取,得到所述第二样本图像对应的第二样本特征,包括:
将所述第二预处理图像输入所述中间特征提取网络进行特征提取,得到所述第二样本图像对应的第二样本特征。
10.根据权利要求4所述的方法,其特征在于,所述根据所述第二样本图像在每级二分类处理下的第一损失值和所述第二样本图像对应的第二损失值,对所述中间进行训练,得到目标分割模型,包括:
对所述第二样本图像在多级二分类处理下的第一损失值进行加权求和,得到第二和损失值;
计算所述第二和损失值以及所述第二样本图像对应的第二损失值之和,作为第三和损失值;
根据所述第三和损失值,对所述中间模型进行参数调整,得到目标分割模型。
11.根据权利要求1所述的方法,其特征在于,所述根据所述待处理图像的多级二分类结果以及所述嵌套关系,确定所述N个第一区域中至少一个第一区域的分割结果,包括:
根据所述待处理图像中的每个像素点位于每级二分类处理所对应的两部分中的一个部分的概率,确定所述待处理图像中每个所述像素点在每级二分类处理下的参考分类结果;
根据所述待处理图像中每个所述像素点在每级二分类处理下的参考分类结果进行求和,得到所述待处理图像中每个所述像素点的目标分类结果;
根据所述嵌套关系,确定每个所述第一区域各自的目标值;
根据所述待处理图像中每个所述像素点的目标分类结果以及每个所述第一区域各自的目标值,确定所述N个第一区域中至少一个第一区域的分割结果。
12.根据权利要求1-11中任一项所述的方法,其特征在于,在所述待处理图像为眼部图像时,所述N个第一区域包括瞳孔所在的区域、虹膜所在的区域、眼白所在的区域以及眼部周边所在的区域。
13.一种图像分割装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像,所述待处理图像中包含N个第一区域,所述N个第一区域中相邻两个第一区域存在嵌套关系;N为大于1的自然数;
分类模块,用于通过目标分割模型对所述待处理图像进行多级二分类处理,以得到所述待处理图像的多级二分类结果;在对所述待处理图像的多级二分类处理中,每级二分类处理用于将所述待处理图像分类成两部分,不同级的二分类处理对应的所述两部分不同,所述两部分中的每个部分用于表征所述N个第一区域中一个第一区域或多个连续第一区域;所述待处理图像的每级二分类结果包括所述待处理图像中各像素点属于所述两部分中的一个部分的概率;
确定模块,用于根据所述待处理图像的多级二分类结果以及所述嵌套关系,确定所述N个第一区域中至少一个第一区域的分割结果。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311401358.0A CN117132777B (zh) | 2023-10-26 | 2023-10-26 | 图像分割方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311401358.0A CN117132777B (zh) | 2023-10-26 | 2023-10-26 | 图像分割方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117132777A true CN117132777A (zh) | 2023-11-28 |
CN117132777B CN117132777B (zh) | 2024-03-22 |
Family
ID=88854985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311401358.0A Active CN117132777B (zh) | 2023-10-26 | 2023-10-26 | 图像分割方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132777B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073889A (zh) * | 2016-11-11 | 2018-05-25 | 三星电子株式会社 | 虹膜区域提取的方法和设备 |
CN109447995A (zh) * | 2017-08-29 | 2019-03-08 | 中国移动通信有限公司研究院 | 一种眼前节图像的分割方法及其相关装置 |
CN110120047A (zh) * | 2019-04-04 | 2019-08-13 | 平安科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
CN110599491A (zh) * | 2019-09-04 | 2019-12-20 | 腾讯医疗健康(深圳)有限公司 | 基于先验信息的眼部图像分割方法、装置、设备及介质 |
CN110705425A (zh) * | 2019-09-25 | 2020-01-17 | 广州西思数字科技有限公司 | 一种基于图卷积网络的舌象多标签分类学习方法 |
CN111046880A (zh) * | 2019-11-28 | 2020-04-21 | 中国船舶重工集团公司第七一七研究所 | 一种红外目标图像分割方法、系统、电子设备及存储介质 |
CN113343943A (zh) * | 2021-07-21 | 2021-09-03 | 西安电子科技大学 | 基于巩膜区域监督的眼部图像分割方法 |
CN113768460A (zh) * | 2021-09-10 | 2021-12-10 | 北京鹰瞳科技发展股份有限公司 | 一种眼底图像分析系统、方法以及电子设备 |
US20220027657A1 (en) * | 2020-07-24 | 2022-01-27 | Beihang University | Image object detection method, device, electronic device and computer readable medium |
CN114328906A (zh) * | 2021-09-23 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种多级类目的确定方法、模型训练的方法以及相关装置 |
US20220277572A1 (en) * | 2020-06-30 | 2022-09-01 | Tencent Technology (Shenzhen) Company Limited | Artificial intelligence-based image processing method, apparatus, device, and storage medium |
CN115049675A (zh) * | 2022-05-23 | 2022-09-13 | 北京旷视科技有限公司 | 生成区域确定及光斑生成方法、设备、介质及程序产品 |
CN115049603A (zh) * | 2022-06-07 | 2022-09-13 | 安徽大学 | 一种基于小样本学习的肠息肉分割方法及系统 |
WO2023125181A1 (zh) * | 2021-12-30 | 2023-07-06 | 北京字跳网络技术有限公司 | 图像处理方法、装置、电子设备和存储介质 |
CN116433679A (zh) * | 2023-04-07 | 2023-07-14 | 北京工业大学 | 一种基于空间位置结构先验的内耳迷路多级标注伪标签生成与分割方法 |
CN116452810A (zh) * | 2023-04-25 | 2023-07-18 | 中国航空发动机研究院 | 一种多层次语义分割方法、装置、电子设备及存储介质 |
CN116485817A (zh) * | 2023-05-08 | 2023-07-25 | 联仁健康医疗大数据科技股份有限公司 | 图像分割方法、装置、电子设备及存储介质 |
CN116612339A (zh) * | 2023-07-21 | 2023-08-18 | 中国科学院宁波材料技术与工程研究所 | 一种核性白内障图像分级模型的构建装置及分级装置 |
-
2023
- 2023-10-26 CN CN202311401358.0A patent/CN117132777B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073889A (zh) * | 2016-11-11 | 2018-05-25 | 三星电子株式会社 | 虹膜区域提取的方法和设备 |
CN109447995A (zh) * | 2017-08-29 | 2019-03-08 | 中国移动通信有限公司研究院 | 一种眼前节图像的分割方法及其相关装置 |
CN110120047A (zh) * | 2019-04-04 | 2019-08-13 | 平安科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
CN110599491A (zh) * | 2019-09-04 | 2019-12-20 | 腾讯医疗健康(深圳)有限公司 | 基于先验信息的眼部图像分割方法、装置、设备及介质 |
CN110705425A (zh) * | 2019-09-25 | 2020-01-17 | 广州西思数字科技有限公司 | 一种基于图卷积网络的舌象多标签分类学习方法 |
CN111046880A (zh) * | 2019-11-28 | 2020-04-21 | 中国船舶重工集团公司第七一七研究所 | 一种红外目标图像分割方法、系统、电子设备及存储介质 |
US20220277572A1 (en) * | 2020-06-30 | 2022-09-01 | Tencent Technology (Shenzhen) Company Limited | Artificial intelligence-based image processing method, apparatus, device, and storage medium |
US20220027657A1 (en) * | 2020-07-24 | 2022-01-27 | Beihang University | Image object detection method, device, electronic device and computer readable medium |
CN113343943A (zh) * | 2021-07-21 | 2021-09-03 | 西安电子科技大学 | 基于巩膜区域监督的眼部图像分割方法 |
CN113768460A (zh) * | 2021-09-10 | 2021-12-10 | 北京鹰瞳科技发展股份有限公司 | 一种眼底图像分析系统、方法以及电子设备 |
CN114328906A (zh) * | 2021-09-23 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种多级类目的确定方法、模型训练的方法以及相关装置 |
WO2023125181A1 (zh) * | 2021-12-30 | 2023-07-06 | 北京字跳网络技术有限公司 | 图像处理方法、装置、电子设备和存储介质 |
CN115049675A (zh) * | 2022-05-23 | 2022-09-13 | 北京旷视科技有限公司 | 生成区域确定及光斑生成方法、设备、介质及程序产品 |
CN115049603A (zh) * | 2022-06-07 | 2022-09-13 | 安徽大学 | 一种基于小样本学习的肠息肉分割方法及系统 |
CN116433679A (zh) * | 2023-04-07 | 2023-07-14 | 北京工业大学 | 一种基于空间位置结构先验的内耳迷路多级标注伪标签生成与分割方法 |
CN116452810A (zh) * | 2023-04-25 | 2023-07-18 | 中国航空发动机研究院 | 一种多层次语义分割方法、装置、电子设备及存储介质 |
CN116485817A (zh) * | 2023-05-08 | 2023-07-25 | 联仁健康医疗大数据科技股份有限公司 | 图像分割方法、装置、电子设备及存储介质 |
CN116612339A (zh) * | 2023-07-21 | 2023-08-18 | 中国科学院宁波材料技术与工程研究所 | 一种核性白内障图像分级模型的构建装置及分级装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117132777B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pang et al. | Hierarchical dynamic filtering network for RGB-D salient object detection | |
CN111898696B (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
Liu et al. | [Retracted] Dynamic Gesture Recognition Algorithm Based on 3D Convolutional Neural Network | |
Zhou et al. | Contextual ensemble network for semantic segmentation | |
Li et al. | Traffic scene segmentation based on RGB-D image and deep learning | |
EP4002161A1 (en) | Image retrieval method and apparatus, storage medium, and device | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN113011568B (zh) | 一种模型的训练方法、数据处理方法及设备 | |
CN114202743A (zh) | 自动驾驶场景下基于改进faster-RCNN的小目标检测方法 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN112668482A (zh) | 人脸识别训练方法、装置、计算机设备及存储介质 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
Chen et al. | Dual-bottleneck feature pyramid network for multiscale object detection | |
Liu et al. | Image semantic segmentation based on improved DeepLabv3+ network and superpixel edge optimization | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN117132777B (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN113568983B (zh) | 场景图生成方法、装置、计算机可读介质及电子设备 | |
CN117079313A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN116310615A (zh) | 图像处理方法、装置、设备及介质 | |
CN112560848B (zh) | 兴趣点poi预训练模型的训练方法、装置及电子设备 | |
Wu et al. | CyclicNet: an alternately updated network for semantic segmentation | |
CN114548229A (zh) | 训练数据增广方法、装置、设备和存储介质 | |
CN113763313A (zh) | 文本图像的质量检测方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |