CN110866526A - 图像分割方法、电子设备及计算机可读存储介质 - Google Patents
图像分割方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110866526A CN110866526A CN201811361168.XA CN201811361168A CN110866526A CN 110866526 A CN110866526 A CN 110866526A CN 201811361168 A CN201811361168 A CN 201811361168A CN 110866526 A CN110866526 A CN 110866526A
- Authority
- CN
- China
- Prior art keywords
- convolution
- processing
- feature map
- feature
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 162
- 238000003709 image segmentation Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 355
- 238000000605 extraction Methods 0.000 claims abstract description 352
- 230000011218 segmentation Effects 0.000 claims abstract description 144
- 238000011176 pooling Methods 0.000 claims description 155
- 230000004927 fusion Effects 0.000 claims description 76
- 238000007499 fusion processing Methods 0.000 claims description 61
- 238000010586 diagram Methods 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 34
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 47
- 238000012549 training Methods 0.000 description 45
- 230000003044 adaptive effect Effects 0.000 description 35
- 230000000694 effects Effects 0.000 description 23
- 230000002829 reductive effect Effects 0.000 description 19
- 230000001965 increasing effect Effects 0.000 description 13
- 238000003672 processing method Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 7
- 238000007500 overflow downdraw method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000005065 mining Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 235000004257 Cordia myxa Nutrition 0.000 description 2
- 244000157795 Cordia myxa Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Algebra (AREA)
Abstract
本申请提供了一种图像分割方法、电子设备及计算机可读存储介质。涉及计算机视觉技术领域与人工智能技术领域。该方法包括:通过特征提取网络,对图像进行特征提取,得到特征图;对特征图进行特征图处理,以完成对图像的语义分割。本发明可以使得语义分割的性能得到有效提升。
Description
技术领域
本申请涉及计算机视觉技术领域与人工智能技术领域,具体而言,本申请涉及一种图像分割方法、电子设备及计算机可读存储介质。
背景技术
人工智能的浪潮正席卷全球,而计算机视觉技术是人工智能中不可或缺的重要部分。计算机视觉的终极目标在于使得计算机能像人一样观察感知世界,核心任务就是对图像进行理解。其中,语义分割是场景理解中较高级的任务。
对图像进行语义分割,需要对图像中的每个像素进行分类,通过语义分割结果可以得到图像中物体的类别、形状和大小。例如在物体分割任务中,需要对图像中的物体的像素点给出像素级的类别ID;又例如在场景分割任务中,需要对图像中的所有的像素点都要给出像素级的类别ID。
语义分割的场景种类繁多,语义分割的对象千变万化。这时候,针对特征各异的图像,如何得到理想的分割效果,成为一个关键问题。
发明内容
本申请提供了一种图像分割方法、电子设备及计算机可读存储介质,用于增强语义分割的分割效果。
第一方面,本申请提供了一种图像分割方法,包括:
通过特征提取网络,对图像进行特征提取,得到特征图;
对特征图进行特征图处理,以完成对图像的语义分割。
在一种可选的实现方式中,对特征图进行特征图处理,包括:
针对特征图的至少两个方向进行特征图处理。
在一种可选的实现方式中,针对特征图的至少两个方向进行特征图处理,包括:
针对特征图的至少两个方向分别进行卷积操作和/或池化操作;
将至少两个方向的操作结果进行融合处理。
在一种可选的实现方式中,针对特征图的至少两个方向分别进行卷积操作,包括:
根据各个方向对应的卷积方式和/或卷积参数,针对特征图的至少两个方向分别进行卷积操作;和/或
针对特征图的至少两个方向分别进行池化操作,包括:
根据各个方向对应的池化方式和/或池化参数,针对特征图的至少两个方向分别进行池化操作。
在一种可选的实现方式中,根据各个方向对应的卷积方式和/或卷积参数,针对特征图的至少两个方向分别进行卷积操作之前,还包括:
根据设备状态和/或任务需求确定各个方向对应的卷积方式和/或卷积参数。
在一种可选的实现方式中,至少两个方向中包含设定的特征图主方向;
根据各个方向对应的卷积方式和/或卷积参数,针对特征图的至少两个方向分别进行卷积操作之前,还包括:
根据特征图主方向对应的卷积方式和/或卷积参数,确定其他方向对应的卷积方式和/或卷积参数;和/或
根据各个方向对应的池化方式和/或池化参数,针对特征图的至少两个方向分别进行池化操作之前,还包括:
根据特征图主方向对应的池化方式和/或池化参数,确定其他方向对应的池化方式和/或池化参数。
在一种可选的实现方式中,卷积参数包括:卷积核大小、扩张率、卷积步长、参数量中的至少一项;和/或
池化参数包括:池化核大小、池化步长中的至少一项。
在一种可选的实现方式中,将至少两个方向的操作结果进行融合处理,包括以下任一情形:
当针对特征图的至少两个方向分别进行卷积操作时,将各个方向的卷积操作结果进行融合处理;
当针对特征图的至少两个方向分别进行池化操作时,将各个方向的池化操作结果进行融合处理;
当针对特征图的至少两个方向分别同时进行卷积操作和池化操作时,将各个方向的卷积操作结果和池化操作结果进行融合处理;
当针对特征图的至少两个方向分别依次进行卷积操作和池化操作时,将各个方向的池化操作结果进行融合处理。
在一种可选的实现方式中,将至少两个方向的操作结果进行融合处理,包括:
针对至少两个方向的操作结果中的每个操作结果,分别确定各操作结果对应的融合权重和/或特征偏置信息;
根据融合权重和/或特征偏置信息,分别对各操作结果进行预定处理;
对预定处理后的各操作结果进行融合处理。
在一种可选的实现方式中,对预定处理后的各操作结果进行融合处理之前,还包括:
针对至少两个方向的操作结果中的每个操作结果,分别将操作结果和操作结果经过预定处理后的输出结果进行跳跃连接处理;
对预定处理后的各操作结果进行融合处理,包括:
将经过跳跃链接处理后的各操作结果进行融合处理。
在一种可选的实现方式中,根据融合权重和/或特征偏置信息,分别对各操作结果进行预定处理,包括以下至少一项:
根据融合权重,分别对各操作结果进行加权处理;
根据融合权重,分别对各经过加权处理后的输出结果进行加权处理;
根据融合权重,分别对各经过偏置处理后的输出结果进行加权处理;
根据融合权重,分别对各经过跳跃连接处理后的输出结果进行加权处理;
根据特征偏置信息,分别对各操作结果进行偏置处理;
根据特征偏置信息,分别对各经过加权处理后的输出结果进行偏置处理;
根据特征偏置信息,分别对各经过偏置处理后的输出结果进行偏置处理;
根据特征偏置信息,分别对各经过跳跃连接处理后的输出结果进行偏置处理。
在一种可选的实现方式中,该方法还包括:
根据将至少两个方向的操作结果合并后得到的特征图,确定对应的通道相关性特征;
确定各操作结果对应的融合权重,包括:
根据通道相关性特征,确定至少两个方向的操作结果中的每个操作结果分别对应的融合权重;
确定各操作结果对应的特征偏置信息,包括:
根据通道相关性特征,确定至少两个方向的操作结果中的每个操作结果分别对应的特征偏置信息。
在一种可选的实现方式中,对图像进行特征提取,得到特征图,包括:
步骤1、针对特征提取网络中的设定卷积层,根据设定卷积层对应的卷积参数对图像或输入的特征图执行卷积处理;
步骤2、对卷积处理得到的特征图进行特征图处理,得到类别概率特征图,并根据类别概率特征图确定类别置信度;
步骤3、若基于类别置信度确认需要调整设定卷积层对应的卷积参数,则调整设定卷积层对应的卷积参数后执行步骤1,若基于类别置信度确认不需要调整设定卷积层对应的卷积参数,则输出卷积处理得到的特征图。
在一种可选的实现方式中,设定卷积层为深度大于第一深度阈值的至少一个特征提取模块中,深度大于第二深度阈值的至少一个卷积层。
在一种可选的实现方式中,通过下述方式确认是否需要调整设定卷积层对应的卷积参数:
当类别置信度大于第一预定阈值时,确认不需要调整设定卷积层对应的卷积参数;否则,确认需要调整设定卷积层对应的卷积参数。
在一种可选的实现方式中,该方法还包括:
当总迭代次数不小于预设第一迭代次数阈值,和/或设定卷积层的迭代次数不小于预设第二迭代次数阈值时,确认不需要调整设定卷积层对应的卷积参数,输出卷积处理得到的特征图。
在一种可选的实现方式中,调整设定卷积层对应的卷积参数,包括:
确定设定卷积层对应的参数变化量;
基于参数变化量来调整设定卷积层对应的卷积参数。
在一种可选的实现方式中,确定设定卷积层对应的参数变化量,包括:
根据类别置信度,确定设定卷积层对应的参数变化量。
在一种可选的实现方式中,对图像进行特征提取,得到特征图,包括:
将设定特征提取模块提取的特征图通过至少一个感受野处理模块进行感受野处理,得到感受野处理后的特征图。
在一种可选的实现方式中,感受野处理模块包含至少一个感受野处理支路;
任一感受野处理模块进行感受野处理,包括:
将设定特征提取模块或上一个感受野处理模块输出的特征图,通过当前感受野处理模块的各个感受野处理支路分别进行卷积处理,得到卷积处理后的各特征图;
基于当前感受野处理模块的各个感受野处理支路分别对应的权重,将卷积处理后的各特征图进行融合处理。
在一种可选的实现方式中,任一感受野处理模块中的各感受野处理支路进行卷积处理所采用的卷积参数量相同。
在一种可选的实现方式中,设定特征提取模块,包括以下任一种:
特征提取网络中的任一特征提取模块;
特征提取网络中的深度大于第三深度阈值的任一特征提取模块。
在一种可选的实现方式中,对图像进行特征提取,得到特征图,包括:
对当前特征提取模块提取的特征图进行特征图处理,得到类别概率特征图,并根据类别概率特征图确定类别置信度;
若基于类别置信度确认需要进入下一个特征提取模块进行特征提取处理,则输出当前特征提取模块提取的特征图到下一个特征提取模块,若基于类别置信度确认不需要进入下一个特征提取模块进行特征提取处理,则输出当前特征提取模块提取的特征图作为特征提取网络输出的特征图或输出类别概率特征图。
在一种可选的实现方式中,通过下述方式确认是否需要进入下一个特征提取模块进行特征提取处理:
当类别置信度大于第二预定阈值时,确认不需要进入下一个特征提取模块进行特征提取处理;否则,确认需要进入下一个特征提取模块进行特征提取处理。
在一种可选的实现方式中,根据类别概率特征图确定类别置信度,包括:
确定类别概率特征图中的各像素点的最高概率;
根据各像素点的最高概率的平均值,确定类别置信度。
在一种可选的实现方式中,对图像进行特征提取,得到特征图,包括:
将基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果输入到下一个特征提取模块进行特征提取。
在一种可选的实现方式中,将基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果输入到下一个特征提取模块进行特征提取,包括:
对基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果进行融合处理后输入到下一个特征提取模块进行特征提取。
在一种可选的实现方式中,该方法还包括步骤:在对语义分割过程中所运用的各个模型进行离线训练时,所采用的D损失函数(Dloss)为:
其中,N为图像中的总像素数量,i为预测的类别,j为实际类别,ci为像素属于i类别的概率,p为预测与实际一致的类别,xp ij={1,0},标记预测类别是否与实际一致。
那么,在离线训练时,总的目标损失函数为:
Loss=Segloss+α*Dloss
其中的Segloss为标准的交叉熵损失函数,α为Dloss与Segloss的平衡权重。
第二方面,本申请提供了一种电子设备,包括:
特征提取模块,用于通过特征提取网络,对图像进行特征提取,得到特征图;
特征图处理模块,用于对特征图进行特征图处理,以完成对图像的语义分割。
第三方面,本申请提供了一种电子设备,包括:
处理器和存储器,存储器存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本申请的第一方面所示的图像分割方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令、程序、代码集或指令集,当其在计算机上运行时,使得计算机执行如本申请的第一方面所示的图像分割方法。
本申请提供的技术方案带来的有益效果是:
本申请采用对输入图像进行特征提取,得到特征图;再对对特征图进行特征图处理,以完成语义分割,使得语义分割的性能得到有效提升。
本申请通过针对特征图的至少两个方向进行特征图处理,针对特征提取网络提取出的特征图,在进行特征图处理时,不是进行单方向卷积操作,而是针对特征图的多个方向分别进行特征图处理,卷积操作和/或池化操作,能够不增加卷积核尺寸,也能使对物体不同区域的操作卷积操作的结果是一致的。对某个物体,不仅从特征图的正向进行卷积,也可以从其他方向进行卷积,其他方向的卷积可以辅助从正向覆盖整个物体,从而能够获得更高层次的特征信息。也就是说,当从上下方向或左右方向进行卷积操作时,从正面视角看,每个卷积操作可以覆盖更大的区域,这样便可以提高分割特定形状的物体时的准确性和稳定性。
本申请还对特征图处理过程中至少两个方向的操作结果进行融合处理,与现有的融合方式相比,可以通过各操作结果对应的特征偏置信息和融合权重来增强操作结果中的有效信息,抑制特征图中不需要的信息,又可以通过跳跃连接处理来维护输出的类别ID图的细节信息,从而有效提升特征融合效果,提高语义分割结果的精度。
本申请还通过设定卷积层进行卷积操作后得到的类别置信度,在线自适应的调整该卷积层的卷积参数,将该卷积层的卷积参数调整到最合适的尺寸,尽可能的使调整后的卷积参数更好地覆盖图像中的物体,从而准确的提取物体的特征,可以避免卷积参数中的感受野过大时存在引入过多的噪声信息,降低特征提取的准确性的问题,也可以避免感受野过小时无法完整覆盖整个物体,导致特征提取的不完整的问题,有效提高对不同大小的物体所提取的特征的准确性,进而提高了语义分割的分割精度,也提高了分割的稳定性。
本申请还提出,可以自适应地决定参与在线预测的特征提取模块,在线自适应调整网络结构,即根据当前的特征提取结果的类别置信度,来决定是否跳过后续的特征提取模块,直接进行特征图处理步骤或直接输出预测结果,因此可以只经过若干层网络就输出最终结果,在对简单图像进行分割时,可以自适应的使用较少的特征提取模块进行特征提取,能够节省运算量,加快网络运算速度。
本申请还使用浅层模块推断的预测结果作为深层网络的另一个输入,浅层网络的初步结果包含了物体之间的语义信息,可以指导深层网络提取更多的空间和语义信息,减小了预测区域,通过使用浅层提取模块的预测结果来指导深层提取模块,提高了特征提取网络所提取的特征的准确性,进而提高了语义分割的准确性。
本申请还提出,在不损失分割精度的情况下,特征提取网络中深层网络的卷积层的通道数可以相应地进行缩减,即深层特征提取模块的卷积层通道数可相应减少,如特征提取网络中设定特征提取模块中的卷积层的通道数小于预设的通道数阈值,其中,设定特征提取模块可以为深度大于第三深度阈值的至少一个特征提取模块。这种网络设计可以节省语义分割的运算量,加快了网络运算速度。
本申请还利用物体之间的信息加强某些数量较少类别的物体分割效果,提出一种新型的损失函数Dloss,该损失函数可以加大难预测类别的权重,使训练过程更加注重包含数量较少的类别或较难分割的类别的样本,从而有效地提升整体语义分割精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1a为本申请实施例提供的纵向尺寸较大的物体的示例图;
图1b为本申请实施例提供的横向尺寸较大的物体的示例图;
图2a为本申请实施例提供的自行车在图中显示较小的示例图;
图2b为本申请实施例提供的自行车在图中显示较大的示例图;
图3a为本申请实施例提供的简单图像的示例图;
图3b为本申请实施例提供的复杂图像的示例图;
图4为本申请实施例提供的一种图像分割方法的流程示意图;
图5为本申请实施例提供的完成语义分割的整体流程示意图;
图6为本申请实施例提供的另一种图像分割方法的流程示意图;
图7为本申请实施例提供的又一种图像分割方法的流程示意图;
图8为本申请实施例提供的多方向特征图处理方法的示意图一;
图9为本申请实施例提供的多方向特征图处理方法的示意图二;
图10为本申请实施例提供的多门控制通道融合的逻辑示意图;
图11为本申请实施例提供的ASPP为例的多方向卷积的示意图;
图12为本申请实施例提供的基于自适应感受野的特征提取的示意图;
图13为本申请实施例提供的自适应感受野的流程示意图;
图14为本申请实施例提供的应用自适应感受野模块的示意图;
图15为本申请实施例提供的实施例二实验效果的示意图一;
图16为本申请实施例提供的实施例二实验效果的示意图二;
图17a为本申请实施例提供的现有特征提取网络的示意图;
图17b为本申请实施例提供的特征提取网络的示意图;
图18为本申请实施例提供的多通道自适应级联预测的示意图;
图19为本申请实施例提供的基于级联预测方法的特征提取的示意图;
图20为本申请实施例提供的基于级联预测方法的特征提取的示例图;
图21为本申请实施例提供的基于多通道预测方法的特征提取示意图;
图22为本申请实施例提供的深层模块融合操作的示意图;
图23a为本申请实施例提供的多通道自适应级联预测结构的示意图;
图23b为本申请实施例提供的现有语义分割网络结构的示意图;
图24为本申请实施例提供的在线预测方案一的示意图;
图25为本申请实施例提供的在线预测方案二的示意图;
图26为本申请实施例提供的在线预测方案三的示意图;
图27为本申请实施例提供的离线训练方案的示意图;
图28为本申请实施例提供的车载传感器的环境感知示意图;
图29为本申请实施例提供的图像编辑的示意图;
图30为本申请实施例提供的制作特殊效果拍摄图像的示意图;
图31为本申请实施例提供的电子设备的结构示意图;
图32为本申请实施例提供的一种多支路的多感受野处理方式的示例图;
图33为本申请实施例提供的另一种多支路的多感受野处理方式的示例图;
图34为本申请实施例提供的又一种多支路的多感受野处理方式的示例图;
图35为本申请实施例提供的一种语义分割网络结构的示例图。
具体实施方式
下面详细描述本申请的实施例,所述施例的示例在附图中示出,其中自始至终相同或类似的标号示相同或类似的元件或具有相同或类似功能的元件。面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请的发明人发现,现有的语义分割有以下四类困难点:
困难点1:针对特定形状的物体的分割效果不理想,分割精度较低。
这是因为,目前的语义分割方法采用的卷积方式不能覆盖图像中的整个物体,而是将整个物体划分为小块分别进行卷积处理,这便造成了物体预测一致性差的问题,即针对属于同一物体的像素点所预测出的物体类别不一致,例如增加了一个物体两头预测正确而中间部位预测错误的可能性。
作为示例地,进行语义分割的图像中可能会有一些特定形状的物体,这些特定形状的物体可能在图像的某一个方向上的尺寸比较大,如在图像纵向的尺寸比较大的物体,如较高的物体等,或者在图像横向的尺寸比较大的物体,如较宽的物体等。
例如如图1a所示,路灯在图像纵向的尺寸较大,图1b中的火车在图像横向的尺寸比较大,利用现有的语义分割方法对这些特定形状的物体进行分割的结果往往不理想,分割这些物体时的分割精度较低。
困难点2:针对不同图像上出现的同一类别的物体,由于物体在图像上的大小或形状不同,因此分割效果不稳定,性能不鲁棒。
这是因为,在定义语义分割网络的结构时,卷积核的大小与参数都固定了,进而说明卷积处理的感受野也是固定的,然而对于不同大小的物体,如果均使用相同的感受野尺寸,则会造成语义分割网络的结构难以覆盖各种大小的物体。
例如如图2a和图2b所示,自行车在两张图中的大小不同,利用现有技术对此类在不同图像上的大小存在显著差异的物体进行语义分割时,分割效果不理想,分割精度较低。
困难点3:难以在固定的网络结构中高效地对简单图像进行分割。
现有技术采用固定的网络结构对输入的所有图像进行语义分割。例如,输入图像可以如图3a所示,该图像为包含某个动物的简单图像,现有技术通过固定结构的语义分割网络对该简单图像进行语义分割处理,得到图像中各像素点对应的物体ID;再如,输入图像也可以如图3b所示,该图像为包含人、条纹、坑等信息的复杂图像,现有技术通过固定结构的语义分割网络对该复杂图像进行语义分割处理,得到图像中各像素点对应的物体ID。
由上可见,有些图像的场景比较简单,或者物体数量比较少或物体类型比较单一,比如图3a所示的简单图像,有些图像的场景比较复杂,或者物体数量比较多或物体类型比较复杂,例如图3b所示的复杂图像。现有技术对不同图像进行语义分割时,均采用同一个固定结构的网络模型,也就是说,在处理简单图像时候仍然采用处理复杂图像时的大型完整网络,这样会耗费大量计算时间和计算资源。
困难点4:不同类别的物体在训练数据上分布极度不均衡,通过这样的训练数据离线训练得到的分割网络模型的性能不理想。
训练数据分布不均是指在训练数据集中,各个类别的数据样本数目相差巨大。语义分割是像素级的类别预测,所以样本数目是按照像素的数量,而不是图像的数量来进行统计。例如某典型数据集的训练数据分布中,物体的类别包括背景和20类物体,其中,背景类占据了整个训练集的像素和的绝大部分,而像素和最少的物体类别仅仅占不到总像素和的1%。在类别数量更多的数据集中,虽然物体类别更多,如有150类物体,但数据分布不均的现象更加严重。
针对数据分布严重不均衡的训练集,现有的技术通常采用像素级的困难样本挖掘技术,该技术使像素忽视了其为物体一份子的信息要素,这便造成了预测结果出现斑驳状的情况,使得通过训练得到的语义分割网络对图像进行语义分割时,分割效果不理想,分割结果的精确性较低。
基于此,本申请提供了一种图像分割方法、电子设备及计算机可读存储介质,旨在解决如上技术问题。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请实施例提供了一种图像分割方法,如图4所示,该方法包括:
步骤S410:通过特征提取网络,对图像进行特征提取,得到特征图;
步骤S420:对特征图进行特征图处理,以完成对图像的语义分割。
实际应用中,完成语义分割的整体流程如图5所示:通过特征提取网络执行步骤S410,对输入图像进行特征提取,得到特征图;根据得到的特征图执行步骤S420,对特征图进行特征图处理,输出类别概率特征图;类别概率特征图中的每个特征值表征了对应像素点属于某物体类别或某场景类别的概率值;对类别概率特征图进行ID计算,得到类别ID图,即确定每个像素点对应的最大概率的类别ID。
在一种可选的实现方式中,步骤S420具体包括:使用一个或多个卷积核对特征图进行卷积操作,再对卷积后得到的特征图进行融合处理,得到类别概率特征图。在对特征图进行卷积操作时,也可以同时对该特征图进行池化(pooling)处理。在融合处理时,将卷积后得到的特征图和池化后得到的特征图进行融合处理,得到类别概率特征图。在该特征图处理过程中,pooling操作是可选的操作。
在一种优选的实现方式中,如图6所示,步骤S420包括步骤S620。其中,图6中的步骤S410可以与图4中的步骤S410相同,也可以与下文图7中的步骤S710相同,其具体实现方式可参见对步骤S410或步骤S710的介绍,在此不再赘述。具体而言,
步骤S620:针对特征图的至少两个方向进行特征图处理,以完成对图像的语义分割。
特征图的方向包含前后方向、上下方向、左右方向。
这种实现方式中,步骤S620具体包括步骤S6201(图中未标注)和步骤S6202(图中未标注)。具体地,
步骤S6201:针对特征图的至少两个方向分别进行卷积操作和/或池化操作;步骤S6202:将至少两个方向的操作结果进行融合处理。
具体地,步骤S6201中的针对特征图的至少两个方向分别进行卷积操作,包括:根据各个方向对应的卷积方式和/或卷积参数,针对特征图的至少两个方向分别进行卷积操作;
和/或,步骤S6201的针对特征图的至少两个方向分别进行池化操作,包括:根据各个方向对应的池化方式和/或池化参数,针对特征图的至少两个方向分别进行池化操作。
其中,根据各个方向对应的卷积方式和/或卷积参数,针对特征图的至少两个方向分别进行卷积操作之前,还包括:根据设备状态和/或任务需求确定各个方向对应的卷积方式和/或卷积参数。
实际应用中,还可以获取预设的各个方向对应的卷积方式和卷积参数,以及,获取预设的各个方向对应的池化方式和池化参数。
具体地,至少两个方向中包含设定的特征图主方向;
那么,根据各个方向对应的卷积方式和/或卷积参数,针对特征图的至少两个方向分别进行卷积操作之前,还包括:根据特征图主方向对应的卷积方式和/或卷积参数,确定其他方向对应的卷积方式和/或卷积参数;
和/或,根据各个方向对应的池化方式和/或池化参数,针对特征图的至少两个方向分别进行池化操作之前,还包括:根据特征图主方向对应的池化方式和/或池化参数,确定其他方向对应的池化方式和/或池化参数。
具体地,卷积参数包括:卷积核大小、扩张率、卷积步长、参数量中的至少一项;
池化参数包括:池化核大小、池化步长中的至少一项。
进一步地,步骤S6202中将至少两个方向的操作结果进行融合处理,包括以下任一情形:
当针对特征图的至少两个方向分别进行卷积操作时,将各个方向的卷积操作结果进行融合处理;
当针对特征图的至少两个方向分别进行池化操作时,将各个方向的池化操作结果进行融合处理;
当针对特征图的至少两个方向分别同时进行卷积操作和池化操作时,将各个方向的卷积操作结果和池化操作结果进行融合处理;
当针对特征图的至少两个方向分别先进行卷积操作,再基于卷积结果进行池化操作(即依次进行卷积操作和池化操作)时,将各个方向的池化操作结果进行融合处理。
为了更好的融合效果,步骤S6202可通过以下方式现实:针对至少两个方向的操作结果中的每个操作结果,分别确定各操作结果对应的融合权重和/或特征偏置信息;根据融合权重和/或特征偏置信息,分别对各操作结果进行预定处理;对预定处理后的各操作结果进行融合处理。
可选地,对预定处理后的各操作结果进行融合处理之前,还包括:针对至少两个方向的操作结果中的每个操作结果,分别将操作结果和操作结果经过预定处理后的输出结果进行跳跃连接处理;
那么,对预定处理后的各操作结果进行融合处理,包括:将经过跳跃链接处理后的各操作结果进行融合处理。
具体而言,根据融合权重和/或特征偏置信息,分别对各操作结果进行预定处理,包括以下至少一项:
根据融合权重,分别对各操作结果进行加权处理;
根据融合权重,分别对各经过加权处理后的输出结果进行加权处理;
根据融合权重,分别对各经过偏置处理后的输出结果进行加权处理;
根据融合权重,分别对各经过跳跃连接处理后的输出结果进行加权处理;
根据特征偏置信息,分别对各操作结果进行偏置处理;
根据特征偏置信息,分别对各经过加权处理后的输出结果进行偏置处理;
根据特征偏置信息,分别对各经过偏置处理后的输出结果进行偏置处理;
根据特征偏置信息,分别对各经过跳跃连接处理后的输出结果进行偏置处理。
实际应用中,该方法还包括:根据将至少两个方向的操作结果合并后得到的特征图,确定对应的通道相关性特征;
那么,确定各操作结果对应的融合权重,包括:根据通道相关性特征,确定至少两个方向的操作结果中的每个操作结果分别对应的融合权重;
以及,确定各操作结果对应的特征偏置信息,包括:根据通道相关性特征,确定至少两个方向的操作结果中的每个操作结果分别对应的特征偏置信息。
这种优选的实现方式,相较于进行特征图处理时使用单方向的卷积操作,能够克服以下问题:
在进行特征图处理时,现有的方法使用了单个方向的卷积操作(其中,本申请可以将该方向称为前后方向,或者称为正向),即使用一个或多个卷积核对特征提取网络提取到的三维特征图的正向进行卷积操作,这种卷积方式中,对特征图中的某个特征层进行卷积运算时,只是使用了当前层的局部区域(局部区域大小和卷积核大小有关)的特征值进行卷积操作,卷积操作的输出结果针对该局部区域。使用同样的卷积核对同一物体的不同区域进行卷积操作时,其输出结果可能不同。
本申请的发明人发现,针对某些特定形状的物体(例如在图像的某一个方向上的尺寸比较大的物体),即使增加卷积核的尺寸,一次卷积操作也不能有效的覆盖物体的完整区域。对于这种特定形状的物体,往往需要针对该物体的各局部区域,分别进行多次卷积操作,每个局部区域卷积操作的结果可能不同,最终确定出的不同区域的像素点对应的物体类别可能不同,那么就可能导致该物体的某些像素点的分割结果不准确。作为示例地,在某图像中,若区域1和区域2都属于物体A,但是使用同样的卷积核对区域1进行卷积操作得到的结果和对区域2进行卷积操作得到的结果可能不同,那么各区域的像素点最终的分割结果可能不同。
例如,对于图1a中的路灯来说,在对特征图的每一层进行卷积操作时,不能通过一个卷积核对该路灯的全部区域做一次卷积操作,需要做多次卷积操作,那么势必将该路灯划分为多个区域,那么后续得出的不同区域的像素点的物体类别可能不同,那么就可能导致该路灯的某些像素点的分割结果不准确。
若为了增大每次卷积操作的有效覆盖区域,也可以增大卷积核的尺寸,但是对于这些特定形状的物体,即使增大了卷积核的尺寸,也很难通过一次卷积操作覆盖物体的完整区域。此外,如果一次卷积操作所覆盖的区域过大,每次卷积操作可能会引入一些背景信息(例如对于高并细的物体),因此也很难得到准确的分割结果。
由于图像中可能存在特定形状的物体时,例如在图像的某一个方向上的尺寸比较大的物体,现有的特征图处理方式很难得到准确的语义分割结果,即语义分割效果不理想,分割精度较低,对此本申请提出了一种多方向特征图处理方法,针对特征提取网络提取出的特征图,在进行特征图处理时,不是进行单方向卷积操作,而是针对特征图的多个方向(至少两个方向)进行卷积操作。本申请对特征图处理过程中的操作结果融合处理,也提出了多门控制特征通道融合的方法,先对特征图处理过程中的操作结果进行偏置处理和/或加权处理,再将处理后的结果进行融合。
通过本申请提出的多方向特征图处理方法,能够不增加卷积核尺寸,也能使对物体不同区域的操作结果是一致的。对某个物体,可以从至少两个方向进行特征图处理,例如,不仅从特征图的正向进行卷积,也可以从其他方向进行卷积,其他方向的卷积可以辅助从正向覆盖整个物体,从而能够获得更高层次的特征信息。也就是说,当从上下方向或左右方向进行卷积操作时,从正面视角看,每个卷积操作可以覆盖更大的区域,这样便可以提高分割特定形状的物体时的准确性和稳定性。
此外,通过本申请提出的多门控制特征通道融合的方法,与现有的融合方式相比,可以通过各操作结果对应的特征偏置信息和融合权重来增强操作结果中的有效信息,抑制特征图中不需要的信息,又可以通过跳跃连接处理来维护输出的类别ID图的细节信息,从而有效提升特征融合效果,提高语义分割结果的精度。
在一种可选的实现方式中,步骤S410中可以包括步骤1、步骤2以及步骤3,其中,
步骤1(图中未标注)、针对特征提取网络中的设定卷积层,根据设定卷积层对应的卷积参数对图像或输入的特征图执行卷积处理;
步骤2(图中未标注)、对卷积处理得到的特征图进行特征图处理,得到类别概率特征图,并根据类别概率特征图确定类别置信度;
步骤3(图中未标注)、若基于类别置信度确认需要调整设定卷积层对应的卷积参数,则调整设定卷积层对应的卷积参数后执行步骤1,若基于类别置信度确认不需要调整设定卷积层对应的卷积参数,则输出卷积处理得到的特征图。
实际应用中,步骤1中,若设定卷积层是第一个特征提取模块的第一个卷积层,则是对待进行语义分割的原始图像执行卷积处理,若设定卷积层不是第一个特征提取模块的第一个卷积层,则是对上一层的卷积层、或池化层、或批量归一化层输出,而在设定卷积层输入的特征图执行卷积处理。
上述设定卷积层可以为深度大于第一深度阈值的至少一个特征提取模块中,深度大于第二深度阈值的至少一个卷积层。
可以通过下述方式确定设定卷积层:从至少一个特征提取模块中选定至少一个关键卷积层作为设定的卷积层,设定的卷积层为深度大于第一深度阈值的特征提取模块中的关键卷积层;
其中,确定关键卷积层的方式,包括:从特征提取模块中选定至少一个卷积层作为关键卷积层,关键卷积层为特征提取模块中深度大于第二深度阈值的卷积层。
本申请实施例提出,设定卷积层可以预先确定,例如在构建语义分割网络时,确定哪些特征提取模块中的哪些卷积层作为设定卷积层。
步骤2中,根据类别概率特征图确定类别置信度,包括:确定类别概率特征图中的各像素点的最高概率;根据各像素点的最高概率的平均值,确定类别置信度。
可选地,步骤3可以通过下述方式确认是否需要调整设定卷积层对应的卷积参数:当类别置信度大于第一预定阈值时,确认不需要调整设定卷积层对应的卷积参数;否则,确认需要调整设定卷积层对应的卷积参数。
可选地,上述步骤3还可以包括:当总迭代次数不小于预设第一迭代次数阈值,和/或设定卷积层的迭代次数不小于预设第二迭代次数阈值时,确认不需要调整设定卷积层对应的卷积参数,输出卷积处理得到的特征图。
实际应用中,如果计算资源足够,则可以不设置迭代次数。
步骤3中,调整设定卷积层对应的卷积参数,包括:确定设定卷积层对应的参数变化量;基于参数变化量来调整设定卷积层对应的卷积参数。
进一步的,确定设定卷积层对应的参数变化量,可以包括:根据类别置信度,确定设定卷积层对应的参数变化量。
可选地,设定卷积层对应的参数变化量也可以是预设的固定值。
为下文方便描述,可以将这种提取特征的方案简称为自适应感受野方式。
这种采用自适应感受野方式的提取特征的方案,相较于采用固定的感受野提取特征,能够克服以下问题:
在语义分割过程中,输入图像中物体的尺寸非常丰富。在特征提取网络中,某卷积层的感受野是指该卷积层中卷积操作所影响的范围对应到输入图像中的大小,感受野主要由卷积参数(例如卷积核尺寸(即卷积核大小)或者扩张率(rate)等)所决定。大的感受野能够更好地覆盖尺寸较大的物体,准确的提取这类物体的特征,但是对于尺寸较小的物体,则会引入过多的噪声信息,降低特征提取的准确性;反之,小的感受野能够更好地覆盖尺寸较小的物体,准确的提取这类物体的特征,但是对于尺寸较大的物体,则无法完整的覆盖整个物体,导致特征提取的不完整,带来性能的下降。
理论上,分割大小不同、形状不同的物体时,需使用不同的感受野,且要求感受野能够覆盖需分割的物体。对于尺寸较大的物体,感受野如果过小,则会出现物体区域预测错误的情况,而对于尺寸较小的物体,感受野如果过大,则会出现非物体区域预测为物体的情况。但现有的方法中感受野都是预先设置并且固定不变的,所以现有的方法为了更好的分割不同尺寸的物体,需要使用大量含有不同尺寸的训练样本图像对特征提取网络进行训练,使网络尽量学习不同尺寸的物体信息,进而弥补固定感受野带来的问题。但是现有的这种方法,非常耗费资源,并且同一类别的物体在不同图像上的大小和形状差别可能比较大,如图2a和图2b所示,现有方式难以覆盖所有的情况,精度提升有限。
针对属于同一类别但是在不同图像上大小或形状不同的物体,本申请提出了一种自适应感受野调整方法,通过卷积层进行卷积操作后得到的类别置信度,在线自适应的调整该卷积层的感受野大小,将该卷积层的感受野大小调整到最合适的尺寸,尽可能的使调整后的感受野更好地覆盖图像中的物体,从而准确的提取物体的特征,同时也避免引入过多的噪声信息。通过上述自适应感受野调整方法,可以避免感受野过大时存在引入过多的噪声信息,降低特征提取的准确性的问题,也可以避免感受野过小时无法完整覆盖整个物体,导致特征提取的不完整的问题。上述自适应感受野调整方法,通过实时调整感受野后的卷积操作对图像进行特征提取,能够提高对不同大小的物体所提取的特征的准确性,进而提高了语义分割的分割精度,也提高了分割的稳定性。
在又一种可选的实现方式中,步骤S410可以包括:步骤4以及步骤5,其中,
特征提取网络会包含若干特征提取模块,每一个特征提取模块由若干网络层(比如卷积层,池化层,批量归一化层等)组成。
步骤4(图中未标注)、对当前特征提取模块提取的特征图进行特征图处理,得到类别概率特征图,并根据类别概率特征图确定类别置信度;
步骤5(图中未标注)、若基于类别置信度确认需要进入下一个特征提取模块进行特征提取处理,则输出当前特征提取模块提取的特征图到下一个特征提取模块,若基于类别置信度确认不需要进入下一个特征提取模块进行特征提取处理,则输出当前特征提取模块提取的特征图作为特征提取网络输出的特征图或输出步骤4中得到的类别概率特征图。
可选地,步骤5中可以通过下述方式确认是否需要进入下一个特征提取模块进行特征提取处理:当类别置信度大于第二预定阈值时,确认不需要进入下一个特征提取模块进行特征提取处理;否则,确认需要进入下一个特征提取模块进行特征提取处理。
步骤4中,根据类别概率特征图确定类别置信度,包括:确定类别概率特征图中的各像素点的最高概率;根据各像素点的最高概率的平均值,确定类别置信度。
为下文方便描述,将这种提取特征方案简称为自适应级联预测方式。
这种采用自适应级联预测方式的提取特征的方案,相较于采用固定的网络结构提取特征,能够克服以下问题:
现有的特征提取网络的网络结构都是固定的。而且网络为了保证输入复杂图像(场景比较复杂,或者物体数量比较多,或物体类型比较复杂的图像),会将网络设计的比较深比较大。在对简单图像进行分割时,仍然需要使用处理复杂图像时的大型完整网络,这对于简单图像来说是不必要的,会耗费大量计算时间和计算资源。
针对现有技术中所有图像都使用固定的网络结构而造成网络处理效率不高的问题,本申请提出了一种在线的自适应级联预测方式,可以自适应地决定参与在线预测的特征提取模块,在线自适应调整网络结构,即根据当前的特征提取结果的类别置信度,来决定是否跳过后续的特征提取模块,直接进行特征图处理步骤或直接输出预测结果,因此可以只经过若干层网络就输出最终结果,在对简单图像进行分割时,可以自适应的使用较少的特征提取模块进行特征提取,能够节省运算量,加快网络运算速度。
在又一种可选的实现方式中,步骤S410可以包括:步骤6,其中,
步骤6(图中未标注)、将基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果输入到下一个特征提取模块进行特征提取。上述类别预测结果可以为基于当前特征提取模块提取的特征图进行特征图处理得到的类别概率特征图,或者各像素的类别ID,即像素类别标签。
可选地,步骤6可以包括对基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果进行融合处理后输入到下一个特征提取模块进行特征提取。
例如,在计算速度优先考虑的情况下可以不经过融合单元,在优先考虑性能的情况下,为了信息更好的交互和融合,可以先经过融合单元,再将融合后的结果送入后续的深层特征提取模块。
为下文方便描述,将这种提取特征方案简称为多通道预测方式。
这种采用多通道预测方式的提取特征的方案,相较于采用固定的网络结构提取特征,能够克服以下问题:
现有技术的特征提取网络中,没有将浅层特征提取模块中输出的特征,和经过特征图处理得到的浅层模块的预测结果,如类别概率特征图作为后一个特征提取模块的输入。这一定程度上造成了物体之间的关系信息的割裂和缺失,语义信息没有被充分利用。
本申请提出的多通道预测方式中,使用浅层模块推断的预测结果作为深层网络的另一个输入,浅层网络的初步结果包含了物体之间的语义信息,如人骑自行车,这类信息可以指导深层网络提取更多的空间和语义信息,减小了预测区域。本申请实施例中,基于多通道预测方式可以使用浅层提取模块的预测结果来指导深层提取模块,提高了特征提取网络所提取的特征的准确性,进而提高了语义分割的准确性。
此外,由于特征提取模块的输入信息增多,且需要预测区域减小,本申请实施例提出,在不损失分割精度的情况下,特征提取网络中深层网络的卷积层的通道数可以相应地进行缩减,即深层特征提取模块的卷积层通道数可相应减少,如特征提取网络中设定特征提取模块中的卷积层的通道数小于预设的通道数阈值,其中,设定特征提取模块可以为深度大于第三深度阈值的至少一个特征提取模块。这种网络设计可以节省语义分割的运算量,加快了网络运算速度。
结合上述各提取特征的方案,如图7所示,步骤S410包括步骤S710。其中,图7中的步骤S420可以与图4中的步骤S420相同,也可以与图6中的步骤S620相同,其具体实现方式可参见对步骤S420或步骤S620的介绍,在此不再赘述。具体而言,
步骤S710:基于自适应感受野方式、自适应级联预测方式与多通道预测方式中的至少一项,对图像进行特征提取,得到特征图。
进一步地,本申请实施例提供的图像分割方法,还包括步骤:在对语义分割过程中所运用的各个模型进行离线训练时,所采用的损失函数Dloss为:
其中,N为图像中的总像素数量,i为预测的类别,j为实际类别,ci为像素属于i类别的概率,p为预测与实际一致的类别,xp ij={1,0},标记预测类别是否与实际一致。
那么,在离线训练时,总的目标损失函数为:
Loss=Segloss+α*Dloss
其中的Segloss为标准的交叉熵损失函数,α为Dloss与Segloss的平衡权重。
采用上述损失函数来解决训练样本分布不均衡的问题,与现有的方法使用像素级的困难样本挖掘方法相比,能够克服以下问题:
使用像素级的困难样本挖掘来解决训练样本不均,需在网络训练过程中,针对训练样本图像中某些数量较少或包含较难分割类别的样本的像素进行一些特殊的处理,比如,在损失函数中增加这些像素的误差权重,或者在数据集中增加该图像的数量。这样的处理只是简单地针对类别判断需要进行处理的像素,而忽略了物体像素之间的位置关系以及物体的特性,因而性能提升有限。
针对上述训练样本分布不均衡的问题,本申请提出了一种物体级的困难样本挖掘方法,利用物体之间的信息加强某些数量较少类别的物体分割效果,具体的,对传统的交叉熵损失函数进行改进,提出一种新型的损失函数Dloss,该损失函数可以加大难预测类别的权重,使训练过程更加注重包含数量较少的类别或较难分割的类别的样本,从而有效地提升整体语义分割精度。
可见,本发明实施例提供的图像分割方法,可以使得语义分割的性能得到有效提升。
下面将以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述困难点进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
实施例一
本发明实施例提供的解决方案,对如图6所示的技术方案进行详细介绍,能够解决上述困难点1,具体而言:
在绝大多数的网络结构中,为了得到更具有表征性的特征信息,需要对特征图进行进一步的处理,特征图处理往往是对特征图进行卷积处理。
标准的卷积方式只是使用了当前层的固定区域的信息,所以卷积不能有效的覆盖更大的区域。对于较高或较宽等特定形状的物体,如果卷积核不能覆盖整个物体的话,会出现分割出的物体不连续的情况。
而本申请的发明人得出,一个特征图可以被看作是三维的矩阵,如图8所示。基于此,本申请实施例提出了一种多方向特征图处理方法,该处理方法可以针对特征图的不同方向进行卷积运算,从而能够从不同的方向获得更高层次的特征信息。多方向的卷积方式可以获得特征图中多行或者多列的信息,也就是说,当从上下方向或左右方向进行卷积操作时,从正面视角看,每个卷积操作可以覆盖更大的区域。
例如困难点1中的一个又高又细的路灯,普通的卷积操作是将这个物体分块进行卷积操作,这就造成了块与块之间独立,容易出现路灯的上半部和下半部预测正确而中间出现预测错误的问题。然而对于多方向的卷积,上下方向的卷积可以辅助从正向覆盖整个物体,那么这种卷积方式可以提高分割特定形状的物体(如在图像某个方向上的尺寸比较大的物体)时的准确性和稳定性。
如图9所示,可以将虚框部分作为特征图处理过程,一种可行的实现方式中,可以通过预设的多方向特征图处理器来执行虚框部分。
其中,多方向特征图处理器可以包括多方向特征提取器和多门控制通道融合,结合图6和图8,通过多方向特征提取器执行步骤S6201,通过多门控制通道融合方法执行步骤S6202。
实际应用中,如图9所示,特征图处理过程还可以包括,在通过多门控制通道融合方法执行步骤S6202后,对融合处理得到的特征图执行卷积操作,得到类别概率特征图。
作为示例地,一种完整的语义分割流程可以包括:通过特征提取网络,对输入处理图像进行特征提取,得到特征图;将得到的特征图输入到多方向特征提取器,多方向特征提取器针对特征图的至少两个方向(如对前后方向、左右方向和上下方向中的至少两个方向)分别进行卷积操作,再对卷积后得到的结果进行融合处理,其中,在进行融合处理时,可以采用本申请实施例提出的多门控制通道融合方法,得到融合后的特征图,再经过卷积操作和softmax得到类别概率特征图,根据物体类别概率特征图,就可以确定类别ID,即确定每个像素点对应的最大概率的类别ID。
上述语义分割流程中,池化操作是可选的操作。即在针对特征图的至少两个方向进行卷积操作时,也可以同时对特征图进行池化处理。如果进行了池化处理,则将卷积后得到的结果和池化后得到的结果进行融合处理,得到融合结果,根据融合结果得到物体类别概率特征图,以确定类别ID。
实际上,对于本申请实施例,对于特征图的每个方向的特征图处理参见上述步骤S6201,具体而言,可以只使用卷积操作;也可以只使用池化操作;或者可以同时使用卷积操作和池化操作;还可以针对每个方向,先进行卷积操作,再根据卷积结果,进行池化操作。针对不同的操作方式,具体的融合处理过程可参见上述对步骤S6202的介绍,在此不再赘述。
具体地,步骤S6201中,不同方向对应的卷积方式和卷积参数可以相同,例如,利用相同的卷积方式和相同的卷积参数,分别对该特征图的至少两个方向分别进行卷积操作,得到卷积结果。或者,不同方向对应的卷积方式和卷积参数也可以不同,针对每个方向,均利用与方向对应的卷积方式和卷积参数对特征图的对应方向进行卷积操作,得到卷积结果。
其中,卷积方式包括标准卷积、空洞卷积(Atrous convolution)、深度卷积(depthwise convolution)或者可分离卷积(separable convolution)等。卷积参数包括卷积核大小(kernel size)、扩张率(dilation rate)、卷积步长、参数量(由kernel size、dilation rate等决定)等。当卷积方式为空洞卷积时,卷积核具备对应的dilation rate,当卷积方式为非空洞卷积时,只有kernel size、卷积步长和参数量,参数量由kernel size等决定。
同理地,步骤S6201中,不同方向对应的池化方式和池化参数可以相同,例如,利用相同的池化方式和相同的池化参数,分别对该特征图的至少两个方向分别进行池化操作,得到池化结果。或者,不同方向对应的池化方式和池化参数也可以不同,则针对每个方向,均利用与方向对应的池化方式和池化参数对特征图的对应方向进行池化操作,得到池化结果。
其中,池化方式包括最大池化,平均池化等。池化参数包括池化核大小、池化步长等。
本申请实施例中,步骤S620提出的特征图的至少两个方向包括前后方向、左右方向、上下方向中的至少两个方向。
实际应用中,可以将特征图的正向,即前后方向仍然作为特征图处理的主要方向,其他方向可以作为提供辅助处理。这是因为前后方向相对于其他方向,卷积操作的性能较高。因此,可以选取前后方向,并从左右方向、上下方向中选取至少一个方向进行卷积。
其中,针对特征图的每个方向,可以各设置一个卷积核,或者可以各设置相同卷积方式、不同卷积参数的多个卷积核。也就是说,针对特征图的每个方向,卷积操作的卷积核可以为一个或多个,当为多个卷积核时,各卷积核的卷积方式方式相同,和/或卷积参数不同。
本申请实施例中,可以预先设置每个方向对应的卷积方式以及卷积参数,若不同方向对应的卷积方式或卷积参数不同,可以分别设置每个方向的卷积方式以及对应的卷积参数。
结合上述步骤S6201中确定各个方向对应的卷积方式和卷积参数的方式,作为示例地,可以通过经验或实验结果,设置前后方向的卷积方式为Atrous convolution,以及设置卷积核的数量以及每个卷积核对应的参数,再根据前后方向的卷积方式以及卷积参数,设置上下或左右方向的卷积方式和卷积参数。例如,可以将上下或左右方向的卷积方式设置为depthwise convolution,或者,将上下或左右方向的卷积方式也设置为Atrousconvolution,且卷积核的数量设置为与前后方向的卷积核的数量一致,若前后方向的卷积核的kernel size较大,可以将上下或左右方向的卷积核的kernel size也设置的较大。
或者,结合上述步骤S6201中确定各个方向对应的卷积方式和卷积参数的方式,可以实时设置每个方向对应的卷积方式和卷积参数,例如可以根据设备状态、任务需求,针对每个方向选择相应的卷积方式和卷积参数。
如果任务需求实时性要求较高,或者设备电量较低或设备较忙,那么可以设置上下/左右,与前后方向的卷积方式和/或卷积参数不同,前后方向采用Atrous convolution,上下/左右可以采用depthwise convolution,上下/左右可以采用更小以及更少的卷积核。
如果任务需求性能较高,或者设备电量较多或设备空闲,那么可以设置上下/左右的卷积方式和卷积参数和前后方向的一致。
同理地,针对特征图的每个方向,可以各设置一个池化核,或者可以各设置相同池化方式,不同池化参数的多个池化核。
本方案可以预先设置每个方向对应的池化方式以及池化参数,若不同方向对应的池化方式或池化参数不同,可以分别设置每个方向的池化方式以及对应的池化参数。
结合上述步骤S6201中确定各个方向对应的池化方式以及池化参数的方式,作为示例地,通过经验或实验结果,设置前后方向的池化方式为平均池化方式,以及设置池化的核大小等于特征图的长和宽,再根据前后方向的池化方式以及池化参数,设置上下或左右方向的池化方式和池化参数,例如,可以将上下或左右方向的池化方式设置为最大池化或者平均池化,池化核在左右方向上的宽为1,在上下方向的高为1。
由上文的介绍可知,对特征图进行进一步的卷积处理和/或池化处理后,需要对得到的特征图进行融合处理。
现有技术进行特征融合时,大多直接进行并或相加处理,融合效果较差。不同的特征对于最终结果输出的贡献度不同,直接的融合方式会导致重要的特征被掩盖,影响系统性能。
本申请实施例提出了一种多门控制通道融合处理方法来对多方向特征提取之后的特征图进行融合,结合上文中提出的步骤S6202,简单来说,可通过以下方式现实:通过至少一个控制门对至少两个方向的操作结果进行融合处理。其中,每个控制门的定义如下:
一号门,该门对获取到的特征偏置信息执行操作,该偏置可以增强当前通道的有效信息,同时抑制当前通道的无效信息。在这之前,通过对多方向特征提取器所输出的特征图(上文中的操作结果)应用一个预设的卷积操作,来获得一个通道相关性特征,用来描述不同通道之间的联系。一号门对通道相关性特征使用预设的激活函数即可获得相应的偏置信息,其中,激活函数可以是relu、leaky relu、relu6、selu、tanh、sigmoid等。具体地,一号门的控制方法包括:将获取到的偏置信息与操作结果相加(即对操作结果进行偏置处理);或,将获取到的偏置信息与其它控制门的输出结果相加(即对其它控制门的输出结果进行偏置处理)。
二号门,该门对获取到的融合权重信息执行操作。在这之前,通过对多方向特征提取器所输出的特征图(上文中的操作结果)应用一个预设的卷积操作,来获得一个通道相关性特征,用来描述不同通道之间的联系。二号门对通道相关性特征使用预设的激活函数即可获得多方向特征提取器所输出的特征图中各个特征的权重,其中,激活函数可以是relu、leaky relu、relu6、selu、tanh、sigmoid等。具体地,二号门的控制方法包括:将获取到的权重信息与操作结果相乘(即对操作结果进行加权处理);或,将获取到的权重信息与其它控制门的输出结果相乘(即对其它控制门的输出结果进行加权处理)。
三号门,该门为直通门,仅进行跳跃连接(skip)处理(可以称为skip操作),输入和输出相同,均为多方向特征提取器所输出的特征图。该门的作用是保持语义分割最终输出的类别ID图的细节信息。具体地,三号门的控制方法包括:通过skip操作将其它控制门的输出结果与操作结果相加。
在实际使用的时候,可以根据具体的需求选择不同的门控制,例如为保持类别ID图的边缘更加清晰,则可以使用二号门和三号门,如果为了抑制类别ID图中的错误区域,则可以使用一号门和二号门,或者也可以使用一号门和三号门。结合步骤S6202可知,一号门和二号门也可以单独使用,另外,本申请实施例中不对三种门的顺序作限定,例如三号门也可以设置在一号门与二号门之后,也可以设置在一号门与二号门之间,本申请实施例也不对三种门的个数作限定,例如可以同时使用两个一号门。实际应用中,可以通过打开关闭对应的控制门来选择所需的控制门。
如图10所示,本申请实施例提出了一种可行的多门控制通道融合处理方法的逻辑流程,为表述简单,以多方向特征提取器所有输出中的一个输出结果(一次卷积操作的结果或一次池化操作的结果)为例:该结果的特征图首先与一号门的偏置相加后,与二号门的权重相乘,在三号门中再与该结果的特征图相加,得到该结果的特征图进行第一步融合处理后的结果。重复以上过程,对多方向特征提取器的各个输出结果均应用上述第一步融合处理流程,最后对所有第一步融合处理后的结果对应的特征图进行求和,得到最终融合结果。
需要说明的是,本申请实施例的特征图处理方法可以与其他任意的特征提取方式(例如现有的特征提取方式、后续各实施例提供的特征提取方式等)进行结合。
下面以ASPP(Atrous Spatial Pyramid Pooling,空间金字塔组合)为例,介绍基于本申请实施例的多方向特征图处理方法的实现过程:
标准的ASPP在特征图的正面使用了四个平行的不同扩张率(dilation rate)的卷积核进行空洞卷积操作,平行的含义表示对于同一个特征图使用四个不同的卷积核进行卷积操作,在进行空洞卷积时,dilation rate不同,那么卷积核可以认为是不同的。
而本申请实施例中,对于多方向特征提取器的执行过程,是针对特征图的不同方向分别进行卷积操作,那么,如图11所示,
和ASPP相似的部分是:在特征图的正面(前后方向),可以使用一个或多个不同dilation rate的空洞卷积操作,本申请实施例以4个为例。除了进行卷积操作,也可以对特征图进行池化,池化方式可以为平均池化,池化核大小与特征图大小相同。
与ASPP不同的部分是:除了正面的卷积和池化操作,我们也可以进行上下方向和/或左右方向的卷积操作和/或池化操作。在进行上下方向和/或左右方向的卷积操作和/或池化操作时,为保证通道之间不影响,避免空间位置错乱,我们可以限制卷积核(以及池化核)的其中一个维度为1,也就是说,每次卷积操作或池化操作针对特征图中的某一层。
作为示例地,左右方向使用了多个(例如四个)平行的的卷积操作,这些卷积的卷积核大小的宽都是1,高可以是不同的S,例如S=3,且各个卷积核大小可以设置为一致,即[3,1],也可以设为不一致。每个卷积核对应的扩张率(为描述简单,下面以rate表示)可以一致也可以不一致,例如每个卷积的rate分别是{1,8,16,32}。
可选地,左右方向也都使用了池化操作,以平均池化为例。平均池化的步长为1,核大小为[H,1](H是特征图的高)。在平均池化操作之后,可以把特征图再次放缩到原来大小。
上下方向可以与左右方向使用相同的策略。不同的是,卷积核的大小为[1,3],平均池化的核大小是[1,W](W是特征图的宽)。
另外,在标准的ASPP中,多支路特征直接进行并联操作(也称为concat操作,用于连接两个或多个数组)起来。concat操作不能有效的突出有效信息,反而会淹没有效信息,所以concat方式可能会对融合后的性能带来影响。
本申请实施例中,多门控制通道融合方法可以将不同卷积或者池化后的结果通过学习的方式融合起来:
如果卷积和池化并行处理,则先将所有方向的所有卷积结果和池化结果连接得到合并后的特征图;如果卷积和池化串行处理,则先将所有方向的所有池化结果连接得到合并后的特征图。
本申请实施例中的多门控制通道融合,可以认为是对合并后的特征图中的每一层,分别获取该层对应的融合权重,根据每一层的融合权重对各层进行加权处理,如加权求和处理。
具体地,首先对多方向特征提取器输出的所有特征图应用“并”操作。
在完成并操作之后,需要学习每个特征图对最终输出结果的贡献程度,这里采用多门控制通道融合方法学习不同特征图对最终输出结果的贡献度。
在学习一个特征图对最终输出结果的贡献度时,首先将多方向特征提取器输出的所有特征图并操作后的特征图通过一个1×1的卷积操作,得到通道相关性特征,然后通过下面三个门控制。
首先通过一号门,该门为tanh操作,这个门用来增强信息并且抑制无用信息,该门的输入为通道相关性特征,输出为偏置。在这里之所以采用tanh增强信息,是因为tanh的数据区间是[-1,1],这种方法可以抑制特征图上部分不需要的数据,也可以增强部分数据的范围。
然后通过二号门,该门是sigmoid操作,该门的输入为通道相关性特征,输出为学习得到的权重。在这里采用sigmoid,是因为sigmoid的数据范围为[0,1],可以直接得到一个权重。
接着通过三号门,该门直接进行skip操作来维护细节信息不丢失。
综上,多方向特征提取器输出的一个结果加上偏置,乘以权重,再加上该结果,即为三号门的输出。每个方向的每个操作都采样相同的方式得到输出。最后把所有的输出全部相加得到最终输出结果。
由此便可得到本申请实施例提供的多方向特征图处理方法的优势之一在于:与concat操作相比较,多门控制特征融合是可以学习的;与单门控制相比较,多门控制可以增强有效信息,又可以维护输出的类别ID图的细节信息。
本申请的发明人经过试验得出:
1、基于本申请实施例的多方向特征提取器与标准的ASPP相比,在验证集上有0.8%的性能提升;
2、基于本申请实施例的多门控制通道融合方法与concat操作相比,在验证集上有0.2%的性能提升;
结果表明,本申请实施例的多方向特征处理器可以提升对特定形状的物体的分割效果。
实施例二
本发明实施例提供的解决方案,对上述采用自适应感受野方式对输入图像进行特征提取的技术方案进行详细介绍,能够解决上述困难点2,具体而言:
在语义分割中,输入图像中物体的尺寸非常丰富。在网络中,某层的感受野是指该层中卷积操作所影响的范围对应到输入图像中的大小,感受野主要由卷积参数(例如卷积核尺寸或者扩张率(rate)等)所决定。大的感受野能够更好地覆盖尺寸较大的物体,准确的提取这类物体的特征,但是对于尺寸较小的物体,则会引入过多的噪声信息,降低特征提取的准确性;反之,小的感受野能够更好地覆盖尺寸较小的物体,准确的提取这类物体的特征,但是对于尺寸较大的物体,则无法完整的覆盖整个物体,导致特征提取的不完整,带来提取性能的下降。
因此,本申请的发明人认为,为了处理大小形状不同的物体的语义分割,需要灵活地调节感受野,使其可以恰好覆盖相应物体尺寸。
然而现有技术中,在网络训练结束之后,网络中所有层的卷积参数都是固定的,即网络结构的感受野都是固定的,在应用阶段不能调整。现有方法为了能够适应多样的物体尺寸,大多采用含有多种尺寸物体的大规模训练集。不难理解,这种方法非常耗费计算资源,且训练集的获取也非常昂贵,并难以覆盖所有情况。
为了解决上述问题,本申请实施例提出了一种自适应感受野,可以根据输入图像中物体的尺寸,在线自适应的调整网络感受野,带来更好的特征提取能力,如图12所示,对输入图像进行若干次特征提取,在某次进行特征提取后,进行自适应感受野调整,然后继续进行特征提取,根据最终提取得到的特征图进行特征图处理,得到分割结果,最终提高分割性能。直观的来看,就是能够实现用大感受野提取大尺寸物体的特征,用小感受野提取小尺寸物体的特征。
具体而言,采用自适应感受野方式,对输入图像进行特征提取,得到特征图,可参见上述步骤1、步骤2以及步骤3,若针对特征提取模块提取得到的特征图中在设定卷积层中执行自适应感受野,简单来说,如图13所示,
步骤SA,输入上一层特征图,上一层特征图可是上一层的卷积层、或池化层、或批量归一化层输出的特征图。
步骤SB,根据当前卷积方式和卷积参数对上一层特征图进行卷积运算(即图中的卷积操作),得到卷积后的特征图。该卷积运算可以为标准卷积、depthwise convolution或者separable covolution等。
步骤SC,利用特征图处理模块(可以为单方向的,也可以为实施例一中多方向的)处理后的结果得到类别概率特征图。可以将特征图处理模块处理后的结果,通过卷积和softmax得到类别概率特征图。
类别概率特征图中的每个特征值表征了对应像素点属于某物体类别的概率值。依据类别概率特征图判断每个类别的概率(对应上文中的类别置信度),概率越高说明预测的类别ID图准确性越大,进而说明感受野更为合适。反之,概率越低,说明预测的类别ID图的准确性越低,说明目前的感受野大小不合适,需要进一步调节。具体的,针对物体类别概率特征图中的所有像素点取最高概率,求取各最高概率的平均值(即上文步骤2中确定类别置信度的方式),如果平均值大于阈值,则说明预测的类别ID图准确性越大,进而说明感受野更为合适。
此处判断准确性的高低时,可以根据事先设定好的阈值。如果物体类别的概率大于阈值,认为已经找到最佳感受野,输出该感受野下卷积得到的特征图,进入下一层进行处理;如果物体类别的概率小于或等于阈值,则进入SD的判断(即上文步骤3中确认是否需要调整设定卷积层对应的卷积参数的方式)。
步骤SD,判断迭代次数是否符合最大迭代次数要求。因为迭代卷积操作运算会消耗一定的运算资源,需要加以控制,所以要限制迭代次数。如果计算资源足够,则可以不设置迭代次数。
假设整个网络中有n个自适应感受野模块,每个模块最大可能的迭代次数是m(对应上文中的预设第二迭代次数阈值,本领域技术人员可以根据实际情况进行设置),网络中所有的自适应感受野模块总迭代次数最大值为N(对应上文中的预设第一迭代次数阈值,本领域技术人员可以根据实际情况进行设置)。则每个模块的可能迭代次数iteration需满足以下条件:
如果本次迭代仍然满足迭代条件,则继续寻找最佳感受野。
否则,说明虽然没有找到最佳感受野,但是运算资源消耗太大,只能将目前的感受野认为是已经找到的比较好的感受野,输出该感受野下的卷积得到的特征图。
上述过程中,需要计算调整感受野的参数变化量(即设定卷积层对应的参数变化量)。参数变化量step可以为固定值,也可以由平均概率(Probability)(即上述类别置信度)和阈值(threshold)共同决定,其中,平均概率是所有类别的概率平均值,阈值可以由经验决定。计算公式如下:
height为特征图的高,width为特征图的宽。这里限制最大的step不超过图像本身,因为若超过图像本身大小,卷积操作时会进行大量无用的卷积计算。
如果该层的卷积为标准卷积,则参数变化量可以是卷积核的大小。如果该层的卷积为空洞卷积,则参数变化量可以是空洞卷积的dilation rate。
进一步地,利用参数变化量,更新卷积参数,例如,新卷积参数=旧卷积参数+step,即图中的Rate=Rate+step。
因为上述流程需要增加额外的计算时间来获得更好的类别ID图,所以此处可以根据用户的不同需求,定制化使用。参见上文步骤1中确定设定卷积层的方式,作为示例地,如果用户定义效率优先,则该流程可以仅出现在特征提取阶段的最后一个关键卷积层。在特征提取过程中,随着网络的加深,特征图的分辨率不断的降低,关键卷积层是指在特征提取阶段的同一分辨率特征图中的最后一个卷积层,依照特征图分辨率从大到小对关键卷积层进行排序,最后一个关键卷积层即分辨率最低的关键卷积层。之所以将同一特征图分辨率下的最后一个卷积层是定义为关键卷积层,是因为该卷积层的卷积操作获得了特征图在该分辨率下的最佳语义信息。如果用户定义性能优先,则该流程可以应用在至少两个关键卷积层。因为自适应感受野模块对于感受野的调整范围有限,多次应用能够带来更好的性能。
如果在云端或计算力足够的环境中部署该算法,且性能要求极高的情况下,如图14所示,可以在每个卷积层中采用自适应感受野操作。这可以寻找得到最佳的感受野方案从而获得最佳的类别ID图。在图14中,同一分辨率中的卷积层组成了一个特征提取模块。
本申请实施例提供的自适应感受野至少包括以下优势:
1、自适应感受野可以提高对不同大小的物体分割稳定性
2、自适应感受野可以应用在关键部位,不会非常耗时
由此,本申请的发明人经过试验得出:
手动设置卷积的rate为2,则会带来0.2%的性能提升。
手动设置卷积的rate为6,则会带来0.3%的性能提升。
自适应感受野在验证集上带来0.4%的性能提升。
如图15~16所示,自适应感受野对于不同大小的物体更加稳健。
除了上述自适应感受野方式,本发明还提出了与现有技术不同的设置感受野的技术方案,下面进行详细介绍。
目前的绝大多数网络是在特征提取网络之后设置一个多感受野处理模块,多感受野处理模块对特征提取网络输出的特征图按照预先设置的多个卷积参数分别进行卷积运算(如每个卷积运算的卷积核大小均为3*3,但是对应的rate不同),得到卷积后的多个特征图,然后将卷积后的多个特征图进行融合处理(例如进行并操作),根据融合得到的特征图进行后续的操作,如进行特征图处理以及确定类别概率特征图等。
其中,可以通过下述方式进行融合:
y=f(f(x))*w1+g(g(x))*w2
y表示感受野处理模块输出的特征图,x表示输入到感受野处理模块的特征图,f(f(x))表示其中一个支路进行卷积处理后得到的特征图,w1为该支路对应的权重,g(g(x))表示另一个支路进行卷积处理后得到的特征图,w2为该另一个支路对应的权重。其中,每个支路分别进行两次卷积处理,例如,f(x)和g(x)为经过一次卷积处理后得到的特征图,f(f(x))和g(g(x))为经过两次卷积处理后得到的特征图。其中,g(x)可以为空洞卷积,f(x)可以为标准卷积。
经过本申请发明人发现,按照现有的感受野设置方式进行特征提取时,特征提取的准确度不高。
对此,本申请实施例提出了下述多支路的多感受野的处理方式。
具体而言,将设定特征提取模块提取的特征图通过至少一个感受野处理模块进行感受野处理,得到感受野处理后的特征图。
一般的特征提取网络会包含若干特征提取模块,每一个模块由若干网络层(比如卷积层,池化层,批量归一化层等)组成。本申请实施例提出,针对特征提取网络的设定特征提取模块,分别预先设置一个感受野处理模块。
其中,设定特征提取模块,包括以下任一种:
特征提取网络中的任一特征提取模块;
特征提取网络中的深度大于第三深度阈值的任一特征提取模块。
即本申请实施例中,可以针对特征提取网络的每个特征提取模块分别设置感受野处理模块,也可以在特征提取网络中选择选择深度大于设定阈值的特征提取模块来设置感受野处理模块,也就是说,选择网络中靠近输出端的特征提取模块来设置感受野处理模块,例如,选择特征提取网络中最后一个特征提取模块作为设定特征提取模块。
其中,针对设定特征提取模块可以设置至少一个感受野处理模块,例如,设置一个或者多个感受野处理模块,当设置多个感受野处理模块时,多个感受野处理模块可以串联操作,前一个感受野处理模块输出的特征图作为后一个感受野处理模块的输入。
上述感受野处理模块包含至少一个感受野处理支路。
若包含一个感受野处理支路,则任一感受野处理模块进行感受野处理,包括:
将设定特征提取模块或上一个感受野处理模块输出的特征图,通过当前感受野处理模块进行卷积处理,得到卷积处理后的特征图。
一种可行的实现方式中,方式是在特征提取的同时多支路的去获取感受野。具体的,该感受野处理模块包含多个感受野处理支路,可以包含至少两个支路,每一个支路可以具有不同的感受野,即对应不同的卷积参数。经过上述多支路的感受野,可以得到卷积后的多个特征图,每一个支路预先经过网络学习得到对应的融合权重,得到卷积后的多个特征图后,可以基于各支路分别对应的融合权重,将各支路得到的特征图进行融合处理。即本申请实施例中,任一感受野处理模块进行感受野处理,包括:将设定特征提取模块或上一个感受野处理模块输出的特征图,通过当前感受野处理模块的各个感受野处理支路分别进行卷积处理,得到卷积处理后的各特征图;再基于当前感受野处理模块的各个感受野处理支路分别对应的权重,将卷积处理后的各个特征图进行融合处理。若当前感受野处理模块为非最后一个特征提取模块的最后一个感受野处理模块,则融合处理后得到的特征图可以输出到下一个特征提取模块进行特征提取,若当前感受野处理模块为设定特征提取模块的串联的多个感受野处理模块中非最后一个感受野处理模块,则融合处理后得到的特征图也可以输出到下一个感受野处理模块,若当前感受野处理模块为最后一个特征提取模块的最后一个感受野处理模块,则融合处理后得到的特征图也可以直接根据融合得到的特征图进行特征图处理以及确定类别概率特征图等后续操作。
基于上述方案,本申请实施例提出了两种具体的实现方式,下面分别进行具体介绍。
第一种实现方式:感受野处理模块中的各支路对应的卷积参数中的参数量不同,其中,卷积核大小可以相同(如均为3*3大小的卷积核),rate可以不同。
如图32所示,以两个支路为例,设定的特征提取模块输出的特征图分别经过两个支路的感受野处理,其中,某一个支路的感受野处理可以进行空洞卷积,另一支路的感受野处理可以进行标准卷积,两个支路对应不同的参数量,卷积核大小可以相同,rate可以不同。将各支路经过多次卷积操作后得到的特征图,按照相应的权重进行融合处理,得到该感受野处理模块输出的特征图。例如,图32中的空洞卷积对应的权重为权重1,标准卷积对应的权重为权重2,按照权重1和权重2将两个支路的特征图进行融合处理。
在上述第一种实现方式中,网络训练的流程和在线处理的流程一致。
此外,按照上述第一种实现方式进行特征提取时,由于在特征提取过程中进行了多支路的多感受野处理,因此特征提取的准确度有了较大的提高,其处理速度也得到了提升。
第二种实现方式:任一感受野处理模块中的各感受野处理支路进行卷积处理所采用的卷积参数量(卷积参数中的参数量)相同,其中,卷积核大小可以相同(如均为3*3大小的卷积核),rate可以不同。也可以认为,各支路的卷积运算共享相同的参数量。
如图33所示,以两个支路为例,设定的特征提取模块输出的特征图分别经过两个支路的感受野处理,其中,某一个支路的感受野处理可以进行空洞卷积,另一支路的感受野处理可以进行标准卷积,两个支路对应相同的参数量,即各支路的卷积运算共享相同的参数量,各支路的卷积核大小可以相同,rate可以不同。将各支路经过多次卷积操作得到的特征图,按照相应的权重进行融合处理,得到该感受野处理模块输出的特征图。例如,两个支路的权重相等,均为1/2,按照上述权重将两个支路的特征图进行融合处理,也就是说,将两个支路的输出结果求取平均值。
按照上述第二种实现方式进行特征提取时,由于在特征提取过程中进行了多支路的多感受野处理,且多支路的多感受野处理采用了共享的参数量,没有增加新的参数量,因此训练特征提取网络时更容易收敛,训练更稳定,特征提取的准确度有了较大的提高,其处理速度也得到了提升。
在上述第二种实现方式中,网络训练的流程(也可以称为线下模式)和在线处理的流程(也可以称为线上模式)可以一致,例如均为图33所示。
此外,也可以在网络训练阶段采用如图33所示的方式,而在线处理流程可以采用如图34所示,只保留训练阶段的一个支路,可以保留图33中的空洞卷积支路,也可以保留图33中的标准卷积支路,也就是说,针对特征提取网络的设定特征提取模块分别预先设置一个感受野处理模块,该感受野处理模块包含一个支路。经过上述感受野处理模块,结合上文可知,可以将卷积后的特征图输出到下一个特征提取模块进行特征提取,也可以输出到下一个感受野处理模块,也可以直接根据融合得到的特征图进行特征图处理以及确定类别概率特征图等后续操作。这种方式可以在在线处理时大大减少网络计算时间,提高了特征提取的处理速度。
按照上述方式,本申请实施例提出了如图35所示的语义分割网络结构,将原始的图像融入到网络中,对输入图像进行特征提取,采用的网络编码方式可以是Xception的网络编码方式,将特征提取输出的特征图输入到感受野处理模块,其中可以串联多个感受野提取模块,每个感受野提取模块可以分成两个支路,每个支路都有不同的感受野,每个支路按照不同的感受野(即对应不同的卷积参数)进行卷积处理(此过程也可以认为是特征提取过程),两个支路得到的特征图进行融合后,输入到下一个感受野处理模块。对最后一个感受野处理模块输出的融合结果进行1*1的卷积操作,然后经过特征图处理,得到类别概率特征图,最后获得类别ID图,输出最终分割结果。
实施例三
本发明实施例提供的解决方案,对上述采用自适应级联预测方式及多通道预测方式对输入图像进行特征提取的技术方案进行详细介绍,能够解决上述困难点3,具体而言:
本申请实施例中,对于基于级联预测方法对输入图像进行特征提取的技术方案中,考虑到一般的特征提取网络会包含若干特征提取模块,每一个模块由若干网络层(比如卷积层,池化层,批量归一化层等)组成。如图17a所示,深层模块可以提取抽象的语义特征,浅层模块则可以提取相对具体的低级别形状特征。大多数情况下的图像趋于简单,可以被较浅层的模块识别,仅需要浅层的特征提取模块。另一方面,在复杂场景下的图像就需要更深的特征提取模块,以及更多的参数,以提取相对抽象的高级别语义特征。
本申请实施例中,如图18所示,参与在线预测的特征提取模块数量是由输入图像自适应决定的。是否需要后面的特征提取模块是由当前模块计算的置信度(对应上文中的类别置信度)所决定。置信度可以基于预测结果的概率图,但不限定于此。如果置信度大于设定阈值,则认为图像已经被当前模块很好地推断,不需要深层模块。这时网络就直接把该特征提取结果直接作为特征提取网络的输出,进行后续操作得到预测结果,不再使用深层模块。此外,也可以直接输出得到的类别概率特征图,得到预测结果,不执行特征图处理的步骤。
参见图17a和图17b,展示出了现有技术和本申请实施例的级联预测方法的对比示意图,图17a为现有技术运行流程,输入图像经过完整的特征提取模块(一直到模块n+4),再经过特征图处理,ID计算等,最后输出类别概率特征图,进而得到语义分割结果,即预测结果。该方式使得网络运行较慢,耗费较多的计算量。图17b为本申请实施例的级联预测方法的运行流程,特征提取过程在模块n+2处结束,进入特征图处理阶段,最后输出类别概率特征图,得到分割结果。可以看到,本发明大幅减少了计算量(模块n+3和模块n+4并未运行),加快了网络运行速度。
具体而言,采用自适应级联预测方式,对输入图像进行特征提取,得到特征图,可参见上述步骤4和步骤5,简单来说,如图19所示:
步骤SE,由于较浅层的提取模块仅能提供提取较低层的特征(如物体的轮廓),物体的语义信息较少,很难预测物体的类别。因此,我们一般从网络的中间层模块应用本发明点。例如,整个网络的深度为2n,本申请实施例从第n个或第n+1个模块开始采用级联预测方法。
步骤SF,将当前模块(深度>n)提取的特征,送入特征图处理模块(可以采用单方向的,也可以采用实施例一中多方向的,具体可以根据实际场景和设备要求来选择特征图处理方案,例如在移动端或对实时性要求比较高的时候,可以采用单方向的特征图处理技术,能够提高处理速度),输出类别概率特征图。
步骤SG,根据物体类别概率特征图计算置信度,置信度越高,证明网络判断物体类别的把握越大,说明该物体或场景比较简单,属于简单图像。反之,置信度越低,证明网络判断该图像物体类别的把握较低,说明该物体或场景复杂,属于较难的图像。这里,置信度可以有多种计算方式,比如一种简单的方式参见上述步骤4中确定类别置信度的方式,计算概率图中所有像素的概率最高值的平均值来作为置信度。另外还可以采用加权平均,或是设定相应的函数来计算。
步骤SH,参见上述步骤5中确认是否需要进入下一个特征提取模块进行特征提取处理的方式,比较置信度与事先设定好的阈值。大于阈值时,认为针对输入图像,目前的特征提取网络已经可以很好地提取特征,不需要后续更深的特征提取模块,直接进入特征图处理阶段,得到预测结果,或者在步骤SF中,若采用实施例一中多方向特征图处理方式来进行特征图处理,则此时可以直接输出类别概率特征图,得到预测结果,不需要执行特征图处理阶段。小于或等于阈值时,认为当前特征提取模块对输入图像提取的特征还不够,需要后续更深的进一步提取特征。上述阈值就可以根据经验和实验得到,一个典型值为0.8。
以图20为例,在特征提取模块n+1处,开始进行自适应级联预测。在n+1处,置信度较低,继续后续特征提取模块;在n+2处,置信度大于阈值,结束特征提取过程,直接进入特征图处理模块。n的取值根据特征提取模块和实际的应用场景决定。
本申请实施例中,对于基于多通道预测方法对输入图像进行特征提取的技术方案中,考虑到现有技术中,如图21所示,没有将浅层特征提取模块中输出的特征及经过特征图处理得到的类别概率特征图(浅层模块的预测结果)作为后一个特征提取模块的输入。这一定程度造成物体之间的关系信息的割裂和缺失,语义信息没有被充分利用。
具体而言,采用多通道预测方式,对输入图像进行特征提取,得到特征图,可参见上述步骤6,简单来说,继续如图21的下半部分所示,
使用浅层模块推断的像素类别标签(即预测结果)作为深层模块的另一个输入。浅层模块的初步结果包含了物体之间的语义信息,如人骑自行车,这类信息可以指导深层模块提取更多的空间和语义信息。由于输入信息的增多,且需要预测区域的减小,在不损失精度的情况下,深层模块的卷积层的通道数也可以相应地进行缩减。
具体而言,需要对基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果进行融合处理后输入到下一个特征提取模块进行特征提取。简单来说,如图22所示:
浅层模块将输出的特征图以及输出特征图经过特征图处理模块得到的类别概率特征图(即类别预测结果)一起传递到深层特征提取模块。参见上述步骤6,如果输出的特征图与类别概率特征图的尺寸不同,可以先经过一个融合单元进行融合操作,融合结果再进入后续的特征提取模块。本方案中,融合单元的典型结构为,输出的特征图和类别概率特征图各经过一个核大小是3*3的卷积,然后将特征图的尺寸调整为同一尺寸,再进行相加(add)操作。需要注意的是,融合单元并不局限于此种结构,例如可以用连接(concatenate)和卷积代替add操作。如果输出的特征图同类别概率特征图的尺寸相同,可以根据情况选择是否经过融合单元。例如在计算速度优先考虑的情况下可以不经过融合单元,直接将两个输入送入后续的深层特征提取模块。在优先考虑性能的情况下,为了信息更好的交互和融合,可以先经过融合单元,再将融合后的结果送入后续的深层特征提取模块。
通过融合浅层的特征图和预测结果,即浅层模块得到的推断结果会作为深层模块的另一个输入,这样可以传递更多的空间和语义信息,提高深层模块的有效特征的提取性能,更好地进行语义分割预测。这样的话,相比现有技术,深层模块的卷积层的通道数就可以大幅削减,具体的削减程度根据特征提取器,依据经验和实验而决定。以残差网络ResNet为例,最后两个模块的通道数最大可以减少1/3,可以大幅节省计算资源及时间。
本申请实施例中,如图23a所示,还提出一种多通道自适应级联预测结构,该结构同时包括级联预测功能和多通道预测功能。主要是因为目前绝大多数方法使用固定网络结构进行预测,即输入图像必须经过从网络第一层到最后一层的所有运算操作才能得到输出结果。浅层模块的预测结果不会再输入后边的网络,即浅层模块的分割结果不用来指导深层模块的推定。例如,现有的多个模块串联的语义分割网络结构,如图23b所示。输入图像顺序经过三个模块,第一个模块先推断图像中比较简单的区域,将其余的区域传给第二个的模块进行处理。第二个模块预测第一个模块传递过来区域中相对简单的区域,即从整体看中等难度的区域,将剩下的难度最大的区域送入第三个模块进行处理。第三个模块最后输出难度最大区域的预测结果。在形成简单、一般、较难的三个不同区域的类别ID图之后,再将它们进行融合得到最终的语义分割预测结果。
上述语义分割网络结构存在两大问题:第一,不论输入图像中的场景或物体简单与否,每一张图像都要经过完整的三个模块。在场景简单的情况下,极有可能第一个模块已经很好的输出结果了,但是还要经过后面的两个级联模块,极大地浪费了运算时间和运算资源。第二,前边模块判定的简单区域不会再进入后边的模块。这造成物体之间的关系信息的割裂和缺失,比如输入人骑自行车的图片,如果在前面已将人分割出来,只传递其余部分到后层模块,自行车由于形状复杂且缺少人的图像,人骑车的语义信息没有被充分利用会导致自行车部分像素无法被准确分类。
为了解决上述问题,本申请实施例提供的多通道自适应级联预测结构如图18所示,真正参与在线预测的模块是由输入图像自适应决定的,而且浅层模块得到的推断结果会作为深层模块的另一个输入,这样可以传递更多的空间和语义信息,更好地进行语义分割预测。其中,具体的级联预测方法和多通道预测方法可参见上述介绍,在此不再赘述。
本申请实施例提供的多通道自适应级联预测结构至少包括以下优势:参与在线预测的特征提取模块数量由输入图像而自适应决定,因而可以只经过若干层网络就输出最终结果。另外,深层特征提取模块的卷积层通道数也可相应减少。这种设计节省了运算量,加快了网络运算速度。且浅层模块的分割结果可以用来指导深层模块的推定,提高了语义分割准确性。
实施例四
本发明实施例提供的解决方案,能够解决上述困难点4,具体而言:
损失函数应用在模型的离线训练过程中,网络根据损失函数的计算值,进行反向传播,进而更新每一层的模型参数。在语义分割领域,最为常见的损失函数是交叉熵损失函数。
交叉熵是用来评估当前训练得到的概率分布与真实分布的差异情况,即实际输出的概率与期望输出的概率的距离。交叉熵的值越小,两个概率分布就越接近,减少交叉熵损失就是在提高模型的预测准确率。其离散函数形式为:
其中,p(x)是真实分布,q(x)是通过数据计算的估计概率,x是图像的像素点。图像中所有像素点的交叉熵损失函数的平均值就可以作为该网络训练时的损失函数。
本申请的发明人发现,交叉熵损失函数对于图像的每一个像素点都是按照统一的公式计算,没有位置和属于物体类别的差异,忽略了像素之间的关系。例如图像边缘属于背景的像素的交叉熵和图像中心区域属于物体的像素的交叉熵在进行平均值计算时权重相同,客观上造成了图像中占据面积较大的物体类别的损失权重比像素点较少的物体类别的损失权重要大,使网络被训练成倾向于对训练样本中像素占比大的类别分割效果好,像素占比小的类别分割效果差。
然而,不同类别的物体在训练数据中分布不均衡的情况普遍存在于语义分割的训练数据集中,对于部分物体类别,由于对应的训练数据很少,交叉熵损失函数倾向于忽略掉这类物体,因此会造成网络训练的困难和性能的下降,我们将这类训练样本定义为困难样本。
综上,交叉熵损失函数不具备处理困难样本的能力,为了缓解数据分布不均所带来的困难样本问题,需要对交叉熵损失函数进行改进。
现有技术中,对像素级困难样本的挖掘,例如采用损失函数focus loss:
FL(pt)=-αt(1-pt)γlog(pt)
其中pt为预测正确的类别的概率,αt为放缩倍数,γ为指数倍数。在该损失函数中,将物体分为像素级的困难样本进行挖掘。显然,样本越易分,pt越大,则对loss的贡献就越小;对应的,困难样本的pt会较小,对loss的贡献会比较大,在训练过程中损失函数则会更倾向于优化困难样本,达到缓解数据不均问题的目的。
该损失函数将整幅图像视为像素级的困难样本进行处理,每个像素是孤立存在的。但是,在语义分割任务中,像素并不是孤立存在的,而是与其周边的像素具有很强的相关性(例如属于同一个物体),所以该损失函数容易造成分割结果的不连续性,如物体内部存在空洞。
本申请实施例提出一种新型的损失函数Dloss。该损失函数可以加大难预测类别的权重,从而有效地提升整体语义分割精度。具体公式如下:
其中,N为图像中的总像素数量,i为预测的类别,j为实际类别,ci为像素属于i类别的概率,p为预测与实际一致的类别,xp ij={1,0},标记预测类别是否与实际一致。
在离线训练时,总的目标损失函数:
Loss=Segloss+α*Dloss
其中的Segloss为上述标准的交叉熵损失函数,α为Dloss与Segloss的平衡权重。
本申请实施例提供的新型的损失函数Dloss,可以应用在对语义分割过程中所运用的各个模型进行离线训练时。
新的损失函数考虑了数据不均衡,使训练过程更加注重包含数量较少的类别或较难分割的类别的样本,提升了以往较难分割的类别的精度。
这里之所以要保留Segloss,是因为Segloss对最终的训练过程起到更加重要的因素,而Dloss仅增强了困难样本的训练,让其提升整体的语义分割精度。
实施例五
根据应用场景及硬件环境的要求,上述实施例可以有不同的组合,从而构成不同的语义分割方案。下面给出三个在线预测的方案以及一个离线训练的方案的示例,本领域技术人员应能理解下面几种方案仅为范例,基于这些范例进行的适当变化也可适用于本发明,故也应包含在本发明保护范围以内。
在线预测方案一:移动端在线预测高性能方案
本集成方案兼顾了运行速度和实际性能,适用于移动端并且有高性能要求的场景,完成高精度的移动端在线语义分割预测。
如图24所示,移动设备的摄像头采集图像,图像进入特征提取网络特征提取子网络进行特征提取。该特征提取网络子网络由若干个特征提取模块,自适应感受野模块级联组成,并采用多通道级联自适应预测的方式决定在线预测时实际参与特征提取的模块数量,即高置信度时直接输出到多方向特征图处理器,否则将进入到下一个特征提取模块。特征提取网络特征提取子网络提取到的特征图,经过多方向特征图处理器进行特征图处理,最后输出类别概率特征图,进而得到语义分割预测结果。本集成方案,采用四个一般特征提取模块和四个自适应感受野模块组成特征提取网络特征提取子网络。从第三个特征提取模块开始应用多通道级联自适应预测。需要注意的是,特征提取网络特征提取子网络的模块数量以及多通道级联自适应预测的开始位置可以根据具体的硬件环境和应用场景进行调整。性能要求越高,则特征提取网络子网络模块数量越多,多通道级联自适应预测开始位置越靠后。
在线预测方案二:移动端在线预测快速响应方案
本集成方案运行速度优先,适用于移动端并且有运行速度,运行资源要求的场景,完成快速响应的移动端在线语义分割预测。
由于自适应感受野模块需要耗费相对较多的运行时间,所以在本集成方案中去掉了该模块,如图所示25。除此之外,其他运行流程同移动端在线预测高性能方案(在线预测方案一)相同。本集成方案仍然以四个一般特征提取模块组成的特征提取网络为例。该方案可以快速计算移动设备采集到的图像的语义分割,适用于实时性较高,计算资源紧张的场景。
在线预测方案三:服务器端在线预测高性能方案
本集成方案运行性能优先,适用于服务器端,完成高性能的在线语义分割预测。
服务器端计算资源丰富,所以可以去掉为了加快运行速度的多通道自适应级联预测模块,使用全部的特征提取网络进行统一预测,如图26所示,保证计算结果的准确性和稳定性。
离线训练方案:
以上三种在线预测方案中的结构(对应图中的网络类型结构1~3),均可采用同一框架进行离线的训练。如图27所示,我们使用D损失函数(Dloss)来进行物体级的困难样本挖掘,解决数据分布不均的问题。其中,根据标注值和预测结果得到Dloss函数。
实施例六
语义分割广泛应用在智能驾驶、机器人交互、图像处理(如对图像进行人工智能(Artificial Intelligence,AI)编辑处理,医疗图像处理,遥感图像处理等)、虚拟现实(Virtual Reality,VR)/增强现实(Augmented Reality,AR)(如虚拟试衣)等领域。
a、机器人交互:对机器人采集到的图像进行语义分割得到物体ID图,根据ID图使机器人能够感知室内场景中各物体的物体类别以及位置,后续可针对某个物体执行相应命令,例如,执行用户发出“到桌子上拿苹果”等命令;
b、AR/VR:对含有人物面部的图像进行语义分割获得人脸的各个部位的形状和类别ID,后续可以根据获得的部位的形状和类别ID进行相应的AR/VR交互处理,例如,为人脸增加美妆,增加动态表情等;
c、道路分割:对采集到的路面图像进行语义分割,分割出道路部分,进而判断可行驶区域,根据可行驶区域给出相应的辅助提醒(在辅助驾驶场景,可以在图像中标识出可行驶区域,以提醒用户),或进行相应的驾驶处理;
d、虚拟试衣:对采集到的人物着装图片进行语义分割获得人的各个部位并得到着装区域,后续可以进行衣服的替换;
e、AI编辑:对采集到的图像进行语义分割,分割出背景区域,人体区域或用户面部区域,根据分割出的各区域,可以智能的进行图像处理,例如背景替换,区域的风格转换等。
下面对本申请提出的图像分割方法的应用场景做示例性介绍。
(1)自动驾驶
自动驾驶,需要实时对行驶场景进行精确感知并建立合适的场景模型,在这当中语义分割不可或缺。利用车载摄像头采集的图像,进行语义分割,像素级的定位精度能够得到车辆的精确轮廓,同其它传感器协作可以完成准确的旁侧距离计算;同时,检测出来的护栏、车道线和路面等元素可以辅助车辆精确位置的判断。最后,有了对于整个场景的感知,多种传感器和模块可以统一到一个框架下,很容易完成数据的整合工作和交叉验证。
参见图28,为车载传感器的环境感知示意图。车载摄像头获得的高清图像,经过图像预处理,送入语义分割网络,得到语义分割的预测结果;另一方面,从其他车载传感器(如激光雷达等)获得的数据经过传感器数据处理后得到传感器信息,同语义分割的预测结果进行信息融合,最终可以实时生成道路的3D场景模型,即进行场景建模。依据道路和车辆行人等的状况,进行行驶路径的规划和决策。可以注意到,在上述流程中,语义分割发挥了不可替代的巨大作用。精确度和运行速度是必备要求,根据实际情况,在通信条件较好的路段且行驶速度较慢时,可以采用服务器端在线预测高性能方案,与云端服务器通信。把采集到的图像以若干帧率传输至云端,并接收云端服务器的语义分割结果,减少车载计算资源的消耗。在通信条件较差或者对实时帧率要求较高的情况下,采用移动端在线预测高性能方案,利用车载计算设备获取分割结果。
在上述语义分割算法中,如果当前自动驾驶的场景对分割的实时性要求比较高,在进行多方向特征处理时,可以设置上下方向和/或左右方向,与前后方向的卷积方式和/或卷积参数不同,前后方向采用Atrous convolution,上下方向和左右方向可以采用depthwise convolution,上下方向和左右方向可以采用更小以及更少的卷积核。此外,上述提到的自适应感受野模块可以仅应用在特征提取阶段的最后一个关键卷积层。
如果当前自动驾驶的场景对分割的性能要求较高,那么可以设置上下方向和/或左右方向的卷积方式和卷积参数和前后方向的一致。此外,上述提到的自适应感受野模块可以应用在至少两个关键卷积层,或者可以将每个卷积操作替换为自适应感受野操作。
(2)手机拍照人像分割
人物拍照是手机的一项重要功能和应用。作为图像编辑的基础技术,人像和物体分割的重要性不言而喻。如图29中的例子,我们可以拍摄人物,生成一些特殊的效果。
利用本申请提出的图像分割方法,可以得到精确的人物和物体分割。如图30所示,拍摄图像送入语义分割网络,得到预测的结果图,即语义分割预测结果,再根据需要替换背景或是进行局部的风格转化,即进行图像编辑,最终生成具有特殊效果的拍摄图像。语义分割部分可以采用提出的移动端在线预测高性能方案来获得较为精确的分割结果,由于特殊效果拍摄大多需要交互操作,有一定的时间容忍度,权衡速度与精度,该方案可以满足对运行时间和精度的要求。
在上述语义分割算法中,如果当前图像编辑场景对分割的实时性要求比较高(例如在AR相机中应用时,需要实时对预览状态的图像进行编辑处理),在进行多方向特征处理时,可以设置上下方向和/或左右方向,与前后方向的卷积方式和/或卷积参数不同,前后方向采用Atrous convolution,上下方向和左右方向可以采用depthwise convolution,上下方向和左右方向可以采用更小以及更少的卷积核。此外,上述提到的自适应感受野模块可以仅应用在特征提取阶段的最后一个关键卷积层。
如果当前图像编辑场景对分割的性能要求较高(例如对图像进行后处理),那么可以设置上下方向和/或左右方向的卷积方式和卷积参数和前后方向的一致。此外,上述提到的自适应感受野模块可以应用在至少两个关键卷积层,或者可以将每个卷积操作替换为自适应感受野操作。
实施例七
本发明实施例提供了一种电子设备,如图31所示,该电子设备310包括:特征提取模块3101和特征图处理模块3102,其中,
特征提取模块3101用于过特征提取网络,对图像进行特征提取,得到特征图;
特征图处理模块3102用于对特征图进行特征图处理,以完成对图像的语义分割。
可选地,特征图处理模块3102具体用于针对特征图的至少两个方向进行特征图处理。
可选地,特征图处理模块3102具体用于针对特征图的至少两个方向分别进行卷积操作和/或池化操作;以及,将至少两个方向的操作结果进行融合处理。
可选地,特征图处理模块3102具体用于根据各个方向对应的卷积方式和/或卷积参数,针对特征图的至少两个方向分别进行卷积操作;
和/或,特征图处理模块3102具体用于根据各个方向对应的池化方式和/或池化参数,针对特征图的至少两个方向分别进行池化操作。
可选地,特征图处理模块3102还用于根据设备状态和/或任务需求确定各个方向对应的卷积方式和/或卷积参数。
可选地,至少两个方向中包含设定的特征图主方向;特征图处理模块3102还用于根据特征图主方向对应的卷积方式和/或卷积参数,确定其他方向对应的卷积方式和/或卷积参数;
和/或,特征图处理模块3102还用于根据特征图主方向对应的池化方式和/或池化参数,确定其他方向对应的池化方式和/或池化参数。
具体地,卷积参数包括:卷积核大小、扩张率、步长、参数量中的至少一项;和/或池化参数包括:池化核大小、池化步长中的至少一项。
可选地,特征图处理模块3102具体用于以下任一情形:
当针对特征图的至少两个方向分别进行卷积操作时,将各个方向的卷积操作结果进行融合处理;
当针对特征图的至少两个方向分别进行池化操作时,将各个方向的池化操作结果进行融合处理;
当针对特征图的至少两个方向分别同时进行卷积操作和池化操作时,将各个方向的卷积操作结果和池化操作结果进行融合处理;
当针对特征图的至少两个方向分别依次进行卷积操作和池化操作时,将各个方向的池化操作结果进行融合处理。
可选地,特征图处理模块3102具体用于针对至少两个方向的操作结果中的每个操作结果,分别确定各操作结果对应的融合权重和/或特征偏置信息;以及,根据融合权重和/或特征偏置信息,分别对各操作结果进行预定处理;以及,对预定处理后的各操作结果进行融合处理。
可选地,特征图处理模块3102还用于针对至少两个方向的操作结果中的每个操作结果,分别将操作结果和操作结果经过预定处理后的输出结果进行跳跃连接处理;
特征图处理模块3102具体用于用于将经过跳跃链接处理后的各操作结果进行融合处理。
可选地,特征图处理模块3102具体用于以下至少一项:
根据融合权重,分别对各操作结果进行加权处理;
根据融合权重,分别对各经过加权处理后的输出结果进行加权处理;
根据融合权重,分别对各经过偏置处理后的输出结果进行加权处理;
根据融合权重,分别对各经过跳跃连接处理后的输出结果进行加权处理;
根据特征偏置信息,分别对各操作结果进行偏置处理;
根据特征偏置信息,分别对各经过加权处理后的输出结果进行偏置处理;
根据特征偏置信息,分别对各经过偏置处理后的输出结果进行偏置处理;
根据特征偏置信息,分别对各经过跳跃连接处理后的输出结果进行偏置处理。
可选地,特征图处理模块3102还用于根据将至少两个方向的操作结果合并后得到的特征图,确定对应的通道相关性特征;
特征图处理模块3102具体用于根据通道相关性特征,确定至少两个方向的操作结果中的每个操作结果分别对应的融合权重;
特征图处理模块3102具体用于根据通道相关性特征,确定至少两个方向的操作结果中的每个操作结果分别对应的特征偏置信息。
可选地,特征提取模块3101具体用于执行:
步骤1、针对特征提取网络中的设定卷积层,根据设定卷积层对应的卷积参数对图像或输入的特征图执行卷积处理;
步骤2、对卷积处理得到的特征图进行特征图处理,得到类别概率特征图,并根据类别概率特征图确定类别置信度;
步骤3、若基于类别置信度确认需要调整设定卷积层对应的卷积参数,则调整设定卷积层对应的卷积参数后执行步骤1,若基于类别置信度确认不需要调整设定卷积层对应的卷积参数,则输出卷积处理得到的特征图。
可选地,上述设定卷积层为深度大于第一深度阈值的至少一个特征提取模块中,深度大于第二深度阈值的至少一个卷积层。
可选地,电子设备310还包括设定卷积层确定模块,其中,
设定卷积层确定模块具体用于从至少一个特征提取模块中选定至少一个关键卷积层作为设定的卷积层,设定的卷积层为深度大于第一深度阈值的特征提取模块中的关键卷积层;
设定卷积层确定模块具体用于从特征提取模块中选定至少一个卷积层作为关键卷积层,关键卷积层为特征提取模块中深度大于第二深度阈值的卷积层。
可选地,特征提取模块3101具体用于通过下述方式确认是否需要调整设定卷积层对应的卷积参数:当类别置信度大于第一预定阈值时,确认不需要调整设定卷积层对应的卷积参数;否则,确认需要调整设定卷积层对应的卷积参数。
可选地,特征提取模块3101还用于当总迭代次数不小于预设第一迭代次数阈值,和/或设定卷积层的迭代次数不小于预设第二迭代次数阈值时,确认不需要调整设定卷积层对应的卷积参数,输出卷积处理得到的特征图。
可选地,特征提取模块3101具体用于确定设定卷积层对应的参数变化量;以及,基于参数变化量来调整设定卷积层对应的卷积参数。
可选地,特征提取模块3101具体用于根据类别置信度,确定设定卷积层对应的参数变化量。
可选地,特征提取模块3101具体用于将设定特征提取模块提取的特征图通过至少一个感受野处理模块进行感受野处理,得到感受野处理后的特征图。
可选地,感受野处理模块包含至少一个感受野处理支路;
特征提取模块3101具体用于将设定特征提取模块或上一个感受野处理模块输出的特征图,通过当前感受野处理模块的各个感受野处理支路分别进行卷积处理,得到卷积处理后的各特征图;基于当前感受野处理模块的各个感受野处理支路分别对应的权重,将卷积处理后的各特征图进行融合处理。
可选地,任一感受野处理模块中的各感受野处理支路进行卷积处理所采用的卷积参数量相同。
可选地,设定特征提取模块,包括以下任一种:
特征提取网络中的任一特征提取模块;
特征提取网络中的深度大于第三深度阈值的任一特征提取模块。
可选地,特征提取模块3101具体用于对当前特征提取模块提取的特征图进行特征图处理,得到类别概率特征图,并根据类别概率特征图确定类别置信度;以及,若基于类别置信度确认需要进入下一个特征提取模块进行特征提取处理,则输出当前特征提取模块提取的特征图到下一个特征提取模块,若基于类别置信度确认不需要进入下一个特征提取模块进行特征提取处理,则输出当前特征提取模块提取的特征图作为特征提取网络输出的特征图或输出上述类别概率特征图。
可选地,特征提取模块3101具体用于通过下述方式确认是否需要进入下一个特征提取模块进行特征提取处理:当类别置信度大于第二预定阈值时,确认不需要进入下一个特征提取模块进行特征提取处理;否则,确认需要进入下一个特征提取模块进行特征提取处理。
可选地,特征提取模块3101具体用于确定类别概率特征图中的各像素点的最高概率;以及,根据各像素点的最高概率的平均值,确定类别置信度。
可选地,特征提取模块3101具体用于将将基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果输入到下一个特征提取模块进行特征提取。
可选地,特征提取模块3101具体用于对基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果进行融合处理后输入到下一个特征提取模块进行特征提取。
本申请实施例所提供的电子设备,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,设备实施例部分未提及之处,可参考前述方法实施例中相应内容,在此不再赘述。本申请实施例提供的电子设备可以使得语义分割的性能得到有效提升。
实施例八
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述方法实施例中相应内容。可选的,电子设备还可以包括收发器。处理器和收发器相连,如通过总线相连。需要说明的是,实际应用中收发器不限于一个,该电子设备的结构并不构成对本申请实施例的限定。
其中,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线可包括一通路,在上述组件之间传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器802可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
本申请实施例还提供了一种计算机可读存储介质,该计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (30)
1.一种图像分割方法,其特征在于,包括:
通过特征提取网络,对图像进行特征提取,得到特征图;
对所述特征图进行特征图处理,以完成对所述图像的语义分割。
2.根据权利要求1所述的图像分割方法,其特征在于,所述对所述特征图进行特征图处理,包括:
针对所述特征图的至少两个方向进行特征图处理。
3.根据权利要求2所述的图像分割方法,其特征在于,所述针对所述特征图的至少两个方向进行特征图处理,包括:
针对所述特征图的所述至少两个方向分别进行卷积操作和/或池化操作;
将所述至少两个方向的操作结果进行融合处理。
4.根据权利要求3所述的图像分割方法,其特征在于,针对所述特征图的所述至少两个方向分别进行卷积操作,包括:
根据各个方向对应的卷积方式和/或卷积参数,针对所述特征图的所述至少两个方向分别进行卷积操作;和/或
针对所述特征图的所述至少两个方向分别进行池化操作,包括:
根据各个方向对应的池化方式和/或池化参数,针对所述特征图的所述至少两个方向分别进行池化操作。
5.根据权利要求4所述的图像分割方法,其特征在于,所述根据各个方向对应的卷积方式和/或卷积参数,针对所述特征图的所述至少两个方向分别进行卷积操作之前,还包括:
根据设备状态和/或任务需求确定所述各个方向对应的卷积方式和/或卷积参数。
6.根据权利要求4所述的图像分割方法,其特征在于,所述至少两个方向中包含设定的特征图主方向;
所述根据各个方向对应的卷积方式和/或卷积参数,针对所述特征图的所述至少两个方向分别进行卷积操作之前,还包括:
根据所述特征图主方向对应的卷积方式和/或卷积参数,确定其他方向对应的卷积方式和/或卷积参数;和/或
所述根据各个方向对应的池化方式和/或池化参数,针对所述特征图的所述至少两个方向分别进行池化操作之前,还包括:
根据所述特征图主方向对应的池化方式和/或池化参数,确定其他方向对应的池化方式和/或池化参数。
7.根据权利要求3-6任一项所述的图像分割方法,其特征在于,所述卷积参数包括:卷积核大小、扩张率、卷积步长、参数量中的至少一项;和/或
所述池化参数包括:池化核大小、池化步长中的至少一项。
8.根据权利要求3-7任一项所述的图像分割方法,其特征在于,所述将所述至少两个方向的操作结果进行融合处理,包括以下任一情形:
当针对所述特征图的所述至少两个方向分别进行卷积操作时,将各个方向的卷积操作结果进行融合处理;
当针对所述特征图的所述至少两个方向分别进行池化操作时,将各个方向的池化操作结果进行融合处理;
当针对所述特征图的所述至少两个方向分别同时进行卷积操作和池化操作时,将各个方向的卷积操作结果和池化操作结果进行融合处理;
当针对所述特征图的所述至少两个方向分别依次进行卷积操作和池化操作时,将各个方向的池化操作结果进行融合处理。
9.根据权利要求3-7任一项所述的图像分割方法,其特征在于,所述将所述至少两个方向的操作结果进行融合处理,包括:
针对所述至少两个方向的操作结果中的每个操作结果,分别确定各操作结果对应的融合权重和/或特征偏置信息;
根据所述融合权重和/或所述特征偏置信息,分别对所述各操作结果进行预定处理;
对预定处理后的各操作结果进行融合处理。
10.根据权利要求9所述的图像分割方法,其特征在于,对预定处理后的各操作结果进行融合处理之前,还包括:
针对所述至少两个方向的操作结果中的每个操作结果,分别将所述操作结果和所述操作结果经过预定处理后的输出结果进行跳跃连接处理;
所述对预定处理后的各操作结果进行融合处理,包括:
将经过跳跃链接处理后的各操作结果进行融合处理。
11.根据权利要求9或10所述的图像分割方法,其特征在于,所述根据所述融合权重和/或所述特征偏置信息,分别对所述各操作结果进行预定处理,包括以下至少一项:
根据所述融合权重,分别对所述各操作结果进行加权处理;
根据所述融合权重,分别对各经过加权处理后的输出结果进行加权处理;
根据所述融合权重,分别对各经过偏置处理后的输出结果进行加权处理;
根据所述融合权重,分别对各经过跳跃连接处理后的输出结果进行加权处理;
根据所述特征偏置信息,分别对所述各操作结果进行偏置处理;
根据所述特征偏置信息,分别对各经过加权处理后的输出结果进行偏置处理;
根据所述特征偏置信息,分别对各经过偏置处理后的输出结果进行偏置处理;
根据所述特征偏置信息,分别对各经过跳跃连接处理后的输出结果进行偏置处理。
12.根据权利要求9-11任一项所述的图像分割方法,其特征在于,还包括:
根据将所述至少两个方向的操作结果合并后得到的特征图,确定对应的通道相关性特征;
确定各操作结果对应的融合权重,包括:
根据所述通道相关性特征,确定所述至少两个方向的操作结果中的每个操作结果分别对应的融合权重;
确定各操作结果对应的特征偏置信息,包括:
根据所述通道相关性特征,确定所述至少两个方向的操作结果中的每个操作结果分别对应的特征偏置信息。
13.根据权利要求1-12任一项所述的图像分割方法,其特征在于,对图像进行特征提取,得到特征图,包括:
步骤1、针对所述特征提取网络中的设定卷积层,根据所述设定卷积层对应的卷积参数对所述图像或输入的特征图执行卷积处理;
步骤2、对卷积处理得到的特征图进行特征图处理,得到类别概率特征图,并根据所述类别概率特征图确定类别置信度;
步骤3、若基于所述类别置信度确认需要调整所述设定卷积层对应的卷积参数,则调整所述设定卷积层对应的卷积参数后执行步骤1,若基于所述类别置信度确认不需要调整所述设定卷积层对应的卷积参数,则输出卷积处理得到的特征图。
14.根据权利要求13所述的图像分割方法,其特征在于,所述设定卷积层为深度大于第一深度阈值的至少一个特征提取模块中,深度大于第二深度阈值的至少一个卷积层。
15.根据权利要求13或14所述的图像分割方法,其特征在于,通过下述方式确认是否需要调整所述设定卷积层对应的卷积参数:
当所述类别置信度大于第一预定阈值时,确认不需要调整所述设定卷积层对应的卷积参数;否则,确认需要调整所述设定卷积层对应的卷积参数。
16.根据权利要求13-15任一项所述的图像分割方法,其特征在于,还包括:
当总迭代次数不小于预设第一迭代次数阈值,和/或所述设定卷积层的迭代次数不小于预设第二迭代次数阈值时,确认不需要调整所述设定卷积层对应的卷积参数,输出卷积处理得到的特征图。
17.根据权利要求13-16任一项所述的图像分割方法,其特征在于,调整所述设定卷积层对应的卷积参数,包括:
确定所述设定卷积层对应的参数变化量;
基于所述参数变化量来调整所述设定卷积层对应的卷积参数。
18.根据权利要求17所述的图像分割方法,其特征在于,所述确定设定卷积层对应的参数变化量,包括:
根据所述类别置信度,确定设定卷积层对应的参数变化量。
19.根据权利要求1-18任一项所述的图像分割方法,其特征在于,所述对图像进行特征提取,得到特征图,包括:
将设定特征提取模块提取的特征图通过至少一个感受野处理模块进行感受野处理,得到感受野处理后的特征图。
20.根据权利要求19所述的图像分割方法,其特征在于,所述感受野处理模块包含至少一个感受野处理支路;
任一感受野处理模块进行感受野处理,包括:
将设定特征提取模块或上一个感受野处理模块输出的特征图,通过当前感受野处理模块的各个感受野处理支路分别进行卷积处理,得到卷积处理后的各特征图;
基于所述当前感受野处理模块的各个感受野处理支路分别对应的权重,将卷积处理后的各特征图进行融合处理。
21.根据权利要求20所述的图像分割方法,其特征在于,任一感受野处理模块中的各感受野处理支路进行卷积处理所采用的卷积参数量相同。
22.根据权利要求19至21任一项所述的图像分割方法,其特征在于,所述设定特征提取模块,包括以下任一种:
特征提取网络中的任一特征提取模块;
特征提取网络中的深度大于第三深度阈值的任一特征提取模块。
23.根据权利要求1-22任一项所述的图像分割方法,其特征在于,所述对图像进行特征提取,得到特征图,包括:
对当前特征提取模块提取的特征图进行特征图处理,得到类别概率特征图,并根据所述类别概率特征图确定类别置信度;
若基于所述类别置信度确认需要进入下一个特征提取模块进行特征提取处理,则输出当前特征提取模块提取的特征图到下一个特征提取模块,若基于所述类别置信度确认不需要进入下一个特征提取模块进行特征提取处理,则输出当前特征提取模块提取的特征图作为所述特征提取网络输出的特征图或输出所述类别概率特征图。
24.所述根据权利要求23所述的图像分割方法,其特征在于,通过下述方式确认是否需要进入下一个特征提取模块进行特征提取处理:
当所述类别置信度大于第二预定阈值时,确认不需要进入下一个特征提取模块进行特征提取处理;否则,确认需要进入下一个特征提取模块进行特征提取处理。
25.所述根据权利要求13-24任一项所述的图像分割方法,其特征在于,所述根据所述类别概率特征图确定类别置信度,包括:
确定所述类别概率特征图中的各像素点的最高概率;
根据各像素点的最高概率的平均值,确定类别置信度。
26.根据权利要求1-25所述的图像分割方法,其特征在于,所述对图像进行特征提取,得到特征图,包括:
将基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果输入到下一个特征提取模块进行特征提取。
27.根据权利要求26所述的图像分割方法,其特征在于,所述将基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果输入到下一个特征提取模块进行特征提取,包括:
对基于当前特征提取模块得到的特征图以及基于当前特征提取模块得到的类别预测结果进行融合处理后输入到下一个特征提取模块进行特征提取。
28.一种电子设备,其特征在于,包括:
特征提取模块,用于通过特征提取网络,对图像进行特征提取,得到特征图;
特征图处理模块,用于对所述特征图进行特征图处理,以完成对所述图像的语义分割。
29.一种电子设备,其特征在于,包括:
处理器和存储器,所述存储器存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-27任一项所述的图像分割方法。
30.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令、程序、代码集或指令集,当其在计算机上运行时,使得计算机执行如权利要求1-27任一项所述的图像分割方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2019/015702 WO2020101448A1 (en) | 2018-08-28 | 2019-11-15 | Method and apparatus for image segmentation |
US17/294,020 US11893780B2 (en) | 2018-08-28 | 2019-11-15 | Method and apparatus for image segmentation |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810990405 | 2018-08-28 | ||
CN2018109904052 | 2018-08-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110866526A true CN110866526A (zh) | 2020-03-06 |
CN110866526B CN110866526B (zh) | 2024-10-01 |
Family
ID=69651664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811361168.XA Active CN110866526B (zh) | 2018-08-28 | 2018-11-15 | 图像分割方法、电子设备及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11893780B2 (zh) |
CN (1) | CN110866526B (zh) |
WO (1) | WO2020101448A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539456A (zh) * | 2020-04-02 | 2020-08-14 | 浙江华睿科技有限公司 | 一种目标识别方法及设备 |
CN111582104A (zh) * | 2020-04-28 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种遥感图像语义分割方法及装置 |
CN111768472A (zh) * | 2020-05-29 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 虚拟试衣方法及装置、计算机可存储介质 |
CN112215243A (zh) * | 2020-10-30 | 2021-01-12 | 百度(中国)有限公司 | 图像特征提取方法、装置、设备及存储介质 |
CN112508910A (zh) * | 2020-12-02 | 2021-03-16 | 创新奇智(深圳)技术有限公司 | 用于多分类缺陷检测的缺陷提取方法及装置 |
CN113486956A (zh) * | 2021-07-07 | 2021-10-08 | 山东力聚机器人科技股份有限公司 | 目标分割系统及其训练方法、目标分割方法及设备 |
CN114495236A (zh) * | 2022-02-11 | 2022-05-13 | 北京百度网讯科技有限公司 | 图像分割方法、装置、设备、介质及程序产品 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102604016B1 (ko) * | 2018-10-24 | 2023-11-22 | 삼성전자주식회사 | 전자 장치 및 이의 제어방법 |
CN113168713B (zh) * | 2018-12-14 | 2024-09-06 | 富士胶片株式会社 | 小批量学习装置及其工作程序、工作方法及图像处理装置 |
CN111241985B (zh) * | 2020-01-08 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 一种视频内容识别方法、装置、存储介质、以及电子设备 |
CN111294512A (zh) * | 2020-02-10 | 2020-06-16 | 深圳市铂岩科技有限公司 | 图像处理方法、装置、存储介质及摄像装置 |
CN111832475B (zh) * | 2020-07-10 | 2022-08-12 | 电子科技大学 | 一种基于语义特征的人脸误检筛除方法 |
CN112184729B (zh) * | 2020-09-24 | 2024-04-19 | 天津蜜度文修智能科技有限公司 | 局部图像的表征获取方法、系统、介质及装置 |
CN112258526B (zh) * | 2020-10-30 | 2023-06-27 | 南京信息工程大学 | 一种基于对偶注意力机制的ct肾脏区域级联分割方法 |
TWI784349B (zh) * | 2020-11-16 | 2022-11-21 | 國立政治大學 | 顯著圖產生方法及使用該方法的影像處理系統 |
CN112560716B (zh) * | 2020-12-21 | 2024-05-28 | 浙江万里学院 | 一种基于低层特征融合的高分辨率遥感影像水体提取方法 |
CN112766089B (zh) * | 2021-01-04 | 2022-05-13 | 武汉大学 | 一种基于全局-局部对抗学习框架的跨域道路提取方法 |
CN112991351B (zh) * | 2021-02-23 | 2022-05-27 | 新华三大数据技术有限公司 | 遥感图像语义分割方法、装置及存储介质 |
CN112906718B (zh) * | 2021-03-09 | 2023-08-22 | 西安电子科技大学 | 一种基于卷积神经网络的多目标检测方法 |
CN113420775B (zh) * | 2021-03-31 | 2024-03-29 | 中国矿业大学 | 基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法 |
CN113344857B (zh) * | 2021-05-13 | 2022-05-03 | 深圳市华汉伟业科技有限公司 | 缺陷检测网络的训练方法、缺陷检测方法和存储介质 |
CN113255676A (zh) * | 2021-05-21 | 2021-08-13 | 福州大学 | 基于多源数据融合的高分遥感影像语义分割模型及方法 |
US20220383037A1 (en) * | 2021-05-27 | 2022-12-01 | Adobe Inc. | Extracting attributes from arbitrary digital images utilizing a multi-attribute contrastive classification neural network |
SE2100098A1 (en) * | 2021-06-09 | 2022-12-10 | Saab Ab | Methods and Devices for object tracking applications |
CN113378727B (zh) * | 2021-06-16 | 2022-04-29 | 武汉大学 | 一种基于特征偏差对齐的遥感影像二值变化检测方法 |
CN113283390B (zh) * | 2021-06-24 | 2022-03-08 | 中国人民解放军国防科技大学 | 基于门控多尺度匹配网络的sar图像小样本目标识别方法 |
CN113486748B (zh) * | 2021-06-28 | 2022-06-24 | 同济大学 | 一种自动驾驶路面摩擦系数预测方法、电子设备及介质 |
CN113298810B (zh) * | 2021-06-28 | 2023-12-26 | 浙江工商大学 | 结合图像增强和深度卷积神经网络的道线检测方法 |
CN113747151B (zh) * | 2021-07-30 | 2024-04-12 | 咪咕文化科技有限公司 | 视频编解码方法、装置、设备及计算机可读存储介质 |
CN114332800B (zh) * | 2022-03-09 | 2022-07-22 | 西南石油大学 | 一种用于自动驾驶的街道场景解析语义分割方法 |
CN114943832B (zh) * | 2022-03-10 | 2024-08-02 | 北京航空航天大学 | 一种基于多路卷积特征融合网络与差温知识蒸馏的路面裂缝图像轻量化分割方法 |
CN114913325B (zh) * | 2022-03-24 | 2024-05-10 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
TWI805290B (zh) * | 2022-03-28 | 2023-06-11 | 臺北醫學大學 | 用於預測肺腺癌是否具有表皮生長因子受體突變的方法 |
CN114943835B (zh) * | 2022-04-20 | 2024-03-12 | 西北工业大学 | 一种黄河冰凌无人机航拍图像实时语义分割方法 |
CN114789440B (zh) * | 2022-04-22 | 2024-02-20 | 深圳市正浩创新科技股份有限公司 | 基于图像识别的目标对接方法、装置、设备及其介质 |
CN115620013B (zh) * | 2022-12-14 | 2023-03-14 | 深圳思谋信息科技有限公司 | 语义分割方法、装置、计算机设备及计算机可读存储介质 |
CN115713750B (zh) * | 2023-01-09 | 2023-04-11 | 广汽埃安新能源汽车股份有限公司 | 一种车道线检测方法、装置、电子设备及存储介质 |
US11776240B1 (en) * | 2023-01-27 | 2023-10-03 | Fudan University | Squeeze-enhanced axial transformer, its layer and methods thereof |
CN116051999A (zh) * | 2023-02-06 | 2023-05-02 | 北京数慧时空信息技术有限公司 | 遥感影像困难样本挖掘方法 |
CN116110081B (zh) * | 2023-04-12 | 2023-06-30 | 齐鲁工业大学(山东省科学院) | 基于深度学习的安全帽佩戴的检测方法及系统 |
CN116343063B (zh) * | 2023-05-26 | 2023-08-11 | 南京航空航天大学 | 一种路网提取方法、系统、设备及计算机可读存储介质 |
CN116704526B (zh) * | 2023-08-08 | 2023-09-29 | 泉州师范学院 | 工尺谱扫描机器人及其方法 |
CN118314474B (zh) * | 2024-06-13 | 2024-08-06 | 环天智慧科技股份有限公司 | 一种基于卫星遥感影像的水稻精细分类方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358337A1 (en) * | 2015-06-08 | 2016-12-08 | Microsoft Technology Licensing, Llc | Image semantic segmentation |
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
CN106886801A (zh) * | 2017-04-14 | 2017-06-23 | 北京图森未来科技有限公司 | 一种图像语义分割方法及装置 |
CN107564025A (zh) * | 2017-08-09 | 2018-01-09 | 浙江大学 | 一种基于深度神经网络的电力设备红外图像语义分割方法 |
CN107610146A (zh) * | 2017-09-29 | 2018-01-19 | 北京奇虎科技有限公司 | 图像场景分割方法、装置、计算设备及计算机存储介质 |
WO2018076212A1 (zh) * | 2016-10-26 | 2018-05-03 | 中国科学院自动化研究所 | 基于反卷积神经网络的场景语义分割方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN108389251A (zh) * | 2018-03-21 | 2018-08-10 | 南京大学 | 基于融合多视角特征的投影全卷积网络三维模型分割方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2519348B (en) * | 2013-10-18 | 2021-04-14 | Vision Semantics Ltd | Visual data mining |
GB2555136A (en) | 2016-10-21 | 2018-04-25 | Nokia Technologies Oy | A method for analysing media content |
KR20180067909A (ko) | 2016-12-13 | 2018-06-21 | 한국전자통신연구원 | 영상 분할 장치 및 방법 |
US10635927B2 (en) * | 2017-03-06 | 2020-04-28 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
US10147193B2 (en) | 2017-03-10 | 2018-12-04 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (HDC) |
CN107316031B (zh) * | 2017-07-04 | 2020-07-10 | 北京大学深圳研究生院 | 用于行人重识别的图像特征提取方法 |
US10679351B2 (en) * | 2017-08-18 | 2020-06-09 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
US10282589B2 (en) * | 2017-08-29 | 2019-05-07 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for detection and classification of cells using convolutional neural networks |
KR101977174B1 (ko) * | 2017-09-13 | 2019-05-10 | 이재준 | 영상 분석 방법, 장치 및 컴퓨터 프로그램 |
JP7032536B2 (ja) * | 2018-02-09 | 2022-03-08 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | インスタンスセグメンテーション方法および装置、電子機器、プログラムならびに媒体 |
CN109754402B (zh) * | 2018-03-15 | 2021-11-19 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置以及存储介质 |
CN109389078B (zh) * | 2018-09-30 | 2022-06-21 | 京东方科技集团股份有限公司 | 图像分割方法、相应的装置及电子设备 |
CN109859158A (zh) * | 2018-11-27 | 2019-06-07 | 邦鼓思电子科技(上海)有限公司 | 一种基于视觉的工作区域边界的检测系统、方法及机器设备 |
US10408939B1 (en) * | 2019-01-31 | 2019-09-10 | StradVision, Inc. | Learning method and learning device for integrating image acquired by camera and point-cloud map acquired by radar or LiDAR corresponding to image at each of convolution stages in neural network and testing method and testing device using the same |
CN110033003B (zh) * | 2019-03-01 | 2023-12-15 | 华为技术有限公司 | 图像分割方法和图像处理装置 |
CN111062237A (zh) * | 2019-09-05 | 2020-04-24 | 商汤国际私人有限公司 | 识别图像中的序列的方法及装置、电子设备和存储介质 |
CN111651941B (zh) * | 2020-04-30 | 2022-05-17 | 北京航空航天大学 | 一种全球电离层电子总含量预测的算法 |
CN111860425B (zh) * | 2020-07-30 | 2021-04-09 | 清华大学 | 一种深度多模态跨层交叉融合方法、终端设备及存储介质 |
CN112102411B (zh) * | 2020-11-02 | 2021-02-12 | 中国人民解放军国防科技大学 | 一种基于语义误差图像的视觉定位方法及装置 |
CN112927357B (zh) * | 2021-03-05 | 2022-04-19 | 电子科技大学 | 一种基于动态图网络的3d物体重建方法 |
US20230140170A1 (en) * | 2021-10-28 | 2023-05-04 | Samsung Electronics Co., Ltd. | System and method for depth and scene reconstruction for augmented reality or extended reality devices |
US20230281751A1 (en) * | 2022-03-03 | 2023-09-07 | Rensselaer Polytechnic Institute | Systems and methods for multi-modal multi-dimensional image registration |
-
2018
- 2018-11-15 CN CN201811361168.XA patent/CN110866526B/zh active Active
-
2019
- 2019-11-15 WO PCT/KR2019/015702 patent/WO2020101448A1/en active Application Filing
- 2019-11-15 US US17/294,020 patent/US11893780B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358337A1 (en) * | 2015-06-08 | 2016-12-08 | Microsoft Technology Licensing, Llc | Image semantic segmentation |
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
WO2018076212A1 (zh) * | 2016-10-26 | 2018-05-03 | 中国科学院自动化研究所 | 基于反卷积神经网络的场景语义分割方法 |
CN106886801A (zh) * | 2017-04-14 | 2017-06-23 | 北京图森未来科技有限公司 | 一种图像语义分割方法及装置 |
CN107564025A (zh) * | 2017-08-09 | 2018-01-09 | 浙江大学 | 一种基于深度神经网络的电力设备红外图像语义分割方法 |
CN107610146A (zh) * | 2017-09-29 | 2018-01-19 | 北京奇虎科技有限公司 | 图像场景分割方法、装置、计算设备及计算机存储介质 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN108389251A (zh) * | 2018-03-21 | 2018-08-10 | 南京大学 | 基于融合多视角特征的投影全卷积网络三维模型分割方法 |
Non-Patent Citations (5)
Title |
---|
HOLGER R. ROTH ET.AL: "A Multi-scale Pyramid of 3D Fully Convolutional Networks for Abdominal Multi-organ Segmentation", 《ARXIV:1806.02237V1 [CS.CV]》, 12 January 2024 (2024-01-12), pages 1 - 9 * |
LIANG-CHIEH CHEN ET.AL: "DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs", 《 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 》, pages 834 - 848 * |
ZHENBO LUO ET.AL: "R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection", 《ARXIV:1706.09579 V2[CS.CV]》, pages 1 - 8 * |
华敏杰;: "基于深度学习的图像语义分割算法概述", 中国战略新兴产业, no. 04, pages 130 * |
肖朝霞;陈胜;: "图像语义分割问题研究综述", 软件导刊, no. 08, 26 June 2018 (2018-06-26), pages 10 - 12 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539456A (zh) * | 2020-04-02 | 2020-08-14 | 浙江华睿科技有限公司 | 一种目标识别方法及设备 |
CN111539456B (zh) * | 2020-04-02 | 2024-03-01 | 浙江华睿科技股份有限公司 | 一种目标识别方法及设备 |
CN111582104A (zh) * | 2020-04-28 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种遥感图像语义分割方法及装置 |
CN111768472A (zh) * | 2020-05-29 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 虚拟试衣方法及装置、计算机可存储介质 |
CN112215243A (zh) * | 2020-10-30 | 2021-01-12 | 百度(中国)有限公司 | 图像特征提取方法、装置、设备及存储介质 |
CN112508910A (zh) * | 2020-12-02 | 2021-03-16 | 创新奇智(深圳)技术有限公司 | 用于多分类缺陷检测的缺陷提取方法及装置 |
CN113486956A (zh) * | 2021-07-07 | 2021-10-08 | 山东力聚机器人科技股份有限公司 | 目标分割系统及其训练方法、目标分割方法及设备 |
CN113486956B (zh) * | 2021-07-07 | 2022-03-25 | 山东力聚机器人科技股份有限公司 | 目标分割系统及其训练方法、目标分割方法及设备 |
CN114495236A (zh) * | 2022-02-11 | 2022-05-13 | 北京百度网讯科技有限公司 | 图像分割方法、装置、设备、介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
US20220004808A1 (en) | 2022-01-06 |
CN110866526B (zh) | 2024-10-01 |
WO2020101448A1 (en) | 2020-05-22 |
US11893780B2 (en) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866526B (zh) | 图像分割方法、电子设备及计算机可读存储介质 | |
CN108345887B (zh) | 图像语义分割模型的训练方法及图像语义分割方法 | |
CN111625361B (zh) | 一种基于云端服务器和IoT设备协同的联合学习框架 | |
JP2021531582A (ja) | 画像視差推定 | |
CN109064514B (zh) | 一种基于投影点坐标回归的六自由度位姿估计方法 | |
CN108416440A (zh) | 一种神经网络的训练方法、物体识别方法及装置 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN112149459A (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
CN110232418B (zh) | 一种语义识别方法、终端及计算机可读存储介质 | |
CN113255813A (zh) | 一种基于特征融合的多风格图像生成方法 | |
CN111709984B (zh) | 位姿深度预测方法、视觉里程计方法、装置、设备及介质 | |
CN110826500B (zh) | 基于运动链接空间的对抗性网络估计3d人体姿态的方法 | |
CN112926461B (zh) | 神经网络训练、行驶控制方法及装置 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN113850262A (zh) | 基于可延展2.5d卷积和双路门融合的rgb-d图像语义分割方法 | |
CN116229448A (zh) | 三维目标检测方法、装置、设备及可读存储介质 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN115631489A (zh) | 一种三维语义场景补全方法、装置、设备及介质 | |
CN117237884A (zh) | 一种基于泊位定位的互动式巡检机器人 | |
CN116051489A (zh) | 鸟瞰图视角特征图处理方法、装置、电子设备及存储介质 | |
CN117576453B (zh) | 一种跨域装甲目标检测方法、系统、电子设备及存储介质 | |
CN101964911B (zh) | 一种基于gpu的视频分层方法 | |
CN108921852B (zh) | 基于视差与平面拟合的双分支室外非结构化地形分割网络 | |
CN111242216A (zh) | 基于条件生成对抗卷积神经网络的图像生成方法 | |
Honke et al. | Photorealistic style transfer for videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |