CN111340047B - 基于多尺度特征与前背景对比的图像语义分割方法及系统 - Google Patents

基于多尺度特征与前背景对比的图像语义分割方法及系统 Download PDF

Info

Publication number
CN111340047B
CN111340047B CN202010126217.2A CN202010126217A CN111340047B CN 111340047 B CN111340047 B CN 111340047B CN 202010126217 A CN202010126217 A CN 202010126217A CN 111340047 B CN111340047 B CN 111340047B
Authority
CN
China
Prior art keywords
semantic segmentation
feature
convolution
submodule
enc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010126217.2A
Other languages
English (en)
Other versions
CN111340047A (zh
Inventor
潘昌琴
林涵阳
刘刚
唐伟
邓政华
李伟
卓丽栋
张路
刘华杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Start Dima Data Processing Co ltd
Original Assignee
Jiangsu Start Dima Data Processing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Start Dima Data Processing Co ltd filed Critical Jiangsu Start Dima Data Processing Co ltd
Priority to CN202010126217.2A priority Critical patent/CN111340047B/zh
Publication of CN111340047A publication Critical patent/CN111340047A/zh
Application granted granted Critical
Publication of CN111340047B publication Critical patent/CN111340047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明涉及一种基于多尺度特征与前背景对比的图像语义分割方法及系统。该方法首先图像进行预处理后,然后进行特征编码,接着优化编码过程中的浅层特征,再结合前两者基于像素重排技术利用密集连接进行特征解码得到语义分割概率图,完成语义分割模型的核心神经网络搭建;接着基于搭建的核心神经网络,对标注数据集进行数据增强,计算语义分割损失及辅助的边缘检测损失用于迭代更新网络中的参数直至收敛,完成模型的训练;最后结合搭建的核心神经网络和训练好的网络参数,从得到的语义分割概率图中的每个位置选取概率最大的一项作为该像素位置的分类,得到最后的语义分割结果。本发明方法有利于提高图像语义分割的准确性和鲁棒性,本发明系统可用于自定义保单系统,用于实现用户上传保单封面图像的图像质量增强与美化,以及敏感图像过滤等。

Description

基于多尺度特征与前背景对比的图像语义分割方法及系统
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于多尺度特征与前背景对比的图像语义分割方法及系统。
背景技术
图像语义分割是人工智能领域中计算机视觉的一个重要分支,是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别,使其与图像本身的视觉表示内容一致,所以图像语义分割任务也被称为像素级的图像分类任务。
由于图像语义分割与图像分类有一定的相似性,所以各式各样的图像分类网络常常在剔除最后的全连接层后,作为图像语义分割网络的主干网,并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征,最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下,图像语义分割的难度要更高,因为它不仅需要全局的上下文信息,还需要结合精细的局部信息来确定每个像素点的类别,所以常常利用主干网来提取较为全局的特征,然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征,所以常常把前者称为编码网络,后者称为解码网络。同时在编码过程中,为了能更好捕获不同大小物体的特征,常常结合不同感受野和尺度信息,其中最具有代表性的是带孔空间金字塔池化和空间金字塔池化技术。然而前者由于采取了大比率的扩张卷积导致信息利用率低,后者采取池化导致特征的空间信息丢失,同时两者均没能考虑到前背景的相关性。在现有的语义分割方法中,解码过程中一般都使用转置卷积或者双线性插值等方法将特征逐级扩大,因此特征尺寸是逐级递增的,无法有效地对重建特征进行特征重用。而且在这过程中常常会加入浅层特征来优化解码过程,但没有对浅层特征设计一个明确的优化目标,因此在重建过程中修复细节的能力稍显不足。
发明内容
本发明的目的在于提供一种基于多尺度特征与前背景对比的图像语义分割方法,该方法及系统有利于提高图像语义分割的准确性和鲁棒性。
为实现上述目的,本发明的技术方案是:一种基于多尺度特征与前背景对比的图像语义分割方法,包括如下步骤:
步骤A:首先对输入图像进行预处理,然后进行编码得到Fenc,接着优化编码过程中的浅层特征得到
Figure BDA0002394452050000011
Figure BDA0002394452050000012
最后结合Fenc
Figure BDA0002394452050000013
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建;
步骤B:基于步骤A搭建的核心神经网络,利用标注数据集迭代更新网络中的参数直至收敛,完成模型的训练;
步骤C:结合步骤A搭建的核心神经网络和步骤B中训练好的网络参数,从得到的语义分割概率图Pss中的每个位置选取概率最大的一项作为该像素位置的分类,得到最后的语义分割结果。
进一步的,在所述步骤A中,首先对输入图像进行预处理,然后进行编码得到Fenc,接着优化编码过程中的浅层特征得到
Figure BDA0002394452050000021
Figure BDA0002394452050000022
最后结合Fenc
Figure BDA0002394452050000023
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建,包括如下步骤:
步骤A1:预处理输入图像,对其进行标准化,即针对每张输入图像的每个通道,在原像素值的基础上减去各自的像素平均值;
步骤A2:首先用卷积网络处理步骤A1中得到的标准化图像,然后获取具有多尺度前背景对比表示的编码特征Fenc
步骤A3:选取步骤A2中卷积网络处理的中间层特征进行二次优化得到
Figure BDA0002394452050000024
Figure BDA0002394452050000025
步骤A4:基于像素重排技术和密集连接结构,结合Fenc
Figure BDA0002394452050000026
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建。
进一步的,在所述步骤A2中,首先用卷积网络处理步骤A1中得到的标准化图像,然后获取具有多尺度前背景对比表示的编码特征Fenc,包括以下步骤:
步骤A21:使用卷积神经网络提取特征Fbase
步骤A22:使用具有不同扩张比率的扩张卷积分别处理特征Fbase得到多个不同级别的前景上下文表示特征;扩张比率越大,得到的特征级别越高;其中扩张卷积的公式如下:
ydc[m]=∑xdc[mdc+rdc·kdc]wdc[kdc]
其中,xdc与ydc分别为卷积前后的值,mdc与kdc分别为图像和卷积核的位置坐标,wdc为权重卷积核,rdc为带孔卷积的比率;
步骤A23:使用具有不同划分区域数的平均池化操作处理特征Fbase得到多个不同级别的背景上下文表示特征;划分的区域越小,得到的特征级别越高;然后再分别用双线性插值缩放特征到原始输入大小;其中池化尺寸dp可通过输入特征尺寸λ和划分区域数p由如下公式计算得到:
Figure BDA0002394452050000031
步骤A24:将步骤A22中得到前景上下文表示特征分别减去步骤A23中得到的背景上下文表示特征,得到多个对比上下文特征;
步骤A25:将步骤A24中计算得到的全部对比上下文特征和Fbase在通道维度上进行拼接,然后通过卷积核为1的卷积操作对其进行特征降维,最后利用随机失活技术处理提升泛化性能,得到多尺度前背景对比表示特征作为最终的编码特征Fenc
进一步的,在所述步骤A3中,选取步骤A2中卷积网络处理的中间层特征进行二次优化得到
Figure BDA0002394452050000032
Figure BDA0002394452050000033
包括以下步骤:
步骤A31:从步骤A2中的卷积网络中选择尺寸大于编码特征Fenc的中间层特征
Figure BDA0002394452050000034
其中步长os表示
Figure BDA0002394452050000035
与Fenc的尺寸比例;
步骤A32:用由预激活的残差块和一个3×3卷积构成的适配卷积单元处理
Figure BDA0002394452050000036
得到边界优化特征
Figure BDA0002394452050000037
公式如下:
Figure BDA0002394452050000038
其中基础块fbb由批量标准化、激活函数和3×3卷积组成,
Figure BDA0002394452050000039
为经过预激活残差块的处理结果;
步骤A33:对于得到的边界优化特征
Figure BDA00023944520500000310
同样用适配卷积单元处理得到融合优化特征
Figure BDA00023944520500000311
步骤A34:选取不同的步长os重复步骤A32和步骤A33,得到多对
Figure BDA00023944520500000312
Figure BDA00023944520500000313
进一步的,在所述步骤A4中,基于像素重排技术和密集连接结构,结合Fenc
Figure BDA00023944520500000314
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建,包括以下步骤:
步骤A41:先使用1×1卷积对待解码特征Fenc进行降维,然后用适配卷积单元处理;
步骤A42:将步骤A41中经适配卷积单元处理得到的特征和具有相同尺寸的
Figure BDA00023944520500000315
进行拼接,然后用适配卷积单元处理;
步骤A43:陆续用3×3卷积和1×1卷积进行处理后,然后与步骤A41中的待解码特征Fenc进行拼接;
步骤A44:对步骤A43中得到的特征进行像素重排得到更大尺寸的特征,即在特征中的每个位置按通道分别取rh·rw个数进行分组,然后重新排列为通道数为1,高宽分别为rh和rw的特征,其中rh和rw分别为重排后高宽缩放系数;
步骤A45:将步骤A44获得的解码特征与双线性插值缩放后的Fenc进行拼接作为新的待解码特征,重复步骤A41至A44直至无剩余
Figure BDA0002394452050000041
最后在分别用步骤A41、步骤A43处理并用双线性到原输入图像尺寸大小后,使用softmax函数计算语义分割概率图Pss,计算公式如下:
Figure BDA0002394452050000042
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数。
进一步的,在所述步骤B中,基于步骤A搭建的核心神经网络,利用标注数据集迭代更新网络中的参数直至收敛,完成模型的训练,包括以下步骤:
步骤B1:利用已存在参数或者随机初始化模型参数;
步骤B2:使用随机缩放和随机裁剪对输入图像进行数据增强;
步骤B3:基于步骤A搭建的核心神经网络进行前向计算;
步骤B4:将步骤A中得到的
Figure BDA0002394452050000043
特征使用双线性插值上采样到其中最大的一个特征尺寸,然后拼接后使用1×1卷积,并使用sigmoid函数激活得到边缘概率图Ped,计算公式如下:
Figure BDA0002394452050000044
其中,σ为概率,e为自然指数,γ表示未激活特征值;
步骤B5:利用训练集的语义分割标注计算边缘检测标注,计算公式如下:
Figure BDA0002394452050000045
其中,yedge(i,j)和
Figure BDA0002394452050000046
为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤B6:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Lss和辅助监督的边缘损失Led,然后计算加权和损失L:
L=Lss+αLed
其中,α为Led在最终损失中所占的权重;
步骤B7:基于随机梯度下降优化算法,以最小化加权和损失为目标,利用反向传播更新模型参数;
步骤B8:重复步骤B2至步骤B7,直至模型收敛后完成模型的训练,保存训练得到的模型参数。
本发明还提供了一种基于多尺度特征与前背景对比的图像语义分割系统,包括:
核心网络模块,用于搭建模型的核心网络结构,包括编码子模块、解码子模块以及边界优化子模块;首先对输入图像进行预处理,然后通过编码子模块进行编码得到Fenc,接着通过边界优化子模块优化编码过程中的浅层特征得到
Figure BDA0002394452050000051
Figure BDA0002394452050000052
最后通过解码子模块结合Fenc
Figure BDA0002394452050000053
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建;
模型训练模块,用于训练模型,得到优秀的网络模型参数并保存,包括参数初始化子模块、数据增强子模块、核心网络子模块、损失计算子模块以及参数更新子模块;首先,通过参数初始化子模块初始化模型参数,然后通数据增强子模块对输入图像进行数据增强,接着通过核心网络结构基于核心网络模块搭建的核心神经网络进行前向计算,而后通过损失计算子模块及参数更新子模块,对核心网络子模块的核心神经网络进行参数的更新;
图像分割模块,用于对图像语义分割的概率图Pss进行进一步处理得到最后的语义分割结果,包括参数加载子模块、核心网络子模块、输出子模块;通过参数加载子模块加载模型训练模块得到的参数至核心网络模块搭建的核心神经网络,经由核心网络子模块对图像语义分割的概率图Pss处理后,由输出子模块输出最后的语义分割结果。
相较于现有技术,本发明具有以下有益效果:本发明首先在编码网络中的卷积网过后基于多尺度前背景对比进行特征编码,针对性地从多种感受野下提取前背景对比特征,可以在保证信息利用率的同时不丢失特征的空间信息,同时前背景对比特征也使得特征更具有辨别度,并以交叉匹配的方式进行上下文信息的重用,有效降低了模型复杂度。然后在浅层特征优化部分中,利用两段式优化以及辅助边缘监督,有效增强了边界信息的学习和利用。最后在解码网络结合优化的浅层特征,巧妙地利用像素重排的方式自然地让各级重建特征的尺寸统一起来,从而可以在各级解码特征之间建立密集连接,利用密集网的方式针对性地对分辨率重建过程中的特征进行更有效地重用。与现有方法相比,本发明能获取更具有辨别度的上下文对比特征,既拥有较大的信息利用率也维持了空间信息,在浅层特征优化过程中对边界细节信息的学习进行辅助监督,并在前后加入缓冲的优化部分,可以更好地学习边界信息并用于更好地提高不同物体间的分割能力,解码过程中利用像素重排的方式自然而巧妙地在各级解码特征之间建立密集连接,可以有效地对所有解码特征进行重用,使得最后的语义分割结果更准确且鲁棒。本发明系统可用于自定义保单系统,用于实现用户上传保单封面图像的图像质量增强与美化,以及敏感图像过滤等。
附图说明
图1为本发明实施例的方法实现流程图。
图2是本发明实施例的系统结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了基于多尺度特征与前背景对比的图像语义分割方法,如图1所示,包括以下步骤:
步骤A:首先图像进行预处理后,然后进行编码得到Fenc,接着优化编码过程中的浅层特征得到
Figure BDA0002394452050000061
Figure BDA0002394452050000062
最后结合前两者进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建;
步骤A1:预处理输入图像,对其进行标准化,即针对每张输入图像的每个通道,在原像素值的基础上减去各自的像素平均值;
步骤A2:首先用卷积网络处理步骤A1中得到的标准化图像,然后获取具有多尺度前背景对比表示的编码特征Fenc
步骤A21:使用卷积神经网络(本实施例中采用了应用扩张卷积的残差网络)提取特征Fbase
步骤A22:使用具有不同扩张比率的扩张卷积分别处理特征Fbase得到多个不同级别的前景上下文表示特征(本实施例采取孔率为2,5,8,16的四个前景上下文表示特征)。扩张比率越大,得到的特征级别越高。其中扩张卷积的公式如下:
ydc[m]=∑xdc[mdc+rdc·kdc]wdc[kdc]
其中,xdc与ydc分别为卷积前后的值,mdc与kdc分别为图像和卷积核的位置坐标,wdc为权重卷积核,rdc为带孔卷积的比率;
步骤A23:使用具有不同划分区域数的平均池化操作处理特征Fbase得到多个不同级别的背景上下文表示特征(本实施例采取划分区域数为6,3,2,1的四个背景上下文表示特征)。划分的区域越小,得到的特征级别越高。然后再分别用双线性插值缩放特征到原始输入大小。其中池化尺寸dp可通过输入特征尺寸λ和划分区域数p由如下公式计算得到:
Figure BDA0002394452050000071
步骤A24:将步骤A22中得到前景上下文表示特征分别减去步骤A23中得到的背景上下文表示特征,得到多个对比上下文特征(本实施例从总共16对匹配中只采取10对匹配,其中的前景上下文特征级别都不大于背景上下文特征级别);
步骤A25:将步骤A24中计算得到的全部对比上下文特征和Fbase在通道维度上进行拼接,然后通过卷积核为1的卷积操作对其进行特征降维,最后利用随机失活技术处理提升泛化性能(本实施例中采取的随机失活概率为0.5),得到多尺度前背景对比表示特征作为最终的编码特征Fenc
步骤A3:选取步骤A2中卷积网络处理的中间层特征进行二次优化得到
Figure BDA0002394452050000072
Figure BDA0002394452050000073
步骤A31:从步骤A2中的卷积网络中选择尺寸大于编码特征Fenc的中间层特征
Figure BDA0002394452050000074
其中步长os表示
Figure BDA0002394452050000075
与Fenc的尺寸比例;
步骤A32:用由预激活的残差块和一个3×3卷积构成的适配卷积单元处理
Figure BDA0002394452050000076
得到边界优化特征
Figure BDA0002394452050000077
公式如下:
Figure BDA0002394452050000078
其中基础块fbb由批量标准化、激活函数和3×3卷积组成,
Figure BDA0002394452050000079
为经过预激活残差块的处理结果;
步骤A33:对于得到的边界优化特征
Figure BDA00023944520500000710
同样用适配卷积单元处理得到融合优化特征
Figure BDA00023944520500000711
步骤A34:选取不同的步长os重复步骤A32和步骤A33,得到多对
Figure BDA00023944520500000712
Figure BDA00023944520500000713
(本实施例中采取的os为4,2)。
步骤A4:基于像素重排技术和密集连接结构,结合Fenc
Figure BDA0002394452050000081
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建。
步骤A41:先使用1×1卷积对待解码特征Fenc进行降维,然后用适配卷积单元处理;
步骤A42:将步骤A41中得到的特征和具有相同尺寸的
Figure BDA0002394452050000082
进行拼接,然后用适配卷积单元处理;
步骤A43:陆续用3×3卷积和1×1卷积进行处理后,然后与步骤A41中的待解码特征Fenc进行拼接;
步骤A44:对步骤A43中得到的特征进行像素重排得到更大尺寸的特征,即在特征中的每个位置按通道分别取rh·rw个数进行分组,然后重新排列为通道数为1,高宽分别为rh和rw的特征,其中rh和rw分别为重排后高宽缩放系数(本实施例中rh和rw同为2);
步骤A45:将获得的解码特征与双线性插值缩放后的Fenc进行拼接作为新的待解码特征,重复步骤A41至A44直至无剩余
Figure BDA0002394452050000083
最后在分别用步骤A41、步骤A43处理并用双线性到原输入图像尺寸大小后,使用softmax函数计算语义分割概率图Pss,计算公式如下:
Figure BDA0002394452050000084
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数。
步骤B:基于步骤A搭建的核心神经网络,利用标注数据集迭代更新网络中的参数直至收敛,完成模型的训练;
步骤B1:利用已存在参数或者随机初始化模型参数;
步骤B2:使用随机缩放和随机裁剪对输入图像进行数据增强;
步骤B3:并基于步骤A搭建的核心神经网络进行前向计算;
步骤B4:将步骤A中得到的多个
Figure BDA0002394452050000085
特征都使用双线性插值上采样到其中最大的一个特征尺寸,然后拼接后使用1×1卷积,并使用sigmoid函数激活得到边缘概率图Ped,计算公式如下:
Figure BDA0002394452050000091
其中,σ为概率,e为自然指数,γ表示未激活特征值;
步骤B5:利用训练集的语义分割标注计算边缘检测标注,计算公式如下:
Figure BDA0002394452050000092
其中,yedge(i,j)和
Figure BDA0002394452050000093
为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤B6:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Lss和辅助监督的边缘损失Led,然后计算加权和损失L:
L=Lss+αLed
其中,α为Led在最终损失中所占的权重(本实施例中α为1);
步骤B7:基于随机梯度下降优化算法,以最小化加权和损失为目标,利用反向传播更新模型参数;
步骤B8:重复步骤B2至步骤B7,直至模型收敛后完成模型的训练,保存训练得到的模型参数。
步骤C:结合步骤A搭建的核心神经网络和步骤B中训练好的网络参数,从得到的语义分割概率图Pss中的每个位置选取概率最大的一项作为该像素位置的分类,得到最后的语义分割结果。
本发明还提供了一种基于多尺度特征与前背景对比的图像语义分割系统,如图2所示,包括:
核心网络模块,用于搭建模型的核心网络结构,包括编码子模块、解码子模块以及边界优化子模块;首先对输入图像进行预处理,然后通过编码子模块进行编码得到Fenc,接着通过边界优化子模块优化编码过程中的浅层特征得到
Figure BDA0002394452050000094
Figure BDA0002394452050000095
最后通过解码子模块结合Fenc
Figure BDA0002394452050000096
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建;
模型训练模块,用于训练模型,得到优秀的网络模型参数并保存,包括参数初始化子模块、数据增强子模块、核心网络子模块、损失计算子模块以及参数更新子模块;首先,通过参数初始化子模块初始化模型参数,然后通数据增强子模块对输入图像进行数据增强,接着通过核心网络结构基于核心网络模块搭建的核心神经网络进行前向计算,而后通过损失计算子模块及参数更新子模块,对核心网络子模块的核心神经网络进行参数的更新;
图像分割模块,用于对图像语义分割的概率图Pss进行进一步处理得到最后的语义分割结果,包括参数加载子模块、核心网络子模块、输出子模块;通过参数加载子模块加载模型训练模块得到的参数至核心网络模块搭建的核心神经网络,经由核心网络子模块对图像语义分割的概率图Pss处理后,由输出子模块输出最后的语义分割结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种基于多尺度特征与前背景对比的图像语义分割方法,其特征在于,包括如下步骤:
步骤A:首先对输入图像进行预处理,然后进行编码得到Fenc,接着优化编码过程中的浅层特征得到
Figure FDA0002957353450000011
Figure FDA0002957353450000012
最后结合Fenc
Figure FDA0002957353450000013
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建;
步骤B:基于步骤A搭建的核心神经网络,利用标注数据集迭代更新网络中的参数直至收敛,完成模型的训练;
步骤C:结合步骤A搭建的核心神经网络和步骤B中训练好的网络参数,从得到的语义分割概率图Pss中的每个位置选取概率最大的一项作为像素位置的分类,得到最后的语义分割结果;
在所述步骤A中,首先对输入图像进行预处理,然后进行编码得到Fenc,接着优化编码过程中的浅层特征得到
Figure FDA0002957353450000014
Figure FDA0002957353450000015
最后结合Fenc
Figure FDA0002957353450000016
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建,包括如下步骤:
步骤A1:预处理输入图像,对其进行标准化,即针对每张输入图像的每个通道,在原像素值的基础上减去各自的像素平均值;
步骤A2:首先用卷积网络处理步骤A1中得到的标准化图像,然后获取具有多尺度前背景对比表示的编码特征Fenc
步骤A3:选取步骤A2中卷积网络处理的中间层特征进行二次优化得到
Figure FDA0002957353450000017
Figure FDA0002957353450000018
步骤A4:基于像素重排技术和密集连接结构,结合Fenc
Figure FDA0002957353450000019
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建;
在所述步骤A2中,首先用卷积网络处理步骤A1中得到的标准化图像,然后获取具有多尺度前背景对比表示的编码特征Fenc,包括以下步骤:
步骤A21:使用卷积神经网络提取特征Fbase
步骤A22:使用具有不同扩张比率的扩张卷积分别处理特征Fbase得到多个不同级别的前景上下文表示特征;扩张比率越大,得到的特征级别越高;其中扩张卷积的公式如下:
ydc[m]=∑xdc[mdc+rdc·kdc]wdc[kdc]
其中,xdc与ydc分别为卷积前后的值,mdc与kdc分别为图像和卷积核的位置坐标,wdc为权重卷积核,rdc为带孔卷积的比率;
步骤A23:使用具有不同划分区域数的平均池化操作处理特征Fbase得到多个不同级别的背景上下文表示特征;划分的区域越小,得到的特征级别越高;然后再分别用双线性插值缩放特征到原始输入大小;其中池化尺寸dp可通过输入特征尺寸λ和划分区域数p由如下公式计算得到:
Figure FDA0002957353450000021
步骤A24:将步骤A22中得到前景上下文表示特征分别减去步骤A23中得到的背景上下文表示特征,得到多个对比上下文特征;
步骤A25:将步骤A24中计算得到的全部对比上下文特征和Fbase在通道维度上进行拼接,然后通过卷积核为1的卷积操作对其进行特征降维,最后利用随机失活技术处理提升泛化性能,得到多尺度前背景对比表示特征作为最终的编码特征Fenc
2.根据权利要求1所述的基于多尺度特征与前背景对比的图像语义分割方法,其特征在于,在所述步骤A3中,选取步骤A2中卷积网络处理的中间层特征进行二次优化得到
Figure FDA0002957353450000022
Figure FDA0002957353450000023
包括以下步骤:
步骤A31:从步骤A2中的卷积网络中选择尺寸大于编码特征Fenc的中间层特征
Figure FDA0002957353450000024
其中步长os表示
Figure FDA0002957353450000025
与Fenc的尺寸比例;
步骤A32:用由预激活的残差块和一个3×3卷积构成的适配卷积单元处理
Figure FDA0002957353450000026
得到边界优化特征
Figure FDA0002957353450000027
公式如下:
Figure FDA0002957353450000028
其中基础块fbb由批量标准化、激活函数和3×3卷积组成,
Figure FDA0002957353450000029
为经过预激活残差块的处理结果;
步骤A33:对于得到的边界优化特征
Figure FDA00029573534500000210
同样用适配卷积单元处理得到融合优化特征
Figure FDA00029573534500000211
步骤A34:选取不同的步长os重复步骤A32和步骤A33,得到多对
Figure FDA00029573534500000212
Figure FDA00029573534500000213
3.根据权利要求1所述的基于多尺度特征与前背景对比的图像语义分割方法,其特征在于,在所述步骤A4中,基于像素重排技术和密集连接结构,结合Fenc
Figure FDA00029573534500000214
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建,包括以下步骤:
步骤A41:先使用1×1卷积对待解码特征Fenc进行降维,然后用适配卷积单元处理;
步骤A42:将步骤A41中经适配卷积单元处理得到的特征和具有相同尺寸的
Figure FDA0002957353450000031
进行拼接,然后用适配卷积单元处理;
步骤A43:陆续用3×3卷积和1×1卷积进行处理后,然后与步骤A41中的待解码特征Fenc进行拼接;
步骤A44:对步骤A43中得到的特征进行像素重排得到更大尺寸的特征,即在特征中的每个位置按通道分别取rh·rw个数进行分组,然后重新排列为通道数为1,高宽分别为rh和rw的特征,其中rh和rw分别为重排后高宽缩放系数;
步骤A45:将步骤A44获得的解码特征与双线性插值缩放后的Fenc进行拼接作为新的待解码特征,重复步骤A41至A44直至无剩余
Figure FDA0002957353450000032
最后在分别用步骤A41、步骤A43处理并用双线性到原输入图像尺寸大小后,使用softmax函数计算语义分割概率图Pss,计算公式如下:
Figure FDA0002957353450000033
其中,σc为c类别的概率,e为自然指数,γc和γk分别表示类别为c和k的未激活特征值,C为总类别数。
4.根据权利要求1所述的基于多尺度特征与前背景对比的图像语义分割方法,其特征在于,在所述步骤B中,基于步骤A搭建的核心神经网络,利用标注数据集迭代更新网络中的参数直至收敛,完成模型的训练,包括以下步骤:
步骤B1:利用已存在参数或者随机初始化模型参数;
步骤B2:使用随机缩放和随机裁剪对输入图像进行数据增强;
步骤B3:基于步骤A搭建的核心神经网络进行前向计算;
步骤B4:将步骤A中得到的
Figure FDA0002957353450000035
特征使用双线性插值上采样到其中最大的一个特征尺寸,然后拼接后使用1×1卷积,并使用sigmoid函数激活得到边缘概率图Ped,计算公式如下:
Figure FDA0002957353450000034
其中,σ为概率,e为自然指数,γ表示未激活特征值;
步骤B5:利用训练集的语义分割标注计算边缘检测标注,计算公式如下:
Figure FDA0002957353450000041
其中,yedge(i,j)和
Figure FDA0002957353450000042
为坐标(i,j)位置的边缘标注和语义标注,(iu,ju)表示(i,j)坐标下的8邻域U8中的一组坐标,sgn()为符号函数;
步骤B6:利用语义分割和边缘两者的概率图与其对应标注,分别计算像素级的交叉熵,得到对应语义分割损失Lss和辅助监督的边缘损失Led,然后计算加权和损失L:
L=Lss+αLed
其中,α为Led在最终损失中所占的权重;
步骤B7:基于随机梯度下降优化算法,以最小化加权和损失为目标,利用反向传播更新模型参数;
步骤B8:重复步骤B2至步骤B7,直至模型收敛后完成模型的训练,保存训练得到的模型参数。
5.一种基于多尺度特征与前背景对比的图像语义分割系统,其特征在于,包括:
核心网络模块,用于搭建模型的核心网络结构,包括编码子模块、解码子模块以及边界优化子模块;首先对输入图像进行预处理,然后通过编码子模块进行编码得到Fenc,接着通过边界优化子模块优化编码过程中的浅层特征得到
Figure FDA0002957353450000043
Figure FDA0002957353450000044
最后通过解码子模块结合Fenc
Figure FDA0002957353450000045
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建;包括如下步骤:
步骤A1:预处理输入图像,对其进行标准化,即针对每张输入图像的每个通道,在原像素值的基础上减去各自的像素平均值;
步骤A2:首先用卷积网络处理步骤A1中得到的标准化图像,然后获取具有多尺度前背景对比表示的编码特征Fenc
步骤A3:选取步骤A2中卷积网络处理的中间层特征进行二次优化得到
Figure FDA0002957353450000046
Figure FDA0002957353450000047
步骤A4:基于像素重排技术和密集连接结构,结合Fenc
Figure FDA0002957353450000048
进行解码得到语义分割概率图Pss,完成语义分割模型的核心神经网络搭建;
在所述步骤A2中,首先用卷积网络处理步骤A1中得到的标准化图像,然后获取具有多尺度前背景对比表示的编码特征Fenc,包括以下步骤:
步骤A21:使用卷积神经网络提取特征Fbase
步骤A22:使用具有不同扩张比率的扩张卷积分别处理特征Fbase得到多个不同级别的前景上下文表示特征;扩张比率越大,得到的特征级别越高;其中扩张卷积的公式如下:
ydc[m]=∑xdc[mdc+rdc·kdc]wdc[kdc]
其中,xdc与ydc分别为卷积前后的值,mdc与kdc分别为图像和卷积核的位置坐标,wdc为权重卷积核,rdc为带孔卷积的比率;
步骤A23:使用具有不同划分区域数的平均池化操作处理特征Fbase得到多个不同级别的背景上下文表示特征;划分的区域越小,得到的特征级别越高;然后再分别用双线性插值缩放特征到原始输入大小;其中池化尺寸dp可通过输入特征尺寸λ和划分区域数p由如下公式计算得到:
Figure FDA0002957353450000051
步骤A24:将步骤A22中得到前景上下文表示特征分别减去步骤A23中得到的背景上下文表示特征,得到多个对比上下文特征;
步骤A25:将步骤A24中计算得到的全部对比上下文特征和Fbase在通道维度上进行拼接,然后通过卷积核为1的卷积操作对其进行特征降维,最后利用随机失活技术处理提升泛化性能,得到多尺度前背景对比表示特征作为最终的编码特征Fenc
模型训练模块,用于训练模型,得到优秀的网络模型参数并保存,包括参数初始化子模块、数据增强子模块、核心网络子模块、损失计算子模块以及参数更新子模块;首先,通过参数初始化子模块初始化模型参数,然后通数据增强子模块对输入图像进行数据增强,接着通过核心网络结构基于核心网络模块搭建的核心神经网络进行前向计算,而后通过损失计算子模块及参数更新子模块,对核心网络子模块的核心神经网络进行参数的更新;
图像分割模块,用于对图像语义分割的概率图Pss进行进一步处理得到最后的语义分割结果,包括参数加载子模块、核心网络子模块、输出子模块;通过参数加载子模块加载模型训练模块得到的参数至核心网络模块搭建的核心神经网络,经由核心网络子模块对图像语义分割的概率图Pss处理后,由输出子模块输出最后的语义分割结果。
CN202010126217.2A 2020-02-28 2020-02-28 基于多尺度特征与前背景对比的图像语义分割方法及系统 Active CN111340047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010126217.2A CN111340047B (zh) 2020-02-28 2020-02-28 基于多尺度特征与前背景对比的图像语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010126217.2A CN111340047B (zh) 2020-02-28 2020-02-28 基于多尺度特征与前背景对比的图像语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN111340047A CN111340047A (zh) 2020-06-26
CN111340047B true CN111340047B (zh) 2021-05-11

Family

ID=71182012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010126217.2A Active CN111340047B (zh) 2020-02-28 2020-02-28 基于多尺度特征与前背景对比的图像语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN111340047B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113706562B (zh) * 2020-07-08 2023-04-07 腾讯医疗健康(深圳)有限公司 图像分割方法、装置、系统及细胞分割方法
CN111950610B (zh) * 2020-07-29 2021-05-11 中国科学院大学 基于精确尺度匹配的弱小人体目标检测方法
CN111931782B (zh) * 2020-08-12 2024-03-01 中国科学院上海微系统与信息技术研究所 语义分割方法、系统、介质及装置
CN112330682B (zh) * 2020-11-09 2022-08-26 重庆邮电大学 一种基于深度卷积神经网络的工业ct图像分割方法
CN112949732B (zh) * 2021-03-12 2022-04-22 中国人民解放军海军航空大学 基于自适应多模态遥感图像融合语义标注方法及系统
CN113657402B (zh) * 2021-10-18 2022-02-01 北京市商汤科技开发有限公司 抠像处理方法、装置、电子设备及存储介质
CN116071607B (zh) * 2023-03-08 2023-08-08 中国石油大学(华东) 基于残差网络的水库航拍图像分类及图像分割方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180430A (zh) * 2017-05-16 2017-09-19 华中科技大学 一种适用于语义分割的深度学习网络构建方法及系统
US20190244347A1 (en) * 2015-08-14 2019-08-08 Elucid Bioimaging Inc. Methods and systems for utilizing quantitative imaging

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176388B1 (en) * 2016-11-14 2019-01-08 Zoox, Inc. Spatial and temporal information for semantic segmentation
CN107564025B (zh) * 2017-08-09 2020-05-29 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN107590813A (zh) * 2017-10-27 2018-01-16 深圳市唯特视科技有限公司 一种基于深层交互式测地距离的图像分割方法
CN108038857B (zh) * 2017-12-25 2018-10-12 北京航空航天大学 一种基于语义信息与边缘约束的前景目标检测方法
US10657379B2 (en) * 2018-06-19 2020-05-19 Vimeo, Inc. Method and system for using semantic-segmentation for automatically generating effects and transitions in video productions
CN109685067B (zh) * 2018-12-26 2022-05-03 江西理工大学 一种基于区域和深度残差网络的图像语义分割方法
CN110059698B (zh) * 2019-04-30 2022-12-23 福州大学 用于街景理解的基于边缘稠密重建的语义分割方法及系统
CN110070091B (zh) * 2019-04-30 2022-05-24 福州大学 用于街景理解的基于动态插值重建的语义分割方法及系统
CN110059769B (zh) * 2019-04-30 2022-11-18 福州大学 用于街景理解的基于像素重排重建的语义分割方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190244347A1 (en) * 2015-08-14 2019-08-08 Elucid Bioimaging Inc. Methods and systems for utilizing quantitative imaging
CN107180430A (zh) * 2017-05-16 2017-09-19 华中科技大学 一种适用于语义分割的深度学习网络构建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Novel Reduced-Layer Deep Learning System via Pixel Rearrangement for Object Detection in Multispectral Imagery;Anusha K.V.等;《2018 IEEE International Conference on Computational Intelligence and Virtual Environments for Measurement Systems and Applications (CIVEMSA)》;20180820;第1-6页 *
结合上下文特征与 CNN 多层特征融合的语义分割;罗会兰 等;《中国图象图形学报》;20191231;第2200-2209页 *

Also Published As

Publication number Publication date
CN111340047A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111340047B (zh) 基于多尺度特征与前背景对比的图像语义分割方法及系统
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
CN110059698B (zh) 用于街景理解的基于边缘稠密重建的语义分割方法及系统
CN111428718B (zh) 一种基于图像增强的自然场景文本识别方法
CN110059768B (zh) 用于街景理解的融合点与区域特征的语义分割方法及系统
CN110070091B (zh) 用于街景理解的基于动态插值重建的语义分割方法及系统
CN110059769B (zh) 用于街景理解的基于像素重排重建的语义分割方法及系统
CN112183258A (zh) 一种基于上下文信息和注意力机制的遥感图像道路分割方法
CN111292265A (zh) 一种基于生成式对抗神经网络的图像修复方法
CN111461127A (zh) 基于一阶段目标检测框架的实例分割方法
CN113379833B (zh) 一种基于神经网络的图像可见水印的定位和分割方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN111080591A (zh) 基于编码解码结构结合残差模块的医学图像分割方法
CN113657404B (zh) 一种东巴象形文字的图像处理方法
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复系统及方法
CN113344933B (zh) 一种基于多层次特征融合网络的腺体细胞分割方法
CN112036290B (zh) 一种基于类标编码表示的复杂场景文字识别方法及系统
CN114066871A (zh) 一种新冠肺炎病灶区域分割模型训练的方法
CN116822548B (zh) 生成高识别率ai二维码的方法及计算机可读存储介质
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN115115860A (zh) 一种基于深度学习的图像特征点检测匹配网络
CN114170112A (zh) 一种修复图像的方法、装置以及存储介质
CN113901913A (zh) 一种用于古籍文档图像二值化的卷积网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant