CN113538472B - 一种基于编码-解码网络的向量场引导精细化分割方法 - Google Patents
一种基于编码-解码网络的向量场引导精细化分割方法 Download PDFInfo
- Publication number
- CN113538472B CN113538472B CN202110752882.7A CN202110752882A CN113538472B CN 113538472 B CN113538472 B CN 113538472B CN 202110752882 A CN202110752882 A CN 202110752882A CN 113538472 B CN113538472 B CN 113538472B
- Authority
- CN
- China
- Prior art keywords
- network
- segmentation
- images
- vector field
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于编码‑解码网络的向量场引导精细化分割方法,其特点是采用卷积循环神经网络对卷积神经网络提取的多尺度特征图进行向量场细化和预测分数图的方法,结合向量场中的流场和方向场来引导精细化分割,利用多尺度语义特征并获得更精细的分割结果,具体包括:图像划分和灰度归一化、网络的构建和训练、图像分割等步骤。本发明与现有技术相比能充分融合和利用不同尺度的特征信息,可以在基于CNN的不同骨干网络上灵活工作,有效地增强了对图像中不同变化的鲁棒性,进一步提高了分割精度。
Description
技术领域
本发明涉及图像分割技术领域,尤其是一种基于编码-解码网络的向量场引导精细化分割方法。
背景技术
图像分割技术是计算机视觉的基础之一,也是对图像进行语义理解的难点之一。随着深度学习理论的蓬勃发展和计算资源的不断增长,极大地提升了图像分割的效率和精度。 Long等人在2015年提出了全卷积神经网络(FCN),将一般分类网络最后的全连接层修改成卷积层,并在特征融合的过程中采用逐点相加的策略;同年,Navab等人提出了在通道层面上拼接并融合特征的U-Net;此后,何恺明等人提出了残差网络(ResNet)学习层间的残差表示,在一定程度上解决了Zisserman在2014年提出的VggNet网络过深而导致的学习退化问题。然而,当前现有的工作对不同尺度特征的融合方式还有待改进,处理过程中还存在信息的损失,而且由于多尺度的特征可以被视为序列数据,RNN比CNN更具有在层次结构中处理多尺度特征的优势。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于编码-解码网络的向量场引导精细化分割方法,采用卷积循环神经网络对卷积神经网络提取的多尺度特征图进行向量场细化和预测分数图的方法,利用CNN来提取多尺度特征图,以及FRU处理每一尺度的特征图,通过融合操作聚合全尺度的特征图,然后利用FRU进一步融合多尺度分数图,并连接在一起,得到初始预测的分割,其边缘分割在方向场模块中通过方向场进行矫正,从而最大限度地利用全尺度的特征信息,得到最终的分割结果,该方法不仅结合了CNN和RNN 的优势,还结合了向量场中的流场和方向场来引导精细化分割,网络的编码器依赖基于CNN 的骨干网络,而解码器则依赖于由卷积循环神经网络(ConvRNN)和流场构成的细粒度循环单元(FRU),融合操作和方向场模块,较好解决了图像分割中多尺度特征融合和利用的问题,具有广泛的应用前景。
实现本发明目的的具体技术方案是:一种基于编码-解码网络的向量场引导精细化分割方法,其特点是不仅结合了卷积神经网络(CNN)和循环神经网络(RNN)的优势,还结合了向量场中的流场和方向场来引导精细化分割,编码器利用CNN作为骨干网络来提取多尺度特征图(feature map),解码器利用了卷积循环神经网络(ConvRNN)和向量场的优势,分两个阶段来分别细化特征图和预测分数图(score map),以更好地利用多尺度语义特征并获得更精细的分割结果,其具体过程包括如下步骤:
a步骤:将图像划分成训练集和测试集;
b步骤:预处理所有图像;
c步骤:构建一个编码-解码结构的分割网络;
d步骤:利用训练集中的图像训练网络;
e步骤:利用训练好的网络对测试集中的图像进行分割。
所述图像为待分割图像的原始图像。
所述a步骤中随机选取图像的60%组成有标签的训练集,其余40%组成没有标签的测试集,标签是像素点以类别编号表示的图像且和对应的训练图像具有相同大小。
所述b步骤中所述预处理是将所有图像的灰度归一化。
所述c步骤中根据资源限制和需求选择合适的基于CNN的骨干作为编码器,而解码器的结构是固定的。
所述d步骤中利用训练集中的图像训练网络,具体计算包括如下步骤:
步骤d1:利用编码器中的CNN生成图像的特征图;
步骤d2:在解码器的第一个阶段,利用由ConvRNN和流场构成的细粒度循环单元(FRU) 来融合上下文的特征信息,然后利用全尺度融合模块进行全尺度的特征融合;
步骤d3:在解码器的第二个阶段,将各尺度的特征通过卷积操作变换成预测分数图,再次利用FRU融合上下文的特征信息,将获得的多个分数图拼接起来并卷积,得到一个初始的分割预测结果,然后利用方向场信息矫正边缘的分割,得到最终的分割结果;
步骤d4:用迭代的方式进行训练,每一轮迭代都重复上述步骤d1到步骤d3,通过前向传播来计算由交叉熵损失和角损失构成的目标函数,并通过反向传播来更新模型参数,直到目标函数收敛才停止训练。
所述e步骤中将测试图像输入训练好的网络,重复步骤d1到步骤d3,得到分割的预测结果。
本发明与现有技术相比具有充分融合和利用不同尺度的特征信息,可以在基于CNN的不同骨干网络上灵活工作,有效地增强了对图像中不同变化的鲁棒性,进一步提高了分割精度,较好解决了图像分割中多尺度特征融合和利用的问题,具有广泛的应用前景。
附图说明
图1为本发明流程图;
图2为分割网络中的FRU结构示意图;
图3为全尺度融合模块结构示意图;
图4为方向场示意图;
图5为方向场模块结构示意图;
图6为分割结果对比图。
具体实施方式
结合以下部分人脸识别的具体实施例,对本发明做进一步的详细说明。
参阅图1,本发明包括:图像划分与预处理、构建网络、训练网络和测试网络四个部分,其图像分割的具体步骤如下:
步骤a:将图像划分成训练集和测试集
随机选取60%待分割图像的原始图像组成有标签的训练集,其余40%组成没有标签的测试集,标签是像素点以类别编号表示的图像且和对应的训练图像具有相同大小。
步骤b:预处理所有图像
由于图像采集的过程中受到光照等因素的影响,图像灰度可能集中在一个或几个灰度段的范围内,较大的图像灰度分布差异将会影响到特征提取和识别,所以在预处理中需要将所有图像的灰度归一化。对于每个图像I,利用灰度拉伸的方法按下述a式将其中的每个像素点I(x,y)的灰度变换到0~255的范围内:
式中:max(I)和min(I)分别表示计算图像I中所有像素点中的最大灰度值和最小灰度值。
步骤c:构建一个编码-解码结构的分割网络
根据资源限制和需求选择合适的基于CNN的骨干网络作为编码器,一般选择应用较为成熟的网络例如U-Net,VggNet和ResNet等。而解码器的结构是固定的,它包含细化特征图和细化分数图两个阶段。在第一个阶段细化特征图的过程中,包含由 ConvRNN和流场构成的FRU和融合操作,在第二个阶段细化预测分数图的过程中,包含FRU和方向场模块。
步骤d:利用训练集中的图像训练网络
步骤d1:利用编码器中的CNN生成图像的特征图(feature map),假定CNN编码的层数为L,则可以得到L个特征图的{F1,F2,…,FL};
步骤d2:在解码器的第一个阶段,对于第i个特征图Fi,利用FRU融合上下文特征信息,其计算如下述b式:
Pi=FRU(Pi-1,Fi),i=1,2,…L (b);
式中:P0是初始化为全零的张量。
参阅图2,FRU需要学习一个二维向量表示的流场δ用于修正Pi-1在上采样过程中产生的信息损失,其计算如下述c式:
式中:下标x和y分别表示特征图上每个像素点p的坐标。
所述FRU中ConvRNN由下述d式为:
参阅图3,对于Pi(i>1),按下述e式进行全尺度的特征融合:
P′i=fuse(P′1,P′2,…,Pi,Pi+1,…,PL),i>1 (e)。
步骤d3:在解码器的第二个阶段,为了获得分数图用于预测分割,将上一阶段得到的各尺度的特征{P1,P′2,…,P′L}通过卷积操作变换成分数图(score map),即 {H1,H2,…,HL}。对于Hi,再次利用FRU由下述f式进行融合上下文的特征信息:
Si=FRU(Hi,HL),i=1,2,…L-1 (f);
将获得的分数图Si拼接起来并卷积,可以得到一个初始的分割预测结果yinit。
参阅图4,对于yinit的每个前景像素点p,找到一个离它最近的在分割组织边缘的像素点Fp,得到由下述g式二维向量表示的方向场,由从Fp指向p的向量组成:
得到由下述i式表示的分割结果yf:
步骤d4:用迭代的方式进行训练,每一轮迭代都重复上述步骤d1到步骤d3,通过前向传播来计算由交叉熵损失和角损失构成的目标函数,并通过反向传播来更新模型参数,直到目标函数收敛才停止训练。
步骤e:利用训练好的网络对测试集中的图像进行分割。
将测试图像输入上述训练好的网络,重复步骤d1到步骤d3,以得到分割的预测结果。
参阅图6,其中,图6a为MRBrainS数据库中待分割图像的原始图像;图6b是用SFNet网络(Li等人于ECCV 2020提出)得到的分割结果;图6c是用CRDN网络(Wen 等人于AAAI 2020提出)得到的分割结果;图6d是实施例1采用本发明得到的分割结果;图6e是待分割图像的真实分割结果。实施例1的分割结果(图6d)与其它神经网络的分割结果(图6b和图6c)的对比,可以看出本发明的分割结果与真实结果更加接近,分割效果更好。
以上实施例只是对本发明做进一步说明,并非用以限制本发明专利,凡为本发明等效实施,均应包含于本发明专利的权利要求范围之内。
Claims (4)
1.一种基于编码-解码网络的向量场引导精细化分割方法,其特征在于采用卷积循环神经网络对卷积神经网络提取的多尺度特征图进行向量场细化和预测分数图,利用多尺度语义特征获得分割结果,具体包括如下步骤:
a步骤:图像的划分
随机选取60%的图像组成有标签的训练集,其余40%的图像组成没标签的测试集;
b步骤:图像的预处理
将训练集和测试集中所有图像的灰度归一化;
c步骤:分割网络的构建
根据资源限制和需求选择卷积神经网络的骨干为编码器,构建编码-解码结构的分割网络;
d步骤:训练网络
利用训练集中预处理后的图像,按下述步训练网络:
步骤d1:利用编码器中的CNN生成图像的特征图;
步骤d2:在解码器的第一个阶段,利用由ConvRNN和流场构成的细粒度循环单元来融合上下文的特征信息,然后利用全尺度融合模块进行全尺度的特征融合;
步骤d3:在解码器的第二个阶段,将各尺度的特征通过卷积操作变换成预测分数图,再次利用细粒度循环单元融合上下文的特征信息,将获得的多个分数图拼接起来并卷积,得到一个初始的分割预测结果,然后利用方向场信息矫正边缘的分割,得到最终的分割结果;
步骤d4:用迭代的方式进行网络训练,每一轮迭代都重复上述步骤d1~d3,通过前向传播计算由交叉熵损失和角损失构成的目标函数,并通过反向传播来更新模型参数,直到目标函数收敛才停止训练;
e步骤:图像的分割
将测试集中预处理后的图像输入上述训练好的网络,重复d1~d3步骤,对测试集中的图像进行分割,得到分割的预测结果。
2.根据权利要求1所述基于编码-解码网络的向量场引导精细化分割方法,其特征在于所述a步骤和b步骤中的图像为待分割图像的原始图像。
3.根据权利要求1所述基于编码-解码网络的向量场引导精细化分割方法,其特征在于所述解码器的结构是固定的。
4.根据权利要求1所述基于编码-解码网络的向量场引导精细化分割方法,其特征在于所述标签是像素点以类别编号表示的图像且和对应的训练图像具有相同大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752882.7A CN113538472B (zh) | 2021-07-02 | 2021-07-02 | 一种基于编码-解码网络的向量场引导精细化分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752882.7A CN113538472B (zh) | 2021-07-02 | 2021-07-02 | 一种基于编码-解码网络的向量场引导精细化分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113538472A CN113538472A (zh) | 2021-10-22 |
CN113538472B true CN113538472B (zh) | 2022-07-08 |
Family
ID=78126702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110752882.7A Active CN113538472B (zh) | 2021-07-02 | 2021-07-02 | 一种基于编码-解码网络的向量场引导精细化分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538472B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962905B (zh) * | 2021-12-03 | 2023-05-05 | 四川大学 | 基于多阶段特征互补网络的单幅图像去雨方法 |
CN117152441B (zh) * | 2023-10-19 | 2024-05-07 | 中国科学院空间应用工程与技术中心 | 一种基于跨尺度解码的生物图像实例分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345538A (zh) * | 2018-08-30 | 2019-02-15 | 华南理工大学 | 一种基于卷积神经网络的视网膜血管分割方法 |
CN109493362A (zh) * | 2018-09-03 | 2019-03-19 | 李磊 | 一种神经网络结合边缘检测的人体前景分割算法 |
CN111652081A (zh) * | 2020-05-13 | 2020-09-11 | 电子科技大学 | 一种基于光流特征融合的视频语义分割方法 |
CN112907569A (zh) * | 2021-03-24 | 2021-06-04 | 北京房江湖科技有限公司 | 头部图像区域的分割方法、装置、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111277871A (zh) * | 2018-12-05 | 2020-06-12 | 华为技术有限公司 | 网络协议电视iptv中推荐内容的方法和装置 |
CN111598892B (zh) * | 2020-04-16 | 2023-06-30 | 浙江工业大学 | 一种基于Res2-UNeXt网络结构的细胞图像分割方法 |
CN113052180A (zh) * | 2021-03-23 | 2021-06-29 | 中国人民解放军战略支援部队信息工程大学 | 融合语义流场的编解码网络港口影像分割方法 |
-
2021
- 2021-07-02 CN CN202110752882.7A patent/CN113538472B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345538A (zh) * | 2018-08-30 | 2019-02-15 | 华南理工大学 | 一种基于卷积神经网络的视网膜血管分割方法 |
CN109493362A (zh) * | 2018-09-03 | 2019-03-19 | 李磊 | 一种神经网络结合边缘检测的人体前景分割算法 |
CN111652081A (zh) * | 2020-05-13 | 2020-09-11 | 电子科技大学 | 一种基于光流特征融合的视频语义分割方法 |
CN112907569A (zh) * | 2021-03-24 | 2021-06-04 | 北京房江湖科技有限公司 | 头部图像区域的分割方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113538472A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Žbontar et al. | Stereo matching by training a convolutional neural network to compare image patches | |
CN108062756B (zh) | 基于深度全卷积网络和条件随机场的图像语义分割方法 | |
Li et al. | Traffic scene segmentation based on RGB-D image and deep learning | |
CN111445488B (zh) | 一种弱监督学习自动识别和分割盐体的方法 | |
Zhang et al. | Efficient inductive vision transformer for oriented object detection in remote sensing imagery | |
CN113538472B (zh) | 一种基于编码-解码网络的向量场引导精细化分割方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN113436197B (zh) | 基于生成对抗和类特征分布的域适应无监督图像分割方法 | |
CN117058266B (zh) | 一种基于骨架和轮廓的书法字生成方法 | |
Khanykov et al. | Image segmentation improvement by reversible segment merging | |
CN116342942A (zh) | 基于多级域适应弱监督学习的跨域目标检测方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN116796810A (zh) | 一种基于知识蒸馏的深度神经网络模型压缩方法及装置 | |
CN111723852A (zh) | 针对目标检测网络的鲁棒训练方法 | |
Wu et al. | STR transformer: a cross-domain transformer for scene text recognition | |
CN117593275A (zh) | 一种医学图像分割系统 | |
CN110647917B (zh) | 一种模型复用方法与系统 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN116109649A (zh) | 一种基于语义错误修正的3d点云实例分割方法 | |
CN110717068A (zh) | 一种基于深度学习的视频检索方法 | |
CN114168782B (zh) | 一种基于三元组网络的深度哈希图像检索方法 | |
CN115937161A (zh) | 基于自适应阈值半监督的矿石分选方法和计算机存储介质 | |
CN112784800B (zh) | 一种基于神经网络和形状约束的人脸关键点检测方法 | |
CN111461130B (zh) | 一种高精度图像语义分割算法模型及分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |