CN109712165A - 一种基于卷积神经网络的同类前景图像集分割方法 - Google Patents
一种基于卷积神经网络的同类前景图像集分割方法 Download PDFInfo
- Publication number
- CN109712165A CN109712165A CN201811634200.7A CN201811634200A CN109712165A CN 109712165 A CN109712165 A CN 109712165A CN 201811634200 A CN201811634200 A CN 201811634200A CN 109712165 A CN109712165 A CN 109712165A
- Authority
- CN
- China
- Prior art keywords
- image
- segmentation
- mask
- image set
- transformation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络的同类前景图像集分割方法,包括了以下步骤:步骤1,生成样本分割掩码;步骤2,构建训练数据集;步骤3,学习分割网络模型;步骤4,基于分割网络模型分割同类图像集中的其余图像;步骤5,再分割。通过上述方式,本发明能够利用待分割图像集所包含的图像之间强相关性,仅需要少量交互就可以将同类图像集中的前景分割出来。
Description
技术领域
本发明涉及计算机视觉的图像处理方法,特别是涉及一种能够利用少量交互就可以将同类图像集中的前景分割出来的图像分割方法。
背景技术
就分割单幅或少量图像而言,交互式分割算法所要求的用户操作相对简单且易于取得令用户满意的分割结果,常用的交互式分割方法有贝叶斯抠图、图切割、懒人抠图(Lazy Snapping)和Grabcut等。因此可以说交互式分割算法是目前为止单幅或少量图像前背景分割的首选。尽管如此,当用户需处理大量的待分割图像时,大量的重复交互操作成为必须,这势必引起用户的操作疲劳并降低用户操作的积极性和交互的质量进而影响分割的效果。而从前背景分割任务所涉及的应用来看,待分割图像集所包含的图像之间往往会呈现很强的相关性。典型的生活应用场景如用户要对一家人外出旅游时所拍摄的图片进行分割和处理,此时该图像集所包含的图像前景可能是为数不多的几个家人,而背景则是家人参观时拍照的个别景点。又如用户要对几个运动员参加某个比赛的一组照片又或动物园里面参观拍摄的一些小动物的照片进行分割和处理。这些应用场景所包含的前景和背景虽不单一但都具有很强的相关性。如能在设计图像集分割算法时充分考虑并利用这种相关性,势必可以在很大程度上减少用户交互所需的工作量,节约用户的时间和精力,增强软件的可用性,提高分割结果的质量。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提出了一种基于卷积神经网络的同类前景图像集分割方法
为了解决上述问题,本发明采用的一个技术方案是:提供了一种基于卷积神经网络的同类前景图像集分割方法,该方法的特征在于将同类图像集分成两部分,少量图像用于训练,其他的用于分割网络模型测试。训练时,从同类图像集中随机选取少量样本,并进行用交互式分割方法进行手动分割,得到分割掩码图,然后将分割掩码图进行几何变换作为卷积神经网络输入的第4个通道,这样,网络的输入扩展到RGB+掩码通道(4通道),额外的通道旨在模拟前景物体的各种姿态变换。训练完毕得到的分割网络模型就会具有几何变换的能力,测试时,选取训练图像的分割掩码作为测试图像的第四个通道,预测分割掩码。通过计算机对图像做如下步骤的处理:
以下内容为对权书的重复,对照修改即可,谢谢
步骤1,向计算机输入同类图像集同类图像集。由计算机从同类图像集中读取一张,生成样本分割掩码。所述的同类图像集是指这组图像集里的图像的前景都是同一种物体,比如说有一组图像,图像中都有泰迪犬,那么我们就称这组数据是同类图像集。样本分割掩码是指由黑白两色组成的二值图像,和读取的那张图像相对应,前景图像一般用白色填充,背景图像用黑色填充,是待分割图像的真实分割掩码。
步骤2,构建训练数据集。。
步骤3,学习分割网络模型。
步骤4,基于分割网络模型分割同类图像集中的其余图像。
步骤5,进行是否需要再分割的判断。循环的条件是是否所有图像都已取得满意的分割结果。
如果所有图像均已获得满意的分割结果,则分割结束。
反之,选择分割效果较差的图像作为新的分割样本,并返回步骤1训练新的分割网络模型,实现对其余分割欠佳图像的分割优化。
满意的分割结果,是指网络的输出分割掩码边缘平滑,没有空洞,和标注掩码对比,分割掩码的边界与物体的边界较为贴合,diff值都处在-15%至15%之间。分割效果较差的图像,是指网络的输出分割掩码是全黑、全白,或者是前景图像虽然被分割出来了,但是有很多零零星星的本该是背景的也被分割为前景了,而且diff值不在-15%至15%之间。
进一步说,本发明的具体步骤为:
步骤1,生成样本分割掩码:从给定的同类图像集中随机选取1幅图像,采用交互式分割方法进行手动分割,得到分割掩码图像。同类图像集/图像集中含有n幅图像。
步骤2,构建训练数据集:对步骤1得到的分割掩码图像进行几何变换。所述几何变换包括仿射变换和薄板样条变换,所述仿射变换是指对图像进行缩放、平移和旋转,薄板样条变换是指利用薄板样条函数(Thin Plate Spline,TPS)对要变换的形状进行插值,它是一种非刚性变换。选取102至103重参数组合生成 102至103张不同的变换掩码,模拟前景物体的102至103种姿态变换,将变换后的掩码与对应原始图像结合,构成102至103个4通道图像。
再将每个4通道图像与由步骤1得到的分割掩码图像配对,构成102至103对训练数据。其中,每个4通道图像均包含一张待分割图像和一张待分割前景变换后的掩码轮廓,变换前的分割掩码图像给出了待分割前景的真实轮廓。
步骤3,学习分割网络模型:以步骤2中的所有4通道图像,大概有102至 103个,作为网络的输入,经过10至30层(优选为20层)卷积层、池化层、激活层、分类输出层及上采样层的逐次处理后,获得“上采样层的特征图”。
在上采样层的特征图上进行逐像素分类,并与对应的分割掩码图像进行比较得到预测误差。
采用反向传播算法和随机梯度下降法来减小预测误差以训练该神经网络,得到同类前景图像集分割的网络模型。所述反向传播算法是指神经网络中最有效的方法,其主要思想是将网络最后输出的结果,和真实结果对比,计算其误差,并将误差反向逐级传下去。所述随机梯度下降法是指在更新网络参数的时候,并不遍历整个数据集,是一种批处理方法,每次更新参数后,都能够让损失函数变小,最终达到最小或者我们接受的误差。
步骤4,基于分割网络模型分割同类图像集中的其余图像:将同类图像集中的其余n-1张图像和由步骤2获得的变换掩码图进行结合,构成4通道测试图像并输入到分割网络模型中,在上采样层图像恢复到原始输入图像尺寸,从而对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样层的特征图上进行逐像素分类,从而得到n-1张测试图像的预测分割掩码。
步骤5,再分割:检查步骤4所得到的分割结果:
如果所有图像均已获得满意的分割结果,则分割结束。所述满意的分割结果是指这些图像的预测分割掩码的diff值都处在-15%至15%之间。
否则,选择一副分割效果较差的图像作为新的分割样本,并返回步骤1训练新的分割网络模型,实现对其余分割欠佳图像的分割优化,并重复该过程直至所有图像分割完成。所述分割效果较差的图像是指这些图像的预测分割掩码的diff值不在-15%至15%之间。
进一步说,步骤1的具体步骤为:从给定的同类图像集中随机选取1幅图像,采用GrabCut交互式分割方法进行手动分割,得到分割掩码图像。
进一步说,步骤2的具体步骤为:
步骤2对步骤1得到的分割掩码进行几何变换,包括仿射变换和薄板样条变换,选取n个种参数组合生成n张不同的变换掩码,n取102至103,模拟前景物体的n种姿态变换,将变换后的掩码与对应原始图像结合,构建一个4通道图像,再与步骤1得到的分割掩码图像配对,构成一对训练数据。其中4通道图像包含待分割图像及待分割前景变换后的掩码轮廓,变换前的分割掩码图给出了待分割前景的真实轮廓。
进一步说,步骤3的具体步骤为:
步骤3-1:以步骤2中的所有4通道图像作为网络的输入,其中原始图像进行去均值预处理:把训练集里面所有图片的所有R通道像素、G通道像素、B通道像素求均值,获得三个数值:R_mean,G_mean,B_mean。将原始图像每个像素的R、G、B值对应减去R_mean,G_mean,B_mean,得到去均值图像。通过本步骤移除图像的平均亮度值intensity。
此外,本步骤中,去均值预处理可以实现各个颜色通道的均值都为0,以避免后续步骤中的输入层的数值过大而导致的参数的梯度过大的问题。
步骤3-2:去均值后的输入数据经过数层卷积层、池化层、激活层、分类输出层,最后是上采样层,上采样层得到的特征图和原图大小相同且深度为k,其中k是类别个数。
步骤3-3:将步骤3-2得到的和原图大小相同且深度为k的特征图求softmax 值:
假设多个神经元输出看成一个数组V,Vi表示第i个神经元的输出,那么这个神经元输出的softmax值为:
softmax函数用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内。第i个神经元的输出softmax值Si可以理解为属于第i类的概率,当在进行多分类的时候,找到概率最大的那一个值,并把这个像素判定为概率最大值所对应的类别,得到预测分割掩码图,由公式2容易得出,把某个输入判定为第1 类到第k类的概率和为1,即:
步骤3-4:预测误差是指预测结果与真实结果的差距,当对分类的预测误差 loss进行优化的时候,令通过梯度下降,要对Loss对每个权重进行求偏导。损失函数为交叉熵损失函数:
Loss=-∑yilnai (4)
其中i代表类别号,yi代表i类的真实类标,ai代表步骤3-3求出的softmax 值,表示类别i的预测概率。采用反向传播算法和随机梯度下降法来减小预测误差Loss以训练该神经网络,得到图像集分割网络模型。
进一步说,步骤4的具体步骤为:
步骤4将同类图像集中的其余图像和分割掩码进行结合,构成4通道测试图像输入到分割网络模型中,在上采样层,图像恢复到原始输入图像尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上求softmax值,可以预测每个像素所属的类别:
softmax值越大,属于该类的概率越大。
反之亦成立。
将某一个像素点所属的类别判定为softmax值最大对应的类别,即能得到整张图像的预测分割掩码。
进一步说,所述步骤1从给定的同类图像集中随机选取1幅图像,大小是 480*480,采用GrabCut交互式分割方法进行手动分割,得到分割掩码图像,原始图像和分割掩码图像一一对应。
进一步说,所述步骤2对步骤1得到的分割掩码进行几何变换,包括仿射变换和薄板样条变换。仿射变换有三种,分别是缩放、平移和旋转,对应的参数依次为:缩放参数scale、平移因子translate、旋转角度参数angle。具体如下:
缩放参数scale为[-30,-25,-20,-15,-10,-5,0,5,10,15,20,25,30],正数是放大,负数是缩小,scale绝对值越大,放大或缩小倍数越大。随机从scale中选取一个缩放因子。
平移公式为:
其中是h前景轮廓的高,w是前景轮廓的宽,平移因子translate为 [-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5]。随机从translate中选取一个平移因子。
旋转角度参数angle为[-20,-18,-16,-14,-12,-10,-8,-6,-4,-2,0,2,4,6,8,10,12,14,16,18,20],负数表示顺时针旋转,正数相反,绝对值大小表示旋转的角度大小。
薄板样条变换,使用matlab自带的函数tpaps,该函数输入参数有两个:movingPoints和fixedPoints,其中:
movingPoints为fixedPoints为
选取102至103种参数组合生成约对应张数的不同变换掩码,模拟前景物体的102至103种姿态变换,将变换后的掩码与对应原始图像结合,构建一个4通道图像,再与步骤1得到的分割掩码图像配对,构成一对训练数据。其中4通道图像包含待分割图像及待分割前景变换后的掩码轮廓,变换前的分割掩码图给出了待分割前景的真实轮廓。
为了更好地阐述本发明,现换一角度继续解释本发明,本发明的步骤可以简单概括为:
步骤1,生成样本分割掩码。
步骤2,构建训练数据集。
步骤3,学习分割网络模型。
步骤4,基于分割网络模型分割同类图像集中的其余图像。
步骤5,再分割。
本发明中,步骤1从给定的同类图像集中随机选取1幅图像,采用 GrabCut交互式分割方法进行手动分割,得到分割掩码图像。
本发明中,步骤2对步骤1得到的分割掩码进行几何变换,包括仿射变换和薄板样条变换,选取约102至103种参数组合生成约102至103张不同的变换掩码,模拟前景物体的102至103种姿态变换,将变换后的掩码与对应原始图像结合,构建一个4通道图像,再与步骤1得到的分割掩码图像配对,构成一对训练数据。其中4通道图像包含待分割图像及待分割前景变换后的掩码轮廓,变换前的分割掩码图给出了待分割前景的真实轮廓。
本发明中,步骤3包括以下步骤:
步骤3-1:以步骤2中的所有4通道图像作为网络的输入,其中原始图像要经过去均值预处理,即把训练集里面所有图片的所有R通道像素,求均值,G, B通道类似,也就是不考虑空间位置了。所以求出来就是三个数值 (R_mean,G_mean,B_mean),将原始图像每个像素的R、G、B值对应减去 R_mean,G_mean,B_mean,得到去均值图像。对于图像,这种归一化可以移除图像的平均亮度值(intensity)。很多情况下我们对图像的照度并不感兴趣,而更多地关注其内容,比如在对象识别任务中,图像的整体明亮程度并不会影响图像中存在的是什么物体。这时对每个数据点移除像素的均值是有意义的。此外,我们知道如果梯度非常大,学习率就必须非常小(否则会跳过local minimum),输入层的数值过大可能会导致参数的梯度过大,去均值预处理可以实现各个颜色通道的均值都为0,可以避免这种情况的发生。
步骤3-2:去均值后的输入数据经过20层左右卷积层、池化层、激活层、分类输出层,最后是上采样层,上采样层得到的特征图和原图大小相同且深度为k,其中k是类别个数。
步骤3-3:将步骤3-2得到的和原图大小相同且深度为k的特征图求softmax 值:
假设多个神经元输出看成一个数组V,Vi表示第i个神经元的输出,那么这个神经元输出的softmax值为:
softmax函数用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内。第i个神经元的输出softmax值Si可以理解为属于第i类的概率,当在进行多分类的时候,找到概率最大的那一个值,并把这个像素判定为概率最大值所对应的类别,得到预测分割掩码图,由公式2容易得出,把某个输入判定为第1 类到第k类的概率和为1,即:
步骤3-4:预测误差是指预测结果与真实结果的差距,当对分类的预测误差 loss进行优化的时候,令通过梯度下降,要对Loss对每个权重进行求偏导。损失函数为交叉熵损失函数:
Loss=-∑yilnai (4)
其中i代表类别号,yi代表i类的真实类标,ai代表步骤3-3求出的softmax 值,表示类别i的预测概率。采用反向传播算法和随机梯度下降法来减小预测误差Loss以训练该神经网络,得到图像集分割网络模型。
本发明中,步骤4将同类图像集中的其余图像和分割掩码进行结合,构成4 通道测试图像输入到分割网络模型中,在上采样层,图像恢复到原始输入图像尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上求softmax值,可以预测每个像素所属的类别。 softmax值越大,属于该类的概率越大,反之亦成立。我们将某一个像素点所属的类别判定为softmax值最大对应的类别,这样就可以得到整张图像的预测分割掩码。
本发明中,步骤5检查步骤4所得到的分割结果,如果所有图像均已获得满意的分割结果,则分割结束。否则,选择一副分割效果较差的图像作为新的分割样本,并返回步骤1训练新的分割网络模型,实现对其余分割欠佳图像的分割优化,并重复改过程直至所有图像分割完成。
有益的技术效果:
本发明公开了一种基于卷积神经网络的同类前景图像集分割方法,该方法的特征在于将同类图像集分成两部分,少量图像用于分割网络模型训练,其他的用于分割网络模型测试。相对于其他图像分割方法,本发明整个过程只需要少量交互就可以得到样本分割掩码,进而得到分割掩码的各种变换,将原始图像和变换掩码结合作为分割网络的输入,最后训练得到分割网络模型。有了分割网络模型,就能轻易将同类图像集中其他图像的前景分割出来,很大程度上减少用户交互所需的工作量,节约用户的时间和精力,提高分割结果的质量。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述优点将会变得更加清楚。
图1为本发明方法的基本流程图。
图2为一张原始图像和其对应的分割掩码图。
图3为分割掩码图和其对应的各种变换图像。
图4为同类图像集前景分割网络结构图。
图5为三次训练使用的原始RGB图像,和其对应的分割掩码图。图6为第一次测试得到的满意结果的图像集及其对应的真实掩码图和预测分割掩码图。
图7为第二次测试得到满意结果的图像集及其对应的真实掩码图和预测分割掩码图。
图8为第三次测试得到满意结果的图像集及其对应的真实掩码图和预测分割掩码图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
具体地说,如图1所示,一种基于卷积神经网络的同类前景图像集分割方法,包括以下步骤:
步骤1,生成样本分割掩码。
步骤2,构建训练数据集。
步骤3,学习分割网络模型。
步骤4,基于分割网络模型分割同类图像集中的其余图像。
步骤5,再分割。
所述步骤1从给定的同类图像集中随机选取1幅图像,大小是480*480,采用GrabCut交互式分割方法进行手动分割,得到分割掩码图像,原始图像和分割掩码图像一一对应,如图2所示,a是原始图像,b是其对应的分割掩码图。
所述步骤2对步骤1得到的分割掩码进行几何变换,包括仿射变换和薄板样条变换,这里仿射变换有三种,分别是缩放、平移和旋转。具体如下:
缩放参数scale为[-30,-25,-20,-15,-10,-5,0,5,10,15,20,25,30],正数是放大,负数是缩小,scale绝对值越大,放大或缩小倍数越大。实验时,随机从scale中选取一个缩放因子,图3中的b图是scale为-30的放大掩码图。
平移公式为:
其中是h前景轮廓的高,w是前景轮廓的宽,平移因子translate为 [-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5],实验时同样随机从translate中选取一个平移因子。图3中c图经过两种仿射变换,一种是scale为-30的放大变换,另一种是x′对应translate为0.5,y′对应translate为-0.1的平移变换。
旋转角度参数angle为 [-20,-18,-16,-14,-12,-10,-8,-6,-4,-2,0,2,4,6,8,10,12,14,16,18,20],负数表示顺时针旋转,正数相反,绝对值大小表示旋转的角度大小。图3中d,angle为- 8,图3中e,angle为8。
薄板样条变换,我们实验中使用matlab自带的函数tpaps,这个函数输入参数有两个,将其命名为movingPoints和fixedPoints,图3中f,movingPoints为fixedPoints为从图3中的f图可以看到蝴蝶的轮廓变得圆润,从而模仿蝴蝶的非刚性变换。
实验中选取约103种参数组合生成约103张不同的变换掩码,模拟前景物体的约103种姿态变换,将变换后的掩码与对应原始图像结合,构建一个4通道图像,再与步骤1得到的分割掩码图像配对,构成一对训练数据。其中4通道图像包含待分割图像及待分割前景变换后的掩码轮廓,变换前的分割掩码图给出了待分割前景的真实轮廓。
所述步骤3包括以下步骤:
步骤3-1:将步骤2中的训练图像进行去均值预处理,这里原始图像只有一幅,所以,所以只要把这幅图像的所有像素点R通道像素求均值,G,B通道类似。求出来就是三个数值(R_mean,G_mean,B_mean),将原始图像每个像素的R、 G、B值对应减去R_mean,G_mean,B_mean,得到去均值图像。
步骤3-2:去均值后的输入数据经过数层卷积层、池化层、分类输出层,最后是上采样层。如图4所示,卷积分割网络的输入是大小都为480*480的RGB 图像和变换掩码图,卷积层一共有18层,分为6个阶段:
阶段1有1层卷积和1层池化,卷积核的大小(通道数,宽,高)为(64, 7,7),卷积步长Stride为2,此时特征图大小缩小到原始图像是1/2,深度为64,即特征图大小(宽,高,深度)为(240*240*64)。池化层的池化窗口大小为2*2,池化步长Stride为2,此时特征图大小缩小到原始图像是1/4,深度为64,即特征图大小(宽,高,深度)为(120*120*64),如图4中从左数第二个立方体所示。
阶段2有4层卷积,每层卷积核的大小(通道数,宽,高)都为(64,3, 3),卷积步长Stride都为1,卷积完成后得到,特征图大小(宽,高,深度)为 (120*120*64),如图4中从左数第三个立方体所示。
阶段3有4层卷积,第1层卷积核的大小(通道数,宽,高)为(128,3, 3),卷积步长Stride为2,此时特征图大小缩小到原始图像是1/8,深度为128,即特征图大小(宽,高,深度)为(60*60*128)。后3层卷积核的大小(通道数,宽,高)为(128,3,3),卷积步长Stride为1,卷积完成后得到,特征图大小(宽,高,深度)为(60*60*128),如图4中从左数第四个立方体所示。
阶段4有4层卷积,每层卷积核的大小(通道数,宽,高)都为(256,3, 3),卷积步长Stride都为1,卷积完成后得到,特征图大小(宽,高,深度)为 (60*60*256),如图4中从左数第五个立方体所示。
阶段5有4层卷积,每层卷积核的大小(通道数,宽,高)都为(512,3, 3),卷积步长Stride都为1,卷积完成后得到,特征图大小(宽,高,深度)为 (60*60*512),如图4中从左数第六个立方体所示。
阶段6有1层卷积(分类输出层),每层卷积核的大小(通道数,宽,高) 为(2,3,3),卷积步长Stride为1,卷积完成后得到,特征图大小(宽,高,深度)为(60*60*2),通道数2是实验时的类别数。
经过6个阶段,18层卷积,特征图宽和高缩小到原始图像的1/8,由原来的 480*480变成60*60,为了对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,我们采用双线性插值函数对分类层进行上采样,使特征图像恢复到原始输入图像尺寸,这样我们就可以对上采样特征图进行逐像素分类,并与对应的分割掩码图像计算交叉熵损失,得到预测误差。采用反向传播算法和随机梯度下降法来减小预测误差以训练该神经网络,得到同类前景图像集分割的网络模型。
所述步骤4基于分割网络模型分割同类图像集中的其余图像,实验中同类图像集有82张图像,通过将同类图像集中的其余图像和分割掩码进行结合,构成 4通道测试图像输入到分割网络模型中,得到预测分割掩码。
所述步骤5计算步骤4所得到的测试图像的F1分数,发现有23张效果较好,如图6所示。接着从分割效果较差的的58张图像中随机选取选择一幅作为新的分割样本,并返回步骤1进行第二次训练,得到新的分割模型,这次训练使用的原始RGB图像和分割掩码图对应着图5中的train_b和b。将57张图像输入到第二次训练好的分割模型中进行测试,发现有28张效果较好,如图7所示。如此循环,第三次训练完毕后,将剩下的28张图像放入训练好的分割网络,发现 28张图像都取得较好结果,如图8所示,第三次训练使用的原始RGB图像和分割掩码图对应着图5中的train_c和c。三次训练后所有图像都得到满意分割结果,分割结束。
实施例
图2给出了一对图像,a图是原始图像,b图是其对应的分割掩码图。
图3给出了6副图像,a图是分割掩码图,b是a放大的掩码图,c是a放大,然后向右上角平移的掩码图,d是a顺时针旋转的掩码图,e是a逆时针旋转的掩码图,f是a薄板样条变换的掩码图。
图4为同类图像集前景分割网络结构图。
图5为训练图像,其中train_a是第一次训练使用的原始RGB图像,train_b 是第二次训练使用的原始RGB图像,train_c是第三次训练的原始RGB图像,a,b,c为其对应的分割掩码图。
图6中,T1_a所在的行是第一次测试得到满意结果的图像集,T1_b所在的行是其对应的真实分割掩码图集,T1_c所在的行是其对应的预测输出分割掩码图集。
图7中,T2_a所在的行是第二次测试得到满意结果的图像集,T2_b所在的行是其对应的真实分割掩码图集,T2_c所在的行是其对应的预测输出分割掩码图集。
图8中,T3_a所在的行是第三次测试得到满意结果的图像集,T3_b所在的行是其对应的真实分割掩码图集,T3_c所在的行是其对应的预测输出分割掩码图集。
Claims (8)
1.一种基于卷积神经网络的同类前景图像集分割方法,其特征在于,包括:通过计算机对图像做如下步骤的处理;
步骤1,向计算机输入同类图像集同类图像集;由计算机从同类图像集中读取一张,生成样本分割掩码;
步骤2,构建训练数据集;
步骤3,学习分割网络模型;
步骤4,基于分割网络模型分割同类图像集中的其余图像;
步骤5,进行是否需要再分割的判断;循环的条件是是否所有图像都已取得满意的分割结果;
如果所有图像均已获得满意的分割结果,则分割结束;
反之,选择分割效果较差的图像作为新的分割样本,并返回步骤1训练新的分割网络模型,实现对其余分割欠佳图像的分割优化。
2.如权利要求1所述一种基于卷积神经网络的同类前景图像集分割方法,其特征在于:具体步骤依次为:
步骤1,生成样本分割掩码:从给定的同类图像集中随机选取1幅图像,采用交互式分割方法进行手动分割,得到分割掩码图像;同类图像集图像集中含有n幅图像;
步骤2,构建训练数据集:对步骤1得到的分割掩码图像进行几何变换;所述几何变换包括仿射变换和薄板样条变换,所述仿射变换是指对图像进行缩放、平移和旋转,薄板样条变换是指利用薄板样条函数(Thin Plate Spline,TPS)对要变换的形状进行插值,它是一种非刚性变换;选取102至103种组合生成102至103张不同的变换掩码,模拟前景物体的102至103种姿态变换,将变换后的掩码与对应原始图像结合,构成102至103个4通道图像;
再将102至103个4通道图像与由步骤1得到的分割掩码图像配对,构成102至103对训练数据;其中,每个4通道图像均包含一张待分割图像和一张待分割前景变换后的掩码轮廓图,分割掩码图像给出了待分割前景的真实轮廓;
步骤3,学习分割网络模型:以步骤2中的所有4通道图像,大概有102至103个,作为网络的输入,经过10至30层的卷积层、池化层、激活层、分类输出层及上采样层的逐次处理后,获得“上采样层的特征图”;优选的,卷积层为20层;
在上采样层的特征图上进行逐像素分类,并与对应的分割掩码图像进行比较得到预测误差;
采用反向传播算法和随机梯度下降法来减小预测误差以训练该神经网络,得到同类前景图像集分割的网络模型;所述反向传播算法是指神经网络中最有效的方法,其主要思想是将网络最后输出的结果,和真实结果对比,计算其误差,并将误差反向逐级传下去;所述随机梯度下降法是指在更新网络参数的时候,并不遍历整个数据集,是一种批处理方法,每次更新参数后,都能够让损失函数变小,最终达到最小或者我们接受的误差……;
步骤4,基于分割网络模型分割同类图像集中的其余图像:将同类图像集中的其余n-1张图像和由步骤2获得的变换掩码图进行结合,构成4通道测试图像并输入到分割网络模型中,在上采样层图像恢复到原始输入图像尺寸,从而对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样层的特征图上进行逐像素分类,从而得到n-1张测试图像的预测分割掩码;
步骤5,再分割:检查步骤4所得到的分割结果:
如果所有图像均已获得满意的分割结果,则分割结束;这里我们定义一个差值diff:
公式1中,分母480*480是图像的所有像素点的个数,因为我们的图像集中的图像的大小是480*480。
所述满意的分割结果是指,这些图像的预测分割掩码的diff值都处在-15%至15%之间;
否则,选择一副分割效果较差的图像作为新的分割样本,并返回步骤1训练新的分割网络模型,实现对其余分割欠佳图像的分割优化,并重复该过程直至所有图像分割完成;所述分割效果较差图像是指这些图像的预测分割掩码的diff值都不在-15%至15%之间。
3.如权利要求1或2所述一种基于卷积神经网络的同类前景图像集分割方法,其特征在于:步骤1的具体步骤为:从给定的同类图像集中随机选取1幅图像,采用GrabCut交互式分割方法进行手动分割,得到分割掩码图像。
4.如权利要求1或2所述一种基于卷积神经网络的同类前景图像集分割方法,其特征在于:步骤2的具体步骤为:
步骤2对步骤1得到的分割掩码进行几何变换,包括仿射变换和薄板样条变换,选取n种种参数组合生成n张不同的变换掩码,n取102至103,模拟前景物体的n种姿态变换,将变换后的掩码与对应原始图像结合,构建一个4通道图像,再与步骤1得到的分割掩码图像配对,构成102至103对训练数据。其中4通道图像包含待分割图像及待分割前景变换后的掩码轮廓,变换前的分割掩码图给出了待分割前景的真实轮廓。
5.如权利要求1或2所述一种基于卷积神经网络的同类前景图像集分割方法,其特征在于:步骤3的具体步骤为:
步骤3-1:以步骤2中的所有4通道图像作为网络的输入,其中原始图像进行去均值预处理:把训练集里面所有图片的所有R通道像素、G通道像素、B通道像素求均值,获得三个数值:R_mean,G_mean,B_mean;将原始图像每个像素的R、G、B值对应减去R_mean,G_mean,B_mean,得到去均值图像;通过本步骤移除图像的平均亮度值intensity;
此外,本步骤中,去均值预处理可以实现去均值预处理可以实现各个颜色通道的均值都为0,以避免后续步骤中的输入层的数值过大而导致的参数的梯度过大的问题;
步骤3-2:去均值后的输入数据经过数层卷积层、池化层、激活层、分类输出层,最后是上采样层,上采样层得到的特征图和原图大小相同且深度为k,其中k是类别个数;
步骤3-3:将步骤3-2得到的和原图大小相同且深度为k的特征图求softmax值:
假设多个神经元输出看成一个数组V,Vi表示第i个神经元的输出,那么这个神经元输出的softmax值为:
softmax函数用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内。第i个神经元的输出softmax值Si可以理解为属于第i类的概率,当在进行多分类的时候,找到概率最大的那一个值,并把这个像素判定为概率最大值所对应的类别,得到预测分割掩码图,由公式2容易得出,把某个输入判定为第1类到第k类的概率和为1,即:
步骤3-4:预测误差是指预测结果与真实结果的差距,当对分类的预测误差loss进行优化的时候,通过梯度下降,要对Loss对每个权重进行求偏导;损失函数为交叉熵损失函数:
Loss=-∑yilnai (4)
其中i代表类别号,yi代表i类的真实类标,ai代表步骤3-3求出的softmax值,表示类别i的预测概率;采用反向传播算法和随机梯度下降法来减小预测误差Loss以训练该神经网络,得到图像集分割网络模型。
6.如权利要求1或2所述一种基于卷积神经网络的同类前景图像集分割方法,其特征在于:步骤4的具体步骤为:
步骤4将同类图像集中的其余图像和分割掩码进行结合,构成4通道测试图像输入到分割网络模型中,在上采样层,图像恢复到原始输入图像尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上求softmax值,可以预测每个像素所属的类别:
softmax值越大,属于该类的概率越大;
反之亦成立;
将某一个像素点所属的类别判定为softmax值最大对应的类别,即能得到整张图像的预测分割掩码。
7.如权利要求3所述一种基于卷积神经网络的同类前景图像集分割方法,其特征在于:所述步骤1从给定的同类图像集中随机选取1幅图像,大小是480*480,采用GrabCut交互式分割方法进行手动分割,得到分割掩码图像,原始图像和分割掩码图像一一对应。
8.如权利要求4所述一种基于卷积神经网络的同类前景图像集分割方法,其特征在于:所述步骤2对步骤1得到的分割掩码进行几何变换,包括仿射变换和薄板样条变换;仿射变换有三种,分别是缩放、平移和旋转,对应的参数依次为:缩放参数scale、平移因子translate、旋转角度参数angle;具体如下:
缩放参数scale为[-30,-25,-20,-15,-10,-5,0,5,10,15,20,25,30],正数是放大,负数是缩小,scale绝对值越大,放大或缩小倍数越大;随机从scale中选取一个缩放因子;
平移公式为:
其中是h前景轮廓的高,w是前景轮廓的宽,平移因子translate为[-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5];随机从translate中选取一个平移因子;
旋转角度参数angle为[-20,-18,-16,-14,-12,-10,-8,-6,-4,-2,0,2,4,6,8,10,12,14,16,18,20],负数表示顺时针旋转,正数相反,绝对值大小表示旋转的角度大小;
薄板样条变换,使用matlab自带的函数tpaps,该函数输入参数有两个:movingPoints和fixedPoints,其中:
movingPoints为fixedPoints为
选取102至103种参数组合生成约对应张数的不同变换掩码,模拟前景物体的102至103种姿态变换,将变换后的掩码与对应原始图像结合,构建一个4通道图像,再与步骤1得到的分割掩码图像配对,构成一对训练数据。其中4通道图像包含待分割图像及待分割前景变换后的掩码轮廓,变换前的分割掩码图给出了待分割前景的真实轮廓。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811634200.7A CN109712165B (zh) | 2018-12-29 | 2018-12-29 | 一种基于卷积神经网络的同类前景图像集分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811634200.7A CN109712165B (zh) | 2018-12-29 | 2018-12-29 | 一种基于卷积神经网络的同类前景图像集分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109712165A true CN109712165A (zh) | 2019-05-03 |
CN109712165B CN109712165B (zh) | 2022-12-09 |
Family
ID=66259465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811634200.7A Active CN109712165B (zh) | 2018-12-29 | 2018-12-29 | 一种基于卷积神经网络的同类前景图像集分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109712165B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163884A (zh) * | 2019-05-17 | 2019-08-23 | 温州大学 | 一种基于全连接深度学习神经网络的单个图像分割方法 |
CN110287930A (zh) * | 2019-07-01 | 2019-09-27 | 厦门美图之家科技有限公司 | 皱纹分类模型训练方法及装置 |
CN110321808A (zh) * | 2019-06-13 | 2019-10-11 | 浙江大华技术股份有限公司 | 遗留物与盗移物检测方法、设备和存储介质 |
CN110348375A (zh) * | 2019-07-09 | 2019-10-18 | 华南理工大学 | 一种基于神经网络的手指静脉感兴趣区域检测方法 |
CN110532826A (zh) * | 2019-08-21 | 2019-12-03 | 厦门壹普智慧科技有限公司 | 一种基于人工智能语义分割的条码识别装置与方法 |
CN111105471A (zh) * | 2019-08-29 | 2020-05-05 | 上海联影智能医疗科技有限公司 | 用于生成与成像有关的采样掩码的方法和装置 |
CN111860330A (zh) * | 2020-07-21 | 2020-10-30 | 陕西工业职业技术学院 | 基于多特征融合和卷积神经网络的苹果叶部病害识别方法 |
CN112927213A (zh) * | 2021-03-11 | 2021-06-08 | 上海交通大学 | 一种医学图像分割方法、介质及电子设备 |
CN113591893A (zh) * | 2021-01-26 | 2021-11-02 | 腾讯医疗健康(深圳)有限公司 | 基于人工智能的图像处理方法、装置和计算机设备 |
CN113706440A (zh) * | 2021-03-12 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN114445286A (zh) * | 2020-11-04 | 2022-05-06 | 电子湾有限公司 | 移动设备上的图像清理 |
CN114663661A (zh) * | 2022-04-13 | 2022-06-24 | 中国科学院空间应用工程与技术中心 | 空间生命科学实验对象语义分割方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408562A (zh) * | 2016-09-22 | 2017-02-15 | 华南理工大学 | 基于深度学习的眼底图像视网膜血管分割方法及系统 |
US10140544B1 (en) * | 2018-04-02 | 2018-11-27 | 12 Sigma Technologies | Enhanced convolutional neural network for image segmentation |
-
2018
- 2018-12-29 CN CN201811634200.7A patent/CN109712165B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408562A (zh) * | 2016-09-22 | 2017-02-15 | 华南理工大学 | 基于深度学习的眼底图像视网膜血管分割方法及系统 |
US10140544B1 (en) * | 2018-04-02 | 2018-11-27 | 12 Sigma Technologies | Enhanced convolutional neural network for image segmentation |
Non-Patent Citations (1)
Title |
---|
温佩芝等: "基于卷积神经网络改进的图像自动分割方法", 《计算机应用研究》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163884A (zh) * | 2019-05-17 | 2019-08-23 | 温州大学 | 一种基于全连接深度学习神经网络的单个图像分割方法 |
CN110163884B (zh) * | 2019-05-17 | 2023-04-07 | 温州大学 | 一种基于全连接深度学习神经网络的单个图像分割方法 |
CN110321808B (zh) * | 2019-06-13 | 2021-09-14 | 浙江大华技术股份有限公司 | 遗留物与盗移物检测方法、设备和存储介质 |
CN110321808A (zh) * | 2019-06-13 | 2019-10-11 | 浙江大华技术股份有限公司 | 遗留物与盗移物检测方法、设备和存储介质 |
CN110287930A (zh) * | 2019-07-01 | 2019-09-27 | 厦门美图之家科技有限公司 | 皱纹分类模型训练方法及装置 |
CN110348375A (zh) * | 2019-07-09 | 2019-10-18 | 华南理工大学 | 一种基于神经网络的手指静脉感兴趣区域检测方法 |
CN110532826A (zh) * | 2019-08-21 | 2019-12-03 | 厦门壹普智慧科技有限公司 | 一种基于人工智能语义分割的条码识别装置与方法 |
CN111105471A (zh) * | 2019-08-29 | 2020-05-05 | 上海联影智能医疗科技有限公司 | 用于生成与成像有关的采样掩码的方法和装置 |
CN111105471B (zh) * | 2019-08-29 | 2024-02-27 | 上海联影智能医疗科技有限公司 | 用于生成与成像有关的采样掩码的方法和装置 |
CN111860330A (zh) * | 2020-07-21 | 2020-10-30 | 陕西工业职业技术学院 | 基于多特征融合和卷积神经网络的苹果叶部病害识别方法 |
CN111860330B (zh) * | 2020-07-21 | 2023-08-11 | 陕西工业职业技术学院 | 基于多特征融合和卷积神经网络的苹果叶部病害识别方法 |
CN114445286A (zh) * | 2020-11-04 | 2022-05-06 | 电子湾有限公司 | 移动设备上的图像清理 |
CN113591893A (zh) * | 2021-01-26 | 2021-11-02 | 腾讯医疗健康(深圳)有限公司 | 基于人工智能的图像处理方法、装置和计算机设备 |
CN112927213A (zh) * | 2021-03-11 | 2021-06-08 | 上海交通大学 | 一种医学图像分割方法、介质及电子设备 |
CN112927213B (zh) * | 2021-03-11 | 2022-11-11 | 上海交通大学 | 一种医学图像分割方法、介质及电子设备 |
CN113706440A (zh) * | 2021-03-12 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN114663661A (zh) * | 2022-04-13 | 2022-06-24 | 中国科学院空间应用工程与技术中心 | 空间生命科学实验对象语义分割方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109712165B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109712165A (zh) | 一种基于卷积神经网络的同类前景图像集分割方法 | |
CN107767413B (zh) | 一种基于卷积神经网络的图像深度估计方法 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
CN111292264B (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
CN111046939B (zh) | 基于注意力的cnn类别激活图生成方法 | |
CN112614077B (zh) | 一种基于生成对抗网络的非监督低照度图像增强方法 | |
CN108648197B (zh) | 一种基于图像背景掩膜的目标候选区域提取方法 | |
CN108875935B (zh) | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 | |
CN108830913B (zh) | 基于用户颜色引导的语义级别线稿上色方法 | |
CN111754446A (zh) | 一种基于生成对抗网络的图像融合方法、系统及存储介质 | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN110570363A (zh) | 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法 | |
CN112750201B (zh) | 三维重建方法及相关装置、设备 | |
CN115272437A (zh) | 一种基于全局与局部特征的图像深度估计方法及装置 | |
CN111914938A (zh) | 一种基于全卷积二分支网络的图像属性分类识别方法 | |
Billaut et al. | ColorUNet: A convolutional classification approach to colorization | |
CN111815529B (zh) | 一种基于模型融合和数据增强的低质图像分类增强方法 | |
CN113554653A (zh) | 基于互信息校准点云数据长尾分布的语义分割方法 | |
Agrawal et al. | Exploring convolutional neural networks for automatic image colorization | |
CN107369138A (zh) | 基于高阶统计模型的图像最优化显示方法 | |
CN115018729B (zh) | 一种面向内容的白盒图像增强方法 | |
Madhusudana et al. | Revisiting dead leaves model: Training with synthetic data | |
CN111368977A (zh) | 一种提高卷积神经网络精确性和鲁棒性的增强数据增强方法 | |
CN115688234A (zh) | 一种基于条件卷积的建筑布局生成方法、装置及介质 | |
Kubiak et al. | Silt: Self-supervised lighting transfer using implicit image decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |