CN111368845B

CN111368845B - 基于深度学习的特征字典构建及图像分割方法

Info

Publication number: CN111368845B
Application number: CN202010182299.2A
Authority: CN
Inventors: 张庆辉; 王彩红; 张东林; 常夏宁; 吴小雪
Original assignee: Zhengzhou Aiyi Electronic Technology Co ltd; Henan University of Technology
Current assignee: Zhengzhou Aiyi Electronic Technology Co ltd; Henan University of Technology
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-04-07
Anticipated expiration: 2040-03-16
Also published as: CN111368845A

Abstract

本发明公开了一种基于深度学习的特征字典构建及图像分割方法，旨在解决现有技术中定位不精确，细节不敏感的技术问题本发明。本发明包括以下步骤：制作图像训练数据集，其含有表示目标类别的边框盒；使用全卷积自适应网络提取数据集中图像的像素级特征；提取图像中目标的边界框和掩膜；将掩膜中包含的像素点和训练数据集中的边框盒进行比对，对掩膜进行分类，形成的所有掩膜以及它们对应的类别即为特征字典。本发明的有益技术效果在于：兼顾精度和效率，不要求图像尺寸相同，适应性强。

Description

基于深度学习的特征字典构建及图像分割方法

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于深度学习的特征字典构建及图像分割方法。

背景技术

在计算机视觉领域，图像分割指的是为图像中的每个像素分配一个标签的任务，它也可以被看作是dense prediction task，对图像中每个像素进行分类。和使用矩形候选框的目标检测不同，图像分割需要精确到像素级位置，因此它在医学分析、卫星图像物体检测、虹膜识别和自动驾驶汽车等任务中起着非常重要的作用。

随着人工智能特别是深度学习技术的快速发展，基于语义的图像分割技术获得了越来越多的关注。传统的图像分割主要是根据图像的底层特征进行分割，获得的是一个同质的区域，但一般各个区域不能表达太多的语义。而基于语义的图像分割则致力于给每一个像素点标注一个语义标签。

传统上，针对图像识别与分类设计的卷积神经网络，如 Alex Net、VGG 等，通常会在卷积层之后使用若干全连接层，以将卷积层生成的特征图映射为固定长度的特征向量，进而得到整个输入图像在所有分类类别上的归一化概率描述。在这一过程中，图像的空间信息被丢弃，使得无法对输入图像进行像素级的类别预测。FCN提出将网络中的全连接层置换为卷积层，以得到能够反映输入图像各空间位置局部特征的特征图，并使用该特征图得到图像各个位置的语义类别概率的预测。但是FCN也存在一些问题：

一是得到的结果还是不够精细；进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果还是比较模糊和平滑，对图像中的细节不敏感；

二是对各个像素进行分类，没有充分考虑像素与像素之间的关系，忽略了在通常的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺乏空间精准定位问题。

发明内容

本发明提供一种基于深度学习的特征字典构建及图像分割方法，以解决现有技术中定位不精确，效率不高，细节不敏感的技术问题。

为解决上述技术问题，本发明采用如下技术方案：

设计一种基于深度学习的特征字典构建方法，包括以下步骤：

制作图像训练数据集，其含有表示目标类别的边框盒；

使用全卷积自适应网络提取数据集中图像的像素级特征；

提取图像中目标的边界框和掩膜；

将掩膜中包含的像素点和训练数据集中的边框盒进行比对，对掩膜进行分类，形成的所有掩膜以及它们对应的类别即为特征字典。

优选的，图像训练数据集包括Open Images V4检测集，其含有190万张图片以及图片上针对600个类别的 1540 万个边框盒。

优选的，全卷积神经网络包括：FCN-32s操作单元，具有7个卷积层和5个池化层以及末端的32倍的上采样层；

FCN-16s操作单元，在FCN-32s操作单元的基础上增加一个2*conv7的卷积层、pool4的池化层以及16倍的上采样层；

FCN-8S操作单元，在FCN-32s操作单元的基础上增加一个4* conv7的卷积层、2*pool4的池化层、pool5的池化层以及一个8倍的上采样层。

优选的，提取图像中目标的边界框采用PRN-ROIS网络，得到图像的ROI区域以及区域中每个像素的分类权重。

优选的，得到图像的ROI区域以后，将每个ROI区域的内部和外部特征图组合成两张完整的特征图，然后同步进行图像分割和图像分类两个分支：

1.在图像分割中，使用softmax分类器对所述ROI区域的内部和外部特征图进行分类，以区分图像中的前景和背景并生成掩膜；

2.在图像分类中，在两类特征图中按像素为单位取最大值，得到一张新的特征图，再使用softmax分类器得到ROI内物体的类别。

优选的，在图像分类这个分支同时，还进行ROI区域正反向的判断，正向代表前景，反向代表背景，具体表示为：

首先计算ROI区域所有像素的权重的平均值，然后将其和设定的阈值进行比较，若高于阈值，则该ROI区域为正向，反之，则为反向。

还设计一种基于深度学习的图像分割方法，包括：训练和应用两部分；

训练部分包括：输入样本原图，样本图像预处理，使用全卷积神经网络提取图片的像素级特征，提取图像的边界框和目标掩膜，经过分类器分类，形成识别目标特征字典；

应用部分包括：图像输入，图像预处理，全卷积神经网络提取图片的像素级特征，提取图像的边界框和目标掩膜，将边界框及目标掩膜和上述特征字典进行对比，即可获得图像中各目标的类别。

优选的，将边界框及目标掩膜和特征字典进行对比的方法为：首先计算边界框和目标掩膜各自和所述特征字典的相似度权重，然后相似度权重进行反卷积，即可得到语义分割结果。

优选的，在语义分割结果输出之前，先计算边界框损失和掩膜损失，然后将两种损失加权求和，损失越小，得到语义分割的精准度分值越高。

与现有技术相比，本发明的主要有益技术效果在于：

1.本发明采用全卷积自适应神经网络（FCAN），可以接受任意大小的输入图像，而不用要求所有的训练图像和测试图像具有同样的尺寸；并且更加高效，避免了由于使用像素块而带来的重复存储和计算卷积的问题。

2.本发明利用FCAN提取图像特征时，每一个卷积层采用不同大小的卷积核，能够提取不同粒度的特征图，通过调整各层卷积核的参数，能够适应不同领域不同物体的图像识别，兼顾精度和运算效率。

3.本发明训练的特征字典能够用来将图像中所有识别出的ROI区域与之对比，得出图像中不论大小的所有目标的识别结果，并且基于机器学习的本质，该字典还能够不断的更新和完善，使得本发明应用范围广，适应性强。

4.本发明通过边界框和掩膜的权重修正以及用损失函数进行优化，使识别出的目标更加精确。

5.本发明在技术采用FCAN实现跨数据域识别技术，该技术采用贝叶斯分类识别算法实现源图标签分类，实现前景和背景图像联合分割特征。

附图说明

图1是本发明基于深度学习的图像分割的结果图。

图2是传统CNN网络的结构示意图。

图3是本发明全卷积神经网络的结构示意图。

图4是本发明跨数据域自适应的FCAN模型原理示意图。

图5是本发明多尺度全卷积网络结构图。

图6是本发明基于深度学习的图像分割方法的结构图。

图7是本发明基于深度学习的图像分割方法的数据处理硬件结构图。

图8是本发明基于深度学习的图像分割方法的集成字典结构图。

具体实施方式

下面结合附图和实施例来说明本发明的具体实施方式，但以下实施例只是用来详细说明本发明，并不以任何方式限制本发明的范围。

实施例：一种基于深度学习的图像分割方法，包括模型训练和图像识别两个部分。

1. 模型训练

（1）制作空间目标静态和视频图像数据集，主要选择Open Images V4目标数据监测集，它包含在190万张图片上针对600个类别的 1540 万个边框盒，其特征在于具有明显的对象特征位置注释数据集和多个对象的复杂场景。

（2）安装基于FCN模型深度学习框架，其中模型的计算依托FPGA硬件数据处理器，参见图7，分为卷积层，池化层和高层特征提取，主要包括数据流和点积及特征提取等计算；

（3）采用多尺度全卷积、池化、反卷积结构算法，对步骤2中的FCN模型进行改进，具体参见图3至图5，全卷积网络相较于CNN网络去掉了最后三层的全连接层，而改为卷积层，提取的特征更加的丰富，精度能达到2³²，在FCN的基础上设计跨数据域自适应的 FCAN模型，解决跨数据域语义分割，很好地适应计算机生成图像与真实世界图像之间的差异，参见图4，采用贝叶斯分类识别算法实现源图标签分类，实现前景和背景图像联合分割特征。本实施例中FCN是不同尺度的图像像素网络结构图，参见图5，图中第一层采用FCN-32S表示上采样步骤是一步到位，即：将卷积降低图像的维度直接恢复为原图像大小，但这样的做法会导致信息的损耗较大，使得产生的分割结果比较粗糙，即粗粒度边界；第二层采用FCN-16s表示上采样，引入了跳跃结构。具体做法是将第一行中最后一层卷积层的输出上采样到POOL4层的大小，并将上采样的结果与POOL4层结合做联合预测，再将得到的预测结果上采样到原图像尺寸，这样的做法能够更好的对细节进行预测并且能够更完整的保留语义信息；第三层采用FCN-8s表示上采样，先将上一层的联合预测结果上采样到pool3的大小，再与pool3信息结合进行预测，最后上采样到原图尺寸。三者多尺度卷积，可以根据需要实现语义分割边界的细节问题。

（4）使用上述FCN网络提取特征图之后，将得到的特征图送入到RPN-ROIS网络中得到多个ROIs，再对这些ROI进行分类，区分其属于前景还是背景，选出正向ROI，再对正向ROI进行ROI Align操作。ROI Align网络操作所完成的任务是目标检测，即：先对输入图像的大小进行调整，然后将调整好大小的图像送入到特征提取网络中提取特征图。接着在每个特征图上的每个anchor上选取９个ROIs，这９个ROIs具有不同的尺度和尺寸，再根据池化改变图像大小的比例，将这些ROIs投影到原始图像相对应的区域内。将得到ROIs的区域送入到RPN网络中分类确定该ROI属于前景或背景，同时初步计算边界框回归，然后对RPN分类后的分数进行非极大值抑制，即对分类结果选出分数最高的前Ｎ个ROIs。再采用ROI 池化方法，最终输出结果是大小一致的特征图。再将得到的特征图输入到目标检测网络中利用卷积分类，共Ｎ＋１类（其中包含背景），然后再进行边界框回归，最终输出目标检测结果。

上述ROI Align操作是一个训练好的端到端的神经网络整体，整合了特征提取网络、ROI生成网络、ROI分类网络和ROI回归网络四个网络作为一个整体去完成目标检测的任务，最后计算出每个ROI中对象类别的分类并同时完成边界框回归和生成掩膜特征等任务。

（5）形成ROI区域以后，首先将每个ROI区域的内部和外部特征图组合成两张完整的特征图。在图像分割这一分支中用softmax分类器对上述两张（内部和外部）特征图进行分类，以区分图像中的前景和背景并生成Mask；在图像分类任务中，在两类特征图中按像素为单位取最大值，得到一张新的特征图，再使用softmax分类器得到ROI内物体的类别。该方法还增加了判断ROI区域是否为正向ROI的过程，该过程与图像分类这个分支同时进行，主要方法是在得到每个分数图的平均值时，将其与阈值相比较，若高于阈值则该ROI为正向ROI。

上述过程是系统反复训练，遍历遍历数据集中的所有图片，获得最佳像素分类权重的过程。最后将得到的联合特征保存并构成场景语义分割特征集成字典。特征字典是根据标签、场景和目标特征权重和进行分类，并以矩阵的形式存储。

2. 图像识别

输入待识别图像，首先对图片进行预处理，将图像大小修整为训练集的图像大小，然后利用基于无监督深度学习的FCN全卷积自适应神经网络框架，提取图像边界框和目标掩膜特征值，并对特征进行分类，分类分为目标背景轮廓分类和目标自身特征分类。

特征分类过程是：将预处理后的图像输入到特征提取网络中得到特征图，将得到的特征图送入到RPN-ROIS网络中得到多个ROIs，再对这些ROI进行分类，区分其属于前景ROI还是背景ROI，背景ROI是识别目标的形状，是图像分割与分类的基本依据（例如猫和和老虎边界框一致，前景主要是识别目标的具体类别，这样设计是为了保证系统的高效分类），同时通过硬件系统的卷积计算选出正向ROI，再对正向ROI进行ROI Align操作。ROIAlign网络操作所完成的任务是目标检测，即：先对输入图像的大小进行调整，然后将调整好大小的图像送入到特征提取网络中提取特征图，接着在每个特征图上的每个anchor上选取９个ROIs，这９个ROIs具有不同的尺度和尺寸，再根据池化改变图像大小的比例，将这些ROIs投影到原始图像相对应的区域内。将得到ROIs的区域送入到RPN网络中分类确定该ROI属于前景或背景，同时初步计算边界框回归，然后对RPN分类后的分数进行非极大值抑制，即对分类结果选出分数最高的前Ｎ个ROIs。再采用ROI 池化方法，最终输出结果是大小一致的特征图。

由于FCN在特征提取方面，主要是针对某一类事先确定的目标分割效果较好，因此为了弥补这一缺陷，采用了FCAN实现跨数据域识别技术，扩延了背景轮廓的融合识别，在技术上采用贝叶斯特征预测算法，将背景和目标特征联合提取，形成目标识别联合特征。得到的特征图像与上述训练模型中得到的特征字典进行对比，顾名思义，向查字典一般，相似度达到预设值即认为查找到了需要识别的图像的信息，然后进行输出完成识别过程。

该算法即可满足样本训练，也可适应各种应用场景的语义分割。而且该在对图像进行语义分割和检测过程中，利用损失函数计算语义分割概率积分，积分越高语义理解精度越高。上述的计算过程均在系统设计的基于深度学习的快速图像分割方法数据处理器中实现，并将计算结果输给目标识别或自动驾驶系统。

上面结合附图和实施例对本发明作了详细的说明，但是，所属技术领域的技术人员能够理解，在不脱离本发明宗旨的前提下，还可以对上述实施例中的各个具体参数进行变更，形成多个具体的实施例，均为本发明的常见变化范围，在此不再一一详述。

Claims

1.一种基于深度学习的特征字典构建方法，其特征在于，包括：

制作图像训练数据集，其含有表示目标类别的边框盒；

使用全卷积自适应网络提取数据集中图像的像素级特征；

提取图像中目标的边界框和掩膜；

将掩膜中包含的像素点和所述图像训练数据集中的边框盒进行比对，对掩膜进行分类，形成的所有掩膜以及它们对应的类别即为特征字典；其中，

所述全卷积自适应神经网络包括：FCN-32s操作单元，具有7个卷积层和5个池化层以及末端的32倍的上采样层；

FCN-8S操作单元，在FCN-32s操作单元的基础上增加一个4* conv7的卷积层、2* pool4的池化层、pool5的池化层以及一个8倍的上采样层。

2.根据权利要求1所述的特征字典构建方法，其特征在于，所述图像训练数据集包括Open Images V4检测集，其含有190万张图片以及图片上针对600个类别的 1540 万个边框盒。

3.根据权利要求1所述的特征字典构建方法，其特征在于，在提取图像中目标的边界框采用PRN-ROIS网络，得到图像的ROI区域以及所述ROI区域中每个像素的分类权重。

4.根据权利要求3所述的特征字典构建方法，其特征在于，在得到图像的ROI区域以后，将每个ROI区域的内部和外部特征图组合成两张完整的特征图，然后同步进行图像分割和图像分类两个分支：

在图像分割中，使用softmax分类器对所述ROI区域的内部和外部特征图进行分类，以区分图像中的前景和背景并生成掩膜；

在图像分类中，在两类特征图中按像素为单位取最大值，得到一张新的特征图，再使用softmax分类器得到ROI内物体的类别。

5.根据权利要求4所述的特征字典构建方法，其特征在于，在图像分类这个分支同时，还进行ROI区域正反向的判断，正向代表前景，反向代表背景，具体表示为：

6.一种基于深度学习的图像分割方法，其特征在于，包括：

训练步骤和应用步骤；

所述训练步骤包括：输入样本原图，样本图像预处理，使用全卷积神经网络提取图片的像素级特征，提取图像的边界框和目标掩膜，经过分类器分类，形成识别目标特征字典；

所述应用步骤包括：图像输入，图像预处理，全卷积神经网络提取图片的像素级特征，提取图像的边界框和目标掩膜，将边界框及目标掩膜和由权利要求1所述的特征字典构建方法所构建的特征字典进行对比，即可获得图像中各目标的类别。

7.根据权利要求6所述的基于深度学习的图像分割方法，其特征在于，将边界框及目标掩膜和所述特征字典进行对比的方法为：

首先计算边界框和目标掩膜各自和所述特征字典的相似度权重；

然后所述相似度权重进行反卷积，即可得到语义分割结果。

8.根据权利要求7所述的基于深度学习的图像分割方法，其特征在于，在语义分割结果输出之前，先计算边界框损失和掩膜损失，然后将两种损失加权求和得到语义分割的精准度。