CN113177947B

CN113177947B - 基于多模块卷积神经网络的复杂环境目标分割方法及装置

Info

Publication number: CN113177947B
Application number: CN202110365275.5A
Authority: CN
Inventors: 雷欢; 焦泽昱; 黄丹; 黄凯; 陈再励; 马敬奇; 王楠; 钟震宇
Original assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Current assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2024-04-26
Anticipated expiration: 2041-04-06
Also published as: CN113177947A

Abstract

本发明公开了一种基于多模块卷积神经网络的复杂环境目标分割方法及装置，其中，所述方法包括：采集复杂场景下的目标图像数据并进行数据标注，获得标注后的目标图像数据；将标注后的目标图像数据进行数据增强并建立数据集，获得目标图像数据集；基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测处理，获得初步检测结果；将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果。在本发明实施例中，对自然复杂环境下的目标精准分割，保证分割的准确性与实时性。

Description

基于多模块卷积神经网络的复杂环境目标分割方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于多模块卷积神经网络的复杂环境目标分割方法及装置。

背景技术

随着计算机和自动控制技术的快速发展，计算机视觉领域的目标实例分割技术在各行各业被广泛应用，它在目标检测的基础上完成像素级的分割更能满足日常人们生产生活需要。

然而，现有的方法在复杂的自然环境中通常表现不佳，主要是由于以下两个原因：1)照明方面的变化。在自然环境中，照明的强度和角度不断变化，这导致图像的数据分布发生变化，从而影响相应的特征提取。虽然该问题可以通过数据增强在某种程度上得到缓解，但难以通过自适应的方式有效地进行图像校正。2)普遍存在的遮挡现象。目标对象通常被其他物体遮挡，不完整的轮廓信息和局部纹理特征对现有的目标分割方法提出了挑战，可能会导致一个完整目标在视觉系统中呈现为多个独立的个体，从而被误识别为多个目标对象，进而降低基于视觉的目标实例分割精度，严重限制了分割技术在真实场景中的应用。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于多模块卷积神经网络的复杂环境目标分割方法及装置，对自然复杂环境下的目标精准分割，保证分割的准确性与实时性。

为了解决上述技术问题，本发明实施例提供了一种基于多模块卷积神经网络的复杂环境目标分割方法，所述方法包括：

采集复杂场景下的目标图像数据并进行数据标注处理，获得标注后的目标图像数据；

将标注后的目标图像数据进行数据增强并建立数据集处理，获得目标图像数据集；

基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测，获得初步检测结果；

将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果。

可选的，所述采集复杂场景下的目标图像数据并进行数据标注，获得标注后的目标图像数据，包括：

采集不同地区、不同场景下的目标图像数据；

将采集到的不同地区、不同场景下的目标图像数据采用图像标注工具Labelme进行标注，获得标注后的目标图像数据。

可选的，所述将标注后的目标图像数据进行数据增强并建立数据集处理，获得目标图像数据集，包括：

将标注后的目标图像数据采用15种数据增强方式进行1:1增强处理，获得增强后的目标图像数据；

对增强后的目标图像数据与原始目标图像数据一起建立目标数据集。

可选的，所述卷积神经网络模型具有图像校正模块。

可选的，所述基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测处理，获得初步检测结果，包括：

在所述神经网络模型中的向前传播过程中同时对所述目标图像数据集中的目标图像数进行批归一化、实例归一化处理，并提取不同维度的目标特征；

将不同维度的目标特征通过RPN网络进行初次候选框的筛选和定位，去除不包含物体的候选框；

初次候选框的筛选和定位结果通过反卷积网络，输出与原始目标图像数据相同大小的校正图像；

将所述校正图像输入全连接网络与全连接层进行初步像素级定位，获得初步检测结果。

可选的，所述分割区域形状补全模块为根据目标图像的形状先验知识，设计分割区域拼图算法构建而成。

可选的，所述将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果，包括：

设置实例分割结果为M＝{m₁,m₂,...,m_N}，提取每个分割掩膜区域的轮廓；

采用最小二乘法对轮廓进行拟合，获得临时的粗糙的拟合结果，并遍历轮廓上的每个坐标点，计算拟合结果的中心到轮廓上的每点的距离并求解其局部极大值点；

求解拟合结果外轮廓片段上的像素点到拟合结果的中心的极大值点，且取距离最大前两个极大值点；

利用距离最大前两个极大值点将轮廓分解为两段轮廓，并采用最小二乘法对两段轮廓进行拟合，获得第二次拟合结果；

重复上述步骤，得到所有分割掩膜区域的目标形状近似拟合结果；

对所有分割掩膜区域的目标形状近似拟合结果中的每个拟合结果，计算其与所有分割掩膜区域的重叠面积，当分割掩膜区域被包含在对应的拟合结果中时，进行分割掩膜区域的合并，获得分割结果。

可选的，所述卷积神经网络模型的训练过程包括：

通过迁移学习的方式采用ImageNet数据集对所述卷积神经网络模型的特征提取网络进行预训练；

在预训练后，基于制作的数据集对所述卷积神经网络模型进行训练，在训练过程中，初始学习率为1.5×10^-3，衰减率设定为每1000次迭代0.1，选择SGD作为训练优化器；

根据目标图像数据与标注文件对训练后的神经网络模型进行参数优化；

采用真实场景下的目标图像数据对优化后的神经网络模型进行测试，并基于测试结果判断是否训练收敛。

另外，本发明实施例还提供了一种基于多模块卷积神经网络的复杂环境目标分割装置，所述装置包括：

标注模块：用于采集复杂场景下的目标图像数据并进行数据标注处理，获得标注后的目标图像数据；

数据集建立模块：用于将标注后的目标图像数据进行数据增强并建立数据集处理，获得目标图像数据集；

初步检测模块：用于基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测处理，获得初步检测结果；

分割模块：用于将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果。

在本发明实施例中，对自然复杂环境下的目标精准分割，保证分割的准确性与实时性；用图像校正模块来自适应地校正图像的颜色、对比度等，从而增强模型对自然环境光照变化的鲁棒性；对实例分割结果优化，提高了模型对目标遮挡情况下的分割鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于多模块卷积神经网络的复杂环境目标分割方法的流程示意图；

图2是本发明实施例中的基于多模块卷积神经网络的复杂环境目标分割装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1，图1是本发明实施例中的基于多模块卷积神经网络的复杂环境目标分割方法的流程示意图。

如图1所示，一种基于多模块卷积神经网络的复杂环境目标分割方法，所述方法包括：

S11：采集复杂场景下的目标图像数据并进行数据标注处理，获得标注后的目标图像数据；

在本发明具体实施过程中，所述采集复杂场景下的目标图像数据并进行数据标注处理，获得标注后的目标图像数据，包括：采集不同地区、不同场景下的目标图像数据；将采集到的不同地区、不同场景下的目标图像数据采用图像标注工具Labelme进行标注，获得标注后的目标图像数据。

具体的，在本发明实施例中，以复杂环境下果园杨梅进行具体实施，即，针对复杂场景下的目标进行原始数据采集，杨梅的图像采集于不同地区、不同场景下的果园复杂环境中,图像均在杨梅收获前3至4周拍摄,获取的图像使用800万像素相机拍摄的，焦距为4.2mm，孔径值为2.28e v(f/2.2)，曝光时间为1/100秒，分辨率为3264×2448像素，图像采集时将拍摄距离调整为30cm～100cm；将采集的图像采用图像标注工具Labelme进行标注获得标注后的目标图像数据。

S12：将标注后的目标图像数据进行数据增强并建立数据集处理，获得目标图像数据集；

在本发明具体实施过程中，所述将标注后的目标图像数据进行数据增强并建立数据集处理，获得目标图像数据集，包括：将标注后的目标图像数据采用15种数据增强方式进行1:1增强处理，获得增强后的目标图像数据；对增强后的目标图像数据与原始目标图像数据一起建立目标数据集。

具体的，为补充数据集样本量并增强数据集在野外强光、弱光、雾天、遮挡、模糊等环境下的样本多样性，根据杨梅生长环境和检测需求采用高斯噪声、脉冲噪声、失焦模糊、运动模糊、变焦模糊、雾化、明亮化、对比度、颜色抖动、像素化、弹性变换、旋转变换、随机擦除、随机裁剪、随机翻转15种数据增强方式；对原始目标图像采用上述数据增强方式进行1:1处理；然后将数据增强后的目标图像与原始图像一起建立目标数据集。

例如，原始数据有100张图像，经过15种数据增强方式进行1:1处理后，可以得到新的15*100张图像，再加上原来的100张，共计为1600张图像，以此构建数据集。

S13：基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测处理，获得初步检测结果；

在本发明具体实施过程中，所述卷积神经网络模型具有图像校正模块。

进一步的，所述基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测处理，获得初步检测结果，包括：在所述神经网络模型中的向前传播过程中同时对所述目标图像数据集中的目标图像数进行批归一化、实例归一化处理，并提取不同维度的目标特征；将不同维度的目标特征通过RPN网络进行初次候选框的筛选和定位，去除不包含物体的候选框；初次候选框的筛选和定位结果通过反卷积网络，输出与原始目标图像数据相同大小的校正图像；将所述校正图像输入全连接网络与全连接层进行初步像素级定位，获得初步检测结果。

进一步的，所述卷积神经网络模型的训练过程包括：通过迁移学习的方式采用ImageNet数据集对所述卷积神经网络模型的特征提取网络进行预训练；在预训练后，基于制作的数据集对所述卷积神经网络模型进行训练，在训练过程中，初始学习率为1.5×10^-3，衰减率设定为每1000次迭代0.1，选择SGD作为训练优化器；根据目标图像数据与标注文件对训练后的神经网络模型进行参数优化；采用真实场景下的目标图像数据对优化后的神经网络模型进行测试，并基于测试结果判断是否训练收敛。

具体的，搭建一个具有图像校正模块的CNN模型，以准确地定位图像中的杨梅，首先在CNN的前向传播过程中同时对图像进行批归一化(BN)、实例归一化(IN)处理，然后进行不同维度的杨梅特征提取，添加实例归一化(IN)的目的是降低光照对模型预测的干扰，提高模型对复杂环境下的杨梅分割精度；将具有不同维度特征的杨梅图像通过RPN网络进行初次候选框的筛选与定位，滤除不包含物体的候选框；将RPN输出的杨梅图像通过反卷积网络，输出与原始图像相同大小的校正图像，降低光照变化对模型的干扰，提高后续杨梅分割的准确性；将校正后的图像送入全连接网络与全连接层，进行初步像素级杨梅定位。

在对卷积神经网络模型训练时，通用迁移学习的方式采用ImageNet数据集对模型的特征提取网络进行预训练；然后利用制作的数据集对整个模型进行训练，初始学习率为1.5×10^-3，衰减率设定为每1000次迭代0.1，选择SGD作为训练优化器；该制作数据集由数据增强后的目标图像与原始原始图像一起建立的制作数据集，其由百分之八十作为训练集，百分之十作为测试集，百分之十作为验证集组成；根据目标图像与标注文件对模型进行参数优化；采用真实场景下的目标图像对优化后的模型进行测试评估，然后根据测试结果判断是否训练收敛；若收敛则训练完成，若未收敛则继续重复训练直至收敛或者训练次数阈值为止。

S14：将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果。

在本发明具体实施过程中，所述分割区域形状补全模块为根据目标图像的形状先验知识，设计分割区域拼图算法构建而成。

进一步的，所述将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果，包括：设置实例分割结果为M＝{m₁,m₂,...,m_n}，提取每个分割掩膜区域的轮廓；采用最小二乘法对轮廓进行拟合，获得临时的粗糙的拟合结果，并遍历轮廓上的每个坐标点，计算拟合结果的中心到轮廓上的每点的距离并求解其局部极大值点；求解拟合结果外轮廓片段上的像素点到拟合结果的中心的极大值点，且取距离最大前两个极大值点；利用距离最大前两个极大值点将轮廓分解为两段轮廓，并采用最小二乘法对两段轮廓进行拟合，获得第二次拟合结果；重复上述步骤，得到所有分割掩膜区域的目标形状近似拟合结果；对所有分割掩膜区域的目标形状近似拟合结果中的每个拟合结果，计算其与所有分割掩膜区域的重叠面积，当分割掩膜区域被包含在对应的拟合结果中时，进行分割掩膜区域的合并，获得分割结果。

具体的，首先设实例分割结果为M＝{m₁,m₂,...,m_N}，提取每个分割掩膜区域m_i的轮廓e_i；采用最小二乘法对轮廓进行圆拟合，获得临时的粗糙的拟合圆遍历轮廓e_i上每个坐标点，计算圆/>的圆心到轮廓e_i上每点的距离并求解其局部极大值点；求解圆/>外轮廓片段上的像素点到圆心的极大值点，且取距离最大前两个极大值点，记为/>和/>利用和/>将轮廓e_i分解为两段轮廓即/>和/>然后采用最小二乘法根据轮廓分别为对以上两段轮廓进行圆拟合，得到拟合误差最小的圆c_i，以此逼近果实真实形状；重复以上步骤则可得所有分割掩膜区域的目标形状近似圆即C＝{c₁,c₂,...,c_N}；对于C＝{c₁,c₂,...,c_N}中的每个圆c_i，计算其与所有分割掩膜区域的重叠面积，当分割掩膜区域被包含在圆c_i内时，则可知m_i和m_j为同一颗目标的分割掩膜区域，因此对这两块区域进行合并，最终像拼图一样将所有同一目标的掩膜区域进行拼接组合，实现分割结果的优化处理，由于遮挡导致分离的果实通过形状补全模块校正成一个整体。

如上所述为本发明关于复杂环境下果园杨梅实例分割的实施例介绍，通过提出了一种基于CNN的模型，该模型具有图像校正模块和形状完成模块，用于复杂环境下杨梅分割，其目的是解决果园中照明和遮挡的约束完成视觉引导的自动采摘任务。通过在复杂环境中采集杨梅图像并实现数据增强，构建了一个用于训练和测试的数据集。在此的基础上，构建了一个具有图像校正模块和形状完成模块的CNN，以应对复杂环境中照明和遮挡的挑战。实验结果表明相比其它实例分割方法，此方法针对复杂场景具有更好的适用性与准确度。

实施例二

请参阅图2，图2是本发明实施例中的基于多模块卷积神经网络的复杂环境目标分割装置的结构组成示意图。

如图2所示，一种基于多模块卷积神经网络的复杂环境目标分割装置，所述装置包括：

标注模块21：用于采集复杂场景下的目标图像数据并进行数据标注处理，获得标注后的目标图像数据；

数据集建立模块22：用于将标注后的目标图像数据进行数据增强并建立数据集处理，获得目标图像数据集；

初步检测模块23：用于基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测处理，获得初步检测结果；

分割模块24：用于将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于多模块卷积神经网络的复杂环境目标分割方法及装置进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多模块卷积神经网络的复杂环境目标分割方法，其特征在于，所述方法包括：

采集复杂场景下的目标图像数据并进行数据标注，获得标注后的目标图像数据；

将标注后的目标图像数据进行数据增强并建立数据集，获得目标图像数据集；

基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测处理，获得初步检测结果；

将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果；

所述卷积神经网络模型具有图像校正模块；

所述基于卷积神经网络模型对所述目标图像数据集中的目标图像数据进行目标初步检测处理，获得初步检测结果，包括：

将所述校正图像输入全连接网络与全连接层进行初步像素级定位，获得初步检测结果；

所述分割区域形状补全模块为根据目标图像的形状先验知识，设计分割区域拼图算法构建而成；

所述将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果，包括：

2.根据权利要求1所述的复杂环境目标分割方法，其特征在于，所述采集复杂场景下的目标图像数据并进行数据标注，获得标注后的目标图像数据，包括：

采集不同地区、不同场景下的目标图像数据；

3.根据权利要求1所述的复杂环境目标分割方法，其特征在于，所述将标注后的目标图像数据进行数据增强并建立数据集，获得目标图像数据集，包括：

4.根据权利要求1所述的复杂环境目标分割方法，其特征在于，所述卷积神经网络模型的训练过程包括：

5.一种基于多模块卷积神经网络的复杂环境目标分割装置，其特征在于，所述装置包括：

标注模块：用于采集复杂场景下的目标图像数据并进行数据标注，获得标注后的目标图像数据；

数据集建立模块：用于将标注后的目标图像数据进行数据增强并建立数据集，获得目标图像数据集；

分割模块：用于将所述初步检测结果输入分割区域形状补全模块中通过拼图算法对遮挡的目标进行预测校正，获得分割结果；

所述卷积神经网络模型具有图像校正模块；