CN114723944A

CN114723944A - 图像分析方法、存储介质和电子设备

Info

Publication number: CN114723944A
Application number: CN202210310796.5A
Authority: CN
Inventors: 任丰仪; 白越; 贾一凡; 郭瑞雪; 裴信彪; 丁佳毓
Original assignee: Changchun Changguang Boxiang Uav Co ltd
Current assignee: Changchun Changguang Boxiang Uav Co ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-08

Abstract

本发明提出了一种基于目标检测和语义分割的图像分析方法、存储介质和电子设备，所述方法包括以下步骤：获取待测图像数据，将其输入至训练完成的检测模型中；所述检测模型包括语义分割模块和目标检测模块；所述语义分割模块对待测图像数据进行语义分割，得到第一处理结果；所述目标检测模块对待测图像数据进行目标检测，得到第二处理结果；将所述第一处理结果和所述第二处理结果进行叠加，得到所述待测图像数据的语义分割图像数据。上述方案通过目标检测模块对图像中尺度较小的目标进行追踪检测，避免了语义分割模块的损失函数对图像中的小目标检测不敏感的问题。

Description

图像分析方法、存储介质和电子设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于目标检测和语义分割的图像分析方法、存储介质和电子设备。

背景技术

随着计算机视觉技术的发展，其已被广泛应用于自动驾驶、无人机飞行、机器人等领域。在实际应用场景中，应用场景需要从影像中推理出相关的知识和语义，从而提高设备的场景理解能力。近年来，快速发展的深度学习技术逐渐应用于图像处理领域，在基于区域选择的语义分割算法中，代表有U-net系列，全卷积网络FCN，SegNet，DeepLabv3+，PSPNet，Mask R-CNN。但是，现有的语义分割算法面对一些复杂场景下的语义分割任务时，仍然存在一些问题，例如在复杂场景下，若一幅图像中包含了尺度极小的目标，一般很难有效地对其进行分割。

发明内容

本发明为了克服上述现有技术中的缺陷，提出了一种基于目标检测和语义分割的图像分析方法，用以解决当一幅图像所包含的目标物尺寸较小时，由于难以进行有效分割导致图像分析处理效果不佳等问题。

为实现上述目的，本发明采用以下具体技术方案：

在第一方面，本发明提供了一种基于目标检测和语义分割的图像分析方法，所述方法包括以下步骤：

获取待测图像数据，将其输入至训练完成的检测模型中；所述检测模型包括语义分割模块和目标检测模块；

所述语义分割模块对待测图像数据进行语义分割，得到第一处理结果；所述目标检测模块对待测图像数据进行目标检测，得到第二处理结果；

将所述第一处理结果和所述第二处理结果进行叠加，得到所述待测图像数据的语义分割图像数据。

作为一种可选的实施例，所述目标检测模块采用Yolov4网络模型，所述Yolov4网络模型包括主干网络和预测网络；

所述目标检测模块对待测图像数据进行目标检测包括：

主干网络对所述待测图像数据进行初步特征提取，得到多个尺度的特征图，并获得各个特征图对应的有效特征层；

预测网络对多个各个特征图对应的有效特征层进行特征融合，得到包含有预测结果的第二处理结果。

作为一种可选的实施例，所述主干网络采用MobileNet主干网络。

作为一种可选的实施例，所述方法包括：

将Yolov4模型网络中的至少一个3*3标准卷积核替换为深度可分离卷积核，并采用替换后的所述深度可分离卷积核进行卷积操作，完成所述特征融合。

作为一种可选的实施例，所述Yolov4模型网络还包括通道注意力模块和空间注意力模块；

所述主干网络提取的有效特征层依次经过所述通道注意力模块、所述空间注意力模块进行筛选；

所述通道注意力模块通过对特征层在通道上进行权重再分配，所述空间注意力模块通过对特征层在空间上进行权重再分配，以使得所述有效特征层中的第一特征凸显且第二特征压缩；所述第一特征为预先设置的重要性强于第二特征的特征。

作为一种可选的实施例，所述第二处理结果上呈现有多个预测框；每一预测框对应一分数值，所述分数值用于表征所述目标物识别的置信度参数；

所述方法包括：

筛选出所有分数值大于预设分数值的预测框；

提取所有筛选的预测框所包含的分类与置信度参数，结合各个预测框在图像上的位置信息更新特征维度信息；所述特征维度信息包括预测框的顶点坐标信息、置物信息和置信度参数；所述置物信息用于表征当前预测框内是否包含有目标物体；

对所有分类的预测框进行循环检测，采用NMS非极大抑制策略过滤出各个属于同一类别的得分最高的预测框，将所述属于同一类别的得分最高的预测框设置为建议框；

按照各个建议框的得分情况，对于预测框所包含的分类进行排序，将得分最高的建议框提取出来作为最佳检测框。

作为一种可选的实施例，所述方法还包括：

比较各个最佳检测框与周围其他检测框的重合度，若某一最佳检测框与周围其他检测框的重合度大于预设重合度，则将该最佳检测框丢弃。

作为一种可选的实施例，所述语义分割模块采用PSPNet语义分割模型，所述Yolov4网络模型和PSPNet语义分割模型共用同一主干网络。

在第二方面，本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的方法步骤。

在第三方面，本发明还提供了一种电子设备，所述电子设备包括存储介质和处理器，所述存储介质为如本发明第二方面所述的存储介质，所述处理器用于执行所述存储介质中存储的计算机程序以实现如本发明第一方面所述的方法步骤。

本发明能够取得以下技术效果：

本发明提出了一种基于目标检测和语义分割的图像分析方法、存储介质和电子设备，所述方法包括以下步骤：获取待测图像数据，将其输入至训练完成的检测模型中；所述检测模型包括语义分割模块和目标检测模块；所述语义分割模块对待测图像数据进行语义分割，得到第一处理结果；所述目标检测模块对待测图像数据进行目标检测，得到第二处理结果；将所述第一处理结果和所述第二处理结果进行叠加，得到所述待测图像数据的语义分割图像数据。上述方案通过目标检测模块对图像中尺度较小的目标进行追踪检测，避免了语义分割模块的损失函数对图像中的小目标检测不敏感的问题，提升图像中目标分析识别的准确性，便于后续进一步处理。

附图说明

图1是本发明第一种实施例涉及的基于目标检测和语义分割的图像分析方法的流程图；

图2是本发明第二种实施例涉及的基于目标检测和语义分割的图像分析方法的流程图；

图3是本发明第三种实施例涉及的基于目标检测和语义分割的图像分析方法的流程图；

图4是本发明第四种实施例涉及的基于目标检测和语义分割的图像分析方法的流程图；

图5是本发明一实施例涉及的Soft-NMS算法实现过程的示意图；

图6是本发明一实施例涉及的多旋翼无人机的示意图；

图7是本发明一实施例涉及的训练模型的示意图；

图8是本发明一实施例涉及的轻量级目标检测模型总体结构的示意图；

图9是本发明一实施例涉及的目标检测与语义分割多任务模型总体结构的示意图；

图10是本发明一实施例涉及的电子设备的模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，而不构成对本发明的限制。

请参阅图1，在第一方面，本发明提供了一种基于目标检测和语义分割的图像分析方法，该方法包括以下步骤：

首先进入步骤S101获取待测图像数据，将其输入至训练完成的检测模型中；检测模型包括语义分割模块和目标检测模块；

而后进入步骤S102语义分割模块对待测图像数据进行语义分割，得到第一处理结果；目标检测模块对待测图像数据进行目标检测，得到第二处理结果；

而后进入步骤S103将第一处理结果和第二处理结果进行叠加，得到待测图像数据的语义分割图像数据。

在本实施方式中，语义分割模块和目标检测模块分别是以功能区分的代码模块。图像语义分割是一种将图像分割成一系列具有特定语义类别属性的区域的方法，通常图像语义分割方法的精度受限于图像中目标物的尺寸大小，只有在待测图像数据中包含的目标物尺寸都较大时，图像语义分割方法才能够对于图像中的目标物进行精准识别。当目标物的尺寸较小时，本发明通过实现目标追踪检测的方法对尺寸较小的目标进一步检测，避免了语义分割模块的损失函数对图像中的小目标检测不敏感的问题。而后通过对语义分割得到后的第一处理结果和目标检测得到的第二处理结果进行叠加，得到待测图像数据的最终的语义分割图像数据。本申请在原有语义分割方法的基础上引入了目标检测方法，能够有效提升图像中目标分析识别的准确性，便于后续进一步处理。

如图2所示，在某些实施例中，目标检测模块采用Yolov4网络模型，Yolov4网络模型包括主干网络和预测网络。目标检测模块对待测图像数据进行目标检测包括：

步骤S201主干网络对待测图像数据进行初步特征提取，得到多个尺度的特征图，并获得各个特征图对应的有效特征层；

步骤S202预测网络对多个各个特征图对应的有效特征层进行特征融合，得到包含有预测结果的第二处理结果。

优选的，主干网络采用MobileNet主干网络。采用Yolov4模型网络作为主要参考模型，将原本的DarkNet53替换为使用深度可分离卷积的MobileNet主干网络，在极大降低模型参数量和计算量的条件下，同样可以实现对特征图进行多个尺度的主干特征提取，提高了模型的效率。

在另一些实施例中，该方法包括：将Yolov4模型网络中的至少一个3*3标准卷积核替换为深度可分离卷积核，并采用替换后的深度可分离卷积核进行卷积操作，完成特征融合。

优选的，Yolov4模型整体结构可以拆分成三个部分：

主干特征提取网络选用CSPDarknet53，进行初步特征提取。经过主干网络之后，可以得到三个尺度的特征图，分别为(52,52,256)、(26,26,512)、(13,13,1024)，且生成特征图的三个有效特征层分别位于CSPDarknet53的中间层、中下层、底层，使用三个尺度的特征层进行分类与回归预测。

第二部分为颈部网络，由SPP模块、FPN+PAN特征金字塔结构组成，用于进行加强特征提取。

第三部分为预测网络，利用Yolo Head对三个有效特征层进行预测，Yolo Head本质上是一次3×3卷积加上一次1×1卷积，作用分别是特征整合和调整通道数，可以对三个初步的有效特征层进行特征融合，最终在得到含有预测结果的图像，训练时使用的损失函数可以采用CIOU-Loss。

通过采用MobileNet作为YOLOv4的主干特征提取网络，替换掉原始的CSPDarknet53主干网络，利用MobileNet模型强大特征提取能力、极低参数量和运算量的优势，可以提高模型的运算效率。MobileNet v1是一种流水型网络结构，它的主要特点分为两方面：第一方面是使用深度可分离卷积替代了传统的卷积操作，构建轻量级神经网络；第二方面是引入宽度α和分辨率ρ缩放因子。α对网络输入和输出通道数进行缩减，ρ用于控制输入和内部层表示，即控制输入的分辨率，都可以进一步缩小模型。

将YOLOv4中的部分3*3标准卷积替换为深度可分离卷积，在降低模型计算量的同时可以提高性能。与标准卷积操作相比，深度可分卷积操作在参数量和计算量上都有大幅度地明显降低。如下方表1所示，假设总共有N个卷积核，尺寸均为D_k×D_k×M，每个都运算D_W×D_H次，则标准卷积共需要的参数量是D_K×D_K×M×N，计算量是D_K×D_K×M×N×D_W×D_H。深度可分离卷积的参数量由深度卷积和逐点卷积两部分组成，假设共有N个卷积核，深度卷积、逐点卷积处理的卷积核尺寸分别是D_K×D_K×M、1×1×M，则深度可分离卷积后的参数量是D_K×D_K×M+M×N；每一个卷积核要做D_W×D_H次乘加运算，所以分别经历深度卷积、逐点卷积后的计算量是：D_K×D_K×M×D_W×D_H+M×N×D_W×D_H。综上所述，与标准卷积操作相比，深度可分卷积操作的运算量与参数量均可以降低到原先的

多数神经网络中使用3×3卷积核，即会降低到原来的1/9～1/8。

表1深度可分离卷积与标准卷积的计算对比

如图3所示，在某些实施例中，Yolov4模型网络还包括通道注意力模块和空间注意力模块。该方法包括：

首先进入步骤S301主干网络提取的有效特征层依次经过通道注意力模块、空间注意力模块进行筛选；

而后进入步骤S302通道注意力模块通过对特征层在通道上进行权重再分配，空间注意力模块通过对特征层在空间上进行权重再分配，以使得有效特征层中的第一特征凸显且第二特征压缩；第一特征为预先设置的重要性强于第二特征的特征。

在本实施方式中，通道注意力模块和空间注意力模块可以通过CBAM注意力机制实现。通过将CBAM注意力机制引入到主干网络MobileNet，使特征图经过初步的主干网络提取之后，再分别送入到通道注意力模块、空间注意力模块进行特征提取。使用CBAM注意力机制可以很好地学习利用目标区域中的信息并从中聚合特征。此外，将注意力机制引入到卷积神经网络中，还可以提高其在大规模分类任务中的性能。CBAM是一种能对特征图像局部信息聚焦的模块。它通过学习的方式在空间和通道上对特征图像进行权重分配，促使计算资源更倾向于重点关注的目标区域，从而加强感兴趣的信息(即第一特征)，同时抑制无用信息(即第二特征)。CBAM包含两个模块，分别是通道注意力模块和空间注意力模块，输入特征依次通过通道注意力模块、空间注意力模块的筛选，最后获得经过了重标定的特征，即强调重要特征，压缩不重要特征。

在某些实施例中，在实现本申请的检测模型时，还通过引入Soft-NMS算法来代替NMS算法。这样可以在进行非极大抑制作为检测模型后处理方法时同步考虑得分和重合程度，给满足一定范围重叠框一个权值，而不是粗鲁的置零，保证了重叠目标的检测框能够保留下来。对于与最高得分的检测框重叠度较高的框设置一个惩罚项，避免重叠框如果包含目标物却被误删除的情况发生，同时不保留同一个目标两个相似的检测框。处理方式如公式1所示:

如图4和图5所示，在本实施方式中，第二处理结果上呈现有多个预测框；每一预测框对应一分数值，分数值用于表征目标物识别的置信度参数；该方法包括：

首先进入步骤S401筛选出所有分数值大于预设分数值的预测框；

而后进入步骤S402提取所有筛选的预测框所包含的分类与置信度参数，结合各个预测框在图像上的位置信息更新特征维度信息；特征维度信息包括预测框的顶点坐标信息、置物信息和置信度参数；置物信息用于表征当前预测框内是否包含有目标物体；

而后进入步骤S403对所有分类的预测框进行循环检测，采用NMS非极大抑制策略过滤出各个属于同一类别的得分最高的预测框，将属于同一类别的得分最高的预测框设置为建议框；

而后进入步骤S404按照各个建议框的得分情况，对于预测框所包含的分类进行排序，将得分最高的建议框提取出来作为最佳检测框。

优选的，该方法还包括：比较各个最佳检测框与周围其他检测框的重合度，若某一最佳检测框与周围其他检测框的重合度大于预设重合度，则将该最佳检测框丢弃。

上述方法先对预测框进行得分的过滤，再进行重合框的过滤，可以极大的减少建议框的数目。同时对于各个分类进行循环检测，从能够对每一个类别都进行非极大抑制的过滤。

优选的，语义分割模块采用PSPNet语义分割模型，Yolov4网络模型和PSPNet语义分割模型共用同一主干网络。具体操作是：在主干特征提取网络MobileNet的特征图1/8处引出PSPNet语义分割模型，将场景理解划分为目标检测、语义分割两个子任务，然后将子任务的结果进行叠加，可以得到近似于实例分割图的效果；并且用分组卷积替换掉PSPNet网络中的3×3标准卷积。面对一些复杂场景下的语义分割任务时，可以同时兼顾到全局信息与局部信息。面对一些复杂场景下的语义分割任务时，可以同时兼顾到全局信息与局部信息。PSPNet提出的金字塔池化模块(Pyramid Pooling Module)能够聚合不同区域的上下文信息，从而提高获取全局信息的能力。PSP结构的功能是将获取到的特征层划分成不同大小的网格，每个网格内部各自进行平均池化。实现聚合不同区域的上下文信息，从而提高获取全局信息的能力。结合目标检测与语义分割的多任务模型，最终不仅将图像中的背景和前景划分出来，并且对于大小目标也进行了检测和分割。

在第二方面，本发明还提供了一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时实现如本发明第一方面的方法步骤。

如图10所示，在第三方面，本发明还提供了一种电子设备10，包括处理器101和存储介质102，该存储介质102为如第二方面的存储介质；处理器101用于执行存储介质102中存储的计算机程序以实现如第一方面的方法步骤。

在本实施例中，电子设备为计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等。存储介质包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。处理器包括但不限于CPU(中央处理器)、GPU(图像处理器)、MCU(微处理器)等。

如图7-图9所示，本发明提出一种效果较好的轻量级实时检测模型，采用Yolov4模型网络作为主要参考模型，将原本的DarkNet53替换为使用深度可分离卷积的MobileNet主干网络，在极大降低模型参数量和计算量的条件下，同样可以实现对特征图进行三个尺度的主干特征提取，提高了模型的效率。

在进行复杂大规模场景处理时，本申请引入了注意力机制，注意力机制的使用是为了对特征图的局部信息进行聚焦，从而帮助计算资源趋向于目标检测任务更加关注的区域，具体是通过融合CBAM注意力机制到主干网络中，从而提高模型对于较小目标的分类和检测。

此外，目标检测模型在后处理模块中还添加了NMS机制，作用是筛选模型的预测结果，过滤掉同一物体上预测效果比较差的预测框，只保留响应较高的候选预测框，Soft-NMS是在NMS基础上的进一步优化，提出在进行非极大抑制作为检测模型后处理方法的时候要同样考虑到得分和重合程度，给满足一定范围重叠框一个权值，而不是粗鲁的置零，保证了重叠目标的检测框能够保留下来，从而保证在模块时间消耗的差距几乎为零的前提下，模型的检测精度有小幅度的提升。

在此基础上，基于PSPNet与改进MobileNet-Yolov4的实例分割算法，在轻量化目标检测模型基础上融合PSPNet语义分割模型，二者共用一个主干网络，可以在少幅度牺牲实时性的前提下，构建出目标检测与语义分割的多任务模型。通过实验验证，本文算法模块在复杂场景下对小目标的分割效果较好，并且实时性显著提高。

如图6所示，假定待测图像数据为多旋翼无人机图像。为了训练和评估所提出的模型，实验使用深度学习框架Pytorch，CPU选用Core i9-10900K，GPU选用Nvidia GeforceGTX 3080。此外，为了验证模型在无人机飞行时的适用性，在嵌入式系统Nvidia JetsonTX2和Raspberry Pi 4B上也进行模型部署和实验结果的分析。训练分为两个部分，分别为轻量级目标检测模型和目标检测与语义分割的多任务模型。轻量级目标检测模型的训练和部署步骤包括：

Step1:在COCO预处理模型的基础上，选用包含20个类别的PASCAL VOC作为模型训练和测试的数据集，划分验证子集和训练子集的比例为1:9。为了降低各方面额外因素对识别的影响，对原始数据集进行数据增强。对构建好的模型进行训练微调时，设置momentum＝0.9，lr＝0.001，batch_size＝16，Init_Epoch＝0，Freeze_Epoch＝50，去除掉了优化器的权重衰减因子，即weight decay＝0。

Step2:利用VOC 2007和VOC 2012的训练集进行联合训练，然后基于PASCALVOC2007测试集进行评估，得到该训练网络对20个目标类的检测平均精度AP值和总的平均精度mAP。为了进一步验证改进模型的性能，引入误检率MR，从实验的MR看来，本发明明显优化了MobileNet-YOLOv4，降低了大部分类别的误检率，提高了目标检测的平均检测精度。

Step3:为了更直观的体现改进的目标检测算法的性能，将模型在无人机航拍图片和视频上进行运行。分别在不同航拍条件下，例如正常路面情况、拍摄光照不足、画面有遮挡、相机视角倾斜、拍摄停下的车辆、拍摄实时视频。

目标检测与语义分割的多任务模型的训练和部署步骤包括：

Step1:利用Cityscapes数据集进行训练，本发明模型分割速度很快，参数量小，同时也有较高的分割精度，这有利于部署到计算能力有限的嵌入式平台上，也满足无人机分割任务的精度要求。

Step2:在无人机采集到的视频流上进行目标检测与语义分割的多任务模型。实验使用四旋翼无人机，无人机飞控为Pixhawk，平台搭载ZED双目立体相机，获取丰富的环境信息，提高无人机的智能感知和场景理解能力。在无人机平台上，图像处理模块要使用体积较小且算力足够嵌入式平台，这里采用的是Nvidia Jetson TX2。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种基于目标检测和语义分割的图像分析方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于目标检测和语义分割的图像分析方法，其特征在于，所述目标检测模块采用Yolov4网络模型，所述Yolov4网络模型包括主干网络和预测网络；

所述目标检测模块对待测图像数据进行目标检测包括：

3.如权利要求2所述的基于目标检测和语义分割的图像分析方法，其特征在于，所述主干网络采用MobileNet主干网络。

4.如权利要求3所述的基于目标检测和语义分割的图像分析方法，其特征在于，所述方法包括：

5.如权利要求3所述的基于目标检测和语义分割的图像分析方法，其特征在于，所述Yolov4模型网络还包括通道注意力模块和空间注意力模块；所述方法包括：

6.如权利要求1所述的基于目标检测和语义分割的图像分析方法，其特征在于，所述第二处理结果上呈现有多个预测框；每一预测框对应一分数值，所述分数值用于表征所述目标物识别的置信度参数；

所述方法包括：

筛选出所有分数值大于预设分数值的预测框；

7.如权利要求6所述的基于目标检测和语义分割的图像分析方法，其特征在于，所述方法还包括：

8.如权利要求2所述的基于目标检测和语义分割的图像分析方法，其特征在于，所述语义分割模块采用PSPNet语义分割模型，所述Yolov4网络模型和PSPNet语义分割模型共用同一主干网络。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法步骤。

10.一种电子设备，其特征在于，所述电子设备包括存储介质和处理器，所述存储介质为如权利要求9所述的存储介质，所述处理器用于执行所述存储介质中存储的计算机程序以实现如权利要求1至8任一项所述的方法步骤。