CN113298130A

CN113298130A - 目标图像的检测、目标对象检测模型的生成方法

Info

Publication number: CN113298130A
Application number: CN202110530414.5A
Authority: CN
Inventors: 吴新涛; 郭睿
Original assignee: Petromentor International Education Beijing Co ltd
Current assignee: Petromentor International Education Beijing Co ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-24
Anticipated expiration: 2041-05-14
Also published as: CN113298130B

Abstract

本申请公开了一种目标图像的检测和目标对象检测模型的生成方法，其中，目标图像的检测方法包括：获得包含多个图像的图像数据集；根据所述图像数据集，构建目标对象检测模型；获得待检测图像，通过所述目标对象检测模型检测所述待检测图像以得到具有目标对象的目标图像。本申请通过获得的图像数据集，构建目标对象检测模型，通过目标对象检测模型对待检测图像进行检测，不仅可以从多个图像中准确的获得具有目标对象的目标图像，以提升获得目标图像的效率。而且不用人为地自行检测，从而在降低检测投入成本的同时，还可以提升检测目标对象的准确度。

Description

目标图像的检测、目标对象检测模型的生成方法

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种目标图像的检测方法和一种目标对象检测模型的生成方法。

背景技术

深度学习近年来发展迅猛，在国内外都引起了广泛的关注，随着深度学习技术的不断进步以及数据处理能力的不断提升，越来越多的深度学习算法被用在图像处理，计算机视觉领域。目标检测是计算机视觉一个重要的方向，一般目标检测的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。目标检测问题本身的定义为：给定任意一张图像，确定其中是否存在任何预定义类别的形义目标实例；如果存在，就返回其空间位置和覆盖范围。

但是，相对于一些生活场景中的目标检测，多是通过人工查看监控视频、或是通过管理人员现场查看才能完成的，人工检测的方式不仅会增加检测的投入成本，还会存在对检测目标疏漏的情况，继而降低了对目标检测的准确度。

因此，如何降低对生活场景中的目标检测的投入成本，且同时提升目标检测的准确度，成为本领域技术人员亟待解决的问题。

发明内容

本申请实施例提供一种目标图像的检测方法，以解决现有技术中如何降低对生活场景中的目标检测的投入成本，且同时提升目标检测的准确度，成为本领域技术人员亟待解决的问题。

本申请实施例提供一种目标图像的检测方法，包括：

获得包含多个图像的图像数据集；

根据所述图像数据集，构建目标对象检测模型；

获得待检测图像，通过所述目标对象检测模型检测所述待检测图像以得到具有目标对象的目标图像。

可选的，通过所述目标对象检测模型检测所述待检测图像以得到所述目标图像中的目标对象的位置信息。

可选的，所述获得包含多个图像的图像数据集，包括：

获得具有目标对象的多个图像，

对所述多个图像进行预处理得到多个候选图像；

对所述多个候选图像进行标记以得到所述图像数据集。

可选的，所述对所述多个图像进行预处理得到多个候选图像，包括：

采用Mosaic数据增强的方式对所述多个图像至少进行如下操作：对所述多个图像进行随机翻转、随机缩放、随机裁剪，以获得多个初始图像；

将所述多个初始图像进行随机拼接得到所述多个候选图像。

可选的，所述对所述多个候选图像进行标记以得到所述图像数据集，包括：

对所述多个候选图像中的完全是目标对象的图像进行第一标记，并将具有第一标记的完全是目标对象的图像作为第一图片样本；

对所述多个候选图像中包含有目标对象的图像进行第二标记；并将一部分具有第二标记的包含有目标对象的图像作为第二图片样本，将另一部分具有第二标记的包含有目标对象的图像作为测试图片样本；

所述第一图片样本、所述第二图片样本以及所述测试图片样本统称为图片样本，且将所述第一标记和第二标记为统称为训练标记，即形成所述图像数据集。

可选的，所述根据所述图像数据集，构建目标对象检测模型，包括：

根据所述图像数据集的图片样本获得特征图；

根据所述特征图和所述图片样本进行所述训练标记和损失函数计算；

利用反向传播算法对所述目标对象检测模型进行迭代训练获得函数值最小的所述损失函数，以构建所述目标对象检测模型。

可选的，所述根据所述图像数据集的图片样本获得特征图，包括：

将所述图像数据集的图片样本输入到所述目标对象检测模型中以得到所述图片样本的特征信息；

对所述特征信息进行上采样、下采样处理以及特征融合处理以得到特征图。

可选的，所述根据所述特征图和所述图片样本进行所述训练标记和损失函数计算，包括：

将所述特征图与所述图片样本对应，并以所述特征图上的每个像素按照不同大小和长宽对应所述图片样本的网格区域，生成多尺度的先验框；

根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框的长宽进行筛选，得到正样本预测框；

根据所述正样本预测框和实际标注目标框的位置偏移和类别进行损失计算。

可选的，所述根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框的长宽进行筛选，得到正样本预测框，包括：

获得所述图片样本的标注目标物的长宽和在同一区域内的所述先验框的长宽的比值；

将所述比值与预先设置的阈值进行比较，以得到所述正样本预测框。

可选的，还包括：将与所述先验框的相邻的网格区域内的先验框与所述正样本预测框匹配，将与所述正样本预测框相匹配的相邻的网格区域内的先验框作为所述正样本预测框。

本申请实施例还提供一种目标对象检测模型的生成方法，包括：

获得包含多个图像的图像数据集的图片样本；

根据所述图像数据集的图片样本获得特征图样本；

根据所述特征图样本和所述图片样本进行训练样本标记和损失函数样本计算；

利用反向传播算法对所述目标对象检测模型进行迭代训练获得函数值最小的所述损失函数样本，以构建所述目标对象检测模型。

可选的，所述获得包含多个图像的图像数据集的图片样本，包括：

获得具有目标对象的多个图像样本；

对所述多个图像样本进行预处理得到多个候选图像样本；

对所述多个候选图像样本进行标记以得到所述图像数据集的图片样本。

可选的，所述对所述多个候选图像样本进行标记以得到所述图像数据集的图片样本，包括：

对所述多个候选图像样本中的完全是目标对象的图像样本进行第一标记，并将具有第一标记的完全是目标对象的图像样本作为第一图片样本；

对所述多个候选图像样本中包含有目标对象的图像样本进行第二标记；并将一部分具有第二标记的包含有目标对象的图像样本作为第二图片样本，将另一部分具有第二标记的包含有目标对象的图像样本作为测试图片样本；

所述第一图片样本、所述第二图片样本以及所述测试图片样本统称为图片样本，且将所述第一标记和第二标记为统称为训练样本标记，即形成所述图像数据集的图片样本。

可选的，所述根据所述图像数据集的图片样本获得特征图样本，包括：

将所述图像数据集的图片样本输入到预设目标对象检测模型中以得到特征所述图片样本的特征信息；

对所述特征信息进行上采样、下采样处理以及特征融合处理以得到特征图样本。

可选的，所述根据所述特征图样本和所述图片样本进行训练样本标记和损失函数样本计算，包括：

将所述特征图样本与所述图片样本对应，并以所述特征图样本上的每个像素按照不同大小和长宽对应所述图片样本的网格区域，生成多尺度的先验框样本；

根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框样本的长宽进行筛选，得到正样本预测框样本；

根据所述正样本预测框样本和实际标注目标框样本的位置偏移和类别进行损失计算，获得目标损失函数样本，将所述目标损失函数样本作为函数值最小的所述损失函数样本。

可选的，所述根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框样本的长宽进行筛选，得到正样本预测框样本，包括：

将所述比值与预先设置的阈值进行比较，以得到所述正样本预测框样本。

本申请实施例还提供一种目标图像的检测装置，包括：

图像数据集获得单元，用于获得包含多个图像的图像数据集；

目标对象检测模型构建单元，用于根据所述图像数据集，构建目标对象检测模型；

目标图像获得单元，用于获得待检测图像，通过所述目标对象检测模型检测所述待检测图像以得到具有目标对象的目标图像。

本申请实施例还提供一种目标对象检测模型的生成装置，包括：

图片样本获得单元，用于获得包含多个图像的图像数据集的图片样本；

特征图样本获得单元，用于根据所述图像数据集的图片样本获得特征图样本；

计算单元，用于根据所述特征图样本和所述图片样本进行训练样本标记和损失函数样本计算；

目标对象检测模型构建单元，用于利用反向传播算法对所述目标对象检测模型进行迭代训练获得函数值最小的所述损失函数样本，以构建所述目标对象检测模型。

本申请实施例还提供一种电子设备，所述电子设备包括：处理器；存储器，用于存储计算机程序，该计算机程序被处理器运行，执行上述任意一项所述的方法。

本申请实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行上述任意一项所述的方法。

与现有技术相比，本申请具有以下优点:

本申请实施例提供一种目标图像的检测方法，包括：获得包含多个图像的图像数据集；根据所述图像数据集，构建目标对象检测模型；获得待检测图像，通过所述目标对象检测模型检测所述待检测图像以得到具有目标对象的目标图像。本申请实施例通过获得的图像数据集，构建目标对象检测模型，通过目标对象检测模型对待检测图像进行检测，不仅可以从多个图像中准确的获得具有目标对象的目标图像，以提升获得目标图像的效率。而且不用人为地自行检测，从而在降低检测投入成本的同时，还可以提升检测目标对象的准确度。

另外，本申请实施例还可以通过所述目标对象检测模型检测所述待检测图像以得到所述目标图像中的目标对象的位置信息。这样不仅可以从待检测图像中确定出具有目标对象的目标图像，还可以在目标图像中获得目标对象的位置信息，进一步提升检测目标对象的准确度。

此外，基于通过获得的图像数据集，构建了目标对象检测模型，该目标对象检测模型可应用于其他具有多尺度特征图的目标检测网络中，即本申请的目标对象检测模型对于目标对象的检测通用行较强。

附图说明

图1为本申请第一实施例提供的目标图像的检测方法的流程图。

图2为本申请第二实施例提供的目标对象检测模型的生成方法的流程图。

图3为本申请第五实施例提供的目标图像的检测装置的示意图。

图4为本申请第六实施例提供的目标对象检测模型的生成装置的示意图。

图5为本申请第九实施例提供的电子设备的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请实施例。但是本申请实施例能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请实施例内涵的情况下做类似推广，因此本申请实施例不受下面公开的具体实施的限制。

为了使本领域的技术人员更好的理解本申请方案，下面基于本申请提供的目标图像的检测方法对其实施例的具体应用场景进行详细描述，

应用场景

本场景具体是检测火焰的场景，火焰即是本场景中的目标对象。具体的，首先，可通过网络上的资源图片获得具有火焰图像的图像(图片)，或者是通过设置在不同位置的摄像头获得的具有火焰图像的图像(图片)，将这些图像作为图像数据集。然后，对这些图像进行处理，具体的，采用Mosaic数据增强的方式对所述多个图像至少进行如下操作：对所述多个图像进行随机翻转、随机缩放、随机裁剪，以获得多个初始图像，将所述多个初始图像进行随机拼接得到所述多个候选图像；并且对所述多个候选图像中的完全是目标对象的图像进行第一标记，并将具有第一标记的完全是目标对象的图像作为第一图片样本；对所述多个候选图像中包含有目标对象的图像进行第二标记；并将一部分具有第二标记的包含有目标对象的图像作为第二图片样本，将另一部分具有第二标记的包含有目标对象的图像作为测试图片样本；所述第一图片样本、所述第二图片样本以及所述测试图片样本统称为图片样本，且将所述第一标记和第二标记为统称为训练标记，即形成所述图像数据集。最后，根据图像数据集的图片样本获得特征图，根据所述特征图和所述图片样本进行所述训练标记和损失函数计算；利用反向传播算法对目标对象检测模型进行迭代训练获得函数值最小的所述损失函数，以构建所述目标对象检测模型。

上述目标对象检测模型可用于检测出具有火焰目标对象的图像，以及可以检测出在图像中火焰对应的具体位置。具体的，将待检测图像输入至目标对象检测模型中，目标对象检测模型可以得到待检测图像的特征信息，对所述特征信息进行上采样、下采样处理以及特征融合处理以得到特征图，根据特征图对应的得到待检测图片中具有火焰目标对象。进一步的，将所述特征图与所述图片样本对应，并以所述特征图上的每个像素按照不同大小和长宽对应所述图片样本的网格区域，生成多尺度的先验框；根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框的长宽进行筛选，得到正样本预测框；根据所述正样本预测框和实际标注目标框的位置偏移和类别进行损失计算，获得目标框，该目标框所在的图像即为目标图像，该目标框对应的位置信息即为火焰在图像中对应的位置信息。本场景能够对获得的待检测图片进行关于火焰目标的有效识别并框出。对于检测到的火焰目标信息，可以预警并输出火焰的位置信息，及时处理隐患。

当然，本申请方法可应用于多个场景中，例如，(1)对于工作人员是否佩戴有安全帽的检测，检测的目标对象即为安全帽；(2)对于工作人员是否穿戴工装的检测，检测的目标对象即为工装。(3)在工作环境时，对于工作人员是否打电话、吸烟、以及工作人员是否在岗位的检测、工作环境是否安全的检测，所对应的检测目标即为手机、香烟、工作人员、烟雾等。例如抽烟：检测到香烟目标报警。(4)对于现场作业的检测，例如临时用电作业现场，检测到配电箱即判定为临时用电作业现场。井下作业现场，测到修井架目标时即判定为井下作业现场；起重作业现场，检测到吊车目标或汽车起重机目标时即判定为起重作业现场；动土作业现场，检测到推土机目标或挖掘机目标时即判定为动土作业现场；高处作业现场，检测到脚手架目标和吊笼目标时即判定为高处作业现场；动火作业现场，检测到火焰目标、氧气瓶目标或乙炔瓶目标时即判定为动火作业现场；受限空间作业现场，检测到小油罐目标或大油罐目标时判定为受限空间作业现场。当然，对于其它目标对象的检测还有很多，只要是可以将本申请方法应用到对应的目标检测中，均是本申请所要保护的范围。

本申请第一实施例提供一种目标图像的检测方法，图1是本申请第一实施例提供的一种目标图像的检测方法的流程图。如图1所示，所述方法包括如下步骤。

步骤S101，获得包含多个图像的图像数据集。

在本步骤中，图像数据集包含有多个图像，每个图像是一张单独的图片，每个图像中包含有具体的图像内容。在本申请第一实施例中，图像数据集的图像可以是包含有目标对象的图像，也可以是不包含目标对象的图像。

在本步骤中，获得包含多个图像的图像数据集，具体包括如下步骤：

步骤1，获得具有目标对象的多个图像，为了减少计算量，本步骤在获得图像时，可以将不具有目标对象的图片筛选剔除，从而直接获得具有目标对象的图片。其中，可从网络上下载具有目标对象的图像，还可以通过设置在不同环境位置下的监控摄像头获得具有目标对象的图像。在获得具有目标对象的图像后，则需要对图像进行处理，如步骤2所示。

步骤2，对所述多个图像进行预处理得到多个候选图像，具体的，在本步骤中，采用Mosaic数据增强的方式对所述多个图像至少进行如下操作：对所述多个图像进行随机翻转、随机缩放、随机裁剪，以获得多个初始图像，将所述多个初始图像进行随机拼接得到所述多个候选图像，该多个候选图像作为新的具有目标对象的图像。在得到多个候选图像后，执行步骤3。

步骤3，对所述多个候选图像进行标记以得到所述图像数据集，具体的，对所述多个候选图像中的完全是目标对象的图像进行第一标记，并将具有第一标记的完全是目标对象的图像作为第一图片样本。对所述多个候选图像中包含有目标对象的图像进行第二标记；并将一部分具有第二标记的包含有目标对象的图像作为第二图片样本，将另一部分具有第二标记的包含有目标对象的图像作为测试图片样本。所述第一图片样本、所述第二图片样本以及所述测试图片样本统称为图片样本，且将所述第一标记和第二标记为统称为训练标记，即形成所述图像数据集。

需要说明的是，对图像的训练标记具体是标注目标框的左上角顶点的坐标、目标框的宽度、高度，以及目标对象的类别。

在获得图像数据集后，可通过图像数据集构建目标对象检测模型，具体详见步骤S102。

步骤S102，根据所述图像数据集，构建目标对象检测模型。

在本步骤中，目标对象检测模型用于检测待检测图像，以获得具有目标对象的目标图像，以及得到所述目标图像中的目标对象的位置信息。其中，根据所述图像数据集，构建目标对象检测模型具体包括如下步骤。

步骤1，根据所述图像数据集的图片样本获得特征图。具体的，首先，将所述图像数据集的图片样本输入到所述目标对象检测模型中以得到所述图片样本的特征信息。

本步骤具体是通过Focus切片和特征提取网络提取图片样本的特征信息的。其中，Focus切片操作具体为将图片划分为若干小块，并对各小块相同的相对位置部分依次进行组合堆叠，从而将图像切片为尺寸更小、层级更高的特征图。同时还通过CSP(Cross StagePartial Network，跨阶段局部网络)网络结构，将上层传递的特征映射拆分为两个部分，一部分进行卷积操作，将卷积操作的结果和另一部分进行连接和合并，将梯度的变化从头至尾地集中在特征图中。具体而言，在卷积过程中保持特征的宽、高、通道数不变，并获得第一结果(例如，检测出某个纹理特征)；利用该第一结果再进行卷积，并保持特征的宽、高、通道数不变，得到第二结果(例如，检测出上述某个较为淡化的纹理特征)，将第一结果和第二结果叠加，以将梯度的变化从头至尾地集中在特征图中。该步骤可以在降低10％～20％计算量的情况下能够保持计算的准确性，从而有效地降低和减少了计算瓶颈和内存成本。

其次，为了能够更好的融合不同层次的特征，在特征提取网络和输出层之间插入了一些特征融合的层，这些层称为特征融合网络。该特征融合网络主要采用了FPN(featurepyramid networks，特征金字塔网络)+PAN(Pyramid Attention Network for SemanticSegmentation，金字塔注意力模型)的网络结构。采用FPN+PAN的网络结构对所述特征信息进行上采样、下采样处理以及特征融合处理以得到特征图。

具体的，FPN层采用了自顶向下的采样过程，将顶层的低分辨率特征通过上采样的方式提高分辨率，放大到和上一阶段特征相同的尺寸，然后再和上一阶段的特征进行相加合并。通过此操作，将含有较多语义信息的顶层特征与含有较多细节特征的低层特征整合到一起，提高了特征的表达能力。PAN层紧随FPN层之后，与FPN结构相反，PAN采用了自底向上的采样过程，将底层含有的特征信息传给高层的特征，在特征传播过程中采用下采样的方式，缩小到和上一阶段特征相同的尺寸。通过这样的结合，FPN自顶向下传递强语义特征，特征金字塔自底向上传递强定位特征，两个相互结合，对不同的特征进行整合操作以得到特征图。

步骤2，根据所述特征图和所述图片样本进行所述训练标记和损失函数计算。具体的，首先，将所述特征图与所述图片样本对应，并以所述特征图上的每个像素按照不同大小和长宽对应所述图片样本的网格区域，生成多尺度的先验框。然后，根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框的长宽进行筛选，得到正样本预测框，具体的，获得所述图片样本的标注目标物的长宽和在同一区域内的所述先验框的长宽的比值，将所述比值与预先设置的阈值进行比较，以得到所述正样本预测框。另外，为了提升获得正样本预测框的数量，还包括：将与所述先验框的相邻的网格区域内的先验框与所述正样本预测框匹配，将与所述正样本预测框相匹配的相邻的网格区域内的先验框作为所述正样本预测框。最后，根据所述正样本预测框和实际标注目标框的位置偏移和类别进行损失计算。

需要说明的是，在步骤中，获得的正样本预测框具体可以通过GIOU(GeneralizedIntersection over Union，边框预测的损失)Loss算法获得。GIOU的计算过程如下所示：

其中，IOU(Intersection over Union，边框预测算法)表示A、B相交区域面积和A、B总共占据区域面积的比值，A表示正样本预测框，B表示先验框，A∩B表示正样本预测框和先验框相交重叠区域，A∪B表示正样本预测框和先验框总共占据的区域；C代表同时包围A与B的最小矩形框区域，C\A∪B表示C的区域除去A、B总共占据的区域所剩余的区域。

步骤3，利用反向传播算法对所述目标对象检测模型进行迭代训练获得函数值最小的所述损失函数，以构建所述目标对象检测模型。

步骤S103，获得待检测图像，通过所述目标对象检测模型检测所述待检测图像以得到具有目标对象的目标图像。

在获得目标对象检测模型后，获得待检测图像，通过所述目标对象检测模型检测所述待检测图像以得到具有目标对象的目标图像。

具体的，将待检测图像输入至目标对象检测模型中，目标对象检测模型可以得到待检测图像的特征信息，对所述特征信息进行上采样、下采样处理以及特征融合处理以得到特征图，根据特征图对应的得到待检测图片中具有火焰目标对象。进一步的，将所述特征图与所述图片样本对应，并以所述特征图上的每个像素按照不同大小和长宽对应所述图片样本的网格区域，生成多尺度的先验框；根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框的长宽进行筛选，得到正样本预测框；根据所述正样本预测框和实际标注目标框的位置偏移和类别进行损失计算，获得目标框，该目标框所在的图像即为目标图像，该目标框对应的位置信息即为火焰在图像中对应的位置信息。

本申请第一实施例提供一种目标图像的检测方法，包括：获得包含多个图像的图像数据集；根据所述图像数据集，构建目标对象检测模型；获得待检测图像，通过所述目标对象检测模型检测所述待检测图像以得到具有目标对象的目标图像。本申请第一实施例通过获得的图像数据集，构建目标对象检测模型，通过目标对象检测模型对待检测图像进行检测，不仅可以从多个图像中准确的获得具有目标对象的目标图像，以提升获得目标图像的效率。而且不用人为地自行检测，从而在降低检测投入成本的同时，还可以提升检测目标对象的准确度。

另外，本申请第一实施例还可以通过所述目标对象检测模型检测所述待检测图像以得到所述目标图像中的目标对象的位置信息。这样不仅可以从待检测图像中确定出具有目标对象的目标图像，还可以在目标图像中获得目标对象的位置信息，进一步提升检测目标对象的准确度。

在以上描述中，提供了一种目标图像的检测方法，与上述目标图像的检测方法相对应，为了进一步目标图像检测的准确度，本申请还提供了目标对象检测模型的生成方法。请参考图2，其为本申请第二实施例提供一种目标对象检测模型的生成方法的流程图，具体步骤如下。

步骤S201，获得包含多个图像的图像数据集的图片样本。

在本步骤中，获得包含多个图像的图像数据集的图片样本包括如下步骤，步骤1，获得具有目标对象的多个图像样本，其中，为了在获得图像样本时，可以将不具有目标对象的图片样本筛选剔除，从而直接获得具有目标对象的图片样本。在本实施例中，可从网络上下载具有目标对象的图像，还可以通过设置在不同环境位置下的监控摄像头获得具有目标对象的图像，将上述从不同渠道获得的图像作为图片样本。在获得具有目标对象的图片样本后，则需要对图片样本进行处理，如步骤2所示。

步骤2，对所述多个图像样本进行预处理得到多个候选图像样本。具体的，在本步骤中，采用Mosaic数据增强的方式对所述多个图像样本至少进行如下操作：对所述多个图像样本进行随机翻转、随机缩放、随机裁剪，以获得多个初始图像样本，将所述多个初始图像样本进行随机拼接得到所述多个候选图像样本，该多个候选图像样本作为新的具有目标对象的图像样本。在得到多个候选图像后，执行步骤3。

步骤3，对所述多个候选图像样本进行标记以得到所述图像数据集的图片样本。具体的，对所述多个候选图像样本中的完全是目标对象的图像样本进行第一标记，并将具有第一标记的完全是目标对象的图像样本作为第一图片样本；对所述多个候选图像样本中包含有目标对象的图像样本进行第二标记；并将一部分具有第二标记的包含有目标对象的图像样本作为第二图片样本，将另一部分具有第二标记的包含有目标对象的图像样本作为测试图片样本；所述第一图片样本、所述第二图片样本以及所述测试图片样本统称为图片样本，且将所述第一标记和第二标记为统称为训练样本标记，即形成所述图像数据集的图片样本。

需要说明的是，对图像的训练样本标记具体是标注目标框的左上角顶点的坐标样本、目标框的宽度样本、高度样本，以及目标对象的类别样本。

步骤S202，根据所述图像数据集的图片样本获得特征图样本。

具体的，将所述图像数据集的图片样本输入到预设目标对象检测模型中以得到特征所述图片样本的特征信息。

其次，为了能够更好的融合不同层次的特征，对所述特征信息进行上采样、下采样处理以及特征融合处理以得到特征图样本。具体的，在特征提取网络和输出层之间插入了一些特征融合的层，这些层称为特征融合网络。该特征融合网络主要采用了FPN(featurepyramid networks，特征金字塔网络)+PAN(Pyramid AttentionNetwork for SemanticSegmentation，金字塔注意力模型)的网络结构。采用FPN+PAN的网络结构对所述特征信息进行上采样、下采样处理以及特征融合处理以得到特征图样本。

具体的，FPN层采用了自顶向下的采样过程，将顶层的低分辨率特征通过上采样的方式提高分辨率，放大到和上一阶段特征相同的尺寸，然后再和上一阶段的特征进行相加合并。通过此操作，将含有较多语义信息的顶层特征与含有较多细节特征的低层特征整合到一起，提高了特征的表达能力。PAN层紧随FPN层之后，与FPN结构相反，PAN采用了自底向上的采样过程，将底层含有的特征信息传给高层的特征，在特征传播过程中采用下采样的方式，缩小到和上一阶段特征相同的尺寸。通过这样的结合，FPN自顶向下传递强语义特征，特征金字塔自底向上传递强定位特征，两个相互结合，对不同的特征进行整合操作以得到特征图样本。

步骤S203，根据所述特征图样本和所述图片样本进行训练样本标记和损失函数样本计算。

具体的，首先，将所述特征图样本与所述图片样本对应，并以所述特征图样本上的每个像素按照不同大小和长宽对应所述图片样本的网格区域，生成多尺度的先验框样本；然后，根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框样本的长宽进行筛选，得到正样本预测框样本，具体的，获得所述图片样本的标注目标物的长宽和在同一区域内的所述先验框样本的长宽的比值，将所述比值与预先设置的阈值进行比较，以得到所述正样本预测框样本。另外，为了提升获得正样本预测框样本的数量，还包括：将与所述先验框样本的相邻的网格区域内的先验框样本与所述正样本预测框样本匹配，将与所述正样本预测框样本相匹配的相邻的网格区域内的先验框样本作为所述正样本预测框样本。最后，根据所述正样本预测框样本和实际标注目标框样本的位置偏移和类别进行损失计算，获得目标损失函数样本，将所述目标损失函数样本作为函数值最小的所述损失函数样本。

步骤S204，利用反向传播算法对所述目标对象检测模型进行迭代训练获得函数值最小的所述损失函数样本，以构建所述目标对象检测模型。

本申请第二实施例提供一种目标对象检测模型的生成方法，包括：获得包含多个图像的图像数据集的图片样本；根据所述图像数据集的图片样本获得特征图样本；根据所述特征图样本和所述图片样本进行训练样本标记和损失函数样本计算；利用反向传播算法对所述目标对象检测模型进行迭代训练获得函数值最小的所述损失函数样本，以构建所述目标对象检测模型。本申请第二实施例通过图像数据集的图片样本，图片样本的特征图样本，构建了目标对象检测模型，该目标对象检测模型可以提升检测目标对象的准确度和效率；且该目标对象检测模型可应用于其他具有多尺度特征图的目标检测网络中，即本申请的目标对象检测模型对于目标对象的检测通用行较强。

在上述的第一实施例中，提供了一种目标图像的检测方法，与之相对应的，本申请提供一种目标图像的检测装置。如图3所示，其为本申请第三实施例的一种目标图像的检测装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。本申请第三实施例提供一种目标图像的检测装置，包括：图像数据集获得单元301，用于获得包含多个图像的图像数据集；目标对象检测模型构建单元302，用于根据所述图像数据集，构建目标对象检测模型；目标图像获得单元303，用于获得待检测图像，通过所述目标对象检测模型检测所述待检测图像以得到具有目标对象的目标图像。

在上述的第二实施例中，提供了一种目标对象检测模型的生成方法，与之相对应的，本申请提供一种目标对象检测模型的生成装置。如图4所示，其为本申请第四实施例的一种目标对象检测模型的生成装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。本申请第四实施例提供一种目标对象检测模型的生成装置，包括：图片样本获得单元401，用于获得包含多个图像的图像数据集的图片样本；特征图样本获得单元402，用于根据所述图像数据集的图片样本获得特征图样本；计算单元403，用于根据所述特征图样本和所述图片样本进行训练样本标记和损失函数样本计算；目标对象检测模型构建单元404，用于利用反向传播算法对所述目标对象检测模型进行迭代训练获得函数值最小的所述损失函数样本，以构建所述目标对象检测模型。

本申请第一实施例、第二实施例分别给出了一种目标图像的检测方法和一种目标对象检测模型的生成方法，本申请第五实施例给出了与第一实施例、第二实施例的方法对应的电子设备。可参考图5所示，其示出了本实施例电子设备示意图。本申请第五实施例提供一种电子设备，包括：处理器501；存储器502，用于存储计算机程序，该计算机程序被处理器运行，执行上述本申请第一实施例提供的一种目标图像的检测方法，和第二实施例提供的一种目标对象检测模型的生成方法。

本申请第六实施例给出了与第一实施例、第二实施例的方法对应的计算机存储介质。本申请第六实施例提供一种计算机存储介质，计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行上述本申请第一实施例提供的一种目标图像的检测方法，和第二实施例提供的一种目标对象检测模型的生成方法。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种目标图像的检测方法，其特征在于，包括：

获得包含多个图像的图像数据集；

根据所述图像数据集，构建目标对象检测模型；

2.根据权利要求1所述的目标图像的检测方法，其特征在于，还包括：通过所述目标对象检测模型检测所述待检测图像以得到所述目标图像中的目标对象的位置信息。

3.根据权利要求2所述的目标图像的检测方法，其特征在于，所述获得包含多个图像的图像数据集，包括：

获得具有目标对象的多个图像，

对所述多个图像进行预处理得到多个候选图像；

对所述多个候选图像进行标记以得到所述图像数据集。

4.根据权利要求3所述的目标图像的检测方法，其特征在于，所述对所述多个图像进行预处理得到多个候选图像，包括：

将所述多个初始图像进行随机拼接得到所述多个候选图像。

5.根据权利要求3所述的目标图像的检测方法，其特征在于，所述对所述多个候选图像进行标记以得到所述图像数据集，包括：

6.根据权利要求5所述的目标图像的检测方法，其特征在于，所述根据所述图像数据集，构建目标对象检测模型，包括：

根据所述图像数据集的图片样本获得特征图；

7.根据权利要求6所述的目标图像的检测方法，其特征在于，所述根据所述图像数据集的图片样本获得特征图，包括：

8.根据权利要求7所述的目标图像的检测方法，其特征在于，所述根据所述特征图和所述图片样本进行所述训练标记和损失函数计算，包括：

9.根据权利要求8所述的目标图像的检测方法，其特征在于，所述根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框的长宽进行筛选，得到正样本预测框，包括：

10.根据权利要求8所述的目标图像的检测方法，其特征在于，还包括：将与所述先验框的相邻的网格区域内的先验框与所述正样本预测框匹配，将与所述正样本预测框相匹配的相邻的网格区域内的先验框作为所述正样本预测框。

11.一种目标对象检测模型的生成方法，其特征在于，包括：

获得包含多个图像的图像数据集的图片样本；

根据所述图像数据集的图片样本获得特征图样本；

12.根据权利要求11所述的目标对象检测模型的生成方法，其特征在于，所述获得包含多个图像的图像数据集的图片样本，包括：

获得具有目标对象的多个图像样本；

对所述多个图像样本进行预处理得到多个候选图像样本；

13.根据权利要求12所述的目标对象检测模型的生成方法，其特征在于，所述对所述多个候选图像样本进行标记以得到所述图像数据集的图片样本，包括：

14.根据权利要求13所述的目标对象检测模型的生成方法，其特征在于，所述根据所述图像数据集的图片样本获得特征图样本，包括：

15.根据权利要求14所述的目标对象检测模型的生成方法，其特征在于，所述根据所述特征图样本和所述图片样本进行训练样本标记和损失函数样本计算，包括：

16.根据权利要求15所述的目标对象检测模型的生成方法，其特征在于，所述根据所述图片样本的标注目标物的长宽和在同一网格区域内的所述先验框样本的长宽进行筛选，得到正样本预测框样本，包括：

17.一种目标图像的检测装置，其特征在于，包括：

18.一种目标对象检测模型的生成装置，其特征在于，包括：

19.一种电子设备，其特征在于，所述电子设备包括：处理器；存储器，用于存储计算机程序，该计算机程序被处理器运行，执行权利要求1-10、11-16任意一项所述的方法。

20.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该计算机程序被处理器运行，执行权利要求11-10、11-16任意一项所述的方法。