CN112070074A

CN112070074A - 物体检测方法、装置、终端设备和存储介质

Info

Publication number: CN112070074A
Application number: CN202011259208.7A
Authority: CN
Inventors: 胡金晖; 张力元; 聂宗强; 杨逢; 袁明冬
Original assignee: Smart City Research Institute Of China Electronics Technology Group Corp
Current assignee: Smart City Research Institute Of China Electronics Technology Group Corp
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2020-12-11
Anticipated expiration: 2040-11-12
Also published as: CN112070074B

Abstract

本申请适用于图像处理技术领域，提供了一种物体检测方法、装置、终端设备和存储介质。该物体检测方法包括：获取待测图片；采用预先训练完成的物体检测模型对所述待测图片进行检测，得到所述待测图片中具有的第一物体的标注框和第二物体的标注框；根据所述第一物体的标注框和所述第二物体的标注框之间的位置覆盖关系，计算得到所述第一物体和所述第二物体是否符合预设条件的结果。在对存在位置覆盖关系的两个物体进行检测时，本申请首先检测出物体的标注框，然后再根据两个物体标注框之间的位置覆盖关系来确定物体检测结果。与仅通过判断预设范围内是否存在对应物体的方式相比，本申请能够提高物体检测的准确性。

Description

物体检测方法、装置、终端设备和存储介质

技术领域

本申请属于图像处理技术领域，尤其涉及一种物体检测方法、装置、终端设备和存储介质。

背景技术

目前，在对存在位置覆盖关系的两个物体进行物体检测的过程中，通常仅通过判断预设范围内是否存在对应的物体来完成检测，容易造成漏检和误检，导致检测结果不准确。例如，对摩托车、电动车驾驶员和乘坐人员是否佩戴头盔进行检测时，如果遇上上下班高峰期，车流量密集，在预设范围内会出现多辆车和多个头盔等情形，则容易出现误检和漏检的结果。

发明内容

有鉴于此，本申请实施例提供了一种物体检测方法、装置、终端设备和存储介质，能够提高对存在位置覆盖关系的两个物体进行检测的准确性。

第一方面，本申请实施例提供了一种物体检测方法，包括：

获取待测图片；

采用预先训练完成的物体检测模型对所述待测图片进行检测，得到所述待测图片中具有的第一物体的标注框和第二物体的标注框；

根据所述第一物体的标注框和所述第二物体的标注框之间的位置覆盖关系，计算得到所述第一物体和所述第二物体是否符合预设条件的结果。

在对存在位置覆盖关系的两个物体进行检测时，本申请首先检测出物体的标注框，然后再根据两个物体标注框之间的位置覆盖关系来确定物体检测结果。与仅通过判断预设范围内是否存在对应物体的方式相比，本申请能够提高物体检测的准确性。

进一步的，所述物体检测模型通过以下步骤训练：

获取原始样本图片和背景图片，所述原始样本图片包括所述第一物体的图片、所述第二物体的图片和第三物体的图片，其中，所述第三物体的图片和所述第一物体的图片之间的相似度大于设定的阈值；

将所述原始样本图片作为前景图片，覆盖到所述背景图片中，得到初始样本集合，所述初始样本集合中的图片包含所述第一物体的标注框、所述第二物体的标注框或者所述第三物体的标注框；

对所述初始样本集合中的图片执行图片的裁剪处理和融合处理，得到最终样本集合；

根据所述最终样本集合训练模型，得到所述物体检测模型。

先通过获取背景图片和具有三种物体的原始样本图片，其中，原始样本图片中除了第一物体，还添加了和第一物体相似度较高的第三物体，通过增加目标样本的相似样本能够丰富样本种类；然后将原始样本图片覆盖到背景图片中，组合出数量充足的样本图片生成初始样本集合；最后通过对初始样本合集中的图片执行裁剪及融合处理，得到场景丰富的最终样本合集。采用该样本合集对物体检测模型进行训练，能够让物体检测模型从复杂的场景中准确检测目标物体，提高物体检测的准确性。

进一步的，将所述原始样本图片作为前景图片，覆盖到所述背景图片中，包括：

采用图片的旋转、平移、缩放和镜像处理，将所述原始样本图片覆盖到所述背景图片中；

对图片覆盖后的所述背景图片，执行图片的加模糊处理、加噪声处理以及RGB值随机升降处理。

为了能够提高物体检测模型的检测能力，可以在将原始样本图片覆盖到所述背景图片之前，对原始样本图片采取旋转、平移、缩放以及镜像操作，这几个操作可以随机选择，可以执行单一操作，也可以执行多个操作。在完成图片的覆盖之后，还可以对背景图片执行加模糊、加噪声以及RGB值随机升降的处理，此处对背景图片的处理，可以模拟现实场景对目标物体检测过程造成的干扰和噪声，通过这样的样本图片对物体检测模型进行训练，能够提高物体检测模型的检测能力以及检测准确性。

进一步的，所述初始样本集合包含第一样本子集、第二样本子集和第三样本子集，所述第一样本子集为由包含所述第一物体的标注框的图片所构成的图片集合，所述第二样本子集为由包含所述第二物体的标注框的图片所构成的图片集合，所述第三样本子集为由包含所述第三物体的标注框的图片所构成的图片集合，对所述初始样本集合中的图片执行图片的裁剪处理和融合处理，得到最终样本集合，包括：

从所述第一样本子集中选取一个目标图片，作为标签样本图片；

从所述第二样本子集或者所述第三样本子集中选取一个图片，作为扩展样本图片；

计算所述标签样本图片和所述扩展样本图片的最大重叠面积；

根据所述最大重叠面积分别对所述标签样本图片和所述扩展样本图片进行裁剪，得到标签样本子图和扩展样本子图；

将所述标签样本子图和所述扩展样本子图进行融合，得到一个最终样本图片；

从所述第一样本子集中选取下一个图片，重复执行与所述目标图片相同的处理过程，直至处理完所述第一样本子集中的所有图片；

对于所述第二样本子集中的每个图片，在作为标签样本图片时，以所述第一样本子集或者所述第三样本子集中的图片作为扩展样本图片，执行与所述第一样本子集中的图片相同的处理过程；

对于所述第三样本子集中的每个图片，在作为标签样本图片时，以所述第一样本子集或者所述第二样本子集中的图片作为扩展样本图片，执行与所述第一样本子集中的图片相同的处理过程；

将得到的所有最终样本图片的集合确定为所述最终样本集合。

初始样本集合中的样本图片可以根据是否具有同一物体的标注框而划分为三个样本子集，具体可以将具有第一物体的标注框的样本图片的集合作为第一样本子集，将具有第二物体的标注框的样本图片的集合作为第二样本子集，将具有第三物体的标注框的样本图片的集合作为第三样本子集。将样本子集划分完成后，为了能够丰富并样本图片的场景，可以从第一样本子集中选取一张目标图片作为标签样本图片，并从其他两个样本子集中随机抽取一张样本图片作为标签样本图片；在选取出两个样本图片之后，计算这两张样本图片的最大重叠面积的尺寸，并根据该尺寸对两张样本图片进行裁剪，获得标签样本子图和扩展样本子图，获得两张样本子图之后，即可根据两张样本子图进行融合，得到一个最终样本图片。完成之后，选择第一样本子集中的下一张图片执行和目标图片相同处理，直到将第一样本子集中的所有图片处理完成。同理，从第二样本子集中选取目标图片作为标签样本图片时，其他两个样本子集的图片则作为扩展样本图片，并执行与第一样本子集中的图片相同的处理过程，对于第三样本子集的每个图片的处理过程，以此类推。

进一步的，根据所述最大重叠面积分别对所述标签样本图片和所述扩展样本图片进行裁剪，得到标签样本子图和扩展样本子图，包括：

以所述标签样本图片的一个顶角为原点，按照所述最大重叠面积的尺寸从所述标签样本图片中裁剪出所述标签样本子图；

以所述扩展样本图片的一个顶角为原点，按照所述最大重叠面积的尺寸从所述标签样本图片中裁剪出所述标签样本子图；

将所述标签样本子图和所述扩展样本子图进行融合，得到一个最终样本图片，包括：

对所述标签样本子图和所述扩展样本子图执行像素点的加权求和处理，得到所述最终样本图片。

在计算出标签样本图片和扩展样本图片的最大重叠面积的尺寸之后，按照该尺寸分别对两张样本图片进行裁剪，获得标签样本子图和扩展样本子图，然后对两张子图执行像素点的加权求和后获得最终样本图片。通过对标签样本图片和扩展样本图片进行裁剪，并对裁剪后的两张子图进行融合，能够丰富最终样本图片的场景，避免在训练物体检测模型时因过度学习目标物体的特征而导致物体检测模型的分类器过拟合，能够增强物体检测模型的泛化检测能力。

进一步的，在根据所述最终样本集合训练模型之前，还包括：

将所述最终样本集合划分成多个样本图片组合，每个所述样本图片组合包含二个以上的最终样本图片；

对于每个所述样本图片组合，将其包含的各个最终样本图片进行拼接，然后将拼接得到的图片分割成预设尺寸的多个图像块，从所述多个图像块中选取预设数量比例的图像块，并将选取的图像块的像素值设置为指定值。

要丰富训练样本图片的场景，除了选取出标签样本图片和扩展样本图片进行处理融合以外，还可以在获得最终样本集合之后，将该集合中的所有样本图片划分为多个组合，每个组合至少包含两种最终样本图片，通过对每个组合中的最终样本图片进行拼接，即可将多个场景组合到一张图片中，进一步丰富训练样本图片的场景。在完成图片的拼接操作之后，还可以将图片按照像素尺寸分割为多个图像块，然后从这些图像块中选取预设数量比例的图像块，将选取的图像块的像素值设置为指定值，例如像素值设置为零。通过将训练样本图片中的部分图像块设置为指定的像素值，增加训练样本图片的瑕疵，通过输入有瑕疵的训练样本对物体检测模型进行训练，能够让物体检测模型从存在瑕疵的图片中检测出第一物体和第二物体，从而提高训练完成的物体检测模型的容错率和检测的准确率。

进一步的，根据所述第一物体的标注框和所述第二物体的标注框之间的位置覆盖关系，计算得到所述第一物体和所述第二物体是否符合预设条件的结果，包括：

计算所述第一物体的标注框和所述第二物体的标注框的重叠区域的第一面积；

计算所述第二物体的标注框的第二面积；

根据所述第一面积和所述第二面积计算得到面积覆盖值；

若所述面积覆盖值大于预设阈值，则判定所述第一物体和所述第二物体符合预设条件。

在检测得到两个物体的标注框后，可以计算这两个物体的标注框重叠区域的第一面积，并计算第二物体的标注框的第二面积，然后根据第一面积和第二面积计算出面积覆盖值，并根据面积覆盖值和预设阈值之间的关系，从而判定两个物体是否符合预设条件，能够提高物体检测的准确性。

第二方面，本申请实施例提供了一种物体检测装置，包括：

待测图片获取模块，用于获取待测图片；

待测图片检测模块，用于采用预先训练完成的物体检测模型对所述待测图片进行检测，得到所述待测图片中具有的第一物体的标注框和第二物体的标注框；

检测结果输出模块，用于根据所述第一物体的标注框和所述第二物体的标注框之间的位置覆盖关系，计算得到所述第一物体和所述第二物体是否符合预设条件的结果。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例第一方面提出的物体检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例第一方面提出的物体检测方法。

本申请实施例与现有技术相比存在的有益效果是：能够降低物体检测模型的误检率和漏检率，提高物体检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种物体检测方法的流程图；

图2是本申请实施例提供的采用的物体检测模型的训练方法流程图；

图3是本申请实施例提供的一种图片裁剪方法的示意图；

图4是本申请实施例提供的将图片像素设置示意图；

图5是本申请实施例提供的一种物体检测装置的结构图；

图6是本申请实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定装置结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请实施例中，“一个或多个”是指一个、两个或两个以上；“和/或”，描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的物体检测方法可以应用于手机、平板电脑、医疗设备、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备或者服务器上，本申请实施例对终端设备和服务器的具体类型不作任何限制。

随着道路上车辆的增多，交通拥堵日益严重，轻便灵活的摩托车、电动车成了不可缺少的代步工具。但是由于驾驶员和乘坐人员安全意识薄弱，不按规定佩戴头盔，导致这类车辆作为代步工具带来便利的同时也增加了交通事故的严重程度。

为了保障人员的安全，国家出台了相关法规规定摩托车、电动车上路驾驶员和乘坐人员要佩戴好头盔，否则将会被拦截处罚。然而，如何检测驾驶员和乘坐人员是否佩戴头盔成了一大难题。对于这一类存在位置关系的两个物体的检测，目前仅通过判断预设范围内是否存在对应的物体进行检测，容易造成漏检和误检，导致检测结果不准确。例如，对摩托车、电动车驾驶员和乘坐人员是否佩戴头盔进行检测时，如果遇上上下班高峰期，车流量密集，在预设范围内会出现多辆车和多个头盔，则容易出现误检和漏检的现象，导致检测结果不准确。针对这个问题，本申请提出一种新的物体检测方法，能够降低物体检测模型的误检率和漏检率，提高物体检测的准确性。

请参阅图1，在一个实施例中，图1示出了本申请提供的一种物体检测方法的流程图，包括：

101、获取待测图片；

先获取待测图片，该图片是已经采集得到的图片。这些图片可以是从监控录像中截取的单帧画面，也可以是各个交通节点所设置的电子眼获取到的图片，在本申请中，对于图片的获取来源和方式不做限定。

102、采用预先训练完成的物体检测模型对所述待测图片进行检测，得到所述待测图片中具有的第一物体的标注框和第二物体的标注框；

在获取到待测图片之后，就可以利用预先训练完成的物体检测模型对该图片进行检测，检测后，如果该待测图片中有第一物体和第二物体，则会在该待检测图片中对第一物体和第二物体进行标识，即显示出第一物体的标注框和第二物体的标注框，此时即可获得这两个物体的标注框用于后续两个物体是否满足预设条件的判断。

参考图2，在一个实施例中，对于物体检测模型可以通过以下步骤进行训练：

201、获取原始样本图片和背景图片，所述原始样本图片包括所述第一物体的图片、所述第二物体的图片和第三物体的图片，其中，所述第三物体的图片和所述第一物体的图片之间的相似度大于设定的阈值；

原始样本图片和背景图片都是预先采集的，原始样本图片包括第一物体、第二物体和第三物体的图片。其中，第一物体和第二物体就是物体检测模型要检测的目标物体，第一物体和第三物体为相似度较高的物体，具体的可以设置一个阈值来判断某物体是否为第三物体，即当某物体与第一物体的相似度大于设定的阈值，确定为第三物体。通过将相似度较高的非同类物体的图片作为原始样本图片的一部分，可以让物体检测模型从具有相似度较高的第三物体的图片中准确检测出第一物体，能够增强物体检测模型的检测能力，提高该模型检测的准确性。为了更好的理解三个物体之间的关系，以骑行时头盔的佩戴检测为例，第一物体可以是电动车或者摩托车，第二物体可以是头盔，第三物体可以是和摩托车、电动车相似度较高的自行车，通过将自行车图片作为第三物体图片添加到原始样本中，能够让训练后的物体检测模型从包含电动车或者摩托车以及自行车的图片中准确检测出电动车或者摩托车，而不会将自行车误检为电动车或者摩托车。当然，这里的第三物体只是泛指，并非是数量的限制，只要有物体和第一物体的相似度能超过设定的阈值，就还可以有第四物体、第五物体等。

同时，在采集这三个物体的图片时，可以采集物体不同的款式、型号的图片以及不同款式型号对应的不同的状态图。例如电动车有三种款式，每种款式对应有两个型号，那么可以采集每种款式对应的两个型号不同的状态图，状态图可以是行驶或者停放状态，在不考虑采集角度的情况下，共可以采集到12张图片，为了丰富原始样本图片，还可以多角度采集。在采集背景图时，也可以采集同一实景不同的角度以及不同时段的图片，角度不同，背景图会有差别，而时间段不同则会导致照片的明暗程度不同，将这样的图片作为背景图，可以让训练完成的物体检测模型不受待测图片角度和画面明暗程度的限制，能准确检测出第一、第二物体，提高物体检测模型的泛化性。

202、将所述原始样本图片作为前景图片，覆盖到所述背景图片中，得到初始样本集合，所述初始样本集合中的图片包含所述第一物体的标注框、所述第二物体的标注框或者所述第三物体的标注框；

在获取到原始样本图片之后，即可将原始样本图片和采集到的背景图片进行组合，得到初始样本集合。具体的，可以将原本样本图片覆盖到背景图片中，每一张原始样本图片可以和所有的背景图片进行组合，如果有X张背景图片，那么随机抽取出一张原始样本图片就可以组合出X张初始样本图片，在所有的原始样本图片和背景图片组合完成之后，即可获得若干初始样本图片，形成初始样本集合。

为了进一步丰富样本图片的场景、数量并提高检测模型的检测能力，在一个实施例中，将所述原始样本图片作为前景图片，覆盖到所述背景图片中，包括：

在将原始样本图片覆盖到背景图片之前，可以对原始样本图片进行旋转、平移、缩放和镜像处理，这几个操作可以随机选择，可以单一执行，也可以多个组合执行；并在完成相应操作后，将原始样本图片覆盖到背景图片中，在覆盖操作完成之后，可以增加背景图片的噪声，例如对该图片执行加模糊处理、加噪声处理以及RGB值随机升降处理，在不同阶段对原始样本图片或背景图片做不同的处理，可以丰富初始样本图片并提高目标物体的检测难度，采用这样的样本图片对物体检测模型进行训练，能够提高训练完成的物体检测模型的检测能力和检测的泛化性。其中，模糊处理是将图片的每一个像素都取周边像素的平均值，来减少像素间差距，从而达到模糊效果；图像噪声是指存在于图像数据中的不必要的或多余的干扰信息，噪声的存在严重影响了遥感图像的质量，因此一般在图像增强处理和分类处理之前，必须予以纠正，但如果添加噪声到样本图片的背景图中，则可以将训练样本的场景复杂化，能够进一步训练物体检测模型的纠错能力，提高该模型的鲁棒性；RGB值随机升降是指随机增大或减小背景图片中的RGB值，也能够让训练场景变得更加复杂。另外，需要注意的是，经过处理前后的图片都会进行保留，例如，对某张原始样本图片采取了镜像，那么镜像前后会生成两张原始样本图片，将这两张原始样本图片分别覆盖了同一张背景图中，即可获得两张初始样本图片，通过该方法还可以增加样本数量，并让样本之间形成参照，使得训练完成的物体检测模型不受物体角度和状态的影响，检测准确性更高。

203、对所述初始样本集合中的图片执行图片的裁剪处理和融合处理，得到最终样本集合；

在得到初始样本集合之后，为了避免在训练物体检测模型的过程中，物体检测模型因过度学习目标物体的特征而导致物体检测模型的分类器过拟合，降低检测的准确性，还可以对该集合中的图片执行裁剪和融合处理，来丰富样本图片的场景，增强检测过程中的噪声，从而提高物体检测模型的泛化检测能力。

具体的，在一个实施例中，可以通过以下步骤获得最终样本集合：

所述初始样本集合包含第一样本子集、第二样本子集和第三样本子集，所述第一样本子集为由包含所述第一物体的标注框的图片所构成的图片集合，所述第二样本子集为由包含所述第二物体的标注框的图片所构成的图片集合，所述第三样本子集为由包含所述第三物体的标注框的图片所构成的图片集合，对所述初始样本集合中的图片执行图片的裁剪处理和融合处理，得到最终样本集合，包括：

首先将初始样本集合中的所有图片按照具有的物体的标注框分为不同的子集，由于初始样本集合的所有图片中一共具有三种物体标注框，因此可以根据划分标准得到第一样本子集、第二样本子集、第三样本子集，每个子集是由具有对应的一类物体的标注框的图片所构成。分出三个子集之后，即可从任意一个子集作中选取出一个目标图片作为标签样本图片，然后从另外两个子集作中选取出一张图片作为扩展样本图片，具体的，可以从第一样本子集中选取一个目标图片作为扩展样本图片，并从第二、第三样本子集包含的所有图片中随机选取出一张图片作为扩展样本图片，在选取出标签样本图片和扩展样本图片之后，即可对两张图片做裁剪和融合处理获得最终样本图片。

在对标签样本图片和扩展样本图片裁剪之前，需要先确定出裁剪尺寸。具体的，可以依据两张图片的分辨率尺寸计算出两张图片的最大重叠面积的尺寸作为裁剪尺寸，在获得裁剪尺寸之后，即可按照该尺寸分别对两张图片进行裁剪。在裁剪的过程中，可以以图片的一个顶角为原点，按照最大重叠面积的尺寸进行裁剪分别获得图片的子图。对标签样本图片和扩展样本图片裁剪后，分别获得标签样本子图和扩展样本子图，并且获得的两张样本子图的分辨率是相同的，便于后期对两张图片进行融合。为了便于理解，举例说明，假设图M为标签样本图片，图N为扩展样本图片，在对两个图片进行裁剪的时候，先通过计算获得两张图片的最大重叠面积的尺寸，然后对两张图片按照裁剪尺寸分别对M和N进行裁剪，裁剪的时候是以两张图片的左上角为原点进行裁剪，裁剪完成后即可获得标签样本子图M₁和扩展样本子图N₁。具体的参见图3，图3示出了最大重叠面积的计算和裁剪示意图。

在获得标签样本子图和扩展样本子图之后，可以对两张图片进行融合。在本申请实施例中，采用像素加权平均法（WeightedAveraging，WA）对两张图片进行融合，该方法是最简单、直接的图像融合方法，具有简单易实现、运算速度快的优点，通过对两张图片像素权重的调配，能提高融合图像的信噪比，得到最佳的最终样本图片。具体的可以将标签样本子图记为

，将扩展样本子图记为

，然后将两个子图执行像素点的加权求和处理，获得最终样本图片，具体的可以通过以下公式求和：

其中，a和b为常数，且a+b=1，通过调节a和b的值，可以得到不同信噪比的最终样本图片，在本实施例中，优选的a=0.8，b=0.2。

在完成第一样本子集中的一张图片的裁剪和融合之后，接着选取下一张图片重复执行上述裁剪和融合的处理过程，直至将该集合中的所有图片处理完成。

然后换第二样本子集的图片作为标签样本图片，将另外第一、第三样本子集的图片作为扩展样本图片，并对第二样本子集的所有图片执行和第一样本子集的所有图片同样的操作，对于第三样本子集的图片作为标签样本图片时，以此类推。当三个样本子集的所有图片都处理完成后，即可将获得的所有最终样本图片的集合确定为最终样本集合。

204、根据所述最终样本集合训练模型，得到所述物体检测模型。

在获得最终样本集合之后，就可以利用该样本集合对训练模型进行训练，得到训练完成的物体检测模型。

为了进一步丰富最终训练样本图片的场景，提升训练完成的物体检测模型的检测能力，在一个实施例中，在根据所述最终样本集合训练模型之前，还包括：

在本申请实施例中，可以利用数量对最终样本集合进行划分，得到多个样本图片组合，例如可以指定样本图片组合数量可以是2、3、4，即随机从最终样本集合中读取2张、3张或者4张图片形成一个样本图片组合。为了增加样本数量，还可以在得到多个样本组合后，随机对每个样本图片组合内的图片随机执行缩小比例操作或者放大比例操作，并对操作前后的图片进行保留，即通过增加样本图片组合的数量来增加样本数量，能够让物体检测模型通过海量的样本进行训练，提升物体检测模型检的检测能力。得到多个样本图片组合后，可以将每个样本图片组合中的各个样本图片拼接起来，在拼接的过程中，如果组合内图片的数量为2张或者3张，可以随机选择将图片在水平或者竖直的状态拼接操作；如果组合内包含4张图片，则可以随机顺序进行2*2的拼接，获得一张四宫格的样本图片。通过将具有不同场景的图片拼接到一张图片中，可以获得场景更加丰富的训练样本图片，通过这些训练样本图片对物体检测模型进行训练，物体检测模型需要同时对图片上的多个场景进行检测，且仅当检测正确后才会完成训练，这样可以让物体检测模型具有同时检测多个场景中的第一物体和第二物体的能力，提高其泛化检测能力。同时，还可以将拼接后的图片分割成多个图像块，分割的图像块可以根据需求设定为预设尺寸，例如图像中间预设尺寸为2*2像素，遇到奇数分辨率的边缘预设尺寸为3*3像素。分割处理完成后，随机从多个图像块中选取预设数量比例的图像块，将该图像块的像素值设定为指定值，例如参见图4，将选取出来的图像块的像素值设置为0的示意图。通过对分割后的部分图像块进行像素值的设定，给训练样本图片添加瑕疵，例如将选出来的图像块设置为0，图片中就会有一些黑点，黑点相对于整张图片而言，存在感较强且有可能会遮挡住要检测的物体，利用带有瑕疵的图片作为样本对物体检测模型进行训练，即使瑕疵的存在感很强或者瑕疵遮挡住了第一物体或者第二物体，物体检测模型也能够正确检测出第一物体或者第二物体，也就是说，训练时对于这样存在错误学习特征的图片仍能够正确检测，那么对于现实场景中第一物体和第二物体存在遮挡也就能够顺利的检测出来，从而能够提升物体检测模型的容错能力。

在获得该训练样本集合之后，需要统计样本中大样本和小样本的比例，其中像素在150*150（22500）像素内的图片为小样本，超过该像素为大样本，统计大小样本比例是为了后续在训练物体检测模型的过程中，如果大小比例样本不平衡，可以通过设置样本比例的惩罚项来进行平衡，以提高物体检测模型检测的准确性。

在一个实施例中，训练的物体检测模型是通过以下步骤构建：

首先，搭建YOLOv3网络，在本实施例中不修改Darknet53的结构，仍然可以使用COCO等大数据集的训练权值作为物体检测模型训练的初始权值。

YOLOv3将输入图片划分为S*S的小块，用于预测目标框和置信度。本方案选择的损失函数如下：

其中S*S代表小块的数量，B代表设定的候选框数量，

代表第i个小块的第j个候选框是否负责此预测目标，是则为1，否则为0；相应的，

同理取值为1或0；公式中第1行是计算目标框中心坐标的损失，取预测中心坐标和标签中心坐标的二次差方和为损失值，其中

为修正系数；第2行是计算预测目标框与标签目标框的损失；第3、4行是计算置信度的损失，取交叉熵作为损失值；第5行是计算分类损失，同样取交叉熵作为损失值，cls为类别数量。

同时，为了平衡大小样本比例不均造成的影响，在原损失函数的基础上，加上针对大样本和小样本比例的惩罚项，公式如下：

其中

为原损失，若当前目标为大样本，则

取值为1，否则取值为0；同样的，

取值为1或0，

为0到1之间的常数。

使用上述损失函数对构建的YOLOv3网络进行训练，即可得到物体检测模型的权值，完成物体检测模型的构建。

103、根据所述第一物体的标注框和所述第二物体的标注框之间的位置覆盖关系，计算得到所述第一物体和所述第二物体是否符合预设条件的结果。

在物体模型检测到第一物体和第二物体之后，会在待测图片中进行标识，即获得待测图片中具有第一物体的标注框和第二物体的标注框。得到两个物体的标注框之后，可以根据两个标注框之间的位置覆盖关系进行计算，从而判断第一物体和第二物体是否符合预设条件的结果。

具体的，在一个实施例中，根据所述第一物体的标注框和所述第二物体的标注框之间的位置覆盖关系，计算得到所述第一物体和所述第二物体是否符合预设条件的结果，包括：

计算所述第二物体的标注框的第二面积；

根据所述第一面积和所述第二面积计算得到面积覆盖值；

检测两个存在位置覆盖关系的物体，可以在通过物体检测模型检测之后，计算两个物体的标注框的重叠区域的第一面积，以及第二物体的标注框的第二面积，然后根据第一面积和第二面积计算出面积覆盖值，从而根据面积覆盖值和预设阈值之间的关系，判断第一物体和第二物体是否符合预设条件。为了便于理解，举例说明，在对摩托车或者电动车的驾驶员和乘坐人员的头盔佩戴情况进行检测时，物体检测模型检测后，可以获得摩托车或者电动车的标注框

以及头盔的标注框

，因为如果驾驶员或者乘坐人员佩戴了头盔，那么头盔的标注框和摩托车标注框重叠区域的第一面积占头盔的标注框的第二面积的比例会较高，即面积覆盖值较大，因此可以通过下述公式先计算出面积覆盖值：

其中

为重叠区域的第一面积，

为头盔标注框区域的第二面积。计算出面积覆盖值后，可以将面积覆盖值I和设定的阈值进行比较，当面积覆盖值大于设定的阈值，则判定当前电动车有配戴头盔，否则判定为未配戴头盔。

之所以采取上述步骤进一步对检测结果进行验证，是由于在实际的检测过程中，虽然在一张图片上同时检测到电动车D1和头盔K2，但是有可能头盔K2是相邻的电动车D2的驾驶人员所佩戴的，而电动车D1的驾驶员没有佩戴头盔，那么正确的检测结果应该是电动车D1的驾驶员没有佩戴头盔，但现有的物体检测模型没有根据头盔和电动车之间的位置覆盖关系进一步判断的步骤，极有可能得出电动车D1的驾驶人员已佩戴头盔的错误检测结果。而通过本申请的方法，在得到头盔和电动车的标注框后，进一步计算头盔的标注框和摩托车标注框重叠区域的第一面积占头盔的标注框的第二面积的比例即面积覆盖值，通过计算可知，该面积覆盖值为零，小于设定的阈值，即可得出电动车D1的驾驶员没有佩戴头盔的检测结果，降低误检和漏检漏率，提高物体检测的准确性。

本申请实施例通过训练完成的模型对存在位置覆盖关系的两个物体进行检测，检测完成后根据两个物体标注框之间的位置覆盖关系进行计算来判断是否符合预设条件，并输出对应的检测结果，能够降低物体检测模型的误检率和漏检率，提高物体检测的准确性。

图5示出了本申请实施例提供的物体检测装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图5，该装置包括：

待测图片获取模块501，用于获取待测图片；

待测图片检测模块502，用于采用预先训练完成的物体检测模型对所述待测图片进行检测，得到所述待测图片中具有的第一物体的标注框和第二物体的标注框；

检测结果输出模块503，用于根据所述第一物体的标注框和所述第二物体的标注框之间的位置覆盖关系，计算得到所述第一物体和所述第二物体是否符合预设条件的结果。

进一步的，所述装置还包括：

原始样本图片获取模块，用于获取原始样本图片和背景图片，所述原始样本图片包括所述第一物体的图片、所述第二物体的图片和第三物体的图片，其中，所述第三物体的图片和所述第一物体的图片之间的相似度大于设定的阈值；

初始样本集合生成模块，用于将所述原始样本图片作为前景图片，覆盖到所述背景图片中，得到初始样本集合，所述初始样本集合中的图片包含所述第一物体的标注框、所述第二物体的标注框或者所述第三物体的标注框；

最终样本集合生成模块，用于对所述初始样本集合中的图片执行图片的裁剪处理和融合处理，得到最终样本集合；

物体检测模型训练模块，用于根据所述最终样本集合训练模型，得到所述物体检测模型。

进一步的，所述初始样本集合生成模块可以包括：

原始样本图片处理单元，用于采用图片的旋转、平移、缩放和镜像处理，将所述原始样本图片覆盖到所述背景图片中；

背景图片处理单元，用于对图片覆盖后的所述背景图片，执行图片的加模糊处理、加噪声处理以及RGB值随机升降处理。

进一步的，所述初始样本集合包含第一样本子集、第二样本子集和第三样本子集，所述第一样本子集为由包含所述第一物体的标注框的图片所构成的图片集合，所述第二样本子集为由包含所述第二物体的标注框的图片所构成的图片集合，所述第三样本子集为由包含所述第三物体的标注框的图片所构成的图片集合，所述最终样本集合生成模块可以包括：

标签样本选取单元，用于从所述第一样本子集中选取一个目标图片，作为标签样本图片；

扩张样本选取单元，用于从所述第二样本子集或者所述第三样本子集中选取一个图片，作为扩展样本图片；

重叠面积计算单元，用于计算所述标签样本图片和所述扩展样本图片的最大重叠面积；

图片裁剪单元，用于根据所述最大重叠面积分别对所述标签样本图片和所述扩展样本图片进行裁剪，得到标签样本子图和扩展样本子图；

图片融合单元，用于将所述标签样本子图和所述扩展样本子图进行融合，得到一个最终样本图片；

第一重复执行单元，用于从所述第一样本子集中选取下一个图片，重复执行与所述目标图片相同的处理过程，直至处理完所述第一样本子集中的所有图片；

第二重复执行单元，用于对于所述第二样本子集中的每个图片，在作为标签样本图片时，以所述第一样本子集或者所述第三样本子集中的图片作为扩展样本图片，执行与所述第一样本子集中的图片相同的处理过程；

第三重复执行单元，用于对于所述第三样本子集中的每个图片，在作为标签样本图片时，以所述第一样本子集或者所述第二样本子集中的图片作为扩展样本图片，执行与所述第一样本子集中的图片相同的处理过程，将得到的所有最终样本图片的集合确定为所述最终样本集合。

进一步的，所述图片裁剪单元可以包括：

第一裁剪子单元，用于以所述标签样本图片的一个顶角为原点，按照所述最大重叠面积的尺寸从所述标签样本图片中裁剪出所述标签样本子图；

第二裁剪子单元，用于以所述扩展样本图片的一个顶角为原点，按照所述最大重叠面积的尺寸从所述标签样本图片中裁剪出所述标签样本子图；

所述图片融合单元还可以用于对所述标签样本子图和所述扩展样本子图执行像素点的加权求和处理，得到所述最终样本图片。

进一步的，所述装置还可以包括：

组合划分模块，用于在根据所述最终样本集合训练模型之前，将所述最终样本集合划分成多个样本图片组合，每个所述样本图片组合包含二个以上的最终样本图片；

像素值设置模块，用于对于每个所述样本图片组合，将其包含的各个最终样本图片进行拼接，然后将拼接得到的图片分割成预设尺寸的多个图像块，从所述多个图像块中选取预设数量比例的图像块，并将选取的图像块的像素值设置为指定值。

进一步的，所述检测结果输出模块503可以包括：

第一计算模块，用于计算所述第一物体的标注框和所述第二物体的标注框的重叠区域的第一面积；

第二计算模块，用于计算所述第二物体的标注框的第二面积；

覆盖值计算模块，用于根据所述第一面积和所述第二面积计算得到面积覆盖值；

检测结果输出单元，用于若所述面积覆盖值大于预设阈值，则判定所述第一物体和所述第二物体符合预设条件。

本申请实施例还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请提出的各个物体检测方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请提出的各个物体检测方法的步骤。

本申请实施例还提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行本申请提出的各个物体检测方法的步骤。

图6为本申请一实施例提供的终端设备的结构示意图。如图6所示，该实施例的终端设备6包括：至少一个处理器60（图6中仅示出一个）处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述任意浏览器驱动的配置方法实施例中的步骤。

所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备，以及智能手表、智能手环等可穿戴设备。该终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的举例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，该处理器60还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡（Smart Media Card， SMC），安全数字（Secure Digital， SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作装置、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种物体检测方法，其特征在于，包括：

获取待测图片；

2.如权利要求1所述的物体检测方法，其特征在于，所述物体检测模型通过以下步骤训练：

根据所述最终样本集合训练模型，得到所述物体检测模型。

3.如权利要求2所述的物体检测方法，其特征在于，将所述原始样本图片作为前景图片，覆盖到所述背景图片中，包括：

4.如权利要求2所述的物体检测方法，其特征在于，所述初始样本集合包含第一样本子集、第二样本子集和第三样本子集，所述第一样本子集为由包含所述第一物体的标注框的图片所构成的图片集合，所述第二样本子集为由包含所述第二物体的标注框的图片所构成的图片集合，所述第三样本子集为由包含所述第三物体的标注框的图片所构成的图片集合，对所述初始样本集合中的图片执行图片的裁剪处理和融合处理，得到最终样本集合，包括：

5.如权利要求4所述的物体检测方法，其特征在于，根据所述最大重叠面积分别对所述标签样本图片和所述扩展样本图片进行裁剪，得到标签样本子图和扩展样本子图，包括：

6.如权利要求4所述的物体检测方法，其特征在于，在根据所述最终样本集合训练模型之前，还包括：

7.如权利要求1-6任一所述的物体检测方法，其特征在于，根据所述第一物体的标注框和所述第二物体的标注框之间的位置覆盖关系，计算得到所述第一物体和所述第二物体是否符合预设条件的结果，包括：

计算所述第二物体的标注框的第二面积；

根据所述第一面积和所述第二面积计算得到面积覆盖值；

8.一种物体检测装置，其特征在于，包括：

待测图片获取模块，用于获取待测图片；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的物体检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的物体检测方法。