CN115187924A

CN115187924A - 一种目标检测方法、装置、终端及计算机可读存储介质

Info

Publication number: CN115187924A
Application number: CN202210623352.7A
Authority: CN
Inventors: 于润润; 李中振; 巩海军; 周经纬; 潘华东
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-10-14

Abstract

本发明提供一种目标检测方法、装置、终端及计算机可读存储介质，目标检测方法包括：获取到预设区域的待检测视频帧；对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标；对候选目标进行特征提取，得到候选目标的特征信息；基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象。本申请对待检测视频帧进行目标检测，得到候选目标，通过将候选目标的特征信息与包含目标对象的第一样本集进行比对，确定候选目标是否为目标对象，避免出现目标对象误检的现象，进而提高了检测准确率以及检测方法的泛化性能。

Description

一种目标检测方法、装置、终端及计算机可读存储介质

技术领域

本发明涉及图像识别技术领域，特别是涉及一种目标检测方法、装置、终端及计算机可读存储介质。

背景技术

安防监控中，目标检测技术作为基本模块，被应用在各种智能技术中。由于现实场景的复杂性和多变性，智能设备中目标检测会出现背景误检和目标漏检。目前，主要的优化方法主要分为两类：第一类，模型训练数据增强，针对不同的场景进行，模型微调，主要增加场景的背景误检数据和漏检数据，提升模型泛化能力。该方法面对不同的场景，需要进行大量微调数据采集标注和数据处理工作，过程繁琐，维护成本大；第二类，为解决背景误检，需要预先建立误检目标白名单，比对检测目标特征和误检白名单中目标特征相似度，设定固定阈值判定是否为误检。该方法需要较强的先验知识，预设出场景中可能会出现的误检目标，仍然需要针对不同场景进行针对性扩充背景白名单，设定固定阈值后，场景泛化能力不强，并且可能存在只适用于某些特定场景的问题。

发明内容

本发明主要解决的技术问题是提供一种目标检测方法、装置、终端及计算机可读存储介质，解决现有技术中目标对象检测准确率低的问题。

为解决上述技术问题，本发明采用的第一个技术方案是：提供一种目标检测方法，目标检测方法包括：获取到预设区域的待检测视频帧；对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标；对候选目标进行特征提取，得到候选目标的特征信息；基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象。

其中，基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象，包括：响应于候选目标的特征信息与第一样本集中包含的目标对象的特征信息之间的第一相似度大于预设值，确定候选目标为目标对象。

其中，第一样本集包括至少两个类别的子图像集；各子图像集包括多个包含目标对象的同一部位的图像；响应于候选目标的特征信息与第一样本集中包含的目标对象的特征信息之间的第一相似度大于预设值，确定候选目标为目标对象，包括：基于候选目标的特征向量与各子图像集中包含的图像对应的特征信息之间分别对应的相似度，计算得到各子图像集与候选目标之间分别对应的第二相似度；根据各子图像集分别对应的第二相似度，确定第一样本集与目标对象之间的第一相似度。

其中，获取到预设区域的待检测视频帧，之前还包括：构建第二样本集，第二样本集包括多个未包含目标对象的背景图像。

其中，基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象，还包括：计算得到候选目标的特征信息与第二样本集之间对应的第三相似度；响应于第一相似度大于第三相似度，则确定候选目标为目标对象。

其中，响应于第一相似度大于第三相似度，则确定候选目标为目标对象，之后还包括：对目标对象的置信度进行加权重置。

其中，基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象，还包括：响应于第一相似度小于第三相似度，则删除候选目标，并将候选目标作为非目标对象归属于第二样本集。

其中，对候选目标进行特征提取，得到候选目标的特征信息，之前还包括：判断候选目标的置信度是否超过预设置信度；对候选目标进行特征提取，得到候选目标的特征信息，包括：如果候选目标的置信度超过预设置信度，则对候选目标进行特征检测得到候选目标的特征信息。

其中，获取到预设区域的待检测视频帧，之前还包括：获取到预设区域的背景视频帧，背景视频帧的采集时刻早于待检测视频帧的采集时刻；对背景视频帧进行目标检测，得到背景视频帧对应的初始目标；提取包含各初始目标的区域图像，并将区域图像归属于第二样本集。

其中，获取到预设区域的背景视频帧，之后还包括：对背景视频帧进行数据增强处理，得到多个增强图像；对背景视频帧进行目标检测，得到背景视频帧对应的初始目标，包括：对多个增强图像分别进行目标检测，得到增强图像对应的初始目标。

其中，对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标，包括：采用目标检测网络模型对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标；其中，目标检测网络模型的训练方法包括：获取第一训练数据集，第一训练数据集包括多张包含目标和多张未包含目标的第一样本图像；第一样本图像标注有对应的真实目标框和真实类别，未包含目标的第一样本图像的真实目标框为空值；将各第一样本图像输入目标检测网络模型，得到各第一样本图像分别对应的预测目标框和预测类别；基于同一第一样本图像对应的真实类别与预测类别之间的误差值、对应的真实目标框和预测目标框之间的误差值对目标检测网络模型进行迭代训练。

其中，对候选目标进行特征提取，得到候选目标的特征信息，包括：基于特征提取网络模型对候选目标进行特征检测，得到候选目标的特征信息；其中，特征提取网络模型的训练方法包括：获取第二训练数据集，第二训练数据集包括多张包含目标和多张未包含目标的第二样本图像；第二样本图像标注有真实特征向量；将各第二样本图像输入特征提取网络模型，得到各第二样本图像分别对应的预测特征向量；基于同一第二样本图像对应的真实特征向量与预测特征向量之间的误差值对特征提取网络模型进行迭代训练。

为解决上述技术问题，本发明采用的第二个技术方案是：提供一种目标检测装置，目标检测装置包括：获取模块，用于获取到预设区域的待检测视频帧；检测模块，用于对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标；特征提取模块，用于对候选目标进行特征提取，得到候选目标的特征信息；分析模块，用于基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象。

为解决上述技术问题，本发明采用的第三个技术方案是：提供一种终端，该终端包括存储器、处理器以及存储于存储器中并在处理器上运行的计算机程序，处理器用于执行程序数据以实现上述目标检测方法中的步骤。

为解决上述技术问题，本发明采用的第四个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述目标检测方法中的步骤。

本发明的有益效果是：区别于现有技术的情况，提供的一种目标检测方法、装置、终端及计算机可读存储介质，目标检测方法包括：获取到预设区域的待检测视频帧；对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标；对候选目标进行特征提取，得到候选目标的特征信息；基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象。本申请对待检测视频帧进行目标检测，得到候选目标，通过将候选目标的特征信息与包含目标对象的第一样本集进行比对，确定候选目标是否为目标对象，避免出现目标对象误检的现象，进而提高了检测准确率以及检测方法的泛化性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明提供的目标检测方法的流程示意图；

图2是本发明提供的目标检测方法一实施例的流程示意图；

图3是本发明提供的目标检测方法一具体实施例的流程示意图；

图4是图2提供的目标检测方法中步骤S201一具体实施例的流程示意图；

图5是图2提供的目标检测方法中步骤S202一具体实施例的流程示意图；

图6是图2提供的目标检测方法中步骤S203一具体实施例的流程示意图；

图7是本发明提供的目标检测装置的示意框图；

图8是本发明提供的终端一实施方式的示意框图；

图9是本发明提供的计算机可读存储介质一实施方式的示意框图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明所提供的一种目标检测方法做进一步详细描述。

请参阅图1，图1是本发明提供的目标检测方法的流程示意图。本实施例中提供一种目标检测方法，该目标检测方法包括如下步骤。

S11：获取到预设区域的待检测视频帧。

具体地，安装图像采集设备，可以通过图像采集设备实时获取预设区域内的视频帧作为待检测视频帧。也可以通过图像采集设备获取监控视频，将监控视频帧中的任一帧作为待检测视频帧。其中，待检测视频帧中包括前景图像和背景图像，前景图像具体为目标对象。例如，目标对象可以为行人、动物等。

S12：对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标。

具体地，采用目标检测网络模型对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标。

S13：对候选目标进行特征提取，得到候选目标的特征信息。

具体地，判断候选目标的置信度是否超过预设置信度；如果候选目标的置信度超过预设置信度，则对候选目标进行特征检测得到候选目标的特征信息。

在一实施例中，基于特征提取网络模型对候选目标进行特征检测，得到候选目标的特征信息。

S14：基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象。

具体地，响应于候选目标的特征信息与第一样本集中包含的目标对象的特征信息之间的第一相似度大于预设值，确定候选目标为目标对象。对目标对象的置信度进行加权重置。

在一实施例中，第一样本集包括至少两个类别的子图像集；各子图像集包括多个包含目标对象的同一部位的图像；基于候选目标的特征向量与各子图像集中包含的图像对应的特征信息之间分别对应的相似度，计算第一样本集包含的各子图像集分别对应的第二相似度的加权和并求取平均值，将得到的平均值作为第一样本集与目标对象之间的第一相似度。

在一实施例中，构建第二样本集，第二样本集包括多个未包含目标对象的背景图像。计算得到候选目标的特征信息与第二样本集之间对应的第三相似度；响应于第一相似度大于第三相似度，则确定候选目标为目标对象。对目标对象的置信度进行加权重置。

在一实施例中，响应于第一相似度小于第三相似度，则删除候选目标，并将候选目标作为非目标对象归属于第二样本集。

本实施例提供一种目标检测方法包括：获取到预设区域的待检测视频帧；对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标；对候选目标进行特征提取，得到候选目标的特征信息；基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象。本申请对待检测视频帧进行目标检测，得到候选目标，通过将候选目标的特征信息与包含目标对象的第一样本集进行比对，确定候选目标是否为目标对象，避免出现目标对象误检的现象，进而提高了检测准确率以及检测方法的泛化性能。

请参阅图2和图3，图2是本发明提供的目标检测方法一实施例的流程示意图；图3是本发明提供的目标检测方法一具体实施例的流程示意图。

本实施例中提供一种目标检测方法，该目标检测方法包括如下步骤。

S201：训练目标检测网络模型。

具体地，目标检测网络模型的训练方法具体包括如下步骤。

请参阅图4，图4是图2提供的目标检测方法中步骤S201一具体实施例的流程示意图。

S2011：获取第一训练数据集。

具体地，第一训练数据集包括多张包含至少一个目标和多张未包含目标的第一样本图像；第一样本图像标注有对应的真实目标框和真实类别，未包含目标的第一样本图像的真实目标框为空值。

各第一样本图像中最多包含一个或多个目标。具体第一训练数据集包括行人的头肩图像、行人的上半身头像或行人的全身图像。为了提高目标检测网络模型的检测准确率，第一训练数据集还包括多张未包含目标的图像。包含非目标的图像也属于未包含目标的图像。其中，包含非目标的图像可以为包含柱状物、厨房杂物和衣物等干扰目标的图像。

第一样本图像中包含目标时，则第一样本图像中标注有各目标对应的真实目标框和目标的真实类别。真实类别具体可以为头肩、半身、全身。基于目标的真实目标框可以确定目标的真实位置。

第一样本图像中不包含目标时，则第一样本图像标注的真实类别为非目标；第一样本图像不标注真实目标框，或将第一样本图像的真实目标框置为0。

S2012：将各第一样本图像输入目标检测网络模型，得到各第一样本图像分别对应的预测目标框和预测类别。

具体地，将第一样本图像输入到目标检测网络模型，目标检测网络模型对各第一样本图像分别进行目标检测，得到各第一样本图像中包含的各目标的预测目标框和预测类别。其中，目标检测网络模型为多分类的检测网络，即目标检测网络模型对第一样本图像中的预设目标的多个类别进行检测。也就是说，当第一样本图像中包含行人时，则对第一样本图像中的行人头肩、行人上半身、行人全身进行检测。

其中，目标检测网络模型可以为Faster RCNN、YOLOV3、CenterNet等检测模型，也可以为其它目标检测网络，具体不做限制。

S2013：基于同一第一样本图像对应的真实类别与预测类别之间的误差值、对应的真实目标框和预测目标框之间的误差值对目标检测网络模型进行迭代训练。

具体地，基于交叉熵损失Cross-entropy Loss计算同一第一样本图像中同一目标对应的真实目标框和预测目标框之间的误差值以及对应的真实类别与预测类别之间的误差值。

通过同一第一样本图像中同一目标对应的真实目标框和预测目标框之间的误差值以及对应的真实类别与预测类别之间的误差值对目标检测网络模型进行迭代训。

在一可选实施例中，目标检测网络模型的结果反向传播，根据同一第一样本图像中同一目标对应的真实目标框和预测目标框之间的误差值以及对应的真实类别与预测类别之间的误差值对目标检测网络模型的权重进行修正，实现对目标检测网络模型的训练。

将第一样本图像输入到目标检测网络模型中，目标检测网络模型对第一样本图像中的目标进行检测。当同一目标对应的预测目标框和真实目标框之间的误差值以及对应的预测类别和真实类别之间的误差值均小于预设阈值，预设阈值可以自行设置，例如1％、5％等，则停止对目标检测网络模型的训练。

通过对目标检测网络模型的训练，可以增加网络的检测准确率。

S202：训练特征提取网络模型。

具体地，特征提取网络模型的训练方法具体包括如下步骤。

请参阅图5，图5是图2提供的目标检测方法中步骤S202一具体实施例的流程示意图。

S2021：获取第二训练数据集。

具体地，第二训练数据集包括多张包含一目标和多张未包含目标的第二样本图像；第二样本图像标注有真实特征向量。

在另一具体实施例中，第二样本图像为第一样本图像中各目标的局部图像。也就是说，第二样本图像为包含一目标的图像，第二样本图像为第一样本图像的子图像。其中，将同一类别的图像归属于同一子数据集。为了提高特征提取网络模型的特征提取的准确率，第二训练集中还包括未包含目标的第二样本图像。

S2022：将各第二样本图像输入特征提取网络模型，得到各第二样本图像分别对应的预测特征向量。

具体地，将各第二样本图像输入到特征提取网络模型中，特征提取网络模型对第二样本图像进行特征提取得到第二样本图像对应的预测特征向量。其中，特征提取网络可以为VGG、ResNet、MobileNet等。

S2023：基于同一第二样本图像对应的真实特征向量与预测特征向量之间的误差值对特征提取网络模型进行迭代训练。

具体地，基于交叉熵损失Cross-entropy Loss计算同一第二样本图像中对应的真实特征向量和预测特征向量之间的误差值。

通过同一第二样本图像对应的真实特征向量和预测特征向量之间的误差值对特征提取网络模型进行迭代训练。

在另一实施例中，同类别的特征向量之间的相似度较大，不同类别的特征向量之间的相似度较小，基于特征向量之间的相似度也可以优化特征提取网络模型。将计算同一子数据集中包含的各图像对应的预测特征向量之间的相似度，基于相似度可以进一步验证预测特征向量对应的图像是否处于同一类别的子数据集。

在一具体实施例中，基于如下公式1计算同一子数据集中包含的各图像对应的预测特征向量A与预测特征向量B之间的余弦距离。

公式1中：cos(ɑ)表示余弦距离；A、B分别表示不同图像分别对应的特征信息。

响应于预测特征向量A与预测特征向量B之间的余弦距离小于预设距离，则确定预测特征向量A对应的第二样本图像与预测特征向量B对应的第二样本图像属于同一类别的子数据集。响应于预测特征向量A与预测特征向量B之间的余弦距离大于预设距离，则确定预测特征向量A对应的第二样本图像与预测特征向量B对应的第二样本图像属于不同类别的子数据集。基于第二样本图像对应的类别之间的差异也可以对特征提取网络模型进行迭代训练。

在一可选实施例中，特征提取网络模型的结果反向传播，根据同一第二样本图像对应的真实特征向量和预测特征向量之间的误差值对特征提取网络模型的权重进行修正，实现对特征提取网络模型的训练。

将第二样本图像输入到特征提取网络模型中，特征提取网络模型对第二样本图像进行特征提取。当第二样本图像对应的真实特征向量和预测特征向量之间的误差值小于预设阈值，预设阈值可以自行设置，例如1％、5％等，则停止对特征提取网络模型的训练。

S203：构建第二样本集。

具体地，第二样本集包括多个未包含目标对象的背景图像。第二样本集中包含根据经验获取的误检频率较高，不同场景中普遍存在的包含非目标图像的通用化特征，将其图像注册为第二样本集。如果不注册第二样本集，则将不包含目标的图像的特征数量置为0。

在一实施例中，将未包含目标的第二样本图像归属于第二样本集。也将包含非目标的第二样本图像归属于第二样本集。

请参阅图6，图6是图2提供的目标检测方法中步骤S203一具体实施例的流程示意图。

S2031：获取到预设区域的背景视频帧。

具体地，安装图像采集设备，通过图像采集设备采集预设区域的背景视频帧，背景视频帧为预设区域内不包含预设目标的图像。也就是说，背景视频帧为不包含前景图像的背景图像。

S2032：对背景视频帧进行数据增强处理，得到多个增强图像。

具体地，为了丰富第二样本集，避免将背景视频帧中的目标误认为目标对象，则可以对背景视频帧进行数据增强处理。例如，将获取的背景视频帧分别旋转90°、180°和270°，以得到背景视频帧对应的多个增强图像，也可以将背景视频帧图像进行拉伸、压缩处理，得到对应的增强图像。

S2033：采用目标检测网络模型对增强图像进行目标检测，得到背景视频帧对应的初始目标。

具体地，采用上述步骤S201训练得到的目标检测网络模型对背景视频帧和增强图像分别进行目标检测，得到背景视频帧中包含的初始目标。其中，初始目标为非目标对象。

S2034：提取包含各初始目标的区域图像，并将区域图像归属于第二样本集。

具体地，为了避免在识别目标对象时，将背景视频帧中的初始目标识别为目标对象，则将背景视频帧中识别得到的初始目标的区域图像归属于第二样本集，进而提高目标对象的检测准确率。

S204：获取到预设区域的待检测视频帧。

具体地，通过图像采集设备继续采集图像作为待检测视频帧。其中，待检测视频帧的采集时刻迟于背景视频帧的采集时刻。待检测视频帧中包含有至少一个目标对象。目标对象可以为行人。

S205：采用目标检测网络模型对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标。

具体地，通过上述步骤S201训练得到的目标检测网络模型对待检测视频帧进行目标检测，得到待检测视频帧中包含的各候选目标的信息。其中，各候选目标的信息包括目标检测框以及目标置信度。

在一实施例中，为了减小工作量，则将检测得到的各候选目标的目标置信度与预设置信度进行对比，将目标置信度大于预设置信度的候选目标保留，将目标置信度小于预设置信度的候选目标删除。其中预设置信度可以设置为0.35，若耗时允许，将预设置信度可以设置为更小值。

S206：采用特征提取网络模型对候选目标进行特征提取，得到候选目标的特征信息。

具体地，提取包含各候选目标的区域图像，并采用上述步骤S202训练得到的特征提取网络对保留的候选目标的区域图像进行特征提取，得到各候选目标的特征信息。具体地，特征信息为候选目标的特征图。

S207：计算得到候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度。

具体地，将包含目标对象的图像聚类得到第一样本集。其中，第一样本集中包含多个类别的子图像集。子图像集包括目标对象的同一类别的多个图像。例如，第一样本集中包括头肩类别、半身类别和全身类别分别对应的三个子图像集。

计算各候选目标的特征信息与第一样本集中各子图像集之间分别对应的第二相似度。

在一具体实施例中，计算得到候选目标的特征信息与子图像集中包含的各图像的特征信息之间分别对应的相似度，将各图像分别对应的相似度进行加和，得到候选目标与子图像集之间对应的第二相似度。

具体地，使用度量学习方法基于公式1计算得到候选目标的特征信息与子图像集中包含的各图像对应的特征向量之间分别对应的余弦距离，进而确实候选目标的特征信息与图像的特征向量之间的相似度。

遍历所有的子图像集，计算得到候选目标与各子图像集之间分别对应的第二相似度。

在一实施例中，基于多属性决策，将第一样本集中包含的各子图像集对应的第二相似度进行加权平均得到候选目标与第一样本集之间对应的第一相似度。

S208：计算得到候选目标的特征信息与未包含目标对象的第二样本集之间的第三相似度。

具体地，计算候选目标的特征信息与第二样本集中包含的各图像分别对应的特征信息之间的相似度，将各图像分别对应的相似度进行加和求平均值得到候选目标与第二样本集之间对应的第三相似度。

在一具体实施例中，使用度量学习方法基于公式1计算得到候选目标的特征信息与第二样本集中包含的各图像对应的特征向量之间分别对应的余弦距离，进而确实候选目标与图像的特征向量之间的相似度。

S209：判断第一相似度是否大于第三相似度。

具体地，为了确定候选目标是否为目标对象，则将候选目标和第一样本集之间对应的第一相似度与候选目标和第二样本集之间对应的第三相似度进行比对。

在一具体实施例中，可以基于公式2所示的投票公式进行判断。

公式2中：M表示输出的投票结果；P表示第一样本集；N表示第二样本集；k表示各类别的权重值，k＝1/(x+y)；x表示第一样本集中包含的子图像集的个数；y表示第二样本集中包含的子图像集的个数。

在另一具体实施例中，当第二样本集中包含的图像的特征信息为0个时，则将第一样本集与候选目标之间的第一相似度与预设值进行比对。具体如公式3所示，预设值可以为0.2。

公式3中：K表示输出的投票结果；P表示第一样本集；k表示各类别的权重值；x表示第一样本集中包含的子图像集的个数。

如果第一相似度大于第三相似度或预设值，则直接跳转至步骤S210；如果第一相似度小于第三相似度或预设值，则直接跳转至步骤S212。

S210：确定候选目标为目标对象。

具体地，如果第一相似度大于第三相似度或预设值，则确定待检测视频帧中的候选目标为目标对象。

S211：对目标对象的置信度进行加权重置。

具体地，为了避免待检测视频帧中的目标对象出现漏检，则将待检测视频帧中的目标对象的置信度进行加权重置。例如，将目标对象的置信度重置为1.5。

S212：删除候选目标。

具体地，如果第一相似度小于第三相似度或预设值，确定待检测视频帧中的候选目标不是目标对象，则将该候选目标删除。

S213：并将候选目标作为非目标对象归属于第二样本集。

具体地，为了丰富第二样本集，则将候选目标可以归属于第二样本集。进而实现自适应的扩增第二样本集，增强目标检测网络模型对误检目标对象的滤除。

参阅图7，图7是本发明提供的目标检测装置的示意框图。本实施例提供一种目标检测装置60，目标检测装置60包括获取模块61、检测模块62、特征提取模块63和分析模块64。

获取模块61用于获取到预设区域的待检测视频帧。

检测模块62用于对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标。

具体地，检测模块62用于判断候选目标的置信度是否超过预设置信度。

特征提取模块63用于对候选目标进行特征提取，得到候选目标的特征信息。

具体地，如果候选目标的置信度超过预设置信度，则特征提取模块63用于对候选目标进行特征检测得到候选目标的特征信息。

分析模块64用于基于候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定候选目标是否为目标对象。

在一实施例中，分析模块64用于响应于候选目标的特征信息与第一样本集中包含的目标对象的特征信息之间的第一相似度大于预设值，确定候选目标为目标对象。

在一实施例中，第一样本集包括至少两个类别的子图像集；各子图像集包括多个包含目标对象的同一部位的图像。分析模块64用于基于候选目标的特征向量与各子图像集中包含的图像对应的特征信息之间分别对应的相似度，计算得到各子图像集与候选目标之间分别对应的第二相似度；根据各子图像集分别对应的第二相似度的加权和，确定第一样本集与目标对象之间的第一相似度。

在一实施例中，获取模块61用于构建第二样本集，第二样本集包括多个未包含目标对象的背景图像。

获取模块61还用于获取到预设区域的背景视频帧，背景视频帧的采集时刻早于待检测视频帧的采集时刻；获取模块61还用于对背景视频帧进行数据增强处理，得到多个增强图像。

检测模块62用于对背景视频帧进行目标检测，得到背景视频帧对应的初始目标。检测模块62用于对多个增强图像分别进行目标检测，得到增强图像对应的初始目标。

特征提取模块63用于提取包含各初始目标的区域图像，并将区域图像归属于第二样本集。

在一实施例中，分析模块64用于计算得到候选目标的特征信息与第二样本集之间对应的第三相似度；响应于第一相似度大于第三相似度，则确定候选目标为目标对象。分析模块64还用于对目标对象的置信度进行加权重置。

在一实施例中，分析模块64用于响应于第一相似度小于第三相似度，则删除候选目标，并将候选目标作为非目标对象归属于第二样本集。

检测模块62用于采用目标检测网络模型对待检测视频帧进行目标检测，得到待检测视频帧中包含的候选目标。

特征提取模块63用于基于特征提取网络模型对候选目标进行特征检测，得到候选目标的特征信息。

本实施例提供的一种目标检测装置对待检测视频帧进行目标检测，得到候选目标，通过将候选目标的特征信息与包含目标对象的第一样本集进行比对，确定候选目标是否为目标对象，避免出现目标对象误检的现象，进而提高了检测准确率以及检测方法的泛化性能。

请参阅图8，图8是本发明提供的终端一实施方式的示意框图。终端80包括相互耦接的存储器81和处理器82，处理器82用于执行存储器81中存储的程序指令，以实现上述任一目标检测方法实施例的步骤。在一个具体的实施场景中，终端80可以包括但不限于：微型计算机、服务器，此外，终端80还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器82用于控制其自身以及存储器81以实现上述任一目标检测方法实施例的步骤。处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。

请参阅图9，图9是本发明提供的计算机可读存储介质一实施方式的示意框图。计算机可读存储介质90存储有能够被处理器运行的程序指令901，程序指令901用于实现上述任一目标检测方法实施例的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

以上仅为本发明的实施方式，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目标检测方法，其特征在于，所述目标检测方法包括：

获取到预设区域的待检测视频帧；

对所述待检测视频帧进行目标检测，得到所述待检测视频帧中包含的候选目标；

对所述候选目标进行特征提取，得到所述候选目标的特征信息；

基于所述候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定所述候选目标是否为所述目标对象。

2.根据权利要求1所述的目标检测方法，其特征在于，

所述基于所述候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定所述候选目标是否为所述目标对象，包括：

响应于所述候选目标的特征信息与所述第一样本集中包含的所述目标对象的特征信息之间的所述第一相似度大于预设值，确定所述候选目标为所述目标对象。

3.根据权利要求2所述的目标检测方法，其特征在于，所述第一样本集包括至少两个类别的子图像集；各所述子图像集包括多个包含所述目标对象的同一部位的图像；

所述响应于所述候选目标的特征信息与所述第一样本集中包含的所述目标对象的特征信息之间的所述第一相似度大于预设值，确定所述候选目标为所述目标对象，包括：

基于所述候选目标的特征向量与各所述子图像集中包含的所述图像对应的特征信息之间分别对应的相似度，计算得到各所述子图像集与所述候选目标之间分别对应的第二相似度；

根据各所述子图像集分别对应的所述第二相似度，确定所述第一样本集与所述目标对象之间的所述第一相似度。

4.根据权利要求1所述的目标检测方法，其特征在于，

所述获取到预设区域的待检测视频帧，之前还包括：

构建第二样本集，所述第二样本集包括多个未包含所述目标对象的背景图像。

5.根据权利要求4所述的目标检测方法，其特征在于，

所述基于所述候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定所述候选目标是否为所述目标对象，还包括：

计算得到所述候选目标的特征信息与所述第二样本集之间对应的第三相似度；

响应于所述第一相似度大于所述第三相似度，则确定所述候选目标为所述目标对象。

6.根据权利要求5所述的目标检测方法，其特征在于，

所述响应于所述第一相似度大于所述第三相似度，则确定所述候选目标为所述目标对象，之后还包括：

对所述目标对象的置信度进行加权重置。

7.根据权利要求5所述的目标检测方法，其特征在于，

响应于所述第一相似度小于所述第三相似度，则删除所述候选目标，并将所述候选目标作为非目标对象归属于所述第二样本集。

8.根据权利要求1所述的目标检测方法，其特征在于，

所述对所述候选目标进行特征提取，得到所述候选目标的特征信息，之前还包括：

判断所述候选目标的置信度是否超过预设置信度；

所述对所述候选目标进行特征提取，得到所述候选目标的特征信息，包括：

如果所述候选目标的置信度超过所述预设置信度，则对所述候选目标进行特征检测得到所述候选目标的特征信息。

9.根据权利要求1所述的目标检测方法，其特征在于，

所述获取到预设区域的待检测视频帧，之前还包括：

获取到所述预设区域的背景视频帧，所述背景视频帧的采集时刻早于所述待检测视频帧的采集时刻；

对所述背景视频帧进行目标检测，得到所述背景视频帧对应的初始目标；

提取包含各所述初始目标的区域图像，并将所述区域图像归属于第二样本集。

10.根据权利要求9所述的目标检测方法，其特征在于，

所述获取到所述预设区域的背景视频帧，之后还包括：

对所述背景视频帧进行数据增强处理，得到多个增强图像；

所述对所述背景视频帧进行目标检测，得到所述背景视频帧对应的初始目标，包括：

对多个所述增强图像分别进行目标检测，得到所述增强图像对应的所述初始目标。

11.根据权利要求1所述的目标检测方法，其特征在于，

所述对所述待检测视频帧进行目标检测，得到所述待检测视频帧中包含的候选目标，包括：

采用目标检测网络模型对所述待检测视频帧进行目标检测，得到所述待检测视频帧中包含的所述候选目标；

其中，所述目标检测网络模型的训练方法包括：

获取第一训练数据集，所述第一训练数据集包括多张包含目标和多张未包含所述目标的第一样本图像；所述第一样本图像标注有对应的真实目标框和真实类别，所述未包含目标的第一样本图像的真实目标框为空值；

将各所述第一样本图像输入所述目标检测网络模型，得到各所述第一样本图像分别对应的预测目标框和预测类别；

基于同一所述第一样本图像对应的所述真实类别与所述预测类别之间的误差值、对应的所述真实目标框和所述预测目标框之间的误差值对所述目标检测网络模型进行迭代训练。

12.根据权利要求1所述的目标检测方法，其特征在于，

基于特征提取网络模型对所述候选目标进行特征检测，得到所述候选目标的特征信息；

其中，所述特征提取网络模型的训练方法包括：

获取第二训练数据集，所述第二训练数据集包括多张包含目标和多张未包含所述目标的第二样本图像；所述第二样本图像标注有真实特征向量；

将各所述第二样本图像输入所述特征提取网络模型，得到各所述第二样本图像分别对应的预测特征向量；

基于同一所述第二样本图像对应的所述真实特征向量与所述预测特征向量之间的误差值对所述特征提取网络模型进行迭代训练。

13.一种目标检测装置，其特征在于，所述目标检测装置包括：

获取模块，用于获取到预设区域的待检测视频帧；

检测模块，用于对所述待检测视频帧进行目标检测，得到所述待检测视频帧中包含的候选目标；

特征提取模块，用于对所述候选目标进行特征提取，得到所述候选目标的特征信息；

分析模块，用于基于所述候选目标的特征信息与包含目标对象的第一样本集之间的第一相似度，确定所述候选目标是否为所述目标对象。

14.一种终端，其特征在于，所述终端包括存储器、处理器以及存储于所述存储器中并在所述处理器上运行的计算机程序，所述处理器用于执行程序数据以实现如权利要求1～12任一项所述的目标检测方法中的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～12任一项所述的目标检测方法中的步骤。