CN112347818B

CN112347818B - 一种视频目标检测模型的困难样本图像筛选方法及装置

Info

Publication number: CN112347818B
Application number: CN201910729246.5A
Authority: CN
Inventors: 江浩; 贺潇; 李亚; 马贤忠; 任少卿; 董维山
Original assignee: Momenta Suzhou Technology Co Ltd
Current assignee: Momenta Suzhou Technology Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2022-05-13
Anticipated expiration: 2039-08-08
Also published as: CN112347818A

Abstract

本发明实施例公开一种视频目标检测模型的困难样本图像筛选方法及装置。该方法包括：检测是否接收到采集设备实时采集的周围环境的当前视频帧图像；如果是，在当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔为预设间隔时，对当前视频帧图像进行全图目标检测；当检测得到检出目标的位置和类别且对上一视频帧图像进行局部目标检测得到检出目标的位置和类别时，当上一视频帧图像的检出目标中存在与当前视频帧图像的检出目标不匹配的第一目标时，确定当前视频帧图像为困难样本图像并存储，返回执行检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤。应用本发明实施例提供的方案，能够减少困难样本图像的筛选成本。

Description

一种视频目标检测模型的困难样本图像筛选方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种视频目标检测模型的困难样本图像筛选方法及装置。

背景技术

视频目标检测模型的训练依赖于大规模的样本图像，一般的样本图像无法提升视频目标检测模型的性能，因此，目前主要通过困难样本图像来提升视频目标检测模型的性能。

目前困难样本图像的筛选方法有多种，主要包括阈值筛选方法、监督学习分类器方法和异常检测方法，上述三种方法都是针对采集设备采集的每帧图像进行筛选，导致计算量较大，使得困难样本图像的筛选成本较高。

发明内容

本发明提供了一种视频目标检测模型的困难样本图像筛选方法及装置，以减少困难样本图像的筛选成本。具体的技术方案如下。

第一方面，本发明提供了一种视频目标检测模型的困难样本图像筛选方法，该方法包括：

检测是否接收到采集设备实时采集的周围环境的当前视频帧图像；

如果接收到当前视频帧图像，判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔；

如果是预设间隔，根据预先建立的全图目标检测模型对所述当前视频帧图像进行全图目标检测；

当检测得到检出目标的位置和类别且根据预先建立的局部目标检测模型对所述当前视频帧图像的上一视频帧图像进行局部目标检测得到检出目标的位置和类别时，判断所述上一视频帧图像的检出目标中，是否存在与所述当前视频帧图像的检出目标不匹配的第一目标；

如果存在，确定所述当前视频帧图像为困难样本图像并存储，返回执行所述检测是否接收到采集设备实时采集的周围环境的当前视频帧图像的步骤。

可选的，所述判断所述上一视频帧图像的检出目标中，是否存在与所述当前视频帧图像的检出目标不匹配的第一目标的步骤，包括：

对于所述上一视频帧图像的每个检出目标，确定该检出目标与所述当前视频帧图像的每个检出目标之间的重叠区域以及相交区域，并计算所述重叠区域的面积与所述相交区域的面积的商得到该检出目标与所述当前视频帧图像的每个检出目标之间的交并比；

判断所述上一视频帧图像的检出目标中，是否存在与所述当前视频帧图像的每个检出目标之间的交并比均小于预设阈值的目标；

如果存在，将存在的目标作为所述上一视频帧图像的检出目标中与所述当前视频帧图像的检出目标不匹配的第一目标。

可选的，在所述确定所述当前视频帧图像为困难样本图像并存储的步骤之前，上述方法还包括：

判断存在的第一目标中，是否存在大小超过预设阈值且在所述当前视频帧之前的连续预设帧数视频帧中出现的第二目标；

如果存在，确定所述当前视频帧图像为困难样本图像并存储。

判断存在的第二目标中，是否存在四个边界分别与上一帧视频图像对应的四个边界之间的距离均不小于预设距离的第三目标；

可选的，所述全图目标检测模型的训练过程为：

获取训练集中的第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别；

将所述第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别输入到第一初始网络模型中，其中，所述第一初始网络模型包括第一特征提取层、区域生成网络层和第一回归层；

通过所述第一特征提取层的第一模型参数，确定所述第一样本图像中的全图特征向量；

通过所述区域生成网络层的第二模型参数对所述全图特征向量进行特征计算，得到包含第一参考目标的候选区域的特征信息；

通过所述第一回归层的第三模型参数，对所述特征信息进行回归，得到所述第一参考目标所属的第一参考类别和所述第一参考目标在所述第一样本图像中的第一参考位置；

计算所述第一参考类别与所述第一类别之间的第一差异值，计算所述第一参考位置与所述第一位置之间的第二差异值；

基于所述第一差异值和所述第二差异值调整所述第一模型参数、所述第二模型参数和所述第三模型参数，返回执行所述获取训练集中的第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别的步骤；

当迭代次数达到第一预设次数时，完成训练，得到使得第一样本图像与检测框内的目标的位置和类别相关联的全图目标检测模型。

可选的，所述局部目标检测模型的训练过程为：

获取训练集中的第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别；

将所述第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别输入到第二初始网络模型中，其中，所述第二初始网络模型包括第二特征提取层和第二回归层；

通过所述第二特征提取层的第四模型参数，确定所述第二样本图像中的特征向量；

通过所述第二回归层的第五模型参数，对所述特征向量进行回归，得到第二参考目标所属的第二参考类别和所述第二参考目标在所述第二样本图像中的第二参考位置；

计算所述第二参考类别与所述第二类别之间的第三差异值，计算所述第二参考位置与所述第二位置之间的第四差异值；

基于所述第三差异值和所述第四差异值调整所述第四模型参数和所述第五模型参数，返回执行所述获取训练集中的第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别的步骤；

当迭代次数达到第二预设次数时，完成训练，得到使得第二样本图像与检测框内的目标的位置和类别相关联的局部目标检测模型。

第二方面，本发明提供了一种视频目标检测模型的困难样本图像筛选装置，包括：

检测模块，用于检测是否接收到采集设备实时采集的周围环境的当前视频帧图像，如果是，触发第一判断模块；

所述第一判断模块，用于判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，如果是，触发全图目标检测模块；

所述全图目标检测模块，用于根据预先建立的全图目标检测模型对所述当前视频帧图像进行全图目标检测；

第二判断模块，用于当检测得到检出目标的位置和类别且根据预先建立的局部目标检测模型对所述当前视频帧图像的上一视频帧图像进行局部目标检测得到检出目标的位置和类别时，判断所述上一视频帧图像的检出目标中，是否存在与所述当前视频帧图像的检出目标不匹配的第一目标，如果是，触发第一确定模块；

所述第一确定模块，用于确定所述当前视频帧图像为困难样本图像并存储，触发所述检测模块。

可选的，所述第二判断模块，具体用于：

可选的，上述装置还包括：

第三判断模块，用于在所述确定所述当前视频帧图像为困难样本图像并存储之前，判断存在的第一目标中，是否存在大小超过预设阈值且在所述当前视频帧之前的连续预设帧数视频帧中出现的第二目标，如果是，触发第二确定模块；

所述第二确定模块，用于确定所述当前视频帧图像为困难样本图像并存储。

可选的，上述装置还包括：

第四判断模块，用于在所述确定所述当前视频帧图像为困难样本图像并存储之前，判断存在的第二目标中，是否存在四个边界分别与上一帧视频图像对应的四个边界之间的距离均不小于预设距离的第三目标，如果是，触发第三确定模块；

所述第三确定模块，用于确定所述当前视频帧图像为困难样本图像并存储。

可选的，上述装置还包括第一训练模块，所述第一训练模块用于训练得到所述全图目标检测模型，所述第一训练模块包括：

第一获取子模块，用于获取训练集中的第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别；

第一输入子模块，用于将所述第一样本图像以及所述第一样本图像包含的检测框内的目标对应的第一位置和第一类别输入到第一初始网络模型中，其中，所述第一初始网络模型包括第一特征提取层、区域生成网络层和第一回归层；

全图特征向量确定子模块，用于通过所述第一特征提取层的第一模型参数，确定所述第一样本图像中的全图特征向量；

特征信息确定子模块，用于通过所述区域生成网络层的第二模型参数对所述全图特征向量进行特征计算，得到包含第一参考目标的候选区域的特征信息；

第一生成子模块，用于通过所述第一回归层的第三模型参数，对所述特征信息进行回归，得到所述第一参考目标所属的第一参考类别和所述第一参考目标在所述第一样本图像中的第一参考位置；

第一差异计算子模块，用于计算所述第一参考类别与所述第一类别之间的第一差异值，计算所述第一参考位置与所述第一位置之间的第二差异值；

第一调整子模块，用于基于所述第一差异值和所述第二差异值调整所述第一模型参数、所述第二模型参数和所述第三模型参数，触发所述第一获取子模块；

第一训练完成子模块，用于当迭代次数达到第一预设次数时，完成训练，得到使得第一样本图像与检测框内的目标的位置和类别相关联的全图目标检测模型。

可选的，上述装置还包括第二训练模块，所述第二训练模块用于训练得到所述局部目标检测模型，所述第二训练模块包括：

第二获取子模块，用于获取训练集中的第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别；

第二输入子模块，用于将所述第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别输入到第二初始网络模型中，其中，所述第二初始网络模型包括第二特征提取层和第二回归层；

特征向量确定子模块，用于通过所述第二特征提取层的第四模型参数，确定所述第二样本图像中的特征向量；

第二生成子模块，用于通过所述第二回归层的第五模型参数，对所述特征向量进行回归，得到第二参考目标所属的第二参考类别和所述第二参考目标在所述第二样本图像中的第二参考位置；

第二差异计算子模块，用于计算所述第二参考类别与所述第二类别之间的第三差异值，计算所述第二参考位置与所述第二位置之间的第四差异值；

第二调整子模块，用于基于所述第三差异值和所述第四差异值调整所述第四模型参数和所述第五模型参数，返回执行所述获取训练集中的第二样本图像以及所述第二样本图像包含的检测框内的目标对应的第二位置和第二类别的步骤；

第二训练完成子模块，用于当迭代次数达到第二预设次数时，完成训练，得到使得第二样本图像与检测框内的目标的位置和类别相关联的局部目标检测模型。

由上述内容可知，本发明实施例提供的视频目标检测模型的困难样本图像筛选方法，可以对接收到的采集设备实时采集的当前视频帧图像进行全图目标检测的情况下，将上一视频帧图像进行局部目标检测的检测结果与当前视频帧图像的检测结果进行目标匹配，得到上一视频帧图像的检出目标中存在的与当前视频帧图像的检出目标不匹配的第一目标，由此即可筛选出当前视频帧图像为困难样本图像并存储，由于本发明实施例中针对的是进行全图目标检测的视频帧图像进行筛选，而不是针对每帧视频帧图像进行筛选，因此，减少了计算量，且在筛选出困难样本图像后，仅需要存储筛选出的困难样本图像即可，无需将采集设备采集到的全部视频帧图像传输并存储到电子设备中，因此减少了存储成本，进一步减少了困难样本图像的筛选成本。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的创新点包括：

1、本实施例可以对接收到的采集设备实时采集的当前视频帧图像进行全图目标检测的情况下，将上一视频帧图像进行局部目标检测的检测结果与当前视频帧图像的检测结果进行目标匹配，得到上一视频帧图像的检出目标中存在的与当前视频帧图像的检出目标不匹配的第一目标，由此即可筛选出当前视频帧图像为困难样本图像并存储，由于本发明实施例中针对的是进行全图目标检测的视频帧图像进行筛选，而不是针对每帧视频帧图像进行筛选，因此，减少了计算量，且在筛选出困难样本图像后，仅需要存储筛选出的困难样本图像即可，无需将采集设备采集到的全部视频帧图像传输并存储到电子设备中，因此减少了存储成本，进一步减少了困难样本图像的筛选成本。

2、由于本发明实施例提供的困难样本图像的筛选方法的计算量较小，因此可以应用在计算能力较弱的端上设备上，利用端上设备仅有的计算资源就可以实现对困难样本图像的筛选，无需把视频帧图像存到计算能力较强的大型计算机上再进行筛选，提高了方便性。

3、通过计算交并比的方式，考虑到了前后视频帧之间的关系，判断出上一视频帧图像的检出目标中，是否存在与当前视频帧图像的每个检出目标之间的交并比均小于预设阈值的目标。

4、通过判断存在的第一目标中，是否存在大小超过预设阈值且在当前视频帧之前的连续预设帧数视频帧中出现的第二目标的方式，来筛选出更优的困难样本图像。

5、通过对第一初始网络模型进行训练，可以得到使得第一样本图像和检测框内的目标的位置和类别相关联的全图目标检测模型，通过该全图目标检测模型可以对视频帧图像进行全图目标检测以便得到视频帧图像中的目标的位置和类别。

6、通过对第二初始网络模型进行训练，可以得到使得第二样本图像和检测框内的目标的位置和类别相关联的局部目标检测模型，通过该局部目标检测模型可以得到视频帧图像中的目标的精准的位置和类别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频目标检测模型的困难样本图像筛选方法的流程示意图；

图2为本发明实施例提供的一种视频目标检测模型的困难样本图像筛选装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明实施例公开了一种视频目标检测模型的困难样本图像筛选方法和装置，能够减少存储成本且计算量较小，减少困难样本图像的筛选成本。下面对本发明实施例进行详细说明。

图1为本发明实施例提供的视频目标检测模型的困难样本图像筛选方法的一种流程示意图。该方法具体包括以下步骤。

S110：检测是否接收到采集设备实时采集的周围环境的当前视频帧图像，如果是，执行步骤S120，如果否，不做任何处理。

在计算机视觉领域中，视频目标检测模型的训练依赖于大规模的样本图像，由于困难样本图像对于提升视频目标检测模型的性能来说是很有价值的数据，因此，应该尽可能的获取困难样本图像，以便于对视频目标检测模型进行训练。

为了获得困难样本图像，采集设备实时采集视频，然后将采集得到的视频发送至电子设备，例如：在自动驾驶场景中，自车的采集设备实时采集视频后，将采集得到的视频发送至自车的电子设备，该电子设备可以为车辆的处理器。电子设备检测是否接收到采集设备实时采集的周围环境的当前视频帧图像，并根据检测结果执行后续步骤。

S120：判断当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，如果是，执行步骤S130，如果否，不做任何处理。

由于如果针对每一视频帧图像都进行全图目标检测，将使得计算量巨大，因此，为了减少计算量，本发明实施例中不再针对每一视频帧图像都进行全图目标检测，而是采用每隔预设帧数间隔进行全图目标检测，剩余的视频帧进行局部目标检测的方式，因此，当电子设备检测接收到自车采集设备实时采集的车辆周围环境的当前视频帧图像时，需要判断当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，并根据检测结果执行后续步骤。

S130：根据预先建立的全图目标检测模型对当前视频帧图像进行全图目标检测。

当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔为预设间隔时，说明当前视频帧图像为需要进行全图目标检测的视频帧图像，此时，根据预先建立的全图目标检测模型对当前视频帧图像进行全图目标检测。

其中，全图目标检测模型的训练过程可以为：

获取训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别；

将第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别输入到第一初始网络模型中，其中，第一初始网络模型包括第一特征提取层、区域生成网络层和第一回归层；

通过第一特征提取层的第一模型参数，确定第一样本图像中的全图特征向量；

通过区域生成网络层的第二模型参数对全图特征向量进行特征计算，得到包含第一参考目标的候选区域的特征信息；

通过第一回归层的第三模型参数，对特征信息进行回归，得到第一参考目标所属的第一参考类别和第一参考目标在第一样本图像中的第一参考位置；

计算第一参考类别与第一类别之间的第一差异值，计算第一参考位置与第一位置之间的第二差异值；

基于第一差异值和第二差异值调整第一模型参数、第二模型参数和第三模型参数，返回执行获取训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别的步骤；

在建立全图目标检测模型时，需要获取训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别。

可以理解的是，电子设备首先需要构建一个第一初始网络模型，然后对其进行训练，进而得到全图目标检测模型。在一种实现方式中，可以利用caffe工具构建一个包括第一特征提取层、区域生成网络层和第一回归层的第一初始网络模型。示例性的，第一初始网络模型可以为Faster R-CNN(Faster Region Convolutional Neural Networks，快速区域卷积神经网络)，R-FCN(Region-based Fully Convolutional Networks，基于区域的全卷积网络)、YOLO算法或SSD算法。

在获取了训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别后，将第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别输入到第一初始网络模型中进行训练。

具体来说，将第一样本图像输入到第一特征提取层，通过第一特征提取层的第一模型参数，确定第一样本图像中的全图特征向量。然后将所确定的全图特征向量输入到区域生成网络层，通过区域生成网络层的第二模型参数对全图特征向量进行特征计算，得到包含第一参考目标的候选区域的特征信息。然后将特征信息输入到第一回归层，通过第一回归层的第三模型参数，对特征信息进行回归，得到第一参考目标所属的第一参考类别和第一参考目标在第一样本图像中的第一参考位置。

在得到第一参考类别和第一参考位置后，分别与第一类别和第一位置进行对比，可以分别通过预先定义的目标函数计算第一参考类别与第一类别之间的第一差异值，计算第一参考位置与第一位置之间的第二差异值。当迭代次数未达到第一预设次数时，说明此时的第一初始网络模型还未能适应大部分的第一样本图像，此时，需要基于第一差异值和第二差异值通过反向传播法调整第一模型参数、第二模型参数和第三模型参数，返回执行获取训练集中的第一样本图像以及第一样本图像包含的检测框内的目标对应的第一位置和第一类别的步骤。

在训练过程中，可以循环遍历所有的第一样本图像，并不断调整第一初始网络模型的第一模型参数、第二模型参数和第三模型参数。当迭代次数达到第一预设次数时，说明此时的第一初始网络模型能适应大部分的第一样本图像，获得准确的结果，此时，确定第一初始网络模型训练完成，得到全图目标检测模型。可以理解的是，训练得到的全图目标检测模型使得第一样本图像与检测框内的目标的位置和类别相关联，且，全图目标检测模型是将全图作为输入，获得检出目标的位置和类别的模型。

可见，通过上述训练方式对第一初始网络模型进行训练，可以得到使得第一样本图像和检测框内的目标的位置和类别相关联的全图目标检测模型，通过该全图目标检测模型可以对视频帧图像进行全图目标检测以便得到视频帧图像中的目标的位置和类别。

S140：当检测得到检出目标的位置和类别且根据预先建立的局部目标检测模型对当前视频帧图像的上一视频帧图像进行局部目标检测得到检出目标的位置和类别时，判断上一视频帧图像的检出目标中，是否存在与当前视频帧图像的检出目标不匹配的第一目标，如果是，执行步骤S150，如果否，不做任何处理。

由于本发明实施例中采用每隔预设帧数间隔进行全图目标检测，剩余的视频帧进行局部目标检测的方式，因此，对于当前视频帧的上一视频帧，根据预先建立的局部目标检测模型对当前视频帧图像的上一视频帧图像进行局部目标检测。

其中，局部目标检测模型的训练过程可以为：

获取训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别；

将第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别输入到第二初始网络模型中，其中，第二初始网络模型包括第二特征提取层和第二回归层；

通过第二特征提取层的第四模型参数，确定第二样本图像中的特征向量；

通过第二回归层的第五模型参数，对特征向量进行回归，得到第二参考目标所属的第二参考类别和第二参考目标在第二样本图像中的第二参考位置；

计算第二参考类别与第二类别之间的第三差异值，计算第二参考位置与第二位置之间的第四差异值；

基于第三差异值和第四差异值调整第四模型参数和第五模型参数，返回执行获取训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别的步骤；

在建立局部目标检测模型时，需要获取训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别。

可以理解的是，电子设备首先需要构建一个第二初始网络模型，然后对其进行训练，进而得到局部目标检测模型。在一种实现方式中，可以利用caffe工具构建一个包括第二特征提取层和第二回归层的第二初始网络模型。示例性的，第二初始网络模型可以为Faster R-CNN(Faster Region Convolutional Neural Networks，快速区域卷积神经网络)，R-FCN(Region-based Fully Convolutional Networks，基于区域的全卷积网络)、YOLO算法或SSD算法。

在获取了训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别后，将第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别输入到第二初始网络模型中进行训练。

具体来说，将第二样本图像输入到第二特征提取层，通过第二特征提取层的第四模型参数，确定第二样本图像中的特征向量。然后将所确定的特征向量输入到第二回归层，通过第二回归层的第五模型参数，对特征向量进行回归，得到第二参考目标所属的第二参考类别和第二参考目标在第二样本图像中的第二参考位置。

在得到第二参考类别和第二参考位置后，分别与第二类别和第二位置进行对比，可以分别通过预先定义的目标函数计算第二参考类别与第二类别之间的第三差异值，计算第二参考位置与第二位置之间的第四差异值。当迭代次数未达到第二预设次数时，说明此时的第二初始网络模型还未能适应大部分的第二样本图像，此时，需要基于第三差异值和第四差异值通过反向传播法调整第四模型参数和第五模型参数，返回执行获取训练集中的第二样本图像以及第二样本图像包含的检测框内的目标对应的第二位置和第二类别的步骤。

在训练过程中，可以循环遍历所有的第二样本图像，并不断调整第二初始网络模型的第四模型参数和第五模型参数。当迭代次数达到第二预设次数时，说明此时的第二初始网络模型能适应大部分的第二样本图像，获得准确的结果，此时，确定第二初始网络模型训练完成，得到局部目标检测模型。可以理解的是，训练得到的局部目标检测模型使得第二样本图像与检测框内的目标的位置和类别相关联，且，局部目标检测模型是将局部图像作为输入，获得检出目标的位置和类别的模型。

可见，通过上述训练方式对第二初始网络模型进行训练，可以得到使得第二样本图像和检测框内的目标的位置和类别相关联的局部目标检测模型，通过该局部目标检测模型可以得到视频帧图像中的目标的精准的位置和类别。

由于目标一般会在各个视频帧中连续出现，如果某一目标在上一视频帧中被检测到，而在当前视频帧中却检测不到，则说明局部目标检测模型和全图目标检测模型中的一个模型出现了误检或漏检，本发明实施例针对这种情况筛选出困难样本图像。

为了针对上述情况筛选出困难样本图像，本发明实施例需要考虑前后视频帧之间的关系，即需要将当前视频帧的检测结果与上一视频帧的检测结果合并，当根据预先建立的全图目标检测模型对当前视频帧图像进行全图目标检测得到检出目标的位置和类别且根据预先建立的局部目标检测模型对当前视频帧图像的上一视频帧图像进行局部目标检测得到检出目标的位置和类别时，判断上一视频帧图像的检出目标中，是否存在与当前视频帧图像的检出目标不匹配的第一目标，并根据判断结果执行后续步骤。

由于在利用预先建立的全图目标检测模型对当前视频帧图像进行全图目标检测并得到检出目标的位置和类别的同时，还会得到检出目标的得分，得分大于预设分数阈值说明检出目标的准确率较高，类似的，利用预先建立的局部目标检测模型对当前视频帧图像的上一视频帧图像进行局部目标检测并得到检出目标的位置和类别的同时，还会得到检出目标的得分，得分大于预设分数阈值说明检出目标的准确率较高，因此，还可以仅判断上一视频帧图像的得分大于预设分数阈值的检出目标中，是否存在与当前视频帧图像的得分大于预设分数阈值的检出目标不匹配的第一目标，由此减少了计算量。

判断上一视频帧图像的检出目标中，是否存在与当前视频帧图像的检出目标不匹配的第一目标，可以包括：

对于上一视频帧图像的每个检出目标，确定该检出目标与当前视频帧图像的每个检出目标之间的重叠区域以及相交区域，并计算重叠区域的面积与相交区域的面积的商得到该检出目标与当前视频帧图像的每个检出目标之间的交并比；

判断上一视频帧图像的检出目标中，是否存在与当前视频帧图像的每个检出目标之间的交并比均小于预设阈值的目标；

如果存在，将存在的目标作为上一视频帧图像的检出目标中与当前视频帧图像的检出目标不匹配的第一目标。

由于检出目标在前后两个视频帧图像中的位置不会发生太大的变化，因此，可以通过目标匹配的方式来确定上一视频帧图像的检出目标中在当前视频帧图像中有没有匹配的检出目标，也就是第一目标。

在进行目标匹配时，可以将上一视频帧图像的每个检出目标按照任意顺序分别与当前视频帧图像的每个检出目标进行匹配，也可以按照上一视频帧图像的检出目标的得分从高到底的顺序，将上一视频帧图像的每个检出目标分别与当前视频帧图像的每个检出目标进行匹配，本发明实施例对此并不做任何限定。

本发明实施例中通过计算IoU的方式来进行目标匹配，其中，IoU(Intersectionover Union，交并比)指两个几何图形相交部分的面积除以二者相并的面积的商。IoU越高，说明重叠的部分越多，说明两个目标越相似。因此，对于上一视频帧图像存在的每个检出目标，确定该检出目标与当前视频帧图像的每个检出目标之间的重叠区域以及相交区域，并计算重叠区域的面积与相交区域的面积的商得到该检出目标与当前视频帧图像的每个检出目标之间的交并比。

在得到交并比后，将交并比与预设阈值进行对比，如果大于等于预设阈值，说明两个检出目标较为相似，两个检出目标是匹配的，如果小于预设阈值，说明两个检出目标不相似，两个目标是不匹配的。

因此，如果上一视频帧图像中存在某个检出目标与当前视频帧图像的每个检出目标之间的交并比均小于预设阈值，说明该某个检出目标与当前视频帧图像中的所有检出目标都不相似，也就是在上一视频帧图像中检测到了该某个检出目标，但通过全图目标检测模型未能在当前视频帧图像中检测到该某个检出目标，说明局部目标检测模型和全图目标检测模型中的一个模型出现了误检或漏检，此时，将存在的目标作为上一视频帧图像的检出目标中与当前视频帧图像的检出目标不匹配的第一目标。

由此，通过计算IoU的方式，考虑到了前后视频帧之间的关系，判断出上一视频帧图像的检出目标中，是否存在与当前视频帧图像的每个检出目标之间的交并比均小于预设阈值的目标。

S150：确定当前视频帧图像为困难样本图像并存储，返回执行步骤S110。

如果存在第一目标，说明局部目标检测模型和全图目标检测模型中的一个模型出现了误检或漏检，此时可以确定当前视频帧图像为困难样本图像，为了以后通过该困难样本图像对视频目标检测模型进行训练，需要将该困难样本图像进行存储。

由上述内容可知，本实施例可以对接收到的采集设备实时采集的当前视频帧图像进行全图目标检测的情况下，将上一视频帧图像进行局部目标检测的检测结果与当前视频帧图像的检测结果进行目标匹配，得到上一视频帧图像的检出目标中存在的与当前视频帧图像的检出目标不匹配的第一目标，由此即可筛选出当前视频帧图像为困难样本图像并存储，由于本发明实施例中针对的是进行全图目标检测的视频帧图像进行筛选，而不是针对每帧视频帧图像进行筛选，因此，减少了计算量，且在筛选出困难样本图像后，仅需要存储筛选出的困难样本图像即可，无需将采集设备采集到的全部视频帧图像传输并存储到电子设备中，因此减少了存储成本，进一步减少了困难样本图像的筛选成本。

同时，由于本发明实施例提供的困难样本图像的筛选方法的计算量较小，因此可以应用在计算能力较弱的端上设备上，利用端上设备仅有的计算资源就可以实现对困难样本图像的筛选，无需把视频帧图像存到计算能力较强的大型计算机上再进行筛选，提高了方便性。其中，端上设备为计算能力较弱的小型计算机，例如车辆中的处理器，也就是说车辆上的采集设备实时采集到视频帧图像后，即可通过车辆中的处理器直接进行困难样本图像的筛选。

在图1所示的方法基础上，在步骤S150之前，本发明实施例提供的视频目标检测模型的困难样本图像筛选方法还可以包括：

判断存在的第一目标中，是否存在大小超过预设阈值且在当前视频帧之前的连续预设帧数视频帧中出现的第二目标，如果是，执行步骤S150，如果否，不做任何处理。

由于困难样本图像中的目标的大小如果过小，则对视频目标检测模型的训练不利，因此，在筛选困难样本图像时，更倾向于筛选目标的大小超过预设阈值的图像。又由于如果某一目标在当前视频帧之前的连续预设帧数视频帧中出现，则该某一目标不可能在当前视频帧图像中消失，因此，可以通过此条件来筛选困难样本图像。

因此，为了筛选出更优的困难样本图像，在判断存在第一目标后，判断存在的第一目标中，是否存在大小超过预设阈值且在当前视频帧之前的连续预设帧数视频帧中出现的第二目标，如果存在，此时再将当前视频帧图像确定为困难样本图像。

其中，判断大小超过预设阈值的方式可以为判断第一目标的大小是否满足宽度大于预设宽度且高度大于预设宽度，或者，判断第一目标的面积是否大于预设面积，预设宽度和预设高度可以为局部目标检测模型检出的目标的宽度和高度，预设面积可以为预设宽度和预设高度的乘积。

由此，通过判断存在的第一目标中，是否存在大小超过预设阈值且在当前视频帧之前的连续预设帧数视频帧中出现的第二目标的方式，来筛选出更优的困难样本图像。

在上述判断存在第二目标的实施例的基础上，在步骤S150之前，本发明实施例提供的视频目标检测模型的困难样本图像筛选方法还可以包括：

判断存在的第二目标中，是否存在四个边界分别与上一帧视频图像对应的四个边界之间的距离均不小于预设距离的第三目标，如果是，执行步骤S150，如果否，不做任何处理。

由于上一视频帧图像中的某一目标的四个边界分别与上一帧视频图像对应的四个边界之间的距离均不小于预设距离，说明该某一目标在上一视频帧图像中较为明显，则该某一目标不可能在当前视频帧图像中消失，因此，可以通过此条件来筛选困难样本图像。

因此，为了筛选出更优的困难样本图像，在判断存在第二目标后，判断存在的第二目标中，是否存在四个边界分别与上一帧视频图像对应的四个边界之间的距离均不小于预设距离的第三目标，如果存在，此时再将当前视频帧图像确定为困难样本图像。

由此，通过判断存在第二目标后，判断存在的第二目标中，是否存在四个边界分别与上一帧视频图像对应的四个边界之间的距离均不小于预设距离的第三目标的方式，进一步筛选出更优的困难样本图像。

图2为本发明实施例提供的一种视频目标检测模型的困难样本图像筛选装置的结构示意图。该装置可以包括：

检测模块210，用于检测是否接收到采集设备实时采集的周围环境的当前视频帧图像，如果是，触发第一判断模块220；

所述第一判断模块220，用于判断所述当前视频帧图像与上一次进行全图目标检测的视频帧图像之间的帧数间隔是否为预设间隔，如果是，触发全图目标检测模块230；

所述全图目标检测模块230，用于根据预先建立的全图目标检测模型对所述当前视频帧图像进行全图目标检测；

第二判断模块240，用于当检测得到检出目标的位置和类别且根据预先建立的局部目标检测模型对所述当前视频帧图像的上一视频帧图像进行局部目标检测得到检出目标的位置和类别时，判断所述上一视频帧图像的检出目标中，是否存在与所述当前视频帧图像的检出目标不匹配的第一目标，如果是，触发第一确定模块250；

所述第一确定模块250，用于确定所述当前视频帧图像为困难样本图像并存储，触发所述检测模块210。

在本发明的另一实施例中，所述第二判断模块240，可以具体用于：

在本发明的另一实施例中，上述装置还包括：

在本发明的另一实施例中，上述装置还可以包括第一训练模块，所述第一训练模块用于训练得到所述全图目标检测模型，所述第一训练模块可以包括：

在本发明的另一实施例中，上述装置还可以包括第二训练模块，所述第二训练模块用于训练得到所述局部目标检测模型，所述第二训练模块可以包括：

上述装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种视频目标检测模型的困难样本图像筛选方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述判断所述上一视频帧图像的检出目标中，是否存在与所述当前视频帧图像的检出目标不匹配的第一目标的步骤，包括：

3.如权利要求1所述的方法，其特征在于，在所述确定所述当前视频帧图像为困难样本图像并存储的步骤之前，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，在所述确定所述当前视频帧图像为困难样本图像并存储的步骤之前，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，所述全图目标检测模型的训练过程为：

6.如权利要求1所述的方法，其特征在于，所述局部目标检测模型的训练过程为：

7.一种视频目标检测模型的困难样本图像筛选装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述第二判断模块，具体用于：

9.如权利要求7所述的装置，其特征在于，所述装置还包括：

10.如权利要求9所述的装置，其特征在于，所述装置还包括：