CN112347982A

CN112347982A - 基于视频的无监督难例数据挖掘方法、装置、介质及设备

Info

Publication number: CN112347982A
Application number: CN202011355040.XA
Authority: CN
Inventors: 陈佳鹏; 李远钱
Original assignee: Jiangsu Yuncongxihe Artificial Intelligence Co ltd
Current assignee: Jiangsu Yuncongxihe Artificial Intelligence Co ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-09

Abstract

本发明公开了一种基于视频的无监督难例数据挖掘方法，包括：利用待优化的第一检测模型对无标注的视频进行逐帧检测，生成第一检测结果；根据所述第一检测结果，选取不具有连续性的相邻两帧图片构成难例图片对；利用第二检测模型对所述难例图片对中的第一帧图片进行检测，得到第二检测结果；根据所述第二检测结果判断所述难例图片对中存在的难例类型。本发明有针对性地选择到了有用图片，避免了大量重复简单图片的产生。

Description

基于视频的无监督难例数据挖掘方法、装置、介质及设备

技术领域

本发明涉及人工智能领域，具体涉及一种基于视频的无监督难例数据挖掘方法、装置、介质及设备。

背景技术

深度学习训练时需要大量的数据，一种方法是在视频中均匀截帧，之后送给人工进行标注。然而这种方法没有针对性，会挖掘出很多无用的图片(比如某些场景神经网络效果已经非常好)。这些无用的图片送去人工标注不仅造成极大的人力资源浪费，而且使某些极具价值的图片淹没在无用的图片中，最终导致模型的性能没有提升。另一种方法可以将待优化模型在原始视频中跑检测，人为观察在哪儿些场景效果不好，之后将视频中该区域选出，这种做法选择图片时有针对性，但人工成本过高。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于视频的无监督难例数据挖掘方法、装置、介质及设备，用于解决现有技术存在的问题。

为实现上述目的及其他相关目的，本发明提供一种基于视频的无监督难例数据挖掘方法，包括：

利用待优化的第一检测模型对无标注的视频进行逐帧检测，生成第一检测结果；

根据所述第一检测结果，选取不具有连续性的相邻两帧图片构成难例图片对；

利用第二检测模型对所述难例图片对中的第一帧图片进行检测，得到第二检测结果；

根据所述第二检测结果判断所述难例图片对中存在的难例类型。

可选地，所述难例类型包括难例正例、难例负例。

可选地，所述不具有连续性的相邻两帧图片的判断方法，包括：

获取相邻两帧图片的第一交并比；

根据所述第一交并比判断相邻两帧图片是否具有连续性；

若所述第一交并比小于第一交并比阈值，则相邻两帧图片不具有连续性，反之则具有连续性。

可选地，所述难例图片对包括具有第一检测框的第一帧图片和不具有第一检测框的第二帧图片。

可选地，若第二检测结果中包含第二检测框，则所述第二帧图片中存在难例正例，保留第二帧图片；若第二检测结果中不包含第二检测框，则所述第一帧图片中存在难例负例，保留第一帧图片。

可选地，若第二检测结果中含第二检测框，则该方法还包括：

计算所述第一检测框与所述第二检测框的第二交并比；

根据所述第二交并比判断所述难例图片对中存在的难例类型。

可选地，若所述第二交并比大于或等于第二交并比阈值，则所述第二帧图片中存在难例正例，保留第二帧图片；若所述第二交并比小于第二交并比阈值，则所述第一帧图片中存在难例正例，保留第一帧图片。

可选地，利用保留的难例正例图片与难例负例图片组成的数据集对第一检测模型进行再训练，以优化所述第一检测模型。

可选地，在对第一检测模型进行再训练时，对难例正例图片中的第二检测框区域或/和难例负例图片中的第一检测框区域或/和难例负例图片中的第一检测框区域与第二检测框区域的交集区域。

为实现上述目的及其他相关目的，本发明提供一种基于视频的无监督难例数据挖掘装置，包括：

第一检测模块，用于利用待优化的第一检测模型对无标注的视频进行逐帧检测，生成第一检测结果；

难例图片对生成模块，用于根据所述第一检测结果，选取不具有连续性的相邻两帧图片构成难例图片对；其中，相邻两帧图片的第一帧图片包括第一检测框，第二帧图片不包括第一检测框；

第二检测模块，用于利用第二检测模型对所述难例图片对中的第一帧图片进行检测，得到第二检测结果；

难例判别模块，用于根据所述第二检测结果判断所述难例图片对中存在的难例类型。

可选地，所述难例类型包括难例正例、难例负例。

可选地，所述难例图片对生成模块包括：

第一交并比计算子模块，用于在第二检测结果中含第二检测框时获取相邻两帧图片的第一交并比；

连续性判断子模块，用于根据所述第一交并比判断相邻两帧图片是否具有连续性；若所述第一交并比小于第一交并比阈值，则相邻两帧图片不具有连续性，反之则具有连续性。

可选地，所述难例图片对生成模块包括还包括：

第二交并比计算模块，用于计算所述第一检测框与所述第二检测框的第二交并比；

所述难例判别模块根据所述第二交并比判断所述难例图片对中存在的难例类型。

可选地，若所述第二交并比大于或等于第二交并比阈值，则所述第二帧图片中存在难例正例，保留第二帧图片；若所述第二交并比小于第二交并比阈值，则所述第一帧图片中存在难例负例，保留第一帧图片。

为实现上述目的及其他相关目的，本发明还提供一种基于视频的无监督难例数据挖掘设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行前述的一个或多个所述的方法。

为实现上述目的及其他相关目的，本发明还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行前述的一个或多个所述的方法。

如上所述，本发明提供的一种基于视频的无监督难例数据挖掘方法、装置、介质及设备，具有以下有益效果：

本发明的一种基于视频的无监督难例数据挖掘方法，包括：利用待优化的第一检测模型对无标注的视频进行逐帧检测，生成第一检测结果；根据所述第一检测结果，选取不具有连续性的相邻两帧图片构成难例图片对；利用第二检测模型对所述难例图片对中的第一帧图片进行检测，得到第二检测结果；根据所述第二检测结果判断所述难例图片对中存在的难例类型。本发明有针对性地选择到了有用图片，避免了大量重复简单图片的产生。

附图说明

图1为本发明一实施例一种基于视频的无监督难例数据挖掘方法的流程图；

图2为本发明一实施例不具有连续性的相邻两帧图片的判断方法的流程图；

图3为本发明一实施例计算交并比(IOU)的示意图；

图4为本发明一实施例一种基于视频的无监督难例数据挖掘装置的结构示意图；

图5为本发明一实施例难例图片对生成模块的结构示意图；

图6为本发明一实施例中终端设备的硬件结构示意图；

图7为本发明一实施例中终端设备的硬件结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

视频在时间(相邻帧)以及空间上一般具有连续性，目标不可能突然消失或者突然出现。在连续的视频帧中突然出现的目标框很有可能是误检框。以人脸检测模型为例，假如模型的检测结果(人脸框)在时间以及空间上具有连续性，那么该视频对该模型而言为简单视频，没有较大的意义。相反，假如模型的检测结果在时间以及空间上不具备连续性，则说明对该模型而言此处存在有用图片(难的正例或者难的负例)，难例正例被认为是应该检测到而实际上没有检测到，难例负例被认为是不应该检测到而实际上被检测到。

因此，本发明提出了一种利用现有模型在相邻视频帧上进行检测，有针对性地挖掘视频中有用图片并进行训练。该方法解决了在视频中均匀截帧无法有针对性地挖掘视频中有用图片的问题，节约了人工标注成本并更好地提升模型的性能。

如图1所示，一种基于视频的无监督难例数据挖掘方法，包括：

S11利用待优化的第一检测模型对无标注的视频进行逐帧检测，生成第一检测结果；

S12根据所述第一检测结果，选取不具有连续性的相邻两帧图片构成难例图片对；

S13利用第二检测模型对所述难例图片对中的第一帧图片进行检测，得到第二检测结果；

S14根据所述第二检测结果判断所述难例图片对中存在的难例类型。

本发明有针对性地选择到了有用图片，避免了大量重复简单图片的产生。

在步骤S14中，所述难例类型包括难例正例、难例负例；难例正例为本身有目标但没有检测到目的，难例负例为误检的区域包括没有目标但是检测出来目标或检测出来错误的目标。

在步骤S11中，第一检测模型是在现有数据集上训练生成的待优化模型，其性能没有达到最佳，可以认为该第一检测模型是一个检测器。其中，第一检测模型包括但不限于Faster RCNN(更快速基于图像区域的卷积神经网络)、SSD(Single Shot MultiBoxDetector，一种目标检测模型)、YOLO(You LookOnce，一种目标检测模型)以及RetinaNet等。现有数据集可以采用，比如Caltech行人检测的数据集或者WIDER FACE的人脸数据集。

在一实施例中，如图2所示，所述不具有连续性的相邻两帧图片的判断方法，包括：

S21获取相邻两帧图片的第一交并比；

S22根据所述第一交并比判断相邻两帧图片是否具有连续性；若所述第一交并比小于第一交并比阈值，则相邻两帧图片不具有连续性，反之则具有连续性。

在利用第一检测模型对无标注的视频进行逐帧检测时，其中的视频可以在互联网上下载带有人脸的视频。在对视频进行检测于，对于每帧都有一个检测结果，检测结果中可能包括了检测框，也可能不包括检测框，将该检测框定义为第一检测框。

在相邻两帧图片不具有连续性的前提下，将相邻的两帧图片构成难例图片对，其中这两帧图片满足以下条件：第一帧图片包含第一检测框，第二帧图片不包含有第一检测框。

在步骤S13中，所述的第二检测模型为预先训练好的检测模型，比如训练好的用于目标检测的神经网络模型；该检测模型结构比较复杂，但具有检测准确率高的特点，可以认为第二检测模型的检测结果是正确的。利用第二检测模型对难例图片对中的第一帧图片进行检测，若对第一帧图片的检测结果包含了第二检测框，则可以认为第二检测框的区域本身存在目标；在相邻的两帧图片构成的难例图片对中，第二帧图片不存在第一检测框，也就是说，此处应该检测到目标但第一检测模型实际上没有检测到目标，因此，认为第二帧图片中该区域存在难例正例，此时保留第二帧图片。若对第一帧图片的检测结果不包含第二检测框，可以认为第二检测框的区域本身并不存在目标，在相邻的两帧图片构成的难例图片对中，第一帧图片存在第一检测框，也就是说，此处不应该检测到目标但第一检测模型实际上检测到目标，因此，第一帧图片该区域存在难例负例，此时保留第一帧图片。

在一实施例中，若第二检测结果中含第二检测框，则该方法还包括：

计算所述第一检测框与所述第二检测框的第二交并比；根据所述第二交并比判断所述难例图片对中存在的难例类型。

其中，交并比用IOU表示，如图3所示，交并比表示“第一检测框”和“第二检测框”的交集和并集的比值。即IOU＝S3/(S1+S2)。

利用第二检测模型对难例图片对中的第一帧图片进行检测，若对第一帧图片的检测结果包含了第二检测框，则可以认为第二检测框的区域本身存在目标。在相邻的两帧图片构成的难例图片对中，第一帧图片在存第一检测框。若第一检测框和第二检测框的交并比大于或等于设定阈值，例如0.2，则认为第一检测模型的检测结果比较正确，在此处可以检测到目标。但在相邻的两帧图片构成的难例图片对中，第二帧图片不存在第一检测框，也就是说，此处应该检测到目标但第一检测模型实际上没有检测到目标，因此，认为第二帧图片中该区域存在难例正例，此时保留第二帧图片。若第一检测框和第二检测框的交并比小于设定阈值，例如0.2，则可以认为虽然第一检测模型检测到了目标，但是仅包含了部分目标，可以认为检测到目标是错误的。因此，第一帧图片该区域存在难例负例，此时保留第一帧图片。

在一实施例中，利用保留的难例正例图片与难例负例图片组成的数据集对第一检测模型进行再训练，以优化所述第一检测模型。

在对第一检测模型进行再训练时，对难例正例图片中的第二检测框区域或/和难例负例图片中的第一检测框区域或/和难例负例图片中的第一检测框区域与第二检测框区域的交集区域，增强对该区域的识别能力。

如图4所示，一种基于视频的无监督难例数据挖掘装置，包括：

第一检测模块41，用于利用待优化的第一检测模型对无标注的视频进行逐帧检测，生成第一检测结果；

难例图片对生成模块42，用于根据所述第一检测结果，选取不具有连续性的相邻两帧图片构成难例图片对；

第二检测模块43，用于利用第二检测模型对所述难例图片对中的第一帧图片进行检测，得到第二检测结果；

难例判别模块44，用于根据所述第二检测结果判断所述难例图片对中存在的难例类型。

其中，所述难例类型包括难例正例、难例负例；难例正例为没有检测到的区域，难例负例为误检的区域。

第一检测模型是在现有数据集上训练生成，可以认为该第一检测模型是一个检测器。其中，第一检测模型包括但不限于Faster RCNN(更快速基于图像区域的卷积神经网络)、SSD(Single Shot MultiBox Detector，一种目标检测模型)、YOLO(You LookOnce，一种目标检测模型)以及RetinaNet等。现有数据集可以采用，比如Caltech行人检测的数据集或者WIDER FACE的人脸数据集。

在一实施例中，如图5所示，所述难例图片对生成模块包括：

第一交并比计算子模块51，用于获取相邻两帧图片的第一交并比；

连续性判断子模块52，用于根据所述第一交并比判断相邻两帧图片是否具有连续性；若所述第一交并比小于第一交并比阈值，则相邻两帧图片不具有连续性，反之则具有连续性。

所述的第二检测模型为预先训练好的检测模型，比如训练好的用于目标检测的神经网络模型；该检测模型结构比较复杂，但具有检测准确率高的特点，可以认为第二检测模型的检测结果是正确的。利用第二检测模型对难例图片对中的第一帧图片进行检测，若对第一帧图片的检测结果包含了第二检测框，则可以认为第二检测框的区域本身存在目标；在相邻的两帧图片构成的难例图片对中，第二帧图片不存在第一检测框，也就是说，此处应该检测到目标但第一检测模型实际上没有检测到目标，因此，认为第二帧图片中该区域存在难例正例，此时保留第二帧图片。若对第一帧图片的检测结果不包含第二检测框，可以认为第二检测框的区域本身并不存在目标，在相邻的两帧图片构成的难例图片对中，第一帧图片存在第一检测框，也就是说，此处不应该检测到目标但第一检测模型实际上检测到目标，因此，第一帧图片该区域存在难例负例，此时保留第一帧图片。

在一实施例中，所述难例图片对生成模块包括还包括：

第二交并比计算模块，用于在第二检测结果中含第二检测框时计算所述第一检测框与所述第二检测框的第二交并比；

本申请实施例还提供了一种设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中方法所包含步骤的指令(instructions)。

图6为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图7为本申请的一个实施例提供的终端设备的硬件结构示意图。图7是对图6在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述数据处理方法中的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图7实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图6实施例中的输入设备的实现方式。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于视频的无监督难例数据挖掘方法，其特征在于，包括：

2.根据权利要求1所述的基于视频的无监督难例数据挖掘方法，其特征在于，所述难例类型包括难例正例、难例负例。

3.根据权利要求1所述的基于视频的无监督难例数据挖掘方法，其特征在于，所述不具有连续性的相邻两帧图片的判断方法，包括：

获取相邻两帧图片的第一交并比；

根据所述第一交并比判断相邻两帧图片是否具有连续性；

4.根据权利要求3所述的基于视频的无监督难例数据挖掘方法，其特征在于，所述难例图片对包括具有第一检测框的第一帧图片和不具有第一检测框的第二帧图片。

5.根据权利要求4所述的基于视频的无监督难例数据挖掘方法，其特征在于，若第二检测结果中包含第二检测框，则所述第二帧图片中存在难例正例，保留第二帧图片；若第二检测结果中不包含第二检测框，则所述第一帧图片中存在难例负例，保留第一帧图片。

6.根据权利要求5所述的基于视频的无监督难例数据挖掘方法，其特征在于，若第二检测结果中含第二检测框，该方法还包括：

计算所述第一检测框与所述第二检测框的第二交并比；

7.根据权利要求6所述的基于视频的无监督难例数据挖掘方法，其特征在于，若所述第二交并比大于或等于第二交并比阈值，则所述第二帧图片中存在难例正例，保留第二帧图片；若所述第二交并比小于第二交并比阈值，则所述第一帧图片中存在难例负例，保留第一帧图片。

8.根据权利要求5或7所述的基于视频的无监督难例数据挖掘方法，其特征在于，利用保留的难例正例图片与难例负例图片组成的数据集对第一检测模型进行再训练，以优化所述第一检测模型。

9.根据权利要求8所述的基于视频的无监督难例数据挖掘方法，其特征在于，在对第一检测模型进行再训练时，对难例正例图片中的第二检测框区域或/和难例负例图片中的第一检测框区域或/和对难例负例图片中的第一检测框区域与第二检测框区域的交集区域进行加权处理。

10.一种基于视频的无监督难例数据挖掘装置，其特征在于，包括：

难例图片对生成模块，用于根据所述第一检测结果，选取不具有连续性的相邻两帧图片构成难例图片对；

11.根据权利要求10所述的基于视频的无监督难例数据挖掘装置，其特征在于，所述难例类型包括难例正例、难例负例。

12.根据权利要求10所述的基于视频的无监督难例数据挖掘装置，其特征在于，所述难例图片对生成模块包括：

13.根据权利要求12所述的基于视频的无监督难例数据挖掘装置，其特征在于，所述难例图片对包括具有第一检测框的第一帧图片和不具有第一检测框的第二帧图片。

14.根据权利要求13所述的基于视频的无监督难例数据挖掘装置，其特征在于，若第二检测结果中包含第二检测框，则所述第二帧图片中存在难例正例，保留第二帧图片；若第二检测结果中不包含第二检测框，则所述第一帧图片中存在难例负例，保留第一帧图片。

15.根据权利要求14所述的基于视频的无监督难例数据挖掘装置，其特征在于，所述难例图片对生成模块还包括：

16.根据权利要求15所述的基于视频的无监督难例数据挖掘装置，其特征在于，若所述第二交并比大于或等于第二交并比阈值，则所述第二帧图片中存在难例正例，保留第二帧图片；若所述第二交并比小于第二交并比阈值，则所述第一帧图片中存在难例负例，保留第一帧图片。

17.一种基于视频的无监督难例数据挖掘设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如权利要求1-9中一个或多个所述的方法。

18.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-9中一个或多个所述的方法。