CN108960046A

CN108960046A - 一种训练数据采样方法及其装置、计算机服务器

Info

Publication number: CN108960046A
Application number: CN201810498800.9A
Authority: CN
Inventors: 黄泽昊; 王乃岩
Original assignee: Beijing Tusimple Future Technology Co Ltd
Current assignee: Beijing Tusimple Technology Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2018-12-07
Also published as: US20190384982A1; US20210342594A1; US11631249B2; US11068719B2

Abstract

本发明公开一种训练数据采样方法及其装置、计算机服务器，从视频中采样得到目标检测模型处理不理想的图像作为待标注图像，以便后续根据待标注图像对目标检测模型进行重新训练时能够有效的提升目标检测模型的性能。方法包括：将视频输入到目标检测模型中，得到每一帧图像的检测结果；将所述视频的所有帧图像的检测结果输入到目标跟踪模型，得到每一帧图像的跟踪结果；针对所述视频的每一帧图像执行以下步骤：匹配一帧图像的检测结果与跟踪结果；若匹配不一致，则确定所述一帧图像为所述目标检测模型处理不理想且需要标注的样本图像。

Description

一种训练数据采样方法及其装置、计算机服务器

技术领域

本发明涉及深度学习领域，特别涉及一种训练数据采样方法、一种训练数据采样装置和一种计算机服务器。

背景技术

近几年来，深度神经网络在诸多领域中取得了巨大的成功，如计算机视觉、自然语言处理等。然而，为了将深度神经网络应用到实际应用当中，深度神经网络必须满足以下三个条件：1)符合实际应用速度需求；2)在大量的实际场景数据上进行训练；3)能够根据实际需求快速迭代更新。

当神经网络在实际投入使用时，研发人员发现神经网络对视频处理不理想时，需要从该视频中采样一些图像作为待标注图像，并对待标注图像进行标注后将标注的图像添加到训练集中，基于该训练集对神经网络进行重新训练，以提高神经网络的性能。

目前，从视频中采样一些图像作为待标注图像，主要方式如下：采用简单的时序间隔采样方法对视频进行采样，以得到待标注图像。但是该种采样方式采样得到的图像有可能是神经网络已经处理的比较好的图像，基于这些图像再对神经网络进行重新训练并不能有效的提升该神经网络的性能。因此，如何能够采样到能够有效提升神经网络的图像，则成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于上述技术问题，本发明提供一种训练数据采样方法及装置、计算机服务器，从视频中采样得到目标检测模型处理不理想的图像作为待标注图像，以便后续根据待标注图像对目标检测模型进行重新训练时能够有效的提升目标检测模型的性能。

本发明实施例，第一方面，提供一种训练数据采样方法，该方法包括：

将视频输入到目标检测模型中，得到每一帧图像的检测结果；

将所述视频的所有帧图像的检测结果输入到目标跟踪模型，得到每一帧图像的跟踪结果；

针对所述视频的每一帧图像执行以下步骤：匹配一帧图像的检测结果与跟踪结果；若匹配不一致，则确定所述一帧图像为所述目标检测模型处理不理想且需要标注的样本图像。

本发明实施例，第二方面，提供一种训练数据采样装置，包括：

目标检测单元，用于将视频输入到目标检测模型中，得到每一帧图像的检测结果；

目标跟踪单元，用于将所述视频的所有帧图像的检测结果输入到目标跟踪模型，得到每一帧图像的跟踪结果；

确定单元，用于针对所述视频的每一帧图像执行以下步骤：匹配一帧图像的检测结果与跟踪结果；若匹配不一致，则确定所述一帧图像为所述目标检测模型处理不理想且需要标注的样本图像。

本发明实施例，第三方面，提供一种计算机服务器，包括存储器，以及与所述存储器通信连接的一个或多个处理器；

所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器实现前述第一方面提供的训练数据采样方法。

本发明实施例中，针对视频的每一帧图像，将该一帧图像的检测结果和跟踪结果进行匹配，在匹配不一致时确定该一帧图像为目标检测模型处理不理想且需要标注的样本图像，从而使得确定出的样本图像均为目标检测模型处理不理想的图像；而一帧图像的跟踪结果一般是根据前一帧图像的检测结果得到，若一帧图像的检测结果与跟踪结果不相同则可能说明该目标检测模型发生漏检、误检等问题，往往是目标检测模型处理不理想的图像更能够反应目标检测模型的缺陷，因此将目标检测模型处理不理想的图像进行标注后再对目标检测模型进行重新训练，能够更好地提升目标检测模型的性能。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例中训练数据采样方法的流程图之一；

图2为本发明实施例中训练数据采样方法的流程图之二；

图3为本发明实施例中训练数据采样装置的结构示意图之一；

图4为本发明实施例中训练数据采样装置的结构示意图之二；

图5为本发明实施例中计算机服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

参见图1，为本发明实施例中训练数据采样方法的流程图，该流程包括以下步骤：

步骤101、将视频输入到目标检测模型中，得到每一帧图像的检测结果。

步骤102、将所述视频的所有帧图像的检测结果输入到目标跟踪模型，得到每一帧图像的跟踪结果。

步骤103、针对所述视频的每一帧图像执行以下步骤：匹配一帧图像的检测结果与跟踪结果；若匹配不一致，则确定所述一帧图像为所述目标检测模型处理不理想且需要标注的样本图像。

优选地，所述步骤103中匹配一帧图像的检测结果与跟踪结果，具体可通过但不仅限于以下方式实现：采用二分图匹配算法匹配一帧图像的检测结果与跟踪结果。二分图匹配算法例如可以为匈牙利匹配算法。

当然，本领域技术人员还可以针对一帧图像，采用遍历方式一一匹配每一个检测目标和跟踪目标，例如，某一帧图像的检测结果包括A1、A2这两个检测目标，该一帧图像的跟踪结果包括B1、B2这两个跟踪目标，则分别匹配A1与B1、A1与B1、A2与B1、A2与B2这四组；若检测目标与跟踪目标一一对应匹配，则确定该一帧图像不是目标检测模型处理不理想且需要标注的样本图像，否则确定该一帧图像为目标检测模型处理不理想且需要标注的样本图像。

优选地，步骤103中确定出的样本图像中可能会存在相邻多帧图像，而该相邻多帧图像基本是一样的，为避免冗余，降低标注工作量，本发明实施例中，在前述所有实施例中，前述步骤103匹配完所述视频中的所有帧图像之后，还包括步骤104，如图2所示：

步骤104、通过时序非极大值抑制算法对步骤103确定出的样本图像进行采样。

例如，假设所述视频的图像帧按照时序依次用t1、t2、t3、…、tn表示，步骤103得到10张样本图像，该10张样本图像分别为t1、t2、t6、t7、t8、t20、t21、t22、t50、t100，设置的非极大值为3，则将连续3帧以内的样本图像采样成1帧，则10张样本图像采样后为：t1、t7、t21、t50和t100。

当然，本领域技术人员，针对步骤104也可以采用其他的方式对样本图像进行采用，例如采用简单的间隔采样算法。

实施例二

基于前述实施例一提供的训练数据采样方法的相同构思，本发明实施例二还提供一种训练数据采集装置，该装置的结构如图3所示，包括：

目标检测单元1，用于将视频输入到目标检测模型中，得到每一帧图像的检测结果；

目标跟踪单元2，用于将所述视频的所有帧图像的检测结果输入到目标跟踪模型，得到每一帧图像的跟踪结果；

确定单元3，用于针对所述视频的每一帧图像执行以下步骤：匹配一帧图像的检测结果与跟踪结果；若匹配不一致，则确定所述一帧图像为所述目标检测模型处理不理想且需要标注的样本图像。

优选地，所述确定单元3匹配一帧图像的检测结果与跟踪结果，具体包括：采用二分图匹配算法匹配一帧图像的检测结果与跟踪结果。

优选地，所述二分图匹配算法为匈牙利匹配算法。

优选地，在前述实施例中，所述装置还可进一步包括采样单元4，如图4所示，其中：

所述确定单元3进一步用于：在匹配完所述视频中的所有帧图像之后触发所述采样单元4；

采样单元4，用于通过时序非极大值抑制算法对所述确定单元确定出的样本图像进行采样。

实施例三

本发明实施例三还提供一种计算机服务器，如图5所示，该计算机服务器包括存储器，以及与所述存储器通信连接的一个或多个处理器；

所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器实现前述实施例一中任意一种训练数据1方法。

本发明实施例三中，该计算机服务器可以为PC机、笔记本、平板电脑、FPGA(Field-Programmable Gate Array，即现场可编程门阵列)、工业电脑或者智能手机等硬件设备。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件固件、软件或者他们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用它们的基本编程技能就能实现的。

本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的上述实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括上述实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种训练数据采样方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，匹配一帧图像的检测结果与跟踪结果，具体包括：

采用二分图匹配算法匹配一帧图像的检测结果与跟踪结果。

3.根据权利要求2所述的方法，其特征在于，所述二分图匹配算法为匈牙利匹配算法。

4.根据权利要求1～3任一项所述的方法，其特征在于，在匹配完所述视频中的所有帧图像之后，所述方法还包括：

通过时序非极大值抑制算法对确定出的样本图像进行采样。

5.一种训练数据采样装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述确定单元匹配一帧图像的检测结果与跟踪结果，具体包括：

采用二分图匹配算法匹配一帧图像的检测结果与跟踪结果。

7.根据权利要求6所述的装置，其特征在于，所述二分图匹配算法为匈牙利匹配算法。

8.根据权利要求5～7任一项所述的装置，其特征在于，所述装置还包括采样单元；

所述确定单元进一步用于：在匹配完所述视频中的所有帧图像之后触发所述采样单元；

采样单元，用于通过时序非极大值抑制算法对所述确定单元确定出的样本图像进行采样。

9.一种计算机服务器，其特征在于，包括存储器，以及与所述存储器通信连接的一个或多个处理器；

所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器实现如权利要求1～4中任一项所述的训练数据采样方法。