CN106529485A

CN106529485A - 用于获取训练数据的方法及装置

Info

Publication number: CN106529485A
Application number: CN201611010103.1A
Authority: CN
Inventors: 肖特特; 茅佳源
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2017-03-22

Abstract

本发明提供了一种用于获取训练数据的方法及装置，所述方法包括：接收原始视频数据；利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注；以及基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。根据本发明实施例的用于获取训练数据的方法及装置基于训练好的神经网络对原始视频数据中的目标对象进行自动标注，以用于获取训练目标神经网络的训练数据，不仅可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏目标对象的问题，实现高效地获取高质量的训练数据。

Description

用于获取训练数据的方法及装置

技术领域

本发明涉及视频处理技术领域，更具体地涉及一种用于获取训练数据的方法及装置。

背景技术

神经网络，在计算机视觉领域(如人脸识别、物体检测、自动驾驶等)起着至关重要的作用，成为这一领域的主导技术。将神经网络投入使用前，需要使用大量带标注的图片作为训练样本训练神经网络。在多数情况下，训练数据的数量和质量对神经网络的表现有重大的影响。因此，大规模与高质量的训练数据获取是非常重要的。

对于以视频流作为训练数据的神经网络，现有的数据获取方法是预先录制多段视频，再将视频发送给标注员进行逐帧标注。该方法主要存在以下问题：(1)为了得到足够多的包含相关目标对象(如车辆、行人等)需要录制大量视频，预先录制的视频占用大量储存空间；(2)在很多场景下，视频的大部分内容是不包含相关目标对象的，处理这些空数据会占用标注员大量时间；(3)在自然场景下，受光照等影响，标注员会出现漏标注的情况；(4)标注员精准标注出单个目标需要耗费大量精力和时间。

发明内容

为了解决上述问题中的至少一个而提出了本发明。根据本发明一方面，提供了一种用于获取训练数据的方法，所述方法包括：接收原始视频数据；利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注；以及基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

在本发明的一个实施例中，所述基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据的步骤包括：将经过所述自动标注的视频数据作为所述训练数据；或者将经过所述自动标注的视频数据传送至由人工标注员进行操作的平台，以由所述人工标注员检查和/或修正所述自动标注，并将检查和/或修正后的视频数据作为所述训练数据。

在本发明的一个实施例中，所述传送的视频数据仅包括所述视频数据中包括所述目标对象的帧。

在本发明的一个实施例中，所述人工标注员对所述自动标注的检查和修正包括以下至少一项：删除对非目标对象的自动标注；补充对遗漏的目标对象的标注；以及微调对目标对象的不精准的自动标注。

在本发明的一个实施例中，对所述第一神经网络的训练包括：确定需要检测的目标对象的类别；以及选择包含所述类别的目标对象的目标类别训练数据来训练所述第一神经网络，以检测所述原始视频数据中的所述类别的目标对象。

在本发明的一个实施例中，所述对检测到的目标对象进行自动标注包括：针对每个检测到的目标对象，标注出对检测到该目标对象的置信度。

在本发明的一个实施例中，所述方法还包括：根据所述置信度计算所述原始视频数据中的目标对象的数量；以及基于所述数量确定是否需要更多的原始视频数据以获取用于训练所述第二神经网络的训练数据。

在本发明的一个实施例中，根据所述置信度计算所述原始视频数据中的目标对象的数量，包括：将所述置信度不小于预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值；或者在计算所述目标对象的数量时将相同类别的每个目标对象的置信度的值相加作为所述类别的目标对象的数量的值。

根据本发明另一方面，提供了一种用于获取训练数据的装置，所述装置包括：接收模块，用于接收原始视频数据；检测标注模块，用于利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注；以及训练数据获取模块，用于基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

在本发明的一个实施例中，所述训练数据获取模块进一步用于：将经过所述自动标注的视频数据作为所述训练数据；或者将经过所述自动标注的视频数据传送至由人工标注员进行操作的平台，以由所述人工标注员检查和/或修正所述自动标注，并将检查和/或修正后的视频数据作为所述训练数据。

在本发明的一个实施例中，所述训练数据获取模块传送的视频数据仅包括所述视频数据中包括所述目标对象的帧。

在本发明的一个实施例中，所述检测标注模块进一步用于：针对每个检测到的目标对象，标注出对检测到该目标对象的置信度。

在本发明的一个实施例中，所述装置还包括：计算模块，用于根据所述置信度计算所述原始视频数据中的目标对象的数量；以及判断模块，用于基于所述数量确定是否需要更多的原始视频数据以获取用于训练所述第二神经网络的训练数据。

在本发明的一个实施例中，所述计算模块进一步用于：将所述置信度不小于预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值；或者在计算所述目标对象的数量时将相同类别的每个目标对象的置信度的值相加作为所述类别的目标对象的数量的值。

根据本发明实施例的用于获取训练数据的方法及装置基于训练好的神经网络对原始视频数据中的目标对象进行自动标注，以用于获取训练目标神经网络的训练数据，不仅可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏目标对象的问题，实现高效地获取高质量的训练数据。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的用于获取训练数据的方法和装置的示例电子设备的示意性框图；

图2示出根据本发明实施例的用于获取训练数据的方法的示意性流程图；

图3示出根据本发明另一实施例的用于获取训练数据的方法的示意性流程图；

图4示出根据本发明实施例的用于获取训练数据的装置的示意性框图；以及

图5示出根据本发明实施例的用于获取训练数据的系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的用于获取训练数据的方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像传感器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的用于获取训练数据的方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑等。

下面，将参考图2描述根据本发明实施例的用于获取训练数据的方法200。

在步骤S210，接收原始视频数据。

在一个实施例中，所接收的原始视频数据为用于训练某目标神经网络(在下文中将待训练的目标神经网络称为第二神经网络)的基础数据，对该基础数据中所包括的某类别或某多个类别的目标对象(例如人脸和/或车等等)进行标注后可获取用于训练目标神经网络(例如训练该目标神经网络以识别该类别的目标对象)的训练数据。

训练目标神经网络需要大量的基础数据以获取大量的有用的训练数据，所接收的原始视频数据所应该包括的目标对象的类别可取决于目标神经网络的预期用途。例如，目标神经网络的预期用途为人脸识别，则所接收的原始视频数据应该包括的目标对象为人(或人脸)。在其他示例中，目标神经网络也可用于其他任何可以实现的预期用途，对应地，所接收的原始视频数据可包括相应类别的目标对象。此外，根据目标神经网络的预期用途，所接收的原始视频数据也可以包括不止一种类别的目标对象。

在一个示例中，所接收的原始视频数据可以为事先录制的包括需要的目标对象的类别的视频流。在其他示例中，原始视频数据也可以为来自任何源的视频数据。此处，原始视频数据可以为视频数据，也可以为图片数据。

在步骤S220，利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注。

在一个实施例中，第一神经网络为用于检测某个类别或多个类别的目标对象而训练好的神经网络。此处，将其称为第一神经网络仅为了与上文所述的目标神经网络(即第二神经网络，为了与第一神经网络区分而如此命名)相区分，不起到任何限定作用。由于第一神经网络是为了检测原始视频中的目标对象以获得训练第二神经网络(目标神经网络)的训练数据而训练的，因此可以将第一神经网络称为用于获取训练数据的辅助型神经网络。该辅助型的神经网络与待训练的目标神经网络相比，由于是起到辅助作用，所以其性能可能劣于获取训练数据后将训练的目标神经网络。

在一个示例中，在训练第一神经网络时，可以先确定需要检测的目标对象的类别(即训练第二神经网络所需要的训练数据中应包括的目标对象的类别)，然后选择包含该类别的目标对象的已有目标类别训练数据来训练第一神经网络，以检测所述原始视频数据中的所述类别的目标对象。在一个示例中，第一神经网络的训练过程是类敏感的。也即，在训练时的类别给定后，第一神经网络使用时也只能检测识别这些类别的对象。所以，在训练的过程中，只需要将第一神经网络预测的类别给予明确声明，并给定相关的目标类别训练数据，第一神经网络即是对这些类别敏感的神经网络。

基于训练好的第一神经网络，可检测在步骤S210中所接收的原始视频数据中的目标对象，并对检测到的目标对象进行自动标注。

在一个实施例中，对于原始视频数据的每一帧，在第一神经网络检测到目标对象以后，可生成该目标对象的位置坐标，实现对其的自动标注。例如，可对所检测到的目标对象添加目标定位框。示例性地，目标定位框一般为矩形框，也可为其他合适的形状，其用于框选所希望检测到的目标对象。一般地，目标定位框内包括被标注目标的所有部分或期望重点用于后续计算处理的局部部分。

在另一个实施例中，对检测到的目标对象进行的自动标注还可以包括：针对每个检测到的目标对象，标注出对检测到该目标对象的置信度。该置信度反映了检测到目标对象的置信程度，也反映了该目标对象作为训练数据的质量好坏，有助于后期训练目标神经网络时更灵活地选择训练数据，以实现不同质量要求的目标神经网络。此外，该置信度还可以用于其他的用途，该用途将在下面结合图3所描述的实施例中进行描述。

基于第一神经网络检测所述原始视频数据中的目标对象、并对所检测到目标对象的自动标注，不仅可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏样本(例如自然场景下在暗处的目标对象)的问题。

在步骤S230，基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

在一个实施例中，基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据的步骤可以包括：将经过所述自动标注的视频数据作为所述训练数据。在该实施例中，可以将经过自动标注的视频数据直接作为用于训练第二神经网络的训练数据。如前所述，基于训练好的第一神经网络对原始视频数据中的目标对象的自动标注，可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏目标对象的问题，因此，可将经过自动标注的视频数据直接作为用于训练第二神经网络的训练数据，实现对训练数据的高效获取。

在另一个实施例中，基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据的步骤可以包括：将经过所述自动标注的视频数据传送至由人工标注员进行操作的平台，以由所述人工标注员检查和/或修正所述自动标注，并将检查和/或修正后的视频数据作为所述训练数据。在该实施例中，将经过自动标注的视频数据再由人工标注员检查和/或修正，可进一步确保最终获得的经标注的训练数据的高质量。

在一个实施例中，人工标注员对所述自动标注的检查和修正可以包括以下中的任意一个或多个：删除对非目标对象的自动标注；补充对遗漏的目标对象的标注；以及微调对目标对象的不精准的自动标注。基于人工标注员对第一神经网络对目标对象的自动标注的检查和/或修正，可进一步提高最终获得的经标注的训练数据的质量，从而使训练数据的获取过程更加完善。

在一个示例中，可以仅将经自动标注的视频数据中包括目标对象的帧传送至由人工标注员进行操作的平台(例如云平台)。这样可以减少传送的数据量，提高传送效率。此外，由于提前滤掉确定不含目标对象的帧，也减少了后续人工标注员的工作量。

在一个示例中，也可以滤除置信度小于预定阈值的目标对象，仅将经自动标注的视频数据中包括置信度不小于所述预定阈值的目标对象的帧传送至由人工标注员进行操作的平台(例如云平台)。这样可以进一步减少传送的数据量，提高传送效率，也大大减少了后续人工标注员的工作量。

在另一个示例中，也可以将经自动标注的视频数据的全部传送至由人工标注员进行操作的平台(例如云平台)。这样虽然传送的数据量可能较上述示例多，不过可以避免出现第一神经网络检测某帧时遗漏掉目标对象而无法被人工标注员修正的情况。

基于上面的描述，根据本发明实施例的用于获取训练数据的方法基于训练好的神经网络对原始视频数据中的目标对象进行自动标注，以用于获取训练目标神经网络的训练数据，不仅可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏目标对象的问题，实现高效地获取高质量的训练数据。

示例性地，根据本发明实施例的用于获取训练数据的方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的用于获取训练数据的方法可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。替代地，根据本发明实施例的用于获取训练数据的方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的用于获取训练数据的方法还可以分布地部署在服务器端(或云端)和个人终端处。

在其他实施例中，根据本发明的用于获取训练数据的方法还可包括其他的操作，下面结合图3进行进一步描述。

图3示出了根据本发明另一实施例的用于获取训练数据的方法300的示意性流程图。如图3所示，用于获取训练数据的方法300可以包括如下步骤：

在步骤S310，接收原始视频数据。

在步骤S320，利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注。

在步骤S330，基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

此处，步骤S310、S320和S330分别与图2中所描述的用于获取训练数据的方法200的步骤S210、S220和S230类似，为了简洁，此处不再赘述。

在步骤S340，计算所述原始视频数据中的目标对象的数量、并基于所述数量确定是否需要更多的原始视频数据以获取用于训练所述第二神经网络的训练数据。

可基于训练好的第一神经网络对原始视频数据中目标对象的检测和/或自动标注计算所述原始视频数据中的目标对象的数量，这样可实时确定已获得的视频段中所包含的相关目标对象的样本数量，基于该数量可确定是否需要更多的原始视频数据以获取用于训练第二神经网络的训练数据。如果确定需要更多的原始视频数据，则回到步骤S310；反之，如果确定不需要更多的原始视频数据，则进程可结束。因此，基于该步骤可无需盲目大量录制或获取视频，不仅能够提高获取训练数据的效率，还可有效节省存储训练数据的存储空间。

在一个示例中，可以基于训练好的第一神经网络所检测的原始视频数据的每一帧中的目标对象的数量直接计算原始视频数据中目标对象的总数量。

在另一个示例中，训练好的第一神经网络可针对每个检测的目标对象输出检测到该目标对象的置信度(如上文中关于图2描述的实施例中所述)。置信度的值可以为一个百分数，或者为0到1之间的实数。在该示例中，可基于目标对象的置信度来计算原始视频数据中目标对象的数量。

在一个示例中，可以设置一个预定阈值，将置信度不小于所述预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值。例如，在计算原始视频数据中目标对象的数量时可滤除置信度小于预定阈值的目标对象，并将置信度不小于所述预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值。例如，当检测到的某目标对象的置信度小于50％(或其他任何合适的值，该值根据具体需求可任意设定)时，可不将该目标对象计算到原始视频数据中目标对象的总数目中，而将置信度大于等于50％的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值。这样，可提高对目标对象的质量要求，有益于提高训练数据的质量，从而提高该训练数据所用于训练的目标神经网络的质量。

在另一个示例中，可以在计算原始视频数据中目标对象的数量时将相同类别的每个目标对象的置信度的值相加作为原始视频数据中所述类别的目标对象的数量的值。例如，所检测到的某类别的目标对象A、B、C……的置信度分别被标注为1、0.8、0.5……，则可将该类别的目标对象的总数量计算为1+0.8+0.5+……。这样，基于计算得出的结果，可精确地了解原始视频数据中所包括的该类别的目标对象的状态，从而更能准确地判断是否需要或者还需要多少数量的原始视频数据，以用于获取训练数据，提高后续收集或获取训练数据的效率，从而提高该训练数据所用于训练的目标神经网络的训练效率。

基于上面的描述，根据本发明实施例的用于获取训练数据的方法基于训练好的神经网络对原始视频数据中的目标对象进行自动标注，以用于获取训练目标神经网络的训练数据，不仅可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏目标对象的问题，实现高效地获取高质量的训练数据。此外，根据本发明实施例的用于获取训练数据的方法可基于训练好的神经网络实时计算已获得的视频段中所包含的相关目标对象的样本数量，无需盲目大量录制或获取视频，不仅能够提高获取训练数据的效率，还可有效节省存储训练数据的存储空间。

以上示例性地描述了根据本发明实施例的获取训练数据的方法所包括的示例性步骤流程。值得注意的是，虽然在图3中示出了上述步骤S310到S340，但根据本发明实施例的获取训练数据的方法可以不包括这些步骤的全部而得以实现，例如可以不包括步骤S340。此外，根据本发明实施例的获取训练数据的方法也可不按照在图3中所示出的顺序执行那些步骤而得以实现，例如步骤S340可以在步骤S330之前进行。

下面结合图4描述本发明另一方面提供的用于获取训练数据的装置。图4示出了根据本发明实施例的用于获取训练数据的装置400的示意性框图。

如图4所示，根据本发明实施例的用于获取训练数据的装置400包括接收模块410、检测标注模块420以及训练数据获取模块430。所述各个模块可分别执行上文中结合图2至图3描述的用于获取训练数据的方法的各个步骤/功能。以下仅对用于获取训练数据的装置400的各单元的主要功能进行描述，而省略以上已经描述过的细节内容。

接收模块410用于接收原始视频数据。检测标注模块420用于利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注。训练数据获取模块430用于基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。接收模块410、检测标注模块420以及训练数据获取模块430均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

在一个实施例中，接收模块410所接收的原始视频数据为用于训练某目标神经网络(在本文中将待训练的目标神经网络称为第二神经网络)的基础数据，对该基础数据中所包括的某类别或某多个类别的目标对象(例如人脸和/或车等等)进行标注后可获取用于训练目标神经网络(例如训练该目标神经网络以识别该类别的目标对象)的训练数据。

在一个示例中，接收模块410所接收的原始视频数据可以为事先录制的包括需要的目标对象类别的视频流。在其他示例中，接收模块410所接收的原始视频数据也可以为来自任何源的视频数据。此处，接收模块410所接收的原始视频数据可以为视频数据，也可以为图片数据。

检测标注模块420利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注。

在一个实施例中，第一神经网络为用于检测某个类别或多个类别的目标对象而训练好的神经网络。此处，将其称为第一神经网络仅为了与本文所述的目标神经网络(即第二神经网络，为了与第一神经网络区分而如此命名)相区分，不起到任何限定作用。由于第一神经网络是为了检测原始视频中的目标对象以获得训练第二神经网络(目标神经网络)的训练数据而训练的，因此可以将第一神经网络称为用于获取训练数据的辅助型神经网络。该辅助型的神经网络与待训练的目标神经网络相比，由于是起到辅助作用，所以其性能可能劣于获取训练数据后将训练的目标神经网络。

在一个示例中，在训练第一神经网络时，可以先确定需要检测的目标对象的类别(即训练第二神经网络所需要的训练数据中应包括的目标对象的类别)，然后选择包含该类别的目标对象的已有目标类别训练数据来训练第一神经网络，以用于由检测标注模块检测所述原始视频数据中的所述类别的目标对象。在一个示例中，第一神经网络的训练过程是类敏感的。也即，在训练时的类别给定后，第一神经网络使用时也只能检测识别这些类别的对象。所以，在训练的过程中，只需要将第一神经网络预测的类别给予明确声明，并给定相关的目标类别训练数据，第一神经网络即是对这些类别敏感的神经网络。

在一个实施例中，对于原始视频数据的每一帧，在检测标注模块420检测到目标对象以后，可生成该目标对象的位置坐标，实现对其的自动标注。例如，可对所检测到的目标对象添加目标定位框。示例性地，目标定位框一般为矩形框，也可为其他合适的形状，其用于框选所希望检测到的目标对象。一般地，目标定位框内包括被标注目标的所有部分或期望重点用于后续计算处理的局部部分。

在另一个实施例中，检测标注模块420对检测到的目标对象进行的自动标注还可以包括：针对每个检测到的目标对象，标注出对检测到该目标对象的置信度。该置信度反映了检测到目标对象的置信程度，也反映了该目标对象作为训练数据的质量好坏，有助于后期训练目标神经网络时更灵活地选择训练数据，以实现不同质量要求的目标神经网络。

训练数据获取模块430基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

在一个实施例中，训练数据获取模块430可以将经过所述自动标注的视频数据作为所述训练数据。在该实施例中，训练数据获取模块430可以将经过自动标注的视频数据直接作为用于训练第二神经网络的训练数据。检测标注模块420基于训练好的第一神经网络对原始视频数据中的目标对象的自动标注，可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏目标对象的问题，因此，训练数据获取模块430可将经过自动标注的视频数据直接作为用于训练第二神经网络的训练数据，实现对训练数据的高效获取。

在另一个实施例中，训练数据获取模块430可以将经过所述自动标注的视频数据传送至由人工标注员进行操作的平台，以由所述人工标注员检查和/或修正所述自动标注，并将检查和/或修正后的视频数据作为所述训练数据。在该实施例中，训练数据获取模块430将经过自动标注的视频数据再由人工标注员检查和/或修正，可进一步确保最终获得的经标注的训练数据的高质量。

在一个实施例中，人工标注员对所述自动标注的检查和修正可以包括以下中的任意一个或多个：删除对非目标对象的自动标注；补充对遗漏的目标对象的标注；以及微调对目标对象的不精准的自动标注。基于人工标注员对自动标注的检查和/或修正，可进一步提高最终获得的经标注的训练数据的质量，从而使训练数据的获取过程更加完善。

在一个示例中，训练数据获取模块430可以仅将经自动标注的视频数据中包括目标对象的帧传送至由人工标注员进行操作的平台(例如云平台)。这样可以减少传送的数据量，提高传送效率。此外，由于提前滤掉确定不含目标对象的帧，也减少了后续人工标注员的工作量。

在一个示例中，训练数据获取模块430也可以滤除置信度小于预定阈值的目标对象，仅将经自动标注的视频数据中包括置信度不小于所述预定阈值的目标对象的帧传送至由人工标注员进行操作的平台(例如云平台)。这样可以进一步减少传送的数据量，提高传送效率，也大大减少了后续人工标注员的工作量。在另一个示例中，训练数据获取模块430也可以将经自动标注的视频数据的全部传送至由人工标注员进行操作的平台(例如云平台)。这样虽然传送的数据量可能较上述示例多，不过可以避免出现第一神经网络检测某帧时遗漏掉目标对象而无法被人工标注员修正的情况。

在一个实施例中，根据本发明实施例的用于获取训练数据的装置400还可以包括计算模块和判断模块(均未在图4中示出)，所述计算模块计算用于所述原始视频数据中的目标对象的数量，所述判断模块用于基于所述数量确定是否需要更多的原始视频数据以获取用于训练所述第二神经网络的训练数据。

计算模块可基于检测标注模块420对原始视频数据中目标对象的检测和/或自动标注计算所述原始视频数据中的目标对象的数量，这样可实时确定已获得的视频段中所包含的相关目标对象的样本数量。判断模块基于该数量可确定是否需要更多的原始视频数据以获取用于训练第二神经网络的训练数据。如果判断模块确定需要更多的原始视频数据，则接收模块继续接收更多的原始视频数据；反之，如果判断模块确定不需要更多的原始视频数据，则接收模块无需再继续接收更多的原始视频数据。因此，基于计算模块和判断模块的操作，可无需盲目大量录制或获取视频，不仅能够提高获取训练数据的效率，还可有效节省存储训练数据的存储空间。

在一个示例中，计算模块可以基于训练好的第一神经网络所检测的原始视频数据的每一帧中的目标对象的数量直接计算原始视频数据中目标对象的总数量。

在另一个示例中，检测标注模块420可针对每个检测的目标对象输出检测到该目标对象的置信度(如上文中所述)。置信度的值可以为一个百分数，或者为0到1之间的实数。在该示例中，计算模块可基于目标对象的置信度来计算原始视频数据中目标对象的数量。

在一个示例中，可以设置一个预定阈值，计算模块可以将置信度不小于所述预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值。例如，在计算原始视频数据中目标对象的数量时计算模块可滤除置信度小于预定阈值的目标对象，并将置信度不小于所述预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值。例如，当检测到的某目标对象的置信度小于50％(或其他任何合适的值，该值根据具体需求可任意设定)时，计算模块可不将该目标对象计算到原始视频数据中目标对象的总数目中，而将置信度大于等于50％的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值。这样，可提高对目标对象的质量要求，有益于提高训练数据的质量，从而提高该训练数据所用于训练的目标神经网络的质量。

在另一个示例中，计算模块可以在计算原始视频数据中目标对象的数量时将相同类别的每个目标对象的置信度的值相加作为原始视频数据中所述类别的目标对象的数量的值。例如，检测标注模块所检测到的某类别的目标对象A、B、C……的置信度分别标注为1、0.8、0.5……，则计算模块可将该类别的目标对象的总数量计算为1+0.8+0.5+……。这样，基于计算模块计算得出的结果，可精确地了解原始视频数据中所包括的该类别的目标对象的状态，从而更能由判断模块准确地判断是否需要或者还需要多少数量的原始视频数据，以用于获取训练数据，提高后续收集或获取训练数据的效率，从而提高该训练数据所用于训练的目标神经网络的训练效率。

基于上面的描述，根据本发明实施例的用于获取训练数据的装置基于训练好的神经网络对原始视频数据中的目标对象进行自动标注，以用于获取训练目标神经网络的训练数据，不仅可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏目标对象的问题，实现高效地获取高质量的训练数据。此外，根据本发明实施例的用于获取训练数据的装置可基于训练好的神经网络实时计算已获得的视频段中所包含的相关目标对象的样本数量，无需盲目大量录制或获取视频，不仅能够提高获取训练数据的效率，还可有效节省存储训练数据的存储空间。

图5示出了根据本发明实施例的用于获取训练数据的系统500的示意性框图。用于获取训练数据的系统500包括存储装置510以及处理器520。

其中，存储装置510存储用于实现根据本发明实施例的用于获取训练数据的方法中的相应步骤的程序代码。处理器520用于运行存储装置510中存储的程序代码，以执行根据本发明实施例的用于获取训练数据的方法的相应步骤，并且用于实现根据本发明实施例的用于获取训练数据的装置中的相应模块。此外，用于获取训练数据的系统500还可以包括图像采集装置(未在图5中示出)，其可以用于采集原始视频数据。当然，图像采集装置不是必需的，可直接接收来自其他源的原始视频数据的输入。

在一个实施例中，在所述程序代码被处理器520运行时使得用于获取训练数据的系统500执行以下步骤：接收原始视频数据；利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注；以及基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

在一个实施例中，在所述程序代码被处理器520运行时使得用于获取训练数据的系统500执行的所述基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据的步骤包括：将经过所述自动标注的视频数据作为所述训练数据；或者将经过所述自动标注的视频数据传送至由人工标注员进行操作的平台，以由所述人工标注员检查和/或修正所述自动标注，并将检查和/或修正后的视频数据作为所述训练数据。

在一个实施例中，所述传送的视频数据仅包括所述视频数据中包括所述目标对象的帧。

在一个实施例中，所述人工标注员对所述自动标注的检查和修正包括以下至少一项：删除对非目标对象的自动标注；补充对遗漏的目标对象的标注；以及微调对目标对象的不精准的自动标注。

在一个实施例中，对所述第一神经网络的训练包括：确定需要检测的目标对象的类别；以及选择包含所述类别的目标对象的目标类别训练数据来训练所述第一神经网络，以检测所述原始视频数据中的所述类别的目标对象。

在一个实施例中，在所述程序代码被处理器520运行时使得用于获取训练数据的系统500执行的所述对检测到的目标对象进行自动标注包括：针对每个检测到的目标对象，标注出对检测到该目标对象的置信度。

在一个实施例中，在所述程序代码被处理器520运行时还使得用于获取训练数据的系统500执行以下步骤：根据所述置信度计算所述原始视频数据中的目标对象的数量；以及基于所述数量确定是否需要更多的原始视频数据以获取用于训练所述第二神经网络的训练数据。

在一个实施例中，在所述程序代码被处理器520运行时使得用于获取训练数据的系统500执行的根据所述置信度计算所述原始视频数据中的目标对象的数量，包括：将所述置信度不小于预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值；或者在计算所述目标对象的数量时将相同类别的每个目标对象的置信度的值相加作为所述类别的目标对象的数量的值。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的用于获取训练数据的方法的相应步骤，并且用于实现根据本发明实施例的用于获取训练数据的装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含接收原始视频数据的计算机可读的程序代码，另一个计算机可读存储介质包含检测和自动标注目标对象的计算机可读的程序代码，又一个计算机可读存储介质包含获取训练数据的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的用于获取训练数据的装置的各个功能模块，并且/或者可以执行根据本发明实施例的用于获取训练数据的方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：接收原始视频数据；利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注；以及基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据的步骤包括：将经过所述自动标注的视频数据作为所述训练数据；或者将经过所述自动标注的视频数据传送至由人工标注员进行操作的平台，以由所述人工标注员检查和/或修正所述自动标注，并将检查和/或修正后的视频数据作为所述训练数据。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述对检测到的目标对象进行自动标注包括：针对每个检测到的目标对象，标注出对检测到该目标对象的置信度。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时还使计算机或处理器执行以下步骤：根据所述置信度计算所述原始视频数据中的目标对象的数量；以及基于所述数量确定是否需要更多的原始视频数据以获取用于训练所述第二神经网络的训练数据。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的根据所述置信度计算所述原始视频数据中的目标对象的数量，包括：将所述置信度不小于预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值；或者在计算所述目标对象的数量时将相同类别的每个目标对象的置信度的值相加作为所述类别的目标对象的数量的值。

根据本发明实施例的用于获取训练数据的装置中的各模块可以通过根据本发明实施例的用于获取训练数据的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的用于获取训练数据的方法、装置、系统以及存储介质基于训练好的神经网络对原始视频数据中的目标对象进行自动标注，以用于获取训练目标神经网络的训练数据，不仅可省去人工标注员对原始视频数据进行人工标注的大量时间，还能够有效避免人工标注可能遗漏目标对象的问题，实现高效地获取高质量的训练数据。此外，根据本发明实施例的用于获取训练数据的方法、装置、系统以及存储介质还可基于训练好的神经网络实时计算已获得的视频段中所包含的相关目标对象的样本数量，无需盲目大量录制或获取视频，不仅能够提高获取训练数据的效率，还可有效节省存储训练数据的存储空间。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于获取训练数据的方法，其特征在于，所述方法包括：

接收原始视频数据；

利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注；以及

基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

2.根据权利要求1所述的方法，其特征在于，所述基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据的步骤包括：

将经过所述自动标注的视频数据作为所述训练数据；或者

将经过所述自动标注的视频数据传送至由人工标注员进行操作的平台，以由所述人工标注员检查和/或修正所述自动标注，并将检查和/或修正后的视频数据作为所述训练数据。

3.根据权利要求2所述的方法，其特征在于，所述传送的视频数据仅包括所述视频数据中包括所述目标对象的帧。

4.根据权利要求2所述的方法，其特征在于，所述人工标注员对所述自动标注的检查和修正包括以下至少一项：

删除对非目标对象的自动标注；

补充对遗漏的目标对象的标注；以及

微调对目标对象的不精准的自动标注。

5.根据权利要求1所述的方法，其特征在于，对所述第一神经网络的训练包括：

确定需要检测的目标对象的类别；以及

选择包含所述类别的目标对象的目标类别训练数据来训练所述第一神经网络，以检测所述原始视频数据中的所述类别的目标对象。

6.根据权利要求1-5中的任一项所述的方法，其特征在于，

所述对检测到的目标对象进行自动标注包括：针对每个检测到的目标对象，标注出对检测到该目标对象的置信度。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述置信度计算所述原始视频数据中的目标对象的数量；以及

基于所述数量确定是否需要更多的原始视频数据以获取用于训练所述第二神经网络的训练数据。

8.根据权利要求7所述的方法，其特征在于，根据所述置信度计算所述原始视频数据中的目标对象的数量，包括：

将所述置信度不小于预定阈值的相同类别的目标对象的数量之和作为所述类别的目标对象的数量的值；或者

在计算所述目标对象的数量时将相同类别的每个目标对象的置信度的值相加作为所述类别的目标对象的数量的值。

9.一种用于获取训练数据的装置，其特征在于，所述装置包括：

接收模块，用于接收原始视频数据；

检测标注模块，用于利用训练好的第一神经网络检测所述原始视频数据中的目标对象、并对检测到的目标对象进行自动标注；以及

训练数据获取模块，用于基于经过所述自动标注的视频数据获取用于训练第二神经网络的训练数据。

10.根据权利要求9所述的装置，其特征在于，所述训练数据获取模块进一步用于：

将经过所述自动标注的视频数据作为所述训练数据；或者

11.根据权利要求10所述的装置，其特征在于，所述训练数据获取模块传送的视频数据仅包括所述视频数据中包括所述目标对象的帧。

12.根据权利要求9所述的装置，其特征在于，对所述第一神经网络的训练包括：

确定需要检测的目标对象的类别；以及

13.根据权利要求9-12中的任一项所述的装置，其特征在于，

所述检测标注模块进一步用于：针对每个检测到的目标对象，标注出对检测到该目标对象的置信度。

14.根据权利要求13中所述的装置，其特征在于，所述装置还包括：

计算模块，用于根据所述置信度计算所述原始视频数据中的目标对象的数量；以及

判断模块，用于基于所述数量确定是否需要更多的原始视频数据以获取用于训练所述第二神经网络的训练数据。

15.根据权利要求14所述的装置，其特征在于，所述计算模块进一步用于：