CN110751065B

CN110751065B - 训练数据的采集方法及装置

Info

Publication number: CN110751065B
Application number: CN201910939908.1A
Authority: CN
Inventors: 炊文伟; 王则澄
Original assignee: Qingdao Guangshi Technology Co ltd; Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2023-04-28
Anticipated expiration: 2039-09-30
Also published as: CN110751065A

Abstract

本发明提供训练数据的采集方法及装置，该方法包括：获取多个关联相机在关联时段拍摄的图像；对图像进行目标检测，得到与图像对应的检测对象；对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象；响应于用户的确定指令，将检测对象集合作为结果对象集合，或，接收用户从检测对象集合中剔除与第一检测对象不属于同一对象的第三检测对象的指令，根据指令剔除部分第三检测对象，将剔除部分第三检测对象后的检测对象集合作为结果对象集合。本发明利用现有数据作为训练数据，提升了采集训练数据的效率，降低了模型训练成本。

Description

训练数据的采集方法及装置

技术领域

本发明一般地涉及图像分析技术领域，特别是涉及一种训练数据的采集方法及装置。

背景技术

视频结构化是一种视频画面内容信息提取的智能分析过程，通常包括图像检测、识别、结构化属性分析、行为分析等过程。视频经过上述结构化信息提取处理以后，可得到反映该视频内容的视频结构化数据，以进行后续视频处理工作。

当前技术中，视频结构化行业的数据源多为治安视频，行人再识别算法的准确率非常低。为了提高算法的准确率，就需要在治安视频场景下获取目标对象对应的多个角度的数据用于训练，才能有效提高算法的泛化能力和适应能力。

通常，为了采集目标对象多角度的情况的标注数据，使目标模拟经过所需的路线轨迹进行图像采集，标注人员对采集到的图像用肉眼辨别目标对象并进行标注，此种做法工作量大，成本高。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种训练数据的采集方法及装置。

本发明实施例的一方面，提供一种训练数据的采集方法，包括：获取多个关联相机在关联时段拍摄的图像，关联相机是空间位置具有关联关系的多个相机；对图像进行目标检测，得到与图像对应的检测对象；对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象；响应于用户的确定指令，将检测对象集合作为结果对象集合，或，接收用户从检测对象集合中剔除与第一检测对象不属于同一对象的第三检测对象的指令，根据指令剔除部分第三检测对象，将剔除部分第三检测对象后的检测对象集合作为结果对象集合。

本发明实施例的又一方面，提供一种训练数据的采集方法，包括：获取多个关联相机在关联时段拍摄的图像作为多个图像集合，每个相机对应一图像集合，关联相机是空间位置具有关联关系的多个相机；对多个图像集合中的图像进行目标检测，得到与图像对应的检测对象；对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象；将两两包含相同检测对象的多个检测对象集合取并集，作为困难对象集合。

在一实施例中，方法还包括：响应于用户的确定指令，将困难对象集合作为结果对象集合；或，接收用户从困难对象集合中剔除与其他检测对象不属于同一对象的检测对象的指令，根据指令剔除与其他检测对象不属于同一对象的检测对象，将剔除后的困难对象集合作为结果对象集合；或，接收用户从困难对象集合中剔除与其他检测对象不属于同一对象的检测对象的指令，根据指令剔除与其他检测对象不属于同一对象的检测对象，如果剔除后的困难对象集合与多个检测对象集合中的任意一个不相同，则将剔除后的困难对象集合作为结果对象集合。

在一实施例中，方法还包括：将根据指令剔除的检测对象作为负样本训练数据。

在一实施例中，第二检测对象为与第一检测对象属于同一类别的检测对象。

在一实施例中，第二检测对象与第一检测对象对应不同的图像，和/或，第二检测对象与第一检测对象对应的图像是不同相机拍摄的；第二检测对象与第一检测对象对应的图像是不同相机拍摄的，且第二检测对象对应图像拍摄的时间在特定时间区间范围。

在一实施例中，将每一个检测对象作为一个第一检测对象。

在一实施例中，如果某个检测对象已经属于某个结果对象集合，则不将其作为第一检测对象。

在一实施例中，当第三检测对象与第一检测对象的相似度大于阈值时，认为第三检测对象与第一检测对象匹配，阈值小于结构化检索时的常规阈值。

本发明实施例的又一方面，提供一种训练数据的采集装置，包括：获取模块，用于获取多个关联相机在关联时段拍摄的图像，关联相机是空间位置具有关联关系的多个相机；检测模块，用于对图像进行目标检测，得到与图像对应的检测对象；检索模块，用于对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象；确定模块，用于响应于用户的确定指令，将检测对象集合作为结果对象集合；或者，确定模块用于，接收用户从检测对象集合中剔除与第一检测对象不属于同一对象的第三检测对象的指令，根据指令剔除部分第三检测对象，将剔除部分第三检测对象后的检测对象集合作为结果对象集合。

本发明实施例的又一方面，提供一种训练数据的采集装置，包括：获取模块，用于获取多个关联相机在关联时段拍摄的图像作为多个图像集合，每个相机对应一图像集合，关联相机是空间位置具有关联关系的多个相机；检测模块，用于对多个图像集合中的图像进行目标检测，得到与图像对应的检测对象；检索模块，用于对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象；装置还包括合并模块，合并模块用于将两两包含相同检测对象的多个检测对象集合取并集，作为困难对象集合。

本发明实施例的又一方面，本发明实施例提供一种电子设备，其中，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的训练数据的采集方法。

本发明实施例的又一方面，本发明实施例提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行训练数据的采集方法。

本发明实施例提供的训练数据的采集方法，通过获取多个关联相机在关联时段拍摄的图像，对图像进行目标检测，得到与图像对应的检测对象，对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，并最终确定结果对象集合，充分利用现有数据作为训练数据，提升了采集训练数据的效率，降低模型训练成本。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了本发明一实施例提供的一种训练数据的采集方法示意图；

图2示出了本发明又一实施例提供的一种训练数据的采集方法示意图；

图3示出了本发明一实施例提供的一种训练数据的采集装置示意图；

图4示出了本发明又一实施例提供的一种训练数据的采集装置示意图；

图5示出了本发明实施例提供的一种电子设备示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

图1示出了本发明实施例提供的一种训练数据的采集的流程图，例如，用于训练用于结构化检索的神经网络模型，结构化检索即将图像中的对象的重要信息进行结构化提取，以对其进行检索。如图1所示，该方法包括：

在步骤S101中，获取多个关联相机在关联时段拍摄的图像，关联相机是空间位置具有关联关系的多个相机。

多个相机的空间位置具有关联关系。经过多个相机中的一个相机的对象有较大概率会经过多个相机中的其他相机，则认为多个相机的空间位置具有关联关系。

例如，多个相机是在一条道路同一路口的四个方向设置的四个相机。拍摄对象经过多个关联相机的其中一个相机，很大概率会经过其它关联相机，也即关联相机拍摄的图像中，大概率会包含同一个对象，且包含同一个对象的图像可能拍摄到同一对象的不同角度。

对于多个关联相机，其在关联时段拍摄的图像才有更大概率包含同一个对象。

在一例中，关联时段可以是关联相机的相同拍摄时段。

在另一例中，关联时段可以是根据关注对象的移动速度和关联相机之间的距离确定。例如，希望采集的是行人的数据(即关注对象为行人)，相机A和相机B距离50m，行人步行速度约为1m/s，如果希望使用相机A在[t1,t2]时间段内拍摄的图像作为训练数据的一部分，则相机B与其关联的时段可以为[t1-50s,t2+50s]。

图像可以是多个关联相机在关联时段采集的其现场范围内的图片/视频数据，也可以是对多个关联相机在关联时段采集的原始图片/视频进行预处理之后获得的图片/视频数据。例如，预处理可以是动态目标检测，将原始图片/视频中包含动态目标的图像用于后续处理，过滤仅包含静态目标的图片/视频。在另一例中，预处理可以是视频解析，可以将原始视频发送到视频分析设备，将从原始视频中解析出的多个视频帧作为图像，多个视频帧可以是连续的，也可以是不连续的。

在步骤S102中，对图像进行目标检测，得到与图像对应的检测对象。

图像中可以包含多个对象，例如动物、人脸、行人、机动车和/或非机动车。目标检测是指检测图像中的关注对象。例如，希望获得人、机动车、非机动车的数据作为训练数据，则需要对图像进行人脸、行人、机动车、非机动车目标的检测。

对图像进行目标检测，得到的与图像对应的检测对象可以是包含检测对象的检测对象图像。例如图像A、B、C是关联相机在关联时段内拍摄到的图像，图像A中包含1只猫，2个人行人H1、行人H2，1辆机动车W1和1辆非机动车P1，图像B中包含一个行人H3，图像C中包含一个行人H4。对图像A进行目标检测可以得到从图像A中截取出来的H1、H2的人体图像A-H1、A-H2、W1的机动车图像A-W1以及P1的非机动车图像A-P1(不关注猫这类对象，所以不对猫进行检测)，三者是与图像A对应的检测对象；对图像B进行目标检测可以得到从图像B中截取出来的H3的人体图像B-H3，其是与图像B对应的检测对象；对图像C进行目标检测可以得到从图像C中截取出来的H4的人体图像C-H4，其是与图像C对应的检测对象。

在步骤S103中，对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合。

在一例中，可以将对图像进行目标检测得到的检测对象中的每一个检测对象依次作为第一检测对象。例如，步骤S102中得到了检测对象A-H1、A-H2、A-W1、A-P1、B-H3、C-H4，将上述检测对象的每一个依次作为第一检测对象。在另一例中，可以将在之前的检索过程中未与之前的第一检测对象匹配的检测对象作为当前第一检测对象，在之前的检索过程中与之前的第一检测对象匹配上的检测对象不再作为当前第一检测对象。例如，步骤S102中得到了检测对象A-H1、A-H2、A-W1、A-P1、B-H3、C-H4，首先以A-H1为第一检测对象在A-H2、B-H3和C-H4中检索到了与A-H1匹配的第三检测对象B-H3，则在下一个检索循环中，不再以B-H3为第一检测对象在A-H1和A-H2、C-H4中进行检索，因为可以认为在上一个以A-H1为第一检测对象的检索中，已经将与A-H1中包含的对象属于同一对象的检测对象全部找到，即使再以B-H3为第一检测对象进行检索，大概率得到的也是A-H1，而不会是C-H4，因为如果C-H4和B-H3包含同一对象，那么就说明A-H1与C-H4包含同一对象，以A-H1为第一检测对象的检索中就会检索到与A-H1匹配的C-H4。

第二检测对象为不同于第一检测对象的检测对象。可以理解的是，第二检测对象应为与第一检测对象同类的检测对象，例如，第一检测对象为人脸，第二检测对象也应该为人脸，因为只有与第一检测对象同类的检测对象中才可能出现与第一检测对象匹配的对象。

在第二检测对象中检索，即对在步骤S102中得到的第一检测对象之外的检测对象中进行检索。例如，以A-H1为第一检测对象，在A-H2、B-H3中检索与A-H1匹配的检测对象。可以用常规的方式进行图像检索，例如提取A-H1中H1的特征和A-H2、B-H3中的特征并计算特征之间的相似度，如果从A-H1中提取的H1的特征与从B-H3中提取的H3的特征的相似度大于预设阈值，则B-H3为与第一检测对象A-H1匹配的第三检测对象，将A-H1和B-H3作为一个检测对象集合。

第三检测对象是与第一检测对象匹配的一个或多个检测对象，第一检测对象中的对象与第三检测对象中的对象有较大概率属于同一对象。而且，第一检测对象和第三检测对象是由关联相机拍摄的图像得到的，因此第一检测对象和第三检测对象拍摄到的对象可能具有不同的姿态、不同的角度。

在步骤S104中，响应于用户的确定指令，将检测对象集合作为结果对象集合。

检测对象集合中的第一检测对象和第三检测对象中的对象虽然有较大概率属于同一对象，但是仍有一定概率属于不同的对象。因此需要人工判断是否检测对象集合中的检测对象是否确实属于同一对象。如果经人工确认属于同一对象，则给出确定指令，检测对象集合可直接作为结果对象集合。

或者，不执行步骤S104，而执行步骤S105。在步骤S105中，接收用户从检测对象集合中剔除与第一检测对象不属于同一对象的第三检测对象的指令，根据指令剔除部分第三检测对象，将剔除部分第三检测对象后的检测对象集合作为结果对象集合。

如果经人工确认检测对象集合中的某些检测对象中的对象与其他检测对象中的对象不属于同一对象，则根据剔除指令剔除部分检测对象，以确保结果对象集合的检测对象中的对象均属于同一对象。

如此，可以得到多个结果图像集合，每个结果图像集合包含属于同一对象不同姿态、角度图像的多个检测对象，可将其作为训练数据训练用于结构化检索的神经网络模型。

本发明实施例将大概率包含同一对象不同姿态、角度的图像的现有数据加工后作为训练数据，提升了采集训练数据的效率，降低了模型训练成本；此外，能够自动化的从现有数据中找到属于同一对象的图像，免去了人工查找属于同一对象的图像的步骤，减少了数据标注工作量；同时，对自动找出的属于同一对象的图像进行人工筛选，剔除不属于同一对象的图像，保证了训练数据的准确性。

图2示出了本发明实施例提供的又一种训练数据的采集方法的流程图。

如图2所示，该方法包括：

在步骤S111中，获取多个关联相机在关联时段拍摄的图像作为多个图像集合，每个相机对应一图像集合，关联相机是空间位置具有关联关系的多个相机。

在步骤S112中，对多个图像集合中的图像进行目标检测，得到与图像对应的检测对象。

在步骤S113中，对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象。

可以理解地，步骤S111～步骤S113与前述步骤S101～步骤S103相同，在此不再赘述。需要强调的是，步骤S103中，可以将在之前的检索过程中未与之前的第一检测对象匹配的检测对象作为当前第一检测对象，在之前的检索过程中与之前的第一检测对象匹配上的检测对象不再作为当前第一检测对象，而步骤S113中，优选将对图像进行目标检测得到的检测对象中的每一个检测对象依次作为第一检测对象，即使在之前的检索过程中某个检测对象与之前的第一检测对象匹配上，仍需要将该检测对象作为第一检测对象。例如，步骤S112中得到了检测对象A-H1、A-H2、A-W1、A-P1、B-H3、C-H4。步骤S113中，首先，以正面人像A-H1为第一检测对象在正面人像A-H2、侧面人像B-H3和侧面人像C-H4中检索到了与A-H1匹配的第三检测对象B-H3(二者相似度81％，认为两个检测对象匹配的相似度阈值为80％)，得到{A-H1、B-H3}这一检测对象集合。其次，以A-H2为第一检测对象在A-H1、B-H3和C-H4中检索，未得到第三检测对象。再次，以B-H3为第一检测对象在A-H1、A-H2和C-H4中检索到了与B-H3匹配的第三检测对象A-H1(B-H3与A-H1相似度81％)、C-H4(B-H3与C-H4相似度90％)，得到{A-H1、B-H3、C-H4}这一检测对象集合。最后，以C-H4为第一检测对象在A-H1、A-H2和B-H3中检索到了与C-H4匹配的第三检测对象B-H3(二者相似度90％)，得到{B-H3、C-H4}这一检测对象集合。在这个例子中，在A-H1检索未得到C-H4的情况下(二者相似度79％)，用B-H3检索得到了C-H4。因此，为了得到更全面的检索结果并分析检索结果中的匹配情况，优选将对图像进行目标检测得到的检测对象中的每一个检测对象依次作为第一检测对象。

在步骤S114中，将两两包含相同检测对象的多个检测对象集合取并集，作为困难对象集合。

续举前例，通过步骤S113，得到了三个检测对象集合{A-H1、B-H3}、{A-H1、B-H3、C-H4}、{B-H3、C-H4}，三者包含相同的检测对象B-H3，将三者的并集{A-H1、B-H3、C-H4}作为困难对象集合。困难对象集合中的多个检测对象的某些检测对象不能通过另一些检测对象检索到，也就是说，通过现有的模型无法将这些检测对象通过另一些检测对象匹配到，相比于模型已经能够匹配到的多个检测对象组成的检测对象集合(例如由A-H1能够检索到B-H3，由B-H3也能检索到A-H1，A-H1、B-H3组成的检测对象集合)，将困难对象集合用于模型训练、提升模型性能才是更有意义的。

通过以上描述可以理解，在步骤S113中将对图像进行目标检测得到的检测对象中的每一个检测对象依次作为第一检测对象，可以获得困难样本集合。这种做法的好处是得到更全面的检索结果并分析检索结果中的匹配情况，另一方面因此多个“在第二检测对象中检索与第一检测对象匹配的第三检测对象”的运算可以并行进行。例如，检测对象的匹配关系如表1。

但是，如果不将检测对象中的每一个检测对象依次作为第一检测对象，而把在之前的检索过程中与之前的第一检测对象匹配上的检测对象不再作为当前第一检测对象，只要经过步骤S114，依然可以得到困难样本集合。例如，检测对象的匹配关系如表2。

在这个例子中，在以A为第一检测对象的检索过程中，B已经匹配到了A，因此不再以B为第一检测对象。同样的，也不以D为第一检测对象。这种做法的好处是能够省去一定的检索运算，然而是否将某一检测对象作为第一检测对象有赖于前面的检索结果，因此多个“在第二检测对象中检索与第一检测对象匹配的第三检测对象”的运算不能并行进行。

本发明实施例提供的训练数据的采集方法，通过将两两包含相同检测对象的多个检测对象集合取并集作为困难对象集合，可以使训练数据更加有效，进而提高模型训练质量。

本发明实施例提供了又一种训练数据的采集方法。该方法包括：

在步骤S121中，获取多个关联相机在关联时段拍摄的图像作为多个图像集合，每个相机对应一图像集合，关联相机是空间位置具有关联关系的多个相机。

在步骤S122中，对多个图像集合中的图像进行目标检测，得到与图像对应的检测对象。

在步骤S123中，对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象。

在步骤S124中，将两两包含相同检测对象的多个检测对象集合取并集，作为困难对象集合。

可以理解地，步骤S121～步骤S124与前述步骤S101～步骤S104相同，在此不再赘述。

在步骤S125中，响应于用户的确定指令，将困难对象集合作为结果对象集合。

如果经人工确认困难对象集合中的多个检测对象均属于同一对象，则给出确定指令，困难对象集合可直接作为结果对象集合。如此，可以得到多个结果图像集合，每个结果图像集合包含属于同一困难对象不同姿态、角度图像的多个检测对象，可将其作为训练数据训练用于结构化检索的神经网络模型。

或者，不执行步骤S125，而执行步骤S126。在步骤S126中，接收用户从困难对象集合中剔除与其他检测对象不属于同一对象的检测对象的指令，根据指令剔除与其他检测对象不属于同一对象的检测对象，将剔除后的困难对象集合作为结果对象集合。

如果经人工确认困难对象集合中的某些检测对象中的对象与其他检测对象中的对象不属于同一对象，则根据剔除指令剔除部分检测对象，以确保结果对象集合的检测对象中的对象均属于同一困难对象。

如此，可以得到多个结果图像集合，每个结果图像集合包含属于同一困难对象不同姿态、角度图像的多个检测对象，可将其作为训练数据训练用于结构化检索的神经网络模型。

或者，不执行步骤S125、S126，而执行步骤S127。在步骤S127中，接收用户从困难对象集合中剔除与其他检测对象不属于同一对象的检测对象的指令，根据指令剔除与其他检测对象不属于同一对象的检测对象，如果剔除后的困难对象集合与多个检测对象集合中的任意一个不相同，则将剔除后的困难对象集合作为结果对象集合。

继续举表1的例子，多个检测对象集合为{A B}、{A B C}、{B C D}、{C D},困难对象集合为{A B C D}。如果剔除后的困难对象集合为{A B}，因为模型已经能够找到{A B}作为同一对象，因此不将剔除后的困难对象集合作为结果对象集合用来训练模型。如果剔除后的困难对象集合为{A B D}，因为模型不能找到{A B D}作为同一对象，因此将剔除后的困难对象集合作为结果对象集合用来训练模型。

如此，可以得到多个更有效的结果图像集合，每个结果图像集合包含属于同一困难对象不同姿态、角度图像的多个检测对象，可将其作为更有效的训练数据训练用于结构化检索的神经网络模型。

在该实施例中，以剔除的检测对象作为负样本训练数据，用于训练模型使其获知负样本训练数据中的对象与结果对象集合中的检测对象中的对象不属于同一对象，能够充分利用剔除的检测对象进一步提高模型的精度。

在一实施例中，第二检测对象为与第一检测对象属于同一类别的检测对象。同一类别，例如，同属于人类，同属于人类的脸部或同属于机动车。对于第一检测对象，在同属于同一类别的第二检测对象中检索，可以进一步提高检索效率。

在一实施例中，第二检测对象与第一检测对象对应不同的图像。同一图像对应的检测对象不可能包含同一对象。例如图像A中的行人检测对象A-H1和A-H2必然对应不同的行人，因此在与第一检测对象对应不同的图像的第二检测对象中检索与第一检测对象匹配的检测对象，可以进一步提高检索效率。

在一实施例中，第二检测对象与第一检测对象对应的图像是不同相机拍摄的。

可以理解地，行人在行进中通过相机A、相机B和相机C，同一相机拍摄到的同一对象的角度大概率是一致的，而不同相机拍摄到的同一对象的角度相较于同一相机拍摄到的对象的角度大概率不同的。因此，虽然第二检测对象和第一检测对象可以是相同或不同的相机拍摄的，但不同相机拍摄的第二检测对象有更大的概率与第一检测对象属于不同的姿态、角度。因此在与第一检测对象对应的图像拍摄相机不同的第二检测对象中检索与第一检测对象匹配的检测对象，可以进一步提高检索效率，更容易获得与第一检测对象中的对象属于同一对象且姿态、角度不同的图像。

训练数据包含的目标对象的角度越丰富，得到精度越高。因此，模型需要同一对象不同角度拍摄的图片作为训练数据。选取存在空间关联关系的不同相机拍摄的图像大概率符合对训练数据的要求。

在一实施例中，第二检测对象与第一检测对象对应的图像是不同相机拍摄的，且第二检测对象对应图像拍摄的时间在特定时间区间范围。

例如，第一检测对象对应的图像由A相机拍摄在某时刻拍摄，例如，下午四点三十分。选取的第二检测对象对应的图像是由A相机的关联相机B或者关联相机C在相关时刻拍摄得到的，例如，根据对象的行进方向以及行进速度，选取四点二十分至四点四十分这个时间区间范围内的图像，可以提高检索效率，减少检索的工作量。

在一实施例中，将每一个检测对象依次作为一个第一检测对象。

将对图像进行目标检测得到的检测对象中，每一个检测对象依次作为第一检测对象，在第一检测对象之外的第二检测对象中检索与第一检测对象匹配的第三检测对象，进而得到结果对象集合。可以使图像检索更加全面，避免检测对象的遗漏，丰富训练数据集合。

例如，将行人的图像A作为第一检测对象，在第二检测对象中检索，检索到行人的图像B，即行人的图像A与行人的图像B的相似度大于或等于给定相似度阈值。可以理解地，若将行人的图像B作为第一检测对象，按照同样的相似度阈值和算法，在第二检测对象中检索，可以检索到行人的图像A。故某个检测对象已经属于某个结果对象集合，不将其作为第一检测对象在第二检测对象中检索，以节省算力。

将第一检测对象和第三检测对象作为一个检测对象集合，还包括人工确定或剔除的步骤，以保证结果对象集合中的检测对象均属于同一对象。因此，不担心检测结果出现假阳的现象，而是需要避免出现属于同一检测对象的图像没有包括在结果对象集合中的现象。属于同一检测对象的图像被遗漏会导致训练数据不完整，模型训练效果差。

例如，结构化检索的常规相似度阈值为80％，则在对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象时，可以取相似度阈值小于常规相似度阈值，例如70％，即行人的图像A与行人的图像B的相似度70％时，认为图像A与图像B属于同一检测对象。

图3示出了本发明实施例提供的一种训练数据的采集装置示意图。参照图3，该装置200包括获取模块210、检测模块220、检索模块230和确定模块240。

获取模块210，用于获取多个关联相机在关联时段拍摄的图像，关联相机是空间位置具有关联关系的多个相机。

检测模块220，用于对图像进行目标检测，得到与图像对应的检测对象。

检索模块230，用于对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象。

确定模块240，用于响应于用户的确定指令，将检测对象集合作为结果对象集合。

或者，确定模块用于，接收用户从检测对象集合中剔除与第一检测对象不属于同一对象的第三检测对象的指令，根据指令剔除部分第三检测对象，将剔除部分第三检测对象后的检测对象集合作为结果对象集合。

图4示出了本发明实施例提供的一种训练数据的采集装置示意图。参照图4，该装置300包括获取模块310、检测模块320、检索模块330和合并模块340。

获取模块310，用于获取多个关联相机在关联时段拍摄的图像作为多个图像集合，每个相机对应一图像集合，关联相机是空间位置具有关联关系的多个相机。

检测模块320，用于对多个图像集合中的图像进行目标检测，得到与图像对应的检测对象。

检索模块330，用于对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象，将第一检测对象和第三检测对象作为一个检测对象集合，第二检测对象为不同于第一检测对象的检测对象。

合并模块340，将两两包含相同检测对象的多个检测对象集合取并集，作为困难对象集合。

在另一实施例中，该装置还包括确定模块350，用于响应于用户的确定指令，将困难对象集合作为结果对象集合。

或者确定模块350，用于接收用户从困难对象集合中剔除与其他检测对象不属于同一对象的检测对象的指令，根据指令剔除与其他检测对象不属于同一对象的检测对象，将剔除后的困难对象集合作为结果对象集合；

或者确定模块350，用于接收用户从困难对象集合中剔除与其他检测对象不属于同一对象的检测对象的指令，根据指令剔除与其他检测对象不属于同一对象的检测对象，如果剔除后的困难对象集合与多个检测对象集合中的任意一个不相同，则将剔除后的困难对象集合作为结果对象集合。

在一实施例中，装置还包括数据增加模块，用于将根据指令剔除的检测对象作为负样本训练数据。

在一实施例中，检索模块330采用如下方式对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象：将每一个检测对象作为一个第一检测对象。

在一实施例中，检索模块330采用如下方式对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象：如果某个检测对象已经属于某个结果对象集合，则不将其作为第一检测对象。

在一实施例中，检索模块330采用如下方式对于第一检测对象，在第二检测对象中检索与第一检测对象匹配的第三检测对象：当第三检测对象与第一检测对象的相似度大于阈值时，认为第三检测对象与第一检测对象匹配，阈值小于结构化检索时的常规阈值。

装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应，其具体实现和技术效果请参见上文对于方法步骤的描述，在此不再赘述。

如图5所示，本发明的一个实施方式提供了一种电子设备30。其中，该电子设备30包括存储器310、处理器320、输入/输出(Input/Output，I/O)接口330。其中，存储器310，用于存储指令。处理器320，用于调用存储器310存储的指令执行本发明实施例的用于图像标注方法。其中，处理器320分别与存储器310、I/O接口330连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器310可用于存储程序和数据，包括本发明实施例中涉及的用于图像标注的程序，处理器320通过运行存储在存储器310的程序从而执行电子设备30的各种功能应用以及数据处理。

本发明实施例中处理器320可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器320可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器310可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本发明实施例中，I/O接口330可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备30的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本发明实施例中I/O接口330可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本发明的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims

1.一种训练数据的采集方法，其特征在于，包括：

获取多个关联相机在关联时段拍摄的图像作为多个图像集合，其中，所述多个关联相机中的每个相机对应一个所述图像集合，所述关联相机是空间位置具有关联关系的多个相机；

对多个所述图像集合中的图像进行目标检测，得到与所述图像对应的检测对象；

对于第一检测对象，在第二检测对象中检索与所述第一检测对象匹配的第三检测对象，将所述第一检测对象和所述第三检测对象作为一个检测对象集合，所述第二检测对象为不同于所述第一检测对象的检测对象；

将两两包含相同检测对象的多个检测对象集合取并集，作为困难对象集合。

2.根据权利要求1所述的训练数据的采集方法，其特征在于，所述方法还包括：

响应于用户的确定指令，将所述困难对象集合作为结果对象集合；

或，

接收用户从所述困难对象集合中剔除与其他所述检测对象不属于同一对象的所述检测对象的指令，根据所述指令剔除与其他所述检测对象不属于同一对象的所述检测对象，将剔除后的所述困难对象集合作为所述结果对象集合；

或，

接收用户从所述困难对象集合中剔除与其他所述检测对象不属于同一对象的所述检测对象的指令，根据所述指令剔除与其他所述检测对象不属于同一对象的所述检测对象，如果剔除后的困难对象集合与所述多个检测对象集合中的任意一个不相同，则将所述剔除后的困难对象集合作为所述结果对象集合。

3.根据权利要求2中所述的训练数据的采集方法，其特征在于，将根据所述指令剔除的检测对象作为负样本训练数据。

4.根据权利要求1-2中任一所述的训练数据的采集方法，其特征在于，所述第二检测对象为与所述第一检测对象属于同一类别的所述检测对象。

5.根据权利要求1-2中任一所述的训练数据的采集方法，其特征在于，所述第二检测对象与所述第一检测对象对应不同的图像，和/或，所述第二检测对象与所述第一检测对象对应的图像是不同相机拍摄的；和/或，所述第二检测对象与所述第一检测对象对应的图像是不同相机拍摄的，且所述第二检测对象对应图像拍摄的时间在特定时间区间范围。

6.根据权利要求1-2中任一所述的训练数据的采集方法，其特征在于，依次将每一个所述检测对象作为一个所述第一检测对象。

7.根据权利要求1-2中任一所述的训练数据的采集方法，其特征在于，如果某个检测对象已经属于某个结果对象集合，则不将其作为第一检测对象。

8.根据权利要求1-2中任一所述的训练数据的采集方法，其特征在于，当所述第三检测对象与所述第一检测对象的相似度大于阈值时，认为所述第三检测对象与所述第一检测对象匹配，所述阈值小于结构化检索时的常规阈值。

9.一种训练数据的采集装置，其特征在于，包括：

获取模块，用于获取多个关联相机在关联时段拍摄的图像作为多个图像集合，每个相机对应一图像集合，关联相机是空间位置具有关联关系的多个相机；

检测模块，用于对多个图像集合中的图像进行目标检测，得到与图像对应的检测对象；

检索模块，用于对于第一检测对象，在第二检测对象中检索与所述第一检测对象匹配的第三检测对象，将所述第一检测对象和所述第三检测对象作为一个检测对象集合；所述第二检测对象为不同于所述第一检测对象的检测对象；

所述装置还包括合并模块，当所述检测模块检测到两个检测对象集合中包含至少两个相同的检测对象，且两个检测对象集合中存在不同的检测对象时，所述合并模块用于将所述两个检测对象集合中检测对象的并集作为困难对象集合。

10. 一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-8中任一项所述的训练数据的采集方法。

11.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-8中任一项所述的训练数据的采集方法。