CN112734804B

CN112734804B - 图像数据标注的系统和方法

Info

Publication number: CN112734804B
Application number: CN202110018053.6A
Authority: CN
Inventors: 韩煦深; 赵雄心
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2022-08-26
Anticipated expiration: 2041-01-07
Also published as: CN112734804A

Abstract

本说明书提供的图像数据标注的系统和方法，对作为样本的多个目标对象每人的配置一个唯一对应的标签，标签中包括与目标对象关联的唯一的身份信息，使得目标对象戴着唯一对应的标签在目标场景内移动。视觉传感器可以拍摄目标对象在场景内移动的视频数据。标注装置可以根据视觉传感器拍摄到的视频数据，检测视频数据中的目标对象，以及目标对象附近的标签，通过识别标签中的身份信息对目标对象进行标注。所述系统和方法，可以自动对视频数据中的目标对象进行标注，无需依赖人工标注，在提高标注效率的同时，能够提升标注的准确度以及降低标注成本。

Description

图像数据标注的系统和方法

技术领域

本说明书涉及图像处理领域，尤其涉及一种图像数据标注的系统和方法。

背景技术

室内行人跟踪(Tracking)和重识别(ReID)是智能视频监控中的重要技术手段。特别是对于无人店铺场景来说，室内行人跟踪和重识别对于顾客无感支付，风险控制极为重要。当前室内行人跟踪和重识别的计算主要通过重识别模型，对前后两帧的行人进行检测和重识别。而重识别模型多数是基于样本数据以及对应的标注通过深度学习得到的。样本数据越多，其鲁棒性越高。传统的样本数据标注方式多依赖人工进行标注。但是，对于大批量的样本数据来说，其标注工作量很大，需要大量人工，成本较高，且人工标注出错率高。

因此，需要提供一种能够自动标注，在提高精度的同时降低成本的图像数据标注的系统和方法。

发明内容

本说明书提供一种能够自动标注，在提高精度的同时降低成本的图像数据标注的系统和方法。

第一方面，本说明书提供一种图像数据标注的系统，用于行人重识别的样本数据标注，包括至少一个视觉传感器以及标注装置，所述至少一个视觉传感器用于拍摄目标场景内的视频数据，所述目标场景中包括移动的N个目标对象和N个标签，所述N个目标对象中的每个目标对象表面附着有与其唯一对应的所述N个标签中的一个标签，其中，N为不小于1的整数；所述标注装置与所述至少一个视觉传感器通信连接，接收所述视频数据，并对所述视频数据中的每个目标对象基于其预设范围内的可见标签进行标注。

在一些实施例中，所述N个标签中的每个标签位于对应的目标对象身上的预定位置。

在一些实施例中，所述N个标签中的每个标签包括与其对应的目标对象关联的唯一的身份信息经过编码后的编码图案。

在一些实施例中，所述标签包括AprilTag、二维码以及QR code中的至少一种。

在一些实施例中，所述对所述视频数据中的每个目标对象基于其预设范围内的可见标签进行标注，包括：对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像，所述M个目标图像中的每个目标图像中包含有所述N个目标对象中的至少一个，其中，M为不小于1的整数；以及对所述每个目标图像中的每个目标对象进行标注，包括：在当前目标图像中，截取当前目标对象所处区域的图像作为所述当前目标对象的图像数据；确定所述当前目标对象对应的目标标签，所述目标标签处于所述当前目标对象的预设范围内，所述N个标签包括所述目标标签；以及识别出所述目标标签中的身份信息，使用所述目标标签中的身份信息对所述当前目标对象的图像数据进行标注。

在一些实施例中，所述确定所述当前目标对象对应的目标标签，包括：在所述当前目标图像中，确定所述当前目标对象的预设范围内存在至少一个标签，所述N个标签包括所述至少一个标签；以及从所述至少一个标签中确定所述目标标签。

在一些实施例中，所述从所述至少一个标签中确定所述目标标签，包括：

从所述至少一个标签中选择与所述当前目标对象距离最近的标签为所述目标标签。

在一些实施例中，所述N个标签中的每个标签位于对应的目标对象的顶部。

在一些实施例中，所述视频数据包括所述目标场景的第一视频数据和所述目标场景的第二视频数据；所述至少一个视觉传感器包括至少一个第一视觉传感器和至少一个第二视觉传感器，所述至少一个第一视觉传感器用于拍摄所述第一视频数据，位于所述目标场景中至少能够拍摄到所述目标对象的部分特征的位置；所述至少一个第二视觉传感器，位于所述目标场景的上方，拍摄所述第二视频数据，所述至少一个第二视觉传感器的视野至少部分覆盖所述至少一个第一视觉传感器的视野并且覆盖所述N个标签中的所有标签所在的位置，其中，所述至少一个第二视觉传感器与所述至少一个第一视觉传感器之间进行外参标定。

在一些实施例中，所述对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像，包括：对所述第一视频数据中的图像进行行人检测，从所述第一视频数据中确定M个第一图像，所述M个第一图像为所述M个目标图像，并记录所述每个目标图像的时间信息。

在一些实施例中，所述确定所述当前目标对象对应的目标标签，包括：基于所述当前目标图像的时间信息，从所述第二视频数据中确定与所述当前目标图像具有相同时间信息的第二图像，其中，所述第二图像中包括L个标签，所述N个标签包括所述L个标签；确定所述L个标签中的每个标签在所述第二图像中的位置信息；基于所述至少一个第二视觉传感器与所述至少一个第一视觉传感器的外参标定，确定所述L个标签中的每个标签在所述当前目标图像中的位置信息；以及从所述L个标签中确定与所述当前目标对象的距离在所述预设范围内的标签为所述目标标签。

在一些实施例中，所述标注装置中预先存储有所述N个目标对象中的每个目标对象与其对应的标签的相对角度关系。

在一些实施例中，所述对所述每个目标图像中的每个目标对象进行标注，还包括：对所述当前目标对象的图像数据进行角度标注，包括：确定所述目标标签相对于所述当前目标图像的角度；基于所述当前目标对象与所述目标标签的相对角度关系，以及所述目标标签相对于所述当前目标图像的角度，确定所述当前目标对象相对于所述当前目标图像的目标角度；以及使用所述目标角度对所述当前目标对象的图像数据进行标注。

在一些实施例中，所述对所述每个目标图像中的每个目标对象进行标注，还包括：对所述当前目标对象的图像数据进行遮挡关系标注，包括：计算所述当前目标图像中的每个目标对象与所述至少一个视觉传感器的距离；确定所述当前目标图像中的所有目标对象之间的遮挡关系；以及基于所述遮挡关系对所述当前目标图像中的每个目标对象的图像数据进行标注。

第二方面，本说明书还提供一种图像数据标注的方法，应用于本说明书第一方面所述的图像数据标注的系统，包括通过所述标注装置执行：接收所述视频数据；以及对所述视频数据中的每个目标对象基于其预设范围内的可见标签进行标注。

在一些实施例中，所述对所述视频数据中的每个目标对象基于其预设范围内的可见标签进行标注，包括：对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像，所述M个目标图像中的每个目标图像中包含有所述N个目标对象中的至少一个，其中，M为不小于1的整数；以及对所述每个目标图像中的每个目标对象进行标注，包括：在当前目标图像中，截取当前目标对象所处区域的图像作为所述当前目标对象的图像数据；确定所述当前目标对象对应的目标标签，所述目标标签处于所述当前目标对象的预设范围，所述N个标签包括所述目标标签；以及识别出所述目标标签中的身份信息，使用所述目标标签中的身份信息对所述当前目标对象的图像数据进行标注。

在一些实施例中，所述从所述至少一个标签中确定所述目标标签，包括：从所述至少一个标签中选择与所述当前目标对象距离最近的标签为所述目标标签。

在一些实施例中，所述确定所述当前目标对象对应的目标标签，包括：基于所述当前目标图像的时间信息，从所述第二视频数据中确定与所述当前目标图像具有相同时间信息的第二图像，其中，所述第二图像中包括L个标签，所述N个标签包括所述L个标签；确定所述L个标签中的每个标签在所述第二图像中的位置信息；基于所述至少一个第二视觉传感器与所述至少一个第一视觉传感器的外参标定，确定所述L个标签中的每个标签在所述当前目标图像中的位置信息；以及从所述L个标签中确定与所述当前目标对象的距离在预设范围内的标签为所述目标标签。

由以上技术方案可知，本说明书提供的图像数据标注的系统和方法中，对作为样本的多个目标对象每人的头顶配置一个唯一对应的标签，标签中包括与目标对象关联的唯一的身份信息，使得目标对象戴着唯一对应的标签在目标场景内移动。视觉传感器可以拍摄目标对象在场景内移动的视频数据。标注装置可以根据视觉传感器拍摄到的视频数据，检测视频数据中的目标对象，以及目标对象附近的标签，通过识别标签中的身份信息对目标对象进行标注。所述系统和方法，可以自动对视频数据中的目标对象进行标注，无需依赖人工标注，在提高标注效率的同时，能够提升标注的准确度以及降低标注成本。

本说明书提供的图像数据标注的系统和方法的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的图像数据标注的系统和方法的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A示出了根据本说明书的实施例提供的一种图像数据标注的系统的示意图；

图1B示出了根据本说明书的实施例提供的另一种图像数据标注的系统的示意图；

图2A示出了根据本说明书的实施例提供的一种标签的示意图；

图2B示出了根据本说明书的实施例提供的另一种标签的示意图；

图3示出了根据本说明书的实施例提供的一种标注装置的设备示意图；

图4示出了根据本说明书的实施例提供的一种图像数据标注的方法流程图；

图5示出了根据本说明书的实施例提供的另一种图像数据标注的方法流程图；

图6示出了根据本说明书的实施例提供的一种目标图像的示意图；以及

图7示出了根据本说明书的实施例提供的一种第二图像的示意图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了方便描述，我们将对本说明书中将要出现的术语作如下解释：

行人重识别(ReID)：也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域，特别是对于无人超市、无人零售店等场所极为重要。

AprilTag：是一种应用在AR、机器人定位领域的常用定位标注工具。使用AprilTag可以轻松进行定位。AprilTag可以将不同的身份信息编码为不同的图案。使用AprilTag进行定位的操作流程为：将AprilTag中的标签图案打印并粘贴在定位平面，并用已标定摄像头进行观测即可对AprilTag进行定位。使用AprilTag进行标注的操作流程为：用摄像头观测AprilTag中的标签图案，并对标签图案进行解码识别出其中的身份信息。

目前室外场景所使用的重识别模型的训练方法很难满足室内重识别的相关需求。室内场景的重识别往往需要搭建适合当下场景的重识别的样本数据集，并对样本数据集中的样本数据进行标注，以使用样本数据以及对应的标注进行模型训练。现有技术中对样本数据的采集没有人员和场景限制，但对样本数据的标注通常依赖人工。对样本数据进行标注时通常需要标注人员对整个过程中的所有图像中的行人凭经验进行综合判断，确定行人身份。工作量大，判断难度大。

本说明书提供一种图像数据标注的系统和方法中，为多个样本中的每个目标对象的头顶配置一个对应的标签在室内场景中移动，每个标签中编码有目标对象的身份信息。视觉传感器可以拍摄目标对象在场景内移动的视频数据。标注装置可以根据视觉传感器拍摄到的视频数据，检测视频数据中的目标对象，以及目标对象附近的标签，通过识别标签中的身份信息对目标对象进行标注。所述系统和方法，可以自动对视频数据中的目标对象进行标注，无需依赖人工标注，在提高标注效率的同时，能够提升标注的准确度以及降低标注成本。

图1A示出了根据本说明书的实施例提供的一种图像数据标注的系统100的示意图；图1B示出了根据本说明书的实施例提供的另一种图像数据标注的系统100的示意图。其中，图1B为图1A的主视图。图像数据标注的系统100(以下简称系统100)用于行人重识别系统的样本数据标注，可以用于对目标场景400内移动的目标对象200的图像数据进行标注。

所述目标场景400可以是任意的室内空间区域，比如，无人超市、商场、便利店，等等。为了方便展示，以下描述中我们将以所述目标场景400为无人超市为例进行描述。

目标对象200可以是重识别模型的样本对象。即目标对象200可以是移动的行人。目标对象200可以在目标场景400内自由移动。目标场景400内可以包括N个移动的目标对象200。其中，N可以是任意不小于1的整数。比如，N可以是10，也可以是20，还可以是30，40，50等等。目标对象200的数量越多，代表重识别模型训练的样本数据越多，通过样本数据训练得到的重识别模型的鲁棒性越好。

目标场景400中的N个目标对象200中的每个目标对象200表面附着有与当前目标对象200对应的标签300。在一些实施例中，所述标签300可以唯一对应目标对象200。不同的目标对象200对应不同的标签300。所述N个目标对象200对应N个标签300。所述N个标签300彼此互不相同。所述N个标签300中的每个标签300可以是编码信息经过编码的编码图案。所述编码信息可以是与当前标签300对应的目标对象200关联的唯一的身份信息，比如所述目标对象200的唯一ID。也就是说，每个目标对象200都具有一个唯一的ID，所述ID经过编码被编码为图案标签300，携带在目标对象200身上。不同的目标对象200关联的ID是不同的。系统100可以根据所述标签300中的编码信息确定目标对象的ID。

在一些实施例中，标签300可以是任意可以对目标对象200进行区分的图案标签。比如，标签300可以是标有数字的标签，比如数字1、2、3，等等。标签300也可以是画有特殊符号的标签，比如三角形、四边形、直线、圆形，等等。系统100中可以存储有所述图案与ID号的对应关系。系统100可以通过目标对象200携带的标签300中的图案识别出标签300中携带的身份信息，即ID号，进而识别出目标对象200的身份。

在一些实施例中，标签300也可以是具有定位功能的图案标签。比如，标签300可以是AprilTag、二维码以及QR code中的至少一种。系统100可以根据对标签300进行定位，以使标签300可以在不同角度的参数标定的摄像头之间进行坐标转换。为了方便展示，后面的描述中我们将以标签300为AprilTag为例进行描述。

标签300可以附着在目标对象200身上的预定位置。所述预定位置可以是目标对象200外表面的任意位置，比如，衣服前面，衣服后面，也可以是鞋上，裤子上，头上，等等。为了减少标签300对目标对象200本身的体貌特征的影响，同时尽量避免标签300的互相遮挡，所述N个标签300中的每个标签300位于对应的目标对象200的顶部，即目标对象200的头部的上方。比如，标签300可以被打印在一个帽子上，目标对象200可以戴着带有标签300的帽子进入目标场景400。在一些实施例中，所述帽子可以是没有帽檐的帽子。在一些实施例中，所述帽子可以是透明的帽子。标签300还可以通过一个发夹设置在目标对象200的头顶。标签300还可以高于头部一定距离，比如，高于头部10cm，20cm，30cm，等等。图2A示出了根据本说明书的实施例提供的一种标签300的示意图；图2B示出了根据本说明书的实施例提供的另一种标签300的示意图。如图2A所示，标签300被设置在帽子001上。如图2B所示，标签300被设置在发夹002上。

作为示例性说明，图1A和图1B所示的目标场景400中示出4个目标对象200，分别是目标对象201、目标对象202、目标对象203和目标对象204。目标对象201对应标签301，标签301中的编码图案对应的身份信息为ID＝1。目标对象202对应标签302，标签302中的编码图案对应的身份信息为ID＝2。目标对象203对应标签303，标签303中的编码图案对应的身份信息为ID＝3。目标对象204对应标签304，标签304中的编码图案对应的身份信息为ID＝4。

表1列出了目标对象200与标签300以及标签300中编码的身份信息的对应关系，表1如下所示：

如图1A和图1B所示，系统100可以包括至少一个视觉传感器120和标注装置140。

至少一个视觉传感器120可以用于拍摄目标场景400内的视频数据。所述N个标签300能够被所述至少一个视觉传感器120拍摄。根据目标场景400的空间、陈列等的不同以及视觉传感器120的视角的不同，目标场景400内部可以分布多个视觉传感器120。至少一个视觉传感器120的视野可以覆盖目标场景400内的需要的空间。视觉传感器120可以是摄像头。视觉传感器120可以是单目摄像头，也可以是双目摄像头。至少一个视觉传感器120中的所有视觉传感器120均需进行外参标定。视觉传感器120可以与目标场景400的坐标系之间进行外参标定，视觉传感器120也可以在相互之间进行外参标定，从而使得不同的视觉传感器120拍摄的图像之间可以进行坐标转换。

至少一个视觉传感器120至少应该包括至少一个第一视觉传感器122。第一视觉传感器122可以用于拍摄目标场景400内的目标对象200的移动以及目标对象200的体貌特征。也就是说，第一视觉传感器122可以用于采集重识别的样本图像数据。在一些实施例中，第一视觉传感器122可以是目标场景400在投入使用时的视觉传感器。第一视觉传感器122可以用于拍摄所述目标场景400的第一视频数据。所述视频数据可以包括所述第一视频数据。根据目标场景400的空间、陈列等的不同以及第一视觉传感器122的视角的不同，可以在多个位置设置多个第一视觉传感器122。第一视觉传感器122可以是经过外参标定的单目摄像头，也可以是经过外参标定的双目摄像头，以对所述第一视频数据中的物体进行定位。

当标签300位于目标对象200的头部上方时，第一视觉传感器122在拍摄到目标对象200时，可能无法拍摄到目标对象200头顶的标签300。特别是当第一视觉传感器122的观测角度较大，即第一视觉传感器122的相机重心与地面的夹角较小时，比如小于45度时，第一视觉传感器122可能拍摄不到全部的标签300。此时，至少一个视觉传感器120可以包括至少一个第二视觉传感器124。第二视觉传感器124可以位于所述目标场景400的上方，从上至下拍摄目标场景400中的第二视频数据。所述视频数据可以包括所述第二视频数据。第二视觉传感器124可以是经过外参标定的单目摄像头，也可以是经过外参标定的双目摄像头，以对所述第二视频数据中的物体进行定位。所述至少一个第二视觉传感器124的视野应该至少部分覆盖所述至少一个第一视觉传感器122的视野，以保证出现在所述第一视频数据中的目标对象200对应的标签300可以出现在所述第二视频数据中。一个第二视觉传感器124的视野可以覆盖多个第一视觉传感器122的视野。根据目标场景400的空间、陈列等的不同以及第二视觉传感器124的视角的不同，目标场景400内可以分布多个第二视觉传感器124。为保证第二视觉传感器124能够拍摄到所述标签300，第二视觉传感器124距离地面的高度应大于预设高度。所述预设高度可以根据目标场景400的空间以及第二视觉传感器124的数量决定。比如，所述预设高度可以是2m，3m，4m，等等。在一些实施例中，至少一个第二视觉传感器124可以覆盖目标场景400内的所有空间，以保证至少一个第二视觉传感器124能够拍摄到目标场景400内的N个标签300中的所有标签300。

所述至少一个第二视觉传感器124可以与所述至少一个第一视觉传感器122之间进行外参标定，以便进行位置投影，使所述第二视频数据中的标签300可以通过坐标转换投影至所述第一视频数据中。

标注装置140可以与所述至少一个视觉传感器120通信连接，接收所述视频数据，并对所述视频数据中的每个目标对象200基于当前目标对象200预设范围内的标签300进行标注。所述通信连接是指能够直接地或者间接地接收信息的任何形式的连接。比如，标注装置140可以同至少一个视觉传感器120通过无线通讯建立无线连接来彼此传递数据；标注装置140也可以同至少一个视觉传感器120通过电线直接连接来彼此传递数据；标注装置140也可以通过电线同其他电路直接连接来建立同至少一个视觉传感器120的间接连接，从而实现彼此传递数据。

标注装置140可以存储有执行本说明书描述的图像数据标注的方法的数据或指令，并可以执行或用于执行所述数据和/或指令。标注装置140可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。当然，标注装置140也可以仅为具有数据处理能力的硬件设备，或者，仅为运行在硬件设备中的程序。在一些实施例中，标注装置140可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容，或其任意组合。在一些实施例中，所述移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强现实头盔、增强现实眼镜、增强现实补丁或类似内容，或其中的任何组合。在一些实施例中，所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中，标注装置140可以是具有定位技术的设备，用于定位标注装置140的位置。

图3示出了根据本说明书的实施例提供的一种标注装置140的设备示意图。标注装置140可以执行本说明书描述的图像数据标注的方法。所述图像数据标注的方法在本说明书中的其他部分介绍。

如图3所示，标注装置140可以包括至少一个存储介质143和至少一个处理器142。在一些实施例中，标注装置140还可以包括通信端口145和内部通信总线141。同时，标注装置140还可以包括I/O组件146。

内部通信总线141可以连接不同的系统组件，包括存储介质143、处理器142和通信端口145。

I/O组件146支持标注装置140和其他组件之间的输入/输出。

通信端口145用于标注装置140同外界的数据通信，比如，通信端口145可以用于标注装置140同视觉传感器120的数据通信。

存储介质143可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘、只读存储介质(ROM)或随机存取存储介质(RAM)中的一种或多种。存储介质143还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的图像数据标注的方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器142可以同至少一个存储介质143以及通信端口145通过内部通信总线141通信连接。至少一个处理器142用以执行上述至少一个指令集。当系统100运行时，至少一个处理器142读取所述至少一个指令集，并且根据所述至少一个指令集的指示通过通信端口145获取视觉传感器120的视频数据，执行本说明书提供的图像数据标注的方法。处理器142可以执行图像数据标注的方法包含的所有步骤。处理器142可以是一个或多个处理器的形式，在一些实施例中，处理器142可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中央处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中标注装置140中仅描述了一个处理器142。然而，应当注意，本说明书中标注装置140还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中标注装置140的处理器142执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器142联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

如前所述，标注装置140可以存储有执行本说明书描述的图像数据标注的方法的数据或指令，并可以执行或用于执行所述数据和/或指令。具体地，标注装置140中的处理器142可以执行所述图像数据标注的方法。所述图像数据标注的方法可以是图像数据标注的方法P100，也可以是图像数据标注的方法P200。图4示出了根据本说明书的实施例提供的一种图像数据标注的方法P100的流程图；图5示出了根据本说明书的实施例提供的另一种图像数据标注的方法P200的流程图。当所述至少一个视觉传感器120全部为第一视觉传感器122时，标注装置140可以执行所述方法P100；当所述至少一个视觉传感器120包括第一视觉传感器122和第二传感器124时，标注装置140可以执行所述方法P200。

如图4所示，所述方法P100可以包括通过处理器142执行：

S120：接收所述视频数据。

在视觉传感器120开始进行数据采集后，N个目标对象200携带各自的标签300进入目标场景400，并在目标场景400内自由移动。标注装置140中可以预先存储有标签300与标签300中编码的身份信息的对应关系。标注装置140中还可以预先存储有目标对象200与关联的身份信息的对应关系。也就是说，标注装置140中可以预先存储有表1中的对应关系。

在所述方法P100中，所述视频数据包括所述第一视频数据。所述视频数据中包括所述N个目标对象200携带对应的标签300在目标场景400内移动的视频。所述视频数据中可以包括多个图像帧以及每个图像帧对应的采集时间。所述图像帧可以是所述视频数据中的每一帧的图像数据。标注装置140通过与至少一个视觉传感器120的所述通信连接，接收所述视频数据。标注装置140中还可以根据所述视频数据记录每个目标对象200进入目标场景400的时间。在一些实施例中，标注装置140中还可以预先存储有每个目标对象200进入所述目标场景400的时间。

S140：对所述视频数据中的每个目标对象200基于其预设范围内的可见标签300进行标注。

具体地，步骤S140可以包括：

S142：对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像。

标注装置140可以对所述视频数据中的每个图像帧进行行人检测。所述行人检测是指检测所述视频数据中的图像帧中是否存在行人。所述行人检测包括人脸识别检测，即通过人脸识别技术检测所述图像帧中是否存在人脸。所述行人检测还包括人体识别检测，通过人体识别技术检测所述图像帧中是否存在人体。

当所述图像帧中不存在行人时，则不对图像帧进行标注，即忽略不存在行人的图像帧。当所述图像帧中存在行人(即目标对象200)时，需要对所述图像帧中的目标对象200进行标注。我们将存在行人的图像帧定义为目标图像。所述视频数据中可以包括M个目标图像。所述M个目标图像中的每个目标图像中包含有所述N个目标对象200中的至少一个，其中，M为不小于1的整数。

S144：对所述每个目标图像中的每个目标对象200进行标注。

在得到所述M个目标图像后，标注装置140需要对所述M个目标图像中的每个目标图像中的每个目标对象200进行标注。图6示出了根据本说明书的实施例提供的一种目标图像的示意图。如图6所示，所述目标图像中示出了4个目标对象200，分别是目标对象201、目标对象202、目标对象203和目标对象204。

具体地，标注装置140需要对每个目标图像中的每个目标对象200的图像数据进行标注。所述目标对象200的图像数据可以是目标对象200在当前目标图像中所处区域的图像数据。具体地，步骤S144可以包括：

S144-2：在当前目标图像中，截取当前目标对象200所处区域的图像作为所述当前目标对象200的图像数据。

具体地，将检测到行人的目标图像进行图像切割，获取所述目标图像中的人体区域的图像。所述人体区域可以是头部区域、上身区域和下身区域中的至少一种，也可以是头部区域、上肢区域、下肢区域、上身躯干区域等其他类型的人体区域中的至少一种，在此不做限定。如图6所示，图中方框部分的图像数据分别是目标对象201的图像数据、目标对象202的图像数据、目标对象203的图像数据和目标对象204的图像数据。

S144-4：确定所述当前目标对象200对应的目标标签。

为了方便描述，我们以目标对象201为所述当前目标对象200为例进行描述。在所述目标图像中，不仅可以包括目标对象200的图像数据，还可以包括至少一个标签300的图像数据。为了方便描述，我们将所述当前目标图像中的标签300的数量定义为P。其中，P为小于等于N的正整数。标注装置140需要从所述目标图像中包含的P个标签300中确定各个目标对象200各自对应的目标标签。所述N个标签300包括所述P个标签300。所述N个标签300包括所述目标标签。所述目标标签处于所述当前目标对象200的预设范围。

具体地，步骤S144-4可以包括：在所述当前目标图像中，确定所述当前目标对象200(目标对象201)的预设范围内存在至少一个标签300；从所述至少一个标签300中确定所述目标标签300。

如图6所示，图中方框部分框出来的图像为所述目标对象200的图像数据。所述预设范围可以是所述目标对象200的图像数据所在的范围。所述预设范围也可以是所述目标对象200的图像数据周围的一定范围。所述预设范围可以预先存储在标注装置140中。所述预设范围可以由人工进行更改或设定。所述预设范围也可以是通过机器学习得到的。当标签300位于目标对象200的头顶上方，或者距离头顶有一定距离时，所述预设范围可以是所述目标对象200的头顶上方的一定范围。

具体地，标注装置140可以根据当前目标对象200(目标对象201)的图像数据的位置信息，确定所述预设范围的位置信息。所述图像数据的位置信息可以是当前目标对象200(目标对象201)所在区域的像素点在所述当前目标图像中的位置。所述预设范围的位置信息可以是所述预设范围内的像素点在所述目标图像中的位置，比如像素点坐标。

标注装置140可以检测所述目标图像中的P个标签300，并计算出所述P个标签300中的每个标签300的几何中心的位置信息，即每个标签300的几何中心所处的像素点在所述当前目标图像中的位置。

标注装置140可以根据所述预设范围的位置信息以及所述P个标签300中的每个标签300的位置信息，确定所述预设范围内是否存在标签300。当当前目标对象200(目标对象201)的预设范围内不存在标签300时，当前目标对象200(目标对象201)的图像数据将会被认为是无效的样本数据。当当前目标对象200(目标对象201)的预设范围内存在至少一个标签300，标注装置140可以从所述至少一个标签300中确定当前目标对象200(目标对象201)对应的目标标签，即标签301。

当当前目标对象200(目标对象201)的所述预设范围内存在一个标签300(标签301)时，此时，标签300(标签301)被认为是当前目标对象200(目标对象201)对应的目标标签。当当前目标对象200(目标对象201)的所述预设范围内存在多个标签300时，标注装置140可以从所述多个标签300中选择与所述当前目标对象200(目标对象201)距离最近的标签300为所述目标标签，即标签301。当标签300位于目标对象200的头部上方时，标注装置140可以计算所述多个标签300中的每个标签300距离当前目标对象200(目标对象201)的图像数据所在的方框的顶边中心位置的距离，并将距离最近的标签300作为当前目标对象200(目标对象201)的目标标签(标签301)。

S144-6：识别出所述目标标签中的身份信息，使用所述目标标签中的身份信息对所述当前目标对象200的图像数据进行标注。

以目标对象201为当前目标对象200为例，标注装置140可以对所述目标标签(即标签301)进行解码，以识别出所述目标标签(即标签301)中包含的身份信息(ID＝1)，使用所述身份信息(ID＝1)对当前目标对象200(目标对象201)的图像数据进行标注，即建立当前目标对象200(目标对象201)的图像数据与所述目标标签(即标签301)中包含的身份信息(ID＝1)的映射关系。

综上所述，系统100使每个目标对象200携带包含身份信息的唯一对应的标签300进入目标场景400；标注装置140可以根据视频数据中的多个目标对象200与多个标签300的距离，确定每个目标对象300对应的目标标签；通过识别目标标签中的身份信息对视频数据中的每个目标对象200的图像数据进行自动标注，避免依赖人工进行标注，节省成本的同时提高效率和标注的准确度。

步骤S144还可以包括：

S144-8：对所述当前目标对象(目标对象201)进行角度标注。

具体地，步骤S144-8可以包括：确定所述目标标签相对于所述当前目标图像的角度；基于所述当前目标对象200与所述目标标签的相对角度关系，以及所述目标标签相对于所述当前目标图像的角度，确定所述当前目标对象200相对于所述当前目标图像的目标角度；使用所述目标角度对所述当前目标对象200的图像数据进行标注。

具体地，每个标签300都可以是具有方向性的定位标签，也就是说每个标签300都可以具有标签坐标。标注装置140可以根据所述当前目标图像中的所述目标标签(标签301)的图像数据，识别所述目标标签(标签301)的坐标系，确定所述目标标签(标签301)的坐标系在所述当前目标图像中的外参参数。所述外参参数可以包括所述目标标签(标签301)的坐标系相对于所述当前目标图像的坐标系的坐标位置以及目标标签(标签301)的坐标轴相对于所述当前目标图像的坐标轴的角度。

标注装置140中可以预先存储有所述N个目标对象200中的每个目标对象200与其对应的标签300的在佩戴时的相对角度关系。所述相对角度可以是一个角度范围。标注装置140可以根据当前目标对象200(即目标对象201)相对于所述目标标签(即标签301)的角度，以及所述目标标签(即标签301)相对于所述当前目标图像的角度，通过坐标转换公式，确定当前目标对象200(即目标对象201)相对于所述当前目标图像的目标角度。标注装置140可以根据所述目标角度确定当前目标对象200(目标对象201)相对于拍摄所述当前目标图像的视觉传感器120的朝向。也就是说，标注装置140可以根据所述目标标签(即标签301)在所述当前目标图像中的朝向以及目标标签(即标签301)相对于当前目标对象200(即目标对象201)的朝向，确定当前目标对象200(即目标对象201)在所述当前目标图像中的朝向，即当前目标对象200(目标对象201)相对于拍摄所述当前目标图像的视觉传感器120的朝向。

标注装置140可以以所述目标角度对当前目标对象200(即目标对象201)的图像数据进行标注，即建立当前目标对象200(目标对象201)的图像数据中当前目标对象200(目标对象201)的朝向数据。所述朝向数据的标注可以用于后期的重识别模型的训练，以对每个目标对象200的多个图像数据进行进一步的划分，比如，将每个目标对象200的多个图像数据进一步划分为人物正面，人物侧面(包括人物左侧面和人物右侧面)以及人物后面等，以提供更加细致、更加丰富的样本数据，有助于训练出更细致、更准确的重识别模型。

步骤S144还可以包括：

S144-9：对所述当前目标对象(目标对象201)进行遮挡关系标注。

具体地，步骤S144-9可以包括：计算所述当前目标图像中的每个目标对象200与所述至少一个视觉传感器120的距离；确定所述当前目标图像中的所有目标对象200之间的遮挡关系；基于所述遮挡关系对所述当前目标图像中的每个目标对象200的图像数据进行标注。

具体地，当所述第一视觉传感器122具有定位功能时，比如第一视觉传感器122是双目摄像头时，标注装置140可以根据所述当前目标图像中的每个目标对象200在所述当前目标图像中的位置信息，以及第一视觉传感器122的外参标定参数，经坐标变换公式，确定每个目标对象200在目标场景400的坐标系中的位置信息，从而确定所述当前目标图像中的每个目标对象200距离拍摄所述当前目标图像的第一视觉传感器122的相机光心的距离，进而确定所述当前目标图像中的所有目标对象200的遮挡关系。当第一视觉传感器122的相机光心与多个目标对象200处于同一直线或者接近于同一直线时，标注装置140可以确定距离第一视觉传感器122的相机光心较远的目标对象200可能会被第一视觉传感器122的相机光心较近的目标对象200遮挡。

标注装置140可以使用所述当前目标图像中的多个目标对象200之间的遮挡关系对所述当前目标图像中的每个目标对象200的图像数据进行标注。所述遮挡关系的标注可以用于后期的重识别模型的训练，以对每个目标对象200的多个图像数据进行进一步的划分，比如，将每个目标对象200的多个图像数据进一步划分为无遮挡、部分遮挡、遮挡面积等等，以提供更加细致、更加丰富的样本数据，有助于训练出更细致、更准确的重识别模型。

综上所述，所述系统100和方法P100，可以通过每个目标对象200携带的唯一对应的标签300，以自动识别目标对象200的身份信息，并对目标对象200的图像数据进行自动标注，无需依赖人工标注，在降低成本的同时提高数据自动标注的效率和准确度。同时，所述系统100和方法P100还能对目标对象200的朝向以及遮挡关系进行自动标注，以提供更细致、更准确的样本数据，有助于训练出更优质的重识别模型。

图5示出了根据本说明书的实施例提供的另一种图像数据标注的方法P200的流程图。如前所述，当第一视觉传感器122与地面的安装角度较小时，目标对象200头顶的标签300可能被遮挡，导致所述第一视频数据中拍摄到的目标对象200的头顶没有标签300，或者标签300被遮挡而无法识别出其中的身份信息。此时，至少一个视觉传感器120可以包括至少一个第二视觉传感器124，位于目标对象200的上方，从上至下拍摄标签300。图5对应的方法P200中，至少一个视觉传感器120可以包括至少一个第一视觉传感器122和至少一个第二视觉传感器124。如图5所示，所述方法P200可以包括通过处理器142执行：

S220：接收所述视频数据。

步骤S220与步骤S120基本一致。需要说明的是，在步骤S220中，所述视频数据包括所述第一视频数据和第二视频数据。所述视频数据中包括所述N个目标对象200携带对应的标签300在目标场景400内移动的视频。所述第一视频数据中可以包括多个图像帧以及每个图像帧对应的采集时间。所述第二视频数据中同样可以包括多个图像帧以及每个图像帧对应的采集时间。

S240：对所述视频数据中的每个目标对象200基于当前目标对象200预设范围内的标签300进行标注。

具体地，步骤S240可以包括：

S242：对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像。

标注装置140可以对所述第一视频数据中的每个图像帧进行行人检测。所述行人检测与步骤S242中基本一致，在此不再赘述。当所述图像帧中不存在行人时，则不对图像帧进行标注，即忽略不存在行人的图像帧。当所述图像帧中存在行人(即目标对象200)时，需要对所述图像帧中的目标对象200进行标注。我们将所述第一视频数据中存在行人的图像帧定义为第一图像。标注装置140可以从所述第一视频数据中确定M个第一图像。所述M个第一图像可以是方法P100中所述的M个目标图像。所述M个目标图像中的每个目标图像中包含有所述N个目标对象200中的至少一个，其中，M为不小于1的整数。

在步骤S242中，标注装置140开可以记录所述M个目标图像中的每个目标图像对应的时间信息。所述时间信息可以是所述目标图像被拍摄时的绝对时间信息，即时间戳。

S244：对所述每个目标图像中的每个目标对象200进行标注。

在得到所述M个目标图像后，标注装置140需要对所述M个目标图像中的每个目标图像中的每个目标对象200进行标注。

具体地，步骤S244可以包括：

S244-2：在当前目标图像中，截取当前目标对象200所处区域的图像作为所述当前目标对象200的图像数据。

步骤S244-2与步骤S144-2基本一致，本说明书对此不再赘述。

S244-4：确定所述当前目标对象200对应的目标标签。

具体地，步骤S244-4可以包括：

S244-42：在所述当前目标图像中，检测所述当前目标对象200的预设范围内是否存在标签300。

为了方便描述，我们以目标对象202为所述当前目标对象200为例进行描述。标注装置140中可以预先存储有所有标签300的图像特征数据。标注装置140可以根据标签300的图像特征数据，对所述当前目标图像进行识别，以检测所述当前目标图像中的所述当前目标对象200(目标对象202)的预设范围内是否存在标签300。

当在所述当前目标图像中，确定所述当前目标对象200(目标对象202)的预设范围内存在至少一个标签300时，执行步骤S144-4。

当在所述当前目标图像中，确定所述当前目标对象200(目标对象202)的预设范围内不存在标签300时，需要从所述第二视频数据中检测目标对象200对应的目标标签。如图6所示，目标对象202的预设范围内没不存在标签300。具体地，标注装置140执行如下步骤：

S244-44：基于所述当前目标图像的时间信息，从所述第二视频数据中确定与所述当前目标图像具有相同时间信息的第二图像。

为了获取所述当前目标图像中的目标对象200(目标对象202)对应的目标标签，需要以所述第二视频数据中，与所述当前目标图像同一时间拍摄的第二图像为基准图像进行检测。当第二视觉传感器124的数量为多个时，则与所述当前目标图像同一时间拍摄的第二图像也为多个。

如前所述第二视频数据用于拍摄目标场景400内的标签300。因此，所述第二图像中可以包括L个标签300，所述N个标签300包括所述L个标签300。其中，L≤N。

图7示出了根据本说明书的实施例提供的一种第二图像的示意图。图7所示的所述第二图像中示出了4个标签，分别是标签301、标签302、标签303和标签304。

S244-46：确定所述L个标签300中的每个标签300在所述第二图像中的位置信息。

所述位置信息可以是标签300所在像素点在所述第二图像中的位置，比如像素点的坐标。每个标签300在所述第二图像中的位置信息可以是每个标签300的几何中心所在像素点在所述第二图像中的位置。

当所述第二图像的数量为多个时，标注装置140可以确定所述多个第二图像中的每个第二图像中的所有标签300在当前第二图像中的位置信息。

S244-48：基于所述至少一个第二视觉传感器124与所述至少一个第一视觉传感器122的外参标定，确定所述L个标签300中的每个标签300在所述当前目标图像中的位置信息。

如前所述，第一视觉传感器122和第二视觉传感器124是经过外参标定的视觉传感器。如前所述，标签300可以是具有定位功能的标签，比如，AprilTag。标注装置140可以根据所述L个标签300中的每个标签300在所述第二图像中的位置信息以及第二视觉传感器124的外参标定参数，确定每个标签300在目标场景400的坐标系中的位置，即每个标签300的几何中心在目标场景400的坐标系中的位置。标注装置140可以根据每个标签300在目标场景400的坐标系中的位置以及第一视觉传感器122的外参标定参数，确定每个标签300在所述当前目标图像中的位置，即每个标签300的几何中心在所述当前目标图像中的像素点坐标。

S244-49：从所述L个标签300中确定与所述当前目标对象200的距离在预设范围内的标签300为所述目标标签。

所述预设范围可以是所述当前目标对象200(目标对象202)的图像数据所在的范围。所述预设范围也可以是所述当前目标对象200的图像数据周围的一定范围。所述预设范围可以预先存储在标注装置140中。所述预设范围可以由人工进行更改或设定。所述预设范围也可以是通过机器学习得到的。当标签300位于目标对象200的头顶上方，或者距离头顶有一定距离时，所述预设范围可以是所述当前目标对象200的头顶上方的一定范围。

具体地，标注装置140可以根据当前目标对象200(目标对象202)的图像数据的位置信息，确定所述预设范围的位置信息。

标注装置140可以计算在所述当前目标图像中的所述L个标签300中的每个标签300与当前目标对象200(目标对象202)的距离。

标注装置140可以根据所述预设范围在所述当前目标图像中的位置信息以及所述L个标签300中的每个标签300在所述当前目标图像中的位置信息，确定所述预设范围内是否存在标签300。当当前目标对象200(目标对象202)的预设范围内不存在标签300时，当前目标对象200(目标对象202)的图像数据将会被认为是无效的样本数据。当当前目标对象200(目标对象202)的所述预设范围内存在一个标签300(标签302)时，此时，标签300(标签301)被认为是当前目标对象200(目标对象202)对应的目标标签。当当前目标对象200(目标对象202)的所述预设范围内存在多个标签300时，标注装置140可以从所述多个标签300中选择与所述当前目标对象200(目标对象202)距离最近的标签300为所述目标标签，即标签302。当标签300位于目标对象200的头部上方时，标注装置140可以计算所述多个标签300中的每个标签300距离当前目标对象200(目标对象202)的图像数据所在的方框的顶边中心位置的距离，并将距离最近的标签300作为当前目标对象200(目标对象202)的目标标签(标签302)。

如图6所示，标注装置140可以检测到目标对象201对应的目标标签为标签301，目标对象202对应的目标标签为标签302，目标对象203对应的目标标签为标签303，目标对象204对应的目标标签为标签304。

步骤S244还可以包括：

S244-6：识别出所述目标标签中的身份信息，使用所述目标标签中的身份信息对所述当前目标对象200的图像数据进行标注。步骤S244-6与步骤S144-6基本一致，在此不再赘述。

S244-8：对所述当前目标对象(目标对象202)进行角度标注。

步骤S244-8与步骤S144-8基本一致，在此不再赘述。

S244-9：对所述当前目标对象(目标对象202)进行遮挡关系标注。

步骤S244-9与步骤S144-9基本一致，在此不再赘述。

综上所述，所述系统100、方法P100和方法P200，可以通过每个目标对象200携带的唯一对应的标签300，以自动识别目标对象200的身份信息，并对目标对象200的图像数据进行自动标注，无需依赖人工标注，在降低成本的同时提高数据自动标注的效率和准确度。同时，所述系统100、方法P100和方法P200可以进一步确定目标对象在室内的定位，以此可以判定当前目标图像中的目标对象200的遮挡关系。而且，所述系统100、方法P100和方法P200还可以知道目标对象200的朝向。所述系统100、方法P100和方法P200还能对目标对象200的朝向以及遮挡关系进行自动标注，以提供更细致、更准确的样本数据，有助于训练出更优质的重识别模型。

需要说明的是，本说明所述的系统100和方法P100以及方法P200不仅可以应用于室内场景，也可以应用于室外场景。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组用来图像数据标注的可执行指令，当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的图像数据标注的方法P100和P200的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在标注装置140上运行时，所述程序代码用于使标注装置140执行本说明书描述的图像数据标注的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在标注装置140上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统(例如处理器320)使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在标注装置140上执行、部分地在标注装置140上执行、作为一个独立的软件包执行、部分在标注装置140上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分特征提取出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims

1.一种图像数据标注的系统，用于行人重识别的样本数据标注，包括：

至少一个视觉传感器，用于拍摄目标场景内的视频数据，所述目标场景中包括移动的N个目标对象和N个标签，所述N个目标对象中的每个目标对象表面附着有与其唯一对应的所述N个标签中的一个标签，其中，N为不小于1的整数；以及

标注装置，与所述至少一个视觉传感器通信连接，接收所述视频数据，并对所述视频数据中的每个目标对象基于其预设范围内的可见标签进行标注，包括：对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像，所述M个目标图像中的每个目标图像中包含有所述N个目标对象中的至少一个，其中，M为不小于1的整数，以及对所述每个目标图像中的每个目标对象进行标注。

2.如权利要求1所述的图像数据标注的系统，其中，所述N个标签中的每个标签位于对应的目标对象身上的预定位置。

3.如权利要求2所述的图像数据标注的系统，其中，所述N个标签中的每个标签包括与其对应的目标对象关联的唯一的身份信息经过编码后的编码图案。

4.如权利要求3所述的图像数据标注的系统，其中，所述标签包括AprilTag、二维码以及QR code中的至少一种。

5.如权利要求3所述的图像数据标注的系统，其中，所述对所述每个目标图像中的每个目标对象进行标注，包括：

在当前目标图像中，截取当前目标对象所处区域的图像作为所述当前目标对象的图像数据；

确定所述当前目标对象对应的目标标签，所述目标标签处于所述当前目标对象的预设范围内，所述N个标签包括所述目标标签；以及

识别出所述目标标签中的身份信息，使用所述目标标签中的身份信息对所述当前目标对象的图像数据进行标注。

6.如权利要求5所述的图像数据标注的系统，其中，所述确定所述当前目标对象对应的目标标签，包括：

在所述当前目标图像中，确定所述当前目标对象的预设范围内存在至少一个标签，所述N个标签包括所述至少一个标签；以及

从所述至少一个标签中确定所述目标标签。

7.如权利要求6所述的图像数据标注的系统，其中，所述从所述至少一个标签中确定所述目标标签，包括：

8.如权利要求5所述的图像数据标注的系统，其中，所述N个标签中的每个标签位于对应的目标对象的顶部。

9.如权利要求8所述的图像数据标注的系统，其中，所述视频数据包括所述目标场景的第一视频数据和所述目标场景的第二视频数据；以及

所述至少一个视觉传感器包括：

至少一个第一视觉传感器，拍摄所述第一视频数据，位于所述目标场景中至少能够拍摄到所述目标对象的部分特征的位置；以及

至少一个第二视觉传感器，位于所述目标场景的上方，拍摄所述第二视频数据，所述至少一个第二视觉传感器的视野至少部分覆盖所述至少一个第一视觉传感器的视野并且覆盖所述N个标签中的所有标签所在的位置，

其中，所述至少一个第二视觉传感器与所述至少一个第一视觉传感器之间进行外参标定。

10.如权利要求9所述的图像数据标注的系统，其中，所述对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像，包括：

对所述第一视频数据中的图像进行行人检测，从所述第一视频数据中确定M个第一图像，所述M个第一图像为所述M个目标图像，并记录所述每个目标图像的时间信息。

11.如权利要求10所述的图像数据标注的系统，其中，所述确定所述当前目标对象对应的目标标签，包括：

基于所述当前目标图像的时间信息，从所述第二视频数据中确定与所述当前目标图像具有相同时间信息的第二图像，其中，所述第二图像中包括L个标签，所述N个标签包括所述L个标签；

确定所述L个标签中的每个标签在所述第二图像中的位置信息；

基于所述至少一个第二视觉传感器与所述至少一个第一视觉传感器的外参标定，确定所述L个标签中的每个标签在所述当前目标图像中的位置信息；以及

从所述L个标签中确定与所述当前目标对象的距离在所述预设范围内的标签为所述目标标签。

12.如权利要求5所述的图像数据标注的系统，其中，所述标注装置中预先存储有所述N个目标对象中的每个目标对象与其对应的标签的相对角度关系。

13.如权利要求12所述的图像数据标注的系统，其中，所述对所述每个目标图像中的每个目标对象进行标注，还包括：

对所述当前目标对象的图像数据进行角度标注，包括：

确定所述目标标签相对于所述当前目标图像的角度；

基于所述当前目标对象与所述目标标签的相对角度关系，以及所述目标标签相对于所述当前目标图像的角度，确定所述当前目标对象相对于所述当前目标图像的目标角度；以及

使用所述目标角度对所述当前目标对象的图像数据进行标注。

14.如权利要求5所述的图像数据标注的系统，其中，所述对所述每个目标图像中的每个目标对象进行标注，还包括：

对所述当前目标对象的图像数据进行遮挡关系标注，包括：

计算所述当前目标图像中的每个目标对象与所述至少一个视觉传感器的距离；

确定所述当前目标图像中的所有目标对象之间的遮挡关系；以及

基于所述遮挡关系对所述当前目标图像中的每个目标对象的图像数据进行标注。

15.一种图像数据标注的方法，应用于权利要求1所述的图像数据标注的系统，包括通过所述标注装置执行：

接收所述视频数据；以及

对所述视频数据中的每个目标对象基于其预设范围内的可见标签进行标注，包括：对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像，所述M个目标图像中的每个目标图像中包含有所述N个目标对象中的至少一个，其中，M为不小于1的整数，以及对所述每个目标图像中的每个目标对象进行标注。

16.如权利要求15所述的图像数据标注的方法，其中，所述N个标签中的每个标签位于对应的目标对象身上的预定位置。

17.如权利要求16所述的图像数据标注的方法，其中，所述N个标签中的每个标签包括与其对应的目标对象关联的唯一的身份信息经过编码后的编码图案。

18.如权利要求17所述的图像数据标注的方法，其中，所述标签包括AprilTag、二维码以及QR code中的至少一种。

19.如权利要求17所述的图像数据标注的方法，其中，所述对所述每个目标图像中的每个目标对象进行标注，包括：

确定所述当前目标对象对应的目标标签，所述目标标签处于所述当前目标对象的预设范围，所述N个标签包括所述目标标签；以及

20.如权利要求19所述的图像数据标注的方法，其中，所述确定所述当前目标对象对应的目标标签，包括：

从所述至少一个标签中确定所述目标标签。

21.如权利要求20所述的图像数据标注的方法，其中，所述从所述至少一个标签中确定所述目标标签，包括：

22.如权利要求19所述的图像数据标注的方法，其中，所述N个标签中的每个标签位于对应的目标对象的顶部。

23.如权利要求22所述的图像数据标注的方法，其中，所述视频数据包括所述目标场景的第一视频数据和所述目标场景的第二视频数据；以及

所述至少一个视觉传感器包括：

24.如权利要求23所述的图像数据标注的方法，其中，所述对所述视频数据中的图像进行行人检测，从所述视频数据中确定M个目标图像，包括：

25.如权利要求24所述的图像数据标注的方法，其中，所述确定所述当前目标对象对应的目标标签，包括：

从所述L个标签中确定与所述当前目标对象的距离在预设范围内的标签为所述目标标签。

26.如权利要求19所述的图像数据标注的方法，其中，所述标注装置中预先存储有所述N个目标对象中的每个目标对象与其对应的标签的相对角度关系。

27.如权利要求26所述的图像数据标注的方法，其中，所述对所述每个目标图像中的每个目标对象进行标注，还包括：

对所述当前目标对象的图像数据进行角度标注，包括：

确定所述目标标签相对于所述当前目标图像的角度；

28.如权利要求19所述的图像数据标注的方法，其中，所述对所述每个目标图像中的每个目标对象进行标注，还包括：

对所述当前目标对象的图像数据进行遮挡关系标注，包括：