CN111724441A

CN111724441A - 图像标注方法及装置、电子设备及存储介质

Info

Publication number: CN111724441A
Application number: CN202010470248.XA
Authority: CN
Inventors: 杨昆霖; 夏鹏程; 侯军; 伊帅
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-29
Also published as: KR102413000B1; JP7167359B2; WO2021238151A1; TW202145074A; KR20210149040A; TWI769641B; US20220058824A1; JP2022538197A

Abstract

本申请公开了一种图像标注方法及装置、电子设备及存储介质。该方法包括：获取待标注图像和第一尺度指标；所述待标注图像携带第一人物的人物点标签；所述第一人物的人物点标签包括第一人物点的第一位置；所述第一尺度指标表征第一尺寸与第二尺寸之间的映射；所述第一尺寸为位于所述第一位置的第一参考物体的尺寸；所述第二尺寸为所述第一参考物体在真实世界下的尺寸；在所述第一尺度指标大于或等于第一阈值的情况下，基于所述第一人物点构建像素点邻域；所述像素点邻域包括不同于所述第一人物点的第二像素点；将所述第二像素点的位置作为所述第一人物的人物点标签。

Description

图像标注方法及装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种图像标注方法及装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的快速发展，各种计算机视觉模型应运而生，其中就包括人物定位模型。而在使用人物定位模型进行定位之前，需要对人物定位模型进行训练。训练图像的标注信息为训练图像中人物区域内的像素点的位置。

目前，通过人工标注的方式可标注出训练图像中人物区域内的像素点的位置，得到人物点标签，但人物点标签的准确度低。

发明内容

本申请提供一种图像标注方法及装置、电子设备及存储介质。

第一方面，提供了一种图像标注方法，所述方法包括：

获取待标注图像和第一尺度指标；所述待标注图像携带第一人物的人物点标签；所述第一人物的人物点标签包括第一人物点的第一位置；所述第一尺度指标表征第一尺寸与第二尺寸之间的映射；所述第一尺寸为位于所述第一位置的第一参考物体的尺寸；所述第二尺寸为所述第一参考物体在真实世界下的尺寸；

在所述第一尺度指标大于或等于第一阈值的情况下，基于所述第一人物点构建像素点邻域；所述像素点邻域包括不同于所述第一人物点的第一像素点；

将所述第一像素点的位置作为所述第一人物的人物点标签。

在该方面中，以已标注人物点和已标注人物点的尺度指标，确定人物区域中是否存在未标注的像素点。在确定人物区域中存在未标注的像素点的情况下，基于已标注人物点构建像素点邻域，并将像素点邻域内除已标注人物点之外的像素点的位置，作为与该人物区域对应的人物的标签，从而提高标注准确度。

结合本申请任一实施方式，所述方法还包括：

获取第一长度；所述第一长度为所述第一人物在真实世界下的长度；

依据所述第一位置、所述第一尺度指标和所述第一长度，得到所述第一人物的至少一个人物框的位置；

将所述至少一个人物框的位置作为所述第一人物的人物框标签。

结合本申请任一实施方式，所述至少一个人物框的位置包括第二位置；

所述依据所述第一位置、所述第一尺度指标和所述第一长度，得到所述第一人物的至少一个人物框的位置，包括：

确定所述第一尺度指标与所述第一长度的乘积，得到所述第一人物在待标注图像中的第二长度；

依据所述第一位置和所述第二长度，确定第一人物框的位置，作为所述第二位置；所述第一人物框的中心为所述第一人物点；所述第一人物框在y轴方向上的最大长度不小于所述第二长度。

结合本申请任一实施方式，所述第一人物框的形状为矩形；

所述依据所述第一位置和所述第二长度，确定第一人物框的位置，包括：

依据所述第一位置和所述第二长度，确定所述第一人物框的对角顶点的坐标；所述对角顶点包括第一顶点和第二顶点；所述第一顶点和所述第二顶点均为第一线段的上的点；所述第一线段为所述第一人物框的对角线。

结合本申请任一实施方式，所述第一人物框的形状为正方形；所述第一位置在所述待标注图像的像素坐标系下的坐标为：(p，q)；

所述依据所述第一位置和所述第二长度，确定所述第一人物框的对角顶点的坐标，包括：

确定所述p与第三长度之间的差得到第一横坐标，确定所述q与所述第三长度之间的差得到第一纵坐标，确定所述p与所述第三长度之间的和得到第二横坐标，确定所述p与所述第三长度之间的和得到第二纵坐标；所述第三长度为所述第二长度的一半；

将所述第一横坐标作为所述第一顶点的横坐标，将所述第一纵坐标作为所述第一顶点的纵坐标，将所述第二横坐标作为所述第二顶点的横坐标，将所述第二纵坐标作为所述第二顶点的纵坐标。

结合本申请任一实施方式，所述获取第一尺度指标，包括：

对所述待标注图像进行物体检测处理，得到第一物体框和第二物体框；

依据所述第一物体框在y轴方向上的长度得到第三长度，依据所述第二物体框在y轴方向上的长度得到第四长度；所述y轴为所述待标注图像的像素坐标系的纵轴；

依据所述第三长度和第一物体在真实世界下的第五长度得到第二尺度指标，依据所述第四长度和第二物体在真实世界下的第六长度得到第三尺度指标；所述第一物体为所述第一物体框所包含的检测对象；所述第二物体为所述第二物体框所包含的检测对象；所述第二尺度指标表征第三尺寸与第四尺寸之间的映射；所述第三尺寸为位于第二尺度位置的第二参考物体的尺寸；所述第四尺寸为所述第二参考物体在真实世界下的尺寸；所述第二尺度位置为所述待标注图像中依据所述第一物体框的位置确定的位置；所述第三尺度指标表征第五尺寸与第六尺寸之间的映射；所述第五尺寸为位于第三尺度位置的第三参考物体的尺寸；所述第六尺寸为所述第三参考物体在真实世界下的尺寸；所述第三尺度位置为所述待标注图像中依据所述第二物体框的位置确定的位置；

对所述第二尺度指标和所述第三尺度指标进行曲线拟合处理，得到所述待标注图像的尺度指标图；所述尺度指标图中的第一像素值表征第七尺寸与第八尺寸之间的映射；所述第七尺寸为位于第四尺度位置的第四参考物体的尺寸；所述第八尺寸为所述第四参考物体在真实世界下的尺寸；所述第一像素值为第二像素点的像素值；所述第四尺度位置为第三像素点在所述待标注图像中的位置；所述第二像素点在所述尺度指标图中的位置与所述第三像素点在所述待标注图像中的位置相同；

依据所述尺度指标图和所述第一位置，得到所述第一尺度指标。

结合本申请任一实施方式，所述第一人物的人物点标签属于已标注人物点标签；所述第一人物的人物框标签属于已标注人物框标签；所述方法还包括：

获取待训练网络；

使用所述待训练网络对所述待标注图像进行处理，得到所述至少一个人物点的位置和至少一个人物框的位置；

依据所述已标注人物点标签与所述至少一个人物点的位置之间的差异，得到第一差异；

依据所述已标注人物框标签与所述至少一个人物框的位置之间的差异，得到第二差异；

依据所述第一差异和所述第二差异，得到所述待训练网络的损失；

基于所述损失更新所述待训练网络的参数，得到人群定位网络。

结合本申请任一实施方式，所述已标注人物点标签还包括第二人物的人物点标签；所述第二人物的人物点标签包括第二人物点的第三位置；所述至少一个人物点的位置包括：第四位置和第五位置；所述第四位置为所述第一人物的人物点的位置，所述第五位置为所述第二人物的人物点的位置；

在所述依据所述已标注人物点标签与所述至少一个人物点的位置之间的差异，得到第一差异之前，所述方法还包括：

获取第四尺度指标；所述第四尺度指标表征第九尺寸与第十尺寸之间的映射；所述第九尺寸为位于所述第三位置的第五参考物体的尺寸；所述第十尺寸为所述第五参考物体在真实世界下的尺寸；

所述依据所述已标注人物点标签与所述至少一个人物点的位置之间的差异，得到第一差异，包括：

依据所述第一位置与所述第四位置之间的差异得到第三差异，依据所述第三位置与所述第五位置之间的差异得到第四差异；

依据所述第一尺度指标和所述第四尺度指标，得到所述第三差异的第一权重和所述第四差异的第二权重；在所述第一尺度指标小于所述第四尺度指标的情况下，所述第一权重大于所述第二权重；在所述第一尺度指标大于所述第四尺度指标的情况下，所述第一权重小于所述第二权重；在所述第一尺度指标等于所述第四尺度指标的情况下，所述第一权重等于所述第二权重；

依据所述第一权重和所述第二权重，对所述第三差异和所述第四差异加权求和，得到所述第一差异。

结合本申请任一实施方式，所述获取第四尺度指标，包括：

依据所述尺度指标图和所述第三位置，得到所述第四尺度指标。

结合本申请任一实施方式，所述使用所述待训练网络对所述待标注图像进行处理，得到所述至少一个人物点的位置和至少一个人物框的位置，包括：

对所述待标注图像进行特征提取处理，得到第一特征数据；

对所述第一特征数据进行下采样处理，得到所述至少一个人物框的位置；

对所述第一特征数据进行上采样处理，得到所述至少一个人物点的位置。

结合本申请任一实施方式，所述对所述第一特征数据进行下采样处理，得到所述至少一个人物框的位置，包括：

对所述第一特征数据进行下采样处理，得到第二特征数据；

对所述第二特征数据进行卷积处理，得到所述至少一个人物框的位置；

所述对所述第一特征数据进行上采样处理，得到所述至少一个人物点的位置，包括：

对所述第一特征数据进行上采样处理，得到第三特征数据；

对所述第二特征数据与所述第三特征数据进行融合处理，得到第四特征数据；

对所述第四特征数据进行上采样处理，得到所述至少一个人物点的位置。

结合本申请任一实施方式，所述方法还包括：

获取待处理图像；

使用所述人群定位网络对所述待处理图像进行处理，得到第三人物的人物点的位置和所述第三人物的人物框的位置；所述第三人物为所述待处理图像中的人物。

第二方面，提供了一种图像标注装置，所述装置包括：

获取单元，用于获取待标注图像和第一尺度指标；所述待标注图像携带第一人物的人物点标签；所述第一人物的人物点标签包括第一人物点的第一位置；所述第一尺度指标表征第一尺寸与第二尺寸之间的映射；所述第一尺寸为位于所述第一位置的第一参考物体的尺寸；所述第二尺寸为所述第一参考物体在真实世界下的尺寸；

构建单元，用于在所述第一尺度指标大于或等于第一阈值的情况下，基于所述第一人物点构建像素点邻域；所述像素点邻域包括不同于所述第一人物点的第一像素点；

第一处理单元，用于将所述第一像素点的位置作为所述第一人物的人物点标签。

结合本申请任一实施方式，所述获取单元还用于：

所述装置还包括第二处理单元，所述第二处理单元用于：

所述第二处理单元用于：

结合本申请任一实施方式于，所述第一人物框的形状为矩形；

所述第二处理单元用于：

结合本申请任一实施方式，所述获取单元用于：

结合本申请任一实施方式，所述第一人物的人物点标签属于已标注人物点标签；所述第一人物的人物框标签属于已标注人物框标签；所述获取单元还用于：

获取待训练网络；

所述装置还包括第三处理单元，所述第三处理单元用于：

所述获取单元，还用于在所述依据所述已标注人物点标签与所述至少一个人物点的位置之间的差异，得到第一差异之前，获取第四尺度指标；所述第四尺度指标表征第九尺寸与第十尺寸之间的映射；所述第九尺寸为位于所述第三位置的第五参考物体的尺寸；所述第十尺寸为所述第五参考物体在真实世界下的尺寸；

所述第三处理单元用于：

结合本申请任一实施方式，所述获取单元用于：

结合本申请任一实施方式，所述第三处理单元用于：

对所述待标注图像进行特征提取处理，得到第一特征数据；

结合本申请任一实施方式，所述第三处理单元用于：

对所述第一特征数据进行下采样处理，得到第二特征数据；

对所述第一特征数据进行上采样处理，得到第三特征数据；

结合本申请任一实施方式，所述获取单元还用于：

获取待处理图像；

所述装置还包括第四处理单元，所述第四处理单元用于：

第三方面，提供了一种处理器，所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种人群图像示意图；

图2为本申请实施例提供的一种像素坐标系示意图；

图3为本申请实施例提供的一种图像标注方法的流程示意图；

图4为本申请实施例提供的一种图像示意图；

图5为本申请实施例提供的一种待标注图像示意图；

图6为本申请实施例提供的另一种图像标注方法的流程示意图；

图7为本申请实施例提供的另一种图像标注方法的流程示意图；

图8为本申请实施例提供的一种指示牌示意图；

图9为本申请实施例提供的另一种图像标注方法的流程示意图；

图10为本申请实施例提供的一种相同位置的元素的示意图；

图11为本申请实施例提供的一种人群定位网络的结构示意图；

图12为本申请实施例提供的一种主干网络的结构示意图；

图13为本申请实施例提供的一种人物点分支和人物框分支的结构示意图；

图14为本申请实施例提供的一种图像标注装置的结构示意图；

图15为本申请实施例提供的一种图像标注装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

首先对下文将要出现的一些概念进行定义。本申请实施例中，图像中近处的人物对应的图像尺度大，图像中远处的人物对应的图像尺度小。本申请实施例中的“远”指与图像中人物对应的真实人物与采集上述图像的成像设备之间的距离远，“近”指与图像中人物对应的真实人物与采集上述图像的成像设备之间的距离近。

在图像中，近处的人物覆盖的像素点区域的面积比远处的人物覆盖的像素点区域的面积大。例如，图1中人物A相较于人物B为近处的人物，且人物A覆盖的像素点区域的面积比人物B覆盖的像素点区域的面积大。而近处的人物覆盖的像素点区域的尺度大，远处的人物覆盖的像素点区域的尺度小。因此，人物覆盖的像素点区域的面积与人物覆盖的像素点区域的尺度呈正相关。

本申请实施例中，图像中的位置均指图像的像素坐标下的位置。本申请实施例中的像素坐标系的横坐标用于表示像素点所在的列数，像素坐标系下的纵坐标用于表示像素点所在的行数。例如，在图2所示的图像中，以图像的左上角为坐标原点O、平行于图像的行的方向为X轴的方向、平行于图像的列的方向为Y轴的方向，构建像素坐标系为XOY。横坐标和纵坐标的单位均为像素点。例如，图2中的像素点A₁₁的坐标为(1，1)，像素点A₂₃的坐标为(3，2)，像素点A₄₂的坐标为(2，4)，像素点A₃₄的坐标为(4，3)。

本申请实施例中，[a，b]表示大于或等于a且小于或等于b的取值区间；(c，d]表示大于c且小于或等于d的取值区间；[e，f)表示大于或等于e且小于f的取值区间。

本申请实施例的执行主体为图像标注装置。可选的，图像标注装置可以是以下中的一种：手机、计算机、服务器、平板电脑。下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图3，图3是本申请实施例提供的一种图像标注方法的流程示意图。

301、获取待标注图像和第一尺度指标。

本申请实施例中，待标注图像可以是任意图像。例如，待标注图像可以包含人物。待标注图像可以只包括人头，并无躯干、四肢(下文将躯干和四肢称为人体)。待标注图像也可以只包括人体，不包括人头。待标注图像还可以只包括下肢或上肢。本申请对待标注图像具体包含的人体区域不做限定。又例如，待标注图像可以包含动物。再例如，待标注图像可以包含植物。本申请对待标注图像中包含的内容不做限定。

在待标注图像中，人物点所覆盖的像素点区域可视为人物区域，其中人物区域为人体所覆盖的像素点区域。例如，第一人物点所覆盖的区域属于人头所覆盖的像素点区域。又例如，第一人物点所覆盖的区域属于手臂所覆盖的像素点区域。再例如，第一人物点所覆盖的区域属于躯干所覆盖的像素点区域。

本申请实施例中，待标注图像携带第一人物的人物点标签。第一人物的人物点标签包括第一人物点的第一位置。即待标注图像中的第一位置属于第一位置为第一人物的人物区域。

本申请实施例中，在图像中，某处的尺度指标(包括上述第一尺度指标，以及下文将要出现的第二尺度指标、第三尺度指标、第四尺度指标)表征位于该处的物体的尺寸与该物体在真实世界下尺寸之间的映射关系。

在一种可能实现的方式中，某处的尺度指标表征在该处表示真实世界下的1米所需像素点的数量。例如，假设在图4所示的图像中，像素点A₃₁所在位置的尺度指标为50，像素点A₁₃所在位置的尺度指标为20。那么在像素点A₃₁所在位置表示真实世界下的1米所需像素点数量为50。

在另一种可能实现的方式中，某处的尺度指标表征位于该处的物体的尺寸与该物体在真实世界下尺寸之间的比值。例如，假设在图4所示的图像中，物体1位于像素点A₁₃所在的位置，物体2位于像素点A₃₁所在的位置。像素点A₃₁所在位置的尺度指标为50，像素点A₁₃所在位置的尺度指标为20。那么物体1在图像中的尺寸与物体1在真实世界下的尺寸之间的比值为20，物体2在图像中的尺寸与物体2在真实世界下的尺寸之间的比值为50。

在又一种可能实现的方式中，某处的尺度指标表征位于该处的物体的尺寸与该物体在真实世界下尺寸之间的比值的倒数。例如，假设在图4所示的图像中，物体1位于像素点A₁₃所在的位置，物体2位于像素点A₃₁所在的位置。像素点A₃₁所在位置的尺度指标为50，像素点A₁₃所在位置的尺度指标为20。那么物体1在真实世界下的尺寸与物体1在图像中的尺寸之间的比值为20，物体2在真实世界下的尺寸与物体2在图像中的尺寸之间的比值为50。

可选的，尺度相同的位置的尺度指标相同。例如，在图4所示的图像中，像素点A₁₁的尺度、像素点A₁₂的尺度、像素点A₁₃的尺度均相同，像素点A₂₁的尺度、像素点A₂₂的尺度、像素点A₂₃的尺度均相同，像素点A₃₁的尺度、像素点A₃₂的尺度、像素点A₃₃的尺度均相同。像素点A₁₁的尺度指标、像素点A₁₂的尺度指标、像素点A₁₃的尺度指标均相同，像素点A₂₁的尺度指标、像素点A₂₂的尺度指标、像素点A₂₃的尺度指标均相同，像素点A₃₁的尺度指标、像素点A₃₂的尺度指标、像素点A₃₃的尺度指标均相同。

本申请实施例中，第一尺度指标为第一位置的尺度指标。假设第一参考物体位于第一位置，则第一尺度指标表征在第一尺寸与第二尺寸之间的映射，其中，第一尺寸为第一参考物体在待标注图像中的尺寸，第二尺寸为第一参考物体在真实世界下的尺寸。

在一种获取待标注图像的实现方式中，图像标注装置接收用户通过输入组件输入的待标注图像。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取待标注图像的实现方式中，图像标注装置接收第一终端发送的待标注图像。可选的，第一终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。

在又一种获取待标注图像的实现方式中，图像标注装置可以通过成像组件采集得到待标注图像。可选的，上述成像组件可以是摄像头。

在一种获取第一尺度指标的实现方式中，图像标注装置接收用户通过输入组件输入的第一尺度指标。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取第一尺度指标的实现方式中，图像标注装置接收第二终端发送的第一尺度指标。可选的，第二终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。第二终端与第一终端可以相同，也可以不同。

302、在上述第一尺度指标大于或等于第一阈值的情况下，基于上述第一人物点构建像素点邻域。

传统图像标注方法中，通过人工标注的方式将待标注图像中的人物区域所包含的像素点的位置标注出来得到人物点标签。由于待标注图像中可能存在面积较大的人物区域，通过传统方法得到的人物点标签(如待标注图像携带的人物点标签)可能不能完全覆盖整个人物区域。

考虑到在待标注图像中，距离像素坐标系的x轴越远，人物区域的面积越大，而待标注图像中某个位置的尺度指标可用于表征该位置与x轴之间的距离。图像标注装置以尺度指标为依据，确定人物区域与x轴之间的距离，进而确定该人物区域中是否存在未被标注的像素点。

由于待标注图像中某个位置的尺度指标与该位置与x轴之间的距离呈正相关，图像标注装置以尺度指标是否大于或等于第一阈值为依据，确定该位置的人物区域中是否存在未被标注的像素点。

在一种可能实现的方式中，第一尺度指标大于或等于第一阈值表征第一人物的人物区域中存在未被标注的像素点。可选的，第一阈值的具体大小可依据实际需求确定。可选的，第一阈值为16。

因为人物区域中未被标注的像素点通常靠近人物区域的边界，且人物区域中已标注的像素点通常靠近人物区域的中心。所以在确定人物区域中存在未被标注的像素点的情况下，图像标注装置可基于已标注像素点构建像素点邻域，使该像素点邻域包括除已标注像素点之外的像素点，并对除已标注像素点之外的像素点进行标注。

在一种可能实现的方式中，在第一尺度指标大于或等于第一阈值的情况下，图像标注装置基于第一人物点构建像素点邻域，该像素点邻域包括不同于第一人物点的至少一个像素点(如第一像素点)。

本申请实施例中，对构建像素点邻域的方式不做限定。例如，假设在图5所示的待标注图像中，第一人物点为像素点A₃₂。图像标注装置可通过将与像素点A₃₂之间的距离为1个像素点的像素点，作为像素点邻域内的像素点，构建像素点邻域。此时，该像素点邻域包括：像素点A₂₁、像素点A₂₂、像素点A₂₃、像素点A₃₁、像素点A₃₂、像素点A₃₃、像素点A₄₁、像素点A₄₂、像素点A₄₃。

图像标注装置还可以基于第一人物点构建尺寸为2*2的像素点邻域。此时，该像素点邻域包括：像素点A₂₁、像素点A₂₂、像素点A₃₁、像素点A₃₂。

图像标注装置还可以以像素点A₃₂为圆心、半径为1.5个像素点，构建像素点邻域。此时，该像素点邻域包括：像素点A₂₁的部分区域、像素点A₂₂、像素点A₂₃的部分区域、像素点A₃₁、像素点A₃₂、像素点A₃₃、像素点A₄₁的部分区域、像素点A₄₂、像素点A₄₃的部分区域。

由于人物区域的面积越大，人物区域中未被标注的像素点的数量可能越多。作为一种可选的实施方式，在第一尺度指标处于[第一阈值，第二阈值)的情况下，将与第一人物点之间的距离为1个像素点的像素点，作为像素点邻域内的像素点，构建像素点邻域；在第一尺度指标大于或等于第二阈值的情况下，将与第一人物点之间的距离为2个像素点的像素点，作为像素点邻域内的像素点，构建像素点邻域。

303、将上述第一像素点的位置作为第一人物的人物点标签。

在基于第一人物点构建像素点邻域后，图像标注装置可对第一像素点进行标注，即将第一像素点的位置作为第一人物的人物点标签。

可选的，图像标注装置可对像素点邻域内除第一人物点之外的所有像素点进行标注，即将像素点邻域内除第一人物点之外的所有像素点的位置作为第一人物的人物点标签。

本申请实施例中，以已标注人物点和已标注人物点的尺度指标，确定人物区域中是否存在未标注的像素点。在确定人物区域中存在未标注的像素点的情况下，基于已标注人物点构建像素点邻域，并将像素点邻域内除已标注人物点之外的像素点的位置，作为与该人物区域对应的人物的标签，从而提高标注准确度。

请参阅图6，图6是本申请实施例提供的另一种图像标注方法的流程示意图。

601、获取第一长度。

本申请实施例中，第一长度为第一人物在真实世界下的长度。例如，第一长度可以是第一人物在真实世界下的身高。又例如，第一长度可以是第一人物的脸在真实世界下的长度。再例如，第一长度可以是第一人物的头在真实世界下的长度。

在一种获取第一长度的实现方式中，图像标注装置接收用户通过输入组件输入的第一长度。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取第一长度的实现方式中，图像标注装置接收第三终端发送的第一长度。可选的，第三终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。第三终端与第一终端可以相同，也可以不同。

602、依据上述第一位置、上述第一尺度指标和上述第一长度，得到上述第一人物的至少一个人物框的位置。

本申请实施例中，人物框所包含的像素点区域可视为人物区域。例如，第一人物的人物框包含第一人物的人物区域。

本申请实施例中，人物框可以是任意形状，本申请对人物框的形状不做限定。可选的，人物框的形状包括以下至少一种：矩形、菱形、圆形、椭圆形、多边形。

本申请实施例中，人物框在待标注图像中的位置的表现形式可依据人物框的形状而定。例如，在人物框的形状为矩形的情况下，人物框的位置可以包括人物框中任意一对对角顶点的坐标，其中，一对对角顶点指过人物框的对角线上的两个顶点。又例如，在人物框的形状为矩形的情况下，人物框的位置可以包括：人物框的几何中心的位置、人物框的长和人物框的宽。再例如，在人物框的形状为圆形的情况下，人物框的位置可以包括：人物框的圆心、人物框的半径。

依据第一位置、第一尺度指标和第一长度，可得到第一人物的至少一个人物框的位置。下文以得到第一人物框为例，详细阐述依据第一位置、第一尺度指标和第一长度得到人物框的位置的实现过程。

在一种可能实现的方式中，计算第一尺度指标和第一长度的乘积，可得到第一人物在待标注图像中的第二长度。依据第一位置和第二长度，可确定第一人物框的位置，作为第二位置，其中，第一人物框的中心为第一人物点，第一人物框在y轴方向上的最大长度不小于第二长度。

本申请实施例中，y轴为待标注图像的像素坐标系的纵轴。y轴方向上的最大长度的含义可参见下例。例如，矩形框abcd为人物框1，其中，a的坐标为(4，8)、b的坐标为(6，8)、c的坐标为(6，12)、d的坐标为(4，12)。此时，人物框1在y轴方向上的长度为12-8＝4。

在一种确定第一人物框的位置的实现方式中，依据第一位置和第二长度，确定第一人物框的对角顶点的坐标。将对角顶点的坐标作为第一人物框的位置。

本申请实施例中，对角顶点包括第一顶点和第二顶点，其中，第一顶点和第二顶点为第一人物框的任意一条对角线上的两个顶点。如：第一人物框的对角线包括第一线段，对角顶点包括第一顶点和第二顶点。第一顶点和第二顶点均为第一线段的上的点。

可选的，假设第一位置在待标注图像的像素坐标系下的坐标为：(p，q)。计算第二长度的一半，得到第三长度。确定p与第三长度之间的差得到第一横坐标，确定q与第三长度之间的差得到第一纵坐标，确定p与第三长度之间的和得到第二横坐标，确定p与第三长度之间的和得到第二纵坐标。

将第一横坐标作为第一顶点的横坐标，将第一纵坐标作为第一顶点的纵坐标，将第二横坐标作为第二顶点的横坐标，将第二纵坐标作为第二顶点的纵坐标。

例如，p＝20，q＝18，即第一位置的坐标为(20，18)。假设第二长度为20，即第三长度为10。那么第一横坐标为20-10＝10，第一纵坐标为18-10＝8，第二横坐标为20+10＝30，第二纵坐标为18+10＝18。那么第一顶点的坐标为(10，8)，第二顶点的坐标为(30，18)。

可选的，假设第一位置在待标注图像的像素坐标系下的坐标为：(p，q)。计算第二长度的一半，得到第三长度。确定p与第三长度之间的和得到第三横坐标，确定q与第三长度之间的差得到第三纵坐标，确定p与第三长度之间的差得到第四横坐标，确定p与第三长度之间的和得到第四纵坐标。

将第三横坐标作为第一顶点的横坐标，将第三纵坐标作为第一顶点的纵坐标，将第四横坐标作为第二顶点的横坐标，将第四纵坐标作为第二顶点的纵坐标。

例如，p＝20，q＝18，即第一位置的坐标为(20，18)。假设第二长度为20，即第三长度为10。那么第三横坐标为20+10＝30，第三纵坐标为18-10＝8，第四横坐标为20-10＝10，第四纵坐标为18+10＝18。那么第一顶点的坐标为(30，8)，第二顶点的坐标为(10，18)。

在另一种确定第一人物框的位置的实现方式中，依据第一位置和第二长度，确定第一人物框的位置，作为第二位置。第一人物框的形状为圆形，第一人物框的圆心为第一人物点，第一人物框的直径为第二长度。

在又一种确定第一人物框的位置的实现方式中，依据第一位置和第二长度，确定第一人物框的位置，作为第二位置。第一人物框的形状为矩形，第一人物框的中心为第一人物点，第一人物框的长为第一值与第二长度的乘积，第一人物框的宽为第二值与第二长度的乘积。可选的，第一值为1，第二值为1/4。

603、将上述至少一个人物框的位置作为上述第一人物的人物框标签。

本申请实施例中，以已标注人物点和已标注人物点的尺度指标，得到人物框的位置。将人物框的位置作为对应的人物的标签，从而标注出待标注图像的人物框标签。

请参阅图7，图7是本申请实施例提供的获取第一尺度指标的一种可能实现的方法的流程示意图。

701、对上述待标注图像进行物体检测处理，得到第一物体框和第二物体框。

本申请实施例中，物体检测处理的检测对象在真实世界下的长度处于确定值附近。例如，人脸的平均长度为20厘米，物体检测处理的检测对象可以为人脸。又例如，人的平均身高为1.65米，物体检测处理的检测对象可以为人体。再例如，在候机室内，如图8所示的指示牌的高度均为确定的(如2.5米)，物体检测处理的检测对象可以为指示牌。可选的，物体检测处理为人脸检测处理。

在一种可能实现的方式中，对待标注图像进行物体检测处理可通过卷积神经网络实现。通过将带有标注信息的图像作为训练数据，对卷积神经网络进行训练，使训练后的卷积神经网络可完成对图像的物体检测处理。训练数据中的图像的标注信息为物体框的位置信息，该物体框包含物体检测处理的检测对象。

在另一种可能实现的方式中，物体检测处理可通过人物检测算法实现，其中，人物检测算法可以是以下中的一种：只需一眼算法(you only look once，YOLO)、目标检测算法(deformable part model，DMP)、单张图像多目标检测算法(single shot multiBoxdetector，SSD)、Faster-RCNN算法等等，本申请对实现物体检测处理的人物检测算法不做限定。

本申请实施例中，第一物体框所包含的检测对象与第二物体框所包含的检测对象不同。例如，第一物体框所包含的检测对象为张三的人脸，第二物体框所包含的检测对象为李四的人脸。又例如，第一物体框所包含的检测对象为张三的人脸，第二物体框所包含的检测对象为指示牌。

702、依据上述第一物体框在y轴方向上的长度得到第三长度，依据上述第二物体框在y轴方向上的长度得到第四长度。

图像标注装置可依据第一物体框的位置，得到第一物体框在y轴方向上的长度，即第三长度。图像处理可依据第二物体框的位置，得到第二物体框在y轴方向上的长度，即第四长度。

703、依据上述第三长度和第一物体在真实世界下的第五长度得到第二尺度指标，依据上述第四长度和第二物体在真实世界下的第六长度得到第三尺度指标。

本申请实施例中，第二尺度指标为第二尺度位置的尺度指标，其中，第二尺度位置为依据第一物体框的位置在待标注图像中确定的位置。假设第二参考物体位于第二尺度位置，则第二尺度指标表征在第三尺寸与第四尺寸之间的映射，其中，第三尺寸为第二参考物体在待标注图像中的尺寸，第四尺寸为第二参考物体在真实世界下的尺寸。第三尺度指标为第三尺度位置的尺度指标，其中，第三尺度位置为依据第二物体框的位置在待标注图像中确定的位置。假设第三参考物体位于第三尺度位置，则第三尺度指标表征在第五尺寸与第六尺寸之间的映射，其中，第五尺寸为第三参考物体在待标注图像中的尺寸，第六尺寸为第三参考物体在真实世界下的尺寸。

本申请实施例中，依据一个物体框的位置可确定一个物体点。例如，物体框1的形状为矩形。图像标注装置依据物体框1的位置可确定物体框1的任意一个顶点的位置，进而可将物体框1的任意一个顶点作为物体点。

又例如，物体框1的形状为矩形abcd。矩形abcd的中心为点e。图像标注装置依据物体框1的位置可确定点e的坐标，进而将点e作为物体点。

再例如，物体框1的形状为圆形。图像标注装置依据物体框1的位置可确定圆形上任意一个点的位置，进而可将圆形上的任意一个点作为物体点。

图像标注装置依据第一物体框的位置，确定第一物体点。图像标注装置依据第二物体框的位置，确定第二物体点。

可选的，第一物体点为以下中的一个：第一物体框的几何中心、第一物体框的顶点。第二物体点为以下中的一个：第二物体框的几何中心、第二物体框的顶点。

在确定第一物体点的位置和第二物体点的位置后，图像标注装置可将第一物体点的位置作为第二尺度位置、将第二物体点的位置作为第三尺度位置。

本申请实施例中，第一物体和第二物体均为物体检测处理的检测对象。第一物体为第一物体框所包含的检测对象，第二物体为第二物体框所包含的检测对象。第一物体在真实世界下的长度为第五长度，第二物体在真实世界下的长度为第六长度。例如，第一物体和第二物体均为人脸，第五长度和第六长度均可以是20厘米。又例如，第一物体为人脸，第二物体为人体，第五长度可以是20厘米，第六长度可以是170厘米。

假设第三长度为l₁，第四长度为l₂，第五长度为l₃，第六长度为l₄，第二尺度指标为i₂，第三尺度指标为i₃。

在一种可能实现的方式中，l₁、l₂、l₃、l₄、i₂、i₃满足下式：

其中，k为正数。可选的，k＝1。

在另一种可能实现的方式中，l₁、l₂、l₃、l₄、i₂、i₃满足下式：

其中，k为正数、t为实数。可选的，k＝1，t＝0。

在又一种可能实现的方式中，l₁、l₂、l₃、l₄、i₂、i₃满足下式：

其中，k为正数、t为实数。可选的，k＝1，t＝0。

704、对上述第二尺度指标和上述第三尺度指标进行曲线拟合处理，得到上述待标注图像的尺度指标图。

由于在待标注图像中，尺度与纵坐标之间的关系可视为线性相关，而尺度指标用于表征尺度，图像标注装置通过对第二尺度指标和第三尺度指标进行曲线拟合处理，可得到待标注图像的尺度指标图。该尺度指标图包括待标注图像中任意一个像素点所在位置的尺度指标。

以尺度指标图中的第二像素点为例。假设第二像素点的像素值(即第一像素值)为40，第二像素点在尺度指标图中的位置与第三像素点在待标注图像中的位置相同。则第三像素点在待标注图像中的位置(即第四尺度位置)的尺度指标为第一像素值。假设第四参考物体位于第四尺度位置，则第一像素值表征第七尺寸与第八尺寸之间的映射，其中，第七尺寸为位于第四尺度位置的第四参考物体的尺寸，第八尺寸为所述第四参考物体在真实世界下的尺寸。

705、依据上述尺度指标图和上述第一位置，得到上述第一尺度指标。

如步骤704所述，尺度指标图包括待标注图像中任意一个像素点所在位置的尺度指标。因此，依据尺度指标图和第一位置，可确定第一人物点的尺度指标，即第一尺度指标。

本申请实施例中，依据第三长度和第五长度得到第二尺度指标，依据第四长度和第六长度得到第三尺度指标。通过对第二尺度指标和第三尺度指标进行曲线拟合处理，得到尺度指标图，进而可依据尺度指标图确定待标注图像中任意一个像素点所在位置的尺度指标。

作为一种可选的实施方式，本申请实施例中的人物点(包括：第一人物点)可以是人头点，人物框(包括：第一人物框)可以是人头框。人头点所覆盖的像素点区域和人头框所包含的像素点区域均为人头区域。

作为一种可选的实施方式，在图像标注装置基于已标注人物点标签得到人物框标签之后。可将待标注图像作为训练数据训练神经网络的方法。该训练方法的执行主体可以是图像标注装置，也可以不是标注装置，本申请实施例对训练方法的执行主体不做限定。为表述方便，下文将训练过程的执行主体称为训练装置，可选的，训练装置可以是以下任意一种：手机、计算机、平板电脑、服务器、处理器。

请参阅图9，图9是本申请实施例提供的一种神经网络的训练方法的流程示意图。

901、获取待训练网络。

本申请实施例中，待训练网络为任意神经网络。例如，待训练网络可以由卷积层、池化层、归一化层、全连接层、下采样层、上采样层中的至少一种网络层堆叠组成。本申请实施例对待训练网络的结构不做限定。

在一种获取待训练网络的实现方式中，训练装置接收用户通过输入组件输入的待训练网络。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取待训练网络的实现方式中，训练装置接收第四终端发送的待训练网络。可选的，上述第四终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。第四终端与第一终端可以相同，也可以不同，本申请对此不做限定。

在又一种获取待训练网络的实现方式中，训练装置可以从自身的存储部件中获取预存的待训练网络。

902、使用上述待训练网络对上述待标注图像进行处理，得到上述至少一个人物点的位置和至少一个人物框的位置。

训练装置使用待训练网络对包含至少一个人物的待标注图像进行处理，可得到每个人物的至少一个人物点的位置以及每个人物的至少一个人物框的位置。

在一种可能实现的方式中，待训练神经网络对待标注图像进行特征提取处理，得到第一特征数据。对第一特征数据进行下采样处理，得到至少一个人物框的位置。对第一特征数据进行上采样处理，得到至少一个人物点的位置。

本申请实施例中，特征提取处理可以是卷积处理，也可以是池化处理，还可以是卷积处理和池化处理的结合，本申请对特征提取处理的实现方式不做限定。

可选的，依次通过多层卷积层对待标注图像进行逐级卷积处理，实现对待标注图像的特征提取处理，得到携带待标注图像的语义信息的第一特征数据。

可选的，下采样处理包括以下一种或多种的组合：卷积处理、池化处理。例如，下采样处理为卷积处理。又例如，下采样处理可以是池化处理。再例如，下采样处理可以是卷积处理和池化处理。

可选的，上采样处理包括以下至少一种处理：双线性插值处理、最邻近插值处理、高阶插值、反卷积处理。

作为一种可选的实施方式，训练装置可通过执行以下步骤，实现对第一特征数据进行下采样处理得到至少一个人物框的位置：

1、对第一特征数据进行下采样处理，得到第二特征数据。

训练装置通过对第一特征数据进行下采样处理，可在缩小第一特征数据的尺寸的同时，提取出第一特征数据中语义信息(即待标注图像的语义信息)，得到第二特征数据。

2、对第二特征数据进行卷积处理，得到至少一个人物框的位置。

训练装置通过对第二特征数据进行卷积处理，可利用第二特征数据中携带的语义信息，得到至少一个人物框的位置。

在通过执行步骤1和步骤2得到至少一个人物框的位置的情况下，训练装置可通过执行以下步骤，实现对第一特征数据进行上采样处理，得到至少一个人物框的位置：

3、对第一特征数据进行上采样处理，得到第三特征数据。

由于在待标注图像中人物与人物之间的距离可能非常小，而图像标注装置通过待标注图像进行特征提取处理，在缩小待标注图像的尺寸的同时，提取出第一特征数据，这样，在第一特征数据中可能会存在至少两个人物区域重叠的情况。这显然将降低后续得到的人物点的准确度。

在本步骤中，训练装置通过对第一特征数据进行上采样处理，放大第一特征数据的尺寸，进而使减小至少两个人物区域重叠的情况发生的概率。

4、对第二特征数据与第三特征数据进行融合处理，得到第四特征数据。

由于待标注图像的人物框标签携带待标注图像的尺度信息(包括待标注图像中不同位置的尺度)，在使用人物框标签对基于步骤2得到的至少一个人物框的位置的情况下，第二特征数据中也将携带待标注图像的尺度信息。

训练装置通过将第二特征数据与第三特征数据进行融合处理，可丰富第三特征数据中的尺度信息，得到第四特征数据。

作为一种可选的实施方式，在第二特征数据的尺寸小于第三特征数据的尺寸的情况下，训练装置使用待训练网络对第二特征数据进行上采样处理，得到尺寸与第三特征数据的尺寸相同的第五特征数据。对第五特征数据与第三特征数据进行融合处理，得到第四特征数据。

可选的，融合处理可以是以下中的一种：通道维度上的拼接(concatnate)、相同位置的元素求和。

本申请实施例中，两个数据中相同位置的元素可参见下例。例如，如图10所示，元素A₁₁在数据A中的位置与元素B₁₁在数据B中的位置相同，元素A₁₂在数据A中的位置与元素k在数据B₁₂中的位置相同，元素A₁₃在数据A中的位置与元素B₁₃在数据B中的位置相同，元素A₂₁在数据A中的位置与元素B₂₁在数据B中的位置相同，元素A₂₂在数据A中的位置与元素B₂₂在数据B中的位置相同，元素A₂₃在数据A中的位置与元素B₂₃在数据B中的位置相同，元素A₃₁在数据A中的位置与元素B₃₁在数据B中的位置相同，元素A₃₂在数据A中的位置与元素B₃₂在数据B中的位置相同，元素A₃₃在数据A中的位置与元素B₃₃在数据B中的位置相同。

5、对第四特征数据进行上采样处理，得到至少一个人物点的位置。

训练装置通过对第四特征数据进行上采样处理，可利用第四特征数据中携带的语义信息，得到至少一个人物点的位置。

由于第四特征数据中携带待标注图像的尺度信息，通过对第四特征数据进行上采样处理，得到至少一个人物点的位置，可提高至少一个人物点的位置的准确度。

903、依据上述已标注人物点标签与上述至少一个人物点的位置之间的差异，得到第一差异。

可选的，将已标注人物点标签与至少一个人物点的位置代入二值交叉熵函数(binary cross entropy loss function)，可得到第一差异。

例如，已标注人物点标签包括人物点a的位置和人物点b的位置。至少一个人物点包括人物点c的位置和人物点d的位置。人物点a和人物点c均为第一人物的人物点，人物点b和人物点d均为第二人物的人物点。将人物点a的位置与人物点c的位置代入二值交叉熵函数得到差异A。将人物点b的位置与人物点d的位置代入二值交叉熵函数得到差异B。此时，第一差异可以是差异A，第一差异也可以是差异B，第一差异还可以是差异A与差异B的和。

作为一种可选的实施方式，图像标注装置执行步骤903之前，可执行以下步骤：

6、获取第四尺度指标。

本申请实施例中，待标注图像的已标注人物点标签还包括第二人物的人物点标签。第二人物的人物点标签包括第二人物点的第三位置。

本申请实施例中，第四尺度指标为第三位置的尺度指标。假设第五参考物体位于第三位置，则第四尺度指标表征在第九尺寸与第十尺寸之间的映射，其中，第九尺寸为第五参考物体在待标注图像中的尺寸，第十尺寸为第五参考物体在真实世界下的尺寸。

在一种获取第四尺度指标的实现方式中，图像标注装置接收用户通过输入组件输入的第一尺度指标。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取第四尺度指标的实现方式中，图像标注装置接收第二终端发送的第一尺度指标。可选的，第五终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。第五终端与第一终端可以相同，也可以不同。

在获取到第四尺度指标后，图像标注装置在执行步骤903的过程中执行以下步骤：

7、依据上述第一位置与上述第四位置之间的差异得到第三差异，依据上述第三位置与上述第五位置之间的差异得到第四差异。

本申请实施例中，训练装置通过执行步骤902或步骤6得到的至少一个人物点的位置包括：第四位置和第五位置，其中，第四位置为第一人物的人物点的位置，第五位置为第二人物的人物点的位置。

第一位置为第一人物的已标注人物点标签，第三位置为第二人物的已标注人物点标签。第四位置为使用待训练网络对待标注图像进行处理得到的第一人物的人物点标签，第五位置为使用待训练网络对待标注图像进行处理得到的第二人物的人物点标签。

图像标注装置依据第一位置与第四位置之间的差异可得到第三差异，依据第三位置与第五位置之间的差异可得到第四差异。

可选的，将第一位置和第四位置代入二值交叉熵函数可得到第三差异，将第三位置和第五位置代入二值交叉熵函数可得到第四差异。

假设第一位置与第四位置之间的差异为d₁、第三差异为d₂、第三位置与第五位置之间的差异为d₃、第四差异为d₄。

在一种可能实现的方式中，d₁、d₂、d、d₄满足下式：

其中，u为正数。可选的，u＝1。

在另一种可能实现的方式中，d₁、d₂、d、d₄满足下式：

其中，u为正数、r为实数。可选的，u＝1，r＝0。

其中，u为正数、r为实数。可选的，q＝1，m＝0。

8、依据上述第一尺度指标和上述第四尺度指标，得到上述第三差异的第一权重和上述第四差异的第二权重。

由于在待标注图像中，近处的人物区域的面积比远处的人物区域的面积大，近处的人物区域的人物点的数量比远处的人物区域的人物点的数量多。假设对待训练网络进行训练得到的网络为训练后的网络，这将导致训练后的网络对近处的人物的检测准确度高(即近处的人物点的位置的准确度比远处的人物点的位置的准确度高)。

为提升训练后的网络对远处的人物的检测准确度，训练装置依据人物点的尺度指标确定与人物点对应的差异的权重。使与近处的人物点对应的差异的权重小于与远处的人物点的差异的权重。

在一种可能实现的方式中，在第一尺度指标小于第四尺度指标的情况下，第一权重大于第二权重；在第一尺度指标大于第四尺度指标的情况下，第一权重小于第二权重；在第一尺度指标等于第四尺度指标的情况下，第一权重等于第二权重。

作为一种可选的实施方式，权重的大小与人物点的尺度指标呈负相关。以第一权重和第一尺度指标为例，假设第一权重为w₁，第一尺度指标为i₁，尺度指标图中的最大像素值为i_max，则w₁、i₁、i_max满足下式：

9、依据上述第一权重和上述第二权重，对上述第三差异和上述第四差异加权求和，得到上述第一差异。

假设第一权重为w₁，第二权重为w₂，第三差异为d₂、第四差异为d₄、第一差异为d₅。

在一种可能实现的方式中，w₁、w₂、d₂、d₄、d₅满足下式：

d₅＝w₁×d₂+w₂×d₄+v…公式(8)

其中，v为实数。可选的，v＝0。

在另一种可能实现的方式中，w₁、w₂、d₂、d₄、d₅满足下式：

d₅＝f×(w₁×d₂+w₂×d₄+v)…公式(9)

其中，v为实数，f均为正数。可选的，v＝0，f＝1。

在又一种可能实现的方式中，w₁、w₂、d₂、d₄、d₅满足下式：

其中，v为实数，f均为正数。可选的，v＝0，f＝1。

904、依据上述已标注人物框标签与上述至少一个人物框的位置之间的差异，得到第二差异。

可选的，将已标注人物框标签与至少一个人物框的位置代入二值交叉熵函数，可得到第二差异。

例如，已标注人物框标签包括人物框a的位置和人物框b的位置。至少一个人物框包括人物框c的位置和人物框d的位置。人物框a和人物框c均为第一人物的人物框，人物框b和人物框d均为第二人物的人物框。将人物框a的位置与人物框c的位置代入二值交叉熵函数得到差异A。将人物框b的位置与人物框d的位置代入二值交叉熵函数得到差异B。此时，差异A和差异B均为第一差异。

905、依据上述第一差异和上述第二差异，得到上述待训练网络的损失。

假设第一差异为d₅、第二差异为d₆、待训练网络的损失为L。

在一种可能实现的方式中，d₅、d₆、L满足下式：

L＝s×(d₅+d₆)…公式(11)

其中，s为正数。可选的，s＝1。

在另一种可能实现的方式中，d₅、d₆、L满足下式：

L＝s×(d₅+d₆)+n…公式(12)

其中，s为正数、n为实数。可选的，s＝1，n＝0。

其中，s为正数、n为实数。可选的，s＝1，n＝0。

906、基于上述损失更新上述待训练网络的参数，得到人群定位网络。

可选的，图像标注装置基于待训练网络的损失以反向梯度传播的方式更新待训练网络的参数，可得到人群定位网络。

基于人群定位网络对包含人物的图像进行处理，可得到图像中每个人物的人物点以及每个人物的人物框。

作为一种可选的实施方式，请参阅图11，图11为本申请实施例提供的一种人群定位网络的结构示意图。

使用该人群定位网络对待标注图像进行处理，可得到待标注图像中的每个人物的人物点的位置和每个人物的人物框的位置。依据人物的人物点的位置和人物的人物框的位置，可确定该人物的位置。

如图11所示，人群定位网络包括主干网络、人物框分支和人物点分支。人物框分支和人物点分支之间可进行尺度信息融合。图12所示为主干网络的结构示意图，该主干网络共包含13层卷积层和4层池化层。图13所示为人物框分支和人物点分支的结构示意图，其中，人物框分支共包含3层下采样层和1层卷积层，人物点分支共包含3层上采样层。

经主干网络对待标注图像的处理可得到第一特征数据，该处理过程的实现方式可参见“待训练神经网络对待标注图像进行特征提取处理，得到第一特征数据”的实现方式。经人物框分支对第一特征数据进行处理可得到至少一个人物框的位置，该处理过程可参见步骤1和步骤2。经人物点分支对第一特征数据进行处理可得到至少一个人物点的位置，该处理过程可参见步骤3、步骤4和步骤5，其中，步骤4即为图11所示的“尺度信息融合”。

作为一种可选的实施方式，可使用基于本申请提供的技术方案得到的人群定位网络对图像进行处理，得到人物点的位置和人物框的位置，进而可依据人物点的位置和人物框的位置，确定图像中的人物的位置。

应理解，使用人群定位网络对图像进行处理的执行主体可以是图像标注装置，也可以是训练装置，还可以是不同与图像标注装置和训练装置的装置。为表述方便，下文将使用人群定位网络对图像进行处理的执行主体称为图像处理装置。可选的，图像处理装置可以是以下任意一种：手机、计算机、平板电脑、服务器、处理器。

在一种可能实现的方式中，图像处理装置获取待处理图像，并使用人群定位网络对待处理图像进行处理，得到第三人物的人物点的位置和第三人物的人物框的位置，其中，第三人物为待处理图像中的人物。进而可依据第三人物的人物点的位置确定第三人物在待处理图像中的位置，或依据第三人物的人物框的位置确定第三人物在待处理图像中的位置，或依据第三人物的人物点的位置和第三人物的人物框的位置确定第三人物在待处理图像中的位置。

例如，第三人物的人物点的位置为(9，10)，第三人物的人物框的形状为矩形，第三人物的人物框的位置包括矩形的一对对角顶点的坐标：(6，8)、(12，14)。将第三人物的人物点的位置作为第三人物在待处理图像中的位置，确定第三人物在待处理图像中的位置为(9，10)。将第三人物的人物框的位置作为第三人物在待处理图像中的位置，确定在待处理图像中由矩形人物框所包含的像素点区域为第三人物所覆盖的像素点区域，其中，矩形人物框的四个顶点的坐标分别为：(6，8)、(6，14)、(12，14)、(12，8)。

作为一种可选的实施方式，本申请实施例中的人物点(包括：第二人物点、步骤902中的至少一个人物点、第三人物的人物点)可以是人头点，人物框(包括：步骤902中的至少一个人物框、第三人物的人物框)可以是人头框。人头点所覆盖的像素点区域和人头框所包含的像素点区域均为人头区域。

基于本申请提供的技术方案，本申请实施例还提供了一种可能的应用场景。

图像标注装置使用人脸检测数据集对检测卷积神经网络(可以是任意卷积神经网络)进行训练，得到人脸检测网络。该人脸检测数据集中的图像均携带标注信息，标注信息包括人脸框的位置。可选的，该人脸数据集为WiderFace。

图像标注装置使用人脸检测网络对人群数据集进行处理，得到人群数据集中的每一张图像的人脸检测结果以及每个人脸检测结果的置信度。该人群数据集中的每一张图像均包含至少一个人头，且每一张图像均包含至少一个人头点标签。可选的，将置信度高于第三阈值的人脸检测结果作为第一中间结果。可选的，第三阈值为0.7。

图像标注装置获取人脸在真实世界下的长度(如20厘米)，并依据该长度和第一中间结果，得到人群数据集中的每张图像的尺度指标图。

图像标注装置基于本申请提供的技术方案、人群数据集以及人群数据集中的每张图像的尺度指标图，可标注出人群数据集中的每张图像的人头点标签以及人头框标签，得到标注后的人群数据集。

图像标注装置使用标注后的人群数据集对第二检测网络(网络结构可参见人群定位网络的网络结构)进行训练，得到定位网络。定位网络可用于检测图像中每个人头的人头点的位置和每个人头的人头框的位置。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图14，图14为本申请实施例提供的一种图像标注装置的结构示意图，所述图像标注装置包括：获取单元11、构建单元12、第一处理单元13、第二处理单元14、第三处理单元15、第四处理单元16。其中：

获取单元11，用于获取待标注图像和第一尺度指标；所述待标注图像携带第一人物的人物点标签；所述第一人物的人物点标签包括第一人物点的第一位置；所述第一尺度指标表征第一尺寸与第二尺寸之间的映射；所述第一尺寸为位于所述第一位置的第一参考物体的尺寸；所述第二尺寸为所述第一参考物体在真实世界下的尺寸；

构建单元12，用于在所述第一尺度指标大于或等于第一阈值的情况下，基于所述第一人物点构建像素点邻域；所述像素点邻域包括不同于所述第一人物点的第一像素点；

第一处理单元13，用于将所述第一像素点的位置作为所述第一人物的人物点标签。

结合本申请任一实施方式，所述获取单元11还用于：

所述装置还包括第二处理单元，所述第二处理单元14用于：

所述第二处理单元14用于：

结合本申请任一实施方式，所述获取单元11用于：

结合本申请任一实施方式，所述第一人物的人物点标签属于已标注人物点标签；所述第一人物的人物框标签属于已标注人物框标签；所述获取单元11还用于：

获取待训练网络；

所述装置还包括第三处理单元15，所述第三处理单元15用于：

所述获取单元11，还用于在所述依据所述已标注人物点标签与所述至少一个人物点的位置之间的差异，得到第一差异之前，获取第四尺度指标；所述第四尺度指标表征第九尺寸与第十尺寸之间的映射；所述第九尺寸为位于所述第三位置的第五参考物体的尺寸；所述第十尺寸为所述第五参考物体在真实世界下的尺寸；

所述第三处理单元15用于：

结合本申请任一实施方式，所述获取单元11用于：

结合本申请任一实施方式，所述第三处理单元15用于：

对所述待标注图像进行特征提取处理，得到第一特征数据；

结合本申请任一实施方式，所述第三处理单元15用于：

对所述第一特征数据进行下采样处理，得到第二特征数据；

对所述第一特征数据进行上采样处理，得到第三特征数据；

结合本申请任一实施方式，所述获取单元11还用于：

获取待处理图像；

所述装置还包括第四处理单元16，所述第四处理单元16用于：

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图15为本申请实施例提供的一种图像标注装置的硬件结构示意图。该图像标注装置2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的待标注图像，又或者该存储器22还可用于存储通过处理器21得到的第二像素点的位置等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图15仅仅示出了一种图像标注装置的简化设计。在实际应用中，图像标注装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的图像标注装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种图像标注方法，其特征在于，所述方法包括：

将所述第一像素点的位置作为所述第一人物的人物点标签。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述至少一个人物框的位置包括第二位置；

4.根据权利要求3所述的方法，其特征在于，所述第一人物框的形状为矩形；

5.根据权利要求4所述的方法，其特征在于，所述第一人物框的形状为正方形；所述第一位置在所述待标注图像的像素坐标系下的坐标为：(p，q)；

6.根据权利要求2至5中任意一项所述的方法，其特征在于，所述获取第一尺度指标，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一人物的人物点标签属于已标注人物点标签；所述第一人物的人物框标签属于已标注人物框标签；所述方法还包括：

获取待训练网络；

8.根据权利要求7所述的方法，其特征在于，所述已标注人物点标签还包括第二人物的人物点标签；所述第二人物的人物点标签包括第二人物点的第三位置；所述至少一个人物点的位置包括：第四位置和第五位置；所述第四位置为所述第一人物的人物点的位置，所述第五位置为所述第二人物的人物点的位置；

9.根据权利要求8所述的方法，其特征在于，所述获取第四尺度指标，包括：

10.根据权利要求7至9中任意一项所述的方法，其特征在于，所述使用所述待训练网络对所述待标注图像进行处理，得到所述至少一个人物点的位置和至少一个人物框的位置，包括：

对所述待标注图像进行特征提取处理，得到第一特征数据；

11.根据权利要求10所述的方法，其特征在于，所述对所述第一特征数据进行下采样处理，得到所述至少一个人物框的位置，包括：

对所述第一特征数据进行下采样处理，得到第二特征数据；

对所述第一特征数据进行上采样处理，得到第三特征数据；

12.根据权利要求7至11中任意一项所述的方法，其特征在于，所述方法还包括：

获取待处理图像；

13.一种图像标注装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行权利要求1至12中任意一项所述的方法。