CN111724442B

CN111724442B - 图像处理方法及装置、电子设备及存储介质

Info

Publication number: CN111724442B
Application number: CN202010471117.3A
Authority: CN
Inventors: 杨昆霖; 夏鹏程; 侯军; 伊帅
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2022-04-22
Anticipated expiration: 2040-05-28
Also published as: TW202145147A; CN111724442A; WO2021237960A1; TWI739601B

Abstract

本申请公开了一种图像处理方法及装置、电子设备及存储介质。该方法包括：获取第一人物点在待处理图像中的第一位置和第一人物框在所述待处理图像中的第二位置；所述第一位置和所述第二位置均用于表征第一人物在待处理图像中的位置；依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置。

Description

图像处理方法及装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种图像处理方法及装置、电子设备及存储介质。

背景技术

在公共场所(例如广场、超市、地铁站、码头等地方)中，有时会存在人流量过多的情况，进而导致人群过于密集的情况发生。这时易发生一些公共事故，例如踩踏事件。因此，如何确定图像中人物的位置具有非常重要的意义。

目前，基于计算机视觉技术可通过对图像进行人头检测处理，可得到图像中人物的位置，但位置的准确度低。

发明内容

本申请提供一种图像处理方法及装置、电子设备及存储介质。

第一方面，提供了一种图像处理方法。获取第一人物点在待处理图像中的第一位置和第一人物框在所述待处理图像中的第二位置；所述第一位置和所述第二位置均用于表征第一人物在待处理图像中的位置；

依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置。

在该方面中，在人物处于待处理图像中的远处的情况下，依据人物点的位置确定人物在待处理图像中的位置；在人物处于待处理图像中的近处的情况下，依据人物框的位置确定人物在待处理图像中的位置。以此提高人物在待处理图像中的位置的准确度。

结合本申请任一实施方式，在所述依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置之前，所述方法还包括：

获取所述第一位置的第一置信度和所述第二位置的第二置信度；所述第一置信度与所述第一位置的尺度呈负相关；所述第二置信度与所述第二位置的尺度呈正相关；

所述依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置，包括：

将所述第一位置和所述第二位置中置信度最高的位置作为第四位置；

依据所述第四位置，得到所述第三位置。

结合本申请任一实施方式，在所述获取第一人物点在待处理图像中的第一位置和第一人物框在所述待处理图像中的第二位置之前，所述方法还包括：

获取所述待处理图像；

获取第一人物点在待处理图像中的第一位置和第一人物框在所述待处理图像中的第二位置，包括：

对所述待处理图像进行人物定位处理，得到所述第一位置和所述至少一个人物框的位置；

依据所述第一位置和所述至少一个人物框的位置，确定所述至少一个人物框与所述第一人物点之间的距离，得到至少一个第一距离；

将与第二距离对应的人物框作为所述第一人物框；所述第二距离为所述至少一个第一距离中未超过距离阈值的距离。

结合本申请任一实施方式，所述对所述待处理图像进行物体定位处理，得到所述第一位置，包括：

对所述待处理图像进行人物定位处理，得到至少一个人物点的位置；

将所述至少一个人物点的位置中置信度最高的位置作为所述第一位置。

结合本申请任一实施方式，所述至少一个人物框包括第二人物框；所述至少一个第一距离包括所述第一人物点与所述第二人物框之间的第三距离；

所述依据所述第一位置和所述至少一个人物框的位置，确定所述至少一个人物框与所述第一人物点之间的距离，得到至少一个第一距离，包括：

依据所述第一位置和所述第二人物框的位置，得到所述第一点与所述第二人物框之间的第四距离；

确定第一尺度与第二尺度之间的差异，得到第一差异；所述第一尺度为所述第一人物点在所述待处理图像中的尺度；所述第二尺度为所述第二人物框在所述待处理图像中的尺度；

依据所述第四距离和所述第一差异，得到所述第三距离；所述第三距离与所述第一差异呈正相关。

结合本申请任一实施方式，在所述确定第一尺度与第二尺度之间的差异，得到第一差异之前，所述方法还包括：

依据所述第二人物框的位置，确定第二人物点；

确定所述第一人物点与所述第二人物点的中点，得到第三人物点；

获取第一尺度指标；所述第一尺度指标表征第一尺寸与第二尺寸之间的映射；所述第一尺寸为位于第一尺度位置的第一参考物体的尺寸；所述第二尺寸为所述第一参考物体在真实世界下的尺寸；所述第一尺度位置为所述第三人物点在所述待处理图像中的位置；

所述确定第一尺度与第二尺度之间的差异，得到第一差异，包括：

依据所述第一尺度指标，得到所述第一差异。

结合本申请任一实施方式，所述获取第一尺度指标，包括：

对所述待处理图像进行物体检测处理，得到第一物体框和第二物体框；

依据所述第一物体框在y轴方向上的长度得到第一长度，依据所述第二物体框在y轴方向上的长度得到第二长度；所述y轴为所述待处理图像的像素坐标系的纵轴；

依据所述第一长度和第一物体在真实世界下的第三长度得到第二尺度指标，依据所述第二长度和第二物体在真实世界下的第四长度得到第三尺度指标；所述第一物体为所述第一物体框所包含的检测对象；所述第二物体为所述第二物体框所包含的检测对象；所述第二尺度指标表征第三尺寸与第四尺寸之间的映射；所述第三尺寸为位于第二尺度位置的第二参考物体的尺寸；所述第四尺寸为所述第二参考物体在真实世界下的尺寸；所述第二尺度位置为依据所述第一物体框的位置在所述待处理图像中确定的位置；所述第三尺度指标表征第五尺寸与第六尺寸之间的映射；所述第五尺寸为位于第三尺度位置的第三参考物体的尺寸；所述第五尺寸为所述第三参考物体在真实世界下的尺寸；所述第三尺度位置为依据所述第二物体框的位置在所述待处理图像中确定的位置；

对所述第二尺度指标和所述第三尺度指标进行曲线拟合处理，得到所述待处理图像的尺度指标图；所述尺度指标图中的第一像素值表征第七尺寸与第八尺寸之间的映射；所述第七尺寸为位于第四尺度位置的第四参考物体的尺寸；所述第八尺寸为所述第四参考物体在真实世界下的尺寸；所述第一像素值为第一像素点的像素值；所述第四尺度位置为第二像素点在所述待处理图像中的位置；所述第一像素点在所述尺度指标图中的位置与所述第二像素点在所述待处理图像中的位置相同；

依据所述尺度指标图和所述第三人物点的位置，得到所述第一尺度指标。

结合本申请任一实施方式，所述第二尺度位置为第一物体点在所述待处理图像中的位置；所述第三尺度位置为第二物体点在所述待处理图像中的位置；

所述第一物体点为以下中的一个：所述第一物体框的几何中心、所述第一物体框的顶点；所述第二物体点为以下中的一个：所述第二物体框的几何中心、所述第二物体框的顶点。

结合本申请任一实施方式，所述第二人物点为以下中的一个：所述第二人物框的几何中心、所述第二人物框的顶点。

结合本申请任一实施方式，所述第一人物点所覆盖的像素点区域和所述第一人物框所包含的像素点区域均为人头区域。

结合本申请任一实施方式，所述第一人物框的形状为矩形。

第二方面，提供了一种图像处理装置，所述装置包括：

获取单元，用于获取第一人物点在待处理图像中的第一位置和第一人物框在所述待处理图像中的第二位置；所述第一位置和所述第二位置均用于表征第一人物在待处理图像中的位置；

第一处理单元，用于依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置。

结合本申请任一实施方式，所述获取单元，还用于在所述依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置之前，获取所述第一位置的第一置信度和所述第二位置的第二置信度；所述第一置信度与所述第一位置的尺度呈负相关；所述第二置信度与所述第二位置的尺度呈正相关；

所述第一处理单元用于：

依据所述第四位置，得到所述第三位置。

结合本申请任一实施方式，所述获取单元，还用于在所述获取第一人物点在待处理图像中的第一位置和第一人物框在所述待处理图像中的第二位置之前，获取所述待处理图像；

结合本申请任一实施方式，所述获取单元，用于：

所述获取单元，用于：

结合本申请任一实施方式，所述装置还包括第二处理单元，所述第二处理单元用于：

在所述确定第一尺度与第二尺度之间的差异，得到第一差异之前，依据所述第二人物框的位置，确定第二人物点；

所述获取单元，还用于获取第一尺度指标；所述第一尺度指标表征第一尺寸与第二尺寸之间的映射；所述第一尺寸为位于第一尺度位置的第一参考物体的尺寸；所述第二尺寸为所述第一参考物体在真实世界下的尺寸；所述第一尺度位置为所述第三人物点在所述待处理图像中的位置；

依据所述第一尺度指标，得到所述第一差异。

结合本申请任一实施方式，所述获取单元，用于：

结合本申请任一实施方式，所述第一人物框的形状为矩形。

第三方面，提供了一种处理器，所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种人群图像示意图；

图2为本申请实施例提供的一种像素坐标系示意图；

图3为本申请实施例提供的一种图像处理方法的流程示意图；

图4为本申请实施例提供的一种图像示意图；

图5为本申请实施例提供的另一种图像处理方法的流程示意图；

图6为本申请实施例提供的又一种图像处理方法的流程示意图；

图7为本申请实施例提供的一种指示牌示意图；

图8为本申请实施例提供的一种图像处理装置的结构示意图；

图9为本申请实施例提供的一种图像处理装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

首先对下文将要出现的一些概念进行定义。本申请实施例中，[a，b]表示大于或等于a且小于或等于b的取值区间。

本申请实施例中，图像中近处的人物对应的图像尺度大，图像中远处的人物对应的图像尺度小。本申请实施例中的“远”指与图像中人物对应的真实人物与采集上述图像的成像设备之间的距离远，“近”指与图像中人物对应的真实人物与采集上述图像的成像设备之间的距离近。

在图像中，近处的人物覆盖的像素点区域的面积比远处的人物覆盖的像素点区域的面积大。例如，图1中人物A相较于人物B为近处的人物，且人物A覆盖的像素点区域的面积比人物B覆盖的像素点区域的面积大。而近处的人物覆盖的像素点区域的尺度大，远处的人物覆盖的像素点区域的尺度小。因此，人物覆盖的像素点区域的面积与人物覆盖的像素点区域的尺度呈正相关。

本申请实施例中，图像中的位置均指图像的像素坐标下的位置。本申请实施例中的像素坐标系的横坐标用于表示像素点所在的列数，像素坐标系下的纵坐标用于表示像素点所在的行数。例如，在图2所示的图像中，以图像的左上角为坐标原点O、平行于图像的行的方向为X轴的方向、平行于图像的列的方向为Y轴的方向，构建像素坐标系为XOY。横坐标和纵坐标的单位均为像素点。例如，图2中的像素点A₁₁的坐标为(1，1)，像素点A₂₃的坐标为(3，2)，像素点A₄₂的坐标为(2，4)，像素点A₃₄的坐标为(4，3)。

在公共场所(例如广场、超市、地铁站、码头等地方)中，有时会存在人流量过多的情况，进而导致人群过于密集的情况发生。这时易发生一些公共事故，例如踩踏事件。因此，如何确定图像中的人数、图像中的人群密度、图像中人群的分布具有非常重要的意义。

在一种实现方式中，可通过确定图像中每个人的位置，确定图像中的人数、图像中的人群密度、图像中人群的分布。随着计算机视觉技术的发展，基于计算机视觉的方法可确定图像中每个人的位置(为表述方便，下文将确定图像中每个人的位置称为人群定位)。

目前，基于计算机视觉技术可通过对图像进行人头检测处理，得到图像中人头框(即包含人头的框)。依据人头框的位置可确定人物在图像中的位置。由于在图像中近处的人头比远处的人头的大，且在人群密度较大的情况下远处的人头的密度大，远处的人头框的位置的准确度低。进而导致人群定位的准确度低。基于此，本申请提供了一种提高人群定位的准确度的方法。

本申请实施例的执行主体为图像处理装置。可选的，图像处理装置可以是以下中的一种：手机、计算机、服务器、平板电脑。本申请实施例的图像处理方法还可以通过处理器执行计算机代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图3，图3是本申请实施例提供的一种图像处理方法的流程示意图。

301、获取第一人物点在待处理图像中的第一位置和第一人物框在上述待处理图像中的第二位置，其中，上述第一位置和上述第二位置均用于表征第一人物在待处理图像中的位置。

本申请实施例中，第一人物点和第一人物框均可通过对待处理图像进行人物检测处理得到。可选的，对待处理图像的人物检测处理可以通过人物检测网络对待处理图像实现。该人物检测网络通过以训练图像对卷积神经网络进行训练得到，其中，训练图像的标注信息包括以下至少一种：人物点的位置、人物框的位置。在训练图像的标注信息包括人物点的位置的情况下，使用人物检测网络对待处理图像进行处理，可得到包括上述第一位置在内的至少一个人物点的位置；在训练图像的标注信息包括人物框的位置的情况下，使用人物检测网络对待处理图像进行处理，可得到包括上述第二位置在内的至少一个人物框的位置；在训练图像的标注信息包括人物点的位置和人物框的位置的情况下，使用人物检测网络对待处理图像进行处理，可得到包括上述第一位置在内的至少一个人物点的位置，以及包括上述第二位置在内的至少一个人物框的位置。

在待处理图像中，人物点所覆盖的像素点区域可视为人物区域，其中人物区域为人体所覆盖的像素点区域。例如，第一人物点所覆盖的区域属于人头所覆盖的像素点区域。又例如，第一人物点所覆盖的区域属于手臂所覆盖的像素点区域。再例如，第一人物点所覆盖的区域属于躯干所覆盖的像素点区域。

在待处理图像中，人物框所包含的像素点区域可视为人物区域。例如，第一人物框所包含的区域为人头所覆盖的像素点区域。又例如，第一人物框所包含的区域为人脸所覆盖的像素点区域。再例如，第一人物框所包含的区域为躯干所覆盖的像素点区域。

本申请实施例中，第一人物点可以是任意形状，本申请对第一人物点的形状不做限定。可选的，第一人物点的形状包括以下至少一种：圆形、菱形、矩形、椭圆形、多边形。

本申请实施例中，第一位置为第一人物点在待处理图像的像素坐标系下的位置。例如，在第一人物点的形状为圆形的情况下，第一位置可以是第一人物点的圆心在像素坐标下的位置。又例如，在第一人物点的形状为矩形的情况下，第一位置可以是第一人物点的几何心在像素坐标下的位置。

作为一种可选的实施方式，第一人物点为待处理图像中的像素点，第一位置为该像素点在像素坐标系下的位置。例如，在图4所示的待处理图像中，第一人物点为像素点A₁₃，则第一位置为像素点A₁₃在像素坐标系下的位置。

可选的，第一位置还携带第一人物点的尺寸信息。例如，在第一人物点的形状为圆形的情况下，第一位置还携带第一人物点的半径。又例如，在第一人物点为矩形的情况下，第一位置还携带第一人物点的长和宽。依据第一位置，可确定第一人物点在待处理图像中所覆盖的像素点区域。可以理解的是，若第一人物点为待处理图像中的像素点，即使第一位置未携带第一人物点的尺寸信息，也可依据第一位置确定第一人物点在待处理图像中所覆盖的像素点区域。

本申请实施例中，第一人物框可以是任意形状，本申请对第一人物框的形状不做限定。可选的，第一人物框的形状包括以下至少一种：矩形、菱形、圆形、椭圆形、多边形。

本申请实施例中，第二位置为第一人物框在待处理图像中的位置。例如，在第一人物框的形状为矩形的情况下，第二位置可以包括矩形中任意一对对角的坐标，其中，一对对角指过矩形的对角线上的两个顶点。又例如，在第一人物框的形状为矩形的情况下，第二位置可以包括：矩形的几何中心的位置、矩形的长和矩形的宽。再例如，在第一人物框的形状为圆形的情况下，第二位置可以包括：第一人物框的圆心、第一人物框的半径。依据第二位置，可确定第一人物框在待处理图像中所包含的像素点区域。

本申请实施例中，第一位置可用于表示人物在待处理图像中的位置。在一种可能实现的方式中，第一位置表征在待处理图像中的第一位置处有人物。例如，假设第一位置为(7，8)，则人物在待处理图像中的位置为(7，8)。

在另一种可能实现的方式中，第一位置表征在待处理图像中，基于第一位置构建的像素点邻域为人物区域。例如，假设第一位置为(7，8)，以第一位置为圆心、2个像素点为半径，构建像素点邻域n1，则n1为人物区域。此时，n1内的任意一个像素点所处的位置均可作为人物在待处理图像中的位置。

本申请实施例中，第二位置也可用于表示人物在待处理图像中的位置。在一种可能实现的方式中，第一人物框内的任意一个像素点所处的位置均有人物，而依据第二位置可确定第一人物框内任意一个像素点的位置，因此，依据第二位置可确定人物在待处理图像中的位置。例如，假设第一人物框的形状为矩形，第二位置包括第一人物框的一对对角的坐标：(7，8)、(10，10)。此时，坐标(x，y)可作为人物在待处理图像中的位置，其中，x的取值范围为[7，10]，y的取值范围为[8，10]。

在另一种可能实现的方式中，依据第二位置确定在第一人物框的几何中心处有人物存在。例如，假设第一人物框的形状为矩形，第二位置包括第一人物框的一对对角的坐标：(8，8)、(12，10)。此时，第一人物框的几何中心的坐标为(10，9)，即人物在待处理图像中的位置为(7，8)。

本申请实施例中，第一位置和第二位置均用于表示同一个人物(即上述第一人物)在待处理图像的位置。

在一种获取第一人物点在待处理图像的第一位置的实现方式中，图像处理装置接收用户通过输入组件输入的第一位置。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取第一人物点在待处理图像的第一位置的实现方式中，图像处理装置接收第一终端发送的第一位置。可选的，第一终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。

在又一种获取第一人物点在待处理图像的第一位置的实现方式中，图像处理装置对待处理图像进行人物检测处理，得到第一位置。

在一种获取第一人物框在待处理图像的第二位置的实现方式中，图像处理装置接收用户通过输入组件输入的第二位置。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取第一人物框在待处理图像的第二位置的实现方式中，图像处理装置接收第二终端发送的第二位置。可选的，第二终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。第二终端与第一终端可以相同，也可以不同，本申请对此不做限定。

在又一种获取第一人物框在待处理图像的第二位置的实现方式中，图像处理装置对待处理图像进行人物检测处理，得到第二位置。

302、依据上述第一位置和上述第二位置，得到上述第一人物在上述待处理图像中的第三位置。

由于在待处理图像中，近处的人物比远处的人物大，且在人群密度较大的情况下远处的人群密度大(如人与人相互挨着，甚至在待处理图像中，两个不同的人物区域之间存在重叠区域)，远处的第一人物框的位置的准确度低，进而导致依据第一人物框确定的人物的位置的准确度低。

由于在待处理图像中，近处的人物区域的面积较大，与近处的人物区域对应的人物点的数量可能会超过1个，此时，与该人物区域对应的人物的位置超过1，进而导致依据第一人物框确定的人物的位置的准确度低。

也就是说，依据人物框的位置，确定的近处的人物的位置的准确度高；依据人物框的位置，确定的远处的人物的位置的准确度低。依据人物点的位置，确定的近处的人物的位置的准确度低；依据人物点的位置，确定的远处的人物的位置的准确度高。

本申请实施例中，对于待处理图像中的同一个人物而言，依据该人物的人物点的位置和该人物的人物框的位置，确定该人物的位置，可在该人物在待处理图像的近处的情况下，依据该人物的人物框确定该人物的位置；以及在该人物在待处理图像的远处的情况下，依据该人物的人物点确定该人物的位置。这样，可提高该人物在待处理图像中的位置的准确度。

在一种可能实现的方式中，依据第一位置得到第一人物点的中心的纵坐标(下文将称为第一纵坐标)，依据第二位置得到第一人物框的中心的纵坐标(下文将称为第二纵坐标)。由于在待处理图像中纵坐标的大小可用于表征远和近，可依据纵坐标的大小确定第一人物位于待处理图像的近处还是位于待处理图像的远处。在第一人物位于待处理图像的近处的情况下，依据第一位置确定第一人物在待处理图像中位置；在第一人物位于待处理图像的远处的情况下，依据第二位置确定第一人物在待处理图像中位置。

例如，在第一纵坐标处于[第一值，第二值]的情况下，依据第一位置得到第一人物在待处理图像中的位置，即第三位置；在第一纵坐标处于(第二值，第三值]的情况下，依据第二位置得到第一人物在待处理图像中的位置，即第三位置。第一值为待处理图像中的最大纵坐标，第三值为待处理图像中的最小纵坐标，第二值为第一值与第三值的均值。

在另一种可能实现的方式中，真实人物与采集上述图像的成像设备之间的距离越远，该人物在图像中的大小就越小。因此，图像处理装置可依据第一人物的身体的某个部位在待处理图像中的长度与该部位在真实世界下长度的比值(下文将称为参考比值)，确定第一人物处于远处还是处于近处。

例如，假设第一人物框为人体框，即第一框包含第一人物的整个身体。此时，图像处理装置可依据第一人物在待处理图像中的高度与第一人物在真实世界下的高度的比值，作为参考比值。图像处理装置进而可依据参考比值，确定第一人物处于远处还是处于近处。可选的，可将第四值(如人类的平均身高)作为第一人物在真实世界下的高度。

又例如，假设第一人物框为人脸框，即第一框包含第一人物的脸。此时，图像处理装置可依据第一人物的脸在待处理图像中的长度与第一人物的脸在真实世界下的长度的比值，作为参考比值，图像处理装置进而可依据图像处理装置，确定第一人物处于远处还是处于近处。可选的，可将第五值(人脸的平均长度)作为第一人物的脸在真实世界下的长度。

再例如，假设第一人物框为人头框，即第一框包含第一人物的头。此时，图像处理装置可依据第一人物的头在待处理图像中的长度与第一人物的头在真实世界下的长度的比值，作为参考比值。图像处理装置进而可依据参考比值，确定第一人物处于远处还是处于近处。可选的，可将第六值(人头的平均长度)作为第一人物的头在真实世界下的长度。

在依据参考比值确定第一人物处于近处还是处于远处的情况下，图像处理装置进而可确定依据第一位置确定第一人物的位置，还是依据第二位置确定第一人物的位置。

例如，参考比值未超过第七值，表征第一人物处于远处，此时依据第一位置得到第一人物在待处理图像中的位置，即第三位置；参考比值超过第七值，表征第一人物处于近处，此时依据第二位置得到第一人物在待处理图像中的位置，即第三位置。可选的，第七值为1。

本申请实施例中，在人物处于待处理图像中的远处的情况下，依据人物点的位置确定人物在待处理图像中的位置；在人物处于待处理图像中的近处的情况下，依据人物框的位置确定人物在待处理图像中的位置。以此提高人物在待处理图像中的位置的准确度。

作为一种可选的实施方式，在执行步骤302之前，图像处理装置还执行以下步骤：

1、获取上述第一位置的第一置信度和上述第二位置的第二置信度。

本申请实施例中，第一置信度可在对待处理图像进行人物检测处理得到第一位置的过程中得到。第二置信度可在对待处理图像进行人物检测处理得到第二位置的过程中得到。

第一置信度与第一位置的尺度呈负相关，即第一位置与像素坐标系的x轴之间的距离越小，第一置信度越高；第一位置与像素坐标系的x轴之间的距离越大，第一置信度越低。第二置信度与第二位置的尺度呈正相关，即第二位置与像素坐标系的x轴之间的距离越小，第二置信度越低；第二位置与像素坐标系的x轴之间的距离越大，第一置信度越高。

在一种获取第一置信度的实现方式中，图像处理装置接收用户通过输入组件输入的第一置信度。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取第一置信度的实现方式中，图像处理装置接收第三终端发送的第一置信度。可选的，第三终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。第三终端与第一终端可以相同，也可以不同，本申请对此不做限定。

在又一种获取第一置信度的实现方式中，第一位置携带第一位置的置信度信息，图像处理装置通过获取第一位置获取第一置信度。

在二种获取第二置信度的实现方式中，图像处理装置接收用户通过输入组件输入的第二置信度。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另二种获取第二置信度的实现方式中，图像处理装置接收第四终端发送的第二置信度。可选的，第三终端可以是以下任意二种：手机、计算机、平板电脑、服务器、可穿戴设备。第四终端与第三终端可以相同，也可以不同，本申请对此不做限定。

在又二种获取第二置信度的实现方式中，第二位置携带第二位置的置信度信息，图像处理装置通过获取第二位置获取第二置信度。

在执行步骤1之后，图像处理装置在执行步骤302的过程中具体执行以下步骤：

2、将上述第一位置和上述第二位置中置信度最高的位置作为第四位置。

例如，第一置信度为0.8，第二置信度为0.9，第一位置和第二位置中置信度最高的位置为第二位置。此时图像处理装置将第二位置作为第四位置。

3、依据上述第四位置，得到上述第三位置。

假设第三位置为p₁，第四位置为p₂。

在一种可能实现的方式中，p₁、p₂满足下式：

p₂＝k×p₁…公式(1)

其中，k为正数。可选的，k＝1。

在另一种可能实现的方式中，p₁、p₂满足下式：

p₂＝k×p₁+c…公式(2)

其中，k为正数、c为实数。可选的，k＝1，c＝0。

在又一种可能实现的方式中，p₁、p₂满足下式：

其中，k为正数、c为实数。可选的，k＝1，c＝0。

本申请实施例中，对同一个人物而言，依据人物点的位置和人物框的位置中置信度最高的位置确定该人物的位置，可提高该人物的位置的准确度。

作为一种可选的实施方式，在执行步骤301之前，图像处理装置还执行以下步骤：

4、获取上述待处理图像。

本申请实施例中，待处理图像可以是任意图像。例如，待处理图像可以包含人物。待处理图像可以只包括人头，并无躯干、四肢(下文将躯干和四肢称为人体)。待处理图像也可以只包括人体，不包括人头。待处理图像还可以只包括下肢或上肢。本申请对待处理图像具体包含的人体区域不做限定。又例如，待处理图像可以包含动物。再例如，待处理图像可以包含植物。本申请对待处理图像中包含的内容不做限定。

在一种获取待处理图像的实现方式中，图像处理装置接收用户通过输入组件输入的待处理图像。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取待处理图像的实现方式中，图像处理装置接收第五终端发送的待处理图像。可选的，第五终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。第五终端与第一终端可以相同，也可以不同，本申请对此不做限定。

在又一种获取待处理图像的实现方式中，图像处理装置可以通过成像组件采集得到待处理图像。可选的，上述成像组件可以是摄像头。

在执行步骤4之后，图像处理装置在执行步骤301的过程中具体执行以下步骤：

5、对上述待处理图像进行人物定位处理，得到上述第一位置和上述至少一个人物框的位置。

本申请实施例中，通过对待处理图像进行人物定位处理，可确定待处理图像中是否包含人物。在待处理图像中包含人物的情况下，还可得到人物在待处理图像中的位置。上述位置包括人物点的位置和人物框的位置。

在一种可能实现的方式中，对待处理图像进行人物定位处理可通过卷积神经网络实现。通过将带有标注信息的图像作为训练数据，对卷积神经网络进行训练，使训练后的卷积神经网络可完成对图像的人物定位处理。训练数据中的图像的标注信息为人物点的位置以及人物框的位置。在使用训练数据对卷积神经网络进行训练的过程中，卷积神经网络从图像中提取出图像的特征数据，并依据特征数据确定图像中是否有人物，在图像中有人物的情况下，依据图像的特征数据得到人物点的位置和人物框的位置。以标注信息为监督信息监督卷积神经网络在训练过程中得到的结果，并更新卷积神经网络的参数，完成对卷积神经网络的训练。这样，可使用训练后的卷积神经网络对待处理图像进行处理，以得到待处理图像中的人物的位置(包括人物点的位置和人物框的位置)。

在另一种可能实现的方式中，人物定位处理可通过人物检测算法实现，其中，人物检测算法可以是以下中的一种：只需一眼算法(you only look once，YOLO)、目标检测算法(deformable part model，DMP)、单张图像多目标检测算法(single shot multiBoxdetector，SSD)、Faster-RCNN算法等等，本申请对实现人物定位处理的人物检测算法不做限定。

由于待处理图像中的人物的数量可能不止1个，通过对待处理图像进行人物定位处理，得到的人物点的数量和人物框的数量均至少为1。因此，人物点的位置的数量至少为1，人物框的位置的数量也至少为1。

作为一种可选的实施方式，在图像处理装置对待处理图像进行人物检测处理得到至少一个人物点的位置和上述至少一个人物框的位置的同时，还将得到每一个人物点的位置的置信度和每一个人物框的位置的置信度。在人物点的数量超过1的情况下，将置信度最高的人物点的位置作为第一位置。例如，对待处理图像进行人物定位处理，得到位置1、位置2、位置3，其中，位置1的置信度为0.7，位置2的置信度为0.9，位置3的置信度为0.8。由于位置2的置信度最高，将位置2作为第一位置。

6、依据上述第一位置和上述至少一个人物框的位置，确定上述至少一个人物框与上述第一人物点之间的距离，得到至少一个第一距离。

依据第一位置和一个人物框的位置，可确定一个人物框与第一人物点之间的距离，得到一个第一距离。例如，第一位置为(7，8)，至少一个人物框包括人物框1，人物框1的形状为矩形，人物框1的位置包括人物框1的一对对角的坐标：(6，8)、(4，12)。第一人物点与人物框1之间的距离可以是第一人物点与人物框1的中心之间的距离，该距离为：

又例如，第一位置为(7，8)，至少一个人物框包括人物框2，人物框2的形状为矩形，人物框2的位置包括人物框1的一对对角的坐标：(6，8)、(4，12)。第一人物点与人物框1之间的距离可以是第一人物点与人物框2中离像素坐标系的原人物点最近的顶人物点之间的距离，该距离为：

分别确定第一人物点与每一个人物框之间的距离，可得到至少一个第一距离。

7、将与第二距离对应的人物框作为上述第一人物框，其中，上述第二距离为上述至少一个第一距离中未超过距离阈值的距离。

本申请实施例中，人物点与人物框之间的距离未超过距离阈值，表征人物点与人物框属于同一个人物，即人物点的位置与人物框的位置用于表征同一个人物在待处理图像中的位置。

因此，确定至少一个第一距离中未超过距离阈值的距离，得到第二距离。将与第二距离对应的人物框作为第一人物框。例如，至少一个人物框包括人物框1、人物框2。第一点与人物框1之间的距离为20，第一点与人物框2之间的距离为30。假设距离阈值为25，则第二距离为20。此时，与第二距离对应的人物框为人物框1。

作为一种可选的实施方式，在与第二距离对应的人物框的数量超过1的情况下，将置信度最高的人物框的位置作为第二位置，并将与第二位置对应的人物框作为第一人物框。

本申请实施例中，以第一点与人物框之间的距离，确定与第一点属于同一个人物的人物框，进而确定第一人物框。

作为一种可选的实施方式，在通过执行步骤5得到至少一个人物点的位置和至少一个人物框的位置后，图像处理装置可将至少一个人物框的位置中置信度最高的位置作为第二位置，并将与第二位置对应的人物框作为第一人物框。图像处理装置依据第二位置和至少一个人物点的位置，确定至少一个人物点与第一人物框之间的距离，得到至少一个第一中间距离。图像处理装置将与第二中间距离对应的人物点作为第一人物点，其中，第二中间距离为至少一个第一中间距离中未超过距离阈值的距离。

请参阅图5，图5是本申请实施例提供的步骤6的一种可能实现的方法的流程示意图。

501、依据上述第一位置和第二人物框的位置，得到第一点与上述第二人物框之间的第四距离。

本申请实施中，至少一个人物框包括第二人物框。依据第一位置和第二人物框的位置，确定第一点与第二人物框之间的距离，即第四距离。

依据第一位置和第二人物框的位置得到第四距离的实现方式，可参见步骤5中依据第一位置和一个人物框的位置得到一个第一距离的实现方式。

应理解，在本步骤中，依据第一位置和第二人物框的位置得到的距离不是第一距离而是第四距离。

502、确定第一尺度与第二尺度之间的差异，得到第一差异，其中，上述第一尺度为上述第一人物点在上述待处理图像中的尺度，上述第二尺度为上述第二人物框在上述待处理图像中的尺度。

在一种可能实现的方式中，计算第一人物点的纵坐标与第二人物框的中心的纵坐标之间的差，可得到第一差异。

在另一种可能实现的方式中，使用尺度神经网络对待处理图像进行处理，可得到第一尺度和第二尺度。尺度神经网络以图像中的人物的尺度为监督信息训练得到。

503、依据上述第四距离和上述第一差异，得到上述第三距离，其中，上述第三距离与上述第一差异呈正相关。

本申请实施例中，第三距离为第一人物点与第二人物框之间的距离，即至少一个第一距离包括第三距离。

由于在待处理图像中，尺度小的地方的单位长度对应真实世界的长度比尺度大的地方的单位长度对应真实世界的长度长，人物点和人物框之间的距离应与尺度呈正相关，即第三距离与第一差异呈正相关。例如，假设单位长度为10个像素点。在待处理图像中，尺度大的地方的10个像素点表示真实世界下的长度为0.5米，尺度小的地方的10个像素点表示真实世界下的长度为1米。

假设第一差异为d₁，第三距离为d₂，第四距离为d₃。

在一种可能实现的方式中，d₁、d₂、d₃满足下式：

其中，t为正数。可选的，t＝1。

在另一种可能实现的方式中，d₁、d₂满足下式：

其中，t为正数、b为实数。可选的，t＝1，b＝0。

在又一种可能实现的方式中，d₁、d₂满足下式：

其中，t为正数、b为实数。可选的，t＝1，b＝0。

本申请实施例中，依据第一差异和第四距离确定第三距离，可提高第三距离的准确度。

作为一种可选的实施方式，在执行步骤502之前，图像处理装置还执行以下步骤：

8、依据上述第二人物框的位置，确定第二人物点。

本申请实施例中，依据一个人物框的位置可确定一个人物点。例如，人物框1的形状为矩形。图像处理装置依据人物框1的位置可确定人物框1的任意一个顶点的位置，进而可将人物框1的任意一个顶点作为人物点。

又例如，人物框1的形状为矩形abcd。矩形abcd的中心为点e。图像处理装置依据人物框1的位置可确定点e的坐标，进而将点e作为人物点。

再例如，人物框1的形状为圆形。图像处理装置依据人物框1的位置可确定圆形上任意一个点的位置，进而可将圆形上的任意一个点作为人物点。

本申请实施例中，依据第二人物框的位置得到的人物点为第二人物点。可选的，第二人物点为以下中的一个：第二人物框的几何中心、第二人物框的顶点。

9、确定上述第一人物点与上述第二人物点的中点，得到第三人物点。

10、获取第一尺度指标。

本申请实施例中，在图像中，某处的尺度指标(包括上述第一尺度指标，以及下文将要出现的第二尺度指标、第三尺度指标)表征位于该处的物体的尺寸与该物体在真实世界下尺寸之间的映射关系。

在一种可能实现的方式中，某处的尺度指标表征在该处表示真实世界下的1米所需像素点的数量。例如，假设在图4所示的图像中，像素点A₃₁所在位置的尺度指标为50，像素点A₁₃所在位置的尺度指标为20。那么在像素点A₃₁所在位置表示真实世界下的1米所需像素点数量为50。

在另一种可能实现的方式中，某处的尺度指标表征位于该处的物体的尺寸与该物体在真实世界下尺寸之间的比值。例如，假设在图4所示的图像中，物体1位于像素点A₁₃所在的位置，物体2位于像素点A₃₁所在的位置。像素点A₃₁所在位置的尺度指标为50，像素点A₁₃所在位置的尺度指标为20。那么物体1在图像中的尺寸与物体1在真实世界下的尺寸之间的比值为20，物体2在图像中的尺寸与物体2在真实世界下的尺寸之间的比值为50。

在又一种可能实现的方式中，某处的尺度指标表征位于该处的物体的尺寸与该物体在真实世界下尺寸之间的比值的倒数。例如，假设在图4所示的图像中，物体1位于像素点A₁₃所在的位置，物体2位于像素点A₃₁所在的位置。像素点A₃₁所在位置的尺度指标为50，像素点A₁₃所在位置的尺度指标为20。那么物体1在真实世界下的尺寸与物体1在图像中的尺寸之间的比值为20，物体2在真实世界下的尺寸与物体2在图像中的尺寸之间的比值为50。

可选的，尺度相同的位置的尺度指标相同。例如，在图4所示的图像中，像素点A₁₁的尺度、像素点A₁₂的尺度、像素点A₁₃的尺度均相同，像素点A₂₁的尺度、像素点A₂₂的尺度、像素点A₂₃的尺度均相同，像素点A₃₁的尺度、像素点A₃₂的尺度、像素点A₃₃的尺度均相同。像素点A₁₁的尺度指标、像素点A₁₂的尺度指标、像素点A₁₃的尺度指标均相同，像素点A₂₁的尺度指标、像素点A₂₂的尺度指标、像素点A₂₃的尺度指标均相同，像素点A₃₁的尺度指标、像素点A₃₂的尺度指标、像素点A₃₃的尺度指标均相同。

本申请实施例中，第一尺度指标为第一尺度位置的尺度指标，其中，第一尺度位置为第三人物点在待处理图像中的位置。假设第一参考物体位于第一尺度位置，则第一尺度指标表征在第一尺寸与第二尺寸之间的映射，其中，第一尺寸为第一参考物体在待标注图像中的尺寸，第二尺寸为第一参考物体在真实世界下的尺寸。

在一种获取第一尺度指标的实现方式中，图像处理装置接收用户通过输入组件输入的第一尺度指标。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种获取第一尺度指标的实现方式中，图像处理装置接收不同于图像处理装置的终端发送的第一尺度指标。可选的，不同于图像处理装置的终端可以是以下任意一种：手机、计算机、平板电脑、服务器、可穿戴设备。不同于图像处理装置的终端与第一终端可以相同，也可以不同。

在获取到第一尺度指标之后，图像处理装置在执行步骤502的过程中具体执行以下步骤：

11、依据上述第一尺度指标，得到上述第一差异。

本申请实施例中，第一尺度指标与第一差异呈正相关。假设第一差异为d₁，第一尺度指标为i₁。

在一种可能实现的方式中，d₁、i₁满足下式：

其中，r为正数。可选的，r＝1/2。

在另一种可能实现的方式中，d₁、i₁满足下式：

其中，r为正数、a为实数。可选的，r＝1/2，a＝0。

在又一种可能实现的方式中，d₁、i₁满足下式：

其中，r为正数、a为实数。可选的，r＝1/2，a＝0。

由于第一尺度指标可较为准确的反应第三人物点所在位置的尺度，依据第一尺度指标确定第一差异，可提高第一差异的准确度。

请参阅图6，图6是本申请实施例提供的步骤10的一种可能实现的方法的流程示意图。

601、对上述待处理图像进行物体检测处理，得到第一物体框和第二物体框。

本申请实施例中，物体检测处理的检测对象在真实世界下的长度处于确定值附近。例如，人脸的平均长度为20厘米，物体检测处理的检测对象可以为人脸。又例如，人的平均身高为1.65米，物体检测处理的检测对象可以为人体。再例如，在候机室内，如图7所示的指示牌的高度均为确定的(如2.5米)，物体检测处理的检测对象可以为指示牌。可选的，物体检测处理为人脸检测处理。

在一种可能实现的方式中，对待处理图像进行物体检测处理可通过卷积神经网络实现。通过将带有标注信息的图像作为训练数据，对卷积神经网络进行训练，使训练后的卷积神经网络可完成对图像的物体检测处理。训练数据中的图像的标注信息为物体框的位置信息，该物体框包含物体检测处理的检测对象。

在另一种可能实现的方式中，物体检测处理可通过物体检测算法实现，其中，物体检测算法可以是以下中的一种：只需一眼算法(you only look once，YOLO)、目标检测算法(deformable part model，DMP)、单张图像多目标检测算法(single shot multiBoxdetector，SSD)、Faster-RCNN算法等等，本申请对实现物体检测处理的物体检测算法不做限定。

本申请实施例中，第一物体框所包含的检测对象与第二物体框所包含的检测对象不同。例如，第一物体框所包含的检测对象为张三的人脸，第二物体框所包含的检测对象为李四的人脸。又例如，第一物体框所包含的检测对象为张三的人脸，第二物体框所包含的检测对象为指示牌。

602、依据上述第一物体框在y轴方向上的长度得到第一长度，依据上述第二物体框在y轴方向上的长度得到第二长度。

本申请实施例中，y轴为待处理图像的像素坐标系的纵轴。图像处理装置通过执行步骤601，可得到物体框的位置。依据物体框的位置，可得到物体框在y轴方向上的长度。

例如，矩形框abcd为物体框1，其中，a的坐标为(4，8)、b的坐标为(6，8)、c的坐标为(6，12)、d的坐标为(4，12)。此时，物体框1在y轴方向上的长度为12-8＝4。

图像处理装置可依据第一物体框的位置，得到第一物体框在y轴方向上的长度，即第一长度。图像处理可依据第二物体框的位置，得到第二物体框在y轴方向上的长度，即第二长度。

603、依据上述第一长度和第一物体在真实世界下的第三长度得到第二尺度指标，依据上述第二长度和第二物体在真实世界下的第四长度得到第三尺度指标。

本申请实施例中，第二尺度指标为第二尺度位置的尺度指标，其中，第二尺度位置为依据第一物体框的位置在待标注图像中确定的位置。假设第二参考物体位于第二尺度位置，则第二尺度指标表征在第三尺寸与第四尺寸之间的映射，其中，第三尺寸为第二参考物体在待标注图像中的尺寸，第四尺寸为第二参考物体在真实世界下的尺寸。第三尺度指标为第三尺度位置的尺度指标，其中，第三尺度位置为依据第二物体框的位置在待标注图像中确定的位置。假设第三参考物体位于第三尺度位置，则第三尺度指标表征在第五尺寸与第六尺寸之间的映射，其中，第五尺寸为第三参考物体在待标注图像中的尺寸，第六尺寸为第三参考物体在真实世界下的尺寸。

本申请实施例中，图像处理装置可依据一个物体框确定一个物体点。本步骤的具体实现方式可参见步骤8中依据一个人物框可确定一个人物点的实现方式，此处不再赘述。

图像处理装置依据第一物体框的位置，确定第一物体点。图像处理装置依据第二物体框的位置，确定第二物体点。

可选的，第一物体点为以下中的一个：第一物体框的几何中心、第一物体框的顶点。第二物体点为以下中的一个：第二物体框的几何中心、第二物体框的顶点。

在确定第一物体点的位置和第二物体点的位置后，图像处理装置可将第一物体点的位置作为第二尺度位置、将第二物体点的位置作为第三尺度位置。

本申请实施例中，第一物体和第二物体均为物体检测处理的检测对象。第一物体为第一物体框所包含的检测对象，第二物体为第二物体框所包含的检测对象。第一物体在真实世界下的长度为第三长度，第二物体在真实世界下的长度为第四长度。例如，第一物体和第二物体均为人脸，第三长度和第四长度均可以是20厘米。又例如，第一物体为人脸，第二物体为人体，第三长度可以是20厘米，第四长度可以是170厘米。

假设第一长度为l₁，第二长度为l₂，第三长度为l₃，第四长度为l₄，第二尺度指标为i₂，第三尺度指标为i₃。

在一种可能实现的方式中，l₁、l₂、l₃、l₄、i₂、i₃满足下式：

其中，q为正数。可选的，q＝1。

在另一种可能实现的方式中，l₁、l₂、l₃、l₄、i₂、i₃满足下式：

其中，q为正数、m为实数。可选的，q＝1，m＝0。

在又一种可能实现的方式中，l₁、l₂、l₃、l₄、i₂、i₃满足下式：

其中，q为正数、m为实数。可选的，q＝1，m＝0。

604、对上述第二尺度指标和上述第三尺度指标进行曲线拟合处理，得到上述待处理图像的尺度指标图。

由于在待处理图像中，尺度与纵坐标之间的关系可视为线性相关，而尺度指标用于表征尺度，图像处理装置通过对第二尺度指标和第三尺度指标进行曲线拟合处理，可得到待处理图像的尺度指标图。该尺度指标图包括待处理图像中任意一个像素点所在位置的尺度指标。

以尺度指标图中的第一像素点为例。假设第一像素点的像素值(即第一像素值)为40，第一像素点在尺度指标图中的位置与第二像素点在待处理图像中的位置相同。则第二像素点在待处理图像的位置(即第四尺度位置)的尺度指标为第一像素值。假设第四参考物体位于第四尺度位置，则第一像素值表征第七尺寸与第八尺寸之间的映射，其中，第七尺寸为位于第四尺度位置的第四参考物体的尺寸，第八尺寸为所述第四参考物体在真实世界下的尺寸。

605、依据上述尺度指标图和上述第三人物点的位置得到上述第一尺度指标。

如步骤604所述，尺度指标图包括待处理图像中任意一个像素点所在位置的尺度指标。因此，依据尺度指标图和第三人物点在待处理图像中的位置，可确定第三人物点的尺度指标，即第一尺度指标。

本申请实施例中，依据第一长度和第三长度得到第二尺度指标，依据第二长度和第四长度得到第三尺度指标。通过对第二尺度指标和第三尺度指标进行曲线拟合处理，得到尺度指标图，进而可依据尺度指标图确定待处理图像中任意一个像素点所在位置的尺度指标。

作为一种可选的实施方式，本申请实施例中的人物点(包括：第一人物点、第二人物点、第三人物点)可以是人头点，人物框(包括：第一人物框、第二人物框)可以是人头框。人头点所覆盖的像素点区域和人头框所包含的像素点区域均为人头区域。

基于本申请提供的技术方案，本申请实施例还提供了一些可能的应用场景。

如上所述，在公共场所常因人流量过多导致人群过于密集的情况的发生，进而发生一些公共事故，如何对公共场所进行人群定位就具有非常重要的意义。

目前，为了增强工作、生活或者社会环境中的安全性，会在各个公共场所内安装监控摄像设备，以便根据视频流信息进行安全防护。利用本申请实施例提供的技术方案对监控摄像设备采集到的视频流进行处理，可确定图像中每个人的位置，进而可有效预防公共事故的发生。

举例来说，监控摄像设备的视频流处理中心的服务器可执行本申请实施例提供的技术方案，该服务器可与至少一个监控摄像头相连。服务器在获取到监控摄像头发送的视频流后，可对视频流中的每一帧图像进行人物检测处理，得到每一帧图像中的人物点的位置和每一帧图像中的人物框的位置。进而可采用本申请实施例提供的技术方案对每一帧图像中的人物点的位置和每一帧图像中的人物框的位置进行处理，以确定每一帧图像中的人物的位置。用户进而可通过服务器查看图像中每个人物的位置，以便进一步确定图像的人物在真实世界中的位置。

可选的，服务器在得到视频流中的每一帧图像中的人的位置后，可依据每一帧图像中人的位置，确定每一帧图像中的人数。在图像中的人数大于或等于人数阈值的情况下，服务器可向相关设备发送指令，以进行提示或报警。

例如，服务器可向采集该图像的摄像头发送指令，该指令用于指示采集该图像的摄像头进行报警。又例如，服务器可向采集该图像的摄像头所在的区域的管控人员的终端发送指令，该指令用于提示该终端输出人数超过人数阈值的提示信息。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图8，图8为本申请实施例提供的一种图像处理装置的结构示意图，所述图像处理装置包括：获取单元11、第一处理单元12、第二处理单元13。其中：

获取单元11，用于获取第一人物点在待处理图像中的第一位置和第一人物框在所述待处理图像中的第二位置；所述第一位置和所述第二位置均用于表征第一人物在待处理图像中的位置；

第一处理单元12，用于依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置。

结合本申请任一实施方式，所述获取单元11，还用于在所述依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置之前，获取所述第一位置的第一置信度和所述第二位置的第二置信度；所述第一置信度与所述第一位置的尺度呈负相关；所述第二置信度与所述第二位置的尺度呈正相关；

所述第一处理单元12用于：

依据所述第四位置，得到所述第三位置。

结合本申请任一实施方式，所述获取单元11，还用于在所述获取第一人物点在待处理图像中的第一位置和第一人物框在所述待处理图像中的第二位置之前，获取所述待处理图像；

结合本申请任一实施方式，所述获取单元11，用于：

所述获取单元11，用于：

结合本申请任一实施方式，所述装置还包括第二处理单元13，所述第二处理单元13用于：

所述获取单元11，还用于获取第一尺度指标；所述第一尺度指标表征第一尺寸与第二尺寸之间的映射；所述第一尺寸为位于第一尺度位置的第一参考物体的尺寸；所述第二尺寸为所述第一参考物体在真实世界下的尺寸；所述第一尺度位置为所述第三人物点在所述待处理图像中的位置；

依据所述第一尺度指标，得到所述第一差异。

结合本申请任一实施方式，所述获取单元11，用于：

结合本申请任一实施方式，所述第一人物框的形状为矩形。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图9为本申请实施例提供的一种图像处理装置的硬件结构示意图。该图像处理装置2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的第一位置和第二位置，又或者该存储器22还可用于存储通过处理器21得到的第三位置等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图9仅仅示出了一种图像处理装置的简化设计。在实际应用中，图像处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的图像处理装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像；

对所述待处理图像进行人物定位处理，得到第一人物点在所述待处理图像中的第一位置和至少一个人物框的位置；

将与第二距离对应的人物框作为第一人物框；所述第二距离为所述至少一个第一距离中未超过距离阈值的距离；

获取所述第一人物框在所述待处理图像中的第二位置；所述第一位置和所述第二位置均用于表征第一人物在待处理图像中的位置；

依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置；

依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置，包括：

在依据所述第一位置和所述第二位置确定所述第一人物在所述待处理图像的远处的情况下，依据所述第一位置确定所述第一人物在所述待处理图像中的第三位置；

在依据所述第一位置和所述第二位置确定所述第一人物在所述待处理图像的近处的情况下，依据所述第二位置确定所述第一人物在所述待处理图像中的第三位置；

或者，

依据所述第四位置，得到所述第三位置。

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理图像进行物体定位处理，得到所述第一位置，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述至少一个人物框包括第二人物框；所述至少一个第一距离包括所述第一人物点与所述第二人物框之间的第三距离；

依据所述第一位置和所述第二人物框的位置，得到所述第一人物点与所述第二人物框之间的第四距离；

4.根据权利要求3所述的方法，其特征在于，在所述确定第一尺度与第二尺度之间的差异，得到第一差异之前，所述方法还包括：

依据所述第二人物框的位置，确定第二人物点；

依据所述第一尺度指标，得到所述第一差异。

5.根据权利要求4所述的方法，其特征在于，所述获取第一尺度指标，包括：

6.根据权利要求5所述的方法，其特征在于，所述第二尺度位置为第一物体点在所述待处理图像中的位置；所述第三尺度位置为第二物体点在所述待处理图像中的位置；

7.根据权利要求4至6中任意一项所述的方法，其特征在于，所述第二人物点为以下中的一个：所述第二人物框的几何中心、所述第二人物框的顶点。

8.根据权利要求1所述的方法，其特征在于，所述第一人物点所覆盖的像素点区域和所述第一人物框所包含的像素点区域均为人头区域。

9.根据权利要求1所述的方法，其特征在于，所述第一人物框的形状为矩形。

10.一种图像处理装置，其特征在于，所述装置包括：

获取单元，用于获取待处理图像；

所述获取单元，还用于对所述待处理图像进行人物定位处理，得到第一人物点在所述待处理图像中的第一位置和至少一个人物框的位置；

所述获取单元，还用于依据所述第一位置和所述至少一个人物框的位置，确定所述至少一个人物框与所述第一人物点之间的距离，得到至少一个第一距离；

所述获取单元，还用于将与第二距离对应的人物框作为所述第一人物框；所述第二距离为所述至少一个第一距离中未超过距离阈值的距离；

所述获取单元，还用于获取所述第一人物框在所述待处理图像中的第二位置；所述第一位置和所述第二位置均用于表征第一人物在待处理图像中的位置；

第一处理单元，用于依据所述第一位置和所述第二位置，得到所述第一人物在所述待处理图像中的第三位置；

或者，

依据所述第四位置，得到所述第三位置。

11.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行权利要求1至9中任意一项所述的方法。