CN110163076B

CN110163076B - 一种图像数据处理方法和相关装置

Info

Publication number: CN110163076B
Application number: CN201910164648.5A
Authority: CN
Inventors: 项小明; 徐浩; 王飞; 占克有; 郑克松; 刘承全
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2024-05-24
Anticipated expiration: 2039-03-05
Also published as: CN110163076A

Abstract

本发明实施例公开了一种图像数据处理方法和相关装置，该方法包括：获取目标图像帧中具有轮廓信息的多个第一对象，在目标图像帧中确定每个第一对象的定位区域；根据目标图像帧中所有像素点所关联的像素信息，确定目标图像帧对应的主体区域，并分别确定主体区域与每个第一对象的定位区域之间的重合度信息；从多个第一对象中筛选多个候选对象，并获取每个候选对象的定位区域分别对应的平均深度信息；根据每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从每个候选对象中确定用于进行分类属性识别的第二对象。采用本发明，可以避免计算资源的浪费，并提高获取目标对象的准确度。

Description

一种图像数据处理方法和相关装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种图像数据处理方法和相关装置。

背景技术

目前的图像识别技术，可以识别出各应用场景中所包含的每个对象，并可以同步得到所识别出的每个对象的分类属性，换言之，当应用场景中存在多个对象时，可以通过该图像识别技术识别出所有的对象。比如，当机器人在移动的过程中所获取到的图像帧中存在10个对象时，该机器人可以从该图像帧中获知这10个对象中每个对象的分类属性，换言之，当这10个对象中存在位于视觉边缘处的对象、或者存在距离该机器人较远的对象时，该机器人仍会对这些对象进行分类识别，但是在分类的过程中，却是无法确保对这些对象进行分类识别的准确性，从而会导致大量计算资源的浪费。此外，当该图像帧中存在较多的背景元素时，将增加该机器人从该图像帧中找到目标对象的难度，从而存在误辨别目标对象的现象，以至于所获取的目标对象的准确度偏低。

发明内容

本发明实施例提供一种图像数据处理方法和装置，可以避免计算资源的浪费，并可以提高获取目标对象的准确度。

本发明实施例一方面提供了一种图像数据处理方法，包括：

获取目标图像帧中具有轮廓信息的多个第一对象，在所述目标图像帧中确定每个第一对象的定位区域；

根据所述目标图像帧中所有像素点所关联的像素信息，确定所述目标图像帧对应的主体区域，并分别确定所述主体区域与所述每个第一对象的定位区域之间的重合度信息；

从所述多个第一对象中筛选多个候选对象，并获取每个候选对象的定位区域分别对应的平均深度信息；

根据所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所述每个候选对象中确定用于进行分类属性识别的第二对象。

其中，所述获取目标图像帧中具有轮廓信息的多个第一对象，在所述目标图像帧中确定每个第一对象的定位区域，包括：

获取目标图像帧，并通过实体检测模型对所述目标图像帧中所包含的多个初始对象进行实体检测，得到实体检测结果；

根据所述实体检测结果中所包含的每个初始对象与所述实体检测模型中的多个目标属性特征之间的匹配度，确定所述每个初始对象的实体置信度信息，根据所述每个初始对象的实体置信度信息确定具有轮廓信息的对象，作为第一对象；

在所述目标图像帧中确定所述每个第一对象的位置信息和尺寸信息，并根据所述每个第一对象的位置信息和尺寸信息在所述目标图像帧中确定所述每个第一对象的定位区域。

其中，所述像素信息包含像素点所关联的初始像素值、权重值和掩码值；

所述根据所述目标图像帧中所有像素点所关联的像素信息，确定所述目标图像帧对应的主体区域，包括：

从所述目标图像帧对应的目标图像区域中提取所有像素点，并为所述目标图像帧中的每个像素点的初始像素值设置相应的权重值，根据所述权重值生成与所述目标图像帧具有相同尺寸的目标权重图像；所述目标权重图像中的目标像素值为所述权重值；

在所述目标权重图像中为所述每个像素点的权重值设置相应的掩码值，所述掩码值包含第一掩码值和第二掩码值；所述第一掩码值与属于前景区域的像素点的权重值相对应，所述第二掩码值与属于背景区域的像素点的权重值相对应；

根据所述目标权重图像中的每个像素点的权重值以及所述掩码值，对所述目标权重图像进行分割，得到包含具有所述第一掩码值的像素点的前景区域；

根据所述前景区域中每个像素点的第一掩码值确定最大外接区域，并将所述最大外接区域作为所述目标视频帧对应的主体区域。

其中，所述为所述目标图像帧中的每个像素点的初始像素值设置相应的权重值，包括：

根据所述目标图像帧中所提取到的每个像素点的初始像素值，确定所述每个像素点的初始像素值所关联的颜色信息、边界信息以及梯度信息；

根据所述颜色信息、所述边界信息以及所述梯度信息，确定所述每个像素点的初始像素值对应的权重值；一个初始像素值对应于一个权重值。

其中，所述根据所述目标权重图像中的每个像素点的权重值以及所述掩码值，对所述目标权重图像进行分割，得到包含具有所述第一掩码值的像素点的前景区域，包括：

根据所述第一掩码值和所述第二掩码值，生成所述目标权重图像对应的掩码图；所述掩码图中的每个像素点与所述目标权重图像中的每个像素点之间具有一一映射关系；

获取所述目标权重图像中的每个像素点的权重值，并基于所述映射关系，将所述目标权重图像中的每个像素点的权重值，与所述掩码图中相应像素点对应的掩码值进行二值与操作，得到包含具有所述第一掩码值的像素点的前景区域。

其中，所述分别确定所述主体区域与所述每个第一对象的定位区域之间的重合度信息，包括：

从所述每个第一对象的定位区域中获取目标定位区域，并在所述目标图像帧中将所述目标定位区域的位置信息作为第一位置信息，并将所述目标定位区域的尺寸信息作为第一尺寸信息；

在所述目标图像帧中将所述主体区域所在的位置信息作为第二位置信息，并将所述主体区域的尺寸信息作为第二尺寸信息；

根据所述第一位置信息，第二位置信息，第一尺寸信息和第二尺寸信息，确定所述主体区域与所述目标定位区域之间的交叠区域，并得到所述交叠区域的第三尺寸信息；

将所述第三尺寸信息与所述第一尺寸信息之间的比值，作为所述目标定位区域与所述主体区域之间的重合度信息，以得到每个第一对象分别对应的重合度信息。

其中，所述从所述多个第一对象中筛选多个候选对象，包括：

获取所述每个第一对象的定位区域的尺寸信息，并根据所述目标图像帧对应的融合条件和所述每个第一对象对应的实体置信度信息、所述每个第一对象的定位区域的尺寸信息以及重合度信息，从所述目标图像帧中筛选多个候选对象。

其中，所述融合条件中包含目标置信度阈值，目标尺寸阈值和目标重合度阈值；

所述根据所述目标图像帧对应的融合条件和所述每个实体的实体置信度信息、尺寸信息以及重合度信息，从所述目标图像帧中筛选多个候选对象，包括：

将所述每个第一对象分别作为第一待处理对象，并将每个第一待处理对象的尺寸信息分别与所述目标尺寸阈值进行比较，并同步将相应第一待处理对象的实体置信度信息与所述目标置信度阈值进行比较，并根据第一比较结果在所有第一待处理对象中将尺寸信息大于所述目标尺寸阈值且实体置信度信息大于所述目标置信度阈值的第一待处理对象分别作为第二待处理对象；

将每个第二待处理对象的重合度信息分别与所述目标重合度阈值进行比较，并根据第二比较结果在所有第二待处理对象中将重合度信息大于所述目标重合度阈值的第二待处理对象，分别作为从所述目标图像帧中所筛选出的候选对象。

其中，所述获取每个候选对象的定位区域对应的平均深度信息，包括：

获取所述目标图像帧中每个像素点的深度信息，并对所述每个像素点的深度信息进行归一化处理，得到所述每个像素点的归一化深度信息；

从筛选出的所有候选对象中选择一个候选对象作为待处理实体，并将所述待处理实体的定位区域划分为多个子区域，并根据每个子区域中所包含的像素点的归一化深度信息，确定所述每个子区域的平均深度值；

从所述多个子区域的平均深度值中选取最大平均深度值作为所述待处理实体的定位区域对应的平均深度信息；

当所有候选对象中的每一个候选对象均被选择作为待处理实体时，得到所述每个候选对象的定位区域对应的平均深度信息。

其中，所述根据所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所述每个候选对象中确定用于进行分类属性识别的第二对象，包括：

将所述每个候选对象的尺寸信息、位置信息、重合度信息以及平均深度信息分别作为融合因子，并获取每个融合因子对应的融合权重值；

根据所述每个融合因子和相应融合因子所对应的融合权重值，确定所述每个候选对象对应的融合值；

从所述每个候选对象对应的融合值中筛选具有最大融合值的候选对象作为第二对象；

通过图像识别模型对所述第二对象进行识别，并根据识别结果确定所述第二对象的分类属性信息。

本发明实施例一方面提供了一种图像数据处理装置，包括：

第一确定模块，用于获取目标图像帧中具有轮廓信息的多个第一对象；

定位区域确定模块，用于在所述目标图像帧中确定每个第一对象的定位区域；

主体区域确定模块，用于根据所述目标图像帧中所有像素点所关联的像素信息，确定所述目标图像帧对应的主体区域；

重合度确定模块，用于分别确定所述主体区域与所述每个第一对象的定位区域之间的重合度信息；

对象筛选模块，用于从所述多个第一对象中筛选多个候选对象；

深度获取模块，用于获取每个候选对象的定位区域分别对应的平均深度信息；

第二确定模块，用于根据所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所述每个候选对象中确定用于进行分类属性识别的第二对象。

其中，所述第一确定模块包括：

检测单元，用于获取目标图像帧，并通过实体检测模型对所述目标图像帧中所包含的多个初始对象进行实体检测，得到实体检测结果；

置信度确定单元，用于根据所述实体检测结果中所包含的每个初始对象与所述实体检测模型中的多个目标属性特征之间的匹配度，确定所述每个初始对象的实体置信度信息，根据所述每个初始对象的实体置信度信息确定具有轮廓信息的对象，作为第一对象；

定位区域确定单元，用于在所述目标图像帧中确定所述每个第一对象的位置信息和尺寸信息，并根据所述每个第一对象的位置信息和尺寸信息在所述目标图像帧中确定所述每个第一对象的定位区域。

所述主体区域确定模块包括：

权重设置单元，用于从所述目标图像帧对应的目标图像区域中提取所有像素点，并为所述目标图像帧中的每个像素点的初始像素值设置相应的权重值；

权重图生成单元，用于根据所述权重值生成与所述目标图像帧具有相同尺寸的目标权重图像；所述目标权重图像中的目标像素值为所述权重值；

掩码设置单元，用于在所述目标权重图像中为所述每个像素点的权重值设置相应的掩码值，所述掩码值包含第一掩码值和第二掩码值；所述第一掩码值与属于前景区域的像素点的权重值相对应，所述第二掩码值与属于背景区域的像素点的权重值相对应；

图像分割单元，用于根据所述目标权重图像中的每个像素点的权重值以及所述掩码值，对所述目标权重图像进行分割，得到包含具有所述第一掩码值的像素点的前景区域；

主体区域确定单元，用于根据所述前景区域中每个像素点的第一掩码值确定最大外接区域，并将所述最大外接区域作为所述目标视频帧对应的主体区域。

其中，所述权重设置单元包括：

信息确定子单元，用于根据所述目标图像帧中所提取到的每个像素点的初始像素值，确定所述每个像素点的初始像素值所关联的颜色信息、边界信息以及梯度信息；

权重确定子单元，用于根据所述颜色信息、所述边界信息以及所述梯度信息，确定所述每个像素点的初始像素值对应的权重值；一个初始像素值对应于一个权重值。

其中，所述图像分割单元包括：

掩码图生成子单元，用于根据所述第一掩码值和所述第二掩码值，生成所述目标权重图像对应的掩码图；所述掩码图中的每个像素点与所述目标权重图像中的每个像素点之间具有一一映射关系；

二值操作子单元，用于获取所述目标权重图像中的每个像素点的权重值，并基于所述映射关系，将所述目标权重图像中的每个像素点的权重值，与所述掩码图中相应像素点对应的掩码值进行二值与操作，得到包含具有所述第一掩码值的像素点的前景区域。

其中，所述重合度确定模块包括：

第一确定单元，用于从所述每个第一对象的定位区域中获取目标定位区域，并在所述目标图像帧中将所述目标定位区域的位置信息作为第一位置信息，并将所述目标定位区域的尺寸信息作为第一尺寸信息；

第二确定单元，用于在所述目标图像帧中将所述主体区域所在的位置信息作为第二位置信息，并将所述主体区域的尺寸信息作为第二尺寸信息；

交叠区域确定单元，用于根据所述第一位置信息，第二位置信息，第一尺寸信息和第二尺寸信息，确定所述主体区域与所述目标定位区域之间的交叠区域，并得到所述交叠区域的第三尺寸信息；

重合度确定单元，将所述第三尺寸信息与所述第一尺寸信息之间的比值，作为所述目标定位区域与所述主体区域之间的重合度信息，以得到每个第一对象分别对应的重合度信息。

其中，其特征在于，所述对象筛选模块包括：

尺寸获取单元，用于获取所述每个第一对象的定位区域的尺寸信息；

对象筛选单元，用于根据所述目标图像帧对应的融合条件和所述每个第一对象对应的实体置信度信息、所述每个第一对象的定位区域的尺寸信息以及重合度信息，从所述目标图像帧中筛选多个候选对象。

所述对象筛选单元包括：

第一比较子单元，用于将所述每个第一对象分别作为第一待处理对象，并将每个第一待处理对象的尺寸信息分别与所述目标尺寸阈值进行比较，并同步将相应第一待处理对象的实体置信度信息与所述目标置信度阈值进行比较，并根据第一比较结果在所有第一待处理对象中将尺寸信息大于所述目标尺寸阈值且实体置信度信息大于所述目标置信度阈值的第一待处理对象分别作为第二待处理对象；

第二比较子单元，用于将每个第二待处理对象的重合度信息分别与所述目标重合度阈值进行比较，并根据第二比较结果在所有第二待处理对象中将重合度信息大于所述目标重合度阈值的第二待处理对象，分别作为从所述目标图像帧中所筛选出的候选对象。

其中，所述深度获取模块包括：

归一化单元，用于获取所述目标图像帧中每个像素点的深度信息，并对所述每个像素点的深度信息进行归一化处理，得到所述每个像素点的归一化深度信息；

区域划分单元，用于从筛选出的所有候选对象中选择一个候选对象作为待处理实体，并将所述待处理实体的定位区域划分为多个子区域，并根据每个子区域中所包含的像素点的归一化深度信息，确定所述每个子区域的平均深度值；

最大值选取单元，用于从所述多个子区域的平均深度值中选取最大平均深度值作为所述待处理实体的定位区域对应的平均深度信息；

平均深度确定单元，用于当所有候选对象中的每一个候选对象均被选择作为待处理实体时，得到所述每个候选对象的定位区域对应的平均深度信息。

其中，所述第二确定模块包括：

融合因子确定单元，用于将所述每个候选对象的尺寸信息、位置信息、重合度信息以及平均深度信息分别作为融合因子，并获取每个融合因子对应的融合权重值；

融合单元，根据所述每个融合因子和相应融合因子所对应的融合权重值，确定所述每个候选对象对应的融合值；

融合值筛选单元，用于从所述每个候选对象对应的融合值中筛选具有最大融合值的候选对象作为第二对象；

对象识别单元，用于通过图像识别模型对所述第二对象进行识别，并根据识别结果确定所述第二对象的分类属性信息。

本发明实施例一方面提供了一种图像数据处理装置，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

本发明实施例一方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例通过将从目标图像帧中所检测到的多个具有轮廓信息的对象，作为第一对象，可以进一步在该目标图像帧中确定出每个第一对象的定位区域，换言之，该定位区域可以理解为在该目标图像帧中所定位出的每个第一对象所在的区域，比如，该区域可以为包含第一对象的矩形区域。进一步地，获取所述目标图像帧中所有像素点所关联的像素信息，并根据每个像素点所关联的像素信息确定该目标图像帧对应的主体区域，其中，该主体区域可以理解为从目标图像帧中所找到的具备明显区别度的区域，换言之，根据每个像素点所关联的像素信息可以在目标图像帧中找出具有较明显辨识度的像素点所在的区域。进一步地，可以计算该主体区域分别与每个定位区域之间的重合度信息，以便于可以根据每个定位区域的位置信息和置信度信息以及重合度信息从多个第一对象中筛选出候选对象，进而可以对筛选出的候选对象所属的定位区域的平均深度信息进行计算，以避免对每个第一对象的平均深度信息进行计算，从而可以有效地避免计算资源的浪费。其中，通过所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，可以从所有候选对象中确定出符合用户期望(即用户视觉意图)的第二对象，从而可以提高从所有候选对象中找出目标对象的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种网络架构的结构示意图；

图2是本发明实施例所提供的一种获取第一图像信息的示意图；

图3是本发明实施例所提供的一种获取第二图像信息的示意图；

图4是本发明实施例提供的一种获取目标图像帧的示意图；

图5是本发明实施例提供的一种图像数据处理方法的流程示意图；

图6是本发明实施例提供的一种对目标图像帧进行图像处理的示意图；

图7是本发明实施例提供的一种获取权重图的示意图；

图8是本发明实施例所提供的另一种图像数据处理方法的示意图；

图9是本发明实施例提供的一种计算重合度信息的示意图；

图10是本发明实施例提供的一种图像数据处理装置的结构示意图；

图11是本发明实施例提供的另一种图像数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种网络架构的结构示意图。如图1所示，所述网络架构可以包括服务终端2000以及用户终端集群；所述用户终端集群可以包括多个用户终端，如图1所示，具体包括用户终端3000a、用户终端3000b、…、用户终端3000n；

如图1所示，所述用户终端3000a、用户终端3000b、…、用户终端3000n可以分别与所述服务终端2000进行网络连接，所述多个用户终端可以通过应用平台(例如，社交平台)对应的服务终端2000实现用户行为数据的交互。为便于理解，本发明实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端，例如，可以将图1所示的用户终端3000a作为所述目标用户终端为例，以阐述该目标用户终端与服务终端2000之间进行数据交互的过程。

其中，所述目标用户终端可以包括：智能手机、平板电脑、桌上型电脑、智能电视、智能机器人等携带摄像功能的智能终端。

比如，本发明实施例可以以该目标用户终端为智能机器人为例，该智能机器人在移动的过程中，可以通过其所携带的摄像头自动实时捕捉多个图像信息，并对捕捉到的每个图像信息进行图像处理，以便于可以从每个图像信息中快速找到符合用户视觉意图的目标对象。其中，可以理解的是，当该智能机器人所采集到的图像信息中存在大量的背景元素时，为提高获取目标对象的准确度，可以对所采集到的图像信息进行预分类处理(即图像数据处理)，即可以将在任意图像信息中所检测出的具有轮廓信息的对象，一并称之为第一对象，从而可以根据人眼的先验知识从多个第一对象中预筛选出一个或多个候选对象，进而可以从候选对象中准确确定出上述符合视觉意图的目标对象。应当理解，当该智能机器人具备图像数据处理功能时，可以在该智能机器人中对所采集到的图像信息进行图像数据处理；可选地，当与该智能机器人具有网络连接关系的服务终端2000具备图像数据处理功能时，则该智能机器人可以通过该网络连接关系将所采集到的图像信息给到该服务终端2000，以使该服务终端2000可以对接收到的图像信息进行图像数据处理，从而可以从多个第一对象中筛选出候选对象，进而可以从候选对象中快速且准确地找到符合用户视觉意图的目标对象。

为便于理解，本发明实施例也可以以上述图1所示的用户终端3000a作为所述目标用户终端为例，当该目标用户终端具备图像数据处理功能时，可以在该目标用户终端中对获取到的图像信息进行图像数据处理。可以理解的是，该目标用户终端可以在本地终端中将所获取到的图像信息作为目标图像帧，并可以进一步从该目标图像帧中找出所有的具有轮廓信息的对象，作为第一对象。具体地，如图1所示，该目标用户终端可以通过该终端内的摄像头采集包含多个初始对象的第一图像信息，例如，可以将通过前置或者后置摄像头拍照得到图像信息称之为第一图像信息，此时，可以在该目标用户终端中将该第一图像信息称之为目标图像帧，并可以进一步通过实体检测模型对该目标图像帧中的多个初始对象进行实体检测，以便于能够从该目标视频帧的多个初始对象中检测出所有具有轮廓信息的对象。在本发明实施例中可以将在该目标用户终端中所检测出的每个具有轮廓信息的对象称之为第一对象，也可以将在该目标用户终端中所检测出的每个具有轮廓信息的对象称之为实体。其中，可以理解的是，该第一图像信息中所包含的多个初始对象中的任意一个初始对象均可以称之为一个对象，且该多个初始对象可以具体包含具有轮廓信息的对象，还可以具体包含不具有轮廓信息的对象。其中，具有轮廓信息的对象是指在该第一图像信息中可以检测出的具有明显边界(即边界特征)的初始对象。例如，可以将从该第一图像信息中所检测出的人、水果、电脑、动物、植物等初始对象一并称之为具有轮廓信息的对象，并可以将该第一图像信息中所包含的天空、地面、墙面等没有明显边界的初始对象一并称之为不具有轮廓信息的对象。

为便于理解，进一步地，请参见图2，是本发明实施例所提供的一种获取第一图像信息的示意图。其中，该第一图像信息即为上述目标图像帧。如图2所示，用户A可以通过图2所示的目标用户终端(即上述用户终端3000a)对蹲坐在地面上玩网球的小狗进行拍照，以得到图2所示的包含多个初始对象的第一图像信息。其中，图2所示的第一图像信息中包含多个初始对象，这多个初始对象中的初始对象10为墙面，初始对象20为小狗，初始对象30为地面、初始对象40为网球。其中，初始对象10、初始对象30为上述描述的没有明显边界的初始对象，而初始对象20和初始对象40则为上述描述的具有明显边界的初始对象。可以理解的是，根据上述对第一对象(即实体)的定义可知，图2所示的目标用户终端在得到该第一图像信息时，可以在后台通过实体检测模型检测出所有具有明显边界的初始对象，并将所有具有明显边界的初始对象归为实体标签对应的对象；即可以在该目标用户终端将检测出的具有轮廓信息的初始对象20和初始对象40称之为上述第一对象(或上述实体)。换言之，在本发明实施例中可以将能够被该实体检测模型所检测出的初始对象的实体置信度信息大于实体阈值的初始对象称之为上述第一对象。其中，所述实体置信度信息可以理解为从该第一图像信息(即目标图像帧)中所找到的初始对象为一个实体的概率，此时，该概率可以理解为该实体检测模型对每个初始对象进行实体检测所得到的匹配度。比如，通过该实体检测模型可以得到初始对象10为一个实体的概率为0，初始对象20为一个实体的概率为0.85，初始对象30为一个实体的概率为0，初始对象40为一个实体的概率为0.8，由于初始对象20和初始对象40的实体置信度信息均大于上述实体阈值(例如，0.5)因此，该目标用户终端可以进一步在该第一图像信息中将检测出的初始对象20和初始对象40称之为上述第一对象，并可以进一步在该目标图像帧中根据每个第一对象的轮廓信息确定出小狗所属的定位区域，和网球所属的定位区域。

其中，为便于理解，本发明实施例以确定小狗所属的定位区域为例，以阐述在目标图像帧中确定每个第一对象所属的定位区域(即每个第一对象的定位区域)的具体过程。其中，小狗所属的定位区域可以理解为该目标用户终端根据该小狗的轮廓信息所确定出的最大外接矩形区域，从而可以将该最大外接矩形区域的某个顶点的位置坐标(例如，左上角处的顶点的位置坐标)称之为第一对象的位置信息，并可以将该最大外接矩形区域的长度和宽度称之为第一对象的尺寸信息，以便于可以在图2所示的第一图像信息中得到初始对象20的定位区域。可以理解的是，此时，该初始对象20的定位区域中的内容则可以用于表征该初始对象20为一个实体的准确度。同理，可以在图2所属的第一图像信息中确定出网球(即初始对象40)所属的定位区域。

应当理解，在本发明实施例中，在通过该实体检测模型进行实体检测的过程中，还可以进一步将该第一图像信息中所包含的地面(即初始对象30)、墙面(初始对象10)称之为不具有轮廓信息的对象，换言之，该目标用户终端不可以将通过该实体检测模型所检测出的初始对象的实体置信度信息小于或等于上述实体阈值的初始对象称之为上述第一对象。

可选地，该目标用户终端获取目标图像帧的具体过程还可以为：该目标用户终端在检测到针对上述用户A对本地图像库(即上述图2所示的目标用户终端内的图像库)中所存储的图片所执行的选择指令时，根据该选择指令将该目标用户所选择的图片作为第二图像信息，此时，该目标用户终端可以将该第二图像信息称之为目标图像帧，并可以进一步通过实体检测模型对该目标图像帧中的多个初始对象进行实体检测，以便于能够从该目标视频帧的多个初始对象中检测出所有具有轮廓信息的对象，并进一步将在该目标用户终端中所检测出的每个具有轮廓信息的对象称之为第一对象，也可以将在该目标用户终端中所检测出的每个具有轮廓信息的对象称之为实体。其中，可以理解的是，该第二图像信息中所包含的多个初始对象中的任意一个初始对象可以称之为一个对象，该多个初始对象可以具体包含具有轮廓信息的对象，还可以具体包含不具有轮廓信息的对象。

为便于理解，进一步地，请参见图3，是本发明实施例所提供的一种获取第二图像信息的示意图。其中，图3所示的目标用户终端可以为上述图2所示的目标用户终端，此时，该第二图像信息可以理解为上述图2所所示的目标用户终端在调用上述摄像头进行拍照后在图像库中所存储的目标图像帧。如图3所示的显示界面100a可以理解为上述图2所示的目标用户终端在调用摄像头进行拍照后所得到的图片的存储界面。其中，图标B1～B9为该目标用户终端为图2所示的多个图片中的相应图片所分配的文件属性信息。可以理解的是，该文件属性信息用于对显示在显示界面100a中的各图片进行区别，在实际的应用中，在该显示界面100a中的图标B1～B9可以是隐藏的，即对用户A而言，在该显示界面100a中的图标B1～B9还可以是不可见的。在图3所述的显示界面100a中，该目标用户终端可以响应针对图标B9的触发操作，在图3所示的显示界面200a中显示或输出该第二图像信息，可以理解的是，该第二图像信息为该用户A从上述图2所描述的摄像头对应的存储界面中所选取的图片的图像信息，且在该目标用户终端中对该第二图像信息中所包含的多个初始对象进行实体检测的具体过程可以参照上述图2所对应实施例中对第一图像信息中所包含的多个初始对象进行实体检测的具体过程，这里将不再继续进行赘述。可以理解的是，该选择指令可以为本发明实施例中所描述的接触性指令，还可以为非接触性指令，比如，该非接触性指令可以包含：通过相应的手势控制该目标用户终端将图标B9对应的图像信息输出在图3所示的显示界面200a中。可选地，该非接触性选择指令还可以为包含通过相应的语音或者脑电波等，控制该目标用户终端将图标B9对应的图像信息输出在图3所示的显示界面200a中。

可以理解的是，当该目标用户终端从目标图像帧中找到所有的实体(即第一对象)之后，为避免计算资源的浪费，可以根据融合策略进一步在该目标图像帧中找出符合融合条件的第一对象作为候选对象，比如，可以根据融合策略从该多个第一对象中剔除尺寸较小，且置信度信息较低，以及属于边缘区域(即所计算出的重合度信息较低)的第一对象，并将该目标图像帧中的所剩余的满足上述融合条件的第一对象称之为候选对象，从而可以计算出每个候选对象的定位区域对应的平均深度信息，从而可以进一步根据每个候选对象的定位区域，所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所筛选出的每个候选对象中准确地确定出符合用户视觉意图的目标实体，即该目标用户终端可以快速且准确地从多个后续对象中进一步筛选出可以用于进行分类属性识别的第二对象。

可选地，目标用户终端在得到上述第一图像信息或者第二图像信息之后，可以进一步将该第一图像信息或者第二图像信息通过网络给到上述图2所示的服务终端2000，以便于该服务终端2000可以进一步将接收到的第一图像信息或者第二图像信息确定为目标图像帧，并在该服务终端2000中获取多个具有轮廓信息的对象作为第一对象，并进一步在该目标图像帧中确定每个第一对象所属的区域。其中，该服务终端2000可以理解为上述图1所示的多个用户终端中的应用所对应的应用服务器。其中，该应用可以包含即时通讯应用、社交应用、音视频应用等。

为便于理解，以上述图2所示的目标用户终端将拍摄所得到的第一图像信息上传至应用服务器为例，以阐述与该目标用户终端具有网络连接关系的应用服务器，可以通过另一实体检测模型对接收到的第一图像信息进行实体检测的具体过程，换言之，本发明实施例可以利用该应用服务器强大的计算资源，快速从该接收到的第一图像信息中检测出所有实体，并可以进一步从检测出的多个实体中快速且准确地找到符合用户视觉意图的目标实体。进一步地，请参见图4，是本发明实施例提供的一种获取目标图像帧的示意图。如图4所示的应用服务器可以为上述图1所示的服务终端2000。如图4所示，该应用服务器可以接收图4所示的目标用户终端所上传的第一图像信息，该图4中的目标用户终端可以为上述图2所对应实施例中的具备图像数据采集功能的用户终端(例如，手机终端)，由于该目标用户终端与该应用服务器之间可以通过网络进行连接，因此，当图4所示的应用服务器具备图像数据处理功能时，可以接收目标用户终端通过调用相应的摄像头所拍摄得到的第一图像信息，并在该应用服务器中对该第一图像信息进行存储，并将在该应用服务器中所存储的第一图像信息称之为目标图像帧。进一步地，该应用服务器可以对该目标图像帧进行实体检测，以从该目标图像帧中找到所有的实体(即第一对象)。为便于理解，从该目标图像帧中所找到的每个实体可以为图4所示的定位界面300a中的6个第一对象，即第一对象1，第一对象2，第一对象3，第一对象4，第一对象5，第一对象6。由于该目标图像帧中存在较多的实体，为避免计算资源的浪费，本发明实施例可以将该另一实体检测模型称之为用于进行上述预分类处理的预分类模型，即通过该预分类模型可以快速找出该目标图像帧中所有具有轮廓信息的对象(即实体)，以得到上述多个第一对象。其中，该预分类模型可以确保该应用服务器将识别出的上述多个具有轮廓信息的对象的标签统一标注成实体标签，即此时，该应用服务器并不知道这些标注出的第一对象的具体分类属性。为了避免计算资源的浪费，以及加快对这些实体中的目标实体的识别效率，该应用服务器可以根据上述预分类模型中的融合策略进一步在该目标图像帧中找出符合融合条件的第一对象作为候选对象，比如，可以根据融合策略从这6个第一对象中剔除尺寸较小(例如，第一对象1，第二对象2)，且置信度信息较低(例如，第一对象5)，以及属于边缘区域(即所计算出的重合度信息较低的第一对象6)的第一对象，并将该目标图像帧中的所剩余的满足上述融合条件的第一对象称之为候选对象(例如，第一对象3和第一对象4)，从而可以计算出每个候选对象的定位区域对应的平均深度信息，从而可以进一步根据每个候选对象的定位区域，所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所筛选出的每个候选对象中准确地确定出符合用户视觉意图的目标实体(例如，第一对象3)，即该目标用户终端可以快速且准确地从多个后续对象中进一步筛选出可以用于进行分类属性识别的目标对象(也可以称之为目标实体)作为第二对象，具体地，可以参见图4所述的第二对象的示意图，进一步地，该目标用户终端可以将该第二对象给到图像识别模型，以便于准确获知该目标对象的分类属性信息。由此可见，采用本发明，可以快速且准确地从多个实体中确定出符合用户视觉意图的目标对象，并可以快速对该目标对象进行分类识别，从而可以确保对该目标对象进行分类识别的准确度。由于本发明可以有效地缩减用于分类识别的实体的数量，从而可以有效地避免计算资源的浪费。

可以理解的是，在本发明实施例中，该目标用户终端在获取到多个候选对象时，可以进一步按照每个候选对象的大小因子、位置因子、重合度因子、深度因子等融合因子，以及每个融合因子对应的融合权重值，综合计算每个候选对象对应的融合值，并对计算得到的每个融合值进行排序，从而可以根据排序结果从多个候选对象中筛选出具有最大融合值的候选对象作为第二对象。其中，可以理解的是，该目标用户终端可以结合该终端内所集成的目标应用所在的应用场景的实际设计需求，返回相应数量的第二对象，从而可以将所返回的第二对象一并称之为从多个候选对象中所找到的符合用户视觉意图的目标对象。换言之，当上述排序结果中仅存在一个或多个具有最大融合值的候选对象时，可以根据实际设计需求将该具有最大融合值的候选对象确定为第二对象，即可以从多个候选对象中找到符合用户视觉意图的目标对象。例如，当候选对象为上述图4所示的第一对象3和第一对象4时，通过上述融合策略可以计算得到第一对象3的融合值和第一对象4的融合值；当该第一对象3的融合值大于该第一对象4的融合值时，可以根据上述实际设计需求将该具有最大融合值的第一对象3称之为目标对象。可选地，当上述图4所示的第一对象3的融合值等于上述图4所示的第一对象4的融合值时，则可以根据上述实际设计需求将第一对象3和第一对象4一并称之为目标对象，从而可以将该第一对象3和第一对象4一并给到上述图像识别模型，以便于可以通过该图像识别模型中相应的分类器确定出该第一对象3和第一对象4的分类属性信息。可选地，该目标用户终端还可以在上述图4所示的第一对象3的融合值等于上述图4所示的第一对象4的融合值时，根据上述实际设计需求从多个第二对象中任意选择一个第二对象作为目标对象。

其中，为便于理解，本发明实施例将不对所获取到的目标图像帧的具体方式进行限制，也不对上述通过图像数据处理获取目标对象的执行终端的具体类型进行限制，即在本发明实施例中，可以将用于进行上述图像数据处理的执行主体统称为图像数据处理装置，该图像数据处理装置可以为图1所示的目标用户终端或图1所示的服务终端，还可以为集成在该目标用户终端中的装置。其中，所述图像数据处理装置获取所述目标图像帧、确定该目标图像帧中每个第一对象的定位区域、从每个第一对象中获取候选对象，以及从候选对象中确定目标对象的具体过程，可以参见如下图5至图9所对应的实施例。

进一步地，请参见图5，是本发明实施例提供的一种图像数据处理方法的流程示意图。如图5所示，所述方法可以包括：

步骤S101，获取目标图像帧中具有轮廓信息的多个第一对象，在所述目标图像帧中确定每个第一对象的定位区域；

具体地，图像数据处理装置可以在获取到目标图像帧时，通过实体检测模型对所述目标图像帧中所包含的多个初始对象进行实体检测，得到实体检测结果；进一步地，该图像数据处理装置可以根据所述实体检测结果中所包含的每个初始对象与所述实体检测模型中的多个目标属性特征之间的匹配度，确定所述每个初始对象的实体置信度信息，并根据所述每个初始对象的实体置信度信息确定具有轮廓信息的对象，作为第一对象；进一步地，该图像数据处理装置可以在所述目标图像帧中确定所述每个第一对象的位置信息和尺寸信息，并根据所述每个第一对象的位置信息和尺寸信息在所述目标图像帧中确定所述每个第一对象的定位区域。

应当理解，该图像数据处理装置可以为上述图2所对应实施例中的目标用户终端，还可以为上述图1所对应实施例中的服务终端2000。可选地，该图像数据处理装置还可以为集成在上述图1所示的用户终端中具备图像数据处理功能的装置。

其中，本发明实施例中的实体检测模型可以为神经网络模型，并可以将应用在用户终端中的神经网络模型称之为为第一神经网络模型，将应用在服务终端中的神经网络模型称之为第二神经网络模型。其中，该第一神经网络模型可以与该第二神经网络模型为相同神经网络模型，可选的，该第一神经网络模型也可以为不同于第二神经网络模型的神经网络模型。可以理解的是，在步骤S101中所应用的神经网络模型是用于进行实体检测，即可以将检测到的所有具有轮廓信息的对象称之为第一对象，且对每个第一对象进行标注后的标签均为实体标签。

其中，实体可以理解为通过上述实体检测模型能够对目标图像帧中的各初始对象进行明确分类的对象，比如，可以将人、水果、电脑、动物、植物、篮球、网球等具有明显边界(即轮廓信息)的初始对象称之为第一对象。其中，该图像数据处理装置获取目标图像帧的具体实现方式可以参见上述图2、图3、图4所对应实施例中对目标图像帧的描述，这里将不再继续进行赘述。

为便于理解，进一步地，请参见图6，是本发明实施例提供的一种对目标图像帧进行图像处理的示意图。如图6所示的目标图像帧可以为通过上述图1所示的各用户终端(例如，用户终端3000a)通过调用相应摄像头所拍摄得到的图像信息(即此时，该目标图像帧可以为上述图2所对应实施例中所描述的通过拍摄所得到的第一图像信息)。可选地，图6所示的目标图像帧还可以为根据选择指令从图像库中所选取的图片的第二图像信息。该第二图像信息可以为存储在上述图3所对应实施例的图像库对应的显示界面100a中的图片(即此时，该目标图像帧可以为上述图3所对应实施例中所描述的基于选择指令所输出的第二图像信息)。其中，该选择指令可以理解为上述图3所对应实施例中的接触性指令(例如，上述图3所描述的针对图标B9所在区域的触发操作)。可选地，该选择指令还可以理解为上述图3所描述的非接触性指令，比如，通过语音、脑电波或手势等操作等能够从所存储的多个图像帧中获取目标图像帧的指令。可选地，该目标图像帧还可以为集成有图像数据处理装置的第二设备所接收到的第一设备通过网络所上传的图像信息。其中，该第二设备可以为上述图4所对应实施例中的应用服务器。该第一设备可以为上述图1所对应实施例中的任意一个具备图像数据采集功能的用户终端。可选地，该图像数据处理装置也可以集成在上述任意一个具备图像数据采集能够的用户终端中，此时，各用户终端均可以用于对获取到的目标图像帧进行图像数据处理(即进行图像处理，也可以称之为预分类处理)，比如，可以进行实体检测，可以进行景深估计，可以进行主体检测等图像数据处理功能。

其中，当该图像数据处理装置被集成于该第一设备或第二设备中时，该图像数据处理装置所进行的图像数据处理是等效于该第一设备或第二设备所进行的图像数据处理。如图6所示，该图像数据处理装置可以通过实体检测模型从图6所示的目标图像帧中检测出所有具有轮廓信息的对象(即初始对象)，将将检测出的每个初始对象作为第一对象，并在后台确定出每个第一对象的位置信息和尺寸信息，换言之，通过该实体检测模型得到每个初始对象与实体检测模型中的实体标签所关联的多个目标属性特征之间的匹配度，从而可以将从这些匹配度中所确定出的最大匹配度作为相应初始对象的实体置信度信息，从而可以在得到每个初始对象的实体置信度信息时，将实体置信度信息大于实体阈值的初始对象确定为从该目标图像帧中所检测出的具有轮廓信息的对象，从而可以将这些检测出的对象称之为第一对象，并在该目标图像帧中通过每个第一对象所包含的像素点位置信息构建出每个第一对象所属的最大外接矩形区域，并可以将该构建的最大外接矩形区域称之为每个第一对象的定位区域，从而可以得到图6所示的定位区域图。其中，该实体置信度信息可以用于描述定位区域中所包含的内容为一个实体的概率。

可以理解的是，该图像数据处理装置在获取到如图6所示的目标图像帧时，可以生成用于进行图像数据处理的请求；可选地，该图像数据处理装置也可以在接收到上述具有图像数据采集功能的用户终端通过网络所发送的图像信息的同时，一并发送针对该图像信息进行图像数据处理的请求。其中，该请求可以包含实体检测请求，景深估计请求以及主体检测请求。其中，实体检测请求用于调用上述实体检测模型对目标图像帧进行实体检测，以便于可以在该目标图像帧中检测出所有具有轮廓信息的对象，作为第一对象，以得到图6所示的实体定位图中的5个实体。景深估计请求用于对图6所示的目标图像帧中每个像素点的深度值进行处理，以得到图6所示的深度信息图。主体检测请求用于从目标图像帧中确定出符合用户关注意图的主体区域，以得到图6所示的主体区域图。换言之，在本发明实施例中，可以将检测出所有实体时的目标图像帧称之为实体定位图，这5个实体可以分别称之为第一对象A，第一对象B、第一对象C，第一对象D，第一对象E。如图6所示，第一对象A的定位区域1可以为包含手和苹果的区域，第一对象B的定位区域2可以为包含苹果的区域，第一对象C的定位区域3可以为包含盆栽的区域，第一对象D的定位区域4可以为包含狗的区域，第一对象E的定位区域5可以为包含另一盆栽的区域。

可以理解的是，在该图像数据处理装置接收到上述实体检测请求时，可以对该目标图像帧进行复制，并将复制所得到的图像帧称之为实体定位图，从而可以进一步通过上述实体检测模型在后台的实体定位图中输出每个第一对象的定位区域，从而可以等效于从该目标图像帧中确定出每个第一对象的定位区域，且每个第一对象的定位区域可以称之为一个定位框(该定位框可以用Bi表示，其中，字符i用于区分从该目标图像帧中所检测出的每个实体，即在本发明实施例中所得到的定位框可以为B1，B2，B3，B4，B5)。其中，通过上述实体检测模型所得到的定位框是由每个第一对象的位置信息和实体置信度信息所共同表征的，所以，若每个定位框为图6所示的包含相应第一对象的矩形框，则可以将每个定位框表征为：Bi<ti_x，ti_y，wi，hi，pi>，其中，ti_x可以为图6所示的实体定位图中相应定位区域(即矩形框)的左上角x坐标，ti_y可以为该定位区域(即矩形框)的左上角y坐标，wi可以为该定位区域(即矩形框)的宽度，则hi可以为该定位区域(即矩形框)的长度，pi可以为该定位区域(即矩形框)的实体置信度信息。应当理解，本发明实施例中仅以定位区域为矩形框为例，来阐述获取每个第一对象的定位区域的具体过程。应当理解，对于获取其他形式(例如，圆形框等形式)的定位区域的具体过程，可以一并参见上述对获取每个第一对象所属的矩形框的描述，这里将不再继续进行赘述。

步骤S102，根据所述目标图像帧中所有像素点所关联的像素信息，确定所述目标图像帧对应的主体区域，并分别确定所述主体区域与所述每个第一对象的定位区域之间的重合度信息；

具体地，图像数据处理装置可以从所述目标图像帧对应的目标图像区域中提取所有像素点，并获取每个像素点所关联的像素信息，其中，每个像素点所关联的像素信息可以包含每个像素点的初始像素值，相应初始像素值对应的权重值，以及相应权重值对应的掩码值。换言之，该图像数据处理装置可以在得到所述目标图像帧中的每个像素点的初始像素值时，为每个像素点的初始像素值设置相应的权重值，并根据所述权重值生成与所述目标图像帧具有相同尺寸的目标权重图像；其中，所述目标权重图像中的目标像素值为所述权重值；进一步地，该目标图像装置可以在所述目标权重图像中为所述每个像素点的权重值设置相应的掩码值，所述掩码值包含第一掩码值和第二掩码值；所述第一掩码值与属于前景区域的像素点的权重值相对应，所述第二掩码值与属于背景区域的像素点的权重值相对应；进一步地，该图像数据处理装置可以根据所述目标权重图像中的每个像素点的权重值以及所述掩码值，对所述目标权重图像进行分割，得到包含具有所述第一掩码值的像素点的前景区域，并根据所述前景区域中每个像素点的第一掩码值确定最大外接区域，并将所述最大外接区域作为所述目标视频帧对应的主体区域。

其中，所述图像数据处理装置为所述目标图像帧中的每个像素点的初始像素值设置相应的权重值的具体过程可以描述为：该图像数据处理装置可以根据上述主体检测请求从该目标图像帧中提取所有像素点的初始像素值，并通过该主体检测请求调用主体检测模型确定每个像素点的初始像素值所关联的颜色信息、边界信息以及梯度信息，从而可以在该主体检测模型中根据所述颜色信息、所述边界信息和所述梯度信息，输出每个像素点的初始像素值对应的权重值。可以理解的是，每个像素点的初始像素值均对应一个权重值，从而可以基于上述颜色信息、边界信息(包含上述轮廓信息)以及梯度信息等从目标图像帧中找到符合人眼视觉意图的视觉区域(比如，颜色比较鲜艳的区域，以及梯度信息所表征的区分层次比较明显的区域等)。

根据所述颜色信息、所述边界信息以及所述梯度信息，确定所述每个像素点的初始像素值对应的权重值；一个初始像素值对应于一个权重值

为便于理解，进一步地，请参见图7，是本发明实施例提供的一种获取权重图的示意图。如图7所示，该图像数据处理装置在可以从目标图像帧中提取出所有像素点的像素值，并将提取出的像素值称之为初始像素值，以得到图7所示的各像素点的初始像素值所构成的像素图。进一步地，该图像数据处理装置可以将该像素图中的每个像素点的初始像素值给到图7所示的主体检测模型，从而可以输出图7所示的由目标像素值所构成的权重图。其中，图7所示的目标像素值可以理解为该图像数据处理装置为各初始像素值所设置的权重值，这里的权重值是属于0～1所组成的权重区间中的一个值。可以理解的是，本发明实施例中的主体检测模型可以为一个神经网络模型，比如，深度神经网络模型或者多任务神经网络模型。换言之，该主体检测模型可以对上述图6所对应实施例中的目标图像帧中的多个像素点进行检测，以获知各像素点的颜色信息，边界信息和梯度信息，从而可以得到图7所示的权重图。其中，颜色信息可以理解为各像素点的RGB值，即初始像素值，边界信息可以理解包含上述步骤S101所得到的每个第一对象的轮廓信息，梯度信息可以理解为根据每个像素点的深度信息(即距离信息)而确定出的每个像素点之间的前后关系。换言之，该实体检测模型可以基于前述梯度信息，在该目标图像帧中区分出属于前景区域的像素点，和属于背景区域的像素点。可以理解的是，该权重图的尺寸大小与上述目标图像帧对应的像素图的尺寸大小相同，且该权重图中的每个像素点与该目标图像帧中的每个像素点之间具有一一映射关系，所以，在本发明实施例中可以确定图7所示的目标图像帧对应的像素图的初始像素值也与图7所示的权重图中的权重值之间存在相应的关联关系，即一个初始像素值对应一个权重值。进一步地，该图像数据处理装置，可以在该目标权重图像中为每个目标像素值(即相应像素点的权重值)设置掩码值，从而可以得到图7所示的掩码图。可以理解的是，在本发明实施例中可以用1表征属于前景区域的像素点对应的第一掩码值，并可以用0表征属于背景区域的像素点对应的第二掩码值。

进一步地，该图像数据处理装置可以根据该权重图的每个像素点的权重值(即图7所示的目标像素值)以及所述掩码值，对图7所示的权重图(即目标权重图像)进行分割，从而可以从该目标权重图像中分割出包含第一掩码值的像素点的前景区域。进一步地，该图像数据处理装置可以根据每个像素点的第一掩码值所在的位置情况确定最大外接区域，从而可以将该最大外接区域作为该目标视频帧对应的主体区域，以输出图7所示的主体区域图，该主体区域图中所显示的主体区域为经过前后景分离后所得到的最大外接区域。从而可以进一步计算每个第一对象的定位区域与该主体区域的之间的重合度信息。该重合度信息可以用于表征每个定位区域与该主体区域的交叠程度。

步骤S103，从所述多个第一对象中筛选多个候选对象，并获取每个候选对象的定位区域分别对应的平均深度信息。

具体地，该图像数据处理装置可以获取所述每个第一对象的定位区域的尺寸信息，并根据所述目标图像帧对应的融合条件和所述每个第一对象对应的实体置信度信息、所述每个第一对象的定位区域的尺寸信息以及重合度信息，从所述目标图像帧中筛选多个候选对象。其中，所述融合条件中可以包含目标置信度阈值，目标尺寸阈值和目标重合度阈值；所以，该图像输出处理装置可以根据该融合条件在目标图像帧中找出所有尺寸信息大于该目标尺寸阈值、置信度信息大于目标置信度阈值以及重合度信息大于目标重合度阈值的第一对象作为候选对象；进一步地，图像数据处理装置可以计算出每个候选对象的定位区域所对应的平均深度信息。

其中，图像数据处理装置从多个第一对象中获取候选对象的具体过程可以为：将所述每个第一对象分别作为第一待处理对象，并将每个第一待处理对象的尺寸信息分别与所述目标尺寸阈值进行比较，并同步将相应第一待处理对象的实体置信度信息与所述目标置信度阈值进行比较，并根据第一比较结果在所有第一待处理对象中将尺寸信息大于所述目标尺寸阈值且实体置信度信息大于所述目标置信度阈值的第一待处理对象分别作为第二待处理对象；进一步地，将每个第二待处理对象的重合度信息分别与所述目标重合度阈值进行比较，并根据第二比较结果在所有第二待处理对象中将重合度信息大于所述目标重合度阈值的第二待处理对象，分别作为从所述目标图像帧中所筛选出的候选对象。

为便于理解，本发明实施例可以以上述图6所示的5个第一对象为例，以阐述从这5个第一对象中获取候选对象的具体过程。其中，第一对象可以为上述第一对象A，第一对象B，第一对象C，第一对象D，第一对象E，该图像数据处理装置从目标图像帧中所获取到的第一对象的定位区域的尺寸信息可以为Bi(wi*hi)，该图像数据处理装置从目标图像帧中所获取到的第一对象的定位区域的实体置信度信息可以为Bi(pi)，此外，该图像数据处理装置还可以将从目标图像帧中所获取到的第一对象的定位区域与主体区域之间的交并比(IoU，Intersection over Union)，称之为第一对象的重合度信息，且每个第一对象的重合度信息可以为Bi(ui)。其中，上述融合条件中所包含的目标置信度阈值，目标尺寸阈值和目标重合度阈值可以称之为比较阈值。为便于理解，请参见表1，是本发明实施例所提供的参与比较的多个第一对象的比较关系图。

表1

如上述表1所示，第一对象A对应的尺寸信息可以为B1(w1*h1)，第一对象B对应的尺寸信息可以为B2(w2*h2)，第一对象C对应的尺寸信息可以为B3(w3*h3)，第一对象D对应的尺寸信息可以为B4(w4*h4)，第一对象E对应的尺寸信息可以为B5(w5*h5)。其中，第一对象A对应的实体置信度信息可以为B1(p1)，第一对象B对应的实体置信度信息可以为B2(p2)，第一对象C对应的实体置信度信息可以为B3(p3)，第一对象D对应的实体置信度信息可以为B4(p4)，第一对象E对应的实体置信度信息可以为B5(p5)。第一对象A对应的重合度信息可以为B1(u1)，第一对象B对应的重合度信息可以为B2(u2)，第一对象C对应的重合度信息可以为B3(u3)，第一对象D对应的重合度信息可以为B4(u4)，第一对象E对应的重合度信息可以为B5(u5)。进一步地，该图像数据处理装置可以将上述每个第一对象分别作为第一待处理对象，比如，可以将第一对象A、第一对象B、第一对象C、第一对象D、第一对象E作分别为第一待处理对象，并将每个第一待处理对象的尺寸信息分别与上述表1中的目标尺寸阈值进行比较，并同步将相应第一对象的实体置信度信息与上述表1中的目标置信度阈值进行比较，以得到第一比较结果。比如，该图像数据处理装置可以从上述5个第一对象中剔除物体尺寸较小且实体置信度信息较低的第一对象(比如，可以从上述图6所示的5个第一对象中剔除第一对象D和第一对象E)，从而可以根据第一比较结果可以将上述图6所示的第一对象A、第一对象B、第一对象C称之为第二待处理对象。进一步地，该图像数据处理装置可以将每个第二待处理对象的重合度信息分别与上述表1中的目标重合度阈值进行比较，以根据第二比较结果从多个第二待处理对象中剔除重合度信息较低的第二待处理对象(比如，可以从剩余的3个第二待处理对象中剔除第一对象C)，从而可以根据该第二比较结果将第一对象A和第一对象B称之为从该目标图像帧中所筛选出的候选对象。

可以理解的是，该图像数据处理装置可以从上述图6所示的5个第一对象(即第一对象A，第一对象B，第一对象C，第一对象D，第一对象E)中筛选出符合上述融合条件的第一对象A和第一对象B，作为候选对象。换言之，第一对象A和第一对象B可以为尺寸信息大于目标尺寸阈值，且实体置信度信息大于目标置信度阈值，以及重合度信息大于所述目标重合度阈值的第一对象。与此同时，该图像数据处理装置可以将上述第一对象C、第一对象D、第一对象E视为从多个第一对象中剔除的不满足上述融合条件的第一对象。其中，第一对象C可以理解为从目标图像帧中所找到的属于边缘区域的对象；第一对象D和第一对象E为理解从该目标图像帧中所找到的尺寸较小、且置信度较低的对象。

进一步地，该图像数据处理装置可以获取每个候选对象的定位区域所对应的平均深度信息。其中，该图像数据处理装置获取平均深度信息的具体过程可以为：获取所述目标图像帧中每个像素点的深度信息，并对所述每个像素点的深度信息进行归一化处理，得到所述每个像素点的归一化深度信息；进一步地，从筛选出的所有候选对象中选择一个候选对象作为待处理实体，并将所述待处理实体的定位区域划分为多个子区域，并根据每个子区域中所包含的像素点的归一化深度信息，确定所述每个子区域的平均深度值；进一步地，从所述多个子区域的平均深度值中选取最大平均深度值作为所述待处理实体的定位区域对应的平均深度信息；进一步地，当所有候选对象中的每一个候选对象均被选择作为待处理实体时，得到所述每个候选对象的定位区域对应的平均深度信息。

为便于理解，本发明实施例以上述第一对象A和第一对象B为候选对象为例，以阐述从多个候选对象中确定每个候选对象所对应的平均深度信息的具体过程。由于每个候选对象的定位区域中都会包含有相应的背景信息，所以，在本发明实施例中可以从多个候选实体中选择一个候选对象作为待处理实体，例如，可以将第一对象A作为待处理实体，并将该待处理实体的定位区域划分为多个子区域(比如，可以对上述第一对象A的定位区域1进行划分，以得到3*3＝9个子区域)，从而根据这9个子区域中每个子区域所包含的像素点的归一化深度信息，分别计算出这9个子区域的平均深度值。其中，每个子区域的平均深度值可以表示为di(即d1，d2，d3，d4，d5，d6，d7，d8，d9)。进一步地，该图像数据处理装置可以从这9个子区域的平均深度值中获取到最大平均深度值，作为第一对象A的定位区域的平均深度信息。同理，该图像数据处理装置还可以将第一对象B作为待处理实体，以得到该第一对象B的定位区域对象的平均深度信息。其中，该图像数据处理装置获取该第一对象B对应的平均深度信息的过程，可以参照上述获取第一对象A所对应的平均深度信息的具体过程。这里将不再继续进行赘述。

步骤S104，根据所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所述每个候选对象中确定用于进行分类属性识别的第二对象。

具体的，该图像数据处理装置可以将所述每个候选对象的尺寸信息、位置信息、重合度信息以及平均深度信息分别作为融合因子，并获取每个融合因子对应的融合权重值；进一步地，可以根据所述每个融合因子和相应融合因子所对应的融合权重值，确定所述每个候选对象对应的融合值；进一步地，可以从所述每个候选对象对应的融合值中筛选具有最大融合值的候选对象作为第二对象；进一步地，可以通过图像识别模型对所述第二对象进行识别，并根据识别结果确定所述第二对象的分类属性信息。

在本发明实施例中，该图像数据处理装置可以在从多个第一对象中剔除了尺寸较小、实体置信度信息较低、重合度信息较低的第一对象之后，可以得到上述候选对象，从多个候选对象中确定出符合用户视觉意图的候选对象，作为目标对象，此时，可以将确定出的目标对象称之为第二对象。其中，在本发明实施例中所得到的候选对象的融合因子可以包含尺寸因子(例如，W_area)，位置因子(W_pos)、重合度因子(W_prob)和深度因子(W_depth)。其中，尺寸因子可以理解为上述候选对象对应的尺寸信息，位置因子可以理解为上述候选对象对应的位置信息，重合度因子可以理解为上述候选对象对应的重合度信息，深度因子可以理解为上述候选对象对应的平均深度信息。其中，在本发明实施例中的用于获取融合值的融合公式可以表示为：Ri＝k1*W_area+k2*W_pos+k3*W_prob+k4*W_depth。其中，k1为尺寸因子对应的融合权重值，k2为位置因子对应的融合权重值，k3为重合度因子对应的融合权重值，k4为深度因子因子对应的融合权重值。

可以理解的是，在本发明实施例中无需计算出每个第一对象的平均深度信息，从而可以避免计算资源的浪费，从而可以有效地缩减平均深度信息的计算时间，即可以提高对所剩余的每个候选对象的平均深度信息进行计算的效率，其中，通过对每个候选对象的尺寸因子、位置因子、重合度因子和深度因子的进行综合考虑，从而得到每个候选对象对应的融合值，并通过对这些计算出的融合值进行排序处理，从而可以筛选出具有最大融合值的候选对象作为第二对象，以准确地从多个第一对象中找出符合用户视觉意图的第二对象。其中，该第二对象可以理解为通过模拟人眼的视觉机制所得到的符合用户关注意图的目标对象，且该视觉机制可理解为该图像数据处理装置从目标图像帧中找到尺寸更大、距离人眼更近、颜色形状等区分度更高的对象。

可以理解的是，如果候选对象为上述图6所示的第一对象A和第一对象B，则可以通过上述融合公式计算出第一对象A的融合值，并计算出第一对象B的融合值，若第一对象A的融合值大于第一对象B的融合值，则可以表明该图像数据处理装置所关注的是上述图6所示的握有苹果的手，若第一对象B的融合值大于第一对象A的融合值，则可以表明该图像数据处理装置所关注的是上述图6所示的苹果。应当理解，在本发明实施例中，该图像数据处理装置在从多个第一对象中确定出第二对象的时候，尚未对其分类属性进行识别，故而需要将该第二对象进一步给到图像识别模型，以通过图像识别模型对该第二对象的分类属性进行识别，从而可以得到该第二对象的分类属性信息。比如，第二对象为上述图6所示的定位区域2中的第二对象B时，则可以确定出该定位区域2中的第二对象B的分类属性信息为苹果。

可以理解的是，上述图像识别模型可以为训练好的分类器，还可以为能够进行分类属性识别的神经网络模型。此时，该图像数据处理装置在获取到目标对象之后，可以进一步将其给到上述训练好的分类器或者具有分类属性识别的神经网络模型中，从而可以快速、且准确地识别出该目标对象的分类属性信息。换言之，在本发明实施例，当目标图像帧中存在较多的背景信息时，会综合考虑上述各融合因子，以有效地滤除背景信息或者前景信息中所存在的对象，比如，可以滤除掉尺寸较小、实体置信度较低，且重合度较低的对象，并将在该目标图像帧的多个第一对象中所保留的对象作为候选对象，从而快速计算得到相应候选对象的平均深度信息，以避免计算资源的浪费，从而可以提高获取目标对象的效率和准确度。

进一步地，请参见图8，是本发明实施例所提供的另一种图像数据处理方法的示意图。如图8所示，该方法可以包含以下步骤：

步骤S201，获取目标图像帧中具有轮廓信息的多个第一对象，在所述目标图像帧中确定每个第一对象的定位区域；

其中，在本发明实施例中的图像数据处理装置可以为独立于上述图1所对应实施例中的目标用户终端或者服务终端2000的终端，该图像数据处理装置可以具备图像数据采集功能，还可以具备图像数据处理功能。可选的，该图像数据处理装置还可以为集成于上述目标用户终端或者服务终端2000中的终端，因此，可以将所述目标用户终端或所述服务终端2000所获取到的图像信息称之为上述目标图像帧，并进一步对获取到的目标图像帧执行前述图像数据处理，比如，可以对目标图像帧执行实体检测处理，景深估计处理，主体检测处理等。

其中，图像数据处理装置执行步骤S201的具体实现方式可以参见上述图5所对应实施例中对步骤S101的描述，这里将不再继续进行赘述。

步骤S202，从所述目标图像帧对应的目标图像区域中提取所有像素点，并为所述目标图像帧中的每个像素点的初始像素值设置相应的权重值，根据所述权重值生成与所述目标图像帧具有相同尺寸的目标权重图像；

其中，所述目标权重图像中的目标像素值为所述权重值；

其中，所述图像数据处理装置为每个初始像素值设置权重值的具体过程可以参见上述图7所对应实施例中对权重值的描述，这里将不再继续进行赘述。

步骤S203，在所述目标权重图像中为所述每个像素点的权重值设置相应的掩码值。

其中，所述掩码值包含第一掩码值和第二掩码值；其中，所述第一掩码值与属于前景区域的像素点的权重值相对应，所述第二掩码值与属于背景区域的像素点的权重值相对应；

步骤S204，根据所述目标权重图像中的每个像素点的权重值以及所述掩码值，对所述目标权重图像进行分割，得到包含具有所述第一掩码值的像素点的前景区域；

具体的，该图像数据处理装置可以根据所述第一掩码值和所述第二掩码值，生成所述目标权重图像对应的掩码图；所述掩码图中的每个像素点与所述目标权重图像中的每个像素点之间具有一一映射关系；进一步地，该图像数据处理装置可以获取所述目标权重图像中的每个像素点的权重值，并基于所述映射关系，将所述目标权重图像中的每个像素点的权重值，与所述掩码图中相应像素点对应的掩码值进行二值与操作，得到包含具有所述第一掩码值的像素点的前景区域。

可以理解的是，在本发明实施例中所用到的主体检测模型可以根据上述图7所示的权重图中的每个像素点的目标像素值，得到上述图7所示的掩码图。其中，上述图7所示的0(即第二掩码值)可以用于表征属于背景区域的像素点，即该第二掩码值可以与属于背景区域的权重值相对应。同理，上述图7所示的1(即第一掩码值)可以用于表征属于前景区域的像素点，即该第一掩码值可以与属于前景区域的权重值相对应。鉴于此，该图像数据处理装置可以进一步将该掩码图中的掩码值和上述目标权重图像中的权重值进行二值与操作，从而可以得到包含具有所述第一掩码值的像素点的前景区域，从而可以进一步执行步骤S205。

步骤S205，根据所述前景区域中每个像素点的第一掩码值确定最大外接区域，并将所述最大外接区域作为所述目标视频帧对应的主体区域。

其中，所述图像数据处理装置获取所述主体区域的具体过程可以参加上述图7所对应实施例中获取主体区域的具体过程的描述，这里将不再继续进行赘述。

步骤S206，分别确定所述主体区域与所述每个第一对象的定位区域之间的重合度信息；

具体的，图像数据处理装置可以从所述每个第一对象的定位区域中获取目标定位区域，并在所述目标图像帧中将所述目标定位区域的位置信息作为第一位置信息，并将所述目标定位区域的尺寸信息作为第一尺寸信息；进一步地，该图像数据处理装置可以在所述目标图像帧中将所述主体区域所在的位置信息作为第二位置信息，并将所述主体区域的尺寸信息作为第二尺寸信息；进一步地，该图像数据处理装置可以根据所述第一位置信息，第二位置信息，第一尺寸信息和第二尺寸信息，确定所述主体区域与所述目标定位区域之间的交叠区域，并得到所述交叠区域的第三尺寸信息；进一步地，该图像数据处理装置可以将所述第三尺寸信息与所述第一尺寸信息之间的比值，作为所述目标定位区域与所述主体区域之间的重合度信息，以得到每个第一对象分别对应的重合度信息。

为便于理解，在本发明实施例可以以上述图6所对应实施例所确定出的5个第一对象的定位区域为例，以阐述计算每个定位区域与主体区域之间的重合度信息的具体过程。进一步地，请参见图9，是本发明实施例提供的一种计算重合度信息的示意图。其中，图9所示的实体定位图可以为上述图6所示的实体定位图可知，该实体定位图中可以包含5个矩形定位框(也可以称之为定位框)，每个定位框都可以理解为一个实体所属的定位区域。如图9所示，这5个定位区域可以包含上述第一对象A对应的定位区域1，第一对象B对应的定位区域2，第一对象C对应的定位区域3，第一对象D对应的定位区域4和第一对象E对应的定位区域5。此外，如图9所示的主体区域可以为上述图6所示的主体区域图中的区域。在本发明实施例中，由于主体区域图和实体定位图均与上述目标图像帧具有相同尺寸，且两者都是在接收到相应请求之后根据目标图像帧所得到的图像信息，因此，在本发明实施例中可以认为主体区域图和实体定位图是具有相同的参考坐标系，故而可以将图9所示主体区域图中的主体区域等效到图9所示的实体定位图中。其中，图9所示的每个定位区域的尺寸信息和位置信息表示可以为上述Bi(ti_x，ti_y，wi，hi)，可以理解的是，在本发明实施例的同一坐标系下，可以将主体区域的尺寸信息和位置信息表示为M(t_x，t_y，w，h)。其中，每个定位区域的尺寸信心可以称之为第一尺寸信息，每个定位区域的位置信息可以称之为第一位置信息，主体区域的尺寸信心可以称之为第二尺寸信息，主体区域的位置信息可以称之为第二位置信息。如图9所示，根据每个定位区域的第一位置信息和第一尺寸信息，以及主体区域的第二位置信息和尺寸信息，可以快速在图9所示的交叠界面400a中确定出每个定位区域与主体区域之间的交叠区域，从而可以得到交叠区域的尺寸信息，此时，可以将该交叠区域的尺寸信息称之为第三尺寸信息，因此，该图像数据处理装置可以根据该第三尺寸信息与第一尺寸信息之间的比值，可以得到每个第一对象对应的重合度信息。比如，如图9所示，该图像数据处理装置可以知道定位区域1与主体区域之间的重合度信息可以为85％；定位区域2与主体区域区域的重合度信息可以为100％；定位区域3与主体区域之间的重合度信息可以为5％，定位区域4与主体区域之间的重合度信息可以为100％，定位区域5与主体区域之间的重合度信息可以为0％。换言之，若所述目标重合度阈值为50％，则需要从上述五个第一对象中剔除重合度信息小于该目标重合度阈值的第一对象，比如，可以剔除定位区域3中的第一对象C，并将第一对象3中的第一对象C称之为边缘对象。与此同时，该图像数据处理装置还可以剔除定位区域5中的第一对象E。

步骤S207，获取所述每个第一对象的定位区域的尺寸信息，并根据所述目标图像帧对应的融合条件和所述每个第一对象对应的实体置信度信息、所述每个第一对象的定位区域的尺寸信息以及重合度信息，从所述目标图像帧中筛选多个候选对象。

步骤S208，获取每个候选对象的定位区域对应的平均深度信息。

可以理解的是，在本发明实施例中不仅需要考虑重合度信息，还需要考虑尺寸信息和实体置信度信息，从而可以从多个实体中剔除尺寸较小、实体置信度较低、重合度较低的实体，从而可以将多个实体中所保留的实体作为候选对象，从而可以在计算每个候选对象的平均深度信息时，有效地节约计算成本，即无需计算每个第一对象的平均深度信息，从而可以快速从多个候选对象中获取到第二对象。

步骤S209，将所述每个候选对象的尺寸信息、位置信息、重合度信息以及平均深度信息分别作为融合因子，并获取每个融合因子对应的融合权重值；

步骤S210，根据所述每个融合因子和相应融合因子所对应的融合权重值，确定所述每个候选对象对应的融合值；

步骤S211，从所述每个候选对象对应的融合值中筛选具有最大融合值的候选对象作为第二对象；

步骤S212，通过图像识别模型对所述第二对象进行识别，并根据识别结果确定所述第二对象的分类属性信息。

其中，第二对象所在的区域可以称之为目标对象区域，该目标对象区域中可以包含该第二对象，还可以包含相应的背景信息。因此，可以将目标对象所在的区域称之为前景区域，并将该目标对象区域中的剩余区域称之为背景区域，此时，该图像识别模型可以为用于进行分类属性识别的神经网络模型，该神经网络模型可以为卷积神经网络模型，其中，所述前景区域和背景区域的划分是基于该卷积神经网络模型所分割出来的两个图像区域。该卷积神经网络模型中所包含的前景类型特征和背景类型特征，是在训练该卷积神经网络模型时由大量的训练数据集(即标准图像集)中包含的已知标签信息(即前景标签和背景标签)所决定的。可以理解的是，该卷积神经网络模型中的分类器也是提前训练完成的，该分类器的输入是所述前景区域对应的图像特征，分类器的输出是该图像特征与多种分类属性类型特征之间的匹配度，匹配度越高，则说明从该前景区域中所提取到的目标对象的局部体征信息与相应的分类属性类型特征所关联的标签信息之间的匹配概率越大，进而可以根据最大匹配概率所对应的标签信息确定出该第二对象的分类属性信息。

比如，以所述第二对象为上述图2所对应实施例中的小狗为例，则用于训练该卷积神经网络模型的标准图像集可以为标注有动物区域(即前景标签)和非动物区域(背景标签)的图像集。于是，通过该携带已知标签信息的大量图像集对该第一卷积神经网络模型进行训练后，可以使该第一神经网络模型具有对所输入的目标对象区域中的图像信息中各像素点所属区域进行划分的能力，即可以对输入至该卷积神经网络模型中的图像信息，标注出该图像信息中第二对象(例如，上述图2所对应实施例中的小狗)所在的区域。其中，小狗所在的区域即为前景区域，而在目标对象区域中的小狗所在区域之外的剩余区域则可以称之为背景区域，进而可以对小狗所在的前景区域中的小狗进行识别，以得到该小狗的分类属性信息，比如，上述图2所示的小狗是属于短腿柯基的分类属性信息。

其中，所述步骤S207-步骤S212的具体实现方式可以参见上述图5所对应实施例中对步骤S103-步骤S104的描述，这里将不再继续进行赘述。

进一步的，请参见图10，是本发明实施例提供的一种图像数据处理装置的结构示意图。如图10所示，所述图像数据处理装置1可应用于上述图1所对应实施例中的用户终端3000a或服务终端2000，即所述图像数据处理装置1000可集成于上述图1所对应实施例中的用户终端3000a或集成于上述图1所对应实施例中的服务终端2000，以构成具备图像数据处理能力的终端。所述图像数据处理装置1可以包括：第一确定模块10，定位区域确定模块20，主体区域确定模块30，重合度确定模块40，对象筛选模块50，深度获取模块60和第二确定模块70；

第一确定模块10，用于获取目标图像帧中具有轮廓信息的多个第一对象；

其中，第一确定模块10包括：检测单元101，置信度确定单元102，定位区域确定单元103；

检测单元101，用于获取目标图像帧，并通过实体检测模型对所述目标图像帧中所包含的多个初始对象进行实体检测，得到实体检测结果；

置信度确定单元102，用于根据所述实体检测结果中所包含的每个初始对象与所述实体检测模型中的多个目标属性特征之间的匹配度，确定所述每个初始对象的实体置信度信息，根据所述每个初始对象的实体置信度信息确定具有轮廓信息的对象，作为第一对象；

定位区域确定单元103，用于在所述目标图像帧中确定所述每个第一对象的位置信息和尺寸信息，并根据所述每个第一对象的位置信息和尺寸信息在所述目标图像帧中确定所述每个第一对象的定位区域。

其中，检测单元101，置信度确定单元102，定位区域确定单元103的具体实现方式可以参见上述图5所对应实施例中对获取第一对象的描述，这里将不再继续进行赘述。

定位区域确定模块20，用于在所述目标图像帧中确定每个第一对象的定位区域；

主体区域确定模块30，用于根据所述目标图像帧中所有像素点所关联的像素信息，确定所述目标图像帧对应的主体区域；

所述主体区域确定模块30包括：权重设置单元301，权重图生成单元302，掩码设置单元303，图像分割单元304和主体区域确定单元305；

权重设置单元301，用于从所述目标图像帧对应的目标图像区域中提取所有像素点，并为所述目标图像帧中的每个像素点的初始像素值设置相应的权重值；

其中，所述权重设置单元301包括：信息确定子单元3011和权重确定子单元3012；

信息确定子单元3011，用于根据所述目标图像帧中所提取到的每个像素点的初始像素值，确定所述每个像素点的初始像素值所关联的颜色信息、边界信息以及梯度信息；

权重确定子单元3012，用于根据所述颜色信息、所述边界信息以及所述梯度信息，确定所述每个像素点的初始像素值对应的权重值；一个初始像素值对应于一个权重值。

其中，所述信息确定子单元3011和权重确定子单元3012的具体实现方式可以参见上述图7所对应实施例中对确定权重值的具体过程的描述，这里将不再继续进行赘述。

权重图生成单元302，用于根据所述权重值生成与所述目标图像帧具有相同尺寸的目标权重图像；所述目标权重图像中的目标像素值为所述权重值；

掩码设置单元303，用于在所述目标权重图像中为所述每个像素点的权重值设置相应的掩码值，所述掩码值包含第一掩码值和第二掩码值；所述第一掩码值与属于前景区域的像素点的权重值相对应，所述第二掩码值与属于背景区域的像素点的权重值相对应；

图像分割单元304，用于根据所述目标权重图像中的每个像素点的权重值以及所述掩码值，对所述目标权重图像进行分割，得到包含具有所述第一掩码值的像素点的前景区域；

其中，图像分割单元304包括：掩码图生成子单元3041和二值操作子单元3042；

掩码图生成子单元3041，用于根据所述第一掩码值和所述第二掩码值，生成所述目标权重图像对应的掩码图；所述掩码图中的每个像素点与所述目标权重图像中的每个像素点之间具有一一映射关系；

二值操作子单元3042，用于获取所述目标权重图像中的每个像素点的权重值，并基于所述映射关系，将所述目标权重图像中的每个像素点的权重值，与所述掩码图中相应像素点对应的掩码值进行二值与操作，得到包含具有所述第一掩码值的像素点的前景区域。

其中，掩码图生成子单元3041和二值操作子单元3042的具体实现方式可以参见上述图7所对应实施例中的对获取前景区域的具体过程的描述，这里将不再继续进行赘述。

主体区域确定单元305，用于根据所述前景区域中每个像素点的第一掩码值确定最大外接区域，并将所述最大外接区域作为所述目标视频帧对应的主体区域。

其中，权重设置单元301，权重图生成单元302，掩码设置单元303，图像分割单元304和主体区域确定单元305的具体实现方式可以参见上述图5所对应实施例中对获取主体区域的具体过程的描述，这里将不再继续进行赘述。

重合度确定模块40，用于分别确定所述主体区域与所述每个第一对象的定位区域之间的重合度信息；

其中，重合度确定模块40包括：第一确定单元401，第二确定单元402，交叠区域确定单元403，重合度确定单元404；

第一确定单元401，用于从所述每个第一对象的定位区域中获取目标定位区域，并在所述目标图像帧中将所述目标定位区域的位置信息作为第一位置信息，并将所述目标定位区域的尺寸信息作为第一尺寸信息；

第二确定单元402，用于在所述目标图像帧中将所述主体区域所在的位置信息作为第二位置信息，并将所述主体区域的尺寸信息作为第二尺寸信息；

交叠区域确定单元403，用于根据所述第一位置信息，第二位置信息，第一尺寸信息和第二尺寸信息，确定所述主体区域与所述目标定位区域之间的交叠区域，并得到所述交叠区域的第三尺寸信息；

重合度确定单元404，将所述第三尺寸信息与所述第一尺寸信息之间的比值，作为所述目标定位区域与所述主体区域之间的重合度信息，以得到每个第一对象分别对应的重合度信息。

其中，第一确定单元401，第二确定单元402，交叠区域确定单元403，重合度确定单元404的具体实现方式可以参见上述图5所对应实施例中对步骤S102的描述，这里将不再继续进行赘述。

对象筛选模块50，用于从所述多个第一对象中筛选多个候选对象；

其中，对象筛选模块50包括：尺寸获取单元501和对象筛选单元502；

尺寸获取单元501，用于获取所述每个第一对象的定位区域的尺寸信息；

对象筛选单元502，用于根据所述目标图像帧对应的融合条件和所述每个第一对象对应的实体置信度信息、所述每个第一对象的定位区域的尺寸信息以及重合度信息，从所述目标图像帧中筛选多个候选对象。

所述对象筛选单元502包括：第一比较子单元5021和第二比较子单元5022，

第一比较子单元5021，用于将所述每个第一对象分别作为第一待处理对象，并将每个第一待处理对象的尺寸信息分别与所述目标尺寸阈值进行比较，并同步将相应第一待处理对象的实体置信度信息与所述目标置信度阈值进行比较，并根据第一比较结果在所有第一待处理对象中将尺寸信息大于所述目标尺寸阈值且实体置信度信息大于所述目标置信度阈值的第一待处理对象分别作为第二待处理对象；

第二比较子单元5022，用于将每个第二待处理对象的重合度信息分别与所述目标重合度阈值进行比较，并根据第二比较结果在所有第二待处理对象中将重合度信息大于所述目标重合度阈值的第二待处理对象，分别作为从所述目标图像帧中所筛选出的候选对象。

其中，第一比较子单元5021和第二比较子单元5022的具体实现方式可以参加上述表1所对应实施例中对参与进行比对的各第一对象的描述，这里将不再继续进行赘述。

其中，尺寸获取单元501和对象筛选单元502的具体实现方式可以参见上述图5所对应实施例中对获取候选对象的具体过程的描述，这里将不再继续进行赘述。

深度获取模块60，用于获取每个候选对象的定位区域分别对应的平均深度信息；

其中，所述深度获取模块60包括：归一化单元601，区域划分单元602，最大值选取单元603和平均深度确定单元604；

归一化单元601，用于获取所述目标图像帧中每个像素点的深度信息，并对所述每个像素点的深度信息进行归一化处理，得到所述每个像素点的归一化深度信息；

区域划分单元602，用于从筛选出的所有候选对象中选择一个候选对象作为待处理实体，并将所述待处理实体的定位区域划分为多个子区域，并根据每个子区域中所包含的像素点的归一化深度信息，确定所述每个子区域的平均深度值；

最大值选取单元603，用于从所述多个子区域的平均深度值中选取最大平均深度值作为所述待处理实体的定位区域对应的平均深度信息；

平均深度确定单元604，用于当所有候选对象中的每一个候选对象均被选择作为待处理实体时，得到所述每个候选对象的定位区域对应的平均深度信息。

其中，归一化单元601，区域划分单元602，最大值选取单元603和平均深度确定单元604的具体实现方式可以参见上述图8所对应实施例中对计算平均深度信息的具体过程的描述，这里将不再继续进行赘述。

第二确定模块70，用于根据所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所述每个候选对象中确定用于进行分类属性识别的第二对象。

其中，所述第二确定模块70包括：融合因子确定单元701，融合单元702，融合值筛选单元703和对象识别单元704；

融合因子确定单元701，用于将所述每个候选对象的尺寸信息、位置信息、重合度信息以及平均深度信息分别作为融合因子，并获取每个融合因子对应的融合权重值；

融合单元702，根据所述每个融合因子和相应融合因子所对应的融合权重值，确定所述每个候选对象对应的融合值；

融合值筛选单元703，用于从所述每个候选对象对应的融合值中筛选具有最大融合值的候选对象作为第二对象；

对象识别单元704，用于通过图像识别模型对所述第二对象进行识别，并根据识别结果确定所述第二对象的分类属性信息。

其中，融合因子确定单元701，融合单元702，融合值筛选单元703和对象识别单元704的具体实现方式可以参见上述图5所对应实施例中对获取第二对象的具体过程的描述，这里将不再继续进行赘述。

其中，第一确定模块10，定位区域确定模块20，主体区域确定模块30，重合度确定模块40，对象筛选模块50，深度获取模块60和第二确定模块70的具体实现方式可以参见上述图5所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。

进一步地，请参见图11，是本发明实施例提供的另一种图像数据处理装置的结构示意图。如图11所示，所述图像数据处理装置1000可以应用于上述图1对应实施例中的用户终端3000a，或上述图1所对应实施例中的服务终端2000，即所述图像数据处理装置1000可集成于上述图1所对应实施例中的用户终端3000a或所述服务终端2000，以构成具备图像数据处理能力的终端，因此，所述图像数据处理装置1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述图像数据处理装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

可选的，若图像数据处理装置1000与上述目标用户终端分别为两个独立设备时，图像数据处理装置1000中的网络接口1004还可以与目标用户终端进行连接，且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。

可选的，若图像数据处理装置1000与目标用户终端为一体设备，则该图像数据处理装置1000即为具备图像数据处理功能的智能终端，此时，网络接口1004无需与智能终端进行连接，且用户接口1003不包含键盘。此时，在图11所示的图像数据处理装置1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本发明实施例中所描述的图像数据处理装置1000可执行前文图5或图8所对应实施例中对所述图像数据处理方法的描述，也可执行前文图10所对应实施例中对所述图像数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的图像数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图5或图8所对应实施例中对所述图像数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种图像数据处理方法，其特征在于，包括：

从目标图像帧所包含的多个初始对象中获取具有轮廓信息的多个第一对象，在所述目标图像帧中确定每个第一对象的定位区域；所述每个第一对象均为实体，所述实体是指通过实体检测模型进行实体检测时所得到的实体置信度信息大于实体阈值的初始对象；所述每个第一对象的定位区域是由所述每个第一对象的位置信息、尺寸信息以及实体置信度信息所共同表征的；所述每个第一对象的位置信息是根据所述每个第一对象的最大外接矩形区域的顶点的位置坐标所确定的，且所述每个第一对象的尺寸信息是根据所述每个第一对象的最大外接矩形区域的长度和宽度所确定的；所述每个第一对象的最大外接矩形区域是指根据所述每个第一对象的轮廓信息所确定出的；

从所述多个第一对象中筛选多个候选对象，并获取每个候选对象的定位区域分别对应的平均深度信息；所述每个候选对象均为从在所述目标图像帧中所找出的尺寸信息大于目标尺寸阈值、实体置信度信息大于目标置信度阈值以及重合度信息大于目标重合度阈值的第一对象；

根据所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所述每个候选对象中确定用于进行分类属性识别的第二对象；所述第二对象包含从所述每个候选对象对应的融合值中所筛选出的具有最大融合值的候选对象，所述每个候选对象对应的融合值是对所述每个候选对象的尺寸信息、位置信息、重合度信息以及平均深度信息进行综合计算所得到的。

2.根据权利要求1所述的方法，其特征在于，所述从目标图像帧所包含的多个初始对象中获取具有轮廓信息的多个第一对象，在所述目标图像帧中确定每个第一对象的定位区域，包括：

根据所述实体检测结果中所包含的每个初始对象与所述实体检测模型中的多个目标属性特征之间的匹配度，确定所述每个初始对象的实体置信度信息，根据所述每个初始对象的实体置信度信息，将实体置信度信息大于实体阈值的初始对象确定为具有明显边界的实体，将确定出的每个实体分别确定为具有轮廓信息的第一对象；

3.根据权利要求1所述的方法，其特征在于，所述像素信息包含像素点所关联的初始像素值、权重值和掩码值；

根据所述前景区域中每个像素点的第一掩码值确定最大外接区域，并将所述最大外接区域作为所述目标图像帧对应的主体区域。

4.根据权利要求3所述的方法，其特征在于，所述为所述目标图像帧中的每个像素点的初始像素值设置相应的权重值，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述目标权重图像中的每个像素点的权重值以及所述掩码值，对所述目标权重图像进行分割，得到包含具有所述第一掩码值的像素点的前景区域，包括：

6.根据权利要求5所述的方法，其特征在于，所述分别确定所述主体区域与所述每个第一对象的定位区域之间的重合度信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述从所述多个第一对象中筛选多个候选对象，包括：

8.根据权利要求7所述的方法，其特征在于，所述融合条件中包含目标置信度阈值，目标尺寸阈值和目标重合度阈值；

所述根据所述目标图像帧对应的融合条件和所述每个第一对象对应的实体置信度信息、所述每个第一对象的定位区域的尺寸信息以及重合度信息，从所述目标图像帧中筛选多个候选对象，包括：

9.根据权利要求8所述的方法，其特征在于，所述获取每个候选对象的定位区域对应的平均深度信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所述每个候选对象中确定用于进行分类属性识别的第二对象，包括：

11.根据权利要求10所述的方法，其特征在于，所述从所述每个候选对象对应的融合值中筛选具有最大融合值的候选对象作为第二对象，包括：

对所述每个候选对象对应的融合值进行排序处理，得到排序结果；

若所述排序结果中存在多个具有最大融合值的候选对象，则从所述多个具有最大融合值的候选对象中选取任意一个候选对象作为所述第二对象；

若所述排序结果中存在一个具有最大融合值的候选对象，则将所述一个具有最大融合之的候选对象作为所述第二对象。

12.一种图像数据处理装置，其特征在于，包括：

第一确定模块，用于从目标图像帧所包含的多个初始对象中获取具有轮廓信息的多个第一对象；每个第一对象均为实体，所述实体是指通过实体检测模型进行实体检测时所得到的实体置信度信息大于实体阈值的初始对象；

定位区域确定模块，用于在所述目标图像帧中确定所述每个第一对象的定位区域；所述每个第一对象的定位区域是由所述每个第一对象的位置信息、尺寸信息以及实体置信度信息所共同表征的；所述每个第一对象的位置信息是根据所述每个第一对象的最大外接矩形区域的顶点的位置坐标所确定的，且所述每个第一对象的尺寸信息是根据所述每个第一对象的最大外接矩形区域的长度和宽度所确定的；所述每个第一对象的最大外接矩形区域是指根据所述每个第一对象的轮廓信息所确定出的；

对象筛选模块，用于从所述多个第一对象中筛选多个候选对象；每个候选对象均为从在所述目标图像帧中所找出的尺寸信息大于目标尺寸阈值、实体置信度信息大于目标置信度阈值以及重合度信息大于目标重合度阈值的第一对象；

深度获取模块，用于获取所述每个候选对象的定位区域分别对应的平均深度信息；

第二确定模块，用于根据所述每个候选对象的定位区域、所述每个候选对象的定位区域所关联的重合度信息以及平均深度信息，从所述每个候选对象中确定用于进行分类属性识别的第二对象；所述第二对象包含从所述每个候选对象对应的融合值中所筛选出的具有最大融合值的候选对象，所述每个候选对象对应的融合值是对所述每个候选对象的尺寸信息、位置信息、重合度信息以及平均深度信息进行综合计算所得到的。

13.根据权利要求12所述的装置，其特征在于，所述第一确定模块包括：

置信度确定单元，用于根据所述实体检测结果中所包含的每个初始对象与所述实体检测模型中的多个目标属性特征之间的匹配度，确定所述每个初始对象的实体置信度信息，将实体置信度信息大于实体阈值的初始对象确定为具有明显边界的实体，将确定出的每个实体分别确定为具有轮廓信息的第一对象；

14.根据权利要求12所述的装置，其特征在于，所述像素信息包含像素点所关联的初始像素值、权重值和掩码值；

所述主体区域确定模块包括：

主体区域确定单元，用于根据所述前景区域中每个像素点的第一掩码值确定最大外接区域，并将所述最大外接区域作为所述目标图像帧对应的主体区域。

15.一种图像数据处理装置，其特征在于，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-11任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。