CN113449606A

CN113449606A - 一种目标对象识别方法、装置、计算机设备及存储介质

Info

Publication number: CN113449606A
Application number: CN202110629029.6A
Authority: CN
Inventors: 蔡忠强; 徐兆坤; 刘江; 荆伟; 冀怀远
Original assignee: Nanjing Suning Software Technology Co ltd
Current assignee: Nanjing Suning Software Technology Co ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-28
Anticipated expiration: 2041-06-04
Also published as: CN113449606B

Abstract

本发明公开了一种目标对象识别方法、装置、计算机设备及存储介质，该方法包括识别出多个待检测图像中包含的所有目标人物，并获取每一目标人物对应的人手拿目标对象检测框以及行人实例分割掩膜，获取多个待检测图像的图像前景区域，并根据图像前景区域、人手拿目标对象检测框以及行人实例分割掩膜获取目标对象前景分割掩膜，根据多个待检测图像以及目标对象前景分割掩膜对人手拿目标对象检测框进行筛选，获取目标检测框，从目标检测框提取人手拿目标对象前景图像，并利用预设识别模型识别人手拿目标对象前景图像，获取目标对象对应的识别结果，有效解决目标对象遮挡以及覆盖范围有限所带来的信息缺失等问题，提高了目标对象识别的精度。

Description

一种目标对象识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种目标对象识别方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的快速发展以及广泛应用，各行各业均产生巨大变革，炫酷的VR/AR技术吸引着人们的眼球、无人驾驶和无人零售等概念也成为各方角逐的热点，利用人工智能技术将人们从繁重重复性劳动解放出来，为人们提供个性化新鲜体验成为潮流。图像识别技术是人工智能技术应用于实践最成功的案例，其中，人脸识别技术已经成为每个人生活的一部分，与之相似的商品识别技术则在零售领域崭露头角。

商品识别技术可以广泛应用于线上零售和线下数字化零售的各个方面，拍照购和智能货柜便是商品识别技术的成功应用范例。商品识别技术大致可以分为两个步骤：定位和识别。目前成熟的商品识别技术多为静态商品识别技术，即仅利用单设备获取单帧图像来完成商品的定位识别，线上场景可以普遍采用静态商品识别技术，而线下零售场景对静态商品识别技术和动态商品识别技术均有需求。动态商品识别技术通常是利用单设备获取连续视频帧图像识别用户手中的商品种类，动态商品识别相比静态商品识别具有能充分利用物理空间，降低商品摆放限制，减少运维成本的优势，但动态商品识别技术存在商品遮挡、单视角判别信息缺乏和动态成像运动模糊等问题，这些问题直接影响着商品识别的精度，解决这些问题对动态商品识别技术从学术研究走向实际生产具有重要意义。

综上所述，亟需提出一种新的商品识别方法，以解决上述问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种目标对象识别方法、装置、计算机设备以及存储介质，以克服现有技术中的动态商品识别技术存在商品遮挡、单视角判别信息缺乏和动态成像运动模糊，影响商品识别的精度等问题。

为解决上述一个或多个技术问题，本发明采用的技术方案是：

第一方面，提供了一种目标对象识别方法，该方法包括如下步骤：

识别出多个待检测图像中包含的所有目标人物，并获取每一所述目标人物对应的人手拿目标对象检测框以及行人实例分割掩膜，所述多个待检测图像包括不同角度采集的图片；

获取所述多个待检测图像的图像前景区域，并根据所述图像前景区域、所述人手拿目标对象检测框以及所述行人实例分割掩膜获取目标对象前景分割掩膜；

根据所述多个待检测图像以及所述目标对象前景分割掩膜对所述人手拿目标对象检测框进行筛选，获取目标检测框；

从所述目标检测框提取人手拿目标对象前景图像，并利用预设识别模型识别所述人手拿目标对象前景图像，获取所述目标对象对应的识别结果。

进一步的，所述识别出多个待检测图像中包含的所有目标人物，并获取每一所述目标人物对应的人手拿目标对象检测框以及行人实例分割掩膜包括：

对每一待检测图像进行目标检测，获取每一待检测图像包含的人体检测框、人手拿目标对象检测框以及行人实例分割掩膜；

根据所述人体检测框识别出所述每一待检测图像包含的目标人物；

利用预设算法确定所述人手拿目标对象检测框以及所述行人实例分割掩膜与所述目标人物的对应关系。

进一步的，所述根据所述多个待检测图像以及所述目标对象前景分割掩膜对所述人手拿目标对象检测框进行筛选，获取目标检测框包括：

获取每一所述待检测图像的清晰度，确定清晰度满足预设清晰度阈值的待检测图像为候选待检测图像；

获取所述候选待检测图像对应的所述目标对象前景分割掩膜的大小，将大小满足预设大小阈值的所述目标对象前景分割掩膜对应的候选待检测图像的人手拿目标对象检测框确定为目标检测框。

进一步的，所述从所述目标检测框提取人手拿目标对象前景图像，并利用预设识别模型识别所述人手拿目标对象前景图像，获取所述目标对象对应的识别结果包括：

对所述目标检测框进行取前景操作，获取对应的人手拿目标对象前景图像；

利用预设识别模型提取所述人手拿目标对象前景图像中的特征嵌入，根据所述特征嵌入以及预设特征嵌入库获取所述目标对象对应的识别结果。

进一步的，所述利用预设识别模型提取所述人手拿目标对象前景图像中的特征嵌入，根据所述特征嵌入以及预设特征嵌入库获取所述目标对象对应的识别结果包括：

利用预设识别模型提取所述人手拿目标对象前景图像中的特征嵌入，根据所述特征嵌入以及预设特征嵌入库获取所述目标对象对应的初始识别结果；

对所述初始识别结果进行汇总，获取每一所述目标人物手拿目标对象的初始识别结果；

根据每一所述目标人物手拿目标对象的初始识别结果以及预设决策算法获取每一所述目标人物手拿目标对象的识别结果。

进一步的，所述方法还包括：

对目标对象样本图像进行预处理，提取所述目标对象样本的特征嵌入生成预设特征嵌入库。

进一步的，所述方法还包括所述多个待检测图像的采集过程，包括：

利用设置在多个预设位置的多个预设图像采集设备获取目标场景中多个预设角度的待检测图像。

第二方面，提供了一种目标对象识别装置，所述装置包括：

检测模块，用于识别出多个待检测图像中包含的所有目标人物，并获取每一所述目标人物对应的人手拿目标对象检测框以及行人实例分割掩膜，所述多个待检测图像包括不同角度采集的图片；

分割模块，用于获取所述多个待检测图像的图像前景区域，并根据所述图像前景区域、所述人手拿目标对象检测框以及所述行人实例分割掩膜获取目标对象前景分割掩膜；

筛选模块，用于根据所述多个待检测图像以及所述目标对象前景分割掩膜对所述人手拿目标对象检测框进行筛选，获取目标检测框；

识别模块，用于从所述目标检测框提取人手拿目标对象前景图像，并利用预设识别模型识别所述人手拿目标对象前景图像，获取所述目标对象对应的识别结果。

第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的目标对象识别方法、装置、计算机设备及存储介质，通过识别出多个待检测图像中包含的所有目标人物，并获取每一所述目标人物对应的人手拿目标对象检测框以及行人实例分割掩膜，所述多个待检测图像包括不同角度采集的图片，获取所述多个待检测图像的图像前景区域，并根据所述图像前景区域、所述人手拿目标对象检测框以及所述行人实例分割掩膜获取目标对象前景分割掩膜，根据所述多个待检测图像以及所述目标对象前景分割掩膜对所述人手拿目标对象检测框进行筛选，获取目标检测框。从所述目标检测框提取人手拿目标对象前景图像，并利用预设识别模型识别所述人手拿目标对象前景图像，获取所述目标对象对应的识别结果，通过对不同角度采集的待检测图像进行识别，获取人手拿目标对象信息，有效解决了单摄像头采集图像导致的目标对象遮挡以及覆盖范围有限所带来的信息缺失等问题，提高了目标对象识别的精度；

进一步的，本发明实施例提供的目标对象识别方法、装置、计算机设备及存储介质，通过获取每一所述待检测图像的清晰度，确定清晰度满足预设清晰度阈值的待检测图像为候选待检测图像，获取所述候选待检测图像对应的所述目标对象前景分割掩膜的大小，将大小满足预设大小阈值的所述目标对象前景分割掩膜对应的候选待检测图像的人手拿目标对象检测框确定为目标检测框，通过滤除劣质图像，缓解劣质图像误识别问题；

进一步的，本发明实施例提供的目标对象识别方法、装置、计算机设备及存储介质，通过利用预设识别模型提取所述人手拿目标对象前景图像中的特征嵌入，根据所述特征嵌入以及预设特征嵌入库获取所述目标对象对应的初始识别结果，对所述初始识别结果进行汇总，获取每一所述目标人物手拿目标对象的初始识别结果，根据每一所述目标人物手拿目标对象的初始识别结果以及预设决策算法获取每一所述目标人物手拿目标对象的识别结果，采用预设决策算法提升目标对象识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的商品前景图像质量检测的流程图；

图2是根据一示例性实施例示出的商品识别模型的结构示意图；

图3是根据一示例性实施例示出的商品识别信息的融合的流程图；

图4是根据一示例性实施例示出的目标对象识别方法的流程图；

图5是根据一示例性实施例示出的目标对象识别装置的结构示意图；

图6是根据一示例性实施例示出的计算机设备的内部结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如背景技术所述，现有技术中的动态目标对象识别技术(如动态商品识别技术)通常是利用单个设备获取连续视频帧图像识别用户手中的目标对象的种类，该技术存在待识别的目标对象被遮挡、单视角判别信息缺乏和动态成像运动模糊等问题，这些问题直接影响着目标对象识别的精度。

为解决上述问题，本申请实施例中创造性地提出了一种目标对象识别方法，该方法通过使用多个图像采集设备从多角度采集指定监控区域内的用户行人手拿商品信息，有效解决了单摄像头采集图像易导致目标对象被遮挡以及采集到的图像覆盖范围有限所带来的信息缺失等问题，通过前景提取算法获取目标对象的准确位置并排除背景干扰，采用图像质量检测算法滤除劣质图像，缓解劣质图像误识别问题，利用多视角信息融合决策的目标对象识别方法来提升商品识别准确率。

下面将结合附图和各个实施例，对本申请的方案进行详细介绍。

实施例一

本申请实施例提供了一种目标对象识别方法，适用于各种复杂监控场景下目标对象的识别，如线下无人零售等场景。以待识别的目标对象为商品为例，本申请实施例提供的目标对象识别方法，对多个传感器采集的数据进行融合，对目标对象(即商品)进行识别，该方法包括如下步骤：

步骤一、利用多组预设图像采集设备实时采集目标场景内多个预设角度的多个待检测图像，对所述待检测图像采用目标检测技术进行检测，获取待检测图像包含的人体检测框、人手拿商品(即目标对象)检测框以及行人实例分割掩膜，利用跨摄像头多目标跟踪技术获取不同摄像头同一行人的人体检测框与人手拿商品检测框以及行人实例分割掩膜的对应关系。

具体的，本发明实施例中的预设图像采集设备包括但不限于RGB-D摄像头组。通过多组RGB-D摄像头组实时采集目标场景中连续多帧多视角的待检测图像，对待检测图像中的行人采用目标检测技术获取预测输出的人体检测框、人手拿商品检测框以及行人实例分割掩膜(Mask)。

具体实施时，目标检测技术可采用基于深度学习的目标检测网络，如Center Net等。人体检测框和人手拿商品检测框的绑定关系可采用Center Net关键点回归方式获得。行人实例分割掩膜可采用Center Mask网络的多阶段top-down分割方式得到。本发明实施例中，在获取检测输出的人体检测框、人手拿商品检测框以及行人实例分割掩膜后，可以利用跨摄像头多目标跟踪技术获取不同摄像头采集的同一行人的人体检测框与人手拿商品检测框以及行人实例分割掩膜之间的对应关系，即每个行人对应在其出现的所有摄像头里的人体检测框、人手拿商品检测框以及行人实例分割掩膜。其中，跨摄像头多目标跟踪技术可以采用位置信息和特征信息结合行人重识别等技术实现。

步骤二、提取所述多个待检测图像的图像前景区域，利用商品前景提取算法处理图像前景区域、人手拿商品检测框和行人的实例分割掩膜，获取商品前景分割掩膜。

具体的，本发明实施例中，可以采用基于背景差分的方法对待检测图像中所有前景目标进行分割。假设目标场景中的摄像头无运动且光照均匀稳定，则RGB图像空间做背景差分受到光照影响较小，但是可能会受到背景色彩的干扰导致前景目标分割空洞，利用深度通道图像做背景差分虽然可以不受光照和画面颜色的干扰，但是可能会由于深度值不稳定造成过分割。为解决上述问题，本发明实施例中，采用一种融合RGB图像和深度通道图像的前景分割策略提取待检测图像的图像前景区域。

以RGB-D摄像头组的某一个摄像头C₁为例，假设C₁在目标场景光照均匀且无人时间段采集连续n张RGB-D图片，图片集合为{f₁，f₂，…，f_n}，RGB通道图像集合记为

深度通道图像集合记为

利用n张RGB-D图片采用求均值可平滑噪声或异常值影响来得到彩色背景模板B_RGB以及深度背景模板B_D，可用如下公式表示：

其中，上述公式中i和j为原始图像某点横坐标和纵坐标，k为原图的通道序号，k取值集合为{0，1，2}。在获取到背景模板后，假设C₁摄像头在时刻t₀采集的RGB-D图像为

RGB图像则为

深度通道图像为

融合RGB图像和深度通道图像的前景分割方法得到的分割掩膜图像为

则

可用以下公式表示：

上述公式中的

表示坐标(i，j)点的RGB像素值变化幅度，采用三个颜色通道的欧式距离开根号并做归一化到区间[0，1]之间。

表示坐标(i，j)点的深度值的变化幅度，由于前景目标比背景的深度值要小，所以本发明实施例中，可以仅考虑该种情况的变化，并将变化幅度值使用深度值尺度因子DepthScale进行归一化。α和β为融合RGB变化幅度和深度值变化幅度的加权超参数，T则为最后判断该点是否为前景点的阈值，α、β和T均可根据实际设备调试效果确定。通过融合彩色图变化信息和深度通道图变化信息可以得到初步的前景分割掩膜结果

考虑到噪声影响会导致分割质量降低，可以采用Filter(*)操作对

进行细化处理，Filter(*)表示对输入二值图像

做形态学处理后进行轮廓检测并保留最大面积轮廓，删除其余轮廓，从而获得全图的前景分割Mask结果

假设场景中t₀时刻某个行人跟踪ID为P_K，其在C₁摄像头内检测行人手拿商品检测框

为{xmin，ymin，xmax，ymax}，行人实例分割的Mask图像可以记为

利用以下公式可获得商品前景分割图像

上述公式中C(Q1，Q2)中第一个参数Q1为图像矩阵，第二个参数Q2为包围框，该函数表示用包围框坐标在图像矩阵中截取包围框对应区域图像；F(R1，R2)的第一个参数R1表示

框内前景分割掩膜图像，第二个参数R2表示

框内的行人实例分割掩膜图像，该函数表示一个布尔逻辑，即仅当前景分割掩膜图像某点值为1且行人实例分割掩膜图像对应统一点的值为0时，输出为1，其他情况均为0。通过该函数即可获得商品前景掩膜分割结果；·为矩阵点对点乘法操作，由于商品前景掩膜为单通道图像，故将单通道重复至4通道图像再与

框内的RGB-D图像进行矩阵点对点乘法操作得到输出

步骤三、利用待检测图像以及商品前景分割掩膜进行图像质量判断，过滤掉低质量人手拿商品检测框，筛选出符合预设要求的人手拿商品检测框。

具体的，本发明实施例中，为了提高商品识别的性能和效率，在商品识别前还增加了商品前景图像质量检测步骤，对待识别的商品进行过滤，这里主要是过滤掉低质量人手拿商品检测框，保留高质量人手拿商品框。其中，商品前景图像质量检测包括但不限于图像过曝、图像欠曝、图像噪声检测等图像质量检测。

以RGBD商品图像场景为例，商品前景图像质量检测可以包括图像模糊度检测和商品遮挡度检测两部分。具体实施时，图像模糊度检测可以采用多图像梯度、模糊度算子融合的商品图像模糊度检测模块实现，商品遮挡度检测可以采用基于RGBD信息的商品前景图像实际大小检测模块实现。

检测商品图像模糊度主要是检测商品图像的清晰度，可以有效剔除清晰度较差、不利于商品识别模型进行识别的图像，检测商品图像模糊度的流程如图1所示。本申请实施例中提出的多图像梯度、模糊度算子融合的商品图像模糊度检测模块创造性地至少融合了以下模糊度检测算法：Laplacian模糊度检测算法、Tenengrad模糊度检测算法及灰度方差乘积模糊度检测算法(SMD2)，从而使得本申请实施例中的商品图像模糊度检测模块结合了以上各个算法的优点。其中，Laplacian算子是n维欧几里德空间中的一个二阶微分算子，Tenengrad是一种常用的图像清晰度评价函数，是一种基于梯度的函数，这里不再一一赘述。具体如下所示：

(1)、关于Laplacian模糊度检测算法，进一步参照图1所示，首先取C₁摄像头在t₀时刻经商品前景分割得到的商品前景分割RGBD图像

取出其中的RGB通道

首先对

进行高斯滤波去噪，之后进行灰度化得到

公式如下所示：

其中，上述公式中

分别为

的R、G、B通道。

得到灰度图像后，使用Laplacian梯度函数求取对应的Laplacian梯度图像

公式如下：

其中，

为商品前景灰度图在(x，y)处的像素点，*为卷积操作，G_L为Laplacian卷积核，作为一种示例，卷积核可以采用如下所示的卷积核：

再对Laplacian梯度图像

求均方差得到t₀时刻Laplacian模糊度评价指标

公式如下：

其中，θ为

范围中所有像素点的集合，S_θ为该集合包含像素点的总和，

即为梯度图像

上的均值。

(2)、关于Tenengrad模糊度检测算法，进一步参照图1所示，具体实施时，和Laplacian检测算法相同，需要使用灰度图

得到Tenengrad梯度图

公式如下：

其中，G_sx、G_sy分别为Sobel的水平和垂直卷积核，作为一种示例，水平和垂直卷积和可以分别采用如下式所示的卷积核：

再求取

的像素均值得到Tenengrad模糊度检测评价指标

(3)、关于灰度方差乘积模糊度检测算法(SMD2)。当仅仅考虑失焦模糊情况时，当完全聚焦时，图片清晰，图片中的高频分量很多，可以使用灰度变化作为聚焦评价的依据。SMD2方法对每一个像素邻域两个灰度差分值相乘后再逐个像素累加，其模糊度检测评价指标

如下式所示：

其中上述公式中的GS(x，y)为

的简写。

最后，将上述三种模糊评价指标进行加权求和，如下式所示：

其中，p、

γ分别为各评价指标的权值，可以在实际应用场景中根据实际情况进行设置。若

大于预设的模糊度阈值则判定商品前景图像为清晰高质量，反之则判定为劣质模糊舍弃。

这里需要说明的是，本发明实施例中，上述三种模糊度检测方法中前两种方法主要描述图片中边缘信息，清晰的图片相较于模糊图片而言含有更多更清晰的边缘信息，评价指标越大图像越清晰。其中，Tenengrad方法对于图像中的横、纵边缘敏感，因而可以很好的描述图像中的横、纵边缘信息，而Laplacian方法比较均衡，也可以表征出斜向的边缘信息。将两者结合，在弥补Tenengrad方法对斜向边缘信息表征缺失的同时也提高了算法对于横、纵边缘信息的表征能力，提高了模糊评价算法的性能。在这两个方法的基础上本申请实施例中还添加了对失焦模糊评价性能很好的SMD2算法，进一步加强模糊评价模型的性能。

进一步参照图1所示，本申请实施例中，在进行商品遮挡度检测时可以通过基于RGBD信息的商品前景图像实际大小检测模块求取商品前景图像的实际大小值，并以此值和预设的最小商品实际大小阈值进行比较，若小于预设的最小商品实际大小阈值，则认为当前商品前景图像被遮挡较多，判定其为质量不合格图像。

具体实施时，在本申请实施例中提供的商品前景图像实际大小检测模块中，首先求出商品前景图像的面积

判断

是否小于预设的商品最小像素面积

(即预设的最小商品实际大小阈值)，若小于，则认为图像

过小，商品识别效果不佳，将其直接剔除，若不小于

则继续计算

在测量坐标系中的实际面积。

进一步参照图1所示，本申请实施中在计算

在测量坐标系中的实际面积时，首先遍历图像

的各像素点，得到商品前景区域中的最大、最小坐标{x_max，y_max，x_min，y_min}，通过最大、最小坐标得到图像

平行于坐标轴的外接矩形BBox，其中BBox是指采用bounding-box算法获取的矩形框，计算该外接矩形面积

再依据

面积得到两者的比值

计算出BBox的

这里的

分别为外接矩形BBox以像素为单位的宽度和高度，再求取出图像

中掩膜(Mask)范围内各像素点深度(Depth)数值的平均值Depth_ave。假设相机内参为f_x，f_y，c_x，c_y，其中，c_x、c_y分别为相机光轴在图像坐标系中X方向和Y方向的偏移量，d_x、f_y为X方向和Y方向的焦距，设相机的焦距为f，相机像素坐标系到成像坐标系间坐标转换公式如下所示：

其中，X_pix，y_pix为像素坐标系中某点坐标，x_i，y_i为该点对应的成像坐标系中坐标，由上述公式可推出相机成像坐标系中BBox的w_bbox，h_bbox与

之间的关系如下式所示：

其中，w_bbox，h_bbox分别为外接矩形BBox的宽度和高度。

再根据相机的小孔成像原理和相似三角形原理，可以得到BBox的实际面积

如下公式所示：

由比值k和BBox的实际面积

得到商品前景图像

的实际面积为

最后判断

是否小于等于预设的商品最小实际面积

若小于则认为商品前景被遮挡较多，不利于商品识别，将其剔除掉。

步骤四、搭建商品识别模型，对离线采集的所有商品样本图像进行预处理后通过该商品识别模型提取商品特征嵌入，集合所有商品特征嵌入建立商品识别预设特征嵌入库。

具体的，本申请实施例中的商品识别模型搭建过程中，首先采用预设分类基础网络作为主干网络提取商品特征，分类基础网络包括但不限于ResNet50等，接着采用自适应平均池化得到高维特征向量，再使用全连接降维得到用于商品识别的特征向量，最后连接分类层做分类任务监督。训练过程中可以对分类层的监督损失采用人脸识别损失函数ArcFace Loss，对中间商品识别的特征向量采用Triplet Loss来进行监督，其中，TripletLoss是深度学习中的一种损失函数，用于训练差异性较小的样本，如人脸等，最终搭建完成的商品识别模型如图2所示。

在识别任务中，本发明实施例中设置根据任务时效性和其他需求来建立识别目标的特征底库(即预设特征嵌入库)并动态更新该底库。由于商品是一种外观较为稳定的物体，故其底库可以离线静态建立，且更新频率不需要过快。假设本申请实施例中的目标场景中需要识别的商品有K种，每种商品可离线采集Q_K张图片，其中，采集的Q_K张图片为各个角度摄像头拍摄的人手拿商品的图片，并保证Q_K张图像为高质量图像，同时需对Q_K张图片中的商品前景进行标注以排除背景干扰。为扩充商品底库图片数量，本申请实施例中，可以采用添加高斯噪声或旋转图像等数据增强的方式来进行扩充底库图片到M_K张，最后将所有类别商品的所有底库图片采用商品前景标注信息提取前景以及缩放等预处理后，利用商品识别模型提取特征向量表示得到最终商品识别特征嵌入底库，该底库大小为

步骤五、利用筛选出的符合预设要求的人手拿商品检测框截取RGB图像对应区域并做取前景操作得到人手拿商品前景图像，将人手拿商品前景图像通过商品识别模型提取特征嵌入，并使用该特征嵌入与商品识别特征嵌入底库进行搜索排序得到初步识别结果，根据行人检测框将同一行人对应的不同摄像头多帧获取的人手拿商品初步识别结果进行汇总，采用多视角多帧信息融合决策方法得到场景中对应每个行人手拿商品的最终识别结果。

具体的，如图3所示，本申请实施例中，针对多摄像头多视角的复杂监控场景，提出一种高效准确的多摄像头多视频帧下商品识别信息的融合算法。具体实施时，还可以先根据人体实时跟踪位置信息、手拿商品检测触发信息及手拿商品位置信息来得到发生拿取商品的货架位置，然后根据该货架位置调取能够覆盖的多个摄像头，获取各个摄像头在拿取商品触发后τ秒时间段内的所有连续视频帧图像，其中，τ优选为2，再通过商品前景图像模块获取商品前景信息、通过商品前景图像质量检测进行筛选、最后经商品识别模型识别出商品品类(SKU)，得到各摄像头τ秒视频段内各个视频帧中对应位置的商品前景识别SKU品类集合，记为θ_SKU。

其中，本申请实施例中，设置手拿商品检测触发信息为预设手拿商品检测算法的检测结果，当检测到出现手拿商品时则发出触发信号，否则不触发。

多视角多帧商品识别信息融合模块接收到多视角多视频帧的θ_SKU信息后，首先遍历θ_SKU中的所有品类识别结果，根据预设的阈值进行筛选，得到高可信度的SKU结果集合

如下：

其中，i表示θ_SKU中品类识别结果的置信度，i′表示预设的置信度阈值。得到

之后，再次遍历

中的所有品类识别结果，查看是否存在相同的品类识别结果。若不存在，则定义以

集合中的所有品类为自变量，其对应的置信度为因变量的离散置信度函数f_conf(sku)，得到最终的SKU识别结果F_SKU，如下式所示：

F_SKU＝argmax(f_conf(sku))

若存在相同的品类识别结果，则取出现次数最多的SKU品类为最终结果F_SKU。若存在多个出现次数相同的SKU品类，则将某SKU第i次出现的置信度记为

使各SKU仅对应一个Conf_sku，则：

定义出现次数相同的SKU为自变量，其对应的Conf_sku为因变量的离散置信度函数f′_conf(sku)，则最终的SKU识别结果F_SKU可以通过如下公式计算得到：

F_SKU＝argmax(f′_conf(sku))

这里，最终的SKU识别结果F_SKU即为本申请实施例中人手拿商品的最终识别结果。

实施例二

对应于上述实施例一，本申请中还提供了一种目标对象识别方法，其中，本实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。如图4所示，该方法包括如下步骤：

S1：识别出多个待检测图像中包含的所有目标人物，并获取每一所述目标人物对应的人手拿目标对象检测框以及行人实例分割掩膜，所述多个待检测图像包括不同角度采集的图片。

具体的，本申请实施例中，待检测图像为在目标场景中多个不同预设位置的多个不同角度采集的图像，这样可以有效解决单摄像头商品遮挡以及覆盖范围有限所带来的信息缺失。具体实施时，可以先利用多组预设摄像头组实时采集目标场景中多个不同位置的多个角度的图片，对所有图片中的行人采用目标检测技术获取预测输出的人体检测框、人手拿商品检测框以及行人实例分割掩膜，然后利用跨摄像头多目标跟踪技术获取不同摄像头同一行人的人体检测框以及与人手拿商品检测框以及行人实例分割掩膜的对应关系。

S2：获取所述多个待检测图像的图像前景区域，并根据所述图像前景区域、所述人手拿目标对象检测框以及所述行人实例分割掩膜获取目标对象前景分割掩膜。

具体的，获取多个待检测图像的图像前景区域时可以先利用基于深度图的前景掩膜提取方法进行提取操作，然后利用预设目标对象前景提取算法处理图像前景区域、行人的实例分割掩膜和人手拿目标对象检测框等信息得到目标对象前景分割掩膜。

S3：根据所述多个待检测图像以及所述目标对象前景分割掩膜对所述人手拿目标对象检测框进行筛选，获取目标检测框。

具体的，本申请实施中，为了提高商品识别的性能和效率，还需要对人手拿目标对象检测框进行筛选。具体筛选时，可以利用多个待检测图像的原始图像以及目标对象前景分割掩膜进行图像质量判断，过滤掉低质量的人手拿目标对象检测框，保留高质量的人手拿目标对象检测框作为目标检测框，以便后续进行目标对象识别。其中，本申请实施例中提出的图像质量判断包括但不限于图像模糊度检测和目标对象遮挡度检测等，具体参照实施例一中相关内容，这里不再一一赘述。

S4：从所述目标检测框提取人手拿目标对象前景图像，并利用预设识别模型识别所述人手拿目标对象前景图像，获取所述目标对象对应的识别结果。

具体的，对通过上述步骤筛选出的目标检测框进行取前景操作，获取对应的人手拿目标对象前景图像，将人手拿目标对象前景图像通过预设识别模型进行识别，获取目标对象对应的识别结果，具体过程参照实施例一中的相关内容，这里不再一一赘述。

作为一种较优的实施方式，本发明实施例中，所述识别出多个待检测图像中包含的所有目标人物，并获取每一所述目标人物对应的人手拿目标对象检测框以及行人实例分割掩膜包括：

具体的，对待检测图片中的行人采用目标检测技术获取预测输出的人体检测框、人手拿目标对象检测框以及行人实例分割掩膜。其中，这里的目标检测技术可采用现有基于深度学习的目标检测网络，如CenterNet等。人体检测框和人手拿目标对象检测框的绑定关系可采用CenterNet关键点回归思路获得，行人实例分割掩膜可采用CenterMask网络的多阶段top-down分割思路得到。在获取到人体检测框、人手拿目标对象检测框以及行人实例分割掩膜后，利用跨摄像头多目标跟踪技术获取不同摄像头同一ID的行人的人体检测框与人手拿目标对象检测框以及行人实例分割掩膜的对应关系。其中，跨摄像头多目标跟踪技术可以采用位置信息和特征信息结合行人重识别等技术实现。

作为一种较优的实施方式，本发明实施例中，所述根据所述多个待检测图像以及所述目标对象前景分割掩膜对所述人手拿目标对象检测框进行筛选，获取目标检测框包括：

具体的，为了提高商品识别的性能和效率，在进行目标对象识别前，还需要对人手拿目标对象检测框进行筛选，筛选时主要包括图像模糊度检测和目标对象遮挡度检测。具体实施时，在进筛选时，还可以包括图像过曝、图像欠曝、图像噪声检测等图像质量判定。

作为一种较优的实施方式，本发明实施例中，所述从所述目标检测框提取人手拿目标对象前景图像，并利用预设识别模型识别所述人手拿目标对象前景图像，获取所述目标对象对应的识别结果包括：

具体的，本申请实施例中，可以利用预先采集的目标对象样本图像对预先选取的分类基础网络进行训练，获取预设识别模型。

作为一种较优的实施方式，本发明实施例中，所述利用预设识别模型提取所述人手拿目标对象前景图像中的特征嵌入，根据所述特征嵌入以及预设特征嵌入库获取所述目标对象对应的识别结果包括：

具体的，预设决策算法包括但不限于实施例一中所述的多摄像头多视频帧下商品识别信息的融合算法，具体参照实施例一中相关内容，这里不再一一赘述。

作为一种较优的实施方式，本发明实施例中，所述方法还包括：

具体的，本申请实施例中，可以预先采集若干各个位置的各个角度的人手拿目标对象的图像作为目标对象样本图像，然后对这些目标对象样本图像进行取前景操作以及缩放等预处理后，利用预设识别模型提取特征向量表示，得到最终目标对象识别特征嵌入底库，生成预设特征嵌入库。

作为一种较优的实施方式，本发明实施例中，所述方法还包括所述多个待检测图像的采集过程，包括：

具体的，预设图像采集设备包括但不限于RGB-D摄像头组。

实施例三

对应于上述实施例一和二，本申请中还提供了一种目标对象识别装置，其中，本实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。如图5所示，该装置包括：

在一些实施方式中，本申请实施例提供的装置还可以包括其他单元或模块，这些单元或模块可以实现与实施例一、二所述方法对应的步骤，可以参考实施例一、二中的详细描述，此处不作赘述。

实施例四

对应于上述实施例一至三，本申请中还提供了一种计算机设备，其中，本实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。

图6是根据一示例性实施例示出的计算机设备的内部结构示意图，参照图6所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种执行计划的优化方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

作为一种较优的实施方式，本发明实施例中，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一些实施方式中，本申请实施例中，处理器执行计算机程序时，还可以实现与实施例一、二所述方法对应的步骤，可以参考实施例一、二中的详细描述，此处不作赘述。

实施例五

对应于上述实施例一至四，本申请实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

在一些实施方式中，本申请实施例中，所述计算机程序被处理器执行时，还可以实现与实施例一、二所述方法对应的步骤，可以参考实施例一、二中的详细描述，此处不作赘述。

需要说明的是：上述实施例提供的目标对象识别装置在触发识别业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标对象识别装置与目标对象识别方法实施例属于同一构思，即该装置是基于该目标对象识别方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标对象识别方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的目标对象识别方法，其特征在于，所述识别出多个待检测图像中包含的所有目标人物，并获取每一所述目标人物对应的人手拿目标对象检测框以及行人实例分割掩膜包括：

3.根据权利要求1或2所述的目标对象识别方法，其特征在于，所述根据所述多个待检测图像以及所述目标对象前景分割掩膜对所述人手拿目标对象检测框进行筛选，获取目标检测框包括：

4.根据权利要求1或2所述的目标对象识别方法，其特征在于，所述从所述目标检测框提取人手拿目标对象前景图像，并利用预设识别模型识别所述人手拿目标对象前景图像，获取所述目标对象对应的识别结果包括：

5.根据权利要求4所述的目标对象识别方法，其特征在于，所述利用预设识别模型提取所述人手拿目标对象前景图像中的特征嵌入，根据所述特征嵌入以及预设特征嵌入库获取所述目标对象对应的识别结果包括：

6.根据权利要求4所述的目标对象识别方法，其特征在于，所述方法还包括：

7.根据权利要求1或2所述的目标对象识别方法，其特征在于，所述方法还包括所述多个待检测图像的采集过程，包括：

8.一种目标对象识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。