CN111179340A

CN111179340A - 一种物体的定位方法、装置及计算机系统

Info

Publication number: CN111179340A
Application number: CN201911396145.7A
Authority: CN
Inventors: 刘水清; 杨现; 孙皓
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-19
Also published as: WO2021135321A1; CA3166338A1

Abstract

本申请公开了一种物体的定位方法、装置及计算机系统，其中所述方法包括：接收彩色图像及所述彩色图像对应的深度图像；将所述彩色图像及所述深度图像进行图像融合，获得目标图像，所述目标图像为RGBD图像，所述目标图像的Alpha通道对应所述深度图像、RGB通道对应所述彩色图像；将所述目标图像输入预设模型进行识别，定位所述目标图像中目标物体的位置，所述预设模型的输入层包含RGB通道及Alpha通道，相较于仅基于彩色图像进行的识别，提高了对目标物体定位的效率及准确度，可根据目标物体的位置实现对目标物体的位移路线的追踪，当应用于无人店时，即可跟踪顾客的购物路线，在保障了货物安全的同时也能用于对顾客购买行为的分析，提升顾客的购买体验。

Description

一种物体的定位方法、装置及计算机系统

技术领域

本发明涉及图像识别领域，尤其涉及一种物体的定位方法、装置及计算机系统。

背景技术

随着互联网技术的发展，无人店逐渐成为了新零售领域的一股热潮。现有技术中，对无人店的商品防盗监测大多依赖于RFID无线射频识别技术，需要预先为每个商品贴上防盗标签，成本高且使用不方便。即使应用了人脸识别技术对顾客进出商店等行为进行识别确认，也存在着识别顾客的人脸导致侵犯顾客隐私的风险。

发明内容

为了解决现有技术的不足，本发明的主要目的在于提供一种物体的定位方法，以实现对物体的定位检测。

为了达到上述目的，第一方面本发明提供了一种物体的定位方法，所述方法包括：

接收彩色图像及所述彩色图像对应的深度图像；

将所述彩色图像及所述深度图像进行图像融合，获得目标图像，所述目标图像为RGBD图像，所述目标图像的Alpha通道对应所述深度图像、RGB通道对应所述彩色图像；

将所述目标图像输入预设模型进行识别，定位所述目标图像中目标物体的位置，所述预设模型的输入层包含RGB通道及Alpha通道。

在一些实施例中，将所述彩色图像及所述深度图像进行图像融合前，所述方法还包括：

按照预设方法及预设参数，对所述深度图像进行图像归一化操作。

对归一化后的所述深度图像及所述彩色图像进行图像配准。

在一些实施例中，所述彩色图像由第一相机拍摄，所述深度图像由第二相机拍摄，所述对所述彩色图像及所述深度图像进行图像配准包括：

使用棋盘格法，对所述第一相机及所述第二相机进行相机标定，获得所述第一相机及所述第二相机对应的变换矩阵；

根据所述变换矩阵，对所述彩色图像及所述深度图像进行图像配准。

在一些实施例中，将所述目标图像输入预设模型进行识别前，所述方法还包括：

对所述目标图像进行数据增强。

在一些实施例中，所述预设模型的训练过程包括：

获取训练图像集，所述图像集由对样本目标进行了预先标注的彩色图像及所述彩色图像对应的深度图像组成；

对所述深度图像进行图像归一化操作，并转换为预设格式；

对所述彩色图像及对应的所述深度图像进行图像配准；

将所述深度图像及对应的所述彩色图像进行图像融合，获得测试图像，所述测试图像为RGBD图像，所述测试图像的Alpha通道对应所述深度图像、RGB通道对应所述彩色图像；

将所述测试图像作为目标模型的输入，对应的预先标注的所述样本目标作为所述目标模型的预期输出，不断地对所述目标模型进行训练，直至所述目标模型满足预设条件。

在一些实施例中，所述目标模型通过如下方式获得：

将Yolov3模型的输入层修改为四个通道，获得改进后的所述Yolov3模型，所述输入层包含RGB通道及Alpha通道；

根据预设的裁剪参数，对改进后的所述Yolov3模型的backbone网络进行裁剪，获得目标模型。

第二方面，本申请提供了一种物体的定位装置，所述装置包括：

接收模块，用于接收彩色图像及所述彩色图像对应的深度图像；

图像处理模块，用于将所述彩色图像及所述深度图像进行图像融合，获得目标图像，所述目标图像为RGBD图像，所述目标图像的Alpha通道对应所述深度图像、RGB通道对应所述彩色图像；

匹配模块，用于将所述目标图像输入预设模型进行识别，定位所述目标图像中目标物体的位置，所述预设模型的输入层包含RGB通道及Alpha通道。

在一些实施例中，所述图像处理模块还可用于对所述彩色图像及所述深度图像进行图像配准。

第三方面，本申请提供了一种计算机系统，所述系统包括：

一个或多个处理器；

以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

接收彩色图像及所述彩色图像对应的深度图像；

将所述目标图像输入预设模型进行识别，定位所述目标图像中目标物体的位置。

本发明实现的有益效果为：

本发明公开了接收彩色图像及所述彩色图像对应的深度图像；将所述彩色图像及所述深度图像进行图像融合，获得目标图像，所述目标图像为RGBD图像，所述目标图像的Alpha通道对应所述深度图像、RGB通道对应所述彩色图像；将所述目标图像输入预设模型进行识别，定位所述目标图像中目标物体的位置，通过对彩色图像和深度图像融合后的图像进行识别，相较于仅基于彩色图像或深度图像进行的识别，对目标图像中目标物体定位的效率及准确度得到了很大的提升，根据定位的目标物体的位置，即可实现对目标物体的位移路线的追踪，当应用于无人店时，即可用于跟踪顾客的购物路线，在保障了货物安全的同时也能用于对顾客购买行为的分析，提升顾客的购买体验；

本申请还公开了在将所述彩色图像及所述深度图像进行图像融合前，对所述深度图像进行图像归一化、对所述彩色图像及所述深度图像进行图像配准等图像处理操作，更加提升了对目标物体的定位的准确率；

本申请提出了对目标图像进行数据增强后，输入预设模型进行识别，保证了定位的效率。

本发明所有产品并不需要具备上述所有效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的无人店人物检测流程图；

图2是本申请实施例提供的Yolov3-4channel的网络结构框架示意图；

图3是本申请实施例提供的方法流程图；

图4是本申请实施例提供的装置结构图；

图5是本申请实施例提供的计算机系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如背景技术中所述，为了保障无人店内商品的安全，可以采用在无人店内架设摄像头，根据摄像头拍摄的图像分析顾客的移动轨迹，根据移动轨迹可对可疑的顾客进行识别，也可用于根据移动轨迹对顾客购买行为进行分析，提升顾客的购买体验。

为实现上述目的，本申请公开了通过将目标图像输入预设模型，根据模型的输出结果确定目标物体的位置，实现了对顾客的位置、移动轨迹的实时识别。

实施例一

以使用Yolov3模型对无人店拍摄的图像进行检测，识别顾客的位置为例，如图1所示，上述方法可通过如下步骤实现：

Yolov3模型是一种通用的目标检测模型，可用于对图像进行处理，提取图像中的目标物体，如人物、商品等。

但该模型只可用于检测三通道的RGB彩色图像，无法将深度图像与彩色图像进行融合，也无法对融合后获得的RGBD图像进行检测。

RGB是工业界常用的颜色标准，通过对红、绿、蓝三个颜色通道的值进行变化以及它们相互之间的叠加来得到各式各样的颜色，这个标准几乎可以包括人类视力所能感知的所有颜色。

RGBD则是在RGB的三通道基础上增加了Alpha通道，为RGB图像附加了来源于深度图像的额外的信息。深度图像的像素值代表着摄像机与拍摄的物体的实际距离，融合了深度图像与彩色图像的RGBD图像比单独的彩色图像能够更清楚地表现出拍摄的物体的真实状态，因此基于RGBD图像的识别相较于基于彩色图像的识别得到的结果更加准确。

为了使得Yolov3模型能够支持对RGBD图像的识别，需要对其进行改造，改造过程包括：

对Yolov3模型的输入层进行修改，使其由只能输入RGB三通道的图像变为可以输入包含RGB及Alpha通道的RGBD图像，该改造后的模型可命名为Yolov3-4channel网络模型。

为了加快模型的推理速度、提高模型的输出效率，可以根据预设的裁剪参数，对Yolov3-4channel的Backbone网络层进行裁剪，减少该模型的模型层数以加快运算。

图2示出了Yolov3-4channel的网络结构框架示意图，包含了输入层、Res层、卷积层conv、上采样层upSample、Yolo层、concat层等。

为了获取彩色图像及深度图像，可以在无人店内分别架设彩色摄像头及深度摄像头，用于采集彩色图像及深度图像，架设高度为距离地面3-4米，安装的角度为垂直于地面。

当完成图像的采集及模型的改造后，即可开始对模型进行训练，获得预设模型，具体的训练过程包括：

步骤一、采集图像数据集；

该数据集中包含了彩色图像及对应的深度图像，该数据集的85％可用于训练该模型，15％用于测试该模型；

步骤二、对彩色图像中包含的人物进行VOC格式的标注，将彩色图像从BGR模式转为RGB模式。

BGR是一种与RGB顺序相反的颜色标准，代表蓝、绿、红的顺序。

VOC是一种图像的标注规则，可用于对图像中的目标物体进行标注。

步骤三、对深度图像进行预处理；

该预处理过程可以包括：

对深度图像进行图像归一化操作；

所述图像归一化可以包括：

假设深度图的有效位数为16bit，摄像头离地面高度为4000mm，则使用如下公式来将深度图归一化到[0,255]的区间之内。

ndepth＝depth/4000*255，depth表示从该深度图像读取的深度。

对归一化后的深度图像，将其转换为unit8格式，Unit8是一种图片的数据类型。

步骤四、将彩色图像及对应的深度图像进行图像配准；

所述图像配准的具体过程包括：

对拍摄彩色图像的第一相机及拍摄深度图像的第二相机，使用棋盘格标定法，分别计算第一相机及第二相机的内参矩阵，并计算第一相机及第二相机相对预设棋盘的外参矩阵，根据所述内参矩阵及外参矩阵计算第一相机与第二相机对应的变换矩阵；

根据变换矩阵，对彩色图像及对应的深度图像进行图像配准。

步骤五、将深度图像作为目标图像的Alpha通道，彩色图像作为目标图像的RGB通道进行图像融合，获得四通道的RGBD目标图像；

步骤六、对目标图像进行数据增强；

所述数据增强的方法包括图像裁剪、图像尺度调整、图像旋转角度调整、图像亮度及对比度调整等图像处理方法。

步骤七、将目标图像作为输入改造后的模型，对应的标注的人物作为模型的预期输出，对模型进行训练。

所述训练过程包括：修改所述模型的训练参数，使用随机梯度下降算法，持续观察所述模型的损失函数Loss的下降情况，直至损失函数Loss的值不再下降，即认为该模型完成训练，并输出目标的预设模型。

当获得目标的预设模型后，即可使用所述预设模型对图像进行识别，所述识别过程包括：

步骤一、接收彩色图像及所述彩色图像对应的深度图像；

步骤二、按照预设方法及预设参数，对所述深度图像进行图像归一化操作，并转换为unit8格式；

步骤三、对步骤二获得的所述深度图像及所述彩色图像进行图像配准；

所述图像配准过程包括：

对拍摄彩色图像的第一相机及拍摄深度图像的第二相机使用棋盘格标定法分别计算第一相机及第二相机的内参矩阵，并计算第一相机及第二相机相对预设棋盘的外参矩阵，根据所述内参矩阵及外参矩阵计算第一相机与第二相机对应的变换矩阵；

步骤四、将彩色图像及深度图像进行融合，生成目标图像，该图像的Alpha通道对应深度图像，RGB通道对应彩色图像，并对目标图像进行数据增强；

所述数据增强包括但不限于图像裁剪、图像尺度调整、图像旋转角度调整、图像亮度及对比度调整等图像处理方法。

步骤五、将所述目标图像输入预设模型进行识别，定位所述目标图像中目标物体的位置。

通过上述方法，即可对目标图像中的人物等目标物体进行识别，提升了人物识别的准确率与效率，方便了根据识别结果进行后续的跟踪、人像识别、多目标取重等操作。

实施例二

对应上述方法，本申请提供了一种物体的定位方法，如图3所示，所述方法包括：

310、接收彩色图像及所述彩色图像对应的深度图像；

320、将所述彩色图像及所述深度图像进行图像融合，获得目标图像，所述目标图像为RGBD图像，所述目标图像的Alpha通道对应所述深度图像、RGB通道对应所述彩色图像；

优选的，将所述彩色图像及所述深度图像进行图像融合前，所述方法还包括：

321、按照预设方法及预设参数，对所述深度图像进行图像归一化操作。

322、对归一化后的所述深度图像及所述彩色图像进行图像配准。

优选的，所述彩色图像由第一相机拍摄，所述深度图像由第二相机拍摄，所述对所述彩色图像及所述深度图像进行图像配准包括：

330、将所述目标图像输入预设模型进行识别，定位所述目标图像中目标物体的位置，所述预设模型的输入层包含RGB通道及Alpha通道。

优选的，将所述目标图像输入预设模型进行识别前，所述方法还包括：

331、对所述目标图像进行数据增强。

优选的，所述预设模型的训练过程包括：

340、获取训练图像集，所述图像集由对样本目标进行了预先标注的彩色图像及所述彩色图像对应的深度图像组成；

对所述深度图像进行图像归一化操作，并转换为预设格式；

对所述彩色图像及对应的所述深度图像进行图像配准；

优选的，所述目标模型通过如下方式获得：

341、将Yolov3模型的输入层修改为四个通道，获得改进后的所述Yolov3模型，所述输入层包含RGB通道及Alpha通道；

实施例三

对应上述方法，本申请提供了一种物体的定位装置，如图4所示，所述装置包括：

接收模块410，用于接收彩色图像及所述彩色图像对应的深度图像；

图像处理模块420，用于将所述彩色图像及所述深度图像进行图像融合，获得目标图像，所述目标图像为RGBD图像，所述目标图像的Alpha通道对应所述深度图像、RGB通道对应所述彩色图像；

匹配模块430，用于将所述目标图像输入预设模型进行识别，定位所述目标图像中目标物体的位置，所述预设模型的输入层包含RGB通道及Alpha通道。

优选的，所述图像处理模块420还可用于对所述彩色图像及所述深度图像进行图像配准。

优选的，所述图像处理模块420还可用于按照预设方法及预设参数，对所述深度图像进行图像归一化操作。

优选的，所述图像处理模块420还可用于对归一化后的所述深度图像及所述彩色图像进行图像配准。

优选的，所述彩色图像由第一相机拍摄，所述深度图像由第二相机拍摄，所述图像处理模块420还可用于使用棋盘格法，对所述第一相机及所述第二相机进行相机标定，获得所述第一相机及所述第二相机对应的变换矩阵；

优选的，所述图像处理模块420还可用于对所述目标图像进行数据增强。

优选的，所述装置还包括模型训练模块430，用于获取训练图像集，所述图像集由对样本目标进行了预先标注的彩色图像及所述彩色图像对应的深度图像组成；

对所述深度图像进行图像归一化操作，并转换为预设格式；

对所述彩色图像及对应的所述深度图像进行图像配准；

优选的，所述模型训练模块430还可用于将Yolov3模型的输入层修改为四个通道，获得改进后的所述Yolov3模型，所述输入层包含RGB通道及Alpha通道；根据预设的裁剪参数，对改进后的所述Yolov3模型的backbone网络进行裁剪，获得目标模型。

实施例四

对应上述方法、设备及系统，本申请实施例四提供一种计算机系统，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：接收彩色图像及所述彩色图像对应的深度图像；

其中，图5示例性的展示出了计算机系统的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521，用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种物体的定位方法，其特征在于，所述方法包括：

接收彩色图像及所述彩色图像对应的深度图像；

2.根据权利要求1所述的方法，其特征在于，将所述彩色图像及所述深度图像进行图像融合前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，将所述彩色图像及所述深度图像进行图像融合前，所述方法还包括：

对归一化后的所述深度图像及所述彩色图像进行图像配准。

4.根据权利要求3所述的方法，其特征在于，所述彩色图像由第一相机拍摄，所述深度图像由第二相机拍摄，所述对所述彩色图像及所述深度图像进行图像配准包括：

5.根据权利要求1-3任一所述的方法，其特征在于，将所述目标图像输入预设模型进行识别前，所述方法还包括：

对所述目标图像进行数据增强。

6.根据权利要求1-3任一所述的方法，其特征在于，所述预设模型的训练过程包括：

对所述深度图像进行图像归一化操作，并转换为预设格式；

对所述彩色图像及对应的所述深度图像进行图像配准；

7.根据权利要求6所述的方法，其特征在于，所述目标模型通过如下方式获得：

8.一种物体的定位装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述图像处理模块还可用于对所述彩色图像及所述深度图像进行图像配准。

10.一种计算机系统，其特征在于，所述系统包括：

一个或多个处理器；

接收彩色图像及所述彩色图像对应的深度图像；