CN112634363B

CN112634363B - 一种货架姿态预估方法

Info

Publication number: CN112634363B
Application number: CN202011454484.9A
Authority: CN
Inventors: 金涛
Original assignee: Shanghai Lingmou Intelligent Technology Co ltd
Current assignee: Shanghai Lingmou Intelligent Technology Co ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2023-10-03
Anticipated expiration: 2040-12-10
Also published as: CN112634363A

Abstract

本发明公开了一种货架姿态预估方法，涉及图像处理领域，采用卷积神经网络训练模型并预估货架的三维欧拉角，模型包括货架层检测分支和姿态预估分支，训练时层检测分支与姿态预估分支一起进行正向传播和反向传播学习模型，预测时直接使用姿态预估分支进行预估推理。本发明实现了完全端到端的学习和预测，无需人工事先测试再设置相关阈值，可根据场景类型在手机端实时推理或推送至服务中心处理，实现了快速精准的三维欧拉角预测。

Description

一种货架姿态预估方法

技术领域

本发明涉及图像处理领域，尤其涉及一种货架姿态预估方法。

背景技术

零售场景中，不规范的拍照方式产生的诸如货架姿态偏角较大等造成大量低质量的图片，对后续图像分析(商品检测、识别等)造成很大影响。

对于零售货架场景图片，有多种衡量图片质量的方法，例如模糊度、曝光度、是否翻拍等。这些对图片中商品的检测和识别有影响，平行平面假设(fronto-parallel viewassumption)是假定拍摄平面平行于被拍摄物体表面。当业务人员站在货架一侧以较斜角度拍摄货架，或者站的较高往下俯拍，这就破坏了平行平面假设，则产生了低质照片。

这往往会通过以下方法部分解决:

1.从采集的数据中抽样，专门的图片质量审核人员进行审核；

2.对图像提取直线片段，使用RANSAC算法估计水平和竖直方向消失点(vanishingpoint)，根据水平消失点的位置判断是否是倾斜拍摄的。例如规定消失点位于一倍图宽范围内属于严重侧拍造成的；其次计算消失点与图中心点组成的直线和经过图中心点的水平线或垂直线的夹角，再设置阈值判别。

对于方法一，首先需要抽样，则大部分数据都无法被检查到，而且人工审核的成本支出高昂。

对于方法二，存在的缺陷在于：

(a)处理步骤多，运算比较复杂，整个过程时间比较长，无法满足移动端实时处理的要求；

(b)需要人工设置阈值判定货架拍摄是否违规，无法实现端到端(end-to-end)的过程；

(c)这种方法只能估计货架的翻滚角(roll)，以及由于测拍导致消失点距离照片太近从而判定图片质量低。但无法做到三维(pitch俯仰角,yaw偏航角,roll翻滚角)姿态预估。

因此，本领域的技术人员致力于开发一种货架姿态预估方法，能够快速预估拍摄的货架的三维欧拉角。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何快速准确地预估所拍摄的货架的三维欧拉角。

为实现上述目的，本发明提供了一种货架姿态预估方法，包括以下步骤：

步骤1：采集学习数据；

步骤2：采用卷积神经网络训练模型；

步骤3：利用所述模型，推理货架的三维欧拉角。

进一步地，所述步骤1包括：

步骤11：拍摄货架照片；

步骤12：使用旋转矩形标注货架层；

步骤13：标注货架的三维欧拉角。

进一步地，所述模型包括货架层检测分支和姿态预估分支。

进一步地，所述货架层检测分支采用辅助监督学习。

进一步地，所述辅助监督学习的货架层检测损失函数为：

其中，N表示候选框数量；

x，y是矩形左上点的坐标，w，h是矩形的宽和高，θ表示矩形旋转的角度；

t′_n取值为0或1，分别表示前景和背景；

v'_*j表示预测框的偏移向量，v_*j表示真实框的偏移向量；

L_reg表示smooth L1损失；

IoU表示梯度的大小。

进一步地，所述步骤2中所述姿态预估分支损失函数为：

其中，M表示每批次训练中的图片数量；表示特征点的L2距离；

α¹,α²,α³分别表示pitch俯仰角,yaw偏航角,roll翻滚角，ω表示各角度分量的权重。

进一步地，所述步骤2中所述货架层检测分支与所述姿态预估分支一起进行正向传播和反向传播学习模型。

进一步地，所述步骤3中使用所述姿态预估分支进行货架的姿态预估推理。

进一步地，所述模型在手机端使用MobileNetV3作为骨干网络，在服务器端使用SEResNet50作为骨干网络。

本发明还提供了一种货架姿态预估系统，包括手机端、服务器端，使用以上的方法，进行货架姿态预估。

本发明可以快速精准实时处理零售货架图片，既可以运行在服务器端处理用户发送来的脱敏数据，也可以内置于sdk在业务人员拍照时实时提醒；

本发明被设计成端到端的方法，无需根据经验设置阈值；

本发明可以预估三维欧拉角(pitch俯仰角,yaw偏航角,roll翻滚角)，无人为设置相关经验值干预且更加精准。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的模型示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，货架姿态预估模型包括两个分支，上半部分是姿态预估分支，下左半部分是货架层检测辅助监督学习分支。

训练时，层检测辅助监督学习分支与姿态预估分支一起进行正向传播和反向传播学习模型。

预测时，直接使用姿态预估分支进行货架的姿态预估推理。

本发明包括三个阶段：

一、采集学习数据；

业务人员对数百家门店的数千家零售货架采集了二万多张图片，经过人工审核、机器预标注(标注货架层)和数据标准人员的标注矫正(标注货架三维欧拉角)，得到一万八千张学习数据。

在标注货架层时，采用旋转矩形进行标注。此时，候选框数量即为货架层数。

二、模型训练阶段：

通过采集阶段采集并做好标注的图片，进行模型的学习。通过货架层检测分支，检测货架的层数，辅助姿态预估分支，预估货架的三维欧拉角。

a.使用pytorch实现神经网络；

b.数据图片经过截取和缩放到224*224大小，训练的batch size大小为128，优化器使用10*e-6权重衰减(weight decay)和0.9动量(momentum)的Adam优化器；最大训练步数为100K；初始学习率为0.001，80K步数时学习率衰减为0.0001；

c.使用了4块Nvidia GTX 1080Ti GPU做训练。

通过训练，得到可用于货架姿态预估的模型。

三、模型预测阶段：

a.预测阶段不需要货架层检测分支，将货架层检测分支截断；

b.根据使用场景的不同使用不同的骨干网络。

使用量化剪枝模型部署在移动手机端进行实时预测监控，骨干网络使用MoibileNetV3。

使用大容量高精度版本模型在数据中心服务器端对用户发送来的图像进行预测，骨干网络使用SEResNet50。

c.将图片送入以上网络，得到货架姿态预估结果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种货架姿态预估方法，其特征在于，包括以下步骤：

步骤1：采集学习数据；

步骤2：采用卷积神经网络训练模型；

步骤3：利用所述模型，推理货架的三维欧拉角；

所述步骤1包括：

步骤11：拍摄货架照片；

步骤12：使用旋转矩形标注货架层；

步骤13：标注货架的三维欧拉角；

所述模型包括货架层检测分支和姿态预估分支；

所述货架层检测分支采用辅助监督学习；

所述辅助监督学习的货架层检测损失函数为：

其中，N表示候选框数量；

t′_n取值为0或1，分别表示前景和背景；

v′_*j表示预测框的偏移向量，v_*j表示真实框的偏移向量；

L_reg表示smooth L1损失；

IoU表示梯度的大小；

所述步骤2中所述姿态预估分支损失函数为：

α¹，α²，α³分别表示pitch俯仰角，yaw偏航角，roll翻滚角，ω表示各角度分量的权重；

所述步骤2中所述货架层检测分支与所述姿态预估分支一起进行正向传播和反向传播学习模型；

所述步骤3中使用所述姿态预估分支进行货架的姿态预估推理；

所述模型在手机端使用Mobile Net V3作为骨干网络，在服务器端使用SEResNet50作为骨干网络；

训练时，层检测辅助监督学习分支与姿态预估分支一起进行正向传播和反向传播学习模型；预测时，直接使用姿态预估分支进行货架的姿态预估推理；

模型训练阶段：

通过采集阶段采集并做好标注的图片，进行模型的学习，通过货架层检测分支，检测货架的层数，辅助姿态预估分支，预估货架的三维欧拉角；

a.使用pytorch实现神经网络；

b.数据图片经过截取和缩放到224*224大小，训练的batch size大小为128，优化器使用10*e^-6权重衰减和0.9动量的Adam优化器；最大训练步数为100K；初始学习率为0.001，80K步数时学习率衰减为0.0001；

c.使用了4块Nvidia GTX 1080Ti GPU做训练；

通过训练，得到可用于货架姿态预估的模型；

模型预测阶段：

b.根据使用场景的不同使用不同的骨干网络；

使用量化剪枝模型部署在移动手机端进行实时预测监控，骨干网络使用

Moibile Net V3；

使用大容量高精度版本模型在数据中心服务器端对用户发送来的图像进行预测，骨干网络使用SERes Net50；

c.将图片送入以上网络，得到货架姿态预估结果。

2.一种货架姿态预估系统，包括手机端、服务器端，使用如权利要求1所述的方法，进行货架姿态预估。