CN112634363B - 一种货架姿态预估方法 - Google Patents
一种货架姿态预估方法 Download PDFInfo
- Publication number
- CN112634363B CN112634363B CN202011454484.9A CN202011454484A CN112634363B CN 112634363 B CN112634363 B CN 112634363B CN 202011454484 A CN202011454484 A CN 202011454484A CN 112634363 B CN112634363 B CN 112634363B
- Authority
- CN
- China
- Prior art keywords
- shelf
- branch
- model
- learning
- estimating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种货架姿态预估方法,涉及图像处理领域,采用卷积神经网络训练模型并预估货架的三维欧拉角,模型包括货架层检测分支和姿态预估分支,训练时层检测分支与姿态预估分支一起进行正向传播和反向传播学习模型,预测时直接使用姿态预估分支进行预估推理。本发明实现了完全端到端的学习和预测,无需人工事先测试再设置相关阈值,可根据场景类型在手机端实时推理或推送至服务中心处理,实现了快速精准的三维欧拉角预测。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种货架姿态预估方法。
背景技术
零售场景中,不规范的拍照方式产生的诸如货架姿态偏角较大等造成大量低质量的图片,对后续图像分析(商品检测、识别等)造成很大影响。
对于零售货架场景图片,有多种衡量图片质量的方法,例如模糊度、曝光度、是否翻拍等。这些对图片中商品的检测和识别有影响,平行平面假设(fronto-parallel viewassumption)是假定拍摄平面平行于被拍摄物体表面。当业务人员站在货架一侧以较斜角度拍摄货架,或者站的较高往下俯拍,这就破坏了平行平面假设,则产生了低质照片。
这往往会通过以下方法部分解决:
1.从采集的数据中抽样,专门的图片质量审核人员进行审核;
2.对图像提取直线片段,使用RANSAC算法估计水平和竖直方向消失点(vanishingpoint),根据水平消失点的位置判断是否是倾斜拍摄的。例如规定消失点位于一倍图宽范围内属于严重侧拍造成的;其次计算消失点与图中心点组成的直线和经过图中心点的水平线或垂直线的夹角,再设置阈值判别。
对于方法一,首先需要抽样,则大部分数据都无法被检查到,而且人工审核的成本支出高昂。
对于方法二,存在的缺陷在于:
(a)处理步骤多,运算比较复杂,整个过程时间比较长,无法满足移动端实时处理的要求;
(b)需要人工设置阈值判定货架拍摄是否违规,无法实现端到端(end-to-end)的过程;
(c)这种方法只能估计货架的翻滚角(roll),以及由于测拍导致消失点距离照片太近从而判定图片质量低。但无法做到三维(pitch俯仰角,yaw偏航角,roll翻滚角)姿态预估。
因此,本领域的技术人员致力于开发一种货架姿态预估方法,能够快速预估拍摄的货架的三维欧拉角。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何快速准确地预估所拍摄的货架的三维欧拉角。
为实现上述目的,本发明提供了一种货架姿态预估方法,包括以下步骤:
步骤1:采集学习数据;
步骤2:采用卷积神经网络训练模型;
步骤3:利用所述模型,推理货架的三维欧拉角。
进一步地,所述步骤1包括:
步骤11:拍摄货架照片;
步骤12:使用旋转矩形标注货架层;
步骤13:标注货架的三维欧拉角。
进一步地,所述模型包括货架层检测分支和姿态预估分支。
进一步地,所述货架层检测分支采用辅助监督学习。
进一步地,所述辅助监督学习的货架层检测损失函数为:
其中,N表示候选框数量;
x,y是矩形左上点的坐标,w,h是矩形的宽和高,θ表示矩形旋转的角度;
t′n取值为0或1,分别表示前景和背景;
v'*j表示预测框的偏移向量,v*j表示真实框的偏移向量;
Lreg表示smooth L1损失;
IoU表示梯度的大小。
进一步地,所述步骤2中所述姿态预估分支损失函数为:
其中,M表示每批次训练中的图片数量;表示特征点的L2距离;
α1,α2,α3分别表示pitch俯仰角,yaw偏航角,roll翻滚角,ω表示各角度分量的权重。
进一步地,所述步骤2中所述货架层检测分支与所述姿态预估分支一起进行正向传播和反向传播学习模型。
进一步地,所述步骤3中使用所述姿态预估分支进行货架的姿态预估推理。
进一步地,所述模型在手机端使用MobileNetV3作为骨干网络,在服务器端使用SEResNet50作为骨干网络。
本发明还提供了一种货架姿态预估系统,包括手机端、服务器端,使用以上的方法,进行货架姿态预估。
本发明可以快速精准实时处理零售货架图片,既可以运行在服务器端处理用户发送来的脱敏数据,也可以内置于sdk在业务人员拍照时实时提醒;
本发明被设计成端到端的方法,无需根据经验设置阈值;
本发明可以预估三维欧拉角(pitch俯仰角,yaw偏航角,roll翻滚角),无人为设置相关经验值干预且更加精准。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的模型示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1所示,货架姿态预估模型包括两个分支,上半部分是姿态预估分支,下左半部分是货架层检测辅助监督学习分支。
训练时,层检测辅助监督学习分支与姿态预估分支一起进行正向传播和反向传播学习模型。
预测时,直接使用姿态预估分支进行货架的姿态预估推理。
本发明包括三个阶段:
一、采集学习数据;
业务人员对数百家门店的数千家零售货架采集了二万多张图片,经过人工审核、机器预标注(标注货架层)和数据标准人员的标注矫正(标注货架三维欧拉角),得到一万八千张学习数据。
在标注货架层时,采用旋转矩形进行标注。此时,候选框数量即为货架层数。
二、模型训练阶段:
通过采集阶段采集并做好标注的图片,进行模型的学习。通过货架层检测分支,检测货架的层数,辅助姿态预估分支,预估货架的三维欧拉角。
a.使用pytorch实现神经网络;
b.数据图片经过截取和缩放到224*224大小,训练的batch size大小为128,优化器使用10*e-6权重衰减(weight decay)和0.9动量(momentum)的Adam优化器;最大训练步数为100K;初始学习率为0.001,80K步数时学习率衰减为0.0001;
c.使用了4块Nvidia GTX 1080Ti GPU做训练。
通过训练,得到可用于货架姿态预估的模型。
三、模型预测阶段:
a.预测阶段不需要货架层检测分支,将货架层检测分支截断;
b.根据使用场景的不同使用不同的骨干网络。
使用量化剪枝模型部署在移动手机端进行实时预测监控,骨干网络使用MoibileNetV3。
使用大容量高精度版本模型在数据中心服务器端对用户发送来的图像进行预测,骨干网络使用SEResNet50。
c.将图片送入以上网络,得到货架姿态预估结果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (2)
1.一种货架姿态预估方法,其特征在于,包括以下步骤:
步骤1:采集学习数据;
步骤2:采用卷积神经网络训练模型;
步骤3:利用所述模型,推理货架的三维欧拉角;
所述步骤1包括:
步骤11:拍摄货架照片;
步骤12:使用旋转矩形标注货架层;
步骤13:标注货架的三维欧拉角;
所述模型包括货架层检测分支和姿态预估分支;
所述货架层检测分支采用辅助监督学习;
所述辅助监督学习的货架层检测损失函数为:
其中,N表示候选框数量;
x,y是矩形左上点的坐标,w,h是矩形的宽和高,θ表示矩形旋转的角度;
t′n取值为0或1,分别表示前景和背景;
v′*j表示预测框的偏移向量,v*j表示真实框的偏移向量;
Lreg表示smooth L1损失;
IoU表示梯度的大小;
所述步骤2中所述姿态预估分支损失函数为:
其中,M表示每批次训练中的图片数量;表示特征点的L2距离;
α1,α2,α3分别表示pitch俯仰角,yaw偏航角,roll翻滚角,ω表示各角度分量的权重;
所述步骤2中所述货架层检测分支与所述姿态预估分支一起进行正向传播和反向传播学习模型;
所述步骤3中使用所述姿态预估分支进行货架的姿态预估推理;
所述模型在手机端使用Mobile Net V3作为骨干网络,在服务器端使用SEResNet50作为骨干网络;
训练时,层检测辅助监督学习分支与姿态预估分支一起进行正向传播和反向传播学习模型;预测时,直接使用姿态预估分支进行货架的姿态预估推理;
模型训练阶段:
通过采集阶段采集并做好标注的图片,进行模型的学习,通过货架层检测分支,检测货架的层数,辅助姿态预估分支,预估货架的三维欧拉角;
a.使用pytorch实现神经网络;
b.数据图片经过截取和缩放到224*224大小,训练的batch size大小为128,优化器使用10*e-6权重衰减和0.9动量的Adam优化器;最大训练步数为100K;初始学习率为0.001,80K步数时学习率衰减为0.0001;
c.使用了4块Nvidia GTX 1080Ti GPU做训练;
通过训练,得到可用于货架姿态预估的模型;
模型预测阶段:
a.预测阶段不需要货架层检测分支,将货架层检测分支截断;
b.根据使用场景的不同使用不同的骨干网络;
使用量化剪枝模型部署在移动手机端进行实时预测监控,骨干网络使用
Moibile Net V3;
使用大容量高精度版本模型在数据中心服务器端对用户发送来的图像进行预测,骨干网络使用SERes Net50;
c.将图片送入以上网络,得到货架姿态预估结果。
2.一种货架姿态预估系统,包括手机端、服务器端,使用如权利要求1所述的方法,进行货架姿态预估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011454484.9A CN112634363B (zh) | 2020-12-10 | 2020-12-10 | 一种货架姿态预估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011454484.9A CN112634363B (zh) | 2020-12-10 | 2020-12-10 | 一种货架姿态预估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634363A CN112634363A (zh) | 2021-04-09 |
CN112634363B true CN112634363B (zh) | 2023-10-03 |
Family
ID=75309805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011454484.9A Active CN112634363B (zh) | 2020-12-10 | 2020-12-10 | 一种货架姿态预估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634363B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274887A (zh) * | 2023-11-22 | 2023-12-22 | 深圳爱莫科技有限公司 | 一种条烟端头检测方法及条烟规格和数量的识别方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729838A (zh) * | 2017-10-12 | 2018-02-23 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的头部姿态估算方法 |
CN109035327A (zh) * | 2018-06-25 | 2018-12-18 | 北京大学 | 基于深度学习的全景相机姿态估计方法 |
CN109359526A (zh) * | 2018-09-11 | 2019-02-19 | 深圳大学 | 一种人脸姿态估计方法、装置和设备 |
CN110322510A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种利用轮廓信息的6d位姿估计方法 |
CN110647865A (zh) * | 2019-09-30 | 2020-01-03 | 腾讯科技(深圳)有限公司 | 人脸姿态的识别方法、装置、设备及存储介质 |
CN110666791A (zh) * | 2019-08-29 | 2020-01-10 | 江苏大学 | 一种基于深度学习的rgbd机器人看护系统及方法 |
CN110795982A (zh) * | 2019-07-04 | 2020-02-14 | 哈尔滨工业大学(深圳) | 一种基于人体姿态分析的表观视线估计方法 |
CN111160269A (zh) * | 2019-12-30 | 2020-05-15 | 广东工业大学 | 一种人脸关键点检测方法及装置 |
CN111222469A (zh) * | 2020-01-09 | 2020-06-02 | 浙江工业大学 | 一种由粗到精的人脸姿态量化估计方法 |
CN111339941A (zh) * | 2020-02-26 | 2020-06-26 | 苏州瓴图智能科技有限公司 | 一种头部姿态检测方法 |
CN111401456A (zh) * | 2020-03-20 | 2020-07-10 | 杭州涂鸦信息技术有限公司 | 人脸姿态识别模型的训练方法及其系统和装置 |
CN111667504A (zh) * | 2020-04-23 | 2020-09-15 | 广州多益网络股份有限公司 | 一种人脸追踪方法、装置及设备 |
CN111932608A (zh) * | 2020-06-19 | 2020-11-13 | 广州图匠数据科技有限公司 | 一种基于消失点检测的单目零售货架姿态估计方法和装置 |
-
2020
- 2020-12-10 CN CN202011454484.9A patent/CN112634363B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729838A (zh) * | 2017-10-12 | 2018-02-23 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的头部姿态估算方法 |
CN109035327A (zh) * | 2018-06-25 | 2018-12-18 | 北京大学 | 基于深度学习的全景相机姿态估计方法 |
CN109359526A (zh) * | 2018-09-11 | 2019-02-19 | 深圳大学 | 一种人脸姿态估计方法、装置和设备 |
CN110322510A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种利用轮廓信息的6d位姿估计方法 |
CN110795982A (zh) * | 2019-07-04 | 2020-02-14 | 哈尔滨工业大学(深圳) | 一种基于人体姿态分析的表观视线估计方法 |
CN110666791A (zh) * | 2019-08-29 | 2020-01-10 | 江苏大学 | 一种基于深度学习的rgbd机器人看护系统及方法 |
CN110647865A (zh) * | 2019-09-30 | 2020-01-03 | 腾讯科技(深圳)有限公司 | 人脸姿态的识别方法、装置、设备及存储介质 |
CN111160269A (zh) * | 2019-12-30 | 2020-05-15 | 广东工业大学 | 一种人脸关键点检测方法及装置 |
CN111222469A (zh) * | 2020-01-09 | 2020-06-02 | 浙江工业大学 | 一种由粗到精的人脸姿态量化估计方法 |
CN111339941A (zh) * | 2020-02-26 | 2020-06-26 | 苏州瓴图智能科技有限公司 | 一种头部姿态检测方法 |
CN111401456A (zh) * | 2020-03-20 | 2020-07-10 | 杭州涂鸦信息技术有限公司 | 人脸姿态识别模型的训练方法及其系统和装置 |
CN111667504A (zh) * | 2020-04-23 | 2020-09-15 | 广州多益网络股份有限公司 | 一种人脸追踪方法、装置及设备 |
CN111932608A (zh) * | 2020-06-19 | 2020-11-13 | 广州图匠数据科技有限公司 | 一种基于消失点检测的单目零售货架姿态估计方法和装置 |
Non-Patent Citations (1)
Title |
---|
SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects;Xue Yang等;《arXiv:1811.07126v4[cs.CV]》;20190810;正文第1-5节 * |
Also Published As
Publication number | Publication date |
---|---|
CN112634363A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109690620B (zh) | 三维模型生成装置以及三维模型生成方法 | |
CN110400363B (zh) | 基于激光点云的地图构建方法和装置 | |
CN105989608B (zh) | 一种面向智能机器人的视觉捕捉方法及装置 | |
EP2915333B1 (en) | Depth map generation from a monoscopic image based on combined depth cues | |
US9367753B2 (en) | Method and system for recognizing information on a card | |
CN113038018B (zh) | 辅助用户拍摄车辆视频的方法及装置 | |
US11748894B2 (en) | Video stabilization method and apparatus and non-transitory computer-readable medium | |
CN108229418B (zh) | 人体关键点检测方法和装置、电子设备、存储介质和程序 | |
CN108337505B (zh) | 信息获取方法和装置 | |
CN108416902A (zh) | 基于差异识别的实时物体识别方法和装置 | |
Chaudhury et al. | Auto-rectification of user photos | |
US9785850B2 (en) | Real time object measurement | |
KR20140045854A (ko) | 단일객체에 대한 기울기를 추정하는 영상을 감시하는 장치 및 방법 | |
CN112396073A (zh) | 基于双目图像的模型训练方法、装置及数据处理设备 | |
CN112184757A (zh) | 运动轨迹的确定方法及装置、存储介质、电子装置 | |
CN111666792B (zh) | 图像识别方法、图像采集和识别方法以及商品识别方法 | |
CN112634363B (zh) | 一种货架姿态预估方法 | |
KR20190076271A (ko) | Cctv 영상을 이용한 도로 혼잡도 분석 방법 및 시스템 | |
WO2021018019A1 (zh) | 图像采集方法、装置、电子设备及计算机存储介质 | |
CN117615255B (zh) | 基于云台的拍摄追踪方法、装置、设备及存储介质 | |
CN113362221A (zh) | 用于门禁的人脸识别系统与人脸识别方法 | |
US20170352170A1 (en) | Nearsighted camera object detection | |
CN112614176A (zh) | 一种带式传送机物料体积测量方法、装置及存储介质 | |
CN111476056B (zh) | 目标物体的识别方法、装置、终端设备及计算机存储介质 | |
CN111563895A (zh) | 一种图片清晰度确定方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |