CN110807808A - 一种基于物理引擎和深度全卷积网络的商品识别方法 - Google Patents
一种基于物理引擎和深度全卷积网络的商品识别方法 Download PDFInfo
- Publication number
- CN110807808A CN110807808A CN201910972064.0A CN201910972064A CN110807808A CN 110807808 A CN110807808 A CN 110807808A CN 201910972064 A CN201910972064 A CN 201910972064A CN 110807808 A CN110807808 A CN 110807808A
- Authority
- CN
- China
- Prior art keywords
- training
- full convolution
- convolution network
- commodity
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000010586 diagram Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013135 deep learning Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 2
- 238000012805 post-processing Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 abstract description 6
- 230000036544 posture Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 3
- 239000002023 wood Substances 0.000 description 3
- 238000013016 damping Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于物理引擎和深度全卷积网络的商品识别方法。将待检测商品放置在载物台上,通过载物台正上方的摄像头对在载物台上的商品进行中心点及类别预测来统计商品的类别及数量,通过物理引擎模拟现实中物体的摆放姿势,通过图形学渲染生成训练集,通过训练深度全卷积网络来对图片中的商品进行中心点及类别预测,从而实现对商品物体的检测。本发明实现了从一张RGB图像中对商品类别和数量进行识别,速度快、成本低并且可以很好地应对新增商品的分类处理。
Description
技术领域
本发明属于计算机视觉领域的一种物体识别方法,具体是涉及一种基于物理引擎渲染生成训练集和基于深度学习全卷积神经网络的商品识别分类及计数方法。
背景技术
亚马逊无人超市的出现,新零售概念的提出,使得自动收银成为了新的热点。亚马逊无人超市主要借助于密集部署的传感器,成本较高,难以大规模投入使用。自动收银可以让人们不再排着长队等待着店员对着商品条形码逐个地扫描,基于计算机视觉的自动收银可以直接得到图片中物体的类别及数量,大大加快结账速度。然而由于现实场景中存在商品种类繁多、数据集标注工作量巨大、商品新增频繁等问题,基于计算机视觉的自动收银仍然是一个具有挑战性的问题。
目前基于计算机视觉的自动收银方法主要使用人工标注的数据集进行训练。将商品摆放在空白背景中,使用多个摄像头拍摄商品图片,通过显著性检测将商品从空白背景中分割出来,通过生成对抗网络合成或者将商品黏贴在空白背景上生成新的训练集。通过多个摄像头拍摄的训练集存在物体姿势不真实、数据集清洗困难等问题。如何降低数据集收集成本,成了基于计算机视觉的自动收银所面临的最大问题。
发明内容
针对基于计算机视觉的自动收银领域数据集难以收集、清洗,数据集不真实,商品增加频繁导致深度全卷积网络训练繁琐等问题,本发明的目的在于提供了一种基于物理引擎和深度全卷积网络的商品图像识别方法,基于物理引擎来生成姿势真实、无需人工标注的训练集,利用ResNet18深度全卷积网络预测物体中心及类别,解决了现有自动收银领域数据集较少、深度全卷积网络速度慢、难以应对不断新增商品的问题。
本发明解决其技术问题所采用的技术方案步骤如下:
1)使用3D扫描仪对零售商店内销售的所有商品进行扫描,获得所有商品的3D模型,使用物理引擎模拟3D模型从高处跌落到平面的场景,使物体的姿势较真实,虚拟相机拍摄跌落到平面上的3D模型得到训练图片,根据3D模型的顶点信息和相机的内外参数获得每个3D模型在训练图片的最小外接矩形生成训练标签,训练图片和训练标签组成了训练集;
2)在训练阶段,建立深度全卷积网络,将训练集先进行数据增强后输入到深度全卷积网络,深度全卷积网络通过前向传播输出训练图片中物体中心位置的热力图,根据标签信息计算损失值,通过梯度下降和反向传播减少损失值,不断迭代训练深度全卷积网络,直到损失值收敛不再下降,完成深度全卷积网络的训练;
3)在测试阶段,将训练好的深度全卷积网络部署在后端的深度学习服务器上,将多个测试商品以随机姿势摆放在载物台上,在载物台正上方安装摄像头,将摄像头正对载物台,使摄像头能够完整捕捉采集到载物台上测试商品的RGB图像;将摄像头捕捉到的RGB图像传输到深度学习服务器,深度全卷积网络接收测试商品的RGB图像作为输入,输出RGB图像中所有商品物体中心点热力图,通过后处理得到各个商品物体的类别及中心点位置;
4)当出现新增商品时,先扫描得到3D模型,然后与之前的3D模型一起使用步骤1)中提到的方法生成新的训练集,使用新的训练集对之前训练好的目标检测深度全卷积网络进行微调训练,重新训练得到新的深度全卷积网络;将旧的深度全卷积网络替换为新的深度全卷积网络并部署到深度学习服务器上。
所述的步骤1)中,使用物理引擎模拟3D模型从高处跌落到平面的场景具体是指:在三维动画制作软件中新建一个平面模拟载物台,将3D模型导入三维动画制作软件,将3D模型的位置随机初始化在平面的上方空间,3D模型姿势也进行随机初始化,使用三维动画制作软件内置的物理引擎模拟3D模型从半空中跌落到平面。
所述的步骤1)中,使用虚拟相机拍摄跌落到平面上的3D模型得到训练图片具体是指:将三维动画制作软件内置的虚拟相机放置在平面的正上方,相机正对平面。随机调整相机的高度,但必须保证平面上所有物体都在相机的视野当中。随机调整相机分辨率的宽高比,来模拟现实场景中不同相机内参造成的不同成像。
所述的步骤1)中,根据3D模型的顶点信息和相机的内外参数获得每个3D模型在训练图片的最小外接矩形生成训练标签,具体是,3D模型的所有顶点集合为矩阵P,虚拟相机的外参矩阵为R,虚拟相机的内参矩阵为K,所有顶点在图像坐标系中的2D坐标为K R P,通过计算所有2D点横、纵坐标的范围得到每个3D模型在训练图片的最小外接矩形信息。
所述步骤2)中,深度全卷积网络训练的标签信息是根据每个最小外接矩形的长宽和中心点位置及其中包含的商品类别所生成,根据标签信息生成热力图,热力图的长、宽与输入图片的大小相同,通道数为训练集中物体类别总数;对于图片中的一个商品物体,根据记录的标签信息计算最小外接矩形的中心点,假设最小外接矩形的中心点为(px,py),使用一个高斯核将最小外接矩形的中心点分布到热力图上,高斯核的定义如下:
其中,σp是与物体最小外接矩形长、宽相关的标准差,(x,y)表示热力图上像素的坐标,Yxy表示热力图上坐标为(x,y)处的值;深度全卷积网络预测的热力图和标签信息生成的热力图之间采用Smooth L1损失作为损失函数,使用Adam优化器,初始学习率为0.001,每训练20个回合学习率衰减为原来的二分之一,直到损失值收敛,完成模型训练。物体中心点(px,py)在热力图上的值为1,离中心点越远,在热力图上的值越小。如果同一个类别的两个高斯分布发生了重叠,直接取两个元素的最大值。如果同一个类别的两个高斯分布发生了重叠,直接取两个元素的最大值。
所述的步骤2)中,建立深度全卷积网络具体是指:使用全卷积结构的ResNet-18作为预测物体中心位置和物体类别的深度全卷积网络。全卷积结构的ResNet-18输出的特征图长、宽与输入图片的长、宽一样大,输出特征图的通道数与物体类别数量一致。
所述的步骤2)中,将渲染的训练集先进行数据增强具体是指对渲染得到的图片采取随机旋转、随机改变饱和度、随机改变亮度这三种数据增强措施,来增加训练集的多样性,避免深度全卷积网络过拟合。
所述的步骤4)中,将新增商品的3D模型之前的3D模型一起生成新的训练集,具体是指从之前扫描的3D模型中随机选出一部分,与新的3D模型一起通过权利要求1中所述的物理引擎渲染得到新的训练集。
所述的步骤4)中使用新的训练集对之前训练好的深度全卷积深度全卷积网络进行微调训练,具体是:加载之前训练好的深度全卷积网络的权重,在最后输出特征图的输出层增加与新增类别数量一致的卷积核数量,随机初始化卷积核权重,用于学习新增类别的特征;对整个深度全卷积网络的权重进行训练,得到最后的深度全卷积网络。
所述步骤3)中,可以在载物台旁边放置一个显示器,显示载物台上的实时画面;根据商品物体的类别查询已有的商品价格数据库得到图像中所有商品对应价格和商品名称,计算整单商品价格,然后将整单商品单价、商品名称以及厂品物体中心点显示在显示器上供顾客查看。
本发明创新点在于:一是仅利用合成的图片进行深度神经深度全卷积网络的训练,并通过数据增强提升了模型对复杂场景的适应性。二是提出了针对自动收银这个特定任务,使用ResNet-18深度全卷积网络物体分类及中心位置预测,而不采用传统的基于边界框的目标检测网络,去掉了不必要的边界框宽高预测,使得深度全卷积网络的参数减少,加快模型训练及测试速度。三是提出了在新增商品时,通过微调训练好的模型来加快新深度全卷积网络的训练。
本发明仅只使用物理引擎渲染生成训练集,同时进行商品分类和数量统计,无需使用人工标注的真实数据集,减少了使用成本,增加了实际投入使用价值,对于实际不断新增商品的情况也有很好的适应性。
本发明具有的有益效果是:
(1)本发明采用物理引擎来生成物体姿势,并渲染生成训练集,无需人工标注,数据集制作成本低,标注精度高,物体姿势真实感强,通过使用数据增强,使得训练出来的模型更具有鲁棒性。
(2)本发明的物体类别预测及中心点预测网络具有实时、轻量化的特点,在GTX1080上速度达到了150FPS,计算量低,部署成本低,实用价值高。
(3)本发明通过对已有模型微调,加快了深度全卷积网络的训练,使得整个框架能够更灵活地应对不断新增的商品。
附图说明
图1为本发明方法的流程图。
图2为本发明方法深度全卷积网络结构图。
图3为本发明渲染生成数据集的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明方法的实施装置包括转盘、贴有Qlone方块格的木板、iPhone手机、Qlone3D扫描软件、罗技摄像头、待测试物体、装有GPU的计算机。
如图1所示,本发明方法的实施例如下:
(1)收集3D模型。将单个物体摆放在Qlone方块格木板中心,将木板摆放在转盘上,启动转盘,使用iPhone手机或安卓手机,打开Qlone 3D扫描软件进行3D扫描。重复上述步骤直到所有3D模型收集完毕。收集到的3D模型如图2(a)所示。我们不采用高精度的3D扫描仪,因为成本过于昂贵,Qlone可以使用移动设备进行3D扫描,精度虽然不高,但是成本低,十分容易使用。在实际实施中,可以使用更高精度的3D扫描仪进行模型扫描。
(2)进行数据集渲染。将收集到的所有3D模型以obj文件格式从手机导入到电脑中,再将所有3D模型导入三维动画制作软件Blender中。在Blender中新建一个白色平面作为载物台,每次随机渲染15到20个3D模型,每个3D模型从所有的3D模型中随机选择,3D模型可以重复。对于一个被选择的3D模型,随机初始化它的位置和姿势,位置必须位于新建平面的上方,如图2(b)所示。设置3D模型的质量为10kg,开启碰撞边界模式,碰撞边距为0,移动阻尼值为1,旋转阻尼值为1,这样设置可以使物体从半空中跌落到平面上之后快速静止下来,减少渲染时间。通过开启模拟动画,使物体从半空中跌落,取动画第50帧作为最终的结果,第50帧时物体已经跌落在平面上保持静止,如图2(c)所示。随机初始化光照位置、亮度和颜色,增加图片的多样性。使用平面正上方的虚拟相机捕捉平面上的物体,得到最终的图像,如图2(d)所示。使用Blender内置的函数获取3D模型的所有顶点信息,将虚拟相机的外参矩阵与所有顶点的坐标位置进行矩阵相乘,得到所有顶点在相机坐标系中的3D坐标。再将虚拟相机的内参矩阵与所有顶点在相机坐标系中的3D坐标进行矩阵相乘,得到所有顶点的在渲染图片上的2D坐标。通过所有顶点的2D坐标,得到物体最小外接矩形的中心位置、长、宽这三个信息作为标签进行保存。将多个单独渲染的物体进行组合,得到最终单张训练集图片,如图2(f)所示。
(3)进行深度全卷积神经深度全卷积网络的训练。原有的ResNet18最后的输出层是全连接层,而全卷积结构的ResNet18去掉了最后的全连接层,使用3次转置卷积对特征图进行上采样,最终输出特征图的长和宽与输入的长和宽保持一致,最终输出特征图的通道数与待识别物体类别的数量一致。全卷积ResNet-18的网络结构如图3(b)所示。
全卷积ResNet-18的输入是渲染好的图片,如图3(a)所示,是以最小外接矩形的长宽和中心点位置及其中包含的商品类别作为标签信息,根据标签信息生成热力图,热力图的长、宽与输入图片的大小相同,通道数为训练集中物体类别总数。对于图片中的一个商品物体,根据记录的标签信息计算最小外接矩形的中心点,假设最小外接矩形的中心点为(px,py),使用一个高斯核将最小外接矩形的中心点分布到热力图上,高斯核的定义如下:
其中,σp是与物体最小外接矩形长、宽相关的标准差,(x,y)表示热力图上像素的坐标,Yxy表示热力图上坐标为(x,y)处的值。物体中心点(px,py)在热力图上的值为1,离中心点越远,在热力图上的值越小。如果同一个类别的两个高斯分布发生了重叠,直接取两个元素的最大值。
深度全卷积网络预测的热力图和标签信息生成的热力图之间采用SmoothL1损失作为损失函数,使用Adam优化器,初始学习率为0.001,每训练20个回合学习率衰减为原来的二分之一,直到损失值收敛,完成模型训练。
(4)模型部署及使用流程如下:将训练好的深度全卷积网络部署在深度学习服务器上,使用Django web框架与前端进行通信。前端使用罗技C270摄像头进行图像捕捉,将待识别的商品摆放在载物台上,使用罗技C270对准载物台拍摄图像,将拍摄到的图像发送到后端,全卷积ResNet-18接收输入图片,输出得到预测的热力图。对于输出的热力图,逐类别提取出热点值比周围8个临近点都大的点,选择置信度最高的100个点,得到最终的输出结果,即预测的物体中心点及物体类别,如图3(c)所示。查询商品数据集得到对应的价格,计算最终的总价格,将总结个、物体中心点、物体类别回传给前端。前端通过显示屏将总价格现实出来展示给顾客。将物体中心点和物体类别进行标记,展示给顾客,以供检查,如图3(d)所示。进而可以通过扫码支付完成结算进行购物。
Claims (9)
1.一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:包括以下步骤:
1)使用3D扫描仪对零售商店内销售的所有商品进行扫描,获得所有商品的3D模型,使用物理引擎模拟3D模型从高处跌落到平面的场景,虚拟相机拍摄跌落到平面上的3D模型得到训练图片,根据3D模型的顶点信息和相机的内外参数获得每个3D模型在训练图片的最小外接矩形生成训练标签,训练图片和训练标签组成了训练集;
2)在训练阶段,建立深度全卷积网络,将训练集先进行数据增强后输入到深度全卷积网络,深度全卷积网络通过前向传播输出训练图片中物体中心位置的热力图,根据标签信息计算损失值,通过梯度下降和反向传播减少损失值,不断迭代训练深度全卷积网络,直到损失值收敛不再下降,完成深度全卷积网络的训练;
3)在测试阶段,将训练好的深度全卷积网络部署在深度学习服务器上,将测试商品以随机姿势摆放在载物台上,在载物台正上方安装摄像头,将摄像头正对载物台,使摄像头能够完整捕捉采集到载物台上测试商品的RGB图像;将摄像头捕捉到的RGB图像传输到深度学习服务器,深度全卷积网络接收测试商品的RGB图像作为输入,输出RGB图像中所有商品物体中心点热力图,通过后处理得到各个商品物体的类别及中心点位置;
4)当出现新增商品时,先扫描得到3D模型,然后与之前的3D模型一起使用步骤1)中提到的方法生成新的训练集,使用新的训练集对之前训练好的目标检测深度全卷积网络进行微调训练,重新训练得到新的深度全卷积网络;将旧的深度全卷积网络替换为新的深度全卷积网络并部署到深度学习服务器上。
2.根据权利要求1所述的一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:所述的步骤1)中,使用物理引擎模拟3D模型从高处跌落到平面的场景具体是指:在三维动画制作软件中新建一个平面模拟载物台,将3D模型导入三维动画制作软件,将3D模型的位置随机初始化在平面的上方空间,3D模型姿势也进行随机初始化,使用三维动画制作软件内置的物理引擎模拟3D模型从半空中跌落到平面。
3.根据权利要求1所述的一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:所述的步骤1)中,使用虚拟相机拍摄跌落到平面上的3D模型得到训练图片具体是指:将三维动画制作软件内置的虚拟相机放置在平面的正上方,相机正对平面。随机调整相机的高度,但必须保证平面上所有物体都在相机的视野当中。随机调整相机分辨率的宽高比,来模拟现实场景中不同相机内参造成的不同成像。
4.根据权利要求1所述的一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:所述的步骤1)中,根据3D模型的顶点信息和相机的内外参数获得每个3D模型在训练图片的最小外接矩形生成训练标签,具体是,3D模型的所有顶点集合为矩阵P,虚拟相机的外参矩阵为R,虚拟相机的内参矩阵为K,所有顶点在图像坐标系中的2D坐标为K R P,通过计算所有2D点横、纵坐标的范围得到每个3D模型在训练图片的最小外接矩形信息。
5.根据权利要求1所述的一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:所述步骤2)中,深度全卷积网络训练的标签信息是根据每个最小外接矩形的长宽和中心点位置及其中包含的商品类别所生成,根据标签信息生成热力图,热力图的长、宽与输入图片的大小相同,通道数为训练集中物体类别总数;对于图片中的一个商品物体,根据记录的标签信息计算最小外接矩形的中心点,假设最小外接矩形的中心点为(px,py),使用一个高斯核将最小外接矩形的中心点分布到热力图上,高斯核的定义如下:
其中,σp是与物体最小外接矩形长、宽相关的标准差,(x,y)表示热力图上像素的坐标,Yxy表示热力图上坐标为(x,y)处的值;深度全卷积网络预测的热力图和标签信息生成的热力图之间采用Smooth L1损失作为损失函数,使用Adam优化器,初始学习率为0.001,每训练20个回合学习率衰减为原来的二分之一,直到损失值收敛,完成模型训练。
6.根据权利要求1所述的一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:所述的步骤2)中,建立深度全卷积网络具体是指:使用全卷积结构的ResNet-18作为预测物体中心位置和物体类别的深度全卷积网络。全卷积结构的ResNet-18输出的特征图长、宽与输入图片的长、宽一样大,输出特征图的通道数与物体类别数量一致。
7.根据权利要求1所述的一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:所述的步骤2)中,将渲染的训练集先进行数据增强具体是指对渲染得到的图片采取随机旋转、随机改变饱和度、随机改变亮度这三种数据增强措施,来增加训练集的多样性,避免深度全卷积网络过拟合。
8.根据权利要求1所述的一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:所述的步骤4)中,将新增商品的3D模型之前的3D模型一起生成新的训练集,具体是指从之前扫描的3D模型中随机选出一部分,与新的3D模型一起通过权利要求1中所述的物理引擎渲染得到新的训练集。
9.根据权利要求1所述的一种基于物理引擎和深度全卷积网络的商品识别方法,其特征在于:所述的步骤4)中使用新的训练集对之前训练好的深度全卷积深度全卷积网络进行微调训练,具体是:加载之前训练好的深度全卷积网络的权重,在最后输出特征图的输出层增加与新增类别数量一致的卷积核数量,随机初始化卷积核权重;对整个深度全卷积网络的权重进行训练,得到最后的深度全卷积网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910972064.0A CN110807808A (zh) | 2019-10-14 | 2019-10-14 | 一种基于物理引擎和深度全卷积网络的商品识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910972064.0A CN110807808A (zh) | 2019-10-14 | 2019-10-14 | 一种基于物理引擎和深度全卷积网络的商品识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807808A true CN110807808A (zh) | 2020-02-18 |
Family
ID=69488377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910972064.0A Pending CN110807808A (zh) | 2019-10-14 | 2019-10-14 | 一种基于物理引擎和深度全卷积网络的商品识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807808A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797896A (zh) * | 2020-06-01 | 2020-10-20 | 锐捷网络股份有限公司 | 基于智慧烘焙的商品识别方法及装置 |
CN111967527A (zh) * | 2020-08-21 | 2020-11-20 | 菏泽学院 | 一种基于人工智能牡丹品种识别方法及识别系统 |
CN112149504A (zh) * | 2020-08-21 | 2020-12-29 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
CN112580443A (zh) * | 2020-12-02 | 2021-03-30 | 燕山大学 | 基于嵌入式设备改进CenterNet的行人检测方法 |
CN112990130A (zh) * | 2021-04-27 | 2021-06-18 | 南京甄视智能科技有限公司 | 训练样本的数据清洗方法、装置及一种分类器 |
CN113362353A (zh) * | 2020-03-04 | 2021-09-07 | 上海分众软件技术有限公司 | 一种利用合成训练图片识别广告机边框的方法 |
CN113506400A (zh) * | 2021-07-05 | 2021-10-15 | 深圳市点购电子商务控股股份有限公司 | 自动售货方法、装置、计算机设备和存储介质 |
CN113870304A (zh) * | 2021-12-07 | 2021-12-31 | 江西中业智能科技有限公司 | 异常行为检测与跟踪方法、装置、可读存储介质及设备 |
CN115713781A (zh) * | 2022-10-09 | 2023-02-24 | 中国环境科学研究院 | 一种基于鱼类监测评价水生态环境质量的方法及系统 |
CN116738081A (zh) * | 2023-08-08 | 2023-09-12 | 贵州优特云科技有限公司 | 一种前端组件绑定方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194105A (zh) * | 2010-03-19 | 2011-09-21 | 微软公司 | 用于人体跟踪的代表训练数据 |
US20170238055A1 (en) * | 2014-02-28 | 2017-08-17 | Second Spectrum, Inc. | Methods and systems of spatiotemporal pattern recognition for video content development |
CN108345912A (zh) * | 2018-04-25 | 2018-07-31 | 电子科技大学中山学院 | 一种基于rgbd信息与深度学习的商品快速结算系统 |
-
2019
- 2019-10-14 CN CN201910972064.0A patent/CN110807808A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194105A (zh) * | 2010-03-19 | 2011-09-21 | 微软公司 | 用于人体跟踪的代表训练数据 |
US20170238055A1 (en) * | 2014-02-28 | 2017-08-17 | Second Spectrum, Inc. | Methods and systems of spatiotemporal pattern recognition for video content development |
CN108345912A (zh) * | 2018-04-25 | 2018-07-31 | 电子科技大学中山学院 | 一种基于rgbd信息与深度学习的商品快速结算系统 |
Non-Patent Citations (4)
Title |
---|
DAULET BAIMUKASHEV等: "Deep Learning Based Object Recognition Using Physically-Realistic Synthetic Depth Scenes" * |
JONTI TALUKDAR等: "Transfer Learning for Object Detection using State-of- the-Art Deep Neural Networks" * |
XINGYI ZHOU等: "Objects as Points" * |
闫芬婷等: "基于视频的实时多人姿态估计方法研究" * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362353A (zh) * | 2020-03-04 | 2021-09-07 | 上海分众软件技术有限公司 | 一种利用合成训练图片识别广告机边框的方法 |
CN111797896A (zh) * | 2020-06-01 | 2020-10-20 | 锐捷网络股份有限公司 | 基于智慧烘焙的商品识别方法及装置 |
CN111967527A (zh) * | 2020-08-21 | 2020-11-20 | 菏泽学院 | 一种基于人工智能牡丹品种识别方法及识别系统 |
CN112149504A (zh) * | 2020-08-21 | 2020-12-29 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
CN112149504B (zh) * | 2020-08-21 | 2024-03-26 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
CN111967527B (zh) * | 2020-08-21 | 2022-09-06 | 菏泽学院 | 一种基于人工智能牡丹品种识别方法及识别系统 |
CN112580443A (zh) * | 2020-12-02 | 2021-03-30 | 燕山大学 | 基于嵌入式设备改进CenterNet的行人检测方法 |
CN112580443B (zh) * | 2020-12-02 | 2022-03-15 | 燕山大学 | 基于嵌入式设备改进CenterNet的行人检测方法 |
CN112990130B (zh) * | 2021-04-27 | 2021-07-23 | 南京甄视智能科技有限公司 | 训练样本的数据清洗方法、装置及一种分类器 |
CN112990130A (zh) * | 2021-04-27 | 2021-06-18 | 南京甄视智能科技有限公司 | 训练样本的数据清洗方法、装置及一种分类器 |
CN113506400A (zh) * | 2021-07-05 | 2021-10-15 | 深圳市点购电子商务控股股份有限公司 | 自动售货方法、装置、计算机设备和存储介质 |
CN113870304A (zh) * | 2021-12-07 | 2021-12-31 | 江西中业智能科技有限公司 | 异常行为检测与跟踪方法、装置、可读存储介质及设备 |
CN115713781A (zh) * | 2022-10-09 | 2023-02-24 | 中国环境科学研究院 | 一种基于鱼类监测评价水生态环境质量的方法及系统 |
CN116738081A (zh) * | 2023-08-08 | 2023-09-12 | 贵州优特云科技有限公司 | 一种前端组件绑定方法、装置及存储介质 |
CN116738081B (zh) * | 2023-08-08 | 2023-10-27 | 贵州优特云科技有限公司 | 一种前端组件绑定方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807808A (zh) | 一种基于物理引擎和深度全卷积网络的商品识别方法 | |
Hodaň et al. | Photorealistic image synthesis for object instance detection | |
JP4032776B2 (ja) | 複合現実感表示装置及び方法、記憶媒体、並びにコンピュータ・プログラム | |
CN110648274B (zh) | 鱼眼图像的生成方法及装置 | |
CN102227753B (zh) | 用于评估稳健性的系统和方法 | |
KR20200070287A (ko) | 객체 인식 방법 | |
US20170228880A1 (en) | System and method for object extraction | |
US20160342861A1 (en) | Method for Training Classifiers to Detect Objects Represented in Images of Target Environments | |
Paulin et al. | Review and analysis of synthetic dataset generation methods and techniques for application in computer vision | |
CN106355153A (zh) | 一种基于增强现实的虚拟对象显示方法、装置以及系统 | |
CN108416902A (zh) | 基于差异识别的实时物体识别方法和装置 | |
CN105869216A (zh) | 目标对象展示方法和装置 | |
CN101681438A (zh) | 跟踪三维对象的系统和方法 | |
US11182945B2 (en) | Automatically generating an animatable object from various types of user input | |
CN109711472B (zh) | 训练数据生成方法和装置 | |
CN108596137A (zh) | 一种基于图像识别算法的商品扫描录入方法 | |
CN109446929A (zh) | 一种基于增强现实技术的简笔画识别系统 | |
JP3947132B2 (ja) | 画像合成表示方法、画像合成表示プログラム、並びにこの画像合成表示プログラムを記録した記録媒体 | |
CN109934129A (zh) | 一种人脸特征点定位方法、装置、计算机设备及存储介质 | |
CN111340882A (zh) | 基于图像的室内定位方法及装置 | |
US11645800B2 (en) | Advanced systems and methods for automatically generating an animatable object from various types of user input | |
TWI672639B (zh) | 使用模擬物件影像之物件辨識系統及其方法 | |
US20200380770A1 (en) | All-around spherical light field rendering method | |
CN112508784A (zh) | 一种基于图像拼接的平面物体轮廓模型的全景图方法 | |
CN112258267A (zh) | 一种用于ai商品识别训练的数据采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200218 |