CN109977899B - 一种物品识别的训练、推理以及增加新种类的方法和系统 - Google Patents

一种物品识别的训练、推理以及增加新种类的方法和系统 Download PDF

Info

Publication number
CN109977899B
CN109977899B CN201910266487.0A CN201910266487A CN109977899B CN 109977899 B CN109977899 B CN 109977899B CN 201910266487 A CN201910266487 A CN 201910266487A CN 109977899 B CN109977899 B CN 109977899B
Authority
CN
China
Prior art keywords
data
model
target object
training
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910266487.0A
Other languages
English (en)
Other versions
CN109977899A (zh
Inventor
侯晓峰
张弛
朱磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Gantu Network Technology Co Ltd
Original Assignee
Shanghai Gantu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Gantu Network Technology Co Ltd filed Critical Shanghai Gantu Network Technology Co Ltd
Priority to CN201910266487.0A priority Critical patent/CN109977899B/zh
Publication of CN109977899A publication Critical patent/CN109977899A/zh
Application granted granted Critical
Publication of CN109977899B publication Critical patent/CN109977899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种物品识别的训练、推理以及增加新种类的方法,包括模型训练,训练出物品识别所需的上层模型和下层模型,并生成特征库;模型推理,推理出目标对象的粗分类别、细分类别和二维空间位置;增加新种类,快速在现有模型中增加可识别的细分种类。本发明下层模型将特征较为相似的若干种细分种类再针对性的提取各自特有的特征进行分类,从而识别更为精准,粒度更细,增加一个细分种类时,只需采集较少图片,对每张图片进行固定特征提取,无需改动之前已存在的类别,所以时间较短所需图片较少,运用上下文模型,先定位粗分类别,再细分类别,这样可容纳的种类数量更多。

Description

一种物品识别的训练、推理以及增加新种类的方法和系统
技术领域
本发明涉及图像识别领域,具体是一种物品识别的训练、推理以及增加新种类的方法和系统。
背景技术
目前使用的物体识别方法有目标检测技术、人脸识别技术。
主流的目标检测技术,例如yolo,faster_rcnn,目前主流目标检测技术可以相对精确的确定物体的位置和种类。目标检测技术存在的问题:a.需求数据量大。识别一个种类需要海量的数据,通常想要达到95%以上的识别正确率需要5000+张图片。b.种类间特征相近时(如颜色,纹理等)误识别风险高且种类总数有限。一个识别模型能识别的种类数有限,当超过一定数量的种类后或者其中有些种类间特征较为近似,会大大增加类别间误识别的风险。c.在现有模型中新增一个新种类所需要的时间相对而言较长,通常是按天来计算的。
而人脸识别技术可以在极短的时间内和使用较少图片来增加一个新类别,但应用场景狭隘,只能用于人脸识别。
发明内容
为解决上述现有技术的缺陷,本发明提供物品种类识别方法及在现有模型中增加新种类的方法,本发明下层模型将特征较为相似的若干种细分种类再针对性的提取各自特有的特征进行分类,从而识别更为精准,粒度更细,增加一个细分种类时,只需采集较少图片,对每张图片进行固定特征提取,无需改动之前已存在的类别,所以时间较短所需图片较少,运用上下文模型,先定位粗分类别,再细分类别,这样可容纳的种类数量更多。
为实现上述技术目的,本发明采用如下技术方案:一种物品识别的训练、推理以及增加新种类的方法,包括
模型训练,训练出物品识别所需的上层模型和下层模型,并生成特征库;
模型推理,推理出目标对象的粗分类别、细分类别和二维空间位置;
增加新种类,快速在现有模型中增加可识别的细分种类。
优选的,所述模型训练包括以下步骤,
A1将所有待训练类别分为多个粗分类别以及细分类别;
A2分别采集各粗分类别的图片数据,作为上层模型训练数据;
A3对所述上层模型训练数据进行数据增强;
A4标定所述目标对象对应的粗分类别;
A5将所述上层模型训练数据训练出目标检测模型,并作为上层模型;
A6分别采集各细分类别的图片数据,作为下层模型训练数据;
A7对所述下层模型训练数据进行数据增强;
A8裁剪所述下层模型训练数据;
A9将所述下层模型训练数据训练出特征提取网络,并作为下层模型;
A10提取所述目标对象的结构化特征,形成特征库。
优选的,所述步骤A1中,把所有需要识别的所述目标对象的类别作为细分类别,然后将各特征相近的细分类别合并为同一个粗分类别;
所述步骤A2中,采集各粗分类别的图片数据时,在光线、角度、远近、纹理等维度的组合变换下采集多张照片,作为上层模型训练数据;
所述步骤A3中,按照明暗度、颜色、锐利度,利用图像处理方式对所述上层模型数据进行数据增强,并将数据增强得到的数据加入到所述上层模型训练数据中;
所述步骤A4中,标定所述上层模型训练数据中目标对象的位置及其粗分类别;
所述步骤A5中,利用目标检测算法训练所述上层模型训练数据,训练得到的目标检测模型作为上层模型;
所述步骤A6中,采集所述目标对象的图片数据时,将物品旋转360°,每隔5°在平视和俯视两个视角各采集一张图片,作为下层模型训练数据;
所述步骤A7中,按照明暗度、颜色、锐利度,利用图像处理方式对所述下层模型训练数据进行数据增强,并将数据增强得到的数据加入到所述下层模型训练数据中;
所述步骤A8中,裁剪所述下层模型训练数据,按照图片中所述目标对象的边界矩形裁剪,去除无效数据;
所述步骤A9中,利用神经网络训练所述下层模型训练数据,并将训练得到的特征提取网络作为下层模型;
所述步骤A10中,利用颜色特征提取算法提取所述目标对象的颜色分布比例特征;
利用OCR技术提取所述目标对象的文字信息特征;
利用下层模型提取所述目标对象的卷积特征;
结构化所述目标对象细分类别的卷积特征、颜色分布比例特征和文字信息特征,形成特征库。
优选的,所述模型推理包括
B1利用上层模型推理出待识别图片中所述目标对象的空间位置及粗分类别;
B2利用下层模型提取出待识别图片中所述目标对象的卷积特征,利用颜色特征提取算法提取所述目标对象的颜色分布比例特征,利用OCR技术提取所述目标对象的文字信息特征;
B3结构化B2中所得的特征信息并与上层模型推理得到的粗分类别对应的特征库进行特征比对,得到所述目标对象的细分类别。
优选的,所述增加新种类包括以下步骤,
C1采集待新增细分类别的图片数据,作为新类别训练数据;
C2对C1中采集的数据进行数据增强,并将数据增强得到的数据加入到所述新类别训练数据中;
C3裁剪所述新类别训练数据;
C4提取所述待新增细分类别的结构化特征,加入特征库。
优选的,所述步骤C1中,采集待新增细分类别的图片数据时,将具有代表性的待新增物品旋转360°,每隔5°在平视和俯视两个视角各采集一张图片,作为新类别训练数据;
所述步骤C2中,按照明暗度、颜色、锐利度,利用图像处理方式对所述新类别训练数据进行数据增强,并将数据增强得到的数据加入到新类别训练数据中;
所述步骤C3中,裁剪所述新类别训练数据,按照图片中待新增物品的边界矩形裁剪,去除无效数据;
所述步骤C4中,利用下层模型提取所述待新增物品的卷积特征,利用颜色特征提取算法提取所述待新增物品的颜色分布比例特征,利用OCR技术提取所述待新增物品的文字信息特征,结构化所述待新增物品的卷积特征、颜色分布比例特征、文字信息特征,并加入特征库。
优选的,一种物品识别的训练、推理以及增加新种类的系统,包括
训练模块,用于训练上层模型和下层模型;
特征提取模块,用于针对性的提取各细分种类的独有特征,形成特征库;
推理模块,用于利用上层模型、下层模型以及特征库推理出图片中所述目标对象的二维空间位置和细分类别;
类别管理模块,用于快速增加新的细分类别和删除现有类别;
通信模块,用于各模块间相互通信。
优选的,所述训练模块包括
上层数据采集子模块,用于采集所述目标对象的各个维度的数据,作为上层模型训练数据;
上层数据增强子模块,用于对所述上层模型训练数据进行数据增强;
上层模型数据标定子模块,用于标定所述上层模型训练数据,在图片中标定出所述目标对象的二维空间位置和所属的粗分类别;
上层模型训练子模块,利用目标检测算法将所述上层模型训练数据训练出目标检测模型,作为上层模型;
下层数据采集子模块,用于采集所述目标对象的360°全方位的图片数据,作为下层模型训练数据;
下层数据增强子模块,用于对所述下层模型训练数据进行数据增强;
下层模型裁剪子模块,裁剪所述下层模型训练数据;
下层模型训练子模块,选取一个特征提取网络,训练出相应的下层模型;
所述特征提取模块包括
卷积特征提取子模块,利用下层模型提取细分种类的卷积特征,加入特征库;
颜色分布特征提取子模块,利用颜色特征提取算法提取细分种类颜色分布比例特征,加入特征库;
文字特征提取子模块,利用OCR技术提取细分种类的文字信息特征,加入特征库;
所述推理模块包括
上层推理模块,用于根据所述上层模型推理出所述目标对象的二维空间位置和粗分类别;
下层推理模块,提取所述目标对象的结构化特征并与特征库内特征作对比,推理出所述目标对象的细分类别;
所述类别管理模块包括
快速增加细分类别子模块,用于在现有上下文模型中快速添加一个新的细分类别;
删除类别模块,用于删除现有模型中可识别的类别。
综上所述,本发明取得了以下技术效果:
1、下层模型将特征较为相似的若干种细分种类再针对性的提取各自特有的特征进行分类,从而识别更为精准。
2、增加一个细分种类时,只需采集较少图片,对每张图片进行固定特征提取,无需改动之前已存在的类别,所以时间较短所需图片较少。
3、运用上下文模型,先定位粗分类别,再细分类别,这样可容纳的种类数量更多。
附图说明
图1是上层模型训练方法流程图;
图2是下层模型训练方法流程图;
图3是特征库生成流程图;
图4是推理流程图;
图5是快速增加细分种类流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
实施例:
本发明还包括一个硬件摄像头,用于数据采集。
一种物品识别的训练、推理以及增加新种类的方法,包括
模型训练,训练出物品识别所需的上层模型和下层模型,并生成特征库;
模型推理,推理出目标对象的粗分类别、细分类别和二维空间位置;
增加新种类,快速在现有模型中增加可识别的细分种类。
如图1、图2所示,所述模型训练包括以下步骤,
A1将所有待训练类别分为多个粗分类别以及细分类别;
A2分别采集各粗分类别的图片数据,作为上层模型训练数据;
A3对所述上层模型训练数据进行数据增强;
A4标定所述目标对象对应的粗分类别;
A5将所述上层模型训练数据训练出目标检测模型,并作为上层模型;
A6分别采集各细分类别的图片数据,作为下层模型训练数据;
A7对所述下层模型训练数据进行数据增强;
A8裁剪所述下层模型训练数据;
A9将所述下层模型训练数据训练出特征提取网络,并作为下层模型;
A10提取所述目标对象的结构化特征,形成特征库。
所述步骤A1中,把所有需要识别的所述目标对象的类别作为细分类别,然后将各特征相近的细分类别合并为同一个粗分类别;应该理解的是,细分类别包含于粗分类别。
所述步骤A2中,采集各粗分类别的图片数据时,在光线、角度、远近、纹理等维度的组合变换下采集多张照片,作为上层模型训练数据;
所述步骤A3中,按照明暗度、颜色、锐利度,利用图像处理方式对所述上层模型数据进行数据增强,并将数据增强得到的数据加入到所述上层模型训练数据中;可以利用Opencv库,PIL库编写图像处理函数,例如利用Opencv库函数高斯模糊给图像增加噪音,或者实现Retinex算法进行图像增强等,也可以通过其他适于实施的方式进行数据增强。
所述步骤A4中,标定所述上层模型训练数据中目标对象的位置及其粗分类别;
所述步骤A5中,利用目标检测算法训练所述上层模型训练数据,训练得到的目标检测模型作为上层模型。目标检测算法包括但不限于faster_rcnn算法,本实施例使用faster_rcnn算法作为目标检测算法,例如,faster_rcnn算法首先将图片分成约2000个很小的矩形区域作为待选区域,然后利用卷积神经网络提取整张图片的特征图谱,将2000个待选区域进行分类,最后将这2000个小区域中属于同一个物体的小区域进行合并,最终得到这张图片中目标区域的位置和类别。同样在本实施例中将要检测的图片利用faster_rcnn算法进行检测,检测出目标货物的粗分类别和位置。
所述步骤A6中,采集所述目标对象的图片数据时,将物品旋转360°,每隔5°在平视和俯视两个视角各采集一张图片,作为下层模型训练数据。
所述步骤A7中,按照明暗度、颜色、锐利度,利用图像处理方式对所述下层模型训练数据进行数据增强,并将数据增强得到的数据加入到所述下层模型训练数据中;
所述步骤A8中,裁剪所述下层模型训练数据,按照图片中所述目标对象的边界矩形裁剪,去除无效数据;
所述步骤A9中,利用神经网络训练所述下层模型训练数据,并将训练得到的特征提取网络作为下层模型。神经网络包括但不限于CNN(卷积神经网络)、VGGNet,RestNet(深度残差网络)。本实施例使用VGG16网络进行特征提取,VGG16共16层,分别有最大池化层,卷积层,全连接层,利用VGG16里面的各层网络对图片像素点进行运算,从而能得到图片的共性特征,避免过拟合。
如图3所示,所述步骤A10中,利用下层模型提取所述目标对象的卷积特征;利用颜色特征提取算法提取所述目标对象的颜色分布比例特征;利用OCR(光学字符识别)技术提取所述目标对象的文字信息特征;结构化所述目标对象细分类别的卷积特征、颜色分布比例特征和文字信息特征,形成特征库。
本实施例中利用步骤A9中训练好的VGG16网络模型中的参数对图片各像素进行运算,从而得到卷积特征。
OCR是光学字符识别的简称,本实施例使用预训练的faster_rcnn文字识别模型,识别货物上的文本区域和文字,从而得到文字信息特征。
其中,颜色特征提取公式为:
Figure BDA0002017010300000071
Figure BDA0002017010300000072
v=max ③
由公式①②③将图片颜色由RGB转换到HSV空间中,并进行归一化操作:
其中,max表示某像素点颜色RGB值中的最大值,min表示某像素点颜色RGB值中的最小值,g表示某像素点颜色中G的值,r表示某像素点颜色中R的值,b表示某像素点颜色中B的值。h,s,v则对应表示此像素点转换到HSV空间并归一化后的HSV的值。
将训练数据中的主体颜色变换到HSV空间,提取颜色分布比例特征。
如图4所示,所述模型推理包括
B1利用上层模型推理出待识别图片中所述目标对象的空间位置及粗分类别;
B2利用下层模型提取出待识别图片中所述目标对象的卷积特征,利用颜色特征提取算法提取所述目标对象的颜色分布比例特征,利用OCR技术提取所述目标对象的文字信息特征;
B3结构化B2中所得的特征信息并与上层模型推理得到的粗分类别对应的特征库进行特征比对,得到所述目标对象的细分类别。比对方法包括但不限于KNN(K最近邻),KNN是通过计算训练样本中特征与待分类数据的差值距离,从而选取与待分类数据中特征最为相近的样本,通过这些样本的类别算出各个类别的概率,从而待分类数据的类别就是样本概率最高的那个类别。本实施例中利用目标对象的特征与特征库里面各个样本的特征进行KNN比较,算出目标对象所属的类别。
如图5所示,所述增加新种类包括以下步骤,
C1采集待新增细分类别的图片数据,作为新类别训练数据;
C2对C1中采集的数据进行数据增强,并将数据增强得到的数据加入到所述新类别训练数据中;
C3裁剪所述新类别训练数据;
C4提取所述待新增细分类别的结构化特征,加入特征库。
所述步骤C1中,采集待新增细分类别的图片数据时,将具有代表性的待新增物品旋转360°,每隔5°在平视和俯视两个视角各采集一张图片,作为新类别训练数据;
所述步骤C2中,按照明暗度、颜色、锐利度,利用图像处理方式对所述新类别训练数据进行数据增强,并将数据增强得到的数据加入到新类别训练数据中;
所述步骤C3中,裁剪所述新类别训练数据,按照图片中待新增物品的边界矩形裁剪,去除无效数据;
所述步骤C4中,利用下层模型提取所述待新增物品的卷积特征,利用颜色特征提取算法提取所述待新增物品的颜色分布比例特征,利用OCR技术提取所述待新增物品的文字信息特征,结构化所述待新增物品的卷积特征、颜色分布比例特征、文字信息特征,并加入特征库。
一种物品识别的训练、推理以及增加新种类的系统,包括
训练模块,用于训练上层模型和下层模型;
特征提取模块,用于针对性的提取各细分种类的独有特征,形成特征库;
推理模块,用于利用上层模型、下层模型以及特征库推理出图片中所述目标对象的二维空间位置和细分类别;
类别管理模块,用于快速增加新的细分类别和删除现有类别;
通信模块,用于各模块间相互通信、数据传输。
所述训练模块包括
上层数据采集子模块,用于采集所述目标对象的各个维度的数据,作为上层模型训练数据;上层数据采集子模块包括但不限于相机。
上层数据增强子模块,用于对所述上层模型训练数据进行数据增强;
上层模型数据标定子模块,用于标定所述上层模型训练数据,在图片中标定出所述目标对象的二维空间位置和所属的粗分类别;
上层模型训练子模块,利用目标检测算法将所述上层模型训练数据训练出目标检测模型,作为上层模型;
下层数据采集子模块,用于采集所述目标对象的360°全方位的图片数据,作为下层模型训练数据;下层数据采集子模块包括但不限于相机。
下层数据增强子模块,用于对所述下层模型训练数据进行数据增强;
下层模型裁剪子模块,裁剪所述下层模型训练数据;
下层模型训练子模块,选取一个特征提取网络,训练出相应的下层模型;
所述特征提取模块包括
卷积特征提取子模块,利用下层模型提取细分种类的卷积特征,加入特征库;
颜色分布特征提取子模块,利用颜色特征提取算法提取细分种类颜色分布比例特征,加入特征库;
文字特征提取子模块,利用OCR技术提取细分种类的文字信息特征,加入特征库;
所述推理模块包括
上层推理模块,用于根据所述上层模型推理出所述目标对象的二维空间位置和粗分类别;
下层推理模块,提取所述目标对象的结构化特征并与特征库内特征作对比,推理出所述目标对象的细分类别;
所述类别管理模块包括
快速增加细分类别子模块,用于在现有上下文模型中快速添加一个新的细分类别;
删除类别模块,用于删除现有模型中可识别的类别。
通信模块用于各模块间相互通信以及接收用户输入。
下面以零售业货物种类识别为例进行说明,应当注意的是,本发明包括但不限于本示例。
现在要对一批零售的货物进行种类识别,比如,零售货物包括瓶装雪碧、瓶装百事可乐、瓶装可口可乐、罐装雪碧、罐装百事可乐、罐装可口可乐等。
根据步骤A1,将待识别货物划分为瓶装雪碧、瓶装百事可乐、瓶装可口可乐、罐装雪碧、罐装百事可乐、罐装可口可乐等细分类别,然后根据形态学等将相似度较高的细分类别都归类为同一个粗分类别,所以粗分类别就是罐装、瓶装、盒装、袋装等,本示例中粗分类别指瓶装和罐装。
根据步骤A2,选取部分能代表各粗分类别的货物放在货架上采集上层模型训练数据。其中在采集原始数据时要进行各个维度的变换,来保证模型的泛化能力,提升识别准确率。上层模型数据采集如下:
1.变换货物在货架上的空间位置来丰富货物在摄像头中视角的变化。
2.旋转货物来获得货物各个角度的纹理。
3.改变货架周边的光线,来丰富不同光线下的训练素材。
4.不断改变摄像头焦距或者货架离摄像头的远近距离来获得货物的不同尺寸数据。
根据步骤A3,将采集到的上层模型训练数据进行数据增强,可增强的方面有:
1.颜色、对比度、明暗度;
2.锐化;
3.增加噪声、模糊。
根据步骤A4,在上层数据标定子模块中,在每张图片数据上框定出想要识别的货物的边界矩形并且标记上对应的粗分类别,形成faster_rcnn训练所需要的标定文件。
根据步骤A5,将上层模型训练数据和标定文件进行faster_rcnn算法进行训练。实现faster_rcnn算法可以基于深度学习框架caffe、tensorflow等。
根据步骤A6,近距离的采集每个种类的图片数据,第一次要求采集的时候将摄像头视角与待采集的货物齐平,然后旋转货物,要求每旋转5°,采集一张图片。第二次要求采集的时候摄像头向下俯视30°看到货物,然后旋转货物,要求每旋转5°,采集一张图片。此步骤采集到的数据就是下层模型训练数据。
根据步骤A7,将采集到的下层模型训练数据进行数据增强,可增强的方面有:
1.颜色、对比度、明暗度;
2.锐化;
3.增加噪声、模糊。
根据步骤A8,将采集到的细分种类的图片数据中只保留货物边界矩形区域,其余部分裁剪掉。
根据步骤A9,基于caffe或者tensorflow实现一个VGGNet的特征提取网络,并利用下层模型训练数据训练这个VGGNet。
利用特征库提取模块形成特征库:
根据步骤A10,利用下层模型提取下层模型训练数据中各个细分类别的卷积特征。
利用颜色特征提取算法提取下层模型训练数据中的颜色分布比例特征。
利用east+ctc等OCR技术提取下层模型训练数据中的文字信息特征。
综合这三个特征形成每个细分类别的特征库。
根据步骤B1,利用上层模型推理出待识别图片中货物的空间位置及粗分类别。
根据步骤B2,利用下层模型提取待识别货物的卷积特征,利用颜色特征提取算法提取待识别货物的颜色分布比例特征,利用OCR技术提取待识别货物的文字信息特征。
根据步骤B3,将待识别货物的特征与特征库中的特征利用KNN算法进行比对,得出货物的细分类别。
下面阐述如何快速增加细分种类:
根据步骤C1,近距离采集新种类的图片数据,第一次要求采集的时候将摄像头视角与待采集的货物齐平,然后旋转货物,要求每旋转5°,采集一张图片。第二次要求采集的时候摄像头向下俯视30°看到货物,然后旋转货物,要求每旋转5°,采集一张图片。
根据步骤C2,将采集到的新类别的代表数据进行数据增强,可增强的方面有:
1.颜色、对比度、明暗度;
2.锐化;
3.增加噪声、模糊。
根据步骤C3,将采集到新的细分种类的图片数据中只保留货物边界矩形区域,其余部分裁剪掉。
根据步骤C4,利用下层模型提取新细分类别的卷积特征。
利用步骤A10中提到的颜色特征提取算法提取新类别数据中的颜色分布比例特征。
利用OCR技术提取新类别数据中的文字信息特征。
综合卷积特征、颜色分布比例特征、文字信息特征,形成新细分类别的特征库。
本发明将特征相近的物品归类为同一粗分类别,再在下层模型中用更加多更细致的特征来区分这些近似物品,相较于现主流目标检测技术的误识别率,大大减少。本发明利用上下文模型的方式,可以扩展更多的类别。本发明增加一种新的细分类别物品,只需10分钟左右的时间和若干张图片(20张左右)就可以达到较高识别准确率。此方法可以应用于各行各业,比人脸识别算法更具扩展性。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (6)

1.一种物品识别的训练、推理以及增加新种类的方法,其特征在于:包括
模型训练,训练出物品识别所需的上层模型和下层模型,并生成特征库,所述上层模型为基于多个粗分类别的物品和对应的二维空间位置和粗分类别训练得到,所述下层模型为基于多个细分类别的物品训练得到的特征提取网络;
模型推理,推理出目标对象的粗分类别、细分类别和二维空间位置,所述目标对象包括货架上的零售货物,所述上层模型用于基于所述目标对象的图片推理出所述目标对象的二维空间位置和粗分类别,所述下层模型用于从所述目标对象的图片中提取所述目标对象的卷积特征、所述目标对象的颜色分布比例特征以及所述目标对象的文字信息特征,以使得所述模型推理基于所述目标对象的粗分类别对应的特征库、所述目标对象的卷积特征、所述目标对象的颜色分布比例特征以及所述目标对象的文字信息特征,确定所述目标对象的细分类别;
增加新种类,快速在现有模型中增加可识别的细分种类;
所述模型训练包括以下步骤,
A1 将所有待训练类别分为多个粗分类别以及细分类别;
A2 分别采集各粗分类别的图片数据,作为上层模型训练数据;
A3 对所述上层模型训练数据进行数据增强;
A4 标定所述目标对象对应的粗分类别;
A5将所述上层模型训练数据训练出目标检测模型,并作为上层模型;
A6 分别采集各细分类别的图片数据,作为下层模型训练数据;
A7 对所述下层模型训练数据进行数据增强;
A8 裁剪所述下层模型训练数据;
A9 将所述下层模型训练数据训练出特征提取网络,并作为下层模型;
A10 提取所述目标对象的结构化特征,形成特征库;
所述步骤A1中,把所有需要识别的所述目标对象的类别作为细分类别,然后将各特征相近的细分类别合并为同一个粗分类别;
所述步骤A2中,采集各粗分类别的图片数据时,在光线、角度、远近、纹理维度的组合变换下采集多张照片,作为上层模型训练数据;
所述步骤A3中,按照明暗度、颜色、锐利度,利用图像处理方式对所述上层模型训练数据进行数据增强,并将数据增强得到的数据加入到所述上层模型训练数据中;
所述步骤A4中,标定所述上层模型训练数据中目标对象的位置及其粗分类别;所述步骤A5中,利用目标检测算法训练所述上层模型训练数据,训练得到的目标检测模型作为上层模型;
所述步骤A6中,采集所述目标对象的图片数据时,将物品旋转360°,每隔5°在平视和俯视两个视角各采集一张图片,作为下层模型训练数据;
所述步骤A7中,按照明暗度、颜色、锐利度,利用图像处理方式对所述下层模型训练数据进行数据增强,并将数据增强得到的数据加入到所述下层模型训练数据中;
所述步骤A8中,裁剪所述下层模型训练数据,按照图片中所述目标对象的边界矩形裁剪,去除无效数据;
所述步骤A9中,利用神经网络训练所述下层模型训练数据,并将训练得到的特征提取网络作为下层模型;
所述步骤A10中,利用颜色特征提取算法提取所述目标对象的颜色分布比例特征;
利用OCR技术提取所述目标对象的文字信息特征;
利用下层模型提取所述目标对象的卷积特征;
结构化所述目标对象细分类别的卷积特征、颜色分布比例特征和文字信息特征,形成特征库。
2.根据权利要求1所述的一种物品识别的训练、推理以及增加新种类的方法,其特征在于:所述模型推理包括
B1 利用上层模型推理出待识别图片中所述目标对象的空间位置及粗分类别;
B2 利用下层模型提取出待识别图片中所述目标对象的卷积特征,利用颜色特征提取算法提取所述目标对象的颜色分布比例特征,利用OCR技术提取所述目标对象的文字信息特征;
B3 结构化B2中所得的特征信息并与上层模型推理得到的粗分类别对应的特征库进行特征比对,得到所述目标对象的细分类别。
3.根据权利要求1所述的一种物品识别的训练、推理以及增加新种类的方法,其特征在于:所述增加新种类包括以下步骤,
C1 采集待新增细分类别的图片数据,作为新类别训练数据;
C2 对C1中采集的数据进行数据增强,并将数据增强得到的数据加入到所述新类别训练数据中;
C3 裁剪所述新类别训练数据;
C4 提取所述待新增细分类别的结构化特征,加入特征库。
4.根据权利要求3所述的一种物品识别的训练、推理以及增加新种类的方法,其特征在于:
所述步骤C1中,采集待新增细分类别的图片数据时,将具有代表性的待新增物品旋转360°,每隔5°在平视和俯视两个视角各采集一张图片,作为新类别训练数据;
所述步骤C2中,按照明暗度、颜色、锐利度,利用图像处理方式对所述新类别训练数据进行数据增强,并将数据增强得到的数据加入到新类别训练数据中;
所述步骤C3中,裁剪所述新类别训练数据,按照图片中待新增物品的边界矩形裁剪,去除无效数据;
所述步骤C4中,利用下层模型提取所述待新增物品的卷积特征,利用颜色特征提取算法提取所述待新增物品的颜色分布比例特征,利用OCR技术提取所述待新增物品的文字信息特征,结构化所述待新增物品的卷积特征、颜色分布比例特征、文字信息特征,并加入特征库。
5.一种物品识别的训练、推理以及增加新种类的系统,其特征在于:包括
训练模块,用于训练上层模型和下层模型,所述上层模型为基于多个粗分类别的物品和对应的二维空间位置和粗分类别训练得到,所述下层模型为基于多个细分类别的物品训练得到的特征提取网络;
特征提取模块,用于针对性的提取各细分种类的独有特征,形成特征库;
推理模块,用于利用上层模型、下层模型以及特征库推理出图片中目标对象的二维空间位置和细分类别,所述目标对象包括货架上的零售货物,所述上层模型用于基于所述目标对象的图片推理出所述目标对象的二维空间位置和粗分类别,所述下层模型用于从所述目标对象的图片中提取所述目标对象的卷积特征、所述目标对象的颜色分布比例特征以及所述目标对象的文字信息特征,以使得所述推理基于所述目标对象的粗分类别对应的特征库、所述目标对象的卷积特征、所述目标对象的颜色分布比例特征以及所述目标对象的文字信息特征,确定所述目标对象的细分类别;
类别管理模块,用于快速增加新的细分类别和删除现有类别;
通信模块,用于各模块间相互通信;
所述训练模块用于执行以下步骤:
A1 将所有待训练类别分为多个粗分类别以及细分类别;
A2 分别采集各粗分类别的图片数据,作为上层模型训练数据;
A3 对所述上层模型训练数据进行数据增强;
A4 标定所述目标对象对应的粗分类别;
A5将所述上层模型训练数据训练出目标检测模型,并作为上层模型;
A6 分别采集各细分类别的图片数据,作为下层模型训练数据;
A7 对所述下层模型训练数据进行数据增强;
A8 裁剪所述下层模型训练数据;
A9 将所述下层模型训练数据训练出特征提取网络,并作为下层模型;
A10 提取所述目标对象的结构化特征,形成特征库;
所述步骤A1中,把所有需要识别的所述目标对象的类别作为细分类别,然后将各特征相近的细分类别合并为同一个粗分类别;
所述步骤A2中,采集各粗分类别的图片数据时,在光线、角度、远近、纹理维度的组合变换下采集多张照片,作为上层模型训练数据;
所述步骤A3中,按照明暗度、颜色、锐利度,利用图像处理方式对所述上层模型训练数据进行数据增强,并将数据增强得到的数据加入到所述上层模型训练数据中;
所述步骤A4中,标定所述上层模型训练数据中目标对象的位置及其粗分类别;所述步骤A5中,利用目标检测算法训练所述上层模型训练数据,训练得到的目标检测模型作为上层模型;
所述步骤A6中,采集所述目标对象的图片数据时,将物品旋转360°,每隔5°在平视和俯视两个视角各采集一张图片,作为下层模型训练数据;
所述步骤A7中,按照明暗度、颜色、锐利度,利用图像处理方式对所述下层模型训练数据进行数据增强,并将数据增强得到的数据加入到所述下层模型训练数据中;
所述步骤A8中,裁剪所述下层模型训练数据,按照图片中所述目标对象的边界矩形裁剪,去除无效数据;
所述步骤A9中,利用神经网络训练所述下层模型训练数据,并将训练得到的特征提取网络作为下层模型;
所述步骤A10中,利用颜色特征提取算法提取所述目标对象的颜色分布比例特征;
利用OCR技术提取所述目标对象的文字信息特征;
利用下层模型提取所述目标对象的卷积特征;
结构化所述目标对象细分类别的卷积特征、颜色分布比例特征和文字信息特征,形成特征库。
6.根据权利要求5所述的一种物品识别的训练、推理以及增加新种类的系统,其特征在于:
所述训练模块包括
上层数据采集子模块,用于采集所述目标对象的各个维度的数据,作为上层模型训练数据;
上层数据增强子模块,用于对所述上层模型训练数据进行数据增强;
上层模型数据标定子模块,用于标定所述上层模型训练数据,在图片中标定出所述目标对象的二维空间位置和所属的粗分类别;
上层模型训练子模块,利用目标检测算法将所述上层模型训练数据训练出目标检测模型,作为上层模型;
下层数据采集子模块,用于采集所述目标对象的360°全方位的图片数据,作为下层模型训练数据;
下层数据增强子模块,用于对所述下层模型训练数据进行数据增强;
下层模型裁剪子模块,裁剪所述下层模型训练数据;
下层模型训练子模块,选取一个特征提取网络,训练出相应的下层模型;
所述特征提取模块包括
卷积特征提取子模块,利用下层模型提取细分种类的卷积特征,加入特征库;
颜色分布特征提取子模块,利用颜色特征提取算法提取细分种类颜色分布比例特征,加入特征库;
文字特征提取子模块,利用OCR技术提取细分种类的文字信息特征,加入特征库;
所述推理模块包括
上层推理模块,用于根据所述上层模型推理出所述目标对象的二维空间位置和粗分类别;
下层推理模块,提取所述目标对象的结构化特征并与特征库内特征作对比,推理出所述目标对象的细分类别;
所述类别管理模块包括
快速增加细分类别子模块,用于在现有上下文模型中快速添加一个新的细分类别;
删除类别模块,用于删除现有模型中可识别的类别。
CN201910266487.0A 2019-04-03 2019-04-03 一种物品识别的训练、推理以及增加新种类的方法和系统 Active CN109977899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910266487.0A CN109977899B (zh) 2019-04-03 2019-04-03 一种物品识别的训练、推理以及增加新种类的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910266487.0A CN109977899B (zh) 2019-04-03 2019-04-03 一种物品识别的训练、推理以及增加新种类的方法和系统

Publications (2)

Publication Number Publication Date
CN109977899A CN109977899A (zh) 2019-07-05
CN109977899B true CN109977899B (zh) 2023-07-14

Family

ID=67082721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910266487.0A Active CN109977899B (zh) 2019-04-03 2019-04-03 一种物品识别的训练、推理以及增加新种类的方法和系统

Country Status (1)

Country Link
CN (1) CN109977899B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490086B (zh) * 2019-07-25 2021-08-20 杭州睿琪软件有限公司 一种用于对象识别结果二次确认的方法及系统
CN110378303B (zh) * 2019-07-25 2021-07-09 杭州睿琪软件有限公司 用于对象识别的方法及系统
CN111046934B (zh) * 2019-12-04 2024-04-09 中国建设银行股份有限公司 一种swift报文软条款识别方法及装置
CN113673488B (zh) * 2021-10-21 2022-02-08 季华实验室 基于少样本的目标检测方法、装置及物件分拣智能系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013017B (zh) * 2010-11-26 2012-07-04 华中科技大学 一种高分辨率遥感图像场景粗分类方法
US11531876B2 (en) * 2017-03-29 2022-12-20 University Of Florida Research Foundation, Incorporated Deep learning for characterizing unseen categories
CN107358257B (zh) * 2017-07-07 2019-07-16 华南理工大学 一种大数据场景下可增量学习的图像分类训练方法
CN107506799B (zh) * 2017-09-01 2020-04-24 北京大学 一种基于深度神经网络的开集类别发掘与扩展方法与装置
CN107609601B (zh) * 2017-09-28 2021-01-22 北京计算机技术及应用研究所 一种基于多层卷积神经网络的舰船目标识别方法
CN107622283A (zh) * 2017-09-28 2018-01-23 上海理工大学 一种基于深度学习的增量式物体识别方法
CN108647648A (zh) * 2018-05-14 2018-10-12 电子科技大学 一种基于卷积神经网络的可见光条件下的舰船识别系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CS-CNN: Enabling Robust and Efficient Convolutional Neural Networks Inference for Internet-of-Things Applications;Yiran Shen et al.;《IEEE Access 》;第6卷;全文 *

Also Published As

Publication number Publication date
CN109977899A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977899B (zh) 一种物品识别的训练、推理以及增加新种类的方法和系统
CN111046880B (zh) 一种红外目标图像分割方法、系统、电子设备及存储介质
Sirmacek et al. Urban-area and building detection using SIFT keypoints and graph theory
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
US8340420B2 (en) Method for recognizing objects in images
Ursani et al. Fusion of textural and spectral information for tree crop and other agricultural cover mapping with very-high resolution satellite images
Alkoffash et al. A survey of digital image processing techniques in character recognition
Zakir et al. Road sign detection and recognition by using local energy based shape histogram (LESH)
CN111898627B (zh) 一种基于pca的svm云微粒子优化分类识别方法
CN110008900B (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
CN112417931B (zh) 一种基于视觉显著性的水面物体检测和分类的方法
CN110570442A (zh) 一种复杂背景下轮廓检测方法、终端设备及存储介质
CN108073940A (zh) 一种非结构化环境中的3d目标实例物体检测的方法
Pazhoumand-dar et al. A new approach in road sign recognition based on fast fractal coding
Bala et al. Image simulation for automatic license plate recognition
CN115512331A (zh) 一种交通标志检测方法、装置、计算机设备及计算机可读存储介质
Krishna et al. Digital image processing techniques in character recognition-a survey
PL A study on various image processing techniques
CN114140698A (zh) 一种基于FasterR-CNN的水系信息提取算法
Ranjitha et al. A review on text detection from multi-oriented text images in different approaches
Xiao et al. An Efficient Methodology for License Plate Localization and Recognition with Low Quality Images
Nakhatovich et al. Applications of classical and deep learning techniques for polar bear detection and recognition from aero photography
Soni et al. Text region extraction from scene images using agf and mser
Jadav et al. Shadow Extraction and Elimination of Moving Vehicles for Tracking Vehicles
Kasaraneni Autonomous Vehicle Number Plate Recognition Using a YOLO and ESRGAN Framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and system for training, reasoning, and adding new types of object recognition

Granted publication date: 20230714

Pledgee: Industrial Bank Co.,Ltd. Shanghai Shangnan Sub branch

Pledgor: Shanghai Gantu Network Technology Co.,Ltd.

Registration number: Y2024310000600