CN109359207B - 一种易于快速迭代更新的Logo检测方法 - Google Patents

一种易于快速迭代更新的Logo检测方法 Download PDF

Info

Publication number
CN109359207B
CN109359207B CN201811578524.3A CN201811578524A CN109359207B CN 109359207 B CN109359207 B CN 109359207B CN 201811578524 A CN201811578524 A CN 201811578524A CN 109359207 B CN109359207 B CN 109359207B
Authority
CN
China
Prior art keywords
logo
picture
training
pure
predicting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811578524.3A
Other languages
English (en)
Other versions
CN109359207A (zh
Inventor
王旻毅
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201811578524.3A priority Critical patent/CN109359207B/zh
Publication of CN109359207A publication Critical patent/CN109359207A/zh
Application granted granted Critical
Publication of CN109359207B publication Critical patent/CN109359207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种易于快速迭代更新的Logo检测方法,其特征在于,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别。达到解决某些Logo样本过少,难以收集的情形;确定Logo检测任务的最优目标检测模型;新增Logo时模型快速迭代更新,免去新Logo标注过程并保证准确率的效果。

Description

一种易于快速迭代更新的Logo检测方法
技术领域
本发明涉及计算机视觉领域,特别是涉及一种易于快速迭代更新的Logo检测方法。
背景技术
日常生活中涉及的事物场景都有自己的品牌(麦当劳,可口可乐,乐高,迪士尼),新品牌产生必然伴随新Logo,而老品牌也会对自己已有Logo推陈出新,综上,品牌迭代更新非常迅速。
Logo数量较少时,目标检测模型可以胜任Logo识别任务,解决方案如下(以识别20个类别(即品牌)Logo为例):
收集指定20个类别Logo样本,每类150张左右,标注Logo位置及类别(即总计收集标注20*150=3000张图片);将样本送入模型训练至收敛,可预测1张未知图片中Logo位置及类别。
但随着Logo类别逐渐增多,每新增一批Logo,就要重新收集图片,标注,非常耗费人力,而且部分类别样本很难收集。随着Logo更新换代,先前已收集样本中被废弃的旧版Logo,对模型预测能力没有任何贡献,且预测种类增多时,准确性必然下降。
另外,目标检测模型实现方式繁多,如何选择最优方案值得探讨。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种易于快速迭代更新的Logo检测方法。
为解决上述技术问题,本发明提供一种易于快速迭代更新的Logo检测方法,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别,具体步骤如下:
步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;
步骤2,生成xml文件,记录矩形框位置及标注类别;
步骤2-1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;
步骤2-2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充;
步骤3,确定Landmark 1最优模型;
步骤3-1,以tensorflow为统一框架,实现Faster RCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark 1最终模型;
步骤4,利用步骤3的Landmark 1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark 2,并预测Logo类别;
步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark 2,并使用重新训练的Landmark 2预测新增logo的类别。
所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含Logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯Logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。
所述步骤2-2中,对抓取的纯Logo做旋转操作,所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°。
所述步骤6中,收集的新logo样本量为150张。
本发明益处如下:
1.解决某些Logo样本过少,难以收集的情形;
2.确定Logo检测任务的最优目标检测模型;
3.新增Logo时模型快速迭代更新,免去新Logo标注过程并保证准确率。
附图说明
图1为本发明的示例性实施例的Logo检测方法流程图;
图2为各目标检测算法结构在COCO 2016数据集的表现示意图。
具体实施方式
本发明技术方案是,将模型划分为2部分:
Landmark 1:整理好1.5w张包含Logo的图片样本,使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,矩形框位置及标注类别保存为xml文件,供模型训练,收敛后,可预测未知图片中Logo位置;
Landmark 2:抠出Landmark 1位置框中的Logo,送入图片分类模型,训练至收敛,此时可预测抠出的Logo是哪个类别(品牌)。
一种易于快速迭代更新的Logo检测方案,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别,具体步骤如下:
步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;
步骤2,生成xml文件,记录矩形框位置及标注类别;
步骤2-1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;
步骤2-2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充,保证样本总量达到1.5w张,这样训练出的模型预测准确率达到应用门槛;
步骤3,确定Landmark 1最优模型;
步骤3-1,以tensorflow为统一框架,实现Faster RCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark 1最终模型;
步骤4,利用步骤3的Landmark 1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark 2,并预测Logo类别;
步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark 2,并使用重新训练的Landmark 2预测新增logo的类别。
所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含Logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯Logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。
所述步骤2-2中,对抓取的纯Logo做旋转操作,所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°。
所述步骤6中,收集的新logo样本量为150张。
以下结合图1,具体阐述本发明实施方案。所描述的实施例仅为示例,基于本发明技术实质所做的等同变化,仍落入本发明保护范围。
步骤1,收集40k张包含Logo的图片样本,安排人工筛选分为以下4类,最终保留15k张有效图片样本:
第1类,质量最好,抓取到含Logo图片样本,分辨率在300x300以上;
第2类,质量次之,抓取到没有多余背景的纯Logo,分辨率在150x150以上;
第3类,质量再次,抓取到完全不相关的图片,分辨率在300x300以上;
第4类,质量最差,不属于前3类的所有情形,这类图片直接删除。
步骤2,生成xml文件,记录矩形框位置及标注类别;
步骤2-1,对步骤1中第1类含Logo图片样本,使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,矩形框位置及标注类别保存为xml文件;第1类含Logo图片样本质量最好,直接体现Logo所处的真实情况。
步骤2-2,对步骤1中第2类纯Logo做旋转操作(从0°、60°、120°、180°、240°、300°中随机选择1个角度进行旋转);然后将其嵌入第3类背景图的随机位置(不超出图片边界),合成包含Logo的有效图片(合成时直接记录第2类纯Logo所在位置以及标注类别,写入xml文件,后续无需手动标注);在步骤2-1获取的图片量不足1.5w张时,第2类纯Logo作为补充,与第3类背景图一起合成含Logo图片样本,质量次之,作为一种样本补充手段,保证样本总量达到1.5w张,这样训练出的模型预测准确率达到应用门槛。
步骤3,确定Landmark 1最优模型;
步骤3-1,以tensorflow为统一框架,实现Faster RCNN,R-FCN,SSD以及附带的各种特征提取器(Inception Resnet V2,Inception V2,Inception V3,MobileNet,Resnet101,VGG);
步骤3-2,如图2,纵轴mAP为位置,类别均预测正确的平均准确率,横轴为GPU上执行1次预测的平均耗时。在时延可接受的情形下,Faster RCNN-Inception Resnet V2性能最优,离线场景无需实时反馈预测结果;但上述结果只是针对COCO 2016数据集调至最优,对于Logo检测,需要重新评定最优特征提取器和目标检测模型;本发明使用步骤1获取的图片以及步骤2生成的xml文件,训练步骤3-1所有框架组合,Landmark 1最终模型确定为Faster RCNN-Resnet 101,mAP达到0.81,效果更佳;对于1张未知图片,Landmark 1可以准确预测Logo所在位置;
步骤4,利用Landmark 1批量抠取Logo,约100类,每类150张图,以此训练pre-trained Inception V3至收敛,得到Landmark2;
步骤5,当新增Logo种类时,Landmark 1无需更新依然可以预测图中Logo位置,只需收集150张新Logo样本,无需标注,重新训练Landmark 2,即可完成迭代更新,代价很低。
本发明主要用于提供一种易于快速迭代更新的Logo检测方法,其有益效果如下:
1.解决某些Logo样本过少,难以收集的情形;
2.确定Logo检测任务的最优目标检测模型;
3.新增Logo时模型快速迭代更新,免去新Logo标注过程并保证准确率。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (3)

1.一种易于快速迭代更新的Logo检测方法,其特征在于,包括构建并训练L ogo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的L ogo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测L ogo类别,具体步骤如下:
步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;
步骤2,生成xml文件,记录矩形框位置及标注类别;
步骤2-1对步骤1中含Logo图片样本,使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;
步骤2-2对步骤1中纯Logo做旋转操作;所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°;然后将其嵌入完全不相关的图片的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充;步骤3,确定Landmark1最优模型;
步骤3-1,以tensorflow为统一框架,实现Faster RCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG;
步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark 1最终模型;
步骤4,利用步骤3的Landmark 1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark 2,并预测Logo类别;
步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark 2,并使用重新训练的Landmark 2预测新增L ogo的类别。
2.如权利要求1所述的一种易于快速迭代更新的Logo检测方法,其特征在于:所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含Logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯Logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。
3.如权利要求2所述的一种易于快速迭代更新的Logo检测方法,其特征在于:所述步骤5中,收集的新L ogo样本量为150张。
CN201811578524.3A 2018-12-24 2018-12-24 一种易于快速迭代更新的Logo检测方法 Active CN109359207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811578524.3A CN109359207B (zh) 2018-12-24 2018-12-24 一种易于快速迭代更新的Logo检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811578524.3A CN109359207B (zh) 2018-12-24 2018-12-24 一种易于快速迭代更新的Logo检测方法

Publications (2)

Publication Number Publication Date
CN109359207A CN109359207A (zh) 2019-02-19
CN109359207B true CN109359207B (zh) 2021-01-22

Family

ID=65329364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811578524.3A Active CN109359207B (zh) 2018-12-24 2018-12-24 一种易于快速迭代更新的Logo检测方法

Country Status (1)

Country Link
CN (1) CN109359207B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119718A (zh) * 2019-05-15 2019-08-13 燕山大学 一种基于深度学习的落水检测及救援控制系统
CN110287207A (zh) * 2019-06-30 2019-09-27 北京健康有益科技有限公司 一种基于密度表的食物质量估测方法
CN113052255B (zh) * 2021-04-07 2022-04-22 浙江天铂云科光电股份有限公司 一种电抗器智能检测和定位的方法
US20240212239A1 (en) * 2021-06-29 2024-06-27 Boe Technology Group Co., Ltd. Logo Labeling Method and Device, Update Method and System of Logo Detection Model, and Storage Medium
CN113822254B (zh) * 2021-11-24 2022-02-25 腾讯科技(深圳)有限公司 一种模型训练方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258217A (zh) * 2013-05-15 2013-08-21 中国科学院自动化研究所 一种基于增量学习的行人检测方法
CN106960214A (zh) * 2017-02-17 2017-07-18 北京维弦科技有限责任公司 基于图像的物体识别方法
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法
CN107437099A (zh) * 2017-08-03 2017-12-05 哈尔滨工业大学 一种基于机器学习的特定服饰图像识别与检测方法
US10025854B2 (en) * 2011-08-08 2018-07-17 Vision Semantics Limited Video searching
CN108647682A (zh) * 2018-05-17 2018-10-12 电子科技大学 一种基于区域卷积神经网络模型的品牌Logo检测与识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10025854B2 (en) * 2011-08-08 2018-07-17 Vision Semantics Limited Video searching
CN103258217A (zh) * 2013-05-15 2013-08-21 中国科学院自动化研究所 一种基于增量学习的行人检测方法
CN106960214A (zh) * 2017-02-17 2017-07-18 北京维弦科技有限责任公司 基于图像的物体识别方法
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法
CN107437099A (zh) * 2017-08-03 2017-12-05 哈尔滨工业大学 一种基于机器学习的特定服饰图像识别与检测方法
CN108647682A (zh) * 2018-05-17 2018-10-12 电子科技大学 一种基于区域卷积神经网络模型的品牌Logo检测与识别方法

Also Published As

Publication number Publication date
CN109359207A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN109359207B (zh) 一种易于快速迭代更新的Logo检测方法
CN109614979B (zh) 一种基于选择与生成的数据增广方法及图像分类方法
Peng et al. Visda: A synthetic-to-real benchmark for visual domain adaptation
CN108985186B (zh) 一种基于改进YOLOv2的无人驾驶中行人检测方法
CN108562589B (zh) 一种对磁路材料表面缺陷进行检测的方法
US10970831B2 (en) Systems, devices, and methods for providing feedback on and improving the accuracy of super-resolution imaging
CN109509187B (zh) 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法
CN112528862B (zh) 基于改进的交叉熵损失函数的遥感图像目标检测方法
CN111967313A (zh) 一种深度学习目标检测算法辅助的无人机图像标注方法
CN112347284A (zh) 一种组合商标图像检索方法
CN113610024B (zh) 一种多策略的深度学习遥感影像小目标检测方法
CN114037674A (zh) 一种基于语义上下文的工业缺陷图像分割检测方法及装置
US20230237825A1 (en) Wine product positioning method, wine product information management method and apparatus, device, and storage medium
CN116052193B (zh) Rpa界面动态表格的拾取和匹配方法及系统
CN111368703A (zh) 一种基于fpn的台标检测与识别的方法
CN111696079B (zh) 一种基于多任务学习的表面缺陷检测方法
CN114255223A (zh) 基于深度学习的双阶段卫浴陶瓷表面缺陷检测方法和设备
CN117253110A (zh) 一种基于扩散模型的目标检测模型泛化能力提升方法
CN111091122A (zh) 一种多尺度特征卷积神经网络的训练和检测方法、装置
CN114037886A (zh) 图像识别方法、装置、电子设备和可读存储介质
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN105930391A (zh) 超解像系统中图像样本数据库的更新方法及图像服务器
CN112766351A (zh) 一种图像质量的评估方法、系统、计算机设备和存储介质
CN113159146A (zh) 样本生成、目标检测模型训练、目标检测方法及装置
CN117437186A (zh) 一种基于深度学习算法的透明件表面缺陷检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant