CN109359207A - 一种易于快速迭代更新的Logo检测方法 - Google Patents

一种易于快速迭代更新的Logo检测方法 Download PDF

Info

Publication number
CN109359207A
CN109359207A CN201811578524.3A CN201811578524A CN109359207A CN 109359207 A CN109359207 A CN 109359207A CN 201811578524 A CN201811578524 A CN 201811578524A CN 109359207 A CN109359207 A CN 109359207A
Authority
CN
China
Prior art keywords
logo
picture
class
landmark
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811578524.3A
Other languages
English (en)
Other versions
CN109359207B (zh
Inventor
王旻毅
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201811578524.3A priority Critical patent/CN109359207B/zh
Publication of CN109359207A publication Critical patent/CN109359207A/zh
Application granted granted Critical
Publication of CN109359207B publication Critical patent/CN109359207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种易于快速迭代更新的Logo检测方法,其特征在于,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别。达到解决某些Logo样本过少,难以收集的情形;确定Logo检测任务的最优目标检测模型;新增Logo时模型快速迭代更新,免去新Logo标注过程并保证准确率的效果。

Description

一种易于快速迭代更新的Logo检测方法
技术领域
本发明涉及计算机视觉领域,特别是涉及一种易于快速迭代更新的Logo检测方法。
背景技术
日常生活中涉及的事物场景都有自己的品牌(麦当劳,可口可乐,乐高,迪士尼),新品牌产生必然伴随新Logo,而老品牌也会对自己已有Logo推陈出新,综上,品牌迭代更新非常迅速。
Logo数量较少时,目标检测模型可以胜任Logo识别任务,解决方案如下(以识别20个类别(即品牌)Logo为例):
收集指定20个类别Logo样本,每类150张左右,标注Logo位置及类别(即总计收集标注20*150=3000张图片);将样本送入模型训练至收敛,可预测1张未知图片中Logo位置及类别。
但随着Logo类别逐渐增多,每新增一批Logo,就要重新收集图片,标注,非常耗费人力,而且部分类别样本很难收集。随着Logo更新换代,先前已收集样本中被废弃的旧版Logo,对模型预测能力没有任何贡献,且预测种类增多时,准确性必然下降。
另外,目标检测模型实现方式繁多,如何选择最优方案值得探讨。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种易于快速迭代更新的Logo检测方法。
为解决上述技术问题,本发明提供一种易于快速迭代更新的Logo检测方法,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别,具体步骤如下:
步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;
步骤2,生成xml文件,记录矩形框位置及标注类别;
步骤2-1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;
步骤2-2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充;
步骤3,确定Landmark 1最优模型;
步骤3-1,以tensorflow为统一框架,实现Faster RCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark 1最终模型;
步骤4,利用步骤3的Landmark 1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark 2,并预测Logo类别;
步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark 2,并使用重新训练的Landmark 2预测新增logo的类别。
所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含Logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯Logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。
所述步骤2-2中,对抓取的纯Logo做旋转操作,所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°。
所述步骤6中,收集的新logo样本量为150张。
本发明益处如下:
1.解决某些Logo样本过少,难以收集的情形;
2.确定Logo检测任务的最优目标检测模型;
3.新增Logo时模型快速迭代更新,免去新Logo标注过程并保证准确率。
附图说明
图1为本发明的示例性实施例的Logo检测方法流程图;
图2为各目标检测算法结构在COCO 2016数据集的表现示意图。
具体实施方式
本发明技术方案是,将模型划分为2部分:
Landmark 1:整理好1.5w张包含Logo的图片样本,使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,矩形框位置及标注类别保存为xml文件,供模型训练,收敛后,可预测未知图片中Logo位置;
Landmark 2:抠出Landmark 1位置框中的Logo,送入图片分类模型,训练至收敛,此时可预测抠出的Logo是哪个类别(品牌)。
一种易于快速迭代更新的Logo检测方案,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别,具体步骤如下:
步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;
步骤2,生成xml文件,记录矩形框位置及标注类别;
步骤2-1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;
步骤2-2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充,保证样本总量达到1.5w张,这样训练出的模型预测准确率达到应用门槛;
步骤3,确定Landmark 1最优模型;
步骤3-1,以tensorflow为统一框架,实现Faster RCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark 1最终模型;
步骤4,利用步骤3的Landmark 1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark 2,并预测Logo类别;
步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark 2,并使用重新训练的Landmark 2预测新增logo的类别。
所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含Logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯Logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。
所述步骤2-2中,对抓取的纯Logo做旋转操作,所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°。
所述步骤6中,收集的新logo样本量为150张。
以下结合图1,具体阐述本发明实施方案。所描述的实施例仅为示例,基于本发明技术实质所做的等同变化,仍落入本发明保护范围。
步骤1,收集40k张包含Logo的图片样本,安排人工筛选分为以下4类,最终保留15k张有效图片样本:
第1类,质量最好,抓取到含Logo图片样本,分辨率在300x300以上;
第2类,质量次之,抓取到没有多余背景的纯Logo,分辨率在150x150以上;
第3类,质量再次,抓取到完全不相关的图片,分辨率在300x300以上;
第4类,质量最差,不属于前3类的所有情形,这类图片直接删除。
步骤2,生成xml文件,记录矩形框位置及标注类别;
步骤2-1,对步骤1中第1类含Logo图片样本,使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,矩形框位置及标注类别保存为xml文件;第1类含Logo图片样本质量最好,直接体现Logo所处的真实情况。
步骤2-2,对步骤1中第2类纯Logo做旋转操作(从0°、60°、120°、180°、240°、300°中随机选择1个角度进行旋转);然后将其嵌入第3类背景图的随机位置(不超出图片边界),合成包含Logo的有效图片(合成时直接记录第2类纯Logo所在位置以及标注类别,写入xml文件,后续无需手动标注);在步骤2-1获取的图片量不足1.5w张时,第2类纯Logo作为补充,与第3类背景图一起合成含Logo图片样本,质量次之,作为一种样本补充手段,保证样本总量达到1.5w张,这样训练出的模型预测准确率达到应用门槛。
步骤3,确定Landmark 1最优模型;
步骤3-1,以tensorflow为统一框架,实现Faster RCNN,R-FCN,SSD以及附带的各种特征提取器(Inception Resnet V2,Inception V2,Inception V3,MobileNet,Resnet101,VGG);
步骤3-2,如图2,纵轴mAP为位置,类别均预测正确的平均准确率,横轴为GPU上执行1次预测的平均耗时。在时延可接受的情形下,Faster RCNN-Inception Resnet V2性能最优,离线场景无需实时反馈预测结果;但上述结果只是针对COCO 2016数据集调至最优,对于Logo检测,需要重新评定最优特征提取器和目标检测模型;本发明使用步骤1获取的图片以及步骤2生成的xml文件,训练步骤3-1所有框架组合,Landmark 1最终模型确定为Faster RCNN-Resnet 101,mAP达到0.81,效果更佳;对于1张未知图片,Landmark 1可以准确预测Logo所在位置;
步骤4,利用Landmark 1批量抠取Logo,约100类,每类150张图,以此训练pre-trained Inception V3至收敛,得到Landmark2;
步骤5,当新增Logo种类时,Landmark 1无需更新依然可以预测图中Logo位置,只需收集150张新Logo样本,无需标注,重新训练Landmark 2,即可完成迭代更新,代价很低。
本发明主要用于提供一种易于快速迭代更新的Logo检测方法,其有益效果如下:
1.解决某些Logo样本过少,难以收集的情形;
2.确定Logo检测任务的最优目标检测模型;
3.新增Logo时模型快速迭代更新,免去新Logo标注过程并保证准确率。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (4)

1.一种易于快速迭代更新的Logo检测方法,其特征在于,包括构建并训练logo检测模型至收敛,得到特征点Landmark 1,用于预测未知图片里的logo位置;构建并训练图片分类网络模型至收敛,得到特征点Landmark 2,用于预测logo类别,具体步骤如下:
步骤1,根据给定的关键字抓取搜索引擎的图片源,将图片的抓取结果分成4类:第1类,含Logo图片样本;第2类,没有多余背景的纯Logo;第3类,完全不相关的图片;第4类,不属于前3类的所有抓取结果;
步骤2,生成xml文件,记录矩形框位置及标注类别;
步骤2-1对步骤1中含Logo图片样本(第1类),使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注,标注类别统一设为general_logo,将矩形框位置及标注类别保存为xml文件;
步骤2-2对步骤1中纯Logo(第2类)做旋转操作;然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界,合成新的有效图片,合成时记录纯Logo(第2类)所在位置以及标注类别,写入xml文件;在步骤2-1获取的图片量不足1.5w张时,将合成的新的有效图片作为补充;
步骤3,确定Landmark 1最优模型;
步骤3-1,以tensorflow为统一框架,实现Faster RCNN,R-FCN,SSD以及附带的特征提取器,所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG;步骤3-2,使用步骤1获取的图片以及步骤2生成的xml文件进行训练,获得Landmark 1最终模型;
步骤4,利用步骤3的Landmark 1批量抠取Logo,生成纯Logo图片,训练图片分类网络至收敛,得到Landmark 2,并预测Logo类别;
步骤5,当新增1类Logo时,收集至少100张的新Logo样本,重复步骤4,重新训练Landmark 2,并使用重新训练的Landmark 2预测新增logo的类别。
2.如权利要求1所述的一种易于快速迭代更新的Logo检测方法,其特征在于:所述步骤1中,图片样本包括至少100个类别;还对抓取结果进行筛选,具体方法为:对于含Logo图片样本,保留分辨率在300x300以上的抓取结果,对于没有多余背景的纯Logo,保留分辨率在150x150以上的抓取结果,对于完全不相关的图片,保留分辨率在300x300以上的抓取结果,数量为1千张,对于不属于前3类的所有抓取结果直接删除;筛选样本后的保留的有效样本数量为1万5千张。
3.如权利要求2所述的一种易于快速迭代更新的Logo检测方法,其特征在于:所述步骤2-2中,对抓取的纯Logo做旋转操作,所述旋转操作为随机旋转,旋转角度可以是60°、120°、180°、240°或300°。
4.如权利要求3所述的一种易于快速迭代更新的Logo检测方法,其特征在于:所述步骤6中,收集的新logo样本量为150张。
CN201811578524.3A 2018-12-24 2018-12-24 一种易于快速迭代更新的Logo检测方法 Active CN109359207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811578524.3A CN109359207B (zh) 2018-12-24 2018-12-24 一种易于快速迭代更新的Logo检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811578524.3A CN109359207B (zh) 2018-12-24 2018-12-24 一种易于快速迭代更新的Logo检测方法

Publications (2)

Publication Number Publication Date
CN109359207A true CN109359207A (zh) 2019-02-19
CN109359207B CN109359207B (zh) 2021-01-22

Family

ID=65329364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811578524.3A Active CN109359207B (zh) 2018-12-24 2018-12-24 一种易于快速迭代更新的Logo检测方法

Country Status (1)

Country Link
CN (1) CN109359207B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119718A (zh) * 2019-05-15 2019-08-13 燕山大学 一种基于深度学习的落水检测及救援控制系统
CN110287207A (zh) * 2019-06-30 2019-09-27 北京健康有益科技有限公司 一种基于密度表的食物质量估测方法
CN113052255A (zh) * 2021-04-07 2021-06-29 浙江天铂云科光电股份有限公司 一种电抗器智能检测和定位的方法
CN113822254A (zh) * 2021-11-24 2021-12-21 腾讯科技(深圳)有限公司 一种模型训练方法及相关装置
WO2023272495A1 (zh) * 2021-06-29 2023-01-05 京东方科技集团股份有限公司 徽标标注方法及装置、徽标检测模型更新方法及系统、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258217A (zh) * 2013-05-15 2013-08-21 中国科学院自动化研究所 一种基于增量学习的行人检测方法
CN106960214A (zh) * 2017-02-17 2017-07-18 北京维弦科技有限责任公司 基于图像的物体识别方法
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法
CN107437099A (zh) * 2017-08-03 2017-12-05 哈尔滨工业大学 一种基于机器学习的特定服饰图像识别与检测方法
US10025854B2 (en) * 2011-08-08 2018-07-17 Vision Semantics Limited Video searching
CN108647682A (zh) * 2018-05-17 2018-10-12 电子科技大学 一种基于区域卷积神经网络模型的品牌Logo检测与识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10025854B2 (en) * 2011-08-08 2018-07-17 Vision Semantics Limited Video searching
CN103258217A (zh) * 2013-05-15 2013-08-21 中国科学院自动化研究所 一种基于增量学习的行人检测方法
CN106960214A (zh) * 2017-02-17 2017-07-18 北京维弦科技有限责任公司 基于图像的物体识别方法
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法
CN107437099A (zh) * 2017-08-03 2017-12-05 哈尔滨工业大学 一种基于机器学习的特定服饰图像识别与检测方法
CN108647682A (zh) * 2018-05-17 2018-10-12 电子科技大学 一种基于区域卷积神经网络模型的品牌Logo检测与识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119718A (zh) * 2019-05-15 2019-08-13 燕山大学 一种基于深度学习的落水检测及救援控制系统
CN110287207A (zh) * 2019-06-30 2019-09-27 北京健康有益科技有限公司 一种基于密度表的食物质量估测方法
CN113052255A (zh) * 2021-04-07 2021-06-29 浙江天铂云科光电股份有限公司 一种电抗器智能检测和定位的方法
WO2023272495A1 (zh) * 2021-06-29 2023-01-05 京东方科技集团股份有限公司 徽标标注方法及装置、徽标检测模型更新方法及系统、存储介质
CN113822254A (zh) * 2021-11-24 2021-12-21 腾讯科技(深圳)有限公司 一种模型训练方法及相关装置
CN113822254B (zh) * 2021-11-24 2022-02-25 腾讯科技(深圳)有限公司 一种模型训练方法及相关装置

Also Published As

Publication number Publication date
CN109359207B (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN109359207A (zh) 一种易于快速迭代更新的Logo检测方法
Chen et al. MMDetection: Open mmlab detection toolbox and benchmark
Maeda et al. Generative adversarial network for road damage detection
JP5984153B2 (ja) 情報処理装置、プログラム、及び情報処理方法
CN109741332A (zh) 一种人机协同的图像分割与标注方法
CN111159454A (zh) 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN112488241B (zh) 一种基于多粒度融合网络的零样本图片识别方法
CN110019889A (zh) 训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN108765383A (zh) 基于深度迁移学习的视频描述方法
CN110738247A (zh) 一种基于选择性稀疏采样的细粒度图像分类方法
CN112862093A (zh) 一种图神经网络训练方法及装置
Sarkar et al. Revolutionizing concrete analysis: An in-depth survey of AI-powered insights with image-centric approaches on comprehensive quality control, advanced crack detection and concrete property exploration
CN111339950B (zh) 一种遥感图像目标检测方法
CN117557886A (zh) 融合偏标签和消极学习的含噪声标签图像识别方法及系统
CN106503047A (zh) 一种基于卷积神经网络的图像爬虫优化方法
KR20240034804A (ko) 자동 회귀 언어 모델 신경망을 사용하여 출력 시퀀스 평가
CN115329746A (zh) 一种事件抽取方法、装置及设备
CN115936159A (zh) 基于自动特征挖掘的可解释信贷违约率预测方法、系统
CN113450363B (zh) 一种基于标签校正的元学习细胞核分割系统及方法
CN111008570A (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN112613428B (zh) 基于平衡损失的Resnet-3D卷积牛视频目标检测方法
CN114091621A (zh) 一种bppv眼震信号的标注方法
Leng et al. Augmented two stream network for robust action recognition adaptive to various action videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant