CN109359207B

CN109359207B - 一种易于快速迭代更新的Logo检测方法

Info

Publication number: CN109359207B
Application number: CN201811578524.3A
Authority: CN
Inventors: 王旻毅; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2021-01-22
Anticipated expiration: 2038-12-24
Also published as: CN109359207A

Abstract

本发明公开了一种易于快速迭代更新的Logo检测方法，其特征在于，包括构建并训练logo检测模型至收敛，得到特征点Landmark 1，用于预测未知图片里的logo位置；构建并训练图片分类网络模型至收敛，得到特征点Landmark 2，用于预测logo类别。达到解决某些Logo样本过少，难以收集的情形；确定Logo检测任务的最优目标检测模型；新增Logo时模型快速迭代更新，免去新Logo标注过程并保证准确率的效果。

Description

一种易于快速迭代更新的Logo检测方法

技术领域

本发明涉及计算机视觉领域，特别是涉及一种易于快速迭代更新的Logo检测方法。

背景技术

日常生活中涉及的事物场景都有自己的品牌(麦当劳，可口可乐，乐高，迪士尼)，新品牌产生必然伴随新Logo，而老品牌也会对自己已有Logo推陈出新，综上，品牌迭代更新非常迅速。

Logo数量较少时，目标检测模型可以胜任Logo识别任务，解决方案如下(以识别20个类别(即品牌)Logo为例)：

收集指定20个类别Logo样本，每类150张左右，标注Logo位置及类别(即总计收集标注20*150＝3000张图片)；将样本送入模型训练至收敛，可预测1张未知图片中Logo位置及类别。

但随着Logo类别逐渐增多，每新增一批Logo，就要重新收集图片，标注，非常耗费人力，而且部分类别样本很难收集。随着Logo更新换代，先前已收集样本中被废弃的旧版Logo，对模型预测能力没有任何贡献，且预测种类增多时，准确性必然下降。

另外，目标检测模型实现方式繁多，如何选择最优方案值得探讨。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种易于快速迭代更新的Logo检测方法。

为解决上述技术问题，本发明提供一种易于快速迭代更新的Logo检测方法，包括构建并训练logo检测模型至收敛，得到特征点Landmark 1，用于预测未知图片里的logo位置；构建并训练图片分类网络模型至收敛，得到特征点Landmark 2，用于预测logo类别，具体步骤如下：

步骤1，根据给定的关键字抓取搜索引擎的图片源，将图片的抓取结果分成4类:第1类，含Logo图片样本；第2类，没有多余背景的纯Logo；第3类，完全不相关的图片；第4类，不属于前3类的所有抓取结果；

步骤2，生成xml文件，记录矩形框位置及标注类别；

步骤2-1对步骤1中含Logo图片样本(第1类)，使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注，标注类别统一设为general_logo，将矩形框位置及标注类别保存为xml文件；

步骤2-2对步骤1中纯Logo(第2类)做旋转操作；然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界，合成新的有效图片，合成时记录纯Logo(第2类)所在位置以及标注类别，写入xml文件；在步骤2-1获取的图片量不足1.5w张时，将合成的新的有效图片作为补充；

步骤3，确定Landmark 1最优模型；

步骤3-1，以tensorflow为统一框架，实现Faster RCNN，R-FCN，SSD以及附带的特征提取器，所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG；步骤3-2，使用步骤1获取的图片以及步骤2生成的xml文件进行训练，获得Landmark 1最终模型；

步骤4，利用步骤3的Landmark 1批量抠取Logo，生成纯Logo图片，训练图片分类网络至收敛，得到Landmark 2，并预测Logo类别；

步骤5，当新增1类Logo时，收集至少100张的新Logo样本，重复步骤4，重新训练Landmark 2，并使用重新训练的Landmark 2预测新增logo的类别。

所述步骤1中，图片样本包括至少100个类别；还对抓取结果进行筛选，具体方法为：对于含Logo图片样本，保留分辨率在300x300以上的抓取结果，对于没有多余背景的纯Logo，保留分辨率在150x150以上的抓取结果，对于完全不相关的图片，保留分辨率在300x300以上的抓取结果，数量为1千张，对于不属于前3类的所有抓取结果直接删除；筛选样本后的保留的有效样本数量为1万5千张。

所述步骤2-2中，对抓取的纯Logo做旋转操作，所述旋转操作为随机旋转，旋转角度可以是60°、120°、180°、240°或300°。

所述步骤6中，收集的新logo样本量为150张。

本发明益处如下：

1.解决某些Logo样本过少，难以收集的情形；

2.确定Logo检测任务的最优目标检测模型；

3.新增Logo时模型快速迭代更新，免去新Logo标注过程并保证准确率。

附图说明

图1为本发明的示例性实施例的Logo检测方法流程图；

图2为各目标检测算法结构在COCO 2016数据集的表现示意图。

具体实施方式

本发明技术方案是，将模型划分为2部分：

Landmark 1：整理好1.5w张包含Logo的图片样本，使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注，标注类别统一设为general_logo，矩形框位置及标注类别保存为xml文件，供模型训练，收敛后，可预测未知图片中Logo位置；

Landmark 2：抠出Landmark 1位置框中的Logo，送入图片分类模型，训练至收敛，此时可预测抠出的Logo是哪个类别(品牌)。

一种易于快速迭代更新的Logo检测方案，包括构建并训练logo检测模型至收敛，得到特征点Landmark 1，用于预测未知图片里的logo位置；构建并训练图片分类网络模型至收敛，得到特征点Landmark 2，用于预测logo类别，具体步骤如下：

步骤2，生成xml文件，记录矩形框位置及标注类别；

步骤2-2对步骤1中纯Logo(第2类)做旋转操作；然后将其嵌入完全不相关的图片(第3类)的随机位置且不超出边界，合成新的有效图片，合成时记录纯Logo(第2类)所在位置以及标注类别，写入xml文件；在步骤2-1获取的图片量不足1.5w张时，将合成的新的有效图片作为补充，保证样本总量达到1.5w张，这样训练出的模型预测准确率达到应用门槛；

步骤3，确定Landmark 1最优模型；

所述步骤6中，收集的新logo样本量为150张。

以下结合图1，具体阐述本发明实施方案。所描述的实施例仅为示例，基于本发明技术实质所做的等同变化，仍落入本发明保护范围。

步骤1，收集40k张包含Logo的图片样本，安排人工筛选分为以下4类,最终保留15k张有效图片样本：

第1类，质量最好，抓取到含Logo图片样本，分辨率在300x300以上；

第2类，质量次之，抓取到没有多余背景的纯Logo，分辨率在150x150以上；

第3类，质量再次，抓取到完全不相关的图片，分辨率在300x300以上；

第4类，质量最差，不属于前3类的所有情形，这类图片直接删除。

步骤2，生成xml文件，记录矩形框位置及标注类别；

步骤2-1，对步骤1中第1类含Logo图片样本，使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注，标注类别统一设为general_logo，矩形框位置及标注类别保存为xml文件；第1类含Logo图片样本质量最好，直接体现Logo所处的真实情况。

步骤2-2，对步骤1中第2类纯Logo做旋转操作(从0°、60°、120°、180°、240°、300°中随机选择1个角度进行旋转)；然后将其嵌入第3类背景图的随机位置(不超出图片边界)，合成包含Logo的有效图片(合成时直接记录第2类纯Logo所在位置以及标注类别，写入xml文件，后续无需手动标注)；在步骤2-1获取的图片量不足1.5w张时，第2类纯Logo作为补充，与第3类背景图一起合成含Logo图片样本，质量次之，作为一种样本补充手段，保证样本总量达到1.5w张，这样训练出的模型预测准确率达到应用门槛。

步骤3，确定Landmark 1最优模型；

步骤3-1，以tensorflow为统一框架，实现Faster RCNN，R-FCN，SSD以及附带的各种特征提取器(Inception Resnet V2，Inception V2，Inception V3，MobileNet，Resnet101，VGG)；

步骤3-2，如图2，纵轴mAP为位置，类别均预测正确的平均准确率，横轴为GPU上执行1次预测的平均耗时。在时延可接受的情形下，Faster RCNN-Inception Resnet V2性能最优，离线场景无需实时反馈预测结果；但上述结果只是针对COCO 2016数据集调至最优，对于Logo检测，需要重新评定最优特征提取器和目标检测模型；本发明使用步骤1获取的图片以及步骤2生成的xml文件，训练步骤3-1所有框架组合，Landmark 1最终模型确定为Faster RCNN-Resnet 101，mAP达到0.81，效果更佳；对于1张未知图片，Landmark 1可以准确预测Logo所在位置；

步骤4，利用Landmark 1批量抠取Logo，约100类，每类150张图，以此训练pre-trained Inception V3至收敛，得到Landmark2；

步骤5，当新增Logo种类时，Landmark 1无需更新依然可以预测图中Logo位置，只需收集150张新Logo样本，无需标注，重新训练Landmark 2，即可完成迭代更新，代价很低。

本发明主要用于提供一种易于快速迭代更新的Logo检测方法，其有益效果如下：

1.解决某些Logo样本过少，难以收集的情形；

2.确定Logo检测任务的最优目标检测模型；

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种易于快速迭代更新的Logo检测方法，其特征在于，包括构建并训练L ogo检测模型至收敛，得到特征点Landmark 1，用于预测未知图片里的L ogo位置；构建并训练图片分类网络模型至收敛，得到特征点Landmark 2，用于预测L ogo类别，具体步骤如下：

步骤2，生成xml文件，记录矩形框位置及标注类别；

步骤2-1对步骤1中含Logo图片样本，使用开源工具labelImg对图片中Logo所在位置用矩形框进行标注，标注类别统一设为general_logo，将矩形框位置及标注类别保存为xml文件；

步骤2-2对步骤1中纯Logo做旋转操作；所述旋转操作为随机旋转，旋转角度可以是60°、120°、180°、240°或300°；然后将其嵌入完全不相关的图片的随机位置且不超出边界，合成新的有效图片，合成时记录纯Logo所在位置以及标注类别，写入xml文件；在步骤2-1获取的图片量不足1.5w张时，将合成的新的有效图片作为补充；步骤3，确定Landmark1最优模型；

步骤3-1，以tensorflow为统一框架，实现Faster RCNN，R-FCN，SSD以及附带的特征提取器，所述特征提取器包括Inception Resnet V2、Inception V2、Inception V3、MobileNet、Resnet 101、VGG；

步骤3-2，使用步骤1获取的图片以及步骤2生成的xml文件进行训练，获得Landmark 1最终模型；

步骤5，当新增1类Logo时，收集至少100张的新Logo样本，重复步骤4，重新训练Landmark 2，并使用重新训练的Landmark 2预测新增L ogo的类别。

2.如权利要求1所述的一种易于快速迭代更新的Logo检测方法，其特征在于：所述步骤1中，图片样本包括至少100个类别；还对抓取结果进行筛选，具体方法为：对于含Logo图片样本，保留分辨率在300x300以上的抓取结果，对于没有多余背景的纯Logo，保留分辨率在150x150以上的抓取结果，对于完全不相关的图片，保留分辨率在300x300以上的抓取结果，数量为1千张，对于不属于前3类的所有抓取结果直接删除；筛选样本后的保留的有效样本数量为1万5千张。

3.如权利要求2所述的一种易于快速迭代更新的Logo检测方法，其特征在于：所述步骤5中，收集的新L ogo样本量为150张。