CN109800698A

CN109800698A - 基于深度网络的图标检测方法

Info

Publication number: CN109800698A
Application number: CN201910026888.9A
Authority: CN
Inventors: 赵志诚; 王殷浩; 李程刚; 苏菲; 赵衍运
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing Deep Blue Future Technology Co ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2019-05-24
Anticipated expiration: 2039-01-11
Also published as: CN109800698B

Abstract

本公开涉及一种基于深度学习的图标检测方法，包括模型训练阶段和模型测试阶段，其中，所述模型训练阶段包括以下步骤：步骤1、准备画面中不含待检测图标的视频帧集合；步骤2、准备仅含有待检测图标的图标图像，其包含颜色通道和Alpha通道数据、以及图标分类信息；步骤3、将所述图标图像与视频帧集合中的各个帧进行随机的图像叠加，形成含有待检测图标的叠加图像，作为训练数据集，训练形成图标检测模型；其中，所述模型测试阶段包括以下步骤：步骤4、将待检测图像输入所述图标检测模型，所述图标检测模型输出检测结果，所述检测结果包括所述测试图像是否含有图标、所含图标的分类信息和位置信息。

Description

基于深度网络的图标检测方法

技术领域

本发明属于计算机视觉、模式识别领域，尤其涉及基于深度学习的目标检测技术，更具体地，涉及基于深度网络的图标检测方法。

背景技术

随着信息技术的不断发展以及人们对于互联网应用程度的不断加深，互联网中的多媒体资源正在迅速增长。网络的开放性与网络通信技术的发展也促进了多媒体资源的快速传播，同时，也产生相关部门对网络信息传播进行管控的需要。

视频和图像是网络信息传播的主要载体，图标作为一种专用标识，包含了媒体信息的来源、类型、版权等重要信息，因此成为许多媒体内容创作者首选的标识内容所有者的方式。判断媒体内容来源的直接方式就是检测媒体信息中是否包含特定的图标(例如，电视台标、视频网站水印等)。传统上，通过工作人员进行手工检测，这种方式既耗费时间，准确率也难以保证，而通过计算机视觉技术自动判别媒体信息中是否包含特定的图标则成为现在的主流方式，而且随着近些年深度学习技术的不断发展，将深度学习与图标检测结合更成为了研究热点。

目前，图标检测技术主要有以下几类技术方案：

技术方案(1)(见参考文献2、3)

该方案基于颜色直方图对图标进行检测，考虑到不同图标之间的色调存在较大差异，因此可以对待检测的图标提取颜色直方图建立图标模板数据集。当输入待检测图像后首先确定图标所在位置并提取其相应位置的颜色直方图与图标模板库进行匹配，并将匹配结果中距离最小的判定为相应的图标。该方案实现简单，算法时间复杂度低，检测速度快。

技术方案(1)的缺点

第一：为了确保提取到的图标颜色直方图的有效性，需要准确标记出待检测图像中图标的所在位置，如果检测到的图标位置有偏差则会严重影响提取到的颜色直方图；并且从视频或是图像中确定出图标所在位置本身就是一项极具挑战性的课题。

第二：通过颜色直方图提取图标特征的方法无法有效应对半透明图标、大面积镂空图标以及颜色分布相似的图标，对于这类图标当背景变化时，提取到的颜色直方图也会有很大变化，具有一定的不稳定性，从而大大降低了算法的适用范围以及检测的准确率。

技术方案(2)(见参考文献4、5)

该方案基于局部不变特征对图标进行检测。局部不变特征是指当待检测图像发生视角变化、几何变换、光照变换等时，提取到的特征不发生改变或仅有小幅度变化。该方案首先需要设计出合适的局部不变特征用于描述图标并生成图标特征模板库，当输入待检测图像后首先需要确定图标所在的大致位置，然后这对该区域计算特征点并对每个特征点用设计好的局部不变特征进行描述，之后需要将提取到的特征与图标特征模板库内的数据进行匹配实现图标检测。该方案可以很大程度减少背景干扰和噪声，对不同场景适应能力较强。

技术方案(2)的缺点：

第一：该方案虽然使用了局部不变特征，但是在检测时的准确率还是依赖于图标所在位置的确定，若检测到的图标位置偏差较大，则会导致提取到的有用特征较少，并且提取到的特征点可能位于前景区域也可能位于背景区域，因此背景内容依旧会影响算法性能。

第二：该方案使用的特征匹配的方式，当图标特征模板库中包含大量特征时，一方面会导致算法检测的速度下降，另一方面也会因为特征的表示能力不足而使得算法精度下降。

技术方案(3)(见参考文献6、7)

该方案基于深度学习进行测。该方案首先需要收集各种包含特定图标的图像，同时进行多种形式图像变换，并对图标位置参数进行标注处理，然后利用深度模型进行离线训练获取检测模型的最优参数，然后可以应用检测模型对输入图像进行在线检测得到图标类别和位置信息等。

技术方案(3)缺点

第一：为了确保深度模型具有可靠的检测性能，在训练阶段需要输入大量的有标注数据，然而通过人工收集标注的方式费时费力，并且当图标检测任务需要添加新的检测类别时，又需要准备新的有标注数据，这不能满足实际需求。

第二：该方案仅仅通过一个深度模型对图标进行检测和分类，但对于那些十分相似的图标很容易出现检测类别错误。

综上所述，对于图标检测问题，要点是需要确定图标可能出现区域以及提取图标具有鲁棒性的特性并进行判别，传统的检测方案通常将这两部分单独处理，因此对每一部分都提出了很高的要求；近些年新兴的基于深度学习图标检测方案，将这两部分看为统一的整体进行联合优化求解，极大提升了检测精度，但因为深度学习方法需要大量有标注的数据对该方案的实际应用提出了很大挑战。

发明内容

为了克服现有技术中的以上问题，本发明提出了基于深度学习的可自动生成标注数据集的二级图标检测方案。

根据本发明的实施例，提供了基于深度学习的图标检测方法，包括模型训练阶段和模型测试阶段，其中，所述模型训练阶段包括以下步骤：步骤1、准备画面中不含待检测图标的视频帧集合；步骤2、准备仅含有待检测图标的图标图像，其包含颜色通道和Alpha通道数据、以及图标分类信息；步骤3、将所述图标图像与视频帧集合中的各个帧进行随机的图像叠加，形成含有待检测图标的叠加图像，作为训练数据集，训练形成图标检测模型；其中，所述模型测试阶段包括以下步骤：步骤4、将待检测图像输入所述图标检测模型，所述图标检测模型输出检测结果，所述检测结果包括所述测试图像是否含有图标、所含图标的分类信息和位置信息。

本发明的有益效果主要在于以下几个方面：

1、利用深度模型进行检测和分类，可以对半透明图标、镂空图标等进行有效检测，提升了图标检测精度。

2、本方法提出的自动训练数据和标注数据生成方法，可以免去大量繁杂的人工操作，并且仅需要修改数据扩充参数就可以生成不同数量的训练数据供深度模型训练，以应对不同检测条件下的需求。

3、对普通图标使用检测模型直接得到类别标签，保证了检测的速度；对于检测模型输出为软标签的图标进一步使用全卷积网络进行二级分类，保证了检测的精度。

附图说明

图1为根据本发明的实施例的基于深度网络的图标检测方法的原理示意图；

图2为说明根据本发明的实施例的基于深度网络的图标检测方法的流程示意图；

图3为说明根据本发明的实施例的基于深度网络的图标检测系统的功能模块示意图；

图4为根据本发明实施例的安装了应用程序的系统的运行环境的示意图。

具体实施方式

下面，结合附图对技术方案的实施作进一步的详细描述。

本领域的技术人员能够理解，尽管以下的说明涉及到有关本发明的实施例的很多技术细节，但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合，只要它们不背离本发明的原理和精神即可。

另外，为了避免使本说明书的描述限于冗繁，在本说明书中的描述中，可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理，这对于本领域的技术人员来说是可以理解的，并且这不会影响本说明书的公开充分性。

下文中，将描述用于进行本发明的实施例。注意，将以下面的次序给出描述：1、发明构思的概要(图1)；2、基于深度网络的图标检测方法(图2)；3、基于深度网络的图标检测系统(图3)；4、根据本发明的实施例的安装了应用程序的系统(图4)。

1、发明构思的概要

图1为根据本发明的实施例的基于深度网络的图标检测方法的原理示意图。

本发明提出的基于深度学习的可自动生成标注数据集的二级图标检测方案，属于图像模式识别领域，应用于在海量数据环境下对特定目标进行检索。本方法结合了OSTU图像二值化、随机数据生成、基于深度模型的检测以及全卷积网络分类技术，首先对视频数据通过熵筛选和邻近帧间直方图比对提取关键帧建立背景图像数据集，并对图标文件使用OSTU算法生成包含透明度信息的四通道数据，然后将利用背景图像数据集和预处理后的图标数据随机生成训练数据以及相应的标注数据，训练深度模型并实现粗粒度的图标检测。

考虑到在实际应用场景中因图像分辨率过小导致图像模糊以及检测模型本身的局限性，可能会对十分相似的图标误分类，因此在检测模型后又依靠上一步得到的图标位置信息使用全卷积网络进行二次分类，提高的图标检测精度。

该方法相比传统提取特征的方法更能对图标提取具备辨别性的特征，而且在深度模型完成训练后无需调整额外参数适用范围更广，同时该方法仅需输入待检测的图标文件就可以自动生成训练数据，免去了繁杂的人工标注过程。在完成初步检测后，该方法能将检测为软标签的数据进一步利用全卷积网络进行分类，进一步提升了检测的准确率。

下面具体说明本发明的基于深度网络的图标检测方法的实现方式。

2、基于深度网络的图标检测方法

根据本发明的实施例，提供了一种基于深度学习的可自动生成标注数据集的二级图标检测方法，其实现原理包括以下阶段。

一、数据预处理

数据预处理阶段是生成训练数据之前的准备阶段，包括背景图像的生成、以及图标文件的特征提取。

首先，对视频数据集中的每个图像(即，不含图标的图像)，通过直方图的熵进行初步筛选，例如，筛选出信息熵高于预定阈值的视频帧；

之后，对筛选出的帧，通过其与相邻帧之间的关系(例如，计算其与相邻帧之间的差)来确定其是否为视频关键帧，视频关键帧集合形成背景图像数据集，即，不包含图标的视频帧集合。

然后，对待检测的每个图标图像(即，仅包含各个图标本身的图像)，使用OSTU算法确定其最佳图像二值化阈值，通过二值化阈值提取图标图像的前景区域，对二值化后的图像依据其前景区域生成对应的图标掩模，形成图标图像的Alpha通道。

二、自动生成训练数据集和图标标注数据

考虑到实际的检测场景中，视频或图像可能因为裁剪以及加黑边等原因使得文件中所包含的图标发生了大小以及长宽比的变化，因此在数据生成的过程中需要对图标的大小以及图标的长宽比进行随机改变；同时考虑到因为在实际场景中文件内容整体长宽比发生变化发生的概率较小，所以需要控制图标文件改变长宽比的比例，以免生成过多的改变了长宽比的数据影响到深度模型的泛化性能影响检测精度。

完成上述数据预处理后，可以依据图标文件中Alpha通道的信息将其与背景数据集进行随机合成，合成的过程中需要注意保证图标与背景图像的间距至少在10个像素点以上，最终得到合成后的含图标图像、以及与每个含图标图像相对应的标注(标签)，其包含图标类别信息和位置信息，用于深度模型训练。

三、使用深度模型进行粗粒度检测

通过上述自动生成的训练数据集可以对深度模型进行训练。

训练完成后可以输入待检测的视频图像实现图标检测。对于输入的数据，可统一分辨率，例如缩放到416×416，之后深度模型会对图像进行一系列卷积、池化、上采样等操作用来提取输入数据的特征，之后会输出一系列候选框的位置信息以及候选框置信度，置信度的范围在0-1之间，将置信度大于0.8的区域认为是图标可能出现区域，并选择所有图标可能出现区域中置信度最大的类别作为该输入数据的输出类别。

四、使用全卷积网络进行细粒度二次分类

考虑到经过初步检测后得到的图标大小不为固定值并且为了减少二次分类的计算量，因此设计全卷积网络进行二次分类。该网络包含三个卷积层，每个卷积层后都添加线性整流函数，并在最后一个卷积层的线性整流函数后添加全局平均池化层。对于深度模型输出的图标类别信息，若类别信息是预定义的软标签(例如，粗分类的类别，其不是最终类别，需要进一步确定类别的标签)，则需要使用全卷积网络进行二次分类。

首先，需要根据检测模型输出的图标位置信息将相应区域截取出来并输入到全卷积网络中，然后通过经过一系列卷积、池化等操作提取该区域特征并通过Softmax处理得到图标属于各类别的概率，选取概率最大的类别作为最终的输出结果。

下面通过具体实施例来说明上述一种基于深度学习的可自动生成标注数据集的二级图标检测方法的具体实现过程。

如图2所示，根据本发明的实施例，一种基于深度学习的图标检测方法包括模型训练阶段和模型测试阶段，

其中，所述模型训练阶段包括以下步骤：

步骤S100、准备背景图像数据集，其为画面中不含待检测图标的视频帧集合；

具体地，可对视频数据库中的视频提取关键帧，生成背景图像数据集；

步骤S200、准备仅含有待检测图标的图标图像，其含有四通道图像数据；

具体地，所述四通道图像数据包括R、G、B和Alpha通道数据，其中，Alpha通道数据表示透明度信息；

步骤S300、将所述图标图像与所述背景图像数据集中的各个图像随机叠加，形成含有待检测图标的图像，作为训练数据集，训练形成图标检测模型；

具体地，利用背景图像数据集和预处理后的图标数据，自动生成训练数据集和相应的图标标注数据，即，叠加后的每个图像除了图像颜色信息之外，还包括其中所含图标的位置和类别信息；

其中，所述模型测试阶段包括以下步骤：

步骤S400、将测试图像(待检测其是否含有图标的图像)输入所述图标检测模型，所述图标检测模型输出检测结果，所述检测结果包括所述测试图像是否含有图标、所含图标的分类信息和位置信息；

其中，所含图标的分类信息可为粗粒度的分类信息或者细粒度的分类信息，

步骤S500、如果所含图标的分类信息为粗粒度的分类信息，则进一步利用全卷积网络进行分类，获取细粒度的分类信息。

其中，所述步骤S100包括：在视频数据库中，对每个视频提取关键帧生成背景图像数据集。考虑到视频中包含了大量的冗余信息，因此需要对视频提取有效关键帧，使得视频关键帧可以有效概括视频信息，保证自动生成数据集有效性的同时减少训练数据量。

具体地，关键帧的获取通过以下步骤实现：

步骤S110、计算所述背景图像数据集中的每个视频帧(即，不含图标的视频帧)的直方图h及其熵E_h；

步骤S120、筛选出E_h＞E_T的视频帧，其中，E_T为熵阈值，用于过滤大面积纯色背景；

步骤S130、判断筛选出的视频帧是否满足以下条件：

条件1：S_i+1＜S_T

条件2：

条件3：N＜N_T

其中，S_i为所述视频帧与相邻帧(例如，前一帧)之间的直方图交，如下计算：

其中h_i代表第i帧的直方图，n为直方图箱的个数。获取直方图交后为了提高关键帧检测算法的准确性，又叠加了多帧图像信息。

其中，S_T为直方图交的阈值，N为关键帧间隔，N_T为最大关键帧间隔，步骤S140、提取同时满足条件1和2的图像、以及同时满足条件1和3的图像，作为关键帧；

其中，考虑到若处理的视频内容变化缓慢，则同时满足条件1和2的关键帧数量过少，因此可设置最大关键帧间隔N，对于满足条件1和3的图像也认为是关键帧。最终合并同时满足条件1和2以及条件1和3提取到的关键帧子集合，形成背景图像数据集，用于后续训练数据的自动生成。

其中，步骤S200包括：

步骤S210、将图标图像转换为灰度图像并计算其归一化的灰度直方图，使用OSTU算法确定最优图像二值化阈值，其为类间方差g最大的灰度级别，作为前景像素和背景像素划分的阈值，其中各个灰度级别所对应的类间方差g的计算公式如下：

g＝w_fw_b(u_f-u_b)²

其中N_f和N_b分别表示依据当前灰度级别对图像进行划分后的前景区域和背景区域(即，将当前灰度级别作为前景像素和背景像素划分的阈值，高于当前灰度级别的像素作为前景区域，其余像素作为背景区域，反之亦然)，|N_f|和|N_b|代表前景区域和背景区域所包含的像素点个数，I(m,n)表示像素点(m,n)处的灰度值。

计算不同灰度级别的类间方差，选取最大类间方差对应的灰度级别作为图像二值化划分阈值，得到前景区域并生成对应的掩模。根据得到的掩模数据，对原始的RGB图像添加Alpha透明通道，Alpha通道0表示完全透明，255表示完全不透明，最终生成RGBA图标数据用于合成训练数据。

其中，所述步骤S300包括：

步骤S310、将作为训练数据的图标图像转换为灰度图，将图标缩放到与背景图像为相同尺度，得到缩放因子σ_h；然后依据经验随机地将图标缩放到背景图像的1/10到1/8之间，得到缩放因子σ_w；

为进一步增加训练数据的丰富程度，对图标自身进行随机缩放，缩放比例尺范围为0.8到1.2之间，得到缩放因子σ_s。用w和h分别表示图标原始宽度和高度，经过预处理后的图标文件的大小为：

步骤S320、对图标进行宽度调整，调整范围在0.9到1.1之间，并且应控制调整的图标数量和总体生成数据数量的比例为1∶10；

此步骤的目的为进一步提升图标检测性能，适当对图标进行长宽比的改变。

步骤S330、将作为训练数据的图标图像以及上述步骤中调整后的图标图像通过各自的Alpha通道信息随机叠加到背景图像数据集中的每个视频帧的不同位置；

其中，需确保在叠加过程中图标文件与背景图像边框相距10个像素点以上，最终生成训练数据集，其包括叠加后的图像、以及相应的图标类别和位置信息。

其中，所述步骤S300还包括：

步骤S340、训练数据集预处理，分析图标数据集，对外形相似的图标分配相同的软标签(粗粒度的分类信息，即，同一图标可具有粗粒度的分类信息和细粒度的分类信息这两者)，并将数据集按照5∶1的比例划分为训练集和测试集；

步骤S350、训练模型。将预处理后的数据集作为模型输入，训练模型。

步骤S360、调整模型参数。通过测试集测试模型训练效果，并调整模型参数，重复测试直到模型在测试集上达到最好的效果。

其中，完成上述模型训练后，在步骤S400中，深度模型可以对每张待检测的图像提取特征并在图像中生成一系列候选框表示图标可能出现区域以及候选框对应的置信度，置信度的值在0到1之间，对于所有置信度大于0.8的候选框中选取置信度最大的候选框作为检测结果，若检测结果的标签是之前的软标签则需要进一步获取检测到图标的位置信息进行后续处理。

其中，利用全卷积网络进行细粒度分类，主要是针对类别判定为软标签的图像，依靠获得的图标可能出现区域的位置信息，将图标可能出现区域截取出来输入到全卷积网络中进行第二级的细粒度分类，将网络输出结果中置信度最高的类别作为最终的检测结果。

3、基于深度网络的图标检测方法

图3为根据本发明的实施例的基于深度网络的图标检测系统的功能模块示意图。

本发明的实施例提供了一种基于深度网络的图标检测系统，主要包括模型训练模块和模型测试模块，

其中，模型训练模块用于通过训练数据集训练形成图标检测模型，其中，所述训练数据集是图标图像与背景图像经过随机叠加而形成的。

其中，所述模型测试模块用于接收测试图像的输入，并输出检测结果，所述检测结果包括所述测试图像是否含有图标、所含图标的分类信息和位置信息。

其中，所述模型训练模块包括：

背景图像预处理子模块，用于准备背景图像数据集，其为画面中不含待检测图标的视频帧集合；

图标图像预处理子模块，用于准备仅含有待检测图标的图标图像，其含有四通道图像数据；

图像叠加子模块，用于将所述图标图像与所述背景图像数据集中的各个图像随机叠加，形成含有待检测图标的图像，作为训练数据集，训练形成图标检测模型；

其中，所述模型测试模块包括：

粗分类子模块，用于输出所述测试图像是否含有图标、以及所含图标的粗粒度分类信息和位置信息；

细分类子模块，用于进一步利用全卷积网络进行分类，输出测试图像中所含图标的细粒度分类信息。

4、根据本发明的实施例的安装了应用程序的系统

参照图4，其示出了根据本发明实施例的安装了应用程序的系统的运行环境。

在本实施例中，所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。该图仅示出了具有上述组件的电子装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器在一些实施例中可以是所述电子装置的内部存储单元，例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备，例如所述电子装置上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据，例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit，CPU)、微处理器或其他数据处理芯片，用于运行所述存储器中存储的程序代码或处理数据，例如执行所述安装应用程序的系统等。

所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的客户界面，例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解，上述实施方式中的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来，该计算机软件商品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、或者网络设备等)执行本发明本申请各个实施例所述的方法。

也就是说，根据本发明的实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有用于执行根据本发明的实施例的所述方法的程序，所述程序被处理器执行时，执行所述方法的各个步骤。

由上，将理解，为了说明的目的，这里已描述了本发明的具体实施例，但是，可作出各个修改，而不会背离本发明的范围。本领域的技术人员将理解，流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地，可重新安排步骤的次序，可并行执行步骤，可省略步骤，可包括其它步骤，可作出例程的各种组合或省略。因而，本发明仅由所附权利要求限制。

参考文献列表

1、Ostu N.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems,Man and Cybernetics,1979,9(1):62-66.

2、史迎春,周献中,方鹏飞.综合利用形状和颜色特征的台标识别[D].,2005.

3、周献中,史迎春,王韬.基于HSV颜色空间加权Hu不变矩的台标识别[J].南京理工大学学报:自然科学版,2005,29(3):363-367.

4、Jingmeng H,Yuxiang X,Xidao L,et al.A TV logo detection andrecognition method based on SURF feature and bag-of-words model[C]//Computerand Communications(ICCC),2016 2nd IEEE International Conference on.IEEE,2016:370-374.

5、Bhosle V V,Pawar V P.Automatic Logo Extraction and Detection forDocument Verification using SIFT and SURF[J].International Journal ofEngineering Research&Technology,2017:555-560.

6、刘琨.基于深度学习的台标检测在网络视频审核中的应用[J].无线互联科技,2018(2018年15):36-38.

7、徐佳宇,张冬明,靳国庆,包秀国,袁庆升,张勇东.PNET:像素级台标识别网络[J].计算机辅助设计与图形学学报,2018,30(10):1878-1889.

Claims

1.一种基于深度学习的图标检测方法，包括模型训练阶段和模型测试阶段，

其中，所述模型训练阶段包括以下步骤：

步骤1、准备画面中不含待检测图标的视频帧集合；

步骤2、准备仅含有待检测图标的图标图像，其包含颜色通道和Alpha通道数据、以及图标分类信息；

步骤3、将所述图标图像与视频帧集合中的各个帧进行随机的图像叠加，形成含有待检测图标的叠加图像，作为训练数据集，训练形成图标检测模型；

其中，所述模型测试阶段包括以下步骤：

步骤4、将待检测图像输入所述图标检测模型，所述图标检测模型输出检测结果，所述检测结果包括所述测试图像是否含有图标、所含图标的分类信息和位置信息。

2.根据权利要求1所述的图标检测方法，其中，所述检测结果包括所含图标的粗粒度分类信息；

其中，所述图标检测方法还包括：

步骤5、进一步利用全卷积网络进行分类，获取所含图标的细粒度分类信息。

3.根据权利要求1所述的图标检测方法，其中，所述视频帧集合是通过对不含待检测图标的视频提取关键帧而生成的关键帧集合。

4.根据权利要求3所述的图标检测方法，其中，通过以下步骤生成关键帧集合：

步骤1-1、判断所述视频中的视频帧是否满足以下条件：

条件1：E_h＞E_T；

条件2：S_i+1＜S_T；

条件3：或者N＜N_T；

E_h为视频帧的直方图的熵，E_T为熵阈值，

其中，S_i为所述第i视频帧与相邻帧之间的直方图交，如下计算S_i：

其中，h_i代表第i帧的直方图，n为直方图箱的个数，

其中，S_T为直方图交的阈值，N为关键帧间隔，N_T为最大关键帧间隔，

步骤1-2、提取同时满足条件1至3的视频帧，作为关键帧。

5.根据权利要求1所述的图标检测方法，其中，步骤2包括：

步骤2-1、将含有颜色通道的图标图像转换为灰度图像并计算其归一化的灰度直方图，使用OSTU算法确定类间方差g最大的灰度级别，作为前景像素和背景像素划分的阈值，其中各个灰度级别所对应的类间方差g的计算公式如下：

g＝w_fw_b(u_f-u_b)²

其中，N_f和N_b分别表示依据当前灰度级别对图像进行划分后的前景区域和背景区域，|N_f|和|N_b|代表前景区域和背景区域所包含的像素点个数，I(m,n)表示像素点(m,n)处的灰度值；

根据前景像素和背景像素划分的阈值，对视频帧添加Alpha通道数据。

6.根据权利要求1所述的图标检测方法，其中，所述步骤3包括：

步骤3-1、对所述图标图像进行缩放，生成代表同一图标的不同比例的多个图标图像；

步骤3-2、将在步骤3-1中生成的图标图像与视频帧集合中的各个帧进行随机的图像叠加。

7.根据权利要求1或6所述的图标检测方法，其中，所述步骤3包括：

步骤3-3、对外形相似的图标图像分配相同的粗粒度分类信息。

8.根据权利要求7所述的图标检测方法，其中，所述步骤3包括：

步骤3-4、将所述训练数据集按照预定比例划分为训练集和测试集。

9.用于实现根据权利要求1至8中的一个所述的图标检测方法的图标检测系统，包括模型训练模块和模型测试模块，

其中，模型训练模块用于通过训练数据集训练形成图标检测模型，其中，所述训练数据集是图标图像与背景图像经过随机叠加而形成的，

其中，所述模型测试模块用于接收测试图像的输入，并输出检测结果，所述检测结果包括所述测试图像是否含有图标、所含图标的分类信息和位置信息，

其中，所述模型训练模块包括：

其中，所述模型测试模块包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有用于执行根据权利要求1至8中的任一个所述的方法的程序，所述程序被处理器执行时，执行所述方法的步骤。