CN116188906A

CN116188906A - 一种识别弹窗图像中关闭标识的方法、装置、设备及介质

Info

Publication number: CN116188906A
Application number: CN202310166652.1A
Authority: CN
Inventors: 朱治潮; 高诗林; 刘琳琅
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-05-30

Abstract

本说明书实施例公开了一种识别弹窗图像中关闭标识的方法、装置、设备及介质。方案包括：获取待识别弹窗图像；对所述待识别弹窗图像进行分割，得到多个子图像；基于所述多个子图像，得到若干个候选图像；一个候选图像至少包括两个所述子图像；一个候选图像对应于所述待识别弹窗图像中的一个对象；按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合；将所述目标候选图像集合中的各个图像输入到预先训练的关闭标识识别模型中，识别得到包含所述关闭标识的图像。

Description

一种识别弹窗图像中关闭标识的方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种识别弹窗图像中关闭标识的方法、装置、设备及介质。

背景技术

随着计算机技术的发展越来越多的业务或者信息通过网络传播，许多业务方会使用活动弹窗的方式吸引用户流量。同时也会出现一些业务方故意不设置弹窗关闭按钮，强制用户点击广告的违规营销行为。这种行为会带来用户体交互问题，甚至会诱发用户舆情。因此如何快速准确的判断弹窗页面中是否关闭按钮成为了急需解决的问题。

发明内容

本说明书实施例提供一种识别弹窗图像中关闭标识的方法、装置、设备及介质，以解决现有的关闭标识识别的方法存在的效率低、不准确的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种识别弹窗图像中关闭标识的方法，包括：

获取待识别弹窗图像；

对所述待识别弹窗图像进行分割，得到多个子图像；

基于所述多个子图像，得到若干个候选图像；一个候选图像至少包括两个所述子图像；一个候选图像对应于所述待识别弹窗图像中的一个对象；

按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合；所述预设筛选条件包括面积小于或等于第一预设阈值，或面积占比值小于或等于第二预设阈值；所述面积占比值用于表示所述候选图像在所述待识别弹窗图像中的面积占比；

将所述目标候选图像集合中的各个图像输入到预先训练的关闭标识识别模型中，识别得到包含所述关闭标识的图像。本说明书实施例提供的一种关闭标识识别模型的训练方法，包括：

获取训练样本；所述训练样本包括包含关闭标识的图像和未包含关闭标识的图像；

获取待训练的神经网络模型；所述待训练的神经网络模型包括4个卷积层，其中，第一卷积层和第二卷积层相连，第三卷积层与第四卷积层相连，第二卷积层与第三卷层通过第一池化层相连；

利用所述训练样本对所述待训练的神经网络模型进行训练，得到关闭标识识别模型。

本说明书实施例提供的一种识别弹窗图像中关闭标识的装置，包括：

图像获取模块，用于获取待识别弹窗图像；

图像分割模块，用于对所述待识别弹窗图像进行分割，得到多个子图像；

图像处理模块，用于基于所述多个子图像，得到若干个候选图像；一个候选图像至少包括两个所述子图像；一个候选图像对应于所述待识别弹窗图像中的一个对象；

图像筛选模块，用于按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合；所述预设筛选条件包括面积小于或等于第一预设阈值，或面积占比值小于或等于第二预设阈值；所述面积占比值用于表示所述候选图像在所述待识别弹窗图像中的面积占比；

图像识别模块，用于将所述目标候选图像集合中的各个图像输入到预先训练的关闭标识识别模型中，识别得到包含所述关闭标识的图像。

本说明书实施例提供的一种关闭标识识别模型的训练装置，包括：

样本获取模块，用于获取训练样本；所述训练样本包括包含关闭标识的图像和未包含关闭标识的图像；

模型获取模块，用于获取待训练的神经网络模型；所述待训练的神经网络模型包括4个卷积层，其中，第一卷积层和第二卷积层相连，第三卷积层与第四卷积层相连，第二卷积层与第三卷层通过第一池化层相连；

模型训练模块，用于利用所述训练样本对所述待训练的神经网络模型进行训练，得到关闭标识识别模型。

本说明书实施例提供的一种识别弹窗图像中关闭标识的设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取待识别弹窗图像；

对所述待识别弹窗图像进行分割，得到多个子图像；

将所述目标候选图像集合中的各个图像输入到预先训练的关闭标识识别模型中，识别得到包含所述关闭标识的图像。

本说明书实施例提供的一种关闭标识识别模型的训练设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现一种识别弹窗图像中关闭标识的方法或者关闭标识识别模型的训练方法。

本说明书一个实施例实现了能够达到以下有益效果：

本说明书实施例中可以待识别弹窗图像进行分割，并得到若干个候选图像，按照预设条件进行图像筛选，得到目标候选图像集合，将满足预设条件的目标候选图像集合中的各图像通过预先训练的关闭标识识别模型进行识别，得到包含关闭标识的图像。其中，目标候选图像集合中包含的满足预设条件的图像为待识别弹窗图像的局部图像，将满足预设条件的图像通过预先训练的关闭标识识别模型进行识别，可以将不可能是关闭标识的图像进行过滤，减少模型识别的数据量，进而可提高识别的弹窗图像中关闭标识的效率以及准确性。

并且，本说明书实施例中采用预先训练的关闭标识识别模型进行识别，也可减少人力巡检问题的成本。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例中一种识别弹窗图像中关闭标识的方法的应用场景示意图；

图2为本说明书实施例提供的一种识别弹窗图像中关闭标识的方法的流程示意图；

图3为本说明书实施例中提供的一种识别结果的示意图；

图4为本说明书实施例提供的一种关闭标识识别模型的训练方法的流程示意图；

图5为本说明书实施例提供的一种模型训练以及识别弹窗图像中关闭标识的方法的流程示意图；

图6为本说明书实施例提供的对应于图2的一种识别弹窗图像中关闭标识的装置的结构示意图；

图7为本说明书实施例提供的对应于图4的一种关闭标识识别模型的训练装置的结构示意图；

图8为本说明书实施例提供的一种识别弹窗图像中关闭标识的设备或关闭标识识别模型的训练设备的结构示意图。

具体实施方式

为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书一个或多个实施例保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

现有技术中，常见的弹窗关闭检测方法主要包括：

肉眼观察检测：主要是采用人工肉眼巡查的方式，对海量页面弹窗进行遍历搜查，观察没有关闭行动点的弹窗。这需要较多的人力，无法满足较庞大业务巡检需求。

基于OCR(Optical Character Recognition，光学字符识别)+经验库检测：主要依靠图像OCR处理技术，识别页面中的文字，通过文字经验库来判断页面中是否存在关闭按钮。该方法覆盖面偏低，只能识别带有关闭文案的按钮，没有能力识别图形按钮。

前端Dom(Document Object Model，文档对象模型)树检测：利用前端Dom树能力探查页面中可能存在的绝对定位的弹窗，通过文案匹配弹窗中是否存在关闭按钮。该方法无法检测图标类型的按钮，且只能识别脱离文档流的绝对定位的弹窗，覆盖面有限。

为了解决现有技术中的缺陷，本方案给出了以下实施例：

图1为本说明书实施例中一种识别弹窗图像中关闭标识的方法的应用场景示意图。如图1所示，该方案可以包括待识别弹窗图像1、服务器2。其中，服务器2中可以包含用于对图像进行分割以及拼接筛选的程序，还可以包含识别模型，具体的可以将待识别弹窗图像进行分割，得到多个子图像，再将至少两个子图像进行拼接得到若干个候选图像，并将满足预设条件的候选图像输入预先训练的关闭标识识别模型中进行识别。

接下来，将针对说明书实施例提供的一种识别弹窗图像中关闭标识的方法结合附图进行具体说明：

图2为本说明书实施例提供的一种识别弹窗图像中关闭标识的方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图2所示，该流程可以包括以下步骤：

步骤202：获取待识别弹窗图像。

待识别弹窗图像可以是包含弹窗的页面图像，例如小程序、终端应用、网页等页面中出现弹窗的页面，可以是页面截图，也可以是捕捉到的页面图像。

实际应用中，服务器或者终端可以采集用户使用终端的过程中浏览到的弹窗页面，可以将用户浏览到的弹窗页面作为待识别弹窗图像。也可以是服务器或终端通过后台数据采集的方式获取到的图像，具体获取方式这里不作具体限定。

步骤204：对所述待识别弹窗图像进行分割，得到多个子图像。

本说明书实施例中可以将待识别弹窗图像按照预设尺寸或者预设数量进行分割，也可以利用现有的图像分割算法进行分割，得到多个尺寸较小的子图像。

步骤206：基于所述多个子图像，得到若干个候选图像；一个候选图像至少包括两个所述子图像；一个候选图像对应于所述待识别弹窗图像中的一个对象。

分割后得到的多个子图像是尺寸较小的图像，可能存在将关闭标识分割成多个子图像的情况，也可能存在将较大对象分割成多个小图像的情况，为保证识别的准确性，本说明书实施例中还可以将子图像进行拼接，得到若干个候选图像，其中，一个候选图像可以对应于待识别弹窗图像中的一个对象。一个对象可以理解为一个目标、一个分类等，例如，待识别弹窗图像为页面截图，该截图中包含基础页面的部分内容、弹窗页面内容等，具体的还可以包含文字、图像等，可以根据位置、颜色、纹理等属性将子图像进行拼接得到候选图像，例如，一个候选图像可以是包含位于页面左上角位置的文字的图像，也可以是包含位于页面中间的某图形的图像，还可以是通过颜色划分出的一个图像区域。

步骤208：按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合；所述预设筛选条件包括面积小于或等于第一预设阈值，或面积占比值小于或等于第二预设阈值；所述面积占比值用于表示所述候选图像在所述待识别弹窗图像中的面积占比。

考虑到实际应用中弹窗中的关闭标识的面积不会很大，本说明书实施例中可以通过面积或者面积占比的方式筛选出可能存在关闭标识的图像区域，也就是可以筛除掉不可能存在关闭标识的图像区域，可以将若干个候选图像中满足预设少选条件的候选图像确定为目标候选图像集合中的图像。

步骤210：将所述目标候选图像集合中的各个图像输入到预先训练的关闭标识识别模型中，识别得到包含所述关闭标识的候选图像。

目标候选图像集合中的图像为可能包含关闭标识的图像，可以输入至预先训练得到的识别模型中进行识别。应当理解，本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。

图2中的方法，可以将待识别弹窗图像进行分割，并得到若干个候选图像，按照预设条件进行图像筛选，得到目标候选图像集合，将满足预设条件的目标候选图像集合中的各图像通过预先训练的关闭标识识别模型进行识别，得到包含关闭标识的图像。其中，目标候选图像集合中包含的满足预设条件的图像为待识别弹窗图像的局部图像，将满足预设条件的图像通过预先训练的关闭标识识别模型进行识别，可以将不可能是关闭标识的图像进行过滤，减少模型识别的数据量，进而可提高识别的弹窗图像中关闭标识的效率以及准确性。

并且，本说明书实施例中采用预先训练的关闭标识识别模型进行识别，也可减少人力巡检问题的成本。。

基于图2的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

为进一步保证识别的准确性，本说明书实施例中的目标候选图像集合中也可以包含分割得到的多个子图像中满足预设筛选条件的图像。可选的，本说明书实施例中的方法还可以包括：

按照所述预设筛选条件对所述多个子图像进行筛选，将所述多个子图像中满足所述预设筛选条件的子图像作为所述目标候选图像集合中的图像。

本说明书实施例中可以利用现有的图像分割算法进行图像分割，上述对所述待识别弹窗图像进行分割，得到多个子图像，具体可以包括：

利用图像分割算法，将所述待识别弹窗图像进行分割，得到多个子图像；其中所述图像分割算法可以包括基于相似度进行图像分割的算法。

其中，图像分割算法可以为基于图的图像分割算法(Graph-Based ImageSegmentation)。

本说明书实施例中还可以对子图像进行拼接，得到候选图像。可选的，上述基于所述多个子图像，得到若干个候选图像，具体可以包括：

针对所述多个子图像中的各个图像，计算相邻的子图像的相似度；

将相似度满足预设条件的相邻的子图像进行拼接，得到候选图像。

实际应用中，可以从颜色、纹理、大小等属性综合计算相似度，将相似度较高的相邻子图像进行拼接，使得拼接得到的候选图像可以表示一个对象，或者是将表示一个对象的各个子图像拼接到一起，可尽量减少因图像分割产生的干扰图像，可提高识别关闭标识的准确性。

作为一种实施方式，上述基于所述多个子图像，得到若干个候选图像，具体可以包括：

对于所述多个子图像中的一个子图像，计算所述多个子图像中与所述一个子图像相邻的子图像与所述一个子图像的第一相似度；

将所述第一相似度最高的与所述一个子图像相邻的子图像与所述一个子图像进行拼接，得到第一候选图像。

实际应用中，还可以将拼接得到的第一候选图像作为子图像进一步的进行拼接，例如，可以计算与第一候选图像相邻的子图像与第一候选图像的相似度，将相似度最高的子图像与第一候选图像进行拼接得到第二候选图像。以此类推可以得到若干个候选图像。

具体的上述得到候选图像的过程可以包括：将待识别弹窗图像通过图像分割方法创建目标检测的感兴趣区域(ROI)，得到一些小尺度的区域集R，区域集R中可以包含分割得到的各个子图像，还可以初始化相似度集合

然后运用相似度算法，可以包含颜色、纹理、尺度以及填充等因素考虑的相似度算法，计算区域集R中两个相邻区域之间的相似度，将得到的相似度添加到相似度集合S中；相似度集合S可以用于记录计算得到的相似度以及对应的区域；然后可以从集合S中找出相似度最大的两个区域r_i和r_j，将其合并成为一个新区域r_n，除去相似度集合S中r_i和r_j之间计算的相似度，并计算r_n与其相邻区域的相似度，将其结果加入到相似度集合S中。同时将新区域r_n添加到区域集合R中，按此方法不断合并，直到没有可以计算的相邻区域，或者相似度集合S为空；将最终集合R中的区域作为待筛选的候选区域。

相较于使用穷举法或滑动窗口移动法筛选出图像中目标对象出现的区域，这些方法会产生很多的冗余候选区域，时间复杂度太高，而且由于不可能每个尺度都兼顾到，因此得到的目标对象也不可能那么准。而本说明书实施例中可以先创建目标检测的感兴趣区域(ROI)，先利用基于图的图像分割的方法得到小尺度的区域，然后一次次合并得到大的尺寸。考虑所有特征，例如颜色、纹理、大小等，同时考虑到计算复杂度，能有效地去除冗余候选区域，使得计算量大大的减小。最后通过非极大值抑制输出结果，得到准确的目标对象信息。

本说明书实施例中还可以将待识别弹窗图像运用选择性搜索算法得到图像的候选区域。

本说明书实施例中得到的候选图像可以包括若干个不同尺寸的图像。可以根据图像尺寸进一步对候选图像进行筛选。上述按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合，具体可以包括：

确定所述若干个候选图像中各个候选图像的面积；

判断各个候选图像的面积是否小于或等于第一预设阈值；

将面积小于或等于第一预设阈值的候选图像确定为所述目标候选图像集合中的图像。

其中，可以根据图像坐标、像素等信息确定图像的面积，图像的面积可以用像素值来表示，第一预设阈值可以为像素阈值，例如，5KB、10KB等，具体数值可以根据实际需求进行设置，这里不作具体限定。

还可以通过面积占比进行筛选，上述按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合，具体可以包括：

确定所述若干个候选图像中各个候选图像的面积；

确定所述待识别弹窗图像的面积；

基于各个候选图像的面积和所述待识别弹窗图像的面积，确定各个候选图像的面积占比值；

判断各个候选图像的面积占比值是否小于或等于第二预设阈值；

将面积占比值是否小于或等于第二预设阈值的候选图像确定为所述目标候选图像集合中的图像。

其中，面积占比值可以是候选图像的面积与待识别弹窗图像的面积的比值，可以表示候选图像在待识别弹窗图像中所占的面积比例。第二预设阈值可以根据实际需求进行设定，例如十分之一、五分之一、十五分之一等等，具体数值这里不作具体限定。

实际应用中，还可以根据识别结果的准确性以及效率，调整第一预设阈值或第二预设阈值，具体的可以人为调整，也可以通过机器学习的方法来调整。

本说明书实施例中筛选出的目标候选图像集合中可以包含一个或多个图像，具体可以包含分割处理得到的子图像中符合预设筛选条件的图像，也可以包含基于子图像得到的候选图像中符合预设筛选条件的图像，其中，可以将该集合中的各个图像分别输入至预先训练的关闭标识识别模型中，基于各个图像的识别结果来确定待识别弹窗图像包含关闭标识的情况。可选的，上述将所述目标候选图像集合中的各个图像输入到预先训练的关闭标识识别模型中，得到包含关闭标识的候选图像，具体可以包括：

将所述各个图像分别输入到所述预先训练的关闭标识识别模型中，得到各个图像对应的识别分值；所述识别分值用于表示图像包含关闭标识的概率；

将所述识别分值最高的图像，确定为包含关闭标识的图像。

其中，预先训练的关闭标识识别模型可以是经过训练的神经网络模型，可以对目标候选图像集合中的各个目标候选图像进行识别，识别分值最高的图像表示包含关闭标识的图像。实际应用中，还可以将目标候选图像集合中的各个图像输入到模型中产出的最终的score得分值，得到区域得分矩阵；从得分矩阵中找出得分值最高的区域图像。

为保证识别的准确性，还可以判断确定出的最高识别分值的图像的识别分值是否大于或等于预设阈值，若是，则可以将该图像确定为包含关闭标识的图像，若否，则可以重新执行上述图2所示的识别流程，也可以确定该待识别弹窗图像未包含关闭标识。针对同一待识别弹窗图像的识别次数可以根据实际需求进行设定，这里不作具体限定。本说明书实施例中若经过一次或多次识别得到的最高识别分值均小于预设阈值，也可以确定该待识别弹窗图像未包含关闭标识。

实际应用中，若识别出弹窗图像中未包含关闭标识，可以表示该弹窗图像存在不合规的可能，可以上报至管理或审核人员进行处理。

本说明书实施例中还可以确定出关闭标识的位置，可选的，本说明书实施例中的方法还可以包括：

确定所述包含关闭标识的图像在所述待识别弹窗图像中的位置信息。

其中，包含关闭标识的图像的位置可以表示关闭标识的位置，为更准确的表示关闭标识的位置，可以将该图像的中心位置作为最终位置输出。

图3为本说明书实施例中提供的一种识别结果的示意图，如图3所示，可以通过图框301等方式标记出包含关闭标识的图像区域，还可以得到该区域的识别分值以及位置信息302。

本说明书实施例中先将图像分割成小的子图像，再将小图像拼接成可以表示一个对象的候选图像，并且使用预先训练的网络模型进行识别，可以用于识别各种类型的关闭标识，如包含文字描述的、不包含文字描述的、包含字符图示的等等，适用范围也可以更广。

实际应用中，为保证识别出的关闭标识为具有关闭弹窗的功能的标识，还可以获取该待识别弹窗图像的代码，从代码中获取该关闭标识对应的代码，判断该代码的功能是否包含关闭弹窗的功能，若是，则可以确定该待识别弹窗图像中包含关闭控件。实际应用中，可以设置关键代码库，该关键代码库中可以包含用于关闭弹窗的代码语句中包含的关键代码，可以将该关闭标识对应的代码与该关键代码库中的代码进行比对，若该关闭标识对应的代码中包含关键代码库中的代码可以表示该关闭标识具有关闭弹窗的功能。

也可以通过计算机模拟点击关闭标识的操作来判断该关闭标识是否具有关闭弹窗的功能。其中，可以获取弹窗以及弹窗所在页面的代码，服务器可以渲染该页面以及弹窗，然后模拟人为点击关闭标识。

基于同样的思路，本说明书实施例还提供了训练得到上述用于识别关闭标识的关闭标识识别模型的方法。图4为本说明书实施例提供的一种关闭标识识别模型的训练方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图4所示，该流程可以包括以下步骤：

步骤402：获取训练样本；所述训练样本包括包含关闭标识的图像和未包含关闭标识的图像。

训练样本可以是训练样本可以是基于已有的弹窗图像得到的，可以是经过多年累积收集的业务弹窗样本数据。实际应用中可以将弹窗中的关闭按钮图标或者其他形式的关闭标识进行裁切提取作为正样本，同时也可以提取弹窗中的一些背景区域作为对照集进行负样本打标。其中，打标内容可以用于0和1表示，1可以代表是正样本，即，关闭按钮，0可以代表负样本，即非关闭按钮背景图。也可以用其他方式打标，这里不作具体限定。

步骤404：获取待训练的神经网络模型；所述待训练的神经网络模型包括4个卷积层，其中，第一卷积层和第二卷积层相连，第三卷积层与第四卷积层相连，第二卷积层与第三卷层通过第一池化层相连。

本说明书实施例中的神经网络模型可以包含4个卷积层，用4层的卷积就可以充分地从低维到高维提取到图像中的关键特征。

步骤406：利用所述训练样本对所述待训练的神经网络模型进行训练，得到关闭标识识别模型。

本说明书实施例中通过训练包含4个卷积层的神经网络模型可以得到能够准确识别弹窗图像中的关闭标识的关闭标识识别模型，模型结构无需太过复杂，也可保证识别效率。

为了提高模型的性能，本说明书实施例中上述获取训练样本之后，还可以包括：

将所述训练样本进行数据增强处理，得到增强后的训练样本；所述增强后的训练样本的数量大于或等于所述训练样本的数量。

其中，数据增强处理包括旋转、错切、翻转、缩放中至少一种处理方式。本说明书实施例中通过数据增强处理可以增加训练样本的多样性，可以将数据增强处理之前的训练样本以及数据增强处理之后得到的训练样本作为训练上述模型的训练样本集合，有利于提高模型的性能。

本说明书实施例中还可以将训练集合中的数据进行归一化处理，保证模型在后续的训练中能够平稳收敛。可选的，本说明书实施例中的方法还可以包括：对所述训练数据进行归一化处理。

常用归一化方法有最大-最小标准化，Z-score标准化，函数转化等等。作为一种实施方式，本说明书实施例中归一化处理可以包括均值方差归一化的处理方式。其中，归一化并不是简单的将整体的数值转换到0-1区间，这样做会改变原始数据的分布状态，而是可以使用均值方差归一化(x-u/S)的方式，其中u为均值，S为标准差。这样可以消除奇异样本数据导致的不良影响，也可以保证整个训练中的梯度平稳，进而加快模型的收敛速度。

作为一种实施方式，本说明书实施例中的待训练的神经网络模型可以包括11层的神经网络，上述第四卷积层可以通过第二池化层、第一dropout层以及flatten层与第一全连接层相连，第一全连接层可以通过第二dropout层与第二全连接层相连。

其中，第一层可以为第一卷积层，卷积核大小可以为3*3，卷积核种类可以为32种，输入图像的尺寸大小可以为(80,80,1)，输出可以为(78,78,32)，即提取得到32张不同图像。第二层可以为第二卷积层：卷积核大小可以为3*3，卷积核种类可以为32种，输入图像的尺寸大小可以为(78,78,32)，输出可以为(76,76,32)。第三层可以为第一池化层：采用最大池化方式，池化窗口可以为2，步长可以为2，输入尺寸为可以(76,76,32)，输出可以为(38,38,32)。第四层可以为第三卷积层：卷积核大小可以为3*3，卷积核种类可以为64，输入尺寸可以为(38,38,32)，输出可以为(36,36,64)。第五层可以为第四卷积层：卷积核大小可以为3*3，卷积核种类可以为64，输入尺寸可以为(36,36,64)，输出可以为(34,34,64)。第六层可以为第二池化层：采用最大池化方式，池化窗口可以为2，步长可以为2，输入尺寸可以为(34,34,64)，输出可以为(17,17,64)。第七层可以为第一dropout层：可以随机选择25％的神经元并将其隐藏，不参与权重矩阵的计算。第八层可以为flatten层：将多维的输入一维化，用在卷积层到全连接层的过渡。输入可以为(17,17,64)，输出可以为18496。第九层可以为第一全连接层：输入图像尺寸可以为18496，输出为可以128。其中，在计算损失loss的时候可以在网络中增加L2正则罚因子，进一步防止训练过拟合的现象发生。第十层可以为第二dropout层：可以随机选择50％的神经元并将其隐藏，不参与权重矩阵的计算。第十一层可以为第二全连接层，即输出层：输入图像尺寸可以为128，输出可以为二分类的最终结果，根据概率值即上述识别分值，来判断是否为关闭按钮。

可以理解的是，上述卷积核大小、图像的输入以及输出尺寸等具体数据可以根据实际需求确定，上述仅是为了说明模型结构以及原理进行的举例说明，相同或相似的模型结构应该均在本实施例的范围中。

在模型训练过程中还可以选取交叉熵函数作为损失函数，使用优化算法adam和反向传播调整模型结构和超参数进行训练。可以通过模型的准确率和召回率进行综合性评估，当评估结果符合要求时，可以结束训练。

本说明书实施例中上述网络至少具有以下优点：第一，网络使用4层的卷积就可以充分地从低维到高维提取到图像中的关键特征。第二，使用了MaxPooling保留了图像局部的最大特征，加上在深度网络中使用了0.5系数的dropout层进一步减弱神经元节点间的联合适应性，使得整个模型的泛化性更强，防止训练出现过拟合现象。第三，选取交叉熵函数作为损失函数，使用优化算法adam和反向传播调整模型结构和超参数进行训练，提高训练效果。第四，全连接层在训练的损失函数中使用了L2正则，降低神经网络的复杂性，进一步防止模型出现过拟合现象。

为更清楚的说明本说明书实施例中提供的模型训练以及关闭标识识别的方法，图5为本说明书实施例提供的一种模型训练以及识别弹窗图像中关闭标识的方法的流程示意图，如图5所示，该流程可以包括模型训练阶段以及识别阶段。

其中，在模型训练阶段可以包括：

步骤502：开始训练，获取训练样本。训练样本可以包括关闭按钮图像。

步骤504：将训练样本统一缩放至预设大小，例如，可以为80*80px像素。实际应用中，该预设大小可以根据网络模型的需求进行设定。图像输入模型后会转为向量或矩阵，当网络最后输入到全连接层进行分类时，其输入维度一般是固定尺寸，将输入图像大小统一化到固定尺寸，方便整个网络的训练。针对本说明书实施例中识别弹窗图像的关闭标识的场景，优选为80*80px，该尺寸能较好的保留整个关闭按钮的所有特征并且可以获取到良好的模型训练效果。

步骤506：通过旋转、错切、翻转、缩放等方式对获取到的训练样本数据进行数据增强，得到训练集。其中，也可以将数据增强处理后的数据缩放到预设大小。

步骤508：对训练集中的图像进行归一化处理，保证模型在后续的训练中能够平稳收敛。

步骤510：利用归一化处理后的训练数据对卷积神经网络模型进行训练，得到用于识别弹窗图像中的关闭标识的关闭标识识别模型。其中，卷积神经网络模型的最后输出层可以与分类器相连，应于直接输出识别结果。本说明书实施例中所说的关闭标识识别模型可以包括卷积神经网络模型以及分类器。

如图5所示，卷积网络模型的具体结构可以如上述介绍内容，conv代表卷积层，卷积核都可以使用3*3大小，卷积后使用Relu激活函数进行参数激活。卷积使用MaxPooling最大池化操作保留局部最大特征。网络中在全连接层(Dense)后插入dropout层，以防止模型过拟合的问题。网络通过一个全连接层输出两类，即是否为关闭按钮的最终得分值。最终通过softmax函数来判断该图像是否是关闭按钮。

其中，在识别阶段可以包括：

步骤512：获取待识别弹窗图像。

步骤514：通过对图像进行分割以及拼接，得到候选图像。其中也可以通过选择性搜索算法对待识别弹窗图像进行处理得到候选图像。

步骤516：根据面积或面积占比等预设筛选条件，筛选出目标候选图像集合，过滤掉无效图像。

步骤518：将目标候选图像集合中的各个图像输入训练得到的关闭标识识别模型，得到各个图像对应的识别分值。

步骤520：选取最高得分的图像区域输出，可以标记该区域，也可以输出该区域的位置信息。

本说明书实例提供的用于识别弹窗图像中关闭标识的识别方案，可以提高违规弹窗检测的智能化水平，大大地节约了人力巡检成本，可运用于线下巡检、线上排查、上线前卡审等多种场景。

本说明书实施例提供的方案引入了深度学习和目标检测的图像算法，解决了现有技术中OCR和前端Dom树识别无法检测弹窗关闭按钮的缺陷。首先使用卷积神经网络对关闭按钮图像进行特征提取和训练，得到高精度的关闭按钮分类模型。其次使用对待识别图像进行筛选，也可以使用图像选择性搜索算法，将待识别的页面截图分割成多个候选区域，将每个候选区域输入到网络模型训练得到的分类模型中得到得分矩阵，选取得分最高的候选区域作为弹窗关闭按钮区域产出作为最终结果。该方案不仅能区分页面是否存在弹窗关闭按钮或标识，还可以输出具体的位置坐标，检测效率也较高。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图6为本说明书实施例提供的对应于图2的一种识别弹窗图像中关闭标识的装置的结构示意图。如图6所示，该装置可以包括：

图像获取模块602，用于获取待识别弹窗图像；

图像分割模块604，用于对所述待识别弹窗图像进行分割，得到多个子图像；

图像处理模块606，用于基于所述多个子图像，得到若干个候选图像；一个候选图像至少包括两个所述子图像；一个候选图像对应于所述待识别弹窗图像中的一个对象；

图像筛选模块608，用于按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合；所述预设筛选条件包括面积小于或等于第一预设阈值，或面积占比值小于或等于第二预设阈值；所述面积占比值用于表示所述候选图像在所述待识别弹窗图像中的面积占比；

图像识别模块610，用于将所述目标候选图像集合中的各个图像输入到预先训练的关闭标识识别模型中，识别得到包含所述关闭标识的图像。

各个模块的能够执行的具体方法以及该装置能够执行的其他方法可以参照上述方法的实施例中的描述内容，这里不再赘述。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图7为本说明书实施例提供的对应于图4的一种关闭标识识别模型的训练装置的结构示意图。如图7所示，该装置可以包括：

样本获取模块702，用于获取训练样本；所述训练样本包括包含关闭标识的图像和未包含关闭标识的图像；

模型获取模块704，用于获取待训练的神经网络模型；所述待训练的神经网络模型包括4个卷积层，其中，第一卷积层和第二卷积层相连，第三卷积层与第四卷积层相连，第二卷积层与第三卷层通过第一池化层相连；

模型训练模块706，用于利用所述训练样本对所述待训练的神经网络模型进行训练，得到关闭标识识别模型。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图8为本说明书实施例提供的一种识别弹窗图像中关闭标识的设备或关闭标识识别模型的训练设备的结构示意图。如图8所示，设备800可以包括：

至少一个处理器810；以及，

与所述至少一个处理器通信连接的存储器830。

其中，对应于图2所示的识别弹窗图像中关闭标识的方法，所述存储器830存储有可被所述至少一个处理器810执行的指令820，所述指令被所述至少一个处理器810执行，以使所述至少一个处理器810能够：

获取待识别弹窗图像；

对所述待识别弹窗图像进行分割，得到多个子图像；

其中，对应于图4所示的关闭标识识别模型的训练方法，所述存储器830存储有可被所述至少一个处理器810执行的指令820，所述指令被所述至少一个处理器810执行，以使所述至少一个处理器810能够：

基于同样的思路，本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上述识别弹窗图像中关闭标识的方法或者关闭标识识别模型的训练方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于图8所示的设备而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC625D、AtmelAT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种识别弹窗图像中关闭标识的方法，包括：

获取待识别弹窗图像；

对所述待识别弹窗图像进行分割，得到多个子图像；

2.根据权利要求1所述的方法，所述方法还包括：

3.根据权利要求1所述的方法，所述对所述待识别弹窗图像进行分割，得到多个子图像，具体包括：

利用图像分割算法，将所述待识别弹窗图像进行分割，得到多个子图像；所述图像分割算法包括基于相似度进行图像分割的算法。

4.根据权利要求1所述的方法，所述基于所述多个子图像，得到若干个候选图像，具体包括：

5.根据权利要求4所述的方法，所述基于所述多个子图像，得到若干个候选图像，具体包括：

6.根据权利要求1所述的方法，所述候选图像包括若干个不同尺寸的图像。

7.根据权利要求1所述的方法，所述按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合，具体包括：

确定所述若干个候选图像中各个候选图像的面积；

判断各个候选图像的面积是否小于或等于第一预设阈值；

8.根据权利要求1所述的方法，所述按照预设筛选条件对所述若干个候选图像进行筛选，得到包含满足所述预设筛选条件的候选图像的目标候选图像集合，具体包括：

确定所述若干个候选图像中各个候选图像的面积；

确定所述待识别弹窗图像的面积；

9.根据权利要求1所述的方法，所述目标候选图像集合包括一个或多个图像；

所述将所述目标候选图像集合中的各个图像输入到预先训练的关闭标识识别模型中，得到包含关闭标识的候选图像，具体包括：

将所述识别分值最高的图像，确定为包含关闭标识的图像。

10.根据权利要求1所述的方法，所述方法还包括：

11.一种关闭标识识别模型的训练方法，包括：

12.根据权利要求11所述的方法，所述获取训练样本之后，还包括：

13.根据权利要求12所述的方法，所述数据增强处理包括旋转、错切、翻转、缩放中至少一种处理方式。

14.根据权利要求11所述的方法，所述获取训练样本之后，还包括：

对所述训练数据进行归一化处理。

15.根据权利要求14所述的方法，所述归一化处理包括均值方差归一化的处理方式。

16.根据权利要求11所述的方法，所述待训练的神经网络模型包括11层的神经网络，所述第四卷积层通过第二池化层、第一dropout层以及flatten层与第一全连接层相连，所述第一全连接层通过第二dropout层与第二全连接层相连。

17.一种识别弹窗图像中关闭标识的装置，包括：

图像获取模块，用于获取待识别弹窗图像；

18.一种关闭标识识别模型的训练装置，包括：

19.一种识别弹窗图像中关闭标识的设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取待识别弹窗图像；

对所述待识别弹窗图像进行分割，得到多个子图像；

20.一种关闭标识识别模型的训练设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

21.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至10中任一项所述的识别弹窗图像中关闭标识的方法或者权利要求11至16中任一项所述的关闭标识识别模型的训练方法。