CN112214737A

CN112214737A - 以图片为主的欺诈网页的识别方法、系统、装置和介质

Info

Publication number: CN112214737A
Application number: CN202011244992.4A
Authority: CN
Inventors: 刘广卫; 梁彦博; 王兆丽; 曹佃国; 乔志刚; 张笃强; 张安波
Original assignee: Shandong Bit Intelligent Technology Co ltd
Current assignee: Shandong Bittel Intelligent Technology Co ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-01-12
Anticipated expiration: 2040-11-10
Also published as: CN112214737B

Abstract

本发明公开了以图片为主的欺诈网页的识别方法、系统、装置和介质，属于诈骗网页识别技术领域，要解决的技术问题为如何克服欺诈网页检测在图片为主的网页上的不足，以快速有效的识别欺诈网页。方法，包括如下步骤：基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库；将待测标签树序列与特征库中欺诈标签树序列进行相似度计算，对于相似度高于阈值的待测标签树序列，认定对应的待测网页为可疑欺诈网页；对于可疑欺诈网页，如果所述恶意关键词的恶意度满足预设值，认定为欺诈网页；更新上述新的欺诈标签树序列对应的恶意值，并将所述新的欺诈标签序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。

Description

以图片为主的欺诈网页的识别方法、系统、装置和介质

技术领域

本发明涉及诈骗网页识别技术领域，具体地说是以图片为主的欺诈网页的识别方法、系统、装置和介质。

背景技术

检测一个网页是否存在欺诈信息通常采用两种方法，分别为专家系统法和机器学习方法，专家系统法即在网页中提取主要内容，包括题目、摘要和内容等，然后根据专家系统中预存的关键词等规则信息，判断网页中是否包含欺诈信息，该方法中特征词等规则信息需要人工进行维护，人力投入大。机器学习方法通过大量的网页内容提取和分类，将其分为欺诈网页和非欺诈网页，通过训练得到分类器后，使用分类器判断网页的欺诈属性，该方法中需要大量的标注。

即专家系统法和机器学习法均存在一定的问题，现存方法能够使用的关键前提在于网页中有比较丰富的文本信息，而在欺诈网页中，尤其是售卖假药的网页中，比较常见到的是大量的图片堆积起来，所有的有效信息都在图片中展示，这样现存的方法并不能拿到任何有效信息，导致检测结果不理想。如果使用OCR技术进行所有图片的识别，速度慢，效果差。

如何克服欺诈网页检测在图片为主的网页上的不足，以快速有效的识别欺诈网页，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供以图片为主的欺诈网页的识别方法、系统、装置和介质，来解决如何克服欺诈网页检测在图片为主的网页上的不足，以快速有效的识别欺诈网页的问题。

第一方面，本发明提供一种以图片为主的欺诈网页的识别方法，包括如下步骤：

收集以图片为主的欺诈网页构建网页样本；

对于每个欺诈网页，通过网页标签树提取工具提取标签树信息，并通过字符对标签树进行编码，根据标签对应的字符构建标签树序列，所述标签树序列作为欺诈标签树序列；

对于每个欺诈标签树序列对应的恶意值，基于样本统计值初始化所述恶意度，所述恶意值为恶意关键词的恶意度数值；

基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库，所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间；

对于以图片为主的待测网页，通过网页标签树提取工具提取标签树信息，并通过字符对标签树进行编码，根据标签对应的字符构建标签树序列，所述标签树序列作为待测标签树序列；

将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算，对于相似度高于阈值的待测标签树序列，认定对应的待测网页为可疑欺诈网页；

对于可疑欺诈网页，随机选取少量图片进行图片识别并查找恶意关键词，如果所述恶意关键词的恶意度满足预设值，认定所述可疑诈骗网页为欺诈网页，对应的所述待测标签树为新的欺诈标签树序列，与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列；

更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值，并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。

更优的，还包括如下步骤：

基于欺诈标签树序列的更新时间和恶意值，在离线状态下对特征库进行更新。

作为优选，所述清理步骤为：每隔预定时间，查看欺诈标签树序列对应的恶意值和最后的更新时间，将高于阈值且时间在有效期内的欺诈标签树序列进行保留。

作为优选，对于每个欺诈网页以及待测网页，通过网页标签树提取工具提取标签树信息后，对标签树进行剪裁，保留的标签包括但不限于div、href、table和img。

作为优选，通过一个映射关系记录标签树所有的标签。

作为优选，基于距离，将待检测标签树序列与欺诈标签树序列特征库中的欺诈标签树序列进行相似度计算。

作为优选，对于可疑欺诈网页，随机选取少量图片并通过OCR技术进行图片识别。

第二方面，本发明提供一种以图片为主的欺诈网页的识别系统，用于通过如第一方面任一项所述的以图片为主的欺诈网页的识别方法识别欺诈网页，所述系统包括：

采集模块，所述采集模块用于收集以图片为主的欺诈网页构建网页样本；

标签提取模块，所述标签提取模块用于通过网页标签树提取工具提取标签树信息，并通过字符对标签树进行编码，根据标签对应的字符构建标签树序列；或者，用于通过网页标签树提取工具提取标签树信息并对标签树进行剪裁，通过字符对剪裁后标签树进行编码，根据标签对应的字符构建标签树序列；

欺诈标签树模块，所述欺诈标签树模块调用标签提取模块，通过标签提取模块构建每个欺诈网页的标签树序列作为欺诈标签树；

恶意值初始化模块，所述恶意值初始化模块用于对于每个欺诈标签树序列对应的恶意值，基于样本统计值初始化所述恶意度，所述恶意值为恶意关键词的恶意度数值；

特征库初始化模块，所述特征库初始化模块用于基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库，所述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间；

待测网页初判模块，所述待测网页初判模块用于获取待测网页并判断所述待测网页是否为以图片为主的待测网页；

可疑欺诈网页判断模块，所述可疑欺诈网页判断模块用于调用标签提取模块，通过标签提取模块构建待测网页的标签树序列作为待测标签树，并用于将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算，对于相似度高于阈值的待测标签树序列，认定对应的待测网页为可疑欺诈网页；

欺诈网页判断模块，所述欺诈网页判断模块用于对于可疑欺诈网页，随机选取少量图片进行图片识别并查找恶意关键词，并用于判断所述恶意关键词的恶意度是否满足预设值，如果是，认定所述可疑诈骗网页为欺诈网页，对应的所述待测标签树为新的欺诈标签树序列，与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列；

特征库更新模块，所述特征库更新模块用于更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值，并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库；

特征库清理模块，所述特征库清理模块用于基于欺诈标签树序列的更新时间和恶意值，在离线状态下对特征库进行更新。

第三方面，本发明提供一种装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行第一方面任一所述的方法。

第三方面，本发明提供一种介质，为计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行第一方面任一所述的方法。

本发明的以图片为主的欺诈网页的识别方法、系统、装置和介质具有以下优点：

1、获取图片为主的欺诈网页构建样本网页，构建欺诈网页对应欺诈标签树序列，通过欺诈标签树序列及其更新时间和恶意值构建特征库，计算待测网页对应的待测标签树序列，基于待测标签树序列与欺诈标签树序列的相似度判断可疑欺诈网页，进一步基于恶意值判断可疑欺诈网页是否为欺诈网页，并更新特征库，实现了欺诈网页的识别，该方法不需要很多的以图片为主的欺诈网页数据，可以持续的生成多种网页框架特征，快速建立和维护一个欺诈网页框架，使用这个特征集，检测速度快，而且准确率和召回率都较高，可以弥补当前欺诈网页检测方法在图片为主的网页上的不足；

2、在对标签树进行编码前，对编码树进行剪裁，保留需要的部分，可提高计算速率及准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1以图片为主的欺诈网页的识别方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供以图片为主的欺诈网页的识别方法、系统、装置和介质，用于解决如何克服欺诈网页检测在图片为主的网页上的不足，以快速有效的识别欺诈网页的技术问题。

实施例1：

本发明的一种以图片为主的欺诈网页的识别方法，包括如下步骤：

S100、收集以图片为主的欺诈网页构建网页样本；

S200、对于每个欺诈网页，通过网页标签树提取工具提取标签树信息，并通过字符对标签树进行编码，根据标签对应的字符构建标签树序列，标签树序列作为欺诈标签树序列；

对于每个欺诈标签树序列对应的恶意值，基于样本统计值初始化上述恶意度，恶意值为恶意关键词的恶意度数值；

S300、基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库，上述欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间；

S400、对于以图片为主的待测网页，通过网页标签树提取工具提取标签树信息，并通过字符对标签树进行编码，根据标签对应的字符构建标签树序列，标签树序列作为待测标签树序列；

S500、将待测标签树序列与特征库中欺诈标签树序列进行相似度计算，对于相似度高于阈值的待测标签树序列，认定对应的待测网页为可疑欺诈网页；

S600、对于可疑欺诈网页，随机选取少量图片进行图片识别并查找恶意关键词，如果恶意关键词的恶意度满足预设值，认定可疑诈骗网页为欺诈网页，对应的待测标签树为新的欺诈标签树序列，与上述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列；

S700、更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值，并将相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。

其中，对标签树进行字符编码时，编码规则根据需求自定义。使用一个map来记录所有的标签，然后使用标签对应的字母key来替换标签，这样就获得了一个由对应字母组成的可以用来表示标签树的标签树序列，该标签树序列作为欺诈标签树序列。在map中，记录标签和字母的映射关系，例如{“<a>”:”a”,“<herf>”:”b”,“<img>”:”c”,....}那么标签树就可以用对应的字符来替代。

在本实施例中使用相似度计算方法，如编辑距离，将得到的待测标签树序列同序列特征库中的欺诈标签树序列进行对比，设定阈值T，当与某个欺诈标签树序列S1相似度高于这个阈值T时，认为该待测网页是可疑欺诈网页。

如果待测网页是可疑欺诈网页，随机从待测网页的图片中获取2到3个图片，通过OCR技术识别文字信息，并通过常用的文字查找方法在文字中查找恶意关键词，本实施例中不需要满足比较高的恶意性，满足某个较低值即可认为可疑欺诈网页是欺诈网页。

认定欺诈网页之后，该待测标签树序列为新的欺诈标签树序列，将该新的欺诈标签树序列的恶意值加1且更新最后一个检出时间，并将刚检测出来的新的欺诈标签树序列加入特征库中。

作为本实施例的改进，在提取标签树后，将标签树中重要的标签进行保留，不重要的可以去掉，保留的标签如：div，href，table，img等，然后对剪裁后标签树进行编码。

作为本实施例的改进，基于欺诈标签树序列的更新时间和恶意值，在离线状态下对特征库进行更新清理。具体操作为：离线工作状态下，每隔特定时间，清理一次特征库，保证库中数据的高效性。清理方法是查看欺诈标签树序列对应的恶意值和最后一次检出时间，高于某个阈值且时间在有效期内的则进行保留，否则说明这个标签树序列贡献度太低，或者已经被黑产淘汰，可以进行清除。

实施例2：

本发明的一种以图片为主的欺诈网页的识别系统，包括采集模块、标签提取模块、欺诈标签树模块、恶意值初始化模块、特征库初始化模块、特征库初始化模块、待测网页初判模块、可疑欺诈网页判断模块、欺诈网页判断模块和特征库清理模块，上述系统可执行实施例1公开的方法。

其中，采集模块用于收集以图片为主的欺诈网页构建网页样本。

标签提取模块用于通过网页标签树提取工具提取标签树信息，并通过字符对标签树进行编码，根据标签对应的字符构建标签树序列；或者，用于通过网页标签树提取工具提取标签树信息并对标签树进行剪裁，通过字符对剪裁后标签树进行编码，根据标签对应的字符构建标签树序列。

对标签树进行字符编码时，编码规则根据需求自定义。使用一个映射关系来记录所有的标签，然后使用标签对应的字母key来替换标签，这样就获得了一个由对应字母组成的可以用来表示标签树的标签树序列，该标签树序列作为欺诈标签树序列。在map中，记录标签和字母的映射关系，例如{“<a>”:”a”,“<herf>”:”b”,“<img>”:”c”,....}那么标签树就可以用对应的字符来替代。

在提取标签树后，将标签树中重要的标签进行保留，不重要的可以去掉，保留的标签如：div，href，table，img等，然后对剪裁后标签树进行编码。

在具体执行时，可根据需求选择是否对标签树进行剪裁。

欺诈标签树模块调用标签提取模块，通过标签提取模块构建每个欺诈网页的标签树序列作为欺诈标签树。

恶意值初始化模块用于对于每个欺诈标签树序列对应的恶意值，基于样本统计值初始化所述恶意度，恶意值为恶意关键词的恶意度数值；

特征库初始化模块用于基于上述每个欺诈标签树序列以及每个欺诈标签树序列对应的更新时间及恶意值构建特征库，欺诈标签树序列的更新时间为欺诈标签树序列的最新检出时间。

待测网页初判模块用于获取待测网页并判断所述待测网页是否为以图片为主的待测网页。

可疑欺诈网页判断模块用于调用标签提取模块，通过标签提取模块构建待测网页的标签树序列作为待测标签树，并用于将所述待测标签树序列与特征库中欺诈标签树序列进行相似度计算，对于相似度高于阈值的待测标签树序列，认定对应的待测网页为可疑欺诈网页。

具体比对方法为：基于相似度计算方法编辑距离，将得到的待测标签树序列同序列特征库中的欺诈标签树序列进行对比，设定阈值T，当与某个欺诈标签树序列S1相似度高于这个阈值T时，认为该待测网页是可疑欺诈网页。

欺诈网页判断模块用于对于可疑欺诈网页，随机选取少量图片进行图片识别并查找恶意关键词，并用于判断所述恶意关键词的恶意度是否满足预设值，如果是，认定所述可疑诈骗网页为欺诈网页，对应的所述待测标签树为新的欺诈标签树序列，与所述新的欺诈标签树序列的相似度高于阈值的的欺诈标签树序列为相关欺诈标签树序列。

特征库更新模块用于更新上述相关欺诈标签树序列以及新的欺诈标签树序列对应的恶意值，并将所述相关欺诈标签树序列以及新的欺诈标签树序列对应的更新时间和恶意值加入特征库。

特征库清理模块用于基于欺诈标签树序列的更新时间和恶意值，在离线状态下对特征库进行更新清理。该模块具体操作为：离线工作状态下，每隔特定时间，清理一次特征库，保证库中数据的高效性。清理方法是查看欺诈标签树序列对应的恶意值和最后一次检出时间，高于某个阈值且时间在有效期内的则进行保留，否则说明这个标签树序列贡献度太低，或者已经被黑产淘汰，可以进行清除。

实施例3：

本发明的一种装置，包括：至少一个存储器和至少一个处理器；上述至少一个存储器，用于存储机器可读程序；上述至少一个处理器，用于调用所述机器可读程序，执行实施例1公开的方法。

实施例4：

本发明实施例还提供了一种介质，为计算机可读介质，该计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行实施例1公开的方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.以图片为主的欺诈网页的识别方法，其特征在于包括如下步骤：

收集以图片为主的欺诈网页构建网页样本；

2.根据权利要求1所述的以图片为主的欺诈网页的识别方法，其特征在于还包括如下步骤：

3.根据权利要求2所述的以图片为主的欺诈网页的识别方法，其特征在于所述清理步骤为：每隔预定时间，查看欺诈标签树序列对应的恶意值和最后的更新时间，将高于阈值且时间在有效期内的欺诈标签树序列进行保留。

4.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法，其特征在于对于每个欺诈网页以及待测网页，通过网页标签树提取工具提取标签树信息后，对标签树进行剪裁，保留的标签包括但不限于div、href、table和img。

5.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法，其特征在于通过一个映射关系记录标签树所有的标签。

6.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法，其特征在于基于距离，将待检测标签树序列与欺诈标签树序列特征库中的欺诈标签树序列进行相似度计算。

7.根据权利要求1、2或3所述的以图片为主的欺诈网页的识别方法，其特征在于对于可疑欺诈网页，随机选取少量图片并通过OCR技术进行图片识别。

8.以图片为主的欺诈网页的识别系统，其特征在于用于通过如权利要求1-7任一项所述的以图片为主的欺诈网页的识别方法识别欺诈网页，所述系统包括：

9.装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至7中任一所述的方法。

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至7任一所述的方法。