CN112989341B

CN112989341B - 一种涉诈网页的确定方法、系统和介质

Info

Publication number: CN112989341B
Application number: CN202110235218.5A
Authority: CN
Inventors: 魏薇; 吴荻; 杜伟; 崔现东; 张振涛; 董亚萍; 万晓玥
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-10-29
Anticipated expiration: 2041-03-03
Also published as: CN112989341A

Abstract

本公开涉及一种涉诈网页的确定方法、系统和介质。所述确定方法包括：步骤S1、利用研判集合中的至少一个研判模式和对应的权重，分析疑似涉诈网页，以获得对所述疑似涉诈网页的第一研判结果；步骤S2、提取所述疑似涉诈网页的网页特征，基于所述网页特征确定对所述疑似涉诈网页的第二研判结果；以及步骤S3、对比所述第一研判结果和所述第二研判结果，根据对比结果来更新各个所述研判模式的所述权重。所述确定方法适用于多种网页研判模式的综合研判，并且能够根据研判结果调节权重，从而提升整体研判效果。

Description

一种涉诈网页的确定方法、系统和介质

技术领域

本公开涉及互联网大数据领域，更具体地，涉及一种涉诈网页的确定方法、系统和介质。

背景技术

根据中国互联网络信息中心统计，截至2020年6月，中国网民规模达 9.4亿。互联网普及率为67％，约高于全球平均水平5个百分点；网民中使用手机上网的比例为99.2％。互联网上信息丰富，为人们的学习工作生活等提供了便利。然而，网页漏洞导致用户的敏感信息存在被泄露的情况，例如身份信息、银行卡信息以及其他个人隐私数据。因此，需要一种对网页进行研判的方案。

已有研究采用基于attention机制的双向长短时记忆循环神经网络，同时还使用字符级嵌入与静态词嵌入相结合的方法，实现了恶意网页识别的目的。

已有研究在通过爬虫工具采集完恶意网页内容数据样本和正常网页内容数据样本后，依次使用SMOTE算法、GAN算法对恶意网页内容数据样本进行扩增，使其与正常网页内容数据样本数量均衡，之后利用恶意网页内容数据样本、正常网页内容数据样本训练5个分类器，生成5个模型后进行融合，并对融合后各模型的权重进行调整，得到最终的恶意网页识别模型。

已有研究提出一种恶意网页文件识别方法及装置，该方法包括：确定待识别网页文件的各维度的特征数据；各维度包括组合维度和单一维度；其中，组合维度中包括多个特征数据；单一维度为仅有一个特征数据；针对各维度中的组合维度，将组合维度的多个特征数据通过第一机器学习模型得到组合维度的融合特征数据；通过规则引擎得到待识别网页文件是否为恶意网页文件的初步识别结果；将初步识别结果、组合维度的融合特征数据和单一维度的特征数据通过第二机器学习模型，得到待识别网页文件是否为恶意网页文件的最终结果。

已有研究设计一种在网关上的实时恶意网页识别方法，包括：采集用户访问网页的流量，从中提取轻量级的恶意网页分类特征；基于这些分类特征，构建实时恶意网页分类模型；将该模型部署到核心网络设备上，以实时预测网页是否为恶意网页。

可见，现有研究主要针对恶意网页进行研判，未结合涉诈网页的特点，并不能适用于识别涉诈网页。同时现有的网页识别手段均采用单一模型，并未结合多种模型的特点进行综合研判分析。因此，需要设计一种涉诈网页研判分析系统，能够及时发现相关行为，以防止蔓延。

发明内容

鉴于现有研究主要针对恶意网页进行研判，未结合涉诈网页的特点，并不能适用于识别涉诈网页。同时现有的网页识别手段均采用单一模型，并未结合多种模型的特点进行联合研判分析。提供了本公开以解决现有技术中存在的上述问题。本公开设计一种涉诈网页的确定方案，从而完成对涉诈网页的研判，及时发现相关行为，以防止蔓延。

本公开的第一方面提供了一种涉诈网页的确定方法，所述确定方法包括：步骤S1、利用研判集合中的至少一个研判模式和对应的权重，分析疑似涉诈网页，以获得对所述疑似涉诈网页的第一研判结果；步骤S2、提取所述疑似涉诈网页的网页特征，基于所述网页特征确定对所述疑似涉诈网页的第二研判结果；以及步骤S3、对比所述第一研判结果和所述第二研判结果，根据对比结果来更新各个所述研判模式的所述权重。

根据本公开第一方面的涉诈网页的确定方法，所述确定方法还包括：步骤S4、利用所述研判模式和对应的已更新的权重，对其他疑似涉诈网页执行第一研判，以及执行所述步骤S2和所述步骤S3，以自适应更新所述权重。

根据本公开第一方面的涉诈网页的确定方法，所述网页特征包括备案号、网页内容、网页Dom结构、关键词以及网页链接中的一个或多个，在所述步骤S2中：基于所述备案号确定所述疑似涉诈网页的合规性；基于所述网页内容确定所述疑似涉诈网页的内容仿冒情况；基于所述网页Dom结构确定所述疑似涉诈网页与标准涉诈网页的相似度，具体包括：利用所述网页Dom结构建立关联图，通过节点矢量化将所述关联图的节点转换为多维张量，计算所述多维张量的根节点到所述标准涉诈网页的根节点的欧式距离，以确定所述相似度；基于所述关键词确定所述疑似涉诈网页是否包含涉诈关键词；以及基于所述网页链接确定所述疑似涉诈网页的链接有效性。

根据本公开第一方面的涉诈网页的确定方法，在所述步骤S3中，利用如下公式更新所述权重：

其中θ_n ^t-1表示第t-1轮时研判模式n的权重，θ_n ^t表示第t轮时研判模式n的权重，

表示第t轮时所述研判模式n的更新后的权重中间变量，f(.)为排名调整函数。

本公开的第二方面提供了一种涉诈网页的确定系统，其特征在于，所述确定系统包括：第一研判模块，被配置为，利用研判集合中的至少一个研判模式和对应的权重，分析疑似涉诈网页，以获得对所述疑似涉诈网页的第一研判结果；第二研判模块，被配置为，提取所述疑似涉诈网页的网页特征，基于所述网页特征确定对所述疑似涉诈网页的第二研判结果；以及权重更新模块，被配置为，对比所述第一研判结果和所述第二研判结果，根据对比结果来更新各个所述研判模式的所述权重。

根据本公开第二方面的涉诈网页的确定系统，所述确定系统还包括：自适应模块，被配置为，调用所述第一研判模块、所述第二研判模块以及所述权重更新模块，利用所述研判模式和对应的已更新的权重，对其他疑似涉诈网页执行第一研判和第二研判，通过比对以自适应更新所述权重。

根据本公开第二方面的涉诈网页的确定系统，所述网页特征包括备案号、网页内容、网页Dom结构、关键词以及网页链接中的一个或多个，所述第二研判模块具体被配置为：基于所述备案号确定所述疑似涉诈网页的合规性；基于所述网页内容确定所述疑似涉诈网页的内容仿冒情况；基于所述网页 Dom结构确定所述疑似涉诈网页与标准涉诈网页的相似度，具体包括：利用所述网页Dom结构建立关联图，通过节点矢量化将所述关联图的节点转换为多维张量，计算所述多维张量的根节点到所述标准涉诈网页的根节点的欧式距离，以确定所述相似度；基于所述关键词确定所述疑似涉诈网页是否包含涉诈关键词；以及基于所述网页链接确定所述疑似涉诈网页的链接有效性。

根据本公开第二方面的涉诈网页的确定系统，所述权重更新模块具体被配置为，利用如下公式更新所述权重：

本公开的第三方面提供了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据权利要求1-4所述的涉诈网页的确定方法中的步骤。

本公开提供的技术方案适用于多种网页研判模式的综合研判，能根据研判结果调节权重，提升整体研判效果。通过对待定的网页进行快速初步研判；将上述独立研判的加权结果进行更深入的联合研判；并根据综合研判对比的结果更新每个独立研判模式的权重，以改善涉诈网页的研判效果。通过本公开使用者可以对疑似涉诈网址研判，及时发现相关行为，提升防范能力，以防止蔓延。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出了根据本公开实施例的涉诈网页的确定方法的流程图；以及

图2示出了根据本公开实施例的涉诈网页的确定系统的结构图。

具体实施方式

为使本领域技术人员更好的理解本公开的技术方案，下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述，但不作为对本公开的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

图1示出了根据本公开实施例的涉诈网页的确定方法的流程图，如图1 所示，所述确定方法包括：步骤S1、利用研判集合中的至少一个研判模式和对应的权重，分析疑似涉诈网页，以获得对所述疑似涉诈网页的第一研判结果；步骤S2、提取所述疑似涉诈网页的网页特征，基于所述网页特征确定对所述疑似涉诈网页的第二研判结果；以及步骤S3、对比所述第一研判结果和所述第二研判结果，根据对比结果来更新各个所述研判模式的所述权重。

在步骤S1，利用研判集合中的至少一个研判模式和对应的权重，分析疑似涉诈网页，以获得对所述疑似涉诈网页的第一研判结果。研判集合是由至少一个具有网页独立研判能力的研判模式构成，每个研判模式按照各自涉诈网页研判的规则，通过提取网页的URL、内容特征等方式研判分析指定网页。由于每个研判模式相对独立，研判的效果也有所不同，因此为了提高整体研判效果，对每个研判模式进行加权以获得第一研判结果。

在步骤S2，提取所述疑似涉诈网页的网页特征，基于所述网页特征确定对所述疑似涉诈网页的第二研判结果。所述网页特征包括备案号、网页内容、网页Dom结构、关键词以及网页链接中的一个或多个。第二研判为综合研判指定网页，主要信息提取功能包括：网页备案号提取、网页信息提取、文字识别提取，以及账号/号码/链接提取等。

在所述步骤S2中：基于所述备案号确定所述疑似涉诈网页的合规性；基于所述网页内容确定所述疑似涉诈网页的内容仿冒情况；基于所述网页Dom 结构确定所述疑似涉诈网页与标准涉诈网页的相似度，具体包括：利用所述网页Dom结构建立关联图，通过节点矢量化将所述关联图的节点转换为多维张量，计算所述多维张量的根节点到所述标准涉诈网页的根节点的欧式距离，以确定所述相似度；基于所述关键词确定所述疑似涉诈网页是否包含涉诈关键词；以及基于所述网页链接确定所述疑似涉诈网页的链接有效性。

具体地，提取的备案号和现有合规的备案号进行比对，以确定该网页是否是合规网页；网页信息提取功能主要是从指定网页中提取Dom树、网页图片、网页文本等信息，通过将网页Dom树结构与已确定涉诈网页Dom树结构进行相似度计算，判断待定网页与涉诈网页的相似程度；通过对比待定网页内容与合规网页的相似程度，判断是否存在仿冒网页的情况；文字识别提取功能从指定网页中提取出所有文字内容，从而根据涉诈特征库比对文字内容判断是否出现涉诈关键词；账号/号码/链接识别提取功能从指定网页中提取出所有和账号、号码、链接相关的信息，对于链接则利用链接有效性分析判断是否存在，对于账号和号码则比对涉诈资源库，判断是否属于涉诈号码或账号。

其中，网页Dom结构相似度模块的工作流程是，首先将网页Dom树结构关系建立成关联图，通过node2vec等节点矢量化方法将图节点转换为多维张量，然后利用欧式距离等相似度指标判断根节点之间的相似度，从而判断待定网页与涉诈网页的相似程度。网页内容比对是通过从网页中提取内容特征、 DOM树特征、图像特征、页面代码类特征、脚本类特征、网址属性特征等，并从合规相同类型的网页信息库中逐一比对是否存在仿冒合规网页的情况。链接有效性分析主要是利用沙箱运行链接对应的网页，通过获取网页的行为特征等手段查看网页是否真实存在，从而判断提取的链接是否有效。

在步骤S3，对比所述第一研判结果和所述第二研判结果，根据对比结果来更新各个所述研判模式的所述权重。在所述步骤S3中，利用如下公式更新所述权重：

排名调整的具体流程如下。定义研判模式n的权重为θ_n，假设有N个研判模式。在初始阶段，设置所有研判模式的排名一致为第一，权重也一致均为1/N，后续将根据综合研判结果进行调整。通过第一、第二研判对比后，对N种研判模式进行排序，排名依据是结合该研判模式的漏报率、误报率以及完成率。当每个研判模式n相比上一轮判断的结果排名变更了m名次 (m＝{-N-1，…,0,…,N-1}，其中-1代表名次下降1，1代表名次上升1)，则更新研判模式n的权重，更新的方法如公式(1)和(2)。

所述确定方法还包括：步骤S4、利用所述研判模式和对应的已更新的权重，对其他疑似涉诈网页执行第一研判，以及执行所述步骤S2和所述步骤 S3，以自适应更新所述权重。

综上，本公开第一方面适用于多种网页研判模式的初步研判，可以根据权重调节研判模式的重要性，根据综合涉诈网页研判算法深入判断，能够快速有效地对涉诈网页进行研判。其中提出的权重更新方法涉及相关网页的漏报率、误报率和完成率，依据排名按照提出的算法更新权重，提高综合研判能力。其中涉及多种涉诈网页识别的方法，包括网页结构、网页内容、关键词等，均有助于涉诈网页的判断。其中将网页Dom树结构关系建立成关联图，通过node2vec等节点矢量化方法将图节点转换为张量，然后利用欧式距离判断指定网页节点与涉诈网页节点之间的相似度。以及其中链接有效性分析从网页的整体行为特征中判断提取的链接是否有效。

本公开第一方面能够结合所述涉诈网页的特征以及多种网页研判模式的优势，及时发现相关行为，提升防范能力，以防止蔓延；从而提升涉诈网页的识别能力和识别效率，为普通用户创造良好的网络访问环境，营造安全的上网体验，进而保证广大用户的购物安全、隐私安全，以及用户财产安全。

本公开的第二方面提供了一种涉诈网页的确定系统。图2示出了根据本公开实施例的涉诈网页的确定系统的结构图，如图2所示，所述系统200包括：第一研判模块201，被配置为，利用研判集合中的至少一个研判模式和对应的权重，分析疑似涉诈网页，以获得对所述疑似涉诈网页的第一研判结果；第二研判模块202，被配置为，提取所述疑似涉诈网页的网页特征，基于所述网页特征确定对所述疑似涉诈网页的第二研判结果；以及权重更新模块203，被配置为，对比所述第一研判结果和所述第二研判结果，根据对比结果来更新各个所述研判模式的所述权重。

根据本公开第二方面的涉诈网页的确定系统，所述确定系统200还包括：自适应模块204，被配置为，调用所述第一研判模块、所述第二研判模块以及所述权重更新模块，利用所述研判模式和对应的已更新的权重，对其他疑似涉诈网页执行第一研判和第二研判，通过比对以自适应更新所述权重。

根据本公开第二方面的涉诈网页的确定系统，所述网页特征包括备案号、网页内容、网页Dom结构、关键词以及网页链接中的一个或多个，所述第二研判模块202具体被配置为：基于所述备案号确定所述疑似涉诈网页的合规性；基于所述网页内容确定所述疑似涉诈网页的内容仿冒情况；基于所述网页Dom结构确定所述疑似涉诈网页与标准涉诈网页的相似度，具体包括：利用所述网页Dom结构建立关联图，通过节点矢量化将所述关联图的节点转换为多维张量，计算所述多维张量的根节点到所述标准涉诈网页的根节点的欧式距离，以确定所述相似度；基于所述关键词确定所述疑似涉诈网页是否包含涉诈关键词；以及基于所述网页链接确定所述疑似涉诈网页的链接有效性。

根据本公开第二方面的涉诈网页的确定系统，所述权重更新模块203具体被配置为，利用如下公式更新所述权重：

本公开的第三方面提供了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据本公开第一方面的涉诈网页的确定方法中的步骤。

综上，本公开提供的技术方案适用于多种网页研判模式的综合研判，能根据研判结果调节权重，提升整体研判效果。通过对待定的网页进行快速初步研判；将上述独立研判的加权结果进行更深入的联合研判；并根据综合研判对比的结果更新每个独立研判模式的权重，以改善涉诈网页的研判效果。通过本公开使用者可以对疑似涉诈网址研判，及时发现相关行为，提升防范能力，以防止蔓延。

注意，根据本公开的各个实施例中的各个模块，可以实现为存储在存储器上的计算机可执行指令，由处理器执行时可以实现相应的步骤；也可以实现为具有相应逻辑计算能力的硬件；也可以实现为软件和硬件的组合(固件)。在一些实施例中，处理器可以实现为FPGA、ASIC、DSP芯片、SOC(片上系统)、 MPU(例如但不限于Cortex)、等中的任何一种。处理器可以通信地耦合到存储器并且被配置为执行存储在其中的计算机可执行指令。存储器可以包括只读存储器(ROM)、闪存、随机存取存储器(RAM)、诸如同步DRAM(SDRAM) 或RambusDRAM的动态随机存取存储器(DRAM)、静态存储器(例如，闪存、静态随机存取存储器)等，其上以任何格式存储计算机可执行指令。计算机可执行指令可以被处理器访问，从ROM或者任何其他合适的存储位置读取，并加载到RAM中供处理器执行，以实现根据本公开各个实施例的无线通信方法。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。