CN109213918A

CN109213918A - 基于机器学习的网页暗链检测方法和装置

Info

Publication number: CN109213918A
Application number: CN201811118222.8A
Authority: CN
Inventors: 史卓颖; 范渊; 曾建东; 金海俊; 王世晋; 王世有; 王辉; 徐丽丽
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-01-15

Abstract

本发明提供了基于机器学习的网页暗链检测方法和装置，包括：根据含有暗链的网页源码数据和不含有暗链的网页源码数据，得到网页负向评分，再通过迭代法计算暗链划分分值，当网页负向评分大于暗链划分分值时，该网页源码数据中含有暗链，从而对高混杂暗链代码识别效果好，替代了传统的人工检测的方式，实现暗链识别自动化。

Description

基于机器学习的网页暗链检测方法和装置

技术领域

本发明涉及网络安全技术领域，尤其是涉及基于机器学习的网页暗链检测方法和装置。

背景技术

随着网站数量的增多，对网页暗链的检测任务越来越多。目前通过对网站进行爬取，并对爬取的网站进行关键词检测；以及通过不同的HTTP头访问网站，判断两次访问返回的内容是否一致。

通过关键词检测法使误报率高，人工检测耗费时间长；HTTP头访问检测法，只能针对特殊暗链的检测，适用范围小。

发明内容

有鉴于此，本发明的目的在于提供基于机器学习的网页暗链检测方法和装置，可以对高混杂暗链代码识别率高，实现暗链识别自动化，适用范围广。

第一方面，本发明实施例提供了基于机器学习的网页暗链检测方法，所述方法包括：

获取网页源码数据，所述网页源码数据包括第一源码数据和第二源码数据，所述第一源码数据包括暗链，所述第二源码数据不包括所述暗链；

将所述第一源码数据按照文本负向情感程度生成暗链负向文本词库；

将所述网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本；

将所述锚文本的分词文本和所述超链接内容的分词文本分别与所述暗链负向文本词库进行匹配，得到各个等级的负向分词数量；

根据所述各个等级的负向分词数量，计算网页负向评分；

根据所述网页负向评分确定阈值范围；

将所述阈值范围通过迭代法计算暗链划分分值；

将所述网页负向评分与所述暗链划分分值进行比较；

如果所述网页负向评分大于所述暗链划分分值，则所述网页源码数据包括所述暗链。

进一步的，所述将所述阈值范围通过迭代法计算暗链划分分值，包括：

将所述阈值范围中的数值分别通过所述迭代法，计算不同数值下的准确率；

从所述不同数值下的准确率中选取准确率最高的数值作为所述暗链划分分值。

进一步的，所述根据所述各个等级的负向分词数量，计算网页负向评分，包括：

根据下式计算所述网页负向评分：

neg＝∑weight*frq

其中，neg为所述网页负向评分，frq为所述各个等级的负向分词数量，weight为所述各个等级的权重。

进一步的，所述将所述网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本，包括：

将所述网页源码数据以关键词作为链接进行锚文本提取，得到所述锚文本的分词文本；

将所述网页源码数据以文本式链接进行超链接提取，得到所述超链接内容的分词文本。

进一步的，所述方法还包括：

如果所述网页负向评分不大于所述暗链划分分值，则所述网页源码数据不包括所述暗链。

第二方面，本发明实施例提供了基于机器学习的网页暗链检测装置，所述装置包括：

获取单元，用于获取网页源码数据，所述网页源码数据包括第一源码数据和第二源码数据，所述第一源码数据包括暗链，所述第二源码数据不包括所述暗链；

生成单元，用于将所述第一源码数据按照文本负向情感程度生成暗链负向文本词库；

预处理单元，用于将所述网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本；

匹配单元，用于将所述锚文本的分词文本和所述超链接内容的分词文本分别与所述暗链负向文本词库进行匹配，得到各个等级的负向分词数量；

网页负向评分计算单元，用于根据所述各个等级的负向分词数量，计算网页负向评分；

确定单元，用于根据所述网页负向评分确定阈值范围；

暗链划分分值计算单元，用于将所述阈值范围通过迭代法计算暗链划分分值；

比较单元，用于将所述网页负向评分与所述暗链划分分值进行比较；如果所述网页负向评分大于所述暗链划分分值，则所述网页源码数据包括所述暗链。

进一步的，所述暗链划分分值计算单元包括：

进一步的，所述网页负向评分计算单元包括：

根据下式计算所述网页负向评分：

neg＝∑weight*frq

进一步的，所述预处理单元包括：

进一步的，所述比较单元还包括：

本发明实施例提供了基于机器学习的网页暗链检测方法和装置，包括：获取网页源码数据，网页源码数据包括第一源码数据和第二源码数据，第一源码数据包括暗链，第二源码数据不包括暗链；将第一源码数据按照文本负向情感程度生成暗链负向文本词库；将网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本；将锚文本的分词文本和超链接内容的分词文本分别与所述暗链负向文本词库进行匹配，得到各个等级的负向分词数量；根据各个等级的负向分词数量，计算网页负向评分；根据网页负向评分确定阈值范围；将阈值范围通过迭代法计算暗链划分分值；将网页负向评分与所述暗链划分分值进行比较；如果网页负向评分大于暗链划分分值，则网页源码数据包括暗链，可以对高混杂暗链代码识别率高，实现暗链识别自动化，适用范围广。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的基于机器学习的网页暗链检测方法流程图；

图2为本发明实施例一提供的基于机器学习的网页暗链检测方法中步骤S107的流程图；

图3为本发明实施例一提供的基于机器学习的网页暗链检测方法中步骤S103的流程图；

图4为本发明实施例一提供的文本负向情感程度示意图；

图5为本发明实施例二提供的基于机器学习的网页暗链检测装置示意图。

图标：

10-获取单元；20-生成单元；30-预处理单元；40-匹配单元；50-网页负向评分计算单元；60-确定单元；70-暗链划分分值计算单元；80-比较单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，下面对本发明实施例进行详细介绍。

实施例一：

图1为本发明实施例一提供的基于机器学习的网页暗链检测方法流程图。

参照图1，该方法包括以下步骤：

步骤S101，获取网页源码数据，网页源码数据包括第一源码数据和第二源码数据，第一源码数据包括暗链，第二源码数据不包括暗链；

这里，可以客户端的用户界面上输入待检测的网页任务，客户端将待检测的网页任务发送给服务器，服务器在接收待检测的网页任务的，回复响应信息，响应信息包括网页源码数据。将网页源码数据作为分类模型的训练集进行训练。将网页源码数据输入到以下步骤中，得到判断结果，其中，判断结果即为网页源码数据是否包括暗链，最后将判断结果存入mysql数据库中。

步骤S102，将第一源码数据按照文本负向情感程度生成暗链负向文本词库；

这里，文本负向情感程度可以为五个等级，五个等级分别为most级、very级、more级、lst级和least级，从最重的情感most级程度依次降低到least级程度，具体可参照图4。

本申请通过文本负向情感程度生成暗链负向文本词库，就是对第一源码数据进行分词，然后对比不同程度的文本负向情感，从而计算出网页负向评分，从而作为是否含有暗链的依据。

步骤S103，将网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本；

步骤S104，将锚文本的分词文本和超链接内容的分词文本分别与暗链负向文本词库进行匹配，得到各个等级的负向分词数量；

步骤S105，根据各个等级的负向分词数量，计算网页负向评分；

步骤S106，根据网页负向评分确定阈值范围；

步骤S107，将阈值范围通过迭代法计算暗链划分分值；

这里，迭代法也称辗转法，是一种不断用变量的旧值递推新值的过程，跟迭代法相对应的是直接法(或者称为一次解法)，即一次性解决问题。迭代算法是用计算机解决问题的一种基本方法，它利用计算机运算速度快、适合做重复性操作的特点，让计算机对一组指令(或一定步骤)进行重复执行，在每次执行这组指令(或这些步骤)时，都从变量的原值推出它的一个新值。

如果网页负向评分的结果为0-1，那么阈值范围为0-1。然后将阈值范围中的数值通过迭代法进行迭代。例如，在阈值范围0-1中，选择0.1，0.2，0.3，0.4，0.5，...，0.9，9个数都通过迭代法得到对应的准确率，如果数值0.3对应的准确率比较高，则将0.3作为暗链划分分值。其中，阈值范围中的数值可以是配置的数值。在阈值范围0-1中，还可以选择0.40，0.41，0.42，…0.59，在此不作赘述。

步骤S108，将网页负向评分与暗链划分分值进行比较；如果网页负向评分大于暗链划分分值，则网页源码数据包括暗链。

在本实施例中，根据含有暗链的网页源码数据和不含有暗链的网页源码数据，得到网页负向评分，再通过迭代法计算暗链划分分值，当网页负向评分大于暗链划分分值时，该网页源码数据中含有暗链，从而对高混杂暗链代码识别效果好，替代了传统的人工检测的方式，实现暗链识别自动化。

进一步的，参照图2，步骤S107包括以下步骤：

步骤S201，将阈值范围中的数值分别通过迭代法，计算不同数值下的准确率；

步骤S202，从不同数值下的准确率中选取准确率最高的数值作为暗链划分分值。

进一步的，步骤S105包括：

根据公式(1)计算网页负向评分：

neg＝∑weight*frq (1)

其中，neg为网页负向评分，frq为各个等级的负向分词数量，weight为各个等级的权重。

这里，各个等级的权重可以自定义，例如，权重值定义为1、2、3、4和5，权重值越大，说明文本负向情感程度越强。

进一步的，参照图3，步骤S103包括以下步骤：

步骤S301，将网页源码数据以关键词作为链接进行锚文本提取，得到锚文本的分词文本；

这里，锚文本提取是以关键词作为链接，指向一个页面，也称为锚文本链接。

步骤S302，将网页源码数据以文本式链接进行超链接提取，得到超链接内容的分词文本。

这里，超链接提取可以由一个页面直接指向另一个页面，它的表现形式不是关键词，而是文本式链接。

进一步的，该方法还包括：

步骤S401，如果网页负向评分不大于暗链划分分值，则网页源码数据不包括暗链。

本发明实施例提供了基于机器学习的网页暗链检测方法，包括：获取网页源码数据，网页源码数据包括第一源码数据和第二源码数据，第一源码数据包括暗链，第二源码数据不包括暗链；将第一源码数据按照文本负向情感程度生成暗链负向文本词库；将网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本；将锚文本的分词文本和超链接内容的分词文本分别与所述暗链负向文本词库进行匹配，得到各个等级的负向分词数量；根据各个等级的负向分词数量，计算网页负向评分；根据网页负向评分确定阈值范围；将阈值范围通过迭代法计算暗链划分分值；将网页负向评分与所述暗链划分分值进行比较；如果网页负向评分大于暗链划分分值，则网页源码数据包括暗链，可以对高混杂暗链代码识别率高，实现暗链识别自动化，适用范围广。

实施例二：

参照图5，该装置包括：获取单元10、生成单元20、预处理单元30、匹配单元40、网页负向评分计算单元50、确定单元60、暗链划分分值计算单元70和比较单元80。

获取单元10，用于获取网页源码数据，网页源码数据包括第一源码数据和第二源码数据，第一源码数据包括暗链，第二源码数据不包括暗链；

生成单元20，用于将第一源码数据按照文本负向情感程度生成暗链负向文本词库；

预处理单元30，用于将网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本；

匹配单元40，用于将锚文本的分词文本和超链接内容的分词文本分别与暗链负向文本词库进行匹配，得到各个等级的负向分词数量；

网页负向评分计算单元50，用于根据各个等级的负向分词数量，计算网页负向评分；

确定单元60，用于根据网页负向评分确定阈值范围；

暗链划分分值计算单元70，用于将阈值范围通过迭代法计算暗链划分分值；

比较单元80，用于将网页负向评分与暗链划分分值进行比较；如果网页负向评分大于暗链划分分值，则网页源码数据包括暗链。

进一步的，暗链划分分值计算单元70包括：

将阈值范围中的数值分别通过迭代法，计算不同数值下的准确率；

从不同数值下的准确率中选取准确率最高的数值作为暗链划分分值。

进一步的，网页负向评分计算单元50包括：

根据公式(1)计算网页负向评分。

进一步的，预处理单元30包括：

将网页源码数据以关键词作为链接进行锚文本提取，得到锚文本的分词文本；

将网页源码数据以文本式链接进行超链接提取，得到超链接内容的分词文本。

进一步的，比较单元80还包括：

如果网页负向评分不大于暗链划分分值，则网页源码数据不包括暗链。

本发明实施例提供了基于机器学习的网页暗链检测装置，包括：获取网页源码数据，网页源码数据包括第一源码数据和第二源码数据，第一源码数据包括暗链，第二源码数据不包括暗链；将第一源码数据按照文本负向情感程度生成暗链负向文本词库；将网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本；将锚文本的分词文本和超链接内容的分词文本分别与所述暗链负向文本词库进行匹配，得到各个等级的负向分词数量；根据各个等级的负向分词数量，计算网页负向评分；根据网页负向评分确定阈值范围；将阈值范围通过迭代法计算暗链划分分值；将网页负向评分与所述暗链划分分值进行比较；如果网页负向评分大于暗链划分分值，则网页源码数据包括暗链，可以对高混杂暗链代码识别率高，实现暗链识别自动化，适用范围广。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的基于机器学习的网页暗链检测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例的基于机器学习的网页暗链检测方法的步骤。

本发明实施例所提供的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于机器学习的网页暗链检测方法，其特征在于，所述方法包括：

根据所述各个等级的负向分词数量，计算网页负向评分；

根据所述网页负向评分确定阈值范围；

将所述阈值范围通过迭代法计算暗链划分分值；

将所述网页负向评分与所述暗链划分分值进行比较；

2.根据权利要求1所述的基于机器学习的网页暗链检测方法，其特征在于，所述将所述阈值范围通过迭代法计算暗链划分分值，包括：

3.根据权利要求1所述的基于机器学习的网页暗链检测方法，其特征在于，所述根据所述各个等级的负向分词数量，计算网页负向评分，包括：

根据下式计算所述网页负向评分：

neg＝∑weight*frq

4.根据权利要求1所述的基于机器学习的网页暗链检测方法，其特征在于，所述将所述网页源码数据进行预处理，得到锚文本的分词文本和超链接内容的分词文本，包括：

5.根据权利要求1所述的基于机器学习的网页暗链检测方法，其特征在于，所述方法还包括：

6.一种基于机器学习的网页暗链检测装置，其特征在于，所述装置包括：

确定单元，用于根据所述网页负向评分确定阈值范围；

7.根据权利要求6所述的基于机器学习的网页暗链检测装置，其特征在于，所述暗链划分分值计算单元包括：

8.根据权利要求6所述的基于机器学习的网页暗链检测装置，其特征在于，所述网页负向评分计算单元包括：

根据下式计算所述网页负向评分：

neg＝∑weight*frq

9.根据权利要求6所述的基于机器学习的网页暗链检测装置，其特征在于，所述预处理单元包括：

10.根据权利要求6所述的基于机器学习的网页暗链检测装置，其特征在于，所述比较单元还包括：