CN112532624B

CN112532624B - 一种黑链检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN112532624B
Application number: CN202011361810.1A
Authority: CN
Inventors: 黄磊
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-09-05
Anticipated expiration: 2040-11-27
Also published as: CN112532624A

Abstract

本申请公开了一种黑链检测方法、装置、电子设备及计算机可读存储介质，该方法包括：提取待检测网页的网页内容；对网页内容进行黑词匹配，判断网页内容中是否存在一个或多个预设黑词；若存在一个或多个预设黑词，则将一个或多个预设黑词确定为一个或多个目标黑词，并根据一个或多个目标黑词在合法网页中出现的目标概率得到网页异常参数；若网页异常参数大于标准参数，则确定检测到黑链；该方法在检测到目标黑词后，通过利用目标黑词对应的目标概率得到网页异常参数，目标概率为目标黑词在合法网页中的出现概率，因此得到的网页异常参数可以基于该概率表征待检测网页被挂有黑链的可能性，进行了进一步检测，防止出现误报，提高了检测可靠性。

Description

一种黑链检测方法、装置、电子设备及可读存储介质

技术领域

本申请涉及网络安全技术领域，特别涉及一种黑链检测方法、黑链检测装置、电子设备及计算机可读存储介质。

背景技术

黑链(Hidden Link)，也称暗链，指隐藏在正规网站后面，看不见，但是却被搜索引擎计算权重的外链。黑链使用非正当的手段在合法的网站上挂上一些非法网站(色情、赌博等)的链接，通常使用的方式是采用网站程序本身漏洞，服务器安全漏洞等方式非法获得了合法网站的管理权限后，对合法的网站进行篡改，插入非法链接。这样做的目的是为了进行SEO(Search Engine Optimization，网站优化技术)，来提升某些非法网站在搜索引擎中的排名，从中牟取利益。黑链需要包含特定的关键词和非法链接，因此相关技术通常利用关键词匹配的方式进行黑链检测，但是这种检测方式可靠性较差，容易造成误报。

发明内容

有鉴于此，本申请的目的在于提供一种黑链检测方法、黑链检测装置、电子设备及计算机可读存储介质，提高了黑链检测的可靠性，减少了误报。

为解决上述技术问题，本申请提供了一种黑链检测方法，包括：

提取待检测网页的网页内容；

对所述网页内容进行黑词匹配，判断所述网页内容中是否存在一个或多个预设黑词；

若存在所述一个或多个预设黑词，则将所述一个或多个预设黑词确定为一个或多个目标黑词，并根据所述一个或多个目标黑词在合法网页中出现的目标概率得到网页异常参数；

若所述网页异常参数大于标准参数，则确定检测到黑链。

可选地，在提取待检测网页的网页内容之前，还包括：

提取所述待检测网页的超链接信息；

对所述超链接信息进行非法网页地址匹配，判断所述超链接信息中是否存在预设非法网页地址；

相应的，所述提取待检测网页的网页内容具体为：

若不存在所述预设非法网页地址，则执行提取待检测网页的网页内容。

可选地，若存在所述预设非法网页地址，则确定检测到所述黑链。

可选地，所述对所述超链接信息进行非法网页地址匹配，包括：

基于黑链库对所述超链接信息进行非法网页地址匹配；所述黑链库中存储有所述预设非法网页地址。

可选地，所述预设非法网页地址的获取过程，包括：

提取非法网页对应的待测超链接；

计算所述待测超链接对应的目标网页的目标网页异常参数，并判断所述目标网页异常参数是否大于预设黑链阈值；

若大于所述预设黑链阈值，则确定所述待测超链接为所述预设非法网页地址。

可选地，所述对所述网页内容进行黑词匹配，包括：

基于黑词库对所述网页内容进行黑词匹配；所述黑词库中存储有所述预设黑词。

可选地，所述预设黑词的更新过程，包括：

获取非法网站语料并进行分词处理，得到候选文本段；

获取所述候选文本段对应的成词信息，并利用所述成词信息判断所述候选文本段是否可以成词；

若所述候选文本段可以成词，则将所述候选文本段确定为候选预设黑词；

利用所述候选预设黑词对所述预设黑词进行更新。

可选地，所述获取所述候选文本段对应的成词信息，包括：

统计所述候选文本段在所述非法网站语料中的出现次数，并利用所述出现次数计算词频；

利用所述候选文本段中各个字对应的出现概率计算凝固度；

计算所述候选文本段对应的信息熵，并利用所述信息熵得到自由度；

利用所述词频、所述凝固度和所述自由度计算得到所述成词信息。

可选地，所述利用所述目标黑词在合法网页中出现的目标概率得到网页异常参数，包括：

确定所述目标概率所处的概率区间，并获取所述概率区间对应的网页异常子参数；所述网页异常子参数为网页异常子概率或网页异常子分值；

利用各个所述网页异常子参数计算网页异常参数。

可选地，所述网页异常子参数和/或所述标准参数的调节过程，包括：

获取训练网页，利用所述预设黑词、所述网页异常子参数和所述标准参数确定所述训练网页对应的训练检测结果；

根据所述训练检测结果和所述训练网页对应的训练标签确定检测准确率；

若所述检测准确率未达到准确率阈值，则基于所述检测准确率调节所述网页异常子参数和/或所述标准参数，直至所述检测准确率达到所述准确率阈值。

本申请还提供了一种黑链检测装置，包括：

提取模块，用于提取待检测网页的网页内容；

黑词判断模块，用于对所述网页内容进行黑词匹配，判断所述网页内容中是否存在一个或多个预设黑词；

网页异常参数获取模块，用于若存在所述一个或多个预设黑词，则将所述一个或多个预设黑词确定为一个或多个目标黑词，并根据所述一个或多个目标黑词在合法网页中出现的目标概率得到网页异常参数；

黑链检出模块，用于若所述网页异常参数大于标准参数，则确定检测到黑链。

本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的黑链检测方法。

本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的黑链检测方法。

本申请提供的黑链检测方法，提取待检测网页的网页内容；对网页内容进行黑词匹配，判断网页内容中是否存在一个或多个预设黑词；若存在一个或多个预设黑词，则将一个或多个预设黑词确定为一个或多个目标黑词，并根据一个或多个目标黑词在合法网页中出现的目标概率得到网页异常参数；若网页异常参数大于标准参数，则确定检测到黑链。

可见，该方法在进行黑链检测时，先对待检测网页的网页内容进行黑词匹配，判断其中是否存在预设黑词。若其中存在预设黑词，也无法说明待检测网页被挂上了黑链，因为有些合法网页中同样存在与非法网页相同的关键词，直接确定待检测网页被挂上黑链可能会导致误报，还需要进行进一步检测。将网页内容中的预设黑词确定为目标黑词，并确定各个目标黑词在合法网页中出现的目标概率，并利用该目标概率得到网页异常参数。若一个预设黑词很容易出现在合法网页中，则该预设黑词表示被挂有黑链的能力就较弱，若一个预设黑词出现在合法网页中的概率很低，则该预设黑词表示被挂有黑链的能力就较强。通过目标概率计算得到网页异常参数，可以从目标黑词在合法网页中出现的可能性对待检测网页是否被挂有黑链进行体现，将其与标准参数进行比较，若大于标准参数，可以确定检测到待检测网页被挂上了黑链，准确地检出待检测网页是否被挂上了黑链。通过利用目标概率得到网页异常参数，可以在检出有预设黑词的情况下对于待检测网页是否异常进行进一步检测，防止出现误报，提高了检测可靠性，解决了相关技术存在的可靠性较差，容易造成误报的问题。

此外，本申请还提供了一种黑链检测装置、电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种黑链检测方法流程图；

图2为本申请实施例提供的一种非法网页地址获取过程流程图；

图3为本申请实施例提供的一种预设黑词更新过程流程图；

图4为本申请实施例提供的一种黑链检测装置的结构示意图；

图5为本申请实施例提供的一种黑链检测方法所适用的一种硬件组成框架示意图；

图6为本申请实施例提供的另一种黑链检测方法所适用的一种硬件组成框架示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

黑链为使用非正当手段挂载在合法网站上的外链，其一般为非法网站，例如赌博网站等。由于黑链中包含特定的关键词和非法链接，因此相关技术通过匹配关键词的方式对黑链进行检测，具体的，其检测网页内容中是否存在预设的关键词，例如赌博游戏、澳门博彩网、皇冠赌博、六合彩资料、网上真人赌博等。若检测到存在预设的关键词，则认为被挂载了黑链。然而，有一些关键词不仅在非法网页中使用，在某些合法网页中可能也会被使用，例如一个新闻站点的标题可以为：公安部门公开销毁了一批赌博游戏机。在该合法网页中，可以匹配到赌博游戏这一关键词，在这种情况下，相关技术会认为被挂上了黑链，造成误报。

为了解决上述问题，本申请提供了一种黑链检测方法，在检测到网页内容中存在预设黑词时，利用目标黑词在合法网页中出现的目标概率得到网页异常参数，即利用目标黑词在合法网页中出现的概率对待检测网页是否被挂上黑链进行进一步检测。可以理解的是，若目标黑词在合法网页中出现的目标概率较高，则其表明被挂上了黑链的能力较弱，即表明待检测网页为异常的能力较弱；若目标黑词在合法网页中出现的目标概率较高，则其表明待检测网页为异常的能力较强。因此根据目标概率得到的网页异常参数可以考虑到误报的情况，综合各种可能对待检测网页被挂上黑链的可能性进行表征，并通过与标准参数进行比对确定待检测网页是否被挂有黑链进行判定，能够更加准确地进行黑链检测，减少误报。

请参考图1，图1为本申请实施例提供的一种黑链检测方法流程图。该方法包括：

S101：提取待检测网页的网页内容。

待检测网页可以为任意网页，其数量可以为一个或多个。网页内容与待检测网页相对应，其可以包括待检测网页的源代码，即源码，还可以包括其他内容，例如可以包括待检测网页对请求或指令进行响应的响应内容。网页内容的提取方式可以根据网页内容的具体内容的不同而不同，具体提取方式可以参考相关技术，在此不再赘述。进一步，网页内容的提取过程不做限定，在一种实施方式中，网页内容可以直接从待检测网页中提取得到，在另一种实施方式中，直接从待检测网页中提取得到初始网页内容，通过对初始网页内容进行进一步处理得到网页内容，进一步处理可以为无效数据删除处理、数据格式转换处理等，本实施例不做限定。

S102：对网页内容进行黑词匹配，判断网页内容中是否存在一个或多个预设黑词。

预设黑词为可以表示待检测网页被挂有黑链的关键词，其具体内容不做限定，可以根据需要进行设置。本实施例并不限定预设黑词的具体设置方式，例如在一种实施方式中，可以由人工设置预设黑词，例如获取用户输入的设置指令，并从设置指令中提取得到预设黑词；在另一种实施方式中，可以自动生成预设黑词，例如可以获取专门用于生成预设黑词的语料，从中提取预设黑词。可以理解的是，预设黑词的具体数量不做限定，其还可以被更新，例如增加新的预设黑词或删除已有的预设黑词。在一种实施方式中，预设黑词可以在黑词库中进行存储，因此在对网页内容进行黑词匹配时，可以基于黑词库对网页内容进行黑词匹配。

在提取到网页内容后，可以对其进行黑词匹配，即在网页内容中检测是否存在预设黑词。若网页内容中不存在预设黑词，说明该网页内容中不存在任意可以认为待检测网页被挂有黑链的关键词，在这种情况下，可以执行S105步骤。若网页内容中存在预设黑词，则说明待检测网页可能被挂有黑链，为了进一步确定待检测网页是否确实被挂有黑链，可以进入S103步骤进行进一步检测。本实施不对黑词匹配的具体过程进行限定，由于预设黑词的数量为多个，在一种实施方式中，可以对网页内容进行分词，在分词后依次利用各个词与预设黑词进行匹配比较。在另一种实施方式中，可以利用Trie树进行关键词匹配，Trie树又称单词查找树，是一种树形结构，一种哈希树的变种，可以被用于进行查找操作。

S103：将一个或多个预设黑词确定为一个或多个目标黑词，并根据一个或多个目标黑词在合法网页中出现的目标概率得到网页异常参数。

在检测到网页内容中存在预设黑词时，为了将其与其他预设黑词进行区分，可以将其确定为目标黑词，具体的，可以对网页内容中的预设黑词进行标记，使其成为目标黑词。目标黑词的具体数量不做限定，可以为一个或多个。目标黑词可能在合法网页中出现，其在合法网页中出现的概率即为目标概率。可以理解的是，在目标黑词即可能在合法网页中出现，也可能在非法网页中出现时，其在合法网页中出现的目标概率越大，在网页内容中包括目标黑词的情况下，其证明待检测网页被挂有黑链的能力就越弱，因为目标黑词极可能出现在合法网页中，待检测网页很可能没有被挂有黑链。而目标黑词在合法网页中出现的目标概率越小，其证明待检测网页被挂有黑链的能力就越强，因为目标黑词基本不可能出现在合法网页中，待检测网页很可能被挂上了黑链。因此，基于目标黑词在合法网页中出现的目标概率得到的网页异常参数，可以从目标黑词证明待检测网页被挂有黑链的能力这一角度，表示待检测网页被挂有黑链的可能性。具体的，例如“六合彩”一词，正常的新闻站点、彩票投注站点等同样会出现，其在合法网页中出现的概率较大，因此其证明待检测网页被挂有黑链的能力就较弱。再比如“皇冠hg0088网址”一词，在合法网页中不会出现，因此其证明待检测网页被挂有黑链的能力就极强。目标概率可以被提前设置好，或者可以在生成网页异常参数时，检测目标黑词在合法网站中的概率。

本实施例并不限定利用目标概率得到网页异常参数的具体方式，可以根据需要进行设置。例如在一种实施方式中，目标黑词的数量只有一个，在这种情况下，可以将目标概率作为输入值，按照预设公式计算得到网页异常参数。需要说明的是，由于目标概率越大，网页处于异常状态，即被挂载有黑链的可能性越低，因此目标概率与网页异常参数应当呈负相关的关系。在另一种实施方式中，目标黑词的数量为多个，在这种情况下，可以将各个目标概率进行计算得到总概率，并将总概率作为输入值计算得到网页异常参数，或者分别计算各个目标概率对应的网页异常子参数，再利用网页异常子参数得到网页异常参数。

S104：若网页异常参数大于标准参数，则确定检测到黑链。

标准阈值用于与网页异常参数进行比对，通过网页异常参数与标准参数的大小关系确定待检测网页是否被挂有黑链。标准参数的具体大小不做限定，可以人为设定，或者可以基于训练数据训练得到。若网页异常参数大于标准参数，则可以确定检测到黑链，即检测到待检测网页被挂有黑链。在确定检测到黑链后，还可以输出检测结果或进行报警操作，本实施例对后续操作的具体内容不做限定。需要说明的是，本实施例并不限定网页异常参数不大于标准参数这一情况下的处理方式，例如可以输出检测结果，即待检测网页没有被挂有黑链。

S105：预设操作。

若未在网页内容中检测到预设黑词，则说明待检测网页中没有被挂有黑链，在这种情况下可以执行预设操作。预设操作的具体内容不做限定，例如可以为无操作，即不执行任何操作，或者可以输出检测结果，即待检测网页没有被挂有黑链。

应用本申请实施例提供的黑链检测方法，在进行黑链检测时，先对待检测网页的网页内容进行黑词匹配，判断其中是否存在预设黑词。若其中存在预设黑词，也无法说明待检测网页被挂上了黑链，因为有些合法网页中同样存在与非法网页相同的关键词，直接确定待检测网页被挂上黑链可能会导致误报，还需要进行进一步检测。将网页内容中的预设黑词确定为目标黑词，并确定各个目标黑词在合法网页中出现的目标概率，并利用该目标概率得到网页异常参数。若一个预设黑词很容易出现在合法网页中，则该预设黑词表示被挂有黑链的能力就较弱，若一个预设黑词出现在合法网页中的概率很低，则该预设黑词表示被挂有黑链的能力就较强。通过目标概率计算得到网页异常参数，可以从目标黑词在合法网页中出现的可能性对待检测网页是否被挂有黑链进行体现，将其与标准参数进行比较，若大于标准参数，可以确定检测到待检测网页被挂上了黑链，准确地检出待检测网页是否被挂上了黑链。通过利用目标概率得到网页异常参数，可以在检出有预设黑词的情况下对于待检测网页是否异常进行进一步检测，防止出现误报，提高了检测可靠性，解决了相关技术存在的可靠性较差，容易造成误报的问题。

基于上述实施例，本实施例将对上述实施例中的若干步骤进行具体的阐述。其中，在提取待检测网页的网页内容之前，还可以包括：

步骤11：提取待检测网页的超链接信息。

超链接是指按内容链接，其在本质上属于一个网页的一部分，是一种允许同其他网页或站点之间进行连接的元素。各个网页链接在一起后，才能真正构成一个网站。超链接是指从一个网页指向一个目标的连接关系，目标的具体内容不做限定，例如可以是另一个网页，也可以是相同网页上的不同位置，还可以是一个图片，一个电子邮件地址，一个文件，甚至是一个应用程序。而在一个网页中用来超链接的对象，可以是一段文本，或者是一个图片。当该对象被单击时，链接目标将显示在浏览器上，并且根据目标的类型来打开或运行。因此在对待检测网页中包括多个超链接时，可以对其进行提取并处理，得到超链接信息。超链接信息中包括URL(Uniform Resource Locator，统一资源定位符)，即超链接信息中仅包括用于指向另一个网页的超链接。提取超链接信息的具体方式不做限定，可以参考相关技术。由于超链接信息记录了用于指向另一个网页的超链接，而这些超链接可能只想了非法网页，因此对其进行提取可以在后续进行黑链检测。

步骤12：对超链接信息进行非法网页地址匹配，判断超链接信息中是否存在预设非法网页地址。

预设非法网页地址也可以被称为黑URL或非法URL，其被提前设置好，其具体为收集到的非法网页对应的地址，例如可以利用黑URL库，即黑链库，对其进行保存。因此在得到超链接信息后，可以基于黑链库对其进行非法网页地址匹配，具体为基于黑链库中的预设非法网页地址对超链接信息进行检测，判断超链接信息中是否存在预设非法网页地址。匹配的具体方式不做限定，可以参考相关技术。

步骤13：若存在预设非法网页地址，则确定检测到黑链。

若存在预设非法网页地址，则说明待检测网页中存在指向非法网页的超链接，因此可以直接确定检测到黑链，即待检测网页被挂有黑链。

相应的，提取待检测网页的网页内容的步骤具体为：

步骤14：若不存在预设非法网页地址，则提取待检测网页的网页内容。

若不存在预设非法网页地址，则说明没有在待检测网页中检测到指向非法网页的超链接，此时无法通过非法网页地址匹配直接得到检测结果，因此可以执行提取待检测网页的网页内容的步骤，以便对待检测网页进行进一步检测。

应用本申请实施例提供的黑链检测方法，在提取网页内容之前，可以先进行非法网页地址匹配的检测，即先进行非法URL检测。由于非法URL的检测速度较快，而黑词匹配以及后续检测的速度较慢，因此先进行非法URL检测可以提高总体检测效率，提高检测性能。

可以理解的是，在利用预设非法网页地址进行非法网页地址匹配的检测之前，可以先生成预设非法网页地址。请参考图2，图2为本申请实施例提供的一种非法网页地址获取过程流程图，包括：

S201：提取非法网页对应的待测超链接。

近朱者赤，近墨者黑，非法网站的对外链接往往也是非法网站，例如一些赌博网站，其往往链接了其他的赌博或色情网站。因此可以提取非法网页对应的、指向其他网页的超链接作为待测超链接，以便判断这些待测超链接是否为非法网页地址。

S202：计算待测超链接对应的目标网页的目标网页异常参数，并判断目标网页异常参数是否大于预设黑链阈值。

具体的，可以提取各个超链接对应的网页内容，并利用S101至S103步骤中的检测方式对其进行检测，得到目标网页异常参数，具体获取过程可以参考上述说明，在此不再赘述。将目标网页异常参数与预设黑链阈值进行比较，预设黑链阈值用于区分待测超链接是否为非法网页地址，具体大小不做限定。若目标网页异常参数大于预设黑链阈值，则可以执行S203步骤；若目标网页预设参数不大于预设黑链阈值，则可以执行S204步骤。

S203：确定待测超链接为预设非法网页地址。

若目标网页异常参数大于预设黑链阈值，则可以确定其为预设非法网页地址。具体的，可以对待测超链接进行无效数据删除等处理，使其转变为预设非法网页地址。

需要说明的是，该非法网页地址确定方式还可以用于对预设非法网页地址进行更新，即若已经存在预设非法网页地址，则可以将S203步骤中得到的预设非法网页地址基于已有的黑URL库进行去重，并将去重后的预设非法网页地址加入黑URL库，完成对以后的预设非法网页地址的更新。

S204：预设操作。

应用本申请实施例提供的黑链检测方法，可以自动发现并提取预设非法网页地址，与相关技术利用人工收集预设非法网页地址的方案相比，该方式减少了获取预设非法网页地址所需的时间，提高了收集效率。

基于上述实施例，与预设非法网页地址类似的，还可以自动更新预设黑词，无需人工收集并更新预设黑词。请参考图3，图3为本申请实施例提供的一种预设黑词更新过程流程图，包括：

S301：获取非法网站语料并进行分词处理，得到候选文本段。

非法网站语料为从非法网站中直接获取的语料，具体内容不做限定。非法网站语料可以由人工获取输入，或者可以从其它设备处获取，或者可以利用收集到的预设非法网页地址直接从非法网页中获取。在得到非法网站语料后，可以直接对其进行分词处理，得到多个候选文本段。候选文本段可能为词语，也可能不是词语。分词处理的具体方式不做限定，例如在一种可行的实施方式中，可以利用n-gram算法(即n元模型)进行分词处理。n-gram是NLP(natural language processing，自然语言处理)中一种基于统计语言模型的算法。在分词处理时，首先要指定n的值，比如：n＝3。对于文本“分布式存储集群”，可以做如下切分：

1)[分，布式存储集群]、2)[分布，式存储集群]、3)[分布式，存储集群]。

对于上述3种分法，如果有文本片段的长度超过3，还可以继续递归的切分。比如，继续对1)继续进行切分：[分，布，式存储集群]、[分，布式，存储集群]、[分，布式存，储集群]。这样递归下去，直到切分后的文本片段的长度都不超过3为止。

S302：获取候选文本段对应的成词信息，并利用成词信息判断候选文本段是否可以成词。

成词信息用于表示候选文本段的文本段特征，且可以用于判断候选文本段是否可以成词，即候选文本段是否为一个词语。成词信息的具体内容不做限定，例如可以为候选文本段可以成词的概率，或者可以为候选文本段在词库中进行匹配检索后得到的结果。根据成词信息内容的不同，获取成词信息的方式也可以不同。

S303：将候选文本段确定为候选预设黑词。

若候选文本段可以成词，则说明器为具体的词，此时可以将候选文本段确定为候选预设黑词，以便在后续利用其进行更新。

S304：利用候选预设黑词对预设黑词进行更新。

在得到候选预设黑词后，即可以利用其对预设黑词进行更新。由于候选预设黑词为基于非法网站语料直接得到的词，因此利用其对预设黑词进行更新时，可以对其进行一定的处理。例如候选预设黑词可能包括某些合法网站大量使用的普通词，则可以利用预设白词库对候选预设黑词进行过滤，将其中被预设白词库收纳的候选预设黑词删除。或者还可以利用已有的预设黑词对候选预设黑词进行去重处理，并在去重处理后对预设黑词进行更新，即将候选预设黑词确定为预设黑词。

可以理解的是，上述步骤还可以用于在初始化时生成预设黑词，即若在得到候选预设黑词之前不存在预设黑词，则S301至S304步骤则为预设黑词的生成过程。

S305：预设操作。

若候选文本段不可以成词，则说明其并不是一个有意义的词，此时可以执行预设操作，预设操作的具体内容不做限定。

应用本申请实施例提供的黑链检测方法，可以不依赖任何词库，仅根据词的共同特性，自动生成或更新预设黑词，与相关技术利用人工收集并更新预设黑词的方案相比，该方式减少了所需的时间，提高了更新效率。

基于上述实施例，在一种具体的实施方式中，获取候选文本段对应的成词信息的步骤可以包括：

步骤21：统计候选文本段在非法网站语料中的出现次数，并利用出现次数计算词频。

在本实施例中，可以从三个角度判断候选文本段是否可以成词，因此可以基于该三个角度生成对应的成词信息。其中，第一个角度为词频，即该候选文本段的出现频率，出现频率越高，其为一个独立的词的可能性越大。第二个角度为凝固度，凝固度即为候选文本段中各个字同时出现的概率，凝固度越高，其为一个独立的词的可能性越大。例如“彷”、“徨”这2个字，经常一起出现，它们的凝固度非常高，很大概率是一个词。第三个角度为自由度，即如果一个候选文本段能够作为一个词的话，它应该能够灵活地出现在各种不同的环境中，具有非常丰富的左邻字集合和右邻字集合。例如“后遗”这个文本片段，几乎所有情况下，这两个字的后面都会跟“症”这个字。也就是说“后遗”右边不能随意的跟其它字，只能跟“症”这个字，说明它的自由程度不高。因此，“后遗”很大概率不是一个词，而“后遗症”才是一个词。

通过统计各个候选文本段在非法网站语料中的出现次数，可以得到该候选文本段的词频，具体的，可以将词i出现的次数记为C_i，总词数记为C，则词频p即为：

步骤22：利用候选文本段中各个字对应的出现概率计算凝固度。

候选文本段的凝固度即为组成该候选文本段的子同时出现的概率与每个字单独出现的概率的乘积的比值。具体的，凝固度可以用s表示，则：

其中，p(x,y)为x和y这两个字同时出现的概率，p(x)为字x出现的概率，p(y)为字y出现的概率。

步骤23：计算候选文本段对应的信息熵，并利用信息熵得到自由度。

信息熵用于衡量信息的不确定性，熵值越大则说明不确定性越大。通过计算候选文本段对应的信息熵，可以确定候选文本段左右两边的字的变化情况，若相对固定，则自由度低，否则自由度高。具体的，可以将字i出现在候选文本段左边的概率记为P_i，则出现在该词左边所有字的信息熵为：

相应的，候选文本段右边所有字的信息熵为entropy_R，自由度f可以取左右两边信息熵的最小值，即：

f＝min(entropy_L，entropy_R)。

需要说明的是，步骤21、步骤22和步骤23的执行顺序不做限定，例如可以并行执行，或者可以串行执行。

步骤24：利用词频、凝固度和自由度计算得到成词信息。

在本实施例中，成词信息可以用score表示，则：

score＝p·(s+f)。

相应的，在判断是否可以成词时，可以设定成词阈值，若成词信息score大于成词阈值，则确定可以成词，相反则不可以成词。

应用本申请实施例提供的黑链检测方法，可以从词频、凝固度和自由度三个方面生成准确地成词信息，以便在后续利用该成词信息准确地判断候选文本段是否可以成词。

基于上述实施例，在一种具体的实施方式中，为了快速确定网页异常参数，进而提高黑链检测的效率，利用目标黑词在合法网页中出现的目标概率得到网页异常参数的步骤可以包括：

步骤31：确定目标概率所处的概率区间，并获取概率区间对应的网页异常子参数。

在本实施例中，网页异常子参数可以为网页异常子概率(百分比形式)或网页异常子分值(分值形式)。为了提高黑链检测效率，在具有多个目标黑词时，可以确定各个目标概率对应的概率区间并根据概率区间与网页异常子参数之间的对应关系直接确定网页异常子参数。相比采用计算的方式，通过概率区间直接确定网页异常子参数可以减少计算时长，进而提高黑链检测效率，特别是当目标黑词数量较多时，相比依次计算各个目标黑词对应的网页异常子参数，该方法可以减少较多的计算量和计算时长。各个概率区间对应的网页异常子参数的具体大小可以人为设定，或者可以训练得到。

步骤32：利用各个网页异常子参数计算网页异常参数。

本实施例并不限定利用网页异常子参数计算网页异常参数的方法，例如可以将各个网页异常子参数相加得到网页异常参数。

进一步的，为了准确地判断待检测网页是否被挂有黑链，在进行检测前，还可以对网页异常子参数和/或标准参数进行调节，调节过程具体可以包括：

步骤41：获取训练网页，利用预设黑词、网页异常子参数和标准参数确定训练网页对应的训练检测结果。

步骤42：根据训练检测结果和训练网页对应的训练标签确定检测准确率。

步骤43：若检测准确率未达到准确率阈值，则基于检测准确率调节网页异常子参数和/或标准参数，直至检测准确率达到准确率阈值。

为了更加准确地进行黑链检测，本实施例优选的，可以利用训练数据对网页异常子参数的具体大小和/或标注参数进行训练，在训练过程中，对训练网页进行检测得到训练检测结果后，利用训练网页对应的训练标签与训练检测结果确定检测准确率，即判断在当前的网页异常子参数和标准参数下能否进行准确地黑链检测。若检测准确率未达到准确率阈值，则对网页异常子参数和/或标准参数进行调节，直至检测准确率达到准确率阈值，说明基于调节过后的网页异常子参数和标准参数可以进行准确地黑链检测。

应用本申请实施例提供的黑链检测方法，相比于人工设定网页异常子参数和标准参数，基于训练得到的我那个罗异常子参数和标准参数可以进行更加准确地黑链检测，保证了黑链检测的准确性。

下面对本申请实施例提供的黑链检测装置进行介绍，下文描述的黑链检测装置与上文描述的黑链检测方法可相互对应参照。

请参考图4，图4为本申请实施例提供的一种黑链检测装置的结构示意图，包括：

提取模块110，用于提取待检测网页的网页内容；

黑词判断模块120，用于对网页内容进行黑词匹配，判断网页内容中是否存在一个或多个预设黑词；

网页异常参数获取模块130，用于若存在一个或多个预设黑词，则将一个或多个预设黑词确定为一个或多个目标黑词，并根据一个或多个目标黑词在合法网页中出现的目标概率得到网页异常参数；

黑链检出模块140，用于若网页异常参数大于标准参数，则确定检测到黑链。

可选地，还包括：

超链接信息提取模块，用于提取待检测网页的超链接信息；

预设非法网页地址判断模块，用于对超链接信息进行非法网页地址匹配，判断超链接信息中是否存在预设非法网页地址；

相应的，提取模块110为在确定不存在预设非法网页地址后提取待检测网页的网页内容的模块。

可选地，还包括：

检出确定模块，用于若存在预设非法网页地址，则确定检测到黑链。

可选地，预设非法网页地址判断模块，包括：

黑链库检测单元，用于基于黑链库对所述超链接信息进行非法网页地址匹配；所述黑链库中存储有所述预设非法网页地址。

可选地，还包括：

待测超链接提取模块，用于提取非法网页对应的待测超链接；

黑链阈值判断模块，用于计算待测超链接对应的目标网页的目标网页异常参数，并判断目标网页异常参数是否大于预设黑链阈值；

预设非法网页地址确定模块，用于若目标网页异常参数大于预设黑链阈值，则确定待测超链接为预设非法网页地址。

可选地，黑词判断模块120，包括：

黑词库检测单元，用于基于黑词库对所述网页内容进行黑词匹配；所述黑词库中存储有所述预设黑词。

可选地，还包括：

分词模块，用于获取非法网站语料并进行分词处理，得到候选文本段；

成词判断模块，用于获取候选文本段对应的成词信息，并利用成词信息判断候选文本段是否可以成词；

候选预设黑词确定模块，用于若候选文本段可以成词，则将候选文本段确定为候选预设黑词；

更新模块，用于利用候选预设黑词对预设黑词进行更新。

可选地，成词判断模块，包括：

词频获取单元，用于统计候选文本段在非法网站语料中的出现次数，并利用出现次数计算词频；

凝固度获取单元，用于利用候选文本段中各个字对应的出现概率计算凝固度；

自由度获取单元，用于计算候选文本段对应的信息熵，并利用信息熵得到自由度；

成词信息生成单元，用于利用词频、凝固度和自由度计算得到成词信息。

可选地，网页异常参数获取模块130，包括：

子参数确定单元，用于确定目标概率所处的概率区间，并获取概率区间对应的网页异常子参数；网页异常子参数为网页异常子概率或网页异常子分值；

网页异常参数计算单元，用于利用各个网页异常子参数计算网页异常参数。

可选地，还包括：

训练模块，用于获取训练网页，利用预设黑词、网页异常子参数和标准参数确定训练网页对应的训练检测结果；

准确度判断模块，用于根据训练检测结果和训练网页对应的训练标签确定检测准确率；

调节模块，用于若检测准确率未达到准确率阈值，则基于检测准确率调节网页异常子参数和/或标准参数，直至检测准确率达到准确率阈值。

下面对本申请实施例提供的电子设备进行介绍，下文描述的电子设备与上文描述的攻击检测方法可相互对应参照。

请参考图5，图5为本申请实施例提供的一种攻击检测方法所适用的一种硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成上述的攻击检测方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static RandomAccess Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-OnlyMemory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中，存储器102中至少存储有用于实现以下功能的程序和/或数据：

提取待检测网页的网页内容；

对网页内容进行黑词匹配，判断网页内容中是否存在一个或多个预设黑词；

若存在一个或多个预设黑词，则将一个或多个预设黑词确定为一个或多个目标黑词，并根据一个或多个目标黑词在合法网页中出现的目标概率得到网页异常参数；

若网页异常参数大于标准参数，则确定检测到黑链。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearField Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(ApplicationSpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(FieldProgrammableGateArray，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例给出的攻击检测方法。

当然，图5所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备100可以包括比图5所示的更多或更少的部件，或者组合某些部件。

可以理解的是，本申请实施例中并不对电子设备的数量进行限定，其可以是多个电子设备共同协作完成攻击检测方法。在一种可能的实施方式中，请参考图6，图6为本申请实施例提供的另一种攻击检测方法所适用的硬件组成框架示意图。由图6可知，该硬件组成框架可以包括：第一电子设备11和第二电子设备12，二者之间通过网络13连接。

在本申请实施例中，第一电子设备11与第二电子设备12的硬件结构可以参考图5中电子设备100。即可以理解为本实施例中具有两个电子设备100，两者进行数据交互，实现对待检测网页进行黑链检测的效果。进一步，本申请实施例中并不对网络13的形式进行限定，即，网络13可以是无线网络(如WIFI、蓝牙等)，也可以是有线网络。

其中，第一电子设备11和第二电子设备12可以是同一种电子设备，如第一电子设备11和第二电子设备12均为服务器；也可以是不同类型的电子设备，例如，第一电子设备11可以是网关或路由器，第二电子设备12可以是服务器。在一种可能的实施方式中，可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性，进而提高黑链检测的效率。同时利用成本低，应用范围广的网关或路由器作为第一电子设备11，用于实现第二电子设备12与操作端(例如指定待检测网页的客户端)之间的交互。该交互过程可以为：操作端发送指定待检测网页的指令，由第一电子设备11对待检测网页的网页内容进行提取，并将网页内容发送给第二电子设备12，以便第二电子设备12继续执行后续的步骤，直至完成黑链检测过程。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的黑链检测方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的黑链检测方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种黑链检测方法，其特征在于，包括：

提取待检测网页的网页内容；

若所述网页异常参数大于标准参数，则确定检测到黑链；

其中，所述根据所述一个或多个目标黑词在合法网页中出现的目标概率得到网页异常参数，包括：确定各所述目标黑词在所述合法网页中出现的目标概率所处的概率区间，并获取各所述概率区间对应的网页异常子参数；所述网页异常子参数为网页异常子概率或网页异常子分值；利用各个所述网页异常子参数计算网页异常参数。

2.根据权利要求1所述的黑链检测方法，其特征在于，在提取待检测网页的网页内容之前，还包括：

提取所述待检测网页的超链接信息；

相应的，所述提取待检测网页的网页内容具体为：

3.根据权利要求2所述的黑链检测方法，其特征在于，若存在所述预设非法网页地址，则确定检测到所述黑链。

4.根据权利要求2所述的黑链检测方法，其特征在于，所述对所述超链接信息进行非法网页地址匹配，包括：

5.根据权利要求2所述的黑链检测方法，其特征在于，所述预设非法网页地址的获取过程，包括：

提取非法网页对应的待测超链接；

6.根据权利要求1所述的黑链检测方法，其特征在于，所述对所述网页内容进行黑词匹配，包括：

7.根据权利要求1所述的黑链检测方法，其特征在于，所述预设黑词的更新过程，包括：

获取非法网站语料并进行分词处理，得到候选文本段；

利用所述候选预设黑词对所述预设黑词进行更新。

8.根据权利要求7所述的黑链检测方法，其特征在于，所述获取所述候选文本段对应的成词信息，包括：

利用所述候选文本段中各个字对应的出现概率计算凝固度；

9.根据权利要求1所述的黑链检测方法，其特征在于，所述网页异常子参数和/或所述标准参数的调节过程，包括：

10.一种黑链检测装置，其特征在于，包括：

提取模块，用于提取待检测网页的网页内容；

黑链检出模块，用于若所述网页异常参数大于标准参数，则确定检测到黑链；

所述网页异常参数获取模块具体用于确定各所述目标黑词在所述合法网页中出现的目标概率所处的概率区间，并获取各所述概率区间对应的网页异常子参数；所述网页异常子参数为网页异常子概率或网页异常子分值；利用各个所述网页异常子参数计算网页异常参数。

11.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至9任一项所述的黑链检测方法。

12.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的黑链检测方法。