CN106778357B

CN106778357B - 一种网页篡改的检测方法及装置

Info

Publication number: CN106778357B
Application number: CN201611207732.3A
Authority: CN
Inventors: 古琳莹; 吴昊; 张楠; 张维
Original assignee: NSFOCUS Information Technology Co Ltd; Beijing NSFocus Information Security Technology Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2020-02-07
Anticipated expiration: 2036-12-23
Also published as: CN106778357A

Abstract

本发明公开了一种网页篡改的检测方法及装置，用以解决现有技术中存在计算量大、检测效率低的问题。该方法为：确定到达预设的检测周期的情况下，对待检测网页进行分词处理，获取待检测网页对应的特征词集合，并基于特征词集合，获取待检测网页对应的特征向量；将特征向量输入预先建立的网页特征预测模型，获取待检测网页对应的隶属度集合；计算特征词相似度以及隶属度集合；基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改。这样，无需将整篇待检测网页与基准网页进行比对分析，即可实现网页篡改的检测，有效地降低了网页篡改检测的计算量，提高了网页篡改检测的效率。

Description

一种网页篡改的检测方法及装置

技术领域

本发明涉及网络安全技术领域，尤其涉及一种网页篡改的检测方法及装置。

背景技术

随着网络技术的不断发展，各大类型的网站应运而生，比如：新闻类网站，体育类网站，科技类网站，购物类网站，以及企业运营类网站等等，这不仅丰富了用户的业余生活，也实现了产品、信息、企业等的宣传和推广。但是，人们在享受网络带来的便利的同时，也面临着网络带来的安全隐患，在实际应用中，网页篡改事件时有发生，这不仅会影响网站所有者的对外形象，还会造成网站所有者和网站浏览者的财产损失。

目前，针对网页篡改，主要提出了如下检测方案：通过数字水印技术，在网页中嵌入篡改检测脚本，以及与基准网页(即原始网页)进行对比分析等方式，实现网页篡改的检测和防护；或者，在网站服务器和用户设备之间部署网站应用防护(Web ApplicationFirewall，WAF)设备，实现网页篡改的检测和防护。

基于上述分析，现有技术中，大多数的网页篡改的检测方法均需要将待检测网页与基准网页进行比对分析，以确定待检测网页是否被篡改，不仅计算量较大，检测效率较低，而且，还存在由于无法准确获知基准网页是否已更新，导致网页篡改检测不准确的问题。除此之外，通过数字水印技术等对网页进行检测，需要修改网站服务器本身的代码，操作比较复杂。而且，在对网页进行检测的过程中，在网站服务器与用户客户端之间进行数据传输时，还需要增加防护措施，检测成本较高。

发明内容

本发明实施例提供了一种网页篡改的检测方法及装置，用以解决现有技术中在检测网页篡改时存在计算量较大，检测效率较低，以及检测成本较高的问题。

本发明实施例提供的具体技术方案如下：

一种网页篡改的检测方法，包括：

确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量；

将特征向量输入预先建立的网页特征预测模型，获取待检测网页对应的隶属度集合，其中，隶属度集合是待检测网页在各个网页类别下分别对应的隶属度的集合；

计算目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，并基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改。

较佳的，网页特征预测模型是采用以下方式建立的：

针对采集到的各个网页类别下的每一个样本网页进行分词处理，获取各个网页类别下的每一个样本网页分别对应的样本特征词集合；

对各个网页类别下的每一个样本网页分别对应的样本特征词集合进行约减处理，获取各个网页类别下的每一个样本网页分别对应的训练样本特征词集合；

对各个网页类别下的每一个样本网页分别对应的训练样本特征词集合进行归一化处理，获取各个网页类别下的每一个样本网页分别对应的样本特征向量；

对各个网页类别下的每一个样本网页分别对应的样本特征向量进行网页分类训练，获取用于确定待检测网页对应的隶属度集合的网页分类函数，并将网页分类函数作为处理函数，建立网页特征预测模型。

较佳的，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量，包括：

对待检测网页进行分词处理，获取待检测网页对应的初始特征词集合，并对初始特征词集合进行约减处理，获取待检测网页对应的目标特征词集合，以及对目标特征词集合包含的每一个特征词进行归一化处理，获取待检测网页对应的特征向量。

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改，包括：

若确定特征词相似度和/或隶属度相似度小于预设阈值，则认定待检测网页已被篡改；

若确定特征词相似度和隶属度相似度均大于等于预设阈值，则认定待检测网页未被篡改。

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改之后，进一步包括：

在认定待检测网页已被篡改的情况下，输出待检测网页的检测人员显示待检测网页已被篡改的检测结果以及用于判断是否认可检测结果的反馈窗口；

若接收到在反馈窗口中输入的表征不认可检测结果的第一指示信息，则基于在当前检测周期中获取到的目标特征词集合和隶属度集合，修改在上一检测周期中获取到的基准特征词集合和基准隶属度集合，并将修改后的基准特征词集合和修改后的基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合；若接收到在反馈窗口中输入的表征认可检测结果的第二指示信息，则依然将在上一检测周期中获取到的基准特征词集合和基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合。

一种网页篡改的检测装置，包括：

第一获取单元，用于确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量；

第二获取单元，用于将特征向量输入预先建立的网页特征预测模型，获取待检测网页对应的隶属度集合，其中，隶属度集合是待检测网页在各个网页类别下分别对应的隶属度的集合；

检测结果确定单元，用于计算目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，并基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改。

较佳的，网页篡改的检测装置还包括：模型建立单元，其中，模型建立单元用于采用以下方式建立网页特征预测模型：

较佳的，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量时，第一获取单元具体用于：

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改时，检测结果确定单元具体用于：

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改之后，检测结果确定单元进一步用于：

一种非易失性计算机存储介质，存储有计算机可执行指令，其中，计算机可执行指令设置为：

一种电子设备，包括：至少一个处理器，以及存储器；其中，

存储器，用于存储上述至少一个处理器执行的指令；

上述至少一个处理器，用于执行存储在存储器中的指令，以便

本发明实施例的有益效果如下：

本发明实施例中，摒弃了现有技术采用的将整篇待检测网页与基准网页进行比对分析的检测方法，而是对待检测网页进行特征词提取，根据提取到的待检测网页的目标特征词集合，获取特征词相似度和隶属度相似度，再根据特征词相似度和隶属度相似度，判断待检测网页是否已被篡改，无需将整篇待检测网页与基准网页进行比对分析，即可实现网页篡改的检测，不仅有效地降低了网页篡改检测的计算量，提高了网页篡改检测的效率，也避免了由于无法准确地获知基准网页是否已更新，导致网页篡改检测不准确的问题。除此之外，不需要修改网站服务器本身的代码，也不需要在数据传输过程中增加防护措施，操作简单，检测成本较低。

进一步地，在通过对待检测网页进行分词处理，获取到待检测网页对应的初始特征词集合之后，获取待检测网页对应的特征向量之前，还会对待检测网页对应的初始特征词集合进行约减处理，以去除不必要的特征词，从而降低了在获取特征向量时的计算量，提高了特征向量的获取速率，进一步地加快了网页篡改检测的效率。除此之外，在认定待检测网页已被篡改的情况下，通过向检测人员输出待检测网页已被篡改的检测结果，由检测人员进一步核查该检测结果是否正确，提高了网页篡改检测的准确度。而且，在检测人员指出待检测网页已被篡改的检测结果不正确的情况下，根据在当前检测周期中获取到的目标特征词集合和隶属度集合，修改在上一检测周期中获取到的基准特征词集合和基准隶属度集合，并将修改后的基准特征词集合和修改后的基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合，进一步地保证了网页篡改检测的准确度。

附图说明

图1为本发明实施例中网页篡改的检测方法的概况示意图；

图2为本发明实施例中网页特征预测模型的建立方法的具体流程示意图；

图3A和图3B为本发明实施例中网页篡改的检测方法的具体流程示意图；

图4为本发明实施例中网页篡改的检测装置的功能结构示意图；

图5为本发明实施例中用于执行网页篡改的检测方法的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中在检测网页篡改时存在计算量较大、检测效率较低的问题，本发明实施例中，通过提取待检测网页的特征词，获取待检测网页对应的特征词集合，再对特征词集合进行归一化处理，获取待检测网页对应的特征向量，并在将特征向量输入预先建立的网页分类函数，获取待检测网页对应的隶属度集合后，将特征词集合与在上一检测周期中获取到的基准特征词集合进行相似度比较，获取特征词相似度，以及将隶属度集合与在上一检测周期中获取到的基准隶属度集合进行相似度比较，获取隶属度相似度，并基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改。

下面通过具体实施例对本发明方案进行详细描述，当然，本发明并不限于以下实施例。

参阅图1所示，本发明实施例中，网页篡改的检测方法可以在但不限于在用户使用的终端设备上执行，具体地，网页篡改的检测方法的流程如下：

步骤100：确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量。

在具体实施时，为了实现对待检测网页的检测，在执行步骤100之前，还需要建立网页特征预测模型。具体地，可以采用但不限于以下方式：

首先，分别从不同网站类型的网站中采集网页，并将从不同网站类型的网站中采集到的网页作为相应网页类别下的样本网页(即将网站类型作为网页类别，对样本网页进行划分)，针对采集到的各个网页类别下的每一个样本网页进行分词处理，获取各个网页类别下的每一个样本网页分别对应的样本特征词集合。

然后，对各个网页类别下的每一个样本网页分别对应的样本特征词集合进行约减处理(其中，约减处理是简化样本特征词集合的一种方式)，获取各个网页类别下的每一个样本网页分别对应的训练样本特征词集合。较佳的，在对各个网页类别下的每一个样本网页分别对应的样本特征词集合进行约减处理时，可以采用但不限于以下两种方式：

第一种约减方式：针对各个网页类别下的每一个样本网页分别对应的样本特征词集合执行以下操作：计算样本特征词集合包含的每一个样本特征词分别对应的信息增益，并从该样本特征词集合中，选取对应的信息增益大于等于第一预设阈值的所有样本特征词作为训练样本特征词集合。较佳的，可以采用公式(1)计算样本特征词t对应的信息增益IG(t)。

其中，n表征样本网页的总数，P(C_i)表征C_i类样本网页在所有样本网页中出现的概率，P(t)表征样本特征词t在所有样本网页中出现的概率，P(C_i/t)表征出现样本特征词t的样本网页属于C_i类的概率，

表征样本特征词t在所有样本网页中不出现的概率，表征不出现样本特征词t的样本网页属于C_i类的概率。

第二种约减方式：针对各个网页类别下的每一个样本网页分别对应的样本特征词集合执行以下操作：获取样本特征词集合包含的每一个样本特征词分别对应的概率集合，并从样本特征词集合中，选取对应的概率集合中存在至少一个大于等于第二预设阈值的概率的所有样本特征词作为训练样本特征词集合。其中，样本特征词集合包含的一个样本特征词对应的概率集合是该一个样本特征词在各个网页类别下的概率的集合。

值得说的是，在对各个网页类别下的每一个样本网页分别对应的样本特征词集合进行约减处理时，可以采用第一种约减方式或第二种约减方式，对各个网页类别下的每一个样本网页分别对应的样本特征词集合进行一次约减处理，直接获取各个网页类别下的每一个样本网页分别对应的训练样本特征词集合，也可以采用第一种约减方式和第二种约减方式，对各个网页类别下的每一个样本网页分别对应的样本特征词集合进行两次约减处理，获取各个网页类别下的每一个样本网页分别对应的训练样本特征词集合。本发明实施例中，仅以“先采用第一种约减方式，对各个网页类别下的每一个样本网页分别对应的样本特征词集合进行第一次约减处理，获取各个网页类别下的每一个样本网页分别对应的约减样本特征词集合，再采用第二种约减方式，对各个网页类别下的每一个样本网页分别对应的约减样本特征词集合进行第二次约减处理，获取各个网页类别下的每一个样本网页分别对应的训练样本特征词集合”为较佳实施例进行说明。

其次，对各个网页类别下的每一个样本网页分别对应的训练样本特征词集合进行归一化处理(其中，归一化处理是将以文本形式存在的训练样本特征词集合转换为以数学形式存在的样本特征向量的一种方式)，获取各个网页类别下的每一个样本网页分别对应的样本特征向量。较佳的，对各个网页类别下的每一个样本网页分别对应的训练样本特征词集合进行归一化处理时，可以采用但不限于以下方式：

针对各个网页类别下的每一个样本网页分别对应的训练样本特征词集合执行以下操作：计算样本网页对应的训练样本特征词集合包含的每一个样本特征词分别对应的权值，并将训练样本特征词集合包含的每一个样本特征词分别对应的权值作为该样本网页对应的特征向量，其中，训练样本特征词集合包含的一个样本特征词对应的权值为该一个特征词在该样本网页出现的频率。

最后，对各个网页类别下的每一个样本网页分别对应的样本特征向量进行网页分类训练，获取用于确定待检测网页对应的隶属度集合的网页分类函数，并将网页分类函数作为处理函数，建立网页特征预测模型，即网页特征预测模型是以待检测网页对应的特征向量为输入量，输入预先配置的网页分类函数后，输出待检测网页对应的隶属度集合的一种模型(其中，待检测网页对应的隶属度集合是该待检测网页在各个网页类别下分别对应的隶属度的集合)。至此，完成了网页特征预测模型的建立。

进一步地，在建立网页特征预测模型之后，就可以按照预设的检测周期，周期性地对待检测网页进行检测。较佳的，为了降低计算量，提高检测效率，在确定到达预设的检测周期的情况下，在对待检测网页进行分词处理，获取待检测网页对应的初始特征词集合之后，还可以对初始特征词集合进行约减处理(其中，约减处理是简化特征词集合的一种方式)，获取待检测网页对应的目标特征词集合后，再对目标特征词集合包含的每一个特征词进行归一化处理(其中，归一化处理是将以文本形式存在的目标特征词集合转换为以数学形式存在的特征向量的一种方式)，获取待检测网页对应的特征向量。

较佳的，在对待检测网页对应的初始特征词集合进行约减处理时，可以采用但不限于以下两种方式：

第一种约减方式：计算初始特征词集合包含的每一个特征词分别对应的信息增益，并从初始特征词集合中，选取对应的信息增益大于等于第一预设阈值的所有特征词作为待检测网页对应的目标特征词集合。较佳的，可以采用公式(2)计算特征词t'对应的信息增益IG(t')。

其中，n表征样本网页的总数，P(C_i)表征C_i类样本网页在所有样本网页中出现的概率，P(t')表征特征词t'在所有样本网页中出现的概率，P(C_i/t')表征出现特征词t'的样本网页属于C_i类的概率，

表征特征词t'在所有样本网页中不出现的概率，表征不出现特征词t'的样本网页属于C_i类的概率。

第二种约减方式：获取初始特征词集合包含的每一个特征词分别对应的概率集合，并从初始特征词集合中，选取对应的概率集合中存在至少一个大于等于第二预设阈值的概率的所有特征词作为目标特征词集合。其中，初始特征词集合包含的一个特征词对应的概率集合是该一个特征词在各个网页类别下的概率的集合。

值得说的是，在对待检测网页对应的初始特征词集合进行约减处理时，可以采用第一种约减方式或第二种约减方式对待检测网页对应的初始特征词集合进行一次约减处理，直接获取待检测网页对应的目标特征词集合，也可以采用第一种约减方式和第二种约减方式，对待检测网页对应的初始特征词集合进行两次约减处理，获取待检测网页对应的目标特征词集合。本发明实施例中，仅以“先采用第一种约减方式，对待检测网页对应的初始特征词集合进行第一次约减处理，获取待检测网页对应的约减特征词集合，再采用第二种约减方式，对待检测网页对应的约减特征词集合进行第二次约减处理，获取待检测网页对应的目标特征词集合”为较佳实施例进行说明。

较佳的，在对目标特征词集合包含的每一个特征词进行归一化处理时，可以采用但不限于以下方式：计算目标特征词集合包含的每一个特征词分别对应的权值，并将目标特征词集合包含的每一个特征词分别对应的权值作为待检测网页对应的特征向量，其中，目标特征词集合包含的一个特征词对应的权值为该一个特征词在待检测网页出现的频率。

例如：下面仅以新闻类网站，企业运营类网站，以及购物类网站三类网站为例进行说明。

(一)建立网页特征预测模型。

步骤1：从新闻类网站，企业运营类网站，以及购物类网站三类网站中采集100000个网页。其中，从新闻类网站中采集到的网页的数目为30000；从企业运营类网站中采集到的网页的数目为20000；从购物类网站中采集到的网页的数目为50000。

步骤2：将从新闻类网站中采集到的30000个网页作为新闻类网页的样本网页；将从企业运营类网站中采集到的20000个网页作为企业运营类网页的样本网页；将从购物类网站中采集到的50000个网页作为购物类网页的样本网页。

步骤3：针对新闻类网页、企业运营类网页和购物类网页三类网页下的每一个样本网页进行分词处理，获取新闻类网页、企业运营类网页和购物类网页三类网页下的每一个样本网页分别对应的样本特征词集合。

步骤4：针对新闻类网页、企业运营类网页和购物类网页三类网页下的每一个样本网页分别对应的样本特征词集合执行以下操作：采用公式(1)计算样本特征词集合包含的每一个样本特征词分别对应的信息增益，并从该样本特征词集合中，选取对应的信息增益大于等于0.8(即第一预设阈值)的所有样本特征词作为约减样本特征词集合。

步骤5：针对新闻类网页、企业运营类网页和购物类网页三类网页下的每一个样本网页分别对应的约减样本特征词集合执行以下操作：获取约减样本特征词集合包含的每一个样本特征词分别对应的概率集合，并从约减样本特征词集合中，选取对应的概率集合中存在至少一个大于等于0.5(即第二预设阈值)的概率的所有样本特征词作为训练样本特征词集合。

比如：假设样本网页L对应的约减样本特征词集合为{t₁，t₂，t₃，t₄，t₅}，即论域为{t₁，t₂，t₃，t₄，t₅}；网页类别有a₁、a₂和a₃三类，即条件属性为{a₁，a₂，a₃}；样本特征词t_i对应的决策属性Y的取值为：t_i属于a₁、a₂和a₃三类网页的概率均小于0.5(即第二预设阈值)时，决策属性Y＝0；t_i属于a₁、a₂和a₃三类中的任一类的概率大于等于0.5(即第二预设阈值)时，决策属性Y＝1，具体如表1所示：

表1

	t<sub>1</sub>	t<sub>2</sub>	t<sub>3</sub>	t<sub>4</sub>	t<sub>5</sub>
						a<sub>1</sub>	0.3	0.2	0.8	0.3	0.7
a<sub>2</sub>	0.5	0.3	0.9.	0.09	0.6
						a<sub>3</sub>	0.7	0.1	0.5	0.11	0.9
Y	1	0	1	0	1

从样本网页L对应的约减样本特征词集合中，选取对应的决策属性Y＝1的所有样本特征词作为样本网页L对应的训练样本特征词集合，即样本网页L对应的训练样本特征词集合为{t₁，t₃，t₅}。

步骤6：针对新闻类网页、企业运营类网页和购物类网页三类网页下的每一个样本网页分别对应的训练样本特征词集合执行以下操作：计算样本网页对应的训练样本特征词集合包含的每一个样本特征词分别对应的权值(即统计样本网页对应的训练样本特征词集合包含的每一个样本特征词在该样本网页出现的频率)，并将训练样本特征词集合包含的每一个样本特征词分别对应的权值作为该样本网页对应的样本特征向量。

步骤7：对新闻类网页、企业运营类网页和购物类网页三类网页下的每一个样本网页分别对应的样本特征向量进行网页分类训练，获取用于确定待检测网页对应的隶属度集合的网页分类函数，并将网页分类函数作为处理函数，建立网页特征预测模型。

至此，完成了网页特征预测模型的建立。

(二)检测待检测网页A(下面称网页A)。

假设预设的检测周期为2天，则在2天后，对网页A进行分词处理，获取网页A对应的初始特征词集合{t₁′，t₂′，t₃′，t₄′，……t₁₀₀₀′}，并采用公式(2)计算初始特征词集合{t₁′，t₂′，t₃′，t₄′，……t₁₀₀₀′}包含的每一个特征词分别对应的信息增益，以及从初始特征词集合{t₁′，t₂′，t₃′，t₄′，……t₁₀₀₀′}中，选取对应的信息增益大于等于0.8(即第一预设阈值)的所有特征词作为网页A对应的约减特征词集合{t₁′，t₂′，t₃′，t₄′，……t₈₀₀′}。

获取约减特征词集合{t₁′，t₂′，t₃′，t₄′，……t₈₀₀′}包含的每一个特征词分别对应的概率集合，并从约减特征词集合{t₁′，t₂′，t₃′，t₄′，……t₈₀₀′}中，选取对应的概率集合中存在至少一个大于等于0.5(即第二预设阈值)的概率的所有特征词作为网页A对应的目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}。

计算网页A对应的目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}包含的每一个特征词分别对应的权值(即统计网页A对应的目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}包含的每一个特征词在网页A出现的频率)，并将目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}包含的每一个特征词分别对应的权值作为网页A对应的特征向量{0.15，0.81，0.65，0.34，……0.29}。

步骤101：将特征向量输入预先建立的网页特征预测模型，获取待检测网页对应的隶属度集合，其中，隶属度集合是待检测网页在各个网页类别下分别对应的隶属度的集合。

例如：继续沿用上例，将网页A对应的特征向量{0.15，0.81，0.65，0.34，……0.29}输入网页特征预测模型，即将特征向量{0.15，0.81，0.65，0.34，……0.29}作为输入量，输入网页分类函数，输出的即为网页A在新闻类网页、企业运营类网页和购物类网页三类网页下分别对应的隶属度。假设网页A属于新闻类网页的隶属度S_新闻类＝0.95；网页A属于企业运营类网页的隶属度S_{企业运营类}＝0；网页A属于购物类网页的隶属度S_购物类＝0.3，则输出的网页A对应的隶属度集合为{S_新闻类＝0.95，S_{企业运营类}＝0，S_购物类＝0.3}。

步骤102：计算目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，并基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改。

在具体实施时，在计算特征词相似度和隶属度相似度时，可以采用但不限于以下方式：将在当前检测周期中获取到的目标特征词集合与在上一检测周期中获取到的基准特征词集合进行相似度比较，获取特征词相似度，以及，将在当前检测周期中获取到的隶属度集合与在上一检测周期中获取到的基准隶属度集合进行相似度比较，获取隶属度相似度。较佳的，可以采用公式(3)计算特征词相似度和隶属度相似度。

其中，在SIM(W_i，W_i+1)表征待检测网页的目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度的情况下，W_i表征在上一检测周期中获取到的基准特征词集合，W_i(d_m)表征基准特征词集合W_i包含的各个基准特征词，W_i+1表征待检测网页的目标特征词集合，W_i+1(k_n)表征目标特征词集合W_i+1包含的各个特征词；在SIM(W_i，W_i+1)表征待检测网页的隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度的情况下，W_i表征在上一检测周期中获取到的基准隶属度集合，W_i(d_m)表征基准隶属度集合W_i包含的各个基准隶属度，W_i+1表征待检测网页的隶属度集合，W_i+1(k_n)表征隶属度集合W_i+1包含的各个隶属度。

进一步地，获取到待检测网页对应的特征词相似度和隶属度相似度之后，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改时，可能存在但不限于以下两种情况：

第一种情况：待检测网页已被篡改。即若确定特征词相似度和/或隶属度相似度小于预设阈值，则认定待检测网页已被篡改。

第二种情况：待检测网页未被篡改。即若确定特征词相似度和隶属度相似度均大于等于预设阈值，则认定待检测网页未被篡改。

例如：第一种情况：假设网页A对应的目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}，网页A对应的隶属度集合为{S_新闻类＝0.95，S_{企业运营类}＝0，S_购物类＝0.3}；在上一检测周期获取到的基准特征词集合为{t₁′，t₂″，t₃″，t₄′，……t₅₀₀′}，在上一检测周期获取到的基准隶属度集合为{S_新闻类＝0.8，S_{企业运营类}＝0，S_购物类＝0.3}。

采用公式(3)计算目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}与基准特征词集合{t₁′，t₂″，t₃″，t₄′，……t₅₀₀′}之间的SIM_特征词＝75％，以及采用公式(3)计算隶属度集合{S_新闻类＝0.95，S_{企业运营类}＝0，S_购物类＝0.3}与基准隶属度集合{S_新闻类＝0.8，S_{企业运营类}＝0，S_购物类＝0.3}之间的SIM_隶属度＝90％；确定SIM_特征词＝75％小于80％(即预设阈值)，SIM_隶属度＝90％大于80％，此时，即可认定网页A已被篡改。

当然，若采用公式(3)计算出的SIM_特征词＝90％大于80％(即预设阈值)，SIM_隶属度＝75％小于80％，则也可认定网页A已被篡改。也就是说，只要SIM_特征词和SIM_隶属度之间有一个数值小于80％(即预设阈值)，即可认定网页A已被篡改。

第二种情况：假设网页A对应的目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}，网页A对应的隶属度集合为{S_新闻类＝0.95，S_{企业运营类}＝0，S_购物类＝0.3}；在上一检测周期获取到的基准特征词集合为{t₁′，t₂″，t₃″，t₄′，……t₅₀₀′}，在上一检测周期获取到的基准隶属度集合为{S_新闻类＝0.8，S_{企业运营类}＝0，S_购物类＝0.3}。

采用公式(3)计算目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}与基准特征词集合{t₁′，t₂″，t₃″，t₄′，……t₅₀₀′}之间的SIM_特征词＝95％，以及采用公式(3)计算隶属度集合{S_新闻类＝0.8，S_{企业运营类}＝0，S_购物类＝0.3}与基准隶属度集合{S_新闻类＝0.8，S_{企业运营类}＝0，S_购物类＝0.3}之间的SIM_隶属度＝100％；确定SIM_特征词＝95％大于80％(即预设阈值)且SIM_隶属度＝100％大于80％，此时，即可认定网页A未被篡改。

进一步地，为了提高网页篡改检测的准确度，在基于特征词相似度和隶属度相似度，判断待检测网页是否已被篡改之后，在认定待检测网页已被篡改的情况下，向用户显示待检测网页已被篡改的提示信息，并在接收到用户输入的用于向待检测网页对应的检测人员反馈待检测网页已被篡改的检测结果的反馈指示的情况下，输出待检测网页已被篡改的检测结果以及用于判断是否认可检测结果的反馈窗口。当然，在认定待检测网页已被篡改的情况下，也可以无需用户输入反馈指示，直接主动地输出待检测网页已被篡改的检测结果以及用于判断是否认可检测结果的反馈窗口。具体地，可以通过预先配置的输出方式(比如：向待检测网页的检测人员发送邮件或短信等方式)，向检测人员输出待检测网页已被篡改的检测结果以及用于判断是否认可检测结果的反馈窗口。此时，待检测网页的检测人员就可以根据接收到的检测结果中包含的检测依据，判断待检测网页已被篡改的检测结果是否正确。若检测人员认为待检测网页已被篡改的检测结果不正确，则可以在反馈窗口中返回一个表征不认可检测结果的第一指示信息，即若接收到在反馈窗口中输入的表征不认可检测结果的第一指示信息，则基于在当前检测周期中获取到的目标特征词集合和隶属度集合，修改在上一检测周期中获取到的基准特征词集合和基准隶属度集合，并将修改后的基准特征词集合和修改后的基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合；若检测人员认为待检测网页已被篡改的检测结果正确，则可以在反馈窗口中返回一个表征认可检测结果的第二指示信息，即若接收到在反馈窗口中输入的表征认可检测结果的第二指示信息，则依然将在上一检测周期中获取到的基准特征词集合和基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合。

例如：假设网页A的检测结果为：网页A已被篡改，其中，检测结果中还包含如下检测依据：网页A对应的目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}与在上一检测周期获取到的基准特征词集合{t₁′，t₂″，t₃″，t₄′，……t₅₀₀′}之间的特征词相似度SIM_特征词＝75％小于80％；网页A对应的基准特征词集合{t₁′，t₂″，t₃″，t₄′，……t₅₀₀′}中的“t₂″、t₃″和t₅₀₀″”可能已被篡改，分别被篡改为目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}中的“t₂′、t₃′和t₅₀₀'”；网页A对应的隶属度集合为{S_新闻类＝0.95，S_{企业运营类}＝0，S_购物类＝0.3}，在上一检测周期中获取到的网页A对应的基准隶属度集合为{S_新闻类＝0.8，S_{企业运营类}＝0，S_购物类＝0.3}。

根据网页A的检测人员在创建网页A的过程中预置在网页A中的邮箱，将上述检测结果以及用于判断是否认可检测结果的反馈窗口(其中，该反馈窗口中至少包含“认可”和“不认可”两个选项)发送至该邮箱，以通知检测人员在不认可该检测结果的情况下，点击显示在反馈窗口中的“不认可”选项；在认可该检测结果的情况下，点击显示在反馈窗口中的“认可”选项。

若确定检测人员选择了“不认可”，则认为网页A的检测结果出现错误，网页A未被篡改。此时，可以将网页A对应的目标特征词集合{t₁′，t₂′，t₃′，t₄′，……t₅₀₀′}中的“t₂′、t₃′和t₅₀₀′”添加至基准特征词集合{t₁′，t₂″，t₃″，t₄′，……t₅₀₀′}，并根据网页A对应的隶属度集合{S_新闻类＝0.95，S_{企业运营类}＝0，S_购物类＝0.3}，将基准隶属度集合{S_新闻类＝0.8，S_{企业运营类}＝0，S_购物类＝0.3}修改为{S_新闻类＝0.8-0.95，S_{企业运营类}＝0，S_购物类＝0.3}，以及，将添加了“t₂′、t₃′和t₅₀₀′”的基准特征词集合{t₁′，t₂″，t₂′、t₃″，t₃′，t₄′，……t₅₀₀′，t₅₀₀″}和修改后的基准隶属度集合{S_新闻类＝0.8-0.95，S_{企业运营类}＝0，S_购物类＝0.3}作为在下一检测周期中使用的基准特征词集合和基准隶属度集合。

若确定检测人员选择了“认可”，则认为网页A的检测结果未出现错误，网页A确实已被篡改。此时，依然可以将在上一检测周期中获取到的网页A对应的基准特征词集合{t₁′，t₂″，t₃″，t₄′，……t₅₀₀″}和基准隶属度集合{S_新闻类＝0.8，S_{企业运营类}＝0，S_购物类＝0.3}作为在下一检测周期中使用的基准特征词集合和基准隶属度集合。

下面采用具体的应用场景对上述实施例作进一步详细说明，参阅图2所示，本发明实施例中，网页特征预测模型的建立方法的具体流程如下：

步骤200：从不同网站类型的网站中采集网页，并将从不同网站类型的网站中采集到的网页作为相应网页类别下的样本网页(即将网站类型作为网页类别，对样本网页进行划分)。

步骤201：针对采集到的各个网页类别下的每一个样本网页进行分词处理，获取各个网页类别下的每一个样本网页分别对应的样本特征词集合。

步骤202：针对各个网页类别下的每一个样本网页分别对应的样本特征词集合执行以下操作：计算样本特征词集合包含的每一个样本特征词分别对应的信息增益，并从该样本特征词集合中，选取对应的信息增益大于等于第一预设阈值的所有样本特征词作为该样本网页对应的约减样本特征词集合。

步骤203：针对各个网页类别下的每一个样本网页分别对应的约减样本特征词集合执行以下操作：获取约减样本特征词集合包含的每一个样本特征词分别对应的概率集合，并从约减样本特征词集合中，选取对应的概率集合中存在至少一个大于等于第二预设阈值的概率的所有样本特征词作为该样本网页对应的训练样本特征词集合。其中，约减样本特征词集合包含的一个样本特征词对应的概率集合是该一个样本特征词在各个网页类别下的概率的集合。

步骤204：针对各个网页类别下的每一个样本网页分别对应的训练样本特征词集合执行以下操作：计算样本网页对应的训练样本特征词集合包含的每一个样本特征词分别对应的权值，并将训练样本特征词集合包含的每一个样本特征词分别对应的权值作为该样本网页对应的特征向量。其中，训练样本特征词集合包含的一个样本特征词对应的权值为该一个特征词在该样本网页出现的频率。

步骤205：对各个网页类别下的每一个样本网页分别对应的样本特征向量进行网页分类训练，获取用于确定待检测网页对应的隶属度集合的网页分类函数，并将网页分类函数作为处理函数，建立网页特征预测模型。

下面采用具体的应用场景对上述实施例作进一步详细说明，参阅图3A和图3B所示，本发明实施例中，网页篡改的检测方法的具体流程如下：

步骤300：确定到达预设的检测周期的情况下，对待检测网页进行分词处理，获取待检测网页对应的初始特征词集合。

步骤301：计算初始特征词集合包含的每一个特征词分别对应的信息增益，并从初始特征词集合中，选取对应的信息增益大于等于第一预设阈值的所有特征词作为待检测网页对应的约减特征词集合。

步骤302：获取约减特征词集合包含的每一个特征词分别对应的概率集合，并从约减特征词集合中，选取对应的概率集合中存在至少一个大于等于第二预设阈值的概率的所有特征词作为待检测网页对应的目标特征词集合。其中，约减特征词集合包含的一个特征词对应的概率集合是该一个特征词在各个网页类别下的概率的集合。

步骤303：计算目标特征词集合包含的每一个特征词分别对应的权值，并将目标特征词集合包含的每一个特征词分别对应的权值作为待检测网页对应的特征向量。其中，目标特征词集合包含的一个特征词对应的权值为该一个特征词在待检测网页出现的频率。

步骤304：将特征向量输入网页特征预测模型，获取待检测网页对应的隶属度集合，其中，隶属度集合是待检测网页在各个网页类别下分别对应的隶属度的集合。

步骤305：计算目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度。

步骤306：判断待检测网页对应的特征词相似度和隶属度相似度是否均大于预设阈值；若是，则执行步骤307；否则，执行步骤308。

步骤307：认定待检测网页未被篡改，并以预先配置的输出方式(比如：向检测人员发送邮件或短信等方式)，输出待检测网页未被篡改的检测结果。当然，在认定待检测网页未被篡改的情况下，此步骤也可省略。

步骤308：认定待检测网页已被篡改，并以预先配置的输出方式(比如：向检测人员发送邮件或短信等方式)，输出待检测网页已被篡改的检测结果以及用于判断是否认可检测结果的反馈窗口，以通知检测人员判断是否认可该检测结果。

步骤309：检测人员根据接收到的检测结果中包含的检测依据，判断待检测网页已被篡改的检测结果是否正确，若认为待检测网页已被篡改的检测结果不正确，则执行步骤310；否则，执行步骤313。

步骤310：在反馈窗口中返回一个表征不认可检测结果的第一指示信息。

步骤311：接收到检测人员在反馈窗口中输入的第一指示信息的情况下，认为待检测网页的检测结果出现错误，待检测网页未被篡改。

步骤312：基于在当前检测周期中获取到的目标特征词集合和隶属度集合，修改在上一检测周期中获取到的基准特征词集合和基准隶属度集合，并将修改后的基准特征词集合和修改后的基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合。

步骤313：在反馈窗口中返回一个表征认可检测结果的第二指示信息。

步骤314：接收到检测人员在反馈窗口中输入的第二指示信息的情况下，认为待检测网页的检测结果未出现错误，待检测网页确实已被篡改。

步骤315：将在上一检测周期中获取到的基准特征词集合和基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合。

基于上述实施例，参阅图4所示，本发明实施例中，网页篡改的检测装置，至少包括：

第一获取单元400，用于确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量；

第二获取单元401，用于将特征向量输入预先建立的网页特征预测模型，获取待检测网页对应的隶属度集合，其中，隶属度集合是待检测网页在各个网页类别下分别对应的隶属度的集合；

检测结果确定单元402，用于计算目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，并基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改。

较佳的，网页篡改的检测装置还包括：模型建立单元403，其中，模型建立单元403用于采用以下方式建立网页特征预测模型：

较佳的，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量时，第一获取单元400具体用于：

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改时，检测结果确定单元402具体用于：

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改之后，检测结果确定单元402进一步用于：

在认定待检测网页已被篡改的情况下，输出待检测网页已被篡改的检测结果以及用于判断是否认可检测结果的反馈窗口；

基于同一发明构思，本发明实施例提供了一种非易失性计算机存储介质，该计算机存储介质存储有计算机可执行指令，其中，计算机可执行指令设置为：

较佳的，上述计算机可执行指令可用于采用以下方式建立网页特征预测模型：

较佳的，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量时，上述计算机可执行指令可用于：

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改时，上述计算机可执行指令可用于：

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改之后，上述计算机可执行指令还用于：

基于同一发明构思，本发明实施例还提供了一种如图5所示的用于执行上述网页篡改的检测方法的电子设备，该电子设备至少包括：至少一个处理器500，以及存储器510；其中，

存储器，用于存储上述至少一个处理器执行的指令；

上述至少一个处理器，用于执行存储在存储器中的指令，以便确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量；将特征向量输入预先建立的网页特征预测模型，获取待检测网页对应的隶属度集合，其中，隶属度集合是待检测网页在各个网页类别下分别对应的隶属度的集合；计算目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，并基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改。

较佳的，用于执行上述网页篡改的检测方法的电子设备还可以包括：输入装置520和输出装置530，其中，输入装置520可接收输入的数字或字符信息，以及产生与网页篡改的检测装置的用户设置以及功能控制有关的关键信号输入；输出装置530包括显示屏等显示设备。

较佳的，处理器500、存储器510、输入装置520和输出装置530可以通过总线或者其他方式连接。

较佳的，上述指令可设置为执行以下操作：采用以下方式建立网页特征预测模型：

较佳的，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合，并基于目标特征词集合，获取待检测网页对应的特征向量时，上述指令可设置为执行以下操作：

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改时，上述指令可设置为执行以下操作：

较佳的，基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改之后，上述指令可设置为执行以下操作：

较佳的，本发明实施例提供的电子设备以多种形式存在，具体地，可以包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

综上所述，本发明实施例中，确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取待检测网页对应的目标特征词集合后，基于目标特征词集合，获取待检测网页对应的特征向量，并将特征向量输入预先建立的网页特征预测模型，获取待检测网页对应的隶属度集合，计算目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，以及基于特征词相似度和隶属度相似度，判断待检测网页是否被篡改。摒弃了现有技术采用的将整篇待检测网页与基准网页进行比对分析的检测方法，而是对待检测网页进行特征词提取，根据提取到的目标待检测网页的特征词集合，获取特征词相似度和隶属度相似度，再根据特征词相似度和隶属度相似度，判断待检测网页是否已被篡改，无需将整篇待检测网页与基准网页进行比对分析，即可实现网页篡改的检测，不仅有效地降低了网页篡改检测的计算量，提高了网页篡改检测的效率，也避免了由于无法准确地获知基准网页是否已更新，导致网页篡改检测不准确的问题。除此之外，不需要修改网站服务器本身的代码，也不需要在数据传输过程中增加防护措施，操作简单，检测成本较低。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种网页篡改的检测方法，其特征在于，包括：

确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取所述待检测网页对应的目标特征词集合，并基于所述目标特征词集合，获取所述待检测网页对应的特征向量；

将所述特征向量输入预先建立的网页特征预测模型，获取所述待检测网页对应的隶属度集合，其中，所述隶属度集合是所述待检测网页在各个网页类别下分别对应的隶属度的集合；

计算所述目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及所述隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，并基于所述特征词相似度和所述隶属度相似度，判断所述待检测网页是否被篡改。

2.如权利要求1所述的方法，其特征在于，所述网页特征预测模型是采用以下方式建立的：

对各个网页类别下的每一个样本网页分别对应的样本特征向量进行网页分类训练，获取用于确定待检测网页对应的隶属度集合的网页分类函数，并将所述网页分类函数作为处理函数，建立所述网页特征预测模型。

3.如权利要求1所述的方法，其特征在于，提取待检测网页的特征词，获取所述待检测网页对应的目标特征词集合，并基于所述目标特征词集合，获取所述待检测网页对应的特征向量，包括：

对所述待检测网页进行分词处理，获取所述待检测网页对应的初始特征词集合，并对所述初始特征词集合进行约减处理，获取所述待检测网页对应的目标特征词集合，以及对所述目标特征词集合包含的每一个特征词进行归一化处理，获取所述待检测网页对应的特征向量。

4.如权利要求1所述的方法，其特征在于，基于所述特征词相似度和所述隶属度相似度，判断所述待检测网页是否被篡改，包括：

若确定所述特征词相似度和/或所述隶属度相似度小于预设阈值，则认定所述待检测网页已被篡改；

若确定所述特征词相似度和所述隶属度相似度均大于等于所述预设阈值，则认定所述待检测网页未被篡改。

5.如权利要求1-4任一项所述的方法，其特征在于，基于所述特征词相似度和所述隶属度相似度，判断所述待检测网页是否被篡改之后，进一步包括：

在认定所述待检测网页已被篡改的情况下，输出所述待检测网页已被篡改的检测结果以及用于判断是否认可所述检测结果的反馈窗口；

若接收到在所述反馈窗口中输入的表征不认可所述检测结果的第一指示信息，则基于在当前检测周期中获取到的所述目标特征词集合和所述隶属度集合，修改在上一检测周期中获取到的基准特征词集合和基准隶属度集合，并将修改后的基准特征词集合和修改后的基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合；若接收到在所述反馈窗口中输入的表征认可所述检测结果的第二指示信息，则依然将在上一检测周期中获取到的基准特征词集合和基准隶属度集合作为在下一检测周期中使用的基准特征词集合和基准隶属度集合。

6.一种网页篡改的检测装置，其特征在于，包括：

第一获取单元，用于确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取所述待检测网页对应的目标特征词集合，并基于所述目标特征词集合，获取所述待检测网页对应的特征向量；

第二获取单元，用于将所述特征向量输入预先建立的网页特征预测模型，获取所述待检测网页对应的隶属度集合，其中，所述隶属度集合是所述待检测网页在各个网页类别下分别对应的隶属度的集合；

检测结果确定单元，用于计算所述目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及所述隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，并基于所述特征词相似度和所述隶属度相似度，判断所述待检测网页是否被篡改。

7.如权利要求6所述的装置，其特征在于，还包括：模型建立单元，其中，所述模型建立单元用于采用以下方式建立所述网页特征预测模型：

8.如权利要求6所述的装置，其特征在于，提取待检测网页的特征词，获取所述待检测网页对应的目标特征词集合，并基于所述目标特征词集合，获取所述待检测网页对应的特征向量时，所述第一获取单元具体用于：

9.如权利要求6所述的装置，其特征在于，基于所述特征词相似度和所述隶属度相似度，判断所述待检测网页是否被篡改时，所述检测结果确定单元具体用于：

10.如权利要求6-9任一项所述的装置，其特征在于，基于所述特征词相似度和所述隶属度相似度，判断所述待检测网页是否被篡改之后，所述检测结果确定单元进一步用于：

11.一种非易失性计算机存储介质，其特征在于，存储有计算机可执行指令，其中，所述计算机可执行指令设置为：

12.一种电子设备，其特征在于，包括：至少一个处理器，以及存储器；其中，

所述存储器，用于存储所述至少一个处理器执行的指令；

所述至少一个处理器，用于执行存储在所述存储器中的所述指令，以便确定到达预设的检测周期的情况下，提取待检测网页的特征词，获取所述待检测网页对应的目标特征词集合，并基于所述目标特征词集合，获取所述待检测网页对应的特征向量；将所述特征向量输入预先建立的网页特征预测模型，获取所述待检测网页对应的隶属度集合，其中，所述隶属度集合是所述待检测网页在各个网页类别下分别对应的隶属度的集合；计算所述目标特征词集合与在上一检测周期中获取到的基准特征词集合之间的特征词相似度以及所述隶属度集合与在上一检测周期中获取到的基准隶属度集合之间的隶属度相似度，并基于所述特征词相似度和所述隶属度相似度，判断所述待检测网页是否被篡改。