CN111967063B

CN111967063B - 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质

Info

Publication number: CN111967063B
Application number: CN202010908124.5A
Authority: CN
Inventors: 汪敏; 严妍; 肖国泉; 裴非; 肖克; 彭祖剑; 邵罗树; 尹娜
Original assignee: Beijing Kaipuyun Information Technology Co ltd; Cape Cloud Information Technology Co ltd
Current assignee: Beijing Kaipuyun Information Technology Co ltd; Cape Cloud Information Technology Co ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2021-04-09
Anticipated expiration: 2040-09-02
Also published as: CN111967063A

Abstract

本发明提供了一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质，属于互联网内容安全监测技术领域。所述方法应用于服务器，从网页中抽取网页特征，通过分类算法构建篡改二分类模型，利用fasttext算法对模型进行机器学习分类训练，并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测，对模型训练数据和各维度监测数据进行综合评分，最终得到监测结果。本技术方案将DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析技术相融合，相比传统仅采用一项分析技术的监测方法而言，从多个维度、多个特质综合多项分析技术进行监测和统一分析，能有效减少误报、漏报情况；并且，通过制定和采用一定规则，同时实施多项分析技术，将近时间内分析结果存入缓存中，能有效避免重复计算，高并发处理海量网页，使处理速度远高于常规监测手段。

Description

一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质

技术领域

本发明涉及互联网内容安全监测技术领域，尤其涉及一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质。

背景技术

随着互联网和网络应用的普及与发展，大量的黑客攻击随之而来，特别是针对互联网的网络攻击。网页篡改是目前较为普遍的一类网站攻击形式，它是指黑客利用特定手段入侵网站，将网站内容部分或完全替代。

据统计，在政府网站中，有大量网站被篡改，特别是已关停的网站，绝大部分已关停网站被篡改成黄赌毒网站。页面被篡改不仅导致正常的业务无法运营，更损害了政府或公共机构的形象，有些站点甚至被间接利用，成为非法牟利的工具。

当前，互联网网页篡改监测是热门研究方向。传统方式是局部变化性的网页篡改识别，基于词库规则的方式，但是这些处理方式存在一些问题，比如需要大量人力维护词库，漏报严重，数据结构复杂，执行时间速度慢等特点。另外，单纯依赖一种经典算法或处理方式，缺乏良好的预处理和事后信息过滤等手段时，易造成误报率较高，导致系统实用性差。在目前形势下，政府对全互联网监控提出了更高的要求，传统的网页篡改算法，不管从准确度还是处理速度，都难以满足现实应用的需求。

发明内容

本发明为了弥补现有技术的不足，提供一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质，该技术主要解决在海量网页实时过滤的高并发问题，解决机械匹配，单一处理方式产生的高误报、高漏报问题。

网页篡改通常有以下现象：

1、页面全部篡改：整个页面都是黄色或赌博网页；

2、页面局部篡改：用户浏览网页时看到的还是正常网站，但实际页面中插入了恶意地址，主要表现为：<title>/<meta>这类标签中包含有恶意文字，或网站内部有大量的暗链；

3、网页打不开；

4、页面反复跳转的情况。

综合上述现象，本发明提供了一种基于多维度分析的数据篡改监测和识别方法，实现原理是：

系统通过从DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析多个维度对页面是否篡改进行监测，并通过统一打分机制对监测结果进行统计，最后将安全评审结果存放在缓存中。本技术方案可以有效减少误报、漏报情况，在处理速度上快于常规监测手段，能避免重复计算，解决高并发问题。

本发明的实施例是这样实现的：

第一方面，本发明实施例提供了一种基于多维度分析的数据篡改监测和识别方法，应用于服务器，实现步骤如下：

从网页中抽取网页特征，通过分类算法构建篡改二分类模型，利用fasttext算法对模型进行机器学习分类训练，并通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测，对模型训练数据和各维度监测数据进行综合评分，最终得到监测结果。

进一步地，所述“从网页中抽取网页特征”主要是通过爬虫技术采集全国所有政府网站的数据，即对2万多正常网站、6万多已关停网站首页进行分析，将分析数据放入异步队列中。

进一步地，对所述“各维度监测数据”，可将其中一般不容易变化的或者分析耗时的监测数据放入缓存队列中。

进一步地，所述“DNS分析”主要是针对网页打不开，拿不到源码进行分析的情况，进而减少因此产生的漏报情况。

进一步地，所述“网页结构分析”主要是针对有些篡改网页反复跳转，或每次打开都不是同一个页面的情况，连续几次网页突变即有可能网页发生了篡改。

进一步地，所述“暗链/外链分析”主要是通过暗链/外链监测，如果经分析发现存在恶意网页或大量连续外链/暗链，则该页面很可能被篡改了。

进一步地，所述“词库/规则匹配分析”主要是抽取<title>/<meta>标签中的文本域内容，通过双数组tries树匹配对应的词库规则，如果匹配上“bat365”、“在线网上赌城”这类词库的重点词汇，很大可能该页面已被篡改。

第二方面，本发明实施例还提供了一种基于多维度分析的数据篡改监测和识别装置，应用于服务器，该装置包括如下结构：

采集模块：用于通过爬虫技术从政府网站中抓取相关页面；

页面解析模块：用于对抓取的页面进行代码解析，即将网页源码转化为document对象，遍历document对象，去掉无关的HTML代码和标签；

特征提取模块：用于从解析后的页面中提取相关的网页特征，即从document对象中抽取相关标签中的内容，对抽取的内容与特征词库进行匹配，保留所需的文本和网页特征；

多特征识别模块：用于通过分析IP是否指向国外，域名是否恶意域名，识别域名是否有问题；通过分析网页SimHash值，识别网页结构是否突变；通过分析是否有连续的外链/暗链，识别是否为恶意网页；通过分析是否插入大量恶意链接，识别是否存在局部篡改情况；通过分析和匹配词库/规则，识别<title>/<meta>等关键部分是否存在局部篡改；通过分析篡改二分类模型训练数据，识别网页是否全部被篡改；

综合评分模块：用于综合多特征识别模块中每种分析的识别数据，计算出组合得分，得到网页篡改可能性结论；

模型构建和训练模块：用于先人工整理少量数据集，使用kNN和朴素贝叶斯分类算法对文本进行分类，利用TF-IDF、BM25算法建立和训练小模型，以小模型为基础获取更丰富大量的训练数据，生成篡改二分类模型，再以fasttext算法对篡改二分类模型进行训练。

进一步地，模型构建和训练模块还包括模型训练器、分词子模块、计算子模块和特征词库。

进一步地，SimHash算法是计算文本间的相似度，用于网页去重的最常用Hash方法，通过比较各个文本的SimHash值之间的汉明距离的大小，来判断其相似度，SimHash值越小，则相似度越大。

进一步地，kNN分类算法是k-NearestNeighbor的缩写，意指k最邻近分类算法，用于判断一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，而k值的选择直接影响分类准确性；朴素贝叶斯分类算法是NaiveBayesian Classification的缩写，用于对给出的分类项，计算其在各个类别中出现的概率，进而判断此分类项属于哪个类别。

进一步地，TF-IDF算法是Term Frequency-Inverse Document Frequency的缩写，意指词频(TF)和逆文档频率(IDF)，用于计算一个字词相对于特征词库中一份文档的重要程度；BM25算法是一种基于概率检索模型提出的算法，用于评价搜索词和文档间相关性。

进一步地，fasttext算法是一种监督学习方法，多用于同义词挖掘和文本分类。

第三方面，本发明实施例还提供了一种电子设备，包括：存储器和处理器，存储器与处理器连接，存储器用于存储程序，处理器用于调用存储于存储器中的程序，以执行第一方面实施例提供的方法。

第四方面，本发明实施例还提供了一种存储介质，该存储介质存储有处理器可执行的程序代码于计算机内，存储介质包括多条指令，多条指令被配置成使处理器执行第一方面实施例提供的方法。

本发明实施例提供的一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质，相比于现有技术具有以下优点：

本发明将DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析、篡改二分类模型分析技术相融合，相比传统仅采用一项分析技术的监测方法而言，从多个维度、多个特质综合多项分析技术进行监测和统一分析，能有效减少误报、漏报情况；并且，通过制定和采用一定规则，同时实施多项分析技术，将近时间内分析结果存入缓存中，能有效避免重复计算，高并发处理海量网页，使处理速度远高于常规监测手段。

附图说明

图1为实施例一的一种网络系统的交互示意图。

图2为实施例二的一种电子设备的结构示意图。

图3为实施例三的一种基于多维度分析的数据篡改监测和识别方法的操作流程示意图。

图4为实施例六的一种基于多维度分析的数据篡改监测和识别系统的结构示意图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可以找说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂，以下为本发明的具体实施方式。

实施例一

参见图1，为本实施例提供的一种网络系统100，所举实例只用于解释本发明，并非用于限定本发明的范围。所述网络系统100包括：服务器110和客户终端120，客户终端120通过网络与服务器110进行数据交互。

其中，服务器110在监测到网页数据被篡改时，将预设提示信息发送至与所述服务器110通信的客户终端120。

其中，所述服务器110不限于网络服务器、数据库服务器、云端服务器等。所述客户终端120不限于个人电脑(PC)、智能手机、平板电脑、移动上网设备(MID)、个人数字助理(PDA)等电子设备。

实施例二

参见图2，为本实施例提供的一种电子设备200，所举实例只用于解释本发明，并非用于限定本发明的范围。所述电子设备200包括：数据篡改监测和识别装置210、存储器220、存储控制器230和处理器240。

其中，所述存储器220、存储控制器230、处理器240各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。

其中，上述各元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据篡改监测和识别装置210包括至少一个可以软件或固件(firmware)的形式存储于所述存储器220中或固化在所述电子设备200的操作系统(OS)中的软件功能模块。所述处理器240用于执行所述存储器220中存储的可执行模块，比如，所述数据篡改监测和识别装置210包括的软件功能模块或计算机程序。

其中，所述存储器220不限于随机存取存储器(RAM)，只读存储器(ROM)，可编程只读存储器(PROM)，可擦除只读存储器(EPROM)，电可擦除只读存储器(EEPROM)等。

其中，所述存储器220用于存储程序，所述处理器240在接收到执行指令后，执行所述程序，后述本发明实施例任一实施例揭示的流程定义的电子设备200所执行的方法可以应用于处理器240中，或者由处理器240实现。

其中，所述处理器240可能是一种集成电路芯片，具有信号的处理能力。所述处理器240可以是通用处理器，包括中央处理器(CPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器，或者也可以是任何常规的处理器等。

其中，本实施例所述电子设备200可以是实施例一中所述服务器110。

实施例三

参见图3，为本实施例提供的一种基于多维度分析的数据篡改监测和识别方法，所举实例只用于解释本发明，并非用于限定本发明的范围。具体实现步骤如下：

S1、从网页中抽取网页特征；

S2、通过分类算法生成篡改二分类模型；

S3、通过fasttext算法对模型进行机器学习分类训练；

S4、通过DNS分析、网页结构分析、暗链/外链分析、词库/规则匹配分析多个维度进行监测；

S5、对模型训练数据和各维度监测数据进行综合评分；

S6、得到最终监测结果。

其中，S1中所述“从网页中抽取网页特征”是指：通过爬虫技术采集全国所有政府网站的网页相关基础信息、网页内容，即对2万多正常网站、6万多已关停网站首页进行分析采集，将分析数据放入异步队列中；并通过dom4j解析源码，批量抽取全部文本标签的文本内容和部分标签的属性值，然后通过特征词库对抽取的网页内容进行匹配清洗。

其中，S2进一步包括：

S2.1、人工整理少量精确数据；

S2.2、通过kNN和朴素贝叶斯分类算法，对文本进行分类；

S2.3、使用TF-IDF、BM25算法计算相似度，分别构建和训练小模型；

S2.4、以小模型为基准，在一个大数据集合中不断迭代，得到大量训练数据；

S2.5、将通过TF-IDF、BM25算法计算的训练数据结合，得到大量精确分类数据；

S2.6、生成篡改二分类模型。

其中，S2.2中不仅对所述文本进行分类，还会对篡改网页中的网页特征进行分类。

其中，S2.5中所述分类数据是指对黄色、赌博、广告、正常网页等数据进行分类管理。

其中，S3进一步包括：

S3.1、对分类数据进行筛选和标记；

S3.2、遍历网页，抽取网页关键结构文本域中的内容；

S3.3、利用fasttext算法对模型进行训练；

S3.4、对训练结果进行分析。

其中，S3.1中所述“抽取网页关键结构”是指：抽取如<a>/<img>这类带链接的标签，将链接中的域名作为网页特征；S3.1进一步包括：

S3.1.1、对分类数据进行分词统计，得到分词结果；

S3.1.2、对分词结果进行筛选，筛选出每个分类特有的特征词，形成特征词库；

S3.1.3、对特征词库中数据标记标签，拆分训练集，测试集，验证集。

其中，S3.2中所述“遍历网页，抽取网页结构文本域中的内容”是指：遍历document对象，去除干扰因素后抽取如<title>/<meta>/<div>这类标签所包含的文本域内容；S3.2进一步包括：

S3.2.1、将网页源码转化为document对象，遍历document对象，去掉无关标签；

S3.2.2、依次抽取各个标签中内容；

S3.2.3、将抽取的内容与特征词库进行匹配；

S3.2.4、匹配则保留，不匹配则删除。

其中，S3.2.1中所述document对象中标签是指：<head>中<title>/<meta>标签中内容，<body>中各个标签中内容，包含<href>/<src>等属性标签中的域名和<title>文本等。

其中，S3.3中所述“利用fasttext算法对模型进行训练”是指：将抽取的文本域内容带入模型，利用fasttext算法进行机器学习分类训练，其中<title>/<meta>这类标签包含的文本域内容的权重占比较大。

其中，S3.3进一步包括：

S3.3.1、使用fasttext算法对标签中内容进行分类；

S3.3.2、根据召回率以及精准率的数值调整模型训练参数；

S3.3.3、每次模型生成后，进行验证集测试，根据测试结果决定是否继续调整模型；

S3.3.4、当训练集的召回率和精准率、验证集的准确率都已调整至最佳状态，则对测试集进行测试；

S3.3.5、若测试集结果不太理想，则重复S3.3.1，并调整训练集、验证集和测试集的数据。

其中，S3.3.2中所述训练参数包括：学习率(learning rate)、wordNgrams、epoch等。

其中，S3.4中所述“对训练结果进行分析”是指：将获取到的链接源码数据进行特征词处理，将处理后的数据带入模型进行判断，模型判断的结果即为链接类型；且对标签中包含的文本域内容进行分类训练后，有效区分出黄色、赌博、广告页面等内容。

其中，S4进一步包括：

S4.1、通过网站的域名获取网站的IP和真实注册地域信息，以及网站备案信息，判断网站是否一个疑似异常站点；

S4.2、通过SimHash算法记录网站当时的结构特征和历史记录中的网站结构信息进行比较，判断网站是否被恶意修改；

S4.3、通过dom4j解析源码抽取的内部链接、外部链接和隐藏链接的占比及其排布密集程度，判断其是否疑似被修改，挂载了恶意的链接或内容；

S4.4、通过双数组tries树对搜集的恶意词库进行筛选匹配，判断网站是否被恶意修改。

其中，S4.1主要是针对网页打不开、拿不到源码的情况进行DNS分析，进而减少因此产生的漏报情况；S4.1进一步包括：

S4.1.1、检查IP是否指向国外；

S4.1.2、若否，检查域名是否为恶意域名；

S4.1.3、若否，检查备案信息是否在国外/不在白名单中；

S4.1.4、若是，得到监测数据，否则，继续监测。

其中，S4.1.1中所述“检查IP是否指向国外”是指：通过从基于内存的存储中间件实时的获取对应的IP真实地址信息，如果政府网站中IP地址是国外的地址，很可能该网站被篡改了。

其中，S4.1.2中所述“检查域名是否为恶意域名”是指：通过从基于内存的存储中间件实时的查验当前域名是否在搜集的恶意域名库中，通过匹配恶意域名库来判断是否为恶意域名。

其中，S4.1.3中所述“检查备案信息是否在国外/不在白名单中”是指：如果备案信息在国外或者不在白名单内，很可能为恶意网页。

其中，S4.2主要是针对有些篡改网页反复跳转，或每次打开都不是同一个页面的情况进行网页结构分析，连续几次网页突变即有可能网页发生了篡改；

S4.2进一步包括：

S4.2.1、使用SimHash算法比较网页结构；

S4.2.2、判断前后两次网页结构的SimHash值是否发生突变；

S4.2.3、若是，得到监测数据，否则，继续监测。

其中，S4.2.2中所述“SimHash值”是SimHash算法的参数值，而SimHash值用于比较各个文本之间的相似度，SimHash值越小，则相似度越大。本实施例中，一般大文本去重，SimHash值<＝3的即可判断为重复。

其中，S4.3进一步包括：

S4.3.1、检查是否有大量连续外链；

S4.3.2、若无，继续检查是否有大量连续暗链；

S4.3.3、若有，判断是否为疑似篡改页面，否则，继续监测；

S4.3.4、若是，随机抽取部分外链/暗链进行DNS和内容分析，否则，继续监测；

S4.3.5、得到监测数据。

其中，S4.3.4中所述“进行DNS和内容分析”，如果经分析发现存在恶意网页，则该页面很可能被篡改了。

其中，S4.4中所述“恶意词库”是指不应该在政府网站中出现的词汇；

S4.4进一步包括：

S4.4.1、抽取标签的中文域内容；

S4.4.2、通过双数组tries树与对应的词库/规则进行匹配；

S4.4.3、判断匹配结果；

S4.4.4、若匹配，得到监测数据，否则，继续监测。

其中，S4.4.2中所述“与对应的词库/规则进行匹配”，如果分析发现<title>/<meta>等关键部位存在明显黄赌毒这类词汇，则该页面很可能篡改了。

其中，S5中所述“各维度监测数据”是指：采用半监督学习方式进行机器训练，对各维度监测数据进行分值占比的调参处理，构建最优模型；对其中一般不容易变化的或者分析耗时的监测数据可以放入缓存队列中。

其中，本实施例所述方法可以是应用于实施例二中所述电子设备200的解调方法。

实施例四

为本实施例提供的基于kNN分类算法对文本进行分类的方法，所举实例只用于解释本发明，并非用于限定本发明的范围。具体实现步骤如下：

S2.2.1、人工整理和选择出各类文本样本；

S2.2.2、对文本样本进行预处理；

S2.2.3、利用分词工具进行中文文本分词；

S2.2.4、将分词结果打包形成特征词库；

S2.2.5、计算特征词的tf-idf值；

S2.2.6、统计特征词库的词频矩阵；

S2.2.7、将预测的文本与样本进行计算；

S2.2.8、对计算结果进行测试，判断是否满足准确率；

S2.2.9、若不满足则调整参数k值，若满足则确定最终k值。

其中，S2.2.5进一步包括：

S2.2.5.1、构建特征词库；

S2.2.5.2、使用TfidfVectorizer初始化向量空间模型，创建词袋；

S2.2.5.3、特征项的个数是所有文本文档集合的总体去掉重复的单词；

S2.2.5.4、去掉停用词；

S2.2.5.5、保存词汇表；

S2.2.5.6、创建tf-idf值的持久化。

其中，S2.2.2中所述“预处理”是指：删除特征词库的换行符、匹配中文字符等。

其中，S2.2.3中所述“利用分词工具”包括：jieba分词等。

其中，S2.2.4中把所述“特征词库”，持久化于data_set中并保存在目录下；S2.2.5中把所述“tf-idf值”，持久化于word_weight_bag中并保存在目录下；S2.2.6中把所述“词频矩阵”，持久化于vocabulary_count_bag中并保存在目录下。

其中，S2.2.5中所述“tf-idf值”是TF-IDF算法的参数值，而tf-idf值的大小代表一个字词相对于特征词库中一份文档的重要程度。

其中，S2.2.9中所述“k值”是kNN分类算法的参数值，而k值的选择直接影响分类准确性。在本实施例中，当k值为21时，文本的准确率最高。

其中，本实施例所述方法可以是应用于实施例三中所述步骤S2.2的详细分解方法。

实施例五

为本实施例提供的基于朴素贝叶斯分类算法对文本进行分类的方法，所举实例只用于解释本发明，并非用于限定本发明的范围。具体实现步骤如下：

S2.2.10、根据具体情况确定文本的特征属性，对每个特征属性进行适当划分，由人工对一部分待分类的特征项进行分类，形成训练样本集合；

S2.2.11、通过词袋模型或TF-IDF模型计算并提取每个类别的文本特征，记录提取结果，生成分类器(model)；

S2.2.12、使用分类器对待分类的特征项进行分类。

其中，S2.2.10中输入是所有待分类数据，输出是特征属性和训练样本，该步骤是整个朴素贝叶斯分类算法中唯一需要人工完成的阶段，其质量对整个过程将有重要影响。

其中，S2.2.11中所述“词袋模型”是非结构化文本最简单的向量空间表示模型。向量空间模型只是一个数学模型，它将非结构化文本(或任何其他数据)表示为数值向量，这样向量的每个维度都是一个特定的特性/属性。单词包模型将每个文本文档表示为一个数字向量，其中每个维度都是来自特征词库的特定单词，其值可以是其在文档中的频率、出现频率(用1或0表示)，甚至是加权值。模型的名称是这样的，因为每个文档都按照字面意思表示为自己单词的“包”，不考虑单词顺序、序列和语法。不过，在大型特征词库中使用词袋模型可能会产生一些潜在的问题。由于特征向量是基于绝对频率，可能有一些项在所有文档中都经常出现，这可能倾向于掩盖其他方面的特征。

其中，S2.2.11中所述“TF4DF模型”试图解决上述问题，在计算中使用了缩放或归一化因子，TF-IDF模型已成为信息检索和自然语言处理领域中一个不可或缺的模型。

我们可以将TF-IDF定义为：tfidf＝tf×idf

展开公式为：tfidf(w，D)＝tf(w，D)×idf(w，D)＝tf(w，D)×log(C/df(w))公式中，tfidf(w，D)是文档D中单词w的tf-idf值，tf(w，D)表示文档D中w的词频，可以从词袋模型中得到，idf(w，D)是w这个单词的逆文档频率，可以通过计算特征词库中的文档的总数C除以w这个词的文档频率的对数变换得到，这基本上是文档的特征词库单词w的频率。

对词袋模型和TF-IDF模型进行对比后发现，用TF-IDF模型进行文本特征的抽取，效果会更好。

其中，S2.2.11中所述“提取每个类别的文本特征”后，进行分类器训练，输入是特征属性和训练样本，输出是分类器(model)，该步骤是机械性阶段，根据公式可以由程序自动计算完成；S2.2.11、S2.2.12中所述分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

其中，S2.2.12中输入是分类器和待分类项，输出是待分类项与类别的映射关系，该步骤是机械性阶段，由程序自动完成。

实施例六

参见图4，为本实施例提供的一种基于多维度分析的数据篡改监测和识别装置210，所举实例只用于解释本发明，并非用于限定本发明的范围。具体模块如下：

采集模块211：用于通过爬虫技术从政府网站中抓取相关页面；

页面解析模块212：用于对抓取的页面进行代码解析，即将网页源码转化为document对象，遍历document对象，去掉无关的HTML代码和标签；

特征提取模块213：用于从解析后的页面中提取相关的网页特征，即从document对象中抽取相关标签中的内容，对抽取的内容与特征词库进行匹配，保留所需的文本和网页特征；

模型构建和训练模块214：用于先人工整理少量数据集，使用kNN和朴素贝叶斯分类算法对文本进行分类，利用TF-IDF、BM25算法建立和训练小模型，以小模型为基础获取更丰富大量的训练数据，生成篡改二分类模型，再以fasttext算法对篡改二分类模型进行训练；

多特征识别模块215：用于通过分析IP是否指向国外，域名是否恶意域名，识别域名是否有问题；通过分析网页SimHash值，识别网页结构是否突变；通过分析是否有连续的外链/暗链，识别是否为恶意网页；通过分析是否插入大量恶意链接，识别是否存在局部篡改情况；通过分析和匹配词库/规则，识别<title>/<meta>等关键部分是否存在局部篡改；通过分析篡改二分类模型训练数据，识别网页是否全部被篡改；

综合评分模块216：用于综合多特征识别模块中每种分析的识别数据，计算出组合得分，得到网页篡改可能性结论。

其中，所述模型构建和训练模块214还包括分词子模块2141、特征词库2142、模型训练器2143和计算子模块2144，分别是：

分词子模块2141：用于通过kNN和朴素贝叶斯分类算法，对文本进行分类，利用分词工具进行中文文本分词，将分词后的文本打包形成特征词库，计算特征词的tf-idf值，统计特征词库的词频矩阵，人工对一部分待分类的特征项进行分类，形成训练样本集合。通过词袋模型或TF-IDF模型计算并提取每个类别的文本特征，记录提取结果，生成分类器，使用分类器对待分类的特征项进行分类，对分类数据进行分词统计，得到分词结果；

特征词库2142：用于存储从分词子模块的分词结果中筛选出每个分类特有的特征词；

模型训练器2143：用于使用TF-IDF、BM25算法计算相似度，构建小模型，以小模型为基准，在一个大数据集合中不断迭代，得到大量训练数据，将两种算法训练数据结合，得到大量精确分类数据，生成篡改二分类模型，使用fasttext算法对大模型进行训练；

计算子模块2144：用于将预测的文本与样本进行计算，对计算结果进行测试，判断是否满足准确率，并调整和确定最终k值。

其中，本实施例所述数据篡改监测和识别装置210，其实现原理及产生的技术效果与实施例三、实施例四和实施例五中各所述方法相同，为简要描述，实施例六中未提及之处，可参考前述方法实施例中相应内容。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多维度分析的数据篡改监测和识别方法，其特征在于：应用于服务器，包括如下步骤：

S1、从网页中抽取网页特征；

S2、通过分类算法生成篡改二分类模型；

S3、通过fasttext算法对模型进行机器学习分类训练；

S5、对模型训练数据和各维度监测数据进行综合评分；

S6、得到最终监测结果；

其中，所述步骤S4进一步包括：

S4.4、通过双数组tries树对搜集的恶意词库进行筛选匹配，判断网站是否被恶意修改；

其中，所述步骤S3进一步包括：

S3.1、对分类数据进行筛选和标记；

S3.2、遍历网页，抽取网页关键结构文本域中的内容；

S3.3、利用fasttext算法对模型进行训练；

S3.4、对训练结果进行分析；

其中，所述步骤S3.1进一步包括：

S3.1.1、对分类数据进行分词统计，得到分词结果；

S3.1.3、对特征词库中数据标记标签，拆分训练集，测试集，验证集；

其中，所述步骤S3.2进一步包括：

S3.2.2、依次抽取各个标签中内容；

S3.2.3、将抽取的内容与特征词库进行匹配；

S3.2.4、匹配则保留，不匹配则删除；

其中，所述步骤S3.3进一步包括：

S3.3.1、使用fasttext算法对标签中内容进行分类；

S3.3.2、根据召回率以及精准率的数值调整模型训练参数；

2.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S2进一步包括：

S2.1、人工整理少量精确数据；

S2.2、通过kNN和朴素贝叶斯分类算法，对文本进行分类；

S2.6、生成篡改二分类模型。

3.如权利要求2所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S2.2进一步包括：

S2.2.1、人工整理和选择出各类文本样本；

S2.2.2、对文本样本进行预处理；

S2.2.3、利用分词工具进行中文文本分词；

S2.2.4、将分词结果打包形成特征词库；

S2.2.5、计算特征词的tf-idf值；

S2.2.6、统计特征词库的词频矩阵；

S2.2.7、将预测的文本与样本进行计算；

S2.2.8、对计算结果进行测试，判断是否满足准确率；

S2.2.9、若不满足则调整参数k值，若满足则确定最终k值；

S2.2.11、通过词袋模型或TF-IDF模型计算并提取每个类别的文本特征，记录提取结果，生成分类器；

S2.2.12、使用分类器对待分类的特征项进行分类。

4.如权利要求3所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S2.2.5进一步包括：

S2.2.5.1、构建特征词库；

S2.2.5.2、使用TfidfVectorizer初始化向量空间模型，创建词袋；

S2.2.5.4、去掉停用词；

S2.2.5.5、保存词汇表；

S2.2.5.6、创建tf-idf值的持久化。

5.如权利要求3所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：S2.2.9中所述当k值为21时，文本的准确率最高；S2.2.10是整个朴素贝叶斯分类算法中唯一需要人工完成的阶段，其质量对整个过程将有重要影响；S2.2.11是机械性阶段，根据公式可以由程序自动计算完成；S2.2.12是机械性阶段，由程序自动完成；S2.2.11、S2.2.12中所述分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

6.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S4.1进一步包括：

S4.1.1、检查IP是否指向国外；

S4.1.2、若否，检查域名是否为恶意域名；

S4.1.3、若否，检查备案信息是否在国外/不在白名单中；

S4.1.4、若是，得到监测数据，否则，继续监测。

7.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S4.2进一步包括：

S4.2.1、使用SimHash算法比较网页结构；

S4.2.2、判断前后两次网页结构的SimHash值是否发生突变；

S4.2.3、若是，得到监测数据，否则，继续监测。

8.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S4.3进一步包括：

S4.3.1、检查是否有大量连续外链；

S4.3.2、若无，继续检查是否有大量连续暗链；

S4.3.3、若有，判断是否为疑似篡改页面，否则，继续监测；

S4.3.5、得到监测数据。

9.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：所述步骤S4.4进一步包括：

S4.4.1、抽取标签的中文域内容；

S4.4.2、通过双数组tries树与对应的词库/规则进行匹配；

S4.4.3、判断匹配结果；

S4.4.4、若匹配，得到监测数据，否则，继续监测。

10.如权利要求1所述的一种基于多维度分析的数据篡改监测和识别方法，其特征在于：S1中所述从网页中抽取网页特征是指：通过dom4j解析源码，批量抽取全部文本标签的文本内容和部分标签的属性值，然后通过特征词库对抽取的网页内容进行匹配清洗，将处理后数据放入异步队列中；S5中所述各维度监测数据是指：采用半监督学习方式进行机器训练，对各维度监测数据进行分值占比的调参处理，构建最优模型；对其中一般不容易变化的或者分析耗时的监测数据可以放入缓存队列中。

11.一种基于多维度分析的数据篡改监测和识别装置，其特征在于：应用于服务器，包括如下模块：

采集模块：用于通过爬虫技术从政府网站中抓取相关页面；

多特征识别模块：用于通过分析IP是否指向国外，域名是否恶意域名，识别域名是否有问题；通过分析网页SimHash值，识别网页结构是否突变；通过分析是否有连续的外链/暗链，识别是否为恶意网页；通过分析是否插入大量恶意链接，识别是否存在局部篡改情况；通过分析和匹配词库/规则，识别<title>/<meta>这类关键部分是否存在局部篡改；通过分析篡改二分类模型训练数据，识别网页是否全部被篡改；

模型构建和训练模块：用于先人工整理少量数据集，使用kNN和朴素贝叶斯分类算法对文本进行分类，利用TF-IDF、BM25算法建立和训练小模型，以小模型为基础获取更丰富大量的训练数据，生成篡改二分类模型，再以fasttext算法对篡改二分类模型进行训练；

其中，所述模型构建和训练模块还包括模型训练器、分词子模块、计算子模块和特征词库，分别是：

模型训练器：用于使用TF-IDF、BM25算法计算相似度，构建小模型，以小模型为基准，在一个大数据集合中不断迭代，得到大量训练数据，将两种算法训练数据结合，得到大量精确分类数据，生成篡改二分类模型，使用fasttext算法对大模型进行训练；

分词子模块：用于通过kNN和朴素贝叶斯分类算法，对文本进行分类，利用分词工具进行中文文本分词，将分词后的文本打包形成特征词库，计算特征词的tf-idf值，统计特征词库的词频矩阵，人工对一部分待分类的特征项进行分类，形成训练样本集合；通过词袋模型或TF-IDF模型计算并提取每个类别的文本特征，记录提取结果，生成分类器，使用分类器对待分类的特征项进行分类，对分类数据进行分词统计，得到分词结果；

计算子模块：用于将预测的文本与样本进行计算，对计算结果进行测试，判断是否满足准确率，并调整和确定最终k值；

特征词库：用于存储从分词子模块的分词结果中筛选出每个分类特有的特征词。

12.一种电子设备，其特征在于：所述电子设备包括：存储器和处理器，所述存储器与所述处理器连接；所述存储器用于存储程序；所述处理器用于调用存储于所述存储器中的程序，以执行如权利要求1-10任一项所述的方法。

13.一种存储介质，其特征在于：所述存储介质存储有处理器可执行的程序代码于计算机内，所述存储介质包括多条指令，所述多条指令被配置成使所述处理器执行如权利要求1-10任一项所述的方法。