CN109922065B

CN109922065B - 恶意网站快速识别方法

Info

Publication number: CN109922065B
Application number: CN201910177897.8A
Authority: CN
Inventors: 古元; 陈耀远; 陈思萌; 毛华阳; 华仲锋; 于龙; 林飞; 王娜; 熊翱
Original assignee: Beijing Act Technology Development Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing Act Technology Development Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2019-03-10
Filing date: 2019-03-10
Publication date: 2021-03-23
Anticipated expiration: 2039-03-10
Also published as: CN109922065A

Abstract

恶意网站快速识别方法涉及信息安全技术领域。实现本发明的主要步骤包括词库匹配筛选步骤，前端劫持判别筛选步骤，可见区域恶意信息的判别筛选步骤；实现本发明可以实时、高效地鉴别恶意网站；实现本发明利用恶意信息分析系统可以有效辨别网页可见区域内的恶意信息，从而识别出隐藏性较强的恶意网站；实现本发明可以识别劫持网站，避免将其误判为恶意网站，提高恶意网站检测准确率。

Description

恶意网站快速识别方法

技术领域

本发明涉及信息技术领域，尤其是信息安全技术领域。

背景技术

随着互联网的迅速发展，大数据时代下的互联网信息呈指数型增长，大量信息资源通过网络服务共享。网页浏览是当下使用率最高的网络服务之一，同时也成为不法分子进行恶意攻击活动的主要渠道，其中恶意信息类网站的传播范围广、影响范围大，对信息安全构成严重威胁。过去，恶意网站的攻击手法较为直接，用户只有在访问此类网站时才有可能受到威胁，而现在，攻击者还会劫持一些正规网站来传递恶意信息，利用合法站点的脚本漏洞攻击该站点的访问用户，即使是受信任的网站也可能遭受恶意攻击，如网页部分内容被篡改为恶意信息，或是跳转到指定的恶意网站情况，同样会造成用户财产和个人信息的泄露，由此引发的信息安全威胁愈加严重，致使用户的信息安全无法得到保障。

传统的恶意网站检测方法有：人工检测、基于特征码的检测，它们通常是通过人为发现恶意网站或是网站源代码中的恶意代码标识进行检测，这类方法实现简单，但过于依赖人工的特征筛选，检测效率与准确率不高。现今，恶意网站的检测常利用特征分析和统计方法，通过构建文本特征与特征分析来发现网站中的恶意信息。此外，还可以借助虚拟机技术，在虚拟机中模拟真实页面，实现基于行为的恶意信息检测。这些方法可以较为有效的检测到恶意网站，在一定程度上提高了用户访问网页的安全性，但与传统方法相比其效率较低。而且，新型的恶意网站会通过源代码伪装来躲避网络监管，将恶意的代码及文本内容利用技术手段隐藏起来，致使检测器难以发现，现有检测方法无法满足用户访问网页的安全新要求。

恶意网站为了躲避网络监管，其恶意信息一般具有较强隐蔽性，通常会在网页源码中利用大量正常的网页内容文本来混淆恶意信息，致使网页检测器难以发现此类网站，当用户访问网站时页面展示的是恶意信息，而网页源码中的正常文本部分对用户是不可见的。另一种恶意信息的传播方法是劫持正规网站，当正规网站被恶意攻击后，会出现网页跳转、网页内容被恶意篡改情况，其网站源码的内容中会包含有恶意信息，诱导网站检测器将其误认为是恶意网站。

针对现有技术的不足，区别于传统的人工检测和基于特征码的检测，并且在效率上优于借助虚拟机技术的恶意网站检测，本发明方法通过分析页面可见区域中的恶意信息，可以高效鉴别出隐蔽性较强的恶意网站，同时通过网页劫持系统的判断，可以有效避免将被劫持网站当作恶意网站，保证识别系统的准确率和实时性。

共有技术

word2vec是Google开源的一款用于词向量计算的工具。word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练，还可以得到训练结果——词向量（wordembedding），可以很好地度量词与词之间的相似性。其实word2vec算法的背后是一个浅层神经网络，而且还是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候，其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。

发明内容

为克服现有技术的不足，实现本发明的恶意网站快速识别方法主要包含词库匹配筛选步骤，前端劫持判别筛选步骤，可见区域恶意信息的判别筛选步骤组成：

1）词库匹配筛选步骤

对于恶意网站而言，其源码中必然会出现恶意词语，利用词库的快速匹配，初步筛选出含有恶意信息的网站，减少识别系统需要判断的网站数量，提高识别效率；

①构建词库

编制恶意词语，人工收集100个恶意信息词；

导入维基百科公开的语料；

应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语，针对每个恶意词语求取50个近义词，生成扩充的恶意词语；

已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库；

②网页文本提取

由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容；

③词库匹配

由词库匹配器将网页文本内容与恶意词的词库进行匹配，当网页文本内容包含恶意词的词库中的恶意词时，判定为可疑网站；当网页文本内容未包含恶意词的词库中的恶意词时，判定为正常网站；

④将可疑网站的网址作为被测网站传送给JS提取器；

2）前端劫持判别筛选

前端劫持是指JS劫持，攻击者在网站中插入JS或者修改其配置文件，主要攻击方式有以下两种：一是增加相应的劫持代码；二是在不入侵服务器的情况下植入JS，比如MOTS攻击，攻击者监听通信的流量，并且利用时间差优势在正常的响应包返回之前插入精心构造的数据包来加载对应恶意JS数据，同时利用协议本身的弱点达到欺骗客户端的目的；

①通过JS提取器得到被测网站所有JS数据，：

②将被测网站所有JS数据输入远程IP归属地判别器，远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码，当不同IP归属地访问同一网站的同一界面时产生不同跳转时，判定网站遭遇网络劫持；当不同IP归属地访问同一网站的同一界面时产生相同跳转时，判定网站未遭遇网络劫持；

③将被测网站所有JS数据输入Referer关键字判别器，Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站，当爬虫去访问时会调用browserRedirect()函数，browserRedirect()函数用来实现跳转判断，当browserRedirect()函数调用与直接访问被测网站所响应的JS一致，判定网站未遭遇网络劫持；当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致，判定网站遭遇网络劫持；

④将被测网站所有JS数据输入user-agent关键字判别器，user-agent关键字判别器通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站，同时通过web直接访问被测网站，当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致，判定网站未遭遇网络劫持；当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致，判定网站遭遇网络劫持；

⑤远程IP归属地判别器，Referer关键字判别器，user-agent关键字判别器组成前端劫持判别系统；前端劫持判别系统将遭遇网络劫持的网站直接判定为遭遇劫持，前端劫持判别系统将未遭遇网络劫持的网站直接判定为未遭遇劫持，前端劫持判别系统将未遭遇劫持的网站的网址传送给恶意信息判别器的可见区域提取器和不可见区域文本提取器；

3）可见区域恶意信息的判别筛选

①提取网页可见区域

由可见区域提取器得到未遭遇劫持的网站的网页源码的JS数据集合

和网站框架源码的JS数据集合

，其中包括 JS框架F与文本集合D；每个JS框架

中都含有标题

及若干script元素

，提取网页可见区域的具体步骤为：

a) 通过Xpath元素定位网页JS框架F中标题的位置，将其作为提取区域的起点

，以10个元素为步长确定提取区域的末点

，若提取区域大小不足10则以最后一个元素为末点，并求出可见区域的中点

；

b)获得可见区域的位置后，便得到可见区域的起点、中点、末点的script元素

、

、

；

c)遍历网页中的n个JS数据集合，n为JS数据的总数

，寻找相同的script元素

、

、

；

d) 当在第i个JS框架

中找到了相同元素

、

、

，则提取第i个 JS框架中文本内容

所对应元素区域的内容

至

，此部分内容为网页响应的页面显示内容，即为可见区域网页内容d；

② 可见区域恶意信息分析

通常，隐蔽性恶意网站的可见页面上包含有大量恶意信息，但是网页源码中的页面不可见部分多为正常文本内容，本方法通过两个部分的综合分析来评价网站中的恶意信息：一是页面可见区域内恶意信息的出现概率；二是可见和不可见区域文本差异的对比。若可见区域属于恶意网站的概率越大，且可见与不可见区域间文本差异越大，则网站属于恶意网站的可能性就越高；具体实现可分为以下几步：

a) 建立分类器

标注恶意和非恶意网站文本内容的样本x，设网站类别为c={c1，c2}，其中恶意网站为c1，正规网站为c2；训练贝叶斯分类模型，生成分类器，通过分类器可以求出网站文本内容属于两个类别的概率，

；

b) 对可见区域内容分类

将未遭遇劫持的网站的可见区域网页内容d输入分类器中，求得可见区域网页内容d属于恶意网站的概率

；

；

c) 由不可见区域文本提取器提取未遭遇劫持的网站的不可见区域的文本内容

，将不可见区域的文本内容输入分类器，求得不可见区域的文本内容s属于恶意网站的概率

，

；

d) 计算恶意信息评价函数f(s,d)：

，

式中

和

为重要性权值，设置

=0.7，

=0.3；其中

；

上式中v代表网站中的文本内容，

代表文本属于恶意网站类的概率，由分类器求得，

用来判断网站文本v是否属于恶意网站c1类所包含的文本；当

，则表明网站文本v属于恶意网站c1类，

小于0时网站文本v属于正规网站c2类；

e) 计算得到网站的恶意信息评分f(s,d)后，由阈值设定器设置阈值thr来判别恶意网站；当f(s,d)大于thr时，判定为恶意网站；当f(s,d)小于thr时为正规网站；阈值的默认设置为0.7。

有益效果

对于隐蔽性较强的网站，其源码中会利用大量正规文本来混淆恶意信息，从源码中来看网站内容属于恶意网站的概率较低，但是在页面可见区域中却存在大量恶意信息；在评价函数中，主要通过判定可见区域文本属于恶意网站的概率来评价恶意信息程度，同时利用的值来衡量可见区域与不可见区域文本内容的差异性，两者的差值越大，则网站的可疑性越高，由此可辨别出隐蔽性较强的恶意网站；此外，利用评价函数也可以鉴别出网站页面内容被篡改的情况，对于部分被挟持网站，其页面可见区域内容可能被篡改进而存在少量恶意信息，但在源码的不可见区域内充斥着各种恶意信息，通过对这两部分区域内容的分析可有效避免将此类网站误认为恶意网站。

实现本发明可以实时、高效地鉴别恶意网站；实现本发明利用恶意信息分析系统可以有效辨别网页可见区域内的恶意信息，从而识别出隐藏性较强的恶意网站；实现本发明可以识别劫持网站，避免将其误判为恶意网站，提高恶意网站检测准确率。

附图说明

图1是本发明的系统结构图；

图2是本发明的恶意词的词库生成流程图。

具体实现方式

参看图1和图2，本发明的恶意网站快速识别方法主要包含词库匹配筛选步骤，前端劫持判别筛选步骤，可见区域恶意信息的判别筛选步骤组成：

1）词库匹配筛选步骤

①构建词库

S01，编制恶意词语，人工收集100个恶意信息词；

S02，导入维基百科公开的语料；

S03，应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语，针对每个恶意词语求取50个近义词，生成扩充的恶意词语；

S04，已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库；

②网页文本提取

由文本提取器1将被检测网站的网页的文本内容提取出来生成网页文本内容；

③词库匹配

由词库匹配器2将网页文本内容与恶意词的词库进行匹配，当网页文本内容包含恶意词的词库中的恶意词时，判定为可疑网站；当网页文本内容未包含恶意词的词库中的恶意词时，判定为正常网站；

④将可疑网站的网址作为被测网站传送给JS提取器3；

2）前端劫持判别筛选

①通过JS提取器3得到被测网站所有JS数据，：

②将被测网站所有JS数据输入远程IP归属地判别器41，远程IP归属地判别器41设置不同地区的IP地址来响应网站的JS代码，当不同IP归属地访问同一网站的同一界面时产生不同跳转时，判定网站遭遇网络劫持；当不同IP归属地访问同一网站的同一界面时产生相同跳转时，判定网站未遭遇网络劫持；

③将被测网站所有JS数据输入Referer关键字判别器42，Referer关键字判别器42分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站，当爬虫去访问时会调用browserRedirect()函数，browserRedirect()函数用来实现跳转判断，当browserRedirect()函数调用与直接访问被测网站所响应的JS一致，判定网站未遭遇网络劫持；当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致，判定网站遭遇网络劫持；

④将被测网站所有JS数据输入user-agent关键字判别器43，user-agent关键字判别器43通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站，同时通过web直接访问被测网站，当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致，判定网站未遭遇网络劫持；当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致，判定网站遭遇网络劫持；

⑤远程IP归属地判别器41，Referer关键字判别器42，user-agent关键字判别器43组成前端劫持判别系统4；前端劫持判别系统4将遭遇网络劫持的网站直接判定为遭遇劫持，前端劫持判别系统4将未遭遇网络劫持的网站直接判定为未遭遇劫持，前端劫持判别系统4将未遭遇劫持的网站的网址传送给恶意信息判别器5的可见区域提取器51和不可见区域文本提取器52；

3）可见区域恶意信息的判别筛选

①提取网页可见区域

由可见区域提取器51得到未遭遇劫持的网站的网页源码的JS数据集合

和网站框架源码的JS数据集合

，其中包括JS框架F与文本集合D；每个JS框架