CN109922065B - 恶意网站快速识别方法 - Google Patents

恶意网站快速识别方法 Download PDF

Info

Publication number
CN109922065B
CN109922065B CN201910177897.8A CN201910177897A CN109922065B CN 109922065 B CN109922065 B CN 109922065B CN 201910177897 A CN201910177897 A CN 201910177897A CN 109922065 B CN109922065 B CN 109922065B
Authority
CN
China
Prior art keywords
website
malicious
text
hijacking
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910177897.8A
Other languages
English (en)
Other versions
CN109922065A (zh
Inventor
古元
陈耀远
陈思萌
毛华阳
华仲锋
于龙
林飞
王娜
熊翱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Act Technology Development Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
Beijing Act Technology Development Co ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Act Technology Development Co ltd, Beijing University of Posts and Telecommunications filed Critical Beijing Act Technology Development Co ltd
Priority to CN201910177897.8A priority Critical patent/CN109922065B/zh
Publication of CN109922065A publication Critical patent/CN109922065A/zh
Application granted granted Critical
Publication of CN109922065B publication Critical patent/CN109922065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

恶意网站快速识别方法涉及信息安全技术领域。实现本发明的主要步骤包括词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤;实现本发明可以实时、高效地鉴别恶意网站;实现本发明利用恶意信息分析系统可以有效辨别网页可见区域内的恶意信息,从而识别出隐藏性较强的恶意网站;实现本发明可以识别劫持网站,避免将其误判为恶意网站,提高恶意网站检测准确率。

Description

恶意网站快速识别方法
技术领域
本发明涉及信息技术领域,尤其是信息安全技术领域。
背景技术
随着互联网的迅速发展,大数据时代下的互联网信息呈指数型增长,大量信息资源通过网络服务共享。网页浏览是当下使用率最高的网络服务之一,同时也成为不法分子进行恶意攻击活动的主要渠道,其中恶意信息类网站的传播范围广、影响范围大,对信息安全构成严重威胁。过去,恶意网站的攻击手法较为直接,用户只有在访问此类网站时才有可能受到威胁,而现在,攻击者还会劫持一些正规网站来传递恶意信息,利用合法站点的脚本漏洞攻击该站点的访问用户,即使是受信任的网站也可能遭受恶意攻击,如网页部分内容被篡改为恶意信息,或是跳转到指定的恶意网站情况,同样会造成用户财产和个人信息的泄露,由此引发的信息安全威胁愈加严重,致使用户的信息安全无法得到保障。
传统的恶意网站检测方法有:人工检测、基于特征码的检测,它们通常是通过人为发现恶意网站或是网站源代码中的恶意代码标识进行检测,这类方法实现简单,但过于依赖人工的特征筛选,检测效率与准确率不高。现今,恶意网站的检测常利用特征分析和统计方法,通过构建文本特征与特征分析来发现网站中的恶意信息。此外,还可以借助虚拟机技术,在虚拟机中模拟真实页面,实现基于行为的恶意信息检测。这些方法可以较为有效的检测到恶意网站,在一定程度上提高了用户访问网页的安全性,但与传统方法相比其效率较低。而且,新型的恶意网站会通过源代码伪装来躲避网络监管,将恶意的代码及文本内容利用技术手段隐藏起来,致使检测器难以发现,现有检测方法无法满足用户访问网页的安全新要求。
恶意网站为了躲避网络监管,其恶意信息一般具有较强隐蔽性,通常会在网页源码中利用大量正常的网页内容文本来混淆恶意信息,致使网页检测器难以发现此类网站,当用户访问网站时页面展示的是恶意信息,而网页源码中的正常文本部分对用户是不可见的。另一种恶意信息的传播方法是劫持正规网站,当正规网站被恶意攻击后,会出现网页跳转、网页内容被恶意篡改情况,其网站源码的内容中会包含有恶意信息,诱导网站检测器将其误认为是恶意网站。
针对现有技术的不足,区别于传统的人工检测和基于特征码的检测,并且在效率上优于借助虚拟机技术的恶意网站检测,本发明方法通过分析页面可见区域中的恶意信息,可以高效鉴别出隐蔽性较强的恶意网站,同时通过网页劫持系统的判断,可以有效避免将被劫持网站当作恶意网站,保证识别系统的准确率和实时性。
共有技术
word2vec是Google开源的一款用于词向量计算的工具。word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,还可以得到训练结果——词向量(wordembedding),可以很好地度量词与词之间的相似性。其实word2vec算法的背后是一个浅层神经网络,而且还是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候,其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。
发明内容
为克服现有技术的不足,实现本发明的恶意网站快速识别方法主要包含词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤组成:
1)词库匹配筛选步骤
对于恶意网站而言,其源码中必然会出现恶意词语,利用词库的快速匹配,初步筛选出含有恶意信息的网站,减少识别系统需要判断的网站数量,提高识别效率;
①构建词库
编制恶意词语,人工收集100个恶意信息词;
导入维基百科公开的语料;
应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语,针对每个恶意词语求取50个近义词,生成扩充的恶意词语;
已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库;
②网页文本提取
由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容;
③词库匹配
由词库匹配器将网页文本内容与恶意词的词库进行匹配,当网页文本内容包含恶意词的词库中的恶意词时,判定为可疑网站;当网页文本内容未包含恶意词的词库中的恶意词时,判定为正常网站;
④将可疑网站的网址作为被测网站传送给JS提取器;
2)前端劫持判别筛选
前端劫持是指JS劫持,攻击者在网站中插入JS或者修改其配置文件,主要攻击方式有以下两种:一是增加相应的劫持代码;二是在不入侵服务器的情况下植入JS,比如MOTS攻击,攻击者监听通信的流量,并且利用时间差优势在正常的响应包返回之前插入精心构造的数据包来加载对应恶意JS数据,同时利用协议本身的弱点达到欺骗客户端的目的;
①通过JS提取器得到被测网站所有JS数据,:
②将被测网站所有JS数据输入远程IP归属地判别器,远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码,当不同IP归属地访问同一网站的同一界面时产生不同跳转时,判定网站遭遇网络劫持;当不同IP归属地访问同一网站的同一界面时产生相同跳转时,判定网站未遭遇网络劫持;
③将被测网站所有JS数据输入Referer关键字判别器,Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站,当爬虫去访问时会调用browserRedirect()函数,browserRedirect()函数用来实现跳转判断,当browserRedirect()函数调用与直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
④将被测网站所有JS数据输入user-agent关键字判别器,user-agent关键字判别器通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站,同时通过web直接访问被测网站,当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
⑤远程IP归属地判别器,Referer关键字判别器,user-agent关键字判别器组成前端劫持判别系统;前端劫持判别系统将遭遇网络劫持的网站直接判定为遭遇劫持,前端劫持判别系统将未遭遇网络劫持的网站直接判定为未遭遇劫持,前端劫持判别系统将未遭遇劫持的网站的网址传送给恶意信息判别器的可见区域提取器和不可见区域文本提取器;
3)可见区域恶意信息的判别筛选
①提取网页可见区域
由可见区域提取器得到未遭遇劫持的网站的网页源码的JS数据集合
Figure 227061DEST_PATH_IMAGE001
和网站框架源码的JS数据集合
Figure 424693DEST_PATH_IMAGE002
,其中包括 JS框架F与文本集合D;每个JS框架
Figure 953501DEST_PATH_IMAGE003
中都含有标题
Figure 174267DEST_PATH_IMAGE004
及若干script元素
Figure 511970DEST_PATH_IMAGE005
,提取网页可见区域的具体步骤为:
a) 通过Xpath元素定位网页JS框架F中标题的位置,将其作为提取区域的起点
Figure 564108DEST_PATH_IMAGE006
,以10个元素为步长确定提取区域的末点
Figure 343713DEST_PATH_IMAGE007
,若提取区域大小不足10则以最后一个 元素为末点,并求出可见区域的中点
Figure 864824DEST_PATH_IMAGE008
b)获得可见区域的位置后,便得到可见区域的起点、中点、末点的script元素
Figure 301490DEST_PATH_IMAGE009
Figure 912862DEST_PATH_IMAGE010
Figure 347255DEST_PATH_IMAGE011
c)遍历网页中的n个JS数据集合,n为JS数据的总数
Figure 355662DEST_PATH_IMAGE002
, 寻找相同的script元素
Figure 32238DEST_PATH_IMAGE009
Figure 58968DEST_PATH_IMAGE010
Figure 477311DEST_PATH_IMAGE011
d) 当在第i个JS框架
Figure 395851DEST_PATH_IMAGE012
中找到了相同元素
Figure 439899DEST_PATH_IMAGE009
Figure 71869DEST_PATH_IMAGE010
Figure 352459DEST_PATH_IMAGE011
,则提取第i个 JS框架中文本内容
Figure 584726DEST_PATH_IMAGE013
所对应元素区域的内容
Figure 917618DEST_PATH_IMAGE014
Figure 154827DEST_PATH_IMAGE015
,此部分内容为网页 响应的页面显示内容,即为可见区域网页内容d;
② 可见区域恶意信息分析
通常,隐蔽性恶意网站的可见页面上包含有大量恶意信息,但是网页源码中的页面不可见部分多为正常文本内容,本方法通过两个部分的综合分析来评价网站中的恶意信息:一是页面可见区域内恶意信息的出现概率;二是可见和不可见区域文本差异的对比。若可见区域属于恶意网站的概率越大,且可见与不可见区域间文本差异越大,则网站属于恶意网站的可能性就越高;具体实现可分为以下几步:
a) 建立分类器
标注恶意和非恶意网站文本内容的样本x,设网站类别为c={c1,c2},其中恶意网 站为c1,正规网站为c2;训练贝叶斯分类模型,生成分类器,通过分类器可以求出网站文本 内容属于两个类别的概率,
Figure 367502DEST_PATH_IMAGE016
b) 对可见区域内容分类
将未遭遇劫持的网站的可见区域网页内容d输入分类器中,求得可见区域网页内 容d属于恶意网站的概率
Figure 572218DEST_PATH_IMAGE017
Figure 394288DEST_PATH_IMAGE018
c) 由不可见区域文本提取器提取未遭遇劫持的网站的不可见区域的文本内容
Figure 984538DEST_PATH_IMAGE019
,将不可见区域的文本内容输入分类器,求得不可见区域的文本内容s属于恶意 网站的概率
Figure 181164DEST_PATH_IMAGE020
Figure 561592DEST_PATH_IMAGE021
d) 计算恶意信息评价函数f(s,d):
Figure 485554DEST_PATH_IMAGE022
式中
Figure 626249DEST_PATH_IMAGE023
Figure 993777DEST_PATH_IMAGE024
为重要性权值,设置
Figure 94457DEST_PATH_IMAGE023
=0.7,
Figure 323575DEST_PATH_IMAGE025
=0.3;其中
Figure 91680DEST_PATH_IMAGE026
上式中v代表网站中的文本内容,
Figure 364529DEST_PATH_IMAGE027
代表文本属于恶意网站类的概率,由分 类器求得,
Figure 716620DEST_PATH_IMAGE028
用来判断网站文本v是否属于恶意网站c1类所包含的文本;当
Figure 982385DEST_PATH_IMAGE029
, 则表明网站文本v属于恶意网站c1类,
Figure 106461DEST_PATH_IMAGE028
小于0时网站文本v属于正规网站c2类;
e) 计算得到网站的恶意信息评分f(s,d)后,由阈值设定器设置阈值thr来判别恶意网站;当f(s,d)大于thr时,判定为恶意网站;当f(s,d)小于thr时为正规网站;阈值的默认设置为0.7。
有益效果
对于隐蔽性较强的网站,其源码中会利用大量正规文本来混淆恶意信息,从源码中来看网站内容属于恶意网站的概率较低,但是在页面可见区域中却存在大量恶意信息;在评价函数中,主要通过判定可见区域文本属于恶意网站的概率来评价恶意信息程度,同时利用的值来衡量可见区域与不可见区域文本内容的差异性,两者的差值越大,则网站的可疑性越高,由此可辨别出隐蔽性较强的恶意网站;此外,利用评价函数也可以鉴别出网站页面内容被篡改的情况,对于部分被挟持网站,其页面可见区域内容可能被篡改进而存在少量恶意信息,但在源码的不可见区域内充斥着各种恶意信息,通过对这两部分区域内容的分析可有效避免将此类网站误认为恶意网站。
实现本发明可以实时、高效地鉴别恶意网站;实现本发明利用恶意信息分析系统可以有效辨别网页可见区域内的恶意信息,从而识别出隐藏性较强的恶意网站;实现本发明可以识别劫持网站,避免将其误判为恶意网站,提高恶意网站检测准确率。
附图说明
图1是本发明的系统结构图;
图2是本发明的恶意词的词库生成流程图。
具体实现方式
参看图1和图2,本发明的恶意网站快速识别方法主要包含词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤组成:
1)词库匹配筛选步骤
对于恶意网站而言,其源码中必然会出现恶意词语,利用词库的快速匹配,初步筛选出含有恶意信息的网站,减少识别系统需要判断的网站数量,提高识别效率;
①构建词库
S01,编制恶意词语,人工收集100个恶意信息词 ;
S02,导入维基百科公开的语料;
S03,应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语,针对每个恶意词语求取50个近义词,生成扩充的恶意词语;
S04,已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库;
②网页文本提取
由文本提取器1将被检测网站的网页的文本内容提取出来生成网页文本内容;
③词库匹配
由词库匹配器2将网页文本内容与恶意词的词库进行匹配,当网页文本内容包含恶意词的词库中的恶意词时,判定为可疑网站;当网页文本内容未包含恶意词的词库中的恶意词时,判定为正常网站;
④将可疑网站的网址作为被测网站传送给JS提取器3;
2)前端劫持判别筛选
前端劫持是指JS劫持,攻击者在网站中插入JS或者修改其配置文件,主要攻击方式有以下两种:一是增加相应的劫持代码;二是在不入侵服务器的情况下植入JS,比如MOTS攻击,攻击者监听通信的流量,并且利用时间差优势在正常的响应包返回之前插入精心构造的数据包来加载对应恶意JS数据,同时利用协议本身的弱点达到欺骗客户端的目的;
①通过JS提取器3得到被测网站所有JS数据,:
②将被测网站所有JS数据输入远程IP归属地判别器41,远程IP归属地判别器41设置不同地区的IP地址来响应网站的JS代码,当不同IP归属地访问同一网站的同一界面时产生不同跳转时,判定网站遭遇网络劫持;当不同IP归属地访问同一网站的同一界面时产生相同跳转时,判定网站未遭遇网络劫持;
③将被测网站所有JS数据输入Referer关键字判别器42,Referer关键字判别器42分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站,当爬虫去访问时会调用browserRedirect()函数,browserRedirect()函数用来实现跳转判断,当browserRedirect()函数调用与直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
④将被测网站所有JS数据输入user-agent关键字判别器43,user-agent关键字判别器43通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站,同时通过web直接访问被测网站,当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
⑤远程IP归属地判别器41,Referer关键字判别器42,user-agent关键字判别器43组成前端劫持判别系统4;前端劫持判别系统4将遭遇网络劫持的网站直接判定为遭遇劫持,前端劫持判别系统4将未遭遇网络劫持的网站直接判定为未遭遇劫持,前端劫持判别系统4将未遭遇劫持的网站的网址传送给恶意信息判别器5的可见区域提取器51和不可见区域文本提取器52;
3)可见区域恶意信息的判别筛选
①提取网页可见区域
由可见区域提取器51得到未遭遇劫持的网站的网页源码的JS数据集合
Figure 550212DEST_PATH_IMAGE001
和网站框架源码的JS数据集合
Figure 891063DEST_PATH_IMAGE002
,其中包括JS框 架F与文本集合D;每个JS框架
Figure 402597DEST_PATH_IMAGE003
中都含有标题
Figure 942032DEST_PATH_IMAGE004
及若干script元素
Figure 822263DEST_PATH_IMAGE005
,提取 网页可见区域的具体步骤为:
a) 通过Xpath元素定位网页JS框架F中标题的位置,将其作为提取区域的起点
Figure 948613DEST_PATH_IMAGE006
,以10个元素为步长确定提取区域的末点
Figure 493864DEST_PATH_IMAGE007
,若提取区域大小不足10则以最后一个 元素为末点,并求出可见区域的中点
Figure 589602DEST_PATH_IMAGE008
b)获得可见区域的位置后,便得到可见区域的起点、中点、末点的script元素
Figure 375156DEST_PATH_IMAGE009
Figure 487337DEST_PATH_IMAGE010
Figure 337744DEST_PATH_IMAGE011
c)遍历网页中的n个JS数据集合,n为JS数据的总数
Figure 602503DEST_PATH_IMAGE002
, 寻找相同的script元素
Figure 73804DEST_PATH_IMAGE009
Figure 127078DEST_PATH_IMAGE010
Figure 827181DEST_PATH_IMAGE011
d) 当在第i个JS框架
Figure 195714DEST_PATH_IMAGE012
中找到了相同元素
Figure 277065DEST_PATH_IMAGE009
Figure 114571DEST_PATH_IMAGE010
Figure 867632DEST_PATH_IMAGE011
,则提取第i个JS 框架中文本内容
Figure 841405DEST_PATH_IMAGE013
所对应元素区域的内容
Figure 90727DEST_PATH_IMAGE014
Figure 664797DEST_PATH_IMAGE015
,此部分内容为网页响 应的页面显示内容,即为可见区域网页内容d;
② 可见区域恶意信息分析
通常,隐蔽性恶意网站的可见页面上包含有大量恶意信息,但是网页源码中的页面不可见部分多为正常文本内容,本方法通过两个部分的综合分析来评价网站中的恶意信息:一是页面可见区域内恶意信息的出现概率;二是可见和不可见区域文本差异的对比。若可见区域属于恶意网站的概率越大,且可见与不可见区域间文本差异越大,则网站属于恶意网站的可能性就越高;具体实现可分为以下几步:
a) 建立分类器53
标注恶意和非恶意网站文本内容的样本x,设网站类别为c={c1,c2},其中恶意网 站为c1,正规网站为c2;训练贝叶斯分类模型,生成分类器53,通过分类器53可以求出网站 文本内容属于两个类别的概率,
Figure 706702DEST_PATH_IMAGE016
b) 对可见区域内容分类
将未遭遇劫持的网站的可见区域网页内容d输入分类器53中,求得可见区域网页 内容d属于恶意网站的概率
Figure 488975DEST_PATH_IMAGE017
Figure 472981DEST_PATH_IMAGE018
c) 由不可见区域文本提取器52提取未遭遇劫持的网站的不可见区域的文本内容
Figure 19500DEST_PATH_IMAGE019
,将不可见区域的文本内容s输入分类器53,求得不可见区域的文本内容s属于 恶意网站的概率
Figure 822021DEST_PATH_IMAGE020
Figure 19653DEST_PATH_IMAGE021
d) 计算恶意信息评价函数f(s,d):
Figure 613707DEST_PATH_IMAGE022
式中
Figure 647522DEST_PATH_IMAGE023
Figure 218181DEST_PATH_IMAGE024
为重要性权值,设置
Figure 34434DEST_PATH_IMAGE023
=0.7,
Figure 110974DEST_PATH_IMAGE025
=0.3;其中
Figure 819036DEST_PATH_IMAGE026
上式中v代表网站中的文本内容,
Figure 757167DEST_PATH_IMAGE027
代表文本属于恶意网站类的概率,由分 类器53求得,
Figure 867075DEST_PATH_IMAGE028
用来判断网站文本v是否属于恶意网站c1类所包含的文本;当
Figure 114516DEST_PATH_IMAGE029
, 则表明网站文本v属于恶意网站c1类,
Figure 802550DEST_PATH_IMAGE028
小于0时网站文本v属于正规网站c2类;
e) 计算得到网站的恶意信息评分f(s,d)后,由阈值设定器54设置阈值thr来判别恶意网站;当f(s,d)大于thr时,判定为恶意网站;当f(s,d)小于thr时为正规网站;阈值的默认设置为0.7。

Claims (1)

1.恶意网站快速识别方法,其特征在于包含词库匹配筛选步骤,前端劫持判别筛选步骤,可见区域恶意信息的判别筛选步骤:
1)词库匹配筛选步骤
对于恶意网站,利用词库的快速匹配,初步筛选出含有恶意信息的网站;
①构建词库
编制恶意词语,人工收集100个恶意信息词;
导入维基百科公开的语料;
应用word2vec模型为已编制的恶意词语从维基百科公开的语料中扩充相似的恶意词语,针对每个恶意词语求取50个近义词,生成扩充的恶意词语;
已编制的恶意词语加扩充的恶意词语在去除重复的情况下生成恶意词的词库;
②网页文本提取
由文本提取器将被检测网站的网页的文本内容提取出来生成网页文本内容;
③词库匹配
由词库匹配器将网页文本内容与恶意词的词库进行匹配,当网页文本内容包含恶意词的词库中的恶意词时,判定为可疑网站;当网页文本内容未包含恶意词的词库中的恶意词时,判定为正常网站;
④将可疑网站的网址作为被测网站传送给JS提取器;
2)前端劫持判别筛选
①通过JS提取器得到被测网站所有JS数据,:
②将被测网站所有JS数据输入远程IP归属地判别器,远程IP归属地判别器设置不同地区的IP地址来响应网站的JS代码,当不同IP归属地访问同一网站的同一界面时产生不同跳转时,判定网站遭遇网络劫持;当不同IP归属地访问同一网站的同一界面时产生相同跳转时,判定网站未遭遇网络劫持;
③将被测网站所有JS数据输入Referer关键字判别器,Referer关键字判别器分别通过baidu、google、yahoo、bing、soso、360搜索引擎爬虫去调用被测网站,当爬虫去访问时会调用browserRedirect()函数,browserRedirect()函数用来实现跳转判断,当browserRedirect()函数调用与直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当browserRedirect()函数调用与直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
④将被测网站所有JS数据输入user-agent关键字判别器,user-agent关键字判别器通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站,同时通过web直接访问被测网站,当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS一致,判定网站未遭遇网络劫持;当通过ipad、iphone os、midp、ucweb、android移动端模拟设备调用被测网站与通过web直接访问被测网站所响应的JS不一致,判定网站遭遇网络劫持;
⑤远程IP归属地判别器,Referer关键字判别器,user-agent关键字判别器组成前端劫持判别系统;前端劫持判别系统将遭遇网络劫持的网站直接判定为遭遇劫持,前端劫持判别系统将未遭遇网络劫持的网站直接判定为未遭遇劫持,前端劫持判别系统将未遭遇劫持的网站的网址传送给恶意信息判别器的可见区域提取器和不可见区域文本提取器;
3)可见区域恶意信息的判别筛选
①提取网页可见区域
由可见区域提取器得到未遭遇劫持的网站的网页源码的JS数据集合
Figure DEST_PATH_IMAGE001
和 网站框架源码的JS数据集合
Figure DEST_PATH_IMAGE002
,其中包括JS框架F与文 本集合D;每个JS框架
Figure DEST_PATH_IMAGE003
中都含有标题
Figure DEST_PATH_IMAGE004
及若干script元素
Figure DEST_PATH_IMAGE005
,提取网页可见 区域的具体步骤为:
a) 通过Xpath元素定位网页JS框架F中标题的位置,将其作为提取区域的起点
Figure DEST_PATH_IMAGE006
,以 10个元素为步长确定提取区域的末点
Figure DEST_PATH_IMAGE007
,若提取区域大小不足10则以最后一个元素为末 点,并求出可见区域的中点
Figure DEST_PATH_IMAGE008
b) 获得可见区域的位置后,便得到可见区域的起点、中点、末点的script元素
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
c) 遍历网页中的n个JS数据集合,n为JS数据的总数
Figure 603348DEST_PATH_IMAGE002
, 寻找相同的script元素
Figure 128613DEST_PATH_IMAGE009
Figure 733907DEST_PATH_IMAGE010
Figure 964031DEST_PATH_IMAGE011
d) 当在第i个JS框架
Figure DEST_PATH_IMAGE012
中找到了相同元素
Figure 634178DEST_PATH_IMAGE009
Figure 266148DEST_PATH_IMAGE010
Figure 597335DEST_PATH_IMAGE011
,则提取第i个JS框架 中文本内容
Figure DEST_PATH_IMAGE013
所对应元素区域的内容
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
,此部分内容为网页响应的页 面显示内容,即为可见区域网页内容d;
② 可见区域恶意信息分析
a) 建立分类器
标注恶意和非恶意网站文本内容的样本x,设网站类别为c={c1,c2},其中恶意网站为 c1,正规网站为c2;训练贝叶斯分类模型,生成分类器,通过分类器可以求出网站文本内容 属于两个类别的概率,
Figure DEST_PATH_IMAGE016
b) 对可见区域内容分类
将未遭遇劫持的网站的可见区域网页内容d输入分类器中,求得可见区域网页内容d属 于恶意网站的概率
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
c) 由不可见区域文本提取器提取未遭遇劫持的网站的不可见区域的文本内容
Figure DEST_PATH_IMAGE019
, 将不可见区域的文本内容输入分类器,求得不可见区域的文本内容s属于恶意网站的概率
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
d) 计算恶意信息评价函数f(s,d):
Figure DEST_PATH_IMAGE022
式中
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
为重要性权值,设置
Figure 770215DEST_PATH_IMAGE023
=0.7,
Figure DEST_PATH_IMAGE025
=0.3;其中
Figure DEST_PATH_IMAGE026
上式中v代表网站中的文本内容,
Figure DEST_PATH_IMAGE027
代表文本属于恶意网站类的概率,由分类器求 得,
Figure DEST_PATH_IMAGE028
用来判断网站文本v是否属于恶意网站c1类所包含的文本;当
Figure DEST_PATH_IMAGE029
,则表明 网站文本v属于恶意网站c1类,
Figure 290058DEST_PATH_IMAGE028
小于0时网站文本v属于正规网站c2类;
e) 计算得到网站的恶意信息评分f(s,d)后,由阈值设定器设置阈值thr来判别恶意网站;当f(s,d)大于thr时,判定为恶意网站;当f(s,d)小于thr时为正规网站;阈值的默认设置为0.7。
CN201910177897.8A 2019-03-10 2019-03-10 恶意网站快速识别方法 Active CN109922065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910177897.8A CN109922065B (zh) 2019-03-10 2019-03-10 恶意网站快速识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910177897.8A CN109922065B (zh) 2019-03-10 2019-03-10 恶意网站快速识别方法

Publications (2)

Publication Number Publication Date
CN109922065A CN109922065A (zh) 2019-06-21
CN109922065B true CN109922065B (zh) 2021-03-23

Family

ID=66963983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910177897.8A Active CN109922065B (zh) 2019-03-10 2019-03-10 恶意网站快速识别方法

Country Status (1)

Country Link
CN (1) CN109922065B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297991B (zh) * 2019-06-25 2021-10-22 上海诚数信息科技有限公司 基于大数据技术的色情数据删除方法及工作系统
CN110677313A (zh) * 2019-08-25 2020-01-10 北京亚鸿世纪科技发展有限公司 一种vpn软件后台服务器的发现方法
CN110825976B (zh) * 2020-01-08 2020-05-08 浙江乾冠信息安全研究院有限公司 网站页面的检测方法、装置、电子设备及介质
CN111310444A (zh) * 2020-01-16 2020-06-19 北京大学 一种公园景观服务识别方法
CN111339532A (zh) * 2020-03-23 2020-06-26 湘潭大学 一种恶意网站拦截方法
CN112910925B (zh) * 2021-03-08 2023-06-13 鹏城实验室 域名检测方法、模型训练方法及装置、设备、存储介质
CN117033742B (zh) * 2023-08-18 2024-02-20 广东轻工职业技术学院 基于人工智能的数据安全获取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801697A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN106528595A (zh) * 2016-09-23 2017-03-22 中国农业科学院农业信息研究所 基于网站首页内容的领域信息收集和关联方法
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN108667816A (zh) * 2018-04-19 2018-10-16 重庆邮电大学 一种网络异常的检测定位方法及系统
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350822B (zh) * 2008-09-08 2011-06-15 南开大学 一种Internet恶意代码的发现和追踪方法
CN103514403B (zh) * 2012-06-18 2017-02-08 北京一铭昌和科技发展有限公司 在js中主动进行安全保护的方法及装置
CN104660556B (zh) * 2013-11-20 2018-06-01 深圳市腾讯计算机系统有限公司 跨站伪造请求漏洞检测的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801697A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN104486461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 域名分类方法和装置、域名识别方法和系统
CN106528595A (zh) * 2016-09-23 2017-03-22 中国农业科学院农业信息研究所 基于网站首页内容的领域信息收集和关联方法
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN108667816A (zh) * 2018-04-19 2018-10-16 重庆邮电大学 一种网络异常的检测定位方法及系统
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于上下文信息的恶意URL检测技术;吴海滨,张冬梅;《软件》;20190131;第40卷(第1期);全文 *

Also Published As

Publication number Publication date
CN109922065A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109922065B (zh) 恶意网站快速识别方法
CN110233849B (zh) 网络安全态势分析的方法及系统
CN111428231B (zh) 基于用户行为的安全处理方法、装置及设备
CN104217160A (zh) 一种中文钓鱼网站检测方法及系统
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN106961419A (zh) WebShell检测方法、装置及系统
CN102932348A (zh) 一种钓鱼网站的实时检测方法及系统
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
CN108023868B (zh) 恶意资源地址检测方法和装置
CN110784462B (zh) 基于混合方法的三层钓鱼网站检测系统
CN113221032A (zh) 链接风险检测方法、装置以及存储介质
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
CN114448664B (zh) 钓鱼网页的识别方法、装置、计算机设备及存储介质
CN116015703A (zh) 模型训练方法、攻击检测方法及相关装置
CN1223941C (zh) 一种基于相关特征聚类的层次入侵检测系统
CN105468972B (zh) 一种移动终端文件检测方法
CN112287345B (zh) 基于智能风险检测的可信边缘计算系统
Valiyaveedu et al. Survey and analysis on AI based phishing detection techniques
CN106790102A (zh) 一种基于url特征的qr码网络钓鱼识别方法及系统
CN111552717A (zh) 一种伪装对象的识别方法、装置、服务器和存储介质
CN114169432B (zh) 一种基于深度学习的跨站脚本攻击识别方法
CN113361597B (zh) 一种url检测模型的训练方法、装置、电子设备和存储介质
CN113225343B (zh) 一种基于身份特征信息的风险网站识别方法及系统
Zhou et al. Multimodal fraudulent website identification method based on heterogeneous model ensemble
Ma et al. Phishsifter: An Enhanced Phishing Pages Detection Method Based on the Relevance of Content and Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant