CN107273416A - 网页暗链检测方法、装置及计算机可读存储介质 - Google Patents
网页暗链检测方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107273416A CN107273416A CN201710316339.6A CN201710316339A CN107273416A CN 107273416 A CN107273416 A CN 107273416A CN 201710316339 A CN201710316339 A CN 201710316339A CN 107273416 A CN107273416 A CN 107273416A
- Authority
- CN
- China
- Prior art keywords
- webpage
- detected
- text
- training set
- dark chain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 126
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims description 31
- 238000004321 preservation Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000002513 implantation Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 241000130764 Tinea Species 0.000 description 1
- 208000002474 Tinea Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网页暗链检测方法,包括:获取预设网页分类模型的训练集;获取待检测网页的文本特征向量和训练集中的网页的文本特征向量;基于邻近算法从训练集中选取若干个与待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为待检测网页的文本特征向量的邻近向量,并根据网页分类模型确定邻近向量对应的网页类型,作为待检测网页的候选网页类型;分别计算待检测网页属于每个候选网页类型的概率;判断概率最大值对应的候选网页类型属于正例样本还是负例样本,若属于负例样本,则判定待检测网页中含有暗链。本发明还公开了一种网页暗链检测装置和一种计算机可读存储介质。本发明能够提高网页暗链检测的准确率。
Description
技术领域
本发明涉及网络技术领域,尤其涉及网页暗链检测方法、装置及计算机可读存储介质。
背景技术
暗链,又称“黑链”、“隐链”,是指看不见但可以被搜索引擎识别并计算权重的外链,入侵者通过非法技术在网页中植入暗链,能够达到提高暗链所指网站的搜索引擎排名并从中盈利的目的,暗链的植入不仅影响了网站的正常运行,而且向公众传播了大量非法信息,危害巨大。目前网页暗链检测主要有以下两种方法:
1)基于规则的暗链检测:利用隐藏技术的识别并结合特征黑名单来判定网页是否被植入暗链。这种方法对于暗链的某些隐藏方式识别较弱,同时也会由于黑名单关键字本身的限制而导致漏报、误报。
2)基于二分类机器学习的暗链检测:收集真实的网页源码数据形成包含暗链和不包含暗链的两类数据的训练集,通过对检测页面的网页源码中的文本进行特征选择处理,然后结合训练集进行二分判定。这种方法对样本数据的分类过于粗糙,噪声影响较大,容易出现误报。例如,网络中存在一类医疗类别的暗链植入,这些链接的锚文本大多数为“牛皮癣”等医学术语,对于正例样本,医疗类网站应该会包含这类词汇,而对于负例样本,很多已探测的暗链也是医疗类别暗链植入,此时二分类的技术容易造成误判。此外,这种方法忽略了暗链的隐藏特性,很容易将一些明链(如“友情链接”)判定为暗链,造成误报。
发明内容
本发明的主要目的在于提出一种网页暗链检测方法、装置及计算机可读存储介质,旨在提高网页暗链检测的准确率。
为实现上述目的,本发明提供一种网页暗链检测方法,所述方法包括如下步骤:
获取预设网页分类模型的训练集,所述训练集中的网页根据所述网页分类模型被划分为表示不含有暗链的正例样本和表示含有暗链的负例样本,且所述正例样本和所述负例样本分别被划分为若干网页类型;
获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量;
基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量,并根据所述网页分类模型确定所述邻近向量对应的网页类型,作为所述待检测网页的候选网页类型;
分别计算所述待检测网页属于每个候选网页类型的概率;
判断概率最大值对应的候选网页类型属于所述正例样本还是所述负例样本,若属于所述负例样本,则判定所述待检测网页中含有暗链。
优选地,所述获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量的步骤包括:
获取待检测网页的文本特征集和所述训练集中的网页的文本特征集,其中,所述待检测网页的文本特征集和所述训练集中的网页的文本特征集包含相同的关键词;
根据所述关键词在所述待检测网页的文本特征集中的词频和权重进行计算,得到所述待检测网页的文本特征向量;
根据所述关键词在所述训练集中的网页的文本特征集中的词频和权重进行计算,得到所述训练集中的网页的文本特征向量。
优选地,所述获取待检测网页的文本特征集和所述训练集中的网页的文本特征集的步骤包括:
获取所述训练集中的网页的文本;
对获取到的所述文本进行分词和去停用词处理;
从处理结果中提取若干关键词,得到所述训练集中的网页的文本特征集;
将得到的所述训练集中的网页的文本特征集作为所述待检测网页的文本特征集。
优选地,所述基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量的步骤包括:
根据获取到的所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量,计算所述待检测网页与所述训练集中的网页的文本相似度;
若计算得到的所述文本相似度大于或等于预设阈值,则将对应的所述训练集中的网页的文本特征向量作为所述待检测网页的文本特征向量的邻近向量。
优选地,所述根据获取到的所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量,计算所述待检测网页与所述训练集中的网页的文本相似度的步骤包括:
计算所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量之间的夹角的余弦值;
将计算结果作为所述待检测网页和所述训练集中的网页的文本相似度。
优选地,所述分别计算所述待检测网页属于每个候选网页类型的概率的步骤包括:
基于所述候选网页类型将计算得到的所述文本相似度进行划分;
分别计算每个候选网页类型下的文本相似度的平均值,作为所述待检测网页属于对应候选网页类型的概率。
优选地,所述获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量的步骤之前,还包括:
通过爬虫程序定时爬取预设的待检测网页;
或者,当侦测到网络访问请求时,将所述网络访问请求的响应网页作为待检测网页。
优选地,所述方法还包括:
将所述待检测网页作为负例样本保存至所述训练集中。
此外,为实现上述目的,本发明还提供一种网页暗链检测装置,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页暗链检测程序,所述网页暗链检测程序被所述处理器执行时实现如上所述的网页暗链检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网页暗链检测程序,所述网页暗链检测程序被处理器执行时实现如上所述的网页暗链检测方法的步骤。
本发明提出的一种网页暗链检测方法、装置及计算机可读存储介质,通过建立包含有若干网页类型的网页分类模型,相对于现有的二分类机器学习技术提高了训练集中网页样本的分类粒度,同时,引入邻近算法从训练集中确定候选网页类型,很大程度排除了训练集中的误差项,从而提高了网页暗链检测的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明网页暗链检测方法第一实施例的流程示意图;
图3为本发明网页暗链检测方法第二实施例的流程示意图;
图4为图3中步骤S21的细化步骤示意图;
图5为图3中步骤S40的细化步骤示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取预设网页分类模型的训练集,所述训练集中的网页根据所述网页分类模型被划分为表示不含有暗链的正例样本和表示含有暗链的负例样本,且所述正例样本和所述负例样本分别被划分为若干网页类型;获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量;基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量,并根据所述网页分类模型确定所述邻近向量对应的网页类型,作为所述待检测网页的候选网页类型;分别计算所述待检测网页属于每个候选网页类型的概率;判断概率最大值对应的候选网页类型属于所述正例样本还是所述负例样本,若属于所述负例样本,则判定所述待检测网页中含有暗链。
本发明通过建立包含有若干网页类型的网页分类模型,相对于现有的二分类机器学习技术提高了训练集中网页样本的分类粒度,同时,引入邻近算法从训练集中确定候选网页类型,很大程度排除了训练集中的误差项,从而提高了网页暗链检测的准确率。
本发明提供一种网页暗链检测方法。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
优选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及网页暗链检测程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的网页暗链检测程序,并执行以下操作:
获取预设网页分类模型的训练集,所述训练集中的网页根据所述网页分类模型被划分为表示不含有暗链的正例样本和表示含有暗链的负例样本,且所述正例样本和所述负例样本分别被划分为若干网页类型;
获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量;
基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量,并根据所述网页分类模型确定所述邻近向量对应的网页类型,作为所述待检测网页的候选网页类型;
分别计算所述待检测网页属于每个候选网页类型的概率;
判断概率最大值对应的候选网页类型属于所述正例样本还是所述负例样本,若属于所述负例样本,则判定所述待检测网页中含有暗链。
进一步地,处理器1001可以调用存储器1005中存储的网页暗链检测程序,还执行以下操作:
获取待检测网页的文本特征集和所述训练集中的网页的文本特征集,其中,所述待检测网页的文本特征集和所述训练集中的网页的文本特征集包含相同的关键词;
根据所述关键词在所述待检测网页的文本特征集中的词频和权重进行计算,得到所述待检测网页的文本特征向量;
根据所述关键词在所述训练集中的网页的文本特征集中的词频和权重进行计算,得到所述训练集中的网页的文本特征向量。
进一步地,处理器1001可以调用存储器1005中存储的网页暗链检测程序,还执行以下操作:
获取所述训练集中的网页的文本;
对获取到的所述文本进行分词和去停用词处理;
从处理结果中提取若干关键词,得到所述训练集中的网页的文本特征集;
将得到的所述训练集中的网页的文本特征集作为所述待检测网页的文本特征集。
进一步地,处理器1001可以调用存储器1005中存储的网页暗链检测程序,还执行以下操作:
根据获取到的所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量,计算所述待检测网页与所述训练集中的网页的文本相似度;
若计算得到的所述文本相似度大于或等于预设阈值,则将对应的所述训练集中的网页的文本特征向量作为所述待检测网页的文本特征向量的邻近向量。
进一步地,处理器1001可以调用存储器1005中存储的网页暗链检测程序,还执行以下操作:
计算所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量之间的夹角的余弦值;
将计算结果作为所述待检测网页和所述训练集中的网页的文本相似度。
进一步地,处理器1001可以调用存储器1005中存储的网页暗链检测程序,还执行以下操作:
基于所述候选网页类型将计算得到的所述文本相似度进行划分;
分别计算每个候选网页类型下的文本相似度的平均值,作为所述待检测网页属于对应候选网页类型的概率。
进一步地,处理器1001可以调用存储器1005中存储的网页暗链检测程序,还执行以下操作:
通过爬虫程序定时爬取预设的待检测网页;
或者,当侦测到网络访问请求时,将所述网络访问请求的响应网页作为待检测网页。
进一步地,处理器1001可以调用存储器1005中存储的网页暗链检测程序,还执行以下操作:
将所述待检测网页作为负例样本保存至所述训练集中。
基于上述硬件结构,提出本发明网页暗链检测方法实施例。
参照图2,图2为本发明网页暗链检测方法第一实施例的流程示意图,所述方法包括:
步骤S10,获取预设网页分类模型的训练集,所述训练集中的网页根据所述网页分类模型被划分为表示不含有暗链的正例样本和表示含有暗链的负例样本,且所述正例样本和所述负例样本分别被划分为若干网页类型;
在本实施例中,可由设置在Web浏览器和Web服务器之间的应用防火墙进行网页暗链检测。
为保证本发明正常实施,需预先设置一个网页分类模型以对互联网网页进行类别划分,在该模型下,互联网网页被划分为含有暗链的网页和不含有暗链的网页两大类,在这两大类下互联网网页又被划分为若干不同的网页类型。比如,含有暗链的网页类型包括网游外挂、医疗广告、色情赌博、办证培训、商业广告等,不含有暗链的网页类型包括正常的游戏咨询网页、医疗机构网页、高校主页、购物网页、新闻咨询网页等,其中,划分的具体网页类型和划分粒度可根据实际需要进行灵活设置。
在进行网页暗链检测时,首先,获取网页分类模型的训练集,即根据网页分类模型获取若干网页样本作为网页分类模型的训练集。可以理解的是,上述网页分类模型的训练集中的网页可以划分为正例样本和负例样本,其中,正例样本表示不含有暗链的网页样本,负例样本表示含有暗链的网页样本,且正例样本和负例样本又分别可以划分为若干网页类型。
步骤S20,获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量;
该步骤中,应用防火墙获取待检测网页的文本特征向量和训练集中的每个网页的文本特征向量,从而建立向量空间模型。
向量空间模型中存在多个文本特征向量,其中,文本(Document,用D表示)泛指各种机器可读的记录,特征项(Term,用T表示)是指出现在文本D中且能够代表该文本内容的基本语言单位,主要是由词或者短语构成。文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=n,例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以以特征向量D(a,b,c,d)进行表示。
对于一个网页,其初始文本可以是该网页的网页源码数据,通过对网页源码数据进行预处理和特征提取,再将特征进行向量化,即可得到该网页的文本特征向量。
步骤S30,基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量,并根据所述网页分类模型确定所述邻近向量对应的网页类型,作为所述待检测网页的候选网页类型;
该步骤中,邻近算法又称K-NN(k-Nearest Neighbor)算法或K-邻近算法,K-NN算法的核心思想是:如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别中样本的特性。根据这个思想,利用K-NN算法可以从训练集中选取若干个与待检测网页的文本特征向量相似的网页的文本特征向量,作为该待检测网页的文本特征向量的邻近向量,然后根据预先设置的网页分类模型可以确定邻近向量的对应的网页类型,该网页类型可以作为待检测网页的候选网页类型。
比如,预先设置的网页分类模型的训练集中收录的样本包括网游外挂C1、商业广告C2两类负例样本和游戏资讯网页C3、新闻资讯网页C4两类正例样本,针对一个待检测网页的文本特征向量,通过K-NN算法从训练集中找到了K个与之邻近的向量,然后按照预先设置的网页分类模型,可以确定这K个邻近向量对应的网页属于C1、C2或C3类,则此时应将C1、C2和C3类作为该待检测网页的候选网页类型,而C4类则作为噪声排除,对应地,此时待检测网页的网页类型可能为网游外挂、商业广告或游戏资讯网页。
步骤S40,分别计算所述待检测网页属于每个候选网页类型的概率;
在得到待检测网页的候选网页类型后,再分别计算待检测网页属于每个候选网页类型的概率。
作为一种实施方式,可以根据属于某一类的邻近向量的数量得到待检测网页属于该类的概率。具体地,可以统计上述K个邻近向量分别属于C1、C2和C3类的数量,比如,在K个邻近向量中,若有k1个属于C1类,k2个属于C2类,k3个属于C3类,且k1>k2>k3,则可以判定待检测网页属于C1类的概率最大。
步骤S50,判断概率最大值对应的候选网页类型属于所述正例样本还是所述负例样本,若属于所述负例样本,则判定所述待检测网页中含有暗链。
在进行上述概率计算后,取概率最大值对应的候选网页类型作为待检测网页的网页类型,然后判断该网页类型属于正例样本还是负例样本,若属于负例样本,则判定待检测网页中含有暗链,若属于正例样本,则判定待检测网页中不含有暗链。比如,上述待检测网页属于C1类的概率最大,而C1类为网游外挂类网页,属于含有暗链的负例样本,此时可以判定待检测网页中也含有暗链,由此实现了对待检测网页暗链的检测。
需要说明的是,为使网页的最终判定结果更加准确,减少误报、漏报的情况发生,本实施例还可以结合现有的修正技术(如结合黑白名单特征库)对上述已经进行判定的网页进行进一步检测判定,具体实施例时可进行灵活设置。
本实施例提出的一种网页暗链检测方法,通过建立包含有若干网页类型的网页分类模型,相对于现有的二分类机器学习技术提高了训练集中网页样本的分类粒度,同时,引入邻近算法从训练集中确定候选网页类型,很大程度排除了训练集中的误差项,从而提高了网页暗链检测的准确率。
进一步地,参照图3,图3为本发明网页暗链检测方法第二实施例的流程示意图。基于上述图2所示的实施例,步骤S20可以包括:
步骤S21,获取待检测网页的文本特征集和所述训练集中的网页的文本特征集,其中,所述待检测网页的文本特征集和所述训练集中的网页的文本特征集包含相同的关键词;
步骤S22,根据所述关键词在所述待检测网页的文本特征集中的词频和权重进行计算,得到所述待检测网页的文本特征向量;
步骤S23,根据所述关键词在所述训练集中的网页的文本特征集中的词频和权重进行计算,得到所述训练集中的网页的文本特征向量。
在本实施例中,以文本特征向量中的特征项为关键词进行说明。首先,获取待检测网页的文本特征集和训练集中的网页的文本特征集,为保证这两个文本特征集具有可比性,这两个文本特征集包含相同的关键词。比如,获取训练集中的网页的文本特征集为D(T1,T2,…,Tm),则获取待检测网页的文本特征集也应该为D(T1,T2,…,Tm),其中T1,T2,…,Tm为特征项,即关键词,m为关键词的数量。
在获取到关键词后,再根据关键词的词频和权重分别进行计算,得到待检测网页的文本特征向量和训练集中的网页的文本特征向量。作为一种实施方式,可通过TF-IDF(term frequency–inverse document frequency,词频--逆向文本频率)技术计算得到文本特征向量,其原理为:词频计算参照TF公式TF=N/M,即在在一篇M个词的文章中有N个该关键词,则TF=N/M为该关键词在这篇文章中的词频;逆向文本频率是用于衡量关键词权重的指数,可由公式IDF=log(D/Dw)计算而得,其中D为语料库的文档总数,Dw为关键词出现过的文档数,Dw越大,说明该关键词在越多的文档中出现过,该关键词就越不足以成为本文档的区别特征项,因而其权重越小。计算基于IDF的加权词频,即用关键词Tx的词频乘以Tx的逆向文本频率(Wx=TF(Tx)*IDF(Tx)),即可得到文本特征集D(T1,T2,…,Tm)对应的文本特征向量D(W1,W2,…,Wm)。
根据上述原理计算待检测网页的文本特征向量的过程为:获取待检测网页的文本Dk,根据关键词在Dk中出现的次数和Dk中词语总数计算各个关键词在Dk中的词频,再将计算得到的词频基于IDF进行加权,最终得到待检测网页的文本特征向量Dk(Wk1,Wk2,…,Wkm)。同理,可以计算得到训练集中的每个网页的文本特征向量。
进一步地,参照图4,图4为图3中步骤S21的细化步骤示意图,所述步骤S21可以包括:
步骤S211,获取所述训练集中的网页的文本;
步骤S212,对获取到的所述文本进行分词和去停用词处理;
步骤S213,从处理结果中提取若干关键词,得到所述训练集中的网页的文本特征集;
步骤S214,将得到的所述训练集中的网页的文本特征集作为所述待检测网页的文本特征集。
以训练集中的一个网页为例,获取该网页的文本特征集的方式可以为:首先,获取该网页的文本,该文本可以是网页源码数据,然后,对获取到的文本进行分词和去停用词处理,分词是将一个文字序列切分成一个一个单独的词,去停用词是按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉,如“的,和,要,是,这”等词几乎出现在任何一篇中文文本中,但是它们对文本所表达的意思几乎没有任何贡献,将这些词设置在停用词表中,就可以根据停用词表将文本中这些没有实际意义的词去掉。由此,得到了该网页文本的预处理结果。
之后,可以计算预处理结果中的词语的词频,若某词语的词频达到一预设值,则将该词语作为文本关键词,由此提取文本的所有关键词,进而得到网页的文本特征集D(T1,T2,…,Tm),该文本特征集同时作为待检测网页的文本特征集。
进一步地,基于上述图3所示的本发明网页暗链检测方法第二实施例,提出本发明网页暗链检测方法第三实施例。
在本实施例中,所述基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量的步骤可以包括:
步骤S31,根据获取到的所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量,计算所述待检测网页与所述训练集中的网页的文本相似度;
步骤S32,若计算得到的所述文本相似度大于或等于预设阈值,则将对应的所述训练集中的网页的文本特征向量作为所述待检测网页的文本特征向量的邻近向量。
本实施例通过K-NN算法计算待检测网页与训练集中的网页的文本相似度,进而确定待检测网页的文本特征向量的邻近向量。作为一种实施方式,上述步骤S31可以包括:
步骤S311,计算所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量之间的夹角的余弦值;
步骤S312,将计算结果作为所述待检测网页和所述训练集中的网页的文本相似度。
设训练集中某一网页的文本特征向量为D0(W01,W02,…,W0m),待检测网页的文本特征向量为Dk(Wk1,Wk2,…,Wkm),则待检测网页和训练集中的该网页的文本相似度的计算公式为:
其中,x表示待检测网页样本,xi表示训练集中的第i个网页样本,θ表示向量Dk和D0的夹角。
将上述余弦值作为待检测网页和训练集中的第i个网页的文本相似度值,该值越大,则θ越小,表示待检测网页与训练集中的第i个网页的文本相似度越高;该值越小,则θ越大,表示待检测网页与训练集中的第i个网页的文本相似度越低。由此可以计算待检测网页与训练集中的每个网页的文本相似度。
本实施例通过计算待检测网页的文本特征向量与训练集中的网页的文本特征向量之间的夹角的余弦值,能够实现定量分析待检测网页和训练集中的网页的文本相似度,分析方式较为合理可靠。当然,计算文本相似度并不限于上述算法,比如,还可以计算向量待检测网页的文本特征向量与训练集中的网页的文本特征向量之间的欧式距离作为文本相似度的衡量标准等,具体实施时可进行灵活设置。
进一步地,基于本发明网页暗链检测方法第三实施例,提出本发明网页暗链检测方法第四实施例。
参照图5,图5为图3中步骤S40的细化步骤示意图。基于本发明网页暗链检测方法第三实施例,步骤S40可以包括:
步骤S41,基于所述候选网页类型将计算得到的所述文本相似度进行划分;
步骤S42,分别计算每个候选网页类型下的文本相似度的平均值,作为所述待检测网页属于对应候选网页类型的概率。
在本实施例中,在计算所述待检测网页属于每个候选网页类型的概率时,首先基于预设候选网页类型将之前计算得到的若干个文本相似度进行划分,然后分别计算每个候选网页类型下的文本相似度的平均值,作为待检测网页属于对应候选网页类型的概率。具体地,计算待检测网页属于某一候选网页类型ci的概率可参照如下公式:
其中,x表示待检测网页样本,xi表示训练集中的第i个网页样本,ci表示knn模型中的第i个候选类,Sim(x,xi)表示样本x和xi的相似度,xi∈knn表示样本xi属于knn模型中的某一候选类,y(xi,ci)为类别归属函数,取值范围为0或1(当xi属于ci时取1,当xi不属于ci时取0),ki表示训练集中属于ci类别的样本个数。
比如,在K个邻近向量中有k1个向量属于C1类,则将之前计算得到的k1个文本相似度取平均值,即得到待检测网页属于C1类的概率。
进一步地,基于上述图2所示的实施例,在步骤S10之前,还可以包括:
步骤S60,通过爬虫程序定时爬取预设的待检测网页;
或者步骤S70,当侦测到网络访问请求时,将所述网络访问请求的响应网页作为待检测网页。
获取待检测网页的方式包括主动获取和被动获取。主动获取即通过爬虫程序定时爬取预设网页并获取网页内容,其中,爬虫程序的抓取目标可以为与某一特定主题内容相关的网页,也可以根据需要扩大抓取范围,具体实施中可由网络管理人员预先进行设置;被动获取即在侦测到网络访问请求时,将该网络访问请求的响应网页作为待检测网页,这样,当用户访问网站的流量通过应用防火墙时,就可以实时检测出用户当前访问的网页是否存在暗链。
主动获取无需人工干预,且可以进行远程的大规模检测,而被动获取则实现了网页暗链检测的实时性。
进一步地,在步骤S50之后,还可以包括:
步骤S80,将所述待检测网页作为负例样本保存至所述训练集中。
若待检测网页被判定为含有暗链,则可将该待检测网页进行标记,并作为负例样本保存至网页分类模型的训练集中,若待检测网页被判定为不含有暗链若训练集中的样本,则可将待检测网页作为正例样本保存至网页分类模型的训练集中,如此将使得网页分类模型的训练集更为优化,为后续检测网页暗链的准确性提供了保证。
本发明还提供一种网页暗链检测装置。
本发明网页暗链检测装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页暗链检测程序,所述网页暗链检测程序被所述处理器执行时实现如上所述的网页暗链检测方法的步骤。
其中,在所述处理器上运行的网页暗链检测程序被执行时所实现的方法可参照本发明网页暗链检测方法各个实施例,此处不再赘述。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有网页暗链检测程序,所述网页暗链检测程序被处理器执行时实现如上所述的网页暗链检测方法的步骤。
其中,在所述处理器上运行的网页暗链检测程序被执行时所实现的方法可参照本发明网页暗链检测方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种网页暗链检测方法,其特征在于,所述方法包括如下步骤:
获取预设网页分类模型的训练集,所述训练集中的网页根据所述网页分类模型被划分为表示不含有暗链的正例样本和表示含有暗链的负例样本,且所述正例样本和所述负例样本分别被划分为若干网页类型;
获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量;
基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量,并根据所述网页分类模型确定所述邻近向量对应的网页类型,作为所述待检测网页的候选网页类型;
分别计算所述待检测网页属于每个候选网页类型的概率;
判断概率最大值对应的候选网页类型属于所述正例样本还是所述负例样本,若属于所述负例样本,则判定所述待检测网页中含有暗链。
2.如权利要求1所述的方法,其特征在于,所述获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量的步骤包括:
获取待检测网页的文本特征集和所述训练集中的网页的文本特征集,其中,所述待检测网页的文本特征集和所述训练集中的网页的文本特征集包含相同的关键词;
根据所述关键词在所述待检测网页的文本特征集中的词频和权重进行计算,得到所述待检测网页的文本特征向量;
根据所述关键词在所述训练集中的网页的文本特征集中的词频和权重进行计算,得到所述训练集中的网页的文本特征向量。
3.如权利要求2所述的方法,其特征在于,所述获取待检测网页的文本特征集和所述训练集中的网页的文本特征集的步骤包括:
获取所述训练集中的网页的文本;
对获取到的所述文本进行分词和去停用词处理;
从处理结果中提取若干关键词,得到所述训练集中的网页的文本特征集;
将得到的所述训练集中的网页的文本特征集作为所述待检测网页的文本特征集。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量的步骤包括:
根据获取到的所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量,计算所述待检测网页与所述训练集中的网页的文本相似度;
若计算得到的所述文本相似度大于或等于预设阈值,则将对应的所述训练集中的网页的文本特征向量作为所述待检测网页的文本特征向量的邻近向量。
5.如权利要求4所述的方法,其特征在于,所述根据获取到的所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量,计算所述待检测网页与所述训练集中的网页的文本相似度的步骤包括:
计算所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量之间的夹角的余弦值;
将计算结果作为所述待检测网页和所述训练集中的网页的文本相似度。
6.如权利要求5所述的方法,其特征在于,所述分别计算所述待检测网页属于每个候选网页类型的概率的步骤包括:
基于所述候选网页类型将计算得到的所述文本相似度进行划分;
分别计算每个候选网页类型下的文本相似度的平均值,作为所述待检测网页属于对应候选网页类型的概率。
7.如权利要求1所述的方法,其特征在于,所述获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量的步骤之前,还包括:
通过爬虫程序定时爬取预设的待检测网页;
或者,当侦测到网络访问请求时,将所述网络访问请求的响应网页作为待检测网页。
8.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述待检测网页作为负例样本保存至所述训练集中。
9.一种网页暗链检测装置,其特征在于,所述网页暗链检测装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网页暗链检测程序,所述网页暗链检测程序被所述处理器执行时实现如权利要求1至8中任一项所述的网页暗链检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有网页暗链检测程序,所述网页暗链检测程序被处理器执行时实现如权利要求1至8中任一项所述的网页暗链检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710316339.6A CN107273416B (zh) | 2017-05-05 | 2017-05-05 | 网页暗链检测方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710316339.6A CN107273416B (zh) | 2017-05-05 | 2017-05-05 | 网页暗链检测方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107273416A true CN107273416A (zh) | 2017-10-20 |
CN107273416B CN107273416B (zh) | 2021-05-04 |
Family
ID=60073737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710316339.6A Active CN107273416B (zh) | 2017-05-05 | 2017-05-05 | 网页暗链检测方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273416B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784107A (zh) * | 2017-10-31 | 2018-03-09 | 杭州安恒信息技术有限公司 | 基于逃逸行为分析的暗链检测方法及装置 |
CN107908764A (zh) * | 2017-11-27 | 2018-04-13 | 杭州安恒信息技术有限公司 | 一种固定发布内容的外链监测方法 |
CN108804627A (zh) * | 2018-05-31 | 2018-11-13 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
CN109165529A (zh) * | 2018-08-14 | 2019-01-08 | 杭州安恒信息技术股份有限公司 | 一种暗链篡改检测方法、装置和计算机可读存储介质 |
CN109191167A (zh) * | 2018-07-17 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 一种目标用户的挖掘方法和装置 |
CN109784038A (zh) * | 2018-12-29 | 2019-05-21 | 北京奇安信科技有限公司 | 黑链检测方法、装置、系统和计算机可读存储介质 |
CN110929257A (zh) * | 2019-10-30 | 2020-03-27 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
CN113806732A (zh) * | 2020-06-16 | 2021-12-17 | 深信服科技股份有限公司 | 一种网页篡改检测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN103207893A (zh) * | 2013-03-13 | 2013-07-17 | 北京工业大学 | 基于向量组映射的两类文本的分类方法 |
CN104239485A (zh) * | 2014-09-05 | 2014-12-24 | 中国科学院计算机网络信息中心 | 一种基于统计机器学习的互联网暗链检测方法 |
CN105281973A (zh) * | 2015-08-07 | 2016-01-27 | 南京邮电大学 | 一种针对特定网站类别的网页指纹识别方法 |
CN105426426A (zh) * | 2015-11-04 | 2016-03-23 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
-
2017
- 2017-05-05 CN CN201710316339.6A patent/CN107273416B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930063A (zh) * | 2012-12-05 | 2013-02-13 | 电子科技大学 | 一种基于特征项选择与权重计算的文本分类方法 |
CN103207893A (zh) * | 2013-03-13 | 2013-07-17 | 北京工业大学 | 基于向量组映射的两类文本的分类方法 |
CN104239485A (zh) * | 2014-09-05 | 2014-12-24 | 中国科学院计算机网络信息中心 | 一种基于统计机器学习的互联网暗链检测方法 |
CN105281973A (zh) * | 2015-08-07 | 2016-01-27 | 南京邮电大学 | 一种针对特定网站类别的网页指纹识别方法 |
CN105426426A (zh) * | 2015-11-04 | 2016-03-23 | 北京工业大学 | 一种基于改进的K-Medoids的KNN文本分类方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784107B (zh) * | 2017-10-31 | 2020-06-30 | 杭州安恒信息技术股份有限公司 | 基于逃逸行为分析的暗链检测方法及装置 |
CN107784107A (zh) * | 2017-10-31 | 2018-03-09 | 杭州安恒信息技术有限公司 | 基于逃逸行为分析的暗链检测方法及装置 |
CN107908764A (zh) * | 2017-11-27 | 2018-04-13 | 杭州安恒信息技术有限公司 | 一种固定发布内容的外链监测方法 |
CN107908764B (zh) * | 2017-11-27 | 2021-06-22 | 杭州安恒信息技术股份有限公司 | 一种固定发布内容的外链监测方法 |
CN108804627A (zh) * | 2018-05-31 | 2018-11-13 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
CN108804627B (zh) * | 2018-05-31 | 2021-04-06 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
CN109191167A (zh) * | 2018-07-17 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 一种目标用户的挖掘方法和装置 |
CN109165529A (zh) * | 2018-08-14 | 2019-01-08 | 杭州安恒信息技术股份有限公司 | 一种暗链篡改检测方法、装置和计算机可读存储介质 |
CN109784038A (zh) * | 2018-12-29 | 2019-05-21 | 北京奇安信科技有限公司 | 黑链检测方法、装置、系统和计算机可读存储介质 |
CN110929257A (zh) * | 2019-10-30 | 2020-03-27 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
CN110929257B (zh) * | 2019-10-30 | 2022-02-01 | 武汉绿色网络信息服务有限责任公司 | 一种网页中携带恶意代码的检测方法和装置 |
CN113806732A (zh) * | 2020-06-16 | 2021-12-17 | 深信服科技股份有限公司 | 一种网页篡改检测方法、装置、设备及存储介质 |
CN113806732B (zh) * | 2020-06-16 | 2023-11-03 | 深信服科技股份有限公司 | 一种网页篡改检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107273416B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273416A (zh) | 网页暗链检测方法、装置及计算机可读存储介质 | |
Boididou et al. | Verifying information with multimedia content on twitter: a comparative study of automated approaches | |
CN103544436B (zh) | 一种钓鱼网站鉴别系统和方法 | |
CN101826105B (zh) | 基于匈牙利匹配算法的钓鱼网页检测方法 | |
US20210034819A1 (en) | Method and device for identifying a user interest, and computer-readable storage medium | |
CN103605794B (zh) | 一种网站分类方法 | |
US9152723B2 (en) | Method and apparatus for providing internet service in mobile communication terminal | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
US7739221B2 (en) | Visual and multi-dimensional search | |
US8856129B2 (en) | Flexible and scalable structured web data extraction | |
CN108965245A (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
US20080005105A1 (en) | Visual and multi-dimensional search | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
WO2021169347A1 (zh) | 提取文本关键字的方法及装置 | |
CN109471945A (zh) | 基于深度学习的医疗文本分类方法、装置及存储介质 | |
US20180268307A1 (en) | Analysis device, analysis method, and computer readable storage medium | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
Im et al. | Linked tag: image annotation using semantic relationships between image tags | |
CN112104642B (zh) | 一种异常账号确定方法和相关装置 | |
CN107438083B (zh) | 一种Android环境下钓鱼网站检测方法及其检测系统 | |
CN109922065A (zh) | 恶意网站快速识别方法 | |
KR20170131924A (ko) | 이미지 검색 방법, 장치 및 컴퓨터 프로그램 | |
CN109947858A (zh) | 一种数据处理的方法及装置 | |
CN114692593B (zh) | 一种网络信息安全监测预警方法 | |
CN103678320B (zh) | 网络信息的挖掘方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Web page dark chain detection method, device, and computer-readable storage medium Effective date of registration: 20231212 Granted publication date: 20210504 Pledgee: Shenzhen Branch of China Merchants Bank Co.,Ltd. Pledgor: SANGFOR TECHNOLOGIES Inc. Registration number: Y2023980070863 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |