CN110851826B - 一种篡改页面的检测方法、装置、设备及可读存储介质 - Google Patents
一种篡改页面的检测方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN110851826B CN110851826B CN201810866023.9A CN201810866023A CN110851826B CN 110851826 B CN110851826 B CN 110851826B CN 201810866023 A CN201810866023 A CN 201810866023A CN 110851826 B CN110851826 B CN 110851826B
- Authority
- CN
- China
- Prior art keywords
- black
- word
- page
- black word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种篡改页面的检测方法,在本方案中,为了减少误判,在对篡改页面进行检测时,不仅仅依靠页面中是否存在黑词来判断该页面是否为篡改页面,还需要利用页面中黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差来确定篡改判定值,只有当篡改判定值大于预先设定的篡改阈值时,才将页面判定为篡改页面,从而减少了误判率。本发明还公开了一种篡改页面的检测装置、设备及可读存储介质,同样能实现上述技术效果。
Description
技术领域
本发明涉及篡改页面检测技术领域,更具体地说,涉及一种篡改页面的检测方法、装置、设备及可读存储介质。
背景技术
目前,搜索引擎是网络用户查找网络信息,发现网络资源,寻找待购买的网络服务的重要入口。有研究指出搜索引擎引入的网络流量超过整个互联网通信流量的60%。于是基于搜索引擎实现广告投递就成为大多数网络服务销售推广的重要手段。通过搜索引擎进行广告推广通常有(1)向搜索服务商购买关键词;(2)白帽SEO(Search EngineOptimization,搜索引擎优化);(3)黑帽SEO;三种手段。
其中,黑帽SEO是一种非法的网络营销手段,但因为利益驱使,中国的地下产业链常常利用黑客手段批量获取大量网络主机的控制权,其中不乏具有高PR值的网站主机,通过将高PR(Page Rank,页面等级)值的网站主机沦为SEO僵尸网络成员,通过批量篡改高PR值网站内容,实现黑帽SEO,从而为地下网络服务提供搜索引擎商业推广,为其客户快速赢得访问流量,谋取暴力。目前针对黑帽SEO导致篡改的网站内容检测通常基于如下几种手段:(1)网站页面文件内容变更检测;(2)黑词(或敏感词)检测;(3)基于深度学习技术检测;具体来说,在第二种手段中基于黑词或敏感词对篡改页面进行检测时,通常会定义一个黑词(或敏感词)表,当待检测的页面中出现黑词时,就进行告警,然而由于不同黑词在篡改页面中出现的概率不同,甚至有些被定义为黑词的短语在正常文本中也有一定出现概率,该方案也会导致误判很高。
因此,在利用黑词对篡改页面进行检测时,如何降低误判率是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种篡改页面的检测方法、装置、设备及可读存储介质,以降低利用黑词对篡改页面检测的误判率。
为实现上述目的,本发明实施例提供了如下技术方案:
一种篡改页面的检测方法,包括:
获取待检测页面内的页面内容;
利用预先构建的黑词库检测所述页面内容中的黑词,并统计每个黑词在所述页面内容中出现的次数;
根据所述黑词库,确定每个黑词的词频差,所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差;
利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,若所述篡改判定值大于预先设定的篡改阈值,则判定所述待检测页面为篡改页面。
其中,所述黑词库的构建方法包括:
检测黑样本中的目标分词在所述黑样本中出现的概率与所述目标分词在白样本中出现的概率之差,是否大于预定差异阈值;若是,则将所述目标分词添加至待审核黑词库;
计算所述待审核黑词库中每个待审核黑词在白样本中存在的概率M1,以及待审核黑词在黑样本中存在的概率M2,并根据审核值计算规则计算待审核黑词的审核值;
判断待审核黑词的审核值是否大于审核阈值;若是,则将待审核黑词加入原始黑词库;
其中,所述计算所述待审核黑词库中每个待审核黑词在白样本中存在的概率M1之前,还包括:
确定黑样本中的黑域名、黑IP及原始黑词;其中,所述原始黑词为待审核黑词库中的黑词,和/或,原始黑词库中的黑词;
将距离所述黑域名、黑IP及原始黑词的预定词距内的词语加入所述待审核黑词库。
其中,所述利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值之前,还包括:
检测所述页面内容中黑域名的数量;
则所述利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,包括:
利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值,确定所述待检测页面的篡改判定值。
其中,所述利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值,确定所述待检测页面的篡改判定值,包括:
利用篡改判定值确定规则,计算篡改判定值G;
其中,R为所述页面内容中黑域名的数量,L为黑域名篡改权值,M为黑词的总数量,Di为第i个黑词的词频差,Ci为第i个黑词在所述页面内容中出现的次数。
一种篡改页面的检测装置,包括:
页面内容获取模块,用于获取待检测页面内的页面内容;
黑词检测模块,用于利用预先构建的黑词库检测所述页面内容中的黑词;
次数统计模块,用于统计每个黑词在所述页面内容中出现的次数;
词频差确定模块,用于根据所述黑词库,确定每个黑词的词频差,所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差;
篡改页面判定模块,用于利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,若所述篡改判定值大于预先设定的篡改阈值,则判定所述待检测页面为篡改页面。
其中,所述检测装置还包括黑词库构建模块;所述黑词库构建模块包括:
第一待审核黑词库确定单元,用于检测黑样本中的目标分词在所述黑样本中出现的概率与所述目标分词在白样本中出现的概率之差,是否大于预定差异阈值;并将概率之差大于预定差异阈值的目标分词添加至待审核黑词库;
判断单元,用于判断待审核黑词的审核值是否大于审核阈值;
黑词添加单元,用于将审核值大于审核阈值的待审核黑词,加入原始黑词库。
其中,所述黑词库构建模块还包括第二待审核黑词库确定单元;
所述第二待审核黑词库确定单元,用于确定黑样本中的黑域名、黑IP及原始黑词;其中,所述原始黑词为待审核黑词库中的黑词,和/或,原始黑词库中的黑词;将距离所述黑域名、黑IP及原始黑词的预定词距内的词语加入所述待审核黑词库。
其中,所述检测装置还包括:
黑域名检测模块,用于检测所述页面内容中黑域名的数量;
则所述篡改页面判定模块具体用于:利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值,确定所述待检测页面的篡改判定值。
其中,所述篡改页面判定模块具体利用篡改判定值确定规则,计算篡改判定值G;
一种篡改页面的检测设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述篡改页面的检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述篡改页面的检测方法的步骤。
通过以上方案可知,本发明实施例提供的一种篡改页面的检测方法,包括:获取待检测页面内的页面内容;利用预先构建的黑词库检测所述页面内容中的黑词,并统计每个黑词在所述页面内容中出现的次数;根据所述黑词库,确定每个黑词的词频差,所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差;利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,若所述篡改判定值大于预先设定的篡改阈值,则判定所述待检测页面为篡改页面;
由于部分黑词在白样本中也有出现的概率,因此仅仅将出现黑词的页面判定为篡改页面,则会带来较高的误判;因此在本方案中,为了减少误判,在对篡改页面进行检测时,不仅仅依靠页面中是否存在黑词来判断该页面是否为篡改页面,还需要利用页面中黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差来确定篡改判定值,只有当篡改判定值大于预先设定的篡改阈值时,才将页面判定为篡改页面,从而减少了误判率。本发明还公开了一种篡改页面的检测装置、设备及可读存储介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种篡改页面的检测方法流程示意图;
图2为本发明实施例公开的另一种篡改页面的检测方法流程示意图;
图3为本发明实施例公开的黑词收集示意图;
图4为本发明实施例公开的黑词库生成结构示意图;
图5为本发明实施例公开的一种篡改页面的检测装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种篡改页面的检测方法、装置、设备及可读存储介质,以降低利用黑词对篡改页面检测的误判率。
参见图1,本发明实施例提供的一种篡改页面的检测方法,包括:
S101、获取待检测页面内的页面内容;
具体的,本实施例中的页面内容具体是指待检测页面中需要检测的内容,例如:图片内容、文本内容等信息。由于本方案是通过黑词库中的黑词对待检测页面进行篡改检测,所以如果页面内容是图片内容,则需要通过文字识别技术识别图片内容中的文字内容。
S102、利用预先构建的黑词库检测所述页面内容中的黑词,并统计每个黑词在所述页面内容中出现的次数;
具体的,本实施例中黑词库中的黑词,为对已经确认为不法内容的黑样本分词处理后,根据分词的词频等信息提取的。本方案首先需要对页面内容进行分词处理,得到每个分词在该页面内容中出现的次数,例如表1所示,为对页面内容进行分词处理后得到的分词:Word1、Word2、Word3等,以及与每个分词相对应的在页面内容中出现的次数:N1、N2、N3等,将该列表记为TBL1。
表1
Word1 | N1 |
Word2 | N2 |
Word3 | N3 |
Word4 | N4 |
... | ... |
进一步,需要利用黑词库中的黑词对页面内容中的分词进行对比,从而识别所述页面内容中的黑词,并统计每个黑词在所述页面内容中出现的次数。在本实施例中,黑词出现的次数用C标识,如果黑词的数量为N,那么从表1中查询每个黑词在文本中出现的次数分别为:C1,C2,...CN。
需要说明的是,在将页面内容中的黑词与黑词库中的黑词进行对比时,由于黑词库中的黑词数量较多,这时可以选取一定数量的黑词与页面内容中的分词进行对比,从而减少时间的消耗。具体来说,在从黑词库中选取黑词时,可以按照一定的规则进行选取。例如:选取使用频率较高的黑词,选取优先级较高的黑词,或者选取在黑词文本中出现频率较高的黑词等。
需要说明的是,本实施例所述的黑词库和白词库中的每一条记录,都有三部分:(1)词;(2)该词在对应大样本中出现的统计概率;(3)该词在白样本和黑样本中统计概率之差的绝对值;比如黑词库中的一条记录,将会是一个黑词BlackWord、这个黑词在黑样本(即篡改页面样本)中存在的概率BlackStats、这个黑词在黑样本和白样本中统计的概率之差的绝对值Diff,当该黑词在白样本中从未出现时,Diff==BlackStats。即黑词库中有三列数据:BlackWord|BlackStats|Diff,并且为了方便选取黑词,黑词库在每次更新完后,都需要进行自动整理阶段,按照所有黑词的Diff值从大到小的顺序,对黑词库中的黑词进行重新排序。
因此在本方案中,选取一定数量的黑词识别页面内容中的黑词时,可以按照黑词库中Diff值的从大到小的顺序,选取黑词库排名前H个的黑词与页面内容中的分词进行求交集操作,从而得到页面内容中存在的黑词集合,也就是页面内容中存在的全部黑词的一个子集,子集中的黑词数量为N,黑词集合为:Blk_Word1,Blk_Word2,...Blk_WordN。
S103、根据所述黑词库,确定每个黑词的词频差,所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差;
本实施例中的词频差即为黑词Diff,即该词在白样本和黑样本中统计概率之差的绝对值。由于黑词库本身便记载了每个黑词的Diff值,即每个黑词的词频差,因此在S102中确定页面内容中的黑词后,便可从黑词库中直接确定每个黑词的词频差,由于词频差是与每个黑词相对应的,因此便会确定N个词频差,即:D1,D2,...DN。
S104、利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,若所述篡改判定值大于预先设定的篡改阈值,则判定所述待检测页面为篡改页面。
在对待检测页面进行篡改判定时,需要依据上述获得的N个黑词的出现次数C1,C2,...CN,N个黑词的词频差D1,D2,...DN进行确定。具体来说,在本实施例中可以通过如下篡改判定值确定规则来计算:
设定判定篡改所需的阈值为G0,因此计算出篡改判定值G后,若篡改判定值G与篡改阈值G0之间满足G>G0时,则判定待检测页面为篡改页面。
综上可以看出,本方案为了减少误判,在对篡改页面进行检测时,不仅仅依靠页面中是否存在黑词来判断该页面是否为篡改页面,还需要利用页面中黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差来确定篡改判定值,只有当篡改判定值大于预先设定的篡改阈值时,才将页面判定为篡改页面,从而减少了误判率。
参见图2,为本实施例提供的另一种篡改页面的检测方法,该方法包括:
S201、获取待检测页面内的页面内容;
S202、利用预先构建的黑词库检测所述页面内容中的黑词,并统计每个黑词在所述页面内容中出现的次数;
S203、根据所述黑词库,确定每个黑词的词频差,所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差;
S204、检测所述页面内容中黑域名的数量;
S205、利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值,确定所述待检测页面的篡改判定值;若所述篡改判定值大于预先设定的篡改阈值,则判定所述待检测页面为篡改页面。
需要说明的是,S201-S203与上一实施例中所述的S101-S103相对应,在此就不再具体赘述。并且,S201-S203与S204具体用于获取计算篡改判定值的参数,因此,本方案中S201-S204的执行顺序并不局限于本实施例所示的执行顺序,其他能实现本方案的执行顺序均可,例如:执行S204后再执行S201-S203,以及S205。
具体的,在本实施例中,判定待检测页面是否被篡改时,不仅仅考虑到黑词,还考虑到页面内容中存在的黑域名。如果该页面内容中存在黑域名,则说明待检测页面存在被篡改的风险,因为正常的页面中不能将黑域名添加在页面内容中,会带来访问黑域名的隐患。因此本方案在计算篡改判定值时,还需要检测页面内容中存在黑域名的数量R,并获取与黑域名对应的篡改权值L。所以本方案利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值,确定所述待检测页面的篡改判定值时,具体包括:
利用篡改判定值确定规则,计算篡改判定值G;
其中,R为所述页面内容中黑域名的数量,L为黑域名篡改权值,M为黑词的总数量,Di为第i个黑词的词频差,Ci为第i个黑词在所述页面内容中出现的次数。
需要说明的是,篡改判定值确定规则中的黑词的总数量M的取值范围为:0<M≤N,也就是说,检测出页面内容中的N个黑词后,在判定待检测页面是否为篡改页面时,可以根据实际应用情况从N个黑词中选取M个黑词进行判定,从而在保证降低误判率的基础上,减小计算工作量,缩短检测时间。
可以理解的是,本方案中的各项参数,例如:黑域名篡改权值L、篡改阈值G0等,均可以正在生产环境中根据需要进行灵活的调整。可见,在本实施例中,判定待检测页面是否被篡改时,不仅仅考虑到黑词的词频差,还需要考虑页面中存在的黑域名,通过两者综合来确定篡改判定值,当篡改判定值大于预先设定的篡改阈值时,才将页面判定为篡改页面,从而实现了对篡改页面的多角度检测,减少了误判率。
基于上述任意一项方法实施例,在本实施例中,提供了一种具体的黑词库的构建方法,该方法包括两个步骤,第一个步骤为黑词的收集,第二个步骤为黑词的审核及扩充:
在第一个步骤中,本实施例提供两种方式,包括:(1)自动收集,(2)人工收集。在自动收集时,需要满足如下两个预设条件或假定:
第1假定:当一个样本词汇量足够大时,其中黑词在黑样本(或称为篡改页面样本)中出现的概率高于在白样本(正常页面样本)中出现的概率;
第2假定:黑词常常出现在黑域名、黑IP或已定义的黑词附近;做出此假定的原因基于对大量黑样本(篡改页面样本)中黑词出现位置的经验判断。
基于上述两个假定,自动收集黑词的方法有两种:
方法1、检测黑样本中的目标分词在所述黑样本中出现的概率与所述目标分词在白样本中出现的概率之差,是否大于预定差异阈值;若是,则将所述目标分词添加至待审核黑词库;
具体的,本实施例中的黑样本为篡改页面样本,白样本为正常页面样本,这两个样本中均包含了大量的词汇,在本方法中,需要从黑样本中筛选黑词,以便对原始的黑词库进行更新补充。由于黑词在黑样本中出现的概率高于黑词在白样本中出现的概率,因此,本方案在黑样本进行分词处理后,需要检测黑样本中的每个分词在黑样本中出现的概率与在白样本中出现的概率之差是否大于预定差异阈值,如果超过差异阈值,则存入tempLib1中。
方法2、确定黑样本中的黑域名、黑IP及原始黑词;其中,所述原始黑词为待审核黑词库中的黑词,和/或,原始黑词库中的黑词;
将距离所述黑域名、黑IP及原始黑词的预定词距内的词语加入所述待审核黑词库。
需要说明的是,方法1和方法2可以单独执行其中任意一个方法,也可以两个方法均执行。如果只执行方法2,则方法2中的原始黑词便是原始黑词库中的黑词,如果两个方法均执行,那么原始黑词可以是原始黑词库中的黑词,可以是方法1中添加至tempLib1中的黑词,同样也可以是两者均是。本方案中的黑域名、黑IP及原始黑词库中的黑词均来源于持续安全运营过程中以及从威胁情报中搜集的历史数据。
通过对黑域名、黑IP或原始黑词周围的短语进行收集进一步获得潜在新的黑词;由于一个黑词可能在白样本及黑样本中同时存在,然而在黑样本中,该词往往和其他词构成一个在地下黑产特定场景中的短语,例如:“赛车”这个词,在白样本、黑样本中都存在,而假如其存在于短语“pk北京赛车”中,就基本可以判定是一个黑产在篡改页面中用到的黑词。本方案就目的就是基于概率异常的词发现此类黑产短语。
在本方案中,与黑域名、黑IP或原始黑词的预定距离D为可调参数;方法2自动收集黑词的过程如下:
Step1:筛查黑样本文本中符合域名、IP正则规则的文本,并与黑域名、黑IP库进行比对,从而确定其中黑域名或黑IP的位置;
Step2:对黑样本文本进行分词处理,并与原始黑词进行比对,从而确定其中黑词位置;
Step3:在黑样本文本中,对于距离黑域名、黑IP或原始黑词的词距为D以内的短语,检查其是否在原始黑词库中,如果不在原始黑词库中,则添加进入tempLib1;
参见图3,为本实施例提供的黑词收集示意图;从图3中可以看出,本方案中的预定词距D设置为3,在黑样本全文中发现了黑域名www.black_url_example.com,则将与此域名前后距离为3的单词都放入tempLib1;对于与黑词距离为D的短语的处理方式与此相同。
参见图4,为本实施例提供的黑词库生成结构示意图;其中的自动收集便是通过上述方法1和/或方法2对黑词进行收集,并加入tempLib1中。需要说明的是,为了避免自动收集的黑词存在误加入或者明显不属于黑词的情况,可以对加入tempLib1中的词进行人工审核,审核后加入缓存库tempLib2。进一步,本方案在自动收集黑词的基础上,添加人工收集的词语,本方案中人工收集过程,主要来源于专家对钓鱼站点、SEO站点、赌博、色情站点进行的人工识别收集;并将放入缓存库tempLib2,这时缓存库tempLib2中便存在通过两种方式获取的黑词,为了避免黑词重复,可以对缓存库tempLib2中进行去重处理。
在第二个步骤对黑词的审核及扩充时,具体包括如下步骤:
计算所述待审核黑词库中每个待审核黑词在白样本中存在的概率M1,以及待审核黑词在黑样本中存在的概率M2,并根据审核值计算规则计算待审核黑词的审核值;
判断待审核黑词的审核值是否大于审核阈值;若是,则将待审核黑词加入原始黑词库;
需要说明的是,本实施例中的待审核黑词库为上述去重后的缓存库tempLib2。对tempLib2中的词逐个进行下述自动审核,对于审核后通过的黑词,则放入黑词库BlackWordList,设定这个样本词为blk_sample。
Step1:检查原始黑词库中是否已经有这个词blk_sample,如果已经存在则丢弃;
Step2:自动词频分析,计算blk_sample在白样本中存在的概率,设定为M1;
Step3:通过词频分析,计算blk_sample在黑样本中存在的概率,设定为M2;
Step4:计算blk_sample的篡改权值差值M=|M1-M2|;注:计算这个差值M的目的在于,在人工黑词收集过程中,难免会误操作加入一些在黑、白样本都有出现,且出现概率都比较大的词,如果没有求差的过程,可能因为一个误输入的黑词样本,导致误判的陡增。
Step5:基于已经设定的审核阈值Gate,当2M/(M1+M2)>Gate时,将blk_sample放入黑词库;否则将blk_sample丢弃。注:对于2M/(M1+M2)≤Gate的情况代表blk_sample在白样本和黑样本中存在概率过于接近,不适于放入黑词库。
需要说明的是,由于白词库中每个词的记录包括该词在白样本中的概率,因此上文中获取黑词在白样本中的概率时,可以直接从白词库中获取。
综上可以看出,本方案通过对黑词的半自动收集和半自动审核的方式,在针对地下网络服务提供者黑帽SEO不断新创黑词或短语时,实现自动快速扩充黑词;并且,本方案基于黑白样本中黑词词频差异确定黑词对篡改判断的影响权值,降低误判,并允许黑词快速添加,快速形成针对包含新黑词的黑样本的检测能力。
下面对本发明实施例提供的检测装置进行介绍,下文描述的检测装置与上文描述的检测装置可以相互参照。
参见图5,本发明实施例提供的一种篡改页面的检测装置,包括:
页面内容获取模块100,用于获取待检测页面内的页面内容;
黑词检测模块200,用于利用预先构建的黑词库检测所述页面内容中的黑词;
次数统计模块300,用于统计每个黑词在所述页面内容中出现的次数;
词频差确定模块400,用于根据所述黑词库,确定每个黑词的词频差,所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差;
篡改页面判定模块500,用于利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,若所述篡改判定值大于预先设定的篡改阈值,则判定所述待检测页面为篡改页面。
其中,所述检测装置还包括黑词库构建模块;所述黑词库构建模块包括:
第一待审核黑词库确定单元,用于检测黑样本中的目标分词在所述黑样本中出现的概率与所述目标分词在白样本中出现的概率之差,是否大于预定差异阈值;并将概率之差大于预定差异阈值的目标分词添加至待审核黑词库;
判断单元,用于判断待审核黑词的审核值是否大于审核阈值;
黑词添加单元,用于将审核值大于审核阈值的待审核黑词,加入原始黑词库。
其中,所述黑词库构建模块还包括第二待审核黑词库确定单元;
所述第二待审核黑词库确定单元,用于确定黑样本中的黑域名、黑IP及原始黑词;其中,所述原始黑词为待审核黑词库中的黑词,和/或,原始黑词库中的黑词;将距离所述黑域名、黑IP及原始黑词的预定词距内的词语加入所述待审核黑词库。
其中,所述检测装置还包括:
黑域名检测模块,用于检测所述页面内容中黑域名的数量;
则所述篡改页面判定模块具体用于:利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值,确定所述待检测页面的篡改判定值。
其中,所述篡改页面判定模块具体利用篡改判定值确定规则,计算篡改判定值G;
本发明实施例还提供一种篡改页面的检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任意方法实施例所述篡改页面的检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例所述篡改页面的检测方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种篡改页面的检测方法,其特征在于,包括:
获取待检测页面内的页面内容;
利用预先构建的黑词库检测所述页面内容中的黑词,并统计每个黑词在所述页面内容中出现的次数;
根据所述黑词库,确定每个黑词的词频差,所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差;
利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,若所述篡改判定值大于预先设定的篡改阈值,则判定所述待检测页面为篡改页面;其中,所述篡改判定值是通过每个黑词的词频差与每个黑词在所述页面内容中出现的次数的乘积确定的。
3.根据权利要求2所述的检测方法,其特征在于,所述计算所述待审核黑词库中每个待审核黑词在白样本中存在的概率M1之前,还包括:
确定黑样本中的黑域名、黑IP及原始黑词;其中,所述原始黑词为待审核黑词库中的黑词,和/或,原始黑词库中的黑词;
将距离所述黑域名、黑IP及原始黑词的预定词距内的词语加入所述待审核黑词库。
4.根据权利要求1至3中任意一项所述的检测方法,其特征在于,所述利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值之前,还包括:
检测所述页面内容中黑域名的数量;
则所述利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,包括:
利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值,确定所述待检测页面的篡改判定值。
6.一种篡改页面的检测装置,其特征在于,包括:
页面内容获取模块,用于获取待检测页面内的页面内容;
黑词检测模块,用于利用预先构建的黑词库检测所述页面内容中的黑词;
次数统计模块,用于统计每个黑词在所述页面内容中出现的次数;
词频差确定模块,用于根据所述黑词库,确定每个黑词的词频差,所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差;
篡改页面判定模块,用于利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数,确定所述待检测页面的篡改判定值,若所述篡改判定值大于预先设定的篡改阈值,则判定所述待检测页面为篡改页面;其中,所述篡改判定值是通过每个黑词的词频差与每个黑词在所述页面内容中出现的次数的乘积确定的。
7.根据权利要求6所述的检测装置,其特征在于,所述检测装置还包括黑词库构建模块;所述黑词库构建模块包括:
第一待审核黑词库确定单元,用于检测黑样本中的目标分词在所述黑样本中出现的概率与所述目标分词在白样本中出现的概率之差,是否大于预定差异阈值;并将概率之差大于预定差异阈值的目标分词添加至待审核黑词库;
计算单元,用于计算所述待审核黑词库中每个待审核黑词在白样本中存在的概率M1,以及待审核黑词在黑样本中存在的概率M2,并根据审核值计算规则计算待审核黑词的审核值;其中,所述审核值计算规则为:
判断单元,用于判断待审核黑词的审核值是否大于审核阈值;
黑词添加单元,用于将审核值大于审核阈值的待审核黑词,加入原始黑词库。
8.根据权利要求7所述的检测装置,其特征在于,所述黑词库构建模块还包括第二待审核黑词库确定单元;
所述第二待审核黑词库确定单元,用于确定黑样本中的黑域名、黑IP及原始黑词;其中,所述原始黑词为待审核黑词库中的黑词,和/或,原始黑词库中的黑词;将距离所述黑域名、黑IP及原始黑词的预定词距内的词语加入所述待审核黑词库。
9.根据权利要求6至8中任意一项所述的检测装置,其特征在于,所述检测装置还包括:
黑域名检测模块,用于检测所述页面内容中黑域名的数量;
则所述篡改页面判定模块具体用于:利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值,确定所述待检测页面的篡改判定值。
11.一种篡改页面的检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述篡改页面的检测方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述篡改页面的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810866023.9A CN110851826B (zh) | 2018-08-01 | 2018-08-01 | 一种篡改页面的检测方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810866023.9A CN110851826B (zh) | 2018-08-01 | 2018-08-01 | 一种篡改页面的检测方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851826A CN110851826A (zh) | 2020-02-28 |
CN110851826B true CN110851826B (zh) | 2023-07-11 |
Family
ID=69594875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810866023.9A Active CN110851826B (zh) | 2018-08-01 | 2018-08-01 | 一种篡改页面的检测方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851826B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539028B (zh) * | 2020-04-23 | 2023-05-12 | 国网浙江省电力有限公司物资分公司 | 档案存储方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258050A (zh) * | 2013-05-27 | 2013-08-21 | 公安部第三研究所 | 实现基于语义内容进行视频信息过滤控制的系统及其方法 |
CN105359139A (zh) * | 2013-06-24 | 2016-02-24 | 日本电信电话株式会社 | 安全信息管理系统及安全信息管理方法 |
CN107016298A (zh) * | 2017-03-27 | 2017-08-04 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页篡改监测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7546334B2 (en) * | 2000-11-13 | 2009-06-09 | Digital Doors, Inc. | Data security system and method with adaptive filter |
-
2018
- 2018-08-01 CN CN201810866023.9A patent/CN110851826B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258050A (zh) * | 2013-05-27 | 2013-08-21 | 公安部第三研究所 | 实现基于语义内容进行视频信息过滤控制的系统及其方法 |
CN105359139A (zh) * | 2013-06-24 | 2016-02-24 | 日本电信电话株式会社 | 安全信息管理系统及安全信息管理方法 |
CN107016298A (zh) * | 2017-03-27 | 2017-08-04 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页篡改监测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110851826A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8630972B2 (en) | Providing context for web articles | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN107038173B (zh) | 应用查询方法和装置、相似应用检测方法和装置 | |
US9519718B2 (en) | Webpage information detection method and system | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
CN104158828B (zh) | 基于云端内容规则库识别可疑钓鱼网页的方法及系统 | |
CN110351248B (zh) | 一种基于智能分析和智能限流的安全防护方法及装置 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN107870945B (zh) | 内容分级方法和装置 | |
CN112532624B (zh) | 一种黑链检测方法、装置、电子设备及可读存储介质 | |
CN113609261B (zh) | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 | |
CN111988341B (zh) | 数据处理方法、装置、计算机系统和存储介质 | |
CN113849760A (zh) | 敏感信息风险评估方法、系统和存储介质 | |
CN110619075B (zh) | 一种网页识别方法与设备 | |
CN113328994A (zh) | 一种恶意域名处理方法、装置、设备及机器可读存储介质 | |
CN112990792B (zh) | 一种侵权风险自动化检测方法、装置和电子设备 | |
CN110851826B (zh) | 一种篡改页面的检测方法、装置、设备及可读存储介质 | |
KR20170060958A (ko) | 금융 사기 방지 방법 및 시스템 | |
CN113746952A (zh) | Dga域名检测方法、装置、电子设备及计算机存储介质 | |
CN107172033B (zh) | 一种waf误判识别方法以及装置 | |
CN109409091B (zh) | 检测Web页面的方法、装置、设备以及计算机存储介质 | |
CN105099996B (zh) | 网站验证方法及装置 | |
CN111813964B (zh) | 基于生态环境的数据处理方法及相关设备 | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 | |
CN115114676A (zh) | 一种远程网页篡改监测方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |