CN102938041B - 一种页面篡改的综合检测方法及系统 - Google Patents
一种页面篡改的综合检测方法及系统 Download PDFInfo
- Publication number
- CN102938041B CN102938041B CN201210424499.XA CN201210424499A CN102938041B CN 102938041 B CN102938041 B CN 102938041B CN 201210424499 A CN201210424499 A CN 201210424499A CN 102938041 B CN102938041 B CN 102938041B
- Authority
- CN
- China
- Prior art keywords
- page
- current detection
- malice
- pages
- normal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明提供一种页面篡改的综合检测方法及系统,所述方法包括:获取当前检测页面的属性信息;确定当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。本发明的方法能够实现从多方位多角度对页面进行检测,从而减少了页面篡改的误报和漏报问题,使得对页面篡改的检测结果更加精准。
Description
技术领域
本发明涉及计算机安全技术领域,尤其涉及一种页面篡改的综合检测方法及系统。
背景技术
随着互联网技术的不断发展,互联网已经成为人们信息获取和信息交流不可或缺的工具,从而为人们的工作、生活带来了很多便捷。但如此同时,互联网网站也容易成为黑客攻击的目标,网站页面被黑客篡改的事件时有发生,一旦打开被篡改的页面就很容易感染网站上的病毒。
目前对页面篡改的监测技术通常采用文本相似度检测,而文本相似度检测主要是将待检测页面的文本与预存的正常页面的文本进行对比,通过设置的阈值判断待检测页面是否为篡改页面,例如,当相似度低于某个阈值时,就认为待检测页面是篡改页面,而超过某个阈值时,则认为是非篡改页面。但是,由于文本相似度检测主要是通过预设的阈值判断两个页面之间的相似度,若阈值设置过高则容易造成误报,若阈值设置过低又容易产生漏报;另外,若一个网站的某个页面是发布新闻的页面,因此该页面的页面内容会实时变化,当将该页面的文本与预存页面的文本进行比较时,该页面与预存页面的相似度会极低,而这种相似度低的页面却不属于篡改页面的范畴,但是如果采用现有的文本相似度检测却会被误认为是篡改页面。
发明内容
本发明的目的在于提供一种页面篡改的综合检测方法及系统,以解决现有技术中页面篡改的误报漏报问题。
本发明的第一个方面是提供一种页面篡改的综合检测方法,包括:
获取当前检测页面的属性信息;
确定当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;
若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。
本发明的另一个方面是提供一种页面篡改的综合检测系统,包括:
获取模块,用于获取当前检测页面的属性信息,所述当前检测页面的属性信息包括页面内容的长度、页面的返回码信息;
检测模块,用于若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;
判定模块,用于若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。
采用上述本发明技术方案的有益效果是:本发明通过预设的恶意属性规则与当前检测页面的属性信息进行匹配,并在当前检测页面的属性信息与预设的恶意属性规则不匹配时,进一步对当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面,当至少有两项检测结果确定当前检测页面是疑似篡改页面时,则确定当前检测页面为篡改页面。因本发明的方法能够实现从多方位多角度对页面进行检测,从而减少了页面篡改的误报和漏报问题,使得对页面篡改的检测结果更加精准。
附图说明
图1为本发明实施例一提供的一种页面篡改的综合检测方法的流程示意图;
图2为本发明实施例二提供的一种页面篡改的综合检测系统的结构示意图。
具体实施方式
图1为本发明实施例一提供的一种页面篡改的综合检测方法的流程示意图,如图1所述,所述页面篡改的综合检测方法可以包括如下步骤:
步骤101,获取当前检测页面的属性信息;
步骤102,若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;
步骤103,若至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。
在本实施例中,执行主体可以是页面篡改的综合检测系统,该系统首先截获需要进行检测的检测页面,从而获取当前检测页面的属性信息,所述当前检测页面的属性信息包括页面内容的长度、页面的返回码信息等。在该系统中,预先存储了一系列的恶意属性规则,例如页面内容的长度阈值、页面的错误返回码的集合等。系统则根据获取的当前检测页面的页面内容的长度、页面的返回码信息在预先存储的恶意属性规则中进行查找,并判断当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,例如,若系统获取的当前检测页面的页面返回码不属于预先设置的页面的错误返回码的集合中的任一个、系统获取的当前检测页面的页面内容的长度未达到预先设置的页面内容的长度阈值,则可以确定当前检测页面的属性信息与预先存储的恶意属性规则不匹配。此时,系统进一步对当前检测页面分别进行页面元素匹配、页面变化率和页面内容的检测,并分别根据页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面。例如,在本实施例中,如对当前检测页面进行页面元素匹配的检测时,若检测结果为匹配,则可以确定当前检测页面为疑似篡改页面;如对当前检测页面进行页面变化率的检测时,若页面变化率大于预设的变化率阈值,则可以确定当前检测页面为疑似篡改页面;如对当前检测页面进行页面内容的检测时,若当前检测页面的页面内容为恶意页面的概率大于当前检测页面的页面内容为非恶意页面的概率,则可以确定当前检测页面为疑似篡改页面。
系统则根据上述三项检测结果综合确定当前检测页面是否为篡改页面,若在上述三项检测结果中至少有两项检测结果可以确定当前检测页面是疑似篡改页面,则系统可以确定当前检测页面为篡改页面。
本实施例提供的页面篡改的综合检测方法,通过预设的恶意属性规则与当前检测页面的属性信息进行匹配,并在当前检测页面的属性信息与预设的恶意属性规则不匹配时,进一步对当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面,当至少有两项检测结果确定当前检测页面是疑似篡改页面时,则确定当前检测页面为篡改页面。因本发明的方法能够实现从多方位多角度对页面进行检测,从而减少了页面篡改的误报和漏报问题,使得对页面篡改的检测结果更加精准。
进一步的,在上述实施例中,系统判断当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,具体为,例如,若系统获取的当前检测页面的页面返回码属于预先设置的页面的错误返回码的集合中的一个或系统获取的当前检测页面的页面内容的长度达到预先设置的页面内容的长度阈值,则可以确定当前检测页面的属性信息与预先存储的恶意属性规则匹配,此时,系统则可以直接确定当前检测页面为篡改页面。
具体地,在上述实施例中,系统对当前检测页面进行页面变化率的检测,并根据所述页面变化率的检测结果确定当前检测页面是否为疑似篡改页面的检测结果,具体为:
系统获取当前检测页面的页面内容和预先设置的参照页面的页面内容;根据预设的恶意语料库并通过算法分别将当前检测页面的页面内容和预先设置的参照页面的页面内容转换为词语组文档S1和S2,并根据词语组文档S1和S2确定所述当前检测页面和预先设置的参照页面之间的相似度R,通过T=1-R得到页面变化率T的值,若页面变化率T大于预设的变化率阈值,则可以确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。在本实施例中,所述恶意语料库可以包括预先收集的恶意页面中的至少一个恶意词语以及所述至少一个恶意词语在所述恶意页面中出现的次数。
具体的,在本实施例中,页面篡改的综合检测系统中预先存储有恶意语料库,其包括预先收集的恶意页面中的至少一个恶意词语以及该至少一个恶意词语在恶意页面中出现的次数。而本实施例中所指的算法是指在生成词语组文档的同时,会考虑文档中词语、句子的上下文关系,并根据词语在恶意语料库中查找该词语对应的出现次数来将一个文档的上下文进行词语的切分,从而生成文档中词语长度K值可变的词语组文档,其具体过程举例说明如下:
例如,给定一个文档B=“解释器是比较深入的办理假证内容”,按照上述方法对其生成词语组文档b,若预设的恶意语料库如下表1所示,且给定的词语长度K的最大值为4,则首先从文档B的第一个字符开始,截取第一组K=1~4的词语组b1=(解、解释、解释器、解释器是),然后分别在恶意语料库中查找b1中的各词语对应的出现次数,并将出现次数较高的词语放入文档b中。例如,通过上述方法查找可知,b1中出现次数较高的词语为“解释器”,因此,将“解释器”放入文档b中;然后按照上述方法继续解析文档B中剩下的内容,从“解释器”后的第一个字符开始,即生成词语组b2=(是、是比、是比较、是比较深),通过查找表1可知,“是”的出现的次数最高,因此,将“是”依次放入文档b中;根据上述方法对文档B完成解析,最后生成的文档b=(解释器、是、比较、深入、的、办理、假证、内容)。如果根据上述方法生成的方档b中有重复的词语出现,则只保留其中的一个词语,并删除其余重复的词语。
表1:
恶意词语 | 出现次数 |
解 | 10 |
解释 | 132 |
解释器 | 171 |
比 | 2 |
是 | 201 |
的 | 12 |
比较 | 34 |
比较深 | 5 |
深入 | 150 |
办理 | 58 |
假证 | 352 |
内容 | 24...... |
进一步的,若要计算当前检测页面与预先设置的参照页面的页面变化率,则可以按照上述方法对当前检测页面和预先设置的参照页面分别生成词语组文档S1和S2,然后根据公式得到当前检测页面和预先设置的参照页面之间的相似度R,其中S1∩S2表示词语组文档S1和词语组文档S2中相同词语的个数,也就是词语组文档S1和词语组文档S2中词语交集的个数,S1∪S2表示词语组文档S1和词语组文档S2中不同词语的个数,也就是词语组文档S1和词语组文档S2中词语并集的个数;然后根据T=1-R而获得页面变化率T,其变化率T是介于0和1之间的一个数值,即S1和S2的相似度越高,其变化率就越小,而S1和S2的相似度越低,其变化率就越大,变化率大则被篡改的可能性也越大。在本实施例中,当页面变化率T大于预设的变化率阈值时,则可以确定当前检测页面为疑似篡改页面,否则可以确定当前检测页面为非疑似篡改页面。
本实施例通过算法生成的词语组文档,考虑到了词语在文档中的上下文关系,即文档中的各词语都具有其本身的信息;并且,通过预设的恶意语料库辅助词语组文档的生成,即通过检测两个页面中恶意词语的相似度而得到两个页面的变化率,从而解决了对实时变化的新闻页面的页面篡改的误报问题。因为对于新闻页面来说,其页面内容是实时变化的,如果仅将其页面内容与预先设置的参照页面的页面内容进行比较,其变化率势必会很大,此时就容易产生误报;但是,对于一个正常的新闻页面来说,其实时变化的页面内容中出现恶意词语的概率应该变化不大,因此,本实施例中通过算法并联合恶意语料库生成词语组文档,即通过检测当前新闻页面与预先设置的参照页面中出现的恶意词语的变化率来确定当前新闻页面是否为疑似篡改页面,从而能够很好的解决对实时变化的新闻页面的页面篡改的误报问题。
具体地,在上述实施例中,系统对当前检测页面进行页面元素匹配的检测,并根据页面元素匹配的检测结果确定当前检测页面是否为疑似篡改页面,具体为:
系统获取当前检测页面的页面标签;然后根据页面标签获取与页面标签相对应的标签内容;并对标签内容进行消息摘要算法第五版(Message DigestAlgorithm,简称MD5)计算,从而获得与标签内容相对应的MD5码;若系统预设的恶意特征码集合中存在与所述MD5码相同的恶意特征码,即页面元素匹配的检测结果为匹配,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。在本实施例中,所述页面标签是指页面的超文本标记语言(Hypertext Markup Language,简称HTML),例如,对于一个图像文件标签HTML<img>来说,其页面标签表示指向一个图片资源的路径或链接,而其标签内容则表示该图片资源的链接地址。在本实施例中,系统预先存储有恶意特征码集合,该恶意特征码集合是将收集的恶意页面的链接地址进行MD5计算而得的恶意特征码的集合,因此,系统将获取的当前检测页面的页面标签内容同样进行MD5计算,从而获得当前检测页面的MD5码,并判断预设的恶意特征码集合中是否存在与当前检测页面的MD5码相同的恶意特征码,如果预设的恶意特征码集合中存在与当前检测页面的MD5码相同的恶意特征码,则可以确定当前检测页面为疑似篡改页面。
具体地,在上述实施例中,系统对当前检测页面进行页面内容的检测,并根据页面内容的检测结果确定当前检测页面是否为疑似篡改页面,具体为:
系统获取当前检测页面的页面内容,本实施例中,页面内容包括词语Wi,其中1≤i≤n,n为为所述页面内容包括的词语总数,即将页面内容分解为多个词语;并通过以下公式分别计算当前检测页面为恶意页面的概率和为非恶意页面的概率:
其中,p(spam)为所述当前检测页面为恶意页面的概率,p(normal)为所述当前检测页面为非恶意页面的概率, 表示一个文档含有词语Wi时该文档为恶意文档的概率,而为词语Wi在预设的恶意文档中出现的概率,c1为预设的恶意文档的个数,fc1为所述词语Wi在预设的恶意文档中出现的总次数; 表示一个文档含有词语Wi时该文档为非恶意文档的概率,而为词语Wi在预设的非恶意文档中出现的概率,c2为预设的非恶意文档的个数,fc2为所述词语Wi在预设的非恶意文档中出现的总次数;若p(spam)>p(normal),则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
例如,若系统预设了三个恶意文档D1、D2、D3,以及三个非恶意文档d1、d2、d3,其中:
恶意文档:
D1=(专业车牌QQ289338291);
D2=(制做车牌QQ289338291);
D3=(高仿汽车套牌carliscmakeryahoo.com);
非恶意文档:
d1=(车牌摇号困难);
d2=(严打高仿车牌);
d3=(严禁私人制作车牌QQ289338291);
因此,根据上述定义可知,c1为3,c2为3,对上述6个文档进行词语分解即可得如下表2:
词语 | fc1 | fc2 |
严禁 | 0 | 1 |
汽车 | 1 | 0 |
摇号 | 0 | 1 |
车牌 | 2 | 3 |
QQ289338291 | 2 | 1 |
制做 | 1 | 0 |
高仿 | 1 | 1 |
专业 | 1 | 0 |
私人 | 0 | 1 |
carliscmakeryahoo.com | 1 | 0 |
制作 | 0 | 1 |
困难 | 0 | 1 |
套牌 | 1 | 0 |
严打 | 0 | 1 |
若系统获取的当前检测页面的页面内容D4=(私人套牌QQ289338291),即对D4进行词语分解可知D4由词语W1“私人”、W2“套牌”和W3“QQ289338291”组成,则根据上述公式分别计算p(Wi|spam)和p(Wi|normal),即:
P(W1/spam)=P(私人/spam)=(1/5)/(1/5+2/5)=0.33;
P(W2/spam)=P(套牌/spam)=(2/5)/(2/5+1/5)=0.67;
P(W3/spam)=P(QQ289338291/spam)=(3/5)/(3/5+2/5)=0.60;
P(W1/normal)=P(私人/normal)=(2/5)/(1/5+2/5)=0.67;
P(W2/normal)=P(套牌/normal)=(1/5)/(2/5+1/5)=0.33;
P(W3/normal)=P(QQ289338291/normal)=(2/5)/(3/5+2/5)=0.40;
从而可以计算出:
通过比较p(spam)与p(normal)的大小可知,p(spam)大于p(normal),从而可知当前检测的页面D4为疑似篡改页面。
本发明提供的页面篡改的综合检测方法,通过对当前检测页面进行恶意属性规则匹配,并在不匹配时,进一步进行页面元素匹配、页面变化率和页面内容的检测,然后根据各项检测结果综合确定当面检测页面是否为篡改页面,因本发明提供的方法能够从多方位多角度对页面进行检测,且在进行页面元素匹配和页面内容的检测时,并不涉及到阈值问题,因此,通过本发明的方法能够很好的解决现有技术中因检测方法单一且依赖阈值判定当前检测页面是否为篡改页面的漏报问题。
图2为本发明实施例二提供的一种页面篡改的综合检测系统的结构示意图,如图2所示,所述页面篡改的综合检测系统可以包括:
获取模块201,用于获取当前检测页面的属性信息,所述当前检测页面的属性信息包括页面内容的长度、页面的返回码信息;
检测模块202,用于若当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;
判定模块203,用于若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面。
进一步的,判定模块203还可以用于:
若当前检测页面的属性信息与预设的恶意属性规则匹配,则确定当前检测页面为篡改页面。
进一步的,检测模块202具体可以用于:
获取当前检测页面的页面内容的长度、页面的返回码;
若页面返回码属于预设的恶意属性规则中恶意页面的错误返回码集合中的一个或页面内容的长度达到预设的恶意属性规则中的页面内容的长度阈值,则可以确定当前检测页面的属性信息与预先存储的恶意属性规则匹配,否则可以确定当前检测页面的属性信息与预先存储的恶意属性规则不匹配。
进一步的,检测模块202具体可以用于:
获取当前检测页面的页面内容和预先设置的参照页面的页面内容;
根据预设的恶意语料库并通过算法分别将所述当前检测页面的页面内容和预先设置的参照页面的页面内容转换为词语组文档S1和S2,所述恶意语料库包括预先收集的恶意页面中的至少一个恶意词语以及该至少一个恶意词语在所述恶意页面中出现的次数;
根据词语组文档S1和S2确定当前检测页面和预先设置的参照页面之间的相似度R;
若页面变化率T大于变化率阈值,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面,其中T=1-R。
进一步的,检测模块202具体还可以用于:
获取当前检测页面的页面标签;
根据页面标签获取与页面标签相对应的标签内容;
对标签内容进行消息摘要算法第五版MD5计算,获得与标签内容相对应的MD5码;
若预设的恶意特征码集合中存在与所述MD5码相同的恶意特征码,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
进一步的,检测模块202具体还可以用于:
获取当前检测页面的页面内容,所述页面内容包括词语Wi,其中1≤i≤n,n为为所述页面内容包括的词语总数;
通过以下公式分别计算当前检测页面为恶意页面的概率和为非恶意页面的概率:
其中,p(spam)为所述当前检测页面为恶意页面的概率,p(normal)为所述当前检测页面为非恶意页面的概率, 表示一个文档含有词语Wi时该文档为恶意文档的概率,而为词语Wi在预设的恶意文档中出现的概率,c1为预设的恶意文档的个数,fc1为所述词语Wi在预设的恶意文档中出现的总次数; 表示一个文档含有词语Wi时该文档为非恶意文档的概率,而为词语Wi在预设的非恶意文档中出现的概率,c2为预设的非恶意文档的个数,fc2为所述词语Wi在预设的非恶意文档中出现的总次数;
若p(spam)>p(normal),则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
本实施例提供的页面篡改的综合检测系统可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种页面篡改的综合检测方法,其特征在于,包括:
获取当前检测页面的属性信息;
确定当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;
若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面;
所述对所述当前检测页面进行页面变化率的检测,并根据所述页面变化率的检测结果确定当前检测页面是否为疑似篡改页面,具体包括:
获取当前检测页面的页面内容和预先设置的参照页面的页面内容;
根据预设的恶意语料库并通过算法分别将所述当前检测页面的页面内容和预先设置的参照页面的页面内容转换为词语组文档S1和S2,所述恶意语料库包括预先收集的恶意页面中的至少一个恶意词语以及所述至少一个恶意词语在所述恶意页面中出现的次数;
根据所述词语组文档S1和S2确定所述当前检测页面和预先设置的参照页面之间的相似度R;
若页面变化率T大于变化率阈值,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面,其中T=1-R。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述当前检测页面的属性信息与预设的恶意属性规则匹配,则确定当前检测页面为篡改页面。
3.根据权利要求1或2所述的方法,其特征在于,所述恶意属性规则包括错误返回码集合和页面内容长度阈值;所述确定当前检测页面的属性信息与预先存储的恶意属性规则是否匹配,具体包括:
获取当前检测页面的页面内容的长度、页面的返回码;
若所述页面返回码属于所述错误返回码集合中的一个或所述页面内容的长度达到所述页面内容的长度阈值,则确定当前检测页面的属性信息与预先存储的恶意属性规则匹配,否则确定当前检测页面的属性信息与预先存储的恶意属性规则不匹配。
4.根据权利要求3所述的方法,其特征在于,所述对所述当前检测页面进行页面元素匹配的检测,并根据所述页面元素匹配的检测结果确定当前检测页面是否为疑似篡改页面,具体包括:
获取当前检测页面的页面标签;
根据所述页面标签获取与所述页面标签相对应的标签内容;
对所述标签内容进行消息摘要算法第五版MD5计算,获得与所述标签内容相对应的MD5码;
若预设的恶意特征码集合中存在与所述MD5码相同的恶意特征码,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
5.根据权利要求1所述的方法,其特征在于,所述对所述当前检测页面进行页面内容的检测,并根据所述页面内容的检测结果确定当前检测页面是否为疑似篡改页面,具体包括:
获取当前检测页面的页面内容,所述页面内容包括词语Wi,其中1≤i≤n,n为所述页面内容包括的词语总数;
通过以下公式分别计算所述当前检测页面为恶意页面的概率和为非恶意页面的概率:
其中,p(spam)为所述当前检测页面为恶意页面的概率,p(normal)为所述当前检测页面为非恶意页面的概率, 表示一个文档含有词语Wi时该文档为恶意文档的概率,为词语Wi在预设的恶意文档中出现的概率,c1为预设的恶意文档的个数,fc1为所述词语Wi在预设的恶意文档中出现的总次数; 表示一个文档含有词语Wi时该文档为非恶意文档的概率,为词语Wi在预设的非恶意文档中出现的概率,c2为预设的非恶意文档的个数,fc2为所述词语Wi在预设的非恶意文档中出现的总次数;
若p(spam)>p(normal),则确定所述当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
6.一种页面篡改的综合检测系统,其特征在于,包括:
获取模块,用于获取当前检测页面的属性信息,所述当前检测页面的属性信息包括页面内容的长度、页面的返回码信息;
检测模块,用于若所述当前检测页面的属性信息与预设的恶意属性规则不匹配,则分别对所述当前检测页面进行页面元素匹配、页面变化率和页面内容的检测,并分别根据所述页面元素匹配、页面变化率和页面内容的检测结果确定当前检测页面是否为疑似篡改页面;
判定模块,用于若根据至少两项检测结果确定当前检测页面是疑似篡改页面,则确定当前检测页面为篡改页面;
所述检测模块具体用于:
获取当前检测页面的页面内容和预先设置的参照页面的页面内容;
根据预设的恶意语料库并通过算法分别将所述当前检测页面的页面内容和预先设置的参照页面的页面内容转换为词语组文档S1和S2,所述恶意语料库包括预先收集的恶意页面中的至少一个恶意词语以及所述至少一个恶意词语在所述恶意页面中出现的次数;
根据所述词语组文档S1和S2确定所述当前检测页面和预先设置的参照页面之间的相似度R;
若页面变化率T大于变化率阈值,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面,其中T=1-R。
7.根据权利要求6所述的系统,其特征在于,所述判定模块还用于:
若所述当前检测页面的属性信息与预设的恶意属性规则匹配,则确定当前检测页面为篡改页面。
8.根据权利要求6或7所述的系统,其特征在于,所述恶意属性规则包括错误返回码集合和页面内容长度阈值;所述检测模块具体用于:
获取当前检测页面的页面内容的长度、页面的返回码;
若所述页面返回码属于所述错误返回码集合中的一个或所述页面内容的长度达到所述页面内容的长度阈值,则确定当前检测页面的属性信息与预先存储的恶意属性规则匹配,否则确定当前检测页面的属性信息与预先存储的恶意属性规则不匹配。
9.根据权利要求6所述的系统,其特征在于,所述检测模块具体还用于:
获取当前检测页面的页面标签;
根据所述页面标签获取与所述页面标签相对应的标签内容;
对所述标签内容进行消息摘要算法第五版MD5计算,获得与所述标签内容相对应的MD5码;
若预设的恶意特征码集合中存在与所述MD5码相同的恶意特征码,则确定当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
10.根据权利要求6所述的系统,其特征在于,所述检测模块具体还用于:
获取当前检测页面的页面内容,所述页面内容包括词语Wi,其中1≤i≤n,n为所述页面内容包括的词语总数;
通过以下公式分别计算所述当前检测页面为恶意页面的概率和为非恶意页面的概率:
其中,p(spam)为所述当前检测页面为恶意页面的概率,p(normal)为所述当前检测页面为非恶意页面的概率, 表示一个文档含有词语Wi时该文档为恶意文档的概率,而为词语Wi在预设的恶意文档中出现的概率,c1为预设的恶意文档的个数,fc1为所述词语Wi在预设的恶意文档中出现的总次数; 表示一个文档含有词语Wi时该文档为非恶意文档的概率,而为词语Wi在预设的非恶意文档中出现的概率,c2为预设的非恶意文档的个数,fc2为所述词语Wi在预设的非恶意文档中出现的总次数;
若p(spam)>p(normal),则确定所述当前检测页面为疑似篡改页面,否则确定当前检测页面为非疑似篡改页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210424499.XA CN102938041B (zh) | 2012-10-30 | 2012-10-30 | 一种页面篡改的综合检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210424499.XA CN102938041B (zh) | 2012-10-30 | 2012-10-30 | 一种页面篡改的综合检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102938041A CN102938041A (zh) | 2013-02-20 |
CN102938041B true CN102938041B (zh) | 2015-04-15 |
Family
ID=47696937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210424499.XA Active CN102938041B (zh) | 2012-10-30 | 2012-10-30 | 一种页面篡改的综合检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102938041B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279710B (zh) * | 2013-04-12 | 2016-04-13 | 深圳市易聆科信息技术有限公司 | Internet信息系统恶意代码的检测方法和系统 |
CN104008131B (zh) * | 2014-04-30 | 2018-07-13 | 广州市动景计算机科技有限公司 | 一种网页数据处理方法及装置 |
CN104156665B (zh) * | 2014-07-22 | 2017-02-01 | 杭州安恒信息技术有限公司 | 一种网页篡改监测的方法 |
KR102130744B1 (ko) * | 2015-07-21 | 2020-07-06 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN105354494A (zh) * | 2015-10-30 | 2016-02-24 | 北京奇虎科技有限公司 | 网页数据篡改的检测方法及装置 |
CN108075918B (zh) * | 2016-11-15 | 2021-11-02 | 平安科技(深圳)有限公司 | 互联网业务变更检测方法及系统 |
CN106789973B (zh) * | 2016-12-06 | 2020-12-18 | 海信集团有限公司 | 页面的安全性检测方法及终端设备 |
CN107016298B (zh) * | 2017-03-27 | 2020-07-10 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页篡改监测方法及装置 |
CN107301355B (zh) * | 2017-06-20 | 2021-07-02 | 深信服科技股份有限公司 | 一种网页篡改监测方法及装置 |
CN107729395B (zh) * | 2017-09-20 | 2020-11-24 | 杭州安恒信息技术股份有限公司 | 一种冗余页面的发现方法 |
CN108388794B (zh) * | 2018-02-01 | 2020-09-08 | 金蝶软件(中国)有限公司 | 页面数据保护方法、装置、计算机设备和存储介质 |
CN108304584A (zh) * | 2018-03-06 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 非法页面检测方法、装置、入侵检测系统及存储介质 |
CN110413866B (zh) * | 2018-04-27 | 2024-02-02 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN111143722A (zh) * | 2019-12-23 | 2020-05-12 | 杭州安恒信息技术股份有限公司 | 一种网页暗链检测方法、装置、设备及介质 |
CN111400705B (zh) * | 2020-03-04 | 2023-03-14 | 支付宝(杭州)信息技术有限公司 | 一种应用程序的检测方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111267A (zh) * | 2009-12-28 | 2011-06-29 | 北京安码科技有限公司 | 一种基于数字签名的网站安全保护方法及系统 |
CN102436564A (zh) * | 2011-12-30 | 2012-05-02 | 奇智软件(北京)有限公司 | 一种识别被篡改网页的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101626368A (zh) * | 2008-07-11 | 2010-01-13 | 中联绿盟信息技术(北京)有限公司 | 一种防止网页被篡改的设备、方法和系统 |
-
2012
- 2012-10-30 CN CN201210424499.XA patent/CN102938041B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111267A (zh) * | 2009-12-28 | 2011-06-29 | 北京安码科技有限公司 | 一种基于数字签名的网站安全保护方法及系统 |
CN102436564A (zh) * | 2011-12-30 | 2012-05-02 | 奇智软件(北京)有限公司 | 一种识别被篡改网页的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102938041A (zh) | 2013-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102938041B (zh) | 一种页面篡改的综合检测方法及系统 | |
Mao et al. | BaitAlarm: detecting phishing sites using similarity in fundamental visual features | |
US8359294B2 (en) | Incorrect hyperlink detecting apparatus and method | |
Waltman et al. | Universality of citation distributions revisited | |
CN102779249B (zh) | 恶意程序检测方法及扫描引擎 | |
CN114172701A (zh) | 基于知识图谱的apt攻击检测方法及装置 | |
Hayes et al. | Recognizing authors: an examination of the consistent programmer hypothesis | |
Kaplan et al. | Automatic extraction of citation contexts for research paper summarization: A coreference-chain based approach | |
CN109829304B (zh) | 一种病毒检测方法及装置 | |
CN105357217A (zh) | 基于用户行为分析的数据盗取风险评估方法和系统 | |
CN114650163B (zh) | 面向有状态网络协议的模糊测试方法及系统 | |
CN109492219A (zh) | 一种基于特征分类和情感语义分析的诈骗网站识别方法 | |
CN109543408A (zh) | 一种恶意软件识别方法和系统 | |
CN104021179B (zh) | 一种大数据集下相似性数据的快速识别算法 | |
Bretschneider et al. | Detecting cyberbullying in online communities | |
CN110633217A (zh) | 接口校验方法及装置 | |
CN113542252A (zh) | Web攻击的检测方法、检测模型和检测装置 | |
US20120136652A1 (en) | Method, a computer program and apparatus for analyzing symbols in a computer | |
Rastan et al. | Automated table understanding using stub patterns | |
CN109918638B (zh) | 一种网络数据监测方法 | |
CN111413952A (zh) | 机器人故障检测方法、装置、电子设备及可读存储介质 | |
CN107682302A (zh) | 跨站脚本攻击检测方法和装置 | |
Franchina et al. | Detecting phishing e-mails using Text Mining and features analysis | |
KR20100115048A (ko) | 복사 문서 판별 시스템 및 그 방법 | |
CN108319851B (zh) | 一种异常行为主动检测方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100089 3rd floor, Yitai building, 4 Beiwa Road, Haidian District, Beijing Patentee after: NSFOCUS Technologies Group Co.,Ltd. Patentee after: NSFOCUS TECHNOLOGIES Inc. Address before: 100089 3rd floor, Yitai building, 4 Beiwa Road, Haidian District, Beijing Patentee before: NSFOCUS INFORMATION TECHNOLOGY Co.,Ltd. Patentee before: NSFOCUS TECHNOLOGIES Inc. |
|
CP01 | Change in the name or title of a patent holder |