CN108021692B - 一种监控网页的方法、服务器及计算机可读存储介质 - Google Patents

一种监控网页的方法、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN108021692B
CN108021692B CN201711363638.1A CN201711363638A CN108021692B CN 108021692 B CN108021692 B CN 108021692B CN 201711363638 A CN201711363638 A CN 201711363638A CN 108021692 B CN108021692 B CN 108021692B
Authority
CN
China
Prior art keywords
webpage
similarity
page
value
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711363638.1A
Other languages
English (en)
Other versions
CN108021692A (zh
Inventor
肖国颖
熊毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN201711363638.1A priority Critical patent/CN108021692B/zh
Publication of CN108021692A publication Critical patent/CN108021692A/zh
Application granted granted Critical
Publication of CN108021692B publication Critical patent/CN108021692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种监测网页的方法、服务器及计算机可读存储介质,本发明通过将网页内容理解为两个相互独立的部分:网页内容和网页结构,将待检测的网页内容抽取为网页内容和网页结构两部分,并根据网页内容相似度算法和网页结构相似度算法分别计算出两个不同维度的相似度,并根据该相似度值做出网页是否被篡改的判定,提高网页篡改检测的准确性,有效降低检测的误报率。

Description

一种监控网页的方法、服务器及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种监测网页的方法、服务器及计算机可读存储介质。
背景技术
近年来,随着互联网的普及,网站已成为政府、学校、企业等组织机构信息发布和传播的重要途径,网站安全也成为网络安全的重要领域。CNCERT监测发现,每年境内有数万个网站被篡改。
目前网页篡改检测方式主要有基于页面Hash值对比、基于页面链接数量对比、基于页面文本相似度对比等算法,这些算法都在一定程度上实现了对网页篡改情况的监测,但都暴露出一些明显的问题,比如:误报率高,不能有效反映网页真实篡改情况,也就是说,现有对网页监测的方法的准确率不高。
发明内容
本发明提供了一种监测网页的方法、服务器及计算机可读存储介质,以解决现有技术中对网页监测的方法的准确率不高的问题。
一方面,本发明提供了一种监测网页的方法,该方法包括:将待检测的网页抽取为网页内容和网页结构;计算网页内容相似度,并计算网页结构相似度,对所述网页内容的相似度和所述网页结构的相似度进行融合,根据融合后的相似度值判断所述网页是否发生篡改。
进一步地,所述将待检测的网页抽取为网页内容和网页结构之前,还包括:
对所述网页的页面富文本进行Hash,并与基线库中网页的Hash值进行对比;
如果Hash值未发生变化,则确定页面未发生篡改;
如果Hash值发现变化,则将待检测的网页抽取为网页内容和网页结构。
进一步地,所述计算网页内容相似度,具体包括:
提取基线库中所述网页的页面内容与当前网页的页面内容进行对比,基于余弦相似度算法计算所述网页的页面内容相似度。
进一步地,所述计算网页结构相似度,具体包括:
抽取基线库中所述网页的页面结构与当前网页的页面结构,基于页面结构,分别获取页面结构中每个叶子节点的Xpath和对应层次深度,并分别对每个层次深度设置不同的权重,计算得到页面结构相似度。
进一步地,所述分别对每个层次深度设置不同的权重,具体包括:
分别对每个层次深度设置不同的权重,且深度越小设置的权重越小。
进一步地,基于页面结构,分别获取页面结构中每个叶子节点的Xpath和对应层次深度,并分别对每个层次深度设置不同的权重,计算得到页面结构相似度,具体包括:
遍历基线库中页面树形结构封装为原始节点Map(xpath,depth),其中,xpath为叶子节点在整体树结构中的xpath值,depth为叶子节点所在的深度层次;将原始节点Map结构转换为MapA(noNumXpath,XpathNode),其中,noNumberXpath为原始节点xpath清除数字下标后的值,XpathNode为相同noNumXpath对应的重复次数和深度对应的数据结构;
并将当前页面的原始节点结构转换为MapB(noNumXpath,XpathNode);
结合不同层次深度的权重,分别计算综合权重值SumA=MapA.depth.weight*count和SumB=MapB.depth.weight*count,并计算分母值SumValue=SumA+SumB;
遍历MapA,根据MapA的key:noNumXpath,查找MapB中是否存在对应项;
如果存在,计算MapA.XpathNode.count和MapB.XpathNode.count差值的绝对值,并赋值给MapB.XpathNode.count,删除MapA的对应项;
如果不存在,则不作处理;
遍历完成后得到NewMapA和NewMapB,计算分子值OffsetSumValue=NewMapA-NewMapB;
根据公式pageStructureSim=1-OffsetSumValue/SumValue计算得到页面结构相似度值。
进一步地,对所述网页内容的相似度和所述网页结构的相似度进行融合,根据融合后的相似度值判断所述网页是否发生篡改,具体包括:
根据相似度值=pageContentSim*a+pageStructureSim*b,其中pageContentSim为页面内容相似度值,pageStructureSim为页面结构相似度值,a、b分别为预设的权重值;
根据所述相似度值,结合判定篡改策略,得出页面是否篡改的结果。
进一步地,根据融合后的相似度值判断网页是否被篡改,具体包括:
根据融合后的相似度值,结合浏览器渲染机制和网页特性计算出基于富文本的网页相似度值,判断网页是否被篡改。
另一方面,本发明还提供一种服务器,所述服务器包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的计算机指令,以实现上述任一种所述的监控网页的方法。
再一方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现本发明提供的任一种所述的监控网页的方法。
本发明有益效果如下:
本发明立足于网页内容的富文本特性以及浏览器的渲染可视化机制,从根本上将网页内容理解为两个相互独立的部分:网页内容和网页结构,将待检测的网页内容抽取为网页内容和网页结构两部分,并根据网页内容相似度算法和网页结构相似度算法分别计算出两个不同维度的相似度,并根据该相似度值做出网页是否被篡改的判定,提高网页篡改检测的准确性,有效降低检测的误报率。
附图说明
图1是本发明实施例的一种监控网页的方法的流程示意图;
图2是本发明实施例的另一种监控网页的方法的流程示意图;
图3是本发明实施例的计算网页结构相似的方法的流程示意图;
图4是本发明实施例的终端的结构示意图。
具体实施方式
为了解决现有技术中对网页监测的方法的准确率不高的问题,本发明提供了一种监测网页的方法,本发明立足于网页内容的富文本特性以及浏览器的渲染可视化机制,从根本上将网页内容理解为两个相互独立的部分:网页内容和网页结构,将待检测的网页内容抽取为网页内容和网页结构两部分,并根据网页内容相似度算法和网页结构相似度算法分别计算出两个不同维度的相似度,并根据该相似度值做出网页是否被篡改的判定,提高网页篡改检测的准确性,有效降低检测的误报率。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明实施例提供了一种监控网页的方法,参见图1,该方法包括:
S101、将待检测的网页抽取为网页内容和网页结构;
S102、计算网页内容相似度,并计算网页结构相似度;
S103、对所述网页内容的相似度和所述网页结构的相似度进行融合,并根据融合后的相似度值判断所述网页是否发生篡改。
也就是说,本发明立足于网页内容的富文本特性以及浏览器的渲染可视化机制,从根本上将网页内容理解为两个相互独立的部分:网页内容和网页结构,将待检测的网页内容抽取为网页内容和网页结构两部分,并根据网页内容相似度算法和网页结构相似度算法分别计算出两个不同维度的相似度,并根据该相似度值做出网页是否被篡改的判定,提高网页篡改检测的准确性,有效降低检测的误报率。
具体实施时,本发明实施例所述将待检测的网页抽取为网页内容和网页结构之前,还包括:对所述网页的页面富文本进行Hash,并与基线库中网页的Hash值进行对比;如果Hash值未发生变化,则确定页面未发生篡改;如果Hash值发现变化,则将待检测的网页抽取为网页内容和网页结构。
具体来说,本发明实施例首先对页面富文本进行Hash,并与基线库中的Hash值进行对比,如果Hash值未发生变化表示页面整体未发生任何变化,直接判定页面未发生篡改,结束本次检测;如果Hash值发现变化,执行步骤S101。
具体实施时,本发明实施例中,所述计算网页内容相似度,具体包括:提取基线库中所述网页的页面内容与当前网页的页面内容进行对比,基于余弦相似度算法计算所述网页的页面内容相似度。
所述计算网页结构相似度,具体包括:抽取基线库中所述网页的页面结构与当前网页的页面结构,基于页面结构,分别获取页面结构中每个叶子节点的Xpath和对应层次深度,并分别对每个层次深度设置不同的权重,计算得到页面结构相似度。
并且,本发明实施例需分别对每个层次深度设置不同的权重,且深度越小设置的权重越小。
进一步地,本发明实施例所述基于页面结构,分别获取页面结构中每个叶子节点的Xpath和对应层次深度,并分别对每个层次深度设置不同的权重,计算得到页面结构相似度,具体包括:
遍历基线库中页面树形结构封装为原始节点Map(xpath,depth),其中,xpath为叶子节点在整体树结构中的xpath值,depth为叶子节点所在的深度层次;将原始节点Map结构转换为MapA(noNumXpath,XpathNode),其中,noNumberXpath为原始节点xpath清除数字下标后的值,XpathNode为相同noNumXpath对应的重复次数和深度对应的数据结构;
并将当前页面的原始节点结构转换为MapB(noNumXpath,XpathNode);
结合不同层次深度的权重,分别计算综合权重值SumA=MapA.depth.weight*count和SumB=MapB.depth.weight*count,并计算分母值SumValue=SumA+SumB;
遍历MapA,根据MapA的key:noNumXpath,查找MapB中是否存在对应项;
如果存在,计算MapA.XpathNode.count和MapB.XpathNode.count差值的绝对值,并赋值给MapB.XpathNode.count,删除MapA的对应项;
如果不存在,则不作处理;
遍历完成后得到NewMapA和NewMapB,计算分子值OffsetSumValue=NewMapA-NewMapB;
根据公式pageStructureSim=1-OffsetSumValue/SumValue计算得到页面结构相似度值。
具体实施时,本发明实施例所述对所述网页内容的相似度和所述网页结构的相似度进行融合,根据融合后的相似度值判断所述网页是否发生篡改,具体包括:根据相似度值=pageContentSim*a+pageStructureSim*b,其中pageContentSim为页面内容相似度值,pageStructureSim为页面结构相似度值,a、b分别为预设的权重值;根据所述相似度值,结合判定篡改策略,得出页面是否篡改的结果。
具体实施时,本发明实施例是根据融合后的相似度值,结合浏览器渲染机制和网页特性计算出基于富文本的网页相似度值,判断网页是否被篡改。
图2是本发明实施例的另一种监控网页的方法的流程示意图,下面将结合图2对本发明所述的方法进行详细的解释和说明:
1.首先对页面富文本进行Hash,并与基线库中的Hash值进行对比,如果Hash值未发生变化表示页面整体未发生任何变化,直接判定页面未发生篡改,结束本次检测;如果Hash值发现变化,执行步骤2;
2.基于HTML的解析工具Jsoup和XML解析工具Jdom,从富文本中分别抽取出页面内容和页面结构,其中页面内容包括:html显示文本和url链接文本,页面结构包括:html标签的树形结构,不包含标签属性信息。抽取完成后分别将页面内容和页面结构数据执行步骤3和步骤4;
3.提取基线库中页面内容与当前页面内容进行对比,页面内容相似度对比基于余弦相似度算法。余弦相似度算法是测量两个文本之间角度的余弦的内积空间的两个非零向量之间的相似度的量度,其结果在[0,1]中整齐地界定,适用于页面内容的文本相似度对比。对比的结果为[0—1]之间的相似度值,执行步骤5;
4.抽取基线库中页面结构与当前页面结构进行对比,页面结构相似度算法基于页面结构的富文本特性,获取树形页面结构中每个叶子节点的Xpath和对应层次深度,如:xpath为html/body/div[2],层次深度为3,每个层次深度可定义不同的权重,一般说来深度越小对应的权重越小,体现在页面渲染上对整体结构的影响也较大。基于历史页面结构数据和当前页面结构数据,计算页面结构的相似度算法的整体步骤如图3所示,具体包括:
(1)遍历页面树形结构封装为节点原始Map,map结构为Map(xpath,depth),其中xpath代表叶子节点在整体树结构中的xpath值,depth代表叶子节点所在的深度层次;
(2)将原始Map结构转换为Map(noNumXpath,XpathNode),其中noNumberXpath代表节点xpath清除数字下标后的值:如html/body/div[2]→html/body/div[];XpathNode结构为{depth:int,count:int},count代表相同noNumXpath对应的重复次数,获取基线库中该页面的Map(noNumXpath,XpathNode)简称MapA,生成新的Map(noNumXpath,XpathNode)简称MapB,作为步骤(3)、步骤(4)的输入;
(3)计算分母:输入MapA和MapB,并结合不同层次深度的权重,分别遍历MapA和MapB根据公式:MapA.depth.weight*count,计算出整个对应Map的综合权重值:SumA,SumB,定义SumVaule=SumA+SumB,表示两个Map整体的权重值,即为结果值。将该结果值即为分母值;
(4)计算分子:输入MapA和MapB,遍历MapA,根据MapA的key:noNumXpath查找MapB中是否存在对应项,如果存在,计算MapA.XpathNode.count和MapB.XpathNode.count差值的绝对值,赋值给MapB.XpathNode.count并删除MapA的对应项;如果不存在,不作处理。遍历完成后得到两个新的Map:NewMapA和NewMapB。将NewMapA和NewMapB作为输入,执行步骤(3)得到结果值定义为OffsetSumValue,即为分子;
(5)执行公式:1-OffsetSumValue/SumValue结果即为页面结构相似度值。
5.相似度聚合:根据步骤3和步骤4中得到的页面内容相似度和页面结构相似度,结合权重策略也即结构和内容在页面中的权重值,执行公式页面相似度计算公式,如:pageContentSim*0.1+pageStructureSim*0.9,其中pageContentSim代表页面内容相似度值,pageStructureSim代表页面结构相似度值,0.1、0.9代表对应的权重,可根据实际情况自行定义该策略值,根据页面相似度值,结合判定篡改策略,得出页面是否篡改的结果。
具体来说,本发明实施例步骤5具体是,根据融合后的相似度值,结合浏览器渲染机制和网页特性计算出基于富文本的网页相似度值,判断网页是否被篡改。
总体来说,本发明实施例通过将页面内容以富文本化的方式从内容和结构两个维度进行分析,有效的提升了检测的准确性,降低了误报率。同时,结合网页的hash进行过滤,减少了无用检测的执行,提升了对应系统的检测能力。
相应的,如图4所示,本发明的实施例还提供一种服务器,包括:处理器,存储器以及通信总线;
通信总线用于实现处理器和存储器之间的连接通信;
存储器用于存储计算机指令,处理器用于运行存储器存储的计算机指令,以实现方法实施例中的任一种对网页监测的方法的步骤,并达到相应的技术效果,具体可参见方法实施例以及公共交通设备实施例进行理解,在此不再进行详细赘述。
相应的,本发明的实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种对网页监测的方法,因此也能实现相应的技术效果,具体可参见方法实施例以及公共交通设备实施例进行理解,在此不再进行详细赘述。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (8)

1.一种监控网页的方法,其特征在于,包括:
将待检测的网页抽取为网页内容和网页结构;
计算网页内容相似度,并计算网页结构相似度;
对所述网页内容的相似度和所述网页结构的相似度进行融合,并根据融合后的相似度值判断所述网页是否发生篡改;
所述计算网页结构相似度,具体包括:抽取基线库中所述网页的页面结构与当前网页的页面结构,基于页面结构,分别获取页面结构中每个叶子节点的Xpath和对应层次深度,并分别对每个层次深度设置不同的权重,计算得到页面结构相似度;
基于页面结构,分别获取页面结构中每个叶子节点的Xpath和对应层次深度,并分别对每个层次深度设置不同的权重,计算得到页面结构相似度,具体包括:遍历基线库中页面树形结构封装为原始节点Map(xpath,depth),其中,xpath为叶子节点在整体树结构中的xpath值,depth为叶子节点所在的深度层次;将原始节点Map结构转换为MapA(noNumXpath,XpathNode),其中,noNumberXpath为原始节点xpath清除数字下标后的值,XpathNode为相同noNumXpath对应的重复次数和深度对应的数据结构;
并将当前页面的原始节点结构转换为MapB(noNumXpath,XpathNode);
结合不同层次深度的权重,分别计算综合权重值SumA=MapA.depth.weight*count和SumB=MapB.depth.weight*count,并计算分母值SumValue=SumA+SumB;
遍历MapA,根据MapA的key:noNumXpath,查找MapB中是否存在对应项;
如果存在,计算MapA.XpathNode.count和MapB.XpathNode.count差值的绝对值,并赋值给MapB.XpathNode.count,删除MapA的对应项;
如果不存在,则不作处理;
遍历完成后得到NewMapA和NewMapB,计算分子值OffsetSumValue=NewMapA-NewMapB;
根据公式pageStructureSim=1-OffsetSumValue/SumValue计算得到页面结构相似度值。
2.根据权利要求1所述的方法,其特征在于,所述将待检测的网页抽取为网页内容和网页结构之前,还包括:
对所述网页的页面富文本进行Hash,并与基线库中网页的Hash值进行对比;
如果Hash值未发生变化,则确定页面未发生篡改;
如果Hash值发现变化,则将待检测的网页抽取为网页内容和网页结构。
3.根据权利要求1所述的方法,其特征在于,所述计算网页内容相似度,具体包括:
提取基线库中所述网页的页面内容与当前网页的页面内容进行对比,基于余弦相似度算法计算所述网页的页面内容相似度。
4.根据权利要求1所述的方法,其特征在于,所述分别对每个层次深度设置不同的权重,具体包括:
分别对每个层次深度设置不同的权重,且深度越小设置的权重越小。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,对所述网页内容的相似度和所述网页结构的相似度进行融合,根据融合后的相似度值判断所述网页是否发生篡改,具体包括:
根据相似度值=pageContentSim*a+pageStructureSim*b,其中pageContentSim为页面内容相似度值,pageStructureSim为页面结构相似度值,a、b分别为预设的权重值;
根据所述相似度值,结合判定篡改策略,得出页面是否篡改的结果。
6.根据权利要求1-4中任意一项所述的方法,其特征在于,根据融合后的相似度值判断网页是否被篡改,具体包括:
根据融合后的相似度值,结合浏览器渲染机制和网页特性计算出基于富文本的网页相似度值,判断网页是否被篡改。
7.一种服务器,其特征在于,所述服务器包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的计算机指令,以实现权利要求1至6中任一项所述的监控网页的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至6中任一项所述的监控网页的方法。
CN201711363638.1A 2017-12-18 2017-12-18 一种监控网页的方法、服务器及计算机可读存储介质 Active CN108021692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711363638.1A CN108021692B (zh) 2017-12-18 2017-12-18 一种监控网页的方法、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711363638.1A CN108021692B (zh) 2017-12-18 2017-12-18 一种监控网页的方法、服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108021692A CN108021692A (zh) 2018-05-11
CN108021692B true CN108021692B (zh) 2022-03-11

Family

ID=62073773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711363638.1A Active CN108021692B (zh) 2017-12-18 2017-12-18 一种监控网页的方法、服务器及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108021692B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753790A (zh) * 2018-11-29 2019-05-14 武汉极意网络科技有限公司 一种落地页监控方法及系统
CN110134901B (zh) * 2019-04-30 2023-06-16 哈尔滨英赛克信息技术有限公司 一种基于流量分析的多链路网页篡改判定方法
CN110196926A (zh) * 2019-06-10 2019-09-03 北京字节跳动网络技术有限公司 对象处理方法、装置、电子设备及计算机可读存储介质
CN110995732A (zh) * 2019-12-12 2020-04-10 杭州安恒信息技术股份有限公司 一种网页篡改检测方法及相关装置
CN113743970A (zh) * 2020-05-29 2021-12-03 北京达佳互联信息技术有限公司 落地页的检测方法和装置
CN111783159A (zh) * 2020-07-07 2020-10-16 杭州安恒信息技术股份有限公司 网页篡改的验证方法、装置、计算机设备和存储介质
CN112328291A (zh) * 2020-12-11 2021-02-05 上海市民信箱信息服务有限公司 一种app轻应用市场软件版本管控的方法
CN112528190A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于片化结构与内容的网页篡改评判方法、装置及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728655A (zh) * 2004-11-25 2006-02-01 刘文印 一种检测鉴别假冒网页的方法及系统
CN101694668A (zh) * 2009-09-29 2010-04-14 百度在线网络技术(北京)有限公司 网页结构相似性确定方法及装置
CN102624713A (zh) * 2012-02-29 2012-08-01 深信服网络科技(深圳)有限公司 网站篡改识别的方法及装置
CN102682098A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN104133870A (zh) * 2014-07-22 2014-11-05 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
CN104462582A (zh) * 2014-12-30 2015-03-25 武汉大学 一种基于结构和内容二级过滤的Web数据相似性检测方法
CN105528357A (zh) * 2014-09-30 2016-04-27 中国银联股份有限公司 一种基于url和网页文档结构的相似性的网页内容提取方法
CN105630772A (zh) * 2016-01-26 2016-06-01 广东工业大学 一种网页评论内容的抽取方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置
CN106599242A (zh) * 2016-12-20 2017-04-26 福建六壬网安股份有限公司 一种基于相似度计算的网页变更监测方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
US9723016B2 (en) * 2015-05-14 2017-08-01 International Business Machines Corporation Detecting web exploit kits by tree-based structural similarity search

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728655A (zh) * 2004-11-25 2006-02-01 刘文印 一种检测鉴别假冒网页的方法及系统
CN101694668A (zh) * 2009-09-29 2010-04-14 百度在线网络技术(北京)有限公司 网页结构相似性确定方法及装置
CN102624713A (zh) * 2012-02-29 2012-08-01 深信服网络科技(深圳)有限公司 网站篡改识别的方法及装置
CN102682098A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN104133870A (zh) * 2014-07-22 2014-11-05 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
CN105528357A (zh) * 2014-09-30 2016-04-27 中国银联股份有限公司 一种基于url和网页文档结构的相似性的网页内容提取方法
CN104462582A (zh) * 2014-12-30 2015-03-25 武汉大学 一种基于结构和内容二级过滤的Web数据相似性检测方法
CN105630772A (zh) * 2016-01-26 2016-06-01 广东工业大学 一种网页评论内容的抽取方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置
CN106599242A (zh) * 2016-12-20 2017-04-26 福建六壬网安股份有限公司 一种基于相似度计算的网页变更监测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于DOM树的网页相似度研究与应用;张瑞雪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111015(第10期);I139-250 *
基于局部变化性的网页篡改识别模型及方法;魏文晗 等;《计算机应用》;20130201;第33卷(第2期);430-433 *
网页篡改检测模型的研究与实现;孙鹏建;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815(第08期);摘要、第3-4页第1.2.2节、第9-12页第2.2.2-2.2.3节、第15-16页第2.4节、第21-47页第3-4章、第48页第5.1节 *

Also Published As

Publication number Publication date
CN108021692A (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
CN108021692B (zh) 一种监控网页的方法、服务器及计算机可读存储介质
US8898296B2 (en) Detection of boilerplate content
US9448999B2 (en) Method and device to detect similar documents
US10261984B2 (en) Browser and operating system compatibility
CN109597972B (zh) 一种基于网页框架的网页动态变化和篡改检测方法
CN102541937B (zh) 一种网页信息探测方法及系统
JP6203374B2 (ja) ウェブページ・スタイルアドレスの統合
US9100434B2 (en) Web page falsification detection apparatus and storage medium
CN104572934B (zh) 一种基于dom的网页关键内容抽取方法
CN106649221A (zh) 重复文本的检测方法及装置
CN102915361A (zh) 一种基于文字分布特征的网页正文提取方法
CN104133870A (zh) 一种网页相似度计算方法及装置
CN114817811B (zh) 一种网站解析方法和装置
CN102779172B (zh) 一种网页中非正文文本的识别系统及方法
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN109657472B (zh) Sql注入漏洞检测方法、装置、设备及可读存储介质
CN112470154B (zh) 检测web网页安全性的方法和装置
CN107786529B (zh) 网站的检测方法、装置及系统
CN114254069A (zh) 域名相似度的检测方法、装置和存储介质
CN111061975A (zh) 一种页面中无关内容的处理方法、装置
CN103577449B (zh) 钓鱼网站特性自学习挖掘方法及系统
CN114048471A (zh) 一种网页漏洞检测方法、装置、电子设备及存储介质
Li et al. Algorithm of web page similarity comparison based on visual block
CN108664511A (zh) 获取网页信息方法和装置
Bailey et al. Tree-map visualisation for web accessibility

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant