CN111581672A - 网页篡改检测的方法、系统、计算机设备和可读存储介质 - Google Patents
网页篡改检测的方法、系统、计算机设备和可读存储介质 Download PDFInfo
- Publication number
- CN111581672A CN111581672A CN202010405576.1A CN202010405576A CN111581672A CN 111581672 A CN111581672 A CN 111581672A CN 202010405576 A CN202010405576 A CN 202010405576A CN 111581672 A CN111581672 A CN 111581672A
- Authority
- CN
- China
- Prior art keywords
- difference
- version
- webpage
- target
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 239000012634 fragment Substances 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 18
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000032683 aging Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Storage Device Security (AREA)
Abstract
本申请涉及一种网页篡改检测的方法、系统、计算机设备和可读存储介质,其中,该网页篡改检测的方法包括:将目标网页的历史版本进行对比,获取该目标网页的历史差异集合,对比该目标网页的第一版本和第二版本,生成差异列表,其中,该第一版本和该第二版本分别为不同时刻的该目标网页,在该差异列表中的差异项不在该历史差异集合中的情况下,判定该目标网页被篡改。通过本申请,解决了通过对比网页变化前后的相似度和预设的门限值,来判断网页是否被篡改,导致误报率和漏报率较高的问题,提高了网页篡改检测的速度,降低了误报率和漏报率。
Description
技术领域
本申请涉及网络安全技术领域,特别是涉及网页篡改检测的方法、系统、计算机设备和可读存储介质。
背景技术
网络技术的高速发展改变了人们的生活方式,各大互联网公司为了吸引更多的用户,经常对网页内容进行更新,而不法分子为了谋取利益,也会通过篡改网页链接的方式进行广告投放,以欺骗网络用户。
在相关技术中,对网页篡改的检测,需要对变化前和变化后的网页进行相似度计算,然后将相似度和篡改的门限值进行对比,在相似度小于门限值的情况下,认为网页被篡改。然而,在网页进行正常的风格调整或者新版本发布的情况下,会产生大量误报,一些隐蔽的篡改行为,例如在文章中插入文字广告等,又可能会被忽略,从而导致误报率和漏报率比较高。
目前针对相关技术中,通过对比网页变化前后的相似度和预设的门限值,来判断网页是否被篡改,会导致误报率和漏报率较高的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种网页篡改检测的方法、系统、计算机设备和可读存储介质,以至少解决相关技术中通过对比网页变化前后的相似度和预设的门限值,来判断网页是否被篡改,导致误报率和漏报率较高的问题。
第一方面,本申请实施例提供了一种网页篡改检测的方法,所述方法包括:
将目标网页的历史版本进行对比,获取所述目标网页的历史差异集合;
对比所述目标网页的第一版本和第二版本,生成差异列表,其中,所述第一版本和所述第二版本分别为不同时刻的所述目标网页;
在所述差异列表中的差异项不在所述历史差异集合中的情况下,判定所述目标网页被篡改。
在其中一些实施例中,所述对比所述目标网页的第一版本和第二版本,生成差异列表包括:
遍历所述第一版本的标签,根据所有所述标签的标签名和属性信息,生成第一描述符序列,遍历所述第二版本的标签,根据所有所述标签的标签名和属性信息,生成第二描述符序列;
获取所述第一描述符序列和所述第二描述符序列的最大公共描述符序列,根据所述最大公共描述符序列,将所述第一版本进行拆分得到第一网页片段集合,将所述第二版本进行拆分得到第二网页片段集合,其中,所述第一网页片段集合和所述第二网页片段集合对应;
将所述第一网页片段集合和所述第二网页片段集合进行对比,记录存在差异的片段的描述符,根据所述描述符形成差异片段描述符列表,作为所述差异列表。
在其中一些实施例中,所述将目标网页的历史版本进行对比,获取所述目标网页的历史差异集合包括:
根据所述差异片段描述符列表中的差异项和所述差异项的时间戳,形成所述历史差异集合;
根据预设检测频率,获取所述目标网页的不同版本,根据所述不同版本之间的差异项和所述差异项的时间戳,对所述历史差异集合进行更新。
在其中一些实施例中,在所述获取所述目标网页的历史差异集合之后,所述方法还包括:
根据预设周期,对所述历史差异集合中的数据进行删除。
在其中一些实施例中,在所述判定所述目标网页被篡改之后,所述方法还包括:
在所述判定为误判的情况下,将所述差异列表中的差异项加入所述历史差异集合。
第二方面,本申请实施例提供了一种网页篡改检测的系统,所述系统包括对比模块、生成模块和判定模块:
所述对比模块,用于将目标网页的历史版本进行对比,获取所述目标网页的历史差异集合;
所述生成模块,用于对比所述目标网页的第一版本和第二版本,生成差异列表,其中,所述第一版本和所述第二版本分别为不同时刻的所述目标网页;
所述判定模块,用于在所述差异列表中的差异项不在所述历史差异集合中的情况下,判定所述目标网页被篡改。
在其中一些实施例中,所述生成模块包括标签遍历单元、片段划分单元和片段对比单元:
所述标签遍历单元,用于遍历所述第一版本的标签,根据所有所述标签的标签名和属性信息,生成第一描述符序列,遍历所述第二版本的标签,根据所有所述标签的标签名和属性信息,生成第二描述符序列;
所述片段划分单元,用于获取所述第一描述符序列和所述第二描述符序列的最大公共描述符序列,根据所述最大公共描述符序列,将所述第一版本进行拆分得到第一网页片段集合,将所述第二版本进行拆分得到第二网页片段集合,其中,所述第一网页片段集合和所述第二网页片段集合对应;
所述片段对比单元,用于将所述第一网页片段集合和所述第二网页片段集合进行对比,记录存在差异的片段的描述符,根据所述描述符形成差异片段描述符列表,作为所述差异列表。
在其中一些实施例中,所述系统还包括示警模块:
所述示警模块,用于在判定所述目标网页被篡改之后,发出示警信号。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一所述方法。
相比于相关技术,本申请实施例提供的网页篡改检测的方法,通过将目标网页的历史版本进行对比,获取该目标网页的历史差异集合,对比该目标网页的第一版本和第二版本,生成差异列表,其中,该第一版本和该第二版本分别为不同时刻的目标网页,在该差异列表中的差异项不在历史差异集合中的情况下,判定该目标网页被篡改,解决了通过对比网页变化前后的相似度和预设的门限值,来判断网页是否被篡改,导致误报率和漏报率较高的问题,提高了网页篡改检测的速度,降低了误报率和漏报率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网页篡改检测的方法的应用环境示意图;
图2是根据本申请实施例的网页篡改检测的方法的流程图;
图3是根据本申请实施例的生成差异列表的方法的流程图;
图4是根据本申请实施例的生成历史差异集合的方法的流程图;
图5是根据本申请实施例的网页篡改检测的系统的结构框图;
图6是根据本申请实施例的生成模块的结构框图;
图7是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的网页篡改检测的方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的网页篡改检测的方法的应用环境示意图,如图1所示。其中,终端102与服务器104通过网络进行通信。服务器104获取终端102的目标网页的历史版本,并将历史版本进行对比,获取该目标网页的历史差异集合;服务器104对比终端102中目标网页的第一版本和第二版本,生成差异列表,其中,该第一版本和该第二版本分别为不同时刻的目标网页;在该差异列表中的差异项不在历史差异集合中的情况下,服务器104判定终端102的目标网页被篡改。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例提供了一种网页篡改检测的方法,图2是根据本申请实施例的网页篡改检测的方法的流程图,如图2所示,该方法包括如下步骤:
步骤S201,将目标网页的历史版本进行对比,获取该目标网页的历史差异集合。
网页是通常为超级文本标记语言(Hyper Text Markup Language,简称为HTML)格式的文件,是一个由标签组成的树型数据结构,在本实施例中,目标网页为用户想要进行监测的网页,例如,网站平台的登录页面或者首页。
网页的历史版本是指该网页在不同时刻的内容,包括网页的标签信息、标签属性和标签下的具体内容,例如文本、图片等等。
本实施例中,通过对比目标网页的历史版本,获取各个历史版本在标签信息、标签属性和标签下的具体内容之间的差异,从而形成历史差异集合。
步骤S202,对比该目标网页的第一版本和第二版本,生成差异列表,其中,该第一版本和该第二版本分别为不同时刻的该目标网页。
本实施例中的第一版本和第二版本可以为在时间上相邻的版本,例如,第二版本可以为当前需要进行检测的目标网页的版本,第一版本为与第二版本相邻的上一个版本。
本实施例中的差异列表可以根据第一版本和第二版本之间的不同得到,例如,根据目标网页的标签将第一版本和第二版本进行比较,在标签信息、标签属性或者标签下的具体内容存在不同的情况下,标记该标签,所有被标记的标签形成差异列表。
在其他实施例中,获取目标网页的不同版本,需要向网页统一资源定位符(Uniform Resource Locator,简称为URL)发起请求。
步骤S203,在该差异列表中的差异项不在该历史差异集合中的情况下,判定该目标网页被篡改。
其中,篡改为黑客通过一些非法途径,未经网站管理员授权,恶意修改网页内容的行为,该行为可能会为网站或者网站的用户造成损失。
本实施例中,将差异列表中的每一个差异项与历史差异集合进行对比,在差异项不存在于历史差异集合的情况下,表明该差异项很有可能来源于黑客篡改,在差异列表中所有的差异项都存在于历史差异集合的情况下,认为目标网页没有被篡改。
本实施例中的历史版本可以根据固定周期获取,该固定周期可以由用户设置,历史差异集合可以根据若干个周期下的历史版本得到,用户可以根据需要设置历史版本的数量,该历史版本的数量越多,历史差异集合越丰富,网页篡改检测的准确率就越高。
通过上述步骤S201至步骤S203,本实施例对目标网页的各个历史版本进行学习,形成历史差异集合,对目标网页的当前版本和上一个版本进行对比,形成差异列表,根据差异列表和历史差异集合的对比结果,判断当前版本的目标网页是否被恶意篡改。
而相关技术中,对网页篡改的检测,需要对变化前和变化后的网页进行相似度计算,然后将相似度和篡改的门限值进行对比,在相似度小于门限值的情况下,认为网页被篡改。然而,在网页进行正常的风格调整或者新版本发布的情况下,会产生大量误报,一些隐蔽的篡改行为,例如在文章中插入文字广告等,又可能会被忽略,因此相似度的高低与网页是否被篡改,相关性并不高,根据相似度进行网页篡改的检测,容易导致误报率和漏报率比较高,本实施例中,对不同版本之间的差异进行对比,由于只保存网页的历史差异集合,不保存整个网页,减少了数据量,降低了内存占用,解决了通过对比网页变化前后的相似度和预设的门限值,来判断网页是否被篡改,导致误报率和漏报率较高的问题,提高了网页篡改检测的速度,降低了误报率和漏报率。
在其中一些实施例中,图3是根据本申请实施例的生成差异列表的方法的流程图,如图3所示,该方法包括如下步骤:
步骤S301,遍历第一版本的标签,根据所有标签的标签名和属性信息,生成第一描述符序列,遍历第二版本的标签,根据所有标签的标签名和属性信息,生成第二描述符序列。
HTML格式的网页是一个标签组成的树型数据结构,对网页中的每一个标签,提取标签的标签名和属性信息,并提取该标签的祖先节点的标签名和属性信息,其中,该属性信息包括类(class)属性和标识符(identifier,简称为id)属性,然后按照层叠样式表(Cascading Style Sheets,简称为CSS)选择器的格式,生成一个字符串作为该标签的描述符。
本实施例对每个版本的所有标签进行遍历,按照标签在页面中出现的先后顺序,保存在数组中,生成描述符序列,例如,对第一版本生成第一描述符序列,对第二版本生成第二描述符序列。
步骤S302,获取该第一描述符序列和该第二描述符序列的最大公共描述符序列,根据该最大公共描述符序列,将第一版本进行拆分得到第一网页片段集合,将第二版本进行拆分得到第二网页片段集合,其中,第一网页片段集合和第二网页片段集合对应。
本实施例中,将第一描述符序列和第二描述符序列的最长公共子序列(LongestCommon Sequence,简称为LCS)作为最大公共描述符序列,其中LCS为在两个字符串中找到一个最长的公共子串,且不要求子串在原串中连续,例如,串A为“1、2、3、4、5、6、7”,串B为“1、3、4、5、8、7”,则串A和串B的公共子序列可以是“3、5”,“1、3、7”,“1、3、4、5”,“1、3、4、5、7”等等,其中,“1、3、4、5、7”为串A和串B的LCS。
本实施例根据最大公共描述符序列中标签出现的位置,分别将第一版本和第二版本进行拆分,得到第一网页片段集合和第二网页片段集合,由于这些标签同时出现在第一描述符序列和第二描述符序列中,所以第一网页片段集合和第二网页片段集合可以一一对应。
步骤S303,将第一网页片段集合和第二网页片段集合进行对比,记录存在差异的片段的描述符,根据该描述符形成差异片段描述符列表,作为差异列表。
本实施例中的第一网页片段集合和第二网页片段集合均包括多个片段。将第一网页片段集合中的片段和第二网页片段集合中的片段依次比较,在一个片段相同的情况下,继续比较下一个片段。如果第一网页片段集合和第二网页片段集合中的某个片段之间存在差异,记录该片段的描述符,然后继续比较下一个片段,将所有记录下来的描述符保存在数组中,形成差异片段描述符列表。
通过上述步骤S301至步骤S303,本实施例根据不同版本的目标网页的标签进行对比,得到差异列表,可以记录不同版本之间目标网页的微小改动,根据该微小改动进行网页篡改检测,在该微小改动存在于历史差异集合中的情况下,认为该微小改动是网页的正常更新,否则,判定该微小改动为篡改,可以大幅度减小隐蔽篡改的漏报,提高篡改检测的准确率。
在其中一些实施例中,图4是根据本申请实施例的生成历史差异集合的方法的流程图,如图4所示,该方法包括如下步骤:
步骤S401,根据差异片段描述符列表中的差异项和该差异项的时间戳,形成历史差异集合。
在形成历史差异集合的过程中,需要保存与差异片段描述符列表中的差异项对应的时间戳,以进行差异项的排序和时间查询。
在其他实施例中,在生成该差异片段描述符列表的过程中,需要向网页URL发起请求,以获得目标网页的内容,在第一次获取目标网页的情况下,保存目标网页的内容,用于与后续目标网页的版本进行对比。
本实施例中的差异片段描述符列表可以根据步骤S301至步骤S303得到。
步骤S402,根据预设检测频率,获取目标网页的不同版本,根据不同版本之间的差异项和该差异项的时间戳,对历史差异集合进行更新。
预设检测频率可以由用户根据需求进行设置,根据该预设检测频率得到检测的周期,在每个检测周期中,获得一个新的目标网页的版本,作为当前版本,对比当前版本和上一个检测周期中的版本,得到差异项和该差异项的时间戳,从而对历史差异集合进行更新。
在其他实施例中,还可以对当前版本的目标网页的内容进行保存,以便与下一个周期中的版本进行对比,并将上一个检测周期中保存的版本进行删除。
通过上述步骤S401和步骤S402,以预设频率对历史差异集合进行更新,可以对该历史差异集合进行完善,以记录目标网页中历史上发生过变更的位置和时间,在这些位置再次发生变化的情况下,该变化会被算法排除,从而大幅减少误报。
在一些实施例中,在获取目标网页的历史差异集合之后,该网页篡改检测的方法还包括:根据预设周期,对该历史差异集合中的数据进行删除。本实施例中的预设周期可以由用户根据自身需求设定,在设定预设周期之后,历史差异集合中的数据会按照预设周期,定期被删除。进一步地,用户还可以自行设置老化时间,在设置了老化时间的情况下,可以根据差异项的时间戳与老化时间的对比,删除历史差异集合中时间戳早于老化时间的数据。本实施例中定期对历史差异集合中的数据进行清除,可以减小网页篡改检测过程中需要存储的数据量,节省存储空间。
在一些实施例中,在判定目标网页被篡改之后,该网页篡改检测的方法还包括:在该判定为误判的情况下,将差异列表中的差异项加入历史差异集合。本实施例中,在发生误判的情况下,可以直接将误判出现的位置加入历史差异集合中,以减少同样位置再次发生误判的几率,通过对历史误判的分析提高网页篡改检测的准确率。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种网页篡改检测的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的网页篡改检测的系统的结构框图,如图5所示,该系统包括对比模块51、生成模块52和判定模块53:
对比模块51,用于将目标网页的历史版本进行对比,获取该目标网页的历史差异集合。
生成模块52,用于对比该目标网页的第一版本和第二版本,生成差异列表,其中,该第一版本和该第二版本分别为不同时刻的该目标网页。
判定模块53,用于在该差异列表中的差异项不在该历史差异集合中的情况下,判定该目标网页被篡改。
本实施例中对比模块51对目标网页的各个历史版本进行学习,形成历史差异集合,生成模块52对目标网页的当前版本和上一个版本进行对比,形成差异列表,判定模块53根据差异列表和历史差异集合的对比结果,判断当前版本的目标网页是否被恶意篡改,解决了通过对比网页变化前后的相似度和预设的门限值,来判断网页是否被篡改,导致误报率和漏报率较高的问题,提高了网页篡改检测的速度,降低了误报率和漏报率。
在一些实施例中,图6是根据本申请实施例的生成模块的结构框图,如图6所示,生成模块52包括标签遍历单元61、片段划分单元62和片段对比单元63:
标签遍历单元61,用于遍历该第一版本的标签,根据所有该标签的标签名和属性信息,生成第一描述符序列,遍历该第二版本的标签,根据所有该标签的标签名和属性信息,生成第二描述符序列。
片段划分单元62,用于获取该第一描述符序列和该第二描述符序列的最大公共描述符序列,根据该最大公共描述符序列,将该第一版本进行拆分得到第一网页片段集合,将该第二版本进行拆分得到第二网页片段集合,其中,该第一网页片段集合和该第二网页片段集合对应。
片段对比单元63,用于将该第一网页片段集合和该第二网页片段集合进行对比,记录存在差异的片段的描述符,根据该描述符形成差异片段描述符列表,作为该差异列表。
本实施例中,标签遍历单元61得到的不同的描述符序列,片段划分单元62根据最大公共描述符序列得到第一网页片段集合和第二网页片段集合,片段对比单元63将不同的片段集合一一进行对比,得到差异列表,可以记录不同版本之间目标网页的微小改动,根据该微小改动进行网页篡改检测,在该微小改动存在于历史差异集合中的情况下,认为该微小改动是网页的正常更新,否则,判定该微小改动为篡改,可以大幅度减小隐蔽篡改的漏报,提高篡改检测的准确率。
在一些实施例中,网页篡改检测的系统还包括示警模块,该示警模块用于在判定目标网页被篡改之后,发出示警信号。本实施例中的示警信号可以为声音信号或者光信号,还可以为在目标网页窗口中的弹窗,以提醒工作人员及时处理,避免造成损失。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页篡改检测的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图7是根据本申请实施例的电子设备的内部结构示意图,如图7所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页篡改检测的方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例提供的网页篡改检测的方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例提供的网页篡改检测的方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种网页篡改检测的方法,其特征在于,所述方法包括:
将目标网页的历史版本进行对比,获取所述目标网页的历史差异集合;
对比所述目标网页的第一版本和第二版本,生成差异列表,其中,所述第一版本和所述第二版本分别为不同时刻的所述目标网页;
在所述差异列表中的差异项不在所述历史差异集合中的情况下,判定所述目标网页被篡改。
2.根据权利要求1所述的方法,其特征在于,所述对比所述目标网页的第一版本和第二版本,生成差异列表包括:
遍历所述第一版本的标签,根据所有所述标签的标签名和属性信息,生成第一描述符序列,遍历所述第二版本的标签,根据所有所述标签的标签名和属性信息,生成第二描述符序列;
获取所述第一描述符序列和所述第二描述符序列的最大公共描述符序列,根据所述最大公共描述符序列,将所述第一版本进行拆分得到第一网页片段集合,将所述第二版本进行拆分得到第二网页片段集合,其中,所述第一网页片段集合和所述第二网页片段集合对应;
将所述第一网页片段集合和所述第二网页片段集合进行对比,记录存在差异的片段的描述符,根据所述描述符形成差异片段描述符列表,作为所述差异列表。
3.根据权利要求2所述的方法,其特征在于,所述将目标网页的历史版本进行对比,获取所述目标网页的历史差异集合包括:
根据所述差异片段描述符列表中的差异项和所述差异项的时间戳,形成所述历史差异集合;
根据预设检测频率,获取所述目标网页的不同版本,根据所述不同版本之间的差异项和所述差异项的时间戳,对所述历史差异集合进行更新。
4.根据权利要求1所述的方法,其特征在于,在所述获取所述目标网页的历史差异集合之后,所述方法还包括:
根据预设周期,对所述历史差异集合中的数据进行删除。
5.根据权利要求1所述的方法,其特征在于,在所述判定所述目标网页被篡改之后,所述方法还包括:
在所述判定为误判的情况下,将所述差异列表中的差异项加入所述历史差异集合。
6.一种网页篡改检测的系统,其特征在于,所述系统包括对比模块、生成模块和判定模块:
所述对比模块,用于将目标网页的历史版本进行对比,获取所述目标网页的历史差异集合;
所述生成模块,用于对比所述目标网页的第一版本和第二版本,生成差异列表,其中,所述第一版本和所述第二版本分别为不同时刻的所述目标网页;
所述判定模块,用于在所述差异列表中的差异项不在所述历史差异集合中的情况下,判定所述目标网页被篡改。
7.根据权利要求6所述的系统,其特征在于,所述生成模块包括标签遍历单元、片段划分单元和片段对比单元:
所述标签遍历单元,用于遍历所述第一版本的标签,根据所有所述标签的标签名和属性信息,生成第一描述符序列,遍历所述第二版本的标签,根据所有所述标签的标签名和属性信息,生成第二描述符序列;
所述片段划分单元,用于获取所述第一描述符序列和所述第二描述符序列的最大公共描述符序列,根据所述最大公共描述符序列,将所述第一版本进行拆分得到第一网页片段集合,将所述第二版本进行拆分得到第二网页片段集合,其中,所述第一网页片段集合和所述第二网页片段集合对应;
所述片段对比单元,用于将所述第一网页片段集合和所述第二网页片段集合进行对比,记录存在差异的片段的描述符,根据所述描述符形成差异片段描述符列表,作为所述差异列表。
8.根据权利要求6所述的系统,其特征在于,所述系统还包括示警模块:
所述示警模块,用于在判定所述目标网页被篡改之后,发出示警信号。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405576.1A CN111581672A (zh) | 2020-05-14 | 2020-05-14 | 网页篡改检测的方法、系统、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010405576.1A CN111581672A (zh) | 2020-05-14 | 2020-05-14 | 网页篡改检测的方法、系统、计算机设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111581672A true CN111581672A (zh) | 2020-08-25 |
Family
ID=72118909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010405576.1A Pending CN111581672A (zh) | 2020-05-14 | 2020-05-14 | 网页篡改检测的方法、系统、计算机设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581672A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113923472A (zh) * | 2021-09-01 | 2022-01-11 | 北京奇艺世纪科技有限公司 | 视频内容分析方法、装置、电子设备及存储介质 |
CN114969478A (zh) * | 2022-05-30 | 2022-08-30 | 上海弘玑信息技术有限公司 | 网页结构检测方法、设备和可读存储介质 |
CN115208677A (zh) * | 2022-07-19 | 2022-10-18 | 光大科技有限公司 | 一种恶意网址识别方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279475A (zh) * | 2013-04-11 | 2013-09-04 | 广东电网公司信息中心 | 一种web应用系统内容变更的检测方法及系统 |
CN103312887A (zh) * | 2012-12-28 | 2013-09-18 | 武汉安天信息技术有限责任公司 | 一种手机应用篡改识别系统、方法及装置 |
US20140330834A1 (en) * | 2013-05-03 | 2014-11-06 | International Business Machines Corporation | Comparing markup language files |
CN105630843A (zh) * | 2014-11-17 | 2016-06-01 | 广州市动景计算机科技有限公司 | 网页变化监控方法及装置 |
CN107612908A (zh) * | 2017-09-15 | 2018-01-19 | 杭州安恒信息技术有限公司 | 网页篡改监测方法及装置 |
CN108540466A (zh) * | 2018-03-31 | 2018-09-14 | 甘肃万维信息技术有限责任公司 | 基于网页篡改监控报警系统 |
CN110417718A (zh) * | 2018-12-27 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 处理网站中的风险数据的方法、装置、设备及存储介质 |
CN110427215A (zh) * | 2019-07-30 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种应用于前端开发的程序版本差异展示方法及装置 |
-
2020
- 2020-05-14 CN CN202010405576.1A patent/CN111581672A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103312887A (zh) * | 2012-12-28 | 2013-09-18 | 武汉安天信息技术有限责任公司 | 一种手机应用篡改识别系统、方法及装置 |
CN103279475A (zh) * | 2013-04-11 | 2013-09-04 | 广东电网公司信息中心 | 一种web应用系统内容变更的检测方法及系统 |
US20140330834A1 (en) * | 2013-05-03 | 2014-11-06 | International Business Machines Corporation | Comparing markup language files |
CN105630843A (zh) * | 2014-11-17 | 2016-06-01 | 广州市动景计算机科技有限公司 | 网页变化监控方法及装置 |
CN107612908A (zh) * | 2017-09-15 | 2018-01-19 | 杭州安恒信息技术有限公司 | 网页篡改监测方法及装置 |
CN108540466A (zh) * | 2018-03-31 | 2018-09-14 | 甘肃万维信息技术有限责任公司 | 基于网页篡改监控报警系统 |
CN110417718A (zh) * | 2018-12-27 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 处理网站中的风险数据的方法、装置、设备及存储介质 |
CN110427215A (zh) * | 2019-07-30 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 一种应用于前端开发的程序版本差异展示方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113923472A (zh) * | 2021-09-01 | 2022-01-11 | 北京奇艺世纪科技有限公司 | 视频内容分析方法、装置、电子设备及存储介质 |
CN113923472B (zh) * | 2021-09-01 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 视频内容分析方法、装置、电子设备及存储介质 |
CN114969478A (zh) * | 2022-05-30 | 2022-08-30 | 上海弘玑信息技术有限公司 | 网页结构检测方法、设备和可读存储介质 |
CN115208677A (zh) * | 2022-07-19 | 2022-10-18 | 光大科技有限公司 | 一种恶意网址识别方法及装置 |
CN115208677B (zh) * | 2022-07-19 | 2024-01-30 | 光大科技有限公司 | 一种恶意网址识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190278787A1 (en) | Personalized content delivery system | |
CN109145215B (zh) | 网络舆情分析方法、装置及存储介质 | |
US9614862B2 (en) | System and method for webpage analysis | |
CN111581672A (zh) | 网页篡改检测的方法、系统、计算机设备和可读存储介质 | |
US8756313B2 (en) | Method and system for notifying network resource updates | |
US10904286B1 (en) | Detection of phishing attacks using similarity analysis | |
CN108134784B (zh) | 网页分类方法及装置、存储介质及电子设备 | |
US20140380477A1 (en) | Methods and devices for identifying tampered webpage and inentifying hijacked web address | |
US11689569B2 (en) | Methods and systems for honeyfile creation, deployment and management | |
CN111159775A (zh) | 网页篡改检测方法、系统、装置及计算机可读存储介质 | |
CN111737692B (zh) | 应用程序的风险检测方法及装置、设备、存储介质 | |
CN111639284A (zh) | 网页标注方法、装置、电子设备及介质 | |
CN110309667B (zh) | 一种网站暗链检测方法和装置 | |
CN115150261B (zh) | 告警分析的方法、装置、电子设备及存储介质 | |
CN104036190A (zh) | 一种检测页面篡改的方法及装置 | |
WO2016188334A1 (zh) | 一种用于处理应用访问数据的方法与设备 | |
Han et al. | CBR‐Based Decision Support Methodology for Cybercrime Investigation: Focused on the Data‐Driven Website Defacement Analysis | |
CN112217815B (zh) | 钓鱼网站的识别方法、装置和计算机设备 | |
CN110659435A (zh) | 页面数据采集处理方法、装置、计算机设备和存储介质 | |
CN105808636B (zh) | 一种基于app信息数据的超文本链接推送系统 | |
CN110460685B (zh) | 用户唯一标识处理方法、装置、计算机设备和存储介质 | |
CN114629875B (zh) | 主动探测的域名品牌保护方法及装置 | |
CN113987320A (zh) | 基于智能页面解析的实时资讯爬虫方法、装置及设备 | |
CN113111274A (zh) | 一种检测网页中隐藏暗链的方法和装置 | |
CN116304458B (zh) | 一种web页面实时通知更新方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200825 |