CN107612908B - 网页篡改监测方法及装置 - Google Patents
网页篡改监测方法及装置 Download PDFInfo
- Publication number
- CN107612908B CN107612908B CN201710837652.4A CN201710837652A CN107612908B CN 107612908 B CN107612908 B CN 107612908B CN 201710837652 A CN201710837652 A CN 201710837652A CN 107612908 B CN107612908 B CN 107612908B
- Authority
- CN
- China
- Prior art keywords
- dom tree
- similarity
- labels
- webpage
- similarities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Storage Device Security (AREA)
Abstract
本发明提供了一种网页篡改监测方法及装置,涉及信息安全领域。该方法首先获取被监测网页对应的第一DOM树结构,计算第一DOM树结构与基准结构的第一相似性,获得第一相似度,然后在判断第一相似度小于第一预设相似度时,获取被监测网页对应的多个第二DOM树结构,分别计算该基准结构和多个第二DOM树结构的第二相似性,获得多个第二相似度,最后在判断多个第二相似度均小于第二预设相似度时,判定被监测网页发生篡改。本发明能够缓解现有网页篡改监测不准确且容易造成误判的问题。
Description
技术领域
本发明涉及信息安全领域,具体而言,涉及一种网页篡改监测方法及装置。
背景技术
网页篡改是指网站的网页被篡改的事件,默认指网站在非授权的情况被外部攻击者(黑客等),以非法手段进行篡改,修改页面内容,以达到篡改者的目的。
篡改攻击者篡改网站的原因和情况有多种多样,一般来说包括以下几种原因:黑色产业链等商业利益驱动的、政治目的的、黑客炫耀技术的。出于不同目的网页篡改行为,其网页视觉呈现(浏览器渲染之后的)表象也不一样。
一般来说出于商业利益链的搜索引擎优化SEO(Search Engine Optimization)篡改,不会修改网页视觉呈现;出于政治目的、炫耀技术的一般会去修改首页,但是现有技术中,对于网页的篡改行为的监测,是基于特征库,即关键字来进行监测,这种监测方法不准确且容易造成误判。
发明内容
有鉴于此,本发明实施例的目的在于提供一种网页篡改监测方法及装置,以缓解现有网页篡改监测不准确且容易造成误判的问题。
第一方面,本发明实施例提供了一种网页篡改监测方法,所述方法包括:获取被监测网页对应的第一DOM树结构;计算所述第一DOM树结构与基准结构的第一相似性,获得第一相似度;判断所述第一相似度是否小于第一预设相似度;在为是时,获取所述被监测网页对应的多个第二DOM树结构;分别计算所述基准结构和所述多个第二DOM树结构的第二相似性,获得多个第二相似度;判断所述多个第二相似度是否均小于第二预设相似度;在均为是时,判定所述被监测网页发生篡改。
第二方面,本发明实施例提供了一种网页篡改监测装置,所述装置包括:第一DOM树结构获取模块,用于获取被监测网页对应的第一DOM树结构;第一相似度获取模块,用于计算所述第一DOM树结构与基准结构的第一相似性,获得多个第一相似度;第一相似度判断模块,用于判断所述第一相似度是否均小于第一预设相似度;第二DOM树结构获取模块,用于在为是时,获取所述被监测网页对应的多个第二DOM树结构;第二相似度获取模块,用于分别计算所述基准结构和所述多个第二DOM树结构的第二相似性,获得多个第二相似度;第二相似度判断模块,用于判断所述多个第二相似度是否均小于第二预设相似度;网页篡改判定模块,用于在均为是时,判定所述被监测网页发生篡改。
与现有技术相比,本发明各实施例提供的网页篡改方法及装置首先获取被监测网页对应的第一DOM树结构,计算第一DOM树结构与基准结构的第一相似性,获得第一相似度,再判断第一相似度小于第一预设相似度时,获取被监测网页对应的多个第二DOM树结构,分别计算该基准结构和多个第二DOM树结构的第二相似性,获得多个第二相似度,最后判断多个第二相似度均小于第二预设相似度时,判定被监测网页发生篡改,从而能够缓解现有网页篡改监测不准确且容易造成误判的问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的电子设备的结构框图;
图2为本发明第一实施例提供的网页篡改监测方法的流程示意图;
图3为本发明第一实施例提供的网页篡改监测方法的步骤S101的流程示意图;
图4为本发明第一实施例提供的网页篡改监测方法的步骤S108的流程示意图;
图5为本发明第二实施例提供的网页篡改监测装置的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,是电子设备100的方框示意图。所述电子设备100包括:网页篡改监测装置、存储器110、存储控制器120、处理器130、外设接口140、输入输出单元150、音频单元160、显示单元170。
所述存储器110、存储控制器120、处理器130、外设接口140、输入输出单元150、音频单元160以及显示单元170各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述网页篡改监测装置包括至少一个可以软件或固件(firmware)的形式存储于所述存储器中或固化在所述客户端设备的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行存储器110中存储的可执行模块,例如所述网页篡改监测装置包括的软件功能模块或计算机程序。
其中,存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器110用于存储程序,所述处理器130在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器130中,或者由处理器130实现。
处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器130可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述外设接口140将各种输入/输入装置耦合至处理器130以及存储器110。在一些实施例中,外设接口140,处理器130以及存储控制器120可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元150用于提供给用户输入数据实现用户与电子设备100的交互。所述输入输出单元150可以是,但不限于,鼠标和键盘等。
音频单元160向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元170在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元170可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器130进行计算和处理。
第一实施例
请参照图2,图2是本发明第一实施例提供的一种网页篡改监测方法的流程示意图。下面将对图2所示的流程进行详细阐述,所述方法包括:
步骤S101:获取所述被监测网页对应的多个第三DOM树结构。
在本实施例中,经过发明人长期的研究发现,从技术角度来看,大部分网页篡改都会修改网页的文档对象模型DOM(Document Object Model)树结构,因此,可以基于此对网页篡改进行监测。
具体的,首先获取被监测网页对应的多个第三DOM树结构,其中,获取的第三DOM树结构的数量可以为3个、可以为4个、可以为5个等等,可以理解的,获取多个第三DOM树结构以便提高测量数据的准确性。优选的,在本实施例中,获取的第一DOM树结构的数量为3个,
请参照图3,图3示出了本发明第一实施例提供的网页篡改监测方法的步骤S101的流程示意图。下面将针对图3所示的流程进行详细的阐述,所述方法包括:
步骤S1011:获取所述被监测网页的第二网页地址,并获取所述第二网页地址对应的第二源代码。
作为本实施例的一种实施方式,访问被监测网页地址,获取该被监测网页的第二网页地址,并获取该第二网页地址对应的HTML源代码,作为第二源代码。
步骤S1012:每隔第二预设时间提取所述第二源代码中的多个标签并剔除所述多个标签中的P标签和BR标签以及所述多个标签中其他标签的属性和属性值,以每隔第二预设时间获取所述第二源代码中剩余的源代码,其中,所述第二源代码中剩余的源代码为所述第三DOM树结构。
进一步的,在获取第二源代码后,每隔第二预设时间将第二源代码中的多个标签提取出来,并剔除多个标签中的P标签和BR标签,以及剔除多个标签中的其他标签的属性和属性值,可以理解,此时,第二源代码中剩余的源代码即为第三DOM树结构,从而每隔第二预设时间可以获取第三DOM树结构。
作为一种方式,在服务器中预先设置第二预设时间,该第二预设时间的大小为采集多个第三DOM树结构的时间间隔,因此,该第二预设时间根据具体的采集需要可以进行不同的设置,优选的,在本实施例中,第二预设时间为1秒,即每隔1秒获取一次第三DOM树结构。
步骤S102:计算所述多个第三DOM树结构中每两个第三DOM树结构的第三相似性,获得多个第三相似度。
在本实施例中,当获取多个第三DOM树结构后,对多个第三DOM树结构的第三相似性进行计算,作为一种方式,计算多个第三DOM树结构中每两个第三DOM树结构的第三相似性,即将多个第三DOM树结构两两计算相似性,获得多个第三相似度。例如,当获取的第三DOM树结构为三个时,计算三个第三DOM树结构的两两相似性,从而可计算获得三个第三相似度。
作为本实施例的一种实施方式,将获取的多个第三DOM树结构分片,并基于模糊哈希算法计算多个第三DOM树结构中每两个第三DOM树结构的第三相似性,获得多个第三相似度。
步骤S103:判断所述多个第三相似度是否均小于第三预设相似度。
可以理解的,在本实施例中,预先设置有第三预设相似度,优选的,该第三预设相似度为61.8%。在获取多个第三相似度后,将多个第三相似度与第三预设相似度一一对比,以判断多个第三相似度是否均小于第三预设相似度。
步骤S104:在均为否时,将所述多个第三DOM树结构中获取的最后一个第三DOM树结构作为基准结构。
作为本实施例的一种实施方式,在均为否时,即多个第三相似度均小于第三预设相似度时,将多个第三DOM树结构中获取的最后一个第三DOM树结构作为基准结构,并重新开始监测。
步骤S105:获取被监测网页对应的第一DOM树结构。
进一步的,当将多个第三DOM树结构中获取的最后一个第三DOM树结构作为基准结构后,获取将多个第三DOM树结构中获取的最后一个第三DOM树结构作为基准结构后的被监测网页对应的第一DOM树结构。
步骤S106:计算所述第一DOM树结构与基准结构的第一相似性,获得第一相似度。
在本实施例中,当获取第一DOM树结构后,对第一DOM树结构和基准结构的相关性进行计算,作为一种方式,将获取的第一DOM树结构和基准结构分片,并基于模糊哈希算法计算第一DOM树结构和基准结构的第一相似性,获得第一相似度。
步骤S107:判断所述第一相似度是否小于第一预设相似度。
可以理解的,在本实施例中,预先设置有第一预设相似度,优选的,该第一预设相似度为40%。在获取第一相似度后,将第一相似度与第一预设相似度进行对比,以判断多个第一相似度是否小于第一预设相似度。
步骤S108:在为是时,获取所述被监测网页对应的多个第二DOM树结构。
其中,在为是时,即第一相似度小于第一预设相似度时,获取被监测网页对应的多个第二DOM树结构,其中,获取的第二DOM树结构的数量可以为2个、可以为3个、可以为4个、可以为5个等等,优选的,该第二DOM树结构的数量为2个。
可以理解的,在为否时,即第一相似度大于第一预设相似度时,将获取的第一DOM树结构作为新的基准结构,再重复上述步骤以对网页篡改进行监测,其中,更新基准结构是为了保证网站正常的更新不会被判定为误报。
请参照图4,图4示出了本发明第一实施例提供的网页篡改监测方法的步骤S108的流程示意图。下面将针对图4所示的流程进行详细的阐述,所述方法包括:
步骤S1081:获取所述被监测网页的第一网页地址,并获取所述第一网页地址对应的第一源代码。
作为本实施例的一种实施方式,访问被监测网页地址,获取该被监测网页的第一网页地址,并获取该第一网页地址对应的HTML源代码,作为第一源代码。
步骤S1082:每隔第一预设时间提取所述第一源代码中的多个标签并剔除所述多个标签中的P标签和BR标签以及所述多个标签中其他标签的属性和属性值,以每隔第一预设时间获取所述第一源代码中剩余的源代码,其中,所述第一源代码中剩余的源代码为所述第二DOM树结构。
进一步的,在获取第一源代码后,每隔第一预设时间将第一源代码中的多个标签提取出来,并剔除多个标签中的P标签和BR标签,以及剔除多个标签中的其他标签的属性和属性值,可以理解,此时,第一源代码中剩余的源代码即为第二DOM树结构,从而每隔第一预设时间可以获取第二DOM树结构。
作为一种方式,在服务器中预先设置第一预设时间,该第一预设时间的大小为采集多个第二DOM树结构的时间间隔,因此,该第一预设时间根据具体的采集需要可以进行不同的设置,优选的,在本实施例中,第一预设时间为5秒,即每隔5秒获取一个第二DOM树结构。
步骤S109:分别计算所述基准结构和所述多个第二DOM树结构的第二相似性,获得多个第二相似度。
在本实施例中,当获取多个第二DOM树结构后,对多个第二DOM树结构和基准结构的相关性进行计算,作为一种方式,将获取的多个第二DOM树结构和基准结构分片,并基于模糊哈希算法计算多个第二DOM树结构和基准结构的第二相似性,获得多个第一相似度。
步骤S110:判断所述多个第二相似度是否均小于第二预设相似度。
可以理解的,在本实施例中,预先设置有第二预设相似度,优选的,该第二预设相似度为40%。在获取多个第二相似度后,将多个第二相似度与第二预设相似度一一对比,以判断多个第二相似度是否均小于第二预设相似度。
步骤S111:在均为是时,判定所述被监测网页发生篡改。
在本实施例中,在均为是时,即多个第二相似度均小于第二预设相似度时,判定被监测网页发生篡改。进一步的,调用外置的告警机制,通告篡改行为,并进行下一轮监测。
本发明第一实施例提供的网页篡改监测方法首先获取被监测网页对应的多个第三DOM树结构,计算多个第三DOM树结构中每两个第三DOM树结构的第三相似性,获得多个第三相似度,判断第三相似度是否小于第三预设相似度,在为否时,将多个第三DOM树结构中获取的最后一个第三DOM树结构作为基准结构,然后获取被监测网页对应的第一DOM树结构,计算第一DOM树结构与基准结构的第一相似性,获得第一相似度,再判断第一相似度小于第一预设相似度时,获取被监测网页对应的多个第二DOM树结构,分别计算该基准结构和多个第二DOM树结构的第二相似性,获得多个第二相似度,最后判断多个第二相似度均小于第二预设相似度时,判定被监测网页发生篡改,从而能够缓解现有网页篡改监测不准确且容易造成误判的问题。
第二实施例
请参照图5,图5是本发明第三实施例提供的一种网页篡改监测装置200的结构框图。下面将对图5所示的结构框图进行阐述,所示网页篡改装置200包括:第三DOM树结构获取模块201、第三相似度获取模块202、第三相似度判断模块203、基准结构替换模块204、第一DOM树结构获取模块205、第一相似度获取模块206、第一相似度判断模块207、第二DOM树结构获取模块208、第二相似度获取模块209、第二相似度判断模块210以及网页篡改判定模块211,其中:
第三DOM树结构获取模块201,用于获取所述被监测网页对应的多个第三DOM树结构,作为一种方式,该第三DOM树结构获取模块201包括:第二源代码获取子模块2011和第三DOM树获取子模块2012,其中:
第二源代码获取子模块2011,用于获取所述被监测网页的第二网页地址,并获取所述第二网页地址对应的第二源代码。
第三DOM树获取子模块2012,用于每隔第二预设时间提取所述第二源代码中的多个标签并剔除所述多个标签中的P标签和BR标签以及所述多个标签中其他标签的属性和属性值,以每隔第二预设时间获取所述第二源代码中剩余的源代码,其中,所述第二源代码中剩余的源代码为所述第三DOM树结构。
第三相似度获取模块202,用于计算所述多个第三DOM树结构中每两个第三DOM树结构的第三相似性,获得多个第三相似度。
第三相似度判断模块203,用于判断所述第三相似度是否小于第三预设相似度。
基准结构替换模块204,用于在为否时,将所述多个第三DOM树结构中获取的最后一个第三DOM树结构作为基准结构。
第一DOM树结构获取模块205,用于获取被监测网页对应的第一DOM树结构。
第一相似度获取模块206,用于计算所述第一DOM树结构与基准结构的第一相似性,获得多个第一相似度。
第一相似度判断模块207,用于判断所述第一相似度是否均小于第一预设相似度。
第二DOM树结构获取模块208,用于在为是时,获取所述被监测网页对应的多个第二DOM树结构,作为一种方式,第二DOM树结构获取模块208包括:第一源代码获取子模块2081和第二DOM树结构获取子模块2082,其中:
第一源代码获取子模块2081,用于获取所述被监测网页的第一网页地址,并获取所述第一网页地址对应的第一源代码。
第二DOM树结构获取子模块2082,用于每隔第一预设时间提取所述第一源代码中的多个标签并剔除所述多个标签中的P标签和BR标签以及所述多个标签中其他标签的属性和属性值,以每隔第一预设时间获取所述第一源代码中剩余的源代码,其中,所述第一源代码中剩余的源代码为所述第二DOM树结构。
第二相似度获取模块209,用于分别计算所述基准结构和所述多个第二DOM树结构的第二相似性,获得多个第二相似度。
第二相似度判断模块210,用于判断所述多个第二相似度是否均小于第二预设相似度。
网页篡改判定模块211,用于在均为是时,判定所述被监测网页发生篡改。
本实施例对网页篡改监测装置200的各功能模块实现各自功能的过程,请参见上述图1至图4所示实施例中描述的内容,此处不再赘述。
综上所述,本发明实施例提供的网页篡改方法及装置首先获取被监测网页对应的第一DOM树结构,计算第一DOM树结构与基准结构的第一相似性,获得第一相似度,再判断第一相似度小于第一预设相似度时,获取被监测网页对应的多个第二DOM树结构,分别计算该基准结构和多个第二DOM树结构的第二相似性,获得多个第二相似度,最后判断多个第二相似度均小于第二预设相似度时,判定被监测网页发生篡改,从而能够缓解现有网页篡改监测不准确且容易造成误判的问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种网页篡改监测方法,其特征在于,所述方法包括:
获取被监测网页对应的第一DOM树结构;
计算所述第一DOM树结构与基准结构的第一相似性,获得第一相似度;
判断所述第一相似度是否小于第一预设相似度;
在为是时,获取所述被监测网页对应的多个第二DOM树结构;
分别计算所述基准结构和所述多个第二DOM树结构的第二相似性,获得多个第二相似度;
判断所述多个第二相似度是否均小于第二预设相似度;
在均为是时,判定所述被监测网页发生篡改;
其中,所述获取被监测网页对应的第一DOM树结构之前,还包括:
获取所述被监测网页对应的多个第三DOM树结构;
计算所述多个第三DOM树结构中每两个第三DOM树结构的第三相似性,获得多个第三相似度;
判断所述多个第三相似度是否均小于第三预设相似度;
在均为否时,将所述多个第三DOM树结构中获取的最后一个第三DOM树结构作为基准结构。
2.根据权利要求1所述的方法,其特征在于,所述获取所述被监测网页对应的多个第二DOM树结构,包括:
获取所述被监测网页的第一网页地址,并获取所述第一网页地址对应的第一源代码;
每隔第一预设时间提取所述第一源代码中的多个标签并剔除所述多个标签中的P标签和BR标签以及所述多个标签中其他标签的属性和属性值,以每隔第一预设时间获取所述第一源代码中剩余的源代码,其中,所述第一源代码中剩余的源代码为所述第二DOM树结构。
3.根据权利要求2所述的方法,其特征在于,所述获取所述被监测网页对应的多个第三DOM树结构,包括:
获取所述被监测网页的第二网页地址,并获取所述第二网页地址对应的第二源代码;
每隔第二预设时间提取所述第二源代码中的多个标签并剔除所述多个标签中的P标签和BR标签以及所述多个标签中其他标签的属性和属性值,以每隔第二预设时间获取所述第二源代码中剩余的源代码,其中,所述第二源代码中剩余的源代码为所述第三DOM树结构。
4.根据权利要求3所述的方法,其特征在于,所述第一预设相似度为40%,所述第二预设相似度为40%,所述第三预设相似度为61.8%,所述第一预设时间为1秒,所述第二预设时间为5秒。
5.根据权利要求1所述的方法,其特征在于,所述计算所述第一DOM树结构与基准结构的第一相似性,获得第一相似度,包括:
将所述第一DOM树结构和所述基准结构分片,并基于模糊哈希算法计算所述第一DOM树结构和所述基准结构的第一相似性,获得所述第一相似度;
所述分别计算所述基准结构和所述多个第二DOM树结构的第二相似性,获得多个第二相似度,包括:
将所述基准结构和所述多个第二DOM树结构分片,并基于所述模糊哈希算法分别计算所述基准结构和所述多个第二DOM树结构的第二相似性,获得所述多个第二相似度;
所述计算所述多个第三DOM树结构中每两个第三DOM树结构的第三相似性,获得多个第三相似度,包括:
将所述多个第三DOM树结构分片,并基于所述模糊哈希算法计算所述多个第三DOM树结构中每两个第三DOM树结构的第三相似性,获得所述第三相似度。
6.一种网页篡改监测装置,其特征在于,所述装置包括:
第一DOM树结构获取模块,用于获取被监测网页对应的第一DOM树结构;
第一相似度获取模块,用于计算所述第一DOM树结构与基准结构的第一相似性,获得第一相似度;
第一相似度判断模块,用于判断所述第一相似度是否小于第一预设相似度;
第二DOM树结构获取模块,用于在为是时,获取所述被监测网页对应的多个第二DOM树结构;
第二相似度获取模块,用于分别计算所述基准结构和所述多个第二DOM树结构的第二相似性,获得多个第二相似度;
第二相似度判断模块,用于判断所述多个第二相似度是否均小于第二预设相似度;
网页篡改判定模块,用于在均为是时,判定所述被监测网页发生篡改;
其中,所述装置,还包括:
第三DOM树结构获取模块,用于获取所述被监测网页对应的多个第三DOM树结构;
第三相似度获取模块,用于计算所述多个第三DOM树结构中每两个第三DOM树结构的第三相似性,获得多个第三相似度;
第三相似度判断模块,用于判断所述多个第三相似度是否均小于第三预设相似度;
基准结构替换模块,用于在均为否时,将所述多个第三DOM树结构中获取的最后一个第三DOM树结构作为基准结构。
7.根据权利要求6所述的装置,其特征在于,所述第二DOM树结构获取模块,包括:
第一源代码获取子模块,用于获取所述被监测网页的第一网页地址,并获取所述第一网页地址对应的第一源代码;
第二DOM树结构获取子模块,用于每隔第一预设时间提取所述第一源代码中的多个标签并剔除所述多个标签中的P标签和BR标签以及所述多个标签中其他标签的属性和属性值,以每隔第一预设时间获取所述第一源代码中剩余的源代码,其中,所述第一源代码中剩余的源代码为所述第二DOM树结构。
8.根据权利要求7所述的装置,其特征在于,第三DOM树结构获取模块,包括:
第二源代码获取子模块,用于获取所述被监测网页的第二网页地址,并获取所述第二网页地址对应的第二源代码;
第三DOM树获取子模块,用于每隔第二预设时间提取所述第二源代码中的多个标签并剔除所述多个标签中的P标签和BR标签以及所述多个标签中其他标签的属性和属性值,以每隔第二预设时间获取所述第二源代码中剩余的源代码,其中,所述第二源代码中剩余的源代码为所述第三DOM树结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710837652.4A CN107612908B (zh) | 2017-09-15 | 2017-09-15 | 网页篡改监测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710837652.4A CN107612908B (zh) | 2017-09-15 | 2017-09-15 | 网页篡改监测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107612908A CN107612908A (zh) | 2018-01-19 |
CN107612908B true CN107612908B (zh) | 2020-06-05 |
Family
ID=61060444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710837652.4A Active CN107612908B (zh) | 2017-09-15 | 2017-09-15 | 网页篡改监测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107612908B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520185A (zh) * | 2018-04-16 | 2018-09-11 | 深信服科技股份有限公司 | 检测网页篡改的方法、装置、设备及计算机可读存储介质 |
CN108650250B (zh) * | 2018-04-27 | 2021-07-23 | 奇安信科技集团股份有限公司 | 非法页面检测方法、系统、计算机系统和可读存储介质 |
CN108920589B (zh) * | 2018-06-26 | 2021-08-10 | 百度在线网络技术(北京)有限公司 | 浏览劫持识别方法、装置、服务器及存储介质 |
CN109543127B (zh) * | 2018-11-26 | 2020-12-11 | 杭州安恒信息技术股份有限公司 | 一种页面刷新方法、装置、设备及可读存储介质 |
CN109597972B (zh) * | 2018-12-10 | 2023-05-30 | 杭州全维技术股份有限公司 | 一种基于网页框架的网页动态变化和篡改检测方法 |
CN111581672A (zh) * | 2020-05-14 | 2020-08-25 | 杭州安恒信息技术股份有限公司 | 网页篡改检测的方法、系统、计算机设备和可读存储介质 |
CN113420252A (zh) * | 2021-07-21 | 2021-09-21 | 北京字节跳动网络技术有限公司 | 一种代理网页检测方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129528A (zh) * | 2010-01-19 | 2011-07-20 | 北京启明星辰信息技术股份有限公司 | 一种web网页篡改识别方法及系统 |
WO2013097742A1 (zh) * | 2011-12-30 | 2013-07-04 | 北京奇虎科技有限公司 | 识别被篡改网页以及识别被劫持网址的方法及装置 |
CN106599242A (zh) * | 2016-12-20 | 2017-04-26 | 福建六壬网安股份有限公司 | 一种基于相似度计算的网页变更监测方法和系统 |
CN106960058A (zh) * | 2017-04-05 | 2017-07-18 | 金电联行(北京)信息技术有限公司 | 一种网页结构变更检测方法及系统 |
-
2017
- 2017-09-15 CN CN201710837652.4A patent/CN107612908B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129528A (zh) * | 2010-01-19 | 2011-07-20 | 北京启明星辰信息技术股份有限公司 | 一种web网页篡改识别方法及系统 |
WO2013097742A1 (zh) * | 2011-12-30 | 2013-07-04 | 北京奇虎科技有限公司 | 识别被篡改网页以及识别被劫持网址的方法及装置 |
CN106599242A (zh) * | 2016-12-20 | 2017-04-26 | 福建六壬网安股份有限公司 | 一种基于相似度计算的网页变更监测方法和系统 |
CN106960058A (zh) * | 2017-04-05 | 2017-07-18 | 金电联行(北京)信息技术有限公司 | 一种网页结构变更检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107612908A (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107612908B (zh) | 网页篡改监测方法及装置 | |
US20200394200A1 (en) | Website scoring system | |
US11562099B1 (en) | Sanitization of content displayed by web-based applications | |
US9665256B2 (en) | Identifying selected dynamic content regions | |
CN107204960B (zh) | 网页识别方法及装置、服务器 | |
US20170212671A1 (en) | Method and system for providing topic view in electronic device | |
AU2017221945A1 (en) | Method and device of identifying network access behavior, server and storage medium | |
CN102664925B (zh) | 一种展现搜索结果的方法及装置 | |
US11182354B1 (en) | Data analysis and processing engine | |
US10452723B2 (en) | Detecting malformed application screens | |
CN110619103A (zh) | 网页图文检测方法、装置及存储介质 | |
US20190272559A1 (en) | Detecting and resolving semantic misalignments between digital messages and external digital content | |
JP2008165292A (ja) | ウェブページの改竄検知装置、プログラム、および記録媒体 | |
US9081865B2 (en) | Identifying selected elements in dynamic content | |
CN112988776B (zh) | 文本解析规则的更新方法、装置、设备及可读存储介质 | |
US11449545B2 (en) | Deduplication of media file search results | |
US11301520B2 (en) | Artificial intelligence content detection system | |
US11126520B2 (en) | Skew detector for data storage system | |
CN112130944A (zh) | 页面异常的检测方法、装置、设备及存储介质 | |
US20170132064A1 (en) | Computer systems monitoring using beat frequency analysis | |
CN108563744B (zh) | 基于Redis数据库的慢查询方法、装置及终端设备 | |
CN107463573B (zh) | 内容信息提供方法、设备、浏览器、电子设备和服务器 | |
US20190228103A1 (en) | Content-Based Filtering of Elements | |
CN115730160A (zh) | 暗链检测方法、装置、电子设备及可读存储介质 | |
CN110781142B (zh) | 数据导入方法及装置、服务端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 310052 188 Lianhui street, Xixing street, Binjiang District, Hangzhou, Zhejiang Province Applicant after: DBAPPSECURITY Ltd. Address before: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310051 and 15 layer Applicant before: DBAPPSECURITY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |