CN115114676A - 一种远程网页篡改监测方法、系统、设备及存储介质 - Google Patents

一种远程网页篡改监测方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115114676A
CN115114676A CN202210868483.1A CN202210868483A CN115114676A CN 115114676 A CN115114676 A CN 115114676A CN 202210868483 A CN202210868483 A CN 202210868483A CN 115114676 A CN115114676 A CN 115114676A
Authority
CN
China
Prior art keywords
webpage
tampering
page
monitoring method
remote
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210868483.1A
Other languages
English (en)
Inventor
邓楠轶
杨东
王文庆
崔鑫
董夏昕
介银娟
王艺杰
朱召鹏
崔逸群
毕玉冰
刘超飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Thermal Power Research Institute Co Ltd
Huaneng Group Technology Innovation Center Co Ltd
Original Assignee
Xian Thermal Power Research Institute Co Ltd
Huaneng Group Technology Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Thermal Power Research Institute Co Ltd, Huaneng Group Technology Innovation Center Co Ltd filed Critical Xian Thermal Power Research Institute Co Ltd
Priority to CN202210868483.1A priority Critical patent/CN115114676A/zh
Publication of CN115114676A publication Critical patent/CN115114676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种远程网页篡改监测方法、系统、设备及存储介质,包括:收集待监测网站的网页原始数据;从所述网页原始数据中提取页面元数据特征;将所述页面元数据特征输入到训练后的逻辑回归检测器中进行篡改检测;根据篡改检测结果判断待监测网站是否存在篡改,该方法、系统、设备及存储介质能够准确检测网页是否存在篡改。

Description

一种远程网页篡改监测方法、系统、设备及存储介质
技术领域
本发明属于信息安全技术领域,涉及一种远程网页篡改监测方法、系统、设备及存储介质。
背景技术
随着信息技术的发展,门户系统、信息系统越来越多的采用web应用模式。这些网站有些用来进行电子政务、企业宣传、生活服务等等功能,但是随着网站信息化建设随之带来的大量的安全问题。对用户观感最显著,同时也是最能给攻击者带来利益的问题就是“网页篡改”,攻击者利用被攻击网站在搜索引擎收录算法特点,大量攻击互联网网站植入暗链获取非法利益,甚至一些恶意攻击者会在受害者网站上挂载一些恶意图片、文字,对受害者剩余造成恶劣影响。因此,在互联网这个开放的环境下,如何能够迅速的识别出被篡改过的网站就变得也来越重要。
目前产业界内已经有了一些检测网页篡改的安全设备或应用软件,主要使用的技术手段是特征识别,此方法虽然能够识别出一部分的网页篡改,但黑产针对性的绕过特征使此方法在很多地方不能够起到有效作用。学术界也研究了一些基于相似度的匹配算法对网页篡改进行识别,但此方法存在性能与准确性较低的问题,在语义分析层面也存在误报率高的问题。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种远程网页篡改监测方法、系统、设备及存储介质,该方法、系统、设备及存储介质能够准确检测网页是否存在篡改。
为达到上述目的,本发明采用如下技术方案:
本发明一方面,本发明提供了一种远程网页篡改监测方法包括:
收集待监测网站的网页原始数据;
从所述网页原始数据中提取页面元数据特征;
将所述页面元数据特征输入到训练后的逻辑回归检测器中进行篡改检测;
根据篡改检测结果判断待监测网站是否存在篡改。
当篡改检测结果大于篡改阈值,则认为发生网页篡改,则对该页面标注存在篡改标签;
当篡改检测结果小于指定阈值,且大于最小阈值时,则认为可能存在网页篡改,再经人工验证进行确认,当确认结果为发生网页篡改时,则对该页面标注存在篡改标签,否则,则对该页面标注不存在网页篡改;当篡改检测结果小于最小阈值时,认定不存在网页篡改,则对该页面标注不存在篡改标签。
采用网页爬虫技术收集待监测网站的网页原始数据。
所述待监测网站的网页原始数据包括爬取时间、URL链接、页面原始内容及页面解析后内容。
所述页面元数据特征包括图片数量、body长度、网页跳转量、标签数量、网页历史相似度、域名泛解析信息、图片OCR信息及搜索引擎爬虫跳转量。
还包括:
收集页面元数据特征样本及其对应的标签,并以此构建训练数据样本;
利用训练数据样本对逻辑回归模型进行训练,得优化后的逻辑回归模型。
本发明二方面,本发明提供了一种远程网页篡改监测系统包括:
收集模块,用于收集待监测网站的网页原始数据;
提取模块,用于从所述网页原始数据中提取页面元数据特征;
检测模块,用于将所述页面元数据特征输入到训练后的逻辑回归检测器中进行篡改检测;
判断模块,用于根据篡改检测结果判断待监测网站是否存在篡改。
本发明三方面,本发明提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述远程网页篡改监测方法的步骤。
本发明四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述远程网页篡改监测方法的步骤。
本发明具有以下有益效果:
本发明所述的远程网页篡改监测方法、系统、设备及存储介质在具体操作时,通过将所述页面元数据特征输入到训练后的逻辑回归检测器中进行篡改检测,并根据篡改检测结果判断待监测网站是否存在篡改,以准确检测网页是否存在篡改,同时降低识别网页篡改中误报率高的问题,降低性能消耗,实现远程网页篡改监测。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的方法流程图;
图2为本发明的系统结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
实施例一
参考图1,本发明所述的远程网页篡改监测方法包括如下步骤:
1)建立基础特征库
所述基础特征库包括关键字特征库、IP黑名单库、域名黑名单库及隐藏区域正则匹配库,基础特征库的内容在模型构建中通过算法反馈添加识别的新内容。
其中,关键字特征库包含常见的网页篡改关键词,例如博彩、娱乐场及威尼斯人等内容;IP黑名单库包含从多渠道获取的已知恶意IP地址,其中,包含id、地址、来源及入库时间,例如,{1001,173.12.3.1,cert,2021-03-12 12:32:12};域名黑名单库包含从多渠道获取的已知恶意域名地址包含id、地址、来源及入库时间,如{1001,www.cr3ert.cc,cert,2021-03-13 12:11:00};隐藏区域正则匹配库包含匹配网页篡改中攻击者隐藏篡改内容的正则表达式,例如(<div[^>]+?(?=[^>]+?position\s*:\s*absolute)(?=[^>]+?z-index\s*:\s*-\d{1})[^>]*?>.+?</div>)。
2)网页爬虫
收集待监测网站的网页原始数据,使用爬虫与headless爬虫结合使用,以提升爬取的速度及准确性,并将爬取数据进行快照保存,保存内容包括爬取时间、URL链接、页面原始内容及页面解析后内容。
步骤2)中,采用普通爬虫与headless爬虫方式爬取监测网页信息,普通爬虫为不解析JS代码方式,可以快速获取网页原始信息,headless爬虫可模仿浏览器访问页面,获取JS代码执行后的页面内容,更真实。目前很多Web技术都采取动态渲染方式返回网页,同时还存在攻击者在开展网页篡改过程中常使用前端JS判断方式来进行恶意页面跳转或内容展示,例如常见的爬虫模式,被篡改页面只有检测到访问者是搜索引擎爬虫时,才执行JS代码跳转到恶意页面或将恶意内容解码插入页面之中,用户正常的访问是无法发现网页篡改,达到隐藏自身的目的,从而长期控制被篡改页面获取非法利益。同时将爬取网页信息按照原始页面及解析页面两种方式进行历史快照保存。本实例模拟爬取一个站点test.com,配置策略为爬取深度3,广度优先爬取,最大爬取1000链接(链接使用URL相似度算法进行去重),保存其两种爬取模式快照。
3)网页信息提取
从网页爬虫爬取的网页原始数据中提取页面元数据特征,所述页面元数据特征包括图片数量、body长度、网页跳转量、标签数量、网页历史相似度、域名泛解析信息、图片OCR信息及搜索引擎爬虫跳转量。
步骤3)中,依靠步骤2)获取的网页信息,开展表1中所述元数据提取、计算、标准化,元数据为检测器提供计算基础。
表1
Figure BDA0003760344200000061
Figure BDA0003760344200000071
本实例中站点test.com针对页面test.com/test.html的元数据提取结果如表2。
表2
Figure BDA0003760344200000072
Figure BDA0003760344200000081
4)篡改检测器
对提取的网页元数据特征,利用逻辑回归检测器进行篡改检测。
所述逻辑回归检测器的原理为:利用逻辑回归算法,以特征匹配检测器结果、相似度检测器结果及页面原数据为输入,开展计算,得检测结果。逻辑回归检测器第一次模型数据利用已有的篡改页面与alexa1000站点生成数据进行训练。
步骤4)依赖步骤3)获取的网页元数据特征,将两类爬虫元数据抽取结果变量(s1,s2,S3...s24,s24)导入逻辑回归模型,得到计算结果。本实例中,得到结果值0.983。
5)篡改确认
对篡改检测器的输出值设置阈值,对于输出值大于篡改阈值(该篡改阈值为人工配置的敏感度),则认为发生网页篡改,对该页面标注存在篡改标签;当输出值小于指定阈值,且大于最小阈值时(该最小阈值为人工配置需要人工检测查看的阈值),则认为可能存在网页篡改,需要人工验证,人工验证确认为篡改后,则对该页面标注存在篡改标签,否则,则标注不存在篡改标签;当小于最小阈值时,则认定不存在网页篡改,对该页面标注不存在篡改标签。
本步骤通过S104篡改检测器的输出结果进行判定,按照已有经验,配置篡改阈值为0.95,最小阈值为0.90。本实例中篡改检测器的输出值为0.983,符合篡改确认要求,认定该页面test.com/test.html存在篡改。对于阈值处于篡改阈值与最小阈值之间的页面,则需人工干预判断其是否为篡改网页,为其标注上标签,为后续训练数据提供基础。
6)关键指标收集,收集经过篡改确认阶段处理后的网页元数据及其篡改标签。
步骤6)中通过步骤5)的判定,将步骤3)的元数据特征与根据步骤5)的判定结果形成训练数据入库。同时将确认为篡改页面其中的隐藏区域IP及域名信息进入对应特征库,并定期人工提取这些篡改页面的热点词,经人工判断后进入关键词库。
7)篡改模型训练
利用训练数据样本中的数据对逻辑回归模型进行训练,以优化检测逻辑。
实施例二
参考图2,本发明所述远程网页篡改监测系统包括:
收集模块1,用于收集待监测网站的网页原始数据;
提取模块2,用于从所述网页原始数据中提取页面元数据特征;
检测模块3,用于将所述页面元数据特征输入到训练后的逻辑回归检测器中进行篡改检测;
判断模块4,用于根据篡改检测结果判断待监测网站是否存在篡改。
实施例三
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述远程网页篡改监测方法的步骤,其中,所述存储器可能包含内存,例如高速随机存储器,也可能还包括非易失性存储器,例如,至少一个磁盘存储器等;处理器、网络接口、存储器通过内部总线互相连接,该内部总线可以是工业标准体系结构总线、外设部件互连标准总线、扩展工业标准结构总线等,总线可以分为地址总线、数据总线、控制总线等。存储器用于存放程序,具体地,程序可以包括程序代码、所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
实施例四
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述远程网页篡改监测方法的步骤,具体地,所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器可以包括随机存储存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (9)

1.一种远程网页篡改监测方法,其特征在于,包括:
收集待监测网站的网页原始数据;
从所述网页原始数据中提取页面元数据特征;
将所述页面元数据特征输入到训练后的逻辑回归检测器中进行篡改检测;
根据篡改检测结果判断待监测网站是否存在篡改。
2.根据权利要求1所述的远程网页篡改监测方法,其特征在于,当篡改检测结果大于篡改阈值,则认为发生网页篡改,则对该页面标注存在篡改标签;
当篡改检测结果小于指定阈值,且大于最小阈值时,则认为可能存在网页篡改,再经人工验证进行确认,当确认结果为发生网页篡改时,则对该页面标注存在篡改标签,否则,则对该页面标注不存在网页篡改;当篡改检测结果小于最小阈值时,认定不存在网页篡改,则对该页面标注不存在篡改标签。
3.根据权利要求1所述的远程网页篡改监测方法,其特征在于,采用网页爬虫技术收集待监测网站的网页原始数据。
4.根据权利要求1所述的远程网页篡改监测方法,其特征在于,所述待监测网站的网页原始数据包括爬取时间、URL链接、页面原始内容及页面解析后内容。
5.根据权利要求1所述的远程网页篡改监测方法,其特征在于,所述页面元数据特征包括图片数量、body长度、网页跳转量、标签数量、网页历史相似度、域名泛解析信息、图片OCR信息及搜索引擎爬虫跳转量。
6.根据权利要求1所述的远程网页篡改监测方法,其特征在于,还包括:
收集页面元数据特征样本及其对应的标签,并以此构建训练数据样本;
利用训练数据样本对逻辑回归模型进行训练,得优化后的逻辑回归模型。
7.一种远程网页篡改监测系统,其特征在于,包括:
收集模块(1),用于收集待监测网站的网页原始数据;
提取模块(2),用于从所述网页原始数据中提取页面元数据特征;
检测模块(3),用于将所述页面元数据特征输入到训练后的逻辑回归检测器中进行篡改检测;
判断模块(4),用于根据篡改检测结果判断待监测网站是否存在篡改。
8.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述远程网页篡改监测方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述远程网页篡改监测方法的步骤。
CN202210868483.1A 2022-07-22 2022-07-22 一种远程网页篡改监测方法、系统、设备及存储介质 Pending CN115114676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210868483.1A CN115114676A (zh) 2022-07-22 2022-07-22 一种远程网页篡改监测方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210868483.1A CN115114676A (zh) 2022-07-22 2022-07-22 一种远程网页篡改监测方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115114676A true CN115114676A (zh) 2022-09-27

Family

ID=83334357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210868483.1A Pending CN115114676A (zh) 2022-07-22 2022-07-22 一种远程网页篡改监测方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115114676A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591769A (zh) * 2023-12-22 2024-02-23 云尖(北京)软件有限公司 一种网页防篡改方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591769A (zh) * 2023-12-22 2024-02-23 云尖(北京)软件有限公司 一种网页防篡改方法及系统
CN117591769B (zh) * 2023-12-22 2024-04-16 云尖(北京)软件有限公司 一种网页防篡改方法及系统

Similar Documents

Publication Publication Date Title
NL2020424B1 (en) Method for protecting the intellectual property rights of a trained machine learning network model using digital watermarking by adding, on purpose, an anomaly to the training data.
CN105184159B (zh) 网页篡改的识别方法和装置
CN105072089B (zh) 一种web恶意扫描行为异常检测方法与系统
CN103279710B (zh) Internet信息系统恶意代码的检测方法和系统
CN107688743B (zh) 一种恶意程序的检测分析方法及系统
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN107092826B (zh) 网页内容安全实时监测方法
CN107786537B (zh) 一种基于互联网交叉搜索的孤页植入攻击检测方法
CN111488623A (zh) 一种网页篡改检测方法及相关装置
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN107016298B (zh) 一种网页篡改监测方法及装置
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN108566399A (zh) 钓鱼网站识别方法及系统
CN113381962B (zh) 一种数据处理方法、装置和存储介质
CN111143654B (zh) 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN102591965A (zh) 一种黑链检测的方法及装置
EP3745292A1 (en) Hidden link detection method and apparatus for website
CN112200196A (zh) 钓鱼网站检测方法、装置、设备及计算机可读存储介质
CN111371757B (zh) 恶意通信检测方法、装置、计算机设备和存储介质
CN107784107B (zh) 基于逃逸行为分析的暗链检测方法及装置
CN115114676A (zh) 一种远程网页篡改监测方法、系统、设备及存储介质
CN111460803A (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN110598397A (zh) 一种基于深度学习的Unix系统用户恶意操作检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination