CN113407885A - XPath数据篡改告警方法、装置、设备及可读存储介质 - Google Patents

XPath数据篡改告警方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113407885A
CN113407885A CN202110701092.6A CN202110701092A CN113407885A CN 113407885 A CN113407885 A CN 113407885A CN 202110701092 A CN202110701092 A CN 202110701092A CN 113407885 A CN113407885 A CN 113407885A
Authority
CN
China
Prior art keywords
data
xpath
webpage
xpath data
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110701092.6A
Other languages
English (en)
Other versions
CN113407885B (zh
Inventor
廖婷
苏杭
吴君轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110701092.6A priority Critical patent/CN113407885B/zh
Publication of CN113407885A publication Critical patent/CN113407885A/zh
Application granted granted Critical
Publication of CN113407885B publication Critical patent/CN113407885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本申请公开了一种XPath数据篡改告警方法、装置、设备及可读存储介质,该方法包括步骤:获取网页中发生变化的过滤前XPath数据;基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;输出所述目标XPath数据对应的篡改告警信息。通过预设易变区过滤器对过滤前XPath数据进行过滤,得到目标XPath数据,使得过滤前XPath数据中的网页更新数据被过滤,并输出目标XPath数据对应的篡改告警信息,避免了直接输出网页中发生变化的过滤前XPath数据对应的篡改告警信息,使得避免了网页更新数据对应的告警误报,从而降低了网页篡改告警时的误报率。

Description

XPath数据篡改告警方法、装置、设备及可读存储介质
技术领域
本申请涉及网络安全技术领域,尤其涉及一种XPath数据篡改告警方法、装置、设备及可读存储介质。
背景技术
随着互联网的快速发展及普及,用户在享受互联网带来的资源共享的同时,网络威胁也随之而来。网站是企业对外服务的信息窗口,一旦网站对应的网页发生篡改、挂马等安全事件,而网站的主管单位又未能及时感知,将对企业造成较大的负面影响。
目前,针对网页篡改的检测方法为:基于网页源代码的哈希水印对比技术,通过哈希对比来循环遍历到具体发生变化的DOM(Document Object Model,文档对象模型)节点XPath(XML Path Language,可扩展标记语言路径语言)路径,若发现该XPath路径的信息存在变化,则进行网页篡改告警。然而,对于在网页上,XPath路径的信息发生变化的原因不仅包括网页被篡改,还包括网页更新,因此,在网页篡改告警时,其不仅对网页篡改进行告警,还对网页更新进行告警,而网页更新并不属于网页篡改,导致网页篡改告警存在较高的误报率。
也即,现有技术在进行网页篡改告警时,存在误报率高的问题。
发明内容
本申请的主要目的在于提供一种XPath数据篡改告警方法、装置、设备及可读存储介质,旨在解决现有的如何降低网页篡改告警时的误报率的技术问题。
为实现上述目的,本申请提供一种XPath数据篡改告警方法,所述XPath数据篡改告警方法包括步骤:
获取网页中发生变化的过滤前XPath数据;
基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;
输出所述目标XPath数据对应的篡改告警信息。
可选地,所述基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据,包括:
基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到过滤后XPath数据;
获取所述过滤前XPath数据中的网页更新数据,并检测所述网页更新数据,得到检测结果;
基于所述检测结果和所述过滤后XPath数据确定目标XPath数据。
可选地,所述检测结果包括第一检测结果,所述检测所述网页更新数据,得到检测结果,包括:
输入所述网页更新数据至第一预设检测模型,得到第一检测结果。
可选地,所述输入所述网页更新数据至第一预设检测模型,得到第一检测结果之前,包括:
获取待提取变化特征XPath数据;
基于预设自学习模型,提取所述待提取变化特征XPath数据中的变化特征;
基于所述变化特征确定所述第一预设检测模型。
可选地,所述基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据之前,包括:
获取XPath样本数据;
基于预设识别方式识别所述XPath样本数据,得到易变区;
基于所述易变区生成所述易变区过滤器。
可选地,所述检测结果包括第二检测结果,所述检测所述网页更新数据,得到检测结果,还包括:
输入所述网页更新数据至第二预设检测模型,得到第二检测结果。
可选地,所述输入所述被过滤XPath数据至第二预设检测模型,得到第二检测结果之前,包括:
获取XPath训练数据集和待训练检测模型;
基于所述XPath训练数据集训练所述待训练检测模型,得到更新后的待训练检测模型,并确定所述更新后的待训练检测模型是否满足预设迭代结束条件;
若所述更新后的待训练检测模型满足所述预设迭代结束条件,则将所述更新后的待训练检测模型作为所述第二预设检测模型;
若所述更新后的待训练检测模型未满足所述迭代结束条件,则返回基于所述XPath训练数据集对所述待训练检测模型进行迭代训练步骤,直至所述更新后的待训练检测模型满足所述迭代结束条件。
此外,为实现上述目的,本申请还提供一种XPath数据篡改告警装置,所述XPath数据篡改告警装置包括:
第一获取模块,用于获取网页中发生变化的过滤前XPath数据;
过滤模块,用于基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;
输出模块,用于输出所述目标XPath数据对应的篡改告警信息。
此外,为实现上述目的,本申请还提供一种XPath数据篡改告警设备,所述XPath数据篡改告警设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的XPath数据篡改告警程序,所述XPath数据篡改告警程序被所述处理器执行时实现如上所述的XPath数据篡改告警方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有XPath数据篡改告警程序,所述XPath数据篡改告警程序被处理器执行时实现如上所述的XPath数据篡改告警方法的步骤。
与现有技术中,若发现XPath路径的信息存在变化,则进行网页篡改告警,致使误报率高相比,本申请通过获取网页中发生变化的过滤前XPath数据;基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;输出所述目标XPath数据对应的篡改告警信息。通过预设易变区过滤器对过滤前XPath数据进行过滤,得到目标XPath数据,使得过滤前XPath数据中的网页更新数据被过滤,并输出目标XPath数据对应的篡改告警信息,避免了直接输出网页中发生变化的过滤前XPath数据对应的篡改告警信息,使得避免了网页更新数据对应的告警误报,从而降低了网页篡改告警时的误报率。
附图说明
图1是本申请XPath数据篡改告警方法第一实施例的流程示意图;
图2是本申请XPath数据篡改告警装置较佳实施例的功能模块示意图;
图3是本申请实施例方案涉及的硬件运行环境的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种XPath数据篡改告警方法,参照图1,图1为本申请XPath数据篡改告警方法第一实施例的流程示意图。
本申请实施例提供了XPath数据篡改告警方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。XPath数据篡改告警方法可应用于服务器中。为了便于描述,以下省略执行主体描述XPath数据篡改告警方法的各个步骤。XPath数据篡改告警方法包括:
步骤S110,获取网页中发生变化的过滤前XPath数据。
在本实施例中,在网页中,存在不会发生变化的XPath数据和会发生变化的XPath数据,对于该会发生变化的XPath数据,在网页发生变化时,相应的XPath数据也会发生变化,获取该网页中发生变化的过滤前XPath数据。其中,XPath数据用于确定XML(ExtensibleMarkup Language,可扩展标记语言)文档中某部分位置。
需要说明的是,网页可通过爬虫技术爬取,为避免网页被篡改而未被发现的情况的发生,需要及时获取该网页的情况,因此,需要每隔一定时间爬取一次网页,例如每间隔1秒钟爬取一次某网页。
步骤S120,基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;
步骤S130,输出所述目标XPath数据对应的篡改告警信息。
在本实施例中,上述过滤前XPath数据包括网页更新数据和/或网页篡改数据,其中,网页更新数据为网页正常更新时产生的数据,网页篡改数据为网页被篡改时产生的数据,可以理解,网页篡改数据对于网页而言是有害的,而网页更新数据则不会危害网页。
具体地,基于预设易变区过滤器,将过滤前XPath数据中的网页更新数据过滤,从而保留过滤前XPath数据中的网页篡改数据,得到目标XPath数据,并输出目标XPath数据对应的篡改告警信息,即输出针对网页篡改数据的篡改告警信息,以对网页被篡改的情况进行告警,而避免了对网页正常更新的情况进行告警,使得在告警时减少了误报的情况,提高了告警的准确率。
其中,对于上述预设易变区过滤器,其生成方式包括两种:
生成方式一:所述基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据之前,包括:
步骤a,获取XPath样本数据。
在本实施例中,获取XPath样本数据,该XPath样本数据通过多轮的样本采集过程采集得到,即通过爬虫技术多次爬取某网页得到。
步骤b,基于预设识别方式识别所述XPath样本数据,得到易变区。
在本实施例中,基于预设识别方式识别该XPath样本数据,得到易变区。其中,易变区为网页结构中本身存在的一些经常变化的区域,即易变区与网页更新数据相对应,易变区对应的数据为XPath样本数据中的网页更新数据。该易变区对应的数据包括处于网页顶部的日期时间、网页的访问量、网页中商品的价格、网页中商品的订单量、网页登录入口的数字和网页登录入口的图形验证码等。
其中,识别XPath样本数据中的易变区的过程,即为确定XPath样本数据中是否存在经常变化的数据的过程,需要说明的是,确定XPath样本数据是否经常变化的依据为:确定XPath样本数据中某区域对应的数据的更新频次是否满足预设更新频次条件,在更新频次满足预设更新频次条件时,确定XPath样本数据中某区域对应的数据的更新频次满足预设更新频次条件。其中,更新频次大于或等于预设更新频次阈值时,更新频次满足预设更新频次条件;更新频次小于预设更新频次阈值时,更新频次不满足预设更新频次条件。上述预设更新频次阈值可根据具体需要自行设置,本实施例不做具体限定。具体地,在每次爬取网页后,若某区域对应的数据发生变化,则记录该区域发生一次变化,即记录一定时间内该区域发生变化的次数。例如在1小时内,爬取网页3600次,某区域对应的数据发生2000次变化,则该区域的更新频次为2000次/小时,假设预设更新频次阈值为1500次/小时,由于2000大于1500,则更新频次大于该预设更新频次阈值,可确定该区域为易变区。
步骤c,基于所述易变区生成所述易变区过滤器。
在本实施例中,基于易变区生成易变区过滤器,即易变区过滤器具备过滤易变区对应的数据的能力。
生成方式二:
由人工识别XPath样本数据中某区域对应的数据,并进行标注,即由人工标注易变区。
可以理解,人工标注容易出错且标注速度慢,因此建议采用识别准确率高且识别速度快的生成方式一来生成易变区过滤器。
需要说明的是,为能够较好地避免出现网页更新数据中存在网页篡改数据的情况,即网页更新数据中存在网页篡改数据伪装的数据,需要在上述易变区过滤器的基础上进一步缩小过滤范围,使得会被易变区过滤器过滤的网页更新数据中存在的网页篡改数据,被进一步的检测处理留下来,具体地,所述基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据,包括:
步骤d,基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到过滤后XPath数据;
步骤e,获取所述过滤前XPath数据中的网页更新数据,并检测所述网页更新数据,得到检测结果;
步骤f,基于所述检测结果和所述过滤后XPath数据确定目标XPath数据。
在本实施例中,基于预设易变区过滤器,过滤上述过滤前XPath数据中的网页更新数据,得到过滤后XPath数据,并在基于预设易变区过滤器,过滤上述过滤前XPath数据中的网页更新数据后,获取该网页更新数据,并继续对网页更新数据进行检测处理,得到检测结果,从而根据该过滤后XPath数据和检测结果确定目标XPath数据,而不是仅将过滤后XPath数据作为目标XPath数据,解决了仅通过易变区过滤器来进行篡改告警,所导致的漏报的问题。
需要说明的是,检测结果为通过检测或未通过检测的XPath数据,通过检测的XPath数据无需进行篡改告警,即目标XPath数据由未通过检测的XPath数据和过滤后XPath数据组成。
其中,检测网页更新数据的方式存在两种:
检测方式一:
所述检测结果包括第一检测结果,所述检测所述网页更新数据,得到检测结果,包括:
步骤e1,输入所述网页更新数据至第一预设检测模型,得到第一检测结果。
在本实施例中,将网页更新数据输入至第一预设检测模型,得到第一检测结果。其中,对于第一预设检测模型,该第一预设检测模型的检测基础为对大量网页进行分析的分析结果,该分析结果为确定了一些区域,该一些区域的区域数量要少于上述易变区的区域数量。
具体地,上述一些区域为网页日期区域、数值区域和验证码区域,该第一预设检测模型的确定方式为:
所述输入所述网页更新数据至第一预设检测模型,得到第一检测结果之前,包括:
步骤e2,获取待提取变化特征XPath数据。
在本实施例中,获取待提取变化特征XPath数据,可以理解,该待提取变化特征XPath数据可以为上述过滤前XPath数据或预先准备好的XPath数据。
步骤e3,基于预设自学习模型,提取所述待提取变化特征XPath数据中的变化特征。
在本实施例中,该待提取变化特征XPath数据用于通过预设自学习模型来提取变化特征。具体地,对于网页日期区域,其对应的变化特征符合日期正则表达式且变化时呈现递增的特征,以及该递增的特征满足日期更新规律;对于数值区域,其对应的变化特征符合数值正则表达式,需要说明的是,在XPath数据中,数值有类型的区别,该类型包括byte、int、long、float、double、boolean等,因此,满足数值正则表达式的情况为待提取变化特征XPath数据中存在某一上述类型的XPath数据;对于验证码区域,可以理解,其为图片形式,其对应的变化特征符合数字或字母的正则表达式且图片的长度和宽度固定不变,对于图片的识别,可通过OCR(Optical Character Recognition,光学字符识别)技术来实现。
可以理解,若待提取变化特征XPath数据中存在上述网页日期区域、数值区域和验证码区域中的任一区域对应的变化特征,则将该变化特征对应的待提取变化特征XPath数据标注为相应的区域属性。
步骤e4,基于所述变化特征确定所述第一预设检测模型。
在本实施例中,基于上述变化特征对应的区域属性确定第一预设检测模型,即第一预设检测模型可基于该变化特征对应的区域属性来对网页更新数据进行进一步检测,从而得到检测结果,即对于不包含该变化特征的XPath数据,第一预设检测模型的检测结果为未通过检测,对于包含该变化特征的XPath数据,第一预设检测模型的检测结果为通过检测。
检测方式二:
所述检测结果包括第二检测结果,所述检测所述网页更新数据,得到检测结果,还包括:
步骤e5,输入所述网页更新数据至第二预设检测模型,得到第二检测结果。
在本实施例中,将网页更新数据输入至第二预设检测模型,得到第二检测结果。需要说明的是,在确定网页的XPath数据是否被篡改时,其确定结果为篡改或未篡改,且仅为这两种,即网页是否发生篡改的检测问题可以转换为二分类问题。例如某网页包含的XPath数据为集合G,该集合G可分为子集a和子集b,其中,集合a为未篡改XPath数据集合,集合b为篡改XPath数据集合,则该二分类问题的目标函数为:
Figure BDA0003129431480000091
其中,xi为集合G中的第i个XPath数据。
其中,第二预设检测模型通过逻辑回归算法实现,其实现过程为:
所述输入所述被过滤XPath数据至第二预设检测模型,得到第二检测结果之前,包括:
步骤e6,获取XPath训练数据集和待训练检测模型;
步骤e7,基于所述XPath训练数据集训练所述待训练检测模型,得到更新后的待训练检测模型,并确定所述更新后的待训练检测模型是否满足预设迭代结束条件。
在本实施例中,获取XPath训练数据集和基于逻辑回归算法的待训练检测模型,并基于XPath训练数据集训练该待训练检测模型,得到更新后的待训练检测模型。其中,XPath训练数据集包括网页日期、数值、验证码、敏感词、图片篡改、恶意链接和结构变动这些维度,即输入待训练检测模型的特征向量为上述维度的特征向量,也即由此训练待训练检测模型得到的第二预设检测模型通过上述维度对网页的XPath数据是否发生篡改进行判断。
具体地,通过Sigmoid函数实现逻辑回归,该Sigmoid函数是一种常见的S型函数,也称为生长曲线,其值域可看做0至1,其计算公式为:
hθ(x)=g(θTx)=1/(1+1/eθTx);
其中,x为用于表示网页篡改的特征的多维向量,θ为用于表示x的对应参数的多维向量;T为对θ的显著性检验值。
其中,x={x1,x2,…xi,…xn},xi表示网页篡改的特征,θ={θ1,θ2,…,θi,…,θn},θi为xi的对应参数。可以理解,假定当hθ(x)=0时,该XPath数据的检测结果为未篡改,当hθ(x)=1时,该XPath数据的检测结果为篡改,其中,在hθ(x)的值小于预设分类阈值时,将其值归类于hθ(x)=0,在hθ(x)的值大于或等于预设分类阈值时,将其值归类于hθ(x)=1,其中,预设分类阈值可通过训练待训练检测模型的训练结果进行设置。
在对待训练检测模型进行训练的过程中,需要找到适合的最佳回归参数θ,具体地,通过极大似然方法对θ值进行求解,即通过该逻辑回归函数Sigmoid函数的Cost函数进行求解,该Cost函数的公式如下:
Jθ=Cost(hθ(xi),yi);
Figure BDA0003129431480000092
由上述两个公式可以得出实际的Cost函数为:
Jθ=-yiln(hθ(xi))+(1-yi)ln(1-hθ(xi));
通过最佳回归参数θ确定更新后的待训练检测模型是否满足预设迭代结束条件,具体地,在Jθ最小时,完成对θ的更新,即此时的更新后的待训练检测模型满足预设迭代结束条件。
其中,为求得最小的Jθ,需要通过梯度下降方法对θ进行更新,该梯度下降方法为θj:=θj-αJ(θj);其中,α为学习率,对于α的选择,要求α使得函数迭代次数尽可能少,并且确保函数值在每次迭代过程中递减。
步骤e8,若所述更新后的待训练检测模型满足所述预设迭代结束条件,则将所述更新后的待训练检测模型作为所述第二预设检测模型;
步骤e9,若所述更新后的待训练检测模型未满足所述迭代结束条件,则返回基于所述XPath训练数据集对所述待训练检测模型进行迭代训练步骤,直至所述更新后的待训练检测模型满足所述迭代结束条件。
在本实施例中,若更新后的待训练检测模型满足预设迭代结束条件,则结束对待训练检测模型的训练过程,并将该更新后的待训练检测模型作为第二预设检测模型;若更新后的待训练检测模型未满足迭代结束条件,则继续对待训练检测模型进行训练,即返回基于XPath训练数据集对待训练检测模型进行迭代训练步骤,直至更新后的待训练检测模型满足迭代结束条件,才结束对待训练检测模型的训练过程。
具体地,输入网页更新数据至第二预设检测模型,得到第二检测结果的过程为:根据网页更新数据对应的输入变量x,以及选择的回归参数θ,输出变量为1的可能性为hθ(x)=P(y=1∣x;θ)=p1,则表示该网页更新数据有p1的概率是真实网页篡改,相应地,该网页更新数据未被篡改的概率为1-p1。假设分类的阈值是0.5,若p1>=0.5,则可以预测该网页更新数据是真实网页篡改。
与现有技术中,若发现XPath路径的信息存在变化,则进行网页篡改告警,致使误报率高相比,本实施例通过获取网页中发生变化的过滤前XPath数据;基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;输出所述目标XPath数据对应的篡改告警信息。通过预设易变区过滤器对过滤前XPath数据进行过滤,得到目标XPath数据,使得过滤前XPath数据中的网页更新数据被过滤,并输出目标XPath数据对应的篡改告警信息,避免了直接输出网页中发生变化的过滤前XPath数据对应的篡改告警信息,使得避免了网页更新数据对应的告警误报,从而降低了网页篡改告警时的误报率。
此外,参照图2,本申请还提供一种XPath数据篡改告警装置,所述XPath数据篡改告警装置包括:
第一获取模块10,用于获取网页中发生变化的过滤前XPath数据;
过滤模块20,用于基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;
输出模块30,用于输出所述目标XPath数据对应的篡改告警信息。
可选地,所述过滤模块20包括:
过滤单元,用于基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到过滤后XPath数据;
获取单元,用于获取所述过滤前XPath数据中的网页更新数据;
检测单元,用于检测所述网页更新数据,得到检测结果;
确定单元,用于基于所述检测结果和所述过滤后XPath数据确定目标XPath数据。
可选地,所述检测单元包括:
第一输入子单元,用于输入所述网页更新数据至第一预设检测模型,得到第一检测结果。
可选地,所述检测单元还包括:
第一获取子单元,用于获取待提取变化特征XPath数据;
提取子单元,用于基于预设自学习模型,提取所述待提取变化特征XPath数据中的变化特征;
第一确定子单元,用于基于所述变化特征确定所述第一预设检测模型。
可选地,所述XPath数据篡改告警装置还包括:
第二获取模块,用于获取XPath样本数据;
识别模块,用于基于预设识别方式识别所述XPath样本数据,得到易变区;
生成模块,用于基于所述易变区生成所述易变区过滤器。
可选地,所述检测单元还包括:
第二输入子单元,输入所述网页更新数据至第二预设检测模型,得到第二检测结果。
可选地,所述检测单元还包括:
第二获取子单元,用于获取XPath训练数据集和待训练检测模型;
训练子单元用于,基于所述XPath训练数据集训练所述待训练检测模型,得到更新后的待训练检测模型;
第二确定子单元,用于确定所述更新后的待训练检测模型是否满足预设迭代结束条件;若所述更新后的待训练检测模型满足所述预设迭代结束条件,则将所述更新后的待训练检测模型作为所述第二预设检测模型;若所述更新后的待训练检测模型未满足所述迭代结束条件,则返回基于所述XPath训练数据集对所述待训练检测模型进行迭代训练步骤,直至所述更新后的待训练检测模型满足所述迭代结束条件。
本申请XPath数据篡改告警装置具体实施方式与上述XPath数据篡改告警方法各实施例基本相同,在此不再赘述。
此外,本申请还提供一种XPath数据篡改告警设备。如图3所示,图3是本申请实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图3即可为XPath数据篡改告警设备的硬件运行环境的结构示意图。
如图3所示,该XPath数据篡改告警设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,XPath数据篡改告警设备还可以包括RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图3中示出的XPath数据篡改告警设备结构并不构成对XPath数据篡改告警设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及XPath数据篡改告警程序。其中,操作系统是管理和控制XPath数据篡改告警设备硬件和软件资源的程序,支持XPath数据篡改告警程序以及其它软件或程序的运行。
在图3所示的XPath数据篡改告警设备中,用户接口1003主要用于连接终端,与终端进行数据通信,如接收终端发送的用户信令数据;网络接口1004主要用于后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的XPath数据篡改告警程序,并执行如上所述的XPath数据篡改告警方法的步骤。
本申请XPath数据篡改告警设备具体实施方式与上述XPath数据篡改告警方法各实施例基本相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有XPath数据篡改告警程序,所述XPath数据篡改告警程序被处理器执行时实现如上所述的XPath数据篡改告警方法的步骤。
本申请计算机可读存储介质具体实施方式与上述XPath数据篡改告警方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,设备,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种可扩展标记语言路径语言XPath数据篡改告警方法,其特征在于,所述XPath数据篡改告警方法包括以下步骤:
获取网页中发生变化的过滤前XPath数据;
基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;
输出所述目标XPath数据对应的篡改告警信息。
2.如权利要求1所述的XPath数据篡改告警方法,其特征在于,所述基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据,包括:
基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到过滤后XPath数据;
获取所述过滤前XPath数据中的网页更新数据,并检测所述网页更新数据,得到检测结果;
基于所述检测结果和所述过滤后XPath数据确定目标XPath数据。
3.如权利要求2所述的XPath数据篡改告警方法,其特征在于,所述检测结果包括第一检测结果,所述检测所述网页更新数据,得到检测结果,包括:
输入所述网页更新数据至第一预设检测模型,得到第一检测结果。
4.如权利要求3所述的XPath数据篡改告警方法,其特征在于,所述输入所述网页更新数据至第一预设检测模型,得到第一检测结果之前,包括:
获取待提取变化特征XPath数据;
基于预设自学习模型,提取所述待提取变化特征XPath数据中的变化特征;
基于所述变化特征确定所述第一预设检测模型。
5.如权利要求1所述的XPath数据篡改告警方法,其特征在于,所述基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据之前,包括:
获取XPath样本数据;
基于预设识别方式识别所述XPath样本数据,得到易变区;
基于所述易变区生成所述易变区过滤器。
6.如权利要求2所述的方法,其特征在于,所述检测结果包括第二检测结果,所述检测所述网页更新数据,得到检测结果,还包括:
输入所述网页更新数据至第二预设检测模型,得到第二检测结果。
7.如权利要求6所述的方法,其特征在于,所述输入所述被过滤XPath数据至第二预设检测模型,得到第二检测结果之前,包括:
获取XPath训练数据集和待训练检测模型;
基于所述XPath训练数据集训练所述待训练检测模型,得到更新后的待训练检测模型,并确定所述更新后的待训练检测模型是否满足预设迭代结束条件;
若所述更新后的待训练检测模型满足所述预设迭代结束条件,则将所述更新后的待训练检测模型作为所述第二预设检测模型;
若所述更新后的待训练检测模型未满足所述迭代结束条件,则返回基于所述XPath训练数据集对所述待训练检测模型进行迭代训练步骤,直至所述更新后的待训练检测模型满足所述迭代结束条件。
8.一种XPath数据篡改告警装置,其特征在于,所述XPath数据篡改告警装置包括:
第一获取模块,用于获取网页中发生变化的过滤前XPath数据;
过滤模块,用于基于预设易变区过滤器,过滤所述过滤前XPath数据中的网页更新数据,得到目标XPath数据;
输出模块,用于输出所述目标XPath数据对应的篡改告警信息。
9.一种XPath数据篡改告警设备,其特征在于,所述XPath数据篡改告警设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的XPath数据篡改告警程序,所述XPath数据篡改告警程序被所述处理器执行时实现如权利要求1至7中任一项所述的XPath数据篡改告警方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有XPath数据篡改告警程序,所述XPath数据篡改告警程序被处理器执行时实现如权利要求1至7中任一项所述的XPath数据篡改告警方法的步骤。
CN202110701092.6A 2021-06-23 2021-06-23 XPath数据篡改告警方法、装置、设备及可读存储介质 Active CN113407885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110701092.6A CN113407885B (zh) 2021-06-23 2021-06-23 XPath数据篡改告警方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110701092.6A CN113407885B (zh) 2021-06-23 2021-06-23 XPath数据篡改告警方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113407885A true CN113407885A (zh) 2021-09-17
CN113407885B CN113407885B (zh) 2024-04-12

Family

ID=77682753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110701092.6A Active CN113407885B (zh) 2021-06-23 2021-06-23 XPath数据篡改告警方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113407885B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267357A (zh) * 2007-03-13 2008-09-17 北京启明星辰信息技术有限公司 一种sql注入攻击检测方法及系统
CN103716315A (zh) * 2013-12-24 2014-04-09 上海天存信息技术有限公司 一种网页篡改的检测方法及装置
CN103929440A (zh) * 2014-05-09 2014-07-16 国家电网公司 基于web服务器缓存匹配的网页防篡改装置及其方法
CN104156665A (zh) * 2014-07-22 2014-11-19 杭州安恒信息技术有限公司 一种网页篡改监测的方法
CN107301355A (zh) * 2017-06-20 2017-10-27 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107404473A (zh) * 2017-06-06 2017-11-28 西安电子科技大学 基于Mshield机器学习多模式Web应用防护方法
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN108182370A (zh) * 2018-02-02 2018-06-19 上海斗象信息科技有限公司 基于动静态分离模板的客户端网页篡改检测方法
US20190138423A1 (en) * 2018-12-28 2019-05-09 Intel Corporation Methods and apparatus to detect anomalies of a monitored system
CN109815744A (zh) * 2018-12-18 2019-05-28 中国科学院计算机网络信息中心 网页篡改的检测方法、装置及存储介质
CN110381045A (zh) * 2019-07-09 2019-10-25 腾讯科技(深圳)有限公司 攻击操作的处理方法和装置、存储介质及电子装置
CN110858249A (zh) * 2018-08-24 2020-03-03 中移(杭州)信息技术有限公司 一种数据库文件加密方法、解密方法和相关装置
US10599486B1 (en) * 2018-09-21 2020-03-24 Citrix Systems, Inc. Systems and methods for intercepting and enhancing SaaS application calls via embedded browser
CN111159775A (zh) * 2019-12-11 2020-05-15 中移(杭州)信息技术有限公司 网页篡改检测方法、系统、装置及计算机可读存储介质
CN111177715A (zh) * 2018-11-12 2020-05-19 中移(杭州)信息技术有限公司 一种移动App漏洞检测方法及装置
CN111797904A (zh) * 2020-06-12 2020-10-20 哈尔滨安天科技集团股份有限公司 网页页面特征的篡改检测方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267357A (zh) * 2007-03-13 2008-09-17 北京启明星辰信息技术有限公司 一种sql注入攻击检测方法及系统
CN103716315A (zh) * 2013-12-24 2014-04-09 上海天存信息技术有限公司 一种网页篡改的检测方法及装置
CN103929440A (zh) * 2014-05-09 2014-07-16 国家电网公司 基于web服务器缓存匹配的网页防篡改装置及其方法
CN104156665A (zh) * 2014-07-22 2014-11-19 杭州安恒信息技术有限公司 一种网页篡改监测的方法
CN107404473A (zh) * 2017-06-06 2017-11-28 西安电子科技大学 基于Mshield机器学习多模式Web应用防护方法
CN107301355A (zh) * 2017-06-20 2017-10-27 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN108182370A (zh) * 2018-02-02 2018-06-19 上海斗象信息科技有限公司 基于动静态分离模板的客户端网页篡改检测方法
CN110858249A (zh) * 2018-08-24 2020-03-03 中移(杭州)信息技术有限公司 一种数据库文件加密方法、解密方法和相关装置
US10599486B1 (en) * 2018-09-21 2020-03-24 Citrix Systems, Inc. Systems and methods for intercepting and enhancing SaaS application calls via embedded browser
CN111177715A (zh) * 2018-11-12 2020-05-19 中移(杭州)信息技术有限公司 一种移动App漏洞检测方法及装置
CN109815744A (zh) * 2018-12-18 2019-05-28 中国科学院计算机网络信息中心 网页篡改的检测方法、装置及存储介质
US20190138423A1 (en) * 2018-12-28 2019-05-09 Intel Corporation Methods and apparatus to detect anomalies of a monitored system
CN110381045A (zh) * 2019-07-09 2019-10-25 腾讯科技(深圳)有限公司 攻击操作的处理方法和装置、存储介质及电子装置
CN111159775A (zh) * 2019-12-11 2020-05-15 中移(杭州)信息技术有限公司 网页篡改检测方法、系统、装置及计算机可读存储介质
CN111797904A (zh) * 2020-06-12 2020-10-20 哈尔滨安天科技集团股份有限公司 网页页面特征的篡改检测方法及装置

Also Published As

Publication number Publication date
CN113407885B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN111917740B (zh) 一种异常流量告警日志检测方法、装置、设备及介质
CN104168293B (zh) 结合本地内容规则库识别可疑钓鱼网页的方法及系统
CN107612908B (zh) 网页篡改监测方法及装置
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
CN112003838B (zh) 网络威胁的检测方法、装置、电子装置和存储介质
US20220030029A1 (en) Phishing Protection Methods and Systems
CN111737692B (zh) 应用程序的风险检测方法及装置、设备、存储介质
CN112200081A (zh) 异常行为识别方法、装置、电子设备及存储介质
CN110602030A (zh) 网络入侵阻断方法、服务器及计算机可读介质
US9800540B2 (en) System and method for providing services
CN112131249A (zh) 一种攻击意图识别方法及装置
CN112765003A (zh) 一种基于app行为日志的风险预测方法
CN110730164A (zh) 安全预警方法及相关设备、计算机可读存储介质
CN111581672A (zh) 网页篡改检测的方法、系统、计算机设备和可读存储介质
US11423099B2 (en) Classification apparatus, classification method, and classification program
US20240086736A1 (en) Fault detection and mitigation for aggregate models using artificial intelligence
CN111371581A (zh) 物联网卡业务异常检测的方法、装置、设备和介质
CN111061975B (zh) 一种页面中无关内容的处理方法、装置
CN113407885A (zh) XPath数据篡改告警方法、装置、设备及可读存储介质
Ugarte-Pedrero et al. On the adoption of anomaly detection for packed executable filtering
CN108268775B (zh) 一种Web漏洞检测方法、装置、电子设备及存储介质
CN109684844B (zh) 一种webshell检测方法、装置以及计算设备、计算机可读存储介质
US9323987B2 (en) Apparatus and method for detecting forgery/falsification of homepage
CN113114679B (zh) 报文的识别方法、装置、电子设备及介质
CN114996707A (zh) 图片木马的静态检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant