CN112948897B - 一种基于drae与svm相结合的网页防篡改检测方法 - Google Patents

一种基于drae与svm相结合的网页防篡改检测方法 Download PDF

Info

Publication number
CN112948897B
CN112948897B CN202110273569.5A CN202110273569A CN112948897B CN 112948897 B CN112948897 B CN 112948897B CN 202110273569 A CN202110273569 A CN 202110273569A CN 112948897 B CN112948897 B CN 112948897B
Authority
CN
China
Prior art keywords
function
webpage
svm
drae
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110273569.5A
Other languages
English (en)
Other versions
CN112948897A (zh
Inventor
周长建
徐健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Agricultural University
Original Assignee
Northeast Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Agricultural University filed Critical Northeast Agricultural University
Priority to CN202110273569.5A priority Critical patent/CN112948897B/zh
Publication of CN112948897A publication Critical patent/CN112948897A/zh
Application granted granted Critical
Publication of CN112948897B publication Critical patent/CN112948897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及网络安全和机器学习领域,具体来说设计了一种基于DRAE(Deep Residual Auto‑Encoder)与SVM(Support Vector Machine)相结合的网页防篡改检测方法。由于传统网络安全技术门槛高,社会上网络安全人才配备不足;一些重要部门要求工作人员24小时网络值班制度,这不仅增加了网络值班人员的工作负担,也无法保证查验所有网页效率。本发明结合深度学习与传统机器学习优势,用DRAE对网页截图图像数据自动特征学习和提取,并将提取的特征输入SVM进行特征分类。实验表明这种方法可以快速有效的发现被篡改的网页。本发明在一定程度上可以看作一种在线值班系统,可以减轻网络值班人员的工作负担,增加工作效率,更加准确和及时发现网页篡改事件,避免由于网页被篡改而造成的损失。

Description

一种基于DRAE与SVM相结合的网页防篡改检测方法
技术领域:本发明涉及网络安全和机器学习相关领域,具体来说,发明了一种基于DRAE(Deep Residual Auto-Encoder,深度残差网络编码)技术与SVM(Support VectorMachine,支持向量机)技术相结合的网页防篡改检测方法。
背景技术
近年来,网络安全问题频发,传统的网络安全研究往往集中于基于网络流量的入侵检测、异常分析以及敏感词汇过滤等,这些方法主要对网络底层特征进行深入研究,需要较强的数据安全与密码学相关知识,具有较高的门槛,但由于网络攻击方法变幻无常,网络底层安全知识更新较快,如果不及时研究相关知识就无法保障网络安全。尤其在敏感时期,各级教育及宣传部门往往会要求信息化工作人员7*24小时值班制度,这在一定层度上不仅增加了网络值班人员的工作负担,也无法保证高效的查验所有网页,发生网页篡改事件时无法以最快速度察觉。本发明在一定程度上可以看作是一种在线值班系统,其最大优点是可以减轻网络值班人员的工作负担,提升网络安全值班人员的工作效率,还可以更加准确和及时的发现网页篡改事件,避免由于网页被篡改而造成的损失。本发明不关注网络底层流量信息,第一时间从在线值班人员的视觉角度关注网页是否被篡改,并及时通知管理人员。
1、专业术语
(1)深度学习(Deep Learning)。深度学习技术近年来取得非常辉煌的成就,特别是在自然语言处理,图像处理等领取取得了前所未有的成功。该技术由多层神经网络发展而来,其本质就是通过构建具有大量神经网络隐藏层的机器学习模型,通过海量训练数据,进行训练学习更有代表性的特征,以增加分类的准确性。深度学习主要目的就是“特征学习”,与传统的浅层学习不同,深度学习往往隐藏层更多,通过各层之间的特征交互,将原有特征表示变换到一个新的特征空间,再通过损失函数和优化函数通过特征交互信息进行优化训练效果,从而将模型最优化(余凯,贾磊,陈雨强,徐伟,2013)。
(2)深度残差网络(Deep Residual Network)。在深度学习应用中,增加神经网络的深度可以提高模型的特征学习能力。但在实际应用中,当模型达到一定深度以后,模型的学习能力反而下降了,出现了一种梯度消失或梯度退化的情况,这种现象表明仅仅通过增加深度的方式来增加特征学习能力是有困难的(赵志成,罗泽,王鹏彦,李健,2020)。He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)提出了一种利用残差连接来保持梯度不变性的深度学习架构,其主要思想就是通过残差连接(Residual Connection)的方式直接把输入数据x传到残差连接层的输出作为输出结果的一部分。这时输出结果可以表示为H(x)=F(x)+x,当F(x)=0时,此时H(x)=x,也叫做恒等映射。深度残差网络相当于把深度学习的目标改成初始CNN特征学习结果与x的残差值,即F(x)=H(x)-x。因此,深度残差网络的训练目的就是残差值越小越好,直到随着网络层次不断加深,模型不再收敛为止。深度残差网络的架构请参考图1。
(3)卷积自编码(Convolutional Auto-Encoder)。卷积自编码是一个3层的神经网络,其主要目的就是将输入X经过编码,通过卷积将其转化为一个新的特征表达空间Y,随后再对新的特征空间Y进行解码得到X′,使用神经网络中的反向传播算法对网络进行训练使X′无限接近于X,即
Figure GDA0003633469010000021
而新的特征空间Y就是神经网络输出的编码。卷积自编码器的架构请参考图2。
(4)支持向量机(Support Vector Machine)。支持向量机是建立在统计学习理论基础上的结构风险最小化原理基础上的学习方法。支持向量机在解决小样本、高维度、非线性分类问题中表现出极强的鲁棒性和特征分类能力(丁世飞,齐丙娟&谭红艳,2011)。支持向量机的主要思想就是寻找一个可以满足分类要求的最优超平面,使得该超平面在保证分类精度的同时又能够实现超平面两侧向量距离最大化。给定样本集为(xi,yi),i=1,2,…l,x∈Rn,y∈{±1},超平面可以用公式(w·x)+b=0表示,若要使得超平面对所有分类样本正确分类并具备分类间隔,就要满足yi[(w·xi)+b]≥1,i=1,2,…l。参考文献中已给出推导方法,在此不再赘述,最终超平面最大分类问题可以转化为向量到超平面的距离
Figure GDA0003633469010000022
最小化问题。支持向量机示意图请参考图3。
2、国内外研究现状分析
目前网页防篡改相关研究领域大多集中在敏感词检测、文件路径修改以及文本分析等。王宁邦&徐博.(2019)在论文中提出了一种基于爬虫的网页防篡改系统,该方法主要运用在高校网站群系统,通过采集网页上的文字内容,根据预先存储的敏感词库来判别网页是否被篡改。黄祖海(2018)提出了一种基于WAF的网页防篡改组件设计方法,该方法将网站文件进行定期备份,将备份的文件存在硬盘中,防篡改模块再对网站每个文件进行扫描,如果出现文件大小,文件修改事件,文件内容等信息不相符的时候,就会使用备份的数据对网站进行还原,从而达到网页防篡改的目的。张勇等人(2017)提出了一种基于文件监控和自定义判定树的网页防篡改机制,该方法使用.NET提供的FileSyatem Watcher类对指定的多个文件进行监控,当文件夹中的文件被修改、删除或改名,或者有新文件写入时,可以在自定义代码中采取措施保护网站文件。印杰等人(2020)提出了一种基于深度学习的网页篡改检测方法,该方法以文本特征为识别检测对象,收集了重定向、诱导攻击等数据集,利用深度学习算法进行分类,来识别网页是否被篡改,该方法有一定的有效性,但数据集更新不及时的话,会导致无法有效识别攻击。
专利文献CN112052423A(申请号:CN202011079749.1)公开了一种数据防篡改方法,该文献核心思想是在目标文件被改写时,获取所述目标文件对应的改写函数;确定所述改写函数的文件路径;对所述文件路径进行规则匹配,判断所述改写函数是否为劫持操作;若是,拒绝所述目标文件的改写。该专利文献通过路径访问的方式输入内容在规则库种匹配的方式判别文件是否被篡改,具有一定的有效性,但这种方法计算量巨大,难以达到防篡改的时效要求。
专利文献CN111967064A(申请号:CN202010924432.7)公开了一种网页防篡改方法,该方法采用轮询方式采集网页文本数据,利用云端特征库对文本网页文件内容进行扫描,查找文件中是否含有黑词、黑链接等非法内容,提供了一种在线文本比对、网页快照、外链查看方式判断网页是否被篡改。该方法在文本被篡改时具有一定的有效性,但如果网页图片被篡改,而存储在服务器中该图片的名称不变的话,则无法有效进行检测。
专利文献CN112035888A(申请号:CN202010904952.1)公开了一种网页防篡改系统文件路径确定方法、装置及介质。该申请核心思想是当拦截到对网页防篡改系统中的目标文件的操作请求时,获取目标文件的目录项;利用目录项的super block确定目标文件的一级挂载点,得出第一路径;基于一级挂载点,迭代查找挂载点的父挂载点并获取对应的路径,直到父挂载节点为根节点时停止,得出第二路径;拼接第一路径和第二路径,得出目标文件的绝对路径。可见,本方法通过多级挂载的目标文件的绝对路径进而保障网页防篡改系统的正常运行,但该方法中文件有海量的路径,数据量非常大,难以达到实时防护效果。
目前已公开网页防篡改方法存在的问题
以上各种方法都是在网站维护中常用的措施,这些措施可以从不同的角度对信息系统进行保护,但也存在一些问题,主要有:
(1)对管理员专业知识储备要求较高。需要管理员熟悉多种网络协议,动态脚本编程,网站漏洞扫描,专业网络安全工具配置,操作系统安全策略,数据库安全管理等。这些知识提高了网络安全管理人员的门槛,社会上这类安全人才配备较为不足。
(2)现有公开的一些方法要求进行网站全站备份,并利用扫描文件的方法。现实情况中,备份网站是一项非常耗时的工作,特别是高校网站群,大型企事业单位网站,对每个文件进行备份并扫描对比的话,这种工作计算量大,也非常耗时,存在着不能及时发展网页被篡改的情况。
(3)现有公开的文献或专利提出敏感词监测的方法来进行网页防篡改。但由于目前网站攻击多以同名图片形式挂载在网页上面,这种情况就无法及时获取网页被篡改信息。另外,网页篡改形式多样,敏感词汇库无法全部获取所有敏感词汇,也是这种方法的缺点之一。
(4)在一些非常时期,各级教育及宣传部门往往会要求信息化工作人员7*24网络安全值班制度,这在一定程度上增加了人力成本,对值班人员的健康也有着一定的影响。其次,由于人力值班查验网页效率较低,存在不能及时发现网页被篡改的情况。
本发明要解决的问题
针对国内外研究现状存在的问题,本发明主要解决以下问题:
(1)针对网络安全管理人员的技术门槛高的问题,本发明设计了一种基于DRAE(Deep Residual Auto-Encoder,深度残差网络编码)与SVM(Support Vector Machine,支持向量机)相结合的网页防篡改检测模型,该方法操作简单,网络管理人员只需要启动训练好的模型就可以对网页进行实时扫描并输出可能被篡改的网页。
(2)针对现有公开方法中文件备份和扫描计算量大的缺点,本发明只需要对有限的网页进行截图,图像文件的形式进行计算,简单有效。以东北农业大学域名范围内所有网页计算,一台GPU服务器在数分钟以内就可以完成截图和计算工作。
(3)针对现有公开方法中利用文本对比敏感词库更新快的缺点,经过统计,目前绝大多数网页篡改都是为了制造恐慌,散发广告等信息,这些信息往往以图片形式挂在在网页上面。本发明不关注具体文本信息,而是从值班人员视觉角度分析网页是否被篡改,通过深度学习算法进行特征提取和比对,可以及时有效的发现与正常网页不一致的特征。
(4)针对目前网络值班人员人力成本高的缺点,本发明在一定程度上可以理解为一种网络安全在线值班系统,该方法可以在几分钟内处理数百张网页截屏图像数据并进行分析,极大的提升了值班人员的工作效率,节约了人力成本。
(5)针对传统机器学习人工提取特征表达能力有限以及深度学习由于单位域名下训练样本数据不足而容易导致过拟合的情况;而传统机器学习技术如SVM具有强分类表达能力和鲁棒性以及深度学习算法自动提取大量特征的优势。本发明弱化二者不足,结合二者优点,利用DRAE算法自动提取特征,再利用具有强分类表达能力的SVM来进行特征分类。相对于单一算法,二者相结合的模型再识别准确度上具有比较明显的提升。
以下给出检索的相关文献:
余凯,贾磊,陈雨强&徐伟.(2013).深度学习的昨天、今天和明天.计算机研究与发展(09),1799-1804.doi:CNKI:SUN:JFYZ.0.2013-09-002.
赵志成,罗泽,王鹏彦&李健.(2020).基于深度残差网络图像分类算法研究综述.计算机系统应用(01),14-21.doi:10.15888/j.cnki.csa.007243.
He,K.,Zhang,X.,Ren,S.,&Sun,J.,2016.Deep Residual Learning for ImageRecognition.IEEE Conference on Computer Vision and Pattern Recognition[C].IEEE Computer Society.
王雅思,姚鸿勋,孙晓帅,许鹏飞&赵思成.(2015).深度学习中的自编码器的表达能力研究.计算机科学(09),56-60+65.doi:CNKI:SUN:JSJA.0.2015-09-013.
丁世飞,齐丙娟&谭红艳.(2011).支持向量机理论与算法研究综述.电子科技大学学报(01),2-10.doi:CNKI:SUN:DKDX.0.2011-01-003.
王宁邦&徐博.(2019).基于爬虫和网页防篡改的高校门户网站群预警监控系统构建.云南民族大学学报(自然科学版)(05),502-509.
黄祖海.(2018).应用于WAF的网页防篡改组件设计实现.中国高新科技(23),97-99.doi:10.13535/j.cnki.10-1507/n.2018.23.15.
张勇&徐云燕.(2017).基于文件监控和自定义判定树的网页防篡改机制.电脑知识与技术(23),14-16.doi:10.14004/j.cnki.ckt.2017.2369.
印杰,蒋宇翔,牛博威,严梓宸&郭延文.(2020).基于深度学习的网页篡改远程检测研究.南京理工大学学报(01),49-54.doi:10.14177/j.cnki.32-1397n.2020.44.01.008.
发明内容
本发明的目的在于从在线值班人员的角度来判别网页是否被篡改,也可以看作一种自动在线值班系统,减轻值班人员的工作负担,节约人力成本。基于以上目的,本发明提出了一种基于DRAE与SVM相结合的网页防篡改检测方法,该方法通过自动截屏技术,获取指定域名下所有网页截屏图像,将截取的图像经过预处理后输入本发明提出的DRAE进行特征提取,获取深度残差网络特征空间,再将获取到的特征输入SVM进行分类识别网页是否被篡改。如果网页显示正常,则进行下一轮网页特征提取工作,如果发现网页被篡改,则输出该网页的地址并通知管理员。本发明检测准确性相对已有的成果或公开的专利有明显提升。本发明的主要发明内容有:
1、发明了一种利用顶层图像信息来判别网页是否被篡改的方法。传统的网页防篡改大多基于流量或数据底层信息来进行网络异常检测。本发明从网络安全在线值班人员的角度出发,一旦发现网页被篡改,可以及时通知管理员进行处理。这是一种简单有效的网页防篡改检测方法,不用复杂的网络流量检测软件,既也减轻了网络值班人员的工作负担,也节省了大量值班人员人力费用,还提升了工作效率。
2、自动网页截屏,数据预处理。本发明提出了一种自动网页截屏的方法。利用网络爬虫技术,每隔一个时间段自动获取网页截屏,分类器进行识别,若没有发现网页被篡改,则不做任何操作,将最新截屏图像数据覆盖原有截屏图像数据。等再过时间间隔后再次重复以上过程。
3、人工标记反例数据。将初始截屏的数据进行人工污染标记工作,模拟被篡改的情形。由于被篡改的网页目的是想引起更多人的注意,往往会用一些比较明显的图片或者语言,一些文字往往会以图片的形式在网页上面加载。本发明模拟被篡改的网页,自动在网页上随机加载1~2副小尺寸图片,作为反例数据。
4、发明了一种基于DRAE与SVM相结合的网页防篡改检测模型。该模型是本发明的核心工作,本发明借鉴Convolutional Auto-Encoder的思想并对其进行扩展,设计了一种深度残差自编码特征提取模型,该模型前半部分来源于深度残差网络,将正反两类数据输入网络进行模型学习,待模型不再收敛为止,提取网络中间层特征(该网络中间层特征由后期SVM分类效果决定,本实例选取第6层特征),输入SVM进行分类,并保存模型。新组成的Deep Residual Auto-Encoder编码器与Convolutional Auto-Encoder的主要不同点在于:
1)编码方式不同,Convolutional Auto-Encoder,又称卷积自编码器,其核心思想是利用有限层数的卷积神经网络作为特征学习的工具,而Deep Residual Auto-Encoder则是利用深度残差网络思想,其核心思想是利用深度学习技术对输入数据进行特征学习。
2)Decoder部分不同,传统的Auto-Encoder主要目的是提取编码特征为了还原图像,将编码进行解码并还原图像,将图像还原的准确度作为评价标准,而本发明提出的DeepResidual Auto-Encoder的评判标准是利用优化函数来提升不同类别的图像分类的准确度。
5、输入待检测的网页进行检测,若被篡改则输出该网页的地址并通知管理员。
附图说明:
图1:深度残差网络架构示意图
图2:卷积自编码器架构示意图
图3:支持向量机示意图
图4:基于DRAE与SVM相结合的网页防篡改检测方法流程图
图5:深度残差自编码器架构示意图
具体实施方式
为更好的理解本发明的目的、技术方案和优点更加清晰,下面结合附图和具体实例实施方式对本发明作进一步说明。本领域技术人员可由本说明书所揭示的内容轻易了解本发明的优点与功效,但不以任何形式限制本发明。应当指出的是,对本领域普通技术人员来说,在不脱离本发明的思想前提下,还可以做出若干变化和改进,这些都属于本发明的保护范围。下面结合附图,以东北农业大学为例,对本发明的具体实例的一些实施方式作详细说明,在不冲突的情况下,下述实施方式可以扩展到所有单位域名网页防篡改使用。
根据本发明提供的一种基于DRAE与SVM相结合的网页防篡改检测方法,本发明的主要流程请参考图4,主要实施步骤包括:
步骤1:数据获取工作。数据采集的目的是进行模型训练,以便将训练完的模型用于网页篡改检测。本发明以东北农业大学为例,开发了一套在特定域名范围内网页自动截屏方法,设置一个固定的时间间隔,每隔设定间隔时间段,就自动对网页截屏,放在指定目录下。该方法可以调用浏览器自动打开事先设置好的网页地址,然后将网页设置为全屏模式后获取网页的尺寸,根据设置好的网页尺寸进行截图,截图完成后自动关闭浏览器,将截取到的网页图像保存在指定目录下。
步骤2:网页篡改手动标记工作。由于东北农业大学所有二级网站保护较好,无法获取到被篡改的网页进行模型训练,这就需要人工模拟被篡改的网页进行手工标记。本发明利用图像处理中图像合成算法,将大小尺寸不一的图像与原截屏图像随机合成,模拟被篡改的网页。
步骤3:设计基于DRAE与SVM相结合的网页防篡改检测模型。本发明综合利用DeepResidual Network,Convolutional Auto-Encoder和SVM三个网络模型的思想。其中DeepResidual Network的网络架构,Convolutional Auto-Encoder的架构,SVM模型的示意图。首先将Deep Residual Network与Convolutional Auto-Encoder相结合,组成深度残差自编码器(Deep Residual Auto-Encoder)。深度残差自编码器架构请参考图5。该模型具体分为以下三个部分:
(1)Encoder部分。与Convolutional Auto-Encoder不同,深度残差自编码器的Encoder部分在编码网络中增加了残差连接,这样可以保证在特征学习的过程中利用DeepResidual Network的优势进行模型优化,不会有梯度消失的烦恼。
(2)特征评估(Output)部分。类似于Convolutional Auto-Encoder的Decoder部分,Deep Residual Auto-Encoder的特征评估部分主要目的就是评估特征编码是否具有不同类别的代表性,利用损失函数度量神经网络的输出的预测值与实际值之间的差距,并通过优化函数将该损失值从神经网络的最外层传递到最前面,以调整特征空间,直到模型不再收敛为止。
(3)Feature提取部分。类似于Convolutional Auto-Encoder的Code部分,该部分也是Deep Residual Auto-Encoder的输出,即由输入数据转换成的特征空间。
步骤4:设置DRAE模型训练参数
将设计好的DRAE作为特征学习工具,对经过验证正常的网页截图和被污染的网页图像分别打上不同的标签,输入DRAE进行特征学习,学习的终止条件是模型不再收敛,本实例模型再迭代次数为150的时候模型不再收敛,故迭代次数设置为150。具体训练参数如下:
Figure GDA0003633469010000071
(1)激活函数。本发明训练过程所用到的激活函数有ReLU函数和sigmoid函数。其中ReLU激活函数其实就是一个分段函数,它把所有的负值都置为0,而正值不变,该函数只会将正值的神经元激活,这样就能够增加计算效率,不存在梯度消失问题,ReLU函数可以表示为:
Figure GDA0003633469010000072
sigmoid函数主要用于模型最后输出层,其目的是在输入数据趋于正无穷或负无穷时,函数趋近平滑状态,sigmoid函数因为输出范围(0,1),具有较好的对称性,常常应用于二分类问题中,即当输出满足某一概率条件我们将其划分正类,sigmoid函数可以表示为:
Figure GDA0003633469010000073
(2)损失函数。本发明训练过程用的损失函数是二值交叉熵(Binary_crossentropy)损失函数,该函数可以表示为:
Figure GDA0003633469010000081
其目的在于:当样本为正时y=1,此时Loss=-log(P(y)),当P(y)越大时,Loss越小,最理想的情况就是当P(y)=1时,Loss=0。当样本为反例时,y=0,此时Loss=-log(P(y)),当P(y)越小时,Loss越小,最理想的情况就是当P(y)=0时,Loss=0。因此Binary_crossentropy作为损失函数能够度量分类的准确性。降低Loss的过程就使得y=1的样本,得到的预测概率P(y)变大;y=0的样本,得到的预测概率P(y)变小。
(3)优化函数。本发明用到的优化函数是,RMSprop全称Root Mean Square prop算法,其主要目的就是为了加速梯度下降。它可以通过因子
Figure GDA0003633469010000082
为参数的不同分量分配不同的学习率,并且可以使梯度平滑过渡,让训练过程更加平稳,RMSProp函数可以表示为:
Figure GDA0003633469010000083
其中gt表示更新后的参数值,vt代表平均梯度。梯度优化的步长可以表示为:
Figure GDA0003633469010000084
其中γ代表初始学习率。
步骤5:设置SVM分类模型训练参数。在SVM训练过程中用到的核函数是linear(线性)函数或者Radial Basis Function(径向基)函数。线性函数主要用于线性可分的情形,具有参数少,速度快的优势,可以看作是径向基函数的特殊情况。径向基函数具有唯一最佳逼近特性,该函数作为核函数在SVM模型中能够将输入样本映射到高维空间,解决一些原本线性不可分的问题。该函数可以表示为:
Figure GDA0003633469010000085
其中i=1,2,…m;x是输入向量,xi是第i个基函数中心值,与输入向量具有相同的维度;σi是基函数第i个中心点宽度的标准化常数;‖x-xi2代表了向量x与xi之间的距离。
步骤6:模型训练与封装
主要训练过程如下:
(1)输入正常网页截屏图像和被污染网页图像,并将所有图像统一为512*512尺寸。
(2)将两类图像数据输入DRAE训练,直到模型不再收敛为止,并保存模型。
(3)提取(2)进行编码后的特征,并保存。
(4)将(3)提取的特征输入SVM进行训练,其中两类设置标签label为0表示正常网页,label为1表示被篡改的网页。本发明将正常截图的网页图像数据划归为正常类,被篡改的网页数据划分为另一类,当被判定输入的网页数据label为1时,则输入该网页的URL地址。训练完保存模型。
(5)将训练好的DRAE模型和训练好的SVM模型封装在一起,形成基于DRAE与SVM相结合的网页防篡改检测模型。
步骤7:搭建检测系统。以基于DRAE与SVM相结合的网页防篡改检测模型为核心,搭建一套网页防篡改检测系统,从而可以对输入的网页截屏图像数据进行检测,具体流程请参考图4。

Claims (7)

1.一种基于DRAE与SVM相结合的网页防篡改检测方法,其特征在于,包括以下步骤:
S1:截屏数据获取,在固定的时间间隔,获取预设域名范围内的网页截屏数据;
S2:人工标记网页截屏数据,从不同角度和位置模拟被篡改后的网页数据;
S3:将截屏图像数据和人工标记数据统一成512*512大小,输入DRAE进行特征学习训练,直到模型不再收敛,并提取学习后的特征,保存模型;DRAE模型是综合利用DeepResidual Network,Convolutional Auto-Encoder和SVM三个网络模型的思想,模型具体包括三个部分:(1)Encoder部分:在编码网络中增加了残差连接;(2)特征评估Output部分:利用损失函数度量神经网络的输出的预测值,与实际值之间的差距,并通过优化函数将该损失值从神经网络的最外层传递到最前面,以调整特征空间,直到模型不再收敛为止;(3)Feature提取部分:由输入数据转换成的特征空间;对DRAE模型进行训练参数的设置,具体训练参数如下:(1)激活函数,训练过程所用到的激活函数有ReLU函数和sigmoid函数,其中ReLU激活函数是一个分段函数,它把所有的负值都置为0,而正值不变,该函数只会将正值的神经元激活,这样就能够增加计算效率,不存在梯度消失问题,ReLU函数表示为:
Figure FDA0003651595040000011
sigmoid函数主要用于模型最后输出层,在输入数据趋于正无穷或负无穷时,函数趋近平滑状态,sigmoid函数的输出范围(0,1),当输出满足某一概率条件将其划分正类,sigmoid函数表示为:
Figure FDA0003651595040000012
(2)损失函数,训练过程用的损失函数是二值交叉熵Binary_crossentropy损失函数,该函数表示为:
Figure FDA0003651595040000013
当样本为正时y=1,此时Loss=-log(P(y)),当P(y)越大时,Loss越小,最理想的情况就是当P(y)=1时,Loss=0;当样本为反例时,y=0,此时Loss=-log(P(y)),当P(y)越小时,Loss越小,最理想的情况就是当P(y)=0时,Loss=0;(3)优化函数,优化函数是RMSprop,它通过因子
Figure FDA0003651595040000014
为参数的不同分量分配不同的学习率,并且使梯度平滑过渡,让训练过程更加平稳,RMSProp函数表示为:
Figure FDA0003651595040000015
其中gt表示更新后的参数值,vt代表平均梯度,梯度优化的步长表示为:
Figure FDA0003651595040000016
其中γ代表初始学习率;设置SVM分类模型训练参数,在SVM训练过程中用到的核函数是linear线性函数或者Radial Basis Function径向基函数,径向基函数具有唯一最佳逼近特性,该函数作为核函数在SVM模型中能够将输入样本映射到高维空间,解决一些原本线性不可分的问题,该函数表示为:
Figure FDA0003651595040000017
其中i=1,2,…m;x是输入向量,xi是第i个基函数中心值,与输入向量具有相同的维度;σi是基函数第i个中心点宽度的标准化常数;||x-xi||2代表了向量x与xi之间的距离;线性函数是径向基函数的特殊情况;
S4:将S2提取的特征输入SVM进行训练,将正常截图的网页图像数据划归为正常类,将异常网页数据划分为异常类,其中两类设置标签label为0表示正常网页,label为1表示其他类别,训练并保存模型;
S5:将S3和S4保存的模型进行封装,形成一套基于DRAE与SVM相结合的网页防篡改检测模型;
S6:以基于DRAE与SVM相结合的网页防篡改检测模型为核心,搭建一套网页防篡改检测系统,从而对输入的网页进行检测。
2.根据权利要求1所述一种基于DRAE与SVM相结合的网页防篡改检测方法,其特征在于,DRAE模型中Encoder部分由ResNet50对输入图像进行编码,所用优化函数为RMSprop;激活函数为ReLU函数和sigmoid函数;损失函数为二值交叉熵Binary_crossentropy损失函数。
3.根据权利要求1所述一种基于DRAE与SVM相结合的网页防篡改检测方法,其特征在于,SVM分类模型采用的核函数为linear线性函数或者Radial Basis Function径向基函数。
4.根据权利要求1所述一种基于DRAE与SVM相结合的网页防篡改检测方法,其特征在于,该方法可以事先设置报警信息,可以发送电子邮件通知管理员,也可以设置发生网页篡改事件时断掉服务器电源。
5.根据权利要求1所述一种基于DRAE与SVM相结合的网页防篡改检测方法,其特征在于,DRAE分为三部分,分别为:Encoder部分,特征评估Output部分,Feature提取部分。
6.根据权利要求1所述一种基于DRAE与SVM相结合的网页防篡改检测方法,其特征在于,SVM分类去判别网页是否被篡改的原则是:SVM模型事先将两类网页截屏图像数据分为两类,其中两类设置标签label为0表示正常网页,label为1表示被篡改的网页类别,当新输入SVM模型网页特征提取后的数据时,SVM自动将新输入的特征划分为指定的类别,如果判别为正常网页,则模型继续检测下一个网页,如果判别为被篡改类别,则输出该网页的URL地址并通知管理员处理。
7.根据权利要求1所述一种基于DRAE与SVM相结合的网页防篡改检测方法,其特征在于,该方法可以应用于一种基于DRAE与SVM相结合的在线网络安全值班系统。
CN202110273569.5A 2021-03-15 2021-03-15 一种基于drae与svm相结合的网页防篡改检测方法 Active CN112948897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110273569.5A CN112948897B (zh) 2021-03-15 2021-03-15 一种基于drae与svm相结合的网页防篡改检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110273569.5A CN112948897B (zh) 2021-03-15 2021-03-15 一种基于drae与svm相结合的网页防篡改检测方法

Publications (2)

Publication Number Publication Date
CN112948897A CN112948897A (zh) 2021-06-11
CN112948897B true CN112948897B (zh) 2022-08-26

Family

ID=76229743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110273569.5A Active CN112948897B (zh) 2021-03-15 2021-03-15 一种基于drae与svm相结合的网页防篡改检测方法

Country Status (1)

Country Link
CN (1) CN112948897B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672972B (zh) * 2021-07-01 2024-04-05 国网浙江省电力有限公司建设分公司 一种基于中台的重要资产安全监控方法
CN115396237A (zh) * 2022-10-27 2022-11-25 浙江鹏信信息科技股份有限公司 网页恶意篡改识别方法、系统及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652622A (zh) * 2020-05-26 2020-09-11 支付宝(杭州)信息技术有限公司 一种风险网址的识别方法、装置及电子设备
US10873456B1 (en) * 2019-05-07 2020-12-22 LedgerDomain, LLC Neural network classifiers for block chain data structures

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161385A1 (en) * 2008-12-19 2010-06-24 Nxn Tech, Llc Method and System for Content Based Demographics Prediction for Websites
US11507064B2 (en) * 2016-05-09 2022-11-22 Strong Force Iot Portfolio 2016, Llc Methods and systems for industrial internet of things data collection in downstream oil and gas environment
CN109558774A (zh) * 2017-09-27 2019-04-02 中国海洋大学 基于深度残差网络和支持向量机的物体自动识别系统
US11551353B2 (en) * 2017-11-22 2023-01-10 Arterys Inc. Content based image retrieval for lesion analysis
CN109344661B (zh) * 2018-09-06 2023-05-30 南京聚铭网络科技有限公司 一种基于机器学习的微代理的网页防篡改方法
CN110163234B (zh) * 2018-10-10 2023-04-18 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质
CN112418255A (zh) * 2019-08-21 2021-02-26 东北大学秦皇岛分校 基于一维卷积生成式对抗网络的无监督异常检测方案
CN111507409B (zh) * 2020-04-17 2022-10-18 中国人民解放军战略支援部队信息工程大学 一种基于深度多视角学习的高光谱影像分类方法及装置
CN112001273A (zh) * 2020-08-06 2020-11-27 清华大学 一种将卷积自编码器和逻辑回归相结合的故障诊断系统及方法
CN112381790A (zh) * 2020-11-13 2021-02-19 天津大学 一种基于深度自编码的异常图像检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10873456B1 (en) * 2019-05-07 2020-12-22 LedgerDomain, LLC Neural network classifiers for block chain data structures
CN111652622A (zh) * 2020-05-26 2020-09-11 支付宝(杭州)信息技术有限公司 一种风险网址的识别方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于支持向量机的自适应图像水印技术;李春花等;《计算机研究与发展》;20070815(第08期);全文 *
基于知识嵌入和DNN的工商业用户异常用电检测;李江腾等;《电力工程技术》;20200528(第03期);全文 *

Also Published As

Publication number Publication date
CN112948897A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN105426356B (zh) 一种目标信息识别方法和装置
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
CN112948897B (zh) 一种基于drae与svm相结合的网页防篡改检测方法
US20200285893A1 (en) Exploit kit detection system based on the neural network using image
CN105516127A (zh) 面向内部威胁检测的用户跨域行为模式挖掘方法
CN112863683B (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN109344661A (zh) 一种基于机器学习的微代理的网页防篡改方法
CN113704410B (zh) 情绪波动检测方法、装置、电子设备及存储介质
CN116305168A (zh) 一种多维度信息安全风险评估方法、系统及存储介质
CN115001934A (zh) 一种工控安全风险分析系统及方法
CN115577701A (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
Hong et al. Abnormal access behavior detection of ideological and political MOOCs in colleges and universities
CN114692593A (zh) 一种网络信息安全监测预警方法
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN111797904A (zh) 网页页面特征的篡改检测方法及装置
CN117176433A (zh) 网络数据的异常行为检测系统及方法
CN115296933B (zh) 一种工业生产数据风险等级评估方法及系统
CN115659351B (zh) 一种基于大数据办公的信息安全分析方法、系统及设备
KR101541158B1 (ko) 홈페이지 위변조 탐지 장치 및 방법
CN116488915A (zh) 基于深度学习的Web攻击检测与分类识别方法及装置
CN113888760B (zh) 基于软件应用的违规信息监控方法、装置、设备及介质
CN113259369B (zh) 一种基于机器学习成员推断攻击的数据集认证方法及系统
CN115567224A (zh) 一种用于检测区块链交易异常的方法及相关产品
CN113706207A (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant