CN111797904A - 网页页面特征的篡改检测方法及装置 - Google Patents

网页页面特征的篡改检测方法及装置 Download PDF

Info

Publication number
CN111797904A
CN111797904A CN202010535869.1A CN202010535869A CN111797904A CN 111797904 A CN111797904 A CN 111797904A CN 202010535869 A CN202010535869 A CN 202010535869A CN 111797904 A CN111797904 A CN 111797904A
Authority
CN
China
Prior art keywords
webpage
features
network
data set
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010535869.1A
Other languages
English (en)
Inventor
李子双
肖新光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Antian Science And Technology Group Co ltd
Original Assignee
Harbin Antian Science And Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Antian Science And Technology Group Co ltd filed Critical Harbin Antian Science And Technology Group Co ltd
Priority to CN202010535869.1A priority Critical patent/CN111797904A/zh
Publication of CN111797904A publication Critical patent/CN111797904A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供一种网页页面特征的篡改检测方法、装置、电子设备及存储介质,该方法包括:获取网页样本数据,建立网页样本数据集文档;从数据集文档中提取文本特征、结构特征和网络特征;挖掘文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。基于深度学习的异构特征分类算法,有效融合文本特征、结构特征和网络特征,更为精准地识别不同种类的网页篡改行为,降低了检测误报率。

Description

网页页面特征的篡改检测方法及装置
技术领域
本发明涉及网络安全技术领域,尤其涉及网页页面特征的篡改检测方法、装置、电子设备及存储介质。
背景技术
目前在网络安全领域,网页篡改检测技术主要分为本地检测技术和远程检测技术两种。本地检测技术是指将检测程序部署在网站服务器上,目前主要有以下几种方法:
使用工具对网页当前数据与历史数据进行对比,提出一种基于内容对比的校园网页防篡改监控系统,将有变动的网页展示给管理员查看;
从操作系统底层调用,以事件为出发点的文件防篡改机制,无须备份网页文件,就可以有效防止网页文件被非法篡改,确保网页健康运行;
基于动态水印技术的鉴别,在用户登录阶段进行校验来判断当前网页是否安全合法;
使用主成分分析法进行分类并规范网页属性,基于此提出针对不同网页的防篡改检测系统规则。
本地检测技术虽然检测结果准确,但是需要单机部署,不适用于大规模检测的场景中。
远程检测技术依赖网络爬虫工作,部署简单,适合大规模监控目标网站,但是误报率较高,目前主要检测研究方法有:
使用静态文本识别技术检测已知类型的网站挂马和暗链植入等恶意行为;
使用机器学习方法识别网页中的暗链,结合了暗链的域名、文本和隐藏结构特征,使用了分类与回归树、梯度提升决策树和随机森林三种方法来构建检测模型;
对脚本攻击行为进行了智能检测,首先使用类图像处理方法对数据进行预处理,再通过词向量方法获取特征,最后使用深度卷积神经网络进行智能识别;
基于网页主视觉区域的结构化文档对钓鱼网站进行检测,再从中提取特征进行分类。
这些研究方法在网页篡改方面进行了有益的探索,但仍存在几个主要问题:(1)使用的训练集过小,考虑的网页篡改类型简单,难以面对复杂多变的篡改行为。(2)使用的方法简单,不能充分挖掘不同特征中的复杂非线性关系,限制了模型的表示能力。(3)由于后两种方法研究对象并不直接匹配,这些方法和所用的数据集并不能直接移植到网页篡改识别工作中。
发明内容
有鉴于此,本发明提供了网页页面特征的篡改检测方法、装置、电子设备及存储介质,以解决或部分解决上述技术问题。
根据本发明的一个方面,提供了一种网页页面特征的篡改检测方法,所述方法包括:
获取网页样本数据,建立网页样本数据集文档;
从所述数据集文档中提取文本特征、结构特征和网络特征;
挖掘所述文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。
可选地,所述获取网页样本数据,建立网页样本数据集文档包括:
使用自动扫描策略获取可能被篡改的网页样本;
对于所述网页样本基于网页被篡改的类型进行标注,建立网页样本数据集文档。
可选地,所述从所述数据集文档中提取文本特征、结构特征和网络特征包括:
以规则方式提取所述数据集文档中的文本,进行自动分词,获得多个词串,从所述词串中抽取文本特征;
检测所述网页样本数据集中的篡改样本,提取所述篡改样本的结构特征;
以无监督方式获取所述数据集文档的网络特征。
可选地,所述从所述词串中抽取文本特征包括:
使用Doc2vec从所述词串中无监督地抽取特征,所述数据集文档D的文本特征向量d的具体优化目标函数如公式(一)所示:
d=argmaxdip(wi|d,context(wi)) 公式(一)
其中,argmaxd为计算具有最大评分的参量集合的函数,wi为所述数据集文档D的第i个词;context(wi)为该词的上下文词;向量d为定长的连续特征向量。
可选地,所述无监督方式获取所述数据集文档的网络特征包括:
Deepwalk使用随机游走策略从网络G中采样出节点序列v1,v2,…,vn,其中,vj为节点j的特征向量;
通过公式(二)计算获得所述网络特征v:
Figure BDA0002536967680000031
其中,w为所述数据集文档上下文窗口的大小;
可选地,所述挖掘所述文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别包括:
将所述文本特征向量d,结构特征向量f和网络特征向量v拼接为最终特征向量a,采用公式(三)获得输出向量yg
yg=hg(xg)=sigmoid(Wgxg+bg) 公式(三)
其中,m为深度神经网络的总层数,xg为第g层的输入向量,xg∈Rm,yg为第g层的输出向量,yg∈Rn,hg为第g层的神经网络函数变换;Wg∈Rm×n,bg∈Rn,sigmoid为激活函数,采用公式(四)计算:
Figure BDA0002536967680000032
其中,z为Wgxg+bg
将某个网页的最终特征向量a输入到l层的神经网络中,采用公式(五)获得最终输出向量yl:
yl=h1h2…hl(a) 公式(五)
采用公式(六)获得标签概率输出向量
Figure BDA0002536967680000041
Figure BDA0002536967680000042
采用公式(七)计算篡改行为类别概率的准确率L:
Figure BDA0002536967680000043
根据本发明的另一个方面,提供了一种网页页面特征的篡改检测装置,所述装置包括:
数据集文档建立模块,用于获取网页样本数据,建立网页样本数据集文档;
特征提取模块,用于从所述数据集文档中提取文本特征、结构特征和网络特征;
篡改行为类别检测模块,用于挖掘所述文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。
可选地,所述数据集文档建立模块具体用于:
使用自动扫描策略获取可能被篡改的网页样本;
对于所述网页样本基于网页被篡改的类型进行标注,建立网页样本数据集文档。
可选地,所述特征提取模块具体用于:
以规则方式提取所述数据集文档中的文本,进行自动分词,获得多个词串,从所述词串中抽取文本特征;
检测所述网页样本数据集中的篡改样本,提取所述篡改样本的结构特征;
以无监督方式获取所述数据集文档的网络特征。
根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述的方法。
根据本发明的又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述的方法。
本发明通过获取网页样本数据,建立网页样本数据集文档;从数据集文档中提取文本特征、结构特征和网络特征;挖掘文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。基于深度学习的异构特征分类算法,有效融合文本特征、结构特征和网络特征,更为精准地识别不同种类的网页篡改行为,降低了检测误报率。
附图说明
图1为本发明实施例提供的一种网页页面特征的篡改检测方法流程图;
图2为本发明实施例提供的一种网页页面特征的篡改检测装置图;
图3为本发明电子设备一个实施例的结构示意图。
具体实施方式
首先对本发明涉及到的技术名词进行解释。
网页篡改:指恶意破坏或更改网页内容,使网站无法正常工作或出现黑客插入的非正常网页内容。
深度学习:是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
深度神经网络:神经网络是人工神经网络的简称,又称类神经网络。在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。深度神经网络是指具有多层神经网络的判别模型,深度是指神经网络中的层数。
数据集:又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
下面结合说明书附图,对本发明实施例提供的一种基于网页页面特征的篡改检测方法、装置、电子设备及存储介质的具体实施方式进行说明。
图1为本发明实施例提供的一种网页页面特征的篡改检测方法流程图,如图1所示,该方法包括:
步骤S11:获取网页样本数据,建立网页样本数据集文档;
在本发明的一些具体实施例中,获取网页样本数据,建立网页样本数据集文档包括:使用自动扫描策略获取可能被篡改的网页样本;对于网页样本基于网页被篡改的类型进行标注,建立网页样本数据集文档。
搜集网页篡改样本数据,并对网页篡改类型进行人工标注,建立网页样本数据集文档,为训练自动识别模型提供数据支持。
(1)数据搜集阶段,使用自动扫描策略获取可能被篡改的网页样本。首先,使用网页采集技术正常访问目标网页,对于已经爬取到的网页,定期重新爬取7次。每次爬取结束后,对网页中的标签字段建立文档指纹。正常网页的标签字段更新并不频繁,而被篡改网页的标签字段一般更新十分频繁。因此,如果同一网页的7次指纹都不一致,则认为该网页可能被篡改。将数据集按照7:2:1比例随机分为训练集、验证集和测试集。
(2)人工标注阶段,对于搜集到的样本基于网页被篡改的类型进行标注,对于标注者的标注结果,使用随机抽样的方法进行可靠性检验。将网页篡改的类型分为:SEO攻击、重定向攻击、诱导攻击和其他攻击四类。
步骤S12:从数据集文档中提取文本特征、结构特征和网络特征;
在本发明的一些具体实施例中,从数据集文档中提取文本特征、结构特征和网络特征包括:
以规则方式提取所述数据集文档中的文本,进行自动分词,获得多个词串,从词串中抽取文本特征;其中从词串中抽取文本特征包括:使用Doc2vec从所述词串中无监督地抽取特征,所述数据集文档D的文本特征向量d的具体优化目标函数如公式(一)所示:
d=argmaxdip(wi|d,context(wi)) 公式(一)
其中,argmaxd为计算具有最大评分的参量集合的函数,wi为所述数据集文档D的第i个词;context(wi)为该词的上下文词;向量d为定长的连续特征向量。
检测网页样本数据集中的篡改样本,提取篡改样本的结构特征;
以无监督方式获取数据集文档的网络特征。Deepwalk使用随机游走策略从网络G中采样出节点序列v1,v2,…,vn,其中,vj为节点j的特征向量;
通过公式(二)计算获得所述网络特征v:
Figure BDA0002536967680000071
其中,w为所述数据集文档上下文窗口的大小;
换言之,(1)文本特征的提取。被篡改的网页中常常包含较强的文本语义信息,例如赌博、彩票、色情的相关词,提取文本特征有助于判定篡改的类型。
A.使用正则表达式以规则方式提取源文档中的文本,再使用北大中文分词工具包pkuseg进行自动分词,每个网页中会抽取到一串w1,w2,…wn词串。
B.使用Doc2vec从词串中无监督地抽取特征。Doc2vec可以自动地学习出高质量的复杂文本特征。文档D的向量d的具体优化目标函数如下:
Figure BDA0002536967680000081
其中,wi为文档D的每一个词,context(wi)为该词的上下文词。向量d为定长的连续特征向量。对于所有的文档,算法将按顺序遍历文档中的每一个词wi将文档的向量d和上下文词context(wi)的向量进行拼接,再最大化目标词wi的似然率。假设所有的单项是条件独立,则总体概率是所有单个概率项的乘积。用上述公式实现对网页文本特征向量d的优化,使向量d最接近网页实际文本特征。
(2)结构特征的提取。网页篡改者常使用Javascript脚本或者层叠样式表(Cascading style sheets,CSS)样式来控制篡改,影响内容的呈现、网页的跳转和SEO的排名。
通过对大量网页暗链样本进行观察,发现网页暗链大都是利用HTML和JavaScript源代码属性对超链接实现隐藏功能,并总结高频暗链隐藏结构,一些结构如下:
A.设置CSS隐藏样式“text.decoration:none”,“display:none”,“visibility:hidden”来隐藏暗链,使一般访问网页者不可见。该方法被广泛应用于“暗链攻击”,是暗链的重要特征。
B.设置整个div标签的位置属性在可视窗之外,利用“position:absolute”属性,将其参数设置为一个较大的负值。
C.设置暗链相关文本的字体颜色与网页背景色一致,通常使用“color:#FFFFFF”与“color:#000000”(分别代表白色和黑色)属性,使用户访问时无法察觉。
D.设置暗链相关文本的字体大小为0像素,利用“font—size:0px”属性使得相关文字被隐藏起来。
通过上述对暗链隐藏结构特征的总结,针对该特征,采用Xpath将被黑网页源码中高频暗链隐藏结构中的特征术语和相应代码进行提取;
为达到隐藏和劫持等目的,网页篡改的脚本和CSS有其本身的统计特点,建立CSS和JAVASCRIP词典,在计算与网页篡改攻击的交互信息后,保留了与其最为相关的12个,表1为部分典型网页结构特征示例。根据确定的网页类型和函数名,能够确定暗链网页结构特征的归属类型。
表1部分典型网页结构特征示例
Figure BDA0002536967680000091
网页的结构特征向量f的特征维度为最终确定的典型网页结构特征数目。
(3)网络特征的提取。网页及其链接关系可以形式化为社会网络,每一个网页是网络上的一个节点,而相互之间的链接引用则是网络上的边。通过挖掘网页的社会网络特征,常常可以揭示网页本身的性质。
使用Deepwalk算法以无监督的方式获取网页的社会网络特征。Deepwalk首先使用随机游走策略从网络G中采样出节点序列v1,v2,…,vn,其中,vj可以看做节点j的特征向量
基于多个节点的网络特征v计算公式如下:
Figure BDA0002536967680000092
其中,w为上下文窗口的大小。
步骤S13:挖掘文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。将所述文本特征向量d,结构特征向量f和网络特征向量v拼接为最终特征向量a,采用公式(三)获得输出向量yg
yg=hg(xg)=sigmoid(Wgxg+bg) 公式(三)
其中,m为深度神经网络的总层数,xg为第g层的输入向量,xg∈Rm,yg为第g层的输出向量,yg∈Rn,hg为第g层的神经网络函数变换;Wg∈Rm×n,bg∈Rn,sigmoid为激活函数,采用公式(四)计算:
Figure BDA0002536967680000101
其中,z为Wgxg+bg
将某个网页的最终特征向量a输入到l层的神经网络中,采用公式(五)获得最终输出向量yl:
yl=h1h2…hl(a) 公式(五)
采用公式(六)获得标签概率输出向量
Figure BDA0002536967680000102
Figure BDA0002536967680000103
采用公式(七)计算篡改行为类别概率的准确率L:
Figure BDA0002536967680000104
换言之,使用深度神经网络分类器,可以充分挖掘异构的文本特征、结构特征和网络特征之间的复杂非线性关系。
对于某一个网页,将其文本特征向量d,结构特征向量f和网络特征v拼接为最终的特征向量a。深度神经网络一共有m层,每一层的输出是下一层的输入,第一层的输入则是a。假设第g层的输入向量为xg∈Rm,输出向量为yg∈Rn,下式中的hg为第g层的神经网络函数变换
yg=hg(xg)=sigmoid(Wgxg+bg)
式中:Wg∈Rm×n,bg∈Rn,sigmoid为激活函数,为模型提供非线性变换,表达式为:
Figure BDA0002536967680000105
如果某个网页的特征向量a输入到l层的神经网络中,最后得到的输出向量为:
yl=h1h2…hl(a)
分类器的目标是预测目标网页的被篡改类型,由于网页的篡改类型共有5种,因此分类的标签数为5,也就是yl∈R5最终的标签概率输出向量为yo∈R5,对于多分类的情况,就需要用到softmax激活函数给每个类都分配一个概率。Softmax公式如下:
Figure BDA0002536967680000111
令yt∈R5为网页的真实被篡改标签,使用单热点向量表示,分类器的损失函数使用下式中的交叉熵损失函数,表达式为:
Figure BDA0002536967680000112
在整个数据集上的损失函数则是所有单个损失函数的和,损失值很小,说明这组概率正确的可能性很大,相反损失值很大,说明这组概率正确的可能性很小。
在本发明的一些具体实施例中,该方法还包括:在数据集中对神经网络分类器进行训练,根据实验效果改进神经网络的层数、每层的隐藏单元数、学习率和各层采用的激活函数等超参数,不断循环迭代,直到构建出一个性能优良的神经网络。
在本发明的一些具体实施例中,该方法还包括:在测试集中对模型进行评估,计算最终结果的精确率、召回率、和F1 score,对模型进行评估。
该方法应用于网页篡改远程检测,适用于大规模网页篡改行为检测,通过深度学习神经网络分类器,提升了远程检测的效率,降低了检测误报率。
在本发明的一些具体实施例中,本发明通过自动扫描策略获取可能被篡改的网络样本,对于已经爬取到的网页,定期重新爬取7次,如果同一网页的7次指纹都不一致,则认定为该网页可能被篡改。假设本次通过爬取获得507个网页样本,发现其中25个页面被篡改,将数据集按照7:2:1比例随机分为训练集、验证集和测试集。训练集的作用是训练模型;验证集用来检验训练集中得到模型的表现,通过调整超参数,让模型处于最佳状态;测试集实现对模型的评估,通过测试集的评估,会得到最终的评估指标。人工标记篡改类型分布如表2所示,表2为人工标记篡改类型分布。实际情况中,数据应该是大量的,通常将数据集按照8:1:1:的比例随机分为训练集、验证集、测试集,此处仅举例以示说明。
表2为人工标记篡改类型分布
Figure BDA0002536967680000121
本发明网页篡改的目标是在训练数据集中训练出一个模型M,在测试数据集中,使模型识别的网页篡改类型无限接近真实情况。
首先,对搜集的源文本分别使用检测器对文本特征、结构特征和网络特征进行提取,通过拼接得到文档向量特征。然后,在训练集中对神经网络分类器进行训练,最终得到篡改类型。本次举例假设在训练文本特征时,窗口大小为10个词,特征向量维度为64;训练网络特征时,窗口大小为10个节点,最大采样长度为100,迭代轮数为10,向量长度为64维;本方法一共设置了12个结构特征;综上,总的特征维度数为64+64+12=140维。在训练分类器时,使用深度为2的前馈神经网络,第一层维度为128,第二层维度为128。
将此参数模型用于数据集中,最终的分类结果为:SEO检测样本数为6重定向检测样本数为11,诱导检测样本数为9,其他类别检测样本数为1,负样本数为480。然后在测试集中对模型进行评估,通过对数据结果精确率,召回率和F1值的计算,来评估训练模型的结果。
精确率(Precision)指模型预测为正的样本中实际也为正的样本占被预测为正的样本的比例。计算公式为:
Figure BDA0002536967680000131
召回率(Recall)指实际为正的样本中被预测为正的样本所占实际为正的样本的比例。计算公式为:
Figure BDA0002536967680000132
其中,FP表示实际为负但被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,TP表示实际为正被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量。
F1 score是精确率和召回率的调和平均值,Precision体现了模型对负样本的区分能力,Precision越高,模型对负样本的区分能力越强;Recall体现了模型对正样本的识别能力,Recall越高,模型对正样本的识别能力越强。F1score是两者的综合,F1 score越高,说明模型越稳健。F1的计算公式为:
Figure BDA0002536967680000133
通过上述公式计算,得出各类算法评估指标的结果如下表:
Figure BDA0002536967680000134
通过对各类方法的F1值作对比,可以看到将所有特征效果融合后,分类结果最佳,证明深度神经网络来利用多种异构特征识别网页篡改行为,是一种有效的技术方案。通过对模型的不断训练,根据实验效果,在验证集中改进神经网络的层数、每层的隐藏单元数、学习率和各层采用的激活函数等超参数,不断循环迭代,直到构建出一个性能优良的神经网络。本次实验的最终结果为:
Figure BDA0002536967680000141
图2为本发明实施例提供的一种网页页面特征的篡改检测装置示意图,该装置20包括:
数据集文档建立模块201,用于获取网页样本数据,建立网页样本数据集文档;
特征提取模块202,用于从数据集文档中提取文本特征、结构特征和网络特征;
篡改行为类别检测模块203,用于挖掘文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。
在本发明的一些具体实施例中,数据集文档建立模块201具体用于:
使用自动扫描策略获取可能被篡改的网页样本;
对于网页样本基于网页被篡改的类型进行标注,建立网页样本数据集文档。
在本发明的一些具体实施例中,特征提取模块202具体用于:
以规则方式提取数据集文档中的文本,进行自动分词,获得多个词串,从词串中抽取文本特征;检测网页样本数据集中的篡改样本,提取篡改样本的结构特征;以无监督方式获取数据集文档的网络特征。
在本发明的一些具体实施例中,从词串中抽取文本特征包括:
使用Doc2vec从所述词串中无监督地抽取特征,所述数据集文档D的文本特征向量d的具体优化目标函数如公式(一)所示:
d=argmaxdip(wi|d,context(wi)) 公式(一)
其中,argmaxd为计算具有最大评分的参量集合的函数,wi为所述数据集文档D的第i个词;context(wi)为该词的上下文词;向量d为定长的连续特征向量。
在本发明的一些具体实施例中,无监督方式获取网络特征包括:
Deepwalk使用随机游走策略从网络G中采样出节点序列v1,v2,…,vn,其中,vj为节点j的特征向量;
通过公式(二)计算获得所述网络特征v:
Figure BDA0002536967680000151
其中,w为所述数据集文档上下文窗口的大小;
在本发明的一些具体实施例中,挖掘文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别包括:
将文本特征向量d,结构特征向量f和网络特征向量v拼接为最终特征向量a,采用公式(三)获得输出向量yg
yg=hg(xg)=sigmoid(Wgxg+bg) 公式(三)
其中,m为深度神经网络的总层数,xg为第g层的输入向量,xg∈Rm,yg为第g层的输出向量,yg∈Rn,hg为第g层的神经网络函数变换;Wg∈Rm×n,bg∈Rn,sigmoid为激活函数,采用公式(四)计算:
Figure BDA0002536967680000152
其中,z为Wgxg+bg
将某个网页的最终特征向量a输入到l层的神经网络中,采用公式(五)获得最终输出向量yl:
yl=h1h2…hl(a) 公式(五)
采用公式(六)获得标签概率输出向量
Figure BDA0002536967680000153
Figure BDA0002536967680000154
采用公式(七)计算篡改行为类别概率的准确率L:
Figure BDA0002536967680000155
本发明实施例还提供一种电子设备,图3为本发明电子设备一个实施例的结构示意图,可以实现本发明图1所示实施例的流程,如图3所示,上述电子设备可以包括:壳体31、处理器32、存储器33、电路板34和电源电路35,其中,电路板34安置在壳体31围成的空间内部,处理器32和存储器33设置在电路板34上;电源电路35,用于为上述电子设备的各个电路或器件供电;存储器33用于存储可执行程序代码;处理器32通过读取存储器33中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例所述的方法。
处理器32对上述步骤的具体执行过程以及处理器32通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图1所示实施例的描述,在此不再赘述。
该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
本发明的实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述的程序启动方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
本发明具有以下技术效果:
综上所述,本发明基于深度学习方法,通过建立数据集,基于特征数据对神经网络分类器进行学习和训练,提高远程检测的准确率;本发明提取网页的文本特征、结构特征和网络特征,将三种特征融合为新的检测特征,支持网页篡改类型识别;无须对网站服务器做任何形式的修改,只须提供网页的URL,通过抓取网页的相关特征,建立多个检测器即可;对于检测的网页在数量上没有限制,在误报率和漏报率允许的情况下,实现了无人值守的网页篡改检测。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种网页页面特征的篡改检测方法,其特征在于,所述方法包括:
获取网页样本数据,建立网页样本数据集文档;
从所述数据集文档中提取文本特征、结构特征和网络特征;
挖掘所述文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。
2.如权利要求1所述的方法,其特征在于,所述获取网页样本数据,建立网页样本数据集文档包括:
使用自动扫描策略获取可能被篡改的网页样本;
对于所述网页样本基于网页被篡改的类型进行标注,建立网页样本数据集文档。
3.如权利要求1所述的方法,其特征在于,所述从所述数据集文档中提取文本特征、结构特征和网络特征包括:
以规则方式提取所述数据集文档中的文本,进行自动分词,获得多个词串,从所述词串中抽取文本特征;
检测所述网页样本数据集中的篡改样本,提取所述篡改样本的结构特征;
以无监督方式获取所述数据集文档的网络特征。
4.如权利要求3所述的方法,其特征在于,所述从所述词串中抽取文本特征包括:
使用Doc2vec从所述词串中无监督地抽取特征,所述数据集文档D的文本特征向量d的具体优化目标函数如公式(一)所示:
d=argmaxdΠip(wi|d,context(wi)) 公式(一)
其中,argmaxd为计算具有最大评分的参量集合的函数,wi为所述数据集文档D的第i个词;context(wi)为该词的上下文词;向量d为定长的连续特征向量。
5.如权利要求3所述的方法,其特征在于,所述无监督方式获取所述数据集文档的网络特征包括:
Deepwalk使用随机游走策略从网络G中采样出节点序列v1,v2,…,vn,其中,vj为节点j的特征向量;
通过公式(二)计算获得网络特征向量v:
Figure FDA0002536967670000021
其中,w为所述数据集文档上下文窗口的大小。
6.如权利要求1所述的方法,其特征在于,所述挖掘所述文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别包括:
将所述文本特征向量d,结构特征向量f和网络特征向量v拼接为最终特征向量a,采用公式(三)获得输出向量yg
yg=hg(xg)=sigmoid(Wgxg+bg) 公式(三)
其中,m为深度神经网络的总层数,xg为第g层的输入向量,xg∈Rm,yg为第g层的输出向量,yg∈Rn,hg为第g层的神经网络函数变换;Wg∈Rm×n,bg∈Rn,sigmoid为激活函数,采用公式(四)计算:
Figure FDA0002536967670000022
其中,z为Wgxg+bg
将某个网页的最终特征向量a输入到1层的神经网络中,采用公式(五)获得最终输出向量yl
yl=h1h2…hl(a) 公式(五)
采用公式(六)获得标签概率输出向量
Figure FDA0002536967670000023
Figure FDA0002536967670000024
采用公式(七)计算篡改行为类别概率的准确率L:
Figure FDA0002536967670000025
7.一种网页页面特征的篡改检测装置,其特征在于,所述装置包括:
数据集文档建立模块,用于获取网页样本数据,建立网页样本数据集文档;
特征提取模块,用于从所述数据集文档中提取文本特征、结构特征和网络特征;
篡改行为类别检测模块,用于挖掘所述文本特征、结构特征和网络特征之间的非线性关系,进而检测网页页面特征的篡改行为类别。
8.如权利要求7所述的装置,其特征在于,所述数据集文档建立模块具体用于:
使用自动扫描策略获取可能被篡改的网页样本;
对于所述网页样本基于网页被篡改的类型进行标注,建立网页样本数据集文档。
9.如权利要求7所述的装置,其特征在于,所述特征提取模块具体用于:
以规则方式提取所述数据集文档中的文本,进行自动分词,获得多个词串,从所述词串中抽取文本特征;
检测所述网页样本数据集中的篡改样本,提取所述篡改样本的结构特征;
以无监督方式获取所述数据集文档的网络特征。
10.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求1至6任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述权利要求1至6中任一项所述的方法。
CN202010535869.1A 2020-06-12 2020-06-12 网页页面特征的篡改检测方法及装置 Withdrawn CN111797904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010535869.1A CN111797904A (zh) 2020-06-12 2020-06-12 网页页面特征的篡改检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010535869.1A CN111797904A (zh) 2020-06-12 2020-06-12 网页页面特征的篡改检测方法及装置

Publications (1)

Publication Number Publication Date
CN111797904A true CN111797904A (zh) 2020-10-20

Family

ID=72803296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010535869.1A Withdrawn CN111797904A (zh) 2020-06-12 2020-06-12 网页页面特征的篡改检测方法及装置

Country Status (1)

Country Link
CN (1) CN111797904A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528190A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于片化结构与内容的网页篡改评判方法、装置及存储介质
CN113407885A (zh) * 2021-06-23 2021-09-17 中移(杭州)信息技术有限公司 XPath数据篡改告警方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559235A (zh) * 2013-10-24 2014-02-05 中国科学院信息工程研究所 一种在线社交网络恶意网页检测识别方法
US20150033331A1 (en) * 2013-07-24 2015-01-29 Nice-Systems Ltd. System and method for webpage analysis
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
US20190014133A1 (en) * 2017-07-05 2019-01-10 Eli David Methods and systems for detecting malicious webpages
CN110866290A (zh) * 2018-11-21 2020-03-06 哈尔滨安天科技集团股份有限公司 芯片恶意篡改检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150033331A1 (en) * 2013-07-24 2015-01-29 Nice-Systems Ltd. System and method for webpage analysis
CN103559235A (zh) * 2013-10-24 2014-02-05 中国科学院信息工程研究所 一种在线社交网络恶意网页检测识别方法
US20190014133A1 (en) * 2017-07-05 2019-01-10 Eli David Methods and systems for detecting malicious webpages
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
CN110866290A (zh) * 2018-11-21 2020-03-06 哈尔滨安天科技集团股份有限公司 芯片恶意篡改检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
印杰等: "基于深度学习的网页篡改远程检测研究", 《南京理工大学学报》, vol. 44, no. 1, pages 51 - 52 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528190A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于片化结构与内容的网页篡改评判方法、装置及存储介质
CN113407885A (zh) * 2021-06-23 2021-09-17 中移(杭州)信息技术有限公司 XPath数据篡改告警方法、装置、设备及可读存储介质
CN113407885B (zh) * 2021-06-23 2024-04-12 中移(杭州)信息技术有限公司 XPath数据篡改告警方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN110233849B (zh) 网络安全态势分析的方法及系统
Opara et al. HTMLPhish: Enabling phishing web page detection by applying deep learning techniques on HTML analysis
CN107437038B (zh) 一种网页篡改的检测方法及装置
CN109831460B (zh) 一种基于协同训练的Web攻击检测方法
WO2020151173A1 (zh) 一种网页篡改检测方法及相关装置
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
Ding et al. A visualizable evidence-driven approach for authorship attribution
CN112541476A (zh) 一种基于语义特征提取的恶意网页识别方法
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN111797904A (zh) 网页页面特征的篡改检测方法及装置
CN114915468A (zh) 基于知识图谱的网络犯罪智能分析检测方法
Aljabri et al. Fake news detection using machine learning models
Wibowo et al. Detection of Fake News and Hoaxes on Information from Web Scraping using Classifier Methods
CN114692593A (zh) 一种网络信息安全监测预警方法
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
Paul et al. Editing Behavior to Recognize Authors of Crowdsourced Content.
CN111488621A (zh) 一种篡改网页检测方法、系统及电子设备和存储介质
CN115001763B (zh) 钓鱼网站攻击检测方法、装置、电子设备及存储介质
Yuliani et al. A framework for hoax news detection and analyzer used rule-based methods
KR102483004B1 (ko) 유해 url 탐지 방법
CN115344563B (zh) 数据去重方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 150028 building 7, innovation and entrepreneurship square, science and technology innovation city, Harbin high tech Industrial Development Zone, Heilongjiang Province (No. 838, Shikun Road)

Applicant after: Antan Technology Group Co.,Ltd.

Address before: 150028 building 7, innovation and entrepreneurship square, science and technology innovation city, Harbin high tech Industrial Development Zone, Harbin, Heilongjiang Province (No. 838, Shikun Road)

Applicant before: Harbin Antian Science and Technology Group Co.,Ltd.

CB02 Change of applicant information
WW01 Invention patent application withdrawn after publication

Application publication date: 20201020

WW01 Invention patent application withdrawn after publication