CN109165529B - 一种暗链篡改检测方法、装置和计算机可读存储介质 - Google Patents

一种暗链篡改检测方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN109165529B
CN109165529B CN201810922526.3A CN201810922526A CN109165529B CN 109165529 B CN109165529 B CN 109165529B CN 201810922526 A CN201810922526 A CN 201810922526A CN 109165529 B CN109165529 B CN 109165529B
Authority
CN
China
Prior art keywords
target
data sample
word
historical
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810922526.3A
Other languages
English (en)
Other versions
CN109165529A (zh
Inventor
范如
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN201810922526.3A priority Critical patent/CN109165529B/zh
Publication of CN109165529A publication Critical patent/CN109165529A/zh
Application granted granted Critical
Publication of CN109165529B publication Critical patent/CN109165529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明实施例公开了一种暗链篡改检测方法、装置和计算机可读存储介质,对获取的各数据样本进行分词处理,得到多个分词;利用卡方检验算法,从各分词组中分别提取出特征词组;计算目标特征词组中各目标特征词所对应的权重值,依据权重值,从目标特征词组中筛选出待测试词组;利用训练好的分类模型,对待测试词组进行分类处理,确定出目标数据样本所属的网页类型;参照目标数据样本的检测方式,可以确定出所有数据样本各自所属的网页类型。其中,网页类型可以包括篡改网页和正常网页。依据数据样本所属的网页类型,便可以准确的确定出数据样本是否被篡改,为网站安全,打击网络引擎作弊行为提供了强有力的理论和实践支持。

Description

一种暗链篡改检测方法、装置和计算机可读存储介质
技术领域
本发明涉及计算机网页技术领域,特别是涉及一种暗链篡改检测方法、装置和计算机可读存储介质。
背景技术
暗链就是看不见的网站链接,暗链在网站中的链接做得非常隐蔽,短时间内不易被搜索引擎察觉,可以有效地提高网页级别。随着暗链的推广使用,在一些重要网站例如政府网站、教育网站、业务网站等官方网站经常会出现暗链被篡改的情况,对网站的安全性带来威胁。
传统方式中,采用基于统计机器学习的互联网暗链检测方法来识别网页中是否包含暗链,依据该方法可以检测是否存在暗链,但是并未对暗链的合法性即暗链是否被篡改进行判断。而暗链的合法性对于监测引擎安全至关重要。
可见,如何检测网页中的暗链是否被篡改,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种暗链篡改检测方法、装置和计算机可读存储介质,可以检测网页中的暗链是否被篡改。
为解决上述技术问题,本发明实施例提供一种暗链篡改检测方法,包括:
对获取的各数据样本进行分词处理,得到多个分词;每个所述数据样本对应一个分词组;
利用卡方检验算法,从各所述分词组中分别提取出特征词组;
计算目标特征词组中各目标特征词所对应的权重值,并依据所述权重值,从所述目标特征词组中筛选出待测试词组;其中,目标特征词组为所有所述特征词组中的任意一个特征词组;
利用训练好的分类模型,对所述待测试词组进行分类处理,以确定出目标数据样本所属的网页类型;其中,所述网页类型包括篡改网页和正常网页;所述目标数据样本为与所述目标特征词组相对应的数据样本。
可选的,所述分类模型的训练过程包括:
对获取的各历史样本进行分词处理,得到多个历史分词;每个所述历史样本对应一个历史分词组;
利用卡方检验算法,从各所述历史分词组中分别提取出历史特征词组;
计算第一历史特征词组中各历史特征词所对应的权重值,并依据所述权重值,从所述第一历史特征词组中筛选出第一训练词组;其中,所述第一历史特征词组为所有所述历史特征词组中的任意一个历史特征词组;所有所述历史特征词组各自对应的训练词组构成目标训练词组;
利用支持向量机算法对所述目标训练词组进行训练,确定出分类模型的最优模型参数,以实现对所述分类模型的训练。
可选的,所述数据样本的获取过程包括:
利用关键词算法收集包含关键字的网页源码;
对所述网页源码进行解析以提取出数据样本。
可选的,所述计算目标特征词组中各目标特征词所对应的权重值包括:
计算目标特征词在所述目标数据样本中出现的频率值;
计算所述目标特征词在所有所述数据样本中的比例值;
依据所述频率值和所述比例值,确定出所述目标特征词所对应的权重值。
可选的,在所述利用训练好的分类模型,对所述待测试词组进行分类处理,以确定出目标数据样本所属的网页类型之后还包括:
当所述目标数据样本属于篡改网页时,则进行告警提示。
本发明实施例还提供了一种暗链篡改检测装置,包括分词单元、提取单元、计算单元、筛选单元和分类单元;
所述分词单元,用于对获取的各数据样本进行分词处理,得到多个分词;每个所述数据样本对应一个分词组;
所述提取单元,用于利用卡方检验算法,从各所述分词组中分别提取出特征词组;
所述计算单元,用于计算目标特征词组中各目标特征词所对应的权重值;
所述筛选单元,用于依据所述权重值,从所述目标特征词组中筛选出待测试词组;其中,目标特征词组为所有所述特征词组中的任意一个特征词组;
所述分类单元,用于利用训练好的分类模型,对所述待测试词组进行分类处理,以确定出目标数据样本所属的网页类型;其中,所述网页类型包括篡改网页和正常网页;所述目标数据样本为与所述目标特征词组相对应的数据样本。
可选的,针对于所述分类模型的训练过程,所述装置还包括训练单元;
所述分词单元还用于对获取的各历史样本进行分词处理,得到多个历史分词;每个所述历史样本对应一个历史分词组;
所述提取单元还用于利用卡方检验算法,从各所述历史分词组中分别提取出历史特征词组;
所述计算单元还用于计算第一历史特征词组中各历史特征词所对应的权重值;
所述筛选单元还用于依据所述权重值,从所述第一历史特征词组中筛选出第一训练词组;其中,所述第一历史特征词组为所有所述历史特征词组中的任意一个历史特征词组;所有所述历史特征词组各自对应的训练词组构成目标训练词组;
所述训练单元,用于利用支持向量机算法对所述目标训练词组进行训练,确定出分类模型的最优模型参数,以实现对所述分类模型的训练。
可选的,针对于所述数据样本的获取过程,所述装置还包括收集单元和解析单元;
所述收集单元,用于利用关键词算法收集包含关键字的网页源码;
所述解析单元,用于对所述网页源码进行解析以提取出数据样本。
可选的,所述计算单元具体用于计算目标特征词在所述目标数据样本中出现的频率值;计算所述目标特征词在所有所述数据样本中的比例值;依据所述频率值和所述比例值,确定出所述目标特征词所对应的权重值。
可选的,还包括提示单元;
所述提示单元,用于当所述目标数据样本属于篡改网页时,则进行告警提示。
本发明实施例还提供了一种暗链篡改检测装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述暗链篡改检测方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述暗链篡改检测方法的步骤。
由上述技术方案可以看出,对获取的各数据样本进行分词处理,得到多个分词;每个数据样本对应一个分词组;利用卡方检验算法,从各分词组中分别提取出特征词组;以所有特征词组中的任意一个特征词组即目标特征词组为例,可以计算目标特征词组中各目标特征词所对应的权重值,并依据权重值,从目标特征词组中筛选出待测试词组;利用训练好的分类模型,对待测试词组进行分类处理,可以确定出目标数据样本所属的网页类型;目标数据样本为与目标特征词组相对应的数据样本;参照目标数据样本的检测方式,可以确定出所有数据样本各自所属的网页类型。其中,网页类型可以包括篡改网页和正常网页。依据数据样本所属的网页类型,便可以准确的确定出数据样本是否被篡改,为网站安全,打击网络引擎作弊行为提供了强有力的理论和实践支持。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种暗链篡改检测方法的流程图;
图2为本发明实施例提供的一种暗链篡改检测装置的结构示意图;
图3为本发明实施例提供的一种暗链篡改检测装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种暗链篡改检测方法。图1为本发明实施例提供的一种暗链篡改检测方法的流程图,该方法包括:
S101:对获取的各数据样本进行分词处理,得到多个分词。
在关键字词库中包含有关键字,利用关键字可以收集一些具有暗链篡改特征的网页源码。在具体实现中,可以利用关键词算法收集包含关键字的网页源码;对网页源码进行解析以提取出数据样本。
在本发明实施例中,通过从每个数据样本中提取待测试词组,利用分类模型对待测试词组进行分类,从而确定出数据样本所属的网页类型。
从数据样本中提取待测试词组时,首先需要对数据样本进行分词处理。在具体实现中,可以利用jieba中文词库对数据样本进行分词切分,去除没有意义的停用词,低频词和标点符号,最终得到所需的多个分词。
通过对各数据样本进行分词处理,对于每个数据样本都可以得到其对应的一组分词,可以称作分词组。
S102:利用卡方检验算法,从各分词组中分别提取出特征词组。
以一个数据样本为例,该数据样本所对应的分词组中包含的分词往往有较多个,而有些分词并非和数据样本具有强相关性,也即这些分词并不能够表征数据样本的特征,因此,在本发明实施例中,可以对各分词组进行特征选择,提取出特征词。
一个数据样本对应的特征词往往有多个,可以将归属于同一个数据样本的多个特征词称作一个特征词组。
在具体实现中,可以利用卡方检验算法(Chi-Squared Test,CHI)提取特征词。CHI检验应用在数据样本的特征词提取中,判断数据样本中各分词与指定的网页类别是否存在强相关性,如果是,那么这个分词就具有表征该类别文本的能力,即此分词可以认定为该类别文本的特征词。
利用卡方检验算法提取特征词的具体过程如下,首先假设特征词i与类别ci独立无关,将该假设作为原假设,并将特征词i与类别ci有显著性相关作为备选假设。观察实际值与理论值的偏差程度。设定一个阈值作为比较,根据偏差程度的大小来选择接受原假设还是接受备选假设。
本发明实施例中,主要对网页是否被篡改进行检验,因此,划分出的类别可以包括网页篡改和网页正常这两种网页类别。ci表示网页篡改。
为了清晰的解释统计公式x2,引入如下相关变量表1。
表1包含特征词文档分布情况
表1
属于类别c<sub>i</sub> 不属于类别c<sub>i</sub> 总计
包含特征词i A B A+B
不包含特征词i C D C+D
总计 A+C B+D N=A+B+C+D
在表1中,A表示类别ci在训练集中包含特征词的文档数,B表示特征词在除了ci类别外其他类别出现的文档数,C表示在类别ci中不包含特征词的文档数,D表示除了ci类别外其他类中不包含特征词的文档数,N表示数据样本的文档总数。
根据原假设,特征词i与类别ci相互独立不相关,特征词i在每个类别应该是等概率出现,其概率如下:
Figure BDA0001764594210000071
类别ci共有文档数A+C,那么该类别包含特征词i的文档数应为:
E11=(A+C)*p(i);
将理论值E11与实际值A作差平方,并与理论值作比,得到相对偏差值,如下式
Figure BDA0001764594210000072
同理,计算出其余三个理论值与实际值的偏差值D12,D21,D22相加得到最后的评分,如下式
x2(w,ci)=D11+D12+D21+D22
综上化简得:
Figure BDA0001764594210000081
由上式可知,A、B、C、D为常数,当AD与CB差的绝对值大时,其得分值也较大,此时特征词i与类别ci关联度大,当AD与BC的差值为0时,表示特征词i与类别ci完全独立。由此可以筛选出每一个网页里的特征词。通过提取数据样本的特征词提高了网页分类的性能。
S103:计算目标特征词组中各目标特征词所对应的权重值,并依据权重值,从目标特征词组中筛选出待测试词组。
通过S102的操作,可以确定出每个数据样本对应的特征词组,每个数据样本的处理流程类似,为了便于描述,在后续内容中均以所有特征词组中的任意一个特征词组即目标特征词组为例展开介绍。
字词的重要性随着它在文件中出现的次数成正比增加,但同时也会随着它在语料库中出现的频率成反比下降。在本发明实施例中,可以通过计算特征词的权重值,对特征词组中的特征词进行进一步的筛选,最终确定出待测试词组。
在具体实现中,可以利用词频-逆文本频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)计算各特征词的权重值。
一个目标特征词组中包含的目标特征词往往有多个,每个目标特征词的权重值计算方式类似。以一个目标特征词为例,其权重值的计算过程如下,首先计算目标特征词在目标数据样本中出现的频率值;计算目标特征词在所有数据样本中的比例值;再依据频率值和比例值,确定出目标特征词所对应的权重值。
目标特征词在目标数据样本中出现的频率值即为目标特征词i在数据样本d中出现的次数count(i,d)和数据样本d中总词数size(d)的比值,频率值TFi的计算公式如下,
Figure BDA0001764594210000082
如果只是将特征词在数据样本中出现的次数作为频率值,可能会导致同一个词语在长文件里可能会比短文件有更高的词数,从而导致频率值无法准确的反映特征词的重要与否。通过上述频率值计算公式实现了对特征词的归一化处理,可以有效的防止数据样本属于篇幅较长的文件时,特征词的频率值会偏高,降低了数据样本篇幅长短对特征词重要程度带来的影响。
目标特征词在所有数据样本中的比例值是对目标特征词普遍重要性的度量。目标特征词的比例值,可以由数据样本总数目除以包含该目标特征词的数据样本数目,再将得到的商取对数得到。即数据样本总数目D与目标特征词i所出现的数据样本数目Di比值的对数,频率值idf的计算公式如下,
Figure BDA0001764594210000091
计算出目标特征词的频率值和比例值之后,可以将这两个数值的乘积作为目标特征词的权重值Qi,其计算公式如下,
Qi=TFi*IDFi
频率值用来衡量特征词的重要性,频率值越大其重要程度越高,而比例值用来描述特征词的缩放因子,它的思想是若一个特征词出现在许多文档中,则其区分能力下降。通过TF-IDF方法可以对特征词进行很好的特征加权,比较全面的评判特征词对分类结果的重要性。
S104:利用训练好的分类模型,对待测试词组进行分类处理,以确定出目标数据样本所属的网页类型。
其中,目标数据样本为与目标特征词组相对应的数据样本。
根据检测网页中的暗链是否被篡改的实际需求,训练好的分类模型中网页类型可以包括篡改网页和正常网页。
将S103得到的待测试词组作为测试集输入到训练好的分类模型中,便可以确定出目标数据样本的网页类型是否为篡改网页,当网页类型为篡改网页时,则说明网页中的暗链被篡改。
训练好的分类模型是对待测试词组进行分类处理的关键。接下来,将对分类模型的训练过程展开介绍。
执行分类模型的训练时,首先需要获取训练集。在本发明实施例中,可以对获取的各历史样本进行分词处理,得到多个历史分词;每个历史样本对应一个历史分词组;利用卡方检验算法,从各历史分词组中分别提取出历史特征词组;计算第一历史特征词组中各历史特征词所对应的权重值,并依据权重值,从第一历史特征词组中筛选出第一训练词组;其中,第一历史特征词组为所有历史特征词组中的任意一个历史特征词组;所有历史特征词组各自对应的训练词组构成目标训练词组。
其中,历史样本是指网页类型已知的数据样本。
目标训练词组的获取过程和上述S101-S103获取待测试词组的过程类似,在此对于目标训练词组的具体获取过程不再赘述。
在本发明实施例中可以利用支持向量机(Support Vector Machine,SVM)算法对分类模型进行训练。当获取到目标训练词组后,便可以利用支持向量机算法对目标训练词组进行训练,确定出分类模型的最优模型参数,以实现对分类模型的训练。
目标训练词组相当于一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。
除了进行线性分类之外,SVM还可以使用所谓的核技巧有效地进行非线性分类,将其输入隐式映射到高维特征空间中。SVM算法寻找的就是获取最大间隔超平面,其实现步骤如下:
SVM算法构造二分类分类器,假设H为分割超平面,H1和H2表示支持向量且平行于分割超平面的直线,则H1与H2的几何间隔计算公式如下:
Figure BDA0001764594210000101
xi表示一篇历史样本的空间向量,||w||为|g(xi)|的参数向量w的范数。
几何间隔可以评价分类效果的优劣程度指标,几何间隔越大,分类的误差上届越小,因此SVM训练分类器的目标是寻找最大的几何间隔,从而得到最优的分割超平面。
假设最小间隔|g(xi)|为1,因此问题就转化为如下约束求解问题:
Figure BDA0001764594210000111
s.t.yi(wTxi+b)≥1,i=1,2,...,n;
其中yi表示历史样本的实际网页类别,取值为1或-1,使用Lagrange乘数法进行求解,从而确定出分类模型的最优模型参数w和b的最优取值,以实现对分类模型的训练。
在本发明实施例中,可以通过测试集的准确率来评判分类器的性能,准确率又称为查全率,是指真正例占所有被分类器判为正例的比值,其计算公式为:
Figure BDA0001764594210000112
真正例(TP)表示分类器分类判为正例且实际也是正例的文档;
伪正例(FP)表示分类器分类判为正例且实际上是反例的文档;
伪反例(FN)表示分类器分类判为反例且实际上是正例的文档;
真反例(TN)表示分类器分类判为反例且实际也是反例的文档;
由最终训练集的准确率对分类器作出调整,通过调整网页文本特征权重和svm算法的参数对算法进行优化。
由上述技术方案可以看出,对获取的各数据样本进行分词处理,得到多个分词;每个数据样本对应一个分词组;利用卡方检验算法,从各分词组中分别提取出特征词组;以所有特征词组中的任意一个特征词组即目标特征词组为例,可以计算目标特征词组中各目标特征词所对应的权重值,并依据权重值,从目标特征词组中筛选出待测试词组;利用训练好的分类模型,对待测试词组进行分类处理,可以确定出目标数据样本所属的网页类型;目标数据样本为与目标特征词组相对应的数据样本;参照目标数据样本的检测方式,可以确定出所有数据样本各自所属的网页类型。其中,网页类型可以包括篡改网页和正常网页。依据数据样本所属的网页类型,便可以准确的确定出数据样本是否被篡改,为网站安全,打击网络引擎作弊行为提供了强有力的理论和实践支持。
在本发明实施例中,在利用训练好的分类模型,对待测试词组进行分类处理,以确定出目标数据样本所属的网页类型之后,若当目标数据样本属于篡改网页时,则可以进行告警提示。
告警提示的方式可以有多种,例如,可以通过网页所在的移动终端展示告警信息,或者是播放告警音频等。
通过告警提示可以及时提醒管理人员网页被篡改,以便于管理人员及时采取措施解决该问题,最大程度的降低网页篡改带来的影响。
图2为本发明实施例提供的一种暗链篡改检测装置的结构示意图,装置包括分词单元21、提取单元22、计算单元23、筛选单元24和分类单元25;
分词单元21,用于对获取的各数据样本进行分词处理,得到多个分词;每个数据样本对应一个分词组;
提取单元22,用于利用卡方检验算法,从各分词组中分别提取出特征词组;
计算单元23,用于计算目标特征词组中各目标特征词所对应的权重值;
筛选单元24,用于依据权重值,从目标特征词组中筛选出待测试词组;其中,目标特征词组为所有特征词组中的任意一个特征词组;
分类单元25,用于利用训练好的分类模型,对待测试词组进行分类处理,以确定出目标数据样本所属的网页类型;其中,网页类型包括篡改网页和正常网页;目标数据样本为与目标特征词组相对应的数据样本。
可选的,针对于分类模型的训练过程,装置还包括训练单元;
分词单元还用于对获取的各历史样本进行分词处理,得到多个历史分词;每个历史样本对应一个历史分词组;
提取单元还用于利用卡方检验算法,从各历史分词组中分别提取出历史特征词组;
计算单元还用于计算第一历史特征词组中各历史特征词所对应的权重值;
筛选单元还用于依据权重值,从第一历史特征词组中筛选出第一训练词组;其中,第一历史特征词组为所有历史特征词组中的任意一个历史特征词组;所有历史特征词组各自对应的训练词组构成目标训练词组;
训练单元,用于利用支持向量机算法对目标训练词组进行训练,确定出分类模型的最优模型参数,以实现对分类模型的训练。
可选的,针对于数据样本的获取过程,装置还包括收集单元和解析单元;
收集单元,用于利用关键词算法收集包含关键字的网页源码;
解析单元,用于对网页源码进行解析以提取出数据样本。
可选的,计算单元具体用于计算目标特征词在目标数据样本中出现的频率值;计算目标特征词在所有数据样本中的比例值;依据频率值和比例值,确定出目标特征词所对应的权重值。
可选的,还包括提示单元;
提示单元,用于当目标数据样本属于篡改网页时,则进行告警提示。
图2所对应实施例中特征的说明可以参见图1所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,对获取的各数据样本进行分词处理,得到多个分词;每个数据样本对应一个分词组;利用卡方检验算法,从各分词组中分别提取出特征词组;以所有特征词组中的任意一个特征词组即目标特征词组为例,可以计算目标特征词组中各目标特征词所对应的权重值,并依据权重值,从目标特征词组中筛选出待测试词组;利用训练好的分类模型,对待测试词组进行分类处理,可以确定出目标数据样本所属的网页类型;目标数据样本为与目标特征词组相对应的数据样本;参照目标数据样本的检测方式,可以确定出所有数据样本各自所属的网页类型。其中,网页类型可以包括篡改网页和正常网页。依据数据样本所属的网页类型,便可以准确的确定出数据样本是否被篡改,为网站安全,打击网络引擎作弊行为提供了强有力的理论和实践支持。
图3为本发明实施例提供的一种暗链篡改检测装置30的结构示意图,包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序以实现如上述暗链篡改检测方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述暗链篡改检测方法的步骤。
以上对本发明实施例所提供的一种暗链篡改检测方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (9)

1.一种暗链篡改检测方法,其特征在于,包括:
收集具有暗链篡改特征的网页源码,对网页源码进行解析以提取出数据样本;对获取的各数据样本进行分词处理,得到多个分词;每个所述数据样本对应一个分词组;
利用卡方检验算法,从各所述分词组中分别提取出特征词组;
计算目标特征词组中各目标特征词所对应的权重值,并依据所述权重值,从所述目标特征词组中筛选出待测试词组;其中,目标特征词组为所有所述特征词组中的任意一个特征词组;
利用训练好的分类模型,对所述待测试词组进行分类处理,以确定出目标数据样本所属的网页类型;其中,所述网页类型包括篡改网页和正常网页;当网页类型为篡改网页时,则说明网页中的暗链被篡改;
所述目标数据样本为与所述目标特征词组相对应的数据样本;
所述计算目标特征词组中各目标特征词所对应的权重值包括:
计算目标特征词在所述目标数据样本中出现的频率值;
计算所述目标特征词在所有所述数据样本中的比例值;
依据所述频率值和所述比例值,确定出所述目标特征词所对应的权重值。
2.根据权利要求1所述的方法,其特征在于,所述分类模型的训练过程包括:
对获取的各历史样本进行分词处理,得到多个历史分词;每个所述历史样本对应一个历史分词组;
利用卡方检验算法,从各所述历史分词组中分别提取出历史特征词组;
计算第一历史特征词组中各历史特征词所对应的权重值,并依据所述权重值,从所述第一历史特征词组中筛选出第一训练词组;其中,所述第一历史特征词组为所有所述历史特征词组中的任意一个历史特征词组;所有所述历史特征词组各自对应的训练词组构成目标训练词组;
利用支持向量机算法对所述目标训练词组进行训练,确定出分类模型的最优模型参数,以实现对所述分类模型的训练。
3.根据权利要求1所述的方法,其特征在于,所述数据样本的获取过程包括:
利用关键词算法收集包含关键字的网页源码;
对所述网页源码进行解析以提取出数据样本。
4.根据权利要求1-3任意一项所述的方法,其特征在于,在所述利用训练好的分类模型,对所述待测试词组进行分类处理,以确定出目标数据样本所属的网页类型之后还包括:
当所述目标数据样本属于篡改网页时,则进行告警提示。
5.一种暗链篡改检测装置,其特征在于,包括分词单元、提取单元、计算单元、筛选单元和分类单元;
所述分词单元,用于收集具有暗链篡改特征的网页源码,对网页源码进行解析以提取出数据样本;对获取的各数据样本进行分词处理,得到多个分词;每个所述数据样本对应一个分词组;
所述提取单元,用于利用卡方检验算法,从各所述分词组中分别提取出特征词组;
所述计算单元,用于计算目标特征词组中各目标特征词所对应的权重值;
所述筛选单元,用于依据所述权重值,从所述目标特征词组中筛选出待测试词组;其中,目标特征词组为所有所述特征词组中的任意一个特征词组;
所述分类单元,用于利用训练好的分类模型,对所述待测试词组进行分类处理,以确定出目标数据样本所属的网页类型;其中,所述网页类型包括篡改网页和正常网页;当网页类型为篡改网页时,则说明网页中的暗链被篡改;所述目标数据样本为与所述目标特征词组相对应的数据样本;
所述计算单元具体用于计算目标特征词在所述目标数据样本中出现的频率值;计算所述目标特征词在所有所述数据样本中的比例值;依据所述频率值和所述比例值,确定出所述目标特征词所对应的权重值。
6.根据权利要求5所述的装置,其特征在于,针对于所述分类模型的训练过程,所述装置还包括训练单元;
所述分词单元还用于对获取的各历史样本进行分词处理,得到多个历史分词;每个所述历史样本对应一个历史分词组;
所述提取单元还用于利用卡方检验算法,从各所述历史分词组中分别提取出历史特征词组;
所述计算单元还用于计算第一历史特征词组中各历史特征词所对应的权重值;
所述筛选单元还用于依据所述权重值,从所述第一历史特征词组中筛选出第一训练词组;其中,所述第一历史特征词组为所有所述历史特征词组中的任意一个历史特征词组;所有所述历史特征词组各自对应的训练词组构成目标训练词组;
所述训练单元,用于利用支持向量机算法对所述目标训练词组进行训练,确定出分类模型的最优模型参数,以实现对所述分类模型的训练。
7.根据权利要求5或6所述的装置,其特征在于,还包括提示单元;
所述提示单元,用于当所述目标数据样本属于篡改网页时,则进行告警提示。
8.一种暗链篡改检测装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至4任意一项所述暗链篡改检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述暗链篡改检测方法的步骤。
CN201810922526.3A 2018-08-14 2018-08-14 一种暗链篡改检测方法、装置和计算机可读存储介质 Active CN109165529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810922526.3A CN109165529B (zh) 2018-08-14 2018-08-14 一种暗链篡改检测方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810922526.3A CN109165529B (zh) 2018-08-14 2018-08-14 一种暗链篡改检测方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109165529A CN109165529A (zh) 2019-01-08
CN109165529B true CN109165529B (zh) 2021-05-07

Family

ID=64895514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810922526.3A Active CN109165529B (zh) 2018-08-14 2018-08-14 一种暗链篡改检测方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109165529B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488622A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改行为的检测方法、装置及相关组件
CN111488452A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN110674442B (zh) * 2019-09-17 2023-08-18 中国银联股份有限公司 页面监控方法、装置、设备及计算机可读存储介质
CN111539028B (zh) * 2020-04-23 2023-05-12 国网浙江省电力有限公司物资分公司 档案存储方法、装置、存储介质及电子设备
CN111967063B (zh) * 2020-09-02 2021-04-09 开普云信息科技股份有限公司 一种基于多维度分析的数据篡改监测和识别方法、装置、电子设备及其存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239485B (zh) * 2014-09-05 2018-05-01 中国科学院计算机网络信息中心 一种基于统计机器学习的互联网暗链检测方法
CN106685936B (zh) * 2016-12-14 2020-07-31 深信服科技股份有限公司 网页篡改的检测方法及装置
CN107273416B (zh) * 2017-05-05 2021-05-04 深信服科技股份有限公司 网页暗链检测方法、装置及计算机可读存储介质
CN107437038B (zh) * 2017-08-07 2021-07-06 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN107566391B (zh) * 2017-09-20 2020-04-14 上海斗象信息科技有限公司 域识别加主题识别构建机器学习模型检测网页暗链的方法

Also Published As

Publication number Publication date
CN109165529A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
Bansal et al. On predicting elections with hybrid topic based sentiment analysis of tweets
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN106599155B (zh) 一种网页分类方法及系统
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN106570109B (zh) 一种通过文本分析自动生成题库知识点的方法
US9251248B2 (en) Using context to extract entities from a document collection
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN115510500B (zh) 一种文本内容的敏感分析方法及系统
WO2015030112A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
CN113807073B (zh) 文本内容异常检测方法、装置以及存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
Shukla et al. A unique approach for detection of fake news using machine learning
Deitrick et al. Enhancing sentiment analysis on twitter using community detection
CN115408527B (zh) 文本分类方法、装置、电子设备及存储介质
CN108021595A (zh) 检验知识库三元组的方法及装置
CN116401343A (zh) 一种数据合规分析方法
Patel et al. Personality analysis using social media
Rahman et al. An efficient deep learning technique for bangla fake news detection
CN110674288A (zh) 一种应用于网络安全领域的用户画像方法
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
CN113691525A (zh) 一种流量数据处理方法、装置、设备及存储介质
CN114416977A (zh) 文本难度分级评估方法及装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant