CN110348523A - 一种基于Stacking的恶意网页集成识别方法及系统 - Google Patents

一种基于Stacking的恶意网页集成识别方法及系统 Download PDF

Info

Publication number
CN110348523A
CN110348523A CN201910635204.5A CN201910635204A CN110348523A CN 110348523 A CN110348523 A CN 110348523A CN 201910635204 A CN201910635204 A CN 201910635204A CN 110348523 A CN110348523 A CN 110348523A
Authority
CN
China
Prior art keywords
webpage
url
web page
stacking
source code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910635204.5A
Other languages
English (en)
Inventor
任俊玲
朴杨鹤然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201910635204.5A priority Critical patent/CN110348523A/zh
Publication of CN110348523A publication Critical patent/CN110348523A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于Stacking的恶意网页集成识别方法及系统,其中方法包括:获取训练样本数据;使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;采集待测样本数据,其中,待测样本数据包括:待识别网页的网页URL和网页源代码;利用网页源代码判断网页是否改变,在网页没改变的情况下,对网页URL进行特征提取,得到特征向量文件;将特征向量文件输入Stacking集成分类器模型,得到待识别网页的识别结果。

Description

一种基于Stacking的恶意网页集成识别方法及系统
技术领域
本发明涉及恶意网页检测技术领域,尤其涉及一种基于Stacking的恶意网页集成识别方法及系统。
背景技术
目前恶意网页检测的主流方式有静态和动态两大类检测技术。前者基于网页特征进行判断分类,其中不乏应用机器学习算法的方法,但是传统机器学习算法的分类精度往往依赖于具体问题与特征工程,但是目前大多数研究还是基于单一机器学习算法或多种机器学习算法的简单组合,对准确率的提升效果一般。动态检测则模仿浏览器运行网页并对运行后的系统行为进行检测,对恶意网页的动态检测主要是通过蜜罐、虚拟机的环境下来进行的,就是通过获取到的HTML或JavaScript源代码在虚拟的环境中运行并使用浏览器对网页进行访问,同时实时检测系统情况和该网页的动态行为,如超链接、下载且执行恶意文件、修改注册表等等,根据这些依据判断正在运行的网页是否属于恶意网页类别,对未知数据的检测正确率相对来说较高。但虚拟机引擎技术与蜜罐检测技术的系统资源消耗是十分巨大的,其对时间和资源的消耗也很高。即使是轻量级交互系统也是很耗资源的,且部署比较麻烦。只有在一些大型检测中心会使用此类检测识别方式。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于Stacking的恶意网页集成识别方法及系统。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于Stacking的恶意网页集成识别方法,包括:获取训练样本数据;使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;采集待测样本数据,其中,待测样本数据包括:待识别网页的网页URL和网页源代码;利用网页源代码判断网页是否改变,在网页没改变的情况下,对网页URL进行特征提取,得到特征向量文件;将特征向量文件输入Stacking集成分类器模型,得到待识别网页的识别结果。
其中,采集待测样本数据包括:对单一网页进行爬取;获取URL列表,对文件名后缀进行判断,如果格式正确,调用URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或获取URL,判断URL是否合法,如果合法,对URL对应网页所处的网站网页进行爬取。
其中,利用网页源代码判断网页是否改变包括:对网页源代码进行MD5加密,获得校验值,通过校验值判断网页是否改变。
其中,对网页URL进行特征提取包括:对网页URL中部分特征通过Beautiful Soup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;对网页URL中另一部分特征使用正则表达式对网页文本进行提取。
其中,方法还包括:通过前端的网页分析识别报告页面输出待识别网页的识别结果;和/或通过浏览器插件告警输出待识别网页的识别结果。
本发明另一方面提供了一种基于Stacking的恶意网页集成识别系统,包括:获取装置,用于获取训练样本数据;建立装置,用于使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;训练装置,用于对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;采集装置,用于采集待测样本数据,其中,待测样本数据包括:待识别网页的网页URL和网页源代码;提取装置,用于利用网页源代码判断网页是否改变,在网页没改变的情况下,对网页URL进行特征提取,得到特征向量文件;识别装置,用于将特征向量文件输入Stacking集成分类器模型,得到待识别网页的识别结果。
其中,采集装置通过如下方式采集待测样本数据:采集装置,具体用于对单一网页进行爬取;获取URL列表,对文件名后缀进行判断,如果格式正确,调用URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或获取URL,判断URL是否合法,如果合法,对URL对应网页所处的网站网页进行爬取。
其中,提取装置通过如下方式利用网页源代码判断网页是否改变:提取装置,具体用于对网页源代码进行MD5加密,获得校验值,通过校验值判断网页是否改变。
其中,提取装置通过如下方式对网页URL进行特征提取:提取装置,具体用于对网页URL中部分特征通过Beautiful Soup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;对网页URL中另一部分特征使用正则表达式对网页文本进行提取。
其中,系统还包括:输出装置,用于通过前端的网页分析识别报告页面输出待识别网页的识别结果;和/或通过浏览器插件告警输出待识别网页的识别结果。
由此可见,通过本发明提供的基于Stacking的恶意网页集成识别方法及系统,
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于Stacking的恶意网页集成识别系统的架构示意图;
图2为本发明实施例提供的基于Stacking的恶意网页集成识别方法的流程图;
图3为本发明实施例提供Stacking集成示意图;
图4为本发明实施例提供的本发明实施例提供的基于Stacking的恶意网页集成识别系统中恶意网页分析识别系统的结构示意图;
图5为本发明实施例提供的基于Stacking的恶意网页集成识别方法的一种具体流程图;
图6为本发明实施例提供的基于Stacking的恶意网页集成识别系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供的基于Stacking的恶意网页集成识别方法可以建立于基于Stacking的恶意网页集成识别系统的基础上实现,该本发明实施例提供的基于Stacking的恶意网页集成识别系统的架构可以参见图1,本发明实施例基于Stacking的恶意网页集成识别系统在具体实现时,可以采用B/S架构,浏览器前端包括用于实时检测的浏览器插件和用于上传检测的Web系统页面;服务端包括Web服务器、本地文档存储和Mysql数据库。其中Web服务器中有系统后台,检测引擎和Web日志;数据库中存储传入网页的URL、特征标签、校验值和分类结果;本地文档存储就是将恶意网页源代码持久化存储于本地,用于以后对识别模型的优化。
图2示出了本发明实施例提供的基于Stacking的恶意网页集成识别方法的流程图,参见图2,本发明实施例提供的基于Stacking的恶意网页集成识别方法,包括:
S1,获取训练样本数据;
S2,使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;
S3,对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型。
具体地,本发明通过对网页特征进行提取和分析相关因素,并进行分类集成学习从而得到检测模型。分别使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,次级的元分类器使用SVM(Support Vector Machine,支持向量机)算法。采用的Stacking学习法使用十折交叉验证法(10-fold cross-validation)。Stacking集成示意图如图3所示。
具体地,机器学习里相当重要的一环就是采用的分类算法。分类算法就是根据已经知道结果的训练集找到一个最有效的分类模型用来区别不同的类,或者说是生成出某类判定规则。再利用这个模型对分类对象进行分类的时候,可以达到最高的识别率或者是误判率最小。
支持向量机算法(SVM,Support Vector Machine)是一种有监督学习的算法,即将向量映射到更高维度的空间里,从而建立一个最优分类面即最大间隔超平面。SVM致力于得到一个可以满足分类需求的最优分类面,同时使数据集中的各类点与分类面的距离尽可能的长,也就是使它两侧的区域(margin)最大。
K最邻近算法(KNN,K-Nearest Neighbor)即为经由测定不相同特征间距离对不同样本进行分类。若是某样本位于特征空间里面的k个极为相似,就是最邻近样本里的大部分均归属某同种类别,则此样本也属这一类别,K一般取小于或等于二十的整数。此方法仅依靠最靠近的一个或多个样本的分类结果来对待检测样本的种类进行分类。
决策树(DT,Decision Tree)为树形的结构,通过寻找最佳划分特征进而实现样本分类,本文采用C4.5算法。决策树的内部节点表示为某个特征的阈值,而叶节点则表示一个类和其分布,决策树的分类规则不仅易于理解而且准确率较优。C4.5使用贪心算法作为归纳算法,通过自顶向下的递归的方法对树进行构造,若所有训练样本都处于同一类别中,那么此节点就成为叶子节点,不然的话选择一个最优分类特征当做内部节点且创建分支,分支过程通过计算信息增益来进行衡量,并运用剪枝技术消除噪声和孤立点。对于所给样本,从根节点处向下进行判断就可以得到分类识别结果。
逻辑回归(LR,Logistic Regression)通过拟合曲线或者学习超平面实现分类,回归就是根据已知的自变量从而得到因变量,即通过获取的特征数据得到预测分类。逻辑回归算法通过逐渐缩减分类范围,将预估值缩小在[0,1]区间。逻辑回归模型的优点是可发现特征之间联系和将模型进行正则化。逻辑回归和SVM二者的差异是使用不同损失函数(loss),且逻辑回归的分类速率较SVM对比有所升高。
集成学习通过对多个初级分类器进行适当的组合或者二次训练来得到预测性能较强的元学习器(也称次级分类器),最常见的元学习法即通过对多个初级分类的结果进行简单投票从而得出最终结果。每个初级分类器由已选好的分类算法从训练集中得到,接着再通过一些组合策略得到最终的分类模型。集成学习的最终分类准确率主要由两个因素决定:其一就是初级分类器的准确率,如果初级分类器的准确率很高,那么集成学习的最终结果也会很好;其二就是初级分类器中的算法多样性,所谓多样性的意思就是初级学习器使用算法之间能可以有一定差异。若每个初级分类器产生分类结果都大同小异,那么反而集成模型的分类效果不但没有改善,还增加建的模复成程度。
集成学习法主要有两类,即同质集成与异质集成。当初级分类器由同一个机器学习算法从产生时,如BP神经网络,此时集成中只包含同种类型的初级分类器,如“神经网络集成”中全是神经网络,此类的集成就称为“同质”。集成亦可以由多种不同类型的初级分类器组成,例如同时含有朴素贝叶斯和SVM,这类集成即称为“异质”。异质集成里面的初级分类器均通过各不相同的算法产生。
异质集成的主要代表Stacking则是将多种机器学习算法组合起来,从而提升分类器的泛化性能。它首先对训练集分别训练从而得到初级学习器,然后以初级学习器的第一层分类结果作为新的特征进行元学习训练出元分类器。Stacking通过使用不同的机器学习算法来保证初级分类器拥有多样性,并通过元分类器以最优方法对初级分类结果进行整合,相比同质集成方法,分类的精度和准确率都会提高,同时导致过拟合的风险度则会降低。
因此,本发明将异质集成的Stacking学习法应用在恶意检测领域,在Stacking集成模型中,作为初级分类器的有逻辑回归、决策树、K近邻三种算法,作为元分类器的则是支持向量机算法,根据网页代码筛选出三十三维特征用于对分类器的训练,其中针对篡改被黑类网页有二十维,针对虚假钓鱼类网页有十三维。
具体实施中,取总训练样本数据的75%作为训练集train,25%作为测试集test。将train划分成十份,选择九份当作训练集X,一份当作测试集Y,循环十次轮流对每个初级分类器进行训练并得到模型和预测结果;对于K近邻算法、逻辑回归算法和决策树算法三种初级分类器,最终每个初级分类器都得到与train数量相同的预测结果记为Tn,拼接得到(T1,T2,T3)。而十折中每一轮训练得到的模型都去对test进行预测,最终每个初级分类器都得到一个10列的的预测值矩阵,按行取平均值得到1列的Pn,将P1、P2、P3进行拼接得到(P1,P2,P3)。将来自10-fold的预测值矩阵(T1,T2,T3)作为新训练集训练第二层的元分类器,将来自test的预测值矩阵(P1,P2,P3)作为测试集,进行最终的元分类器训练并得到整个分析识别模型的准确率。
以下为本发明实施例提供的基于Stacking的恶意网页集成识别系统中恶意网页分析识别系统的结构示意图,该恶意网页分析识别系统执行在建立Stacking集成分类器模型后,对待测样本数据进行分析的功能,具体实施时,该系统可以按功能分为三大模块:网页采集模块、特征提取模块与检测识别模块,具体参见图4。
S4,采集待测样本数据,其中,待测样本数据包括:待识别网页的网页URL和网页源代码。
作为本发明实施例的一个可选实施方式,采集待测样本数据包括:对单一网页进行爬取;获取URL列表,对文件名后缀进行判断,如果格式正确,调用URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或获取URL,判断URL是否合法,如果合法,对URL对应网页所处的网站网页进行爬取。
具体实施时,采集待测样本数据时,图4所示的网页采集模块包括单独采集、批量采集和深入采集三个功能,分别对应着根据用户选择而采取的三种不同网页爬取模式。
单独采集即上传或者访问单个URL(统一地址定位符),采集模块仅对单一网页进行爬取,然后将结果传至下一功能模块,浏览器插件默认采取此种爬取方式。首先用户在前端输入网页URL,JavaScript脚本会判断此URL格式是否合法,不合法弹窗提示,若合法则传至后台,调用相应Python脚本,通过Urllib库的Request模块根据URL进行网页爬取。
批量采集是用户从前端上传一个URL列表,文件类型为.txt或.csv,JavaScript脚本会对文件名后缀进行判断,如若格式正确就将此文件传到后台,调用Python脚本提取列表中的所有URL,然后采用与单独采集相同的方法对每个URL对应的网页内容进行网页爬取,最后将结果传至下一功能模块。
深入采集即用户上传URL后,判断URL是否合法,然后传至后台,调用Python脚本对URL对应网页所处的网站网页进行主动爬取。就是首先爬去到此上传URL对应的网页源代码,然后通过匹配源代码中的‘<a herf=’来筛选一些域名相同或IP相同的网址链接,保存其URL后再循环获得其对应的网页源代码并进行递归爬取URL,最大递归层数设为5,最后将结果传至下一功能模块。此种采集模式用于对中小型网站的安全性进行分析评估。
S5,利用网页源代码判断网页是否改变,在网页没改变的情况下,对网页URL进行特征提取,得到特征向量文件。
作为本发明实施例的一个可选实施方式,利用网页源代码判断网页是否改变包括:对网页源代码进行MD5加密,获得校验值,通过校验值判断网页是否改变。
作为本发明实施例的一个可选实施方式,对网页URL进行特征提取包括:对网页URL中部分特征通过Beautiful Soup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;对网页URL中另一部分特征使用正则表达式对网页文本进行提取。
具体实施时,图4所示的特征提取模块在获得网页URL以及网页源代码之后,首先对网页源代码进行MD5加密,获得一个可对应唯一网页内容的校验值,用于判定已检测过的网页是否改变。
接下来利用正则表达式对URL特征进行提取,一部分特征通过Beautiful Soup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;还有一部分特征使用正则表达式对网页文本进行提取。最后生成特征向量文件并规范格式,将此组特征一式两份,分别保存至数据库和作为分类模型的输入。
S6,将特征向量文件输入Stacking集成分类器模型,得到待识别网页的识别结果。
具体地,图4所示的分析识别模块的网页判别功能就是将提取出的特征传入Stacking集成分类器模型,然后进行网页类型分析识别并得到结果。
作为本发明实施例的一个可选实施方式,基于Stacking的恶意网页集成识别方法还包括:通过前端的网页分析识别报告页面输出待识别网页的识别结果;和/或通过浏览器插件告警输出待识别网页的识别结果。具体地,最终模型的识别结果的输出包括通过前端的网页分析识别报告页面和浏览器插件告警两种方式进行结果呈现。
图5示出了本发明实施例提供的基于Stacking的恶意网页集成识别方法的一种具体流程图,参见图5,具体实施时,本发明实施例提供的基于Stacking的恶意网页集成识别方法,包括:
首先通过用户提交或实时获取待检测网页的URL,接着判断其是否已被检测过,即此URL是否存在于储存识别结果的数据库中。若存在的话则检测网页校验值(网页源代码的MD5加密值)是否发生改变,若未改变则直接依据原先检测结果进行报警操作或者直接结束流程。
若与数据库中匹配后发现校验值改变,即表示其网页的内容已发生改变,所以数据库中此网页相关的特征值与检测结果均已经失效,需要通过重新检测对此网页执行识别判断。此时其检测流程与未检测过的网页的流程相同。
对于未被检测过的网页,首先根据其URL对网页源代码进行爬取,然后提取网页源代码中的相关特征。形成特征文件后,将其传入Stacking集成模型进行识别,判断是否为恶意网页。如果分类器判定此网页是恶意网页,则进行浏览器告警并存储判别结果到数据库中;若判定是正常网页则不进行任何告警操作,直接将判别结果存到数据库,流程结束。
由此可见,通过本发明实施例提供的基于Stacking的恶意网页集成识别方法,利用Stacking集成,解决了静态检测中单个分类器的训练数据量小、假设空间小、局部最优的三个问题,且对准确率有较高提升。另外,不需要对网页进行实际访问和行为检测,因此资源消耗少、速度快,部署方便。
图6示出了本发明实施例提供的基于Stacking的恶意网页集成识别系统的结构示意图,该基于Stacking的恶意网页集成识别系统利用上述基于Stacking的恶意网页集成识别方法,其详细描述可以参照基于Stacking的恶意网页集成识别方法的相关描述,在此不再详述,仅对本发明实施例提供的基于Stacking的恶意网页集成识别系统的结构进行简单说明,参见图6,本发明实施例提供的基于Stacking的恶意网页集成识别系统,包括:
获取装置,用于获取训练样本数据;
建立装置,用于使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;
训练装置,用于对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;
采集装置,用于采集待测样本数据,其中,待测样本数据包括:待识别网页的网页URL和网页源代码;
提取装置,用于利用网页源代码判断网页是否改变,在网页没改变的情况下,对网页URL进行特征提取,得到特征向量文件;
识别装置,用于将特征向量文件输入Stacking集成分类器模型,得到待识别网页的识别结果。
作为本发明实施例的一个可选实施方式,采集装置通过如下方式采集待测样本数据:采集装置,具体用于对单一网页进行爬取;获取URL列表,对文件名后缀进行判断,如果格式正确,调用URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或获取URL,判断URL是否合法,如果合法,对URL对应网页所处的网站网页进行爬取。
作为本发明实施例的一个可选实施方式,提取装置通过如下方式利用网页源代码判断网页是否改变:提取装置,具体用于对网页源代码进行MD5加密,获得校验值,通过校验值判断网页是否改变。
作为本发明实施例的一个可选实施方式,提取装置通过如下方式对网页URL进行特征提取:提取装置,具体用于对网页URL中部分特征通过Beautiful Soup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;对网页URL中另一部分特征使用正则表达式对网页文本进行提取。
作为本发明实施例的一个可选实施方式,本发明实施例提供的基于Stacking的恶意网页集成识别系统还包括:输出装置,用于通过前端的网页分析识别报告页面输出待识别网页的识别结果;和/或通过浏览器插件告警输出待识别网页的识别结果。
由此可见,通过本发明实施例提供的基于Stacking的恶意网页集成识别系统,利用Stacking集成,解决了静态检测中单个分类器的训练数据量小、假设空间小、局部最优的三个问题,且对准确率有较高提升。另外,不需要对网页进行实际访问和行为检测,因此资源消耗少、速度快,部署方便。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于Stacking的恶意网页集成识别方法,其特征在于,包括:
获取训练样本数据;
使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;
对所述训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;
采集待测样本数据,其中,所述待测样本数据包括:待识别网页的网页URL和网页源代码;
利用所述网页源代码判断网页是否改变,在网页没改变的情况下,对所述网页URL进行特征提取,得到特征向量文件;
将所述特征向量文件输入所述Stacking集成分类器模型,得到所述待识别网页的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述采集待测样本数据包括:
对单一网页进行爬取;
获取URL列表,对文件名后缀进行判断,如果格式正确,调用所述URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或
获取URL,判断URL是否合法,如果合法,对所述URL对应网页所处的网站网页进行爬取。
3.根据权利要求1所述的方法,其特征在于,所述利用所述网页源代码判断网页是否改变包括:
对网页源代码进行MD5加密,获得校验值,通过所述校验值判断网页是否改变。
4.根据权利要求1所述的方法,其特征在于,所述对所述网页URL进行特征提取包括:
对所述网页URL中部分特征通过Beautiful Soup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;
对所述网页URL中另一部分特征使用正则表达式对网页文本进行提取。
5.根据权利要求1所述的方法,其特征在于,还包括:
通过前端的网页分析识别报告页面输出所述待识别网页的识别结果;和/或
通过浏览器插件告警输出所述待识别网页的识别结果。
6.一种基于Stacking的恶意网页集成识别系统,其特征在于,包括:
获取装置,用于获取训练样本数据;
建立装置,用于使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;
训练装置,用于对所述训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;
采集装置,用于采集待测样本数据,其中,所述待测样本数据包括:待识别网页的网页URL和网页源代码;
提取装置,用于利用所述网页源代码判断网页是否改变,在网页没改变的情况下,对所述网页URL进行特征提取,得到特征向量文件;
识别装置,用于将所述特征向量文件输入所述Stacking集成分类器模型,得到所述待识别网页的识别结果。
7.根据权利要求1所述的系统,其特征在于,所述采集装置通过如下方式采集待测样本数据:
所述采集装置,具体用于对单一网页进行爬取;获取URL列表,对文件名后缀进行判断,如果格式正确,调用所述URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或获取URL,判断URL是否合法,如果合法,对所述URL对应网页所处的网站网页进行爬取。
8.根据权利要求6所述的系统,其特征在于,所述提取装置通过如下方式利用所述网页源代码判断网页是否改变:
所述提取装置,具体用于对网页源代码进行MD5加密,获得校验值,通过所述校验值判断网页是否改变。
9.根据权利要求6所述的系统,其特征在于,所述提取装置通过如下方式对所述网页URL进行特征提取:
所述提取装置,具体用于对所述网页URL中部分特征通过Beautiful Soup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;对所述网页URL中另一部分特征使用正则表达式对网页文本进行提取。
10.根据权利要求6所述的系统,其特征在于,还包括:
输出装置,用于通过前端的网页分析识别报告页面输出所述待识别网页的识别结果;和/或
通过浏览器插件告警输出所述待识别网页的识别结果。
CN201910635204.5A 2019-07-15 2019-07-15 一种基于Stacking的恶意网页集成识别方法及系统 Pending CN110348523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910635204.5A CN110348523A (zh) 2019-07-15 2019-07-15 一种基于Stacking的恶意网页集成识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910635204.5A CN110348523A (zh) 2019-07-15 2019-07-15 一种基于Stacking的恶意网页集成识别方法及系统

Publications (1)

Publication Number Publication Date
CN110348523A true CN110348523A (zh) 2019-10-18

Family

ID=68176223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910635204.5A Pending CN110348523A (zh) 2019-07-15 2019-07-15 一种基于Stacking的恶意网页集成识别方法及系统

Country Status (1)

Country Link
CN (1) CN110348523A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104980A (zh) * 2019-12-19 2020-05-05 腾讯科技(深圳)有限公司 确定分类结果的方法、装置、设备及存储介质
CN111259219A (zh) * 2020-01-10 2020-06-09 北京金睛云华科技有限公司 恶意网页识别模型、识别模型建立方法、识别方法及系统
CN111371794A (zh) * 2020-03-09 2020-07-03 北京金睛云华科技有限公司 阴影域检测模型、检测模型建立方法、检测方法及系统
CN111414621A (zh) * 2020-03-26 2020-07-14 厦门网宿有限公司 一种恶意网页文件识别方法及装置
CN113079123A (zh) * 2020-01-03 2021-07-06 中国移动通信集团广东有限公司 一种恶意网站的检测方法、装置及电子设备
CN113157333A (zh) * 2021-03-25 2021-07-23 中国电子科技集团公司第二十九研究所 一种新型态势标绘插件前端集成架构
CN116883765A (zh) * 2023-09-07 2023-10-13 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017143919A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN109033115A (zh) * 2017-06-12 2018-12-18 广东技术师范学院 一种动态网页爬虫系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017143919A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN109033115A (zh) * 2017-06-12 2018-12-18 广东技术师范学院 一种动态网页爬虫系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朴杨鹤然 等: "基于Stacking的恶意网页集成检测方法", 《计算机应用》 *
王维光: "基于分类算法的恶意网页检测技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104980A (zh) * 2019-12-19 2020-05-05 腾讯科技(深圳)有限公司 确定分类结果的方法、装置、设备及存储介质
CN111104980B (zh) * 2019-12-19 2021-09-28 腾讯科技(深圳)有限公司 确定分类结果的方法、装置、设备及存储介质
CN113079123A (zh) * 2020-01-03 2021-07-06 中国移动通信集团广东有限公司 一种恶意网站的检测方法、装置及电子设备
CN111259219A (zh) * 2020-01-10 2020-06-09 北京金睛云华科技有限公司 恶意网页识别模型、识别模型建立方法、识别方法及系统
CN111259219B (zh) * 2020-01-10 2023-04-21 北京金睛云华科技有限公司 恶意网页识别模型建立方法、识别方法及系统
CN111371794B (zh) * 2020-03-09 2022-01-18 北京金睛云华科技有限公司 阴影域检测模型、检测模型建立方法、检测方法及系统
CN111371794A (zh) * 2020-03-09 2020-07-03 北京金睛云华科技有限公司 阴影域检测模型、检测模型建立方法、检测方法及系统
CN111414621A (zh) * 2020-03-26 2020-07-14 厦门网宿有限公司 一种恶意网页文件识别方法及装置
CN111414621B (zh) * 2020-03-26 2022-07-08 厦门网宿有限公司 一种恶意网页文件识别方法及装置
CN113157333B (zh) * 2021-03-25 2022-09-02 中国电子科技集团公司第二十九研究所 一种态势标绘插件前端集成系统
CN113157333A (zh) * 2021-03-25 2021-07-23 中国电子科技集团公司第二十九研究所 一种新型态势标绘插件前端集成架构
CN116883765A (zh) * 2023-09-07 2023-10-13 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备及存储介质
CN116883765B (zh) * 2023-09-07 2024-01-09 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110348523A (zh) 一种基于Stacking的恶意网页集成识别方法及系统
Garimella et al. Quantifying controversy on social media
TWI438637B (zh) 用於擷取及管理社群智慧資訊的系統及方法
Shejwalkar et al. Membership inference attacks against nlp classification models
CN108965245A (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN110266647A (zh) 一种命令和控制通信检测方法及系统
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN106446124B (zh) 一种基于网络关系图的网站分类方法
CN112235434B (zh) 融合k-means及其胶囊网络的DGA网络域名检测识别系统
KR20210092979A (ko) 가짜 뉴스 인공지능 판별 시스템 및 그 방법
CN107220663B (zh) 一种基于语义场景分类的图像自动标注方法
Kacprzak et al. Making sense of numerical data-semantic labelling of web tables
Ashik et al. Data set for sentiment analysis on Bengali news comments and its baseline evaluation
KR20190113680A (ko) 웹 페이지의 테스트 케이스 생성 방법 및 장치
Gadek et al. An interpretable model to measure fakeness and emotion in news
CN111047173A (zh) 基于改进d-s证据理论的社团可信度评估方法
Maakoul et al. Towards evaluating the COVID’19 related fake news problem: case of morocco
CN115309860A (zh) 基于伪孪生网络的虚假新闻检测方法
Kanagavalli et al. Social networks fake account and fake news identification with reliable deep learning
CN113438209B (zh) 一种基于改进的Stacking策略的钓鱼网站检测方法
Shafik et al. Using a novel convolutional neural network for plant pests detection and disease classification
CN112261169B (zh) 利用胶囊网络和k-means的DGA域名Botnet识别判断方法
CN117235532A (zh) 一种基于M-Bert的恶意网站检测模型的训练及检测方法
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018

RJ01 Rejection of invention patent application after publication