CN108509794A - 一种基于分类学习算法的恶意网页防御检测方法 - Google Patents
一种基于分类学习算法的恶意网页防御检测方法 Download PDFInfo
- Publication number
- CN108509794A CN108509794A CN201810196118.4A CN201810196118A CN108509794A CN 108509794 A CN108509794 A CN 108509794A CN 201810196118 A CN201810196118 A CN 201810196118A CN 108509794 A CN108509794 A CN 108509794A
- Authority
- CN
- China
- Prior art keywords
- webpage
- classification
- feature
- attribute
- web pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/563—Static detection by source code analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于分类学习算法的恶意网页防御检测方法,该方法充分分析大量网页的内容特征、DOM树特征、视觉特征、邻居特征、页面代码类特征、脚本类特征、网址属性特征等。根据各类特征所表征网页特性的优缺点,从中选取出极有代表性的20多种特征,再利用三种不同的分类学习算法(KNN最近邻算法、朴素贝叶斯算法、决策树算法)分别构建分类器。通过增量学习,对待检测网页做出判别。
Description
技术领域
本发明涉及网络安全领域,更具体地,涉及一种基于分类学习算法的恶意网页防御检测方法。
背景技术
随着互联网以及多媒体的发展,博客、社交、办公、电子商务以及网银等应用越来越普及,使得人们与互联网已经密不可分了,但是伴随着享受这些科技进步带来的便利之时,也有了许多危害之处。我们的手机里每天充斥着垃圾短信,经常有陌生的来电,个人信息泄露,注册信息也被窃取,网络安全问题给我们带来了极大的麻烦,更有甚者已经上升到了犯罪的高度,这一问题逐渐引起了国家的重视,而在各色各样的网络服务中,网页依旧是不可撼动的主体服务,随着网页的功能和样式内容的变化,网页中出现了各种形式的第三方插件,由于这些脚本插件的管理和制作的不规范,给了不法分子可趁之机,他们通过挂马或者病毒等各种方式制作出恶意网页,感染用户的计算机,窃取用户的信息,严重的危害了网络安全。
恶意网页的检测方法主要是客户端蜜罐和静态检测算法。
客户端蜜罐是相对于传统的服务器蜜罐而言的,传统的蜜罐技术是故意暴露出系统中有漏洞的服务器,等待攻击,类似于钓鱼执法,而此种方法过于被动,只能检测服务器是否遭受攻击而不能检测客户端是否遭受攻击。因此蜜罐技术概念创始人LanceSpitzner于2004年6月提出了一种新型的蜜罐检测系统,客户端蜜罐。而根据系统中浏览器的模拟程度又可分为高交互和低交互客户端蜜罐,前者一般是利用真实的操作系统中的网页浏览器。模拟用户和网站的交互环境,记录操作系统中文件,进程、注册表以及其他项目的状态变化来判别。例如HoneyClient、UW SpyCrawler、HoneyMonkey等等。后者则一般不与攻击者交互或者交互程度极低,只是模拟网页浏览器,主要使用静态算法检测恶意网页代码。不过这几种方法缺点明显,客户端蜜罐技术检测速度太慢,静态检测技术误判率太高,而且对新型的恶意网页种类判别能力较弱,造血能力太差。因此设计一种较为优秀的恶意网页防御检测方法亟待解决。
发明内容
本发明提供一种较强判别能力的基于分类学习算法的恶意网页防御检测方法。
一种基于分类学习算法的恶意网页防御检测方法,包括以下步骤:
S1:用自然语言处理的方法分析网页的内容特征:首先去除噪音,抽取网页的正文文本和源代码,用文本处理的方法进行词频分析或者词法分析,计算文本中字符串出现的字数,计算其频率;对内容分析代码语句的意思,分析html页面和JavaScript页面的一些特殊标签;
S2:分析DOM树的结构反应出网页的主体架构,通过处理网页的实际内容来得到其相关特征,还原网页的结构信息;
S3:分析网页页面代码和脚本类特征;
S4:抽取网页中网址类属性特征;
S5:邻居特征的分析:当网页中包含大量的图片和动画而却只有少量的文本;
S6:基于KNN算法、朴素贝叶斯算法以及决策树算法三种分类学习的算法构造分类器,将通过机器学习的方法将待检测的网页特征提取置于分类器中辨别。
进一步地,所述步骤S5中,当网页中包含大量的图片和动画而却只有少量的文本时,以上的方法就不一定能正确反应网页的属性,此时就应该通过邻居特征分析了,分析其与超链接的关系来更好的确认源网页的从属类别。
进一步地,所述步骤S6中,KNN算法的过程是:
1)、计算测试数据与各个数据之间的距离;
2)、按照距离的递增关系进行排序;
3)、选取距离最小的k个点;
4)、确定前k个点所在类别出现的概率;
5)、返回前k个点中出现频率最高的类别作为测试数据的预测分类。
进一步地,所述步骤S6中,朴素贝叶斯算法的过程是:
1)、设X={A1,A2,…….Am}为一个待分类项,其中每个A为X的一个特征属性,有类别集合C={Y1,Y2……..Yn};
2)、计算出P(Yk|X)=max(P(Y1|X),P(Y2|X),……..P(Yn|X)),则X为Yk类别;
3)、由于P(Yk|X)难以计算,所以可以通过贝叶斯定理P(A|B)=P(B|A)*P(B)/P(A),计算P(X|Yk)。
4)、由于各特征属性相互独立,故:
所以求出最大的P(Yi)ΠP(aj|Yi)即可。
进一步地,所述步骤S6中,决策树算法的过程是:
假设D为类别对训练元组进行的划分,则D的熵为:
其中Pi表示第i个类别在整个训练元组中出现的概率;
现在将训练元组D以A为属性进行分裂,则A对D划分的期望信息为:
而信息增益量则为两者的差值:
Gain(A)=info(D)-info(D|A);
将各个属性的信息增益量计算出来,然后将最大增益量的属性进行分裂,之后重复如此即可。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法充分分析大量网页的内容特征、DOM树特征、视觉特征、邻居特征、页面代码类特征、脚本类特征、网址属性特征等。根据各类特征所表征网页特性的优缺点,从中选取出极有代表性的20多种特征,再利用三种不同的分类学习算法(KNN最近邻算法、朴素贝叶斯算法、决策树算法)分别构建分类器。通过增量学习,对待检测网页做出判别。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于分类学习算法的恶意网页防御检测方法,包括以下步骤:
S1:用自然语言处理的方法分析网页的内容特征:首先去除噪音,抽取网页的正文文本和源代码,用文本处理的方法进行词频分析或者词法分析,计算文本中字符串出现的字数,计算其频率;对内容分析代码语句的意思,分析html页面和JavaScript页面的一些特殊标签;
S2:分析DOM树的结构反应出网页的主体架构,通过处理网页的实际内容来得到其相关特征,还原网页的结构信息;
S3:分析网页页面代码和脚本类特征;
S4:抽取网页中网址类属性特征;
S5:邻居特征的分析:当网页中包含大量的图片和动画而却只有少量的文本;
S6:基于KNN算法、朴素贝叶斯算法以及决策树算法三种分类学习的算法构造分类器,将通过机器学习的方法将待检测的网页特征提取置于分类器中辨别。
进一步地,所述步骤S5中,当网页中包含大量的图片和动画而却只有少量的文本时,以上的方法就不一定能正确反应网页的属性,此时就应该通过邻居特征分析了,分析其与超链接的关系来更好的确认源网页的从属类别。
进一步地,所述步骤S6中,KNN算法的过程是:
1)、计算测试数据与各个数据之间的距离;
2)、按照距离的递增关系进行排序;
3)、选取距离最小的k个点;
4)、确定前k个点所在类别出现的概率;
5)、返回前k个点中出现频率最高的类别作为测试数据的预测分类。
进一步地,所述步骤S6中,朴素贝叶斯算法的过程是:
1)、设X={A1,A2,…….Am}为一个待分类项,其中每个A为X的一个特征属性,有类别集合C={Y1,Y2……..Yn};
2)、计算出P(Yk|X)=max(P(Y1|X),P(Y2|X),……..P(Yn|X)),则X为Yk类别;
3)、由于P(Yk|X)难以计算,所以可以通过贝叶斯定理P(A|B)=P(B|A)*P(B)/P(A),计算P(X|Yk)。
4)、由于各特征属性相互独立,故:
所以求出最大的P(Yi)ΠP(aj|Yi)即可。
进一步地,所述步骤S6中,决策树算法的过程是:
假设D为类别对训练元组进行的划分,则D的熵为:
其中Pi表示第i个类别在整个训练元组中出现的概率;
现在将训练元组D以A为属性进行分裂,则A对D划分的期望信息为:
而信息增益量则为两者的差值:
Gain(A)=info(D)-info(D|A);
将各个属性的信息增益量计算出来,然后将最大增益量的属性进行分裂,之后重复如此即可。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于分类学习算法的恶意网页防御检测方法,其特征在于,包括以下步骤:
S1:用自然语言处理的方法分析网页的内容特征:首先去除噪音,抽取网页的正文文本和源代码,用文本处理的方法进行词频分析或者词法分析,计算文本中字符串出现的字数,计算其频率;对内容分析代码语句的意思,分析html页面和JavaScript页面的一些特殊标签;
S2:分析DOM树的结构反应出网页的主体架构,通过处理网页的实际内容来得到其相关特征,还原网页的结构信息;
S3:分析网页页面代码和脚本类特征;
S4:抽取网页中网址类属性特征;
S5:邻居特征的分析:当网页中包含大量的图片和动画而却只有少量的文本;
S6:基于KNN算法、朴素贝叶斯算法以及决策树算法三种分类学习的算法构造分类器,将通过机器学习的方法将待检测的网页特征提取置于分类器中辨别。
2.根据权利要求1所述的基于分类学习算法的恶意网页防御检测方法,其特征在于,所述步骤S5中,当网页中包含大量的图片和动画而却只有少量的文本时,以上的方法就不一定能正确反应网页的属性,此时就应该通过邻居特征分析了,分析其与超链接的关系来更好的确认源网页的从属类别。
3.根据权利要求2所述的基于分类学习算法的恶意网页防御检测方法,其特征在于,所述步骤S6中,KNN算法的过程是:
1)、计算测试数据与各个数据之间的距离;
2)、按照距离的递增关系进行排序;
3)、选取距离最小的k个点;
4)、确定前k个点所在类别出现的概率;
5)、返回前k个点中出现频率最高的类别作为测试数据的预测分类。
4.根据权利要求3所述的基于分类学习算法的恶意网页防御检测方法,其特征在于,所述步骤S6中,朴素贝叶斯算法的过程是:
1)、设X={A1,A2,…….Am}为一个待分类项,其中每个A为X的一个特征属性,有类别集合C={Y1,Y2……..Yn};
2)、计算出P(Yk|X)=max(P(Y1|X),P(Y2|X),……..P(Yn|X)),则X为Yk类别;
3)、由于P(Yk|X)难以计算,所以可以通过贝叶斯定理P(A|B)=P(B|A)*P(B)/P(A),计算P(X|Yk)。
4)、由于各特征属性相互独立,故:
所以求出最大的P(Yi)ΠP(aj|Yi)即可。
5.根据权利要求4所述的基于分类学习算法的恶意网页防御检测方法,其特征在于,所述步骤S6中,决策树算法的过程是:
假设D为类别对训练元组进行的划分,则D的熵为:
其中Pi表示第i个类别在整个训练元组中出现的概率;
现在将训练元组D以A为属性进行分裂,则A对D划分的期望信息为:
而信息增益量则为两者的差值:
Gain(A)=info(D)-info(D|A);
将各个属性的信息增益量计算出来,然后将最大增益量的属性进行分裂,之后重复如此即可。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810196118.4A CN108509794A (zh) | 2018-03-09 | 2018-03-09 | 一种基于分类学习算法的恶意网页防御检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810196118.4A CN108509794A (zh) | 2018-03-09 | 2018-03-09 | 一种基于分类学习算法的恶意网页防御检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108509794A true CN108509794A (zh) | 2018-09-07 |
Family
ID=63377404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810196118.4A Pending CN108509794A (zh) | 2018-03-09 | 2018-03-09 | 一种基于分类学习算法的恶意网页防御检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509794A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109067778A (zh) * | 2018-09-18 | 2018-12-21 | 东北大学 | 一种基于蜜网数据的工控扫描器指纹识别方法 |
CN111259219A (zh) * | 2020-01-10 | 2020-06-09 | 北京金睛云华科技有限公司 | 恶意网页识别模型、识别模型建立方法、识别方法及系统 |
CN111523119A (zh) * | 2020-04-26 | 2020-08-11 | 南开大学 | 漏洞检测的方法和装置、电子设备及计算机可读存储介质 |
CN112511525A (zh) * | 2020-11-24 | 2021-03-16 | 山西三友和智慧信息技术股份有限公司 | 一种网站恶意第三方内容检测方法及系统 |
CN114372267A (zh) * | 2021-11-12 | 2022-04-19 | 哈尔滨工业大学 | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 |
CN114372267B (zh) * | 2021-11-12 | 2024-05-28 | 哈尔滨工业大学 | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218420A (zh) * | 2013-04-01 | 2013-07-24 | 北京鹏宇成软件技术有限公司 | 一种网页标题提取方法及装置 |
US8806646B1 (en) * | 2011-04-27 | 2014-08-12 | Twitter, Inc. | Detecting malware in mobile sites |
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN107577783A (zh) * | 2017-09-15 | 2018-01-12 | 电子科技大学 | 基于Web结构特征挖掘的网页类型自动识别方法 |
-
2018
- 2018-03-09 CN CN201810196118.4A patent/CN108509794A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8806646B1 (en) * | 2011-04-27 | 2014-08-12 | Twitter, Inc. | Detecting malware in mobile sites |
CN103218420A (zh) * | 2013-04-01 | 2013-07-24 | 北京鹏宇成软件技术有限公司 | 一种网页标题提取方法及装置 |
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
CN107577783A (zh) * | 2017-09-15 | 2018-01-12 | 电子科技大学 | 基于Web结构特征挖掘的网页类型自动识别方法 |
Non-Patent Citations (3)
Title |
---|
MUYANG_MUZI: "决策树——ID3和C4.5", 《HTTPS://BLOG.CSDN.NET/U013159040/ARTICLE/DETAILS/45688747》 * |
庞玉敏: "恶意网页智能检测技术研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李东轩: "开发|监督学习最常见的五种算法,你知道几个?", 《HTTP://WWW.VOIDCN.COM/ARTICLE/P-WQWEKFRD-QA.HTML》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109067778A (zh) * | 2018-09-18 | 2018-12-21 | 东北大学 | 一种基于蜜网数据的工控扫描器指纹识别方法 |
CN109067778B (zh) * | 2018-09-18 | 2020-07-24 | 东北大学 | 一种基于蜜网数据的工控扫描器指纹识别方法 |
CN111259219A (zh) * | 2020-01-10 | 2020-06-09 | 北京金睛云华科技有限公司 | 恶意网页识别模型、识别模型建立方法、识别方法及系统 |
CN111259219B (zh) * | 2020-01-10 | 2023-04-21 | 北京金睛云华科技有限公司 | 恶意网页识别模型建立方法、识别方法及系统 |
CN111523119A (zh) * | 2020-04-26 | 2020-08-11 | 南开大学 | 漏洞检测的方法和装置、电子设备及计算机可读存储介质 |
CN111523119B (zh) * | 2020-04-26 | 2023-05-05 | 南开大学 | 漏洞检测的方法和装置、电子设备及计算机可读存储介质 |
CN112511525A (zh) * | 2020-11-24 | 2021-03-16 | 山西三友和智慧信息技术股份有限公司 | 一种网站恶意第三方内容检测方法及系统 |
CN114372267A (zh) * | 2021-11-12 | 2022-04-19 | 哈尔滨工业大学 | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 |
CN114372267B (zh) * | 2021-11-12 | 2024-05-28 | 哈尔滨工业大学 | 一种基于静态域的恶意网页识别检测方法、计算机及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sahingoz et al. | Machine learning based phishing detection from URLs | |
Wu et al. | Twitter spam detection: Survey of new approaches and comparative study | |
CN108259494B (zh) | 一种网络攻击检测方法及装置 | |
Wang et al. | Abstracting massive data for lightweight intrusion detection in computer networks | |
CN110808968B (zh) | 网络攻击检测方法、装置、电子设备和可读存储介质 | |
Zhang et al. | Textual and visual content-based anti-phishing: a Bayesian approach | |
Adewole et al. | SMSAD: a framework for spam message and spam account detection | |
Buber et al. | NLP based phishing attack detection from URLs | |
US11595435B2 (en) | Methods and systems for detecting phishing emails using feature extraction and machine learning | |
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
CN108509794A (zh) | 一种基于分类学习算法的恶意网页防御检测方法 | |
CN111538929B (zh) | 网络链接识别方法、装置、存储介质及电子设备 | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
Yoo et al. | Two-phase malicious web page detection scheme using misuse and anomaly detection | |
Folorunso et al. | Ca-NIDS: A network intrusion detection system using combinatorial algorithm approach | |
CN110362995A (zh) | 一种基于逆向与机器学习的恶意软件检测及分析系统 | |
Zhang et al. | Cross-site scripting (XSS) detection integrating evidences in multiple stages | |
CN115757991A (zh) | 一种网页识别方法、装置、电子设备和存储介质 | |
Riera et al. | Prevention and fighting against web attacks through anomaly detection technology. A systematic review | |
Opara et al. | Look before You leap: Detecting phishing web pages by exploiting raw URL And HTML characteristics | |
CN111586695A (zh) | 短信识别方法及相关设备 | |
US11651080B2 (en) | Sentiment analysis for securing computer code | |
US20230164180A1 (en) | Phishing detection methods and systems | |
Chen et al. | Fraud analysis and detection for real-time messaging communications on social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |