CN106169050B - 一种基于网页知识发现的PoC程序提取方法 - Google Patents

一种基于网页知识发现的PoC程序提取方法 Download PDF

Info

Publication number
CN106169050B
CN106169050B CN201610625650.4A CN201610625650A CN106169050B CN 106169050 B CN106169050 B CN 106169050B CN 201610625650 A CN201610625650 A CN 201610625650A CN 106169050 B CN106169050 B CN 106169050B
Authority
CN
China
Prior art keywords
web page
poc
poc program
security breaches
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610625650.4A
Other languages
English (en)
Other versions
CN106169050A (zh
Inventor
黄小芳
武志飞
赵丝喆
吴敬征
杨牧天
李牧
武延军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201610625650.4A priority Critical patent/CN106169050B/zh
Publication of CN106169050A publication Critical patent/CN106169050A/zh
Application granted granted Critical
Publication of CN106169050B publication Critical patent/CN106169050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种基于网页知识发现的PoC程序提取方法。该方法的输入为待测安全漏洞,输出为待测安全漏洞对应的PoC程序。首先从权威漏洞库获取描述语句集,包括安全漏洞/非安全漏洞描述语句集和PoC程序/非PoC程序描述语句集。其次以描述语句集为训练样本,提取训练样本的特征集,基于深度学习框架,建立网页分类器和Comment分类器。最后结合网页分类器和Comment分类器,针对输入的待测安全漏洞,提取对应的PoC程序。本发明丰富了渗透测试、安全漏洞验证等领域的测试样例集,进而促进安全漏洞领域的研究与应用发展。

Description

一种基于网页知识发现的PoC程序提取方法
技术领域
本发明属于安全技术领域,涉及一种基于网页知识发现的PoC程序提取方法,实现了安全漏洞对应PoC程序的提取。
背景技术
安全漏洞是信息技术、信息产品、信息系统在需求、设计、实现、配置、运行等过程中产生的缺陷,这些缺陷一旦被恶意主体利用,就会对信息系统的安全造成损害,从而危害信息系统及信息的安全。近年来由安全漏洞导致的网络安全事件层出不同,如2014年iCloud被黑客攻击导致大量私人照片泄露,2015年全球最大婚外情网站Ashley Madision被黑客攻击导致10G用户数据被窃取,2015年网易邮箱被破解导致近5亿条用户数据被泄露。
PoC(Proof of Concept,中文翻译为概念验证)程序又称作验证程序,在本发明中特指用于验证安全漏洞的测试代码。PoC程序可以验证安全漏洞是否确实存在,还可以演示该漏洞的利用方式,因此被广泛应用于渗透测试(通过模拟恶意黑客的攻击方法,来评估安全性)、安全漏洞验证等领域,从而在实际应用中,常常需要大量的PoC程序作为测试样例。然而,目前并没有准确、可靠的PoC程序来源。
漏洞库是网络安全隐患分析的重要资源,用于收集和整理漏洞信息。权威漏洞库包括美国国家信息安全漏洞库(NVD,National Vulnerability Database)、中国国家信息安全漏洞库(CNNVD,China National Vulnerability Database of InformationSecurity)、乌云(WooYun)漏洞库等。截止2016年5月23日,NVD中CVE(CommonVulnerabilities&Exposures)漏洞信息共收录76919条,CNNVD共收录漏洞信息61437条,WooYun共收录漏洞信息104195条。
权威漏洞库收录了大量漏洞信息,其中绝大部分漏洞都缺乏对应PoC程序的直接获取途径,而PoC程序又隐藏在漏洞库的各层级数据里。
综上,为了丰富渗透测试、安全漏洞验证等领域的测试样例集,根据权威漏洞库已有信息,快速找到有效的PoC程序就变得很有必要。而基于目前的安全技术,用于提取安全漏洞对应PoC程序的安全漏洞验证程序提取方法并不存在。
发明内容
针对上述问题,本发明提供了一种基于网页知识发现的PoC程序提取方法,用于丰富渗透测试、安全漏洞验证等领域的测试样例集。
为实现上述目的,本发明采用如下技术方案:
一种基于网页知识发现的PoC程序提取方法,其步骤包括:
1)从权威漏洞库中获取所有安全漏洞对应的网页内容,并从上述网页内容中提取得到安全漏洞描述语句集、非安全漏洞描述语句集、PoC程序描述语句集和非PoC程序描述语句集。
2)将步骤1)中得到的4个描述语句集作为训练样本,提取训练样本的特征集,基于深度学习框架,建立网页分类器和Comment分类器,网页分类器用于判断输入内容是否与安全漏洞相关,Comment分类器用于判断输入内容是否在描述PoC程序。
3)根据待测安全漏洞的特征,从相应权威漏洞库获取该待测安全漏洞的网页内容,输入步骤2)建立的网页分类器和Comment分类器,提取待测安全漏洞的PoC程序。
进一步地,所述权威漏洞库包括:美国国家信息安全漏洞库(NVD)、中国国家信息安全漏洞库(CNNVD)和乌云漏洞库(WooYun)。
进一步地,步骤1)具体包括以下步骤:
1-1)从权威漏洞库获取针对所有安全漏洞的安全漏洞网页集;
1-2)对步骤1-1)获取的安全漏洞网页集中的所有网页内容做分句处理,得到语句集;
1-3)在步骤1-2)得到的语句集中,将描述内容与安全漏洞相关的语句归入安全漏洞描述语句集,与安全漏洞无关的语句归入非安全漏洞描述语句集;将在描述PoC程序的语句归入PoC程序描述语句集,将未在描述PoC程序的语句归入非PoC程序描述语句集。
进一步地,步骤2)通过以下方法提取训练样本的特征集:先提取训练样本中每个词的词向量,以此类推,一个词对应一个词向量。一个句子由多个词组成,整合每个词的词向量形成词矩阵,词矩阵即为网页分类特征,而词矩阵集即为训练样本的特征集。
进一步地,所述深度学习框架的目标是训练网页分类器和Comment分类器,因此所有得以实现该目标的深度学习算法均可用于该步骤,包括但不限于卷积神经网络算法。
进一步地,步骤2)中建立网页分类器的步骤具体包括:
2-1-1)基于步骤1)得到的安全漏洞描述语句集和非安全漏洞描述语句集,建立网页分类器的训练样本集。
2-1-2)针对步骤2-1-1)建立的训练样本集进行特征提取,建立网页分类特征集。
2-1-3)将步骤2-1-2)建立的网页分类特征集输入深度学习框架,训练网页分类模型,建立网页分类器。
进一步地,步骤2)中建立Comment分类器的步骤具体包括:
2-2-1)基于步骤1)提供的PoC程序描述语句集合和非PoC程序描述语句集,建立Comment分类器的训练样本集。
2-2-2)针对步骤2-2-1)提供的训练样本集进行特征提取,建立Comment分类特征集。
2-2-3)将步骤2-2-2)提供的Comment分类特征集输入深度学习框架,训练Comment分类模型,建立Comment分类器。
进一步地,步骤3)具体包括以下步骤:
3-1)分析待测安全漏洞,得到相应权威漏洞库来源,从权威漏洞库获取该待测安全漏洞对应网页的网页内容。
3-2)对步骤3-1)获取的网页内容做分句处理,并将分句结果整合为文本语句集。
3-3)将步骤3-2)得到的文本语句集中各语句输入网页分类器进行分类预测,若网页描述内容为安全漏洞,则继续将步骤3-2)得到的文本语句集中各语句输入Comment分类器进行分类预测,若网页内容在描述PoC程序,则定位‘在描述PoC程序’的语句所在网页中的位置,分析网页结构,提取PoC程序,若网页内容未在描述PoC程序,则继续步骤3-4)。
3-4)提取网页中的URL链接,生成URL集。
3-5)判断步骤3-4)生成的URL集是否为空集,若为空集,该步骤结束,若不为空集,转到步骤3-6)。
3-6)依次循环提取步骤3-4)生成的URL集中各URL链接对应的网页内容,判定是否存在PoC程序,若存在,则提取当前URL对应网页内容中的PoC程序,若不存在,转到3-7)。
3-7)针对由步骤3-6)发起的循环操作,判断是否结束循环,若是,获取步骤3-4)提供的URL集中各URL链接对应网页内容,转到3-2),若否,转到3-6)。
进一步地,步骤3-3)提取PoC程序的步骤具体包括:
3-3-1)以‘在描述PoC程序’的语句所在位置的下一行为起始位置,进行PoC程序特征检测处理。
3-3-2)判断是否为PoC程序源码,若是,该PoC程序即为待测安全漏洞对应的PoC程序,结束该步骤;否则转到3-3-3)。
3-3-3)判断是否为URL链接,若是,则进入URL链接对应页面判断网页内容是否为程序源码,转到步骤3-3-4),否则结束该步骤。
3-3-4)如果网页内容为程序源码,则提取网页内容中的PoC程序源码,该PoC程序即为待测安全漏洞对应的PoC程序,否则结束该步骤。
本发明首次提出漏洞库可以作为PoC程序的直接来源,并提供一种有效可行的提取PoC程序的方法,能方便、准确地提取待测安全漏洞对应PoC程序,从而丰富渗透测试、安全漏洞验证等领域的测试样例集,进而促进安全漏洞领域的研究与应用发展。
附图说明
图1是本发明基于网页知识发现的PoC程序提取方法的架构图。
图2是本发明描述语句集获取流程图。
图3(a)是本发明网页分类器的建立流程图;图3(b)是本发明Comment分类器的建立流程图。
图4是本发明待测安全漏洞的PoC程序提取流程图。
图5是本发明PoC程序具体提取流程图。
具体实施方式
下面结合附图,通过实施例对本发明作进一步的说明。
本发明基于网页知识发现的PoC程序提取方法的整体架构图如图1所示,该方法的输入为待测安全漏洞,输出为待测安全漏洞对应PoC程序。其主要包括以下步骤:
1)获取描述语句集。该步骤以权威数据库为数据来源,收集漏洞库中所有安全漏洞相关数据,获取相应网页内容,筛选网页内容并分类,最终得到四个描述语句集,分别为安全漏洞描述语句集、非安全漏洞描述语句集、PoC程序描述语句集和非PoC程序描述语句集。
具体地,描述语句集获取流程图如图2所示,详细说明如下:
1a)从权威漏洞库获取针对所有安全漏洞的安全漏洞网页集,转到1b)。
1b)针对步骤1a)提供的安全漏洞网页集中的所有网页内容做数据预处理(分句),得到语句集,随后将语句集中的所有语句依次送入后续流程,转到1c)。
1c)针对步骤1b)提供的语句,判断各语句描述的内容是否属于安全漏洞范畴,若为是,将描述内容属于安全漏洞范畴的语句归入安全漏洞描述语句集,若为否,将描述内容不属于安全漏洞范畴的语句归入非安全漏洞描述语句集;判断各语句描述的内容是否为PoC程序,若为是,将描述内容为PoC程序的语句归入PoC程序描述语句集,若为否,将描述内容不为PoC程序的语句归入非PoC程序描述语句集,转到1d)。
1d)该步骤结束。
2)建立网页分类器和Comment分类器。以步骤1)中的描述语句集为训练样本,提取训练样本的特征集,基于深度学习框架,建立网页分类器和Comment分类器,网页分类器用于判断该网页是否用于描述安全漏洞问题,Comment分类器用于判断该网页中的文本内容是否用于描述PoC程序。其中安全漏洞/非安全漏洞描述语句集用于建立网页分类器,PoC程序/非PoC程序描述语句集用于建立Comment分类器。
特征提取方法举例,先提取每个词的词向量,提取词向量的方法如word2vec、GloVe等,以此类推,一个词对应一个词向量。一个句子由多个词组成,整合每个词的词向量形成词矩阵,词矩阵即为网页分类特征。
深度学习框架举例,卷积神经网络算法即可适用于该步骤中的深度学习框架。
具体地,网页分类器的建立流程图如图3(a)所示,详细说明如下:
2a)整合步骤1d)提供的安全漏洞描述语句集和步骤1g)提供的非安全漏洞描述语句集,建立网页分类器的训练样本集,转到2b)。
2b)针对步骤2a)提供的训练样本集进行特征提取,建立网页分类特征集,转到2c)。
2c)将步骤2b)提供的网页分类特征集输入深度学习框架,训练网页分类模型,转到2d)。
2d)成功建立网页分类器。
Comment分类器的建立流程图如图3(b)所示,详细说明如下:
2e)整合步骤1f)提供的PoC程序描述语句集合步骤1h)提供的非PoC程序描述语句集,建立Comment分类器的训练样本集,转到2f)。
2f)针对步骤2e)提供的训练样本集进行特征提取,建立Comment分类特征集,转到2g)。
2g)将步骤2f)提供的Comment分类特征集输入深度学习框架,训练Comment分类模型,转到2h)。
2h)成功建立Comment分类器。
3)提取安全漏洞验证程序,即PoC程序。该步骤先根据待测安全漏洞的特征,从相应权威漏洞库获取该安全漏洞的网页内容,并对网页内容做数据预处理(分句),再结合网页分类器和Comment分类器,提取该待测安全漏洞的PoC程序。
待测安全漏洞的安全漏洞验证程序(PoC程序)提取流程如图4所示,详细说明如下:
3a)给定待测安全漏洞,转到3b)。
3b)分析步骤3a)提供的待测安全漏洞,得到相应权威漏洞库来源,从权威漏洞库获取该待测安全漏洞对应网页的网页内容,转到3c)。
3c)针对网页内容做数据预处理,即分句,转到3d)。
3d)将步骤3c)提供的分句结果整合为文本语句集,转到3e)。
3e)将步骤3d)提供的文本语句集中各语句输入网页分类器进行分类预测,分类结果分成两种情况:一,是安全漏洞;二,不是安全漏洞。转到3f)。
3f)分析步骤3e)的分类结果(只要分类结果中有出现‘是安全漏洞’,该网页的描述内容即为安全漏洞),判断该网页描述内容是否为安全漏洞,若为是,转到3g),若为否,转到3r)。
3g)将步骤3f)中判断为安全漏洞的语句集中各语句输入Comment分类器进行分类预测,分类结果分成两种情况:一,是描述PoC程序;二,不是描述PoC程序。转到3h)。
3h)分析步骤3g)的分类结果(只要分类结果中有出现‘是描述PoC程序’,则该网页内容在描述PoC程序,且PoC程序就在网页正文中),判断该网页内容是否在描述PoC程序,若为是,转到3i),若为否,转到3k)。
3i)定位分类结果为‘是描述PoC程序’的语句所在网页中的位置,分析网页结构,提取PoC程序,转到3j),其中提取PoC程序的具体步骤如图5所示,详细说明如下:
3i-a)以步骤3i)提供的PoC程序描述语句所在位置的下一行为起始位置,进行PoC程序特征检测处理,转到3i-b)。
3i-b)判断是否为PoC程序源码,若为是,转到3i-g),若为否,转到3i-c)。
3i-c)判断是否为URL链接,若为是,转到3i-d),若为否,转到3i-h)。
3i-d)进入URL链接对应页面,转到3i-e)。
3i-e)判断网页内容是否为程序源码,若为是,转到3i-f),若为否,转到3i-h)。
3i-f)提取网页内容中的PoC程序源码,转到3i-g)。
3i-g)该PoC程序即为待测安全漏洞对应的PoC程序,转到3i-h)。
3i-h)该步骤结束。
3j)步骤3i)得到的PoC程序即为待测安全漏洞对应的PoC程序,转到3r)。
3k)提取网页中的URL链接,生成URL集,转到3l)。
3l)判断步骤3k)提供的URL集是否为空集,若为空集,转到3r),若不为空集,转到3m)。
3m)依次循环提取步骤3k)提供的URL集中各URL链接对应网页内容,转到3n)。
3n)分析步骤3m)中提取的网页内容,判定是否存在PoC程序,具体操作同步骤3c)-3g),若存在,转到3o),若不存在,转到3p)。
3o)提取当前URL对应网页内容中的PoC程序,具体操作同步骤3i),转到3r)。
3p)针对由步骤3m)发起的循环操作,判断是否结束循环,若为是,转到3q),若为否,转到3m)。
3q)获取步骤3k)提供的URL集中各URL链接对应网页内容,转到3c)。
3r)该步骤到此结束。
实施例
下面提供一个具体的安全漏洞对应PoC程序提取的应用实例:
输入为待测安全漏洞,输出为待测安全漏洞对应的PoC程序。以编号为CVE-2016-2784的安全漏洞为例,具体实施步骤包括:
1)获取描述语句集。该步骤以美国国家信息安全漏洞库(NVD)为数据来源,收集安全漏洞相关数据,获取相应网页内容,筛选网页内容并分类,最终得到四个描述语句集,分别为安全漏洞描述语句集、非安全漏洞描述语句集、PoC程序描述语句集和非PoC程序描述语句集。
2)建立网页分类器和Comment分类器。该步骤以步骤1)中的描述语句集为训练样本,通过word2vec算法提取训练样本的特征集,基于卷积神经网络算法,建立网页分类器和Comment分类器,网页分类器用于判断该网页是否用于描述安全漏洞问题,Comment分类器用于判断该网页中的文本内容是否用于解释说明PoC程序。其中安全漏洞/非安全漏洞描述语句集用于建立网页分类器,PoC程序/非PoC程序描述语句集用于建立Comment分类器。
3)提取安全漏洞验证程序,即PoC程序。首先分析待测安全漏洞基本信息,得知该安全漏洞来自NVD漏洞库,进而从NVD漏洞库获取该安全漏洞的网页内容。其次对网页内容做数据预处理(分句),将分句得到的文本语句集输入网页分类器进行分类,得出结论该网页内容为安全漏洞相关,再将分句得到的文本语句集输入Comment分类器进行分类,得出结论该网页内容中不存在PoC程序。再次提取该网页内容中所有URL链接,形成非空URL集,依次循环获取URL集中各对应网页内容,判断当前网页内容是否包含PoC程序,当循环执行到第6个URL时,该URL对应网页内容中包括PoC程序。最后提取PoC程序,最终得到的PoC程序如下:
Request that shows improper HTML entities filtering and will insert'onload='javacript:alert(Xss)in the pages:
GET/HTTP/1.1
Host:'onload='javascrscript:ipt:alert(Xss)
Accept:*/*
Accept-Encoding:gzip,deflate
Connection:close
Request that changes the root domain for all links and allows toredirect to external websites:
GET/HTTP/1.1
Host:www.malicious.com
Accept:*/*
Accept-Encoding:gzip,deflate
Connection:close
步骤3)中提取到的PoC程序即为待测安全漏洞CVE-2016-2784对应的安全漏洞PoC程序,至此,待测安全漏洞的PoC程序已提取完成。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (9)

1.一种基于网页知识发现的PoC程序提取方法,其步骤包括:
1)从权威漏洞库中获取所有安全漏洞对应的网页内容,并从上述网页内容中提取得到安全漏洞描述语句集、非安全漏洞描述语句集、PoC程序描述语句集和非PoC程序描述语句集;
2)将步骤1)中得到的4个描述语句集作为训练样本,提取训练样本的特征集,基于深度学习框架,建立网页分类器和Comment分类器,网页分类器用于判断输入内容是否与安全漏洞相关,Comment分类器用于判断输入内容是否在描述PoC程序;
3)根据待测安全漏洞的特征,从相应权威漏洞库获取该待测安全漏洞的网页内容,输入步骤2)建立的网页分类器和Comment分类器,提取待测安全漏洞的PoC程序。
2.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,所述权威漏洞库包括:美国国家信息安全漏洞库NVD、中国国家信息安全漏洞库CNNVD和乌云漏洞库WooYun。
3.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤1)具体包括以下步骤:
1-1)从权威漏洞库获取针对所有安全漏洞的安全漏洞网页集;
1-2)对步骤1-1)获取的安全漏洞网页集中的所有网页内容做分句处理,得到语句集;
1-3)在步骤1-2)得到的语句集中,将描述内容与安全漏洞相关的语句归入安全漏洞描述语句集,与安全漏洞无关的语句归入非安全漏洞描述语句集;将在描述PoC程序的语句归入PoC程序描述语句集,将未在描述PoC程序的语句归入非PoC程序描述语句集。
4.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤2)通过以下方法提取训练样本的特征集:先提取训练样本中每个词的词向量,以此类推,一个词对应一个词向量,一个句子由多个词组成,整合每个词的词向量形成词矩阵,词矩阵集为训练样本的特征集。
5.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,所述深度学习框架包括卷积神经网络算法。
6.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤2)中建立网页分类器的步骤具体包括:
2-1-1)基于步骤1)得到的安全漏洞描述语句集和非安全漏洞描述语句集,建立网页分类器的训练样本集;
2-1-2)针对步骤2-1-1)建立的训练样本集进行特征提取,建立网页分类特征集;
2-1-3)将步骤2-1-2)建立的网页分类特征集输入深度学习框架,训练网页分类模型,建立网页分类器。
7.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤2)中建立Comment分类器的步骤具体包括:
2-2-1)基于步骤1)提供的PoC程序描述语句集合和非PoC程序描述语句集,建立Comment分类器的训练样本集;
2-2-2)针对步骤2-2-1)提供的训练样本集进行特征提取,建立Comment分类特征集;
2-2-3)将步骤2-2-2)提供的Comment分类特征集输入深度学习框架,训练Comment分类模型,建立Comment分类器。
8.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤3)具体包括以下步骤:
3-1)分析待测安全漏洞,得到相应权威漏洞库来源,从权威漏洞库获取该待测安全漏洞对应网页的网页内容;
3-2)对步骤3-1)获取的网页内容做分句处理,并将分句结果整合为文本语句集;
3-3)将步骤3-2)得到的文本语句集中各语句输入网页分类器进行分类预测,若网页描述内容为安全漏洞,则继续将步骤3-2)得到的文本语句集中各语句输入Comment分类器进行分类预测,若网页内容在描述PoC程序,则定位‘在描述PoC程序’的语句所在网页中的位置,分析网页结构,提取PoC程序,若网页内容未在描述PoC程序,则继续步骤3-4);
3-4)提取网页中的URL链接,生成URL集;
3-5)判断步骤3-4)生成的URL集是否为空集,若为空集,该步骤结束,若不为空集,转到步骤3-6);
3-6)依次循环提取步骤3-4)生成的URL集中各URL链接对应的网页内容,判定是否存在PoC程序,若存在,则提取当前URL对应网页内容中的PoC程序,若不存在,转到3-7);
3-7)针对由步骤3-6)发起的循环操作,判断是否结束循环,若是,获取步骤3-4)提供的URL集中各URL链接对应网页内容,转到3-2),若否,转到3-6)。
9.如权利要求8所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤3-3)提取PoC程序的步骤具体包括:
3-3-1)以‘在描述PoC程序’的语句所在位置的下一行为起始位置,进行PoC程序特征检测处理;
3-3-2)判断是否为PoC程序源码,若是,该PoC程序即为待测安全漏洞对应的PoC程序,结束该步骤;否则转到3-3-3);
3-3-3)判断是否为URL链接,若是,则进入URL链接对应页面判断网页内容是否为程序源码,转到步骤3-3-4),否则结束该步骤;
3-3-4)如果网页内容为程序源码,则提取网页内容中的PoC程序源码,该PoC程序即为待测安全漏洞对应的PoC程序,否则结束该步骤。
CN201610625650.4A 2016-08-02 2016-08-02 一种基于网页知识发现的PoC程序提取方法 Active CN106169050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610625650.4A CN106169050B (zh) 2016-08-02 2016-08-02 一种基于网页知识发现的PoC程序提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610625650.4A CN106169050B (zh) 2016-08-02 2016-08-02 一种基于网页知识发现的PoC程序提取方法

Publications (2)

Publication Number Publication Date
CN106169050A CN106169050A (zh) 2016-11-30
CN106169050B true CN106169050B (zh) 2019-03-08

Family

ID=58065750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610625650.4A Active CN106169050B (zh) 2016-08-02 2016-08-02 一种基于网页知识发现的PoC程序提取方法

Country Status (1)

Country Link
CN (1) CN106169050B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874768B (zh) * 2016-12-30 2020-03-24 北京瑞卓喜投科技发展有限公司 渗透测试的方法及装置
CN107608877B (zh) * 2017-08-11 2021-04-09 上海巍擎信息技术有限责任公司 一种基于机器学习的自动化应用程序界面测试方法和测试系统
CN110110075A (zh) * 2017-12-25 2019-08-09 中国电信股份有限公司 网页分类方法、装置以及计算机可读存储介质
US11349856B2 (en) 2019-01-30 2022-05-31 International Business Machines Corporation Exploit kit detection
CN115225348A (zh) * 2022-06-29 2022-10-21 北京天融信网络安全技术有限公司 一种获取网络威胁情报的方法、装置、介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435780A (zh) * 2003-03-04 2003-08-13 杨炳儒 一种Web挖掘系统的构造方法
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262535B2 (en) * 2012-06-19 2016-02-16 Bublup Technologies, Inc. Systems and methods for semantic overlay for a searchable space

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435780A (zh) * 2003-03-04 2003-08-13 杨炳儒 一种Web挖掘系统的构造方法
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法

Also Published As

Publication number Publication date
CN106169050A (zh) 2016-11-30

Similar Documents

Publication Publication Date Title
CN106169050B (zh) 一种基于网页知识发现的PoC程序提取方法
CN110233849B (zh) 网络安全态势分析的方法及系统
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
Mao et al. BaitAlarm: detecting phishing sites using similarity in fundamental visual features
US20170026390A1 (en) Identifying Malware Communications with DGA Generated Domains by Discriminative Learning
CN110266675B (zh) 一种基于深度学习的xss攻击自动化检测方法
US10187412B2 (en) Robust representation of network traffic for detecting malware variations
CN107392016A (zh) 一种基于代理的Web数据库攻击行为检测系统
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN105760379B (zh) 一种基于域内页面关联关系检测webshell页面的方法及装置
CN109766693A (zh) 一种基于深度学习的跨站脚本攻击检测方法
CN107360152A (zh) 一种基于语义分析的Web威胁感知系统
CN104123501B (zh) 一种基于多鉴定器集合的病毒在线检测方法
CN109525567A (zh) 一种针对网站实施参数注入攻击的检测方法与系统
CN110177114A (zh) 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质
CN103279710A (zh) Internet信息系统恶意代码的检测方法和系统
Li et al. Security OSIF: Toward automatic discovery and analysis of event based cyber threat intelligence
Jiang et al. Tracking your browser with high-performance browser fingerprint recognition model
WO2020082763A1 (zh) 基于决策树的钓鱼网站检测方法、装置及计算机设备
Zhang et al. Cross-site scripting (XSS) detection integrating evidences in multiple stages
CN105959328A (zh) 证据图与漏洞推理相结合的网络取证方法及系统
CN108171054A (zh) 一种针对社交欺骗的恶意代码的检测方法及系统
Yang et al. Naruto: DNS covert channels detection based on stacking model
Wen et al. Detecting malicious websites in depth through analyzing topics and web-pages
Jamshed Lawyers Response to COVID-19 infodemic on social media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant