CN114547290B - 一种基于条件共现度的攻击技巧提取方法 - Google Patents

一种基于条件共现度的攻击技巧提取方法 Download PDF

Info

Publication number
CN114547290B
CN114547290B CN202011358452.9A CN202011358452A CN114547290B CN 114547290 B CN114547290 B CN 114547290B CN 202011358452 A CN202011358452 A CN 202011358452A CN 114547290 B CN114547290 B CN 114547290B
Authority
CN
China
Prior art keywords
words
attack
occurrence
conditional
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011358452.9A
Other languages
English (en)
Other versions
CN114547290A (zh
Inventor
刘亮
彭思琪
廖珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202011358452.9A priority Critical patent/CN114547290B/zh
Publication of CN114547290A publication Critical patent/CN114547290A/zh
Application granted granted Critical
Publication of CN114547290B publication Critical patent/CN114547290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及网络安全技术领域,是一种基于条件共现度的攻击技巧提取方法,核心是基于条件共现度,利用机器学习算法从网络安全事件报告中自动提取多个攻击技巧。本发明方法首先利用条件共现度将文本重构为带有共现词的一系列单词的集合。然后利用隐含狄利克雷分布(LDA)主题模型提取出主题词来计算文档与攻击技巧的语义相似度,将其作为文档的特征。最后把攻击技巧提取问题转化为多标签分类问题,利用机器学习算法完成对网络安全事件相关的文章中攻击技巧的抽取。本发明可以帮助网络安全研究人员更好地了解攻击者的在网络安全事件中所采取的技术手段,通过共现词的引入有效地增强了攻击技巧提取的性能。

Description

一种基于条件共现度的攻击技巧提取方法
技术领域
本发明属于网络安全技术领域,尤其涉及一种基于条件共现度的攻击技巧提取方法。
背景技术
在信息时代,网络威胁情报发展愈来愈迅速。面对当前日益严峻的威胁形势,各自为政地分头开展情报采集工作不仅会增大情报搜集的成本,还会限制情报信息的流动,这使得威胁情报价值无法最大化。在威胁和攻击不断变化升级的网络环境下,能及时获得情报信息至关重要。一个好的解决方法是共享威胁情报。企业可以从共享的威胁情报获取恶意IP地址、域名、恶意软件hash值和攻击者所使用的攻击技巧等,从而迅速而成功地对网络攻击做出反应,有效提升其对网络威胁的防御能力。
虽然网络安全研究人员通常会将网络安全事件进行整理和分析后通过博客或报告共享,这其中蕴含了大量的威胁情报相关信息,但是很少有作者会对此进行归纳总结。另一方面,到目前为止没有一个在国际上通用的威胁信息共享标准。因此随着威胁相关文章的大量发表,人工地从非结构化的上下文中提取有用信息的效率低。为了帮助网络安全研究人员更好地了解攻击者的在网络安全事件中所采取的多种技术手段,急需一种从网络安全事件报告中自动提取多种攻击技巧的方法。
发明内容
本发明是一种针对攻击技巧的提取技术,利用条件共现度,结合机器学习算法自动化地从网络安全事件报告中提取多个攻击技巧。
为了达到上述目的,本发明采取如下技术方案。
根据自然段将每个网络安全事件相关的文章分割为几个独立的子文档。
利用词共现的方法对子文档和语料库进行重构。
利用LDA主题模型,对文章基于不同的攻击技巧提取不同的主题词。
利用LDA主题模型,对不同攻击技巧的描述进行关键词提取。
通过对文章和攻击技巧描述进行主题词提取,使用Word2Vec将处理后含有组合词的语料库进行训练,得到主题词对应的词向量表示。
将文章中的每个主题依次与不同的攻击技巧计算余弦相似度,并累加,作为该篇文章的特征向量。
将攻击技巧作为标签,对多标签分类模型进行训练,从训练好的分类器中获取文章对应的攻击技巧。
通过采用上述技术方案,本发明具有如下有益效果。
本发明提出从网络安全事件报告中自动化地提取多个攻击技巧的方法,可以免去人工提取过程,从而提高提取有用信息的效率,这在威胁情报提取方面具有一定的应用价值。本发明将条件共现度应用到多标签分类领域,引入共现词能更准确地表达出文本的语义关系,进而提高了多标签分类模型的分类精度。
附图说明
图1为本发明提供的攻击技巧提取方法的流程图。
图2为本发明所述的文本重构的详细流程图。
图3为本发明选取的10种常见攻击技巧介绍。
具体实施方式
图为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1是本发明提供的攻击技巧提取方法的流程图,如图1所示,该方法包括如下步骤。
步骤S101:将与网络安全事件有关的文章和对攻击技巧的描述重构为带有组合词的一系列单词的集合:
根据自然段将每篇文章分割为几个独立的子文档,需要设定一个阈值,当段落中单词的数量大于该阈值,则该段落可以被划分为具有独立语义结构的子文档;否则,该段落需合并到下一段落。对分割后的子文档中的词计算条件共现度,并调整组合词的权重。根据得到的组合词及对应权重,对子文档进行重构。
步骤S102:使用LDA主题模型提取主题词:
为了抽取网络安全事件相关的文章中的多个攻击技巧,使用LDA主题模型,基于不同的攻击技巧提取不同的主题词。同样,也需要对不同攻击技巧的描述进行关键词提取。
步骤S103:利用提取出来的主题词计算每篇文章与各个攻击技巧描述的相似度:
通过对文章和攻击技巧描述进行主题词提取后,使用Word2Vec将处理后含有组合词的语料库进行训练,进而得到主题词对应的词向量表示。对文章中的每个主题依次计算其与某一个攻击技巧的余弦相似度,并累加,得到该篇文章与此攻击技巧的相似程度,将其作为该文章特征向量的某一维。与不同攻击技巧进行以上的相似度计算,得到文章的特征向量。
步骤S104:将攻击技巧作为标签,对多标签分类模型进行训练:
分别使用三种不同的分类器,即朴素贝叶斯分类器、支持向量机分类器和决策树分类器,对BR算法和LP算法的分类性能进行评估。将多个攻击技巧作为标签,对分类模型进行训练,最终从训练好的多标签分类器中获取文章对应的攻击技巧。
图2是本发明所述的文本重构的详细流程图,如图2所示,该方法包括如下步骤。
步骤S201:为了进一步确定单词的前后依赖关系,引入条件共现度方法,对分割后的子文档中的词计算条件共现度。
步骤S202:为了突出不同组合词在子文档中出现的频率,需对组合词的权重重新计算:
上式中为子文档中词/>到词/>的条件共现度,/>是词/>在子文档中出现的频率,为子文档中所有词频率的均值。
步骤S203:根据得到的组合词及对应权重,对子文档进行重构,得到由原始词和组合词构成的新的子文档。
图3是本发明选取的10种常见攻击技巧介绍,如图3所示,这10种常见网络攻击技巧及其描述来自MITRE公司推出的ATT&CK标准,本发明中的所需的与网络安全事件有关的文章均与这10个攻击技巧相关。
以上实例仅说明本发明的技术方案而并非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者同等替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (4)

1.一种基于条件共现度的攻击技巧提取方法,其特征在于:
A、从各权威的威胁情报发布平台收集与安全事件有关文章的网页源码,然后对其进行预处理,将网页中的有效内容提取成文档;
B、根据自然段将提取出的每个网络安全事件相关的文章分割为几个独立的子文档;
C、利用词共现的方法对子文档和语料库进行重构;
D、利用LDA主题模型,对文章基于不同的攻击技巧提取不同的主题词;
E、利用LDA主题模型,对不同攻击技巧的描述进行关键词提取;
F、通过对文章和攻击技巧描述进行主题词提取,使用Word2Vec将处理后含有组合词的语料库进行训练,得到主题词对应的词向量表示;
G、将文章中的每个主题依次与不同的攻击技巧计算余弦相似度,并累加,作为该篇文章的特征向量;
H、将攻击技巧作为标签,对多标签分类模型进行训练,从训练好的分类器中获取文章对应的攻击技巧;
所述的步骤C文本重构具体包括如下步骤:
C1、为了进一步确定单词的前后依赖关系,引入条件共现度方法,对分割后的子文档中的词计算条件共现度;
C2、为了突出不同组合词在子文档中出现的频率,需对组合词的权重重新计算:
上式中dij为子文档中词i到词j的条件共现度,fii是词i在子文档中出现的频率,σ为子文档中所有词频率的均值;
C3、根据得到的组合词及对应权重,对子文档进行重构,得到由原始词和组合词构成的新的子文档。
2.如权利要求1所述的一种基于条件共现度的攻击技巧提取方法,其特征在于,所述的步骤B文本分割进一步包括如下步骤:
B1、根据自然段将每篇文章分割为几个独立的子文档,需要设定一个阈值,当段落中单词的数量大于该阈值,则该段落可以被划分为具有独立语义结构的子文档;否则,该段落需合并到下一段落。
3.如权利要求1所述的一种基于条件共现度的攻击技巧提取方法,其特征在于,所述的步骤D主题词提取进一步包括如下步骤:
D1、为了抽取网络安全事件相关的文章中的多个攻击技巧,使用LDA主题模型,基于不同的攻击技巧提取不同的主题词;同样,也需要对不同攻击技巧的描述进行关键词提取。
4.如权利要求1所述的一种基于条件共现度的攻击技巧提取方法,其特征在于,所述的步骤G特征向量进一步包括如下步骤:
G1、对文章中的每个主题依次计算其与某一个攻击技巧的余弦相似度,并累加,得到该篇文章与此攻击技巧的相似程度,将其作为该文章特征向量的某一维;
G2、与不同攻击技巧进行G1所述的相似度计算,得到文章的特征向量。
CN202011358452.9A 2020-11-27 2020-11-27 一种基于条件共现度的攻击技巧提取方法 Active CN114547290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011358452.9A CN114547290B (zh) 2020-11-27 2020-11-27 一种基于条件共现度的攻击技巧提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011358452.9A CN114547290B (zh) 2020-11-27 2020-11-27 一种基于条件共现度的攻击技巧提取方法

Publications (2)

Publication Number Publication Date
CN114547290A CN114547290A (zh) 2022-05-27
CN114547290B true CN114547290B (zh) 2023-07-18

Family

ID=81667861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011358452.9A Active CN114547290B (zh) 2020-11-27 2020-11-27 一种基于条件共现度的攻击技巧提取方法

Country Status (1)

Country Link
CN (1) CN114547290B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241352A (zh) * 2017-07-17 2017-10-10 浙江鹏信信息科技股份有限公司 一种网络安全事件分类与预测方法及系统
CN107360152A (zh) * 2017-07-07 2017-11-17 四川大学 一种基于语义分析的Web威胁感知系统
CN107423282A (zh) * 2017-05-24 2017-12-01 南京大学 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN109960802A (zh) * 2019-03-19 2019-07-02 四川大学 针对航空安全报告叙述性文本的信息处理方法和装置
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN110378124A (zh) * 2019-07-19 2019-10-25 杉树岭网络科技有限公司 一种基于lda机器学习的网络安全威胁分析方法及系统
CN110532480A (zh) * 2019-07-15 2019-12-03 中国科学院信息工程研究所 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN110717049A (zh) * 2019-08-29 2020-01-21 四川大学 一种面向文本数据的威胁情报知识图谱构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9922032B2 (en) * 2013-12-02 2018-03-20 Qbase, LLC Featured co-occurrence knowledge base from a corpus of documents
US9772996B2 (en) * 2015-08-04 2017-09-26 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Method and system for applying role based association to entities in textual documents
US10671936B2 (en) * 2017-04-06 2020-06-02 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423282A (zh) * 2017-05-24 2017-12-01 南京大学 基于混合特征的文本中语义连贯性主题与词向量并发提取方法
CN107360152A (zh) * 2017-07-07 2017-11-17 四川大学 一种基于语义分析的Web威胁感知系统
CN107241352A (zh) * 2017-07-17 2017-10-10 浙江鹏信信息科技股份有限公司 一种网络安全事件分类与预测方法及系统
CN109960802A (zh) * 2019-03-19 2019-07-02 四川大学 针对航空安全报告叙述性文本的信息处理方法和装置
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN110532480A (zh) * 2019-07-15 2019-12-03 中国科学院信息工程研究所 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN110378124A (zh) * 2019-07-19 2019-10-25 杉树岭网络科技有限公司 一种基于lda机器学习的网络安全威胁分析方法及系统
CN110717049A (zh) * 2019-08-29 2020-01-21 四川大学 一种面向文本数据的威胁情报知识图谱构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Kadowaki, Natsuki 等.Empirical Comparison of Word Similarity Measures Based on Co-Occurrence, Context, and a Vector Space Model.《Journal of Information Science Theory and Practice》.2020,6-17. *
Siqi Peng等.A Threat Actions Extraction Method Based on The Conditional Co-occurrence Degree.《2020 7th International Conference on Information Science and Control Engineering (ICISCE)》.2021,1633-1637. *
褚征 ; 于炯 ; 王佳玉 ; 王跃飞 ; .基于LDA主题模型的移动应用相似度构建方法.计算机应用.2017,(第04期),167-174. *
陈兴蜀 ; 罗梁 ; 王海舟 ; 王文贤 ; 高悦 ; .基于ICE-LDA模型的中英文跨语言话题发现研究.工程科学与技术.2017,(第02期),103-109. *

Also Published As

Publication number Publication date
CN114547290A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
Darem et al. Visualization and deep-learning-based malware variant detection using OpCode-level features
CN102799647B (zh) 网页去重方法和设备
US20150356091A1 (en) Method and system for identifying microblog user identity
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN104778161A (zh) 基于Word2Vec和Query log抽取关键词方法
CN112989831B (zh) 一种应用在网络安全领域的实体抽取方法
CN105956031A (zh) 文本分类方法和装置
Alghamdi et al. Topic detections in Arabic dark websites using improved vector space model
Sun et al. Towards effective short text deep classification
CN112487422B (zh) 一种恶意文档检测方法、装置、电子设备及存储介质
Ho et al. Application of sim-hash algorithm and big data analysis in spam email detection system
CN105117466A (zh) 一种互联网信息筛选系统及方法
Manh et al. Extractive Multi-document Summarization using K-means, centroid-based method, MMR, and sentence position
Alves et al. Leveraging BERT's Power to Classify TTP from Unstructured Text
CN114547290B (zh) 一种基于条件共现度的攻击技巧提取方法
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
Lei et al. Automatically classify chinese judgment documents utilizing machine learning algorithms
Chy et al. Microblog retrieval using ensemble of feature sets through supervised feature selection
Santos et al. Spam filtering through anomaly detection
Ardi et al. Precise detection of content reuse in the web
CN109063117B (zh) 一种基于特征抽取的网络安全博客分类方法及系统
Bollaa An efficient probabilistic multi labeled big data clustering model for privacy preservation using linked weight optimization model
Smith et al. Classification of text to subject using LDA
Soori et al. Utilizing text similarity measurement for data compression to detect plagiarism in Czech
Chen et al. A Malicious Web Page Detection Model based on SVM Algorithm: Research on the Enhancement of SVM Efficiency by Multiple Machine Learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant