CN107368592B - 一种用于网络安全报告的文本特征模型建模方法及装置 - Google Patents

一种用于网络安全报告的文本特征模型建模方法及装置 Download PDF

Info

Publication number
CN107368592B
CN107368592B CN201710616406.6A CN201710616406A CN107368592B CN 107368592 B CN107368592 B CN 107368592B CN 201710616406 A CN201710616406 A CN 201710616406A CN 107368592 B CN107368592 B CN 107368592B
Authority
CN
China
Prior art keywords
segment
text
information
paragraph
paragraphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710616406.6A
Other languages
English (en)
Other versions
CN107368592A (zh
Inventor
林康
罗鹰
张鑫阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kelai Network Technology Co.,Ltd.
Original Assignee
Chengdu Kelai Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kelai Network Technology Co Ltd filed Critical Chengdu Kelai Network Technology Co Ltd
Priority to CN201710616406.6A priority Critical patent/CN107368592B/zh
Publication of CN107368592A publication Critical patent/CN107368592A/zh
Application granted granted Critical
Publication of CN107368592B publication Critical patent/CN107368592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明涉及文本处理领域。针对现有技术存在的问题,本发明提供一种用于网络安全报告的文本特征模型建模方法及装置。该方法或者装置是结合全文和段落信息,同时结合词频与文本特征信息,来构建特定领域的文本模型;对需要分析的网络安全报告进行网络安全分析。本发明对文档的分析主要以段落为基础,首先读取文档,计算全文的段落文本密度和关键词频,然后对每个段落提取位置信息、长度信息、关键字段信息、段向量,将这些信息组成该段落的特征向量,然后按照该特征向量对段落进行分类。在完成所有段落的分析后,即可建立起全文的数据模型。

Description

一种用于网络安全报告的文本特征模型建模方法及装置
技术领域
本发明涉及文本处理领域,尤其是一种用于网络安全报告的文本特征模型建模方法及装置。
背景技术
目前对文本特征进行提取的算法和相应的机器学习进行分析的算法都已日渐成熟,但对不同领域的文本,对应的文本特征不尽相同,分析所得的关键信息也千差万别,尤其是针对网络安全领域的报告文档分析,准确性不高。
发明内容
本发明所要解决的技术问题是:针对现有技术存在的问题,提供一种用于网络安全报告的文本特征模型建模方法及装置。该方法或者装置是结合全文和段落信息,同时结合词频与文本特征信息,来构建特定领域的文本模型;对需要分析的网络安全报告进行网络安全分析。
本发明采用的技术方案如下:
一种用于网络安全报告的文本特征模型建模方法包括:
步骤1:读取文档,提取文本内容;
步骤2:计算全文信息,即计算段落文本密度和关键词频;根据关键词个数p,计算全文中p个关键词对应的TF-IDF词频;p大于等于1;
步骤3:对全文中的每个段落,计算段信息(pos,len,key_words_extract_array,paragraph_array);将每段的段信息拼接成,形成该段对应的向量classify_vector;
步骤4:对x篇以上的文档人工分析后进行段类型标注,每个段落标注n个段落分类类型labels;用SVM算法按照段分类类型对向量classify_vector进行多类型分类的训练,得到SVM分类器;用训练好的SVM分类器对未人工分析过的段落进行分析,从而得到未人工分析过段落的段分类类型labels;
进一步的,所述段类型标注指的是对文档中的每个段落属于哪些段分类类型进行标注,每个段落的段分类类型labels为m个;m大于等于0。
进一步的,所述步骤2中段落文本密度计算过程是将全文设置为多个文本块,计算每个文本块中段落的文本量与全文总文本量,得到每个文本块的段落文本密度=每个文本块中所有段落的文本量/全文总文本量。
进一步的,所述步骤3具体过程是:
步骤31:将段落在全文上的位置信息pos和长度信息len计算出来;
步骤32:采用正则表达式的方式,配合地理信息、公司行业信息的词库来进行识别,提取关键字段;然后按照关键字段的类型,统计该类型字段的出现次数,得到一个关键字段的提取次数数组key_words_extract_array;
步骤33:对全文中每个段落都按照Paragraph Vector算法计算对应的段向量paragraph_array;
步骤34:将每段的段信息(pos,len,key_words_extract_array,paragraph_array)拼接,形成该段对应的向量classify_vector。
一种用于网络安全报告的文本特征模型建模装置包括:
全文信息计算模块:用于读取文档,提取文本内容;计算全文信息,即计算段落文本密度和关键词频;根据关键词个数p,计算全文中p个关键词对应的TF-IDF词频;p大于等于1;
段信息向量计算模块,用于对全文中的每个段落current_paragraph,计算段信息(pos,len,key_words_extract_array,paragraph_array);将每段的段信息拼接,形成该段对应的向量classify_vector;
段分类模型建立模块:用于对x篇以上的文档人工分析后进行段类型标注,每个段落标注n个段落分类类型labels;用SVM算法按照段分类类型对向量classify_vector进行多类型分类的训练,得到SVM分类器;用训练好的SVM分类器对未人工分析过的段落进行分析,从而得到未人工分析过段落的段分类类型labels;
进一步的,所述段类型标注指的是对文档中的每个段落属于哪些段分类类型进行标注,每个段落的段分类类型labels为m个;m大于等于0。
进一步的,所述段落文本密度计算过程是将全文设置为多个文本块,计算每个文本块中段落的文本量与全文总文本量,得到每个文本块的段落文本密度=每个文本块中所有段落的文本量/全文总文本量。
进一步的,所述段信息向量计算模块具体过程是:
将段落在全文上的位置信息pos和长度信息len计算出来;
采用正则表达式的方式,配合地理信息、公司行业信息的词库来进行识别,提取关键字段;然后按照关键字段的类型,统计该类型字段的出现次数,得到一个关键字段的提取次数数组key_words_extract_array;
对全文中每个段落都按照Paragraph Vector算法计算对应的段向量paragraph_array;
将每段的段信息(pos,len,key_words_extract_array,paragraph_array)拼接,形成该段对应的向量classify_vector。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.相比于传统的人工提取,使用该模型自动化处理能显著提升性能,而且人工提取需要分析文档的人员对网络安全有丰富的了解,这会带来不小的人力成本,使用机器自动分析目前能达到的正确率在75%以上,虽然距离人工分析的正确率还有差距,但可以通过自动化处理后再引入人工分析加以弥补,最终效率上有明显优势。
2.相对于采用通用性的技术建模,该模型具有更好的专用性,经过验证能将通用模型60%的正确率提升至75%左右。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发迷流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
长度信息len指的是该段的长度除以全文段落的平均长度。
关键字段的类型是指时间,地理位置,行业公司,IP,域名,Hash这些;
段分类:按照网络安全的常见需求,需要在提取前面给出的段信息后,再通过SVM算法来分类,有以下较重要的分类,每个段落可能属于多个段分类:段分类常见有以下情况:(_段分类的层级一直到最底层,例如下文中项目标号是菱形的那个段落,若项目标号没有菱形段落那层,则是项目标号是正方形段落那层)
●攻击者信息
■攻击者身份概述;
■攻击规模;
■攻击目的;
■对攻击者的具体分析
◆网络信息:包括IP,域名等
◆具体信息的识别:包括人物身份,所属攻击组织的构成等
●受攻击方信息
■受攻击者身份概述:受攻击者所属行业、公司等
■损失情况:数据量,金额,危害程度等
■受攻击方的具体特征
◆网络信息:包括IP,域名等
◆地理位置
◆时间
●攻击流程
■概要简述
■通信特征:使用的私有网络协议、网络拓扑结构、加密方法等
■攻击实例:攻击流程的实际模拟或者还原
●攻击技术手段分析
■攻击发起方式:攻击者在确认目标后的第一阶段攻击方式,如钓鱼邮件,
社工,暴力破解等
■驻留文件信息:在被攻击者设备上发现的特征信息,如路径、注册表、程序编译时间等
■攻击工具:攻击者使用的工具软件,系统调用,漏洞等
■样本的信息摘要:主要是恶意文件的Hash值
●防御对策
■概要简述:采取哪些方式可以检测、屏蔽、修复
■获取方式:从哪里可以获取防御工具
Figure BDA0001360668900000051
上面给出的段分类是经过对多篇APT报告进行分析总结后得出的,符合大部分APT报告段落分类的场景需求,根据段落分类的结构,可以更精准地
定位用户关心的信息。
本发明实现过程:
1.读取文档,提取文本内容;
2.段落文本密度,计算中需要把文本密度信息限制为固定的长度,这里使用3个值,分别表示前16%,中68%,后16%段落的信息,接近正态分布的比例;
3.关键词频:在网络安全上的常见关键词,如漏洞,CVE,破解,木马,病毒等等一系列的词,构建出相应的关键词库后,计算全文的TF-IDF词频,按照关键词的个数,产生一个定长向量;
4.对全文中的每个段落current_paragraph,分别执行以下操作:
a)将段落在全文上的位置信息pos和长度信息len计算出来;
b)提取关键字段,可以采用正则表达式的方式,配合地理信息、公司行业信息的词库来进行识别;
i.提取关键字段的内容后,还要按照关键字段的类型,统计该类型字段的出现次数,得到一个关键字段的提取次数数组key_words_extract_array
c)按照Paragraph Vector算法计算段向量paragraph_array
i.使用这个算法前需要先按照自然语言处理的常规流程,对该段落执行文本分词,然后从得到的分词列表中去除不关键的标点符号和停用词;
d)将当前段落已知信息(pos,len,key_words_extract_array,paragraph_array)拼接成一个向量classify_vector。
5.在对所有段落完成步骤4后,执行段分类:
a)首先人工分析并对50篇以上的文档进行标注,标注的内容是这篇文档中的每个段落属于哪些段落分类的类型,需要标注到最细化的一层分类,记该段落属于的类型为labels;
b)用SVM算法按照labels对classify_vector进行多标签分类的训练,得到SVM分类器,验证并通过调整参数提升该分类器分类的正确性;
c)用训练好的SVM分类器对未人工分析过的段落进行分析,从而得到未人工分析过的段落的labels。
本特征模型的应用场景如下:
应用场景1:安全报告分类:
a)将全文信息和文本段信息加以结合,比如,将属于同种分类的段落信息整合在一起取平均值,然后将全文信息和每种分类的平均段落信息合在一起构成一个全文的向量;
i.示例:段分类结果:
段落1,段落2属于攻击者信息;
段落2,段落3属于受攻击者信息;
安全报告分类:
攻击者信息向量:(段落1.classify_vector+段落2.classify_vector)/2;
受攻击者信息向量:(段落2.classify_vector+段落3.classify_vector)/2;
全文向量:全文信息拼接上攻击者信息向量拼接上受攻击者信息向量。
b)准备样本数据,按照a)中的全文向量构建测试集,用SVM加以训练;用训练好的SVM分类器进行安全报告的分类。
其中构建测试集如下:
比如现在安全报告有以下分类:APT报告,漏洞报告;
首先人工标注文档1到文档10各自属于哪种分类,然后用SVM分类器对文档1到文档10的全文向量进行训练,得到SVM分类器,用该分类器对未分类的文档11进行训练,就可以得到文档11属于APT报告。
应用场景2:安全信息的摘要提取:
a)该模型建立后,文档中的段落已经有了分类信息;
b)对于每种分类的段落信息,构建一个训练集,训练集中的样本分别属于关注的摘要段落,和不关注的其他段落;
c)根据b)中的训练集对段落进行分类,提取出摘要段落;
对摘要段落使用常用的文本摘要算法,获取出摘要信息。
应用场景2举例说明如下:
文档1中的段落1文档2中的段落1属于攻击者信息
文档1中的段落2文档2中的段落2属于被攻击者信息
文档1中的段落1文档2中的段落2是摘要段落
文档1中的段落2文档2中的段落1不是摘要段落
那么分别构建一个攻击者信息的SVM分类器,一个被攻击者信息的SVM分类器,用攻击者信息的SVM分类器能够判断出文档1中的段落1是摘要段落用被攻击者信息的SVM分类器能够判断出文档2中的段落2是摘要段落。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (4)

1.一种用于网络安全报告的文本特征模型建模方法,其特征在于包括:
步骤1:读取文档,提取文本内容;
步骤2:计算全文信息,即计算段落文本密度和关键词频;根据关键词个数p,计算全文中p个关键词对应的TF-IDF词频;p大于等于1;
步骤3:对全文中的每个段落current_paragraph,计算段信息(pos,len,key_words_extract_array,paragraph_array);将每段的段信息拼接起来,形成该段对应的向量classify_vector;所述步骤3具体过程是:
步骤31:将段落在全文上的位置信息和长度信息计算出来;
步骤32:采用正则表达式的方式,配合地理信息、公司行业信息的词库来进行识别,提取关键字段;然后按照关键字段的类型,统计该类型字段的出现次数,得到一个关键字段的提取次数数组key_words_extract_array;
步骤33:对全文中每个段落都按照Paragraph Vector算法计算对应的段向量paragraph_array;
步骤34:将每段的段信息(pos,len,key_words_extract_array,paragraph_array)拼接,形成该段对应的向量classify_vector;
步骤4:对x篇以上的文档人工分析后进行段类型标注,每个段落标注n个段落分类类型labels;用SVM算法按照段分类类型对向量classify_vector进行多类型分类的训练,得到SVM分类器;用训练好的SVM分类器对未人工分析过的段落进行分析,从而得到未人工分析过段落的段分类类型;其中,段类型标注指的是对文档中的每个段落属于哪些段分类类型进行标注,每个段落的段分类类型labels为m个;m大于等于0。
2.根据权利要求1所述的一种用于网络安全报告的文本特征模型建模方法,其特征在于所述步骤2中段落文本密度计算过程是将全文设置为多个文本块,计算每个文本块中段落的文本量与全文总文本量,得到每个文本块的段落文本密度=每个文本块中所有段落的文本量/全文总文本量。
3.一种用于网络安全报告的文本特征模型建模装置,其特征在于包括:
全文信息计算模块:用于读取文档,提取文本内容;计算全文信息,即计算段落文本密度和关键词频;根据关键词个数p,计算全文中p个关键词对应的TF-IDF词频;p大于等于1;
段信息向量计算模块,用于对全文中的每个段落,计算段信息(pos,len,key_words_extract_array,paragraph_array);将每段的段信息拼接成,形成该段对应的向量classify_vector;具体包括将段落在全文上的位置信息和长度信息计算出来;采用正则表达式的方式,配合地理信息、公司行业信息的词库来进行识别,提取关键字段;然后按照关键字段的类型,统计该类型字段的出现次数,得到一个关键字段的提取次数数组key_words_extract_array;对全文中每个段落都按照Paragraph Vector算法计算对应的段向量paragraph_array;然后将每段的段信息(pos,len,key_words_extract_array,paragraph_array)拼接,形成该段对应的向量classify_vector;
段分类模型建立模块:用于获取段落的段分类类型;对x篇以上的文档人工分析后进行段类型标注,每个段落标注n个段落分类类型labels;用SVM算法按照段分类类型对向量classify_vector进行多类型分类的训练,得到SVM分类器;用训练好的SVM分类器对未人工分析过的段落进行分析,从而得到未人工分析过段落的段分类类型labels;其中,段类型标注指的是对文档中的每个段落属于哪些段分类类型进行标注,每个段落的段分类类型labels为m个;m大于等于0。
4.根据权利要求3所述的一种用于网络安全报告的文本特征模型建模装置,其特征在于所述段落文本密度计算过程是将全文设置为多个文本块,计算每个文本块中段落的文本量与全文总文本量,得到每个文本块的段落文本密度=每个文本块中所有段落的文本量/全文总文本量。
CN201710616406.6A 2017-07-26 2017-07-26 一种用于网络安全报告的文本特征模型建模方法及装置 Active CN107368592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710616406.6A CN107368592B (zh) 2017-07-26 2017-07-26 一种用于网络安全报告的文本特征模型建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710616406.6A CN107368592B (zh) 2017-07-26 2017-07-26 一种用于网络安全报告的文本特征模型建模方法及装置

Publications (2)

Publication Number Publication Date
CN107368592A CN107368592A (zh) 2017-11-21
CN107368592B true CN107368592B (zh) 2020-09-25

Family

ID=60306855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710616406.6A Active CN107368592B (zh) 2017-07-26 2017-07-26 一种用于网络安全报告的文本特征模型建模方法及装置

Country Status (1)

Country Link
CN (1) CN107368592B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569361B (zh) * 2019-09-06 2021-10-19 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN111506588A (zh) * 2020-04-10 2020-08-07 创景未来(北京)科技有限公司 一种提取电子文档关键信息的方法及装置
CN113688232B (zh) * 2021-07-09 2023-10-27 杭州未名信科科技有限公司 招标文本分类方法、装置、存储介质及终端
WO2023192060A1 (en) * 2022-04-01 2023-10-05 Cisco Technology, Inc. Systems and methods for generating attack tactic probabilities for historical text documents

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106250442A (zh) * 2016-07-26 2016-12-21 新疆大学 一种网络安全数据的特征选择方法及系统
CN106326212A (zh) * 2016-08-26 2017-01-11 北京理工大学 一种基于层次深度语义的隐式篇章关系分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160170982A1 (en) * 2014-12-16 2016-06-16 Yahoo! Inc. Method and System for Joint Representations of Related Concepts

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106250442A (zh) * 2016-07-26 2016-12-21 新疆大学 一种网络安全数据的特征选择方法及系统
CN106326212A (zh) * 2016-08-26 2017-01-11 北京理工大学 一种基于层次深度语义的隐式篇章关系分析方法

Also Published As

Publication number Publication date
CN107368592A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN107368592B (zh) 一种用于网络安全报告的文本特征模型建模方法及装置
Yu et al. PBCNN: packet bytes-based convolutional neural network for network intrusion detection
Namanya et al. Similarity hash based scoring of portable executable files for efficient malware detection in IoT
CN106845265B (zh) 一种文档密级自动识别方法
CN105224600B (zh) 一种样本相似度的检测方法及装置
US10187412B2 (en) Robust representation of network traffic for detecting malware variations
CN107273752B (zh) 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法
CN109598124A (zh) 一种webshell检测方法以及装置
CN106485146B (zh) 一种信息处理方法及服务器
CN104009836A (zh) 加密数据检测方法和系统
Savenko et al. Metamorphic Viruses' Detection Technique Based on the Equivalent Functional Block Search.
CN103366120A (zh) 基于脚本的漏洞攻击图生成方法
CN117081858B (zh) 一种基于多决策树入侵行为检测方法、系统、设备及介质
Der et al. Knock it off: profiling the online storefronts of counterfeit merchandise
CN112968872B (zh) 基于自然语言处理的恶意流量检测方法、系统、终端
CN107958154A (zh) 一种恶意软件检测装置及方法
CN104123501A (zh) 一种基于多鉴定器集合的病毒在线检测方法
Iadarola et al. Image-based Malware Family Detection: An Assessment between Feature Extraction and Classification Techniques.
Wang et al. TextDroid: Semantics-based detection of mobile malware using network flows
CN107665164A (zh) 安全数据检测方法和装置
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
Sivakumar et al. Malware Detection Using The Machine Learning Based Modified Partial Swarm Optimization Approach
CN107832611B (zh) 一种动静态特征结合的僵尸程序检测与分类方法
Dong et al. ClassifyDroid: Large scale Android applications classification using semi-supervised Multinomial Naive Bayes
Hubballi et al. Detecting packed executable file: supervised or anomaly detection method?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200803

Address after: 610000 Sichuan Chengdu China (Sichuan) Free Trade Experimental Zone Chengdu High-tech Zone Tianfu Road North 966 Building 1 Unit 14 Building 41401-41406

Applicant after: Chengdu Kelai Network Technology Co., Ltd

Address before: 610041, 966, 4, 1, 13 and 14 building, north section of Tianfu Road, Chengdu hi tech Zone, Sichuan

Applicant before: COLASOFT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 610041 12th, 13th and 14th floors, unit 1, building 4, No. 966, north section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Patentee after: Kelai Network Technology Co.,Ltd.

Address before: 610000 Sichuan Chengdu China (Sichuan) Free Trade Experimental Zone Chengdu High-tech Zone Tianfu Road North 966 Building 1 Unit 14 Building 41401-41406

Patentee before: Chengdu Kelai Network Technology Co.,Ltd.