CN113688240B - 威胁要素提取方法、装置、设备及存储介质 - Google Patents
威胁要素提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113688240B CN113688240B CN202110981833.0A CN202110981833A CN113688240B CN 113688240 B CN113688240 B CN 113688240B CN 202110981833 A CN202110981833 A CN 202110981833A CN 113688240 B CN113688240 B CN 113688240B
- Authority
- CN
- China
- Prior art keywords
- threat
- threat information
- information document
- target
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000011218 segmentation Effects 0.000 claims abstract description 32
- 238000013145 classification model Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000001788 irregular Effects 0.000 claims description 13
- 230000008520 organization Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004140 cleaning Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本申请提供一种威胁要素提取方法、装置、设备及存储介质,涉及安全防护技术领域。该方法包括:采用预设的停用词库和威胁信息词汇库,对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇;采用预设的多分类模型对所述多个目标词汇进行分类处理,得到所述威胁信息文档中包含多种实体类型的分类结果;所述多分类模型为预先采用样本威胁信息文档训练得到的分类模型,所述样本威胁信息文档中所述每种威胁要素所在的位置预先标注有对应的威胁词汇;根据所述多种实体类型的分类结果,分别确定所述威胁信息文档中存在的所述多种实体类型的目标威胁词汇。相对于现有技术,避免了难以保证提取到的实体准确性的问题。
Description
技术领域
本申请涉及安全防护技术领域,具体而言,涉及一种威胁要素提取方法、装置、设备及存储介质。
背景技术
近年来,随着APT攻击事件频发,传统的安全防护技术捉襟见肘,威胁情报技术应运而生。威胁情报交换标准(Structured Threat Information Expression,STIX)格式被安全厂商广泛采用。STIX是由OASIS推出的威胁情报交换标准,在STIX2.0中定义了12种称为STIX Domain Objects(SDOs)的实体,比如攻击模式(Attack Pattern)、应对措施(Course of Action)、威胁指标(Indicator)等,以描述对应类型的威胁信息。对于威胁情报厂商而言,如何从威胁报告中提取STIX元素无疑是至关重要的。
现有技术中一般提取威胁要素的方法为:基于条件随机场算法(conditionalrandom field algorithm,CRF)和BiLSTM,对安全事件进行分析,并对安全事件中的威胁信息的进行提取。
但是这样的提取方法非常依赖词性,以及词与词之间的依存关系,如果威胁信息文档的篇幅不长,或者威胁信息文档中的行文方式不规范,则很难保证提取到的实体的准确性。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种威胁要素提取方法、装置、设备及存储介质,以解决现有技术中很难保证提取到的实体准确性的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请一实施例提供了一种威胁要素提取方法,所述方法包括:对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇;
采用预设的停用词库和威胁信息词汇库,采用预设的多分类模型对所述多个目标词汇进行分类处理,得到所述威胁信息文档中包含多种实体类型的分类结果,其中,每种实体类型的分类结果包括:所述每种实体类型的多种威胁词汇的概率值;所述多分类模型为预先采用样本威胁信息文档训练得到的分类模型,所述样本威胁信息文档中所述每种威胁要素所在的位置预先标注有对应的威胁词汇;
根据所述多种实体类型的分类结果,分别确定所述威胁信息文档中存在的所述多种实体类型的目标威胁词汇。
可选地,所述对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇之前,所述方法还包括:
将所述威胁信息文档中的所有大写文本转换为小写文本。
可选地,所述对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇之前,所述方法还包括:
将所述威胁信息文档中的漏洞编号替换为所述漏洞编号对应的词汇。
可选地,所述对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇之前,所述方法还包括:
将所述威胁信息文档中的无规律文本替换为所述无规律文本对应的词汇。
可选地,所述对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇之前,所述方法还包括:
将所述威胁信息文档中的预设格式文本替换为所述预设格式文本对应的词汇或者删除。
可选地,所述根据所述多种实体类型的分类结果,分别确定所述威胁信息文档中存在的所述多种实体类型的目标威胁词汇,包括:
根据所述每种实体类型的分类结果,确定概率值大于预设阈值的威胁词汇为所述每种实体类型的目标威胁词汇。
可选地,所述多种实体类型包括如下至少两种实体类型:
定向威胁攻击的组织名称、所述定向威胁攻击的攻击手段、所述定向威胁攻击的威胁主体、所述定向威胁攻击的使用工具。
第二方面,本申请另一实施例提供了一种威胁要素提取装置,所述装置包括:分词模块、分类模块和确定模块,其中:
所述分词模块,采用预设的停用词库和威胁信息词汇库,用于对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇;
所述分类模块,用于采用预设的多分类模型对所述多个目标词汇进行分类处理,得到所述威胁信息文档中包含多种实体类型的分类结果,其中,每种实体类型的分类结果包括:所述每种实体类型的多种威胁词汇的概率值;所述多分类模型为预先采用样本威胁信息文档训练得到的分类模型,所述样本威胁信息文档中所述每种威胁要素所在的位置预先标注有对应的威胁词汇;
所述确定模块,用于根据所述多种实体类型的分类结果,分别确定所述威胁信息文档中存在的所述多种实体类型的目标威胁词汇。
可选地,所述装置还包括:转换模块,用于将所述威胁信息文档中的所有大写文本转换为小写文本。
可选地,所述装置还包括:替换模块,用于将所述威胁信息文档中的漏洞编号替换为所述漏洞编号对应的词汇。
可选地,所述替换模块,具体用于将所述威胁信息文档中的无规律文本替换为所述无规律文本对应的词汇。
可选地,所述替换模块,具体用于将所述威胁信息文档中的预设格式文本替换为所述预设格式文本对应的词汇或者删除。
可选地,所述确定模块,具体用于根据所述每种实体类型的分类结果,确定概率值大于预设阈值的威胁词汇为所述每种实体类型的目标威胁词汇。
可选地,所述多种实体类型包括如下至少两种实体类型:定向威胁攻击的组织名称、所述定向威胁攻击的攻击手段、所述定向威胁攻击的威胁主体、所述定向威胁攻击的使用工具。
第三方面,本申请另一实施例提供了一种威胁要素提取设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当威胁要素提取设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述第一方面任一所述方法的步骤。
第四方面,本申请另一实施例提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述第一方面任一所述方法的步骤。
本申请的有益效果是:采用本申请提供的威胁要素提取方法,可以通过预设的停用词库和威胁信息词汇库对威胁信息文档进行分词处理,并对分词后的多个目标词汇进行分类处理,从而确定威胁文档中存在的多种实体类型的目标威胁词汇,这样的确定方式由于各分词后的目标词汇均是根据预设的停用词库和威胁信息词库确定的,因此对于不同的应用场景,可以通过调整不同的预设词汇库的方式,使得分词得到各目标词汇更加符合当前的应用场景,随后在各目标词汇中确定的威胁词汇更加符合当前的应用场景,其准确性更高。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的威胁要素提取方法的流程示意图;
图2为本申请另一实施例提供的威胁要素提取方法的流程示意图;
图3为本申请一实施例提供的威胁要素提取装置的结构示意图;
图4为本申请另一实施例提供的威胁要素提取装置的结构示意图;
图5为本申请一实施例提供的威胁要素提取设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
如下结合多个具体的应用示例,对本申请实施例所提供的一种威胁要素提取方法进行解释说明。图1为本申请一实施例提供的一种威胁要素提取方法的流程示意图,如图1所示,该方法包括:
S101:采用预设的停用词库和威胁信息词汇库,对待提取的威胁信息文档进行分词处理,得到威胁信息文档的多个目标词汇。
在本申请的一个实施例中,预设威胁信息词汇库为预先构建的专有威胁信息词汇库,由于威胁信息的专有词汇很多,因此需要逐个获取威胁信息词汇,并将获取的威胁信息词汇保存在预设的威胁信息词汇库中,其中威胁信息词汇例如可以为定向威胁攻击(Advanced Persistent Threat,APT)组织名称:可以为从整理的软件包名apt_list中获取的专有词汇,其包括了各个安全厂商的命名;也可以恶意软件家族词汇:例如可以为从安全博客中公开的常见恶意软件家族信息中获取的专有词汇;也可以为攻击手段词汇:可以从攻击行为知识库和模型K(Adversarial Tactics,Techniques,and Common Knowledge,ATT&CK)官网中获取攻击方法作为威胁信息的专有词汇;还可以为威胁主体的名称词汇:可以根据攻击目的不同分为不同的威胁主体,各威胁主体的名称即可作为专有词汇;还可以为使用工具的名称词汇:包括漏洞攻击工具、信息收集工具、密码破解工具、远程访问工具、漏洞扫描工具等,分别从安全网站公开整理的工具列表中获取各使用工具,以及平时在威胁分析时整理得到的名称作为专有词汇,应当理解上述实施例仅为示例性说明,具体威胁信息词汇库中包括的词汇类型和来源均可以根据用户需要灵活调整,应当理解上述实施例仅为示例性说明,并不以上述实施例给出的为限。
停用词库中包括的词汇例如可以为结构助词、语气助词、副词等,对于模型的计算结果没有明显作用,甚至如果威胁信息文档中这些无关紧要的停用词过多会影响最终的预测结果,因而需要构建停用词库,以减少威胁信息文档中包括的不必要的,或是对预测结果存在误差的词汇,在一些可能的实施例中,对于不同的应用场景,停用词库也可能不同,从而实现了停用词库更加贴合不同的使用场景,即提高了在不同的使用场景下,均可以对威胁信息文档中的停用词进行减少,从而提高后续预测的准确度,排除一些无关词汇对预测的干扰。
在本申请的实施例中,分词算法例如可以采用自然语言处理算法中的jieba算法,分词时同时配置了预设的停用词库和威胁信息词汇库,威胁信息词汇库的配置可以防止jieba算法将两个本该合并的专有预设危险信息词汇分开,例如对于一些专有预设危险信息词汇“勒索病毒”、“微步在线”,如果不加设置威胁信息词汇库直接根据jieba算法进行分词,则会得到“勒索”+“病毒”、“微步”+“在线”,从而造成在词义上产生歧义的问题,最终影响模型的预测效果,同样停用词的配置同样必不可少,去掉副词和助词,只留下威胁信息文档中的关键词汇,将大大提升后续模型预测的准确率。
S102:采用预设的多分类模型对多个目标词汇进行分类处理,得到威胁信息文档中包含多种实体类型的分类结果。
其中,每种实体类型的分类结果包括:每种实体类型的多种威胁词汇的概率值;多分类模型为预先采用样本威胁信息文档训练得到的分类模型,样本威胁信息文档中每种威胁要素所在的位置预先标注有对应的威胁词汇。
在一些可能的实施例中,不同实体类型的多种威胁词汇的概率值不一定相同,概率值越高,表示当前实体类型越接近威胁词汇,概率值越低,表示当前实体类型越不接近威胁词汇,概率值例如可以为百分数的形式,也可以为整数分值形式,具体概率值的表现方式可以根据用户需要灵活调整,本申请在此不做任何限制。
在本申请的一个实施例中,预设的多分类模型例如可以为基于支持向量机(Support Vector Machine,SVM)的多分类的模型,本质上是基于SVM算法,但是通过python封装的OneVsRestClassifier类方法,从而起到了提高计算效率的作用,采用上述模型在应用过程中,相当于并行利用SVM模型对每个STIX要素进行预测分类。
为提高模型的准确性,在一些可能的实施例中,预设的多分类模型时经过大量的训练样本集训练得到的,本申请中的训练样本集中包括大量威胁信息文档,各威胁信息文档中包含的每一项威胁情报交换标准(Structured Threat Information Expression,STIX)元素的数量都需要尽量平均,因此需要对威胁信息文档中进行筛选,为了提高筛选效率,本申请利用关键词匹配的方法对威胁信息文档进行筛选,进一步的花费少量人工进行核对。具体实现方法是:例如可以通过预设的威胁信息词汇库,与分词后得到的目标词汇进行匹配,得到STIX要素对应的值,保证所有的威胁信息文档中生成的STIX要素的数量相差无几,然后只需要花少量时间核对标注结果,同时对词库和分词器进行调整,得出准确的标注结果即可。
在另一些可能的实施例中,也可以基于决策树、随机森林等机器学习分类算法,实现模型的训练,具体训练算法可以根据用户需要灵活调整,并不以上述实施例给出的为限。
S103:根据多种实体类型的分类结果,分别确定威胁信息文档中存在的多种实体类型的目标威胁词汇。
示例地,在本申请的一个可能的实施例中,例如可以确定概率值高于预设阈值的目标词汇为目标威胁词汇,例如以概率值的表现方式为百分数的形式为例进行说明,且概率阈值为60%,当前威胁信息文档中目标词汇和各目标词汇的概率值分别为木马(70%)、水坑(80%)、漏洞利用(10%)、勒索软件(25%)等,则需要根据概率阈值进一步剔除可信度较低的结果,即保留概率阈值的百分数大于或等于60%的目标词汇,而小于百分之60的目标词汇则剔除,剩余的保留下来的目标词汇即为目标威胁词汇,应当理解上述实施例仅为示例性说明,概率阈值设置的具体数值可以根据用户需要灵活调整,可能不同实体类型对应的概率阈值不相同,也可能不同实体类型对应的概率阈值相同,具体概率阈值的设置方式和设置数值均可以根据用户需要灵活调整,并不以上述实施例给出的为限。
采用本申请提供的威胁要素提取方法,可以通过预设的停用词库和威胁信息词汇库对威胁信息文档进行分词处理,并对分词后的多个目标词汇进行分类处理,从而确定威胁文档中存在的多种实体类型的目标威胁词汇,这样的确定方式由于各分词后的目标词汇均是根据预设的停用词库和威胁信息词库确定的,因此对于不同的应用场景,可以通过调整不同的预设词汇库的方式,使得分词得到各目标词汇更加符合当前的应用场景,随后在各目标词汇中确定的威胁词汇更加符合当前的应用场景,其准确性更高。
示例地,在一些可能的实施例中,S101之前,还需要对威胁信息文档中的数据进行清洗整理,清洗整理的步骤例如可以包括:将威胁信息文档中的所有大写文本转换为小写文本。转换方法例如可以为通过计算机编程语言python文本处理中的lower方法将大写文本统一转化为小写文本,便于后续确定过程中将目标词汇与威胁信息词汇库中的目标威胁词汇进行匹配;应当理解上述实施例仅为示例性说明,也可以将威胁信息文档中的所有小写文本转换为大写文本,只需保证威胁信息文档中的所有文本信息的大小写格式保持一致即可,对应的,若将威胁信息文档中的所有文本转换为大写文本,则威胁信息词汇库中的目标威胁词汇也需要均为大写文本的目标威胁词汇,从未实现后续匹配过程中的一致性,具体可以根据用户需要灵活调整,并不以上述实施例给出的为限。
在另一些可能的实施例中,清洗整理的步骤例如还可以包括:将威胁信息文档中的漏洞编号替换为漏洞编号对应的词汇。例如可以通过正则表达式替换漏洞编号,将漏洞编号替换为预设的对应词汇,例如“漏洞”或“漏洞编号”等,具体可以根据用户需要灵活调整,本申请在此不做任何限制,因为一篇威胁信息文档中可能存在多个漏洞编号,而模型是无法对漏洞编号生成特征的,因而需要先对威胁信息文档中的漏洞编号进行替换,替换为模型可以识别的词汇,后续在识别过程中模型才不会由于无法生成特征的漏洞编号影响后续识别结果。
在另一些可能的实施例中,清洗整理的步骤例如还可以包括:将威胁信息文档中的无规律文本替换为无规律文本对应的词汇。其中,无规律文本例如可以为网络之间互连的协议(Internet Protocol,ip)、网络中独立运行的单位(domain)、统一资源定位系统(uniform resource locator;URL)、散列函数(hash)等文本信息,对于这些信息,模型同样无法提取特征,如果保留其在威胁信息文档中,会影响最终识别结果的准确率;举例说明,例如hash字符,它看起来是一串随机生成的编码,编号之间无明显的依存关系特征,而且在后续的分词处理过程中还容易被拆分成多个部分,改变其原本含义,因此在分词处理之前,需要对威胁信息文档中上述无规律文本进行替换,例如可以预先根据各类型文本信息的特征,对无规律文本中的各类型的文本信息进行预先配置,例如预先配置hash文本的特征,和hash文本对应的预设词汇,预设词汇例如可以为“哈希值”或“哈希文本”;随后在后续正则替换的过程中,若检测到当前文本的特征为预设的hash文本特征,则可以直接将上述hash文本替换为“哈希值”或“哈希文本”等预设词汇,应当理解上述实施例仅为示例性说明,具体正则替换的规则和方式均可以根据用户需要灵活调整,并不以上述实施例给出的为限。
在另一些可能的实施例中,清洗整理的步骤例如还可以包括:将威胁信息文档中的预设格式文本替换为预设格式文本对应的词汇或者删除。其中,预设格式的文本例如可以为预设图片文本、预设程序名称文本、预设文件路径文本等特殊文本,例如在获取威胁信息文档中的数据信息时,难免会获取到如“***.jpg”、“***.exe”等形式的预设格式文本,或获取到“D:\**\**\****”等格式预设路径文本,这些内容明显无法为后续的模型提取提供特征,则在本申请的实施例中,对于上述特殊文本,同样可以通过正则表达式将其替换或者删除。在一些可能的实施例中,例如可以对预设图片文本进行删除替换,对预设格式的文本或预设程序名称或预设文件路径等文本替换为预设的词汇,应当理解上述实施例仅为示例性说明,具体特殊文本包括的文本形式,以及各类型特殊文本对应的替换或删除规则可以根据用户需要灵活调整,并不以上述实施例给出的为限。
可选地,在上述实施例的基础上,本申请实施例还可提供一种威胁要素提取方法,如下结合附图对上述方法中确定目标威胁词汇的实现过程进行示例说明。图2为本申请另一实施例提供的一种威胁要素提取方法的流程示意图,如图2所示,S103可包括:
S104:根据每种实体类型的分类结果,确定概率值大于预设阈值的威胁词汇为每种实体类型的目标威胁词汇。
其中,预设阈值可以根据用户需要灵活调整,应当理解预设阈值越高,得到的目标威胁词汇的准确度越高,预设阈值越低,得到的目标威胁词汇的准确度越低,具体预设阈值的设置可以根据用户需要灵活设置,本申请在此对其不做任何限制。
在本申请的实施例中,多种实体类型包括如下至少两种实体类型:定向威胁攻击的组织名称、定向威胁攻击的攻击手段、定向威胁攻击的威胁主体、定向威胁攻击的使用工具。
采用本申请提供的威胁要素提取方法,由于本申请是基于STIX格式对威胁信息文档进行实体提取,并在分词过程中采用预先构建的STIX要素对应的停用词库和威胁信息词汇库得到的各目标词汇,在此基础上搭建基于SVM的多标签分类模型,能够更加准确快速地提取出威胁信息文档中的目标危险词汇。本申请不但能够作用的STIX要素更多:能够针对至少STIX的12种对象属性进行有效的提取;同时通过关键词匹配的方法标记训练样本,只需要在初期构建完整的停用词库和威胁信息词汇库,就能够极大地节省了人力成本,减少人为标注的错标和漏标情况。
下述结合附图对本申请所提供的威胁要素提取装置进行解释说明,该威胁要素提取装置可执行上述图1-图2任一威胁要素提取方法,其具体实现以及有益效果参照上述,如下不再赘述。
图3为本申请一实施例提供的威胁要素提取装置的结构示意图,如图3所示,该装置包括:分词模块201、分类模块202和确定模块203,其中:
分词模块201,用于采用预设的停用词库和威胁信息词汇库,对待提取的威胁信息文档进行分词处理,得到威胁信息文档的多个目标词汇;
分类模块202,用于采用预设的多分类模型对多个目标词汇进行分类处理,得到威胁信息文档中包含多种实体类型的分类结果,其中,每种实体类型的分类结果包括:每种实体类型的多种威胁词汇的概率值;多分类模型为预先采用样本威胁信息文档训练得到的分类模型,样本威胁信息文档中每种威胁要素所在的位置预先标注有对应的威胁词汇;
确定模块203,用于根据多种实体类型的分类结果,分别确定威胁信息文档中存在的多种实体类型的目标威胁词汇。
可选地,在上述实施例的基础上,本申请实施例还可提供一种威胁要素提取装置,如下结合附图对上述图3给出的装置的实现过程进行示例说明。图4为本申请另一实施例提供的威胁要素提取装置的结构示意图,如图4所示,该装置还包括:转换模块204,用于将威胁信息文档中的所有大写文本转换为小写文本。
如图4所示,该装置还包括:替换模块205,用于将威胁信息文档中的漏洞编号替换为漏洞编号对应的词汇。
可选地,替换模块205,具体用于将威胁信息文档中的无规律文本替换为无规律文本对应的词汇。
可选地,替换模块205,具体用于将威胁信息文档中的预设格式文本替换为预设格式文本对应的词汇或者删除。
可选地,确定模块203,具体用于根据每种实体类型的分类结果,确定概率值大于预设阈值的威胁词汇为每种实体类型的目标威胁词汇。
可选地,多种实体类型包括如下至少两种实体类型:定向威胁攻击的组织名称、定向威胁攻击的攻击手段、定向威胁攻击的威胁主体、定向威胁攻击的使用工具。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图5为本申请一实施例提供的威胁要素提取设备的结构示意图,该威胁要素提取设备可以集成于终端设备或者终端设备的芯片。
该威胁要素提取设备包括:处理器501、存储介质502和总线503。
处理器501用于存储程序,处理器501调用存储介质502存储的程序,以执行上述图1-图2对应的方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种程序产品,例如存储介质,该存储介质上存储有计算机程序,包括程序,该程序在被处理器运行时执行上述方法对应的实施例。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种威胁要素提取方法,其特征在于,所述方法包括:
采用预设的停用词库和威胁信息词汇库,对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇;其中,对于不同的应用场景,所述停用词库也不同;所述威胁信息文档中包含威胁情报交换标准STIX元素,通过所述威胁信息词汇库与分词后得到的所述目标词汇进行匹配,得到STIX要素对应的值;
采用预设的多分类模型对所述多个目标词汇进行分类处理,得到所述威胁信息文档中包含多种实体类型的分类结果,其中,每种实体类型的分类结果包括:所述每种实体类型的多种威胁词汇的概率值;所述多分类模型为预先采用样本威胁信息文档训练得到的分类模型,所述样本威胁信息文档中每种威胁要素所在的位置预先标注有对应的威胁词汇;
根据所述多种实体类型的分类结果,分别确定所述威胁信息文档中存在的所述多种实体类型的目标威胁词汇。
2.如权利要求1所述的方法,其特征在于,所述对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇之前,所述方法还包括:
将所述威胁信息文档中的所有大写文本转换为小写文本。
3.如权利要求1所述的方法,其特征在于,所述对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇之前,所述方法还包括:
将所述威胁信息文档中的漏洞编号替换为所述漏洞编号对应的词汇。
4.如权利要求1所述的方法,其特征在于,所述对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇之前,所述方法还包括:
将所述威胁信息文档中的无规律文本替换为所述无规律文本对应的词汇。
5.如权利要求1所述的方法,其特征在于,所述对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇之前,所述方法还包括:
将所述威胁信息文档中的预设格式文本替换为所述预设格式文本对应的词汇或者删除。
6.如权利要求1所述的方法,其特征在于,所述根据所述多种实体类型的分类结果,分别确定所述威胁信息文档中存在的所述多种实体类型的目标威胁词汇,包括:
根据所述每种实体类型的分类结果,确定概率值大于预设阈值的威胁词汇为所述每种实体类型的目标威胁词汇。
7.如权利要求1所述的方法,其特征在于,所述多种实体类型包括如下至少两种实体类型:
定向威胁攻击的组织名称、所述定向威胁攻击的攻击手段、所述定向威胁攻击的威胁主体、所述定向威胁攻击的使用工具。
8.一种威胁要素提取装置,其特征在于,所述装置包括:分词模块、分类模块和确定模块,其中:
所述分词模块,用于采用预设的停用词库和威胁信息词汇库,对待提取的威胁信息文档进行分词处理,得到所述威胁信息文档的多个目标词汇;其中,对于不同的应用场景,所述停用词库也不同;所述威胁信息文档中包含威胁情报交换标准STIX元素,通过所述威胁信息词汇库与分词后得到的所述目标词汇进行匹配,得到STIX要素对应的值;
所述分类模块,用于采用预设的多分类模型对所述多个目标词汇进行分类处理,得到所述威胁信息文档中包含多种实体类型的分类结果,其中,每种实体类型的分类结果包括:所述每种实体类型的多种威胁词汇的概率值;所述多分类模型为预先采用样本威胁信息文档训练得到的分类模型,所述样本威胁信息文档中每种威胁要素所在的位置预先标注有对应的威胁词汇;
所述确定模块,用于根据所述多种实体类型的分类结果,分别确定所述威胁信息文档中存在的所述多种实体类型的目标威胁词汇。
9.一种威胁要素提取设备,其特征在于,所述设备包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述威胁要素提取设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110981833.0A CN113688240B (zh) | 2021-08-25 | 2021-08-25 | 威胁要素提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110981833.0A CN113688240B (zh) | 2021-08-25 | 2021-08-25 | 威胁要素提取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688240A CN113688240A (zh) | 2021-11-23 |
CN113688240B true CN113688240B (zh) | 2024-01-30 |
Family
ID=78582472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110981833.0A Active CN113688240B (zh) | 2021-08-25 | 2021-08-25 | 威胁要素提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688240B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330331B (zh) * | 2021-12-27 | 2022-09-16 | 北京天融信网络安全技术有限公司 | 一种链接中分词重要度确定方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536801A (zh) * | 2018-04-03 | 2018-09-14 | 中国民航大学 | 一种基于深度学习的民航微博安保舆情情感分析方法 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN111435375A (zh) * | 2018-12-25 | 2020-07-21 | 南京知常容信息技术有限公司 | 一种基于FastText的威胁情报自动化标注方法 |
CN112818126A (zh) * | 2021-04-16 | 2021-05-18 | 北京智源人工智能研究院 | 网络安全语料库构建模型的训练方法、应用方法及装置 |
-
2021
- 2021-08-25 CN CN202110981833.0A patent/CN113688240B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536801A (zh) * | 2018-04-03 | 2018-09-14 | 中国民航大学 | 一种基于深度学习的民航微博安保舆情情感分析方法 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN111435375A (zh) * | 2018-12-25 | 2020-07-21 | 南京知常容信息技术有限公司 | 一种基于FastText的威胁情报自动化标注方法 |
CN112818126A (zh) * | 2021-04-16 | 2021-05-18 | 北京智源人工智能研究院 | 网络安全语料库构建模型的训练方法、应用方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113688240A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Enhancing state-of-the-art classifiers with api semantics to detect evolved android malware | |
US20220197923A1 (en) | Apparatus and method for building big data on unstructured cyber threat information and method for analyzing unstructured cyber threat information | |
EP3819785A1 (en) | Feature word determining method, apparatus, and server | |
US11212297B2 (en) | Access classification device, access classification method, and recording medium | |
KR101893090B1 (ko) | 취약점 정보 관리 방법 및 그 장치 | |
KR101874373B1 (ko) | 난독화 스크립트에 대한 악성 스크립트 탐지 방법 및 그 장치 | |
US11580222B2 (en) | Automated malware analysis that automatically clusters sandbox reports of similar malware samples | |
CN111800404B (zh) | 一种对恶意域名的识别方法、装置以及存储介质 | |
CN111869176B (zh) | 用于恶意软件签名生成的系统和方法 | |
KR102516454B1 (ko) | Url 클러스터링을 위한 url의 요약을 생성하는 방법 및 장치 | |
CN115730313A (zh) | 一种恶意文档检测方法、装置、存储介质及设备 | |
JP5731361B2 (ja) | 文字列変換方法及び文字列変換プログラム | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
WO2016093839A1 (en) | Structuring of semi-structured log messages | |
CN114386511A (zh) | 基于多维度特征融合和模型集成的恶意软件家族分类方法 | |
RU2759087C1 (ru) | Способ и система статического анализа исполняемых файлов на основе предиктивных моделей | |
Abaimov et al. | A survey on the application of deep learning for code injection detection | |
CN115455416A (zh) | 一种恶意代码检测方法、装置、电子设备及存储介质 | |
CN116149669A (zh) | 一种基于二进制文件的软件成分分析方法、装置以及介质 | |
KR101863569B1 (ko) | 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치 | |
CN116414976A (zh) | 文档检测方法、装置及电子设备 | |
KR101893029B1 (ko) | 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치 | |
CN112597498A (zh) | 一种webshell的检测方法、系统、装置及可读存储介质 | |
CN111159111A (zh) | 一种信息处理方法、设备、系统和计算机可读存储介质 | |
WO2022201309A1 (ja) | 情報補完装置、情報補完方法、及びコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |