CN116775889A - 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质 - Google Patents

基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN116775889A
CN116775889A CN202311070448.6A CN202311070448A CN116775889A CN 116775889 A CN116775889 A CN 116775889A CN 202311070448 A CN202311070448 A CN 202311070448A CN 116775889 A CN116775889 A CN 116775889A
Authority
CN
China
Prior art keywords
information
entity
token
threat
attack pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311070448.6A
Other languages
English (en)
Other versions
CN116775889B (zh
Inventor
李锟
杨大路
刘志宏
翟湛鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianji Youmeng Zhuhai Technology Co ltd
Original Assignee
Tianji Youmeng Zhuhai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianji Youmeng Zhuhai Technology Co ltd filed Critical Tianji Youmeng Zhuhai Technology Co ltd
Priority to CN202311070448.6A priority Critical patent/CN116775889B/zh
Publication of CN116775889A publication Critical patent/CN116775889A/zh
Application granted granted Critical
Publication of CN116775889B publication Critical patent/CN116775889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质,涉及网络安全领域。该方法包括将来自多个信息源的文本信息进行聚合;从聚合后的文本中提取失陷指标实体信息;将聚合后的文本转换为令牌向量表示,将令牌向量表示输入实体识别模型和攻击模式识别模型得到实体类别信息和攻击模式识别信息;将实体类别信息输入知识库中,通过规则匹配算法搜索文本中与知识库中的实体相匹配的信息,确定实体在文本中的位置信息;将攻击模式识别信息与预定义标准建立映射,确定攻击模式符合的标准;将上述信息组合为威胁情报信息并输出。本发明实现了自动化的威胁情报提取和分析,提高了情报分析效率。

Description

基于自然语言处理的威胁情报自动提取方法、系统、设备和存 储介质
技术领域
本发明涉及网络安全领域,尤其涉及基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质。
背景技术
随着信息技术的不断发展,网络空间中的威胁与风险日益增加。企业和组织必须对威胁情报进行有效的获取和分析,才能够及时识别已发生的入侵,并对未来威胁态势进行有效预判,对企业关键基础设施和数据资产的安全防护具有重要的意义。
然而,威胁情报往往存在数据量众多、来源多样和结构复杂的特点。特别是在大数据场景下,威胁情报的获取和分析是一项艰巨而复杂的任务。现有的威胁情报提取分析普遍存在系统使用复杂、数据处理自动化程度不高、情报分析准确性较低等问题,严重影响着威胁情报获取和分析的效率。
发明内容
为了解决现有技术中的威胁情报信息提取方法存在的问题,本发明提供了如下技术方案。
本发明在第一方面提供了一种基于自然语言处理的威胁情报自动提取方法,包括:
将来自多个信息源的文本信息进行聚合;
基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息;
利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息;
将所述实体类别信息输入知识库中,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果,所述知识库匹配结果包括实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息;
将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息;将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准;
将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息;
输出所述威胁情报信息。
优选地,所述多个信息源包括社交媒体、新闻、网页和文本文档。
优选地,在将来自多个信息源的文本信息进行聚合之后,进一步包括:
通过预处理过程将聚合后的文本信息进行格式转换。
优选地,所述失陷指标实体信息中的失陷指标类型包括位置、漏洞、身份、网络地址、电子邮件、域名、链接和散列信息,所述提取失陷指标实体信息,进一步包括:
为每一种类型的失陷指标编写相应的正则规则,通过该正则规则来提取相应类型的失陷指标实体信息。
优选地,所述将聚合后的文本信息转换为令牌向量表示,进一步包括:
将输入序列通过字节对编码处理,得到字节对编码令牌序列;
将所述字节对编码令牌序列输入XLM-RoBERTa语言模型中,得到每个令牌的隐状态;
然后将所述隐状态输入双向长短期记忆网络BiLSTM中,得到每个令牌在序列中的双向向量表示,所述双向向量表示包括一个前向序列的令牌向量和一个反向序列的令牌向量;
将所述前向序列的令牌向量、所述令牌的隐状态以及反向序列的令牌向量进行依次拼接,输出令牌向量表示。
优选地,所述实体类别信息包括工具、恶意软件和威胁行为体,并且所述将所述令牌向量表示输入实体识别模型得到实体提取结果,进一步包括:
利用所述令牌表示模型进行令牌向量化处理,得到所述令牌向量表示;
将所述令牌向量表示输入跨度表示模型,为每个令牌添加开始和结束的位置信息,得到跨度令牌表示;
将所述跨度令牌表示输入线性层,计算该令牌属于每个类别的概率;
通过Softmax层将所述线性层的输出进行归一化,以确定所述实体类别信息。
优选地,将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息,进一步包括:
将所述令牌向量表示输入DropOut层,进行正则化操作;
通过线性层进行攻击模式分类,得到攻击模式识别信息。
优选地,所述预定义标准为MITRE ATT&CK,并且所述将攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准,进一步包括:
将所述攻击模式识别信息通过XLM-RoBERTa语言模型进行向量化,得到第一令牌向量;
将所述MITRE ATT&CK中的每个标准的描述通过所述XLM-RoBERTa进行向量化,得到第二令牌向量;
将第一令牌向量和第二令牌向量通过池化操作进行平均,分别得到第一平均令牌向量和第二平均令牌向量,并将两个平均令牌向量取差;
将两个平均令牌向量的差值依次输入线性层和分类器,得到分类结果得分;
将所有标准中得分最高的标准作为所述攻击模式识别信息所属的标准。
本发明在第二方面提供了一种基于自然语言处理的威胁情报自动提取系统,包括:
信息聚合模块,用于将来自多个信息源的文本信息进行聚合;
威胁情报信息提取模块,用于对所述聚合后的文本信息进行自然语言处理,并自动提取威胁情报信息,所述威胁情报信息提取模块进一步包括:
失陷指标提取模块,用于基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息;
实体提取模块,用于利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息;
攻击模式提取模块,用于将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息;
知识库,用于根据所述实体类别信息,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果,所述知识库匹配结果包括实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息;
TTP映射模块,用于将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准;
合并模块,用于将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息,并输出所述威胁情报信息。
本发明另一方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序代码,所述处理器用于读取所述计算机程序代码并执行前述第一方面的基于自然语言处理的威胁情报自动提取方法。
本发明又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序代码,所述计算机程序代码可被处理器加载和执行,以执行前述第一方面的基于自然语言处理的威胁情报自动提取方法。
本发明的有益效果是:本发明的威胁情报自动提取方法、系统、设备和存储介质,将STIX 2.1标准与自然语言处理技术相结合,从不同来源的信息中自动提取威胁情报,并通过自然语言处理技术来理解和分析威胁情报,实现了自动化的威胁情报提取和分析,提升了情报信息提取的自动化程度,显著提高了情报分析的效率。本发明的威胁情报自动提取系统具有高度的可扩展性和灵活性,可以适应不同类型和规模的企业和组织的需求。
附图说明
图1是本发明所述的基于自然语言处理的威胁情报自动提取方法的流程图。
图2是本发明所述的威胁情报自动提取系统的模块图。
图3是本发明所述的令牌向量表示模型的结构示意图。
图4是本发明所述的实体提取模型的结构示意图。
图5是本发明所述的攻击模式提取模型的结构示意图。
图6是本发明所述的TTP映射模块的数据处理流程示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
STIX(Structured Threat Information Expression,结构化威胁信息表达)是一种描述网络威胁信息的结构化语言,能够以标准化和结构化的方式获取更广泛的网络威胁信息。本发明提出了一种基于STIX 2.1标准并结合自然语言处理技术的威胁情报自动提取方法、系统、设备和存储介质,从不同来源的信息中自动提取威胁情报,包括社交媒体、黑市论坛、威胁情报共享平台等,并通过自然语言处理技术,协助企业和组织的情报分析人员更好地理解和分析威胁情报,从而采取有效的应对措施,保障其信息安全。该系统具有高度的可扩展性和灵活性,可以适应不同类型和规模的企业和组织的需求。
图1是本发明所述的基于自然语言处理的威胁情报自动提取方法的流程图。如图1所示,本发明第一方面提供了一种基于自然语言处理的威胁情报自动提取方法,包括:
步骤101、将来自多个信息源的文本信息进行聚合。
本发明的威胁情报自动提取系统总体架构如图2所示。威胁情报自动提取系统主要包括信息聚合模块(Cyber Threat Intelligence,CTI)、信息预处理模块(Preprocess)和威胁情报信息提取模块(Extraction)。其中信息聚合模块(Cyber ThreatIntelligence,CTI)可以用于将多个信息源的不同格式的文本信息进行聚合。所述信息来源可以包括社交媒体(例如推特(Tweets)、博客(Blogs))、新闻(News)、网页(HTML)、文本文档(包括PDF)等。
在优选的实施例中,所述步骤101进一步包括:步骤111:将聚合后的文本信息进行格式转换。不同信息源的信息格式各不相同,威胁情报自动提取系统的信息预处理模块(Preprocess)可以用于将聚合后的信息进行格式转换,包括将HTML、PDF等格式的信息转换为文本信息,便于对统一格式的信息进行分析处理。步骤102、基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息。所述威胁情报信息提取模块(Extraction)用于将STIX 2.1域对象(SDO)信息从预处理之后的文本中提取处理。
参见图2,Extraction模块包括失陷指标(Indicators of Compromise,IOC)提取模块(IOC Extractor)、实体提取模块(Entity Extractor)、知识库(Knowledge Base)、攻击模式提取模块(Attack Pattern Extractor)、TTP映射模块(TTP Mapper)和合并模块(merge)。
其中,失陷指标提取模块(IOC Extractor)针对链接(URL)、域名(Domain)等失陷指标IOC进行提取。实体提取模块(Entity Extractor)主要对工具(TOOL)和威胁行为体(Threat Actor)等实体进行提取。知识库(Knowledge Base)是用于存储所收集的TOOL、Threat Actor等SDO实体知识库。攻击模式提取模块(Attack Pattern Extractor)主要用于进行攻击模式(Attack Pattern)的提取。TTP映射模块(TTP Mapper)主要用于将攻击模式映射到相应的MITRE ATT&CK标准,最终确定攻击模式所符合的标准。
其中所述失陷指标提取模块所提取的IOC实体的IOC类型主要包括:位置(Location)、漏洞(Vulnerability)、身份(Identity)、网络地址(IPv4、IPv6)、电子邮件(Email)、域名(Domain)、链接(URL)、散列信息(如SHA1、SHA256)等可利用规则提取的实体。上述IOC实体由于其结构的特殊性,可以使用正则规则提取。针对特定威胁情报厂商的报告,在报告结尾部分中将提供一些特定类型的IOC。每个类型的IOC通常会使用一些通用的结构,如此可以使用特定的规则。本发明针对每一种IOC编写相应的正则规则,用于提取每一种类型的IOC。本发明的威胁情报自动提取系统通过灵活应用IOC Extractor进行实体提取。
步骤103、利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息,将所述实体类别信息输入知识库中,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果,所述知识库匹配结果包括实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息。
所述信息预处理模块与令牌表示模型(Token Representation)相连接。所述实体提取模块和攻击模式提取模块均使用所述令牌表示模型的处理结果。所述令牌表示模型结构如图3所示,用于进行令牌(token)的向量化,该结构主要包括字节对编码器(Byte PairEncoder,BPE)、XLM-RoBERTa语言模型、双向长短期记忆网络(BiLSTM)三部分。
其中BPE(Byte Pair Encoder)是字节对编码器,又称双字母组合编码(digramcoding),是一种数据压缩算法,用来在固定大小的词表中实现可变长度的子词(subword)。XLM-RoBERTa是在RoBERTa基础上,在经过滤的2.5TB的公共爬取数据集上训练的大规模多语种语言模型。BiLSTM是一个双向的长短期记忆网络(LSTM)计算,考虑序列上下文信息。
在优选的实施例中,所述步骤103进一步包括:步骤131:所述令牌表示模型首先将输入序列(Input Sequence)通过BPE处理,得到如图3中所示的BPE令牌序列BPE TokenSequence;步骤132:将BPE Token Sequence输入XLM-RoBERTa模型中,得到XLM-RoBERTa模型输出的每个token的隐状态;步骤133:将隐状态输入BiLSTM中,得到token在序列中的双向向量表示,即一个前向序列的token向量和一个反向序列的token向量;步骤134:将token前向向量、token的隐状态以及token的反向向量进行依次拼接,作为token的最终表示。
所述实体提取模块(Entity Extractor)使用如图4所示的分类模型结构进行实体提取,实体类别包含工具(TOOL)、恶意软件(Malware)、威胁行为体(Threat Actor)等。通过预先获取一部分威胁情报资源,由安全情报分析人员进行人工实体标注,将标注完成的数据进行预处理,预处理主要将token进行BPE编码,将得到的子词(subword)与对应的实体类别进行对应,通过实体识别(Entity Recognition)模型进行训练,得到实体提取模型。
图4所示的分类模型由令牌表示模型(Token Representation)、跨度表示模型(Span Representation)、线性层(Linear)和Softmax层组成,模型首先通过上述令牌表示模型进行token向量化,然后输入Span Representation,为每个token添加开始和结束的位置信息,得到跨度令牌表示,然后输入线性层Linear获取跨度令牌表示属于每个类别的概率,通过Softmax层将所述线性层的输出进行归一化,以确定所述实体类别信息。
其中所述跨度表示模型是用于将token的向量化扩展到span(i, j),即第i个token到第j个token的向量化。
其中,;H是通过Token Representation模型获得的token向量。Ws和We是带有参数的矩阵。Hs和He是分别表示将token作为实体开始位置和结束位置的向量的矩阵。
利用上述和/>,最终得到span(i, j):
其中表示Hs矩阵中的第i行,/>表示He矩阵中的第j行。Di,j表示跨度(j-i)的向量表示。
所述知识库(Knowledge Base)存储有大量的实体名称,包括工具(TOOL)、恶意软件(Malware)、威胁行为体(Threat Actor)类型,通过高效的基于规则匹配的搜索方式获取搜索聚合后的文本信息中与所述知识库中的实体相匹配的信息,并输出实体在文本中的位置信息。
步骤104、将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息,将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准。
所述攻击模式(Attack Pattern)是一种战术(Tactics)、技术(Technique)、过程(Procedure)(TTP),描述了攻击者试图破坏目标的方法。攻击模式用于对攻击进行分类,将特定的攻击归类为它们所遵循的模式,并提供关于如何执行攻击的详细信息。不同于其他的实体,攻击模式在提取方面是更长的连续文本,不能表示为单独的命名实体,而是网络威胁所采取的行动,所以不适合与上述实体提取模块(Entity Extractor)一起使用。所述攻击模式提取模块(Attack Pattern Extractor)将对攻击模式的提取视为token分类,将每个token作为是否是Attack Pattern一部分进行分类。对数据集中的Attack Pattern进行标注,将标注后的数据集进行token分类训练,得到适合Attack Pattern的分类模型。
所述攻击模式提取模块使用如图5所示的攻击模式识别模型,该模型主要包括令牌表示模型(Token Representation)、DropOut层、线性层(Linear),针对输入序列,首先通过所述令牌表示模型进行令牌化表示,获取token的向量,然后进行DropOut操作进行正则化,然后在Linear层进行攻击模式分类。
所述TTP映射模块(TTP Mapper)用于使用如图6所示的过程,对Attack Pattern与MITRE ATT&CK标准进行预测,将得分最高的标准作为Attack Pattern所属的标准。将Attack Pattern与MITRE ATT&CK映射的方式抽象为Attack Pattern是否属于MITRE ATT&ACK的分类问题。
在优选的实施例中,所述步骤104进一步包括:步骤141:将Attack Pattern通过XLM-RoBERTa语言模型进行向量化,得到第一令牌向量;步骤142:将MITRE ATT&CK中的每个标准的描述通过XLM-RoBERTa语言模型进行向量化,得到第二令牌向量;步骤143:将向量化的token即第一令牌向量和第二令牌向量通过池化操作(Pooling)进行平均,分别得到第一平均令牌向量和第二平均令牌向量u和v,并将两个平均令牌向量取差u-v;步骤144:将差值u-v依次输入线性层(Linear)和分类器(Classifier)进行运算,得到分类结果得分;步骤145:将所有标准中得分最高的标准作为Attack Pattern所属的标准。
具体地,所述TTP映射模块预先标注数据集,将Attack Pattern和MITRE ATT&CK的标准进行精确匹配,然后将该Attack Pattern与MITRE ATT&CK的其他标准进行配对作为错误示例,将数据集输入图5所示的模型训练,得到适合本模块的模型。当进行AttackPattern匹配时,将Attack Pattern与每一个MITRE ATT&CK输入模型中,将得分最高的标准作为Attack Pattern所属的标准。
步骤105、将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息。利用所述威胁情报提取模块中的合并模块(merge),将提取的实体信息进行合并输出,包括IOC实体信息、安全实体信息以及Attack Pattern所属的标准。
可以看出,通过本发明的基于自然语言处理的威胁情报自动提取方法,将STIX2.1标准与自然语言处理技术相结合,从不同来源的信息中自动提取威胁情报,并通过自然语言处理技术来理解和分析威胁情报,实现了自动化的威胁情报提取和分析,提升了情报信息提取的自动化程度,显著提高了情报分析的效率。系统具有高度的可扩展性和灵活性,可以适应不同类型和规模的企业和组织的需求。
本发明的第二方面还包括与前述实施例的基于自然语言处理的威胁情报自动提取方法完全对应一致的功能模块架构,即提供了一种基于自然语言处理的威胁情报自动提取系统,包括:信息聚合模块,用于将来自多个信息源的文本信息进行聚合;威胁情报信息提取模块,用于对所述聚合后的文本信息进行自然语言处理,并自动提取威胁情报信息,所述威胁情报信息提取模块进一步包括:失陷指标提取模块,用于基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息;实体提取模块,用于利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息;攻击模式提取模块,用于将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息;知识库,用于根据所述实体类别信息,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的信息,确定实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息;TTP映射模块,用于将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准;合并模块,用于将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息,并输出所述威胁情报信息。
上述威胁情报自动提取系统可通过上述第一方面的实施例提供的基于自然语言处理的威胁情报自动提取方法实现,具体的实现方式可以参见第一方面的实施例中的描述,在此不再赘述。
本发明还提供了一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序代码,所述处理器用于读取所述计算机程序代码并执行前述实施例中的基于自然语言处理的威胁情报自动提取方法。其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂时性计算机可读存储介质,可用于存储非暂时性软件程序、非暂时性计算机可执行程序以及模块,如本申请实施例中的基于自然语言处理的威胁情报自动提取方法所对应的程序指令/模块。处理器通过运行存储在存储器中的非暂时性软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,所述存储程序区可存储操作系统、至少一个功能所需要的应用程序;而所述存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂时性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂时性固态存储器件。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM,或本技术领域内所公知的任意其它形式的存储介质。在一些实施例中,存储器可选地包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于,互联网、企业内部网、局域网、移动通信网及其组合。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可以对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,如果本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种基于自然语言处理的威胁情报自动提取方法,其特征在于,包括:
将来自多个信息源的文本信息进行聚合;
基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息;
利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息;
将所述实体类别信息输入知识库中,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果,所述知识库匹配结果包括实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息;
将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息;将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准;
将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息;
输出所述威胁情报信息。
2.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,所述多个信息源包括社交媒体、新闻、网页和文本文档。
3.根据权利要求2所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,在将来自多个信息源的文本信息进行聚合之后,进一步包括:
通过预处理过程将聚合后的文本信息进行格式转换。
4.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,所述失陷指标实体信息中的失陷指标类型包括位置、漏洞、身份、网络地址、电子邮件、域名、链接和散列信息,所述提取失陷指标实体信息,进一步包括:
为每一种类型的失陷指标编写相应的正则规则,通过该正则规则来提取相应类型的失陷指标实体信息。
5.根据权利要求1所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,所述将聚合后的文本信息转换为令牌向量表示,进一步包括:
将输入序列通过字节对编码处理,得到字节对编码令牌序列;
将所述字节对编码令牌序列输入XLM-RoBERTa语言模型中,得到每个令牌的隐状态;
然后将所述隐状态输入双向长短期记忆网络BiLSTM中,得到每个令牌在序列中的双向向量表示,所述双向向量表示包括一个前向序列的令牌向量和一个反向序列的令牌向量;
将所述前向序列的令牌向量、所述令牌的隐状态以及反向序列的令牌向量进行依次拼接,输出令牌向量表示。
6.根据权利要求5所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,所述实体类别信息包括工具、恶意软件和威胁行为体,并且所述将所述令牌向量表示输入实体识别模型得到实体提取结果,进一步包括:
利用所述令牌表示模型进行令牌向量化处理,得到所述令牌向量表示;
将所述令牌向量表示输入跨度表示模型,为每个令牌添加开始和结束的位置信息,得到跨度令牌表示;
将所述跨度令牌表示输入线性层,计算该令牌属于每个类别的概率;
通过Softmax层将所述线性层的输出进行归一化,以确定所述实体类别信息。
7.根据权利要求5所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息,进一步包括:
将所述令牌向量表示输入DropOut层,进行正则化操作;
通过线性层进行攻击模式分类,得到攻击模式识别信息。
8.根据权利要求5所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,
所述预定义标准为MITRE ATT&CK,并且所述将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准,进一步包括:
将所述攻击模式识别信息通过XLM-RoBERTa语言模型进行向量化,得到第一令牌向量;
将所述MITRE ATT&CK中的每个标准的描述通过所述XLM-RoBERTa语言模型进行向量化,得到第二令牌向量;
将第一令牌向量和第二令牌向量通过池化操作进行平均,分别得到第一平均令牌向量和第二平均令牌向量,并将两个平均令牌向量取差;
将两个平均令牌向量的差值依次输入线性层和分类器,得到分类结果得分;
将所有标准中得分最高的标准作为所述攻击模式识别信息所属的标准。
9.一种基于自然语言处理的威胁情报自动提取系统,用于执行根据权利要求1-8的任一项所述的基于自然语言处理的威胁情报自动提取方法,其特征在于,包括:
信息聚合模块,用于将来自多个信息源的文本信息进行聚合;
威胁情报信息提取模块,用于对所述聚合后的文本信息进行自然语言处理,并自动提取威胁情报信息,所述威胁情报信息提取模块进一步包括:
失陷指标提取模块,用于基于正则规则从所述聚合后的文本信息中提取失陷指标实体信息;
实体提取模块,用于利用令牌表示模型将聚合后的文本信息转换为令牌向量表示,将所述令牌向量表示输入实体识别模型得到实体提取结果,所述实体提取结果包括实体类别信息;
攻击模式提取模块,用于将所述令牌向量表示输入攻击模式识别模型,得到攻击模式识别信息;
知识库,用于根据所述实体类别信息,通过规则匹配算法搜索聚合后的文本信息中与所述知识库中的实体相匹配的知识库匹配结果,所述知识库匹配结果包括实体在文本中的位置信息,根据实体提取结果和知识库匹配结果得到安全实体信息;
TTP映射模块,用于将所述攻击模式识别信息与预定义标准建立映射,以确定攻击模式符合的标准;
合并模块,用于将所述失陷指标实体信息、所述安全实体信息以及所述攻击模式及其符合的标准组合为威胁情报信息,并输出所述威胁情报信息。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序代码,所述处理器用于读取所述计算机程序代码并执行根据权利要求1至8中任一项所述的基于自然语言处理的威胁情报自动提取方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序代码,所述计算机程序代码可被处理器加载和执行,以执行根据权利要求1至8中任一项所述的基于自然语言处理的威胁情报自动提取方法。
CN202311070448.6A 2023-08-24 2023-08-24 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质 Active CN116775889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311070448.6A CN116775889B (zh) 2023-08-24 2023-08-24 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311070448.6A CN116775889B (zh) 2023-08-24 2023-08-24 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN116775889A true CN116775889A (zh) 2023-09-19
CN116775889B CN116775889B (zh) 2023-10-20

Family

ID=87986380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311070448.6A Active CN116775889B (zh) 2023-08-24 2023-08-24 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116775889B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9985982B1 (en) * 2015-12-21 2018-05-29 Cisco Technology, Inc. Method and apparatus for aggregating indicators of compromise for use in network security
US20180159876A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Consolidating structured and unstructured security and threat intelligence with knowledge graphs
US20200327223A1 (en) * 2019-04-09 2020-10-15 International Business Machines Corporation Affectedness scoring engine for cyber threat intelligence services
US20220070182A1 (en) * 2020-09-03 2022-03-03 Secureworks Corp. Systems and methods for identifying attack patterns or suspicious activity in client networks
CN115759081A (zh) * 2022-11-09 2023-03-07 北京计算机技术及应用研究所 一种基于短语相似度的攻击模式抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9985982B1 (en) * 2015-12-21 2018-05-29 Cisco Technology, Inc. Method and apparatus for aggregating indicators of compromise for use in network security
US20180159876A1 (en) * 2016-12-05 2018-06-07 International Business Machines Corporation Consolidating structured and unstructured security and threat intelligence with knowledge graphs
US20200327223A1 (en) * 2019-04-09 2020-10-15 International Business Machines Corporation Affectedness scoring engine for cyber threat intelligence services
US20220070182A1 (en) * 2020-09-03 2022-03-03 Secureworks Corp. Systems and methods for identifying attack patterns or suspicious activity in client networks
CN115759081A (zh) * 2022-11-09 2023-03-07 北京计算机技术及应用研究所 一种基于短语相似度的攻击模式抽取方法

Also Published As

Publication number Publication date
CN116775889B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Namanya et al. Similarity hash based scoring of portable executable files for efficient malware detection in IoT
CN112989348B (zh) 攻击检测方法、模型训练方法、装置、服务器及存储介质
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
CN112989831B (zh) 一种应用在网络安全领域的实体抽取方法
CN111181922A (zh) 一种钓鱼链接检测方法及系统
CN113656805A (zh) 一种面向多源漏洞信息的事件图谱自动构建方法及系统
CN114398477A (zh) 基于知识图谱的政策推荐方法及其相关设备
CN116450844A (zh) 面向非结构化数据的威胁情报实体关系抽取方法
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
CN105790967A (zh) 一种网络日志处理方法和装置
CN117729003A (zh) 基于机器学习的威胁情报可信分析系统及方法
CN116070248B (zh) 一种用于保证电力数据安全的数据处理系统及方法
CN115757837B (zh) 知识图谱的置信度评估方法、装置、电子设备及介质
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets
CN116775889B (zh) 基于自然语言处理的威胁情报自动提取方法、系统、设备和存储介质
CN113656466B (zh) 保单数据查询方法、装置、设备及存储介质
CN115859273A (zh) 一种数据库异常访问的检测方法、装置、设备及存储介质
CN112561538B (zh) 风险模型创制方法、装置、计算机设备及可读存储介质
CN115344563A (zh) 数据去重方法及装置、存储介质、电子设备
CN114064905A (zh) 网络攻击检测方法、装置、终端设备、芯片及存储介质
CN112733144A (zh) 一种基于深度学习技术的恶意程序智能检测方法
Ge Internet of things device recognition method based on natural language processing and text similarity
CN117520563B (zh) 一种基于威胁情报的apt组织技战术同源性分析方法
CN115082174B (zh) 债券质控相似识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant