CN116992052B

CN116992052B - 用于威胁情报领域的长文本摘要方法、装置和电子设备

Info

Publication number: CN116992052B
Application number: CN202311255518.5A
Authority: CN
Inventors: 刘广坤; 董龙飞; 翟湛鹏; 刘志宏; 李衍
Original assignee: Tianji Youmeng Zhuhai Technology Co ltd
Current assignee: Tianji Youmeng Zhuhai Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-19
Anticipated expiration: 2043-09-27
Also published as: CN116992052A

Abstract

本发明公开了用于威胁情报领域的长文本摘要方法、装置和电子设备，属于信息安全技术领域。方法包括：从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素；基于提取的情报要素构建信息脉络图；在信息脉络图中识别关键路径子图；确定一条遍历关键路径子图中所有节点的最短路径；将最短路径表示为<头实体，关系，尾实体>的三元组序列；基于三元组序列生成摘要。该方法能够较好地满足业务侧对于情报长文本摘要的信息完备性和信息压缩性的需求，比较接近安全分析人员编写的情报摘要，能够被有效地用于安全防御中；同时有效地提升了安全事件从发生到情报生成的效率，极大地缩短了威胁预警的时间。

Description

用于威胁情报领域的长文本摘要方法、装置和电子设备

技术领域

本发明涉及信息安全技术领域，尤其涉及一种用于威胁情报领域的长文本摘要方法、装置和电子设备。

背景技术

长文本摘要是指对一篇长文本（如论文、报告、新闻等）进行简要概述以便得到摘要的过程，以便读者在不阅读原文的情况下了解其主要内容和观点。长文本摘要的目的是提高阅读效率和信息获取速度，同时保留文本的核心信息。长文本摘要主要有两种类型：抽取式摘要和生成式摘要。抽取式摘要是指从原文中提取重要的句子或短语，然后按照一定的顺序和逻辑组合成摘要。抽取式摘要的优点是保留了原文的措辞和格式，缺点是可能忽略了一些隐含或推理的信息，以及导致摘要过长或冗余。生成式摘要是指对原文进行深入理解，然后用全新的词汇和句式概括原文的主旨。生成式摘要的优点是能够生成更紧凑和流畅的摘要，以及包含一些原文没有明确表达的信息，缺点是需要更高的自然语言处理能力，以及可能导致一些语义或事实上的错误。长文本摘要是自然语言处理中一个具有挑战性和价值性的任务。

目前已经有许多相关的研究工作和数据集。其中，基于神经网络和注意力机制的模型在生成式摘要方面表现出了较好的效果，但仍然存在一些问题，如重复、不连贯、不准确等。因此，长文本摘要仍然是一个值得探索和改进的领域。

目前针对长文本摘要的优化主要有如下思路：

直接使用GPT-4 32k模型，基本上大部分文章可以一次性生成摘要，由于没有内容损耗，效果最好，但是价格昂贵；

对文本内容进行截断，例如截取前N个字符或者隔行读取以生成摘要，但是效果受到较大影响；

递归分段摘要：将长文本拆成小段，分别对每一个小段摘要，最后将所有小段摘要合并在一起进行摘要，如果还是超过长度限制，继续递归分段摘要。但分段摘要再合并会损失上下文，导致结果不准确；

迭代加深的递归分段摘要：将长文本拆成小段，分段后，第一段摘要和第二段原文一起摘要，依次类推，这样对原文的语义损耗较小，但计算速度较慢。

威胁情报是指关于网络攻击者的动机、能力、行为和目标的信息，它可以帮助提高安全防御能力，预防或应对网络攻击。及时性、有效性和完整性是威胁情报很重要的三大特性。威胁情报的及时性是指威胁情报的获取、分析、共享和应用的速度，它决定了威胁情报的有效性和价值。及时性对威胁情报很重要，因为网络攻击者的策略、技术和目标可能随时变化，如果威胁情报不能及时反映这些变化，就会导致安全防御落后于攻击者的进步，从而增加遭受损失的风险。因此，应该尽可能地提高威胁情报的及时性，以便快速识别、评估和应对潜在或正在进行的网络攻击。

因此如何快速生成概述性的情报信息成为了急需要解决的问题，而威胁情报的输入源通常包含长短文本，如安全资讯、安全博客和开源情报等信息源。目前，针对威胁情报领域采用的现有的长文本摘要方法获得情报摘要，与安全分析人员编写的情报摘要相比还存在较大差距，无法被有效地用于安全防御中。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明第一方面提供了一种用于威胁情报领域的长文本摘要方法，包括：

从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素；

基于提取的情报要素构建信息脉络图；

在所述信息脉络图中识别出关键路径子图，所述关键路径子图包括如下节点：所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点；聚合了实体节点及其关联的属性节点的实体团节点；以及若存在TTPs信息，则包括TTPs信息中包含的实体节点；

确定一条遍历所述关键路径子图中所有节点的最短路径；

将所述最短路径表示为<头实体，关系，尾实体>的三元组序列；并基于所述三元组序列生成摘要。

优选地，在所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素之前包括：判断输入的长文本安全信息中是否含有摘要内容，若含有摘要内容，则提取摘要内容并输出；否则执行后续步骤。

优选地，所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素包括：

判断输入的长文本安全信息的场景类别；

根据所述场景类别对应的提示词，通过问答的形式，得到关于所述长文本安全信息的简要回答；

将得到的简要回答表示为包含<头实体，关系，尾实体>的三元组形式的情报要素。

优选地，所述基于提取的情报要素构建信息脉络图包括：

按照头实体、尾实体及其关系的三元组，建立有向图；

基于安全知识图谱，对所述有向图进行实体节点和对应关系的补充，得到信息脉络图。

优选地，所述长文本安全信息所属的场景类别对应的必然信息包括：

若所述长文本安全信息所属的场景类别为恶意软件活动类，则必然信息包括攻击者以及该攻击者所关联的恶意软件、活动时间、感染链和受害者信息；

若所述长文本安全信息所属的场景类别为勒索软件分析类，则必然信息为勒索软件的基本信息，包括语言编码、功能作用、感染链、采用的加密算法、勒索票据和加密后文件扩展名；

若所述长文本安全信息所属的场景类别为漏洞利用分析类，则必然信息为漏洞的基本信息，包括漏洞号以及漏洞利用过程；

若所述长文本安全信息所属的场景类别为恶意软件新变种类，则必然信息包括新变种添加的功能或与原恶意软件的区别信息；

若所述长文本安全信息所属的场景类别为情报通用类，则必然信息为默认信息。

优选地，所述TTPs信息按照如下方法判断是否存在：

判断所述长文本安全信息中含有ATT&CK TTPs知识库中的相关信息的内容比例是否超过预设值，若是，则所述长文本安全信息中存在TTPs信息，否则不存在。

优选地，所述在所述信息脉络图中识别出关键路径子图包括：

将有向的信息脉络图预置为无向的信息脉络图；

将无向的信息脉络图中的实体节点的属性信息进行聚合，得到聚合图；

在所述聚合图上搜索所有的约束性子图，得到约束性子图集合；其中，所述约束性子图为由所述长文本安全信息所属的场景类别对应的必然信息节点及其对应的边组成的最大连通子图；

确定所述约束性子图集合中所有约束性子图之间的连通路径，得到基于约束条件的无向图；

按照有向的信息脉络图中的信息将基于约束条件的无向图恢复成有向图，得到所述关键路径子图。

优选地，所述将无向的信息脉络图中的实体节点的属性信息进行聚合包括：只保留所述无向的信息脉络图中的属性节点和实体节点之间的边，去除属性节点与其它节点之间的边；若存在属性节点同时关联两个实体节点，则复制生成一个新的属性节点以确保两个实体节点均拥有自己的属性节点，同时确保一个属性节点只和一个实体节点之间存在边。

优选地，所述在所述聚合图上搜索所有的约束性子图包括：

步骤a，将必然信息节点及其对应的边按照边表的形式存储在约束条件集合中；

步骤b，从所述约束条件集合中取出一个节点，进行BFS搜索，逐层扩展，寻找在所述约束条件集合中的节点，并将找到的节点及其对应的边放入一个新的集合中，直到最外一层的节点均不在所述约束条件集合中；同时每找到一个在约束条件集合中的节点，就将其从所述约束条件集合中剔除；

步骤c，重复步骤b，直至所述约束条件集合为空。

优选地，所述确定所述约束性子图集合中所有约束性子图之间的连通路径，得到基于约束条件的无向图包括：

将每个约束性子图进行聚合缩点为超级点；

计算任意两个超级点之间的所有连通路径；

将所有超级点之间的连通路径和超级点按照无向的信息脉络图中的节点和边的关系进行展开，得到基于约束条件的无向图。

优选地，所述确定一条遍历所述关键路径子图中所有节点的最短路径包括：

基于长文本安全信息所属的场景类别，确定所述关键路径子图中的主体节点；

选取任意两个主体节点，并基于Dijkstra算法计算该两个主体节点之间且其他主体节点作为中间节点的最短路径，即为所述关键路径子图中所有节点的最短路径。

本发明第二方面提供了一种用于威胁情报领域的长文本摘要装置，包括：

情报要素提取模块，用于从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素；

信息脉络图构建模块，用于基于提取的情报要素构建信息脉络图；

关键路径子图识别模块，用于在所述信息脉络图中识别出关键路径子图，所述关键路径子图包括如下节点：所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点；聚合了实体节点及其关联的属性节点的实体团节点；以及若存在TTPs信息，则包括TTPs信息中包含的实体节点；

最短路径确定模块，用于确定一条遍历所述关键路径子图中所有节点的最短路径；

摘要生成模块，用于将所述最短路径表示为<头实体，关系，尾实体>的三元组序列，并基于所述三元组序列生成摘要。

本发明第三方面提供了一种存储器，存储有多条指令，所述指令用于实现如第一方面所述的方法。

本发明第四方面提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如第一方面所述的方法。

本发明的有益效果是：本发明提供的用于威胁情报领域的长文本摘要方法、装置和电子设备，首先从输入的长文本安全信息中提取情报要素，并基于提取的情报要素构建信息脉络图，然后在信息脉络图中识别出关键路径子图，并确定一条遍历所述关键路径子图中所有节点的最短路径；最后将最短路径表示为<头实体，关系，尾实体>的三元组序列，并基于所述三元组序列生成摘要。本发明构建的长文本摘要方法能够较好的满足业务侧对于情报长文本摘要的信息完备性和信息压缩性的需求，比较接近安全分析人员编写的情报摘要，能够被有效地用于安全防御中；同时本发明提供的技术方案有效的提升了安全事件从发生到情报生成的效率，极大地缩短了威胁预警的时间。

附图说明

图1为本发明所述用于威胁情报领域的长文本摘要方法的流程示意图；

图2为本发明所述用于威胁情报领域的长文本摘要装置的功能结构示意图。

具体实施方式

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细地说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

综合分析安全人员关注的信息要素后，发现针对威胁情报领域的文本摘要不仅要压缩信息，还需要在不同场景下保证信息要素的全面，甚至是分析人员基于相应的知识背景进行信息补充，其次才是高效的信息压缩。因此现有的摘要方法，包括基于大模型的长文本摘要无法适用于威胁情报领域。

本发明从威胁情报分析人员对情报利用的角度出发，创新性地构造了适用于威胁情报领域的长文本摘要方法。本发明实施例中所提到的长文本安全信息及中间处理过程中均只涉及英文文本。其中对于长文本的定义为文本长度超过3000个字符。

如图1所示，本发明实施例提供了一种用于威胁情报领域的长文本摘要方法，包括：S101，从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素；S102，基于提取的情报要素构建信息脉络图；S103，在所述信息脉络图中识别出关键路径子图，所述关键路径子图包括如下节点：所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点；聚合了实体节点及其关联的属性节点的实体团节点；以及若存在TTPs（Tactics, Techniques, Procedures；战术、技术和过程）信息，则包括TTPs信息中包含的实体节点；S104，确定一条遍历所述关键路径子图中所有节点的最短路径；S105，将所述最短路径表示为<头实体，关系，尾实体>的三元组序列；并基于所述三元组序列生成摘要。

其中，在步骤S101之前，还可以包括：判断输入的长文本安全信息中是否含有摘要内容，若含有摘要内容，则提取摘要内容并输出；否则执行后续步骤。在本发明实施例中，可以按照如下方法进行长文本安全信息是否包含摘要内容判定：首先判断长文本安全信息是否属于综述性文章，若属于综述性文章，则可基于关键词识别等规则方式直接确定摘要段落，并直接输出摘要段落的内容；若不属于综述性文章，则可截取长文本中的几段（比如前5段）进行段落识别，识别其中是否包含摘要段落。其中，可以利用通过安全文本定制化训练的SecBERT模型和二分类层逻辑回归模型（比如LR模型）来判断长文本安全信息是否属于综述性文章。基于长期的分析发现相对于详细阐述的段落，摘要段落的句子的修饰成分更少，内容更加精炼，句子之间的依赖性更弱。因此本发明按照如下方法进行摘要段落的识别；

首先，将每个段落分别进行分句处理，对句子按照2-gram原则（统计语言模型的中的二元语法原则）进行组合，如第一句和第二句拼接成一个处理单元，第二句和第三句拼接成一个处理单元，依此类推。

然后，对一个段落中的每个处理单元进行词性标注和语义依存分析，统计每个处理单元中除名词和动词外的其它词性占比，以及跨句的语义依存关系在对应处理单元中的所占比例；进而统计该段落中的所有处理单元中的非信息核心要素（除名词和动词外的其它词）的词性占比和跨句的语义依存关系占比，并计算该两个占比的几何平均数进行归一化。基于大量的统计和验证，设置对应的阈值。若非信息核心要素的词性占比和跨句的语义依存关系占比都低于阈值，则认为该段落为摘要段落。

在本发明中，识别出长文本中的摘要段落后，可以将摘要段落按照长文本的段落顺序依次排列，形成长文本的摘要。

执行步骤S101，可以包括：判断输入的长文本安全信息的场景类别；根据所述场景类别对应的提示词，通过问答的形式，得到关于所述长文本安全信息的回答；将得到的回答表示为<头实体，关系，尾实体>的三元组形式。其中，基于安全分析人员长期经验，本发明中将长文本安全信息划分为如下的场景类别：恶意软件活动类，必然信息包括攻击者以及该攻击者所关联的恶意软件、活动时间、感染链和受害者信息；勒索软件分析类，必然信息为勒索软件的基本信息，包括语言编码、功能作用、感染链、采用的加密算法、勒索票据和加密后文件扩展名；漏洞利用分析类，必然信息为漏洞的基本信息，包括漏洞号以及漏洞利用过程；恶意软件新变种类，必然信息包括新变种添加的功能或与原恶意软件的区别信息；情报通用类，必然信息为默认信息。在本发明一个实施例中，可以通过文本分类模型来判断输入的长文本安全信息的场景类别，具体的可以为：首先对输入的长文本安全信息通过基于安全语料定制化训练的SecBERT模型进行编码，得到编码向量；再利用softmax模型对编码向量进行场景的多分类。

针对不同的场景类别，本发明中可以利用微调后的预训练大模型Alpaca，基于人工积累的不同场景的提示词，通过人机对话的问答形式实现情报要素的提取。具体地，比如可以包括如下步骤：

首先在大模型Alpaca中输入：你是一位威胁情报专家，这是一篇恶意软件活动类文章，需要按照攻击者xxx使用了xxx恶意软件，在xxx时间，通过xxx的感染形式攻击了xxx（此处xx为实际输入内容，进行格式占位）。文章如下：据媒体7月19日报道，两个网络攻击组织A组织和C组织在其网站列出了美妆公司Y公司。该公司承认了其中的一起，称攻击者获得了部分系统的访问权限，并可能窃取了数据，他们已采取行动并关闭了一些系统。C组织似乎利用了M平台中的漏洞获得访问权限，并声称窃取了超过131GB的数据。本周二，A组织也列出了Y公司，并表示仍未收到该公司的回复。攻击者还称，没有加密公司的任何系统，但如果该公司不谈判，他们将透露更多有关被盗数据的细节，可能会影响客户、公司员工和供应商。

得到的大模型Alpaca的回答一如下：C组织利用M平台中的漏洞在近期攻击了美妆公司Y公司，窃取了超过131GB的数据（大模型基于格式要求会进行相应的内容变更和扩展）。

然后再输入：请按照三元组的形式进行上述回答一中的头实体、尾实体及其之间关系的整理。

得到的回答二如下：

<C组织，利用，M平台中的漏洞>；

<C组织，攻击，Y公司>；

<Y公司，属于，美妆公司>。

则可以将回答二的内容作为最终提取到的情报要素。

执行步骤S102，基于提取的情报要素构建信息脉络图，可以包括：按照头实体、尾实体及其关系的三元组，建立有向图；基于安全知识图谱，对所述有向图进行实体节点和对应关系的补充，得到信息脉络图。在一个示例中，比如原文中没有提到APT2333（注：虚拟名称，现实中不存在）这个攻击组织是具有X国背景的APT（Advanced Persistent Threat，高级持续性威胁）组织，则在有向图中补充相应的地理位置节点和对应关系的边。如: <APT2333，位于，X国>。

执行步骤S103，在所述信息脉络图中识别出关键路径子图，所述关键路径子图包括如下节点：所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点；聚合了实体节点及其关联的属性节点的实体团节点；以及若存在TTPs信息，则包括TTPs信息中包含的实体节点。

本发明实施例中，根据情报分析人员对不同场景下信息完整性的要求，可以抽象出一个图模型。即信息脉络图中的关键路径子图，在该关键路径子图中需要包含如下内容：

（1）对应场景下需要的必然信息节点和关系对应的边，以及必然信息节点关联的实体节点（又称为关键实体节点）及关系对应的边。关键实体节点如：攻击者所属的国家或地区，攻击目标所处的行业及所处的国家和地区，攻击者的技战术水平等信息，上述信息均对应一个关键实体节点。本发明中，长文本安全信息所属的场景类别不同，对应的必然信息也不同，具体的：若所述长文本安全信息所属的场景类别为恶意软件活动类，则必然信息包括攻击者以及该攻击者所关联的恶意软件、活动时间、感染链和受害者信息；若所述长文本安全信息所属的场景类别为勒索软件分析类，则必然信息为勒索软件的基本信息，包括语言编码、功能作用、感染链、采用的加密算法、勒索票据和加密后文件扩展名；若所述长文本安全信息所属的场景类别为漏洞利用分析类，则必然信息为漏洞的基本信息，包括漏洞号以及漏洞利用过程；若所述长文本安全信息所属的场景类别为恶意软件新变种类，则必然信息包括新变种添加的功能或与原恶意软件的区别信息；若所述长文本安全信息所属的场景类别为情报通用类，则必然信息为默认信息。

（2）若长文本包含TTPs信息，还需要包含TTPs信息中包含的实体节点和关系对应的边；其中，本发明实施例中，可以按照如下方法判断是否存在TTPs信息：判断所述长文本安全信息中含有ATT&CK（Adversarial Tactics, Techniques, and Common Knowledge，对抗性战术、技术知识库） TTPs知识库中的相关信息的内容比例是否超过预设值，若是，则所述长文本安全信息中存在TTPs信息，否则不存在。

其中，在本领域中判断长文本中是否含TTPs（描述攻击方法和攻击工具等）信息是个十分棘手的问题。在本发明的研究中发现，目前常用的文本摘要模型，在处理安全文本中含有的TTPs信息时，通常会表示为“a lots of tools”这样的总结性描述。而TTPs信息对于情报价值的贡献十分巨大，因此本发明在摘要时包含了TTPs信息的相应内容，而不只是进行简单的总结性描述。

为了实现长文本内容是否含有TTPs信息的判定，本发明中将该问题转化为长文本中是否含有与ATT&CK TTPs知识库中的信息相似的文本片段问题，即将蕴含检测问题转化为搜索问题。具体的方法可以为：将ATT&CK TTPs内部维护的结构化知识信息，基于SecBERT模型转化成向量，并将其写入向量搜索引擎milvus中；将长文本进行分句处理，对每个句子基于SecBERT模型进行向量化，然后通过milvus进行向量搜索，看是否能够搜索到相关内容；统计搜索到的相关内容的句子所占比例，基于大量的统计分析，若在文本中搜索到的相关内容的句子超过5句，则认定该文本内容包含TTPs信息；若在文本中搜索到的相关内容的句子占比超过30%且相关内容的句子数量大于5，则认定该文本内容包含TTPs信息。

（3）聚合了实体节点及其关联的属性节点的实体团节点及关系对应的边。需要说明的是，节点分为实体节点及其关联的属性节点。针对攻击者这一实体节点，存在与之相关联的属性节点，如别名、所在国的名字、描述、角色、攻击水平和组织的标签等。在识别出关键路径子图后的路径计算中，只需要使用实体节点，因此在关键路径子图中，将实体节点及其关联的属性节点进行聚合得到实体团节点。

在本发明实施例中，可将识别出关键路径子图并找到其中最短路径的问题抽象为两个子问题，即：如何在信息脉络图中识别出包含上述节点及边的关键路径子图；以及如何在关键路径子图上，找到一条遍历所有节点的最短路径。

在本发明的一个优选实施例中，可以按照如下方法在所述信息脉络图中识别出关键路径子图：将有向的信息脉络图预置为无向的信息脉络图；将无向的信息脉络图中的实体节点的属性信息进行聚合，得到聚合图；在所述聚合图上搜索所有的约束性子图，得到约束性子图集合；其中，所述约束性子图为由所述长文本安全信息所属的场景类别对应的必然信息节点及其对应的边组成的最大连通子图；确定所述约束性子图集合中所有约束性子图之间的连通路径，得到基于约束条件的无向图；按照有向的信息脉络图中的信息将基于约束条件的无向图恢复成有向图，得到所述关键路径子图。

其中，所述将无向的信息脉络图中的实体节点的属性信息进行聚合包括：只保留所述无向的信息脉络图中的属性节点和实体节点之间的边，去除属性节点与其它节点之间的边；若存在属性节点同时关联两个实体节点，则复制生成一个新的属性节点以确保两个实体节点均拥有自己的属性节点，同时确保一个属性节点只和一个实体节点之间存在边。

进一步地，所述在所述聚合图上搜索所有的约束性子图包括：步骤a，将必然信息节点及其对应的边按照边表的形式存储在约束条件集合中；步骤b，从所述约束条件集合中取出一个节点，进行BFS（Breadth-First-Search，广度优先搜索算法）搜索，逐层扩展，寻找在所述约束条件集合中的节点，并将找到的节点及其对应的边放入一个新的集合中，直到最外一层的节点均不在所述约束条件集合中；同时每找到一个在约束条件集合中的节点，就将其从所述约束条件集合中剔除；步骤c，重复步骤b，直至所述约束条件集合为空。

进一步地，所述确定所述约束性子图集合中所有约束性子图之间的连通路径，得到基于约束条件的无向图包括：将每个约束性子图进行聚合缩点为超级点，约束性子图中节点和外部的边，均变更为聚合缩点后的边；于是计算约束性子图之间的连通路径的问题即转换为求解聚合缩点后得到的无向图上的路径问题；计算任意两个超级点之间的所有连通路径；可通过DFS（Depth-First-Search，深度优先搜索算法）实现；将所有超级点之间的连通路径和超级点按照无向的信息脉络图中的节点和边的关系进行展开，得到基于约束条件的无向图。

因每个约束性子图内部节点之间是连通的，所以不同子图之间的连通路径可通过寻找两个子图中的任意两个节点之间的最短路径实现。

其中，聚合缩点(Contracting Vertices)是一种简化图结构的操作。其基本思想是将图中的多个顶点合并成一个新的顶点。具体做法为：

1. 选择要合并的顶点集合V'，V'中的所有顶点将被合并为一个新的顶点v。

2. 删除V'中的所有顶点，并添加一个新的顶点v。

3. 对于V'中的每个顶点u，检查u相连的边(u, x)，其中x不在V'中。删除这条边(u, x)，并添加一条新边(v, x)。

4. 如果合并后产生自环或复边，则将其删除。

5. 调整新图的布局，新的顶点v可以放在V'的顶点的平均位置处。

通过聚合缩点（合并顶点），可以减少图中的顶点数，简化图的结构。这对于可视化大规模复杂图网络、分析图的数据聚集结构等都很有帮助。但需要注意合并会导致某些结构信息的损失。

例如，一个社交网络数据，将共同好友聚合为一个顶点，则这种友谊团体特征被凝聚了出来，但个体之间的连接细节就被抹平了。

执行步骤S104，确定一条遍历所述关键路径子图中所有节点的最短路径，可以包括：基于长文本安全信息所属的场景类别，确定所述关键路径子图中的主体节点；选取任意两个主体节点，并基于Dijkstra算法（迪杰斯特拉算法）计算该两个主体节点之间且其他主体节点作为中间节点的最短路径，即为所述关键路径子图中所有节点的最短路径。具体地可以通过如下步骤实现：

1. 构建图的邻接矩阵，初始化距离矩阵dist。

2. 指定必须经过的节点（关键路径子图中的所有主体节点）集合为M。

3. 从起点s开始，进行标准Dijkstra算法，但是在松弛操作时，对于每个节点u，仅当u已经在M中被覆盖过时，才进行dist[u]的更新。

4. 重复步骤3，每次迭代中均标记被松弛过的节点，表示已覆盖。

5. 当终点t被标记已覆盖时，Dijkstra算法结束。dist[t]即为起点s到终点t所需的最短路径长度。

6. 通过追溯dist的形成过程，可以找到实际的最短路径。

这样，每次只松弛已被覆盖的节点，可以保证找到的最短路径上一定会包含给定的所有中间节点。平均时间复杂度仍是O(V^2)。

需要注意的是，给定的中间节点存在顺序关系时，应该事先按顺序标记，以确保路径的覆盖顺序满足要求。

执行步骤S105，将所述最短路径表示为<头实体，关系，尾实体>的三元组序列；并基于所述三元组序列生成摘要。具体地，可以基于大模型进行相关摘要生成，包括如下步骤：将得到的最短路径表示为<头实体，关系，尾实体>的三元组序列；基于对话的形式，利用三元组序列，使用大模型alpaca生成摘要。其中，大模型alpaca可通过内部的安全知识图谱和威胁情报数据进行微调后得到。比如输入：请基于三元组序列进行文本摘要生成，三元组序列如下，<APT2333，利用，D软件> ，<APT2333，攻击，Y国银行>。生成的摘要如下：近期，高级持续威胁组织APT2333利用D软件漏洞，对Y国某银行发起网络攻击。APT2333是X国网络攻击组织，长期针对政府及关键基础设施发动攻击。此次利用已知软件漏洞进行渗透的手法，与APT2333此前行动一致。虽尚不明确APT2333通过此次攻击所获信息，但显示其网络攻击活动仍在继续。需持续监控APT2333新动向，重点关注其获取和利用软件漏洞的技术手段，以更有效对抗未来攻击。生成摘要内容后，可以首先进行摘要内容句子首字母大写和标点符号半角化等的格式化，防止数据传输过程中造成的偶然误差。然后输出摘要。

实施例二

如图2所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了用于威胁情报领域的长文本摘要装置，包括：情报要素提取模块201，用于从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素；信息脉络图构建模块202，用于基于提取的情报要素构建信息脉络图；关键路径子图识别模块203，用于在所述信息脉络图中识别关键路径子图，所述关键路径子图包括如下节点：所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点；聚合了实体节点及其关联的属性节点的实体团节点；以及若存在TTPs信息，则包括TTPs信息中包含的实体节点；最短路径确定模块204，用于确定一条遍历所述关键路径子图中所有节点的最短路径；摘要生成模块205，用于将所述最短路径表示为<头实体，关系，尾实体>的三元组序列，并基于所述三元组序列生成摘要。

进一步地，所述用于威胁情报领域的长文本摘要装置还包括判断模块，用于判断输入的长文本安全信息中是否含有摘要内容，若含有摘要内容，则提取摘要内容并输出；否则执行后续步骤。

进一步地，所述情报要素提取模块具体用于：判断输入的长文本安全信息的场景类别；根据所述场景类别对应的提示词，通过问答的形式，得到关于所述长文本安全信息的简要回答；将得到的简要回答表示为包含<头实体，关系，尾实体>的三元组形式的情报要素。

进一步地，所述信息脉络图构建模块具体地用于：按照头实体、尾实体及其关系的三元组，建立有向图；基于安全知识图谱，对所述有向图进行实体节点和对应关系的补充，得到信息脉络图。

进一步地，在所述关键路径子图识别模块中，所述长文本安全信息所属的场景类别对应的必然信息包括：若所述长文本安全信息所属的场景类别为恶意软件活动类，则必然信息包括攻击者以及该攻击者所关联的恶意软件、活动时间、感染链和受害者信息；若所述长文本安全信息所属的场景类别为勒索软件分析类，则必然信息为勒索软件的基本信息，包括语言编码、功能作用、感染链、采用的加密算法、勒索票据和加密后文件扩展名；若所述长文本安全信息所属的场景类别为漏洞利用分析类，则必然信息为漏洞的基本信息，包括漏洞号以及漏洞利用过程；若所述长文本安全信息所属的场景类别为恶意软件新变种类，则必然信息包括新变种添加的功能或与原恶意软件的区别信息；若所述长文本安全信息所属的场景类别为情报通用类，则必然信息为默认信息。

更进一步地，在所述关键路径子图识别模块中，所述TTPs信息按照如下方法判断是否存在：判断所述长文本安全信息中含有ATT&CK TTPs知识库中的相关信息的内容比例是否超过预设值，若是，则所述长文本安全信息中存在TTPs信息，否则不存在。

进一步地，所述关键路径子图识别模块具体用于：将有向的信息脉络图预置为无向的信息脉络图；将无向的信息脉络图中的实体节点的属性信息进行聚合，得到聚合图；在所述聚合图上搜索所有的约束性子图，得到约束性子图集合；其中，所述约束性子图为由所述长文本安全信息所属的场景类别对应的必然信息节点及其对应的边组成的最大连通子图；确定所述约束性子图集合中所有约束性子图之间的连通路径，得到基于约束条件的无向图；按照有向的信息脉络图中的信息将基于约束条件的无向图恢复成有向图，得到所述关键路径子图。

更进一步地，所述将无向的信息脉络图中的实体节点的属性信息进行聚合包括：只保留所述无向的信息脉络图中的属性节点和实体节点之间的边，去除属性节点与其它节点之间的边；若存在属性节点同时关联两个实体节点，则复制生成一个新的属性节点以确保两个实体节点均拥有自己的属性节点，同时确保一个属性节点只和一个实体节点之间存在边。

更进一步地，所述在所述聚合图上搜索所有的约束性子图包括：步骤a，将必然信息节点及其对应的边按照边表的形式存储在约束条件集合中；步骤b，从所述约束条件集合中取出一个节点，进行BFS搜索，逐层扩展，寻找在所述约束条件集合中的节点，并将找到的节点及其对应的边放入一个新的集合中，直到最外一层的节点均不在所述约束条件集合中；同时每找到一个在约束条件集合中的节点，就将其从所述约束条件集合中剔除；步骤c，重复步骤b，直至所述约束条件集合为空。

更进一步地，所述确定所述约束性子图集合中所有约束性子图之间的连通路径，得到基于约束条件的无向图包括：将每个约束性子图进行聚合缩点为超级点；计算任意两个超级点之间的所有连通路径；将所有超级点之间的连通路径和超级点按照无向的信息脉络图中的节点和边的关系进行展开，得到基于约束条件的无向图。

进一步地，所述最短路径确定模块具体用于：基于长文本安全信息所属的场景类别，确定所述关键路径子图中的主体节点；选取任意两个主体节点，并基于Dijkstra算法计算该两个主体节点之间且其他主体节点作为中间节点的最短路径，即为所述关键路径子图中所有节点的最短路径。

该装置可通过上述实施例一提供的用于威胁情报领域的长文本摘要方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于威胁情报领域的长文本摘要方法，其特征在于，包括：

基于提取的情报要素构建信息脉络图；

确定一条遍历所述关键路径子图中所有节点的最短路径；

将所述最短路径表示为<头实体，关系，尾实体>的三元组序列；并基于所述三元组序列生成摘要；

所述在所述信息脉络图中识别出关键路径子图包括：

将有向的信息脉络图预置为无向的信息脉络图；

按照有向的信息脉络图中的信息将基于约束条件的无向图恢复成有向图，得到所述关键路径子图；

所述确定一条遍历所述关键路径子图中所有节点的最短路径包括：

2.如权利要求1所述的用于威胁情报领域的长文本摘要方法，其特征在于，在所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素之前包括：判断输入的长文本安全信息中是否含有摘要内容，若含有摘要内容，则提取摘要内容并输出；否则执行后续步骤。

3.如权利要求1所述的用于威胁情报领域的长文本摘要方法，其特征在于，所述从输入的长文本安全信息中提取包含头实体、尾实体及其关系的情报要素包括：

判断输入的长文本安全信息的场景类别；

4.如权利要求1所述的用于威胁情报领域的长文本摘要方法，其特征在于，所述基于提取的情报要素构建信息脉络图包括：

按照头实体、尾实体及其关系的三元组，建立有向图；

5.如权利要求1所述的用于威胁情报领域的长文本摘要方法，其特征在于，所述长文本安全信息所属的场景类别对应的必然信息包括：

6.如权利要求1所述的用于威胁情报领域的长文本摘要方法，其特征在于，所述TTPs信息按照如下方法判断是否存在：

7.如权利要求1所述的用于威胁情报领域的长文本摘要方法，其特征在于，所述将无向的信息脉络图中的实体节点的属性信息进行聚合包括：只保留所述无向的信息脉络图中的属性节点和实体节点之间的边，去除属性节点与其它节点之间的边；若存在属性节点同时关联两个实体节点，则复制生成一个新的属性节点以确保两个实体节点均拥有自己的属性节点，同时确保一个属性节点只和一个实体节点之间存在边。

8.如权利要求1所述的用于威胁情报领域的长文本摘要方法，其特征在于，所述在所述聚合图上搜索所有的约束性子图包括：

步骤c，重复步骤b，直至所述约束条件集合为空。

9.如权利要求1所述的用于威胁情报领域的长文本摘要方法，其特征在于，所述确定所述约束性子图集合中所有约束性子图之间的连通路径，得到基于约束条件的无向图包括：

将每个约束性子图进行聚合缩点为超级点；

计算任意两个超级点之间的所有连通路径；

10.一种用于威胁情报领域的长文本摘要装置，其特征在于，包括：

关键路径子图识别模块，用于在所述信息脉络图中识别出关键路径子图，所述关键路径子图包括如下节点：所述长文本安全信息所属的场景类别对应的必然信息节点及其关联的实体节点；聚合了实体节点及其关联的属性节点的实体团节点；以及若存在TTPs信息，则包括TTPs信息中包含的实体节点；所述在所述信息脉络图中识别出关键路径子图包括：将有向的信息脉络图预置为无向的信息脉络图；将无向的信息脉络图中的实体节点的属性信息进行聚合，得到聚合图；在所述聚合图上搜索所有的约束性子图，得到约束性子图集合；其中，所述约束性子图为由所述长文本安全信息所属的场景类别对应的必然信息节点及其对应的边组成的最大连通子图；确定所述约束性子图集合中所有约束性子图之间的连通路径，得到基于约束条件的无向图；按照有向的信息脉络图中的信息将基于约束条件的无向图恢复成有向图，得到所述关键路径子图；最短路径确定模块，用于确定一条遍历所述关键路径子图中所有节点的最短路径，包括：基于长文本安全信息所属的场景类别，确定所述关键路径子图中的主体节点；选取任意两个主体节点，并基于Dijkstra算法计算该两个主体节点之间且其他主体节点作为中间节点的最短路径，即为所述关键路径子图中所有节点的最短路径；

11.一种存储器，其特征在于，存储有多条指令，所述指令用于实现如权利要求1-9任一项所述的用于威胁情报领域的长文本摘要方法。

12.一种电子设备，其特征在于，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如权利要求1-9任一项所述的用于威胁情报领域的长文本摘要方法。