CN115329770A

CN115329770A - 基于语义分析的威胁情报提取方法和系统

Info

Publication number: CN115329770A
Application number: CN202210892597.XA
Authority: CN
Inventors: 李新; 胡文波; 段凯
Original assignee: Tianjin Guorui Digital Safety System Co ltd
Current assignee: Tianjin Guorui Digital Safety System Co ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-11

Abstract

本发明提供一种基于语义分析的威胁情报提取方法和系统，由于在现有的威胁情报分析的基础上，通过改进使用两种网络结构得到增强的语义特征，以及改进实体抽取的嵌入层处理，可以准确标注实体类别和边界，再改进LSTM层实现得到隐藏状态，进一步得到隐藏状态对应的语义特征,克服了现有的关系抽取通常仅使用单一的深度学习模型，无法捕获完整的语义特征，以及实体之间存在有大量的隐式关系，现有的模型难以有效捕获隐式关系的语义特征的问题。

Description

基于语义分析的威胁情报提取方法和系统

技术领域

本申请涉及网络安全技术领域，尤其涉及一种基于语义分析的威胁情报提取方法和系统。

背景技术

实体是威胁情报分析中最基本的元素，其描述了与威胁相关的具体信息。威胁情报的提取是基于实体的准确识别和提取实现的。实体的识别离不开关系的抽取，关系抽取意图在从非结构化和半结构化数据中识别实体之间所具有的某种语义关系。然而现有的关系抽取通常仅使用单一的深度学习模型，无法捕获完整的语义特征。同时，实体之间存在有大量的隐式关系，现有的模型难以有效捕获隐式关系的语义特征。

因此，急需一种针对性的基于语义分析的威胁情报提取方法和系统。

发明内容

本发明的目的在于提供一种基于语义分析的威胁情报提取方法和系统，在现有的威胁情报分析的基础上，通过改进使用两种网络结构得到增强的语义特征，以及改进实体抽取的嵌入层处理，可以准确标注实体类别和边界，再改进LSTM层实现得到隐藏状态，进一步得到隐藏状态对应的语义特征。

第一方面，本申请提供一种基于语义分析的威胁情报提取方法，所述方法包括：

从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据，作为开源威胁情报数据；

对所述开源威胁情报数据进行初始化处理，基于主题、关键字、长度作为特征，采用支持向量机算法进行文本分类，滤除所述开源威胁情报数据中的噪音数据，并以句子为单位进行分割处理，自动标注标识信息，得到威胁情报库；

从所述威胁情报库中按照预定顺序提取语句，分别输入实体抽取模块和语义分析模块；

所述语义分析模块将输入的所述语句按单词降低维度，并与连续空间中的向量一一映射，作为词级别的语义特征，得到词特征；

根据前向和后向分别两次调用GRU网络结构，将所述词特征输入两次调用的GRU网络结构，将两次的输出结果拼接后得到当前的全局语义信息，将所述词特征输入CNN网络结构，得到当前的局部语义信息；

将所述全局语义信息和局部语义信息按时间进行融合，得到增强的语义特征；

所述实体抽取模块根据标注，将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层，经过处理后送入对应的LSTM层，所述处理包括输入的所述语句降低维度检测，并将隶属的开头单词添加指引，指向对应表示实体结束的单词，所述指向依据降低维度检测的损失函数，通过求解该损失函数的最优解，得到表示实体结束的单词；

经过相邻的所述LSTM层相互交换向量后，计算得到当前的隐藏向量，所述隐藏向量分为前向隐藏向量和后向隐藏向量，将所述前向隐藏向量与后向隐藏向量连接起来，得到隐藏状态，再将所述隐藏状态分别送入解码层和所述语义分析模块，所述解码层引入标签的转移概率算法，将所述标注作为标签项，根据计算的概率值，预测得到有关实体的映射关系，所述语义分析模块输出隐藏状态对应的第二语义特征；

将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入可视化模块，展示威胁情报实体的知识图谱，提供给用户按实体关系或语义查询提取。

结合第一方面，在第一方面第一种可能的实现方式中，所述采集包括根据信息来源的历史记录，对不同的信息来源给出了不同的评分；还包括根据预先设置的情报类型，侧重采集所述情报类型对应的信息，动态将与所述情报类型相关度低的信息设置为冗余信息，在初始化处理中清除。

结合第一方面，在第一方面第二种可能的实现方式中，所述采集包括提取要素，判断发现的要素是否与当前热门安全事件相关，如果是则在要素中标记热门安全事件摘要，并将多个与该热门安全事件相关的要素进行关联，进行数据融合。

结合第一方面，在第一方面第三种可能的实现方式中，所述指向对应表示实体结束的单词后，确定实体边界，用属性加密算法隔离不同的实体边界，实现不同的实体边界访问控制，按所述实体边界进行查询和判断报警。

第二方面，本申请提供一种基于语义分析的威胁情报提取系统，所述系统包括：

采集模块，用于从不同的传感设备、中转设备、开源平台和网络侧设备处采集状态信息、域名信息、链接地址和报文数据，作为开源威胁情报数据；

初始化模块，用于对所述开源威胁情报数据进行初始化处理，基于主题、关键字、长度作为特征，采用支持向量机算法进行文本分类，滤除所述开源威胁情报数据中的噪音数据，并以句子为单位进行分割处理，自动标注标识信息，得到威胁情报库；

中转模块，用于从所述威胁情报库中按照预定顺序提取语句，分别输入实体抽取模块和语义分析模块；

语义分析模块，用于将输入的所述语句按单词降低维度，并与连续空间中的向量一一映射，作为词级别的语义特征，得到词特征；

实体抽取模块，用于根据标注，将隶属的开头单词、实体后续单词和非实体单词送入不同的嵌入层，经过处理后送入对应的LSTM层，所述处理包括输入的所述语句降低维度检测，并将隶属的开头单词添加指引，指向对应表示实体结束的单词，所述指向依据降低维度检测的损失函数，通过求解该损失函数的最优解，得到表示实体结束的单词；

可视化模块，用于将所述有关实体的映射关系、第二语义特征和所述增强的语义特征一起录入，展示威胁情报实体的知识图谱，提供给用户按实体关系或语义查询提取。

第三方面，本申请提供一种基于语义分析的威胁情报提取系统，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面四种可能中任一项所述的方法。

有益效果

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于语义分析的威胁情报提取方法的大致流程图；

图2为本发明基于语义分析的威胁情报提取系统的架构图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

图1为本申请提供的基于语义分析的威胁情报提取方法的大致流程图，所述方法包括：

在一些优选实施例中，所述采集包括根据信息来源的历史记录，对不同的信息来源给出了不同的评分；还包括根据预先设置的情报类型，侧重采集所述情报类型对应的信息，动态将与所述情报类型相关度低的信息设置为冗余信息，在初始化处理中清除。

在一些优选实施例中，所述采集包括提取要素，判断发现的要素是否与当前热门安全事件相关，如果是则在要素中标记热门安全事件摘要，并将多个与该热门安全事件相关的要素进行关联，进行数据融合。

所述热门安全事件包括僵尸网络、挖矿、攻击中的一种或多种，对采集的所述热门安全事件信息从时间、空间多重维度进行深度关联分析和数据挖掘，建立规则库，将疑似攻击的溯源信息与规则库中的信息进行对比，通过传播查询和追溯查询构建溯源图，根据所述溯源图获取攻击事件的发生脉络和攻击路径，并在发生脉络上标记热门安全事件摘要。

在一些优选实施例中，所述指向对应表示实体结束的单词后，确定实体边界，用属性加密算法隔离不同的实体边界，实现不同的实体边界访问控制，按所述实体边界进行查询和判断报警。

所述方法还包括采用访问控制、入侵检测，对重要网络节点、网络边界、远程访问用户行为进行安全审计，使用时间戳或计数器并结合完整性检查核查现场设备认证数据的新鲜度和检测数据是否被篡改。

在一些优选实施例中，所述数据融合可采用的聚类算法包括K-Means算法、均值漂移聚类算法、基于密度的聚类算法、或凝聚层次聚类算法。

在一些优选实施例中，所述可视化展示还包括风险评估、攻击关联分析、态势感知，进行主动防御，与云服务器中的数据挖掘、大数据分析配合，定位网络脆弱点和发现潜在的威胁和攻击。

图2为本申请提供的基于语义分析的威胁情报提取系统的架构图，所述系统包括：

本申请提供一种基于语义分析的威胁情报提取系统，所述系统包括：所述系统包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法。

本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所有实施例中任一项所述的方法。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可以存储有程序，该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称：ROM)或随机存储记忆体(简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书各个实施例之间相同相似的部分互相参见即可。尤其，对于实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于语义分析的威胁情报提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于：所述采集包括根据信息来源的历史记录，对不同的信息来源给出了不同的评分；还包括根据预先设置的情报类型，侧重采集所述情报类型对应的信息，动态将与所述情报类型相关度低的信息设置为冗余信息，在初始化处理中清除。

3.根据权利要求1所述的方法，其特征在于：所述采集包括提取要素，判断发现的要素是否与当前热门安全事件相关，如果是则在要素中标记热门安全事件摘要，并将多个与该热门安全事件相关的要素进行关联，进行数据融合。

4.根据权利要求2或3任一项所述的方法，其特征在于：所述指向对应表示实体结束的单词后，确定实体边界，用属性加密算法隔离不同的实体边界，实现不同的实体边界访问控制，按所述实体边界进行查询和判断报警。

5.一种基于语义分析的威胁情报提取系统，其特征在于，所述系统包括：

6.一种基于语义分析的威胁情报提取系统，其特征在于，所述系统包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行实现权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行实现权利要求1-4任一项所述的方法。