CN113032775A

CN113032775A - 情报处理方法和情报处理系统

Info

Publication number: CN113032775A
Application number: CN201911354171.3A
Authority: CN
Inventors: 马娜; 刘汉生; 牛剑峰; 李天博; 邵振亚; 李玲晓; 李奡
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-06-25
Anticipated expiration: 2039-12-25
Also published as: CN113032775B

Abstract

本公开提供了一种情报处理方法和情报处理系统，涉及通信技术领域。该情报处理方法包括：采集多条情报信息；从该多条情报信息分别提取情报数据，其中，该情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息；基于该多条情报信息的发生时间、攻击源信息和被攻击目标信息计算该多条情报信息的情报相似度；以及在该情报相似度大于设定阈值的情况下，经过去重处理，将该多条情报信息融合为一条情报信息。本公开可以降低情报的重复度。

Description

情报处理方法和情报处理系统

技术领域

本公开涉及通信技术领域，特别涉及一种情报处理方法和情报处理系统。

背景技术

随着信息技术发展，网络安全形势日益严峻。为有效感知网络安全态势，建立以威胁情报为核心的安全防御体系逐渐成为主流选择。

目前在情报中心建设过程中，企业除收集内部情报数据之外，还需通过开源数据爬取和外部厂商交换的方式获取多个来源的外部情报。而在数据收集过程中，存在数据价值密度低、情报重复度高、不同来源数据格式不一致等问题。

发明内容

本公开解决的一个技术问题是：提供一种情报处理方法，以降低情报的重复度。

根据本公开的一个方面，提供了一种情报处理方法，包括：采集多条情报信息；从所述多条情报信息分别提取情报数据，其中，所述情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息；基于所述多条情报信息的发生时间、攻击源信息和被攻击目标信息计算所述多条情报信息的情报相似度；以及在所述情报相似度大于设定阈值的情况下，经过去重处理，将所述多条情报信息融合为一条情报信息。

在一些实施例中，所述多条情报信息包括两条情报信息；基于所述多条情报信息的发生时间、攻击源信息和被攻击目标信息计算所述多条情报信息的情报相似度的步骤包括：基于所述两条情报信息的发生时间计算所述两条情报信息的发生时间相似度；基于所述两条情报信息的攻击源信息计算所述两条情报信息的攻击源相似度；基于所述两条情报信息的被攻击目标信息计算所述两条情报信息的被攻击目标相似度；以及根据所述两条情报信息的发生时间相似度、攻击源相似度和被攻击目标相似度计算所述两条情报信息的情报相似度。

在一些实施例中，所述两条情报信息的发生时间相似度Sim_t的计算方法为：

其中，α为已知的第一参数，t_i为所述两条情报信息中的一条情报信息的发生时间，t_j为所述两条情报信息中的另一条情报信息的发生时间。

在一些实施例中，所述两条情报信息的攻击源相似度Sim_att的计算方法为：

其中，S_i为所述两条情报信息中的一条情报信息的攻击源信息，S_j为所述两条情报信息中的另一条情报信息的攻击源信息。

在一些实施例中，所述两条情报信息的被攻击目标相似度Sim_def的计算方法为：

其中，θ为已知的第二参数，且0≤θ≤1，D₁为所述两条情报信息中的一条情报信息的被攻击目标信息的集合，D₂为所述两条情报信息中的另一条情报信息的被攻击目标信息的集合，D₁∩D₂为D₁与D₂的交集的被攻击目标个数，D₁∪D₂为D₁与D₂的并集的被攻击目标个数。

在一些实施例中，所述两条情报信息的情报相似度Sim_总的计算方法为：Sim_总＝Sim_t×Sim_att×Sim_def，其中，Sim_t为所述两条情报信息的发生时间相似度，Sim_att为所述两条情报信息的攻击源相似度，Sim_def为所述两条情报信息的被攻击目标相似度。

在一些实施例中，从所述多条情报信息分别提取情报数据的步骤包括：将所述多条情报信息输入到词向量相似度模型；利用所述词向量相似度模型对所述多条情报信息进行数据处理，以提取每条情报信息的情报数据；以及对所述情报数据进行格式标准化。

在一些实施例中，所述情报处理方法还包括：利用开源文本库语料和/或已有的威胁情报字段描述语料进行词语向量化以获得词向量，对所述词向量进行维度压缩，将维度压缩后的词向量输入到所述词向量相似度模型；以及利用采集的威胁情报信息的词语训练所述词向量相似度模型。

根据本公开的另一个方面，提供了一种情报处理系统，包括：信息采集单元，用于采集多条情报信息；数据提取单元，用于从所述多条情报信息分别提取情报数据，其中，所述情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息；相似度计算单元，用于基于所述多条情报信息的发生时间、攻击源信息和被攻击目标信息计算所述多条情报信息的情报相似度；以及信息融合单元，用于在所述情报相似度大于设定阈值的情况下，经过去重处理，将所述多条情报信息融合为一条情报信息。

在一些实施例中，所述多条情报信息包括两条情报信息；相似度计算单元包括：发生时间相似度计算模块，用于基于所述两条情报信息的发生时间计算所述两条情报信息的发生时间相似度；攻击源相似度计算模块，用于基于所述两条情报信息的攻击源信息计算所述两条情报信息的攻击源相似度；被攻击目标相似度计算模块，用于基于所述两条情报信息的被攻击目标信息计算所述两条情报信息的被攻击目标相似度；以及总相似度计算模块，用于根据所述两条情报信息的发生时间相似度、攻击源相似度和被攻击目标相似度计算所述两条情报信息的情报相似度。

在一些实施例中，所述发生时间相似度计算模块计算所述两条情报信息的发生时间相似度Sim_t为：

在一些实施例中，所述攻击源相似度计算模块计算所述两条情报信息的攻击源相似度Sim_att为：

在一些实施例中，所述被攻击目标相似度计算模块计算所述两条情报信息的被攻击目标相似度Sim_def为：

在一些实施例中，所述总相似度计算模块计算所述两条情报信息的情报相似度Sim_总为：Sim_总＝Sim_t×Sim_att×Sim_def，其中，Sim_t为所述两条情报信息的发生时间相似度，Sim_att为所述两条情报信息的攻击源相似度，Sim_def为所述两条情报信息的被攻击目标相似度。

在一些实施例中，所述数据提取单元用于将所述多条情报信息输入到词向量相似度模型，利用所述词向量相似度模型对所述多条情报信息进行数据处理，以提取每条情报信息的情报数据，以及对所述情报数据进行格式标准化。

在一些实施例中，所述数据提取单元还用于利用开源文本库语料和/或已有的威胁情报字段描述语料进行词语向量化以获得词向量，对所述词向量进行维度压缩，将维度压缩后的词向量输入到所述词向量相似度模型，以及利用采集的威胁情报信息的词语训练所述词向量相似度模型。

根据本公开的另一个方面，提供了一种情报处理系统，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如前所述的方法。

根据本公开的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如前所述的方法的步骤。

在上述情报处理方法中，采集多条情报信息；从该多条情报信息分别提取情报数据，其中，该情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息；基于多条情报信息的发生时间、攻击源信息和被攻击目标信息计算该多条情报信息的情报相似度；以及在该情报相似度大于设定阈值的情况下，经过去重处理，将该多条情报信息融合为一条情报信息。上述情报处理方法可以降低情报的重复度。因此，上述方法的数据聚合能力更强，可以降低大量冗杂数据。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的情报处理方法的流程图；

图2是示出根据本公开另一些实施例的情报处理方法的流程图；

图3是示出根据本公开一些实施例的对词向量相似度模型进行训练的示意图；

图4是示出根据本公开一些实施例的词向量的示意图；

图5是示出根据本公开一些实施例的情报处理系统的结构图；

图6是示出根据本公开一些实施例的相似度计算单元的结构图；

图7是示出根据本公开另一些实施例的情报处理系统的结构图；

图8是示出根据本公开另一些实施例的情报处理系统的结构图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出根据本公开一些实施例的情报处理方法的流程图。如图1所示，该情报处理方法可以包括步骤S102至S108。

在步骤S102，采集多条情报信息。

例如，可以利用API(Application Programming Interface，应用程序接口)请求、日志解析或网络爬虫等技术手段收集多种来源的威胁情报，并利用相关接口(例如，地理信息接口或whois(域名查询协议)信息接口等)对情报信息进行扩展。例如，可以利用地理信息接口或whois信息接口获得该情报信息的攻击源(例如源地址)或被攻击目标(例如目的地址)等，从而对情报信息进行扩展。

在步骤S104，从多条情报信息分别提取情报数据，其中，该情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息。

在一些实施例中，该步骤S104可以包括：将多条情报信息输入到词向量相似度模型；利用该词向量相似度模型对多条情报信息进行数据处理，以提取每条情报信息的情报数据；以及对情报数据进行格式标准化。

例如，词向量相似度模型可以采用已知的神经网络技术的词向量相似度模型。

在一些实施例中，所述情报处理方法还可以包括：利用开源文本库语料和/或已有的威胁情报字段描述语料进行词语向量化以获得词向量(例如如图4所示)，对该词向量进行维度压缩，将维度压缩后的词向量输入到词向量相似度模型；以及利用采集的威胁情报信息的词语训练词向量相似度模型。通过对词向量相似度模型进行训练，可以将经过训练的词向量相似度模型用于提取情报数据。

另外，在上述对情报数据进行格式标准化的过程中，标准化的格式例如可以为：分别列出的每条情报信息的发生时间、攻击源信息(例如攻击源IP(Internet Protocol，网际互连协议)地址)和被攻击目标信息(例如被攻击目标IP地址)等。

在另一些实施例中，情报数据还可以包括其他的数据信息(例如：攻击手段、所属攻击组织和攻击的目标类型等)，因此，本公开实施例的情报数据并不仅限于此。

在步骤S106，基于多条情报信息的发生时间、攻击源信息和被攻击目标信息计算多条情报信息的情报相似度。

在一些实施例中，该多条情报信息可以包括两条情报信息。该步骤S106可以包括：基于该两条情报信息的发生时间计算该两条情报信息的发生时间相似度；基于该两条情报信息的攻击源信息计算该两条情报信息的攻击源相似度；基于该两条情报信息的被攻击目标信息计算该两条情报信息的被攻击目标相似度；以及根据该两条情报信息的发生时间相似度、攻击源相似度和被攻击目标相似度计算该两条情报信息的情报相似度。

在一些实施例中，两条情报信息的发生时间相似度Sim_t的计算方法为：

其中，α为已知的第一参数，t_i为该两条情报信息中的一条情报信息的发生时间，t_j为该两条情报信息中的另一条情报信息的发生时间。

在上述两条情报信息的发生时间相似度Sim_t的计算过程中，可以将两条情报信息的时间差由[0，+∞]映射到[0，1]空间中去。当两条情报发生时间完全一致时，其时间相似度为1。两条情报信息的间隔时间越长，发生时间相似度越小。例如，t_i、t_j分别为两条情报信息的攻击发生时间的分钟值(例如，可以以1970-1-1 08:00为参照)。

例如，α取2880，两条情报发生时间分别为2019-6-24 15:14:30、2019-6-22 15:14:30，其计算结果为

因此，这两条情报信息的发生时间相似度约为0.238(这里，四舍五入保留三位小数)。

在一些实施例中，两条情报信息的攻击源相似度Sim_att的计算方法为：

其中，S_i为该两条情报信息中的一条情报信息的攻击源信息，S_j为该两条情报信息中的另一条情报信息的攻击源信息。S_i＝S_j表示该两条情报信息具有相同的攻击源信息，S_i≠S_j表示该两条情报信息不具有相同的攻击源信息。

攻击源是否相同是两条情报是否相似的最基本特征。因此，在上述实施例中，可以从两条情报数据中是否有相同的攻击源进行比较，只要有相同的攻击源，攻击源相似度即为1。

例如，两条情报信息的攻击源分别为：{192.168.0.1}和{192.168.0.1}，这两个攻击源具有相同的攻击源信息：192.168.0.1，所以这两条情报信息的攻击源相似度为1。

在一些实施例中，两条情报信息的被攻击目标相似度Sim_def的计算方法为：

其中，θ为已知的第二参数，且0≤θ≤1，D₁为该两条情报信息中的一条情报信息的被攻击目标信息的集合，D₂为该两条情报信息中的另一条情报信息的被攻击目标信息的集合，D₁∩D₂为D₁与D₂的交集的被攻击目标个数，D₁∪D₂为D₁与D₂的并集的被攻击目标个数。

在该实施例中，被攻击目标的相似度主要通过比较两条情报的攻击目标重叠程度，D1和D2分别为两条情报的被攻击目标集合。考虑到部分开源情报数据缺少被攻击目标数据，因此，设置了第二参数θ在[0,1]作为调节。该第二参数θ可以根据实际需要来确定。

例如，第二参数θ可以取0.5，两条情报被攻击目标分别为D₁为{1.1.1.1，192.168.0.1，192.168.0.2}，D₂为{192.168.0.1，192.168.0.2，192.168.0.3，192.168.0.4}，这两个集合的并集D₁∪D₂有5个被攻击目标，交集D₁∩D₂有2个被攻击目标，因此，Sim_def＝0.5+0.5×(2÷5)，即这两条情报信息的被攻击目标相似度为0.7。

在一些实施例中，两条情报信息的情报相似度Sim_总的计算方法为：Sim_总＝Sim_t×Sim_att×Sim_def， (4)

其中，Sim_t为该两条情报信息的发生时间相似度，Sim_att为该两条情报信息的攻击源相似度，Sim_def为该两条情报信息的被攻击目标相似度。

在该实施例中，通过将两条情报信息的发生时间相似度、攻击源相似度和被攻击目标相似度进行相乘，从而计算得到该两条情报信息的情报相似度。

在步骤S108，在情报相似度大于设定阈值的情况下，经过去重处理，将多条情报信息融合为一条情报信息。

在一些实施例中，该设定阈值的范围可以为0.6至0.8。例如，该设定阈值可以为0.7。当然，本领域技术人员可以理解，该设定阈值可以根据实际情况或实际需要来确定，该设定阈值的范围并不仅限于此。

在一些实施例中，在情报相似度大于设定阈值的情况下，经过去重处理，将两条情报信息融合(或者说合并)为一条情报信息。例如，如果两条情报信息的攻击源信息相同，则可以通过去重处理，去除一个攻击源信息而保留一个攻击源信息；又例如，如果两条情报信息的发生时间不同，则可以均保留这两个发生时间。经过这样的操作，可以将两条情报信息融合为一条情报信息。

在另一些实施例中，在情报相似度小于或等于设定阈值的情况下，则不将多条情报信息融合。

至此，描述了根据本公开一些实施例的情报处理方法。该情报处理方法包括：采集多条情报信息；从该多条情报信息分别提取情报数据，其中，该情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息；基于多条情报信息的发生时间、攻击源信息和被攻击目标信息计算该多条情报信息的情报相似度；以及在该情报相似度大于设定阈值的情况下，经过去重处理，将该多条情报信息融合为一条情报信息。该情报处理方法可以降低情报的重复度。因此，上述方法的数据聚合能力更强，可以降低大量冗杂数据。

另外，与传统的字符串匹配方法相比，本公开的方法提出基于发生时间、攻击源、被攻击目标三个要素对情报相似度进行计算，对超过设定阈值的多条情报可以归并融合，因此实现了高效可靠的筛选出重复情报并有效去重。本公开的方法能丰富数据的维度，降低数据的存储成本。

在一些实施例中，对于三条情报信息，可以先对其中的两条情报信息按照公式(1)至(4)计算情报相似度，当这两条情报信息的情报相似度大于设定阈值时，将这两条情报信息融合为一条情报信息，再将该融合的一条情报信息与除上述两条情报信息之外的第三条情报信息按照公式(1)至(4)计算情报相似度，进行判断是否将其融合；若上面所述的两条情报信息的情报相似度小于或等于设定阈值，则这两条情报信息不能融合为一条情报信息，则将上述两条情报信息分别与上述第三条情报信息计算情报相似度并进行相应判断，判断是否需要融合。这样实现了对三条情报信息的是否融合的处理。以此类推，对于四条、五条或更多条情报信息也可以进行类似的处理。

图2是示出根据本公开另一些实施例的情报处理方法的流程图。如图2所示，该情报处理方法可以包括步骤S202至S224。

在步骤S202，通过API请求采集厂商标准化情报。

在步骤S204，通过日志数据采集生产系统情报。

在步骤S206，通过爬虫技术抓取开源情报，并利用地理信息接口或whois信息接口对情报信息进行富化。

这里需要说明的是，本公开实施例的情报处理方法可以包括上述步骤S202至S206中的至少一个。通过上述步骤S202至S206，可以实现对情报信息的采集。

在步骤S208，基于词向量相似度模型提取情报数据。

在步骤S210，对情报数据进行格式标准化。

在步骤S212，计算两条情报信息的发生时间相似度。

在步骤S214，计算两条情报信息的攻击源相似度。

在步骤S216，计算两条情报信息的被攻击目标相似度。

在步骤S218，计算两条情报信息的情报相似度。

在步骤S220，判断情报相似度是否大于设定阈值。如果是，则过程进入步骤S222；否则过程进入步骤S224。

在步骤S222，将两条情报信息融合为一条情报信息。

在步骤S224，不将两条情报信息融合。

至此，提供了根据本公开另一些实施例的情报处理方法。利用API请求、日志解析或网络爬虫等技术手段收集多种来源途径威胁情报，并利用地理信息接口或whois信息接口对情报数据进行富化；基于开源文本库或已有的威胁情报语料库训练词向量相似度模型，对不同格式的情报自动化提取；基于发生时间、攻击源和被攻击目标三要素对情报相似度进行计算，对相似度较高(大于设定阈值)的情报归并融合。该方法可以解决当前情报数据价值密度低、重复数据多和各来源数据格式不一致的问题。

图3是示出根据本公开一些实施例的对词向量相似度模型进行训练的示意图。

对开源文本库语料(例如，维基百科语料库)302与已有的威胁情报字段描述语料304进行分词处理(步骤308)，将分词后的词语输入到词向量相似度模型306。这里，中文分词处理是从信息处理需要出发，按照特定的规范对汉语按分词单位进行划分的过程。该分词处理可以是已知的分词处理过程。例如该词向量相似度模型可以包括映射层、隐藏层和噪声分类器等。该词向量相似度模型可以对词语向量化(例如，如图4所示的词向量，该词向量包括词1至词n，n为正整数)并进行维度压缩。这些词语可以存储在词向量相似度模型中。在步骤310，可以采集威胁情报的词语对词向量相似度模型进行训练。当有新情报信息的字段描述时，该新情报信息的字段与已有的字段描述进行相似度匹配，完成格式标准化。

在一些实施例中，词向量相似度可以通过下面两个词向量的夹角β的余弦值表示：

其中，x_i、y_i分别表示两个词向量。

例如，两条情报描述攻击源为“攻击者”、“攻击源”，假设词向量4维(为表示方便，实际可以为300维)，两个词向量分别为(1,1,1,1)和(2,2,2,2)，根据公式(5)计算得到，这两个词向量的相似度为1。

在上述基于语义相似度的情报数据提取方法中，通过基于开源文本和已有情报描述库的模型训练，可以有效对各种描述情报实现数据标准化，比传统方法灵活性更好，适用范围更广。

图5是示出根据本公开一些实施例的情报处理系统的结构图。如图5所示，该情报处理系统可以包括：信息采集单元510、数据提取单元520、相似度计算单元530和信息融合单元540。

信息采集单元510用于采集多条情报信息。

数据提取单元520用于从多条情报信息分别提取情报数据。该情报数据可以包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息。

相似度计算单元530用于基于多条情报信息的发生时间、攻击源信息和被攻击目标信息计算该多条情报信息的情报相似度。

信息融合单元540用于在情报相似度大于设定阈值的情况下，经过去重处理，将多条情报信息融合为一条情报信息。

至此，描述了根据本公开一些实施例的情报处理系统。在该情报处理系统中，通过信息采集单元采集多条情报信息，数据提取单元从该多条情报信息分别提取情报数据，其中，该情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息，相似度计算单元基于多条情报信息的发生时间、攻击源信息和被攻击目标信息计算该多条情报信息的情报相似度，以及信息融合单元在情报相似度大于设定阈值的情况下，经过去重处理，将该多条情报信息融合为一条情报信息，从而可以降低情报的重复度。因此，上述情报处理系统的数据聚合能力更强，可以降低大量冗杂数据。

在一些实施例中，数据提取单元520可以用于将多条情报信息输入到词向量相似度模型，利用该词向量相似度模型对该多条情报信息进行数据处理，以提取每条情报信息的情报数据，以及对该情报数据进行格式标准化。

在一些实施例中，数据提取单元520还可以用于利用开源文本库语料和/或已有的威胁情报字段描述语料进行词语向量化以获得词向量，对词向量进行维度压缩，将维度压缩后的词向量输入到词向量相似度模型，以及利用采集的威胁情报信息的词语训练该词向量相似度模型。

在一些实施例中，上述多条情报信息可以包括两条情报信息。

图6是示出根据本公开一些实施例的相似度计算单元的结构图。如图6所示，该相似度计算单元530可以包括：发生时间相似度计算模块531、攻击源相似度计算模块532、被攻击目标相似度计算模块532和总相似度计算模块534。

发生时间相似度计算模块531用于基于两条情报信息的发生时间计算该两条情报信息的发生时间相似度。

例如，该发生时间相似度计算模块531计算两条情报信息的发生时间相似度Sim_t为：

攻击源相似度计算模块532用于基于两条情报信息的攻击源信息计算该两条情报信息的攻击源相似度。

例如，该攻击源相似度计算模块532计算两条情报信息的攻击源相似度Sim_att为：

其中，S_i为该两条情报信息中的一条情报信息的攻击源信息，S_j为该两条情报信息中的另一条情报信息的攻击源信息。

被攻击目标相似度计算模块533用于基于两条情报信息的被攻击目标信息计算该两条情报信息的被攻击目标相似度。

例如，该被攻击目标相似度计算模块533计算两条情报信息的被攻击目标相似度Sim_def为：

总相似度计算模块534用于根据两条情报信息的发生时间相似度、攻击源相似度和被攻击目标相似度计算该两条情报信息的情报相似度。

例如，该总相似度计算模块534计算两条情报信息的情报相似度Sim_总为：Sim_总＝Sim_t×Sim_att×Sim_def，

其中，Sim_t为该两条情报信息的发生时间相似度，Sim_αtt为该两条情报信息的攻击源相似度，Sim_def为该两条情报信息的被攻击目标相似度。

至此，描述了根据本公开一些实施例的相似度计算单元。该相似度计算单元实现了基于发生时间、攻击源和被攻击目标三要素对情报相似度的计算。

图7是示出根据本公开另一些实施例的情报处理系统的结构图。该情报处理系统包括存储器710和处理器720。其中：

存储器710可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1和/或图2所对应实施例中的指令。

处理器720耦接至存储器710，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器720用于执行存储器中存储的指令，可以降低情报的重复度。

在一些实施例中，还可以如图8所示，该情报处理系统800包括存储器810和处理器820。处理器820通过BUS总线830耦合至存储器810。该情报处理系统800还可以通过存储接口840连接至外部存储装置850以便调用外部数据，还可以通过网络接口860连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，可以降低情报的重复度。

在另一些实施例中，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1和/或图2所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种情报处理方法，包括：

采集多条情报信息；

从所述多条情报信息分别提取情报数据，其中，所述情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息；

基于所述多条情报信息的发生时间、攻击源信息和被攻击目标信息计算所述多条情报信息的情报相似度；以及

在所述情报相似度大于设定阈值的情况下，经过去重处理，将所述多条情报信息融合为一条情报信息。

2.根据权利要求1所述的情报处理方法，其中，所述多条情报信息包括两条情报信息；

基于所述多条情报信息的发生时间、攻击源信息和被攻击目标信息计算所述多条情报信息的情报相似度的步骤包括：

基于所述两条情报信息的发生时间计算所述两条情报信息的发生时间相似度；

基于所述两条情报信息的攻击源信息计算所述两条情报信息的攻击源相似度；

基于所述两条情报信息的被攻击目标信息计算所述两条情报信息的被攻击目标相似度；以及

根据所述两条情报信息的发生时间相似度、攻击源相似度和被攻击目标相似度计算所述两条情报信息的情报相似度。

3.根据权利要求2所述的情报处理方法，其中，所述两条情报信息的发生时间相似度Sim_t的计算方法为：

4.根据权利要求2所述的情报处理方法，其中，所述两条情报信息的攻击源相似度Sim_att的计算方法为：

5.根据权利要求2所述的情报处理方法，其中，所述两条情报信息的被攻击目标相似度Sim_def的计算方法为：

6.根据权利要求2所述的情报处理方法，其中，所述两条情报信息的情报相似度Sim_总的计算方法为：

Sim_总＝Sim_t×Sim_att×Sim_def，

其中，Sim_t为所述两条情报信息的发生时间相似度，Sim_att为所述两条情报信息的攻击源相似度，Sim_def为所述两条情报信息的被攻击目标相似度。

7.根据权利要求1所述的情报处理方法，其中，从所述多条情报信息分别提取情报数据的步骤包括：

将所述多条情报信息输入到词向量相似度模型；

利用所述词向量相似度模型对所述多条情报信息进行数据处理，以提取每条情报信息的情报数据；以及

对所述情报数据进行格式标准化。

8.根据权利要求7所述的情报处理方法，还包括：

利用开源文本库语料和/或已有的威胁情报字段描述语料进行词语向量化以获得词向量，对所述词向量进行维度压缩，将维度压缩后的词向量输入到所述词向量相似度模型；以及

利用采集的威胁情报信息的词语训练所述词向量相似度模型。

9.一种情报处理系统，包括：

信息采集单元，用于采集多条情报信息；

数据提取单元，用于从所述多条情报信息分别提取情报数据，其中，所述情报数据包括：每条情报信息的发生时间、攻击源信息和被攻击目标信息；

相似度计算单元，用于基于所述多条情报信息的发生时间、攻击源信息和被攻击目标信息计算所述多条情报信息的情报相似度；以及

信息融合单元，用于在所述情报相似度大于设定阈值的情况下，经过去重处理，将所述多条情报信息融合为一条情报信息。

10.根据权利要求9所述的情报处理系统，其中，所述多条情报信息包括两条情报信息；

所述相似度计算单元包括：

发生时间相似度计算模块，用于基于所述两条情报信息的发生时间计算所述两条情报信息的发生时间相似度；

攻击源相似度计算模块，用于基于所述两条情报信息的攻击源信息计算所述两条情报信息的攻击源相似度；

被攻击目标相似度计算模块，用于基于所述两条情报信息的被攻击目标信息计算所述两条情报信息的被攻击目标相似度；以及

总相似度计算模块，用于根据所述两条情报信息的发生时间相似度、攻击源相似度和被攻击目标相似度计算所述两条情报信息的情报相似度。

11.根据权利要求10所述的情报处理系统，其中，所述发生时间相似度计算模块计算所述两条情报信息的发生时间相似度Sim_t为：

12.根据权利要求10所述的情报处理系统，其中，所述攻击源相似度计算模块计算所述两条情报信息的攻击源相似度Sim_att为：

13.根据权利要求10所述的情报处理系统，其中，所述被攻击目标相似度计算模块计算所述两条情报信息的被攻击目标相似度Sim_def为：

14.根据权利要求10所述的情报处理系统，其中，所述总相似度计算模块计算所述两条情报信息的情报相似度Sim_总为：

Sim_总＝Sim_t×Sim_att×Sim_def，

15.根据权利要求9所述的情报处理系统，其中，

所述数据提取单元用于将所述多条情报信息输入到词向量相似度模型，利用所述词向量相似度模型对所述多条情报信息进行数据处理，以提取每条情报信息的情报数据，以及对所述情报数据进行格式标准化。

16.根据权利要求15所述的情报处理系统，其中，

所述数据提取单元还用于利用开源文本库语料和/或已有的威胁情报字段描述语料进行词语向量化以获得词向量，对所述词向量进行维度压缩，将维度压缩后的词向量输入到所述词向量相似度模型，以及利用采集的威胁情报信息的词语训练所述词向量相似度模型。

17.一种情报处理系统，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任意一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至8任意一项所述的方法的步骤。