CN115169350A

CN115169350A - 情报信息的处理方法、装置、设备、介质及程序

Info

Publication number: CN115169350A
Application number: CN202210856314.6A
Authority: CN
Inventors: 袁涵; 郭实秋; 高岩; 姜洪涛; 鞠港
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-10-11
Anticipated expiration: 2042-07-14
Also published as: CN115169350B

Abstract

本公开实施例提供了一种情报信息的处理方法、装置、计算机设备、可读存储介质及程序，涉及计算机技术领域。该方法包括：获取第一情报信息；将第一情报信息转换为词向量表示；将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体；将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；输出第一情报信息的实体以及实体之间的关系。本公开实施例提供的方案可以通过一个情报信息处理模型同时识别情报信息的实体，并提取情报信息的实体之间的关系。

Description

情报信息的处理方法、装置、设备、介质及程序

技术领域

本公开涉及计算机技术领域，尤其涉及一种情报信息的处理方法、装置、计算机设备、可读存储介质及程序。

背景技术

情报信息主要来源内部、商业、开源三方面，其中开源情报数据量丰富，但多为人读情报，需要从冗余复杂的数据中提取与网络安全相关的信息，并抽取信息间关系。

发明内容

本公开实施例提供了一种情报信息的方法、装置、计算机设备、可读存储介质及程序，可以通过一个情报信息处理模型同时识别情报信息的实体，并提取情报信息的实体之间的关系。

本公开实施例提供了一种情报信息的处理方法，包括：获取第一情报信息；

将第一情报信息转换为词向量表示；将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体，其中实体是第一情报信息中的专有名称或数量短语；将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；输出第一情报信息的实体以及实体之间的关系。

在一个实施例中，处理方法还包括：获取第二情报信息，其中，第二情报信息包括多条情报信息；根据第二情报信息形成情报语料库，其中情报语料库包括第二情报信息、每条情报信息的类别、每条情报信息中所包括的实体、每条情报信息中实体之间的关系；将情报语料库转换为词向量表示；根据转换为词向量表示的情报语料库对情报信息处理模型进行训练，以使情报信息处理模型具备识别情报信息中的实体，以及识别每条情报信息中实体之间的关系的能力。

在一个实施例中，根据转换为词向量表示的情报语料库对情报信息处理模型进行训练，包括：将词向量表示的情报语料库和词向量表示的情报语料库中词向量的位置，输入至情报信息处理模型；将识别情报信息中的实体以及识别每条情报信息中实体之间的关系，作为情报信息处理模型的训练任务。

在一个实施例中，根据第二情报信息形成情报语料库，包括：通过自动标注或人工标注的方式，根据第二情报信息形成情报语料库。

在一个实施例中，所述情报信息处理模型包括：输入表示，包括符号表示和位置表示；N层双向转换器Transformer，接收所述输入表示并学习所述输入表示的特征表示，其中N是大于等于2的整数；输出层，以所述N层双向转换器Transformer的最后一层为输出层，其中，所述输出层的下游任务为命名实体识别和关系提取。

在一个实施例中，所述符号表示包括词向量表示的所述情报语料库，所述位置表示包括词向量表示的所述情报语料库中词向量的位置。

在一个实施例中，所述输入表示的特征表示包括情报信息中的实体，以及每条情报信息中实体之间的关系。

在一个实施例中，输出第一情报信息的实体以及实体之间的关系，包括：在第一情报信息的实体之间不存在关系时，以单实体的形式输出第一情报信息的实体；在第一情报信息的实体之间存在关系时，以单实体的形式输出第一情报信息的实体，以三元组的形式输出第一情报信息的实体之间的关系。

在一个实施例中，处理方法还包括：预测第一情报信息的类别；输出第一情报信息的类别。

在一个实施例中，处理方法还包括：情报信息的类别包括陷落标识失陷检测IOC情报、漏洞情报、事件情报、攻击组织情报和基础情报。

在一个实施例中，获取第一情报信息包括：通过爬虫技术获取第一情报信息。

本公开实施例提供了一种情报信息的处理方法，包括：显示情报信息的处理界面；响应于输入的第一情报信息，识别第一情报信息的实体，其中实体是第一情报信息中的专有名称或数量短语；响应于输入的第一情报信息，将第一情报信息中的实体两两组合，预测第一情报信息的实体之间的关系；在情报信息的处理界面显示第一情报信息的实体以及实体之间的关系。

本公开实施例提供了一种情报信息的处理装置，包括：获取单元，用于获取第一情报信息；转换单元，用于将第一情报信息转换为词向量表示；第一识别单元，将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体，其中实体是第一情报信息中的专有名称或数量短语；第一预测单元，用于将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；输出单元，用于输出第一情报信息的实体以及实体之间的关系。

本公开实施例提供了一种情报信息的处理装置，包括：显示单元，用于显示情报信息的处理界面；第二识别单元，用于响应于输入的第一情报信息，识别第一情报信息的实体，其中实体是第一情报信息中的专有名称或数量短语；第二预测单元，响应于输入的第一情报信息，将第一情报信息中的实体两两组合，预测第一情报信息的实体之间的关系；显示单元，还用于在情报信息的处理界面显示第一情报信息的实体以及实体之间的关系。

本公开实施例提供了一种计算机设备，包括处理器、存储器、输入输出接口；处理器分别与存储器和输入输出接口相连，其中，输入输出接口用于接收数据及输出数据，存储器用于存储计算机程序，处理器用于调用计算机程序，以使得计算机设备执行如上实施例中任一项的方法。

本公开实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序适于由处理器加载并执行，以使得具有处理器的计算机设备执行如上实施例中任一项的方法。

本公开实施例提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上实施例中任一项的方法。

本公开上述实施例中的情报信息的处理方法，终端和/或服务器通过获取第一情报信息，将第一情报信息转换为词向量表示，将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体；将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；并输出第一情报信息的实体以及实体之间的关系，能够通过一个情报信息处理模型同时识别情报信息的实体，并提取情报信息的实体之间的关系。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施方式的情报信息的处理方法的示例性系统架构的示意图；

图2是本公开实施例提供的一种情报信息的处理方法的流程图；

图3是本公开实施例提供的一种情报信息的情报信息处理模型的训练流程图；

图4示出了本公开一个实施例的NR-BERT模型训练示意图；

图5示出了本公开一个实施例的NR-BERT模型进行情报信息的处理的示意图；

图6是本公开一个实施例的情报信息的处理方法的流程图；

图7是本公开实施例提供的一种情报信息的处理装置的结构示意图；

图8是本公开实施例提供的一种情报信息的处理装置的结构示意图；

图9是本公开实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开实施例中，可以基于人工智能和机器学习技术，通过终端和/或服务器获取第一情报信息；将第一情报信息转换为词向量表示；将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体；将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；输出第一情报信息的实体以及实体之间的关系，从而实现对情报信息的实体的提取和关系的识别。

下面首先对本公开的一些术语进行说明：

其中，BERT模型的全称是Bidirectional Encoder Representations fromTransformer(基于Transformer的双向编码器表示)，是一个预训练的语言表征模型，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model(MLM)，以致能生成深度的双向语言表征。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定NLP(NaturalLanguage Processing，自然语言处理)任务中作微调，最终应用于该NLP任务。本申请中NR-BERT模型中N代表命名实体识别(Named Entity Recognition)，R代表关系提取(RelationExtraction)，NR代表模型的训练和使用时的任务。

联合抽取模型(Joint Model)是一种模型任务概念，具体表示通过一个模型实现完成多个任务的目标。联合抽取模型与一个模型对应一个任务的方式相对应。

处理情报标签(TIL，Treat Intelligence Labels)，本申请中处理情报标签是根据情报分类自定义的标签。

开源情报(OSINT，Open source intelligence)是一种情报搜集手段，从各种公开的信息资源中寻找和获取有价值的情报。

命名实体识别(NER，Named Entity Recognition)是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等等，并把需要识别的词在文本序列中标注出来。

实体(Entity)，指文本中出现的专有名称或有意义的数量短语，如人名、地名等。

爬虫技术，是指网络爬虫，是一种按照一定的规则，自动地抓取网络信息的程序或者脚本。

Word2vec(词向量)，是一群用来产生词向量的相关模型。这些模型是浅而双层的神经网络，用来训练以重新建构语言学的词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络的隐藏层。

本公开实施例提供的方案涉及机器学习的BERT模型、联合抽取模型和Word2vec等技术。

图1示出了可以应用本公开实施方式的情报信息的处理方法的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端101、102、103中的一种或多种，网络104和服务器105。网络104是用以在终端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

工作人员可以使用终端101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如工作人员通过终端103(也可以是终端101或102)向服务器105发送情报信息的处理的指令时，服务器105可以获取第一情报信息；将第一情报信息转换为词向量表示；将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体，其中实体是第一情报信息中的专有名称或数量短语；将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；输出第一情报信息的实体以及实体之间的关系。

其中，终端可以是手机(如终端101)或平板电脑(如终端102)，还可以是台式计算机(如终端101)等，在此不做限制。其中，终端中可以显示应用程序，该应用程序可以是情报信息的处理的应用程序等。其中，图1中的终端仅为例举出的部分设备，在本公开中终端并不仅限于该图1中所例举的设备。

可以理解的是，本公开实施例中所提及的终端可以是一种用户设备，本公开实施例中的服务器包括但不限于服务器或服务器组成的集群。其中，以上所提及的终端可以是一种电子设备，包括但不限于手机、平板电脑、智能语音交互设备、智能家电、车载终端、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality，AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device，MID)，或者火车、轮船、飞行等场景下的终端设备等。

其中，以上所提及的服务器可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，还可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。

可选的，本公开实施例中所涉及的数据可以存储在云平台中，或者可以基于云存储技术、区块链技术对该数据进行存储，在此不做限制。

现有情报实体抽取与实体关系识别技术中，一方面使用现有语料库标签，缺少和情报的强相关性；另一方面利用预训练模型如BERT直接进行下游任务预测，无法完全匹配网络安全情报特点。此外，在进行信息抽取时，多采用以下两种方式：一是直接利用NER抽取实体，存在不能实现一对多(一对实体多对关系)、多对一(多对实体一个关系)的问题；二是先预测实体，再预测关系，存在误差传导，降低最终效果的问题，同时无法同时解决单实体、两元组问题。

图2是本公开实施例提供的一种情报信息的处理方法的流程图。本公开实施例提供的方法可以由图1实施例中的终端或服务器执行，或由终端和服务器交互执行。

如图2所示，本公开实施例提供的方法可以包括如下步骤。

在步骤S210中，获取第一情报信息。

在一个实施例中，终端和/或服务器获取第一情报信息，其中第一情报信息可以为开源情报。本公开中的情报信息如无特殊说明，均指开源情报。

例如，通过内部下载或爬虫技术，获取第一情报信息。其中一条情报数据如下所示：

近日，F5官方发布公告修复了一个存在于流量管理用户界面(TMUI，Trafficmanagement user interface)的远程代码执行漏洞(CVE-2020-5920)，CVE(CommonVulnerabilities and Exposures)评分为10分，F5 BIG-IP 15.x版本存在上述漏洞。

在步骤S220中，将第一情报信息转换为词向量表示。

在一个实施例中，终端和/或服务器将第一情报信息转换为词向量表示。

在一个实施例中，终端和/或服务器可以将第一情报信息进行降噪(如去重)等处理。然后通过word2vec模型将第一情报信息转换为词向量表示，使得第一情报信息转化为机器可读的数字向量。

在步骤S230中，将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体，其中实体是第一情报信息中的专有名称或数量短语。

在一个实施例中，终端和/或服务器将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体，其中实体是第一情报信息中的专有名称或数量短语。

其中，通过训练的情报信息处理模型是指根据情报语料库训练的具备识别情报信息中的实体，以及识别每条情报信息中实体之间的关系的能力的模型。具体的训练过程将在下文中详细说明。其中，情报信息处理模型例如为NR-BERT模型。

例如将情报信息“近日，F5官方发布公告修复了一个存在于流量管理用户界面(TMUI，Traffic management user interface)的远程代码执行漏洞(CVE-2020-5920)，CVE(Common Vulnerabilities and Exposures)评分为10分，F5 BIG-IP 15.x版本存在上述漏洞”识别为如下实体：

名称(Name)：远程代码执行漏洞；

CVE：CVE-2020-5920；

得分(score)：10；

产品(product)：F5 BIG-IP 15.x。

在步骤S240中，将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系。

在一个实施例中，终端和/或服务器将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系。

例如终端和/或服务器将实体：

“名称(Name)：远程代码执行漏洞；

CVE：CVE-2020-5920；

得分(score)：10；

产品(product)：F5 BIG-IP 15.x。”两两组合如下：

1.(name:远程代码执行漏洞，CVE:CVE-2020-5920)；

2.(name:远程代码执行漏洞，score:10)；

3.(name:远程代码执行漏洞，product:F5 BIG-IP 15.x)；

4.(CVE：CVE-2020-5920，score:10)；

5.(CVE：CVE-2020-5920，product:F5 BIG-IP 15.x)；

6.(score:10，product:F5 BIG-IP 15.x)。

然后将上述两两组合输入至通过训练的情报信息处理模型，使情报信息处理模型预测预测上述组合关系如下表1：

表1

组合	结果
		1	关系结果None(无关系)：两个单实体分别保存为情报信息
2	关系结果None：两个单实体分别保存为情报信息
		3	关系结果Inflect(有关系)：三元组保存为情报信息
4	关系结果None：两个单实体分别保存为情报信息
		5	关系结果None：两个单实体分别保存为情报信息
6	关系结果None：两个单实体分别保存为情报信息

在步骤S250中，输出第一情报信息的实体以及实体之间的关系。

在一个实施例中，终端和/或服务器输出第一情报信息的实体以及实体之间的关系。

在一个实施例中，输出第一情报信息的实体以及实体之间的关系，包括：

在第一情报信息的实体之间不存在关系时，以单实体的形式输出第一情报信息的实体；在第一情报信息的实体之间存在关系时，以单实体的形式输出第一情报信息的实体，以三元组的形式输出第一情报信息的实体之间的关系。。

例如，终端和/或服务器将情报信息“近日，F5官方发布公告修复了一个存在于流量管理用户界面(TMUI，Traffic management user interface)的远程代码执行漏洞(CVE-2020-5920)，CVE(Common Vulnerabilities and Exposures)评分为10分，F5 BIG-IP 15.x版本存在上述漏洞”输出如下：

名称(Name)：远程代码执行漏洞；

CVE：CVE-2020-5920；

得分(score)：10；

产品(product)：F5 BIG-IP 15.x；

((name:远程代码执行漏洞,product:F5 BIG-IP 15.x)，Inflect)。

其中，“名称(Name)：远程代码执行漏洞；CVE：CVE-2020-5920；得分(score)：10；产品(product)：F5 BIG-IP 15.x；”为单实体，“((name:远程代码执行漏洞，product:F5 BIG-IP 15.x)，Inflect)”为三元组。

在一个实施例中，图2的方法还包括：预测第一情报信息的类别；输出第一情报信息的类别。其中，预测第一情报信息的类别的模型可以是NR-BERT模型，也可以是其他模型，本公开不以此为限。在第一情报信息的类别的模型是NR-BERT模型时，对NR-BERT模型的训练时，还要增加类别识别的任务。

例如，情报信息“近日，F5官方发布公告修复了一个存在于流量管理用户界面(TMUI，Traffic management user interface)的远程代码执行漏洞(CVE-2020-5920)，CVE(Common Vulnerabilities and Exposures)评分为10分，F5 BIG-IP 15.x版本存在上述漏洞”可以被识别为漏洞情报。

在一个实施例中，第一情报信息的类别例如包括陷落标识失陷检测IOC(Indicators of Compromise，陷落标识失陷检测)情报、漏洞情报、事件情报、攻击组织情报和基础情报。

通过对情报的类别做如上的划分，可以实现情报识别的强相关性。

图3是本公开实施例提供的一种情报信息的情报信息处理模型的训练流程图。本公开实施例提供的方法可以由图1实施例中的终端或服务器执行，或由终端和服务器交互执行。

如图3所示，本公开实施例提供的情报信息处理模型的训练方法可以包括如下步骤。

在步骤S310中，获取第二情报信息，其中，第二情报信息包括多条情报信息。

在一个实施例中，终端和/或服务器获取第二情报信息，其中，第二情报信息包括多条情报信息。其中，可以通过爬虫技术获取第二情报信息。

在步骤S320中，根据第二情报信息形成情报语料库，其中情报语料库包括第二情报信息、每条情报信息的类别、每条情报信息中所包括的实体、每条情报信息中实体之间的关系。

在一个实施例中，终端和/或服务器根据第二情报信息形成情报语料库，其中情报语料库包括第二情报信息、每条情报信息的类别、每条情报信息中所包括的实体、每条情报信息中实体之间的关系；

在步骤S330中，将情报语料库转换为词向量表示。

在一个实施例中，终端和/或服务器将情报语料库转换为词向量表示。

在一个实施例中，通过Word2vec将情报语料库转换为词向量表示。

在步骤S340中，根据转换为词向量表示的情报语料库对情报信息处理模型进行训练，以使情报信息处理模型具备识别情报信息中的实体，以及识别每条情报信息中实体之间的关系的能力。

在一个实施例中，终端和/或服务器根据转换为词向量表示的情报语料库对情报信息处理模型进行训练，以使情报信息处理模型具备识别情报信息中的实体，以及识别每条情报信息中实体之间的关系的能力。

图3示出的情报信息的情报信息处理模型训练方法，通过获取第二情报信息；根据第二情报信息形成情报语料库；将情报语料库转换为词向量表示；根据转换为词向量表示的情报语料库对情报信息处理模型进行训练，以使情报信息处理模型具备识别情报信息中的实体，以及识别每条情报信息中实体之间的关系的能力，从而可以使情报信息处理模型具备识别情报信息中的实体，以及识别每条情报信息中实体之间的关系的能力。

下面以NR-BERT模型为示例，具体说明情报信息处理模型的训练方法。

图4示出了本公开一个实施例的NR-BERT模型训练示意图。

参考图4，情报信息处理模型NR-BERT模型包括输入表示E₁至E_N、N层双向转换器Transformer和输出层T₁至T_N：其中，E_CLS代表E₁至E_N的序列分类，C_CLS代表T₁至T_N的序列分类。

其中，输入表示E₁至E_N，包括符号表示Token Embeddings和位置表示PositionEmbeddings；其中，本申请中，符号表示包括词向量表示的所述情报语料库，位置表示包括词向量表示的情报语料库中词向量的位置。

N层双向转换器Transformer，接收输入表示并学习输入表示的特征表示，其中N是大于等于2的整数，例如图4中两层椭圆；其中，本申请中，输入表示的特征表示至少包括情报信息中的实体，以及每条情报信息中实体之间的关系。其中，参考图4，双向转换器Transformer中每层的每个转换器与下一层的每个转换器均保持连接。

输出层T₁至T_N，以N层双向转换器Transformer的最后一层为输出层，其中，输出层的下游任务为命名实体识别和关系提取。

此外，参考图4，Tok1至TokN是情报语料库。其中情报语料库包括第二情报信息、每条情报信息的类别、每条情报信息中所包括的实体、每条情报信息中实体之间的关系。其中，CLS代表Tok1至TokN的序列分类。

情报语料库中的第二情报信息可以是通过内部下载、爬虫技术等方式获取组织、暗网论坛、博客、推特(Twitter)、技术文章、社交媒体等开源情报人读信息。

其中，可以人工或自动将第二情报信息进行标注，标注包括每条情报信息的类别、每条情报信息中所包括的实体、每条情报信息中实体之间的关系。

将情报进行分类，具体可以划分为IOC情报、漏洞情报、事件情报、攻击组织情报、基础情报。不同的威胁情报类别自定义标注(Threat Intelligence Lables，TIL)，下表2为针对不同类别情报的TIL举例。

表2

参考图4，将Tok1至TokN表示的情报语料库通过Word2vec将情报语料库转换为词向量表示，其中，图4中的E₁至E_N可以理解为词向量表示的情报语料库，图中的E₁至E_N至少包括词向量表示的情报语料库和词向量表示的情报语料库中词向量的位置。图4中将BERT模型的任务替换为命名实体识别和实体之间关系提取，替代BERT原有的隐藏语言模型(Masked Language Model)和下一句子预测(Next Sentence Prediction)任务。

图4中的T₁至T_N可以理解为训练后的情报语料库。

图4中的BERT模型中，以命名实体识别和实体之间关系提取作为训练任务，以Word2vec转换的词向量表示情报语料库转作为输入，经过训练后，可以使BERT模型具备识别情报信息中的实体，以及识别每条情报信息中实体之间的关系的能力。

在其他实施例中，图4中的BERT模型还可以增加识别情报类别的任务，使模型具备识别情报的类别的能力。

图5示出了本公开一个实施例的NR-BERT模型进行情报信息的处理的示意图。

参考图5，BERT模型是图4中经过训练的NR-BERT模型。其中，图5中的BERT关系和BERT实体是图4中经过训练的NR-BERT模型，BERT关系和BERT实体是同一个模型，为了表示微调的目的采用图中分开表示的方式。其中，图5中的分类模型可以是图4中经过训练的NR-BERT模型也可以是其他分类模型。

图5的情报信息的处理采用Joint Model进行fine-tune，具体为：

Tok1至TokN是通过爬虫技术获取的第一情报信息。将Tok1至TokN表示的第一情报信息通过Word2vec转换为词向量，将词向量表示的第一情报信息输入至分类模型进行类别识别。其中图5的分类模型可以是NR-BERT模型也可以是其他分类模型。

词向量表示的第一情报信息输入至图4中经过训练的NR-BERT模型进行实体识别。然后将实体两两组合进行关系提取，最后输出单实体和三元组。

图6是本公开一个实施例的情报信息的处理方法的流程图。

参考图6，情报信息的处理方法可以包括：

步骤610，显示情报信息的处理界面；

步骤620，响应于输入的第一情报信息，识别第一情报信息的实体，其中实体是第一情报信息中的专有名称或数量短语；

步骤630，响应于输入的第一情报信息，将第一情报信息中的实体两两组合，预测第一情报信息的实体之间的关系；

步骤640，在情报信息的处理界面显示第一情报信息的实体以及实体之间的关系。

其中，图6中的情报信息的处理方法，可以使用图4的NR-BERT模型，从而可以实现情报信息的实体识别以及实体之间的关系的提取。

图7是本公开实施例提供的一种情报信息的处理装置的结构示意图。

如图7所示，本公开实施例提供的情报信息的处理装置700可以包括：

获取单元710，用于获取第一情报信息；

转换单元720，用于将第一情报信息转换为词向量表示；

第一识别单元730，将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体，其中实体是第一情报信息中的专有名称或数量短语；

第一预测单元740，用于将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；

输出单元750，用于输出第一情报信息的实体以及实体之间的关系。

图7所示的处理装置通过获取单元710获取第一情报信息；转换单元720将第一情报信息转换为词向量表示；第一识别单元730将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体，其中实体是第一情报信息中的专有名称或数量短语；第一预测单元740将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；输出单元750输出第一情报信息的实体以及实体之间的关系，能够实现情报信息实体的识别和实体关系提取。

在一个实施例中，输出单元750还用于在第一情报信息的实体之间不存在关系时，以单实体的形式输出第一情报信息的实体；在第一情报信息的实体之间存在关系时，以单实体的形式输出第一情报信息的实体，以三元组的形式输出第一情报信息的实体之间的关系。

在一个实施例中，获取单元710还用于通过爬虫技术获取第一情报信息。

图8是本公开实施例提供的一种情报信息的处理装置的结构示意图。

如图8所示，本公开实施例提供的情报信息的处理装置800可以包括：

显示单元810，用于显示情报信息的处理界面；

第二识别单元820，用于响应于输入的第一情报信息，识别第一情报信息的实体，其中实体是第一情报信息中的专有名称或数量短语；

第二预测单元830，响应于输入的第一情报信息，将第一情报信息中的实体两两组合，预测第一情报信息的实体之间的关系；

显示单元810，还用于在情报信息的处理界面显示第一情报信息的实体以及实体之间的关系。

其中，图8中的情报信息的处理装置，可以使用图4的NR-BERT模型，从而可以实现情报信息的实体识别以及实体之间的关系的提取。

参见图9，图9是本公开实施例提供的一种计算机设备的结构示意图。如图9所示，本公开实施例中的计算机设备可以包括：一个或多个处理器901、存储器902和输入输出接口903。该处理器901、存储器902和输入输出接口903通过总线904连接。存储器902用于存储计算机程序，该计算机程序包括程序指令，输入输出接口903用于接收数据及输出数据，如用于宿主机与计算机设备之间进行数据交互，或者用于在宿主机中的各个虚拟机之间进行数据交互；处理器901用于执行存储器902存储的程序指令。

其中，该处理器901可以执行如下操作：

获取第一情报信息；将第一情报信息转换为词向量表示；将词向量表示的第一情报信息输入至通过训练的情报信息处理模型，以使情报信息处理模型识别第一情报信息中的实体，其中实体是第一情报信息中的专有名称或数量短语；将词向量表示的第一情报信息中的实体两两组合输入至通过训练的情报信息处理模型，以使情报信息处理模型预测第一情报信息的实体之间的关系；输出第一情报信息的实体以及实体之间的关系。

或者，该处理器901可以执行如下操作：

显示情报信息的处理界面；响应于输入的第一情报信息，识别第一情报信息的实体，其中实体是第一情报信息中的专有名称或数量短语；响应于输入的第一情报信息，将第一情报信息中的实体两两组合，预测第一情报信息的实体之间的关系；在情报信息的处理界面显示第一情报信息的实体以及实体之间的关系。

在一些可行的实施方式中，该处理器901可以是中央处理单元(centralprocessing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器902可以包括只读存储器和随机存取存储器，并向处理器901和输入输出接口903提供指令和数据。存储器902的一部分还可以包括非易失性随机存取存储器。例如，存储器902还可以存储设备类型的信息。

具体实现中，该计算机设备可通过其内置的各个功能模块执行如上述实施例中各个步骤所提供的实现方式，具体可参见上述实施例中各个步骤所提供的实现方式，在此不再赘述。

本公开实施例通过提供一种计算机设备，包括：处理器、输入输出接口、存储器，通过处理器获取存储器中的计算机程序，执行上述实施例中所示方法的各个步骤，进行传输操作。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序适于由该处理器加载并执行上述实施例中各个步骤所提供的情报信息的处理方法，具体可参见上述实施例中各个步骤所提供的实现方式，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本公开所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本公开方法实施例的描述。作为示例，计算机程序可被部署为在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

该计算机可读存储介质可以是前述任一实施例提供的情报信息的处理装置或者该计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本公开实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中的各种可选方式中所提供的方法。

本公开实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例提供的方法及相关装置是参照本公开实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程传输设备的处理器以产生一个机器，使得通过计算机或其他可编程传输设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程传输设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程传输设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本公开较佳实施例而已，当然不能以此来限定本公开之权利范围，因此依本公开权利要求所作的等同变化，仍属本公开所涵盖的范围。

Claims

1.一种情报信息的处理方法，其特征在于，包括：

获取第一情报信息；

将所述第一情报信息转换为词向量表示；

将词向量表示的所述第一情报信息输入至通过训练的情报信息处理模型，以使所述情报信息处理模型识别所述第一情报信息中的实体，其中所述实体是所述第一情报信息中的专有名称或数量短语；

将词向量表示的所述第一情报信息中的实体两两组合输入至通过训练的所述情报信息处理模型，以使所述情报信息处理模型预测所述第一情报信息的实体之间的关系；

输出所述第一情报信息的实体以及所述实体之间的关系。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取第二情报信息，其中，所述第二情报信息包括多条情报信息；

根据所述第二情报信息形成情报语料库，其中所述情报语料库包括所述第二情报信息、每条情报信息的类别、每条情报信息中所包括的实体、每条情报信息中实体之间的关系；

将所述情报语料库转换为词向量表示；

根据转换为词向量表示的所述情报语料库对所述情报信息处理模型进行训练，以使所述情报信息处理模型具备识别情报信息中的实体，以及识别每条情报信息中实体之间的关系的能力。

3.根据权利要求2所述的方法，其特征在于，根据转换为词向量表示的所述情报语料库对所述情报信息处理模型进行训练，包括：

将词向量表示的所述情报语料库和词向量表示的所述情报语料库中词向量的位置，输入至所述情报信息处理模型；

将识别情报信息中的实体以及识别每条情报信息中实体之间的关系，作为所述情报信息处理模型的训练任务。

4.根据权利要求2所述的方法，其特征在于，根据所述第二情报信息形成情报语料库，包括：

通过自动标注或人工标注的方式，根据所述第二情报信息形成情报语料库。

5.根据权利要求3所述的方法，其特征在于，所述情报信息处理模型包括：

输入表示，包括符号表示和位置表示；

N层双向转换器Transformer，接收所述输入表示并学习所述输入表示的特征表示，其中N是大于等于2的整数；

输出层，以所述N层双向转换器Transformer的最后一层为输出层，其中，所述输出层的下游任务为命名实体识别和关系提取。

6.根据权利要求5所述的方法，其特征在于，所述符号表示包括词向量表示的所述情报语料库，所述位置表示包括词向量表示的所述情报语料库中词向量的位置。

7.根据权利要求5所述的方法，其特征在于，所述输入表示的特征表示包括情报信息中的实体，以及每条情报信息中实体之间的关系。

8.根据权利要求1所述的方法，其特征在于，输出所述第一情报信息的实体以及所述实体之间的关系，包括：

在所述第一情报信息的实体之间不存在关系时，以单实体的形式输出所述第一情报信息的实体；

在所述第一情报信息的实体之间存在关系时，以单实体的形式输出所述第一情报信息的实体，以三元组的形式输出所述第一情报信息的实体之间的关系。

9.根据权利要求1所述的方法，其特征在于，还包括：

预测所述第一情报信息的类别；

输出所述第一情报信息的类别。

10.根据权利要求9所述的方法，其特征在于，还包括：

情报信息的类别包括陷落标识失陷检测IOC情报、漏洞情报、事件情报、攻击组织情报和基础情报。

11.根据权利要求1所述的方法，其特征在于，获取第一情报信息包括：

通过爬虫技术获取所述第一情报信息。

12.一种情报信息的处理方法，其特征在于，包括：

显示情报信息的处理界面；

响应于输入的第一情报信息，识别所述第一情报信息的实体，其中所述实体是所述第一情报信息中的专有名称或数量短语；

响应于输入的所述第一情报信息，将所述第一情报信息中的实体两两组合，预测所述第一情报信息的实体之间的关系；

在所述情报信息的处理界面显示所述第一情报信息的实体以及所述实体之间的关系。

13.一种情报信息的处理装置，其特征在于，包括：

获取单元，用于获取第一情报信息；

转换单元，用于将所述第一情报信息转换为词向量表示；

第一识别单元，将词向量表示的所述第一情报信息输入至通过训练的情报信息处理模型，以使所述情报信息处理模型识别所述第一情报信息中的实体，其中所述实体是所述第一情报信息中的专有名称或数量短语；

第一预测单元，用于将词向量表示的所述第一情报信息中的实体两两组合输入至通过训练的所述情报信息处理模型，以使所述情报信息处理模型预测所述第一情报信息的实体之间的关系；

输出单元，用于输出所述第一情报信息的实体以及所述实体之间的关系。

14.一种情报信息的处理装置，其特征在于，包括：

显示单元，用于显示情报信息的处理界面；

第二识别单元，用于响应于输入的第一情报信息，识别所述第一情报信息的实体，其中所述实体是所述第一情报信息中的专有名称或数量短语；

第二预测单元，响应于输入的所述第一情报信息，将所述第一情报信息中的实体两两组合，预测所述第一情报信息的实体之间的关系；

显示单元，还用于在所述情报信息的处理界面显示所述第一情报信息的实体以及所述实体之间的关系。

15.一种计算机设备，其特征在于，包括处理器、存储器、输入输出接口；

所述处理器分别与所述存储器和所述输入输出接口相连，其中，所述输入输出接口用于接收数据及输出数据，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-11任一项所述的方法或者权利要求12所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-11任一项所述的方法或者权利要求12所述的方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-11任一项所述的方法或者权利要求12所述的方法。