CN114357190A

CN114357190A - 一种数据检测方法、装置、电子设备及存储介质

Info

Publication number: CN114357190A
Application number: CN202111652510.3A
Authority: CN
Inventors: 王全; 黄�俊; 袁帅
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-15

Abstract

本申请公开了一种数据检测方法、装置、电子设备及存储介质，所述数据检测方法，包括：确定接收的待检测数据所属的第一业务类型，若确定从构建的网络安全知识图谱中匹配到第一业务类型的基线子图，则提取待检测数据中的实体和实体间的关系，其中，网络安全知识图谱包含网络安全领域中至少两种业务类型的基线子图，将待检测数据中的实体和实体间的关系与第一业务类型的基线子图进行匹配，获得第一匹配结果，将待检测数据中的实体和实体间的关系与网络安全知识图谱中除第一业务类型的基线子图之外的其他业务类型的基线子图进行匹配，获得第二匹配结果，根据第一匹配结果和第二匹配结果确定待检测数据的检测结果。

Description

一种数据检测方法、装置、电子设备及存储介质

技术领域

本申请涉及网络安全领域，尤其涉及一种数据检测方法、装置、电子设备及存储介质。

背景技术

随着计算机网络的发展和网络安全环境的日趋复杂，网络攻击事件频发，为了确保网络空间安全，通过部署网络安全防护设备如防火墙、IPS(Intrusion PreventionSystem，入侵预防系统)等检测网络流量中的异常行为。目前，通常采用规则匹配的方式对网络流量数据中的异常行为进行检测，通过预先设置的固定规则构造异常行为检测模型，使用异常行为检测模型进行数据检测。然而，这种通过设置固定规则构造的异常行为检测模型无法全面覆盖不同业务类型的数据的检测，检测准确率以及检测效率不高，并且无法检测不同业务类型数据中的行为关联关系。

发明内容

为了解决背景技术中的问题，本申请实施例提供了一种数据检测方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种数据检测方法，包括：

接收待检测数据，确定所述待检测数据所属的第一业务类型；

若确定从构建的网络安全知识图谱中匹配到所述第一业务类型的基线子图，则提取所述待检测数据中的实体和实体间的关系，其中，所述网络安全知识图谱包含网络安全领域中至少两种业务类型的基线子图，任一业务类型的基线子图是根据从所述任一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱，所述网络安全知识图谱是根据所述至少两种业务类型的基线子图中的实体的关联关系融合生成的；

将所述待检测数据中的实体和实体间的关系与所述第一业务类型的基线子图进行匹配，获得第一匹配结果；并

将所述待检测数据中的实体和实体间的关系与所述网络安全知识图谱中除所述第一业务类型的基线子图之外的其他业务类型的基线子图进行匹配，获得第二匹配结果；

根据所述第一匹配结果和所述第二匹配结果确定所述待检测数据的检测结果。

在一种可能的实施方式中，在确定所述待检测数据所属的第一业务类型之后，还包括：

若确定从网络安全知识图谱中未匹配到所述第一业务类型的基线子图，则获取所述第一业务类型的历史情报文本数据集；

根据从所述第一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建所述第一业务类型的基线子图；

根据所述第一业务类型的基线子图中的实体与所述网络安全知识图谱中已有的各业务类型的基线子图中的实体的关联关系将所述第一业务类型的基线子图融合至所述网络安全知识图谱。

在一种可能的实施方式中，通过以下方式构建所述任一业务类型的基线子图：

获取所述任一业务类型的历史情报文本数据集；

根据预设实体识别模型提取所述历史情报文本数据集中的每一情报文本中的实体；

根据预设关系抽取规则抽取所述每一情报文本中的实体间的关系；

根据所述每一情报文本中的实体和所述实体间的关系构建所述业务类型的基线子图。

在一种可能的实施方式中，所述预设实体识别模型包括第一预训练模型、第二预训练模型和序列标注模型；

根据预设实体识别模型提取所述历史情报文本数据集中的每一情报文本中的实体，具体包括：

针对所述历史情报文本数据集中的每一情报文本，对所述情报文本进行分词处理，将分词后得到的各个词语输入所述第一预训练模型，获得对应的各个词向量；

将所述各个词向量输入所述第二预训练模型，获得所述各个词语对应的实体类型向量；

将所述各个词语对应的实体类型向量输入所述序列标注模型，获得所述各个词语对应的实体识别结果。

在一种可能的实施方式中，所述第一预训练模型为自适应Bert模型，所述自适应Bert模型采用以下公式对当前位置词的词向量进行位置编码：

其中，AG-POSVEC(pos)表示所述当前位置词的词向量的位置编码；

pos表示所述当前位置词在当前语句中的位置；

α、β为平衡因子；

d表示所述词向量的维度；

LN(pos,θ)为位置编码损失正则化项，

表示Bert模型损失的期望，λ为步长，μ为容忍度因子，

表示Bert模型的损失函数，y表示所述当前位置词的真实标签，θ为Bert模型的参数，

表示在Bert模型参数为θ的条件下，所述当前位置词的标签的预测值，

表示从当前位置跨入λ个位置时对应词的标签的预测值，

表示

与

的误差总和。

在一种可能的实施方式中，所述序列标注模型包括CRF层，所述CRF层预测当前位置词所属的实体类别的最佳路径的得分公式为：

其中，score(k,v)为所述当前位置词所属的实体类别的最佳路径的得分，k表示所述当前位置词所属语句的第i个子块的标注序列，v表示所述当前位置词的词向量；

L(n_i-1,n_i,v,t_i,b_i)表示相邻两个子块n_i-1和n_i的标签输入词向量v，第i个子块的起始位置与结束位置之间标签的转移分数；

n_i表示所述第i个子块，n_i-1表示第i-1个子块；s_i表示所述第i个子块的起始标签在所述当前位置词所属语句中的位置，b_i表示所述第i个子块的结束标签在所述当前位置词所属语句中的位置，w表示权重系数；

O_i表示所述第i个子块对应的归一化后的分数；

表示从所述第i-1个子块到所述第i个子块的转移分数，

表示所述词向量标签的权重参数向量。

第二方面，本申请实施例提供了一种数据检测装置，包括：

接收单元，用于接收待检测数据，确定所述待检测数据所属的第一业务类型；

提取单元，用于若确定从构建的网络安全知识图谱中匹配到所述第一业务类型的基线子图，则提取所述待检测数据中的实体和实体间的关系，其中，所述网络安全知识图谱包含网络安全领域中至少两种业务类型的基线子图，任一业务类型的基线子图是根据从所述任一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱，所述网络安全知识图谱是根据所述至少两种业务类型的基线子图中的实体的关联关系融合生成的；

第一匹配单元，用于将所述待检测数据中的实体和实体间的关系与所述第一业务类型的基线子图进行匹配，获得第一匹配结果；并

第二匹配单元，用于将所述待检测数据中的实体和实体间的关系与所述网络安全知识图谱中除所述第一业务类型的基线子图之外的其他业务类型的基线子图进行匹配，获得第二匹配结果；

确定单元，用于根据所述第一匹配结果和所述第二匹配结果确定所述待检测数据的检测结果。

在一种可能的实施方式中，所述装置，还包括：

获取单元，用于在确定所述待检测数据所属的第一业务类型之后，若确定从网络安全知识图谱中未匹配到所述第一业务类型的基线子图，则获取所述第一业务类型的历史情报文本数据集；

构建单元，用于根据从所述第一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建所述第一业务类型的基线子图；

融合单元，用于根据所述第一业务类型的基线子图中的实体与所述网络安全知识图谱中已有的各业务类型的基线子图中的实体的关联关系将所述第一业务类型的基线子图融合至所述网络安全知识图谱。

在一种可能的实施方式中，所述提取单元，具体用于通过以下方式构建所述任一业务类型的基线子图：获取所述任一业务类型的历史情报文本数据集；根据预设实体识别模型提取所述历史情报文本数据集中的每一情报文本中的实体；根据预设关系抽取规则抽取所述每一情报文本中的实体间的关系；根据所述每一情报文本中的实体和所述实体间的关系构建所述业务类型的基线子图。

所述提取单元，具体用于针对所述历史情报文本数据集中的每一情报文本，对所述情报文本进行分词处理，将分词后得到的各个词语输入所述第一预训练模型，获得对应的各个词向量；将所述各个词向量输入所述第二预训练模型，获得所述各个词语对应的实体类型向量；将所述各个词语对应的实体类型向量输入所述序列标注模型，获得所述各个词语对应的实体识别结果。

本申请提供的数据检测装置的技术效果可以参见上述第一方面或第一方面的各个实现方式的技术效果，此处不再赘述。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请所述的数据检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请所述的数据检测方法中的步骤。

本申请实施例的有益效果如下：

本申请实施例提供的数据检测方法、装置、电子设备及存储介质，接收待检测数据，确定待检测数据所属的第一业务类型，若确定从构建的网络安全知识图谱中匹配到第一业务类型的基线子图，则提取待检测数据中的实体和实体间的关系，其中，网络安全知识图谱包含网络安全领域中至少两种业务类型的基线子图，任一业务类型的基线子图是根据从该任一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱，网络安全知识图谱是根据所述至少两种业务类型的基线子图中的实体的关联关系融合生成的，进而，将提取的待检测数据中的实体和实体间的关系与第一业务类型的基线子图进行匹配，获得第一匹配结果，并将待检测数据中的实体和实体间的关系与网络安全知识图谱中除第一业务类型的基线子图之外的其他业务类型的基线子图进行匹配，获得第二匹配结果，根据第一匹配结果和第二匹配结果确定待检测数据的检测结果，本申请实施例提供的数据检测方法，将网络安全领域中多种业务类型对应的不同领域(或场景)构建的基线子图融合生成涵盖多业务类型的网络安全知识图谱，对待检测数据中的异常行为进行多场景关联分析，相比于传统的基于单场景以及设置固定规则的检测方式，无需针对不同业务类型对应的场景单独设置检测规则，因此，检测效率更高，并且，本申请实施例中的不同业务类型的基线子图是根据从相应的历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱，检测准确率更高，且实现了针对不同业务类型数据中的行为关联关系的检测。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的数据检测方法的实施流程示意图；

图2为本申请实施例提供的构建任一业务类型的基线子图的实施流程示意图；

图3为本申请实施例提供的提取任一业务类型的历史情报文本数据集中的每一情报文本中的实体的实施流程示意图；

图4为本申请实施例提供的业务类型为数据库领域的基线子图示例图；

图5为本申请实施例提供的业务类型为邮件领域的基线子图示例图；

图6为本申请实施例提供的业务类型为数据库领域的基线子图与业务类型为邮件领域的基线子图融合后得到的网络安全知识图谱；

图7为本申请实施例提供的待检测数据与网络安全知识图谱的匹配示意图；

图8为本申请实施例提供的数据检测装置的结构示意图；

图9为本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本文中，需要理解的是，本申请所涉及的技术术语中：

网络安全知识图谱：知识图谱是一种语义网络，是对现实世界的事物及关系进行形式化地描述，知识图谱一般用三元组表示，三元组的基本关系形式主要为<概念，属性，属性值>和<实体1，关系，实体2>等。

网络安全知识图谱针对的是网络安全领域的知识，描述的实体和关系也主要针对网络安全领域。

如图1所示，其为本申请实施例提供的数据检测方法的实施流程示意图，该数据检测方法可以应用于网络安全防御设备中，具体可以包括以下步骤：

S11、接收待检测数据，确定待检测数据所属的第一业务类型。

具体实施时，待检测数据可以为结构化数据、半结构化数据或非结构化数据，业务类型表征数据所属的领域，如：数据库领域、邮件领域等领域。

网络安全防御设备接收待检测数据(即实时的网络流量数据)，可通过正则匹配的方式对待检测数据的所属的业务类型进行匹配，确定待检测数据所属的业务类型，可记为第一业务类型。

S12、若确定从构建的网络安全知识图谱中匹配到第一业务类型的基线子图，则提取待检测数据中的实体和实体间的关系。

其中，实体和实体间的关系是知识图谱的基本元素，实体即数据对象，例如：IP地址、邮箱地址、URL、域名、用户名、数据库名、数据库的表名、漏洞编号等。实体间的关系表征数据对象之间的连接方式。本申请实施例中，网络安全防御设备预先根据网络安全领域的相关网络安全标准，构建网络安全知识本体，网络安全知识本体定义了网络安全领域的实体和实体间的关系，除此之外，网络安全知识本体还可以包括实体(即节点)的属性类型。

所述网络安全知识图谱包含网络安全领域中至少两种业务类型的基线子图，任一业务类型的基线子图是根据从该任一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱，所述网络安全知识图谱是根据所述至少两种业务类型的基线子图中的实体的关联关系融合生成的。

具体实施时，网络安全防御设备预先构建网络安全领域的不同领域(即不同业务类型)的基线子图，再根据不同业务类型的基线子图中实体的关联关系进行融合，生成网络安全知识图谱，如果将各个不同业务类型的基线子图记为垂直领域的基线子图，则可将生成的包含了各个不同业务类型的基线子图的网络安全知识图谱记为：通用领域的网络安全知识图谱。

具体地，可以按照如图2所示的流程构建任一业务类型的基线子图：

S21、获取任一业务类型的历史情报文本数据集。

网络安全防御设备可以预先利用爬虫技术获取网络安全领域的非结构化数据集，非结构化数据集中的数据为文本数据，由于非结构化的文本数据存在格式不一、特殊符号(如HTML(Hyper Text Markup Language，超文本标记语言)标签、XML(Extensible MarkupLanguage，可扩展标记语言)标签、非法字符)等问题，需要对非结构化数据集中的文本数据进行预处理(即数据清洗)，预处理主要包括：(1)断句处理，可以根据常用的标点符号如逗号、句号、感叹号、分号、问号等进行断句处理，(2)去除无用的符号，如：HTML标签及XML标签等特殊符号、括号等字符。在实施过程中，可以但不限于获取历史情报文本数据集，主要是由安全研究员撰写的网络安全研究报告，例如APT(Advanced Persistent Threat，高级可持续威胁)报告、恶意软件专题报告等，本申请实施例对此不作限制。本申请实施例中，所采用的非结构化数据仅以情报文本数据为例进行说明。

具体地，网络安全防御设备利用爬虫技术获取网络安全领域的历史情报文本数据集，根据业务类型对获取的历史情报文本数据集中的情报文本进行分类，获得各业务类型的历史情报文本数据集。针对每一业务类型的历史情报文本数据集中的各历史情报文本进行数据清洗，对各历史情报文本进行断句处理以及去除无用符号。

S22、根据预设实体识别模型提取历史情报文本数据集中的每一情报文本中的实体。

具体实施时，预设实体识别模型可以包括第一预训练模型、第二预训练模型和序列标注模型，其中，第一预训练模型可以使用Bert(Bidirectional EncoderRepresentation from Transformers，基于Transformer的双向编码器表征)模型，本申请实施例中为了实现获得更精确的词向量表示，对常规的Bert模型进行了改进，提出一种自适应Bert模型，本申请中的自适应Bert模型对常规的Bert预训练模型进行了如下改进：

本申请中的自适应Bert模型采用以下公式对当前位置词的词向量进行位置编码：

pos表示所述当前位置词在当前语句中的位置；

α、β为平衡因子，用于调节相邻位置的编码表示；

d表示所述当前位置词的词向量的维度；

LN(pos,θ)为位置编码损失正则化项，

表示Bert模型损失的期望，λ为步长，μ为容忍度因子，

表示从当前位置跨入λ个位置时对应词的标签的预测值，

表示

与

的误差总和。

其中，当前位置词的词向量的位置即为当前位置词的位置。

上述公式中，针对平滑项LN(pos,θ)的设置是利用了对抗训练的思想，将最小化Bert模型损失的期望作为平滑项，其中，步长λ考虑了当前位置词的词向量的上下文表示，可根据句长进行灵活设置，容忍度因子μ用于调节当前位置与窗口内最远位置的最大损失(该损失值是归一化后的损失值)。根据上述公式可自适应调节不同句长的上下文关系，改变Bert模型整体的灵活性，根据误差的变化进行调参，有利于实体识别任务中语义相近但位置较远的实体对象的识别。

第二预训练模型可以但不限于使用Transformer模型，本申请实施例对此不作限定；序列标注模型可以使用BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆)+CRF(Conditional Random Field，条件随机场)，其中，BiLSTM模型由前向LSTM(Long Short-Term Memory，长短时记忆)模型和后向LSTM模型组合而成，在BiLSTM模型后加上一层CRF模型组成序列标注模型，序列标注模型还可以使用BiLSTM+CRF(ConditionalRandom Field，条件随机场)等其他任意可用于实体识别任务的序列标注模型，本申请实施例对此不作限定。其中，BiLSTM+CRF是在BiLSTM模型后加上一层CRF模型(可记为CRF层)组成序列标注模型。

在一种实施方式中，预设实体识别模型以第一预训练模型使用自适应Bert模型、第二预训练模型使用Transformer模型、序列标注模型使用BiLSTM+CRF模型为例，该实体识别模型训练过程如下：

网络安全防御设备利用爬虫技术获取网络安全领域的非结构化数据集，具体可以获取情报文本数据集，将获取的情报文本数据集中的每一情报文本作为训练样本，其中，情报文本数据集中包含不同业务类型(即领域)的情报文本，按照前述数据清洗方式对各情报文本进行数据清洗的预处理，针对预处理后的每一情报文本样本，分别进行分词处理，分词的主要目的是构建词库，结合业务类型(即情报文本样本所属领域或场景)对每一情报文本样本进行分词，提取不同业务类型(或领域)的特征词构建词库，如数据库名、数据库的表名、用户名等信息，过滤无关信息，如msgtype、sip、app、app_proto等，其中，分词算法可以但不限于采用隐马尔可夫模型，分词工具可使用jieba工具，进而，将分词后得到的各个词语作为输入序列输入自适应Bert模型中，获得各个词语对应的词向量的输出序列，进而，将输出的各个词向量输入Transform模型，获得各个词语对应的实体类型向量，即：Transform模型的输出序列中每个词语被标注为不同实体类型的向量，分别将Transform模型输出的各个词语对应的实体类型向量作为序列标注模型BiLSTM+CRF模型的特征输入BiLSTM+CRF模型中，根据BiLSTM+CRF模型和各个词语对应的实体类别向量预测各个词语的标签，根据预设损失函数计算预先标注的各个词语的实际标签和预测的各个词语的标签的误差，其中损失函数可以但不限于使用交叉熵损失函数，本申请实施例对此不作限定，进而，根据标签的误差对所述实体识别模型进行迭代机器训练，即对自适应Bert模型、Transform模型和BiLSTM+CRF模型中的各个参数进行调整直至收敛，得到训练后的实体识别模型。

具体实施时，将Transform模型输出的各个词语对应的实体类型向量作为序列标注模型BiLSTM+CRF模型的特征输入BiLSTM+CRF模型后，CRF层根据每个词语的CRF特征和词语的实际标签计算语句中每个子块(子块是指通过将一个语句进行分词处理后得到的每一词语)的CRF特征，进一步来计算得到每个子块属于各个标注的最佳得分(即：预测每个词向量属于哪种实体类别的最佳路径的得分)，CRF层通过前向传播算法计算特征转移矩阵中的所有标注路径的得分，根据最佳标注路径得分和所有标注路径得分得到CRF层的损失函数，可采用Adam优化器对CRF层各个部分的损失函数的加权和来对整个模型的参数进行更新直至收敛，得到最终训练后的实体识别模型，其中，CRF层预测当前位置词所属的实体类别的最佳路径的得分公式具体为：

L(n_i-1,n_i,v,t_i,b_i)是一个似然函数，表示相邻两个子块n_i-1和n_i的标签输入词向量v，第i个子块的起始位置与结束位置之间标签的转移分数；

O_i表示所述第i个子块对应的归一化后的分数；

表示从所述第i-1个子块到所述第i个子块的转移分数，

表示所述当前位置词的词向量标签的权重参数向量。句向量为语句中不同子块的向量(即语句中各词向量)对应位置的和，也可以由语句中不同子块的向量拼接而成。

在具体实施过程中，可按照如图3所示的流程提取所述任一业务类型的历史情报文本数据集中的每一情报文本中的实体，包括以下步骤：

S31、针对任一业务类型的历史情报文本数据集中的每一情报文本，对所述情报文本进行分词处理，将分词后得到的各个词语输入第一预训练模型，获得对应的各个词向量。

具体实施时，针对任一业务类型的历史情报文本数据集中的每一情报文本，对所述情报文本进行分词处理，将分词后得到的各个词语输入实体识别模型中的自适应Bert模型，获得各个词语对应的词向量。

S32、将各个词向量输入第二预训练模型，获得各个词语对应的实体类型向量。

具体实施时，将各个词向量输入实体识别模型中的Transform模型，获得各个词语对应的实体类型向量。

S33、将各个词语对应的实体类型向量输入序列标注模型，获得各个词语对应的实体识别结果。

具体实施时，将各个词语对应的实体类型向量输入实体识别模型中的序列标注模型，获得各个词语对应的实体识别结果，获得识别出的各个实体。

在一种较佳的实施方式中，在获得每一情报文本中识别出的各个实体之后，可以分别计算识别出的各个实体对应的词向量与其他实体对应的词向量的相似度，将词向量的相似度值大于预设阈值的实体确定为同一类实体，可统一用其中一个实体名称替代其他各实体。

S23、根据预设关系抽取规则抽取每一情报文本中的实体间的关系。

具体实施时，在根据实体识别模型提取出历史情报文本数据集中的每一情报文本中的实体之后，根据网络安全知识本体定义的网络安全领域的实体和实体间的关系，抽取每一情报文本中的不同实体间的关系。

进而，在提取出各个业务类型的历史情报文本数据集中的每一情报文本中的各组实体和实体间的关系(也即各个三元组)后，可以将各业务类型与对应的各组实体和实体间的关系(各个三元组)存储至图数据库(如Neo4j、Hugegraph、OrientDB或ElasticSearch等)中，在后续构建网络安全知识图谱时，可以直接从图数据库中进行提取，相比于存储于传统的数据库，从图数据库中查询不同业务类型对应的实体和实体间的关系时的检索速度更快，检索效率更高。

S24、根据每一情报文本中的实体和实体间的关系构建该任一业务类型的基线子图。

具体实施时，针对每一业务类型，从图数据库中查找该业务类型对应的所有实体和实体间的关系，在图数据库中建立节点，包括节点名和节点标签，节点名表示具体的实体表示的含义，节点标签表示该实体对应的类别，即该实体的属性，根据创建的节点，建立节点之间的边，边的建立依赖于三元组，三元组包括实体、以及实体与实体之间的关系，每一个节点对应一个实体，每两个节点之间的边对应两个实体之间的关系。例如，业务类型为数据库领域时，“User1”和“DbBase”是同一条数据库日志中不同的两个实体，“User1”和“DbBase”为节点名，“User1”对应的节点标签为“用户”，“DbBase”对应的节点标签为“数据库”，“User1”和“DbBase”之间的关系为“访问”，关系的标签可根据不同业务类型自行定义。将实体对应节点通过实体间的关系对应的边进行连接，构建各业务类型对应的知识图谱，即：各业务类型对应的基线子图。进而，将各业务类型对应的基线子图进行融合即可得到网络安全知识图谱，融合方法如下：根据每个业务类型对应的基线子图中共有的节点(即实体)，直接将这些节点(实体)迁移到另一个业务类型对应的基线子图中，遍历每个节点，即可完成各个基线子图的融合。在对网络安全知识图谱进行可视化时，可以将标签不同的实体(即不同类别的实体)和关系显示为不同的颜色。

每个业务类型对应的领域可包括多个子领域，例如数据库领域可包括客户端异常访问数据库、客户端异常访问数据库的表、客户端异常访问数据库的用户等子场景，邮件领域可包括异地IP登录同一邮箱账号、同一IP登录多个邮箱账号等。

下面举一实例进行说明，假设业务类型为数据库领域的基线子图如图4所示，业务类型为邮件领域的基线子图如图5所示，图4所示的数据库领域的基线子图中，包含以下实体：“Place1”、“User1”、“141.1.1.5”、“User1@163.com”、“DbBase”以及“TbBase”，其中，“Place1”的标签为：地名，“User1”的标签为：用户，“141.1.1.5”的标签为：IP，“User1@163.com”的标签为：邮箱账号，“DbBase”的标签为：数据库，“TbBase”的标签为：数据库的表。“User1”和“Place1”之间的关系为：locate(位于)，其表示：“User1”位于“Place1”，“User1”和“141.1.1.5”之间的关系为：has-a，表示：“User1”所在IP为“141.1.1.5”，User1”和“User1@163.com”之间的关系为：has-a，表示：“User1”的邮箱账号为“User1@163.com”，“User1”和“DbBase”之间的关系为：access(访问)，表示：“User1”访问数据库“DbBase”，“User1”和“TbBase”之间的关系为：access，表示：“User1”访问数据库的表“TbBase”。图5所示的邮件领域的基线子图中，包含以下实体：“User1@163.com”、“Place1”、“141.1.1.5”、和“User1”，“User1@163.com”和“Place1”之间的关系为：login(登录)，表示：“User1@163.com”登录“Place1”，“User1@163.com”和“141.1.1.5”之间的关系为：login，表示：IP“141.1.1.5”登录了邮箱“User1@163.com”，“User1@163.com”和“User1”之间的关系为：has-a，表示：“User1”的邮箱账号为“User1@163.com”。则将图4中所示的基线子图与图5中所示的基线子图进行融合后得到的网络安全知识图谱如图6所示。

在确定待检测数据所属的第一业务类型之后，若确定从网络安全知识图谱中未匹配到第一业务类型的基线子图，则获取第一业务类型的历史情报文本数据集；根据从第一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建第一业务类型的基线子图；根据第一业务类型的基线子图中的实体与网络安全知识图谱中已有的各业务类型的基线子图中的实体的关联关系将第一业务类型的基线子图融合至网络安全知识图谱，再执行步骤S13。这样，可以数据检测的过程中不断完善网络安全知识图谱包含的不同业务类型的业务子图，提高建立的网络安全知识图谱的通用性。

S13、将待检测数据中的实体和实体间的关系与第一业务类型的基线子图进行匹配，获得第一匹配结果。

具体实施时，将待检测数据中的实体和实体间的关系与第一业务类型的基线子图进行匹配，如果第一业务类型的基线子图中包含待检测数据中的实体，则根据待检测数据中的实体和实体间的关系是否与该第一业务类型的基线子图中的对应实体与实体间的关系相符，如果相符则确定待检测数据中该实体与实体间的关系构成的行为事件正常，否则，确定待检测数据中该实体与实体间的关系构成的行为事件异常，并触发异常告警。

S14、将待检测数据中的实体和实体间的关系与网络安全知识图谱中除第一业务类型的基线子图之外的其他业务类型的基线子图进行匹配，获得第二匹配结果。

具体实施时，将待检测数据中的实体和实体间的关系与第一业务类型的基线子图进行匹配之后，进一步将待检测数据中的实体和实体间的关系与网络安全知识图谱中除第一业务类型的基线子图之外的其他业务类型的基线子图进行匹配，获得待检测数据中的实体与其它业务类型的子图中的实体之间的其他行为事件。

S15、根据第一匹配结果和所述第二匹配结果确定待检测数据的检测结果。

具体实施时，将待检测数据中的实体和实体间关系与其所属的第一业务类型的基线子图的匹配结果，以及待检测数据中的实体和实体间关系与除了第一业务类型的基线子图之外的其他类型的基线子图的匹配结果，确定为待检测数据最终的检测结果。

仍延续上例，假设待检测数据所属的业务类型为邮件领域，从待检测数据中提取到的实体包括：邮箱账号“User1@163.com”和“User2@outlook.com”、IP“192.4.3.5”、用户“User2”、地名“Place2”，其中，“User1@163.com”和“192.4.3.5”之间的关系为：login(即登录)，“User1@163.com”和“User2”之间的关系为：login，“User2”和“192.4.3.5”之间的关系为:has-a，“User2”和“Place2”之间的关系为：locate，“User2”和“User2@outlook.com”之间的关系为：has-a，“User2”和“User1”之间的关系是：hostile(敌对)，可将上述从待检测数据中提取到的实体按照实体之间的关系添加进图6所示的网络知识图谱中得到待检测数据中各实体与其所属的业务类型即邮件领域的基线子图的匹配结果，以及待检测数据中各实体与数据库领域的基线子图的匹配结果，具体如图7所示，在图7中，相同类型的实体用相同的颜色进行显示，不同类型的实体用不同的颜色进行显示，通过实体以及实体之间的关系可以得出所发生的行为事件，从图7中可以看出，匹配结果中包括以下异常行为事件：客户端异常访问数据库、客户端异常访问数据库的表、客户端异常访问数据库的用户、异地IP登录同一邮箱账号、同一IP登录多个邮箱账号。由图6和图7可知，“User2”和“192.4.3.5”未在图4所示的基线子图中，也不在图5所示的基线子图中，利用已有的基线子图可以检索到不符合基线的行为事件，如：IP“192.4.3.5”登录了邮箱“User1@163.com”和“User2@outlook.com”，即可分析出：IP为“192.4.3.5”的用户“User2”发生了同一IP登录多个邮箱账号这一异常行为事件，并且，IP“192.4.3.5”和“141.1.1.5”同时登录了邮箱“User1@163.com”，可分析出：IP为“192.4.3.5”的用户“User2”发生了异地IP登录了同一邮箱账号这一异常行为事件，用户“User2”为一个非法用户，并在其它多个场景存在异常行为(如客户端异常访问数据库、客户端异常访问数据库的表等)，应及时对用户“User2”进行封堵，以避免造成安全风险。

本申请实施例提供的数据检测方法，网络安全防御设备接收待检测数据，确定待检测数据所属的第一业务类型，若确定从构建的网络安全知识图谱中匹配到第一业务类型的基线子图，则提取待检测数据中的实体和实体间的关系，其中，网络安全知识图谱包含网络安全领域中至少两种业务类型的基线子图，任一业务类型的基线子图是根据从该任一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱，网络安全知识图谱是根据所述至少两种业务类型的基线子图中的实体的关联关系融合生成的，进而，将提取的待检测数据中的实体和实体间的关系与第一业务类型的基线子图进行匹配，获得第一匹配结果，并将待检测数据中的实体和实体间的关系与网络安全知识图谱中除第一业务类型的基线子图之外的其他业务类型的基线子图进行匹配，获得第二匹配结果，根据第一匹配结果和第二匹配结果确定待检测数据的检测结果，本申请实施例提供的数据检测方法，将网络安全领域中多种业务类型对应的不同领域(或场景)构建的基线子图融合生成涵盖多业务类型的网络安全知识图谱，对待检测数据中的异常行为进行多场景关联分析，相比于传统的基于单场景以及设置固定规则的检测方式，无需针对不同业务类型对应的场景单独设置检测规则，因此，检测效率更高，并且，本申请实施例中的不同业务类型的基线子图是根据从相应的历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱，检测准确率更高，且实现了针对不同业务类型数据中的行为关联关系的检测。

基于同一发明构思，本申请实施例还提供了一种数据检测装置，由于上述数据检测装置解决问题的原理与数据检测方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图8所示，其为本申请实施例提供的数据检测装置的结构示意图，可以包括：

接收单元41，用于接收待检测数据，确定所述待检测数据所属的第一业务类型；

提取单元42，用于若确定从构建的网络安全知识图谱中匹配到所述第一业务类型的基线子图，则提取所述待检测数据中的实体和实体间的关系，其中，所述网络安全知识图谱包含网络安全领域中至少两种业务类型的基线子图，任一业务类型的基线子图是根据从所述任一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱，所述网络安全知识图谱是根据所述至少两种业务类型的基线子图中的实体的关联关系融合生成的；

第一匹配单元43，用于将所述待检测数据中的实体和实体间的关系与所述第一业务类型的基线子图进行匹配，获得第一匹配结果；并

第二匹配单元44，用于将所述待检测数据中的实体和实体间的关系与所述网络安全知识图谱中除所述第一业务类型的基线子图之外的其他业务类型的基线子图进行匹配，获得第二匹配结果；

确定单元45，用于根据所述第一匹配结果和所述第二匹配结果确定所述待检测数据的检测结果。

在一种可能的实施方式中，所述装置，还包括：

在一种可能的实施方式中，所述提取单元42，具体用于通过以下方式构建所述任一业务类型的基线子图：获取所述任一业务类型的历史情报文本数据集；根据预设实体识别模型提取所述历史情报文本数据集中的每一情报文本中的实体；根据预设关系抽取规则抽取所述每一情报文本中的实体间的关系；根据所述每一情报文本中的实体和所述实体间的关系构建所述业务类型的基线子图。

所述提取单元42，具体用于针对所述历史情报文本数据集中的每一情报文本，对所述情报文本进行分词处理，将分词后得到的各个词语输入所述第一预训练模型，获得对应的各个词向量；将所述各个词向量输入所述第二预训练模型，获得所述各个词语对应的实体类型向量；将所述各个词语对应的实体类型向量输入所述序列标注模型，获得所述各个词语对应的实体识别结果。

pos表示所述当前位置词在当前语句中的位置；

α、β为平衡因子；

d表示所述词向量的维度；

LN(pos,θ)为位置编码损失正则化项，

表示Bert模型损失的期望，λ为步长，μ为容忍度因子，

表示从当前位置跨入λ个位置时对应词的标签的预测值，

表示

与

的误差总和。

O_i表示所述第i个子块对应的归一化后的分数；

表示从所述第i-1个子块到所述第i个子块的转移分数，

表示所述词向量标签的权重参数向量。

基于同一技术构思，本申请实施例还提供了一种电子设备500，参照图9所示，电子设备500用于实施上述方法实施例记载的数据检测方法，该实施例的电子设备500可以包括：存储器501、处理器502以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如数据检测程序。所述处理器执行所述计算机程序时实现上述各个数据检测方法实施例中的步骤，例如图2所示的步骤S21。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如41。

本申请实施例中不限定上述存储器501、处理器502之间的具体连接介质。本申请实施例在图9中以存储器501、处理器502之间通过总线503连接，总线503在图9中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线503可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器501可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器501也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器501可以是上述存储器的组合。

所述处理器502，用于调用所述存储器501中存储的计算机程序执行如图2中所示的数据检测方法。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本申请提供的数据检测方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的数据检测方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在确定所述待检测数据所属的第一业务类型之后，还包括：

3.如权利要求1所述的方法，其特征在于，通过以下方式构建所述任一业务类型的基线子图：

获取所述任一业务类型的历史情报文本数据集；

4.如权利要求3所述的方法，其特征在于，所述预设实体识别模型包括第一预训练模型、第二预训练模型和序列标注模型；

5.如权利要求4所述的方法，其特征在于，所述第一预训练模型为自适应Bert模型，所述自适应Bert模型采用以下公式对当前位置词的词向量进行位置编码：

pos表示所述当前位置词在当前语句中的位置；

α、β为平衡因子；

d表示所述词向量的维度；

LN(pos,θ)为位置编码损失正则化项，

表示Bert模型损失的期望，λ为步长，μ为容忍度因子，

表示从当前位置跨入λ个位置时对应词的标签的预测值，

表示

与

的误差总和。

6.如权利要求4所述的方法，其特征在于，所述序列标注模型包括CRF层，所述CRF层预测当前位置词所属的实体类别的最佳路径的得分公式为：

O_i表示所述第i个子块对应的归一化后的分数；

表示从所述第i-1个子块到所述第i个子块的转移分数，

表示所述词向量标签的权重参数向量。

7.一种数据检测装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，还包括：

9.如权利要求7所述的装置，其特征在于，

所述提取单元，具体用于通过以下方式构建所述任一业务类型的基线子图：获取所述任一业务类型的历史情报文本数据集；根据预设实体识别模型提取所述历史情报文本数据集中的每一情报文本中的实体；根据预设关系抽取规则抽取所述每一情报文本中的实体间的关系；根据所述每一情报文本中的实体和所述实体间的关系构建所述业务类型的基线子图。

10.如权利要求9所述的装置，其特征在于，所述预设实体识别模型包括第一预训练模型、第二预训练模型和序列标注模型；

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～6任一项所述的数据检测方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～6任一项所述的数据检测方法中的步骤。