CN114117453B

CN114117453B - 基于数据深度关联的计算机防御系统以及防御方法

Info

Publication number: CN114117453B
Application number: CN202111496054.8A
Authority: CN
Inventors: 周鹏儿; 唐小勇; 李长叶; 吴智灿
Original assignee: Shenzhen Cxrt Technology Co ltd
Current assignee: Shenzhen Cxrt Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-08-12
Anticipated expiration: 2041-12-08
Also published as: CN114117453A

Abstract

本申请公开了基于数据深度关联的计算机防御系统以及防御方法，其通过二级的语义理解模型，不仅利用文件夹中每个文档中的内容之间的上下文信息并编码，而且还利用文件夹中多个文档的内容之间的上下文信息并编码，从而充分利用了所述各个文档之间的内容相关性。进一步地，在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码，以提高回归的准确性，并且还提高了训练速度和收敛性。这样，可以更准确地对所述文件中的各份文档进行加密，进而提高了文件传输的安全性。

Description

基于数据深度关联的计算机防御系统以及防御方法

技术领域

本发明涉及计算机防御的领域，且更为具体地，涉及一种基于数据深度关联的计算机防御系统以及防御方法。

背景技术

目前，大部分企业主要是从外网和内网两方面做的信息安全防护工作。外网主要是采用安全设备防火墙防攻击等进行安全信息防护，防止黑客或者外来访问者进入企业内网窃取企业内部的核心数据。但是，如今大部分的企业发生重要数据泄密等丑闻主要是内部员工主动泄密，内部员工可以将重要资料通过U盘和邮件传输等等方式泄露出去。

现有的一些技术是在检测到数据从计算机内网被下载或者向外网IP进行传输时，对待传输的文件进行自动加密以起到安全防御的目的，但是，在被传输的文件夹中往往具有多份文档，有一些文档是私密性需要被加密的，而也有一些文档是非私密性不需要加密的，统一进行加密会影响到正常的文件传输和使用，因此，在加密之前，如何对文件夹中的文档进行标识是非常重要的。

因此，为了更好地对文件夹中的文档进行标识加密，以提高文件传输的安全性，期望一种基于数据深度关联的计算机防御系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于数据深度关联的计算机防御系统以及防御方法，其通过二级的语义理解模型，不仅利用文件夹中每个文档中的内容之间的上下文信息并编码，而且还利用文件夹中多个文档的内容之间的上下文信息并编码，从而充分利用了所述各个文档之间的内容相关性。进一步地，在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码，以提高回归的准确性，并且还提高了训练速度和收敛性。这样，可以更准确地对所述文件中的各份文档进行加密，进而提高了文件传输的安全性。

根据本申请的一个方面，提供了一种基于数据深度关联的计算机防御系统，其包括：

待传输文档获取单元，用于获取待传输的多份文档；

第一语义编码单元，用于将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列；

向量级联单元，用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量；

第二语义编码单元，用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列；

类别函数值计算单元，用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，其中，所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关，所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值；

最终安全性标签概率计算单元，用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和；以及

文档加密单元，用于基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。

在上述基于数据深度关联的计算机防御系统中，所述第一语义编码单元，包括：分词子单元，用于对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列；词向量子单元，用于使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列；语义编码子单元，用于使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列；以及，上下文编码子单元，用于使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。

在上述基于数据深度关联的计算机防御系统中，所述类别函数值计算单元，进一步用于：以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值；

其中，所述公式为：

其中，V_i表示每个所述第二文档特征向量，V₁表示所述第一文档特征向量，

表示每个所述第二文档特征向量与所述第一文档特征向量的距离的平方根，α表示每个所述第二文档特征向量的初始安全性类别标签概率。

在上述基于数据深度关联的计算机防御系统中，所述α作为超参数参与到所述第一语义理解模型和所述第二语义理解模型的训练过程中。

在上述基于数据深度关联的计算机防御系统中，所述最终安全性标签概率计算单元，进一步用于：以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率；其中，所述类Softmax函数为Pi＝exp(-xi)/∑exp(-xi)。

在上述基于数据深度关联的计算机防御系统中，所述文档加密单元，进一步用于：响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值，确定对对应的文档进行加密；以及，响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值，确定不对对应的文档进行加密。

根据本申请的另一方面，一种基于数据深度关联的计算机防御系统的防御方法，其包括：

获取待传输的多份文档；

将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列；

将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量；

将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列；

计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，其中，所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关，所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值；

以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和；以及

基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。

在上述基于数据深度关联的计算机防御系统的防御方法中，将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列，包括：对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列；使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列；使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列；以及，使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。

在上述基于数据深度关联的计算机防御系统的防御方法中，计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，包括：以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值；其中，所述公式为：

在上述基于数据深度关联的计算机防御系统的防御方法中，所述α作为超参数参与到所述第一语义理解模型和所述第二语义理解模型的训练过程中。

在上述基于数据深度关联的计算机防御系统的防御方法中，以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，包括：以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率；其中，所述类Softmax函数为Pi＝exp(-xi)/∑exp(-xi)。

在上述基于数据深度关联的计算机防御系统的防御方法中，基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密，包括：响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值，确定对对应的文档进行加密；以及，响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值，确定不对对应的文档进行加密。

与现有技术相比，本申请提供的基于数据深度关联的计算机防御系统以及防御方法，其通过二级的语义理解模型，可以不仅获得每个文档中的内容之间的上下文信息并编码，而且可以获得所述多个文档的内容之间的上下文信息并编码，从而充分利用了所述各个文档之间的内容相关性。进一步地，在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码，以提高回归的准确性，并且还提高了训练速度和收敛性。这样，可以更准确地对所述文件中的各份文档进行加密，进而提高了文件传输的安全性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于数据深度关联的计算机防御系统的应用场景图。

图2为根据本申请实施例的基于数据深度关联的计算机防御系统的框图。

图3为根据本申请实施例的基于数据深度关联的计算机防御系统中第一语义编码单元的框图。

图4为根据本申请实施例的基于数据深度关联的计算机防御系统的防御方法的流程图。

图5为根据本申请实施例的基于数据深度关联的计算机防御系统的防御方法的架构示意图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如前所述，目前，大部分企业主要是从外网和内网两方面做的信息安全防护工作。外网主要是采用安全设备防火墙防攻击等进行安全信息防护，防止黑客或者外来访问者进入企业内网窃取企业内部的核心数据。但是，如今大部分的企业发生重要数据泄密等丑闻主要是内部员工主动泄密，内部员工可以将重要资料通过U盘和邮件传输等等方式泄露出去。

现有的一些技术是在检测到数据从计算机内网被下载或者向外网IP进行传输时，对待传输的文件进行自动加密，但是，在被传输的文件夹中往往具有多份文档，有一些文档是私密性需要被加密的，而也有一些文档是非私密性不需要加密的，这样，在加密之前，如何对文件夹中的文档进行标识是非常重要的。

相应地，在本申请的技术方案中，考虑到在对文档进行加密时，需要根据文档的内容进行标签标注，而文件夹中的多份文档之间的内容不是独立的，而是彼此相关联的，因此需要针对多份文档之间的内容相关性来对多份文档进行基于整体的标签标注，从而实现文件的传输安全性。

具体地，在第一级语义编码模型中，将每份文档的文本数据输入编码器模型，在本申请中具体为基于上下文的语义理解模型，例如Bert模型或者Bert模型+双向LSTM模型，并将所获得的特征向量的序列进行级联以获得第一文档特征向量。

然后，在第二级语义编码模型中，将多份文档中的每个的文档特征向量再输入编码器模型，这里的编码器模型为基于转换器(transformer)模型的语义理解模型，以获得第二文档特征向量的序列。

之后，计算每个第二文档特征向量与其对应的第一文档特征向量的归属于转换器的类别函数值，即，每个第二文档特征向量乘以第一文档特征向量的转置再加上每个第二文档特征向量的初始安全性类别标签概率，然后除以每个第二文档特征向量与其对应的第一文档特征向量的距离的平方根，从而获得每个第二文档特征向量的类别函数值。

然后，再以所有第二文档特征向量的类别函数值作为整体来计算其最终安全性标签概率，即Pi＝exp(-xi)/∑exp(-xi)，其中，xi为每个第二文档特征向量的类别函数值。

应可以理解，通过二级的语义理解模型，可以不仅获得每个文档中的内容之间的上下文信息并编码，而且可以获得多个文档的内容之间的上下文信息并编码，从而充分利用了各个文档之间的内容相关性。

此外，除了在编码层面利用了内容相关性之外，在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码。也就是，代替对于每个第二文档特征向量单独进行标签标注，计算每个第二文档特征向量与其对应的第一文档特征向量的归属于转换器的类别函数值，该类别函数值不仅包含编码器的编码之前与之后的转移预测概率属性，也包含了分类解码器的隐状态。然后，再以类别函数值来作为类别概率空间来计算每个第二文档特征向量的标签概率，就在解码器层面实现了各个特征向量基于上下文特征的整体特征分布的充分利用，从而提高了回归的准确性，并提高了训练速度和收敛性。

基于此，本申请提出了一种基于数据深度关联的计算机防御系统，其包括：待传输文档获取单元，用于获取待传输的多份文档；第一语义编码单元，用于将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列；向量级联单元，用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量；第二语义编码单元，用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列；类别函数值计算单元，用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，其中，所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关，所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值；最终安全性标签概率计算单元，用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和；以及，文档加密单元，用于基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。

图1图示了根据本申请实施例的基于数据深度关联的计算机防御系统的应用场景图。如图1所示，在该应用场景中，首先，从计算机的存储端(例如，如图1中所示意的T)获取待传输文件夹(例如，如图1中所示意的F)中的多份文档(例如，如图1中所示意的D)。然后，将获得的所述多份文档输入至部署有基于数据深度关联的计算机防御算法的服务器中(例如，如图1中所示意的服务器S)，其中，所述服务器能够以基于数据深度关联的计算机防御算法对所述多份文档进行处理，以生成每个所述第二文档特征向量的最终安全性标签概率。进而，基于所述最终安全性标签概率来确定是否对所述文件中的各份文档进行加密，以提高所述文件传输的安全性且兼顾文件传输的效率。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图2图示了根据本申请实施例的基于数据深度关联的计算机防御系统的框图。如图2所示，根据本申请实施例的基于数据深度关联的计算机防御系统200，包括：待传输文档获取单元210，用于获取待传输的多份文档；第一语义编码单元220，用于将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列；向量级联单元230，用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量；第二语义编码单元240，用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列；类别函数值计算单元250，用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，其中，所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关，所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值；最终安全性标签概率计算单元260，用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和；以及，文档加密单元270，用于基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。

具体地，在本申请实施例中，所述待传输文档获取单元210和所述第一语义编码单元220，用于获取待传输的多份文档，并将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列。如前所述，在对文档进行加密时，需要根据所述文档的内容进行标签标注，而所述文件夹中的多份文档之间的内容不是独立的，而是彼此相关联的，因此，在本申请的技术方案中，需要针对所述多份文档之间的内容相关性来对多份所述文档进行基于整体的标签标注，从而实现文件的传输安全性。

也就是，在本申请的技术方案中，在第一级语义编码模型中，首先，需要从计算机的存储端获取待传输文件夹中的多份文档。然后，将所述多份文档中的每份文档的文本数据输入编码器模型，在一个具体示例中，可以输入基于上下文的语义理解模型，例如Bert模型或者Bert模型+双向LSTM模型，以获得文本语义特征向量的序列。

更具体地，在本申请的实施例中，所述第一语义编码单元，包括：首先，对每份所述文档的文本数据进行分词处理，以防止识别出的信息混乱，从而获得对应于每份文档的词序列。接着，使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量，从而获得词向量的序列。然后，使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列。最后，使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。这样，可以提取出所述文档的词序列中的每个词的语义信息以及上下文关系信息的关联隐含特征。

图3图示了根据本申请实施例的基于数据深度关联的计算机防御系统中第一语义编码单元的框图。如图3所示，所述第一语义编码单元220，包括：第一语义编码单元，包括：分词子单元221，用于对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列；词向量子单元222，用于使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列；语义编码子单元223，用于使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列；以及，上下文编码子单元224，用于使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。

具体地，在本申请实施例中，所述向量级联单元230，用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量。也就是，在本申请的技术方案中，在得到所述文本语义特征向量的序列后，将所述文本语义特征向量的序列中的所有文本语义特征向量进行级联以获得第一文档特征向量。应可以理解，这样就可以获得所述多份文档的每个文档中的内容之间的上下文信息的高维隐含关联特征。

具体地，在本申请实施例中，所述第二语义编码单元240，用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列。也就是，在本申请的技术方案中，进一步地，在第二级语义编码模型中，将所述多份文档中的每个的文档特征向量再输入编码器模型，在一个具体示例中，这里的编码器模型可以为基于转换器模型的语义理解模型，以获得第二文档特征向量的序列。应可以理解，通过所述二级的语义理解模型，可以不仅获得每个所述文档中的内容之间的上下文信息并编码，而且可以获得所述多个文档的内容之间的上下文信息并编码，从而充分利用了所述各个文档之间的内容相关性。

具体地，在本申请实施例中，所述类别函数值计算单元250，用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，其中，所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关，所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值。应可以理解，除了在编码层面利用了内容相关性之外，在解码层面也需要通过转换器类别函数值和解码器隐状态机制以实现上下文的解码。也就是，在本申请的技术方案中，代替对于每个所述第二文档特征向量单独进行标签标注，而计算每个所述第二文档特征向量与其对应的所述第一文档特征向量的归属于转换器的类别函数值，该所述类别函数值不仅包含编码器的编码之前与之后的转移预测概率属性，也包含了分类解码器的隐状态。值得一提的是，在一个具体示例中，计算每个所述第二文档特征向量乘以所述第一文档特征向量的转置再加上每个所述第二文档特征向量的初始安全性类别标签概率，然后除以每个所述第二文档特征向量与其对应的所述第一文档特征向量的距离的平方根，从而获得所述每个第二文档特征向量的类别函数值。

更具体地，在本申请实施例中，所述类别函数值计算单元，进一步用于：以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值；

其中，所述公式为：

表示每个所述第二文档特征向量与所述第一文档特征向量的距离的平方根，α表示每个所述第二文档特征向量的初始安全性类别标签概率。值得一提的是，这里，所述α作为超参数参与到所述第一语义理解模型和所述第二语义理解模型的训练过程中。

具体地，在本申请实施例中，所述最终安全性标签概率计算单元260和所述文档加密单元270，用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和，并基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。也就是，在一个具体示例中，首先，以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为Pi＝exp(-xi)/∑exp(-xi)，xi为每个第二文档特征向量的类别函数值。应可以理解，通过这样的方式，可以在解码器层面实现所述各个特征向量基于上下文特征的整体特征分布的充分利用，从而提高了回归的准确性，并提高了训练速度和收敛性。然后，再基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。具体地，响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值，确定对对应的文档进行加密；以及，响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值，确定不对对应的文档进行加密。

综上，基于本申请实施例的所述基于数据深度关联的计算机防御系统200被阐明，其通过二级的语义理解模型，可以不仅获得每个文档中的内容之间的上下文信息并编码，而且可以获得所述多个文档的内容之间的上下文信息并编码，从而充分利用了所述各个文档之间的内容相关性。进一步地，在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码，以提高回归的准确性，并且还提高了训练速度和收敛性。这样，可以更准确地对所述文件中的各份文档进行加密，进而提高了文件传输的安全性。

如上所述，根据本申请实施例的基于数据深度关联的计算机防御系统200可以实现在各种终端设备中，例如基于数据深度关联的计算机防御算法的服务器等。在一个示例中，根据本申请实施例的基于数据深度关联的计算机防御系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于数据深度关联的计算机防御系统200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于数据深度关联的计算机防御系统200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于数据深度关联的计算机防御系统200与该终端设备也可以是分立的设备，并且该基于数据深度关联的计算机防御系统200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性方法

图4图示了基于数据深度关联的计算机防御系统的防御方法的流程图。如图4所示，根据本申请实施例的基于数据深度关联的计算机防御系统的防御方法，包括步骤：S110，获取待传输的多份文档；S120，将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列；S130，将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量；S140，将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列；S150，计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，其中，所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关，所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值；S160，以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和；以及，S170，基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。

图5图示了根据本申请实施例的基于数据深度关联的计算机防御系统的防御方法的架构示意图。如图5所示，在所述基于数据深度关联的计算机防御系统的防御方法的网络架构中，首先，将获取的所述多份文档中的每份文档的文本数据(例如，如图5中所示意的IN)分别输入基于上下文的语义理解模型(例如，如图5中所示意的SUM)以获得文本语义特征向量的序列(例如，如图5中所示意的VF)；接着，将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量(例如，如图5中所示意的VF1)；然后，将所述文本语义特征向量的序列通过基于转换器的编码器模型(例如，如图5中所示意的C)以获得第二文档特征向量的序列(例如，如图5中所示意的VF2)；接着，计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值(例如，如图5中所示意的CFV)；然后，以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数(例如，如图5中所示意的圈S)来计算每个所述第二文档特征向量的最终安全性标签概率(例如，如图5中所示意的SLP)；以及，最后，基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。

更具体地，在步骤S110和S120中，获取待传输的多份文档，并将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列。也就是，在本申请的技术方案中，在第一级语义编码模型中，首先，需要从计算机的存储端获取待传输文件夹中的多份文档。然后，将所述多份文档中的每份文档的文本数据输入编码器模型，在一个具体示例中，可以输入基于上下文的语义理解模型，例如Bert模型或者Bert模型+双向LSTM模型，以获得文本语义特征向量的序列。

具体地，在本申请实施例中，将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列的过程，包括：首先，对每份所述文档的文本数据进行分词处理，以防止识别出的信息混乱，从而获得对应于每份文档的词序列。接着，使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量，从而获得词向量的序列。然后，使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列。最后，使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。这样，可以提取出所述文档的词序列中的每个词的语义信息以及上下文关系信息的关联隐含特征。

更具体地，在步骤S130中，将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量。也就是，在本申请的技术方案中，在得到所述文本语义特征向量的序列后，将所述文本语义特征向量的序列中的所有文本语义特征向量进行级联以获得第一文档特征向量。应可以理解，这样就可以获得所述多份文档的每个文档中的内容之间的上下文信息的高维隐含关联特征。

更具体地，在步骤S140中，将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列。也就是，在本申请的技术方案中，进一步地，在第二级语义编码模型中，将所述多份文档中的每个的文档特征向量再输入编码器模型，在一个具体示例中，这里的编码器模型可以为基于转换器模型的语义理解模型，以获得第二文档特征向量的序列。应可以理解，通过所述二级的语义理解模型，可以不仅获得每个所述文档中的内容之间的上下文信息并编码，而且可以获得所述多个文档的内容之间的上下文信息并编码，从而充分利用了所述各个文档之间的内容相关性。

更具体地，在步骤S150中，计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，其中，所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关，所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值。应可以理解，除了在编码层面利用了内容相关性之外，在解码层面也需要通过转换器类别函数值和解码器隐状态机制以实现上下文的解码。也就是，在本申请的技术方案中，代替对于每个所述第二文档特征向量单独进行标签标注，而计算每个所述第二文档特征向量与其对应的所述第一文档特征向量的归属于转换器的类别函数值，该所述类别函数值不仅包含编码器的编码之前与之后的转移预测概率属性，也包含了分类解码器的隐状态。值得一提的是，在一个具体示例中，计算每个所述第二文档特征向量乘以所述第一文档特征向量的转置再加上每个所述第二文档特征向量的初始安全性类别标签概率，然后除以每个所述第二文档特征向量与其对应的所述第一文档特征向量的距离的平方根，从而获得所述每个第二文档特征向量的类别函数值。

更具体地，在步骤S170和步骤S160中，以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和，并基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。也就是，在一个具体示例中，首先，以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，其中，所述类Softmax函数为Pi＝exp(-xi)/∑exp(-xi)，xi为每个第二文档特征向量的类别函数值。应可以理解，通过这样的方式，可以在解码器层面实现所述各个特征向量基于上下文特征的整体特征分布的充分利用，从而提高了回归的准确性，并提高了训练速度和收敛性。然后，再基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对所述文件中的各份文档进行加密。具体地，响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值，确定对对应的文档进行加密；以及，响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值，确定不对对应的文档进行加密。

综上，基于本申请实施例的所述基于数据深度关联的计算机防御系统的防御方法被阐明，其通过二级的语义理解模型，可以不仅获得每个文档中的内容之间的上下文信息并编码，而且可以获得所述多个文档的内容之间的上下文信息并编码，从而充分利用了所述各个文档之间的内容相关性。进一步地，在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码，以提高回归的准确性，并且还提高了训练速度和收敛性。这样，可以更准确地对所述文件中的各份文档进行加密，进而提高了文件传输的安全性。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于数据深度关联的计算机防御系统，其特征在于，包括：

待传输文档获取单元，用于获取待传输的多份文档；

文档加密单元，用于基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对文件中的各份文档进行加密；

所述类别函数值计算单元，进一步用于以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值；

其中，所述公式为：

2.根据权利要求1所述的基于数据深度关联的计算机防御系统，所述第一语义编码单元，包括：

分词子单元，用于对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列；

词向量子单元，用于使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列；

语义编码子单元，用于使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列；以及

上下文编码子单元，用于使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。

3.根据权利要求1所述的基于数据深度关联的计算机防御系统，其中，所述最终安全性标签概率计算单元，进一步用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率；

其中，所述类Softmax函数为Pi＝exp(-xi)/∑exp(-xi)。

4.根据权利要求3所述的基于数据深度关联的计算机防御系统，所述文档加密单元，进一步用于：响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值，确定对对应的文档进行加密；以及，响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值，确定不对对应的文档进行加密。

5.一种基于数据深度关联的计算机防御系统的防御方法，其特征在于，包括：

获取待传输的多份文档；

基于每个所述第二文档特征向量的最终安全性标签概率，确定是否对文件中的各份文档进行加密；

其中，计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值，包括：

以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值；

其中，所述公式为：

6.根据权利要求5所述的基于数据深度关联的计算机防御系统的防御方法，其中，将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列，包括：

对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列；

使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列；

使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列；以及

使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。

7.根据权利要求5所述的基于数据深度关联的计算机防御系统的防御方法，其中，以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率，包括：

以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率；

其中，所述类Softmax函数为Pi＝exp(-xi)/∑exp(-xi)。