CN116611057A

CN116611057A - 数据安全检测方法及其系统

Info

Publication number: CN116611057A
Application number: CN202310698879.0A
Authority: CN
Inventors: 王文娟
Original assignee: Beijing Zhongke Network Core Technology Co ltd
Current assignee: Beijing Zhongke Network Core Technology Co ltd
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-08-18
Anticipated expiration: 2043-06-13
Also published as: CN116611057B

Abstract

本发明公开了一种数据安全检测方法及其系统，其获取数据安全检测关联数据；采用基于深度学习的人工智能技术，进行数据安全检测关联数据中各个数据项的语义关联特征信息的充分表达，以此来对于数据泄露进行精准检测，从而识别和预防安全威胁并及时处理，保障企业数据资产和用户隐私的安全。

Description

数据安全检测方法及其系统

技术领域

本发明涉及智能化检测技术领域，尤其涉及一种数据安全检测方法及其系统。

背景技术

随着云计算和大数据技术的快速发展，数据量以指数级别增长。这种高速增长同时也带来了各种数据泄露等安全事件的风险。用户异常行为，例如数据盗取和越权访问，不仅会导致企业敏感信息泄露、品牌声誉受损，而且对公民隐私构成威胁，日益威胁着网络信息安全。

传统应对企业内部的数据泄露威胁的数据安全产品DLP(Data LeakagePrevention，数据泄露保护)类产品主要依靠预置企业敏感数据规则，通过管控员工上网行为等手段保障企业信息安全，即通过管控U盘拷贝、敏感文件发送、上传及打印等外发通路来阻断泄密风险。然而，这种方法存在局限性，不能有效应对内部员工窃取企业敏感数据等未知数据的泄密场景，因为内部员工具备企业数据资产的合法访问权限，且通常了解企业敏感数据的存放位置，传统的行为分析手段无法检测到该类行为，使得企业数据和用户隐私安全受到了威胁。

因此，期望一种优化的数据安全检测方案。

发明内容

本发明实施例提供一种数据安全检测方法及其系统，其获取数据安全检测关联数据；采用基于深度学习的人工智能技术，进行数据安全检测关联数据中各个数据项的语义关联特征信息的充分表达，以此来对于数据泄露进行精准检测，从而识别和预防安全威胁并及时处理，保障企业数据资产和用户隐私的安全。

本发明实施例还提供了一种数据安全检测方法，其包括：

获取数据安全检测关联数据，其中，所述数据安全检测关联数据包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据；

对所述数据安全检测关联数据进行数据清洗和分词处理以得到数据安全检测关联词的序列；

将所述数据安全检测关联词的序列通过词嵌入层以得到数据安全检测关联词嵌入向量的序列；

将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量；

将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量；

对所述数据安全检测关联数据语义理解特征向量进行特征分布优化以得到优化数据安全检测关联数据语义理解特征向量；以及

将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露。

本发明实施例中，将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量，包括：将所述数据安全检测关联词嵌入向量的序列进行一维排列以得到数据安全检测全局特征向量；计算所述数据安全检测全局特征向量与所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，分别以所述多个概率值中各个概率值作为权重对所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量进行加权以得到所述多个上下文数据安全检测关联词特征向量。

本发明实施例中，将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量，包括：将所述一维特征向量输入所述局部语义关联强化器的第一卷积层以得到第一尺度数据安全特征向量，其中，所述第一卷积层具有第一尺度的一维卷积核；将所述一维特征向量输入所述局部语义关联强化器的第二卷积层以得到第二尺度数据安全特征向量，其中，所述第二卷积层具有第二尺度的一维卷积核，所述第一尺度不同于所述第二尺度；以及，将所述第一尺度数据安全特征向量和所述第二尺度数据安全特征向量进行级联以得到所述数据安全检测关联数据语义理解特征向量。

本发明实施例中，所述局部语义关联强化器的第一卷积层和第二卷积层分别使用不同尺度的一维卷积核。

本发明实施例中，将所述一维特征向量输入所述局部语义关联强化器的第一卷积层以得到第一尺度数据安全特征向量，其中，所述第一卷积层具有第一尺度的一维卷积核，包括：使用所述局部语义关联强化器的第一卷积层对输入数据进行卷积处理、池化处理和非线性激活处理以由所述局部语义关联强化器的第一卷积层输出为所述第一尺度数据安全特征向量。

本发明实施例中，将所述一维特征向量输入所述局部语义关联强化器的第二卷积层以得到第二尺度数据安全特征向量，其中，所述第二卷积层具有第二尺度的一维卷积核，所述第一尺度不同于所述第二尺度，包括：使用所述局部语义关联强化器的第二卷积层对输入数据进行卷积处理、池化处理和非线性激活处理以由所述局部语义关联强化器的第二卷积层输出为所述第二尺度数据安全特征向量。

本发明实施例中，对所述数据安全检测关联数据语义理解特征向量进行特征分布优化以得到优化数据安全检测关联数据语义理解特征向量，包括：以如下优化公式对所述一维特征向量和所述数据安全检测关联数据语义理解特征向量进行局部序列语义的片段式富化融合以得到所述优化数据安全检测关联数据语义理解特征向量；其中，所述优化公式为：

其中，V₁是所述一维特征向量，V₂是所述数据安全检测关联数据语义理解特征向量，V₂ ^T是所述数据安全检测关联数据语义理解特征向量的转置向量，D(V₁，V₂)为所述一维特征向量和所述数据安全检测关联数据语义理解特征向量之间的距离矩阵，V₁和V₂均为列向量，且α是权重超参数，表示向量乘法，/>表示向量加法，V₂′是所述优化数据安全检测关联数据语义理解特征向量。

本发明实施例中，将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露，包括：使用所述分类器的多个全连接层对所述优化数据安全检测关联数据语义理解特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

本发明实施例还提供了一种数据安全检测系统，其包括：

数据获取模块，用于获取数据安全检测关联数据，其中，所述数据安全检测关联数据包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据；

数据清洗和分词模块，用于对所述数据安全检测关联数据进行数据清洗和分词处理以得到数据安全检测关联词的序列；

词嵌入模块，用于将所述数据安全检测关联词的序列通过词嵌入层以得到数据安全检测关联词嵌入向量的序列；

上下文编码模块，用于将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量；

局部语义关联模块，用于将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量；

优化模块，用于对所述数据安全检测关联数据语义理解特征向量进行特征分布优化以得到优化数据安全检测关联数据语义理解特征向量；以及

数据泄露检测模块，用于将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露。

本发明实施例中，所述上下文编码模块，包括：一维排列单元，用于将所述数据安全检测关联词嵌入向量的序列进行一维排列以得到数据安全检测全局特征向量；自注意力单元，用于计算所述数据安全检测全局特征向量与所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；激活单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，加权单元，用于分别以所述多个概率值中各个概率值作为权重对所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量进行加权以得到所述多个上下文数据安全检测关联词特征向量。

本发明实施例中，数据安全检测方法及其系统，其获取数据安全检测关联数据；采用基于深度学习的人工智能技术，进行数据安全检测关联数据中各个数据项的语义关联特征信息的充分表达，以此来对于数据泄露进行精准检测，从而识别和预防安全威胁并及时处理，保障企业数据资产和用户隐私的安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种数据安全检测方法的应用场景图。

图2为本发明实施例中提供的一种数据安全检测方法的流程图。

图3为本发明实施例中提供的一种数据安全检测方法的系统架构的示意图。

图4为本发明实施例中提供的一种数据安全检测方法中步骤140的子步骤的流程图。

图5为本发明实施例中提供的一种数据安全检测方法中步骤150的子步骤的流程图。

图6为本发明实施例中提供的一种数据安全检测方法中步骤170的子步骤的流程图。

图7为本发明实施例中提供的一种数据安全检测系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

如上所述，传统应对企业内部的数据泄露威胁的方法存在局限性，不能有效应对内部员工窃取企业敏感数据等未知数据的泄密场景，因为内部员工具备企业数据资产的合法访问权限，且通常了解企业敏感数据的存放位置，传统的行为分析手段无法检测到该类行为，使得企业数据和用户隐私安全受到了威胁。因此，期望一种优化的数据安全检测方案。

相应地，考虑到在实际进行数据安全检测的过程中，关键在于对数据安全检测相关联的各项数据，例如流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据进行分析，以此对于数据是否泄露进行检测，从而识别和预防安全威胁。但是，考虑到由于与数据安全检测相关联的各项数据可能会存在错误或遗漏，导致对于数据泄露的检测精度较低，并且，所述各项数据之间具有着上下文的语义关联关系，并不能基于某一数据的阈值比较来进行数据泄露检测。因此，在此过程中，难点在于如何进行数据安全检测关联数据中各个数据项的语义关联特征信息的充分表达，以此来对于数据泄露进行精准检测，从而识别和预防安全威胁并及时处理，保障企业数据资产和用户隐私的安全。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述数据安全检测关联数据中各个数据项的语义关联特征信息提供了新的解决思路和方案。

具体地，在本申请的技术方案中，首先，获取数据安全检测关联数据，其中，所述数据安全检测关联数据包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据。这样，能够提供更多的信息用于分析和预测潜在的威胁。具体来说，流量数据可以展示网络中的流量模式和行为，以及对网络流量进行检测和防御；所述资产数据指明企业拥有的所有IT资产，包括硬件、软件、服务等等，以便对它们进行监控和管理；所述账号数据包括用户账号、密码、权限等信息，可以帮助系统管理员追踪任何异常账户活动；所述日志数据可以记录系统操作和事件，发现潜在的攻击痕迹并帮助分析事故；所述漏洞库数据包含已知漏洞的详细信息，有助于识别可能被利用的弱点；所述威胁情报数据提供实时的或定期更新的恶意活动、威胁组织和攻击方式等信息，帮助预测和防范潜在的威胁。通过这些数据源的整合和分析，企业可以更好地了解面临的风险，并能够采取相应的措施来预防和应对安全威胁。

接着，考虑到由于所述数据安全检测关联数据中的各个数据项可能存在不准确、不完整、不正确或不相关的数据，因此，在特征提取前需要对所述数据安全检测关联数据进行数据清洗和分词处理以得到数据安全检测关联词的序列。应可以理解，数据清洗是指检查、校正或删除数据中的任何不准确、不完整、不正确或不相关的部分，以提高数据的质量和可用性。例如，在日志数据中，可能包含有重复、错误或无意义的记录，这些记录可能会干扰机器学习算法的训练和预测，从而降低数据泄露检测的精准度。分词处理则是将所述数据安全检测关联数据中的各个数据项文本数据拆分成单独的词语或标记，从而使它们能够被计算机理解和使用，且能够在后续语义理解时避免词序混乱。在数据安全检测时，分词可以帮助机器学习算法识别关键词和短语，以便更好地了解数据集中的威胁信息。通过数据清洗和分词处理，可以从原始的数据源中提取出相关词汇的序列，这些序列可以在后续的分析和建模中用作输入特征，从而提高机器学习算法的预测准确率和效果。

然后，考虑到由于所述数据安全检测关联数据中的各个数据项都为专业术语，为了能够提高后续对于所述数据安全检测关联数据语义理解的精准度，以此来进行数据泄露的精准检测，在本申请的技术方案中，进一步将所述数据安全检测关联词的序列通过词嵌入层，以使用所述词嵌入层将所述数据安全检测关联词的序列映射到嵌入向量以得到数据安全检测关联词嵌入向量的序列。特别地，这里，所述词嵌入层可利用数据安全检测关联数据的专业术语语义特征的知识图谱来进行构建以使得在将所述数据安全检测关联词的序列转化为嵌入向量的过程中引入数据安全检测关联数据的专业术语语义特征的先验信息。并且，词嵌入是一种用于将自然语言中的词汇转换为向量表示的技术。通过这种方法，相似的词汇在向量空间中会被映射到靠近的位置，从而揭示出它们之间的语义关系，有利于提高对于所述数据安全检测关联数据的语义理解精准度。

进一步地，考虑到由于所述数据安全检测关联数据中的各个数据项，其中包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据之间具有着上下文的语义关联特征信息，因此，在本申请的技术方案中，进一步将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器中进行编码，以提取出所述数据安全检测关联数据中的各个数据项基于全局的上下文语义关联特征信息，从而得到多个上下文数据安全检测关联词特征向量。

接着，还考虑到在实际进行所述数据安全检测关联数据的语义理解，以此来进行数据泄露检测时，由于所述数据安全检测关联数据中的各个数据项之间的关联性程度不同，并且不同数据项之间的关联性语义特征对于数据的泄露检测也会提供不同的贡献度。因此，在本申请的技术方案中，进一步将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量。特别地，这里，所述第一卷积层和所述第二卷积层使用不同尺度的一维卷积核来进行所述一维特征向量的处理，以此来提取出所述数据安全检测关联数据中的各个数据项基于不同类型跨度下的多尺度局部语义关联特征信息。这样能够捕捉数据序列中的局部特征信息，从而获得更准确、更丰富的语义信息，进一步提高数据安全检测的精度和效果。

继而，再将所述数据安全检测关联数据语义理解特征向量作为分类特征向量通过分类器中进行分类处理，以得到用于表示是否存在数据泄露的分类结果。也就是，在本申请的技术方案中，所述分类器的标签包括存在数据泄露(第一标签)，以及，不存在数据泄露(第二标签)，其中，所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。值得注意的是，这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念，实际上在训练过程当中，计算机模型并没有“是否存在数据泄露”这种概念，其只是有两种分类标签且输出特征在这两个分类标签下的概率，即p1和p2之和为一。因此，是否存在数据泄露的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布，实质上用到的是标签的自然概率分布的物理意义，而不是“是否存在数据泄露”的语言文本意义。应可以理解，在本申请的技术方案中，所述分类器的分类标签为是否存在数据泄露的检测评估标签，因此，在得到所述分类结果后，可基于所述分类结果来对于数据泄露进行检测，从而识别和预防安全威胁并及时进行处理。

特别地，在本申请的技术方案中，在将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器得到所述数据安全检测关联数据语义理解特征向量时，考虑到所述多个上下文数据安全检测关联词特征向量级联得到的所述一维特征向量表达所述数据安全检测关联词的全局词语义上下文关联特征，而所述数据安全检测关联数据语义理解特征向量表达局部语义的关联强化特征，为了提升所述数据安全检测关联数据语义理解特征向量的表达效果，优选地通过进一步融合所述一维特征向量来优化所述数据安全检测关联数据语义理解特征向量。

并且，进一步考虑到所述一维特征向量在所述多个上下文数据安全检测关联词特征向量的级联表示下的上下文局部片段特征表达特性，以及所述数据安全检测关联数据语义理解特征向量的局部片段语义强化特性，期望提升所述一维特征向量和所述数据安全检测关联数据语义理解特征向量之间的基于特征片段粒度的局部序列分布的融合效果。

基于此，本申请的申请人对所述一维特征向量，例如记为V₁及所述数据安全检测关联数据语义理解特征向量，例如记为V₂进行局部序列语义的片段式富化融合，以获得优化的数据安全检测关联数据语义理解特征向量，例如记为V₂′，具体表示为：

D(V₁,V₂)为特征向量V₁和特征向量V₂之间的距离矩阵，即d_i,j＝d(v_1i,v_2j)，v₁和V₂均为列向量，且α是权重超参数。

这里，所述局部序列语义的片段式富化融合基于序列的片段特征分布对序列的预定分布方向上的方向性语义的编码效果，来以序列片段之间的相似性嵌入作为用于序列间关联的重加权因数，从而对序列之间在各个片段级别的基于特征表象(featureappearance)的相似性进行捕获，实现了所述一维特征向量和所述数据安全检测关联数据语义理解特征向量的局部片段级语义的富化式融合，从而提升了优化的数据安全检测关联数据语义理解特征向量V₂′的表达效果，也就提升了其通过分类器得到的分类结果的准确性。这样，能够对于数据泄露进行精准检测，从而识别和预防安全威胁并及时处理，保障企业数据资产和用户隐私的安全。

图1为本发明实施例中提供的一种数据安全检测方法的应用场景图。如图1所示，在该应用场景中，首先，获取数据安全检测关联数据(例如，如图1中所示意的C)；然后，将获取的数据安全检测关联数据输入至部署有数据安全检测算法的服务器(例如，如图1中所示意的S)中，其中所述服务器能够基于数据安全检测算法对所述数据安全检测关联数据进行处理，以生成用于表示是否存在数据泄露的分类结果。

在介绍了本发明的基本原理之后，下面将参考附图来具体介绍本发明的各种非限制性实施例。

在本发明的一个实施例中，图2为本发明实施例中提供的一种数据安全检测方法的流程图。如图2所示，根据本发明实施例的数据安全检测方法100，包括：110，获取数据安全检测关联数据，其中，所述数据安全检测关联数据包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据；120，对所述数据安全检测关联数据进行数据清洗和分词处理以得到数据安全检测关联词的序列；130，将所述数据安全检测关联词的序列通过词嵌入层以得到数据安全检测关联词嵌入向量的序列；140，将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量；150，将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量；160，对所述数据安全检测关联数据语义理解特征向量进行特征分布优化以得到优化数据安全检测关联数据语义理解特征向量；以及，170，将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露。

图3为本发明实施例中提供的一种数据安全检测方法的系统架构的示意图。如图3所示，在该网络架构中，首先，获取数据安全检测关联数据，其中，所述数据安全检测关联数据包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据；然后，对所述数据安全检测关联数据进行数据清洗和分词处理以得到数据安全检测关联词的序列；接着，将所述数据安全检测关联词的序列通过词嵌入层以得到数据安全检测关联词嵌入向量的序列；然后，将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量；接着，将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量；然后，对所述数据安全检测关联数据语义理解特征向量进行特征分布优化以得到优化数据安全检测关联数据语义理解特征向量；以及，最后，将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露。

具体地，在步骤110中，获取数据安全检测关联数据，其中，所述数据安全检测关联数据包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据。如上所述，传统应对企业内部的数据泄露威胁的方法存在局限性，不能有效应对内部员工窃取企业敏感数据等未知数据的泄密场景，因为内部员工具备企业数据资产的合法访问权限，且通常了解企业敏感数据的存放位置，传统的行为分析手段无法检测到该类行为，使得企业数据和用户隐私安全受到了威胁。因此，期望一种优化的数据安全检测方案。

具体地，在步骤120中，对所述数据安全检测关联数据进行数据清洗和分词处理以得到数据安全检测关联词的序列。接着，考虑到由于所述数据安全检测关联数据中的各个数据项可能存在不准确、不完整、不正确或不相关的数据，因此，在特征提取前需要对所述数据安全检测关联数据进行数据清洗和分词处理以得到数据安全检测关联词的序列。

应可以理解，数据清洗是指检查、校正或删除数据中的任何不准确、不完整、不正确或不相关的部分，以提高数据的质量和可用性。例如，在日志数据中，可能包含有重复、错误或无意义的记录，这些记录可能会干扰机器学习算法的训练和预测，从而降低数据泄露检测的精准度。分词处理则是将所述数据安全检测关联数据中的各个数据项文本数据拆分成单独的词语或标记，从而使它们能够被计算机理解和使用，且能够在后续语义理解时避免词序混乱。在数据安全检测时，分词可以帮助机器学习算法识别关键词和短语，以便更好地了解数据集中的威胁信息。通过数据清洗和分词处理，可以从原始的数据源中提取出相关词汇的序列，这些序列可以在后续的分析和建模中用作输入特征，从而提高机器学习算法的预测准确率和效果。

具体地，在步骤130中，将所述数据安全检测关联词的序列通过词嵌入层以得到数据安全检测关联词嵌入向量的序列。然后，考虑到由于所述数据安全检测关联数据中的各个数据项都为专业术语，为了能够提高后续对于所述数据安全检测关联数据语义理解的精准度，以此来进行数据泄露的精准检测，在本申请的技术方案中，进一步将所述数据安全检测关联词的序列通过词嵌入层，以使用所述词嵌入层将所述数据安全检测关联词的序列映射到嵌入向量以得到数据安全检测关联词嵌入向量的序列。

特别地，这里，所述词嵌入层可利用数据安全检测关联数据的专业术语语义特征的知识图谱来进行构建以使得在将所述数据安全检测关联词的序列转化为嵌入向量的过程中引入数据安全检测关联数据的专业术语语义特征的先验信息。并且，词嵌入是一种用于将自然语言中的词汇转换为向量表示的技术。通过这种方法，相似的词汇在向量空间中会被映射到靠近的位置，从而揭示出它们之间的语义关系，有利于提高对于所述数据安全检测关联数据的语义理解精准度。

具体地，在步骤140中，将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量。进一步地，考虑到由于所述数据安全检测关联数据中的各个数据项，其中包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据之间具有着上下文的语义关联特征信息，因此，在本申请的技术方案中，进一步将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器中进行编码，以提取出所述数据安全检测关联数据中的各个数据项基于全局的上下文语义关联特征信息，从而得到多个上下文数据安全检测关联词特征向量。

图4为本发明实施例中提供的一种数据安全检测方法中步骤140的子步骤的流程图，如图4所示，将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量，包括：141，将所述数据安全检测关联词嵌入向量的序列进行一维排列以得到数据安全检测全局特征向量；142，计算所述数据安全检测全局特征向量与所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；143，分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；144，将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，145，分别以所述多个概率值中各个概率值作为权重对所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量进行加权以得到所述多个上下文数据安全检测关联词特征向量。

上下文编码器旨在挖掘得到词序列中上下文之间的隐藏模式，可选地，编码器包括：CNN(Convolutional Neural Network，卷积神经网络)、Recursive NN(RecursiveNeural Network，递归神经网络)、语言模型(Language Model)等。基于CNN的方法对于局部特征有比较好的提取效果，但其对于句子中的长程依赖(Long-termDependency)问题效果欠佳，因此基于Bi-LSTM(Long Short-Term Memory，长短期记忆网络)的编码器被广泛使用。Recursive NN把句子当作树状结构而非序列进行处理，从理论上而言具有更强的表示能力，但其存在样本标注难度大、深层易梯度消失、难以并行计算等弱点，因此在实际应用中使用较少。Transformer是应用广泛的网络结构了，同时具有CNN和RNN的特性，对于全局特征有较好的提取效果，同时相较于RNN(RecurrentNeural Network，循环神经网络)在并行计算上具有一定优势。

具体地，在步骤150中，将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量。接着，还考虑到在实际进行所述数据安全检测关联数据的语义理解，以此来进行数据泄露检测时，由于所述数据安全检测关联数据中的各个数据项之间的关联性程度不同，并且不同数据项之间的关联性语义特征对于数据的泄露检测也会提供不同的贡献度。

因此，在本申请的技术方案中，进一步将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量。特别地，这里，所述第一卷积层和所述第二卷积层使用不同尺度的一维卷积核来进行所述一维特征向量的处理，以此来提取出所述数据安全检测关联数据中的各个数据项基于不同类型跨度下的多尺度局部语义关联特征信息。这样能够捕捉数据序列中的局部特征信息，从而获得更准确、更丰富的语义信息，进一步提高数据安全检测的精度和效果。

图5为本发明实施例中提供的一种数据安全检测方法中步骤150的子步骤的流程图，如图5所示，将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量，包括：151，将所述一维特征向量输入所述局部语义关联强化器的第一卷积层以得到第一尺度数据安全特征向量，其中，所述第一卷积层具有第一尺度的一维卷积核；152，将所述一维特征向量输入所述局部语义关联强化器的第二卷积层以得到第二尺度数据安全特征向量，其中，所述第二卷积层具有第二尺度的一维卷积核，所述第一尺度不同于所述第二尺度；以及，153，将所述第一尺度数据安全特征向量和所述第二尺度数据安全特征向量进行级联以得到所述数据安全检测关联数据语义理解特征向量。

其中，将所述一维特征向量输入所述局部语义关联强化器的第一卷积层以得到第一尺度数据安全特征向量，其中，所述第一卷积层具有第一尺度的一维卷积核，包括：使用所述局部语义关联强化器的第一卷积层对输入数据进行卷积处理、池化处理和非线性激活处理以由所述局部语义关联强化器的第一卷积层输出为所述第一尺度数据安全特征向量。

进一步地，将所述一维特征向量输入所述局部语义关联强化器的第二卷积层以得到第二尺度数据安全特征向量，其中，所述第二卷积层具有第二尺度的一维卷积核，所述第一尺度不同于所述第二尺度，包括：使用所述局部语义关联强化器的第二卷积层对输入数据进行卷积处理、池化处理和非线性激活处理以由所述局部语义关联强化器的第二卷积层输出为所述第二尺度数据安全特征向量。

具体地，在步骤160中，对所述数据安全检测关联数据语义理解特征向量进行特征分布优化以得到优化数据安全检测关联数据语义理解特征向量。特别地，在本申请的技术方案中，在将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器得到所述数据安全检测关联数据语义理解特征向量时，考虑到所述多个上下文数据安全检测关联词特征向量级联得到的所述一维特征向量表达所述数据安全检测关联词的全局词语义上下文关联特征，而所述数据安全检测关联数据语义理解特征向量表达局部语义的关联强化特征，为了提升所述数据安全检测关联数据语义理解特征向量的表达效果，优选地通过进一步融合所述一维特征向量来优化所述数据安全检测关联数据语义理解特征向量。

基于此，本申请的申请人对所述一维特征向量，例如记为V₁及所述数据安全检测关联数据语义理解特征向量，例如记为V₂进行局部序列语义的片段式富化融合，以获得优化的数据安全检测关联数据语义理解特征向量，例如记为V₂′，具体表示为：以如下优化公式对所述一维特征向量和所述数据安全检测关联数据语义理解特征向量进行局部序列语义的片段式富化融合以得到所述优化数据安全检测关联数据语义理解特征向量；其中，所述优化公式为：

其中，V₁是所述一维特征向量，V₂是所述数据安全检测关联数据语义理解特征向量，V₂ ^T是所述数据安全检测关联数据语义理解特征向量的转置向量，D(V₁,V₂)为所述一维特征向量和所述数据安全检测关联数据语义理解特征向量之间的距离矩阵，V₁和V₂均为列向量，且α是权重超参数，表示向量乘法，/>表示向量加法，V₂′是所述优化数据安全检测关联数据语义理解特征向量。

具体地，在步骤170中，将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露。继而，再将所述数据安全检测关联数据语义理解特征向量作为分类特征向量通过分类器中进行分类处理，以得到用于表示是否存在数据泄露的分类结果。也就是，在本申请的技术方案中，所述分类器的标签包括存在数据泄露(第一标签)，以及，不存在数据泄露(第二标签)，其中，所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。

值得注意的是，这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念，实际上在训练过程当中，计算机模型并没有“是否存在数据泄露”这种概念，其只是有两种分类标签且输出特征在这两个分类标签下的概率，即p1和p2之和为一。因此，是否存在数据泄露的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布，实质上用到的是标签的自然概率分布的物理意义，而不是“是否存在数据泄露”的语言文本意义。

应可以理解，在本申请的技术方案中，所述分类器的分类标签为是否存在数据泄露的检测评估标签，因此，在得到所述分类结果后，可基于所述分类结果来对于数据泄露进行检测，从而识别和预防安全威胁并及时进行处理。

图6为本发明实施例中提供的一种数据安全检测方法中步骤170的子步骤的流程图，如图6所示，将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露，包括：171，使用所述分类器的多个全连接层对所述优化数据安全检测关联数据语义理解特征向量进行全连接编码以得到编码分类特征向量；以及，172，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

综上，基于本发明实施例的数据安全检测方法100被阐明，其获取数据安全检测关联数据；采用基于深度学习的人工智能技术，进行数据安全检测关联数据中各个数据项的语义关联特征信息的充分表达，以此来对于数据泄露进行精准检测，从而识别和预防安全威胁并及时处理，保障企业数据资产和用户隐私的安全。

在本发明的一个实施例中，图7为本发明实施例中提供的一种数据安全检测系统的框图。如图7所示，根据本发明实施例的数据安全检测系统200，包括：数据获取模块210，用于获取数据安全检测关联数据，其中，所述数据安全检测关联数据包括流量数据、资产数据、账号数据、日志数据、漏洞库数据以及威胁情报数据；数据清洗和分词模块220，用于对所述数据安全检测关联数据进行数据清洗和分词处理以得到数据安全检测关联词的序列；词嵌入模块230，用于将所述数据安全检测关联词的序列通过词嵌入层以得到数据安全检测关联词嵌入向量的序列；上下文编码模块240，用于将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量；局部语义关联模块250，用于将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量；优化模块260，用于对所述数据安全检测关联数据语义理解特征向量进行特征分布优化以得到优化数据安全检测关联数据语义理解特征向量；以及，数据泄露检测模块270，用于将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露。

在本发明的一个具体示例中，在上述数据安全检测系统中，所述上下文编码模块，包括：一维排列单元，用于将所述数据安全检测关联词嵌入向量的序列进行一维排列以得到数据安全检测全局特征向量；自注意力单元，用于计算所述数据安全检测全局特征向量与所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；激活单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，加权单元，用于分别以所述多个概率值中各个概率值作为权重对所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量进行加权以得到所述多个上下文数据安全检测关联词特征向量。

在本发明的一个具体示例中，在上述数据安全检测系统中，所述局部语义关联模块，包括：第一尺度单元，用于将所述一维特征向量输入所述局部语义关联强化器的第一卷积层以得到第一尺度数据安全特征向量，其中，所述第一卷积层具有第一尺度的一维卷积核；第二尺度单元，用于将所述一维特征向量输入所述局部语义关联强化器的第二卷积层以得到第二尺度数据安全特征向量，其中，所述第二卷积层具有第二尺度的一维卷积核，所述第一尺度不同于所述第二尺度；以及，级联单元，用于将所述第一尺度数据安全特征向量和所述第二尺度数据安全特征向量进行级联以得到所述数据安全检测关联数据语义理解特征向量。

在本发明的一个具体示例中，在上述数据安全检测系统中，所述局部语义关联强化器的第一卷积层和第二卷积层分别使用不同尺度的一维卷积核。

在本发明的一个具体示例中，在上述数据安全检测系统中，所述第一尺度单元，用于：使用所述局部语义关联强化器的第一卷积层对输入数据进行卷积处理、池化处理和非线性激活处理以由所述局部语义关联强化器的第一卷积层输出为所述第一尺度数据安全特征向量。

在本发明的一个具体示例中，在上述数据安全检测系统中，所述第二尺度单元，用于：使用所述局部语义关联强化器的第二卷积层对输入数据进行卷积处理、池化处理和非线性激活处理以由所述局部语义关联强化器的第二卷积层输出为所述第二尺度数据安全特征向量。

在本发明的一个具体示例中，在上述数据安全检测系统中，所述优化模块，用于：以如下优化公式对所述一维特征向量和所述数据安全检测关联数据语义理解特征向量进行局部序列语义的片段式富化融合以得到所述优化数据安全检测关联数据语义理解特征向量；其中，所述优化公式为：

在本发明的一个具体示例中，在上述数据安全检测系统中，所述数据泄露检测模块，包括：编码单元，用于使用所述分类器的多个全连接层对所述优化数据安全检测关联数据语义理解特征向量进行全连接编码以得到编码分类特征向量；以及，分类结果单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

这里，本领域技术人员可以理解，上述数据安全检测系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的数据安全检测方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本发明实施例的数据安全检测系统200可以实现在各种终端设备中，例如用于数据安全检测的服务器等。在一个示例中，根据本发明实施例的数据安全检测系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该数据安全检测系统200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该数据安全检测系统200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该数据安全检测系统200与该终端设备也可以是分立的设备，并且数据安全检测系统200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

本发明实施例还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述方法实施例中任意一种可选或优选的基于卷积神经网络的图像处理方法。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有执行上述方法实施例中任意一种可选或优选的基于卷积神经网络的图像处理方法的计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据安全检测方法，其特征在于，包括：

2.根据权利要求1所述的数据安全检测方法，其特征在于，将所述数据安全检测关联词嵌入向量的序列通过基于转换器的上下文编码器以得到多个上下文数据安全检测关联词特征向量，包括：

将所述数据安全检测关联词嵌入向量的序列进行一维排列以得到数据安全检测全局特征向量；

计算所述数据安全检测全局特征向量与所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；

分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；

将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及

分别以所述多个概率值中各个概率值作为权重对所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量进行加权以得到所述多个上下文数据安全检测关联词特征向量。

3.根据权利要求2所述的数据安全检测方法，其特征在于，将所述多个上下文数据安全检测关联词特征向量排列为一维特征向量后通过包含第一卷积层和第二卷积层的局部语义关联强化器以得到数据安全检测关联数据语义理解特征向量，包括：

将所述一维特征向量输入所述局部语义关联强化器的第一卷积层以得到第一尺度数据安全特征向量，其中，所述第一卷积层具有第一尺度的一维卷积核；

将所述一维特征向量输入所述局部语义关联强化器的第二卷积层以得到第二尺度数据安全特征向量，其中，所述第二卷积层具有第二尺度的一维卷积核，所述第一尺度不同于所述第二尺度；以及

将所述第一尺度数据安全特征向量和所述第二尺度数据安全特征向量进行级联以得到所述数据安全检测关联数据语义理解特征向量。

4.根据权利要求3所述的数据安全检测方法，其特征在于，所述局部语义关联强化器的第一卷积层和第二卷积层分别使用不同尺度的一维卷积核。

5.根据权利要求4所述的数据安全检测方法，其特征在于，将所述一维特征向量输入所述局部语义关联强化器的第一卷积层以得到第一尺度数据安全特征向量，其中，所述第一卷积层具有第一尺度的一维卷积核，包括：使用所述局部语义关联强化器的第一卷积层对输入数据进行卷积处理、池化处理和非线性激活处理以由所述局部语义关联强化器的第一卷积层输出为所述第一尺度数据安全特征向量。

6.根据权利要求5所述的数据安全检测方法，其特征在于，将所述一维特征向量输入所述局部语义关联强化器的第二卷积层以得到第二尺度数据安全特征向量，其中，所述第二卷积层具有第二尺度的一维卷积核，所述第一尺度不同于所述第二尺度，包括：使用所述局部语义关联强化器的第二卷积层对输入数据进行卷积处理、池化处理和非线性激活处理以由所述局部语义关联强化器的第二卷积层输出为所述第二尺度数据安全特征向量。

7.根据权利要求6所述的数据安全检测方法，其特征在于，对所述数据安全检测关联数据语义理解特征向量进行特征分布优化以得到优化数据安全检测关联数据语义理解特征向量，包括：

以如下优化公式对所述一维特征向量和所述数据安全检测关联数据语义理解特征向量进行局部序列语义的片段式富化融合以得到所述优化数据安全检测关联数据语义理解特征向量；

其中，所述优化公式为：

其中，V₁是所述一维特征向量，V₂是所述数据安全检测关联数据语义理解特征向量，V₂ ^T是所述数据安全检测关联数据语义理解特征向量的转置向量，D(V₁,2)为所述一维特征向量和所述数据安全检测关联数据语义理解特征向量之间的距离矩阵，V₁和V₂均为列向量，且α是权重超参数，表示向量乘法，/>表示向量加法，V₂′是所述优化数据安全检测关联数据语义理解特征向量。

8.根据权利要求7所述的数据安全检测方法，其特征在于，将所述优化数据安全检测关联数据语义理解特征向量通过分类器以得到分类结果，所述分类结果用于表示是否存在数据泄露，包括：

使用所述分类器的多个全连接层对所述优化数据安全检测关联数据语义理解特征向量进行全连接编码以得到编码分类特征向量；以及

将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

9.一种数据安全检测系统，其特征在于，包括：

10.根据权利要求9所述的数据安全检测系统，其特征在于，所述上下文编码模块，包括：

一维排列单元，用于将所述数据安全检测关联词嵌入向量的序列进行一维排列以得到数据安全检测全局特征向量；

自注意力单元，用于计算所述数据安全检测全局特征向量与所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；

标准化单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；

激活单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及

加权单元，用于分别以所述多个概率值中各个概率值作为权重对所述数据安全检测关联词嵌入向量的序列中各个数据安全检测关联词嵌入向量进行加权以得到所述多个上下文数据安全检测关联词特征向量。