CN117540368A

CN117540368A - 一种数据泄露检测方法、装置、设备及存储介质

Info

Publication number: CN117540368A
Application number: CN202311455203.5A
Authority: CN
Inventors: 刘紫千; 周涛; 李�根; 郭惟; 姚鑫鹏
Original assignee: Tianyi Safety Technology Co Ltd
Current assignee: Tianyi Safety Technology Co Ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-02-09

Abstract

本申请实施例提供了一种数据泄露检测方法、装置、设备及存储介质，涉及数据安全技术领域，包括：针对每个目标系统，获取所述目标系统的部署拓扑信息、漏洞信息以及静态代码分析结果；基于所述部署拓扑信息、所述漏洞信息以及所述静态代码分析结果，构建所述目标系统的有向流向连接网络；从所述有向流向连接网络中，提取所述目标系统的潜在风险事件；基于多个目标系统的潜在风险事件构建因果图，并从所述因果图中提取可疑序列；将所述可疑序列输入已训练的序列检测模型进行检测，确定所述可疑序列是否为数据泄露事件。本申请能够有效追踪系统内部和跨系统间的数据泄露链，确保数据泄露链路检测的全面性和准确性。

Description

一种数据泄露检测方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据安全技术领域，尤其涉及一种数据泄露检测方法、装置、设备及存储介质。

背景技术

在现实世界中，随着数据的广泛传播和共享，数据泄露问题逐渐凸显，因此需要一种方法来全面地分析数据流动路径，确定数据可能被泄露的环节，从而发现潜在的数据泄露风险。

目前，相关技术通过代码分析和数据血缘来检测和防止数据泄露问题。然而，这些方法在应用过程中存在一系列局限性：比如，针对单个系统进行数据泄露分析的方法，无法应对多系统协同作用引发的数据泄露问题；又如，基于数据血缘分析的方法，依赖数据血缘关系来构建数据流转链路，从而展示数据的传递路径。然而，数据血缘分析方法更侧重关注数据本身，对数据传递路径的分析存在不足，该种方法的质量会受到数据质量和完整性的影响，且数据关系的建立需要耗费大量的时间和精力。因此，这种方法在大规模系统中的适用性和稳定性存在挑战，影响了系统的检测性能。

因此，如何有效追踪系统内部和跨系统间的数据泄露链，确保数据泄露链路检测的全面性和准确性是现有技术中亟需解决的技术问题。

发明内容

本申请实施例提供了一种数据泄露检测方法，实现了有效追踪系统内部和跨系统间的数据泄露链，确保了数据泄露链路检测的全面性和准确性。

第一方面，本申请实施例提供了一种数据泄露检测方法，包括：

针对每个目标系统，获取所述目标系统的部署拓扑信息、漏洞信息以及静态代码分析结果；

基于所述部署拓扑信息、所述漏洞信息以及所述静态代码分析结果，构建所述目标系统的有向流向连接网络；从所述有向流向连接网络中，提取所述目标系统的潜在风险事件；

基于多个目标系统的潜在风险事件构建因果图，并从所述因果图中提取可疑序列；

将所述可疑序列输入已训练的序列检测模型进行检测，确定所述可疑序列是否为数据泄露事件。

本申请实施例中，基于部署拓扑信息、漏洞信息以及静态代码分析结果构建每个目标系统的有向流向连接网络，并从有向流向连接网络中提取目标系统的潜在风险事件，然后，基于多个目标系统的潜在风险事件构建因果图，并从因果图中提取可疑序列，最后，将可疑序列输入已训练的序列检测模型，确定可疑序列是否为数据泄露事件，考虑了复杂的系统内部和系统间的数据流动调用关系，能够提供更加全面的数据泄露链路分析，从而确保数据泄露链路检测的全面性和准确性。

一种可选实施方式中，所述基于所述部署拓扑信息、所述漏洞信息以及所述静态代码分析结果，构建所述目标系统的有向流向连接网络，包括：

基于所述部署拓扑信息，构建所述目标系统中各个关键组件对应的节点；

基于所述漏洞信息以及所述静态代码分析结果，遍历构建的各个节点，获得有向链路和逻辑表达式集，其中，所述有向链路包括各个节点及相应的漏洞属性；所述逻辑表达式集表征所述有向链路中节点之间的连接关系；

根据所述有向链路和所述逻辑表达式集构建所述目标系统的有向流向连接网络。

上述实施方式下，基于部署拓扑信息构建目标系统中各个关键组件对应的节点，基于漏洞信息和静态代码分析结果，构建包含所有节点的有向链路和逻辑表达式集，最后基于有向链路和逻辑表达式集构建有向流向连接网络，充分利用了漏洞信息，准确反映了漏洞对系统安全的威胁程度，通过构建有向流向连接网络，系统内部不同漏洞的影响和传播路径得到清晰的呈现，有利于实现系统内部数据泄露高风险区域的准确定位。

一种可选实施方式中，所述从所述有向流向连接网络中，提取所述目标系统的潜在风险事件，包括：

获取所述目标系统的风险日志信息；

基于所述风险日志信息对所述有向流向连接网络中的各个节点进行关联分析，确定所述各个节点的时间戳以及链路风险权重值，所述链路风险权重值指：链路流转到所述节点时的风险权重值；

基于所述各个节点的时间戳以及链路风险权重值，对所述有向流向连接网络进行广度优先搜索，提取所述目标系统的潜在风险事件。

上述实施方式下，基于风险日志信息对有向流向连接网络中的各个节点进行关联分析，确定各个节点的时间戳以及链路风险权重值，进而提取目标系统的潜在风险事件，既保证了系统能高效地追踪有向连接，又确保了跨系统部署数据泄露风险的准确分析，有效提高了潜在风险事件提取的效率和准确性。

一种可选实施方式中，所述基于所述风险日志信息对所述有向流向连接网络中的各个节点进行关联分析，确定所述各个节点的时间戳以及风险权重值，包括：

针对每个风险日志信息，获取所述风险日志信息在所述有向流向连接网络中关联的节点以及所述节点的计算状态；在所述节点的计算状态为未结束状态时，将所述风险日志信息的时间戳，作为所述节点的时间戳；

若所述节点入度等于零，则确定所述节点为初始点，并将所述节点的风险权重值作为所述节点的链路风险权重值；

若所述节点入度大于零，且存在有向连接关联到所述节点，则基于初始点至所述节点的链路的链路信息确定所述节点的链路风险权重值，所述有向连接指：所述节点的父节点与一个风险状态信息关联；

若所述节点入度大于零，且没有有向连接关联到所述节点，则遍历所述节点的所有父节点是否存在关联的有向连接，若是，则以存在关联的有向连接的父节点作为所述节点返回执行若所述节点入度等于零，则确定所述节点为初始点，并将所述节点的风险权重值作为所述节点的链路风险权重值的步骤，直到所述节点的所有父节点都不存在关联的有向连接时停止。

上述实施方式下，通过对有向流向连接网络中的各个节点采用关联迭代分析，解决了分布式节点时间戳不一致的问题，确保了跨系统部署的数据泄露风险的准确分析，有效提高了潜在风险事件提取的效率和准确性。

一种可选实施方式中，所述基于初始点至所述节点的链路的链路信息，确定所述节点的链路风险权重值，包括：

基于所述初始点至所述节点的链路中各个节点的风险权重值，以及所述初始点至所述节点的链路对应的逻辑表达式，确定所述节点的链路风险权重值。

一种可选实施方式中，所述潜在风险事件包括：头节点、动作标签、尾节点、事件发生的时间戳和动作标签的描述性文本。

一种可选实施方式中，所述从所述因果图中提取可疑序列之前，还包括：

删除所述因果图中独立的节点和边；删除所述因果图中重复的边；以及合并所述因果图中对应相同动作标签的边。

上述实施方式下，通过消除因果图中独立的节点和边、删除重复边和合并相同事件边等操作，优化了因果图结构，从优化后的因果图中提取可疑序列，保证了后续序列检测模型的效率，有利于提高数据泄露链路检测的全面性和准确性。

一种可选实施方式中，所述已训练的序列检测模型是采用以下训练方法训练得到的，包括：

从样本因果图中提取多个训练序列，并将每个训练序列标记相应的样本标签，其中，所述样本标签为：泄露事件和非泄露事件；

对样本标签为非泄露事件的训练序列进行欠采样，以及对样本标签为泄露事件的训练序列进行过采样，获得强化后的训练序列；

采用强化后的训练序列对初始化的序列检测模型进行迭代训练，获得所述已训练的序列检测模型。

上述实施方式下，通过对非泄露事件序列进行欠采样和对泄露事件序列使用过采样处理，可以将更多种类的泄露事件序列包含到训练序列中，平衡泄露事件序列与非泄露事件序列的比例，提高模型检测的识别效率。

第二方面，本申请实施例提供了一种数据泄露检测装置，包括：

获取模块，用于针对每个目标系统，获取所述目标系统的部署拓扑信息、漏洞信息以及静态代码分析结果；

构建模块，用于基于所述部署拓扑信息、所述漏洞信息以及所述静态代码分析结果，构建所述目标系统的有向流向连接网络；从所述有向流向连接网络中，提取所述目标系统的潜在风险事件；

序列提取模块，用于基于多个目标系统的潜在风险事件构建因果图，并从所述因果图中提取可疑序列；

检测模块，用于将所述可疑序列输入已训练的序列检测模型进行检测，确定所述可疑序列是否为数据泄露事件。

一种可选实施方式中，所述构建模块具体用于：

获取所述目标系统的风险日志信息；

一种可选实施方式中，所述构建模块具体用于：

一种可选实施方式中，还包括序列处理模块；

所述序列处理模块具体用于：

一种可选实施方式中，还包括模型训练模块；

所述模型训练模块具体用于：

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述数据泄露检测方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述数据泄露检测方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机设备执行时，使所述计算机设备执行上述数据泄露检测方法的步骤。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种系统架构的结构示意图；

图2为本申请实施例提供的一种数据泄露检测方法的流程示意图；

图3为本申请实施例提供的一种检测系统构建的流程示意图；

图4为本申请实施例提供的一种数据泄露检测方法的结构示意图；

图5为本申请实施例提供的一种数据泄露检测装置的结构示意图；

图6为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好的解释本申请实施例，提供以下名词解释：

长短期记忆网络(Long Short-Term Memory，LSTM)是一种时间循环神经网络(RNN)，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件，能够学习长期的依赖关系。主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。

Dropout层：作为训练深度神经网络的一种trick供选择。在每个训练批次中，通过忽略一半的特征检测器，可以明显地减少过拟合现象。可以减少特征检测器(隐层节点)间的相互作用。

Conv1d(一维卷积)：对于自然语言处理中一个一维句子序列使用Conv1d，此时卷积核除去chanel，也是一维的。一维卷积常用于序列模型、自然语言处理领域。

节点的度：指和该节点相关联的边的条数。对于有向图，节点的入度是指进入该节点的边的条数，节点的出度是指从该节点出发的边的条数。

参见图1，其为本申请实施例适用的一种系统架构图，该系统架构至少包括终端设备101和检测系统102，终端设备101的数量可以是一个或多个，检测系统102的数量也可以是一个或多个，本申请对终端设备101和检测系统102的数量不做具体限定。

终端设备101中预先安装应用，其中，应用是客户端应用、网页版应用、小程序应用等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。

检测系统102是应用的后台服务器，检测系统102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，简称CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与检测系统102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例中的数据泄露检测方法可以是终端设备101执行，也可以是检测系统102执行，还可以由终端设备101与检测系统102交互执行。

基于图1所示的系统架构图，本申请实施例提供了一种数据泄露检测方法的流程示意图，如图2所示，该方法的流程由计算机设备执行，该计算机设备可以是图1所示的终端设备101和/或检测系统102，包括以下步骤：

步骤201，针对每个目标系统，获取目标系统的部署拓扑信息、漏洞信息以及静态代码分析结果。

具体地，管理员或目标系统网络的节点主机将目标系统的部署拓扑信息进行上报，从而获取目标系统的部署拓扑信息，部署拓扑信息包括目标系统中的各个关键组件，如数据库、中间件、web服务器等，还包括目标系统中各个关键组件之间的相互连接关系。

采用现有的漏洞扫描工具对目标系统进行全面的扫描，比如，可以基于一系列事先构建的漏洞检测规则和漏洞数据库，逐一检测目标系统中的各种组件、服务和配置，从而主动识别目标系统中可能存在的弱点和漏洞，收集漏洞信息，如漏洞的严重程度S_x，漏洞被利用的概率P_x等信息。

对主服务程序的源代码进行逐行分析，识别源代码中涉及到的中间件、Web服务器和数据库交互的关键部分。通过解析函数调用、API调用和网络通信等关键代码，确定在目标系统实际运行过程中主服务程序与其他各个关键组件之间的接口和交互方式，得到静态代码分析结果。

步骤202，基于部署拓扑信息、漏洞信息以及静态代码分析结果，构建目标系统的有向流向连接网络；从有向流向连接网络中，提取目标系统的潜在风险事件。

一种可选实施方式中，潜在风险事件包括：头节点、动作标签、尾节点、事件发生的时间戳和动作标签的描述性文本。

一种可选实施方式中，基于部署拓扑信息，构建目标系统中各个关键组件对应的节点；基于漏洞信息以及静态代码分析结果，遍历构建的各个节点，获得有向链路和逻辑表达式集，其中，有向链路包括各个节点及相应的漏洞属性；逻辑表达式集表征有向链路中节点之间的连接关系；根据有向链路和逻辑表达式集构建目标系统的有向流向连接网络。

具体地，通过解析上报的部署拓扑信息，构建目标系统中各个组件的节点集合。每个节点表示一个特定的系统组件，如数据库、中间件或web服务器等，遍历目标系统中的所有节点，根据节点之间的连通性和漏洞相关性，逐步构建目标系统的有向链接E，每个有向链路是一个有序对e_j∈E＝((n_x,v_x),(n_y,v_y))。n_x、n_y为节点，v_x、v_y是对应节点的漏洞属性，漏洞属性包括：对应节点的漏洞的严重程度、漏洞被利用的概率、漏洞类型等漏洞关联信息。这些有向链路描述了不同节点之间的交互关系，如数据库与web服务器之间的数据流动。同时，基于目标系统的漏洞信息和部署拓扑信息，构建一组逻辑表达式集L，使用AND和OR逻辑表达式运算符以及括号表示有向链路之间的关系，根据有向链路和逻辑表达式集构建目标系统的有向流向连接网络。

一种可选实施方式中，获取目标系统的风险日志信息；基于风险日志信息对有向流向连接网络中的各个节点进行关联分析，确定各个节点的时间戳以及链路风险权重值，链路风险权重值指：链路流转到节点时的风险权重值；基于各个节点的时间戳以及链路风险权重值，对有向流向连接网络进行广度优先搜索，提取目标系统的潜在风险事件。

一种可选实施方式中，针对每个风险日志信息，获取风险日志信息在有向流向连接网络中关联的节点以及节点的计算状态；在节点的计算状态为未结束状态时，将风险日志信息的时间戳，作为节点的时间戳；

若节点入度等于零，则确定节点为初始点，并将节点的风险权重值作为节点的链路风险权重值；

若节点入度大于零，且存在有向连接关联到节点，则基于初始点至节点的链路的链路信息确定节点的链路风险权重值，有向连接指：节点的父节点与一个风险状态信息关联；

若节点入度大于零，且没有有向连接关联到节点，则遍历节点的所有父节点是否存在关联的有向连接，若是，则以存在关联的有向连接的父节点作为节点返回执行若节点入度等于零，则确定节点为初始点，并将节点的风险权重值作为节点的链路风险权重值的步骤，直到节点的所有父节点都不存在关联的有向连接时停止。

一种可选实施方式中，基于初始点至节点的链路中各个节点的风险权重值，以及初始点至节点的链路对应的逻辑表达式，确定节点的链路风险权重值。

具体地，分布式节点追踪器与目标系统中的各个分布式节点建立连接，并进行身份验证以确保数据的来源合法和可信，身份验证包括节点的身份认证、权限验证等机制，进而确保只有合法的节点能够向分布式节点追踪器提交风险日志信息；分布式节点追踪器与目标系统中的各个分布式节点建立连接之后，分布式节点追踪器开始捕获各节点生成的风险日志信息，风险日志信息包括：系统事件、错误信息、安全警报、系统事件发生的时间等，能够反映节点运行时的各种情况和事件。随后将从各节点收集到的风险日志信息进行整合，形成综合的风险日志数据库。

在事件聚合器中，基于风险日志信息对有向流向连接网络中的各个节点进行关联分析，确定各个节点的时间戳以及链路风险权重值。

具体来说，定义风险日志信息i的时间戳为n_i,t，子节点的指针为n_i,next，父节点的指针为n_i,pre，当前链路到目前节点的风险权重值为n_i,w，当前节点的计算状态为n_i,status，节点的计算状态仅用于指示当前节点的下一操作步骤。

先获取下一个日志信息i并将其关联到有向流向连接网络中的一个节点，即map(i)＝n_i，然后将n_i,t设置为关联节点的当前时间戳。

若关联节点n_i的入度等于零，则确定节点n_i为初始点，设置节点n_i的计算状态n_i,status＝0，通过漏洞的严重程度S_i、组件的重要性I_i、漏洞被利用的概率p_i计算初始节点的风险权重值w_i，初始化n_i,w＝w_i，节点n_i的风险权重值即为节点的链路风险权重值。

若关联节点n_i的入度大于零，且关联节点n_i的父节点n_i,pre存在关联的风险日志信息，则节点n_i为下一跳节点，设置节点n_i的计算状态为n_i,status＝2，假设父节点n_i,pre的入度也为零，即当前有向链路只有一个节点，则通过漏洞的严重程度S_i,pre、组件的重要性I_i,pre、漏洞被利用的概率p_i,pre，计算父节点n_i,pre的风险权重值w_i,pre，综合父节点n_i,pre的风险权重值w_i,pre、漏洞的严重程度S_i、组件的重要性I_i、漏洞被利用的概率p_i，计算链路风险权重值n_i,w。同理，若当前有向链路中父节点n_i,pre之前还存在节点则结合父节点n_i,pre和节点/>之间的逻辑关系，综合父节点n_i,pre的风险权重值w_i,pre、/>的风险权重值漏洞的严重程度S_i、组件的重要性I_i、漏洞被利用的概率p_i计算链路风险权重值n_i,w。

若关联节点n_i的入度大于零，且关联节点n_i的父节点n_i,pre没有关联的风险日志信息，则遍历关联节点n_i的所有父节点，若存在父节点n_j存在关联的风险日志信息,则以父节点n_j作为节点返回执行若节点入度等于零，则确定节点为初始点，并将节点的风险权重值作为节点的链路风险权重值的步骤，直到节点的所有父节点都不存在关联的有向连接时停止。若关联节点n_i的父节点都不存在关联的风险日志信息，则设置n_i,status＝3；若关联节点n_i没有父节点，则设置n_i,status＝1，当n_i,status＝1和n_i,status＝3时，均返回执行获取风险日志信息在有向流向连接网络中关联的节点以及节点的计算状态的上述步骤。

通过上述步骤，有向流向连接网络中的每个节点和有向链路都被赋予了相应的风险权重值，反映了漏洞对系统安全的潜在威胁程度，同时通过风险日志信息为节点赋予时间戳，解决了分布式节点时间戳不一致的问题。

最后，基于各个节点的时间戳以及链路风险权重值，对有向流向连接网络从一个入度为0的节点开始进行广度优先搜索，根据遍历节点生成的有向链路，从而推断可能的风险链路。事件聚合器通过使用各组件的风险日志信息，并结合计算得到的风险权重值，能够确定多个目标系统间潜在的数据泄露链路中的高风险区域，得到综合风险日志信息，产生潜在风险事件ε是一个结构为(src,action,dest,t,message)的有向链路，源(src)和目标(dest)为数据链路的头节点和尾节点，t是显示事件发生时间的事件时间戳，action为头节点和尾节点之间的有向链路的动作标签，如数据查询等，message为动作标签的描述性文本。

步骤203，基于多个目标系统的潜在风险事件构建因果图，并从因果图中提取可疑序列。

一种可选实施方式中，从因果图中提取可疑序列之前，删除因果图中独立的节点和边；删除因果图中重复的边；以及合并因果图中对应相同动作标签的边。具体地，删除因果图中独立的节点和边指：消除因果图中事件节点无法到达的所有节点和边。删除因果图中所有重复的边，即除了节点之间第一次发生动作的边，无论动作重复多少次，只考虑时间戳最早的事件来构造因果图。再者，合并相同事件边，即如果某些节点和边涉及相同类型的事件，将这些边组合在一起，节点间共享相同的边。需要说明的是，本申请对优化因果图序列的方式不限于上述几种，还可以是其他方式。

步骤204，将可疑序列输入已训练的序列检测模型进行检测，确定可疑序列是否为数据泄露事件。

一种可选实施方式中，序列检测模型的训练过程为：

从样本因果图中提取多个训练序列，并将每个训练序列标记相应的样本标签，其中，样本标签为：泄露事件和非泄露事件；

采用强化后的训练序列对初始化的序列检测模型进行迭代训练，获得已训练的序列检测模型。

具体地，样本因果图构建的过程中不会产生固定长度的序列，每个序列可能由从因果图中获得的不同数量的事件组成，并且，从因果图中提取的训练序列的数量取决于因果图的大小，因果图可以包含与攻击序列和非攻击序列相关的不同数量的事件。使用词序化模型将训练序列转换为表示训练序列模式的广义文本，用于语义解释。

随后，将每个训练序列标记相应的样本标签，样本标签为：泄露事件和非泄露事件。因为泄露事件对应的训练序列和非泄漏事件对应的训练序列可能出现重复，为了使用非重复序列训练模型，在将所有与泄露事件关联的训练序列重叠的非泄露事件的训练序列传递给选择性序列采样之前丢弃。同时为了保证序列检测模型的效率，将超过350单词的训练序列丢弃，从而避免训练序列过长导致的梯度消失问题。排除这些训练序列并不会导致丢失训练序列模式的关键语义。因为与频繁出现的正常活动相比，大多数泄露事件的序列具有高度的针对性，因此往往形成较短的训练序列。

然后，对训练序列中的具有一定相似性阈值的非泄露事件的训练序列进行欠采样，通过计算矩阵化序列之间的相似度，来减少非泄露事件的训练序列的数量，当相似性超过确定的阈值时，会过滤掉相应的非泄露事件的训练序列。同时，使用基于突变的过采样机制，将更多种类的泄露事件的训练序列包含样本集中，对于每个提取的词源化后的泄露事件的训练序列，随机将一个词汇词类型突变为另一个相同类型的词汇词，从而平衡泄露事件的训练序列与非泄露事件的训练序列的比例，获得强化后的训练序列。

最后，采用强化后的训练序列对初始化的序列检测模型进行迭代训练，直到模型能够自动学习并区分泄露事件和非泄露事件，获得已训练的序列检测模型，有助于捕捉跨系统泄露事件的多条件动态行为。此外，该序列检测模型使用Dropout层进行正则化减少过拟合和提高泛化误差，采用最大池化的Conv1D层来处理矩阵化序列，采用sigmoid激活的密集全连接层来预测泄露序列的相关概率。

序列检测模型可以是LSTM模型、RNN模型(Recurrent Neural Network，循环神经网络模型)、HMM模型(Hidden Markov Model，隐马尔可夫模型)等等。

进一步地，将可疑序列输入已训练的序列检测模型进行检测，确定可疑序列是否为数据泄露事件，进一步还可以确定数据泄露事件的具体模式。若序列检测模型检测出数据泄露事件，系统将发出警报，以便及时采取应对措施。

为了更好的解释本申请实施例，参见图3，本申请实施例提供了一种检测系统系统构建流程的示意图，包括以下几个阶段：开始301、系统内分析模块构建302、综合分析模块构建303、结束304。下面具体介绍各个阶段：

系统内分析模块构建302具体包括以下步骤：

步骤3021，目标系统部署拓扑收集、漏洞探测、静态代码分析。

步骤3022，构建基于漏洞关联的有向流向连接网络。

步骤3023，风险权重计算。

步骤3024，节点日志数据收集。

步骤3025，事件聚合器(风险链路建立与分析)。

综合分析模块构建303具体包括以下步骤：

步骤3031，调用因果图构建。

步骤3032，因果图优化。

步骤3033，测试序列标记和处理。

步骤3034，欠采样、过采样。

步骤3035，构建序列检测模型。

为了更好的解释本申请实施例，参见图4，本申请实施例提供了一种数据泄露检测方法结构图，具体包括以下步骤：

步骤401，开始。

步骤402，分布式节点追踪器。

步骤403，系统内事件分析器。

步骤404，可疑事件结果。

步骤405，跨系统综合分析模块。

步骤406，泄露事件告警。

步骤407，结束。

具体地，数据泄露检测开始后，将分布式节点追踪器收集的多个目标系统的风险日志信息送入系统内分析模块，经过系统内分析模块的处理，提取出潜在风险事件，进一步地，潜在风险事件通过综合分析模块综合分析得到可疑事件结果，通过调用因果图构建以及因果图优化提取出可疑序列，将可疑序列输入序列检测模型，若序列检测模型检测出数据泄露事件，系统将发出警报。

上述各个步骤在前文中已有详细介绍，此处不再赘述。

此外，在实践方面，本申请提出的数据泄露检测方法已经在数据安全态势感知系统中应用，实现系统内和系统间数据传递的全数据链路监测和分析，用以发现已有或潜在的数据泄露链路。本申请通过追踪数据的流向和路径，可以准确识别系统之间的关联，进而发现可能的数据泄露路径。有助于更好地管理数据安全，防范敏感信息的外泄；通过实时监测系统内部通信，并基于已有的数据泄露事件进行分析，能够提供警报和建议，帮助企业采取适当的安全措施，保护敏感数据和机密信息。

比如，在多租户的云计算环境中，考虑一个云服务提供商为多个客户提供存储和计算资源的情况。各个客户的数据可能会存储在同一台服务器上，虽然在逻辑上进行了隔离，但物理上的资源共享可能会导致数据泄露。本申请提供的数据泄露检测方法通过监测不同租户之间的资源共享情况，可以还原出可能的数据泄露路径，指出哪些租户的数据流动可能会交叉。基于已有的数据泄露事件进行分析，可以提供预警和建议，帮助云服务提供商采取措施，确保各个租户之间的数据隔离。

再如，在当今移动应用广泛普及的背景下，不同组件之间的数据共享已成常态，然而这也引发了隐私泄露的风险。本申请所述的数据泄露检测方法可以提供针对移动应用的隐私保护系统，能够有效检测和还原数据泄露路径。该方法运用数据流追踪技术，分析移动应用之间数据传递的方式，从而准确识别潜在的数据泄露链路。

基于相同的技术构思，参见图5，本申请实施例提供了数据泄露检测装置，包括：

获取模块501，用于针对每个目标系统，获取目标系统的部署拓扑信息、漏洞信息以及静态代码分析结果；

构建模块502，用于基于部署拓扑信息、漏洞信息以及静态代码分析结果，构建目标系统的有向流向连接网络；从有向流向连接网络中，提取目标系统的潜在风险事件；

序列提取模块503，用于基于多个目标系统的潜在风险事件构建因果图，并从因果图中提取可疑序列；

检测模块504，用于将可疑序列输入已训练的序列检测模型进行检测，确定可疑序列是否为数据泄露事件。

一种可选实施方式中，构建模块502具体用于：

基于部署拓扑信息，构建目标系统中各个关键组件对应的节点；

基于漏洞信息以及静态代码分析结果，遍历构建的各个节点，获得有向链路和逻辑表达式集，其中，有向链路包括各个节点及相应的漏洞属性；逻辑表达式集表征有向链路中节点之间的连接关系；

根据有向链路和逻辑表达式集构建目标系统的有向流向连接网络。

一种可选实施方式中，构建模块502具体用于：

获取目标系统的风险日志信息；

基于风险日志信息对有向流向连接网络中的各个节点进行关联分析，确定各个节点的时间戳以及链路风险权重值，链路风险权重值指：链路流转到节点时的风险权重值；

基于各个节点的时间戳以及链路风险权重值，对有向流向连接网络进行广度优先搜索，提取目标系统的潜在风险事件。

一种可选实施方式中，构建模块502具体用于：

针对每个风险日志信息，获取风险日志信息在有向流向连接网络中关联的节点以及节点的计算状态；在节点的计算状态为未结束状态时，将风险日志信息的时间戳，作为节点的时间戳；

一种可选实施方式中，构建模块502具体用于：

基于初始点至节点的链路中各个节点的风险权重值，以及初始点至节点的链路对应的逻辑表达式，确定节点的链路风险权重值。

一种可选实施方式中，还包括序列处理模块505；

序列处理模块505具体用于：

删除因果图中独立的节点和边；删除因果图中重复的边；以及合并因果图中对应相同动作标签的边。

一种可选实施方式中，还包括模型训练模块506；

模型训练模块506具体用于：

基于相同的技术构思，本申请实施例提供了一种计算机设备，该计算机设备可以是图1所示的终端设备和/或检测系统，如图6所示，包括至少一个处理器601，以及与至少一个处理器连接的存储器602，本申请实施例中不限定处理器601与存储器602之间的具体连接介质，图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器602存储有可被至少一个处理器601执行的指令，至少一个处理器601通过执行存储器602存储的指令，可以执行上述数据泄露检测方法的步骤。

其中，处理器601是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据，从而实现信息提取。可选的，处理器601可包括一个或多个处理单元，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。在一些实施例中，处理器601和存储器602可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器601可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器602作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机设备存取的任何其他介质，但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述数据泄露检测方法的步骤。

基于同一发明构思，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机设备执行时，使所述计算机设备执行上述数据泄露检测方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机设备或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备或其他可编程数据处理设备上，使得在计算机设备或其他可编程设备上执行一系列操作步骤以产生计算机设备实现的处理，从而在计算机设备或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据泄露检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述部署拓扑信息、所述漏洞信息以及所述静态代码分析结果，构建所述目标系统的有向流向连接网络，包括：

3.如权利要求1所述的方法，其特征在于，所述从所述有向流向连接网络中，提取所述目标系统的潜在风险事件，包括：

获取所述目标系统的风险日志信息；

4.如权利要求3所述的方法，其特征在于，所述基于所述风险日志信息对所述有向流向连接网络中的各个节点进行关联分析，确定所述各个节点的时间戳以及风险权重值，包括：

5.如权利要求4所述的方法，其特征在于，所述基于初始点至所述节点的链路的链路信息，确定所述节点的链路风险权重值，包括：

6.如权利要求1-5任一所述的方法，其特征在于，所述潜在风险事件包括：头节点、动作标签、尾节点、事件发生的时间戳和动作标签的描述性文本。

7.如权利要求6所述的方法，其特征在于，所述从所述因果图中提取可疑序列之前，还包括：

8.如权利要求1所述的方法，其特征在于，所述已训练的序列检测模型是采用以下训练方法训练得到的，包括：

9.一种数据泄露检测装置，其特征在于，包括：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～8任一所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～8任一所述方法的步骤。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机设备执行时，使所述计算机设备执行权利要求1-8任一项所述方法的步骤。