CN120874981A - 数据泄露溯源方法、设备、存储介质及程序产品 - Google Patents

数据泄露溯源方法、设备、存储介质及程序产品

Info

Publication number
CN120874981A
CN120874981A CN202510976395.7A CN202510976395A CN120874981A CN 120874981 A CN120874981 A CN 120874981A CN 202510976395 A CN202510976395 A CN 202510976395A CN 120874981 A CN120874981 A CN 120874981A
Authority
CN
China
Prior art keywords
data
log
conflict
data leakage
evidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202510976395.7A
Other languages
English (en)
Inventor
岳向阳
刘海
肖伟
赵锴
屠礼彪
郭胜楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
China Information Technology Designing and Consulting Institute Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
China Information Technology Designing and Consulting Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, China Information Technology Designing and Consulting Institute Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202510976395.7A priority Critical patent/CN120874981A/zh
Publication of CN120874981A publication Critical patent/CN120874981A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种数据泄露溯源方法、设备、存储介质及程序产品,涉及数据分析技术领域。该方法包括:获取数据库的操作记录集合;基于操作记录集合,构建操作证据链;基于操作证据链构建知识图谱;知识图谱包括多个节点以及多个边,节点用于表示操作记录,边用于表示操作记录之间的关系;基于知识图谱和图神经网络模型,确定异常操作评分;图神经网络模型用于基知识图谱确定每个节点的异常操作评分;从多个节点中确定异常操作评分最高的数据泄漏点;从数据泄漏点开始反向追踪路径,确定数据源头到数据泄漏点的最小因果链;最小因果链用于指示数据泄露事件中从数据源头到泄露点的最短操作路径。该方法用于快速定位数据泄露源头并固定证据链。

Description

数据泄露溯源方法、设备、存储介质及程序产品
技术领域
本申请涉及数据分析技术领域,尤其涉及一种数据泄露溯源方法、设备、存储介质及程序产品。
背景技术
随着数字经济的快速发展,数据已成为关键生产要素,而数据隐私保护问题也日益凸显。
数据泄露事件频发,企业及监管机构亟需快速定位数据泄露源头并固定证据链。
发明内容
本申请提供一种数据泄露溯源方法、设备、存储介质及程序产品,提供一种快速定位数据泄露源头并固定证据链的溯源方法。
第一方面,本申请提供一种数据泄露溯源方法,该方法包括:获取数据库的操作记录集合;基于操作记录集合,构建操作证据链;操作证据链包括多个按照顺序排列的操作记录;基于操作证据链构建知识图谱;知识图谱包括多个节点以及多个边,节点用于表示操作记录,边用于表示操作记录之间的关系;基于知识图谱和图神经网络模型,确定异常操作评分;图神经网络模型用于基知识图谱确定每个节点的异常操作评分;从多个节点中确定异常操作评分最高的数据泄漏点;从数据泄漏点开始反向追踪路径,确定数据源头到数据泄漏点的最小因果链;最小因果链用于指示数据泄露事件中从数据源头到泄露点的最短操作路径。
可选地,获取数据库的操作记录集合,包括:获取数据库的多种异构日志;多种异构日志包括:数据库日志、API调用日志以及用户行为日志;基于正则表达式解析技术对多种异构日志进行协议解析处理,得到结构化日志数据;基于数据清洗技术对结构化日志数据进行格式统一处理,得到标准化日志集合;基于主键关联算法对标准化日志集合进行数据关联处理,绑定同一操作的时间戳、操作类型及主体标识,生成初始解析日志集合;基于初始解析日志集合,得到操作记录集合。
可选地,基于初始解析日志集合,得到操作记录集合,包括:基于线性回归算法对初始解析日志集合进行时钟偏移量计算处理,根据历史日志数据拟合各日志源的初始时钟偏差,生成时钟偏移量;基于滑动窗口算法对时钟偏移量进行漂移率计算处理,生成时钟漂移率;基于时钟偏移量和时钟漂移率对初始解析日志集合的原始时间戳进行修正处理,生成校准时间戳;对校准时间戳和初步解析日志集合的操作类型及主体标识进行关联处理,得到操作记录集合。
可选地,基于时钟偏移量和时钟漂移率对初始解析日志集合的原始时间戳进行修正处理,生成校准时间戳,包括:按照下述公式计算校准时间戳:
tcalibrated=trawii*(tcurrent-tref);
其中,tcalibrated为校准时间戳,traw为原始时间戳,Δi为时钟偏移量,αi为时钟漂移率,tref为首次日志接收的基准时间,tcurrent为当前处理时间。
可选地,基于操作记录集合,构建操作证据链,包括:基于预定义的操作依赖规则,识别操作记录集合中违反操作依赖规则的操作记录对,生成冲突操作集合;基于操作依赖规则和冲突操作集合中操作记录的校准时间戳,确定冲突操作集合的全局冲突指标;在全局冲突指标超过第一冲突指标阈值的情况下,基于每个操作记录对的局部冲突指标,从冲突操作集合中挑选出局部冲突指标超过第二冲突指标阈值的高风险冲突事件集合;采用决策树算法对高风险冲突事件集合进行根因识别处理,生成根因标签;根因标签用于表示操作记录对的根因类别为数据源时钟偏差或操作逻辑错误;基于预设的时钟校准策略对根因标签为表示数据源时钟偏差的操作记录对进行修正处理,生成修正操作记录集合;对修正操作记录集合中的操作记录进行逻辑关联处理,绑定操作主体、时间戳及修正原因,生成关联证据链;基于关联证据链,确定操作证据链。
可选地,基于操作依赖规则和冲突操作集合中操作记录的校准时间戳,确定冲突操作集合的全局冲突指标,包括:按照下述公式计算冲突操作集合的全局冲突指标:
其中,C为全局冲突度指标,δmin和δmax为操作依赖规则允许的最小时间间隔和最大时间间隔,δexpected为间隔中值,V为冲突操作集合,A和B为冲突操作集合中的两个操作记录,tA、tB为A和B的校准时间戳。
可选地,基于关联证据链,确定操作证据链,包括:基于Merkle树构建算法对关联证据链进行哈希处理,逐层计算哈希值并生成根哈希值;调用智能合约将根哈希值写入公有链区块,生成区块链存证凭证;基于zk-SNARK零知识证明算法对关联证据链和区块链存证凭证进行签名处理,将存证凭证与操作记录绑定并生成匿名化签名,生成操作证据链。
本申请提供的数据泄露溯源方法,可以获取数据库的操作记录集合;基于操作记录集合,构建操作证据链;操作证据链包括多个按照顺序排列的操作记录;基于操作证据链构建知识图谱;知识图谱包括多个节点以及多个边,节点用于表示操作记录,边用于表示操作记录之间的关系;基于知识图谱和图神经网络模型,确定异常操作评分;图神经网络模型用于基知识图谱确定每个节点的异常操作评分;从多个节点中确定异常操作评分最高的数据泄漏点;从数据泄漏点开始反向追踪路径,确定数据源头到数据泄漏点的最小因果链;最小因果链用于指示数据泄露事件中从数据源头到泄露点的最短操作路径。从而提供一种快速定位数据泄露源头并固定证据链的溯源方法。
第二方面,本申请提供一种数据泄露溯源装置,该装置包括用于之上第一方面所述方法的各个功能模块。
第三方面,本申请提供一种计算机程序产品,包括:计算机指令;当该计算机指令在电子设备上运行时,使得电子设备实现上述第一方面所述的方法。
第四方面,本申请提供一种电子设备,该电子设备包括:处理器和存储器;存储器存储有处理器可执行的指令;处理器被配置为执行指令时,使得电子设备实现上述第一方面所述的方法。
第五方面,本申请提供一种可读存储介质,该可读存储介质包括:软件指令;当软件指令在电子设备中运行时,使得电子设备实现上述第一方面所述的方法。
上述第二方面至第五方面的有益效果可以参考第一方面所述,不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据泄露溯源系统的组成示意图;
图2为本申请实施例提供的一种数据泄露溯源方法的流程示意图;
图3为本申请实施例提供的另一种数据泄露溯源方法的流程示意图;
图4为本申请实施例提供的又一种数据泄露溯源方法的流程示意图;
图5为本申请实施例提供的又一种数据泄露溯源方法的流程示意图;
图6为本申请实施例提供的又一种数据泄露溯源方法的流程示意图;
图7为本申请实施例提供的数据泄露溯源装置的组成示意图;
图8为本申请实施例提供的电子设备的组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
随着数字经济的快速发展,数据已成为关键生产要素,而数据隐私保护问题也日益凸显。
数据泄露事件频发,企业及监管机构亟需快速定位数据泄露源头并固定证据链。
基于此,本申请实施例提供一种数据泄露溯源方法、设备、存储介质及程序产品,提供一种快速定位数据泄露源头并固定证据链的溯源方法。
以下结合附图进行介绍。
图1为本申请实施例提供的数据泄露溯源系统的组成示意图。如图1所示,该系统包括:日志服务器100和数据泄露溯源装置200
其中,日志服务器100可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。可选地,服务器还可以在云平台上实现,例如,云平台可以包括私有云、公有云、混合云、社区云(communitycloud)、分布式云、跨云(inter-cloud)、以及多云(multi-cloud)等,或者它们的任意组合。本申请实施例对此不作限制。
日志服务器100可以用于获取并记录多种异构日志,例如数据库日志、应用程序编程接口(Application Programming Interface,API)调用日志以及用户行为日志等。
数据泄露溯源装置200可以是计算机或服务器等具有计算处理功能的电子设备。
数据泄露溯源装置200可以用于基于日志服务器100记录的多种异构日志生成数据库的操作记录集合,并基于操作记录集合进行数据泄露溯源。具体过程可以参照下述方法实施例中提供的数据泄露溯源方法处所述,此处不再蛛丝。
需要说明的是,上述以日志服务器100和数据泄露溯源装置200为各自独立的装置为例进行了介绍。在一些实施例中,上述日志服务器100或其对应的功能以及数据泄露溯源装置200或其对应的功能也可以合设为一体。例如,具有数据泄露溯源功能的数据库服务器。本申请实施例对此不作限制。
本申请实施例提供的数据泄露溯源方法的执行主体为数据泄露溯源装置(例如上述数据泄露溯源装置200)。如上所述,该数据泄露溯源装置可以是计算机或服务器等具有计算处理功能的电子设备。可选地,该数据泄露溯源装置也可以是前述电子设备中的处理器(例如中央处理器(central processing unit,CPU));再或者,该数据泄露溯源装置也可以是部署在前述电子设备中的平台或软件系统;再或者,该数据泄露溯源装置还是前述电子设备中用于执行数据泄露溯源方法的功能模块等。本申请实施例对此不作限制。
为了描述简单,以下统一以本申请实施例提供的数据泄露溯源方法的执行主体为数据泄露溯源装置为例进行介绍。
图2本申请实施例提供的一种数据泄露溯源方法的流程示意图。如图2所示,该方法包括以下几个步骤:
S201、获取数据库的操作记录集合。
其中,操作记录集合可以包括多个操作记录。
一些可能的实施例中,数据泄露溯源装置可以利用通用日志解析框架,针对不同类型的日志源进行适配和转换。这一过程不仅涉及对数据库日志的结构化信息提取,如表名、字段名、操作类型等,还需对API调用日志中的请求方法、参数、返回值等进行详细解析,同时对用户行为日志中的操作行为、用户标识、设备信息等进行标准化处理。系统通过正则表达式、模式匹配等技术手段,从原始日志中提取时间戳、操作类型和主体标识等关键字段,并将其转换为统一的XML或JSON格式。在这种情况下,图3为本申请实施例提供的另一种数据泄露溯源方法的流程示意图。如图3所示,上述S201具体可以包括以下几个步骤:
S2011、获取数据库的多种异构日志。
其中,多种异构日志包括:数据库日志、API调用日志以及用户行为日志。
S2012、基于正则表达式解析技术对多种异构日志进行协议解析处理,得到结构化日志数据。
例如,在数据库日志中,正则表达式可以匹配如“2024-11-0812:34:56”格式的时间戳,以及“UPDATE table SET column=value”这样的操作类型描述;在API调用日志中,可以识别“POST/api/resource HTTP/1.1”等请求方法和路径;在用户行为日志中,能够提取“user123loggedin fromIP”这样的用户行为记录。通过对不同日志源的深入分析,数据泄露溯源装置挖掘并总结出各类日志的特定协议模式,从而准确提取出关键字段信息,生成结构化日志数据。这一过程不仅能够处理常见的日志格式,还能适应自定义的日志格式规范,为后续的数据处理奠定基础。
S2013、基于数据清洗技术对结构化日志数据进行格式统一处理,得到标准化日志集合。
例如,数据泄露溯源装置可以首先对日志数据进行预处理,分析不同日志源的时间戳格式,识别出如“YYYY-MM-DD HH:MM:SS”、“DD/MM/YYYY HH:MM:SS”等多种格式。然后,数据泄露溯源装置采用统一时间格式转换规则,将所有时间戳转换为ISO 8601标准格式,即“YYYY-MM-DDTHH:MM:SSZ”。这一转换过程通过编程语言中的日期时间处理库实现,例如在Python中使用datetime模块进行解析和格式化。同时,数据泄露溯源装置还对时间戳的时区信息进行处理,将其统一转换为目标时区,以消除时区差异带来的影响。在格式统一处理过程中,数据泄露溯源装置还进行数据清洗的其他操作,如去除重复记录、修正明显错误的时间戳,例如月份超过12、日期超过当月最大天数等错位,从而确保时间戳数据的准确性和一致性,生成标准化日志集合,为后续的时序分析提供可靠的时间基准。
S2014、基于主键关联算法对标准化日志集合进行数据关联处理,绑定同一操作的时间戳、操作类型及主体标识,生成初始解析日志集合。
其中,主键关联算法是一种通过唯一标识符将不同数据源中的相关记录进行绑定的技术。在数据处理领域,主键关联广泛应用于多数据源集成和数据仓库建设中,用于确保数据的一致性和完整性。在本申请实施例中,主键关联算法通过分析日志记录中的关键信息,如操作类型、主体标识以及时间戳等,确定不同日志记录之间的关联关系。例如,当一个用户在前端发起一个数据查询操作,后端数据库执行相应的查询语句,同时后端服务调用外部API获取补充数据,这些操作将会分别记录在用户行为日志、数据库日志和API调用日志等不同日志中,同时,在不同日志源中的操作记录是相互关联的。数据泄露溯源装置通过定义主键,如用户会话ID、事务ID或操作序列号等,将这些分散在不同日志源中的记录进行关联绑定。
主键关联算法的核心在于确保每个操作记录的唯一性和可追溯性,通过主键将同一操作在不同数据泄露溯源装置中的日志记录关联起来,构建出完整操作链路。在关联过程中,数据泄露溯源装置对时间戳进行进一步校验,确保关联后的日志记录在时间顺序上符合逻辑,例如前端操作的时间戳应早于后端数据库操作的时间戳。最终,数据泄露溯源装置生成初始解析日志集合,该集合不仅包含了原始日志中的关键信息,还通过主键关联整合了跨数据泄露溯源装置的操作记录,为后续的时序逻辑分析和溯源提供了全面、准确的数据基础。
S2015、基于初始解析日志集合,得到操作记录集合。
一些可能的实施例中,由于数据库服务器、API网关以及用户终端等设备可能分布于不同的地理位置,且各自的时钟可能存在偏差,这将导致日志记录的时间戳出现不一致的情况,数据泄露溯源装置可以采用基于历史日志数据的时钟偏移量和漂移率计算方法,通过分析大量历史日志记录,建立一个时钟偏移模型,利用该时钟偏移模型,对初始解析日志集合中的时间戳进行校准,确保所有日志记录在时间维度上具有一致性。在这种情况下,图4为本申请实施例提供的又一种数据泄露溯源方法的流程示意图。如图4所示,上述S2015具体可以包括:
S20151、基于线性回归算法对初始解析日志集合进行时钟偏移量计算处理,根据历史日志数据拟合各日志源的初始时钟偏差,生成时钟偏移量。
其中,线性回归算法是一种统计学方法,通过建立因变量与自变量之间的线性关系来预测或拟合数据趋势。在本申请实施例中,可以将历史日志数据作为训练样本,其中包含已知准确时间基准的操作记录。数据泄露溯源装置可以将不同日志源记录的同一操作的时间戳作为因变量,将准确时间基准作为自变量,构建线性回归模型。模型训练过程中,数据泄露溯源装置计算每个日志源的时钟偏移量Δi,该偏移量表示日志源记录时间与实际时间的固定偏差。通过最小二乘法等优化方法,数据泄露溯源装置求解线性回归方程的参数,使得预测时间与实际时间的误差平方和最小化,从而得到各日志源的初始时钟偏差Δi,生成时钟偏移量。这一过程不仅考虑了日志源自身的时钟特性,还结合了大量历史数据的统计规律,确保时钟偏移量的计算结果具有较高的准确性和可靠性,为后续的时间戳校准提供了关键参数。
S20152、基于滑动窗口算法对时钟偏移量进行漂移率计算处理,生成时钟漂移率。
其中,滑动窗口算法是一种动态数据分析技术,可以通过在数据流上维护一个固定大小的窗口来实时更新统计特征。在时钟漂移率计算中,数据泄露溯源装置可以将历史日志数据按时间顺序划分为多个滑动窗口,每个窗口包含一定数量的连续日志记录。在每个窗口内,数据泄露溯源装置再次应用线性回归算法,计算时钟偏移量随时间的变化率,即得到时钟漂移率αi。漂移率反映了日志源时钟与实际时间基准之间的相对漂移速度。
数据泄露溯源装置通过动态更新滑动窗口的位置,实时跟踪时钟漂移率的变化,从而补偿长期时间偏差。例如,当窗口滑动到新的时间区间时,数据泄露溯源装置可以利用窗口内的最新数据重新拟合线性回归模型,更新漂移率参数。这一动态更新机制确保数据泄露溯源装置能够适应时钟漂移率随环境变化(如温度变化、硬件老化等)而产生的波动,提高了时钟校准的长期稳定性。经过漂移率计算处理后,数据泄露溯源装置生成时钟漂移率,为后续的时间戳修正提供了动态补偿参数。
S20153、基于时钟偏移量和时钟漂移率对初始解析日志集合的原始时间戳进行修正处理,生成校准时间戳。
作为一种示例,数据泄露溯源装置具体可以按照下述公式计算校准时间戳:
tcalibrated=trawii*(tcurrent-tref) 公式(1)
公式(1)中,tcalibrated为校准时间戳,traw为原始时间戳,Δi为时钟偏移量,αi为时钟漂移率,tref为首次日志接收的基准时间,tcurrent为当前处理时间。
在一些实施例中,数据泄露溯源装置可以尝试从外部时间服务器获取高精度的时间基准,通常使用网络时间协议(Network Time Protocol,NTP)服务器进行时间同步。NTP服务器能够提供高精度的时间服务,确保基准时间的准确性。数据泄露溯源装置可以通过NTP客户端向NTP服务器发送时间请求,NTP服务器返回其维护的高精度时间,数据泄露溯源装置据此设置首次日志接收的基准时间tref。可选地,若外部时间服务器不可用,数据泄露溯源装置可以依赖自身的高精度时钟作为时间基准源。数据泄露溯源装置记录本地时钟的当前时间,并将其作为基准时间tref。在这种情况下,数据泄露溯源装置可以启动内部时间监控机制,定期检查本地时钟的漂移情况,并进行相应补偿,以确保基准时间的准确性。在获得基准时间后,按照上述公式(1)计算校准时间戳。
本申请实施例提供的数据泄露溯源方法中,数据泄露溯源装置可以计算出每个系统相对于一个统一时间基准的偏移量,并考虑时钟漂移率对时间的影响。通过这种时间基准对齐处理,能够生成校准操作记录集合,为后续的时序逻辑冲突检测提供准确的时间基础,从而确保在溯源过程中能够正确还原事件的时间线,避免因时间偏差导致的操作顺序误判,提高溯源分析的准确性和可靠性。
S20154、对校准时间戳和初步解析日志集合的操作类型及主体标识进行关联处理,得到操作记录集合。
例如,数据泄露溯源装置可以进一步将校准时间戳与日志记录中的操作类型及主体标识进行关联处理,构建操作记录集合。在关联过程中,数据泄露溯源装置确保每个操作记录的时间戳、操作类型和主体标识三者之间的一一对应关系,采用哈希表等数据结构提高关联效率。操作记录集合不仅在时间上具有精确的时序一致性,还完整保留了操作的业务语义和主体信息,为后续的时序逻辑分析和溯源提供了高质量的数据基础。
S202、基于操作记录集合,构建操作证据链。
其中,操作证据链包括多个按照顺序排列的操作记录。
在一些实施例中,图5为本申请实施例提供的又一种数据泄露溯源方法的流程示意图。如图5所示,上述S202具体可以包括以下几个步骤:
S2021、基于预定义的操作依赖规则,识别操作记录集合中违反操作依赖规则的操作记录对,生成冲突操作集合。
例如,在对数据泄露证据进行采集认证及溯源的过程中,数据泄露溯源装置可以依据预设程序对操作记录集合进行时序逻辑冲突检测。数据泄露溯源装置加载预定义的操作依赖规则,这些规则详尽地涵盖了业务流程中各项操作间的先后顺序、时间间隔约束以及资源访问限制等关键要素。具体而言,数据泄露溯源装置通过规则引擎技术,运用正向推理和反向推理相结合的方式,对校准操作记录集合中的每一对操作进行匹配分析。例如,对于操作A和操作B,数据泄露溯源装置严格按照规则库中既定的“操作A必须在操作B之前完成,且两者时间间隔应在δmin到δmax之间”的约束条件,精准识别出违反规则的操作对,并将其纳入冲突操作集合。
在一些实施例中,数据泄露溯源装置也可以动态更新操作依赖规则,以便灵活适应不断变化的业务流程和安全策略要求,其更新触发条件主要可以包括以下几种:
(1)定时检查更新:数据泄露溯源装置通过定时任务定期检查规则存储位置,判断规则是否有更新。例如,数据泄露溯源装置可设置每隔5分钟检查一次规则文件或数据库中规则的版本号或更新时间戳,若发现更新,则触发规则更新操作。
(2)事件驱动更新:当数据泄露溯源装置检测到特定事件发生时,如业务流程变更、安全策略调整或规则管理模块的手动更新指令等,会触发规则更新。比如,在业务数据泄露溯源装置上线新功能后,相应的操作依赖规则需要同步更新,数据泄露溯源装置会监听此类业务变更事件来启动规则更新流程。
(3)外部通知更新:数据泄露溯源装置可与规则管理平台集成,通过消息队列、Webhook等方式接收外部发送的规则更新通知。例如,当规则管理平台完成规则的新增、修改或删除操作后,向数据泄露溯源装置发送更新通知消息,数据泄露溯源装置接收到通知后立即执行规则更新。
这一动态更新操作依赖规则的机制确保了冲突操作集合的准确性和时效性,为后续的冲突度量化分析提供了坚实可靠的数据基础。数据泄露溯源装置在处理过程中,始终遵循预设的规则和程序,不进行任何超出程序设定范围的操作。
S2022、基于操作依赖规则和冲突操作集合中操作记录的校准时间戳,确定冲突操作集合的全局冲突指标。
作为一种示例,数据泄露溯源装置具体可以按照下述公式计算冲突操作集合的全局冲突指标:
公式(2)至公式(3)中,C为全局冲突度指标,δmin和δmax为操作依赖规则允许的最小时间间隔和最大时间间隔,δexpected为间隔中值,V为冲突操作集合,A和B为冲突操作集合中的两个操作记录,tA、tB为A和B的校准时间戳。δexpected也可以理解为为操作依赖规则允许的时间间隔的期望值,反映了正常情况下操作间的时间间隔。数据泄露溯源装置将该偏离程度除以规则允许的时间间隔范围(δmaxmin),从而得到该对操作的冲突度贡献值。随后,数据泄露溯源装置对所有冲突操作对的贡献值进行累加求和,最终得出全局冲突度指标C。该指标从宏观层面量化了整个操作记录集合中的时序逻辑冲突严重程度,数值越大,表明冲突越为严重。
在一些实施例中,为了便于分析人员直观地理解和处理这些冲突,数据泄露溯源装置还可以提供冲突热力图可视化工具。冲突热力图可以通过颜色深浅的变化,展示不同操作区域的冲突密度,助力分析人员迅速定位高冲突区域,为后续的冲突处理工作指明了方向。
在一些实施例中,在计算得到全局冲突指标之后,还可以通过人工审查或者人工干预机制,修正因规则引擎误报或特殊业务场景导致的错误冲突识别,同时能够调整冲突度指标以更准确地反映实际情况。数据泄露溯源装置提供了直观的用户界面和详细的冲突事件报告,方便人工进行高效干预。
S2023、在全局冲突指标超过第一冲突指标阈值的情况下,基于每个操作记录对的局部冲突指标,从冲突操作集合中挑选出局部冲突指标超过第二冲突指标阈值的高风险冲突事件集合。
其中,如上述公式(2)和公式(3)处所示,全局冲突指标可以理解为是对多个操作记录对的局部冲突指标求和计算得到的,在这种情况下,局部冲突指标可以参照上述公式(2)中的计算得到。
S2024、采用决策树算法对高风险冲突事件集合进行根因识别处理,生成根因标签。
其中,根因标签用于表示操作记录对的根因类别为数据源时钟偏差或操作逻辑错误。决策树算法是一种基于树结构的监督学习方法,数据泄露溯源装置利用该算法构建了一个预训练的分类模型。模型的训练数据集包含了历史冲突事件及其已知的根本原因,如数据源时钟偏差和操作逻辑错误等。在处理高风险冲突事件时,数据泄露溯源装置将事件的操作类型、时间戳差异、主体标识、资源类型等特征向量输入决策树模型。模型通过一系列预定义的决策规则,如“时间戳差异是否超过数据泄露溯源装置时钟同步精度”、“操作顺序是否违反业务流程规范”等,对冲突原因进行分类。最终,数据泄露溯源装置输出根因标签,其中每个根因标签明确标识了冲突事件的根本原因(根因)类别。这一过程不仅提高了冲突处理的效率,还为后续的针对性解决方案提供了科学依据,确保数据泄露溯源装置能够迅速定位问题根源并采取有效措施进行修复。
S2025、基于预设的时钟校准策略对根因标签为表示数据源时钟偏差的操作记录对进行修正处理,生成修正操作记录集合。
其中,时钟校准策略可以包括重新计算时间戳基于更精确的时钟源、应用线性回归算法对时钟偏差进行动态补偿等。例如,数据泄露溯源装置可以参考高精度的网络时间协议(NTP)服务器时间,对存在偏差的本地时钟记录进行校正。在调整时间戳之后,数据泄露溯源装置可以重新计算冲突度指标,以验证修正效果。数据泄露溯源装置可以记录每一次修正操作的详细信息,包括修正前后的时钟偏差值、调整算法参数以及重新计算的冲突度指标变化情况,生成修正操作记录集合。通过这种闭环的修正机制,数据泄露溯源装置能够持续优化时序数据的准确性,为后续的证据链构建提供可靠的数据支持。
S2026、对修正操作记录集合中的操作记录进行逻辑关联处理,绑定操作主体、时间戳及修正原因,生成关联证据链。
例如,数据泄露溯源装置可以通过预设的数据关联规则,将操作主体、时间戳及修正原因进行绑定。具体而言,数据泄露溯源装置可以利用操作ID、事务ID等唯一标识符将分散的修正记录与原始操作记录进行关联。对于每个修正操作记录,数据泄露溯源装置可以记录操作主体的身份信息、修正后的时间戳以及修正的时钟偏差调整、操作顺序重排等具体原因。
在一些实施例中,数据泄露溯源装置还可以引入数字签名技术,对关联后的证据记录进行签名,确保证据的完整性和不可篡改性。例如,数据泄露溯源装置可以使用RSA加密算法对证据记录生成数字签名,任何对证据的篡改都将导致签名验证失败。最终生成的逻辑一致的关联证据链,不仅在时序上消除了冲突,还完整保留了操作的业务语义和修正过程的详细信息。这一证据链为数据隐私泄露的溯源分析提供了坚实的基础,帮助监管机构和企业快速定位泄露源头、确定责任主体,并采取有效的补救措施。数据泄露溯源装置在整个处理过程中,严格遵循预设的程序和规则,不进行任何超出程序设定范围的操作,确保了处理过程的严谨性和规范性。
本申请实施例提供的数据泄露溯源方法,可以通过规则引擎技术加载预定义的操作依赖规则,对校准后的操作记录集合进行全量规则匹配,有效识别跨系统操作中违反时序依赖或权限约束的异常事件,突破传统方法依赖单一规则库导致的覆盖范围有限问题;基于时间偏差量化算法对冲突操作集合进行冲突度计算,通过全局冲突度指标客观衡量操作时间间隔与规则允许范围的偏离程度,避免人工经验判断的主观性与遗漏风险,尤其针对高频跨平台操作场景,能够精准量化复杂时序逻辑矛盾;结合人工干预机制对高冲突度事件进行定向修正,通过根因分析区分时钟偏差与恶意操作,针对性调整时间戳或剔除无效告警,在保障自动化检测效率的同时提升证据链的司法可信度。
相较于现有技术,上述流程将规则驱动的异常检测、数学建模的冲突评估及人机协同的修正机制有机结合,系统性解决多源日志时序不一致导致的误报率高、隐蔽攻击难以追溯、证据链逻辑断裂等难题,生成的关联证据链既符合业务操作的真实时序逻辑,又能有效支撑司法取证中对操作合规性的严格验证,为金融交易、政务数据管理等高风险场景下的数据泄露事件提供可靠溯源依据。
S2027、基于关联证据链,确定操作证据链。
在一些实施例中,图6为本申请实施例提供的又一种数据泄露溯源方法的流程示意图。如图6所示,上述S2027具体可以包括以下几个步骤:
S20271、基于Merkle树构建算法对关联证据链进行哈希处理,逐层计算哈希值并生成根哈希值。
其中,Merkle树是一种二叉树结构,其中每个父节点包含其子节点的哈希值。数据泄露溯源装置可以将关联证据链中的每条记录作为叶子节点,对每个叶子节点的数据进行哈希运算,生成对应的哈希值。随后,数据泄露溯源装置可以将这些叶子节点的哈希值两两配对,进行再次哈希运算,生成父节点的哈希值。这一过程逐层向上进行,直到最终生成一个根哈希值。根哈希值作为整个证据链的唯一标识,能够高效地验证证据链中任意数据的完整性和真实性。通过Merkle树的构建,数据泄露溯源装置能够确保任何对证据链的篡改都会导致根哈希值的变化,从而被快速检测出来。这一过程为后续的证据存储和验证提供了坚实的基础,确保了证据链的可信度。
S20272、调用智能合约将根哈希值写入公有链区块,生成区块链存证凭证。
其中,公有链是一种去中心化的区块链网络,具有高度的透明性和不可篡改性。智能合约是一种自动执行的合约条款,以代码形式定义在区块链上,能够确保交易的自动验证和执行。数据泄露溯源装置通过与公有链的交互,将根哈希值作为交易数据的一部分写入新的区块中。一旦该区块被添加到区块链中,根哈希值就永久存储在区块链上,无法被篡改或删除。区块链存证凭证记录了根哈希值的存储位置、写入时间戳以及区块链交易哈希等信息,为证据链提供了不可篡改的存储证明。这一过程利用了区块链的分布式账本特性,确保了存证的透明性、安全性和可信度,为证据的司法认定提供了强有力的支持。
S20273、基于zk-SNARK零知识证明算法对关联证据链和区块链存证凭证进行签名处理,将存证凭证与操作记录绑定并生成匿名化签名,生成操作证据链。
其中,知识证明是一种密码学技术,允许证明者向验证者证明某个陈述的真实性,而无需透露任何关于陈述本身的有用信息。zk-SNARK(Zero-Knowledge Succinct Non-Interactive Argument of Knowledge)是一种高效的零知识证明方案,能够在不泄露证据具体内容的前提下,证明证据的真实性和完整性。
数据泄露溯源装置通过zk-SNARK算法,将关联证据链和区块链存证凭证作为输入,生成一个匿名化签名。该签名将存证凭证与操作记录绑定在一起,确保两者之间的关联不可篡改。匿名化签名不仅保护了证据的隐私,还提供了强大的验证机制,使得任何第三方都可以验证签名的真实性,而无需访问证据的具体内容。
为了确保匿名标识(PID)无法反向追踪到真实用户,数据泄露溯源装置还可以采用以下措施:
1.哈希函数与盐值:数据泄露溯源装置对用户标识符进行哈希处理,并添加随机盐值。例如,生成PID时,使用哈希函数对用户标识符进行计算,并在计算过程中加入随机盐值,使得相同的用户标识符在不同情况下生成不同的PID。这样即使PID被泄露,攻击者也无法通过逆向哈希函数来获取原始用户标识符。
2.零知识证明:数据泄露溯源装置利用zk-SNARK的特性,证明PID与用户标识符之间的关系,而不泄露用户标识符本身的信息。例如,数据泄露溯源装置可以生成一个零知识证明,证明某个PID对应的用户满足特定条件(如通过身份验证),而不泄露用户的具体身份信息。验证者可以通过验证这个证明来确认PID的有效性,而无需知道用户的真实身份。
3.混合网络与匿名通信协议:数据泄露溯源装置可以结合Tor、I2P等匿名通信网络,将用户请求在多个节点间进行路由和混淆,使得追踪用户的真实IP地址变得极其困难。例如,用户请求先通过Tor网络的多个中继节点进行转发,每个中继节点只掌握前一个节点和后一个节点的信息,无法获取用户的真实IP地址和最终访问目标的完整路径,从而保护用户的匿名性。
经过这一处理步骤,数据泄露溯源装置生成不可篡改的锁定证据链。锁定证据链结合了Merkle树的完整性保护、区块链的不可篡改性和零知识证明的隐私保护特性,为数据隐私泄露事件的调查和司法认定提供了最高级别的证据保障。这一过程确保了证据链在法律程序中的可信度和可用性,增强了整个数据泄露溯源装置的数据安全和隐私保护能力。
应理解,复杂的数据操作环境中,操作流程往往遵循严格的依赖关系和逻辑顺序,例如数据的读取操作通常需要在数据写入操作之后进行,权限变更操作必须在其对应的用户认证操作完成之后生效等。然而,在实际的日志记录中,由于系统故障、并发操作干扰或恶意攻击等因素,可能存在违反这些操作依赖关系的异常事件,这些异常事件将严重扰乱正常的操作时序,给数据隐私泄露的溯源分析带来极大的困扰。
针对这一问题,本申请实施例提供的数据泄露溯源方法可以通过构建操作依赖关系模型,以描述各类操作行为之间的合法依赖关系和逻辑顺序约束。通过对校准操作记录集合中的日志记录进行深度分析和比对,系统能够精准地识别出那些违反操作依赖关系的异常事件。当检测到异常事件时,系统启动智能修正算法,综合考虑操作的业务逻辑、历史操作模式以及相关系统状态信息,对异常事件的操作时序进行合理调整和修正。例如,对于因并发操作导致的读写顺序颠倒的异常情况,系统依据数据的版本信息和操作的事务特性,重新确定读取操作和写入操作的合理执行顺序,并相应地调整日志记录中的时间戳和操作依赖关系描述,使其符合正常的逻辑流程。
经过这一系列检测和修正操作,系统生成逻辑一致的关联证据链。该证据链不仅确保了日志记录在时间顺序上的连贯性和逻辑性,还为后续的溯源分析提供了高度可信的操作流程证据,有助于精准定位数据泄露事件中的关键操作节点和潜在的薄弱环节,从而有效提升溯源分析的准确性和可靠性,为深入探究数据泄露的根本原因提供了有力支持。
S203、基于操作证据链构建知识图谱。
其中,知识图谱包括多个节点以及多个边,节点用于表示操作记录,边用于表示操作记录之间的关系。
例如,数据泄露溯源装置可以依据预设程序对操作证据链进行知识图谱映射处理。数据泄露溯源装置采用图数据库技术,将操作证据链中的每个操作记录转化为知识图谱中的节点,并构建节点间的时间关联边。节点代表操作主体、数据对象和数据泄露溯源装置组件等实体,边代表这些实体之间的操作关系,如访问、修改、传输等。数据泄露溯源装置通过分析操作记录中的时间戳、操作类型和主体标识,构建操作节点及时间关联边。
示例性地,对于一个数据库查询操作,数据泄露溯源装置可以创建一个表示用户主体的节点和一个表示数据库的节点,并建立一条从用户节点指向数据库节点的边,边的属性包含查询时间戳和操作类型。数据泄露溯源装置还可以引入时间序列索引,确保边能够按照时间顺序组织,从而生成时序知识图谱。这一图谱不仅涵盖了数据操作的全生命周期,还通过时间关联边反映了操作的先后顺序,为后续的异常检测和溯源分析提供了结构化的数据基础。
S204、基于知识图谱和图神经网络模型,确定异常操作评分。
其中,图神经网络模型用于基知识图谱确定每个节点的异常操作评分。图神经网络模型具体可以是图卷积神经网络(Graph Convolutional Network,GCN)。GCN是一种针对图结构数据的深度学习模型,能够捕捉节点间的复杂关系特征。数据泄露溯源装置可以将知识图谱中的节点及其边作为输入,通过GCN的图卷积层对节点特征进行提取和变换。每个节点的特征向量包含其操作类型、主体标识、时间戳以及相关的业务属性等信息。GCN通过聚合邻居节点的信息,更新每个节点的特征表示,从而捕捉到节点间的关联模式。数据泄露溯源装置可以利用训练好的GCN模型,计算每个节点的异常操作评分,该异常操作评分反映了节点行为偏离正常模式的程度。例如,一个用户在短时间内频繁访问高敏感度数据的操作节点可能会获得较高的异常操作评分。数据泄露溯源装置根据异常操作评分对节点进行排序,并标记高可疑操作。最终,数据泄露溯源装置生成异常操作评分集合,其中包含每个节点的异常操作评分、对应的实体信息以及相关操作记录。这一集合为后续的溯源分析提供了关键线索,帮助分析人员快速定位潜在的数据泄露源头。
S205、从多个节点中确定异常操作评分最高的数据泄漏点。
S206、从数据泄漏点开始反向追踪路径,确定数据源头到数据泄漏点的最小因果链。
其中,最小因果链用于指示数据泄露事件中从数据源头到泄露点的最短操作路径。
例如,数据泄露溯源装置可以利用反向传播算法进行反向追踪路径。反向传播算法在这里被用于从泄露节点回溯关联操作路径,确定数据泄露事件的传播路径。数据泄露溯源装置可以首先确定数据泄漏点作为起始点,从数据泄漏点出发,沿着时序知识图谱中的时间关联边反向遍历,逐步回溯关联操作路径。在遍历过程中,数据泄露溯源装置考虑边的时间属性,确保路径上的操作按照时间顺序排列。数据泄露溯源装置还结合节点的异常得分,筛选出关键路径上的高可疑操作,从而识别出从数据源头到泄露点的最短关键操作路径。例如,数据泄露溯源装置可能会发现泄露节点通过数据查询、数据传输、数据存储等一系列中间操作节点与数据源头相连。最终,数据泄露溯源装置生成最小因果链,该链条不仅包含了数据泄漏点的关键操作路径,还通过节点和边的属性信息提供了详细的溯源依据。这一过程确保了溯源结果的准确性和高效性,为数据隐私泄露事件的调查和处理提供了有力支持。
作为一种示例,数据泄露溯源装置可以采用Dijkstra算法在知识图谱中寻找从泄露点到数据源头的最短路径,结合A*启发式搜索算法优化路径搜索效率,最终生成最小因果链。
本申请实施例提供的数据泄露溯源方法,可以获取数据库的操作记录集合;基于操作记录集合,构建操作证据链;操作证据链包括多个按照顺序排列的操作记录;基于操作证据链构建知识图谱;知识图谱包括多个节点以及多个边,节点用于表示操作记录,边用于表示操作记录之间的关系;基于知识图谱和图神经网络模型,确定异常操作评分;图神经网络模型用于基知识图谱确定每个节点的异常操作评分;从多个节点中确定异常操作评分最高的数据泄漏点;从数据泄漏点开始反向追踪路径,确定数据源头到数据泄漏点的最小因果链;最小因果链用于指示数据泄露事件中从数据源头到泄露点的最短操作路径。从而提供一种快速定位数据泄露源头并固定证据链的溯源方法。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,数据泄露溯源装置其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术目标应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术目标可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在示例性的实施例中,本申请实施例还提供了一种数据泄露溯源装置。图7为本申请实施例提供的数据泄露溯源装置的组成示意图。如图7所示,该装置包括:获取模块701和处理模块702。
获取模块701,用于获取数据库的操作记录集合。
处理模块702,用于基于操作记录集合,构建操作证据链;操作证据链包括多个按照顺序排列的操作记录;基于操作证据链构建知识图谱;知识图谱包括多个节点以及多个边,节点用于表示操作记录,边用于表示操作记录之间的关系;基于知识图谱和图神经网络模型,确定异常操作评分;图神经网络模型用于基知识图谱确定每个节点的异常操作评分;从多个节点中确定异常操作评分最高的数据泄漏点;从数据泄漏点开始反向追踪路径,确定数据源头到数据泄漏点的最小因果链;最小因果链用于指示数据泄露事件中从数据源头到泄露点的最短操作路径。
一些可能的实施例中,获取模块701,具体用于获取数据库的多种异构日志;多种异构日志包括:数据库日志、API调用日志以及用户行为日志;基于正则表达式解析技术对多种异构日志进行协议解析处理,得到结构化日志数据;基于数据清洗技术对结构化日志数据进行格式统一处理,得到标准化日志集合;基于主键关联算法对标准化日志集合进行数据关联处理,绑定同一操作的时间戳、操作类型及主体标识,生成初始解析日志集合;基于初始解析日志集合,得到操作记录集合。
一些可能的实施例中,获取模块701,具体用于基于线性回归算法对初始解析日志集合进行时钟偏移量计算处理,根据历史日志数据拟合各日志源的初始时钟偏差,生成时钟偏移量;基于滑动窗口算法对时钟偏移量进行漂移率计算处理,生成时钟漂移率;基于时钟偏移量和时钟漂移率对初始解析日志集合的原始时间戳进行修正处理,生成校准时间戳;对校准时间戳和初步解析日志集合的操作类型及主体标识进行关联处理,得到操作记录集合。
一些可能的实施例中,获取模块701,具体用于基于时钟偏移量和时钟漂移率对初始解析日志集合的原始时间戳进行修正处理,生成校准时间戳,包括:按照下述公式计算校准时间戳:
tcalibrated=trawii*(tcurrent-tref);
其中,tcalibrated为校准时间戳,traw为原始时间戳,Δi为时钟偏移量,αi为时钟漂移率,tref为首次日志接收的基准时间,tcurrent为当前处理时间。
一些可能的实施例中,处理模块702,具体用于基于预定义的操作依赖规则,识别操作记录集合中违反操作依赖规则的操作记录对,生成冲突操作集合;基于操作依赖规则和冲突操作集合中操作记录的校准时间戳,确定冲突操作集合的全局冲突指标;在全局冲突指标超过第一冲突指标阈值的情况下,基于每个操作记录对的局部冲突指标,从冲突操作集合中挑选出局部冲突指标超过第二冲突指标阈值的高风险冲突事件集合;采用决策树算法对高风险冲突事件集合进行根因识别处理,生成根因标签;根因标签用于表示操作记录对的根因类别为数据源时钟偏差或操作逻辑错误;基于预设的时钟校准策略对根因标签为表示数据源时钟偏差的操作记录对进行修正处理,生成修正操作记录集合;对修正操作记录集合中的操作记录进行逻辑关联处理,绑定操作主体、时间戳及修正原因,生成关联证据链;基于关联证据链,确定操作证据链。
一些可能的实施例中,处理模块702,具体用于按照下述公式计算冲突操作集合的全局冲突指标:
其中,C为全局冲突度指标,δmin和δmax为操作依赖规则允许的最小时间间隔和最大时间间隔,δexpected为间隔中值,V为冲突操作集合,A和B为冲突操作集合中的两个操作记录,tA、tB为A和B的校准时间戳。
一些可能的实施例中,处理模块702,具体用于基于Merkle树构建算法对关联证据链进行哈希处理,逐层计算哈希值并生成根哈希值;调用智能合约将根哈希值写入公有链区块,生成区块链存证凭证;基于zk-SNARK零知识证明算法对关联证据链和区块链存证凭证进行签名处理,将存证凭证与操作记录绑定并生成匿名化签名,生成操作证据链。
需要说明的是,图7中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,还可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
在示例性的实施例中,如上所述,数据泄露溯源装置具体可以是计算机或服务等具有计算处理功能的电子设备。在这种情况下,本申请实施例还提供一种电子设备,图8为本申请实施例提供的电子设备的组成示意图。如图8所示,该电子设备包括:处理器10、存储器20、通信线路30、以及通信接口40、以及输入输出接口50。
其中,处理器10、存储器20、通信接口40以及输入输出接口50之间可以通过通信线路30连接。
处理器10,用于执行存储器20中存储的指令,以实现本申请上述实施例提供的数据泄露溯源方法。处理器10可以是CPU、通用处理器网络处理器(network processor,NP)、数字信号处理器(digitalsignalprocessing,DSP)、微处理器、微控制器(micro controlunit,MCU)/单片微型计算机/单片机、可编程逻辑器件(programmable logic device,PLD)或它们的任意组合。处理器10还可以是其它任意具有处理功能的装置,例如电路、器件或软件模块,本申请实施例对此不作限制。在一种示例中,处理器10可以包括一个或多个CPU,例如图8中的CPU0和CPU1。作为一种可选的实现方式,电子设备可以包括多个处理器,例如,除处理器10之外,还可以包括处理器60(图8中以虚线为例示出)。
存储器20,用于存储指令。例如,指令可以是计算机程序。可选地,存储器20可以是只读存储器(read-only memory,ROM)或可存储静态信息和/或指令的其他类型的静态存储设备,也可以是存取存储器(random access memory,RAM)或者可存储信息和/或指令的其他类型的动态存储设备,还可以是电可擦可编程只读存储器(electrically erasableprogrammable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备等,本申请实施例对此不作限制。
需要说明的是,存储器20可以独立于处理器10存在,也可以和处理器10集成在一起。存储器20可以位于电子设备内,也可以位于电子设备外,本申请实施例对此不作限制。
通信线路30,用于在电子设备所包括的各部件之间传送信息。
通信接口40,用于与其他设备或其它通信网络进行通信。该其它通信网络可以为以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。通信接口40可以是模块、电路、收发器或者任何能够实现通信的装置。
输入输出接口50,用于实现用户和电子设备之间的人机交互。例如实现用户和电子设备之间的动作交互或信息交互。
示例性地,输入输出接口50可以是鼠标、键盘、显示屏、或者触控显示屏等。通过鼠标、键盘、显示屏、或者触控显示屏等可以实现用户和电子设备之间的动作交互或信息交互。
需要说明的是,图8中示出的结构并不构成对电子设备的限定,除图8所示的部件之外,电子设备可以包括比图示更多或更少的部件,或者某些部件的组合,或者不同的部件布置。
在示例性的实施例中,本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当该计算机指令在电子设备中运行时,使得电子设备实现前述方法实施例中的方法。
在示例性的实施例中,本申请实施例还提供一种可读存储介质,该可读存储介质包括软件指令,当该软件指令在电子设备中运行时,使得电子设备实现前述方法实施例中的方法。计算机可读存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机执行指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机执行指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机执行指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(Comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种数据泄露溯源方法,其特征在于,所述方法包括:
获取数据库的操作记录集合;
基于所述操作记录集合,构建操作证据链;所述操作证据链包括多个按照顺序排列的操作记录;
基于所述操作证据链构建知识图谱;所述知识图谱包括多个节点以及多个边,所述节点用于表示操作记录,所述边用于表示操作记录之间的关系;
基于知识图谱和图神经网络模型,确定异常操作评分;所述图神经网络模型用于基所述知识图谱确定每个所述节点的异常操作评分;
从多个节点中确定异常操作评分最高的数据泄漏点;
从所述数据泄漏点开始反向追踪路径,确定数据源头到数据泄漏点的最小因果链;所述最小因果链用于指示数据泄露事件中从所述数据源头到所述泄露点的最短操作路径。
2.根据权利要求1所述的方法,其特征在于,所述获取数据库的操作记录集合,包括:
获取数据库的多种异构日志;所述多种异构日志包括:数据库日志、API调用日志以及用户行为日志;
基于正则表达式解析技术对所述多种异构日志进行协议解析处理,得到结构化日志数据;
基于数据清洗技术对所述结构化日志数据进行格式统一处理,得到标准化日志集合;
基于主键关联算法对所述标准化日志集合进行数据关联处理,绑定同一操作的时间戳、操作类型及主体标识,生成初始解析日志集合;
基于所述初始解析日志集合,得到所述操作记录集合。
3.根据权利要求2所述的方法,其特征在于,所述基于所述初始解析日志集合,得到所述操作记录集合,包括:
基于线性回归算法对所述初始解析日志集合进行时钟偏移量计算处理,根据历史日志数据拟合各日志源的初始时钟偏差,生成时钟偏移量;
基于滑动窗口算法对所述时钟偏移量进行漂移率计算处理,生成时钟漂移率;
基于所述时钟偏移量和所述时钟漂移率对所述初始解析日志集合的原始时间戳进行修正处理,生成校准时间戳;
对校准时间戳和初步解析日志集合的操作类型及主体标识进行关联处理,得到所述操作记录集合。
4.根据权利要求3所述的方法,其特征在于,所述基于所述时钟偏移量和所述时钟漂移率对所述初始解析日志集合的原始时间戳进行修正处理,生成校准时间戳,包括:
按照下述公式计算所述校准时间戳:
tcalibrated=trawii*(tcurrent-tref);
其中,tcalibrated为校准时间戳,traw为原始时间戳,Δi为时钟偏移量,αi为时钟漂移率,tref为首次日志接收的基准时间,tcurrent为当前处理时间。
5.根据权利要求1所述的方法,其特征在于,所述基于所述操作记录集合,构建操作证据链,包括:
基于预定义的操作依赖规则,识别所述操作记录集合中违反所述操作依赖规则的操作记录对,生成冲突操作集合;
基于所述操作依赖规则和所述冲突操作集合中操作记录的校准时间戳,确定所述冲突操作集合的全局冲突指标;
在所述全局冲突指标超过第一冲突指标阈值的情况下,基于每个操作记录对的局部冲突指标,从冲突操作集合中挑选出局部冲突指标超过第二冲突指标阈值的高风险冲突事件集合;
采用决策树算法对所述高风险冲突事件集合进行根因识别处理,生成根因标签;所述根因标签用于表示操作记录对的根因类别为数据源时钟偏差或操作逻辑错误;
基于预设的时钟校准策略对根因标签为表示数据源时钟偏差的操作记录对进行修正处理,生成修正操作记录集合;
对所述修正操作记录集合中的操作记录进行逻辑关联处理,绑定操作主体、时间戳及修正原因,生成关联证据链;
基于所述关联证据链,确定所述操作证据链。
6.根据权利要求5所述的方法,其特征在于,所述基于所述操作依赖规则和所述冲突操作集合中操作记录的校准时间戳,确定所述冲突操作集合的全局冲突指标,包括:
按照下述公式计算所述冲突操作集合的全局冲突指标:
其中,C为全局冲突度指标,δmin和δmax为所述操作依赖规则允许的最小时间间隔和最大时间间隔,δexpected为间隔中值,V为冲突操作集合,A和为冲突操作集合中的两个操作记录,tA、tB为A和B的校准时间戳。
7.根据权利要求5所述的方法,其特征在于,所述基于所述关联证据链,确定所述操作证据链,包括:
基于Merkle树构建算法对关联证据链进行哈希处理,逐层计算哈希值并生成根哈希值;
调用智能合约将所述根哈希值写入公有链区块,生成区块链存证凭证;
基于zk-SNARK零知识证明算法对关联证据链和区块链存证凭证进行签名处理,将存证凭证与操作记录绑定并生成匿名化签名,生成所述操作证据链。
8.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器存储有所述处理器可执行的指令;
所述处理器被配置为执行所述指令时,使得所述电子设备实现如权利要求1-7任一项所述的方法。
9.一种可读存储介质,其特征在于,包括:软件指令;
当所述软件指令在电子设备中运行时,使得所述电子设备实现如权利要求1-7任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括:计算机指令;
当所述计算机指令在电子设备中运行时,使得所述电子设备实现如权利要求1-7任一项所述的方法。
CN202510976395.7A 2025-07-15 2025-07-15 数据泄露溯源方法、设备、存储介质及程序产品 Pending CN120874981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202510976395.7A CN120874981A (zh) 2025-07-15 2025-07-15 数据泄露溯源方法、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202510976395.7A CN120874981A (zh) 2025-07-15 2025-07-15 数据泄露溯源方法、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN120874981A true CN120874981A (zh) 2025-10-31

Family

ID=97455356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202510976395.7A Pending CN120874981A (zh) 2025-07-15 2025-07-15 数据泄露溯源方法、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN120874981A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN121309318A (zh) * 2025-11-28 2026-01-09 正天技术有限公司 基于云平台的故障捕捉、模拟重现方法及系统
CN121327895A (zh) * 2025-12-17 2026-01-13 上海零数众合信息科技有限公司 一种可信数据空间中的数据溯源验证方法
CN121486381A (zh) * 2026-01-08 2026-02-06 五凌电力有限公司 一种分布式集控数据同步方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN121309318A (zh) * 2025-11-28 2026-01-09 正天技术有限公司 基于云平台的故障捕捉、模拟重现方法及系统
CN121309318B (zh) * 2025-11-28 2026-04-17 正天技术有限公司 基于云平台的故障捕捉、模拟重现方法及系统
CN121327895A (zh) * 2025-12-17 2026-01-13 上海零数众合信息科技有限公司 一种可信数据空间中的数据溯源验证方法
CN121327895B (zh) * 2025-12-17 2026-04-07 上海零数众合信息科技有限公司 一种可信数据空间中的数据溯源验证方法
CN121486381A (zh) * 2026-01-08 2026-02-06 五凌电力有限公司 一种分布式集控数据同步方法及系统

Similar Documents

Publication Publication Date Title
US12223469B2 (en) Systems and methods for project accountability services
CN120874981A (zh) 数据泄露溯源方法、设备、存储介质及程序产品
US20180248902A1 (en) Malicious activity detection on a computer network and network metadata normalisation
EP3341881A1 (en) Predictive human behavioral analysis of psychometric features on a computer network
CN121037055A (zh) 基于日志文件的安全漏洞ai定位方法及系统
US20260073406A1 (en) Method and system for artificial intelligence based cryptocurrency regulatory analysis
CN121352823A (zh) 一种基于区块链的电网物资全生命周期生成方法及装置
CN120979843A (zh) 电力工控流量应用层报文异常检测方法、装置及电子设备
Ratnayake et al. Can we trust blockchain-IoT data?
CN121277544B (zh) 面向分布式环境的代码安全检测与版本控制方法及系统
US20260073334A1 (en) System and method for secure ai-based financial technology governance and risk management
CN121173603B (zh) 一种基于专家模型的增量式动态数据抽取方法
US20260073260A1 (en) System and method for causality-augmented generative intelligence to discover non-obvious insights from heterogeneous data sources
US20260067320A1 (en) System for cyber risks evaluation
CN119919221B (zh) 一种融信数据管理方法、数据管理平台、介质及程序产品
US20250328612A1 (en) Software management system
Wright Immutable Referential Anchoring Using Bitcoin's Merkle Structure: A System for Cross-Database Field Integrity and GIGO Prevention
Salmanov A Sovereign LLM Observer Layer for Anomaly Detection in Synthetic X-Road Security Logs: A Proof-of-Concept Evaluation
Doinea Open Source Security–Quality Requests
Sheikhi et al. Cognitive SOC: Evidence-Backed Narrative Generation for Security Operations with Multi-Agent LLM Architecture
CN121744252A (zh) 基于自然语言处理技术的工控设备供应链分析方法及系统
Jeremy et al. Engineering Secure Edge Devices: AI-Driven Cybersecurity with Product Lifecycle Management Integration
Keluli et al. AI-based cyber risk profiling of public IoT devices in Indonesia with blockchain logging mechanism
CN121767042A (zh) 基于区块链的审计报告生成方法、装置、电子设备及存储介质
Anderson Determining vulnerability using attack graphs: An expansion of the current fair model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination