CN116600135B - 基于无损压缩的溯源图压缩方法及系统 - Google Patents
基于无损压缩的溯源图压缩方法及系统 Download PDFInfo
- Publication number
- CN116600135B CN116600135B CN202310669192.4A CN202310669192A CN116600135B CN 116600135 B CN116600135 B CN 116600135B CN 202310669192 A CN202310669192 A CN 202310669192A CN 116600135 B CN116600135 B CN 116600135B
- Authority
- CN
- China
- Prior art keywords
- graph
- mapping
- node
- traceability
- time stamp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007906 compression Methods 0.000 title claims abstract description 95
- 230000006835 compression Effects 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013507 mapping Methods 0.000 claims abstract description 78
- 238000005295 random walk Methods 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000011835 investigation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种基于无损压缩的溯源图压缩方法及系统,其中,方法包括:将溯源图转化为无向图,并在无向图中采用随机游走算法获取θ组细化样本,将θ组细化样本估计值的平均值作为溯源图的平均度估计值;对溯源图建立节点映射和边映射,根据节点映射和边映射合并溯源图的节点及相应边,其中,节点映射记录溯源图中子节点与所有父节点的映射,边映射记录溯源图中一对节点间边的映射;对进行合并边的时间戳通过增量编码进行压缩,对溯源图中边的时间戳的数据类型为长整型的边通过哥伦布编码进行压缩。本申请采用无损压缩的方式,将所有节点的父节点合并,可以实现比删除冗余事件更好的压缩效果。
Description
技术领域
本文件涉及溯源图压缩技术领域,尤其涉及一种基于无损压缩的溯源图压缩方法及系统。
背景技术
面对越来越严密的网络防护机制,攻击者的攻击方式也越来越高明,传统的基于静态组件的检测方式已不再适用。因此,企业中的防护措施开始利用底层系统审计日志来帮助调查人员进行攻击调查。攻击调查通常从审计日志中收集有关攻击的数据开始,例如系统调用、DNS 查询和网络连接事件。攻击调查工具通常以溯源图的形式表示审计日志,作为取证工具,允许安全调查人员进行攻击溯源分析,并更好地了解攻击的性质。
但是由于攻击调查对于溯源图具有依赖性,调查有效性受到系统数据存储和处理能力的严重制约。针对企业的攻击往往会在网络中潜伏很长时间,根据行业报告显示,平均而言入侵持续时间超过检测前的188天,保留大量全面的历史系统事件对于攻击调查起到重要作用。同时,企业网络的规模和每台主机生成的系统日志数量可能会给安全解决方案带来巨大压力。迫切需要一种可以扩展存储和处理能力以满足企业级需求的解决方案。
目前对于日志的压缩有两种方式:一个是删除溯源图中大量的冗余事件,这种方法不能保证在攻击调查期间不会出现假阴性或者假阳性的情况,影响安全调查人员进行分析。另一种方法是对数据进行压缩,这种方法更通用,可以以更少的空间存储相同的信息。数据压缩方法大致可以分为无损压缩和有损压缩。由于大多数安全分析的数据完整性要求,有损压缩是不合适的。因此,无损数据压缩是目前最佳的日志存储优化方法。
发明内容
本发明提供了一种基于无损压缩的溯源图压缩方法及系统,旨在解决上述问题。
本发明提供了一种基于无损压缩的溯源图压缩方法,包括:
S1、将溯源图转化为无向图,并在无向图中采用随机游走算法获取组细化样本,将/>组细化样本估计值的平均值作为溯源图的平均度估计值;
S2、对溯源图建立节点映射和边映射,根据节点映射和边映射合并溯源图的节点及相应边,其中,节点映射记录溯源图中子节点与所有父节点的映射,边映射记录所述溯源图中一对节点间边的映射;
S3、对步骤S2中进行合并边的时间戳通过增量编码进行压缩,对溯源图中边的时间戳的数据类型为长整型的边通过哥伦布编码进行压缩。
本发明提供了一种基于无损压缩的溯源图压缩系统,包括:
平均度估计模块,用于将溯源图转化为无向图,并在无向图中采用随机游走算法获取组细化样本,将/>组细化样本估计值的平均值作为所述溯源图的平均度估计值;
溯源图压缩模块,用于对溯源图建立节点映射和边映射,根据节点映射和边映射合并溯源图的节点及相应边,其中,节点映射记录溯源图中子节点与所有父节点的映射,边映射记录溯源图中一对节点间边的映射;
边压缩模块,用于对溯源图压缩模块中进行合并边的时间戳通过增量编码进行压缩,对溯源图中边的时间戳的数据类型为长整型的边通过哥伦布编码进行压缩。
通过采用本发明实施例,采用无损压缩的方式,将所有节点的父节点合并,可以做到比删除冗余事件更好的压缩效果。本发明具有通用性,能够满足不同的安全应用程序的要求。识别日志文件中的结构和上下文冗余,并通过使用冗余减少减轻日志系统的高存储开销。在不牺牲查询效率和分析准确性的情况下支持安全分析人员后续的因果关系分析。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于无损压缩的溯源图压缩方法的流程图;
图2为本发明实施例的基于无损压缩的溯源图压缩系统的示意图;
图3为本发明实施例的基于无损压缩的溯源图压缩及查询系统的整体架构图;
图4为本发明实施例的压缩效果示意图;
图5为本发明实施例的溯源图查询算法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
在溯源图中的三类系统事件中,文件操作占大多数,占据了90%以上的部分,因此本发明主要针对的是文件相关操作。
表1 溯源图数据集主要字段
表中显示了本发明需要压缩的数据集的主要字段。每个事件的开始和结束时间戳都按开始时间和结束时间记录。事件的源对象和目标对象,由srcid和dstid区分。与每个事件关联的对象可以是文件或进程。所有事件都发生在一个主机内,用agentid 表示。与事件关联的操作分为三种类型,分别是执行、读取和写入。
方法实施例
本发明实施例提供了一种基于无损压缩的溯源图压缩方法,图1为本发明实施例的基于无损压缩的溯源图压缩方法的流程图,根据图1所示,本发明实施例的基于无损压缩的溯源图压缩方法具体包括:
S1、将溯源图转化为无向图,并在无向图中采用随机游走算法获取组细化样本,将/>组细化样本估计值的平均值作为溯源图的平均度估计值;
仅当压缩率高于阈值时,才可能需要对日志数据应用压缩。因此,需要在压缩之前获得压缩率或其估计值。虽然对溯源图的全面扫描可提供精确的压缩比,但开销很大。而压缩比估计值可以简化为估计溯源图的平均度数,因此,本发明实现了一种算法来估计压缩率。现有的方法是对溯源图的节点进行平均采样获得采样节点,获得节点的度数来估计溯源图平均度数,那么来自样本集 S 的估计量是:
本发明基于这种方法进行改进,首先将溯源图转化为无向图H,在无向图H中使用随机游走算法,以概率跳转至一个随机新节点,并以/>跳转的概率停留在随机游走路径上,这样就可以到达图中的不同组件。其次,如果样本的索引为 0、1、 2、. . . ,在游走过程中,将i号样本索放入/>号样本组中,最终获得了/>组细化样本,并且每组产生自己的估计值,最终估计值是这些组的平均值。由于样本分布不均匀,需要使用Hansen-Hurwitz技术对采样度进行重新加权,以纠正对高度节点的偏差,将节点 v 的度数加上常数c,也就是/>,其中c为平均度数的粗略估计,可以从非常小的子图中获得。
其中,为第/>组样本,/>为节点v的度数,/>为第j组的度数估计值,/>为溯源图的平均度数估计值。
S2、对溯源图建立节点映射和边映射,根据节点映射和边映射合并溯源图的节点及相应边,其中,节点映射记录溯源图中子节点与所有父节点的映射,边映射记录所述溯源图中一对节点间边的映射;
本发明实施例实现的是对溯源图的无损压缩,因此在对溯源图进行压缩之前,需要记录溯源图中的节点信息映射。将所有事件作为输入,建立两个哈希映射:节点映射、边映射。其中,节点映射记录了子节点与其所有父节点的映射;边映射记录了一对节点与对应边的映射,在对溯源图进行查询时,通过节点映射和边映射有选择的解压缩合并节点以及合并边。然后,对于溯源图中的每个子节点,识别并合并其所有父节点以及相应边,如图4为本发明实施例的压缩效果示意图,合并节点并创建新节点,更新节点映射,如表2所示:
表2 合并节点映射表
S3、对步骤S2中进行合并边的时间戳通过增量编码进行压缩,对溯源图中边的时间戳的数据类型为长整型的边通过哥伦布编码进行压缩。步骤S3具体包括:
增量编码表示具有增量的值序列,因此本发明实施例在时间戳字段(starttime,endtime)上应用增量编码,因为同一个日志文件中的大多数时间戳在开头都有相同的数字,代表相同的年月日,这是多余的。这些值通常共享相同的前缀,因为要压缩的事件通常收集在小时间窗口,因此增量编码可以产生紧凑的表示。
假设节点有/>个入边和/>个父节点,/>。设第j条边的开始时间为/>,。首先将所有入边的开始时间戳构建一个序列
其中,。
对于结束时间戳序列,我们选择所有入边中的结束时间戳最大值作为,按照类似开始时间戳序列的构造方式,将节点X的所有入边的结束时间戳构建结束时间戳序列。
然后,我们计算序列中每对连续时间戳的增量:
对于,合并边的最终编码的开始时间戳为:
计算结束时间戳序列中每对连续时间戳的增量:
对于,令/>,合并边的最终编码的结束时间戳为:
为了符合未压缩的溯源图事件格式,将、/>分别存储在合并后新边的开始时间戳和结束时间戳字段中,生成的增量编码的/>和/>存储在新的增量字段中。
增量编码压缩了时间戳序列中的元素,但是仍然是一个长整数。此外,对于无需合并的单个边,则其时间戳也是长整数。我们选择使用哥伦布编码将长整数压缩为相对较小的整数。哥伦布编码的一个有利特性是数字的相对顺序没有改变,也就是说,如果/>,则我们有哥伦布编码变量/>。这种特性提高了查询的高效性,无需对时间戳进行解码就可以判断边的时间范围是否满足要求。
哥伦布编码使用参数M将输入数据N分成两部分:
对于商q采用一元编码编码,余数r采用二进制编码。然后通过连接q和 r 来计算编码数据。
经过上述处理,将数据存入数据库,完成对溯源图的压缩。
本发明实施例的基于无损压缩的溯源图压缩方法进一步包括:对压缩后的溯源图进行查询,具体包括:
获取请求中的查询时间戳,并对查询时间戳进行哥伦布编码;
查询数据库中对应事件,并判断对应事件时间戳的哥伦布编码是否小于查询时间戳的哥伦布编码;
若事件时间戳的哥伦布编码小于查询时间戳的哥伦布编码,则对查询数据库中对应事件的时间戳进行解码,并将步骤S3中获取的delta字段中的时间戳序列进行解码;通过节点映射及所述边映射获取满足查询时间戳的所有事件。
图5为本发明实施例的溯源图查询算法流程图,根据图5可知只有当查询中指定的时间范围与边缘中的关系无法确定时才需要解压。如果这两个范围没有交集,则可以跳过解压缩。在进行回溯查询中,上述属性成立有两个原因。首先,由于哥伦布编码的顺序保存特性,没有必要解码数据库中的所有哥伦布代码来回答具有时间戳约束的查询。其次,最小开始时间记录在合并边中。因此,如果我们回溯开始时间小于某个给定/>的事件,那么/>的组合边的所有单独边都将被拒绝。因此,数据库不需要解压,可以放心地拒绝这个合并边。
本发明针对删除冗余事件的溯源图约简方式的应用场景比较局限,无法保证是否会对因果关系分析产生影响的问题,采用无损压缩的方式,将所有节点的父节点合并,可以做到比删除冗余事件更好的压缩效果。另外,在压缩算法的基础上,本发明提出了相应的查询算法,确保每一个查询都得到准确的回答,同时保证查询效率,因为查询所需的大部分操作都是直接在压缩数据上完成的。
通过采用本发明实施例具备如下有益效果:
1、本发明实施例提出了一种新颖的无损日志压缩技术,将合并模式定义为合并子节点的所有父节点。对于合并边的字段,应用增量编码和哥伦布编码减少溯源图中大量冗余。并针对本发明压缩算法设计了具有高效性、准确性、友好性的查询算法,满足不同安全应用程序的要求,为安全调查人员提供便利。
2、本发明实施例提供了一种压缩率估计算法,以便于为给定数据集决定使用压缩格式还是未压缩格式。压缩率可以由依赖图的平均度决定。本发明在溯源图上执行随机游走并在此过程中随机重新开始另一次游走来估计平均度。如果给定数据集的估计压缩率小于指定阈值,则可以跳过压缩。
系统实施例
本发明实施例提供了一种基于无损压缩的溯源图压缩系统,图2为本发明实施例的基于无损压缩的溯源图压缩系统的示意图,根据图2所示,本发明实施例的基于无损压缩的溯源图压缩系统具体包括:
平均度估计模块20,用于将溯源图转化为无向图,并在无向图中采用随机游走算法获取组细化样本,将/>组细化样本估计值的平均值作为溯源图的平均度估计值;
仅当压缩率高于阈值时,才可能需要对日志数据应用压缩。因此,重要的是在压缩之前获得压缩率或其估计值。虽然对溯源图的全面扫描可提供精确的压缩比,但开销很大。而压缩比估计值可以简化为估计溯源图的平均度数,因此,本发明实现了一种算法来估计压缩率。常规想法是对溯源图的节点进行平均采样获得采样节点,获得节点的度数来估计溯源图平均度数,那么来自样本集 S 的估计量是:
本发明基于这种方法进行改进,首先将溯源图转化为无向图H,在无向图H中使用随机游走算法,以概率跳转至一个随机新节点,并以/>跳转的概率停留在随机游走路径上,这样就可以到达图中的不同组件。其次,随机游走的过程中将样本对/>取余,从而获得了/>组细化样本,并且每组产生自己的估计值,最终估计值是这些组的平均值。由于样本分布不均匀,需要使用Hansen-Hurwitz技术对采样度进行重新加权,以纠正对高度节点的偏差,将节点 v 的度数加上常数c,也就是/>,其中c为平均度数的粗略估计,可以从非常小的子图中获得。
其中,为第/>组样本,/>为节点v的度数,/>为第j组的度数估计值,/>为溯源图的平均度数估计值。
溯源图压缩模块22,用于对溯源图建立节点映射和边映射,根据节点映射和边映射合并溯源图的节点及相应边,其中,节点映射记录溯源图中子节点与所有父节点的映射,边映射记录溯源图中一对节点间边的映射;
本发明实现的是对溯源图的无损压缩,因此在对溯源图进行压缩之前,需要记录溯源图中的节点信息映射。将所有事件作为输入,建立两个哈希映射:NodeMap、EdgeMap。其中,NodeMap记录了子节点与其所有父节点的映射;EdgeMap记录了一对节点与对应边的映射,在对溯源图进行查询时,通过NodeMap和EdgeMap有选择的解压缩合并节点以及合并边。然后,对于溯源图中的每个子节点,识别并合并其所有父节点以及相应边,如图所示。合并节点并创建新节点,更新节点映射。
边压缩模块24,用于对溯源图压缩模块中进行合并边的时间戳通过增量编码进行压缩,对溯源图中边的时间戳的数据类型为长整型的边通过哥伦布编码进行压缩。
对于合并边的所有字段,由于冗余信息,应该将它们合并并压缩,本发明提出了合并时间戳序列的增量编码,以及序列中初始值的哥伦布编码。
增量编码表示具有增量的值序列,因此本发明在时间戳字段 (starttime,endtime) 上应用增量编码,因为同一个日志文件中的大多数时间戳在开头都有相同的数字,代表相同的年月日,这是多余的。这些值通常共享相同的前缀,因为要压缩的事件通常收集在小时间窗口,因此增量编码可以产生紧凑的表示。
假设节点有/>个入边和/>个父节点,/>。设第j条边的开始时间为/>,。首先将所有入边的开始时间戳构建一个序列
其中,。
对于结束时间戳序列,我们选择所有入边中的结束时间戳最大值作为,按照类似开始时间戳序列的构造方式,将节点X的所有入边的结束时间戳构建结束时间戳序列。
然后,我们计算序列中每对连续时间戳的增量:
对于,合并边的最终编码的开始时间戳为:
计算结束时间戳序列中每对连续时间戳的增量:
对于,令/>,合并边的最终编码的结束时间戳为:
为了符合未压缩的溯源图事件格式,将、/>分别存储在合并后新边的开始时间戳和结束时间戳字段中,生成的增量编码的/>和/>存储在新的增量字段中。
增量编码压缩了时间戳序列中的元素,但是仍然是一个长整数。此外,对于无需合并的单个边,则其时间戳也是长整数。我们选择使用哥伦布编码将长整数压缩为相对较小的整数。哥伦布编码的一个有利特性是数字的相对顺序没有改变,也就是说,如果,则我们有哥伦布编码变量/>。这种特性提高了查询的高效性,无需对时间戳进行解码就可以判断边的时间范围是否满足要求。
哥伦布编码使用参数M将输入数据N分成两部分:
对于商q采用一元编码编码,余数r采用二进制编码。然后通过连接q和 r 来计算编码数据。
经过上述处理,将数据存入数据库,完成对溯源图的压缩。
本发明实施例的基于无损压缩的溯源图压缩系统进一步包括:溯源图查询模块,溯源图查询模块具体用于:
获取请求中的查询时间戳,并对查询时间戳进行哥伦布编码;
查询数据库中对应事件,并判断对应事件时间戳的哥伦布编码是否小于查询时间戳的哥伦布编码;
若事件时间戳的哥伦布编码小于查询时间戳的哥伦布编码,则对查询数据库中对应事件的时间戳进行解码,并将边压缩模块24中获取的delta字段中的时间戳序列进行解码;
通过节点映射及边映射获取满足查询时间戳的所有事件。
图3为本发明实施例的基于无损压缩的溯源图压缩及查询系统的整体架构图,本发明针对删除冗余事件的溯源图约简方式的应用场景比较局限,无法保证是否会对因果关系分析产生影响的问题,采用无损压缩的方式,将所有节点的父节点合并,可以做到比删除冗余事件更好的压缩效果。另外,在压缩算法的基础上,本发明提出了相应的查询算法,确保每一个查询都得到准确的回答,同时保证查询效率,因为查询所需的大部分操作都是直接在压缩数据上完成的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种基于无损压缩的溯源图压缩方法,其特征在于,包括:
S1、将所述溯源图转化为无向图,并在所述无向图中采用随机游走算法获取组细化样本,将/>组细化样本估计值的平均值作为所述溯源图的平均度估计值;
S2、对所述溯源图建立节点映射和边映射,根据所述节点映射和边映射合并所述溯源图的节点及相应边,其中,所述节点映射记录溯源图中子节点与所有父节点的映射,所述边映射记录所述溯源图中一对节点间边的映射;
S3、对所述S2中进行合并边的时间戳通过增量编码进行压缩,对所述溯源图中边的时间戳的数据类型为长整型的边通过哥伦布编码进行压缩;
其中,所述S2中的根据所述节点映射和边映射合并所述溯源图的节点及相应边具体包括:
将所述溯源图中子节点的所有父节点合并为一个节点并合并对应边,为合并后的节点新建一个节点,更新节点映射;
所述对所述S2中进行合并边的时间戳通过增量编码进行压缩具体包括:
将节点X的d个入边的开始时间戳构建开始时间戳序列;
公式3;
其中,;
将节点X的所有入边的结束时间戳构建结束时间戳序列;
公式4;
其中,;
计算所述开始时间戳序列中每对连续时间戳的增量:
对于,令/>,合并边的最终编码的开始时间戳序列为:
公式5;
计算所述结束时间戳序列中每对连续时间戳的增量:
对于,令/>,合并边的最终编码的结束时间戳序列为:
公式6;
将、/>分别存储在合并后新边的开始时间戳和结束时间戳字段中,生成的增量编码的/>和/>存储在新的增量字段中。
2.根据权利要求1所述的方法,其特征在于,所述S1具体包括:
以概率跳转至所述无向图中的一个随机新节点,并以/> P跳转的概率停留在随机游走路径上,通过将无向图中样本索引对/>取余获取/>组细化样本,计算每组细化样本的估计值;
对所述每组细化样本的估计值通过重新加权后获取溯源图的平均度估计值,所述平均度估计值通过公式1和公式2进行获取:
公式1;
公式2;
其中,为第/>组样本,/>为节点v的度数,/>为第j组的度数估计值,/>为溯源图的平均度数估计值,c为平均度数的粗略估计。
3.根据权利要求1所述的方法,其特征在于,所述对所述溯源图中边的时间戳的数据类型为长整型的边通过哥伦布编码进行压缩具体包括:
哥伦布编码使用参数M将边的时间戳N分成两部分:
公式7;
;公式8;
对于q采用一元编码编码,r采用二进制编码,然后通过连接q和r来计算编码数据。
4.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:对压缩后的溯源图进行查询,具体包括:
获取请求中的查询时间戳,并对所述查询时间戳进行哥伦布编码;
查询数据库中对应事件,并判断所述对应事件时间戳的哥伦布编码是否小于查询时间戳的哥伦布编码;
若所述事件时间戳的哥伦布编码小于查询时间戳的哥伦布编码,则对查询数据库中对应事件的时间戳进行解码,并将增量字段中的时间戳序列进行解码;
通过所述节点映射及所述边映射获取满足所述查询时间戳的所有事件。
5.一种基于无损压缩的溯源图压缩系统,其特征在于,包括:
平均度估计模块,用于将所述溯源图转化为无向图,并在所述无向图中采用随机游走算法获取组细化样本,将/>组细化样本估计值的平均值作为所述溯源图的平均度估计值;
溯源图压缩模块,用于对所述溯源图建立节点映射和边映射,根据所述节点映射和边映射合并所述溯源图的节点及相应边,其中,所述节点映射记录溯源图中子节点与所有父节点的映射,所述边映射记录所述溯源图中一对节点间边的映射;
边压缩模块,用于对所述溯源图压缩模块中进行合并边的时间戳通过增量编码进行压缩,对所述溯源图中边的时间戳的数据类型为长整型的边通过哥伦布编码进行压缩;
其中,所述溯源图压缩模块具体用于:
将所述溯源图中子节点的所有父节点合并为一个节点并合并对应边,为合并后的节点新建一个节点,更新节点映射;
将节点X的d个入边的开始时间戳构建开始时间戳序列;
公式3;
其中,;
将节点X的所有入边的结束时间戳构建结束时间戳序列;
公式4;
其中,;
计算所述开始时间戳序列中每对连续时间戳的增量:
对于,令/>,合并边的最终编码的开始时间戳序列为:
公式5;
计算所述结束时间戳序列中每对连续时间戳的增量:
对于,令/>,合并边的最终编码的结束时间戳序列为:
公式6;
将、/>分别存储在合并后新边的开始时间戳和结束时间戳字段中,生成的增量编码的/>和/>存储在新的增量字段中;
所述边压缩模块具体用于:
哥伦布编码使用参数M将边的时间戳N分成两部分:
公式7;
;公式8;
对于q采用一元编码编码,r采用二进制编码,然后通过连接q和r来计算编码数据。
6.根据权利要求5所述的系统,其特征在于,所述平均度估计模块具体用于:
以概率跳转至所述无向图中的一个随机新节点,并以/> P跳转的概率停留在随机游走路径上,通过将无向图中样本索引对/>取余/>组细化样本,计算每组细化样本的估计值;
对所述每组细化样本的估计值通过重新加权后获取溯源图的平均度估计值,所述平均度估计值通过公式1和公式2进行获取:
公式1;
公式2;
其中,为第/>组样本,/>为节点v的度数,/>为第j组的度数估计值,/>为溯源图的平均度数估计值,c为平均度数的粗略估计。
7.根据权利要求5所述的系统,其特征在于,所述系统进一步包括:溯源图查询模块,所述溯源图查询模块具体用于:
获取请求中的查询时间戳,并对所述查询时间戳进行哥伦布编码;
查询数据库中对应事件,并判断所述对应事件时间戳的哥伦布编码是否小于查询时间戳的哥伦布编码;
若所述事件时间戳的哥伦布编码小于查询时间戳的哥伦布编码,则对查询数据库中对应事件的时间戳进行解码,并将增量字段中的时间戳序列进行解码;
通过所述节点映射及所述边映射获取满足所述查询时间戳的所有事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310669192.4A CN116600135B (zh) | 2023-06-06 | 2023-06-06 | 基于无损压缩的溯源图压缩方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310669192.4A CN116600135B (zh) | 2023-06-06 | 2023-06-06 | 基于无损压缩的溯源图压缩方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116600135A CN116600135A (zh) | 2023-08-15 |
CN116600135B true CN116600135B (zh) | 2024-02-13 |
Family
ID=87599087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310669192.4A Active CN116600135B (zh) | 2023-06-06 | 2023-06-06 | 基于无损压缩的溯源图压缩方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116600135B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000151422A (ja) * | 1998-11-04 | 2000-05-30 | Lg Electronics Inc | 無損失符号化方法及びこれを利用する画像圧縮符号化装置 |
EP1569203A2 (en) * | 2004-02-27 | 2005-08-31 | Samsung Electronics Co., Ltd. | Lossless audio decoding/encoding method and apparatus |
CN101042714A (zh) * | 2007-04-29 | 2007-09-26 | 哈尔滨工业大学 | 适用于多扫描链设计芯核的soc测试数据的压缩方法 |
CN102970531A (zh) * | 2012-10-19 | 2013-03-13 | 西安电子科技大学 | Jpeg-ls近无损图像压缩编码器硬件实现方法 |
CN105103452A (zh) * | 2013-05-30 | 2015-11-25 | 日本电气株式会社 | 数据压缩系统 |
CN105915228A (zh) * | 2016-04-08 | 2016-08-31 | 苏州大学 | 自适应的混合的数据无损压缩方法 |
EP3258604A1 (en) * | 2016-06-15 | 2017-12-20 | Palo Alto Research Center, Incorporated | System and method for compressing graphs via cliques |
CN109151482A (zh) * | 2018-10-29 | 2019-01-04 | 西安电子科技大学 | 星载光谱图像谱段无损有损混合压缩方法 |
WO2021162722A1 (en) * | 2020-02-12 | 2021-08-19 | Google Llc | Multi-context entropy coding for compression of graphs |
CN113612749A (zh) * | 2021-07-27 | 2021-11-05 | 华中科技大学 | 一种面向入侵行为的溯源数据聚类方法及装置 |
CN114117432A (zh) * | 2021-12-07 | 2022-03-01 | 上海交通大学 | 一种基于数据溯源图的apt攻击链还原系统 |
US11290710B1 (en) * | 2020-11-30 | 2022-03-29 | Amazon Technologies, Inc. | Adaptable golomb coding |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9349072B2 (en) * | 2013-03-11 | 2016-05-24 | Microsoft Technology Licensing, Llc | Local feature based image compression |
US9543980B2 (en) * | 2014-10-10 | 2017-01-10 | Massachusettes Institute Of Technology | Systems and methods for model-free compression and model-based decompression |
US10602174B2 (en) * | 2016-08-04 | 2020-03-24 | Intel Corporation | Lossless pixel compression for random video memory access |
-
2023
- 2023-06-06 CN CN202310669192.4A patent/CN116600135B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000151422A (ja) * | 1998-11-04 | 2000-05-30 | Lg Electronics Inc | 無損失符号化方法及びこれを利用する画像圧縮符号化装置 |
EP1569203A2 (en) * | 2004-02-27 | 2005-08-31 | Samsung Electronics Co., Ltd. | Lossless audio decoding/encoding method and apparatus |
CN101042714A (zh) * | 2007-04-29 | 2007-09-26 | 哈尔滨工业大学 | 适用于多扫描链设计芯核的soc测试数据的压缩方法 |
CN102970531A (zh) * | 2012-10-19 | 2013-03-13 | 西安电子科技大学 | Jpeg-ls近无损图像压缩编码器硬件实现方法 |
CN105103452A (zh) * | 2013-05-30 | 2015-11-25 | 日本电气株式会社 | 数据压缩系统 |
CN105915228A (zh) * | 2016-04-08 | 2016-08-31 | 苏州大学 | 自适应的混合的数据无损压缩方法 |
EP3258604A1 (en) * | 2016-06-15 | 2017-12-20 | Palo Alto Research Center, Incorporated | System and method for compressing graphs via cliques |
CN109151482A (zh) * | 2018-10-29 | 2019-01-04 | 西安电子科技大学 | 星载光谱图像谱段无损有损混合压缩方法 |
WO2021162722A1 (en) * | 2020-02-12 | 2021-08-19 | Google Llc | Multi-context entropy coding for compression of graphs |
US11290710B1 (en) * | 2020-11-30 | 2022-03-29 | Amazon Technologies, Inc. | Adaptable golomb coding |
CN113612749A (zh) * | 2021-07-27 | 2021-11-05 | 华中科技大学 | 一种面向入侵行为的溯源数据聚类方法及装置 |
CN114117432A (zh) * | 2021-12-07 | 2022-03-01 | 上海交通大学 | 一种基于数据溯源图的apt攻击链还原系统 |
Non-Patent Citations (2)
Title |
---|
EE2: Summary Report on Enhanced Compression beyond VVC capability;Vadim Seregin等;《JVET》;全文 * |
面向相似数据的无损压缩技术;赵国毅;杨晓春;王斌;;计算机科学与探索(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116600135A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11995086B2 (en) | Methods for enhancing rapid data analysis | |
US8538969B2 (en) | Data format for website traffic statistics | |
KR101969848B1 (ko) | 유전자 데이터를 압축하는 방법 및 장치 | |
Ali et al. | A review of digital forensics methods for JPEG file carving | |
CN110019865B (zh) | 海量图片处理方法、装置、电子设备及存储介质 | |
CN110995273B (zh) | 电力数据库的数据压缩方法、装置、设备及介质 | |
US20200212932A1 (en) | Reducing storage of blockchain metadata via dictionary-style compression | |
CN110851409A (zh) | 一种日志压缩、解压缩方法、设备及存储介质 | |
CN111708673A (zh) | 一种日志数据压缩方法、装置、设备和存储介质 | |
CN115408350A (zh) | 日志压缩、日志还原方法、装置、计算机设备和存储介质 | |
CN116600135B (zh) | 基于无损压缩的溯源图压缩方法及系统 | |
CN112632568A (zh) | 温度数据的存储和采集方法、系统、电子设备和存储介质 | |
JP5094487B2 (ja) | 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法 | |
Pahade et al. | A survey on multimedia file carving | |
CN117453646A (zh) | 融合语义与深度神经网络的内核日志联合压缩与查询方法 | |
CN116302089A (zh) | 基于图片相似度的代码克隆检测方法、系统及存储介质 | |
CN114816243B (zh) | 日志压缩方法、装置、电子设备及存储介质 | |
CN116319815A (zh) | 引入SaaS特征的云数据放置策略管理系统 | |
CN107329956B (zh) | 一种项目信息标准化方法及装置 | |
US20090248724A1 (en) | Method and Apparatus for Encoding List of Variable Length Structures to Support Bi-Directional Scans | |
CN113779075A (zh) | 基于差分隐私的数据查询方法、装置、设备及存储介质 | |
CN110727532B (zh) | 一种数据修复方法、电子设备及存储介质 | |
CN109255090B (zh) | 一种web图的索引数据压缩方法 | |
CN109063097B (zh) | 基于区块链的数据对比及共识方法 | |
CN116821428B (zh) | 基于数据中台的业务数据智能存储方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |