CN112084154B

CN112084154B - 一种跨平台多主机联合日志压缩方法

Info

Publication number: CN112084154B
Application number: CN202010903265.8A
Authority: CN
Inventors: 朱添田; 王佳宇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2022-06-28
Anticipated expiration: 2040-09-01
Also published as: CN112084154A

Abstract

本发明公开了一种跨平台多主机联合日志压缩方法，包括如下步骤：S1、获取每台本地主机的系统日志数据；S2、对数据进行本地压缩，包括：S21、采用保持全局语义的数据压缩算法进行第一次压缩；S22、采用基于可疑语义的数据压缩算法对第一次压缩后的数据进行第二次压缩，并记录第二次压缩后来自同一局域网的网络数据源IP地址和接收到网络数据的时间戳至本地主机的时间表，上传各时间表至云服务器；S3、上传第二次压缩后的数据和本地主机中的白名单至云服务器；S4、云服务器对接收的第二次压缩后的数据进行跨平台联合压缩。具有通用性、有效性和实时性，压缩效率高，可缓解数据存储压力、提高分析效率且适用于不同平台。

Description

一种跨平台多主机联合日志压缩方法

技术领域

本发明属于信息处理技术领域，具体涉及一种跨平台多主机联合日志压缩方法。

背景技术

APT(Advanced Persistent Threat)攻击，即高级持续性威胁攻击，通常是指对政府、核心基础设施(如能源、运输、通讯)和重要行业(如军工、金融、医疗)所发动的攻击。APT攻击与传统的攻击模式相比，具有持续时间久、攻击链长、隐蔽性高、手段多样、危害性强等特征，可利用社会工程学、0-day漏洞、受感染的存储介质等多种方式进行攻击。此外，根据Trustwave数据显示，APT攻击从初步入侵到造成影响的平均潜伏时间为83天。

现有检测方法很难直接检测出一条完整的APT攻击链，分析人员通常在某个时间点检测出攻击的某一个步骤后，通过取证分析来快速定位入口点并判断攻击的范围，进而执行后续的补救措施。取证分析通常利用系统日志记录实体(如进程、文件等)以及实体间的信息流(如读、写、创建等)，以有向图的形式直观展现实体间的依赖关系。为进行取证分析，长期日志存储势在必行。

根据调研显示，在单主机上采集的原始数据可达到5GB/天。在实际中，大型政府和企业往往需要对上千台机器进行数据收集，数据量可轻松到达PB级别。海量数据不仅会带来巨大的存储成本，还会使溯源分析效率大打折扣。现有数据压缩技术从一定程度上缓解了数据存储问题，但仍存在不足之处，如：仅考虑单节点特性，忽略全局语义信息，压缩效率有限；只对离线缓存的大规模日志数据进行压缩，占用内存高且无法保证压缩的实时性；依赖于大量的软件模型，采用细粒度的污点跟踪技术来删除冗余事件，场景的覆盖率较低；压缩策略只针对于特定事件，不具备通用性。

发明内容

本发明的目的在于针对上述问题，提出一种跨平台多主机联合日志压缩方法，具有通用性、有效性和实时性，压缩效率高并大大减少数据量，缓解数据存储压力、提高分析效率且适用于不同平台。

为实现上述目的，本发明所采取的技术方案为：

本发明提出的一种跨平台多主机联合日志压缩方法，包括如下步骤：

S1、获取每台本地主机的系统日志数据；

S2、分别在每台本地主机上对系统日志数据进行本地压缩，包括如下步骤：

S21、采用保持全局语义的数据压缩算法对系统日志数据进行第一次压缩；

保持全局语义的数据压缩算法，用于确定系统日志数据中事件的源实体的语义是否变化，若否，则源实体到同一目标实体存在等价事件，保留等价事件中第一个事件的系统日志数据，并删除其它等价事件的系统日志数据，否则，直接保留；

S22、采用基于可疑语义的数据压缩算法对第一次压缩后的系统日志数据进行第二次压缩，并记录第二次压缩后来自同一局域网的网络数据的源IP地址和接收到网络数据的时间戳至对应本地主机的时间表中，上传各时间表至云服务器；

基于可疑语义的数据压缩算法，用于分析系统日志数据中的事件是否发生可疑语义传递，若是，则事件为可疑事件，否则，为非可疑事件，保留可疑事件的系统日志数据，并删除非可疑事件的系统日志数据；

可疑语义为预设范围内的文件或数据或命令；

S3、上传第二次压缩后的系统日志数据和本地主机中的白名单至云服务器，本地主机中的白名单用于记录同一局域网内的本地主机的IP地址、以及本地主机是否发生可疑事件；

S4、云服务器对接收的第二次压缩后的系统日志数据进行跨平台联合压缩。

优选地，上传第二次压缩后的系统日志数据和本地主机中的白名单至云服务器，包括以下步骤：

S31、发送第二次压缩后的系统日志数据至kafka集群；

S32、转发kafka集群接收的系统日志数据至云服务器；

S33、维护本地主机中的白名单并上传至云服务器。

优选地，维护本地主机中的白名单，采用以下方法：

判断各本地主机是否发生可疑事件，若是，则在本地主机中的白名单上记录首次发生可疑事件的时间戳，否则，不进行记录。

优选地，上传第二次压缩后的系统日志数据至云服务器为每隔一段时间进行。

优选地，跨平台联合压缩，包括以下步骤：

S41、云服务器接收到来自kafka集群的系统日志数据；

S42、云服务器根据接收的时间表筛选出对应的网络数据；

S43、更新云服务器中的白名单；

S44、根据更新后的白名单确定同一局域网内的本地主机之间是否发生可疑语义传递，若否，则删除同一局域网内的网络数据交互事件对应的系统日志数据，否则，不进行删除。

优选地，更新云服务器中的白名单，采用如下方法：

若在本地主机中的白名单记录的首次发生可疑事件的时间戳之后，有其他本地主机与该本地主机发生系统日志数据交互，则发生可疑语义传递，与之交互的本地主机存在可疑语义，云服务器记录发生可疑语义传递的时间戳，并更新至云服务器中的白名单。

与现有技术相比，本发明的有益效果为：该压缩方法结合保持全局语义的数据压缩算法、基于可疑语义的数据压缩算法和跨平台联合压缩对采集的数据进行三次压缩，具有通用性、有效性和实时性，压缩效率高，有助于缓解数据存储压力、提高分析效率且适用于不同平台。尤其适用于减轻取证分析的数据存储压力，对APT攻击过程中的取证分析环节提供有效帮助。

附图说明

图1为本发明的压缩方法流程图；

图2为本发明的GS压缩前后对比图；

图3为本发明的SS压缩前后对比图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明，以下实施例不构成对本发明的限定。

如图1-3所示，一种跨平台多主机联合日志压缩方法，包括如下步骤：

S1、获取每台本地主机的系统日志数据；

保持全局语义的数据压缩算法，用于确定系统日志数据中事件的源实体的语义是否变化，若否，则源实体到同一目标实体存在等价事件，保留等价事件中第一个事件的系统日志数据，并删除其它等价事件的系统日志数据，否则，不进行删除；

可疑语义为预设范围内的文件或数据或命令；

其中，本实施例中的各本地主机采用Linux系统，并在本地主机上安装SPADE作为采集系统日志数据的工具。SPADE是一种用于数据来源收集和管理的开源软件(例如论文Gehani,Ashish and Tariq,Dawood.SPADE:support for provenance auditing indistributed environments.Middleware,2012中所公开的内容)，可在Linux平台下采集系统日志数据。安装成功后，运行SPADE即可采集到对应本地主机的系统日志数据，SPADE为基于Audit的系统日志数据采集工具。在Linux系统中可以使用Audit进行系统日志数据采集，Audit是Linux系统内核中的模块，用于监听系统调用和文件访问，为当下Linux操作系统的原生日志系统，是研究工作所依赖的数据源。

需要说明的是，本申请中的压缩方法并不局限于平台，不仅适用于Linux平台。还适用于Windows或Unix平台，如Windows系统中用ETW采集系统日志数据，ETW是Windows原生的事件追踪和记录机制。与Audit类似，ETW也能提供文件操作、网络访问等系统级事件。且具有高可用性、数据完备性高和稳定性的特点。

其中，如图1所示，本地压缩包括两次压缩，即保持全局语义的数据压缩和基于可疑语义的数据压缩。保持全局语义的数据压缩为第一次压缩，即GS压缩。GS压缩的核心思想：确定系统日志数据中事件的源实体的语义是否变化，若否，则源实体到同一目标实体存在等价事件，保留等价事件中第一个事件的系统日志数据，并删除其它等价事件的系统日志数据，否则，不进行删除。在系统日志数据中，事件包含实体、操作类型、发生时间，实体包括源实体和目标实体，实体可以是进程、文件等，而事件则描述实体之间如何相互作用，如进程往文件中写入信息这一操作就是一个事件，并可以转化为信息流。信息流又分为数据流和控制流。数据流是指数据内容的依赖关系，反映数据的流动路径(如一个进程读取一个文件)。控制流主要指流程创建关系(如父流程创建子流程)。

由于GS压缩删减的是不影响局部依赖关系的冗余事件，使得压缩后的系统日志数据依旧维持了系统中全实体间的依赖关系且无损语义，大量减少系统事件的存储。且GS压缩考虑的是事件是否影响局部语义，而非单纯的单节点上的内容是否重复，所以GS不局限于单节点的特性。同时由于GS压缩是基于语义是否变化进行的压缩删除，因此不同于现有技术，并不只适用于特定的事件，也不需要依赖大量软件模型，具有很好的通用性与有效性。由于在实际环境中，系统日志数据采集工具一直开启，通过实时压缩可以保证采集数据之间的联系，而如果采用离线压缩则会导致之后采集到的数据失去与先前采集到的数据的联系。

进一步地，顶点是源实体或目标实体，边是信息流，在源实体语义不变时，信息流对同一目标实体的影响是等价的，对于依赖图，当一个顶点没有引入边时，可以认为它的语义不变，也可以认为它的引出的边语义不变。如图2所示，为GS压缩前后对比图，上图为压缩前的依赖图，下图为压缩后的依赖图。时间点t1，t2，t3，t4按时间顺序进行，相比于压缩前的依赖图，在压缩后的依赖图中，删除了时间点t2的边，这是由于进程A(源实体)在时间点t1与t2时的语义未发生改变，因此进程A(源实体)到文件2(目标实体)在时间点t1和t2发生的事件为等价事件，保留第一个事件即时间点t1发生的事件，并对冗余事件即时间点t2发生的事件进行删除。而在时间点t3，进程A读取了文件1，导致进程A的语义发生变化，因此保留时间点t4时进程A写文件2的事件。

进一步地，GS压缩的算法如下所示。输入是实时事件输出是实时压缩事件。使用Sem(w)来记录在语义上受一个源实体w影响的实体集。在处理实时事件时，该算法将确定从源实体Se_i到目的实体De_i是否存在具有相同语义的信息流，若存在，则仅保留具有相同语义的第一个事件，并删除其他等价事件。否则，Sem(De_i)将被清空，De_i将被添加到Sem(Se_i)中。其中，各参数定义：W为所有实体的集合；e_i为一个事件；Se_i为e_i事件的源实体；De_i为e_i事件的目标实体；Sem(w)：在语义上受一个源实体w影响的实体集，如Sem(De_i)表明被De_i影响的实体集，Sem(Se_i)表明被Se_i影响的实体集；

输入：实时事件，按时间顺序，每个事件e_i包含一个源实体Se_i和一个目标实体De_i；

输出：压缩事件；

初始化：所有实体的集合

其中，基于可疑语义的数据压缩为第二次压缩，即SS压缩。SS压缩的核心思想是：同一类型的事件由于关联的实体不同而具有不同程度的可疑性，通过分析实体上下文之间的关系，可以确定事件是否可疑(可疑的事件有一定概率是攻击事件)，并删除非可疑事件。可疑语义包含：访问敏感文件、删除文件、获取网络数据、执行可疑命令等，其中敏感文件指高值文件/目录，可疑命令指敏感进程命令行，如果一台本地主机的系统日志数据中包含了可疑语义，说明该主机存在可疑事件，可能正在遭遇APT攻击或者已被攻击。而包含可疑语义的事件分为三类：高价值数据流、不可信数据流和不可信控制流，对应取证分析所涉及的所有事件。高价值数据流是指高价值数据一旦被窃取后的传输路径。在实践中，可以预先枚举高价值数据的存储路径。不可信数据流表示将不可信数据引入实体的事件，例如，进程与未知站点通信。不可信控制流表示启动进程的高度可疑命令行。相反，系统中的可信进程读取配置文件或写入临时文件不会对攻击的取证分析产生任何影响。因此，事件是否被保留取决于它是否属于高值数据流、不可信数据流和不可信控制流之一。

SS压缩将默认维护两个表：高值文件/目录(High value files/directories)表和敏感进程命令行(Sensitive command lines)表。本实施例中，Linux系统中的高值文件/目录和敏感进程命令行的预设范围如表1所示。高值文件/目录指那些原本存在于系统中的具有高价值的文件或者存有高价值文件的目录，比如Linux下的/etc/password、/etc/shadow等；敏感进程命令行指危险的命令或者会泄露重要信息的命令，比如Linux下的ifconfig、whoami等，可根据实际情况选定预设范围内的文件或数据或命令作为可疑语义，如当本地主机为Windows系统时，其中高值文件/目录包括C:\windows\system32\etc\hosts、C:\windows\system32\config等，敏感进程命令行包括ipconfig、taskkill、tasklist等，详见表1，如下：

High value files/directories	Sensitive command lines
		/etc/passwd	whoami
/etc/shadow	sudo
		/etc/crontab	chown,chmod
.bash_profile	netstate
		.bashrc	ifconfig
…	…

事件类型的确定取决于参与的实体，参与的实体的语义将随事件的发生而改变。例如，当进程读取属于高值文件/目录表中的文件时，相应的事件的日志数据保留。为便于自动进行语义分析和程序编写，定义一组可扩展的可疑语义转移规则，如表2所示。在描述可疑语义转移的时候，用主体和客体的方式进行描述。如主体都是进程，客体可以是文件、网络或者镜像文件，当事件类型为一个读(Read)事件时，将其定义为：进程(主体)读取了文件(客体)，即主体对客体进行了操作。同时为了方便描述与构筑代码，定义了可疑语义转移(传递)方向。所有的事件均是主体操作客体。如果客体存在可疑语义，然后通过一个主体操作客体的事件，把客体上的可疑语义传递给了主体，则称之为反向传递。相反，如果主体存在可疑语义，然后通过一个主体操作客体的事件，把主体上的可疑语义传递给了客体，则称之为正向传递，具体如描述栏中所示，详见表2，如下：

从表2可以看出，通过使用特定的事件，源实体可以将可疑语义传递到目的实体。例如，如果含可疑语义的进程将数据写入文件，则该文件将包含可疑语义(即ID＝2的事件类型)，相应的事件(写事件)将被保留。稍后，上述可疑文件可以通过读事件(即ID＝1的事件类型)进一步传播可疑语义。相反，如果位于起点的源实体(起点指局部依赖图中同一数据传输过程中发生的多个事件中初始事件的源实体，一个局部依赖图中可以有多个“起点”)没有可疑语义，则任何与之相关的事件都不可能传播攻击，相关事件可以被移除。

进一步地，图3为SS压缩前后对比图，上图为压缩前的依赖图，下图为压缩后的依赖图。其中，时间点T5的事件指获取网络数据，含可疑语义。进程B在时间点T1读取可疑文件(指含可疑语义的文件)后变得可疑，然后时间点T2的写事件将可疑语义转移到文件3。当时间点T3时，进程B读取一个正常文件，该事件为非可疑事件，相应事件的边可以删除。而在时间点T4时，该事件并不能生成新的语义，因此也可以被删除。最后经过SS压缩后删除了时间点T3和T4的两个事件的日志数据。在进一步使用SS压缩后，不仅可以删除非可疑事件，而且可以非可疑事件所造成的从属影响，且压缩的数据仍然保持全局依赖性。

其中，记录网络数据的源IP地址和接收到网络数据的时间戳至对应时间表并上传各时间表至云服务器过程如下：先提取第二次压缩后的网络数据，比对网络数据的IP地址确定网络数据是否来自同一局域网，对于来自同一局域网的网络数据，记录网络数据的源IP地址和接收到网络数据的时间戳，写入时间表中，并将时间表同步至云服务器。

本实施例中，上传第二次压缩后的系统日志数据和本地主机中的白名单至云服务器，包括以下步骤：

S31、发送第二次压缩后的系统日志数据至kafka集群；

S32、转发kafka集群接收的系统日志数据至云服务器；

S33、维护本地主机中的白名单并上传至云服务器。

本实施例中，维护本地主机中的白名单，采用以下方法：

在一实施例中，上传第二次压缩后的系统日志数据至云服务器为每隔一段时间进行。

其中，为避免数据缺失，如本地主机的网络突然断开导致系统日志数据缺失，优选每隔一段时间对第二次压缩后的系统日志数据进行一次上传操作，如每隔1小时。在不考虑意外的情况下，也可以实时上传。并判断各本地主机上是否发生可疑事件，若是，则在本地主机中的白名单上对应的IP地址栏所在行记录首次发生可疑事件的时间戳，否则，不进行记录，实时维护本地主机中的白名单。白名单详见表3，如下：

局域网内本地主机的IP地址	是否发生可疑事件	首次发生可疑事件的时间戳
			192.168.1.1	否	无
192.168.1.2	是	19000
			192.168.1.3	是	21000
…	…	…

需要说明的是，在由kafka集群实现本地主机与云服务器数据通讯时，只需解决相互之间的接口问题，即在本地主机将压缩后的日志数据格式转化成kafka数据流，再由kafka将该数据流传至云服务器，最后在云服务器中将kafka数据流重新转换成原第二次压缩后的日志数据格式。在数据交互过程中，数据的内容是不变的，改变的只是数据格式。上传操作采用Kafka集群能够解决大量数据的实时传输问题，可更好的适应本申请的压缩方法。

本实施例中，跨平台联合压缩，包括以下步骤：

S41、云服务器接收到来自kafka集群的系统日志数据；

S42、云服务器根据接收的时间表筛选出对应的网络数据；

S43、更新云服务器中的白名单；

本实施例中，更新云服务器中的白名单，采用如下方法：

其中，采集到的系统日志数据中每一条日志数据都有一个对应的时间戳，用于记录这条数据代指事件的发生时间，根据时间表中的时间信息找出对应时间戳的日志数据，即为该局域网间内的所有网络数据。如果在本地主机中的白名单记录的首次发生可疑事件的时间戳之后，有其他主机与该主机发生网络数据交互，则认为发生了可疑语义传递，即与之交互的主机也视为存在可疑语义，云服务器会记录该时间戳，并更新白名单。根据更新后的白名单根据更新后的白名单确定同一局域网内的本地主机之间是否发生可疑语义传递，删除同一局域网内无可疑语义传递的网络数据交互事件对应的系统日志数据，保留同一局域网内发生可疑语义传递的网络数据交互事件对应的系统日志数据，实现跨平台联合压缩。

进一步地，本地主机x、y、z为同一局域网内的三台主机，若在白名单中它们一直未发生可疑语义传递，则这三台主机之间的网络数据交互事件对应的日志数据都会被删除。若在某一时间点，本地主机y发生可疑语义传递，那么在该时间点之前的事件中，三台主机之间的网络数据交互事件对应的日志数据都会被删除。而在该时间点及该时间点之后，对于与本地主机y相关的网络数据交互事件对应的日志数据要保留，不做删除操作，若此时的本地主机x与本地主机z都未发生可疑语义传递，本地主机x与本地主机z之间的网络数据交互事件对应的日志数据则可进行删除。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种跨平台多主机联合日志压缩方法，其特征在于：所述跨平台多主机联合日志压缩方法包括如下步骤：

S1、获取每台本地主机的系统日志数据；

S2、分别在每台本地主机上对所述系统日志数据进行本地压缩，包括如下步骤：

S21、采用保持全局语义的数据压缩算法对所述系统日志数据进行第一次压缩；

所述保持全局语义的数据压缩算法，用于确定所述系统日志数据中事件的源实体的语义是否变化，若否，则所述源实体到同一目标实体存在等价事件，保留所述等价事件中第一个事件的系统日志数据，并删除其它所述等价事件的系统日志数据，否则，不进行删除；

S22、采用基于可疑语义的数据压缩算法对所述第一次压缩后的系统日志数据进行第二次压缩，并记录所述第二次压缩后来自同一局域网的网络数据的源IP地址和接收到所述网络数据的时间戳至对应本地主机的时间表中，上传各所述时间表至云服务器；

所述基于可疑语义的数据压缩算法，用于分析所述系统日志数据中的事件是否发生可疑语义传递，若是，则所述事件为可疑事件，否则，为非可疑事件，保留所述可疑事件的系统日志数据，并删除所述非可疑事件的系统日志数据；

所述可疑语义为预设范围内的文件或数据或命令；

S3、上传所述第二次压缩后的系统日志数据和本地主机中的白名单至所述云服务器，所述本地主机中的白名单用于记录同一局域网内的本地主机的IP地址、以及本地主机是否发生可疑事件；

S4、所述云服务器对接收的所述第二次压缩后的系统日志数据进行跨平台联合压缩；

所述跨平台联合压缩，包括以下步骤：

S41、所述云服务器接收到来自kafka集群的系统日志数据；

S42、所述云服务器根据接收的所述时间表筛选出对应的网络数据；

S43、更新所述云服务器中的白名单；

S44、根据更新后的所述白名单确定同一局域网内的本地主机之间是否发生可疑语义传递，若否，则删除同一局域网内的网络数据交互事件对应的系统日志数据，否则，不进行删除。

2.如权利要求1所述的跨平台多主机联合日志压缩方法，其特征在于：所述上传所述第二次压缩后的系统日志数据和本地主机中的白名单至所述云服务器，包括以下步骤：

S31、发送所述第二次压缩后的系统日志数据至kafka集群；

S32、转发所述kafka集群接收的系统日志数据至所述云服务器；

S33、维护所述本地主机中的白名单并上传至所述云服务器。

3.如权利要求2所述的跨平台多主机联合日志压缩方法，其特征在于：所述维护所述本地主机中的白名单，采用以下方法：

判断各所述本地主机是否发生可疑事件，若是，则在所述本地主机中的白名单上记录首次发生可疑事件的时间戳，否则，不进行记录。

4.如权利要求2或3所述的跨平台多主机联合日志压缩方法，其特征在于：所述上传所述第二次压缩后的系统日志数据至所述云服务器为每隔一段时间进行。

5.如权利要求1所述的跨平台多主机联合日志压缩方法，其特征在于：所述更新所述云服务器中的白名单，采用如下方法：

若在所述本地主机中的白名单记录的首次发生可疑事件的时间戳之后，有其他本地主机与该本地主机发生系统日志数据交互，则发生所述可疑语义传递，与之交互的本地主机存在所述可疑语义，所述云服务器记录发生所述可疑语义传递的时间戳，并更新至所述云服务器中的白名单。