CN104036157A

CN104036157A - 一种基于综合特征值检测文件被篡改的方法

Info

Publication number: CN104036157A
Application number: CN201410246809.2A
Authority: CN
Inventors: 杨育斌; 柯宗贵; 赵必厦
Original assignee: Blue Shield Information Security Technology Co Ltd
Current assignee: Blue Shield Information Security Technology Co Ltd; Bluedon Information Security Technologies Co Ltd
Priority date: 2014-06-05
Filing date: 2014-06-05
Publication date: 2014-09-10

Abstract

本文提出了一种基于综合特征值的快速准确检测文件是否被篡改的基线检查方法，该方法有效组合了文件的属性特征值与内容特征值作为文件的综合特征值，监控主机定时从节点主机获取综合特征值信息，判断综合特征值是否一致，从而达到快速准确检测文件是否被篡改的目的。

Description

一种基于综合特征值检测文件被篡改的方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于综合特征值检测文件被篡改的方法。

背景技术

随着云计算、移动互联网、物联网的崛起与发展，大数据的时代已经来临。传统的基线检测文件是否篡改的方法应用到大数据集群，处理速度会比较慢，因此，需要进行一定的改造与优化。

基于特征值来判断文件是否篡改的方法有很多，例如通过比较名称、类型、文件夹路径、大小、创建时间、修改时间、访问时间、属性、所有者、权限、内容等。

计算文件内容的MD5/SHA1作为特征值，可以发现文件内容是否被篡改，但是无法发现文件属性是否被篡改。例如，非法入侵者使用“chmod+x run.sh”赋予run.sh执行权限，单凭使用MD5作为特征值，是无法发现的。但是，逐一比较这些特征值是比较耗时的，况且单独的计算属性或内容特征值无法准确地识别出文件是否被篡改。

发明内容

本发明为了解决现有技术中在大规模集群中对文件进行基线检测的时候，使用全节点全文提交来检测文件是否篡改的方法，效率会比较低下。如果只比较文件的某个属性/内容特征值，则无法准确发现文件个别属性是否被篡改的缺点或不足，采用了综合考虑文件的属性特征值与内容特征值，并组合成文件的综合特征值，使用文件的综合特征值来快速准确发现文件是否被篡改。

一种基于综合特征值检测文件被篡改的方法，其有效组合了文件的属性特征值与内容特征值作为文件的综合特征值，监控主机定时从节点主机获取综合特征值信息，判断综合特征值是否一致，从而达到快速准确检测文件是否被篡改的目的，具体检测阶段的逻辑处理流程如下：

s11)Server进程请求获取集群节点Agent进程所有被监控文件的综合特征值，并等待返回；

s12)Agent进程接收到Server进程的请求，计算全部被监控文件的综合特征值，并返回给Server进程；

s13)Server进程把Agent端返回的所有综合特征值与数据库中的综合特征值进行逐一比较，判断是否一致；

s14)如果文件被篡改，跳转到s16)，否则跳转到s15)；

s15)更新相应的信息到数据库中；

s16)流程结束。

当检测到文件被篡改后，决策阶段的逻辑处理流程如下：

s21)Server进程从数据库中读取被篡改文件的信息；

s22)Server进程等待用户做决策，是否同意修改，如果是，跳转到s23)，否则跳转到s24)；

s23)Server进程把新的文件内容及其综合特征值更新到数据库中，跳转到s25)；

s24)Agent进程对节点恢复旧的文件内容，跳转到s25)；

s25)流程结束。

在上述方法中，计算出所有被监控文件当前的综合特征值，并存储在数据库中，综合特征值是经过计算组合数据库中的表存储的信息中的其它列属性得到的，而其它列属性是可以通过API接口获得的；如果使用的是Java语言，则可以通过Java读写文件的API来获得这些列属性。

文件的综合特征值由属性特征值与内容特征值组合而成，属性特征值主要包括文件exists是否存在、canExecute是否可执行、canRead是否可读、canWrite是否可写、isDirectory是否目录、isFile是否文件、isHidden是否隐藏文件、lastModified文件的最后修改时间、length文件的大小、name文件的名称、parent文件的父目录的绝对路径，内容特征值主要包括文件内容的MD5值contentMd5。

本发明技术方案具有如下的特点：

1、综合考虑属性特征值与内容特征值，最大限度发现文件是否被篡改

本方法综合考虑了文件的属性特征值与内容特征值，可以最大限度发现文件是否被篡改。文件的属性特征值主要包括文件exists(是否存在)、canExecute(是否可执行)、canRead(是否可读)、canWrite(是否可写)、isDirectory(是否目录)、isFile(是否文件)、isHidden(是否隐藏文件)、lastModified(文件的最后修改时间)、length(文件的大小)、name(文件的名称)、parent(文件的父目录的绝对路径)，文件的内容特征值主要是计算文件内容的MD5/SHA1的值。

2、通信传输量少，基本不占带宽流量：

由于是基于文件的综合特征值来判断，因此，传输的内容是包含少量信息的包，占带宽很少，基本不占带宽流量。

3、大规模集群下，快速准确定位文件是否被篡改

在集群数目很大的情况下，也可以较快地识别出文件是否被篡改，并快速准确定位到被篡改的文件，并获取文件的内容进行对比。

4、及时发现并处理内部或者外部的破坏人员，维护系统的稳定运作

通过本方法，可以及时发现内部或者外部的破坏人员，系统自动处理或者交由管理人员进行决策处理，维护系统的稳定运作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明方法的通信模型图；

图2是本发明方法中检测阶段的逻辑处理流程图；

图3是本发明方法中决策阶段的逻辑处理流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

文件的属性特征主要有名称、类型、文件夹路径、大小、占用空间、创建时间、修改时间、访问时间、属性、所有者、权限等，文件的内容特征主要是文件的具体内容。因此，可以根据文件的属性特征值和文件的内容特征值来计算出一个文件的综合特征值，从而识别出某一时间点中的文件的某一个状态。如果文件的某个特征值改变了，那么基于文件的该特征值计算出来的综合特征值也会改变，通过判断已知状态的综合特征值和文件目前状态的综合特征值的异同，来判断文件是否被篡改。

因此，要综合考虑文件的属性特征值与内容特征值。可以把该类特征值看成是离散的特征值，是文件特征值的具体项，然后计算出综合特征值，综合特征值是离散的特征值组合而成的总的特征值。通过比较文件的综合特征值的异同，可以快速准确判断出文件是否被篡改。离散特征值取值的数目与类型，决定综合特征值的计算值，并最终决定整个检测方法的准确性。

本方法的通信模型，如图1所示。

本方法包括若干个监控服务器，对成千上万个集群节点进行监控，在监控服务器部署有Server进程，在集群节点部署有Agent进程，Server进程与Agent进程之间通过http/https进行通信，Server进程对Agent进程发送请求，Agent进程处理后，返回请求的结果。

本方法包括2个阶段，检测阶段、决策阶段。

检测阶段的逻辑处理流程如图2所示：

检测阶段的逻辑处理流程如下：

(1)Server进程请求获取集群节点Agent进程所有被监控文件的综合特征值，并等待返回；

(2)Agent进程接收到Server进程的请求，计算全部被监控文件的综合特征值，并返回给Server进程；

(3)Server进程把Agent端返回的所有综合特征值与数据库中的综合特征值进行逐一比较，判断是否一致；

(4)如果文件被篡改，跳转到(6)，否则跳转到(5)；

(5)更新相应的信息到数据库中；

(6)流程结束。

该方法中，首先计算出所有被监控文件当前的综合特征值，并存储在数据库中，然后定时推送文件的综合特征值过来进行比较，如果不相等，则判断为文件被篡改，并进行业务逻辑处理。

数据库中的表存储的信息如表1所示：

表1

列名	类型	描述	所属
				exists	Boolean	是否存在	属性特征值
canExecute	Boolean	是否可执行	属性特征值
				canRead	Boolean	是否可读	属性特征值
canWrite	Boolean	是否可写	属性特征值

isDirectory	Boolean	是否目录	属性特征值
				isFile	Boolean	是否文件	属性特征值
isHidden	Boolean	是否隐藏文件	属性特征值
				lastModified	Long	文件的最后修改时间	属性特征值
length	Long	文件的大小	属性特征值
				name	String	文件的名称	属性特征值
parent	String	文件的父目录的绝对路径	属性特征值
				content	String	文件的内容	内容特征值
contentMd5	String	文件内容的MD5值	内容特征值
				code	String	文件的综合特征值	综合特征值

其中，综合特征值“code”列是经过计算组合其它列属性得到的，而其它列属性是可以通过API接口获得的。如果使用的是Java语言，则可以通过Java读写文件的API来获得这些列属性。

文件的综合特征值由属性特征值与内容特征值组合而成，属性特征值主要包括文件exists(是否存在)、canExecute(是否可执行)、canRead(是否可读)、canWrite(是否可写)、isDirectory(是否目录)、isFile(是否文件)、isHidden(是否隐藏文件)、lastModified(文件的最后修改时间)、length(文件的大小)、name(文件的名称)、parent(文件的父目录的绝对路径)，内容特征值主要包括contentMd5(文件内容的MD5值)。

表2

比较两个文件的综合特征值的流程，就是判断文件在数据库中存储的综合特征值与当前获取的综合特征值的值是否相等的过程。如果相等，则可以认为文件未经过修改；否则，认为文件是被修改过的。由于是比较2个字符串是否相等，因此效率是比较高的。

决策阶段的逻辑处理流程图如图3所示：

决策阶段的逻辑处理流程如下：

(1)Server进程从数据库中读取被篡改文件的信息；

(2)Server进程等待用户做决策，是否同意修改，如果是，跳转到(3)，否则跳转到(4)；

(3)Server进程把新的文件内容及其综合特征值更新到数据库中，跳转到(5)；

(4)Agent进程对节点恢复旧的文件内容，跳转到(5)；

(5)流程结束。

以上对本发明实施例所提供的一种基于综合特征值检测文件被篡改的方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于综合特征值检测文件被篡改的方法，其特征在于，该方法有效组合了文件的属性特征值与内容特征值作为文件的综合特征值，监控主机定时从节点主机获取综合特征值信息，判断综合特征值是否一致，从而达到快速准确检测文件是否被篡改的目的，具体检测阶段的逻辑处理流程如下：

s14)如果文件被篡改，跳转到s16)，否则跳转到s15)；

s15)更新相应的信息到数据库中；

s16)流程结束。

2.根据权利要求1所述的方法，其特征在于，当检测到文件被篡改后，决策阶段的逻辑处理流程如下：

s21)Server进程从数据库中读取被篡改文件的信息；

s24)Agent进程对节点恢复旧的文件内容，跳转到s25)；

s25)流程结束。

3.根据权利要求1或2所述的方法，其特征在于，在该方法中计算出所有被监控文件当前的综合特征值，并存储在数据库中，综合特征值是经过计算组合数据库中的表存储的信息中的其它列属性得到的，而其它列属性是可以通过API接口获得的；如果使用的是Java语言，则可以通过Java读写文件的API来获得这些列属性。

4.根据权利要求1所述的方法，其特征在于，文件的综合特征值由属性特征值与内容特征值组合而成，属性特征值主要包括文件exists是否存在、canExecute是否可执行、canRead是否可读、canWrite是否可写、isDirectory是否目录、isFile是否文件、isHidden是否隐藏文件、lastModified文件的最后修改时间、length文件的大小、name文件的名称、parent文件的父目录的绝对路径，内容特征值主要包括文件内容的MD5值contentMd5。