CN104036157A - 一种基于综合特征值检测文件被篡改的方法 - Google Patents
一种基于综合特征值检测文件被篡改的方法 Download PDFInfo
- Publication number
- CN104036157A CN104036157A CN201410246809.2A CN201410246809A CN104036157A CN 104036157 A CN104036157 A CN 104036157A CN 201410246809 A CN201410246809 A CN 201410246809A CN 104036157 A CN104036157 A CN 104036157A
- Authority
- CN
- China
- Prior art keywords
- file
- comprehensive characteristics
- value
- characteristics value
- tampered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
- H04L63/123—Applying verification of the received information received data contents, e.g. message integrity
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Storage Device Security (AREA)
Abstract
本文提出了一种基于综合特征值的快速准确检测文件是否被篡改的基线检查方法,该方法有效组合了文件的属性特征值与内容特征值作为文件的综合特征值,监控主机定时从节点主机获取综合特征值信息,判断综合特征值是否一致,从而达到快速准确检测文件是否被篡改的目的。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于综合特征值检测文件被篡改的方法。
背景技术
随着云计算、移动互联网、物联网的崛起与发展,大数据的时代已经来临。传统的基线检测文件是否篡改的方法应用到大数据集群,处理速度会比较慢,因此,需要进行一定的改造与优化。
基于特征值来判断文件是否篡改的方法有很多,例如通过比较名称、类型、文件夹路径、大小、创建时间、修改时间、访问时间、属性、所有者、权限、内容等。
计算文件内容的MD5/SHA1作为特征值,可以发现文件内容是否被篡改,但是无法发现文件属性是否被篡改。例如,非法入侵者使用“chmod+x run.sh”赋予run.sh执行权限,单凭使用MD5作为特征值,是无法发现的。但是,逐一比较这些特征值是比较耗时的,况且单独的计算属性或内容特征值无法准确地识别出文件是否被篡改。
发明内容
本发明为了解决现有技术中在大规模集群中对文件进行基线检测的时候,使用全节点全文提交来检测文件是否篡改的方法,效率会比较低下。如果只比较文件的某个属性/内容特征值,则无法准确发现文件个别属性是否被篡改的缺点或不足,采用了综合考虑文件的属性特征值与内容特征值,并组合成文件的综合特征值,使用文件的综合特征值来快速准确发现文件是否被篡改。
一种基于综合特征值检测文件被篡改的方法,其有效组合了文件的属性特征值与内容特征值作为文件的综合特征值,监控主机定时从节点主机获取综合特征值信息,判断综合特征值是否一致,从而达到快速准确检测文件是否被篡改的目的,具体检测阶段的逻辑处理流程如下:
s11)Server进程请求获取集群节点Agent进程所有被监控文件的综合特征值,并等待返回;
s12)Agent进程接收到Server进程的请求,计算全部被监控文件的综合特征值,并返回给Server进程;
s13)Server进程把Agent端返回的所有综合特征值与数据库中的综合特征值进行逐一比较,判断是否一致;
s14)如果文件被篡改,跳转到s16),否则跳转到s15);
s15)更新相应的信息到数据库中;
s16)流程结束。
当检测到文件被篡改后,决策阶段的逻辑处理流程如下:
s21)Server进程从数据库中读取被篡改文件的信息;
s22)Server进程等待用户做决策,是否同意修改,如果是,跳转到s23),否则跳转到s24);
s23)Server进程把新的文件内容及其综合特征值更新到数据库中,跳转到s25);
s24)Agent进程对节点恢复旧的文件内容,跳转到s25);
s25)流程结束。
在上述方法中,计算出所有被监控文件当前的综合特征值,并存储在数据库中,综合特征值是经过计算组合数据库中的表存储的信息中的其它列属性得到的,而其它列属性是可以通过API接口获得的;如果使用的是Java语言,则可以通过Java读写文件的API来获得这些列属性。
文件的综合特征值由属性特征值与内容特征值组合而成,属性特征值主要包括文件exists是否存在、canExecute是否可执行、canRead是否可读、canWrite是否可写、isDirectory是否目录、isFile是否文件、isHidden是否隐藏文件、lastModified文件的最后修改时间、length文件的大小、name文件的名称、parent文件的父目录的绝对路径,内容特征值主要包括文件内容的MD5值contentMd5。
本发明技术方案具有如下的特点:
1、综合考虑属性特征值与内容特征值,最大限度发现文件是否被篡改
本方法综合考虑了文件的属性特征值与内容特征值,可以最大限度发现文件是否被篡改。文件的属性特征值主要包括文件exists(是否存在)、canExecute(是否可执行)、canRead(是否可读)、canWrite(是否可写)、isDirectory(是否目录)、isFile(是否文件)、isHidden(是否隐藏文件)、lastModified(文件的最后修改时间)、length(文件的大小)、name(文件的名称)、parent(文件的父目录的绝对路径),文件的内容特征值主要是计算文件内容的MD5/SHA1的值。
2、通信传输量少,基本不占带宽流量:
由于是基于文件的综合特征值来判断,因此,传输的内容是包含少量信息的包,占带宽很少,基本不占带宽流量。
3、大规模集群下,快速准确定位文件是否被篡改
在集群数目很大的情况下,也可以较快地识别出文件是否被篡改,并快速准确定位到被篡改的文件,并获取文件的内容进行对比。
4、及时发现并处理内部或者外部的破坏人员,维护系统的稳定运作
通过本方法,可以及时发现内部或者外部的破坏人员,系统自动处理或者交由管理人员进行决策处理,维护系统的稳定运作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明方法的通信模型图;
图2是本发明方法中检测阶段的逻辑处理流程图;
图3是本发明方法中决策阶段的逻辑处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文提出了一种基于综合特征值的快速准确检测文件是否被篡改的基线检查方法,该方法有效组合了文件的属性特征值与内容特征值作为文件的综合特征值,监控主机定时从节点主机获取综合特征值信息,判断综合特征值是否一致,从而达到快速准确检测文件是否被篡改的目的。
文件的属性特征主要有名称、类型、文件夹路径、大小、占用空间、创建时间、修改时间、访问时间、属性、所有者、权限等,文件的内容特征主要是文件的具体内容。因此,可以根据文件的属性特征值和文件的内容特征值来计算出一个文件的综合特征值,从而识别出某一时间点中的文件的某一个状态。如果文件的某个特征值改变了,那么基于文件的该特征值计算出来的综合特征值也会改变,通过判断已知状态的综合特征值和文件目前状态的综合特征值的异同,来判断文件是否被篡改。
因此,要综合考虑文件的属性特征值与内容特征值。可以把该类特征值看成是离散的特征值,是文件特征值的具体项,然后计算出综合特征值,综合特征值是离散的特征值组合而成的总的特征值。通过比较文件的综合特征值的异同,可以快速准确判断出文件是否被篡改。离散特征值取值的数目与类型,决定综合特征值的计算值,并最终决定整个检测方法的准确性。
本方法的通信模型,如图1所示。
本方法包括若干个监控服务器,对成千上万个集群节点进行监控,在监控服务器部署有Server进程,在集群节点部署有Agent进程,Server进程与Agent进程之间通过http/https进行通信,Server进程对Agent进程发送请求,Agent进程处理后,返回请求的结果。
本方法包括2个阶段,检测阶段、决策阶段。
检测阶段的逻辑处理流程如图2所示:
检测阶段的逻辑处理流程如下:
(1)Server进程请求获取集群节点Agent进程所有被监控文件的综合特征值,并等待返回;
(2)Agent进程接收到Server进程的请求,计算全部被监控文件的综合特征值,并返回给Server进程;
(3)Server进程把Agent端返回的所有综合特征值与数据库中的综合特征值进行逐一比较,判断是否一致;
(4)如果文件被篡改,跳转到(6),否则跳转到(5);
(5)更新相应的信息到数据库中;
(6)流程结束。
该方法中,首先计算出所有被监控文件当前的综合特征值,并存储在数据库中,然后定时推送文件的综合特征值过来进行比较,如果不相等,则判断为文件被篡改,并进行业务逻辑处理。
数据库中的表存储的信息如表1所示:
表1
列名 | 类型 | 描述 | 所属 |
exists | Boolean | 是否存在 | 属性特征值 |
canExecute | Boolean | 是否可执行 | 属性特征值 |
canRead | Boolean | 是否可读 | 属性特征值 |
canWrite | Boolean | 是否可写 | 属性特征值 |
isDirectory | Boolean | 是否目录 | 属性特征值 |
isFile | Boolean | 是否文件 | 属性特征值 |
isHidden | Boolean | 是否隐藏文件 | 属性特征值 |
lastModified | Long | 文件的最后修改时间 | 属性特征值 |
length | Long | 文件的大小 | 属性特征值 |
name | String | 文件的名称 | 属性特征值 |
parent | String | 文件的父目录的绝对路径 | 属性特征值 |
content | String | 文件的内容 | 内容特征值 |
contentMd5 | String | 文件内容的MD5值 | 内容特征值 |
code | String | 文件的综合特征值 | 综合特征值 |
其中,综合特征值“code”列是经过计算组合其它列属性得到的,而其它列属性是可以通过API接口获得的。如果使用的是Java语言,则可以通过Java读写文件的API来获得这些列属性。
文件的综合特征值由属性特征值与内容特征值组合而成,属性特征值主要包括文件exists(是否存在)、canExecute(是否可执行)、canRead(是否可读)、canWrite(是否可写)、isDirectory(是否目录)、isFile(是否文件)、isHidden(是否隐藏文件)、lastModified(文件的最后修改时间)、length(文件的大小)、name(文件的名称)、parent(文件的父目录的绝对路径),内容特征值主要包括contentMd5(文件内容的MD5值)。
例如“/opt/tomcat/conf/server.xml”文件的“code”列的值为“111101|1372751976000|6435|server.xml|/opt/tomcat/conf|202CB962AC59075B964B07152D234B70”。具体的键值对及其含义如表2所示。
表2
比较两个文件的综合特征值的流程,就是判断文件在数据库中存储的综合特征值与当前获取的综合特征值的值是否相等的过程。如果相等,则可以认为文件未经过修改;否则,认为文件是被修改过的。由于是比较2个字符串是否相等,因此效率是比较高的。
决策阶段的逻辑处理流程图如图3所示:
决策阶段的逻辑处理流程如下:
(1)Server进程从数据库中读取被篡改文件的信息;
(2)Server进程等待用户做决策,是否同意修改,如果是,跳转到(3),否则跳转到(4);
(3)Server进程把新的文件内容及其综合特征值更新到数据库中,跳转到(5);
(4)Agent进程对节点恢复旧的文件内容,跳转到(5);
(5)流程结束。
以上对本发明实施例所提供的一种基于综合特征值检测文件被篡改的方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种基于综合特征值检测文件被篡改的方法,其特征在于,该方法有效组合了文件的属性特征值与内容特征值作为文件的综合特征值,监控主机定时从节点主机获取综合特征值信息,判断综合特征值是否一致,从而达到快速准确检测文件是否被篡改的目的,具体检测阶段的逻辑处理流程如下:
s11)Server进程请求获取集群节点Agent进程所有被监控文件的综合特征值,并等待返回;
s12)Agent进程接收到Server进程的请求,计算全部被监控文件的综合特征值,并返回给Server进程;
s13)Server进程把Agent端返回的所有综合特征值与数据库中的综合特征值进行逐一比较,判断是否一致;
s14)如果文件被篡改,跳转到s16),否则跳转到s15);
s15)更新相应的信息到数据库中;
s16)流程结束。
2.根据权利要求1所述的方法,其特征在于,当检测到文件被篡改后,决策阶段的逻辑处理流程如下:
s21)Server进程从数据库中读取被篡改文件的信息;
s22)Server进程等待用户做决策,是否同意修改,如果是,跳转到s23),否则跳转到s24);
s23)Server进程把新的文件内容及其综合特征值更新到数据库中,跳转到s25);
s24)Agent进程对节点恢复旧的文件内容,跳转到s25);
s25)流程结束。
3.根据权利要求1或2所述的方法,其特征在于,在该方法中计算出所有被监控文件当前的综合特征值,并存储在数据库中,综合特征值是经过计算组合数据库中的表存储的信息中的其它列属性得到的,而其它列属性是可以通过API接口获得的;如果使用的是Java语言,则可以通过Java读写文件的API来获得这些列属性。
4.根据权利要求1所述的方法,其特征在于,文件的综合特征值由属性特征值与内容特征值组合而成,属性特征值主要包括文件exists是否存在、canExecute是否可执行、canRead是否可读、canWrite是否可写、isDirectory是否目录、isFile是否文件、isHidden是否隐藏文件、lastModified文件的最后修改时间、length文件的大小、name文件的名称、parent文件的父目录的绝对路径,内容特征值主要包括文件内容的MD5值contentMd5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410246809.2A CN104036157A (zh) | 2014-06-05 | 2014-06-05 | 一种基于综合特征值检测文件被篡改的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410246809.2A CN104036157A (zh) | 2014-06-05 | 2014-06-05 | 一种基于综合特征值检测文件被篡改的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104036157A true CN104036157A (zh) | 2014-09-10 |
Family
ID=51466927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410246809.2A Pending CN104036157A (zh) | 2014-06-05 | 2014-06-05 | 一种基于综合特征值检测文件被篡改的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104036157A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104461830A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 监控进程的方法和装置 |
CN106485139A (zh) * | 2016-09-29 | 2017-03-08 | 商客通尚景科技(上海)股份有限公司 | 一种应用程序的安全验证方法 |
CN109871359A (zh) * | 2019-03-21 | 2019-06-11 | 国网福建省电力有限公司 | 文件监控系统及方法 |
CN110046134A (zh) * | 2019-04-09 | 2019-07-23 | 北京信安世纪科技股份有限公司 | 数据库日志记录方法及系统和数据库日志记录检测方法 |
CN110287733A (zh) * | 2019-06-05 | 2019-09-27 | 杭州迪普科技股份有限公司 | 一种文件防篡改方法和装置 |
CN112449237A (zh) * | 2019-08-12 | 2021-03-05 | 中兴通讯股份有限公司 | 一种检测视频码流的方法、装置及系统 |
CN113032343A (zh) * | 2021-03-23 | 2021-06-25 | 杭州安恒信息技术股份有限公司 | 一种文件修改时间可信度判定方法、装置和存储介质 |
CN113190853A (zh) * | 2021-03-24 | 2021-07-30 | 中国电力科学研究院有限公司 | 一种计算机可信认证系统、方法、设备及可读存储介质 |
CN114201370A (zh) * | 2022-02-21 | 2022-03-18 | 山东捷瑞数字科技股份有限公司 | 一种网页文件监控方法及系统 |
CN114428952A (zh) * | 2022-04-07 | 2022-05-03 | 北京亿赛通科技发展有限责任公司 | 一种公网电子文件特征值的验证方法、系统和服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1480859A (zh) * | 2002-09-03 | 2004-03-10 | 鸿富锦精密工业(深圳)有限公司 | 分布式文件同步系统及方法 |
CN101739522A (zh) * | 2009-12-31 | 2010-06-16 | 中兴通讯股份有限公司 | Drm文件完整性的保护方法及装置 |
CN102013088A (zh) * | 2010-11-19 | 2011-04-13 | 王义海 | 基于数字档案资源综合特征的数字水印生成与嵌入方法 |
CN103632089A (zh) * | 2013-12-16 | 2014-03-12 | 北京网秦天下科技有限公司 | 应用安装包的安全检测方法、装置和系统 |
-
2014
- 2014-06-05 CN CN201410246809.2A patent/CN104036157A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1480859A (zh) * | 2002-09-03 | 2004-03-10 | 鸿富锦精密工业(深圳)有限公司 | 分布式文件同步系统及方法 |
CN101739522A (zh) * | 2009-12-31 | 2010-06-16 | 中兴通讯股份有限公司 | Drm文件完整性的保护方法及装置 |
CN102013088A (zh) * | 2010-11-19 | 2011-04-13 | 王义海 | 基于数字档案资源综合特征的数字水印生成与嵌入方法 |
CN103632089A (zh) * | 2013-12-16 | 2014-03-12 | 北京网秦天下科技有限公司 | 应用安装包的安全检测方法、装置和系统 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104461830B (zh) * | 2014-12-19 | 2017-09-22 | 北京奇虎科技有限公司 | 监控进程的方法和装置 |
CN104461830A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 监控进程的方法和装置 |
CN106485139A (zh) * | 2016-09-29 | 2017-03-08 | 商客通尚景科技(上海)股份有限公司 | 一种应用程序的安全验证方法 |
CN106485139B (zh) * | 2016-09-29 | 2019-06-04 | 商客通尚景科技(上海)股份有限公司 | 一种应用程序的安全验证方法 |
CN109871359A (zh) * | 2019-03-21 | 2019-06-11 | 国网福建省电力有限公司 | 文件监控系统及方法 |
CN110046134B (zh) * | 2019-04-09 | 2021-08-31 | 北京信安世纪科技股份有限公司 | 数据库日志记录方法及系统和数据库日志记录检测方法 |
CN110046134A (zh) * | 2019-04-09 | 2019-07-23 | 北京信安世纪科技股份有限公司 | 数据库日志记录方法及系统和数据库日志记录检测方法 |
CN110287733A (zh) * | 2019-06-05 | 2019-09-27 | 杭州迪普科技股份有限公司 | 一种文件防篡改方法和装置 |
CN112449237A (zh) * | 2019-08-12 | 2021-03-05 | 中兴通讯股份有限公司 | 一种检测视频码流的方法、装置及系统 |
US11729436B2 (en) | 2019-08-12 | 2023-08-15 | Zte Corporation | Method, apparatus, and system for detecting video code stream |
CN113032343A (zh) * | 2021-03-23 | 2021-06-25 | 杭州安恒信息技术股份有限公司 | 一种文件修改时间可信度判定方法、装置和存储介质 |
CN113032343B (zh) * | 2021-03-23 | 2022-08-16 | 杭州安恒信息技术股份有限公司 | 一种文件修改时间可信度判定方法、装置和存储介质 |
CN113190853A (zh) * | 2021-03-24 | 2021-07-30 | 中国电力科学研究院有限公司 | 一种计算机可信认证系统、方法、设备及可读存储介质 |
CN114201370A (zh) * | 2022-02-21 | 2022-03-18 | 山东捷瑞数字科技股份有限公司 | 一种网页文件监控方法及系统 |
CN114201370B (zh) * | 2022-02-21 | 2022-06-03 | 山东捷瑞数字科技股份有限公司 | 一种网页文件监控方法及系统 |
CN114428952A (zh) * | 2022-04-07 | 2022-05-03 | 北京亿赛通科技发展有限责任公司 | 一种公网电子文件特征值的验证方法、系统和服务器 |
CN114428952B (zh) * | 2022-04-07 | 2022-07-19 | 北京亿赛通科技发展有限责任公司 | 一种公网电子文件特征值的验证方法、系统和服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104036157A (zh) | 一种基于综合特征值检测文件被篡改的方法 | |
US10331706B1 (en) | Automatic discovery of new entities using graph reconciliation | |
US20120284270A1 (en) | Method and device to detect similar documents | |
Kellou-Menouer et al. | Schema discovery in RDF data sources | |
US8661004B2 (en) | Representing incomplete and uncertain information in graph data | |
US10318540B1 (en) | Providing an explanation of a missing fact estimate | |
CN102945244A (zh) | 基于句号特征字串的中文网页重复文档检测和过滤方法 | |
CN108170469A (zh) | 一种基于代码提交历史的Git仓库相似性检测方法 | |
US9882949B1 (en) | Dynamic detection of data correlations based on realtime data | |
Lin et al. | A hybrid recommendation algorithm based on hadoop | |
CN110399485B (zh) | 基于词向量和机器学习的数据溯源方法和系统 | |
US10671668B2 (en) | Inferring graph topologies | |
CN103036848A (zh) | 协议的逆向工程方法及系统 | |
Xu et al. | Hue: A user-adaptive parser for hybrid logs | |
CN114185761A (zh) | 日志采集方法、装置及设备 | |
US9092338B1 (en) | Multi-level caching event lookup | |
Li et al. | Matching large scale ontologies based on filter and verification | |
Zhong et al. | An improved clustering algorithm of tunnel monitoring data for cloud computing | |
Angaramo et al. | Online clustering and classification for real-time event detection in Twitter. | |
CN105488390B (zh) | 一种Linux下的可疑文件发现方法及系统 | |
Boden et al. | Tracing clusters in evolving graphs with node attributes | |
CN105389378A (zh) | 一种分离式数据整合系统 | |
CN105354243B (zh) | 基于归并聚类的并行化频繁概率子图搜索方法 | |
Chen et al. | AS-Parser: Log Parsing Based on Adaptive Segmentation | |
Ma et al. | Live data migration approach from relational tables to schema-free collections with mapreduce |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140910 |