CN107145801A

CN107145801A - 一种后缀名遭篡改的涉密文件自动发现方法

Info

Publication number: CN107145801A
Application number: CN201710281781.XA
Authority: CN
Inventors: 傅如毅; 陈旭; 郦鑫; 段守超
Original assignee: Zhejiang Yuanwang Information Co Ltd
Current assignee: Zhejiang Yuanwang Information Co Ltd
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2017-09-08

Abstract

本发明公开了一种后缀名遭篡改的涉密文件自动发现方法，其基于不同格式电子文档都有其独特存储方式的原理，采用在终端设备上部署一个终端应用程序，利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别，实现文件后缀名删除或篡改情况下的文件内容检索支持。本发明一种后缀名遭篡改的涉密文件自动发现方法，基于不同格式电子文档都有其自己独特的存储方式，通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改的方式，依靠电子文档特殊结构分析技术，实现对电子文档后缀篡改分析，并识别电子文档真实的文件类型，进而实现涉密文件自动检测发现。

Description

一种后缀名遭篡改的涉密文件自动发现方法

【技术领域】

本发明涉及文件信息安全的技术领域，特别涉及一种后缀名遭篡改的涉密文件自动发现方法。

【背景技术】

互联网信息的飞速发展，给人们的生活带来方便快捷，但也随着信息化发展的不断深入，导致信息存在越来越多的安全隐患。目前，社会工作都在计算机和互联网上进行，内容及信息都以电子文档的格式存在，一旦计算机遭受病毒电子文档后缀名被篡改，就会导致电子文档无法打开，也容易导致重要文件和涉密文件丢失、泄漏，存在信息安全隐患。为了解决以上问题，有必要提出一种后缀名遭篡改的涉密文件自动发现方法，依靠电子文档特殊结构分析技术，实现对电子文档后缀篡改分析，并识别电子文档真实的文件类型，电子文档后缀篡改识别，是指针对电子文档后缀删除或修改后，通过分析电子文档内部结构识别出真实文档类型，进而实现涉密文件自动检测发现。

【发明内容】

本发明的目的在于克服上述现有技术的不足，提供一种后缀名遭篡改的涉密文件自动发现方法，其旨在解决现有技术中电子文件被篡改，就会导致电子文档无法打开，也容易导致重要文件和涉密文件丢失、泄漏，存在信息安全隐患的技术问题。

为实现上述目的，本发明提出了一种后缀名遭篡改的涉密文件自动发现方法，其基于不同格式电子文档都有其独特存储方式的原理，采用在终端设备上部署一个终端应用程序，利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别，实现文件后缀名删除或篡改情况下的文件内容检索支持，具体步骤如下：

S1、启动终端应用程序，终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别，判断电子文档是否属于正规文档后缀格式，若属于则直接进入步骤S8；若不属于则进入步骤S2；

S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征，若满足则转至步骤S3；若不满足则转至步骤S4；

S3、进一步根据电子文档内容中所含字节标记，判断电子文档属于WPS Office系列文档类型或Microsoft Office97-2003系列文档类型，当电子文档属于WPS Office系列文档类型，根据所含字节标记字段识别出具体所属类型，并转至步骤S7；当电子文档属于Microsoft Office97-2003系列文档类型，根据所含字节标记识别出电子文档具体所属类型，并转至步骤S7；若既不属于WPS Office系列文档类型也不属于Microsoft Office97-2003系列文档类型，则转至步骤S4；

S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征，若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型，并转至步骤S7；若不存在Office2007系列文档特征则转至步骤S5；

S5、判断电子文档头部是否满足不同类型图片文件的字节特征，若满足，则进一步识别出具体图片文件类型，并转至步骤S7；若不满足，则转至步骤S6；

S6、判断文件头部4位字节是否满足pdf文件类型字节特征，若满足，则识别为pdf文件类型，并转至步骤S7；若不满足，则确定该电子文档不可识别，并结束扫描识别；

S7、将后缀名被删除或篡改的文件，还原为真实后缀名，然后进入步骤S8；

S8、执行文件内容检索，并判断是否为涉密文件，并结束扫描识别。

作为优选，所述的步骤S3中当电子文档属于WPS Office系列文档类型，根据所含字节标记字段识别出的具体所属类型为wps、et、ett、dpt或dps文件；当电子文档属于Microsoft Office97-2003系列文档类型，根据所含字节标记识别出的电子文档具体所属类型为doc、xls、ppt或pps文件。

作为优选，所述的步骤S4中若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出的电子文档具体所属类型为docx、xlsx、pptx或ppsx文件。

作为优选，所述的步骤S5的具体步骤如下：

1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征，若满足则识别为.jfif、.jpg、.jpeg文件类型，并转至步骤S7；若不满足则转至步骤2)；

2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征，若满足则识别为.bmp、.dib文件类型，并转至步骤S7；若不满足则转至步骤3)；

3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征，若满足则识别为.GIF文件类型，并转至步骤S7；若不满足则转至步骤4)；

4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征，若满足则识别为.png文件类型，并转至步骤S7；若不满足则转至步骤5)；

5)判断电子文档头部5位字节中是否满足pdf格式类型图片文件的字节特征，若满足则识别为.pdf文件类型，并转至步骤S7；若不满足则转至步骤S6。

本发明的有益效果：与现有技术相比，本发明提供的一种后缀名遭篡改的涉密文件自动发现方法，其基于在终端设备上部署一个终端应用程序，利用应用程序对终端计算机操作系统中电子文档进行扫描并识别，实现文件后缀名删除或篡改情况下的文件内容检索支持，不同格式电子文档都有其自己独特的存储方式，可通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改，依靠电子文档特殊结构分析技术，实现对电子文档后缀篡改分析，并识别电子文档真实的文件类型，进而实现涉密文件自动检测发现。

本发明的特征及优点将通过实施例结合附图进行详细说明。

【附图说明】

图1是本发明实施例一种后缀名遭篡改的涉密文件自动发现方法的流程图。

【具体实施方式】

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参阅图1，本发明实施例提供一种后缀名遭篡改的涉密文件自动发现方法，其基于不同格式电子文档都有其独特存储方式的原理，采用在终端设备上部署一个终端应用程序，利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别，实现文件后缀名删除或篡改情况下的文件内容检索支持，具体步骤如下：

S1、启动终端应用程序，终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别，判断电子文档是否属于正规文档后缀格式，若属于则直接进入步骤S8；若不属于则进入步骤S2。

S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征，若满足则转至步骤S3；若不满足则转至步骤S4。

S3、进一步根据电子文档内容中所含字节标记，判断电子文档属于WPS Office系列文档类型或Microsoft Office97-2003系列文档类型，当电子文档属于WPS Office系列文档类型，根据所含字节标记字段识别出具体所属类型，判定为wps、et、ett、dpt或dps文件，并转至步骤S7；当电子文档属于Microsoft Office97-2003系列文档类型，根据所含字节标记识别出电子文档具体所属类型，判定为doc、xls、ppt或pps文件，并转至步骤S7；若既不属于WPS Office系列文档类型也不属于Microsoft Office97-2003系列文档类型，则转至步骤S4。

S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征，若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型，判定为docx、xlsx、pptx或ppsx文件，并转至步骤S7；若不存在Office2007系列文档特征则转至步骤S5。

S5、判断电子文档头部是否满足不同类型图片文件的字节特征，若满足，则进一步识别出具体图片文件类型，并转至步骤S7；若不满足，则转至步骤S6。

其中，步骤S5的具体步骤如下：

1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征，若满足则识别为.jfif、.jpg、.jpeg文件类型，并转至步骤S7；若不满足则转至步骤2)。

2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征，若满足则识别为.bmp、.dib文件类型，并转至步骤S7；若不满足则转至步骤3)。

3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征，若满足则识别为.GIF文件类型，并转至步骤S7；若不满足则转至步骤4)。

4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征，若满足则识别为.png文件类型，并转至步骤S7；若不满足则转至步骤5)。

S6、判断文件头部4位字节是否满足pdf文件类型字节特征，若满足，则识别为pdf文件类型，并转至步骤S7；若不满足，则确定该电子文档不可识别，并结束扫描识别。

S7、将后缀名被删除或篡改的文件，还原为真实后缀名，然后进入步骤S8。

本发明一种后缀名遭篡改的涉密文件自动发现方法，基于不同格式电子文档都有其自己独特的存储方式，通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改的方式，在终端设备上部署一个终端应用程序，利用应用程序对终端计算机操作系统中电子文档进行扫描并识别，实现文件后缀名删除或篡改情况下的文件内容检索支持，依靠电子文档特殊结构分析技术，实现对电子文档后缀篡改分析，并识别电子文档真实的文件类型，进而实现涉密文件自动检测发现，防止重要文件和涉密文件丢失、泄漏，加强了信息安全。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种后缀名遭篡改的涉密文件自动发现方法，其基于不同格式电子文档都有其独特存储方式的原理，采用在终端设备上部署一个终端应用程序，利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别，实现文件后缀名删除或篡改情况下的文件内容检索支持，其特征在于：具体步骤如下：

2.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法，其特征在于：所述的步骤S3中当电子文档属于WPS Office系列文档类型，根据所含字节标记字段识别出的具体所属类型为wps、et、ett、dpt或dps文件；当电子文档属于Microsoft Office97-2003系列文档类型，根据所含字节标记识别出的电子文档具体所属类型为doc、xls、ppt或pps文件。

3.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法，其特征在于：所述的步骤S4中若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出的电子文档具体所属类型为docx、xlsx、pptx或ppsx文件。

4.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法，其特征在于：所述的步骤S5的具体步骤如下：