CN107145801A - 一种后缀名遭篡改的涉密文件自动发现方法 - Google Patents
一种后缀名遭篡改的涉密文件自动发现方法 Download PDFInfo
- Publication number
- CN107145801A CN107145801A CN201710281781.XA CN201710281781A CN107145801A CN 107145801 A CN107145801 A CN 107145801A CN 201710281781 A CN201710281781 A CN 201710281781A CN 107145801 A CN107145801 A CN 107145801A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- file
- type
- series
- byte
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持。本发明一种后缀名遭篡改的涉密文件自动发现方法,基于不同格式电子文档都有其自己独特的存储方式,通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改的方式,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,进而实现涉密文件自动检测发现。
Description
【技术领域】
本发明涉及文件信息安全的技术领域,特别涉及一种后缀名遭篡改的涉密文件自动发现方法。
【背景技术】
互联网信息的飞速发展,给人们的生活带来方便快捷,但也随着信息化发展的不断深入,导致信息存在越来越多的安全隐患。目前,社会工作都在计算机和互联网上进行,内容及信息都以电子文档的格式存在,一旦计算机遭受病毒电子文档后缀名被篡改,就会导致电子文档无法打开,也容易导致重要文件和涉密文件丢失、泄漏,存在信息安全隐患。为了解决以上问题,有必要提出一种后缀名遭篡改的涉密文件自动发现方法,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,电子文档后缀篡改识别,是指针对电子文档后缀删除或修改后,通过分析电子文档内部结构识别出真实文档类型,进而实现涉密文件自动检测发现。
【发明内容】
本发明的目的在于克服上述现有技术的不足,提供一种后缀名遭篡改的涉密文件自动发现方法,其旨在解决现有技术中电子文件被篡改,就会导致电子文档无法打开,也容易导致重要文件和涉密文件丢失、泄漏,存在信息安全隐患的技术问题。
为实现上述目的,本发明提出了一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,具体步骤如下:
S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2;
S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4;
S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPS Office系列文档类型或Microsoft Office97-2003系列文档类型,当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出具体所属类型,并转至步骤S7;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,并转至步骤S7;若既不属于WPS Office系列文档类型也不属于Microsoft Office97-2003系列文档类型,则转至步骤S4;
S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5;
S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6;
S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识别;
S7、将后缀名被删除或篡改的文件,还原为真实后缀名,然后进入步骤S8;
S8、执行文件内容检索,并判断是否为涉密文件,并结束扫描识别。
作为优选,所述的步骤S3中当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出的具体所属类型为wps、et、ett、dpt或dps文件;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出的电子文档具体所属类型为doc、xls、ppt或pps文件。
作为优选,所述的步骤S4中若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出的电子文档具体所属类型为docx、xlsx、pptx或ppsx文件。
作为优选,所述的步骤S5的具体步骤如下:
1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征,若满足则识别为.jfif、.jpg、.jpeg文件类型,并转至步骤S7;若不满足则转至步骤2);
2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征,若满足则识别为.bmp、.dib文件类型,并转至步骤S7;若不满足则转至步骤3);
3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征,若满足则识别为.GIF文件类型,并转至步骤S7;若不满足则转至步骤4);
4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征,若满足则识别为.png文件类型,并转至步骤S7;若不满足则转至步骤5);
5)判断电子文档头部5位字节中是否满足pdf格式类型图片文件的字节特征,若满足则识别为.pdf文件类型,并转至步骤S7;若不满足则转至步骤S6。
本发明的有益效果:与现有技术相比,本发明提供的一种后缀名遭篡改的涉密文件自动发现方法,其基于在终端设备上部署一个终端应用程序,利用应用程序对终端计算机操作系统中电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,不同格式电子文档都有其自己独特的存储方式,可通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,进而实现涉密文件自动检测发现。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明实施例一种后缀名遭篡改的涉密文件自动发现方法的流程图。
【具体实施方式】
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明实施例提供一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,具体步骤如下:
S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2。
S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4。
S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPS Office系列文档类型或Microsoft Office97-2003系列文档类型,当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出具体所属类型,判定为wps、et、ett、dpt或dps文件,并转至步骤S7;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,判定为doc、xls、ppt或pps文件,并转至步骤S7;若既不属于WPS Office系列文档类型也不属于Microsoft Office97-2003系列文档类型,则转至步骤S4。
S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,判定为docx、xlsx、pptx或ppsx文件,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5。
S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6。
其中,步骤S5的具体步骤如下:
1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征,若满足则识别为.jfif、.jpg、.jpeg文件类型,并转至步骤S7;若不满足则转至步骤2)。
2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征,若满足则识别为.bmp、.dib文件类型,并转至步骤S7;若不满足则转至步骤3)。
3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征,若满足则识别为.GIF文件类型,并转至步骤S7;若不满足则转至步骤4)。
4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征,若满足则识别为.png文件类型,并转至步骤S7;若不满足则转至步骤5)。
5)判断电子文档头部5位字节中是否满足pdf格式类型图片文件的字节特征,若满足则识别为.pdf文件类型,并转至步骤S7;若不满足则转至步骤S6。
S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识别。
S7、将后缀名被删除或篡改的文件,还原为真实后缀名,然后进入步骤S8。
S8、执行文件内容检索,并判断是否为涉密文件,并结束扫描识别。
本发明一种后缀名遭篡改的涉密文件自动发现方法,基于不同格式电子文档都有其自己独特的存储方式,通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改的方式,在终端设备上部署一个终端应用程序,利用应用程序对终端计算机操作系统中电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,进而实现涉密文件自动检测发现,防止重要文件和涉密文件丢失、泄漏,加强了信息安全。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,其特征在于:具体步骤如下:
S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2;
S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4;
S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPS Office系列文档类型或Microsoft Office97-2003系列文档类型,当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出具体所属类型,并转至步骤S7;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,并转至步骤S7;若既不属于WPS Office系列文档类型也不属于Microsoft Office97-2003系列文档类型,则转至步骤S4;
S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5;
S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6;
S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识别;
S7、将后缀名被删除或篡改的文件,还原为真实后缀名,然后进入步骤S8;
S8、执行文件内容检索,并判断是否为涉密文件,并结束扫描识别。
2.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法,其特征在于:所述的步骤S3中当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出的具体所属类型为wps、et、ett、dpt或dps文件;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出的电子文档具体所属类型为doc、xls、ppt或pps文件。
3.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法,其特征在于:所述的步骤S4中若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出的电子文档具体所属类型为docx、xlsx、pptx或ppsx文件。
4.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法,其特征在于:所述的步骤S5的具体步骤如下:
1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征,若满足则识别为.jfif、.jpg、.jpeg文件类型,并转至步骤S7;若不满足则转至步骤2);
2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征,若满足则识别为.bmp、.dib文件类型,并转至步骤S7;若不满足则转至步骤3);
3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征,若满足则识别为.GIF文件类型,并转至步骤S7;若不满足则转至步骤4);
4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征,若满足则识别为.png文件类型,并转至步骤S7;若不满足则转至步骤5);
5)判断电子文档头部5位字节中是否满足pdf格式类型图片文件的字节特征,若满足则识别为.pdf文件类型,并转至步骤S7;若不满足则转至步骤S6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710281781.XA CN107145801A (zh) | 2017-04-26 | 2017-04-26 | 一种后缀名遭篡改的涉密文件自动发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710281781.XA CN107145801A (zh) | 2017-04-26 | 2017-04-26 | 一种后缀名遭篡改的涉密文件自动发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107145801A true CN107145801A (zh) | 2017-09-08 |
Family
ID=59773809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710281781.XA Pending CN107145801A (zh) | 2017-04-26 | 2017-04-26 | 一种后缀名遭篡改的涉密文件自动发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145801A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614375A (zh) * | 2018-12-03 | 2019-04-12 | 安徽机电职业技术学院 | 一种基于个人计算机的数据存储系统 |
CN110134644A (zh) * | 2019-05-17 | 2019-08-16 | 成都卫士通信息产业股份有限公司 | 文件类型识别方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763394A (zh) * | 2009-12-31 | 2010-06-30 | 傅如毅 | 计算机系统涉密文件搜索方法 |
CN101795230A (zh) * | 2010-02-23 | 2010-08-04 | 西安交通大学 | 一种网络流量还原方法 |
CN102571767A (zh) * | 2011-12-24 | 2012-07-11 | 成都市华为赛门铁克科技有限公司 | 文件类型识别方法及文件类型识别装置 |
CN102768676A (zh) * | 2012-06-14 | 2012-11-07 | 腾讯科技(深圳)有限公司 | 一种格式未知文件的处理方法和装置 |
-
2017
- 2017-04-26 CN CN201710281781.XA patent/CN107145801A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763394A (zh) * | 2009-12-31 | 2010-06-30 | 傅如毅 | 计算机系统涉密文件搜索方法 |
CN101795230A (zh) * | 2010-02-23 | 2010-08-04 | 西安交通大学 | 一种网络流量还原方法 |
CN102571767A (zh) * | 2011-12-24 | 2012-07-11 | 成都市华为赛门铁克科技有限公司 | 文件类型识别方法及文件类型识别装置 |
CN102768676A (zh) * | 2012-06-14 | 2012-11-07 | 腾讯科技(深圳)有限公司 | 一种格式未知文件的处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
张润峰: "基于特征标识的文件类型识别与匹配", 《计算机安全》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614375A (zh) * | 2018-12-03 | 2019-04-12 | 安徽机电职业技术学院 | 一种基于个人计算机的数据存储系统 |
CN109614375B (zh) * | 2018-12-03 | 2022-06-24 | 安徽机电职业技术学院 | 一种基于个人计算机的数据存储系统 |
CN110134644A (zh) * | 2019-05-17 | 2019-08-16 | 成都卫士通信息产业股份有限公司 | 文件类型识别方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11704384B2 (en) | Secure document sharing | |
US7757162B2 (en) | Document collection manipulation | |
US20190158518A1 (en) | Resisting the spread of unwanted code and data | |
US8504907B2 (en) | Generating page and document logs for electronic documents | |
US20160171242A1 (en) | System, method, and compuer program product for preventing image-related data loss | |
US11677783B2 (en) | Analysis of potentially malicious emails | |
US20120026081A1 (en) | System and method for using paper as an interface to computer applications | |
CN103530558A (zh) | 对阻止有害代码和数据扩散的改进 | |
CN104361293A (zh) | 一种纸质防伪文件生成和辨别的方法及装置 | |
CN107145801A (zh) | 一种后缀名遭篡改的涉密文件自动发现方法 | |
CN110929110B (zh) | 一种电子文档检测方法、装置、设备及存储介质 | |
KR20150089741A (ko) | 전자메일 첨부파일 변환 시스템 및 그 제공방법 | |
US20140181528A1 (en) | File tamper detection | |
CN102117389A (zh) | Word文件签署方法及系统 | |
KR102113756B1 (ko) | 이미지 출처 확인을 통한 무단 사용 방지 시스템 | |
CN109726180A (zh) | 在无线存储物联网设备进行文件检索和监听的方法及装置 | |
JP2021047792A (ja) | 情報処理装置及びプログラム | |
EP1153352B1 (en) | Method of hidden text detection and use in electronic document approval | |
CN109409031B (zh) | 一种pdf文档隐私泄露防御方法及系统 | |
US9049330B2 (en) | Device configured to manage secure ingestion of documents into an information system, and methods for operating such a device | |
US20140053231A1 (en) | Streamlined security-level determination of an electronic document and selective release into an information system | |
CN111079375A (zh) | 一种信息整理的方法、装置、计算机存储介质及终端 | |
CN103490980B (zh) | 一种电子邮件中号码的提取方法及其装置 | |
KR100544375B1 (ko) | 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체 | |
CN101410785A (zh) | 产生XHTML-Print内容的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170908 |