CN107145801A - 一种后缀名遭篡改的涉密文件自动发现方法 - Google Patents

一种后缀名遭篡改的涉密文件自动发现方法 Download PDF

Info

Publication number
CN107145801A
CN107145801A CN201710281781.XA CN201710281781A CN107145801A CN 107145801 A CN107145801 A CN 107145801A CN 201710281781 A CN201710281781 A CN 201710281781A CN 107145801 A CN107145801 A CN 107145801A
Authority
CN
China
Prior art keywords
electronic document
file
type
series
byte
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710281781.XA
Other languages
English (en)
Inventor
傅如毅
陈旭
郦鑫
段守超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yuanwang Information Co Ltd
Original Assignee
Zhejiang Yuanwang Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Yuanwang Information Co Ltd filed Critical Zhejiang Yuanwang Information Co Ltd
Priority to CN201710281781.XA priority Critical patent/CN107145801A/zh
Publication of CN107145801A publication Critical patent/CN107145801A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持。本发明一种后缀名遭篡改的涉密文件自动发现方法,基于不同格式电子文档都有其自己独特的存储方式,通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改的方式,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,进而实现涉密文件自动检测发现。

Description

一种后缀名遭篡改的涉密文件自动发现方法
【技术领域】
本发明涉及文件信息安全的技术领域,特别涉及一种后缀名遭篡改的涉密文件自动发现方法。
【背景技术】
互联网信息的飞速发展,给人们的生活带来方便快捷,但也随着信息化发展的不断深入,导致信息存在越来越多的安全隐患。目前,社会工作都在计算机和互联网上进行,内容及信息都以电子文档的格式存在,一旦计算机遭受病毒电子文档后缀名被篡改,就会导致电子文档无法打开,也容易导致重要文件和涉密文件丢失、泄漏,存在信息安全隐患。为了解决以上问题,有必要提出一种后缀名遭篡改的涉密文件自动发现方法,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,电子文档后缀篡改识别,是指针对电子文档后缀删除或修改后,通过分析电子文档内部结构识别出真实文档类型,进而实现涉密文件自动检测发现。
【发明内容】
本发明的目的在于克服上述现有技术的不足,提供一种后缀名遭篡改的涉密文件自动发现方法,其旨在解决现有技术中电子文件被篡改,就会导致电子文档无法打开,也容易导致重要文件和涉密文件丢失、泄漏,存在信息安全隐患的技术问题。
为实现上述目的,本发明提出了一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,具体步骤如下:
S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2;
S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4;
S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPS Office系列文档类型或Microsoft Office97-2003系列文档类型,当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出具体所属类型,并转至步骤S7;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,并转至步骤S7;若既不属于WPS Office系列文档类型也不属于Microsoft Office97-2003系列文档类型,则转至步骤S4;
S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5;
S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6;
S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识别;
S7、将后缀名被删除或篡改的文件,还原为真实后缀名,然后进入步骤S8;
S8、执行文件内容检索,并判断是否为涉密文件,并结束扫描识别。
作为优选,所述的步骤S3中当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出的具体所属类型为wps、et、ett、dpt或dps文件;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出的电子文档具体所属类型为doc、xls、ppt或pps文件。
作为优选,所述的步骤S4中若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出的电子文档具体所属类型为docx、xlsx、pptx或ppsx文件。
作为优选,所述的步骤S5的具体步骤如下:
1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征,若满足则识别为.jfif、.jpg、.jpeg文件类型,并转至步骤S7;若不满足则转至步骤2);
2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征,若满足则识别为.bmp、.dib文件类型,并转至步骤S7;若不满足则转至步骤3);
3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征,若满足则识别为.GIF文件类型,并转至步骤S7;若不满足则转至步骤4);
4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征,若满足则识别为.png文件类型,并转至步骤S7;若不满足则转至步骤5);
5)判断电子文档头部5位字节中是否满足pdf格式类型图片文件的字节特征,若满足则识别为.pdf文件类型,并转至步骤S7;若不满足则转至步骤S6。
本发明的有益效果:与现有技术相比,本发明提供的一种后缀名遭篡改的涉密文件自动发现方法,其基于在终端设备上部署一个终端应用程序,利用应用程序对终端计算机操作系统中电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,不同格式电子文档都有其自己独特的存储方式,可通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,进而实现涉密文件自动检测发现。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明实施例一种后缀名遭篡改的涉密文件自动发现方法的流程图。
【具体实施方式】
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明实施例提供一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,具体步骤如下:
S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2。
S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4。
S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPS Office系列文档类型或Microsoft Office97-2003系列文档类型,当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出具体所属类型,判定为wps、et、ett、dpt或dps文件,并转至步骤S7;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,判定为doc、xls、ppt或pps文件,并转至步骤S7;若既不属于WPS Office系列文档类型也不属于Microsoft Office97-2003系列文档类型,则转至步骤S4。
S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,判定为docx、xlsx、pptx或ppsx文件,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5。
S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6。
其中,步骤S5的具体步骤如下:
1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征,若满足则识别为.jfif、.jpg、.jpeg文件类型,并转至步骤S7;若不满足则转至步骤2)。
2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征,若满足则识别为.bmp、.dib文件类型,并转至步骤S7;若不满足则转至步骤3)。
3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征,若满足则识别为.GIF文件类型,并转至步骤S7;若不满足则转至步骤4)。
4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征,若满足则识别为.png文件类型,并转至步骤S7;若不满足则转至步骤5)。
5)判断电子文档头部5位字节中是否满足pdf格式类型图片文件的字节特征,若满足则识别为.pdf文件类型,并转至步骤S7;若不满足则转至步骤S6。
S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识别。
S7、将后缀名被删除或篡改的文件,还原为真实后缀名,然后进入步骤S8。
S8、执行文件内容检索,并判断是否为涉密文件,并结束扫描识别。
本发明一种后缀名遭篡改的涉密文件自动发现方法,基于不同格式电子文档都有其自己独特的存储方式,通过分类分析电子文档内部存储结构方式分析识别出文档后缀是否修改的方式,在终端设备上部署一个终端应用程序,利用应用程序对终端计算机操作系统中电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,依靠电子文档特殊结构分析技术,实现对电子文档后缀篡改分析,并识别电子文档真实的文件类型,进而实现涉密文件自动检测发现,防止重要文件和涉密文件丢失、泄漏,加强了信息安全。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种后缀名遭篡改的涉密文件自动发现方法,其基于不同格式电子文档都有其独特存储方式的原理,采用在终端设备上部署一个终端应用程序,利用终端应用程序对终端设备操作系统中的电子文档进行扫描并识别,实现文件后缀名删除或篡改情况下的文件内容检索支持,其特征在于:具体步骤如下:
S1、启动终端应用程序,终端应用程序对终端设备操作系统中的电子文档进行逐一扫描并识别,判断电子文档是否属于正规文档后缀格式,若属于则直接进入步骤S8;若不属于则进入步骤S2;
S2、判断电子文档头部8位字节是否满足Office97-2003系列文档或金山系列办公文档特征,若满足则转至步骤S3;若不满足则转至步骤S4;
S3、进一步根据电子文档内容中所含字节标记,判断电子文档属于WPS Office系列文档类型或Microsoft Office97-2003系列文档类型,当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出具体所属类型,并转至步骤S7;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出电子文档具体所属类型,并转至步骤S7;若既不属于WPS Office系列文档类型也不属于Microsoft Office97-2003系列文档类型,则转至步骤S4;
S4、判断电子文档头部60位字节中是否存在Office2007系列文档特征,若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出电子文档具体所属类型,并转至步骤S7;若不存在Office2007系列文档特征则转至步骤S5;
S5、判断电子文档头部是否满足不同类型图片文件的字节特征,若满足,则进一步识别出具体图片文件类型,并转至步骤S7;若不满足,则转至步骤S6;
S6、判断文件头部4位字节是否满足pdf文件类型字节特征,若满足,则识别为pdf文件类型,并转至步骤S7;若不满足,则确定该电子文档不可识别,并结束扫描识别;
S7、将后缀名被删除或篡改的文件,还原为真实后缀名,然后进入步骤S8;
S8、执行文件内容检索,并判断是否为涉密文件,并结束扫描识别。
2.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法,其特征在于:所述的步骤S3中当电子文档属于WPS Office系列文档类型,根据所含字节标记字段识别出的具体所属类型为wps、et、ett、dpt或dps文件;当电子文档属于Microsoft Office97-2003系列文档类型,根据所含字节标记识别出的电子文档具体所属类型为doc、xls、ppt或pps文件。
3.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法,其特征在于:所述的步骤S4中若存在Office2007系列文档特征则根据电子文档内容中所含的特定标识字段识别出的电子文档具体所属类型为docx、xlsx、pptx或ppsx文件。
4.如权利要求1所述的一种后缀名遭篡改的涉密文件自动发现方法,其特征在于:所述的步骤S5的具体步骤如下:
1)判断电子文档头部10位字节中是否满足jfif、jpg、jpeg格式类型图片文件的字节特征,若满足则识别为.jfif、.jpg、.jpeg文件类型,并转至步骤S7;若不满足则转至步骤2);
2)判断电子文档头部2位字节中是否满足bmp、dib格式类型图片文件的字节特征,若满足则识别为.bmp、.dib文件类型,并转至步骤S7;若不满足则转至步骤3);
3)判断电子文档头部4位字节中是否满足tif格式类型图片文件的字节特征,若满足则识别为.GIF文件类型,并转至步骤S7;若不满足则转至步骤4);
4)判断电子文档头部4位字节中是否满足png格式类型图片文件的字节特征,若满足则识别为.png文件类型,并转至步骤S7;若不满足则转至步骤5);
5)判断电子文档头部5位字节中是否满足pdf格式类型图片文件的字节特征,若满足则识别为.pdf文件类型,并转至步骤S7;若不满足则转至步骤S6。
CN201710281781.XA 2017-04-26 2017-04-26 一种后缀名遭篡改的涉密文件自动发现方法 Pending CN107145801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710281781.XA CN107145801A (zh) 2017-04-26 2017-04-26 一种后缀名遭篡改的涉密文件自动发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710281781.XA CN107145801A (zh) 2017-04-26 2017-04-26 一种后缀名遭篡改的涉密文件自动发现方法

Publications (1)

Publication Number Publication Date
CN107145801A true CN107145801A (zh) 2017-09-08

Family

ID=59773809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710281781.XA Pending CN107145801A (zh) 2017-04-26 2017-04-26 一种后缀名遭篡改的涉密文件自动发现方法

Country Status (1)

Country Link
CN (1) CN107145801A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614375A (zh) * 2018-12-03 2019-04-12 安徽机电职业技术学院 一种基于个人计算机的数据存储系统
CN110134644A (zh) * 2019-05-17 2019-08-16 成都卫士通信息产业股份有限公司 文件类型识别方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763394A (zh) * 2009-12-31 2010-06-30 傅如毅 计算机系统涉密文件搜索方法
CN101795230A (zh) * 2010-02-23 2010-08-04 西安交通大学 一种网络流量还原方法
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN102768676A (zh) * 2012-06-14 2012-11-07 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763394A (zh) * 2009-12-31 2010-06-30 傅如毅 计算机系统涉密文件搜索方法
CN101795230A (zh) * 2010-02-23 2010-08-04 西安交通大学 一种网络流量还原方法
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN102768676A (zh) * 2012-06-14 2012-11-07 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张润峰: "基于特征标识的文件类型识别与匹配", 《计算机安全》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614375A (zh) * 2018-12-03 2019-04-12 安徽机电职业技术学院 一种基于个人计算机的数据存储系统
CN109614375B (zh) * 2018-12-03 2022-06-24 安徽机电职业技术学院 一种基于个人计算机的数据存储系统
CN110134644A (zh) * 2019-05-17 2019-08-16 成都卫士通信息产业股份有限公司 文件类型识别方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
US11704384B2 (en) Secure document sharing
US7757162B2 (en) Document collection manipulation
US20190158518A1 (en) Resisting the spread of unwanted code and data
US8504907B2 (en) Generating page and document logs for electronic documents
US20160171242A1 (en) System, method, and compuer program product for preventing image-related data loss
US11677783B2 (en) Analysis of potentially malicious emails
US20120026081A1 (en) System and method for using paper as an interface to computer applications
CN103530558A (zh) 对阻止有害代码和数据扩散的改进
CN104361293A (zh) 一种纸质防伪文件生成和辨别的方法及装置
CN107145801A (zh) 一种后缀名遭篡改的涉密文件自动发现方法
CN110929110B (zh) 一种电子文档检测方法、装置、设备及存储介质
KR20150089741A (ko) 전자메일 첨부파일 변환 시스템 및 그 제공방법
US20140181528A1 (en) File tamper detection
CN102117389A (zh) Word文件签署方法及系统
KR102113756B1 (ko) 이미지 출처 확인을 통한 무단 사용 방지 시스템
CN109726180A (zh) 在无线存储物联网设备进行文件检索和监听的方法及装置
JP2021047792A (ja) 情報処理装置及びプログラム
EP1153352B1 (en) Method of hidden text detection and use in electronic document approval
CN109409031B (zh) 一种pdf文档隐私泄露防御方法及系统
US9049330B2 (en) Device configured to manage secure ingestion of documents into an information system, and methods for operating such a device
US20140053231A1 (en) Streamlined security-level determination of an electronic document and selective release into an information system
CN111079375A (zh) 一种信息整理的方法、装置、计算机存储介质及终端
CN103490980B (zh) 一种电子邮件中号码的提取方法及其装置
KR100544375B1 (ko) 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체
CN101410785A (zh) 产生XHTML-Print内容的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170908