CN109960608A - office文档的处理方法和处理系统 - Google Patents

office文档的处理方法和处理系统 Download PDF

Info

Publication number
CN109960608A
CN109960608A CN201711437846.1A CN201711437846A CN109960608A CN 109960608 A CN109960608 A CN 109960608A CN 201711437846 A CN201711437846 A CN 201711437846A CN 109960608 A CN109960608 A CN 109960608A
Authority
CN
China
Prior art keywords
document
office
file
xml format
office document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711437846.1A
Other languages
English (en)
Inventor
张婷
韩文奇
王小丰
肖新光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ahtech Network Safe Technology Ltd
Original Assignee
Beijing Ahtech Network Safe Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ahtech Network Safe Technology Ltd filed Critical Beijing Ahtech Network Safe Technology Ltd
Priority to CN201711437846.1A priority Critical patent/CN109960608A/zh
Publication of CN109960608A publication Critical patent/CN109960608A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/565Static detection by checking file integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Virology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了office文档的处理方法和处理系统,其中,office文档的处理方法包括:将office文档转换为压缩格式文件;对所述压缩格式文件提取xml格式的theme文件和document文件;备份所述xml格式的theme文件和document文件,以便在所述office文档被病毒加密时,通过所述xml格式的theme文件和document文件进行文档恢复。本发明具有如下优点:可以不依赖与任何Office组件便对Office文档直接进行解析;通过对改动之处进行差量备份,占用了最低的系统资源;根据文档相邻两次改动的差异度判断,间接反映文档是否被病毒备份,检测准确度高、检测速度快。

Description

office文档的处理方法和处理系统
技术领域
本发明涉及文档保护技术领域,具体涉及一种office文档的处理方法和处理系统。
背景技术
目前防勒索安全产品,均使用Office COM组件对Office的内容进行读取备份,目前的安全检查产品都使用了备份机制,但是采用了全文备份,势必会造成对磁盘空间的大量占用。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种office文档的处理方法,备份文件占用空间小。
为了实现上述目的,本发明的实施例公开了一种office文档的处理方法,包括以下步骤:将office文档转换为压缩格式文件;对所述压缩格式文件提取xml格式的theme文件和document文件;备份所述xml格式的theme文件和document文件,以便在所述office文档被病毒加密时,通过所述xml格式的theme文件和document文件进行文档恢复。
进一步地,还包括:检测所述office文档是否被改写;如果所述office文档被改写,则对所述office文档进行解压处理;如果无法对所述office进行所述解压处理,则认定所述office文档被病毒加密。
进一步地,还包括:当用户改写所述office文档时,将改动的内容进行差量备份。
进一步地,还包括:当所述office文档被改写时,读取最近一次备份的xml格式的document文件;比较当前的xml格式的document文件与所述最近一次备份的xml格式的document文件之间的差别是否大于预设差别阈值;如果是,则向所述用户进行提示。
进一步地,在向所述用户进行提示之后还包括:接收所述用户发出的恢复备份指令;根据所述恢复备份指令将当前的xml格式的document文件恢复为所述最近一次备份的xml格式的document文件。
根据本发明实施例的office文档的处理方法,利用Office文档的公开结构,可以不依赖与任何Office组件便对Office文档直接进行解析;通过对改动之处进行差量备份,使用户可以主动选择任何时间的备份,同时占用了最低的系统资源;根据文档相邻两次改动的差异度判断,间接反映文档是否被病毒备份,检测准确度高、检测速度快。
为此,本发明的第二个目的在于提出一种office文档的处理系统,备份文件占用空间小。
为了实现上述目的,本发明的实施例公开了一种office文档的处理系统,包括:转换模块,用于将将office文档转换为压缩格式文件;提取模块,用于对所述压缩格式文件提取xml格式的theme文件和document文件;备份模块,用于备份所述xml格式的theme文件和document文件,以便在所述office文档被病毒加密时,通过所述xml格式的theme文件和document文件进行文档恢复。
进一步地,还包括:检测模块,用于检测所述office文档是否被改写;解压处理模块,用于在所述office文档被改写时,对所述office文档进行解压处理,以在无法对所述office进行所述解压处理时,认定所述office文档被病毒加密。
进一步地,所述备份模块用于当用户改写所述office文档时,将改动的内容进行差量备份。
进一步地,还包括:读取模块,用于当所述office文档被改写时,读取最近一次备份的xml格式的document文件;比较模块,用于比较当前的xml格式的document文件与所述最近一次备份的xml格式的document文件之间的差别是否大于预设差别阈值;提示模块,用于在所述当前的xml格式的document文件与所述最近一次备份的xml格式的document文件之间的差别大于所述预设差别阈值时,进行提示。
进一步地,还包括:指令接收模块,用于接收所述用户发出的恢复备份指令;恢复模块,用于根据所述恢复备份指令将当前的xml格式的document文件恢复为所述最近一次备份的xml格式的document文件。
根据本发明实施例的office文档的处理系统,利用Office文档的公开结构,可以不依赖与任何Office组件便对Office文档直接进行解析;通过对改动之处进行差量备份,使用户可以主动选择任何时间的备份,同时占用了最低的系统资源;根据文档相邻两次改动的差异度判断,间接反映文档是否被病毒备份,检测准确度高、检测速度快。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的office文档的处理方法的流程图;
图2是本发明一个实施例的office文档的处理系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
以下结合附图描述本发明。
图1是本发明一个实施例的office文档的处理方法的流程图。如图1所示,本发明实施例的office文档的处理方法,包括以下步骤:
S1:将office文档转换为压缩格式文件。
示例性地,可以将office文档转换为RAR格式、JAR格式等压缩格式文件。在本文中,本领域人员可以理解,office文档包括word、excel等文档。
S2:对压缩格式文件提取xml格式的theme文件和document文件。
具体地,由于新版的Office文档均采用数据流的方式进行存储,而这种数据流实际上是以压缩的形式进行存储的。而本系统正是利用上述的原因,直接将Office文档当作压缩文件处理。从而将Office文档直接提取。以Word文档为例,可以将Office提取成如下文件夹如_rels、customXml、docProps、word文件夹等等。而我们主要需要备份word\theme\theme1.xml和word\document.xml。其中document.xml是word文档中真正的内容。
S3:备份xml格式的theme文件和document文件,以便在office文档被病毒加密时,通过xml格式的theme文件和document文件进行文档恢复。
具体地,当office文档被病毒加密时,无法打开该office文档。此时通过备份的xml格式的theme文件和document文件进行文档恢复,以保证用户可以继续使用office文档。
在本发明的一个实施例中,office文档的处理方法还包括:检测office文档是否被改写;如果office文档被改写,则对office文档进行解压处理;如果无法对office进行解压处理,则认定office文档被病毒加密。
在本发明的一个实施例中,office文档的处理方法还包括:当用户改写office文档时,将改动的内容进行差量备份。在一般的情况下,office文档的内容只会修改少量,或增添新的内容,很少会有从头到尾的更改,因此这种相似度对比能从根本上解决直接对文档内容加密的勒索行为。同时仅备份每次更改的差量,占用了最低的系统资源。
进一步地,当office文档被改写时,读取最近一次备份的xml格式的document文件;比较当前的xml格式的document文件与最近一次备份的xml格式的document文件之间的差别是否大于预设差别阈值,其中,预设差别阈值用于提供一个依据,以便用户判断最近一个更改的内容是否为用户主动对office文档的少许修改,还是被病毒攻击导致的大量修改;如果是,则向用户进行提示。其中,即使差别大于预设差别阈值,也有可能是客户主动进行的大量修改,通过在差别大于预设差别阈值时向用户进行提示,由用户判断office文档是否被病毒加密。
进一步地,在向用户进行提示之后还包括:接收用户发出的恢复备份指令;根据恢复备份指令将当前的xml格式的document文件恢复为最近一次备份的xml格式的document文件。
根据本发明实施例的office文档的处理方法,利用Office文档的公开结构,可以不依赖与任何Office组件便对Office文档直接进行解析;通过对改动之处进行差量备份,使用户可以主动选择任何时间的备份,同时占用了最低的系统资源;根据文档相邻两次改动的差异度判断,间接反映文档是否被病毒备份,检测准确度高、检测速度快。
图2是本发明一个实施例的office文档的处理系统的结构框图。如图2所示,本发明实施例的office文档的处理系统,包括转换模块210、提取模块220和备份模块230。
其中,转换模块210用于将将office文档转换为压缩格式文件。提取模块220用于对压缩格式文件提取xml格式的theme文件和document文件。备份模块230用于备份xml格式的theme文件和document文件,以便在office文档被病毒加密时,通过xml格式的theme文件和document文件进行文档恢复。
在本发明的一个实施例中,office文档的处理系统还包括检测模块和解压处理模块。其中,检测模块用于检测office文档是否被改写。解压处理模块用于在office文档被改写时,对office文档进行解压处理,以在无法对office进行解压处理时,认定office文档被病毒加密。
在本发明的一个实施例中,备份模块230用于当用户改写office文档时,将改动的内容进行差量备份。
在本发明的一个实施例中,office文档的处理系统还包括读取模块、比较模块和提示模块。其中,读取模块用于当office文档被改写时,读取最近一次备份的xml格式的document文件。比较模块用于比较当前的xml格式的document文件与最近一次备份的xml格式的document文件之间的差别是否大于预设差别阈值。提示模块用于在当前的xml格式的document文件与最近一次备份的xml格式的document文件之间的差别大于预设差别阈值时,进行提示。
在本发明的一个实施例中,office文档的处理系统还包括指令接收模块和恢复模块。其中,指令接收模块用于接收用户发出的恢复备份指令。恢复模块用于根据恢复备份指令将当前的xml格式的document文件恢复为最近一次备份的xml格式的document文件。
根据本发明实施例的office文档的处理系统,利用Office文档的公开结构,可以不依赖与任何Office组件便对Office文档直接进行解析;通过对改动之处进行差量备份,使用户可以主动选择任何时间的备份,同时占用了最低的系统资源;根据文档相邻两次改动的差异度判断,间接反映文档是否被病毒备份,检测准确度高、检测速度快。
需要说明的是,本发明实施例的office文档的处理系统的具体实施方式与本发明实施例的office文档的处理方法的具体方式类似,具体参见处理方法部分的描述,为了减少冗余,不做赘述。
另外,本发明实施例的office文档的处理方法和处理系统的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (10)

1.一种office文档的处理方法,其特征在于,包括以下步骤:
将office文档转换为压缩格式文件;
对所述压缩格式文件提取xml格式的theme文件和document文件;
备份所述xml格式的theme文件和document文件,以便在所述office文档被病毒加密时,通过所述xml格式的theme文件和document文件进行文档恢复。
2.根据权利要求1所述的office文档的处理方法,其特征在于,还包括:
检测所述office文档是否被改写;
如果所述office文档被改写,则对所述office文档进行解压处理;
如果无法对所述office进行所述解压处理,则认定所述office文档被病毒加密。
3.根据权利要求1所述的office文档的处理方法,其特征在于,还包括:
当用户改写所述office文档时,将改动的内容进行差量备份。
4.根据权利要求3所述的office文档的处理方法,其特征在于,还包括:
当所述office文档被改写时,读取最近一次备份的xml格式的document文件;
比较当前的xml格式的document文件与所述最近一次备份的xml格式的document文件之间的差别是否大于预设差别阈值;
如果是,则向所述用户进行提示。
5.根据权利要求4所述的office文档的处理方法,其特征在于,在向所述用户进行提示之后还包括:
接收所述用户发出的恢复备份指令;
根据所述恢复备份指令将当前的xml格式的document文件恢复为所述最近一次备份的xml格式的document文件。
6.一种office文档的处理系统,其特征在于,包括:
转换模块,用于将将office文档转换为压缩格式文件;
提取模块,用于对所述压缩格式文件提取xml格式的theme文件和document文件;
备份模块,用于备份所述xml格式的theme文件和document文件,以便在所述office文档被病毒加密时,通过所述xml格式的theme文件和document文件进行文档恢复。
7.根据权利要求6所述的office文档的处理系统,其特征在于,还包括:
检测模块,用于检测所述office文档是否被改写;
解压处理模块,用于在所述office文档被改写时,对所述office文档进行解压处理,以在无法对所述office进行所述解压处理时,认定所述office文档被病毒加密。
8.根据权利要求6所述的office文档的处理系统,其特征在于,所述备份模块用于当用户改写所述office文档时,将改动的内容进行差量备份。
9.根据权利要求8所述的office文档的处理方法,其特征在于,还包括:
读取模块,用于当所述office文档被改写时,读取最近一次备份的xml格式的document文件;
比较模块,用于比较当前的xml格式的document文件与所述最近一次备份的xml格式的document文件之间的差别是否大于预设差别阈值;
提示模块,用于在所述当前的xml格式的document文件与所述最近一次备份的xml格式的document文件之间的差别大于所述预设差别阈值时,进行提示。
10.根据权利要求9所述的office文档的处理方法,其特征在于,还包括:
指令接收模块,用于接收所述用户发出的恢复备份指令;
恢复模块,用于根据所述恢复备份指令将当前的xml格式的document文件恢复为所述最近一次备份的xml格式的document文件。
CN201711437846.1A 2017-12-26 2017-12-26 office文档的处理方法和处理系统 Pending CN109960608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711437846.1A CN109960608A (zh) 2017-12-26 2017-12-26 office文档的处理方法和处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711437846.1A CN109960608A (zh) 2017-12-26 2017-12-26 office文档的处理方法和处理系统

Publications (1)

Publication Number Publication Date
CN109960608A true CN109960608A (zh) 2019-07-02

Family

ID=67022665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711437846.1A Pending CN109960608A (zh) 2017-12-26 2017-12-26 office文档的处理方法和处理系统

Country Status (1)

Country Link
CN (1) CN109960608A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928837A (zh) * 2019-12-02 2020-03-27 胥攀 文件修复方法、系统、移动终端及存储介质
CN111209723A (zh) * 2020-01-13 2020-05-29 中孚安全技术有限公司 一种解析Office二进制格式并提取文档属性文字的方法及系统
CN113128178A (zh) * 2019-12-31 2021-07-16 安徽佰通教育科技发展有限公司 一种通过xml文档对office文件解析的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096787A (zh) * 2009-12-14 2011-06-15 湖南大学 一种基于word2007文本切分的信息隐藏方法及其装置
CN102651057A (zh) * 2011-02-27 2012-08-29 孙星明 一种基于ooxml的电子文档数字取证方法及其装置
US9021332B2 (en) * 2012-12-11 2015-04-28 Seagate Technology Llc Flash memory read error recovery with soft-decision decode
CN105117235A (zh) * 2015-09-18 2015-12-02 四川效率源信息安全技术股份有限公司 一种重组Office文件的方法
CN105528263A (zh) * 2015-12-10 2016-04-27 北京金山安全管理系统技术有限公司 一种文档修复方法和装置
CN106681969A (zh) * 2016-12-30 2017-05-17 珠海市彦安科技有限公司 一种修复损坏文档的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096787A (zh) * 2009-12-14 2011-06-15 湖南大学 一种基于word2007文本切分的信息隐藏方法及其装置
CN102651057A (zh) * 2011-02-27 2012-08-29 孙星明 一种基于ooxml的电子文档数字取证方法及其装置
US9021332B2 (en) * 2012-12-11 2015-04-28 Seagate Technology Llc Flash memory read error recovery with soft-decision decode
CN105117235A (zh) * 2015-09-18 2015-12-02 四川效率源信息安全技术股份有限公司 一种重组Office文件的方法
CN105528263A (zh) * 2015-12-10 2016-04-27 北京金山安全管理系统技术有限公司 一种文档修复方法和装置
CN106681969A (zh) * 2016-12-30 2017-05-17 珠海市彦安科技有限公司 一种修复损坏文档的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
万希宁: "《财务与会计信息化实用教程》", 28 February 2003 *
李子川: "基于Office Open XML格式文件的电子取证方法研究", 《警察技术》 *
李淑芳: "《电算化会计原理及应用》", 31 January 2015 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928837A (zh) * 2019-12-02 2020-03-27 胥攀 文件修复方法、系统、移动终端及存储介质
CN113128178A (zh) * 2019-12-31 2021-07-16 安徽佰通教育科技发展有限公司 一种通过xml文档对office文件解析的方法
CN111209723A (zh) * 2020-01-13 2020-05-29 中孚安全技术有限公司 一种解析Office二进制格式并提取文档属性文字的方法及系统

Similar Documents

Publication Publication Date Title
US8839446B2 (en) Protecting archive structure with directory verifiers
US20090187546A1 (en) Method, System and Computer Program Product for Duplicate Detection
CN109960608A (zh) office文档的处理方法和处理系统
CN105376277B (zh) 一种数据同步方法及装置
KR101727860B1 (ko) 문서 파일의 복구 장치 및 그 방법
CN104615504A (zh) 一种实现数据保护的方法及装置
CN104077380A (zh) 一种重复数据删除方法、装置及系统
CN103186598A (zh) 文件处理方法及系统
CN104239438A (zh) 基于分离存储的文件信息存储方法和文件信息读写方法
US9311189B2 (en) Method and device for inputting data in multimedia service database on embedded device
CN103365766A (zh) 一种文件完整性保护的方法和系统
SG181959A1 (en) System event logging system
CN103713972A (zh) 一种增量备份系统和方法
Vieyra et al. Solid state drive forensics: Where do we stand?
CN102622281A (zh) 智能终端及其数据备份和恢复的方法
US20140337301A1 (en) Big data extraction system and method
CN106155570A (zh) 一种存储介质的信息消除技术
CN104361297B (zh) 一种基于Linux操作系统的文件加解密方法
CN102799503A (zh) 一种应用于大量小文件的恢复方法
CN103455391B (zh) 一种动态调整的数据保护的装置和方法
CN106708960A (zh) 一种nas设备文件系统的修复方法及nas设备
CN100507864C (zh) 基于立即还原型硬盘保护卡的数据保护及还原方法
CN106980618A (zh) 基于MongoDB分布式集群架构的文件存储方法和系统
CN102314476A (zh) 复制装置、复制方法、存储器介质和程序
CN104615948A (zh) 一种自动识别文件完整性与恢复的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190702