CN1710545A - 受损Word文件修复方法 - Google Patents

受损Word文件修复方法 Download PDF

Info

Publication number
CN1710545A
CN1710545A CN 200510027577 CN200510027577A CN1710545A CN 1710545 A CN1710545 A CN 1710545A CN 200510027577 CN200510027577 CN 200510027577 CN 200510027577 A CN200510027577 A CN 200510027577A CN 1710545 A CN1710545 A CN 1710545A
Authority
CN
China
Prior art keywords
word
file
word file
injured
embedded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510027577
Other languages
English (en)
Inventor
李生红
王强民
李建华
祝佳
付二社
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN 200510027577 priority Critical patent/CN1710545A/zh
Publication of CN1710545A publication Critical patent/CN1710545A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息安全领域的受损Word文件修复方法,步骤如下:首先,对发生损坏待修复的Word文件进行智能化的存储流定位;然后,对各个存储流进行信息提取,从而获得正文文本、内嵌图像、内嵌公式,并进行适当的格式转换,得到临时文件;最后,将各临时文件合并生成可用的Word文件。本发明提出了存储流智能定位技术等数据识别定位技术以及正文文本、内嵌图像公式提取等的信息内容提取和转换技术,并且采用了高效的基于COM的文件写回生成技术。与已有的相关技术相比,提高了文件修复的性能,扩大了可修复文件的范围。

Description

受损Word文件修复方法
技术领域
本发明涉及的是一种信息技术领域的方法,具体是一种受损Word文件修复方法。
背景技术
Word文件是目前办公自动化中经常使用的电子文档文件。然而,互联网络和计算机系统存在着媒体介质和系统运行的不确定性、网络下载的不稳定性,以及计算机病毒的干扰等诸多隐患,直接威胁着这些文件的完整性和可用性。常有Word文件在系统中可见,却无法被正常打开使用的情形。因此,对于损坏的Word文件进行修复已成为信息安全领域中迫切需要解决的问题。
目前,Word文件修复手段主要分为两大类:Word软件自带的修复功能选项和商业化的专门修复软件。微软的Word软件附带了损坏文件修复的选项,并会在文件无法打开时自动提醒用户选择该功能。该功能通过技术和管理的手段对于文件无法打开或文件损坏的情况进行一定程度上的修复处理,但总体上存在着明显的不足。根据Microsoft Word的说明手册可知,Word程序提供三种不同模式的Word.doc格式文件修复:第一种是在文件打开时选择“打开并修复”,其结果是Word程序将会试图修复.doc文件;第二种是在打开文件是选择“从任意文件中恢复文本”,这样可以命令Word程序将文件中的正文文本读出;第三种是依靠Word程序的自动更新保存功能,在程序非正常退出后,恢复文件至上一次自动存盘点的内容。不过,从实际使用情况来看,第一种方法对于大多数的有字节缺损、增添或错位所造成的文件损坏修复效果不理想;第二种方法属于比较单纯的文本恢复技术,即从文件中表示文本开始的位置起顺序读取二进制信息,这对于文件头的部分字节缺失或增添的损坏现象是无能为力的。第三种方法更偏向于备份管理手段,对于已经损坏的文件本身的修复不具有任何建设性的意义。此外,这三种方法都属于软件专有的功能,其代码和接口并不对外公开。
经过对已经商业化的Word文件修复软件的使用情况发现,总体修复质量不能令人满意,且普遍对含有中文的Word文件修复支持较差。如由Cimaware公司推出的WordFix软件,可以批处理或单个修复受损程度较轻的Word文件,但对于文件头部发生字节缺损或增添的情况修复效果很一般。
经对现有技术文献的检索发现,中国专利申请号为:03130660.8,名称为“一种计算机操作系统的修复方法”该技术自述为:方法至少包括以下步骤:a.预先在硬盘的HPA区备份所有与启动计算机有关的信息;b.在硬盘的HPA中设置自检模块,并在计算机的BIOS中增设用以调用自检模块的命令;c.计算机由硬盘引导启动时,由BIOS调用自检模块,并由自检模块判断所有与启动计算机有关的信息是否被破坏,如果是,则对损坏部分进行修复后启动计算机,否则直接启动计算机。但是该专利修复对象不是损坏的WORD文件,而是对OS引导程序文件、硬盘引导信息、分区表信息和引导分区中引导扇区中的受损信息进行检查并修复,不适用于对Word文件的修复。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种受损Word文件的修复方法,使其能够对各种损坏程度的Word文件进行最大程度的修复,并生成为可用的Word文件。
本发明是通过以下技术方案实现的,本发明步骤如下:
(1)对发生损坏待修复的Word文件进行智能化的存储流定位。
Word文件的内容通过顺序相连的多个存储流分类进行存储。例如,正文文本存储于主存储流(Main Stream)中,图像存储于数据流(Data Stream)中,等等。智能化的存储流定位技术是指通过设定偏移量的方法,对于待修复Word文件中各个存储流的实际开始位置进行偏移量估计和核对,从而确定存储流的起讫范围。该技术基于Word文件自身的格式和存储特点,充分考虑到了软损坏Word文件所可能出现的字节的缺失、增添或错误现象,可以根据各个存储流的特殊标记进行存储流的精确定位。
(2)对各个存储流进行信息提取,从而获得正文文本、内嵌图像、内嵌公式等要素,并进行适当的格式转换,得到临时文件。
这里的存储流信息提取和格式转换技术包括Word正文文本提取和转换技术,Word内嵌多格式图像提取技术,以及Word内嵌公式提取和转换技术。
Word正文文本提取和转换技术是指在Word文件的主存储流(Main Stream)中抽取正文文本文字,并将之转换为GB2312编码格式存储至临时文件。并且,这些临时文件应能通过一般的文字软件正常地打开预览或编辑。
Word内嵌多格式图像提取技术是指在Word文件的数据流(Data Stream)中抽取内嵌图像的格式和图像数据信息,然后根据格式将图像数据存储为相应文件后缀名的临时文件。并且,这些临时文件应能通过一般的图像处理软件正常地打开预览或编辑。所支持的图像格式包括JPG,GIF,BMP,PNG。
Word内嵌公式提取和转换技术是指在Word文件的数据流(Data Stream)中抽取内嵌公式的数据信息,然后通过已知的Inflate解压缩算法将被压缩存储于Word文件内的公式数据解压后存放于后缀名为.wmf,.emf,或PICT格式的临时文件。并且,这些临时文件应能通过一般的数学公式软件正常地打开预览或编辑。
(3)利用已有的COM技术将各临时文件合并生成可用的Word文件。
新生成的Word文件包含临时文件中的所有文本、图像和公式数据,可以通过Microsoft Word软件(Word97或更高版本)正常地打开预览或编辑。
本发明具有实质性特点和显著进步,本发明方法基于文件受损的模型,采用存储流智能定位、存储流信息提取和转换、COM技术等关键技术。对受损Word文件的修复水平达到并超过了现有其他技术或软件产品的性能,可以适用于不同损坏程度的Word文件的最大程度的修复。
具体实施方式
结合本发明的内容提供以下实施例:
基于本发明方法开发了Word文件软损坏修复系统,该系统主要包括正文文本提取模块、内嵌图像提取模块、内嵌公式提取模块、Word文档生成模块和二次修复模块。
首先,对于发生损坏的Word文件,分别调用正文文本提取模块、内嵌图像提取模块和内嵌公式提取模块,进行各个存储流的智能定位,并将文件中的文本、图像和公式信息加以提取,并经过适当的转换后存入临时文件。
然后,调用Word文档生成模块,通过COM技术调用Microsoft Word软件的VBA命令,完成文本、图像和公式的写回,并最终生成可用的Word文件。
最后,根据用户的反馈进行局部的二次修复。二次修复主要包括:受损图像文件的专门修复,以及对于损坏程度较为严重的Word文件实施强制性的文本修复,尽可能地修复其文本信息。
通过对系统进行的性能测试表明,本发明在Word文件软损坏修复方面具有高效性和实用性。修复效果达到并超过了现有的其他技术的水平。

Claims (7)

1、一种受损Word文件修复方法,其特征在于,步骤如下:
(1)对发生损坏待修复的Word文件进行智能化的存储流定位;
(2)对各个存储流进行信息提取,从而获得正文文本、内嵌图像、内嵌公式,并进行格式转换,得到临时文件;
(3)利用已有的COM技术将各临时文件合并生成可用的Word文件,完成修复。
2、根据权利要求1所述的受损Word文件修复方法,其特征是,步骤(1)中,智能化的存储流定位通过设定偏移量的方法,结合Word文件的存储格式,对于待修复Word文件中各个存储流的实际开始位置进行偏移量估计和核对,从而确定存储流的起讫范围。
3、根据权利要求1所述的受损Word文件修复方法,其特征是,步骤(2)中,存储流信息提取技术包括Word正文文本提取和转换技术、Word内嵌多格式图像提取技术和Word内嵌公式提取和转换技术。
4、根据权利要求3所述的受损Word文件修复方法,其特征是,Word正文文本提取和转换技术是指:在Word文件的主存储流中抽取正文文本文字,并将之转换为GB2312编码格式存储至临时文件,并且,这些临时文件应能通过一般的文字软件正常地打开预览或编辑。
5、根据权利要求3所述的受损Word文件修复方法,其特征是,Word内嵌多格式图像提取技术是指:在Word文件的数据流中抽取内嵌图像的格式和图像数据信息,然后根据格式将图像数据存储为相应文件后缀名的临时文件,并且,这些临时文件应能通过一般的图像处理软件正常地打开预览或编辑,所支持的图像格式包括JPG,GIF,BMP,PNG。
6、根据权利要求3所述的这种受损Word文件修复方法,其特征是,Word内嵌公式提取和转换技术是指在Word文件的数据流中抽取内嵌公式的数据信息,然后通过已知的Inflate解压缩算法将被压缩存储于Word文件内的公式数据解压后存放于后缀名为.wwf,.emf,或PICT格式的临时文件。并且,这些临时文件应能通过一般的数学公式软件正常地打开预览或编辑。
7、根据权利要求1所述的这种受损Word文件修复方法,其特征是,新生成的Word文件包含临时文件中的所有文本、图像和公式数据,通过Microsoft Word软件正常地打开预览或编辑。
CN 200510027577 2005-07-07 2005-07-07 受损Word文件修复方法 Pending CN1710545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510027577 CN1710545A (zh) 2005-07-07 2005-07-07 受损Word文件修复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510027577 CN1710545A (zh) 2005-07-07 2005-07-07 受损Word文件修复方法

Publications (1)

Publication Number Publication Date
CN1710545A true CN1710545A (zh) 2005-12-21

Family

ID=35706791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510027577 Pending CN1710545A (zh) 2005-07-07 2005-07-07 受损Word文件修复方法

Country Status (1)

Country Link
CN (1) CN1710545A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824788A (zh) * 2016-03-18 2016-08-03 天津城建大学 一种将演示文稿文件转换为word文件的方法和系统
CN106681969A (zh) * 2016-12-30 2017-05-17 珠海市彦安科技有限公司 一种修复损坏文档的方法
CN107015867A (zh) * 2017-04-06 2017-08-04 安徽国防科技职业学院 一种高效数据处理服务器系统
CN109614375A (zh) * 2018-12-03 2019-04-12 安徽机电职业技术学院 一种基于个人计算机的数据存储系统
CN111274579A (zh) * 2020-01-15 2020-06-12 湖北工程学院 一种基于计算机的企业文档加密防护系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824788A (zh) * 2016-03-18 2016-08-03 天津城建大学 一种将演示文稿文件转换为word文件的方法和系统
CN106681969A (zh) * 2016-12-30 2017-05-17 珠海市彦安科技有限公司 一种修复损坏文档的方法
CN107015867A (zh) * 2017-04-06 2017-08-04 安徽国防科技职业学院 一种高效数据处理服务器系统
CN109614375A (zh) * 2018-12-03 2019-04-12 安徽机电职业技术学院 一种基于个人计算机的数据存储系统
CN109614375B (zh) * 2018-12-03 2022-06-24 安徽机电职业技术学院 一种基于个人计算机的数据存储系统
CN111274579A (zh) * 2020-01-15 2020-06-12 湖北工程学院 一种基于计算机的企业文档加密防护系统

Similar Documents

Publication Publication Date Title
US7805631B2 (en) Bare metal recovery from backup media to virtual machine
US8566080B2 (en) Method and system for processing text
CN1710545A (zh) 受损Word文件修复方法
CN106598785A (zh) 文件系统备份与还原的方法及装置
CN101770446A (zh) 一种版式文件中表格识别方法及系统
JP6720788B2 (ja) ログ管理装置及びログ管理プログラム
CN101558405A (zh) 将主机系统数据库转换为开放系统数据库的转换装置和方法
CN106681969A (zh) 一种修复损坏文档的方法
EP2428895A1 (en) Key information area in file system maintaining method and apparatus
CN1920788A (zh) 一种计算机系统或数据的恢复方法
CN108959200A (zh) 一种提取ppt文档中的图片的方法及系统
CN103838645B (zh) 一种基于哈希的远程差异合成备份实现方法
CN107122424B (zh) 一种关系数据库日志抽取方法
CN102298546B (zh) 从磁盘上恢复被删除的jpg文件的方法及系统
CN104965835A (zh) 一种分布式文件系统的文件读写方法及装置
CN102073554B (zh) 一种文件异常关闭的恢复方法和装置
CN107515801A (zh) 一种基于关系型数据库的数据自动修复方法
CN103207916A (zh) 元数据处理的方法和装置
CN101340675A (zh) 一种实现移动终端备份和恢复的方法及装置
Lee et al. Detecting duplicates among symbolically compressed images in a large document database
CN109960608A (zh) office文档的处理方法和处理系统
JP2001101049A (ja) ファイル復元装置
CN100405322C (zh) 利用usb随身碟启动作业系统及进行测试的方法
CN101118506A (zh) 档案系统的备份与恢复方法
CN103942186A (zh) 一种管理文档的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication