CN103902514A

CN103902514A - 一种Word格式提取及再利用方法

Info

Publication number: CN103902514A
Application number: CN201410135907.9A
Authority: CN
Inventors: 柯海丰; 张高燕; 陈佳宁; 何瓣; 宋�莹
Original assignee: Zhejiang University City College ZUCC
Current assignee: Zhejiang University City College ZUCC
Priority date: 2014-04-04
Filing date: 2014-04-04
Publication date: 2014-07-02

Abstract

本发明公开了一种Word格式提取及再利用方法，包括如下步骤：第一步，Word文档分解树节点；第二步，形成xml文档；第三步，与用户所交的文档按照规则匹配；第四步，判定这一节点是否匹配成功；如是则进入第五步；如否则查找并提示错误进入下一节点，然后再回到第四步；第五步，判断是否为尾节点；如是则结束；如否则进入下一节点，然后再回到第四步。本发明的有益效果是：系统的模块具有独立性，系统把文档数据的输入、处理和输出分开，各层负责不同的任务和功能实现，实现良好的松耦合特性。此外系统的模块还具有通用性，因为XML使用一种易适配、易转换的通用数据格式，所以各个模块转换和传递的数据都有统一的格式。

Description

一种Word格式提取及再利用方法

技术领域

本发明涉及一种提取及再利用方法，更具体说，它涉及一种Word格式提取及再利用方法。

背景技术

Microsoft Word是微软公司的一个文字处理应用程序，在办公自动化中，Microsoft Word得到了越来越多的应用。然而，在自动化办公应用非常广泛的今天，经常需要读取并甄别有用信息，如何成批、快速的实现对Word文档的提取利用，将直接影响到人们的办公效率。

发明内容

本发明的目的是克服现有技术中的不足，提供一种易适配、易转换提高效率的Word格式提取及再利用方法。

这种Word格式提取及再利用方法，包括如下步骤：

第一步，Word文档分解树节点；

第二步，形成xml文档；

第三步，与用户所交的文档按照规则匹配；

第四步，判定这一节点是否匹配成功；如是则进入第五步；如否则查找并提示错误进入下一节点，然后再回到第四步；

第五步，判断是否为尾节点；如是则结束；如否则进入下一节点，然后再回到第四步。

作为优选：所述第三步的规则为：

步骤一，读取节点为WordProcessingML中的proofErr节点；

步骤二，解析WordProcessingML提取proofErr节点；

步骤三，提示用户修改；

步骤四，进入下一结点。

作为优选：所述第三步的规则为：

步骤一，检查子节点属性；

步骤二，找出错误语句；

步骤三，调用标准xml文档；

步骤四，找到相应位置的r节点；

步骤五，将r节点下的t节点放入内存中进行合并。

步骤六，进入下一节点。

本发明的有益效果是：本发明通过XML和Office应用程序相结合，虽然它不能替代Word的功能，但在一定程度上可提高人们的工作效率，能够提取出文本的格式，并且加以储存。系统的模块具有独立性，系统把文档数据的输入、处理和输出分开，各层负责不同的任务和功能实现，实现良好的松耦合特性。此外系统的模块还具有通用性，因为XML使用一种易适配、易转换的通用数据格式，所以各个模块转换和传递的数据都有统一的格式。

附图说明

图1为本发明流程图；

图2为检查错别字流程图；

图3为检查格式错误流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步描述。虽然本发明将结合较佳实施例进行描述，但应知道，并不表示本发明限制在所述实施例中。相反，本发明将涵盖可包含在有附后权利要求书限定的本发明的范围内的替换物、改进型和等同物。

系统首先将提交的word标准文档分解成树节点，每一个单位子节点都可以设置匹配量词，是否贪婪匹配，子元素匹配模式（子元素以与的方式还是以或的方式匹配）和另外单独添加的匹配代码，遍历整体文档，形成XML文件，再根据XML文件生成能够与用户提交的文档进行匹配的模板文档。

在匹配过程中，将用户文档按照段落区分。单位子节点的匹配结果能够以未匹配的数量显示出来。依照段落次序，对比以上的单位节点的配置方式，遍历整个文档。

对于文字部分可以进行字体，字号的匹配，也可以进行格式的匹配，读取章节的标号，校验章节标号的连续性，同时放到context['currentChapterNos']中以供其他校验器使用。比对开题报告的专业班级的格式为“专业YYXX”YY为年级，XX为班号。专业为“计算机”、“。。。。”等等。

对于图片部分，可以检查图片序号和图片名称是否在同一行，也可以进行图片序号的匹配，是否与章节号一致，记录当前图片序号是否是上一当前图片序号加1，若是，则图片序号匹配正确，否则，图片序号匹配错误，增加批注信息。这一对于图片序号的对比匹配同样适用于表序号。

具体实现步骤如下:

⑴错别字检测和修正

在WordProcessingML中，错别字的检测是较容易实现的。XML文档对象模型中，通过对XMLShowAdvan-cedErrors属性的设置，可返回包含关于错别字的信息。Word中错别字是以下滑波浪线形式注明的。在Word-ProcessingML中，则以proofErr标记注明，如下例：

<w:proofErrw:type="gramStart"/><w:r><w:rPr>

<w:rFontsw:hint="fareast"/><wx:fontwx:val="宋体"/></w:rPr><w:t>进录</w:t></w:r>

<w:proofErrw:type="gramEnd"/>

有了proofErr节点，然后解析WordProcess-ingML提取proofErr节点，找到它的子节点t，并给出相应的上下文，提示用户对错别字进行修正。

⑵格式检测和修正

格式检测在小篇幅的文档中较容易解决，但通过wordPro-cessingML操作，可能就会变成Word操作中最复杂的问题。然而对于超大篇幅的文档（论文，论证材料等），我们不采用人工检测的方式，而是用程序检测，通过递归调用子节点来实现。

格式检测由于Word文档格式的多样化，对于正文文字的格式检测相对比较容易。下面给出一个例子说明。

如“测试的格式”这一句中，“测试的”是宋体五号，“格式”是宋体小三。我们要求全部是宋体五号。在WordProcessingML中代码如下：

通过检测r节点的子节点属性，可以发现正文中不相符合语句。修正思路为：使用标准格式的XML树的r节点，一次仅修正一个标记。先读入一个r节点，将它的子节点t的值，即所需的文本放入内存进行合并，删除r节点，然后继续读入下一个r节点，直到这段正文结束。最后生成的格式如下：

<w:r><w:rPr>

<w:rFontsw:hint="fareast"/><wx:fontwx:val="宋体"/></w:rPr>

<w:t>测试的格式</w:t>

</w:r>

段落和标题格式检测功能是系统中较难实现的部分。根据同一段落即同一兄弟节点格式相一致的原则，本文采用模板格式来依次递归修正每一个段落或者标题。

修正方式和上述修正方式类似。对于如何确定标题之间的顺序问题。WordProcessingML中通过使用<wx:sub-section>标记的嵌套来确定上下级标题顺序，如果不同的标题使用相同的格式，将很难检测出上下级标题；同样的问题也存在于标题与正文的鉴别之中。因为在WordPro-cessingML中无论是标题还是正文，都是当作段落来处理，用<w:p>标记表示。如果文章中本该是标题的文字，但是它的格式却与普通正文格式一致，这样将很难检查和辨别出哪部分是标题，哪部分是正文。

针对以上问题，可根据“第×章”，“×.×”，或者“×.×.×”的格式进行近似匹配来确定。这部分的检测系统只给出“似乎有误”的假设和提示信息，除非是非常确定的情况，一般不会为用户自动修正。

Claims

1.一种Word格式提取及再利用方法，其特征在于：包括如下步骤：