CN103902514A - 一种Word格式提取及再利用方法 - Google Patents
一种Word格式提取及再利用方法 Download PDFInfo
- Publication number
- CN103902514A CN103902514A CN201410135907.9A CN201410135907A CN103902514A CN 103902514 A CN103902514 A CN 103902514A CN 201410135907 A CN201410135907 A CN 201410135907A CN 103902514 A CN103902514 A CN 103902514A
- Authority
- CN
- China
- Prior art keywords
- node
- document
- word
- extracts
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种Word格式提取及再利用方法,包括如下步骤:第一步,Word文档分解树节点;第二步,形成xml文档;第三步,与用户所交的文档按照规则匹配;第四步,判定这一节点是否匹配成功;如是则进入第五步;如否则查找并提示错误进入下一节点,然后再回到第四步;第五步,判断是否为尾节点;如是则结束;如否则进入下一节点,然后再回到第四步。本发明的有益效果是:系统的模块具有独立性,系统把文档数据的输入、处理和输出分开,各层负责不同的任务和功能实现,实现良好的松耦合特性。此外系统的模块还具有通用性,因为XML使用一种易适配、易转换的通用数据格式,所以各个模块转换和传递的数据都有统一的格式。
Description
技术领域
本发明涉及一种提取及再利用方法,更具体说,它涉及一种Word格式提取及再利用方法。
背景技术
Microsoft Word是微软公司的一个文字处理应用程序,在办公自动化中,Microsoft Word得到了越来越多的应用。然而,在自动化办公应用非常广泛的今天,经常需要读取并甄别有用信息,如何成批、快速的实现对Word文档的提取利用,将直接影响到人们的办公效率。
发明内容
本发明的目的是克服现有技术中的不足,提供一种易适配、易转换提高效率的Word格式提取及再利用方法。
这种Word格式提取及再利用方法,包括如下步骤:
第一步,Word文档分解树节点;
第二步,形成xml文档;
第三步,与用户所交的文档按照规则匹配;
第四步,判定这一节点是否匹配成功;如是则进入第五步;如否则查找并提示错误进入下一节点,然后再回到第四步;
第五步,判断是否为尾节点;如是则结束;如否则进入下一节点,然后再回到第四步。
作为优选:所述第三步的规则为:
步骤一,读取节点为WordProcessingML中的proofErr节点;
步骤二,解析WordProcessingML提取proofErr节点;
步骤三,提示用户修改;
步骤四,进入下一结点。
作为优选:所述第三步的规则为:
步骤一,检查子节点属性;
步骤二,找出错误语句;
步骤三,调用标准xml文档;
步骤四,找到相应位置的r节点;
步骤五,将r节点下的t节点放入内存中进行合并。
步骤六,进入下一节点。
本发明的有益效果是:本发明通过XML和Office应用程序相结合,虽然它不能替代Word的功能,但在一定程度上可提高人们的工作效率,能够提取出文本的格式,并且加以储存。系统的模块具有独立性,系统把文档数据的输入、处理和输出分开,各层负责不同的任务和功能实现,实现良好的松耦合特性。此外系统的模块还具有通用性,因为XML使用一种易适配、易转换的通用数据格式,所以各个模块转换和传递的数据都有统一的格式。
附图说明
图1为本发明流程图;
图2为检查错别字流程图;
图3为检查格式错误流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步描述。虽然本发明将结合较佳实施例进行描述,但应知道,并不表示本发明限制在所述实施例中。相反,本发明将涵盖可包含在有附后权利要求书限定的本发明的范围内的替换物、改进型和等同物。
系统首先将提交的word标准文档分解成树节点,每一个单位子节点都可以设置匹配量词,是否贪婪匹配,子元素匹配模式(子元素以与的方式还是以或的方式匹配)和另外单独添加的匹配代码,遍历整体文档,形成XML文件,再根据XML文件生成能够与用户提交的文档进行匹配的模板文档。
在匹配过程中,将用户文档按照段落区分。单位子节点的匹配结果能够以未匹配的数量显示出来。依照段落次序,对比以上的单位节点的配置方式,遍历整个文档。
对于文字部分可以进行字体,字号的匹配,也可以进行格式的匹配,读取章节的标号,校验章节标号的连续性,同时放到context['currentChapterNos']中以供其他校验器使用。比对开题报告的专业班级的格式为“专业YYXX”YY为年级,XX为班号。专业为“计算机”、“。。。。”等等。
对于图片部分,可以检查图片序号和图片名称是否在同一行,也可以进行图片序号的匹配,是否与章节号一致,记录当前图片序号是否是上一当前图片序号加1,若是,则图片序号匹配正确,否则,图片序号匹配错误,增加批注信息。这一对于图片序号的对比匹配同样适用于表序号。
具体实现步骤如下:
⑴错别字检测和修正
在WordProcessingML中,错别字的检测是较容易实现的。XML文档对象模型中,通过对XMLShowAdvan-cedErrors属性的设置,可返回包含关于错别字的信息。Word中错别字是以下滑波浪线形式注明的。在Word-ProcessingML中,则以proofErr标记注明,如下例:
<w:proofErrw:type="gramStart"/><w:r><w:rPr>
<w:rFontsw:hint="fareast"/><wx:fontwx:val="宋体"/></w:rPr><w:t>进录</w:t></w:r>
<w:proofErrw:type="gramEnd"/>
有了proofErr节点,然后解析WordProcess-ingML提取proofErr节点,找到它的子节点t,并给出相应的上下文,提示用户对错别字进行修正。
⑵格式检测和修正
格式检测在小篇幅的文档中较容易解决,但通过wordPro-cessingML操作,可能就会变成Word操作中最复杂的问题。然而对于超大篇幅的文档(论文,论证材料等),我们不采用人工检测的方式,而是用程序检测,通过递归调用子节点来实现。
格式检测由于Word文档格式的多样化,对于正文文字的格式检测相对比较容易。下面给出一个例子说明。
如“测试的格式”这一句中,“测试的”是宋体五号,“格式”是宋体小三。我们要求全部是宋体五号。在WordProcessingML中代码如下:
通过检测r节点的子节点属性,可以发现正文中不相符合语句。修正思路为:使用标准格式的XML树的r节点,一次仅修正一个标记。先读入一个r节点,将它的子节点t的值,即所需的文本放入内存进行合并,删除r节点,然后继续读入下一个r节点,直到这段正文结束。最后生成的格式如下:
<w:r><w:rPr>
<w:rFontsw:hint="fareast"/><wx:fontwx:val="宋体"/></w:rPr>
<w:t>测试的格式</w:t>
</w:r>
段落和标题格式检测功能是系统中较难实现的部分。根据同一段落即同一兄弟节点格式相一致的原则,本文采用模板格式来依次递归修正每一个段落或者标题。
修正方式和上述修正方式类似。对于如何确定标题之间的顺序问题。WordProcessingML中通过使用<wx:sub-section>标记的嵌套来确定上下级标题顺序,如果不同的标题使用相同的格式,将很难检测出上下级标题;同样的问题也存在于标题与正文的鉴别之中。因为在WordPro-cessingML中无论是标题还是正文,都是当作段落来处理,用<w:p>标记表示。如果文章中本该是标题的文字,但是它的格式却与普通正文格式一致,这样将很难检查和辨别出哪部分是标题,哪部分是正文。
针对以上问题,可根据“第×章”,“×.×”,或者“×.×.×”的格式进行近似匹配来确定。这部分的检测系统只给出“似乎有误”的假设和提示信息,除非是非常确定的情况,一般不会为用户自动修正。
Claims (3)
1.一种Word格式提取及再利用方法,其特征在于:包括如下步骤:
第一步,Word文档分解树节点;
第二步,形成xml文档;
第三步,与用户所交的文档按照规则匹配;
第四步,判定这一节点是否匹配成功;如是则进入第五步;如否则查找并提示错误进入下一节点,然后再回到第四步;
第五步,判断是否为尾节点;如是则结束;如否则进入下一节点,然后再回到第四步。
2.根据权利要求1所述的Word格式提取及再利用方法,其特征在于:所述第三步的规则为:
步骤一,读取节点为WordProcessingML中的proofErr节点;
步骤二,解析WordProcessingML提取proofErr节点;
步骤三,提示用户修改;
步骤四,进入下一结点。
3.根据权利要求1所述的Word格式提取及再利用方法,其特征在于:所述第三步的规则为:
步骤一,检查子节点属性;
步骤二,找出错误语句;
步骤三,调用标准xml文档;
步骤四,找到相应位置的r节点;
步骤五,将r节点下的t节点放入内存中进行合并。
步骤六,进入下一节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410135907.9A CN103902514A (zh) | 2014-04-04 | 2014-04-04 | 一种Word格式提取及再利用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410135907.9A CN103902514A (zh) | 2014-04-04 | 2014-04-04 | 一种Word格式提取及再利用方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103902514A true CN103902514A (zh) | 2014-07-02 |
Family
ID=50993844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410135907.9A Pending CN103902514A (zh) | 2014-04-04 | 2014-04-04 | 一种Word格式提取及再利用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902514A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908602A (zh) * | 2017-12-15 | 2018-04-13 | 北京文因互联科技有限公司 | 一种文件检测方法及其装置 |
CN109977112A (zh) * | 2018-12-28 | 2019-07-05 | 万康源(天津)基因科技有限公司 | 科研文献的结构化信息提取方法及系统 |
CN110096684A (zh) * | 2019-04-10 | 2019-08-06 | 沈阳哲航信息科技有限公司 | 一种基于模板的文档规范智能检查系统及方法 |
CN113988015A (zh) * | 2021-10-28 | 2022-01-28 | 中国信息安全测评中心 | 一种文档结构检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178786A (zh) * | 2006-11-09 | 2008-05-14 | 上海晨鸟信息科技有限公司 | 一种利用网络资源实现剽窃和格式检查的在线论文管理方法 |
US8281235B1 (en) * | 2008-04-16 | 2012-10-02 | Adobe Systems Incorporated | Transformation of structured files |
CN102982010A (zh) * | 2011-09-02 | 2013-03-20 | 北大方正集团有限公司 | 提取文档结构的方法和装置 |
-
2014
- 2014-04-04 CN CN201410135907.9A patent/CN103902514A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178786A (zh) * | 2006-11-09 | 2008-05-14 | 上海晨鸟信息科技有限公司 | 一种利用网络资源实现剽窃和格式检查的在线论文管理方法 |
US8281235B1 (en) * | 2008-04-16 | 2012-10-02 | Adobe Systems Incorporated | Transformation of structured files |
CN102982010A (zh) * | 2011-09-02 | 2013-03-20 | 北大方正集团有限公司 | 提取文档结构的方法和装置 |
Non-Patent Citations (1)
Title |
---|
张春玲: ""学术期刊电子稿件参考文献自动校验的XML解决方案"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 9, 15 September 2011 (2011-09-15), pages 43 - 77 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908602A (zh) * | 2017-12-15 | 2018-04-13 | 北京文因互联科技有限公司 | 一种文件检测方法及其装置 |
CN109977112A (zh) * | 2018-12-28 | 2019-07-05 | 万康源(天津)基因科技有限公司 | 科研文献的结构化信息提取方法及系统 |
CN110096684A (zh) * | 2019-04-10 | 2019-08-06 | 沈阳哲航信息科技有限公司 | 一种基于模板的文档规范智能检查系统及方法 |
CN113988015A (zh) * | 2021-10-28 | 2022-01-28 | 中国信息安全测评中心 | 一种文档结构检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9286526B1 (en) | Cohort-based learning from user edits | |
CN103530430B (zh) | 一种含格式的html富文本数据的跨标签处理方法及系统 | |
KR100570224B1 (ko) | 전표정의데이터 작성방법 및 전표처리장치 | |
CN111582169A (zh) | 图像识别数据纠错方法、装置、计算机设备和存储介质 | |
JP2020187733A (ja) | アプリケーション・プログラミング・インターフェースのドキュメンテーションの注釈付け | |
JPS6375835A (ja) | 目的コ−ド、プログラム・リスト及び設計文書を生成する装置 | |
CN106294606B (zh) | 一种基于通用读写框架的cae文件转换方法及装置 | |
CN103902514A (zh) | 一种Word格式提取及再利用方法 | |
CN106776495A (zh) | 一种文档逻辑结构重建方法 | |
CN104007836A (zh) | 一种手写字输入的处理方法及终端设备 | |
CN101008940A (zh) | 自动处理字体缺失的方法与装置 | |
JP2005216203A (ja) | 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置 | |
CN112733517B (zh) | 需求模板符合性检查的方法、电子设备及存储介质 | |
CN110008446A (zh) | 一种基于编程语言对表格文件进行转化的方法和电子设备 | |
US20120054605A1 (en) | Electronic document conversion system | |
JP6168309B2 (ja) | 表情報理解システム、表情報変換システム、方法および記録媒体 | |
CN103745003A (zh) | Html片段的检测方法 | |
CN110554860B (zh) | 一种软件项目自然语言编程接口nli的构造方法及代码生成方法 | |
CN111679825A (zh) | 一种层叠样式表生成方法、装置、计算机设备及存储介质 | |
JP6568968B2 (ja) | 文書校閲装置およびプログラム | |
CN115794057A (zh) | 命令行函数代码生成方法、装置和计算机可读存储介质 | |
CN116226391A (zh) | 一种特定领域人名纠错方法及系统、存储介质及终端 | |
CN113779218A (zh) | 问答对构建方法、装置、计算机设备和存储介质 | |
KR102528779B1 (ko) | 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 | |
CN102591850A (zh) | 一种基于条件语句的错误文本语句纠正方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140702 |