CN103886098A - 一种Word文档格式检查方法 - Google Patents

一种Word文档格式检查方法 Download PDF

Info

Publication number
CN103886098A
CN103886098A CN201410137144.1A CN201410137144A CN103886098A CN 103886098 A CN103886098 A CN 103886098A CN 201410137144 A CN201410137144 A CN 201410137144A CN 103886098 A CN103886098 A CN 103886098A
Authority
CN
China
Prior art keywords
document
paragraph
node
word
checking method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410137144.1A
Other languages
English (en)
Other versions
CN103886098B (zh
Inventor
柯海丰
张高燕
陈佳宁
何瓣
宋�莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN201410137144.1A priority Critical patent/CN103886098B/zh
Publication of CN103886098A publication Critical patent/CN103886098A/zh
Application granted granted Critical
Publication of CN103886098B publication Critical patent/CN103886098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种Word格式提取及再利用方法,包括如下步骤:A、针对某类文档配置好相对应的模版规则,包括文档有哪几个模块组成,每个段落所要满足的校验器等;B、利用Word转xml的技术,将用户上传的文档转换成xml文件,在xml文件中提取文档的具体格式;C、根据配置好的模版,对用户文档提取的格式进行匹配检查,对于不正确的地方反馈具体信息,生成结果文档。本发明的有益效果是:本发明基于J2EE的Word文档格式检查方法,帮助用户检测文档格式不正确的部分,并给出批注,方便其改正,以降低格式检查中人力的消耗。本发明的格式检查方法是基于模版规则,在系统支持的架构下,可随意搭建模版,对文档的支持非常广泛。

Description

一种Word文档格式检查方法
技术领域
本发明涉及一种格式检查方法,更具体说,它涉及一种Word文档格式检查方法。
背景技术
Microsoft Word是微软公司的一个文字处理应用程序,在办公自动化中,Microsoft Word得到了越来越多的应用。然而,在自动化办公应用非常广泛的今天,经常需要读取并甄别有用信息,如何成批、快速的实现对Word文档的格式检查,将直接影响到人们的办公效率。
发明内容
本发明的目的是克服现有技术中的不足,提供一种效率高,方便操作的Word文档格式检查方法。
这种Word格式提取及再利用方法,包括如下步骤:
A、针对某类文档配置好相对应的模版规则,包括文档有哪几个模块组成,每个段落所要满足的校验器等;
B、利用Word转xml的技术,将用户上传的文档转换成xml文件,在xml文件中提取文档的具体格式;
C、根据配置好的模版,对用户文档提取的格式进行匹配检查,对于不正确的地方反馈具体信息,生成结果文档。
作为优选:所述步骤A具体包括:
A1、配置好模版的树形结构,如文档包含封面、标题、正文,正文中包含多个章节,章节中又包含图片、表格、文字等内容;
A2、给每个节点设置匹配次数,逻辑上是或还是连接;
A3、为每个节点设置校验器,系统中自带常用的校验器,如:字数统计、段落字体、段落格式、内容破页等;
A4、根据特殊需求,为节点编写自定义脚本。主要使用正则表达式对段落具体内容进行校验;
A5、将配置好的模版生成xml文件,校验器用<validator>标签表示,节点用<part>标签表示。
本发明的有益效果是:本发明基于J2EE的Word文档格式检查方法,帮助用户检测文档格式不正确的部分,并给出批注,方便其改正,以降低格式检查中人力的消耗。本发明所提供的格式检查方法是基于模版规则的,在系统支持的架构下,可以随意的搭建模版,对文档的支持非常广泛。
附图说明
图1为本发明流程图;
图2是实施例的总体流程图;
图3是实施例封面格式扫描的流程图;
图4是实施例摘要格式扫描的流程图;
图5是实施例目录格式扫描的流程图;
图6是实施例正文格式扫描的流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步描述。虽然本发明将结合较佳实施例进行描述,但应知道,并不表示本发明限制在所述实施例中。相反,本发明将涵盖可包含在有附后权利要求书限定的本发明的范围内的替换物、改进型和等同物。
本发明基于J2EE的word文档格式检查系统,主要核心点在于,基于xml、正则表达式下解析word文档与比较预定义模版、校验器,对不正确的部分进行批注。至于Jacob、POI、正则表达式等技术为现有技术所熟知,在此不再描述。
毕业论文模版包含封面、摘要、目录、图目录、表目录、正文、结论、参考文献、附录、致谢等部分,如图2所示。
封面节点配置若干子节点,包括题目、姓名、学号、指导老师、所在学院、班级、日期等子节点。
摘要包含标题、副标题、内容、关键字等,其中副标题可有可无,设置为匹配0或1次。
对于正文的检查,我们可以配置好章节的模版,对章节匹配若干次。章节中包含若干节点,有标题、图片、表格、文本、代码、公式等子节点。图片、表格、文本、代码、公式等节点配置为或”|”运算符。
对正文添加内置校验器”字数统计”,检查论文子数是否达标。
对于图片、表格,我们需要检查它们标号是否正确(即,图A.B中AB数字是否正确),可以在模版中配置一个自定义脚本。脚本使用系统扫描段落时记录的变量,如currentChapterNos(当前章节号)、currentPictureNos(当前图片编号)等加上简单的if语句就能检测图片编号。
为图片、表格添加内置校验器”内容破页”,用来检查图片、表格是否跨页。
对于参考文献节点,我们需要写一个自定义的脚本作为校验器,用正则表达式来检查文献编号格式,如连续出版物的格式为:[序号]主要责任者.文献题名[J].刊名,出版年份,卷号(期号):页码.
所有节点配置两个内置校验器,”段落格式”和”段落字体”,为内置校验器配置属性,
如”段落格式”的属性包含对齐方式、大纲级别、行距、首行缩进。这些常见属性不需要编写脚本,在属性值框中选择设置即可。
完成模版配置后将模版保存,系统根据模版配置,生成对应的xml文件,<part>对应节点、<validator>对应校验器、<property>对应校验器属性。matcher值中的内容对应用户自定义脚本。
对上传文档进行匹配,以毕业设计模版为例,大致流程如图2所示,匹配到某一节点后,进入对应的流程,如匹配到封面后,子流程如图3所示。
检查过程校验器找到的格式错误,会生成改正提示信息,使用Jacob以批注的形式加到文档中,方便用户改正。
本发明的具体实施方式提供了一类文档的模版配置方式,只要按照系统所建立的规则花一定的时间配置好模版,就可以检查任何word文档的格式。

Claims (4)

1.一种Word文档格式检查方法,其特征在于:包括如下步骤:
A、针对某类文档配置好相对应的模版规则,包括文档有哪几个模块组成,每个段落所要满足的校验器等;
B、利用Word转xml的技术,将用户上传的文档转换成xml文件,在xml文件中提取文档的具体格式;
C、根据配置好的模版,对用户文档提取的格式进行匹配检查,对于不正确的地方反馈具体信息,生成结果文档。
2.根据权利要求1所述的Word文档格式检查方法,其特征在于:所述步骤A具体包括:
A1、配置好模版的树形结构,如文档包含封面、标题、正文,正文中包含多个章节,章节中又包含图片、表格、文字等内容;
A2、给每个节点设置匹配次数,逻辑上是或还是连接;
A3、为每个节点设置校验器,系统中自带常用的校验器,如:字数统计、段落字体、段落格式、内容破页等;
A4、根据特殊需求,为节点编写自定义脚本。主要使用正则表达式对段落具体内容进行校验;
A5、将配置好的模版生成xml文件,校验器用<validator>标签表示,节点用<part>标签表示。
3.根据权利要求1所述的Word文档格式检查方法,其特征在于:所述步骤C具体包括:
C1、解析xml文件,用自动机匹配模版中配置的节点,如果某一节点匹配不到,显示未能匹配,在文档中批注哪个节点没有匹配到;
C2、对于每一个节点,抽取模版中对应节点的校验器;
C4、对于格式内容不正确的地方,提取模版信息和实际信息,进行注释,生成结果文档。
4.根据权利要求3所述的Word文档格式检查方法,其特征在于:所述步骤C2和C4之间还包括:
C31、以一个段落为基本单元,提取该段落的信息,包含文本内容、文本大纲级别、段落内图片数、段落内表格数、当前章节标号等;
C32、模版节点的校验器中的脚本可以使用这些信息的变量,将段落的实际信息与校验器的脚本进行比对。
CN201410137144.1A 2014-04-04 2014-04-04 一种Word文档格式检查方法 Active CN103886098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410137144.1A CN103886098B (zh) 2014-04-04 2014-04-04 一种Word文档格式检查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410137144.1A CN103886098B (zh) 2014-04-04 2014-04-04 一种Word文档格式检查方法

Publications (2)

Publication Number Publication Date
CN103886098A true CN103886098A (zh) 2014-06-25
CN103886098B CN103886098B (zh) 2017-05-17

Family

ID=50954990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410137144.1A Active CN103886098B (zh) 2014-04-04 2014-04-04 一种Word文档格式检查方法

Country Status (1)

Country Link
CN (1) CN103886098B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156354A (zh) * 2014-08-27 2014-11-19 张盈谦 论文格式检测系统
CN104199975A (zh) * 2014-09-23 2014-12-10 中国南方电网有限责任公司 一种基于可配置的word文档结构化提取方法
CN104503992A (zh) * 2014-12-04 2015-04-08 明博教育科技有限公司 一种题库构建方法
CN105069721A (zh) * 2015-08-04 2015-11-18 广东小天才科技有限公司 一种自动检查题目错误的方法及装置
CN107153694A (zh) * 2017-05-05 2017-09-12 广东小天才科技有限公司 一种自动修改题目错误的方法、装置、设备和存储介质
CN107704446A (zh) * 2016-08-08 2018-02-16 华为技术有限公司 一种度量文档健康度的方法及装置
CN107704438A (zh) * 2017-09-22 2018-02-16 苏州大成有方数据科技有限公司 一种专利申请文件形式纠错系统
CN107908602A (zh) * 2017-12-15 2018-04-13 北京文因互联科技有限公司 一种文件检测方法及其装置
CN108763176A (zh) * 2018-04-10 2018-11-06 达而观信息科技(上海)有限公司 一种文档处理方法及装置
CN109002425A (zh) * 2018-06-19 2018-12-14 平安科技(深圳)有限公司 企业上下游关系的获取方法、终端设备及介质
CN109492203A (zh) * 2018-11-21 2019-03-19 深圳中广核工程设计有限公司 一种核电大型综合报告格式校验方法及系统
CN110502727A (zh) * 2019-02-21 2019-11-26 贵州广思信息网络有限公司 Word简化章节序号设置与使用的方法
CN111539198A (zh) * 2020-04-15 2020-08-14 北京宝兰德软件股份有限公司 一种基于Java的表单验证方法及装置
CN112559919A (zh) * 2020-12-22 2021-03-26 平安银行股份有限公司 线上文档上传的检查方法、装置、电子设备及存储介质
CN114896609A (zh) * 2022-03-25 2022-08-12 山东日照发电有限公司 一种电子公文系统及其运行监控方法
CN116361193A (zh) * 2023-05-16 2023-06-30 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择的测试方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706771A (zh) * 2009-11-06 2010-05-12 北京理工大学 一种基于模板的针对Word文档的智能格式检查方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156354A (zh) * 2014-08-27 2014-11-19 张盈谦 论文格式检测系统
CN104199975A (zh) * 2014-09-23 2014-12-10 中国南方电网有限责任公司 一种基于可配置的word文档结构化提取方法
CN104503992A (zh) * 2014-12-04 2015-04-08 明博教育科技有限公司 一种题库构建方法
CN104503992B (zh) * 2014-12-04 2018-09-25 明博教育科技有限公司 一种题库构建方法
CN105069721A (zh) * 2015-08-04 2015-11-18 广东小天才科技有限公司 一种自动检查题目错误的方法及装置
CN107704446A (zh) * 2016-08-08 2018-02-16 华为技术有限公司 一种度量文档健康度的方法及装置
CN107704446B (zh) * 2016-08-08 2022-05-13 华为技术有限公司 一种度量文档健康度的方法及装置
CN107153694B (zh) * 2017-05-05 2020-08-11 广东小天才科技有限公司 一种自动修改题目错误的方法、装置、设备和存储介质
CN107153694A (zh) * 2017-05-05 2017-09-12 广东小天才科技有限公司 一种自动修改题目错误的方法、装置、设备和存储介质
CN107704438A (zh) * 2017-09-22 2018-02-16 苏州大成有方数据科技有限公司 一种专利申请文件形式纠错系统
CN107908602A (zh) * 2017-12-15 2018-04-13 北京文因互联科技有限公司 一种文件检测方法及其装置
CN108763176A (zh) * 2018-04-10 2018-11-06 达而观信息科技(上海)有限公司 一种文档处理方法及装置
CN109002425A (zh) * 2018-06-19 2018-12-14 平安科技(深圳)有限公司 企业上下游关系的获取方法、终端设备及介质
CN109002425B (zh) * 2018-06-19 2022-03-22 平安科技(深圳)有限公司 企业上下游关系的获取方法、终端设备及介质
CN109492203A (zh) * 2018-11-21 2019-03-19 深圳中广核工程设计有限公司 一种核电大型综合报告格式校验方法及系统
CN109492203B (zh) * 2018-11-21 2023-06-27 深圳中广核工程设计有限公司 一种核电大型综合报告格式校验方法及系统
CN110502727A (zh) * 2019-02-21 2019-11-26 贵州广思信息网络有限公司 Word简化章节序号设置与使用的方法
CN111539198A (zh) * 2020-04-15 2020-08-14 北京宝兰德软件股份有限公司 一种基于Java的表单验证方法及装置
CN112559919A (zh) * 2020-12-22 2021-03-26 平安银行股份有限公司 线上文档上传的检查方法、装置、电子设备及存储介质
CN112559919B (zh) * 2020-12-22 2023-11-10 平安银行股份有限公司 线上文档上传的检查方法、装置、电子设备及存储介质
CN114896609A (zh) * 2022-03-25 2022-08-12 山东日照发电有限公司 一种电子公文系统及其运行监控方法
CN116361193A (zh) * 2023-05-16 2023-06-30 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择的测试方法及装置
CN116361193B (zh) * 2023-05-16 2023-08-22 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择的测试方法及装置

Also Published As

Publication number Publication date
CN103886098B (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN103886098B (zh) 一种Word文档格式检查方法
US9507698B2 (en) Test code generation based on test documentation
US11792257B2 (en) Form engine
US10019535B1 (en) Template-free extraction of data from documents
CN102982010A (zh) 提取文档结构的方法和装置
TW201435748A (zh) 資訊碼、資訊碼生成方法、資訊碼讀取裝置、及資訊碼利用系統
US20120017143A1 (en) Electronic device and method for data management
JP7139682B2 (ja) 情報処理方法、情報処理装置、及び情報処理システム
CN106294606A (zh) 一种基于通用读写框架的cae文件转换方法及装置
CN103631966A (zh) 一种可配置的解析多值匹配字段的方法
CN103473056A (zh) 一种遥测配置文件自动生成方法
CN113678118A (zh) 数据提取系统
CN113723063B (zh) 一种rtf转html并在pdf文件实现效果的方法
CN109670092A (zh) Xml文档校对方法及装置
CN109614594A (zh) 一种将题目文档解析为题库数据的方法
US11557139B2 (en) Multi-step document information extraction
CN105630839A (zh) 网页信息的获取方法和装置
CN103020037A (zh) 一种公文标准化校验系统
CN106557569B (zh) 基于元模型的非结构化文档的导入方法和导入装置
US11281901B2 (en) Document extraction system and method
CN103902514A (zh) 一种Word格式提取及再利用方法
CN113849173A (zh) 一种基于json的动态表单生成方法及系统
CN103279889B (zh) 利用vb实现水晶报表与word文档合并的方法
CN102982017B (zh) 内容判断的方法和装置
Ghodasara et al. Reduction of Throughput Time in Digital Publishing Using AI-Based Smart Systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant