CN106886509A

CN106886509A - 一种学位论文格式自动检测方法

Info

Publication number: CN106886509A
Application number: CN201710124124.4A
Authority: CN
Inventors: 赖晓晨
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-03-06
Filing date: 2017-03-06
Publication date: 2017-06-23
Anticipated expiration: 2037-03-06
Also published as: CN106886509B

Abstract

本发明公开了一种学位论文格式自动检测方法，属于计算机技术领域。该方法包括单元定位模块、格式提取模块和对比模块等三个模块。单元定位模块包括十一个子模块，功能分别为找到学位论文中的十一个特定部分的位置及每个特定部分的长度；格式提取模块包括段落属性提取子模块和特殊格式属性提取子模块，功能为获取论文各特定部分的样式；对比模块包括规则配置文件、规则对比子模块和报告生成子模块三个部分，功能为将格式提取模块提取出的待测论文中的格式特征与论文模板中的规则进行对比，将对比结果不一致的格式问题写入检测报告。本发明能够针对毕业生提交的学位论文，完成格式自动检测，找到所有不符合格式要求的部分，并提供错误报告。

Description

一种学位论文格式自动检测方法

技术领域

本发明属于计算机技术领域，涉及一种学位论文格式自动检测方法。

背景技术

目前高校的学位论文，均具有较为严格的格式要求。学位论文一般采用微软公司的Word编辑软件撰写，包括封面、独创性声明、标题、摘要、目录、正文、页眉页脚、表格、图形、参考文献、授权书等特定部分，必须与论文模板严格相同，以保证学位论文的格式规范性。在学位论文提交之后，教师要对学位论文进行格式核查，将错误之处指出并由学生修改，之后教师会再次核查格式，并指导学生修改，直至符合学校要求为止。以往，这一核查过程完全由教师人工进行，具有工作量大、易出错、工作时间长等缺陷。本发明基于对Word软件的docx格式的分析，提出了一种学位论文格式自动检测方法，可以由计算机替代教师来完成这一工作，可有效弥补人工方式的以上缺陷。

下面对相关技术背景进行介绍。

1、docx格式

Microsoft Word是由微软公司开发的一款办公软件，2007年之前的MicrosoftWord文件扩展名是doc，2007年及之后的版本使用的文件扩展名为docx，该类型格式采用基于XML的压缩文件格式，一个新建的doc文件的大小为25KB，而一个新建的docx文件的大小为0KB，比doc格式更节省空间。

2、论文模板

论文模板是衡量学生提交的待测论文格式是否正确的标准，待测论文的格式如与论文模板的格式要求一致，则为正确；反之，则为错误。为了实现对论文格式正误的快速检测，论文模板的内容分为封面、独创性声明、标题、摘要、目录、正文、页眉页脚、表格、图形、参考文献、授权书等十一个特定部分。本发明方法的工作即为对这十一个特定部分进行自动检测。

3、OpenXML

OpenXML是针对字处理文档、演示文稿和电子表格的国际化开放标准，xml格式的文件存储基于OpenXML标准设计的文档的源码。2010年3月，美国微软公司发布了OpenXMLSDK，OpenXML SDK的功能是查看基于OpenXML标准设计的文档的xml源码。OpenXML SDK简化了对Office COM对象的访问方法，提供了以xml文件的方式查看Mcrosoft Word文件的途径，方便了用户对Mcrosoft Word文件的管理。

OpenXML定义了以下相关名词：

(1)标签：由一对尖括号标识的关键词，用来标记不同的元素，分为开始标签和结束标签；

(2)元素：xml文件中从开始标签到结束标签之间的部分；

(3)父元素：包含其他元素的元素称为被包含元素的父元素；

(4)子元素：元素中包含的元素称为包含该元素的子元素；

(5)属性：在元素的开始标签中规定，提供了元素除了文本内容以外的更多的信息，以名称和值的形式成对出现；

(6)样式的层次结构：不同层次均可定义样式，高层次定义样式的优先级高于低层级，当需要确定样式时，若高层次未定义该样式，则应从高到低依次寻找首次出现的低层次定义的样式，以此作为文本的样式；

下面是OpenXML SDK中常见的word文档标签：

(1)<document>:包含word文档的全部内容，包括文字、图表、页眉页脚及其属性，是最顶层标签；

(2)<body>：<document>的子标签，包含word文档所有的文字、图表及其属性；

(3)<paragraph>：即为文档的段落，有些段落只包含一个<paragraph>，有些段落包含两个及以上的<paragraph>。一个或若干个<paragraph>组成<body>，<paragraph>的集合包含<body>内所有的文字和图形；

(4)：<paragraph>的缩写形式，与<paragraph>相同；

(5)<run>：位于<paragraph>内，为该段落的文字、图片及其属性；

(6)<hyperlink>：位于<paragraph>内，标识作者对该目录使用过word程序中的更新域选项，内容为目录的位置；

(7)<FieldChar>：位于<paragraph>内，标识作者未对该目录使用过word程序中的更新域选项，内容为目录的位置；

(8)<text>：位于<run>内，内容为当前段落的文字内容；

(9)<bookmarkStart>：位于<paragraph>内，标识换页符的开始；

(10)<sectPr>：位于<document>内，与<body>平级，内容包含此节的页眉引用<headerReference>、页脚引用<footerReference>、页的大小、宽度、页边距、网格线信息等章节属性；

(11)<headerReference>：位于<sectPr>内，为所在节的页眉引用，可由此定位到页眉；

(12)<footerReference>：位于<sectPr>内，为所在节的页脚引用，可由此定位到页脚；

(13)<ftr>:位于<document>内，与<body>平级，内容包括首页页脚、奇数页页脚、偶数页页脚；

(14)<hdr>：位于<docement>内，与<body>平级，内容包括首页页眉、奇数页页眉、偶数页页眉、页脚；

(15)<tbl>：位于<body>内，与<paragraph>并列，用于标识word文档中的表格并存储表格信息；

(16)<picture>：位于<run>内，与<text>并列，用于标识word文档中的图片并存储图片信息；

(17)<drawing>：位于<run>内，与<text>及<picture>并列，功能与<picture>相同，用于标识word文档中的图片并存储图片信息；

(18)<r>：<run>的缩写形式，与<run>相同；

(19)<RunFonts>：位于<run>内，标识该段文字的字体,ASCII、East Asian属性分别代表了英文、简体中文两种文字的字体样式，通过检测ASCII及East Asian这两种属性，可以判断论文中的英文、中文的字体样式是否正确，同时还需判断<r>元素内文本是否只有中文或只有英文，以去除提取到的冗余的字体样式；

(20)<rFonts>：<RunFonts>的缩写，与<RunFonts>相同；

(21)<t>：<text>的缩写形式，与<t>相同；

(22)<size>：位于<paragraph>、<tbl>及<run>内，分别标识该段落，表格或文字的字号；

(23)<sz>：<size>的缩写形式，与<size>相同。

4、本发明中的其他相关名词解释：

(1)字号对照表：记录字号、磅数以及毫米数之间的对应关系；

(2)空段落：体现为文本内容为空的元素或者文本内容全部由空字符构成的元素。

发明内容

本发明要解决的技术问题是提供一种学位论文格式自动检测方法，能够针对毕业生提交的学位论文，完成格式自动检测，找到所有不符合格式要求的部分，并提供错误报告。

本发明的技术方案：

学位论文格式自动检测方法，包括单元定位模块、格式提取模块、对比模块三个模块。

1、单元定位模块

单元定位模块的功能是在学位论文中准确找到封面、独创性声明、标题、摘要、目录、正文、页眉页脚、表格、图形、参考文献、授权书等十一个特定部分的位置及每个特定部分的长度，即对以上各特定部分进行精确切割。单元定位模块包括以下十一个子模块。

(1)封面定位子模块

封面存储在<body>元素的子元素<paragraph>内，为论文的第一页。定位封面时，首先找到整篇文档的第一个包含文字的<paragraph>，若其中的文字与论文模板中论文主标题的文字相同，则说明成功定位到封面；若其中的文字与论文模板中论文主标题的文字不同，则继续遍历之后的<paragraph>。若之后的<paragraph>中存在与主标题字符串相同的<paragraph>，则成功定位到封面；若之后的<paragraph>不能找到与主标题字符串相同的<paragraph>，则说明封面缺失或论文主标题有误。

(2)独创性声明定位子模块

论文独创性声明存储在<body>元素的子元素<paragraph>内，为论文的第二页。定位论文独创性声明时，首先根据封面定位子模块的结果判断论文封面是否缺失，若论文封面未缺失，则找到封面之后的首个包含文字的<paragraph>，若封面缺失，则找到整篇文档的第一个包含文字的<paragraph>。若该<paragraph>中的文字包含“独创性声明”，则说明成功定位到独创性声明；该<paragraph>中的文字不包含“独创性声明”，则继续遍历之后的<paragraph>。若之后的<paragraph>中的文字包含“独创性声明”，则成功定位到独创性声明；若之后的不能找到文字中包含“独创性声明”的<paragraph>，则说明独创性声明缺失或独创性声明标题有误。

(3)标题定位子模块

遍历每一个元素，若该元素包含了<hyperlink>元素或者<bookmarkStart>元素，则将该元素判定为包含了标题的段落；若不包含<hyperlink>元素和<bookmarkStart>元素，则获取元素中的全部文本，采用正则表达式匹配标题的编号以及编号和标题内容之间的空格来确定标题段落；若正则表达式无法匹配，找出文本长度符合标题长度的段落，标记为疑似标题。

(4)摘要定位子模块

中英文摘要存储在<body>元素的子元素<paragraph>内，在定位中文摘要时，首先获取标题定位子模块定位到的全部标题，然后在其中找到“摘要”两个字，获取“摘要”标题所处的<paragraph>在<body>中的位置。然后依次遍历开始位置后的每个<paragraph>。若遍历到一个正文段落，则表示摘要定位成功。若遍历某<paragraph>中的<text>元素，发现其包含的内容为“关键词”，则在下一段终止摘要的处理，摘要定位完成。英文摘要的定位与中文摘要定位方法大致相同，唯一区别在于将“摘要”二字替换为“Abstract”，将“关键词”替换为“Key words”。

(5)目录定位子模块

目录定位分为两种情况：经过“更新域”处理过的目录和未经“更新域”处理的目录。前者包含<Hyperlink>元素，用以标记更新域的位置，该更新域的位置即为目录；后者包含<FieldChar>元素。在定位目录时，遍历<body>中全部<paragraph>，所有包含<Hyperlink>元素及<FieldChar>元素的<paragraph>均为目录。

(6)正文定位子模块

首先寻找到全文的第一个带编号的标题，标题后的第一个段落就是正文开始处；接着过滤中间封装标题的元素和封装图的元素；最后定位正文结束部分，寻找正文结束后出现的第一个没有编号的标题，以此为正文部分的结束定位标志。

(7)页眉页脚定位子模块

首先遍历元素，判断其中是否包含<sectPr>子元素；若包含<sectPr>子元素，找出<sectPr>元素的所有页眉引用<headerReference>子元素，接着找出<sectPr>元素的所有页脚引用<footerReference>子元素,利用页眉引用、页脚引用的标识符定位到相应的页眉<hdr>元素和页脚<ftr>元素；若不包含<sectPr>子元素，遍历下一个元素继续检测是否包含<sectPr>子元素，直到文档最后停止遍历；在<body>元素中寻找保存最后一节属性的<sectPr>子元素，找出最后一节对应的页眉引用和页脚引用，从而定位到页眉<hdr>和页脚<ftr>元素；

(8)表格定位子模块

表格信息存储在<body>元素的子元素<tbl>内，依次遍历每个<tbl>元素，可找到表格位置。定位表名的方法如下：首先获取<tbl>的位置信息，即计算这个<tbl>元素是<body>的第几个子元素，然后再检测前一个位置的是否为空段落，空段落体现为一个空行，非空段落作为表名处理。如在该前一个位置没有找到表名，则再向前回溯一个位置继续进行判断。如超过3步回溯仍未找到表名，认为表名缺失或表名的格式有误。

(9)图形定位子模块

找到<paragraph>元素的子元素<run>，图片信息存储在<run>的子元素<drawing>和<picture>中。在定位图片时，遍历所有的<paragraph>，对每一个包含<drawing>或<picture>的<paragraph>，先确定该<paragraph>是<body>的第几个子元素，再查看该<paragraph>的下一个<paragraph>的内容是否为空，若为空则为空行；若不为空再继续判断该<paragraph>内是否包含文字“图”，若包含成功定位到图名，若不包含则认为图名缺失或图名的格式有误。

(10)参考文献定位子模块

参考文献存储在<body>元素的子元素<paragraph>内。在定位参考文献时，首先获取标题定位子模块定位到的全部标题，然后在其中找到“参考文献”四个字，获取“参考文献”标题所处的<paragraph>在<body>中的位置。然后依次遍历开始位置后的每个<paragraph>。若遍历到一个包含文字的<paragraph>，则说明该<paragraph>包含参考文献的内容；若遍历到一个标题段落，则说明参考文献内容结束，定位完成。

(11)授权书定位子模块

授权书存储在<body>元素的子元素<paragraph>内，为论文的最后一页。定位授权书时，首先找到参考文献结束的位置，然后找到该位置之后第一个包含文字的<paragraph>。若其中的文字包含“授权书”，则说明成功定位到授权书；若其中的文字不包含“授权书”，则继续遍历之后的<paragraph>。若之后的<paragraph>中的文字包含“授权书”，则成功定位到授权书；若之后不能找到文字包含“授权书”的<paragraph>，则说明授权书缺失或授权书标题有误。

2、格式提取模块

格式提取模块的功能为获取论文各特定部分的样式。对于学位论文的每个特定部分，在格式提取模块中都有对应的属性配置文件和提取算法。格式提取模块根据该特定部分属性配置文件中的配置信息，调用该特定部分的提取算法来提取待检测学位论文的格式。格式提取模块包括段落属性提取子模块和特殊格式属性提取子模块。

(1)段落属性提取子模块

待测学位论文的每个特定部分都具有段落属性，段落属性提取是所有特定部分的共性工作，由段落属性提取子模块完成。在OpenXML中，典型的段落属性有：字体、字号、段间距。

①字体

依次遍历每一个元素，按照样式的层次结构依次提取字体样式，获取到中英文的字体；检测段落是否为全英文、全中文，或者既有中文又有英文，若是全英文，舍弃提取到的中文字体样式，不能用于对比模块；若是全中文，舍弃提取到的英文字体样式，不能用于对比模块；若既有中文又有英文，提取到的中文英文字体样式全部保存。

②字号

首先按照样式的层次结构获取<sz>的属性Val的值，计算得到以磅为单位的字号大小；然后参考字号对照表得到字号和磅数的对应关系，得到实际字号；将字号保存用于对比模块。

③段间距

段前距离信息从<spacing>元素的before和beforeLines属性中提取。首先依据样式的层次结构找到<spacing>元素；若该元素包含beforeLines属性，获取该属性对应的属性值，计算得到以行距倍数表示的该段落的段前距离；利用<sectPr>元素的子元素<docGrid>的linePitch属性可以获得一行的磅数，统一换算成以“磅”为单位的段前距离；若不包含beforeLines属性，则获取before属性的属性值，计算得到以“磅”为单位的段前距离。

段后距离信息从<spacing>元素的after和afterLines属性中提取。首先依据样式的层次结构找到<spacing>元素；若该元素包含afterLines属性，获取该属性对应的属性值，计算得到以行距倍数表示的该段落的段后距离；换算成以“磅”为单位的段后距离；若不包含afterLines属性，则获取after属性的属性值，计算得到以“磅”为单位的段后距离。

行距样式信息从<spacing>元素的lineRule和line属性中提取，lineRule保存的是解析line的方法。首先依据样式的层次结构找到<spacing>元素；若lineRule为auto或者省略，则此时提取的结果为以行距倍数表示的该段落的行距；若lineRule属性的值为atLeast或者为exactly，此时提取的结果以磅为单位。与段前距一样，本发明统一转换为以磅为单位方便对比。

(2)特殊格式属性提取子模块

特殊格式提取子模块用于处理除段落属性之外的其他格式提取问题，包括参考文献样式提取、图和表所在章节的标题名称提取等，这些格式要求在OpenXML中并没有明确的元素对应，需采用特殊方式提取。

①参考文献格式提取

不同类型的参考文献书写格式不同，需先确定每条参考文献属于哪种类型，然后才能进行详细格式分析。首先利用正则表达式匹配参考文献的标志代码，根据标志代码确定参考文献的类型；若无法匹配，说明此条参考文献缺少标志代码，保存错误信息后，继续下一条参考文献格式的提取；若匹配成功，接着以中括号为分割点把该条参考文献分割成几部分，检测作者、出版社、出版年份、期刊号等格式是否满足要求；接下来获取参考文献的编号样式，判断参考文献的编号是否连续，若不连续，保存错误信息，若连续，进入下一步；最后统计参考文献条目的数目，保存起来用于对比模块。

检测参考文献连续性的方法如下：首先记录并维护参考文献的正确编号值，即编号应为从1开始的连续自然数，每次检测到新的参考文献条目后此值加1；接着判断此参考文献是手动编号还是自动编号，若是手动编号，利用正则表达式获取编号，然后判断是否和正确编号值相同，若是自动编号只需检测自动编号开始的参考文献编号是否和正确编号值相同。

②图和表所在章节的标题名称提取

首先用链表保存章节标题所在的段落的位置信息，即索引值；然后获取图、表的索引，用图、表的索引值和链表中的各个值依次比较，直到链表中的值大于图、表的索引值为止，则链表中的前一个数值就是该图、表所在章节标题的标题位置；最后根据此索引即可得到标题名称；

3、对比模块

对比模块的功能是将格式提取模块提取出的待测论文中的格式特征与论文模板中的规则进行对比，分析二者是否一致，从而验证待测论文格式是否正确，并将对比结果不一致的格式问题写入到检测报告中。该模块分为规则配置文件、规则对比子模块、报告生成子模块三个部分。

(1)规则配置文件

规则配置文件包含了模板论文规定的规则，是检测待测论文正确与否的标准。规则配置文件的内容按照封面、独创性声明、标题、摘要、目录、正文、页眉页脚、表格、图形、参考文献、授权书等十一个部分进行配置。在调用规则配置文件时，首先由单元定位模块确定当前检测的位置在论文中所属的部分，然后检测该部分是否已存在xml格式的配置文件，若存在，则进入规则对比子模块；若不存在，则说明当前部分没有设置格式要求，结束当前部分的检测。

(2)规则对比子模块

规则对比子模块的功能是将待测论文的格式特征与规则配置文件配置的规则进行对比，检测格式提取模块提取出的待测论文的格式特征的正误。在进行对比时，获取单元定位模块的结果，判断当前要检测的段落是待测论文的哪一部分，在规则配置文件中找到模板论文相应的规则，将格式提取模块提取到的该部分的格式特征与相应的规则配置文件中的规则进行对比，若该格式特征与规则配置文件中的规则一致，则说明该格式正确；反之该格式特征错误。

(3)报告生成子模块

首先获取生成报告的保存路径，若用户未自定义，默认路径设置为该待测论文的上传路径；接着获取在规则配置文件中保存的所有待检测的特定部分的节点信息，依次遍历每个节点；获取节点中保存的该节点对应的名称，从而找到对应的错误信息的保存位置；将寻找到的错误信息编号后保存到检测报告中，最终生成一份txt类型的检测报告。

本发明的有益效果在于可以自动检测学位论文格式的正确性，并将不符合模板格式要求的部分写入错误报告。本发明相对于人工检查而言，具有检测效率高、检测结果准确等特点。

附图说明

图1是本发明的系统结构图。

图2是本发明的数据流图。

具体实施方式

以下结合发明内容和说明书附图详细说明本发明的具体实施方式。

1、系统结构

本方法的系统结构如图1所示，包括单元定位模块、格式提取模块、对比模块三个模块。

单元定位模块包括封面定位子模块、独创性声明定位子模块、标题定位子模块、摘要定位子模块、目录定位子模块、正文定位子模块、页眉页脚定位子模块、表格定位子模块、图形定位子模块、参考文献定位子模块、授权书定位子模块等十一个子模块。封面定位子模块的功能是找出封面在待测论文中的位置；独创性声明定位子模块的功能是找出独创性声明在待测论文中的位置；标题定位子模块的功能是找出待测论文中所有的标题及其所在的<paragraph>元素在<body>元素中的位置；摘要定位子模块的功能是找出摘要在待测论文中的位置；目录定位子模块的功能是找出目录在待测论文中的位置；正文定位子模块的功能是找出正文在待测论文中的位置；页眉页脚定位子模块的功能是找出待测论文中的全部页眉页脚及其所在的<paragraph>元素在<body>元素中的位置；表格定位子模块的功能是找出待测论文中的全部表格及表格所在的<tbl>元素在<body>元素中的位置；图形定位子模块的功能是找出待测论文中的全部图形及其所在的<paragraph>元素在<body>元素中的位置；参考文献定位子模块的功能是找出参考文献在待测论文中的位置；授权书定位子模块的功能是找出授权书在待测论文中的位置。

格式提取模块包括段落属性提取子模块和特殊格式属性提取子模块两个子模块。段落属性提取子模块的功能是提取待测论文每个部分共有的段落属性，即提取每个段落的字体、字号、段间距；特殊格式属性提取子模块的功能是处理除段落属性之外的其他格式提取问题，包括参考文献样式提取、图和表所在章节的标题名称提取。

对比模块包括规则配置文件、规则对比子模块、报告生成子模块三个部分。规则配置文件的功能是存储模板论文规定的规则，规则配置文件是检测待测论文正确与否的标准；规则对比子模块的功能是将待测论文的格式特征与规则配置文件配置的规则进行对比，检测格式提取模块提取出的待测论文的格式特征的正误；报告生成子模块的功能是获取规则对比子模块中检测到的错误的待测论文的格式特征并写入检测报告中供用户查看。

2、数据处理过程

本方法对每个特定部分均进行单元定位、格式提取、对比操作，最终生成检测报告给用户。以参考文献部分为例，其数据流图如图2所示：用户上传待测论文；单元定位负责定位参考文献部分的xml信息，然后输出至格式提取模块的两个子模块；段落属性提取子模块将提取出参考文献部分的段落属性，如字体、字号、行间距；特殊格式属性提取子模块将提取到关于参考文献部分的特殊格式，如参考文献的连续性、参考文献条目中的作者规范性及出版社信息规范性；参考文献部分的xml信息经过格式提取处理后，转变为段落属性及特殊格式属性的样式信息输出至对比模块；对比模块的规则对比子模块将提取到的样式信息和规则配置文件中的参考文献规则进行对比，对比之后输出参考文献部分的对比结果；对比模块的报告生成子模块将对比结果按照确定格式输出到检测报告中；检测报告交付给用户使用。

3、规则配置文件设计

在创建规则配置文件之前，预先定义该文档的格式，规则配置文件的最顶层元素定义为当前检测部分的名称，最顶层元素之下包含两类元素，第一类元素作用是标记规则配置文件包含的规则在待测论文中所属的部分；第二类元素是规则配置文件配置文件的主体部分，记录该部分所包含的规则。

以图形部分的规则配置文件为例，该部分的规则配置文件代码如下：

第一行代码为xml文件的版本标识及编码方式，<FigureStyle>元素是该规则配置文件的顶层元素，包含<partName>和<spErroInfo>两类元素。<partName>元素为<FigureStyle>元素下的第一类元素，<partName>元素内有且只有一个<Text>元素，<Text>元素的内容为当前规则配置文件包含的规则在待测论文中所属的部分；<spErroInfo>为<FigureStyle>元素下的第二类元素，内容为该规则配置文件所包含的具体规则，<spErroInfo>元素由一个或多个<Text>元素组成，每个<Text>元素记录图形部分的一条属性,第一条<Text>元素记录的属性为：图名字体应为宋体，第二条<Text>元素记录的属性为：图名的序号与文字中间应空两格。

4、检测报告设计

检测报告名称以待检测论文名称加检测时间戳来命名，方便用户区分多次提交的检测报告。检测报告包括错误信息列表和错误信息统计两个部分。

在错误信息列表部分，论文的封面、独创性声明、标题、摘要、目录、正文、页眉页脚、表格、图形、参考文献、授权书等十一个特定部分都可能有格式书写错误，为方便用户查看，各特定部分之间用分割线分割。所有的错误信息从1开始按顺序编号，错误信息分为两大类，一类是确定错误，一类是警告。确定错误代表论文中的明确的错误，每条确定错误从前向后依次为：错误编号、错误说明、用大括号标注的错误位置和错误页码；警告为疑似错误，每条警告从前向后依次为：“警告”二字标识、警告说明、用大括号标注的警告位置和警告页码。

错误统计部分负责统计出错误总数以及不同类型的错误总数。错误统计部分的意义在于，列举出不同种类错误的数目，使用户了解各类型错误的发生概率，为将来论文撰写提供指导。错误统计分为两大类，一类为与段落属性提取子模块相对应的一般错误统计信息，一类为与特殊格式属性提取子模块相对应的特殊错误统计信息。一般错误统计信息有：字体错误、字号错误、段前间距、段后间距错误、行间距错误。特殊错误统计信息对应论文的各个特定部分，例如：页眉部分的奇偶页错误、摘要关键词错误、表名格式错误、参考文献条目格式错误。

某待测试论文的检测报告实例如下：

《基于SWOT分析的企业财务管理系统设计与实现》检测报告

一：错误信息列表

-----------------封面-----------------

1.统招、单考硕士、高校教师在职申请硕士学位、同等学历硕士封面标识内容应为“硕士学位论文”

2.封面英文标题实词首字母未大写：{The enterprise Financial Management}

3.统招、单考硕士、高校教师在职申请硕士学位、同等学历硕士研究生信息的第二个标题应为“学科、

专业”

4.封面底部英文校名字号错误，应为小四号

-----------------摘要-----------------

5.中文摘要关键词字号错误，应为小四号

6.英文摘要上方缺少论文英文题目，或者与封面的英文标题书写不一致

7.英文摘要关键词字体错误，错误部分为:{：}

-----------------页眉页脚-----------------

8.奇数页页眉命名不规范应为：“大连理工大学硕士学位论文”||摘要

9.偶数页页眉命名不规范，应为论文中文题目||摘要

-----------------目录-----------------

10.目录中该章节标题中文字体错误，应为宋体：{1绪论}

-----------------正文-----------------

11.该段落中文字体错误，应为宋体：{3.3.1系统体系框架设计“Spring的作用贯”P12}

12.此段落字号错误，应为小四：{5.4.7应收款管理功能实现“弱点机会组合”P37}

“疑似”：此段落疑似标题，请确认{6.2.2测试通过标准P42}

-----------------图-----------------

13.如图名不是该页的最后一行，则图名下一行应为空行：{4.2系统部署“图4.2系统部署图”P19}

14.图英文名错误，应为“Fig.M.N Name”：{5.4.1用户登陆“Fig.5.3Generalmodule”P38}

-----------------表-----------------

15.中文序号与表名之间应空两格：{4.4数据库设计表“4.3部门信息表”P19}

16.该表格中文表名未居中：{4.4数据库设计“表4.1科目余额审核表”P21}

17.英文表名没有居中：{4.4数据库设计“Tab.4.1Account balance audittable”P21}

-----------------参考文献-----------------

18.警告：期刊类参考文献期号一般不超过20，此条参考文献期号过大：{[1]何雪梅.大数P49}

19.期刊类参考文献期号卷号处不应有空格：{[7]李成伟.我国P49}

20.期刊类参考文献应以“:页码范围”结尾”：{[10]梁亚玲.试P49}

21.不能缺少院系{钟雁.管理信息系统P49}

22.此条参考文献字体错误，应为中文宋体，英文Times New Roman：{[24]Levy,P49}

二：错误统计

本论文共检测出错误22条，列举如下：

-----------------一般错误统计-----------------

1.字体错误：4

2.字号错误：3

-----------------特殊错误统计-----------------

3.封面标识错误：1

4.封面中英文标题错误：1

5.封面信息填写错误：1

6.封面底部校名错误：1

7.摘要标题错误：1

8.页眉奇偶页错误：1

9.图空行错误：1

10.图名格式错误：1

11.表名格式错误：3

12.参考文献条目格式错误：4

针对该论文，共检测出8个特定部分有错误信息，分别为：封面、摘要、页眉页脚、目录、正文、图、表、参考文献；并生成错误统计信息，包括错误总数、一般错误统计和特殊错误统计。检测出的一般错误有：字体错误、字号错误。检测出的特殊错误有：封面标识错误、封面中英文错误、封面信息填写错误、封面底部校名错误、摘要标题错误、页眉奇偶页错误、图空行错误、图名格式错误、表名格式错误、参考文献条目格式错误。

5、实验及结果

基于本方法设计了“学位论文格式自动检测软件”，对本方法的有效性进行验证。在编程结束后，共进行了开发人员测试，用户测试两方面测试，下面是测试用例及测试结果。随机选取了大连理工大学毕业研究生的46篇学位论文，针对封面、独创性声明、标题、摘要、目录、正文、页眉页脚、表格、图形、参考文献、授权书等十一个特定部分进行测试，全部能够正常生成检测报告，平均0.717秒完成一篇论文检测，误报率为0，漏报率小于1％。

将本软件部署于网站之上并针对大连理工大学即将上交学位论文的研究生开放，共有317名学生上传523篇次论文，全部可以正常生成检测报告，误报率为0，漏报率小于1％。

Claims

1.一种学位论文格式自动检测方法，其特征在于，步骤如下：

该学位论文格式自动检测方法包括单元定位模块、格式提取模块和对比模块三个模块；

单元定位模块是在学位论文中准确找到特定部分的位置及长度，即对各特定部分进行精确切割，特定部分包括封面、独创性声明、标题、摘要、目录、正文、页眉页脚、表格、图形、参考文献和授权书，单元定位模块包括以下十一个子模块；

(1)封面定位子模块

封面存储在<body>元素的子元素<paragraph>内，为论文的第一页；定位封面时，首先找到整篇文档的第一个包含文字的<paragraph>，若其中的文字与论文模板中论文主标题的文字相同，则说明成功定位到封面；若其中的文字与论文模板中论文主标题的文字不同，则继续遍历之后的<paragraph>；若之后的<paragraph>中存在与主标题字符串相同的<paragraph>，则成功定位到封面；若之后的<paragraph>不能找到与主标题字符串相同的<paragraph>，则说明封面缺失或论文主标题有误；

(2)独创性声明定位子模块

论文独创性声明存储在<body>元素的子元素<paragraph>内，为论文的第二页；定位论文独创性声明时，首先根据封面定位子模块的结果判断论文封面是否缺失，若论文封面未缺失，则找到封面之后的首个包含文字的<paragraph>，若封面缺失，则找到整篇文档的第一个包含文字的<paragraph>；若该<paragraph>中的文字包含“独创性声明”，则说明成功定位到独创性声明；该<paragraph>中的文字不包含“独创性声明”，则继续遍历之后的<paragraph>；若之后的<paragraph>中的文字包含“独创性声明”，则成功定位到独创性声明；若之后的不能找到文字中包含“独创性声明”的<paragraph>，则说明独创性声明缺失或独创性声明标题有误；

(3)标题定位子模块

遍历每一个元素，若该元素包含了<hyperlink>元素或者<bookmarkStart>元素，则将该元素判定为包含了标题的段落；若不包含<hyperlink>元素或<bookmarkStart>元素，则获取元素中的全部文本，采用正则表达式匹配标题的编号以及编号和标题内容之间的空格来确定标题段落；若正则表达式无法匹配，找出文本长度符合标题长度的段落，标记为疑似标题；

(4)摘要定位子模块

中英文摘要存储在<body>元素的子元素<paragraph>内，在定位中文摘要时，首先获取标题定位子模块定位到的全部标题，然后在其中找到“摘要”两个字，获取“摘要”标题所处的<paragraph>在<body>中的位置；然后依次遍历开始位置后的每个<paragraph>；若遍历到一个正文段落，则表示摘要定位成功；若遍历某<paragraph>中的<text>元素，发现其包含的内容为“关键词”，则在下一段终止摘要的处理，摘要定位完成；英文摘要的定位与中文摘要定位方法大致相同，唯一区别在于将“摘要”二字替换为“Abstract”，将“关键词”替换为“Key words”；

(5)目录定位子模块

目录定位分为两种情况：经过“更新域”处理过的目录和未经“更新域”处理的目录；前者包含<Hyperlink>元素，用以标记更新域的位置，该更新域的位置即为目录；后者包含<FieldChar>元素；在定位目录时，遍历<body>中全部<paragraph>，所有包含<Hyperlink>元素及<FieldChar>元素的<paragraph>均为目录；

(6)正文定位子模块

首先寻找到全文的第一个带编号的标题，标题后的第一个段落就是正文开始处；接着过滤中间封装标题的元素和封装图的元素；最后定位正文结束部分，寻找正文结束后出现的第一个没有编号的标题，以此为正文部分的结束定位标志；

(7)页眉页脚定位子模块

(8)表格定位子模块

表格信息存储在<body>元素的子元素<tbl>内，依次遍历每个<tbl>元素，找到表格位置；定位表名的方法如下：首先获取<tbl>的位置信息，即计算这个<tbl>元素是<body>的第几个子元素，然后再检测前一个位置的是否为空段落，空段落体现为一个空行，非空段落作为表名处理；如在该前一个位置没有找到表名，则再向前回溯一个位置继续进行判断；如超过3步回溯仍未找到表名，认为表名缺失或表名的格式有误；

(9)图形定位子模块

找到<paragraph>元素的子元素<run>，图片信息存储在<run>的子元素<drawing>和<picture>中；在定位图片时，遍历所有的<paragraph>，对每一个包含<drawing>或<picture>的<paragraph>，先确定该<paragraph>是<body>的第几个子元素，再查看该<paragraph>的下一个<paragraph>的内容是否为空，若为空则为空行；若不为空再继续判断该<paragraph>内是否包含文字“图”，若包含成功定位到图名，若不包含则认为图名缺失或图名的格式有误；

(10)参考文献定位子模块

参考文献存储在<body>元素的子元素<paragraph>内；在定位参考文献时，首先获取标题定位子模块定位到的全部标题，然后在其中找到“参考文献”四个字，获取“参考文献”标题所处的<paragraph>在<body>中的位置；然后依次遍历开始位置后的每个<paragraph>；若遍历到一个包含文字的<paragraph>，则说明该<paragraph>包含参考文献的内容；若遍历到一个标题段落，则说明参考文献内容结束，定位完成；

(11)授权书定位子模块

授权书存储在<body>元素的子元素<paragraph>内，为论文的最后一页；定位授权书时，首先找到参考文献结束的位置，然后找到该位置之后第一个包含文字的<paragraph>；若其中的文字包含“授权书”，则说明成功定位到授权书；若其中的文字不包含“授权书”，则继续遍历之后的<paragraph>；若之后的<paragraph>中的文字包含“授权书”，则成功定位到授权书；若之后不能找到文字包含“授权书”的<paragraph>，则说明授权书缺失或授权书标题有误；

格式提取模块为获取论文各特定部分的样式；对于学位论文的每个特定部分，在格式提取模块中都有对应的属性配置文件和提取算法；格式提取模块根据该特定部分属性配置文件中的配置信息，调用该特定部分的提取算法来提取待检测学位论文的格式；格式提取模块包括段落属性提取子模块和特殊格式属性提取子模块；

(1)段落属性提取子模块

待测学位论文的每个特定部分都具有段落属性，段落属性提取是所有特定部分的共性工作，由段落属性提取子模块完成；在OpenXML中，典型的段落属性有：字体、字号、段间距；

①字体

依次遍历每一个元素，按照样式的层次结构依次提取字体样式，获取到中英文的字体；检测段落是否为全英文、全中文或者既有中文又有英文，若是全英文，舍弃提取到的中文字体样式，不能用于对比模块；若是全中文，舍弃提取到的英文字体样式，不能用于对比模块；若既有中文又有英文，提取到的中文英文字体样式全部保存；

②字号

首先按照样式的层次结构获取<sz>的属性Val的值，计算得到以磅为单位的字号大小；然后参考字号对照表得到字号和磅数的对应关系，得到实际字号；将字号保存用于对比模块；

③段间距

段前距离信息从<spacing>元素的before和beforeLines属性中提取；首先依据样式的层次结构找到<spacing>元素；若该元素包含beforeLines属性，获取该属性对应的属性值，计算得到以行距倍数表示的该段落的段前距离；利用<sectPr>元素的子元素<docGrid>的linePitch属性获得一行的磅数，统一换算成以“磅”为单位的段前距离；若不包含beforeLines属性，则获取before属性的属性值，计算得到以“磅”为单位的段前距离；

段后距离信息从<spacing>元素的after和afterLines属性中提取；首先依据样式的层次结构找到<spacing>元素；若该元素包含afterLines属性，获取该属性对应的属性值，计算得到以行距倍数表示的该段落的段后距离；换算成以“磅”为单位的段后距离；若不包含afterLines属性，则获取after属性的属性值，计算得到以“磅”为单位的段后距离；

行距样式信息从<spacing>元素的lineRule和line属性中提取，lineRule保存的是解析line的方法；首先依据样式的层次结构找到<spacing>元素；若lineRule为auto或省略，则此时提取的结果为以行距倍数表示的该段落的行距；若lineRule属性的值为atLeast或为exactly，此时提取的结果以磅为单位；与段前距一样，统一转换为以磅为单位方便对比；

(2)特殊格式属性提取子模块

特殊格式提取子模块用于处理除段落属性之外的其他格式提取问题，包括参考文献样式提取、图和表所在章节的标题名称提取等，这些格式要求在OpenXML中并没有明确的元素对应，需采用特殊方式提取；

①参考文献格式提取

不同类型的参考文献书写格式不同，需先确定每条参考文献属于哪种类型，然后才能进行详细格式分析；首先利用正则表达式匹配参考文献的标志代码，根据标志代码确定参考文献的类型；若无法匹配，说明此条参考文献缺少标志代码，保存错误信息后，继续下一条参考文献格式的提取；若匹配成功，接着以中括号为分割点把该条参考文献分割成几部分，检测作者、出版社、出版年份、期刊号格式是否满足要求；接下来获取参考文献的编号样式，判断参考文献的编号是否连续，若不连续，保存错误信息，若连续，进入下一步；最后统计参考文献条目的数目，保存起来用于对比模块；

检测参考文献连续性的方法如下：首先记录并维护参考文献的正确编号值，即编号为从1开始的连续自然数，每次检测到新的参考文献条目后此值加1；接着判断此参考文献是手动编号还是自动编号，若是手动编号，利用正则表达式获取编号，然后判断是否和正确编号值相同，若是自动编号只需检测自动编号开始的参考文献编号是否和正确编号值相同；

②图和表所在章节的标题名称提取

对比模块是将格式提取模块提取出的待测论文中的格式特征与论文模板中的规则进行对比，分析二者是否一致，从而验证待测论文格式是否正确，并将对比结果不一致格式问题输出到检测报告中；该模块分为规则配置文件、规则对比子模块、报告生成子模块三个部分；

(1)规则配置文件

规则配置文件包含了模板论文规定的规则，是检测待测论文正确与否的标准；规则配置文件的内容按照封面、独创性声明、标题、摘要、目录、正文、页眉页脚、表格、图形、参考文献、授权书十一个特定部分进行配置；在调用规则配置文件时，首先由单元定位模块确定当前检测的位置在论文中所属的部分，然后检测该部分是否已存在xml格式的配置文件，若存在，则进入规则对比子模块；若不存在，则说明当前部分没有设置格式要求，结束当前部分的检测；

(2)规则对比子模块

规则对比子模块是将待测论文的格式特征与规则配置文件配置的规则进行对比，检测格式提取模块提取出的待测论文的格式特征的正误；在进行对比时，获取单元定位模块的结果，判断当前要检测的段落是待测论文的哪一部分，在规则配置文件中找到模板论文相应的规则，将格式提取模块提取到的该部分的格式特征与相应的规则配置文件中的规则进行对比，若该格式特征与规则配置文件中的规则一致，则说明该格式正确；反之该格式特征错误；

(3)报告生成子模块