CN116306487A - 高等院校学位论文格式智能检测系统及方法 - Google Patents
高等院校学位论文格式智能检测系统及方法 Download PDFInfo
- Publication number
- CN116306487A CN116306487A CN202310161381.0A CN202310161381A CN116306487A CN 116306487 A CN116306487 A CN 116306487A CN 202310161381 A CN202310161381 A CN 202310161381A CN 116306487 A CN116306487 A CN 116306487A
- Authority
- CN
- China
- Prior art keywords
- detection
- paper
- format
- module
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 298
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012797 qualification Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 10
- 238000011160 research Methods 0.000 claims description 10
- 238000007430 reference method Methods 0.000 claims description 9
- 238000004804 winding Methods 0.000 claims description 6
- 108091026890 Coding region Proteins 0.000 claims description 5
- 238000007373 indentation Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims 2
- 235000019580 granularity Nutrition 0.000 description 33
- 238000005457 optimization Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000008094 contradictory effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了高等院校学位论文格式智能检测系统及方法,属于智能检测技术领域。该系统包括论文解析服务模块、论文格式检测主服务模块和11个子模块;其中解析服务模块用于读取并解析论文文件,生成论文格式中间文件;检测主服务模块根据论文格式中间文件,将论文文件的不同部分内容分别输入对应的子模块检测,并接收、汇总检测结果,生成论文格式自查表;与现有技术相比,本发明的系统中各个模块在检测过程中不相互依赖,且可以并行运行,有效提高检测速度;在此基础上,实现了对论文格式更完整更细致的检测,帮助作者对论文格式进行查找并、修正,直至符合要求;且该系统可以在本地设备运行,保证论文信息的安全性。
Description
技术领域
本发明属于智能检测技术领域,尤其涉及高等院校学位论文格式智能检测系统及方法。
背景技术
在当代,论文是一种描述各领域学术研究成果的文章,是探讨学术问题、进行学术研究的一种方式,也是体现作者所从事研究工作成果的主要表现,是作者申请学位的重要依据。各院校及社会机构对于论文的撰写都有着严格的要求,特别是论文的格式要严格遵守规范,文章的查重率需要在特定的范围之内。作者在撰写论文的过程中,往往会注重于对研究结果、技术核心等的描述而忽略对格式上的规范处理,为了写出的论文符合要求,需要在最后对论文的格式进行检查修正处理。
但论文往往是一篇篇幅较长、内容结构较为复杂的文章,涉及的格式要求很多,光靠作者人工检查难免会产生疏忽,因此需要一个智能检测系统来对文章进行自动检测。如专利号为CN111488724A的技术公开了一种论文格式检测方法,从字体、字号、是否对齐、段前距、段后距、行间距等来检查论文的格式,但检测内容不全面,忽略了对论文其他格式的检测,如图、表、标题、摘要等部分;如专利号为CN114386400A的技术则公开了一种基于有限状态机的毕业论文格式检测方法,相较于专利CN111488724A的技术则实现了更详细的检测内容,但检测部分仍旧不够细致,且该技术基于有限状态机的方式运行,即按顺序对各检测模块进行检测,无法实现并行处理,效率交低。另外,还存在一种论文格式检测网站,需要用户将论文提交到远程服务器检测,可能存在安全问题,导致未公开的论文泄露、查重率升高等情况。
因此,亟须提供高等院校学位论文格式智能检测系统及方法,实现对论文格式更细致完整的检测、且检测效率更高、更安全。
发明内容
针对现有技术存在的问题,本发明提供了高等院校学位论文格式智能检测系统及方法,可以对更安全、更细致、完整地检测论文格式是否符合要求,且有效提高检测效率。
本发明的技术方案是这样实现的:
高等院校学位论文格式智能检测系统,包括论文解析服务模块、论文格式检测主服务模块和若干个子模块;
所述论文解析服务模块用于读取并解析论文文件,生成论文格式中间文件;
所述论文格式检测主服务模块根据得到的论文格式中间文件,将论文文件的不同格式内容分别输入对应的子模块检测,并接收、汇总各子模块的检测结果,生成论文格式自查表,论文格式自查表可以向作者展示论文的格式检查结果,帮助作者实现论文格式自查及修改;
所述子模块包括封面检测模块、摘要检测模块、标题检测模块、论文结构检测模块、页眉页脚检测模块、段落检测模块、公式图标检测模块、图检测模块、表格检测模块、算法检测模块和参考文献检测模块中的一种或多种。
作为以上方案的进一步优化,所述封面检测模块中,检测项及合格标准为:题目居中对齐;若题目长度超过一行,每一行都需要加下划线且各行的下划线等齐;横线处填写的作者姓名、指导教师姓名等内容需居中对齐;论文的封面和扉页上的指导教师姓名和职称信息准确且一致;即对于论文中关于作者等信息下方都设有下划线,下划线上方的文字居中对齐,且封面上和扉页上的内容要对应一致;
所述摘要检测模块中,检测项及合格标准为:摘要中包含各章节的关键问题、研究方法;英文缩写规范;关键词数量;关键词以逗号或分号分开,且最后一个关键词后无标点符号;
所述标题检测模块中,检测项及合格标准为:标题行无标点符号;标题都为名词或名词短语,而不是带主谓语的句子;标题无中文简称或英文缩写;论文的题目和章、节、小节标题之间无前后矛盾、重复或混乱;
所述论文结构检测模块中,检测项及合格标准为:不存在只有一个分条目的章或节;不存在篇幅太短的章或节,即章节的字数不能小于预设的最小篇幅阈值;依据毕业论文要求分级编码序号;序号标点使用正确;子标题在父标题的正文内容之后;
所述页眉页脚检测模块中,检测项及合格标准为:页面包含页眉、页脚和页码且各页面采用同一格式;
所述段落检测模块中,检测项及合格标准为:段落字数不能超过预设定的值;不存在一段文字作为一小节;不存在一个字占据一行;缩进、正文字体和段落文字的行距的使用都符合现行论文标准规范;
所述公式图标检测模块中,检测项及合格标准为:论文中的同一个符号都为正体或都为斜体;每个公式都按章编号;每个公式在正文中的引用方法为“如式(X-X)”;代码符号与数学符号无非法混用;
所述图检测模块中,检测项及合格标准为:每个图按章编号且拥有图标题;图标题的字号比正文小半号;每个图在正文中的引用方法为“如图x.x”;每个图都不跨页展示;图的前后无大片空白;多个图并列要分别标序号;坐标图的横、纵坐标及单位在图中准确标注;
所述表格检测模块中,检测项及合格标准为:每个表格按章编号且拥有表标题;表标题及表中的文字的字号比正文小半号;每个表格都不跨页展示;每个表格在正文中的引用方法为“如表x.x”;
所述算法检测模块中,检测项及合格标准为:每个算法都不跨页展示;算法中,除注释外,都为中文或伪代码;
所述参考文献检测模块中,检测项及合格标准为:参考文献的数量为30至50篇;近5年的论文和专著数量不少于参考文献总数的1/3;英文论文数量不少于参考文献总数的1/2;类型为专著([M])的参考文献不超过5本;卷期号页码齐全,卷期号页码格式统一;书、期刊、会议论文统一规范;分隔作者、题目、期刊会议名称、卷期号页码的标点的使用统一且符合规范;中英文英文期刊名的字体格式统一;作者名引用规范;参考文献在正文中都有引用,并按正文中出现的先后次序罗列;参考文献上标检测。
作为以上方案的进一步优化,所述图检测模块中,图的提取识别方法为基于VGG16神经网络模型进行的分类预测方法。
作为以上方案的进一步优化,所述表格检测模块中和所述图检测模块中,坐标及表格的识别方法为基于tesseract-ocr的文本识别技术。
作为以上方案的进一步优化,所述论文格式自查表为包含不同格式的检测结果的输出结果表,每个检测项在论文格式自查表上的信息包括检测项描述、检测结果、错误统计和整改建议。
本发明还公开了高等院校学位论文格式智能检测方法,应用了上述的高等院校学位论文格式智能检测系统,包括以下步骤:
S1、读取pdf格式或docx格式的论文文件,将文件输入论文解析服务模块;
S2、论文解析服务模块根据选择的文章检测粒度对论文文件进行解析,得到包含不同节点的论文格式中间文件;作者可以自由根据对论文格式的严格程度的需求,在开始论文检测之前预先设置系统的配置文件,选择不同的文章检测粒度。
S3、论文格式检测主服务模块从论文格式中间文件内提取不同节点信息,并分别输入对应的子模块进行检测;
S4、各子模块根据得到的节点信息,并发启动检测服务,即多个子模块可以同时开启检测任务,并将检测结果反馈回论文格式检测主服务模块;
S5、论文格式检测主服务模块接收各子模块的检测结果并汇总输出论文格式自查表。
作为以上方案的进一步优化,所述文章检测粒度为字粒度、词粒度、句粒度或段落粒度中的一种。
作为以上方案的进一步优化,所述论文格式中间文件为规范格式化的xml文件,包含多种类型的节点,包括文章节点、章节节点、段落节点、句节点和字节点,将论文解析为xml格式的中间文件后,方便论文格式检测主服务模块快速区分、查找论文中的不同内容并输入对应的子模块进行检测。
作为以上方案的进一步优化,步骤S4中,子模块会根据选择的文章检测粒度增加不同的检测项;
当选用的文章检测粒度为字粒度时,会进行错别字检测、标点符号误用检测、字体和字号检测;
当选用的文章检测粒度为词粒度时,会进行错误词检测、缩略词检测;
当选用的文章检测粒度为句粒度时,会进行病句检测、超长句检测、语言缺失系数检测;
当选用的文章检测粒度为段粒度时,会进行段落的前瞻性检测、摘要概括性检测、标题管理性检测。当选择了不同文章检测粒度,系统会根据选择对论文格式采取不同细致程度的监测。
与现有技术相比,本发明取得以下有益效果:
(1)本发明将检测系统划分为不同的多个检测子模块,将论文的内容提取并分别输入对应的各子模块进行检测,各个模块在检测过程中不相互依赖,且可以并行运行,有效提高了检测的速度;
(2)本发明提供的系统实现了对论文格式更完整更细致的检测项目,不仅实现了对论文基本格式,如字体字号等的检测,还实现了对论文内容的语法检测,如错误字词句、标点符合的检测,以及实现了对论文内容的结构性检测,能够判断论文的文章框架结构是否符合要求、前后文的关联引用是否一致或矛盾等;可以帮助作者对论文格式进行查找、修正,直至符合现行科研学术机构的要求;
(3)本发明在实现各子模块格式检测的基础上,提供了不同文章检测粒度的选择,让作者可以实现对论文不同程度的检测需求;
(4)本发明提供的系统可以在用户设备的本地运行,对论文进行检测,保证论文信息的安全性。
附图说明
图1是本发明实施例提供的高等院校学位论文格式智能检测系统的系统流程图;
图2是本发明实施例提供的高等院校学位论文格式智能检测方法的数据流图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供了高等院校学位论文格式智能检测系统,包括论文解析服务模块、论文格式检测主服务模块和11个子模块;将检测系统划分为不同的多个检测子模块,将论文的内容提取并分别输入对应的各子模块进行检测,各个模块在检测过程中不相互依赖,且可以并行运行,有效提高了检测的速度;
论文解析服务模块用于读取并解析论文文件,生成论文格式中间文件;
论文格式检测主服务模块根据得到的论文格式中间文件,将论文文件的不同格式内容分别输入对应的子模块检测,并接收、汇总各子模块的检测结果,生成论文格式自查表,论文格式自查表可以向作者展示论文的格式检查结果,帮助作者实现论文格式自查及修改;在本实施例中,论文格式自查表为包含不同格式的检测结果的输出结果表,每个检测项在论文格式自查表上的信息包括检测项描述、检测结果、错误统计和整改建议。
子模块包括封面检测模块、摘要检测模块、标题检测模块、论文结构检测模块、页眉页脚检测模块、段落检测模块、公式图标检测模块、图检测模块、表格检测模块、算法检测模块和参考文献检测模块。
在本实施例中,封面检测模块中,检测项及合格标准为:题目居中对齐;若题目长度超过一行,每一行都需要加下划线且各行的下划线等齐;横线处填写的作者姓名、指导教师姓名等内容需居中对齐;论文的封面和扉页上的指导教师姓名和职称信息准确且一致;即对于论文中关于作者等信息下方都设有下划线,下划线上方的文字居中对齐,且封面上和扉页上的内容要对应一致;该模块的技术实现方法为:①基于ocr技术检测论文模板与标准模板基本格式是否统一;②判定题目、作者姓名等内容的格式是否符合要求;③对于姓名,检测论文第一页的中文姓名与论文第二页对应的姓名拼音是否匹配;④对于职称,维护一个中英文职称映射,判定论文第一第二页教师职称信息是否准确且一致。OCR即OpticalCharacter Recognition,指光学字符识别,是通过扫描仪、数码相机等电子设备识别纸张或图片上字符的技术。
摘要检测模块中,检测项及合格标准为:摘要中包含各章节的关键问题、研究方法;英文缩写规范;关键词数量;关键词以逗号或分号分开,且最后一个关键词后无标点符号;该模块的技术实现方法为:①提取各个章节内容,分别对各个章节内容自动生成摘要,然后将生成的各章节摘要与原文各章节摘要进行文本相似度对比,确保论文摘要中描述了各章节的关键问题与研究方法;②基于缩写检测模型检测摘要中是否包含中文简写或英文缩写,缩写检测模型可使用论文中的英文缩略词进行增量训练;③基于正则表达式,判断关键词格式是否符合标准。增量训练也叫增量学习是机器学习中的一种数据训练方法,是指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识。每当新增数据时,并不需要重建所有的知识库,而是在原有知识库的基础上,仅对由于新增数据所引起的变化进行更新。
标题检测模块中,检测项及合格标准为:标题行无标点符号;标题都为名词或名词短语,而不是带主谓语的句子;标题无中文简称或英文缩写;论文的题目和章、节、小节标题之间无前后矛盾、重复或混乱;该模块的技术实现方法为:①通过正则表达式检测标题是否包含标点,如正则表达式"[.!!,,。?、]"可以用于检测句子中是否包含对应的标点符号;②对标题进行分词与词性标注,然后基于正则表达式判定标题是否为名词或名词短语;③基于缩写检测模型检测标题是否包含中文简写英文缩写;缩写词是用于代表整个单词或短语的缩写或缩略形式,例如“ML”代表“机器学习”,对缩写词的检测可视为一个二分类问题,是NLP中命名实体识别任务的一个子任务,缩写检测模型是用缩写检测数据集训练得到的分类模型,用于对一个词是否为缩写形式进行分类;③对各章标题、各章下的各节标题、各节下的各小节标题分别进行文本相似度比较,确保无前后矛盾、重复或混乱。正则表达式是一种文本模式,是一种使用由普通字符(如a-z的字母)、特殊字符(如&、$等)、数字组成的字符串来描述匹配某个句法规则的字符串的规则表达式,通常用于检索、替换符合某个规则的文本。
论文结构检测模块中,检测项及合格标准为:不存在只有一个分条目的章或节;不存在篇幅太短的章或节,即章节的字数不能小于预设的最小篇幅阈值;依据毕业论文要求分级编码序号;序号标点使用正确;子标题在父标题的正文内容之后;该模块的技术实现方法为:①统计章或节的子标题个数,检测子标题个数是否大于1;②统计章节篇幅字数,检测篇幅字数是否大于设定的最小篇幅阈值;③检测论文各章节的标题编码序号是否符合分级要求;④基于正则表达式判定各级标题编码序号标点是否使用正确;⑤识别标题与其子小节标题之间是否有正文文字。
页眉页脚检测模块中,检测项及合格标准为:页面包含页眉、页脚和页码且各页面采用同一格式;该模块的技术实现方法为:提取论文页码页眉信息,①对于页码,判断是否页码数按顺序从1开始递增;②对于页眉,判断页面信息是否与当前页面所属章节标题相符。
段落检测模块中,检测项及合格标准为:段落字数不能超过预设定的值;不存在一段文字作为一小节;不存在一个字占据一行;缩进、正文字体和段落文字的行距的使用都符合现行论文标准规范;该模块的技术实现方法为:①统计章节篇幅字数,检测篇幅字数是否小于设定的最大篇幅阈值;②统计每一小节的段落数,判断是否大于1;③统计论文中每一行文字个数,判断是否大于1;④对于每个段落开头,判断是否符合缩进要求;同时正文,判断其字体与行距是否符合规范。
公式图标检测模块中,检测项及合格标准为:论文中的同一个符号都为正体或都为斜体;每个公式都按章编号;每个公式在正文中的引用方法为“如式(X-X)”;代码符号与数学符号无非法混用;该模块的技术实现方法为:①第一次检测到正文中的某一个特定符号时,记录该符号及其对应的字体(正体/斜体),下一次检测到该符号时判断其字体是否与记录的字体一致;②检测公式编号,判断其是否与其所属章节编号一致,且在同一章节的上一个公式编号的基础上加一(若为章节下的第一个公式则为第一);③检测每个公式的上一段落与下一段落正文,基于正则表达式(".*?(如式(\d-\d)).*?")判断段落正文中是否存在“如式(X-X)”等作引用;④维护一个数学符号集合存储所有数学符号,检测论文中公式出现的数学符号是否在所维护的数学符号集合范围内,不在范围内的符号判定为代码符号。
图检测模块中,检测项及合格标准为:每个图按章编号且拥有图标题;图标题的字号比正文小半号;每个图在正文中的引用方法为“如图x.x”;每个图都不跨页展示;图的前后无大片空白;多个图并列要分别标序号;坐标图的横、纵坐标及单位在图中准确标注;该模块的技术实现方法为:①检测图的编号,判断其是否与其所属章节编号一致,且在同一章节的上一个公式编号的基础上加一(若为章节下的第一个公式则为第一);②判断每个图是否都有标题,并检测图标题字号是否符合标准;③检测每个图的上一段落与下一段落正文,基于正则表达式判断段落正文中是否存在“如图x.x”等作引用;④对每个图所属页面进行统计,确保每个图不跨页;⑤根据图片标题判断图片是否为坐标图,对坐标图基于ocr技术检测图中文字与文字对应坐标,然后基于规则判断图中横纵坐标、单位是否在图中被准确标注。在本实施例中,图检测模块中,图的提取识别方法为基于VGG16神经网络模型进行的分类预测方法。VGG16网络结构是VGGNET模型的一种,适用于图形分类和定位任务(VGG是指Visual Geometry Group,是牛津大学视觉几何组提出的模型)。
表格检测模块中,检测项及合格标准为:每个表格按章编号且拥有表标题;表标题及表中的文字的字号比正文小半号;每个表格都不跨页展示;每个表格在正文中的引用方法为“如表x.x”;该模块的技术实现方法为:①检测表的编号,判断其是否与其所属章节编号一致,且在同一章节的上一个公式编号的基础上加一(若为章节下的第一个公式则为第一);②判断每个表是否都有标题,并检测表标题字号是否符合标准;③对每个表所属页面进行统计,确保每个表不跨页;④检测每个表的上一段落与下一段落正文,基于正则表达式判断段落正文中是否存在“如表x.x”等作引用;
在本实施例中,表格检测模块中和图检测模块中,坐标及表格的识别方法为基于tesseract-ocr的文本识别技术。Tesseract是一个开源的OCR(Optical CharacterRecognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本。
算法检测模块中,检测项及合格标准为:每个算法都不跨页展示;算法中,除注释外,都为中文或伪代码;该模块的技术实现方法为:①对每个算法所属页面进行统计,确保每个算法都不跨页;②提取算法内容,基于正则表达式区分算法的注释部分与正文部分,再基于正则表达式判断算法正文部分是否都为中文或都为伪代码,以"#"作为注释符号(python注释)为例,可以用正则表达式"^#.*"匹配以"#"为开头的字符串,即为注释部分。
参考文献检测模块中,检测项及合格标准为:参考文献的数量为30至50篇;近5年的论文和专著数量不少于参考文献总数的1/3;英文论文数量不少于参考文献总数的1/2;类型为专著([M])的参考文献不超过5本;卷期号页码齐全,卷期号页码格式统一;书、期刊、会议论文统一规范;分隔作者、题目、期刊会议名称、卷期号页码的标点的使用统一且符合规范;中英文英文期刊名的字体格式统一;作者名引用规范;参考文献在正文中都有引用,并按正文中出现的先后次序罗列;参考文献上标检测。该模块的技术实现方法为:①基于正则表达式获取参考文献论文的年份信息,如表达式"[,.,](\d\d\d\d年?)[,.,]"可以匹配参考文献中的年份信息,进而统计年份为近5年的论文和专著个数,判断其是否不少于总数的1/3;②统计参考文献总数,判断是否总数值为30-50区间内;③基于正则表达式,统计英文参考文献总数,如可以通过表达式"[\u4e00-\u9fa5]"匹配参考文献中的年份信息,得到中文参考文献数量,减去之后进而得到英文文献的数量,判断其是否不少于参考文献总数的1/2、统计标为[M]的专著个数,判断其是否小于等于5、判断参考文献格式是否符合规范;⑥检测参考文献字体,判断是否字体统一;⑦基于参考文献上标,采用正则表达式统计正文中引用参考文献的位置以及所引用的参考文献,将这些被引用到的参考文献与论文完整参考文献列表进行比对,判断是否存在没有被引用到的参考文献;另外,引用参考文献的位置若有引用作者名,则判断作者名引用是否符合规范。
本系统实现了对论文格式更完整更细致的检测项目,不仅实现了对论文基本格式,如字体字号等的检测,还实现了对论文内容的语法检测,如错误字词句、标点符合的检测,以及实现了对论文内容的结构性检测,能够判断论文的文章框架结构是否符合要求、前后文的关联引用是否一致或矛盾等;可以帮助作者对论文格式进行查找、修正,直至符合现行科研学术机构的要求;
如图2所示,本实施例还公开了高等院校学位论文格式智能检测方法,应用了上述的高等院校学位论文格式智能检测系统,包括以下步骤:
S1、读取pdf格式或docx格式的论文文件,将文件输入论文解析服务模块;
S2、论文解析服务模块根据选择的文章检测粒度对论文文件进行解析,得到包含不同节点的论文格式中间文件;在本实施例中,论文格式中间文件为规范格式化的xml文件,包含多种类型的节点,包括文章节点、章节节点、段落节点、句节点和字节点,将论文解析为xml格式的中间文件后,方便论文格式检测主服务模块快速区分、查找论文中的不同内容并输入对应的子模块进行检测。
在本实施例中,文章检测粒度为字粒度、词粒度、句粒度或段落粒度中的一种。作者可以自由根据对论文格式的严格程度的需求,在开始论文检测之前预先设置系统的配置文件,选择不同的文章检测粒度。
S3、论文格式检测主服务模块从论文格式中间文件内提取不同节点信息,并分别输入对应的子模块进行检测;
S4、各子模块根据得到的节点信息,并发启动检测服务,即多个子模块可以同时开启检测任务,并将检测结果反馈回论文格式检测主服务模块;在本实施例中,子模块会根据选择的文章检测粒度增加不同的检测项;
当选用的文章检测粒度为字粒度时,会进行错别字检测、标点符号误用检测、字体和字号检测;
当选用的文章检测粒度为词粒度时,会进行错误词检测、缩略词检测;
当选用的文章检测粒度为句粒度时,会进行病句检测、超长句检测、语言缺失系数检测;
当选用的文章检测粒度为段粒度时,会进行段落的前瞻性检测、摘要概括性检测、标题管理性检测。当选择了不同文章检测粒度,系统会根据选择对论文格式采取不同细致程度的监测,让作者可以实现对论文不同程度的检测需求。
S5、论文格式检测主服务模块接收各子模块的检测结果并汇总输出论文格式自查表。
本发明提供的系统可以在用户设备的本地运行,对论文进行检测,保证论文信息的安全性。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (9)
1.高等院校学位论文格式智能检测系统,其特征在于,包括论文解析服务模块、论文格式检测主服务模块和若干个子模块;
所述论文解析服务模块用于读取并解析论文文件,生成论文格式中间文件;
所述论文格式检测主服务模块根据得到的论文格式中间文件,将论文文件的不同格式内容分别输入对应的子模块检测,并接收、汇总各子模块的检测结果,生成论文格式自查表;
所述子模块包括封面检测模块、摘要检测模块、标题检测模块、论文结构检测模块、页眉页脚检测模块、段落检测模块、公式图标检测模块、图检测模块、表格检测模块、算法检测模块和参考文献检测模块中的一种或多种。
2.根据权利要求1所述的高等院校学位论文格式智能检测系统,其特征在于,
所述封面检测模块中,检测项及合格标准为:题目居中对齐;若题目长度超过一行,每一行都需要加下划线且各行的下划线等齐;横线处填写的作者姓名、指导教师姓名等内容需居中对齐;论文的封面和扉页上的指导教师姓名和职称信息准确且一致;
所述摘要检测模块中,检测项及合格标准为:摘要中包含各章节的关键问题、研究方法;英文缩写规范;关键词数量;关键词以逗号或分号分开,且最后一个关键词后无标点符号;
所述标题检测模块中,检测项及合格标准为:标题行无标点符号;标题都为名词或名词短语,而不是带主谓语的句子;标题无中文简称或英文缩写;论文的题目和章、节、小节标题之间无前后矛盾、重复或混乱;
所述论文结构检测模块中,检测项及合格标准为:不存在只有一个分条目的章或节;不存在篇幅太短的章或节,即章节的字数不能小于预设的最小篇幅阈值;依据毕业论文要求分级编码序号;序号标点使用正确;子标题在父标题的正文内容之后;
所述页眉页脚检测模块中,检测项及合格标准为:页面包含页眉、页脚和页码且各页面采用同一格式;
所述段落检测模块中,检测项及合格标准为:段落字数不能超过预设定的值;不存在一段文字作为一小节;不存在一个字占据一行;缩进、正文字体和段落文字的行距的使用都符合现行论文标准规范;
所述公式图标检测模块中,检测项及合格标准为:论文中的同一个符号都为正体或都为斜体;每个公式都按章编号;每个公式在正文中的引用方法为“如式(X-X)”;代码符号与数学符号无非法混用;
所述图检测模块中,检测项及合格标准为:每个图按章编号且拥有图标题;图标题的字号比正文小半号;每个图在正文中的引用方法为“如图x.x”;每个图都不跨页展示;图的前后无大片空白;多个图并列要分别标序号;坐标图的横、纵坐标及单位在图中准确标注;
所述表格检测模块中,检测项及合格标准为:每个表格按章编号且拥有表标题;表标题及表中的文字的字号比正文小半号;每个表格都不跨页展示;每个表格在正文中的引用方法为“如表x.x”;
所述算法检测模块中,检测项及合格标准为:每个算法都不跨页展示;算法中,除注释外,都为中文或伪代码;
所述参考文献检测模块中,检测项及合格标准为:参考文献的数量为30至50篇;近5年的论文和专著数量不少于参考文献总数的1/3;英文论文数量不少于参考文献总数的1/2;类型为专著([M])的参考文献不超过5本;卷期号页码齐全,卷期号页码格式统一;书、期刊、会议论文统一规范;分隔作者、题目、期刊会议名称、卷期号页码的标点的使用统一且符合规范;中英文英文期刊名的字体格式统一;作者名引用规范;参考文献在正文中都有引用,并按正文中出现的先后次序罗列;参考文献上标检测。
3.根据权利要求2所述的高等院校学位论文格式智能检测系统,其特征在于,所述图检测模块中,图的提取识别方法为基于VGG16神经网络模型进行的分类预测方法。
4.根据权利要求2所述的高等院校学位论文格式智能检测系统,其特征在于,所述表格检测模块中和所述图检测模块中,坐标及表格的识别方法为基于tesseract-ocr的文本识别技术。
5.根据权利要求2所述的高等院校学位论文格式智能检测系统,其特征在于,所述论文格式自查表为包含不同格式的检测结果的输出结果表,每个检测项在论文格式自查表上的信息包括检测项描述、检测结果、错误统计和整改建议。
6.高等院校学位论文格式智能检测方法,应用了如权利要求1-5任一项所述的高等院校学位论文格式智能检测系统,其特征在于,所述方法的步骤如下:
S1、读取pdf格式或docx格式的论文文件,将文件输入论文解析服务模块;
S2、论文解析服务模块根据选择的文章检测粒度对论文文件进行解析,得到包含不同节点的论文格式中间文件;
S3、论文格式检测主服务模块从论文格式中间文件内提取不同节点信息,并分别输入对应的子模块进行检测;
S4、各子模块根据得到的节点信息,并发启动检测服务,并将检测结果反馈回论文格式检测主服务模块;
S5、论文格式检测主服务模块接收各子模块的检测结果并汇总输出论文格式自查表。
7.根据权利要求6所述的高等院校学位论文格式智能检测方法,其特征在于,所述文章检测粒度为字粒度、词粒度、句粒度或段落粒度中的一种。
8.根据权利要求6所述的高等院校学位论文格式智能检测方法,其特征在于,所述论文格式中间文件为规范格式化的xml文件,包含多种类型的节点,包括文章节点、章节节点、段落节点、句节点和字节点。
9.根据权利要求6所述的高等院校学位论文格式智能检测方法,其特征在于,步骤S4中,子模块会根据选择的文章检测粒度增加不同的检测项;
当选用的文章检测粒度为字粒度时,会进行错别字检测、标点符号误用检测、字体和字号检测;
当选用的文章检测粒度为词粒度时,会进行错误词检测、缩略词检测;
当选用的文章检测粒度为句粒度时,会进行病句检测、超长句检测、语言缺失系数检测;
当选用的文章检测粒度为段粒度时,会进行段落的前瞻性检测、摘要概括性检测、标题管理性检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310161381.0A CN116306487A (zh) | 2023-02-23 | 2023-02-23 | 高等院校学位论文格式智能检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310161381.0A CN116306487A (zh) | 2023-02-23 | 2023-02-23 | 高等院校学位论文格式智能检测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116306487A true CN116306487A (zh) | 2023-06-23 |
Family
ID=86793440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310161381.0A Pending CN116306487A (zh) | 2023-02-23 | 2023-02-23 | 高等院校学位论文格式智能检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306487A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473980A (zh) * | 2023-11-10 | 2024-01-30 | 中国医学科学院医学信息研究所 | 一种便携式文档格式文件的结构化解析方法及相关产品 |
-
2023
- 2023-02-23 CN CN202310161381.0A patent/CN116306487A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473980A (zh) * | 2023-11-10 | 2024-01-30 | 中国医学科学院医学信息研究所 | 一种便携式文档格式文件的结构化解析方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hana et al. | Error-tagged learner corpus of Czech | |
CN111259631B (zh) | 一种裁判文书结构化方法及装置 | |
CN109460552B (zh) | 基于规则和语料库的汉语语病自动检测方法及设备 | |
CN111090986A (zh) | 一种公文文档纠错的方法 | |
CN110770735A (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
US8745093B1 (en) | Method and apparatus for extracting entity names and their relations | |
CN114118053A (zh) | 一种合同信息提取方法及装置 | |
CN116306487A (zh) | 高等院校学位论文格式智能检测系统及方法 | |
Lefever et al. | Evaluation of automatic hypernym extraction from technical corpora in English and Dutch | |
Chaudhuri | Reversed word dictionary and phonetically similar word grouping based spell-checker to Bangla text | |
Kazman | Structuring the text of the Oxford English Dictionary through finite state transduction | |
Lai et al. | TellMeWhy: Learning to explain corrective feedback for second language learners | |
CN107862045B (zh) | 一种基于多特征的跨语言剽窃检测方法 | |
Abolhassani et al. | Information extraction and automatic markup for XML documents | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
Rowtula et al. | Towards automated evaluation of handwritten assessments | |
Wagner | Detecting grammatical errors with treebank-induced, probabilistic parsers | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
Sharma et al. | Full-page handwriting recognition and automated essay scoring for in-the-wild essays | |
KR20180054308A (ko) | 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체 | |
Alazani et al. | Rule based question generation for Arabic text: question answering system | |
KS et al. | Automatic error detection and correction in malayalam | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
Shekhar et al. | Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants | |
Syarafina et al. | Designing a word recommendation application using the Levenshtein Distance algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |