CN103440233A

CN103440233A - 一种科技论文标准化自动检测编辑系统

Info

Publication number: CN103440233A
Application number: CN2013104077826A
Authority: CN
Inventors: 蒋静; 赵志刚; 门霞; 潘振宽; 乔春秀
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2013-12-11

Abstract

本发明属于计算机自动检测与编辑技术领域，涉及一种科技论文标准化自动检测编辑系统，信息提取模块从文档中提取信息并存放到信息提取数据库中；添加或选择标准模块对标准化数据库中的标准进行选择、添加、查看明细、修改或删除；修改记录模块检测信息提取数据库中提取的信息与标准化数据库中的标准是否一致；查询修改记录模块是将修改记录添加到修改记录数据库中；信息提取数据库存放从文档中提取出的数据信息；标准化数据库存放文档信息检测的各种标准化数据；修改记录数据库存放文档中数据项被修改的记录；其系统简单，原理科学，使用时减轻劳动强度，提高工作效率，提高期刊总体质量。

Description

一种科技论文标准化自动检测编辑系统

技术领域：

本发明属于计算机自动检测与编辑技术领域，涉及一种科技论文标准化自动检测编辑系统，为科技论文的标准化部分提供由计算机软件完成的标准化自动检测编辑技术。

背景技术：

科技期刊编辑部的一项主要工作就是对待发表的文稿进行审定与编辑，编辑部的主要职责是：一是审读文稿的学术内容，以确保其学术质量，这项工作一般提交给相关领域的专家或学者完成；二是对文稿进行“标准化”加工，使之符合国家标准及行业的出版规定，这项工作是由编辑部的编辑人员完成，标准化加工包括：审核文稿中的题目、各层次标题的序号、字体和字号是否正确；以及摘要、关键词和分类号其属性字等等是否齐全正确；中国学术期刊编辑委员会2006年指定的《中国学术期刊(光盘版)检索与评价数据规范》，简称《规范》，对发表文章中的题目、作者及其工作单位、作者简介、摘要、关键词及其属性等等都必须按照《规范》进行标准化检测与编辑，以方便信息检索，相对于审核文章内容而言，标准化加工技术含量低，但非常烦琐，重复次数多，耗时长，工作效率低，且出错率较高。为保证科技期刊发表的论文符合中国学术期刊编辑委员会指定的《规范》要求，每一篇文稿都要经过编辑部人员的多次校对和编辑加工，但期刊出版发行后仍有不符合标准及出错的现象发生，对于文稿的标准化编辑工作虽然占用了编辑人员大量的工作时间，却难以保证其准确度和出版质量。这种效率低准确度差的人工编辑方式，不适应信息化社会的需要，制约了期刊事业的标准化和规范化建设的发展，阻碍了对于信息资源在更大数据规模和更高技术水平上的充分开发和利用。

发明内容：

本发明的目的在于克服现有技术存在的缺点，寻求设计提供一种科技论文标准化自动检测编辑系统，采用信息抽取技术提取Word文本信息，根据完全匹配算法以及位置特征完成对学术文章需要标准化的部分进行文本信息和特征的抽取、检测、统计以及自动修改四项基本编辑功能，从而提高编辑学术文章的效率、准确率和标准化管理水平。

为了实现上述目的，本发明涉及的科技论文标准化自动检测编辑系统包括信息提取模块、添加或选择标准模块、修改记录模块、查询修改记录模块、信息提取数据库、标准化数据库和修改记录数据库；信息提取模块从文档中提取题目、摘要、关键词、中图分类号、文献标志符、子标题、图形、图表、作者简介和英文部分的信息并存放到信息提取数据库中，信息提取模块在提取文章标题时提取到3级子标题；添加或选择标准模块对标准化数据库中的标准进行选择、添加、查看明细、修改或删除；修改记录模块检测信息提取数据库中提取的信息与标准化数据库中的标准是否一致，若不一致则显示不符合标准的信息是哪几项，修改记录模块按照用户选择的标准自动在Word文档中修改这几项，修改后提示修改完毕的信息；查询修改记录模块是将修改记录添加到修改记录数据库中，方便用户随时查阅修改的内容，查询修改记录模块统一管理信息抽取数据库、标准化数据库和修改记录数据库；为保证信息安全，不同的用户级别具有不同的访问权限，确保系统运行安全可靠；信息提取数据库存放从文档中提取出的数据信息，如表1所示；标准化数据库存放《中国学术期刊(光盘版)检索与评价数据规范》要求的文档信息检测的各种标准化数据，如表2所示，标准化数据库供用户选择一个标准以及查看某个标准的详细规定，能够进行添加、修改和删除一个新/旧标准操作；修改记录数据库如表3所示，存放文档中数据项被修改的记录以备用户查阅。

表1：信息提取数据库

表2：标准化数据库

表3：修改记录数据库

本发明在信息提取模块实现科技论文的标准化自动检测编辑，采用完全匹配算法和按照位置特征两种方法提取Word文档中需要编辑的文字信息及其属性，迅速、准确地从Word文本中提取出需要编辑的标准化信息并进行编辑；其具体执行步骤为：

（1）定义所要提取的各个对象名称；

（2）判断是否有打开的Word文档，若没有打开的Word文档，给出“请打开要编辑的Word文档”的提示，然后退出；若有打开的Word文档，则进入步骤（3）；

（3）将所有打开的Word文档组织成一个文章列表，获取文章列表；

（4）选择要编辑的Word文档，即在文章列表中选中要编辑的Word文档；

（5）对选中的Word文档进行信息提取并存放在信息提取数据库中，然后在树目录中判断选择索引节点，按照用户的选择分别显示所提取的数据信息及其属性；

（6）将提取的数据信息及其属性与标准化数据库中的信息进行比较、统计和检测，判断是否符合标准，若不符合标准，则显示该信息并进入步骤（7）；若符合标准进入步骤（9）；

（7）直接在Word文档中自动修改不符合标准的数据，修改后系统自动提示修改完毕的信息；

（8）将修改记录添加到修改记录数据库中；

（9）询问用户是否需要退出检测编辑，若是则退出，否则返回步骤（6）。

本发明涉及的信息抽取是从指定的文档中提取出所需要的信息，《规范》要求的标准化内容有几十种之多，其中包括：文章题目，作者以及作者的工作单位，摘要，关键词，中图分类号，文献标识符，子标题，图形，图表，作者简介以及英文部分等要素，提取子标题时设计最多可以提取到3级子标题，这在一般情况下已经能够满足要求，《规范》中对上述每一个信息均有标准化要求，以方便信息检索；每个科技期刊编辑部根据自己期刊的特点，根据《规范》的要求都有自己的固定格式，信息提取模块对提取的每一个数据项的名称、属性、标识、结构和编排格式进行统计评价；例如，抽取的文章题目的字体、字号、对齐方式是否是否符合本期刊的规定，是否在在20个汉字以内，是否有作者和作者单位以及单位所在的省、市以及邮政区号，文章英文题目、摘要等一系列内容是否符合要求；文章的1、2、3级标题的属性是否符合规定的要求；图题、图表的字体属性是否符合规范要求，参考文献及格式是否符合要求等等。

本发明对Word文档信息提取实现的方法包括以下步骤：

（1）提取科技论文中的“题目、作者以及作者单位”信息，题目位于文章的第一个非空段落，其后是作者名，单位名；

Set selfm0=wrd.ActiveDocument.Paragraphs(i).Range

While(selfm0.Text=Chr(13))

i=i+1

Set selfm0=wrd.ActiveDocument.Paragraphs(i).Range'题目

Wend

i=i+1

Set selfm1=wrd.ActiveDocument.Paragraphs(i).Range'作者名

While(selfm1.Text=Chr(13))

i=i+1

Set selfm1=wrd.ActiveDocument.Paragraphs(i).Range

Wend

i=i+1

Set selfm2=wrd.ActiveDocument.Paragraphs(i).Range'单位名

While(selfm2.Text=Chr(13))

i=i+1

Set selfm2=wrd.ActiveDocument.Paragraphs(i).Range

Wend

（2）提取科技论文的摘要、1级子标题、2级子标题、3级子标题、图题目、表题目和参考文献信息；采用完全匹配方法同样可以提取子标题信息，图题目，表题目和参考文献信息；

j=1

Do

str1=wrd.ActiveDocument.Paragraphs(j).Range

str1=Left(str1,2)

str2="摘要"

q=StrComp(str2,str1)

If q=0Then

Set szhai=wrd.ActiveDocument.Paragraphs(j).Range

t=j

MsgBox szhai

End If

j=j+1

Loop Until j>20

（3）使用activedocument的footnote属性以及完全匹配算法提取科技论文中的“脚注”信息，

j=1

Set sleft=wrd.ActiveDocument.Footnotes(j).Range

Do str1="资金项目"

str2="作者简介"

str3=Left(sleft,3)

q=StrComp(str2,str3)

w=StrComp(str3,str1)

If q=0Then

Set jianjie=wrd.ActiveDocument.Footnotes(j).Range

MsgBox jianjie

End If

If w=0Then

Set jijin=wrd.ActiveDocument.Footnotes(j).Range

End If

j=j+1

Loop Until j>wrd.ActiveDocument.Footnotes.Count

（4）提取图形中的文本信息，图形由文本框、自选图形、任意多边形ActiveX控件和图片构成，图形分为组合图形和单个图形两种，使用activedocument的shapes属性如下：

Set tu1=wrd.ActiveDocument.Shapes(3).GroupItems(35).TextFrame.TextRange

MsgBox sleft

MsgBox wrd.ActiveDocument.Shapes(2).GroupItems.Count

显示图形2第45个文本框中的内容。

（5）提取对象中的部分信息，并将其定义为一个对象，中图分类号和文献标志符提取时为一个整体，但程序中需要将其分开来使用，下列语句将一个段落分为两个对象：

Set r1=ActiveDocument.Range(Start:=ActiveDocument.Paragraphs(2).Range.Start,_End:=ActiveDocument.Paragraphs(2).Range.Start+1).Font.Name

Set r2=ActiveDocument.Range(Start:=ActiveDocument.Paragraphs(2).Range.Start+1,_End:=ActiveDocument.Paragraphs(2).Range.End).Text

上述语句将第二段分为两个部分，并将他们分别定义为对象r1和r2，其中，r1是中图分类号，r2是文献标识符。

本发明采用的完全匹配算法包括以下步骤：

先定义提取函数的参数，文档信息的段号设为i，置初值为文章正文第一段；文章正文的总段数设为N，使用while(i<N)循环程序语言执行以下循环过程：

（1）提取文章第i段内容，切分提取到该段落的第1个字符，与1级子标题进行匹配，若匹配成功则i+1；

（2）若与1级子标题匹配不成功，则切分该段落的前2个字符后与表题目或图题目进行匹配，若匹配成功，则i+1；

（3）若与表题目或图题目没有匹配成功，则切分该段落的前3个字符，并与文稿的2级子标题进行匹配，若匹配成功，则i+1；

（4）若没有与2级子标题匹配成功，则切分该段落的前4个字符与参考文献进行匹配，若匹配成功，则i+1；

（5）若与参考文献没有匹配成功，则切分前5个字符与3级子标题进行匹配，若匹配成功，则i+1；

(6)若不匹配，则i+1后判断i是否小于N，若小于N，则进入下一轮循环；若不小于N，则提取信息结束。

本发明涉及的信息提取的执行流程如下：

（1）获取要编辑的文章的第一段的信息，判断该段信息是否为空行，如果为空，提取下一段信息并做判断，直到取到的信息不是空行，则提取到文章的题目；

（2）提取题目所在段的下一非空段落，并且符合开头信息为“——”的为副标题；如果无副标题，则题目下一段落的非空段落为作者；

（3）提取作者下一段落的非空段落为作者单位；

（4）提取作者单位所在段落的下一非空段落，拆分头两个字，与“摘要”进行匹配，如果成功，则该段落为摘要；

（5）提取摘要所在段落的下一非空段落，拆分头三个字，与“关键词”进行匹配，如果成功，则该段落为关键词；

（6）提取关键词的下一非空段落，进行拆分，并与“中图分类号”、“文献标识码”分别进行匹配，提取中图分类号和文献标识码；

（7）对文章中剩下的段落进行穷尽搜索，对每一段落提取前几个字符，与标题序号、图表序号、参考文献进行匹配，同时判断上一级标题是否存在来确定该段落是否是所要提取的信息；

（8）提取脚注信息，对每个脚注提取前几个字符，与“基金项目”、“作者简介”进行匹配，提取基金项目和作者简介；

（9）从文章取出后面的10个段落，开始提取英文部分；先提取第一段的8个字符，与"Abstract"进行匹配，如果成功，则该段落为英文摘要；

（10）提取英文段落的后续段落，提取段落的前8个字符，与“Keywords”匹配，如果成功，则该段落为英文关键词；

（11）提取到英文摘要后，向上数三个段落提取英文题目、英文作者和作者单位。

本发明对Word文档信息进行自动修改的方法实现包括以下步骤：

（1）单击【修改】按钮，系统自动执行以下程序对Word文档信息进行修改：

（2）系统将修改后的Word文档信息通过以下程序添加修改记录：

（3）选择文章标识符；

（4）系统自动修改Word文档中不符合标准化的数据信息：

Call addmodify(articleid,itemid,flagf,flags,flagt,flaga)

MsgBox"修改完毕"

End Sub。

本发明涉及的科技论文自动检测编辑系统的执行流程如下：

（1）系统根据《中国学术期刊(光盘版)检索与评价数据规范》要求的标准化数据进行信息提取，提取文章的题目、文章编号、作者及其工作单位、关键词、文献标识码，并存放在信息提取数据库中；

（2）对提取到的文章标准化信息，对照《中国学术期刊(光盘版)检索与评价数据规范》所制定的各个数据项的名称、标识、结构和皮安排格式等信息进行比较、检测、统计分析、判断是否符合标准要求；

（3）如果所提取的内容不符合标准化要求，根据文章中设定好的格式进行自动修改，并记录修改内容以备用户查询；

（4）在检测编辑过程中，用户能够添加新的标准或者是修改已有的标准。

本发明与现有技术相比，将科技论文编辑加工中的标准化部分,由传统的人工编辑提交给该计算系统自动完成，一方面提高期刊的标准化精度，减轻劳动强度，提高工作效率，提高期刊总体质量，改变传统落后的标准化编辑工作方式；另一方面，作为中文信息处理的核心和汉语自然语言理解的基础，该方法的应用前景主要表现在用户指定感兴趣的信息特性和待分析的文本集，系统过滤文本集并以一定的格式输出匹配的信息，可广泛用于包括信息摘录、自动标引、文本自动分类、自动过滤和数据挖掘的内容识别与分析领域。

附图说明：

图1是本发明的工作流程示意框图。

图2是本发明涉及的科技论文标准化自动检测编辑系统的逻辑功能结构原理示意框图。

具体实施方式：

下面通过实施例并结合附图作进一步说明。

实施例：

本实施例的系统运行环境在现有的PC机上安装运行，操作系统选择Windows98、Windows2000、Windows XP和Windows7等均可；CPU为奔四及以上处理机；内存最低为128M；打开科技期刊论文标准化自动检测编辑系统的的文章列表界面，在文章列表界面中有选择标准，添加标准、查看选择标准、系统信息和关闭系统五个按钮，文章列表标签中显示当前打开的Word文档，用户选择要编辑的文档，单击【开始编辑】按钮，系统提取文本信息并存放到信息抽取数据库中，进入标准化编辑界面，标准化编辑界面的左侧显示一个树目录，树的节点就是需要进行标准化编辑的各个选项，这些选项包含需要标准化编辑的主要内容，单击需要编辑的节点，节点信息会显示在相对应的文本框中；如点击“文章题目”，提取文章的题目信息将显示在信息显示区，其中显示题目内容、题目字数（及是否超过了规定字数：对号表示在规定范围内，差号表示在规定范围外）、题目所用字体、字号、对齐方式和加粗方式，如果选择了编辑的标准，还会显示不符合标准的地方，如果尚未选择编辑的标准，系统会提示用户先选择标准，如果在选择的标准中，未包含要查看的选项的标准，系统同样会提示不存在文章题目的标准；用户点击文章列表界面的【选择标准】按钮，能够选择标准数据库中现有的标准之一来编辑文章；用户点击【查看选择的标准】按钮查看标准数据库中已有标准的所有明细；用户可以使用【添加标准】按钮，在标准化数据库中添加新的标准信息，以满足编辑部的要求；选定标准后，点击树节点中要检测的选项，系统自动检测提取的选项是否符合用户指定的标准，若不符合则显示不符合标准的选项名称，单击【修改按钮】，由系统对不符合标准的选项进行修改，点击【修改】按钮后系统进行两方面的工作，一方面系统将按照用户选择的标准直接在文档中对该项进行修改，不需要编辑人员在Word文档中进行修改，修改成功后右下方会显示修改完毕的信息；另一方面，系统将修改记录添加到修改记录数据库中，点击【修改记录】按钮可以查看修改的是那几项内容。

Claims

1.一种科技论文标准化自动检测编辑系统，其特征在于包括信息提取模块、添加或选择标准模块、修改记录模块、查询修改记录模块、信息提取数据库、标准化数据库和修改记录数据库；信息提取模块从文档中提取题目、摘要、关键词、中图分类号、文献标志符、子标题、图形、图表、作者简介和英文部分的信息并存放到信息提取数据库中，信息提取模块在提取文章标题时提取到3级子标题；添加或选择标准模块对标准化数据库中的标准进行选择、添加、查看明细、修改或删除；修改记录模块检测信息提取数据库中提取的信息与标准化数据库中的标准是否一致，若不一致则显示不符合标准的信息是哪几项，修改记录模块按照用户选择的标准自动在Word文档中修改这几项，修改后提示修改完毕的信息；查询修改记录模块是将修改记录添加到修改记录数据库中，方便用户随时查阅修改的内容，查询修改记录模块统一管理信息抽取数据库、标准化数据库和修改记录数据库；为保证信息安全，不同的用户级别具有不同的访问权限，确保系统运行安全可靠；信息提取数据库存放从文档中提取出的数据信息，如表1所示；标准化数据库存放《中国学术期刊(光盘版)检索与评价数据规范》要求的文档信息检测的各种标准化数据，，如表2所示，标准化数据库供用户选择一个标准以及查看某个标准的详细规定，能够进行添加、修改和删除一个新/旧标准操作；修改记录数据库如表3所示，存放文档中数据项被修改的记录以备用户查阅。

表1：信息提取数据库

表2：标准化数据库

表3：修改记录数据库

2.根据权利要求1涉及的科技论文标准化自动检测编辑系统，其特征在于执行流程如下：

3.根据权利要求1所述的科技论文标准化自动检测编辑系统，其特征在于在信息提取模块实现科技论文的标准化自动检测编辑，采用完全匹配算法和按照位置特征两种方法提取Word文档中需要编辑的文字信息及其属性，迅速、准确地从Word文本中提取出需要编辑的标准化信息并进行编辑；其具体执行步骤为：

（1）定义所要提取的各个对象名称；

（8）将修改记录添加到修改记录数据库中；

4.根据权利要求3所述的科技论文标准化自动检测编辑系统，其特征在于对Word文档信息提取实现的方法包括以下步骤：

（2）提取科技论文的摘要、1级子标题、2级子标题、3级子标题、图题目、表题目和参考文献信息；采用完全匹配方法同样能够提取子标题信息，图题目，表题目和参考文献信息；

（3）使用activedocument的footnote属性以及完全匹配算法提取科技论文中的脚注信息；

（4）提取图形中的文本信息，图形由文本框、自选图形、任意多边形ActiveX控件和图片构成，图形分为组合图形和单个图形两种；

（5）提取对象中的部分信息，并将其定义为一个对象，中图分类号和文献标志符提取时为一个整体，程序中将中图分类号和文献标志符分开使用。

5.根据权利要求4所述的科技论文标准化自动检测编辑系统，其特征在于在采用的完全匹配算法包括以下步骤：

先定义提取函数的参数，文档信息的段号设为i，置初值为文章正文第一段；文章正文的总段数设为N，使用while(i<N)循环程序语言进行以下循环过程：

6.根据权利要求4所述的科技论文标准化自动检测编辑系统，其特征在于在涉及的信息提取的执行流程如下：

（3）提取作者下一段落的非空段落为作者单位；

（4）提取作者单位所在段落的下一非空段落，拆分头两个字，与摘要进行匹配，如果成功，则该段落为摘要；

（5）提取摘要所在段落的下一非空段落，拆分头三个字，与关键词进行匹配，如果成功，则该段落为关键词；

（6）提取关键词的下一非空段落，进行拆分，并与中图分类号、文献标识码分别进行匹配，提取中图分类号和文献标识码；

（8）提取脚注信息，对每个脚注提取前几个字符，与基金项目、作者简介进行匹配，提取基金项目和作者简介；

（9）从文章取出后面的10个段落，开始提取英文部分；先提取第一段的8个字符，与Abstract进行匹配，如果成功，则该段落为英文摘要；

（10）提取英文段落的后续段落，提取段落的前8个字符，与Keywords匹配，如果成功，则该段落为英文关键词；

7.根据权利要求4所述的科技论文标准化自动检测编辑系统，其特征在于在对Word文档信息进行自动修改的方法实现包括以下步骤：

（3）选择文章标识符；

（4）系统自动修改Word文档中不符合标准化的数据信息：

Call addmodify(articleid,itemid,flagf,flags,flagt,flaga)

MsgBox"修改完毕"

End Sub。