CN102841888B - 一种快速排版系统及方法 - Google Patents

一种快速排版系统及方法 Download PDF

Info

Publication number
CN102841888B
CN102841888B CN201210338736.0A CN201210338736A CN102841888B CN 102841888 B CN102841888 B CN 102841888B CN 201210338736 A CN201210338736 A CN 201210338736A CN 102841888 B CN102841888 B CN 102841888B
Authority
CN
China
Prior art keywords
index
typesetting
result
automatic
index result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210338736.0A
Other languages
English (en)
Other versions
CN102841888A (zh
Inventor
徐乾
于大洲
梁洵
袁仁慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
" Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Original Assignee
" Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society filed Critical " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority to CN201210338736.0A priority Critical patent/CN102841888B/zh
Publication of CN102841888A publication Critical patent/CN102841888A/zh
Application granted granted Critical
Publication of CN102841888B publication Critical patent/CN102841888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种快速排版系统及方法,所述系统包括:自动排版模块、检查模块及排版校错与管理模块,所述自动排版模块,对预处理完的文件标引,将标引文件通过基于知识的自动标引算法,得到标引结果,并对标引结果规律化内容处理;检查模块;用于对标引结果进行检查,并改正错误的标引项;排版校错与管理模块;根据所述标引结果进行排版,并对错误排版进行校正。本发明排版速度高、质量好,标引正确率高,主要标引项正确率达到95%以上,次要标引项正确率超过90%,基于自动标引算法的自动排版系统整体降低排版成本的30%。

Description

一种快速排版系统及方法
技术领域
本发明涉及电子稿件规范化排版过程,尤其涉及一种快速排版系统及方法。
背景技术
方正书版是一种专业化的排版软件。最大特点是可以制作出长篇幅、符合专业出版要求的高质量印刷排版物。它功能强,覆盖面宽,广泛应用在出版社、印刷厂,用来制作图书期刊等正规出版物,并应用在政府机关、事业单位制作较高质量的正规公文、信函等。
方正中排版是一件非常繁重、非常细致的工作。以期刊为例,每种刊的版式要求至少都在6页以上,从书眉、栏目、标题、作者、单位、摘要、关键词等内容,到正文中的多级标题、图、表、公式、参考文献,都有详细的要求。这些要求,体现在方正书版中,就是一个个方正命令。想要排好一本刊,排版人员首先要熟练掌握这些命令,而后细致的把这些命令应用在排版文件的合适位置。这样不光对排版人员的技术水平有很高的要求,同时排版质量取决于排版员的耐心和责任心,致使排版成本高,质量不可控。
发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种提高排版效率、质量可控的快速排版系统及方法。所述技术方案如下:
一种快速排版系统,包括:
自动排版模块、检查模块及排版校错与管理模块,所述
自动排版模块,对预处理完的文件标引,将标引文件通过基于知识的自动标引算法,得到标引结果,并对标引结果规律化内容处理;
检查模块;用于对标引结果进行检查,并改正错误的标引项;
排版校错与管理模块;根据所述标引结果进行排版,并对错误排版进行校正。
一种快速排版方法,包括:
对预处理完的文件标引,将标引文件通过基于知识的自动标引算法,得到标引结果,并对标引结果规律化内容处理;
对标引结果进行检查,并改正错误的标引项;
根据所述标引结果进行排版,并对错误排版进行校正。
本发明提供的技术方案的有益效果是:
排版速度高、质量好,标引正确率高,主要标引项正确率达到95%以上,次要标引项正确率超过90%,基于自动标引算法的自动排版系统整体降低排版成本的30%。
附图说明
图1是快速排版系统结构图;
图2是快速排版方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
参见图1,为快速排版系统结构,包括自动排版模块、检查模块及排版校错与管理模块,所述自动排版模块,对预处理完的文件标引,将标引文件通过基于知识的自动标引算法,得到标引结果,并对标引结果规律化内容处理;检查模块;用于对标引结果进行检查,并改正错误的标引项;排版校错与管理模块;根据所述标引结果进行排版,并对错误排版进行校正。
上述自动排版模块包括自动标引单元、自动排版单元和智能监控单元;所述检查模块包括标引单元;所述排版校错与管理模块包括排版单元、校错单元及管理和监控单元。
参见图2,为快速排版方法流程,包括如下步骤:
对预处理完的文件标引,将标引文件通过基于知识的自动标引算法,得到标引结果,并对标引结果规律化内容处理;
对标引结果进行检查,并改正错误的标引项;
根据所述标引结果进行排版,并对错误排版进行校正。
上述方法的具体过程包括:
文档预处理
为了提高标引正确率,通过研究大量文档,总结出很多会对标引结果产生不好影响的情况,比如统一换行符和换段符,固定表格高宽等等,在此一一处理。而后扫描整个文档,获取正文字体字号等通用性信息,以备后用。
基于知识的自动标引过程
在预处理完的文档中,以段落为单位,顺序分析各个段落属性。先根据段落位置,上下文,确定多个该段落可能的属性,再通过字体字号、书写格式、关键字等信息对多个属性打分,取分数最高者为该段落属性,最后再根据本段属性调整上下文段落的属性,并将标引属性显著标记在文档中。
属性打分过程引入基于知识的项目校验新思想。利用作者库、机构库等知识积累库大大提高作者姓名和作者单位等项目标引正确率,依据上下文关系使标题摘要等项,标引正确率也大大提高。从而使得整体标引正确率大大提高。
上述算法实现如下:
(1)首先根据段落位置,上下文,确定多个段落可能的属性,如:
IF(nCurPage=1&&nCurLine=1)then ProArray.Add标题
IF(sPrePro=单位&&nCurPage=1&&nLineCount>3)thenProArry.Add摘要
IF(nCurPage=1&&CurView=尾注)then ProArray.Add作者简介
(2)而后对各个可能属性进行打分。设ProArray数据元素个数为m
FORi=1TO m
为提高效率,如果根据各种条件,已经可以确认该段属性,将不再继续循环排查剩余的可能属性。直接将确认属性设为本段属性。
(3)如果本段有确认属性,则取确认属性为本段属性,否则取分值最高者,为本段落属性。
(4)根据本段落属性,调整上文属性。
标引结果检查
提供界面对自动标引结果进行检查,纠正自动标引的错误结果。使用模板文件,为每个标引项定义合适快捷键,人工发现标引错误,即可快速纠正。如果需要,人工可以调整文档结构,重新进行自动标引,以达到最正确的标引结果。
标引结果移入模板
对于每种期刊,都有各自的排版规范,这些规范非常详尽,至少都在6页以上。首先为每种期刊制作一个模板文件,里面详细规定各个元数据项位置,字体字号等各种规范。直接以方正命令的方式体现在模板文件之中。而后程序将标引结果,根据标引项,一一移入模板的指定位置。这个过程完成后,即产生一个基本可用的排版结果。传统排版模式中,需要大量手动实现的规范,已经自动处理完毕。
移入模板的过程中,程序要保证移入信息的完整性,内容信息不能少,不能重复。否则将会增加后续人工排版过程工作量,甚至产生错误的排版文件。
规范化内容自动排版
为进一步减少人工工作量,在初步排好的文件中,程序将一些有规律的东西自动处理。比如参考文献的序号中加入CM命令,公式后的序号前加入JY命令,超宽图片在分栏文章中改为通栏图,等等。并将一些可以简单替换的内容(如句号需要替换成全角句号)总结到配置文件里,可以对每种刊做出不同的配置。这样处理之后,将再次减少人工工作。一些简单文章,甚至不需要人工再做处理。
排版
在自动排版之后,再转入人工排版过程。正文制图,正文统排,一校,二校,核红,最终形成规范的出版物。
管理与监控:包括工资结算、任务统计分析、任务优先级调整、暂停加工、恢复加工等功能。
实施效果:基于知识的自动标引算法,标引正确率较传统算法提高,主要标引项正确率达到95%以上,次要标引项正确率超过90%。基于此自动标引算法的自动排版系统整体降低排版成本30%。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种快速排版系统,其特征在于,所述系统包括:自动排版模块、检查模块及排版校错与管理模块,所述自动排版模块,对预处理完的文件标引,将标引文件通过基于知识的自动标引算法,得到标引结果,并对标引结果规律化内容处理;所述基于知识的自动标引算法包括:根据段落位置、上下文、确定多个该段落可能的属性,并通过字体字号、书写格式、关键字信息对多个属性打分,取分数最高者为该段落属性,根据该段落属性调整上下文段落属性,并将标引属性标记在文档中;根据所述段落属性调整上下文段落属性包括:标引结果检查、标引结果移入模板、规范化内容自动排版和排版;所述标引结果检查是提供截面对自动标引结果进行检查,纠正自动标引的错误结果,使用模板文件,为每个标引项定义合适快捷键,人工发现标引错误,即可快速纠正;所述标引结果移入模板,为每种期刊制作一个模板文件,里面详细规定各个元数据项位置,字体字号各种规范,直接以方正命令的方式体现在模板文件中,而后程序将标引结果,根据标引项,一一移入模板的指定位置;规范化内容自动排版,将一些有规律的东西自动处理,并将一些可以简单替换的内容总结到配置文件里,可以对每种刊做出不同的配置;所述排版,包括正文制图、正文统排、一校、二校、核红、最终形成规范的出版物;
检查模块,用于对标引结果进行检查,并改正错误的标引项;
排版校错与管理模块,根据所述标引结果进行排版,并对错误排版进行校正;
所述自动排版模块包括自动标引单元、自动排版单元和智能监控单元;所述检查模块包括标引单元;所述排版校错与管理模块包括排版单元、校错单元及管理和监控单元。
2.根据权利要求1所述的快速排版系统,其特征在于,所述标引结果规律化内容处理是根据标引项将标引结果引入模板。
3.一种快速排版的方法,其特征在于,所述方法包括:
对预处理完的文件标引,将标引文件通过基于知识的自动标引算法,得到标引结果,并对标引结果规律化内容处理;
对标引结果进行检查,并改正错误的标引项;
根据所述标引结果进行排版,并对错误排版进行校正;
所述基于知识的自动标引算法包括:根据段落位置、上下文、确定多个该段落可能的属性,并通过字体字号、书写格式、关键字信息对多个属性打分,取分数最高者为该段落属性,根据该段落属性调整上下文段落属性,并将标引属性标记在文档中;根据所述段落属性调整上下文段落属性包括:标引结果检查、标引结果移入模板、规范化内容自动排版和排版;所述标引结果检查是提供截面对自动标引结果进行检查,纠正自动标引的错误结果,使用模板文件,为每个标引项定义合适快捷键,人工发现标引错误,即可快速纠正;所述标引结果移入模板,为每种期刊制作一个模板文件,里面详细规定各个元数据项位置,字体字号各种规范,直接以方正命令的方式体现在模板文件中,而后程序将标引结果,根据标引项,一一移入模板的指定位置;规范化内容自动排版,将一些有规律的东西自动处理,并将一些可以简单替换的内容总结到配置文件里,可以对每种刊做出不同的配置;所述排版,包括正文制图、正文统排、一校、二校、核红、最终形成规范的出版物。
4.根据权利要求3所述的快速排版的方法,其特征在于,所述标引结果规律化内容处理是根据标引项将标引结果引入模板。
CN201210338736.0A 2012-09-14 2012-09-14 一种快速排版系统及方法 Active CN102841888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210338736.0A CN102841888B (zh) 2012-09-14 2012-09-14 一种快速排版系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210338736.0A CN102841888B (zh) 2012-09-14 2012-09-14 一种快速排版系统及方法

Publications (2)

Publication Number Publication Date
CN102841888A CN102841888A (zh) 2012-12-26
CN102841888B true CN102841888B (zh) 2015-10-14

Family

ID=47369261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210338736.0A Active CN102841888B (zh) 2012-09-14 2012-09-14 一种快速排版系统及方法

Country Status (1)

Country Link
CN (1) CN102841888B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699664B (zh) * 2015-03-19 2017-07-28 徐州工业职业技术学院 一种模板独立的排版系统及方法
CN107133198A (zh) * 2017-06-05 2017-09-05 广东电网有限责任公司东莞供电局 一种文档的排版和格式转换方法
CN110222324B (zh) * 2019-05-21 2022-11-08 上海阿几网络技术有限公司 一种基于文字段落结构和字号变化率的自动布局装置
CN112380814B (zh) * 2020-11-04 2022-08-19 福建亿榕信息技术有限公司 一种基于国产操作系统的信息稿件自动组合编刊方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1424669A (zh) * 2002-12-30 2003-06-18 北京北大方正电子有限公司 一种自动排版方法
CN1808424A (zh) * 2005-01-21 2006-07-26 北京软件产品质量检测检验中心 一种从文档中提取关键信息的方法
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN101441621A (zh) * 2008-11-26 2009-05-27 北大方正集团有限公司 一种版式文件自动成文的方法及系统
CN101727438A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种数字报刊版面信息的自动提取方法
CN101872340A (zh) * 2009-04-23 2010-10-27 北京大学 一种基于版面格式模板的排版方法及装置
CN101989256A (zh) * 2009-07-31 2011-03-23 北京大学 一种文书文件的排版方法及装置
CN102103612A (zh) * 2009-12-22 2011-06-22 北大方正集团有限公司 一种信息提取方法及装置
CN102103592A (zh) * 2009-12-18 2011-06-22 北京大学 一种自动排版方法及系统
CN102541929A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 提取版式文档目录的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1424669A (zh) * 2002-12-30 2003-06-18 北京北大方正电子有限公司 一种自动排版方法
CN1808424A (zh) * 2005-01-21 2006-07-26 北京软件产品质量检测检验中心 一种从文档中提取关键信息的方法
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN101727438A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种数字报刊版面信息的自动提取方法
CN101441621A (zh) * 2008-11-26 2009-05-27 北大方正集团有限公司 一种版式文件自动成文的方法及系统
CN101872340A (zh) * 2009-04-23 2010-10-27 北京大学 一种基于版面格式模板的排版方法及装置
CN101989256A (zh) * 2009-07-31 2011-03-23 北京大学 一种文书文件的排版方法及装置
CN102103592A (zh) * 2009-12-18 2011-06-22 北京大学 一种自动排版方法及系统
CN102103612A (zh) * 2009-12-22 2011-06-22 北大方正集团有限公司 一种信息提取方法及装置
CN102541929A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 提取版式文档目录的方法及装置

Also Published As

Publication number Publication date
CN102841888A (zh) 2012-12-26

Similar Documents

Publication Publication Date Title
CN103823838B (zh) 一种多格式文档录入并比对的方法
CN102841888B (zh) 一种快速排版系统及方法
CN104516867A (zh) 一种表格重排方法和系统
CN110705515A (zh) 一种基于ocr文字识别的医院纸质档案归档方法及系统
CN104156433B (zh) 一种基于语义映射空间构建的图像检索方法
CN105069412A (zh) 一种数字化阅卷方法
CN106156333B (zh) 一种融合社会化信息的改进单类协同过滤方法
CN110765739B (zh) 一种从pdf文档中抽取表格数据和篇章结构的方法
CN104679875A (zh) 一种基于数字报纸的资讯数据分类方法
EP2110758B1 (en) Searching method based on layout information
CN100552670C (zh) 一种自动识别数字文档版心的方法
CN108021667A (zh) 一种文本分类方法和装置
CN106844481A (zh) 字体相似度及字体替换方法
CN105190596B (zh) 自动组成评估器
US20140281878A1 (en) Aligning Annotation of Fields of Documents
Islam et al. RATNet: A deep learning model for Bengali handwritten characters recognition
CN102262682B (zh) 基于粗糙分类知识发现的快速属性约简方法
CN112347742B (zh) 基于深度学习生成文档图像集的方法
Clausner et al. The significance of reading order in document recognition and its evaluation
CN109871517B (zh) 文字块排序方法、装置、存储介质及电子设备
CN107918648A (zh) 一种平面设计模板库的建立和模板查找方法
CN106406560A (zh) 桌面操作系统中机械工程字符矢量字体输出方法和系统
CN107451168A (zh) 基于词汇统计的档案分类系统及方法
CN106874242B (zh) 一种排版方法和系统
CN101673406A (zh) 字体设置方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 100084 Haidian District Tsinghua Yuan Tsinghua University Beijing District 1407, 1408, 36, 1409

Applicant after: " academic magazine (CD-ROM) " company limited of e-magazine society

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: "Chinese Academic Journals (CD)" Electronic Magazine

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CHINA ACADEMIC JOURNAL (CD) ELECTRONIC PUBLISHING HOUSE TO: CHINA ACADEMIC JOURNAL (CD) ELECTRONIC PUBLISHING HOUSE CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant