CN101872340A - 一种基于版面格式模板的排版方法及装置 - Google Patents
一种基于版面格式模板的排版方法及装置 Download PDFInfo
- Publication number
- CN101872340A CN101872340A CN200910082645A CN200910082645A CN101872340A CN 101872340 A CN101872340 A CN 101872340A CN 200910082645 A CN200910082645 A CN 200910082645A CN 200910082645 A CN200910082645 A CN 200910082645A CN 101872340 A CN101872340 A CN 101872340A
- Authority
- CN
- China
- Prior art keywords
- style
- information
- file
- descriptor
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000000203 mixture Substances 0.000 claims description 11
- 230000008878 coupling Effects 0.000 claims description 9
- 238000010168 coupling process Methods 0.000 claims description 9
- 238000005859 coupling reaction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 18
- 210000004709 eyebrow Anatomy 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical group O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于版面格式模板的排版方法及装置,用以解决现有技术中排版过程效率低的问题。该方法通过在解析公文样式模板文件,获取公文样式模板文件中对应的每个描述信息解析待排版的文档获取元数据信息,在匹配成功时,根据公文样式模板文件中的公文元素式样子文件中的每个描述信息中引用的公文样式模板文件中式样子文件中预先设置的式样将对应的元数据灌入,生成排版后的文档,在本发明实施例中,由于预先设置了多个模板,保证了每个模板设置的统一性,并且模板中每个描述信息引用预先设定的样式,从而可以有效的提高排版的效率,同时在进行排版时,数据与样式分别进行处理避免了相互之间的影响和制约,提高了排版的准确性。
Description
技术领域
本发明涉及数字处理技术领域,尤其涉及一种基于版面格式模板的排版方法及装置。
背景技术
版面格式是指一类文体其版面所具有的固定格式,对于不同种类的文体其具有不同的版面格式,例如对于公文类文体其上行文是一种版面格式,对于保险公司的保单类文体其是另一种版面格式。
目前,基于不同的版面格式会采用不同的模板,例如对于公文类的文体会采用一种上行文模板,对于保险公司的保单会采用一种保单模板,即都是基于不同的版面格式生成不同的模板,基本上没有对各个版面格式中的基本要素进行抽取,也没有根据抽取的基本要素建立对应的模型。
并且,在现有技术中,当需要针对一种版面格式进行排版时,只能根据该版面格式进行具体的设置生成对应的模板后再进行排版,当针对另一版面格式进行排版时,需要再针对该版面格式设置对应的模板再进行排版,因此在模板创建上需要浪费很大的精力,并且创建的模板没有统一性。并且在同一版面格式中可能有多个不同部分的内容有相同的格式要求,当在具体进行模板的设置时,需要针对该多个不同的部分分别设置对应的格式,需要付出很多重复性的劳动,从而影响了排版的效率。
发明内容
有鉴于此,本发明实施例提供一种基于版面格式模板的排版方法及装置,用以解决现有技术中排版过程效率低的问题。
本发明实施例提供的一种基于版面格式模板的排版方法,包括:
获取待排版的文档,解析所述文档中的每个元数据信息,并根据选择的公文样式模板文件,解析所述公文样式模板文件,获取所述公文样式模板文件对应的每个描述信息,其中所述公文样式模板文件包括:式样子文件以及公文元素式样子文件;
将所述每个元数据信息与所述公文元素式样子文件中的每个描述信息进行匹配;
当匹配不成功时,提示用户选择的模板错误;
否则,根据所述每个描述信息中引用的所述式样子文件中预先设置的式样将所述元数据信息灌入,生成排版后的文档。
本发明实施例提供的一种基于版面格式模板的排版装置,包括:
获取解析模块,用于获取待排版的文档,解析所述文档中的每个元数据信息,并根据选择的公文样式模板文件,解析所述公文样式模板文件,获取所述公文样式模板文件对应的每个描述信息,其中所述公文样式模板文件包括:式样子文件以及公文元素式样子文件;
匹配模块,用于将所述每个元数据信息与所述公文元素式样子文件中的每个描述信息进行匹配;
排版提示模块,用于在确定匹配不成功时,提示用户选择的模板错误,在确定匹配成功时,根据所述每个描述信息中引用的所述式样子文件中预先设置的式样将所述元数据信息灌入,生成排版后的文档。
本发明实施例提供了一种基于版面格式模板的排版方法及装置,该方法通过在解析公文样式模板文件,获取公文样式模板文件中对应的每个描述信息解析待排版的文档获取元数据信息,在匹配成功时,根据公文样式模板文件中的公文元素式样子文件中的每个描述信息中引用的公文样式模板文件中式样子文件中预先设置的式样将对应的元数据灌入,生成排版后的文档,在本发明实施例中,由于预先设置了多个模板,保证了每个模板设置的统一性,并且模板中每个描述信息引用预先设定的样式,从而可以有效的提高排版的效率,同时在进行排版时,数据与样式分别进行处理避免了相互之间的影响和制约,提高了排版的准确性。
附图说明
图1为本发明实施例提供的排版系统的结构示意图;
图2为本发明实施例提供的根据该图1提供的排版系统结构图进行的具体排版操作;
图3为本发明实施例提供的页面式样示意图;
图4为本发明实施例提供的字体声明示意图;
图5为本发明实施例提供的句式样示意图;
图6为本发明实施例提供的段落式样描述示意图;
图7为本发明实施例提供的文字表式样示意图;
图8为本发明实施例提供的单元格式样示意图;
图9为本发明实施例提供的图像对象式样示意图;
图10为本发明实施例提供的图形对象式样示意图;
图11为本发明实施例提供的图形对象中自然段描述信息示意图;
图12为本发明实施例提供的公文元素式样描述信息示意图;
图13为本发明实施例提供的公文元素式样中页面描述信息示意图;
图14为本发明实施例提供的公文元素式样中页描述信息示意图;
图15为本发明实施例提供的页描述信息中眉首的描述信息示意图;
图16为本发明实施例提供的对文档进行排版的过程;
图17为本发明实施例提供的公文元素式样中文档的眉首、主体和版记中的每项描述信息的示意图;
图18为本发明实施例提供的基于版面格式模板的排版装置结构示意图。
具体实施方式
本发明实施例为了有效地提高排版的效率,提供了一种基于版面格式模板的排版方法,该方法包括:获取待排版的文档数据,解析所述文档数据中的每个元数据信息,并解析选择的公文样式模板文件,获取所述公文样式模板文件对应的每个描述信息,其中所述公文样式模板文件包括:式样子文件以及公文元素式样子文件;将所述每个元数据信息与所述公文元素式样子文件中对应的每个描述信息进行匹配;当匹配不成功时,提示用户选择的模板错误;否则,根据所述每个描述信息中引用的所述式样子文件中预先设置的式样将对应的所述元数据信息灌入,生成排版后的文档。在本发明实施例中,由于预先设置了多个模板,保证了每个模板设置的统一性,并且模板中每个样式信息引用预先设定的样式,从而可以有效的提高排版的效率,同时在进行排版时,数据与样式分别进行处理避免了相互之间的影响和制约,提高了排版的准确性。
下面结合说明书附图,对本发明实施例进行详细描述。
图1为本发明实施例提供的排版系统的结构示意图,其中,排版引擎可以实现对文档的排版,样式模块管理单元用于根据各种样式格式定义,及保存的各种样式设计工具生成各种样式模板文件。在该样式模板文件中包括:式样集子文件以及公文元素式样子文件等,生成的样式模板文件可以是可扩展标记语言(Extensible Markup Language,XML)格式的文件。数据模板管理单元用于根据公文元数据定义,及保存的数据设计工具解析待排版的数据文件生成数据模板文件,该生成的数据模板文件可以是XML格式的文件。规则模板管理单元用于根据公文规则定义生成规则模板文件,该生成的规则模板文件可以是XML格式的文件。
在本发明实施例中样式模板、数据模板和规则模板分别进行管理,从而相互之间相对独立,而生成的排版后的文件,可以看作是三类模板的有机结合,即对三类模板的分别编辑和重用的结果。
图2为根据该图1提供的排版系统结构图进行的具体排版操作,该排版的过程具体包括:
S201:样式模板管理单元中读取用户选择的公文样式模板文件,该公文样式模板文件为XML格式的文件,解析该公文样式模板文件提取该公文样式模板文件中的每个描述信息,生成样式树,其中该样式树以XML格式显现,并将该XML格式的样式树发送到排版装置例如排版引擎。
即该公文样式模板文件与该样式树相对应,该样式树中包括:式样集子树、公文元素式样子树等。并且,在本发明实施例中样式树中还可以包括排版规则子树。
S202:数据模板管理单元读取用户输入的数据文件,解析该数据文件获取数据文件中的每个元数据信息,生成元数据树,其中该元数据树以XML格式显现,并将该XML格式的元数据树发送到排版引擎。
S203:排版引擎根据接收的元数据树和样式树,进行相应信息的匹配。
S204:当匹配成功时,排版引擎根据获得的元数据树以及样式树,进行逻辑排版生成混合树。
S205:对排版引擎生成的混合树进行物理排版,进而生成结果树。
S206:规则模板管理单元读取规则模板文件,排版引擎基于该读取的规则模板文件进行自动排版,当基于该读取的规则模板文件进行的排版满足要求时,则生成排版后的文件,否则重新进行S204,即进行混合树的生成。
由于不同种类的文件的版面格式中各个元素都具有不同的式样,例如,表格对应表格式样,文字段对应段落式样,图形对应图形式样,图像对应图像式样等等。因此在本发明实施例中,可以在样式模板管理单元中保存式样集,式样集中又可以包括多种式样,其中,该多种式样可以是根据各种文档的排版要求进行设置的,并且可以赋予每种式样一个唯一的标识,并且每种式样中的每个描述单元及描述子单元也都有唯一的一个标识。例如在本发明实施中样式模板管理单元中包括式样集,该式样集中包括页面式样、字体声明、句式样、段落式样、文字表式样、单元格式样、图像对象式样和图形对象式样等,每种式样都有唯一的一个标识,每种式样中每个描述单元及描述子单元也都有唯一的一个标识。
下面详细介绍每种式样包括的每个描述单元及描述子单元。
对于本发明实施例中的页面式样,其可以描述模板中每一页的页面设置的式样,在该页面式样中描述了页面的边空信息、纸张信息和页码的设置信息等。如图3所示,页面式样中可以包括:边空描述单元,纸张描述单元,纸张方向描述单元和页码设置描述单元等。在边空描述单元中又可以包括对页面的四个方向的边空描述子单元,对于纸张描述单元其可以包括纸张的纸型、纸张的宽度以及高度等描述子单元,在页码设置描述单元中包括:页码的属性描述子单元以及其引用的段落式样信息子单元等,其中页码的属性描述子单元包括:页码是否在首页显示描述子单元、起始编号子单元、数字格式描述子单元、距版心描述子单元、位置描述子单元、对齐描述子单元、前缀描述子单元和后缀描述子单元等。
在本发明实施例的字体声明中可以描述所属的字体簇,如图4所示,其中该字体声明包括中文字的字体声明、西文字的字体声明,其中每种字体声明对应不同的编码,例如中文字体,宋体四号字体对应一个编码,西文罗马10号字体对应一个编码等。
句式样可以描述文档句子中的字体信息、字形信息以及字符间的间距信息等。图5为本发明实施例提供的句式样示意图,在该句式样中可以包括字体描述单元、字形描述单元和字符间距描述单元,对于字体描述单元其可以对每个文字的字体,字号以及颜色进行设置,当选择不同的字体时可以应用上述字体声明中的具体设置形式,例如该字体单元包括:西文字体引用子单元,其引用西文字体的字体声明,中文字体引用子单元,其引用中文字体的字体声明,特殊字体引用子单元,其引用特殊字体的字体声明。例如在一个句子中既包括中文字体又包括西文字体,在对该句子的字体进行描述时,可以应用字体声明中对应的字体设置。并且该字体描述单元还包括:X字号描述子单元、Y字号描述子单元以及字体的颜色描述子单元。对于字形描述子单元其包括的描述子单元包括:斜体、加粗、下划线等。在模板的具体设置时,可以根据句式样的各个描述单元和子单元进行句子式样的设置。
多个句子可以构成段落,在本发明实施例中也需要对段落的式样就行描述。图6为本发明实施例的段落式样描述示意图,其描述信息可以包括:段落的对齐方式信息、行距和段间距信息等。例如段落式样中可以包括:对齐描述单元、缩进描述单元、行距描述单元以及段间距描述单元等。对于对齐描述单元其又可以包括:水平对齐描述子单元和纵向对齐描述子单元,段间距描述单元又可以包括:段前距描述子单元和段后距描述子单元。在模板的具体设置时,可以根据该段落式样中的各个描述单元和描述子单元,从而实现对排版过程中段落的格式进行具体的设置。
为了便于各种文类中存在的文字表的格式设置,在本发明实施例中还提供了一种文字表式样如图7所示,在该文字表式样中的描述信息可以包括:文字表的属性信息、调整信息以及文字表的输出属性信息等。例如该文字表式样中的描述信息可以包括:文字表的位置信息、列宽集信息、对齐方式信息、边框信息、自动调整大小信息、自动调整字体信息以及输出属性信息等。对于列宽集信息其可以对列宽的大小进行选择设置,供设置选择的列宽的范围可以设置为1到无穷大。在对齐信息中可以包括:横向对齐信息和纵向对其信息等。边框信息可以包括上下左右四个方向的边线的信息,对于每一个边线信息是对边线的属性的描述,例如边线的类型、边线的线宽、边线的单元、颜色等。对于位置信息其具体可以描述文字表的位置属性,例如其可以包括:文字表的基点位置信息、文字表的横轴X轴、纵轴Y轴的坐标信息、文字表的宽度信息、高度信息、以及文字表的X轴、Y轴坐标类型信息等中的一个或几个。
对于各种文类中还可能包括单元格,在本发明实施例中也可以在模板中设置单元格的样式,具体可以通过单元格式样来进行设置。其中,在本发明实施例中单元格式样中可以包括单元格的属性信息,如图8所示。该单元格的属性信息包括:单元格的边框信息、行高信息、列宽信息、边空信息、对齐方式信息以及输出的属性信息等,其中,每一个属性信息都可以作为单元格式样中的一个描述单元存在。当包括边空信息时,将该边空信息作为单元格式样中的一个描述单元时,该边空描述单元可以包括:上、下、左、右四个方向的边空描述子单元。
在排版过程中还需要对图像对象和/或图形对象进行排版。在图像对象的式样中可以根据各种描述信息进行选择设置。图像对象的式样包括:图像的位置信息、对齐方式信息以及图像的属性信息等。如图9所示,例如在图像对象式样中可以包括:图像对象的位置信息、对齐信息、图信息以及输出属性信息等,并且每种信息对应成为一个描述单元,每个描述单元还可以由几个描述子单元组成。例如在图信息描述单元中还可以包括图信息引用的文件属性描述子单元,以及图信息的编码方式描述子单元,该引用的文件属性包括文件的文件名、文件类型等。在该图像对象式样中可以任意选择一种或几种描述单元对应的描述信息,从而构成图像对象的模板。
从图形对象式样中选择一种或几种描述信息,可以形成图形对象的模板,其中图形对象式样中可以包括图形的位置信息、对齐方式信息以及图形的属性信息等。如图10所示,例如在图形对象式样描述信息中包括:图形对象的位置信息、对齐信息、图形信息以及输出属性信息等。而图形信息对图形对象的基本属性进行了描述,其中在该图形信息中可以包括:图形的线条信息、关键点的坐标信息、边框信息、自然段信息、图形的自动调整大小信息以及图形的自动调整字体信息中的一种或几种,关键点坐标信息主要描述了关键点构成的路径,从而构成整个图形,如图11所示,自然段描述信息中包括文字项的字体声明,以及文字式样项引用的式样样式,该引用的式样的样式包括句式样,段式样,以及文字的字体声明等。由于图形对象可以是包括一般的图形,以及文本框,不同的图形对象可以选择不同的描述单元和描述子单元进行描述。
上述内容是构成本发明实施例的模板的基本式样,每种式样在本发明实施中都可以具有唯一的编码,并且其对应的每个描述单元、描述子单元也都具有唯一的编码,当选择不同的式样中的对应的描述单元、子单元构成模板时,只需保存该式样、单元、子单元的编码信息即可。
由于排版文件需要在每个页面中进行显示,并且不同的页面中可能需要显示的内容及显示的格式都不同,因此为了适应不同页面排版格式的要求,在本发明实施例中,可以进行页面架构的设置,并且在每页中可能包括一种或几种元素,也可以对每种元素进行一一的设置。
在本发明实施例中采用公文元素式样库对页面和页的设置进行描述,如图12所示,在页面描述单元可以设置每个页面描述的内容,及每种描述的式样,如图13所示,例如可以设置每个单页、双页以及所有页中其对应的描述单元,及每种描述单元其引用的式样,例如在单页中可以设置文字框、表格、图形、图像等元素,并且每元素可以引用相应的式样。
如图14所示,由于文档中的页一般包括页眉、页脚、眉首、主体以及版记等信息,而在每页中可以包括页眉、页脚等一系列的元素或者元素集合。例如,在每页中可以对页眉、页脚的位置及其他属性进行描述,并且可以对显示在每页中的眉首、主体、版记的属性进行描述。其中,眉首的属性包括:在眉首部分包括的信息,如图15所示,例如该眉首部分包括的信息包括:眉首的份数序号、文档的秘密等级与保密期限、文档的紧急程度、文字框、表格、发文机关标识、发文字号与签发人、红色反线和图形等等信息。
对于元素的表示方法包括:用元素标签表示的方法,在属性中标明该元素的类型,以及用元素类型表示的方法,在属性中标明该元素的标签。对于元素的集合可以用集合名称来表示,在模板中用集合名称的嵌套,和/或对标签元素的包含体现模板描述的文档的结构。以眉首的描述信息为例,例如眉首的描述信息为多个带标签的元素的集合和多个带类型的元素的集合,例如“份数序号”用带标签的元素表示,在属性中该元素的类型为“文本框”,或者也可以用“文本框”,在属性中表明该元素的标签为“份数序号”。该两种方法可以交互使用,从而使模板的描述更加完备和可扩充。
在本发明实施例中,可以根据从上述式样集提供的各种式样,排版规则以及公文元素的式样进行选择,由于每个式样及式样描述单元、描述子单元都有不同的编码,因为该选择的内容可以构成模板,并且该模板可以用文档架构树的嵌套形式描述。
当对模板中的式样信息、规则信息进行描述,并赋予每种描述信息一个编码后,在具体排版时,对待排版的文档进行解析,获取公文元素式样中待排版文档的各个描述信息,将获取的公文元素式样中待排版文档的各个描述信息按照模板中引用的规则以及每种式样,将该各个描述信息进行灌入,按照该规则和对应的每种式样对该待排版文档进行排版,从而生成排版后的文档。
如图16所示为在本发明实施例中对文档进行排版的过程,该过程具体包括:
S1601:对一篇文档进行排版时,需要读取选择的公文样式模板文件,解析该公文样式模板文件,其中该公文样式模板文件中包括排版规则子文件、式样子文件以及公文元素式样子文件,获取该公文样式模板文件中每个子文件对应的描述信息。
在本发明实施例中排版规则、式样集和公文元素式样都可以采用XML结构描述,因此该公文样式模板文件也可以采用XML结构描述,因此根据解析的得该公文样式模板可以建立公文显现树,该公文呈现树包括:排版规则子树、式样集子树公文元素式样子树。
S1602:在对一篇文档进行排版时,还需要对该篇文档进行解析,根据该文档的结构特征,解析得到该文档的元数据信息。
由于一般的文档包括页眉、页脚、眉首、主体和版记信息中的至少一项描述信息,因此,在解析文档获取文档的数据信息时,可以从上述几项描述信息中获取,如图17所示,为获取该公文元素式样中文档的眉首、主体和版记中的每项描述信息的示意图。解析该文档得到元数据树。
S1603:根据解析获得的公文样式模板文件中的描述信息、及文档中的元数据信息,进行排版生成排版后的文档。
将显现树与数据树进行混合,生成结果树,从而完成对该文档的排版。
在本发明实施例中进行排版生成排版后的文档时,该方法包括:
根据解析获得的公文样式模板文件中的描述信息,及文档中的对应的元数据信息,进行逻辑排版,生成数据文件。
将该数据文件进行物理排版,生成排版后的文档。
在进行逻辑排版的过程中,由于该排版规则、式样集及公文元素式样都可以采用XML的形式标识,因此该过程主要包括:
将公文元素式样子文件中的每个描述信息的名称与解析得到的文档中的对应元数据信息进行匹配;
在公文元素式样子文件中确定匹配成功的描述信息,根据该描述信息的标识在式样子文件中查找该描述信息对应的式样信息,将该匹配成功的元数据按照该式样信息组合到公文元素式样子文件的该匹配成功的描述信息对应的式样中。
其中,包括根据公文元素式样子树的结构特征生成混合树。
例如,公文元素式样子文件中的描述单元为“秘密等级与保密期限”,与解析得到的数据文件中的描述信息进行匹配,例如匹配成功的描述信息为“绝密”,则在该描述单元“秘密等级与保密期限”的节点下生成内容节点,并且该内容节点的值为“绝密”。从而实现了将匹配成功的描述信息组合到公文元素式样子文件的每个描述单元中。
根据该公文元素式样子文件中的描述单元“秘密等级与保密期限”,其对应的式样为“秘密等级与保密期限对象类型=‘文字框’式样引用=‘ID040961’”,根据该式样引用标识符“ID040961”,查找该设置的式样集中,该标识符对应的式样信息,例如查找到的式样信息为“图形对象式样名称=‘秘密等级与保密期限’标识符=‘ID040961’”,将该标识符对应的式样信息,在该描述单元“秘密等级与保密期限”的节点下生成式样节点,且该式样节点对应的值为“图形对象式样”。从而实现将给描述信息对应的式样信息组合到公文元素式样子文件的每个描述单元中。
在本发明实施例中,将该数据文件进行物理排版,生成排版后的文档的过程包括:
根据公文元素式样子文件中引用的式样子文件中的页面式样信息建立页,将建立的页作为排版生成的结构树中第一层子节点;
按照深度优先的策略遍历混合树,按照流式排版方法将待排版的数据信息在页面中进行定位,当在一页中排不下时,则建立新页,将建立的新页作为第二层子节点,然后在该页中进行排版,依次将待排版的数据信息在每页中进行定位,从而确定每个待排版的数据信息所在的页,即进行物理呈现时的页;
按照排版规则依次进行实现,生成排版后的文档。
如图18所示,本发明实施例提供了一种排版装置,该装置包括:
获取解析模块1801,用于获取待排版的文档,解析所述文档中的每个元数据信息,并根据选择的公文样式模板文件,解析所述公文样式模板文件,获取所述公文样式模板文件对应的每个描述信息,其中所述公文样式模板文件包括:排版规则子文件,式样子文件以及公文元素式样子文件;
匹配模块1802,用于将所述每个元数据信息与所述公文元素式样子文件中的每个描述信息进行匹配;
排版提示模块1803,用于在确定匹配不成功时,提示用户选择的模板错误,在确定匹配成功时,根据所述每个描述信息中引用的所述式样子文件中预先设置的式样将所述元数据信息灌入,生成排版后的文档。
所述排版提示模块1803包括:
逻辑排版单元18030,用于将所述公文样式模板文件中的描述信息,及文档中的对应元数据信息,进行逻辑排版,生成数据文件;
物理排版单元18033,用于将所述数据文件进行物理排版,生成排版后的文档。
所述逻辑排版单元18030包括:
匹配子单元18031,用于将所述公文样式模板文件中的每个描述信息的名称,与解析得到的文档中的对应的元数据信息进行匹配;
查找组合子单元18032,用于在公文元素式样子文件中确定匹配成功的描述信息,根据该描述信息的标识在式样子文件中查找该描述信息对应的式样信息,将该匹配成功的元数据按照所述式样信息组合到公文元素式样子文件的该匹配成功的描述信息对应的式样中。
所述物理排版单元18033包括:
页建立子单元18034,用于根据公文元素式样子文件中引用的式样子文件中的页面式样信息建立页;
判断子单元18035,用于判断建立的页内是否能够排下排版的元数据信息;
定位子单元18036,用于将在该页内排版的元数据信息在所述页中定位。
所述装置还包括:
存储模块1800,用于保存页面式样信息、字体声明信息、句式样信息、段落式样信息、文字表式样信息、单元格式样信息、图像对象式样信息和图形对象式样信息中的一种或几种。
所述排版提示模块1803还用于,
根据读取的规则排版子文件中的规则,将所述元数据信息灌入后的文档进行自动排版,判断自动排版后的文档是否满足所述规则的要求,当确定不满足时重新进行对应元数据信息的灌入,当确定满足时,生成排版后的文档。
本发明实施例提供了一种基于版面格式模板的排版方法及装置,该方法通过在解析公文样式模板文件,获取公文样式模板文件中对应的每个描述信息解析待排版的文档获取元数据信息,在匹配成功时,根据公文样式模板文件中的公文元素式样子文件中的每个描述信息中引用的公文样式模板文件中式样子文件中预先设置的式样将对应的元数据灌入,生成排版后的文档,在本发明实施例中,由于预先设置了多个模板,保证了每个模板设置的统一性,并且模板中每个描述信息引用预先设定的样式,从而可以有效的提高排版的效率,同时在进行排版时,数据与样式分别进行处理避免了相互之间的影响和制约,提高了排版的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (13)
1.一种基于版面格式模板的排版方法,其特征在于,包括:
获取待排版的文档,解析所述文档中的每个元数据信息,并解析选择的公文样式模板文件,获取所述公文样式模板文件对应的每个描述信息,其中所述公文样式模板文件包括:式样子文件以及公文元素式样子文件;
将所述每个元数据信息与所述公文元素式样子文件中对应的每个描述信息进行匹配;
当匹配不成功时,提示用户选择的模板错误;
否则,根据所述每个描述信息中引用的所述式样子文件中预先设置的式样,将对应的所述元数据信息灌入,生成排版后的文档。
2.如权利要求1所述的方法,其特征在于,所述将对应的所述元数据信息灌入,生成排版后的文档包括:
将所述公文样式模板文件中的描述信息,及文档中的对应元数据信息,进行逻辑排版,生成数据文件;
将所述数据文件进行物理排版,生成排版后的文档。
3.如权利要求2所述的方法,其特征在于,所述进行逻辑排版包括:
将所述公文样式模板文件中的每个描述信息的名称,与解析得到的文档中的对应的元数据信息进行匹配;
在公文元素式样子文件中确定匹配成功的描述信息,根据该描述信息的标识在式样子文件中查找该描述信息对应的式样信息,将该匹配成功的元数据按照所述式样信息组合到公文元素式样子文件的该匹配成功的描述信息对应的式样中。
4.如权利要求2所述的方法,其特征在于,所述进行物理排版包括:
根据公文元素式样子文件中引用的式样子文件中的页面式样信息建立页,将排版的元数据信息在所述页中定位;
当在一页中排不下时,建立第二页,将所述第二页中将排版的元数据信息在所述第二页中定位;
依次将每个元数据信息在每页中进行定位。
5.如权利要求1所述的方法,其特征在于,所述式样子文件包括:
页面式样信息、字体声明信息、句式样信息、段落式样信息、文字表式样信息、单元格式样信息、图像对象式样信息和图形对象式样信息中的一种或几种。
6.如权利要求1所述的方法,其特征在于,所述公文样式模板文件还包括:规则排版子文件。
7.如权利要求6所述的方法,其特征在于,将所述元数据信息灌入后所述方法进一步包括:
读取所述规则排版子文件中的规则,进行自动排版,判断自动排版后的文档是否满足所述规则的要求,当不满足时重新进行对应元数据信息的灌入,当满足时,进行后续步骤。
8.一种基于版面格式模板的排版装置,其特征在于,该装置包括:
获取解析模块,用于获取待排版的文档,解析所述文档中的每个元数据信息,并根据选择的公文样式模板文件,解析所述公文样式模板文件,获取所述公文样式模板文件对应的每个描述信息,其中所述公文样式模板文件包括:排版规则子文件,式样子文件以及公文元素式样子文件;
匹配模块,用于将所述每个元数据信息与所述公文元素式样子文件中的每个描述信息进行匹配;
排版提示模块,用于在确定匹配不成功时,提示用户选择的模板错误,在确定匹配成功时,根据所述每个描述信息中引用的所述式样子文件中预先设置的式样将所述元数据信息灌入,生成排版后的文档。
9.如权利要求8所述的装置,其特征在于,所述排版提示模块包括:
逻辑排版单元,用于将所述公文样式模板文件中的描述信息,及文档中的对应元数据信息,进行逻辑排版,生成数据文件;
物理排版单元,用于将所述数据文件进行物理排版,生成排版后的文档。
10.如权利要求9所述的装置,其特征在于,所述逻辑排版单元包括:
匹配子单元,用于将所述公文样式模板文件中的每个描述信息的名称,与解析得到的文档中的对应的元数据信息进行匹配;
查找组合子单元,用于在公文元素式样子文件中确定匹配成功的描述信息,根据该描述信息的标识在式样子文件中查找该描述信息对应的式样信息,将该匹配成功的元数据按照所述式样信息组合到公文元素式样子文件的该匹配成功的描述信息对应的式样中。
11.如权利要求9所述的装置,其特征在于,所述物理排版单元包括:
页建立子单元,用于根据公文元素式样子文件中引用的式样子文件中的页面式样信息建立页;
判断子单元,用于判断建立的页内是否能够排下排版的元数据信息;
定位子单元,用于将在该页内排版的元数据信息在所述页中定位。
12.如权利要求8所述的装置,其特征在于,所述装置还包括:
存储模块,用于保存页面式样信息、字体声明信息、句式样信息、段落式样信息、文字表式样信息、单元格式样信息、图像对象式样信息和图形对象式样信息中的一种或几种。
13.如权利要求8所述的装置,其特征在于,所述排版提示模块还用于,
根据读取的规则排版子文件中的规则,将所述元数据信息灌入后的文档进行自动排版,判断自动排版后的文档是否满足所述规则的要求,当确定不满足时重新进行对应元数据信息的灌入,当确定满足时,生成排版后的文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910082645A CN101872340A (zh) | 2009-04-23 | 2009-04-23 | 一种基于版面格式模板的排版方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910082645A CN101872340A (zh) | 2009-04-23 | 2009-04-23 | 一种基于版面格式模板的排版方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101872340A true CN101872340A (zh) | 2010-10-27 |
Family
ID=42997206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910082645A Pending CN101872340A (zh) | 2009-04-23 | 2009-04-23 | 一种基于版面格式模板的排版方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101872340A (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663125A (zh) * | 2012-04-20 | 2012-09-12 | 李朋涛 | 一种收集微博内容制作电子文档的方法及系统 |
CN102841887A (zh) * | 2011-06-21 | 2012-12-26 | 北大方正集团有限公司 | 可变数据排版的方法和装置 |
CN102841888A (zh) * | 2012-09-14 | 2012-12-26 | 《中国学术期刊(光盘版)》电子杂志社 | 一种快速排版系统及方法 |
CN103034624A (zh) * | 2011-09-29 | 2013-04-10 | 北京大学 | 一种页面对象的精确定位方法和系统 |
CN103440231A (zh) * | 2013-09-02 | 2013-12-11 | 北京网秦天下科技有限公司 | 用于比较文本的设备和方法 |
CN103678268A (zh) * | 2012-09-19 | 2014-03-26 | 北京大学 | 公文自动排版方法和装置 |
CN104346319A (zh) * | 2013-08-05 | 2015-02-11 | 北大方正集团有限公司 | 检查文档样式的方法及系统 |
CN104462045A (zh) * | 2014-12-15 | 2015-03-25 | 北京信息科技大学 | 一种文档处理方法和装置 |
CN104765721A (zh) * | 2014-01-06 | 2015-07-08 | 北大方正集团有限公司 | 拼版处理方法及装置 |
CN105183706A (zh) * | 2014-05-27 | 2015-12-23 | 腾讯科技(北京)有限公司 | 富文本处理方法和装置 |
CN105279144A (zh) * | 2015-10-10 | 2016-01-27 | 中国空气动力研究与发展中心高速空气动力研究所 | 一种风洞试验数据文本文件的排版方法和装置 |
CN105701073A (zh) * | 2015-12-31 | 2016-06-22 | 北京中科江南信息技术股份有限公司 | 版式文件的生成方法及装置 |
CN106250359A (zh) * | 2015-06-15 | 2016-12-21 | 中国石油化工股份有限公司 | 一种编排油气储量相关矢量图形的系统及方法 |
CN106408266A (zh) * | 2016-09-29 | 2017-02-15 | 广州鹤互联网科技有限公司 | 一种签核文件自动生成方法及装置 |
CN108241642A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 文件解析方法和装置 |
CN108319579A (zh) * | 2017-01-18 | 2018-07-24 | 北大方正集团有限公司 | Xml结构化数据的排版方法和排版装置 |
CN108984498A (zh) * | 2017-06-05 | 2018-12-11 | 北大方正集团有限公司 | 文档的排版处理方法及装置 |
CN110096684A (zh) * | 2019-04-10 | 2019-08-06 | 沈阳哲航信息科技有限公司 | 一种基于模板的文档规范智能检查系统及方法 |
CN110109838A (zh) * | 2019-05-08 | 2019-08-09 | 北京信息科技大学 | 一种办公文档排版式样的测试方法及装置 |
CN110362805A (zh) * | 2018-04-09 | 2019-10-22 | 成都野望数码科技有限公司 | 一种内容排版推荐的方法、装置以及终端设备 |
CN110413954A (zh) * | 2019-07-29 | 2019-11-05 | 北京北大软件工程股份有限公司 | 制式文件打印预览方法、装置、设备和存储介质 |
CN110738035A (zh) * | 2019-09-18 | 2020-01-31 | 平安科技(深圳)有限公司 | 一种文档模板生成方法及装置 |
CN110852052A (zh) * | 2019-10-17 | 2020-02-28 | 北京奇艺世纪科技有限公司 | 一种图书排版方法及装置 |
CN110969004A (zh) * | 2019-12-16 | 2020-04-07 | 方正株式(武汉)科技开发有限公司 | 图文自动排版方法及系统、服务器及介质 |
CN111368523A (zh) * | 2018-12-26 | 2020-07-03 | 嘉太科技(北京)有限公司 | 一种影视剧本排版格式转换方法及装置 |
CN112417834A (zh) * | 2019-08-23 | 2021-02-26 | 珠海金山办公软件有限公司 | 一种文档处理方法、装置及电子设备 |
CN112668299A (zh) * | 2021-01-26 | 2021-04-16 | 广西安怡臣信息技术有限公司 | 一种裁判文书自动排版方法及系统 |
CN113221506A (zh) * | 2021-05-14 | 2021-08-06 | 北京有竹居网络技术有限公司 | 一种讲义排版的方法、装置、电子设备及存储介质 |
CN113378524A (zh) * | 2021-06-07 | 2021-09-10 | 北京百度网讯科技有限公司 | 更新文档的存储信息的方法、装置、设备和存储介质 |
-
2009
- 2009-04-23 CN CN200910082645A patent/CN101872340A/zh active Pending
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102841887A (zh) * | 2011-06-21 | 2012-12-26 | 北大方正集团有限公司 | 可变数据排版的方法和装置 |
CN103034624A (zh) * | 2011-09-29 | 2013-04-10 | 北京大学 | 一种页面对象的精确定位方法和系统 |
CN103034624B (zh) * | 2011-09-29 | 2015-12-16 | 北京大学 | 一种页面对象的精确定位方法和系统 |
CN102663125A (zh) * | 2012-04-20 | 2012-09-12 | 李朋涛 | 一种收集微博内容制作电子文档的方法及系统 |
CN102663125B (zh) * | 2012-04-20 | 2014-09-17 | 李朋涛 | 一种收集微博内容制作电子文档的方法及系统 |
CN102841888B (zh) * | 2012-09-14 | 2015-10-14 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种快速排版系统及方法 |
CN102841888A (zh) * | 2012-09-14 | 2012-12-26 | 《中国学术期刊(光盘版)》电子杂志社 | 一种快速排版系统及方法 |
CN103678268A (zh) * | 2012-09-19 | 2014-03-26 | 北京大学 | 公文自动排版方法和装置 |
CN103678268B (zh) * | 2012-09-19 | 2016-08-31 | 北京大学 | 公文自动排版方法和装置 |
CN104346319A (zh) * | 2013-08-05 | 2015-02-11 | 北大方正集团有限公司 | 检查文档样式的方法及系统 |
CN104346319B (zh) * | 2013-08-05 | 2017-04-26 | 北大方正集团有限公司 | 检查文档样式的方法及系统 |
CN103440231A (zh) * | 2013-09-02 | 2013-12-11 | 北京网秦天下科技有限公司 | 用于比较文本的设备和方法 |
CN104765721A (zh) * | 2014-01-06 | 2015-07-08 | 北大方正集团有限公司 | 拼版处理方法及装置 |
CN105183706A (zh) * | 2014-05-27 | 2015-12-23 | 腾讯科技(北京)有限公司 | 富文本处理方法和装置 |
CN104462045B (zh) * | 2014-12-15 | 2017-11-03 | 北京信息科技大学 | 一种文档处理方法和装置 |
CN104462045A (zh) * | 2014-12-15 | 2015-03-25 | 北京信息科技大学 | 一种文档处理方法和装置 |
CN106250359A (zh) * | 2015-06-15 | 2016-12-21 | 中国石油化工股份有限公司 | 一种编排油气储量相关矢量图形的系统及方法 |
CN105279144B (zh) * | 2015-10-10 | 2018-08-28 | 中国空气动力研究与发展中心高速空气动力研究所 | 一种风洞试验数据文本文件的排版方法和装置 |
CN105279144A (zh) * | 2015-10-10 | 2016-01-27 | 中国空气动力研究与发展中心高速空气动力研究所 | 一种风洞试验数据文本文件的排版方法和装置 |
CN105701073A (zh) * | 2015-12-31 | 2016-06-22 | 北京中科江南信息技术股份有限公司 | 版式文件的生成方法及装置 |
CN106408266A (zh) * | 2016-09-29 | 2017-02-15 | 广州鹤互联网科技有限公司 | 一种签核文件自动生成方法及装置 |
CN108241642A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 文件解析方法和装置 |
CN108241642B (zh) * | 2016-12-23 | 2021-03-30 | 北京国双科技有限公司 | 文件解析方法和装置 |
CN108319579B (zh) * | 2017-01-18 | 2020-12-04 | 北大方正集团有限公司 | Xml结构化数据的排版方法和排版装置 |
CN108319579A (zh) * | 2017-01-18 | 2018-07-24 | 北大方正集团有限公司 | Xml结构化数据的排版方法和排版装置 |
CN108984498A (zh) * | 2017-06-05 | 2018-12-11 | 北大方正集团有限公司 | 文档的排版处理方法及装置 |
CN110362805A (zh) * | 2018-04-09 | 2019-10-22 | 成都野望数码科技有限公司 | 一种内容排版推荐的方法、装置以及终端设备 |
CN110362805B (zh) * | 2018-04-09 | 2023-10-27 | 成都野望数码科技有限公司 | 一种内容排版推荐的方法、装置以及终端设备 |
CN111368523A (zh) * | 2018-12-26 | 2020-07-03 | 嘉太科技(北京)有限公司 | 一种影视剧本排版格式转换方法及装置 |
CN110096684A (zh) * | 2019-04-10 | 2019-08-06 | 沈阳哲航信息科技有限公司 | 一种基于模板的文档规范智能检查系统及方法 |
CN110109838A (zh) * | 2019-05-08 | 2019-08-09 | 北京信息科技大学 | 一种办公文档排版式样的测试方法及装置 |
CN110109838B (zh) * | 2019-05-08 | 2023-03-21 | 北京信息科技大学 | 一种办公文档排版式样的测试方法及装置 |
CN110413954A (zh) * | 2019-07-29 | 2019-11-05 | 北京北大软件工程股份有限公司 | 制式文件打印预览方法、装置、设备和存储介质 |
CN110413954B (zh) * | 2019-07-29 | 2023-08-04 | 北京北大软件工程股份有限公司 | 制式文件打印预览方法、装置、设备和存储介质 |
CN112417834A (zh) * | 2019-08-23 | 2021-02-26 | 珠海金山办公软件有限公司 | 一种文档处理方法、装置及电子设备 |
CN110738035A (zh) * | 2019-09-18 | 2020-01-31 | 平安科技(深圳)有限公司 | 一种文档模板生成方法及装置 |
CN110852052A (zh) * | 2019-10-17 | 2020-02-28 | 北京奇艺世纪科技有限公司 | 一种图书排版方法及装置 |
CN110969004A (zh) * | 2019-12-16 | 2020-04-07 | 方正株式(武汉)科技开发有限公司 | 图文自动排版方法及系统、服务器及介质 |
CN110969004B (zh) * | 2019-12-16 | 2023-06-13 | 方正株式(武汉)科技开发有限公司 | 图文自动排版方法及系统、服务器及介质 |
CN112668299A (zh) * | 2021-01-26 | 2021-04-16 | 广西安怡臣信息技术有限公司 | 一种裁判文书自动排版方法及系统 |
CN113221506A (zh) * | 2021-05-14 | 2021-08-06 | 北京有竹居网络技术有限公司 | 一种讲义排版的方法、装置、电子设备及存储介质 |
CN113378524A (zh) * | 2021-06-07 | 2021-09-10 | 北京百度网讯科技有限公司 | 更新文档的存储信息的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101872340A (zh) | 一种基于版面格式模板的排版方法及装置 | |
US7984076B2 (en) | Document processing apparatus, document processing method, document processing program and recording medium | |
CN104346319B (zh) | 检查文档样式的方法及系统 | |
CN101989256B (zh) | 一种文书文件的排版方法及装置 | |
JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
CN101727461B (zh) | 一种网页的正文抽取方法 | |
CN105159877B (zh) | 一种跨媒体自动排版系统及其方法 | |
CN102779118B (zh) | 一种论文的排版方法及系统 | |
CN102043762B (zh) | 一种版面比对的方法及装置 | |
CN111507073A (zh) | 一种基于web富文本的论文编辑与智能排版方法及平台 | |
CN103268340B (zh) | 基于层次式索引的版式可回流文件建立和绘制方法 | |
CN110704570A (zh) | 一种连续页版式文档结构化信息提取方法 | |
CN110688825A (zh) | 一种版式文档中的含线表格信息提取方法 | |
CN107704440A (zh) | 一种抽取数据库数据自动批量生成所需xml文件的方法 | |
CN102103574B (zh) | 一种格式化输出书版小样文件内容的方法及系统 | |
CN105468577A (zh) | 一种文档拆分方法及系统 | |
CN105740355A (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
CN101996190B (zh) | 一种从网页中抽取信息的方法及装置 | |
Bagley et al. | Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements | |
CN111079385A (zh) | 一种科学公式格式转换的方法和装置 | |
CN107967243A (zh) | 一种支持用户自主断句的处理方法 | |
CN101673406B (zh) | 字体设置方法和装置 | |
US11775733B2 (en) | Device dependent rendering of PDF content including multiple articles and a table of contents | |
Bień | The IMPACT project Polish Ground-Truth texts as a DjVu corpus | |
CN111126007B (zh) | 一种基于html病历文书分页算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20101027 |