CN102982010B - 提取文档结构的方法和装置 - Google Patents

提取文档结构的方法和装置 Download PDF

Info

Publication number
CN102982010B
CN102982010B CN201110259138.XA CN201110259138A CN102982010B CN 102982010 B CN102982010 B CN 102982010B CN 201110259138 A CN201110259138 A CN 201110259138A CN 102982010 B CN102982010 B CN 102982010B
Authority
CN
China
Prior art keywords
document
attribute
schema
file
xml file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110259138.XA
Other languages
English (en)
Other versions
CN102982010A (zh
Inventor
杨勇
闫国龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201110259138.XA priority Critical patent/CN102982010B/zh
Publication of CN102982010A publication Critical patent/CN102982010A/zh
Application granted granted Critical
Publication of CN102982010B publication Critical patent/CN102982010B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种提取文档结构的方法和装置,方法包括:将通过填写文档模版所生成的文档转换为Xml文件,其中将所述文档的各个段落转换成所述Xml文件的各个元素,所述元素的名称属性记录所述段落由所述文档模板所规定的段落样式的名称,所述元素的内容属性记录所述段落的内容;在Schema文件中查找与所述Xml文件中的元素具有相同名称属性的元素;将所述Xml文件中的所述元素的内容属性按照所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素所映射的版式结构输出。本发明上述的实施例通过Schema文件、将文档转换后的Xml文件,可对文档中的字符数据结构化,从而获得结构化文档。相对于通过标签生成结构化文档的方法,时间短、效率高。

Description

提取文档结构的方法和装置
技术领域
本发明涉及数字排版领域,具体而言,涉及一种提取文档结构的方法和装置。
背景技术
出版社按照出版物如期刊、试题合编等的要求,对电子文档进行整理,调整每篇文档的版式结构,最后转换为统一版式结构的文档,以便于后续的排版、打印、汇编出版等。
在以上的整理过程中采用了文档结构规范化的技术,当前实现文档结构规范化主要采用人工干预的方式。由于来稿格式不一,制作一本试题合集或者期刊需要编辑人员投入大量的精力来整理电子文档的格式,在文档中添加标签,根据标签生成结构化文档,并从这些电子文档中获得相应部分的内容,如标题、正文、辅文等。
发明人发现上述人工的整理过程,工作量较大,周期较长,效率较低。
发明内容
本发明旨在提供一种提取文档结构的方法和装置,以解决上述通过标签生成结构化文档,时间较长、效率较低的问题。
在本发明的实施例中,提供了一种提取文档结构的方法,包括:
将文档转换为Xml文件;按照对文档的结构化要求定义Schema的元素的类型;从所定义的元素中选择全部或部分元素,制定出Schema文件;在Schema文件中查找与所述Xml文件中的元素具有相同名称属性的元素;将所述Xml文件中的所述元素的内容属性按照所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素所映射的版式结构输出。
在本发明的实施例中,提供了一种提取文档结构的装置,包括:
转换模块,用于将文档转换为Xml文件;查找模块,用于按照对文档的结构化要求定义Schema的元素的类型;从所定义的元素中选择全部或部分元素,制定出Schema文件;在Schema文件中查找与所述Xml文件中的元素具有相同名称属性的元素;输出模块,用于将所述Xml文件中的所述元素的内容属性按照所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素所映射的版式结构输出。
本发明上述的实施例通过Schema文件、将文档转换后的Xml文件,可对文档中的字符数据结构化,从而获得结构化文档。相对于通过标签生成结构化文档的方法,时间短、效率高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例一的流程图;
图2示出了实施例二的流程图;
图3示出了实施例中Schema文件的元素之间的结构框图;
图4示出了实施例二中的结构化过程的流程图;
图5示出了实施例中结构化文档的屏幕截图;
图6示出了实施例三中的装置结构框图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。首先说明本发明的实施例一,参见图1,包括以下步骤:
步骤S11:将文档转换为Xml文件;
所述将文档转换为Xml文件是指将通过填写文档模板所生成的文档转换为Xml格式的文件;
所述转换过程包括:将所述文档的各个段落转换成所述Xml文件的各个元素,所述元素的名称属性记录所述段落由所述文档模板所定义的段落样式的名称,所述元素的内容属性记录所述段落的内容。
在本实施例中,文档模板可以采用word模板,该文档模板接收电子内容,形成文档文件。文档文件可通过xslt文件转换为Xml文件。
例如:采用zip解压方式提取office2007版本的word格式文档中源openXml文档,通过xslt样式表转换openXml文件,获得含有openXml文件中含有段落样式和文本内容的Xml文件。
xslt样式表文件中定义了需要提取的段落样式和文本内容的元素。
步骤S12:在所述Schema文件中查找与所述Xml文件中的元素具有相同名称属性的元素;
按照对文档的结构化要求定义Schema的元素的类型;从所定义的元素中选择全部或部分元素,制定出Schema文件;Schema文件符合w3c标准,其后缀名为xsd。在Schema文件和Xml文件中,两个文件存在相同名称的元素,相同名称的元素在Schema文件中为一种样式框架元素,在Xml文件中为定义段落样式的元素。
由于文档模板中的段落样式是由Schema文件定义的,因此通过填写文档模板所生成的文档转换成Xml文件后,该Xml文件的具有与Schema文件中样式框架元素在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素,元素的名称属性记录所述段落由所述文档模板所规定的段落样式的名称,所述元素的内容属性记录所述段落的内容;
步骤S13:将所述文档中的所述元素的内容按照所述具有相同名称的元素所映射的版式结构输出。
将文档的标题名称、正文或前言等内容,按照Schema文件中元素定义的版式结构输出,获得结构化文档。
通过上述的处理过程,可通过定义了版式结构的标准文件,通过元素的对应关系,将文档直接结构化。相对于在文档中添加标签的形式将文档结构化的方法,具有效率高、周期短、工作量小的优点。
在上述的结构化过程中,还可有不同形式的结构化过程,下面通过实施例二详细说明结构化的过程。参见图2,包括以下步骤:
S21:定义元素类型。
可按照对文档的结构化要求定义Schema的元素的类型,在本实施例中,Schema的基本元素类型定义如下:
●普通框架元素(ST_NormalFrameElement):指在文档框架中的普通节点,没有任何属性的节点。实现的代码如下:
例如:在本实施例中,该元素定义文档中插入的一些文本框架等。
●样式框架元素(CT_StyleFrameElement):指在文档框架中的表明某一样式且不是标题元素的节点。
●标题框架元素(CT_TitleFrameElement):指在文档框架中的表明该元素是标题的节点。
例如:在本实施例中,定义文档中的一级标题、二级标题等。
●复用框架元素(CT_DuplicateFrameElement):指在文档框架中,根据标题元素必须重复出现的元素为复用框架元素(比如说文档中有“篇标题”,则“篇标题”的父亲节点“篇”则必须出现在文档框架中)。作为父亲节点“篇”,该节点作为复用框架元素,定义版式结构中的一些属性,如篇的格式、大小等。
●混合元素(CT_MixElement):混合元素可以出现文档中任何地方,需在文档框架中体现,但在文档框架验证时不需要进行验证。混合元素下的所有子元素均为内容元素。(混合元素出现在结构图上能够方便用户修改文档框架)例如:在本实施例中,可以是文档中的一段正文。
S22:从所定义的元素中选择全部或部分元素,制定出Schema文件。
本实施例中所制定的Schema结构见图3。在图3中的根节点是名称为图书的元素,该根节点下,分别是名称为“主书名页”、“文前辅文”、“正文”、“文中辅文”等几个节点、以及其它的子节点,“主书名页”等也作为元素的名称属性的值。作为这些节点的元素的类型为步骤S21中定义的类型。所定义的类型可作为元素的类型属性,每个类型属性都定义了该元素的所要显示版式结构的哪些内容。
S23:通过制定的Schema文件,制定相应的文档模板、以及Schema实例文件。
在本实施例中,按照Schema文件中各个元素所定义的版式结构,在word模板内添加与Schema文件中的样式框架元素同名的段落样式。即该word模板具有Schema文件定义的段落样式。
可通过电子设备,在word文档输入相应的字符数据,如按照“篇”、“章”、“节”的层级关系,这些字符数据按照文档中定义的段落样式填写。
将Schema文件实例化,转换为Schema实例文件。
S24:按照word的开源格式文件制作相应的样式表xslt文件。
样式表xslt文件可实现将一种格式的文件转换为Xml文件。
S25:使用xslt文件将步骤S23中的文档文件转换为Xml文件。
通过xslt文件转换以步骤S23中创建的文档模板为基础制作的文档文件,如根据模板制作的word文档文件,转换为Xml文件。
S26:使用步骤S23中的Schema实例文件将步骤S25中的Xml文件结构化。
具体结构化的过程可参见图4,包括以下步骤:
S261:创建与Schema实例文件相同根节点的输出文档,依次遍历Xml文件中各个节点。
S262:通过Xml文件的中节点名称在Schema实例文件中定位。
定位过程,是在Schema实例文件内查找与文件中相同名称的元素。
S263:将Xml文件内元素的内容按照Schema实例文件中具有相同名称的元素所映射的版式结构输出。
输出的过程如下:
确定所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素在所述树形结构中的所有祖先节点;
创建对应所述祖先节点和所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的空元素;
将所述创建的空元素按照所述祖先节点和所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的树形结构加入到所述结构化文档中;
将所述祖先节点中所述类别属性记录的值加入到所述结构化文档中对应所述祖先节点的空元素内;
将所述Xml文件中的所述元素的内容属性、类别属性记录的值输出到在所述结构化文档中对应所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的空元素内。
将Xml文件中元素的内容按照Schema实例文件中元素定义的版式结构,输出到S261创建的文档内,形成结构化文档,如图5所示,在结构化文档的右侧,具有侧边栏,该侧边栏与Schema实例文件定义的框架相同,当使用光标点击某个节点名称时,会在结构化文档中以区别背景色的颜色显示相应的内容,如使用光标点击节点名称“一级标题”,结构化文档会以不同的背景色覆盖相应内容“第15章生物的遗传和变异”。
优选的,由于每个元素的类型不同,如上述的样式框架元素、复用框架元素等,可设置每个元素是否复用的复用属性、以及标识该元素是否调用其它元素的调用属性;例如,标题框架元素的调用属性就设置了该元素可以调用其它元素;复用框架元素的复用属性的值表明该元素可以被复用。
在所述显示结构化文档的过程中,如果判断当前所显示元素的调用属性存在调用其它元素的值,例如,当前元素为标题框架元素,则在所述结构化文档的元素中查找其归属最近、复用属性的值为复用的元素,即上述的复用框架元素。将该元素的类别属性的值与所述当前元素的内容属性、类别属性的值一同显示。
优选的,由于在步骤S23中制定的word文档中的字符内容,并没有全部在每个段落格式内都添加了字符数据,为在结构化文档内体现全部的结构,在上述定位时,可将Schema文件中的节点放入堆栈中,将在输出的结构化文档中依次查找,若输出的结构化文档中没有相应的节点,追加到输出文档中。
优选地,有些元素具有层级关系,如名称为“一级标题”的元素需要在名称“一级内容”的元素的内容下,在步骤S262和步骤S263之间,如果定位节点元素为步骤S21中所定义的标题框架元素,则需要重复之前祖先元素,直到找到一个步骤S21所定义的复用框架元素。例如:“一级内容”为复用框架元素,该元素定义了结构化文档中的“篇”的格式、大小、位置等,在Xml文件中判断到的名称为“一级标题”、“二级标题”元素的内容需要在该“一级内容”之下。
对于所定位的节点类型为混合元素,则允许出现在输出文件的任何地方,可省略不用判断。
S27:利用Schema实例文件对结构化文档进行验证。
在S26获得结构化文档之后,可通过步骤S23制定的Schema实例文件对结构化文档进行验证。在Schema实例文件中,各个元素之间具有树形结构的层级关系,作为兄弟节点的元素之间具有先后顺序,如“主书名页”应该在“正文”之前,创建word文档时,填写的字符内容的“主书名页”在“正文”之后。
在验证结构化文档中,判断所述兄弟节点的元素的内容的先后顺序是否与所述设置的顺序一致;如果不一致,则输出顺序不同的元素的内容在所述结构化文档中的位置。
通过上述的过程,通过Schema实例文件、将文档转换后的Xml文件,可对文档中的字符数据结构化,从而获得结构化文档。相对于通过标签生成结构化文档的方法,时间短、效率高。
本发明还提供一种提取文档结构的装置,参见图6,包括:
转换模块61,用于将文档转换为Xml文件;所述将文档转换为Xml文件是指将通过填写文档模板所生成的文档转换为Xml格式的文件;所述转换过程包括:将所述文档的各个段落转换成所述Xml文件的各个元素,所述元素的名称属性记录所述段落由所述文档模板所定义的段落样式的名称,所述元素的内容属性记录所述段落的内容。
查找模块62,用于在Schema文件中查找与所述Xml文件中的元素具有相同名称属性的元素;
输出模块63,用于将所述Xml文件中的所述元素的内容属性按照所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素所映射的版式结构输出。
优选的,还包括:Schema文件生成模块64,包括:
版式模块641,用于确定各种所述版式结构;
元素创建模块642,用于创建各个元素,设置每个元素的名称属性、类别属性;所述类别属性记录该元素映射所述版式结构的值;
组建模块643,用于将所述创建的各个元素构建成树形结构,所述树形结构映射所述各个元素在所述版式结构中的级别关系;
存储模块644,用于将所述元素及其树形结构采用所述Schema文件保存。
优选的,所述输出模块63包括:
结构化文档创建模块631,用于创建结构化文档;
遍历模块632,用于确定所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素在所述树形结构中的所有祖先节点;
空元素模块633,用于创建对应所述祖先节点和所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的空元素;
节点映射模块634,用于将所述创建的空元素按照所述祖先节点和所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的树形结构加入到所述结构化文档中;
属性映射模块635,用于将所述祖先节点中所述类别属性记录的值加入到所述结构化文档中对应所述祖先节点的空元素内;将所述Xml文件中的所述元素的内容属性、类别属性记录的值输出到在所述结构化文档中对应所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的空元素内。
从以上的描述中可以看出,本发明上述的实施例通过Schema实例文件、将文档转换后的Xml文件,可对文档中的字符数据结构化,从而获得结构化文档。相对于通过标签生成结构化文档的方法,时间短、效率高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种提取文档结构的方法,其特征在于,包括:
将文档转换为Xml文件;
按照对文档的结构化要求定义Schema的元素的类型;
从所定义的元素中选择全部或部分元素,制定出Schema文件;
通过制定的Schema文件,制定相应的文档模板、以及Schema实例文件;
在Schema实例文件中查找与所述Xml文件中的元素具有相同名称属性的元素;
将所述Xml文件中的所述元素的内容属性按照在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素所映射的版式结构输出,形成结构化文档;
利用Schema实例文件对结构化文档进行验证。
2.根据权利要求1所述的方法,其特征在于,所述将文档转换为Xml文件是指将通过填写所述文档模板所生成的文档转换为Xml格式的文件;
所述转换的过程包括:将所述文档的各个段落转换成所述Xml文件的各个元素,所述元素的名称属性记录所述段落由所述文档模板所定义的段落样式的名称,所述元素的内容属性记录所述段落的内容。
3.根据权利要求1所述的方法,其特征在于,所述Schema文件通过以下步骤创建:
确定各种所述版式结构;
创建各个元素,设置每个元素的名称属性、类别属性;所述类别属性记录该元素映射所述版式结构的值;
将所述创建的各个元素构建成树形结构,所述树形结构映射所述各个元素在所述版式结构中的级别关系;
将所述元素及其树形结构采用所述Schema文件保存。
4.根据权利要求3所述的方法,其特征在于,所述输出的过程包括:
创建结构化文档;
确定所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素在所述树形结构中的所有祖先节点;
创建对应所述祖先节点和所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的空元素;
将所述创建的空元素按照所述祖先节点和所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的树形结构加入到所述结构化文档中;
将所述祖先节点中所述类别属性记录的值加入到所述结构化文档中对应所述祖先节点的空元素内;
将所述Xml文件中的所述元素的内容属性、类别属性记录的值输出到在所述结构化文档中对应所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的空元素内。
5.根据权利要求4所述的方法,其特征在于,所述创建各个元素的过程中,还包括:
设置每个元素是否复用的复用属性、以及标识该元素是否调用其它元素的调用属性;
获取所述结构化文档中各个元素的类别属性、内容属性的值后进行显示;
在所述显示的过程中,如果判断当前所显示元素的调用属性存在调用其它元素的值,则在所述结构化文档的元素中查找其归属最近、复用属性的值为复用的元素,将该元素的类别属性的值与所述当前所显示元素的内容属性、类别属性的值一同显示。
6.根据权利要求3所述的方法,其特征在于,设置所述树形结构中作为兄弟节点的元素的顺序;
所述输出之后,还包括:
在所述结构化文档中,判断作为所述兄弟节点的元素所呈现的内容属性的先后顺序是否与所述设置的顺序一致;
如果不一致,则输出该元素的内容属性在所述结构化文档中的位置。
7.一种提取文档结构的装置,其特征在于,包括:
转换模块,用于将文档转换为Xml文件;查找模块,用于按照对文档的结构化要求定义Schema的元素的类型;从所定义的元素中选择全部或部分元素,制定出Schema文件;通过制定的Schema文件,制定相应的文档模板、以及Schema实例文件;在Schema实例文件中查找与所述Xml文件中的元素具有相同名称属性的元素;
输出模块,用于将所述Xml文件中的所述元素的内容属性按照在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素所映射的版式结构输出,形成结构化文档;利用Schema实例文件对结构化文档进行验证。
8.根据权利要求7所述的装置,其特征在于,还包括:Schema文件生成模块,包括:
版式模块,用于确定各种所述版式结构;
元素创建模块,用于创建各个元素,设置每个元素的名称属性、类别属性;所述类别属性记录该元素映射所述版式结构的值;
组建模块,用于将所述创建的各个元素构建成树形结构,所述树形结构映射所述各个元素在所述版式结构中的级别关系;
存储模块,用于将所述元素及其树形结构采用所述Schema文件保存。
9.根据权利要求8所述的装置,其特征在于,所述输出模块包括:
结构化文档创建模块,用于创建结构化文档;
遍历模块,用于确定所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素在所述树形结构中的所有祖先节点;
空元素模块,用于创建对应所述祖先节点和所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的空元素;
节点映射模块,用于将所述创建的空元素按照所述祖先节点和所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的树形结构加入到所述结构化文档中;
属性映射模块,用于将所述祖先节点中所述类别属性记录的值加入到所述结构化文档中对应所述祖先节点的空元素内;将所述Xml文件中的所述元素的内容属性、类别属性记录的值输出到在所述结构化文档中对应所述在Schema实例文件中查找的与所述Xml文件中的元素具有相同名称属性的元素的空元素内。
CN201110259138.XA 2011-09-02 2011-09-02 提取文档结构的方法和装置 Expired - Fee Related CN102982010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110259138.XA CN102982010B (zh) 2011-09-02 2011-09-02 提取文档结构的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110259138.XA CN102982010B (zh) 2011-09-02 2011-09-02 提取文档结构的方法和装置

Publications (2)

Publication Number Publication Date
CN102982010A CN102982010A (zh) 2013-03-20
CN102982010B true CN102982010B (zh) 2016-06-22

Family

ID=47856052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110259138.XA Expired - Fee Related CN102982010B (zh) 2011-09-02 2011-09-02 提取文档结构的方法和装置

Country Status (1)

Country Link
CN (1) CN102982010B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399857B (zh) * 2013-07-01 2017-02-08 北京航空航天大学 一种通用文档结构信息抽取方法
CN104424271B (zh) * 2013-08-29 2018-10-16 北大方正集团有限公司 出版物数字资源的自动采集方法及系统
CN104572745B (zh) * 2013-10-23 2018-05-04 北大方正集团有限公司 文档结构化方法和装置
CN104572744B (zh) * 2013-10-23 2018-12-25 北大方正集团有限公司 结构化文档生成方法和装置
CN104657342A (zh) * 2013-11-19 2015-05-27 北大方正集团有限公司 一种清样生成方法和装置
CN103902514A (zh) * 2014-04-04 2014-07-02 浙江大学城市学院 一种Word格式提取及再利用方法
CN105654022A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种提取文档结构化信息的方法及装置
CN105786775B (zh) * 2014-12-23 2018-11-16 珠海金山办公软件有限公司 文档大纲图生成方法及系统
CN106484380B (zh) * 2015-08-28 2020-10-16 中兴通讯股份有限公司 一种产品文档的生成方法和装置
CN108021632B (zh) * 2017-11-23 2020-07-07 中国移动通信集团河南有限公司 非结构化数据与结构化数据相互转换处理方法
CN108170656B (zh) * 2017-12-28 2021-09-07 创新先进技术有限公司 模板创建方法、文档创建方法、渲染方法和装置
CN111274768B (zh) * 2018-12-04 2022-02-22 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN109815447B (zh) * 2019-01-10 2023-05-12 浙江小泰科技有限公司 一种Word表单Schema处理系统
CN112001150B (zh) * 2019-05-27 2024-08-13 珠海金山办公软件有限公司 一种文档格式转换的方法、装置、计算机存储介质及终端
CN111259202B (zh) * 2020-01-10 2023-08-04 西宁宁光工程咨询有限公司 一种文档结构化数据嵌入方法及系统
CN113065337B (zh) * 2021-02-26 2023-06-16 成都环宇知了科技有限公司 一种基于OpenXml的定位文档并进行评分的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067814A (zh) * 2007-05-10 2007-11-07 浪潮集团山东通用软件有限公司 数据访问层Xml格式数据与关系数据间的映射转换方法
CN101436185A (zh) * 2007-11-12 2009-05-20 北大方正集团有限公司 一种利用xml内存树实现多种文件兼容的方法
CN101488123A (zh) * 2008-01-16 2009-07-22 鸿富锦精密工业(深圳)有限公司 文本解析系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030115228A1 (en) * 2001-03-14 2003-06-19 Horvitz Eric J. Schema-based service for identity-based access to location data
CN101794278A (zh) * 2009-09-21 2010-08-04 广东省标准化研究院 一种标准文献全文数字化方法及软件

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067814A (zh) * 2007-05-10 2007-11-07 浪潮集团山东通用软件有限公司 数据访问层Xml格式数据与关系数据间的映射转换方法
CN101436185A (zh) * 2007-11-12 2009-05-20 北大方正集团有限公司 一种利用xml内存树实现多种文件兼容的方法
CN101488123A (zh) * 2008-01-16 2009-07-22 鸿富锦精密工业(深圳)有限公司 文本解析系统及方法

Also Published As

Publication number Publication date
CN102982010A (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN102982010B (zh) 提取文档结构的方法和装置
US7197510B2 (en) Method, system and program for generating structure pattern candidates
US20110023022A1 (en) Method for application authoring employing an application template stored in a database
US20060259456A1 (en) System for describing text file formats in a flexible, reusable way to facilitate text file transformations
US20080126402A1 (en) Translation File
US20110055687A1 (en) Generating formatted documents
US8086618B2 (en) Configuration rule translation mapper
CN102270137B (zh) 一种获取体系结构描述语言的方法和一种建模工具
US20070150494A1 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
CN111258577B (zh) 页面渲染方法、装置、电子设备和存储介质
CN105760172A (zh) 一种基于itext的报表生成方法
CN104991858A (zh) 一种面向代码修改的概要及标签自动生成方法
Dipper et al. Accessing heterogeneous linguistic data-generic XML-based representation and flexible visualization
Combi et al. Conceptual modeling of XML data
US9588997B2 (en) Modularizing complex XML data for generation and extraction
Salim et al. UML documentation support for XML schema
CN111984739A (zh) 一种xml与关系型数据库的转换方法、终端和存储介质
CN104657340A (zh) 可扩展基于脚本的Word报告生成系统及方法
KR100250443B1 (ko) 에스.지.엠.엘.과 디.에스.에스.에스.엘.을 기반으로하는 복합문서 브라우저
CN1471679A (zh) 采用元标志信息的可扩展格式底稿设计
Schnabel et al. A practical guide to XLIFF 2.0
Xuan et al. An implementation of learning objects management system
Segedinac Mae Based Tool for Semantic Annotation of a Source Code
Kolovos et al. Implementing the interactive television applications case study using epsilon
Good The benefits and practicalities of using extensible markup language (XML) for the interfacing and control of object-oriented simulations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160622

Termination date: 20190902