CN104572745A

CN104572745A - 文档结构化方法和装置

Info

Publication number: CN104572745A
Application number: CN201310505451.6A
Authority: CN
Inventors: 杨勇
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Beijing Founder Electronics Co Ltd
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2015-04-29
Anticipated expiration: 2033-10-23
Also published as: CN104572745B

Abstract

本发明提供一种文档结构化方法和装置，其中方法包括：创建Schema文件和结构化规则文件；根据结构化规则文件和Schema文件对文档进行结构化，得到结构化后的文档，结构化后的文档中包括已结构化的内容和未结构化的无规则内容；获取结构化后的文档中预设的标志性标签的位置；根据标志性标签的位置获取结构化后的文档中的无规则内容；根据预设的特殊样式或者段落位置优势对无规则内容进行结构化，得到结构化文档，从而提高了文档结构化的效率，降低了文档结构化的出错率。

Description

文档结构化方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文档结构化方法和装置。

背景技术

现有技术中，在印刷排版行业中，出版社收到大量来稿时，由于来稿的格式不统一，出版社需要采用规则对来稿进行结构化，然后对来稿中不能采用规则进行结构化的无规则内容，例如中英文标题、中英文作者及作者单位的格式进行整理，得到结构化文档，然后根据结构化文档来制作图书或者期刊。

然而现有技术中，出版社通过投入大量的人力来人工整理无规则内容的格式，导致文档结构化的效率低，出错率高。

发明内容

本发明提供一种文档结构化方法和装置，用于解决现有技术中文档结构化的效率低，出错率高的问题。

本发明的第一个方面是提供一种文档结构化方法，包括：

创建Schema文件和结构化规则文件；

根据所述结构化规则文件和所述Schema文件对文档进行结构化，得到结构化后的文档，所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容；

获取所述结构化后的文档中预设的标志性标签的位置；

根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容；

根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化，得到结构化文档。

本发明的另一个方面提供一种文档结构化装置，包括：

创建模块，用于创建Schema文件和结构化规则文件；

结构化模块，用于根据所述结构化规则文件和所述Schema文件对文档进行结构化，得到结构化后的文档，所述结构化后的文档中包括已结构化的内容和未结构化的无规则内容；

获取模块，用于获取所述结构化后的文档中预设的标志性标签的位置；

所述获取模块，还用于根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容；

所述结构化模块，还用于根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化，得到结构化文档。

本发明中，通过根据结构化规则文件和Schema文件对文档进行结构化，得到结构化后的文档，结构化后的文档中包括已结构化的内容和未结构化的无规则内容，获取结构化后的文档中预设的标志性标签的位置，根据标志性标签的位置获取结构化后的文档中的无规则内容，根据预设的特殊样式或者段落位置优势对无规则内容进行结构化，得到结构化文档，而不需要人工整理无规则内容的格式，从而提高了文档结构化的效率，降低了文档结构化的出错率。

附图说明

图1为本发明提供的文档结构化方法一个实施例的流程图；

图2为本发明提供的文档结构化方法又一个实施例的流程图；

图3为本发明提供的文档结构化方法另一个实施例的流程图；

图4为本发明提供的文档结构化装置一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的文档结构化方法一个实施例的流程图，如图1所示，包括：

101、创建Schema文件和结构化规则文件。

本发明提供的文档结构化方法的执行主体可以为文档结构化装置，文档结构化装置具体可以为保存于计算机中用于对文档进行结构化的软件或系统。

规则（Schema）是一组为了描述某一类XML文档而定义好的一套规则，用于对一类XML文档进行约束并确定其结构，Schema文件中可以包括文档结构和基本元素类型，Schema文件中的文档结构和基本元素类型为文档结构化装置根据对大量的图书或期刊文档样张进行分析得到的规范进行创建的。Schema文件采用w3c标准，后缀名为XSD。文档结构可以包括多个结构单位，例如文档中的标题、篇、章、节等，文档结构中还可以包括标题、篇、章、节等之间的位置关系或顺序关系。基本元素类型可以包括：普通框架元素，样式框架元素，标题框架元素，复用框架元素和混合元素中的一种或多种。上述各种元素中可以包括字体、字形、字号、是否加粗、字间距、段落对齐方式、行间距等参数。

结构化规则文件具体可以为可扩展标记语言（Extensible MarkupLanguage，XML）文件，结构化规则文件中可以包括至少一个结构化规则，结构化规则文件中的结构化规则具体可以为格式匹配规则，样式匹配规则，大纲级别匹配规则和自定义通配符匹配规则中的一种或多种。其中，格式匹配规则，用于规定文字格式来匹配文档结构；样式匹配规则，用于规定段落样式来匹配文档结构；大纲级别匹配规则，用于规定大纲级别来匹配文档结构；自定义通配符匹配规则，用于规定通配符来自定义匹配文档结构。另外，文档结构与匹配规则之间的对应关系可以为一对多配置，以解决一个结构单位在不同文档中不同的显示方式，例如，格式匹配规则可以为：【内容摘要】or[\[【]摘要[】\]]or摘[ ]{1,}要or摘要[：:]or[\[【]摘[ ]{1,}要[】\]]。

102、根据结构化规则文件和Schema文件对文档进行结构化，得到结构化后的文档，结构化后的文档中包括已结构化的内容和未结构化的无规则内容。

其中，当文档结构包括多个结构单位，且结构单位与基本元素类型对应时，步骤102具体可以包括：根据结构化规则对文档结构进行匹配，将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则；根据实例化规则对文档进行结构化，得到结构化后的文档。

103、获取结构化后的文档中预设的标志性标签的位置。

104、根据标志性标签的位置获取结构化后的文档中的无规则内容。

105、根据预设的特殊样式或者段落位置优势对无规则内容进行结构化，得到结构化文档。

文档结构化装置根据预设的特殊样式或者段落位置优势对无规则内容进行结构化，得到结构化文档之后，文档结构化装置还可以对无规则内容结构化后得到的内容进行验证。

本实施例中，通过根据结构化规则文件和Schema文件对文档进行结构化，得到结构化后的文档，结构化后的文档中包括已结构化的内容和未结构化的无规则内容，获取结构化后的文档中预设的标志性标签的位置，根据标志性标签的位置获取结构化后的文档中的无规则内容，根据预设的特殊样式或者段落位置优势对无规则内容进行结构化，得到结构化文档，而不需要人工整理无规则内容的格式，从而提高了文档结构化的效率，降低了文档结构化的出错率。

图2为本发明提供的文档结构化方法又一个实施例的流程图，如图2所示，在图1所示实施例的基础上，标志性标签可以包括中文摘要标签和英文摘要标签。

对应的，步骤104具体可以包括：

1041、从中文摘要标签的位置向前找到结构化后的文档中的开始位置，得到第一块无规则内容。

1042、从英文摘要标签的位置向前找到第一段中文段落的末尾，得到第二块无规则内容。

其中，中文摘要标签和英文摘要标签为文档结构化装置通过对大量文档进行分析得到的文档中有规则文本内容与无规则文本内容的分割节点。

对应的，在第一种实施场景下，步骤105具体可以包括：

1051、遍历第一块无规则内容，查找最大字号中文段落。

1052、若查找到最大字号中文段落，将最大字号中文段落的格式设置为中文标题格式。

文档结构化装置将最大字号中文段落的格式设置为中文标题格式后，可以将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式，将中间段落中的其他段落设置为中文作者单位格式。

1053、若未查找到最大字号中文段落，根据段落位置优势对第一块无规则内容进行结构化。

具体地，若未查找到最大字号中文段落，文档结构化装置可以直接将第一块无规则内容中的第一段设置为中文标题格式，将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式，将中间段落中的其他段落设置为中文作者单位格式。

1054、遍历第二块无规则内容，查找最大字号英文段落。

1055、若查找到最大字号英文段落，将最大字号英文段落的格式设置为英文标题格式。

文档结构化装置将最大字号英文段落的格式设置为英文标题格式后，可以将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式，将中间段落中的其他段落设置为英文作者单位格式。

1056、若未查找到最大字号英文段落，根据段落位置优势对第二块无规则内容进行结构化。

具体地，若未查找到最大字号英文段落，文档结构化装置可以直接将第二块无规则内容中的第一段设置为英文标题格式，将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式，将中间段落中的其他段落设置为英文作者单位格式。

对应的，在第二种实施场景下，如图3所示，步骤105具体可以包括：

1057、将第一块无规则内容中的第一段设置为中文标题格式。

具体地，文档结构化装置还可以将中文标题与中文摘要之间的中间段落中的第一段设置为中文作者格式，将中间段落中的其他段落设置为中文作者单位格式。

1058、将第二块无规则内容中的第一段设置为英文标题格式。

具体地，文档结构化装置还可以将英文标题与英文摘要之间的中间段落中的第一段设置为英文作者格式，将中间段落中的其他段落设置为英文作者单位格式。

本实施例中，通过根据结构化规则文件和Schema文件对文档进行结构化，得到结构化后的文档，结构化后的文档中包括已结构化的内容和未结构化的无规则内容，获取结构化后的文档中的中文摘要标签和英文摘要标签的位置，根据中文摘要标签和英文摘要标签的位置分别获取结构化后的文档中的第一块无规则内容和第二块无规则内容，根据预设的特殊样式或者段落位置优势对第一块无规则内容和第二块无规则内容进行结构化，得到结构化文档，而不需要人工整理无规则内容的格式，从而提高了文档结构化的效率，降低了文档结构化的出错率。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本发明提供的文档结构化装置一个实施例的结构示意图，如图4所示，包括：

创建模块41，用于创建Schema文件和结构化规则文件；

结构化模块42，用于根据结构化规则文件和Schema文件对文档进行结构化，得到结构化后的文档，结构化后的文档中包括已结构化的内容和未结构化的无规则内容；

获取模块43，用于获取结构化后的文档中预设的标志性标签的位置；

获取模块43，还用于根据标志性标签的位置获取结构化后的文档中的无规则内容；

结构化模块42，还用于根据预设的特殊样式或者段落位置优势对无规则内容进行结构化，得到结构化文档。

进一步地，结构化规则文件中包括至少一个结构化规则，Schema文件中包括文档结构和基本元素类型，文档结构包括多个结构单位，结构单位与基本元素类型对应；

结构化模块42根据结构化规则文件和Schema文件对文档进行结构化，得到结构化后的文档中，结构化模块42具体用于，

根据结构化规则对文档结构进行匹配，将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则；

根据实例化规则对文档进行结构化，得到结构化后的文档。

其中，结构化规则，包括：格式匹配规则，样式匹配规则，大纲级别匹配规则和自定义通配符匹配规则中的一种或多种。基本元素类型包括：普通框架元素，样式框架元素，标题框架元素，复用框架元素和混合元素中的一种或多种。

更进一步地，标志性标签包括中文摘要标签和英文摘要标签；

获取模块43根据标志性标签的位置获取结构化后的文档中的无规则内容中，获取模块43具体用于，

从中文摘要标签的位置向前找到结构化后的文档中的开始位置，得到第一块无规则内容；

从英文摘要标签的位置向前找到第一段中文段落的末尾，得到第二块无规则内容。

再进一步地，在第一种实施场景下，结构化模块42根据预设的特殊样式或者段落位置优势对无规则内容进行结构化，得到结构化文档中，结构化模块42具体用于，

遍历第一块无规则内容，查找最大字号中文段落；

若查找到最大字号中文段落，将最大字号中文段落的格式设置为中文标题格式；

若未查找到最大字号中文段落，根据段落位置优势对第一块无规则内容进行结构化；

遍历第二块无规则内容，查找最大字号英文段落；

若查找到最大字号英文段落，将最大字号英文段落的格式设置为英文标题格式；

若未查找到最大字号英文段落，根据段落位置优势对第二块无规则内容进行结构化。

再进一步地，在第二种实施场景下，结构化模块42根据预设的特殊样式或者段落位置优势对无规则内容进行结构化，得到结构化文档中，结构化模块42具体用于，

将第一块无规则内容中的第一段设置为中文标题格式；

将第二块无规则内容中的第一段设置为英文标题格式。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文档结构化方法，其特征在于，包括：

创建Schema文件和结构化规则文件；

获取所述结构化后的文档中预设的标志性标签的位置；

2.根据权利要求1所述的方法，其特征在于，所述结构化规则文件中包括至少一个结构化规则，所述Schema文件中包括文档结构和基本元素类型，所述文档结构包括多个结构单位，所述结构单位与所述基本元素类型对应；

所述根据所述结构化规则文件和所述Schema文件对文档进行结构化，得到结构化后的文档，包括：

根据所述结构化规则对所述文档结构进行匹配，将匹配成功的结构单位、结构单位对应的基本元素类型与结构化规则组成实例化规则；

根据所述实例化规则对所述文档进行结构化，得到结构化后的文档。

3.根据权利要求1或2所述的方法，其特征在于，所述标志性标签包括中文摘要标签和英文摘要标签；

所述根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容，包括：

从所述中文摘要标签的位置向前找到所述结构化后的文档中的开始位置，得到第一块无规则内容；

从所述英文摘要标签的位置向前找到第一段中文段落的末尾，得到第二块无规则内容。

4.根据权利要求3所述的方法，其特征在于，所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化，得到结构化文档，包括：

遍历所述第一块无规则内容，查找最大字号中文段落；

若查找到所述最大字号中文段落，将所述最大字号中文段落的格式设置为中文标题格式；

若未查找到所述最大字号中文段落，根据段落位置优势对所述第一块无规则内容进行结构化。

5.根据权利要求4所述的方法，其特征在于，所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化，得到结构化文档，还包括：

遍历所述第二块无规则内容，查找最大字号英文段落；

若查找到所述最大字号英文段落，将所述最大字号英文段落的格式设置为英文标题格式；

若未查找到所述最大字号英文段落，根据段落位置优势对所述第二块无规则内容进行结构化。

6.根据权利要求3所述的方法，其特征在于，所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化，得到结构化文档，包括：

将所述第一块无规则内容中的第一段设置为中文标题格式。

7.根据权利要求6所述的方法，其特征在于，所述根据预设的特殊样式或者段落位置优势对所述无规则内容进行结构化，得到结构化文档，还包括：

将所述第二块无规则内容中的第一段设置为英文标题格式。

8.一种文档结构化装置，其特征在于，包括：

创建模块，用于创建Schema文件和结构化规则文件；

9.根据权利要求8所述的装置，其特征在于，所述结构化规则文件中包括至少一个结构化规则，所述Schema文件中包括文档结构和基本元素类型，所述文档结构包括多个结构单位，所述结构单位与所述基本元素类型对应；

所述结构化模块根据所述结构化规则文件和所述Schema文件对文档进行结构化，得到结构化后的文档中，所述结构化模块具体用于，

10.根据权利要求8或9所述的装置，其特征在于，所述标志性标签包括中文摘要标签和英文摘要标签；

所述获取模块根据所述标志性标签的位置获取所述结构化后的文档中的无规则内容中，所述获取模块具体用于，