CN110427884A

CN110427884A - 文档篇章结构识别方法、装置、设备和存储介质

Info

Publication number: CN110427884A
Application number: CN201910708379.4A
Authority: CN
Inventors: 钱亦欣; 陈运文; 高翔; 章逸骋; 纪达麒; 陈宇
Original assignee: Daerguan Information Technology (shanghai) Co Ltd
Current assignee: Daerguan Information Technology (shanghai) Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2019-11-08
Anticipated expiration: 2039-08-01
Also published as: CN110427884B

Abstract

本发明实施例公开了一种文档篇章结构识别方法、装置、设备和存储介质。该方法包括：获取待识别文档中包括的各个标题；获取与各所述标题分别对应的文本视觉特征；根据各所述标题的文本视觉特征之间的关联关系，对各所述标题进行层级划分，以得到与所述待识别文档对应的篇章结构。上述技术方案，减少了对关于标题的知识规则的依赖，节省了人工制定知识规则的工作量以及训练分类器的工作量，提高了标题层级划分的效率，还提升了文档篇章结构识别方法的自适应性。

Description

文档篇章结构识别方法、装置、设备和存储介质

技术领域

本发明实施例涉及文档解析技术领域，尤其涉及一种文档篇章结构识别方法、装置、设备和存储介质。

背景技术

文档的篇章结构，通常指的是文档的文档标题、章节标题、章节标题的层级关系以及章节正文内容等。人类在进行文档阅读时，利用文档的篇章结构可以降低理解内容的难度，还可以提高定位关键信息的效率。类似地，计算机在处理文本文档时，利用结构化的篇章信息也可以提升信息检索、信息抽取的效果与效率。

目前，针对诸如PDF(Portable Document Format，便携式文档格式)等格式的计算机可读但不易直接处理的文档，大多是将其转换成文本格式后，基于内容语义信息进行逐行解析和分类，例如在对文档进行去噪切分后，首先利用分类器对文档每一行内容进行标题判别，再利用分类器对各个标题的层级进行判别，以识别出文档的篇章结构。此类方法主要是基于知识规则实现的，其中，知识规则来源于专家经验，人工需要预先将专家经验转变为计算机可以识别的知识规则。但是，知识规则往往只能在部分垂直领域内取得较好的判别效果，无法泛化迁移，也不能进行自适应地配置调整，在处理新的文档类型时还需要对知识规则进行补充和更新。

发明内容

本发明实施例提供一种文档篇章结构识别方法、装置、设备和存储介质，以在对文档篇章结构进行识别时减少对知识规则的依赖性，同时提升识别方法的自适应性。

第一方面，本发明实施例提供了一种文档篇章结构识别方法，包括：

获取待识别文档中包括的各个标题；

获取与各所述标题分别对应的文本视觉特征；

根据各所述标题的文本视觉特征之间的关联关系，对各所述标题进行层级划分，以得到与所述待识别文档对应的篇章结构。

第二方面，本发明实施例还提供了一种文档篇章结构识别装置，该装置包括：

标题获取模块，用于获取待识别文档中包括的各个标题；

标题文本视觉特征获取模块，用于获取与各所述标题分别对应的文本视觉特征；

标题层级划分模块，用于根据各所述标题的文本视觉特征之间的关联关系，对各所述标题进行层级划分，以得到与所述待识别文档对应的篇章结构。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任意实施例所述的文档篇章结构识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任意实施例所述的文档篇章结构识别方法。

本发明实施例中，首先对待篇章结构识别文档中的标题进行识别，在获取到待篇章结构识别文档中的各个标题之后，对各个标题的文本视觉特征进行分析，并确定各个标题的文本视觉特征之间的关联关系，然后根据各个标题的文本视觉特征之间的关联关系，以及各个标题的文本视觉特征，分别对每个标题进行层级划分，以此得到与待篇章结构识别文档的篇章结构。在上述技术方案中，利用标题的文本视觉特征来实现标题层级划分，减少了对关于标题的知识规则的依赖，进而节省了人工制定知识规则的工作量以及训练分类器的工作量，也提高了标题层级划分的效率；同时，用于标题层级划分的“各个标题的文本视觉特征之间的关联关系”，是与待篇章结构识别文档对应的，是通过分析待篇章结构识别文档中各个标题的文本视觉特征确定的，无需预先设定，使技术方案具有较强的自适应性。

附图说明

图1是本发明实施例一提供的一种文档篇章结构识别方法的流程图；

图2是本发明实施例二提供的一种文档篇章结构识别方法的流程图；

图3是本发明实施例三提供的一种文档篇章结构识别方法的流程图；

图4是本发明实施例四提供的一种文档篇章结构识别方法的流程图；

图5是本发明实施例五提供的一种文档篇章结构识别装置的结构示意图；

图6是本发明实施例六提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本发明实施例一提供的一种文档篇章结构识别方法的流程图，本实施例可适用于对文档进行篇章结构识别以提高计算机信息检索、信息抽取的效果与效率的情况，该方法可以由本发明任意实施例提供的文档篇章结构识别装置来执行，该装置可由硬件和/或软件组成，并一般可集成在计算机设备的处理器中。

如图1所示，本实施例提供的文档篇章结构识别方法包括以下步骤：

S110、获取待识别文档中包括的各个标题。

待识别文档即为待篇章结构识别的文档，篇章结构至少包括文档的文档标题、章节标题、章节标题的层级关系以及章节正文内容等。当确定出待识别文档中的各个标题以及各个标题的层级，即可得到待识别文档的篇章结构。其中，本实施例中涉及的待识别文档中包括的各个标题，具体可以指的文档标题以及各个章节的标题。

具体的，本实施例提供的技术方案在S110之前，还可以包括：

对待识别文档进行预处理，并对待识别文档的每一行进行识别，以识别出待识别文档包括的各个标题。

当待识别文档为计算机可读但不易直接处理的文档类型时，例如是PDF文档或JEPG(Joint Photographic Experts Group，联合图像专家组)文档等，需要将待识别文档转换为纯文本格式，具体可以使用开源工具对待识别文档的文本格式进行转换。

对纯文本格式的待识别文档的每一行进行识别，识别每一行是否为标题行，由此可以获取到待识别文档中的各个标题。具体的，可以使用基于规则知识特征的分类器(例如是标题识别器)来识别待识别文档中的某一行是否为标题，将待识别文档中的每一行分别输入标题识别器中，标题识别器输出与每一行对应的是否为标题的识别结果，以此得到待识别文档中的各个标题。典型的，规则知识特征可以是“不包含句号”、“是否包含标题特征(例如‘1.’、‘一、’等)”之类与标题对应的识别特征等。

其中，预处理可以包括噪声内容过滤处理、目录删除处理、上下标的格式转换处理等等。

具体的，在对待识别文档中的每一行进行标题识别之前，可以执行下述操作：过滤可能干扰后续解析的噪声内容，例如是空行、页眉页脚等；将文档中包括的各个上标和下标的格式调整为和正文相同的格式；将待识别文档的目标进行删除，等等。

在对待识别文档中的每一行进行标题识别之前，还可以对待识别文档的正文内容进行行切割，生成行列表，为之后的每一行的标题识别操作做准备，具体操作时可以根据换行符来实现行切割。

S120、获取与各个标题分别对应的文本视觉特征。

文本视觉特征，指的是在视觉感官角度可识别的文本特征，例如可以是字体高度、字体形态、字体颜色、行间距以及行左端缩进值等。

在将待识别文档的文档格式转换成纯文本格式之后，每一行文本的文本视觉特征均会保留，进而在得到待识别文档中包括的各个标题之后，可以直接获取与各个标题分别对应的文本视觉特征。

S130、根据各个标题的文本视觉特征之间的关联关系，对各个标题进行层级划分，以得到与待识别文档对应的篇章结构。

根据文档的撰写习惯，相同层级的标题的文本视觉特征往往一致，不同层级的标题的文本视觉特征往往不一致。由此，对各个标题的文本视觉特征进行分析，即可得到各个标题的文本视觉特征之间的关联关系。

其中，各个标题的文本视觉特征之间的关联关系主要指的是，各个标题的文本视觉特征之间的前后关联关系，也即不同的各个文本视觉特征之间的前后关联关系，不同的各个文本视觉特征可以分别对应不同的标题层级，具体可用于对各个标题的标题层级进行划分。

在得到各个标题的文本视觉特征之间的关联关系之后，将每个标题的文本视觉特征与各个标题的文本视觉特征之间的关联关系进行匹配，每个标题的文本视觉特征对应的标题层级即为对应标题的标题层级。

作为本实施例一种具体的实施方式，可以将S130具体为：

将各个标题的至少一项文本视觉特征，按照设定的排序方式进行归类排序，得到标题层级映射关系，所述标题层级映射关系中记录有标题层级与文本视觉特征之间的映射关系；

根据标题层级映射关系，以及各个标题的文本视觉特征，对各个标题进行层级划分，以得到与待识别文档对应的篇章结构。

具体的，可以首先将各个标题的文本视觉特征按照标题在待识别文档中出现的先后顺序进行排序；然后将重复出现的文本视觉特征删除，针对同一类文本视觉特征仅保留排序在最前面的一个，进而得到按顺序排序的各个不同的文本视觉特征；再按照顺序依次为各个不同的文本视觉特征进行标题层级标注，其中排序最前的文本视觉特征的标题层级最高，例如是第一层级。由此，可以得到标题层级映射关系，例如：文本视觉特征A--第一层级；文本视觉特征B--第二层级；文本视觉特征C--第三层级；文本视觉特征D--第四层级。

根据标题层级映射关系，以及各个标题的文本视觉特征，即可实现对各个标题进行层级划分。例如，某个标题的文本视觉特征如果为文本视觉特征B，则该标题的标题层级为第二层级，如果为文本视觉特征C，则该标题的标题层级为第三层级。

在上述技术方案的基础上，对各个标题进行层级划分之后，还包括：根据各个标题的标题层级，确定除最高层级标题之外的其他各个标题的父标题；其中，目标标题的父标题的标题层级为目标标题的上一层级，同时，在待识别文档中父标题出现在目标标题之前且行位置距离所述目标标题最近。

在为每个标题进行层级划分之后，还可以确定各个标题的父标题。以标题titleC1为例，titleC1的标题层级为第三层级，则titleC1的父标题的标题层级为titleC1的上一层级，也即第二层级，而且在待识别文档中titleC1的父标题出现在titleC1之前，而且行位置距离titleC1最近。假设，标题titleB1和标题titleB2在待识别文档中位于titleC1之前，titleB1在待识别文档中先于titleB2出现，也即titleB2距离titleC1的行距离更近，由此，titleB2为titleC1的父标题。

其中，最高级别的标题没有父标题，最高级别的标题即为文档标题，文档标题为第一层级的所有章节标题的父标题。

典型的，篇章结构可以通过与待识别文档对应的一个富有文档来体现，在富有文档中对文档标题进行标注，对每个章节标题的层级以及其父标题进行标注，对每个章节标题对应的正文段落进行标注，以展现所述待识别文档的篇章结构。

实施例二

图2是本发明实施例二提供的一种文档篇章结构识别方法的流程图，本实施例以上述实施例为基础进行优化。其中，将所述文本视觉特征具体为字体高度值；

对应的，将各个标题的至少一项文本视觉特征，按照设定的排序方式进行归类排序，得到标题层级映射关系，具体为：

在与各个标题对应的全部字体高度值中，获取不重叠的字体高度值，并按照字体高度值从大到小的顺序，确定与每个不重叠的字体高度值对应的标题层级；

根据不重叠的字体高度值，以及与每个不重叠的字体高度值对应标题层级，得到标题层级映射关系。

如图2所示，本实施例提供的文档篇章结构识别方法包括以下步骤：

S210、对待识别文档进行预处理，并对待识别文档的每一行进行识别，以识别出待识别文档包括的各个标题。

S220、获取待识别文档中包括的各个标题。

S230、获取与各个标题分别对应的文本视觉特征，所述文本视觉特征为字体高度值。

一般情况下，不同层级的标题的字体大小不同，层级越高，字体越大，故本实施例将标题的文本视觉特征具体为字体高度值。由于字体高度值一般不会是整数值，因此可以将字体高度值保留一两位小数后作为标题的文本视觉特征，本实施例对字体高度值的小数位数不做具体限定，只要能够区分开不同标题层级即可。

S240、在与各个标题对应的全部字体高度值中，获取不重叠的字体高度值，并按照字体高度值从大到小的顺序，确定与每个不重叠的字体高度值对应的标题层级。

在得到与各个标题对应的字体高度值后，对与各个标题对应的全部字体高度值进行统计分析，首先将各个字体高度值进行去重处理，然后将不重叠的各个字体高度值按照从大到小的顺序进行排序，再按照字体高度值的排序分别为每个不重叠的字体高度值配置对应的标题层级，字体高度值排序越前，其对应的标题层级越高，例如，排序第一的字体高度值对应的标题层级为第一层级(最高层级)。

S250、根据不重叠的字体高度值，以及与每个不重叠的字体高度值对应标题层级，得到标题层级映射关系。

标题层级映射关系，即为每个字体高度值与标题层级的映射关系，例如是字体高度值A--第一层级；字体高度值B--第二层级；字体高度值C--第三层级；字体高度值D--第四层级，其中，字体高度值A>字体高度值B>字体高度值C>字体高度值D，第一层级为最高层级，第四层级为最低层级。

S260、根据标题层级映射关系，以及各个标题的字体高度值，对各个标题进行层级划分，以得到与待识别文档对应的篇章结构。

在划分每个标题的标题层级时，根据目标标题的字体高度值去查询标题层级映射关系，得到与该字体高度值对应的标题层级即为目标标题的标题层级。

在确定各个标题的标题层级之后，即可确定除最高层级标题(文档标题)之外的其他各个标题(各个章节标题)的父标题，以及与各个章节标题对应的正文段落，进而得到待识别文档的篇章结构。

本实施例未尽详细解释之处请参见前述实施例，在此不再赘述。

上述技术方案，尤其适用于不同层级的标题的字体大小不同的情况，将字体高度值作为文本视觉特征，在得到与字体高度值对应的标题层级映射关系之后，即可实现对各个标题的层级划分。与字体高度值对应的标题层级映射关系，是在处理待识别文档时生成的，无需预先设定，使技术方案具有较强的自适应性。同时，上述技术方案以标题的文本视觉特征作为标题层级划分的依据，减少了对关于标题的知识规则的依赖，节省了人工制定知识规则的工作量以及训练分类器的工作量，进而也提高了标题层级划分的效率。

实施例三

图3是本发明实施例三提供的一种文档篇章结构识别方法的流程图，本实施例以上述实施例为基础进行优化。其中，将所述文本视觉特征具体为：字体高度值和行左端缩进值；

在与各个标题对应的全部字体高度值及行左端缩进值组合中，获取不重叠的组合，并首先按照组合中字体高度值从大到小的顺序，再按照组合中行左端缩进值从小到大的顺序，确定与每个不重叠的组合对应的标题层级；

根据不重叠的组合，以及与每个不重叠的组合对应的标题层级，得到标题层级映射关系。

如图3所示，本实施例提供的文档篇章结构识别方法包括以下步骤：

S310、对待识别文档进行预处理，并对待识别文档的每一行进行识别，以识别出待识别文档包括的各个标题。

S320、获取待识别文档中包括的各个标题。

S330、获取与各个标题分别对应的文本视觉特征，所述文本视觉特征为字体高度值和行左端缩进值的组合。

特殊情况下，尤其是标题层级比较多时，不同层级的标题的字体大小可能相同但行左端缩进值不同，层级越高，字体越大，行左端缩进值越小，故本实施例将标题的文本视觉特征具体为字体高度值及行左端缩进值的组合，举例说明，文本视觉特征可以是(0.55cm，0.99cm),0.55为字体高度值，0.99为行左端缩进值。

由于字体高度值一般不会是整数值，因此可以将字体高度值保留一两位小数，本实施例对字体高度值的小数位数仍不做具体限定。行左端缩进值可以是长度值，也可以是字符值，本实施例对此也不做具体限定。

S340、在与各个标题对应的全部字体高度值及行左端缩进值组合中，获取不重叠的组合，并首先按照组合中字体高度值从大到小的顺序，再按照组合中行左端缩进值从小到大的顺序，确定与每个不重叠的组合对应的标题层级。

在得到与各个标题对应的字体高度值及行左端缩进值组合后，对与各个标题对应的全部字体高度值及行左端缩进值组合进行统计分析，首先将各个字体高度值及行左端缩进值组合进行去重处理，其中，一个组合中的字体高度值及行左端缩进值与另一个组合中字体高度值及行左端缩进值分别均相等时，这两个组合才算重叠，进而需要进行去重处理；然后将不重叠的各个组合，先按照字体高度值从大到小的顺序进行排序，再按行左端缩进值从小到大的顺序排序；

再按照组合的排序分别为每个不重叠的组合配置对应的标题层级，组合排序越前，其对应的标题层级越高，例如，排序第一的组合对应的标题层级为第一层级(最高层级)。

举例说明如何对不重叠的各个组合进行排序，假设，不重叠的各个组合分别为(0.55cm，0.99cm)、(0.55cm，1.22cm)以及(0.66cm，0)，则其排序为(0.66cm，0)、(0.55cm，0.99cm)和(0.55cm，1.22cm)。

S350、根据不重叠的组合，以及与每个不重叠的组合对应的标题层级，得到标题层级映射关系。

标题层级映射关系，即为每个字体高度值及行左端缩进值组合与标题层级的映射关系，例如是字体高度值及行左端缩进值组合A--第一层级；字体高度值及行左端缩进值组合B--第二层级；字体高度值及行左端缩进值组合C--第三层级；字体高度值及行左端缩进值组合D--第四层级，其中，字体高度值及行左端缩进值组合A到字体高度值及行左端缩进值组合D，字体高度值呈递减趋势，如果其中至少两个组合中字体高度值相等，则至少两个组合中行左端缩进值依次增加，第一层级为最高层级，第四层级为最低层级。

S360、根据标题层级映射关系，以及各个标题的字体高度值及行左端缩进值组合，对各个标题进行层级划分，以得到与待识别文档对应的篇章结构。

在划分每个标题的标题层级时，根据目标标题的字体高度值及行左端缩进值组合去查询标题层级映射关系，得到与该字体高度值及行左端缩进值组合对应的标题层级即为目标标题的标题层级。

上述技术方案，尤其适用于不同层级的标题的字体大小可能相同但行左端缩进值不同的情况，将字体高度值及行左端缩进值组合作为文本视觉特征，在得到与字体高度值及行左端缩进值组合对应的标题层级映射关系之后，即可实现对各个标题的层级划分。与字体高度值及行左端缩进值组合对应的标题层级映射关系，是在处理待识别文档时生成的，无需预先设定，使技术方案具有较强的自适应性。同时，上述技术方案以标题的文本视觉特征作为标题层级划分的依据，减少了对关于标题的知识规则的依赖，节省了人工制定知识规则的工作量以及训练分类器的工作量，进而也提高了标题层级划分的效率。

实施例四

图4是本发明实施例四提供的一种文档篇章结构识别方法的流程图，本实施例以上述实施例为基础进行优化。其中，在根据标题层级映射关系，以及各标题的文本视觉特征，对各标题进行层级划分之后，还包括：

如果同一目标标题层级对应至少两个目标标题，则获取各目标标题的标题样式特征；

如果所述至少两个目标标题的标题样式特征不完全一致，则将所述目标标题层级拆分为与所述标题样式特征匹配的至少两个标题层级，并根据各所述目标标题的标题样式特征对各所述目标标题重新进行层级划分；

根据目标标题层级在标题层级映射关系中的层级位置，以及目标标题层级的拆分结果，将位于目标标题层级之下的至少一个标题层级中的标题进行标题层级的更新。

如图4所示，本实施例提供的文档篇章结构识别方法包括以下步骤：

S410、对待识别文档进行预处理，并对待识别文档的每一行进行识别，以识别出待识别文档包括的各个标题。

S420、获取待识别文档中包括的各个标题。

S430、将各个标题的至少一项文本视觉特征，按照设定的排序方式进行归类排序，得到标题层级映射关系，所述标题层级映射关系中记录有标题层级与文本视觉特征之间的映射关系。

具体的，当文本视觉特征具体为字体高度值时，可以首先在与各个标题对应的全部字体高度值中，获取不重叠的字体高度值，并按照字体高度值从大到小的顺序，确定与每个不重叠的字体高度值对应的标题层级；然后根据不重叠的字体高度值，以及与每个不重叠的字体高度值对应标题层级，得到标题层级映射关系。

具体的，当文本视觉特征具体为字体高度值和行左端缩进值组合时，可以在与各个标题对应的全部字体高度值及行左端缩进值组合中，获取不重叠的组合，并首先按照组合中字体高度值从大到小的顺序，再按照组合中行左端缩进值从小到大的顺序，确定与每个不重叠的组合对应的标题层级；然后根据不重叠的组合，以及与每个不重叠的组合对应的标题层级，得到标题层级映射关系。

S440、根据标题层级映射关系，以及各个标题的文本视觉特征，对各个标题进行层级划分。

对应的，当文本视觉特征具体为字体高度值时，根据目标标题的字体高度值去查询标题层级映射关系，得到与该字体高度值对应的标题层级即为目标标题的标题层级。

当文本视觉特征具体为字体高度值和行左端缩进值组合时，根据目标标题的字体高度值及行左端缩进值组合去查询标题层级映射关系，得到与该字体高度值及行左端缩进值组合对应的标题层级即为目标标题的标题层级。

S450、如果同一目标标题层级对应至少两个目标标题，则获取各目标标题的标题样式特征。

极端情况下，尤其是标题层级非常多时，不同层级的标题的文本视觉特征可能完全相同，例如是最后两个层级的标题的文本视觉特征可能完全相同，故本实施例在对各个标题进行层级划分之后，还会有针对性地对部分标题的层级进行修正。

当至少两个目标标题的标题层级为同一目标标题层级时，则获取各个目标标题的标题样式特征，对各个目标标题的标题样式特征进行判断。

其中，标题样式特征具体可以指的是不同层级标题专属的编号方式，例如是“一、二、三”、“I、II、III”、“1、2、3”、“1.1、1.2、1.3”以及“1.11、1.12、1.13”等等。

S460、如果所述至少两个目标标题的标题样式特征不完全一致，则将所述目标标题层级拆分为与所述标题样式特征匹配的至少两个标题层级，并根据各所述目标标题的标题样式特征对各所述目标标题重新进行层级划分。

如果属于同一目标标题层级的各个目标标题的标题样式特征完全一致，则确定这些目标标题属于同一个标题层级。

如果属于同一目标标题层级的各个目标标题的标题样式特征不完全一致，则确定这些目标标题属于至少两个标题层级，进而需要对这些目标标题的层级进行重新划分。其中，这些目标标题的标题样式特征有多少种，就将目标标题层级拆分为多少个标题层级。然后，根据各所述目标标题的标题样式特征对各所述目标标题重新进行层级划分。

例如，目标标题层级为第四层级，为最低层级，假设属于第四层级的各个目标标题的标题样式特征不完全一致，这些目标标题的标题样式包括两种，则将第四层级拆分为两个标题层级，分别为新第四层级和第五层级，其中，新第四层级对应第一标题样式特征，第五层级对应第二标题样式特征。在根据各个目标标题的标题样式特征对各个目标标题重新进行层级划分时，如果目标标题的标题样式特征为第一标题样式特征，则将目标标题的层级重新划分为新第四层级，如果目标标题的标题样式特征为第二标题样式特征，则将目标标题的层级重新划分为第五层级。

S470、根据目标标题层级在标题层级映射关系中的层级位置，以及目标标题层级的拆分结果，将位于目标标题层级之下的至少一个标题层级中的标题进行标题层级的更新，以得到与待识别文档对应的篇章结构。

当拆分的目标标题层级为最低层级时，不会对与其他标题层级对应的各个标题的标题层级产生影响；当拆分的目标标题层级为非最低层级时，就会对与目标标题层级之下的各个标题层级对应的各个标题的标题层级产生影响，进行需要对这些受影响的各个标题的标题层进行更新。

例如，目标标题层级为第四层级，为非最低层级，最低层级为第五层级。假设属于第四层级的各个目标标题的标题样式特征不完全一致，这些目标标题的标题样式包括两种，则将第四层级拆分为两个标题层级，分别为新第四层级和新第五层级，其中，新第四层级对应第一标题样式特征，新第五层级对应第二标题样式特征。在根据各个目标标题的标题样式特征对各个目标标题重新进行层级划分时，如果目标标题的标题样式特征为第一标题样式特征，则将目标标题的层级重新划分为新第四层级，如果目标标题的标题样式特征为第二标题样式特征，则将目标标题的层级重新划分为新第五层级。

原第五层级为目标标题层级之下的标题层级，现将目标标题层级拆分为；两个标题层级，故需将原第五层级更新为第六层级，并将原第五层级中的各个标题的标题层级更新为第六层级。

值得指出的是，需要拆分的目标标题层级的数量可能是多个，处理方式也是相同的，类推即可，在此不再赘述。

上述技术方案，尤其适用于不同层级的标题的文本视觉特征可能完全相同的情况，在对各个标题进行层级划分之后，还会有针对性地对部分标题的层级进行修正处理，以实现对各个标题层级的准确划分。

以一具体的实际应用对本发明实施例提供的文档篇章结构识别方法进行阐述。当用户上传一批企业的社会责任报告文档，希望挖掘出企业在社会责任事业上的相关投入的变化趋势，以及在社会、环境、职工福利等维度采取的措施。然而，这些内容分布在报告的不同章节，不同层级的内容里，本发明实施例提供的文档篇章结构识别方法可以有效地辅助计算机对有效信息的抽取操作。

具体的，以一篇企业的社会责任报告文档为例，用户在操作页面针对这篇文档点击“文档解析”后：文档转换模块会根据上传文档的拓展名进行相应的格式转化，将其转换为纯文本格式；预处理模块消除转换成纯文本格式的文档中的噪声；基于知识规则的分类器对去噪后的文本进行标题识别，识别出文档中的各级标题并标识标题样式特征；层级判别模块利用字体等视觉信息对识别出的标题文本进行层级判别，以生成文档的篇章结构信息；信息抽取模块根据文档的篇章结构信息对文档中所需要的字段信息进行抽取。

值得指出的是，上述实际应用中提到的各个处理模块只是按照功能逻辑进行划分的，划分并不局限如此，只要能够实现相应的功能即可。

实施例五

图5是本发明实施例五提供的一种文档篇章结构识别装置的结构示意图，本实施例可适用于对文档进行篇章结构识别以提高计算机信息检索、信息抽取的效果与效率的情况，该装置可以采用软件和/或硬件的方式实现，并一般可集成在计算机设备的处理器中。如图5所示，该装置包括：标题获取模块510、标题文本视觉特征获取模块520和标题层级划分模块530。其中，

标题获取模块510，用于获取待识别文档中包括的各个标题；

标题文本视觉特征获取模块520，用于获取与各所述标题分别对应的文本视觉特征；

标题层级划分模块530，用于根据各所述标题的文本视觉特征之间的关联关系，对各所述标题进行层级划分，以得到与所述待识别文档对应的篇章结构。

进一步的，标题层级划分模块530，包括：

标题层级映射关系确定单元，用于将各所述标题的至少一项文本视觉特征，按照设定的排序方式进行归类排序，得到标题层级映射关系，所述标题层级映射关系中记录有标题层级与文本视觉特征之间的映射关系；

标题层级划分单元，用于根据所述标题层级映射关系，以及各所述标题的文本视觉特征，对各所述标题进行层级划分，以得到与所述待识别文档对应的篇章结构。

作为一种可选的实施方式，所述文本视觉特征包括：字体高度值；标题层级映射关系确定单元，具体用于在与各所述标题对应的全部字体高度值中，获取不重叠的字体高度值，并按照字体高度值从大到小的顺序，确定与每个所述不重叠的字体高度值对应的标题层级；根据所述不重叠的字体高度值，以及与每个所述不重叠的字体高度值对应标题层级，得到所述标题层级映射关系。

作为另一种可选的实施方式，所述文本视觉特征包括：体高度值和行左端缩进值；标题层级映射关系确定单元，具体用于在与各所述标题对应的全部字体高度值及行左端缩进值组合中，获取不重叠的组合，并首先按照组合中字体高度值从大到小的顺序，再按照组合中行左端缩进值从小到大的顺序，确定与每个所述不重叠的组合对应的标题层级；根据所述不重叠的组合，以及与每个所述不重叠的组合对应的标题层级，得到所述标题层级映射关系。

进一步的，标题层级划分模块530，还包括：

标题样式特征获取单元，用于在根据所述标题层级映射关系，以及各所述标题的文本视觉特征，对各所述标题进行层级划分之后，如果同一目标标题层级对应至少两个目标标题，则获取各所述目标标题的标题样式特征；

标题层级重新划分单元，用于如果所述至少两个目标标题的标题样式特征不完全一致，则将所述目标标题层级拆分为与所述标题样式特征匹配的至少两个标题层级，并根据各所述目标标题的标题样式特征对各所述目标标题重新进行层级划分；

标题层级更新单元，用于根据所述目标标题层级在所述标题层级映射关系中的层级位置，以及所述目标标题层级的拆分结果，将位于目标标题层级之下的至少一个标题层级中的标题进行标题层级的更新。

进一步的，文档篇章结构识别装置还包括：父标题确定模块，用于在对各所述标题进行层级划分之后，根据各个标题的标题层级，确定除最高层级标题之外的其他各个标题的父标题；其中，目标标题的父标题的标题层级为所述目标标题的上一层级，同时，在所述待识别文档中所述父标题出现在所述目标标题之前且行位置距离所述目标标题最近。

进一步的，文档篇章结构识别装置还包括：文档预处理及标题识别模块，用于在获取待识别文档的各个标题之前，对待识别文档进行预处理，并对所述待识别文档的每一行进行识别，以识别出所述待识别文档的各个标题；其中，所述预处理至少包括对所述待识别文档中上下标的格式转换。

本发明实施例所提供的文档篇章结构识别装置可执行本发明任意实施例所提供的文档篇章结构识别方法，具备执行文档篇章结构识别方法相应的功能模块和有益效果。

实施例六

图6是本发明实施例六提供的一种计算机设备的结构示意图。如图6所示，该计算机设备包括处理器60、存储器61、输入装置62和输出装置63；计算机设备中处理器60的数量可以是一个或多个，图6中以一个处理器60为例；计算机设备中的处理器60、存储器61、输入装置62和输出装置63可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的文档篇章结构识别方法对应的程序指令/模块(例如，文档篇章结构识别装置中的标题获取模块510、标题文本视觉特征获取模块520和标题层级划分模块530)。处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的文档篇章结构识别方法。

存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置62可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置63可包括显示屏等显示设备。

实施例七

本发明实施例七还提供一种存储有计算机程序的计算机可读存储介质，计算机程序在由计算机处理器执行时用于执行一种文档篇章结构识别方法，该方法包括：

获取待识别文档中包括的各个标题；

获取与各所述标题分别对应的文本视觉特征；

当然，本发明实施例所提供的存储有计算机程序的计算机可读存储介质，其计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的文档篇章结构识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

值得注意的是，上述文档篇章结构识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文档篇章结构识别方法，其特征在于，包括：

获取待识别文档中包括的各个标题；

获取与各所述标题分别对应的文本视觉特征；

2.根据权利要求1所述的方法，其特征在于，根据各所述标题的文本视觉特征之间的关联关系，对各所述标题进行层级划分，得到与所述待识别文档对应的篇章结构，包括：

将各所述标题的至少一项文本视觉特征，按照设定的排序方式进行归类排序，得到标题层级映射关系，所述标题层级映射关系中记录有标题层级与文本视觉特征之间的映射关系；

根据所述标题层级映射关系，以及各所述标题的文本视觉特征，对各所述标题进行层级划分，以得到与所述待识别文档对应的篇章结构。

3.根据权利要求2所述的方法，其特征在于，所述文本视觉特征包括：字体高度值；

将各所述标题的至少一项文本视觉特征，按照设定的排序方式进行归类排序，得到标题层级映射关系，包括：

在与各所述标题对应的全部字体高度值中，获取不重叠的字体高度值，并按照字体高度值从大到小的顺序，确定与每个所述不重叠的字体高度值对应的标题层级；

根据所述不重叠的字体高度值，以及与每个所述不重叠的字体高度值对应标题层级，得到所述标题层级映射关系。

4.根据权利要求2所述的方法，其特征在于，所述文本视觉特征包括：体高度值和行左端缩进值；

在与各所述标题对应的全部字体高度值及行左端缩进值组合中，获取不重叠的组合，并首先按照组合中字体高度值从大到小的顺序，再按照组合中行左端缩进值从小到大的顺序，确定与每个所述不重叠的组合对应的标题层级；

根据所述不重叠的组合，以及与每个所述不重叠的组合对应的标题层级，得到所述标题层级映射关系。

5.根据权利要求2所述的方法，其特征在于，在根据所述标题层级映射关系，以及各所述标题的文本视觉特征，对各所述标题进行层级划分之后，还包括：

如果同一目标标题层级对应至少两个目标标题，则获取各所述目标标题的标题样式特征；

根据所述目标标题层级在所述标题层级映射关系中的层级位置，以及所述目标标题层级的拆分结果，将位于目标标题层级之下的至少一个标题层级中的标题进行标题层级的更新。

6.根据权利要求1所述的方法，其特征在于，在对各所述标题进行层级划分之后，还包括：

根据各个标题的标题层级，确定除最高层级标题之外的其他各个标题的父标题；

其中，目标标题的父标题的标题层级为所述目标标题的上一层级，同时，在所述待识别文档中所述父标题出现在所述目标标题之前且行位置距离所述目标标题最近。

7.根据权利要求1所述的方法，其特征在于，在获取待识别文档的各个标题之前，还包括：

对待识别文档进行预处理，并对所述待识别文档的每一行进行识别，以识别出所述待识别文档的各个标题；

其中，所述预处理至少包括对所述待识别文档中上下标的格式转换。

8.一种文档篇章结构识别装置，其特征在于，包括：

标题获取模块，用于获取待识别文档中包括的各个标题；

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。