CN114118070A

CN114118070A - 文档目录生成方法及装置、电子设备和介质

Info

Publication number: CN114118070A
Application number: CN202111420845.2A
Authority: CN
Inventors: 李晨辉; 胡腾; 陈永锋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-01

Abstract

本公开提供了一种文档目录生成方法及装置、电子设备和介质，涉及计算机技术领域，尤其涉及自然语言处理技术领域。实现方案为：获取待处理文档，待处理文档包括多个段落，每个段落包括文本内容和文本内容的视觉属性信息；基于文本内容和视觉属性信息，从多个段落中确定至少一个标题，并确定每个标题的标题类型；以及基于至少一个标题各自的标题类型以及至少一个标题在待处理文档中的出现顺序，生成待处理文档的目录。

Description

文档目录生成方法及装置、电子设备和介质

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理技术领域，具体涉及一种文档目录生成方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

目录通常由文档的章节标题组成，用于展示文档结构。目录能够便于用户理解文档内容。在自然语言处理领域，目录能够提升文档信息检索、文档信息抽取、文档阅读理解等任务的效果和效率。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种文档目录生成方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种文档目录生成方法，包括：获取待处理文档，所述待处理文档包括多个段落，每个段落包括文本内容和所述文本内容的视觉属性信息；基于所述文本内容和所述视觉属性信息，从所述多个段落中确定至少一个标题，并确定每个标题的标题类型；以及基于所述至少一个标题各自的标题类型以及所述至少一个标题在所述待处理文档中的出现顺序，生成所述待处理文档的目录。

根据本公开的一方面，提供了一种文档目录生成装置，包括：获取模块，被配置为获取待处理文档，其中，所述待处理文档包括多个段落，每个段落包括文本内容和所述文本内容的视觉属性信息；确定模块，被配置为基于所述文本内容和所述视觉属性信息，从所述多个段落中确定至少一个标题，并确定每个标题的标题类型；以及生成模块，被配置为基于所述至少一个标题各自的标题类型以及所述至少一个标题在所述待处理文档中的出现顺序，生成所述待处理文档的目录。

根据本公开的一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器，该存储器存储有可被上述至少一个处理器执行的指令，该指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行上述方法。

根据本公开的一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行上述方法。

根据本公开的一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述方法。

根据本公开的一个或多个实施例，本公开的实施例实现了文档目录的自动化生成，具有良好的通用性。并且，通过结合语义(即文本内容)和视觉属性信息来识别文档中的标题及其标题类型，能够提高标题识别的准确性和全面性，使得所生成的目录能够准确全面地表达文档的层级结构。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的文档目录生成方法的流程图；

图2示出了根据本公开的实施例的待处理文档的示意图；

图3A、3B示出了根据本公开的实施例的标题符号的示意图；

图4示出了根据本公开的实施例的标题符号索引的示意图；

图5示出了图2所示的待处理文档的标题识别结果的示意图；

图6示出了根据本公开的实施例的生成目录树的流程图；

图7示出了基于图5所示的标题所生成的目录树的示意图；

图8示出了根据本公开的实施例的文档目录生成装置的结构框图；以及

图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

在本公开中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在自然语言处理领域，文档的目录能够提升文档信息检索、信息抽取、阅读理解等任务的效果和效率。

相关技术中，通常基于文档中已有的结构信息来生成目录。例如，根据Word文档中的大纲级别信息(例如一级标题、二级标题、三级标题、正文等)来生成该Word文档的目录。该方法依赖于文档中原有的结构信息，如果文档本身不包含结构信息，则无法生成文档的目录。并且，该方法通常仅适用于Word类型的文档，不适用于PDF、网页、图片等其他类型的文档，通用性较差。在另一些相关技术中，通过文本分类模型来区分文档中的标题和正文，并基于标题来生成目录。该方法无法区分标题的层级，导致生成的目录不能准确表示文档的结构。

为此，本公开的实施例提供一种文档目录生成方法，能够自动识别文档中的标题并生成层级化的目录，具有良好的通用性。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开实施例的文档目录生成方法100的流程图。方法100可以由电子设备执行(例如下文的电子设备900)。

如图1所示，方法100包括步骤110-130。

在步骤110中，获取待处理文档，待处理文档包括多个段落，每个段落包括文本内容和文本内容的视觉属性信息。

在步骤120中，基于文本内容和视觉属性信息，从多个段落中确定至少一个标题，并确定每个标题的标题类型。

在步骤130中，基于上述至少一个标题各自的标题类型以及上述至少一个标题在待处理文档中的出现顺序，生成待处理文档的目录。

根据本公开的实施例，本公开的实施例实现了文档目录的自动化生成，具有良好的通用性。并且，通过结合语义(即文本内容)和视觉属性信息来识别文档中的标题及其标题类型，能够提高标题识别的准确性和全面性，使得所生成的目录能够准确全面地表达文档的层级结构。

以下详细描述方法100的各个步骤。

待处理文档可以是Microsoft Office Word、PDF、图片(例如JPG、JPEG、PNG等)、网页等各种类型的文档。根据一些实施例，在待处理文档为非纯文本格式文档(例如PDF、图片、网页等)的情况下，需要将待处理文档转转换为纯文本格式。具体地，可以采用OCR(Optical Character Recognition，光学字符识别)技术或开源工具来将非纯文本格式的待处理文档转换为纯文本格式。

在将待处理文档转换为纯文本格式后，可以得到多个段落，每个段落包括文本内容和文本内容的视觉属性信息。

段落是待处理文档的基本单元。通常地，可以采用换行符来识别待处理文档中的段落，即，将待处理文档中的第一个换行符之前的文本作为一个段落，并且将每两个换行符之间的文本作为一个段落。根据段落在待处理文档中的位置和功能，可以将段落划分为标题和正文两种类型，即，一个段落可以是标题或正文。其中，标题用于生成待处理文档的目录。

每个段落均包括文本内容和该文本内容的视觉属性信息。文本内容的视觉属性信息指的是该文本内容从视觉上可识别的属性特征。具体地，视觉属性信息可以包括字体(例如黑体、宋体等)、字形(例如加粗、斜体等)、字号(例如12pt、14pt等)、颜色、缩进(例如段落首行缩进、悬挂缩进等)、行距(段落内的两个相邻文本行之间的距离)、间距(段落与其相邻段落之间的距离)中的至少一种。

图2示出了根据本公开实施例的待处理文档200的示意图。待处理文档200例如可以是通过扫描仪进行扫描操作所生成的JPG格式的电子图片。采用OCR转换工具将待处理文档转换为纯文本格式，得到段落201-224。如图2所示，每个段落包括相应的文本内容和视觉属性信息，视觉属性信息包括字体、字号、字形、缩进等。

根据一些实施例，步骤120可以进一步包括下述步骤122-126：

在步骤122中，基于相应的文本内容，判断每个段落是否为标题，将被判定为标题的段落添加至第一标题集合。

在步骤124中，基于相应的视觉属性信息，判断每个剩余段落是否为标题，将被判定为标题的剩余段落添加至第二标题集合，其中，剩余段落为待处理文档所包括的多个段落中的不属于第一标题集合的段落。

在步骤126中，将第一标题集合和第二标题集合中的标题作为上述至少一个标题。

标题的文本内容和视觉属性信息通常与正文不同。例如，标题的文本内容通常包括诸如“第一”、“第二”、“1.”、“2.”之类的标题符号，标题的字号相较于正文来说更大，首行左端缩进值相较于正文来说更小，等等。此外，标题的文本内容相较于其视觉属性信息来说更具有规律性。例如，用户普遍习惯通过标题符号来标识标题，但不同用户在标题的视觉展示方面具有不同的偏好。根据上述实施例，首先基于文本内容来进行标题识别(步骤122)，能够识别出待处理文档中的大部分标题。随后，基于视觉属性信息对剩余段落进行标题识别(步骤124)，并将两次标题识别结果进行汇总(步骤126)。上述标题识别过程综合考虑了文本内容和视觉属性信息，并且优先基于文本内容进行标题识别，将视觉属性信息作为文本内容的补充，能够提高标题识别的效率、准确性和全面性。

根据一些实施例，针对步骤122，可以预先设置标题符号索引，并基于标题符号索引来识别标题，以及确定标题的标题类型。通过标题符号索引来识别标题，相较于基于文本规则匹配或文本分类模型的标题识别方案来说，能够提高标题识别的计算效率和准确性。

标题符号可以是任意用于标识标题的字符，例如“第”、“一”、“二”、“三”、“◇”、“·”、“■”、“√”，等。标题符号字符串是由至少一个标题符号所组成的字符串。

图3A示出了标题符号的一些示例。图3A中所示的每个字符均可作为本公开实施例的标题符号。图3B示出了标题符号字符串的一些示例。图3B中，矩形框301-310示出了不同类型的标题符号字符串。

标题符号索引中存储有常见的、用于标识标题的多个标题符号字符串，例如“第一条”、“第二条”、“第一章”、“第1节”、“1、”、“1.”、“1).”，等。

根据一些实施例，可以采用字典树(又称trie树、前缀树)结构来存储标题符号索引，从而提高查询速度。在标题符号索引所对应的字典树中，除根节点之外(根节点对应于空字符串)，每个节点对应于一个标题符号，并且记录有从根节点到当前节点所组成的标题符号字符串所对应的标题类型。标题类型可以通过类型编号来标识。类型编号可以是多位(例如三位)的数字，例如000、001、002等。

图4示出了根据本公开实施例的采用字典树结构实现的标题符号索引的示意图。可以理解，图4所示的字典树是一个简化的示例。在实践中，标题符号索引对应的真实的字典树比图4所示的字典树大得多。

图4的字典树示出了“第一条、”、“第二条、”、“第三条、”、“1、”、“2、”“3、”、“第一”、“第二”、“第三”、“第一章”、“第二章”、“第三章”、“1)”、“2)”、“3)”等标题符号字符串。

标题符号字符串对应的标题类型采用三位数字(图4中的每串数字的前三位)进行标识。例如，“第一条、”、“第二条、”、“第三条、”属于相同的标题类型，三者对应的类型编号均为001。“1、”、“2、”“3、”属于相同的标题类型，三者对应的类型编号均为002。“第一”、“第二”、“第三”属于相同的标题类型，三者对应的类型编号均为003。“第一章”、“第二章”、“第三章”属于相同的标题类型，三者对应的类型编号均为004。“1)”、“2)”“3)”属于相同的标题类型，三者对应的类型编号均为005。

进一步地，还可以在标题类型(类型编号)之后添加由多位数字组成的顺序编号，用于标识相应的标题符号字符串在同一标题类型中的顺序。例如，顺序编号可以是000、001、002、003等。

标题符号字符串的类型编号(标识标题类型)和顺序编号(标识在同类型标题符号字符串中的顺序)组合形成标题符号字符串对应的整体编号。例如，如图4所示，“第一条、”、“第二条、”、“第三条、”属于相同的标题类型，三者对应的类型编号均为001，对应的顺序编号分别为000、001、002，则三者的整体编号分别为001000、001001、001002。类似地，“1、”、“2、”“3、”属于相同的标题类型，三者对应的类型编号均为002，顺序编号分别为000、001、002，则三者的整体编号分别为002000、002001、002002。

基于预设的标题符号索引，可以将一段落的文本内容与标题符号索引中的多个标题符号字符串进行匹配，得到第一匹配结果；以及响应于第一匹配结果非空，判定该段落为标题，并将该段落添加至第一标题集合。

具体地，可以从段落的文本内容的起始字符开始，依次将文本内容的各个字符与标题符号索引中的标题符号字符串的各个字符进行匹配，将匹配字符数最多的标题符号字符串作为第一匹配结果。若第一匹配结果非空，则表示匹配成功，将相应的段落判定为标题。若第一匹配结果为空，则表示匹配失败，将相应的段落判定为非标题(即判定为正文)。

进一步地，标题符号索引包括多个标题符号字符串以及多个标题符号字符串各自对应的标题类型(如上文及图4所示)，相应地，对于第一标题集合中的每一个标题，可以将相应的第一匹配结果对应的标题类型作为该标题的标题类型。

根据一些实施例，针对步骤124，可以基于预设的标题判断规则来判断剩余段落是否为标题。标题的视觉属性信息通常符合一定的规则(例如字体加粗、倾斜、首行左端无缩进等)。基于预设的标题判断规则来识别标题，可以进一步提高标题识别的准确性和全面性。

根据一些实施例，步骤124包括：将一剩余段落的视觉属性信息与预设的标题判断规则进行匹配，得到第二匹配结果；以及响应于所述第二匹配结果非空，判定该剩余段落为标题，并将该剩余段落添加至第二标题集合。

若第二匹配结果非空，则表示匹配成功，将相应的剩余段落判定为标题。若第二匹配结果为空，则表示匹配失败，将相应的剩余段落判定为非标题(即判定为正文)。

具体地，标题判断规则例如可以包括：若某一段落在文档页面中的位置居中，且字号在各段落中最大，则将该段落判定为标题(“规则一”，也可以将该段落判定为待处理文档的题目，即顶级标题)；若某一段落的字形加粗，则将该段落判定为标题(“规则二”)；若某一段落的首行左端无缩进，则将该段落判定为标题(“规则三”)；等等。

可以理解，在一些实施例中，第二标题集合与前述第一标题集合可以是同一个集合。并且，在一些实施例中，第一标题集合和第二标题集合中的至少之一可以是空集合。

进一步地，在基于预设的标题判断规则得到第二标题集合后，对于第二标题集合中的每一个标题，可以基于该标题的视觉属性信息和参考视觉属性信息，确定该标题的标题类型，其中，参考视觉属性信息为参考标题的视觉属性信息，参考标题为待处理文档中的已确定标题类型的标题。

通常地，同一类型标题的视觉属性信息相同，不同类型标题的视觉属性信息不同，并且具有一定的关联(例如标题在文档结构中的层级越低，字号越小)。因此可以基于视觉属性信息来确定标题的标题类型。

例如，如果第二标题集合中的某一标题的视觉属性信息与参考视觉属性信息相同(例如字号、字形、缩进均相同)，则可以将该标题的标题类型设置为与参考标题相同。

如果第二标题集合中的某一标题的视觉属性信息与参考视觉属性信息不同，则可以进一步基于二者的区别来确定该标题的标题类型。例如，若该标题在待处理文档中的位置位于参考标题之后，并且字号比参考标题小，则可以将该标题的标题类型设置为与参考标题不同。进一步地，可以为该标题添加标注信息，标注该标题的层级低于参考标题，以便对后续生成的目录的准确性进行校验。若该标题在待处理文档中的位置位于参考标题之前，并且首行左端缩进量小于参考标题，则可以将该标题的标题类型设置为与参考标题不同。进一步地，可以标注该标题的层级高于参考标题。

根据另一些实施例，也可以基于预设的规则来确定第二标题集合中的标题的标题类型。例如，若某一标题在文档页面中的位置居中，且字号在各标题中最大，则可以将该标题的标题类型确定为顶级标题，即文档题目(“规则四”)。

通过上述步骤122-126，可以识别出待处理文档中的标题。以下以图2、图5为例，来说明基于步骤122-126的标题识别过程。

首先，基于步骤122，分别将图2中的段落201-224的文本内容与预设的标题符号索引(例如图4的字典树)相匹配，以判断各段落是否为标题。例如，段落205的文本内容与标题符号索引中的任一标题符号字符串均不匹配，因此判定段落205不是标题；段落206中的前4个字符“第一条、”与标题符号索引中的标题符号字符串“第一条、”(标题类型为001)相匹配，因此判定段落206是标题。经过判断，确定段落206、209-211、213、215、217、219、221、223-224为标题，将这11个段落分别记为标题505-515(如图5所示)，添加至第一标题集合。并且，进一步确定标题505-507、515的标题类型相同，类型编号均为001；标题508-514的标题类型相同，类型编号均为002。

对于未被判定为标题的剩余段落，即段落201-205、207、208、212、214、216、218、220、222，基于步骤124，分别将这些段落的视觉属性信息与预设的标题判断规则(例如上文的“规则一”-“规则三”)相匹配，以判断这些段落是否为标题。例如，段落201的视觉属性信息符合“规则一”，因此将段落201判定为标题，记为标题501(如图5所示)，添加至第二标题集合。标题501的视觉属性信息符合“规则四”，因此将标题501的标题类型确定为顶级标题(即文档题目)，类型编号为000。标题502-504的视觉属性信息与标题505的视觉信息相同(字体、字号、字形、缩进均相同)，因此判定标题502-504的标题类型与标题505相同，即类型编号为001。

在通过步骤120识别出待处理文档中的标题及其标题类型后，可以执行步骤130，基于步骤120所识别出的各标题的标题类型以及在待处理文档中的出现顺序，生成待处理文档的目录。

根据一些实施例，为了更加清楚、准确地展示待处理文档的层级结构，可以采用树结构来存储待处理文档的目录。待处理文档中的每个标题对应于树中的一个节点。

根据一些实施例，步骤130可以包括：创建树的根节点；将至少一个标题按照在待处理文档中的出现顺序排列，得到标题序列；将标题序列中的第一个标题作为根节点的子节点，添加至树中；以及从标题序列中的第二个标题开始，依次将各标题作为当前标题，基于当前标题类型、上一个标题的标题类型以及树中的各节点对应的标题类型，确定当前标题在树中的目标位置，并将当前标题添加至目标位置，其中，当前标题类型为当前标题的标题类型。

具体地，目标位置可以按照以下步骤确定：响应于确定当前标题类型与上一个标题的标题类型相同，将当前标题作为上一个标题所对应的节点的兄弟节点；响应于确定当前标题类型与上一个标题的标题类型不同，并且当前标题类型与树中的各节点的标题类型均不相同，将当前标题作为上一个标题所对应的节点的子节点；以及响应于确定当前标题类型与上一个标题的标题类型不同，并且当前标题类型与树中的目标节点的标题类型相同，将当前标题作为目标节点的兄弟节点。

根据上述实施例，能够基于各标题的标题类型以及各标题在待处理文档中的出现顺序，生成待处理文档的层级化的树形的目录。由于在实践中，不同用户撰写文档的习惯不同，因此不同文档的各级标题的特征不同，难以通过规则来全面定义各级标题的特征。本公开实施例通过识别各标题的标题类型并基于标题类型来自动生成目录，而不是基于标题的层级来生成目录。相较于直接识别标题层级并基于标题层级来生成目录的方案来说，弱化了多样的用户习惯对标题识别所带来的影响，所生成的目录的准确性和鲁棒性更高。

图6示出了根据本公开实施例的用于生成目录树的过程600的流程图。如图6所示，过程600始于步骤601。

在步骤601中，创建树的根节点。

在步骤602中，获取标题序列。标题序列为通过对前述步骤120所得到的至少一个标题序列按照出现顺序排列而得到。

在步骤603中，将标题序列中的第一个标题作为根节点的子节点。

根据一些实施例，在标题系列中的第一个标题为文档题目的情况下，可以进一步将根节点与该文档题目对应的节点合并，即，文档题目对应的节点即为根节点。

在步骤604中，判断当前标题是否是标题序列中的最后一个标题，若是，则结束过程600，得到待处理文档的目录树；若否，则执行步骤605，将标题序列中的下一个标题作为当前标题。

随后，在步骤606中，判断当前标题类型(即当前标题的标题类型)是否与上一个标题的标题类型相同。若是，则执行步骤607，将当前标题作为上一个标题所对应的节点的兄弟节点，并继续执行步骤604的判断；若否，则执行步骤608。

在步骤608中，判断当前标题类型是否与树中已存在的某个节点(目标节点)的标题类型相同。若是，则执行步骤609，将当前标题作为目标节点的兄弟节点，并继续执行步骤604的判断；若否，则执行步骤610，将当前标题作为上一个标题所对应节点的子节点，并继续执行步骤604的判断。

图7示出了基于图5所示的标题所生成的目录树700的示意图。为了便于描述，在图7所示的实施例中，标题与其对应的树中的节点采用相同的编号，例如，标题501对应的节点即为节点501。

图7所示的目录树的生成过程如下：

首先，创建根节点R。获取图5中的标题501-515及其标题类型，按照在待处理文档200中的出现顺序，生成标题序列S＝[501，502，503，…，515]。标题501的标题类型为000，标题502-507、515的标题类型为001，标题508-514的标题类型为002。

将标题序列中的第一个标题，即标题501作为根节点R的子节点，添加至树中。由于标题501为文档题目，因此可以将节点501与根节点R合并为一个节点，即，节点501即为根节点R。

标题502的标题类型为001，与上一个标题501的标题类型000不同，并且与树700中已存在的各节点的标题类型均不相同，因此将标题502作为节点501的子节点，添加至树700中。

标题503的标题类型为001，与上一个标题502的标题类型001相同，因此将标题503作为节点502的兄弟节点(也即根节点R的子节点)，添加至树700中。

类似地，将标题504-507依次作为节点502的兄弟节点(也即根节点R的子节点)，添加至树700中。

标题508的标题类型为002，与上一个标题507的标题类型001不同，并且与树700中已存在的各节点的标题类型均不相同，因此将标题508作为节点507的子节点，添加至树700中。

标题509的标题类型为002，与上一个标题508的标题类型相同，因此将标题509作为节点508的兄弟节点(也即节点507的子节点)，添加至树700中。

类似地，将标题510-514依次作为节点508的兄弟节点(也即节点507的子节点)，添加至树700中。

标题515的标题类型为001，与上一个标题514的标题类型002不同，并且与树700中已存在的节点507的标题类型001相同，因此将标题515作为节点507的兄弟节点(也即根节点R的子节点)，添加至树700中，目录生成完毕。

根据本公开的实施例，还提供了一种文档目录生成装置。图8示出了根据本公开实施例的文档目录生成装置800的结构框图。如图8所示，装置800包括：

获取模块810，被配置为获取待处理文档，待处理文档包括多个段落，每个段落包括文本内容和文本内容的视觉属性信息；

确定模块820，被配置为基于文本内容和视觉属性信息，从多个段落中确定至少一个标题，并确定每个标题的标题类型；以及

生成模块830，被配置为基于所述至少一个标题各自的标题类型以及所述至少一个标题在待处理文档中的出现顺序，生成待处理文档的目录。

根据本公开的实施例，能够基于文本内容和视觉属性信息自动识别文档中的标题，确定每个标题的标题类型，并基于各标题的标题类型和在文档中的出现顺序来生成目录，实现了文档目录的自动化生成，具有良好的通用性。

根据一些实施例，确定模块820包括：第一确定单元，被配置为基于相应的文本内容，判断每个段落是否为标题，将被判定为标题的段落添加至第一标题集合；第二确定单元，被配置为基于相应的视觉属性信息，判断每个剩余段落是否为标题，将被判定为标题的剩余段落添加至第二标题集合，所述剩余段落为所述多个段落中的不属于所述第一标题集合的段落；以及汇总单元，被配置为将所述第一标题集合和所述第二标题集合中的标题作为所述至少一个标题。

根据一些实施例，所述第一确定单元包括：第一匹配单元，被配置为将一段落的文本内容与标题符号索引中的多个标题符号字符串进行匹配，得到第一匹配结果；以及第一判定单元，被配置为响应于所述第一匹配结果非空，判定所述段落为标题。

根据一些实施例，所述标题符号索引包括所述多个标题符号字符串以及所述多个标题符号字符串各自对应的标题类型，并且，所述第一确定单元还包括：第一识别单元，被配置为对于所述第一标题集合中的每一个标题，将相应的第一匹配结果对应的标题类型作为所述标题的标题类型。

根据一些实施例，所述第二确定单元包括：第二匹配单元，被配置为将一剩余段落的视觉属性信息与预设的标题判断规则进行匹配，得到第二匹配结果；以及第二判定单元，被配置为响应于所述第二匹配结果非空，判定所述剩余段落为标题。

根据一些实施例，所述第二确定单元还包括第二识别单元，所述第二识别单元被配置为：对于所述第二标题集合中的每一个标题，基于所述标题的视觉属性信息和参考视觉属性信息，确定所述标题的标题类型，所述参考视觉属性信息为参考标题的视觉属性信息，所述参考标题为待处理文档中的已确定标题类型的标题。

根据一些实施例，所述目录采用树结构进行存储，所述至少一个标题中的每个标题对应于树中的一个节点，并且，生成模块830包括：初始化单元，被配置为创建所述树的根节点；排序单元，被配置为将所述至少一个标题按照在所述待处理文档中的出现顺序排列，得到标题序列；以及添加单元，被配置为：将所述标题序列中的第一个标题作为所述根节点的子节点，添加至所述树中；以及从所述标题序列中的第二个标题开始，依次将各标题作为当前标题，基于当前标题类型、上一个标题的标题类型以及所述树中的各节点对应的标题类型，确定所述当前标题在所述树中的目标位置，并将所述当前标题添加至所述目标位置，所述当前标题类型为所述当前标题的标题类型。

根据一些实施例，所述添加单元进一步被配置为：响应于确定当前标题类型与上一个标题的标题类型相同，将所述当前标题作为所述上一个标题所对应的节点的兄弟节点；响应于确定当前标题类型与上一个标题的标题类型不同，并且所述当前标题类型与所述树中的各节点的标题类型均不相同，将当前标题作为上一个标题所对应的节点的子节点；以及响应于确定当前标题类型与上一个标题的标题类型不同，并且所述当前标题类型与所述树中的目标节点的标题类型相同，将当前标题作为所述目标节点的兄弟节点。

应当理解，图8中所示装置800的各个模块或单元可以与参考图1描述的方法100中的各个步骤相对应。由此，上面针对方法100描述的操作、特征和优点同样适用于装置800及其包括的模块以及单元。为了简洁起见，某些操作、特征和优点在此不再赘述。

虽然上面参考特定模块讨论了特定功能，但是应当注意，本文讨论的各个模块的功能可以分为多个模块，和/或多个模块的至少一些功能可以组合成单个模块。例如，上面描述的获取模块810和确定模块820在一些实施例中可以组合成单个模块。

还应当理解，本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图8描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如，这些模块可以被实现为计算机程序代码/指令，该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地，这些模块可以被实现为硬件逻辑/电路。例如，在一些实施例中，模块810-830中的一个或多个可以一起被实现在片上系统(System on Chip,SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如，中央处理单元(Central Processing Unit,CPU)、微控制器、微处理器、数字信号处理器(Digital Signal Processor,DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件)，并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图9，现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向设备900输入信息的任何类型的设备，输入单元906可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元907可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙^TM设备、802.11设备、Wi-Fi设备、WiMAX设备、蜂窝通信设备和/或类似物。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如方法100。例如，在一些实施例中，方法100可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的方法100的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法100。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种文档目录生成方法，包括：

获取待处理文档，其中，所述待处理文档包括多个段落，每个段落包括文本内容和所述文本内容的视觉属性信息；

基于所述文本内容和所述视觉属性信息，从所述多个段落中确定至少一个标题，并确定每个标题的标题类型；以及

基于所述至少一个标题各自的标题类型以及所述至少一个标题在所述待处理文档中的出现顺序，生成所述待处理文档的目录。

2.根据权利要求1所述的方法，其中，所述基于所述文本内容和所述视觉属性信息，从所述多个段落中确定至少一个标题包括：

基于相应的文本内容，判断每个段落是否为标题，将被判定为标题的段落添加至第一标题集合；

基于相应的视觉属性信息，判断每个剩余段落是否为标题，将被判定为标题的剩余段落添加至第二标题集合，其中，所述剩余段落为所述多个段落中的不属于所述第一标题集合的段落；以及

将所述第一标题集合和所述第二标题集合中的标题作为所述至少一个标题。

3.根据权利要求2所述的方法，其中，所述基于相应的文本内容，判断每个段落是否为标题包括：

将一段落的文本内容与标题符号索引中的多个标题符号字符串进行匹配，得到第一匹配结果；以及

响应于所述第一匹配结果非空，判定所述段落为标题。

4.根据权利要求3所述的方法，其中，所述标题符号索引包括所述多个标题符号字符串以及所述多个标题符号字符串各自对应的标题类型，并且其中，所述确定每个标题的标题类型包括：

对于所述第一标题集合中的每一个标题，将相应的第一匹配结果对应的标题类型作为所述标题的标题类型。

5.根据权利要求2-4中任一项所述的方法，其中，所述基于相应的视觉属性信息，判断每个剩余段落是否为标题包括：

将一剩余段落的视觉属性信息与预设的标题判断规则进行匹配，得到第二匹配结果；以及

响应于所述第二匹配结果非空，判定所述剩余段落为标题。

6.根据权利要求5所述的方法，其中，所述确定每个标题的标题类型包括：

对于所述第二标题集合中的每一个标题，基于所述标题的视觉属性信息和参考视觉属性信息，确定所述标题的标题类型，其中，所述参考视觉属性信息为参考标题的视觉属性信息，所述参考标题为所述待处理文档中的已确定标题类型的标题。

7.根据权利要求1-6中任一项所述的方法，其中，所述视觉属性信息包括以下至少一种：字体、字形、字号、颜色、缩进、行距、间距。

8.根据权利要求1-7中任一项所述的方法，其中，所述目录采用树结构进行存储，所述至少一个标题中的每个标题对应于树中的一个节点，并且其中，所述基于所述至少一个标题各自的标题类型以及所述至少一个标题在所述待处理文档中的出现顺序，生成所述待处理文档的目录包括：

创建所述树的根节点；

将所述至少一个标题按照在所述待处理文档中的出现顺序排列，得到标题序列；

将所述标题序列中的第一个标题作为所述根节点的子节点，添加至所述树中；以及

从所述标题序列中的第二个标题开始，依次将各标题作为当前标题，基于当前标题类型、上一个标题的标题类型以及所述树中的各节点对应的标题类型，确定所述当前标题在所述树中的目标位置，并将所述当前标题添加至所述目标位置，其中，所述当前标题类型为所述当前标题的标题类型。

9.根据权利要求8所述的方法，其中，所述基于当前标题类型、上一个标题的标题类型以及所述树中的各节点对应的标题类型，确定所述当前标题在所述树中的目标位置包括：

响应于确定当前标题类型与上一个标题的标题类型相同，将所述当前标题作为所述上一个标题所对应的节点的兄弟节点；

响应于确定当前标题类型与上一个标题的标题类型不同，并且所述当前标题类型与所述树中的各节点的标题类型均不相同，将当前标题作为上一个标题所对应的节点的子节点；以及

响应于确定当前标题类型与上一个标题的标题类型不同，并且所述当前标题类型与所述树中的目标节点的标题类型相同，将当前标题作为所述目标节点的兄弟节点。

10.一种文档目录生成装置，包括：

获取模块，被配置为获取待处理文档，其中，所述待处理文档包括多个段落，每个段落包括文本内容和所述文本内容的视觉属性信息；

确定模块，被配置为基于所述文本内容和所述视觉属性信息，从所述多个段落中确定至少一个标题，并确定每个标题的标题类型；以及

生成模块，被配置为基于所述至少一个标题各自的标题类型以及所述至少一个标题在所述待处理文档中的出现顺序，生成所述待处理文档的目录。

11.根据权利要求10所述的装置，其中，所述确定模块包括：

第一确定单元，被配置为基于相应的文本内容，判断每个段落是否为标题，将被判定为标题的段落添加至第一标题集合；

第二确定单元，被配置为基于相应的视觉属性信息，判断每个剩余段落是否为标题，将被判定为标题的剩余段落添加至第二标题集合，其中，所述剩余段落为所述多个段落中的不属于所述第一标题集合的段落；以及

汇总单元，被配置为将所述第一标题集合和所述第二标题集合中的标题作为所述至少一个标题。

12.根据权利要求11所述的装置，其中，所述第一确定单元包括：

第一匹配单元，被配置为将一段落的文本内容与标题符号索引中的多个标题符号字符串进行匹配，得到第一匹配结果；以及

第一判定单元，被配置为响应于所述第一匹配结果非空，判定所述段落为标题。

13.根据权利要求12所述的装置，其中，所述标题符号索引包括所述多个标题符号字符串以及所述多个标题符号字符串各自对应的标题类型，并且其中，所述第一确定单元还包括：

第一识别单元，被配置为对于所述第一标题集合中的每一个标题，将相应的第一匹配结果对应的标题类型作为所述标题的标题类型。

14.根据权利要求11-13中任一项所述的装置，其中，所述第二确定单元包括：

第二匹配单元，被配置为将一剩余段落的视觉属性信息与预设的标题判断规则进行匹配，得到第二匹配结果；以及

第二判定单元，被配置为响应于所述第二匹配结果非空，判定所述剩余段落为标题。

15.根据权利要求14所述的装置，其中，所述第二确定单元还包括第二识别单元，所述第二识别单元被配置为：

16.根据权利要求10-15中任一项所述的装置，其中，所述目录采用树结构进行存储，所述至少一个标题中的每个标题对应于树中的一个节点，并且其中，所述生成模块包括：

初始化单元，被配置为创建所述树的根节点；

排序单元，被配置为将所述至少一个标题按照在所述待处理文档中的出现顺序排列，得到标题序列；以及

添加单元，被配置为：

17.根据权利要求16所述的装置，其中，所述添加单元进一步被配置为：

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的方法。