CN114724166A

CN114724166A - 一种标题抽取模型的生成方法、装置及电子设备

Info

Publication number: CN114724166A
Application number: CN202210413888.6A
Authority: CN
Inventors: 方文浩; 苏磊; 韩光耀; 陈禹燊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-07-08

Abstract

本公开提供了一种标题抽取模型的生成方法、装置及电子设备，涉及数据处理领域，尤其涉及自然语言处理、深度学习、光学字符识别、数据处理等技术领域。该方案为：获取文档样本，其中，文档样本中的文档为图像格式；对文档样本中的文档进行文本特征提取，得到文本特征信息，并对文档进行图像特征提取，得到图像特征信息，文本特征信息表征文档样本所包含文本的文本内容以及文本位置，图像特征信息表征文档样本所包含文档的文档布局；基于文本特征信息对文档样本进行标注，得到标注后的文档样本；对标注后的文档样本和图像特征信息进行特征融合，得到训练样本；基于训练样本生成标题抽取模型，标题抽取模型用于提取待处理文档中的标题。

Description

一种标题抽取模型的生成方法、装置及电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及自然语言处理、深度学习、光学字符识别、数据处理等技术领域，具体涉及一种标题抽取模型的生成方法、装置及电子设备。

背景技术

文档智能是指计算机自动阅读理解以及分析文档的过程。深度学习技术的普及极大地推动了以文档信息抽取为代表的文档智能领域的发展。面向PDF文档的多级标题(包括正文格式的标题)抽取以及标题序号纠错，在文档结构化、摘要抽取以及降低文档错误率等需求下，应用广泛。

通常情况下，待处理的文档，具有篇幅较长过长、和版式多样等的特点。然而，在现有技术中，在对篇幅较长过长篇幅，版式多样的文档进行抽取标题以及序号纠错处理时，提取效率低，提取标题的准确率低，降低了用户的使用体验。

发明内容

本公开提供了一种标题抽取模型的生成方法、装置及电子设备。

根据本公开的一方面，提供了一种标题抽取模型的生成方法，该方法包括：获取文档样本，其中，文档样本中的文档为图像格式；对文档样本中的文档进行文本特征提取，得到文本特征信息，并对文档进行图像特征提取，得到图像特征信息，其中，文本特征信息表征了文档样本所包含文本的文本内容以及文本位置，图像特征信息表征了文档样本所包含文档的文档布局；基于文本特征信息对文档样本进行标注，得到标注后的文档样本；对标注后的文档样本和图像特征信息进行特征融合，得到训练样本；基于训练样本生成标题抽取模型，其中，标题抽取模型用于提取待处理文档中的标题。

由上述内容可知，本公开采用从文档样本中的文本和图像中提取到的语义特征进行融合的方式，生成用于训练标题抽取模型的训练样本，并使用训练样本训练标题抽取模型，以对待处理文档中的标题进行抽取。本公开所提供的方案达到了提取文档中的标题的目的，实现了提高文档标题的提取准确率的效果，进而解决了现有技术中在抽取文档的标题时所存在的提取准确率低的问题。

根据本公开的另一方面，提供了一种标题抽取模型的生成装置，包括：获取模块，用于获取文档样本，其中，文档样本中的文档为图像格式；特征提取模块，用于对文档样本中的文档进行文本特征提取，得到文本特征信息，并对文档进行图像特征提取，得到图像特征信息，其中，文本特征信息表征了文档样本所包含文本的文本内容以及文本位置，图像特征信息表征了文档样本所包含文档的文档布局；标注模块，用于基于文本特征信息对文档样本进行标注，得到标注后的文档样本；特征融合模块，用于对标注后的文档样本和图像特征信息进行特征融合，得到训练样本；模型生成模块，用于基于训练样本生成标题抽取模型，其中，标题抽取模型用于提取待处理文档中的标题。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的标题抽取模型的生成方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据上述的标题抽取模型的生成方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述的标题抽取模型的生成方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的标题抽取模型的生成方法的流程图；

图2是根据本公开第一实施例的标题等级展现形式的示意图；

图3是根据本公开第二实施例的标题抽取模型的生成框图；

图4是根据本公开第三实施例的待处理文档的示意图；

图5是根据本公开第三实施例的标题抽取模型的生成装置的示意图；

图6是用来实现本公开实施例的标题抽取模型的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

此外，还需要说明的是，在本公开所提供的各个实施例中，电子设备可作为执行主体来执行各个实施例所提供的方法。

实施例1

根据本公开的实施例，本公开提供了一种标题抽取模型的生成方法，其中，图1是根据该方法的流程图，由图1可知，该方法至少包括如下步骤：

步骤S102，获取文档样本，其中，文档样本中的文档为图像格式。

在步骤S102中，文档样本由至少一个文档组成，而每个文档由至少一页文档组成，每页文档为图像格式，例如，上述的文档可以为但不限于PDF(Portable Document Format，可携带文档格式)文档。

需要说明的是，在本公开中，文档样本中的文档可以为篇幅较长、版式多样的文档，例如，在本公开中，文档样本可以为篇幅百页且版式复杂的募集说明书所组成的样本。

此外，还需要说明的是，本公开所提供的方案可应用于各种需要提取文档标题的场景，在不同的场景下，其对应的文档样本也是不同的，例如，在企业债务融资场景中，上述的文档样本可以为PDF版票据募集说明书所组成的样本；在科研场景中，上述的文档样本可以为PDF版学术论文所组成的样本。即在本公开中，可基于不同的场景确定文档样本。

步骤S104，对文档样本中的文档进行文本特征提取，得到文本特征信息，并对文档进行图像特征提取，得到图像特征信息。

在步骤S104中，文本特征信息表征了文档样本所包含文本的文本内容以及文本位置，图像特征信息表征了文档样本所包含文档的文档布局。

可选的，电子设备可对文档样本中的每个文档进行切分处理，将文档切分为以页为单位的多个图片，其中，多个图片的图片格式可以均相同，也可以部分相同，多个图片的图片格式可以为PNG格式(即位图格式)，还可以为JPG格式、JPEG格式、PSD格式、TIFF格式等。

进一步的，在得到多个图片之后，电子设备通过OCR(Optical CharacterRecognition，光学字符识别)技术对每张图片进行文本识别，从而得到上述的文本特征信息，其中，该文本特征信息至少包括文本内容信息和文本位置信息，文本内容信息至少包括图片中以行为单位的文本内容和以字符为单位的文本内容，文本位置信息至少包括图片中以行为单位的坐标信息以及以字符为单位的坐标信息。

此外，电子设备在对图片进行图像特征信息提取的过程中，可提取到图片中文本的颜色信息、字符大小信息、文本行间距信息、文本对齐信息等，并基于上述提取到的信息生成特征图。

需要说明的是，上述的文本位置信息可以为行或者字符的左上角与右下角两个点，相对于图片左上角的坐标信息。

此外，还需要说明的是，相较于现有技术中，仅通过图像OCR抽取标题，或者，仅通过文档文本抽取标题的方案，本公开利用了文本和图像两种模态的语义特征来对文档样本进行处理，能够避免仅通过图像OCR抽取标题，或者，仅通过文档文本抽取标题的方案所存在的标题提取效果差，提取效率低的问题，进而提高了文档标题的提取准确度和提取效率。

另外，相较于现有技术中，在通过机器学习的方式提取标题特征的过程中，需筛选有效特征，并不断迭代的方式，在本公开中，文本特征信息和图像特征信息是直接从文档样本中提取到的，该过程无需特征工程筛选特征，简化了特征提取步骤，进而简化了标题抽取模型的生成步骤。

步骤S106，基于文本特征信息对文档样本进行标注，得到标注后的文档样本。

在步骤S106中，电子设备可基于标注平台来对文档样本进行标题标注，得到标注后的文档样本，其中，标注平台可以为但不限于Doccano标注平台。

步骤S108，对标注后的文档样本和图像特征信息进行特征融合，得到训练样本。

在步骤S108中，电子设备可使用基于空间感知的自注意力机制来实现特征融合，其中，自注意力机制为聚焦于局部信息的机制，例如，图像中的图像区域。与通常能够捕捉基于绝对位置的令牌token之间的关系的自注意力机制相比，空间感知的自注意力机制能够充分利用语义相对位置和空间相对位置来计算注意力权重，进而捕捉到文档布局中的局部不变性。

步骤S110，基于训练样本生成标题抽取模型，其中，标题抽取模型用于提取待处理文档中的标题。

在步骤S110中，电子设备可基于训练样本对LayoutXLM训练模型进行训练，从而得到标题抽取模型。由于LayoutXLM训练模型具有跨语言的特点，因此，通过本公开所提供的方案所训练得到的标题抽取模型也可应用于跨语言场景的文档标题抽取，从而提高了标题抽取模型的扩展性和适用性。

另外，在得到标题抽取模型之后，用户即可使用标题抽取模型来抽取待处理文档中的标题，并确定每个标题所对应的标题等级。此外，在抽取到待处理文档中的标题以及每个标题所对应的标题等级之后，电子设备还可以树状形式按照标题等级的形式展示标题，例如，以如图2所示的标题等级展现形式来展现标题等级。

基于上述步骤S102至步骤S110所限定的方案，可以获知，本公开采用从文档样本中的文本和图像中提取到的语义特征进行融合的方式，生成用于训练标题抽取模型的训练样本，并使用训练样本训练标题抽取模型，以对待处理文档中的标题进行抽取。

容易注意到的是，在上述过程中，文本特征信息和图像特征信息是直接从文档样本中提取到的，该过程无需特征工程筛选特征，简化了特征提取步骤，进而简化了标题抽取模型的生成步骤。另外，本公开利用了文本和图像两种模态的语义特征来对文档样本进行处理，进而得到训练样本，即本公开从多模态的角度生成了训练样本，从而提高了训练样本的准确度，进而提高了标题抽取模型抽取文档标题的准确度。

由此可见，本公开所提供的方案达到了提取文档中的标题的目的，实现了提高文档标题的提取准确率的效果，进而解决了现有技术中在抽取PDF文档的标题时所存在的提取准确率低的问题。

实施例2

根据本公开的实施例，本公开还提供了一种标题抽取模型的生成方法，在该实施例中，电子设备基于图3所示的标题抽取模型的生成框图来生成标题抽取模型。

在一种可选的实施例中，在获取到文档样本之后，电子设备对文档样本中的文档进行文本特征提取，得到文本特征信息。

具体的，电子设备对文档样本所包含的文档进行切分处理，得到文档所对应的多个图像，然后，对多个图像中的每个图像进行文本识别，得到第一文档以及第二文档，其中，每个文档有至少一页，第一文档至少包括：以行为单位的第一文本内容以及至少一行文本在对应文档中的第一位置信息，第二文档至少包括：第一文本内容，第一位置信息、以字符为单位的第二文本内容以及至少一个字符在对应文档中的第二位置信息，文本特征信息至少包括第一文本内容、第一位置信息、第二文本内容、第二位置信息。

可选的，如图3所示，电子设备将文档样本中的每个样本按页切分为多个图像，例如，PNG图像。然后，将每一个图像通过光学字符识别技术(即OCR技术)生成上述第一文档。其中，第一文档中包含以行为单位的文本内容(即第一文本内容)以及每行为本的位置信息(即第一位置信息)。在得到上述第一文本内容之后，电子设备还使用语法分析器(例如，PDF语法分析器)对第一文本内容进行语法分析，并使用回车字符连接以行为单位的文本内容。

与第一文档类似，第二文档包含了以行为单位的文本内容以及相关的位置信息，还包含了以字符为单位的文本内容及相关的位置信息，其中，第一文档的文档格式不同于第二文档的文档格式，可选的，第一文档为txt文档，第二文档为JSON文档。如图3所示，在标题抽取模型的嵌入层中，第一文本向量为以行为单位的文本内容所对应的向量，第二文本向量为以字符为单位的文本内容所对应的文本向量，第一信息向量以及第二信息向量分别表示上述的第一位置信息所对应的向量以及第二位置信息所对应的向量。

需要说明的是，由上述内容可知，在本公开中，在训练模型的过程中，不仅使用到了图像数据、文本数据，还使用到了文本坐标(即上述第一位置信息、第二位置信息)，丰富了模型训练所使用数据的模态信息，与现有的标题抽取模型相比，本公开所提出的方案能够更加充分融合文本特征和图像特征，从而优化了标题抽取模型的标题抽取效果。

此外，还需要说明的是，如图3所示，电子设备在得到文档样本所对应的多个图像之后，基于开源的Detectron2目标检测工具箱中集成的ResNet_FPN骨干网络进行图像特征抽取，得到特征图，该特征图所对应的特征图向量在标题抽取模型的嵌入层中。

进一步的，在得到文本特征信息以及图像特征信息之后，电子设备基于文本特征信息对文档样本进行标注，得到标注后的文档样本。具体的，电子设备对第一文档进行标题标注，得到标注后的第一文档，然后，获取标注后的第一文档中的标题内容，并基于标题内容对第二文档进行标题标注，得到标注后的文档样本。

可选的，电子设备将第一文档导入到Doccano标注平台，进行实体标注，即Doccano标注平台对第一文档进行标题标注。然后，电子设备再根据实体标注获取到第一文档所对应的实体值(即标题内容)，并通过字符串匹配的方式定位到第二文档中的以行为单位的相关信息中，以实现对第二文档的标注，从而得到标注后的文档样本。例如，在第一文档中，“一、发起机构的基本情况”为标题，在电子设备在第一文档中对其进行了标注之后，在对第二文档进行标注的过程中，电子设备从第二文档所包含的以行为单位的文本内容中搜索为“一、发起机构的基本情况”的文本内容，并在第二文档中，将搜索到的文本内容标注为标题。

需要说明的是，通过对文档样本进行标题标注，从而使得训练后的标题抽取模型能够准确的对待处理文档的标题进行提取，进而提高了文档标题提取的准确度。

更进一步的，在对文档样本进行标注之后，电子设备对标注后的文档样本和图像特征信息进行特征融合，得到训练样本。具体的，电子设备基于标注后的文档样本确定文本序列特征信息，并对文本序列特征信息以及图像特征信息进行特征融合，得到训练样本。其中，文本序列特征信息至少包括如下之一：文档样本所对应的标签、实体信息、标签标识。

可选的，如图3所示，电子设备在特征融合层采用基于空间感知的自注意力机制进行特征融合。具体的，电子设备在特征融合层将文档样本所对应的标签、实体信息、标签标识以及图像特征信息进行封装后，在数据加载器中进行迭代处理，得到训练样本。

需要说明的是，为防止双向语言模型所存在的信息暴露的问题，在本公开中，在数据加载器中进行迭代处理之后，电子设备还可添加注意力掩码Attention_Mask，以提高数据的安全性。

此外，还需要说明的是，在本公开中，通过采用基于空间感知的自注意力机制来实现文本序列特征信息与图像特征信息的特征融合，能够充分利用语义相对位置和空间相对位置来计算注意力权重，进而捕捉到文档布局中的局部不变性。而且，本公开利用了文本和图像两种模态的语义特征来对文档样本进行处理，进而得到训练样本，即本公开从多模态的角度生成了训练样本，从而提高了训练样本的准确度，进而提高了标题抽取模型抽取文档标题的准确度。

另外，在对文本序列特征信息以及图像特征信息进行特征融合之前，电子设备还可对图像尺寸进行调整，例如，将图像尺寸均调整为3*224*224，以避免图像尺寸过大增加电子设备的计算复杂度的问题，也可避免图像尺寸过小导致电子设备的计算结果不准确的问题。

在一种可选的实施例中，在基于标注后的文档样本确定文本序列特征信息的过程中，电子设备对标注后的文档样本进行标签转换，得到文档样本所对应的标签，然后，对标注后的第一文档中的标题内容所对应的索引值以及标签进行封装，得到实体信息，并对标签进行标识转换，得到标签标识。

可选的，电子设备采用序列标注的方式对标注后的文档样本中的题目进行标签转换，得到上述的标签，其中，可以采用BIO(Beginning-Inside-Outside)的方式进行标签转换，O、B表示一级标题，I表示一级标题。然后，电子设备对标题内容在第一文档中的起始索引和结束索引，以及标签进行封装，从而得到上述的实体信息。进而，电子设备再对标签进行标识转换，例如，将令牌token转化为令牌标识token_id，从而得到标签标识。

需要说明的是，通过确定文本序列特征信息，从而实现了对文档样本的标注，进而使得训练后的标题抽取模型能够准确的对待处理文档的标题进行提取，提高了文档标题提取的准确度。除此之外，数据标注产生的标签，也是整个有监督训练不可或缺的数据。

更进一步的，电子设备还可对文本序列特征信息进行语义实体识别，确定文档样本所包含的至少一个标题的标题等级。

可选的，电子设备还可在CRF(Conditional Random Field，条件随机场)层对文本序列特征信息进行语义实体识别，以确定每个标题所对应的标题等级。

需要说明的是，通过对文本序列特征信息进行语义识别，能够确定文档样本中每个标题所对应的标题等级，不仅保证了标题提取的准确性，还保证了标题等级的准确性。

此外，还需要说明的是，如图3所示，由于在确定了文本序列特征信息之后，电子设备在全连接层和条件随机场层进行微调，因此，相较于softmax层来说，本公开所提供的方案增加了预测标签是否合法的约束，降低预测错误的概率。

更进一步，电子设备还可获取目标文档所对应的标签标识的标签长度，并在标签长度大于预设长度时，将目标文档切分为多个子文档。其中，目标文档为文档样本中的任意一个文档。

可选的，上述的预设长度可以为但不限于超参数max_len。另外，在对目标文档进行切分时，电子设备可设置随机数来切分的数量，其中，每个子文档所对应的页数可以相同，也可以不同。

需要说明的是，根据标签长度来对目标文档进行切分处理，可以增加训练样本的样本数，从而保证了标题抽取模型的训练准确度。

基于上述内容，以前述的票据募集说明书为例，采用本公开所提供的方案，标注了4072份数据，随机选取其中的3257份作为训练集，408份作为验证集，407份作为测试集进行模型训练。在模型训练之前，在电子设备上下载LayoutXML-baseBase预训练模型，并指定加载该预训练模型的路径，指定最大训练步数1000，每500步保存一次检测文件checkpoint，迭代率warmup_ratio可设置为0.1。

需要说明的是，在上述示例中，还可加载其他预训练模型，例如，checkpoint模型。

另外，在测试集上验证标题抽取模型的效果如下：

精准率：92.1％召回率：98.4％F1分数:95.1％

在同样的数据集上，基于Bert+CRF模型的效果如下：

精准率：91.9％召回率：93.5％F1分数:92.7％

其中，F1分数为统计学中用来衡量二分类模型精确度的指标，其可通过精确率和召回率来确定。

由此可见，本公开所提供的方案在抽取模型的指标效果均优于Bert+CRF模型。

实施例3

根据本公开的实施例，本公开还提供了一种标题抽取模型的生成方法，在该实施例中，在生成标题抽取模型之后，电子设备还可对标题抽取模型抽取到的标题进行检错和/或纠错。

具体的，电子设备首先获取待处理文档，并基于标题抽取模型对待处理文档进行标题抽取，得到待处理文档所对应的至少一个标题，然后，确定至少一个标题在待处理文档中的索引顺序以及标题等级，并基于索引顺序以及标题等级确定至少一个标题之间的从属关系，生成多叉树，最后，基于多叉树所对应的节点对至少一个标题的标题序号进行检测，得到检测结果，其中，检测结果表征标题序号是否存在错误或缺失。

需要说明的是，标题抽取模型在对待处理文档进行标题抽取的过程中，不仅可以获取到待处理文档中的标题，还可以获取文档标题的标题等级，例如，在图4所示的待处理文档的示意图中，展示了一级标题、二级标题、三级标题和四级标题。电子设备可根据标题在待处理文档的正文中的索引顺序以及标题等级确定标题之间的父子关系，生成如图2所示的多叉树。然后，电子设备可递归地遍历每个节点的子节点，并判断每个节点的子节点是否符合自增顺序，如果子节点之间不符合递增顺序，则电子设备确定标题序号存在错误；如果根据自增顺序确定两个子节点之间缺失了标题序号，则电子设备确定标题序号存在缺失，并对标题序号进行纠正，例如，在图2中，“3、信用风险”与“5、流动性风险”之间缺少标题序号，此时，电子设备将“5、流动性风险”更改为“4、流动性风险”，并修改其余的标题序号。

此外，还需要说明的是，本公开所提供的方案可实现对标题等级的检错和纠错，避免了现有技术中，人工对标题等级的检错和纠错所导致的标题等级的检错和纠错效率低的问题，提高了标题等级的检错和纠错效率。

基于上述实施例一至三可知，本公开了提供了一种标题抽取模型的多模态标题抽取和序号纠错的方案，该方案能够分别融合从文本和图像中提取出的语义特征，采用类似于命名实体识别(Named Entity Recognition,NER)的微调任务——语义实体识别(Semantic Entity Recognition,SER)，以实现对PDF文档中多级标题的抽取，然后将抽取出来的标题按照标题级别生成一个多叉树，递归地判断每个树节点地子节点是否符合自增顺序，进而确定标题序号是否错误或者缺失，并进行纠错。

相较于NLP(Natural Language Processing，自然语言处理)领域的Bert预训练模型，本公开所提供的方案不仅不需要特征工程筛选特征，而且还充分利用了文本和图像两种模态地语义特征。此外，相较于softmax层，本公开在微调时引入条件随机场(Conditional Random Field,CRF)，相比与softmax层来说，增加了预测标签是否合法的约束，降低了预测错误的概率。此外另外，标题抽取模型采用的是LayoutXLM训练模型，而LayoutXLM训练模型具有跨语言的特点，从而使得本公开所提出的解决方案具有更好地扩展性和适用性。

实施例4

根据本公开的实施例，本公开还提供了一种标题抽取模型的生成装置，其中，图5是根据该装置的示意图，由图5可知，该装置包括：获取模块501、特征提取模块503、标注模块505、特征融合模块507以及模型生成模块509。

其中，获取模块501，用于获取文档样本，其中，文档样本中的文档为图像格式；特征提取模块503，用于对文档样本中的文档进行文本特征提取，得到文本特征信息，并对文档进行图像特征提取，得到图像特征信息，其中，文本特征信息表征了文档样本所包含文本的文本内容以及文本位置，图像特征信息表征了文档样本所包含文档的文档布局；标注模块505，用于基于文本特征信息对文档样本进行标注，得到标注后的文档样本；特征融合模块507，用于对标注后的文档样本和图像特征信息进行特征融合，得到训练样本；模型生成模块509，用于基于训练样本生成标题抽取模型，其中，标题抽取模型用于提取待处理文档中的标题。

需要说明的是，上述获取模块501、特征提取模块503、标注模块505、特征融合模块507以及模型生成模块509对应于上述实施例中的步骤S102至步骤S110，五个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

可选的，特征提取模块包括：第一切分模块以及文本识别模块。其中，第一切分模块，用于对文档样本所包含的文档进行切分处理，得到文档所对应的多个图像；文本识别模块，用于对多个图像中的至少一个图像进行文本识别，得到第一文档以及第二文档，其中，第一文档至少包括：以行为单位的第一文本内容以及至少一行文本在对应文档中的第一位置信息，第二文档至少包括：第一文本内容，第一位置信息、以字符为单位的第二文本内容以及至少一个字符在对应文档中的第二位置信息，文本特征信息至少包括第一文本内容、第一位置信息、第二文本内容、第二位置信息。

可选的，标注模块包括：第一标注模块、第一获取模块以及第二标注模块。其中，第一标注模块，用于对第一文档进行标题标注，得到标注后的第一文档；第一获取模块，用于获取标注后的第一文档中的标题内容；第二标注模块，用于基于标题内容对第二文档进行标题标注，得到标注后的文档样本。

可选的，特征融合模块包括：第一确定模块以及第一融合模块。其中，第一确定模块，用于基于标注后的文档样本确定文本序列特征信息，其中，文本序列特征信息至少包括如下之一：文档样本所对应的标签、实体信息、标签标识；第一融合模块，用于对文本序列特征信息以及图像特征信息进行特征融合，得到训练样本。

可选的，第一确定模块包括：第一转换模块、封装模块以及封装模块。其中，第一转换模块，用于对标注后的文档样本进行标签转换，得到文档样本所对应的标签；封装模块，用于对标注后的第一文档中的标题内容所对应的索引值以及标签进行封装，得到实体信息；第二转换模块，用于对标签进行标识转换，得到标签标识。

可选的，标题抽取模型的生成装置还包括：实体识别模块，用于对文本序列特征信息进行语义实体识别，确定文档样本所包含的至少一个标题的标题等级。

可选的，标题抽取模型的生成装置还包括：第二获取模块以及第二切分模块。其中，第二获取模块，用于获取目标文档所对应的标签标识的标签长度，其中，目标文档为文档样本中的任意一个文档；第二切分模块，用于在标签长度大于预设长度时，将目标文档切分为多个子文档。

可选的，标题抽取模型的生成装置还包括：第三获取模块、标题抽取模块、第二确定模块、第三确定模块以及检测模块。其中，第三获取模块，用于获取待处理文档；标题抽取模块，用于基于标题抽取模型对待处理文档进行标题抽取，得到待处理文档所对应的至少一个标题；第二确定模块，用于确定至少一个标题在待处理文档中的索引顺序以及标题等级；第三确定模块，用于基于索引顺序以及标题等级确定至少一个标题之间的从属关系，生成多叉树；检测模块，用于基于多叉树所对应的节点对至少一个标题的标题序号进行检测，得到检测结果，其中，检测结果表征标题序号是否存在错误或缺失。

实施例5

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如标题抽取模型的生成方法。例如，在一些实施例中，标题抽取模型的生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的标题抽取模型的生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行标题抽取模型的生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种标题抽取模型的生成方法，包括：

获取文档样本，其中，所述文档样本中的文档为图像格式；

对所述文档样本中的文档进行文本特征提取，得到文本特征信息，并对所述文档进行图像特征提取，得到图像特征信息，其中，所述文本特征信息表征了所述文档样本所包含文本的文本内容以及文本位置，所述图像特征信息表征了所述文档样本所包含文档的文档布局；

基于所述文本特征信息对所述文档样本进行标注，得到标注后的文档样本；

对所述标注后的文档样本和所述图像特征信息进行特征融合，得到训练样本；

基于所述训练样本生成标题抽取模型，其中，所述标题抽取模型用于提取待处理文档中的标题。

2.根据权利要求1所述的方法，其中，对所述文档样本中的文档进行文本特征提取，得到文本特征信息，包括：

对所述文档样本所包含的文档进行切分处理，得到文档所对应的多个图像；

对所述多个图像中的至少一个图像进行文本识别，得到第一文档以及第二文档，其中，所述第一文档至少包括：以行为单位的第一文本内容以及至少一行文本在对应文档中的第一位置信息，所述第二文档至少包括：所述第一文本内容，所述第一位置信息、以字符为单位的第二文本内容以及至少一个字符在对应文档中的第二位置信息，所述文本特征信息至少包括所述第一文本内容、所述第一位置信息、所述第二文本内容、所述第二位置信息。

3.根据权利要求2所述的方法，其中，基于所述文本特征信息对所述文档样本进行标注，得到标注后的文档样本，包括：

对所述第一文档进行标题标注，得到标注后的第一文档；

获取所述标注后的第一文档中的标题内容；

基于所述标题内容对所述第二文档进行标题标注，得到所述标注后的文档样本。

4.根据权利要求3所述的方法，其中，对所述标注后的文档样本和所述图像特征信息进行特征融合，得到训练样本，包括：

基于所述标注后的文档样本确定文本序列特征信息，其中，所述文本序列特征信息至少包括如下之一：所述文档样本所对应的标签、实体信息、标签标识；

对所述文本序列特征信息以及所述图像特征信息进行特征融合，得到所述训练样本。

5.根据权利要求4所述的方法，其中，基于所述标注后的文档样本确定文本序列特征信息，包括：

对所述标注后的文档样本进行标签转换，得到所述文档样本所对应的标签；

对所述标注后的第一文档中的标题内容所对应的索引值以及所述标签进行封装，得到实体信息；

对所述标签进行标识转换，得到标签标识。

6.根据权利要求4所述的方法，所述方法还包括：

对所述文本序列特征信息进行语义实体识别，确定所述文档样本所包含的至少一个标题的标题等级。

7.根据权利要求5所述的方法，所述方法还包括：

获取目标文档所对应的标签标识的标签长度，其中，所述目标文档为所述文档样本中的任意一个文档；

在所述标签长度大于预设长度时，将所述目标文档切分为多个子文档。

8.根据权利要求1所述的方法，所述方法还包括：

获取所述待处理文档；

基于所述标题抽取模型对所述待处理文档进行标题抽取，得到所述待处理文档所对应的至少一个标题；

确定所述至少一个标题在所述待处理文档中的索引顺序以及标题等级；

基于所述索引顺序以及所述标题等级确定所述至少一个标题之间的从属关系，生成多叉树；

基于所述多叉树所对应的节点对所述至少一个标题的标题序号进行检测，得到检测结果，其中，所述检测结果表征所述标题序号是否存在错误或缺失。

9.一种标题抽取模型的生成装置，包括：

获取模块，用于获取文档样本，其中，所述文档样本中的文档为图像格式；

特征提取模块，用于对所述文档样本中的文档进行文本特征提取，得到文本特征信息，并对所述文档进行图像特征提取，得到图像特征信息，其中，所述文本特征信息表征了所述文档样本所包含文本的文本内容以及文本位置，所述图像特征信息表征了所述文档样本所包含文档的文档布局；

标注模块，用于基于所述文本特征信息对所述文档样本进行标注，得到标注后的文档样本；

特征融合模块，用于对所述标注后的文档样本和所述图像特征信息进行特征融合，得到训练样本；

模型生成模块，用于基于所述训练样本生成标题抽取模型，其中，所述标题抽取模型用于提取待处理文档中的标题。

10.根据权利要求9所述的装置，其中，所述特征提取模块包括：

第一切分模块，用于对所述文档样本所包含的文档进行切分处理，得到文档所对应的多个图像；

文本识别模块，用于对所述多个图像中的至少一个图像进行文本识别，得到第一文档以及第二文档，其中，所述第一文档至少包括：以行为单位的第一文本内容以及至少一行文本在对应文档中的第一位置信息，所述第二文档至少包括：所述第一文本内容，所述第一位置信息、以字符为单位的第二文本内容以及至少一个字符在对应文档中的第二位置信息，所述文本特征信息至少包括所述第一文本内容、所述第一位置信息、所述第二文本内容、所述第二位置信息。

11.根据权利要求10所述的装置，其中，所述标注模块包括：

第一标注模块，用于对所述第一文档进行标题标注，得到标注后的第一文档；

第一获取模块，用于获取所述标注后的第一文档中的标题内容；

第二标注模块，用于基于所述标题内容对所述第二文档进行标题标注，得到所述标注后的文档样本。

12.根据权利要求11所述的装置，其中，所述特征融合模块包括：

第一确定模块，用于基于所述标注后的文档样本确定文本序列特征信息，其中，所述文本序列特征信息至少包括如下之一：所述文档样本所对应的标签、实体信息、标签标识；

第一融合模块，用于对所述文本序列特征信息以及所述图像特征信息进行特征融合，得到所述训练样本。

13.根据权利要求12所述的装置，其中，所述第一确定模块包括：

第一转换模块，用于对所述标注后的文档样本进行标签转换，得到所述文档样本所对应的标签；

封装模块，用于对所述标注后的第一文档中的标题内容所对应的索引值以及所述标签进行封装，得到实体信息；

第二转换模块，用于对所述标签进行标识转换，得到标签标识。

14.根据权利要求12所述的装置，所述装置还包括：

实体识别模块，用于对所述文本序列特征信息进行语义实体识别，确定所述文档样本所包含的至少一个标题的标题等级。

15.根据权利要求13所述的装置，所述装置还包括：

第二获取模块，用于获取目标文档所对应的标签标识的标签长度，其中，所述目标文档为所述文档样本中的任意一个文档；

第二切分模块，用于在所述标签长度大于预设长度时，将所述目标文档切分为多个子文档。

16.根据权利要求9所述的装置，所述装置还包括：

第三获取模块，用于获取所述待处理文档；

标题抽取模块，用于基于所述标题抽取模型对所述待处理文档进行标题抽取，得到所述待处理文档所对应的至少一个标题；

第二确定模块，用于确定所述至少一个标题在所述待处理文档中的索引顺序以及标题等级；

第三确定模块，用于基于所述索引顺序以及所述标题等级确定所述至少一个标题之间的从属关系，生成多叉树；

检测模块，用于基于所述多叉树所对应的节点对所述至少一个标题的标题序号进行检测，得到检测结果，其中，所述检测结果表征所述标题序号是否存在错误或缺失。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的标题抽取模型的生成方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1至8中任一项所述的标题抽取模型的生成方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1至8中任一项所述的标题抽取模型的生成方法。