CN111832396A

CN111832396A - 文档布局的解析方法、装置、电子设备和存储介质

Info

Publication number: CN111832396A
Application number: CN202010484261.0A
Authority: CN
Inventors: 曾凯; 路华; 彭艺宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-10-27
Anticipated expiration: 2040-06-01
Also published as: JP7203897B2; EP3920076A1; JP2021131900A; CN111832396B; KR20210065076A; US20210374397A1; US11462039B2

Abstract

本申请公开了文档布局的解析方法、装置、电子设备和存储介质，涉及自然语言处理、深度学习技术领域。具体实现方案为：通过根据获取的目标文档的多个字符和多个字符的字符信息生成字符全连接图，根据多个字符的字符信息生成多个字符顶点的顶点类型，并根据获取的空间语义特征和字符信息生成多个字符连接边的边类型，最后根据顶点类型和边类型生成目标文档的文档布局。由此，通过根据字符信息、语义信息和空间位置信息，对文档布局进行解析，生成文档布局，从而充分利用信息搜索全局最优解，提高了文档布局解析的准确性。

Description

文档布局的解析方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及自然语言处理、深度学习技术领域，尤其涉及一种文档布局的解析方法、装置、电子设备和存储介质。

背景技术

布局解析是理解文档内容不可或缺的一步，众多后续任务都需建立在精准的布局解析的基础之上。例如，知道文档是左右分栏，才能得到正确的文字序列；知道文档某区域是表格以及单元格之间的关系，才能够正确理解表格内容。

可见，如何准确地解析文档布局是至关重要的。

发明内容

本申请提供一种用于准确生成文档布局的文档布局的解析方法、装置、电子设备和存储介质。

根据第一方面，提供了一种文档布局的解析方法，包括：

获取目标文档之中的多个字符以及所述多个字符的字符信息；

根据所述多个字符以及所述多个字符的字符信息生成字符全连接图，其中，所述字符全连接图包括多个字符顶点，以及所述多个字符顶点之间的多个字符连接边；

获取每个所述字符的空间语义特征；

根据所述多个字符的字符信息生成所述多个字符顶点的顶点类型；

根据所述空间语义特征和所述字符信息生成所述多个字符连接边的边类型；以及

根据所述顶点类型和所述边类型生成所述目标文档的文档布局。

本申请实施例的文档布局的解析方法，通过根据获取的目标文档的多个字符和多个字符的字符信息生成字符全连接图，根据多个字符的字符信息生成多个字符顶点的顶点类型，并根据获取的空间语义特征和字符信息生成多个字符连接边的边类型，根据顶点类型和边类型生成目标文档的文档布局。由此，通过根据字符信息、语义信息和空间位置信息，对文档布局进行解析，生成文档布局，从而充分利用信息搜索全局最优解，提高了文档布局解析的准确性。

根据第二方面，提供了一种文档布局的解析装置，包括：

第一获取模块，用于获取目标文档之中的多个字符以及所述多个字符的字符信息；

第一生成模块，用于根据所述多个字符以及所述多个字符的字符信息生成字符全连接图，其中，所述字符全连接图包括多个字符顶点，以及所述多个字符顶点之间的多个字符连接边；

第二获取模块，用于获取每个所述字符的空间语义特征；

第二生成模块，用于根据所述多个字符的字符信息生成所述多个字符顶点的顶点类型；

第三生成模块，用于根据所述空间语义特征和所述字符信息生成所述多个字符连接边的边类型；以及

第四生成模块，用于根据所述顶点类型和所述边类型生成所述目标文档的文档布局。

本申请实施例的文档布局的解析装置，通过根据获取的目标文档的多个字符和多个字符的字符信息生成字符全连接图，根据多个字符的字符信息生成多个字符顶点的顶点类型，并根据获取的空间语义特征和字符信息生成多个字符连接边的边类型，最后根据顶点类型和边类型生成目标文档的文档布局。由此，通过根据字符信息、语义信息和空间位置信息，对文档布局进行解析，生成文档布局，从而充分利用信息搜索全局最优解，提高了文档布局解析的准确性。

根据第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的文档布局的解析方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的文档布局的解析方法。

根据本申请的实施例，通过根据字符信息、语义信息和空间位置信息，对文档布局进行解析，生成文档布局，从而充分利用信息搜索全局最优解，提高了文档布局解析的准确性。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种文档布局的解析方法的流程示意图；

图2为本申请实施例提供的一种获取字符全连接图的过程示意图；

图3为本申请实施例提供的一种边类型的示意图一；

图4为本申请实施例提供的一种边类型的示意图二；

图5为本申请实施例提供的另一种文档布局的解析方法的流程示意图；

图6为本申请实施例提供的一种遮掩字符的示意图；

图7为本申请实施例提供的另一种文档布局的解析方法的流程示意图；

图8为本申请实施例提供的一种遮掩连接边的示意图；

图9为本申请实施例提供的另一种文档布局的解析方法的流程示意图；

图10为本申请实施例提供的一种添加随机扰动示意图；

图11为本申请实施例提供的另一种文档布局的解析方法的流程示意图

图12为本申请实施例提供的一种文档布局的解析装置的结构示意图；

图13为根据本申请实施例的文档布局的解析方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的文档布局的解析方法、装置、电子设备和存储介质。

图1为本申请实施例提供的一种文档布局的解析方法的流程示意图。

本申请实施例的文档布局的解析方法，可由本申请实施例提供的文档布局的解析装置执行，该装置可配置于电子设备中，以实现充分利用字符信息、语义信息和空间位置信息，解析文档布局。

如图1所示，该文档布局的解析方法包括：

步骤101，获取目标文档之中的多个字符以及多个字符的字符信息。

本实施例中，可以通过OCR(Optical Character Recognition，光学字符识别)技术识别需要解析布局的文档中的字符。这里为了便于描述，将待解析布局的文档称为目标文档。

具体地，获取目标文档的图像，然后对图像进行OCR识别，获取目标文档中的多个字符和多个字符的字符信息。其中，字符可以是文字、标点、表格等等，字符信息包括字符的大小、字符的位置等信息，字符的位置是字符在当前文档页面中的位置，比如所在行、在行的第几个字符等，或者也可以是字符在图像中的像素点位置。

步骤102，根据多个字符以及多个字符的字符信息生成字符全连接图，其中，字符全连接图包括多个字符顶点，以及多个字符顶点之间的多个字符连接边。

本实施例中，根据获取的多个字符和多个字符的大小、位置等信息，得到二维平面的字符全连接图。具体的，以字符为定点，以字符与字符之间的连线为边，从而可以得到字符全连接图。其中，字符全连接图包括多个字符顶点，以及多个字符顶点之间的多个字符连接边。

图2为本申请实施例提供的一种获取字符全连接图的过程示意图。

图2中，对文档进行读取，从文档中获取多个字符，C1、C2、…、Ca、C3、C4、…、Cb、…、Cx、Cy、…、Cz，将多个字符之间进行连接得到连接边，图2中是以字符C1为例，示出了C1与其余字符之间的字符连接边，即图2中的双向箭头虚线。

步骤103，获取每个字符的空间语义特征。

为了充分利用语义信息，本实施例中，获取每个字符的空间语义特征，空间语义特征可以是对空间语义信息进行特征提取获取的。其中，空间语义信息是指二维空间平面上字符所表示的语义信息。

步骤104，根据多个字符的字符信息生成多个字符顶点的顶点类型。

本实施例中，可以根据多个字符的字符信息比如字符的位置，确定每个字符顶点的顶点类型，顶点类型可以用于指示字符在文档中的空间位置信息。

本实施例中，字符顶点的顶点类型可包括：单元格首、单元格尾，行首、行尾，段首、段尾，块首、块尾、栏首、栏尾等。比如，字符在一行字符的开头，那么顶点类型为行首，字符为一行字符的最后一个字符，那么顶点类型为行尾；文档一栏的第一个字符，其顶点类型为栏首，一栏的最后一个字符，其顶点类型为栏尾。

需要说明的是，一些字符顶点可能同时是多种顶点类型。比如，某个字符既是一行的第一个字符，也是一段的第一个字符，那么顶点的类型为行首和段首。

在确定字符顶点的顶点类型时，也可利用预先训练的顶点类型识别模型确定多个字符的顶点类型，具体的，将目标文档中多个字符的字符信息输入至顶点类型识别模型中，该顶点类型识别模型对每个字符顶点进行二分类，根据二分类结果确定字符顶点的顶点类型。

二分类是指两个类别的分类任务，通常称为二分类任务。比如，有单元格、行、段、块、栏5种类别，每个类别又有首、尾两个细类，所以是10个类别分类。在识别时需要分别判断是或者不是这10种类别中每一种，所以10种类别中每一个都是二分类，如果不是这10种类别，则识别为其他类别。比如，某个字符顶点，顶点类型识别模型输出不是单元格首、不是单元格尾、是段首、不是段尾、不是块首、不是块尾、是栏首、不是栏尾，由此，可以得到该字符顶点的顶点类型是段首和栏首。

步骤105，根据空间语义特征和字符信息生成多个字符连接边的边类型。

由于空间语义特征表示字符的语义特征，字符信息为字符在目标文档中的大小、位置等信息，那么为充分利用空间位置信息，根据空间语义特征和多个字符的字符信息，可以获得字符与字符之间的位置信息，这种位置信息可以通过字符连接边的边类型表示。

其中，字符连接边的边类型包括：先后顺序连边，单元格首尾连边，行首尾连边，段首尾连边，块首尾连边，栏首尾连边等等。

图3为本申请实施例提供的一种边类型的示意图一，图3中示出了阅读先后顺序的边类型。图4为本申请实施例提供的一种边类型的示意图二，图4中示出了行首尾、段首尾、栏首尾三种边类型，其中，C1与Ca之间字符连接边的边类型为行首尾连接边，C1与Cb之间字符连接边的边类型为段首尾连接边，C1与Cz之间字符连接边的边类型为栏首尾连接边。其中，双向箭头表示使用了字符间两个方向联合概率。

步骤106，根据顶点类型和边类型生成目标文档的文档布局。

本实施例中，在获取每个字符顶点的顶点类型以及字符连接边的边类型后，可以根据顶点类型和边类型生成目标文档的文档布局，具体地，可以根据预设的规则生成文档布局。比如，可先根据栏首和栏尾，以及栏首尾连边，确定该栏所占的区域，将该栏所占区域作为文档中的一部分。然后，再根据顶点类型段首和段尾，以及段首尾连接边，确定段所在的区域，确定栏内各段落区域。

或者，利用预先训练的文档布局生成模型生成目标文档的文档布局，具体的，将字符全连接图中各字符顶点的顶点类型及每条连接边的边类型，输入至文档目标生成模型中，文档布局生成模型输出对应的文档布局。

本实施例中，充分利用了这些字符信息、空间语义信息、边类型空间位置信息，然后综合判断生成文档布局，是从全局优化。

例如左右分栏的文档，在获取左边栏中某一个字符时，可以只用或者多用左边栏中的上下文确定，而不用或者少用右边栏中的上下文，从而综合了分栏的信息确定字符。

本申请实施例中，通过根据获取的目标文档的多个字符和多个字符的字符信息生成字符全连接图，根据多个字符的字符信息生成多个字符顶点的顶点类型，并根据获取的空间语义特征和字符信息生成多个字符连接边的边类型，根据顶点类型和边类型生成目标文档的文档布局。由此，通过根据字符信息、语义信息和空间位置信息，对文档布局进行解析，生成文档布局，从而充分利用信息搜索全局最优解，提高了文档布局解析的准确性。

为了提高文档布局解析的准确性，在本申请的一个实施例中，上述在获取每个字符的空间语义特征时，可以利用模型提取空间语义特征。

具体地，将目标文档的多个字符输入至预先建立的空间语言模型中，通过空间语言模型，获取每个字符的空间语义特征。具体地，空间语言模型可以基于周围相邻字符获取每个字符的语义特征。

本申请实施例中，在获取每个字符的空间语义特征时，可将多个字符输入至空间语言模型之中以形成每个字符的空间语义特征。由此，利用通过空间语言模型得到空间语义特征和多个字符的字符信息，生成的边类型准确性较高，从而提高了基于边类型获取的文档布局的准确性。

在本申请的一个实施例中，可以通过图5的方式训练得到空间语言模型，图5为本申请实施例提供的另一种文档布局的解析方法的流程示意图。

如图5所示，上述空间语言模型可通过以下步骤训练得到：

步骤201，获取样本文档之中的多个样本字符以及多个样本字符的样本字符信息。

本实施例中，样本文档可以word文档、文本文档、网页等。样本文档中包括是含有文字、图片、表格等至少一种类型。

本实施例中，可以通过随机生成样式和文字填充的形式，获取海量的样本文档，也可以通过控制布局形式可以生成大量的布局样式，也可以通过控制文字方向、页边距、段间距、行间距、字间距等，获得各种填充效果，也可以填充以海量文本，获取大量无监督训练数据。

步骤202，根据多个样本字符以及样本字符信息生成样本字符全连接图。

本实施例中，步骤201-步骤202中获取多个样本字符和样本字符信息，与上述步骤101-步骤102中获取目标文档中字符和字符的字符信息类似，故在此不再赘述。

步骤203，将样本字符全连接图之中的部分样本字符进行遮掩，并将遮掩之后的样本字符全连接图输入至空间语言模型进行预测以生成被遮掩位置的预测字符。

本实施例中，可以将样本字符全连接图中的部分样本字符进行遮掩，比如将部分字符替换为未知字符，或者修改为其他字符等。然后，将遮掩后的样本字符全连接图，输入至空间语言模型中进行预测，空间语言模型根据样本字符全连接图中未被遮掩的字符，输出对被遮掩位置预测的预测字符。

图6为本申请实施例提供的一种遮掩字符的示意图。图6中，将字符全连接图中的字符C4被修改为未知的「UNK」字符，Cb保留不变，Cy被修改为Cw的任意字符。

步骤204，根据遮掩位置的样本字符与预测字符对空间语言模型进行训练。

本实施例中，根据遮掩位置的样本字符与预测字符，计算损失值，如果损失值大于预设的第一损失阈值，则调整空间语言模型的参数。然后，将下一个样本文档的遮掩部分样本字符后的样本字符全连接图，输入至调整后的空间语言模型。之后，根据遮掩位置的样本字符与预测字符，计算损失值，判断损失值是否大于第一损失值，如果大于，则继续调整模型参数，继续训练，直至损失值小于第一损失阈值，结束训练。

由此，即便遮挡一些字符，通过训练得到的空间语言模型可以通过周围的字符预测出来这些字符。

本申请实施例中，通过将样本文档对应的样本字符全连接图之中的部分样本字符进行遮掩，并将遮掩之后的样本字符全连接图输入至空间语言模型进行预测以生成被遮掩位置的预测字符，根据遮掩位置的样本字符与预测字符对空间语言模型进行训练。由此，通过遮挡部分样本字符之后的样本全连接图进行训练，使训练得到的空间语言模型，能够通过某个位置周围字符预测该位置的字符。

为了提高布局解析的准确性，在本申请的一个实施例中，在根据空间语义特征和字符信息生成多个字符连接边的边类型时，还可利用边类别识别模型，获取每个字符连接边的边类型。

具体地，将多个字符的空间语义特征和字符信息，输入至预先训练得到的边类别识别模型中，该边类别识别模型基于空间语义特征和提取的字符信息的特征，对每个字符连接边进行二分类，输出是否为预先定义的几种连接边类型，根据输出结果，可以确定连接边的类型。

比如，有先后顺序、单元格首尾、行首尾、段首尾、块首尾、栏首尾共6种类别。在识别时需要分别判断是或者不是这6种类别中每一种，如果都不是，则识别为其他类别。

本申请实施例中，在根据空间语义特征和字符信息生成多个字符连接边的边类型时，将多个字符的空间语义特征和字符信息输入至边类型识别模型以生成多个字符连接边的边类型。由此，利用通过边类型识别模型得到的字符连接边的边类型，结合顶点类型生成文档布局，大大提高了文档布局解析的准确性。

在本申请的一个实施例中，可利用图7所示的方式训练得到边类型识别模型，图7为本申请实施例提供的另一种文档布局的解析方法的流程示意图。

如图7所示，上述边类型识别模型可通过以下步骤训练得到：

步骤301，获取样本文档之中的多个样本字符以及多个样本字符的样本字符信息。

步骤302，根据多个样本字符以及样本字符信息生成样本字符全连接图。

本实施例中，步骤301-302与上述步骤201-202类似，故在此不再赘述。

步骤303，获取每个样本字符的样本空间语义特征。

本实施例中，可以将样本字符输入至空间语言模型中，以获取每个样本字符的样本空间语义特征。

步骤304，将样本字符全连接图之中的部分样本字符连接边进行遮掩，并将遮掩之后的样本字符全连接图以及样本空间语义特征输入至边类型识别模型进行预测以生成被遮掩位置的预测边类型。

本实施例中，可以将样本字符全连接图中的部分样本字符连接边进行遮掩，比如将部分样本字符连接边替换为未知边等。然后，将遮掩后的样本字符全连接图和样本字符的样本空间语义特征，输入至边类型识别模型中进行预测，边类型识别模型根据样本字符全连接图中未被遮掩的样本字符连接边，输出预测的预测连接边。

图8为本申请实施例提供的一种遮掩连接边的示意图。图8中，在字符全连接图中修改一部分连接边：C1到Ca、C1到C4、C1到Cx的边被修改为未知的「UNK」边，如图8中粗虚线所示。

步骤305，根据遮掩位置的样本字符连接边类型与预测边类型对边类型识别模型进行训练。

本实施例中，根据遮掩位置的样本字符连接边类型与预测边类型，计算损失值，如果损失值大于预设的第二损失阈值，则调整边类型识别模型的参数。然后，将下一个样本文档的遮掩部分样本字符后的样本字符全连接图，输入至调整后的边类型识别模型。之后，根据遮掩位置的样本字符连接边类型与预测边类型，计算损失值，判断损失值是否大于第二损失值，如果大于，则继续调整模型参数，继续训练，直至损失值小于第二损失阈值，结束训练。

本申请实施例中，通过将样本文档对应的样本字符全连接图之中的部分样本字符连接边进行遮掩，并将遮掩之后的样本字符全连接图以及样本空间语义特征输入至边类型识别模型进行预测以生成被遮掩位置的预测边类型。由此，通过遮挡部分样本字符连接边之后的样本全连接图进行训练，使训练得到的边类型识别模型，能够预测被遮掩的样本字符连接边的边类型。

为了提高布局解析的准确性，在本申请的一个实施例中，在获取目标文档之中的多个字符时，还可利用字符检测模型检测多个字符。

具体地，为了充分利用图像视觉信息，将目标文档的图片输入至预先训练得到字符检测模型，字符检测模型输出目标文档中的多个字符。

本申请实施例中，在获取目标文档之中的多个字符时，将目标文档输入字符检测模型以获取目标文档之中的多个字符。由此，利用通过字符检测模型得到的多个字符，根据多个字符生成文档布局，大大提高了文档布局解析的准确性。

在本申请的一个实施例中，可以利用图9所示的方法，训练得到字符检测模型。图9为本申请实施例提供的另一种文档布局的解析方法的流程示意图。

如图9所示，上述字符检测模型可通过以下步骤训练得到：

步骤401，获取样本文档之中的多个样本字符以及多个样本字符的样本字符信息。

步骤402，根据多个样本字符以及样本字符信息生成样本字符全连接图。

本实施例中，步骤401-步骤402与上述步骤201-步骤202类似，故在此不再赘述。

步骤403，对样本字符全连接图之中多个字符顶点之中的部分字符顶点添加随机扰动。

本实施例中，可在样本字符连接图中选择部分字符顶点，对这些字符顶点添加随机扰动，比如改变字符的大小或者调整字符的位置等。

图10为本申请实施例提供的一种添加随机扰动示意图。图10中，将字符全连接图中的部分字符添加随机扰动，具体的，将字符C1、C2、…、Ca的位置进行调整，将字符C3,C4,…,Cb大小进行调整，将字符Cx和Cy的位置和大小都进行调整，字符Cz及其他字符保持不变。

步骤404，将添加随机扰动之后的样本字符全连接图输入字符检测模型进行字符预测以生成预测字符。

本实施例中，将添加了随机扰动之后的样本字符全连接图，输入至预先训练好的字符检测模型中，字符检测模型生成预测字符，具体包括预测字符的位置和大小。

步骤405，根据预测字符与样本文档之中的样本字符对字符检测模型进行训练。

本实施例中，根据每个预测字符与样本文档之中相应位置的样本字符，计算每个样本字符的损失值，并计算所有样本字符的平均损失值。如果平均损失值大于预设的第三损失阈值，则调整字符检测模型的参数。然后，将下一个样本文档的添加了随机扰动后的样本字符全连接图，输入至调整后的字符检测模型。之后，根据预测字符与样本文档之中的样本字符，计算平均损失值，判断平均损失值是否大于第三损失值，如果大于，则继续调整模型参数，继续训练，直至损失值小于第三损失阈值，结束训练。

本申请实施例中，通过将添加随机扰动之后的样本文档的样本字符全连接图输入字符检测模型进行字符预测以生成预测字符，根据预测字符与样本文档之中的样本字符对字符检测模型进行训练。由此，通过添加随机扰动之后的样本字符全连接图进行训练，使训练得到的边字符检测模型，能够预测每个字符的精确位置。

在本申请的一个实施例中，在进行文档布局解析时，可以利用上述三种模型，下面结合图11进行说明，图11为本申请实施例提供的另一种文档布局的解析方法的流程示意图。

如图11所示，该文档布局的解析方法包括：

步骤501，将目标文档输入字符检测模型以获取目标文档之中的多个字符，并获取多个字符的字符信息。

本实施例中，可利用预先训练好的字符检测模型对目标文档的图像进行检测，获取目标文档中的多个字符，并获取多个字符的字符信息，比如位置、大小等。

步骤502，根据多个字符以及多个字符的字符信息生成字符全连接图。

本实施例中，步骤502与上述步骤102类似，故在此不再赘述。

步骤503，将多个字符输入至空间语言模型之中以形成每个字符的空间语义特征。

本实施例中，可将多个字符输入至空间语言模型中，通过空间语言模型获取每个字符的空间语义特征。

步骤504，根据多个字符的字符信息生成多个字符顶点的顶点类型。

本实施例中，步骤504与上述步骤104类似，故在此不再赘述。

步骤505，将多个字符的空间语义特征和字符信息输入至边类型识别模型以生成多个字符连接边的边类型。

具体地，将多个字符的空间语义特征和字符信息，输入至预先训练得到的边类别识别模型中，该边类别识别模型基于空间语义特征和提取的字符信息的特征，输出每个字符连接边的边类型。

步骤506，根据顶点类型和边类型生成目标文档的文档布局。

本实施例中，步骤506与上述步骤106类似，故在此不再赘述。

本申请实施例中，通过利用字符检测模型获取目标文档中的多个字符，通过利用空间语言模型获取每个字符的空间语义特征，利用边类别识别模型获取每个字符连接边的边类型，基于模型得到的多个字符、多个字符的空间语义特征和边类型，得到文档布局，从而大大提高了文档布局解析的准确性。

为了实现上述实施例，本申请实施例还提出一种文档布局的解析装置。图12为本申请实施例提供的一种文档布局的解析装置的结构示意图。

如图12所示，该文档布局的解析装置600包括：第一获取模块610、第一生成模块620、第二获取模块630、第二生成模块640、第三生成模块650、第四生成模块660。

第一获取模块610，用于获取目标文档之中的多个字符以及多个字符的字符信息；

第一生成模块620，用于根据多个字符以及多个字符的字符信息生成字符全连接图，其中，字符全连接图包括多个字符顶点，以及多个字符顶点之间的多个字符连接边；

第二获取模块630，用于获取每个字符的空间语义特征；

第二生成模块640，用于根据多个字符的字符信息生成多个字符顶点的顶点类型；

第三生成模块650，用于根据空间语义特征和字符信息生成多个字符连接边的边类型；以及

第四生成模块660，用于根据顶点类型和边类型生成目标文档的文档布局。

在本申请实施例一种可能的实现方式中，第二获取模块630，用于：

将多个字符输入至空间语言模型之中以形成每个字符的空间语义特征

在本申请实施例一种可能的实现方式中，空间语言模型通过以下模块训练得到：

第三获取模块，用于获取样本文档之中的多个样本字符以及多个样本字符的样本字符信息；

第五生成模块，用于根据多个样本字符以及样本字符信息生成样本字符全连接图；

第六生成模块，用于将样本字符全连接图之中的部分样本字符进行遮掩，并将遮掩之后的样本字符全连接图输入至空间语言模型进行预测以生成被遮掩位置的预测字符；以及

第一训练模块，用于根据遮掩位置的样本字符与预测字符对空间语言模型进行训练。

在本申请实施例一种可能的实现方式中，第三生成模块650，用于将多个字符的空间语义特征和字符信息输入至边类型识别模型以生成多个字符连接边的边类型。

在本申请实施例一种可能的实现方式中，边类型识别模型通过以下模块训练得到：

第四获取模块，用于获取每个样本字符的样本空间语义特征；

第七生成模块，用于将样本字符全连接图之中的部分样本字符连接边进行遮掩，并将遮掩之后的样本字符全连接图以及样本空间语义特征输入至边类型识别模型进行预测以生成被遮掩位置的预测边类型；以及

第二训练模块，用于根据遮掩位置的样本字符连接边类型与预测边类型对边类型识别模型进行训练。

在本申请实施例一种可能的实现方式中，第一获取模块610，用于将目标文档输入字符检测模型以获取目标文档之中的多个字符。

在本申请实施例一种可能的实现方式中，字符检测模型通过以下模块训练得到：

添加模块，用于对样本字符全连接图之中多个字符顶点之中的部分字符顶点添加随机扰动；

第八生成模块，用于将添加随机扰动之后的样本字符全连接图输入字符检测模型进行字符预测以生成预测字符；以及

第三训练模块，用于根据预测字符与样本文档之中的样本字符对字符检测模型进行训练。

需要说明的是，前述文档布局的解析方法实施例的解释说明，也适用于该实施例的文档布局的解析装置，故在此不再赘述。

本申请实施例的文档布局的解析装置，通过根据获取的目标文档的多个字符和多个字符的字符信息生成字符全连接图，根据多个字符的字符信息生成多个字符顶点的顶点类型，并根据获取的空间语义特征和字符信息生成多个字符连接边的边类型，根据顶点类型和边类型生成目标文档的文档布局。由此，通过根据字符信息、语义信息和空间位置信息，对文档布局进行解析，生成文档布局，从而充分利用信息搜索全局最优解，提高了文档布局解析的准确性。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图13所示，是根据本申请实施例的文档布局的解析方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文档布局的解析方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文档布局的解析方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文档布局的解析方法对应的程序指令/模块(例如，附图12所示的第一获取模块610、第一生成模块620、第二获取模块630、第二生成模块640、第三生成模块650、第四生成模块660)。处理器701通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文档布局的解析方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据文档布局的解析电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至文档布局的解析方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文档布局的解析方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与文档布局的解析方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过根据字符信息、语义信息和空间位置信息，对文档布局进行解析，生成文档布局，从而充分利用信息搜索全局最优解，提高了文档布局解析的准确性。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文档布局的解析方法，包括：

获取每个所述字符的空间语义特征；

2.如权利要求1所述的文档布局的解析方法，所述获取每个字符的空间语义特征，包括：

将所述多个字符输入至空间语言模型之中以形成所述每个字符的空间语义特征。

3.如权利要求2所述的文档布局的解析方法，其中，所述空间语言模型通过以下步骤训练得到：

获取样本文档之中的多个样本字符以及所述多个样本字符的样本字符信息；

根据所述多个样本字符以及所述样本字符信息生成样本字符全连接图；

将所述样本字符全连接图之中的部分样本字符进行遮掩，并将遮掩之后的样本字符全连接图输入至所述空间语言模型进行预测以生成被遮掩位置的预测字符；以及

根据所述遮掩位置的样本字符与所述预测字符对所述空间语言模型进行训练。

4.如权利要求1所述的文档布局的解析方法，所述根据所述空间语义特征和所述字符信息生成所述多个字符连接边的边类型，包括：

将所述多个字符的空间语义特征和字符信息输入至边类型识别模型以生成所述多个字符连接边的边类型。

5.如权利要求4所述的文档布局的解析方法，所述边类型识别模型通过以下步骤训练得到：

获取每个所述样本字符的样本空间语义特征；

将所述样本字符全连接图之中的部分样本字符连接边进行遮掩，并将遮掩之后的样本字符全连接图以及所述样本空间语义特征输入至所述边类型识别模型进行预测以生成被遮掩位置的预测边类型；以及

根据所述遮掩位置的样本字符连接边类型与所述预测边类型对所述边类型识别模型进行训练。

6.如权利要求1所述的文档布局的解析方法，所述获取目标文档之中的多个字符，包括：

将所述目标文档输入字符检测模型以获取所述目标文档之中的所述多个字符。

7.如权利要求6所述的文档布局的解析方法，所述字符检测模型通过以下步骤训练得到：

对所述样本字符全连接图之中多个字符顶点之中的部分字符顶点添加随机扰动；

将添加随机扰动之后的所述样本字符全连接图输入所述字符检测模型进行字符预测以生成预测字符；以及

根据所述预测字符与所述样本文档之中的样本字符对所述字符检测模型进行训练。

8.一种文档布局的解析装置，包括：

第二获取模块，用于获取每个所述字符的空间语义特征；

9.如权利要求8所述的文档布局的解析装置，其中，所述第二获取模块，用于：

10.如权利要求9所述的文档布局的解析装置，其中，所述空间语言模型通过以下模块训练得到：

第三获取模块，用于获取样本文档之中的多个样本字符以及所述多个样本字符的样本字符信息；

第五生成模块，用于根据所述多个样本字符以及所述样本字符信息生成样本字符全连接图；

第六生成模块，用于将所述样本字符全连接图之中的部分样本字符进行遮掩，并将遮掩之后的样本字符全连接图输入至所述空间语言模型进行预测以生成被遮掩位置的预测字符；以及

第一训练模块，用于根据所述遮掩位置的样本字符与所述预测字符对所述空间语言模型进行训练。

11.如权利要求8所述的文档布局的解析装置，其中，所述第三生成模块，用于将所述多个字符的空间语义特征和字符信息输入至边类型识别模型以生成所述多个字符连接边的边类型。

12.如权利要求11所述的文档布局的解析装置，其中，所述边类型识别模型通过以下模块训练得到：

第四获取模块，用于获取每个所述样本字符的样本空间语义特征；

第七生成模块，用于将所述样本字符全连接图之中的部分样本字符连接边进行遮掩，并将遮掩之后的样本字符全连接图以及所述样本空间语义特征输入至所述边类型识别模型进行预测以生成被遮掩位置的预测边类型；以及

第二训练模块，用于根据所述遮掩位置的样本字符连接边类型与所述预测边类型对所述边类型识别模型进行训练。

13.如权利要求8所述的文档布局的解析装置，其中，所述第一获取模块，用于将所述目标文档输入字符检测模型以获取所述目标文档之中的所述多个字符。

14.如权利要求13所述的文档布局的解析装置，其中，所述字符检测模型通过以下模块训练得到：

添加模块，用于对所述样本字符全连接图之中多个字符顶点之中的部分字符顶点添加随机扰动；

第八生成模块，用于将添加随机扰动之后的所述样本字符全连接图输入所述字符检测模型进行字符预测以生成预测字符；以及

第三训练模块，用于根据所述预测字符与所述样本文档之中的样本字符对所述字符检测模型进行训练。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文档布局的解析方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的文档布局的解析方法。