CN116311322A

CN116311322A - 一种文档版面要素检测方法、装置、存储介质及设备

Info

Publication number: CN116311322A
Application number: CN202310297595.0A
Authority: CN
Inventors: 吴嘉嘉; 张银田; 殷兵; 胡金水; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-23

Abstract

本申请公开了一种文档版面要素检测方法、装置、存储介质及设备，该方法包括：首先获取待检测的目标文档所在的目标图像；然后根据预设版面要素类型，构建预设版面要素对应的编码向量；接着将目标图像和编码向量输入预先构建的文档版面要素检测模型，预测得到目标文档对应的版面要素检测结果；其中，文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。可见，由于本申请是利用预先根据预设文档混合要素训练得到的文档版面要素检测模型对目标文档进行版面要素检测，从而能够有效提高版面要素的检测效率和准确率，并且在检测过程中还可以根据预设版面要素类型按需进行自定义检测，进而能够提高用户体验。

Description

一种文档版面要素检测方法、装置、存储介质及设备

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文档版面要素检测方法、装置、存储介质及设备。

背景技术

随着信息时代的到来，需要处理的信息量呈现几何级别的增长。而文档在人们的日常生活中更是随处可见，如教育行业的教辅、作业和试卷等，在这种情况下，如何实现更加快速、准确的对文档进行版面要素的检测和分析处理，以获得其中的有用信息已成为一项重要的研究课题。

目前，通常是基于目标检测方案，利用光学字符识别(Optical CharacterRecognition，简称OCR)识别技术，直接检测出文档所在图像中的各个版面要素，例如页眉、页脚、标题、页码等等。但是，这种检测方案只是根据文档所在图像中的文本语义信息进行检测，检测依据不够充分，当文档所在图像中的版面要素较多时，将会大幅降低检测精度，进而导致文档所在图像最终的版面要素检测结果不够准确。

发明内容

本申请实施例的主要目的在于提供一种文档版面要素检测方法、装置、存储介质及设备，能够提高文档版面要素的检测效率和准确率。

本申请实施例提供了一种文档版面要素检测方法，包括：

获取待检测的目标文档所在的目标图像；

根据预设版面要素类型，构建所述预设版面要素对应的编码向量；

将所述目标图像和所述编码向量输入预先构建的文档版面要素检测模型，预测得到所述目标文档对应的版面要素检测结果；所述文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。

一种可能的实现方式中，所述将所述目标图像和所述编码向量输入预先构建的文档版面要素检测模型，预测得到所述目标文档对应的版面要素检测结果，包括：

将所述目标图像输入至预先构建的文档版面要素检测模型，提取所述目标图像的图像特征；

将所述编码向量输入至预先构建的文档版面要素检测模型，提取所述编码向量对应的特征向量；

利用预设图像风格迁移处理算法，对所述编码向量对应的特征向量和所述目标图像的图像特征进行融合处理，得到融合特征；

对所述融合特征进行解码处理，得到所述目标图像的解码结果；并对所述解码结果进行目标版面要素检测处理，预测得到所述目标文档对应的版面要素检测结果。

一种可能的实现方式中，所述目标文档对应的版面要素检测结果包括目标文档中各个版面要素的位置信息和属性信息。

一种可能的实现方式中，所述方法还包括：

获取无标注的文档所在的样本图像，并从所述样本图像中随机选取第一样本图像、第二样本图像和第三样本图像；

对所述第一样本图像进行页面提取，得到第四样本图像；

利用所述第一样本图像、第二样本图像、第四样本图像和目标损失函数，通过对比学习的训练方式，对初始图像特征提取模型进行训练；以及，利用所述第三样本图像，通过掩码预测的训练方式，对所述初始图像特征提取模型进行训练，生成图像特征提取模型，并将所述图像特征提取模型作为所述文档版面要素检测模型的图像特征提取部分的初始化结构。

一种可能的实现方式中，所述目标损失函数为三元组损失函数；所述三元组损失函数用于拉近模型提取出的第一样本图像的图像特征和第四样本图像的图像特征之间的距离以及拉开第二样本图像的图像特征和第四样本图像的图像特征之间的距离。

一种可能的实现方式中，所述文档版面要素检测模型的构建方式如下：

获取包含预设文档混合要素的样本文档所在的第五样本图像；

根据所述预设文档混合要素类型，构建所述预设文档混合要素对应的样本编码向量；

根据所述第五样本图像和样本编码向量对初始文档版面要素检测模型进行训练，生成所述文档版面要素检测模型；

其中，所述初始文档版面要素检测模型包括图像特征提取部分、编码向量特征提取部分、图像风格迁移处理部分、解码部分。

一种可能的实现方式中，所述方法还包括：

获取包含验证文档混合要素的验证文档所在的验证图像；

根据所述验证文档混合要素类型，构建所述验证文档混合要素对应的验证编码向量；

将所述验证图像和所述验证编码向量输入至所述文档版面要素检测模型，预测得到所述验证文档对应的验证版面要素检测结果；

当所述验证版面要素检测结果与所述验证文档对应的版面要素不一致时，将所述验证图像重新作为所述第五样本图像，对所述文档版面要素检测模型进行更新。

一种可能的实现方式中，所述预设版面要素包括页眉、标题、图片、题号、作答文本行、题干文本行中的至少一项。

一种可能的实现方式中，所述编码向量为独热编码向量。

本申请实施例还提供了一种文档版面要素检测装置，包括：

第一获取单元，用于获取待检测的目标文档所在的目标图像；

第一构建单元，用于根据预设版面要素类型，构建所述预设版面要素对应的编码向量；

第一预测单元，用于将所述目标图像和所述编码向量输入预先构建的文档版面要素检测模型，预测得到所述目标文档对应的版面要素检测结果；所述文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。

一种可能的实现方式中，所述第一预测单元包括：

第一输入子单元，用于将所述目标图像输入至预先构建的文档版面要素检测模型，提取所述目标图像的图像特征；

第二输入子单元，用于将所述编码向量输入至预先构建的文档版面要素检测模型，提取所述编码向量对应的特征向量；

融合子单元，用于利用预设图像风格迁移处理算法，对所述编码向量对应的特征向量和所述目标图像的图像特征进行融合处理，得到融合特征；

预测子单元，用于对所述融合特征进行解码处理，得到所述目标图像的解码结果；并对所述解码结果进行目标版面要素检测处理，预测得到所述目标文档对应的版面要素检测结果。

一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取无标注的文档所在的样本图像，并从所述样本图像中随机选取第一样本图像、第二样本图像和第三样本图像；

提取单元，用于对所述第一样本图像进行页面提取，得到第四样本图像；

训练单元，用于利用所述第一样本图像、第二样本图像、第四样本图像和目标损失函数，通过对比学习的训练方式，对初始图像特征提取模型进行训练；以及，利用所述第三样本图像，通过掩码预测的训练方式，对所述初始图像特征提取模型进行训练，生成图像特征提取模型，并将所述图像特征提取模型作为所述文档版面要素检测模型的图像特征提取部分的初始化结构。

一种可能的实现方式中，所述装置还包括：

第三获取单元，用于获取包含预设文档混合要素的样本文档所在的第五样本图像；

第二构建单元，用于根据所述预设文档混合要素类型，构建所述预设文档混合要素对应的样本编码向量；

生成单元，用于根据所述第五样本图像和样本编码向量对初始文档版面要素检测模型进行训练，生成所述文档版面要素检测模型；

一种可能的实现方式中，所述装置还包括：

第三获取单元，用于获取包含验证文档混合要素的验证文档所在的验证图像；

第三构建单元，用于根据所述验证文档混合要素类型，构建所述验证文档混合要素对应的验证编码向量；

第二预测单元，用于将所述验证图像和所述验证编码向量输入至所述文档版面要素检测模型，预测得到所述验证文档对应的验证版面要素检测结果；

更新单元，用于当所述验证版面要素检测结果与所述验证文档对应的版面要素不一致时，将所述验证图像重新作为所述第五样本图像，对所述文档版面要素检测模型进行更新。

一种可能的实现方式中，所述编码向量为独热编码向量。

本申请实施例还提供了一种文档版面要素检测设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述文档版面要素检测方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述文档版面要素检测方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述文档版面要素检测方法中的任意一种实现方式。

本申请实施例提供的一种文档版面要素检测方法、装置、存储介质及设备，首先获取待检测的目标文档所在的目标图像；然后根据预设版面要素类型，构建预设版面要素对应的编码向量；接着，再将目标图像和编码向量输入预先构建的文档版面要素检测模型，预测得到目标文档对应的版面要素检测结果；其中，文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。可见，由于本申请是利用预先根据预设文档混合要素训练得到的文档版面要素检测模型对目标文档进行版面要素检测，从而能够有效提高版面要素的检测效率和准确率，并且在检测过程中还可以根据预设版面要素类型按需进行自定义检测，进而能够提高用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文档版面要素检测方法的流程示意图；

图2为本申请实施例提供的文档版面要素的示例图；

图3为本申请实施例提供的文档版面要素检测模型的组成示意图；

图4为本申请实施例提供的文档版面要素检测模型的图像特征提取部分的初始化结构的确定过程示意图；

图5为本申请实施例提供的文档版面要素检测模型的训练过程示意图；

图6为本申请实施例提供的一种文档版面要素检测装置的组成示意图。

具体实施方式

文档的分析处理可以指的是针对文档中的要素信息进行抽取并进行结构化的操作。其中，文档版面要素可以包括但不限于文档的各级标题、页眉、页脚、文档所含图片等等。现有文档处理技术大多仅对文档做OCR处理，进行文本行和语义的提取，以直接检测出文档所在图像中的各个版面要素，但在处理过程中容易丢失文档的版式信息，检测依据不够充分，当文档所在图像中的版面要素较多时，检测效果较差，用户体验不佳。

因此，如何提高文档版面要素检测效果，进而提高用户体验是目前亟待解决的技术问题。

为解决上述缺陷，本申请提供了一种文档版面要素检测方法，首先获取待检测的目标文档所在的目标图像；然后根据预设版面要素类型，构建预设版面要素对应的编码向量；接着，再将目标图像和编码向量输入预先构建的文档版面要素检测模型，预测得到目标文档对应的版面要素检测结果；其中，文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。可见，由于本申请是利用预先根据预设文档混合要素训练得到的文档版面要素检测模型对目标文档进行版面要素检测，从而能够有效提高版面要素的检测效率和准确率，并且在检测过程中还可以根据预设版面要素类型按需进行自定义检测，进而能够提高用户体验。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种文档版面要素检测方法的流程示意图，该方法包括以下步骤：

S101：获取待检测的目标文档所在的目标图像。

在本实施例中，将采用本实施例实现版面要素检测的任一文档定义为待检测的目标文档，并将目标文档所在的图像定义为目标图像。并且，本实施例不限制目标文档的语种类型，比如，目标文档可以是中文文档、或英文文档等；本实施例也不限制目标文档的来源，比如，目标文档可以是来自于教育行业的教辅、作业和试卷等，也可以是来自于医学、食品等其他行业；本实施例也不限制目标文档的类型，比如，目标文档可以是公司的章程合同，也可以是学生的学科习题集等。

此外，本实施例也不限制目标图像的类型，比如，目标图像可以是由红(R)、绿(G)、蓝(B)三原色组成的彩色图像、也可以是灰度图像等。并且，本实施例也不限制目标图像的分辨率，比如，目标图像可以是分辨率为720*480RGB图像、也可以是高分辨率1920*1280RGB图像等。本实施例也不限制目标图像获取方法，比如可以通过手机摄像头对文档进行拍摄得到等。

S102：根据预设版面要素类型，构建预设版面要素对应的编码向量。

在本实施例中，通过步骤S101获取到待检测的目标文档所在的目标图像后，为了提高对于目标文档的文档版面要素的检测效率和准确率，进一步还需要根据预设版面要素的类型，构建预设版面要素对应的编码向量，用以执行后续步骤S103。

其中，预设版面要素的类型可以根据用户的实际需求进行设定，具体内容本申请不做限定，比如，一种可选的实现方式是，预设版面要素可以包括但不限于页眉、标题、图片、题号、作答文本行、题干文本行中的至少一项。

举例说明：如图2所示，图中以文本行作为基本单位，同时标识出此文本行所属的版面要素，需要说明的是，图2所示的每个版面要素(如“作答文本行”)仅利用方框和箭头以及文字对应的一个文本行进行示例展示，并未将所有版面要素及其对应的文本行全部展示，且各个版面要素的位置信息不仅可以利用方框标识，还可以利用其它标志进行标识，在此不再赘述。

并且，本申请对预设版面要素对应的编码向量的具体格式也不做限定，可根据实际情况和经验值进行设定。一种优选的实现方式是，可以将编码向量设定为独热(one-hot)编码向量。即，可以根据预设版面要素的类型，对预设版面要素进行one-hot编码，具体的，预设版面要素包含多少种类型，其对应的one-hot编码向量就可以表示为多少维，如当预设版面要素包含“页眉、标题、图片、题号、作答文本行、题干文本行”这六种类型时，其对应的one-hot编码向量的维度可以为6维。

举例说明：仍以图2所示的6个版面要素作为预设版面要素为例，若进行单版面要素编码，如当预设版面要素仅为“页眉”，则其对应的one-hot编码向量为(1,0,0,0,0,0)；“标题”对应的one-hot编码向量为(0,1,0,0,0,0)；“题干文本行”的编码是(0,0,0,0,0,1)等，依次类推。或者，也可以进行多版面要素编码，如当预设版面要素为“页眉、标题”，则其对应的one-hot编码向量为(1,1,0,0,0,0)，以此类推。

S103：将目标图像和编码向量输入预先构建的文档版面要素检测模型，预测得到目标文档对应的版面要素检测结果；其中，文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。

在本实施例中，通过步骤S101获取到待检测的目标文档所在的目标图像，以及通过步骤S102构建出预设版面要素对应的编码向量后，为了提高对于目标文档的文档版面要素的检测效率和准确率，进一步可将目标图像和编码向量输入预先构建的文档版面要素检测模型，从而预测得到目标文档的版面要素检测结果。

其中，需要说明的而是，本申请对目标文档的版面要素检测结果所包含的具体内容类型不做限定，一种可选的实现方式是，目标文档对应的版面要素检测结果可以包括但不限于目标文档中各个版面要素的位置信息和属性信息。例如，以“标题”这一版面要素为例，其对应的位置信息可以表示该“标题”在目标文档中所在的具体位置，其对应的属性信息可以表示该“标题”的字号大小、是否具有下划线、是否加粗、是否居中等属性。

具体来讲，一种可选的实现方式是，在获取到待检测的目标文档所在的目标图像，以及构建出预设版面要素对应的编码向量后，进一步的，首先可以将目标图像输入至预先构建的文档版面要素检测模型，以通过模型提取出目标图像的图像特征，用以表征目标图像的整体结构内容信息和局部结构内容信息。同时，可以将预设版面要素对应的编码向量输入至预先构建的文档版面要素检测模型，以通过模型提取出编码向量对应的特征向量。然后，利用预设图像风格迁移处理算法，通过对提取出的编码向量的特征向量和目标图像的图像特征进行融合处理，将编码向量的特征向量融入到目标图像的图像特征中，得到融合特征。接着，可以利用现有或未来出现的解码方法，对该融合特征进行解码处理，以根据得到的处理结果进行目标版面要素的检测处理，进而得到目标文档对应的版面要素的位置信息和属性信息等检测结果。

其中，本申请对预设图像风格迁移处理算法的具体算法内容不做限定，可根据实际情况选取，比如可以采用AdaIN作为预设图像风格迁移处理算法等。并且，预设图像风格迁移处理算法所实现的功能可以为将一幅图像(即风格图)中的风格、纹理、颜色等特征迁移到另一幅图像(即内容图)，同时保留内容图的主体结构不变。

需要说明的是，本申请为了提高版面要素检测结果的准确率，会预先利用大量的包含文档混合要素的文档数据，利用对比学习和掩码预测的预训练方式进行模型的预训练，从而构建出了检测效果更好的文档版面要素检测模型，并且，本申请对文档版面要素检测模型的具体网络组成结构不做限定，可根据实际情况进行选取设定。一种优选的实现方式是，如图3所示，该预先构建的文档版面要素检测模型可以包括但不限于图像特征提取部分、编码向量特征提取部分、图像风格迁移处理部分、解码部分。

其中，本申请对图像特征提取部分的具体组成结构不做限定，可通过后续阐述的预训练方式对初始图像特征提取模型(具体结果不做限定，例如可以是卷积神经网络(Convolutional Neural Networks，简称CNN)等)进行训练训练得到。并且，本申请对编码向量特征提取部分的具体组成结构也不做限定，可根据实际情况设定，比如可以将深度神经网络(Deep Neural Networks，简称DNN)作为编码向量特征提取部分的组成结构等。以及，本申请对解码部分的具体组成结构也不做限定，可根据实际情况选取，以便通过反卷积处理后进行目标版面要素的检测处理操作。

这样，通过先利用根据预设文档混合要素训练进行模型训练，可以有效提升模型对文档包含的混合版面要素进行检测的精度，从而在利用该文档版面要素检测模型对目标文档进行版面要素进行检测时，可以有效提高检测结果的准确率，进而提高检测效果。

举例说明：如图3所示，假设图3左侧图像为目标图像；预设版面要素包括页眉和标题，且构建出预设版面要素对应的编码向量为(1,1,0,0,0,0)，则在将目标图像输入模型的图像特征提取部分后，可以提取出目标图像的图像特征。以及将编码向量(1,1,0,0,0,0)输入模型的编码向量特征提取部分(DNN)，可以得到编码向量对应的特征向量，再通过AdaIN，将该特征向量融入到目标图像的图像特征中，可以得到如图3所示的融合特征，进而，再利用通过模型的解码部分对该融合特征进行反卷积处理后，进行目标版面要素的检测处理操作，可以得到目标图像包含的页面和标题如图3右侧图中方框和文字的标识。

接下来，本实施例将对文档版面要素检测模型中“图像特征提取部分”的初始化结构的确定过程进行介绍。如图4所示，其示出了本申请实施例提供的文档版面要素检测模型的图像特征提取部分的初始化结构的确定过程示意图，具体确定过程可以包括以下步骤A1-A3：

步骤A1：获取无标注的文档所在的样本图像，并从样本图像中随机选取第一样本图像、第二样本图像和第三样本图像。

在本实施例中，为了构建文档版面要素检测模型，确定出图像特征提取部分的初始化结构，需要预先进行大量的准备工作，首先，需要收集大量无标注的训练文档所在的训练图像，比如，可以预先收集100幅不同训练文档所在的图像作为样本图像，并从中随机选取三幅不同的图像分别作为第一样本图像、第二样本图像和第三样本图像，如图4所示，用以执行后续步骤A2-A3，以便确定出图像特征提取部分的初始化结构。

步骤A2：对第一样本图像进行页面提取，得到第四样本图像。

在本实施例中，为了构建文档版面要素检测模型，确定出图像特征提取部分的初始化结构，在通过步骤A1获取到第一样本图像后，进一步的，可以利用现有或未来出现的页面特征提取方法，对第一样本图像进行页面提取处理，得到提取后的图像作为第四样本图像。例如，可以先检测出第一样本图像中页面对应“题型”的四个顶点，再基于这四个点，对其进行页面内容提取处理，得到“矩形”的第四样本图像，如图4所示，用以执行后续步骤A3，以便确定出图像特征提取部分的初始化结构。

步骤A3：利用第一样本图像、第二样本图像、第四样本图像和目标损失函数，通过对比学习的训练方式，对初始图像特征提取模型进行训练；以及，利用第三样本图像，通过掩码预测的训练方式，对初始图像特征提取模型进行训练，生成图像特征提取模型，并将图像特征提取模型作为文档版面要素检测模型的图像特征提取部分的初始化结构。

需要说明的是，本申请采用的初始文本编码模型本申请采用的初始图像特征提取模型可以为任何现有或未来出现的图像特征提取模型，如CNN模型或Transformer模型等，如图4所示。

还需要说明的是，为了构建文档版面要素检测模型，确定出图像特征提取部分的初始化结构，在通过步骤A1获取到第三样本图像后，进一步的，还可以对第三样本图像进行单字检测和识别处理，以从第三样本图像的文档中随机选出一个单字进行掩码(mask)处理，并将mask后的图像在输入初始文本编码模型(如图4所示的CNN网络)，以提取相应的掩码特征，并利用该特征预测mask的文字内容。

具体来讲，在本实施例中，为了构建文档版面要素检测模型，确定出图像特征提取部分的初始化结构，在通过步骤A1和A2获取到第一样本图像、第二样本图像、第四样本图像后，进一步的，首先可以使用对比学习和掩码预测的训练方式，将第一样本图像、第二样本图像、第四样本图像以及mask后的第三样本图像共同输入初始图像特征提取模型进行图像特征提取，并利用预设的目标损失函数进行模型训练，并且在训练过程中，可以根据目标损失函数值的变化，对模型的模型参数进行不断更新，直至目标损失函数值满足要求，比如达到最小值且变化幅度很小(基本不变)，或者达到预设最大迭代次数(如100次)，则停止模型参数的更新，完成图像特征提取模型的训练，并将该图像特征提取模型作为文档版面要素检测模型的图像特征提取部分的初始化结构。

其中，本申请对目标损失函数的具体内容不做限定，可以根据实际情况进行选取，一种可选的实现方式是，可以将目标损失函数设定为三元组损失函数(TripletLoss)，用于拉近模型提取出的第一样本图像的图像特征和第四样本图像的图像特征之间的距离以及拉开第二样本图像的图像特征和第四样本图像的图像特征之间的距离。

这样，由于使用对比学习的训练方式可以使得图像特征提取模型能够对图像的整体结构进行较好的建模，且使用mask内容预测训练方式还能够使得图像特征提取模型对图像的局部结构进行较好的建模，从而结合这两种训练方式，使得训练后得到的图像特征提取模型能够对图像的结构内容信息进行高效的特征提取，用以作为文档版面要素检测模型的图像特征提取部分的初始化结构，来提取目标图像的更为准确的特征图，可以更有利于提高后续文档版面要素检测的准确率。

接下来，本实施例将对文档版面要素检测的构建过程进行介绍，其中，一种可选的实现方式是，文档版面要素检测模型的构建过程具体可以包括以下步骤B1-B3：

步骤B1：获取包含预设文档混合要素的样本文档所在的第五样本图像。

在本实施例中，在本实施例中，为了构建文档版面要素检测模型需要预先进行大量的准备工作，首先，需要收集大量不同领域(如教育、医疗等)的包含各种预设文档混合要素(如页眉、标题、图片、题号、作答文本行、题干文本行等)的训练文档所在的训练图像，比如，可以预先收集500幅包含各种预设文档混合要素的不同训练文档所在的图像作为第五样本图像，用以执行后续步骤B2。

步骤B2：根据预设文档混合要素类型，构建预设文档混合要素对应的样本编码向量。

在本实施例中，通过步骤B1获取到包含预设文档混合要素的样本文档所在的第五样本图像后，进一步可以根据预设文档混合要素的类型，构建预设文档混合要素对应的样本编码向量，用以执行后续步骤B3，具体构建方式可以参照上述步骤S102的相关介绍实现即可，在此不再赘述。

步骤B3：根据第五样本图像和样本编码向量对初始文档版面要素检测模型进行训练，生成文档版面要素检测模型。

其中，一种可选的实现方式是，初始文档版面要素检测模型可以包括但不限于图像特征提取部分、编码向量特征提取部分、图像风格迁移处理部分、解码部分。

在本实施例中，在通过步骤B1和B2获取到第五样本图像和样本编码向量后，进一步的，首先可以将第五样本图像输入初始文档版面要素检测模型的图像特征提取部分，得到第五样本图像的样本图像特征，再将样本编码向量输入文档版面要素检测模型的编码向量特征提取部分，得到预测出的样本特征向量，然后，通过图像风格迁移处理部分，将该预测出的样本特征向量融入到样本图像特征中，得到样本融合特征，接着，再将该样本融合特征输入初始文档版面要素检测模型的解码部分，预测得到第五样本图像中样本文档对应的版面要素检测结果，如图5所示。

再利用该预测结果与第五样本图像中样本文档对应的预设文档混合要素的真实标记结果进行比对，以根据比对结果，对检测模型的模型参数进行不断更新，直至满足预设要求，比如比对结果中的差异值达到最小值且变化幅度很小(基本不变)，或者达到预设最大迭代次数(如100次)，则停止模型参数的更新，完成文档版面要素检测模型的训练。

这样，可以从预设文档混合要素中随机选取任何组合的几个版面要素(如图5中选中的是“页眉”和“标题”)，然后在对应的要素检测结果中，只需要预测选取的这几个版面要素的位置信息和属性信息即可，通过这样的混合要素训练不仅能够大幅度升训练数据的利用率，还能够有效提升用户体验，这是因为用户可以自定义对哪些版面要素进行检测训练，并且在训练完成可以，可通过训练完成的检测模型准确检测出相应版面要素在图像中对应的位置和属性信息。

在此基础上，在根据包含预设文档混合要素的样本文档所在的第五样本图像训练生成文档版面要素检测模型后，进一步的，还可以利用包含验证文档混合要素的验证文档所在的验证图像对生成的文档版面要素检测模型进行验证。具体验证过程可以包括下述步骤C1-C4：

步骤C1：获取包含验证文档混合要素的验证文档所在的验证图像。

在本实施例中，为了实现对文档版面要素检测模型进行验证，首先需要获取包含验证文档混合要素的验证文档所在的验证图像，用以执行后续步骤C2，其中，验证图像中的验证文档指的是可以用来进行文档版面要素检测模型验证的文本信息。

步骤C2：根据验证文档混合要素类型，构建验证文档混合要素对应的验证编码向量。

通过步骤C1获取到包含验证文档混合要素的验证文档所在的验证图像后，进一步的，可以根据验证文档混合要素的类型，构建验证文档混合要素对应的验证编码向量，用以执行后续步骤C3，具体构建方式可以参照上述步骤S102的相关介绍实现即可，在此不再赘述。

步骤C3：将验证图像和验证编码向量输入至文档版面要素检测模型，预测得到验证文档对应的验证版面要素检测结果。

通过步骤C1和C2分别获取到包含验证文档混合要素的验证文档所在的验证图像以及验证文档混合要素对应的验证编码向量后，进一步的，可以将验证图像和验证编码向量输入至文档版面要素检测模型，预测得到验证文档的的验证版面要素检测结果，用以执行后续步骤C4。

步骤C4：当验证版面要素检测结果与验证文档对应的版面要素不一致时，将验证图像重新作为第五样本图像，对文档版面要素检测模型进行更新。

通过步骤C3预测出验证文档对应的验证版面要素检测结果后，若该预测出的验证版面要素检测结果与验证文档对应的版面要素(如通过人工进行标记的版面要素结果)一致，则可以验证出训练完成的文档版面要素检测模型的检测结果较为准确；反之，若该预测出的验证版面要素检测结果与验证文档对应的版面要素(如通过人工进行标记的版面要素结果)不一致，则可以将验证图像及验证文档分别重新作为第五样本图像和样本文档，对文档版面要素检测模型进行参数更新，得到更新后的文档版面要素检测模型。

通过上述实施例，可以利用包含验证文档混合要素的验证文档所在的验证图像对文档版面要素检测模型进行有效验证，当模型预测出的验证文档对应的验证版面要素检测结果与验证文档对应的版面要素(如通过人工进行标记的版面要素结果)不一致时，可以及时调整更新文档版面要素检测模型，进而有助于提高模型的检测精度和准确性。

综上，本实施例提供的一种文档版面要素检测方法，首先获取待检测的目标文档所在的目标图像；然后根据预设版面要素类型，构建预设版面要素对应的编码向量；接着，再将目标图像和编码向量输入预先构建的文档版面要素检测模型，预测得到目标文档对应的版面要素检测结果；其中，文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。可见，由于本申请是利用预先根据预设文档混合要素训练得到的文档版面要素检测模型对目标文档进行版面要素检测，从而能够有效提高版面要素的检测效率和准确率，并且在检测过程中还可以根据预设版面要素类型按需进行自定义检测，进而能够提高用户体验。

第二实施例

本实施例将对一种文档版面要素检测装置进行介绍，相关内容请参见上述方法实施例。

参见图6，为本实施例提供的一种文档版面要素检测装置的组成示意图，该装置600包括：

第一获取单元601，用于获取待检测的目标文档所在的目标图像；

第一构建单元602，用于根据预设版面要素类型，构建所述预设版面要素对应的编码向量；

第一预测单元603，用于将所述目标图像和所述编码向量输入预先构建的文档版面要素检测模型，预测得到所述目标文档对应的版面要素检测结果；所述文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。

在本实施例的一种实现方式中，所述第一预测单元601包括：

在本实施例的一种实现方式中，所述目标文档对应的版面要素检测结果包括目标文档中各个版面要素的位置信息和属性信息。

在本实施例的一种实现方式中，所述装置还包括：

在本实施例的一种实现方式中，所述目标损失函数为三元组损失函数；所述三元组损失函数用于拉近模型提取出的第一样本图像的图像特征和第四样本图像的图像特征之间的距离以及拉开第二样本图像的图像特征和第四样本图像的图像特征之间的距离。

在本实施例的一种实现方式中，所述装置还包括：

在本实施例的一种实现方式中，所述预设版面要素包括页眉、标题、图片、题号、作答文本行、题干文本行中的至少一项。

在本实施例的一种实现方式中，所述编码向量为独热编码向量。

进一步地，本申请实施例还提供了一种文档版面要素检测设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述文档版面要素检测方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述文档版面要素检测方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述文档版面要素检测方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档版面要素检测方法，其特征在于，包括：

获取待检测的目标文档所在的目标图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标图像和所述编码向量输入预先构建的文档版面要素检测模型，预测得到所述目标文档对应的版面要素检测结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标文档对应的版面要素检测结果包括目标文档中各个版面要素的位置信息和属性信息。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第一样本图像进行页面提取，得到第四样本图像；

5.根据权利要求4所述的方法，其特征在于，所述目标损失函数为三元组损失函数；所述三元组损失函数用于拉近模型提取出的第一样本图像的图像特征和第四样本图像的图像特征之间的距离以及拉开第二样本图像的图像特征和第四样本图像的图像特征之间的距离。

6.根据权利要求4所述的方法，其特征在于，所述文档版面要素检测模型的构建方式如下：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取包含验证文档混合要素的验证文档所在的验证图像；

8.一种文档版面要素检测装置，其特征在于，包括：

9.一种文档版面要素检测设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。