CN117333889A

CN117333889A - 文档检测模型的训练方法、装置及电子设备

Info

Publication number: CN117333889A
Application number: CN202311229653.2A
Authority: CN
Inventors: 吴思瑾; 张丹; 詹丽雅; 胡腾; 冯仕堃
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-01-02

Abstract

本公开提供了文档检测模型的训练方法、装置及电子设备，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理、计算机视觉等技术领域。具体实现方案为：获取第一训练数据；获取初始的文档检测模型；将第一训练数据中的样本文档图像、文本内容、文本布局信息、问题答案对中的样本问题，输入文档检测模型，获取预测答案；根据问题答案对中的样本答案、预测答案、文档检测模型的损失函数，确定损失函数的数值，进而对文档检测模型进行参数调整，实现训练，从而能够综合考虑样本文档图像，以及其中的文本内容、文本布局信息以及样本问题，来确定预测答案，以进行训练处理，加快文档检测模型的训练速度，提高训练得到的文档检测模型的准确度。

Description

文档检测模型的训练方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、自然语言处理、计算机视觉等技术领域，尤其涉及一种文档检测模型的训练方法、装置及电子设备。

背景技术

目前的文档检测过程可以为，对文档图像进行识别处理，获取其中的文本内容以及文本布局信息；将文本内容、文本布局信息以及提示信息输入文档检测模型，获取输出的文档信息抽取结果。

其中，上述方案中的文档检测模型，仅支持文档信息抽取任务；且输入仅涉及文本，考虑的特征较少，难以确保文档检测的准确度。

发明内容

本公开提供了一种文档检测模型的训练方法、装置及电子设备。

根据本公开的一方面，提供了一种文档检测模型的训练方法，所述方法包括：获取第一训练数据；所述第一训练数据包括，样本文档图像，以及所述样本文档图像中的文本内容、文本布局信息和问题答案对；获取初始的文档检测模型；将所述样本文档图像、所述文本内容、所述文本布局信息、所述问题答案对中的样本问题，输入所述文档检测模型，获取所述文档检测模型输出的预测答案；根据所述问题答案对中的样本答案、所述预测答案、所述文档检测模型的损失函数，确定损失函数的数值；根据所述损失函数的数值，对所述文档检测模型进行参数调整，实现训练。

根据本公开的另一方面，提供了一种文档检测方法，所述方法包括：获取目标文档图像，以及所述目标文档图像中的文本内容、文本布局信息和目标问题；对所述目标文档图像、所述文本内容、所述文本布局信息和所述目标问题，分别进行向量化处理以及拼接处理，获取第一拼接向量；对所述第一拼接向量进行特征提取处理以及特征预测处理，获取所述目标问题对应的答案。

根据本公开的另一方面，提供了一种文档检测模型的训练装置，所述装置包括：第一获取模块，用于获取第一训练数据；所述第一训练数据包括，样本文档图像，以及所述样本文档图像中的文本内容、文本布局信息和问题答案对；第二获取模块，用于获取初始的文档检测模型；第一输入模块，用于将所述样本文档图像、所述文本内容、所述文本布局信息、所述问题答案对中的样本问题，输入所述文档检测模型，获取所述文档检测模型输出的预测答案；第一确定模块，用于根据所述问题答案对中的样本答案、所述预测答案、所述文档检测模型的损失函数，确定损失函数的数值；第一训练模块，用于根据所述损失函数的数值，对所述文档检测模型进行参数调整，实现训练。

根据本公开的另一方面，提供了一种文档检测装置，所述装置包括：获取模块，用于获取目标文档图像，以及所述目标文档图像中的文本内容、文本布局信息和目标问题；第一处理模块，用于对所述目标文档图像、所述文本内容、所述文本布局信息和所述目标问题，分别进行向量化处理以及拼接处理，获取第一拼接向量；第二处理模块，用于对所述第一拼接向量进行特征提取处理以及特征预测处理，获取所述目标问题对应的答案。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述提出的文档检测模型的训练方法或者文档检测方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行本公开上述提出的文档检测模型的训练方法或者文档检测方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述提出的文档检测模型的训练方法或者文档检测方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是文档检测模型的框图示意图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是用来实现本公开实施例的文档检测模型的训练方法或者文档检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

针对上述问题，本公开提出一种文档检测模型的训练方法、装置及电子设备。

图1是根据本公开第一实施例的示意图，需要说明的是，本公开实施例的文档检测模型的训练方法可应用于文档检测模型的训练装置，该装置可以设置在电子设备中，以使电子设备可以执行文档检测模型的训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑(PersonalComputer，简称PC)、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备、智能音箱等具有各种操作系统、触摸屏和/或显示屏的硬件设备。以下实施例中，以执行主体为电子设备为例进行说明。

如图1所示，该文档检测模型的训练方法可以包括如下步骤：

步骤101，获取第一训练数据；第一训练数据包括，样本文档图像，以及样本文档图像中的文本内容、文本布局信息和问题答案对。

在本公开实施例中，电子设备执行步骤101的过程例如可以为，获取样本文档图像；对样本文档图像进行图像识别处理，获取样本文档图像中的文本内容和文本布局信息；根据文本内容和文本布局信息，确定样本文档图像中的问题答案对；根据样本文档图像，以及样本文档图像中的文本内容、文本布局信息和问题答案对，确定第一训练数据。

其中，文本内容，是指样本文档图像中的各个字符。文本布局信息，是指各个字符在样本文档图像中的位置信息。其中，位置信息，可以采用字符在样本文档图像中的横坐标和纵坐标来表示。其中，坐标系的原点，可以为样本文档图像的左上角、左下角、右上角、右下角等。

在本公开实施例中，在样本文档图像中，问题对应的答案，一般位于问题之后，或者在问题附近。电子设备可以获取问答对提取规则；基于样本文档图像中各个字符的位置信息，结合问答对提取规则，提取其中的问题答案对。

其中，以样本文档图像中的文本内容为“小红出生于1996年，家乡在广东省深圳市，今年24岁，正在读研究生”。其中，一个问题答案对中的样本问题例如“中文名”，对应的样本答案例如“小红”；另一个问题答案对中的样本问题例如“出生时间”，对应的样本答案例如“1996年”。

其中，结合样本文档图像中的文本内容和文本布局信息，电子设备能够结合已有的问答对提取规则等，确定样本文档图像中的样本问答对，进而能够自动基于多个样本文档图像生成第一训练数据，避免手动操作，降低人工成本，提高训练数据的生成速度。

在本公开实施例中，为了丰富第一训练数据中样本问答对的数量，对第一训练数据中的样本问答对进行扩展，确保训练好的文档检测模型能够对口语化的问题进行处理，进一步提高文档检测模型的准确度，电子设备可以执行以下过程：根据样本文档图像的问题答案对中的样本问题，查询问题库，获取问题库中与样本问题匹配的目标问题；根据目标问题，以及问题答案对中的样本答案，生成扩展问题答案对；将扩展问题答案对，确定为样本文档图像中的问题答案对。

其中，问题库中与样本问题匹配的目标问题，为样本库中与样本问题相似度大于或者等于相似度阈值的问题。例如，以样本问题为“出生时间”为例，该样本问题匹配的目标问题例如“该同学的出生时间是什么时候”。

步骤102，获取初始的文档检测模型。

在本公开实施例中，文档检测模型可以包括，依次连接的向量化网络、特征提取网络以及特征预测网络；向量化网络，对样本文档图像中的文本内容和文本布局信息、问题答案对中的样本问题、样本文档图像分别进行向量化处理以及拼接处理，得到拼接向量；特征提取网络，对拼接向量进行特征提取处理，得到文档特征；特征预测网络，对文档特征进行特征预测处理，得到预测答案。

其中，向量化网络的数量可以为多个，例如，第一向量化网络，用于对文本内容和文本布局信息进行向量化处理，得到文本向量；第二向量化网络，用于对样本问题进行向量化处理，得到问题向量；第三向量化网络，用于对样本文档图像进行向量化处理，得到图像向量；对文本向量、问题向量以及图像向量进行拼接处理，得到拼接向量。

其中，用于对样本文档图像进行向量化处理的第三向量化网络，例如可以为，残差神经网络(resnet)或者深度卷积神经网络(VGGnet)等。

在本公开实施例中，特征提取网络，可以为编码网络。其中，编码网络例如，跨模态文档理解模型ERNIE-Layout、多模态预训练模型Layoutlm、多模态预训练模型Layoutlxlm等预训练模型中的编码网络。

在本公开实施例中，特征预测网络，可以为解码网络。其中，解码网络的数量可以为多个。例如，解码网络可以包括以下网络中的至少一个：BIO解码网络、BIOES解码网络、SE解码网络。其中，上述解码网络，通过对文本内容中字符的序列化标注，来区分其中哪个字符属于答案，哪个字符不属于答案。其中，不同解码网络的标注方式不同。

其中，多种特征预测网络的预测结果的融合策略，例如，投票融合策略、维特比融合策略等。

其中，向量化网络以及特征提取网络的设置，使得文档检测模型可以综合考虑文本内容、文本布局信息、样本问题以及样本文档图像中的特征，提高文档检测结果的准确度。多种特征预测网络的设置，使得文档检测模型可以综合多种特征预测网络的预测结果，进一步提高文档检测结果的准确度。

步骤103，将样本文档图像、文本内容、文本布局信息、问题答案对中的样本问题，输入文档检测模型，获取文档检测模型输出的预测答案。

步骤104，根据问题答案对中的样本答案、预测答案、文档检测模型的损失函数，确定损失函数的数值。

其中，确定损失函数的数值过程中，采用的样本答案，具体可以为样本答案的向量化表示；采用的预测答案，具体可以为预测答案的向量化表示。

步骤105，根据损失函数的数值，对文档检测模型进行参数调整，实现训练。

本公开实施例的文档检测模型的训练方法，通过获取第一训练数据；第一训练数据包括，样本文档图像，以及样本文档图像中的文本内容、文本布局信息和问题答案对；获取初始的文档检测模型；将样本文档图像、文本内容、文本布局信息、问题答案对中的样本问题，输入文档检测模型，获取文档检测模型输出的预测答案；根据问题答案对中的样本答案、预测答案、文档检测模型的损失函数，确定损失函数的数值；根据损失函数的数值，对文档检测模型进行参数调整，实现训练，从而能够综合考虑样本文档图像，以及其中的文本内容、文本布局信息以及样本问题，来确定预测答案，以进行训练处理，加快文档检测模型的训练速度，提高训练得到的文档检测模型的准确度。

其中，电子设备在对样本文档图像进行特征提取之前，可以对样本文档图像进行分块处理，使得特征预测网络在标注时，可以对图像块进行标注处理，以区分答案所在的图像块，同时给出文本形式的答案以及图像形式的答案，丰富文档检测结果。如图2所示，图2是根据本公开第二实施例的示意图，图2所示实施例可以包括以下步骤：

步骤201，获取第一训练数据；第一训练数据包括，样本文档图像，以及样本文档图像中的文本内容、文本布局信息和问题答案对。

步骤202，获取初始的文档检测模型。

步骤203，将样本文档图像、文本内容、文本布局信息、问题答案对中的样本问题，输入文档检测模型，获取文档检测模型输出的预测答案。

步骤204，根据问题答案对中的样本答案、预测答案、文档检测模型的损失函数，确定损失函数的数值。

步骤205，根据损失函数的数值，对文档检测模型进行参数调整，实现训练。

步骤206，对样本文档图像进行分块处理，获取样本文档图像中的多个图像块。

在本公开实施例中，电子设备可以按照固定尺寸对样本文档图像进行分块处理，得到多个图像块。其中，多个图像块的尺寸可以相同，均为该固定尺寸。其中，固定尺寸的数量可以为一个或者多个。

步骤207，获取多个图像块中样本答案的相关图像块。

在本公开实施例中，电子设备执行步骤207的过程例如可以为，针对每个图像块，对该图像块进行图像识别处理，获取其中的文本子内容；确定该文本子内容与样本答案之间的文本相似度；根据文本相似度，对多个文本子内容进行降序排序处理，得到排序结果；将排序结果中排序在最前的文本子内容对应的图像块，确定为样本答案的相关图像块。

步骤208，将样本文档图像中的多个图像块、文本内容、文本布局信息、问题答案对中的样本问题，输入文档检测模型，获取文档检测模型输出的预测答案以及预测图像块。

其中，向量化网络的数量可以为多个。例如，第一向量化网络，用于对文本内容和文本布局信息进行向量化处理，得到文本向量；第二向量化网络，用于对样本问题进行向量化处理，得到问题向量；第三向量化网络，用于对样本文档图像中的多个图像块进行向量化处理以及拼接处理，得到图像向量；对文本向量、问题向量以及图像向量进行拼接处理，得到拼接向量。

其中，多用于对样本文档图像进行向量化处理的第三向量化网络，可以先对多个图像块分别进行向量化处理；对得到的多个向量进行拼接处理，得到图像向量。

步骤209，根据问题答案对中的样本答案、预测答案、样本答案的相关图像块、预测图像块、文档检测模型的损失函数，确定损失函数的数值。

在本公开实施例中，文档检测模型的损失函数，可以为第一子损失函数和第二子损失函数的加和。其中，第一子损失函数，结合问题答案对中的样本答案以及预测答案，确定第一数值；第二子损失函数，结合样本答案的相关图像块以及预测图像块，确定第二数值；第一数值和第二数值，按照第一子损失函数和第二子损失函数的权重，进行加权求和，得到的数值，即损失函数的数值。

步骤210，根据损失函数的数值，对文档检测模型进行参数调整，实现训练。

在本公开实施例中，为了方便文档检测模型能够适用于多种文档检测任务，例如，文档抽取问答任务、文档表格理解任务、文档布局理解任务、文档分类任务等。其中，文档检测模型的输入中包含有上述任务处理所需要的数据，例如，针对文档表格理解任务，样本文档图像中包含有表格，文本内容中包含有表格中内容；又例如，针对文档布局理解任务，文档检测模型的输入包含有文本内容以及文本布局信息。由于文档检测模型的输入中包含有上述任务处理所需要的数据，因此，对文档检测模型采用上述各任务中的小样本数据进行训练处理，可以使得训练得到的文档检测模型，能够同时适用于上述任务。对应的，在步骤205之后或者步骤210之后，电子设备还可以执行以下过程：获取第二训练数据以及第三训练数据；第二训练数据包括样本问答对；第三训练数据包括，多个文本图像相关任务下的样本数据；采用第二训练数据中的样本问答对，以及多个文本图像相关任务下的样本数据，对文档检测模型进行训练处理。

其中，需要说明的是，步骤201至步骤205的详细说明，可以参考图1实施例中步骤101至步骤105的详细描述，此处不再进行详细描述。

本公开实施例的文档检测模型的训练方法，通过获取第一训练数据；第一训练数据包括，样本文档图像，以及样本文档图像中的文本内容、文本布局信息和问题答案对；获取初始的文档检测模型；将样本文档图像、文本内容、文本布局信息、问题答案对中的样本问题，输入文档检测模型，获取文档检测模型输出的预测答案；根据问题答案对中的样本答案、预测答案、文档检测模型的损失函数，确定损失函数的数值；根据损失函数的数值，对文档检测模型进行参数调整，实现训练；对样本文档图像进行分块处理，获取样本文档图像中的多个图像块；获取多个图像块中样本答案的相关图像块；将样本文档图像中的多个图像块、文本内容、文本布局信息、问题答案对中的样本问题，输入文档检测模型，获取文档检测模型输出的预测答案以及预测图像块；根据问题答案对中的样本答案、预测答案、样本答案的相关图像块、预测图像块、文档检测模型的损失函数，确定损失函数的数值；根据损失函数的数值，对文档检测模型进行参数调整，实现训练，从而能够综合考虑样本文档图像中的多个图像块、以及其中的文本内容、文本布局信息以及样本问题，来确定预测答案，以进行训练处理，加快文档检测模型的训练速度，提高训练得到的文档检测模型的准确度。

图3是根据本公开第三实施例的示意图，需要说明的是，本公开实施例的文档检测方法可应用于文档检测装置，该装置可以设置在电子设备中，以使电子设备可以执行文档检测功能。

如图3所示，该文档检测方法可以包括如下步骤：

步骤301，获取目标文档图像，以及目标文档图像中的文本内容、文本布局信息和目标问题。

在本公开实施例中，目标文档图像，可以为涉及目标问题的文档图像，或者，选择出来的用于确定目标问题对应的答案的文档图像。其中，文档图像中涉及目标问题，是指，文档图像中包含目标问题，或者文档图像中包含与目标问题相关的问题。

步骤302，对目标文档图像、文本内容、文本布局信息和目标问题，分别进行向量化处理以及拼接处理，获取第一拼接向量。

在本公开实施例中，电子设备执行步骤302的过程例如可以为，获取训练好的文档检测模型；训练好的文档检测模型中包括，依次连接的向量化网络、特征提取网络以及特征预测网络；将目标文档图像、文本内容、文本布局信息和目标问题，输入向量化网络，得到第一拼接向量。

其中，向量化网络的数量可以为多个，例如，第一向量化网络，用于对文本内容和文本布局信息进行向量化处理，得到文本向量；第二向量化网络，用于对目标问题进行向量化处理，得到问题向量；第三向量化网络，用于对目标文档图像进行向量化处理，得到图像向量；对文本向量、问题向量以及图像向量进行拼接处理，得到第一拼接向量。

步骤303，对第一拼接向量进行特征提取处理以及特征预测处理，获取目标问题对应的答案。

在本公开实施例中，在文档检测模型中包括，依次连接的向量化网络、特征提取网络以及特征预测网络的情况下，电子设备执行步骤303的过程例如可以为，将第一拼接向量输入文档检测模型中依次连接的特征提取网络和特征预测网络，获取特征预测网络输出的答案；将该答案作为目标问题对应的答案。

在本公开实施例中，为了方便针对指定的文档处理任务，例如，图文匹配任务等，能够给出目标文档图像中答案的相关图像块，丰富文档检测结果，电子设备还可以执行以下过程：对目标文档图像进行分块处理，获取目标文档图像中的多个图像块；对目标文档图像中的多个图像块、文本内容、文本布局信息和目标问题，分别进行向量化处理以及拼接处理，获取第二拼接向量；对第二拼接向量进行特征提取处理以及特征预测处理，获取目标问题对应的答案，以及多个图像块中答案的相关图像块。

其中，在文档检测模型中包括，依次连接的向量化网络、特征提取网络以及特征预测网络，且向量化网络的数量为多个的情况下，电子设备获取第二拼接向量的过程例如可以为，将文本内容以及文本布局信息输入第一向量化网络，获取文本向量；将目标问题输入第二向量化网络，获取文本向量；将多个图像块分别输入第三向量化网络，并对输出的多个向量进行拼接处理，得到图像向量；对文本向量、问题向量以及图像向量进行拼接处理，得到第二拼接向量。

本公开实施例的文档检测方法，通过获取目标文档图像，以及目标文档图像中的文本内容、文本布局信息和目标问题；对目标文档图像、文本内容、文本布局信息和目标问题，分别进行向量化处理以及拼接处理，获取第一拼接向量；对第一拼接向量进行特征提取处理以及特征预测处理，获取目标问题对应的答案，从而能够综合考虑目标文档图像、目标文档图像中的文本内容和文本布局信息、以及目标问题，来确定目标问题对应的答案，提高确定得到的答案与目标问题之间的匹配度，提高文档检测效率。

以下举例进行说明。如图4所示，是文档检测模型的框图示意图。在图4中，文档检测模型的输入分为三部分，分别为文本内容+文本布局信息(text)、问题(prompt)以及文档图像(image)；该三部分输入向量化网络(图4中未示出)，得到拼接向量后，将拼接向量输入特征提取网络(encoder)，得到编码特征；将编码特征输入特征预测网络(BIO解码、BIOES解码、SE解码，三者结果进行投票融合)，得到输出的答案。

为了实现上述实施例，本公开还提供一种文档检测模型的训练装置。如图5所示，图5是根据本公开第四实施例的示意图。该文档检测模型的训练装置50，可以包括：第一获取模块501、第二获取模块502、第一输入模块503、第一确定模块504和第一训练模块505。

其中，第一获取模块501，用于获取第一训练数据；所述第一训练数据包括，样本文档图像，以及所述样本文档图像中的文本内容、文本布局信息和问题答案对；第二获取模块502，用于获取初始的文档检测模型；第一输入模块503，用于将所述样本文档图像、所述文本内容、所述文本布局信息、所述问题答案对中的样本问题，输入所述文档检测模型，获取所述文档检测模型输出的预测答案；第一确定模块504，用于根据所述问题答案对中的样本答案、所述预测答案、所述文档检测模型的损失函数，确定损失函数的数值；第一训练模块505，用于根据所述损失函数的数值，对所述文档检测模型进行参数调整，实现训练。

作为本公开实施例的一种可能实现方式，所述第一获取模块501具体用于，获取所述样本文档图像；对所述样本文档图像进行图像识别处理，获取所述样本文档图像中的文本内容和文本布局信息；根据所述文本内容和所述文本布局信息，确定所述样本文档图像中的问题答案对；根据所述样本文档图像，以及所述样本文档图像中的文本内容、文本布局信息和问题答案对，确定所述第一训练数据。

作为本公开实施例的一种可能实现方式，所述装置还包括：查询模块、生成模块和第二确定模块；所述查询模块，用于根据所述样本文档图像的问题答案对中的样本问题，查询问题库，获取所述问题库中与所述样本问题匹配的目标问题；所述生成模块，用于根据所述目标问题，以及所述问题答案对中的样本答案，生成扩展问题答案对；所述第二确定模块，用于将所述扩展问题答案对，确定为所述样本文档图像中的问题答案对。

作为本公开实施例的一种可能实现方式，所述装置还包括：分块处理模块、第三获取模块、第二输入模块、第三确定模块和第二训练模块；所述分块处理模块，用于对所述样本文档图像进行分块处理，获取所述样本文档图像中的多个图像块；所述第三获取模块，用于获取多个图像块中所述样本答案的相关图像块；所述第二输入模块，用于将所述样本文档图像中的多个图像块、所述文本内容、所述文本布局信息、所述问题答案对中的样本问题，输入所述文档检测模型，获取所述文档检测模型输出的预测答案以及预测图像块；所述第三确定模块，用于根据所述问题答案对中的样本答案、所述预测答案、所述样本答案的相关图像块、所述预测图像块、所述文档检测模型的损失函数，确定损失函数的数值；所述第二训练模块，用于根据所述损失函数的数值，对所述文档检测模型进行参数调整，实现训练。

作为本公开实施例的一种可能实现方式，所述装置还包括：第四获取模块和第三训练模块；所述第四获取模块，用于获取第二训练数据以及第三训练数据；所述第二训练数据包括样本问答对；所述第三训练数据包括，多个文本图像相关任务下的样本数据；所述第三训练模块，用于采用所述第二训练数据中的样本问答对，以及多个文本图像相关任务下的样本数据，对所述文档检测模型进行训练处理。

作为本公开实施例的一种可能实现方式，所述文档检测模型包括，依次连接的向量化网络、特征提取网络以及特征预测网络；所述向量化网络，对所述样本文档图像中的文本内容和文本布局信息、所述问题答案对中的样本问题、所述样本文档图像分别进行向量化处理以及拼接处理，得到拼接向量；所述特征提取网络，对所述拼接向量进行特征提取处理，得到文档特征；所述特征预测网络，对所述文档特征进行特征预测处理，得到预测答案。

本公开实施例的文档检测模型的训练装置，通过获取第一训练数据；第一训练数据包括，样本文档图像，以及样本文档图像中的文本内容、文本布局信息和问题答案对；获取初始的文档检测模型；将样本文档图像、文本内容、文本布局信息、问题答案对中的样本问题，输入文档检测模型，获取文档检测模型输出的预测答案；根据问题答案对中的样本答案、预测答案、文档检测模型的损失函数，确定损失函数的数值；根据损失函数的数值，对文档检测模型进行参数调整，实现训练，从而能够综合考虑样本文档图像，以及其中的文本内容、文本布局信息以及样本问题，来确定预测答案，以进行训练处理，加快文档检测模型的训练速度，提高训练得到的文档检测模型的准确度。

为了实现上述实施例，本公开还提供一种文档检测装置。如图6所示，图6是根据本公开第五实施例的示意图。该文档检测装置60，可以包括：获取模块601、第一处理模块602和第二处理模块603。

其中，获取模块601，用于获取目标文档图像，以及所述目标文档图像中的文本内容、文本布局信息和目标问题；第一处理模块602，用于对所述目标文档图像、所述文本内容、所述文本布局信息和所述目标问题，分别进行向量化处理以及拼接处理，获取第一拼接向量；第二处理模块603，用于对所述第一拼接向量进行特征提取处理以及特征预测处理，获取所述目标问题对应的答案。

作为本公开实施例的一种可能实现方式，所述装置还包括：分块处理模块、第三处理模块和第四处理模块；所述分块处理模块，用于对所述目标文档图像进行分块处理，获取所述目标文档图像中的多个图像块；所述第三处理模块，用于对所述目标文档图像中的多个图像块、所述文本内容、所述文本布局信息和所述目标问题，分别进行向量化处理以及拼接处理，获取第二拼接向量；所述第四处理模块，用于对所述第二拼接向量进行特征提取处理以及特征预测处理，获取所述目标问题对应的答案，以及多个图像块中所述答案的相关图像块。

本公开实施例的文档检测装置，通过获取目标文档图像，以及目标文档图像中的文本内容、文本布局信息和目标问题；对目标文档图像、文本内容、文本布局信息和目标问题，分别进行向量化处理以及拼接处理，获取第一拼接向量；对第一拼接向量进行特征提取处理以及特征预测处理，获取目标问题对应的答案，从而能够综合考虑目标文档图像、目标文档图像中的文本内容和文本布局信息、以及目标问题，来确定目标问题对应的答案，提高确定得到的答案与目标问题之间的匹配度，提高文档检测效率。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均在征得用户同意的前提下进行，并且均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如文档检测模型的训练方法或者文档检测方法。例如，在一些实施例中，文档检测模型的训练方法或者文档检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的文档检测模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文档检测模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文档检测模型的训练方法，所述方法包括：

获取第一训练数据；所述第一训练数据包括，样本文档图像，以及所述样本文档图像中的文本内容、文本布局信息和问题答案对；

获取初始的文档检测模型；

将所述样本文档图像、所述文本内容、所述文本布局信息、所述问题答案对中的样本问题，输入所述文档检测模型，获取所述文档检测模型输出的预测答案；

根据所述问题答案对中的样本答案、所述预测答案、所述文档检测模型的损失函数，确定损失函数的数值；

根据所述损失函数的数值，对所述文档检测模型进行参数调整，实现训练。

2.根据权利要求1所述的方法，其中，所述获取第一训练数据，包括：

获取所述样本文档图像；

对所述样本文档图像进行图像识别处理，获取所述样本文档图像中的文本内容和文本布局信息；

根据所述文本内容和所述文本布局信息，确定所述样本文档图像中的问题答案对；

根据所述样本文档图像，以及所述样本文档图像中的文本内容、文本布局信息和问题答案对，确定所述第一训练数据。

3.根据权利要求1或2所述的方法，其中，所述方法还包括：

根据所述样本文档图像的问题答案对中的样本问题，查询问题库，获取所述问题库中与所述样本问题匹配的目标问题；

根据所述目标问题，以及所述问题答案对中的样本答案，生成扩展问题答案对；

将所述扩展问题答案对，确定为所述样本文档图像中的问题答案对。

4.根据权利要求1所述的方法，其中，所述方法还包括：

对所述样本文档图像进行分块处理，获取所述样本文档图像中的多个图像块；

获取多个图像块中所述样本答案的相关图像块；

将所述样本文档图像中的多个图像块、所述文本内容、所述文本布局信息、所述问题答案对中的样本问题，输入所述文档检测模型，获取所述文档检测模型输出的预测答案以及预测图像块；

根据所述问题答案对中的样本答案、所述预测答案、所述样本答案的相关图像块、所述预测图像块、所述文档检测模型的损失函数，确定损失函数的数值；

5.根据权利要求1所述的方法，其中，所述方法还包括：

获取第二训练数据以及第三训练数据；所述第二训练数据包括样本问答对；所述第三训练数据包括，多个文本图像相关任务下的样本数据；

采用所述第二训练数据中的样本问答对，以及多个文本图像相关任务下的样本数据，对所述文档检测模型进行训练处理。

6.根据权利要求1所述的方法，其中，所述文档检测模型包括，依次连接的向量化网络、特征提取网络以及特征预测网络；

所述向量化网络，对所述样本文档图像中的文本内容和文本布局信息、所述问题答案对中的样本问题、所述样本文档图像分别进行向量化处理以及拼接处理，得到拼接向量；

所述特征提取网络，对所述拼接向量进行特征提取处理，得到文档特征；

所述特征预测网络，对所述文档特征进行特征预测处理，得到预测答案。

7.一种文档检测方法，所述方法包括：

获取目标文档图像，以及所述目标文档图像中的文本内容、文本布局信息和目标问题；

对所述目标文档图像、所述文本内容、所述文本布局信息和所述目标问题，分别进行向量化处理以及拼接处理，获取第一拼接向量；

对所述第一拼接向量进行特征提取处理以及特征预测处理，获取所述目标问题对应的答案。

8.根据权利要求7所述的方法，其中，所述方法还包括：

对所述目标文档图像进行分块处理，获取所述目标文档图像中的多个图像块；

对所述目标文档图像中的多个图像块、所述文本内容、所述文本布局信息和所述目标问题，分别进行向量化处理以及拼接处理，获取第二拼接向量；

对所述第二拼接向量进行特征提取处理以及特征预测处理，获取所述目标问题对应的答案，以及多个图像块中所述答案的相关图像块。

9.一种文档检测模型的训练装置，所述装置包括：

第一获取模块，用于获取第一训练数据；所述第一训练数据包括，样本文档图像，以及所述样本文档图像中的文本内容、文本布局信息和问题答案对；

第二获取模块，用于获取初始的文档检测模型；

第一输入模块，用于将所述样本文档图像、所述文本内容、所述文本布局信息、所述问题答案对中的样本问题，输入所述文档检测模型，获取所述文档检测模型输出的预测答案；

第一确定模块，用于根据所述问题答案对中的样本答案、所述预测答案、所述文档检测模型的损失函数，确定损失函数的数值；

第一训练模块，用于根据所述损失函数的数值，对所述文档检测模型进行参数调整，实现训练。

10.根据权利要求9所述的装置，其中，所述第一获取模块具体用于，

获取所述样本文档图像；

11.根据权利要求9或10所述的装置，其中，所述装置还包括：查询模块、生成模块和第二确定模块；

所述查询模块，用于根据所述样本文档图像的问题答案对中的样本问题，查询问题库，获取所述问题库中与所述样本问题匹配的目标问题；

所述生成模块，用于根据所述目标问题，以及所述问题答案对中的样本答案，生成扩展问题答案对；

所述第二确定模块，用于将所述扩展问题答案对，确定为所述样本文档图像中的问题答案对。

12.根据权利要求9所述的装置，其中，所述装置还包括：分块处理模块、第三获取模块、第二输入模块、第三确定模块和第二训练模块；

所述分块处理模块，用于对所述样本文档图像进行分块处理，获取所述样本文档图像中的多个图像块；

所述第三获取模块，用于获取多个图像块中所述样本答案的相关图像块；

所述第二输入模块，用于将所述样本文档图像中的多个图像块、所述文本内容、所述文本布局信息、所述问题答案对中的样本问题，输入所述文档检测模型，获取所述文档检测模型输出的预测答案以及预测图像块；

所述第三确定模块，用于根据所述问题答案对中的样本答案、所述预测答案、所述样本答案的相关图像块、所述预测图像块、所述文档检测模型的损失函数，确定损失函数的数值；

所述第二训练模块，用于根据所述损失函数的数值，对所述文档检测模型进行参数调整，实现训练。

13.根据权利要求9所述的装置，其中，所述装置还包括：第四获取模块和第三训练模块；

所述第四获取模块，用于获取第二训练数据以及第三训练数据；所述第二训练数据包括样本问答对；所述第三训练数据包括，多个文本图像相关任务下的样本数据；

所述第三训练模块，用于采用所述第二训练数据中的样本问答对，以及多个文本图像相关任务下的样本数据，对所述文档检测模型进行训练处理。

14.根据权利要求9所述的装置，其中，所述文档检测模型包括，依次连接的向量化网络、特征提取网络以及特征预测网络；

15.一种文档检测装置，所述装置包括：

获取模块，用于获取目标文档图像，以及所述目标文档图像中的文本内容、文本布局信息和目标问题；

第一处理模块，用于对所述目标文档图像、所述文本内容、所述文本布局信息和所述目标问题，分别进行向量化处理以及拼接处理，获取第一拼接向量；

第二处理模块，用于对所述第一拼接向量进行特征提取处理以及特征预测处理，获取所述目标问题对应的答案。

16.根据权利要求15所述的装置，其中，所述装置还包括：分块处理模块、第三处理模块和第四处理模块；

所述分块处理模块，用于对所述目标文档图像进行分块处理，获取所述目标文档图像中的多个图像块；

所述第三处理模块，用于对所述目标文档图像中的多个图像块、所述文本内容、所述文本布局信息和所述目标问题，分别进行向量化处理以及拼接处理，获取第二拼接向量；

所述第四处理模块，用于对所述第二拼接向量进行特征提取处理以及特征预测处理，获取所述目标问题对应的答案，以及多个图像块中所述答案的相关图像块。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的文档检测模型的训练方法；或者，执行权利要求7至8中任一项所述的文档检测方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至6中任一项所述的文档检测模型的训练方法；或者，执行根据权利要求7至8中任一项所述的文档检测方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至6中任一项所述的文档检测模型的训练方法；或者，实现根据权利要求7至8中任一项所述的文档检测方法。