CN117671695A

CN117671695A - 文档区域检测模型训练及文档区域检测方法和装置

Info

Publication number: CN117671695A
Application number: CN202211013084.3A
Authority: CN
Inventors: 程俊涛; 陈荣华
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Wuhan Kingsoft Office Software Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Wuhan Kingsoft Office Software Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2024-03-08

Abstract

本申请提供一种文档区域检测模型训练及文档区域检测方法和装置，涉及人工智能技术领域，该方法包括：获取训练样本，训练样本包括样本图像，以及样本图像的M个标注角点坐标和标注类别，M个标注角点坐标指示样本图像上的文档区域，标注类别指示样本图像上是否包括文档区域；将样本图像输入至文档区域检测模型，得到文档区域检测模型输出的N个检测角点坐标和检测分类概率，检测分类概率指示样本图像中包括文档区域的置信度，N个检测角点坐标指示样本图像中检测出的区域；根据M个标注角点坐标、标注类别、N个检测角点坐标和检测分类概率，对文档区域检测模型的参数进行调整。能够提高文档区域检测的准确性。

Description

文档区域检测模型训练及文档区域检测方法和装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文档区域检测模型训练及文档区域检测方法和装置。

背景技术

文档区域检测，指的是通过一定的技术手段检测出图像中的文档区域的过程，文档区域检测是进行文字识别的基础，文档区域的检测对于文字识别的效率和准确率具有重要影响。

目前的文档区域检测通常是由文档区域检测模型完成的，将图像输入至文档区域检测模型后，由文档区域检测模型在图像上用矩形框表示出该文档区域，实现文档区域的检测。

由于上述方案是通过矩形框来标识文档区域的，针对包括不规则形状的文档区域，上述方案检测出的区域会包括一些不属于文档的区域，不利于后续的文字识别。

发明内容

本申请提供一种文档区域检测模型训练及文档区域检测方法和装置，用以解决现有文档区域检测方案容易将不属于文档的区域识别为文档区域的问题。

第一方面，本申请提供一种文档区域检测模型训练方法，包括：

获取训练样本，所述训练样本包括样本图像，以及所述样本图像的M个标注角点坐标和标注类别，所述M个标注角点坐标指示所述样本图像上的文档区域，所述标注类别指示所述样本图像上是否包括文档区域，所述M为大于或等于1的整数；

将所述样本图像输入至文档区域检测模型，得到所述文档区域检测模型输出的N个检测角点坐标和检测分类概率，所述检测分类概率指示所述样本图像中包括文档区域的置信度，所述N个检测角点坐标指示所述样本图像中检测出的文档区域，所述N为大于或等于1的整数；

根据所述M个标注角点坐标、所述标注类别、所述N个检测角点坐标和所述检测分类概率，对所述文档区域检测模型的参数进行调整。

在一种可能的实施方式中，所述将所述样本图像输入至文档区域检测模型，得到所述文档区域检测模型输出的N个检测角点坐标和检测分类概率，包括：

对所述样本图像进行特征提取处理，得到所述样本图像的高维特征；

对所述高维特征进行特征解码处理，得到所述高维特征对应的解码特征；

根据所述解码特征，得到所述N个检测角点坐标和所述检测分类概率。

在一种可能的实施方式中，所述对所述样本图像进行特征提取处理，得到所述样本图像的高维特征，包括：

对所述样本图像进行至少一次第一操作，得到第一特征，所述第一操作包括卷积操作和池化操作；

对所述第一特征进行特征筛选操作，得到筛选后的第二特征；

对所述第二特征进行至少一次第二操作，得到第三特征，所述第二操作包括卷积操作和池化操作；

对所述第三特征进行高维映射操作，得到所述高维特征。

在一种可能的实施方式中，所述对所述第一特征进行特征筛选操作，得到筛选后的第二特征，包括：

对所述第一特征执行K次第三操作，所述第三操作包括：对输入特征进行卷积操作，得到对应的卷积矩阵；根据所述卷积矩阵获取对应的输出特征；

对第K次第三操作的输出特征进行池化操作，得到所述第二特征；

其中，执行第一次第三操作的输入特征为所述第一特征，执行第i+1次第三操作的输入特征是执行第i次第三操作的输出特征，所述K为正整数，所述i为正整数。

在一种可能的实施方式中，所述根据所述卷积矩阵获取对应的输出特征，包括：

对所述卷积矩阵依次进行池化操作、卷积操作和归一化操作，获取对应的归一化向量；

根据所述卷积矩阵和所述归一化向量，获取所述输出特征。

在一种可能的实施方式中，所述根据所述解码特征，得到所述样本图像的检测分类概率和N个检测角点坐标，包括：

对所述解码特征进行第一特征映射操作，得到第一映射特征向量，所述第一映射特征向量中的元素包括所述检测分类概率；

对所述解码特征进行第二特征映射操作，得到第二映射特征向量，所述第二映射特征向量中包括N组元素，所述元素表示检测角点坐标。

在一种可能的实施方式中，所述根据所述M个标注角点坐标、所述标注类别、所述N个检测角点坐标和所述检测分类概率，对所述文档区域检测模型的参数进行调整，包括：

根据所述检测分类概率和所述标注类别，获取所述样本图像的分类损失；

根据所述N个检测角点坐标和所述M个标注角点坐标，获取所述样本图像的回归损失；

根据所述分类损失和所述回归损失，对所述文档区域检测模型的参数进行调整。

第二方面，本申请提供一种文档区域检测方法，包括：

获取待处理的第一图像；

将所述第一图像输入至文档区域检测模型，得到所述文档区域检测模型输出的P个角点坐标和分类概率，所述分类概率指示所述第一图像中是否存在文档区域，所述P个角点坐标指示所述第一图像中检测出的文档区域；其中，所述P为大于或等于1的整数，所述文档区域检测模型为根据第一方面任一项所述的方法训练得到的模型；

根据所述P个角点坐标和所述分类概率，获取所述第一图像的文档区域检测结果。

在一种可能的实施方式中，所述根据所述P个角点坐标和所述分类概率，获取所述第一图像的文档区域检测结果，包括：

若所述分类概率指示所述第一图像中不存在文档区域，则确定所述文档区域检测结果为所述第一图像中不包括文档区域；

若所述分类概率指示所述第一图像中存在文档区域，则将所述P个角点坐标围成的区域确定为所述第一图像中的文档区域。

第三方面，本申请提供一种文档区域检测模型训练装置，包括：

获取单元，用于获取训练样本，所述训练样本包括样本图像，以及所述样本图像的M个标注角点坐标和标注类别，所述M个标注角点坐标指示所述样本图像上的文档区域，所述标注类别指示所述样本图像上是否包括文档区域，所述M为大于或等于1的整数；

处理单元，用于将所述样本图像输入至文档区域检测模型，得到所述文档区域检测模型输出的N个检测角点坐标和检测分类概率，所述检测分类概率指示所述样本图像中包括文档区域的置信度，所述N个检测角点坐标指示所述样本图像中检测出的文档区域，所述N为大于或等于1的整数；

训练单元，用于根据所述M个标注角点坐标、所述标注类别、所述N个检测角点坐标和所述检测分类概率，对所述文档区域检测模型的参数进行调整。

在一种可能的实施方式中，所述处理单元具体用于：

对所述第三特征进行高维映射操作，得到所述高维特征。

在一种可能的实施方式中，所述处理单元具体用于：

根据所述卷积矩阵和所述归一化向量，获取所述输出特征。

在一种可能的实施方式中，所述处理单元具体用于：

在一种可能的实施方式中，所述训练单元具体用于：

第四方面，本申请提供一种文档区域检测装置，包括：

获取单元，用于获取待处理的第一图像；

处理单元，用于将所述第一图像输入至文档区域检测模型，得到所述文档区域检测模型输出的P个角点坐标和分类概率，所述分类概率指示所述第一图像中是否存在文档区域，所述P个角点坐标指示所述第一图像中检测出的文档区域；其中，所述P为大于或等于1的整数，所述文档区域检测模型为根据第一方面任一项所述的方法训练得到的模型；

检测单元，用于根据所述P个角点坐标和所述分类概率，获取所述第一图像的文档区域检测结果。

在一种可能的实施方式中，所述检测单元具体用于：

第五方面，本申请提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面任一项所述的文档区域检测模型训练方法，或者，所述处理器执行所述程序时实现如第二方面任一项所述的文档区域检测方法。

第六方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的文档区域检测模型训练方法，或者，所述计算机程序被处理器执行时实现如第二方面任一项所述的文档区域检测方法。

第七方面，本申请提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的文档区域检测模型训练方法，或者，所述计算机程序被处理器执行时实现如第一方面任一项所述的文档区域检测方法。

本申请提供的文档区域检测模型训练及文档区域检测方法和装置，首先获取训练样本，训练样本包括样本图像，以及样本图像的M个标注角点坐标和标注类别，M个标注角点坐标指示样本图像上的文档区域，标注类别指示样本图像上是否包括文档区域，然后将样本图像输入至文档区域检测模型，得到文档区域检测模型输出的N个检测角点坐标和检测分类概率，检测分类概率指示样本图像中包括文档区域的置信度，N个检测角点坐标指示样本图像中检测出的区域。最后，根据M个标注角点坐标、标注类别、N个检测角点坐标和检测分类概率，对文档区域检测模型的参数进行调整。由于通过文档检测模型输出的N个检测角点坐标能够确定一个N边形，在检测分类概率指示图像上存在文档区域时，即可将N个检测角点坐标确定的N边形确定为检测出的文档区域。本申请实施例的方案，通过N个检测角点坐标来表示文档区域，能够适应于各种不同形状的文档区域的识别，减小将不属于文档的区域被识别为文档区域的可能性，有助于后续基于文档区域的文字识别。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种适用的应用场景示意图；

图2为本申请实施例提供的文档区域检测模型训练方法的流程示意图；

图3为本申请实施例提供的文档区域检测模型处理流程示意图；

图4为本申请实施例提供的Backbone处理示意图；

图5为本申请实施例提供的筛选子模块处理过程示意图；

图6为本申请实施例提供的文档区域检测模型处理总体流程图；

图7为本申请实施例提供的模型参数调整的流程示意图；

图8为本申请实施例提供的文档区域检测方法的流程示意图；

图9为本申请实施例提供的文档区域检测效果对比图；

图10为本申请实施例提供的文档区域检测模型训练装置的结构示意图；

图11为本申请实施例提供的文档区域检测装置的结构示意图；

图12为本申请实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在日常的生活或办公场景中，经常涉及到纸质文档的储存和使用。随着计算机软硬件技术的发展，越来越多的场景需要将纸质文档变成图像进行储存，而将纸质文档转换成图像的方式通常包括扫描或拍照等等。

纸质文档的扫描通常需要借助扫描仪来完成，由于扫描仪便携性不足，因此用手机一类的移动设备对纸质文档进行拍摄成为了更加便捷的方式。例如可以结合图1对进行介绍。

图1为本申请实施例提供的一种适用的应用场景示意图，如图1所示，包括客户端11和图像12，图像12可以是由其他设备发送给客户端11的，也可以是由客户端11获取的。例如以客户端11为手机为例，可以由手机对纸质文档13进行拍摄，得到图像12。

在用手机一类的移动设备拍摄纸质文档的过程中，由于人工拍摄的角度、光线等原因，拍摄得到的图像12的质量可能不佳，此时需要对图像12进行文档区域的检测，即检测出图像12中的文档区域，检测出的文档区域可以用于后续的文字识别。

目前的文档区域检测是通过文档区域检测模型完成的，首先获取多张样本图像，然后用矩形框标注出这些样本图像上的文档区域。然后，根据这多张样本图像和样本图像上标注出的矩形框对文档区域检测模型进行训练，直至达到训练终止条件，得到训练好的文档区域检测模型。然后，将待检测的图像输入至文档区域检测模型，文档区域检测模型能够检测出图像上的文档区域。

在上述方案中，由于在进行文档区域检测模型的训练过程中，均是采用矩形框对样本图像进行标注的，因此只能用于检测矩形形状的文档区域。而实际通过手机对纸质文档进行拍摄时，文档区域可能是除矩形外其他的形状。例如在图1中，对于纸质文档13而言，从A、B、C、D四个不同的位置对纸质文档13进行拍摄，得到的图像均是不同的形状。因此，采用上述方案，通过矩形框来标注文档区域，可能造成将非文档区域被标注为文档区域的情形，文档区域检测的准确性不高，无法适应于不同形状的文档区域的检测。

基于此，本申请实施例提供一种文档检测的方案，能够适用于任意形状的文档区域的检测。下面基于图1示例的应用场景，结合图2对本申请实施例的方案进行介绍。需要说明，本申请中各实施例的执行主体可以为客户端、终端设备、服务器、处理器、微处理器等，本申请各实施例的具体的执行主体不做限制，其可以根据实际需求进行选择和设置。

图2为本申请实施例提供的文档区域检测模型训练方法的流程示意图，如图2所示，该方法可以包括：

S21，获取训练样本，训练样本包括样本图像，以及样本图像的M个标注角点坐标和标注类别，M个标注角点坐标指示样本图像上的文档区域，标注类别指示样本图像上是否包括文档区域，M为大于或等于1的整数。

在进行文档区域检测模型的训练之前，首先要获取训练样本，每组训练样本中可以包括一张样本图像，以及该样本图像的标注信息。标注信息可以由标注人员进行标注得到，标注信息包括M个标注角点坐标和标注类别。

标注类别指示样本图像上是否包括文档区域，标注人员可以根据样本图像上是否包括文档区域来确定标注类别。例如可以以数字1表示样本图像上包括文档区域，以数字0表示样本图像上不包括文档区域；也可以以数字1表示样本图像上不包括文档区域，以数字0表示样本图像上包括文档区域。

标注角点为样本图像上的点，而标注角点坐标即为标注角点在样本图像上的坐标，也指示了标注角点在样本图像上的位置。在样本图像上包括文档区域时，标注人员可以通过标注M个标注角点，来标识样本图像上的文档区域。M个标注角点连接后可以确定样本图像上的一个区域，本申请实施例中，样本图像上的标注角点的数量为固定值，即M个，M为预设角点数目，且M为大于或等于1的整数。M的取值可以根据实际需要设定，例如普通的纸质文档均为长方形，在不同角度拍摄时也为四边形，包括4个顶点，因此M可以设定为4，通过4个标注角点可以确定一个四边形区域，即为标注出的文档区域。M也可以取其他的数值，例如5、6、等等，本申请实施例对此不做限定。在样本图像上不包括文档区域时，标注人员可以不进行M个标注角点的标注，或者直接将样本图像的顶点作为M个标注角点，等等。

S22，将样本图像输入至文档区域检测模型，得到文档区域检测模型输出的N个检测角点坐标和检测分类概率，检测分类概率指示样本图像中包括文档区域的置信度，N个检测角点坐标指示样本图像中检测出的文档区域。

在将样本图像输入至文档区域检测模型后，由文档区域检测模型对样本图像处理，输出N个检测角点坐标和检测分类概率，其中，这N个检测角点为文档区域检测模型对样本图像中的文档区域进行检测得到的区域顶点，用于指示样本图像中被检测出的文档区域，N为大于或等于1的整数，例如可以为3、4、5等等。根据这N个检测角点坐标可以确定一个区域，该区域即为文档区域检测模型对样本图像检测得到的文档区域。

需要说明的是，N可以与M相等，也可以大于M，也可以小于M。针对不同的样本图像，文档区域检测模型输出的检测角点坐标的数量N可能相同，也可能不同。

检测分类概率为一个大于等于0且小于等于1的值，用于指示样本图像中包括文档区域的置信度，根据检测分类概率可以获知文档区域检测模型检测后得到的包括文档区域的概率。

S23，根据M个标注角点坐标、标注类别、N个检测角点坐标和检测分类概率，对文档区域检测模型的参数进行调整。

在得到N个检测角点坐标和检测分类概率后，根据M个标注角点坐标和N个检测角点坐标，可以获取文档区域检测模型检测出的文档区域与标注的文档区域之间的差别，根据标注类别和检测分类概率，可以获取文档区域检测模型检测出的样本图像存在文档区域的概率与样本图像实际存在文档区域的概率之间的差别，因此，结合这两者可以计算总的模型损失，从而根据总的模型损失对文档区域检测模型的参数进行调整。

S21至S23介绍了根据一组训练样本对文档区域检测模型的训练过程，在模型训练中，可能会采用多组训练样本进行训练，任意一组训练样本对文档区域检测模型的训练过程如上述实施例所示。直至达到模型训练终止条件时，停止训练过程，即可得到训练好的文档区域检测模型。其中，模型训练终止条件例如可以为循环训练次数达到预设次数，例如可以为总的模型损失小于或等于预设值，等等，本实施例对此不做限定。

本申请实施例提供的模型训练方法，首先获取训练样本，训练样本包括样本图像，以及样本图像的M个标注角点坐标和标注类别，M个标注角点坐标指示样本图像上的文档区域，标注类别指示样本图像上是否包括文档区域，然后将样本图像输入至文档区域检测模型，得到文档区域检测模型输出的N个检测角点坐标和检测分类概率，检测分类概率指示样本图像中包括文档区域的置信度，N个检测角点坐标指示样本图像中检测出的文档区域。最后，根据M个标注角点坐标、标注类别、N个检测角点坐标和检测分类概率，对文档区域检测模型的参数进行调整。由于通过文档检测模型输出的N个检测角点坐标能够确定一个N边形，在检测分类概率指示图像上存在文档区域时，即可将N个检测角点坐标确定的N边形确定为检测出的文档区域。本申请实施例的方案，通过N个检测角点坐标来表示文档区域，能够适应于各种不同形状的文档区域的识别，减小将不属于文档的区域被识别为文档区域的可能性，有助于后续基于文档区域的文字识别。

在上述任意实施例的基础上，下面结合附图3对文档区域检测模型的具体处理过程进行介绍。图3为本申请实施例提供的文档区域检测模型处理流程示意图，如图3所示，包括：

S31，对样本图像进行特征提取处理，得到样本图像的高维特征。

本申请实施例中，可以通过主干网络(Backbone)对样本图像进行特征提取，以获得样本图像的高维特征。例如可以结合图4理解Backbone的处理过程。

图4为本申请实施例提供的Backbone处理示意图，如图4所示，Backbone可以包括第一特征提取模块41、第二特征提取模块42和第三特征提取模块43。

具体的，在获取样本图像后，首先对样本图像进行至少一次第一操作，以得到样本图像对应的第一特征，该第一操作包括卷积操作和池化操作。其中，一次第一操作可以包括一次卷积操作和一次池化操作，也可以包括多次卷积操作和一次池化操作，本实施例对此不作限定。

第一操作可以由第一特征提取模块41完成，第一特征提取模块41可以包括一个或多个子模块。在图4中，以第一特征提取模块41包括3个子模块为例，3个子模块依次相连，任意一个子模块的输出为下一个子模块的输入。这3个子模块分别为子模块C1、子模块C2和子模块C3。第1个子模块的输入为样本图像，第3个子模块的输出为样本图像对应的第一特征，任意一个子模块用于对输入进行第一操作，得到该子模块的输出。

例如在图4中，样本图像T输入至子模块C1后，子模块C1对样本图像T执行第一操作，得到特征F₁，其中，子模块C1中包括1个卷积层和1个池化层，该卷积层例如可以是DepthSepConv，DepthSepConv是一种轻量化的卷积算子，相比常规卷积算子的速度更快，能够快速的实现特征提取。设样本图像的尺寸为x*A*B*3，其中x表示输入的样本图像的数量，x为大于或等于1的正整数；A和B分别为样本图像横向和纵向包括的像素点的数量，3表示RBG三个通道。在下述实施例中，以输入一张样本图像为例进行介绍。

在图4中，样本图像T可以表示为一个1*A*B*3的矩阵，该矩阵中表示了样本图像T上的任意一个像素点在RBG三个通道上的像素值。以A＝448、B＝448为例，则样本图像T的尺寸为1*448*448*3。通过卷积层和池化层依次对样本图像T执行卷积操作和池化操作，即可得到特征F₁。特征F₁的尺寸为其中16表示通道数。

然后，特征F₁输入至子模块C2，子模块C2对特征F₁执行第一操作，得到特征F₂，其中，子模块C2中包括2个卷积层和1个池化层，该卷积层例如也可以是DepthSepConv。子模块C2输出的特征F₂的尺寸为其中32表示通道数。

然后，特征F₂输入至子模块C3，子模块C3对特征F₂执行第一操作，得到特征F₃，其中，子模块C3中包括2个卷积层和1个池化层，该卷积层例如也可以是DepthSepConv。子模块C3输出的特征F₃的尺寸为其中64表示通道数。特征F₃即为第一特征。

通过对样本图像进行至少一次第一操作，其中第一操作中的卷积操作能够实现对样本图像的特征提取，而池化操作能够去除冗余信息，对提取的特征进行压缩，以降低网络复杂度，减小模型的计算量，最终得到第一特征。

在得到第一特征后，可以对第一特征进行特征筛选操作，得到筛选后的第二特征F₄，特征筛选操作可以由第二特征提取模块42完成。具体的，可以对第一特征执行K次第三操作，第三操作包括：对输入特征进行卷积操作，得到对应的卷积矩阵；根据卷积矩阵获取对应的输出特征。其中，执行第一次第三操作的输入为第一特征，执行第i+1次第三操作的输入是执行第i次第三操作的输出，i为正整数，K也为正整数，即大于或等于1的整数。

在对第一特征执行K次第三操作后，可以得到第K次第三操作的输出特征，然后对第K次第三操作的输出特征进行池化操作，即可得到第二特征F₄。

即，在得到第一特征后，对第一特征执行K次卷积操作(即输入特征进行卷积操作，得到对应的卷积矩阵)和K次筛选处理(即根据卷积矩阵获取对应的输出特征)，卷积操作和筛选处理交替进行，最后再进行一次池化操作，即可得到第二特征，其中，K的取值可以根据需要设定。在图4中，以K＝2为例，第二特征提取模块42包括2个卷积层、2个筛选子模块和1个池化层，分别是卷积层421、筛选子模块422、卷积层423、筛选子模块424和池化层425。

将第一特征F₁输入至卷积层421，由卷积层421对第一特征F₁进行卷积操作，得到第1次筛选后的卷积矩阵，然后将第1次筛选后的卷积矩阵输入至筛选子模块422，由筛选子模块422对第1次筛选后的卷积矩阵进行处理，得到第1次筛选后的特征(即为第1次第三操作的输出特征，也为第2次第三操作的输入特征)。然后，将第1次筛选后的特征输入至卷积层423，由卷积层423对第1次筛选后的特征进行卷积操作，得到第2次筛选后的卷积矩阵，然后将第2次筛选后的卷积矩阵输入至筛选子模块424，由筛选子模块424对第2次筛选后的卷积矩阵进行处理，得到第2次筛选后的特征(即为第2次第三操作的输出特征)。最后，由池化层425对第2次筛选后的特征进行池化处理，即可得到第二特征。

在第二特征提取模块42中的卷积层可以为DepthSepConv，而筛选子模块在每一个DepthSepConv后面进行计算，用于对特征进行筛选，获取到贡献较多的特征。筛选子模块中，进一步可以包括池化层和全连接层，下面结合图5对筛选子模块内部的处理过程进一步介绍。

图5为本申请实施例提供的筛选子模块处理过程示意图，如图5所示，筛选子模块包含两个分支，一个分支由一层全局平均池化层和两层全连接层(图5中的全连接层1和全连接层2)组成，其中全局平均池化层负责获取全局信息。

在执行第三操作时，对输入特征进行卷积操作得到对应的卷积矩阵后，可以对该卷积矩阵依次进行池化操作、卷积操作和归一化操作，获取对应的归一化向量，根据根据该卷积矩阵和归一化向量，获取对应的输出特征。下面以执行第i次第三操作为例，结合图5进行介绍。

假设筛选子模块的输入为第i次筛选后的卷积矩阵D_i(D_i即为执行第i次第三操作时、对第i次第三操作的输入特征进行卷积操作得到的卷积矩阵)，图5中以D_i的大小为1x64x64x64为例，首先对D_i全局池化操作，全局池化操作后大小为1x1x1x64。然后进行卷积操作，例如可以通过两层全连接层对全局信息进行特征提取，此时大小和之前不变，仍为1x1x1x64。接下来获得的特征通过一层Sigmoid激活函数将特征的值归一化到0到1之间，得到D_i’。此时D_i’的特征的通道数为64，与D_i的特征的通道数一致，其中D_i’的每个通道的值表示D_i中的每个特征图对于文档区域检测模型的重要性。最后将D_i和D_i’进行乘积，即可得到第i次筛选后的特征，第i次筛选后的特征即为执行第i次第三操作的输出特征，若还需要执行第i+1次第三操作，则第i次筛选后的特征同时也为执行第i+1次第三操作的输入特征。

通过对输入特征进行卷积操作，实现了对输入特征的初步特征提取。通过对卷积矩阵进行池化操作，能够获取卷积矩阵的全局信息，在池化操作后，通过卷积操作能够实现对全局信息的特征提取。而通过归一化操作能够将特征提取后的结果归一化到一个指定的范围内，得到归一化向量，通过归一化向量来指示卷积矩阵中的每个特征图的重要性。由于归一化向量指示了卷积矩阵中每个特征图的重要性，因此，根据卷积矩阵和归一化向量得到的输出特征，能够有效的实现对于特征的筛选，从而获取到对于文档区域检测模型贡献较多的特征。

任意一个筛选子模块的处理过程均可参见图5实施例的介绍，结合图4和图5实施例介绍的内容，可以得到第二特征。在得到第二特征后，对第二特征进行至少一次第二操作，即可得到第三特征，其中，第二操作包括卷积操作和池化操作。

第二操作可以由第三特征提取模块43完成，例如在图4中，第三特征提取模块43包括7个DepthSepConv和1个池化层组成。为了获得更大的感受野，可以采用大的卷积核进行卷积计算(图4中为7*7的卷积核)。经过第三特征提取模块43输出的第三特征F₅的大小为然后，将第三特征F₅输入至全连接层44中，映射到高维，得到高维特征F₆，特征数为1*512。

通过对第二特征进行卷积操作，实现了进一步的特征提取，而通过池化操作，进一步对提取的特征进行了压缩。综上所述，本方案通过卷积操作对样本图像实现了多轮特征提取，通过池化操作去除了文档区域检测模型的计算复杂度，最后通过高维映射操作以得到高维特征，有助于后续文档区域检测模型对样本图像中的文档区域的检测。

S32，对高维特征进行特征解码处理，得到高维特征对应的解码特征。

本申请实施例中，特征解码处理由特征解码模块完成，特征解码模块例如可以包括一层全连接层。例如高维特征F₆进行高维映射处理后，可以得到解码特征F₇的大小为1*256。

S33，根据解码特征，得到N个检测角点坐标和检测分类概率。

具体的，在得到解码特征后，可以将解码特征分别输入至分类层和回归层。其中，分类层可以由一个全连接层组成。由分类层对解码特征进行第一特征映射操作，得到第一映射特征向量，第一映射特征向量中的元素包括该检测分类概率。

具体的，以解码特征的大小为1*256为例，将该解码特征映射为一个1*2的第一映射特征向量，第一映射特征向量中包括2个元素，这2个元素之和为1，且这2个元素的取值均为大于或等于0、小于或等于1的值，其中一个元素用于表示样本图像中包括文档区域的概率，另一个元素用于表示样本图像中不包括文档区域的概率，即第一映射特征向量表示样本图像中包括文档区域的置信度。其中，将解码特征映射为第一映射特征向量的实现方式，例如可以将解码特征中的元素分为2组，然后每一组中的元素进行相加或相乘等运算，得到一个值。最后，将2组中得到的值进行归一化，即可得到第一映射特征向量，第一映射特征向量中的元素即包括检测分类概率。

回归层也可以由一个全连接层组成，由回归层对解码特征进行第二特征映射操作，得到第二映射特征向量，第二映射特征向量中包括N组元素，元素表示检测角点坐标。

以四边形文档区域检测为例，即N＝4。针对解码特征的大小为1*256，将该解码特征映射为一个1*8的第二映射特征向量，第二映射特征向量总共包括4组元素，每组元素中包括2个元素值，这2个元素值分别为一个检测角点的横纵坐标。其中，将解码特征映射为第二映射特征向量的实现方式，例如可以将解码特征中的元素分为8组，然后每一组中的元素进行相加或相乘等运算，得到一个值。最后，将8组中得到的值进行归一化，即可得到第二映射特征向量。

由于第二映射特征向量中包括4组元素，对应4个检测角点坐标，根据这4个检测角点坐标，即可在样本图像上确定一个四边形区域。

本方案中通过对解码特征进行第一特征映射操作和第二特征映射操作，分别得到第一映射特征向量和第二映射特征向量，由于第一映射特征向量中的元素包括检测分类概率，可以用于指示样本图像上存在文档区域的概率，因此能够拓展文档区域检测模型的使用场景，使得文档区域检测模型既能够对包括文档区域的图像进行检测，也能够对不包括文档区域的图像进行检测。

在上述实施例中，对文档区域检测模型的内部处理过程进行了详细介绍，下面结合图6对文档区域检测模型的处理过程进行简要总结。

图6为本申请实施例提供的文档区域检测模型处理总体流程图，如图6所示，文档区域检测模型包括特征提取模块、特征解码模块、分类层和回归层。样本图像输入至文档区域检测模型后，首先输入特征提取模块，特征提取模块对样本图像进行特征提取，得到样本图像的高维特征。然后，将高维特征输入至特征解码模块，由特征解码模块对高维特征进行解码，得到解码特征。解码特征分别输入至分类层和回归层，分类层对解码特征进行第一特征映射操作，得到第一映射特征向量，第一映射特征向量指示检测分类概率；回归层对解码特征进行第二特征映射操作，得到第二映射特征向量，第二映射特征向量指示N个检测角点坐标。

在得到文档区域检测模型输出的N个检测角点坐标和检测分类概率后，可以基于这N个检测角点坐标和检测分类概率对文档区域检测模型的参数进行调整，下面结合图7对该过程进行介绍。

图7为本申请实施例提供的模型参数调整的流程示意图，如图7所示，包括：

S71，根据检测分类概率和标注类别，获取样本图像的分类损失。

检测分类概率为文档区域检测模型对样本图像进行检测后，得到的样本图像上包括文档区域的概率，而标注类别指示样本图像上是否包括文档区域，根据检测分类概率和标注类别之间的差别，可以获取样本图像的分类损失。

设分类损失为FL，检测分类概率包括p1和p2，其中p1为样本图像上包括文档区域的概率，p2为样本图像上不包括文档区域的概率，则可以根据下式(1)计算分类损失：

FL＝-α[(1-p₁)^γlogp₁+(1-p₂)^γlogp₂] (1)

其中，α和γ均为超参数，α例如可以设为0.5，γ例如可以设为2。

S72，根据N个检测角点坐标和M个标注角点坐标，获取样本图像的回归损失。

N个检测角点坐标为文档区域检测模型对样本图像进行检测后，得到的样本图像上的多边形的顶点的坐标，而M个标注角点坐标为标注的样本图像上的多边形的顶点的坐标，根据N个检测角点坐标和M个标注角点坐标之间的差别，可以获取样本图像的回归损失。

设回归损失为S，则可以根据下式(2)计算分类损失：

S＝S₁+S₂+...+S_M (2)

其中，任意S_j的计算方式如下式(3)所示：

设N个检测角点坐标中的第j个检测角点坐标为(x_j1，y_j1)，M个标注角点坐标中的第j个检测角点坐标为(x_j2，y_j2)，则q_j为(x_j1，y_j1)至(x_j2，y_j2)的距离。当M与N相等时，直接计算这M个标注角点坐标与对应的M个检测角点坐标之间的距离，从而得到回归损失即可。当M与N不相等时，可分为M大于N以及M小于N两种情况。

当M大于N时，可以先计算前N个标注角点坐标与对应的N个检测角点坐标之间的距离，得到S₁、S₂、...、S_N，然后以N个检测角点坐标中的任意一个检测角点坐标作为参考检测角点，将第N+1个标注角点坐标至参考检测角点坐标之间的距离作为S_N+1，将第N+2个标注角点坐标至参考检测角点坐标之间的距离作为S_N+2，第M个标注角点坐标至参考检测角点坐标之间的距离作为S_M，等等。然后根据式(2)计算得到回归损失。

当M小于N时，直接计算M个标注角点坐标与对应的前M个检测角点坐标之间的距离，得到S₁、S₂、...、S_M即可，然后根据式(2)计算得到回归损失。

S73，根据分类损失和回归损失，对文档区域检测模型的参数进行调整。

在得到分类损失和回归损失后，可以根据分类损失和回归损失得到总的损失值。例如可以将分类损失和回归损失相加得到总的损失值，或者将分类损失和回归损失进行加权相加得到总的损失值，本实施例对此不做限定。在得到总的损失值后，即可根据总的损失值对文档区域检测模型的参数进行调整。

基于分类损失和回归损失得到总的损失值，从而能够根据总的损失值有效的对文档区域检测模型的参数进行调整，通过多轮模型训练以及参数调整的过程，使得总的损失值较小，即表示分类损失和回归损失均较小，也表示文档区域检测模型输出的检测分类概率和实际的标注类别比较接近，文档区域检测模型输出的检测角点坐标与标注角点坐标也比较接近。即，通过分类损失和回归损失对文档区域检测模型的参数进行调整，能够有效提高文档区域检测模型的检测准确性，提高模型训练的效率。

在上述实施例中，介绍了基于样本图像以及该样本图像的M个标注角点坐标和标注类别对文档区域检测模型进行一次训练的过程。在实际模型训练中，可能涉及多次训练，任意一次训练的具体可以可以参见上述实施例的介绍。在达到模型的训练终止条件后，可以终止训练过程，得到训练好的文档区域检测模型。

训练好的文档区域检测模型具备对图像中的文档区域进行检测的能力，下面将结合图8对文档区域的检测过程进行介绍。

图8为本申请实施例提供的文档区域检测方法的流程示意图，如图8所示，该方法可以包括：

S81，获取待处理的第一图像。

本申请中各实施例的执行主体可以为客户端、终端设备、服务器、处理器、微处理器等，需要说明的是，本实施例中的执行主体可以和图2-图7实施例中的执行主体相同，也可以和图2-图7实施例中的执行主体不同。

第一图像为待检测的图像，第一图像中可能包括文档区域，也可能不包括文档区域。

S82，将第一图像输入至文档区域检测模型，得到文档区域检测模型输出的P个角点坐标和分类概率，分类概率指示第一图像中是否存在文档区域，P个角点坐标指示第一图像中检测出的区域；其中，P为大于或等于1的整数。

在获取第一图像后，可以将第一图像输入至文档区域检测模型中，由文档区域检测模型对第一图像进行处理。其中，文档区域检测模型对第一图像的处理过程，与图2-图7实施例中介绍的对样本图像的处理过程类似，仅仅是文档区域检测模型的参数不同，具体过程可参见图2-图7实施例的相关内容，此处不再赘述。

文档检测模型对第一图像处理，输出P个角点坐标和分类概率，该分类概率指示第一图像中是否存在文档区域，而P个角点坐标对应第一图像中的P个点。其中，P为大于或等于1的整数，P可以与M相等，也可以与M不相等，P可以与N相等，也可以与N不相等。

S83，根据P个角点坐标和分类概率，获取第一图像的文档区域检测结果。

具体的，若分类概率指示第一图像中不存在文档区域，则确定第一图像的文档区域检测结果为第一图像中不包括文档区域。若分类概率指示第一图像中存在文档区域，则可以将这P个角点坐标对应的P个点围成的区域确定为第一图像中的文档区域。

图9为本申请实施例提供的文档区域检测效果对比图，如图9左边所示，若采用矩形框的形式对文档区域进行检测，则在文档区域的形状不规则的情况下，容易将不属于文档区域的区域识别为文档区域，或者将属于文档区域的区域识别为非文档区域。而本申请实施例的方案，既可以检测图像中是否包括文档区域，在图像中包括文档区域的情况下，如图9右边所示，通过P个角点坐标(对应图9中的A、B、C、D四个点)为标识文档区域，因而可以适应于任意不规则形状的文档区域的识别，减小了将不属于文档区域的区域识别为文档区域，或者将属于文档区域的区域识别为非文档区域的概率，提高了文档区域检测的准确性。

图10为本申请实施例提供的文档区域检测模型训练装置的结构示意图，如图10所示，包括：

获取单元101，用于获取训练样本，所述训练样本包括样本图像，以及所述样本图像的M个标注角点坐标和标注类别，所述M个标注角点坐标指示所述样本图像上的文档区域，所述标注类别指示所述样本图像上是否包括文档区域，所述M为大于或等于1的整数；

处理单元102，用于将所述样本图像输入至文档区域检测模型，得到所述文档区域检测模型输出的N个检测角点坐标和检测分类概率，所述检测分类概率指示所述样本图像中包括文档区域的置信度，所述N个检测角点坐标指示所述样本图像中检测出的文档区域，所述N为大于或等于1的整数；

训练单元103，用于根据所述M个标注角点坐标、所述标注类别、所述N个检测角点坐标和所述检测分类概率，对所述文档区域检测模型的参数进行调整。

在一种可能的实施方式中，所述处理单元102具体用于：

对所述第三特征进行高维映射操作，得到所述高维特征。

在一种可能的实施方式中，所述处理单元102具体用于：

根据所述卷积矩阵和所述归一化向量，获取所述输出特征。

在一种可能的实施方式中，所述处理单元102具体用于：

在一种可能的实施方式中，所述训练单元103具体用于：

本申请实施例提供的模型训练装置，用于执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图11为本申请实施例提供的文档区域检测装置的结构示意图，如图11所示，包括：

获取单元111，用于获取待处理的第一图像；

处理单元112，用于将所述第一图像输入至文档区域检测模型，得到所述文档区域检测模型输出的P个角点坐标和分类概率，所述分类概率指示所述第一图像中是否存在文档区域，所述P个角点坐标指示所述第一图像中检测出的文档区域；其中，所述P为大于或等于1的整数，所述文档区域检测模型为根据上述任一项所述的方法训练得到的模型；

检测单元113，用于根据所述P个角点坐标和所述分类概率，获取所述第一图像的文档区域检测结果。

在一种可能的实施方式中，所述检测单元113具体用于：

本申请实施例提供的文档区域检测装置，用于执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图12示例了一种电子设备的实体结构示意图，如图12所示，该电子设备可以包括：处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230和通信总线1240，其中，处理器1210，通信接口1220，存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令，以执行文档区域检测模型训练方法，该方法包括：获取训练样本，所述训练样本包括样本图像，以及所述样本图像的M个标注角点坐标和标注类别，所述M个标注角点坐标指示所述样本图像上的文档区域，所述标注类别指示所述样本图像上是否包括文档区域，所述M为大于或等于1的整数；将所述样本图像输入至文档区域检测模型，得到所述文档区域检测模型输出的N个检测角点坐标和检测分类概率，所述检测分类概率指示所述样本图像中包括文档区域的置信度，所述N个检测角点坐标指示所述样本图像中检测出的文档区域，所述N为大于或等于1的整数；根据所述M个标注角点坐标、所述标注类别、所述N个检测角点坐标和所述检测分类概率，对所述文档区域检测模型的参数进行调整。或者，处理器1210可以调用存储器1230中的逻辑指令，以执行文档区域检测方法，该方法包括：获取待处理的第一图像；将所述第一图像输入至文档区域检测模型，得到所述文档区域检测模型输出的P个角点坐标和分类概率，所述分类概率指示所述第一图像中是否存在文档区域，所述P个角点坐标指示所述第一图像中检测出的文档区域；其中，所述P为大于或等于1的整数，所述文档区域检测模型为根据上述任一项所述的方法训练得到的模型；根据所述P个角点坐标和所述分类概率，获取所述第一图像的文档区域检测结果。

此外，上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文档区域检测模型训练方法，该方法包括：获取训练样本，所述训练样本包括样本图像，以及所述样本图像的M个标注角点坐标和标注类别，所述M个标注角点坐标指示所述样本图像上的文档区域，所述标注类别指示所述样本图像上是否包括文档区域，所述M为大于或等于1的整数；将所述样本图像输入至文档区域检测模型，得到所述文档区域检测模型输出的N个检测角点坐标和检测分类概率，所述检测分类概率指示所述样本图像中包括文档区域的置信度，所述N个检测角点坐标指示所述样本图像中检测出的文档区域，所述N为大于或等于1的整数；根据所述M个标注角点坐标、所述标注类别、所述N个检测角点坐标和所述检测分类概率，对所述文档区域检测模型的参数进行调整。或者，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文档区域检测方法，该方法包括：获取待处理的第一图像；将所述第一图像输入至文档区域检测模型，得到所述文档区域检测模型输出的P个角点坐标和分类概率，所述分类概率指示所述第一图像中是否存在文档区域，所述P个角点坐标指示所述第一图像中检测出的文档区域；其中，所述P为大于或等于1的整数，所述文档区域检测模型为根据上述任一项所述的方法训练得到的模型；根据所述P个角点坐标和所述分类概率，获取所述第一图像的文档区域检测结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文档区域检测模型训练方法，该方法包括：获取训练样本，所述训练样本包括样本图像，以及所述样本图像的M个标注角点坐标和标注类别，所述M个标注角点坐标指示所述样本图像上的文档区域，所述标注类别指示所述样本图像上是否包括文档区域，所述M为大于或等于1的整数；将所述样本图像输入至文档区域检测模型，得到所述文档区域检测模型输出的N个检测角点坐标和检测分类概率，所述检测分类概率指示所述样本图像中包括文档区域的置信度，所述N个检测角点坐标指示所述样本图像中检测出的文档区域，所述N为大于或等于1的整数；根据所述M个标注角点坐标、所述标注类别、所述N个检测角点坐标和所述检测分类概率，对所述文档区域检测模型的参数进行调整。或者，该计算机程序被处理器执行时实现以执行上述各方法提供的文档区域检测方法，该方法包括：获取待处理的第一图像；将所述第一图像输入至文档区域检测模型，得到所述文档区域检测模型输出的P个角点坐标和分类概率，所述分类概率指示所述第一图像中是否存在文档区域，所述P个角点坐标指示所述第一图像中检测出的文档区域；其中，所述P为大于或等于1的整数，所述文档区域检测模型为根据上述任一项所述的方法训练得到的模型；根据所述P个角点坐标和所述分类概率，获取所述第一图像的文档区域检测结果

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文档区域检测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述样本图像输入至文档区域检测模型，得到所述文档区域检测模型输出的N个检测角点坐标和检测分类概率，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述样本图像进行特征提取处理，得到所述样本图像的高维特征，包括：

对所述第三特征进行高维映射操作，得到所述高维特征。

4.根据权利要求3所述的方法，其特征在于，所述对所述第一特征进行特征筛选操作，得到筛选后的第二特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述卷积矩阵获取对应的输出特征，包括：

根据所述卷积矩阵和所述归一化向量，获取所述输出特征。

6.根据权利要求2-5任一项所述的方法，其特征在于，所述根据所述解码特征，得到所述N个检测角点坐标和所述检测分类概率，包括：

7.根据权利要求2-5任一项所述的方法，其特征在于，所述根据所述M个标注角点坐标、所述标注类别、所述N个检测角点坐标和所述检测分类概率，对所述文档区域检测模型的参数进行调整，包括：

8.一种文档区域检测方法，其特征在于，包括：

获取待处理的第一图像；

将所述第一图像输入至文档区域检测模型，得到所述文档区域检测模型输出的P个角点坐标和分类概率，所述分类概率指示所述第一图像中是否存在文档区域，所述P个角点坐标指示所述第一图像中检测出的文档区域；其中，所述P为大于或等于1的整数，所述文档区域检测模型为根据权利要求1-7任一项所述的方法训练得到的模型；

9.根据权利要求8所述的方法，其特征在于，所述根据所述P个角点坐标和所述分类概率，获取所述第一图像的文档区域检测结果，包括：

10.一种文档区域检测装置，其特征在于，包括：

获取单元，用于获取待处理的第一图像；

处理单元，用于将所述第一图像输入至文档区域检测模型，得到所述文档区域检测模型输出的P个角点坐标和分类概率，所述分类概率指示所述第一图像中是否存在文档区域，所述P个角点坐标指示所述第一图像中检测出的文档区域；

其中，所述P为大于或等于1的整数，所述文档区域检测模型为根据权利要求1-7任一项所述的方法训练得到的模型；