CN112990201A

CN112990201A - 文本框检测方法、装置、电子设备和计算机存储介质

Info

Publication number: CN112990201A
Application number: CN202110487577.XA
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-06-18

Abstract

本申请公开了一种文本框检测方法、装置、电子设备和计算机存储介质。具体实现方案为包括：基于目标图像所对应的文本区域二值图，确定N组角点对的坐标；N为大于等于1的整数；基于所述N组角点对的坐标，从所述目标图像所对应的输入特征中确定N个特征图；将所述N个特征图分别输入第一模型，得到所述第一模型输出的所述N个特征图分别对应的识别结果；基于所述N个特征图分别对应的识别结果，确定所述目标图像中包含的M个目标文本框；M为大于等于1的整数。

Description

文本框检测方法、装置、电子设备和计算机存储介质

技术领域

本申请涉及图像处理领域，尤其涉及一种文本框检测方法、装置、电子设备和计算机存储介质。

背景技术

近年来，随着目标检测在众多领域的应用，使其在计算机视觉领域引起了很大关注，一些基于深度学习的目标检测方法成为焦点，当前，现有的针对文本框检测的方法由于计算量过大或者后处理步骤繁琐，往往存在检测精度较差的问题。

发明内容

为了解决现有技术中上述至少一个问题，本申请实施例提供一种文本框检测方法、装置、电子设备和计算机存储介质。

第一方面，本申请实施例提供一种文本框检测方法，所述方法包括：

基于目标图像所对应的文本区域二值图，确定N组角点对的坐标；N为大于等于1的整数；

基于所述N组角点对的坐标，从所述目标图像所对应的输入特征中确定N个特征图；

将所述N个特征图分别输入第一模型，得到所述第一模型输出的所述N个特征图分别对应的识别结果；

基于所述N个特征图分别对应的识别结果，确定所述目标图像中包含的M个目标文本框；M为大于等于1的整数。

第二方面，本申请实施例提供一种文本框检测装置，所述装置包括：

第一检测单元，用于基于目标图像所对应的文本区域二值图，确定N组角点对的坐标；N为大于等于1的整数；

第二检测单元，用于基于所述N组角点对的坐标，从所述目标图像所对应的输入特征中确定N个特征图；

识别单元，用于将所述N个特征图分别输入第一模型，得到所述第一模型输出的所述N个特征图分别对应的识别结果；

文本框确定单元，用于基于所述N个特征图分别对应的识别结果，确定所述目标图像中包含的M个目标文本框；M为大于等于1的整数。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任意一项实施例所提供的方法。

第四方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请任意一项实施例所提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：通过基于目标图像所对应的文本区域二值图，确定多组角点对的坐标，基于多组角点对的坐标，从目标图像所对应的输入特征中确定多个特征图。如此，可以将多个特征图分别输入第一模型得到分别对应的识别结果，进而根据每一个特征图所对应的识别结果确定目标图像中包含的目标文本框，从而能够从很多角点对所框出来的候选特征图中确定真实的目标文本框，提升了从图像中检测得到真实文本框的精度。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的文本框检测方法流程示意图一；

图2是根据本申请实施例的文本框检测方法流程示意图二；

图3是根据本申请实施例的文本框检测方法流程示意图三；

图4a是根据本申请实施例的文本区域概率图；

图4b是根据本申请实施例的文本区域二值图；

图5是根据本申请实施例的文本框检测方法流程示意图四；

图6是根据本申请实施例的角点对确定方法示意图；

图7是根据本申请实施例的文本框检测方法流程示意图五；

图8是根据本申请实施例的文本框检测方法流程示意图六；

图9是根据本申请实施例的文本框检测装置结构示意图；

图10是本申请另一实施例的电子设备组成结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一方面，本申请实施例提供一种文本框检测方法，如图1所示，包括：

S101：基于目标图像所对应的文本区域二值图，确定N组角点对的坐标；N为大于等于1的整数；

S102：基于所述N组角点对的坐标，从所述目标图像所对应的输入特征中确定N个特征图；

S103：将所述N个特征图分别输入第一模型，得到所述第一模型输出的所述N个特征图分别对应的识别结果；

S104：基于所述N个特征图分别对应的识别结果，确定所述目标图像中包含的M个目标文本框；M为大于等于1的整数。

本申请实施例可以应用于电子设备，具体来说可以是终端设备或服务器。

上述S101中，所述目标图像可以为任意一个包含文字的图像，比如，可以是电子设备获取到的任意一张包含文字的图像；这里，所述电子设备获取任意一张包含文字的图像，或者所述电子设备获取目标图像的方式，可以是通过摄像头预先拍摄的包含文字的图像，又或者，可以从其他电子设备获取。

再进一步地，本申请实施例尤其适用于所述目标图像中包含密集文本时的快速处理。

上述S101中基于目标图像所对应的文本区域二值图，确定N组角点对的坐标，如图2所示，包括：

S201：将所述目标图像输入第二模型，得到所述第二模型输出的第一尺寸的文本区域概率图；其中，所述第一尺寸与所述目标图像的原始尺寸相同；

S202：对所述第一尺寸的文本区域概率图进行处理，得到第二尺寸的文本区域概率图；其中，所述第二尺寸小于所述第一尺寸；

S203：基于所述第二尺寸的文本区域概率图，确定所述目标图像所对应的所述文本区域二值图；其中，所述目标图像所对应的文本区域二值图的尺寸为所述第二尺寸。

所述第二模型可以由第一网络模型、第二网络模型以及第三网络模型组成。

其中，第一网络模型作为第二模型的基础网络骨架，第二网络模型作为特征增强的分割头。举例来说，第一网络模型可以是Resnet（Deepresidualnetwork，深度残差网络）18网络，第二网络模型可以是多个FPEM模块（Feature Pyramid Enhancement Module，特征金字塔增强模块）构成的组件，优选地，所述组件可以由2个FPEM模块串联而成。

在一种实施方式中，S201中将所述目标图像输入第二模型，得到所述第二模型输出的第一尺寸的文本区域概率图，如图3所示，包括：

S2011：将所述目标图像输入所述第二模型的第一网络模型，得到所述第一网络模型输出的第一特征；

S2012：将所述第一特征输入所述第二模型的第二网络模型得到K组特征映射；K为大于等于1的整数；

S2013：基于所述K组特征映射的特征图，得到所述目标图像所对应的输入特征；

S2014：将所述输入特征输入所述第二模型中的第三网络模型得到所述第一尺寸的文本区域概率图。

具体地，首先执行S2011，将目标图像输入所述Resnet18网络（第二模型的第一网络模型），得到所述第一网络模型输出的第一特征，所述第一特征具体可以包括对目标图像提取纹理、边缘、角点和语义信息后得到的大小不同的多通道特征映射。

然后执行S2012，将提取到的第一特征输入第二网络模型中的第一个FPEM模块，通过对输入的第一特征进行卷积、反卷积、批归一化等操作后得到第一个FPEM模块的输出特征映射，第二个FFEM模块是以第一个FFEM模块的输出特征映射作为输入信息，进行同样的操作得到对应的K组特征映射。K的取值与目标图像的提取信息相关，例如，当K组特征映射分别表征提取目标图像得到的纹理、边缘、角点和语义信息时，K=4，K的取值还可以根据需要进行设定，此处不做限定。

然后执行S2013，基于所述K组特征映射的特征图，得到所述目标图像所对应的输入特征。

在一种实施方式中，所述输入特征的获取方式包括：将K组特征映射的特征图进行上采样得到第三尺寸的特征图，将所述第三尺寸的特征图进行串联得到所述输入特征。

例如，当K=4时，将上述得到的4组特征映射的特征图全部上采样，得到第三尺寸的特征图并串联，得到目标图像对应的输入特征。举例来说，第三尺寸可以是目标图像原始大小的1/4，当输入的目标图像大小为512*512时，将4组特征映射全部上采样为128*128大小后进行串联，得到目标图像对应的输入特征。

然后执行S2014：基于所述输入特征，确定所述第一尺寸的文本区域概率图。其中，所述第一尺寸与所述目标图像大小相同。

在一种实施方式中，将输入的所述特征图进行一次卷积操作以及两次反卷积操作，输出所述第一尺寸的文本区域概率图。为描述方便，第一尺寸为8*8的文本区域概率图如图4a所示，其中每个像素点对应一个分数，代表相应的像素点可能属于文本区域的概率值。文本区域概率图中的分值均为0到1之间的小数，例如可以是0.11，0.34，0.52，0.89等，这里不做穷举。

确定目标图像对应的文本区域概率图后，执行步骤S202，对所述第一尺寸的文本区域概率图进行处理，得到第二尺寸的文本区域概率图；其中，所述第二尺寸小于所述第一尺寸。

其中，第一尺寸（目标图像的原始尺寸）可以是512*512，对所述第一尺寸的文本区域概率图进行处理可以是连续多次最大池化操作，得到第二尺寸的文本区域概率图；其中，所述第二尺寸小于所述第一尺寸，具体可以是目标图像的原始尺寸的1/4、1/8、1/16等不做限定，优选地，第二尺寸的大小可以是目标图像的原始尺寸的1/32，即第二尺寸的文本区域概率图的尺寸为16*16。

然后执行步骤S203，基于所述第二尺寸的文本区域概率图，确定所述目标图像所对应的所述文本区域二值图；其中，所述目标图像所对应的文本区域二值图的尺寸为所述第二尺寸。

具体来说，可以根据实际情况对上述文本区域概率图设定一个阈值，当文本区域概率图中的某一像素点的得分大于该阈值时，认为该像素点位置处于真实文本区域中。所述阈值可以是人工预先设定的，也可以根据输入的目标图像的实际情况，由模型计算后自动进行设定。举例来说，为描述方便仍以8*8大小的文本区域概率图为例进行说明，如图4b所示，当人工预设得分图的阈值为0.70时，输入图像中得分为0.92、0.89、0.82对应的像素点位置位于真实文本区域中，相应的，将对应像素点的值设定为1；其他得分低于0.70的点位于真实文本区域以外，相应的，将对应像素点的值设定为0。此处阈值的设定还可以设定为其他值，这里不做穷举。

在得到目标图像所对应的文本区域二值图后，对目标图像的第一阶段的处理结束并进入第二阶段，根据所述文本区域二值图确定目标图像中包含的目标文本框。

在一种实施方式中，执行步骤S101，基于目标图像所对应的文本区域二值图，确定N组角点对的坐标，如图5所示，包括：

S51：基于所述目标图像所对应的文本区域二值图中包含的第一类像素点的位置，确定第三尺寸的目标图像中包含的第一类像素点的位置坐标；其中，所述第三尺寸大于所述第二尺寸且小于所述第一尺寸；

S52：基于所述第三尺寸的目标图像中包含的所述第一类像素点的位置坐标，确定所述N组角点对的坐标。

其中，所述第一类像素点即目标图像的文本区域对应的像素点，即上述像素点的值设定为1的点。

所述第一尺寸即原始目标图像对应的尺寸，所述第二尺寸小于第一尺寸，所述第三尺寸大于所述第二尺寸且小于所述第一尺寸，优选地，所述第二尺寸的大小可以是原始目标图像大小的1/32，所述第三尺寸可以是原始目标图像大小的1/4，第二尺寸和第三尺寸还可以根据需要设定为其他值，此处不做限定。

上述S51中，所述文本区域二值图为第二尺寸大小，可以在文本区域二值图上建立坐标系来确定二值图中各像素点的位置，例如，可以以二值图中左下角的点作为坐标原点。

所述基于所述目标图像所对应的文本区域二值图中包含的第一类像素点的位置，确定第三尺寸的目标图像中包含的第一类像素点的位置坐标，可以是对第二尺寸的所述目标图像所对应的文本区域二值图中包含的第一类像素点进行一一映射，确定第三尺寸的目标图像中包含的第一类像素点的位置坐标，以此实现像素点的反向稀疏化。其中，所述映射关系可以是基于第二尺寸和第三尺寸之间的倍数关系建立的。例如，第二尺寸的大小为目标图像原始大小的1/32，第三尺寸的大小为目标图像原始大小的1/4，则所述第三尺寸的目标图像中包含的第一类像素点的位置坐标是文本区域二值图中包含的相应的第一类像素点的位置坐标的8倍。原来相互粘连的第一类像素点区域，在反向稀疏化操作后变成了零散的点。如图6所示，原始图像1/32大小的文本区域二值图以左下角的像素点作为坐标原点建立坐标系，其中包含6个第一类像素点的位置坐标分别为A1（2，5），A2（3，5），A3（4，5），A4（3，4），A5（4，4），A6（5，4），一一映射之后在原始图像1/4大小的目标图像中确定对应的第一类像素点的位置坐标分别为B1（16，40），B2（24，40），B3（32，40），B4（24，32），B5（32，32），B6（40，32）。

然后执行步骤S52，基于所述第三尺寸的目标图像中包含的所述第一类像素点的位置坐标，确定所述N组角点对的坐标。

其中，角点是指目标图像中的一些特征点，比如，可以是目标图像中真实文本区域的左上角点、右上角点、左下角点、右下角点。角点对可以是一个左上角点和一个右下右下角点的组合，或者可以是一个右上角点和一个左下角点的组合。优选的，以左上角点和右下角点构成的组合作为角点角点对，根据角点对的坐标可以确定对应的矩形框所在位置。

执行步骤S52，具体可以是根据预设的规则在第一像素点对中筛选出N组角点对。

其中，所述预设的规则包括：规则一和规则二。其中，规则一是在先确定左上角点后，配对的右下角点必须是位于左上角点右下方的点；规则二是角点对中任意一个角点都不包含在其对应的另一角点所在的预设区域内，其中，预设区域可以是预设的一定尺寸的区域，比如，可以是5*5大小的区域，10*10大小的区域，此处不做穷举。

举例来说，如图6所示，第三尺寸的目标图像中包含的所述第一类像素点为B1、B2、B3、B4、B5、B6，按照规则一进行角点对的筛选，例如，以B1（16，40）作为左上角点，根据规则一，配对的右下角点必须是位于左上角点右下方的点，那么可以形成B1B4，B1B5，B1B6三组角点对，同理，以其他第一类像素点作为左上角点，还可以形成的角点对有B2B5，B2B6，B3B6，进一步地，根据规则二对得到的6组角点对再次筛选，例如，规则二可以是角点对中任意一个角点都不包含在其对应的另一角点所在的10*10区域内，那么当以B1作为其中一个角点时，B4位于B1所在的10*10区域内，则按照规则二，B1和B4不能组成角点对，同理，B2和B5、B3和B6均不能组成角点对，最终得到的角点对为B1B5、B1B6、B2B6。然后根据B1、B2、B5、B6这4个第一类像素点的位置坐标，确定最终得到的4组角点对的坐标。

在得到N组角点对的坐标后，执行步骤S102，基于所述N组角点对的坐标，从所述目标图像所对应的输入特征中确定N个特征图。

在一种实施方式中，步骤S102包括：

基于所述N组角点对中的第i组角点对的坐标，从所述目标图像所对应的输入特征中确定第i个特征图；i为大于等于1且小于等于N的整数。

执行步骤S102具体可以是，基于第三尺寸的目标图像中确定的N组角点对中的第i组角点对的坐标，在目标图像的输入特征中确定第i组角点对坐标，根据第i个组角点对坐标确定第i个矩形框，基于第i个矩形框对所述目标图像的输入特征进行截取，得到所述目标图像输入特征对应的第i个特征图。

其中，所述N组角点对中的第i组角点对可以是N组角点对中的任意任意一组角点对，所述目标图像的输入特征与上述第三尺寸的目标图像大小相等。需要指出的是，所述N组角点对中每一组角点对的处理均与所述第i组角点对的处理相同，本实施例不做一一赘述。

示例性的，基于第三尺寸的目标图像（原始图像1/4大小）得到N组角点对分别为B1B5、B1B6、B2B6，其中，将B1B5作为第1组角点对，将B1B5角点对在在目标图像中的坐标作为该角点对在输入特征中的坐标，根据B1B5角点对的坐标在输入特征中确定第1个矩形框，通过第1个矩形框在输入特征中截取得到第1个特征图。类似的，基于3组角点对中的第2组角点对确定第2个特征图图以及基于第3组角点对确定第3个特征图，与上述确定第1个特征图的过程类似，不再赘述。

在所述输入图像中确定N个特征图之后，执行步骤S103，将所述N个特征图分别输入第一模型，得到所述第一模型输出的所述N个特征图分别对应的识别结果。

其中，所述第一模型可以是一个二分类模型，包括若干卷积层、池化层以及全连接层，用以识别所输入的特征图并得到相应的识别结果。

示例性的，将所述特征图输入第一模型之后，对特征图进行3次卷积操作，1次池化操作后得到4+16+64个特征值；优选地，所述池化操作可以采用特征金字塔池化层。此外，还可以对特征图进行4次卷积操作、2次池化操作，得到其他数量的特征值，卷积操作和池化操作的次数可以根据实际需要进行设定，此处不予限定。特征图经过多个卷积层和池化层的处理之后，输入多个全连接层，示例性的，可以根据需要设置2个全连接层，第1个全连接层的的节点数与池化处理得到的特征值数量相同，例如，池化处理后得到4+16+64个特征值，对应的，第1个全连接层的节点数为84个。第2个全连接层的节点数设置为2个，然后对第2个全连接层后接一个分类函数，例如可以采用softmax函数（归一化指数函数），输出对应的识别结果。

所述识别结果是一个二分类结果，例如可以是0和1，或者可以是Yes和No，此处不做限定。示例性的，当输入的特征图对应一个完整的真实文本区域时，则输出的识别结果为1；当输入的特征图无法对应一个完整的真实文本区域，则输出的识别结果为0。例如，只有当特征图的大小与对应真实文本区域的大小相等，且特征图的位置与对应真实文本区域的位置重合时，该特征图对应一个完整的真实文本区域，输出的识别结果为1；当特征图的尺寸大于或者小于对应的真实文本区域、以及当特征图与对应真实文本区域的位置不重叠时，该特征图无法对应一个完整的真实文本区域，输出的识别结果为0。

上述第一模型可以以多个已标注的特征图作为训练标签，通过二分类交叉熵损失函数进行训练得到。示例性的，可以随机采样900个特征图并以正负样本1：3的比例进行标注，其中，正样本即对应为完整的真实文本区域的特征图并将其标注为1，负样本即无法对应为完整的真实文本区域的特征图并将将其将标注为0。然后使用所述交叉熵损失函数作为目标损失函数对上述二分类模型进行反向传导，得到第一模型。

在得到特征图对应的识别结果后，执行步骤S104，基于所述N个特征图分别对应的识别结果，确定所述目标图像中包含的M个目标文本框；M为大于等于1的整数。再进一步地，M可以为大于等于1且小于等于N的整数。这里，不同的目标图像经过前述步骤的处理得到的目标文本框的数量M可以是不同的，比如，目标图像1经过前述步骤的处理得到的目标文本框的数量可以是2个，目标图像2经过前述步骤的处理得到的目标文本框的数量可以是3个等等，不做穷举。

在一种实施方式中，步骤S104包括：

在所述N个特征图中的第i个特征图的识别结果为完整文本区域的情况下，基于所述第i个特征图所对应的角点对的坐标确定所述目标图像中包含的一个目标文本框。

还可以包括：在所述N个特征图中的第i个特征图的识别结果不是完整文本区域的情况下，不基于所述第i个特征图所对应的角点对的坐标进行处理。

所述第i个特征图可以是N个特征图中的任意一个，当第i个特征图的识别结果为完整文本区域的情况下（输出识别结果为1），将所述第i个特征图所对应的角点所构成的矩形框，作为所述目标图像中包含的一个目标文本框。例如，将上述三组角点对B1B5、B1B6、B2B6的坐标截取3个特征图输入第一模型，识别得到3个识别结果，若其中2个识别结果为1，则最终确定所述目标图像中包含2个目标文本框。

还需要说明的，上述所述第二模型具体可以是基于PAN（Pixel AggregationNetwork，像素聚合网络）和DB（Differentiable Binarization，可微分二值化）进行优化后得到的模型。下面针对如何训练得到该第二模型进行说明：

采用训练样本对预设模型进行训练，得到训练后的所述第二模型；

其中，所述训练样本中标注有文本区域的二值标签，

所述文本区域是目标图像中文本内容所在的区域，例如，可以将文本区域对应的像素点标注为1，非文本区域对应的像素点标注为0。

具体的，所述训练样本可以为训练样本集合中的任意一个训练样本，需要指出的是，采用训练样本进行预设模型的训练并不是只能使用同一个训练样本，也并不是指进行一次迭代训练就可以完成的，在预设模型的训练过程中，可能在不同次迭代处理中采用不同的训练样本，关于如何选取训练样本，并不是本实施例所要重点说明的，因此这里不对其展开描述。

针对每一个训练样本来说，可以是包含有文本区域二值标签的图片。

在一种实施方式中，所述采用训练样本对预设模型进行训练，包括：

将所述训练样本输入所述预设模型的预设第一网络模型，得到所述预设模型的预设第一网络模型输出的第一特征；

将所述第一特征输入所述预设模型中的预设第二网络模型，得到所述预设模型中的所述预设第二网络模型输出的所述训练样本所对应的K组特征映射；

基于所述训练样本所对应的K组特征映射的特征图，得到所述训练样本所对应的所对应的输入特征；

将所述训练样本所对应的所述输入特征输入所述预设模型中的预设第三网络模型得到文本区域概率图；

基于所述文本区域概率图以及所述训练样本中的文本区域的二值标签，确定目标损失函数；

根据所述目标损失函数进行反向传导更新所述预设模型。

将所述训练样本输入所述预设模型的预设第一网络模型，得到所述预设模型的预设第一网络模型输出的第一特征，具体可以包括：所述第二模型的第一网络模型负责将训练样本图像转变得到的高维特征，例如对训练样本图像提取纹理、边缘、角点和语义信息等特征。第一网络模型由经典的卷积神经网络构成，优选地，以Resnet18网络作为所述预设模型的预设第一网络模型。

一种示例中，上述第一特征可以由4组大小不同的多通道特征映射表征，每组特征映射对应1个block，由4个block串联构建得到所述预设第一网络模型。每个block包括若干个具有残差连接的卷积层和池化层，用于将前一级输出的特征图的尺寸降低一倍，举例来说，第一个block输出的特征映射大小为原图的1/4，第二个为原图1/8，第三个为原图1/16，第四个为原图1/32。

将所述第一特征输入所述预设模型中的预设第二网络模型，得到所述预设模型中的所述预设第二网络模型输出的所述训练样本所对应的K组特征映射，所述第二网络模型可以包括多个FPEM模块，优选的，可以包括2个FPEM模块。所述第二网络模型的处理具体可以包括：

第一网络模型输出的第一特征被输入至第二网络模型中的第一个FPEM模块，通过对第一特征进行卷积、反卷积及批归一化等操作，再次提取纹理、边缘、角点和语义信息等特征，完成特征信息重组并作为第一个FPEM模块的输出特征映射，第二个FFEM模块是以第一个FFEM模块的输出特征映射作为输入信息，进行同样的操作得到对应的K组特征映射。K的取值与训练样本图像的提取信息相关，例如，当K组特征映射分别表征提取训练样本图像得到的纹理、边缘、角点和语义信息时，K=4，K的取值还可以根据需要进行设定，此处不做限定。

基于所述训练样本所对应的所述K组特征映射的特征，确定所述训练样本的文本区域概率图，具体可以包括：

将K组特征映射的特征图进行上采样，得到训练样本1/4原始图像大小的特征图，将所述第三尺寸的特征图进行串联得到输入特征。例如，当K=4时，将上述得到的训练样本的4组特征映射的特征图全部上采样，得到4个1/4原始图像大小的特征图并串联，得到训练样本图像对应的输入特征。

基于训练样本图像对应的输入特征，确定所述训练样本的文本区域概率图。具体的，可以是将输入的所述特征图进行一次卷积操作以及两次反卷积操作，输出原始图像尺寸大小的训练样本文本区域概率图。

基于所述文本区域概率图以及所述训练样本中的文本区域的二值标签，确定目标损失函数，可以包括：

根据文本区域区域概率图中每个像素点的的分值与训练样本中的文本区域的二值标签，计算得到目标损失函数。

优选地，上述目标损失函数为dice loss损失函数。

将所述目标损失函数进行反向传导更新所述预设模型，具体指的是，更新所述预设模型中的参数；再进一步地，可以是：更新所述预设模型的预设第一网络模型的参数、预设第二网络模型以及预设第三网络模型中至少之一的参数。

示例性的，在模型训练阶段，使用Resnet18网络模型作为预设模型的第一网络模型，Resnet18网络模型还可以称为所述预设模型的骨干网络，或称为基础网络模型，Resnet18网络由4个block（或可以称为残差块）串联构建，每个block包括若干层卷积操作；

其中，4个block中，第一个block输出的特征映射大小为原图的1/4、第二个block输出的特征映射大小为原图1/8，第三个block输出的特征映射大小为原图1/16,第四个block输出的特征映射大小为原图1/32，至此得到resnet18网络模型输出的第一特征。

接下来基于所述预设模型的第二网络模型进行处理，具体可以包括：

所述预设模型中的所述预设第二网络模型与预设第一网络模型的各block保持连接，预设第一网络模型输出的特征图被输入至预设第二网络模型部分，预设第二网络模型再次提取纹理、边缘、角点和语义信息等特征，完成特征信息重组。其中，预设第二网络模型可以包括2个FPEM模块，每个FPEM模块对所述第一特征进行卷积、反卷积及批归一化等特征提取处理，之后由第二个FPEM模块输出4组特征映射，其具体含义如上述实施例说明，这里不做赘述。

将上述得到的训练样本的4组特征映射的特征图全部上采样，得到原始图像1/4大小的特征图并串联，得到训练样本图像对应的输入特征。将输入的所述特征图进行一次卷积操作以及两次反卷积操作，输出的1个通道表示原始图像尺寸大小的训练样本文本区域概率图。

上述通道使用dice loss损失函数进行训练，在针对所述预设模型的迭代次数达到预设门限值，或者所述预设模型的迭代训练中指标（比如准确率或召回率）不再变化的时候，可以确定训练完成，最终得到的训练后的预设模型即为本申请实施例前述目标模型。

最后结合图7对本申请实施例进行详细说明：

S701：将所述目标图像输入第二模型，得到所述第二模型输出的第一尺寸的文本区域概率图；

具体的，第二模型的处理，如图8所示可以包括：

S7011：将所述目标图像输入所述第二模型的第一网络模型，提取所述目标图像的第一特征；所述第一网络模型可以为Resnet18网络；

S7012：将所述第一特征输入所述第二模型的第二网络模型，再次进行特征提取得到对应的4组特征映射；所述第二网络模型可以是两个串联的FPEM模块；

S7013：将所述4组特征映射的特征图全部上采样到原始图像1/4大小并串联，得到所述目标图像所对应的输入特征；

S7014：对所述输入特征进行1次卷积和2次反卷积操作，得到一个1通道的输出特征图像（原始尺寸），所述1通道表示真实文本区域概率图。也就是将所述输入特征输入所述第二模型中的第三网络模型得到所述第一尺寸的文本区域概率图。

这里，在训练阶段，使用交并比值（DiceLoss）作为目标损失函数对上述通道表示的文本区域概率图的所述第二模型进行训练，具体的训练处理在前述已经说明，不做赘述。

S702：对所述原始尺寸大小的文本区域概率图进行多次池化处理，得到原始图像1/32大小的真实文本区域概率图，对所述真实文本区域概率图进行二值化处理后得到原始图像1/32大小的真实文本区域二值图；

S703：基于原始图像1/32大小的文本区域二值图中包含的第一类像素点的位置，确定原始图像1/4大小的目标图像中包含的第一类像素点的位置坐标，由此实现了像素点的稀疏化，原先第一类像素点粘连区域变成了少数公共点；

S704：基于预设的规则一和规则二，对所述第一类像素点进行组合形成角点对，其中，规则一是在先确定左上角点后，配对的右下角点必须是位于左上角点右下方的点；规则二是是角点对中任意一个角点都不包含在其对应的另一角点所在的10*10区域内；

S705：根据角点对坐标在所述输入特征上截取特征图，将所述特征图输入第一模型并确定最终的目标文本框。

具体的，根据S704得到的角点对确定对应的矩形框，利用矩形框在输入特征图像中截取对应的特征图，将所述特征图输入第一模型后，由第一模型判定所述特征图是否为完整的真实文本区域，若所述特征图是完整的真实文本区域，则将对应的角点对构成的矩形框作为目标文本框。

采用以上处理，对目标图像并行处理完所有角点对，则针对目标图像的文本框检测任务完成。也就是说，目标图像中可以包含N个检测框，针对N个检测框中的每一个检测框均可以使用以上流程进行处理，最终可以检测出目标图像中包含的全部目标文本框，其中，最终得到的目标文本框的数量为M，可以为大于等于1且小于等于N的整数。

本申请中，所述第一模型的作用可以包括有对输入的特征图进行3次卷积之后，在经过一层特征金字塔池化层，得到4+16+64个特征值，其后接两个全连接层，第一个全连接层节点数位84，第二个全连接层节点数为2，后接一个softmax函数最终得到一个二分类的识别结果，该识别结果用于判断输入特征对应的文本区域是否是一个完整的文本区域；另外，在第一模型的训练阶段使用二分类交叉熵损失函数进行训练，这个分支的输入角点坐标，按照正负样本1:3的约束，在每一个组输入特征图上随机采样900个，作为一组输入，具体的训练处理在前述实施例中已经说明，这里不做赘述。

根据本申请的实施例，本申请还提供了一种文本框检测装置，如图9所示，所述装置包括：

第一检测单元901，用于基于目标图像所对应的文本区域二值图，确定N个角点对的坐标；N为大于等于1的整数；

第二检测单元902，用于基于所述N个角点对的坐标，从所述目标图像所对应的输入特征中确定N个特征图；

识别单元903，用于将所述N个特征图分别输入第一模型，得到所述第一模型输出的所述N个特征图分别对应的识别结果；

文本框确定单元904，用于基于所述N个特征图分别对应的识别结果，确定所述目标图像中包含的M个目标文本框；M为大于等于1的整数。

在一种实施方式中，所述装置还包括：

第三检测单元905，用于将所述目标图像输入第二模型，得到所述第二模型输出的第一尺寸的文本区域概率图；其中，所述第一尺寸与所述目标图像的原始尺寸相同；对所述第一尺寸的文本区域概率图进行处理，得到第二尺寸的文本区域概率图；其中，所述第二尺寸小于所述第一尺寸；基于所述第二尺寸的文本区域概率图，确定所述目标图像所对应的所述文本区域二值图；其中，所述目标图像所对应的文本区域二值图的尺寸为所述第二尺寸。

在一种实施方式中，所述第一检测单元901，用于基于所述目标图像所对应的文本区域二值图中包含的第一类像素点的位置，确定第三尺寸的目标图像中包含的第一类像素点的位置坐标；其中，所述第三尺寸大于所述第二尺寸且小于所述第一尺寸；基于所述第三尺寸的目标图像中包含的所述第一类像素点的位置坐标，确定所述N个角点对的坐标。

在一种实施方式中，所述第二检测单元902，用于基于所述N个角点对中的第i个角点对的坐标，从所述目标图像所对应的输入特征中确定第i个特征图；i为大于等于1且小于等于N的整数。

在一种实施方式中，所述文本框确定单元904，用于在所述N个特征图中的第i个特征图的识别结果为完整文本区域的情况下，基于所述第i个特征图所对应的角点对的坐标确定所述目标图像中包含的一个目标文本框。

在一种实施方式中，所述第三检测单元905，用于将所述目标图像输入所述第二模型的第一网络模型，得到所述第一网络模型输出的第一特征；将所述第一特征输入所述第二模型的第二网络模型得到K组特征映射；K为大于等于1的整数；基于所述K组特征映射的特征图，得到所述目标图像所对应的输入特征；基于所述输入特征，确定所述第一尺寸的文本区域概率图。

在一种实施方式中，所述第三检测单元905，用于将K组特征映射的特征图进行上采样，得到第三尺寸的特征图，将所述第三尺寸的特征图进行串联得到所述输入特征；

以及用于将输入的所述特征图进行一次卷积操作以及两次反卷积操作，输出所述第一尺寸的文本区域概率图。

在一种实施方式中，所述装置还包括：

模型训练单元906，用于采用训练样本对预设模型进行训练，得到训练后的所述第二模型；其中，所述训练样本中标注有文本区域的二值标签。

在一种实施方式中，所述模型训练单元906，用于将所述训练样本输入所述预设模型的预设第一网络模型，得到所述预设模型的预设第一网络模型输出的第一特征；将所述第一特征输入所述预设模型中的预设第二网络模型，得到所述预设模型中的所述预设第二网络模型输出的所述训练样本所对应的K组特征映射；基于所述训练样本所对应的K组特征映射的特征图，得到所述训练样本所对应的所对应的输入特征；将所述训练样本所对应的所述输入特征输入所述预设模型中的预设第三网络模型得到文本区域概率图；基于所述文本区域概率图以及所述训练样本中的文本区域的二值标签，确定目标损失函数；根据所述目标损失函数进行反向传导更新所述预设模型。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的电子设备的框图。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文本框检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文本框检测方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文本框检测方法对应的程序指令/模块。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文本框检测方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本框检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标图像输入第二模型，得到所述第二模型输出的第一尺寸的文本区域概率图；其中，所述第一尺寸与所述目标图像的原始尺寸相同；

对所述第一尺寸的文本区域概率图进行处理，得到第二尺寸的文本区域概率图；其中，所述第二尺寸小于所述第一尺寸；

基于所述第二尺寸的文本区域概率图，确定所述目标图像所对应的所述文本区域二值图；其中，所述目标图像所对应的文本区域二值图的尺寸为所述第二尺寸。

3.根据权利要求2所述的方法，其特征在于，所述基于目标图像所对应的文本区域二值图，确定N组角点对的坐标，包括：

基于所述目标图像所对应的文本区域二值图中包含的第一类像素点的位置，确定第三尺寸的目标图像中包含的第一类像素点的位置坐标；其中，所述第三尺寸大于所述第二尺寸且小于所述第一尺寸；

基于所述第三尺寸的目标图像中包含的所述第一类像素点的位置坐标，确定所述N组角点对的坐标。

4.根据权利要求1所述的方法，其特征在于，所述基于所述N组角点对的坐标，从所述目标图像所对应的输入特征中确定N个特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述N个特征图分别对应的识别结果，确定所述目标图像中包含的M个目标文本框，包括：

6.根据权利要求2所述的方法，其特征在于，所述将目标图像输入第二模型，得到所述第二模型输出的第一尺寸的文本区域概率图，包括：

将所述目标图像输入所述第二模型的第一网络模型，得到所述第一网络模型输出的第一特征；

将所述第一特征输入所述第二模型的第二网络模型得到K组特征映射；K为大于等于1的整数；

基于所述K组特征映射的特征图，得到所述目标图像所对应的输入特征；

将所述输入特征输入所述第二模型中的第三网络模型得到所述第一尺寸的文本区域概率图。

7.根据权利要求6所述的方法，其特征在于，所述基于所述K组特征映射的特征图，得到所述目标图像所对应的输入特征包括：将所述K组特征映射的特征图进行上采样得到第三尺寸的特征图，将所述第三尺寸的特征图进行串联得到所述输入特征；

所述将所述输入特征输入所述第二模型中的第三网络模型得到所述第一尺寸的文本区域概率图，包括：将输入的所述特征图进行一次卷积操作以及两次反卷积操作，输出所述第一尺寸的文本区域概率图。

8.根据权利要求2、6、7任一项所述的方法，其特征在于，所述方法还包括：

采用训练样本对预设模型进行训练，得到训练后的第二模型；

其中，所述训练样本中标注有文本区域的二值标签。

9.根据权利要求8所述的方法，其特征在于，所述采用训练样本对预设模型进行训练，包括：

根据所述目标损失函数进行反向传导更新所述预设模型。

10.一种文本框检测装置，其特征在于，所述装置包括：

第一检测单元，用于基于目标图像所对应的文本区域二值图，确定N个角点对的坐标；N为大于等于1的整数；

第二检测单元，用于基于所述N个角点对的坐标，从所述目标图像所对应的输入特征中确定N个特征图；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第三检测单元，用于将所述目标图像输入第二模型，得到所述第二模型输出的第一尺寸的文本区域概率图；其中，所述第一尺寸与所述目标图像的原始尺寸相同；对所述第一尺寸的文本区域概率图进行处理，得到第二尺寸的文本区域概率图；其中，所述第二尺寸小于所述第一尺寸；基于所述第二尺寸的文本区域概率图，确定所述目标图像所对应的所述文本区域二值图；其中，所述目标图像所对应的文本区域二值图的尺寸为所述第二尺寸。

12.根据权利要求11所述的装置，其特征在于，所述第一检测单元，用于基于所述目标图像所对应的文本区域二值图中包含的第一类像素点的位置，确定第三尺寸的目标图像中包含的第一类像素点的位置坐标；其中，所述第三尺寸大于所述第二尺寸且小于所述第一尺寸；基于所述第三尺寸的目标图像中包含的所述第一类像素点的位置坐标，确定所述N个角点对的坐标。

13.根据权利要求10所述的装置，其特征在于，所述第二检测单元，用于基于所述N个角点对中的第i个角点对的坐标，从所述目标图像所对应的输入特征中确定第i个特征图；i为大于等于1且小于等于N的整数。

14.根据权利要求13所述的装置，其特征在于，所述文本框确定单元，用于在所述N个特征图中的第i个特征图的识别结果为完整文本区域的情况下，基于所述第i个特征图所对应的角点对的坐标确定所述目标图像中包含的一个目标文本框。

15.根据权利要求11所述的装置，其特征在于，所述第三检测单元，用于将所述目标图像输入所述第二模型的第一网络模型，得到所述第一网络模型输出的第一特征；将所述第一特征输入所述第二模型的第二网络模型得到K组特征映射；K为大于等于1的整数；基于所述K组特征映射的特征图，得到所述目标图像所对应的输入特征；将所述输入特征输入所述第二模型中的第三网络模型得到所述第一尺寸的文本区域概率图。

16.根据权利要求15所述的装置，其特征在于，所述第三检测单元，用于将K组特征映射的特征图进行上采样，得到第三尺寸的特征图，将所述第三尺寸的特征图进行串联得到所述输入特征；

17.根据权利要求11、15、16任一项所述的装置，其特征在于，所述装置还包括：

模型训练单元，用于采用训练样本对预设模型进行训练，得到训练后的所述第二模型；其中，所述训练样本中标注有文本区域的二值标签。

18.根据权利要求17所述的装置，其特征在于，所述模型训练单元，用于将所述训练样本输入所述预设模型的预设第一网络模型，得到所述预设模型的预设第一网络模型输出的第一特征；将所述第一特征输入所述预设模型中的预设第二网络模型，得到所述预设模型中的所述预设第二网络模型输出的所述训练样本所对应的K组特征映射；基于所述训练样本所对应的K组特征映射的特征图，得到所述训练样本所对应的所对应的输入特征；将所述训练样本所对应的所述输入特征输入所述预设模型中的预设第三网络模型得到文本区域概率图；基于所述文本区域概率图以及所述训练样本中的文本区域的二值标签，确定目标损失函数；根据所述目标损失函数进行反向传导更新所述预设模型。

19.一种电子设备，其特征在于，所述电子设备包括

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。