CN113313083B

CN113313083B - 文本检测方法及装置

Info

Publication number: CN113313083B
Application number: CN202110853583.2A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-12-03
Anticipated expiration: 2041-07-28
Also published as: CN113313083A

Abstract

本公开提供一种文本检测方法及装置。该方法包括：获取待检测的目标图像；调用训练后的文本检测模型，所述文本检测模型包括骨干网络和与所述骨干网络连接且相互并联的多个卷积模块，所述骨干网络用于提取输入图像的特征映射，所述多个卷积模块用于确定文本框的特征信息，所述特征信息包括中心点、中心点到顶点对应的极径长度和旋转角度；将所述目标图像作为输入，通过所述文本检测模型对所述目标图像进行处理，输出得到所述目标图像中至少一个目标文本框的目标特征信息；根据所述至少一个目标文本框的目标特征信息，确定至少一个目标文本框。全面地提升密集文本检测的速度和精度。

Description

文本检测方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文本检测方法及装置。

背景技术

文本检测应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别、身份认证和视觉导航等。文本检测的主要目的是定位文本行或字符在图像中的位置，文本的精准定位既十分重要又具备挑战，因为相较于通用目标检测来说，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此，往往在通用目标检测上较为成功的算法无法直接迁移到文字检测中。但近年来随着深度学习的再次兴起，对文本检测的研究也成为了一大热点，出现了大量专用于文本检测的方法，且都取得了不错的检测效果。根据文本检测所用方法的技术特点，目前比较流行的文本检测方法可大致分为两类：第一类是基于滑动窗口的文本检测方法，它主要是基于通用目标检测的思想，设置大量不同长宽比、不同大小的锚点框，以这些锚点框为滑动窗口，在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定，这种方法的优点是文本框判定之后，不需要其余的后续处理便可进行后续工作，缺点是计算量过大，不仅需要耗费大量计算资源，而且耗时较长；第二类是基于计算连通域的方法，也称基于分割思想的方法，它主要是先使用全卷积神经网络模型提取图像特征，然后对特征图进行二值化并计算其连通域，然后根据不同地应用场景，即不同的训练数据集，使用一些特定的方法判断文本行位置，这种方法的优点是计算快速，计算量小，缺点是后处理步骤繁琐，涉及大量的计算和调优，这不仅会消耗大量时间，同时，后处理策略是否合理有效也严格制约着算法的性能。

发明内容

有鉴于此，本公开实施例提供了一种文本检测方法及装置，解决在密集文本上训练不稳定和框漂移的问题。

为此，本公开实施例提供了如下技术方案：

根据本公开的一方面，提供了一种文本检测方法，包括：

获取待检测的目标图像；

调用训练后的文本检测模型，所述文本检测模型包括骨干网络和与所述骨干网络连接且相互并联的多个卷积模块，所述骨干网络用于提取输入图像的特征映射，所述多个卷积模块用于确定文本框的特征信息，所述特征信息包括中心点、中心点到顶点对应的极径长度和旋转角度；

将所述目标图像作为输入，通过所述文本检测模型对所述目标图像进行处理，输出得到所述目标图像中至少一个目标文本框的目标特征信息；

根据所述至少一个目标文本框的目标特征信息，确定至少一个目标文本框。

根据本公开的另一方面，提供了一种文本检测装置，包括：

获取模块，用于获取待检测的目标图像；

调用模块，用于调用训练后的文本检测模型，所述文本检测模型包括骨干网络和与所述骨干网络连接且相互并联的多个卷积模块，所述骨干网络用于提取输入图像的特征映射，所述多个卷积模块用于确定文本框的特征信息，所述特征信息包括中心点、中心点到顶点对应的极径长度和旋转角度；将所述目标图像作为输入，通过所述文本检测模型对所述目标图像进行处理，输出得到所述目标图像中至少一个目标文本框的目标特征信息；

确定模块，用于根据所述至少一个目标文本框的目标特征信息，确定至少一个目标文本框。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述文本检测方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行上述文本检测方法。

本公开实施例中提供的一个或多个技术方案，具有如下优点：

本公开实施例提供的文本检测方法及装置，可以结合PAN、 DB和CenterNet三者的优势，以CenterNet这种无锚点（Anchor-free）的文本检测方法为主，结合PAN和DB两者优势思路，同时引入分类的方法来优化后处理，全面地提升密集文本检测的速度和精度。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1A和图1B分别为一个示例提供的CenterNet检测方法对通用目标检测和对密集文本图像检测时发生框漂移问题的示意图；

图2示出了根据本公开示例性实施例的文本检测方法的流程图；

图3示出了根据本公开示例性实施例的文本检测模型示意图；

图4示出了根据本公开示例性实施例的极坐标系的示意图；

图5示出了根据本公开示例性实施例的文本检测方法的流程图；

图6示出了根据本公开示例性实施例的文本检测模型示意图；

图7示出了根据本公开示例性实施例的文本检测方法的流程图；

图8示出了根据本公开示例性实施例的文本检测方法的流程图；

图9示出了根据本公开示例性实施例的文本检测模型的训练方法流程图；

图10示出了根据本公开示例性实施例的文本检测模型的训练方法流程图；

图11示出了根据本公开示例性实施例的文本检测装置的结构示意图；

图12示出了根据本公开示例性实施例的文本检测装置的结构示意图；

图13示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

为了清楚描述本公开实施例提供的方法，下面对本公开涉及的技术进行介绍：

对于《Efficient and Accurate Arbitrary-Shaped Text Detection withPixel Aggregation Network》（像素聚合网络，简称PAN）、《Real-time Scene TextDetection with Differentiable Binarization》（可微分二值化方法，简称DB）以及《Objects as Points》（简称CenterNet），其中，PAN是以残差网络Resnet18（Resnet，Residual Network）为基础网络骨架，对输入图像提取纹理、边缘、角点和语义信息等特征，这些特征由4组大小不同的多通道特征映射表征。然后将提取得到的特征经过2个特征金字塔增强模块（FPEM，Feature Pyramid Enhancement Module），FPEM模块是一种将卷积、反卷积和批归一化相结合的操作，FPEM模块具体处理参见下文，再次提取纹理、边缘、角点和语义信息等特征，最后通过在输出特征图上进行上采样得到一个6通道的特征映射，第一个通道的特征图是表示文本行区域的概率图，二值化后计算连通域，可以得到具体的文本行区域，第二个通道的特征图是表示文本行区域按照一定的规则与比例内缩后的文本行区域的概率图，二值化后计算连通域，可以得到具体的内缩文本行区域，剩余的4个通道联合起来，表示特征图大小为4维特征向量，然后使用聚类的方法，结合文本区域图和内缩文本区域图，通过计算每个像素点位置的4维特征向量与聚类中心点的距离，判断出现在文本区域却未出现在内缩文本区域的像素点具体属于哪一个文本区域。

DB是也是以Resnet18为基础网络架构，对输入图像提取特征，然后将提取到的特征图全部上采样到原始图像的四分之一大小并串联起来，然后经过一次卷积操作，得到一个2通道的特征映射图作为输出，第一个通道表示内缩文本区域的概率图，第二个通道表示文本区域的阈值图，即每个像素点距离真实的文本区域框的距离，进行了归一化操作，距离是0到1之间的数，然后设计了一个可微分的二值化函数，此二值化函数的参数是可以跟随网络进行学习的，然后根据阈值图和概率图可以计算出此图像文本区域的二值图，在二值图上计算连通域，可以得到内缩文本区域，接着按照一定的规则和比例将内缩文本区域向外扩，由此得到真实文本区域。

选择2个特征金字塔增强模块（FPEM，Feature Pyramid Enhancement Module）的原因是，因为经过实验，2个FPEM模块能达到最好的效果。每个FPEM模块所做的处理是相同的。具体细节是对上一步骤得到的4组大小不同的多通道特征映射，按照从大到小、从前往后的次序，依次称为正向第一、正向第二、正向第三、正向第四组特征映射。先对正向第四组特征映射进行2倍上采样，即将其大小扩大2倍，然后将其与正向第三组特征映射按照通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为反向第二组特征映射。同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射。然后，同样的操作作用于反向第三组特征映射和正向第一组特征映射，得到反向第四组特征映射。同时，将正向第四组特征映射视为反向第一组特征映射。由此得到4组反向特征映射。将第四组反向特征映射作为目标第一组特征映射。然后，对目标第一组特征映射进行2倍下采样，即大小缩小2倍，然后将其与反向第三组特征映射按通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为目标第二组特征映射。同样的操作作用于目标第二组特征映射和反向第二组特征映射，得到目标第三组特征映射。然后，同样的操作作用于目标第三组特征映射和反向第一组特征映射，得到目标第四组特征映射。目标第一、目标第二、目标第三和目标第四组特征映射便是FPEM模块的输出；第2个FPEM模块是以第1个FPEM模块的输出作为输入，进行同样的操作，得到输出。

CenterNet是一种用于通用目标检测的无锚点（Anchor-free）的方法，可视为基于回归的方法，它的大体思路是，首先设定要预测的物体的总体的类别N，最后输出通道数量为N+2+2，它只预测物体的中心点，会为每种类别输出一张得分图，其每个像素点的值在0到1之间，表示这个点是某类物体中心的概率，因此会有N张得分图。因为在预测的过程中，并不能保证预测到的中心点就是真实的中心点，实际中往往会发生偏移，因此还会用两个通道来预测中心点的偏移量，一个是x轴偏移量，一个是y轴偏移量。除此之外，剩下的两个通道用来预测中心点距离矩形框左边框和上边框的距离。实际的后处理为，通过设定阈值在得分图找到物体的可能中心点，然后根据中心点对应的xy偏移量对中心点进行校正，然后通过中心点并结合预测到的宽和高直接得到矩形框。下面，对上述所谓的偏移量进行说明：比如说原图的宽和高分别为W和H，最后预测得出的特征图的大小为W/4和H/4，则原图上一个点（10, 10）对应于特征图上一个点就是（2.5, 2.5），但是图像是离散的且其坐标为整数值，所以向上取整，(10, 10)对应（2, 2），那么特征图上的中心点相对于原图的偏移量就是（0.5, 0.5）。

综上所述，PAN和DB各有优势，其中，PAN由于使用FPEM模块，其前向计算相比DB的前向计算更快，而DB的后处理比PAN更为简单，所以DB的后处理操作更快。在一些开放的场景文本检测数据集上，例如每张图像4到5个文本框，两者的检测速度和检测结果基本上相差无几。但是，针对文本非常密集的实际应用场景，比如一张图像上有100个文本区域，例如小学生的算术练习册，两者的速度受文本框数量的影响非常大，几乎是随着文本框数量的增长，呈线性下降趋势，无法满足实际应用场景的速度需求。其次，CenterNet是一种非常快的通用目标检测算法，针对文本图像这种密集文本场景，它的检测速度几乎不受影响，依然非常快，但是它对密集文本图像检测的精度却十分低，尤其是存在训练不稳定和框漂移这种致命的问题，导致CenterNet无法应用于密集场景文本检测。从图1A和图1B中可以很直观的看出，对于通用目标检测，如果出现框漂移，几乎对检测结果没什么影响，但是对于密集场景文本，如果出现框漂移，那么就会出现文本行截断，导致信息受损，从而影响检测结果。

CenterNet是一种基于无锚点（Anchor-free）的通用目标检测方法，它输出的检测框主要是正矩形，同时它可以使用多种骨干网络，但是这些网络都是为人体关键点检测设计的或者是为自然场景物体检测或分类设计的，而PAN的骨干网络是专门为文本检测设计的。同时CenterNet对一个物体只预测一个中心点，即只用一个像素点作为其中心点，出现了检测框漂移，而PAN和DB都是通过预测整个内缩文本区域定位文本框，并无漂移现象。其次，CenterNet在通用目标检测数据上训练稳定，但是在密集文本数据上训练不稳定，因为密集文本都是带角度的矩形框，所以是增加了角度预测通道引起的不稳定。

根据本公开实施例，提供了一种文本检测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在本公开实施例中提供了一种文本检测方法，可用于密集文本检测等。该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成，也可以由多个设备共同完成，例如，终端可以将获取到的目标图像发送给服务器，服务器可以对目标图像进行文本检测，确定至少一个目标文本框，将检测结果返回给终端，本公开对此不作限定。

本公开实施例以终端为例，下面将参照图2所示的文本检测方法的流程图，对该文本检测方法进行介绍。

步骤201，终端获取待检测的目标图像。

在一种可能的实施方式中，当触发对图像进行文本检测的信号时，终端可以获取该信号对应的目标图像。例如，触发文本检测信号的场景可以是，当用户想要查询题目时，可以利用终端拍摄练习册，拍摄的图像中包含有文本内容（如图1B所示），当用户点击确认查询的选项时，可以触发相应的文本检测信号。本实施例对触发文本检测信号的具体场景不作限定。

步骤202，终端调用训练后的文本检测模型。

其中，如图3所示的文本检测模型示意图，文本检测模型可以包括骨干网络和与骨干网络连接且相互并联的多个卷积模块，骨干网络可以用于提取输入图像的特征映射，多个卷积模块可以用于确定文本框的特征信息，特征信息包括中心点、中心点到顶点对应的极径长度和旋转角度。

需要特别说明的是，本公开实施例中采用极坐标系表示中心点和顶点的位置关系，该极坐标系的示意图如图4所示，其中，对于一个文本框而言，以其中心点作为原点构建极坐标系，中心点到一个顶点的距离为极径长度r，水平线到中心点与该顶点的连线的角度为旋转角度θ，该顶点在该极坐标系中的坐标为（r, θ）。通过极坐标系表示中心点和顶点的位置关系，相对于笛卡尔坐标系，在对带角度的文本框进行定位时，可以避免额外增加一个角度预测通道，进而解决上述增加角度预测通道引起的不稳定问题，提高模型在密集文本数据上训练的稳定性。

在一种可能的实施方式中，终端可以对文本检测模型进行训练，并对训练后的文本检测模型进行存储。具体的训练方法将在另一个实施例中进行介绍，本实施例不再赘述。

当触发文本检测任务时，终端可以调用该文本检测模型。

步骤203，终端将目标图像作为输入，通过文本检测模型对目标图像进行处理，输出得到目标图像中至少一个目标文本框的目标特征信息。

可选的，如图5所示的文本检测方法的流程图，上述步骤203的具体处理如下：

步骤501，终端通过骨干网络对目标图像进行处理，确定目标图像的目标特征映射。

在一种可能的实施方式中，终端可以将待检测的目标图像输入骨干网络，通过骨干网络对目标图像进行处理，提取目标图像中的特征信息，输出目标图像的目标特征映射。

可选的，如图6所示的文本检测模型示意图，骨干网络可以包括串联的残差网络和特征金字塔增强模块。相对应的，如图7所示的文本检测方法的流程图，上述步骤501的处理可以如下：

步骤701，终端通过残差网络对目标图像进行处理，确定多个第一特征映射。

在一种可能的实施方式中，残差网络可以是Resnet18网络，Resnet18网络由4个模块串联构建，每个模块包括若干层卷积操作。

终端可以将目标图像输入第一个模块进行处理，输出对应的特征映射，该特征映射的大小可以为原图的1/4。同理，以第一个模块的输出作为第二个模块的输入，输出大小为原图的1/8的特征映射；以第二个模块的输出作为第三个模块的输入，输出大小为原图的1/16的特征映射；以第三个模块的输出作为第四个模块的输入，输出大小为原图的1/32的特征映射。

将上述每个模块输出的特征映射，称为第一特征映射，也即是得到多个第一特征映射。

当然，上述残差网络还可以采用其他结构的模型，本实施例对此不作限定。

步骤702，终端通过特征金字塔增强模块对多个第一特征映射进行处理，确定多个第二特征映射。

在一种可能的实施方式中，终端可以将第一特征映射中的N组大小不同的多通道特征映射按照从大到小的次序分为正向第1、2、3、…、N组特征映射，将正向第N组特征映射作为反向第一组特征映射；将正向第N组特征映射进行上采样之后，与正向第N-1组特征映射按照通道逐点相加并进行卷积处理，得到反向第二组特征映射；将反向第二组特征映射进行上采样之后，与正向第N-2组特征映射按照通道逐点相加并进行卷积处理，得到反向第三组特征映射；依次对每一组正向特征映射进行同样的操作，得到反向第N组特征映射。

进而，终端可以将反向第N组特征映射作为目标第一组特征映射；对反向第N组特征映射进行下采样之后，与反向第N-1组特征映射按照通道逐点相加并进行卷积处理，得到目标第二组特征映射；将该目标第二组特征映射进行下采样之后，与反向第N-2组特征映射按照通道逐点相加并进行卷积处理，得到目标第三组特征映射；依次对每一组反向特征映射进行同样的操作，得到目标第N组特征映射。将上述每个目标组特征映射称为第二特征映射，也即是得到多个第二特征映射。上述N为正整数。

具体地，在本可选实施例中选择2个FPEM模块，因为在发明人的实验结果中，2个能达到最好的效果。每个FPEM模块所做的处理是相同的，具体细节是对得到的4组大小不同的多通道特征映射，按照从大到小的，从前往后的次序，依次称为正向第一、正向第二、正向第三、正向第四组特征映射，先对正向第四组特征映射进行2倍上采样，即将其大小扩大2倍，然后将其与正向第三组特征映射按照通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为反向第二组特征映射，同样的操作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射，然后同样的操作作用于反向第三组特征映射和正向第一组特征映射，得到反向第四组特征映射，同时将正向第四组特征映射视为反向第一组特征映射，由此得到4组反向特征映射；将第四组反向特征映射作为目标第一组特征映射，然后对目标第一组特征映射进行2倍下采样，即大小缩小2倍，然后将其与反向第三组特征映射按通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为目标第二组特征映射，同样的操作作用于目标第二组特征映射和反向第二组特征映射，得到目标第三组特征映射，然后同样的操作作用于目标第三组特征映射和反向第一组特征映射，得到目标第四组特征映射，目标第一、目标第二、目标第三和目标第四组特征映射便是FPEM模块的输出；第2个FPEM模块是以第1个FPEM模块的输出作为输入，进行同样的操作，得到输出作为第二特征映射。

步骤703，终端对多个第二特征映射进行信息融合处理，确定目标图像的目标特征映射。

在一种可能的实施方式中，特征金字塔增强模块输出的多个第二特征映射可以称为二阶特征映射。终端可以对得到的二阶特征映射进行信息融合，得到目标图像的目标特征映射。

终端在确定下目标图像的目标特征映射之后，可以继续执行步骤502的处理。

步骤502，终端通过第一卷积模块对目标特征映射进行处理，确定至少一个目标中心点。

在一种可能的实施方式中，在上述步骤501之后，终端可以将目标特征映射作为输入，通过第一卷积模块进行卷积处理，对文本类型输出大小为原图的1/4的得分图。终端可以在得分图上确定至少一个中心点，例如，可以将像素值最高的像素点作为中心点。

然后，终端可以确定上述至少一个中心点对应的偏移量，根据偏移量对中心点进行矫正，得到至少一个目标中心点。

上述过程中，对于一个目标中心点，终端可以根据一个像素点来确定该目标中心点。可选的，为了提高目标中心点的准确性，本实施例中引入辅助中心点，基于多个辅助中心点确定目标中心点，实现精确的中心点预测，阻止框漂移。

此时，第一卷积模块可以包括相互并联的第一卷积子模块和第二卷积子模块。实际上，第一卷积子模块、第二卷积子模块与第一卷积模块并没有必然的从属关系，将两者归于第一卷积模块之下，是因为都用于实现确定目标中心点。也即是说，若将第一卷积子模块称为第四卷积模块，将第二卷积子模块称为第五卷积模块，本实施例中的第二、第三、第四、第五卷积模块，也可以构成一种可能的实施方式，与本实施例属于同一发明构思。本公开实施例对此不作限定。

相对应的，如图8所示的文本检测方法的流程图，上述步骤502的处理可以如下：

步骤801，终端通过第一卷积子模块对目标特征映射进行处理，确定中心点得分图。

其中，中心点得分图的像素点上的像素值，可以用于表示像素点为中心点的概率。中心点得分图可以是1通道特征图。

在一种可能的实施方式中，在上述步骤501之后，终端可以将目标特征映射作为输入，通过第一卷积子模块进行卷积处理，对文本类型输出大小为原图的1/4的中心点得分图。

步骤802，终端通过第二卷积子模块对所述目标特征映射进行处理，确定偏移量特征图。

其中，偏移量特征图的像素点上的像素值，可以用于表示该像素点到中心点的偏移量。偏移量特征图可以是2通道特征图，一个通道的特征图表示x轴偏移量，另一个通道的特征图表示y轴偏移量。偏移量特征图上的像素点与中心点得分图的像素点一一对应。

在一种可能的实施方式中，在上述步骤501之后，终端可以将目标特征映射作为输入，通过第二卷积子模块进行卷积处理，输出大小为原图的1/4的偏移量特征图。

步骤803，终端在中心点得分图上，获取像素值大于设定阈值的多个像素点，将多个像素点作为多个目标辅助中心点。

在一种可能的实施方式中，辅助中心点的像素值可以大于非中心点的像素值，也即是说，辅助中心点被选为中心点的概率较大。因此，当终端基于设定阈值对像素点进行筛选时，可以获取到多个目标辅助中心点。

步骤804，终端根据多个目标辅助中心点以及对应的偏移量，确定至少一个目标中心点。

在一种可能的实施方式中，由于一个目标图像中可能包含多个文本内容，也即是可以检测得到多个文本框，终端可以将步骤803中获取到的多个目标辅助中心点进行分类，一个文本框对应的多个目标辅助中心点可以归为一类。

对于一类目标辅助中心点，终端可以在偏移量特征图对应位置的像素点上，获取相应的像素值，作为每个目标辅助中心点对应的偏移量。进而，终端可以根据偏移量，对每个目标辅助点进行矫正，并对矫正后得到的多个中心点取平均值，得到这类目标辅助中心点对应的目标中心点。对每类目标辅助中心点进行相同的处理，即可得到至少一个目标中心点。

示例性的，终端可以通过聚类算法进行上述处理，本实施例中对具体的聚类算法不作限定。

上述终端在执行步骤502的同时，还可以执行步骤503、504的部分处理，提高模型的处理效率。

步骤503，终端通过第二卷积模块对目标特征映射进行处理，确定至少一个目标中心点对应的极径长度。

在一种可能的实施方式中，在上述步骤501之后，终端可以将目标特征映射作为输入，通过第二卷积模块进行卷积处理，输出大小为原图的1/4的极径长度特征图。极径长度特征图上的像素点与中心点得分图的像素点一一对应。

极径长度特征图的像素点上的像素值，可以用于表示当基于该像素点确定中心点时，中心点到顶点的极径长度。由于本公开实施例中的文本框可以是带角度的矩形框，中心点到每个顶点的极径长度相等，因此，极径长度特征图可以是1通道特征图。

在上述步骤502中确定下至少一个目标中心点之后，终端可以在极径长度特征图对应位置的像素点上，获取相应的像素值，作为至少一个目标中心点对应的极径长度。

步骤504，终端通过第三卷积模块对目标特征映射进行处理，确定至少一个目标中心点对应的至少两个旋转角度。

其中，至少两个旋转角度可以用于指示文本框中至少两个相邻的顶点。

在一种可能的实施方式中，在上述步骤501之后，终端可以将目标特征映射作为输入，通过第三卷积模块进行卷积处理，输出大小为原图的1/4的旋转角度特征图。旋转角度特征图上的像素点与中心点得分图的像素点一一对应。

旋转角度特征图的像素点上的像素值，可以用于表示当基于该像素点确定中心点时，顶点对应的旋转角度。旋转角度特征图可以是多通道特征图，每个通道的特征图可以对应于一个顶点。例如，通道1上每个像素点的值表示右上顶点与中心点连线和水平方向的夹角，通道2上的每个像素点的值表示左上顶点与中心点连线和水平方向夹角。

在上述步骤502中确定下至少一个目标中心点之后，终端可以在旋转角度特征图对应位置的像素点上，获取相应的像素值，作为至少一个目标中心点对应的至少两个相邻的顶点的旋转角度。

经过多个卷积模块的处理后，终端可以继续执行步骤204的处理，构建文本框。

步骤204，终端根据至少一个目标文本框的目标特征信息，确定至少一个目标文本框。

具体来说，终端可以根据至少一个目标中心点，以及至少一个目标中心点对应的极径长度、至少两个旋转角度，确定至少一个目标中心点对应的至少两个相邻的顶点。由于卷积模块输出的特征图为原图的1/4，在确定下每个目标中心点以及对应的至少两个相邻的顶点时，可以进行相应的放大处理，例如将各点的坐标乘上4，得到每个目标中心点以及对应的至少两个相邻的顶点在原图（即目标图像）中的位置信息。

然后，终端可以根据至少一个目标中心点，以及至少一个目标中心点对应的至少两个相邻的顶点在目标图像中的位置信息，构建至少一个目标文本框。

终端在确定下至少一个目标文本框后，可以获取至少一个目标文本框中的文本图像，基于获取到的文本图像进行后续处理，例如文本识别，本实施例对后续的具体处理不作限定。

概括来说，本实施例的文本检测方法的后处理足够简单，首先通过设置阈值，在中心点得分图上找出多个辅助中心点，然后通过偏移量确定唯一中心点，接着根据极径长度和至少两个旋转角度确定文本框。这些操作全部可以并行的在GPU（Graphics ProcessingUnit，图形处理器）上完成，从而大幅提高速度。在前向预测阶段，所有操作都在GPU上完成，一次并行计算得到目标图像中的所有文本框，大幅提高了精度和速度，而且因为是并行所以其速度完全不受文本框数量的影响。

本公开实施例中，结合PAN、 DB和CenterNet三者的优势，以CenterNet这种无锚点（Anchor-free）的文本检测方法为主，结合PAN和DB两者优势思路，同时引入分类的方法来优化后处理，全面地提升密集文本检测的速度和精度。

上述公开实施例中所使用的文本检测模型可以是机器学习模型，在使用文本检测模型进行上述处理前，可以对其进行训练。下面将通过如图9所示的文本检测模型的训练方法流程图，对文本检测模型的训练方法进行介绍。

步骤901，终端获取多个训练样本。

其中，每个训练样本可以包括一个样本图像以及对应的至少一个文本框的特征信息，该样本图像中包含文本内容。

可选的，如图10所示的文本检测模型的训练方法流程图，上述步骤901的具体处理可以如下：

步骤1001，终端获取多个样本图像。

在一种可能的实施方式中，终端可以获取多个包含文本的图像，作为样本图像。为了适应密集文本的检测，该图像可以是密集文本图像。当然，还可以是常规密度的文本图像、稀疏密度的文本图像等，本实施例对具体的文本密度不作限定。

步骤1002，终端获取对每个样本图像标注得到的至少一个文本框。

在一种可能的实施方式中，可以利用带角度的矩形框对样本图像中的文本内容进行标注。终端可以将标注在样本图像中的矩形框作为文本框，获取文本框相应的信息。由于样本图像中的可能包含有至少一个文本内容，因此可能得到至少一个文本框。

步骤1003，终端根据至少一个文本框，确定至少一个文本框的中心点、至少两个相邻的顶点。

在一种可能的实施方式中，终端可以根据每个文本框的信息，提取其中的特征点的信息，也即是中心点、至少两个相邻的顶点在样本图像中的位置信息。上述至少两个相邻的顶点可以由技术人员设置，例如，可以是左上顶点和右上顶点，或者，还可以是所有顶点，本实施例对此不作限定。

步骤1004，终端根据至少一个文本框的中心点、至少两个相邻的顶点，确定至少一个文本框的中心点对应的极径长度、至少两个旋转角度。

在一种可能的实施方式中，对于每个文本框，终端可以根据中心点、至少两个相邻的顶点在样本图像中的位置信息，确定中心点到任一顶点的距离，作为极径长度；确定中心点与步骤1003获取到的每个顶点的连线与水平方向的夹角，作为旋转角度。

步骤1005，终端将至少一个文本框的中心点、对应的极径长度和至少两个旋转角度，作为至少一个文本框的特征信息。

在一种可能的实施方式中，对于每个文本框，终端可以将步骤1003中获取到的中心点的位置信息、步骤1004中获取到的极径长度和至少两个旋转角度，作为该文本框的特征信息。

步骤1006，终端根据多个样本图像和对应的至少一个文本框的特征信息，获取多个训练样本。

在一种可能的实施方式中，当触发对文本检测模型的训练任务时，终端可以将一个样本图像及其对应的至少一个文本框的特征信息，作为一个训练样本，获取多个训练样本。

可选的，对应于上述公开实施例中基于辅助中心点确定中心点的方法，每个训练样本还可以包括至少一个文本框的多个辅助中心点，以及多个辅助中心点到对应的中心点的偏移量。

确定辅助中心点的方法可以为：终端根据至少一个文本框的中心点，获取预设范围内的多个像素点，作为多个辅助中心点。

在一种可能的实施方式中，对于一个文本框，终端在步骤1003中获取文本框的中心点在样本图像中的位置信息时，还可以将中心点作为中心，获取预设范围内的多个像素点，作为多个辅助中心点。例如，将中心点作为圆心，获取中心点附近半径为3的高斯区域内的所有像素点。本实施例对具体的预设范围不作限定。

相对应的，确定偏移量的方法可以为：终端根据至少一个文本框的中心点、多个辅助中心点，确定多个辅助中心点到对应的中心点的偏移量。

在一种可能的实施方式中，终端可以基于获取到的多个辅助中心点和中心点在样本图像中的位置信息，确定每个辅助中心点到中心点的偏移量。

上述确定辅助中心点和偏移量的处理是在模型训练前的数据准备阶段进行的，终端在获取训练样本时，可以在相应的训练样本中添加对应的辅助中心点和偏移量。

可选的，由于文本检测模型输出的中心点的位置信息以及偏移量是按比例缩小的，在数据准备阶段，可以将中心点、辅助中心点的位置信息和对应的偏移量按比例缩小，此时还可以确定缩小后的中心点对应的偏移量。当然，也可以将文本检测模型输出中心点、辅助中心点的位置信息以及对应的偏移量按比例放大。本实施例对缩放处理的具体时机不作限定，保证模型的输出与原图的信息进行对比时，是基于同样的图像大小即可。

步骤902，终端获取初始的文本检测模型。

其中，初始的文本检测模型中的模型参数可以是初始值。

在一种可能的实施方式中，终端可以存储有预先构建的初始的文本检测模型，当触发对文本检测模型的训练任务时，获取该初始的文本检测模型。

步骤903，终端基于多个训练样本，对初始的文本检测模型进行训练，得到训练后的文本检测模型。

在一种可能的实施方式中，终端可以将每个训练样本中的样本图像作为输入，通过初始的文本检测模型对样本图像进行处理，输出对每个样本图像预测的至少一个文本框的特征信息。具体处理与上述步骤203同理，此处不再赘述。

进而，终端可以通过损失函数，计算预测的特征信息与训练样本中原本的特征信息之间的损失值，通过损失值确定调整参数，基于调整参数对初始的文本检测模型的模型参数进行调整。

可选的，第一卷积子模块对应的损失函数可以为第一损失函数，第一损失函数可以为Focal Loss（焦点损失函数）；第二卷积子模块和第二、第三卷积模块的损失函数可以为第二损失函数，第二损失函数可以为Smooth-L1 Loss（平滑L1损失函数）。

其中，对应于上述公开实施例中基于辅助中心点确定中心点的方法，在模型训练的过程中，终端可以不对辅助中心点和中心点进行区分，将辅助中心点也视为中心点，相应的偏移量也视为中心点的偏移量，例如，将辅助中心点在中心点得分图上的像素值标签设置为1，表明期望文本检测模型在识别中心点的同时，识别辅助中心点。

此处与CenterNet不同，CenterNet是对于每个文本框，只取其中心点所在的像素点作为中心点，本实施例中，取中心点附近的高斯区域内的所有点视为这个文本框的中心点；CenterNet是预测特征图上的中心点与对应的原图上的点之间的偏移量，本实施例中是预测中心点附近的高斯区域内的所有中心点到实际的中心点的偏移量。

通过这样的训练方式，文本检测模型在前向预测阶段，可以获取到多个像素值大于设定阈值的像素点，直观来讲，可能获取到多堆像素点，一堆像素点围绕在对应的实际的中心点周围。

当达到训练结束条件时，终端获取当前的文本检测模型，作为训练后的文本检测模型。

其中，训练结束条件可以是训练次数达到第一阈值，和/或模型正确率达到第二阈值，和/或损失函数低于第三阈值。上述第一阈值、第二阈值和第三阈值可以根据经验设置。本实施例对具体的训练结束条件不作限定。

本公开实施例中，由于在文本框的特征信息中，采用了极坐标系表示中心点和顶点的位置关系，通过该特征信息训练得到的文本检测模型，可以适应不同文本密度的文本图像，特别是密集文本图像。相对于笛卡尔坐标系，在文本框带有角度时，可以避免额外增加一个角度预测通道，进而解决上述增加角度预测通道引起的不稳定问题，提高模型在密集文本数据上训练的稳定性。

在本实施例中还提供了一种文本检测装置，该装置用于实现上述实施例及实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“单元”和“模块”为可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图11为本公开实施例提供的文本检测装置的结构示意图。如图11所示，本实施例提供的文本检测装置包括：

获取模块1101，用于获取待检测的目标图像；

调用模块1102，用于调用训练后的文本检测模型，所述文本检测模型包括骨干网络和与所述骨干网络连接且相互并联的多个卷积模块，所述骨干网络用于提取输入图像的特征映射，所述多个卷积模块用于确定文本框的特征信息，所述特征信息包括中心点、中心点到顶点对应的极径长度和旋转角度；将所述目标图像作为输入，通过所述文本检测模型对所述目标图像进行处理，输出得到所述目标图像中至少一个目标文本框的目标特征信息；

确定模块1103，用于根据所述至少一个目标文本框的目标特征信息，确定至少一个目标文本框。

可选的，所述调用模块1102用于：

通过所述骨干网络对所述目标图像进行处理，确定所述目标图像的目标特征映射；

通过第一卷积模块对所述目标特征映射进行处理，确定至少一个目标中心点；

通过第二卷积模块对所述目标特征映射进行处理，确定所述至少一个目标中心点对应的极径长度；

通过第三卷积模块对所述目标特征映射进行处理，确定所述至少一个目标中心点对应的至少两个旋转角度，所述至少两个旋转角度用于指示文本框中至少两个相邻的顶点。

可选的，所述确定模块1103用于：

根据所述至少一个目标中心点，以及所述至少一个目标中心点对应的极径长度、至少两个旋转角度，确定所述至少一个目标中心点对应的至少两个相邻的顶点；

根据所述至少一个目标中心点，以及所述至少一个目标中心点对应的至少两个相邻的顶点，构建至少一个目标文本框。

可选的，所述第一卷积模块包括相互并联的第一卷积子模块和第二卷积子模块；

所述调用模块1102用于：

通过第一卷积子模块对所述目标特征映射进行处理，确定中心点得分图，所述中心点得分图的像素点上的像素值，用于表示所述像素点为中心点的概率；

通过第二卷积子模块对所述目标特征映射进行处理，确定偏移量特征图，所述偏移量特征图的像素点上的像素值，用于表示所述像素点到中心点的偏移量；

在所述中心点得分图上，获取像素值大于设定阈值的多个像素点，将所述多个像素点作为多个目标辅助中心点；

根据所述多个目标辅助中心点以及对应的偏移量，确定至少一个目标中心点。

可选的，所述骨干网络包括串联的残差网络和特征金字塔增强模块；

所述调用模块1102用于：

通过所述残差网络对所述目标图像进行处理，确定多个第一特征映射；

通过所述特征金字塔增强模块对所述多个第一特征映射进行处理，确定多个第二特征映射；

对所述多个第二特征映射进行信息融合处理，确定所述目标图像的目标特征映射。

可选的，如图12所示的文本检测装置的结构示意图，所述装置还包括训练模块1104，所述训练模块1104用于：

获取多个训练样本，每个训练样本包括一个样本图像以及对应的至少一个文本框的特征信息，所述样本图像中包含文本内容；

获取初始的文本检测模型；

基于所述多个训练样本，对所述初始的文本检测模型进行训练，得到训练后的文本检测模型。

可选的，所述训练模块1104用于：

获取多个样本图像；

获取对每个样本图像标注得到的至少一个文本框；

根据所述至少一个文本框，确定所述至少一个文本框的中心点、至少两个相邻的顶点；

根据所述至少一个文本框的中心点、至少两个相邻的顶点，确定所述至少一个文本框的中心点对应的极径长度、至少两个旋转角度；

将所述至少一个文本框的中心点、对应的极径长度和至少两个旋转角度，作为所述至少一个文本框的特征信息；

根据所述多个样本图像和对应的至少一个文本框的特征信息，获取多个训练样本。

可选的，所述每个训练样本还包括所述至少一个文本框的多个辅助中心点，以及多个辅助中心点到对应的中心点的偏移量；

所述训练模块1104用于：

根据所述至少一个文本框的中心点，获取预设范围内的多个像素点，作为多个辅助中心点；

根据所述至少一个文本框的中心点、多个辅助中心点，确定所述多个辅助中心点到对应的中心点的偏移量。

本公开实施例中，可以结合PAN、 DB和CenterNet三者的优势，用CenterNet这种无锚点（Anchor-free）的文本检测方法的思想，结合PAN和DB两者优势思路，同时引入分类的方法来优化后处理，全面地提升密集文本检测的速度和精度。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图13，现将描述可以作为本公开的服务器或客户端的电子设备1300的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器（ROM）1302中的计算机程序或者从存储单元1308加载到随机访问存储器（RAM）1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出（I/O）接口1305也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306、输出单元1307、存储单元1308以及通信单元1309。输入单元1306可以是能向电子设备1300输入信息的任何类型的设备，输入单元1306可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1307可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1308可以包括但不限于磁盘、光盘。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理。例如，在一些实施例中，前述文本检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。在一些实施例中，计算单元1301可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行前述实施例的文本检测方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

获取待检测的目标图像；

调用训练后的文本检测模型，所述文本检测模型包括骨干网络和与所述骨干网络连接且相互并联的多个卷积模块，所述骨干网络用于提取输入图像的特征映射，所述多个卷积模块用于确定文本框的特征信息，所述特征信息包括中心点、中心点到顶点对应的极径长度和旋转角度；其中，所述极径长度为在以所述中心点作为原点构建的极坐标系中，所述中心点到顶点的距离；所述旋转角度为在所述极坐标系中水平线到所述中心点与顶点的连线角度；

根据所述至少一个目标文本框的目标特征信息，确定至少一个目标文本框，所述目标文本框是指带角度的矩形框；

所述将所述目标图像作为输入，通过所述文本检测模型对所述目标图像进行处理，输出得到所述目标图像中至少一个目标文本框的目标特征信息，包括：

通过第一卷积模块对所述目标特征映射进行处理，确定至少一个目标中心点；其中，所述目标中心点基于多个辅助中心点确定；

2.根据权利要求1所述的文本检测方法，其特征在于，所述根据所述至少一个目标文本框的目标特征信息，确定至少一个目标文本框，包括：

3.根据权利要求1所述的文本检测方法，其特征在于，所述第一卷积模块包括相互并联的第一卷积子模块和第二卷积子模块；

所述通过第一卷积模块对所述目标特征映射进行处理，确定至少一个目标中心点，包括：

4.根据权利要求1所述的文本检测方法，其特征在于，所述骨干网络包括串联的残差网络和特征金字塔增强模块；

所述通过所述骨干网络对所述目标图像进行处理，确定所述目标图像的目标特征映射，包括：

5.根据权利要求1所述的文本检测方法，其特征在于，所述文本检测模型的训练方法包括：

获取初始的文本检测模型；

6.根据权利要求5所述的文本检测方法，其特征在于，所述获取多个训练样本，包括：

获取多个样本图像；

获取对每个样本图像标注得到的至少一个文本框；

7.根据权利要求5所述的文本检测方法，其特征在于，所述每个训练样本还包括所述至少一个文本框的多个辅助中心点，以及多个辅助中心点到对应的中心点的偏移量；

确定辅助中心点的方法包括：

确定偏移量的方法包括：

8.一种文本检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测的目标图像；

调用模块，用于调用训练后的文本检测模型，所述文本检测模型包括骨干网络和与所述骨干网络连接且相互并联的多个卷积模块，所述骨干网络用于提取输入图像的特征映射，所述多个卷积模块用于确定文本框的特征信息，所述特征信息包括中心点、中心点到顶点对应的极径长度和旋转角度；其中，所述极径长度为在以所述中心点作为原点构建的极坐标系中，所述中心点到顶点的距离；所述旋转角度为在所述极坐标系中水平线到所述中心点与顶点的连线角度；将所述目标图像作为输入，通过所述文本检测模型对所述目标图像进行处理，输出得到所述目标图像中至少一个目标文本框的目标特征信息；所述将所述目标图像作为输入，通过所述文本检测模型对所述目标图像进行处理，输出得到所述目标图像中至少一个目标文本框的目标特征信息，包括：通过所述骨干网络对所述目标图像进行处理，确定所述目标图像的目标特征映射；通过第一卷积模块对所述目标特征映射进行处理，确定至少一个目标中心点；其中，所述目标中心点基于多个辅助中心点确定；通过第二卷积模块对所述目标特征映射进行处理，确定所述至少一个目标中心点对应的极径长度；通过第三卷积模块对所述目标特征映射进行处理，确定所述至少一个目标中心点对应的至少两个旋转角度，所述至少两个旋转角度用于指示文本框中至少两个相邻的顶点；

确定模块，用于根据所述至少一个目标文本框的目标特征信息，确定至少一个目标文本框，所述目标文本框是指带角度的矩形框。

9.根据权利要求8所述的文本检测装置，其特征在于，所述装置还包括训练模块，所述训练模块用于：

获取初始的文本检测模型；

10.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。