CN113673523A

CN113673523A - 文本检测方法、装置、设备及存储介质

Info

Publication number: CN113673523A
Application number: CN202111234480.4A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2021-11-19
Anticipated expiration: 2041-10-22
Also published as: CN113673523B

Abstract

本公开涉及一种文本检测方法、装置、设备及存储介质，其中，方法包括：获取待检测图像；确定待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，其中，距离图表征中心点与检测框顶点之间的距离；基于待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量；将第一向量输入检测模型进行处理，确定待检测图像中的文本区域。根据本公开的技术方案能够提高文本检测的准确度和处理效率。

Description

文本检测方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种文本检测方法、装置、设备及存储介质。

背景技术

文本检测的目的是定位文本行或字符在图像中的位置，文本检测作为图像搜索、文字识别，身份认证和视觉导航等计算机视觉任务的前置步骤，应用范围广泛。

相关技术中，方案一：通过设置的滑动窗口在图像上进行遍历搜索，对于每个搜索得到的位置框，进行框内是否为文本的分类判定。方案二：通过卷积神经网络模型提取图像特征，对特征图进行二值化并计算连通域，判断文本行位置。

发明内容

根据本公开的一方面，提供了一种文本检测方法，包括：

获取待检测图像；

确定所述待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，其中，所述距离图表征所述中心点与检测框顶点之间的距离；

基于所述待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量；

将所述第一向量输入检测模型进行处理，确定所述待检测图像中的文本区域。

根据本公开的另一方面，提供了一种用于文本检测的模型训练方法，包括：

获取样本图像，其中，所述样本图像标注有文本区域；

将所述样本图像输入第一预设模型进行处理，获取所述样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，其中，所述距离图表征所述中心点与检测框顶点之间的距离；

基于所述样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第四向量；

将所述第四向量输入第二预设模型进行处理，确定所述样本图像中的候选文本区域；

基于所述候选文本区域和标注的文本区域，训练所述第二预设模型。

根据本公开的另一方面，提供了一种文本检测装置，包括：

第一获取模块，用于获取待检测图像；

第一确定模块，用于确定所述待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，其中，所述距离图表征所述中心点与检测框顶点之间的距离；

第一生成模块，用于基于所述待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量；

第二确定模块，用于将所述第一向量输入检测模型进行处理，确定所述待检测图像中的文本区域。

根据本公开的另一方面，提供了一种用于文本检测的模型训练装置，包括：

第二获取模块，用于获取样本图像，其中，所述样本图像标注有文本区域；

第三确定模块，用于将所述样本图像输入第一预设模型进行处理，获取所述样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，其中，所述距离图表征所述中心点与检测框顶点之间的距离；

第二生成模块，用于基于所述样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第四向量；

第四确定模块，用于将所述第四向量输入第二预设模型进行处理，确定所述样本图像中的候选文本区域；

训练模块，用于基于所述候选文本区域和标注的文本区域，训练所述第二预设模型。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述一方面所述的文本检测方法。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述另一方面所述的用于文本检测的模型训练方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一方面所述的文本检测方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述另一方面所述的用于文本检测的模型训练方法。

根据本申请实施例中提供的一个或多个技术方案，通过确定待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，基于待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量，将第一向量输入检测模型进行处理，确定待检测图像中的文本区域，能够提高文本检测的准确度和处理效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例所提供的一种文本检测方法的流程示意图；

图2为本公开实施例所提供的另一种文本检测方法的流程示意图；

图3为本公开实施例所提供的一种用于文本检测的模型训练方法的流程示意图；

图4为本公开实施例所提供的另一种用于文本检测的模型训练方法的流程示意图；

图5为本公开实施例所提供的一种文本检测装置的结构示意图；

图6为本公开实施例所提供的一种用于文本检测的模型训练装置的结构示意图；

图7为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

以下参照附图描述本公开的方案。

图1为本公开实施例所提供的一种文本检测方法的流程示意图，如图1所示，本公开实施例提供的文本检测方法可包括：

步骤101，获取待检测图像。

本公开实施例的方法，用于检测文本图像中的文本区域。本公开实施例中，待检测图像可以是文本图像。

步骤102，确定待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图。

本实施例中，对待检测图像进行特征提取，以获取待检测图像的图像特征，对待检测图像的图像特征进行卷积操作，以确定待检测图像的内缩文本区域得分图，以及，对待检测图像的图像特征进行卷积操作，以确定待检测图像的文本区域中心点得分图和距离图。

其中，内缩文本区域得分图表征像素点属于内缩文本区域的概率，内缩文本区域例如是指按照预设规则与比例内缩后的文本区域，文本区域中心点得分图表征像素点是文本区域中心的概率，距离图表征中心点与检测框顶点之间的距离。

在本公开的一个实施例中，构建第一预设模型以对待检测图像的图像特征进行卷积操作，其中，第一预设模型是由基于分割的文本检测模型和基于滑动窗口的文本检测模型得到的，第一预设模型的输入为图像，输出为内缩文本区域得分图、文本区域中心点得分图和距离图。其中，基于分割的文本检测模型包括但不限于可微分二值化（Real-timeScene Text Detection with Differentiable Binarization，简称DB）模型、像素聚合网络（Efficient and Accurate Arbitrary-Shaped Text Detection with PixelAggregation Network，简称PAN）模型，基于滑动窗口的文本检测模型包括但不限于CenterNet（一种基于目标检测的方法）模型。

作为一种示例，DB模型以Resnet18网络为基础网络架构，DB模型的输入为图像，输出包括两通道的特征映射，分别是内缩文本区域得分图和文本区域阈值图，其中，文本区域阈值图表征像素点与文本区域的文本框之间的距离，该距离可以是进行了归一化操作后的值（例如取值范围在0到1之间），需要说明的是，本公开中采用的是其中的内缩文本区域得分图。CenterNet模型以Resnet18网络为基础网络架构，CenterNet模型的输入为图像，输出包括1+N通道的特征映射，分别是文本区域中心点得分图和距离图，其中，N为正整数，N是根据检测框顶点的数量确定的，例如用于检测框为矩形，则N为4，在实际应用中N也可以是14等，此处不作具体限制。基于DB模型和CenterNet模型构建第一预设模型，第一预设模型输入为待检测图像时，输出包括1+1+N通道的特征映射，即输出包括待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图。

下面对特征提取部分进行说明。作为一种示例，构建Resnet18网络，该Resnet18网络由四个block块串联构建，每个block块包括多层卷积操作，将待检测图像输入Resnet18网络，每个block块输出一组特征映射，将四组特征映射缩放到相同大小并串联叠加，生成待检测图像的图像特征。

步骤103，基于待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量。

作为一种可能的实现方式，可以根据设定阈值对内缩文本区域得分图进行二值化处理，生成内缩文本区域二值图，将内缩文本区域二值图分别与文本区域中心点得分图、距离图执行与操作，以生成目标文本区域中心点得分图和目标距离图，进而基于目标文本区域中心点得分图和目标距离图，生成第一向量。

其中，目标文本区域中心点得分图是由文本区域中心点得分图和内缩文本区域二值图执行与操作得到的，目标距离图是由距离图和内缩文本区域二值图执行与操作得到的，以去除噪声点。举例而言，将目标文本区域中心点得分图上的点与目标距离图上对应的点构成向量，并将每个构成向量进行拼接，以生成第一向量。可选地，可以设置比例范围，将处于同一比例范围内的多个中心点确定为属于同一文本区域。

步骤104，将第一向量输入检测模型进行处理，确定待检测图像中的文本区域。

本实施例中，检测模型输入为待检测图像的第一向量，输出为待检测图像的文本区域。

其中，检测模型包括但不限于长短期记忆网络（Long Short Term Memory，LSTM）模型，此处不作具体限制。

在实际应用中，存在文本密集的文本检测场景（例如一个图像包括100个文本区域），相关技术中基于分割的文本检测模型，其检测速度随着文本区域数量的增加呈线性下降趋势，无法满足实际应用场景中对于检测速度的需求。而相关技术中的通用目标检测算法，在该场景中存在训练不稳定和框漂移问题，导致文本检测的准确度较低。

根据本公开实施例的技术方案，通过确定待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，基于待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量，将第一向量输入检测模型进行处理，确定待检测图像中的文本区域，实现了基于内缩文本区域做锚框，同时基于预测多个中心点的并行方式，结合锚框得到文本区域，能够解决框漂移问题，提高了文本检测的准确度，并且，避免了计算连通域和非极大值抑制（简称NMS）操作，降低了计算量，提高文本检测的处理效率，通过将该文本检测方法应用于文本密集的文本检测场景，能够提升密集文本检测的速度和精度。

基于上述实施例，下面结合LSTM模型对本公开实施例的文本检测方法进行说明。

图2为本公开实施例所提供的另一种文本检测方法的流程示意图，如图2所示，本公开实施例提供的文本检测方法可包括：

步骤201，获取待检测图像。

步骤202，确定待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图。

步骤203，基于待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量。

步骤204，将第一向量输入LSTM模型进行处理，确定待检测图像中的文本区域。

本实施例中，LSTM模型可以采用两层双向LSTM网络，LSTM模型输出为待检测图像中每个文本区域对应的文本框坐标信息，采用序列网络修正文本框坐标，进一步提高检测精度。

需要说明的是，前述对步骤101-104的解释说明同样适用于步骤201-204，此处不再赘述。

步骤205，将待检测图像的图像特征沿着第一方向进行池化处理、以及沿着第二方向进行位置编码，以生成第一处理结果，将第一处理结果输入第一编码器进行处理，生成第二向量。

本实施例中，第一编码器可以基于Transformer模型的编码器实现，作为一种示例，第一编码器由6个基础模块组成，基础模块包括多头自注意力层、跳跃连接、层归一化和前馈神经网络。下述第二编码器的实现方式可参照第一编码器，此处不再赘述。

作为一种示例，第一方向为竖直方向，第二方向为水平方向，将待检测图像的图像特征沿着竖直方向进行最大池化处理、以及沿着水平方向进行位置编码，生成第一处理结果，将第一处理结果输入第一编码器进行处理，第一编码器输出的两个向量作为第二向量。

步骤206，将待检测图像的图像特征沿着第二方向进行池化处理、以及沿着第一方向进行位置编码，以生成第二处理结果，将第二处理结果输入第二编码器进行处理，生成第三向量。

作为一种示例，将待检测图像的图像特征沿着水平方向进行最大池化处理、以及沿着竖直方向进行位置编码，生成第二处理结果，将第二处理结果输入第二编码器进行处理，第二编码器输出的两个向量作为第三向量。

本公开实施例对步骤205和步骤206的顺序不作限制。

其中，基于第二向量和第三向量确定LSTM模型的初始状态。举例而言，两个编码器输出的四个向量中，将对应的两个向量分别对应逐点相加并求平均值，得到向量1和向量2，该向量1和向量2分别作为LSTM模型的初始隐状态和初始细胞状态。

本实施例中，采用编码器输出的向量确定LSTM模型的初始状态，以及将第一向量输入LSTM模型进行处理，确定待检测图像中的文本区域，实现了采用序列网络修正文本框坐标，进一步提高检测精度。

基于上述实施例，下面针对模型训练过程进行说明。

图3为本公开实施例所提供的一种用于文本检测的模型训练方法的流程示意图，如图3所示，该用于文本检测的模型训练方法包括：

步骤301，获取样本图像。

其中，样本图像标注有文本区域，文本区域可采用四个顶点的检测框进行标注，也可以采用其他数量的多个顶点的检测框进行标注。

步骤302，将样本图像输入第一预设模型进行处理，获取样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图。

其中，距离图表征中心点与检测框顶点之间的距离。第一预设模型是由基于分割的文本检测模型和基于滑动窗口的文本检测模型得到的，第一预设模型的输入为图像，输出为内缩文本区域得分图、文本区域中心点得分图和距离图。前述实施例对第一预设模型的说明同样适用于本实施例。

在本公开的一个实施例中，获取标注有文本区域的文本图像，作为训练集基于训练集训练基于分割的文本检测模型，基于训练集训练基于滑动窗口的文本检测模型。可选地，以DB模型和CenterNet模型为例，采用Dice Loss损失函数、Smooth-L1损失函数训练DB模型，采用Fcoal Loss损失函数、Smooth-L1损失函数训练CenterNet模型。可选地，本实施例中，构建第一预设模型后，可采用训练集进行微调训练。

步骤303，基于样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第四向量。

作为一种可能的实现方式，对内缩文本区域得分图进行二值化，生成内缩文本区域二值图，将内缩文本区域二值图分别与文本区域中心点得分图、距离图执行与操作，以生成目标文本区域中心点得分图和目标距离图，进而，基于目标文本区域中心点得分图和目标距离图，生成第四向量。对第四向量的解释说明可参照第一向量，此处不再赘述。

步骤304，将第四向量输入第二预设模型进行处理，确定样本图像中的候选文本区域。

其中，第二预设模型包但不限于LSTM模型。基于第二预设模型对第四向量进行处理，确定样本图像中的候选文本区域。

步骤305，基于候选文本区域和标注的文本区域，训练第二预设模型。

本实施例中，通过训练第二预设模型，使第二预设模型可以准确检测图像中的文本区域。可选地，采用L1损失函数训练第二预设模型。

可选地，在训练第二预设模型时，保持第一预设模型的参数不更新，或者，控制第一预设模型的参数更新频率小于预设频率阈值。

根据本公开实施例的技术方案，通过构建并训练第一预设模型、第二预设模型，进一步将训练完成的模型用于文本检测，文本检测的准确度，并且，避免了计算连通域和非极大值抑制操作，降低了计算量，提高文本检测的处理效率。

基于上述实施例，图4为本公开实施例所提供的另一种用于文本检测的模型训练方法的流程示意图，如图4所示，该用于文本检测的模型训练方法包括：

步骤401，获取样本图像。

步骤402，将样本图像输入第一预设模型进行处理，获取样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图。

本实施例中，对样本图像进行特征提取，以获取样本图像的图像特征，对样本图像的图像特征进行卷积操作，以确定样本图像的内缩文本区域得分图，以及，对样本图像的图像特征进行卷积操作，以确定样本图像的文本区域中心点得分图和距离图。

步骤403，基于样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第四向量。

步骤404，将第四向量输入LSTM模型进行处理，确定样本图像中的候选文本区域，基于候选文本区域和标注的文本区域，训练LSTM模型、第一编码器和第二编码器。

本实施例中，LSTM模型可以采用两层双向LSTM网络，LSTM模型输出为样本图像中每个文本区域对应的文本框坐标信息。

可选地，在训练LSTM模型、第一编码器和第二编码器时，保持第一预设模型的参数不更新，或者，控制第一预设模型的参数更新频率小于预设频率阈值。

需要说明的是，前述对步骤301-304的解释说明同样适用于步骤401-404，此处不再赘述。

步骤405，将样本图像的图像特征沿着第一方向进行池化处理、以及沿着第二方向进行位置编码，以生成第三处理结果，将第三处理结果输入第一编码器进行处理，生成第五向量。

本实施例中，对第一预设模型中得到样本图像的图像特征进行处理，以生成处理结果。

作为一种示例，将样本图像的图像特征沿着竖直方向进行最大池化处理、以及沿着水平方向进行位置编码，生成第三处理结果，将第三处理结果输入第一编码器进行处理，第一编码器输出的两个向量作为第五向量。

步骤406，将样本图像的图像特征沿着第二方向进行池化处理、以及沿着第一方向进行位置编码，以生成第四处理结果，将第四处理结果输入第二编码器进行处理，生成第六向量。

作为一种示例，将样本图像的图像特征沿着水平方向进行最大池化处理、以及沿着竖直方向进行位置编码，生成第四处理结果，将第四处理结果输入第二编码器进行处理，第二编码器输出的两个向量作为第六向量。

本公开实施例对步骤405和步骤406的顺序不作限制。

其中，基于第五向量和第六向量确定LSTM模型的初始状态。确定LSTM模型的初始状态的实现方式可参照前述实施例。

本实施例中，能够实现对LSTM模型的训练，将训练完成的LSTM模型用于文本检测，实现了采用序列网络修正文本框坐标，进一步提高检测精度。

图5为本公开实施例所提供的一种文本检测装置的结构示意图，如图5所示，该文本检测装置包括：第一获取模块51，第一确定模块52，第一生成模块53，第二确定模块54。

其中，第一获取模块51，用于获取待检测图像。

第一确定模块52，用于确定待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，其中，距离图表征中心点与检测框顶点之间的距离。

第一生成模块53，用于基于待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量。

第二确定模块54，用于将第一向量输入检测模型进行处理，确定所述待检测图像中的文本区域。

在本公开的一个实施例中，第二确定模块54具体用于：将第一向量输入LSTM模型进行处理，确定待检测图像中的文本区域的文本框坐标信息。

在本公开的一个实施例中，文本检测装置还包括：第一处理模块，用于将待检测图像的图像特征沿着第一方向进行池化处理以及沿着第二方向进行位置编码，以生成第一处理结果；将第一处理结果输入第一编码器进行处理，生成第二向量；将待检测图像的图像特征沿着第二方向进行池化处理以及沿着第一方向进行位置编码，以生成第二处理结果；将第二处理结果输入第二编码器进行处理，生成第三向量；其中，基于第二向量和第三向量确定LSTM模型的初始状态。

在本公开的一个实施例中，第一生成模块53具体用于：对内缩文本区域得分图进行二值化，生成内缩文本区域二值图；将内缩文本区域二值图分别与文本区域中心点得分图、距离图执行与操作，以生成目标文本区域中心点得分图和目标距离图；基于目标文本区域中心点得分图和目标距离图，生成第一向量。

图6为本公开实施例所提供的一种用于文本检测的模型训练装置的结构示意图，如图6所示，该用于文本检测的模型训练装置包括：第二获取模块61，第三确定模块62，第二生成模块63，第四确定模块64，训练模块65。

其中，第二获取模块61，用于获取样本图像，其中，样本图像标注有文本区域。

第三确定模块62，用于将样本图像输入第一预设模型进行处理，获取所述样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，其中，距离图表征中心点与检测框顶点之间的距离。

第二生成模块63，用于基于样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第四向量。

第四确定模块64，用于将第四向量输入第二预设模型进行处理，确定样本图像中的候选文本区域。

训练模块65，用于基于候选文本区域和标注的文本区域，训练第二预设模型。

在本公开的一个实施例中，第四确定模块64具体用于：将第四向量输入LSTM模型进行处理，确定样本图像中的候选文本区域的文本框坐标信息。

在本公开的一个实施例中，用于文本检测的模型训练装置还包括：第二处理模块，用于将样本图像的图像特征沿着第一方向进行池化处理以及沿着第二方向进行位置编码，以生成第三处理结果；将第三处理结果输入第一编码器进行处理，生成第五向量；将样本图像的图像特征沿着第二方向进行池化处理以及沿着第一方向进行位置编码，以生成第四处理结果；将第四处理结果输入第二编码器进行处理，生成第六向量；其中，基于第五向量和第六向量确定LSTM模型的初始状态。

在本公开的一个实施例中，第二生成模块63具体用于：对内缩文本区域得分图进行二值化，生成内缩文本区域二值图；将内缩文本区域二值图分别与文本区域中心点得分图、距离图执行与操作，以生成目标文本区域中心点得分图和目标距离图；基于目标文本区域中心点得分图和目标距离图，生成第四向量。

在本公开的一个实施例中，第一预设模型是根据基于分割的文本检测模型和基于滑动窗口的文本检测模型得到的，用于文本检测的模型训练装置还包括：预训练模块，用于获取包含标注有文本区域的文本图像的训练集；基于训练集训练基于分割的文本检测模型；以及基于训练集训练基于滑动窗口的文本检测模型。

本公开实施例所提供的装置可执行本公开实施例所提供的方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开方法实施例中的描述。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器（ROM）702中的计算机程序或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如，在一些实施例中，文本检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中，计算单元701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本检测方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本检测方法，包括：

获取待检测图像；

2.如权利要求1所述的方法，其中，所述将所述第一向量输入检测模型进行处理，确定所述待检测图像中的文本区域包括：

将所述第一向量输入长短期记忆网络LSTM模型进行处理，确定所述待检测图像中的文本区域的文本框坐标信息。

3.如权利要求2所述的方法，还包括：

将所述待检测图像的图像特征沿着第一方向进行池化处理以及沿着第二方向进行位置编码，以生成第一处理结果；

将所述第一处理结果输入第一编码器进行处理，生成第二向量；

将所述待检测图像的图像特征沿着所述第二方向进行池化处理以及沿着所述第一方向进行位置编码，以生成第二处理结果；

将所述第二处理结果输入第二编码器进行处理，生成第三向量；

其中，基于所述第二向量和所述第三向量确定所述LSTM模型的初始状态。

4.如权利要求1所述的方法，其中，所述基于所述待检测图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第一向量包括：

对所述内缩文本区域得分图进行二值化，生成内缩文本区域二值图；

将所述内缩文本区域二值图分别与所述文本区域中心点得分图、所述距离图执行与操作，以生成目标文本区域中心点得分图和目标距离图；

基于所述目标文本区域中心点得分图和目标距离图，生成所述第一向量。

5.一种用于文本检测的模型训练方法，包括：

获取样本图像，其中，所述样本图像标注有文本区域；

6.如权利要求5所述的方法，其中，所述将所述第四向量输入第二预设模型进行处理，确定所述样本图像中的候选文本区域包括：

将所述第四向量输入LSTM模型进行处理，确定所述样本图像中的候选文本区域的文本框坐标信息。

7.如权利要求6所述的方法，还包括：

将所述样本图像的图像特征沿着第一方向进行池化处理以及沿着第二方向进行位置编码，以生成第三处理结果；

将所述第三处理结果输入第一编码器进行处理，生成第五向量；

将所述样本图像的图像特征沿着所述第二方向进行池化处理以及沿着所述第一方向进行位置编码，以生成第四处理结果；

将所述第四处理结果输入第二编码器进行处理，生成第六向量；

其中，基于所述第五向量和所述第六向量确定所述LSTM模型的初始状态。

8.如权利要求5所述的方法，其中，所述基于所述样本图像的内缩文本区域得分图、文本区域中心点得分图和距离图，生成第四向量包括：

基于所述目标文本区域中心点得分图和目标距离图，生成所述第四向量。

9.如权利要求5所述的方法，其中，所述第一预设模型是根据基于分割的文本检测模型和基于滑动窗口的文本检测模型得到的，所述方法还包括：

获取包含标注有文本区域的文本图像的训练集；

基于所述训练集训练所述基于分割的文本检测模型；以及

基于所述训练集训练所述基于滑动窗口的文本检测模型。

10.一种文本检测装置，包括：

第一获取模块，用于获取待检测图像；

11.一种用于文本检测的模型训练装置，包括：

12.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-4中任一所述的方法。

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求5-9中任一所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-4中任一所述的方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求5-9中任一所述的方法。