CN113298054A

CN113298054A - 一种基于嵌入空间像素聚类的文本区域检测方法

Info

Publication number: CN113298054A
Application number: CN202110847077.2A
Authority: CN
Inventors: 李岩; 李斌阳; 范晓焓; 舒言
Original assignee: International Relations, University of
Current assignee: International Relations, University of
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-08-24
Anticipated expiration: 2041-07-27
Also published as: CN113298054B

Abstract

本发明涉及一种基于嵌入空间像素聚类的文本区域检测方法，解决了现有技术中对不规则文本区域的检测结果不准确的问题。该方法包括获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图，待识别文本图像包括至少一个第一不规则文本区域；基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图，得到第一嵌入空间的第一像素聚类预测图，对第一中心线区域预测图进行优化，得到形状空间的优化第一中心线区域预测图，结合第一高度预测图以及第一角度预测图，得到待识别文本图像中文本区域位置。实现了对不规则文本区域的准确检测，提高了检测准确率。

Description

一种基于嵌入空间像素聚类的文本区域检测方法

技术领域

本发明涉及文本检测技术领域，尤其涉及一种基于嵌入空间像素聚类的文本区域检测方法。

背景技术

近年来，随着文本检测技术的不断发展，场景文本检测的性能也在提升，文本区域检测的出发点在于把有意义的文本实例尽可能地合并，按照不同检测方法可分为基于组件、基于分割和基于回归的文本区域检测，由于文本检测的结果是有意义的文本实例，有利于识别端提取更加丰富的文本信息，并且其广泛存在于中英文地点和标识中，有很大的应用前景。

但由于场景文字的多样性，任意形状文本区域检测也面临更大的挑战。现有的文本区域检测技术对于印刷版面的文本区域检测准确率较高，但在场景文本检测中仍存在如下缺陷：（1）一种是基于目标检测的方法，使用四边形来框出文本区，实现比较简单，但对于倾斜或者弯曲文本检测不准确；另一种是基于图像分割的方法，像素级地检测文本，对弯曲文本的检测更加准确，但置信度难以确定，对十分接近的两行文本可能检测为一行；而以往的文本检测大多是针对四边形文本实例，直接用四边形框出文本区域，在检测曲线文本时存在缺陷，效果并不理想。（2）使用传统的分割方式，在文字区域中间被障碍物隔开的情况下，不能很好地确定一个文本行，当间隔超出一定距离时，属于同一个文本行的字符会被划分到两个文本区域。

基于上述分析，急需寻求一种文本区域检测方法，用于提高不规则文本区域检测的准确性。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于嵌入空间像素聚类的文本区域检测方法，用以解决现有针对不规则文本区域的检测结果不准确的问题。

一方面，本发明实施例提供了基于嵌入空间像素聚类的文本区域检测方法，该方法包括：

获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图，所述待识别文本图像包括至少一个第一不规则文本区域；

基于所述第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图，得到第一嵌入空间的第一像素聚类预测图；

基于所述第一像素聚类预测图对所述第一中心线区域预测图进行优化，得到形状空间的优化第一中心线区域预测图；

基于所述优化第一中心线区域预测图，结合所述第一高度预测图以及所述第一角度预测图，得到待识别文本图像中文本区域位置。

进一步，所述第一像素聚类预测图包括第一聚类中心以及第一聚类像素，所述得到第一嵌入空间的第一像素聚类预测图，包括：

基于所述第一原尺寸文本区域预测图，对所述第一中心线区域预测图以及第一核区域预测图进行去噪，得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图；

将所述去噪后的第一核区域预测图中的文本核区域在所述第一嵌入空间中形成初始聚类中心；

判断任意两个初始聚类中心之间的嵌入距离，结合初始聚类中心以及第一预设距离，得到第一聚类中心；

遍历去噪后的第一中心线区域预测图中的文本中心线区域中的每个像素，计算每个像素在第一嵌入空间对应的聚类像素至其对应的第一聚类中心的嵌入距离，结合第二预设距离，得到去噪后的第一中心线区域预测图中的文本中心线区域聚类在第一聚类中心周围的第一聚类像素。

进一步，所述得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图，包括：

将所述第一中心线区域预测图与所述第一原尺寸文本区域预测图做与运算，得到去噪后的第一中心线区域预测图；

将所述第一核区域预测图与所述第一原尺寸文本区域预测图做与运算，得到去噪后的第一核区域预测图。

进一步，所述得到第一聚类中心，包括：

判断任意两个初始聚类中心之间的嵌入距离是否小于第一预设距离；

若小于，则将该两个初始聚类中心设定为相同的标签，标定为同一第一聚类中心。

进一步，所述基于所述优化第一中心线区域预测图，结合所述第一高度预测图以及所述第一角度预测图，得到待识别文本图像中文本区域位置，包括：

基于所述优化第一中心线区域预测图中每个像素在所述第一高度预测图中对应像素的高度以及第一角度预测图中对应像素的角度，得到所述优化第一中心线区域预测图中的文本中心线区域对应的多个局部框；

将所述局部框顶边的中点以及底边的中点顺序连接，得到待识别文本图像中文本区域位置。

进一步，所述方法包括将待识别文本图像输入训练好的文本检测模型，获得待识别文本图像的形状空间的所述第一原尺寸文本区域预测图、所述第一中心线区域预测图、所述第一核区域预测图、所述第一高度预测图和所述第一角度预测图；通过下述方法获得训练好的文本检测模型：

将训练数据集输入初始文本检测模型，获得形状空间的第二原尺寸文本区域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测图以及第二角度预测图，所述训练数据集包括文本图像以及与所述文本图像对应的文本区域位置标注信息，所述文本图像包括至少一个第二不规则文本区域；

基于所述第二中心线区域预测图、第二核区域预测图，得到第二嵌入空间的第二像素聚类预测图；

利用训练过程中的损失函数，根据所述第二原尺寸文本区域预测图、原尺寸文本区域真值图、所述第二中心线区域预测图、中心线区域真值图、所述第二核区域预测图、核区域真值图、所述第二高度预测图、高度真值图、所述第二角度预测图、角度真值图以及所述第二像素聚类预测图，计算训练过程中的误差值；

利用误差反向传播机制，根据训练过程中的误差值，获得训练好的文本检测模型。

进一步，所述第二像素聚类预测图包括第二聚类中心以及第二聚类像素，所述基于所述第二中心线区域预测图、第二核区域预测图，得到第二嵌入空间的第二像素聚类预测图，包括：

将所述第二核区域预测图中的文本核区域在所述第二嵌入空间中形成第二聚类中心；

将所述第二中心线区域预测图中的文本中心线区域聚类到与其对应的所述第二聚类中心周围，形成第二聚类像素。

进一步，所述训练过程中的误差值包括形状空间的误差值以及嵌入空间的误差值，所述计算训练过程中的误差值，包括：

根据第二原尺寸文本区域预测图中每一点的像素值与原尺寸文本区域真值图中对应点的像素值、第二中心线区域预测图中每一点的像素值与中心线区域真值图中对应点的像素值、第二核区域预测图中每一点的像素值与核区域真值图中对应点的像素值、第二高度预测图中每一点的像素值与高度真值图中对应点的像素值、第二角度预测图中每一点的像素值与角度真值图对应点的像素值，获得训练过程中形状空间的误差值；

根据第二像素聚类预测图中的第二聚类中心的平均嵌入距离以及所述第二聚类像素的嵌入距离，结合第二嵌入空间的不同第二聚类中心之间的第三预设距离、所述第二聚类像素与其对应的所述第二聚类中心之间的第四预设距离，获得训练过程中嵌入空间的误差值。

进一步，所述获得训练过程中形状空间的误差值，包括：

根据下述公式计算训练过程中形状空间的误差值：

其中，

表示形状空间的损失函数；

表示第二原尺寸文本区域预测图对应的损失函数，

表示第二原尺寸文本区域预测图中第

个像素的像素值，

表示原尺寸文本区域真值图中第

个像素的像素值；

表示第二中心线区域预测图对应的损失函数，

表示第二中心线区域预测图中第

个像素的像素值，

表示中心线区域真值图中第

个像素的像素值；

表示第二核区域预测图对应的损失函数，

表示第二核区域预测图中第

个像素的像素值，

表示核区域真值图中第

个像素的像素值；

表示第二高度预测图对应的损失函数，

表示第二高度预测图中第

个像素的高度值，

表示高度真值图中第

个像素的高度值，

为第二高度预测图中所有像素点的集合，

为第二高度预测图中的像素数量；

表示第二角度预测图对应的损失函数，

表示第二角度预测图中第

个像素对应的角度值，

表示角度真值图中第

个像素对应的角度值，

为平衡因子，取值为1。

进一步，所述获得训练过程中嵌入空间的误差值，包括：

根据下述公式计算训练过程中嵌入空间的误差值：

其中，

表示嵌入空间的损失函数，

表示第二像素聚类预测图中的第二聚类中心的数量，

表示第二像素聚类预测图中第

个第二聚类中心，

表示第二像素聚类预测图中第

个第二聚类中心；

表示第二像素聚类预测图中不同第二聚类中心之间的平均嵌入距离对应的损失函数，

表示第二像素聚类预测图中第

个第二聚类中心的平均嵌入距离，

表示第二像素聚类预测图中第

个第二聚类中心的平均嵌入距离，

为超参数，代表第二嵌入空间的不同第二聚类中心之间的第三预设距离；

表示第二聚类像素的嵌入距离与与其对应的第二聚类中心的平均嵌入距离对应的损失函数，

表示与第

个第二聚类中心对应的第二聚类像素中第

个聚类像素对应的嵌入距离，

表示第二聚类像素与与其对应的第二聚类中心之间的第四预设距离。

与现有技术相比，本发明至少可实现如下有益效果：

本申请通过采用获得包括至少一个第一不规则文本区域的待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图；基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图，得到第一嵌入空间的第一像素聚类预测图；基于第一像素聚类预测图对所述第一中心线区域预测图进行优化，得到形状空间的优化第一中心线区域预测图；基于优化第一中心线区域预测图，结合所述第一高度预测图以及所述第一角度预测图，得到待识别文本图像中文本区域位置的技术方案。即，本申请通过获得与待识别文本图像对应的形状空间的多个预测图以及嵌入空间的像素聚类预测图，对第一中心线区域预测图进行优化，得到准确性较高的优化第一中心线区域预测图，结合第一高度预测图以及第一角度预测图，完成文本区域位置的检测。本申请的检测方法能够更加准确的检测不规则文本区域，降低了文本区域检测的难度，提高了检测准确率，具有良好的鲁棒性和使用价值。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本申请实施例中一种基于嵌入空间像素聚类的文本区域检测方法流程示意图；

图2为本申请实施例中对待识别文本图像进行文本区域检测的过程示意图；

图3为本申请实施例中初始文本检测模型结构以及具体参数示意图；

图4为本申请实施例中利用训练数据集对初始文本检测模型训练的过程示意图；

图5为本申请实施例中局部框的结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种基于嵌入空间像素聚类的文本区域检测方法，方法流程示意图如图1所示，该方法包括：

步骤S10：获得待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图，所述待识别文本图像包括至少一个第一不规则文本区域；

步骤S20：基于所述第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图，得到第一嵌入空间的第一像素聚类预测图；

步骤S30：基于所述第一像素聚类预测图对所述第一中心线区域预测图进行优化，得到形状空间的优化第一中心线区域预测图；

步骤S40：基于所述优化第一中心线区域预测图，结合所述第一高度预测图以及所述第一角度预测图，得到待识别文本图像中文本区域位置。

与现有技术相比，本实施例提供的基于嵌入空间像素聚类的文本区域检测方法，通过采用获得包括至少一个第一不规则文本区域的待识别文本图像的形状空间的第一原尺寸文本区域预测图、第一中心线区域预测图、第一核区域预测图、第一高度预测图和第一角度预测图；基于第一原尺寸文本区域预测图、第一中心线区域预测图以及第一核区域预测图，得到第一嵌入空间的第一像素聚类预测图；基于第一像素聚类预测图对所述第一中心线区域预测图进行优化，得到形状空间的优化第一中心线区域预测图；基于优化第一中心线区域预测图，结合所述第一高度预测图以及所述第一角度预测图，得到待识别文本图像中文本区域位置的技术方案。即，本申请通过获得与待识别文本图像对应的形状空间的多个预测图以及嵌入空间的像素聚类预测图，对第一中心线区域预测图进行优化，得到准确性较高的优化第一中心线区域预测图，结合第一高度预测图以及第一角度预测图，完成文本区域位置的检测。本申请的检测方法能够更加准确的检测不规则文本区域，降低了文本区域检测的难度，提高了检测准确率，具有良好的鲁棒性和使用价值。

在一个具体的实施例中，第一不规则文本区域为不规则文本行；可选地，该不规则文本行包括至少一个单词。

进一步的，该方法包括将待识别文本图像输入训练好的文本检测模型，获得待识别文本图像的形状空间的所述第一原尺寸文本区域预测图、所述第一中心线区域预测图、所述第一核区域预测图、所述第一高度预测图和所述第一角度预测图。

在一个具体的实施例中，请参见图3以及图4，通过下述步骤，获得训练好的文本检测模型：

步骤S01：将训练数据集输入初始文本检测模型，获得形状空间的第二原尺寸文本区域预测图、第二中心线区域预测图、第二核区域预测图、第二高度预测图以及第二角度预测图，所述训练数据集包括文本图像以及与所述文本图像对应的文本区域位置标注信息，所述文本图像包括至少一个第二不规则文本区域；

步骤S02：基于所述第二中心线区域预测图、第二核区域预测图，得到第二嵌入空间的第二像素聚类预测图；

步骤S03：利用训练过程中的损失函数，根据所述第二原尺寸文本区域预测图、原尺寸文本区域真值图、所述第二中心线区域预测图、中心线区域真值图、所述第二核区域预测图、核区域真值图、所述第二高度预测图、高度真值图、所述第二角度预测图、角度真值图以及所述第二像素聚类预测图，计算训练过程中的误差值；

步骤S04：利用误差反向传播机制，根据训练过程中的误差值，获得训练好的文本检测模型。

具体的，请参见图3，步骤S01中的初始文本检测模型基于全卷积网络构建，基础网络框架参数如图3所示。提取图像的卷积神经网络主要使用ResNet34网络模型。具体地，即采用残差网络结构连接每个卷积层，如此可以防止由于网络层数加深产生的梯度消失问题。同时，在得到ResNet34不同卷积阶段的输出特征图后，该基础网络框架使用特征金字塔 FPN模型将不同的特征图进行特征融合。具体地，通过对具有高语义内容的特征图进行上采样进行特征对齐，并将相邻卷积阶段的特征图沿通道维度进行拼接融合，最终可得到融合特征图输出。特征图共128个通道，宽

和高

的尺寸与原文本图像相同，通过卷积核大小为1的卷积层输出9个通道的特征图，其中5个通道用于形成形状空间的第二原尺寸文本区域预测图

、第二中心线区域预测图

、第二核区域预测图

、第二高度预测图

以及第二角度预测图

，另外4个通道用于构建嵌入空间。进一步，形状空间是指基于文本图像对应的文本区域位置标注信息，在原始像素坐标系的基础上，得到每一个像素在坐标系的位置信息，该原始像素坐标系为文本图像中的像素坐标系；将形状空间的像素通过映射关系映射到一个四维空间，该四维空间即为嵌入空间，该四维空间通过初始文本检测模型输出的4个通道构建。

在一个具体的实施例中，第二不规则文本区域为不规则文本行；可选地，该不规则文本行包括至少一个单词。

在一个具体的实施例中，所述第二像素聚类预测图包括第二聚类中心以及第二聚类像素，步骤S02包括：

步骤S021：将所述第二核区域预测图中的文本核区域在所述第二嵌入空间中形成第二聚类中心；

步骤S022：将所述第二中心线区域预测图中的文本中心线区域聚类到与其对应的所述第二聚类中心周围，形成第二聚类像素。

具体的，通过初始文本检测模型构建的第二嵌入空间，将第二核区域预测图中的文本核区域嵌入至第二嵌入空间形成第二聚类中心，第二聚类中心的数量与第二核区域预测图中文本核区域的数量相等。进一步地，计算第二核区域预测图中任一个文本核区域中的像素映射至第二嵌入空间的嵌入距离，结合该文本核区域的像素数目，得到该文本核区域对应的平均嵌入距离，参见公式（9），在第二嵌入空间中满足该平均嵌入距离的点即为该文本核区域对应的第二聚类中心，与形状空间的该文本核区域的质心对应，若存在多个文本核区域则可以得到多个第二聚类中心。进一步的，将第二中心线预测图中的文本中心线区域中的像素聚类到与其对应的已经形成在第二嵌入空间中的第二聚类中心周围，形成该第二聚类中心周围的第二聚类像素。

在一个具体的实施例中，步骤S03包括：

步骤S031：根据第二原尺寸文本区域预测图中每一点的像素值与原尺寸文本区域真值图中对应点的像素值、第二中心线区域预测图中每一点的像素值与中心线区域真值图中对应点的像素值、第二核区域预测图中每一点的像素值与核区域真值图中对应点的像素值、第二高度预测图中每一点的像素值与高度真值图中对应点的像素值、第二角度预测图中每一点的像素值与角度真值图对应点的像素值，获得训练过程中形状空间的误差值；

步骤S032：根据第二像素聚类预测图中的第二聚类中心的平均嵌入距离以及所述第二聚类像素的嵌入距离，结合第二嵌入空间的不同第二聚类中心之间的第三预设距离、所述第二聚类像素与其对应的所述第二聚类中心之间的第四预设距离，获得训练过程中嵌入空间的误差值。

具体的，步骤S031中获得原尺寸文本区域真值图、中心线区域真值图、核区域真值图、高度真值图以及角度真值图的过程如下：

根据训练数据集中的文本图像以及与文本图像对应的文本区域位置标注信息，填充文本区域对应的闭合区域的像素值为1，背景区域的像素值为0，若存在多个文本区域时，可以将不同文本区域对应的闭合区域的像素填充为不同的像素值，同一闭合区域对应同一像素值，从而得到文本图像对应的原尺寸文本区域真值图。

根据文本图像对应的文本区域位置标注信息，首先确定文本区域的顶边和底边，将顶边和底边的长度取平均值除以步长，得到顶点和底点的对数，结合顶边和底边的长度，在顶边上找到一系列顶点

，在底边上找到一系列底点

，每对顶点和底点之间连线的高度集合为

，每对顶点和底点的中点形成中心线，将中心线上下分别扩展

，即得到中心线区域真值图。例如：找到第一对顶点

和底点

之间的连线的中点，以该中点为基准上下分别扩展

，其它各对顶点和底点之间的连线的中点均上下分别扩展与其对应的连线高度的 0.1倍，并填充中心线扩展之后的文本中心线区域的像素值为1，背景区域的像素值为0，若存在多个文本中心线区域时，可以将不同文本中心线区域对应的闭合区域的像素值填充为不同的像素值，同一闭合区域对应同一像素值，从而得到文本图像对应的中心线区域真值图。可选地，步长为4。

根据中心线区域真值图，将中心线区域真值图中的文本中心线区域的两端分别缩进

以及

，并且将中心线区域真值图上下分别扩展

的距离，从而得到文本对应的核区域真值图。核区域真值图的存在，可以保证不同的文本中心线区域在形状空间上有一定的空白空间不会粘连，而且减小了中心线区域预测图训练的难度。

请参见图5，每对顶点和底点之间的连线都对应一个局部框，每个局部框都包括与其对应的连线的中点的坐标

，该连线的高度

，该局部框的宽度

，该局部框的排列方向

，其中，

；进而对中心线区域真值图中与各个局部框对应的位置的像素填充高度

，形成高度真值图；对中心线区域真值图中与各个局部框对应的位置的像素填充角度信息

，形成角度真值图。

在一个具体的实施例中，步骤S031包括：

根据公式（1）至公式（5），计算训练过程中形状空间的误差值：

（1）

（2）

（3）

（4）

（5）

其中，

表示形状空间的损失函数；

表示第二原尺寸文本区域预测图对应的损失函数，

表示第二原尺寸文本区域预测图中第

个像素的像素值，

表示原尺寸文本区域真值图中第

个像素的像素值；

表示第二中心线区域预测图对应的损失函数，

表示第二中心线区域预测图中第

个像素的像素值，

表示中心线区域真值图中第

个像素的像素值；

表示第二核区域预测图对应的损失函数，

表示第二核区域预测图中第

个像素的像素值，

表示核区域真值图中第

个像素的像素值；

表示第二高度预测图对应的损失函数，

表示第二高度预测图中第

个像素的高度值，

表示高度真值图中第

个像素的高度值，

为第二高度预测图中所有像素点的集合，

为第二高度预测图中的像素数量；

表示第二角度预测图对应的损失函数，

表示第二角度预测图中第

个像素对应的角度值，

表示角度真值图中第

个像素对应的角度值，

为平衡因子，取值为1，

表示

损失函数。

在一个具体的实施例中，步骤S032包括：

根据公式（6）至公式（8），计算训练过程中嵌入空间的误差值：

（6）

（7）

（8）

其中，

表示嵌入空间的损失函数，

表示第二像素聚类预测图中的第二聚类中心的数量，

表示第二像素聚类预测图中第

个第二聚类中心，

表示第二像素聚类预测图中第

个第二聚类中心；

表示第二像素聚类预测图中第

个第二聚类中心的平均嵌入距离，

表示第二像素聚类预测图中第

个第二聚类中心的平均嵌入距离，

表示与第

个第二聚类中心对应的第二聚类像素中第

个聚类像素对应的嵌入距离，

表示第二聚类像素与与其对应的第二聚类中心之间的第四预设距离，

表示求

与

之间的第二范式。

具体的，根据公式（9）计算核区域的平均嵌入距离：

（9）

其中，

为第二核区域预测图中第

个核区域中第

个像素的嵌入距离，

表示第二核区域预测图中第

个核区域的像素数量。

不同第二聚类中心的嵌入距离尽可能远，为此，构建损失函数

来实现这个规则，表达式如公式（7）所示。形状空间的第二核区域预测图中的文本核区域聚类到嵌入空间中形成第二聚类中心的过程中，不同的文本核区域形成的聚类中心的嵌入距离尽可能接近本申请中设置的不同第二聚类中心之间的第三预设距离

，可选地，

取值为3。

为了防止在形状空间的相邻的文本中心线区域出现粘连的情况，将文本中心线区域的像素聚类到对应的文本核区域形成的第二聚类中心周围，即让文本中心线区域的像素嵌入距离与对应的第二聚类中心的平均嵌入距离近一些，通过构建损失函数

来实现这个规则，表达式如公式（8）所示。可选地，

的取值为0.5。

在一个具体的实施例中，嵌入空间的损失函数

满足公式（10）：

（10）

其中，

表示第二像素聚类预测图中同一第二聚类中心周围的第二聚类像素靠近原点的损失函数，其中

；

为平衡因子，可选地，

的取值为0.001。

具体的，为了第二像素聚类预测图中对应同一第二聚类中心的像素距离嵌入空间的原点更近一些，同时为嵌入空间的训练增加正则化约束，通过构建

损失函数来实现这个规则。

在一个具体的实施例中，所述第一像素聚类预测图包括第一聚类中心以及第一聚类像素，步骤S20包括：

步骤S21：基于所述第一原尺寸文本区域预测图，对所述第一中心线区域预测图以及第一核区域预测图进行去噪，得到去噪后的第一中心线区域预测图以及去噪后的第一核区域预测图；

进一步，步骤S21包括步骤S211以及步骤S212：

步骤S211：将所述第一中心线区域预测图与所述第一原尺寸文本区域预测图做与运算，得到去噪后的第一中心线区域预测图；

步骤S212：将所述第一核区域预测图与所述第一原尺寸文本区域预测图做与运算，得到去噪后的第一核区域预测图。

具体的，请参见图2，将待识别文本图像输入训练好的文本检测模型后，得到第一原尺寸文本区域预测图

、第一中心线区域预测图

、第一核区域预测图

；将

中的每一像素点对应的像素值与

中对应的像素点的像素值做与运算，当两者之一有一个像素值为0时，

中对应的像素点的像素值为0，通过此方式可以对

进行去噪，得到去噪后的第一中心线区域预测图

；将

中的每一像素点对应的像素值与

中对应的像素点的像素值为0，通过此方式可以对

进行去噪，得到去噪后的第一核区域预测图

。

进一步的，在步骤S211之前该方法还包括：

基于第一像素阈值，对第一原尺寸文本区域预测图进行去噪；基于第二像素阈值，对第一中心线区域预测图进行初步去噪，对第一核区域预测图进行初步去噪；

将初步去噪后的第一中心线区域预测图、初步去噪后的第一核区域预测图分别与去噪后的第一原尺寸文本区域预测图做与运算，得到去噪后的第一中心线区域预测图以及第一核区域预测图。

具体的，第一像素阈值为0.8，第二像素阈值为0.4；基于第一像素阈值，对第一原尺寸文本区域预测图进行去噪是指将第一原尺寸文本区域预测图中像素值小于0.8的像素点的像素值设置为0；基于第二像素阈值，对第一中心线区域预测图进行初步去噪，对第一核区域预测图进行初步去噪是指将第一中心线区域预测图与第一核区域预测图中像素值小于0.4的像素点的像素值设置为0。

通过上述去噪方法，可以滤除大部分背景噪音的影响，进一步提高检测结果的准确性。

步骤S22：将所述去噪后的第一核区域预测图中的文本核区域在所述第一嵌入空间中形成初始聚类中心；

具体的，计算去噪后的第一核区域预测图中的任一个文本核区域中的像素映射至第一嵌入空间的嵌入距离，结合该文本核区域的像素数目，得到该文本核区域对应的平均嵌入距离，参见公式（9），在第一嵌入空间中满足该平均嵌入距离的点即为该文本核区域对应的初始聚类中心，与形状空间的该文本核区域的质心对应，若存在多个文本核区域则可以得到多个初始聚类中心。

步骤S23：判断任意两个初始聚类中心之间的嵌入距离，结合初始聚类中心以及第一预设距离，得到第一聚类中心；

具体的，请参照图2，将

的文本核区域在所述第一嵌入空间中形成初始聚类中心，得到第一嵌入空间中初始聚类中心的示意图

，结合第一预设距离，对初始聚类中心进行进一步分类，得到第一嵌入空间中第一聚类中心的示意图

。

进一步，步骤S23包括步骤S231以及步骤S232：

步骤S231：判断任意两个初始聚类中心之间的嵌入距离是否小于第一预设距离；

步骤S232：若小于，则将该两个初始聚类中心设定为相同的标签，标定为同一第一聚类中心。

具体的，任一个文本核区域的嵌入距离的计算过程请参见公式（9），第一预设距离取值为0.25，具有相同标签的初始聚类中心为同一第一聚类中心，请参见图2，相同的灰度表示相同标签。

步骤S24：遍历去噪后的第一中心线区域预测图中的文本中心线区域中的每个像素，计算每个像素在第一嵌入空间对应的聚类像素至其对应的第一聚类中心的嵌入距离，结合第二预设距离，得到去噪后的第一中心线区域预测图中的文本中心线区域聚类在第一聚类中心周围的第一聚类像素。

具体的，在将第一中心线区域预测图中的文本中心线区域中的像素映射至第一嵌入空间之前要进行进一步筛选，并不是把第一中心线区域预测图中的文本中心线区域中所有的像素都映射至第一嵌入空间形成第一聚类像素，而是要在映射至第一嵌入空间之前进行筛选；文本中心线区域中的每个像素在第一嵌入空间都存在对应的聚类像素，计算该聚类像素到与其对应的第一聚类中心的嵌入距离，如果该嵌入距离小于第二预设距离，则将该像素映射至第一嵌入空间形成聚类像素；若嵌入距离大于第二预设距离，则该像素不会映射至第一嵌入空间，遍历第一中心线区域预测图中的文本中心线区域中的每个像素，根据上述规则，便可得到满足映射至第一嵌入空间的文本中心线区域中的像素集，进而将这些像素级映射至第一嵌入空间形成第一聚类像素；基于此，在第一中心线区域预测图中的文本中心线区域中的像素映射至第一欺辱空间形成第一聚类像素的过程中，对第一中心线区域预测图中的文本中心线区域中的像素进行了进一步的筛选，为后续得到相对准确的第一中心线区域预测图（即，优化第一中心线区域预测图）做准备，提高了后续检测的准确性。可选地，第二预设距离的取值为0.3。

具体的，请继续参见图2，将

中符合上述要求的像素映射至第一嵌入空间形成第一聚类像素，得到第一嵌入空间的第一聚类中心与第一聚类像素的示意图

。

在一个具体的实施例中，步骤S30包括：将第一像素聚类预测图中的第一聚类像素映射至形状空间，得到形状空间的优化后的第一中心线区域预测图。

具体的，第一中心线区域预测图中的文本中心线区域映射至嵌入空间，形成第一聚类像素的过程中已经对文本中心线区域中的像素进行了筛选，筛选后形成聚类在第一聚类中心周围的第一聚类像素，再将第一聚类像素映射至形状空间，即得到形状空间的优化后的第一中心线区域预测图。

请参加图2，将第一聚类像素映射回形状空间，得到优化后的第一中心线区域预测图

。

在一个具体的实施例中，步骤S40包括步骤S41以及步骤S42：

步骤S41：基于所述优化第一中心线区域预测图中每个像素在所述第一高度预测图中对应像素的高度以及第一角度预测图中对应像素的角度，得到所述优化第一中心线区域预测图中的文本中心线区域对应的多个局部框；

步骤S42：将所述局部框顶边的中点以及底边的中点顺序连接，得到待识别文本图像中文本区域位置。

具体的，第一高度预测图中每个像素的像素值表示的是优化第一中心线区域预测图中对应像素点的局部框的高度；第一角度预测图中每个像素的像素值表示的是优化第一中心线区域预测图中对应像素点的局部框的排布角度的正切值。因此在得到优化第一中心线区域预测图的基础上，该图中的每个像素点都对应一个高度以及角度的正切值，可得知第一中心线区域预测图中某些像素点对应同一个高度以及角度的正切值，这些像素点对应一个局部框，进而得到优化中心线区域预测图中的文本中心线区域对应的多个局部框；按顺序连接所有局部框的顶边的中点和底边的中点，得到的封闭图形为待识别文本图像中文本区域位置。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。