CN112001406B

CN112001406B - 一种文本区域检测方法及装置

Info

Publication number: CN112001406B
Application number: CN201910445253.2A
Authority: CN
Inventors: 乔梁
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2023-09-08
Anticipated expiration: 2039-05-27
Also published as: CN112001406A

Abstract

本发明实施例提供了一种文本区域检测方法及装置，方法包括：获取待检测的目标图像，目标图像中包含目标文本；将待检测的目标图像输入预先训练的语义分割网络模型中，得到目标图像中各个像素点的类别标签，包括文本类标签，边界类标签和背景类标签，其中边界类标签的像素点位于各个文本区域的周边，因此，能够将不同文本区域分割开。再根据文本类标签的像素点，确定包含目标文本的目标文本区域，并对目标文本区域进行矫正，得到矩形文本区域，矩形文本区域能够便于文本识别，提高文本识别的准确性。

Description

一种文本区域检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种文本区域检测方法及装置。

背景技术

在计算机视觉领域，文本检测和识别是一个很有应用价值的研究方向，现实生活中很多应用都与其息息相关，例如，车牌识别、身份证信息识别等技术均应用了文本检测和识别的方法。

文本检测和识别方法包括两个步骤，第一，针对图像进行文本区域检测，得到图像中的文本区域；第二，针对文本区域进行文本识别。其中，第一个步骤获取的文本区域的质量好坏，很大程度影响了最终的文本识别准确率。

现有的文本区域检测方法中，检测结果是一个文本矩阵框，这种文本矩形框无法处理弯曲的长字符串。当待检测图像中包含连续的弯曲文本时，检测出的文本矩形框可能会框住其他文本区域，即无法适用于弯曲文本的检测，从而影响了文本识别的准确性。

发明内容

本发明实施例的目的在于提供一种文本区域检测方法及装置，实现对图像中弯曲文本的区域检测，从而提高文本识别的准确性。

为了实现上述目的，本发明实施例提供了一种文本区域检测方法，所述方法包括：

获取待检测的目标图像，所述目标图像中包含目标文本；

将所述目标图像输入预先训练的语义分割网络模型中，得到所述目标图像中各个像素点的类别标签，所述语义分割网络模型是根据预设训练集训练得到的，所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签；

根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域；

对所述目标文本区域进行矫正，得到矩形文本区域。

可选的，在根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域之前，还包括：

针对每个文本连通域，确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例；所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域；

若确定的比例小于预设比例阈值，则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。

可选的，所述根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域的步骤，包括：

从所述目标图像中类别标签为文本类标签的像素点中选择像素点，作为第一像素点；

获取在预设方向上与所述第一像素点相邻的像素点，作为第二像素点；

判断所述第二像素点的类别标签是否为文本类标签；

若不是文本类标签，判断预设衰减系数是否大于第一预设值，所述预设衰减系数的初始值大于所述第一预设值；

若不大于所述第一预设值，则将当前所述目标图像中类别标签为文本类标签的像素点所在区域，作为包含所述目标文本的目标文本区域。

可选的，所述方法还包括：

若大于所述第一预设值，则将所述第二像素点的类别标签更新为文本类标签，并将预设衰减系数减第二预设值，将所述第二像素点作为第一像素点，返回执行所述获取在预设方向上与所述第一像素点相邻的像素点，作为第二像素点；

若所述第二像素点的类别标签为文本类标签，则将所述第二像素点作为第一像素点，返回执行所述获取在预设方向上与所述第一像素点相邻的像素点，作为第二像素点。

针对每个文本连通域，获取外接该文本连通域的矩形图像；所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域；

将所述矩形图像中类别标签为文本类标签的像素点赋值为第一数值，并将所述矩形图像中类别标签为边界类或背景类标签的像素点赋值为第二数值，得到所述矩形图像对应的二值图像；

将所述二值图像输入预先训练的角点网络模型，得到多个角点坐标；所述角点网络模型是根据多个样本二值图像以及各个样本二值图像对应的角点坐标训练得到的；

将得到的多个角点坐标组成的多边形区域，作为所述目标文本区域。

可选的，所述对所述目标文本区域进行矫正，得到矩形文本区域的步骤，包括：

根据所述目标文本区域各个角点的坐标，利用以下公式，对所述目标文本区域进行矫正，确定所述目标文本区域的各个角点的矫正坐标，得到矩形文本区域：

avg_h＝[Distance(P₁,P_2×n)+Distance(P_n，P_n+1)]/2；

其中，avg_w为所述目标文本区域的平均宽度，avg_h为所述目标文本区域的平均高度，P_i表示所述文本区域中第i个角点，Distance(P_i,P_i+1)表示所述文本区域中第i个角点和第i+1个角点的距离，T_i为所述目标文本区域的第i个角点的矫正坐标。

为了实现上述目的，本发明实施例还提供了一种文本区域检测装置，所述装置包括：

获取模块，用于获取待检测的目标图像，所述目标图像中包含目标文本；

语义分割模块，用于将所述目标图像输入预先训练的语义分割网络模型中，得到所述目标图像中各个像素点的类别标签，所述语义分割网络模型是根据预设训练集训练得到的，所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签；

确定模块，用于根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域；

矫正模块，用于对所述目标文本区域进行矫正，得到矩形文本区域。

可选的，所述装置还包括更新模块，

所述更新模块，用于针对每个文本连通域，确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例；所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域；若确定的比例小于预设比例阈值，则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。

可选的，所述确定模块，具体用于：

判断所述第二像素点的类别标签是否为文本类标签；

可选的，所述确定模块，具体还用于：

可选的，所述确定模块，具体用于：

可选的，所述矫正模块，具体用于：

avg_h＝[Distance(P₁,P_2×n)+Distance(P_n，P_n+1)]/2；

为实现上述目的，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一方法步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法步骤。

本发明实施例提供的文本区域检测方法及装置，能够将待检测的目标图像输入预先训练的语义分割网络模型中，得到目标图像中各个像素点的类别标签，包括文本类标签，边界类标签和背景类标签，其中边界类标签的像素点位于各个文本区域的周边，因此，能够将不同文本区域分割开。再根据文本类标签的像素点，确定包含目标文本的目标文本区域，并对目标文本区域进行矫正，得到矩形文本区域，矩形文本区域能够便于文本识别，提高文本识别的准确性。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本区域检测方法的一种流程图；

图2为本发明实施例提供的目标图像的一种示意图；

图3为本发明实施例提供的目标图像中像素点的类别标签的一种示意图；

图4为本发明实施例提供的确定目标文本区域的一种流程图；

图5为本发明实施例提供的连通域搜索的一种示意图；

图6为本发明实施例提供的对文本区域标注的一种示意图；

图7为本发明实施例提供的目标图像中目标文本区域的示意图；

图8为本发明实施例提供的对目标文本区域进行矫正的示意图；

图9为本发明实施例提供的文本区域检测装置的一种结构示意图；

图10为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了实现能够对图像中弯曲文本进行区域检测，提高文本识别的准确性，本发明实施例提供了一种文本区域检测方法，应用于电子设备，如图1所示，该方法可以包括以下步骤：

参见图1，图1为本发明实施例提供的文本区域检测方法的一种流程图，方法包括以下步骤：

S101：获取待检测的目标图像，目标图像中包含目标文本。

本发明实施例中，目标文本可以是规则的，也可以是弯曲的。举例来讲，参见图2，图2为本发明实施例提供的目标图像的一种示意图，可见图2中目标文本“CHOCOLATE”即为弯曲的字符串。

S102：将所述目标图像输入预先训练的语义分割网络模型中，得到所述目标图像中各个像素点的类别标签，所述语义分割网络模型是根据预设训练集训练得到的，所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签；

本发明实施例中，在确定目标图像后，可以将其输入预先训练的语义分割网络模型中。由于语义分割网络模型是根据上述预设的训练集训练完成的，因此，当输入目标图像后，语义分割网络模型能够输出目标图像中各个像素点的类别标签。类别标签包括文本类标签，边界类标签以及背景类标签，其中，边界类标签的像素点组合起来为一个闭合的环形区域，能够将目标文本包围，且边界类标签的像素点所包围的区域中的像素点均为文本类标签的像素点，边界类标签的像素点所形成的闭合环形区域之外的像素点为背景类标签的像素点。

为了便于理解，可以参见图3，图3为本发明实施例提供的目标图像中像素点的类别标签的一种示意图。

S103：根据目标图像中类别标签为文本类标签的像素点，确定包含目标文本的目标文本区域。

本发明实施例中，可以将目标图像中类别标签为文本类标签的像素点所在区域，直接确定为包含目标文本的目标文本区域。举例来讲，参见图3，可以直接将边界类像素点包围的区域确定为目标文本区域。

在本发明的另一种实施例中，为了获取更准确的目标文本区域，还可以根据语义分割网络模型输出的目标图像中各个像素点的类别标签，针对文本区域进行连通域搜索。具体的，上述根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域的步骤，可以包括以下细化步骤，参见图4，图4为本发明实施例提供的确定目标文本区域的一种流程图：

步骤11：从目标图像中类别标签为文本标签的像素点中选择像素点，作为第一像素点；

本步骤中，可以从目标图像中选取一个类别标签为文本标签的像素点，作为第一像素点。具体的，电子设备可以遍历目标图像中的各个像素点，若遍历到的像素点的类别标签为边界类或背景类，则可以继续遍历，若遍历到类别标签为文本类标签的像素点，则可以停止遍历，并将该像素点作为第一像素点。

步骤12：获取在预设方向上与所述第一像素点相邻的像素点，作为第二像素点；

其中，预设方向可以是向上，向下，向左或者向右。

步骤13：判断第二像素点的类别标签是否为文本类标签，若是，则执行步骤14，若否，则执行步骤15。

在本步骤中，可以获取第二像素点的类别标签，并判断第二像素点的标签是否为文本类标签。容易理解的，若第二像素点的类别标签也为文本类，则说明第一像素点和第二像素点属于同一个文本连通域，也就是第一像素点和第二像素点位于同一个目标文本区域。这种情况下，可以直接执行步骤14。

由于语义分割网络模型输出的结果中，可能存在边界误检的情况，即实际属于文本类区域内的像素点可能被错检为边界类或背景类，因此需要进行标签类别的更新。具体的，当第二像素点的类别标签不是文本类时，可以执行步骤15-步骤17。

步骤14：将第二像素点作为第一像素点，并返回步骤12。

若第二像素点的类别标签也为文本类，则可以认定第一像素点和第二像素点均属于同一文本连通域，可以将第二像素点作为当前的第一像素点，返回执行步骤12，继续在预设方向上进行连通域搜索。

步骤15：判断预设衰减系数是否大于第一预设值，所述预设衰减系数的初始值大于所述第一预设值；若大于，则执行步骤16，若不大于，则执行步骤17。

其中，预设衰减系数的初始值和第一预设值均可以根据实际情况进行设置，在设置时，预设衰减系数的初始值应大于第一预设值。

步骤16：则将所述第二像素点的类别标签更新为文本类标签，并将预设衰减系数减第二预设值，将所述第二像素点作为第一像素点，返回执行步骤12。

步骤17：将当前目标图像中类别标签为文本类标签的像素点所在区域，作为包含目标文本的目标文本区域。

为了便于理解，下面结合例子对上述步骤15-步骤17进行说明。

若预设衰减系数的初始值为3，第一预设值为0，第二预设值为1，参见图5，图5为本发明实施例提供的连通域搜索的一种示意图，图5中加粗的矩形框表示边界类标签的像素点组成的文本区域的边界，圆点代表文本区域内的部分像素点，其中，空心圆点代表文本类标签的第一像素点，实心圆点代表由于边界区域误检产生的非文本类标签的像素点，其中，非文本类标签表示边界类标签或背景类标签。如图5所示，误检产生的非文本类标签的像素点共4排，每排3个。

当第一像素点沿向右方向进行连通域搜索时，获取到与第一像素点相邻的第二像素点，该第二像素点的标签类型为非文本类，而当前的衰减系数为3，大于第一预设值0，则将第二像素点的类别标签更新为文本类标签，并将衰减系数减去1，则此时衰减系数为2。

将上述第二像素点作为新的第一像素点，并继续沿向右方向进行连通域搜索，获取到与当前第一像素点相邻的新的第二像素点，该新的第二像素点的类别标签也为非文本类，且此时的衰减系数为2，大于第一预设值0，则继续将该新的第二像素点的类别标签更新为文本类标签，并将衰减系数减去1。此外，将当前第二像素点作为新的第一像素点，继续沿向右方向进行连通域搜索，直到衰减系数不大于第一预设值时，停止更新第二像素点的标签类型。

由于上述预设的衰减系数的初始值为3，因此，能够将第一排的非文本类标签的像素点均更新为文本类标签的像素点，同理，第二排，第三排以及第四排中的非文本类标签的像素点也可以根据上述方法更新为文本类标签的像素点，则更新后的像素点的标签类型可以参见图5。

可见，采用上述方法，能够根据语义分割网络模型输出的目标图像中各个像素点的类别标签，进行连通域搜索，得到文本连通域，且在进行连通域搜索时，引入了衰减系数，能够将因为误检生成的非文本类像素点更新为文本类像素点，保证了文本区域的连通，避免过度分割造成文本区域隔断。

在本发明的一种实施例中，为了获取更为规则的目标文本区域，可以基于目标图像中各个像素点的类别标签，确定出能够包含目标文本的多边形区域，作为目标文本区域，具体的，根据目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域的步骤，可以包括以下细化步骤：

步骤21：针对每个文本连通域，获取外接该文本连通域的矩形图像；所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域；

在本步骤中，针对每个文本连通域，可以获取该文本连通域中像素点的横纵坐标的最大值和最小值，进而确定外接该文本连通域的矩形，截取该矩形区域，得到外接该文本连通图的矩形图像。

一种实现方式中，为了保证文本连通域中的像素点均被纳入矩形图像中，可以在确定矩形区域后，将该矩形区域外扩预设倍数，并基于外扩后的矩形区域，生成矩形图像。例如，将外接文本连通域的矩形增大0.1倍，再截取增大后的矩形区域，作为矩形图像。

步骤22：将所述矩形图像中类别标签为文本类标签的像素点赋值为第一数值，并将所述矩形图像中类别标签为边界类或背景类标签的像素点赋值为第二数值，得到所述矩形图像对应的二值图像；

其中，第一数值和第二数值可以根据实际情况进行设定，例如，将第一数值设定为1，将第二数值设定为0。

在本步骤中，可以生成与矩形图像的尺寸、大小均相同的二值图像，具体的，可以将矩形图像中类别标签为文本类标签的像素点赋值为第一数值，将类别标签不为文本类标签的像素点赋值为第二数值，从而得到二值图像，二值图像与矩形图像的像素点一一对应。

步骤23：将二值图像输入预先训练的角点网络模型，得到多个角点坐标；所述角点网络模型是根据多个样本二值图像以及各个样本二值图像对应的角点坐标训练得到的。

在本步骤中，可以将二值图像输入预先训练的角点网络模型中，由于角点网络模型是根据多个样本二值图像以及各个样本二值图像对应的角点坐标训练完成的，因此，角点网络模型可以输出二值图像对应的角点坐标。

上述角点网络模型可以为卷积神经网络，深度神经网络等。

其中，用于训练角点网络模型的样本二值图像以及对应的角点坐标可以通过如下方法获取：

获取多张包含文本字符串的图像，并通过人工标注的方式在每个文本字符串区域周边标注预设数目的角点，再进行标注时，可以根据文本字符串区域的实际形状进行标注。举例来讲，可以参见图6，图6所示的文本区域为环形区域，则在进行标注时，可以按照图6所示的角点进行标注，图6中共有14个标注的角点，其中角点1，角点7，角点8和角点14分别位于左上顶点，右上顶点，右下顶点和左下顶点，上边界的角点2，角点3，角点4，角点5和角点6为连接角点1和角点7后作6等分垂直线与上边界的交点，下边界的角点9，角点10，角点11，角点12和角点13同理可得。

标定角点后，连接各个角点即可得到标注的每个文本字符串对应的多边形文本区域，并截取外接每个文本区域的矩形图像，生成与矩形图像对应的二值图像，生成二值图像的过程与上述步骤22相同。进而可以将每个二值图像与其对应的多个角点坐标作为角点网络模型的训练样本。

在获取训练样本后，可以基于上述训练样本对角点网络模型进行训练，具体的，可以将多个二值图像输入角点网络模型，得到每个二值图像对应的多个角点坐标，与训练样本中的角点坐标作对比，基于损失函数计算损失值，直到损失值小于预设阈值，则训练完成。

在训练时采用的损失函数可以根据实际情况进行设置，例如可以设置角点坐标的均方误差，相邻角点之间边长的均方误差，角点的角度均方误差等作为损失函数。

步骤24：将得到的多个角点坐标组成的多边形区域，作为目标文本区域。

确定出多个角点坐标后，依次连接每个角点，即可得到包含目标文本的目标文本区域，该目标文本区域为规则的，多边形区域。

例如，可以参见图7，图7为本发明实施例提供的目标图像中目标文本区域的示意图，可见文本区域为包含文本字符串“CHOCOLATE”的多边形区域。

S104：对目标文本区域进行矫正，得到矩形文本区域。

在获取包含目标文本的目标文本区域后，由于目标文本区域可能是不规则的多边形，若直接对目标文本区域进行文本识别，则识别结果可能并不准确。为了提高文本识别准确性，可以对目标文本区域进行矫正，得到规则的矩形文本区域。

在本发明的一种实施例中，可以根据目标文本区域各个角点的坐标，对目标文本区域进行矫正，确定目标文本区域的各个角点的矫正坐标，得到矩形文本区域。具体的，可以采用TPS(Thin Plate Spline，薄板样条插值)算法将目标文本区域中原本的坐标{P₁,P₂,…,P_n,P_n+1,…,P_2×n}映射至矩形文本区域中的新坐标{T₁,T₂,…,t_n,T_n+1,…,T_2×n}。

其中，坐标映射的公式如下：

avg_h＝[Distance(P_i,P_2×n)+Distance(P_n，P_n+1)1/2；

举例来讲，可以参见图8，按照上述方法，可以将图8中左侧所示的多边形的目标文本区域矫正为图8右侧所示的矩形的目标文本区域。

矫正后的目标文本区域为规则的矩形区域，针对矩形区域进行文本识别，能够提高识别准确性。

可见，本发明实施例中，能够将待检测的目标图像输入预先训练的语义分割网络模型中，得到目标图像中各个像素点的类别标签，包括文本类标签，边界类标签和背景类标签，其中边界类标签的像素点位于各个文本区域的周边，因此，能够将不同文本区域的文本块分割开。再根据文本类标签的像素点，确定包含目标文本的目标文本区域，并对目标文本区域进行矫正，得到矩形文本区域，矩形文本区域能够便于文本识别，提高文本识别的准确性。

本发明实施例中，上述语义分割网络模型中可以包括提取图像特征的网络模型，例如，提取图像特征的网络模型可以为ResNet-50网络模型。

本发明实施例中，可以采用如下方法训练语义分割网络模型：获取预设训练集，其中预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签；

将多个样本图像输入语义分割网络模型，得到每个样本图像中各个像素点的类别标签，再与训练集中样本图像的像素点类别标签作对比，基于预设损失函数计算损失值，直到损失值小于预设阈值，则训练完成。

在训练时采用的损失函数可以根据实际情况进行设置，例如可以设置类型标签的均方误差作为损失函数。

在本发明的一种实施例中，由于目标图像可能存在部分背景区域的纹理与文本字符较为相似，因此可能导致文本区域误检，此类误检的区域通常没有完整的边界，因此，可以针对语义分割网络模型输出的各个像素点的类别标签，筛除上述误检，具体的，在根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域之前，可以按照如下步骤更新部分像素点的类别标签：

步骤31：针对每个文本连通域，确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例，其中，文本连通域为目标图像中类别标签为文本类标签的像素点所在区域。

在本步骤中，针对每个文本连通域，可以统计该连通域周边的像素点中类别标签为边界类标签的像素点的个数，以及该连通域周边的像素点中类别标签为背景类标签的像素点的个数，并计算二者的比例。比例越小，说明该连通域周边的像素点中类别标签为背景类标签的像素点越多，则该连通域越可能为误检的连通域。

步骤32：若确定的比例小于预设比例阈值，则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。

上述预设比例阈值可以根据实际情况进行设定。当确定的比例小于预设比例阈值时，可以认为该连通域是误检得到的，即连通域中并非文本区域，而是与文本的纹理较为相似的背景所在区域，为了删除误检，可以将该文本连通域中的像素点及其周边像素点的类别标签均更新为背景类标签。

可见，通过上述方法能够检测文本区域的边界包围情况，当文本区域边界较小时，判断该文本区域是由误检得到的，并进行更正。从而剔除掉由于纹理相似等原因造成的文本区域误检情况，使得最终获取的目标文本区域更为准确。

基于相同的发明构思，根据上述文本区域检测方法实施例，本发明实施例还提供了一种文本区域检测装置，参见图9，可以包括以下模块：

获取模块901，用于获取待检测的目标图像，目标图像中包含目标文本；

语义分割模块902，用于将目标图像输入预先训练的语义分割网络模型中，得到目标图像中各个像素点的类别标签，语义分割网络模型是根据预设训练集训练得到的，预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签；

确定模块903，用于根据目标图像中类别标签为文本类标签的像素点，确定包含目标文本的目标文本区域；

矫正模块904，用于对目标文本区域进行矫正，得到矩形文本区域。

应用本发明实施例提供的文本区域检测装置，能够将待检测的目标图像输入预先训练的语义分割网络模型中，得到目标图像中各个像素点的类别标签，包括文本类标签，边界类标签和背景类标签，其中边界类标签的像素点位于各个文本区域的周边，因此，能够将不同文本区域分割开。再根据文本类标签的像素点，确定包含目标文本的目标文本区域，并对目标文本区域进行矫正，得到矩形文本区域，矩形文本区域能够便于文本识别，提高文本识别的准确性。

在本发明的一种实施例中，在图9所示的文本区域检测装置的基础上，还可以包括更新模块，更新模块用于针对每个文本连通域，确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例；文本连通域为目标图像中类别标签为文本类标签的像素点所在区域；若确定的比例小于预设比例阈值，则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。

在本发明的一种实施例中，确定模块903，具体用于：

从目标图像中类别标签为文本类标签的像素点中选择像素点，作为第一像素点；

获取在预设方向上与第一像素点相邻的像素点，作为第二像素点；

判断第二像素点的类别标签是否为文本类标签；

若不是文本类标签，判断预设衰减系数是否大于第一预设值，预设衰减系数的初始值大于第一预设值；

若不大于第一预设值，则将当前目标图像中类别标签为文本类标签的像素点所在区域，作为包含目标文本的目标文本区域。

在本发明的一种实施例中，确定模块903，具体还可以用于：

若大于第一预设值，则将第二像素点的类别标签更新为文本类标签，并将预设衰减系数减第二预设值，将第二像素点作为第一像素点，返回执行获取在预设方向上与第一像素点相邻的像素点，作为第二像素点；

若第二像素点的类别标签为文本类标签，则将第二像素点作为第一像素点，返回执行获取在预设方向上与第一像素点相邻的像素点，作为第二像素点。

在本发明的一种实施例中，确定模块903，具体可以用于：

针对每个文本连通域，获取外接该文本连通域的矩形图像；文本连通域为目标图像中类别标签为文本类标签的像素点所在区域；

将矩形图像中类别标签为文本类标签的像素点赋值为第一数值，并将矩形图像中类别标签为边界类或背景类标签的像素点赋值为第二数值，得到矩形图像对应的二值图像；

将二值图像输入预先训练的角点网络模型，得到多个角点坐标；角点网络模型是根据多个样本二值图像以及各个样本二值图像对应的角点坐标训练得到的；

将得到的多个角点坐标组成的多边形区域，作为目标文本区域。

在本发明的一种实施例中，矫正模块904，具体可以用于：

根据目标文本区域各个角点的坐标，利用以下公式，对目标文本区域进行矫正，确定目标文本区域的各个角点的矫正坐标，得到矩形文本区域：

avg_h＝[Distance(P₁,P_2×n)+Distance(P_n,P_n+i)]/2；

其中，avgw为目标文本区域的平均宽度，avgh为目标文本区域的平均高度，Pi表示文本区域中第i个角点，Distance(P_i,P_i+1)表示文本区域中第i个角点和第i+1个角点的距离，Ti为目标文本区域的第i个角点的矫正坐标。

基于相同的发明构思，根据上述文本区域检测方法实施例，本发明实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如下步骤：

获取待检测的目标图像，目标图像中包含目标文本；

将目标图像输入预先训练的语义分割网络模型中，得到目标图像中各个像素点的类别标签，语义分割网络模型是根据预设训练集训练得到的，预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签；

根据目标图像中类别标签为文本类标签的像素点，确定包含目标文本的目标文本区域；

对目标文本区域进行矫正，得到矩形文本区域。

上述电子设备提到的通信总线1004可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1002用于上述电子设备与其他设备之间的通信。

存储器1003可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1001可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

应用本发明实施例提供的电子设备，能够将待检测的目标图像输入预先训练的语义分割网络模型中，得到目标图像中各个像素点的类别标签，包括文本类标签，边界类标签和背景类标签，其中边界类标签的像素点位于各个文本区域的周边，因此，能够将不同文本区域分割开。再根据文本类标签的像素点，确定包含目标文本的目标文本区域，并对目标文本区域进行矫正，得到矩形文本区域，矩形文本区域能够便于文本识别，提高文本识别的准确性。

基于相同的发明构思，根据上述文本区域检测方法实施例，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述图1-8所示的任一文本区域检测方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于文本区域检测装置、电子设备及存储介质实施例而言，由于其基本相似于文本区域检测方法实施例，所以描述的比较简单，相关之处参见文本区域检测方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本区域检测方法，其特征在于，所述方法包括：

获取待检测的目标图像，所述目标图像中包含目标文本；

对所述目标文本区域进行矫正，得到矩形文本区域；

在根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域之前，还包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域的步骤，包括：

判断所述第二像素点的类别标签是否为文本类标签；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像中类别标签为文本类标签的像素点，确定包含所述目标文本的目标文本区域的步骤，包括：

5.一种文本区域检测装置，其特征在于，所述装置包括：

矫正模块，用于对所述目标文本区域进行矫正，得到矩形文本区域；

所述装置还包括更新模块，

6.根据权利要求5所述的装置，其特征在于，所述确定模块，具体用于：

判断所述第二像素点的类别标签是否为文本类标签；

7.根据权利要求5所述的装置，其特征在于，所述确定模块，具体用于：

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。