CN112580624B

CN112580624B - 基于边界预测的多方向文本区域检测方法和装置

Info

Publication number: CN112580624B
Application number: CN202011295447.8A
Authority: CN
Inventors: 刘超; 喻民; 梁小霞; 姜建国; 刘超超; 黄伟庆
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2023-08-04
Anticipated expiration: 2040-11-18
Also published as: CN112580624A

Abstract

本发明实施例提供一种基于边界预测的多方向文本区域检测方法和装置，该方法包括：确定待测图像；将待测图像输入检测模型，输出文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；其中，检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定文本区域。本发明实施例提供的方法和装置，实现了多方向的文本区域检测和分离近距离的文本区域。

Description

基于边界预测的多方向文本区域检测方法和装置

技术领域

本发明涉及文本区域检测技术领域，尤其涉及一种基于边界预测的多方向文本区域检测方法和装置。

背景技术

图像文本区域检测作为计算机视觉的基本任务，已得到广泛的研究。图像文本区域检测旨在准确地定位图像中文本区域的位置，并且其为许多实际应用的重要技术，如图像/检索、自动驾驶、盲人导航。虽然目前对于文档图像的分析和识别方法已经成熟，但对于复杂背景图像如自然场景图像，由于背景和文本区域的混合、文本的任意方向性以及文本区域的任意形状性，使得检测图像中的文本区域仍具有很大的困难。

近年来，随着卷积神经网络的快速发展，基于深度学习的图像文本区域检测也取得了很大的进展。基于深度学习的图像文本区域检测方法大致可以分为两类：基于边界框回归的方法和基于语义分割的方法。其中基于边界框回归的方法大多数是基于FasterRCNN、SSD和Yolo这些目标检测框架来实现的，其主要通过回归方法得到一些候选文本区域，然后对候选文本区域进行筛选；基于语义分割的方法是对图像中的像素进行文本/非文本分类，即判断图像中的每个像素是否属于文本像素，对输入图像中的每个像素进行打分，得到分数图，针对分数图再进行后处理得到候选文本区域。

当前图像文本区域检测方法存在的缺陷主要有：基于边界框回归的方法比较适合检测水平方向的文本，需要复杂的网络结构设计才能够检测多方向上的文本；而基于语义分割的方法是对图像中的每个像素进行分类，因此该方法对方向不敏感，可以实现多方向的文本区域检测，但当两个文本区域离的比较近时，很难通过语义分割的方法将他们分离开。目前，有极少的基于语义分割的实现分离近距离的文本区域，但它们的训练过程和后处理过程都比较复杂。

因此，如何避免现有的图像文本区域检测方法的无法实现多方向的文本区域检测，难以分离近距离的文本区域，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明实施例提供一种基于边界预测的多方向文本区域检测方法和装置，用以解决现有的图像文本区域检测方法的无法实现多方向的文本区域检测和难以分离近距离的文本区域的问题。

第一方面，本发明实施例提供一种基于边界预测的多方向文本区域检测方法，包括：

确定待测图像；

将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；

其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；

基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。

该方法中，所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定待测图像中的文本区域，具体包括：

基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域；

若任一候选文本区域中包含的候选左边界区域或候选右边界区域或候选上边界区域或候选下边界区域的个数至少有一个超过1，则将所述任一候选文本区域按照个数超过1的边界区域进行分离确定待测图像中的文本区域。

该方法中，所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域，具体包括：

基于预设的文本分数阈值和所述文本分数图确定有效文本像素，根据连通域算法确定所述有效文本像素构成的候选文本区域；

基于预设的上边界分数阈值和所述上边界分数图确定有效上边界像素，根据连通域算法确定所述有效上边界像素构成的候选上边界区域；

基于预设的下边界分数阈值和所述下边界分数图确定有效下边界像素，根据连通域算法确定所述有效下边界像素构成的候选下边界区域；

基于预设的左边界分数阈值和所述左边界分数图确定有效左边界像素，根据连通域算法确定所述有效左边界像素构成的候选左边界区域；

基于预设的右边界分数阈值和所述右边界分数图确定有效上边界像素，根据连通域算法确定所述有效右边界像素构成的候选右边界区域。

该方法中，所述检测模型训练时使用的神经网络包括特征提取网络、特征融合网络和分数预测网络；

所述特征提取网络由两个均含有两个卷积层和一个池化层的局部网络和三个均含三个卷积层和一个池化层的局部网络依次连接构成；

所述特征提取网络的5个局部网络依次输出样本文本图像的下采样2倍特征图、下采样4倍特征图、下采样8倍特征图、下采样16倍特征图和下采样32倍特征图。

该方法中，所述特征融合网络由三个阶段网络依次连接组成，任一所述阶段网络以预设连接规则将一个反卷积层、一个融合层、一个标准化层、一个卷积层、一个标准化层和一个卷积层进行连接；

上述三个阶段网络按照预设规则进行特征图融合后依次输出特征融合后的下采样8倍特征图、下采样16倍特征图和下采样32倍特征图。

该方法中，所述特征融合网络中的融合规则通过如下公式表示：

其中，f_i为所述特征提取网络中的第i个局部网络输出的特征图，u_i表示所述特征融合网络中第i阶段网络的特征融合结果输出，[a；b]表示将特征图a和特征图b沿着通道轴进行连接；UpSampling_×2表示上采样2倍操作。

该方法中，所述检测模型训练时的损失函数包括文本区域误差项和各边界区域误差项。

第二方面，本发明实施例提供一种基于边界预测的多方向文本区域检测装置，包括：

确定单元，用于确定待测图像；

检测单元，用于将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；

分离单元，用于基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的基于边界预测的多方向文本区域检测方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的基于边界预测的多方向文本区域检测方法的步骤。

本发明实施例提供的方法和装置，确定待测图像；将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域；其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的。由于检测模型训练时是将标签从原来的单一标签文本区域标注框替换成文本区域标注框、上边界标注框、下边界标注框、左边界标注框和右边界标注框，增加标签类别使得预测结果中提取文本区域除了根据输出预测文本区域，还有预测边界区域进行文本区域的划分而提高文本区域检测的准确性，而通过边界区域的划分也可以将近距离的文本区域进行有效的分离。因此，本发明实施例提供的方法和装置，实现了多方向的文本区域检测和分离近距离的文本区域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于边界预测的多方向文本区域检测方法的流程示意图；

图2为本发明实施例提供的基于边界预测的多方向文本区域检测装置的结构示意图；

图3为本发明实施例提供的顺时针排序过程的原理示意图；

图4为本发明实施例提供的计算文本上边界区域的示例图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的图像文本区域检测方法普遍难以实现多方向的文本区域检测和难以分离近距离的文本区域的问题。对此，本发明实施例提供了一种基于边界预测的多方向文本区域检测方法。图1为本发明实施例提供的基于边界预测的多方向文本区域检测方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待测图像。

具体地，对于需要进行文本区域检测的图像将其确定为待测图像。

步骤120，将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的。

具体地，将待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图。其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的。要训练检测模型，首先构建该检测模型的训练集，包括样本文本图像和对应的样本文本图像上文本的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签。此处需要说明的是上述不同区域的标注框标签都是人工在样本文本图像上进行标注的。实际进行训练时，都是用各区域的标注框的四个顶点坐标作为标签数据。

步骤130，基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。

具体地，由于输出结果为五通道的分数图，每个通道对应不同区域(文本区域、上边界、下边界、左边界和右边界)的分数图，其中，任一区域分数图的定义为每个像素点的数值根据该像素点属于所述任一区域的概率的大小在0-1之间变化，例如，上边界的分数图中，像素点对应的数值超过0.9的像素点很大概率属于上边界区域。因此，在根据不同区域分数图进行不同区域的判断时，需要依据预先设置好的分数阈值进行切割，例如，设置文本区域的分数阈值为0.85，那么文本分数图中数值超过0.85的像素值则判定为疑似文本区域像素点，然后将所有疑似文本区域像素点进行一个连通判定，去掉噪点，就可以得到候选文本区域；其他的各边界区域也按照上述操作选出候选上边界区域、候选下边界区域、候选左边界区域和候选右边界区域，最后，根据候选文本区域中包含的各候选边界的个数，对所述候选文本区域进行其中包含的更小面积的各文本区域的划分，如此实现近距离的文本区域的分离。

本发明实施例提供的方法，确定待测图像；将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域；其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的。由于检测模型训练时是将标签从原来的单一标签文本区域标注框替换成文本区域标注框、上边界标注框、下边界标注框、左边界标注框和右边界标注框，增加标签类别使得预测结果中提取文本区域除了根据输出预测文本区域，还有预测边界区域进行文本区域的划分而提高文本区域检测的准确性，而通过边界区域的划分也可以将近距离的文本区域进行有效的分离。因此，本发明实施例提供的方法，实现了多方向的文本区域检测和分离近距离的文本区域。

基于上述实施例，该方法中，所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定待测图像中的文本区域，具体包括：

具体地，根据预设的文本分数阈值处理文本分数图，可以将文本分数图从像素点的值从0-1的实数范围简化为0和1的二值化图，其中，原数值大于文本分数阈值的文本分数图中的像素点的数值判定为1，否则判定为0，如此得到文本二值化图，而其中数值为1的点为疑似属于文本区域的像素点。其他区域的分数图和对应的分数阈值也采用上述处理规则得到对应的上边界二值化图、下边界二值化图、左边界二值化图和右边界二值化图，因此，同样的处理可以确定疑似属于上边界的像素点、疑似属于下边界的像素点、疑似属于左边界的像素点和疑似属于右边界的像素点。然后，基于上述这些疑似点，进行一个连通判定，去掉噪点，就可以得到候选文本区域；其他的各边界区域也按照上述操作选出候选上边界区域、候选下边界区域、候选左边界区域和候选右边界区域，最后，根据候选文本区域中包含的各候选边界的个数，若任一候选文本区域中包含的候选左边界区域或候选右边界区域或候选上边界区域或候选下边界区域的个数至少有一个超过1，则将所述任一候选文本区域按照个数超过1的边界区域进行分离确定待测图像中的文本区域。例如，目前确定的候选文本文本区域A，找到了它包括左边界区域1个，右边界区域1个，但是上下边界区域都有三个，其中，可以判定的是左右边界位于候选文本文本区域A的最外沿的左右两边，而三对上下边界中只有一对上下边界是分别位于候选文本文本区域A的最外沿的上下两边，其他的两对上下边界位于候选文本文本区域A的内部，因此，可以得知候选文本文本区域A由3行文本组成，只需要其内部的两对上下边界对其进行以行为基准的划分，分离出相应的三行文本区域。

基于上述任一实施例，该方法中，所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域，具体包括：

具体地，确定候选文本区域需要进行如下操作：基于预设的文本分数阈值和所述文本分数图确定有效文本像素，根据连通域算法确定所述有效文本像素构成的候选文本区域，所述连通域算法用于将单个有效文本像素进行连通确定文本区域，连通过程中去掉噪点得到符合常规的文本区域，例如，B点为有效文本像素，而通过连通域算法确定的B点的领域中像素点都不是有效文本像素，因此，B点为噪点被从有效本文像素去除掉，或者，C点不是有效文本像素，而通过连通域算法确定的C点的领域中像素点都是有效文本像素，因此，C点被更改为有效本文像素去，最终确定的有效文本像素相互连续组成的区域即为候选文本区域。同理，采用与确定候选文本区域相同的操作处理，得到候选上边界区域、候选下边界区域、候选左边界区域和候选右边界区域。

基于上述任一实施例，该方法中，还包括：所述检测模型训练时使用的神经网络包括特征提取网络、特征融合网络和分数预测网络；

具体地，表1为特征提取网络中每个局部网络的组成结构以及输入输出，表1如下所示：

表1特征提取网络中每个局部网络的组成结构以及输入输出

如表1所示，检测模型训练时使用的神经网络是由三个网络模块组成：特征提取网络、特征融合网络和分数预测网络。其中，特征提取网络包括5个局部网络，第1个局部网络和第2个局部网络均由有两个卷积层和一个池化层组成，第3个局部网络、第4个局部网络和第5个局部网络均由三个卷积层和一个池化层组成，具体地，表1中给出了每个局部网络的结构以及输入输出，输入输出是通过连接层体现的，而且从连接层的内容可知，这5个局部网络都是顺次连接，而且每个局部网络中的卷积层和池化层也是按照表1中的排列顺序顺次连接。

所述特征提取网络的每个局部网络都会产生多通道的特征图，且每经过一个局部网络产生的特征图的大小会减半。具体地，所述特征提取网络的5个局部网络依次输出样本文本图像的下采样2倍特征图、下采样4倍特征图、下采样8倍特征图、下采样16倍特征图和下采样32倍特征图。

基于上述任一实施例，该方法中，所述特征融合网络由三个阶段网络依次连接组成，任一所述阶段网络以预设连接规则将一个反卷积层、一个融合层、一个标准化层、一个卷积层、一个标准化层和一个卷积层进行连接；

具体地，表2为特征融合网络中每个阶段网络的组成结构以及输入输出，表2如下所示：

表2特征提取网络中每个局部网络的组成结构以及输入输出

如表2所示，特征融合网络包括3个阶段网络，任一阶段网络以预设连接规则将一个反卷积层、一个融合层、一个标准化层、一个卷积层、一个标准化层和一个卷积层进行连接，表1中给出了每个局部网络的结构以及输入输出，输入输出是通过连接层体现的，表1中的预设连接规则为每个阶段网络中的融合层的输入除了近邻其在前面的反卷积层的输出，还包括对应池化层的输出，具体地对应方式则是第一阶段网络的融合层的输入包括第四局部网络的池化层输出，第二阶段网络的融合层的输入包括第三局部网络的池化层输出，第三阶段网络的融合层的输入包括第二局部网络的池化层输出。然后，上述三个阶段网络按照预设规则进行特征图融合后依次输出特征融合后的下采样8倍特征图、下采样16倍特征图和下采样32倍特征图。第三阶段网络最后的卷积层u3-conv2的输出即为所述分数预测网络的输入，分数预测网络输出五个通道的分数图。

基于上述任一实施例，该方法中，所述特征融合网络中的融合规则通过如下公式表示：

具体地，特征融合的计算方式通过以上公式进行描述，如此生成最后经过融合的下采样8倍特征图、下采样16倍特征图和下采样32倍特征图。

基于上述任一实施例，该方法中，所述检测模型训练时的损失函数包括文本区域误差项和各边界区域误差项。

具体地，该检测模型的神经网络采用了多任务学习策略，整个损失函数包含两部分：文本分类误差项和边界分类误差项，损失函数J定义如下：

J＝J₁+J₂

其中，J₁和J₂分别表示文本分类损失函数和边界分类损失函数，上述两个分类损失函数通常采用交叉熵损失，是平衡与之间的差异；

更进一步地，其中，/>是模型输出的文本分类预测值，y是模型输入的样本图像对应的文本区域标注框标签值；其中，/>是模型输出的任一边界分类预测值，y是模型输入的样本图像对应的任一边界区域标注框标签值。

基于上述任一实施例，本发明实施例提供一种基于边界预测的多方向文本区域检测装置，图2为本发明实施例提供的基于边界预测的多方向文本区域检测装置的结构示意图。如图2所示，该装置包括确定单元210、检测单元220和分离单元230，其中，

所述确定单元210，用于确定待测图像；

所述检测单元220，用于将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；

所述分离单元230，用于基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。

本发明实施例提供的装置，确定待测图像；将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域；其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的。由于检测模型训练时是将标签从原来的单一标签文本区域标注框替换成文本区域标注框、上边界标注框、下边界标注框、左边界标注框和右边界标注框，增加标签类别使得预测结果中提取文本区域除了根据输出预测文本区域，还有预测边界区域进行文本区域的划分而提高文本区域检测的准确性，而通过边界区域的划分也可以将近距离的文本区域进行有效的分离。因此，本发明实施例提供的装置，实现了多方向的文本区域检测和分离近距离的文本区域。

基于上述任一实施例，该装置中，所述分离单元，具体用于，

基于上述任一实施例，该装置中，所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域，具体包括：

基于上述任一实施例，该装置中，所述检测模型训练时使用的神经网络包括特征提取网络、特征融合网络和分数预测网络；

基于上述任一实施例，该装置中，所述特征融合网络由三个阶段网络依次连接组成，任一所述阶段网络以预设连接规则将一个反卷积层、一个融合层、一个标准化层、一个卷积层、一个标准化层和一个卷积层进行连接；

基于上述任一实施例，该装置中，所述特征融合网络中的融合规则通过如下公式表示：

其中，f_i为所述特征提取网络中的第i个局部网络输出的特征图，u_i表示所述特征融合网络中第i阶段网络的特征融合结果输出，[a；b]表示将特征图a和特征图b沿着通道轴进行连接；uPsANpling_×2表示上采样2倍操作。

基于上述任一实施例，该装置中，所述检测模型训练时的损失函数包括文本区域误差项和各边界区域误差项。

基于上述任一实施例，本发明实施例提供一种检测模型训练之前标签集的生成方法。因为上述任一实施例中的检测模型训练时的神经网络都是对图像中的每个像素进行分类，因此需要相应的每个像素都被标记的样本来训练网络，而目前数据集给的样本标签是文本框的四个顶点，因此，需要生成相应的文本标签和边界标签，对于某个样本文本图像，需要标出包含文本区域的文本标注框，还需要在文本区域的四周标出上、下、左和右四个边上的边界标注框。

可以根据文本框的四个顶点生成文本标签。生成文本标签方法的具体步骤如下：

首先对文本框的四个顶点按顺时针进行排序，图3为本发明实施例提供的顺时针排序过程的原理示意图。如图3所示，先对四个顶点按X坐标的大小排序，那么前两个顶点即为最左边的两个顶点，这两个顶点的Y值较小的即为左上顶点，剩下的即为右下顶点，分别标记为点a和点b，然后分别计算和点d与剩余两点组成的向量的夹角的大小，根据夹角大小可以确定右上顶点，标记为b，剩下一个顶点为右下顶点标记为c。

将在文本区域的像素标记为正像素，其他的标记为负像素，此处采用向量叉乘的方法来判断图像中像素点是否在文本区域内。

对于边界区域标签，每个文本有上、下、左、右四个边界区域。设置文本边界区域的宽度为文本框最短边长度的1/5，图4为本发明实施例提供的计算文本上边界区域的示例图。如图4所示，计算文本的上边界区域的四个顶点的过程如下：

根据文本框的四个顶点坐标，计算每条边的长度，取最短边的长度L，通过计算出文本边界区域的四个顶点确定文本上边界区域(标黑区域)，因此，能够用同样的方法计算出其他边界区域。

基于上述任一实施例提供的方法，本发明实施例提供一种获取检测模型输出的分数后的文本分离方法，文本分离方法的目的是根据网络输出生成分离清晰的文本框，因为检测模型对应网络输出的是184x184x5的分数图(示例中样本文本图像的大小为184x184)，5个通道对应的分数分别是文本、上、右、下、左边界。根据预测的文本分数图和边界分数图获得最后的检测结果。表3为产生分离文本框的算法，其描述了从分数图生产分离文本框的过程。

表3产生分离文本框的算法

从表3可知，在第一个通道上根据分数阈值过滤出有效的文本像素，在有效像素上根据连通域法计算出候选文本区域。使用同样的方法计算出每个候选文本区域的四个边界区域。一个候选文本区域中若有多个上、下边界区域，就认为该候选文本区域包含多个区域，然后根据上下边界将该文本区域分离。根据四个边界来确定文本域的四个顶点，生成分离文本框。

实验数据选取了三个标准的数据集：ICPR2018 MTW、MSRA-TD500、ICDAR2017RCTW。

ICPR2018 MTW数据集包含10000张标记的用于训练的图像和10000张未标记的测试图像，数据集的标注是文本框的四个顶点坐标。该数据集图片中的文字以中文为主包含多种语言，文本也是多方向的。另外，该数据集中的图像包含的文本较多，且存在多个文本重叠的情况。

MSRA-TD500是多方向的包含中文和英文的数据集，是较早用于多方向文本区检测的数据集。该数据集包含300张训练图像和200张测试图像，图像的分辨率在1296x864到1920x1280之间。图像中的文本标注是以行为单位的，其标注方式与另外两个数据集不同，是标注文本框旋转到水平方向时左上顶点的坐标和中心点的坐标，以及文本框的长度和宽度和倾斜角度。该数据集中的每张图像中的文字相对另外两个数据集较少，通常包含两三行文本，文本的方向、大小、颜色、布局具有多样性。

ICDAR2017 RCTW数据集包含12263张图像，其中包含8034张训练图像和4229张测试图像，这些图像来自街景、室内场景、海报和截屏等。该数据集的标注方式是文本框的四个顶点坐标。数据集中的图像至少包含一行文字，且文字的大小、布局和方向都是多样的。

设置实验的训练和测试环境，表4为本实验的训练和测试环境，如下所示：

表4本实验的训练和测试环境

项目	参数
		操作系统	Window7
处理器	Intel i7-7820x 3.6GHz
		显卡	GTX1080ti
内存	32GB
		深度学习框架	Keras
实现语言	Python

训练过程：

由于ICPR2018 MTWI数据集是最新发布的，数据集量也相对较大，且图像中的文本数量也较多，对文本的标注也更加准确，因此网络选择该数据集进行预训练得到模型，训练其它数据集时是在预训练模型上进行微调获得相应的模型。

文本区域检测网络是使用Adam优化算法训练的，batch size设置为8。训练图像的大小设置为736x736x3，在预训练阶段，学习率先设为第一学习率、权重衰减率设为第一衰减率，经过25000次迭代后，学习率先设为第二学习率、权重衰减率设为第二衰减率。

测试过程：

在测试过程中，将测试图片的大小缩放至736x736x3输入到测试网络中并保存宽高缩放比例，然后利用上述分离文本框方法计算出测试图片中的文本框，分数阈值设置为0.9，根据保存的宽高缩放比例计算出对应的原图中文本框所在的位置。使用检测评估方法IoU(intersection-over-union)来计算检测的文本框相对于标注文本框的正确数量。

实验结果与分析：

使用标准的文本区域检测评估方法IoU在上述三个数据集上评价提出的文本区域检测方法。在实验中设置IoU的阈值为0.5，当检测到的文本框与原图像中标记的文本框的IoU的值高于0.5时，认为该检测的文本框是正确的。下面是在各个数据集上的实验结果。

ICPR2018 MTWI：由于发布的测试图像没有标注图像中文本框的位置，因此是在10000张标注的图像上进行训练和测试的，训练图像和测试图像是按9:1的比例随机分配的。提出的文本区域检测方法在该数据集上达到了81.0％的准确率、49.7％的召回率，F-measure值是61.6％。目前在该数据集上没有公开的可得到的方法进行比较。在测试数据集上部分结果中可以发现即使该数据集中的背景很复杂，文本也比较混乱，但提出的方法仍然能够很好的检测出图像中的文本，并且能够准确的检测出距离很近的文本，也能够准确检测出长文本和尺度比较小的文本。对于小尺度的文本，检测到边界区域可能不连续，但是还可以通过后处理方法结合检测到的文本区域进而准确的计算出文本框。

MSRA-TD500：使用在ICPR2018 MTWI训练的模型在MSRA-TD500数据集上再训练。提出的文本区域检测方法在该测试数据集上达到了76.3％的准确率、79.5的召回率以及77.9％的F-measure。表5为在MSRA-TD500数据集上各方法的比较结果，如表5所示，和其他方法相比本发明实施例提供的方法的召回率达到了最高。准确率不是很高的一个主要原因是数据集之间标注不一致引起的，由于在ICPR2018 MTWI数据集中将在一个文本行中距离较远的字符标记为多个文本，而在MSRA-TD500数据集中是标记为一个文本。由于先在ICPR2018 MTWI数据集上进行预训练，然后在MSRA-TD500数据集上进行调整，而MSRA-TD500数据集的数量较小不足够调整这个情况。因此模型会将在一行中距离较远的字符检测为多个文本区域，但这种情况不会影响后面的识别。

表5在MSRA-TD500数据集上各方法的比较结果

Algorithm	Precision	Recall	F-measure
				EAST+PVANET^[29]	87.3	67.4	76.1
EAST+VGG16^[29]	81.7	61.6	70.2
				PixelLink+VGG16^[31]	83.0	73.2	77.8
RRPN*^[22]	82	69	75
				Yao et al.^[28]	76.5	75.3	75.9
Lyu et al.^[34]	87.6	76.2	81.5
				IncepText^[32]	87.5	79.0	83.0
Ours	76.3	79.5	77.9

ICDAR2017 RCTW：表6为在数据集ICDAR2017 RCTW的测试结果，如表6所示，在该数据集上提出的方法和其他方法相比准确率和召回率都达到了最高，其中准确率达到80.7％，召回率达到62.3％。部分测试结果如表6所示，从测试结果中可以看出本发明实施例提供的方法能够很好的检测到长文本、部分被遮挡的文本，并且对于模糊不清的、曲线形状的文本，该方法也能够很好的检测到。

表6在数据集ICDAR2017 RCTW的测试结果

Algorithm	Precision	Recall	F-measure
				RRD+MS^[26]	77.5	59.1	67.0
IncepText^[32]	78.5	56.9	66.0
				SegLink^[25]	76.0	40.4	52.7
Ours	80.7	62.3	70.3

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储在存储器503上并可在处理器501上运行的计算机程序，以执行上述各实施例提供的基于边界预测的多方向文本区域检测方法，例如包括确定待测图像；将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于边界预测的多方向文本区域检测方法，例如包括确定待测图像；将所述待测图像输入检测模型，输出所述待测图像对应的文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图；其中，所述检测模型是基于样本文本图像和对应的文本区域标注框标签、上边界标注框标签、下边界标注框标签、左边界标注框标签和右边界标注框标签进行训练得到的；基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于边界预测的多方向文本区域检测方法，其特征在于，包括：

确定待测图像；

基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域；

所述基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定待测图像中的文本区域，具体包括：

若任一候选文本区域中包含的候选左边界区域或候选右边界区域或候选上边界区域或候选下边界区域的个数至少有一个超过1，则将所述任一候选文本区域按照个数超过1的边界区域进行分离确定待测图像中的文本区域；

基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、所述上边界分数图、所述下边界分数图、所述左边界分数图和所述右边界分数图确定候选文本区域、候选左边界区域、候选右边界区域、候选上边界区域和候选下边界区域，具体包括：

基于预设的右边界分数阈值和所述右边界分数图确定有效右边界像素，根据连通域算法确定所述有效右边界像素构成的候选右边界区域。

2.根据权利要求1所述的基于边界预测的多方向文本区域检测方法，其特征在于，还包括：所述检测模型训练时使用的神经网络包括特征提取网络、特征融合网络和分数预测网络；

3.根据权利要求2所述的基于边界预测的多方向文本区域检测方法，其特征在于，所述特征融合网络由三个阶段网络依次连接组成，任一所述阶段网络以预设连接规则将一个反卷积层、一个融合层、一个标准化层、一个卷积层、一个标准化层和一个卷积层进行连接；

4.根据权利要求3所述的基于边界预测的多方向文本区域检测方法，其特征在于，所述特征融合网络中的融合规则通过如下公式表示：

5.根据权利要求1所述的基于边界预测的多方向文本区域检测方法，其特征在于，还包括：所述检测模型训练时的损失函数包括文本区域误差项和各边界区域误差项。

6.一种基于边界预测的多方向文本区域检测装置，其特征在于，包括：

确定单元，用于确定待测图像；

分离单元，用于基于预设的文本分数阈值、上边界分数阈值、下边界分数阈值、左边界分数阈值、右边界分数阈值、所述文本分数图、上边界分数图、下边界分数图、左边界分数图和右边界分数图确定待测图像中的文本区域；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的基于边界预测的多方向文本区域检测方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于边界预测的多方向文本区域检测方法的步骤。