CN112784737B

CN112784737B - 结合像素分割和线段锚的文本检测方法、系统及装置

Info

Publication number: CN112784737B
Application number: CN202110083664.9A
Authority: CN
Inventors: 李源; 杨曦露
Original assignee: Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2023-10-20
Anticipated expiration: 2041-01-21
Also published as: CN112784737A

Abstract

本发明涉及文本检测控制技术领域，具体提供结合像素分割和线段锚的文本检测方法、系统及装置，旨在解决在文本检测过程中如何避免密集文本容易粘连和回归长文本的边界不准的技术问题。为此，本发明的方法包括：通过像素分割获得文本图像的像素点；以每一所述像素点为线段中心垂直设置多根不同长度的线段锚；确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型；应用所述文本检测模型对文本进行检测，获得检测后的文本行。本发明在文本检测中既能避免文本粘连问题，又能准确回归长文本的边界，具有很强的泛化能力和抗干扰能力，保证文本检测在整个光学字符识别的正确性与准确性。

Description

结合像素分割和线段锚的文本检测方法、系统及装置

技术领域

本发明涉及文本检测控制技术领域，具体涉及一种结合像素分割和线段锚的文本检测方法、系统及装置。

背景技术

文本检测是光学字符识别OCR的一项基础任务。文本背景复杂，文本大小和长宽比例变化范围很大，给文本检测任务带来了极大的挑战。近年来，随着深度学习技术的发展，基于深度学习的文本检测方法大量涌现。现有的方法主要分为两类：基于固定矩形锚的直接回归方法和基于像素分割的方法。如图1所示，基于固定矩形锚的直接回归方式学习到的是整个文本行的特征，对于密集文本不容易粘连，但在回归长文本的边界时会有较大的偏差；而基于像素分割的文本检测方法是将文本实例分割出来，然后基于分割的像素点去预测文本框，基于像素分割的方法学习到的是像素的局部特征，在文本特别密集的时候容易粘连。

因此，需要提出一种文本检测方案，能够将固定矩形锚和像素分割的文本检测两种方法的优点结合起来，既能避免文本粘连问题，又能准确回归长文本的边界，具有很强的泛化能力和抗干扰能力。

发明内容

为了克服上述缺陷，提出了本发明，以解决或至少部分地解决文本检测过程中如何避免密集文本容易粘连和回归长文本的边界不准，保证文本检测在整个光学字符识别的正确性、准确性的技术问题，本发明提供了一种结合像素分割和线段锚的文本检测方法、系统及装置。

第一方面，提供一种结合像素分割和线段锚的文本检测方法，所述方法包括：

通过像素分割获得文本图像的像素点；

以每一所述像素点为线段中心垂直设置多根不同长度的线段锚；

确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型；

应用所述文本检测模型对文本进行检测，获得检测后的文本行。

其中，确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签，具体包括：

在所述文本图像上标注四边形区域的文本标签，对所述文本标签的上下边进行内缩，获得中心区域，该中心区域内的像素点作为文本正样本，其他区域的像素点作为文本负样本；

其中，对所述文本标签的上下边内缩的幅度为所述文本标签的高度的M倍；

根据所述文本标签的四个顶点坐标和所述线段锚的两个端点坐标获得对应标注线段的坐标，并计算所述文本标签的上下边界相对于每根所述线段锚的偏移量以及每根所述线段锚与所述标注线段的交并比，若所述交并比大于第一设定阈值，则判断所述线段锚是文本正样本，否则是文本负样本；

基于所述像素点和所述线段锚训练文本检测模型，具体包括：

将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练。

其中，在x轴向右为正方向、y轴向下为正方向的坐标轴中，所述文本标签从左上角开始顺时针方向的四个点坐标分别为(x₁,y₁),(x₂,y₂),(x₃,y₃),(x₄,y₄)，所述线段锚x方向的坐标为x_a,上下两个端点的坐标分别为y_a1和y_a2；计算所述标注线段的两个端点的坐标值(x_up，y_up)和(x_down，y_down)的公式如下：

x_up＝x_down＝x_a

y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁

y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃

则所述标注线段为两个端点(x_up,y_up)和(x_down,y_down)的连线；

所述线段锚与所述标注线段的相交长度为：

Li＝max(min(y_down,y_a2)–max(y_up,y_a1)，0)，若Li输出结果大于0，表明所述线段锚与所述标注线段相交；若Li输出结果为0，则表明所述线段锚与所述标注线段未相交；

其中，所述线段锚与所述标注线段的交并比的计算公式为：

IOU＝Li/(y_down–y_up+y_a2–y_a1–Li)；

所述文本标签的上下边界相对于对应的所述线段锚的偏移量计算公式：

D_up＝(y_up–y_a1)/(y_a2–y_a1)，D_down＝(y_down–y_a2)/(y_a2–y_a1)。

其中，“将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练”，具体包括：

通过加权方式将像素点二分类交叉熵损失函数LS_cls、线段锚二分类交叉熵损失函数L_{A_cls}以及上下边界相对于对应的所述线段锚的偏移量的回归损失函数L_{A_reg}，组合得到文本检测模型的总损失函数：

L_total＝L_{S_cls}+L_{A_cls}+L_{A_reg}

通过训练使所述文本检测模型收敛，当所述总损失函数L_total的输出值降低到近似恒定值时，卷积神经网络模型判断所述文本检测模型已收敛，结束训练模型。

其中，所述“应用所述文本检测模型对文本进行检测，获得检测后的文本行”，具体包括：

在应用所述文本检测模型时，所述文本检测模型输出每根预测的线段锚是文本的概率，若所述概率大于第二设定阈值，则获取所述预测的线段锚的坐标，并且根据所述文本检测模型提供的所述文本标签的上下边界相对于对应的所述预测的线段锚的偏移量，计算所述预测的线段锚对应的文本线段的两个端点的坐标值，并将相邻的所述文本线段的端点连接起来，得到检测后的文本行；

所述预测的线段锚是文本的输出概率为P，若输出概率P大于所述第二设定阈值，则获取所述预测的线段锚的坐标值，其中，所述预测的线段锚x方向的坐标为x_b,上下两个端点的坐标分别为y_b1和y_b2；所述文本标签的上边界相对于对应的所述预测的线段锚的偏移量为D_up1，下边界相对于对应的所述预测的线段锚的偏移量为D_down1，则所述预测的线段锚对应的文本线段的两个端点坐标值(x_up1,y_up1)和(x_down1,y_down1)为：

x_up1＝x_down1＝x_b

y_up1＝(y_b2–y_b1)×D_up1+y_b1

y_down1＝(y_b2–y_b1)×D_down1+y_b2。

其中，“所述文本检测模型输出每根预测的线段锚是文本的概率，若所述概率大于第二设定阈值，则获取所述预测的线段锚的坐标，并且根据所述文本检测模型提供的所述文本标签的上下边界相对于对应的所述预测的线段锚的偏移量，计算所述预测的线段锚对应的文本线段的两个端点的坐标值”，具体包括：

将所述文本图像输入所述文本检测模型，获得1：N的文本图像特征图，根据所述文本图像特征图获取像素点输出概率图矩阵Ps和线段锚输出特征图矩阵A，计算获得注意力机制输出特征图矩阵F_attention：

其中，e为自然常数；

将所述注意力机制输出特征图矩阵通过卷积计算，获得线段锚的最终输出特征图，即输出所述文本标签的上下边界相对于对应的所述线段锚的偏移量以及所述线段锚是文本的概率。

第二方面，提供一种结合像素分割和线段锚的文本检测系统，包括：

像素分割模块，其通过像素分割获得文本图像的像素点；

线段锚设置模块，其以每一所述像素点为线段中心垂直设置多根不同长度的线段锚；

训练模块，其确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型；

应用模块，其应用所述文本检测模型对文本进行检测，获得检测后的文本行。

其中，确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型时，所述训练模块执行的具体操作包括：

x_up＝x_down＝x_a

y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁

y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃

则所述标注线段为两个端点(x_up,y_up)和(x_down,y_down)的连线；

所述线段锚与所述标注线段的相交长度为：

其中，所述线段锚与所述标注线段的交并比的计算公式为：

IOU＝Li/(y_down–y_up+y_a2–y_a1–Li)；

D_up＝(y_up–y_a1)/(y_a2–y_a1)，D_down＝(y_down–y_a2)/(y_a2–y_a1)。

其中，将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练时，所述训练模块执行的具体操作包括：

L_total＝L_{S_cls}+L_{A_cls}+L_{A_reg}

其中，应用所述文本检测模型对文本进行检测，获得检测后的文本行时，所述应用模块执行的具体操作包括：

x_up1＝x_down1＝x_b

y_up1＝(y_b2–y_b1)×D_up1+y_b1

y_down1＝(y_b2–y_b1)×D_down1+y_b2。

其中，e为自然常数；

第三方面，提供一种计算机可读存储介质，所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行前述中任一项所述的方法。

第四方面，提供一种控制装置，该处理装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述中任一项所述的方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：通过像素分割获得文本图像的像素点；以每一所述像素点为线段中心垂直设置多根不同长度的线段锚；确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型；应用所述文本检测模型对文本进行检测，获得检测后的文本行。本发明既能避免文本粘连问题，又能准确回归长文本的边界，具有很强的泛化能力和抗干扰能力，保证文本检测在整个光学字符识别的正确性与准确性。

附图说明

图1a为基于像素分割的文本检测引起文本粘连的一个实施例的示意图；图1b为基于固定矩形锚的文本检测导致回归文本边界不准的一个实施例的示意图；

图2为根据本发明的一种结合像素分割和线段锚的文本检测方法的一个实施例的主要流程图；

图3为根据本发明的方案的图像分割分支的文本标签的生成的一个实施例的示意图；

图4为根据本发明的方案的训练文本检测模型的一个实施例的示意图；

图5为根据本发明的方案的通过预测线段锚获得的文本线段；

图6为根据本发明的一种结合像素分割和线段锚的文本检测系统的一个实施例的结构框图。

具体实施方式

为了便于理解发明，下文将结合说明书附图和实施例对本发明作更全面、细致地描述，但本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

当前文本检测是光学字符识别OCR的一项基础任务。文本背景复杂，文本大小和长宽比例变化范围很大，给文本检测任务带来了极大的挑战。近年来，随着深度学习技术的发展，基于深度学习的文本检测方法大量涌现。现有的方法主要分为两类：基于固定矩形锚的直接回归方法和基于像素分割的方法。基于固定矩形锚的直接回归方式学习到的是整个文本行的特征，对于密集文本不容易粘连，但在回归长文本的边界时会有较大的偏差，引起边界不准；而基于像素分割的文本检测方法是将文本实例分割出来，然后基于分割的像素点去预测文本框，基于像素分割的方法学习到的是像素的局部特征，在文本特别密集的时候导致容易粘连。

本发明结合像素分割和线段锚的文本检测方案一个实施例如：在对某文本进行检测时，首先训练文本检测模型，在图像分割分支中，在所述文本的图像的文本行上标注四边形区域的文本标签，对所述文本标签的上下边内缩的幅度为所述文本标签的高度的0.3倍，获得中心区域面积占所述标注四边形区域的文本标签面积的40％的像素点为文本正样本；所述文本内的非文本区域的像素点作为文本负样本；在线段锚分支中，以所述文本的图像中的像素点为中心预先设置不同长度的线段锚，根据所述四边形区域的文本标签的四个顶点坐标和所述线段锚的两个端点坐标获得对应标注线段的坐标，计算所述文本标签的上下边界相对于每根所述线段锚的偏移量，以及每根所述线段锚与所述标注线段的交并比，若所述交并比大于预设定阈值0.7，判断所述线段锚是文本正样本，否则是文本负样本；最后将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练。通过加权方式将像素点二分类交叉熵损失函数LS_cls、线段锚二分类交叉熵损失函数L_{A_cls}以及上下边界相对于对应的所述线段锚的偏移量的回归损失函数L_{A_reg}，组合得到文本检测模型的总损失函数：L_total＝L_{S_cls}+L_{A_cls}+LA_reg，通过训练使所述文本检测模型收敛，当所述总损失函数L_total的输出值降低到近似恒定值时，卷积神经网络模型判断所述文本检测模型已收敛，结束训练模型。

在应用文本检测模型时，所述文本检测模型输出每条预测的线段锚是文本的概率，若所述预测的线段锚处于文本框的中心区域，则所述概率大于预设定阈值，该预设定阈值取值0.5，进而获取所述预测的线段锚的坐标，并且根据所述文本检测模型提供的所述文本框的上下边界相对于对应的所述预测的线段锚的偏移量，计算获得所述预测的线段锚对应的文本线段的两个端点坐标值，将交并比大于预设定阈值0.7的所述相邻的文本线段连接起来，获得检测后的所有文本行。

由此，本发明提出的一种文本检测方案，能够将固定矩形锚和像素分割的文本检测两种方法的优点结合起来，既能避免文本粘连问题，又能准确回归长文本的边界，具有很强的泛化能力和抗干扰能力。

以下是本发明涉及到的一些术语定义与解释：

图像分割：给定一张图片，预测每个像素的类别，在本发明中，预测的是每一个像素点是否是文本。

线段锚：是指文本检测任务中在图像上预先设置的固定长度的线段，然后对这些线段锚进行分类和回归(回归文本上下边界相对于线段锚的偏移量)获得文本预测的文本碎片。

交并比：交集除以并集，两个线段的交并比是指两个线段在垂直方向上相交的长度除以相并的长度。

下面结合图2所示本发明的一种结合像素分割和线段锚的文本检测方法的一个实施例的主要流程图，对本发明的实现方式进行描述。

步骤S201，通过像素分割获得文本图像的像素点；

在一个实施方式中，如图3所示，在所述文本图像上标注四边形区域的文本标签，对所述文本标签的上下边进行内缩，获得中心区域，该中心区域内的像素点作为文本正样本，其他区域的像素点作为文本负样本；其中，对所述文本标签的上下边内缩的幅度为所述文本标签的高度的0.3倍；获得中心区域面积占所述标注四边形区域的文本标签面积的40％的像素点为文本正样本。

步骤S202，以每一所述像素点为线段中心垂直设置多根不同长度的线段锚；

在一个实施方式中，以所获得的文本图像的每一所述的像素点为线段中心垂直设置多跟不同长度的线段锚。

步骤S203，确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型；

在一个实施方式中，根据所述文本标签的四个顶点坐标和所述线段锚的两个端点坐标获得对应标注线段的坐标，并计算所述文本标签的上下边界相对于每根所述线段锚的偏移量以及每根所述线段锚与所述标注线段的交并比，若所述交并比大于第一设定阈值，则判断所述线段锚是文本正样本，否则是文本负样本；其中，第一设定阈值为0.7；将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练。

进一步，如图4所示，在x轴向右为正方向，y轴向下为正方向的坐标轴中，所述文本标签从左上角开始顺时针方向的四个点坐标分别为(x₁,y₁),(x₂,y₂),(x₃,y₃),(x₄,y₄)，所述线段锚x方向的坐标为x_a,上下两个端点的坐标分别为y_a1和y_a2；计算所述标注线段的两个端点的坐标值(x_up，y_up)和(x_down，y_down)的公式如下：

x_up＝x_down＝x_a

y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁

y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃

则所述标注线段为两个端点(x_up,y_up)和(x_down,y_down)的连线；

所述线段锚与所述标注线段的相交长度为

其中，所述线段锚与所述标注线段的交并比的计算公式为：

IOU＝Li/(y_down–y_up+y_a2–y_a1–Li)

D_up＝(y_up–y_a1)/(y_a2–y_a1)，D_down＝(y_down–y_a2)/(y_a2–y_a1)。

例如，文本标签从左上角开始顺时针方向的四个点坐标分别为(1，1)、(4，1)、(4、3)、(1，3)，线段锚x方向的坐标为x_a＝2,上下两个端点的坐标分别为y_a1＝1.4和y_a2＝2.9；首先计算所述标注线段的两个端点的坐标值(x_up，y_up)和(x_down，y_down)：

x_up＝x_down＝x_a＝2

y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁＝1

y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃＝3

标注线段的两个端点的坐标值为(2，1)和(2，3)；

所述线段锚与所述标注线段的相交长度为

Li＝max(min(y_down,y_a2)–max(y_up,y_a1)，0)＝max(min(3，2.9)-max(1，1.4)，0)＝max((2.9-1.4)，0)＝max(1.5，0)＝1.5，Li输出结果为1.5，则表明线段锚与标注线段相交长度为1.5；

所述线段锚与所述标注线段的交并比的计算公式：

IOU＝Li/(y_down–y_up+y_a2–y_a1–Li)＝1.5/(3-1+2.9-1.4-1.5)＝0.75>预设定阈值＝0.7，因此，所述文本标签的上下边界相对于对应的所述线段锚的偏移量为：

D_up＝(y_up–y_a1)/(y_a2–y_a1)＝(1-1.4)/(2.9-1.4)＝-0.3

D_down＝(y_down–y_a2)/(y_a2–y_a1)＝(3-2.9)/(2.9-1.4)＝0.1。

在一个实施方式中，通过加权方式将像素点二分类交叉熵损失函数L_{S_cls}、线段锚二分类交叉熵损失函数L_{A_cls}以及上下边界相对于对应的所述线段锚的偏移量的回归损失函数L_{A_reg}，组合得到文本检测模型的总损失函数：

L_total＝L_{S_cls}+L_{A_cls}+L_{A_reg}

其中：

y_Si表示像素点样本i的标签，正样本为1，负样本为0；

p_Si表示像素点样本i预测为正样本的概率；

M为像素点样本的总个数。

y_Ai表示线段锚样本i的标签,正样本为1,负样本为0；

p_Ai表示线段锚样本i预测为正样本的概率；

N为线段锚样本的总个数。

如果|x|＜1，L_{A_reg}＝0.5x²

如果|x|≥1，L_{A_reg}＝|x|-0.5

其中x为预测的偏移量。

步骤S204，应用所述文本检测模型对文本进行检测，获得检测后的文本行。

在一个实施方式中，在应用所述文本检测模型时，所述文本检测模型输出每根预测的线段锚是文本的概率，若所述概率大于第二设定阈值，则获取所述预测的线段锚的坐标，并且根据所述文本检测模型提供的所述文本标签的上下边界相对于对应的所述预测的线段锚的偏移量，计算所述预测的线段锚对应的文本线段的两个端点的坐标值，并将相邻的所述文本线段的端点连接起来，得到检测后的文本行。其中，第二设定阈值为机器识别的准确率阈值，可以根据经验设定，通常取值0.5。

进一步，所述预测的线段锚是文本的输出概率为P，若输出概率P大于所述第二设定阈值，则获取所述预测的线段锚的坐标值，其中，所述预测的线段锚x方向的坐标为x_b,上下两个端点的坐标分别为y_b1和y_b2；所述文本标签的上边界相对于对应的所述预测的线段锚的偏移量为D_up1，下边界相对于对应的所述预测的线段锚的偏移量为D_down1，则所述预测的线段锚对应的文本线段的两个端点坐标值(x_up1,y_up1)和(x_down1,y_down1)为：

x_up1＝x_down1＝x_b

y_up1＝(y_b2–y_b1)×D_up1+y_b1

y_down1＝(y_b2–y_b1)×D_down1+y_b2。

例如，在应用文本检测模型时，所述文本检测模型输出预测的线段锚是文本的概率P＝0.78，预设定阈值为0.75，则所述概率大于预设定阈值，表明预测的线段锚处于文本框的所述中心区域，所述文本框的上边界相对于对应的所述预测的线段锚的偏移量为D_up1＝-0.2，下边界相对于对应的所述预测的线段锚的偏移量为D_down1＝0.3，预测的线段锚x方向的坐标为x_b＝2.5,上下两个端点的y方向的坐标分别为y_b1＝2.8和y_b2＝1.5，所述预测的线段锚对应的文本线段的两个端点坐标值(x_up1,y_up1)和(x_down1,y_down1)的计算过程如下：

x_up1＝x_down1＝x_b＝2.5

y_up1＝(y_b2–y_b1)×D_up1+y_b1＝0.26+2.8＝3.06

y_down1＝(y_b2–y_b1)×D_down1+y_b2＝1.11；

则该文本线段的两个端点坐标为(2.5，3.06)、(2.5，1.11)。

进一步，假设卷积神经网络输入的文本图片高度为H,宽度为W，获得1：4的文本图像特征图，根据所述文本图像特征图获取分割分支输出的概率图矩阵P_S和线段锚分支输出的特征图矩阵A，则注意力机制的输出特征图矩阵为

F_attention＝e^PS×A

其中e为自然常数。

获得F_attention特征图之后，再通过卷积计算得到线段锚分支的最终输出特征图A_out，假设每个像素点上设计了N个线段锚，则特征图A_out的形状为(H/4,W/4,N×(1+2))，乘数(1+2)中的1代表每个线段锚是否是文本的分类概率，2代表回归的两个偏移量，所述文本检测模型输出所述文本标签的上下边界相对于对应的所述线段锚的偏移量以及所述线段锚是文本的概率。

进一步，将交并比大于预设定阈值的所述相邻的文本线段连接起来，获得检测后的所有文本行。

如图5所示，如果相邻的文本线段的交并比大于预设定阈值0.7，则将相邻的文本线段连接起来，从而获得检测后的所有文本行。

下面再结合图6为根据本发明的一种结合像素分割和线段锚的文本检测系统的一个实施例的结构框图，对本发明的实现进行说明。该系统至少包括：

像素分割模块601，其通过像素分割获得文本图像的像素点；

在一个实施方式中，如图3所示，在所述文本图像上标注四边形区域的文本标签，对所述文本标签的上下边进行内缩，获得中心区域的像素点作为文本正样本，其他区域的像素点作为文本负样本；其中，对所述文本标签的上下边内缩的幅度为所述文本标签的高度的0.3倍；获得中心区域面积占所述标注四边形区域的文本标签面积的40％的像素点为文本正样本。

线段锚设置模块602，其以每一所述像素点为线段中心垂直设置多根不同长度的线段锚；

训练模块603，其确定每一像素点的文本标签和所述对应每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型；

x_up＝x_down＝x_a

y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁

y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃

则所述标注线段为两个端点(x_up,y_up)和(x_down,y_down)的连线；

所述线段锚与所述标注线段的相交长度为

其中，所述线段锚与所述标注线段的交并比的计算公式为：

IOU＝Li/(y_down–y_up+y_a2–y_a1–Li)

D_up＝(y_up–y_a1)/(y_a2–y_a1)，D_down＝(y_down–y_a2)/(y_a2–y_a1)。

x_up＝x_down＝x_a＝2

y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁＝1

y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃＝3

标注线段的两个端点的坐标值为(2，1)和(2，3)；

所述线段锚与所述标注线段的相交长度为

所述线段锚与所述标注线段的交并比的计算公式：

D_up＝(y_up–y_a1)/(y_a2–y_a1)＝(1-1.4)/(2.9-1.4)＝-0.3

D_down＝(y_down–y_a2)/(y_a2–y_a1)＝(3-2.9)/(2.9-1.4)＝0.1。

L_total＝L_{S_cls}+L_{A_cls}+L_{A_reg}

其中：

y_Si表示像素点样本i的标签，正样本为1，负样本为0；

p_Si表示像素点样本i预测为正样本的概率；

M为像素点样本的总个数。

y_Ai表示线段锚样本i的标签,正样本为1,负样本为0；

p_Ai表示线段锚样本i预测为正样本的概率；

N为线段锚样本的总个数。

如果|x|＜1，L_{A_reg}＝0.5x²

如果|x|≥1，L_{A_reg}＝|x|-0.5

其中x为预测的偏移量。

应用模块604，其用于应用所述文本检测模型对文本进行检测，获得检测后的文本行。

x_up1＝x_down1＝x_b

y_up1＝(y_b2–y_b1)×D_up1+y_b1

y_down1＝(y_b2–y_b1)×D_down1+y_b2。

x_up1＝x_down1＝x_b＝2.5

y_up1＝(y_b2–y_b1)×D_up1+y_b1＝0.26+2.8＝3.06

y_down1＝(y_b2–y_b1)×D_down1+y_b2＝1.11；

则该文本线段的两个端点坐标为(2.5，3.06)、(2.5，1.11)。

F_attention＝e^PS×A

其中e为自然常数。

下面描述本发明的技术方案的一个应用场景的例子，以进一步说明本发明的实现方式：

在对某文本进行检测时，首先训练文本检测模型，在图像分割分支中，在所述文本的图像的文本行上标注四边形区域的文本标签，对所述文本标签的上下边内缩的幅度为所述文本标签的高度的0.3倍，获得中心区域面积占所述标注四边形区域的文本标签面积的40％的像素点为文本正样本；所述文本内的非文本区域的像素点作为文本负样本；在线段锚分支中，以所述文本的图像中的像素点为中心预先设置不同长度的线段锚，根据所述四边形区域的文本标签的四个顶点坐标和所述线段锚的两个端点坐标获得对应的标注线段的坐标，计算所述文本标签的上下边界相对于每根所述线段锚的偏移量，以及每根所述线段锚与所述标注线段的交并比，若所述交并比大于预设定阈值0.7，判断所述线段锚是文本正样本，否则是文本负样本；最后将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练。

例如，如图4所示，在x轴向右为正方向，y轴向下为正方向的坐标轴中，文本标签从左上角开始顺时针方向的四个点坐标分别为(1，1)、(4，1)、(4、3)、(1，3)，线段锚x方向的坐标为x_a＝2,上下两个端点的坐标分别为y_a1＝1.4和y_a2＝2.9；首先计算所述标注线段的两个端点的坐标值(x_up，y_up)和(x_down，y_down)：x_up＝x_down＝x_a＝2，y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁＝1，y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃＝3，因此，标注线段的两个端点的坐标值为(2，1)和(2，3)；所述线段锚与所述标注线段的相交长度为：Li＝max(min(y_down,y_a2)–max(y_up,y_a1)，0)＝max(min(3，2.9)-max(1，1.4)，0)＝max((2.9-1.4)，0)＝max(1.5，0)＝1.5，Li输出结果为1.5，则表明线段锚与标注线段相交长度为1.5；所述线段锚与所述标注线段的交并比的计算公式：IOU＝Li/(y_down–y_up+y_a2–y_a1–Li)＝1.5/(3-1+2.9-1.4-1.5)＝0.75>预设定阈值＝0.7，因此，所述文本标签的上下边界相对于对应的所述线段锚的偏移量为：D_up＝(y_up–y_a1)/(y_a2–y_a1)＝(1-1.4)/(2.9-1.4)＝-0.3，D_down＝(y_down–y_a2)/(y_a2–y_a1)＝(3-2.9)/(2.9-1.4)＝0.1。通过加权方式将像素点二分类交叉熵损失函数L_{S_cls}、线段锚二分类交叉熵损失函数L_{A_cls}以及上下边界相对于对应的所述线段锚的偏移量的回归损失函数L_{A_reg}，组合得到文本检测模型的总损失函数：L_total＝L_{S_cls}+L_{A_cls}+L_{A_reg}，通过训练使所述文本检测模型收敛，当所述总损失函数L_total的输出值降低到近似恒定值时，卷积神经网络模型判断所述文本检测模型已收敛，结束训练模型。

在应用文本检测模型时，所述文本检测模型输出预测的线段锚是文本的概率P＝0.78，预设定阈值为0.5，则所述概率大于预设定阈值，表明预测的线段锚处于文本框的所述中心区域，所述文本框的上边界相对于对应的所述预测的线段锚的偏移量为D_up1＝-0.2，下边界相对于对应的所述预测的线段锚的偏移量为D_down1＝0.3，预测的线段锚x方向的坐标为x_b＝2.5,上下两个端点的y方向的坐标分别为y_b1＝2.8和y_b2＝1.5，所述预测的线段锚对应的文本线段的两个端点坐标值(x_up1,y_up1)和(x_down1,y_down1)为x_up1＝x_down1＝x_b＝2.5，y_up1＝(y_b2–y_b1)×D_up1+y_b1＝0.26+2.8＝3.06，y_down1＝(y_b2–y_b1)×D_down1+y_b2＝1.11；则该文本线段的两个端点坐标为(2.5，3.06)、(2.5，1.11)；最后，如果相邻的文本线段的交并比大于预设定阈值0.7，则将相邻的文本线段连接起来，从而获得检测后的所有文本行。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的系统的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

进一步，在本发明的一种计算机可读存储介质的一个实施例中，包括：所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行前述中任一项所述的结合像素分割和线段锚的文本检测方法。

进一步，在本发明的一种控制装置的一个实施例中，该处理装置包括处理器和存储器，所述存储器适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述中任一项所述的结合像素分割和线段锚的文本检测方法。

本领域技术人员能够理解的是，可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种结合像素分割和线段锚的文本检测方法，其特征在于，所述方法包括：

通过像素分割获得文本图像的像素点；

以每一所述像素点为线段中心垂直设置多根不同长度的线段锚；所述线段锚是指文本检测任务中在图像上预先设置的固定长度的线段；

确定每一像素点的文本标签和对应所述每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型；

应用所述文本检测模型对文本进行检测，获得检测后的文本行；

确定每一像素点的文本标签和对应所述每一像素点的线段锚的文本标签，具体包括：

将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练；

在x轴向右为正方向、y轴向下为正方向的坐标轴中，所述文本标签从左上角开始顺时针方向的四个点坐标分别为(x₁,y₁),(x₂,y₂),(x₃,y₃),(x₄,y₄)，所述线段锚x方向的坐标为x_a,上下两个端点的坐标分别为y_a1和y_a2；计算所述标注线段的两个端点的坐标值(x_up，y_up)和(x_down，y_down)的公式如下：

x_up＝x_down＝x_a

y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁

y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃

则所述标注线段为两个端点(x_up,y_up)和(x_down,y_down)的连线。

2.根据权利要求1所述的方法，其特征在于，

所述线段锚与所述标注线段的相交长度为：

其中，所述线段锚与所述标注线段的交并比的计算公式为：

IOU＝Li/(y_down–y_up+y_a2–y_a1–Li)；

D_up＝(y_up–y_a1)/(y_a2–y_a1)，D_down＝(y_down–y_a2)/(y_a2–y_a1)。

3.根据权利要求1所述的方法，其特征在于，“将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练”，具体包括：

通过加权方式将像素点二分类交叉熵损失函数L_{S_cls}、线段锚二分类交叉熵损失函数L_{A_cls}以及上下边界相对于对应的所述线段锚的偏移量的回归损失函数L_{A_reg}，组合得到文本检测模型的总损失函数：

L_total＝L_{S_cls}+L_{A_cls}+L_{A_reg}

4.根据权利要求1所述的方法，其特征在于，

所述“应用所述文本检测模型对文本进行检测，获得检测后的文本行”，具体包括：

x_up1＝x_down1＝x_b

y_up1＝(y_b2–y_b1)×D_up1+y_b1

y_down1＝(y_b2–y_b1)×D_down1+y_b2。

5.根据权利要求4所述的方法，其特征在于，“所述文本检测模型输出每根预测的线段锚是文本的概率，若所述概率大于第二设定阈值，则获取所述预测的线段锚的坐标，并且根据所述文本检测模型提供的所述文本标签的上下边界相对于对应的所述预测的线段锚的偏移量，计算所述预测的线段锚对应的文本线段的两个端点的坐标值”，具体包括：

F_attention＝e^Ps×A

其中，e为自然常数；

6.一种结合像素分割和线段锚的文本检测系统，其特征在于，包括：

像素分割模块，其通过像素分割获得文本图像的像素点；

线段锚设置模块，其以每一所述像素点为线段中心垂直设置多根不同长度的线段锚；所述线段锚是指文本检测任务中在图像上预先设置的固定长度的线段；

训练模块，其确定每一像素点的文本标签和对应所述每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型；

应用模块，其应用所述文本检测模型对文本进行检测，获得检测后的文本行；

确定每一像素点的文本标签和对应所述每一像素点的线段锚的文本标签，并基于所述像素点和所述线段锚训练文本检测模型时，所述训练模块执行的具体操作包括：

x_up＝x_down＝x_a

y_up＝(y₂-y₁)/(x₂-x₁)×(x_a-x₁)+y₁

y_down＝(y₄-y₃)/(x₄-x₃)×(x_a-x₃)+y₃

则所述标注线段为两个端点(x_up,y_up)和(x_down,y_down)的连线。

7.根据权利要求6所述的系统，其特征在于，

所述线段锚与所述标注线段的相交长度为：

其中，所述线段锚与所述标注线段的交并比的计算公式为：

IOU＝Li/(y_down–y_up+y_a2–y_a1–Li)；

D_up＝(y_up–y_a1)/(y_a2–y_a1)，D_down＝(y_down–y_a2)/(y_a2–y_a1)。

8.根据权利要求6所述的系统，其特征在于，将带有文本正负样本标签的所述像素点和带有文本正负样本标签的所述线段锚以及所述文本标签的上下边界相对于对应的所述线段锚的偏移量输入所述文本检测模型中进行训练时，所述训练模块执行的具体操作包括：

通过加权方式将像素点二分类交叉熵损失函数L_{S_cls、}线段锚二分类交叉熵损失函数L_{A_cls}以及上下边界相对于对应的所述线段锚的偏移量的回归损失函数L_{A_reg}，组合得到文本检测模型的总损失函数：

L_total＝L_{S_cls}+L_{A_cls}+L_{A_reg}

9.根据权利要求6所述的系统，其特征在于，应用所述文本检测模型对文本进行检测，获得检测后的文本行时，所述应用模块执行的具体操作包括：

x_up1＝x_down1＝x_b

y_up1＝(y_b2–y_b1)×D_up1+y_b1

y_down1＝(y_b2–y_b1)×D_down1+y_b2。

10.根据权利要求9所述的系统，其特征在于，“所述文本检测模型输出每根预测的线段锚是文本的概率，若所述概率大于第二设定阈值，则获取所述预测的线段锚的坐标，并且根据所述文本检测模型提供的所述文本标签的上下边界相对于对应的所述预测的线段锚的偏移量，计算所述预测的线段锚对应的文本线段的两个端点的坐标值”，具体包括：

F_attention＝e^Ps×A

其中，e为自然常数；

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行权利要求1至5中任一项所述的方法。

12.一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至5中任一项所述的方法。