CN113807337B

CN113807337B - 一种基于图连通的文本检测方法、终端设备及存储介质

Info

Publication number: CN113807337B
Application number: CN202110940583.6A
Authority: CN
Inventors: 吴婷婷; 刘彩玲; 汪泰伸; 陈德意; 高志鹏; 赵建强
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2022-09-06
Anticipated expiration: 2041-08-17
Also published as: CN113807337A

Abstract

本发明涉及一种基于图连通的文本检测方法、终端设备及存储介质，该方法中包括：S1：采集具有单字符文本标注的图像组成训练集；S2：构建文字检测模型，通过训练集对模型进行训练；S3：将待处理图像输入训练后的文字检测模型中，剔除置信度较低的预测文本框后，将其他预测文本框组成集合B；S4：计算集合B中每两个预测文本框之间的第一参数GIoU和第二参数DHIoU；S5：将集合B中所有的预测文本框作为图节点构建无向图，若两节点之间满足GIoU小于第一阈值且DHIoU小于第二阈值，则设定两节点之间连通，否则不连通；S6：计算无向图的连通分量，并计算每个连通分量所包含节点的最小外接矩形，将最小外接矩形作为文本框。本发明能够快速的准确进行文本区域定位。

Description

一种基于图连通的文本检测方法、终端设备及存储介质

技术领域

本发明涉及文本检测领域，尤其涉及一种基于图连通的文本检测方法、终端设备及存储介质。

背景技术

文字检测是复杂场景下OCR(Optical Character Recognition，光学字符识别)中重要的一环，通过文字检测技术可以从图像中定位到需要进行文字识别的具体区域。准确的文字定位可以帮助文字识别模型提升识别精度，并排除图像中的冗余信息，从而提升文字识别的性能。随着CTC Loss等相关算法的出现，单字识别由于其高标注成本逐步被文本识别技术取代，文字检测技术也由获取文字进一步将目标转向获取文本。然而相比于文字，文本往往具有更多的形态，例如严重不平衡的长宽比例关系、多种旋转角度、多形态的畸变等。这使得使用普通的目标检测技术对文本检测效果往往不够理想，需要引入相关先验来提升检测准确率。

基于传统的图像处理算法中有如SWT应用笔画宽度变换来进行文本检测；MSER基于改进的分水岭算法对图像进行二值化处理从而进行文本检测。而基于深度学习的算法中可分为两类，一类是将文本看做语义，将文本检测转换为语义分割任务，利用其相关算法进行文本检测，如DBnet、PSEnet等；另一类是依旧将文本检测当做目标检测任务，针对回归目标多形变问题进行分解，最后针对性的进行合并，获取文本框，典型的例如CTPN、FCENet等。

基于传统图像处理的文本检测算法大多只应用于简单场景，在复杂场景下，由于受到各种噪声的干扰，泛化性能往往很差。基于深度学习的文本检测算法中，以语义分割为基础的文本检测算法需要细化到图像的像素点判断，一般计算量较大，耗时较长，标注成本也更高。同时这类算法自身存在一定的局限性，对于出现文字重叠情况的图像例如有大量文字水印，这类算法效果会严重下降。以目标检测为任务的文本检测算法中，直接以文本框为回归目标的算法由于模型感受野等问题，准确率较普通目标检测任务大打折扣。由此衍生出一批将文本框分割开，以栅格化或单字符的形式进行检测的算法。然而栅格化检测将字符特征割裂，一定程度上影响模型对特征的拟合学习；单字符检测的算法受限于高标注成本，训练样本有限，泛化能力也容易受到影响。此外将文本行单元合并为文本行的算法，大部分依靠繁杂的程序设计实现，在实际应用问题中容易出现漏字、过度合并等现象。

发明内容

为了解决上述问题，本发明提出了一种基于图连通的文本检测方法、终端设备及存储介质。

具体方案如下：

一种基于图连通的文本检测方法，包括以下步骤：

S1：采集具有单字符文本标注的图像组成训练集；

S2：构建基于特征金字塔网络的文字检测模型，设定模型的输入为图像，输出包括预测文本框和表示预测文本框内包含文字的概率，通过训练集对模型进行训练，使得损失收敛，得到训练后的文字检测模型；

S3：将待处理图像输入训练后的文字检测模型中，得到待处理图像对应的所有预测文本框和各预测文本框对应的包含文字的概率，将各预测文本框对应的包含文字的概率转化为置信度后，剔除置信度小于置信度阈值时对应的预测文本框，将其他预测文本框组成集合B；

S4：计算集合B中每两个预测文本框之间的第一参数GIoU和第二参数DHIoU：

其中，b_i、b_j分别表示两个预测文本框，c表示包含b_i和b_j的最小凸闭合框，d表示c的对角线长度，h表示b_i中心点与b_j中心点之间高度差，area(.)表示面积计算；

S5：将集合B中所有的预测文本框作为图节点构建无向图G，若两节点之间满足GIoU小于第一阈值且DHIoU小于第二阈值，则设定两节点之间连通，否则不连通；

S6：计算无向图G的连通分量，并计算每个连通分量所包含节点的最小外接矩形，将最小外接矩形作为文本框，进而得到该待处理图像的所有文本框。

进一步的，在采集具有单字符文本标注的图像的过程中，如果文本标注图像的标注形式为按文本框进行文本标注且已知文本框内的字符数量，则将文本框等分为与字符数量个数相同的文本框。

进一步的，在采集具有单字符文本标注的图像的过程中，如果文本标注图像的标注形式为仅标注文本框，则计算文本框的长边a和短边b，如果满足a≥θ_ab*b，则沿长边方向将文本框等分为

份，

表示取整，θ_ab表示长短边比值阈值。

进一步的，文字检测模型的损失函数L为：

L＝αL^obj+βL^GIoU

其中，α和β均为权重参数，L^obj表示交叉熵损失，L^GIoU表示GIoU损失，A表示图像标注的真实文本框，B表示模型输出的预测文本框，C表示包含A与B的最小凸闭合框，y表示图像的真实概率，

表示模型输出的预测概率。

进一步的，预测文本框对应的标签通过sigmoid函数转化为置信度。

一种基于图连通的文本检测终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，供了一种基于图算法的文本检测方法，使得计算机可以快速准确的定位到图像上的文本区域，从而提升OCR算法的整体性能。本发明在保证文本检测算法推理性能的同时，一定程度上降低了人工标注成本，提升了文本框的回归精度，提升了算法在多种场景下的泛化能力，同时能够避免算法在工业级应用上落地困难的问题。

附图说明

图1所示为本发明实施例一的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种基于图连通的文本检测方法，如图1所示，其为本发明实施例所述的基于图连通的文本检测方法的流程图，所述方法包括以下步骤：

S1：采集具有单字符文本标注的图像组成训练集。

现有的文本标注图像的标注形式包括以下三种类型：第一类为按单字符进行文本标注，第二类为按文本框进行文本标注且已知文本框内的字符数量，第三类为仅标注文本框。而本实施例中组成训练集的为第一种情况的按单字符进行文本标注的类型，因此当文本标注图像的标注形式为其他两种类型时，还需要对其进行以下处理：

(1)针对第二类标注形式，根据字符数量对文本框进行等分，即假设字符数量为m，则将文本框沿其长边方向平均分割为m份，分割后的每个文本框均对应一个字符。

(2)针对第三类标注形式，计算文本框的长边a和短边b，如果满足a≥θ_ab*b，则沿长边方向将文本框等分为

份，

表示取整，θ_ab表示长短边比值阈值，该实施例中优选设定为1.8，在其他实施例中本领域技术人员可以根据需要对其进行调整。

该实施例中将文本框通过(x,y,w,h)的格式进行表示,其中x和y分别表示文本框中心点的横坐标和纵坐标，w和h分别表示文本框的宽和高。

S2：构建基于特征金字塔网络的文字检测模型，设定模型的输入为图像，输出包括预测文本框和表示预测文本框内包含文字的概率，通过训练集对模型进行训练，使得损失收敛，得到训练后的文字检测模型。

设定模型的损失函数L为：

L＝αL^obj+βL^GIoU

其中，α和β均为权重参数，取值范围为[1,10]，L^obj表示交叉熵损失，L^GIoU表示GIoU损失。

其中，A表示图像标注的真实文本框，B表示模型输出的预测文本框，C表示包含A与B的最小凸闭合框，y表示图像的真实概率，

表示模型输出的预测概率。

S3：将待处理图像输入训练后的文字检测模型中，得到待处理图像对应的所有预测文本框和各预测文本框对应的包含文字的概率，将各预测文本框对应的包含文字的概率转化为置信度后，剔除置信度小于置信度阈值时对应的预测文本框，将其他预测文本框组成集合B。

该实施例中通过sigmoid函数将预测文本框转化为置信度。

置信度阈值的取值范围为0-1，具体数值本领域技术人员可以自行设定，在此不做限制，该实施例中设置为0.1。

其中，b_i、b_j分别表示两个预测文本框，c表示包含b_i和b_j的最小凸闭合框，d表示c的对角线长度，h表示b_i中心点与b_j中心点之间高度差，area(.)表示面积计算。

S5：将集合B中所有的预测文本框作为图节点构建无向图G，若两节点之间满足GIoU小于第一阈值且DHIoU小于第二阈值，则设定两节点之间连通，否则不连通。

第一阈值和第二阈值本领域技术人员可以自行设定，在此不做限制，该实施例中分别设定为0.2和0.1。

本发明实施例考虑到了中文字符的方块字特性先验，提出一种组合式文本分割的方法，该方法可以在降低标注成本的同时补充训练样本，保障模型泛化能力。同时提出一种使用基于图算法的文本行合并算法，该算法能够明显的提升文本行合并结果的准确性，并且引入先验较少，有更高的泛化能力。模型属单阶段目标检测模型，能够快速进行推理，方便工业落地。

实施例二：

本发明还提供一种基于图连通的文本检测终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述基于图连通的文本检测终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于图连通的文本检测终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述基于图连通的文本检测终端设备的组成结构仅仅是基于图连通的文本检测终端设备的示例，并不构成对基于图连通的文本检测终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于图连通的文本检测终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于图连通的文本检测终端设备的控制中心，利用各种接口和线路连接整个基于图连通的文本检测终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于图连通的文本检测终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述基于图连通的文本检测终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于图连通的文本检测方法，其特征在于，包括以下步骤：

S1：采集具有单字符文本标注的图像组成训练集；

2.根据权利要求1所述的基于图连通的文本检测方法，其特征在于：在采集具有单字符文本标注的图像的过程中，如果文本标注图像的标注形式为按文本框进行文本标注且已知文本框内的字符数量，则将文本框等分为与字符数量个数相同的文本框。

3.根据权利要求1所述的基于图连通的文本检测方法，其特征在于：在采集具有单字符文本标注的图像的过程中，如果文本标注图像的标注形式为仅标注文本框，则计算文本框的长边a和短边b，如果满足a≥θ_ab*b，则沿长边方向将文本框等分为

份，

表示取整，θ_ab表示长短边比值阈值。

4.根据权利要求1所述的基于图连通的文本检测方法，其特征在于：文字检测模型的损失函数L为：

L＝αL^obj+βL^GIoU

其中，α和β均为权重参数，L^obj表示交叉熵损失，L^GIoU表示GIoU损失，y表示图像的真实概率，

表示模型输出的预测概率。

5.根据权利要求1所述的基于图连通的文本检测方法，其特征在于：预测文本框对应的标签通过sigmoid函数转化为置信度。

6.一种基于图连通的文本检测终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～5中任一所述方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～5中任一所述方法的步骤。