CN113971809A

CN113971809A - 一种基于深度学习的文本识别方法、设备及存储介质

Info

Publication number: CN113971809A
Application number: CN202111244912.XA
Authority: CN
Inventors: 武小亮; 张铁监; 汪洋; 叶剑
Original assignee: Duolun Technology Corp ltd
Current assignee: Duolun Technology Corp ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-25

Abstract

本发明公开了一种基于深度学习的文本识别方法、设备及存储介质，包括：按照指定的格式进行数据集的制作；构建基于MobileNeXt网络的文本检测网络模型和损失函数；利用制作的数据集对网络模型和损失函数进行训练；获取某一场景的图片，利用图像处理开源库对获取的图片进行固定尺寸缩放、归一化处理；利用训练后的文本检测网络模型对处理后的图片进行推理预测，提取得到图片中的文本区域；对所提取的图片中的文本区域进行矫正，得到矫正后的文本区域；对矫正后的文本区域的图片进行预处理，再利用CRNN文本识别算法对预处理后的图片中的文本区域提取得到文字信息。本发明可使文本检测算法达到高精度、快速的同时进一步的减少文本粘连问题和对弯曲文本进行矫正。

Description

一种基于深度学习的文本识别方法、设备及存储介质

技术领域

本发明涉及一种基于深度学习的文本识别方法、设备及存储介质，属于文本识别的技术领域。

背景技术

随着全球经济的迅速发展，工业界对多场景、多语种、高精度的文字检测与识别的关注越来越高，如场景理解，产品识别，自动驾驶、目标地理定位、文档电子化等方面的需要也是越来越迫切。近年来，随着AI技术不断发展，对文本检测和识别出现的难题更是越来越多，因此工业界和学术界对文本检测和识别探索也是越来越深入。

现有的方法大致可以分为四类：基于四边形边界框的检测器、基于字符的方法、基于分割的方法和基于参数结构化的方法。其中，大多数现有的基于四边形边界框的检测器难以定位任意形状的文本，难以很好地封闭在矩形中；大多数基于分割的方法可能不会分离彼此非常接近的文本实例；基于字符和基于参数结构化的方法需要代价高昂的标注信息。

在工业界应用中，基于分割的方法在场景文本检测中非常流行，因为分割结果可以更准确地描述各种形状的场景文本，例如曲线文本；同时能够在速度、精度、标注成本上达到很好的平衡。目前基于分割通用的算法是PseNet和DBNet，但是二者都有各自的缺点；PseNet的后处理耗时严重；DBnet的速度和精度达到很好的平衡，但是对临近的文本经常出现粘连的问题，同时还存在检测出的曲线文本严重降低了文本识别精度的问题。

针对上述比较棘手且迫切需要解决的问题，本发明提出了一种基于深度学习的文本识别方法。

发明内容

为了克服现有技术中存在的不足，本发明提供一种基于深度学习的文本识别方法、设备及存储介质，以解决现有的文字检测识别过程中文本粘连、推理速度慢、曲线文本矫正效果差的问题。本发明的方法能够在文档电子化、车辆轮胎号检测中得到广泛的应用。

本发明具体采用以下技术方案解决上述技术问题：

一种基于深度学习的文本识别方法，包括以下步骤：

步骤1、按照指定的格式进行数据集的制作；

步骤2、构建文本检测网络模型和损失函数；

步骤3、利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练，得到训练后的文本检测网络模型；

步骤4、获取某一场景的图片；

步骤5、利用开源的图像处理操作库对获取的图片进行固定尺寸缩放、归一化处理；

步骤6、利用训练后的文本检测网络模型对步骤5处理后的图片进行推理预测，提取得到图片中的文本区域；

步骤7、利用贝塞尔曲线对步骤6所提取的图片中的文本区域进行矫正，得到矫正后的文本区域；

步骤8、对矫正后的文本区域的图片进行预处理，再利用CRNN文本识别算法对预处理后的图片中的文本区域提取得到文字信息。

进一步地，作为本发明的一种优选技术方案，所述步骤1按照指定的格式进行数据集的制作，具体包括：

步骤1-1、对某一场景的图片数据进行收集；

步骤1-2、对上述收集到的图片数据进行数据标注，分别标注出图片中每个文本框的四个顶点，且四个顶点以顺时针为顺序，每个图片得到一个或者多个标注的文本框；

步骤1-3、根据得到的图片的文本框，按照PASCAL VOC的数据格式制作数据集；

进一步地，作为本发明的一种优选技术方案，所述步骤2构建基于MobileNeXt网络的文本检测网络模型，具体包括：

输入一张图片，利用MobileNeXt网络对图片进行特征提取，特征提取的过程中进行五次下采样，每次下采样输出一种尺度的特征图，每个特征图的宽和高都是上一层特征图宽和高的1/2，最后一层的特征图是原始图片的1/32；

将MobileNeXt网络输出的最后一层特征图经过金字塔场景解析模块的操作形成的特征图经过上采样得到的特征图与第四层特征图进行特征合并得到合并后的特征图，以此类推进行合并，直到合并得到的特征图大小是原始图片的1/4；然后对合并得到的大小是原始图片1/4的特征图进行三次下采样，分别保存每层的特征图，再使用金字塔场景解析模块对特征提取的最后一层特征图进行聚合，最后分别把每层的特征图进行合并，输出数量为6且大小为原始图片1/4的特征图。

进一步地，作为本发明的一种优选技术方案，所述步骤2构建的损失函数，具体为：

其中，D为dice coefficient的计算函数；S_i为第i个预测区域的集合，G_i为第i个真实区域的集合，S_i,x,y为第i个预测区域中像素点(x,y)的值，G_i,x,y为第i个真实区域中像素点(x,y)的值；

以及，定义L_c为文本区域分类损失，L_s为收缩文本区域损失，计算方式如下：

L_c＝1-D(S_n*M,G_n*M)

其中，M为训练过程中真实区域的mask，S_n为预测区域中像素点的集合，G_n为真实区域中像素点的集合；W为S_n中单个文本区域的mask，S_n,x,y代表S_n中(x,y)的像素值。

进一步地，作为本发明的一种优选技术方案，所述步骤3中采用随机梯度下降算法对所构建的文本检测网络模型和损失函数进行训练。

进一步地，作为本发明的一种优选技术方案，所述步骤5利用图像处理开源库对获取的图片进行固定尺寸缩放、归一化处理，具体包括：

步骤5-1、按照设定的图片宽高对获取的图片进行尺寸缩放处理；

步骤5-2、对缩放后的图片进行归一化处理：利用图像操作库读取图片，使图片变成可操作的数组，然后对数组中每一个数除以255，进行归一化操作，图片的每个通道减去固定的均值和除以固定的方差；以及，如果是图像处理开源库读取的图片，则对图片的通道顺序进行调整，使其变成rgb的通道顺序。

进一步地，作为本发明的一种优选技术方案，所述步骤7利用贝塞尔曲线对所提取的图片中的文本区域进行矫正，具体包括：

步骤7-1、获取文本区域的上下边界：对于弯曲文本，利用文本检测网络模型检测得到图片中的弯曲文本区域并对弯曲文本区域的外接矩形进行计算，获取外接矩形；计算外接矩形的角度，根据外接矩形的边框计算弯曲文本区域的上下边界的起始点；

步骤7-2、根据需求对上下边界各取8个点；

步骤7-3、利用所取的各上下边界点，拟合出上下边界的两条贝塞尔曲线；

步骤7-4、利用拟合出的上下边界的两条贝塞尔曲线对图片中的文本区域进行矫正，得到矫正后的文本区域。

进一步地，作为本发明的一种优选技术方案，所述步骤8对矫正后的文本区域的图片进行预处理，具体包括：利用图像处理开源库对矫正后的文本区域的图片进行灰度化，然后对图片进行缩放。

本发明还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行所述文本识别方法中的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行所述文本识别方法中的步骤。

本发明采用上述技术方案，能产生如下技术效果：

本发明的基于深度学习的文本识别方法，通过对网络模型结构和损失函数以及后处理的重新设计，网络的整体架构以轻量级MobileNeXt网络作为骨架网络进行特征提取，在不损失精度的前提下能够加快网络的推理速度，同时网络的neck是采用PAN结构(像素聚合网络Pixel Aggregation Network)，骨架网络最后一层特征的聚合和上下文信息交互使用金字塔场景解析模块PSP Moudle(Pyramid Scene Parsing Moudle)，使文本检测算法达到高精度、快速的同时，还可以进一步的减少文本粘连问题和对弯曲文本进行矫正。

并且，本发明根据文本识别方法所提出的设备及存储介质，处理器通过执行所述计算机指令从而执行所述文本识别方法中的步骤，及利用计算机可读存储介质存储有计算机指令，使得设备及存储介质具备文本识别功能。因此，本发明方法可以有效解决文本粘连问题，能够准确的对弯曲的文本进行矫正，有效提高文本识别精度，能够在文档电子化、车辆轮胎号检测中得到广泛的应用。

附图说明

图1为本发明方法中构建的文本检测网络模型的结构示意图。

图2为本发明中利用贝塞尔曲线矫正的示意图。

图3为本发明实施例输入的图片示意图。

图4为本发明实施例中采用本方法后的图片示意图。

图5为本发明实施例中弯曲的文本的示意图。

图6为本发明实施例中采用本方法后提取出的文字示意图。

图7为本发明方法的原理图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图7所示，本发明涉及一种基于深度学习的文本识别方法，该方法具体包括以下步骤：

步骤1、按照指定的格式进行数据集的制作，具体如下：

步骤1-1、对某一场景的图片数据进行收集。

步骤1-2、对上述收集到的图片数据进行数据标注，分别标注出图片中每个文本框的四个顶点，且四个顶点以顺时针为顺序，每个图片可以得到一个或者多个标注的文本框。

步骤1-3、根据得到图片的文本框，按照PASCAL VOC的数据格式制作数据集。

步骤2、构建基于MobileNeXt网络的文本检测网络模型和损失函数，具体如下：

步骤2-1、本方法中，所述文本检测网络模型的整体架构以轻量级MobileNeXt网络作为骨架网络进行特征提取，在不损失精度的前提下能够加快网络的推理速度，同时网络的neck是采用PAN(像素聚合网络Pixel Aggregation Network)结构，骨架网络最后一层特征的聚合和上下文信息交互使用金字塔场景解析模块PSP Moudle(Pyramid SceneParsing Moudle)，最后网络的head使用二维卷积操作输出6个分支：S1,S2,…S6，S1是最小的分割结果，S6是最大的分割结果。

步骤2-2、如图1所示，为所述文本检测网络模型的网络架构，其具体搭建过程为：

输入一张图片，利用MobileNeXt网络对图片进行特征提取，特征提取的过程中进行五次下采样，每次下采样都会输出一种尺度的特征图，每个特征图的宽和高都是上一层特征图宽和高的1/2，最后一层的特征图是原始图片的1/32；

MobileNeXt网络输出的最后一层特征图经过金字塔场景解析模块PSP Moudle的操作形成的特征图经过上采样后得到的特征图与第四层特征图进行特征合并得到合并后的特征图，以此类推进行合并，直到合并得到的特征图大小是原始图片的1/4；然后对此时合并得到的原始图片1/4的特征图进行三次下采样，分别保存每层的特征图，使用金字塔场景解析模块PSP Moudle对特征提取的最后一层特征图进行聚合，最后分别把每层的特征图进行合并，输出数量为6且特征图大小为原始图片1/4的特征图。

步骤2-3、设计损失函数：所述损失函数使用评估两个样本相似性的度量函数dicecoefficient进行计算，经过对dice coefficient损失函数的调整，减少文本粘连的现象；具体改进如下：

使损失函数的分子变成预测区域集合和真实区域集合的交集减去交集中不属于真实区域的部分，其中定义预测区域是模型推理的结果，真实区域即是标签区域，分母变成真实区域的像素集；新的损失函数如下：

其中，S_i为第i个预测区域的集合，G_i为第i个真实区域的集合，S_i,x,y为第i个预测区域中像素点(x,y)的值，G_i,x,y为第i个真实区域中像素点(x,y)的值；

并且，定义L_c为文本区域分类损失，L_s为收缩文本区域损失，计算方式如下：

L_c＝1-D(S_n*M,G_n*M) (2)

其中，D为dice coefficient的计算表达式，M为训练过程中真实区域的mask，S_n为预测区域中像素点的集合，G_n为真实区域中像素点的集合；(考虑到shrunk后的文本区域被原始文本区域包围，忽略分割结果S_n中非文本区域的像素从而避免像素冗余的情况；)W为S_n中单个文本区域的mask，S_n,x,y代表S_n中(x,y)的像素值。

步骤3、利用制作的数据集对所构建的文本检测网络模型和损失函数进行训练，得到训练后的文本检测网络模型，具体如下：

步骤3-1、数据增强：将输入图片随机缩放到尺度{0.5,1.0,2.0,3.0}，并进行水平镜像和[-10度，10度]之间的随机旋转，从变换后的图片中随机裁剪出640*640大小的图片，使用颜色均值和方差对图片归一化，对于四边形文本数据集，使用最小外接框作为边界框的最终预测结果；对于弯曲文本数据集，使用Ramer-Douglas-Peucker算法(拉默-道格拉斯-普克算法)对任意形状的文本区域来生成边界框。

步骤3-2、调参和迭代训练，输出最优模型：采用收集和经过预处理的数据集作为训练数据来训练模型，训练过程中优化方法为随机梯度下降算法，对所构建的文本检测网络模型和损失函数进行优化训练；批处理大小设置为16-64，并训练100-300个epochs，初始学习率设置为10e-3，并分别在100和200epoch时各下降1/10；权重衰减率设置为5*10e-4，动量设置为0.99，保留最后精度最高的模型为最优模型。

步骤4、获取某一场景的图片；

步骤5、利用开源的图像操作库对获取的图片进行固定尺寸缩放、归一化处理，具体如下：

步骤5-1、按照设定的图片宽高需求对图片进行尺寸缩放处理：对输入的图片进行判断，当最长边大于640时，以最长边处理640的比例去缩放短边，保持原始图片的比例。

步骤5-2、对缩放后的图片进行归一化处理：利用图像处理开源库读取图片，使图片变成可操作的数组，然后对数组中每一个数除以255，进行归一化操作，图片的每个通道减去固定的均值(0.485,0.456,0.406)和除以固定的方差(0.229,0.224,0.225)；此外，如果是opencv图像处理开源库读取的图片，需要对通道顺序进行调整，使其变成rgb的通道顺序。

步骤6、利用训练后的文本检测网络模型对步骤5处理后的图片进行推理预测，提取得到图片中的文本区域。

步骤7、利用贝塞尔曲线对步骤6所提取的图片中的文本区域进行矫正，得到矫正后的文本区域，具体如下：

步骤7-1、获取文本区域的上下边界：对于弯曲文本，利用文本检测网络模型检测得到图片中的弯曲文本区域并对弯曲文本区域的外接矩形进行计算，获取外接矩形；计算外接矩形的角度，按照长边逆时针的方向计算角度，根据外接矩形的边框计算弯曲文本区域的上下边界的起始点；其中，四边形文本是作为弯曲文本的一种特殊形式，使用最小外接框作为其外接矩形。

步骤7-2、根据需求对上下边界各取8个点；

步骤7-3、利用上下边界点，拟合出上下边界的两条贝塞尔曲线。

所述拟合的贝塞尔曲线，可以由一系列支点bi和如下的关于t的参数方程来描述：

其中，n为贝塞尔曲线的阶数，由于支点bi的指数是从0开始，因此支点个数＝n+1。其中，c(t)代表t时刻曲线的数值，参数t从0到1的演变形成了整个曲线，对于曲线上的任意一点c(t)，该点的坐标可以看作是所有支点坐标的加权平均，而权重就是上面方程里的Bi。具体的操作过程包括以下几个步骤，如图2所示：

(1)对于识别窗口中的任一格点，如图2中右侧正方形框中的一点，先计算出其到窗口左侧的距离与整个窗口宽度的比例t；

(2)对于图2中左侧弯曲的原目标框，找出其上下边界的贝塞尔曲线参数方程对应参数值为t的位置，即tp与bp，如图2中左侧弯曲的原目标框中的上下空心点；图2中左侧弯曲的原目标框中的实心点对应右侧正方形框中的实心点，其中w_out和hout分别右侧正方形框中对应输出水平形状的宽和高，g_iw和g_ih分别是在右侧正方形框中实心点的宽和高，op是左侧实心点的坐标。

(3)计算图2中右侧正方形框中格点到窗口底部的距离与整个窗口高度的比例；

(4)按照上述步骤(3)得到的比例对从bp到tp的线段进行分割，得到最终对应点。

得到对应点后，即可通过二维插值求解该处的特征值。

步骤8、对矫正后的文本区域的图片进行预处理，再利用CRNN文本识别算法对预处理后的图片中的文本区域提取得到文字信息，具体如下：

步骤8-1、对矫正后的图片进行预处理；利用开源的图像操作库对矫正后的文本区域的图片进行灰度化，然后对灰度化后的图片进行缩放，将图片的高度缩放到32，图片的宽度根据高度缩放到32的比例进行同比例缩放，宽度最大值是1024，若超过最大值则进行截取操作；若是批量识别时，需要对不足1024的图片进行补全操作，同时补全值等于0。

步骤8-2、利用CRNN文本识别算法对所述预处理后的图片中的文本区域进行识别，提取得到文本区域对应的文字信息。

为了验证本发明的方法可以达到高精度、快速矫正的同时，还可以进一步的减少文本粘连问题和对弯曲文本进行矫正，列举一个实施例进行说明。

如图3所示，为本发明实施例输入的某一图片示意图，其图片文本检测过出现文本粘连问题。如图4所示，为采用本发明方法后的示意图，对比可知采用本发明方法解决了图片的文本粘连问题。

以及，如图5所示，为本发明输入图片中弯曲的文本的示意图，如图6所示，为采用本发明方法后的提取出的水平文字示意图，对比可知本发明可有效对弯曲文本进行快速矫正，能够快速提取得到水平文字。

根据上述基于深度学习的文本识别方法，本发明还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行所述文本识别方法中的步骤，使得电子设备具备文本识别功能。

以及，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行所述的文本识别方法中的步骤，使得计算机可读存储介质存储文本识别方法。

因此，本发明的方法、设备及存储介质，可使文本检测算法达到高精度、快速的同时，还可以进一步的减少文本粘连问题和对弯曲文本进行矫正。可以有效解决文本粘连问题，能够准确的对弯曲的文本进行矫正，有效提高文本识别精度，能够在文档电子化、车辆轮胎号检测中得到广泛的应用。

尽管以上本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下，在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于深度学习的文本识别方法，其特征在于，包括以下步骤：

步骤1、按照指定的格式进行数据集的制作；

步骤2、构建文本检测网络模型和损失函数；

步骤4、获取某一场景的图片；

步骤5、利用开源的图像操作库对获取的图片进行固定尺寸缩放、归一化处理；

2.根据权利要求1所述的基于深度学习的文本识别方法，其特征在于，所述步骤1按照指定的格式进行数据集的制作，具体包括：

步骤1-1、对某一场景的图片数据进行收集；

步骤1-3、根据得到的图片的文本框，按照PASCAL VOC的数据格式制作数据集。

3.根据权利要求1所述的基于深度学习的文本识别方法，其特征在于，所述步骤2构建基于MobileNeXt网络的文本检测网络模型，具体包括：

将MobileNeXt网络输出的最后一层特征图经过金字塔场景解析模块的操作形成的特征图经过上采样后得到的特征图与第四层特征图进行特征合并得到合并后的特征图，以此类推进行合并，直到合并得到的特征图大小是原始图片的1/4；然后对合并得到的大小是原始图片1/4的特征图进行三次下采样，分别保存每层的特征图，再使用金字塔场景解析模块对特征提取的最后一层特征图进行聚合，最后分别把每层的特征图进行合并，输出数量为6且大小为原始图片1/4的特征图。

4.根据权利要求1所述的基于深度学习的文本识别方法，其特征在于，所述步骤2构建的损失函数，具体为：

L_c＝1-D(S_n*M,G_n*M)

5.根据权利要求1所述的基于深度学习的文本识别方法，其特征在于，所述步骤3中采用随机梯度下降算法对所构建的文本检测网络模型和损失函数进行优化训练。

6.根据权利要求1所述的基于深度学习的文本识别方法，其特征在于，所述步骤5利用图像处理开源库对获取的图片进行固定尺寸缩放、归一化处理，具体包括：

步骤5-2、对缩放后的图片进行归一化处理：利用图像操作库读取图片，使图片变成可操作的数组，然后对数组中每一个数除以255，进行归一化操作，图片的每个通道减去固定的均值和除以固定的方差；以及，如果是开源的图像操作库读取的图片，则对图片的通道顺序进行调整，使其变成rgb的通道顺序。

7.根据权利要求1所述的基于深度学习的文本识别方法，其特征在于，所述步骤7利用贝塞尔曲线对所提取的图片中的文本区域进行矫正，具体包括：

步骤7-2、根据需求对上下边界各取8个点；

8.根据权利要求1所述的基于深度学习的文本识别方法，其特征在于，所述步骤8对矫正后的文本区域的图片进行预处理，具体包括：利用开源的图像操作库对矫正后的文本区域的图片进行灰度化，然后对图片进行缩放。

9.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-8任一项所述的文本识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-8任一项所述的文本识别方法。