CN113139545A

CN113139545A - 一种弯曲文字矫正方法、存储介质和电子装置

Info

Publication number: CN113139545A
Application number: CN202110499309.XA
Authority: CN
Inventors: 孔令军; 王锐; 周耀威; 姜哲鹏; 闫佳艺
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-20
Anticipated expiration: 2041-05-08
Also published as: CN113139545B

Abstract

本发明提供一种弯曲文字矫正方法、存储介质和电子装置，其中方法包括获取包含成行文字的图片；利用文字中线识别模型对图片进行识别，得到文字中线热点图；将文字中线热点图还原为组成文字中线的点，具体是对于每个热点，将其与周围热点进行比较，取热点值最大的热点；判断热点值最大的热点位于文字中线的概率是否大于预设的第一阈值，如是则保留该热点，否则丢弃，从而得到组成文字中线的点集；对点集进行聚类和矫正文字。本发明通过构造文字中线识别模型，生成每行文字中线的热点图，进一步将文字归类到所属的行，然后矫正。本发明的识别弯曲文字以及对其矫正的方法利用深度卷积网络实现，简化了识别过程，智能程度高，准确率得到很大提升。

Description

一种弯曲文字矫正方法、存储介质和电子装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种弯曲文字矫正方法、存储介质和电子装置。

背景技术

随着拍照技术和图像识别技术的不断发展，利用智能终端拍照接着进行人工智能处理，从而识别图片中文字的做法越来越普遍。在很多情况中，由于拍摄角度的问题，摄像头不会恰好位于所拍摄文字的正上方，而是与垂直方向有夹角，从而拍摄得到的图片是倾斜的，图片中的整行文字并不是直线排列，而是弯曲成一定弧度的。这样的图片再做进一步机器识别或处理，就容易出现错行或识别不出文字。

解决这一问题需要将图片中弯曲的整行文字矫正为沿直线排列，目前现有技术中是通过识别图片中单个字符的基础上再判断与相邻文字的关系，确认其所在的行，再对整行文字进行矫正。这种方法智能程度低，算法复杂且矫正的准确度不高，不能适应人们对图像处理智能化的要求。

发明内容

鉴于以上问题，本发明提供一种弯曲文字矫正方法、存储介质和电子装置，采用新的算法，通过对文字中线的识别矫正图片中的弯曲文字。

本发明采用以下技术方案实现上述目的。

第一方面，本发明提供一种弯曲文字矫正方法，包括以下步骤，获取包含成行文字的图片；利用文字中线识别模型对所述图片进行识别，得到文字中线热点图；将所述文字中线热点图还原为组成文字中线的点，具体为：遍历所述文字中线热点图中的点，对于每个热点，将其与周围热点进行比较，取热点值最大的热点；判断所述热点值最大的热点位于文字中线的概率是否大于预设的第一阈值，如是则保留该热点，否则丢弃，从而得到组成文字中线的点集；对所述点集进行聚类，具体为合并距离小于第二阈值的所述点集，直到所述点集之间的距离大于所述第二阈值；矫正文字，具体为：对每组点集用曲线拟合，沿所述曲线对图片进行切片，再对所述切片进行直线合并，得到沿直线排列的整行文字。

进一步的，所述文字中线识别模型由以下步骤得到，

S21、人工标记图片中每行文字的中线，并将该中线通过高斯变换转换成第一热点图；

S22、利用深度卷积网络对原始图片进行预测得到第二热点图；

S23、将所述第一热点图和所述第二热点图进行训练，直到损失函数不收敛为止，得到所述文字中线识别模型；所述损失函数表示所述第一热点图的预测量和所述第二热点图预测量之间的误差。

进一步，S22中所述利用深度卷积网络对原始图片进行预测得到第二热点图具体为：所述原始图片经过深度卷积网络的卷积层提取特征值、池化层降低分辨率后，得到特征矩阵，再经过激活函数激活，将特征点的值归一化到0~1之间，即得到所述第二热点图。

进一步的，所述损失函数为

其中，

、w、h分别表示热点图的通道维度、宽和高，j、x、y表示热点图上点的坐标，

表示第二热点图的预测量，

表示第一热点图的预测量。

进一步的，所述激活函数为

其中，x表示第二热点图中某个热点的热点值。

进一步的，所述切片的宽度为一个像素点。

本发明第二方面，提供一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。

本发明第三方面，提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。

本发明具有以下有益效果：通过构造文字中线识别模型，生成每行文字中线的热点图，进一步将文字归类到所属的行，然后矫正。本发明的识别弯曲文字以及对其矫正的方法利用深度卷积网络实现，简化了识别过程，智能程度高，准确率得到很大提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例弯曲文字矫正方法流程图；

图2为图1实施例中标记文字中线示意图；

图3为图1实施例中通过深度卷积网络预测得到的第二热点图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

本实施例描述的是一种弯曲文字矫正方法，如图1所示，包括以下步骤，

S1、获取包含成行文字的图片。

所述的成行文字，既可以是横向排列的，也可以是纵向排列的。图片中应至少包含一行文字，通常情况下大于一行文字。本实施例以横向排列的多行文字为例来说明本发明的发明思想和实施过程。

获取图片的方式可以是通过摄像头拍照或在视频中截图。

S2、利用文字中线识别模型对所述图片进行识别，得到文字中线热点图。

具体的，文字中线识别模型由以下步骤得到，

S21、人工标记图片中每行文字的中线，并将该中线通过高斯变换转换成第一热点图。

具体的，首先通过标注如图2所示的每一行文字的中线得到一个点组，有多少点中线将包含多少个点组，然后使用一张分辨率为H*W的值全为0的单通道图作为没有处理前的热点图，按照标注的点组拟合成文字的中线

，其中k代表文字中线里的第k条拟合曲线。接着遍历图上的所有点，并按照以下规则设值：首先定义关于中线的热点图

。

其中p代表热点图上的某个点，

代表文字中线里的第k条直线；Dist表示取该点与中线的距离，

代表控制概率峰值的衰减速度。

图中包含的文字中线不只一条，热点图中某些点所处的概率值将会收到不同文字中线的影响，在这种情况下，取该点所受影响最大的点作为最后的值。最终的热点图上的点能够表示成：

本实施例使用对当前点影响最大的文字中线计算该点的概率。最终得到整张图片的第一热点图。

需要说明的是，通过上述方式将得到仅包含一个通道的热点图，对每个热点利用公式

，得到结果即是对应的背景预测热点图。由此组成一个标签图大小为

的热点图，其中第一个通道中的特征图代表该点为文字中线的概率，第二个通道中的特征图代表该点为背景的概率。

S22、利用深度卷积网络对原始图片进行预测得到第二热点图。

以H*W*3的RGB图片为例，首先利用深度卷积网络的卷积层、归一化层、激活层进行特征提取，然后经过池化层进行二倍下采样；再次利用卷积层、归一化层、激活层提取特征，再次经池化层进行二倍下采样，得到累计下采样四倍的特征图

，C表示维度。需要说明的是，这里取下采样四倍只是为了说明本实施例，实际只要是2的倍数也可实现同样功能，四倍是较优的实施例。

接着利用卷积层提取得到维度为2的特征矩阵。最后经过激活函数激活，将特征点的值归一化到0~1之间，即得到第二热点图，如图3所示。

所述激活函数为

其中，x表示第二热点图中某个热点的热点值。

具体的，第一热点图和第二热点图都为

，本实施例以第一热点图和第二热点图上对应的每个点使用以下公式计算得到损失函数。

其中，

表示第二热点图的预测量，

表示第一热点图的预测量。通过训练后，文字中线识别模型有能力对图片进行预测得到关于中线的热点图。训练使用SGD批随机梯度下降算法进行训练，训练达到损失函数不收敛为止。

S3、将所述文字中线热点图还原为组成文字中线的点。

具体为：遍历所述文字中线热点图中的点，对于每个热点，将其与周围热点进行比较，取热点值最大的热点；判断所述热点值最大的热点位于文字中线的概率是否大于预设的第一阈值，如是则保留该热点，否则丢弃，从而得到组成文字中线的点集。

S4、对所述点集进行聚类，具体为合并距离小于第二阈值的所述点集，直到所述点集之间的距离大于所述第二阈值。

S5、矫正文字，具体为：对每组点集用曲线拟合，沿所述曲线对图片进行切片，再对所述切片进行直线合并，得到沿直线排列的整行文字。

使用多项式曲线拟合，从本质上讲，多项式曲线拟合是一个线性模型，其数学表达式为

其中M是多项式的最高次数，

是

的学习系数。本实施例通过收集上述过程中得到的同一中线的N个样本点作为样本数N，对于每一个样本点

，其对应的输出为

,损失函数可以表示为：

优选的，所述切片的宽度为一个像素点，高度为本文中的文字高度。

本实施例第二方面，提供一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。

本实施例第三方面，提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种弯曲文字矫正方法，其特征在于，包括以下步骤，

获取包含成行文字的图片；

利用文字中线识别模型对所述图片进行识别，得到文字中线热点图；

将所述文字中线热点图还原为组成文字中线的点，具体为：遍历所述文字中线热点图中的点，对于每个热点，将其与周围热点进行比较，取热点值最大的热点；判断所述热点值最大的热点位于文字中线的概率是否大于预设的第一阈值，如是则保留该热点，否则丢弃，从而得到组成文字中线的点集；

对所述点集进行聚类，具体为合并距离小于第二阈值的所述点集，直到所述点集之间的距离大于所述第二阈值；

矫正文字，具体为：对每组点集用曲线拟合，沿所述曲线对图片进行切片，再对所述切片进行直线合并，得到沿直线排列的整行文字。

2.根据权利要求1所述的弯曲文字矫正方法，其特征在于，所述文字中线识别模型由以下步骤得到，

3.根据权利要求2所述的弯曲文字矫正方法，其特征在于，S22中所述利用深度卷积网络对原始图片进行预测得到第二热点图具体为：所述原始图片经过深度卷积网络的卷积层提取特征值、池化层降低分辨率后，得到特征矩阵，再经过激活函数激活，将特征点的值归一化到0~1之间，即得到所述第二热点图。

4.根据权利要求2所述的弯曲文字矫正方法，其特征在于，所述损失函数为

其中，

表示第二热点图的预测量，

表示第一热点图的预测量。

5.根据权利要求3所述的弯曲文字矫正方法，其特征在于，所述激活函数为

其中，x表示第二热点图中某个热点的热点值。

6.根据权利要求1所述的弯曲文字矫正方法，其特征在于，所述切片的宽度为一个像素点。

7.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。