CN113139545A - 一种弯曲文字矫正方法、存储介质和电子装置 - Google Patents

一种弯曲文字矫正方法、存储介质和电子装置 Download PDF

Info

Publication number
CN113139545A
CN113139545A CN202110499309.XA CN202110499309A CN113139545A CN 113139545 A CN113139545 A CN 113139545A CN 202110499309 A CN202110499309 A CN 202110499309A CN 113139545 A CN113139545 A CN 113139545A
Authority
CN
China
Prior art keywords
hotspot
characters
central line
hot spot
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110499309.XA
Other languages
English (en)
Other versions
CN113139545B (zh
Inventor
孔令军
王锐
周耀威
姜哲鹏
闫佳艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN202110499309.XA priority Critical patent/CN113139545B/zh
Publication of CN113139545A publication Critical patent/CN113139545A/zh
Application granted granted Critical
Publication of CN113139545B publication Critical patent/CN113139545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明提供一种弯曲文字矫正方法、存储介质和电子装置,其中方法包括获取包含成行文字的图片;利用文字中线识别模型对图片进行识别,得到文字中线热点图;将文字中线热点图还原为组成文字中线的点,具体是对于每个热点,将其与周围热点进行比较,取热点值最大的热点;判断热点值最大的热点位于文字中线的概率是否大于预设的第一阈值,如是则保留该热点,否则丢弃,从而得到组成文字中线的点集;对点集进行聚类和矫正文字。本发明通过构造文字中线识别模型,生成每行文字中线的热点图,进一步将文字归类到所属的行,然后矫正。本发明的识别弯曲文字以及对其矫正的方法利用深度卷积网络实现,简化了识别过程,智能程度高,准确率得到很大提升。

Description

一种弯曲文字矫正方法、存储介质和电子装置
技术领域
本发明涉及图像处理技术领域,特别涉及一种弯曲文字矫正方法、存储介质和电子装置。
背景技术
随着拍照技术和图像识别技术的不断发展,利用智能终端拍照接着进行人工智能处理,从而识别图片中文字的做法越来越普遍。在很多情况中,由于拍摄角度的问题,摄像头不会恰好位于所拍摄文字的正上方,而是与垂直方向有夹角,从而拍摄得到的图片是倾斜的,图片中的整行文字并不是直线排列,而是弯曲成一定弧度的。这样的图片再做进一步机器识别或处理,就容易出现错行或识别不出文字。
解决这一问题需要将图片中弯曲的整行文字矫正为沿直线排列,目前现有技术中是通过识别图片中单个字符的基础上再判断与相邻文字的关系,确认其所在的行,再对整行文字进行矫正。这种方法智能程度低,算法复杂且矫正的准确度不高,不能适应人们对图像处理智能化的要求。
发明内容
鉴于以上问题,本发明提供一种弯曲文字矫正方法、存储介质和电子装置,采用新的算法,通过对文字中线的识别矫正图片中的弯曲文字。
本发明采用以下技术方案实现上述目的。
第一方面,本发明提供一种弯曲文字矫正方法,包括以下步骤,获取包含成行文字的图片;利用文字中线识别模型对所述图片进行识别,得到文字中线热点图;将所述文字中线热点图还原为组成文字中线的点,具体为:遍历所述文字中线热点图中的点,对于每个热点,将其与周围热点进行比较,取热点值最大的热点;判断所述热点值最大的热点位于文字中线的概率是否大于预设的第一阈值,如是则保留该热点,否则丢弃,从而得到组成文字中线的点集;对所述点集进行聚类,具体为合并距离小于第二阈值的所述点集,直到所述点集之间的距离大于所述第二阈值;矫正文字,具体为:对每组点集用曲线拟合,沿所述曲线对图片进行切片,再对所述切片进行直线合并,得到沿直线排列的整行文字。
进一步的,所述文字中线识别模型由以下步骤得到,
S21、人工标记图片中每行文字的中线,并将该中线通过高斯变换转换成第一热点图;
S22、利用深度卷积网络对原始图片进行预测得到第二热点图;
S23、将所述第一热点图和所述第二热点图进行训练,直到损失函数不收敛为止,得到所述文字中线识别模型;所述损失函数表示所述第一热点图的预测量和所述第二热点图预测量之间的误差。
进一步,S22中所述利用深度卷积网络对原始图片进行预测得到第二热点图具体为:所述原始图片经过深度卷积网络的卷积层提取特征值、池化层降低分辨率后,得到特征矩阵,再经过激活函数激活,将特征点的值归一化到0~1之间,即得到所述第二热点图。
进一步的,所述损失函数为
Figure 583400DEST_PATH_IMAGE002
其中,
Figure 870156DEST_PATH_IMAGE004
、w、h分别表示热点图的通道维度、宽和高,j、x、y表示热点图上点的坐标,
Figure 104829DEST_PATH_IMAGE006
表示第二热点图的预测量,
Figure 56604DEST_PATH_IMAGE008
表示第一热点图的预测量。
进一步的,所述激活函数为
Figure 152343DEST_PATH_IMAGE010
其中,x表示第二热点图中某个热点的热点值。
进一步的,所述切片的宽度为一个像素点。
本发明第二方面,提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。
本发明第三方面,提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。
本发明具有以下有益效果:通过构造文字中线识别模型,生成每行文字中线的热点图,进一步将文字归类到所属的行,然后矫正。本发明的识别弯曲文字以及对其矫正的方法利用深度卷积网络实现,简化了识别过程,智能程度高,准确率得到很大提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例弯曲文字矫正方法流程图;
图2为图1实施例中标记文字中线示意图;
图3为图1实施例中通过深度卷积网络预测得到的第二热点图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
本实施例描述的是一种弯曲文字矫正方法,如图1所示,包括以下步骤,
S1、获取包含成行文字的图片。
所述的成行文字,既可以是横向排列的,也可以是纵向排列的。图片中应至少包含一行文字,通常情况下大于一行文字。本实施例以横向排列的多行文字为例来说明本发明的发明思想和实施过程。
获取图片的方式可以是通过摄像头拍照或在视频中截图。
S2、利用文字中线识别模型对所述图片进行识别,得到文字中线热点图。
具体的,文字中线识别模型由以下步骤得到,
S21、人工标记图片中每行文字的中线,并将该中线通过高斯变换转换成第一热点图。
具体的,首先通过标注如图2所示的每一行文字的中线得到一个点组,有多少点中线将包含多少个点组,然后使用一张分辨率为H*W的值全为0的单通道图作为没有处理前的热点图,按照标注的点组拟合成文字的中线
Figure 437698DEST_PATH_IMAGE012
,其中k代表文字中线里的第k条拟合曲线。接着遍历图上的所有点,并按照以下规则设值:首先定义关于中线的热点图
Figure 159666DEST_PATH_IMAGE014
Figure 197023DEST_PATH_IMAGE016
其中p代表热点图上的某个点,
Figure 524100DEST_PATH_IMAGE018
代表文字中线里的第k条直线;Dist表示取该点与中线的距离,
Figure 870767DEST_PATH_IMAGE020
代表控制概率峰值的衰减速度。
图中包含的文字中线不只一条,热点图中某些点所处的概率值将会收到不同文字中线的影响,在这种情况下,取该点所受影响最大的点作为最后的值。最终的热点图上的点能够表示成:
Figure 814452DEST_PATH_IMAGE022
本实施例使用对当前点影响最大的文字中线计算该点的概率。最终得到整张图片的第一热点图。
需要说明的是,通过上述方式将得到仅包含一个通道的热点图,对每个热点利用公式
Figure 655501DEST_PATH_IMAGE024
,得到结果即是对应的背景预测热点图。由此组成一个标签图大小为
Figure 633821DEST_PATH_IMAGE026
的热点图,其中第一个通道中的特征图代表该点为文字中线的概率,第二个通道中的特征图代表该点为背景的概率。
S22、利用深度卷积网络对原始图片进行预测得到第二热点图。
以H*W*3的RGB图片为例,首先利用深度卷积网络的卷积层、归一化层、激活层进行特征提取,然后经过池化层进行二倍下采样;再次利用卷积层、归一化层、激活层提取特征,再次经池化层进行二倍下采样,得到累计下采样四倍的特征图
Figure 370964DEST_PATH_IMAGE028
,C表示维度。需要说明的是,这里取下采样四倍只是为了说明本实施例,实际只要是2的倍数也可实现同样功能,四倍是较优的实施例。
接着利用卷积层提取得到维度为2的特征矩阵。最后经过激活函数激活,将特征点的值归一化到0~1之间,即得到第二热点图,如图3所示。
所述激活函数为
Figure 801945DEST_PATH_IMAGE010
其中,x表示第二热点图中某个热点的热点值。
S23、将所述第一热点图和所述第二热点图进行训练,直到损失函数不收敛为止,得到所述文字中线识别模型;所述损失函数表示所述第一热点图的预测量和所述第二热点图预测量之间的误差。
具体的,第一热点图和第二热点图都为
Figure 899214DEST_PATH_IMAGE026
,本实施例以第一热点图和第二热点图上对应的每个点使用以下公式计算得到损失函数。
Figure 732041DEST_PATH_IMAGE030
其中,
Figure 371576DEST_PATH_IMAGE004
、w、h分别表示热点图的通道维度、宽和高,j、x、y表示热点图上点的坐标,
Figure 289854DEST_PATH_IMAGE032
表示第二热点图的预测量,
Figure 456393DEST_PATH_IMAGE034
表示第一热点图的预测量。通过训练后,文字中线识别模型有能力对图片进行预测得到关于中线的热点图。训练使用SGD批随机梯度下降算法进行训练,训练达到损失函数不收敛为止。
S3、将所述文字中线热点图还原为组成文字中线的点。
具体为:遍历所述文字中线热点图中的点,对于每个热点,将其与周围热点进行比较,取热点值最大的热点;判断所述热点值最大的热点位于文字中线的概率是否大于预设的第一阈值,如是则保留该热点,否则丢弃,从而得到组成文字中线的点集。
S4、对所述点集进行聚类,具体为合并距离小于第二阈值的所述点集,直到所述点集之间的距离大于所述第二阈值。
S5、矫正文字,具体为:对每组点集用曲线拟合,沿所述曲线对图片进行切片,再对所述切片进行直线合并,得到沿直线排列的整行文字。
使用多项式曲线拟合,从本质上讲,多项式曲线拟合是一个线性模型,其数学表达式为
Figure 628879DEST_PATH_IMAGE036
其中M是多项式的最高次数,
Figure 957093DEST_PATH_IMAGE038
Figure 628245DEST_PATH_IMAGE040
的学习系数。本实施例通过收集上述过程中得到的同一中线的N个样本点作为样本数N,对于每一个样本点
Figure 614787DEST_PATH_IMAGE042
,其对应的输出为
Figure 687785DEST_PATH_IMAGE044
,损失函数可以表示为:
Figure 468791DEST_PATH_IMAGE046
优选的,所述切片的宽度为一个像素点,高度为本文中的文字高度。
本实施例第二方面,提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。
本实施例第三方面,提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种弯曲文字矫正方法,其特征在于,包括以下步骤,
获取包含成行文字的图片;
利用文字中线识别模型对所述图片进行识别,得到文字中线热点图;
将所述文字中线热点图还原为组成文字中线的点,具体为:遍历所述文字中线热点图中的点,对于每个热点,将其与周围热点进行比较,取热点值最大的热点;判断所述热点值最大的热点位于文字中线的概率是否大于预设的第一阈值,如是则保留该热点,否则丢弃,从而得到组成文字中线的点集;
对所述点集进行聚类,具体为合并距离小于第二阈值的所述点集,直到所述点集之间的距离大于所述第二阈值;
矫正文字,具体为:对每组点集用曲线拟合,沿所述曲线对图片进行切片,再对所述切片进行直线合并,得到沿直线排列的整行文字。
2.根据权利要求1所述的弯曲文字矫正方法,其特征在于,所述文字中线识别模型由以下步骤得到,
S21、人工标记图片中每行文字的中线,并将该中线通过高斯变换转换成第一热点图;
S22、利用深度卷积网络对原始图片进行预测得到第二热点图;
S23、将所述第一热点图和所述第二热点图进行训练,直到损失函数不收敛为止,得到所述文字中线识别模型;所述损失函数表示所述第一热点图的预测量和所述第二热点图预测量之间的误差。
3.根据权利要求2所述的弯曲文字矫正方法,其特征在于,S22中所述利用深度卷积网络对原始图片进行预测得到第二热点图具体为:所述原始图片经过深度卷积网络的卷积层提取特征值、池化层降低分辨率后,得到特征矩阵,再经过激活函数激活,将特征点的值归一化到0~1之间,即得到所述第二热点图。
4.根据权利要求2所述的弯曲文字矫正方法,其特征在于,所述损失函数为
Figure 993344DEST_PATH_IMAGE002
其中,
Figure 666770DEST_PATH_IMAGE004
、w、h分别表示热点图的通道维度、宽和高,j、x、y表示热点图上点的坐标,
Figure 129980DEST_PATH_IMAGE006
表示第二热点图的预测量,
Figure 583964DEST_PATH_IMAGE008
表示第一热点图的预测量。
5.根据权利要求3所述的弯曲文字矫正方法,其特征在于,所述激活函数为
Figure 454968DEST_PATH_IMAGE010
其中,x表示第二热点图中某个热点的热点值。
6.根据权利要求1所述的弯曲文字矫正方法,其特征在于,所述切片的宽度为一个像素点。
7.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
CN202110499309.XA 2021-05-08 2021-05-08 一种弯曲文字矫正方法、存储介质和电子装置 Active CN113139545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110499309.XA CN113139545B (zh) 2021-05-08 2021-05-08 一种弯曲文字矫正方法、存储介质和电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110499309.XA CN113139545B (zh) 2021-05-08 2021-05-08 一种弯曲文字矫正方法、存储介质和电子装置

Publications (2)

Publication Number Publication Date
CN113139545A true CN113139545A (zh) 2021-07-20
CN113139545B CN113139545B (zh) 2023-07-18

Family

ID=76816616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110499309.XA Active CN113139545B (zh) 2021-05-08 2021-05-08 一种弯曲文字矫正方法、存储介质和电子装置

Country Status (1)

Country Link
CN (1) CN113139545B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03266890A (ja) * 1990-03-16 1991-11-27 Nippon Telegr & Teleph Corp <Ntt> 変形文字パターン発生処理方法
CN109241904A (zh) * 2018-08-31 2019-01-18 平安科技(深圳)有限公司 文字识别模型训练、文字识别方法、装置、设备及介质
CN109753971A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN110458167A (zh) * 2019-08-20 2019-11-15 浙江工业大学 一种金属件表面弯曲文本行矫正方法
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
CN112541489A (zh) * 2019-09-23 2021-03-23 顺丰科技有限公司 图像检测方法、装置、移动终端及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03266890A (ja) * 1990-03-16 1991-11-27 Nippon Telegr & Teleph Corp <Ntt> 変形文字パターン発生処理方法
CN109753971A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 扭曲文字行的矫正方法及装置、字符识别方法及装置
CN109241904A (zh) * 2018-08-31 2019-01-18 平安科技(深圳)有限公司 文字识别模型训练、文字识别方法、装置、设备及介质
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子系统
CN110458167A (zh) * 2019-08-20 2019-11-15 浙江工业大学 一种金属件表面弯曲文本行矫正方法
CN112541489A (zh) * 2019-09-23 2021-03-23 顺丰科技有限公司 图像检测方法、装置、移动终端及存储介质
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
PILU M 等: "Extraction of illusory linear clues in perspectively skewed documents", 《PROCEEDINGS OF IEEE CVPR》, pages 363 - 368 *
XI LONG 等: "Genetic-variant hotspots and hotspot clusters in the human genome facilitating adaptation while increasing instability", 《HUMAN GENOMICS》, pages 1 - 23 *
孔令军 等: "基于深度学习的表格检测识别算法综述", 《计算机与网络》, pages 65 - 73 *
张吉福: "文本扫描图像折痕检测与扭曲去除", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1666 *
程雷雷: "基于深度神经网络的形变中文文档矫正研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1498 *

Also Published As

Publication number Publication date
CN113139545B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN111401371B (zh) 一种文本检测识别方法、系统及计算机设备
CN108108746B (zh) 基于Caffe深度学习框架的车牌字符识别方法
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN110070536B (zh) 一种基于深度学习的pcb板元器件检测方法
US20170364757A1 (en) Image processing system to detect objects of interest
CN109522816A (zh) 表格识别方法及装置、计算机存储介质
CN109800756B (zh) 一种用于中文历史文献密集文本的文字检测识别方法
CN109886978B (zh) 一种基于深度学习的端到端告警信息识别方法
CN109190625B (zh) 一种大角度透视变形的集装箱箱号识别方法
CN110321788A (zh) 训练数据处理方法、装置、设备及计算机可读存储介质
CN110852324A (zh) 一种基于深度神经网络集装箱箱号检测方法
CN112418225B (zh) 一种面向地址场景识别的离线文字识别方法
CN111985465A (zh) 文本识别方法、装置、设备及存储介质
CN115082922A (zh) 基于深度学习的水表数字图片处理方法及系统
CN111401171A (zh) 一种人脸图像的识别方法、装置、电子设备和存储介质
CN111680690A (zh) 一种文字识别方法及装置
CN112488244A (zh) 一种利用热力图进行点标注方式的密集分布小目标害虫自动计数方法
CN112686219B (zh) 手写文本识别方法及计算机存储介质
CN113139545A (zh) 一种弯曲文字矫正方法、存储介质和电子装置
CN111368831B (zh) 一种竖排文字的定位系统及方法
CN110490170B (zh) 一种人脸候选框提取方法
CN115393861B (zh) 一种手写体文本精准分割方法
CN111091122A (zh) 一种多尺度特征卷积神经网络的训练和检测方法、装置
CN111126173A (zh) 一种高精度人脸检测方法
CN111046770A (zh) 一种照片档案人物自动标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant