CN111445386A

CN111445386A - 基于文本内容四点检测的图像校正方法

Info

Publication number: CN111445386A
Application number: CN202010295247.6A
Authority: CN
Inventors: 尤晶晶; 侯进; 黄贤俊
Original assignee: Shenyuan Hengji Technology Co ltd
Current assignee: Shenyuan Hengji Technology Co ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-07-24

Abstract

本发明提供了一种基于文本内容四点检测的图像校正方法，包括如下步骤：a1.使用深度卷积网络对图片进行文本区域的目标检测，得到文本区域在整张图片中的位置坐标；a2.裁剪出文本区域，生成新的图片；a3.在裁剪的图像上，使用深度卷积网络进行带有顺序信息的四点检测；a4.基于四点的坐标信息，将图片进行仿射变换，得到矫正后的文本图像；文本区域在整张图片中的位置坐标是将图像中每一个基于文本内容的整个区域作为检测的目标，通过深度卷积网络进行目标检测得到的。本发明基于深度神经网络的方法，能够获取极高的准确率和召回率，对文本内容区域的检测，去除了复杂背景的干扰，利用文本区域带有顺序信息的四点检测，可以适用于任何倾斜角度的情况。

Description

基于文本内容四点检测的图像校正方法

技术领域

本发明涉及图像校正技术领域，具体来说，涉及基于文本内容四点检测的图像校正方法。

背景技术

伴随着数字化技术的发展，办公自动化已经成为了现代社会的基本要求，纸质文件经过设备扫描或者拍摄转成文本图像后更加方便保存，但是扫描过程中，不可避免的会造成文本的倾斜，这种倾斜会对之后的文本的检测识别产生一定的影响，因此文本图像倾斜角度的校正一直都是研究的一个热点。

目前普遍采用的方法有以下几种：基于投影特征的方法、基于Hough变换的方法、基于傅立叶变换的方法以及基于K-最近邻簇的方法。现有的方法存在以下问题：1.传统的图像处理方法对噪音的适应性差，当出现光照变化或者背景复杂的情况下较正效果差，无法满足之后文本检测和识别的输入要求；2.适用倾斜角度范围小，当图像倾斜角度大于正负90度时，则无法进行图像文本的校正。

目前文本图像校正多采用传统的图像处理算法，很少有人尝试基于深度学习的方法，对文本图像的倾斜角度校正。2014年以来，深度学习开始在物体检测，物体分割等领域取得优秀成果，涌现出Deeplab，YOLO，Faster RCNN等一序列方法，识别准确率在特定任务上已经超越了人类识别的水平，并在生成环境中得到大规模使用，在深度学习大力向前发展的情况下，需要一种新的文本图像倾斜角度校正的方法出现。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供了基于文本内容四点检测的图像校正方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

基于文本内容四点检测的图像校正方法，包括如下步骤：

a1.使用深度卷积网络对图片进行文本区域的目标检测，从而得到文本区域在整张图片中的位置坐标；

a2.裁剪出文本区域，生成新的图片；

a3.在裁剪的图像上，使用深度卷积网络进行带有顺序信息的四点检测；

a4.基于四点的坐标信息，将图片进行仿射变换，得到矫正后的文本图像。

进一步地，所述文本区域在整张图片中的位置坐标是将图像中每一个基于文本内容的整个区域作为检测的目标，通过深度卷积网络进行目标检测得到的。

进一步地，所述文本区域的目标检测可以是使用任何通用的目标检测算法进行的检测。

进一步地，所述文本区域的目标检测方法如下：

b1：将每个文本图像作为一个目标检测的输入；

b2：利用深度卷积网络对文本图像提取抽象特征；

b3：使用区域候选网络推荐候选文本区域。

进一步地，所述新的图片是将目标检测的文本区域的中心点作为原点，对检测框按照1.25倍的比例进行扩增，剪切检测框内的图像内容得到的。

进一步地，所述四点检测的方法为：

c1：将图像归一化为尺寸为256*256的彩色图像；

c2：使用深度卷积网络分别提取高分变率特征和低分辨率特征；

c3：对低分辨率特征进行采样，并与高分辨率特征进行合并；

c4：计算得出四个关键点的得分图，经过坐标还原得到带有顺序信息的四点坐标。

与现有技术相比，本发明具有以下有益效果：1.相比于现有技术，本发明基于深度学习的图像文本内容四点检测方法带有顺序信息，因此可以适应于任何倾斜角度的文本图像校正；2.相比于现有技术，本发明对于背景更加复杂的文本图像，如拍照方式录入的图像，仍然具有很好的校正效果；3.相比于现有技术，本发明基于深度神经网络的方法，能获取极高的准确率和召回率；4.相比于现有技术，本发明对文本内容区域的检测，去除了复杂背景的干扰。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于文本内容四点检测的图像校正方法的过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一个，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明的保护范围。

下面，结合附图以及具体实施方式，对发明做出进一步的描述：

如图1所示，基于文本内容四点检测的图像校正方法，包括如下步骤：

a2.裁剪出文本区域，生成新的图片；

根据上述内容，所述文本区域在整张图片中的位置坐标是将图像中每一个基于文本内容的整个区域作为检测的目标，通过深度卷积网络进行目标检测得到的。

由于本实施例采用的方法是使用深度卷积网络进行带有顺序信息的四点检测，深度卷积网络是把特征提取完全交给机器、整个特征提取的过程无需手工设计、全部由机器自动完成，通过不同filter的卷积实现特征提取，在特征提取方法上尽量减少人工设计细节，通过监督学习把计算机的计算能力发挥出来，主动寻找合适的特征数据，实现了识别分类结果的最优化求解。那么基于深度学习的图像文本内容四点检测方法带有顺序信息，因此可以适应于任何倾斜角度的文本图像校正。

根据上述内容，所述文本区域的目标检测可以是使用任何通用的目标检测算法进行的检测。目标检测算法如：Faster RCNN，SSD，YOLO，YOLO-v2等。

以目标检测算法Faster RCNN为例子阐述其原理：

根据上述内容，所述文本区域的目标检测方法如下：

b1：将每个文本图像作为一个目标检测的输入；

b2：利用深度卷积网络对文本图像提取抽象特征；

b3：使用区域候选网络推荐候选文本区域。

根据上述内容，所述新的图片是将目标检测的文本区域的中心点作为原点，对检测框按照1.25倍的比例进行扩增，剪切检测框内的图像内容得到的。将剪切后的图像作为输入，使用HRnet网络检测文本内容区域的四点。

以HRnet为例子阐述其原理，所述四点检测的方法为：

c1：将图像归一化为尺寸为256*256的彩色图像；

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限定本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于文本内容四点检测的图像校正方法，其特征在于，包括如下步骤：

a2.裁剪出文本区域，生成新的图片；

2.根据权利要求1所述的基于文本内容四点检测的图像校正方法，其特征在于，所述文本区域在整张图片中的位置坐标是将图像中每一个基于文本内容的整个区域作为检测的目标，通过深度卷积网络进行目标检测得到的。

3.根据权利要求1所述的基于文本内容四点检测的图像校正方法，其特征在于，所述文本区域的目标检测可以是使用任何通用的目标检测算法进行的检测。

4.根据权利要求1所述的基于文本内容四点检测的图像校正方法，其特征在于，所述文本区域的目标检测方法如下：

b1：将每个文本图像作为一个目标检测的输入；

b2：利用深度卷积网络对文本图像提取抽象特征；

b3：使用区域候选网络推荐候选文本区域。

5.根据权利要求1所述的基于文本内容四点检测的图像校正方法，其特征在于，所述新的图片是将目标检测的文本区域的中心点作为原点，对检测框按照1.25倍的比例进行扩增，剪切检测框内的图像内容得到的。

6.根据权利要求1所述的基于文本内容四点检测的图像校正方法，其特征在于，所述四点检测的方法为：

c1：将图像归一化为尺寸为256*256的彩色图像；