CN109902680A

CN109902680A - 基于卷积神经网络的图片旋转角度检测与校正方法

Info

Publication number: CN109902680A
Application number: CN201910160910.9A
Authority: CN
Inventors: 赵冬; 池明辉; 肖欣庭
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-06-18

Abstract

本发明公开了一种基于卷积神经网络的图片旋转角度检测与校正方法，包括以下步骤：A.构造网络的训练的数据集；B.构建网络结构及训练参数设置；C.模型训练及训练后的模型参数保存；D.角度检测及校正；E.旋转角计算及图片旋转校正。本发明采用结合图像处理和卷积神经网络的方法，通过深度学习技术手段来提升角度检测的高效性和精确性，利用本方法对图片做角度检测并做旋转校正，可完美解决大角度图片文本检测效果较差的问题，有效提升文本OCR识别率。

Description

基于卷积神经网络的图片旋转角度检测与校正方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于卷积神经网络的图片旋转角度检测与校正方法。

背景技术

图像旋转角度校正通常作为图像处理应用的前置步骤，准确高效的检测图像的旋转角度并对其进行角度校正对后续图像处理应用流程具有显著的提升作用。在OCR应用中，待识别图像的旋转角度对文字检测的效果影响很大，传统的角度检测方法(傅里叶变换频谱分析、轮廓提取、线条检测等)对图片中的噪声较敏感，且检测速度较慢，不具有普遍适用性。当然，目前也有针对旋转图片直接做文字检测的方法(RRPN、CTPN等)，但这些方法或多或少的存在缺陷，RRPN检测效果一般，CTPN不支持大角度图片。因此，如何对待识别图像进行准确的文本检测是一个急需解决的问题，而能否在文本检测之前对待检测图像做快速准确的旋转角度校正是研究人员主要研究的问题点之一。

发明内容

本发明的目的是克服上述背景技术中不足，提供一种基于卷积神经网络的图片旋转角度检测与校正方法，针对传统角度检测方法在噪声较大、干扰线较多情况下，检测效果差、精度低等缺点；本发明采用结合图像处理和卷积神经网络的方法，通过深度学习技术手段来提升角度检测的高效性和精确性，利用本方法对图片做角度检测并做旋转校正，可完美解决大角度图片文本检测效果较差的问题，有效提升文本OCR识别率。

为了达到上述的技术效果，本发明采取以下技术方案：

基于卷积神经网络的图片旋转角度检测与校正方法，包括以下步骤：

A.构造网络的训练的数据集；

B.构建网络结构及训练参数设置；

C.模型训练及训练后的模型参数保存；

D.角度检测及校正；

E.旋转角计算及图片旋转校正。

进一步地，所述步骤A具体包括：

A1.筛选旋转角度不超过2度的标准图片M张；

A2.设置大角度检测类别数N，将-180度至180度区间的角度期间分为N个子区间，且第一个子区间的起始角度范围为(-15,15]，其余子区间的角度范围依次加绕顺时针方向旋转30度；

A3.针对每个角度区间，创建一个存放旋转后图片的文件夹，并依次遍历所有角度区间及标准图片，每个角度区间的大角度theta＝30*i，其中i为区间编号；

A4.对每副基准图片生成大小范围介于-15度待15度的随机旋转小角度alpha；

A5.计算每个区间范围内单张图片的最终旋转角度beta＝theta+alpha；

A6.计算旋转后生成新图像的宽度W和高度H；

A7.设定背景填充颜色fill_bk_color；

A8.生成宽度和高度分别为W、H的两个画布CANVAS1和CANVAS2；在CANVAS1上画上背景色为fill_bk_color的图片，对原图沿顺时针旋转beta角，在CANVAS2上画旋转之后的图片，最后对两个画布做叠加得到训练图片；

A9.保存训练图片到指定文件夹；

A10.遍历完所有角度区间及标注图片则结束，将所有生成的图片作为训练集输入网络进行训练。

进一步地，所述步骤A1中具体为筛选旋转角度为0度的标准图片M张。

进一步地，所述步骤B中构建的网络结构具体为基于VGG16的卷积神经网络结构，且步骤B具体包括：

B1.特征提取：网络结构的part1-part5为特征提取层，由卷积层和下采样层组成，网络结构及参数均采用VGG16中的标准配置；

B2.将经过步骤B1处理的后特征送入flatten层，flatten层用于将特征送入全连接层进行处理；

B3.将经过flatten层处理后的特征送入随后的两个全连接层进行分类，其中第一个全连接层有4096个节点，采用relu激活函数，第二个全连接层具有12个节点，采用softmax作为激活函数进行回归得到该特征属于各个角度区间范围的概率向量。

进一步地，所述步骤C具体为：以32个样本为一个batchs，一共10000批的训练数据，设置学习率为0.0001，采用RMSprop优化方法优化损失函数训练10个epochs，训练完毕，保存训练好的网络权重。

进一步地，所述步骤C中，在模型训练中采用keras数据增强策略，以增强模型的抗造能力，具体数据增强策略如下：width_shift_range＝0.2,

height_shift_range＝0.2,shear_range＝0.2,zoom_range＝0.2,channel_shift_range＝0.2,fillmode＝nearest。

进一步地，所述步骤D具体包括：

D1.大角度检测及校正；

D2.小角度检测。

进一步地，所述步骤D1具体为：利用步骤C训练得到的模型对待检测图片进行检测，检测得到的角度记为theta，然后使用检测得到的角度对图片做旋转校正。

进一步地，所述步骤D2具体为：

D2.1将待检测图片绕顺时针旋转theta角得到经大角度校正后的小角度图片；

D2.2设定小角度检测范围为-15到15度，将小角度图片等比例缩放到指定尺寸大小，其中宽不大于900个像素值，高不大于600个像素值；

D2.3将缩放后的图片进行归一化操作，即计算缩放后图片的最大像素值和最小像素值，并将每个像素值先减去最小像素值，再除以最大像素值；

D2.4对经步骤D2.3归一化操作后的图片进行下采样操作，步长为2；

D2.5对经步骤D2.4处理后的图片沿行方向进行百分比滤波，核大小为(20,2)；

D2.6对经步骤D2.5处理后的图片沿列方向进行百分比滤波，核大小为(2，20)；

D2.7对经步骤D2.6处理后的图片进行上采样，步长为2；

D2.8背景去除，使用经步骤D2.2缩放后的图片减去经步骤D2.7处理后的图片以减轻背景干扰；

D2.9图片切边操作，即上下左右各切除步骤D2.2缩放后图像尺寸的0.1倍，减轻图片边缘对后续操作的影响；

D2.10以步长为1度遍历角度检测范围中的各个角度对步骤D2.9处理后的图片进行旋转；

D2.11计算步骤D2.10旋转之后图像各行像素的均值，组成行像素均值向量；

D2.12计算步骤D2.11行像素均值向量的方差，并将该方差值和旋转角度一同存入一个缓存列表var_angle_list；

D2.13判断所有角度范围是否遍历完，若否，则返回步骤D2.10继续计算；若是，则循环结束，并找到缓存列表var_angle_list中方差最大的元素，该元素对应的旋转角度即为检测得到的小角度。

进一步地，所述步骤E具体为，最终待检测图片的旋转角度即为步骤D1检测的大角度与步骤D2检测得到的小角度之和，利用该角度对图片进行旋转校正即可。

本发明与现有技术相比，具有以下的有益效果：

本发明的基于卷积神经网络的图片旋转角度检测与校正方法，通过集成图像处理、机器学习、深度学习等前沿技术，能高效、精确地检测图像的旋转角度，提升下游OCR识别准确率，可实现在文本检测之前对待检测图像做快速准确的旋转角度校正。

附图说明

图1是本发明的一个实施例的训练数据集构造流程示意图。

图2是本发明的基于VGG16特征提取的卷积神经网络结构示意图。

图3是本发明的一个实施例的小角度检测流程示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例：

实施例一：

本实施例中，结合服务于长虹财务云的OCR系统来阐述本发明的基于卷积神经网络和像素分析的发票图片旋转角度检测与校正方法。

该方法具体包括以下步骤：

步骤1：训练数据集构造，

为有效的训练神经网络，需要大量的标注数据，人工标注数据将耗费大量时间，本实施例中构造网络的训练的数据集的具体流程如图1所示，既能有效控制训练数据量，又能节省大量标注时间。为有效覆盖全角度[-180，180]图片旋转角度检测，本实施例中将全角度图像[-180，180]分为12个类别，每30度的区间范围为一个类别，其中，第一个角度区间为(-15,15],以此类推。

具体包括：

步骤1.1：筛选旋转角度在0度左右(误差在2度以内即可)的标准发票图片；

步骤1.2：设置大角度检测类别数N，本实施例中N＝12，起始角度范围为(-15,15],其余类别角度范围依次加绕顺时针方向旋转30度。这样，12个类别角度区间分别为(-15,15]，(15,45]，(45,75]，(75,105]，(105,135]，(135,165]，(165,180]U(-165,-180]，(-45,-15]，(-75,-45]，(-105,-75]，(-135,-105](-135,-165]；

步骤1.3：针对每个角度区间，创建一个存放旋转后图片的文件夹，并依次遍历所有角度区间及标准发票图片，其中每个角度区间的大角度theta＝30*i，其中i＝-5,-4,……0,1,……5,6,为角度区间编号；

步骤1.4：对每次循环，生成随机旋转小角度alpha(范围在-5到5之间)；

步骤1.5：计算每个区间范围内单张图片的最终旋转角度beta＝theta+alpha；

步骤1.6：计算旋转后生成新图像的宽W和高H(为保证旋转后图像的内容完整，需对图像做扩充)；

步骤1.7：设定背景填充颜色fill_bk_color(为原图像素的均值)；

步骤1.8：生成宽和高分别为W、H的两个画布CANVAS1和CANVAS2，在CANVAS1上画上背景色为fill_bk_color的图片，对原图沿顺时针旋转beta角，在CANVAS2上画旋转之后的图片，最后对两个画布做叠加得到训练图片；

步骤1.9：保存训练图片到指定文件夹；

步骤1.10：遍历完所有角度区间及标注图片则程结束，所有生成的图片作为训练集输入网络进行训练。

步骤2：构建基于VGG16特征提取的卷积神经网络结构，其中，基于VGG16特征提取的卷积神经网络结构具体如附图2所示。

本实施例中的大角度检测采用深度卷积神经网络进行处理，利用步骤1中构造的数据集，采用如说明书附图2中的网络结构(VGG16)在ImageNet上的预训练权重进行训练；训练共分100个epochs，每个epochs 100个steps，每次迭代从训练数据集里随机选取32个样本为一批，一共10000批的训练数据，设置学习率为0.0001，采用RMSprop优化方法优化损失函数在更新中存在摆动幅度过大的问题，并且进一步加快函数的收敛速度,。

具体为：

步骤2.1：特征提取。网络结构的part1-part5为特征提取层，由卷积层和下采样层组成，网络结构及参数均采用VGG16中的配置，具体可参见VGG16标准原文。

步骤2.2：将经过步骤2.1处理的后特征送入flatten层，用于将特征送入全连接层进行处理。

步骤2.3：将经过flatten处理后的特征送入随后的两个全连接层进行分类，其中第一个全连接层有4096个节点，采用relu激活函数，第二个全连接层具有12个节点，采用softmax作为激活函数进行回归得到该特征属于各个角度区间范围的概率向量。

步骤3：模型训练。本实施例中，以32个样本为一个batchs，一共10000批的训练数据，设置学习率为0.0001，采用RMSprop优化方法优化损失函数训练10个epochs。此外，在模型训练中采用keras数据增强策略，以增强模型的抗造能力。具体数据增强策略如下：width_shift_range＝0.2,height_shift_range＝0.2,shear_range＝0.2,zoom_range＝0.2,cha nnel_shift_range＝0.2,fillmode＝nearest；训练完毕，保存训练好的网络权重。

步骤4：角度检测及校正，具体分为大角度检测及校正及小角度检测。

步骤4.1：大角度检测及校正；大角度检测及校正是利用步骤3训练得到的模型对待检测图像进行检测，检测得到的角度记为theta，然后使用检测得到的角度对图片做旋转校正；

步骤4.2：小角度检测，通常情况下，经过步骤4.1即能将图像校正到角度误差范围在(-15,15]度范围内。实际应用中，一般这种角度范围内的图片对文本检测基本不构成影响。不过为了进一步提高准确率，可以采用传统图像处理方法进一步进行小角度检测及校正。

主要原理是：一般情况下，旋转角度为0度(大于50％的文本行角度为0度)的文本图片，在图片背景均匀的情况下，其文本行图片每行像素的均值大于非文本区域，旋转角度为0度的图片其各行像素均值分布较较宽松(文本区域和非文本区域差别较大)，行像素均值向量的方差则较大。借助这一特征，可设定一个角度校正范围，分别对待校正小角度图片以步长为1度进行旋转，计算旋转后的图片各行的像素均值向量及向量的方差，认为行像素均值向量方差最大的旋转后的图片旋转角度为0度，由待校正图片到该行像素最大的图片旋转的角度即为旋转角度。具体的小角度检测方法流程如附图3所示，具体为：

步骤4.2.1：将待检测图片绕顺时针旋转theta角得到经大角度校正后的小角度图片；

步骤4.2.2：设定小角度检测范围为-15度到15度，将小角度图片等比例缩放到指定尺寸大小，其中宽不大于900个像素值，高不大于600个像素值；

步骤4.2.3：将缩放后的图像进行归一化操作(计算缩放后图像的最大像素值和最小像素值，并将每个像素值先减去最小像素值，再除以最大像素值)；

步骤4.2.4:对经过步骤4.2.3归一化之后的图像进行下采样操作，步长为2；

步骤4.2.5：对步骤4.2.4处理后的图像沿行方向进行百分比滤波，核大小为(20,2)；

步骤4.2.6：对步骤4.2.5处理后的图像沿列方向进行百分比滤波，核大小为(2，20)；

步骤4.2.7：对步骤4.2.6处理后的图像进行上采样，步长为2；

步骤4.2.8：背景去除，使用步骤4.2.2缩放后的图像减去经步骤4.2.7处理后的图像以减轻背景干扰；

步骤4.2.9：图像切边操作(上下左右各切除步骤4.2.2缩放后图像尺寸的0.1倍)，减轻图片边缘对后续操作的影响；

步骤4.2.10：以步长为1度遍历角度检测范围中的各个角度对步骤4.2.9处理后的图像进行旋转；

步骤4.2.11：计算步骤4.2.10旋转之后图像各行像素的均值，组成行像素均值向量；

步骤4.2.12：计算步骤4.2.11行像素均值向量的方差，并将该方差值和旋转角度一同存入一个缓存列表var_angle_list；

步骤4.2.13；所有角度范围是否遍历完，若否，则返回步骤4.2.10继续计算；若是，则循环结束，并找到var_angle_list中方差最大的元素，该元素对应的旋转角度即为检测得到的小角度。

步骤5：角度校正。最终待检测图片的旋转角度即为步骤4.1检测的大角度与步骤4.2检测得到的小角度之和，利用该角度对图片进行旋转校正即可，理论上，检测结果的误差在1度以内，完全满足了实际需求。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，包括以下步骤：

A.构造网络的训练的数据集；

B.构建网络结构及训练参数设置；

C.模型训练及训练后的模型参数保存；

D.角度检测及校正；

E.旋转角计算及图片旋转校正。

2.根据权利要求1所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤A具体包括：

A1.筛选旋转角度不超过2度的标准图片M张；

A6.计算旋转后生成新图像的宽度W和高度H；

A7.设定背景填充颜色fill_bk_color；

A8.生成宽和高分别为W、H的两个画布CANVAS1和CANVAS2；在CANVAS1上画上背景色为fill_bk_color的图片，对原图沿顺时针旋转beta角，在CANVAS2上画旋转之后的图片，最后对两个画布做叠加得到训练图片；

A9.保存训练图片到指定文件夹；

3.根据权利要求2所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤A1中具体为筛选旋转角度为0度的标准图片M张。

4.根据权利要求2所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤B中构建的网络结构具体为基于VGG16特征提取的卷积神经网络结构，且步骤B具体包括：

5.根据权利要求4所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤C具体为：以32个样本为一个batchs，一共10000批的训练数据，设置学习率为0.0001，采用RMSprop优化方法优化损失函数训练10个epochs，训练完毕，保存训练好的网络权重。

6.根据权利要求5所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤C中，在模型训练中采用keras数据增强策略，以增强模型的抗造能力，具体数据增强策略如下：width_shift_range＝0.2,height_shift_range＝0.2,shear_range＝0.2,zoom_range＝0.2,channel_shift_range＝0.2,fillmode＝nearest。

7.根据权利要求5所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤D具体包括：

D1.大角度检测及校正；

D2.小角度检测。

8.根据权利要求7所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤D1具体为：利用步骤C训练得到的模型对待检测图片进行检测，检测得到的角度记为theta，然后使用检测得到的角度对图片做旋转校正。

9.根据权利要求8所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤D2具体为：

D2.7对经步骤D2.6处理后的图片进行上采样，步长为2；

10.根据权利要求9所述的基于卷积神经网络的图片旋转角度检测与校正方法，其特征在于，所述步骤E具体为，最终待检测图片的旋转角度即为步骤D1检测的大角度与步骤D2检测得到的小角度之和，利用该角度对图片进行旋转校正即可。