CN111784587B

CN111784587B - 一种基于深度学习网络的发票照片位置矫正方法

Info

Publication number: CN111784587B
Application number: CN202010620221.4A
Authority: CN
Inventors: 刘泽豪; 罗天任
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-08-01
Anticipated expiration: 2040-06-30
Also published as: CN111784587A

Abstract

本发明提供一种基于深度学习网络的发票照片位置矫正方法，首先训练FCN网络；然后将待矫正的发票输入训练好的FCN网络中，分割出发票的主体部分、发票标题以及无关背景；将输出灰度图按照灰度值差异生成为两张图，一张包含发票的主体部分和背景，一张包含发票标题和背景；再计算发票主体部分的四个角点的像素值；之后确定发票的方向；最后通过透视变换矫正发票的方向。本发明方法解决了由于拍摄环境影响，发票照片呈现歪曲，倾斜等问题，可以更加有效的识别分割出发票的位置，方向。具有更高的算法鲁棒性，大大加强了后续文字识别的准确性。

Description

一种基于深度学习网络的发票照片位置矫正方法

技术领域

本发明属于图像处理领域，具体涉及一种基于深度学习网络的发票照片位置矫正方法。

背景技术

发票OCR(Optical Character Recognition，光学字符识别) 指的是，将发票照片中特定区域文字和数字用字符识别技术识别为计算机文字的过程。在处理发票OCR的过程中，由于拍摄者习惯，使用设备，拍摄环境，拍摄发票纸张等条件不统一，发票照片呈现歪曲，倾斜，模糊等问题。不利于后续文字识别和处理。并且由于情景多种多样，传统的非深度学习方法很难正确的识别。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种基于深度学习网络的发票照片位置矫正方法。

所述的方法分成三个阶段：发票位置定位阶段首先采用FCN深度学习网络分割出发票主体的位置和标志物位置。目标寻找阶段，通过直线检测和颜色检测的方式找到发票主体位置和发票方向。矫正阶段，通过仿射变换将拍摄歪斜的发票矫正为正向。

本发明采用的技术方案主要包括以下步骤：

步骤一：训练FCN网络；

收集发票并进行标注，标注方式为分割标注，分别标注发票框内的主体部分和发票的标题部分。然后使用FCN网络进行训练，将原图和对应的标注数据放到FCN网络中训练，使FCN网络输出主体部分，发票标题以及无关背景。FCN网络输出大小为448*448的灰度图；输出灰度图之中，标题部分的灰度值为50，主体部分灰度值为100，背景部分灰度值为255。

步骤二：图像分割；

将待矫正的发票输入训练好的FCN网络中，分割出发票的主体部分、发票标题以及无关背景。将输出灰度图按照灰度值差异生成为两张图，一张包含发票的主体部分和背景，一张包含发票标题和背景。

步骤三：计算发票主体部分的四个角点的像素值；

步骤四：确定发票的方向；

遍历包含标题的灰度图，找到发票的标题位置，以发票区域中任意一个点x0作为标题的位置；

根据x0来标注步骤三获得的四个角点。设标题x0所在的位置为发票正相位，以逆时针方向，标记发票的四个角点为别为 p1,p2,p3,p4。

步骤五：通过透视变换矫正发票的方向；

步骤三具体方法如下：

对包含主体部分的灰度图进行处理：

3.1采用opencv中findContours进行轮廓检测，找到图像中可能包含发票主体的部分；

3.2采用opencv中convexHull进行凸包检测；

3.3采用opencv中approxPolyDP找到凸包的顶点；

3.4筛选出有四个顶点的四边形；

3.5计算四边形的面积，其中面积大于阈值的为发票主体部分；

3.6筛选出的四个顶点为所求发票主体的四个角点。

进一步的，步骤三所述的阈值设置为60。

步骤五具体方法如下：

求出四个角点在原图中的坐标。公式如下：

其中，X为原图的宽，Y为原图的长。px,py为点在原图中的x,y 坐标，px′为步骤三中求出的角点的x坐标，py′为角点的y坐标。

根据四个角点在原图中的坐标，找到其中x坐标的最大值设为 Xmax,找到x坐标的最小值设为Xmin；找到其中y坐标的最大值设为Ymax,找到最小值设为Ymin。将变换后的图像长度和宽度分别设置为L＝Xmax-Xmin,W＝Ymax-Ymin。对应变换之后的四个角点 p1,p2,p3,p4的坐标值(PX，PY)分别为(0，0)，(0，L)(W,L),(0,W)。

根据获得的四个角点在原图中的坐标计算图像的变换矩阵，公式如下：

其中，PX，PY为变换后对应点的坐标，采用opencv中 GetPerspectiveTransform求解a矩阵，由于是二维变换w设为1。

根据获得的图像的变换矩阵进行透视变换，公式如下：

其中x_n,y_n为原图像中每一个像素点n的坐标值，x′_n,y′_n为透视变换之后像素点n的坐标值。采用上述公式，利用opencv中 warpPerspective将原图每一个像素点乘于变换矩阵就可以得到正向的发票图片。

本发明有益效果如下：

本发明方法解决了由于拍摄环境影响，发票照片呈现歪曲，倾斜等问题。相比传统的直接采用直线检测，颜色检测等方法难以在复杂环境下正常识别分割，容易受到背景环境的影响。本方法采用FCN深度学习网络，可以更加有效的识别分割出发票的位置，方向。具有更高的算法鲁棒性，大大加强了后续文字识别的准确性。

附图说明

图1为本发明流程示意图；

图2为FCN网络产生分割图的示意图。

具体实施方式

以下结合附图与实施例对本发明方法进行进一步描述。

如图1所示，一种基于深度学习网络的发票照片位置矫正方法，包括以下步骤：

步骤一：训练FCN网络；

收集发票并进行标注，标注方式为分割标注，分别标注发票框内的主体部分和发票的标题部分。然后使用FCN网络进行训练，将原图和对应的标注数据放到FCN网络中训练，使FCN网络输出主体部分，发票标题以及无关背景。FCN网络输出大小为448*448的灰度图；输出灰度图之中，标题部分的灰度值为50，主体部分灰度值为100，背景部分灰度值为255。图2为FCN网络产生分割图的示意图。

步骤二：图像分割；

步骤三：计算发票主体部分的四个角点的像素值；

对包含主体部分的灰度图进行处理：

3.2采用opencv中convexHull进行凸包检测；

3.3采用opencv中approxPolyDP找到凸包的顶点；

3.4筛选出有四个顶点的四边形；

3.6筛选出的四个顶点为所求发票主体的四个角点。

进一步的，步骤三所述的阈值设置为60。

步骤四：确定发票的方向；

步骤五：通过透视变换矫正发票的方向

求出四个角点在原图中的坐标。公式如下：

根据四个角点在原图中的坐标，找到其中x坐标的最大值设为 Xmax,找到x坐标的最小值设为Xmin；找到其中y坐标的最大值设为 Ymax,找到最小值设为Ymin。将变换后的图像长度和宽度分别设置为L＝Xmax-Xmin,W＝Ymax-Ymin。对应变换之后的四个角点 p1,p2,p3,p4的坐标值(PX，PY)分别为(0，0)，(0，L)(W,L),(0,W)。

根据获得的图像的变换矩阵进行透视变换，公式如下：

Claims

1.一种基于深度学习网络的发票照片位置矫正方法，其特征在于，步骤如下：

步骤一：训练FCN网络；

收集发票并进行标注，标注方式为分割标注，分别标注发票框内的主体部分和发票的标题部分；然后使用FCN网络进行训练，将原图和对应的标注数据放到FCN网络中训练，使FCN网络输出主体部分，发票标题以及无关背景；FCN网络输出大小为448*448的灰度图；输出灰度图之中，标题部分的灰度值为50，主体部分灰度值为100，背景部分灰度值为255；

步骤二：图像分割；

将待矫正的发票输入训练好的FCN网络中，分割出发票的主体部分、发票标题以及无关背景；将输出灰度图按照灰度值差异生成为两张图，一张包含发票的主体部分和背景，一张包含发票标题和背景；

步骤三：计算发票主体部分的四个角点的像素值；

步骤四：确定发票的方向；

根据x0来标注步骤三获得的四个角点；设标题x0所在的位置为发票正相位，以逆时针方向，标记发票的四个角点为别为p1,p2,p3,p4；

步骤五：通过透视变换矫正发票的方向。

2.根据权利要求1所述的一种基于深度学习网络的发票照片位置矫正方法，其特征在于，所述的步骤三具体方法如下：

对包含主体部分的灰度图进行处理：

3.2采用opencv中convexHull进行凸包检测；

3.3采用opencv中approxPolyDP找到凸包的顶点；

3.4筛选出有四个顶点的四边形；

3.6筛选出的四个顶点为所求发票主体的四个角点。

3.根据权利要求2所述的一种基于深度学习网络的发票照片位置矫正方法，其特征在于，进一步的，步骤三所述的阈值设置为60。

4.根据权利要求2所述的一种基于深度学习网络的发票照片位置矫正方法，其特征在于，所述的步骤五具体方法如下：

求出四个角点在原图中的坐标；公式如下：

其中，X为原图的宽，Y为原图的长；px,py为点在原图中的x,y坐标，px′为步骤三中求出的角点的x坐标，py′为角点的y坐标；

根据四个角点在原图中的坐标，找到其中x坐标的最大值设为Xmax,找到x坐标的最小值设为Xmin；找到其中y坐标的最大值设为Ymax,找到最小值设为Ymin；将变换后的图像长度和宽度分别设置为L＝Xmax-Xmin,W＝Ymax-Ymin；对应变换之后的四个角点p1,p2,p3,p4的坐标值(PX，PY)分别为(0，0)，(0，L)(W,L),(0,W)；

其中，PX，PY为变换后对应点的坐标，采用opencv中GetPerspectiveTransform求解a矩阵，由于是二维变换w设为1；

根据获得的图像的变换矩阵进行透视变换，公式如下：

其中x_n,y_n为原图像中每一个像素点n的坐标值，x′_n,y′_n为透视变换之后像素点n的坐标值；采用上述公式，利用opencv中warpPerspective将原图每一个像素点乘于变换矩阵就可以得到正向的发票图片。