CN110210297A

CN110210297A - 报关单图像中文字定位与提取的方法

Info

Publication number: CN110210297A
Application number: CN201910339146.1A
Authority: CN
Inventors: 刘晋; 杨一何; 田小琥; 栾翠菊
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-09-06
Anticipated expiration: 2039-04-25
Also published as: CN110210297B

Abstract

本发明公开了一种报关单图像中文字定位与提取的方法，其中，对待识别图片进行图像二值化；使用霍夫变换获取直线，对图像进行分块；对需要识别的分块进行投影计算，获取分块图像中的文本信息；将文本信息导入识别网络识别；导出识别结果。本发明对图像进行处理后，通过霍夫变换寻找直线，从而可以根据设定将所需要的区域块提取出来。利用VGG网络训练汉字与英文的识别，识别结果输入到一张excel表格中，生成可编辑文件。

Description

报关单图像中文字定位与提取的方法

技术领域

本发明涉及一种文字提取方法，尤其涉及一种报关单图像中文字定位与提取的方法。

背景技术

报关是指进出口货物收发货人、进出境运输工具负责人、进出境物品所有人或者他们的代理人向海关办理货物、物品或运输工具进出境手续及相关海关事务的过程,包括向海关申报、填写报关单和交验单据证件,并接受海关的监管和检查等。

但是,现有的海关报关单通常都是由企业内部的人员逐一将货物的各种资料信息通过人工整理得出,期间需要核对各种数据,工作量大,出错率高。

本发明自动化定位报关单中相关信息的位置,快速的对相关区域的信息定位和识别,从而高效地实现报关的流程。

发明内容

本发明的上述目的是通过以下技术方案实现的：

一种报关单图像中文字定位与提取的方法，其中，对待识别图片进行图像二值化；使用霍夫变换获取直线，对图像进行分块；对需要识别的分块进行投影计算，获取分块图像中的文本信息；将文本信息导入识别网络识别；导出识别结果。

如上所述的报关单图像中文字定位与提取的方法，其中，将文本信息导入识别网络后进行VGG网络训练。

如上所述的报关单图像中文字定位与提取的方法，其中，将表单转换成图片格式后，对待识别图片进行图像降噪和二值化。

如上所述的报关单图像中文字定位与提取的方法，其中，将表单转换成图片格式，对歪斜图片检测并纠正。

如上所述的报关单图像中文字定位与提取的方法，其中，对待识别图片进行图像降噪包括：使用NLM进行降噪。

如上所述的报关单图像中文字定位与提取的方法，其中，对图像进行分块后去除手写字，去除手写字包括：统计分块内的像素个数，与设定阈值对比，如果不在设定阈值范围内，则判断为手写。

如上所述的报关单图像中文字定位与提取的方法，其中，进行投影计算获取分块图像中的文本信息包括：通过水平投影法切出数字、字母、汉字。

如上所述的报关单图像中文字定位与提取的方法，其中，VGG网络训练包括：VGG整个网络都使用了同样大小的3*3卷积核尺寸和2*2最大池化尺寸；采用了Multi-Scale(Multi-Scale多尺度)的方法来训练和预测。

如上所述的报关单图像中文字定位与提取的方法，其中，将文本信息导入识别网络识别包括：对汉字进行识别、对英文和数字进行识别；对汉字进行识别包括：将汉字字库中的文字写入到文本文件中，并在同目录文件下成汉字字库文件；把汉字字库中的字一个个保存成图片；在卷积神经网络内进行文字识别，卷积神经网络包括：输入层接收二值化图像，经过两个卷积层、池化层、dropout层、两个卷积层、池化层、dropout层、全连接层、sofmax层后输出。

如上所述的报关单图像中文字定位与提取的方法，其中，导出识别结果包括：识别结果输入到一张excel表格中，生成可编辑文件。

综上所述，由于采用了上述技术方案，本发明对图像进行处理后，通过霍夫变换寻找直线，从而可以根据设定将所需要的区域块提取出来。利用VGG网络训练汉字与英文的识别，识别结果输入到一张excel表格中，生成可编辑文件。

附图说明

图1是本发明报关单图像中文字定位与提取的方法的流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步描述：

图1是本发明报关单图像中文字定位与提取的方法的流程图，请参见图1，本发明公开了一种报关单图像中文字定位与提取的方法，其中，对待识别图片进行图像二值化；使用霍夫变换获取直线，对图像进行分块；对需要识别的分块进行投影计算，获取分块图像中的文本信息；将文本信息导入识别网络识别；导出识别结果。

具体的，本发明对图像进行分块后，可以从报关单图像中提取分运单号，发件人，收件人，商品名称，商品数量等具有可区分特征的报关单信息。

进一步的，将文本信息导入识别网络后进行VGG网络训练。

进一步的，将表单转换成图片格式后，对待识别图片进行图像降噪和二值化。

具体的，如图1，在本发明的实施过程中，可以采用步骤的方式进行，具体步骤如下：

步骤一：将pdf表单文件转化成jpg等图片格式，并纠正；

步骤二：降噪，图像二值化。

步骤三：霍夫变换寻找直线，通过一定规则将所需要的区域块提取出来。

步骤四：通过投影计算得到区域块中的需求信息，如汉字，英文，数字。

步骤五：利用VGG网络训练汉字与英文的识别模型。

步骤六：通过这个识别网络对被提取出的汉字英文数字部分进行识别。

步骤七：识别结果输入到一张excel表格中，生成可编辑文件。

具体的，一定的规则可以根据需求进行设定，例如，提取分运单号，发件人，收件人，商品名称，可以是根据数字的位数、报关单上的具体位置等信息进行设定，从而可以针对性的选取需要的区域块，如果为设定值的N位数数字，则为运单号信息。

更进一步的，本发明的步骤1可以包括：

步骤a1：进行pdf到图片转换。

具体操作是，如果出现默认转换的图片清晰度不是很高，可以通过参数来设置，提升最终的清晰度。指定在对栅格图像进行编码时存储的图像分辨率，或PDF渲染(读取)为栅格图像时的画布分辨率。通过提升图片的清晰度，可以有效提高识别率。

进一步的，将表单转换成图片格式，对歪斜图片检测并纠正。

步骤a2：对歪斜图片检测并纠正。具体方法如下：

利用图像梯度方向，得到图像的大概偏转角度，图像梯度方向可以由sobel算子计算得到，α(x,y)＝arctan(G_y/G_x)，其中 I为被卷积的图像。

文档中文字大体往一个方向书写，因此主体梯度方向会集中在某个角度范围内，范围是[0,180o)，并统计其阶段累积直方图，k是统计直方图的范围。

即为梯度方向直方图；为符号函数，O为梯度方向图像。

统计A中最大值对应的角度i，即为该文档的大致倾斜角度。在[i-k,i+k]角度范围内，利用hough变换遍历edge上的所有边缘点，并返回hough变换投影值最多时对应的θ角度，该角度即为图像倾斜角。

根据倾斜角θ对图像进行反向旋转，得到校正后的图像。

进一步的，对待识别图片进行图像降噪包括：使用NLM(Non-Local Means非局部均值降噪算法)进行降噪。

具体的，本发明实施例中的步骤2也就是图像降噪可以具体包括：

步骤b1：图像降噪。

根据一个点A的RGB值，与周围的8个点的RBG值比较，设定一个阈值N(0<N<8)，当A的RGB值与周围8个点的RGB相等数小于N时，此点为噪点。

本发明使用NLM进行降噪。通过搜索窗口中的像素值的加权和来替换掉目标像素值。跟目标像素越相近的，权重越大。

上式i表示彩色图像的3个通道；p表示目标像素位置；B(p,r)表示中心为p，大小为(2r+1)*(2r+1)的搜索窗口；q表示位于搜索窗口的像素；w(p,q)表示像素点p与q的权重，一般是用欧氏距离衡量其相似度。C(p)表示权重归一化参数。

w通过一个指数函数求得；d：两个像素点的邻域的欧氏距离；

σ表示噪声的标准差，h表示跟σ相关的滤波参数，当噪声方差越大，h可以相应的增大。

为了求得可以替代q的像素值，我们先在窗口中计算窗口每一个像素p与q之间的权重，权重通过计算p的邻域与q的邻域对应像素点欧氏距离得到。

步骤b2：图像二值化。

就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。一幅图像包括目标物体、背景还有噪声，要想从多值的数字图像中直接提取出目标物体，常用的方法就是设定一个阈值T，用T将图像的数据分成两部分：大于T的像素群和小于T的像素群。这是研究灰度变换的最特殊的方法，称为图像的二值化。

具体的，步骤3可以包括：

步骤c1：霍夫线变换寻找直线。

对于霍夫变换，我们将用极坐标系来表示直线。因此，直线的表达式可为:

上式也可以表示为r＝xcosθ+ysinθ；

一般来说对于点(x0,y0)我们可以通过这个点的一组直线统一定义为：r_θ＝x₀·cosθ+y₀·sinθ；

这就意味着每一对(rθ,θ)代表一条通过点(x0,y0)的直线。

如果对于一个给定点(x0,y0)我们在极坐标对极径极角平面绘出所有通过它的直线，将得到一条正弦曲线。

如果两个不同点进行上述操作后得到的曲线在平面θ-r相交，这就意味着它们通过同一条直线。

通过在平面θ-r寻找交于一点的曲线数量来检测是否是一条直线。越多曲线交于一点也就意味着这个交点表示的直线由更多的点组成。

一般来说追踪图像中每个点对应曲线间的交点。如果交于一点的曲线的数量超过了阈值，那么可以认为这个交点所代表的参数对(rθ,θ)在原图像中为一条直线。

步骤c2：记录检测到的直线所在的位置，并切出小块区域。

按照线位置切成一个个小区域。

步骤c3：按照规则去除手写字，并切成区域。

投影统计像素点个数。

然后比对一个自己设的阈值，去除手写字。

具体的，步骤4包括：

步骤d1：按照水平投影法切出的数字和字母。

定义一个数组用来储存每一行像素中白色像素的个数。

遍历二值化后的图片，将每一行中白色的(也就是数字区域)像素记录在数组中。

根据数组里的灰度值画出投影图。

根据储存灰度值数组的内容来找到相邻行间的分割点。

步骤d2：按照水平投影法切出的汉字。

同步骤d1。

具体的，步骤5包括：

步骤e1：按照垂直投影法切出的单个汉字。

定义一个数组用来储存每一列像素中白色像素的个数。

遍历二值化后的图片，将每一列中白色的(也就是数字区域)像素记录在数组中。

根据数组里的灰度值画出投影图。

根据储存灰度值数组的内容来找到相邻字符间的分割点。

步骤e2：利用VGG网络训练汉字与英文的识别模型。

VGG在AlexNet基础上做了改进，整个网络都使用了同样大小的3*3卷积核尺寸和2*2最大池化尺寸，网络结果简洁。

使用了更小的3*3卷积核，和更深的网络。两个3*3卷积核的堆叠相对于5*5卷积核的视野，三个3*3卷积核的堆叠相当于7*7卷积核的视野。这样一方面可以有更少的参数(3个堆叠的3*3结构只有7*7结构参数数量的(3*3*3)/(7*7)＝55％)；另一方面拥有更多的非线性变换，增加了CNN对特征的学习能力。

在VGGNet的卷积结构中，引入1*1的卷积核，在不影响输入输出维度的情况下，引入非线性变换，增加网络的表达能力，降低计算量。

训练时，先训练级别简单(层数较浅)的VGGNet的A级网络，然后使用A网络的权重来初始化后面的复杂模型，加快训练的收敛速度。

采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量，防止模型过拟合，提升预测准确率。

进一步的，对图像进行分块后去除手写字，去除手写字包括：统计分块内的像素个数，与设定阈值对比，如果不在设定阈值范围内，则判断为手写。

具体的，步骤6具体包括：

步骤f1：对汉字进行识别。

将汉字字库中的文字写入到文本文件中，并在同目录文件下成汉字字库文件。

进一步的，进行投影计算获取分块图像中的文本信息包括：通过水平投影法切出数字、字母、汉字。

进一步的，VGG网络训练包括：VGG整个网络都使用了同样大小的3*3卷积核尺寸和2*2最大池化尺寸；采用了Multi-Scale的方法来训练和预测。

进一步的，将文本信息导入识别网络识别包括：对汉字进行识别、对英文和数字进行识别；对汉字进行识别包括：将汉字字库中的文字写入到文本文件中，并在同目录文件下成汉字字库文件；把汉字字库中的字一个个保存成图片；在卷积神经网络内进行文字识别，卷积神经网络包括：输入层接收二值化图像，经过两个卷积层、池化层、dropout层、两个卷积层、池化层、dropout层、全连接层、softmax层后输出(softmax归一化指数函数)。

把汉字字库中的字一个个保存成图片。

接着，构造卷积神经网络，卷积神经网络主要由输入层、卷积层、下采样层(池化层)、全连接层和输出层组成。其中，输入层接受一张64x64大小的二值化图片。

本发明卷积神经网络结构为：输入层，接受一幅64x64大小的二值化图片，接两个64x3x3的卷积层，接一个2x2的池化层和一个dropout层，dropout的激活率为0.25，接着再接两个128x3x3的卷积层，一层池化层，一层dropout层，然后两个256x3x3的卷积层，一层池化层，一层dropout层，接一层全连接层，一层sofmax得到网络的输出。

其中，所有层的激活函数均采用ReLU函数。

步骤f2：对英文和数字进行识别。

同步骤f1。

进一步的，导出识别结果包括：识别结果输入到一张excel表格中，生成可编辑文件。

具体的，参照步骤7包括：

步骤g1：识别结果输入到一张excel表格中，生成可编辑文件，从而通过本发明的整个实现步骤，最终将报关单上需要的内容识别并导出成可编辑的文档。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员或是一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员或是一般模型爱好者依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种报关单图像中文字定位与提取的方法，其特征在于，对待识别图片进行图像二值化；使用霍夫变换获取直线，对图像进行分块；对需要识别的分块进行投影计算，获取分块图像中的文本信息；将文本信息导入识别网络识别；导出识别结果。

2.根据权利要求1所述的报关单图像中文字定位与提取的方法，其特征在于，将文本信息导入识别网络后进行VGG网络训练。

3.根据权利要求1所述的报关单图像中文字定位与提取的方法，其特征在于，将表单转换成图片格式后，对待识别图片进行图像降噪和二值化。

4.根据权利要求3所述的报关单图像中文字定位与提取的方法，其特征在于，将表单转换成图片格式，对歪斜图片检测并纠正。

5.根据权利要求3所述的报关单图像中文字定位与提取的方法，其特征在于，对待识别图片进行图像降噪包括：使用NLM进行去噪。

6.根据权利要求1所述的报关单图像中文字定位与提取的方法，其特征在于，对图像进行分块后去除手写字，去除手写字包括：统计分块内的像素个数，与设定阈值对比，如果不在设定阈值范围内，则判断为手写。

7.根据权利要求1所述的报关单图像中文字定位与提取的方法，其特征在于，进行投影计算获取分块图像中的文本信息包括：通过水平投影法切出数字、字母、汉字。

8.根据权利要求2所述的报关单图像中文字定位与提取的方法，其特征在于，VGG网络训练包括：VGG整个网络都使用了同样大小的3*3卷积核尺寸和2*2最大池化尺寸；采用了Multi-Scale的方法来训练和预测。

9.根据权利要求1所述的报关单图像中文字定位与提取的方法，其特征在于，将文本信息导入识别网络识别包括：对汉字进行识别、对英文和数字进行识别；对汉字进行识别包括：将汉字字库中的文字写入到文本文件中，并在同目录文件下成汉字字库文件；把汉字字库中的字一个个保存成图片；在卷积神经网络内进行文字识别，卷积神经网络包括：输入层接收二值化图像，经过两个卷积层、池化层、dropout层、两个卷积层、池化层、dropout层、全连接层、sofmax层后输出。

10.根据权利要求1所述的报关单图像中文字定位与提取的方法，其特征在于，导出识别结果包括：识别结果输入到一张excel表格中，生成可编辑文件。