CN105701491A

CN105701491A - 固定格式文档图像模版的制作方法及其应用

Info

Publication number: CN105701491A
Application number: CN201410690726.2A
Authority: CN
Inventors: 徐瑱; 钟玉锋
Original assignee: Shanghai Sisha Information Technology Co Ltd
Current assignee: Shanghai Sisha Information Technology Co Ltd
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2016-06-22

Abstract

本发明涉及一种固定格式文档图像模版的制作方法，其步骤如下：1）对固定格式文档图像进行扫描，依据图像数据判定图像是否能转化为位图文件；2）将图像的宽度和高度乘以缩放百分比，得到新的图像宽度和高度；3）对图像进行并发灰度处理；4）所得图像作平滑处理，使得图像整体平滑，滤掉噪点；5）使用大律法OTSU算法求得图像的最佳全局熵，利用最佳全局熵对灰度图像进行二值化，6）利用投影法对图像大块的黑色区域进行切除；7）使用罗伯茨算子（Roberts）和Hough算法，得对应的固定格式文档图片；8）、模版制作对得到的大小不一的模版图像进行归一化处理。本发明的优点是：本发明是基于基本数字图像处理的模版分类匹配识别，识别计算量少，时间更短。

Description

固定格式文档图像模版的制作方法及其应用

技术领域：

本发明涉及一种图像数据的识别，尤其是涉及一种固定格式文档图像模版的制作方法。

背景技术：

随着数字图像处理技术、光识别技术的发展，金融行业、公共服务行业对大量的图像数据信息进行自动化的处理提出了更多的要求，如固定格式文档字符的识别、金额的分类及大小等诸多方面。其中，特别是公共服务业面对的不是单一的固定格式文档，而是各种大小不一的固定格式文档。因此，首要要解决的问题是，需对这些大小不一的固定格式文档进行识别，而识别需要用模版。本发明人针对这一情况提出了一种固定格式文档图像模版的制作方法。

发明内容：

本发明的目的是针对现有技术不足之处而提供一种针对大小不一的固定格式文档图像建立各类模版群、并进行归一化处理的固定格式文档图像模版的制作方法。

本发明的目的是通过以下措施来实现：一种固定格式文档图像模版的制作方法，其步骤如下：

步骤一、对固定格式文档图像进行扫描，依据图像数据判定图像是否能转化为Windows位图文件，位图文件默认的文件扩展名是BMP或者bmp，确定属于位图格式则调用WindowsAPI函数CoInitialize，为线程初始化COM，在转换完成之后，调用WindowsAPI函数CoUninitialize，清除COM线程标识，确定不符合判定条件的固定格式文档图像则需转换为位图图像，所述判定包括：1）读取图像数据的文件头标识的前两个字节，其十六进制数据是否为424D，2）取读图像数据的图像位深度，即第29、30位字节是否为十六进制的1800；

步骤二、判断图像高度或宽度是否大于100像素，否者弃之，再依据图像宽度、高度值确定缩放级别，所述缩放级别为图像宽度高度两者较大值的千分比取整，利用缩放级别，对图像进行分级缩小处理，图像缩小的百分比与缩放级别成反比，将图像的宽度和高度乘以缩放百分比，得到新的图像宽度和高度。

步骤三、对图像进行并发灰度处理，根据图像数据大小，申请内存空间，然后把图像数据分成若干段存放到所申请的内存空间中，开启多个线程同时进行灰度化处理。灰度化完成后提取内存空间的数据，重新组合成图像数据，然后释放所申请的内存空间；

步骤四、由步骤三所得图像作平滑处理，使得图像整体平滑，滤掉噪点，所述平滑处理根据图像噪声的不同可采用下列滤皮器：均值滤波器、或中值滤波统计排序滤波器、高斯滤波器；

所述均值滤波器是用滤波掩模确定的邻域内像素的平均灰度值代替图像中每个像素点的值，便于去除图像中的不相干细节，所述不相干细节是指与滤波掩膜尺寸相比较小的像素区域；

所述中值滤波是统计排序滤波器，它是将邻域内像素灰度值的中值代替该像素的值；

所述高斯滤波器是依据高斯函数的形状来选择权值的线性平滑滤波器；

步骤五，使用大律法OTSU算法求得图像的最佳全局熵，利用最佳全局熵对灰度图像进行二值化，阈值即最佳全局熵，对于灰度值小于该阈值的，全部设置为RGB全部设置为0，即全部置黑，其余的全部设置为255，即全部置白。

步骤六，利用投影法对图像大块的黑色区域进行切除，经过二值化处理之后，已经变成黑色区域，把多余的黑色区域进行切除；切除先对图像进行横向投影处理，得到顶边黑色区域的范围跟底边黑色区域的范围将其切除，再对图像进行纵向投影处理，得到左边黑色区域的范围跟右边黑色区域的范围，将其切除，剩余的部分即是固定格式文档图像的范围；

步骤七，使用罗伯茨算子（Roberts）来进行边缘检测，可以得到固定格式文档图像边缘的轮廓，通过Hough算法，对得到的轮廓图像进行直线提取，得到固定格式文档的四条边，把这些线段连接起来，得到一个四边形，再对线段的坐标进行交叉合并，得到四边形的四个顶点的坐标，通过映射坐标点，然后将原图像进行一个矩形校正，将得到的矩形切割得对应的固定格式文档图片；

步骤八，模版制作对得到的大小不一的模版图像进行归一化处理，将固定格式文档图像拉伸到统一的宽、高度，编入数据库。

一种固定格式文档图像模版的应用，其特征在于，采用如下步骤：

步骤一，对需要鉴定的固定格式文档进行扫描，采集图像。

步骤二，对步骤一所采集得到的图像进行按权利要求1所述的步骤二到步骤八操作，得到与固定格式文档模版相似的图像。

步骤三，将步骤二得到的图像与编入数据库的固定格式文档模版进行一一比对。

与现有技术相比，采用了本发明提出的一种固定格式文档图像模版的制作方法，具有如下优点：本课题所使用的技术，是基于基本数字图像处理的模版分类匹配识别，识别计算量比复杂数学模型的计算量少，所使用时间更短。与传统的相比之下固定格式文档模式识别，固定格式文档模版分类匹配，可以大大减少计算量，缩短匹配时间。例如，固定格式文档中的票据图像，因为票据的种类是有限的，所以针对不同票据制定的识别操作方法，要比通用识别的识别方法的识别率高，对于要求高精度识别的固定格式文档，其发票代码、发票号码都需要很高的识别率，通用识别在固定格式文档图像有干扰的时候不能很好地进行识别，而本课题所使用的识别方法，可抗干扰，在发票代码、发票号码处有噪点干扰时也能够相对准确识别。而且本课题所使用的识别技术，可以指定欲识别区域，去除版面分析的复杂操作，识别速度比复杂版面分析识别更快。

附图说明：

图1是本发明提出的实施例图像是否为BMP位图的判断流程图。

图2是图1实施例图像位深度是否为24判断流程图。

图3是图1实施例图像格式转换流程图。

图4是图1实施例图像缩放级别计算流程。

图5是图1实施例图像并发灰度化流程图。

图6是图1实施例大律法二值化图像流程图。

图7是图1实施例图像校正流程图。

图8是图像匹配流程图。

具体实施方式：

下面结合附图对具体实施方式作详细说明：图1～图7示出了本发明的一个实施例。图中，一种固定格式文档图像模版的制作方法，其步骤如下：

步骤一、对固定格式文档图像进行扫描，依据图像数据判定图像是否能转化为Windows位图文件，位图文件默认的文件扩展名是BMP或者bmp，确定属于位图格式则调用WindowsAPI函数CoInitialize，为线程初始化COM，在转换完成之后，调用WindowsAPI函数CoUninitialize，清除COM线程标识，确定不符合判定条件的固定格式文档图像则需转换为位图图像，所述判定包括：1）读取图像数据的文件头标识的前两个字节，其十六进制数据是否为424D，2）取读图像数据的图像位深度，即第29、30位字节是否为十六进制的1800。

本步骤中，使用图像采集设备获取固定格式文档的图像，此处获取图像的途径可以有多种，比如使用扫描仪、高拍仪、摄像头或者手机来拍摄、扫描固定格式文档。我们得到了固定格式文档的图像数据，因为拍摄的图像有各种类型的格式，如：jpg、bmp、png、gif、tiff等，要对图像进行处理，就要统一图像格式进行处理，因为位图图像的数据是按照像素点阵来存储的，符合计算机算法的操作，所以需要将固定格式文档的图像转换成位图图像（bmp）格式，此处需要判断固定格式文档图像的图像格式。本发明中选用的统一图像格式为Windows系统中的BMP位图，简称：BMP、全称：BitMaP，它采用位映射存储格式。通常位图的图像深度为24bit，也即图像位深度为24位，24代表的是颜色数为2的24次方，它表示的是一幅位图图像所包含的最大颜色数。

判定固定格式文档图像否能转化为Windows位图文件BMP的标准有两个：

1）读取固定格式文档图像数据的文件头标识的前两个字节，其十六进制数据是否为424D即可，如果是，则进入判断位深度的流程，如果不是，则进入图像格式转换的流程。关于图像格式是否为BMP位图的判断，详细的程序操作流程，参见图1。若得到图像是BMP格式，则需要判断其位深度，若得到图像不是BMP格式，则直接对其进行图像格式转换处理。

2）读取固定格式文档图像数据的第29、30位数据，数据类型为短整型，只需要判断其是否为24即可，这里所述的24是十进制，转换成十六进制即是18，因为是两位字节，在后面填充0，即判断条件的十六进制数据为：1800。参见图2。

对于不符合上述两判定条件的固定格式文档图像则需转换为BMP位图格式，参见图3。图像格式转换有很多种方法可以实现，比如COM图片对象IPicture强制转换，这是一种使用windows自带COM图片对象来对图像格式进行转换的方法。

本步骤中的位图的图像数据是按照像素点阵来存储的，由于要处理的图像像素不是固定的，有点固定格式文档图像像素数可能就只有50万像素或者不足50万像素，有的固定格式文档图像像素数可能会超过1000万像素，使用像素点阵扫描处理的算法来处理，图像的像素数越大占用的系统资源越多，而且计算的速度越慢。因此，在定位图像中的固定格式文档时，不能每个像素都去做判断处理，此时需要把图像进行一次缩放处理，使得定位固定格式文档时所需要计算的像素数量有一定的缩减，达到快速计算，使计算处理时间更快，占用系统资源更少。在确定缩放级别时，根据图像宽度、高度值来确定。首先获取图像宽度、高度数据，判断该图像宽度或者高度是否不大于100像素，如果传入的图片宽度或者高度不大于100像素，则直接返回退出算法运算操作，不进行处理；其次，根据为图像宽度高度两者较大值的千分比取整，利用缩放级别，对图像进行分级缩小处理，参见图4。本发明通过缩放级别可以来确定要缩放的百分比。两者之间的关系见下表。

缩放级别	0	1	2	3	4	5	6	7	8	9	10
												缩放百分比	50%	47%	44%	41%	38%	35%	32%	29%	26%	23%	20%

所述缩放百分比，即将图像原图像的宽度和高度乘上缩放百分比，结果做四舍五入运算，得到新的图像宽度和高度，这个数值即为缩放后的图像的宽度和高度。

例子：图像宽度为2000像素，高度为3000像素，通过步骤二（1）计算，得到缩放级别为3，根据表2.1可知缩放百分比为41%，可以计算得到新的图片宽度和高度为：

新宽度=原宽度×41%=2000×41%=820(px)

新高度=原高度×41%=3000×41%=1230(px)

注：像素单位为px。

步骤三、对图像进行并发灰度处理，根据图像数据大小，申请内存空间，然后把图像数据分成若干段存放到所申请的内存空间中，开启多个线程同时进行灰度化处理。灰度化完成后提取内存空间的数据，重新组合成图像数据，然后释放所申请的内存空间。

本步骤中，因为BMP位图图像格式的数据是按照一定的排序格式来排列的，所以我们可以通过计算数据大小来分段，把图像的数据分成几个数据段来处理。操作时先根据BMP位图数据的大小申请一块内存空间，记录申请到的内存空间首地址，用来存放图像的数据。然后我们可以开启多个线程，分别对不同的数据段进行灰度化操作处理，因为灰度化是像素与像素之间不相关的操作，具有非耦合性，可以每个像素单独的操作，所以数据分段操作是可行的，多线程同时操作，可以提升操作的效率，减少操作时间，也就是并发处理图像，此操作可称为并发灰度化图像处理。图像并发灰度化操作流程见图5。

并发灰度化图像处理完成后，提取内存空间中的数据段，根据位图的排序将数据段重新组合成位图图像。操作完成后要释放申请的内存空间，避免内存泄漏。所述灰度化即是通过计算把RGB彩色图像变成只有灰色的灰度图像。其中RGB分别代表的是三基色中的红色（Red）、绿色（Green）、蓝色（Blue），BMP位图24位图像中，每个像素点都是由RGB三基色组合成的。灰度化过程即是将R、G、B分量映射到R、G、B立方体的对角线上，使得R、G、B全达到中间值的计算过程，其灰度值（Gray）计算公式为：

Gray=0.299×R+0.587×G+0.114×B

处理后的RGB颜色值，R、G、B都等于Gray，即R=G=B=Gray。

例：RGB（10，20，30）通过灰度化操作之后，颜色为RGB（20，20，20）。

此公式的应用有很大的优化空间，已知灰度化后的RGB的值的范围为0-255，经过优化处理，可以采用查表法来进行灰度化处理。

所述查表法是先建立灰度索引表，通过记录计算RGB的所有的值的灰度值，将所有的灰度值记录到灰度索引表中，之后调用时只需将RGB数值代入索引表即可取得灰度值，此操作可以减少多线程时的浮点运算，提高了计算的速度，达到效率最大化。

步骤四、由步骤三所得图像作平滑处理，使得图像整体平滑，滤掉噪点，所述平滑处理根据图像噪声的不同可采用下列滤皮器：均值滤波器、或中值滤波统计排序滤波器、高斯滤波器。本步骤中，图像平滑是指用于突出图像的宽大区域、低频成分、主干部分或抑制图像噪声和干扰高频成分，使图像亮度平缓渐变，减小突变梯度，是一种改善图像质量的图像处理方法。

所述均值滤波器是用滤波掩模确定的邻域内像素的平均灰度值代替图像中每个像素点的值，便于去除图像中的不相干细节，所述不相干细节是指与滤波掩膜尺寸相比较小的像素区域。采用均值滤波器是用滤波掩膜确定的邻域内像素的平均灰度值代替图像中每个像素点的值，这种处理减小了图像灰度的“尖锐变化”，起到了减噪的作用，便于去除图像中的不相干细节，所述不相干细节是指与滤波掩膜尺寸相比较小的像素区域。均值滤波器的滤波掩膜如图4.3，其中掩膜也成为加权平均值。

一幅图像M×N的图像经过一个m×n（m和n是奇数）的加权均值滤波器的滤波过程可有下式给出：

其中，x=0,1,2,...M-1,y=0,1,2,...,N-1执行上式可得一幅完全滤波的图像。

所述中值滤波是统计排序滤波器，它是将邻域内像素灰度值的中值代替该像素的值。中值滤波统计排序滤波器对于一定类型的随机噪声，它提供了一种优秀的去噪能力，比小尺寸的线性平滑滤波器的模糊程度要低。

所述高斯滤波器是依据高斯函数的形状来选择权值的线性平滑滤波器。它它对去除服从正态分布的噪声很有效。

常用的零均值离散高斯滤波器函数：

其中，高斯分布参数Sigma决定了高斯函数的宽度。对于图像处理来说，常用二维零均值离散高斯函数做平滑滤波器。

本步骤中，所述大律法（OTSU）算法，即最大类间方差法，是由日本学者大津于1979年提出的,是一种自适应的阈值确定的方法,又叫大津法,简称OTSU。它是按图像的灰度特性,将图像分成背景和目标两部分。背景和目标之间的类间方差越大,说明构成图像的两部分的差别越大,当部分目标错分为背景或部分背景错分为目标都会导致两部分差别变小。因此,使类间方差最大的分割意味着错分概率最小。

大律法的基本原理，对于图像I（x,y）,前景(即目标)和背景的分割阈值记作T,属于前景的像素点数占整幅图像的比例记为ω0,其平均灰度μ0;背景像素点数占整幅图像的比例为ω1,其平均灰度为μ1。图像的总平均灰度记为μ,类间方差记为g。假设图像的背景较暗,并且图像的大小为M×N,图像中像素的灰度值小于阈值T的像素个数记作N0,像素灰度大于阈值T的像素个数记作N1，则有:

ω0=N0/M×N①

ω1=N1/M×N②

N0+N1=M×N③

ω0+ω1=1④

μ=ω0*μ0+ω1×μ1⑤

g=ω0(μ0-μ)^2+ω1(μ1-μ)^2⑥

将式⑤代入式⑥,得到等价公式:

g=ω0ω1(μ0-μ1)^2⑦

采用遍历的方法得到使类间方差最大的阈值T,即为所求。

所述二值化，即给定一个阈值，规定像素点颜色值大于此阈值，则将该像素点颜色置为白色（其值为：255），否则将该像素点颜色置为黑色（其值为：0）。一幅图像包括目标物体、背景还有噪点，要想从多值的数字图像中直接提取出目标物体，可设定一个阈值T，用T将图像的数据分成两部分：大于T的像素群和小于T的像素群，参见图6。

步骤六，利用投影法对图像大块的黑色区域进行切除，经过二值化处理之后，已经变成黑色区域，把多余的黑色区域进行切除；切除先对图像进行横向投影处理，得到顶边黑色区域的范围跟底边黑色区域的范围将其切除，再对图像进行纵向投影处理，得到左边黑色区域的范围跟右边黑色区域的范围，将其切除，剩余的部分即是固定格式文档图像的范围。

步骤七，使用罗伯茨算子Roberts来进行边缘检测，可以得到固定格式文档图象边缘轮廓，通过Hough算法，对得到的轮廓图像进行直线提取，得到固定格式文档的四条边，把这些线段连接起来，得到一个四边形，再对线段的坐标进行交叉合并，得到四边形的四个顶点的坐标，通过映射坐标点，然后将原图像进行一个矩形校正，将得到的矩形切割得对应的固定格式文档图片。

本步骤中图像校正流程图见图7。使用罗伯茨算子Roberts来进行边缘检测，可以得到固定格式文档图像中固定格式文档边缘的轮廓。边缘检测算子是基于图像灰度梯度来计算的，所以会包含有其他物体的轮廓，包括光照引起的光斑，也可能会有轮廓，传入图像应注意避免光斑或者投影。本步骤中的所述四个坐标点的确定：首先可以检测边缘图像中的直线，通常会得到四条线段（固定格式文档的四边），如果不能获取到四条边的话，那么就表明该图像没有类似固定格式文档的物品存在，不处理该图像。在得到四条边之后，我们也就是可以根据线段的倾斜角度，得知线段是否为横向或者竖向的，一般情况下，会得到两条横向跟两条竖向的线段，因为固定格式文档是一个矩形的形状，所以符合这一点才能处理，否则不作处理。得到了两对不同方向的线段，就可以根据线段的位置，比如两条竖向的线段，如果线段AC在线段BD的左边，则说明这条线段是在左边的，而另外的一条线段是在右边的。同理，另外一对线段也是这样判断出上下方向的，再根据线段交叉得到交点，就能确定四个点的坐标了。经过上面的图像处理，得到图像中固定格式文档的四个点的坐标，但图像可能是透视效果的，需要对其进行纠正，把透视的图像纠正成矩形图像。最后采用点映射的方法来进行处理，先让不规则图像像素全部像素行跟全部像素列对齐底边和左边，然后再计算得到全部像素行的最大宽度和全部像素列中的最大高度，重新计算四个坐标点位置。对齐梯形的固定格式文档图像的每个像素行列的左边和底边，把每个像素行都拉伸到最大宽度，把每个像素列都拉伸到最大高度，最后效果是一个矩形图像。

步骤八，模版制作对得到的大小不一的模版图像进行归一化处理，将图像拉伸到统一的宽、高度，编入数据库。所述归一化处理，是一种简化计算的方式，即归一条件。此方法即是采用归一图像模版的宽度，高度，达到简化匹配操作的目的。

本发明进一步采取如下措施：

步骤一，对需要鉴定的固定格式文档进行扫描，采集图像。

此操作流程参见图8。

上面给出的实施例并不构成对本发明的限制，本领域内熟练的技术人员在所附权利要求的范围内做出各种变形或修改均在保护范围内。

Claims

1.一种固定格式文档图像模版的制作方法，其步骤如下：

步骤二、判断图像高度或宽度是否大于100像素，否者弃之，再依据图像宽度、高度值确定缩放级别，所述缩放级别为图像宽度高度两者较大值的千分比取整，利用缩放级别，对图像进行分级缩小处理，图像缩小的百分比与缩放级别成反比，将图像的宽度和高度乘以缩放百分比，得到新的图像宽度和高度；

步骤三、对图像进行并发灰度处理，根据图像数据大小，申请内存空间，然后把图像数据分成若干段存放到所申请的内存空间中，开启多个线程同时进行灰度化处理；

灰度化完成后提取内存空间的数据，重新组合成图像数据，然后释放所申请的内存空间；

步骤五，使用大律法OTSU算法求得图像的最佳全局熵，利用最佳全局熵对灰度图像进行二值化，阈值即最佳全局熵，对于灰度值小于该阈值的，全部设置为RGB全部设置为0，即全部置黑，其余的全部设置为255，即全部置白；

2.根据权利要求1所述的票据图像模版的应用，其特征在于，采用如下步骤：

步骤一、对需要鉴定的固定格式文档进行扫描，采集图像；

步骤二、对步骤一所采集得到的图像进行按权利要求1所述的步骤二到步骤八操作、得到与固定格式文档模版相似的图像；