CN113129246A - 一种文档图片的处理方法、装置及电子设备 - Google Patents

一种文档图片的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN113129246A
CN113129246A CN202110421201.9A CN202110421201A CN113129246A CN 113129246 A CN113129246 A CN 113129246A CN 202110421201 A CN202110421201 A CN 202110421201A CN 113129246 A CN113129246 A CN 113129246A
Authority
CN
China
Prior art keywords
image
document
processing
picture
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110421201.9A
Other languages
English (en)
Inventor
黄建雄
谢发炎
吴涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baige Feichi Technology Co ltd
Original Assignee
Xiamen Miaobao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Miaobao Technology Co ltd filed Critical Xiamen Miaobao Technology Co ltd
Priority to CN202110421201.9A priority Critical patent/CN113129246A/zh
Publication of CN113129246A publication Critical patent/CN113129246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4023Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及图像处理处理技术领域,公开了一种文档图片的处理方法、装置及电子设备,所述文档图片的处理方法,包括:复制文档原图像,得到文档复制图像;对文档复制图像进行处理得到文档背景图像;文档原图像与文档背景图像做图像减法运算得到运算图像,并对运算图像进行反向处理得到结果图像。本发明的文档图片的处理方法主要原理在于类似目标提取,把文字当成前景处理,通过算法生成文档背景图像,文档原图像与生成的文档背景图像进行图像减法运算,即可得到黑白效果的文档图片。

Description

一种文档图片的处理方法、装置及电子设备
技术领域
本发明涉及图像处理技术领域,具体的涉及一种文档图片的处理方法、装置及电子设备。
背景技术
文档图片,主要是通过摄像装置拍摄文档得到的图片,一般比较注重文档图片内容的清晰度要求,为了更好的凸显文档图片的文字内容,一般都需要对图片进行黑白效果的处理。
另外,借助于OCR技术可满足提取文档图片中的文字进行后期编辑的需求,OCR---Optical Character Recognition技术,光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
然而,不管是出于更清晰的显示文档图片的文字考虑,还是出于提高OCR技术的文字识别准确度的考虑,文档图片的黑白效果处理都至关重要。
现有实现文档图片的黑白效果的二值化算法主要有:定阈值(适用差,效果不好);局部阈值(分块,每块固定阈值不同,过渡交接会有线;每块阈值是计算出来的,例如大津算法);二值梯度算法等。文档图片通过二值化算法处理后,文档的文字不够美观,往往伴随着锯齿、粘连等问题;另外,光照不均匀产生的阴影问题等,影响二值化算法处理的难度。
现有申请号为202010673612.2,名称为:一种基于智能终端的彩色图像快速处理方法的中国发明专利申请,该发明公开了一种基于智能终端的彩色图像快速处理方法。属于彩色图像处理技术领域;具体步骤:对智能终端的应用程序进行界面设计;并通过界面设计选择并打开彩色图像;观察是否需要压缩选择的彩色图像;对进行压缩处理后的彩色图像进行灰度化处理,从而使其灰度化增强;相继的对灰度化后的图像进行高斯滤波处理、二值化处理、膨胀处理、腐蚀处理;在将上述处理后的图像及处理耗时进行界面显示;最后保存进行处理后的图像。本发明可以快速用于图像的处理分析,原图像处理耗时需要13.7秒,尤其是使用了图像压缩之后,只需要1.5s,处理效率提高近10倍;不仅提高了目标对象的提取效率,同时大大降低了所需要的处理时间。
上述专利公开了一种通过二值化处理得到黑白效果文档图片的方法,处理得到的黑白效果文档图片的文字不够美观,文字边缘伴随着锯齿、粘连等问题;另外,光照不均匀在文档图片上产生的阴影问题等,影响二值化算法处理的难度及效果。
有鉴于此,特提出本发明。
发明内容
本发明用于处理文档图片的显示效果,使图片呈现黑白效果,即文档文字清晰呈现,而背景呈现为白色。
为了实现上述发明目的,本发明提供了以下技术方案:
一种文档图片的处理方法,包括:
复制文档原图像,得到文档复制图像;
对文档复制图像进行处理得到文档背景图像;
文档原图像与文档背景图像做图像减法运算得到运算图像,并对运算图像进行反向处理得到结果图像。
作为本发明的可选实施方式,所述对文档复制图像进行处理得到文档背景图像包括:
对文档复制图像通过模糊算法处理得到模糊图像;
对模糊图像进行形态学膨胀处理,得到文档背景图像。
作为本发明的可选实施方式,所述对文档复制图像进行模糊处理包括:将文档复制图像进行压缩处理得到压缩图像,对压缩图像进行高斯模糊算法处理,得到模糊图像;
可选地,所述文档复制图像通过压缩处理后最小边的像素的取值范围为[500,1000];
所述高斯模糊处理的模糊半径参数的取值范围根据压缩结果设置为[1,3]。
作为本发明的可选实施方式,所述对模糊图像进行形态学膨胀处理,得到文档背景图像包括:
对模糊图像进行形态学膨胀处理得到膨胀图像,将膨胀图像放大至文档原图大小,此为文档背景图像;
可选地,所述形态学膨胀处理的膨胀半径的取值范围为[4,8];
可选地,通过插值放大算法将膨胀图像放大至文档原图大小。
作为本发明的可选实施方式,所述文档原图像与文档背景图像做图像减法运算包括:
文档原图像/文档背景图像中各坐标的像素的灰度值对应减去文档背景图像/文档原图像中对应坐标的像素的灰度值,运算差值取绝对值,得到运算图像。
作为本发明的可选实施方式,本发明的文档图片的处理方法还包括:对结果图像进行线性映射,得到黑白效果的文档图像;
可选地,所述对结果图像进行线性映射包括:
预设第一灰度值X1和第二灰度值X2,其中,第一灰度值X1小于第二灰度值X2,所述线性映射预设为[Xmin,Xmax],所述所述Xmin、Xmax为预设的灰度值,且Xmin<Xmax;
将结果图像中大于第二灰度值X2的像素设置为Xmax,将结果图像中小于第一灰度值 X1的像素设置为Xmin,将结果图像中在区间[X1,X2]的像素线性映射为[Xmin,Xmax]。
作为本发明的可选实施方式,所述复制文档原图像,得到文档复制图像之前包括:将获取的文档图片进行灰度处理得到文档原图像。
本发明同时提供一种文档图片的处理装置,包括:
复制模块,复制文档原图像,得到文档复制图像;
处理模块,对文档复制图像进行处理得到文档背景图像;
图像运算模块,文档原图像与文档背景图像做图像减法运算得到运算图像,并对运算图像进行反向操作得到结果图像。
本发明还提供一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,
当所述计算机程序被所述处理器执行时,所述处理器执行所述的一种文档图片的处理方法。
本发明还提供一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的一种文档图片的处理方法。
与现有技术相比,本发明的有益效果:
本发明的文档图片的处理方法应用于处理文档图片的显示效果,使图片呈现黑白效果,即文档文字清晰呈现,而背景呈现为白色。本发明的文档图片的处理方法主要原理在于类似目标提取,把文字当成前景处理,通过算法生成文档背景图像,文档原图像与生成的文档背景图像进行图像减法运算,通过反相处理,即可得到黑白效果的文档图片。
本发明的文档图片的处理方法主要针对文档图片本身的图片特点实现,文档图片一般色彩比较简单,用户更加关注于文档图片中的文档内容,因此只需通过简单的图像减法运算即可将文档图片中的文档内容进行提取,相较于二值化算法处理,算法更加简单,实现难度更小,文档呈现效果更佳。
本发明文档图片的处理方法主要关注于提取文档图片中的文字部分,在生成文档背景图像时取决于图片背景的大部分区域,图片中局部存在的阴影对于图片处理效果影响较小,因此,本发明的文档图片的处理方法针对文档图片的适用性更强。
本发明的文档图片的处理方法通过线性映射算法,加黑文字,调亮背景,得到黑白效果的文档图像,可有效的避免二值化算法处理后图片的文字不够美观,文字边缘伴随着锯齿、粘连等问题。
本发明的文档图片的处理方法对结果图像可通过二值化算法进行二值处理得到二值图像,用于热敏打印。
附图说明:
图1本发明文档图片的处理方法的流程图;
图2本发明文档图片的处理方法中灰度处理后的文档复制图像效果图(src_img);
图3本发明文档图片的处理方法中压缩处理后的压缩图像效果图(resize_img);
图4本发明文档图片的处理方法中高斯模糊处理后的模糊图像效果图(gauss_img);
图5本发明文档图片的处理方法中膨胀处理后的膨胀图像效果图(dilate_img);
图6本发明文档图片的处理方法中放大至原图像大小后的文档背景图像的效果图(background_img);
图7本发明文档图片的处理方法中图像减法运算后的运算图像效果图(dst_img_0);
图8本发明文档图片的处理方法中反向处理后的结果图像效果图(dst_img_1);
图9本发明文档图片的处理方法中线性映射处理后的黑白效果图像的效果图(dst_img)。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的部分实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,这类术语仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
参见图1所示,本实施例提供的一种文档图片的处理方法,包括:
复制文档原图像,得到文档复制图像;
对文档复制图像进行处理得到文档背景图像;
文档原图像与文档背景图像做图像减法运算得到运算图像,并对运算图像进行反向处理得到结果图像。
本实施例的文档图片的处理方法应用于处理文档图片的显示效果,使图片呈现黑白效果,即文档文字清晰呈现,而背景呈现为白色。本实施例的文档图片的处理方法主要原理在于类似目标提取,把文字当成前景处理,通过算法生成文档背景图像,文档原图像与生成的文档背景图像进行图像减法运算,通过反相处理,得到黑白效果的文档图片。
本实施例的文档图片的处理方法主要针对文档图片本身的图片特点实现,文档图片一般色彩比较简单,用户更加关注于文档图片中的文档内容,因此只需通过简单的图像减法运算即可将文档图片中的文档内容进行提取,相较于二值化算法处理,算法更加简单,实现难度更小,文档呈现效果更佳。
本实施例文档图片的处理方法主要关注于提取文档图片中的文字部分,在生成文档背景图像时取决于图片背景的大部分区域,图片中局部存在的阴影对于图片处理效果影响较小,因此,本实施例的文档图片的处理方法针对文档图片的适用性更强。
本实施例的文档图片的处理方法通过线性映射算法,加黑文字,调亮背景,得到黑白效果的文档图像,可有效的避免二值化算法处理后图片的文字不够美观,文字边缘伴随着锯齿、粘连等问题。
本实施例的文档图片的处理方法对结果图像可通过二值化算法进行二值处理得到二值图像,用于热敏打印。
作为本实施例的可选实施方式,本实施例所述对文档复制图像进行处理得到文档背景图像包括:对文档复制图像通过模糊算法处理得到模糊图像;对模糊图像进行形态学膨胀处理,得到文档背景图像。
图像的模糊是图像处理中比较常用和简单的处理手段之一。那么使用这种手段的原因就是为了给图像进行去噪,便于后面的处理。
模糊处理的背后的原理是什么呢,其实就是卷积计算。而在高等数学里面,卷积是连续的,在图像处理中,我们所说的卷积是离散的。
根据原理的不同,模糊方式有很多种,具体包括:
均值模糊
均值模糊从字面意思上就是取周边像素的平均值,赋值给中心像素。
高斯模糊
高斯模糊(英语:Gaussian Blur),也叫高斯平滑,是在Adobe Photoshop、GIMP以及 Paint.NET等图像处理软件中广泛使用的处理效果,通常用它来减少图像噪声以及降低细节层次。这种模糊技术生成的图像,其视觉效果就像是经过一个半透明屏幕在观察图像,这与镜头焦外成像效果散景以及普通照明阴影中的效果都明显不同。高斯平滑也用于计算机视觉算法中的预先处理阶段,以增强图像在不同比例大小下的图像效果。从数学的角度来看,图像的高斯模糊过程就是图像与正态分布做卷积。由于正态分布又叫作高斯分布,所以这项技术就叫作高斯模糊。图像与圆形方框模糊做卷积将会生成更加精确的焦外成像效果。由于高斯函数的傅立叶变换是另外一个高斯函数,所以高斯模糊对于图像来说就是一个低通滤波器。
相对于均值模糊,更好的保留图像的细节。因为高斯函数的特性,会有一定的权重配比。
中值模糊
字面意思的话,就是取中间的值来代替中心像素。和均值滤波类似,只不过均值滤波是取平均值,中值滤波取中间的那个值。中值滤波可以有效的去除椒盐噪声(比如说你在清水中,撒点盐,这些就是椒盐噪声。对应到图像上,在一副黑色图像上,有很多小白点,这些就是椒盐噪声)。
那么它为什么可以去除椒盐噪声呢。因为椒盐噪声灰度值要么很小为0,要么很大为255,而取中间值话,就会用替代这些,从而给图像去噪点。
双边模糊
那之前我们说过高斯模糊相对于均值模糊而言保留图像的一些细节,但是它是基于空阈的,就是基于空间分布的。但是它还是没有办法完全避免边缘信息的丢失。而双边模糊则是比高斯模糊多了一个高斯方差sigma-d,所以在边缘附近,离的较远的像素不会太多影响到边缘上的灰度值,这样就保证了边缘附近灰度值的保存。也就是说它们的灰度值在设定落差之外,不给它进行模糊,比便于保留边缘。
进一步地,本实施例所述对文档复制图像进行模糊处理包括:将文档复制图像进行压缩处理得到压缩图像,对压缩图像进行高斯模糊处理,得到模糊图像。
为了保证最后的文字足够大,采集的文档原图像一般比较大,为了加快背景图片生成速度,将文档复制图像进行压缩处理,减小图片的分别率,降低后续图片处理的算法难度,图片处理更加简单,处理速度更快。
高斯模糊在图像处理领域,通常用于减少图像噪声以及降低细节层次,以及对图像进行模糊,其视觉效果就像是经过一个半透明屏幕在观察图像。
从数字信号处理的角度看,图像模糊的本质一个过滤高频信号,保留低频信号的过程。过滤高频的信号的一个常见可选方法是卷积滤波。从这个角度来说,图像的高斯模糊过程即图像与正态分布做卷积。由于正态分布又叫作“高斯分布”,所以这项技术就叫作高斯模糊。而由于高斯函数的傅立叶变换是另外一个高斯函数,所以高斯模糊对于图像来说就是一个低通滤波器。
N维空间高斯模糊方程可以表示为:
Figure BDA0003027908080000081
在二维空间定义为:
Figure BDA0003027908080000082
其中r是模糊半径r2=u2+v2
模糊半径越大,图像就越模糊。从数值角度看,就是数值越平滑。
可选地,所述文档复制图像通过压缩处理后最小边的像素的取值范围为[500,1000]之间;在保留了文档原图中的文档内容信息的基础上,可降低后续图片处理的算法难度,加快图片的处理速度。
可选地,所述高斯模糊处理的模糊半径参数根据压缩结果设置为[1,3]。
作为本实施例的可选实施方式,本实施例所述对模糊图像进行形态学膨胀处理,得到文档背景图像包括:
对模糊图像进行形态学膨胀处理得到膨胀图像,将膨胀图像放大至文档原图大小,此为文档背景图像。
形态学操作就是基于形状的一系列图像处理操作,膨胀处理的功能,主要如下:
·消除噪声
·分割(isolate)出独立的图像元素,在图像中连接(join)相邻的元素。
·寻找图像中的明显的极大值区域或极小值区域
·求出图像的梯度
需要注意的是,形态学膨胀处理是对白色部分(高亮部分)而言的,不是黑色部分。膨胀就是图像中的高亮部分进行膨胀,“邻域扩张”,效果图拥有比原图更大的高亮区域。
其实,膨胀就是求局部最大值的操作。按数学方面来说,膨胀处理就是将图像(或图像的一部分区域,我们称之为A)与核(我们称之为B)进行卷积。
核可以是任何的形状和大小,它拥有一个单独定义出来的参考点,我们称其为锚点 (anchorpoint)。多数情况下,核是一个小的中间带有参考点和实心正方形或者圆盘,其实,我们可以把核视为模板或者掩码。
而膨胀就是求局部最大值的操作,核B与图形卷积,即计算核B覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素。这样就会使图像中的高亮区域逐渐增长。
膨胀的数学表达式:
Figure DEST_PATH_IMAGE001
可选地,所述形态学膨胀处理的膨胀半径为[4,8]。
进一步地,本实施例通过插值放大算法将膨胀图像放大至文档原图大小。
图像进行放大操作都需要在源图像和目标图像之间建立一个映射规则(x′,y′)=T(x, y),使得两图像像素坐标之间建立起一种对应关系,从而为目标图像的每一个像素赋值。
从源图像到目标图像的映射叫前向映射,但是这种映射方法可能会出现这样的两个问题:源图像的好几个像素点映射到目标图像中的位置是相同的;目标图像某些位置没有要赋值的像素。这样就要考虑如何把多个输出值转换成一个输出值和对目标图像中没有映射到的像素该如何赋值的问题。而我们经常采用的是后向映射,这种方法比前向映射更加有效,它是从目标图像到源图像的映射,即(x,y)=(x′,y)/T,这样就避免了前向映射中存在的问题,但也不可避免地存在着部分像素映射回源图像时坐标为浮点数的问题,而图像的灰度值仅在整数坐标处有定义,这时候就要利用图像插值方法来给这个待求像素点赋值。
常用的插值算法有:最近邻插值,双线性插值,双三次插值方法等等。
最近邻插值算法又称为零阶插值,就是令变换后像素的灰度值等于距它最近的输入像素的灰度值。
双线性插值算法又称双线性内插,经过放大或缩小若干倍之后,目标图像Im(x y)点坐标所对应的源图像坐标(x*m/m’y*n/n’)通常为浮点数,假设为P点,用P(i_x+u_x i_y+u_y)表示,其中i_x、i_y分别表示整数部分,u_x、u_y分别表示小数部分。由其相邻4个点的灰度值的线性关系计算P点的灰度值,即P点的灰度值由这4个相邻点共同决定,距P点越近,则影响因子越大,反之影响因子越小,对于(i_x i_y)点,x方向上 u_x的值越大,其影响因子越小,i_y方向上u_y的值越大,其影响因子越小,所以(i_x i_y) 点的影响值为Im(i_xi_y)*(1-u_x)*(1-u_y),其余3个点类似。P点的灰度值计算公式:P(x,y)=(1-u_x)*(1-u_y)*Im(i_x i_y)+(1-u_x)*u_y*Im(i_x i_y+1) +u_x*(1-u_y)*Im(i_x+1i_y)+u_x*u_y*Im(i_x+1i_y+1)。
双三次插值又称立方卷积插值,利用P周围16个点的灰度值进行三次插值,可以得到更接近高分辨率图像的放大效果,也会导致运算量的急剧增加。该算法需要选取插值基函数来拟合数据,最常用的插值基函数表达式如下y(x)=1-2|x|2+x3|x|<1 4-8|x|+5|x|2- |x|3 1<|x|<2 0|x|>2同样P点为经过放大或缩小若干倍之后,目标图像Im(x y)点坐标所对应的源图像坐标(x*m/m’y*n/n’)通常为浮点数,假设为P点,用P(i_x+u_x i_y+u_y)表示,其中i_x,i_y分别表示整数部分,u_x,u_y分别表示小数部分。此处需要分别计算P 点周围16个点的系数,经过加权得到P点的灰度值。下面对坐标点分别求行和列对应的系数:行X轴方向上的4个点距P点的距离分别为1+u_x、u_x、1-u_x、2-u_x。列 Y轴方向上的4个点距P点的距离分别为1+u_y、u_y、1-u_y、2-u_y。由插值基函数运算得到Im(i_x i_y)点行对应的系数为y(1+u_x),列对应的系数为y(1+u_y),该点的系数则为K00=y(1+u_x)*y(1+u_y)。其余点类似计算。
作为本实施例的可选实施方式,本实施例所述文档原图像与文档背景图像做图像减法运算包括:
文档原图像/文档背景图像中各坐标的像素的灰度值对应减去文档背景图像/文档原图像中对应坐标的像素的灰度值,运算差值取绝对值。
本实施例的图像减法运算可以是文档原图像中各坐标的像素的灰度值对应减去文档背景图像对应坐标的像素的灰度值,也可以是文档背景图像中各坐标的像素的灰度值对应减去文档原图像中对应坐标的像素的灰度值,为了防止产生负数,需要对运算差值取绝对值。本实施例的文档背景图像是通过插值放大算法将膨胀图像放大至文档原图大小的图像。
图像运算指以图像为单位进行的搡作(该操作对图像中的所有像素同样进行),运算的结果是一幅其灰度分布与原来参与运算图像灰度分布不同的新图像。本实施例通过图像减法运算,将文档原图像中的文档文字提取出来,生成的运算图像呈现黑底白字,因此,还需要进行对运算图像进行反向处理得到白底黑字的结果图像。本实施例的反向处理将图像的背景区域的灰度值与文字的灰度值对换。
因为图像减法运算的关系,文字前景值一般偏大,不够黑,而背景虽然在视觉上是白色,但是有很多值只是趋向于255,这时候需要做一个类似二值化的操作。具体地,本实施例对结果图像进行线性映射,得到黑白效果的文档图像。
可选地,所述对结果图像进行线性映射包括:
预设第一灰度值X1和第二灰度值X2,其中,第一灰度值X1小于第二灰度值X2,所述线性映射预设为[Xmin,Xmax],所述Xmin的灰度值对应黑色图像效果,所述Xmax的灰度值对应白色图像效果。
将结果图像中大于第二灰度值X2的像素设置为Xmax,将结果图像中小于第一灰度值 X1的像素设置为Xmin,将结果图像中在区间[X1,X2]的像素线性映射为[Xmin,Xmax]。
可选地,本实施例的Xmin对应黑色效果,所述的Xmin可设置为0;本实施例的Xmax对应白色效果,所述的Xmax可设置为255。本实施例的第一灰度值X1≥200,第二灰度值 X2≤240,本实施例的[X1,X2]可选的为[200,230]。
本实施例通过对结果图像进行线性映射,最后生成的图片黑白视觉上分明,中间夹着少量灰度值,文字更加顺滑美观;可有效的避免二值化算法处理后图片的文字不够美观,文字边缘伴随着锯齿、粘连等问题。
作为本实施例的可选实施方式,本实施例所述复制文档原图像,得到文档复制图像之前包括:将获取的文档图片进行灰度处理得到文档原图像。本实施例通过对文档图片进行灰度处理得到灰度图片,对于文档图片的文档内容的处理无影响,且降低了图片后续算法的处理难度,简化了算法,提高了图片处理速率。
下面结合图片的效果图,针对本实施例的文档图片的处理方法的具体步骤进行阐述:
一、采集文档图片,并灰度化
参见图2所示,硬件设备拍摄、扫描文档,形成文档图片,图像灰度化,结果图定为src- _img。
二、复制原图,对图像进行压缩,最小边压缩至[500,1000]之间。
参见图3所示,复制图像,为了保证最后的文字足够大,采集的图片一般比较大,为了加快背景图片生成速度,将复制图进行压缩,以最小边压缩[500,1000],可以根据采集的图片固定倍数压缩,比如如果采集的图片最小边3400像素,可以采取压缩5倍为680像素,或是4倍为850,结果图定位resize_img。
三、对压缩图进行高斯模糊,模糊半径参数根据压缩结果设置为[1,3]。
参见图4所示,对resize_img图进行高斯模糊,此时图像已经较小,不宜太大半径进行模糊,可以根据压缩后图像大小选择合适的参数,范围[1,3],可选的,所述的模糊半径为1,结果图定位gauss_img。
四、对模糊后的图像进行膨胀操作,膨胀半径参数为[4,8]。
参见图5所示,对gauss_img进行形态学膨胀操作,半径参数可以根据压缩后大小选择合适半径,图像越小选择越小,此操作可以覆盖文字等前景,从而得到更真实的背景,达到和高斯背景建模类似的效果,可选地,所述膨胀半径为4,结果图定位dilate_img。
五、对膨胀后的图像进行插值放大,宽高放大到原图大小,此为背景图。
参见图6所示,对dilate_img图像进行放大,宽高大小和src_img的宽高一致,综合这几个步骤,可以模拟成高斯背景建模的过程,结果图定位background_img。
六、原图减去背景图,差值取绝对值,并对结果图进行反相操作。
参见图7所示,将src_img减去background_img,差值取绝对值,结果图像记为dst_img_0。参见图8所示,对图像做反相操作,得到基本结果图dst_img_1。
七、使用线性映射调整对结果图进行调整,背景变白,文字前景变黑。
参见图9所示,dst_img_1的图像,因为差值计算的关系,文字前景值一般偏大,不够黑,而背景虽然在视觉上是白色,但是有很多值只是趋向于255,这时候需要做一个类似二值化的操作。把大于230的值置为255,把小于200的值置为0,区间[200,230]的值,线性映射为 [0,255],最后的结果黑白视觉上分明,中间夹着少量灰度值,文字更加顺滑美观。结果图为最终输出结果,定位dst_img。
本实施例线性映射的方案可以有多重,比如色阶调整、曲线调整等。
色阶调整的实现是:当输入值<黑点值时,全部变为输出色阶的黑值;当输入值>白点时,全部变为输出色阶的白值;当输入值介于黑值与白值之间时,则结合灰度系数,按比例重新计算,变为一个新的值。
本实施例的文档图片的处理方法对结果图像可通过二值化算法进行二值处理得到二值图像,可用于热敏打印。图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。具体可采用OSTU大律法二值化。
OSTU方法又名最大类间差方法,通过统计整个图像的直方图特性来实现全局阈值T的自动选取,其算法步骤为:
1)先计算图像的直方图,即将图像所有的像素点按照0~255共256个bin,统计落在每个bin的像素点数量;
2)归一化直方图,也即将每个bin中像素点数量除以总的像素点;
3)i表示分类的阈值,也即一个灰度级,从0开始迭代;
4)通过归一化的直方图,统计0~i灰度级的像素(假设灰度值在此范围的像素叫做前景像素)所占整幅图像的比例w0,并统计前景像素的平均灰度u0;统计i~255灰度级的像素(假设灰度值在此范围的像素叫做背景像素)所占整幅图像的比例w1,并统计背景像素的平均灰度u1;
5)计算前景像素和背景像素的方差g=w0*w1*(u0-u1)(u0-u1);
6)i++;转到4),直到i为256时结束迭代;
7)将最大g相应的i值作为图像的全局阈值。
其它图像二值化算法如全局阈值、局部阈值、动态阈值、Niblack、P-分位数、迭代、熵方法也可适用。
需要说明的时,本实施例的文档图片的处理方法在实际的图片处理应用中相应的参数可根据实际的需求或者实验设置,且各个参数在文档图片在进行黑白效果处理之前被唯一设定。
本实施例同时提供一种文档图片的处理装置,包括:
复制模块,复制文档原图像,得到文档复制图像;
处理模块,对文档复制图像进行处理得到文档背景图像;
图像运算模块,文档原图像与文档背景图像做图像减法运算得到运算图像,并对运算图像进行反向操作得到结果图像。
本实施例的文档图片的处理装置用于处理文档图片的显示效果,使图片呈现黑白效果,即文档文字清晰呈现,而背景呈现为白色。本实施例的文档图片的处理装置主要原理在于类似目标提取,把文字当成前景处理,通过算法生成文档背景图像,文档原图像与生成的文档背景图像进行图像减法运算,通过反相处理,即可得到黑白效果的文档图片。
本实施例的文档图片的处理装置主要针对文档图片本身的图片特点实现,文档图片一般色彩比较简单,用户更加关注于文档图片中的文档内容,因此只需通过简单的图像减法运算即可将文档图片中的文档内容进行提取,相较于二值化算法处理,算法更加简单,实现难度更小,文档呈现效果更佳。
本实施例文档图片的处理装置主要关注于提取文档图片中的文字部分,在生成文档背景图像时取决于图片背景的大部分区域,图片中局部存在的阴影对于图片处理效果影响较小,因此,本实施例的文档图片的处理方法针对文档图片的适用性更强。
本实施例的文档图片的处理装置对结果图像进行线性映射,得到黑白效果的文档图像,可有效的避免二值化算法处理后图片的文字不够美观,文字边缘伴随着锯齿、粘连等问题。
作为本实施例的可选实施方式,本实施例的文档图片的处理装置包括:
模糊算法模块,对文档复制图像通过模糊算法处理得到模糊图像;
以及膨胀模块,对模糊图像进行形态学膨胀处理,得到文档背景图像。
模糊算法模块的模糊处理比较常用和简单的处理手段之一。那么使用这种手段的原因就是为了给图像进行去噪,便于后面的处理。
进一步地,本实施例的文档图片的处理装置包括:
压缩模块,将文档复制图像进行压缩处理得到压缩图像;
模糊算法模块,对压缩图像进行高斯模糊处理,得到模糊图像。
为了保证最后的文字足够大,采集的文档原图像一般比较大,为了加快背景图片生成速度,将文档复制图像进行压缩处理,减小图片的分别率,降低后续图片处理的算法难度,图片处理更加简单,处理速度更快。
高斯模糊在图像处理领域,通常用于减少图像噪声以及降低细节层次,以及对图像进行模糊,其视觉效果就像是经过一个半透明屏幕在观察图像。
从数字信号处理的角度看,图像模糊的本质一个过滤高频信号,保留低频信号的过程。过滤高频的信号的一个常见可选方法是卷积滤波。从这个角度来说,图像的高斯模糊过程即图像与正态分布做卷积。由于正态分布又叫作“高斯分布”,所以这项技术就叫作高斯模糊。而由于高斯函数的傅立叶变换是另外一个高斯函数,所以高斯模糊对于图像来说就是一个低通滤波器。
N维空间高斯模糊方程可以表示为:
Figure BDA0003027908080000151
在二维空间定义为:
Figure BDA0003027908080000152
其中r是模糊半径r2=u2+v2
模糊半径越大,图像就越模糊。从数值角度看,就是数值越平滑。
可选地,所述文档复制图像通过压缩处理后最小边的像素的取值范围为[500,1000]之间;在保留了文档原图中的文档内容信息的基础上,可降低后续图片处理的算法难度,加快图片的处理速度。
可选地,所述高斯模糊处理的模糊半径参数根据压缩结果设置为[1,3]。
作为本实施例的可选实施方式,本实施例所述对模糊图像进行形态学膨胀处理,得到文档背景图像包括:
对模糊图像进行形态学膨胀处理得到膨胀图像,将膨胀图像放大至文档原图大小,此为文档背景图像。
可选地,所述形态学膨胀处理的膨胀半径为[4,8]。
进一步地,本实施例的文档图片的处理装置包括:插值放大模块,通过插值放大算法将膨胀图像放大至文档原图大小。
图像进行放大操作都需要在源图像和目标图像之间建立一个映射规则(x′,y′)=T(x,y),使得两图像像素坐标之间建立起一种对应关系,从而为目标图像的每一个像素赋值。
从源图像到目标图像的映射叫前向映射,但是这种映射方法可能会出现这样的两个问题:源图像的好几个像素点映射到目标图像中的位置是相同的;目标图像某些位置没有要赋值的像素。这样就要考虑如何把多个输出值转换成一个输出值和对目标图像中没有映射到的像素该如何赋值的问题。而我们经常采用的是后向映射,这种方法比前向映射更加有效,它是从目标图像到源图像的映射,即(x,y)=(x′,y)/T,这样就避免了前向映射中存在的问题,但也不可避免地存在着部分像素映射回源图像时坐标为浮点数的问题,而图像的灰度值仅在整数坐标处有定义,这时候就要利用图像插值方法来给这个待求像素点赋值。
常用的插值算法有:最近邻插值,双线性插值,双三次插值方法等等。
作为本实施例的可选实施方式,本实施例所述文档原图像与文档背景图像做图像减法运算包括:
图像运算模块将文档原图像的灰度值对应减去文档背景图像的灰度值,差值取绝对值,得到运算图像。
图像运算指以图像为单位进行的搡作(该操作对图像中的所有像素同样进行),运算的结果是一幅其灰度分布与原来参与运算图像灰度分布不同的新图像。本实施例通过图像减法运算,将文档原图像中的文档文字提取出来,生成的运算图像呈现黑底白字,因此,还需要进行对运算图像进行反向处理得到白底黑字的结果图像。本实施例的反向处理将图像的背景区域的灰度值与文字的灰度值对换。
因为图像减法运算的关系,文字前景值一般偏大,不够黑,而背景虽然在视觉上是白色,但是有很多值只是趋向于255,这时候需要做一个类似二值化的操作。具体地,本实施例文档图片的处理装置包括线性映射模块,对结果图像进行线性映射,得到黑白效果的文档图像。
可选地,本实施例所述对结果图像进行线性映射包括:
预设第一灰度值X1和第二灰度值X2,其中,第一灰度值X1小于第二灰度值X2,所述线性映射预设为[Xmin,Xmax],所述Xmin的灰度值对应黑色图像效果,所述Xmax的灰度值对应白色图像效果。
将结果图像中大于第二灰度值X2的像素设置为Xmax,将结果图像中小于第一灰度值 X1的像素设置为Xmin,将结果图像中在区间[X1,X2]的像素线性映射为[Xmin,Xmax]。
本实施例通过对结果图像进行线性映射,最后生成的图片黑白视觉上分明,中间夹着少量灰度值,文字更加顺滑美观;可有效的避免二值化算法处理后图片的文字不够美观,文字边缘伴随着锯齿、粘连等问题。
本实施例线性映射的方案可以有多重,比如色阶调整、曲线调整等。
本实施例的文档图片的处理装置可包括图像二值化模块,对结果图像可通过二值化算法进行二值处理得到二值图像,可用于热敏打印。图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。
作为本实施例的可选实施方式,本实施例所述复制文档原图像,得到文档复制图像之前包括:将获取的文档图片进行灰度处理得到文档原图像。本实施例通过对文档图片进行灰度处理得到灰度图片,对于文档图片的文档内容的处理无影响,且降低了图片后续算法的处理难度,简化了算法,提高了图片处理速率。
本实施例还提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的一种文档图片的处理方法。
本实施例还一种计算机可读介质,存储有计算机可执行程序,其特征在于,所述计算机可执行程序被执行时,实现所述的一种文档图片的处理方法。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。
以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但本发明不局限于上述具体实施方式,因此任何对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种文档图片的处理方法,其特征在于,包括:
复制文档原图像,得到文档复制图像;
对文档复制图像进行处理得到文档背景图像;
文档原图像与文档背景图像做图像减法运算得到运算图像,并对运算图像进行反向处理得到结果图像。
2.根据权利要求1所述的一种文档图片的处理方法,其特征在于,所述对文档复制图像进行处理得到文档背景图像包括:
对文档复制图像通过模糊算法处理得到模糊图像;
对模糊图像进行形态学膨胀处理,得到文档背景图像。
3.根据权利要求2所述的一种文档图片的处理方法,其特征在于,所述对文档复制图像进行模糊处理包括:将文档复制图像进行压缩处理得到压缩图像,对压缩图像进行高斯模糊算法处理,得到模糊图像;
可选地,所述文档复制图像通过压缩处理后最小边的像素的取值范围为[500,1000];
所述高斯模糊处理的模糊半径参数的取值范围根据压缩结果设置为[1,3]。
4.根据权利要求3所述的一种文档图片的处理方法,其特征在于,所述对模糊图像进行形态学膨胀处理,得到文档背景图像包括:
对模糊图像进行形态学膨胀处理得到膨胀图像,将膨胀图像放大至文档原图大小,此为文档背景图像;
可选地,所述形态学膨胀处理的膨胀半径的取值范围为[4,8];
可选地,通过插值放大算法将膨胀图像放大至文档原图大小。
5.根据权利要求1所述的一种文档图片的处理方法,其特征在于,所述文档原图像与文档背景图像做图像减法运算包括:
文档原图像/文档背景图像中各坐标的像素的灰度值对应减去文档背景图像/文档原图像中对应坐标的像素的灰度值,运算差值取绝对值。
6.根据权利要求1所述的一种文档图片的处理方法,其特征在于,还包括:对结果图像进行线性映射,得到黑白效果的文档图像;
可选地,所述对结果图像进行线性映射包括:
预设第一灰度值X1和第二灰度值X2,其中,第一灰度值X1小于第二灰度值X2,所述线性映射预设为[Xmin,Xmax],所述Xmin、Xmax为预设的灰度值,且Xmin<Xmax;
将结果图像中大于第二灰度值X2的像素设置为Xmax,将结果图像中小于第一灰度值X1的像素设置为Xmin,将结果图像中在区间[X1,X2]的像素线性映射为[Xmin,Xmax]。
7.根据权利要求1所述的一种文档图片的处理方法,其特征在于,所述复制文档原图像,得到文档复制图像之前包括:将获取的文档图片进行灰度处理得到文档原图像。
8.一种文档图片的处理装置,其特征在于,包括:
复制模块,复制文档原图像,得到文档复制图像;
处理模块,对文档复制图像进行处理得到文档背景图像;
图像运算模块,文档原图像与文档背景图像做图像减法运算得到运算图像,并对运算图像进行反向操作得到结果图像。
9.一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于:
当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1-7中任一项所述的一种文档图片的处理方法。
10.一种计算机可读介质,存储有计算机可执行程序,其特征在于,所述计算机可执行程序被执行时,实现如权利要求1-7中任一项所述的一种文档图片的处理方法。
CN202110421201.9A 2021-04-19 2021-04-19 一种文档图片的处理方法、装置及电子设备 Pending CN113129246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110421201.9A CN113129246A (zh) 2021-04-19 2021-04-19 一种文档图片的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110421201.9A CN113129246A (zh) 2021-04-19 2021-04-19 一种文档图片的处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN113129246A true CN113129246A (zh) 2021-07-16

Family

ID=76778199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110421201.9A Pending CN113129246A (zh) 2021-04-19 2021-04-19 一种文档图片的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113129246A (zh)

Similar Documents

Publication Publication Date Title
KR101795823B1 (ko) 광학 문자 인식되는 텍스트 영상의 텍스트 개선 기법
EP1323132B1 (en) Image sharpening by variable contrast stretching
Ntirogiannis et al. A combined approach for the binarization of handwritten document images
US6577762B1 (en) Background surface thresholding
EP1910994B1 (en) Binarization of an image
US7149355B2 (en) Image processing apparatus, image processing method, image processing program, and computer-readable record medium storing image processing program
US10559067B2 (en) Removal of shadows from document images while preserving fidelity of image contents
JP4460839B2 (ja) デジタル画像鮮鋭化装置
RU2659745C1 (ru) Реконструкция документа из серии изображений документа
EP3051484A2 (en) Image interpolation method and image interpolation apparatus
JP4456819B2 (ja) デジタル画像鮮鋭化装置
Tsai Adaptive local power-law transformation for color image enhancement
US8144996B1 (en) Image processing apparatus
US20110205227A1 (en) Method Of Using A Storage Switch
CN111161181A (zh) 图像数据的增强方法、模型的训练方法、设备和存储介质
US20130182950A1 (en) Method for enhancing a digitized document
Meng et al. Nonparametric illumination correction for scanned document images via convex hulls
JP2019016117A (ja) 画像調整装置、局所的コントラスト量計算装置、方法、及びプログラム
CN113592776A (zh) 图像处理方法及装置、电子设备、存储介质
Siddiqui et al. Hardware-friendly descreening
JP2010286959A (ja) 顔画像高解像度化方法、顔画像高解像度化装置、及びそのプログラム
CN113487473A (zh) 一种添加图像水印的方法、装置、电子设备及存储介质
US6985629B2 (en) Image processing method, relative density detecting method and image processing apparatus
Pei et al. Uneven illumination removal and image enhancement using empirical mode decomposition
JP3906221B2 (ja) 画像処理方法及び画像処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 3124, Xuanye Building, Pioneer Park, Torch High-tech Zone, Xiamen City, Fujian Province, 361006

Applicant after: XIAMEN MIAOBAO TECHNOLOGY CO.,LTD.

Address before: 361006 room 3124, Xuanye building, Pioneer Park, torch hi tech Zone, Jimei District, Xiamen City, Fujian Province

Applicant before: XIAMEN MIAOBAO TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20230616

Address after: 6001, 6th Floor, No.1 Kaifeng Road, Shangdi Information Industry Base, Haidian District, Beijing, 100085

Applicant after: Beijing Baige Feichi Technology Co.,Ltd.

Address before: Room 3124, Xuanye Building, Pioneer Park, Torch High-tech Zone, Xiamen City, Fujian Province, 361006

Applicant before: XIAMEN MIAOBAO TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right