CN111612705A - 一种增强ocr性能的背景图像消除方法 - Google Patents

一种增强ocr性能的背景图像消除方法 Download PDF

Info

Publication number
CN111612705A
CN111612705A CN202010331452.3A CN202010331452A CN111612705A CN 111612705 A CN111612705 A CN 111612705A CN 202010331452 A CN202010331452 A CN 202010331452A CN 111612705 A CN111612705 A CN 111612705A
Authority
CN
China
Prior art keywords
image
background image
pixel
enhancing
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010331452.3A
Other languages
English (en)
Other versions
CN111612705B (zh
Inventor
肖学中
叶子卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010331452.3A priority Critical patent/CN111612705B/zh
Publication of CN111612705A publication Critical patent/CN111612705A/zh
Application granted granted Critical
Publication of CN111612705B publication Critical patent/CN111612705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种增强OCR性能的背景图像消除方法,包括以下步骤:步骤一:将图片中像素和背景图像像素间的差异分解为亮度和色度;步骤二:对所输入的图像计算像素亮度失真;步骤三:对所输入的图像计算像素色度失真;步骤四:基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强;步骤五:将增强后的RGB三通道图像合并成灰度图像;该方法基于背景图像像素中R、G、B颜色值的差值,利用亮度失真和色度失真来增强RGB三通道图像的对比度,本发明有效提升了OCR识别字符的性能和抗干扰能力。

Description

一种增强OCR性能的背景图像消除方法
技术领域
本发明涉及一种图像识别方法,具体的说是一种背景图像消除方法,属于互联网应用技术领域。
背景技术
OCR技术在文档处理中有着广泛的应用。许多文档图像都嵌入了背景图像,例如支票、存折、驾驶执照、护照、证书等。虽然背景图像增强了文档的安全性或视觉效果,但它给OCR应用带来了困难。背景图像的某些部分可能会被识别为字符,这直接导致了错误的结果,并在OCR的后续处理步骤中造成麻烦。因此,在文本检测之前去除背景图像,对文档图像进行预处理是非常重要的。
OCR分析中背景图像的减法通常不可直接使用,在本发明中,将亮度失真和色度失真的概念应用于OCR背景图像的处理中,提出了一种新颖和经济的方法来消除背景图像/水印,以提高OCR的性能。
发明内容
本发明的目的是提供一种增强OCR性能的背景图像消除方法,能够在识别图片含有背景图像时提高图片预处理后的清晰度,提升OCR识别字符的性能和抗干扰能力。
本发明的目的是这样实现的:一种增强OCR性能的背景图像消除方法,包括以下步骤:
步骤一:将图片中像素和背景图像像素间的差异分解为亮度和色度;
步骤二:对所输入的图像计算像素亮度失真;
步骤三:对所输入的图像计算像素色度失真;
步骤四:基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强;
步骤五:将增强后的RGB三通道图像合并成灰度图像。
作为本发明的进一步限定,步骤一中所述分解像素和背景图像像素方法基于以下两种观察结果:
(1)与纯文本字符相比,背景图像的纹理和图案分布更丰富;
(2)彩色背景图像中每个像素的RGB值差异较大,对于文本字符RGB值的差异并不显著。
作为本发明的进一步限定,步骤一中所述分解像素和背景图像像素方法具体包括:
将图片像素和背景图像像素分解为亮度αi和色度βi,利用αi和βi的统计差异来作为参数估计,用以增强文档图像。
作为本发明的进一步限定,步骤二中所述亮度失真αi由最小化下述函数而得到:
Figure BDA0002465091870000021
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表像素相对期望值的亮度增强,
Figure BDA0002465091870000022
为最小化函数值,设定当前图像和参考图像亮度相同时αi为1,同样的,αi<1代表比期望亮度要暗,αi>1代表比期望亮度要亮。
作为本发明的进一步限定,步骤三中所述色度失真βi定义为观察到的颜色与期望色度线之间的正交距离,可以由如下公式表示:
βi=‖piiei
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表步骤二中确定的亮度失真值。
作为本发明的进一步限定,步骤四中所述图像增强方法在不改变前景文本的情况下去除颜色背景,并确保每个像素有R、G和B三个值;如果原始图像没有在RGB的颜色空间中表示,则需要转换为RGB。
作为本发明的进一步限定,步骤四中所述图像增强方法使用非线性变换来增强每个通道图像的对比度,在保持灰度像素的同时扩大彩色像素的色差,可以由如下公式表示:
qi=max{0,min[255,(pi-128)*βii]}
其中pi为原始像素值,qi为调整后像素值,亮度αi用来调整图像的亮度。
作为本发明的进一步限定,步骤五中所述图像通道合并方法用于将三个通道的图像合并成一个灰度图像,如下公式所示:
S=|r-g|+|r-b|+|g-b|
其中,r,g,b分别为通道图像增强后的红、绿、蓝值,S是三者间差值的和;在此基础上,根据不同文档的特性设定一个阈值T;如果S>T,则:
fi=min[255,(r+g+b)]
否则,若S≤T:
fi=min[255,(r+g+b)/3]
其中fi为合并后的像素值。
作为本发明的进一步限定,步骤五中所述图像通道合并方法得到合并像素值之后,如果像素仍属于彩色背景图像,则再次放大像素值,最终得到灰度图像;其中,背景图像像素值接近255,文本图像像素值接近0。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明将图片像素和背景图像像素分解为亮度αi和色度βi,利用αi和βi的统计差异来作为参数估计,基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强,将增强后的RGB三通道图像合并成灰度图像,以实现对背景图像的消除,提升了OCR的性能。
附图说明
图1为本发明实施例提供的方法步骤示意图。
图2为本发明实施例提供的亮度和色度分解示意图。
图3为采用本发明方法对待OCR识别的图像处理的对比图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
首先如图1所示:一种增强OCR性能的背景图像消除方法,该方法包括以下步骤:
步骤一:将图片中像素和背景图像像素间的差异分解为亮度和色度;
步骤二:对所输入的图像计算像素亮度失真;
步骤三:对所输入的图像计算像素色度失真;
步骤四:基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强;
步骤五:将增强后的RGB三通道图像合并成灰度图像。
步骤一中所述分解像素和背景图像像素方法基于以下两种观察结果:
(1)与纯文本字符相比,背景图像的纹理和图案分布更丰富;
(2)彩色背景图像中每个像素的RGB值差异较大,对于文本字符RGB值的差异并不显著。
如图2所示,步骤一中所述分解像素和背景图像像素方法在于将图片像素和背景图像像素分解为亮度αi和色度βi,利用αi和βi的统计差异来作为参数估计,用以增强文档图像,使其更容易去除背景。
步骤二中所述亮度失真αi由最小化下述函数而得到:
Figure BDA0002465091870000041
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表像素相对期望值的亮度增强。
Figure BDA0002465091870000042
为最小化函数值,设定当前图像和参考图像亮度相同时αi为1,同样的,αi<1代表比期望亮度要暗,αi>1代表比期望亮度要亮。
步骤三中所述色度失真βi定义为观察到的颜色与期望色度线之间的正交距离,可以由如下公式表示:
βi=‖piiei
其中pi代表当前图像像素,ei代表背景图像像素,αi代表步骤二中确定的亮度失真值。
步骤四中所述图像增强方法在不改变前景文本的情况下去除颜色背景,首先要确保每个像素有R、G和B三个值。如果原始图像没有在RGB的颜色空间中表示,那么我们应该先进行转换。因为,RGB虽然是常用的,但还有如HSI、HSV、CMY和YUV等颜色空间,根据实验发现,在RGB空间中,颜色背景图像像素与文本像素的区分比其他空间更容易。
步骤四中所述图像增强方法使用非线性变换来增强每个通道图像的对比度,从而在保持灰度像素的同时扩大彩色像素的色差,经过增强处理后,彩色背景中的像素更加突出,可以有效地与文本像素区分开来。可以由如下公式表示:
qi=max{0,min[255,(pi-128)*βii]}
其中pi为原始像素值,qi为调整后像素值,亮度αi用来调整图像的亮度,适当的亮度有助于区分前景和背景。
步骤五中所述图像通道合并方法用于将三个通道的图像合并成一个灰度图像,如下公式所示:
S=|r-g|+|r-b|+|g-b|
其中r,g,b分别为通道图像增强后的红、绿、蓝值,S是三者间差值的和。在此基础上,根据不同文档的特性设定一个阈值T。如果S>T,则:
fi=min[255,(r+g+b)]
否则,若S≤T:
fi=min[255,(r+g+b)/3]
其中fi为合并后的像素值。
步骤五中所述图像通道合并方法得到合并像素值之后,如果像素仍属于彩色背景图像,则再次放大像素值,最终得到灰度图像。其中,背景图像像素值接近255,文本图像像素值接近0。
本发明方法采用Tesseract引擎进行测试,并与ABBYY Finereader和汉王两种商用OCR软件进行了比较;在文本区域中,Tesseract的性能优于ABBYY Finereader和汉王,去除背景图像后,识别精度明显提高。尤其对一些背景复杂的图像(分辨率低或背景丰富)的改进是显著的。如图3所示,为采用本发明方法处理一幅图像的示例图,由图可以清晰看出效果较佳。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种增强OCR性能的背景图像消除方法,其特征在于:包括以下步骤:
步骤一:将图片中像素和背景图像像素间的差异分解为亮度和色度;
步骤二:对所输入的图像计算像素亮度失真;
步骤三:对所输入的图像计算像素色度失真;
步骤四:基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强;
步骤五:将增强后的RGB三通道图像合并成灰度图像。
2.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤一中所述分解像素和背景图像像素方法基于以下两种观察结果:
(1)与纯文本字符相比,背景图像的纹理和图案分布更丰富;
(2)彩色背景图像中每个像素的RGB值差异较大,对于文本字符RGB值的差异并不显著。
3.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤一中所述分解像素和背景图像像素方法具体包括:
将图片像素和背景图像像素分解为亮度αi和色度βi,利用αi和βi的统计差异来作为参数估计,用以增强文档图像。
4.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤二中所述亮度失真αi由最小化下述函数而得到:
Figure FDA0002465091860000011
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表像素相对期望值的亮度增强;
Figure FDA0002465091860000012
为最小化函数值,设定当前图像和参考图像亮度相同时αi为1,同样的,αi<1代表比期望亮度要暗,αi>1代表比期望亮度要亮。
5.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤三中所述色度失真βi定义为观察到的颜色与期望色度线之间的正交距离,可以由如下公式表示:
βi=‖piiei
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表步骤二中确定的亮度失真值。
6.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤四中所述图像增强方法在不改变前景文本的情况下去除颜色背景,并确保每个像素有R、G和B三个值;如果原始图像没有在RGB的颜色空间中表示,则需要转换为RGB。
7.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤四中所述图像增强方法使用非线性变换来增强每个通道图像的对比度,在保持灰度像素的同时扩大彩色像素的色差,可以由如下公式表示:
qi=max{0,min[255,(pi-128)*βii]}
其中pi为原始像素值,qi为调整后像素值,亮度αi用来调整图像的亮度。
8.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤五中所述图像通道合并方法用于将三个通道的图像合并成一个灰度图像,如下公式所示:
S=|r-g|+|r-b|+|g-b|
其中,r,g,b分别为通道图像增强后的红、绿、蓝值,S是三者间差值的和,在此基础上,根据不同文档的特性设定一个阈值T;如果S>T,则:
fi=min[255,(r+g+b)]
否则,若S≤T:
fi=min[255,(r+g+b)/3]
其中fi为合并后的像素值。
9.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤五中所述图像通道合并方法得到合并像素值之后,如果像素仍属于彩色背景图像,则再次放大像素值,最终得到灰度图像;其中,背景图像像素值接近255,文本图像像素值接近0。
CN202010331452.3A 2020-04-24 2020-04-24 一种增强ocr性能的背景图像消除方法 Active CN111612705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010331452.3A CN111612705B (zh) 2020-04-24 2020-04-24 一种增强ocr性能的背景图像消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010331452.3A CN111612705B (zh) 2020-04-24 2020-04-24 一种增强ocr性能的背景图像消除方法

Publications (2)

Publication Number Publication Date
CN111612705A true CN111612705A (zh) 2020-09-01
CN111612705B CN111612705B (zh) 2022-08-23

Family

ID=72199710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010331452.3A Active CN111612705B (zh) 2020-04-24 2020-04-24 一种增强ocr性能的背景图像消除方法

Country Status (1)

Country Link
CN (1) CN111612705B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078561A (zh) * 2023-10-13 2023-11-17 深圳市东视电子有限公司 基于rgb的自适应颜色校正与对比度增强方法及装置
CN117422757A (zh) * 2023-10-31 2024-01-19 安徽唯嵩光电科技有限公司 一种果蔬大小分选方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631834A (zh) * 2015-12-16 2016-06-01 安徽创世科技有限公司 一种夜视图像增强方法
CN107481206A (zh) * 2017-08-28 2017-12-15 湖南友哲科技有限公司 显微镜图像背景均衡处理算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631834A (zh) * 2015-12-16 2016-06-01 安徽创世科技有限公司 一种夜视图像增强方法
CN107481206A (zh) * 2017-08-28 2017-12-15 湖南友哲科技有限公司 显微镜图像背景均衡处理算法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078561A (zh) * 2023-10-13 2023-11-17 深圳市东视电子有限公司 基于rgb的自适应颜色校正与对比度增强方法及装置
CN117078561B (zh) * 2023-10-13 2024-01-19 深圳市东视电子有限公司 基于rgb的自适应颜色校正与对比度增强方法及装置
CN117422757A (zh) * 2023-10-31 2024-01-19 安徽唯嵩光电科技有限公司 一种果蔬大小分选方法、装置、计算机设备及存储介质
CN117422757B (zh) * 2023-10-31 2024-05-03 安徽唯嵩光电科技有限公司 一种果蔬大小分选方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111612705B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
Gasparini et al. Color balancing of digital photos using simple image statistics
EP2545499B1 (en) Text enhancement of a textual image undergoing optical character recognition
US6519362B1 (en) Method of extracting text present in a color image
Shi et al. Historical document image enhancement using background light intensity normalization
US9143657B2 (en) Color enhancement technique using skin color detection
US7528991B2 (en) Method of generating a mask image of membership of single pixels to certain chromaticity classes and of adaptive improvement of a color image
EP2350920B1 (en) Method for skin tone detection
Lee et al. Color image enhancement using histogram equalization method without changing hue and saturation
CN111489346B (zh) 一种全参考图像质量评价方法及系统
CN111612705B (zh) 一种增强ocr性能的背景图像消除方法
CN101930596A (zh) 一种复杂光照下的两步法颜色恒常性方法
US8121401B2 (en) Method for reducing enhancement of artifacts and noise in image color enhancement
CN107256539B (zh) 一种基于局部对比度的图像锐化方法
CN110580690B (zh) 一种识别峰值变换非线性曲线的图像增强方法
Mancas-Thillou et al. Color text extraction from camera-based images: the impact of the choice of the clustering distance
Tonazzini Color space transformations for analysis and enhancement of ancient degraded manuscripts
CN110298812B (zh) 一种图像融合处理的方法及装置
Ganesan et al. HSV Model based skin color segmentation using uncomplicated threshold and logical AND operation
Wang et al. Crop disease leaf image segmentation method based on color features
KR102158633B1 (ko) 인감 사용 서류의 인감 이미지 추출 방법
Naccari et al. Natural scenes classification for color enhancement
CN111611940A (zh) 一种基于大数据处理的快速视频人脸识别方法
WO2010128683A1 (en) Blue sky color detection technique
CN108550155B (zh) 一种彩色林火遥感图像的目标区域分割方法
CN104112254A (zh) 处理rgb彩色图像的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant