CN111612705B - 一种增强ocr性能的背景图像消除方法 - Google Patents
一种增强ocr性能的背景图像消除方法 Download PDFInfo
- Publication number
- CN111612705B CN111612705B CN202010331452.3A CN202010331452A CN111612705B CN 111612705 B CN111612705 B CN 111612705B CN 202010331452 A CN202010331452 A CN 202010331452A CN 111612705 B CN111612705 B CN 111612705B
- Authority
- CN
- China
- Prior art keywords
- image
- background image
- pixel
- pixels
- brightness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 17
- 230000008030 elimination Effects 0.000 claims description 8
- 238000003379 elimination reaction Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Facsimile Image Signal Circuits (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种增强OCR性能的背景图像消除方法,包括以下步骤:步骤一:将图片中像素和背景图像像素间的差异分解为亮度和色度;步骤二:对所输入的图像计算像素亮度失真;步骤三:对所输入的图像计算像素色度失真;步骤四:基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强;步骤五:将增强后的RGB三通道图像合并成灰度图像;该方法基于背景图像像素中R、G、B颜色值的差值,利用亮度失真和色度失真来增强RGB三通道图像的对比度,本发明有效提升了OCR识别字符的性能和抗干扰能力。
Description
技术领域
本发明涉及一种图像识别方法,具体的说是一种背景图像消除方法,属于互联网应用技术领域。
背景技术
OCR技术在文档处理中有着广泛的应用。许多文档图像都嵌入了背景图像,例如支票、存折、驾驶执照、护照、证书等。虽然背景图像增强了文档的安全性或视觉效果,但它给OCR应用带来了困难。背景图像的某些部分可能会被识别为字符,这直接导致了错误的结果,并在OCR的后续处理步骤中造成麻烦。因此,在文本检测之前去除背景图像,对文档图像进行预处理是非常重要的。
OCR分析中背景图像的减法通常不可直接使用,在本发明中,将亮度失真和色度失真的概念应用于OCR背景图像的处理中,提出了一种新颖和经济的方法来消除背景图像/水印,以提高OCR的性能。
发明内容
本发明的目的是提供一种增强OCR性能的背景图像消除方法,能够在识别图片含有背景图像时提高图片预处理后的清晰度,提升OCR识别字符的性能和抗干扰能力。
本发明的目的是这样实现的:一种增强OCR性能的背景图像消除方法,包括以下步骤:
步骤一:将图片中像素和背景图像像素间的差异分解为亮度和色度;
步骤二:对所输入的图像计算像素亮度失真;
步骤三:对所输入的图像计算像素色度失真;
步骤四:基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强;
步骤五:将增强后的RGB三通道图像合并成灰度图像。
作为本发明的进一步限定,步骤一中所述分解像素和背景图像像素方法基于以下两种观察结果:
(1)与纯文本字符相比,背景图像的纹理和图案分布更丰富;
(2)彩色背景图像中每个像素的RGB值差异较大,对于文本字符RGB值的差异并不显著。
作为本发明的进一步限定,步骤一中所述分解像素和背景图像像素方法具体包括:
将图片像素和背景图像像素分解为亮度αi和色度βi,利用αi和βi的统计差异来作为参数估计,用以增强文档图像。
作为本发明的进一步限定,步骤二中所述亮度失真αi由最小化下述函数而得到:
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表像素相对期望值的亮度增强,为最小化函数值,设定当前图像和参考图像亮度相同时αi为1,同样的,αi<1代表比期望亮度要暗,αi>1代表比期望亮度要亮。
作为本发明的进一步限定,步骤三中所述色度失真βi定义为观察到的颜色与期望色度线之间的正交距离,可以由如下公式表示:
βi=‖pi-αiei‖
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表步骤二中确定的亮度失真值。
作为本发明的进一步限定,步骤四中所述图像增强方法在不改变前景文本的情况下去除颜色背景,并确保每个像素有R、G和B三个值;如果原始图像没有在RGB的颜色空间中表示,则需要转换为RGB。
作为本发明的进一步限定,步骤四中所述图像增强方法使用非线性变换来增强每个通道图像的对比度,在保持灰度像素的同时扩大彩色像素的色差,可以由如下公式表示:
qi=max{0,min[255,(pi-128)*βi+αi]}
其中pi为原始像素值,qi为调整后像素值,亮度αi用来调整图像的亮度。
作为本发明的进一步限定,步骤五中所述图像通道合并方法用于将三个通道的图像合并成一个灰度图像,如下公式所示:
S=|r-g|+|r-b|+|g-b|
其中,r,g,b分别为通道图像增强后的红、绿、蓝值,S是三者间差值的和;在此基础上,根据不同文档的特性设定一个阈值T;如果S>T,则:
fi=min[255,(r+g+b)]
否则,若S≤T:
fi=min[255,(r+g+b)/3]
其中fi为合并后的像素值。
作为本发明的进一步限定,步骤五中所述图像通道合并方法得到合并像素值之后,如果像素仍属于彩色背景图像,则再次放大像素值,最终得到灰度图像;其中,背景图像像素值接近255,文本图像像素值接近0。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明将图片像素和背景图像像素分解为亮度αi和色度βi,利用αi和βi的统计差异来作为参数估计,基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强,将增强后的RGB三通道图像合并成灰度图像,以实现对背景图像的消除,提升了OCR的性能。
附图说明
图1为本发明实施例提供的方法步骤示意图。
图2为本发明实施例提供的亮度和色度分解示意图。
图3为采用本发明方法对待OCR识别的图像处理的对比图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
首先如图1所示:一种增强OCR性能的背景图像消除方法,该方法包括以下步骤:
步骤一:将图片中像素和背景图像像素间的差异分解为亮度和色度;
步骤二:对所输入的图像计算像素亮度失真;
步骤三:对所输入的图像计算像素色度失真;
步骤四:基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强;
步骤五:将增强后的RGB三通道图像合并成灰度图像。
步骤一中所述分解像素和背景图像像素方法基于以下两种观察结果:
(1)与纯文本字符相比,背景图像的纹理和图案分布更丰富;
(2)彩色背景图像中每个像素的RGB值差异较大,对于文本字符RGB值的差异并不显著。
如图2所示,步骤一中所述分解像素和背景图像像素方法在于将图片像素和背景图像像素分解为亮度αi和色度βi,利用αi和βi的统计差异来作为参数估计,用以增强文档图像,使其更容易去除背景。
步骤二中所述亮度失真αi由最小化下述函数而得到:
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表像素相对期望值的亮度增强。为最小化函数值,设定当前图像和参考图像亮度相同时αi为1,同样的,αi<1代表比期望亮度要暗,αi>1代表比期望亮度要亮。
步骤三中所述色度失真βi定义为观察到的颜色与期望色度线之间的正交距离,可以由如下公式表示:
βi=‖pi-αiei‖
其中pi代表当前图像像素,ei代表背景图像像素,αi代表步骤二中确定的亮度失真值。
步骤四中所述图像增强方法在不改变前景文本的情况下去除颜色背景,首先要确保每个像素有R、G和B三个值。如果原始图像没有在RGB的颜色空间中表示,那么我们应该先进行转换。因为,RGB虽然是常用的,但还有如HSI、HSV、CMY和YUV等颜色空间,根据实验发现,在RGB空间中,颜色背景图像像素与文本像素的区分比其他空间更容易。
步骤四中所述图像增强方法使用非线性变换来增强每个通道图像的对比度,从而在保持灰度像素的同时扩大彩色像素的色差,经过增强处理后,彩色背景中的像素更加突出,可以有效地与文本像素区分开来。可以由如下公式表示:
qi=max{0,min[255,(pi-128)*βi+αi]}
其中pi为原始像素值,qi为调整后像素值,亮度αi用来调整图像的亮度,适当的亮度有助于区分前景和背景。
步骤五中所述图像通道合并方法用于将三个通道的图像合并成一个灰度图像,如下公式所示:
S=|r-g|+|r-b|+|g-b|
其中r,g,b分别为通道图像增强后的红、绿、蓝值,S是三者间差值的和。在此基础上,根据不同文档的特性设定一个阈值T。如果S>T,则:
fi=min[255,(r+g+b)]
否则,若S≤T:
fi=min[255,(r+g+b)/3]
其中fi为合并后的像素值。
步骤五中所述图像通道合并方法得到合并像素值之后,如果像素仍属于彩色背景图像,则再次放大像素值,最终得到灰度图像。其中,背景图像像素值接近255,文本图像像素值接近0。
本发明方法采用Tesseract引擎进行测试,并与ABBYY Finereader和汉王两种商用OCR软件进行了比较;在文本区域中,Tesseract的性能优于ABBYY Finereader和汉王,去除背景图像后,识别精度明显提高。尤其对一些背景复杂的图像(分辨率低或背景丰富)的改进是显著的。如图3所示,为采用本发明方法处理一幅图像的示例图,由图可以清晰看出效果较佳。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种增强OCR性能的背景图像消除方法,其特征在于:包括以下步骤:
步骤一:将图片中像素和背景图像像素间的差异分解为亮度和色度;
步骤二:对所输入的图像计算像素亮度失真,所述亮度失真αi由最小化下述函数而得到:
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表像素相对期望值的亮度增强;为最小化函数值,设定当前图像和参考图像亮度相同时αi为1,同样的,αi<1代表比期望亮度要暗,αi>1代表比期望亮度要亮;
步骤三:对所输入的图像计算像素色度失真,所述色度失真βi定义为观察到的颜色与期望色度线之间的正交距离,可以由如下公式表示:
βi=||pi-αiei||
其中,pi代表当前图像像素,ei代表背景图像像素,αi代表步骤二中确定的亮度失真值;
步骤四:基于像素的亮度失真和色度失真分别对RGB三通道图像进行增强;
步骤五:将增强后的RGB三通道图像合并成灰度图像。
2.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤一中所述分解像素和背景图像像素方法基于以下两种观察结果:
(1)与纯文本字符相比,背景图像的纹理和图案分布更丰富;
(2)彩色背景图像中每个像素的RGB值差异较大,对于文本字符RGB值的差异并不显著。
3.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤一中所述分解像素和背景图像像素方法具体包括:
将图片像素和背景图像像素分解为亮度αi和色度βi,利用αi和βi的统计差异来作为参数估计,用以增强文档图像。
4.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤四中所述图像增强方法在不改变前景文本的情况下去除颜色背景,并确保每个像素有R、G和B三个值;如果原始图像没有在RGB的颜色空间中表示,则需要转换为RGB。
5.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤四中所述图像增强方法使用非线性变换来增强每个通道图像的对比度,在保持灰度像素的同时扩大彩色像素的色差,可以由如下公式表示:
qi=max{0,min[255,(pi-128)*βi+αi]}
其中pi为原始像素值,qi为调整后像素值,亮度αi用来调整图像的亮度。
6.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤五中所述图像通道合并方法用于将三个通道的图像合并成一个灰度图像,如下公式所示:
S=|r-g|+|r-b|+|g-b|
其中,r,g,b分别为通道图像增强后的红、绿、蓝值,S是三者间差值的和,在此基础上,根据不同文档的特性设定一个阈值T;如果S>T,则:
fi=min[255,(r+g+b)]
否则,若S≤T:
fi=min[255,(r+g+b)/3]
其中fi为合并后的像素值。
7.根据权利要求1所述的一种增强OCR性能的背景图像消除方法,其特征在于:步骤五中所述图像通道合并方法得到合并像素值之后,如果像素仍属于彩色背景图像,则再次放大像素值,最终得到灰度图像;其中,背景图像像素值接近255,文本图像像素值接近0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010331452.3A CN111612705B (zh) | 2020-04-24 | 2020-04-24 | 一种增强ocr性能的背景图像消除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010331452.3A CN111612705B (zh) | 2020-04-24 | 2020-04-24 | 一种增强ocr性能的背景图像消除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111612705A CN111612705A (zh) | 2020-09-01 |
CN111612705B true CN111612705B (zh) | 2022-08-23 |
Family
ID=72199710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010331452.3A Active CN111612705B (zh) | 2020-04-24 | 2020-04-24 | 一种增强ocr性能的背景图像消除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111612705B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078561B (zh) * | 2023-10-13 | 2024-01-19 | 深圳市东视电子有限公司 | 基于rgb的自适应颜色校正与对比度增强方法及装置 |
CN117422757B (zh) * | 2023-10-31 | 2024-05-03 | 安徽唯嵩光电科技有限公司 | 一种果蔬大小分选方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631834A (zh) * | 2015-12-16 | 2016-06-01 | 安徽创世科技有限公司 | 一种夜视图像增强方法 |
CN107481206A (zh) * | 2017-08-28 | 2017-12-15 | 湖南友哲科技有限公司 | 显微镜图像背景均衡处理算法 |
-
2020
- 2020-04-24 CN CN202010331452.3A patent/CN111612705B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631834A (zh) * | 2015-12-16 | 2016-06-01 | 安徽创世科技有限公司 | 一种夜视图像增强方法 |
CN107481206A (zh) * | 2017-08-28 | 2017-12-15 | 湖南友哲科技有限公司 | 显微镜图像背景均衡处理算法 |
Also Published As
Publication number | Publication date |
---|---|
CN111612705A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2545499B1 (en) | Text enhancement of a textual image undergoing optical character recognition | |
Shi et al. | Historical document image enhancement using background light intensity normalization | |
Gasparini et al. | Color balancing of digital photos using simple image statistics | |
US9143657B2 (en) | Color enhancement technique using skin color detection | |
US6519362B1 (en) | Method of extracting text present in a color image | |
Nithyananda et al. | Review on histogram equalization based image enhancement techniques | |
US7528991B2 (en) | Method of generating a mask image of membership of single pixels to certain chromaticity classes and of adaptive improvement of a color image | |
Lee et al. | Color image enhancement using histogram equalization method without changing hue and saturation | |
CN111612705B (zh) | 一种增强ocr性能的背景图像消除方法 | |
CN110298812B (zh) | 一种图像融合处理的方法及装置 | |
CN101930596A (zh) | 一种复杂光照下的两步法颜色恒常性方法 | |
CN107256539B (zh) | 一种基于局部对比度的图像锐化方法 | |
US8121401B2 (en) | Method for reducing enhancement of artifacts and noise in image color enhancement | |
CN110580690B (zh) | 一种识别峰值变换非线性曲线的图像增强方法 | |
Mancas-Thillou et al. | Color text extraction from camera-based images: the impact of the choice of the clustering distance | |
Ganesan et al. | HSV Model based skin color segmentation using uncomplicated threshold and logical AND operation | |
US8509529B2 (en) | Color-image representative color decision apparatus and method of controlling operation thereof | |
Wang et al. | Crop disease leaf image segmentation method based on color features | |
WO2010128683A1 (en) | Blue sky color detection technique | |
KR102158633B1 (ko) | 인감 사용 서류의 인감 이미지 추출 방법 | |
CN111611940A (zh) | 一种基于大数据处理的快速视频人脸识别方法 | |
WO2012153661A1 (ja) | 画像補正装置、画像補正表示装置、画像補正方法、プログラム、及び、記録媒体 | |
CN113781330B (zh) | 图像处理方法、装置及电子系统 | |
CN104112254A (zh) | 处理rgb彩色图像的方法和系统 | |
Koohestani et al. | Revealing Shadows: Low-Light Image Enhancement Using Self-Calibrated Illumination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |