CN106203434B - 基于笔画结构对称性的文档图像二值化方法 - Google Patents

基于笔画结构对称性的文档图像二值化方法 Download PDF

Info

Publication number
CN106203434B
CN106203434B CN201610534712.0A CN201610534712A CN106203434B CN 106203434 B CN106203434 B CN 106203434B CN 201610534712 A CN201610534712 A CN 201610534712A CN 106203434 B CN106203434 B CN 106203434B
Authority
CN
China
Prior art keywords
image
gradient
file
picture
indicates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610534712.0A
Other languages
English (en)
Other versions
CN106203434A (zh
Inventor
肖柏华
何坤
史存召
贾馥溪
王春恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201610534712.0A priority Critical patent/CN106203434B/zh
Publication of CN106203434A publication Critical patent/CN106203434A/zh
Application granted granted Critical
Publication of CN106203434B publication Critical patent/CN106203434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于笔画结构对称性的文档图像二值化方法。其中,所述方法包括:确定文档图像的梯度图像,其中,所述文档图像为灰度图像;利用最大类间方差法,对所述梯度图像进行全局二值化处理;根据文字笔画的宽度和局部区域内梯度方向对称性,去除全局二值化处理后图像中的非笔画梯度噪声,确定局部梯度方向对称的梯度图像;基于所述局部梯度方向对称的梯度图像,确定结构对称元素图像;根据所述结构对称元素图像中前景元素的局部密度,滤除噪声,并结合所述文档图像进行基于投票策略的局部二值化。通过本发明实施例解决了如何增强对文档图像文字提取的适应性的技术问题。

Description

基于笔画结构对称性的文档图像二值化方法
技术领域
本发明实施例涉及模式识别与光学字符识别技术领域,具体涉及一种基于笔画结构对称性的文档图像二值化方法,但绝不限于此。
背景技术
近年来,随着网络技术的迅猛发展,人类已经进入了信息化时代,传统的信息获取方法,如书籍、报纸以及期刊等由于携带的不方便性,同时存放需要大量的空间,不便于编辑整理和传播。人们越来越倾向于使用磁盘等电子设备来存储。因此,将纸质材料文字信息快速输入计算机有很重要的意义。OCR(Optical Character Recognition,光学字符识别)技术由此产生。OCR技术能够实现文字信息的高速、自动的输入,节约了大量的人力资源,目前已经得到广泛的应用。
OCR技术的成功依赖于对文本图像的预处理工作,能够对图像进行良好的二值化处理,就能够大大提高OCR识别的准确率,所以二值化工作有很大的研究价值。在实际的应用中,文本图像的质量可能千差万别,可能有打印不清或者噪声等烦扰。
有鉴于此,特提出本发明。
发明内容
本发明实施例的主要目的在于提供一种基于笔画结构对称性的文档图像二值化方法,其至少部分地解决了如何增强对文档图像文字提取的适应性的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
一种基于笔画结构对称性的文档图像二值化方法,所述方法至少包括:
确定文档图像的梯度图像,其中,所述文档图像为灰度图像;
利用最大类间方差法,对所述梯度图像进行全局二值化处理;
根据文字笔画的宽度和局部区域内梯度方向对称性,去除全局二值化处理后图像中的非笔画梯度噪声,确定局部梯度方向对称的梯度图像;
基于所述局部梯度方向对称的梯度图像,提取结构对称元素,确定结构对称元素图像;
根据所述结构对称元素图像中前景元素的局部密度,滤除噪声,并结合所述文档图像进行基于投票策略的局部二值化。
与现有技术相比,上述技术方案至少具有以下有益效果:
本发明实施例提供一种基于笔画结构对称性的文档图像二值化方法,通过计算文档图像的梯度图像,然后利用最大类间方差法,对梯度图像进行全局二值化处理;接着,根据文字笔画的宽度和局部区域内梯度方向对称性,去除全局二值化处理后图像中的非笔画梯度噪声,确定局部梯度方向对称的梯度图像;再基于局部梯度方向对称的梯度图像,确定结构对称元素图像;最后,根据结构对称元素图像中前景元素的局部密度,滤除噪声,并结合文档图像进行基于投票策略的局部二值化。本发明实施例解决了如何增强对文档图像文字提取的适应性的技术问题。本发明实施例二值化目的明确,局部适应性强,对文本文档二值化优良;同时,本发明实施例还具有克服非文字噪声干扰的优点。
当然,实施本发明的任一产品不一定需要同时实现以上所述的所有优点。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为根据一示例性实施例示出的基于笔画结构对称性的文档图像二值化方法的流程示意图;
图2为根据另一示例性实施例示出的梯度图像的示意图;
图3为根据一示例性实施例示出的全局二值化处理后的示意图;
图4为根据一示例性实施例示出的局部区域梯度方向对称性和不对称性的示意图;
图5为根据一示例性实施例示出的滤除非文字笔画的梯度的示意图;
图6为根据一示例性实施例示出的结构对称元素图像的示意图;
图7为根据一示例性实施例示出的二值化图像的示意图;
图8为根据一示例性实施例示出的彩色图像的示意图;
图9为根据一示例性实施例示出的对图8所示图像进行灰度化处理后得到的灰度化图像的示意图。
这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。
还需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。
在实际的应用中,文本图像的质量可能千差万别,可能有打印不清或者噪声等烦扰。为此,本发明实施例提出一种基于笔画结构对称性的文档图像二值化方法。如图1所示,该方法可以包括:步骤S100至步骤S140。
S100:确定文档图像的梯度图像,其中,文档图像为灰度图像。
具体地,本步骤可以通过步骤S101和步骤S102来实现。
S101:分别使用水平梯度算子和竖直梯度算子卷积文档图像,确定文档图像的水平和竖直方向的梯度。
示例性地,假设I表示灰度图像;Gx表示水平方向的梯度;Gy表示竖直方向的梯度;水平梯度算子(也即卷积模板)可以为竖直梯度算子(也即卷积模板)可以为
根据以下公式可以得到水平和竖直方向的梯度:
Gx=sx*I
Gy=sy*I
其中,sx和sy表示卷积模板,卷积运算可以按照以下方式:
H=s*I
其中,(m,n)表示卷积模板位置;s表示卷积模板;I表示灰度图像;H表示卷积结果。
在实际应用中,例如:当元素位置(i+2-m,j+2-n)超出图像I边界,则在该位置图像I对应的元素统一当作零值计算。
S102:根据水平和竖直方向的梯度,利用以下公式,确定梯度图像:
其中,Gx(i,j)表示水平方向的梯度;Gy(i,j)表示竖直方向的梯度;G表示总的梯度;IG(i,j)表示梯度图像的元素;θ(i,j)表示梯度方向。
图2示例性地示出了一梯度图像。
S110:利用最大类间方差法,对梯度图像进行全局二值化处理。
根据文字特性,在文档图像中,因为文字笔画的边缘梯度相对其他位置较大,相对较低的梯度被判定为非文字区域产生的梯度,较高梯度的元素被判定为文字区域产生的梯度。故,需要过滤梯度图像中幅值较小的元素。
具体地,本步骤可以通过步骤S111至步骤S115来实现。
S111:对梯度图像的灰度等级进行归一化处理,以确定梯度图像中的元素最大值和元素最小值。
在实际应用中,可以将梯度图像的灰度等级归一化至0-255的整数。
S112:基于梯度图像中的元素最大值和元素最小值,根据以下公式对梯度图像中每一元素进行归一化处理:
其中,ROUND(x)表示对x四舍五入;max表示梯度图像中的元素最大值;min表示梯度图像中的元素最小值;IG(i,j)表示梯度图像中(i,j)位置的元素。
S113:基于归一化后的图像,根据以下公式确定不同灰度等级的元素在该图像中所占的比例:
其中,m表示灰度等级,其可以取值:1,2,3,…255;Pm表示归一化后的图像中灰度等级为m的元素在该图像中所占的比例;N表示整幅图像元素个数。
S114:基于归一化后的图像中不同灰度等级的元素在该图像中所占的比例,根据以下公式确定最大类间方差法所选择的阈值:
其中,π1(v)=∑m≤vPm;μ1(v)=∑m≤vmPm;π2(v)=∑m>vPm;μ2(v)=∑m>vmPmv=0,1,2,…,255;m表示灰度等级。
S115:根据以下公式对归一化的图像进行处理:
其中,IG(i,j)表示梯度图像中元素;θ(i,j)表示(i,j)位置元素的梯度方向;thotsu表示通过最大类间方差法(otsu)所选择的阈值;i表示梯度图像中元素的横坐标;j表示梯度图像中元素的纵坐标。
图3示例性地示出了全局二值化处理后的示意图。
本发明实施例通过采用最大类间方差法(otsu)算法,可以高效地分离文字区域梯度与非文字区域的梯度,而且效果优良。
S120:根据文字笔画的宽度和局部区域内梯度方向对称性,去除全局二值化处理后图像中的非笔画梯度噪声,确定局部梯度方向对称的梯度图像。
具体地。本步骤可以通过步骤S121至步骤S123来实现。
S121:确定全局二值化处理后图像中每一前景元素的邻域。
在本步骤中,每个前景元素(其IG(i,j)>0)的邻域nei(i,j)可以设置为以当前像素为中心的矩形,矩形的长宽设置为笔画宽度Wstroke的一定倍数,例如矩形的长宽设置为笔画宽度Wstroke的3倍。优选地,以300DPI的图像为例,Wstroke=5。邻域中超出图像边界部分的默认值为0(本文后续的邻域设置均和此处一致,不再赘述)。
S122:遍历邻域中的元素,统计邻域内各元素的局部区域梯度方向对称性。
S123:在局部区域梯度方向不满足对称性的情况下,将该元素判定为非笔画梯度噪声,并进行滤除,确定局部梯度方向对称的梯度图像。
如图4所示,其中只有文字笔画区域的梯度方向是对称的,如图中的左侧矩形框,而图像右侧的矩形框为非文字噪声的梯度方向,可以看出共同朝向左上侧,明显不对称,从而可以判定为非文字区域。
具体地,步骤S123具体可以通过步骤S1231和步骤S1232来实现。
S1231:遍历邻域中的前景元素,统计梯度方向分别属于四个象限的前景元素的个数。
S1232:若某一梯度方向上前景元素的统计个数超过设定阈值,则将该前景元素设置为背景,以确定局部梯度方向对称的梯度图像。
在实际应用中,还可以根据以下公式来对非笔画梯度噪声进行滤除,以确定局部梯度方向对称的梯度图像:
range(k)=[90°*(k-1),90°*(k-1)+135°)
其中,thresh表示根据邻域大小所设置的阈值,优选地,thresh取0.75;PN(i,j)表示梯度图像元素IG(i,j)的邻域中元素梯度方向属于统计个数最多的那个象限的元素的数目占邻域内前景元素总数的比例;(ni,nj)表示邻域nei(i,j)中各元素的位置;θ(ni,nj)表示(ni,nj)位置的梯度方向;gn表示邻域中前景元素总数;k∈{1,2,3,4};range(k)表示第k象限,nei(i,j)表示(i,j)位置的邻域。
本发明实施例在经过局部区域梯度方向对称性分析处理之后,可以了滤除掉非文字笔画的梯度,如图5所示。
S130:基于局部梯度方向对称的梯度图像,提取结构对称元素,确定结构对称元素图像。
在实际应用中,可以按照以下方式进行实施:复制文档图像I,得到文档图像I的第一复制图像Iss。将局部梯度方向对称的梯度图像中前景元素对应的第一复制图像Iss元素Iss(i,j)置为文档图像I对应的元素I(i,j)(也就是将梯度图像中前景对应的灰度图像元素保留);将局部梯度方向对称的梯度图像背景对应的第一复制图像Iss的元素置为背景(也即将背景对应的灰度图像元素置为背景,其数值置为0)。经过上述处理,得到的第一复制图像(其也为灰度图像)就是后续二值化处理需要的结构对称元素图像,结构对称元素图像中的前景元素点即为结构对称元素。如图6所示,图中白色表示非结构对称元素,灰色表示结构对称元素。
具体地,本步骤可以用公式表示如下:
其中,Iss(i,j)表示结构对称元素图像的元素;I(i,j)表示文档图像中(i,j)位置的元素。
S140:根据结构对称元素图像中前景元素的局部密度,滤除噪声,并结合文档图像进行基于投票策略的局部二值化。
具体地,本步骤可以通过步骤S141至步骤S144来实现。
S141:遍历结构对称元素图像中的每一元素,并在每一元素的邻域内统计结构对称元素的数量。
S142:根据以下公式滤除噪声:
其中,Nss(i,j)表示结构对称元素数量;thn表示设定阈值;Iss(i,j)表示结构对称元素图像中的元素;(ni,nj)为元素Iss(i,j)的邻域中各元素的位置;nei(i,j)表示邻域;IG(ni,nj)表示梯度图像中(ni,nj)位置的元素。
在本步骤中,若结构对称元素的数量小于设定阈值,则判定当前元素为噪声,当作非文字区域处理。其中,设定阈值与笔画宽度有关,优选地,thn=3*Wstroke。其中,Wstroke表示笔画宽度。
S143:如果Iss(i,j)>0,则将该邻域内结构对称元素的均值确定为该邻域的二值化阈值。
具体地,如果Iss(i,j)>0,可以根据以下公式统计该元素Iss(i,j)邻域内结构对称元素的均值mean(i,j),并将其作为此邻域的二值化阈值:
其中,Iss(ni,nj)表示结构对称元素图像中(ni,nj)位置的元素;N表示邻域的大小;mean(i,j)表示结构对0称元素的均值。
S144:根据该邻域的二值化阈值,进行基于投票策略的局部二值化。
在投票过程中,遍历文档图像(也即灰度图像)中对应Iss(i,j)>0元素的邻域,遍历完这个邻域后进行投票,投完票之后,再遍历下一个满足Iss(i,j)>0元素的邻域,再遍历此邻域内的所有元素并进行投票。
具体地,本步骤S144可以通过步骤S1441至步骤S1443来实现。
S1441:创建文档图像的第二复制图像与第三复制图像。
S1442:根据上述邻域的二值化阈值,分别统计文档图像中每个元素被判定为前景和背景的投票个数,得到前景统计图和背景统计图。
具体地,本步骤可以通过步骤S14421至步骤S14424来实现。
S14421:将第二复制图像与第三复制图像中的所有元素置为0。
S14422:遍历文档图像中每个对应Iss(i,j)>0的元素的邻域并遍历该邻域内的每一元素,若元素值大于该邻域的二值化阈值,则执行步骤S14423;否则,执行步骤S14424。
S14423:将第二复制图像中与该元素位置对应的位置的前景统计数进行累加,得到前景统计图。
S14424:将第三复制图像中与该元素位置对应的位置的背景统计数进行累加,得到背景统计图。
假设:Fmap表示原始文档图像的第二复制图像;Bmap表示原始文档图像的第三复制图像;Fmap(ni,nj)表示前景统计数;Fmap(ni,nj)(ni,nj)∈nei(i,j)表示Fmap中邻域nei(i,j)内(ni,nj)位置的前景统计数;Bmap(ni,nj)表示背景统计数;Bmap(ni,nj)(ni,nj)∈nei(i,j)表示Bmap中邻域nei(i,j)内(ni,nj)位置的背景统计数;I(ni,nj)表示原始文档图像中邻域nei(i,j)中元素;mean(i,j)表示二值化阈值。
先分别将Fmap与Bmap所有元素置为0;然后,根据以下公式计算Fmap中相应位置前景统计数及Bmap中相应位置背景统计数:
Fmap(ni,nj)(ni,nj)∈nei(i,j)=Fmap(ni,nj)+1,如果I(ni,nj)>mean(i,j)+f
Bmap(ni,nj)(ni,nj)∈nei(i,j)=Bmap(ni,nj)+1,如果I(ni,nj)≤mean(i,j)+f
其中,f表示阈值中所加入的偏置项,优选地,f=3。
在上述步骤中,分别遍历文档图像中每个对应Iss(i,j)>0的元素I(i,j)的邻域nei(i,j),遍历每个邻域nei(i,j)内的每个元素I(ni,nj),若I(ni,nj)大于均值mean(i,j),则Fmap相应位置前景统计数Fmap(ni,nj)加1;否则,Bmap相应位置背景统计数Bmap(ni,nj)加1。
本领域技术人员应清楚,上述假设仅为举例,不应视为对本发明保护范围的不当限定。
S1443:根据前景统计图和背景统计图中相对应位置上元素的元素值之间的大小,来确定文档图像中与前景统计图和背景统计图中对应位置上的元素是前景元素还是背景元素。
在实际应用中,可以按照以下方式进行实施:比较前景统计图Fmap和背景统计图Bmap中相对应位置上元素的元素值。如果Fmap(i,j)>Bmap(i,j),则将文档图像中(i,j)位置上的元素判定为前景元素(其在具体操作过程中可以用1表示);否则,将其判定为背景元素(其在具体操作过程中可以用0表示),从而,得到文档图像的二值化图像:
其中,Bin表示二值化图像;Bin(i,j)表示二值化图像中的元素。
图7示例性地示出了一经过上述处理最终得到的二值化图像结果示意图。
如果文档图像(也即原始图像)为彩色图像(如图8所示),则需要对文档图像进行灰度化处理。
在一个优选的实施例中,上述实施例还可以包括以下步骤:
根据以下灰度化规则,对文档图像(也即原始图像)进行灰度化处理,以得到灰度图像:
I(i,j)=0.30R(i,j)+0.59G(i,j)+0.11B(i,j)
其中,(i,j)表示原始图像中元素所在的位置;I表示灰度图像;R、G和B分别表示原始图像的红色通道、绿色通道和蓝色通道。
图9示例性地示出了对图8所示图像进行灰度化处理后得到的灰度化图像。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。
需要说明的是,本文中涉及到的流程图不仅仅局限于本文所示的形式,其还可以进行其他划分和/或组合。
还需要说明的是:附图中的标记和文字只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。
再需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的保护范围。

Claims (8)

1.一种基于笔画结构对称性的文档图像二值化方法,其特征在于,所述方法至少包括:
确定文档图像的梯度图像,其中,所述文档图像为灰度图像;
利用最大类间方差法,对所述梯度图像进行全局二值化处理;
根据文字笔画的宽度和局部区域内梯度方向对称性,去除全局二值化处理后图像中的非笔画梯度噪声,确定局部梯度方向对称的梯度图像;
基于所述局部梯度方向对称的梯度图像,提取结构对称元素,确定结构对称元素图像;
根据所述结构对称元素图像中前景元素的局部密度,滤除噪声,并结合所述文档图像进行基于投票策略的局部二值化,具体包括:
遍历所述结构对称元素图像中的每一元素,并在所述每一元素的邻域内统计结构对称元素的数量;
根据以下公式滤除噪声:
其中,所述Nss(i,j)表示所述结构对称元素数量;所述thn表示设定阈值;所述Iss(i,j)表示所述结构对称元素图像中的元素;所述(ni,nj)表示所述元素Iss(i,j)的邻域中各元素的位置;所述nei(i,j)表示所述邻域;所述IG(ni,nj)表示所述梯度图像中所述(ni,nj)位置的元素;
在所述Iss(i,j)大于零的情况下,将所述邻域内结构对称元素的均值确定为所述邻域的二值化阈值;
根据所述邻域的二值化阈值,进行所述基于投票策略的局部二值化。
2.根据权利要求1所述的方法,其特征在于,所述确定文档图像的梯度图像包括:
分别使用水平梯度算子和竖直梯度算子卷积所述文档图像,以确定所述文档图像的水平和竖直方向的梯度;
根据所述水平和竖直方向的梯度,利用以下公式,确定所述梯度图像:
其中,所述Gx(i,j)表示水平方向的梯度;所述Gy(i,j)表示竖直方向的梯度;所述G表示总的梯度;所述IG(i,j)表示所述梯度图像的元素;所述θ(i,j)表示梯度方向。
3.根据权利要求1所述的方法,其特征在于,所述利用最大类间方差法,对所述梯度图像进行全局二值化处理,具体包括:
对所述梯度图像的灰度等级进行归一化处理,以确定所述梯度图像中的元素最大值和元素最小值;
基于梯度图像中的元素最大值和元素最小值,根据以下公式对梯度图像中每一元素进行归一化处理:
其中,所述ROUND(x)表示对x四舍五入;所述max表示所述梯度图像中的元素最大值;所述min表示所述梯度图像中的元素最小值;所述IG(i,j)表示所述梯度图像中(i,j)位置的元素;
基于归一化后的图像,根据以下公式确定不同灰度等级的元素在该图像中所占的比例:
其中,所述m表示灰度等级;所述Pm表示所述归一化后的图像中灰度等级为m的元素在该图像中所占的比例;所述N表示所述归一化后的图像中元素个数;
基于所述归一化后的图像中不同灰度等级的元素在该图像中所占的比例,根据以下公式确定最大类间方差法所选择的阈值:
其中,所述π1(v)=∑m≤vPm;所述μ1(v)=∑m≤vmPm;所述π2(v)=∑m>vPm;所述μ2(v)=∑m> vmPm;所述所述v=0,1,2,…,255;
根据以下公式对归一化的图像进行处理:
其中,所述θ(i,j)表示(i,j)位置元素的梯度方向。
4.根据权利要求1所述的方法,其特征在于,所述根据文字笔画的宽度和局部区域内梯度方向对称性,去除全局二值化处理后图像中的非笔画梯度噪声,确定局部梯度方向对称的梯度图像,具体包括:
确定所述全局二值化处理后图像中每一前景元素的邻域;
遍历所述邻域中的元素,统计所述邻域内各元素的所述局部区域梯度方向对称性;
在所述局部区域梯度方向不满足对称性的情况下,将所述元素判定为非笔画梯度噪声,并进行滤除,确定所述局部梯度方向对称的梯度图像。
5.根据权利要求4所述的方法,其特征在于,所述在所述局部区域梯度方向不满足对称性的情况下,将所述元素判定为非笔画梯度噪声,并进行滤除,确定所述局部梯度方向对称的梯度图像,具体包括:
遍历所述邻域中的所述前景元素,统计所述梯度方向分别属于四个象限的所述前景元素的个数;
若某一梯度方向上所述前景元素的统计个数超过设定阈值,则将该前景元素设置为背景,从而确定所述局部梯度方向对称的梯度图像。
6.根据权利要求1所述的方法,其特征在于,所述根据所述邻域的二值化阈值,进行所述基于投票策略的局部二值化,具体包括:
创建所述文档图像的第二复制图像与第三复制图像;
根据所述邻域的二值化阈值,分别统计所述文档图像中每一元素被判定为前景和背景的投票个数,得到前景统计图和背景统计图;
根据所述前景统计图和所述背景统计图中相对应位置上元素的元素值之间的大小,来确定所述文档图像中与所述前景统计图和所述背景统计图中对应位置上的元素是前景元素还是背景元素。
7.根据权利要求6所述的方法,其特征在于,所述根据所述邻域的二值化阈值,分别统计所述文档图像中每一元素被判定为前景和背景的投票个数,得到前景统计图和背景统计图,具体包括:
将所述第二复制图像与所述第三复制图像中的所有元素置为零;
遍历所述文档图像中每一对应Iss(i,j)>0的元素的邻域并遍历所述邻域内的每一元素,若所述元素的值大于该邻域的二值化阈值,则将所述第二复制图像中与该元素位置对应的位置的前景统计数进行累加,得到所述前景统计图;否则,将所述第三复制图像中与该元素位置对应的位置的背景统计数进行累加,得到所述背景统计图。
8.根据权利要求1所述的方法,其特征在于,在所述确定文档图像的梯度图像之前还包括:
在所述文档图像为彩色图像的情况下,根据以下规则,对所述文档图像进行处理,得到所述灰度图像:
I(i,j)=0.30R(i,j)+0.59G(i,j)+0.11B(i,j)
其中,所述(i,j)表示所述文档图像中元素所在的位置;所述I表示所述灰度图像;所述R、所述G和所述B分别表示文档图像的红色通道、绿色通道和蓝色通道。
CN201610534712.0A 2016-07-08 2016-07-08 基于笔画结构对称性的文档图像二值化方法 Active CN106203434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610534712.0A CN106203434B (zh) 2016-07-08 2016-07-08 基于笔画结构对称性的文档图像二值化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610534712.0A CN106203434B (zh) 2016-07-08 2016-07-08 基于笔画结构对称性的文档图像二值化方法

Publications (2)

Publication Number Publication Date
CN106203434A CN106203434A (zh) 2016-12-07
CN106203434B true CN106203434B (zh) 2019-07-19

Family

ID=57472668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610534712.0A Active CN106203434B (zh) 2016-07-08 2016-07-08 基于笔画结构对称性的文档图像二值化方法

Country Status (1)

Country Link
CN (1) CN106203434B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097059B (zh) * 2019-03-22 2021-04-02 中国科学院自动化研究所 基于生成对抗网络的文档图像二值化方法、系统、装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1987894A (zh) * 2005-12-22 2007-06-27 佳能株式会社 文档的自适应二值化方法、设备和存储介质
CN101593276A (zh) * 2008-05-29 2009-12-02 汉王科技股份有限公司 一种视频ocr图文分离方法及系统
CN101727582A (zh) * 2008-10-22 2010-06-09 富士通株式会社 文档图像二值化方法及其装置,以及文档图像处理器
CN101751565A (zh) * 2008-12-10 2010-06-23 中国科学院自动化研究所 融合二值图像与灰度图像的字符识别的方法
CN105374015A (zh) * 2015-10-27 2016-03-02 湖北工业大学 基于局部对比度和笔画宽度估计的低质量文档图像二值化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1987894A (zh) * 2005-12-22 2007-06-27 佳能株式会社 文档的自适应二值化方法、设备和存储介质
CN101593276A (zh) * 2008-05-29 2009-12-02 汉王科技股份有限公司 一种视频ocr图文分离方法及系统
CN101727582A (zh) * 2008-10-22 2010-06-09 富士通株式会社 文档图像二值化方法及其装置,以及文档图像处理器
CN101751565A (zh) * 2008-12-10 2010-06-23 中国科学院自动化研究所 融合二值图像与灰度图像的字符识别的方法
CN105374015A (zh) * 2015-10-27 2016-03-02 湖北工业大学 基于局部对比度和笔画宽度估计的低质量文档图像二值化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Robust Document Image Binarization Technique for Degraded Document Images;Bolan Su.et;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20130430;第22卷(第4期);第1408-1417页 *

Also Published As

Publication number Publication date
CN106203434A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN108446617B (zh) 抗侧脸干扰的人脸快速检测方法
CN108171104B (zh) 一种文字检测方法及装置
Zamberletti et al. Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions
CN104143079B (zh) 人脸属性识别的方法和系统
CN111046886B (zh) 号码牌自动识别方法、装置、设备及计算机可读存储介质
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN108921166A (zh) 基于深度神经网络的医疗票据类文本检测识别方法及系统
CN106156766A (zh) 文本行分类器的生成方法及装置
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN107832767A (zh) 集装箱箱号识别方法、装置及电子设备
CN105930159A (zh) 一种基于图像的界面代码生成的方法及系统
CN104794479B (zh) 基于局部笔画宽度变换的自然场景图片中文本检测方法
CN108805076A (zh) 环境影响评估报告书表格文字的提取方法及系统
CN104809452A (zh) 一种指纹识别方法
CN108846385B (zh) 基于卷积-反卷积神经网络的图像识别、校正方法和装置
CN109003237A (zh) 全景图像的天空滤镜方法、装置及便携式终端
CN104182722B (zh) 文本检测方法和装置以及文本信息提取方法和系统
CN106503732A (zh) 文本图像与非文本图像的分类方法和分类系统
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN108154132A (zh) 一种身份证文字提取方法、系统及设备和存储介质
CN107704797B (zh) 基于安防视频中行人和车辆的实时检测方法和系统及设备
CN104021419A (zh) 一种统计纸张数目的方法和装置
CN109472294A (zh) 一种城市水体的识别方法、装置、储存介质及设备
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN107507161A (zh) 一种书写整洁度的评价方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant