CN108399623A - 一种基于空白背景以及连通域的版面分析方法 - Google Patents

一种基于空白背景以及连通域的版面分析方法 Download PDF

Info

Publication number
CN108399623A
CN108399623A CN201810199200.2A CN201810199200A CN108399623A CN 108399623 A CN108399623 A CN 108399623A CN 201810199200 A CN201810199200 A CN 201810199200A CN 108399623 A CN108399623 A CN 108399623A
Authority
CN
China
Prior art keywords
point
blank
image
pixel
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810199200.2A
Other languages
English (en)
Inventor
刘隆都
张廷银
孙中
宋凯华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Chaoyue CNC Electronics Co Ltd
Original Assignee
Shandong Chaoyue CNC Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Chaoyue CNC Electronics Co Ltd filed Critical Shandong Chaoyue CNC Electronics Co Ltd
Priority to CN201810199200.2A priority Critical patent/CN108399623A/zh
Publication of CN108399623A publication Critical patent/CN108399623A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20061Hough transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于空白背景以及连通域的版面分析方法,包括:(1)初步划分图像;(2)拓展图像字区域;(3)拓展图像连通域;(4)切分图像区块。本发明基于空白背景以及连通域,本发明版面分析方法综合了空白背景方法以及连通域方法,在基于空白背景的方法中,将图片中前景区域的各个模块分割出来,该方法过程简单,具有较高精度以及普适性。

Description

一种基于空白背景以及连通域的版面分析方法
技术领域
本发明涉及一种基于空白背景以及连通域的版面分析方法,属于计算机技术领域。
背景技术
随着计算机以及计算机网络的飞速发展,信息的传播途径从实体转为电子,将实体书籍报刊、研究文稿转换成电子格式的需求日渐增加,同时对于识别精度的要求也日渐增加。
基于以上需求,ocr技术应运而生。OCR即Optical Character Recognition,光学字符识别,是指用计算机将书写体或印刷体的汉字,通过光学扫描设备,扫描进电脑;再通过一系列图像处理技术,去除彩色分量,纠正图像倾斜,图像分割等动作,识别成能储存在电脑中的计算机文字。
传统ocr系统一般由输入、处理、输出三个部分组成。如图1所示,得益于便携式输入输出设别(诸如手机)的发展,目前局限ocr系统的部分主要是处理这一环节。而在处理这一环节中,版面分析与版面理解两个部分在系统中的作用是极其核心的,在整个系统中,版面分析与版面理解所进行的工作主要就是利用计算机自动的对图像进行区域的划分,识别出区域的属性,以及区域之间的关系。版面分析的主要工作,是对图像空间上进行区域的划分。版面理解的功能主要是对区域之间逻辑上的先后顺序,进行判断。
传统的基于连通域的版面分割方法有以下两种,第一,基于组成元素的版面分割算法,该算法本质上是一种自底向上的版面分割算法。该分割算法从底层出发,将整个图片划分成一个个的字,从图像底层进行分割,然后合并成行、段、列、图片等。最终得到完整的文本块,并且在合并的过程中,可以得到一些属性。该算法的优点是对各种不同的版面都有很强的适应性,缺点是运算量大,并且消耗的时间比较长。第二,基于连通域的版面分割算法,该算法从图像的整体出发,通过对图像像素进行的投影操作,获得一些基本的参数,比如说字间距,连通阈值等,通过连通阈值将图像进行联通操作得到整个文本块,进行分割。该算法优点是对各种不同的版面都有很强的适应性,同时算法的时间复杂度也比较好。缺点是对于一些连通阈值特征不明显的版面,分割的效果较差。
传统的基于连通域的版面分割方法,由于直接对图像进行投影操作,由于字体内部的空白像素对整体的影响,造成误差较大。因此,传统版面分析方法中版面识别不具有普适性,并且精度较低。
发明内容
针对现有技术的不足,本发明提供了一种基于空白背景以及连通域的版面分析方法;
基于空白背景以及连通域,本发明版面分析方法综合了空白背景方法以及连通域方法,在基于空白背景的方法中,将图片中前景区域的各个模块分割出来,该方法过程简单,适用于空白区域较大的版面类型。
术语解释:
1、霍夫变换,Hough Transform,是图像处理中从图像中识别几何形状的基本方法之一,应用很广泛,也有很多改进算法。主要用来从图像中分离出具有某种相同特征的几何形状(如,直线,圆等)。
2、横向、纵向投影,是指将图像的以横轴、纵轴为坐标,统计某个坐标上黑色像素点的数量。
本发明的技术方案为:
一种基于空白背景以及连通域的版面分析方法,包括:
(1)初步划分图像
先利用先验规律对图像进行划分,得到若干图块;
再采用霍夫变换方法检测出每个图块的空白直线,通过检测出的空白直线对每个图块进行划分,减少每个图块的空白区域;
(2)拓展图像字区域
判断通过步骤(1)获取的图像的每个像素点是否为外部点,如果判断该像素点I为外部点,不进行操作;如果判断为内部点,将其8-邻域全部填充为黑色,再次进行外部点检测,直到获取的图像中,所有的内部点其8邻域都已经被填充为黑色;
(3)拓展图像连通域
经过步骤(1)、步骤(2)操作之后,已经初步得到水平紧凑,内部充满的图块,需要进一步切分图像的文字区域。因此进行图像连通操作,即对字填充之后的图块进行模板操作。
A、输入经过步骤(2)处理后的任一图像P,对图像P进行横向投影、纵向投影,分别得到px和py两幅投影图;
B、确定先验阈值a和b,对px中任一行i、py中任一列j,若满足:PixelX(i)<a×p.width||PixelY(j)<b×p.length,则认为i行或j列为空白行或空白列,并将空白行数或空白列数计入Sr或Sc,Sr为某一空白行所占像素行数,Sc为某一空白列所占像素列数;若是新出现的空白行或列,则同时计入Wr或Wc,Wr为图像中空白的行的数量,Wc为图像中空白的列的数量;新出现的行或列指与上一个空白像素行或列之间存在一非空白行或列;PixelX(i)为横向投影,PixelY(j)为纵向投影,p.width为图像的像素宽度,p.length为图像的像素长度;
C、求取Sr和Wr的比值,即平均连通阈值;
D、确认连通阈值之后,即通过高斯模糊拓展操作,对文本进行文本块连通操作;
(4)切分图像区块
对图像进行连通域填充之后,得到的图片中,存在文字的区域,都已经用黑色像素块连通了起来,此时可通过canny算子进行边缘提取,得到区块的边界。
E、将经过步骤(4)处理后的图片中所有像素值为黑色的点归为一个点集,从这个点集中选取任意一个点t,将点t加入一个新的子集s中,同时从原点集中删除点t;
F、搜索点t的8-邻域,从点t的8-邻域中的8个像素点中找到所有像素值为黑色的点加入到子集s中,并从子集s中删除点t,重复操作步骤F,直到子集s不再发生变化,此时子集s为某一区域的曲线边界的点集;
G、重复E操作,得到的每一个新子集都是一个区域的曲线边界的点集,直到某一次操作子集s中不存在任何的像素点,则切分图像区块结束,提取出来构成所有区块的曲线由子集的形式;
H、浏览所有曲线边界子集,找到子集中的点的左上角和右下角,根据这个值,进行区域的切割,左上角和右下角是界定将该区域完全包括的一个最小长方形区域,通过遍历子集中的点的横纵坐标进行比较获得所述区域。
进一步优选的,a=b=10%。
先验阈值a,b决定空白行列的判断依据,且由图像清晰程度进行决定,一般设为百分之十,以取得较好的效果,针对不同的采集设备,可通过实验,取得更好的先验阈值,以取得最佳效果。
进一步优选的,判断通过步骤(1)获取的图像的每个像素点是否为外部点,包括:扫描整幅图像,对于任意一个像素点I,取其8-邻域像素区域,标号为I1、I2、I3、I4、I5、I6、I7、I8,判断该像素点I是否为外部点,即α=(I1&&I2&&I3)||(I3&&I5&&I8)||(I6&&I7&&I8)是否为真,若为真,则判断该像素点I为外部点;若为假,则判断为内部点。
本发明的有益效果为:
1、基于空白背景以及连通域,本发明版面分析方法综合了空白背景方法以及连通域方法,在基于空白背景的方法中,将图片中前景区域的各个模块分割出来,该方法过程简单;
2、本发明采用一种改良过的连通域分割方法,即先将图像进行初步的基于空白背景的分割以减少计算量,再将字体内部的空白区域进行黑色像素填充,以减少字体内部白色像素对划分的影响。这样对确定连通间域阈值的确定,有很大的帮助。
附图说明
图1为现有技术中文字识别的流程框图;
图2为本发明基于空白背景以及连通域的版面分析方法的流程示意图;
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于空白背景以及连通域的版面分析方法,如图2所示,包括:
(1)初步划分图像
先利用先验规律对图像进行划分,得到若干图块;
一般来讲,版面有一些普遍适用的先验规律,比如页脚页眉,右下角的页码数,不同板块之间常用空白区域隔开。
再采用霍夫变换方法检测出每个图块的空白直线,通过检测出的空白直线对每个图块进行划分,减少每个图块的空白区域;
例如:在传统的报刊、杂志中,存在垂直或水平的空白对文字进行分栏,可检测此种易检测的空白区域,根据即为横向投影数占图像宽度小于百分之十,可视为水平空白分割区域;
(2)拓展图像字区域
由于本发明采用的图像划分方法,需要通过投影得到阈值,进而进行模板操作,最终得到图像的文本区块。因此文字内部的空白像素,会对投影确定阈值造成影响。因此,很有必要通过一定的操作,消除字内部的空白像素。
判断通过步骤(1)获取的图像的每个像素点是否为外部点,如果判断该像素点I为外部点,不进行操作;如果判断为内部点,将其8-邻域全部填充为黑色,再次进行外部点检测,直到获取的图像中,所有的内部点其8邻域都已经被填充为黑色;
(3)拓展图像连通域
经过步骤(1)、步骤(2)操作之后,已经初步得到水平紧凑,内部充满的图块,需要进一步切分图像的文字区域。因此进行图像连通操作,即对字填充之后的图块进行模板操作。
A、输入经过步骤(2)处理后的任一图像P,对图像P进行横向投影、纵向投影,分别得到px和py两幅投影图;
B、确定先验阈值a和b,对px中任一行i、py中任一列j,若满足:PixelX(i)<a×p.width||PixelY(j)<b×p.length,则认为i行或j列为空白行或空白列,并将空白行数或空白列数计入Sr或Sc,Sr为某一空白行所占像素行数,Sc为某一空白列所占像素列数;若是新出现的空白行或列,则同时计入Wr或Wc,Wr为图像中空白的行的数量,Wc为图像中空白的列的数量;新出现的行或列指与上一个空白像素行或列之间存在一非空白行或列;PixelX(i)为横向投影,PixelY(j)为纵向投影,p.width为图像的像素宽度,p.length为图像的像素长度;a=b=10%。先验阈值a,b决定空白行列的判断依据,且由图像清晰程度进行决定,一般设为百分之十,以取得较好的效果,针对不同的采集设备,可通过实验,取得更好的先验阈值,以取得最佳效果。
C、求取Sr和Wr的比值,即平均连通阈值;
D、确认连通阈值之后,即通过高斯模糊拓展操作,对文本进行文本块连通操作;
(4)切分图像区块
对图像进行连通域填充之后,得到的图片中,存在文字的区域,都已经用黑色像素块连通了起来,此时可通过canny算子进行边缘提取,得到区块的边界。
E、将经过步骤(4)处理后的图片中所有像素值为黑色的点归为一个点集,从这个点集中选取任意一个点t,将点t加入一个新的子集s中,同时从原点集中删除点t;
F、搜索点t的8-邻域,从点t的8-邻域中的8个像素点中找到所有像素值为黑色的点加入到子集s中,并从子集s中删除点t,重复操作步骤F,直到子集s不再发生变化,此时子集s为某一区域的曲线边界的点集;
G、重复E操作,得到的每一个新子集都是一个区域的曲线边界的点集,直到某一次操作子集s中不存在任何的像素点,则切分图像区块结束,提取出来构成所有区块的曲线由子集的形式;
H、浏览所有曲线边界子集,找到子集中的点的左上角和右下角,根据这个值,进行区域的切割,左上角和右下角是界定将该区域完全包括的一个最小长方形区域,通过遍历子集中的点的横纵坐标进行比较获得所述区域。
本实施例采用一种改良过的连通域分割方法,即先将图像进行初步的基于空白背景的分割以减少计算量,再将字体内部的空白区域进行黑色像素填充,以减少字体内部白色像素对划分的影响。这样对确定连通间域阈值的确定,有很大的帮助。
实施例2
根据实施例1所述的一种基于空白背景以及连通域的版面分析方法,其区别在于,包括:
判断通过步骤(1)获取的图像的每个像素点是否为外部点,包括:扫描整幅图像,对于任意一个像素点I,取其8-邻域像素区域,标号为I1、I2、I3、I4、I5、I6、I7、I8,判断该像素点I是否为外部点,即α=(I1&&I2&&I3)||(I3&&I5&&I8)||(I6&&I7&&I8)是否为真,若为真,则判断该像素点I为外部点;若为假,则判断为内部点。

Claims (3)

1.一种基于空白背景以及连通域的版面分析方法,其特征在于,包括:
(1)初步划分图像
先利用先验规律对图像进行划分,得到若干图块;
再采用霍夫变换方法检测出每个图块的空白直线,通过检测出的空白直线对每个图块进行划分,减少每个图块的空白区域;
(2)拓展图像字区域
判断通过步骤(1)获取的图像的每个像素点是否为外部点,如果判断该像素点I为外部点,不进行操作;如果判断为内部点,将其8-邻域全部填充为黑色,再次进行外部点检测,直到获取的图像中,所有的内部点其8邻域都已经被填充为黑色;
(3)拓展图像连通域
A、输入经过步骤(2)处理后的任一图像P,对图像P进行横向投影、纵向投影,分别得到px和py两幅投影图;
B、确定先验阈值a和b,对px中任一行i、py中任一列j,若满足:PixelX(i)<a×p.width||PixelY(j)<b×p.length,则认为i行或j列为空白行或空白列,并将空白行数或空白列数计入Sr或Sc,Sr为某一空白行所占像素行数,Sc为某一空白列所占像素列数;若是新出现的空白行或列,则同时计入Wr或Wc,Wr为图像中空白的行的数量,Wc为图像中空白的列的数量;新出现的行或列指与上一个空白像素行或列之间存在一非空白行或列;PixelX(i)为横向投影,PixelY(j)为纵向投影,p.width为图像的像素宽度,p.length为图像的像素长度;
C、求取Sr和Wr的比值,即平均连通阈值;
D、确认连通阈值之后,即通过高斯模糊拓展操作,对文本进行文本块连通操作;
(4)切分图像区块
E、将经过步骤(4)处理后的图片中所有像素值为黑色的点归为一个点集,从这个点集中选取任意一个点t,将点t加入一个新的子集s中,同时从原点集中删除点t;
F、搜索点t的8-邻域,从点t的8-邻域中的8个像素点中找到所有像素值为黑色的点加入到子集s中,并从子集s中删除点t,重复操作步骤F,直到子集s不再发生变化,此时子集s为某一区域的曲线边界的点集;
G、重复E操作,得到的每一个新子集都是一个区域的曲线边界的点集,直到某一次操作子集s中不存在任何的像素点,则切分图像区块结束,提取出来构成所有区块的曲线由子集的形式;
H、浏览所有曲线边界子集,找到子集中的点的左上角和右下角,根据这个值,进行区域的切割,左上角和右下角是界定将该区域完全包括的一个最小长方形区域,通过遍历子集中的点的横纵坐标进行比较获得所述区域。
2.根据权利要求1所述的一种基于空白背景以及连通域的版面分析方法,其特征在于,a=b=10%。
3.根据权利要求1或2所述的一种基于空白背景以及连通域的版面分析方法,其特征在于,判断通过步骤(1)获取的图像的每个像素点是否为外部点,包括:扫描整幅图像,对于任意一个像素点I,取其8-邻域像素区域,标号为I1、I2、I3、I4、I5、I6、I7、I8,判断该像素点I是否为外部点,即α=(I1&&I2&&I3)||(I3**I5&&I8)||(I6&&I7&&I8)是否为真,若为真,则判断该像素点I为外部点;若为假,则判断为内部点。
CN201810199200.2A 2018-03-12 2018-03-12 一种基于空白背景以及连通域的版面分析方法 Pending CN108399623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810199200.2A CN108399623A (zh) 2018-03-12 2018-03-12 一种基于空白背景以及连通域的版面分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810199200.2A CN108399623A (zh) 2018-03-12 2018-03-12 一种基于空白背景以及连通域的版面分析方法

Publications (1)

Publication Number Publication Date
CN108399623A true CN108399623A (zh) 2018-08-14

Family

ID=63092718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810199200.2A Pending CN108399623A (zh) 2018-03-12 2018-03-12 一种基于空白背景以及连通域的版面分析方法

Country Status (1)

Country Link
CN (1) CN108399623A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192081A (zh) * 2021-04-30 2021-07-30 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150698A (ja) * 2011-01-20 2012-08-09 Canon Inc 印刷処理装置及びその制御方法、印刷処理プログラム
CN105247509A (zh) * 2013-03-11 2016-01-13 微软技术许可有限责任公司 检测并重构固定格式文档中的东亚布局特征
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150698A (ja) * 2011-01-20 2012-08-09 Canon Inc 印刷処理装置及びその制御方法、印刷処理プログラム
CN105247509A (zh) * 2013-03-11 2016-01-13 微软技术许可有限责任公司 检测并重构固定格式文档中的东亚布局特征
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FLORIAN KLEBER 等: "Document reconstruction by layout analysis of snippets", 《COMPUTER VISION AND IMAGE》 *
于明 等: "改进的基于连通域的版面分割方法", 《计算机工程与应用》 *
郭佥: "图像文本的版面分析与理解", 《万方数据知识服务平台》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192081A (zh) * 2021-04-30 2021-07-30 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备和计算机可读存储介质
CN113192081B (zh) * 2021-04-30 2024-06-11 北京达佳互联信息技术有限公司 图像识别方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
TWI536277B (zh) Form identification method and device
CN104156721B (zh) 一种基于模板匹配的脱机汉字笔画提取方法
CN113537227B (zh) 一种结构化文本识别方法及系统
CN104063723B (zh) 脱机手写汉字的笔画还原方法及装置
CN110619326B (zh) 一种基于扫描的英语试卷作文检测识别系统及方法
JPH039489A (ja) 表領域識別方法
CN112069991B (zh) 一种pdf的表格信息提取方法及相关装置
CN112818951A (zh) 一种票证识别的方法
CN112861736B (zh) 基于图像处理的文献表格内容识别与信息提取方法
CN111368695A (zh) 一种表格结构提取方法
CN107944451B (zh) 一种藏文古籍文档的行切分方法及系统
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN107766854A (zh) 一种基于模板匹配实现快速页码识别的方法
CN110516673A (zh) 基于连通分量和回归式字切分的彝文古籍字符检测方法
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN110135407A (zh) 样本标注方法及计算机存储介质
CN109147002B (zh) 一种图像处理方法和装置
CN111832390B (zh) 一种手写古文字检测方法
CN108399623A (zh) 一种基于空白背景以及连通域的版面分析方法
Li An effective approach to offline arabic handwriting recognition
Lin et al. Off-line handwritten Chinese character stroke extraction
CN116503885A (zh) 表格识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180814

RJ01 Rejection of invention patent application after publication