CN103258198B - 一种表格文档图像中字符提取方法 - Google Patents

一种表格文档图像中字符提取方法 Download PDF

Info

Publication number
CN103258198B
CN103258198B CN201310148624.3A CN201310148624A CN103258198B CN 103258198 B CN103258198 B CN 103258198B CN 201310148624 A CN201310148624 A CN 201310148624A CN 103258198 B CN103258198 B CN 103258198B
Authority
CN
China
Prior art keywords
character
line
image
line segment
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310148624.3A
Other languages
English (en)
Other versions
CN103258198A (zh
Inventor
王俊峰
高琳
姬郁林
李虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201310148624.3A priority Critical patent/CN103258198B/zh
Publication of CN103258198A publication Critical patent/CN103258198A/zh
Application granted granted Critical
Publication of CN103258198B publication Critical patent/CN103258198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及图像处理、计算机视觉技术领域,具体涉及一种表格文档图像中字符提取方法,包括以下步骤:通过边缘检测与Hough变换算法提取出图像中的线段;根据线段的方向分布估计整幅图像的倾斜角度,对图像进行倾斜校正;对水平和垂直方向上的线段进行连接,定位出表格的单元格;针对每个单元格,采用最大类间方差方法进行图像二值化,分割出单元格中的整行字符,通过滑动窗口法提取出单元格中的每个字符;根据单元格框线的统计特征,对字符的笔画缺失进行恢复。本发明具有较好的灵活性,能够有效处理字符间粘连以及字符与表格线重叠的情况,大大减少粘连和重叠问题对OCR字符识别的影响。

Description

一种表格文档图像中字符提取方法
技术领域
本发明涉及图像处理、计算机视觉技术领域,具体涉及一种表格文档图像中字符提取方法。
背景技术
表格是一种常见的信息表示形式,广域应用于人们的日常生活和工作中。目前大部分表格文档的载体还是纸质文档,纸质文档的优点是保密性好,但难以进行信息的管理与分析,随着信息技术的发展,利用计算机对大量的纸质文档信息进行数字化处理是现代社会发展的必然趋势。
通过拍摄或扫描包含表格数据的图像,利用数字图像处理技术提取识别出表格中的信息内容,是国内外对表格文档处理的主要研究方向。表格识别系统通常包括图像预处理,字符提取,OCR字符识别等部分,其中对表格中的字符进行提取,是表格文档识别中最关键的步骤之一。表格字符提取可采用的方法主要有两类,一类方法是结合表格的结构信息进行定位提取,通过检测出表格图像中的多个定位特征,定位出整个表格在图像中的位置,然后根据表格的结构信息推算出每个表格单元格的位置,进而从单元格中提取出字符。这种方法依赖表格结构先验信息,因此缺乏通用性和灵活性。另一类方法无需先验信息,先通过边缘与直线检测提取出表格框线,然后定位单元格,在单元格中通过字符切分提取出每个字符。
对于准确提取出表格字符,其难点在于字符笔画与表格线通常会发生重叠,使得提取出的字符中包含多余的笔画,极大影响了后续的OCR识别效果。一般采用的方法是将字符中的表格线去除,但是去除表格线的同时又会造成字符的笔画断裂或缺失,因此难以取得较好的效果。针对这个问题,通常的解决方法是对表格线与笔画像素进行区分,在去除表格线的同时保留字符笔画中的像素,但由于表格线与字符的灰度特征相近,因此区分往往比较困难。还有一些方法先去除字符中的表格线,然后根据字符剩余笔画的结构特征,对缺失笔画进行恢复,这种方法仅对于笔画较为单一,并且笔画缺失量较少的情况有效。
发明内容
本发明的目的在于提供一种表格文档图像中字符提取方法,解决目前对表格中字符的提取方式通用性低、不灵活,识别度不高的问题。
一种表格文档图像中字符提取方法,包括以下步骤:
步骤一,将采集的彩色表格图像转化为灰度图像,对灰度图像进行高斯平滑,去除图像中的噪声;
步骤二,利用边缘检测算子对图像进行卷积运算,再采用最大类间方差方法对图像进行二值化处理,然后采用Hough算法检测出边缘上的直线段;
步骤三,将上一步得到的直线段按长度从大到小排序,选择最长的几个直线段,计算直线段相对于水平方向的倾斜角度;对这些倾斜角度排序,取中值作为图像的倾斜角度,通过旋转图像对其进行倾斜校正;
步骤四,在倾斜校正后的图像中,保留水平方向和垂直方向上的直线段,去除其他直线段;计算不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,获得表格的单元格图像;
步骤五,针对每个单元格图像,分别采用最大类间方差方法进行图像分割,将单元格上像素灰度值设为背景灰度,使得区域中仅保留字符;设置滑动窗口,通过从左到右对窗口进行滑动搜索,分割出单元格中的每个字符;
步骤六,针对上一步骤中提取出的单个字符,如果该字符没有与单元格框线重叠,则直接作为结果输出,否则根据字符与框线的重叠情况,对上述步骤中去除框线造成的笔画缺失进行恢复。
更进一步的技术方案是,所述步骤二具体为:利用Sobel一阶微分算子,分别在水平和垂直方向上对图像做平面卷积,获得水平和垂直方向上的灰度差分近似值,根据灰度差分值建立边缘图像,采用Otsu算法计算边缘图像的分割阈值,将图像进行二值化处理,利用Hough变换算法检测边缘图像中的直线段。
更进一步的技术方案是,所述步骤三具体是:计算上一步得到的每个线段两个端点间的欧氏距离,获得线段的长度,根据线段长度对所有线段从大到小进行排序;令线段的总数为N,根据排序结果选择最长的N/4条线段,计算这些线段相对于水平方向的倾斜角度;对这些角度值进行排序,取排序后的第N/8个角度值作为图像的倾斜角度;根据倾斜角度对图像做旋转变换,从而实现图像的倾斜校正。
更进一步的技术方案是,所述步骤四具体为:假定图像中表格是由水平和垂直方向上的线段组成,根据上述步骤得到的线段及其倾斜角度,保留水平和垂直方向的线段,去除其他直线段;然后对相邻线段进行连接,通过行扫描将处在同一行的水平直线段进行连接,再通过列扫描,将处于同一列的垂直直线段进行连接,最后得到的封闭方格即为表格的单元格。
更进一步的技术方案是,所述线段及其倾斜角度有两个,取小的倾斜角度进行判断,若小于5.0度或大于85.0度则保留该线段,否则去除该线段;所述对相邻线段进行连接是对图像进行行扫描,对处于同一行的线段,计算相邻线段端点之间的距离,如果小于两个线段总长的1/4,则连接这两个线段,再对图像进行列扫描,对处于同一列的线段,按照行扫描的方式进行连接。
更进一步的技术方案是,所述步骤五具体为:首先将单元格框线上像素的灰度值设为背景灰度值以消除框线,从而避免单元格中字符之间发生连接;从单元格中提取出整行字符,建立字符行在垂直方向上的投影直方图;设置字符的搜索窗口,窗口的初始尺寸为单元格中所有字符的平均尺寸,根据投影直方图,将搜索窗口从左向右进行滑动,同时调整窗口尺寸,从窗口中分割出字符行中的每个字符。
更进一步的技术方案是,所述将单元格框线上像素的灰度值设为背景灰度值以消除框线:是通过Otsu算法计算分割阈值,将大于该阈值的像素灰度值设为255,小于该阈值的像素灰度值设为0,分割出单元格框线和单元格中的字符行,将单元格框线上的像素灰度值设为255以去除框线,使图像中仅保留字符作为前景;所述设置字符的搜索窗口,窗口的初始尺寸为单元格中所有字符的平均尺寸具体是:设置矩形窗口以切分出单个字符,窗口的初始位置为字符行的最左端,窗口的初始尺寸为单个字符尺寸的估计值,估计值的获取方法为:先对图像进行形态学膨胀处理,然后通过连通体分析方法,把整行字符划分为多个连通体,计算所有连通体的平均高度,将其作为窗口的初始高度,将所有连通体按照宽度排序,取中值作为窗口的初始宽度;所述将搜索窗口从左向右进行滑动,同时调整窗口尺寸,从窗口中分割出字符行中的每个字符具体是:从左至右滑动窗口,同时不断调整窗口宽度,使窗口包含完整的单个字符,从窗口中提取出单个字符,然后将窗口滑动至下一个字符的起始处,再调整窗口宽度,进而提取下一个字符,以此方式提取出所有的单个字符。
更进一步的技术方案是,所述步骤六中去除框线造成的笔画缺失进行恢复的方法为:根据上述步骤中分割出的单个字符的位置信息,从消除框线前的图像中提取出包含该字符的图像区域,定位出单元格框线与字符笔画的交点,利用这些交点将字符区域内的框线划分为多个线段,依次判定每个线段是否属于字符笔画,将不属于字符笔画的线段消除,其中判定规则为如果该线段的宽度分布均匀,并且与整个框线的平均宽度相近,则该线段不属于字符笔画,否则属于字符笔画。
更进一步的技术方案是,所述如果该线段的宽度分布均匀,并且与整个框线的平均宽度相近,则该线段不属于字符笔画,否则属于字符笔画具体是:对每个框线线段,统计该线段中每一点处的粗细像素数,计算粗细像素数的均值和方差,若均值与整个框线均值之间的距离小于3个像素,并且方差小于5个像素,则认为该线段未与字符重叠,直接去除,否则认为该线段与字符发生重叠,保留在字符中。
更进一步的技术方案是,所述步骤一中的灰度图像为256级。
与现有技术相比,本发明的有益效果是:
(1)本发明通过自动检测表格单元格来定位字符区域,因此不依赖表格的先验知识,具有较好的灵活性;
(2)提出了一种基于滑动窗口的字符切分方法,利用字符投影直方图特征搜索最优字符边界,能够有效处理字符间的粘连问题;
(3)针对字符笔画与表格线重叠的情况,利用线段统计特征区分表格线与字符笔画,从而大大减少粘连和重叠问题对OCR字符识别的影响。
附图说明
图1为本发明一种表格文档图像中字符提取方法的流程示意图。
图2为本发明一种表格文档图像中字符提取方法一个实施例中去除字符行中的单元格框线后的效果图。
图3为本发明一种表格文档图像中字符提取方法一个实施例中建立字符行投影直方图的效果图。
图4为本发明一种表格文档图像中字符提取方法一个实施例中字符切分流程示意图。
图5为本发明一种表格文档图像中字符提取方法一个实施例中字符缺失笔画恢复流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明一种表格文档图像中字符提取方法的一个实施例:一种表格文档图像中字符提取方法,包括以下步骤:
步骤一,将采集的彩色表格图像转化为灰度图像,对灰度图像进行高斯平滑,去除图像中的噪声,所述灰度图像最佳可选256级;
步骤二,利用边缘检测算子对图像进行卷积运算,再采用最大类间方差方法对图像进行二值化处理,然后采用Hough算法检测出边缘上的直线段;
步骤三,将上一步得到的直线段按长度从大到小排序,选择最长的几个直线段,计算直线段相对于水平方向的倾斜角度;对这些倾斜角度排序,取中值作为图像的倾斜角度,通过旋转图像对其进行倾斜校正;
步骤四,在倾斜校正后的图像中,保留水平方向和垂直方向上的直线段,去除其他直线段;计算不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,获得表格的单元格图像;
步骤五,针对每个单元格图像,分别采用最大类间方差方法进行图像分割,将单元格上像素灰度值设为背景灰度,使得区域中仅保留字符;设置滑动窗口,通过从左到右对窗口进行滑动搜索,分割出单元格中的每个字符;
步骤六,针对上一步骤中提取出的单个字符,如果该字符没有与单元格框线重叠,则直接作为结果输出,否则根据字符与框线的重叠情况,对上述步骤中去除框线造成的笔画缺失进行恢复。
根据本发明一种表格文档图像中字符提取方法的一个优选实施例,所述步骤二具体为:利用Sobel一阶微分算子,分别在水平和垂直方向上对图像做平面卷积,获得水平和垂直方向上的灰度差分近似值,根据灰度差分值建立边缘图像,采用Otsu算法计算边缘图像的分割阈值,将图像进行二值化处理,利用Hough变换算法检测边缘图像中的直线段。根据本发明一种表格文档图像中字符提取方法的另一个优选实施例,步骤二具体为:1,Sobel算子包含两个3*3的矩阵,一个是用于检测垂直梯度的Sx,另一个是用于检测水平梯度的Sy,分别用Sx,Sy与图像进行卷积,获得图像在垂直和水平方向上的梯度值,然后通过求模获得梯度图像;2,利用Otsu算法计算梯度图像的分割阈值,将梯度图像中大于该阈值的像素灰度值设为255,小于该阈值的像素灰度值设为0,从而分割出图像边缘;3,采用Hough变换算法检测出边缘中的直线段。
根据本发明一种表格文档图像中字符提取方法的另一个优选实施例,所述步骤三具体是:计算上一步得到的每个线段两个端点间的欧氏距离,获得线段的长度,根据线段长度对所有线段从大到小进行排序;令线段的总数为N,根据排序结果选择最长的N/4条线段,计算这些线段相对于水平方向的倾斜角度;对这些角度值进行排序,取排序后的第N/8个角度值作为图像的倾斜角度;根据倾斜角度对图像做旋转变换,从而实现图像的倾斜校正。
根据本发明一种表格文档图像中字符提取方法的另一个优选实施例,所述步骤四具体为:假定图像中表格是由水平和垂直方向上的线段组成,根据上述步骤得到的线段及其倾斜角度,保留水平和垂直方向的线段,去除其他直线段;然后对相邻线段进行连接,通过行扫描将处在同一行的水平直线段进行连接,再通过列扫描,将处于同一列的垂直直线段进行连接,最后得到的封闭方格即为表格的单元格。
根据本发明一种表格文档图像中字符提取方法的另一个优选实施例,所述线段及其倾斜角度有两个,取小的倾斜角度进行判断,若小于5.0度或大于85.0度则保留该线段,否则去除该线段;所述对相邻线段进行连接是对图像进行行扫描,对处于同一行的线段,计算相邻线段端点之间的距离,如果小于两个线段总长的1/4,则连接这两个线段,再对图像进行列扫描,对处于同一列的线段,按照行扫描的方式进行连接。例如可以在计算倾斜校正后线段与水平方向的倾斜角,设为A1,和A2(A2=180-A1),取小的倾斜角度进行判断,若小于5.0度或大于85.0度则保留该线段,否则去除该线段。
根据本发明一种表格文档图像中字符提取方法的另一个优选实施例,所述步骤五具体为:首先将单元格框线上像素的灰度值设为背景灰度值以消除框线,从而避免单元格中字符之间发生连接;从单元格中提取出整行字符,建立字符行在垂直方向上的投影直方图;设置字符的搜索窗口,窗口的初始尺寸为单元格中所有字符的平均尺寸,根据投影直方图,将搜索窗口从左向右进行滑动,同时调整窗口尺寸,从窗口中分割出字符行中的每个字符。
根据本发明一种表格文档图像中字符提取方法的另一个优选实施例,所述将单元格框线上像素的灰度值设为背景灰度值以消除框线:是通过Otsu算法计算分割阈值,将大于该阈值的像素灰度值设为255,小于该阈值的像素灰度值设为0,分割出单元格框线和单元格中的字符行,将单元格框线上的像素灰度值设为255以去除框线,使图像中仅保留字符作为前景,如图2去除字符行中的单元格框线后的效果图所示,其中(a)为含有框线的字符,(b)为去除框线的字符;所述设置字符的搜索窗口,窗口的初始尺寸为单元格中所有字符的平均尺寸具体是:设置矩形窗口以切分出单个字符,窗口的初始位置为字符行的最左端,窗口的初始尺寸为单个字符尺寸的估计值,估计值的获取方法为:先对图像进行形态学膨胀处理,然后通过连通体分析方法,把整行字符划分为多个连通体,计算所有连通体的平均高度,将其作为窗口的初始高度,将所有连通体按照宽度排序,取中值作为窗口的初始宽度;所述将搜索窗口从左向右进行滑动,同时调整窗口尺寸,从窗口中分割出字符行中的每个字符具体是:从左至右滑动窗口,同时不断调整窗口宽度(可以假定所有字符的高度相同),使窗口包含完整的单个字符,从窗口中提取出单个字符,然后将窗口滑动至下一个字符的起始处,再调整窗口宽度,进而提取下一个字符,以此方式提取出所有的单个字符。调整窗口宽度的方法为:建立整行字符在垂直方向上的投影直方图(如图3所示),然后以窗口右边界为中心,窗口宽度的1/3为半径,在此区间范围(如图4中2r)内找出投影直方图中的最小值,将窗口右边界置于最小投影值对应的位置处。
根据本发明一种表格文档图像中字符提取方法的另一个优选实施例,所述步骤六中去除框线造成的笔画缺失进行恢复的方法为:根据上述步骤中分割出的单个字符的位置信息,从消除框线前的图像中提取出包含该字符的图像区域,该图像区域可以包含单个字符以及与之重叠的框线,定位出单元格框线与字符笔画的交点,利用这些交点将字符区域内的框线划分为多个线段,如图5中(a)所示,依次判定每个线段是否属于字符笔画,将不属于字符笔画的线段消除,其中判定规则为如果该线段的宽度分布均匀,并且与整个框线的平均宽度相近,则该线段不属于字符笔画,否则属于字符笔画,图5中(b)所示。
根据本发明一种表格文档图像中字符提取方法的另一个优选实施例,所述如果该线段的宽度分布均匀,并且与整个框线的平均宽度相近,则该线段不属于字符笔画,否则属于字符笔画具体是:对每个框线线段,统计该线段中每一点处的粗细像素数,计算粗细像素数的均值和方差,若均值与整个框线均值之间的距离小于3个像素,并且方差小于5个像素,则认为该线段未与字符重叠,直接去除,否则认为该线段与字符发生重叠,保留在字符中。

Claims (8)

1.一种表格文档图像中字符提取方法,其特征在于包括以下步骤:
步骤一,将采集的彩色表格图像转化为灰度图像,对灰度图像进行高斯平滑,去除图像中的噪声;
步骤二,利用边缘检测算子对图像进行卷积运算,再采用最大类间方差方法对图像进行二值化处理,然后采用Hough算法检测出边缘上的直线段;
步骤三,将上一步得到的直线段按长度从大到小排序,选择最长的几个直线段,计算直线段相对于水平方向的倾斜角度;对这些倾斜角度排序,取中值作为图像的倾斜角度,通过旋转图像对其进行倾斜校正;
步骤四,在倾斜校正后的图像中,保留水平方向和垂直方向上的直线段,去除其他直线段;计算不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,获得表格的单元格图像;
步骤五,针对每个单元格图像,分别采用最大类间方差方法进行图像分割,将单元格上像素灰度值设为背景灰度,使得区域中仅保留字符;设置滑动窗口,通过从左到右对窗口进行滑动搜索,分割出单元格中的每个字符;
步骤六,针对上一步骤中提取出的单个字符,如果该字符没有与单元格框线重叠,则直接作为结果输出,否则根据字符与框线的重叠情况,对上述步骤中去除框线造成的笔画缺失进行恢复。
2.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤二具体为:利用Sobel一阶微分算子,分别在水平和垂直方向上对图像做平面卷积,获得水平和垂直方向上的灰度差分近似值,根据灰度差分值建立边缘图像,采用Otsu算法计算边缘图像的分割阈值,将图像进行二值化处理,利用Hough变换算法检测边缘图像中的直线段。
3.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤三具体是:计算上一步得到的每个线段两个端点间的欧氏距离,获得线段的长度,根据线段长度对所有线段从大到小进行排序;令线段的总数为N,根据排序结果选择最长的N/4条线段,计算这些线段相对于水平方向的倾斜角度;对这些角度值进行排序,取排序后的第N/8个角度值作为图像的倾斜角度;根据倾斜角度对图像做旋转变换,从而实现图像的倾斜校正。
4.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤四具体为:假定图像中表格是由水平和垂直方向上的线段组成,根据上述步骤得到的线段及其倾斜角度,保留水平和垂直方向的线段,去除其他直线段;然后对相邻线段进行连接,通过行扫描将处在同一行的水平直线段进行连接,再通过列扫描,将处于同一列的垂直直线段进行连接,最后得到的封闭方格即为表格的单元格。
5.根据权利要求4所述的一种表格文档图像中字符提取方法,其特征在于:所述线段及其倾斜角度有两个,取小的倾斜角度进行判断,若小于5.0度或大于85.0度则保留该线段,否则去除该线段;所述对相邻线段进行连接是对图像进行行扫描,对处于同一行的线段,计算相邻线段端点之间的距离,如果小于两个线段总长的1/4,则连接这两个线段,再对图像进行列扫描,对处于同一列的线段,按照行扫描的方式进行连接。
6.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤五具体为:首先将单元格框线上像素的灰度值设为背景灰度值以消除框线,从而避免单元格中字符之间发生连接;从单元格中提取出整行字符,建立字符行在垂直方向上的投影直方图;设置字符的搜索窗口,窗口的初始尺寸为单元格中所有字符的平均尺寸,根据投影直方图,将搜索窗口从左向右进行滑动,同时调整窗口尺寸,从窗口中分割出字符行中的每个字符。
7.根据权利要求6所述的一种表格文档图像中字符提取方法,其特征在于:所述将单元格框线上像素的灰度值设为背景灰度值以消除框线:是通过Otsu算法计算分割阈值,将大于该阈值的像素灰度值设为255,小于该阈值的像素灰度值设为0,分割出单元格框线和单元格中的字符行,将单元格框线上的像素灰度值设为255以去除框线,使图像中仅保留字符作为前景;所述设置字符的搜索窗口,窗口的初始尺寸为单元格中所有字符的平均尺寸具体是:设置矩形窗口以切分出单个字符,窗口的初始位置为字符行的最左端,窗口的初始尺寸为单个字符尺寸的估计值,估计值的获取方法为:先对图像进行形态学膨胀处理,然后通过连通体分析方法,把整行字符划分为多个连通体,计算所有连通体的平均高度,将其作为窗口的初始高度,将所有连通体按照宽度排序,取中值作为窗口的初始宽度;所述将搜索窗口从左向右进行滑动,同时调整窗口尺寸,从窗口中分割出字符行中的每个字符具体是:从左至右滑动窗口,同时不断调整窗口宽度,使窗口包含完整的单个字符,从窗口中提取出单个字符,然后将窗口滑动至下一个字符的起始处,再调整窗口宽度,进而提取下一个字符,以此方式提取出所有的单个字符。
8.根据权利要求1所述的一种表格文档图像中字符提取方法,其特征在于:所述步骤六中去除框线造成的笔画缺失进行恢复的方法为:根据上述步骤中分割出的单个字符的位置信息,从消除框线前的图像中提取出包含该字符的图像区域,定位出单元格框线与字符笔画的交点,利用这些交点将字符区域内的框线划分为多个线段,依次判定每个线段是否属于字符笔画,将不属于字符笔画的线段消除,其中判定规则为如果该线段的宽度分布均匀,并且与整个框线的平均宽度相近,则该线段不属于字符笔画,否则属于字符笔画;
所述如果该线段的宽度分布均匀,并且与整个框线的平均宽度相近,则该线段不属于字符笔画,否则属于字符笔画具体是:对每个框线线段,统计该线段中每一点处的粗细像素数,计算粗细像素数的均值和方差,若均值与整个框线均值之间的距离小于3个像素,并且方差小于5个像素,则认为该线段未与字符重叠,直接去除,否则认为该线段与字符发生重叠,保留在字符中。
CN201310148624.3A 2013-04-26 2013-04-26 一种表格文档图像中字符提取方法 Active CN103258198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310148624.3A CN103258198B (zh) 2013-04-26 2013-04-26 一种表格文档图像中字符提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310148624.3A CN103258198B (zh) 2013-04-26 2013-04-26 一种表格文档图像中字符提取方法

Publications (2)

Publication Number Publication Date
CN103258198A CN103258198A (zh) 2013-08-21
CN103258198B true CN103258198B (zh) 2015-12-23

Family

ID=48962102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310148624.3A Active CN103258198B (zh) 2013-04-26 2013-04-26 一种表格文档图像中字符提取方法

Country Status (1)

Country Link
CN (1) CN103258198B (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488986B (zh) * 2013-09-18 2016-01-27 西安理工大学 自适应字符切分及提取方法
CN103544491A (zh) * 2013-11-08 2014-01-29 广州广电运通金融电子股份有限公司 一种面向复杂背景的光学字符识别方法及装置
US9275030B1 (en) * 2014-09-30 2016-03-01 Konica Minolta Laboratory U.S.A., Inc. Horizontal and vertical line detection and removal for document images
CN106156715A (zh) * 2015-04-24 2016-11-23 富士通株式会社 分析表格图像的布局的方法和设备
CN104822069B (zh) * 2015-04-30 2018-09-28 北京爱奇艺科技有限公司 一种图像信息检测方法及装置
CN104899572B (zh) * 2015-06-15 2019-02-15 三星电子(中国)研发中心 检测内容的方法、装置及终端
CN105069452B (zh) * 2015-08-07 2016-09-14 武汉理工大学 基于局部结构分析的直线移除方法
US9865038B2 (en) * 2015-11-25 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Offsetting rotated tables in images
CN105786957B (zh) * 2016-01-08 2019-07-09 云南大学 一种基于单元格邻接关系与深度优先遍历的表格排序方法
CN105761219B (zh) * 2016-02-03 2019-03-15 北京云江科技有限公司 文本图像倾斜矫正方法和系统
CN107341487B (zh) * 2016-04-28 2021-05-04 科大讯飞股份有限公司 一种涂抹字符的检测方法及系统
CN105913060A (zh) * 2016-04-29 2016-08-31 广东小天才科技有限公司 图片的校正方法、装置及智能设备
CN105913061A (zh) * 2016-04-29 2016-08-31 广东小天才科技有限公司 图片的校正方法及装置
CN106407883B (zh) * 2016-08-10 2019-12-27 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106778752A (zh) * 2016-11-16 2017-05-31 广西大学 一种文字识别方法
CN107066997B (zh) * 2016-12-16 2019-07-30 浙江工业大学 一种基于图像识别的电气元件报价方法
CN108345883B (zh) * 2017-01-23 2023-11-28 利得技术公司 用于确定文本的旋转角度的装置、方法和计算机可读存储介质
CN107038445B (zh) * 2017-02-13 2021-01-12 上海大学 一种针对中文字符验证码的二值化和分割方法
CN108572943B (zh) * 2017-03-14 2022-11-11 长沙博为软件技术股份有限公司 一种基于gdi拦截的表格识别方法
CN106951855B (zh) * 2017-03-16 2020-04-10 深圳市六六六国际旅行社有限公司 一种图片中文档定位和裁切方法
CN107220648B (zh) 2017-04-11 2018-06-22 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN106991422B (zh) * 2017-05-02 2020-03-27 北京京东金融科技控股有限公司 字符切割方法、装置及计算机可读存储介质和电子设备
CN107133621B (zh) * 2017-05-12 2020-09-29 中电鸿信信息科技有限公司 基于ocr的格式化传真的分类和信息提取方法
CN107358232B (zh) * 2017-06-28 2020-12-29 中山大学新华学院 基于插件的发票识别方法
WO2019056346A1 (zh) * 2017-09-25 2019-03-28 深圳传音通讯有限公司 一种利用膨胀法校正文本图像倾斜的方法及装置
CN107943857A (zh) * 2017-11-07 2018-04-20 中船黄埔文冲船舶有限公司 自动读取AutoCAD表格的方法、装置、终端设备与存储介质
CN107609807A (zh) * 2017-11-08 2018-01-19 厦门美亚商鼎信息科技有限公司 一种网络餐饮风险识别方法及系统
CN108009538A (zh) * 2017-12-22 2018-05-08 大连运明自动化技术有限公司 一种汽车发动机缸体序列号智能识别方法
CN110135218A (zh) * 2018-02-02 2019-08-16 兴业数字金融服务(上海)股份有限公司 用于识别图像的方法、装置、设备和计算机存储介质
CN110135217B (zh) * 2018-02-02 2021-07-23 兴业数字金融服务(上海)股份有限公司 用于识别图像中的表格内的字符的方法和装置
CN108446264B (zh) * 2018-03-26 2022-02-15 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN110321887B (zh) * 2018-03-30 2023-09-19 佳能株式会社 文档图像处理方法、文档图像处理装置及存储介质
CN108776776B (zh) * 2018-05-25 2021-11-02 河南思维轨道交通技术研究院有限公司 一种针对图像中水平垂直线段的识别方法
CN109145916B (zh) * 2018-08-02 2021-08-27 福建多多云科技有限公司 一种图像文字识别切割方法及一种存储设备
CN109241894B (zh) * 2018-08-28 2022-04-08 南京安链数据科技有限公司 一种基于表格定位和深度学习的票据内容识别系统和方法
CN109446345A (zh) * 2018-09-26 2019-03-08 深圳中广核工程设计有限公司 核电文件校验处理方法以及系统
CN109543525B (zh) * 2018-10-18 2020-12-11 成都中科信息技术有限公司 一种通用表格图像的表格提取方法
CN111079756B (zh) * 2018-10-19 2023-09-19 杭州萤石软件有限公司 一种单据图像中的表格提取与重建方法和设备
CN112818813A (zh) * 2018-12-13 2021-05-18 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109447007A (zh) * 2018-12-19 2019-03-08 天津瑟威兰斯科技有限公司 一种基于表格节点识别的表格结构补全算法
CN110008944B (zh) * 2019-02-20 2024-02-13 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN109858468B (zh) * 2019-03-04 2021-04-23 汉王科技股份有限公司 一种表格线识别方法及装置
CN111695371B (zh) * 2019-03-12 2024-05-03 珠海金山办公软件有限公司 一种表格识别的方法、装置、电子设备及存储介质
CN109933756B (zh) * 2019-03-22 2022-04-15 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110246098B (zh) * 2019-05-31 2021-07-27 暨南大学 一种碎片复原方法
CN110263739A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的图片表格识别方法
CN110610163B (zh) * 2019-09-18 2022-05-03 山东浪潮科学研究院有限公司 一种自然场景下基于椭圆拟合的表格提取方法及系统
CN112784825B (zh) * 2019-11-01 2024-04-30 株式会社理光 图片中文字的识别方法、关键字检索方法、装置及设备
CN111144300B (zh) * 2019-12-26 2021-06-01 杭州费尔斯通科技有限公司 一种基于图像识别的pdf表格结构识别方法
CN112183538B (zh) * 2020-11-30 2021-03-02 华南师范大学 一种满文识别方法及系统
CN112861736B (zh) * 2021-02-10 2022-08-09 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN113297308B (zh) * 2021-03-12 2023-09-22 贝壳找房(北京)科技有限公司 表格结构化信息提取方法、装置及电子设备
CN113139445A (zh) * 2021-04-08 2021-07-20 招商银行股份有限公司 表格识别方法、设备及计算机可读存储介质
CN113378666A (zh) * 2021-05-28 2021-09-10 山东大学 一种票据图像倾斜校正方法、票据识别方法及系统
CN113792677B (zh) * 2021-09-17 2023-10-17 日立楼宇技术(广州)有限公司 一种表格识别方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697228A (zh) * 2009-10-15 2010-04-21 东莞市步步高教育电子产品有限公司 一种文本图像处理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697228A (zh) * 2009-10-15 2010-04-21 东莞市步步高教育电子产品有限公司 一种文本图像处理方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
周凤香,康戈文,李苗.表格标签字符识别预处理算法的设计与实现.《可编程控制器与工厂自动化》.2013,全文. *
表格识别预处理技术与表格字符提取算法的研究;谢亮;《中国优秀硕士学位论文全文数据库》;20051215(第8期);全文 *
赵莉,于承新.票据OCR系统的设计与实现.《山东科学》.2007,全文. *
郑天翔,谢亮,杨力华.基于混合二值化的表格手写数字串的完整提取.《模式识别与人工智能》.2008,全文. *

Also Published As

Publication number Publication date
CN103258198A (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
CN103258198B (zh) 一种表格文档图像中字符提取方法
Zhou et al. Bangla/English script identification based on analysis of connected component profiles
Lu et al. Perspective rectification of document images using fuzzy set and morphological operations
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
CN102663378B (zh) 连笔手写字符的识别方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN104966051B (zh) 一种文档图像的版式识别方法
CN103488986B (zh) 自适应字符切分及提取方法
CN103034848B (zh) 一种表单类型的识别方法
CN108133216B (zh) 基于机器视觉的可实现小数点读取的数码管读数识别方法
CN101122953A (zh) 一种图片文字分割的方法
CN105046252A (zh) 一种人民币冠字码识别方法
CN100562074C (zh) 一种视频字幕提取的方法
CN104361336A (zh) 一种水下视频图像的文字识别方法
CN107766854B (zh) 一种基于模板匹配实现快速页码识别的方法
CN103488983A (zh) 一种基于知识库的名片ocr数据修正方法和系统
CN106503711A (zh) 一种文字识别方法
CN111091124B (zh) 一种书脊文字识别方法
CN103336961A (zh) 一种交互式的自然场景文本检测方法
CN112364862B (zh) 一种基于直方图相似度的扰动变形汉字图片匹配的方法
Zhang et al. A combined algorithm for video text extraction
CN104463134A (zh) 一种车牌检测方法和系统
Bijalwan et al. Automatic text recognition in natural scene and its translation into user defined language
Sanketi et al. Localizing blurry and low-resolution text in natural images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant