CN105426834A - 一种基于投影特征与结构特征进行表格图像检测的方法 - Google Patents

一种基于投影特征与结构特征进行表格图像检测的方法 Download PDF

Info

Publication number
CN105426834A
CN105426834A CN201510786025.3A CN201510786025A CN105426834A CN 105426834 A CN105426834 A CN 105426834A CN 201510786025 A CN201510786025 A CN 201510786025A CN 105426834 A CN105426834 A CN 105426834A
Authority
CN
China
Prior art keywords
image
value
segmentation
projection
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510786025.3A
Other languages
English (en)
Other versions
CN105426834B (zh
Inventor
黄祥林
宋格格
杨丽芳
陶竹林
刘守训
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201510786025.3A priority Critical patent/CN105426834B/zh
Publication of CN105426834A publication Critical patent/CN105426834A/zh
Application granted granted Critical
Publication of CN105426834B publication Critical patent/CN105426834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明是一种基于投影特征与结构特征进行表格图像检测的方法。本方法是对任意文本图像进行灰度变换、二值化、水平投影,通过水平投影直方图计算与图像实际宽度相近的直线行数和图像中与最大峰值相近的直线的分布,判断是否为有线表格;若不是有线表格则进行水平分割,通过字串行高度、字串行间高度以及垂直投影获得的相邻字串列间宽度,判断是否为无线表格。本发明对图像只进行简单的预处理,当图像出现轻微倾斜、轻微断点等问题时,图像投影的角度相同,投影过程中产生的损失也相同。丢弃这部分损失并不会对表格检测结果造成干扰,从而忽略此类问题同时避免进行复杂预处理操作。该发明能够提高表格图像检测的效率同时简化表格图像检测操作步骤。

Description

一种基于投影特征与结构特征进行表格图像检测的方法
技术领域
本发明是一种基于投影特征与结构特征进行表格图像检测的方法,属于图像处理和图像识别领域。
背景技术
基于投影特征与结构特征进行表格图像检测是一种比较普遍的方法。在基于投影特征与结构特征进行图像检测时,首先要对图像进行预处理,预处理一般包括二值化、倾斜校正、图像细化等等;然后对图像进行投影,通过检测图像是否存在表格线或者检测字串行之间的行间隔是否呈现等间隔分布来确定图像是否为表格图像。
在计算机中存储的各种数字图像,由于在扫描或传输过程引入噪声(例如扫描得到的电子图书)会造成图像轻微倾斜、图像轻微模糊、图像出现轻微断点等问题。此外,表格图像的形式多种多样。因此,在检测的过程中,用户希望系统能具有很好的鲁棒性,能忽略这些小的差异而将表格图像检测出来。现有的基于投影和结构特征的表格图像检测方法并不忽略图像在采集过程中的损失,而是通过对图像进行倾斜校正、断点修复等预处理操作来挽回这部分损失量,这并不能有效的解决由图像轻微倾斜、图像轻微模糊、轻微断点等带来的表格检测准确率降低的问题。
发明内容
本发明提出了一种基于投影特征与结构特征进行表格图像检测的方法,该方法忽略因图像轻微倾斜、轻微模糊等问题所产生的图像损失量,通过将表格图像投影特征与结构特征相结合的方式对表格文本图像与非表格文本图像进行检测,能有效的避免因图像轻微倾斜、轻微模糊等问题所带来的识别率降低,而且也避免了进行复杂的图像预处理等操作,同时提出的分割断点处的阈值计算能够适应不同图像分割。
本发明的总体思想如下本发明是对任意文本图像进行二值化、投影及分割,获取其投影和结构特征并与表格的投影和结构特征进行对比,进而检测出表格文本图像。本发明对待检测的文本图像先进行二值化预处理及水平投影,然后进行有线表格的检测,若图像为非有线表格图像,则再进行无线表格的检测。有线表格的检测是通过计算获得图像中与图像实际宽度近似相等(本发明中两数值近似相等是指两数值相差7以内)的直线的行数或者计算与图像实际宽度近似相等的投影位置的分布特征来判断图像是否为有线表格图像。无线表格的检测是对图像进行水平投影分割,通过对比相邻字符行的字串行高度、相邻字符行的行间高度来初步排除非无线表格图像,对未排除的图像进行垂直方向的投影分割,通过相邻字串列之间的宽度判定图像是否为无线表格图像。
具体创新点:本发明提出了一种基于投影特征与结构特征进行表格图像检测的方法,该方法只进行简单的二值化预处理操作,当图像出现轻微倾斜、轻微断点等问题时,由于每条表格线进行投影的角度相同,所以在进行投影过程中的损失也相同。这部分的损失并不会对后期检测表格线是否呈现等间隔分布造成干扰,可以忽略,从而可以避免进行图像倾斜校正、断点修复等复杂预处理操作,加快检测速度。同时本发明在对图像进行水平和垂直分割的过程中,分割阈值的选取方式并不是采用以往设定单一阈值的方法,而是通过计算动态获得阈值,不同的图像其阈值不同,并且该方法通过大量的实验验证,增加了图像的适应性。
本发明的技术方案如图1所示。用于该表格检测系统的检测图像可以是bmp格式(或其他格式)的图像,首先由用户输入待检测的文本图像,再获取图像的投影特征和结构特征并进行判断。其主要过程为:待检测的文本图像先进行灰度变换、二值化和水平投影,进行有线表格的检测,对于非有线表格再进行无线表格的检测。
具体方法步骤为:
首先,用户输入待检测的文本图像,对输入的待检测文本图像进行图像灰度变换、二值化、水平投影,得到水平投影直方图。然后,对图像进行有线表格的检测:通过水平投影直方图进行计算获得与图像实际宽度近似相等(本发明中两数值近似相等是指两数值相差7以内)的直线行数和图像中与图像实际宽度近似相等的直线的分布,通过这一步验证是否为有线表格。最后,若为非有线表格则在进行无线表格的检测:根据水平投影直方图进行水平分割,计算相邻字符行的字串行高度和行间高度,通过判断相邻字符行的字串行高度是否近似相等、相邻字符行的行间高度是否近似相等且行间高度大于所有字串行高度的平均值,以及通过进行垂直投影获得相邻字串列间的宽度来判断是否为无线表格。
所述的有线表格检测方法与无线表格检测方法的具体方法如下:
假设待检测的文本图像的实际宽度为w,水平投影直方图为A={a i },其中:a i A的第i个数值,i的取值为0,1,…,L-1,LA的长度,取整数。
(1)采用本发明提出的有线表格检测方法,忽略因图像轻微倾斜模糊等问题所产生的图像损失量,通过投影的结构特征来判断是否为有线表格,步骤如下:
1)对投影直方图A进行降序排序得到C,提取水平方向投影的四个最大值;
2)判断四个最大值与宽度w是否均近似相等(本发明中两数值近似相等是指两数值相差7以内),若均近似相等,则表明图像未倾斜或者倾斜角度很小;若不近似相等,则表明为倾斜图像。对于倾斜图像,将投影直方图A中最大峰值看作是图像的实际宽度,寻找并记录图像中与投影直方图A中最大峰值近似相等的投影位置,观察这些位置是否呈现等间隔分布,是则为表格图像,否则为非有线表格图像。对于未倾斜的图像,对直方图A进行降序排序后得到的C进行求导得到D,获得D中第一个最大转折点的位置,D中该位置的数值即为图像中与图像宽度w近似相等的直线的行数n,同时计算行数n所占图像总行数的比例n_std。如果行数n大于设定的阈值line(本发明line的取值范围为10到20之间)且行数n所占图像总行数的比例n_std小于设定的阈值n_ratio(本发明n_ratio的取值范围为0.13到0.2之间),则为表格图像;当n小于line或者行数n所占图像总行数的比例大于n_ratio时,为防止含有较少或者较多的直线行数的图像检测错误,保证检测的准确率,执行与倾斜图像相同的操作,寻找并记录图像中与w近似相等的直线的位置,在A中观察这些直线是否呈现等间隔分布,是则为表格图像,否则为非有线表格图像。
(2)采用本发明提出的无线表格检测方法,通过计算获取与其图像本身相适应的分割阈值,使得图像分割适应性更强,其步骤如下:
1)通过投影直方图A对图像进行水平分割,获得并存储图像中每一行的上下边界值。水平分割的具体方法为:依次对水平投影直方图A中的数值进行检测,若检测到的数值大于分割边界值lmt,则将该数值在A中的位置作为分割的开始位置,接着向下进行检测,将水平投影直方图A中小于分割边界值lmt的数值的位置作为分割的结束位置,从分割的结束位置接着重复进行寻找分割的开始位置与分割的结束位置,直到水平投影直方图A检测完为止。其中,水平分割过程中的分割边界值lmt并不是固定的,不同的图像lmt值不同。分割处的分割阈值的求取公式如下所示:
lmt=0.1*(b 1 +b 2 +b 3 +…+b m-2 +b m-1 +b m )*(1/l)
lmt=max(mia,max(1,lmt))
l为投影直方图A的长度,bi为投影直方图A除去与A中最大值近似相等(本发明两数值近似相等是指两数值的差值在7以内)的若干数值后得到的直方图B的第i个数值,i的取值为1,2,…,mm为直方图B的长度,取整数。miaA中的最小值。
2)图像水平分割完毕之后,通过表格每行的上下边界值计算获得字符串的字串行高度h1与相邻两行之间的行间高度h2。无线表格图像的相邻字符行的字串行高度、行间高度均近似相等,且相邻字符行的行间距大于所有字串行高度的平均值h
3)判断相邻字符行的字串行高度、行间高度是否均近似相等(本发明中两数值近似相等是指两数值相差7以内)且行间高度是否大于所有字串行高度的平均值h,如果字串行高度、行间高度均近似相等且行间高度大于所有字串行高度的平均值h,则执行下一步,否则为非表格图像。
4)图像进行垂直投影、分割,垂直分割的分割边界值的计算方法同水平分割一致。根据分割结果计算相邻字串列的列间距col。判断相邻字串列的列间距col是否大于一个字符的宽度chw。若大于一个字符宽度,则为表格图像,若小于一个字符宽度,则为非表格图像。
本发明提出的基于投影特征与结构特征进行表格图像检测的方法,该方法忽略了因图像轻微倾斜、图像轻微模糊等问题所产生的图像损失量,通过将表格结构特征与图像投影相结合的方式对表格文本与非表格文本图像进行检测,能有效的避免因图像轻微倾斜、图像轻微模糊等问题所带来的识别率降低。同时提出的分割断点处的阈值计算能够适应不同图像分割。
附图说明
图1表格检测系统整体流程框图。
图2有线表格检测方法流程图。
图3无线表格检测方法流程图。
具体实施方式
下面结合附图对本发明作进一步说明:
本实施例的技术方案如图1所示:
本实施实例中采用的图像数据库是由扫描仪扫描得到的文档图像数据库,待检测的文本图像可以是bmp格式(或其他格式)的图像,保存于本地磁盘上。本实施实例中的表格图像检测方法采用VS2012编程实现。
(1)首先,用户输入待检测的文本图像,对输入的待检测文本图像进行灰度变换和全局二值化,全局二值化阈值设定为220。对二值化后的图像进行水平投影,得到水平投影直方图A={a i },其中:a i A的第i个数值,i的取值为0,1,2,…,L-1,LA的长度,也是待检测文本图像的高度。
无线表格检测方法需要得到垂直投影直方图F,直方图F的长度即为图像的宽度:假设已知图像的实际宽度为w,垂直投影直方图F={f i },其中:f i F的第i个数值,i的取值为0,1,2,…,w-1。
(2)然后,进行有线表格检测,有线表格检测方法流程图如图2所示。具体步骤如下:
1)对投影直方图A进行降序排序得到C,提取水平方向投影的四个最大值max1max2max3max4
2)判断四个最大值max1max2max3max4与宽度w是否均近似相等(本实施实例中两数值近似相等是指两数值相差7以内),若均近似相等,则表明图像未倾斜或者倾斜角度很小;否则表明为倾斜图像。对于倾斜图像,将投影直方图A中的最大峰值看作是图像的实际宽度,在投影直方图A中寻找并记录图像中与最大峰值近似相等的投影位置,观察这些位置是否呈现等间隔分布,是则为表格图像,否则为非有线表格图像。对于未倾斜的图像,对C进行求导并获得求导后的第一个最大转折点的位置z。通过位置z我们可以得到图像中与图像宽度w近似相等的直线的行数n。同时,计算行数n所占图像总行数的比例n_std。如果直线行数n值大于line(本实施实例中line的取值为15),且行数n所占图像总行数的比例n_std小于n_ratio(本实施实例中n_ratio的取值为0.2)时,判定图像为表格图像。为减少出现偏差,保证方法识别率,当直线行数n值小于line值或者行数n所占图像总行数的比例大于n_ratio时,执行与倾斜图像相同的操作,寻找并记录图像中与宽度w近似相等的直线的位置,在A中观察这些直线是否呈现等间隔分布,是则为表格图像,否则为非有线表格图像。
(3)最后,对非有线表格图像执行无线表格的检测,无线表格检测方法如图3所示。其具体步骤如下:
1)通过投影直方图A对图像进行水平分割,获得并存储图像中每一行的上下边界值。分割过程中的分割边界值lmt并不是固定的,不同的图像lmt值不同。分割阈值的求取公式如下所示:
lmt=0.1*(b 1 +b 2 +b 3 +…+b m-2 +b m-1 +b m )*(1/l)
lmt=max(mia,max(1,lmt))
其中,l为投影直方图A的长度,b i 为投影直方图A除去与A中最大值近似相等(本发明两数值近似相等是指两数值的差值在7以内)的若干值后得到的直方图B的第i个数值,i的取值为1,2,…,mm为直方图B的长度,取整数。miaA中的最小值。
2)图像水平分割完毕之后,通过分割获得的表格每一行的上下边界值计算字符行的字串行高度h1与相邻两行之间的行间高度h2
3)判断相邻字符行的字串行高度、行间高度是否均近似相等(本实施实例中两数值近似相等是指两数值相差7以内)且行间高度是否大于所有字串行高度的平均值h,如果字串行的高度、行间高度均近似相等且行间高度大于所有字串行高度的平均值h,则执行下一步,否则为非表格图像。
4)图像进行垂直投影、分割,垂直分割的分割边界值的计算方法同水平分割一致。由于垂直分割会将同一字串列的字符分割,所以分割结束后要根据分割出的模块位置对属于同一字串列的字符进行合并,合并之后计算相邻字串列的列间距col。判断相邻字串列的列间距col是否大于一个字符的宽度chw。若大于一个字符宽度,则为表格图像,若小于一个字符宽度,则为非表格图像。
本发明提出的基于投影特征与结构特征进行表格图像检测的方法,该方法忽略了因图像轻微倾斜、图像轻微模糊等问题所产生的图像损失量,通过将表格结构特征与图像投影特征相结合的方式对表格文本与非表格文本图像进行检测,能有效的避免因图像轻微倾斜、图像轻微模糊等问题所带来的识别率降低。同时提出的分割断点处的阈值计算能够适应不同图像分割。
表1与表2给出了有线表格检测与无线表格检测的检测结果:
实际样本数/张 误识别数/张 误识别率/(%)
有线表格文本图像 256 6 2.34
非表格文本图像 2623 15 0.57
表1
实际样本数/张 误识别数/张 误识别率/(%)
无线表格文本图像 116 0 0
非表格文本图像 2623 15 0.57
表2
本发明中的分类检测库来自于专利申请材料中的数学、化学、表格、纯文本四类文本图像。在验证方法的有效性时,选择的内容主要为传真和文件扫描所获得的图像。同时为了验证有线表格文本图像识别方法、无线表格文本图像识别方法均有效,依据表格是否含有表格框线,将实验图像分为图像库A1和图像库A2,其中图像库A1中的表格图像为有线表格,图像库A2中的表格图像为无线表格。图像库A1与图像库A2中的非表格文本图像相同。图像库A1共有文本图像2879张,其中含有有线表格文本图像256张,非表格文本图像2623张,检测结果如表1所示。图像库A2有文本图像2739张,其中含有无线表格文本图像116张,非表格文本图像2623张,检测结果如表2所示。
实验结果表明,本发明所提出的方法,可以很好的实现表格文本图像与非表格文本图像的分类。

Claims (8)

1.一种基于投影特征与结构特征进行表格图像检测的方法,其特征在于:
步骤1,对需要进行检测的图像进行灰度变换、二值化预处理,并进行水平投影,得到水平投影直方图A
步骤2,有线表格的检测:
计算该水平投影直方图中与该图像实际宽度w近似相等的直线行数、以及与该图像实际宽度近似相等的直线的分布,利用该行数与该分布对图像是否是有线表格进行检测,是则结束检测,否则进入步骤3进行无线表格的检测;
步骤3,无线表格的检测:
对该图像进行水平分割,通过字串行高度、字串行间高度、垂直投影获得相邻字串列间的宽度对图像进行无线表格的检测。
2.根据权利要求1所述的方法,其特征在于:该步骤2中,有线表格的检测的具体方法如下:
步骤2.1,对水平投影直方图A进行降序排序,获得4个最大值;
步骤2.2,判断4个最大值与宽度w是否均近似相等,若4个最大值均与宽度近似相等,则表明图像未倾斜或者倾斜角度很小,否则认为该图像为倾斜图像;
步骤2.2.1,对于未倾斜或者倾斜角度很小的图像,计算图像中与宽度w近似相等的直线的行数n,同时计算行数n所占图像总行数的比例;如果行数n大于设定的第一阈值且行数n所占图像总行数的比例n_std小于设定的第二阈值,则为表格图像;否则,在A中观察与宽度w近似相等的直线是否呈现等间隔分布,是则为表格图像,否则进行无线表格的检测;
步骤2.2.2,对于倾斜图像,将水平投影直方图A中的最大值看作是图像的实际宽度,计算与A中最大值近似相等的直线是否呈现等间隔分布,是则为表格图像,否则进行无线表格的检测。
3.根据权利要求1所述的方法,其特征在于,该步骤3中无线表格检测的具体方法如下:
步骤3.1,利用水平投影直方图A采用第三阈值对图像进行水平分割,获得图像中表格每一行的上下边界值,具体方法如下:
步骤3.1.1,依次对水平投影直方图A中的数值进行检测,若检测到的数值大于分割间断点处的第三阈值,则将该数值在A中的位置作为分割的开始位置,即每行的上边界,
步骤3.1.2,接着向下进行检测,检测水平投影直方图A中小于分割间断点处的第三阈值的数值,将该数值在A中的位置作为分割的结束位置,即每行的下边界,
步骤3.1.3,从分割的结束位置接着向下进行检测,重复步骤3.1.1与步骤3.1.2,直到将水平投影直方图A检测完为止,获得图像中表格每一行的上下边界值;
步骤3.2,通过表格每一行的上下边界值计算每一行字符的字串行高度h1与每两行之间的行间高度h2
步骤3.3,判断每俩相邻字符行的字串行高度、行间高度是否均近似相等且行间高度是否大于所有的字串行高度的平均值h,如果是则执行下一步,否则为非表格图像;
步骤3.4,对图像进行垂直投影,利用垂直投影直方图采用第三阈值对图像进行垂直分割,计算相邻字串列的列间距col
步骤3.5,判断列间距col是否大于一定数值,是则为表格图像,否则为非表格图像。
4.根据权利要求2所述的方法,其特征在于:该步骤2.2.1中所述的对于未倾斜的图像,计算图像中与宽度w近似相等的直线的行数n的具体方法如下:先对水平投影直方图A进行降序排序,得到C,然后对C进行求导得到D,计算获得D中第一个最大转折点的位置,D中该位置的数值即为行数n
5.根据权利要求3所述的方法,其特征在于:步骤3.1、步骤3.1.1、步骤3.1.2和步骤3.4中所述的第三阈值选取的具体方法如下:先计算图像的高度,即获得水平投影直方图A的长度l,然后除去与水平投影直方图A中最大值max近似相等的值,得到B={b i },b i B中第i个数值,i的取值为1,2,……,mmB的长度,取整数,利用如下公式计算分割间断点处的第三阈值lmt
lmt=0.1*(b 1 +b 2 +b 3 +…+b m-2 +b m-1 +b m )*(1/l)
lmt=max(mia,max(1,lmt))
其中,mia为水平投影直方图A中的最小值。
6.如权利要求1-5任一项所述的方法,其特征在于,所述近似相等是指两数值相差7以内。
7.如权利要求2所述的方法,其特征在于,所述第一阈值的范围为10到20之间,第二阈值的范围为0.13到0.2之间。
8.如权利要求3所述的方法,其特征在于,步骤3.5中所述的该数值为一个字符的宽度chwchw的具体计算方法如下:通过垂直分割,获得单个字符的左右边界值,得到分割出的单个字符的宽度,计算所有字符的宽度的总和,进而求得字符宽度的平均值,即得到宽度chw
CN201510786025.3A 2015-11-17 2015-11-17 一种基于投影特征与结构特征进行表格图像检测的方法 Active CN105426834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510786025.3A CN105426834B (zh) 2015-11-17 2015-11-17 一种基于投影特征与结构特征进行表格图像检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510786025.3A CN105426834B (zh) 2015-11-17 2015-11-17 一种基于投影特征与结构特征进行表格图像检测的方法

Publications (2)

Publication Number Publication Date
CN105426834A true CN105426834A (zh) 2016-03-23
CN105426834B CN105426834B (zh) 2019-02-22

Family

ID=55505034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510786025.3A Active CN105426834B (zh) 2015-11-17 2015-11-17 一种基于投影特征与结构特征进行表格图像检测的方法

Country Status (1)

Country Link
CN (1) CN105426834B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868728A (zh) * 2016-04-12 2016-08-17 中国传媒大学 一种基于化学公式特征进行图像中化学公式检测的方法
CN105938547A (zh) * 2016-04-14 2016-09-14 河海大学 一种纸质水文年鉴数字化方法
CN107066997A (zh) * 2016-12-16 2017-08-18 浙江工业大学 一种基于图像识别的电气元件报价方法
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109308465A (zh) * 2018-09-14 2019-02-05 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质
CN109858468A (zh) * 2019-03-04 2019-06-07 汉王科技股份有限公司 一种表格线识别方法及装置
CN110516208A (zh) * 2019-08-12 2019-11-29 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN111797838A (zh) * 2019-04-08 2020-10-20 上海怀若智能科技有限公司 一种图片类文档盲去噪系统、方法及装置
CN113435240A (zh) * 2021-04-13 2021-09-24 北京易道博识科技有限公司 一种端到端的表格检测和结构识别方法及系统
CN113449620A (zh) * 2021-06-17 2021-09-28 深圳思谋信息科技有限公司 基于语义分割的表格检测方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1143239C (zh) * 1998-01-05 2004-03-24 佳能株式会社 用来分析表格图像的方法和设备
CN100433045C (zh) * 2005-10-11 2008-11-12 株式会社理光 表格提取方法和设备
US7676073B2 (en) * 2006-08-29 2010-03-09 Siemens Medical Solutions Usa, Inc. System and method for reducing circular artifacts in tomographic imaging
CN103093218A (zh) * 2013-01-14 2013-05-08 西南大学 自动识别表格类型的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1143239C (zh) * 1998-01-05 2004-03-24 佳能株式会社 用来分析表格图像的方法和设备
CN100433045C (zh) * 2005-10-11 2008-11-12 株式会社理光 表格提取方法和设备
US7676073B2 (en) * 2006-08-29 2010-03-09 Siemens Medical Solutions Usa, Inc. System and method for reducing circular artifacts in tomographic imaging
CN103093218A (zh) * 2013-01-14 2013-05-08 西南大学 自动识别表格类型的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. LEVIN ET AL.: ""A Closed Form Solution to Natural Image Matting"", 《2006 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
王绪 等: ""基于投影特征与结构特性的表格图像识别"", 《计算机工程》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868728A (zh) * 2016-04-12 2016-08-17 中国传媒大学 一种基于化学公式特征进行图像中化学公式检测的方法
CN105938547A (zh) * 2016-04-14 2016-09-14 河海大学 一种纸质水文年鉴数字化方法
CN105938547B (zh) * 2016-04-14 2019-02-12 河海大学 一种纸质水文年鉴数字化方法
CN107066997B (zh) * 2016-12-16 2019-07-30 浙江工业大学 一种基于图像识别的电气元件报价方法
CN107066997A (zh) * 2016-12-16 2017-08-18 浙江工业大学 一种基于图像识别的电气元件报价方法
CN109308465A (zh) * 2018-09-14 2019-02-05 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质
CN109308465B (zh) * 2018-09-14 2020-01-17 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109284495B (zh) * 2018-11-03 2023-02-07 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109858468A (zh) * 2019-03-04 2019-06-07 汉王科技股份有限公司 一种表格线识别方法及装置
CN111797838A (zh) * 2019-04-08 2020-10-20 上海怀若智能科技有限公司 一种图片类文档盲去噪系统、方法及装置
CN110516208A (zh) * 2019-08-12 2019-11-29 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN110516208B (zh) * 2019-08-12 2023-06-09 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN113435240A (zh) * 2021-04-13 2021-09-24 北京易道博识科技有限公司 一种端到端的表格检测和结构识别方法及系统
CN113449620A (zh) * 2021-06-17 2021-09-28 深圳思谋信息科技有限公司 基于语义分割的表格检测方法、装置、设备和介质

Also Published As

Publication number Publication date
CN105426834B (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN105426834A (zh) 一种基于投影特征与结构特征进行表格图像检测的方法
CN107093172B (zh) 文字检测方法及系统
CN101770575B (zh) 名片图像倾斜角度的测量方法和装置
CN102169542B (zh) 文字识别中粘连字符的切分方法和装置
CN104298982A (zh) 一种文字识别方法及装置
CN101408937B (zh) 一种字符行定位的方法及装置
CN104346858A (zh) 一种基于磁图像的纸币面值识别方法与装置
CN101520852A (zh) 消失点检测装置和检测方法
CN107688809A (zh) 验证码识别方法、装置、计算机设备及计算机存储介质
CN100487723C (zh) 一种印刷体斜体字符的识别方法
EP0750415B1 (en) Image processing method and apparatus
JP2000251082A (ja) 文書画像傾き検出装置
US6532303B2 (en) Line direction deciding device, image inclination detecting device and image inclination correcting device
CN100456317C (zh) 行方向判定方法以及装置
JP5271956B2 (ja) 原稿方向の検出方法及び装置
CN105868728A (zh) 一种基于化学公式特征进行图像中化学公式检测的方法
JP3090342B2 (ja) 文字列方向判別装置
US20100027878A1 (en) Content detection of an image comprising pixels
Ma et al. An enhanced skew angle estimation technique for binary document images
JP2003346081A (ja) 文字認識装置
Tian et al. Segmentation of touching characters in mathematical expressions using contour feature technique
CN107092909A (zh) 基于三角形相似定理的角度检测算法
JPS6343788B2 (zh)
KR100313991B1 (ko) 문서영상의기울기검출방법
JPH07160810A (ja) 文字認識装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant