CN103377177A - 一种数字版式文件中识别表格的方法及装置 - Google Patents

一种数字版式文件中识别表格的方法及装置 Download PDF

Info

Publication number
CN103377177A
CN103377177A CN2012101290591A CN201210129059A CN103377177A CN 103377177 A CN103377177 A CN 103377177A CN 2012101290591 A CN2012101290591 A CN 2012101290591A CN 201210129059 A CN201210129059 A CN 201210129059A CN 103377177 A CN103377177 A CN 103377177A
Authority
CN
China
Prior art keywords
literal
class
line
straight line
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101290591A
Other languages
English (en)
Other versions
CN103377177B (zh
Inventor
董宁
黄文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201210129059.1A priority Critical patent/CN103377177B/zh
Priority to US13/871,862 priority patent/US9348848B2/en
Publication of CN103377177A publication Critical patent/CN103377177A/zh
Application granted granted Critical
Publication of CN103377177B publication Critical patent/CN103377177B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开一种数字版式文件中识别表格的方法及装置,应用于数字文件处理领域。该方法包括:提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。应用本发明的方法和装置能够快速精确的定位到表格。

Description

一种数字版式文件中识别表格的方法及装置
技术领域
本发明涉及数字文件处理领域,尤其涉及一种数字版式文件中识别表格的方法及装置。
背景技术
在报业、出版社等行业中,使用排版软件排版完成后,需要从已经生产的版面中提取文章以及相关的元数据信息,以便进一步利用,即文章信息重构和标引。为了更真实还原版面的内容,除了需要文章本身的内容信息(如:标题、引题、副题、作者、正文等多项信息)以外,在标引时还提取需要文字块的位置、字体字号等信息。
目前,对于数字报刊在进行标引处理(即提对报刊中的内容信息进行组织,如:标注版面信息——出版日期、版次、版名)时,由于版面中往往存在大量的表格,一般情况下由于对于这些表格数据不能很好的进行自动处理,而人工处理又会十分繁琐,所以一般的处理方式是将这类数据丢弃或作为图片进行存储,但是这样的处理方式会导致大量的表格数据丢失。
现有技术中,在专利200810224799.7中公布了“一种版式文件中表格识别方法及系统”,具体公开的方法为:从版式文件中的版面中提取原始文字块,对原始文字块进行第一次合并,得到初始合并后的文字块;对初始合并后的文字块进行进一步的合并,得到再次合并后的文字块;对再次合并后的文字块进行筛选,选择出其中是表格的表格文字块;将表格文字块中的文字内容进行重新组合,得到表格中的内容。
在上述技术方案中,从版式文件中文字信息,利用自动合并技术将版面中独立的文字进行合并,组织成为内容块,再根据内容块的空间位置、字体信息、排版信息进行表格的识别。优点是可以确定排版比较整齐的表格,对于复杂表格(如嵌套表格、排列不规整的表格等)不能识别或是识别错误。
发明内容
本发明提供一种数字版式文件中识别表格的方法及装置,解决现有技术中对于复杂表格不能识别或是识别错误的问题。
本发明提供一种数字版式文件中识别表格的方法,包括:
提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;
检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;
检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。
确定所述相交直线组所在的第一区域为表格区域之前,还进一步包括:
逐个判断所述相交直线组所包括的水平直线之间是否有文字,若有,则检测水平直线之间的文字是否在垂直直线之间,且所述文字的个数小于第二阈值,确定所述相交直线组所在的第一区域为表格区域。
则确定所述相交直线组所在的第一区域为表格区域之前,还进一步包括:
提取相交直线组中各直线所在区域中的文字,获取任意两个文字之间的距离;
根据该距离确定两个文字是否为近邻文字,若是,则将近邻文字合并成一个文字块;
对合并后的文字块进行垂直投影,确定各文字块在列方向上的区间范围;
根据所述确定的区间范围确定每一个投影栏中的行数,若投影栏的行数大于等于2,则确定所述相交直线组所在区域为表格区域。
所述根据该距离确定两个文字是否为近邻文字包括:
获取两个待判定的文字T1和T2,其中,T1和T2对应的字号为f1和f2,对应的位置左上角坐标分别为(x1,y1)和(x2,y2),右下角坐标分别为(x1’,y1’)和(x2’,y2’):
当c<cmax且dx<dxmax且dy<dymax时,则判断文字T1和T2为近邻文字,
其中,c为字号差别系数=2*(f1-f2)/(f1+f2);h为平均字符高度=(y1’-y1+y2’-y2)/2;
dx为T1和T2在水平方向的距离=(max(x1,x2)-min(x1’,x2’))/h,其中max(a,b)取a和b中的最大值,min(a,b)取a和b中的最小值;
dy为T1和T2垂直方向的距离系数=(max(y1,y2)-min(y1’,y2’))/h;其中,字号差别系数阈值cmax,水平方向距离系数阈值dxmax,垂直方向距离系数阈值dymax。
将提取的直线分成水平直线类和垂直直线类之后,还进一步包括:
如果任意两条水平直线的端点Y坐标相等,则判断所述任意两条水平直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条水平直线合并成一条水平直线;
如果任意两条垂直直线的端点X坐标相等,则判断所述任意两条垂直直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条垂直直线合并成一条垂直直线。
检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交之前,还进一步包括:
将水平直线按照起点的y坐标进行排序,若y坐标相同,则按照起点的x坐标进行排序;
将垂直直线按照起点的y坐标进行排序,若y坐标相同,则按照起点的x坐标进行排序。
根据上述方法本发明还提供一种数字版式文件中识别表格的装置,包括:
直线提取模块,用于提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;
表格线检测模块,用于检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;
表格识别模块,用于检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。
该装置还包括:
文字判断模块,用于逐个判断所述相交直线组所包括的水平直线之间是否有文字,若有,则检测水平直线之间的文字是否在垂直直线之间,且所述文字的个数小于第二阈值,则确定所述相交直线组所在的第一区域为表格区域。
该装置还包括:
投影模块,用于提取相交直线组中各直线所在区域中的文字,获取任意两个文字之间的距离;根据该距离确定两个文字是否为近邻文字,若是,则将近邻文字合并成一个文字块;对合并后的文字块进行垂直投影,确定各文字块在列方向上的区间范围;根据所述确定的区间范围确定每一个投影栏中的行数,若投影栏的行数大于等于2,则确定所述相交直线组所在区域为表格区域。
该装置还包括:
直线合并模块,用于如果任意两条水平直线的端点Y坐标相等,则判断所述任意两条水平直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条水平直线合并成一条水平直线;如果任意两条垂直直线的端点X坐标相等,则判断所述任意两条垂直直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条垂直直线合并成一条垂直直线。
本发明提供的方法和装置,根据表格区域中表格线和文字结合进行判定从而能够快速定位到表格,并自动识别表格。并提高了标引人员的工作效率,节省数据加工成本。
附图说明
图1为本发明实施例一种数字版式文件中识别表格的方法的流程示意图;
图2为本发明实施例一种数字版式文件中识别表格的装置的结构示意图。
具体实施方式
本发明实施例提供一种数字版式文件中识别表格的方法,包括:提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。
如图1所示,本发明实施例提供一种数字版式文件中识别表格的方法,下面结合说明书附图对本发明的具体实施方式进行详细说明:
步骤101,提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;
提取版面中的图形信息,检测版式文件中是否存在水平、垂直的实线,若存在,则将其存入表格线数组m_arrGraphBlock中。
为了过滤掉版面的边框线对检测结果的误导,以及在版式文件中提取的直线在版面之外的情况,则需要将这些会导致出现错误结果的直线过滤掉。过滤方法为:
检测直线的两顶点的坐标是否在版面图区域内,若是,则将该直线保留,否则,则去除该直线。
在本发明实施例中,将水平直线和垂直直线进行分类分成水平直线类和垂直直线类,分类方法为:
A1,水平直线类:检测m_arrGraphBlock中的直线LineH的起点和结束点的在y方向上的值相等的情况,若相等,则将该直线LineH移动到水平直线类classHori中。
B1,垂直直线类:检测m_arrGraphBlock中的直线LineV的起点和结束点的在x方向上的值相等的情况,若相等,则将该直线LineV移动到垂直直线类classVert中。
为了排除一条直线提取多次的情况,在本发明实施例中,将提取的直线分成水平直线类和垂直直线类之后,还需要对一些直线进行合并操作,具体的操作步骤包括:
A2,如果任意两条水平直线的端点Y坐标相等,则判断所述任意两条水平直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条水平直线合并成一条水平直线;
实现上述A2步骤的具体方式可以是:如果任意两条水平直线LineH1和LineH2,其左右端点坐标分别为(Lhx1,Rhy1)和(Lhx2,Rhy1)、(Lhx3,Rhy2)和(Lhx4,Rhy2),若LineH1的Rhy1等于LineH2的Rhy2,则判断所述任意两条水平直线LineH1和LineH2是否存在交点,即Lhx3或Lhx4在Lhx1和Lhx2之间。
B2,如果任意两条垂直直线的端点X坐标相等,则判断所述任意两条垂直直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条垂直直线合并成一条垂直直线。
实现上述B2步骤的具体方式可以是:如果任意两条垂直直线LineV1和LineV2,其左右端点坐标分别为(Lvx1,Rvy1)和(Lvx1,Rvy2)、(Lvx2,Rvy3)和(Lvx2,Rvy4),若Lvx1等于Lvx2,则判断所述任意两条直线LineV1和LineV2是否存在交点,即Lvy3或Lvy4在Lvy1和Lvy2之间。
步骤102,检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;
在本发明实施例中,所述相交直线组的信息可以存储到预设的表格中,形成表格类。
a,从水平直线类classHori中取出直线LineH,检测垂直直线类classVert中是否有直线LineV与LineH相交,若存在,则执行步骤b,否则,重复执行此步骤;
b,将LineV移动到表格类Tabel中的水平线集合arrHori中,将LineH移动到表格类Tabel中的垂直线集合arrVert中;
c,分别检测classHori和classVert中是否存在和Tabel中的直线相交的直线,若存在,则将水平线移动到表格类Tabel中的水平线集合arrHori中,将垂直线移动到表格类Tabel中的垂直线集合arrVert中;
d,将类Tabel添加到表格类集合arrTabel中。
e,重复步骤a,直到classHori和classVert中没有相交的直线。
步骤103,检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述表格类中包括的直线所在的第一区域为表格区域,否则,转入步骤104。
在本发明实施例中,所述相交直线组为至少有一个交点的任意两条直线。在检测所述相交直线组的数量是否都大于第一阈值时候,即需要检测存在多少组的相交直线组则会形成一个表格,因为一般形成一个普通的表格大概需要横竖相交的5条直线,所以在本发明实施例中所述第一阈值可以是5。在具体的应用中形成表格的条件不同所述第一阈值的取值相应的变化。
步骤104,获取所述第一区域中的文字,并对获取到的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。
进一步,为了更精确的确定直线所在的区域是否为表格区域,步骤103中在确定表格类中水平直线和垂直直线的条数分别大于2之后,则可初步确定各直线所在区域为表格区域,为了进一步的排除边框线对判断结果的误导,则该方法还进一步包括对所述第一区域中的文字进行判定,具体的实现方式可以包括:
需要根据各直线间的文字内容确定是否为表格,其中具体实现方式包括以下两种,在具体的应用中可以只是通过一种来实现,同时也可两种方式组合应用。
方式1:逐个判断所述表格类所包括的水平直线之间是否有文字,若有,则检测水平直线之间的文字是否在垂直直线之间,且判断所述文字的个数小于第二阈值,如果是,则确定所述表格类中包括直线所在区域为表格区域。
其中,因为正常的排版中根据版面和文字的大小可以确定一行最多可以排列的文字个数确定所述第二阈值,在本发明实施例中可以将所述第二阈值设置为25。
进一步,如果在确定所述表格类中包括直线所在区域为表格区域,后还进一步可以通过根据各直线的坐标确定表格的边界线,具体实现方式可以是:
确定表格区域的上边界为Tabel中的水平线集合arrVert中的所有直线的起点在y方向上的最小的值,下边界为Tabel中的水平线集合arrVert中的所有直线的起点在y方向上的最大的值,左边界为Tabel中的垂直线集合arrHori中的所有直线的起点在x方向上的最小的值,右边界为Tabel中的垂直线集合arrHori中的所有直线的起点在x方向上的最大的值。
方式2:根据利用文字的投影方式确定各文字的排列方式:
提取表格类中各直线所在区域中的文字,获取任意两个文字之间的距离;
(a),根据该距离确定两个文字是否为近邻文字,若是,则将近邻文字合并成一个文字块;
(b),对合并后的文字块进行垂直投影,确定各文字块在列方向上的区间范围;
(c),根据所述确定的区间范围确定每一栏中的行数,若投影栏的数目大于等于2,则确定所述表格类中包括直线所在区域为表格区域。
通过垂直投影的方法确定,某一区域为表格后,可以通过以下方式确定整个表格的格式:
统计每一栏中的行数,找出最多的行数maxLine;
若maxLine大于15,则设置最大的间距maxSpace为C1倍的文本块的平均字号,否则若maxLine大于8,则设置maxSpace为文本块的平均字号,否则设置maxSpace为C2文本块的平均字号;
过滤过小的区间间距,即若相邻两列的间距小于maxSpace减1且两列之间没有垂直直线(即垂直直线类classVert中的直线不在投影的两列之间),则将这两列过滤掉。
在本发明实施例中,阈值C1可以设置为0.6,阈值C2可以设置为1.3。
另外,在本发明实施例中,所述根据该距离确定两个文字是否为近邻文字包括:
获取两个待判定的文字T1和T2,其中,T1和T2对应的字号为f1和f2,对应的位置左上角坐标分别为(x1,y1)和(x2,y2),右下角坐标分别为(x1’,y1’)和(x2’,y2’);
当c<cmax且dx<dxmax且dy<dymax时,则判断文字T1和T2为近邻文字;
其中,c为字号差别系数=2*(f1-f2)/(f1+f2);h为平均字符高度=(y1’-y1+y2’-y2)/2;dx为T1和T2在水平方向的距离=(max(x1,x2)-min(x1’,x2’))/h,其中max(a,b)取a和b中的最大值,min(a,b)取a和b中的最小值;dy为T1和T2垂直方向的距离系数=(max(y1,y2)-min(y1’,y2’))/h;其中,字号差别系数阈值cmax,水平方向距离系数阈值dxmax,垂直方向距离系数阈值dymax。
本实施例步骤101中,对一些直线进行合并操作具体的实现方式可以是:
【1】对于水平直线类classHori:
LineH1和LineH2相连,则将LineH1与LineH2合并成直线LineHm,LineHm在x方向上的起点坐标值取LineH1在x方向上的起点坐标值与LineH2在x方向上的起点的坐标值的最小值,LineHm在x方向上的结束点坐标值为LineH在x方向上的结束点坐标值与LineHy在x方向上的结束点的坐标值的最大值,LineHm在y方向上的起点坐标值和结束点坐标值均为LineH1在y方向上的起点坐标值。
【2】对于垂直直线类classVert;
垂直直线LineV1和LineV2,将LineV1与LineV2合并成直线LineVm,LineVm在y方向上的起点坐标值为LineV1在y方向上的起点坐标值与LineV2在y方向上的起点的坐标值的最小值,LineVm在y方向上的结束点坐标值为LineV1在y方向上的结束点坐标值与LineV2在y方向上的结束点的坐标值的最大值,LineVm在x方向上的起点坐标值和结束点坐标值均为LineV1在x方向上的起点坐标值。
另外,因为线条的粗细和识别的错误可能会导致一条直线被识别成两条距离很近的线条,为了避免这种情况,本实施例中包括:
检测直线中是否存在直线间的间距较小的情况,若存在,则只保留一条直线,其余直线被剔除掉。具体操作为:
对于水平直线类classHori,检测classHori中的直线LineH是否与classHori中的任意直线LineHy存在间距较小的情况,即LineH在y方向上的起点值和LineHy在y方向上的起点值的差值的绝对值小于阈值2.5。
对于垂直直线类classVert,检测classVert中的直线LineV是否与classVert中的任意直线LineVx存在间距较小的情况,即LineV在x方向上的起点值和LineVx在x方向上的起点值的差值的绝对值小于阈值2.5。
如图2所示,根据上述方法本发明实施例还提供一种数字版式文件中识别表格的装置,包括:
直线提取模块201,用于提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;
表格线检测模块202,用于检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;
表格识别模块203,用于检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。
文字判断模块204,用于逐个判断所述相交直线组所包括的水平直线之间是否有文字,若有,则检测水平直线之间的文字是否在垂直直线之间,且所述文字的个数小于第二阈值,则确定所述相交直线组所在的第一区域为表格区域。
投影模块205,用于提取表格类中各直线所在区域中的文字,获取任意两个文字之间的距离;根据该距离确定两个文字是否为近邻文字,若是,则将近邻文字合并成一个文字块;对合并后的文字块进行垂直投影,确定各文字块在列方向上的区间范围;根据所述确定的区间范围确定每一栏中的行数,若投影栏的数目大于等于2,则确定所述表格类中包括直线所在区域为表格区域。
直线合并模块206,用于如果任意两条水平直线的端点Y坐标相等,则判断所述任意两条水平直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条水平直线合并成一条水平直线;如果任意两条垂直直线的端点X坐标相等,则判断所述任意两条垂直直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条垂直直线合并成一条垂直直线。
在版式文件中存在大量的表格,由于表格数据不能很好的自动处理,人工处理又比较繁琐,导致表格数据经常被丢弃或作为图片进行处理。本发明实施例中,通过对表格线和表格中文字同时进行判定,从而更为准确的判定某一区域为表格区域。本发明实施例所提供的方法能够快速定位到表格,并自动识别表格。自动识别表格后,人工只需进行简单的确认,提高了标引人员的工作效率,节省数据加工成本。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数字版式文件中识别表格的方法,其特征在于,包括:
提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;
检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;
检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。
2.如权利要求1所述的方法,其特征在于,确定所述相交直线组所在的第一区域为表格区域之前,还进一步包括:
逐个判断所述相交直线组所包括的水平直线之间是否有文字,若有,则检测水平直线之间的文字是否在垂直直线之间,且所述文字的个数小于第二阈值,确定所述相交直线组所在的第一区域为表格区域。
3.如权利要求1所述的方法,其特征在于,则确定所述相交直线组所在的第一区域为表格区域之前,还进一步包括:
提取相交直线组中各直线所在区域中的文字,获取任意两个文字之间的距离;
根据该距离确定两个文字是否为近邻文字,若是,则将近邻文字合并成一个文字块;
对合并后的文字块进行垂直投影,确定各文字块在列方向上的区间范围;
根据所述确定的区间范围确定每一个投影栏中的行数,若投影栏的行数大于等于2,则确定所述相交直线组所在区域为表格区域。
4.如权利要求3所述的方法,其特征在于,所述根据该距离确定两个文字是否为近邻文字包括:
获取两个待判定的文字T1和T2,其中,T1和T2对应的字号为f1和f2,对应的位置左上角坐标分别为(x1,y1)和(x2,y2),右下角坐标分别为(x1’,y1’)和(x2’,y2’):
当c<cmax且dx<dxmax且dy<dymax时,则判断文字T1和T2为近邻文字,
其中,c为字号差别系数=2*(f1-f2)/(f1+f2);h为平均字符高度=(y1’-y1+y2’-y2)/2;
dx为T1和T2在水平方向的距离=(max(x1,x2)-min(x1’,x2’))/h,其中max(a,b)取a和b中的最大值,min(a,b)取a和b中的最小值;
dy为T1和T2垂直方向的距离系数=(max(y1,y2)-min(y1’,y2’))/h;其中,字号差别系数阈值cmax,水平方向距离系数阈值dxmax,垂直方向距离系数阈值dymax。
5.如权利要求1所述的方法,其特征在于,将提取的直线分成水平直线类和垂直直线类之后,还进一步包括:
如果任意两条水平直线的端点Y坐标相等,则判断所述任意两条水平直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条水平直线合并成一条水平直线;
如果任意两条垂直直线的端点X坐标相等,则判断所述任意两条垂直直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条垂直直线合并成一条垂直直线。
6.如权利要求1所述的方法,其特征在于,检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交之前,还进一步包括:
将水平直线按照起点的y坐标进行排序,若y坐标相同,则按照起点的x坐标进行排序;
将垂直直线按照起点的y坐标进行排序,若y坐标相同,则按照起点的x坐标进行排序。
7.一种数字版式文件中识别表格的装置,其特征在于,包括:
直线提取模块,用于提取版面中的直线,并将提取的直线分成水平直线类和垂直直线类;
表格线检测模块,用于检测水平直线类中的水平直线是否与垂直直线类中的垂直直线相交,若相交,则将水平直线类和垂直直线类中相交的直线确定为相交直线组;
表格识别模块,用于检测所述相交直线组的数量是否都大于第一阈值,若是,则确定所述相交直线组所在的第一区域为表格区域;否则,对所述第一区域中的文字进行垂直投影操作,并根据垂直投影结果确定所述第一区域是否为表格区域。
8.如权利要求7所述的装置,其特征在于,该装置还包括:
文字判断模块,用于逐个判断所述相交直线组所包括的水平直线之间是否有文字,若有,则检测水平直线之间的文字是否在垂直直线之间,且所述文字的个数小于第二阈值,则确定所述相交直线组所在的第一区域为表格区域。
9.如权利要求7所述的装置,其特征在于,该装置还包括:
投影模块,用于提取相交直线组中各直线所在区域中的文字,获取任意两个文字之间的距离;根据该距离确定两个文字是否为近邻文字,若是,则将近邻文字合并成一个文字块;对合并后的文字块进行垂直投影,确定各文字块在列方向上的区间范围;根据所述确定的区间范围确定每一个投影栏中的行数,若投影栏的行数大于等于2,则确定所述相交直线组所在区域为表格区域。
10.如权利要求7所述的装置,其特征在于,该装置还包括:
直线合并模块,用于如果任意两条水平直线的端点Y坐标相等,则判断所述任意两条水平直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条水平直线合并成一条水平直线;如果任意两条垂直直线的端点X坐标相等,则判断所述任意两条垂直直线是否包括至少一个坐标相同的点,如果是,则将所述任意两条垂直直线合并成一条垂直直线。
CN201210129059.1A 2012-04-27 2012-04-27 一种数字版式文件中识别表格的方法及装置 Expired - Fee Related CN103377177B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210129059.1A CN103377177B (zh) 2012-04-27 2012-04-27 一种数字版式文件中识别表格的方法及装置
US13/871,862 US9348848B2 (en) 2012-04-27 2013-04-26 Methods and apparatus for identifying tables in digital files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210129059.1A CN103377177B (zh) 2012-04-27 2012-04-27 一种数字版式文件中识别表格的方法及装置

Publications (2)

Publication Number Publication Date
CN103377177A true CN103377177A (zh) 2013-10-30
CN103377177B CN103377177B (zh) 2016-03-30

Family

ID=49462310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210129059.1A Expired - Fee Related CN103377177B (zh) 2012-04-27 2012-04-27 一种数字版式文件中识别表格的方法及装置

Country Status (2)

Country Link
US (1) US9348848B2 (zh)
CN (1) CN103377177B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268545A (zh) * 2014-09-15 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN104780465A (zh) * 2015-03-25 2015-07-15 小米科技有限责任公司 画面参数调节方法及装置
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105912516A (zh) * 2016-04-01 2016-08-31 南京朗坤软件有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN106778717A (zh) * 2016-11-11 2017-05-31 河海大学 一种基于图像识别和k近邻的测评表识别方法
CN106951855A (zh) * 2017-03-16 2017-07-14 深圳市飘飘宝贝有限公司 一种图片中文档定位和拆切方法
CN107909064A (zh) * 2017-12-27 2018-04-13 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN107943857A (zh) * 2017-11-07 2018-04-20 中船黄埔文冲船舶有限公司 自动读取AutoCAD表格的方法、装置、终端设备与存储介质
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN110163030A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
CN110569489A (zh) * 2018-06-05 2019-12-13 北京国双科技有限公司 基于pdf文件的表格数据解析方法及装置
CN110990551A (zh) * 2019-12-17 2020-04-10 北大方正集团有限公司 文本内容的处理方法、装置、设备以及存储介质
CN111144282A (zh) * 2019-12-25 2020-05-12 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN113343658A (zh) * 2021-07-01 2021-09-03 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235757B1 (en) * 2014-07-24 2016-01-12 Amazon Technologies, Inc. Fast text detection
CN104636717B (zh) * 2014-12-24 2018-06-15 四川超凡知识产权服务股份有限公司 图表识别的方法及装置
US11650970B2 (en) 2018-03-09 2023-05-16 International Business Machines Corporation Extracting structure and semantics from tabular data
US11200413B2 (en) * 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
CN109308465B (zh) * 2018-09-14 2020-01-17 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质
CN109858468B (zh) * 2019-03-04 2021-04-23 汉王科技股份有限公司 一种表格线识别方法及装置
US11270065B2 (en) 2019-09-09 2022-03-08 International Business Machines Corporation Extracting attributes from embedded table structures
CN110598196A (zh) * 2019-09-16 2019-12-20 腾讯科技(深圳)有限公司 一种缺失外边框的表格数据提取方法、装置和存储介质
CN112036232B (zh) * 2020-07-10 2023-07-18 中科院成都信息技术股份有限公司 一种图像表格结构识别方法、系统、终端以及存储介质
EP4099215B1 (en) 2021-06-03 2024-01-10 Telefonica Cibersecurity & Cloud Tech S.L.U. Computer vision method for detecting document regions that will be excluded from an embedding process and computer programs thereof
CN113269153B (zh) * 2021-06-26 2024-03-19 中国电子系统技术有限公司 一种表格识别方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
JP2008046812A (ja) * 2006-08-14 2008-02-28 Fujitsu Ltd 表データ処理方法及び装置
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
CN101833546A (zh) * 2009-03-10 2010-09-15 株式会社理光 从可移植电子文档中提取表格的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2789971B2 (ja) * 1992-10-27 1998-08-27 富士ゼロックス株式会社 表認識装置
US6006240A (en) * 1997-03-31 1999-12-21 Xerox Corporation Cell identification in table analysis
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173073B1 (en) * 1998-01-05 2001-01-09 Canon Kabushiki Kaisha System for analyzing table images
JP2008046812A (ja) * 2006-08-14 2008-02-28 Fujitsu Ltd 表データ処理方法及び装置
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
CN101833546A (zh) * 2009-03-10 2010-09-15 株式会社理光 从可移植电子文档中提取表格的方法和装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268545A (zh) * 2014-09-15 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN104780465A (zh) * 2015-03-25 2015-07-15 小米科技有限责任公司 画面参数调节方法及装置
CN104780465B (zh) * 2015-03-25 2018-09-04 小米科技有限责任公司 画面参数调节方法及装置
CN105589841B (zh) * 2016-01-15 2018-03-30 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105912516B (zh) * 2016-04-01 2019-02-05 朗坤智慧科技股份有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN105912516A (zh) * 2016-04-01 2016-08-31 南京朗坤软件有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN106778717A (zh) * 2016-11-11 2017-05-31 河海大学 一种基于图像识别和k近邻的测评表识别方法
CN106778717B (zh) * 2016-11-11 2020-05-05 河海大学 一种基于图像识别和k近邻的测评表识别方法
CN106951855B (zh) * 2017-03-16 2020-04-10 深圳市六六六国际旅行社有限公司 一种图片中文档定位和裁切方法
CN106951855A (zh) * 2017-03-16 2017-07-14 深圳市飘飘宝贝有限公司 一种图片中文档定位和拆切方法
CN107943857A (zh) * 2017-11-07 2018-04-20 中船黄埔文冲船舶有限公司 自动读取AutoCAD表格的方法、装置、终端设备与存储介质
CN107909064A (zh) * 2017-12-27 2018-04-13 掌阅科技股份有限公司 三线表识别方法、电子设备及存储介质
CN110163030B (zh) * 2018-02-11 2021-04-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
CN110163030A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
CN108446264B (zh) * 2018-03-26 2022-02-15 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108446264A (zh) * 2018-03-26 2018-08-24 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
CN108470021B (zh) * 2018-03-26 2022-06-03 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN110569489A (zh) * 2018-06-05 2019-12-13 北京国双科技有限公司 基于pdf文件的表格数据解析方法及装置
CN110990551A (zh) * 2019-12-17 2020-04-10 北大方正集团有限公司 文本内容的处理方法、装置、设备以及存储介质
CN110990551B (zh) * 2019-12-17 2023-05-26 北大方正集团有限公司 文本内容的处理方法、装置、设备以及存储介质
CN111144282A (zh) * 2019-12-25 2020-05-12 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN111144282B (zh) * 2019-12-25 2023-12-05 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN113343658A (zh) * 2021-07-01 2021-09-03 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备
CN113343658B (zh) * 2021-07-01 2024-04-09 湖南四方天箭信息科技有限公司 一种pdf文件信息抽取方法、装置以及计算机设备

Also Published As

Publication number Publication date
CN103377177B (zh) 2016-03-30
US20130290376A1 (en) 2013-10-31
US9348848B2 (en) 2016-05-24

Similar Documents

Publication Publication Date Title
CN103377177A (zh) 一种数字版式文件中识别表格的方法及装置
US9798925B2 (en) Method for identifying PDF document
CN101770446A (zh) 一种版式文件中表格识别方法及系统
CN104516891B (zh) 一种版面分析方法及系统
CN101206639A (zh) 一种基于pdf的复杂版面的标引方法
CN106709032A (zh) 抽取电子表格文档中结构化信息的方法及装置
CN102156865A (zh) 手写文本行字符切分方法、识别方法
CN102194117B (zh) 文稿页面方向检测方法和装置
Harit et al. Table detection in document images using header and trailer patterns
CN101676930A (zh) 一种识别扫描图像中表格单元的方法及装置
WO2012099801A4 (en) Ordering document content
CN108197216A (zh) 一种信息处理的方法
CN104751148B (zh) 一种版式文件中识别科学公式的方法
CN105654022A (zh) 一种提取文档结构化信息的方法及装置
Mitchell et al. Newspaper document analysis featuring connected line segmentation
CN108717544A (zh) 一种基于智能图像分析的报纸样稿文字自动检测方法
CN105488471A (zh) 一种字形识别方法及装置
CN104268545A (zh) 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN103176956B (zh) 用于提取文档结构的方法和装置
CN101901333B (zh) 文本图像中切分词的方法及使用该方法的识别装置
CN111340000A (zh) 一种针对pdf文档表格提取优化方法及系统
CN107066997A (zh) 一种基于图像识别的电气元件报价方法
CN103400132A (zh) 一种字符分割方法及装置
CN102542279A (zh) 维哈柯文文本图像的行提取方法及装置
CN102591845B (zh) 一种重叠文字的处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: FOUNDER INFORMATION INDUSTRY HOLDING CO., LTD. BEI

Free format text: FORMER OWNER: BEIJING FOUNDER APABI TECHNOLOGY CO., LTD.

Effective date: 20130923

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130923

Address after: 100871 Beijing, Haidian District into the house road, founder of the building on the 9 floor, No. 298

Applicant after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant after: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Applicant after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871 Beijing, Haidian District into the house road, founder of the building on the 9 floor, No. 298

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: FOUNDER APABI TECHNOLOGY Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20220908

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160330

CF01 Termination of patent right due to non-payment of annual fee