CN110399878A - 表格版式恢复方法,计算机可读介质以及计算机 - Google Patents

表格版式恢复方法,计算机可读介质以及计算机 Download PDF

Info

Publication number
CN110399878A
CN110399878A CN201910515447.5A CN201910515447A CN110399878A CN 110399878 A CN110399878 A CN 110399878A CN 201910515447 A CN201910515447 A CN 201910515447A CN 110399878 A CN110399878 A CN 110399878A
Authority
CN
China
Prior art keywords
character
block
blocks
text
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910515447.5A
Other languages
English (en)
Other versions
CN110399878B (zh
Inventor
熊永平
杨靖民
伍贵宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huoyanruishi Information Technology Co Ltd
Original Assignee
Nanjing Huoyanruishi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Huoyanruishi Information Technology Co Ltd filed Critical Nanjing Huoyanruishi Information Technology Co Ltd
Priority to CN201910515447.5A priority Critical patent/CN110399878B/zh
Publication of CN110399878A publication Critical patent/CN110399878A/zh
Application granted granted Critical
Publication of CN110399878B publication Critical patent/CN110399878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种表格版式恢复方法,计算机可读存储介质以及计算机,其中该方法包括:利用OCR识别技术识别表格图像,输出表格文字块;采用渐进式投影法提取表格的行向量;采用对齐特征查找法恢复表格的列向量,直至得到表格的全部列向量;得到全部列向量之后,将列向量按每个向量首位文字块的横坐标升序排序,得到排序后的列向量,从而得到二维矩阵形式的表格。根据本发明的技术方案,充分利用了OCR识别结果中的形态学信息,避免依赖表格框线,提高了表格版式识别的准确率。

Description

表格版式恢复方法,计算机可读介质以及计算机
技术领域
本发明涉及表格图像识别领域,尤其涉及一种通过提取行向量和列向量来恢复表格版式的新颖表格版式恢复方法。
背景技术
由于表格具有简洁的数据组织方式以及明确的数据统计方法,所以各行各业都会使用表格办公。表格是一种用于表示数据之间的逻辑关系的载体,常用的表格类型有以列为属性、以行为对象的标准表格,以及键在左、值在右的复杂表格。
但随着办公中纸质表格使用的增加,随之而来的是大量需要处理与统计的表格数据,处理这些数据需要耗费大量人力。若通过计算机对扫描后的表格图像进行提取并还原成电子表格,就能够通过程序批量处理并分析表格的各项数据,提高办公效率。
目前主流的表格识别及提取系统分为两类,一类是使用深度学习方式从图像中直接提取表格特征的方法,这种方式的优点是端到端,输入图像输出提取结果,没有中间结果。缺点是识别率不高,并且会出现同一个表格嵌套识别的问题。
还有一类是利用形态学来检测表格的一些特征,如表格框线。这种方式的优点是流程清晰,准确率稍高,但缺点是依赖表格框线的特性,若遇到无框线的表格,这种方法便失效。
发明内容
鉴于以上问题,做出本发明。根据本发明一方面,提供一种表格版式恢复方法,包括:利用OCR识别技术识别表格图像,输出表格文字块的集合,所述表格文字块包括该表格文字块的左上角点在表格图像中的坐标、表格文字块的宽度及高度、表格文字块内包含的文本信息;采用渐进式投影法提取表格文字块的集合的行向量,包括:将OCR输出的表格文字块按纵坐标排序,取排序后的首位文字块作为基准文字块;利用文字块的高度关系,在剩余文字块中查找与所述基准文字块构成同行关系的文字块集合Li;将集合Li中包含的文字块按横坐标升序排列,形成一个行向量;重复执行以上步骤,直至得到表格的全部行向量;采用对齐特征查找法恢复表格的列向量:从上述全部行向量中,取出向量维度最高的行向量,作为基准行向量L;取基准行向量L中的文字块,利用文字块左上角点横坐标以及文字块宽度,在剩余行向量中,查找与基准行向量中的文字块处于列对齐关系的文字块,将这样的文字块集合作为基准行向量中的文字块的列集合;将列集合中包含的文字块按纵坐标升序排列,形成一个列向量;重复执行以上步骤,直至得到表格的全部列向量;得到全部列向量之后,将列向量按每个向量首位文字块的横坐标升序排序,得到排序后的列向量,从而得到二维矩阵形式的表格。
根据本发明另一方面,提供一种计算机可读存储介质,其上存储有计算机可读指令,该计算机可读指令在被计算机运行时执行上述表格版式恢复方法。
根据本发明又一方面,还提供一种计算机,包括:存储器,用于存储由处理器运行的指令;处理器,用于运行指令以执行上述表格版式恢复方法。
根据本发明的技术方案,充分利用了OCR识别结果中的形态学信息,避免依赖表格框线,提高了表格版式识别的准确率。
附图说明
图1示出了根据本发明实施方式的表格版式恢复方法的流程图。
图2示出了根据本发明实施方式采用渐进式投影法提取表格的行向量的流程图。
图3示出了根据本发明实施方式采用对齐特征查找法恢复表格的列向量的流程图。
图4示出了根据本发明实施方式的数据项粘连切分过程的流程图。
图5(a)示出了通过OCR技术将表格图像识别为表格文字块的结果示例图。
图5(b)示出了将图5(a)所示的表格文字块按纵坐标升序排序后得到的结果示例图。
图6是示出了可作为用来实现根据本发明实施例的表格版式恢复方法的信息处理设备的通用计算机系统的结构简图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明旨在于避免依赖表格框线的情况下,尽可能地提高表格版式识别的准确率。本发明技术方案的总思想是:针对标准的行列式表格,利用OCR识别表格图像后的结果作为本发明的输入对象,该OCR识别表格图像后的结果包括以空间中相对独立的词语为单位划分出的文字块以及该文字块中的文本信息,再通过渐进式投影法和对齐特征查找法恢复表格版面的行与列信息,进而得到二维矩阵形式的表格版式。
下面参照图1描述本发明的具体实施方式。如图1所示,根据本发明实施方式的表格版式恢复方法包括以下步骤:
S110:利用OCR识别技术识别表格图像,输出表格文字块的集合。
具体地,可以利用成熟OCR识别技术识别表格图像,输出表格文字块。这些表格文字块将作为本方法的输入对象。表格文字块包括该表格文字块的左上角点在表格图像中的坐标、表格文字块的宽度及高度,以及表格文字块内包含的文本信息。
图5(a)示出了该表格文字块的集合的示例图。如图5(a)所示,每个框表示一个表格文字块,记作(x,y,w,h),其中(x,y)是框的左上角点在整体图像中的横坐标和纵坐标,w为框的宽度,h为框的高度。
S120:采用渐进式投影法提取表格文字块集合的行向量,该步骤如图2所示具体包括:
S1200:将OCR输出的表格文字块按纵坐标排序,取排序后的首位文字块作为基准文字块;
如上所述,表格文字块由OCR识别出的像素块位置信息以及像素块内包含的文字信息组成,排序指的是利用表格文字块的像素块位置信息进行排序。
假设文字块bi的像素块位置信息由(xi,yi,wi,hi)表示,其中xi,yi分别表示该像素块左上角点的横坐标和纵坐标,wi,hi分别表示该像素块的宽度和高度。将OCR识别输出的全部表格文字块按纵坐标yi排列,并取排序后位于首位的文字块作为基准文字块。
在本发明实施方式中,可以取表格图像的左上角点为坐标原点,向右为x轴正方向,向下为y轴正方向,那么上述的排序就是按纵坐标yi进行升序排序。
以图5(a)所示的表格文字块为例,按纵坐标升序排序后得到的部分结果如图5(b)所示。
S1210:利用文字块的高度关系,在剩余文字块中查找与基准文字块构成同行关系的文字块集合Li
具体地,基准文字块的作用是初始化一个临时行高。假设基准文字块为b1,将基准文字块的纵坐标与高度组合成区间形式,如(y1,y1+h1),该区间用以表示基准文字块所在行的像素区间,记为临时行高(H0,H1)。
遍历剩余的表格文字块,判断其纵坐标与高度组成的区间是否与临时行高有重叠部分。比如针对文字块为bi,其像素区间为(yi,yi+hi),计算其与临时行高的重叠比例,如下式:
其中,Pprojection即为重叠比例。若Pprojection大于预先设定的重叠比例阈值,则认为文字块bi与基准文字块处于同一行,构成同行关系。该阈值的设置可以根据表格情况:若表格图像的同一行中包含多种字号文字,阈值可设置得较低,从而确保属于同一行的文字块能够被加入该行的行向量中;若同一行中文字字号一致,阈值可设置得较高,从而避免不属于该行的行向量的文字块被误加入其中。关于此处使用的术语“高”与“低”,其含义对本领域技术人员而言是清楚的。本领域技术人员知道该术语所表示的范围,比如,一般来说,该阈值会设为落在区间0.6-0.9。
优选地,在判断出文字块bi与文字块b1处于同一行后,可同步更新临时行高:
H0=max(H0,yi),H1=max(H1,yi+hi)
重复本步骤,直到剩余文字块全部被遍历一次,将满足重叠比例大于阈值条件的文字块挑选出来,与基准文字块b1组成一个集合Li
S1220:将集合Li中包含的文字块按横坐标升序排列,形成一个行向量。
如果形成的行向量仅有基准文字块一个元素,说明没有文字块与其同行,则认为基准文字块不属于表格数据项,予以剔除。也就是说,本步骤可得到一个行向量,或排除一个与表格无关的文字块。
S1230:重复执行以上步骤,直至得到表格的全部行向量。
转到步骤S1200,以下一个首位文字块作为基准文字块,继续提取行向量,直到全部文字块均被分配至行向量或被剔除,这样就获得了表格的全部行向量。
得到上述表格行向量后,就获取到了表格的行信息,为恢复表格的版式,还需要表格的列信息,列信息的提取步骤如下:
S130:采用对齐特征查找法恢复表格的列向量,该步骤如图3所示具体包括:
S1300:从上述全部行向量中,取出向量维度最高的行向量,作为基准行向量L。
具体地,遍历S1230得到的全部行向量,取出向量维度最高的行向量作为基准行向量。
其中,行向量的维度表示该行包含的文字块数量,同时也表示在没有其他数据支持的情况下,该行所能提取出的最大列数。取维度最高的行向量则是为了保证能够将全部表格列囊括在内。假设基准行向量为L,基准行向量L的维度为M,假定M为表格的临时列数。
S1310:取基准行向量L中的文字块,利用文字块左上角点横坐标以及文字块宽度,在剩余行向量中,查找与基准行向量中的文字块处于列对齐关系的文字块,将这样的文字块集合作为基准行向量中的文字块的列集合。
具体地,基准行向量中的每一个文字块都有可能属于表格的某一列,或是不属于任何列的干扰项,判断方法是在其他行向量中寻找与当前文字块构成列对齐关系的文字块。
其中,优选地,列对齐关系可以有三种,分别为左对齐、中对齐、右对齐,对齐关系的判断可由对齐距离得到。对齐距离指的是两文字块在特定对齐关系下的像素距离,可通过两个文字块的左上角点横坐标以及文字块宽度计算得出。比如可以如下计算任意两文字块bi、bj之间的对齐距离:
左对齐距离D#eft=|xi-xj|
中对齐距离
右对齐距离Dright=|xi-xj+wi-wj|
结果Dk(k∈{left,center,right})表示两文字块的对齐距离,单位为像素。利用下式将Dk归一化获得结果Rk
Rk作为对齐距离的归一化结果,范围是0-1,取值越小说明两文字块对齐越精准,对齐关系越强。计算列对齐关系的方式和归一化方式在本发明中不受限制,本领域技术人员可以根据实际需要采用其他计算方式。
假设取基准行向量中的文字块bj,记一个三元组(lj,mj,rj)用于维护bj所表示列的对齐关系。lj、mj、rj均为集合,其中,lj用于存储与文字块bj左对齐的文字块;mj用于存储与文字块bj中对齐的文字块;rj用于存储与文字块bj右对齐的文字块。
在遍历剩余行向量中的文字块的过程中,将满足对齐关系的文字块添加至对应的集合中,得到lj、mj、rj三个集合。是否满足对齐关系可通过计算Rk、判断Rk是否小于阈值来确定,在实践中阈值一般取在0.3以下。
在将剩余行向量的文字块遍历完后,从lj、mj、rj中选出包含文字块数量最多的集合作为文字块bj的列集合Cj。之所以如此选择,是因为三个集合分别对应于三种对齐方式,通常来说,表格文字块若满足了左对齐,就可能不满足中对齐和右对齐,除非该列中每个文字块的文字长度相同。三个集合中文字块数量最多的集合所对应的对齐方式才是该列最有可能的对齐方式。本领域技术人员还可以根据表格的实际情况进行其他选择,本发明在此不受限制。
S1320:将列集合中包含的文字块按纵坐标升序排列,形成一个列向量;
若向量仅有文字块bj一个元素,说明所述文字块bj是不属于任何表格列的干扰项,予以剔除。也就是说,本步骤可得到一个列向量,或排除一个与表格无关的文字块。
S1330:重复执行以上步骤,直至得到表格的全部列向量。
具体地,转到步骤S1310,从基准行向量L中的下一个文字块,继续提取表格的列向量,直至找完行向量L中所有文字块的列向量。这样全部文字块均被分配至列向量或被剔除,从而获得了表格的全部列向量。
S140:得到全部列向量之后,将列向量按每个向量首位文字块的横坐标升序排序,得到排序后的列向量,从而得到二维矩阵形式的表格。
可通过矩阵的下标索引到具体的文字块,提高表格读写速度。
以上是先得到表格的行向量,然后再提取表格的列向量。这是因为对于表格来说,一般而言,横向观察时,行高是由该行文字的字号大小决定的,不会因为文字量的多少而改变,所以同一行中的不同文字块可以共享相同的行高;而纵向观察时,每个文字块的宽度是由其文字数量决定的(如图5(a)所示),存在处于同一列的两个文字块一长一短的情况,所以不能通过计算文字块的重叠比例来得到列向量。然而,本发明实施方式不限于此,本领域技术人员可以根据表格的实际情况,选择先计算行向量还是列向量,比如在表格的列宽度相差不大,然而行向量字体大小不一、难以根据阈值进行同行判断的情况下,可以先计算列向量、再计算行向量。
由于OCR是通过图像的像素级别信息来识别文字以及划分文字块,单个文字的像素投影图中,像素分布几乎是连续的;一个词语的像素投影图中,像素分布是有规律的小间隔分布;表格一行数据项的像素投影图中,数据项间大概率会有较大的间隔,但也会存在两个数据项紧连在一起的情况。
实际情况中,有些表格样式相同,但是数据项长短不一,若两个相邻数据项均过长,就会产生数据项粘连,增加识别难度。如图5(a)所示,第一行第二个文字块,药品编号和药品规格被划分到同一个单元格,这就是OCR识别误差导致的。这时仅使用像素级别信息就无法准确地将两个数据项分割开,导致OCR在识别表格时无法正确划分表格中两个紧连的数据项。
根据本发明实施例的表格版式恢复方法,还可以包括数据项粘连切分步骤。如参考图4所示,该步骤包括:
S410:对表格图像进行OCR识别,并人工筛选校正,选取出用于训练的表格文本。
这里得到的表格文本仅包含文本信息,不包含文字块的坐标信息。
S420:针对特定领域,采用基本的4-tag(BMES)标注标签,对表格文本进行标注,词首标注为B,词尾标注为E,词中均标注为M,单字标注为S。
以医疗领域为例,采用基本的4-tag(BMES)标注标签对表格文本进行标注,词首标注为B,词尾标注为E,词中均标注为M,单字标注为S。鉴于百分比、含单位的数量值等经常出现于药品名称规格中,若将其按字标注会大大降低训练效果,故将百分比、含单位的数量值作为整体进行标注。例如“0.9%葡萄糖注射液500ml”,将“0.9%”作为该词语的首部,标注为B,将“500ml”作为该词的尾部,标注为E,剩余部分每个汉字均标注为M。标注结果为“0.9%/B葡/M萄/M糖/M注/M射/M液/M500ml/E”。
S430:基于如上标注的表格文本,采用条件随机场模型训练得到的分词器,对产生数据项粘连的表格文字块进行切分。
具体地,采用条件随机场模型从语义层面切分产生数据项粘连的表格文字块。条件随机场(CRF)广泛应用于自然语言处理领域,CRF是一个判别式模型,模型经过学习后直接得到概率P(y│x),其中y表示状态序列,x表示观测序列。利用条件随机场训练出的分词器,将表格文字块中的文本输入进去,输出即可直接得到文本的分词位置,也即表格文字块的切分位置。
根据本发明以上技术方案,在生成二维矩阵后,运用自然语言处理方法对产生数据项粘连的表格文字块进行切分。自然语言处理方法是指运用预先训练的特定领域内表格文本分词器,对产生数据项粘连的表格文字块中的文本进行切分。由于表格相邻两列的构词特征不同,粘连的两个数据项有较为明显的词首词尾特征,所以通过分词的方式可有效切分出粘连在一起的两个数据项,从而解决形态学中无法准确识别的粘连问题。
根据本发明实施方式的技术方案既从形态学的角度恢复出表格的基本版式,又从自然语言处理角度利用文本训练出的分词器对表格进行精确还原,充分利用了OCR识别结果中的形态学信息以及文本信息,构建出一套更完整的表格版式恢复的方案。
上面已通过框图、流程图对本发明实施例进行了详细描述。本领域的技术人员明白,本说明书中描述的实施方式的一些方面能够全部或部分地以在一个或多个计算机上运行的一个或多个计算机程序的形式、以在一个或多个处理器上运行的一个或多个程序的形式、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。
例如,上述表格版式恢复方法的处理流程图中的各个步骤可以通过软件、固件、硬件或其任意组合的方式来执行。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能。
因此,本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的表格版式恢复方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本发明的公开中。
图6是示出了可作为用来实现根据本发明实施例的表格版式恢复方法的信息处理设备的通用计算机系统的结构简图。计算机系统600只是一个示例,并非暗示对本发明的方法和装置的使用范围或者功能的局限。也不应将计算机系统600解释为对示例性操作系统600中示出的任一组件或其组合具有依赖或需求。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件也连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序可根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种表格版式恢复方法,其特征在于,包括:
利用OCR识别技术识别表格图像,输出表格文字块的集合,所述表格文字块包括该表格文字块的左上角点在表格图像中的坐标、表格文字块的宽度及高度、表格文字块内包含的文本信息;
采用渐进式投影法提取表格文字块的集合的行向量,包括:
将OCR输出的表格文字块按纵坐标排序,取排序后的首位文字块作为基准文字块;
利用文字块的高度关系,在剩余文字块中查找与所述基准文字块构成同行关系的文字块集合Li;
将集合Li中包含的文字块按横坐标升序排列,形成一个行向量;
重复执行以上步骤,直至得到表格的全部行向量;
采用对齐特征查找法恢复表格的列向量:
从上述全部行向量中,取出向量维度最高的行向量,作为基准行向量L;
取基准行向量L中的文字块,利用文字块左上角点横坐标以及文字块宽度,在剩余行向量中,查找与基准行向量中的文字块处于列对齐关系的文字块,将这样的文字块集合作为基准行向量中的文字块的列集合;
将列集合中包含的文字块按纵坐标升序排列,形成一个列向量;
重复执行以上步骤,直至得到表格的全部列向量;
得到全部列向量之后,将列向量按每个向量首位文字块的横坐标升序排序,得到排序后的列向量,从而得到二维矩阵形式的表格。
2.根据权利要求1所述的表格版式恢复方法,其中,步骤“利用文字块的高度关系,在剩余文字块中查找与所述基准文字块构成同行关系的文字块集合”包括:
将基准文字块的纵坐标y1与高度h1组合成区间形式,如(y1,y1+h1),该区间记为临时行高(H0,H1);
取剩余文字块中的文字块bi,其像素区间为(yi,yi+hi),计算其与临时行高的重叠比例Pprojection,如下式:
如果所述重叠比例大于预先设定的重叠比例阈值,则所述文字块bi与基准文字块构成同行关系。
3.根据权利要求2所述的表格版式恢复方法,其中,
在所述文字块bi与基准文字块构成同行关系之后,同步更新临时行高:
H0=max(H0,yi),H1=max(H1,yi+hi)。
4.根据权利要求2所述的表格版式恢复方法,其中,所述重叠比例阈值的的设置根据表格情况:若同一行中包含多种字号文字,重叠比例阈值可设置得较低;若同一行中文字字号一致,重叠比例阈值可设置得较高。
5.根据权利要求1所述的表格版式恢复方法,其中,利用文字块左上角点横坐标以及文字块宽度,在剩余行向量中,查找与基准行向量中的文字块处于列对齐关系的文字块包括:
利用文字块左上角点横坐标以及文字块宽度计算文字块之间的左对齐关系Dleft、中对齐关系Dcenter和右对齐关系Dright
Dleft=|xi-xj|
Dright=|xi-xj+wi-wj|
对左对齐关系、中对齐关系和右对齐关系进行归一化,以获得归一化值:
根据归一化值是否低于归一化阈值,得到满足左对齐关系、中对齐关系和右对齐关系的三个集合lj、mj和rj
从三个集合lj、mj和rj中选出包含文字块数量最多的集合,作为基准行向量中文字块的列集合。
6.根据权利要求1所述的表格版式恢复方法,还包括数据项粘连切分步骤:
对所述表格图像进行OCR识别,并人工筛选校正,选取出用于训练的表格文本;
针对特定领域,采用基本的4-tag标注标签,对表格文本进行标注;
基于如上标注的表格文本,采用条件随机场模型训练得到的分词器,对产生数据项粘连的表格文字块进行切分。
7.根据权利要求5所述的表格版式恢复方法,其中,所述特定领域为医疗领域,采用基本的4-tag标注标签对表格文本进行标注时,将百分比、含单位的数量值作为整体进行标注。
8.一种计算机可读存储介质,其上存储有计算机可读指令,该计算机可读指令在被计算机运行时执行根据权利要求1-6中任一项所述的方法。
9.一种计算机,其特征在于,包括:
存储器,用于存储由处理器运行的指令;
处理器,用于运行指令以执行根据权利要求1-6中任一项所述的方法。
CN201910515447.5A 2019-06-14 2019-06-14 表格版式恢复方法,计算机可读介质以及计算机 Active CN110399878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910515447.5A CN110399878B (zh) 2019-06-14 2019-06-14 表格版式恢复方法,计算机可读介质以及计算机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910515447.5A CN110399878B (zh) 2019-06-14 2019-06-14 表格版式恢复方法,计算机可读介质以及计算机

Publications (2)

Publication Number Publication Date
CN110399878A true CN110399878A (zh) 2019-11-01
CN110399878B CN110399878B (zh) 2023-05-26

Family

ID=68324154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910515447.5A Active CN110399878B (zh) 2019-06-14 2019-06-14 表格版式恢复方法,计算机可读介质以及计算机

Country Status (1)

Country Link
CN (1) CN110399878B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325110A (zh) * 2020-01-22 2020-06-23 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
CN111783645A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN111814443A (zh) * 2020-07-21 2020-10-23 北京来也网络科技有限公司 结合rpa和ai的表格生成方法及装置、计算设备、存储介质
CN112348027A (zh) * 2020-11-09 2021-02-09 浙江太美医疗科技股份有限公司 药物单的识别方法和识别装置
CN112434565A (zh) * 2020-11-04 2021-03-02 南京火眼锐视信息科技有限公司 一种文档图像的模糊度评估、筛选方法和装置
CN112686258A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 体检报告信息结构化方法、装置、可读存储介质和终端
CN112949450A (zh) * 2021-02-25 2021-06-11 北京百度网讯科技有限公司 票据处理方法、装置、电子设备和存储介质
CN113989823A (zh) * 2021-09-14 2022-01-28 北京左医科技有限公司 基于ocr坐标的图片表格还原方法及系统
CN115618836A (zh) * 2022-12-15 2023-01-17 杭州恒生聚源信息技术有限公司 无线表格的结构还原方法、装置、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936881A (zh) * 2006-10-13 2007-03-28 北京北大方正电子有限公司 一种单元格特殊符号对齐的方法
US20120005225A1 (en) * 2010-07-02 2012-01-05 Xerox Corporation Method for layout based document zone querying
CN102855232A (zh) * 2012-09-14 2013-01-02 同方光盘股份有限公司 一种表格分析编改加工方法
CN103258201A (zh) * 2013-04-26 2013-08-21 四川大学 一种融合全局和局部信息的表格线提取方法
CN104598936A (zh) * 2015-02-28 2015-05-06 北京畅景立达软件技术有限公司 人脸图像面部关键点的定位方法
CN105026882A (zh) * 2013-03-12 2015-11-04 伊利诺斯工具制品有限公司 基于颜色的线性三维采集系统和方法
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
RU2626342C1 (ru) * 2016-05-04 2017-07-26 Павел Александрович Бимбереков Способ восстановления числовых данных по графическим зависимостям
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108846033A (zh) * 2018-05-28 2018-11-20 北京邮电大学 特定领域词汇的发现及分类器训练方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936881A (zh) * 2006-10-13 2007-03-28 北京北大方正电子有限公司 一种单元格特殊符号对齐的方法
US20120005225A1 (en) * 2010-07-02 2012-01-05 Xerox Corporation Method for layout based document zone querying
CN102855232A (zh) * 2012-09-14 2013-01-02 同方光盘股份有限公司 一种表格分析编改加工方法
CN105026882A (zh) * 2013-03-12 2015-11-04 伊利诺斯工具制品有限公司 基于颜色的线性三维采集系统和方法
CN103258201A (zh) * 2013-04-26 2013-08-21 四川大学 一种融合全局和局部信息的表格线提取方法
CN104598936A (zh) * 2015-02-28 2015-05-06 北京畅景立达软件技术有限公司 人脸图像面部关键点的定位方法
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
RU2626342C1 (ru) * 2016-05-04 2017-07-26 Павел Александрович Бимбереков Способ восстановления числовых данных по графическим зависимостям
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108846033A (zh) * 2018-05-28 2018-11-20 北京邮电大学 特定领域词汇的发现及分类器训练方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUCAI YI ET AL.: "Text String Detection From Natural Scenes by Structure-Based Partition and Grouping", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
杨靖民 等: "基于行列空间映射的表格图像版面恢复", 《中国科技论文在线》 *
邝振 等: "社区选举系统选票中的表格识别算法", 《计算机应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325110A (zh) * 2020-01-22 2020-06-23 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN111325110B (zh) * 2020-01-22 2024-04-05 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
CN111783645A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN111814443A (zh) * 2020-07-21 2020-10-23 北京来也网络科技有限公司 结合rpa和ai的表格生成方法及装置、计算设备、存储介质
CN112434565A (zh) * 2020-11-04 2021-03-02 南京火眼锐视信息科技有限公司 一种文档图像的模糊度评估、筛选方法和装置
CN112348027B (zh) * 2020-11-09 2024-01-23 浙江太美医疗科技股份有限公司 药物单的识别方法和识别装置
CN112348027A (zh) * 2020-11-09 2021-02-09 浙江太美医疗科技股份有限公司 药物单的识别方法和识别装置
CN112686258A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 体检报告信息结构化方法、装置、可读存储介质和终端
CN112949450A (zh) * 2021-02-25 2021-06-11 北京百度网讯科技有限公司 票据处理方法、装置、电子设备和存储介质
CN112949450B (zh) * 2021-02-25 2024-01-23 北京百度网讯科技有限公司 票据处理方法、装置、电子设备和存储介质
CN113989823B (zh) * 2021-09-14 2022-10-18 北京左医科技有限公司 基于ocr坐标的图片表格还原方法及系统
CN113989823A (zh) * 2021-09-14 2022-01-28 北京左医科技有限公司 基于ocr坐标的图片表格还原方法及系统
CN115618836A (zh) * 2022-12-15 2023-01-17 杭州恒生聚源信息技术有限公司 无线表格的结构还原方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110399878B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN110399878B (zh) 表格版式恢复方法,计算机可读介质以及计算机
AU2018237196B2 (en) Extracting data from electronic documents
US10853638B2 (en) System and method for extracting structured information from image documents
Roy et al. HMM-based Indic handwritten word recognition using zone segmentation
US11514698B2 (en) Intelligent extraction of information from a document
US10643094B2 (en) Method for line and word segmentation for handwritten text images
JP3452774B2 (ja) 文字認識方法
CN111401099A (zh) 文本识别方法、装置以及存储介质
Xiong et al. Text detection in stores using a repetition prior
Alghyaline Arabic Optical Character Recognition: A Review.
CN102855264B (zh) 文档处理方法及其装置
Nguyen et al. A segmentation method of single-and multiple-touching characters in offline handwritten japanese text recognition
US11551461B2 (en) Text classification
Shah et al. Devnagari handwritten character recognition (DHCR) for ancient documents: a review
Mandal et al. Signature segmentation from machine printed documents using contextual information
Naz et al. Arabic script based character segmentation: a review
Ramana Murthy et al. An approach to divide pre-detected Devanagari words from the scene images into characters
CN111340029A (zh) 用于识别收件人地址中的至少部分地址的装置和方法
CN111488870A (zh) 文字识别方法和文字识别装置
Mahastama et al. Optical character recognition for printed javanese script using projection profile segmentation and nearest centroid classifier
Kumar et al. Line based robust script identification for indianlanguages
Berriche et al. Seam carving-based Arabic handwritten sub-word segmentation
Ghosh et al. An OCR system for the Meetei Mayek script
Fu et al. A hidden Markov model based segmentation and recognition algorithm for Chinese handwritten address character strings
Xue et al. Location and interpretation of destination addresses on handwritten Chinese envelopes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant