CN112329641A - 一种表格识别方法、装置、设备及可读存储介质 - Google Patents

一种表格识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112329641A
CN112329641A CN202011232039.8A CN202011232039A CN112329641A CN 112329641 A CN112329641 A CN 112329641A CN 202011232039 A CN202011232039 A CN 202011232039A CN 112329641 A CN112329641 A CN 112329641A
Authority
CN
China
Prior art keywords
word segmentation
line
target
segmentation block
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011232039.8A
Other languages
English (en)
Other versions
CN112329641B (zh
Inventor
顾佳烽
刘余海
原新新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hengsheng Juyuan Data Service Co ltd
Original Assignee
Shanghai Hengsheng Juyuan Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hengsheng Juyuan Data Service Co ltd filed Critical Shanghai Hengsheng Juyuan Data Service Co ltd
Priority to CN202011232039.8A priority Critical patent/CN112329641B/zh
Publication of CN112329641A publication Critical patent/CN112329641A/zh
Application granted granted Critical
Publication of CN112329641B publication Critical patent/CN112329641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供了一种表格识别方法、装置、设备及可读存储介质,获取待识别图像,确定待识别图像中的分词块,分词块的第一类坐标值包括分词块的上边界在竖直方向的坐标值和分词块的下边界在竖直方向的坐标值,分词块的第二类坐标值包括分词块的左边界在水平方向的坐标值和分词块的右边界在水平方向的坐标值,任意一个分词块的第一类坐标值能够表征该分词块在待识别图像中在竖直方向的位置,任意一个分词块的第二类坐标值能够表征该分词块在待识别图像中在水平方向的位置。因此,本方案依据分词块的第一类坐标值确定目标行的上边界线以及下边界线。依据分词块的第二类坐标值以及目标行的边界线,确定目标列左边界线和右边界线。

Description

一种表格识别方法、装置、设备及可读存储介质
技术领域
本申请涉及表格识别技术领域,尤其涉及一种表格识别方法、装置、设备及可读存储介质。
背景技术
目前,识别电子图像中的表格的方法包括两种:第一种:先针对样本图像提炼表格模板,进行模板匹配,后按照模板规则识别表格。第二种:创建训练集,生成训练模型,不断地迭代、参数调优以进行图片内表格的识别。
可见,现有的表格的识别方法需要收集大量样本图片进行模板提炼或者学习训练,前期准备工作量极大,识别效果极大地依赖于样本集的全面性和普遍性。
发明内容
本申请提供了一种表格识别方法、装置、设备及可读存储介质,目的在于提高表格的识别准确率,如下:
一种表格识别方法,包括:
获取待识别图像;
确定所述待识别图像中的分词块,所述分词块为包括至少一个字符的图像区域;
依据所述分词块的第一类坐标值,确定目标行的边界线,所述目标行的边界线包括所述目标行的上边界线和所述目标行的下边界线,所述目标行为所述待识别图像中的任意一行表格,所述分词块的第一类坐标值包括所述分词块的上坐标和所述分词块的下坐标,所述分词块的上坐标为所述分词块的上边界在竖直方向的坐标值,所述分词块的下坐标为所述分词块的下边界在竖直方向的坐标值;
依据所述分词块的第二类坐标值以及所述目标行的边界线,确定目标列的边界线,所述目标列的边界线包括所述目标列的左边界线和所述目标列的右边界线,所述目标列为所述待识别图像中的任意一列表格,所述分词块的第二类坐标值包括所述分词块的左坐标和所述分词块的右坐标,所述分词块的左坐标为所述分词块的左边界在水平方向的坐标值,所述分词块的右坐标为所述分词块的右边界在水平方向的坐标值。
可选地,获取待识别图像包括:
从电子图像中识别横向线段和纵向线段;
在所述电子图像中去除所述横向线段和所述竖向线段,得到待识别图像。
可选地,在所述识别电子图像中的横向线段和纵向线段之前,还包括以下至少一项:
去除所述电子图像中的图章图像,所述图章图像为预设图章在所述电子图像中的成像;
对所述电子图像进行角度校正;
对所述电子图像进行二值化。
可选地,识别电子图像中的横向线段和纵向线段,得到待识别图像,包括:
在水平方向上,将像素距离小于预设像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为所述第一类像素点,得到由连续的所述第一类像素点组成的所述横向线段,所述像素间断参数为相邻所述第一类像素点间的最大像素距离;
在相邻两条所述横向线段之间的垂直方向上,将所述像素距离小于所述像素间断参数的相邻的所述第一类像素点之间的所述第二类像素点,转换为所述第一类像素点,得到由连续的所述第一类像素点组成的所述纵向线段。
可选地,确定待识别图像中的分词块,包括:
使用预设的文字区域识别方法,识别所述待识别图像中的字符块,所述字符块为包括至少一个字符的图像区域;
合并满足预设合并条件的所述字符块,得到所述分词块,所述预设合并条件包括:所述字符块间的水平距离小于预设距离阈值;和/或,所述字符块中包括的字符组成符合预设语义的分词。
可选地,依据分词块的第一类坐标值,确定目标行的边界线,包括:
将满足预设的行识别条件的所述分词块划分为同一候选行,所述行识别条件包括:所述分词块的上坐标的差值小于预设的第一数值;
依据目标候选行中的所述分词块的上坐标,获取所述目标候选行的上边界线,依据所述目标候选行中的所述分词块的下坐标,获取所述目标候选行的下边界线,所述目标候选行为任一所述候选行。
可选地,在所述将满足预设的行识别条件的所述分词块划分为同一候选行之后,所述依据目标候选行中的所述分词块的上坐标,确定所述目标候选行的上边界线,依据所述目标候选行中的所述分词块的下坐标,确定所述目标候选行的下边界线之前,还包括:
在满足预设的填充条件的候选行中增加空白分词块,所述填充条件包括:所述候选行中的所述分词块的坐标在其它所述候选行中的所述分词块的上坐标和所述分词块的下坐标之间,所述分词块的坐标包括所述分词块的上坐标和/或所述分词块的下坐标;
合并满足所述填充条件的所述候选行得到合并行,将所述合并行作为所述候选行。
可选地,还包括:
调整所述目标候选行的边界线,所述目标候选行的边界线包括所述目标候选行的上边界线和所述目标候选行的下边界线。
可选地,依据所述分词块的第二类坐标值以及所述目标行的边界线,确定目标列的边界线,包括:
将满足预设的列识别条件的分词块,划分为同一候选列,所述列识别条件包括:所述分词块的左坐标的差值不大于预设的第二数值,和/或,所述分词块的右坐标的差值不大于的预设的第三数值;
依据目标候选列中的所述分词块的左坐标,获取所述目标候选列的左边界线,依据所述目标候选列中的所述分词块的右坐标,获取所述目标候选列的右边界线,所述目标候选列为任一所述候选列。
可选地,还包括:
在所述目标行中,将满足预设的列合并条件的所述分词块所在的所述候选列合并,所述列合并条件包括:所述分词块的左坐标和所述分词块的右坐标位于所述目标候选列的边界线的两侧,所述目标候选列的边界线包括所述目标候选行的左边界线或所述目标候选行的右边界线。
可选地,还包括:
调整所述目标候选列的边界线。
可选地,还包括:
将满足预设条件的所述候选行作为标题行,所述预设条件包括:所述候选行包括一个所述分词块,并且所述候选行包括的所述分词块为标题分词块,所述标题分词块为字符内容与预设内容相似度大于相似度阈值的分词块;
所述列识别条件还包括:
所述分词块所在的目标行不为所述标题行。
一种表格识别装置,其特征在于,包括:
图像获取单元,用于获取待识别图像;
分词块确定单元,用于确定所述待识别图像中的分词块;所述分词块为包括至少一个字符的图像区域;
行识别单元,用于依据所述分词块的第一类坐标值,确定目标行的边界线,所述目标行的边界线包括所述目标行的上边界线和所述目标行的下边界线,所述目标行为待识别图像中的任意一行表格,所述分词块的第一类坐标值包括所述分词块的上边界在竖直方向的坐标值和所述分词块的下边界在竖直方向的坐标值;
列识别单元,用于依据所述分词块的第二类坐标值以及所述目标行的边界线,确定目标列的边界线,所述目标列的边界线包括所述目标列的左边界线和所述目标列的右边界线,所述目标列为待识别图像中的任意一列表格,所述分词块的第二类坐标值包括所述分词块的左边界在水平方向的坐标值和所述分词块的右边界在水平方向的坐标值。
一种表格识别设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的表格识别方法的各个步骤。
15、一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上所述的表格识别方法的各个步骤。
由上述技术方案可以看出,本申请实施例提供的表格识别方法、装置、设备及可读存储介质,获取待识别图像,确定待识别图像中的分词块,分词块为包括至少一个字符的矩形区域,分词块的第一类坐标值包括分词块的上边界在竖直方向的坐标值和分词块的下边界在竖直方向的坐标值,分词块的第二类坐标值包括分词块的左边界在水平方向的坐标值和分词块的右边界在水平方向的坐标值,可以理解的是,任意一个分词块的第一类坐标值能够表征该分词块在待识别图像中在竖直方向的位置,任意一个分词块的第二类坐标值能够表征该分词块在待识别图像中在水平方向的位置。因此,考虑到表格的同一行中包括的字符块的在竖直方向的位置基本一致,本方案依据分词块的第一类坐标值确定目标行的上边界线以及下边界线。考虑到表格的一行多列特性以及同一列中包括的字符块的在水平方向的位置基本一致,依据分词块的第二类坐标值以及目标行的边界线,确定目标列左边界线和右边界线。可见,本申请实施例提供的表格识别方法无需样本图像,能够直接针对待识别图像进行表格识别,针对于无框表格或有框表格的识别不受样本图像的限制,提高表格识别的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种表格识别方法的具体实施方式的流程示意图;
图2a示例了一种包括有框表格的第一待识别图像的示意图;
图2b示例了一种第一待识别图像中有框表格识别效果示意图;
图3a示例了一种包括无框表格的第二待识别图像的示意图;
图3b示例了一种第二待识别图像去除预设线段后的图像示意图;
图3c示例了一种第二待识别图像中分词块的识别效果示意图;
图4a示例了一种识别分词块的效果示意图;
图4b示例了一种增加空白分词块后的分词块示意图;
图4c示例了一种行合并后的效果示意图;
图5a示例了又一种识别分词块的效果示意图;
图5b示例了一种划分候选列的效果示意图;
图5c示例了一种列合并后的效果示意图;
图6为本申请实施例提供的一种表格识别方法的流程示意图;
图7为本申请实施例提供的一种表格识别装置的结构示意图;
图8为本申请实施例提供的一种表格识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请实施例提供的表格识别方法应用但不限于对电子图像中的表格进行识别,需要说明的是,本方法识别电子图像中的表格,具体地,本方法识别电子图像中表格线,需要说明的是,表格线包括有框表格的框线或无框表格中的表格的边界线。图1示例了本申请实施例提供的一种表格识别方法的具体实施方式,如图1所示,本方法具体可以包括S101~S115。
S101、对电子图像进行预处理,得到第一待识别图像。
本实施例中,预处理的方法具体可以包括:
1、去除电子图像中的图章图像。
本实施例中,图章图像为预设图章在电子图像中的成像。
具体地,识别电子图像内图章图像区域,其中,图章图像区域为图章在电子图像中的成像区域,在图章图像区域中,针对预设图章像素(例如红色像素或蓝色像素)进行色域拆分与合并,用于去除电子图像中的图章图像,进一步,对圆形区域进行图像修复。可见,本实施例实现去除图章图像的同时,保留电子图像中的其它内容。需要说明的是,电子图像内图章图像区域的识别采用霍夫变换方法,具体可以参见现有技术,并且色域拆分与合并技术以及图像修复技术可以参照现有技术。
2、对电子图像进行角度校正。
具体地,采用霍夫曼直线检测方法,检测电子图像中的线段,得到预设数值的线段,计算每条线段与水平方向的偏差角,若线段与水平方向的偏差角小于预设角度阈值,则将线段纠正为水平线,若线段与水平方向的偏差角不小于预设角度阈值,则将线段纠正为垂直线,本实施例中,预设角度阈值为45°,并且偏差角为不大于90°的夹角。需要说明的是,图像角度校正的方法具体可以参照现有技术。
3、图像二值化。
具体可以参照现有技术。
需要说明的是,预处理的方法不限于以上1~3,本实施例中,还可以包括其它图像预处理方法。
S102、确定第一待识别图像中的横向线段。
本实施例中,横向线段为第一待识别图像中水平方向的、由连续的第一类像素点组成的线段。
本实施例中,以第一待识别图像为二值图像,第一类像素点为黑色像素点为例。确定横向线段的方法为:在水平方向上,将像素距离小于预设像素间断参数的相邻的黑色像素点之间的白色像素点,转换为黑色像素点,由此,得到由连续的黑色像素点组成的横向线段。
其中,像素间断参数为相邻黑色像素点间的最大间距,根据实际应用进行预设。
例如,第一待识别图像中在水平方向上相邻的两个黑色像素d1和d2之间的距离为n,并且n小于像素间断参数N,则将d1和d2之间的白色像素点转换为黑色像素点,并进一步判断d2与下一个相邻黑色像素点间的距离是否小于像素间断参数N。需要说明的是,在二值图像中,白色像素点转换为黑色像素点的过程为:将白色像素点的二值像素值(例如1)转换为黑色像素点的二值像素值(例如0)。
可以看出,本实施例在确定横向线段时,辅助以合理的像素间断参数进行线段间断补偿后,可以准确识别水平方向上的线段,例如,当第一待识别图像的图像质量差的情况下,适当增大像素间断参数,可以避免由于图像质量差导致的线段中断。
进一步需要说明的是,依据表格的特性,横向线段一般为长直线段,当横向线段的长度与第一待识别图像的宽度的差值小于预设阈值,则认为横向线段为横向贯通线,本实施例中,第一待识别图像的宽度指的是第一待识别图像沿水平方向的度量。
S103、确定第一待识别图像中的纵向线段。
本实施例中,纵向线段为相邻两条横向线段之间的、垂直方向上、由连续的第一类像素点组成的线段。
本实施例中,确定纵向线段的方法为:在相邻两条横向线段之间的垂直方向上,将像素距离小于预设像素间断参数的相邻的黑色像素点之间的白色像素点,转换为黑色像素点,由此,得到由连续的黑色像素点组成的纵向线段。其中,像素间断参数为相邻黑色像素点间的最大间距,根据实际应用进行预设。
需要说明的是,依据表格的特性,纵向线段一般连接至少两条横向线段。
进一步需要说明的是,当表格缺少左右边界,则确定第一待识别图像中的纵向线段的方法还包括:
连接横向贯通线左端点得到纵向线段,并将该纵向线段作为表格左边界,连接横向贯通线右端点得到纵向线段,并将该纵向线段作为表格右边界。
需要说明的是,若相邻两条横向线段与相邻两条纵向线段存在四个交点,则将四个交点的连线围成的矩形框,作为一个单元格。
进一步需要说明的是,S101~S103为识别有框表格中的表格线,并根据表格线的交点识别单元格的过程,例如,如图2a所示的第一待识别图像中包括有框表格,则本实施例通过S101~S103的识别方法,识别有框表格中的单元格,得到图2b所示的有框表格识别效果示意图。
对于电子图像中包括无框表格的情况下,对无框表格中的表格线进行识别,执行下述S104。
S104、在第一待识别图像中去除预设线段,得到第二待识别图像。
本实施例中,预设线段包括表格线段以及非表格线段,其中,表格线段包括横向线段以及纵向线段,非表格线段为在有框表格识别过程中识别出的冗余线段。
S105、使用MSER箱体识别方法,识别第二待识别图像中的字符块。
本实施例中,任一字符块为至少包含一个字符的矩形块,MSER箱体识别的具体过程参见现有技术。
S106、合并满足预设条件的字符块,得到分词块。
本实施例中,分词块为所述字符块为包括至少一个字符的矩形区域。预设条件包括以下1~2至少一项:
1、字符块间的水平距离小于预设距离阈值的字符块。
需要说明的是,任两个字符块间的水平距离可以为字符块的左边界的距离,预设距离阈值依据实际情况进行预设。
2、字符块中字符组成符合预设语义的分词。
也即,本实施例合并字符块得到分词块的方法包括:
计算相邻的字符块的水平距离,将水平距离小于预设距离阈值的字符块合并,得到分词块。
和/或,通过语义识别方法识别字符块中的字符的语义,并判断相邻的字符块中的字符是否能组成符合语义的分词,将组成符合预设语义的分词的字符块合并为分词块。
图3a示例了一种包括无框表格的第一待识别图像,在第一待识别图像中去除预设线段,得到第二待识别图像如图3b所示,在第二待识别图像,确定分词块如图3c所示。
S107、将满足预设的行识别条件的分词块划分为同一候选行。
本实施例中,行识别条件包括:分词块的上坐标的差值小于预设的第一数值,分词块的上坐标为分词块的上边界在竖直方向的坐标值。
本实施例中,任一分词块的上坐标为分词块的上边界在预设坐标系中的竖直轴的坐标值,分词块的下坐标为分词块的下边界在预设坐标系中的竖直轴的坐标值,分词块的左坐标为分词块的左边界在预设坐标系中的水平轴的坐标值,分词块的右坐标为分词块的右边界在预设坐标系中的水平轴的坐标值。
本实施例中,第一数值可以依据分词块的上坐标与下坐标的差值预设以及第二待识别图像的尺寸预设。如图4a所示,图4a中包括5个分词块(k1、k2、k3、k4和k5),假设图4a示例的5个分词块的坐标值之间的关系为:
k1的上坐标与任一其它分词块(k2、k3、k4、或k5)的上坐标差值不小于第一数值,k2、k3或k4中,任两个分词块的上坐标的差值小于预设的第一数值,k5的上坐标与任一其它分词块(k1、k2、k3、或k4)的上坐标差值不小于第一数值。并且,k1的上坐标大于k2的上坐标,k2的上坐标大于k5的上坐标。
基于上述5个分词块的坐标值之间的关系,本实施例确定k1属于第一候选行,k2、k3和k4同属于第二候选行,k5属于第三候选行。
需要说明的是,预设的坐标系为第一待识别图像中的直角坐标系,具体的生成方法参照现有技术,为描述方便,本实施例中,将第一待识别图像的左上角为原点,以水平向右为水平轴正方向,并且以垂直向下为垂直轴正方向。
S108、将满足预设条件的候选行作为标题行。
本实施例中,预设条件至少包括:
候选行只包括一个分词块,并且候选行包括的分词块为标题分词块,其中标题分词块为字符内容与预设内容相似度大于相似度阈值的分词块。预设内容可以包括预设标题,可以根据电子图像中的内容所属的领域设置,例如,登记表、信息表、以及统计表等。
本实施例中,标题行的上坐标为标题分词块的上坐标,标题行的下坐标为标题分词块的下坐标。
S109、在候选行中增加空白分词块。
本实施例中,在任一候选行(为描述方便,记为H1)中的空白位置增加空白分词块的方法至少包括A1~A3,如下:
A1、候选行中的分词块的上坐标在其它候选行中的分词块的上坐标和下坐标之间,则在候选行增加空白分词块,空白分词块的上坐标等于(或大于)其它候选行中的分词块的下坐标,空白分词块的下坐标等于候选行中的分词块的下坐标。如图4b所示的k5所在的第三候选行,由于k5的上坐标位于k4的上下坐标之间,则在第三候选行中的k2、k3、和k4的下方增加空白分词块,空白分词块的上坐标分别为k2、k3、或k4的下坐标,空白分词块的下坐标为k5的下坐标。
A2、候选行中的分词块的下坐标在其它候选行中的分词块的上坐标和下坐标之间,则在候选行增加空白分词块,空白分词块的上坐标等于候选行中的分词块的上坐标,空白分词块的下坐标等于(或小于)其它候选行中的分词块的上坐标。如图4b所示的k1所在的第一候选行,由于k1的下坐标位于k4的上下坐标之间,则在第一候选行中的k2、k3、和k4的上方增加空白分词块,空白分词块的上坐标等于k1的上坐标,空白分词块的下坐标分别为k2、k3、或k4的上坐标。
A3、候选行中的分词块的下坐标在其它候选行中的分词块的上坐标和下坐标之间,并且分词块的上坐标在其它候选行中的分词块的上坐标和下坐标之间,则在候选行增加空白分词块,空白分词块的上坐标等于位于上方的其它候选行中分词块的下坐标,空白分词块的下坐标等于位于下方的其它候选行中分词块的上坐标。如图4b所示的k4所在的第二候选行,由于k4的下坐标位于k5的上下坐标之间,k4的上坐标位于k1的上下坐标之间,则在第二候选行中的k1的下方增加空白分词块,空白分词块的上坐标k1的下坐标,空白分词块的下坐标为k5的上坐标。
需要说明的是,空白位置指的在垂直方向至少存在一个相邻分词块的位置。并且,空白分词块的左坐标与右坐标依据同一候选列的分词块的左坐标与右坐标确定,需要说明的是,对于分词块是否属于同一候选列的判定方法参见下述步骤S113的描述。
S110、合并候选行,得到合并行,并将合并行作为候选行。
本实施例中,合并候选行的方法包括:
1、将满足预设的第一行合并条件的分词块所在的候选行与位于候选行下方的相邻的候选行合并。
2、将满足预设的第二行合并条件的分词块所在的候选行与位于候选行上方的相邻的候选行合并。
本实施例中,第一行合并条件包括:位于分词块的下方的相邻分词块为空白分词块,并且分词块的下坐标大于位于同一候选行的其它分词块(包括分词块或空白分词块)的下坐标,并且分词块的下坐标与同一候选行的其它分词块(包括分词块或空白分词块)的下坐标差值大于预设第一数值。
本实施例中,第二行合并条件包括:位于分词块的上方的相邻分词块为空白分词块,并且分词块的上坐标小于位于同一候选行的其它分词块(包括分词块或空白分词块)的上坐标,并且分词块的上坐标与位于同一候选行的其它分词块的上坐标的差值大于预设第一数值。
如图4b所示,k1的位于下方的相邻分词块为空白分词块,并且k1的下坐标与第一候选行中空白分词块的下坐标的差值大于第一数值,则,将k1所在的第一候选行与第二候选行合并。并且,k5的位于上方的相邻分词块为空白分词块,并且k5的上坐标与第三候选行中空白分词块的上坐标的差值大于第一数值,则,将k5所在的第三候选行与第二候选行合并。本实施例中,将第一候选行、第二候选行、以及第三候选行合并后得到合并行,作为候选行,如图4c所示。
S111、依据目标候选行中的所述分词块的上坐标,获取所述目标候选行的上边界线,依据所述目标候选行中的所述分词块的下坐标,获取所述目标候选行的下边界线。
具体的,目标候选行为任一候选行。需要说明的是,候选行包括:无需合并的候选行以及合并后的合并行,则任一目标候选行的上坐标为候选行中的上坐标最小的分词项的上坐标,目标候选行的下坐标为候选行中的下坐标最大的分词项的下坐标。
S112、调整目标候选行的边界线。
本实施例中,目标候选行的边界线包括所述目标候选行的上边界线和所述目标候选行的下边界线。
由于相邻分词块间的存在间距,因此本实施例中,进一步选择任意目标候选行的上坐标与上一个目标候选行的下坐标的中间坐标,作为目标候选行的上边界线坐标,也即上一个目标行的下边界线坐标。
需要说明的是,任两个坐标的中间坐标可以为两个坐标的加和平均值也可以为以预设的数值为权值的加权平均值。
进一步需要说明的是,任一目标候选行的边界线(上边界线或下边界线)的左坐标为预设的表格左边界的坐标,任一边界线的右坐标为预设的表格右边界的坐标。
例如,将图4b中的第一候选行、第二候选行、和第三候选行合并后,得到候选行,候选行的上边界线的坐标为候选行的上坐标与上一候选行的下坐标的中间坐标,候选行的下边界线的坐标为候选行的下坐标与下一候选行的上坐标的中间坐标,如图4c所示。
需要说明的是,调整每一目标候选行的上边界和下边界后,得到目标行。
S113、将满足预设的列识别条件的分词块,划分为同一候选列。
本实施例中,预设的列识别条件包括:
列识别条件包括:分词块的左坐标的差值不大于预设的第二数值,和/或,分词块的右坐标的差值不大于的预设的第三数值。
以图5a所示的分词块示意图为例,对可选的一种实现候选行的划分方法进行介绍。
从每行目标行中,选择左起第一个分词块,即图5a所示的r1~r6,按照上述预设的列识别条件判断r1~r6是否属于同一候选列,图5a中,r3~r6满足列识别条件,则将r3~r6划分为第一候选列,r1和r2不满足列识别条件,则待定。
在剩余未被划分候选列的分词块中,选择左起第一个分词块即图5a所示的r1、r2、r7~r10,按照上述预设的列识别条件判断r1、r2、r7~r10是否属于同一候选列,图5a中,r1、r2、r7~r10满足列识别条件,则将r1、r2、r7~r10划分为第二候选列。
本实施例仅以图5a中第一候选列以及第二候选列为例对划分候选列进行介绍,其它候选列的划分可参见上述过程,在此不做赘述。
需要说明的是,划分为同一候选列的具体实施过程可以使用代码编程,并且,第二数值依据候选列中,左右坐标差值最大(记为最宽)的分词块确定,也即在划分不同候选列时,采用不同的第二数值,并且采用不同的第三数值。例如,当候选列中的分词块的左右坐标差值越大,第二数值越大。
S114、依据目标候选列中的分词块的左坐标,获取目标候选列的左边界线,依据目标候选列中的分词块的右坐标,获取目标候选列的右边界线。
本实施例中,目标候选列为任一候选列,确定目标候选列的左边界线和目标候选列的右边界线的方法包括:
B1、将第一候选列(位于表格最左的候选列)的左边界线的坐标确定为,第一目标候选列的分词块中,左坐标最小的分词块的左坐标,或,预设的表格左边界的坐标。
B2、将位于表格最右的候选列的右边界线的坐标确定为,候选列的分词块中,右坐标大的分词块的右坐标,或,预设的表格右边界的坐标。
B3、将除第一候选列之外的任意候选列的左边界线的坐标确定为,候选列的分词块中的左坐标最小的分词块的左坐标,或者,候选列的分词块的左坐标中的出现次数大于预设次数阈值的左坐标。
B4、将除位于最右的候选列之外的任意候选列的右边界线的坐标确定为,候选列的分词块中的右坐标最大的分词块的右坐标,或者,候选列的分词块的右坐标中的出现次数大于预设次数阈值的右坐标。
S115、调整目标候选列的边界线。
本实施例中,目标候选列的边界线包括目标候选行的左边界线和目标候选行的右边界线。
由于相邻分词块间的存在间距,因此本实施例中,进一步选择目标候选列的左坐标与上一个候选列的右坐标的中间坐标,作为目标候选列的左边界线坐标,也即上一个目标候选列的右边界线坐标。
需要说明的是,任两个坐标的中间坐标可以为两个坐标的加和平均值也可以为以预设的数值为权值的加权平均值。
进一步需要说明的是,目标候选列的边界线的上坐标为位于最上方的目标行的上坐标,目标候选列的边界线的下坐标为位于最下方的目标行的下坐标。
接上例,图5b中示例了图5a所示的分词块经过S114~S115后,得到的候选列示意图。其中,第一候选列的左边界线的坐标为预设的表格左边界线坐标,第一候选列的右边界线(也即第二候选列的左边界线)的坐标为第一候选列的右坐标和第二候选列的左坐标的平均值。
S116、在目标行中,将满足预设的列合并条件的分词块所在的候选列合并。
本实施例中,列合并条件包括:分词块的左坐标和分词块的右坐标位于任一候选列的边界线的两侧。也即,也即分词块的左坐标小于边界线的坐标,右坐标大于边界线的坐标。
将目标列合并的方法包括:在满足列合并条件的分词块所在的目标行中,删除分词块的左坐标和右坐标之间的边界线,具体地,将位于目标行上方的该分界线的下端点修改为目标行的上坐标,将位于目标行下方的该分界线的上端点修改为目标行的下坐标。
如图5b所示,分词块r1的左坐标小于第三候选列的左边界线的坐标,并且r1的右坐标大于第三候选列的左边界线的坐标,所以,删除位于r1所在目标行中的第三候选列的左边界线,即,将第二候选列的左边界线的上坐标修改为r1所在目标行的下坐标,如图5c所示。
需要说明的是,本实施例不限定S115和S116的执行顺序,并将经过S115和S116处理后的候选列作为目标列。
由上述技术方案可以看出,本申请实施例提供的表格识别方法,获取待识别图像,确定待识别图像中的分词块,分词块为包括至少一个字符的矩形区域,分词块的第一类坐标值包括分词块的上边界在竖直方向的坐标值和分词块的下边界在竖直方向的坐标值,分词块的第二类坐标值包括分词块的左边界在水平方向的坐标值和分词块的右边界在水平方向的坐标值,可以理解的是,任意一个分词块的第一类坐标值能够表征该分词块在待识别图像中在竖直方向的位置,任意一个分词块的第二类坐标值能够表征该分词块在待识别图像中在水平方向的位置。因此,考虑到表格的同一行中包括的字符块的在竖直方向的位置基本一致,本方案依据分词块的第一类坐标值确定目标行的上边界线以及下边界线。考虑到表格的一行多列特性以及同一列中包括的字符块的在水平方向的位置基本一致,依据分词块的第二类坐标值以及目标行的边界线,确定目标列左边界线和右边界线。可见,本申请实施例提供的表格识别方法无需样本图像,能够直接针对待识别图像进行表格识别,针对于无框表格或有框表格的识别不受样本图像的限制,提高表格识别的准确度,并且本方法全流程无人工参与,无需收集大量样本图片进行模板提炼或者学习训练,提高了表格识别的效率。
进一步,本方法从待识别图片底层介入,针对于有框表格,直接依据像素点识别框线,针对于无框表格,将识别的颗粒度确定为单个字符,由字符到分词块,再到目标行和目标列,最后到整个表格,由点到线,再到面,精确识别表格。从而实现多表格精准识别的目的。
进一步,本方法对电子图像进行预处理,可以避免图像图章、图像倾斜等干扰因素造成的表格识别准确度低。
进一步,本方法适用于对无框表格以及有框表格中的列识别方法和行识别方法,实现对多类型表格的识别。
进一步,本方法针对于单元格换行的情况,合并候选行,得到合并行,并且针对于单元格合并的情况,将满足预设的列合并条件的分词块所在的候选列合并,相对于现有技术中,无框表格的训练学习准确率较低,单元格合并、换行等情况无法精准定位,需要不断地参数调优,可迭代性和鲁棒性较差。
进一步,本方法提供了一种调整边界线(候选行的边界线以及候选列的边界线)的方法,使得识别出的表格的规整度高,避免出现无效的空白行或空白列。
需要说明的是,图1仅示例了表格识别方法的一种可选的具体实现方式,本申请实施例提供的表格识别方法还包括其他的具体实现方式,例如,对电子图像进行预处理,得到第一待识别图像方法不限于S101中提及1~3,还包括其他预处理方法。再例如,识别第二待识别图像中的字符块的方法不限于MSER箱体识别方法,还可以利用其他的文字区域识别方法。再例如,分词块不限定于矩形,在分词块的形状不规则情况下,分词块的上边界为分词块的边界线中位于最上方的点。
综上,本申请实施例提供的表格识别方法可以概括为图6所示的一种表格识别方法流程示意图,如图6所示,本方法可以包括S601~S604。
S601、获取待识别图像。
本实施例中,待识别图像可以为电子图像,或经过处理之后的电子图像。
可选的,对电子图像的处理包括:对电子图像进行预处理。
本实施例中,预处理的方法参见S101。需要说明的是,经过预处理后的电子图像避免了图像图章、图像倾斜等干扰因素造成的表格识别准确度低。
可选的,对电子图像的处理还包括:去除电子图像中的有框表格的框线,具体地,去除识别出的电子图像中的横向线段和纵向线段。需要说明的是,横向线段和纵向线段的识别过程可以参见S102~S103。
S602、确定待识别图像中的分词块。
本实施例中,分词块为包括至少一个字符的矩形区域。分词块中的字符可以表达完整的词义,并且字符间的距离小于预设的阈值。
可选的一种确定待识别图像中的分词块的方法参见S105~S106。可选的,本方法还包括其他的确定待识别图像中的分词块的方法,例如,使用OCR技术识别待识别图像中的字符,根据字符的语义确定分词,进一步确定分词块。具体可以参见现有技术。
S603、依据分词块的第一类坐标值,确定目标行的边界线。
本实施例中,目标行的边界线包括目标行的上边界线和目标行的下边界线,目标行为待识别图像中的任意一行表格。
具体的,本步骤确定目标行的上边界线的坐标值以及目标行的下边界线的坐标值。即目标行的上边界线在竖直方向上的坐标值,目标行的下边界线在竖直方向上的坐标值。
本实施例中,分词块的第一类坐标值包括分词块的上坐标和分词块的下坐标,分词块的上坐标为分词块的上边界在竖直方向的坐标值,分词块的下坐标为分词块的下边界在竖直方向的坐标值。
依据表格的一行多列的特征,每一目标行至少包括一个分词块,所以,依据目标行中所包括的分词块的上坐标,确定目标行的上边界线,依据目标行中所包括的分词块的下坐标,确定目标行的下边界线。
确定目标行包括的分词块的方法可以参见上述S107~S110,依据目标行中所包括的分词块的坐标确定目标行的边界线的方法可以参见S111~S112。需要说明的是,S111~S112仅为确定目标行的边界线的可选的一种实现方式,实际应用中,还包括其他的实现方式,例如,S112为可选的步骤。
S604、依据分词块的第二类坐标值以及目标行的边界线,确定目标列的边界线。
本实施例中,目标列的边界线包括目标列的左边界线和目标列的右边界线,目标列为待识别图像中的任意一列表格。
具体的,本步骤确定目标列的左边界线的坐标值以及目标列的左边界线的坐标值。即目标列的左边界线在水平方向上的坐标值,目标列的右边界线在水平方向上的坐标值。
本实施例中,分词块的第二类坐标值包括分词块的左坐标和分词块的右坐标,分词块的左坐标为分词块的左边界在水平方向的坐标值,分词块的右坐标为分词块的右边界在水平方向的坐标值。
依据表格的一行多列的特征,每一目标行至少包括一列目标列,并且依据属于同一目标列的分词块的左坐标差值较小,属于同一目标列的分词块的右坐标差值较小的特性,划分目标列,进一步依据目标行中所包括的目标列中的分词块的左坐标确定目标列的左边界线,依据目标行中所包括的目标列中的分词块的右坐标确定目标列的右边界线。
需要说明的是,S113~S116仅为确定目标列的边界线的可选的一种实现方式,实际应用中,还包括其他的实现方式,例如,S115为可选的步骤。
由上述技术方案可以看出,本申请实施例提供的表格识别方法,获取待识别图像,确定待识别图像中的分词块,分词块为包括至少一个字符的矩形区域,分词块的第一类坐标值包括分词块的上边界在竖直方向的坐标值和分词块的下边界在竖直方向的坐标值,分词块的第二类坐标值包括分词块的左边界在水平方向的坐标值和分词块的右边界在水平方向的坐标值,可以理解的是,任意一个分词块的第一类坐标值能够表征该分词块在待识别图像中在竖直方向的位置,任意一个分词块的第二类坐标值能够表征该分词块在待识别图像中在水平方向的位置。因此,考虑到表格的同一行中包括的字符块的在竖直方向的位置基本一致,本方案依据分词块的第一类坐标值确定目标行的上边界线以及下边界线。考虑到表格的一行多列特性以及同一列中包括的字符块的在水平方向的位置基本一致,依据分词块的第二类坐标值以及目标行的边界线,确定目标列左边界线和右边界线。可见,本申请实施例提供的表格识别方法无需样本图像,能够直接针对待识别图像进行表格识别,针对于无框表格或有框表格的识别不受样本图像的限制,提高表格识别的准确度,并且本方法全流程无人工参与,无需收集大量样本图片进行模板提炼或者学习训练,提高了表格识别的效率。
图7示出了本申请实施例提供的一种表格识别装置的结构示意图,如图7所示,该装置可以包括:
图像获取单元701,用于获取待识别图像;
分词块确定单元702,用于确定待识别图像中的分词块;分词块为包括至少一个字符的图像区域;
行识别单元703,用于依据分词块的第一类坐标值,确定目标行的边界线,目标行的边界线包括目标行的上边界线和目标行的下边界线,目标行为待识别图像中的任意一行表格,分词块的第一类坐标值包括分词块的上边界在竖直方向的坐标值和分词块的下边界在竖直方向的坐标值;
列识别单元704,用于依据分词块的第二类坐标值以及目标行的边界线,确定目标列的边界线,目标列的边界线包括目标列的左边界线和目标列的右边界线,目标列为待识别图像中的任意一列表格,分词块的第二类坐标值包括分词块的左边界在水平方向的坐标值和分词块的右边界在水平方向的坐标值。
可选地,图像获取单元用于获取待识别图像包括:图像获取单元具体用于:
从电子图像中识别横向线段和纵向线段;
在电子图像中去除横向线段和竖向线段,得到待识别图像。
可选地,还包括以下至少一项:
图章去除单元,用于在识别电子图像中的横向线段和纵向线段之前,去除电子图像中的图章图像,图章图像为预设图章在电子图像中的成像;
角度校正单元,用于在识别电子图像中的横向线段和纵向线段之前,对电子图像进行角度校正;
二值化单元,用于在识别电子图像中的横向线段和纵向线段之前,对电子图像进行二值化。
可选地,图像获取单元用于识别电子图像中的横向线段和纵向线段,得到待识别图像,包括:图像获取单元具体用于:
在水平方向上,将像素距离小于预设像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为第一类像素点,得到由连续的第一类像素点组成的横向线段,像素间断参数为相邻第一类像素点间的最大像素距离;
在相邻两条横向线段之间的垂直方向上,将像素距离小于像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为第一类像素点,得到由连续的第一类像素点组成的纵向线段。
可选地,分词块确定单元用于确定待识别图像中的分词块,包括:分词块确定单元具体用于:
使用预设的文字区域识别方法,识别待识别图像中的字符块,字符块为包括至少一个字符的图像区域;
合并满足预设合并条件的字符块,得到分词块,预设合并条件包括:字符块间的水平距离小于预设距离阈值;和/或,字符块中包括的字符组成符合预设语义的分词。
可选地,行识别单元用于依据分词块的第一类坐标值,确定目标行的边界线,包括:行识别单元具体用于:
将满足预设的行识别条件的分词块划分为同一候选行,行识别条件包括:分词块的上坐标的差值小于预设的第一数值;
依据目标候选行中的分词块的上坐标,获取目标候选行的上边界线,依据目标候选行中的分词块的下坐标,获取目标候选行的下边界线,目标候选行为任一候选行。
可选地,还包括:行合并单元,用于在将满足预设的行识别条件的分词块划分为同一候选行之后,依据目标候选行中的分词块的上坐标,确定目标候选行的上边界线,依据目标候选行中的分词块的下坐标,确定目标候选行的下边界线之前:
在满足预设的填充条件的候选行中增加空白分词块,填充条件包括:候选行中的分词块的坐标在其它候选行中的分词块的上坐标和分词块的下坐标之间,分词块的坐标包括分词块的上坐标和/或分词块的下坐标;
合并满足填充条件的候选行得到合并行,将合并行作为候选行。
可选地,还包括:行调整单元,用于调整目标候选行的边界线,目标候选行的边界线包括目标候选行的上边界线和目标候选行的下边界线。
可选地,列识别单元用于依据分词块的第二类坐标值以及目标行的边界线,确定目标列的边界线,包括:列识别单元具体用于:
将满足预设的列识别条件的分词块,划分为同一候选列,列识别条件包括:分词块的左坐标的差值不大于预设的第二数值,和/或,分词块的右坐标的差值不大于的预设的第三数值;
依据目标候选列中的分词块的左坐标,获取目标候选列的左边界线,依据目标候选列中的分词块的右坐标,获取目标候选列的右边界线,目标候选列为任一候选列。
可选地,还包括:列合并单元,用于在目标行中,将满足预设的列合并条件的分词块所在的候选列合并,列合并条件包括:分词块的左坐标和分词块的右坐标位于目标候选列的边界线的两侧,目标候选列的边界线包括目标候选行的左边界线或目标候选行的右边界线。
可选地,还包括:列调整单元,用于调整目标候选列的边界线。
可选地,还包括:标题行确定单元,用于将满足预设条件的候选行作为标题行,预设条件包括:候选行包括一个分词块,并且候选行包括的分词块为标题分词块,标题分词块为字符内容与预设内容相似度大于相似度阈值的分词块;
列识别条件还包括:
分词块所在的目标行不为标题行。
图8示出了该表格识别设备的结构示意图,该设备可以包括:至少一个处理器801,至少一个通信接口802,至少一个存储器803和至少一个通信总线804;
在本申请实施例中,处理器801、通信接口802、存储器803、通信总线804的数量为至少一个,且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信;
处理器801可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器803可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本申请实施例提供的表格识别方法,如下:
获取待识别图像;
确定待识别图像中的分词块,分词块为包括至少一个字符的图像区域;
依据分词块的第一类坐标值,确定目标行的边界线,目标行的边界线包括目标行的上边界线和目标行的下边界线,目标行为待识别图像中的任意一行表格,分词块的第一类坐标值包括分词块的上坐标和分词块的下坐标,分词块的上坐标为分词块的上边界在竖直方向的坐标值,分词块的下坐标为分词块的下边界在竖直方向的坐标值;
依据分词块的第二类坐标值以及目标行的边界线,确定目标列的边界线,目标列的边界线包括目标列的左边界线和目标列的右边界线,目标列为待识别图像中的任意一列表格,分词块的第二类坐标值包括分词块的左坐标和分词块的右坐标,分词块的左坐标为分词块的左边界在水平方向的坐标值,分词块的右坐标为分词块的右边界在水平方向的坐标值。
可选地,获取待识别图像包括:
从电子图像中识别横向线段和纵向线段;
在电子图像中去除横向线段和竖向线段,得到待识别图像。
可选地,在识别电子图像中的横向线段和纵向线段之前,还包括以下至少一项:
去除电子图像中的图章图像,图章图像为预设图章在电子图像中的成像;
对电子图像进行角度校正;
对电子图像进行二值化。
可选地,识别电子图像中的横向线段和纵向线段,得到待识别图像,包括:
在水平方向上,将像素距离小于预设像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为第一类像素点,得到由连续的第一类像素点组成的横向线段,像素间断参数为相邻第一类像素点间的最大像素距离;
在相邻两条横向线段之间的垂直方向上,将像素距离小于像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为第一类像素点,得到由连续的第一类像素点组成的纵向线段。
可选地,确定待识别图像中的分词块,包括:
使用预设的文字区域识别方法,识别待识别图像中的字符块,字符块为包括至少一个字符的图像区域;
合并满足预设合并条件的字符块,得到分词块,预设合并条件包括:字符块间的水平距离小于预设距离阈值;和/或,字符块中包括的字符组成符合预设语义的分词。
可选地,依据分词块的第一类坐标值,确定目标行的边界线,包括:
将满足预设的行识别条件的分词块划分为同一候选行,行识别条件包括:分词块的上坐标的差值小于预设的第一数值;
依据目标候选行中的分词块的上坐标,获取目标候选行的上边界线,依据目标候选行中的分词块的下坐标,获取目标候选行的下边界线,目标候选行为任一候选行。
可选地,在将满足预设的行识别条件的分词块划分为同一候选行之后,依据目标候选行中的分词块的上坐标,确定目标候选行的上边界线,依据目标候选行中的分词块的下坐标,确定目标候选行的下边界线之前,还包括:
在满足预设的填充条件的候选行中增加空白分词块,填充条件包括:候选行中的分词块的坐标在其它候选行中的分词块的上坐标和分词块的下坐标之间,分词块的坐标包括分词块的上坐标和/或分词块的下坐标;
合并满足填充条件的候选行得到合并行,将合并行作为候选行。
可选地,还包括:
调整目标候选行的边界线,目标候选行的边界线包括目标候选行的上边界线和目标候选行的下边界线。
可选地,依据分词块的第二类坐标值以及目标行的边界线,确定目标列的边界线,包括:
将满足预设的列识别条件的分词块,划分为同一候选列,列识别条件包括:分词块的左坐标的差值不大于预设的第二数值,和/或,分词块的右坐标的差值不大于的预设的第三数值;
依据目标候选列中的分词块的左坐标,获取目标候选列的左边界线,依据目标候选列中的分词块的右坐标,获取目标候选列的右边界线,目标候选列为任一候选列。
可选地,还包括:
在目标行中,将满足预设的列合并条件的分词块所在的候选列合并,列合并条件包括:分词块的左坐标和分词块的右坐标位于目标候选列的边界线的两侧,目标候选列的边界线包括目标候选行的左边界线或目标候选行的右边界线。
可选地,还包括:
调整目标候选列的边界线。
可选地,还包括:
将满足预设条件的候选行作为标题行,预设条件包括:候选行包括一个分词块,并且候选行包括的分词块为标题分词块,标题分词块为字符内容与预设内容相似度大于相似度阈值的分词块;
列识别条件还包括:
分词块所在的目标行不为标题行。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本申请实施例提供的表格识别方法,如下:
获取待识别图像;
确定待识别图像中的分词块,分词块为包括至少一个字符的图像区域;
依据分词块的第一类坐标值,确定目标行的边界线,目标行的边界线包括目标行的上边界线和目标行的下边界线,目标行为待识别图像中的任意一行表格,分词块的第一类坐标值包括分词块的上坐标和分词块的下坐标,分词块的上坐标为分词块的上边界在竖直方向的坐标值,分词块的下坐标为分词块的下边界在竖直方向的坐标值;
依据分词块的第二类坐标值以及目标行的边界线,确定目标列的边界线,目标列的边界线包括目标列的左边界线和目标列的右边界线,目标列为待识别图像中的任意一列表格,分词块的第二类坐标值包括分词块的左坐标和分词块的右坐标,分词块的左坐标为分词块的左边界在水平方向的坐标值,分词块的右坐标为分词块的右边界在水平方向的坐标值。
可选地,获取待识别图像包括:
从电子图像中识别横向线段和纵向线段;
在电子图像中去除横向线段和竖向线段,得到待识别图像。
可选地,在识别电子图像中的横向线段和纵向线段之前,还包括以下至少一项:
去除电子图像中的图章图像,图章图像为预设图章在电子图像中的成像;
对电子图像进行角度校正;
对电子图像进行二值化。
可选地,识别电子图像中的横向线段和纵向线段,得到待识别图像,包括:
在水平方向上,将像素距离小于预设像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为第一类像素点,得到由连续的第一类像素点组成的横向线段,像素间断参数为相邻第一类像素点间的最大像素距离;
在相邻两条横向线段之间的垂直方向上,将像素距离小于像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为第一类像素点,得到由连续的第一类像素点组成的纵向线段。
可选地,确定待识别图像中的分词块,包括:
使用预设的文字区域识别方法,识别待识别图像中的字符块,字符块为包括至少一个字符的图像区域;
合并满足预设合并条件的字符块,得到分词块,预设合并条件包括:字符块间的水平距离小于预设距离阈值;和/或,字符块中包括的字符组成符合预设语义的分词。
可选地,依据分词块的第一类坐标值,确定目标行的边界线,包括:
将满足预设的行识别条件的分词块划分为同一候选行,行识别条件包括:分词块的上坐标的差值小于预设的第一数值;
依据目标候选行中的分词块的上坐标,获取目标候选行的上边界线,依据目标候选行中的分词块的下坐标,获取目标候选行的下边界线,目标候选行为任一候选行。
可选地,在将满足预设的行识别条件的分词块划分为同一候选行之后,依据目标候选行中的分词块的上坐标,确定目标候选行的上边界线,依据目标候选行中的分词块的下坐标,确定目标候选行的下边界线之前,还包括:
在满足预设的填充条件的候选行中增加空白分词块,填充条件包括:候选行中的分词块的坐标在其它候选行中的分词块的上坐标和分词块的下坐标之间,分词块的坐标包括分词块的上坐标和/或分词块的下坐标;
合并满足填充条件的候选行得到合并行,将合并行作为候选行。
可选地,还包括:
调整目标候选行的边界线,目标候选行的边界线包括目标候选行的上边界线和目标候选行的下边界线。
可选地,依据分词块的第二类坐标值以及目标行的边界线,确定目标列的边界线,包括:
将满足预设的列识别条件的分词块,划分为同一候选列,列识别条件包括:分词块的左坐标的差值不大于预设的第二数值,和/或,分词块的右坐标的差值不大于的预设的第三数值;
依据目标候选列中的分词块的左坐标,获取目标候选列的左边界线,依据目标候选列中的分词块的右坐标,获取目标候选列的右边界线,目标候选列为任一候选列。
可选地,还包括:
在目标行中,将满足预设的列合并条件的分词块所在的候选列合并,列合并条件包括:分词块的左坐标和分词块的右坐标位于目标候选列的边界线的两侧,目标候选列的边界线包括目标候选行的左边界线或目标候选行的右边界线。
可选地,还包括:
调整目标候选列的边界线。
可选地,还包括:
将满足预设条件的候选行作为标题行,预设条件包括:候选行包括一个分词块,并且候选行包括的分词块为标题分词块,标题分词块为字符内容与预设内容相似度大于相似度阈值的分词块;
列识别条件还包括:
分词块所在的目标行不为标题行。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种表格识别方法,其特征在于,包括:
获取待识别图像;
确定所述待识别图像中的分词块,所述分词块为包括至少一个字符的图像区域;
依据所述分词块的第一类坐标值,确定目标行的边界线,所述目标行的边界线包括所述目标行的上边界线和所述目标行的下边界线,所述目标行为所述待识别图像中的任意一行表格,所述分词块的第一类坐标值包括所述分词块的上坐标和所述分词块的下坐标,所述分词块的上坐标为所述分词块的上边界在竖直方向的坐标值,所述分词块的下坐标为所述分词块的下边界在竖直方向的坐标值;
依据所述分词块的第二类坐标值以及所述目标行的边界线,确定目标列的边界线,所述目标列的边界线包括所述目标列的左边界线和所述目标列的右边界线,所述目标列为所述待识别图像中的任意一列表格,所述分词块的第二类坐标值包括所述分词块的左坐标和所述分词块的右坐标,所述分词块的左坐标为所述分词块的左边界在水平方向的坐标值,所述分词块的右坐标为所述分词块的右边界在水平方向的坐标值。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别图像包括:
从电子图像中识别横向线段和纵向线段;
在所述电子图像中去除所述横向线段和所述竖向线段,得到待识别图像。
3.根据权利要求2所述的方法,其特征在于,所述识别电子图像中的横向线段和纵向线段,得到待识别图像,包括:
在水平方向上,将像素距离小于预设像素间断参数的相邻的第一类像素点之间的第二类像素点,转换为所述第一类像素点,得到由连续的所述第一类像素点组成的所述横向线段,所述像素间断参数为相邻所述第一类像素点间的最大像素距离;
在相邻两条所述横向线段之间的垂直方向上,将所述像素距离小于所述像素间断参数的相邻的所述第一类像素点之间的所述第二类像素点,转换为所述第一类像素点,得到由连续的所述第一类像素点组成的所述纵向线段。
4.根据权利要求1所述的方法,其特征在于,所述确定待识别图像中的分词块,包括:
使用预设的文字区域识别方法,识别所述待识别图像中的字符块,所述字符块为包括至少一个字符的图像区域;
合并满足预设合并条件的所述字符块,得到所述分词块,所述预设合并条件包括:所述字符块间的水平距离小于预设距离阈值;和/或,所述字符块中包括的字符组成符合预设语义的分词。
5.根据权利要求1所述的方法,其特征在于,所述依据分词块的第一类坐标值,确定目标行的边界线,包括:
将满足预设的行识别条件的所述分词块划分为同一候选行,所述行识别条件包括:所述分词块的上坐标的差值小于预设的第一数值;
依据目标候选行中的所述分词块的上坐标,获取所述目标候选行的上边界线,依据所述目标候选行中的所述分词块的下坐标,获取所述目标候选行的下边界线,所述目标候选行为任一所述候选行。
6.根据权利要求5所述的方法,其特征在于,在所述将满足预设的行识别条件的所述分词块划分为同一候选行之后,所述依据目标候选行中的所述分词块的上坐标,确定所述目标候选行的上边界线,依据所述目标候选行中的所述分词块的下坐标,确定所述目标候选行的下边界线之前,还包括:
在满足预设的填充条件的候选行中增加空白分词块,所述填充条件包括:所述候选行中的所述分词块的坐标在其它所述候选行中的所述分词块的上坐标和所述分词块的下坐标之间,所述分词块的坐标包括所述分词块的上坐标和/或所述分词块的下坐标;
合并满足所述填充条件的所述候选行得到合并行,将所述合并行作为所述候选行。
7.根据权利要求1所述的方法,其特征在于,所述依据所述分词块的第二类坐标值以及所述目标行的边界线,确定目标列的边界线,包括:
将满足预设的列识别条件的分词块,划分为同一候选列,所述列识别条件包括:所述分词块的左坐标的差值不大于预设的第二数值,和/或,所述分词块的右坐标的差值不大于的预设的第三数值;
依据目标候选列中的所述分词块的左坐标,获取所述目标候选列的左边界线,依据所述目标候选列中的所述分词块的右坐标,获取所述目标候选列的右边界线,所述目标候选列为任一所述候选列。
8.一种表格识别装置,其特征在于,包括:
图像获取单元,用于获取待识别图像;
分词块确定单元,用于确定所述待识别图像中的分词块;所述分词块为包括至少一个字符的图像区域;
行识别单元,用于依据所述分词块的第一类坐标值,确定目标行的边界线,所述目标行的边界线包括所述目标行的上边界线和所述目标行的下边界线,所述目标行为待识别图像中的任意一行表格,所述分词块的第一类坐标值包括所述分词块的上边界在竖直方向的坐标值和所述分词块的下边界在竖直方向的坐标值;
列识别单元,用于依据所述分词块的第二类坐标值以及所述目标行的边界线,确定目标列的边界线,所述目标列的边界线包括所述目标列的左边界线和所述目标列的右边界线,所述目标列为待识别图像中的任意一列表格,所述分词块的第二类坐标值包括所述分词块的左边界在水平方向的坐标值和所述分词块的右边界在水平方向的坐标值。
9.一种表格识别设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的表格识别方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的表格识别方法的各个步骤。
CN202011232039.8A 2020-11-06 2020-11-06 一种表格识别方法、装置、设备及可读存储介质 Active CN112329641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011232039.8A CN112329641B (zh) 2020-11-06 2020-11-06 一种表格识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011232039.8A CN112329641B (zh) 2020-11-06 2020-11-06 一种表格识别方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112329641A true CN112329641A (zh) 2021-02-05
CN112329641B CN112329641B (zh) 2024-06-18

Family

ID=74316749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011232039.8A Active CN112329641B (zh) 2020-11-06 2020-11-06 一种表格识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112329641B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926568A (zh) * 2021-03-05 2021-06-08 北京全路通信信号研究设计院集团有限公司 联锁表蓝图识别方法、装置、电子设备及存储介质
CN113139399A (zh) * 2021-05-13 2021-07-20 阳光电源股份有限公司 一种图像线框识别方法及服务器
CN114067325A (zh) * 2021-11-17 2022-02-18 深圳证券信息有限公司 股权结构图识别方法、系统及其设备
CN114898390A (zh) * 2022-05-20 2022-08-12 中国建设银行股份有限公司 表格生成方法、装置、电子设备及存储介质
CN115171141A (zh) * 2022-01-19 2022-10-11 维正知识产权科技有限公司 文本图像中下划线的识别定位方法、存储器和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815595A (en) * 1995-12-29 1998-09-29 Seiko Epson Corporation Method and apparatus for identifying text fields and checkboxes in digitized images
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
CN110490190A (zh) * 2019-07-04 2019-11-22 贝壳技术有限公司 一种结构化图像文字识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815595A (en) * 1995-12-29 1998-09-29 Seiko Epson Corporation Method and apparatus for identifying text fields and checkboxes in digitized images
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
CN110490190A (zh) * 2019-07-04 2019-11-22 贝壳技术有限公司 一种结构化图像文字识别方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926568A (zh) * 2021-03-05 2021-06-08 北京全路通信信号研究设计院集团有限公司 联锁表蓝图识别方法、装置、电子设备及存储介质
CN112926568B (zh) * 2021-03-05 2024-02-13 北京全路通信信号研究设计院集团有限公司 联锁表蓝图识别方法、装置、电子设备及存储介质
CN113139399A (zh) * 2021-05-13 2021-07-20 阳光电源股份有限公司 一种图像线框识别方法及服务器
CN113139399B (zh) * 2021-05-13 2024-04-12 阳光电源股份有限公司 一种图像线框识别方法及服务器
CN114067325A (zh) * 2021-11-17 2022-02-18 深圳证券信息有限公司 股权结构图识别方法、系统及其设备
CN115171141A (zh) * 2022-01-19 2022-10-11 维正知识产权科技有限公司 文本图像中下划线的识别定位方法、存储器和装置
CN114898390A (zh) * 2022-05-20 2022-08-12 中国建设银行股份有限公司 表格生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112329641B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN112329641A (zh) 一种表格识别方法、装置、设备及可读存储介质
CN102426647B (zh) 一种台标识别的方法、装置
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
CN101908136B (zh) 一种表格识别处理方法及系统
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
US7970213B1 (en) Method and system for improving the recognition of text in an image
CN101122953A (zh) 一种图片文字分割的方法
CN110490190B (zh) 一种结构化图像文字识别方法及系统
CN112906695B (zh) 适配多类ocr识别接口的表格识别方法及相关设备
CN107437085A (zh) 一种提升ocr识别率的方法、装置及可读存储介质
CN110473174B (zh) 一种基于图像计算铅笔精确数目的方法
CN111222508B (zh) 基于roi的户型图比例尺识别方法、装置、计算机设备
CN111091124A (zh) 一种书脊文字识别方法
CN111914805A (zh) 表格结构化方法、装置、电子设备及存储介质
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
CN111881659B (zh) 表格图片的处理方法、系统、可读存储介质及计算机设备
CN107766854A (zh) 一种基于模板匹配实现快速页码识别的方法
CN113139535A (zh) 一种ocr文档识别方法
CN114511718A (zh) 一种建筑施工用物料智能管理方法及系统
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN116416624A (zh) 一种基于版面校正的文档电子化方法、装置以及存储介质
CN115909375A (zh) 一种基于智能识别的报表分析方法
CN107145888A (zh) 视频字幕实时翻译方法
CN107798355B (zh) 一种基于文档图像版式自动分析与判断的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant