CN110147774A - 表格式图片版面分析方法和计算机存储介质 - Google Patents

表格式图片版面分析方法和计算机存储介质 Download PDF

Info

Publication number
CN110147774A
CN110147774A CN201910435629.1A CN201910435629A CN110147774A CN 110147774 A CN110147774 A CN 110147774A CN 201910435629 A CN201910435629 A CN 201910435629A CN 110147774 A CN110147774 A CN 110147774A
Authority
CN
China
Prior art keywords
block diagram
text
header field
default
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910435629.1A
Other languages
English (en)
Other versions
CN110147774B (zh
Inventor
田强
邓冠群
李树凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN201910435629.1A priority Critical patent/CN110147774B/zh
Publication of CN110147774A publication Critical patent/CN110147774A/zh
Application granted granted Critical
Publication of CN110147774B publication Critical patent/CN110147774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种表格式图片版面分析方法和计算机存储介质,该方法包括:获取该目标图片中的所有文本框图的信息,每一文本框图的信息包括文本框图的文本内容和对应的框图信息;将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段的所在框图,并将该所在框图作为预设标题字段框图;根据各预设标题字段框图的框图位置信息按照预设规则确定与当前的预设标题字段相匹配的字段内容框图;获取所述字段内容框图的文本内容并输出至预设模板表格中。根据本发明的技术方案,可以实现表格版式图片的版面分析,识别准确率较高,鲁棒性好且易于扩展等。

Description

表格式图片版面分析方法和计算机存储介质
技术领域
本发明涉及版面分析技术领域,尤其涉及一种表格式图片版面分析方法和计算机存储介质。
背景技术
传统的版面分析方法大多采用的是基于图像处理方法,然而,对于此类方法却往往存在以下问题:
一是处理步骤繁琐,准确率低。在传统的版面分析方法中,由于需要对图像进行连通域确定、特征匹配及图像分割等处理,而在这繁琐的图像处理过程中,往往容易引起图像信息的损失或丢失,从而导致识别准确率低。
二是鲁棒性差,当处理的图像存在模糊、倾斜和透视变换等情况下,传统的版面分析方法很难设置适当的阈值以满足各种拍摄场景下的图片,从而造成鲁棒性较差。
发明内容
鉴于上述问题,本发明提出一种表格式图片版面分析方法和计算机存储介质,可以解决传统版面分析方法时图像信息的损失及鲁棒性较差等难题。
本发明实施例提出一种表格式图片版面分析方法,包括:
对目标图片进行文本区域检测及文本识别,以获取所述目标图片中的所有文本框图的信息,每一文本框图的信息包括文本框图的文本内容和对应的框图信息;
将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图,将所述预设标题字段所在的框图作为预设标题字段框图,并获取各预设标题字段框图的框图信息;
根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图;
获取与各预设标题字段框图相匹配的字段内容框图的文本内容并输出至预定模板表格中。
进一步地,所述“对目标图片进行文本区域检测及文本识别”包括:
将所述目标图片输入到预设文本检测模型中,输出所述目标图片中各文本区域对应的文本框图,并获取各文本框图的所述框图信息,所述框图信息包括文本框图的中心点坐标、宽、高和相对于预定方向的倾斜角;
对各文本框图输入到预设文本识别模型中进行文本识别,获取各文本框图对应的文本内容。
进一步地,所述中心点坐标包括横坐标和纵坐标,所述“获取所述目标图片中的所有文本框图的信息”步骤之后,还包括:
根据各文本框图与所述隔离基准框图各自横坐标的大小或各自纵坐标的大小确定含无效信息的无效框图;
将所述无效框图从所述获取的所有文本框图中删除。
进一步地,所述“将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图”包括:
若一个文本框图的文本内容成功匹配到所述预设标题字段的总字符长度的预设比值的字符时,则确定当前的文本框图为所述预设标题字段所在的框图。
进一步地,所述“根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图”包括:
确定与当前的预设标题字段框图平行且距离最近的上下边框线或左右边框线;
根据所述当前预设标题字段框图的中心点坐标、宽、所述中心点坐标到所述上边框线的距离以及所述中心点坐标到所述下边框线的距离计算所述当前预设标题字段框图的上基准点坐标和下基准点坐标;
根据所述当前预设标题字段框图的相对于水平方向上的倾斜角、所述上基准点坐标和所述下基准点坐标依次计算除所述当前预设标题字段框图外的各文本框图的中心点坐标所在竖直轴线分别与所述上边框线的上交点和与所述下边框线的下交点;
判断所述各文本框图的中心点坐标是否位于对应的所述上交点和所述下交点形成的线段上,并将中心点位于对应的所述上交点和所述下交点形成的线段上的文本框图作为与所述当前预设标题字段框图对应的文本框图;
将所述对应的文本框图作为与所述当前预设标题字段相匹配的字段内容框图。
进一步地,所述“根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图”包括:
确定与当前预设标题字段框图平行且距离最近的左边框线和右边框线;
根据所述当前预设标题字段框图的中心点坐标、高、所述中心点坐标到所述左边框线的距离和所述中心点坐标到所述右边框线的距离计算所述当前预设标题字段框图的左基准点坐标和右基准点坐标;
根据所述当前预设标题字段框图的相对于竖直方向上的倾斜角、所述左基准点坐标和所述右基准点坐标依次计算除所述当前预设标题字段框图外的各文本框图的中心点坐标所在水平轴线分别与所述左边框线的左交点和与所述右边框线的右交点;
判断所述各文本框图的中心点坐标是否位于对应的所述左交点和所述右交点形成的线段上,并将中心点位于对应的所述左交点和所述右交点形成的线段上的文本框图作为与所述当前预设标题字段框图对应的文本框图;
将所述对应的文本框图作为与所述当前预设标题字段相匹配的字段内容框图。
进一步地,若与所述当前预设标题字段框图相匹配的字段内容框图存在多个,所述方法还包括:
判断每相邻的两个字段内容框图的垂直距离是否小于预设阈值且所述两个字段内容框图在水平方向上是否存在重叠区域;
若是,将所述两个字段内容框图加入待合并框图集合,直到所有的字段内容框图的判断完成;
将所述待合并框图集合中的不同文本框图按照纵坐标降序规则进行文本内容行拼接。
进一步地,若所述当前的预设标题字段框图的中心点O坐标为(x0,y0),宽为w0,第一预设调整系数为r_small,第二预设调整系数为r_large,则所述当前的预设标题字段框图的上基准点坐标和下基准点坐标分别为:
上基准点坐标为(x0,y0-w0*r_small);
下基准点坐标为(x0,y0+w0*r_large)。
进一步地,若所述当前的预设标题字段框图的相对于水平方向的倾斜角为α,待计算的第i个文本框图的中心点坐标为(xi,yi),其中,i为大于或等于1的自然数,则按照所述预设公式计算得到的第i个的文本框图对应的所述上下交点为:
上交点为(xi,(y0-w0*r_small)+(xi-x0)*tanα);
下交点为(xi,(y0+w0*r_large)+(xi-x0)*tanα)。
本发明的另一实施例还提出一种表格式图片版面分析装置,包括:
文本框图信息获取模块100,用于对目标图片进行文本区域检测及文本识别,以获取所述目标图片中的所有文本框图的信息,每一文本框图的信息包括文本框图的文本内容和对应的框图信息;
预设标题字段查找模块200,用于将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图,将所述预设标题字段所在的框图作为预设标题字段框图,并获取各预设标题字段框图的框图信息;
字段内容匹配模块300,用于根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图;
版面分析输出模块400,用于获取与各预设标题字段框图相匹配的字段内容框图的文本内容并输出至预定模板表格中。
本发明的又一实施例还提出一种终端,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序以实施上述的表格式图片版面分析方法。
本发明的再一实施例提出一种计算机存储介质,其存储计算机程序,在所述计算机程序被执行时,实施上述的表格式图片版面分析方法。
通过本发明的技术方案可以实现表格版式图片的版面分析,由于不需要利用传统版面分析方法中的按行或列图像分割来提取信息内容,识别准确率较高,鲁棒性好且易于扩展等。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。
图1为本发明实施例1的表格式图片版面分析方法的流程示意图;
图2为本发明实施例1的表格式图片版面分析方法的文本框图检测及识别的流程示意图;
图3为本发明实施例1的表格式图片版面分析方法的文本框图检测的应用示意图;
图4为本发明实施例1的表格式图片版面分析方法的按行提取版式的字段内容框图确定的流程示意图;
图5为本发明实施例1的表格式图片版面分析方法的按行提取版式的字段内容框图确定的应用示意图;
图6为本发明实施例1的表格式图片版面分析方法的多个字段内容框图合并的流程示意图;
图7为本发明实施例2的表格式图片版面分析方法的按列提取版式的字段内容框图确定的流程示意图;
图8为本发明实施例2的表格式图片版面分析方法的按列提取版式的字段内容框图确定的应用示意图;
图9为本发明实施例3的表格式图片版面分析装置的结构示意图。
主要元件符号说明:
10-表格式图片版面分析装置;100-文本框图信息获取模块;200-预设标题字段查找模块;300-字段内容匹配模块;400-版面分析输出模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
下面结合具体的实施例对本发明进行详细说明。
实施例1
请参照图1,本实施例提出一种表格式图片版面分析方法,可运用于对支持表格排版格式的图片的版面分析,如房产证、身份证等等。由于用户拍摄的这类证件图片经常容易出现倾斜、透视变换、模糊等情况,导致设备进行版面分析时,容易引起图像信息的损失或丢失,从而导致识别准确率低等。而通过本实施例提出的方法不仅可以对出现倾斜、透视变换、模糊等情况的拍摄图片,尤其是文本倾斜、透视变换、串行等情况,能够实现较高准确率的版面分析,还具有流程简洁、效率较高等特点。下面对该表格式图片版面分析方法的流程进行详细描述。
步骤S10,对目标图片进行文本区域检测及文本识别,以获取所述目标图片中的所有文本框图的信息,每一文本框图的信息包括文本内容和对应的框图信息。
在上述步骤S10中,可运用预设文本检测模型和预设文本识别模型对输入的目标图片进行图像文本检测及识别,如图2所示,图像文本检测及识别的主要步骤包括:
子步骤S101,将目标图片输入到预设文本检测模型中,输出所述目标图片中各文本区域对应的文本框图,并获取各文本框图的框图信息,所述框图信息包括文本框图的中心点坐标、宽高和相对于预定方向的倾斜角。
子步骤S102,对各文本框图进行文本识别,获取各文本框图对应的文本内容。
本实施例中,该预设文本检测模型可通过选取不同类型的模型进行构建并利用预先通过对各文本区域进行矩形框图人工标注的真实文本训练样本进行模型训练后得到。示范性地,该预设文本检测模型可采用如卷积神经网络、残差网络等来构建,其中具体的网络层次结构可根据实际需求来确定。而该预设文本识别模型可采用如卷积循环神经网络、全卷积网络等模型进行构建,其中具体的网络层次结构可根据实际需求来选取。
通过利用该预设文本检测模型对目标图片中各文本区域进行区域预测,并输出推荐的各文本区域对应的矩形文本框图,如图3所示。同时,通过对各文本框图进行坐标提取以获取各文本框图的框图信息。例如,该框图信息可包括由横坐标和纵坐标构成的文本框图的中心点坐标、框图的宽、高和相对于预定方向上的倾斜角。示范性地,该预定方向可以是选择的任一方向,优选地,可为水平方向或竖直方向。可以理解,该倾斜角为集合(-90o,90o)中的任意取值。对于不倾斜的文本框图,其倾斜角则为0o。
应当理解,本实施例的方法适用于文字为印刷体和/或打印体的目标图片,故当拍摄的目标图片出现倾斜时,仍应有检测得到的文本矩形框与图片中对应的表格边框线平行。可以理解,该表格边框线可以是如房产证等票证图片中的可见表格边框线,也可以是如身份证等图片中的不可见表格边框线。
于是,在获取到的所有文本框图的信息后,将每一文本框图的框图信息及文本内容进行关联保存。
进一步地,考虑到实际版面分析时,可能只需要对部分区域的文本框图进行分析,故在获取到所有文本框图的信息之后,可对一些含无效信息的文本框图进行隔离。这样可大大减少无效信息对版面分析结果的干扰,还可以提高版面分析效率等。
在上述步骤S10之后,该方法还包括:从各文本框图中选取至少一隔离基准框图,并根据各文本框图与所述隔离基准框图各自横坐标的大小或各自纵坐标的大小确定含无效信息的无效框图,将所述无效框图从所述获取的所有文本框图中删除。
示范性地,遍历所有的文本框图,根据当前的文本框图的横坐标(或纵坐标)与该隔离基准框图的横坐标(或纵坐标)的大小确定该当前的文本框图是否为无效框图。若为无效框图,则将其丢弃。这样可以实现对无效信息的有效隔离,并仅对目标文本框图进行分析。
示范性地,如图3所示,若用户只需要对该目标图片中的“权利类型”以上的信息进行版面分析,则可选取文本框图“权利类型”作为隔离基准框图,并选取出中心点的纵坐标大于该“权利类型”框图的中心点的纵坐标的所有框图作为目标文本框图,而将纵坐标小于该“权利类型”框图的中心点的纵坐标的文本框图丢弃或删除。可以理解,上述举例只是其中的一种无效信息隔离实现方式。
步骤S11,将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图,将所述预设标题字段所在的框图作为预设标题字段框图,并获取各预设标题字段框图的框图信息。
示范性地,为得到版面分析中预设标题字段匹配的字段内容,可将各预设标题字段与所有文本框图进行框图匹配,以查找出该预设标题字段所在的框图,即上述的预设标题字段框图。如图3所示,若需要得到如下表所示的相关信息,则需要将这些预设标题字段对应的内容输出到预设模板表格中对应的位置。
预设标题字段 匹配的字段内容
权利人
共有情况
坐落
不动产单元号
例如,以预设标题字段“坐落”为例,可遍历所有文本框图的文本内容并进行“坐落”的字符匹配,从而查找到文本框图“坐落”,进而得到“坐落”这一预设标题字段框图的中心点坐标、宽、高和相对于水平方向的倾斜角等框图信息。
可选地,对于预设标题字段的字符含三个或三个以上时,可进一步减弱字符匹配条件,即若一个文本框图的文本内容成功匹配到该预设标题字段的总字符长度的预设比值的字符时,则确定当前的文本框图为所述预设标题字段所在的框图。例如,该预设比值可设为总字符长度的1/3、1/2、2/3、3/4等,具体可根据实际需求来调整设置。
示范性地,对于预设标题字段“不动产单元号”,可当成功匹配到字符“不动产单”时,即确定该预设标题字段所在的框图。可以理解,通过缩减成功匹配的字符长度,尤其是对于一些模糊等的目标图片,该处理步骤可以增加复杂图像的匹配成功率,进而可提高版面分析的成功率等。
步骤S12,根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图。
于是,在获取了各预设标题字段框图的框图信息后,可按照预设规则来确定与各预设标题字段相匹配的字段内容框图。例如,对于“坐标”这一预设标题字段,即需要确定“鹏海市开发新区中山路7号楼2单元202”这一文本框图是与之相匹配的字段内容框图。
考虑到存在两种不同版式的表格,如图3所示的按行提取的表格版式,当然也有按列提取的表格版式图片。本实施例中,将以按行提取的表格版式图片进行详细说明。如图4所示,上述步骤S12包括以下主要子步骤:
子步骤S121,确定与当前的预设标题字段框图距离最近的上边框线和下边框线。
由于在如房产证等具有可见表格边框线的这类证件中,对于按行提取的表格版式,其标题字段的文字印刷方向与表格边框线应当是相对平行的,故可通过与该预设标题字段的距离大小来确定该预设标题字段的上边框线和下边框线。
子步骤S122,根据所述当前预设标题字段框图的中心点坐标、宽、所述中心点坐标到所述上边框线的距离以及所述中心点坐标到所述下边框线的距离计算所述当前预设标题字段框图的上基准点坐标和下基准点坐标。
本实施例中,将计算出每一预设标题字段的上基准点坐标和下基准点坐标,进而通过获取的上基准点坐标和下基准点坐标进行字段内容框图的选取。其中,上基准点位于上边框线,下基准点位于下边框线。示范性地,若在目标图片的左上角建立坐标原点(0,0),以其中一预设标题字段为例,若该预设标题字段框图的中心点O坐标为(x0,y0),宽为w0,第一预设调整系数为r_small,第二预设调整系数为r_large,则该预设标题字段框图的上基准点A和下基准点B的坐标分别为:
上基准点A为(x0,y0-w0*r_small);
下基准点B为(x0,y0+w0*r_large)。
其中,上述的第一预设调整系数r_small=OA/w0,第二预设调整系数r_large=OB/w0,而OA、OB分别为在目标图片中该预设标题字段框图的中心点O到上基准点A、下基准点B的距离,w0为该预设标题字段框图的宽度。例如,如图5所示,以“坐落”这一预设标题字段框图为例,其中心点O到上基准点A和下基准点B的距离分别为OA和OB,于是,根据上述公式可计算得到上基准点A和下基准点B的坐标。
可以理解,该第一预设调整系数和第二预设调整系数均为无量纲量,即与目标图片的尺度无关的调整系数,是为了使计算得到的上下基准点到中心点的实际距离与尺度无关。
子步骤S123,根据所述当前预设标题字段框图的相对于水平方向的倾斜角、所述上基准点坐标和所述下基准点坐标依次计算除所述当前预设标题字段框图外的各文本框图的中心点坐标所在竖直轴线分别与所述上边框线的上交点和与所述下边框线的下交点。
示范性地,在得到该预设标题字段的上基准点坐标和下基准点坐标后,若该预设标题字段框图的相对于水平方向的倾斜角为α,待计算的第i个文本框图的中心点坐标为(xi,yi),其中,i为大于或等于1的自然数,则按照预设公式计算得到的第i个的文本框图对应的上交点和下交点分别为:
上交点为(xi,(y0-w0*r_small)+(xi-x0)*tanα);
下交点为(xi,(y0+w0*r_large)+(xi-x0)*tanα)。
如图5所示,仍以“坐落”预设标题字段框图为例,对于“单独所有”这一文本框图的中心点坐标所在竖直轴线L1,可知竖直轴线L1与“坐落”的上边框线和下边框线的交点分别为C、D,根据几何原理可计算得到C、D的坐标。同理,计算得到“鹏海市开发新区中山路7号楼”文本框图对应的上交点E和下交点F的坐标和“2单元202”文本框图对应的上交点M和下交点N的坐标。
可以理解,每个文本框图对应的上交点和下交点将随其倾斜角α变化,这将使得该方法能有效处理对于各文本框图可能存在不同倾斜角的复杂图片。此外,对于某些如房产证等证件,由于打印文本的部分可能由于操作人员的疏忽而出现打印倾斜、串行等情况,则利用该方法可最大程度上减少倾斜、串行等问题的影响,从而提高版面分析的成功率。
子步骤S124,判断所述各文本框图的中心点的纵坐标是否位于对应的所述左交点和所述右交点形成的线段上,并将中心点的纵坐标位于对应的所述左交点和所述右交点形成的线段上的文本框图作为与所述当前预设标题字段框图对应的文本框图。
示范性地,以“单独所有”为例,其上交点C和下交点D的纵坐标将形成一取值范围,由于该“单独所有”的中心点的纵坐标的值大于C的纵坐标,即不在该取值范围内,故判断其与“坐落”不匹配。同理,可判断出“鹏海市开发新区中山路7号楼”和“2单元202”均为与“坐落”相匹配的字段内容框图。
步骤S13,获取与各预设标题字段框图相匹配的字段内容框图的文本内容并输出至预定模板表格中。
于是,在得到每一预设标题字段框图相匹配的字段内容框图后,则根据这些字段内容框图读取对应的文本内容,并将这些文本内容输出到预设模板表格中,从而最终完成版面分析。
进一步地,若与当前的预设标题字段框图相匹配的字段内容框图存在多个时,则在上述步骤S124之后,该方法还包括对多个字段内容框图进行字符串行拼接,如图6所示。
子步骤S125,判断每相邻的两个字段内容框图的垂直距离是否小于预设阈值且所述两个字段内容框图在水平方向上是否存在重叠区域。
子步骤S126,将所述两个字段内容框图加入待合并框图集合,直到所有的字段内容框图的判断完成。
子步骤S127,将所述待合并框图集合中的不同文本框图按照纵坐标降序规则进行文本内容行拼接。
本实施例中,该预设阈值可根据实际需要来相应设定,例如,可参考图片中的表格上下边框的尺寸来设定。例如,如图5所示,由于相邻的“鹏海市开发新区中山路7号楼”和“2单元202”均为与“坐落”相匹配的字段内容框图,并且这两个字段内容框图的中心点的纵坐标小于该表格边框的尺寸,且两者在横坐标方向上具有重叠区域,故将其加入待合并框图集合中。随后,将该待合并框图集合中的这两个文本框图的中心点的纵坐标按照降序拼接,即拼接得到“鹏海市开发新区中山路7号楼2单元202”。
本实施例提出的表格式图片版面分析方法,通过对目标图片中的文本区域进行文本检测及识别以获取所有的文本框图,并利用这些文本框图的中心点坐标及倾斜角等位置信息计算其上下基准点的坐标,进而找到其对应的上下交点等实现预设标题字段的字段内容框图匹配。通过该方法不仅可以得到所需要的版面分析结果,而且在字段内容框图匹配过程中加入倾斜角的影响,使得计算得到的每个文本框图的上下交点会随其倾斜角变化而变化,从而可使该方法能有效处理不同文本框图具有不同的倾斜角的复杂目标图片,鲁棒性强,灵活性较好。进一步地,通过在预设标题字段的字符匹配过程中缩减字符的匹配长度,可以使其适用于更加复杂的目标图片。此外,还可通过对无效信息的隔离,不仅可以减少无效信息的干扰,还可以提高版面分析效率等。
实施例2
请参见图7和图8,与上述实施例1的唯一不同之后在于,本实施例是针对按列提取的表格版式的目标图片,即上述步骤S12主要包括以下子步骤:
子步骤S221,确定与当前的预设标题字段框图平行且距离最近的左边框线和右边框线。
子步骤S222,根据所述当前预设标题字段框图的中心点坐标、高、所述中心点坐标到所述左边框线的距离和所述中心点坐标到所述右边框线的距离计算所述当前预设标题字段框图的左基准点坐标和右基准点坐标。
其中,该左基准点位于左边框线,右基准点位于右边框线。示范性地,若在目标图片的左上角建立坐标原点(0,0),以其中一预设标题字段为例,若该预设标题字段框图的中心点O坐标为(x0,y0),高为h0,第一预设调整系数为r_small,第二预设调整系数为r_large,则该预设标题字段框图的左基准点B和右基准点A的坐标分别为:
左基准点B为(x0-h0*r_small,y0);
右基准点A为(x0+h0*r_large,y0)。
其中,上述的第一预设调整系数r_small=OB/h0,第二预设调整系数r_large=OA/h0,而OA、OB分别为该预设标题字段框图中心点O到右基准点A、左基准点B的距离,h0为该预设标题字段框图的高。
子步骤S223,根据所述当前预设标题字段框图的相对于竖直方向上的倾斜角、所述左基准点坐标和所述右基准点坐标依次计算除所述当前预设标题字段框图外的各文本框图的中心点坐标所在水平轴线分别与所述左边框线的左交点和与所述右边框线的右交点。
示范性地,在得到该预设标题字段的左基准点和右基准点的坐标后,若该预设标题字段框图的相对于竖直方向的倾斜角为α,待计算的第i个文本框图的中心点坐标为(xi,yi),其中,i为大于或等于1的自然数,则按照预设公式计算得到的第i个的文本框图对应的左交点和右交点分别为:
左交点为((x0-h0*r_small)+(yi-y0)*tanα,yi);
右交点为((x0+h0*r_large)+(yi-y0)*tanα,yi)。
子步骤S224,判断所述各文本框图的中心点的横坐标是否位于对应的所述左交点和所述右交点形成的线段上,并将中心点的横坐标位于对应的所述左交点和所述右交点形成的线段上的文本框图作为与所述当前预设标题字段框图对应的文本框图。
可以理解,按行提取的表格版式与按列提取的表格版式的字段内容框图的确定的原理类似,故在此不再详细描述。
实施例3
请参照图9,基于上述实施例1或实施例2的表格式图片版面分析方法,本实施例提出一种基于倾斜文本的版面分析装置10,包括:
文本框图信息获取模块100,用于对目标图片进行文本区域检测及文本识别,以获取所述目标图片中的所有文本框图的信息,每一文本框图的信息包括文本框图的文本内容和对应的框图信息。
预设标题字段查找模块200,用于将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图,将所述预设标题字段所在的框图作为预设标题字段框图,并获取各预设标题字段框图的框图信息。
字段内容匹配模块300,用于根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图。
版面分析输出模块400,用于获取与各预设标题字段框图相匹配的字段内容框图的文本内容并输出至预定模板表格中。
本实施例的各模块对应于上述实施例1或实施例2的表格式图片版面分析方法,实施例1或实施例2中的任何可选项也适用于本实施例,在此不再详述。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序运行时使计算机执行进一步的表格式图片版面分析方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明实施例各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种表格式图片版面分析方法,其特征在于,包括:
对目标图片进行文本区域检测及文本识别,以获取所述目标图片中的所有文本框图的信息,每一文本框图的信息包括文本框图的文本内容和对应的框图信息;
将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图,将所述预设标题字段所在的框图作为预设标题字段框图,并获取各预设标题字段框图的框图信息;
根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图;
获取与各预设标题字段框图相匹配的字段内容框图的文本内容并输出至预定模板表格中。
2.根据权利要求1所述的表格式图片版面分析方法,其特征在于,所述“对目标图片进行文本区域检测及文本识别”包括:
将目标图片输入到预设文本检测模型中,输出所述目标图片中各文本区域对应的文本框图,并获取各文本框图的所述框图信息,所述框图信息包括文本框图的中心点坐标、宽、高和相对于预定方向的倾斜角;
将各文本框图输入到预设文本识别模型中,获取各文本框图对应的文本内容。
3.根据权利要求2所述的表格式图片版面分析方法,其特征在于,所述中心点坐标包括横坐标和纵坐标,所述“获取所述目标图片中的所有文本框图的信息”步骤之后,还包括:
从各文本框图中选取至少一隔离基准框图;
根据各文本框图与所述隔离基准框图各自横坐标的大小或各自纵坐标的大小确定含无效信息的无效框图;
将所述无效框图从所述获取的所有文本框图中删除。
4.根据权利要求1所述的表格式图片版面分析方法,其特征在于,所述“将至少一预设标题字段与各文本框图的文本内容进行字符匹配以查找各预设标题字段所在的框图”包括:
若一个文本框图的文本内容成功匹配到所述预设标题字段的总字符长度的预设比值的字符时,则确定当前的文本框图为所述预设标题字段所在的框图。
5.根据权利要求2所述的表格式图片版面分析方法,其特征在于,所述“根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图”包括:
确定与当前预设标题字段框图平行且距离最近的上边框线和下边框线;
根据所述当前预设标题字段框图的中心点坐标、宽、所述中心点坐标到所述上边框线的距离以及所述中心点坐标到所述下边框线的距离计算所述当前预设标题字段框图的上基准点坐标和下基准点坐标;
根据所述当前预设标题字段框图的相对于水平方向的倾斜角、所述上基准点坐标和所述下基准点坐标依次计算除所述当前预设标题字段框图外的各文本框图的中心点坐标所在竖直轴线分别与所述上边框线的上交点和与所述下边框线的下交点;
判断所述各文本框图的中心点坐标是否位于对应的所述上交点和所述下交点形成的线段上,并将中心点位于对应的所述上交点和所述下交点形成的线段上的文本框图作为与所述当前预设标题字段框图对应的文本框图。
6.根据权利要求2所述的表格式图片版面分析方法,其特征在于,所述“根据各预设标题字段框图的框图信息按照预设规则确定与各预设标题字段对应的文本框图,将所述对应的文本框图作为与各预设标题字段相匹配的字段内容框图”包括:
确定与当前预设标题字段框图平行且距离最近的左边框线和右边框线;
根据所述当前预设标题字段框图的中心点坐标、高、所述中心点坐标到所述左边框线的距离和所述中心点坐标到所述右边框线的距离计算所述当前预设标题字段框图的左基准点坐标和右基准点坐标;
根据所述当前预设标题字段框图的相对于竖直方向上的倾斜角、所述左基准点坐标和所述右基准点坐标依次计算除所述当前预设标题字段框图外的各文本框图的中心点坐标所在水平轴线分别与所述左边框线的左交点和与所述右边框线的右交点;
判断所述各文本框图的中心点坐标是否位于对应的所述左交点和所述右交点形成的线段上,并将中心点位于对应的所述左交点和所述右交点形成的线段上的文本框图作为与所述当前预设标题字段框图对应的文本框图。
7.根据权利要求5所述的表格式图片版面分析方法,其特征在于,若与所述当前预设标题字段框图相匹配的字段内容框图存在多个,所述方法还包括:
判断每相邻的两个字段内容框图的垂直距离是否小于预设阈值且所述两个字段内容框图在水平方向上是否存在重叠区域;
若是,将所述两个字段内容框图加入待合并框图集合,直到所有的字段内容框图的判断完成;
将所述待合并框图集合中的不同文本框图按照纵坐标降序规则进行文本内容行拼接。
8.根据权利要求5所述的表格式图片版面分析方法,其特征在于,若所述当前预设标题字段框图的中心点O坐标为(x0,y0),宽为w0,第一预设调整系数为r_small,第二预设调整系数为r_large,则所述当前预设标题字段框图的上基准点坐标和下基准点坐标分别为:
上基准点坐标为(x0,y0-w0*r_small);
下基准点坐标为(x0,y0+w0*r_large)。
9.根据权利要求8所述的表格式图片版面分析方法,其特征在于,若所述当前预设标题字段框图的相对于水平方向的倾斜角为α,待计算的第i个文本框图的中心点坐标为(xi,yi),其中,i为大于或等于1的自然数,则计算得到的第i个的文本框图对应的所述上交点和所述下交点分别为:
上交点为(xi,(y0-w0*r_small)+(xi-x0)*tanα);
下交点为(xi,(y0+w0*r_large)+(xi-x0)*tanα)。
10.一种计算机存储介质,其特征在于,其存储有计算机程序,在所述计算机程序被执行时,实施根据权利要求1-9中任一项所述的表格式图片版面分析方法。
CN201910435629.1A 2019-05-23 2019-05-23 表格式图片版面分析方法和计算机存储介质 Active CN110147774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910435629.1A CN110147774B (zh) 2019-05-23 2019-05-23 表格式图片版面分析方法和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910435629.1A CN110147774B (zh) 2019-05-23 2019-05-23 表格式图片版面分析方法和计算机存储介质

Publications (2)

Publication Number Publication Date
CN110147774A true CN110147774A (zh) 2019-08-20
CN110147774B CN110147774B (zh) 2021-06-15

Family

ID=67593060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910435629.1A Active CN110147774B (zh) 2019-05-23 2019-05-23 表格式图片版面分析方法和计算机存储介质

Country Status (1)

Country Link
CN (1) CN110147774B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598575A (zh) * 2019-08-21 2019-12-20 科大讯飞股份有限公司 表格版面分析与提取方法及相关装置
CN110764721A (zh) * 2019-09-19 2020-02-07 北京三快在线科技有限公司 模板生成方法、装置、电子设备和计算机可读介质
CN110837796A (zh) * 2019-11-05 2020-02-25 泰康保险集团股份有限公司 图像处理方法及装置
CN110866457A (zh) * 2019-10-28 2020-03-06 世纪保众(北京)网络科技有限公司 一种电子保单的获得方法、装置、计算机设备和存储介质
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN111626250A (zh) * 2020-06-02 2020-09-04 泰康保险集团股份有限公司 文本图像的分行方法、装置、计算机设备及可读存储介质
CN111652176A (zh) * 2020-06-11 2020-09-11 商汤国际私人有限公司 信息提取方法、装置、设备及存储介质
CN111666868A (zh) * 2020-06-03 2020-09-15 阳光保险集团股份有限公司 保险单识别方法、装置以及计算机设备
CN112580499A (zh) * 2020-12-17 2021-03-30 上海眼控科技股份有限公司 文本识别方法、装置、设备及存储介质
CN112990182A (zh) * 2021-05-10 2021-06-18 北京轻松筹信息技术有限公司 筹款信息审核方法、系统及电子设备
CN113112567A (zh) * 2021-04-16 2021-07-13 中国工商银行股份有限公司 生成可编辑流程图的方法、装置、电子设备和存储介质
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
WO2021151274A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像文档处理方法、装置、电子设备及计算机可读存储介质
CN113378710A (zh) * 2021-06-10 2021-09-10 平安科技(深圳)有限公司 图像文件的版面分析方法、装置、计算机设备和存储介质
CN113591657A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN113591772A (zh) * 2021-08-10 2021-11-02 上海杉互健康科技有限公司 医疗信息结构化识别录入的方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098464A1 (en) * 2014-10-05 2016-04-07 Splunk Inc. Statistics Time Chart Interface Cell Mode Drill Down
CN105574486A (zh) * 2015-11-25 2016-05-11 成都数联铭品科技有限公司 一种图像表格文字切分方法
CN108345882A (zh) * 2018-02-11 2018-07-31 北京百度网讯科技有限公司 用于图像识别的方法、装置、设备和计算机可读存储介质
CN108734089A (zh) * 2018-04-02 2018-11-02 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098464A1 (en) * 2014-10-05 2016-04-07 Splunk Inc. Statistics Time Chart Interface Cell Mode Drill Down
CN105574486A (zh) * 2015-11-25 2016-05-11 成都数联铭品科技有限公司 一种图像表格文字切分方法
CN108345882A (zh) * 2018-02-11 2018-07-31 北京百度网讯科技有限公司 用于图像识别的方法、装置、设备和计算机可读存储介质
CN108734089A (zh) * 2018-04-02 2018-11-02 腾讯科技(深圳)有限公司 识别图片文件中表格内容的方法、装置、设备及存储介质
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598575A (zh) * 2019-08-21 2019-12-20 科大讯飞股份有限公司 表格版面分析与提取方法及相关装置
CN110764721A (zh) * 2019-09-19 2020-02-07 北京三快在线科技有限公司 模板生成方法、装置、电子设备和计算机可读介质
CN110866457A (zh) * 2019-10-28 2020-03-06 世纪保众(北京)网络科技有限公司 一种电子保单的获得方法、装置、计算机设备和存储介质
CN110837796A (zh) * 2019-11-05 2020-02-25 泰康保险集团股份有限公司 图像处理方法及装置
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN110837796B (zh) * 2019-11-05 2022-08-19 泰康保险集团股份有限公司 图像处理方法及装置
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
WO2021151274A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像文档处理方法、装置、电子设备及计算机可读存储介质
CN111626250A (zh) * 2020-06-02 2020-09-04 泰康保险集团股份有限公司 文本图像的分行方法、装置、计算机设备及可读存储介质
CN111626250B (zh) * 2020-06-02 2023-08-11 泰康保险集团股份有限公司 文本图像的分行方法、装置、计算机设备及可读存储介质
CN111666868A (zh) * 2020-06-03 2020-09-15 阳光保险集团股份有限公司 保险单识别方法、装置以及计算机设备
CN111652176A (zh) * 2020-06-11 2020-09-11 商汤国际私人有限公司 信息提取方法、装置、设备及存储介质
CN111652176B (zh) * 2020-06-11 2024-05-21 商汤国际私人有限公司 信息提取方法、装置、设备及存储介质
CN112580499A (zh) * 2020-12-17 2021-03-30 上海眼控科技股份有限公司 文本识别方法、装置、设备及存储介质
CN113112567A (zh) * 2021-04-16 2021-07-13 中国工商银行股份有限公司 生成可编辑流程图的方法、装置、电子设备和存储介质
CN112990182A (zh) * 2021-05-10 2021-06-18 北京轻松筹信息技术有限公司 筹款信息审核方法、系统及电子设备
CN113378710A (zh) * 2021-06-10 2021-09-10 平安科技(深圳)有限公司 图像文件的版面分析方法、装置、计算机设备和存储介质
CN113378710B (zh) * 2021-06-10 2024-03-08 平安科技(深圳)有限公司 图像文件的版面分析方法、装置、计算机设备和存储介质
CN113591657A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN113591657B (zh) * 2021-07-23 2024-04-09 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN113591772A (zh) * 2021-08-10 2021-11-02 上海杉互健康科技有限公司 医疗信息结构化识别录入的方法、系统、设备及存储介质
CN113591772B (zh) * 2021-08-10 2024-01-19 上海杉互健康科技有限公司 医疗信息结构化识别录入的方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN110147774B (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN110147774A (zh) 表格式图片版面分析方法和计算机存储介质
US9213917B2 (en) Using surfaces with printed patterns for image and data processing
CN103975342B (zh) 用于移动图像捕获和处理的系统和方法
CN102388392B (zh) 模式识别设备
CN105205439B (zh) 指纹重叠区域面积的计算方法及电子装置
CN109657665A (zh) 一种基于深度学习的发票批量自动识别系统
CN105989659B (zh) 一种相似字符识别方法及纸币冠字码识别方法
CN103578125B (zh) 图像处理设备和图像处理方法
CN102630024B (zh) 图像处理设备、三维图像打印系统、以及图像处理方法
TW201005673A (en) Example-based two-dimensional to three-dimensional image conversion method, computer readable medium therefor, and system
CN113392856B (zh) 图像伪造检测装置和方法
CN109902737A (zh) 一种票据分类方法及终端
EP1654610B1 (en) Method and system for identifying multiple questionnaire pages
CN109308465A (zh) 表格线检测方法、装置、设备及计算机可读介质
CN110363179A (zh) 地图获取方法、装置、电子设备以及存储介质
CN110378351A (zh) 印章鉴别方法及装置
JP2009093334A (ja) 識別方法及びプログラム
CN109146913A (zh) 一种人脸跟踪方法及装置
CN105844235A (zh) 基于视觉显著性的复杂环境人脸检测方法
CN109344924A (zh) 基于深度学习的识别商品方法及基于机器视觉的商品存储和识别系统
JP4946750B2 (ja) 設定方法、識別方法及びプログラム
CN109600529A (zh) 图像处理装置、控制方法和存储介质
CN109753958A (zh) 图像字符识别方法
JP5744627B2 (ja) 文書作成装置、文書作成装置の制御方法及びプログラム
CN108596127A (zh) 一种指纹识别方法、身份验证方法及装置和身份核验机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant