CN111460927A - 对房产证图像进行结构化信息提取的方法 - Google Patents

对房产证图像进行结构化信息提取的方法 Download PDF

Info

Publication number
CN111460927A
CN111460927A CN202010186069.3A CN202010186069A CN111460927A CN 111460927 A CN111460927 A CN 111460927A CN 202010186069 A CN202010186069 A CN 202010186069A CN 111460927 A CN111460927 A CN 111460927A
Authority
CN
China
Prior art keywords
text
line
image
cell
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010186069.3A
Other languages
English (en)
Other versions
CN111460927B (zh
Inventor
李清勇
赵鹏
蔡斯琪
薛文元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
CERNET Corp
Original Assignee
Beijing Jiaotong University
CERNET Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University, CERNET Corp filed Critical Beijing Jiaotong University
Priority to CN202010186069.3A priority Critical patent/CN111460927B/zh
Publication of CN111460927A publication Critical patent/CN111460927A/zh
Application granted granted Critical
Publication of CN111460927B publication Critical patent/CN111460927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Abstract

本发明提供了一种对带表格的图像进行结构化信息提取的方法。该方法包括:提取带表格的图像中的表格区域,对表格区域进行单元格分割;对单元格进行文本行检测和归类;对文本行进行单字分割并识别单字内容,拼接得到文本行内容,根据所述文本行的内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。本发明实施例的方法可以有效地提取出房产证图像等带表格的图像中的表格区域、文本行中的单字以及结构化信息。本发明可以帮助人们在进行二手房交易、房产证抵押、贷款买车、落户、适龄儿童入学、出国旅游办签证等行为时,实现自动化的业务流程。

Description

对房产证图像进行结构化信息提取的方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种对带表格的图像进行结构化信息提取的方法。
背景技术
房产证在居民日常生活中发挥着重要的作用,大到二手房交易、房产证抵押、贷款买车、落户、适龄儿童入学,小到出国旅游办签证,房产证成为社会信用的证明之一。当进行房产证的抵押、贷款等相关活动时,需要收集证件上的相关信息进行备案。
在房屋的信息采集方面,传统的房产证复印、人工录入数据的方式,无法实现自动化的业务流程,因速度慢、耗时长、易出错等不足无法满足实际应用场景的需求。而通过OCR(Optical Character Recognition,光学字符识别)文本识别技术,快速采集录入证件信息,一键保存入库,替代传统手工录入方式,可以在很大程度上解决房产证件上的数据采集遇到的各种难题。
在深度学习方法出现之前,基于传统的人工标记特征是主要的OCR文字识别方法,其中包括基于连通区域以及基于HOG(Histogram of Oriented Gradient,方向梯度直方图)的检测框描述算法。随着硬件设备的更新换代,GPU(Graphics Processing Unit,图形处理器)的出现使得计算机可以处理大规模数据集,机器学习、深度学习等一系列新技术得到了飞速发展。在基于深度学习的方法中,目前比较成熟的OCR文本识别过程主要包括文本检测和文本识别两部分。
现有技术中的一种对图像进行文本检测的方法为:在图像中寻找包含文本的区域。这部分的算法实现大多数是基于候选区域的,一般先借助Faster R-CNN(Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks,更快的R-CNN:基于区域建议网络的实时目标检测方法)或者SSD(SSD:Single Shot MultiBoxDetector,单阶段多框检测器)得到许多个候选区域,然后训练模型对候选区域分类,最后做细致处理得到准确的文本区域。检测到了准确的文本区域之后,文本识别是指识别区域中的文本,文本识别可以先将文本分割成单字再识别,也可以采用序列识别的方式。
上述现有技术中的对图像进行文本检测的方法的缺点为:该方法只能进行全版面的文本检测,无法进行后续的文本结构化信息提取。
发明内容
本发明的实施例提供了一种对带表格的图像进行结构化信息提取的方法,以克服现有技术的问题。
为了实现上述目的,本发明采取了如下技术方案。
一种对带表格的图像进行结构化信息提取的方法,包括:
提取带表格的图像中的表格区域,对表格区域进行单元格分割;
对单元格进行文本行检测和归类;
对文本行进行单字分割并识别单字内容,拼接得到文本行内容,根据所述文本行内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。
优选地,所述的提取带表格的图像中的表格区域,包括:
对带表格的图像进行灰度化处理,得到灰度图像,取灰度图像中的所有像素点的灰度值的平均值作为阈值T,将灰度图像中的灰度值大于阈值T的像素值设为1,灰度值小于或者阈值T的像素值设为0,对所述灰度图像进行二值化处理,得到二值化后的图像;
使用开运算分别提取二值化后的图像中的横向表格线和纵向表格线,将横向表格线和纵向表格线叠加得到交叉横纵线条,提取横纵线条的交点,找到包围所有交点的最小轮廓区域,根据其形状和大小判断此最小轮廓区域是否为表格,如果是表格区域,则将该表格区域从带表格的图像上裁剪下来,得到表格区域。
优选地,所述的对表格区域进行单元格分割,包括:
将一个表格区域中所有的表格线交点对应的横坐标存储于列表X中,对应的纵坐标存储于列表Y中,取列表X中的每一个横坐标点,对表格区域纵切,得到若干个纵列;再取列表Y 中的每一个纵坐标点,对每个纵列进行横切,得到若干个单元格;
将单元格存储为子图,子图以单元格所在行数row和列数col命名,如果单元格的宽度或者高度小于某个阈值,则认为其不是单元格,获得并记录每个单元格图像在带表格的图像中的位置坐标信息,该位置坐标信息包括单元格图像的左上顶点
Figure RE-GDA0002547499820000021
与右下顶点
Figure RE-GDA0002547499820000022
的坐标信息。
优选地,所述的对单元格进行文本行检测和归类包括:
根据每个文本行图像的左上顶点
Figure RE-GDA0002547499820000031
与右下顶点
Figure RE-GDA0002547499820000032
在带表格的图像中的位置坐标得到文本行的矩形边界框,其中i为序号,使用Faster-RCNN 目标检测方法训练得到检测模型,再利用检测模型对单元格的矩形边界框进行全版面文本行检测,得到单元格中包含的所有文本行;
对检测到的文本行进行单元格归类,如果第i个文本行全部位于第j个单元格内部或者第 i个文本行位于第j个单元格内的面积大于第i个文本行面积的一部分,即满足下式:
Figure RE-GDA0002547499820000033
Figure RE-GDA0002547499820000034
则将第i个文本行归类于第j个单元格,即texti∈cellj
Figure RE-GDA0002547499820000035
Figure RE-GDA0002547499820000036
其中,texti为第i个文本行,cellj为第j个单元格,TEXT为检测到的文本行集合,CELL为分割得到的单元格集合,λ为比例因子。
优选地,所述的对文本行进行单字分割并识别单字内容,拼接得到文本行内容,包括:
将文本行从带表格的图像上切割下来,对文本行进行灰度化与二值化处理,使用MSER 获得初步的单字区域,再使用NMS过滤重叠的矩形框,假设过滤后剩余n个矩形框,根据第个小矩形框的左上顶点坐标
Figure RE-GDA0002547499820000041
与右下顶点坐标
Figure RE-GDA0002547499820000042
计算第i个矩形框的中心点坐标
Figure RE-GDA0002547499820000043
高hi与宽wi
Figure RE-GDA0002547499820000044
Figure RE-GDA0002547499820000045
将所有矩形框的中心点拟合到一条直线上,由每个矩形框的中心点坐标构建一条线性回归线,求得如下线性回归式,其中a为直线的斜率,b为直线的截距,k为未知数。
Figure RE-GDA0002547499820000046
计算所有矩形框的中心点坐标的平均值(xmean,ymean),则上述线性回归式(S3-3)必过均值点,即满足式(S3-5)。
Figure RE-GDA0002547499820000047
ymean=a*xmean+b (S3-5)
接下来计算a和b两个未知数,假设直线斜率a存在。
Figure RE-GDA0002547499820000048
b=ymean-a*xmean (S3-7)
如果
Figure RE-GDA0002547499820000049
满足条件,则直线斜率a存在,按照上述方法计算,否则,直线斜率a不存在,按照式(S3-8)计算;
k=xmean (S3-8)
计算出线性回归线之后,将所有矩形框的中心点
Figure RE-GDA0002547499820000051
投影到线性回归线上,计算出各个矩形框的新的中心点坐标
Figure RE-GDA0002547499820000052
分为以下三种情况考虑:
①直线斜率a存在且a≠0:
已知线性回归线y=a*x+b的斜率为a,则与其垂直的直线的斜率为
Figure RE-GDA0002547499820000053
且经过点
Figure RE-GDA0002547499820000054
那么设这条垂线为:
Figure RE-GDA0002547499820000055
Figure RE-GDA0002547499820000056
式(S3-3)与式(S3-9)的交点即为所求,即:
Figure RE-GDA0002547499820000057
②直线斜率a存在且a=0:
已知线性回归线为y=b,则与其垂直的直线的斜率不存在,且经过点
Figure RE-GDA0002547499820000058
Figure RE-GDA0002547499820000059
那么这条垂线为:
Figure RE-GDA00025474998200000510
那么
Figure RE-GDA00025474998200000511
③直线斜率不存在:
已知线性回归线为x=k,则与其垂直的直线的斜率为0,且经过点
Figure RE-GDA00025474998200000512
那么这条垂线为:
Figure RE-GDA00025474998200000513
那么
Figure RE-GDA00025474998200000514
得到所有矩形框的新的中心点坐标之后,对所有矩形框的宽与高正规化,计算所有矩形框的宽与高的平均值(wmean,hmean):
Figure RE-GDA0002547499820000061
计算矩形框的新的左上顶点坐标
Figure RE-GDA0002547499820000062
与右下顶点坐标
Figure RE-GDA0002547499820000063
Figure RE-GDA0002547499820000064
Figure RE-GDA0002547499820000065
Figure RE-GDA0002547499820000066
将所有正规化后的矩形框分割下来,使用了LeNet深度卷积网络识别出矩形框中的单字信息。
优选地,所述的根据所述文本行的内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息,包括:
将文本行中所有矩形框的单字信息按从左至右的顺序进行拼接,得到此文本行的识别结果,根据文本行与单元格的归类关系,得到单元格内所有文本行的识别结果,再根据单元格所在的区域、行数与列数对单元格内所有文本行的识别结果进行结构化处理,得到所述带表格的图像的结构化信息。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例的方法可以有效地提取出房产证图像等带表格的图像中的表格区域、文本行中的单字以及结构化信息。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例所提出的房产证图像结构化信息抽取方法的流程图。
图2-1是房产证原图示例。
图2-2是经过灰度化处理的房产证图像。
图2-3是经过二值化处理的房产证图像。
图2-4是提取出二值化图像中的横向表格线的示意图。
图2-5是提取出二值化图像中的纵向表格线的示意图。
图2-6是交叉横纵线条之后的结果图。
图2-7是横纵线条的交点示意图。
图2-8(a)与图2-8(b)是分割的表格区域的示意图。
图2-9是分割的单元格区域的示意图。
图3-1是框选二维码区域的房产证图像示意图。
图3-2是房产证图像全版面文本行标注示意图。
图4-1(a)与图4-1(b)是执行文本检测从原图像上切割下来的文本行图像。
图4-2(a)与图4-2(b)是对文本行图像MSER检测单字区域的结果。
图4-3(a)与图4-3(b)是经过NMS处理后的矩形框的结果。
图4-4是单字矩形框中心点坐标漂移与宽高正规化示意图。
图S4-5(a)与图S4-5(b)是对单字矩形框的宽高正规化后的结果。
图S4-6(a)与图S4-6(b)是单字分割的二值图像。
图4-7是结构化信息抽取结果。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例在识别单字之前,首先需要将文本行图像准确的分割为单字图像。提出基于MSER(Maximally Stable Extremal Regions,最大稳定极值区域)+NMS(Non-Maximum Suppression,非极大值抑制)获得初步的单字区域分割结果,然后借助于构建线性回归线与正规化处理方法获得精确的单字分割结果。提出的正规化处理方法不仅适用于任意方向(包括水平、垂直、倾斜)的直线文本行,而且只要稍加修改就可以扩展到曲线文本上。提出对房产证图像进行表格提取与单元格分割,根据单元格与文本行之间的归类关系对文本行分类,以实现结果的结构化输出。
本发明实施例提出的一种对带表格的图像进行结构化信息提取的方法的处理流程如图1 所示,包括如下的处理步骤:
步骤S1:对房产证图像进行表格区域提取和单元格分割。
本发明实施例中的带表格的图像可以为房产证数字图像等。
一般来说,普通相机采集到的带表格的图像是RGB三通道彩色图像,如图2-1所示。如果对一幅彩色图像进行图像处理操作,将会消耗巨大的计算机内存资源,再加上多层级的迭代运算,也会增加程序运行时间。而对于灰度图像来说,信息量不仅能够满足运算要求,也不会丢失太多的图像细节信息。首先采用平均值法对带表格的图像灰度化处理,取彩色像素点的R、G、B三个分量的平均值作为灰度处理后的值,得到带表格的图像的灰度图像。灰度化结果如图2-2所示。
取灰度图像中的所有像素点的灰度值的平均值作为阈值T,大于T的像素值设为1,小于或者等于T的像素值设为0,进行二值化处理,得到二值化后的图像,结果如图2-3所示。
获取二值化后的图像以后,使用开运算分别提取二值化后的图像中的横向表格线和纵向表格线,结果分别如图2-4和图2-5所示。将横向表格线和纵向表格线叠加得到交叉横纵线条,如图2-6所示。提取横纵线条的交点,如图2-7中的十字所示,通过交点提取表格。接着找到包围所有交点的最小轮廓区域,根据其形状和大小判断此区域是否为表格,如果是表格区域,就将其从带表格的图像上裁剪下来,得到的表格区域如图2-8(a)和图2-8(b)所示。
记上述得到的每个表格区域为tab,并对表格区域进行分割,得到若干个单元格,分割的方法如下:将所有的表格线交点对应的横坐标存储于列表X中,对应的纵坐标存储于列表 Y中。取X中的每一个横坐标点,对表格区域纵切,得到若干个纵列;再取Y中的每一个纵坐标点,对纵列进行横切,得到若干个单元格并存储为子图,子图以其所在行数row和列数 col命名,如tab_row_col.png,以便后续过程的结构化信息提取。如果单元格的宽度或者高度小于某个阈值,则认为其不是单元格。分割后的单元格如图2-9所示。同样可以获得每个单元格图像在原始图像中的位置坐标,包括左上顶点
Figure RE-GDA0002547499820000091
与右下顶点
Figure RE-GDA0002547499820000092
其中j为序号。
步骤S2:对单元格进行全版面文本行检测和归类。
在带表格的图像中,每个单元格中的内容并不一定全都是所需要的文本内容,如位于右侧单元格内的二维码区域,如图3-1所示;此外每个单元格还可能包括紧邻的多行文本,需要标注每一行文本。
根据每个文本行图像的左上顶点
Figure RE-GDA0002547499820000093
与右下顶点
Figure RE-GDA0002547499820000094
在带表格的图像中的位置坐标得到文本行的矩形边界框,其中i为序号,如图3-2所示。本发明中使用Faster-RCNN目标检测方法训练得到检测模型,再利用检测模型对单元格的矩形边界框进行全版面文本行检测,得到单元格中包含的所有文本行。
在带表格的图像中,对于包含多行文本的单元格,全版面文本行检测得到的所有文本行并不一定全部位于单元格内,所以需要对检测到的文本行进行单元格归类。如果第i个文本行全部位于第j个单元格内部或者第i个文本行位于第j个单元格内的面积大于第i个文本行面积的一部分,即满足下式:
Figure RE-GDA0002547499820000101
Figure RE-GDA0002547499820000102
则可将此文本行归类为此单元格,即texti∈cellj
Figure RE-GDA0002547499820000103
Figure RE-GDA0002547499820000104
其中,texti为第i个文本行,cellj为第j个单元格,TEXT为检测到的文本行集合,CELL为分割得到的单元格集合,λ为比例因子。
步骤S3:对文本行进行单字分割并识别单字内容,拼接得到文本行内容,根据文本行内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。
对于最终得到的文本行,将其从带表格的图像上切割下来,如图4-1(a)与(b)所示。首先对文本行进行灰度化与二值化处理。然后使用MSER获得二值化处理后的文本行中的初步的单字区域,如图4-2(a)与(b)所示;再使用NMS过滤重叠的矩形框。
这时候获得的矩形框具有如下特点:每个矩形框基本包围单个单字,每个单字基本只由一个矩形框覆盖,如图4-3(a)与(b)所示。
但是大多数矩形框并不能完整覆盖住单字,需要对每个小矩形框的高和宽进行统一的正规化处理。采用如下方法:假设过滤后剩余n个小矩形框,首先根据第i个小矩形框的左上顶点坐标
Figure RE-GDA0002547499820000111
与右下顶点坐标
Figure RE-GDA0002547499820000112
计算其中心点坐标
Figure RE-GDA0002547499820000113
Figure RE-GDA0002547499820000114
高hi与宽wi
Figure RE-GDA0002547499820000115
Figure RE-GDA0002547499820000116
因为带表格的图像中的文本行皆为直线文本行,所以所有小矩形框的中心点可以近似拟合到一条直线上,由每个小矩形框的中心点坐标构建一条线性回归线。求得如下线性回归式,其中a为直线的斜率,b为直线的截距,k为未知数。
Figure RE-GDA0002547499820000117
计算所有小矩形框的中心点坐标的平均值(xmean,ymean),则上述线性回归式(S3-3)必过均值点,即满足式(S3-5)。
Figure RE-GDA0002547499820000118
ymean=a*xmean+b (S3-5)
接下来计算a和b两个未知数,假设直线斜率a存在。
Figure RE-GDA0002547499820000119
b=ymean-a*xmean (S3-7)
如果
Figure RE-GDA00025474998200001110
满足条件,则直线斜率a存在,按照上述方法计算。否则,直线斜率a不存在,按照式(S3-8)计算。
k=xmean (S3-8)
计算出线性回归线之后,将所有小矩形框的中心点
Figure RE-GDA0002547499820000121
投影到线性回归线上,计算新的小矩形框的中心点坐标
Figure RE-GDA0002547499820000122
如图4-4示意。分为以下三种情况考虑:
①直线斜率a存在且a≠0:
已知线性回归线y=a*x+b的斜率为a,则与其垂直的直线的斜率为
Figure RE-GDA0002547499820000123
且经过点
Figure RE-GDA0002547499820000124
那么设这条垂线为:
Figure RE-GDA0002547499820000125
Figure RE-GDA0002547499820000126
式(S3-3)与式(S3-9)的交点即为所求,即:
Figure RE-GDA0002547499820000127
②直线斜率a存在且a=0:
已知线性回归线为y=b,则与其垂直的直线的斜率不存在,且经过点
Figure RE-GDA0002547499820000128
Figure RE-GDA0002547499820000129
那么这条垂线为:
Figure RE-GDA00025474998200001210
那么
Figure RE-GDA00025474998200001211
③直线斜率不存在:
已知线性回归线为x=k,则与其垂直的直线的斜率为0,且经过点
Figure RE-GDA00025474998200001212
那么这条垂线为:
Figure RE-GDA00025474998200001213
那么
Figure RE-GDA00025474998200001214
得到所有小矩形框的新的中心点坐标之后,对其宽与高正规化。因为MSER+NMS得到的单字矩形区域边界框大多可以完整覆盖单个单字,只有极少数的单字由于其结构特点无法被完全覆盖,所以可以用所有小矩形框的宽与高的平均值代替原来小矩形框的宽与高,这样不仅能够使未完全覆盖的单字被完整覆盖,也不会对覆盖完整的小矩形框产生太多影响,如图4-4示意。首先计算所有小矩形框的宽与高的平均值(wmean,hmean):
Figure RE-GDA0002547499820000131
计算小矩形框的新的左上顶点坐标
Figure RE-GDA0002547499820000132
与右下顶点坐标
Figure RE-GDA0002547499820000133
Figure RE-GDA0002547499820000134
Figure RE-GDA0002547499820000135
Figure RE-GDA0002547499820000136
正规化处理后的小矩形框如图4-5(a)与(b)所示。最后将所有正规化处理后的小矩形框分割下来,可以是原图,也可以是二值化后的图像,如图4-6(a)与(b)所示。
在对小矩形框进行正规化处理后,本发明使用了LeNet深度卷积网络对正规化后的矩形框进行单字的识别,并将识别结果按从左至右的顺序拼接得到此文本行的识别结果。
根据步骤S2中的单元格与文本行的归类关系,得到此单元格内所有文本行的识别结果,最后根据单元格所在的区域、行数与列数对识别结果进行结构化处理,得到最终带表格的图像表格的结构化信息,如图4-7所示。
综上所述,本发明实施例的方法可以有效地提取出房产证图像等带表格的图像中的表格区域、文本行中的单字以及结构化信息。
本发明可以帮助人们在进行二手房交易、房产证抵押、贷款买车、落户、适龄儿童入学、出国旅游办签证等行为时,提升房产证信息收集与审核效率,加快办理流程,缩短等待时间,实现自动化的业务流程。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种对带表格的图像进行结构化信息提取的方法,其特征在于,包括:
提取带表格的图像中的表格区域,对表格区域进行单元格分割;
对单元格进行文本行检测和归类;
对文本行进行单字分割并识别单字内容,拼接得到文本行内容,根据所述文本行内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。
2.根据权利要求1所述的方法,其特征在于,所述的提取带表格的图像中的表格区域,包括:
对带表格的图像进行灰度化处理,得到灰度图像,取灰度图像中的所有像素点的灰度值的平均值作为阈值T,将灰度图像中的灰度值大于阈值T的像素值设为1,灰度值小于或者阈值T的像素值设为0,对所述灰度图像进行二值化处理,得到二值化后的图像;
使用开运算分别提取二值化后的图像中的横向表格线和纵向表格线,将横向表格线和纵向表格线叠加得到交叉横纵线条,提取横纵线条的交点,找到包围所有交点的最小轮廓区域,根据其形状和大小判断此最小轮廓区域是否为表格,如果是表格区域,则将该表格区域从带表格的图像上裁剪下来,得到表格区域。
3.根据权利要求2所述的方法,其特征在于,所述的对表格区域进行单元格分割,包括:
将一个表格区域中所有的表格线交点对应的横坐标存储于列表X中,对应的纵坐标存储于列表Y中,取列表X中的每一个横坐标点,对表格区域纵切,得到若干个纵列;再取列表Y中的每一个纵坐标点,对每个纵列进行横切,得到若干个单元格;
将单元格存储为子图,子图以单元格所在行数row和列数col命名,如果单元格的宽度或者高度小于某个阈值,则认为其不是单元格,获得并记录每个单元格图像在带表格的图像中的位置坐标信息,该位置坐标信息包括单元格图像的左上顶点
Figure FDA0002414228980000011
与右下顶点
Figure FDA0002414228980000012
的坐标信息。
4.根据权利要求3所述的方法,其特征在于,所述的对单元格进行文本行检测和归类包括:
根据每个文本行图像的左上顶点
Figure FDA0002414228980000013
与右下顶点
Figure FDA0002414228980000014
在带表格的图像中的位置坐标得到文本行的矩形边界框,其中i为序号,使用Faster-RCNN目标检测方法训练得到检测模型,再利用检测模型对单元格的矩形边界框进行全版面文本行检测,得到单元格中包含的所有文本行;
对检测到的文本行进行单元格归类,如果第i个文本行全部位于第j个单元格内部或者第i个文本行位于第j个单元格内的面积大于第i个文本行面积的一部分,即满足下式:
Figure FDA0002414228980000021
Figure FDA0002414228980000022
则将第i个文本行归类于第j个单元格,即texti∈cellj
Figure FDA0002414228980000023
Figure FDA0002414228980000024
其中,texti为第i个文本行,cellj为第j个单元格,TEXT为检测到的文本行集合,CELL为分割得到的单元格集合,λ为比例因子。
5.根据权利要求1所述的方法,其特征在于,所述的对文本行进行单字分割并识别单字内容,拼接得到文本行内容,包括:
将文本行从带表格的图像上切割下来,对文本行进行灰度化与二值化处理,使用MSER获得初步的单字区域,再使用NMS过滤重叠的矩形框,假设过滤后剩余n个矩形框,根据第i个小矩形框的左上顶点坐标
Figure FDA0002414228980000031
与右下顶点坐标
Figure FDA0002414228980000032
计算第i个矩形框的中心点坐标
Figure FDA0002414228980000033
高hi与宽wi
Figure FDA0002414228980000034
Figure FDA0002414228980000035
将所有矩形框的中心点拟合到一条直线上,由每个矩形框的中心点坐标构建一条线性回归线,求得如下线性回归式,其中a为直线的斜率,b为直线的截距,k为未知数。
Figure FDA0002414228980000036
计算所有矩形框的中心点坐标的平均值(xmean,ymean),则上述线性回归式(S3-3)必过均值点,即满足式(S3-5)。
Figure FDA0002414228980000037
ymean=a*xmean+b (S3-5)
接下来计算a和b两个未知数,假设直线斜率a存在。
Figure FDA0002414228980000038
b=ymean-a*xmean (S3-7)
如果
Figure FDA0002414228980000039
满足条件,则直线斜率a存在,按照上述方法计算,否则,直线斜率a不存在,按照式(S3-8)计算;
k=xmean (S3-8)
计算出线性回归线之后,将所有矩形框的中心点
Figure FDA0002414228980000041
投影到线性回归线上,计算出各个矩形框的新的中心点坐标
Figure FDA0002414228980000042
分为以下三种情况考虑:
①直线斜率a存在且a≠0:
已知线性回归线y=a*x+b的斜率为a,则与其垂直的直线的斜率为
Figure FDA0002414228980000043
且经过点
Figure FDA0002414228980000044
那么设这条垂线为:
Figure FDA0002414228980000045
Figure FDA0002414228980000046
式(S3-3)与式(S3-9)的交点即为所求,即:
Figure FDA0002414228980000047
②直线斜率a存在且a=0:
已知线性回归线为y=b,则与其垂直的直线的斜率不存在,且经过点
Figure FDA0002414228980000048
Figure FDA0002414228980000049
那么这条垂线为:
Figure FDA00024142289800000410
那么
Figure FDA00024142289800000411
③直线斜率不存在:
已知线性回归线为x=k,则与其垂直的直线的斜率为0,且经过点
Figure FDA00024142289800000412
那么这条垂线为:
Figure FDA00024142289800000413
那么
Figure FDA00024142289800000414
得到所有矩形框的新的中心点坐标之后,对所有矩形框的宽与高正规化,计算所有矩形框的宽与高的平均值(wmean,hmean):
Figure FDA0002414228980000051
计算矩形框的新的左上顶点坐标
Figure FDA0002414228980000052
与右下顶点坐标
Figure FDA0002414228980000053
Figure FDA0002414228980000054
Figure FDA0002414228980000055
Figure FDA0002414228980000056
将所有正规化后的矩形框分割下来,使用了LeNet深度卷积网络识别出矩形框中的单字信息。
6.根据权利要求5所述的方法,其特征在于,所述的根据所述文本行的内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息,包括:
将文本行中所有矩形框的单字信息按从左至右的顺序进行拼接,得到此文本行的识别结果,根据文本行与单元格的归类关系,得到单元格内所有文本行的识别结果,再根据单元格所在的区域、行数与列数对单元格内所有文本行的识别结果进行结构化处理,得到所述带表格的图像的结构化信息。
CN202010186069.3A 2020-03-17 2020-03-17 对房产证图像进行结构化信息提取的方法 Active CN111460927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010186069.3A CN111460927B (zh) 2020-03-17 2020-03-17 对房产证图像进行结构化信息提取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010186069.3A CN111460927B (zh) 2020-03-17 2020-03-17 对房产证图像进行结构化信息提取的方法

Publications (2)

Publication Number Publication Date
CN111460927A true CN111460927A (zh) 2020-07-28
CN111460927B CN111460927B (zh) 2024-04-09

Family

ID=71680764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010186069.3A Active CN111460927B (zh) 2020-03-17 2020-03-17 对房产证图像进行结构化信息提取的方法

Country Status (1)

Country Link
CN (1) CN111460927B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914741A (zh) * 2020-07-30 2020-11-10 云知声智能科技股份有限公司 房产证识别方法、装置和设备
CN112418204A (zh) * 2020-11-18 2021-02-26 杭州未名信科科技有限公司 基于纸质文档的文本识别方法、系统及计算机介质
CN112528813A (zh) * 2020-12-03 2021-03-19 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
CN114140803A (zh) * 2022-01-30 2022-03-04 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及系统
CN114529925A (zh) * 2022-04-22 2022-05-24 华南理工大学 一种全线表表格结构识别方法
CN115048916A (zh) * 2022-05-27 2022-09-13 北京百度网讯科技有限公司 表格的处理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512611A (zh) * 2015-11-25 2016-04-20 成都数联铭品科技有限公司 一种表格图像检测识别方法
CN108108342A (zh) * 2017-11-07 2018-06-01 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN109241894A (zh) * 2018-08-28 2019-01-18 南京安链数据科技有限公司 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
CN110309746A (zh) * 2019-06-21 2019-10-08 国网辽宁省电力有限公司鞍山供电公司 无通信互联的高等级信息安全区表格数据信息提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512611A (zh) * 2015-11-25 2016-04-20 成都数联铭品科技有限公司 一种表格图像检测识别方法
CN108108342A (zh) * 2017-11-07 2018-06-01 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN109241894A (zh) * 2018-08-28 2019-01-18 南京安链数据科技有限公司 一种基于表格定位和深度学习的针对性票据内容识别系统和方法
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN110309746A (zh) * 2019-06-21 2019-10-08 国网辽宁省电力有限公司鞍山供电公司 无通信互联的高等级信息安全区表格数据信息提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEBASTIAN SCHREIBER 等: "DeepDeSRT: Deep learning for detection and structure recognition of tables in document images" *
赵思远 等: "基于拓扑模型的高效表格识别机制研究" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914741A (zh) * 2020-07-30 2020-11-10 云知声智能科技股份有限公司 房产证识别方法、装置和设备
CN111914741B (zh) * 2020-07-30 2024-04-19 云知声智能科技股份有限公司 房产证识别方法、装置和设备
CN112418204A (zh) * 2020-11-18 2021-02-26 杭州未名信科科技有限公司 基于纸质文档的文本识别方法、系统及计算机介质
CN112528813A (zh) * 2020-12-03 2021-03-19 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
CN112528813B (zh) * 2020-12-03 2021-07-23 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质
CN114140803A (zh) * 2022-01-30 2022-03-04 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及系统
CN114140803B (zh) * 2022-01-30 2022-06-17 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及系统
CN114529925A (zh) * 2022-04-22 2022-05-24 华南理工大学 一种全线表表格结构识别方法
CN114529925B (zh) * 2022-04-22 2022-07-15 华南理工大学 一种全线表表格结构识别方法
CN115048916A (zh) * 2022-05-27 2022-09-13 北京百度网讯科技有限公司 表格的处理方法和装置

Also Published As

Publication number Publication date
CN111460927B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN111460927A (zh) 对房产证图像进行结构化信息提取的方法
Wei et al. Multi-target defect identification for railway track line based on image processing and improved YOLOv3 model
CN110969129B (zh) 一种端到端税务票据文本检测与识别方法
CN108334881B (zh) 一种基于深度学习的车牌识别方法
CN101877064B (zh) 图像分类方法及图像分类装置
US11640714B2 (en) Video panoptic segmentation
CN111612008A (zh) 基于卷积网络的图像分割方法
CN110334709B (zh) 基于端到端多任务深度学习的车牌检测方法
CN112016605A (zh) 一种基于边界框角点对齐和边界匹配的目标检测方法
CN104978567A (zh) 基于场景分类的车辆检测方法
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN109389050B (zh) 一种流程图连接关系识别方法
CN106023159A (zh) 设施蔬菜叶部病斑图像分割方法及系统
CN114677695A (zh) 表格解析方法、装置、计算机设备和存储介质
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN114529773A (zh) 基于结构单元的表格识别方法、系统、终端及介质
CN111340032A (zh) 一种基于金融领域应用场景的字符识别方法
CN112949455B (zh) 一种增值税发票识别系统及方法
Liu et al. Progressive context-dependent inference for object detection in remote sensing imagery
CN114581928A (zh) 一种表格识别方法及系统
CN106980878B (zh) 三维模型几何风格的确定方法及装置
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN105404682A (zh) 一种基于数字图像内容的图书检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant