CN111460927A

CN111460927A - 对房产证图像进行结构化信息提取的方法

Info

Publication number: CN111460927A
Application number: CN202010186069.3A
Authority: CN
Inventors: 李清勇; 赵鹏; 蔡斯琪; 薛文元
Original assignee: Beijing Jiaotong University; CERNET Corp
Current assignee: Beijing Jiaotong University; CERNET Corp
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-28
Anticipated expiration: 2040-03-17
Also published as: CN111460927B

Abstract

本发明提供了一种对带表格的图像进行结构化信息提取的方法。该方法包括：提取带表格的图像中的表格区域，对表格区域进行单元格分割；对单元格进行文本行检测和归类；对文本行进行单字分割并识别单字内容，拼接得到文本行内容，根据所述文本行的内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。本发明实施例的方法可以有效地提取出房产证图像等带表格的图像中的表格区域、文本行中的单字以及结构化信息。本发明可以帮助人们在进行二手房交易、房产证抵押、贷款买车、落户、适龄儿童入学、出国旅游办签证等行为时，实现自动化的业务流程。

Description

对房产证图像进行结构化信息提取的方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种对带表格的图像进行结构化信息提取的方法。

背景技术

房产证在居民日常生活中发挥着重要的作用，大到二手房交易、房产证抵押、贷款买车、落户、适龄儿童入学，小到出国旅游办签证，房产证成为社会信用的证明之一。当进行房产证的抵押、贷款等相关活动时，需要收集证件上的相关信息进行备案。

在房屋的信息采集方面，传统的房产证复印、人工录入数据的方式，无法实现自动化的业务流程，因速度慢、耗时长、易出错等不足无法满足实际应用场景的需求。而通过OCR(Optical Character Recognition，光学字符识别)文本识别技术，快速采集录入证件信息，一键保存入库，替代传统手工录入方式，可以在很大程度上解决房产证件上的数据采集遇到的各种难题。

在深度学习方法出现之前，基于传统的人工标记特征是主要的OCR文字识别方法，其中包括基于连通区域以及基于HOG(Histogram of Oriented Gradient，方向梯度直方图)的检测框描述算法。随着硬件设备的更新换代，GPU(Graphics Processing Unit，图形处理器)的出现使得计算机可以处理大规模数据集，机器学习、深度学习等一系列新技术得到了飞速发展。在基于深度学习的方法中，目前比较成熟的OCR文本识别过程主要包括文本检测和文本识别两部分。

现有技术中的一种对图像进行文本检测的方法为：在图像中寻找包含文本的区域。这部分的算法实现大多数是基于候选区域的，一般先借助Faster R-CNN(Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks，更快的R-CNN：基于区域建议网络的实时目标检测方法)或者SSD(SSD:Single Shot MultiBoxDetector，单阶段多框检测器)得到许多个候选区域，然后训练模型对候选区域分类，最后做细致处理得到准确的文本区域。检测到了准确的文本区域之后，文本识别是指识别区域中的文本，文本识别可以先将文本分割成单字再识别，也可以采用序列识别的方式。

上述现有技术中的对图像进行文本检测的方法的缺点为：该方法只能进行全版面的文本检测，无法进行后续的文本结构化信息提取。

发明内容

本发明的实施例提供了一种对带表格的图像进行结构化信息提取的方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种对带表格的图像进行结构化信息提取的方法，包括：

提取带表格的图像中的表格区域，对表格区域进行单元格分割；

对单元格进行文本行检测和归类；

对文本行进行单字分割并识别单字内容，拼接得到文本行内容，根据所述文本行内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。

优选地，所述的提取带表格的图像中的表格区域，包括：

对带表格的图像进行灰度化处理，得到灰度图像，取灰度图像中的所有像素点的灰度值的平均值作为阈值T，将灰度图像中的灰度值大于阈值T的像素值设为1，灰度值小于或者阈值T的像素值设为0，对所述灰度图像进行二值化处理，得到二值化后的图像；

使用开运算分别提取二值化后的图像中的横向表格线和纵向表格线，将横向表格线和纵向表格线叠加得到交叉横纵线条，提取横纵线条的交点，找到包围所有交点的最小轮廓区域，根据其形状和大小判断此最小轮廓区域是否为表格，如果是表格区域，则将该表格区域从带表格的图像上裁剪下来，得到表格区域。

优选地，所述的对表格区域进行单元格分割，包括：

将一个表格区域中所有的表格线交点对应的横坐标存储于列表X中，对应的纵坐标存储于列表Y中，取列表X中的每一个横坐标点，对表格区域纵切，得到若干个纵列；再取列表Y 中的每一个纵坐标点，对每个纵列进行横切，得到若干个单元格；

将单元格存储为子图，子图以单元格所在行数row和列数col命名，如果单元格的宽度或者高度小于某个阈值，则认为其不是单元格，获得并记录每个单元格图像在带表格的图像中的位置坐标信息，该位置坐标信息包括单元格图像的左上顶点

与右下顶点

的坐标信息。

优选地，所述的对单元格进行文本行检测和归类包括：

根据每个文本行图像的左上顶点

与右下顶点

在带表格的图像中的位置坐标得到文本行的矩形边界框，其中i为序号，使用Faster-RCNN 目标检测方法训练得到检测模型，再利用检测模型对单元格的矩形边界框进行全版面文本行检测，得到单元格中包含的所有文本行；

对检测到的文本行进行单元格归类，如果第i个文本行全部位于第j个单元格内部或者第 i个文本行位于第j个单元格内的面积大于第i个文本行面积的一部分，即满足下式：

则将第i个文本行归类于第j个单元格，即textⁱ∈cell^j

其中，textⁱ为第i个文本行，cell^j为第j个单元格，TEXT为检测到的文本行集合，CELL为分割得到的单元格集合，λ为比例因子。

优选地，所述的对文本行进行单字分割并识别单字内容，拼接得到文本行内容，包括：

将文本行从带表格的图像上切割下来，对文本行进行灰度化与二值化处理，使用MSER 获得初步的单字区域，再使用NMS过滤重叠的矩形框，假设过滤后剩余n个矩形框，根据第个小矩形框的左上顶点坐标

与右下顶点坐标

计算第i个矩形框的中心点坐标

高hⁱ与宽wⁱ；

将所有矩形框的中心点拟合到一条直线上，由每个矩形框的中心点坐标构建一条线性回归线，求得如下线性回归式，其中a为直线的斜率，b为直线的截距，k为未知数。

计算所有矩形框的中心点坐标的平均值(x_mean，y_mean)，则上述线性回归式(S3-3)必过均值点，即满足式(S3-5)。

y_mean＝a*x_mean+b (S3-5)

接下来计算a和b两个未知数，假设直线斜率a存在。

b＝y_mean-a*x_mean (S3-7)

如果

满足条件，则直线斜率a存在，按照上述方法计算，否则，直线斜率a不存在，按照式(S3-8)计算；

k＝x_mean (S3-8)

计算出线性回归线之后，将所有矩形框的中心点

投影到线性回归线上，计算出各个矩形框的新的中心点坐标

分为以下三种情况考虑：

①直线斜率a存在且a≠0：

已知线性回归线y＝a*x+b的斜率为a，则与其垂直的直线的斜率为

且经过点

那么设这条垂线为：

式(S3-3)与式(S3-9)的交点即为所求，即：

②直线斜率a存在且a＝0：

已知线性回归线为y＝b，则与其垂直的直线的斜率不存在，且经过点

那么这条垂线为：

那么

③直线斜率不存在：

已知线性回归线为x＝k，则与其垂直的直线的斜率为0，且经过点

那么这条垂线为：

那么

得到所有矩形框的新的中心点坐标之后，对所有矩形框的宽与高正规化，计算所有矩形框的宽与高的平均值(w_mean，h_mean)：

计算矩形框的新的左上顶点坐标

与右下顶点坐标

将所有正规化后的矩形框分割下来，使用了LeNet深度卷积网络识别出矩形框中的单字信息。

优选地，所述的根据所述文本行的内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息，包括：

将文本行中所有矩形框的单字信息按从左至右的顺序进行拼接，得到此文本行的识别结果，根据文本行与单元格的归类关系，得到单元格内所有文本行的识别结果，再根据单元格所在的区域、行数与列数对单元格内所有文本行的识别结果进行结构化处理，得到所述带表格的图像的结构化信息。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例的方法可以有效地提取出房产证图像等带表格的图像中的表格区域、文本行中的单字以及结构化信息。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例所提出的房产证图像结构化信息抽取方法的流程图。

图2-1是房产证原图示例。

图2-2是经过灰度化处理的房产证图像。

图2-3是经过二值化处理的房产证图像。

图2-4是提取出二值化图像中的横向表格线的示意图。

图2-5是提取出二值化图像中的纵向表格线的示意图。

图2-6是交叉横纵线条之后的结果图。

图2-7是横纵线条的交点示意图。

图2-8(a)与图2-8(b)是分割的表格区域的示意图。

图2-9是分割的单元格区域的示意图。

图3-1是框选二维码区域的房产证图像示意图。

图3-2是房产证图像全版面文本行标注示意图。

图4-1(a)与图4-1(b)是执行文本检测从原图像上切割下来的文本行图像。

图4-2(a)与图4-2(b)是对文本行图像MSER检测单字区域的结果。

图4-3(a)与图4-3(b)是经过NMS处理后的矩形框的结果。

图4-4是单字矩形框中心点坐标漂移与宽高正规化示意图。

图S4-5(a)与图S4-5(b)是对单字矩形框的宽高正规化后的结果。

图S4-6(a)与图S4-6(b)是单字分割的二值图像。

图4-7是结构化信息抽取结果。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例在识别单字之前，首先需要将文本行图像准确的分割为单字图像。提出基于MSER(Maximally Stable Extremal Regions，最大稳定极值区域)+NMS(Non-Maximum Suppression，非极大值抑制)获得初步的单字区域分割结果，然后借助于构建线性回归线与正规化处理方法获得精确的单字分割结果。提出的正规化处理方法不仅适用于任意方向(包括水平、垂直、倾斜)的直线文本行，而且只要稍加修改就可以扩展到曲线文本上。提出对房产证图像进行表格提取与单元格分割，根据单元格与文本行之间的归类关系对文本行分类，以实现结果的结构化输出。

本发明实施例提出的一种对带表格的图像进行结构化信息提取的方法的处理流程如图1 所示，包括如下的处理步骤：

步骤S1：对房产证图像进行表格区域提取和单元格分割。

本发明实施例中的带表格的图像可以为房产证数字图像等。

一般来说，普通相机采集到的带表格的图像是RGB三通道彩色图像，如图2-1所示。如果对一幅彩色图像进行图像处理操作，将会消耗巨大的计算机内存资源，再加上多层级的迭代运算，也会增加程序运行时间。而对于灰度图像来说，信息量不仅能够满足运算要求，也不会丢失太多的图像细节信息。首先采用平均值法对带表格的图像灰度化处理，取彩色像素点的R、G、B三个分量的平均值作为灰度处理后的值，得到带表格的图像的灰度图像。灰度化结果如图2-2所示。

取灰度图像中的所有像素点的灰度值的平均值作为阈值T，大于T的像素值设为1，小于或者等于T的像素值设为0，进行二值化处理，得到二值化后的图像，结果如图2-3所示。

获取二值化后的图像以后，使用开运算分别提取二值化后的图像中的横向表格线和纵向表格线，结果分别如图2-4和图2-5所示。将横向表格线和纵向表格线叠加得到交叉横纵线条，如图2-6所示。提取横纵线条的交点，如图2-7中的十字所示，通过交点提取表格。接着找到包围所有交点的最小轮廓区域，根据其形状和大小判断此区域是否为表格，如果是表格区域，就将其从带表格的图像上裁剪下来，得到的表格区域如图2-8(a)和图2-8(b)所示。

记上述得到的每个表格区域为tab，并对表格区域进行分割，得到若干个单元格，分割的方法如下：将所有的表格线交点对应的横坐标存储于列表X中，对应的纵坐标存储于列表 Y中。取X中的每一个横坐标点，对表格区域纵切，得到若干个纵列；再取Y中的每一个纵坐标点，对纵列进行横切，得到若干个单元格并存储为子图，子图以其所在行数row和列数 col命名，如tab_row_col.png，以便后续过程的结构化信息提取。如果单元格的宽度或者高度小于某个阈值，则认为其不是单元格。分割后的单元格如图2-9所示。同样可以获得每个单元格图像在原始图像中的位置坐标，包括左上顶点

与右下顶点

其中j为序号。

步骤S2：对单元格进行全版面文本行检测和归类。

在带表格的图像中，每个单元格中的内容并不一定全都是所需要的文本内容，如位于右侧单元格内的二维码区域，如图3-1所示；此外每个单元格还可能包括紧邻的多行文本，需要标注每一行文本。

根据每个文本行图像的左上顶点

与右下顶点

在带表格的图像中的位置坐标得到文本行的矩形边界框，其中i为序号，如图3-2所示。本发明中使用Faster-RCNN目标检测方法训练得到检测模型，再利用检测模型对单元格的矩形边界框进行全版面文本行检测，得到单元格中包含的所有文本行。

在带表格的图像中，对于包含多行文本的单元格，全版面文本行检测得到的所有文本行并不一定全部位于单元格内，所以需要对检测到的文本行进行单元格归类。如果第i个文本行全部位于第j个单元格内部或者第i个文本行位于第j个单元格内的面积大于第i个文本行面积的一部分，即满足下式：

则可将此文本行归类为此单元格，即textⁱ∈cell^j

步骤S3：对文本行进行单字分割并识别单字内容，拼接得到文本行内容，根据文本行内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。

对于最终得到的文本行，将其从带表格的图像上切割下来，如图4-1(a)与(b)所示。首先对文本行进行灰度化与二值化处理。然后使用MSER获得二值化处理后的文本行中的初步的单字区域，如图4-2(a)与(b)所示；再使用NMS过滤重叠的矩形框。

这时候获得的矩形框具有如下特点：每个矩形框基本包围单个单字，每个单字基本只由一个矩形框覆盖，如图4-3(a)与(b)所示。

但是大多数矩形框并不能完整覆盖住单字，需要对每个小矩形框的高和宽进行统一的正规化处理。采用如下方法：假设过滤后剩余n个小矩形框，首先根据第i个小矩形框的左上顶点坐标

与右下顶点坐标

计算其中心点坐标

高hⁱ与宽wⁱ。

因为带表格的图像中的文本行皆为直线文本行，所以所有小矩形框的中心点可以近似拟合到一条直线上，由每个小矩形框的中心点坐标构建一条线性回归线。求得如下线性回归式，其中a为直线的斜率，b为直线的截距，k为未知数。

计算所有小矩形框的中心点坐标的平均值(x_mean，y_mean)，则上述线性回归式(S3-3)必过均值点，即满足式(S3-5)。

y_mean＝a*x_mean+b (S3-5)

接下来计算a和b两个未知数，假设直线斜率a存在。

b＝y_mean-a*x_mean (S3-7)

如果

满足条件，则直线斜率a存在，按照上述方法计算。否则，直线斜率a不存在，按照式(S3-8)计算。

k＝x_mean (S3-8)

计算出线性回归线之后，将所有小矩形框的中心点

投影到线性回归线上，计算新的小矩形框的中心点坐标

如图4-4示意。分为以下三种情况考虑：

①直线斜率a存在且a≠0：

且经过点

那么设这条垂线为：

式(S3-3)与式(S3-9)的交点即为所求，即：

②直线斜率a存在且a＝0：

那么这条垂线为：

那么

③直线斜率不存在：

那么这条垂线为：

那么

得到所有小矩形框的新的中心点坐标之后，对其宽与高正规化。因为MSER+NMS得到的单字矩形区域边界框大多可以完整覆盖单个单字，只有极少数的单字由于其结构特点无法被完全覆盖，所以可以用所有小矩形框的宽与高的平均值代替原来小矩形框的宽与高，这样不仅能够使未完全覆盖的单字被完整覆盖，也不会对覆盖完整的小矩形框产生太多影响，如图4-4示意。首先计算所有小矩形框的宽与高的平均值(w_mean，h_mean)：

计算小矩形框的新的左上顶点坐标

与右下顶点坐标

正规化处理后的小矩形框如图4-5(a)与(b)所示。最后将所有正规化处理后的小矩形框分割下来，可以是原图，也可以是二值化后的图像，如图4-6(a)与(b)所示。

在对小矩形框进行正规化处理后，本发明使用了LeNet深度卷积网络对正规化后的矩形框进行单字的识别，并将识别结果按从左至右的顺序拼接得到此文本行的识别结果。

根据步骤S2中的单元格与文本行的归类关系，得到此单元格内所有文本行的识别结果，最后根据单元格所在的区域、行数与列数对识别结果进行结构化处理，得到最终带表格的图像表格的结构化信息，如图4-7所示。

综上所述，本发明实施例的方法可以有效地提取出房产证图像等带表格的图像中的表格区域、文本行中的单字以及结构化信息。

本发明可以帮助人们在进行二手房交易、房产证抵押、贷款买车、落户、适龄儿童入学、出国旅游办签证等行为时，提升房产证信息收集与审核效率，加快办理流程，缩短等待时间，实现自动化的业务流程。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。