CN112819871B

CN112819871B - 一种基于直线分割的表格图像配准方法

Info

Publication number: CN112819871B
Application number: CN202110228666.2A
Authority: CN
Inventors: 彭雷; 高嵩峰; 傅湘玲; 刘春生; 王友军; 徐朗朗; 苗丛
Original assignee: Huarong Rongtong Beijing Technology Co ltd
Current assignee: Huarong Rongtong Beijing Technology Co ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2023-08-18
Anticipated expiration: 2041-03-02
Also published as: CN112819871A

Abstract

本发明公开了一种基于直线分割的表格图像配准方法，包括直线分割网络和基于LSN分割结果的图像配准两部分，直线分割网络包括LSN的平均池化部分和LSN的注意力机制部分两部分，图像配准将一个图像移动和变形尽可能地与另一个图像匹配；本发明的优点在于：本发明针对包含表格数据的配准效果差的情况，主要是传统的基于特征点的图像配准效果和基于深度学习的HomographyNet配准效果不理想。本发明提供一种新的图像配准思路，即先利用语义分割技术分割出图像中的横竖线，然后根据分割出来的横竖线用来寻找表格的4个顶点，并与参考图像的4个顶点一一对应，然后找到单应性矩阵，从而实现配准。

Description

一种基于直线分割的表格图像配准方法

技术领域

本发明涉及一种表格图像配准方法，具体地说是一种基于直线分割的表格图像配准方法，属于表格图像配准方法领域。

背景技术

基于表格的内容提取是许多文档分析应用项目中的一项重要任务，其中，准确提取图像中的感兴趣区域是事关重要的。例如，针对不动产登记证类别中的每张图片，需要提取此类别的感兴趣区域（权利人、义务人、位置等关键要素信息所在图片区域）。提供一张包含表格的图片作为参考图像，其他图片作为待配准图像与参考图像进行配准，配准后的图片与参考图片有相同的内容分布，如图1所示。如此一来，便可以根据在参考图片中预先设置好的感兴趣区域，提取出其他图片对应位置上的感兴趣区域。其中，图像配准是指将一个图像移动和变形尽可能地与另一个图像匹配的过程。对图像进行移动和变形是通过单应性矩阵完成的，单应性矩阵是一个平面到另一个平面的投影矩阵。传统方法检测出参考图片和待配准的特征点，并对特征点进行关联匹配，然后根据匹配的特征点对计算单应性矩阵并变换待配准图像，最终实现配准。Deep Image Homography Estimation，也叫做HomographyNet，提出了一种用于单应性网络的卷积神经网络结构，其以两幅叠加灰度图像为输入，直接估计单应性矩阵的值。

传统基于特征点的图像配准方法（例如ORB+RANSAC，是一种特征点检测方法，然后对检测出的特征点进行关联匹配，完成图像配准），其配准效果依赖于特征点的检测数量和两张图片之间特征点的匹配情况。对于伴有噪声的包含表格的图片，其检测不到足够的特征，两张图片的特征匹配对少且错误率高，导致计算的单应性矩阵误差大，配准效果差。HomographyNet预测单应性矩阵的值依赖于全连接层，需要固定大小的输入与输出，由于真实图片的尺寸是较大的，那么对于数据大小不一的图片首先需要调整图片的尺寸到统一值。那么预测的偏差将会在恢复到原图大小时，被成倍放大。Mean Average Corner Error作为评价指标，描述了点之间的平均距离，如公式 1所示。结果如表 1所示，在测试效果时，图片尺寸被调整为为128*128。

公式 1

其中，m是特征点数，是预测的特征点位置，/>是真实的特征点位置。

表1．用HomographyNet(Regressions)和ORB+RANSAC对表格数据进行图像配准的结果

	Mean Average Corner Error
		HomographyNet(Regressions)	13.54
ORB+RANSAC	14.12

结果表明，这些方法对于此数据集是不可行的，对于HomographyNet来说，首先需要调整图片尺寸，偏差会在图像上采样至原图大小时放大，每个对应点的预测值较真实值有13.54甚至几倍的像素偏差，不能准确找到单应性矩阵，配准效果差。利用ORB+RANSAC的配准效果依赖于特征点的数量，且会出现特征点对错误匹配的情况，平均偏差为14.12，对于表格数据集配准效果差。

发明内容

本发明的目的在于，设计了一种基于直线分割的表格图像配准方法，以解决包含表格的图片配准效果不佳的问题。本发明设计实现了用于分割横、竖线的直线分割网络又称Line Segmentation Network，LSN，其抛弃全连接层，接受任意尺寸的图像，不用将图片的尺寸调整到统一值。LSN基于Unet模型，Unet为一种图像语义分割网络，其网络分为两个部分，左边部分负责特征提取，随着网络层加深，网络中的通道数逐渐变大，"图片"逐渐变小。右边的网络负责特征的还原，整个网络形如字母U，但LSN与Unet不同的是，LSN在下采样层中加入平均池化模块，并在下采样最后一层中加入基于横竖向平均池化的位置注意力机制。然后利用模型分割的横竖线找到交点位置，并找到参考图像和配准图像的4个交点对，从而计算单应性矩阵，最终准确地实现图像配准。

本发明的技术方案为：

一种基于直线分割的表格图像配准方法，采用直线分割网络LSN，用于分割图片中的横、竖线；LSN基于unet，根据表格横竖线的细长型特点；本发明在Unet的下采样层中加入横竖向平均池化模块，在下采样最后一层加入基于横竖向平均池化的位置注意力机制。然后基于LSN的横竖线分割结果寻找到表格交点位置，并找到参考图像和配准图像的4个交点对，从而计算单应性矩阵，最终准确地实现图像配准。

具体包括以下内容：

（1）直线分割网络又称Line Segmentation Network, LSN,用于分割图像中的横竖线；

直线分割网络是以Unet为主干，并融合基于横竖向的平均池化和基于横竖向平均池化的位置注意力机制。

一、 LSN的平均池化部分

在Unet下采样中，加入基于横竖向的平均池化模块，融合更多细节上的语义信息；其中，在Unet主干中提取特征，每一层采用2个尺寸为3*3的卷积核；在每个平均池化模块中，对Unet特征进行尺寸为1*5的横向平均池化，尺寸为5*1的竖向平均池化，此池化过程不改变特征图的大小，并将池化后的特征与Unet特征进行融合；平均池化模块的公式表达如公式2所示：

公式2

其中，将横、竖向平均池化后的特征执行元素求和运算，然后将融合后的特征输入卷积层以生成新的特征；将Unet中下采样的特征图输入到卷积层以生成新特征/>；最后，将P乘以一个标量参数/>，该标量参数可以学习分配权重；并将乘积结果和特征Z进行元素求和运算，从而得到最终的输出/>。

二、LSN的注意力机制部分

在注意力模块中，针对下采样最后一层的Unet特征进行尺寸为1*5的横向平均池化，尺寸为5*1的竖向平均池化，此池化过程不改变特征图的大小；最终，将横竖向的池化特征送入到空间的注意力运算；在空间注意力运算中，设计了与双重注意网络DANet中的空间注意力相似的注意力结构，将横向池化特征和竖向池化特征作为模块的输入，计算出空间注意力矩阵，如公式3所示；然后利用Unet特征图与注意力矩阵计算出最终的基于空间注意力的特征图，如公式4所示。

公式3

其中分别是横向和竖向特征；将它们的形状调整为/>，；然后对H和V的转置进行矩阵乘法，并应用softmax层计算空间注意图；/>测量/>位置上的水平特征对/>位置上的垂直特征的影响。

公式4

将Unet特征图输入到卷积层以生成新特征/>，在D和S的转置之间执行矩阵乘法，并将其形状调整为/>；最后，将乘积结果乘以一个标度参数α，该参数可以学习分配权重，并对特征U进行元素求和运算，以获得最终输出/>。

最后，对分割出图片的横竖线利用图像腐蚀膨胀，进一步减少分割误差，并达到连通线段的效果。

（2）基于LSN分割结果的图像配准

图像配准，将一个图像移动和变形尽可能地与另一个图像匹配的过程；其中，对图像进行移动和变形是通过单应性矩阵完成的，所以求出单应性矩阵的值，就能将图片进行正确的移动和变形；如公式5所示，单应矩阵H有8个自由度；公式6和公式7 描述了利用对应点的坐标位置计算单因矩阵的过程，因为单应性矩阵有8个自由度，所以至少需要4对对应点才能计算出单应性矩阵

公式5

公式6

公式7

其中，是单应性矩阵中的值，/>和/>分别是待配准图像和参考图像中的对应点的坐标位置。

在待配准图像和参考图像共选择四对对应点，并计算出单应性矩阵。在参考图像中，4个点的位置坐标是预先设置好的。在配准图片中，也就是LSN分割结果，需要根据横竖线的交点位置，找到表格的4个顶点，并将配准图像和参考图像的四个顶点一一对应，共得到4对对应点，用于计算单应性矩阵。然后根据公式6和公式7，利用计算出的单应性矩阵将配准图片进行转换，实现配准。

本发明在利用语义分割技术分割出横竖线时，设计了一种新的直线分割网络，即LSN，其以Unet作为主干，但LSN与Unet不同的是，在下采样层中加入平均池化模块并在下采样最后一层中加入基于横竖向平均池化的位置注意力机制，明显提升分割效果。

然后基于LSN的横竖线分割结果，找到横竖线的交点并确定4个顶点，及找到了待配准图片的4个顶点，最终和参考图片中预设好的4个顶点位置一一对应，形成四对对应点，然后根据这4对对应点计算其单应性矩阵，最终实现配准。基于LSN分割结果的配准方法明显优于现有方法即基于特征点匹配的图像配准和基于卷积神经网络的HomographyNet。

本发明的有益效果为：本发明针对包含表格数据的配准效果差的情况，主要是传统的基于特征点的图像配准效果和基于深度学习的HomographyNet配准效果不理想。本发明提供一种新的图像配准思路，即先利用语义分割技术分割出图像中的横竖线，然后根据分割出来的横竖线用来寻找表格的4个顶点，并与参考图像的4个顶点一一对应，然后找到单应性矩阵，从而实现配准。

下面结合附图和实施例对本发明作进一步说明。

附图说明

图1为本发明实施例 Image Registration图，其中待配准图片因为拍摄条件的不同，造成尺寸、角度等与参考图片不一致，利用图像配准技术对待配准图像进行配准，将其与参考图像对齐；

图2为本发明实施例LSN的平均池化部分图（LSN以Unet网络为主干，使之更适合的任务。在Unet的下采样的每一层中加入平均池化模块；

图3为本发明实施例平均池化模块结构图；

图4为本发明实施例Unet主干网络中使用2个3*3大小的卷积核提取特征图；

图5为本发明实施例LSN的位置注意机制图；

图6为本发明实施例两幅图像的对应点对图（a-LSN的分割结果，其是待配准的，b-参考图像，两幅图像之间的虚线连接相应点对）；

图7为本发明实施例使用单应性矩阵将待配准图像a配准为图片b；

图8为本发明实施例不动产权证图像分割结果。（a-“不动产权证”图像数据集中的一张图像，b-真实标签，c-LSN分割结果），其中，横线、竖线、背景是模型需要分割出的3种类别。

具体实施方式

以下对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

具体包括以下内容：

一、LSN的平均池化部分

在Unet下采样中，加入基于横竖向的平均池化模块，融合更多细节上的语义信息，如图2所示。其中，在Unet主干中提取特征，每一层采用2个尺寸为3*3的卷积核，如图4所示。在每个平均池化模块中，对Unet特征进行尺寸为1*5的横向平均池化，尺寸为5*1的竖向平均池化，此池化过程不改变特征图的大小，并将池化后的特征与Unet特征进行融合，如图3所示。平均池化模块图3的公式表达如公式2所示。

公式2

二、LSN的注意力机制部分

如图5所示，在注意力模块中，针对下采样最后一层的Unet特征进行尺寸为1*5的横向平均池化，尺寸为5*1的竖向平均池化，此池化过程不改变特征图的大小；最终，将横竖向的池化特征送入到空间的注意力运算；在空间注意力运算中，设计了与双重注意网络（DANet）中的空间注意力相似的注意力结构，将横向池化特征和竖向池化特征作为模块的输入，计算出空间注意力矩阵，如公式3所示；然后利用Unet特征图与注意力矩阵计算出最终的基于空间注意力的特征图，如公式4所示。

公式3

公式4

（2）基于LSN分割结果的图像配准

图像配准，将一个图像移动和变形尽可能地与另一个图像匹配的过程；其中，对图像进行移动和变形是通过单应性矩阵完成的，所以求出单应性矩阵的值，就能将图片进行正确的移动和变形。如公式5所示，单应矩阵H有8个自由度。公式6和公式7描述了利用对应点的坐标位置计算单因矩阵的过程，因为单应性矩阵有8个自由度，所以至少需要4对对应点才能计算出单应性矩阵。

公式5

公式6

公式7

在此实验中，在待配准图像和参考图像共选择四对对应点（如图6所示），并计算出单应性矩阵。在参考图像中，4个点的位置坐标是预先设置好的。在配准图片中，也就是LSN分割结果，需要根据横竖线的交点位置，找到表格的4个顶点，并将配准图像和参考图像的四个顶点一一对应，共得到4对对应点，用于计算单应性矩阵。然后根据公式6和公式7，利用计算出的单应性矩阵将配准图片进行转换，实现配准（如图7所示）。

试验例

1. 数据

数据集包含480幅不动产权证图像，大小从900*700到4600*3500不等。图片数据由当地财务公司提供。使用名为Labelme的标注工具对真实的横竖线和交点进行标注。在直线分割网络中，利用每个图像中标注的横线和竖线对模型进行训练和验证，并使用每个图像中的四个标注的交点来验证交点预测结果。

2.实验细节

LSN是使用Pytorch后端实现的。实验运行在nvidia1080ti上。LSN使用Adam优化器和交叉熵损失。网络学习率为0.001。对于LSN，将480幅图像随机分成训练集、验证集和测试集，其比例为6:2:2。然后利用测试集和验证集中的LSN预测结果得到表格的4个顶点，计算其单应性，与真实单应性进行比较。

3.评价指标

对于直线分割，如公式8所示，使用交并比（Intersection over Union ，IoU）作竖线分割和横线分割的度量，其计算两个集合的交集和并集的比率。

公式8

其中，是其真实类别为i类但预测为j类的像素数。/>是其真实类别为类j但预测为i类的像素数。/>是预测类别与真实类别相同的像素数。k是类别数（在的实验中k=3，是指横线、竖线和背景3个类别）。

然后利用LSN的预测结果，检测出4个表格顶点，结合参考图像的4个预设的顶点，计算出单应性矩阵。然后，在待配准图像中选定一个4顶点区域，利用计算出的单应性矩阵和真实单应性矩阵分别求得在参考图片中得4顶点映射区域，利用公式9计算两个映射区域4顶点的距离，即为误差。如公式9所示，Mean Average Corner Error 作为评价指标，描述了点之间的平均距离。

公式9

4. 实验效果

将LSN与其他语义分割方法在横线和竖线的分割上进行了比较。竖线分割的结果如表2所示，横线分割结果如表3所示，其中FCN-8s、Unet、Unet (withPAM，融入空间注意力机制)、DeepLab v3+均为经典语义分割网络，LSN为本发明提出的直线分割网络。结果表明，该方法在横线分割和竖线分割都取得了很好的效果。最后，根据分割出的横竖线定位交点位置，并找到与参考图像的对应点对，从而实现配准，配准效果如表4所示，体现了基于LSN分割结果的配准方式在表格数据上明显优于已有的方法，其中HomographyNet(Regression)为基于神经网络的图像配准，ORB+RANSAC是基于特征点的图像配准。

表2在分割竖线上，比较本发明和其他相关工作的效果

表3在分割横线上，比较本发明和其他相关工作的效果

利用LSN分割横线和竖线，通过考虑横竖向的特征实现高性能：基于Unet网络，其采用编解码结构，融合低层和高层信息。考虑表格横竖线的细长型特点，利用平均池化模块对Unet下采样的每一层进行横竖向的基于加权的特征融合。并在Unet下采样最后一层使用基于横竖向的注意力机制。以上的操作将提高信息利用率。考虑到对分割结果进行进一步提升，采用对分割结果进行腐蚀与膨胀，进一步消除误差，并连通相邻线段。图8展示了基于不动产权证图像数据的分割结果。

表4在图像配准上，比较本发明和其他相关工作的效果

。

Claims

1.一种基于直线分割的表格图像配准方法，其特征在于，包括直线分割网络LSN和基于LSN分割结果的图像配准两部分，具体内容如下：

（1）直线分割网络，包括LSN的平均池化部分和LSN的注意力机制部分两部分；将包含表格的原始图像输入直线分割网络；

所述LSN的平均池化部分，在Unet下采样的每一层中，加入基于横竖向的平均池化模块，融合更多细节上的语义信息；其中，在Unet主干中提取特征，Unet每一层采用2个尺寸为3*3的卷积核；在每个平均池化模块中，对Unet特征进行尺寸为1*5的横向平均池化，以及尺寸为5*1的竖向平均池化，池化过程不改变特征图的大小，并将池化后的特征与Unet特征进行融合；平均池化模块的公式表达如公式 2所示：

公式2：;

其中，将横向和竖向平均池化后的特征执行元素求和运算，然后将求和运算后的特征输入卷积层以生成新的特征；将Unet中下采样对应层的特征图输入到卷积层以生成新特征/>；最后，将P乘以一个标量参数/>；并将乘积结果和特征Z进行元素求和运算，从而得到最终的输出/>，其中，/>用于表示特征尺寸；

所述LSN的注意力机制部分，在注意力模块中，针对下采样最后一层的Unet特征进行尺寸为1*5的横向平均池化获得横向池化特征H′，以及尺寸为5*1的竖向平均池化获得竖向池化特征V，池化过程不改变特征图的大小；将横竖向的池化特征送入到空间的注意力运算；在空间注意力运算中，将横向池化特征和竖向池化特征作为模块的输入，计算出空间注意力矩阵；然后利用Unet特征图与注意力矩阵计算出最终的基于空间注意力的特征图：

对通过直线分割网络分割出图像的横竖线利用图像腐蚀膨胀，进一步减少分割误差，并达到连通线段的效果；

（2）基于LSN分割结果的图像配准

基于LSN的横竖线分割结果，找到横竖线的交点并确定4个顶点，即找到待配准图片的4个顶点，最终和参考图片中预设好的4个顶点位置一一对应，形成四对对应点，然后根据这4对对应点计算其单应性矩阵，最终实现配准；

图像配准，将一个图像移动和变形尽可能地与另一个图像匹配的过程；其中，对图像进行移动和变形是通过单应性矩阵完成的，所以求出单应性矩阵的值，就能将图像进行正确的移动和变形；如公式 5所示，单应性矩阵H″有8个自由度；公式 6和公式 7描述了利用对应点的坐标位置计算单应性矩阵的过程，因为单应性矩阵有8个自由度，所以至少需要4对对应点才能计算出单应性矩阵

公式 5：；

公式 6：；

公式 7：；

其中，、/>、/>、/>……、/>是单应性矩阵中的值，/>和/>分别是待配准图像和参考图像中的对应点的坐标位置。