CN112819871B - 一种基于直线分割的表格图像配准方法 - Google Patents

一种基于直线分割的表格图像配准方法 Download PDF

Info

Publication number
CN112819871B
CN112819871B CN202110228666.2A CN202110228666A CN112819871B CN 112819871 B CN112819871 B CN 112819871B CN 202110228666 A CN202110228666 A CN 202110228666A CN 112819871 B CN112819871 B CN 112819871B
Authority
CN
China
Prior art keywords
image
lsn
vertical
registration
unet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110228666.2A
Other languages
English (en)
Other versions
CN112819871A (zh
Inventor
彭雷
高嵩峰
傅湘玲
刘春生
王友军
徐朗朗
苗丛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huarong Rongtong Beijing Technology Co ltd
Original Assignee
Huarong Rongtong Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huarong Rongtong Beijing Technology Co ltd filed Critical Huarong Rongtong Beijing Technology Co ltd
Priority to CN202110228666.2A priority Critical patent/CN112819871B/zh
Publication of CN112819871A publication Critical patent/CN112819871A/zh
Application granted granted Critical
Publication of CN112819871B publication Critical patent/CN112819871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于直线分割的表格图像配准方法,包括直线分割网络和基于LSN分割结果的图像配准两部分,直线分割网络包括LSN的平均池化部分和LSN的注意力机制部分两部分,图像配准将一个图像移动和变形尽可能地与另一个图像匹配;本发明的优点在于:本发明针对包含表格数据的配准效果差的情况,主要是传统的基于特征点的图像配准效果和基于深度学习的HomographyNet配准效果不理想。本发明提供一种新的图像配准思路,即先利用语义分割技术分割出图像中的横竖线,然后根据分割出来的横竖线用来寻找表格的4个顶点,并与参考图像的4个顶点一一对应,然后找到单应性矩阵,从而实现配准。

Description

一种基于直线分割的表格图像配准方法
技术领域
本发明涉及一种表格图像配准方法,具体地说是一种基于直线分割的表格图像配准方法,属于表格图像配准方法领域。
背景技术
基于表格的内容提取是许多文档分析应用项目中的一项重要任务,其中,准确提取图像中的感兴趣区域是事关重要的。例如,针对不动产登记证类别中的每张图片,需要提取此类别的感兴趣区域(权利人、义务人、位置等关键要素信息所在图片区域)。提供一张包含表格的图片作为参考图像,其他图片作为待配准图像与参考图像进行配准,配准后的图片与参考图片有相同的内容分布,如图1所示。如此一来,便可以根据在参考图片中预先设置好的感兴趣区域,提取出其他图片对应位置上的感兴趣区域。其中,图像配准是指将一个图像移动和变形尽可能地与另一个图像匹配的过程。对图像进行移动和变形是通过单应性矩阵完成的,单应性矩阵是一个平面到另一个平面的投影矩阵。传统方法检测出参考图片和待配准的特征点,并对特征点进行关联匹配,然后根据匹配的特征点对计算单应性矩阵并变换待配准图像,最终实现配准。Deep Image Homography Estimation,也叫做HomographyNet,提出了一种用于单应性网络的卷积神经网络结构,其以两幅叠加灰度图像为输入,直接估计单应性矩阵的值。
传统基于特征点的图像配准方法(例如ORB+RANSAC,是一种特征点检测方法,然后对检测出的特征点进行关联匹配,完成图像配准),其配准效果依赖于特征点的检测数量和两张图片之间特征点的匹配情况。对于伴有噪声的包含表格的图片,其检测不到足够的特征,两张图片的特征匹配对少且错误率高,导致计算的单应性矩阵误差大,配准效果差。HomographyNet预测单应性矩阵的值依赖于全连接层,需要固定大小的输入与输出, 由于真实图片的尺寸是较大的,那么对于数据大小不一的图片首先需要调整图片的尺寸到统一值。那么预测的偏差将会在恢复到原图大小时,被成倍放大。Mean Average Corner Error作为评价指标,描述了点之间的平均距离,如公式 1所示。结果如表 1所示,在测试效果时,图片尺寸被调整为为128*128。
公式 1
其中,m是特征点数,是预测的特征点位置,/>是真实的特征点位置。
表1.用HomographyNet(Regressions)和ORB+RANSAC对表格数据进行图像配准的 结果
Mean Average Corner Error
HomographyNet(Regressions) 13.54
ORB+RANSAC 14.12
结果表明,这些方法对于此数据集是不可行的,对于HomographyNet来说,首先需要调整图片尺寸,偏差会在图像上采样至原图大小时放大,每个对应点的预测值较真实值有13.54甚至几倍的像素偏差,不能准确找到单应性矩阵,配准效果差。利用ORB+RANSAC的配准效果依赖于特征点的数量,且会出现特征点对错误匹配的情况,平均偏差为14.12,对于表格数据集配准效果差。
发明内容
本发明的目的在于,设计了一种基于直线分割的表格图像配准方法,以解决包含表格的图片配准效果不佳的问题。本发明设计实现了用于分割横、竖线的直线分割网络又称Line Segmentation Network,LSN,其抛弃全连接层,接受任意尺寸的图像,不用将图片的尺寸调整到统一值。LSN基于Unet模型,Unet为一种图像语义分割网络,其网络分为两个部分,左边部分负责特征提取,随着网络层加深,网络中的通道数逐渐变大,"图片"逐渐变小。右边的网络负责特征的还原,整个网络形如字母U,但LSN与Unet不同的是,LSN在下采样层中加入平均池化模块,并在下采样最后一层中加入基于横竖向平均池化的位置注意力机制。然后利用模型分割的横竖线找到交点位置,并找到参考图像和配准图像的4个交点对,从而计算单应性矩阵,最终准确地实现图像配准。
本发明的技术方案为:
一种基于直线分割的表格图像配准方法,采用直线分割网络LSN,用于分割图片中的横、竖线;LSN基于unet,根据表格横竖线的细长型特点;本发明在Unet的下采样层中加入横竖向平均池化模块,在下采样最后一层加入基于横竖向平均池化的位置注意力机制。然后基于LSN的横竖线分割结果寻找到表格交点位置,并找到参考图像和配准图像的4个交点对,从而计算单应性矩阵,最终准确地实现图像配准。
具体包括以下内容:
(1)直线分割网络又称Line Segmentation Network, LSN,用于分割图像中的横竖线;
直线分割网络是以Unet为主干,并融合基于横竖向的平均池化和基于横竖向平均池化的位置注意力机制。
一、 LSN的平均池化部分
在Unet下采样中,加入基于横竖向的平均池化模块,融合更多细节上的语义信息;其中,在Unet主干中提取特征,每一层采用2个尺寸为3*3的卷积核;在每个平均池化模块中,对Unet特征进行尺寸为1*5的横向平均池化,尺寸为5*1的竖向平均池化,此池化过程不改变特征图的大小,并将池化后的特征与Unet特征进行融合;平均池化模块的公式表达如公式2所示:
公式2
其中,将横、竖向平均池化后的特征执行元素求和运算,然后将融合后的特征输入卷积层以生成新的特征;将Unet中下采样的特征图输入到卷积层以生成新特征/>;最后,将P乘以一个标量参数/>,该标量参数可以学习分配权重;并将乘积结果和特征Z进行元素求和运算,从而得到最终的输出/>
二、LSN的注意力机制部分
在注意力模块中,针对下采样最后一层的Unet特征进行尺寸为1*5的横向平均池化,尺寸为5*1的竖向平均池化,此池化过程不改变特征图的大小;最终,将横竖向的池化特征送入到空间的注意力运算;在空间注意力运算中,设计了与双重注意网络DANet中的空间注意力相似的注意力结构,将横向池化特征和竖向池化特征作为模块的输入,计算出空间注意力矩阵,如公式3所示;然后利用Unet特征图与注意力矩阵计算出最终的基于空间注意力的特征图,如公式4所示。
公式3
其中分别是横向和竖向特征;将它们的形状调整为/>;然后对H和V的转置进行矩阵乘法,并应用softmax层计算空间注意图;/>测量/>位置上的水平特征对/>位置上的垂直特征的影响。
公式4
将Unet特征图输入到卷积层以生成新特征/>,在D和S的转置之间执行矩阵乘法,并将其形状调整为/>;最后,将乘积结果乘以一个标度参数α,该参数可以学习分配权重,并对特征U进行元素求和运算,以获得最终输出/>
最后,对分割出图片的横竖线利用图像腐蚀膨胀,进一步减少分割误差,并达到连通线段的效果。
(2)基于LSN分割结果的图像配准
图像配准,将一个图像移动和变形尽可能地与另一个图像匹配的过程;其中,对图像进行移动和变形是通过单应性矩阵完成的,所以求出单应性矩阵的值,就能将图片进行正确的移动和变形;如公式5所示,单应矩阵H有8个自由度;公式6和公式7 描述了利用对应点的坐标位置计算单因矩阵的过程,因为单应性矩阵有8个自由度,所以至少需要4对对应点才能计算出单应性矩阵
公式5
公式6
公式7
其中,是单应性矩阵中的值,/>和/>分别是待配准图像和参考图像中的对应点的坐标位置。
在待配准图像和参考图像共选择四对对应点,并计算出单应性矩阵。在参考图像中,4个点的位置坐标是预先设置好的。在配准图片中,也就是LSN分割结果,需要根据横竖线的交点位置,找到表格的4个顶点,并将配准图像和参考图像的四个顶点一一对应,共得到4对对应点,用于计算单应性矩阵。然后根据公式6和公式7,利用计算出的单应性矩阵将配准图片进行转换,实现配准。
本发明在利用语义分割技术分割出横竖线时,设计了一种新的直线分割网络,即LSN,其以Unet作为主干,但LSN与Unet不同的是,在下采样层中加入平均池化模块并在下采样最后一层中加入基于横竖向平均池化的位置注意力机制,明显提升分割效果。
然后基于LSN的横竖线分割结果,找到横竖线的交点并确定4个顶点,及找到了待配准图片的4个顶点,最终和参考图片中预设好的4个顶点位置一一对应,形成四对对应点,然后根据这4对对应点计算其单应性矩阵,最终实现配准。基于LSN分割结果的配准方法明显优于现有方法即基于特征点匹配的图像配准和基于卷积神经网络的HomographyNet。
本发明的有益效果为:本发明针对包含表格数据的配准效果差的情况,主要是传统的基于特征点的图像配准效果和基于深度学习的HomographyNet配准效果不理想。本发明提供一种新的图像配准思路,即先利用语义分割技术分割出图像中的横竖线,然后根据分割出来的横竖线用来寻找表格的4个顶点,并与参考图像的4个顶点一一对应,然后找到单应性矩阵,从而实现配准。
下面结合附图和实施例对本发明作进一步说明。
附图说明
图1为本发明实施例 Image Registration图,其中待配准图片因为拍摄条件的不同,造成尺寸、角度等与参考图片不一致,利用图像配准技术对待配准图像进行配准,将其与参考图像对齐;
图2为本发明实施例LSN的平均池化部分图(LSN以Unet网络为主干,使之更适合的任务。在Unet的下采样的每一层中加入平均池化模块;
图3为本发明实施例平均池化模块结构图;
图4为本发明实施例Unet主干网络中使用2个3*3大小的卷积核提取特征图;
图5为本发明实施例LSN的位置注意机制图;
图6为本发明实施例两幅图像的对应点对图(a-LSN的分割结果,其是待配准的,b-参考图像,两幅图像之间的虚线连接相应点对);
图7为本发明实施例使用单应性矩阵将待配准图像a配准为图片b;
图8为本发明实施例不动产权证图像分割结果。(a-“不动产权证”图像数据集中的一张图像,b-真实标签,c-LSN分割结果),其中,横线、竖线、背景是模型需要分割出的3种类别。
具体实施方式
以下对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
一种基于直线分割的表格图像配准方法,采用直线分割网络LSN,用于分割图片中的横、竖线;LSN基于unet,根据表格横竖线的细长型特点;本发明在Unet的下采样层中加入横竖向平均池化模块,在下采样最后一层加入基于横竖向平均池化的位置注意力机制。然后基于LSN的横竖线分割结果寻找到表格交点位置,并找到参考图像和配准图像的4个交点对,从而计算单应性矩阵,最终准确地实现图像配准。
具体包括以下内容:
(1)直线分割网络又称Line Segmentation Network, LSN,用于分割图像中的横竖线;
直线分割网络是以Unet为主干,并融合基于横竖向的平均池化和基于横竖向平均池化的位置注意力机制。
一、LSN的平均池化部分
在Unet下采样中,加入基于横竖向的平均池化模块,融合更多细节上的语义信息,如图2所示。其中,在Unet主干中提取特征,每一层采用2个尺寸为3*3的卷积核,如图4所示。在每个平均池化模块中,对Unet特征进行尺寸为1*5的横向平均池化,尺寸为5*1的竖向平均池化,此池化过程不改变特征图的大小,并将池化后的特征与Unet特征进行融合,如图3所示。平均池化模块图3的公式表达如公式2所示。
公式2
其中,将横、竖向平均池化后的特征执行元素求和运算,然后将融合后的特征输入卷积层以生成新的特征;将Unet中下采样的特征图输入到卷积层以生成新特征/>; 最后,将P乘以一个标量参数/>,该标量参数可以学习分配权重;并将乘积结果和特征Z进行元素求和运算,从而得到最终的输出/>
二、LSN的注意力机制部分
如图5所示,在注意力模块中,针对下采样最后一层的Unet特征进行尺寸为1*5的横向平均池化,尺寸为5*1的竖向平均池化,此池化过程不改变特征图的大小;最终,将横竖向的池化特征送入到空间的注意力运算;在空间注意力运算中,设计了与双重注意网络(DANet)中的空间注意力相似的注意力结构,将横向池化特征和竖向池化特征作为模块的输入,计算出空间注意力矩阵,如公式3所示;然后利用Unet特征图与注意力矩阵计算出最终的基于空间注意力的特征图,如公式4所示。
公式3
其中分别是横向和竖向特征;将它们的形状调整为/>;然后对H和V的转置进行矩阵乘法,并应用softmax层计算空间注意图;/>测量/>位置上的水平特征对/>位置上的垂直特征的影响。
公式4
将Unet特征图输入到卷积层以生成新特征/>,在D和S的转置之间执行矩阵乘法,并将其形状调整为/>;最后,将乘积结果乘以一个标度参数α,该参数可以学习分配权重,并对特征U进行元素求和运算,以获得最终输出/>
最后,对分割出图片的横竖线利用图像腐蚀膨胀,进一步减少分割误差,并达到连通线段的效果。
(2)基于LSN分割结果的图像配准
图像配准,将一个图像移动和变形尽可能地与另一个图像匹配的过程;其中,对图像进行移动和变形是通过单应性矩阵完成的,所以求出单应性矩阵的值,就能将图片进行正确的移动和变形。如公式5所示,单应矩阵H有8个自由度。公式6和公式7描述了利用对应点的坐标位置计算单因矩阵的过程,因为单应性矩阵有8个自由度,所以至少需要4对对应点才能计算出单应性矩阵。
公式5
公式6
公式7
其中,是单应性矩阵中的值,/>和/>分别是待配准图像和参考图像中的对应点的坐标位置。
在此实验中,在待配准图像和参考图像共选择四对对应点(如图6所示),并计算出单应性矩阵。在参考图像中,4个点的位置坐标是预先设置好的。在配准图片中,也就是LSN分割结果,需要根据横竖线的交点位置,找到表格的4个顶点,并将配准图像和参考图像的四个顶点一一对应,共得到4对对应点,用于计算单应性矩阵。然后根据公式6和公式7,利用计算出的单应性矩阵将配准图片进行转换,实现配准(如图7所示)。
本发明在利用语义分割技术分割出横竖线时,设计了一种新的直线分割网络,即LSN,其以Unet作为主干,但LSN与Unet不同的是,在下采样层中加入平均池化模块并在下采样最后一层中加入基于横竖向平均池化的位置注意力机制,明显提升分割效果。
然后基于LSN的横竖线分割结果,找到横竖线的交点并确定4个顶点,及找到了待配准图片的4个顶点,最终和参考图片中预设好的4个顶点位置一一对应,形成四对对应点,然后根据这4对对应点计算其单应性矩阵,最终实现配准。基于LSN分割结果的配准方法明显优于现有方法即基于特征点匹配的图像配准和基于卷积神经网络的HomographyNet。
试验例
1. 数据
数据集包含480幅不动产权证图像,大小从900*700到4600*3500不等。图片数据由当地财务公司提供。使用名为Labelme的标注工具对真实的横竖线和交点进行标注。在直线分割网络中,利用每个图像中标注的横线和竖线对模型进行训练和验证,并使用每个图像中的四个标注的交点来验证交点预测结果。
2.实验细节
LSN是使用Pytorch后端实现的。实验运行在nvidia1080ti上。LSN使用Adam优化器和交叉熵损失。网络学习率为0.001。对于LSN,将480幅图像随机分成训练集、验证集和测试集,其比例为6:2:2。然后利用测试集和验证集中的LSN预测结果得到表格的4个顶点,计算其单应性,与真实单应性进行比较。
3.评价指标
对于直线分割,如公式8所示,使用交并比(Intersection over Union ,IoU)作竖线分割和横线分割的度量,其计算两个集合的交集和并集的比率。
公式8
其中,是其真实类别为i类但预测为j类的像素数。/>是其真实类别为类j但预测为i类的像素数。/>是预测类别与真实类别相同的像素数。k是类别数(在的实验中k=3,是指横线、竖线和背景3个类别)。
然后利用LSN的预测结果,检测出4个表格顶点,结合参考图像的4个预设的顶点,计算出单应性矩阵。然后,在待配准图像中选定一个4顶点区域,利用计算出的单应性矩阵和真实单应性矩阵分别求得在参考图片中得4顶点映射区域,利用公式9计算两个映射区域4顶点的距离,即为误差。如公式9所示,Mean Average Corner Error 作为评价指标,描述了点之间的平均距离。
公式9
其中,m是特征点数,是预测的特征点位置,/>是真实的特征点位置。
4. 实验效果
将LSN与其他语义分割方法在横线和竖线的分割上进行了比较。竖线分割的结果如表2所示,横线分割结果如表3所示,其中FCN-8s、Unet、Unet (withPAM,融入空间注意力机制)、DeepLab v3+均为经典语义分割网络,LSN为本发明提出的直线分割网络。结果表明,该方法在横线分割和竖线分割都取得了很好的效果。最后,根据分割出的横竖线定位交点位置,并找到与参考图像的对应点对,从而实现配准,配准效果如表4所示,体现了基于LSN分割结果的配准方式在表格数据上明显优于已有的方法,其中HomographyNet(Regression)为基于神经网络的图像配准,ORB+RANSAC是基于特征点的图像配准。
表2在分割竖线上,比较本发明和其他相关工作的效果
表3在分割横线上,比较本发明和其他相关工作的效果
利用LSN分割横线和竖线,通过考虑横竖向的特征实现高性能:基于Unet网络,其采用编解码结构,融合低层和高层信息。考虑表格横竖线的细长型特点,利用平均池化模块对Unet下采样的每一层进行横竖向的基于加权的特征融合。并在Unet下采样最后一层使用基于横竖向的注意力机制。以上的操作将提高信息利用率。考虑到对分割结果进行进一步提升,采用对分割结果进行腐蚀与膨胀,进一步消除误差,并连通相邻线段。图8展示了基于不动产权证图像数据的分割结果。
表4在图像配准上,比较本发明和其他相关工作的效果

Claims (1)

1.一种基于直线分割的表格图像配准方法,其特征在于,包括直线分割网络LSN和基于LSN分割结果的图像配准两部分,具体内容如下:
(1)直线分割网络,包括LSN的平均池化部分和LSN的注意力机制部分两部分;将包含表格的原始图像输入直线分割网络;
所述LSN的平均池化部分,在Unet下采样的每一层中,加入基于横竖向的平均池化模块,融合更多细节上的语义信息;其中,在Unet主干中提取特征,Unet每一层采用2个尺寸为3*3的卷积核;在每个平均池化模块中,对Unet特征进行尺寸为1*5的横向平均池化,以及尺寸为5*1的竖向平均池化,池化过程不改变特征图的大小,并将池化后的特征与Unet特征进行融合;平均池化模块的公式表达如公式 2所示:
公式2:;
其中,将横向和竖向平均池化后的特征执行元素求和运算,然后将求和运算后的特征输入卷积层以生成新的特征;将Unet中下采样对应层的特征图输入到卷积层以生成新特征/>; 最后,将P乘以一个标量参数/>;并将乘积结果和特征Z进行元素求和运算,从而得到最终的输出/>,其中,/>用于表示特征尺寸;
所述LSN的注意力机制部分,在注意力模块中,针对下采样最后一层的Unet特征进行尺寸为1*5的横向平均池化获得横向池化特征H′,以及尺寸为5*1的竖向平均池化获得竖向池化特征V,池化过程不改变特征图的大小;将横竖向的池化特征送入到空间的注意力运算;在空间注意力运算中,将横向池化特征和竖向池化特征作为模块的输入,计算出空间注意力矩阵;然后利用Unet特征图与注意力矩阵计算出最终的基于空间注意力的特征图:
对通过直线分割网络分割出图像的横竖线利用图像腐蚀膨胀,进一步减少分割误差,并达到连通线段的效果;
(2)基于LSN分割结果的图像配准
基于LSN的横竖线分割结果,找到横竖线的交点并确定4个顶点,即找到待配准图片的4个顶点,最终和参考图片中预设好的4个顶点位置一一对应,形成四对对应点,然后根据这4对对应点计算其单应性矩阵,最终实现配准;
图像配准,将一个图像移动和变形尽可能地与另一个图像匹配的过程;其中,对图像进行移动和变形是通过单应性矩阵完成的,所以求出单应性矩阵的值,就能将图像进行正确的移动和变形;如公式 5所示,单应性矩阵H″有8个自由度;公式 6和公式 7描述了利用对应点的坐标位置计算单应性矩阵的过程,因为单应性矩阵有8个自由度,所以至少需要4对对应点才能计算出单应性矩阵
公式 5:
公式 6:
公式 7:
其中,、/>、/>、/>……、/>是单应性矩阵中的值,/>和/>分别是待配准图像和参考图像中的对应点的坐标位置。
CN202110228666.2A 2021-03-02 2021-03-02 一种基于直线分割的表格图像配准方法 Active CN112819871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110228666.2A CN112819871B (zh) 2021-03-02 2021-03-02 一种基于直线分割的表格图像配准方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110228666.2A CN112819871B (zh) 2021-03-02 2021-03-02 一种基于直线分割的表格图像配准方法

Publications (2)

Publication Number Publication Date
CN112819871A CN112819871A (zh) 2021-05-18
CN112819871B true CN112819871B (zh) 2023-08-18

Family

ID=75862632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110228666.2A Active CN112819871B (zh) 2021-03-02 2021-03-02 一种基于直线分割的表格图像配准方法

Country Status (1)

Country Link
CN (1) CN112819871B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990165B (zh) * 2021-05-19 2021-08-06 北京欧应信息技术有限公司 用于表格识别的方法、电子设备和存储介质
CN113344876B (zh) * 2021-06-08 2023-05-12 安徽大学 一种ct和cbct间可变形配准方法
CN115331013B (zh) * 2022-10-17 2023-02-24 杭州恒生聚源信息技术有限公司 折线图的数据提取方法及处理设备
CN115760807B (zh) * 2022-11-24 2024-01-19 北京至真健康科技有限公司 一种视网膜眼底图像配准方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN112017192A (zh) * 2020-08-13 2020-12-01 杭州师范大学 基于改进U-Net网络的腺体细胞图像分割方法及系统
CN112150425A (zh) * 2020-09-16 2020-12-29 北京工业大学 一种基于神经网络的无监督血管内超声图像配准方法
CN112418176A (zh) * 2020-12-09 2021-02-26 江西师范大学 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11449759B2 (en) * 2018-01-03 2022-09-20 Siemens Heathcare Gmbh Medical imaging diffeomorphic registration based on machine learning
GB2585645B (en) * 2019-07-08 2024-04-17 Toshiba Kk Computer vision method and system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN112017192A (zh) * 2020-08-13 2020-12-01 杭州师范大学 基于改进U-Net网络的腺体细胞图像分割方法及系统
CN112150425A (zh) * 2020-09-16 2020-12-29 北京工业大学 一种基于神经网络的无监督血管内超声图像配准方法
CN112418176A (zh) * 2020-12-09 2021-02-26 江西师范大学 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A-PSPNet: 一种融合注意力机制的PSPNet 图像语义分割模型;高丹等;《中国电子科学研究院学报》;第15卷(第6期);518-523 *

Also Published As

Publication number Publication date
CN112819871A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112819871B (zh) 一种基于直线分割的表格图像配准方法
CN110427937B (zh) 一种基于深度学习的倾斜车牌矫正和不定长车牌识别方法
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN108427924B (zh) 一种基于旋转敏感特征的文本回归检测方法
CN103310453B (zh) 一种基于子图像角点特征的快速图像配准方法
CN111709909A (zh) 基于深度学习的通用印刷缺陷检测方法及其模型
CN111738113B (zh) 基于双注意力机制与语义约束的高分辨遥感图像的道路提取方法
CN111461113B (zh) 一种基于变形平面物体检测网络的大角度车牌检测方法
CN109753959B (zh) 基于自适应多尺度特征融合的路面交通标志检测方法
CN109712071B (zh) 基于航迹约束的无人机图像拼接与定位方法
CN105224937A (zh) 基于人体部件位置约束的细粒度语义色彩行人重识别方法
CN113343822B (zh) 一种基于3d卷积的光场显著性目标检测方法
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN113516693B (zh) 一种快速通用的图像配准方法
CN110909615A (zh) 基于多尺度输入混合感知神经网络的目标检测方法
CN114140623A (zh) 一种图像特征点提取方法及系统
CN106776979A (zh) 基于遥感的矢量电子地图质量提升自动化方法
CN110851627B (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN113628261B (zh) 一种电力巡检场景下的红外与可见光图像配准方法
CN101000651B (zh) 一种多源纹理图像的识别方法
CN107273793A (zh) 一种用于人脸识别的特征提取方法
CN108537810B (zh) 一种改进的Zernike矩亚像素边缘检测方法
WO2024011873A1 (zh) 目标检测方法、装置、电子设备及存储介质
CN113160291B (zh) 一种基于图像配准的变化检测方法
CN116189139A (zh) 一种基于Transformer的交通标志检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant