CN116824611B - 表格结构识别方法、电子设备、计算机可读存储介质 - Google Patents
表格结构识别方法、电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN116824611B CN116824611B CN202311083807.1A CN202311083807A CN116824611B CN 116824611 B CN116824611 B CN 116824611B CN 202311083807 A CN202311083807 A CN 202311083807A CN 116824611 B CN116824611 B CN 116824611B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- characteristic
- convolution layer
- characteristic image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000011176 pooling Methods 0.000 claims description 76
- 230000004927 fusion Effects 0.000 claims description 72
- 238000012545 processing Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 10
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18105—Extraction of features or characteristics of the image related to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种表格结构识别方法、电子设备、计算机可读存储介质,方法包括根据对抗生成网络模型补全待识别表格图像的表格线,得到表格线特征图像;二值化处理表格线特征图像;颜色填充表格线目标像素点,得到第一目标表格图像,表格线目标像素点为二值化后的图像的表格线参考像素点在所述待识别表格图像中的对应像素点;利用目标检测模型对第一目标表格图像进行目标检测,得到目标矩形框,并将目标矩形框映射在待识别表格图像上。本申请利用对抗生成网络模型补全表格图像的表格线,避免图像表格线缺失,再通过目标检测模型对补全表格线的表格图像进行表格结构识别,相比仅通过目标检测算法识别表格结构的方案,提升识别表格结构的准确率。
Description
技术领域
本申请涉及但不限于图像识别技术领域,尤其涉及一种表格结构识别方法、电子设备、计算机可读存储介质。
背景技术
表格无处不在,从科学期刊、论文、网站和报纸,到我们在超市购买的物品,检测并识别其结构在自动处理文档技术中至关重要。随着票据、名单等带有表单、表格的文件被广泛应用,将纸质文件转化成电子数据并保存管理成为了很多企业的必然工作。传统人工录入的方式效率低、差错多、流程长,如果能通过技术处理,实现表格图像片的结构化展现,则可以很大程度降低成本,提高效率以及使用体验。但是,目前的表格结构化识别通常是直接使用目标检测算法实现,但由于表格本身特殊特征,比如在表格存在部分表格线缺失、表格线较细等情况下,直接使用目标检测算法识别表格结构,得到的识别结果准确性较低。
发明内容
本申请实施例提供了一种表格结构识别方法、电子设备、计算机可读存储介质,能够有效提升识别表格结构的准确率。
第一方面,本申请实施例提供了表格结构识别方法,包括:
获取待识别表格图像,根据预先训练好的对抗生成网络模型补全所述待识别表格图像的表格线,得到表格线特征图像;
对所述表格线特征图像进行二值化处理,得到表格线二值化图像,所述表格线二值化图像中的非零值为表格线参考像素点所在的位置;
根据预设颜色值对表格线目标像素点进行颜色填充,得到第一目标表格图像,其中,所述表格线目标像素点为所述表格线参考像素点在所述待识别表格图像中的对应像素点;
利用预先训练好的目标检测模型对所述第一目标表格图像进行目标检测,得到目标矩形框,并将所述目标矩形框映射至所述待识别表格图像,得到第二目标表格图像。
在一些实施例中,所述对抗生成网络模型根据以下步骤训练得到:
利用opencv函数在多个第一初始表格图像上绘制矩形线,得到多个第一中间表格图像;
删除各个所述第一中间表格图像的所述矩形线中穿过合并单元格的线条图像,得到模型训练图像集;
根据所述模型训练图像集训练所述对抗生成网络模型。
在一些实施例中,所述对抗生成网络模型包括VGG-19网络、第一卷积层、第二卷积层、第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、第五空洞卷积层和第六空洞卷积层,所述根据预先训练好的对抗生成网络模型补全所述待识别表格图像的表格线,得到表格线特征图像,包括:
将所述待识别表格图像输入至所述VGG-19网络,获取所述VGG-19网络中排序最前的3个网络层输出的初始特征图像;
确定所述待识别表格图像的第一参考图像尺寸,并将所述初始特征图像的图像尺寸调整至与所述第一参考图像尺寸相同;
按照预设的通道方向将调整后的初始特征图像与所述待识别表格图像进行叠加处理,并对叠加后的特征图像进行卷积处理,得到待处理特征图像,将所述待处理特征图像输入至所述第一卷积层进行卷积处理,得到第一特征图像;
将所述第一特征图像输入至所述第二卷积层进行卷积处理,得到第二特征图像;
对所述第一特征图像与所述第二特征图像进行特征融合,得到第一融合特征图像;
将所述第一融合特征图像依次输入至所述第一空洞卷积层和第二空洞卷积层,得到第三特征图像和第四特征图像;
对所述第一融合特征图像、所述第三特征图像和所述第四特征图像进行特征融合,得到第二融合特征图像;
将所述第二融合特征图像依次输入至所述第三空洞卷积层和第四空洞卷积层,得到第五特征图像和第六特征图像;
对所述第二融合特征图像、所述第五特征图像和所述第六特征图像进行特征融合,得到第三融合特征图像;
将所述第三融合特征图像依次输入至所述第五空洞卷积层和第六空洞卷积层,得到第七特征图像和第八特征图像;
对所述第二融合特征图像、第三融合特征图像、所述第七特征图像和所述第八特征图像进行特征融合,得到第四融合特征图像;
对所述第四融合特征图像进行特征金字塔池化处理,得到所述待识别表格图像对应的表格线特征图像。
在一些实施例中,所述对抗生成网络模型还包括第一全连接层和第二全连接层,所述第一全连接层与所述第二全连接层依次连接,所述对所述第一特征图像与所述第二特征图像进行特征融合,得到第一融合特征图像,包括:
按照预设的通道数量将所述第一特征图像和所述第二特征图像进行叠加处理,得到第九特征图像;
对所述第九特征图像进行全局平均池化操作,得到第十特征图像;
将所述第十特征图像输入至依次连接的所述第一全连接层和所述第二全连接层,得到第十一特征图像;
对所述第十一特征图像与所述第九特征图像进行相乘处理,得到所述第一融合特征图像。
在一些实施例中,所述对抗生成网络模型还包括第一平均池化层、第二平均池化层、第三平均池化层、第四平均池化层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层,其中,所述第二平均池化层的池大小和步长均为所述第一平均池化层的池大小和步长的两倍,所述第三平均池化层的池大小和步长均为所述第二平均池化层的池大小和步长的两倍,所述第四平均池化层的池大小和步长均为所述第三平均池化层的池大小和步长的两倍,所述对所述第四融合特征图像进行特征金字塔池化处理,得到所述表格线特征图像,包括:
将所述第四融合特征图像输入至依次连接的所述第一平均池化层和所述第三卷积层,得到第十二特征图像;
将所述第十二特征图像输入至依次连接的所述第二平均池化层和所述第四卷积层,得到第十三特征图像;
将所述第十三特征图像输入至依次连接的所述第三平均池化层和所述第五卷积层,得到第十四特征图像;
将所述第十四特征图像输入至依次连接的所述第四平均池化层和所述第六卷积层,得到第十五特征图像;
确定所述第四融合特征图像的第二参考图像尺寸,并将所述第十二特征图像、所述第十三特征图像、所述第十四特征图像和所述第十五特征图像的图像尺寸均调整至与所述第二参考图像尺寸相同;
按照所述通道方向将调整尺寸后的第十二特征图像、第十三特征图像、第十四特征图像和第十五特征图像进行叠加处理,得到第十六特征图像,并将所述第十六特征图像输入至依次连接的所述第七卷积层和所述第八卷积层,得到所述表格线特征图像。
在一些实施例中,所述对所述表格线特征图像进行二值化处理,得到表格线二值化图像,包括:
确定所述表格线特征图像对应的表格线像素点的颜色值;
根据预设的颜色值阈值对各个所述表格线像素点进行二值化处理,当所述表格线像素点的颜色值大于所述颜色值阈值,将颜色值大于所述颜色值阈值对应的表格线像素点的像素值确定为255;
或者,
当所述表格线像素点的颜色值小于或等于所述颜色值阈值,将颜色值小于或等于所述颜色值阈值对应的表格线像素点的像素值确定为0。
在一些实施例中,在所述待识别表格图像为视频流的情况下,在根据预先训练好的对抗生成网络模型补全所述待识别表格图像的表格线之前,所述方法还包括:
对所述视频流进行解码处理,得到第二初始待识别表格图像,并确定所述第二初始待识别表格图像的第一像素宽度值和第一像素高度值;
分别在所述第一像素宽度值和所述第一像素高度值填充第一预设像素值,得到第二中间表格图像;
对所述第二中间表格图像进行图像归一化处理,得到归一化后的所述待识别表格图像。
在一些实施例中,所述目标矩形框的数量为多个,所述将所述目标矩形框映射至所述待识别表格图像,得到第二目标表格图像,包括:
确定各个所述目标矩形框对应的第一矩形框坐标值;
确定所述归一化后的所述待识别表格图像的第二像素宽度值和第二像素高度值;
计算所述第一像素宽度值与所述第二像素宽度值的比值,得到第一系数,计算所述第一像素高度值与所述第二像素高度值的比值,得到第二系数;
依次根据各个所述第一矩形框坐标值、所述第一系数、所述第二系数和第二预设像素值计算各个第二矩形框坐标值,其中,所述第二矩形框坐标值为符合所述待识别表格图像的图像尺寸的原始表格矩形框对应的坐标值;
将各个所述第二矩形框坐标值对应的各个所述原始表格矩形框映射在所述待识别表格图像,得到所述第二目标表格图像。
第二方面,本申请实施例提供了一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如第一方面所述的表格结构识别方法。
第三方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的表格结构识别方法。
本申请实施例提供了一种表格结构识别方法、电子设备、计算机可读存储介质,方法包括获取待识别表格图像,根据预先训练好的对抗生成网络模型补全所述待识别表格图像的表格线,得到表格线特征图像;对所述表格线特征图像进行二值化处理,得到表格线二值化图像,所述表格线二值化图像中的非零值为表格线参考像素点所在的位置;根据预设颜色值对表格线目标像素点进行颜色填充,得到第一目标表格图像,其中,所述表格线目标像素点为所述表格线参考像素点在所述待识别表格图像中的对应像素点;利用预先训练好的目标检测模型对所述第一目标表格图像进行目标检测,得到目标矩形框,并将所述目标矩形框映射至所述待识别表格图像,得到第二目标表格图像。根据本申请实施例提供的方案,利用对抗生成网络模型补全待识别表格图像的表格线,避免表格图像的表格线缺失,再进一步通过目标检测模型对补全表格线的表格图像进行表格结构识别,相较于仅通过目标检测算法识别表格结构的方案,有效提升识别表格结构的准确率。
附图说明
图1是本申请一个实施例提供的表格结构识别方法的步骤流程图;
图2是本申请另一个实施例提供的训练对抗生成网络模型的步骤流程图;
图3是本申请另一个实施例提供的得到表格线特征图的步骤流程图;
图4是本申请另一个实施例提供的得到第一融合特征图的步骤流程图;
图5是本申请另一个实施例提供的对第四融合特征图进行特征金字塔池化处理的步骤流程图;
图6是本申请另一个实施例提供的得到表格线二值化图像的步骤流程图;
图7是本申请另一个实施例提供的对待识别表格图像进行图像预处理的步骤流程图;
图8是本申请另一个实施例提供的得到第二目标表格图像的步骤流程图;
图9是本申请另一个实施例提供的电子设备的结构图;
图10是本申请另一个实施例提供的待识别表格图像的示意图;
图11是本申请另一个实施例提供的图像预处理后的待识别表格图像的示意图;
图12是本申请另一个实施例提供的表格线二值化图像的示意图;
图13是本申请另一个实施例提供的颜色填充后的第一目标表格图像的示意图;
图14是本申请另一个实施例提供的对第一目标表格图像进行目标检测后的效果示意图;
图15是本申请另一个实施例提供的将目标矩形框映射至待识别表格图像的效果示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
可以理解的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
表格无处不在,从科学期刊、论文、网站和报纸,到我们在超市购买的物品,检测并识别其结构在自动处理文档技术中至关重要。随着票据、名单等带有表单、表格的文件被广泛应用,将纸质文件转化成电子数据并保存管理成为了很多企业的必然工作。传统人工录入的方式效率低、差错多、流程长,如果能通过技术处理,实现表格图像片的结构化展现,则可以很大程度降低成本,提高效率以及使用体验。但是,目前的表格结构化识别通常是直接使用目标检测算法实现,但由于表格本身特殊特征,比如在表格存在部分表格线缺失、表格线较细等情况下,直接使用目标检测算法识别表格结构,得到的识别结果准确性较低。
为解决上述存在的问题,本申请实施例提供了一种表格结构识别方法、电子设备、计算机可读存储介质,方法包括获取待识别表格图像,根据预先训练好的对抗生成网络模型补全所述待识别表格图像的表格线,得到表格线特征图像;对所述表格线特征图像进行二值化处理,得到表格线二值化图像,所述表格线二值化图像中的非零值为表格线参考像素点所在的位置;根据预设颜色值对表格线目标像素点进行颜色填充,得到第一目标表格图像,其中,所述表格线目标像素点为所述表格线参考像素点在所述待识别表格图像中的对应像素点;利用预先训练好的目标检测模型对所述第一目标表格图像进行目标检测,得到目标矩形框,并将所述目标矩形框映射至所述待识别表格图像,得到第二目标表格图像。根据本申请实施例提供的方案,利用对抗生成网络模型补全待识别表格图像的表格线,避免表格图像的表格线缺失,再进一步通过目标检测模型对补全表格线的表格图像进行表格结构识别,相较于仅通过目标检测算法识别表格结构的方案,有效提升识别表格结构的准确率。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,图1是本申请一个实施例提供的表格结构识别方法的步骤流程图,本申请实施例提供了一种表格结构识别方法,该方法包括但不限于有以下步骤:
步骤S110,获取待识别表格图像,根据预先训练好的对抗生成网络模型补全待识别表格图像的表格线,得到表格线特征图像。
可以理解的是,由于现在的表格结构识别算法,大多数是直接使用目标检测算法,但由于表格本身具有的特殊特征,比如部分表格线缺失、表格线很细等,待识别表格图像可以如图10所示,存在部分表格线较细的情况,如果直接使用目标检测算法进行表格结构识别,得到的检测结果准确度较低。基于此,本申请实施例在对待识别表格图像进行表格结构识别之前,采用预先训练好的对抗生成网络模型补全待识别表格图像的表格线,得到表格线特征图像,有效避免了待识别表格图像的表格线缺失或者表格线较细等情况。
步骤S120,对表格线特征图像进行二值化处理,得到表格线二值化图像,表格线二值化图像中的非零值为表格线参考像素点所在的位置。
可以理解的是,对补全表格线后的表格线特征图像进行二值化处理,得到的表格线二值化图像如图12所示,表格线二值化图像的图像对比度较高,并且,表格线二值化图像中的非零值为表格线参考像素点所在的位置,即是说表格线二值化图像只有2种颜色,其中一种是非零值对应的表格线,能够很好的凸显该图像的表格线特征,为后续的表格结构检测提供有效的数据基础,并且二值化处理能够降低表格线特征图像的图像数据量,从而加速后续图像处理的速度,有效提升识别表格结构的效率。
步骤S130,根据预设颜色值对表格线目标像素点进行颜色填充,得到第一目标表格图像,其中,表格线目标像素点为表格线参考像素点在待识别表格图像中的对应像素点。
需要说明的是,预设颜色值包括RGB值,本申请实施例并不限制对表格线目标像素点进行颜色填充的具体预设颜色值,可以是红色,对应的预设颜色值为255、0、0,还可以是蓝色或黄色等,本领域技术人员根据实际需求选用即可。可以理解的是,根据预设颜色值对表格线目标像素点进行颜色填充,得到的第一目标表格图像如图13所示,第一目标表格图像的表格线特征更显著,能够增强表格线特征与第一目标表格图像中其他图像特征的对比度,为后续的表格结构检测提供有效的数据基础,提升表格结构检测的准确率。
步骤S140,利用预先训练好的目标检测模型对第一目标表格图像进行目标检测,得到目标矩形框,并将目标矩形框映射至待识别表格图像,得到第二目标表格图像。
需要说明的是,本申请实施例并不限制具体的目标检测模型,可以是yolov5模型或RetinaNet模型等,本领域技术人员根据实际需求进行选用即可。
可以理解的是,由于第一目标表格图像由对待识别表格图像进行表格线补全,以及结合对补全后的表格线特征图像进行二值化的特征得到,因此,利用预先训练好的目标检测模型对第一目标表格图像进行目标检测,得到如图14所示的第一目标表格图像对应的目标矩形框,在获取目标矩形框之后,将该目标矩形框映射至待识别表格图像,得到第二目标表格图像,以完成表格结构识别,映射后的待识别表格图像如图15所示,相较于现有仅通过目标检测算法识别表格结构的方案得到的表格结构识别结果,准确率更高,需要说明的是,本申请实施例并不限制目标矩形框的具体种类,可以包括表格矩形框、行矩形框、列矩形框和合并单元格矩形框等,本领域技术人员可以根据实际需求选定即可。
参考图2,在一实施例中,对抗生成网络模型的训练步骤包括但不限于有以下步骤:
步骤S210,利用opencv函数在多个第一初始表格图像上绘制矩形线,得到多个第一中间表格图像;
步骤S220,删除各个第一中间表格图像的矩形线中穿过合并单元格的线条图像,得到模型训练图像集;
步骤S230,根据模型训练图像集训练对抗生成网络模型。
可以理解的是,由于对抗生成网络模型在本申请的应用场景下,用于重新绘制待识别表格图像中的表格线,因此需要制作满足绘制表格线需求的模型训练图像集训练对抗生成网络模型,以提高对抗生成网络模型补全待识别表格图像中的表格线的准确性。
本申请实施例的训练对抗生成网络模型的步骤如下:利用opencv函数在多个第一初始表格图像上绘制矩形线,得到多个第一中间表格图像I0,删除各个第一中间表格图像I0的矩形线中穿过合并单元格的线条图像,得到模型训练图像集I1,最后根据该模型训练图像集I1训练对抗生成网络模型,在此不对矩形线的线宽值以及颜色值RGB做限制,线宽值可以设置为2,颜色值RGB可以为(255,255,255),同时也不限制第一初始表格图像的图像尺寸,可以为通道数为3,图像尺寸为w×h的分辨率图像。
需要说明的是,在目标检测模型为yolov5模型的情况下,可以将对抗生成网络模型的模型训练图像集对应的线条颜色值RGB设置为红色,即(255,0,0),得到yolov5模型训练图像集,利用yolov5模型训练图像集训练yolov5模型。
另外,在一些实施例中,对抗生成网络模型包括VGG-19网络、第一卷积层、第二卷积层、第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、第五空洞卷积层和第六空洞卷积层,参照图3,图1所示的步骤S110包括但不限于有以下步骤:
步骤S301,将待识别表格图像输入至VGG-19网络,获取VGG-19网络中排序最前的3个网络层输出的初始特征图像;
步骤S302,确定待识别表格图像的第一参考图像尺寸,并将初始特征图像的图像尺寸调整至与第一参考图像尺寸相同;
步骤S303,按照预设的通道方向将调整后的初始特征图像与待识别表格图像进行叠加处理,并对叠加后的特征图像进行卷积处理,得到待处理特征图像,将待处理特征图像输入至第一卷积层进行卷积处理,得到第一特征图像;
步骤S304,将第一特征图像输入至第二卷积层进行卷积处理,得到第二特征图像;
步骤S305,对第一特征图像与第二特征图像进行特征融合,得到第一融合特征图像;
步骤S306,将第一融合特征图像依次输入至第一空洞卷积层和第二空洞卷积层,得到第三特征图像和第四特征图像;
步骤S307,对第一融合特征图像、第三特征图像和第四特征图像进行特征融合,得到第二融合特征图像;
步骤S308,将第二融合特征图像依次输入至第三空洞卷积层和第四空洞卷积层,得到第五特征图像和第六特征图像;
步骤S309,对第二融合特征图像、第五特征图像和第六特征图像进行特征融合,得到第三融合特征图像;
步骤S310,将第三融合特征图像依次输入至第五空洞卷积层和第六空洞卷积层,得到第七特征图像和第八特征图像;
步骤S311,对第二融合特征图像、第三融合特征图像、第七特征图像和第八特征图像进行特征融合,得到第四融合特征图像;
步骤S312,对第四融合特征图像进行特征金字塔池化处理,得到表格线特征图像。
可以理解的是,本申请实施例并不限制对抗生成网络模型的具体结构,可以是包括VGG-19网络、第一卷积层、第二卷积层、第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、第五空洞卷积层和第六空洞卷积层。
基于上述的网络结构,本实施例根据对抗生成网络模型补全待识别表格图像的表格线,得到表格线特征图像的具体步骤可以如下:将待识别表格图像输入至VGG-19网络,获取VGG-19网络中排序最前的3个网络层输出的初始特征图像;确定待识别表格图像的第一参考图像尺寸,并将初始特征图像的图像尺寸调整至与第一参考图像尺寸相同;按照预设的通道方向将调整后的初始特征图像与待识别表格图像进行叠加处理,并对叠加后的特征图像进行卷积核尺寸为[1,1]的卷积处理,得到待处理特征图像,将待处理特征图像输入至第一卷积层进行卷积处理,得到第一特征图像,其中,该第一卷积层的卷积核尺寸为[1,1];将第一特征图像输入至第二卷积层进行卷积处理,得到第二特征图像,其中,该第二卷积层的卷积核尺寸为[3,3];对第一特征图像与第二特征图像进行特征融合,得到第一融合特征图像;将第一融合特征图像依次输入至第一空洞卷积层和第二空洞卷积层,得到第三特征图像和第四特征图像,其中,第一空洞卷积层和第二空洞卷积层的空洞卷积系数rate先后分别取2、4;对第一融合特征图像、第三特征图像和第四特征图像进行特征融合,得到第二融合特征图像;将第二融合特征图像依次输入至第三空洞卷积层和第四空洞卷积层,得到第五特征图像和第六特征图像,其中,第三空洞卷积层和第四空洞卷积层的空洞卷积系数rate先后分别取8、16;对第二融合特征图像、第五特征图像和第六特征图像进行特征融合,得到第三融合特征图像;将第三融合特征图像依次输入至第五空洞卷积层和第六空洞卷积层,得到第七特征图像和第八特征图像,其中,第五空洞卷积层和第六空洞卷积层的空洞卷积系数rate先后分别取32、64;对第二融合特征图像、第三融合特征图像、第七特征图像和第八特征图像进行特征融合,得到第四融合特征图像;对第四融合特征图像进行特征金字塔池化处理,得到表格线特征图像。
需要说明的是,本申请实施例使用空洞卷积代替下采样操作,空洞卷积扩大感受也能保留更多特征信息,并使用通道注意力机制进行特征融合,使得特征图像中更有用特征得以保留,进而提升模型补全表格线的准确性。
另外,在一些实施例中,对抗生成网络模型还包括第一全连接层和第二全连接层,第一全连接层与第二全连接层依次连接,参照图4,图3步骤S305包括但不限于有以下步骤:
步骤S410,按照预设的通道数量将第一特征图像和第二特征图像进行叠加处理,得到第九特征图像;
步骤S420,对第九特征图像进行全局平均池化操作,得到第十特征图像;
步骤S430,将第十特征图像输入至依次连接的第一全连接层和第二全连接层,得到第十一特征图像;
步骤S440,对第十一特征图像与第九特征图像进行相乘处理,得到第一融合特征图像。
需要说明的是,本申请实施例并不限制图3实施例中的各个图像特征融合步骤,包括步骤S305、步骤S307、步骤S309和步骤S311的具体操作,针对步骤S305的图像特征融合步骤具体可以如下:本实施例的对抗生成网络模型还可以包括第一全连接层和第二全连接层,第一全连接层与第二全连接层依次连接,基于此结构,按照预设的通道数量将第一特征图像和第二特征图像进行叠加处理,得到第九特征图像,对第九特征图像进行全局平均池化操作,得到第十特征图像,将第十特征图像输入至依次连接的第一全连接层和第二全连接层,使得第十特征图像的通道数先降为channel/8,然后再恢复为channel,得到第十一特征图像,对第十一特征图像与第九特征图像进行相乘处理,得到第一融合特征图像。步骤S307、步骤S309和步骤S311对应的图像特征融合步骤的原理与图4实施例相同,在此不多做赘述。
另外,在一些实施例中,对抗生成网络模型还包括第一平均池化层、第二平均池化层、第三平均池化层、第四平均池化层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层,其中,第二平均池化层的池大小和步长均为第一平均池化层的池大小和步长的两倍,第三平均池化层的池大小和步长均为第二平均池化层的池大小和步长的两倍,第四平均池化层的池大小和步长均为第三平均池化层的池大小和步长的两倍,参照图5,图3步骤S312包括但不限于有以下步骤:
步骤S510,将第四融合特征图像输入至依次连接的第一平均池化层和第三卷积层,得到第十二特征图像;
步骤S520,将第十二特征图像输入至依次连接的第二平均池化层和第四卷积层,得到第十三特征图像;
步骤S530,将第十三特征图像输入至依次连接的第三平均池化层和第五卷积层,得到第十四特征图像;
步骤S540,将第十四特征图像输入至依次连接的第四平均池化层和第六卷积层,得到第十五特征图像;
步骤S550,确定第四融合特征图像的第二参考图像尺寸,并将第十二特征图像、第十三特征图像、第十四特征图像和第十五特征图像的图像尺寸均调整至与第二参考图像尺寸相同;
步骤S560,按照通道方向将调整尺寸后的第十二特征图像、第十三特征图像、第十四特征图像和第十五特征图像进行叠加处理,得到第十六特征图像,并将第十六特征图像输入至依次连接的第七卷积层和第八卷积层,得到表格线特征图像。
可以理解的是,本实施例的对抗生成网络模型还包括第一平均池化层、第二平均池化层、第三平均池化层、第四平均池化层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层,其中,第二平均池化层的池大小和步长均为第一平均池化层的池大小和步长的两倍,第三平均池化层的池大小和步长均为第二平均池化层的池大小和步长的两倍,第四平均池化层的池大小和步长均为第三平均池化层的池大小和步长的两倍,基于此结构,针对步骤S312的特征金字塔池化处理步骤具体可以如下:将第四融合特征图像输入至依次连接的第一平均池化层和第三卷积层,得到第十二特征图像,其中,第一平均池化层的池化层参数pool_size=4,strides=4,第三卷积层的卷积核大小取[1,1];将第十二特征图像输入至依次连接的第二平均池化层和第四卷积层,得到第十三特征图像,其中,第二平均池化层的池化层参数pool_size=8,strides=8,第四卷积层的卷积核大小取[1,1];将第十三特征图像输入至依次连接的第三平均池化层和第五卷积层,得到第十四特征图像,其中,第三平均池化层的池化层参数pool_size=16,strides=16,第五卷积层的卷积核大小取[1,1];将第十四特征图像输入至依次连接的第四平均池化层和第六卷积层,得到第十五特征图像,其中,第四平均池化层的池化层参数pool_size=32,strides=32,第六卷积层的卷积核大小取[1,1];确定第四融合特征图像的第二参考图像尺寸,并将第十二特征图像、第十三特征图像、第十四特征图像和第十五特征图像的图像尺寸均调整至与第二参考图像尺寸相同;按照通道方向将调整尺寸后的第十二特征图像、第十三特征图像、第十四特征图像和第十五特征图像进行叠加处理,得到第十六特征图像,并将第十六特征图像输入至依次连接的第七卷积层和第八卷积层,得到表格线特征图像,该表格线特征图像的图像通道数为3,图像尺寸与待识别表格图像的图像尺寸相同,为后续的图像二值化处理提供有效的数据基础。
另外,在一些实施例中,参照图6,图1步骤S120包括但不限于有以下步骤:
步骤S610,确定表格线特征图像对应的表格线像素点的颜色值;
步骤S620,根据预设的颜色值阈值对各个表格线像素点进行二值化处理,当表格线像素点的颜色值大于颜色值阈值,将颜色值大于颜色值阈值对应的表格线像素点的像素值确定为255;
或者,
步骤S630,当表格线像素点的颜色值小于或等于颜色值阈值,将颜色值小于或等于颜色值阈值对应的表格线像素点的像素值确定为0。
可以理解的是,本实施例的颜色值阈值可以为127,在对表格线特征图像进行二值化处理的过程中,当表格线像素点的颜色值大于颜色值阈值,将表格线特征图像中,颜色值大于颜色值阈值对应的表格线像素点的像素值确定为255,当表格线像素点的颜色值小于或等于颜色值阈值,将表格线特征图像中,颜色值小于或等于颜色值阈值对应的表格线像素点的像素值确定为0,以得到补全表格线的表格线二值化图像,为后续的表格结构识别步骤提供有效的数据基础。
另外,在一些实施例中,在待识别表格图像为视频流的情况下,参照图7,在执行图1步骤S110之前,本申请实施例的表格结构识别方法包括但不限于有以下步骤:
步骤S710,对视频流进行解码处理,得到第二初始表格图像,并确定第二初始表格图像的第一像素宽度值和第一像素高度值;
步骤S720,分别在第一像素宽度值和第一像素高度值填充第一预设像素值,得到第二中间表格图像;
步骤S730,对第二中间表格图像进行图像归一化处理,得到归一化后的待识别表格图像。
可以理解的是,在待识别表格图像为视频流的情况下,对视频流进行解码处理,得到第二初始表格图像,为防止第二初始表格图像中的表格边界出现在分析区域边界处,影响后续的表格结构识别的准确度,本实施例分别在第二初始表格图像对应的第一像素宽度值w0和第一像素高度值h0填充第一预设像素值,得到宽度和高度分别为w0+2p,h0+2p的第二中间表格图像,第一预设像素值为2p,并将第二中间表格图像归一化为w×h尺寸大小的待识别表格图像Iin,其中,对第二中间表格图像进行图像归一化处理的操作,能够找出第二中间表格图像中的不变量,使得第二中间表格图像可以抵抗几何变换的攻击,保留图像的有用信息,进而为保障后续图像应用的准确性提供有效的数据基础,归一化处理后的待识别表格图像可以如图11所示。
需要说明的是,对视频流进行解码,以及对图像进行归一化的处理步骤为本领域技术人员所熟知,在此不多做赘述。
另外,参考图8,在一些实施例中,目标矩形框的数量为多个,图1步骤S140包括但不限于有以下步骤:
步骤S810,确定各个目标矩形框对应的第一矩形框坐标值;
步骤S820,确定归一化后的待识别表格图像的第二像素宽度值和第二像素高度值;
步骤S830,计算第一像素宽度值与第二像素宽度值的比值,得到第一系数,计算第一像素高度值与第二像素高度值的比值,得到第二系数;
步骤S840,依次根据各个第一矩形框坐标值、第一系数、第二系数和第二预设像素值计算各个第二矩形框坐标值,其中,第二矩形框坐标值为符合待识别表格图像的图像尺寸的原始表格矩形框对应的坐标值;
步骤S850,将各个第二矩形框坐标值对应的各个原始表格矩形框映射在待识别表格图像,得到第二目标表格图像。
可以理解的是,本申请实施例将目标矩形框映射至待识别表格图像的具体步骤如下:确定各个目标矩形框对应的第一矩形框坐标值,记目标矩形框的第一矩形框坐标值为(x0y0, x1y1),其中,x0y0、x1y1分别为目标矩形框的左上角的角点坐标值、右下角坐标的角点坐标值,由于第一矩形框坐标值对应的目标矩形框不符合待识别表格图像的图像尺寸,需要对目标矩形框的尺寸进行调整,以得到符合待识别表格图像的图像尺寸的原始表格矩形框,为步骤S850的表格映射提供有效的数据基础,参照图7实施例的描述,计算第一像素宽度值w0与第二像素宽度值w的比值,得到第一系数fx=w0/w,计算第一像素高度值h0与第二像素高度值h的比值,得到第二系数fy=h0/h,各个第二矩形框坐标值(x2y2, x3y3)的表达式为:x2= x0×fx-p,y2= y0×fy-p,x3= x1×fx-p,y3= y1×fy-p,p为第二预设像素值,该第二矩形框坐标值对应的矩形框为符合待识别表格图像的图像尺寸的原始表格矩形框;在得到各个第二矩形框坐标值(x2y2, x3y3)之后,依次将各个第二矩形框坐标值对应的各个原始表格矩形框映射在待识别表格图像,得到第二目标表格图像,以完成表格结构识别。
如图9 所示,图9是本申请一个实施例提供的电子设备的结构图。本发明还提供了一种电子设备,包括:
处理器910,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器920,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器920可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器920中,并由处理器910来调用执行本申请实施例的表格结构识别方法,例如,执行以上描述的执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S230、图3中的方法步骤S301至步骤S312、图4中的方法步骤S410至步骤S440、图5中的方法步骤S510至步骤S560、图6中的方法步骤S610至步骤S630、图7中的方法步骤S710至步骤S730和图8中的方法步骤S810至步骤S850;
输入/输出接口930,用于实现信息输入及输出;
通信接口940,用于实现本装置与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线950,在设备的各个组件(例如处理器910、存储器920、输入/输出接口930和通信接口940)之间传输信息;
其中处理器910、存储器920、输入/输出接口930和通信接口940通过总线950实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的表格结构识别方法,例如,执行以上描述的执行以上描述的图1中的方法步骤S110至步骤S140、图2中的方法步骤S210至步骤S230、图3中的方法步骤S301至步骤S312、图4中的方法步骤S410至步骤S440、图5中的方法步骤S510至步骤S560、图6中的方法步骤S610至步骤S630、图7中的方法步骤S710至步骤S730和图8中的方法步骤S810至步骤S850。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,实现了以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
Claims (7)
1.一种表格结构识别方法,其特征在于,包括:
获取待识别表格图像,根据预先训练好的对抗生成网络模型补全所述待识别表格图像的表格线,得到表格线特征图像;
对所述表格线特征图像进行二值化处理,得到表格线二值化图像,所述表格线二值化图像中的非零值为表格线参考像素点所在的位置;
根据预设颜色值对表格线目标像素点进行颜色填充,得到第一目标表格图像,其中,所述表格线目标像素点为所述表格线参考像素点在所述待识别表格图像中的对应像素点;
利用预先训练好的目标检测模型对所述第一目标表格图像进行目标检测,得到目标矩形框,并将所述目标矩形框映射至所述待识别表格图像,得到第二目标表格图像;
其中,对所述表格线特征图像进行二值化处理,得到表格线二值化图像,包括:
确定所述表格线特征图像对应的表格线像素点的颜色值;
根据预设的颜色值阈值对各个所述表格线像素点进行二值化处理,当所述表格线像素点的颜色值大于所述颜色值阈值,将颜色值大于所述颜色值阈值对应的表格线像素点的像素值确定为255;
或者,
当所述表格线像素点的颜色值小于或等于所述颜色值阈值,将颜色值小于或等于所述颜色值阈值对应的表格线像素点的像素值确定为0;
其中,在所述待识别表格图像为视频流的情况下,在根据预先训练好的对抗生成网络模型补全所述待识别表格图像的表格线之前,所述方法还包括:
对所述视频流进行解码处理,得到第二初始表格图像,并确定所述第二初始表格图像的第一像素宽度值和第一像素高度值;
分别在所述第一像素宽度值和所述第一像素高度值填充第一预设像素值,得到第二中间表格图像;
对所述第二中间表格图像进行图像归一化处理,得到归一化后的所述待识别表格图像;
其中,所述目标矩形框的数量为多个,所述将所述目标矩形框映射至所述待识别表格图像,得到第二目标表格图像,包括:
确定各个所述目标矩形框对应的第一矩形框坐标值;
确定所述归一化后的所述待识别表格图像的第二像素宽度值和第二像素高度值;
计算所述第一像素宽度值与所述第二像素宽度值的比值,得到第一系数,计算所述第一像素高度值与所述第二像素高度值的比值,得到第二系数;
依次根据各个所述第一矩形框坐标值、所述第一系数、所述第二系数和第二预设像素值计算各个第二矩形框坐标值,其中,所述第二矩形框坐标值为符合所述待识别表格图像的图像尺寸的原始表格矩形框对应的坐标值;
将各个所述第二矩形框坐标值对应的各个所述原始表格矩形框映射在所述待识别表格图像,得到所述第二目标表格图像。
2.根据权利要求1所述的表格结构识别方法,其特征在于,所述对抗生成网络模型根据以下步骤训练得到:
利用opencv函数在多个第一初始表格图像上绘制矩形线,得到多个第一中间表格图像;
删除各个所述第一中间表格图像的所述矩形线中穿过合并单元格的线条图像,得到模型训练图像集;
根据所述模型训练图像集训练所述对抗生成网络模型。
3.根据权利要求1所述的表格结构识别方法,其特征在于,所述对抗生成网络模型包括VGG-19网络、第一卷积层、第二卷积层、第一空洞卷积层、第二空洞卷积层、第三空洞卷积层、第四空洞卷积层、第五空洞卷积层和第六空洞卷积层,根据预先训练好的对抗生成网络模型补全所述待识别表格图像的表格线,得到表格线特征图像,包括:
将所述待识别表格图像输入至所述VGG-19网络,获取所述VGG-19网络中排序最前的3个网络层输出的初始特征图像;
确定所述待识别表格图像的第一参考图像尺寸,并将所述初始特征图像的图像尺寸调整至与所述第一参考图像尺寸相同;
按照预设的通道方向将调整后的初始特征图像与所述待识别表格图像进行叠加处理,并对叠加后的特征图像进行卷积处理,得到待处理特征图像,将所述待处理特征图像输入至所述第一卷积层进行卷积处理,得到第一特征图像;
将所述第一特征图像输入至所述第二卷积层进行卷积处理,得到第二特征图像;
对所述第一特征图像与所述第二特征图像进行特征融合,得到第一融合特征图像;
将所述第一融合特征图像依次输入至所述第一空洞卷积层和第二空洞卷积层,得到第三特征图像和第四特征图像;
对所述第一融合特征图像、所述第三特征图像和所述第四特征图像进行特征融合,得到第二融合特征图像;
将所述第二融合特征图像依次输入至所述第三空洞卷积层和第四空洞卷积层,得到第五特征图像和第六特征图像;
对所述第二融合特征图像、所述第五特征图像和所述第六特征图像进行特征融合,得到第三融合特征图像;
将所述第三融合特征图像依次输入至所述第五空洞卷积层和第六空洞卷积层,得到第七特征图像和第八特征图像;
对所述第二融合特征图像、第三融合特征图像、所述第七特征图像和所述第八特征图像进行特征融合,得到第四融合特征图像;
对所述第四融合特征图像进行特征金字塔池化处理,得到所述表格线特征图像。
4.根据权利要求3所述的表格结构识别方法,其特征在于,所述对抗生成网络模型还包括第一全连接层和第二全连接层,所述第一全连接层与所述第二全连接层依次连接,所述对所述第一特征图像与所述第二特征图像进行特征融合,得到第一融合特征图像,包括:
按照预设的通道数量将所述第一特征图像和所述第二特征图像进行叠加处理,得到第九特征图像;
对所述第九特征图像进行全局平均池化操作,得到第十特征图像;
将所述第十特征图像输入至依次连接的所述第一全连接层和所述第二全连接层,得到第十一特征图像;
对所述第十一特征图像与所述第九特征图像进行相乘处理,得到所述第一融合特征图像。
5.根据权利要求3所述的表格结构识别方法,其特征在于,所述对抗生成网络模型还包括第一平均池化层、第二平均池化层、第三平均池化层、第四平均池化层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和第八卷积层,其中,所述第二平均池化层的池大小和步长均为所述第一平均池化层的池大小和步长的两倍,所述第三平均池化层的池大小和步长均为所述第二平均池化层的池大小和步长的两倍,所述第四平均池化层的池大小和步长均为所述第三平均池化层的池大小和步长的两倍,所述对所述第四融合特征图像进行特征金字塔池化处理,得到所述表格线特征图像,包括:
将所述第四融合特征图像输入至依次连接的所述第一平均池化层和所述第三卷积层,得到第十二特征图像;
将所述第十二特征图像输入至依次连接的所述第二平均池化层和所述第四卷积层,得到第十三特征图像;
将所述第十三特征图像输入至依次连接的所述第三平均池化层和所述第五卷积层,得到第十四特征图像;
将所述第十四特征图像输入至依次连接的所述第四平均池化层和所述第六卷积层,得到第十五特征图像;
确定所述第四融合特征图像的第二参考图像尺寸,并将所述第十二特征图像、所述第十三特征图像、所述第十四特征图像和所述第十五特征图像的图像尺寸均调整至与所述第二参考图像尺寸相同;
按照所述通道方向将调整尺寸后的第十二特征图像、第十三特征图像、第十四特征图像和第十五特征图像进行叠加处理,得到第十六特征图像,并将所述第十六特征图像输入至依次连接的所述第七卷积层和所述第八卷积层,得到所述表格线特征图像。
6.一种电子设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至5任一项所述的表格结构识别方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至5中任意一项所述的表格结构识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083807.1A CN116824611B (zh) | 2023-08-28 | 2023-08-28 | 表格结构识别方法、电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083807.1A CN116824611B (zh) | 2023-08-28 | 2023-08-28 | 表格结构识别方法、电子设备、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116824611A CN116824611A (zh) | 2023-09-29 |
CN116824611B true CN116824611B (zh) | 2024-04-05 |
Family
ID=88116968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311083807.1A Active CN116824611B (zh) | 2023-08-28 | 2023-08-28 | 表格结构识别方法、电子设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824611B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818813A (zh) * | 2018-12-13 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
CN114419647A (zh) * | 2021-12-31 | 2022-04-29 | 北京译图智讯科技有限公司 | 一种表格信息提取方法及系统 |
WO2022105297A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 表格结构的还原方法、系统、计算机设备及存储介质 |
CN114581928A (zh) * | 2021-12-29 | 2022-06-03 | 壹链盟生态科技有限公司 | 一种表格识别方法及系统 |
CN115546815A (zh) * | 2022-11-02 | 2022-12-30 | 科大讯飞股份有限公司 | 一种表格识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532834B (zh) * | 2018-05-24 | 2022-12-23 | 北京庖丁科技有限公司 | 基于富文本格式文档的表格提取方法、装置、设备和介质 |
-
2023
- 2023-08-28 CN CN202311083807.1A patent/CN116824611B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818813A (zh) * | 2018-12-13 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
WO2022105297A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 表格结构的还原方法、系统、计算机设备及存储介质 |
CN114581928A (zh) * | 2021-12-29 | 2022-06-03 | 壹链盟生态科技有限公司 | 一种表格识别方法及系统 |
CN114419647A (zh) * | 2021-12-31 | 2022-04-29 | 北京译图智讯科技有限公司 | 一种表格信息提取方法及系统 |
CN115546815A (zh) * | 2022-11-02 | 2022-12-30 | 科大讯飞股份有限公司 | 一种表格识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116824611A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106254933B (zh) | 字幕提取方法及装置 | |
CN109376681B (zh) | 一种多人姿态估计方法及系统 | |
US10429193B2 (en) | Method and apparatus for generating high precision map | |
CN111091123A (zh) | 文本区域检测方法及设备 | |
CN110991560A (zh) | 一种结合上下文信息的目标检测方法及系统 | |
CN109743566B (zh) | 一种用于识别vr视频格式的方法与设备 | |
US20210383126A1 (en) | Media Processing Method and Media Server | |
CN104794308B (zh) | 基于图像边缘检测的版图图像转换为cif文件方法 | |
CN103632153A (zh) | 一种基于区域的图像显著图提取方法 | |
CN112766206A (zh) | 一种高位视频车辆检测方法、装置、电子设备和存储介质 | |
CN115909445A (zh) | 人脸图像伪造检测方法及相关设备 | |
CN108961268B (zh) | 一种显著图计算方法及相关装置 | |
CN112053407B (zh) | 一种交通执法影像中基于ai技术的车道线自动检测方法 | |
CN116824611B (zh) | 表格结构识别方法、电子设备、计算机可读存储介质 | |
CN111179289B (zh) | 一种适用于网页长图宽图的图像分割方法 | |
CN113628349B (zh) | 基于场景内容自适应的ar导航方法、设备及可读存储介质 | |
KR102521565B1 (ko) | 3차원 그래프 뉴럴 네트워크 검출을 이용하여 증강현실 서비스를 제공하고 재생하는 장치 및 방법 | |
US20220189088A1 (en) | Method and system for removing scene text from images | |
CN114373110A (zh) | 对输入图像进行目标检测的检测方法、设备及其相关产品 | |
CN113705640A (zh) | 基于遥感影像快速构建飞机检测数据集的方法 | |
CN112101330B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN111768333A (zh) | 标识去除方法、装置、设备及存储介质 | |
CN115063770B (zh) | 车道线检测方法、模型训练方法、装置、设备及存储介质 | |
CN116798056B (zh) | 表格图像定位方法、装置、设备、计算机可读存储介质 | |
CN115661577B (zh) | 用于对象检测的方法、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |