CN113688795A - 一种将图像中表格转换为电子表格的方法及装置 - Google Patents

一种将图像中表格转换为电子表格的方法及装置 Download PDF

Info

Publication number
CN113688795A
CN113688795A CN202111134361.1A CN202111134361A CN113688795A CN 113688795 A CN113688795 A CN 113688795A CN 202111134361 A CN202111134361 A CN 202111134361A CN 113688795 A CN113688795 A CN 113688795A
Authority
CN
China
Prior art keywords
image
lines
line
cells
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111134361.1A
Other languages
English (en)
Inventor
郭丰俊
龙伟
丁凯
龙腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Linguan Data Technology Co ltd
Shanghai Shengteng Data Technology Co ltd
Shanghai Yingwuchu Data Technology Co ltd
Intsig Information Co Ltd
Shanghai Hehe Information Technology Development Co Ltd
Original Assignee
Shanghai Linguan Data Technology Co ltd
Shanghai Shengteng Data Technology Co ltd
Shanghai Yingwuchu Data Technology Co ltd
Shanghai Hehe Information Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Linguan Data Technology Co ltd, Shanghai Shengteng Data Technology Co ltd, Shanghai Yingwuchu Data Technology Co ltd, Shanghai Hehe Information Technology Development Co Ltd filed Critical Shanghai Linguan Data Technology Co ltd
Priority to CN202111134361.1A priority Critical patent/CN113688795A/zh
Publication of CN113688795A publication Critical patent/CN113688795A/zh
Priority to PCT/CN2022/080926 priority patent/WO2023045277A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种将图像中表格转换为电子表格的方法。步骤S1:根据图像中的文字行及线,对图像做转正及矫正处理。步骤S2:在图像中采用无锚的目标检测方法来确定图像中表格的位置,也称图像的表格区域。步骤S3:在图像的表格区域中检测表格线。步骤S4:根据对图像的表格区域进行光学字符识别获取的文字行信息,移除虚假表格线,得到真实表格线。步骤S5:根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别。步骤S6:根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。步骤S7:如有缺失的单元格,在相应位置补齐单元格,以得到完整的结构化的电子表格。

Description

一种将图像中表格转换为电子表格的方法及装置
技术领域
本申请涉及一种图像识别方法,特别是涉及一种将图像中的表格识别出来并转换为电子表格(例如Excel文件)的方法。
背景技术
表格作为常见的文档形式,在办公、日常生活中得到广泛使用。在财务处理、数据分析等工作中,存在大量将图像(图片)中的表格转化为电子表格的需求。由于打印质量、拍摄角度、拍摄光线、纸张弯折等方面的问题,现有的转换方法经常出现表格线误检、表格线漏检、单元格位置错误、单元格丢失等情况,从而使电子表格的版式还原出现错误。
发明内容
本申请所要解决的技术问题是对于不同图像质量的图像中的不同版式的表格,给出一种具有良好的版式还原效果的转换为电子表格的方法。
为解决上述技术问题,本申请提出的将图像中表格转换为电子表格的方法包括如下步骤。步骤S1:根据图像中的文字行及线,对图像做转正及矫正处理。步骤S2:在图像中采用无锚的目标检测方法来确定图像中表格的位置,也称图像的表格区域。步骤S3:在图像的表格区域中检测表格线。步骤S4:根据对图像的表格区域进行光学字符识别获取的文字行信息,对步骤S3检测得到的表格线进行过滤,移除虚假表格线,得到真实表格线。步骤S5:根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别。步骤S6:根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。步骤S7:根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙,判断是否有缺失的单元格;如有缺失的单元格,在相应位置补齐单元格,以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙,得到完整的结构化的电子表格。上述方法针对图像质量较差的缺陷给出了多种检测和矫正方式,并且转换后的电子表格与图像中的表格具有相同的版式。
进一步地,所述步骤S1中,检测图像中的文字行及表格线的角度,并使图像中的每一行文字大致为水平排列,使表格线中的水平线大致为水平,使表格线中的竖直线大致为竖直的方式对整幅图像进行转正及矫正处理。这是对步骤S1的详细说明。
进一步地,所述步骤S2中,所述无锚的目标检测方法包括CornerNet算法、CenterNet算法、ExtremeNet算法、DenseBox算法、YOLO算法、FSAF算法、FCOS算法、FoveaBox算法、RepPoints算法、Sparse RCNN算法、CentripetalNet算法、SaccadeNet算法的任意一种或多种。这是步骤S2所用算法的一些优选示例。
进一步地,所述步骤S3具体包括如下子步骤。步骤S31:采用基于语义分割网络的算法在图像的表格区域中预测和提取表格线区域,表格线区域是指表格线可能出现的位置,就是一些孤立的像素点。步骤S32:在图像的表格线区域通过曲线拟合方法检测出表格线,也就是采用曲线拟合方法将前一步预测的孤立的像素点连接成线段。这是步骤S3的一种具体实现方式的详细说明。
进一步地,所述步骤S31中,所述基于语义分割网络的算法是先通过标注的表格线数据进行训练,然后再使用训练好的算法预测和提取表格线区域。这体现出本申请具有数据驱动的特点。
进一步地,所述步骤S4中,对图像的表格区域进行光学字符识别以获取文字行信息,在这一步或之前的任意步骤中进行,也包括对原始图像进行光学字符识别以获取文字行信息然后缩小到图像的表格区域内的文字行信息的方式。
进一步地,所述步骤S5中,对于水平线,按起始端点排序后进行循环处理,遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重,如此将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线;最终,每一表格行的水平线归为一组,组内根据是否有单元格合并情况包含一根或多根水平线;对竖直线的处理采用类似方法。这是对步骤S5的详细说明。
进一步地,所述步骤S6中,对单元格进行光学字符识别以获取识别结果,在这一步或之前的任意步骤中进行,包括对图像的表格区域进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式,也包括对原始图像进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式。
优选地,对图像的表格区域进行光学字符识别以获取文字行信息、对单元格进行光学字符识别以获取识别结果,两者同时进行。
本申请还提出了一种将图像中表格转换为电子表格的装置,包括转正及矫正处理单元、表格位置检测单元、表格线检测单元、表格线滤除单元、表格线分组单元、单元格构建单元、单元格补齐单元。所述转正及矫正处理单元用来根据图像中的文字行及线,对图像做转正及矫正处理。所述表格位置检测单元用来在图像中采用无锚的目标检测方法来确定图像中表格的位置,也称图像的表格区域。所述表格线检测单元用来在图像的表格区域中检测表格线。所述表格线滤除单元用来根据对图像的表格区域进行光学字符识别获取的文字行信息,移除虚假表格线,得到真实表格线。所述表格线分组单元用来根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别。所述单元格构建单元用来根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。所述单元格补齐单元用来根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙,判断是否有缺失的单元格;如有缺失的单元格,在相应位置补齐单元格,以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙,得到完整的结构化的电子表格。上述装置针对图像质量较差的缺陷给出了多种检测和矫正方式,并且转换后的电子表格与图像中的表格具有相同的版式。
本申请取得的技术效果是能够将图像质量较差或较好的图像转换为电子表格,准确性高;并且保持版式一致,电子表格具有良好的完整性。
附图说明
图1是本申请提出的将图像中表格转换为电子表格的方法的流程示意图。
图2是图1中步骤S3的子流程示意图。
图3是本申请提出的将图像中表格转换为电子表格的装置的结构示意图。
图中附图标记说明:1为转正及矫正处理单元、2为表格位置检测单元、3为表格线检测单元、4为表格线滤除单元、5为表格线分组单元、6为单元格构建单元、7为单元格补齐单元。
具体实施方式
请参阅图1,本申请提出的将图像中表格转换为电子表格的方法包括如下步骤。
步骤S1:根据图像中的文字行及表格线信息,对图像做转正及矫正处理。例如,图像中的文字通常为水平排列,表格线通常包括水平线与竖直线,由于拍摄角度、纸张弯曲的问题而使得图像中的文字和表格线有可能出现倾斜、扭曲等情况。这一步通过检测文字行及表格线的角度,并使图像中的每一行文字大致为水平排列,使接近水平的线大致为水平,使接近竖直的线大致为竖直的方式对整幅图像进行转正及矫正处理。这样处理后的图像能提高后续检测表格位置的准确性以及结构化电子表格的正确率。
步骤S2:在图像中采用无锚(Anchor free)的目标检测方法来确定图像中表格的位置,也称图像的表格区域。所述无锚的目标检测方法例如包括CornerNet算法、CenterNet算法、ExtremeNet算法、DenseBox算法、YOLO算法、FSAF算法、FCOS算法、FoveaBox算法、RepPoints算法、Sparse RCNN算法、CentripetalNet算法、SaccadeNet算法等,这些算法通过训练能在图像中识别出不同版式的表格,从而检测出图像中表格的位置。后续的检测表格线、结构化电子表格的操作都仅在图像的表格区域中进行。
步骤S3:在图像的表格区域中检测表格线。表格线包括用于分隔表格内部与表格外部的外部边框线、以及在表格内部用于区分行、列的内部分隔线。
步骤S4:根据对图像的表格区域进行光学字符识别(OCR,Optical characterrecognition)获取的文字行信息,对步骤S3检测得到的表格线进行过滤,移除虚假表格线,得到干净的真实表格线。所述文字行信息包括文字行的高度、单个文字的宽度、文字行的角度等。对图像的表格区域进行光学字符识别以获取文字行信息,可以在这一步或之前的任意步骤中进行,也包括对原始图像进行光学字符识别以获取文字行信息然后缩小到图像的表格区域内的文字行信息的方式(非优选)。
例如,某些文字笔划较长、或者相邻文字的笔划连接在一起,就可能在步骤S3中被检测为表格线,但属于虚假表格线,根据文字行高度、单个文字的宽度可以过滤掉。又如,当步骤S3检测出的某一条竖直表格线的长度小于文字行高度,则判定该条垂直表格线为虚假表格线。再如,将文字行的角度认为呈水平,那么竖直线也就确定了;如果步骤S3检测出的某一条表格线超出了水平线的容许角度范围,也超出了竖直线的容许角度范围,则判定该条表格线为虚假表格线。水平线的容许角度范围例如为水平线的正负15度。竖直线的容许角度范围例如为竖直线的正负15度。
步骤S5:根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别。由于图像质量不佳等因素,不可避免地存在同一条表格线被检测成多条表格线的情况。同时表格中也存在为格式需要,属于同一行、同一列的表格线分成多条表格线的情况。这一步就是为了准确还原单元格所属行、列,根据表格线中水平线之间的位置关系,将水平线归入不同行的组别;根据表格线中竖直线之间的位置关系,将竖直线归入不同列的组别。
例如,通过计算表格线的角度区分水平线和竖直线。对于水平线,按起始端点排序后进行循环处理,遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重,如此可将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线,处理过程可使用并查集(Union-Find)算法进行加速。最终,每一表格行的水平线归为一组,组内根据是否有单元格合并情况包含一根或多根水平线。对竖直线的处理采用类似方法。
步骤S6:根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。这使得电子表格的版式与原始图像中的表格的版式保持一致。对单元格进行光学字符识别以获取识别结果,可以在这一步或之前的任意步骤中进行,包括对图像的表格区域进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式(优选),也包括对原始图像进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式(非优选)。
优选地,对图像的表格区域进行光学字符识别以获取文字行信息(步骤S4或之前任意步骤)、对单元格进行光学字符识别以获取识别结果(步骤S6或之前任意步骤),同时进行。
步骤S7:根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙,判断是否有缺失的单元格。如有缺失的单元格,在相应位置补齐单元格,以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙,得到完整的结构化的电子表格。由于表格的版式中缺少外部边框、或者图像质量不佳、或者拍摄的表格不完整等情况,都会引起表格线丢失,这会导致某些单元格无法构建。这一步通过补齐单元格提高了结构化电子表格的完整性。
例如,根据在图像中检测到的表格位置、文本行位置、表格线位置判断是否需要补充表格的外部边框线。如需补充,根据已有的正交方向的线段信息补充外部边框线。例如表格最左边的竖直外部边框线需补充,则根据已有的水平线段的左侧端点进行拟合得出,其它位置的外部边框线采用类似方式处理。又如,单元结构构建完成后,可知单元格所属行、列的编号。因表格为矩形结构且内部不能存在空洞,根据已有的行、列编号信息可判断是否有缺失单元格。如有缺失单元格可根据已存在的相邻单元格推导出缺失单元格的行、列编号及位置信息并补全。再如,当相邻单元格之间的间隙超出文字行高度时,判定存在缺失的单元格。
请参阅图2,所述步骤S3具体包括如下子步骤。
步骤S31:采用基于语义分割(Semantic Segmentation)网络的算法在图像的表格区域中预测和提取表格线区域,表格线区域是指表格线可能出现的位置,就是一些孤立的像素点。所述基于语义分割网络的算法例如采用基于U-Net的像素分类方法,U-Net是一种用于生物医学图像分割(image segmentation)的卷积神经网络(convolutional neuralnetwork)算法。
优选地,所述基于语义分割网络的算法是先通过标注的表格线数据进行训练,然后再使用训练好的算法预测和提取表格线区域。所述标注的表格线数据是指已经明确标注为“是”表格线的图像、以及明确标注为“不是”表格线的图像。
步骤S32:在图像的表格线区域通过曲线拟合(curve fitting)方法检测出表格线,也就是采用传统的曲线拟合方法将前一步预测的孤立的像素点连接成线段。
图2所示方法结合了数据驱动(先训练算法再用于预测和提取)和经典图像处理算法(曲线拟合),不仅能有效抑制噪声,而且对不同版式的表格线的检测具有良好的健壮性(robustness,也称鲁棒性)。
请参阅图3,本申请提出的将图像中表格转换为电子表格的装置包括转正及矫正处理单元1、表格位置检测单元2、表格线检测单元3、表格线滤除单元4、表格线分组单元5、单元格构建单元6、单元格补齐单元7。
所述转正及矫正处理单元1用来根据图像中的文字行及线,对图像做转正及矫正处理。
所述表格位置检测单元2用来在图像中采用无锚的目标检测方法来确定图像中表格的位置,也称图像的表格区域。
所述表格线检测单元3用来在图像的表格区域中检测表格线。
所述表格线滤除单元4用来根据对图像的表格区域进行光学字符识别获取的文字行信息,移除虚假表格线,得到真实表格线。
所述表格线分组单元5用来根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别。
所述单元格构建单元6用来根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。
所述单元格补齐单元7用来根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙,判断是否有缺失的单元格。如有缺失的单元格,在相应位置补齐单元格,以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙,得到完整的结构化的电子表格。
本申请提出的将图像中表格转换为电子表格的方法及装置具有如下有益的技术效果。
第一,先检测确定图像中表格的位置,然后对图像的表格区域(仅为原始图像的一部分)进行检测表格线、光学字符识别、构建单元格等操作。这与对整幅图像进行相应操作相比,简化了各项操作的工作量,减少了各项操作的处理时间。
第二,针对图像变形对表格检测的影响,先对图像做转正及矫正处理,再检测图像中的表格,提高了表格检测和后续结构化电子表格的准确性。
第三,根据表格版式多样的特点,采用无锚的目标检测方法检测图像中的表格,能准确检测出不同长宽比及不同分隔样式的有线或无线表格。无线表格就是指文档内容按照表格的格式被分隔开来,但是没有表格线。
第四,针对图像质量差及文字干扰造成的表格线容易误检或漏检的情况,采用基于语义分割网络的算法,先通过已标注数据的训练,再用于检测表格线区域,从而能够去除干扰。同时结合曲线拟合方法实现表格线的检测。
第五,对表格线基于距离进行分组,根据组别得到单元格行列位置从而构建单元格。同时为避免因为单元格边界线缺失而导致的单元格无法构建的问题,判断并补全缺失的单元格,提高了电子表格的完整性。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种将图像中表格转换为电子表格的方法,其特征是,包括如下步骤;
步骤S1:根据图像中的文字行及线,对图像做转正及矫正处理;
步骤S2:在图像中采用无锚的目标检测方法来确定图像中表格的位置,也称图像的表格区域;
步骤S3:在图像的表格区域中检测表格线;
步骤S4:根据对图像的表格区域进行光学字符识别获取的文字行信息,对步骤S3检测得到的表格线进行过滤,移除虚假表格线,得到真实表格线;
步骤S5:根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别;
步骤S6:根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存;
步骤S7:根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙,判断是否有缺失的单元格;如有缺失的单元格,在相应位置补齐单元格,以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙,得到完整的结构化的电子表格。
2.根据权利要求1所述的将图像中表格转换为电子表格的方法,其特征是,所述步骤S1中,检测图像中的文字行及表格线的角度,并使图像中的每一行文字大致为水平排列,使表格线中的水平线大致为水平,使表格线中的竖直线大致为竖直的方式对整幅图像进行转正及矫正处理。
3.根据权利要求1所述的将图像中表格转换为电子表格的方法,其特征是,所述步骤S2中,所述无锚的目标检测方法包括CornerNet算法、CenterNet算法、ExtremeNet算法、DenseBox算法、YOLO算法、FSAF算法、FCOS算法、FoveaBox算法、RepPoints算法、SparseRCNN算法、CentripetalNet算法、SaccadeNet算法的任意一种或多种。
4.根据权利要求1所述的将图像中表格转换为电子表格的方法,其特征是,所述步骤S3具体包括如下子步骤;
步骤S31:采用基于语义分割网络的算法在图像的表格区域中预测和提取表格线区域,表格线区域是指表格线可能出现的位置,就是一些孤立的像素点;
步骤S32:在图像的表格线区域通过曲线拟合方法检测出表格线,也就是采用曲线拟合方法将前一步预测的孤立的像素点连接成线段。
5.根据权利要求4所述的将图像中表格转换为电子表格的方法,其特征是,所述步骤S31中,所述基于语义分割网络的算法是先通过标注的表格线数据进行训练,然后再使用训练好的算法预测和提取表格线区域。
6.根据权利要求1所述的将图像中表格转换为电子表格的方法,其特征是,所述步骤S4中,对图像的表格区域进行光学字符识别以获取文字行信息,在这一步或之前的任意步骤中进行,也包括对原始图像进行光学字符识别以获取文字行信息然后缩小到图像的表格区域内的文字行信息的方式。
7.根据权利要求1所述的将图像中表格转换为电子表格的方法,其特征是,所述步骤S5中,对于水平线,按起始端点排序后进行循环处理,遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重,如此将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线;最终,每一表格行的水平线归为一组,组内根据是否有单元格合并情况包含一根或多根水平线;对竖直线的处理采用类似方法。
8.根据权利要求1所述的将图像中表格转换为电子表格的方法,其特征是,所述步骤S6中,对单元格进行光学字符识别以获取识别结果,在这一步或之前的任意步骤中进行,包括对图像的表格区域进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式,也包括对原始图像进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式。
9.根据权利要求6或8所述的将图像中表格转换为电子表格的方法,其特征是,对图像的表格区域进行光学字符识别以获取文字行信息、对单元格进行光学字符识别以获取识别结果,两者同时进行。
10.一种将图像中表格转换为电子表格的装置,其特征是,包括转正及矫正处理单元、表格位置检测单元、表格线检测单元、表格线滤除单元、表格线分组单元、单元格构建单元、单元格补齐单元;
所述转正及矫正处理单元用来根据图像中的文字行及线,对图像做转正及矫正处理;
所述表格位置检测单元用来在图像中采用无锚的目标检测方法来确定图像中表格的位置,也称图像的表格区域;
所述表格线检测单元用来在图像的表格区域中检测表格线;
所述表格线滤除单元用来根据对图像的表格区域进行光学字符识别获取的文字行信息,移除虚假表格线,得到真实表格线;
所述表格线分组单元用来根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别;
所述单元格构建单元用来根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存;
所述单元格补齐单元用来根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙,判断是否有缺失的单元格;如有缺失的单元格,在相应位置补齐单元格,以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙,得到完整的结构化的电子表格。
CN202111134361.1A 2021-09-27 2021-09-27 一种将图像中表格转换为电子表格的方法及装置 Pending CN113688795A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111134361.1A CN113688795A (zh) 2021-09-27 2021-09-27 一种将图像中表格转换为电子表格的方法及装置
PCT/CN2022/080926 WO2023045277A1 (zh) 2021-09-27 2022-03-15 一种将图像中表格转换为电子表格的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111134361.1A CN113688795A (zh) 2021-09-27 2021-09-27 一种将图像中表格转换为电子表格的方法及装置

Publications (1)

Publication Number Publication Date
CN113688795A true CN113688795A (zh) 2021-11-23

Family

ID=78587230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111134361.1A Pending CN113688795A (zh) 2021-09-27 2021-09-27 一种将图像中表格转换为电子表格的方法及装置

Country Status (2)

Country Link
CN (1) CN113688795A (zh)
WO (1) WO2023045277A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187602A (zh) * 2021-12-16 2022-03-15 四川新网银行股份有限公司 一种房产证明材料内容识别方法、系统、设备及存储介质
WO2023045277A1 (zh) * 2021-09-27 2023-03-30 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置
CN116343247A (zh) * 2023-05-24 2023-06-27 荣耀终端有限公司 表格图像矫正方法、装置和设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612487B (zh) * 2023-07-21 2023-10-13 亚信科技(南京)有限公司 表格识别方法、装置、电子设备及存储介质
CN118038478A (zh) * 2024-04-12 2024-05-14 江西微博科技有限公司 表格智能识别、智能合并、智能提交的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
CN107943956A (zh) * 2017-11-24 2018-04-20 北京金堤科技有限公司 页面转换方法、装置和页面转换设备
CN110569489A (zh) * 2018-06-05 2019-12-13 北京国双科技有限公司 基于pdf文件的表格数据解析方法及装置
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备
CN111368638A (zh) * 2020-02-10 2020-07-03 深圳追一科技有限公司 电子表格的创建方法、装置、计算机设备和存储介质
CN112036259A (zh) * 2020-08-10 2020-12-04 晶璞(上海)人工智能科技有限公司 一种基于图像处理与深度学习相结合的表格矫正与识别的方法
WO2021000702A1 (zh) * 2019-06-29 2021-01-07 华为技术有限公司 图像检测方法、设备以及系统
CN112818785A (zh) * 2021-01-22 2021-05-18 国家气象信息中心(中国气象局气象数据中心) 一种气象纸质表格文档的快速数字化方法及系统
CN113139457A (zh) * 2021-04-21 2021-07-20 浙江康旭科技有限公司 一种基于crnn的图片表格提取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006240A (en) * 1997-03-31 1999-12-21 Xerox Corporation Cell identification in table analysis
CN110135218A (zh) * 2018-02-02 2019-08-16 兴业数字金融服务(上海)股份有限公司 用于识别图像的方法、装置、设备和计算机存储介质
CN109685052A (zh) * 2018-12-06 2019-04-26 泰康保险集团股份有限公司 文本图像处理方法、装置、电子设备及计算机可读介质
CN111814722B (zh) * 2020-07-20 2022-04-19 电子科技大学 一种图像中的表格识别方法、装置、电子设备及存储介质
CN113688795A (zh) * 2021-09-27 2021-11-23 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
CN107943956A (zh) * 2017-11-24 2018-04-20 北京金堤科技有限公司 页面转换方法、装置和页面转换设备
CN110569489A (zh) * 2018-06-05 2019-12-13 北京国双科技有限公司 基于pdf文件的表格数据解析方法及装置
WO2021000702A1 (zh) * 2019-06-29 2021-01-07 华为技术有限公司 图像检测方法、设备以及系统
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备
CN111368638A (zh) * 2020-02-10 2020-07-03 深圳追一科技有限公司 电子表格的创建方法、装置、计算机设备和存储介质
CN112036259A (zh) * 2020-08-10 2020-12-04 晶璞(上海)人工智能科技有限公司 一种基于图像处理与深度学习相结合的表格矫正与识别的方法
CN112818785A (zh) * 2021-01-22 2021-05-18 国家气象信息中心(中国气象局气象数据中心) 一种气象纸质表格文档的快速数字化方法及系统
CN113139457A (zh) * 2021-04-21 2021-07-20 浙江康旭科技有限公司 一种基于crnn的图片表格提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐皓瑾: "一种面向PDF文件的表格数据抽取方法的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 08, pages 138 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023045277A1 (zh) * 2021-09-27 2023-03-30 上海合合信息科技股份有限公司 一种将图像中表格转换为电子表格的方法及装置
CN114187602A (zh) * 2021-12-16 2022-03-15 四川新网银行股份有限公司 一种房产证明材料内容识别方法、系统、设备及存储介质
CN116343247A (zh) * 2023-05-24 2023-06-27 荣耀终端有限公司 表格图像矫正方法、装置和设备
CN116343247B (zh) * 2023-05-24 2023-10-20 荣耀终端有限公司 表格图像矫正方法、装置和设备

Also Published As

Publication number Publication date
WO2023045277A1 (zh) 2023-03-30

Similar Documents

Publication Publication Date Title
CN113688795A (zh) 一种将图像中表格转换为电子表格的方法及装置
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN109241894B (zh) 一种基于表格定位和深度学习的票据内容识别系统和方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN109886978B (zh) 一种基于深度学习的端到端告警信息识别方法
CN114155527A (zh) 一种场景文本识别方法和装置
CN113139457A (zh) 一种基于crnn的图片表格提取方法
CN111354026A (zh) 一种基于surf特征的改进列车图像精确配准方法和系统
CN109508716B (zh) 一种图像文字的定位方法及装置
CN113723362A (zh) 一种在图像中检测表格线的方法及装置
CN112507782A (zh) 文本图像的识别方法及装置
Deodhare et al. Preprocessing and Image Enhancement Algorithms for a Form-based Intelligent Character Recognition System.
CN111340032A (zh) 一种基于金融领域应用场景的字符识别方法
CN110516674B (zh) 一种文本图像的手写汉字分割方法及系统
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
Seraogi et al. Employing CNN to Identify Noisy Documents Thereafter Accomplishing Text Line Segmentation
CN112036294B (zh) 一种纸质表格结构自动识别的方法及装置
KR101937398B1 (ko) 고문서의 이미지 데이터에서의 문자 추출 시스템 및 이를 이용한 문자 추출 방법
JP5211449B2 (ja) 認識距離を調整するプログラム、装置および方法、ならびに文字列を認識するプログラム
Deivalakshmi et al. Detection of table structure and content extraction from scanned documents
CN113989823A (zh) 基于ocr坐标的图片表格还原方法及系统
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
CN115063817A (zh) 一种基于形态学检测的表格识别方法、系统以及储存介质
CN111814780A (zh) 一种票据图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination