CN109961008A - 基于文字定位识别的表格解析方法、介质及计算机设备 - Google Patents

基于文字定位识别的表格解析方法、介质及计算机设备 Download PDF

Info

Publication number
CN109961008A
CN109961008A CN201910115364.7A CN201910115364A CN109961008A CN 109961008 A CN109961008 A CN 109961008A CN 201910115364 A CN201910115364 A CN 201910115364A CN 109961008 A CN109961008 A CN 109961008A
Authority
CN
China
Prior art keywords
form image
layout
text
location information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910115364.7A
Other languages
English (en)
Inventor
周罡
卢波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910115364.7A priority Critical patent/CN109961008A/zh
Publication of CN109961008A publication Critical patent/CN109961008A/zh
Priority to PCT/CN2019/118422 priority patent/WO2020164281A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明提出一种基于文字定位识别的表格解析方法,所述方法包括:输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;依据所述位置信息,提取所述表格图片的第一表格布局;依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。本发明可以利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。

Description

基于文字定位识别的表格解析方法、介质及计算机设备
技术领域
本发明涉及计算机处理技术领域,尤其涉及一种基于文字定位识别的表格解析方法、介质及计算机设备。
背景技术
目前,深度学习在图片识别领域发展迅速,它已完全超越传统方法的准确率和效率,深受图片识别领域的关注。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。然而,表格的识别是指将表格图片中的表格转换成可编辑的表格文本,该过程中需要用到文本的识别以及图像的识别。
现有的技术中,也有应用深度学习对表格图片中的表格进行解析,但是现有的技术方案中,是通过深度学习对表格图片中的表格线进行检测识别,其至少存在以下缺陷:
现有的技术方案是基于有表格线的情况进行表格解析,当没有表格线时的表格格式图片,则不能进行表格提取。
发明内容
本发明提供一种基于文字定位识别的表格解析方法及相应的装置,其主要实现了利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。
本发明还提供一种用于执行本发明的基于文字定位识别的表格解析方法的计算机设备及可读存储介质。
为解决上述问题,本发明采用如下各方面的技术方案:
第一方面,本发明提供一种基于文字定位识别的表格图片解析方法,所述方法包括:
输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;
依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;
依据所述位置信息,提取所述表格图片的第一表格布局;
依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
具体的,所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息,包括:
输入表格图片至预先训练的文字定位网络;
获取所述表格图片中连续的若干个字符串作为一个字符串组合;
获取包围所述字符串组合的最小的矩形框;
建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。
具体的,还包括:
输入表格图片的样本进行深度网络的训练,训练出所述文字定位网络以及所述文字识别网络。
具体的,所述依据所述位置信息,提取所述表格图片的第一表格布局,包括:
提取所述位置信息中所述矩形框的左上角以及右下角的点的坐标值;
依据所述左上角以及右下角的点的坐标值将相同横坐标的点对应的矩形框分为同一列,将相同纵坐标的点对应的矩形框分为同一行;
计算总的行数以及总的列数作为所述第一表格布局。
优选的,所述依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件,包括:
依据所述第一表格布局绘制表格;
将所述单元格字符对应填入绘制的表格的单元格中,生成所述表格图片的表格文件。
具体的,所述依据所述位置信息,提取所述表格图片的第一表格布局之后,包括:
检测所述表格图片中是否包含网格线;
若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;
将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。
具体的,所述依据所述位置信息,生成所述表格图片的第一表格布局之后,包括:
计算所述第二表格布局与所述第一表格布局的比对结果,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络。
第二方面,本发明提供一种基于文字定位识别的表格图片解析装置,所述方法包括:
输入模块,用于输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;
识别模块,用于依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;
提取模块,用于依据所述位置信息,提取所述表格图片的第一表格布局;
生成模块,用于依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述基于文字定位识别的表格图片解析方法的步骤。
第四方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如第一方面中任一项权利要求所述基于文字定位识别的表格图片解析方法的步骤。
相对于现有技术,本发明的技术方案至少具备如下优点:
1、本发明提供一种基于文字定位识别的表格解析方法,通过输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;依据所述位置信息,提取所述表格图片的第一表格布局;依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。本发明可以利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。
2、本发明通过输入表格图片至预先训练的文字定位网络;获取所述表格图片中连续的若干个字符串作为一个字符串组合;获取包围所述字符串组合的最小的矩形框;建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。本发明通过该机制获取所述表格图片中文字的位置信息,提高文字定位的准确性与效率。
3、本发明可以检测所述表格图片中是否包含网格线;若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。本发明还可以另外检测所述表格图片是否存在表格线,在所述表格图片存在表格线的情况下,直接提取所述表格线,然后将得到的第一表格布局与提取的表格线构成的第二表格布局进行比对以校验所述第一表格布局是否有效。本发明通过文字定位网络以及文字识别网络解析表格图片,可以兼容无表格线和有表格线或表格线残缺的情况,适用范围广。
4、本发明还可以进一步计算所述第二表格布局与所述第一表格布局的比对结果,所述比对结果被表达为所述第一表格布局与所述第二表格的差异点,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络。本发明通过该机制可以灵活智能学习,智能调整预先训练好的文字定位网络,以使得表格图片的解析结果越来越精准。
附图说明
图1为一个实施例中基于文字定位识别的表格解析方法流程图;
图2为现有技术中基于场景文字检测的文字定位网络;
图3为一个实施例中为获取到所述表格图片中字符的位置信息示意图;
图4为一个实施例中基于文字定位识别的表格解析装置结构框图;
图5为一个实施例中计算机设备的内部结构框图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S11、S12等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供一种基于文字定位识别的表格解析方法,如图1所示,所述方法包括以下步骤:
S11、输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息。
本发明实施例中,预先通过输入多个目标样本进行深度网络的训练,训练出能够进行表格图片的文字定位的所述文字定位网络和能够进行表格图片文字识别的文字识别网络。具体的,对所述样本图片进行特征点提取以及特征融合,最终输出所述文字定位网络和所述文字识别网络。其中,所述目标样本至少包括图片样本以及标注的有文字的矩形框坐标。
深度网络的训练是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
本发明的总体思路为基于深度网络的训练的文字检测与识别过程,具体是通过FasterRCNN(基于深度学习的目标检测技术)、CTPN(自然场景文本检测)等定位网络针对图片中的文字进行检测和定位,得到文字的位置信息,然后将该位置信息所指向的区域输入到基于RNN文字识别网络如RCNN等进行文字的识别,得到该位置信息对应的字符串。
请参考图2,图2为基于EAST(场景文字检测)文字定位网络。本发明所应用的文字定位网络是基于EAST文字定位网络改进而成。具体的,本发明所应用的文字定位网络是在图2所示的网络结构中的score map后接入LSTM(长短期记忆网络),将score map提亮摸均匀,训练时使用dice loss替换focus-loss。其中,LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
进一步的,本发明所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息,具体包括:输入表格图片至预先训练的文字定位网络;获取所述表格图片中连续的若干个字符串作为一个字符串组合;获取包围所述字符串组合的最小的矩形框;建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。
请参考图3,图3为获取到所述表格图片中字符的位置信息示意图。如图3所示,所述表格图片中包含若干个字符串组合。通过所述文字定位网络后输出包裹各个字符串组合的最小矩形框。本发明实施例中,所述表格图片中字符的位置信息被表达为包裹所述字符串组合的最小矩形框的坐标值。本发明通过所述文字定位网络可以直接得到包裹所述字符串组合的矩形框的四个顶点的坐标。具体的,所述位置信息被表达为该矩形框的左上角以及右下角的坐标值。在实际使用时,因为表格文字基本是水平的,所以取得到的QuadGeometry这个函数中四个坐标的X轴最小值与最大值,Y轴的最小值与最大值,组成所述矩形框的左上角与右下角的坐标,从而得到标准的矩形框。例如,通过所述文字定位网络得到包裹某个字符串组合的最小矩形框的四个顶点的坐标分别为:A(X1,Y1)、A(X1,Y2)、A(X2,Y1)以及A(X2,Y2),依据X1、X2、Y1以及Y2的大小值,选取该矩形的左上角以及右下角的点的坐标值。
S12、依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容。
本发明实施例中,依据所述位置信息确定一个矩形框,依据所述矩形框确定一个单元格图片。具体的,本发明依据所述矩形框对所述表格图片进行图像分割,从所述表格图片中截取出该矩形框对应的单元格图片,其中,每个单元格图片中包含一个字符串组合。
进一步的,本发明将所述单元格图片输入至所述文字识别网络,以对所述单元格图片中的字符串组合的内容进行识别得到所述单元格字符内容。本发明实施例中,所述文字识别网络是经典的文字识别CRNN网络,通过该网络后得到可供编辑的所述单元格字符内容。
S13、依据所述位置信息,提取所述表格图片的第一表格布局。
本发明实施例中,所述依据所述位置信息,提取所述表格图片的第一表格布局,具体包括:提取所述位置信息中所述矩形框的左上角以及右下角的点的坐标值;依据所述左上角以及右下角的点的坐标值将相同横坐标的点对应的矩形框分为同一列,将相同纵坐标的点对应的矩形框分为同一行;计算总的行数以及总的列数作为所述第一表格布局。
本发明实施例中,通过所述位置信息在水平方向上和垂直方向上的重叠比例将包裹各个字符串组合的矩形框划分到表格图片对应的行列的位置。其中,相同行中矩形框的顶点的纵坐标相同或者相近,相同列的矩形框的横坐标相同或者相近。本发明可以设定当两个点的纵坐标相同或者两个点的纵坐标的差值在预设范围内时判断该两个点位于同一行,以及设定当两个点的横坐标相同或者两个点的横坐标的差值在预设范围内时判断该两个点位于同一列。本发明依据该原理,将矩形框的顶点的纵坐标相同或相近的划分为同一行,将横坐标相同或相近的划分为同一列。
请继续参考图3,如图3所示,同一列的矩形框的顶点的横坐标存在相同或相近的,而不同列的横坐标范围没有交集。同一行的矩形框具有重合的纵坐标的交集,而不同行的纵坐标范围不存在交集。
本发明实施例中,所述第一表格布局至少包括表格的行数以及列数。对于表格的名称内容,它具有跨列的文字长度,则可以将其先去除。通过以上规则,可以提取所述表格图片的行的数量N以及列的数量M,进一步的,提取出所述表格图片的N×M布局格式。
S14、依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
本发明实施例中,所述依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件,具体包括:依据所述第一表格布局绘制表格;将所述单元格字符对应填入绘制的表格的单元格中,生成所述表格图片的表格文件。
本发明实施例中,提取所述表格图片的第一表格布局之后绘制所述表格图片对应的表格,所述表格中包含与所述字符串组合数量相同的单元格。进一步的,本发明将识别出的单元格字符内容对应填入所述表格的单元格中生成表格文件,其内容可保存为csv或者json格式可供程序进行数据分析处理,从而实现表格图片的解析。
本发明实施例中,所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息之前,还包括:检测所述表格图片中是否包含网格线;若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。一种可能的设计中,如果所述表格图中表格有网格线,可以通过图像学开闭运算提取出所述第二表格布局。
实际上,本发明可以通过将所述第一表格布局与所述第二表格布局进行比对同时验证所述第一表格布局与所述第二表格布局的可靠性。
优选的,本发明还可以计算所述第二表格布局与所述第一表格布局的比对结果,所述比对结果被表达为所述第一表格布局与所述第二表格的差异点,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络,以提高本方案的识别精度。
请参考图4,在另一种实施例中,本发明提供了一种基于文字定位识别的表格图片解析装置,包括:
输入模块11,用于输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息。
本发明实施例中,预先通过输入多个目标样本进行深度网络的训练,训练出能够进行表格图片的文字定位的所述文字定位网络和能够进行表格图片文字识别的文字识别网络。具体的,对所述样本图片进行特征点提取以及特征融合,最终输出所述文字定位网络和所述文字识别网络。其中,所述目标样本至少包括图片样本以及标注的有文字的矩形框坐标。
深度网络的训练是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
本发明的总体思路为基于深度网络的训练的文字检测与识别过程,具体是通过FasterRCNN(基于深度学习的目标检测技术)、CTPN(自然场景文本检测)等定位网络针对图片中的文字进行检测和定位,得到文字的位置信息,然后将该位置信息所指向的区域输入到基于RNN文字识别网络如RCNN等进行文字的识别,得到该位置信息对应的字符串。
请参考图2,图2为基于EAST(场景文字检测)文字定位网络。本发明所应用的文字定位网络是基于EAST文字定位网络改进而成。具体的,本发明所应用的文字定位网络是在图2所示的网络结构中的score map后接入LSTM(长短期记忆网络),将score map提亮摸均匀,训练时使用dice loss替换focus-loss。其中,LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
进一步的,本发明所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息,具体包括:输入表格图片至预先训练的文字定位网络;获取所述表格图片中连续的若干个字符串作为一个字符串组合;获取包围所述字符串组合的最小的矩形框;建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。
请继续参考图3,图3为获取到所述表格图片中字符的位置信息示意图。如图3所示,所述表格图片中包含若干个字符串组合。通过所述文字定位网络后输出包裹各个字符串组合的最小矩形框。本发明实施例中,所述表格图片中字符的位置信息被表达为包裹所述字符串组合的最小矩形框的坐标值。本发明通过所述文字定位网络可以直接得到包裹所述字符串组合的矩形框的四个顶点的坐标。具体的,所述位置信息被表达为该矩形框的左上角以及右下角的坐标值。在实际使用时,因为表格文字基本是水平的,所以取得到的QuadGeometry这个函数中四个坐标的X轴最小值与最大值,Y轴的最小值与最大值,组成所述矩形框的左上角与右下角的坐标,从而得到标准的矩形框。例如,通过所述文字定位网络得到包裹某个字符串组合的最小矩形框的四个顶点的坐标分别为:A(X1,Y1)、A(X1,Y2)、A(X2,Y1)以及A(X2,Y2),依据X1、X2、Y1以及Y2的大小值,选取该矩形的左上角以及右下角的点的坐标值。
分割模块12,用于依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容。
本发明实施例中,依据所述位置信息确定一个矩形框,依据所述矩形框确定一个单元格图片。具体的,本发明依据所述矩形框对所述表格图片进行图像分割,从所述表格图片中截取出该矩形框对应的单元格图片,其中,每个单元格图片中包含一个字符串组合。
进一步的,本发明将所述单元格图片输入至所述文字识别网络,以对所述单元格图片中的字符串组合的内容进行识别得到所述单元格字符内容。本发明实施例中,所述文字识别网络是经典的文字识别CRNN网络,通过该网络后得到可供编辑的所述单元格字符内容。
提取模块13,用于依据所述位置信息,提取所述表格图片的第一表格布局。
本发明实施例中,所述依据所述位置信息,提取所述表格图片的第一表格布局,具体包括:提取所述位置信息中所述矩形框的左上角以及右下角的点的坐标值;依据所述左上角以及右下角的点的坐标值将相同横坐标的点对应的矩形框分为同一列,将相同纵坐标的点对应的矩形框分为同一行;计算总的行数以及总的列数作为所述第一表格布局。
本发明实施例中,通过所述位置信息在水平方向上和垂直方向上的重叠比例将包裹各个字符串组合的矩形框划分到表格图片对应的行列的位置。其中,相同行中矩形框的顶点的纵坐标相同或者相近,相同列的矩形框的横坐标相同或者相近。本发明可以设定当两个点的纵坐标相同或者两个点的纵坐标的差值在预设范围内时判断该两个点位于同一行,以及设定当两个点的横坐标相同或者两个点的横坐标的差值在预设范围内时判断该两个点位于同一列。本发明依据该原理,将矩形框的顶点的纵坐标相同或相近的划分为同一行,将横坐标相同或相近的划分为同一列。
请继续参考图3,如图3所示,同一列的矩形框的顶点的横坐标存在相同或相近的,而不同列的横坐标范围没有交集。同一行的矩形框具有重合的纵坐标的交集,而不同行的纵坐标范围不存在交集。
本发明实施例中,所述第一表格布局至少包括表格的行数以及列数。对于表格的名称内容,它具有跨列的文字长度,则可以将其先去除。通过以上规则,可以提取所述表格图片的行的数量N以及列的数量M,进一步的,提取出所述表格图片的N×M布局格式。
生成模块14,用于依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
本发明实施例中,所述依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件,具体包括:依据所述第一表格布局绘制表格;将所述单元格字符对应填入绘制的表格的单元格中,生成所述表格图片的表格文件。
本发明实施例中,提取所述表格图片的第一表格布局之后绘制所述表格图片对应的表格,所述表格中包含与所述字符串组合数量相同的单元格。进一步的,本发明将识别出的单元格字符内容对应填入所述表格的单元格中生成表格文件,其内容可保存为csv或者json格式可供程序进行数据分析处理,从而实现表格图片的解析。
本发明实施例中,所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息之前,还包括:检测所述表格图片中是否包含网格线;若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。一种可能的设计中,如果所述表格图中表格有网格线,可以通过图像学开闭运算提取出所述第二表格布局。
实际上,本发明可以通过将所述第一表格布局与所述第二表格布局进行比对同时验证所述第一表格布局与所述第二表格布局的可靠性。
优选的,本发明还可以计算所述第二表格布局与所述第一表格布局的比对结果,所述比对结果被表达为所述第一表格布局与所述第二表格的差异点,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络,以提高本方案的识别精度。
在另一种实施例中,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现任一项技术方案所述的基于文字定位识别的表格解析方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-OnlyMemory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明实施例提供的一种计算机可读存储介质,可实现输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;依据所述位置信息,提取所述表格图片的第一表格布局;依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。本发明可以利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。
此外,在又一种实施例中,本发明提供了一种计算机设备,如图5所示,所述计算机设备包括处理器303、存储器305、输入单元307以及显示单元309等器件。本领域技术人员可以理解,图5示出的结构器件并不构成对所有计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器305可用于存储应用程序301以及各功能模块,处理器303运行存储在存储器305的应用程序301,从而执行设备的各种功能应用以及数据处理。存储器305可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器305只作为例子而非作为限定。
输入单元307用于接收信号的输入,以及接收用户输入的关键字。输入单元307可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元309可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元309可采用液晶显示器、有机发光二极管等形式。处理器303是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器303内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。图5中所示的一个或多个处理器303能够执行、实现图4中所示的输入模块11、识别模块12、提取模块13以及生成模块14的功能。
在一种实施方式中,所述计算机设备包括存储器305和处理器303,所述存储器305中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器303执行以上实施例所述的一种基于文字定位识别的表格解析方法的步骤。
本发明实施例提供的一种计算机设备,可实现输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;依据所述位置信息,提取所述表格图片的第一表格布局;依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。本发明可以利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。
另一种实施例中,本发明还可以实现检测所述表格图片中是否包含网格线;若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。本发明还可以另外检测所述表格图片是否存在表格线,在所述表格图片存在表格线的情况下,直接提取所述表格线,然后将得到的第一表格布局与提取的表格线构成的第二表格布局进行比对以校验所述第一表格布局是否有效。本发明通过文字定位网络以及文字识别网络解析表格图片,可以兼容无表格线和有表格线或表格线残缺的情况,适用范围广。
本发明实施例提供的计算机可读存储介质可以实现上述基于文字定位识别的表格解析方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于文字定位识别的表格图片解析方法,其特征在于,所述方法包括:
输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;
依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;
依据所述位置信息,提取所述表格图片的第一表格布局;
依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
2.根据权利要求1所述的基于文字定位识别的表格图片解析方法,其特征在于,所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息,包括:
输入表格图片至预先训练的文字定位网络;
获取所述表格图片中连续的若干个字符串作为一个字符串组合;
获取包围所述字符串组合的最小的矩形框;
建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。
3.根据权利要求1所述的基于文字定位识别的表格图片解析方法,其特征在于,还包括:
输入表格图片的样本进行深度网络的训练,训练出所述文字定位网络以及所述文字识别网络。
4.根据权利要求2所述的基于文字定位识别的表格图片解析方法,其特征在于,所述依据所述位置信息,提取所述表格图片的第一表格布局,包括:
提取所述位置信息中所述矩形框的左上角以及右下角的点的坐标值;
依据所述左上角以及右下角的点的坐标值将相同横坐标的点对应的矩形框分为同一列,将相同纵坐标的点对应的矩形框分为同一行;
计算总的行数以及总的列数作为所述第一表格布局。
5.根据权利要求1所述的基于文字定位识别的表格图片解析方法,其特征在于,所述依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件,包括:
依据所述第一表格布局绘制表格;
将所述单元格字符对应填入绘制的表格的单元格中,生成所述表格图片的表格文件。
6.根据权利要求1所述的基于文字定位识别的表格图片解析方法,其特征在于,所述依据所述位置信息,提取所述表格图片的第一表格布局之后,包括:
检测所述表格图片中是否包含网格线;
若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;
将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。
7.根据权利要求6所述的基于文字定位识别的表格图片解析方法,其特征在于,所述依据所述位置信息,生成所述表格图片的第一表格布局之后,包括:
计算所述第二表格布局与所述第一表格布局的比对结果,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络。
8.一种基于文字定位识别的表格图片解析装置,其特征在于,所述方法包括:
输入模块,用于输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;
识别模块,用于依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;
提取模块,用于依据所述位置信息,提取所述表格图片的第一表格布局;
生成模块,用于依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7中任一项所述基于文字定位识别的表格图片解析方法的步骤。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述基于文字定位识别的表格图片解析方法的步骤。
CN201910115364.7A 2019-02-13 2019-02-13 基于文字定位识别的表格解析方法、介质及计算机设备 Pending CN109961008A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910115364.7A CN109961008A (zh) 2019-02-13 2019-02-13 基于文字定位识别的表格解析方法、介质及计算机设备
PCT/CN2019/118422 WO2020164281A1 (zh) 2019-02-13 2019-11-14 基于文字定位识别的表格解析方法、介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910115364.7A CN109961008A (zh) 2019-02-13 2019-02-13 基于文字定位识别的表格解析方法、介质及计算机设备

Publications (1)

Publication Number Publication Date
CN109961008A true CN109961008A (zh) 2019-07-02

Family

ID=67023672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910115364.7A Pending CN109961008A (zh) 2019-02-13 2019-02-13 基于文字定位识别的表格解析方法、介质及计算机设备

Country Status (2)

Country Link
CN (1) CN109961008A (zh)
WO (1) WO2020164281A1 (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334647A (zh) * 2019-07-03 2019-10-15 云南电网有限责任公司信息中心 一种基于图像识别的参数格式化方法
CN110347994A (zh) * 2019-07-12 2019-10-18 北京香侬慧语科技有限责任公司 一种表格处理方法和装置
CN110532968A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 表格识别方法、装置和存储介质
CN110826393A (zh) * 2019-09-17 2020-02-21 中国地质大学(武汉) 高效的钻孔柱状图信息自动提取方法
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN110956087A (zh) * 2019-10-25 2020-04-03 天津幸福生命科技有限公司 一种图片中表格的识别方法、装置、可读介质和电子设备
CN111178353A (zh) * 2019-12-16 2020-05-19 中国建设银行股份有限公司 一种图像文字的定位方法和装置
CN111368744A (zh) * 2020-03-05 2020-07-03 中国工商银行股份有限公司 图片中非结构化表格识别方法及装置
CN111382717A (zh) * 2020-03-17 2020-07-07 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN111428723A (zh) * 2020-04-02 2020-07-17 苏州杰锐思智能科技股份有限公司 字符识别方法及装置、电子设备、存储介质
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN111639637A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 表格识别方法、装置、电子设备和存储介质
CN111753727A (zh) * 2020-06-24 2020-10-09 北京百度网讯科技有限公司 用于提取结构化信息的方法、装置、设备及可读存储介质
CN111783735A (zh) * 2020-07-22 2020-10-16 欧冶云商股份有限公司 一种基于人工智能的钢材单据解析系统
CN112149506A (zh) * 2020-08-25 2020-12-29 北京来也网络科技有限公司 结合rpa和ai的图像中的表格生成方法、设备及存储介质
CN112541332A (zh) * 2020-12-08 2021-03-23 北京百度网讯科技有限公司 表单信息抽取方法、装置、电子设备及存储介质
CN112733855A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 表格结构化方法、表格恢复设备及具有存储功能的装置
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备
CN113065405A (zh) * 2021-03-08 2021-07-02 南京苏宁软件技术有限公司 图片识别方法、装置、计算机设备和存储介质
CN113112567A (zh) * 2021-04-16 2021-07-13 中国工商银行股份有限公司 生成可编辑流程图的方法、装置、电子设备和存储介质
CN113298167A (zh) * 2021-06-01 2021-08-24 北京思特奇信息技术股份有限公司 一种基于轻量级神经网络模型的文字检测方法及系统
CN113297308A (zh) * 2021-03-12 2021-08-24 北京房江湖科技有限公司 表格结构化信息提取方法、装置及电子设备
CN113553892A (zh) * 2020-12-31 2021-10-26 内蒙古卫数数据科技有限公司 一种基于深度学习和ocr的检验、体检报告单结果提取方法
CN113569677A (zh) * 2021-07-16 2021-10-29 国网天津市电力公司 一种基于扫描件的纸质试验报告生成方法
CN113609906A (zh) * 2021-06-30 2021-11-05 南京信息工程大学 一种面向文献的表格信息抽取方法
CN113807158A (zh) * 2020-12-04 2021-12-17 四川医枢科技股份有限公司 一种pdf内容提取方法、装置及设备
CN113989822A (zh) * 2021-12-24 2022-01-28 中奥智能工业研究院(南京)有限公司 基于计算机视觉和自然语言处理的图片表格内容提取方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112132794A (zh) * 2020-09-14 2020-12-25 杭州安恒信息技术股份有限公司 审计视频的文字定位方法、装置、设备和可读存储介质
CN111985459B (zh) * 2020-09-18 2023-07-28 北京百度网讯科技有限公司 表格图像校正方法、装置、电子设备和存储介质
CN112200117B (zh) * 2020-10-22 2023-10-13 长城计算机软件与系统有限公司 表格识别方法及装置
CN112686258A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 体检报告信息结构化方法、装置、可读存储介质和终端
CN112712014B (zh) * 2020-12-29 2024-04-30 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN113128490B (zh) * 2021-04-28 2023-12-05 湖南荣冠智能科技有限公司 一种处方信息扫描和自动识别方法
CN113378789B (zh) * 2021-07-08 2023-09-26 京东科技信息技术有限公司 单元格位置的检测方法、装置和电子设备
CN113392811B (zh) * 2021-07-08 2023-08-01 北京百度网讯科技有限公司 一种表格提取方法、装置、电子设备及存储介质
CN113538291B (zh) * 2021-08-02 2024-05-14 广州广电运通金融电子股份有限公司 卡证图像倾斜校正方法、装置、计算机设备和存储介质
CN114170616A (zh) * 2021-11-15 2022-03-11 嵊州市光宇实业有限公司 基于图纸组的电力工程物资信息采集及分析系统和方法
CN114612921B (zh) * 2022-05-12 2022-07-19 中信证券股份有限公司 表单识别方法、装置、电子设备和计算机可读介质
CN115841679B (zh) * 2023-02-23 2023-05-05 江西中至科技有限公司 图纸表格提取方法、系统、计算机及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150169972A1 (en) * 2013-12-12 2015-06-18 Aliphcom Character data generation based on transformed imaged data to identify nutrition-related data or other types of data
CN105512611A (zh) * 2015-11-25 2016-04-20 成都数联铭品科技有限公司 一种表格图像检测识别方法
CN108805076B (zh) * 2018-06-07 2021-01-08 浙江大学 环境影响评估报告书表格文字的提取方法及系统
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110334647A (zh) * 2019-07-03 2019-10-15 云南电网有限责任公司信息中心 一种基于图像识别的参数格式化方法
CN110347994A (zh) * 2019-07-12 2019-10-18 北京香侬慧语科技有限责任公司 一种表格处理方法和装置
CN110347994B (zh) * 2019-07-12 2023-06-30 北京香侬慧语科技有限责任公司 一种表格处理方法和装置
CN110532968A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 表格识别方法、装置和存储介质
CN110532968B (zh) * 2019-09-02 2023-05-23 苏州美能华智能科技有限公司 表格识别方法、装置和存储介质
CN110826393A (zh) * 2019-09-17 2020-02-21 中国地质大学(武汉) 高效的钻孔柱状图信息自动提取方法
CN110956087B (zh) * 2019-10-25 2024-04-19 北京懿医云科技有限公司 一种图片中表格的识别方法、装置、可读介质和电子设备
CN110956087A (zh) * 2019-10-25 2020-04-03 天津幸福生命科技有限公司 一种图片中表格的识别方法、装置、可读介质和电子设备
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
CN111178353A (zh) * 2019-12-16 2020-05-19 中国建设银行股份有限公司 一种图像文字的定位方法和装置
CN111368744B (zh) * 2020-03-05 2023-06-27 中国工商银行股份有限公司 图片中非结构化表格识别方法及装置
CN111368744A (zh) * 2020-03-05 2020-07-03 中国工商银行股份有限公司 图片中非结构化表格识别方法及装置
CN111382717A (zh) * 2020-03-17 2020-07-07 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN111382717B (zh) * 2020-03-17 2022-09-09 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN111428723A (zh) * 2020-04-02 2020-07-17 苏州杰锐思智能科技股份有限公司 字符识别方法及装置、电子设备、存储介质
CN111639637B (zh) * 2020-05-29 2023-08-15 北京百度网讯科技有限公司 表格识别方法、装置、电子设备和存储介质
CN111639637A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 表格识别方法、装置、电子设备和存储介质
CN111753727B (zh) * 2020-06-24 2023-06-23 北京百度网讯科技有限公司 用于提取结构化信息的方法、装置、设备及可读存储介质
CN111753727A (zh) * 2020-06-24 2020-10-09 北京百度网讯科技有限公司 用于提取结构化信息的方法、装置、设备及可读存储介质
CN111783735A (zh) * 2020-07-22 2020-10-16 欧冶云商股份有限公司 一种基于人工智能的钢材单据解析系统
CN112149506A (zh) * 2020-08-25 2020-12-29 北京来也网络科技有限公司 结合rpa和ai的图像中的表格生成方法、设备及存储介质
CN113807158A (zh) * 2020-12-04 2021-12-17 四川医枢科技股份有限公司 一种pdf内容提取方法、装置及设备
CN112541332A (zh) * 2020-12-08 2021-03-23 北京百度网讯科技有限公司 表单信息抽取方法、装置、电子设备及存储介质
CN112541332B (zh) * 2020-12-08 2023-06-23 北京百度网讯科技有限公司 表单信息抽取方法、装置、电子设备及存储介质
CN112733855B (zh) * 2020-12-30 2024-04-09 科大讯飞股份有限公司 表格结构化方法、表格恢复设备及具有存储功能的装置
CN112733855A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 表格结构化方法、表格恢复设备及具有存储功能的装置
CN113553892A (zh) * 2020-12-31 2021-10-26 内蒙古卫数数据科技有限公司 一种基于深度学习和ocr的检验、体检报告单结果提取方法
CN113065405B (zh) * 2021-03-08 2022-12-23 南京苏宁软件技术有限公司 图片识别方法、装置、计算机设备和存储介质
CN113065405A (zh) * 2021-03-08 2021-07-02 南京苏宁软件技术有限公司 图片识别方法、装置、计算机设备和存储介质
CN113297308A (zh) * 2021-03-12 2021-08-24 北京房江湖科技有限公司 表格结构化信息提取方法、装置及电子设备
CN113297308B (zh) * 2021-03-12 2023-09-22 贝壳找房(北京)科技有限公司 表格结构化信息提取方法、装置及电子设备
CN112906695B (zh) * 2021-04-14 2022-03-08 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备
CN113112567A (zh) * 2021-04-16 2021-07-13 中国工商银行股份有限公司 生成可编辑流程图的方法、装置、电子设备和存储介质
CN113298167A (zh) * 2021-06-01 2021-08-24 北京思特奇信息技术股份有限公司 一种基于轻量级神经网络模型的文字检测方法及系统
CN113609906A (zh) * 2021-06-30 2021-11-05 南京信息工程大学 一种面向文献的表格信息抽取方法
CN113569677A (zh) * 2021-07-16 2021-10-29 国网天津市电力公司 一种基于扫描件的纸质试验报告生成方法
CN113989822B (zh) * 2021-12-24 2022-03-08 中奥智能工业研究院(南京)有限公司 基于计算机视觉和自然语言处理的图片表格内容提取方法
CN113989822A (zh) * 2021-12-24 2022-01-28 中奥智能工业研究院(南京)有限公司 基于计算机视觉和自然语言处理的图片表格内容提取方法

Also Published As

Publication number Publication date
WO2020164281A1 (zh) 2020-08-20

Similar Documents

Publication Publication Date Title
CN109961008A (zh) 基于文字定位识别的表格解析方法、介质及计算机设备
JP7397786B2 (ja) クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体
CN104268603B (zh) 用于文字性客观题的智能阅卷方法及系统
Kin et al. Proton++ a customizable declarative multitouch framework
KR101825154B1 (ko) 중첩 쓰기 핸드라이팅 입력방법
CN105047029B (zh) 一种自动展示几何题解题过程的课件生成方法
CN109766540A (zh) 通用文本信息提取方法、装置、计算机设备和存储介质
CN109815156A (zh) 页面中视觉元素的展示测试方法、装置、设备和存储介质
CN107450714A (zh) 基于增强现实和图像识别的人机交互支撑测试系统
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
CN110554774A (zh) 一种面向ar的导航式交互范式系统
CN106325688A (zh) 一种文本处理方法及装置
CN107343223A (zh) 视频片段的识别方法和装置
CN111310613B (zh) 一种图像检测方法、装置以及计算机可读存储介质
US11984040B2 (en) Methods and systems of automatically creating digital sport playbooks
CN106537387B (zh) 检索/存储与事件相关联的图像
CN110378278A (zh) 神经网络的训练方法、对象搜索方法、装置以及电子设备
EP3712850A1 (en) Image processing device, image processing method, and image processing system
CN109460770A (zh) 图像特征描述符提取方法、装置、计算机设备和存储介质
CN110363190A (zh) 一种文字识别方法、装置及设备
US9830533B2 (en) Analyzing and exploring images posted on social media
CN109858318A (zh) 风景图像的类别识别方法及装置
Suhr et al. Nlvr2 visual bias analysis
CN109613979B (zh) 一种字符输入方法、装置、ar设备和计算机存储介质
CN112925470B (zh) 交互式电子白板的触摸控制方法、系统和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination