CN107679024B - 识别表格的方法、系统、计算机设备、可读存储介质 - Google Patents

识别表格的方法、系统、计算机设备、可读存储介质 Download PDF

Info

Publication number
CN107679024B
CN107679024B CN201710813514.2A CN201710813514A CN107679024B CN 107679024 B CN107679024 B CN 107679024B CN 201710813514 A CN201710813514 A CN 201710813514A CN 107679024 B CN107679024 B CN 107679024B
Authority
CN
China
Prior art keywords
line
picture
classification model
sample
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710813514.2A
Other languages
English (en)
Other versions
CN107679024A (zh
Inventor
洪光华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANJET INFORMATION TECHNOLOGY CO LTD
Original Assignee
CHANJET INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHANJET INFORMATION TECHNOLOGY CO LTD filed Critical CHANJET INFORMATION TECHNOLOGY CO LTD
Priority to CN201710813514.2A priority Critical patent/CN107679024B/zh
Publication of CN107679024A publication Critical patent/CN107679024A/zh
Application granted granted Critical
Publication of CN107679024B publication Critical patent/CN107679024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种识别表格的方法、识别表格的系统、计算机设备、计算机可读存储介质。其中,识别表格的方法包括:按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;获取矩形图片块在待识别图片中的位置信息;使用线条分类模型识别多个矩形图片块中线条的类型;结合线条的类型和位置信息,创建待识别图片中的表格。本发明为跨系统数据录入提供了一个高效的技术方案,可以在表单图片有噪音的情况下识别表格线,能够避免用户陷入繁杂冗余的操作中,大大提高用户的体验度。

Description

识别表格的方法、系统、计算机设备、可读存储介质
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种识别表格的方法、识别表格的系统、计算机设备、计算机可读存储介质。
背景技术
在零售批发行业中,用户之间的信息系统没有打通,他们只能通过打印单据来交换信息,而其中大部分都是表格形式存在。表单接收方为了利用自己的系统,需要花费人力来录入表单中的数据。而人工进行数据录入,不仅存在成本高而且出现错误不容校正问题,因此机器识别单据自动导入数据就变得有吸引力。另外在神经网络和深度学习高度发展和GPU应用为表格的识别提供了基础。
因此,如何为跨系统数据录入提供了一个高效的技术方案成为亟待解决的问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明第一个方面在于提出一种识别表格的方法。
本发明的第二个方面在于提出一种识别表格的系统。
本发明的第三个方面在于提出一种计算机设备。
本发明的第四个方面在于提出一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种识别表格的方法,包括:按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;使用线条分类模型识别多个矩形图片块中线条的类型;获取矩形图片块在待识别图片中的位置信息;结合线条的类型和位置信息,创建待识别图片中的表格。
本发明提供的识别表格的方法,首先,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,这里的线条分类模型为神经网络模型的一种;获取每个矩形图片块在原图片中的相对位置信息,最后,根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格。实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
根据本发明的上述识别表格的方法,还可以具有以下技术特征:
在上述技术方案中,优选地,预设规则为:每个矩形图片块中最多只包含一个表格的交叉点。
在该技术方案中,具体限定了预设规则为每个矩形图片块中最多只包含一个表格的交叉点,即每个矩形图片块中可以只是一条直线,也可以线条的交点,但必须保证交点只有一个,限定了划分的矩形图片块不能太大,避免了丢失部分表格信息。
在上述任一技术方案中,优选地,在按照预设规则在水平和垂直方向上将待识别图片切割为多个图片块之前,还包括:创建线条分类模型;创建线条分类模型的过程,具体包括:使用卷积神经网络算法抽取样本图片的样本图片特征信息;获取样本图片特征中的样本线条特征信息;将样本线条特征信息接入全连接层以使样本线条特征信息映射到样本标记空间;将映射结果接入分类层以得到线条分类模型。
在该技术方案中,在按照预设规则在水平和垂直方向上将待识别图片切割为多个图片块之前,也就是在具体识别图片中表格之前,要先创建线条分类模型,以便在具体的图片表格识别的过程识别表格线条的类型;建线条分类模型的具体过程,使用卷积神经网络算法抽取样本图片的样本图片特征信息,在抽取的样本图片特征信息再次获取其中的样本线条特征信息,能够将样本图片特征信息中对创建线条分类模型有用的样本线条特征信息筛选出来,然后接入3层全连接层,再接入分类层,如此,线条分类模型就搭建完毕。当然,本申请中的搭建线条分类模型的方式不限于上述方式,还可以利用现有的比较成熟的神经网络模型vgg16和对应的参数,接入本模型需要的类别的方式搭建线条分类模型。
在上述任一技术方案中,优选地,在将映射结果接入分类层以得到线条分类模型之后,还包括:使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛;其中,数据合成的影响因素至少包括:线条大小、线条颜色、背景噪音、文字噪音、视觉扭曲。
在该技术方案中,在将映射结果接入分类层以得到线条分类模型之后,也就是在创建完线条分类模型之后,使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛,在使用数据生成器训练线条分类模型时,batch size(批尺寸)可以设置大一些。如果在特定方向上,训练数据较少,在数据生成器自动训练线条分类模型后,还可以使用人工标注数据的方式训练微调。在训练线条分类模型过程中,要结合数据合成的影响因素训练,这样训练得出的模型才更加健壮。
在上述任一技术方案中,优选地,使用线条模型识别多个矩形图片块中线条的类型,具体包括:获取多个矩形图片块中的图片特征信息;将图片特征信息中除线条特征信息之外的信息确认为噪音;将线条特征信息匹配到样本线条特征信息,输出样本线条特征信息对应的线条类型。
在该技术方案中,使用线条模型识别多个矩形图片块中线条的类型具体步骤,首先获取每个矩形图片块中的图片特征信息,因为在所有的图片特征信息中只有线条特征信息是被需要的,所以,将图片特征信息中除线条特征信息之外的信息确认为噪音,之后,在将抽取的线条特征信息匹配到样本线条特征信息,最终输出了样本线条特征信息对应的线条类型,实现了矩形图片中的线条类型的识别。
在上述任一技术方案中,优选地,在使用线条分类模型识别多个矩形图片块中线条的类型之后,还包括:在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果。
在该技术方案中,虽然训练后的线条分类模型精度较高,但仍然可能存在少量错误,那么,在使用线条分类模型识别多个矩形图片块中线条的类型之后,判断矩形图片块中的线条的类型的识别结果是否完全正确,在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果,从而进一步提高了创建的表格的准确性。
在上述任一技术方案中,优选地,线条分类模型中包括12种线条类型。
在该技术方案中,具体限定了线条分类模型中线条的种类,在线条分类模型中定义线条种类的名称,比如,可以分别用“T,B,L,R,LT,RT,LB,RB,C,H,V,E”代表12种不同的线条种类,以实现对12种不同的线条种类的区分。
根据本发明的第二个方面,提出了一种识别表格的系统,包括:分割单元,用于按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;识别单元,用于使用线条分类模型识别多个矩形图片块中线条的类型;第一获取单元,用于获取矩形图片块在待识别图片中的位置信息;第一创建单元,用于结合线条的类型和位置信息,创建待识别图片中的表格。
本发明提供的识别表格的系统,首先,分割单元按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;识别单元使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,这里的线条分类模型为神经网络模型的一种;第一获取单元获取每个矩形图片块在原图片中的相对位置信息,最后,第一创建单元根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格。实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
根据本发明的上述识别表格的系统,还可以具有以下技术特征:
在上述技术方案中,优选地,预设规则为:每个矩形图片块中最多只包含一个表格的交叉点。
在该技术方案中,具体限定了预设规则为每个矩形图片块中最多只包含一个表格的交叉点,即每个矩形图片块中可以只是一条直线,也可以线条的交点,但必须保证交点只有一个,限定了划分的矩形图片块不能太大,避免了丢失部分表格信息。
在上述任一技术方案中,优选地,第二创建单元,用于创建线条分类模型;第二创建单元具体包括:抽取单元,用于使用卷积神经网络算法抽取样本图片的样本图片特征信息;第二获取单元,用于获取样本图片特征中的样本线条特征信息;第一接入单元,用于将样本线条特征信息接入全连接层以使样本线条特征信息映射到样本标记空间;第二接入单元,用于将映射结果接入分类层以得到线条分类模型。
在该技术方案中,在按照预设规则在水平和垂直方向上将待识别图片切割为多个图片块之前,也就是在具体识别图片中表格之前,第二创建单元要先创建线条分类模型,以便在具体的图片表格识别的过程识别表格线条的类型;建线条分类模型的具体过程,抽取单元使用卷积神经网络算法抽取样本图片的样本图片特征信息,第二获取单元在抽取的样本图片特征信息再次获取其中的样本线条特征信息,能够将样本图片特征信息中对创建线条分类模型有用的样本线条特征信息筛选出来,然后第一接入单元接入3层全连接层,第二接入单元再接入分类层,如此,线条分类模型就搭建完毕。当然,本申请中的搭建线条分类模型的方式不限于上述方式,还可以利用现有的比较成熟的神经网络模型vgg16和对应的参数,接入本模型需要的类别的方式搭建线条分类模型。
在上述任一技术方案中,优选地,训练单元,用于使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛;其中,数据合成的影响因素至少包括:线条大小、线条颜色、背景噪音、文字噪音、视觉扭曲。
在该技术方案中,在将映射结果接入分类层以得到线条分类模型之后,也就是在创建完线条分类模型之后,训练单元使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛,在使用数据生成器训练线条分类模型时,batch size(批尺寸)可以设置大一些。如果在特定方向上,训练数据较少,在数据生成器自动训练线条分类模型后,还可以使用人工标注数据的方式训练微调。在训练线条分类模型过程中,要结合数据合成的影响因素训练,这样训练得出的模型才更加健壮。
在上述任一技术方案中,优选地,识别单元具体包括:第三获取单元,用于获取多个矩形图片块中的图片特征信息;确认单元,用于将图片特征信息中除线条特征信息之外的信息确认为噪音;匹配单元,用于将线条特征信息匹配到样本线条特征信息,输出样本线条特征信息对应的线条类型。
在该技术方案中,使用线条模型识别多个矩形图片块中线条的类型具体步骤,首先第三获取单元获取每个矩形图片块中的图片特征信息,因为在所有的图片特征信息中只有线条特征信息是被需要的,所以,确认单元将图片特征信息中除线条特征信息之外的信息确认为噪音,之后,匹配单元在将抽取的线条特征信息匹配到样本线条特征信息,最终输出了样本线条特征信息对应的线条类型,实现了矩形图片中的线条类型的识别。
在上述任一技术方案中,优选地,修正单元,用于在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果。
在该技术方案中,虽然训练后的线条分类模型精度较高,但仍然可能存在少量错误,那么,在使用线条分类模型识别多个矩形图片块中线条的类型之后,判断矩形图片块中的线条的类型的识别结果是否完全正确,在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,修正单元根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果,从而进一步提高了创建的表格的准确性。
在上述任一技术方案中,优选地,线条分类模型中包括12种线条类型。
在该技术方案中,具体限定了线条分类模型中线条的种类,在线条分类模型中定义线条种类的名称,比如,可以分别用“T,B,L,R,LT,RT,LB,RB,C,H,V,E”代表12种不同的线条种类,以实现对12种不同的线条种类的区分。
根据本发明的第三个方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;获取矩形图片块在待识别图片中的位置信息;使用线条分类模型识别多个矩形图片块中线条的类型;结合线条的类型和位置信息,创建待识别图片中的表格。
本发明提供的一种计算机设备,处理器执行计算机程序时实现:首先,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,这里的线条分类模型为神经网络模型的一种;获取每个矩形图片块在原图片中的相对位置信息,最后,根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格。实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
根据本发明的第四个方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;获取矩形图片块在待识别图片中的位置信息;使用线条分类模型识别多个矩形图片块中线条的类型;结合线条的类型和位置信息,创建待识别图片中的表格。
本发明提供的一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现:首先,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,这里的线条分类模型为神经网络模型的一种;获取每个矩形图片块在原图片中的相对位置信息,最后,根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格。实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的识别表格的方法的流程示意图;
图2示出了本发明的另一个实施例的识别表格的方法的流程示意图;
图3示出了本发明的再一个实施例的识别表格的方法的流程示意图;
图4示出了本发明的一个实施例的识别表格的系统的示意框图;
图5示出了本发明的另一个实施例的识别表格的系统的示意框图;
图6示出了本发明的一个实施例的计算机设备的示意框图;
图7示出了本发明的一个实施例的识别表格的原理示意图。
具体实施方式
为了能够更清楚地理解本发明的上述方面、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出一种识别表格的方法,图1示出了本发明的一个实施例的识别表格的方法的流程示意图:
步骤102,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;
步骤104,使用线条分类模型识别多个矩形图片块中线条的类型;
步骤106,获取矩形图片块在待识别图片中的位置信息;
步骤108,结合线条的类型和位置信息,创建待识别图片中的表格。
本发明提供的识别表格的方法,首先,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,这里的线条分类模型为神经网络模型的一种;获取每个矩形图片块在原图片中的相对位置信息,最后,根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格,最终实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
图2示出了本发明的另一个实施例的识别表格的方法的流程示意图。其中,该方法包括:
步骤202,使用卷积神经网络算法抽取样本图片的样本图片特征信息;
步骤204,获取样本图片特征中的样本线条特征信息;
步骤206,将样本线条特征信息接入全连接层以使样本线条特征信息映射到样本标记空间;
步骤208,将映射结果接入分类层以得到线条分类模型;
步骤210,使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛;
步骤212,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;
步骤214,使用线条分类模型识别多个矩形图片块中线条的类型;
步骤216,获取矩形图片块在待识别图片中的位置信息;
步骤218,结合线条的类型和位置信息,创建待识别图片中的表格。
其中,数据合成的影响因素至少包括:线条大小、线条颜色、背景噪音、文字噪音、视觉扭曲。
在本发明的一个实施例中,优选地,预设规则为:每个矩形图片块中最多只包含一个表格的交叉点。
在该实施例中,具体限定了预设规则为每个矩形图片块中最多只包含一个表格的交叉点,即每个矩形图片块中可以只是一条直线,也可以线条的交点,但必须保证交点只有一个,限定了划分的矩形图片块不能太大,避免了丢失部分表格信息。
在本发明的一个实施例中,优选地,在按照预设规则在水平和垂直方向上将待识别图片切割为多个图片块之前,还包括:创建线条分类模型;创建线条分类模型的过程,具体包括:使用卷积神经网络算法抽取样本图片的样本图片特征信息;获取样本图片特征中的样本线条特征信息;将样本线条特征信息接入全连接层以使样本线条特征信息映射到样本标记空间;将映射结果接入分类层以得到线条分类模型。
在该实施例中,在按照预设规则在水平和垂直方向上将待识别图片切割为多个图片块之前,也就是在具体识别图片中表格之前,要先创建线条分类模型,以便在具体的图片表格识别的过程识别表格线条的类型;建线条分类模型的具体过程,使用卷积神经网络算法抽取样本图片的样本图片特征信息,在抽取的样本图片特征信息再次获取其中的样本线条特征信息,能够将样本图片特征信息中对创建线条分类模型有用的样本线条特征信息筛选出来,然后接入3层全连接层,再接入分类层,如此,线条分类模型就搭建完毕。当然,本申请中的搭建线条分类模型的方式不限于上述方式,还可以利用现有的比较成熟的神经网络模型vgg16和对应的参数,接入本模型需要的类别的方式搭建线条分类模型。
在本发明的一个实施例中,优选地,在将映射结果接入分类层以得到线条分类模型之后,还包括:使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛;其中,数据合成的影响因素至少包括:线条大小、线条颜色、背景噪音、文字噪音、视觉扭曲。
在该实施例中,在将映射结果接入分类层以得到线条分类模型之后,也就是在创建完线条分类模型之后,使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛,在使用数据生成器训练线条分类模型时,batch size(批尺寸)可以设置大一些。如果在特定方向上,训练数据较少,在数据生成器自动训练线条分类模型后,还可以使用人工标注数据的方式训练微调。在训练线条分类模型过程中,要结合数据合成的影响因素训练,这样训练得出的模型才更加健壮。
图3示出了本发明的再一个实施例的识别表格的方法的流程示意图。其中,该方法包括:
步骤302,使用卷积神经网络算法抽取样本图片的样本图片特征信息;
步骤304,获取样本图片特征中的样本线条特征信息;
步骤306,将样本线条特征信息接入全连接层以使样本线条特征信息映射到样本标记空间;
步骤308,将映射结果接入分类层以得到线条分类模型;
步骤310,使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛;
步骤312,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;
步骤314,获取多个矩形图片块中的图片特征信息;
步骤316,将图片特征信息中除线条特征信息之外的信息确认为噪音;
步骤318,将线条特征信息匹配到样本线条特征信息,输出样本线条特征信息对应的线条类型;
步骤320,在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果;
步骤322,获取矩形图片块在待识别图片中的位置信息;
步骤324,结合线条的类型和位置信息,创建待识别图片中的表格。
在本发明的一个实施例中,优选地,使用线条模型识别多个矩形图片块中线条的类型,具体包括:获取多个矩形图片块中的图片特征信息;将图片特征信息中除线条特征信息之外的信息确认为噪音;将线条特征信息匹配到样本线条特征信息,输出样本线条特征信息对应的线条类型。
在该实施例中,使用线条模型识别多个矩形图片块中线条的类型具体步骤,首先获取每个矩形图片块中的图片特征信息,因为在所有的图片特征信息中只有线条特征信息是被需要的,所以,将图片特征信息中除线条特征信息之外的信息确认为噪音,之后,在将抽取的线条特征信息匹配到样本线条特征信息,最终输出了样本线条特征信息对应的线条类型,实现了矩形图片中的线条类型的识别。
在本发明的一个实施例中,优选地,在使用线条分类模型识别多个矩形图片块中线条的类型之后,还包括:在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果。
在该实施例中,虽然训练后的线条分类模型精度较高,但仍然可能存在少量错误,那么,在使用线条分类模型识别多个矩形图片块中线条的类型之后,判断矩形图片块中的线条的类型的识别结果是否完全正确,在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果,从而进一步提高了创建的表格的准确性。
在本发明的一个实施例中,优选地,线条分类模型中包括12种线条类型。
在该实施例中,具体限定了线条分类模型中线条的种类,在线条分类模型中定义线条种类的名称,比如,可以分别用“T,B,L,R,LT,RT,LB,RB,C,H,V,E”代表12种不同的线条种类,以实现对12种不同的线条种类的区分。
本发明第二方面的实施例,提出一种识别表格的系统400,图4示出了本发明的一个实施例的识别表格的系统400的示意框图;
分割单元402,用于按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;
识别单元404,用于使用线条分类模型识别多个矩形图片块中线条的类型;
第一获取单元406,用于获取矩形图片块在待识别图片中的位置信息;
第一创建单元408,用于结合线条的类型和位置信息,创建待识别图片中的表格。
本发明提供的识别表格的系统400,首先,分割单元402按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;识别单元404使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,这里的线条分类模型为神经网络模型的一种;第一获取单元406获取每个矩形图片块在原图片中的相对位置信息,最后,第一创建单元408根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格。实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
图5示出了本发明的另一个实施例的识别表格的系统500的示意框图。其中,识别表格的系统500包括:
分割单元502,用于按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;
识别单元504,用于使用线条分类模型识别多个矩形图片块中线条的类型;
第一获取单元506,用于获取矩形图片块在待识别图片中的位置信息;
第一创建单元508,用于结合线条的类型和位置信息,创建待识别图片中的表格;
第二创建单元510,用于创建线条分类模型;
训练单元512,用于使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛;
修正单元514,用于在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果。
其中,识别单元504具体包括:
第三获取单元5042,用于获取多个矩形图片块中的图片特征信息;
确认单元5044,用于将图片特征信息中除线条特征信息之外的信息确认为噪音;
匹配单元5046,用于将线条特征信息匹配到样本线条特征信息,输出样本线条特征信息对应的线条类型。
第二创建单元510具体包括:
抽取单元5102,用于使用卷积神经网络算法抽取样本图片的样本图片特征信息;
第二获取单元5104,用于获取样本图片特征中的样本线条特征信息;
第一接入单元5106,用于将样本线条特征信息接入全连接层以使样本线条特征信息映射到样本标记空间;
第二接入单元5108,用于将映射结果接入分类层以得到线条分类模型。
在本发明的一个实施例中,优选地,预设规则为:每个矩形图片块中最多只包含一个表格的交叉点。
在该实施例中,具体限定了预设规则为每个矩形图片块中最多只包含一个表格的交叉点,即每个矩形图片块中可以只是一条直线,也可以线条的交点,但必须保证交点只有一个,限定了划分的矩形图片块不能太大,避免了丢失部分表格信息。
在本发明的一个实施例中,优选地,第二创建单元510,用于创建线条分类模型;第二创建单元具体包括:抽取单元5102,用于使用卷积神经网络算法抽取样本图片的样本图片特征信息;第二获取单元5104,用于获取样本图片特征中的样本线条特征信息;第一接入单元5106,用于将样本线条特征信息接入全连接层以使样本线条特征信息映射到样本标记空间;第二接入单元5108,用于将映射结果接入分类层以得到线条分类模型。
在该实施例中,在按照预设规则在水平和垂直方向上将待识别图片切割为多个图片块之前,也就是在具体识别图片中表格之前,第二创建单元510要先创建线条分类模型,以便在具体的图片表格识别的过程识别表格线条的类型;建线条分类模型的具体过程,抽取单元5102使用卷积神经网络算法抽取样本图片的样本图片特征信息,第二获取单元5104在抽取的样本图片特征信息再次获取其中的样本线条特征信息,能够将样本图片特征信息中对创建线条分类模型有用的样本线条特征信息筛选出来,然后第一接入单元5106接入3层全连接层,第二接入单元5108再接入分类层,如此,线条分类模型就搭建完毕。当然,本申请中的搭建线条分类模型的方式不限于上述方式,还可以利用现有的比较成熟的神经网络模型vgg16和对应的参数,接入本模型需要的类别的方式搭建线条分类模型。
在本发明的一个实施例中,优选地,训练单元512,用于使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛;其中,数据合成的影响因素至少包括:线条大小、线条颜色、背景噪音、文字噪音、视觉扭曲。
在该实施例中,在将映射结果接入分类层以得到线条分类模型之后,也就是在创建完线条分类模型之后,训练单元512使用数据生成器结合数据合成的影响因素训练线条分类模型直至线条分类模型收敛,在使用数据生成器训练线条分类模型时,batch size(批尺寸)可以设置大一些。如果在特定方向上,训练数据较少,在数据生成器自动训练线条分类模型后,还可以使用人工标注数据的方式训练微调。在训练线条分类模型过程中,要结合数据合成的影响因素训练,这样训练得出的模型才更加健壮。
在本发明的一个实施例中,优选地,识别单元504具体包括:第三获取单元5042,用于获取多个矩形图片块中的图片特征信息;确认单元5044,用于将图片特征信息中除线条特征信息之外的信息确认为噪音;匹配单元5046,用于将线条特征信息匹配到样本线条特征信息,输出样本线条特征信息对应的线条类型。
在该实施例中,使用线条模型识别多个矩形图片块中线条的类型具体步骤,首先第三获取单元5042获取每个矩形图片块中的图片特征信息,因为在所有的图片特征信息中只有线条特征信息是被需要的,所以,确认单元5044将图片特征信息中除线条特征信息之外的信息确认为噪音,之后,匹配单元5046在将抽取的线条特征信息匹配到样本线条特征信息,最终输出了样本线条特征信息对应的线条类型,实现了矩形图片中的线条类型的识别。
在本发明的一个实施例中,优选地,修正单元514,用于在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果。
在该实施例中,虽然训练后的线条分类模型精度较高,但仍然可能存在少量错误,那么,在使用线条分类模型识别多个矩形图片块中线条的类型之后,判断矩形图片块中的线条的类型的识别结果是否完全正确,在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,修正单元514根据某一矩形图片块位置信息及其他矩形图片块的识别结果修正错误识别结果,从而进一步提高了创建的表格的准确性。
在本发明的一个实施例中,优选地,线条分类模型中包括12种线条类型。
在该实施例中,具体限定了线条分类模型中线条的种类,在线条分类模型中定义线条种类的名称,比如,可以分别用“T,B,L,R,LT,RT,LB,RB,C,H,V,E”代表12种不同的线条种类,以实现对12种不同的线条种类的区分。
本发明第三方面的实施例,提出一种计算机设备,图6示出了本发明的一个实施例的计算机设备600的示意框图。其中,该计算机设备600包括:
存储器602、处理器604及存储在存储器602上并可在处理器604上运行的计算机程序,处理器604执行计算机程序时实现以下步骤:按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;获取矩形图片块在待识别图片中的位置信息;使用线条分类模型识别多个矩形图片块中线条的类型;结合线条的类型和位置信息,创建待识别图片中的表格。
本发明提供的一种计算机设备600,处理器604执行计算机程序时实现:首先,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,这里的线条分类模型为神经网络模型的一种;获取每个矩形图片块在原图片中的相对位置信息,最后,根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格。实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
本发明第四方面的实施例,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;获取矩形图片块在待识别图片中的位置信息;使用线条分类模型识别多个矩形图片块中线条的类型;结合线条的类型和位置信息,创建待识别图片中的表格。
本发明提供的一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现:首先,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,这里的线条分类模型为神经网络模型的一种;获取每个矩形图片块在原图片中的相对位置信息,最后,根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格。实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
如图7所示识别表格的原理,首先,按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块,这里必须要保证划分的矩形在表格的水平和垂直方向,使得每个矩形图片块中的表格线条符合预设规则,在满足预设规则的前提下,划分的矩形图片块越小,恢复出的表格精度就越高,但同时需要计算的内容也就越多,划分的矩形图片块越小,精度就越小;使用预先建立的线条分类模型识别划分后的每矩形图片块中被分割的表格线条的类型,线条分类模型中包括12种线条类型,获取每个矩形图片块在原图片中的相对位置信息,最后,根据线条分类模型识别的线条类型以及获取的矩形图片块在原图片中的相对位置信息构建出原始图片中的表格。实现了机器自动识别并创建图片中表格,能够避免用户陷入繁杂冗余的操作中,为跨系统数据录入提供了一个高效的技术方案,大大提高用户的体验度。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种识别表格的方法,其特征在于,包括:
按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;
使用线条分类模型识别所述多个矩形图片块中线条的类型;
获取所述矩形图片块在所述待识别图片中的位置信息;
结合所述线条的类型和所述位置信息,创建所述待识别图片中的表格;
在所述按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块之前,还包括:
创建所述线条分类模型;
所述创建所述线条分类模型的过程,具体包括:
使用卷积神经网络算法抽取样本图片的样本图片特征信息;
获取所述样本图片特征信息中的样本线条特征信息;
将所述样本线条特征信息接入全连接层以使所述样本线条特征信息映射到样本标记空间;
将映射结果接入分类层以得到所述线条分类模型。
2.根据权利要求1所述的识别表格的方法,其特征在于,
所述预设规则为:每个所述矩形图片块中最多只包含一个表格的交叉点。
3.根据权利要求1所述的识别表格的方法,其特征在于,在所述将映射结果接入分类层以得到所述线条分类模型之后,还包括:
使用数据生成器结合数据合成的影响因素训练所述线条分类模型直至所述线条分类模型收敛;
其中,所述数据合成的影响因素至少包括:线条大小、线条颜色、背景噪音、文字噪音、视觉扭曲。
4.根据权利要求3所述的识别表格的方法,其特征在于,所述使用线条分类模型识别所述多个矩形图片块中线条的类型,具体包括:
获取所述多个矩形图片块中的图片特征信息;
将所述图片特征信息中除线条特征信息之外的信息确认为噪音;
将所述线条特征信息匹配到所述样本线条特征信息,输出所述样本线条特征信息对应的所述线条类型。
5.根据权利要求1所述的识别表格的方法,其特征在于,在所述使用线条分类模型识别所述多个矩形图片块中线条的类型之后,还包括:
在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据所述某一矩形图片块位置信息及其他所述矩形图片块的所述识别结果修正所述错误识别结果。
6.根据权利要求1至5中任一项所述的识别表格的方法,其特征在于,
所述线条分类模型中包括12种线条类型。
7.一种识别表格的系统,其特征在于,包括:
分割单元,用于按照预设规则在水平和垂直方向上将待识别图片分割为多个矩形图片块;
识别单元,用于使用线条分类模型识别所述多个矩形图片块中线条的类型;
第一获取单元,用于获取所述矩形图片块在所述待识别图片中的位置信息;
第一创建单元,用于结合所述线条的类型和所述位置信息,创建所述待识别图片中的表格;
所述识别表格的系统还包括:
第二创建单元,用于创建所述线条分类模型;
所述第二创建单元具体包括:
抽取单元,用于使用卷积神经网络算法抽取样本图片的样本图片特征信息;
第二获取单元,用于获取所述样本图片特征信息中的样本线条特征信息;
第一接入单元,用于将所述样本线条特征信息接入全连接层以使所述样本线条特征信息映射到样本标记空间;
第二接入单元,用于将映射结果接入分类层以得到所述线条分类模型。
8.根据权利要求7所述的识别表格的系统,其特征在于,
所述预设规则为:每个所述矩形图片块中最多只包含一个表格的交叉点。
9.根据权利要求7所述的识别表格的系统,其特征在于,还包括:
训练单元,用于使用数据生成器结合数据合成的影响因素训练所述线条分类模型直至所述线条分类模型收敛;
其中,所述数据合成的影响因素至少包括:线条大小、线条颜色、背景噪音、文字噪音、视觉扭曲。
10.根据权利要求9所述的识别表格的系统,其特征在于,所述识别单元具体包括:
第三获取单元,用于获取所述多个矩形图片块中的图片特征信息;
确认单元,用于将所述图片特征信息中除线条特征信息之外的信息确认为噪音;
匹配单元,用于将所述线条特征信息匹配到所述样本线条特征信息,输出所述样本线条特征信息对应的所述线条类型。
11.根据权利要求7所述的识别表格的系统,其特征在于,还包括:
修正单元,用于在判断出某一矩形图片块中线条的类型的识别结果为错误识别结果时,根据所述某一矩形图片块位置信息及其他所述矩形图片块的所述识别结果修正所述错误识别结果。
12.根据权利要求7至11中任一项所述的识别表格的系统,其特征在于,
所述线条分类模型中包括12种线条类型。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述识别表格的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述识别表格的方法的步骤。
CN201710813514.2A 2017-09-11 2017-09-11 识别表格的方法、系统、计算机设备、可读存储介质 Active CN107679024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710813514.2A CN107679024B (zh) 2017-09-11 2017-09-11 识别表格的方法、系统、计算机设备、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710813514.2A CN107679024B (zh) 2017-09-11 2017-09-11 识别表格的方法、系统、计算机设备、可读存储介质

Publications (2)

Publication Number Publication Date
CN107679024A CN107679024A (zh) 2018-02-09
CN107679024B true CN107679024B (zh) 2023-04-18

Family

ID=61135220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710813514.2A Active CN107679024B (zh) 2017-09-11 2017-09-11 识别表格的方法、系统、计算机设备、可读存储介质

Country Status (1)

Country Link
CN (1) CN107679024B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214385B (zh) * 2018-08-15 2021-06-08 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109284495B (zh) * 2018-11-03 2023-02-07 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN110059687B (zh) * 2019-03-19 2024-05-28 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN109993112B (zh) * 2019-03-29 2021-04-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110162757B (zh) * 2019-04-29 2023-08-18 北京百度网讯科技有限公司 一种表格结构提取方法及系统
CN110738219A (zh) * 2019-10-15 2020-01-31 腾讯科技(深圳)有限公司 图像中线条提取方法和装置、存储介质及电子装置
CN111325183A (zh) * 2020-03-19 2020-06-23 畅捷通信息技术股份有限公司 一种图片表格识别的方法及装置
CN111428700B (zh) * 2020-06-10 2020-10-27 上海交通大学苏州人工智能研究院 表格识别方法、装置、电子设备、存储介质
CN112818785B (zh) * 2021-01-22 2022-01-11 国家气象信息中心(中国气象局气象数据中心) 一种气象纸质表格文档的快速数字化方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102175698A (zh) * 2007-11-15 2011-09-07 同方威视技术股份有限公司 物质识别系统中创建分类曲线的方法和设备
CN105512611A (zh) * 2015-11-25 2016-04-20 成都数联铭品科技有限公司 一种表格图像检测识别方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2548412B1 (fr) * 1983-06-28 1986-02-07 Commissariat Energie Atomique Systeme de releve de plans
JP4302595B2 (ja) * 1996-12-27 2009-07-29 富士通株式会社 フォーム識別装置
JP4366119B2 (ja) * 2003-05-29 2009-11-18 キヤノン株式会社 文書処理装置
JP4835459B2 (ja) * 2007-02-16 2011-12-14 富士通株式会社 表認識プログラム、表認識方法および表認識装置
JP5361574B2 (ja) * 2009-07-01 2013-12-04 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP5267364B2 (ja) * 2009-07-10 2013-08-21 富士ゼロックス株式会社 画像処理装置およびプログラム
CN101882225B (zh) * 2009-12-29 2013-09-18 北京中科辅龙计算机技术股份有限公司 基于模板的工程图纸材料信息提取方法及系统
CN102194123B (zh) * 2010-03-11 2015-06-03 株式会社理光 表格模板定义方法和装置
JP5743443B2 (ja) * 2010-07-08 2015-07-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5661393B2 (ja) * 2010-09-17 2015-01-28 グローリー株式会社 枠線認識方法および枠線認識装置
CN101976232B (zh) * 2010-09-19 2012-06-20 深圳市万兴软件有限公司 一种识别文档中数据表格的方法及装置
JP5065514B1 (ja) * 2011-06-15 2012-11-07 英二 幾島 暗証番号(キャッシュカード等)が簡単に分かるカード
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
CN103093218B (zh) * 2013-01-14 2016-04-06 西南大学 自动识别表格类型的方法及装置
CN104077594B (zh) * 2013-03-29 2018-01-12 浙江大华技术股份有限公司 一种图像识别方法和装置
CN103258201B (zh) * 2013-04-26 2016-04-06 四川大学 一种融合全局和局部信息的表格线提取方法
CN104517112B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种表格识别方法与系统
US20160026858A1 (en) * 2014-07-28 2016-01-28 Microsoft Corporation Image based search to identify objects in documents
CN104462044A (zh) * 2014-12-16 2015-03-25 上海合合信息科技发展有限公司 表格图像识别编辑方法及装置
CN106407883B (zh) * 2016-08-10 2019-12-27 北京工业大学 一种复杂表格及其内部手写数字识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102175698A (zh) * 2007-11-15 2011-09-07 同方威视技术股份有限公司 物质识别系统中创建分类曲线的方法和设备
CN105512611A (zh) * 2015-11-25 2016-04-20 成都数联铭品科技有限公司 一种表格图像检测识别方法

Also Published As

Publication number Publication date
CN107679024A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107679024B (zh) 识别表格的方法、系统、计算机设备、可读存储介质
JP6590355B1 (ja) 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
CN109522816A (zh) 表格识别方法及装置、计算机存储介质
CN110443140B (zh) 文本定位的方法、装置、计算机设备及存储介质
CN104820835A (zh) 一种试卷自动阅卷方法
JP4661921B2 (ja) 文書処理装置およびプログラム
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
CN111985465A (zh) 文本识别方法、装置、设备及存储介质
US20240161449A1 (en) Apparatus and methods for converting lineless talbes into lined tables using generative adversarial networks
CN111144370A (zh) 单据要素抽取方法、装置、设备及存储介质
CN108563984A (zh) 一种流程模型图的自动识别与理解方法
CN116704523B (zh) 一种用于出版印刷设备的文字排版图像识别系统
CN111723790A (zh) 视频字幕的筛选方法、装置、设备及存储介质
CN113065396A (zh) 基于深度学习的扫描档案图像的自动化归档处理系统及方法
CN111144411A (zh) 一种基于显著图的不规则文本修正与识别方法及系统
CN115082935A (zh) 用于对文档图像进行矫正的方法、设备及存储介质
CN109147002B (zh) 一种图像处理方法和装置
CN110503101A (zh) 字形评价方法、装置、设备及计算机可读存储介质
CN111680635A (zh) 一种文本识别的方法、装置、电子设备和存储介质
CN112949649A (zh) 一种文本图像的识别方法、装置及计算设备
CN114648771A (zh) 文字识别方法、电子设备和计算机可读存储介质
CN116050379A (zh) 文档对比方法及存储介质
CN110543812A (zh) 信息提取方法及装置、电子设备及存储介质
CN111563510B (zh) 一种图像处理的方法和系统
CN112668581A (zh) 一种文书标题识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant