CN109993112B - 一种图片中表格的识别方法及装置 - Google Patents

一种图片中表格的识别方法及装置 Download PDF

Info

Publication number
CN109993112B
CN109993112B CN201910249573.0A CN201910249573A CN109993112B CN 109993112 B CN109993112 B CN 109993112B CN 201910249573 A CN201910249573 A CN 201910249573A CN 109993112 B CN109993112 B CN 109993112B
Authority
CN
China
Prior art keywords
area
character
cells
identified
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910249573.0A
Other languages
English (en)
Other versions
CN109993112A (zh
Inventor
徐青松
李青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Glority Software Ltd
Original Assignee
Hangzhou Glority Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Glority Software Ltd filed Critical Hangzhou Glority Software Ltd
Priority to CN201910249573.0A priority Critical patent/CN109993112B/zh
Publication of CN109993112A publication Critical patent/CN109993112A/zh
Application granted granted Critical
Publication of CN109993112B publication Critical patent/CN109993112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2455Discrimination between machine-print, hand-print and cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种图片中表格的识别方法及装置,所述方法包括:采用预先训练的表格区域识别模型,识别出待识别的图片中的表格区域;采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条;采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域;将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制;将所述表格区域中每个单元格区域进行切分,采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容;将识别出的字符内容填入到重制后的单元格中,形成识别后的表格。应用本发明提供的方案可以准确地自动识别图片中表格的信息。

Description

一种图片中表格的识别方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种图片中表格的识别方法、装置、电子设备和计算机可读存储介质。
背景技术
表格是文档中常用的数据资料载体,目前大量应用于商业、社会调查等各种场合。通常在获得表格后,需要对表格内容进行统计分析。如果表格是纸质或图片格式的,常常是先由人工在电子设备上将纸质表格制成电子表格,然后再进行后续的统计分析工作,这样会极大地浪费人力、物力。因此,如何利用电子设备准确地自动识别图片中表格的信息是一项亟待解决的问题。
发明内容
本发明的目的在于提供一种图片中表格的识别方法、装置、电子设备和计算机可读存储介质,以准确地自动识别图片中表格的信息。
为达到上述目的,本发明提供了一种图片中表格的识别方法,所述方法包括:
获取待识别的图片;
采用预先训练的表格区域识别模型,识别出所述图片中的表格区域;
采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条;
采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域;
将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制;
将所述表格区域中每个单元格区域进行切分,采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容;
将识别出的字符内容填入到重制后的单元格中,形成识别后的表格。
可选的,在将所述表格区域中每个单元格区域进行切分之后,还包括:记录每个单元格区域的位置信息;
所述将识别出的字符内容填入到重制后的单元格中,包括:
将识别出的字符内容根据对应的单元格区域的位置信息填入到重制后的单元格中。
可选的,所述将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,包括:
根据识别出的文字区域的行高、行距以及字距,调整错误识别的文字区域;
根据调整后的文字区域,补全所述表格区域模型未识别出的单元格的线条;
根据单元格的线条,调整所述表格区域中行和列对应的单元格。
可选的,所述方法还包括:
对识别出的字符内容中的文字、数字、字母和符号进行分类,根据分类结果对识别出的字符内容进行修正处理。
可选的,所述方法还包括:
根据识别出来的字符内容在标准数据库中进行检索,判断检索结果与识别出的字符内容是否一致,如果不一致,则根据检索结果对识别出的字符内容进行修正处理。
可选的,所述图片中包括:表格名称;
所述方法还包括:
采用所述表格区域识别模型,识别出所述图片中的表格名称区域,并采用所述字符识别模型进行字符识别,将识别出的表格名称与识别后的表格结合得到完整的表格信息。
可选的,所述表格区域识别模型、所述表格单元格识别模型、所述表格文字区域识别模型是基于深度卷积神经网络或深度残差网络建立的模型。
可选的,所述字符识别模型是基于空洞卷积和注意力模型建立的模型。
可选的,所述采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容,包括:
所述字符识别模型采用空洞卷积对每个单元格区域的图片进行特征提取;
通过注意力模型对提取到的特征解码成字符,得到每个单元格区域中的字符内容。
可选的,所述字符识别模型包括:针对打印字体的识别模型和针对手写字体的识别模型,所述针对打印字体的识别模型和所述针对手写字体的识别模型分别经过各自独立的训练而成。
为达到上述目的,本发明还提供了一种图片中表格的识别装置,所述装置包括:
获取模块,用于获取待识别的图片;
第一识别模块,用于采用预先训练的表格区域识别模型,识别出所述图片中的表格区域;
第二识别模块,用于采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条;
第三识别模块,用于采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域;
确定模块,用于将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制;
第四识别模块,用于将所述表格区域中每个单元格区域进行切分,采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容;
填入模块,用于将识别出的字符内容填入到重制后的单元格中,形成识别后的表格。
可选的,所述第四识别模块,还用于在将所述表格区域中每个单元格区域进行切分之后,记录每个单元格区域的位置信息;
所述填入模块,具体用于:
将识别出的字符内容根据对应的单元格区域的位置信息填入到重制后的单元格中。
可选的,所述确定模块,具体用于:
根据识别出的文字区域的行高、行距以及字距,调整错误识别的文字区域;
根据调整后的文字区域,补全所述表格区域模型未识别出的单元格的线条;
根据单元格的线条,调整所述表格区域中行和列对应的单元格。
可选的,所述装置还包括:
第一修正模块,用于对识别出的字符内容中的文字、数字、字母和符号进行分类,根据分类结果对识别出的字符内容进行修正处理。
可选的,所述装置还包括:
第二修正模块,用于根据识别出来的字符内容在标准数据库中进行检索,判断检索结果与识别出的字符内容是否一致,如果不一致,则根据检索结果对识别出的字符内容进行修正处理。
可选的,所述图片中包括:表格名称;
所述装置还包括:
第五识别模块,用于采用所述表格区域识别模型,识别出所述图片中的表格名称区域,并采用所述字符识别模型进行字符识别,将识别出的表格名称与识别后的表格结合得到完整的表格信息。
可选的,所述表格区域识别模型、所述表格单元格识别模型、所述表格文字区域识别模型是基于深度卷积神经网络或深度残差网络建立的模型。
可选的,所述字符识别模型是基于空洞卷积和注意力模型建立的模型。
可选的,所述第四识别模块,具体用于:
所述字符识别模型采用空洞卷积对每个单元格区域的图片进行特征提取;
通过注意力模型对提取到的特征解码成字符,得到每个单元格区域中的字符内容。
可选的,所述字符识别模型包括:针对打印字体的识别模型和针对手写字体的识别模型,所述针对打印字体的识别模型和所述针对手写字体的识别模型分别经过各自独立的训练而成。
为达到上述目的,本发明还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如上任一所述的图片中表格的识别方法的步骤。
为达到上述目的,本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的图片中表格的识别方法的步骤。
与现有技术相比,本发明依次通过预先训练的表格区域识别模型、表格单元格识别模型以及表格文字区域识别模型对待识别的图片中的表格区域进行识别,进而根据识别结果确定出表格区域的单元格,并对所述表格区域的单元格进行重制,然后通过预先训练的字符识别模型来识别各个单元格中的字符内容,从而将字符内容填入到重制后的单元格中,形成识别后的表格。可见,本发明通过人工智能可以准确地自动识别图片中表格的信息,不需要人工识别,降低了人工成本,并且提高了识别效率。
附图说明
图1为本发明一实施例提供的图片中表格的识别方法的流程示意图;
图2A-图2E均为本发明一实施例提供的包含表格的图片的具体示例;
图3为本发明一实施例提供的图片中表格的识别装置的结构示意图;
图4为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的一种图片中表格的识别方法、装置、电子设备及计算机可读存储介质作进一步详细说明。根据权利要求书和下面说明,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
为解决现有技术的问题,本发明实施例提供了一种图片中表格的识别方法、装置、电子设备及计算机可读存储介质。
需要说明的是,本发明实施例的图片中表格的识别方法可应用于本发明实施例的图片中表格的识别装置,该图片中表格的识别装置可被配置于电子设备上。其中,该电子设备可以是个人计算机、移动终端等,该移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。
图1是本发明一实施例提供的一种图片中表格的识别方法的流程示意图。请参考图1,一种图片中表格的识别方法可以包括如下步骤:
步骤S101,获取待识别的图片。
其中,待识别的图片中包含表格区域,表格区域可以为一个也可以为多个,本实施例对此不做限定。如果表格是纸质格式的,可以先将纸质表格进行拍照或扫描得到待识别的图片,如图2A-图2E所示的图片是由纸质文件扫描或拍照得到的(为保护隐私,对图片中涉及隐私的内容进行了模糊处理)。为便于理解,已将图2A-图2E中的表格区域使用标注框标注出来,图2A、2B中标注框标注的区域211、221为表格区域,图2C中有两个表格区域,分别为标注框标注的区域231、232,图2D中有表格区域和表格名称区域,分别为标注框标注的区域241、242,图2E为化验单的图片,表格区域包括标注框标注的区域251、252。
步骤S102,采用预先训练的表格区域识别模型,识别出所述图片中的表格区域。
所述表格区域识别模型可以是基于深度卷积神经网络或深度残差网络建立的模型。具体的,采用预先训练的表格区域识别模型,识别出所述图片中的表格区域,可以包括:首先,所述表格区域识别模型从所述图片中提取二维特征向量;然后,在二维特征向量的每一个网格生成不同形状的锚点,使用标注框将识别出的区域进行标注,得到识别出的表格区域。另外,在使用标注框将识别出的区域进行标注之后,还可以将标注框与生成的锚点做回归处理,以使标注框贴近所述表格区域的实际位置。
在识别出图片中的表格区域后,还可以切割截取出所识别的表格区域,对表格区域图片进行以下处理。若识别出的表格区域有多个,则切割截取出每个表格区域,并针对每一个表格区域图片进行如下处理,如图2D所示的图片,其中包含两个表格区域,则针对每一个表格区域通过如下处理后可以得到两个识别后的表格。
步骤S103,采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条。
所述表格单元格识别模型可以是基于深度卷积神经网络或深度残差网络建立的模型。具体的,采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条,可以包括:首先,所述表格单元格识别模型从所述表格区域图片中提取二维特征向量;然后,在二维特征向量的每一个网格生成不同形状的锚点,使用标注框将识别出的线条进行标注,得到识别出的单元格线条。另外,在使用标注框将识别出的线条进行标注之后,还可以将标注框与生成的锚点做回归处理,以使标注框贴近单元格线条的实际位置。
另外,在实际应用中,也可以将表格区域图片进行二值化处理,然后利用OpenCV图像处理工具(例如findcontours函数)检测出表格的单元格轮廓,即单元格线条。
步骤S104,采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域。
所述表格文字区域识别模型可以是基于深度卷积神经网络或深度残差网络建立的模型。具体的,采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域,包括:首先,所述表格文字区域识别模型从所述表格区域图片中提取二维特征向量;然后,在二维特征向量的每一个网格生成不同形状的锚点,使用标注框将识别出的区域进行标注,得到识别出的文字区域。另外,在使用标注框将识别出的区域进行标注之后,还可以将标注框与生成的锚点做回归处理,以使标注框贴近文字区域的实际位置。
步骤S105,将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制。
可以理解的是,在步骤S103中,表格单元格识别模型可能并不能识别出所有的单元格线条,例如有些表格的线条比较少(比如图2E所示的化验单中的表格只有上下两条横线,没有单元格的线条),或者由于图片的原因(比如有些线条比较淡)而无法识别出所有线条。因此需要结合表格文字区域识别模型识别出的文字区域进行处理,修正得到准确的表格单元格形式。
通常来说,对于单个文字区域,可以判定其四周具有线条,从而形成一个单元格。然而,一个单元格中的文字区域可能会被错误地识别为多个文字区域,或者两个单元格中的文字区域可能会被错误地识别为一个文字区域,因此,首先可以根据识别出的文字区域的行高、行距以及字距,调整错误识别的文字区域,例如将一个单元格的多行文字误识别为多个文字区域,需要根据文字的行高和行距信息将误识别的多个文字区域调整为一个文字区域,又如将左右两个单元格的两个文字区域误识别为一个文字区域,则需要根据文字的字距信息将误识别的一个文字区域调整为多个文字区域。然后,针对调整后的所有文字区域,根据文字区域四周应有线条的原则,补全所述表格区域模型未识别出的单元格的线条。同时,根据单元格的线条,调整所述表格区域中行和列对应的单元格,例如线条穿过某个文字区域时,则认为该文字区域的识别有误,此时按照线条识别为准将该文字区域切分为多个单元格内的文字区域。
步骤S106,将所述表格区域中每个单元格区域进行切分,采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容。
所述字符识别模型可以是基于空洞卷积和注意力模型建立的模型。具体的,所述采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容,可以包括:所述字符识别模型采用空洞卷积对每个单元格区域的图片进行特征提取;通过注意力模型对提取到的特征解码成字符,得到每个单元格区域中的字符内容。
表格中的字符可以是打印字体的字符,也可以是手写字体的字符,由于打印字体和手写字体对应的字符集存在差异,若使用同一字符模型来识别打印字体和手写字体,则会降低字符识别的准确率。因此,为了提高字符识别的准确率,针对不同字体采用不同的字符识别模型。所述字符识别模型可以包括针对打印字体的识别模型和针对手写字体的识别模型,所述针对打印字体的识别模型和所述针对手写字体的识别模型分别经过各自独立的训练而成,针对手写字体和打印字体可以采用不同的字符训练集来训练相应的字符识别模型。
步骤S107,将识别出的字符内容填入到重制后的单元格中,形成识别后的表格。
本实施例中,在将所述表格区域中每个单元格区域进行切分之后,还可以记录每个单元格区域的位置信息,比如每个单元格区域在整个表格区域中所处的行列,然后,在将识别出的字符内容填入到重制后的单元格中时,可以将识别出的字符内容根据对应的单元格区域的位置信息填入到重制后的单元格中。根据单元格的位置信息将字符内容填入到重制后的相应单元格中,可以避免字符填充的过程出错。
另外,由于字符识别模型可能识别不准确,因此可以对字符内容进行修正处理。例如,可以对识别出的字符内容中的文字、数字、字母和符号进行分类,根据分类结果对识别出的字符内容进行修正处理。分类是为了避免由于某一个字符内容之间的间隙过大而被切分为两块,例如文字中偏旁间隔、多个数字间隔、多个字母的间隔、符号和字符之间的间隔都有可能导致被切分,原因可能是打印的问题或者是手写字体的问题。举例而言,对于字符内容中的文字,一般可以通过字距和行距判断是否识别有误,也可以结合常用词汇组成的词语形式来判断。
还可以根据识别出来的字符内容在标准数据库中进行检索,判断检索结果与识别出的字符内容是否一致,如果不一致,则根据检索结果对识别出的字符内容进行修正处理。标准数据库可以为英文词库、医疗等各行业的专有名词库等,通过检索标准数据库,判断识别出的字符内容是否与标准数据库中的内容一致,可以避免设定的专有名词被切分。
在实际应用中,待识别的图片中还可以包括表格名称,因此,还可以采用所述表格区域识别模型,识别出所述图片中的表格名称区域,并采用所述字符识别模型进行字符识别,将识别出的表格名称与识别后的表格结合得到完整的表格信息。如图2D所示的图片,表格区域识别模型可以同时识别出表格区域241和表格名称区域242,对表格名称区域242利用字符识别模型进行字符识别得到表格名称,从而将表格名称和识别后的表格结合生成完整的表格信息。
下面示例性的对所述表格区域识别模型、所述表格单元格识别模型、所述表格文字区域识别模型的训练过程进行介绍。
S1、对于不同的表格类型,准备一定数量的标注有表格区域、表格线条和文字区域的图片样本;
S2、从标注图片中挑选一定比例的图片样本作为测试集,挑选可以是人工,也可以是自动随机,比例一般为5%到20%,测试集占总图片样本的比例可以视结果调整,剩下的图片样本组成训练集;
S3、利用所述训练集训练并分别建立所述表格区域、表格线条和表格文字区域的识别模型,并利用所述测试集对经所述训练集训练完成后的所述识别模型的准确率进行验证;
S4、若准确率大于或者等于预设准确率,则训练结束;
S5、若准确率小于预设准确率,则增加训练集中图片样本的数量,或调整测试集的比例进行再次训练。
综上所述,与现有技术相比,本发明依次通过预先训练的表格区域识别模型、表格单元格识别模型以及表格文字区域识别模型对待识别的图片中的表格区域进行识别,进而根据识别结果确定出表格区域的单元格,并对所述表格区域的单元格进行重制,然后通过预先训练的字符识别模型来识别各个单元格中的字符内容,从而将字符内容填入到重制后的单元格中,形成识别后的表格。可见,本发明通过人工智能可以准确地自动识别图片中表格的信息,不需要人工识别,降低了人工成本,并且提高了识别效率。
下面再示例性的介绍本发明对图2A-图2E的识别结果。
如图2A所示的图片,表格区域211中各个单元格的四周均有线条,每个单元格内均有文字区域,因此结合单元格线条的识别结果和文字区域的识别结果,最终得到识别后的表格如下表1所示。
表1
序号 商标名称 类别 单价(元) 备注
1 ABC 9 600 双享注册
2 ABC 35 600 双享注册
3 ABC 36 600 双享注册
4 ABC 42 600 双享注册
如图2B所示的图片,表格区域221中第二行第二列的单元格内的文字区域(虚线框标注的区域222)包含多行文字且行距较大,则该单元格的文字区域可能会被错误的识别为多个文字区域,因此需要根据文字区域的行高、行距等信息将错误识别的文字区域进行调整。调整完成后,检查是否每个文字区域四周的单元格线条均已被识别出来,如果否,则对未识别出的线条进行补全,比如说如果区域222的左侧单元格线条由于颜色太浅未被表格区域模型识别出来,则此时可以将该线条补全。如果虚线框标注的区域223被识别为一个文字区域,则该区域223将会被识别为一个单元格,但是根据表格区域模型的识别结果,该区域223被一个单元格线条穿过,即表示该区域223实际应该为两个文字区域但是被错误的识别为一个文字区域,因此按照线条的识别结果将该区域223切分为两个单元格内的文字区域。表2示出了表格区域221的识别结果,其中部分单元格内的字符未示出。
表2
Figure BDA0002012004810000111
如图2C所示的图片,对于表格区域231和232,结合单元格线条的识别结果和文字区域的识别结果,最终得到识别后的表格如下表3、表4所示,其中,表3中单元格内的部分字符未示出,表4中部分单元格的字符未示出。
表3
甲方: 乙方:
联系地址: 联系地址:
联系人: 联系人:
电话: 电话:
邮箱: 邮箱:
表4
服务产品名称 费用 勾选拦
如图2D所示的图片,表格区域241结合单元格线条的识别结果和文字区域的识别结果,最终得到识别后的表格如下表5所示,其中,表5中部分单元格的字符未示出。
表5
商标说明
商标示图
国际分类
商品名称/服务项目
如图2E所示的化验单图片,根据化验单的表格特点,表格区域251具有三条横线,分别为第一行的上下框线和最后一行的下框线,而各个检验项目所在的行列之间没有线条,在表格区域251中各个检验项目所在的行列可以称之为检验项目区域,由于检验项目区域中没有线条,需要根据文字区域的识别结果来判断出各个单元格。在对检验项目区域进行文字区域识别时,每一行每一列内的文字将会被识别为一个文字区域,每个文字区域对应一个单元格,如果相邻列由于字距太近而被错误识别为一个文字区域,则可以判断哪两个字符之间的字距较大从而将错误识别的一个文字区域调整为两个文字区域,如将检验项目区域内的“变异型:变异型红细胞70”字符区域错误的识别为一个文字区域,实际上应该是两个文字区域,此时由于“胞”和“7”两个字符之间的字距大于其它两个字符之间的字距,因此在“胞”和“7”两个字符之间将其调整为两个文字区域,进而由调整后的两个文字区域可以判断字符“变异型:变异型红细胞70”字符区域对应两个单元格。在字符区域调整完成后,可以在检验项目区域的各个文字区域四周补充单元格线条,表6为补充线条后的表格区域251的识别结果,其中,表6仅示意性示出了表格区域251的部分区域的识别结果。类似的,对于表格区域252,也是根据文字区域的识别结果来判断出各个单元格,即在识别出的文字区域四周补充单元格线条组成单元格,表7示出了表格区域252的识别结果。
表6
Figure BDA0002012004810000131
表7
Figure BDA0002012004810000132
相应于上述图片中表格的识别方法实施例,本发明一实施例还提供了一种图片中表格的识别装置,参见图3,该装置可以包括:
获取模块201,用于获取待识别的图片;
第一识别模块202,用于采用预先训练的表格区域识别模型,识别出所述图片中的表格区域;
第二识别模块203,用于采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条;
第三识别模块204,用于采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域;
确定模块205,用于将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制;
第四识别模块206,用于将所述表格区域中每个单元格区域进行切分,采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容;
填入模块207,用于将识别出的字符内容填入到重制后的单元格中,形成识别后的表格。
可选的,所述第四识别模块206,还用于在将所述表格区域中每个单元格区域进行切分之后,记录每个单元格区域的位置信息;
所述填入模块207,具体用于:
将识别出的字符内容根据对应的单元格区域的位置信息填入到重制后的单元格中。
可选的,所述确定模块205,具体用于:
根据识别出的文字区域的行高、行距以及字距,调整错误识别的文字区域;
根据调整后的文字区域,补全所述表格区域模型未识别出的单元格的线条;
根据单元格的线条,调整所述表格区域中行和列对应的单元格。
可选的,所述装置还包括:
第一修正模块,用于对识别出的字符内容中的文字、数字、字母和符号进行分类,根据分类结果对识别出的字符内容进行修正处理。
可选的,所述装置还包括:
第二修正模块,用于根据识别出来的字符内容在标准数据库中进行检索,判断检索结果与识别出的字符内容是否一致,如果不一致,则根据检索结果对识别出的字符内容进行修正处理。
可选的,所述图片中包括:表格名称;
所述装置还包括:
第五识别模块,用于采用所述表格区域识别模型,识别出所述图片中的表格名称区域,并采用所述字符识别模型进行字符识别,将识别出的表格名称与识别后的表格结合得到完整的表格信息。
可选的,所述表格区域识别模型、所述表格单元格识别模型、所述表格文字区域识别模型是基于深度卷积神经网络或深度残差网络建立的模型。
可选的,所述字符识别模型是基于空洞卷积和注意力模型建立的模型。
可选的,所述第四识别模块206,具体用于:
所述字符识别模型采用空洞卷积对每个单元格区域的图片进行特征提取;
通过注意力模型对提取到的特征解码成字符,得到每个单元格区域中的字符内容。
可选的,所述字符识别模型包括:针对打印字体的识别模型和针对手写字体的识别模型,所述针对打印字体的识别模型和所述针对手写字体的识别模型分别经过各自独立的训练而成。
本发明一实施例还提供了一种电子设备,如图4所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
获取待识别的图片;
采用预先训练的表格区域识别模型,识别出所述图片中的表格区域;
采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条;
采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域;
将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制;
将所述表格区域中每个单元格区域进行切分,采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容;
将识别出的字符内容填入到重制后的单元格中,形成识别后的表格。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
另外,处理器301执行存储器303上所存放的程序而实现的图片中表格的识别方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明一实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述的图片中表格的识别方法的方法步骤。
需要说明的是,本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (18)

1.一种图片中表格的识别方法,其特征在于,所述方法包括:
获取待识别的图片;
采用预先训练的表格区域识别模型,识别出所述图片中的表格区域;
采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条;
采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域;
将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制;
将所述表格区域中每个单元格区域进行切分,采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容;
将识别出的字符内容填入到重制后的单元格中,形成识别后的表格;
其中,所述将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,包括:
根据识别出的文字区域的行高、行距以及字距,调整错误识别的文字区域;
根据调整后的文字区域,补全所述表格区域模型未识别出的单元格的线条;
根据单元格的线条,调整所述表格区域中行和列对应的单元格。
2.如权利要求1所述的图片中表格的识别方法,其特征在于,在将所述表格区域中每个单元格区域进行切分之后,还包括:记录每个单元格区域的位置信息;
所述将识别出的字符内容填入到重制后的单元格中,包括:
将识别出的字符内容根据对应的单元格区域的位置信息填入到重制后的单元格中。
3.如权利要求1所述的图片中表格的识别方法,其特征在于,所述方法还包括:
对识别出的字符内容中的文字、数字、字母和符号进行分类,根据分类结果对识别出的字符内容进行修正处理。
4.如权利要求1所述的图片中表格的识别方法,其特征在于,所述方法还包括:
根据识别出来的字符内容在标准数据库中进行检索,判断检索结果与识别出的字符内容是否一致,如果不一致,则根据检索结果对识别出的字符内容进行修正处理。
5.如权利要求1所述的图片中表格的识别方法,其特征在于,所述图片中包括:表格名称;
所述方法还包括:
采用所述表格区域识别模型,识别出所述图片中的表格名称区域,并采用所述字符识别模型进行字符识别,将识别出的表格名称与识别后的表格结合得到完整的表格信息。
6.如权利要求1所述的图片中表格的识别方法,其特征在于,所述表格区域识别模型、所述表格单元格识别模型、所述表格文字区域识别模型是基于深度卷积神经网络或深度残差网络建立的模型。
7.如权利要求1所述的图片中表格的识别方法,其特征在于,所述字符识别模型是基于空洞卷积和注意力模型建立的模型。
8.如权利要求7所述的图片中表格的识别方法,其特征在于,所述字符识别模型包括:针对打印字体的识别模型和针对手写字体的识别模型,所述针对打印字体的识别模型和所述针对手写字体的识别模型分别经过各自独立的训练而成。
9.一种图片中表格的识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的图片;
第一识别模块,用于采用预先训练的表格区域识别模型,识别出所述图片中的表格区域;
第二识别模块,用于采用预先训练的表格单元格识别模型,识别出所述表格区域中单元格的线条;
第三识别模块,用于采用预先训练的表格文字区域识别模型,识别出所述表格区域中的文字区域;
确定模块,用于将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格,并对所述表格区域的单元格进行重制;
第四识别模块,用于将所述表格区域中每个单元格区域进行切分,采用预先训练的字符识别模型,识别出每个单元格区域中的字符内容;
填入模块,用于将识别出的字符内容填入到重制后的单元格中,形成识别后的表格;
其中,所述确定模块用于将识别出的表格单元格的线条和识别出的全部文字区域相结合,确定所述表格区域的单元格包括:
根据识别出的文字区域的行高、行距以及字距,调整错误识别的文字区域;
根据调整后的文字区域,补全所述表格区域模型未识别出的单元格的线条;
根据单元格的线条,调整所述表格区域中行和列对应的单元格。
10.如权利要求9所述的图片中表格的识别装置,其特征在于,所述第四识别模块,还用于在将所述表格区域中每个单元格区域进行切分之后,记录每个单元格区域的位置信息;
所述填入模块,具体用于:
将识别出的字符内容根据对应的单元格区域的位置信息填入到重制后的单元格中。
11.如权利要求9所述的图片中表格的识别装置,其特征在于,所述装置还包括:
第一修正模块,用于对识别出的字符内容中的文字、数字、字母和符号进行分类,根据分类结果对识别出的字符内容进行修正处理。
12.如权利要求9所述的图片中表格的识别装置,其特征在于,所述装置还包括:
第二修正模块,用于根据识别出来的字符内容在标准数据库中进行检索,判断检索结果与识别出的字符内容是否一致,如果不一致,则根据检索结果对识别出的字符内容进行修正处理。
13.如权利要求9所述的图片中表格的识别装置,其特征在于,所述图片中包括:表格名称;
所述装置还包括:
第五识别模块,用于采用所述表格区域识别模型,识别出所述图片中的表格名称区域,并采用所述字符识别模型进行字符识别,将识别出的表格名称与识别后的表格结合得到完整的表格信息。
14.如权利要求9所述的图片中表格的识别装置,其特征在于,所述表格区域识别模型、所述表格单元格识别模型、所述表格文字区域识别模型是基于深度卷积神经网络或深度残差网络建立的模型。
15.如权利要求9所述的图片中表格的识别装置,其特征在于,所述字符识别模型是基于空洞卷积和注意力模型建立的模型。
16.如权利要求15所述的图片中表格的识别装置,其特征在于,所述字符识别模型包括:针对打印字体的识别模型和针对手写字体的识别模型,所述针对打印字体的识别模型和所述针对手写字体的识别模型分别经过各自独立的训练而成。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法步骤。
CN201910249573.0A 2019-03-29 2019-03-29 一种图片中表格的识别方法及装置 Active CN109993112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910249573.0A CN109993112B (zh) 2019-03-29 2019-03-29 一种图片中表格的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910249573.0A CN109993112B (zh) 2019-03-29 2019-03-29 一种图片中表格的识别方法及装置

Publications (2)

Publication Number Publication Date
CN109993112A CN109993112A (zh) 2019-07-09
CN109993112B true CN109993112B (zh) 2021-04-09

Family

ID=67131794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910249573.0A Active CN109993112B (zh) 2019-03-29 2019-03-29 一种图片中表格的识别方法及装置

Country Status (1)

Country Link
CN (1) CN109993112B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347994B (zh) * 2019-07-12 2023-06-30 北京香侬慧语科技有限责任公司 一种表格处理方法和装置
CN112232046B (zh) * 2019-07-15 2024-03-26 珠海金山办公软件有限公司 一种表格重复项的显示方法及装置
CN110458070A (zh) * 2019-08-01 2019-11-15 上海眼控科技股份有限公司 基于机动车年检检验表图片识别检验次数的方法与系统
CN115828874A (zh) * 2019-08-05 2023-03-21 金税桥大数据科技股份有限公司 基于图像识别技术的行业表格数字化处理方法
CN110532968B (zh) * 2019-09-02 2023-05-23 苏州美能华智能科技有限公司 表格识别方法、装置和存储介质
CN112560545B (zh) * 2019-09-10 2023-09-22 珠海金山办公软件有限公司 一种识别表格方向的方法、装置及电子设备
CN112528703B (zh) * 2019-09-17 2023-11-03 珠海金山办公软件有限公司 一种识别表格结构的方法、装置及电子设备
CN110738219A (zh) * 2019-10-15 2020-01-31 腾讯科技(深圳)有限公司 图像中线条提取方法和装置、存储介质及电子装置
CN110956087B (zh) * 2019-10-25 2024-04-19 北京懿医云科技有限公司 一种图片中表格的识别方法、装置、可读介质和电子设备
CN111144282B (zh) * 2019-12-25 2023-12-05 北京同邦卓益科技有限公司 表格识别方法和装置、计算机可读存储介质
CN111209831A (zh) * 2019-12-31 2020-05-29 上海犀语科技有限公司 一种基于分类算法的文档表格内容识别方法及装置
CN111340032A (zh) * 2020-03-16 2020-06-26 天津得迈科技有限公司 一种基于金融领域应用场景的字符识别方法
CN111325183A (zh) * 2020-03-19 2020-06-23 畅捷通信息技术股份有限公司 一种图片表格识别的方法及装置
CN111597943B (zh) * 2020-05-08 2021-09-03 杭州火石数智科技有限公司 一种基于图神经网络的表格结构识别方法
CN111709349B (zh) * 2020-06-11 2023-12-01 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN111814876A (zh) * 2020-07-08 2020-10-23 重庆农村商业银行股份有限公司 一种票据识别方法、装置、设备及存储介质
CN111860502A (zh) * 2020-07-15 2020-10-30 北京思图场景数据科技服务有限公司 图片表格的识别方法、装置、电子设备及存储介质
CN111783735B (zh) * 2020-07-22 2021-01-22 欧冶云商股份有限公司 一种基于人工智能的钢材单据解析系统
CN112183298A (zh) * 2020-09-23 2021-01-05 上海蜜度信息技术有限公司 表格图片的标注方法、系统、介质及装置
CN112256168A (zh) * 2020-09-30 2021-01-22 北京百度网讯科技有限公司 一种手写内容电子化的方法、装置、电子设备及存储介质
CN112464925A (zh) * 2020-11-11 2021-03-09 湖北省楚建易网络科技有限公司 基于机器学习的移动端开户资料银行信息自动提取方法
CN112364790B (zh) * 2020-11-16 2022-10-25 中国民航大学 基于卷积神经网络的机场工作单信息识别方法及系统
CN112380851A (zh) * 2020-12-02 2021-02-19 好活(昆山)网络科技有限公司 一种基于大数据的文字识别系统及方法
CN113065405B (zh) * 2021-03-08 2022-12-23 南京苏宁软件技术有限公司 图片识别方法、装置、计算机设备和存储介质
CN113536951B (zh) * 2021-06-22 2023-11-24 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113536771B (zh) * 2021-09-17 2021-12-24 深圳前海环融联易信息科技服务有限公司 基于文本识别的要素信息提取方法、装置、设备及介质
CN114170616A (zh) * 2021-11-15 2022-03-11 嵊州市光宇实业有限公司 基于图纸组的电力工程物资信息采集及分析系统和方法
CN113807326B (zh) * 2021-11-17 2022-02-25 航天宏康智能科技(北京)有限公司 制式表格文字识别方法和装置
CN115249362B (zh) * 2022-09-20 2022-12-27 京华信息科技股份有限公司 基于像素在稳定方向上连通性的ocr表格识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
US9792524B1 (en) * 2015-07-22 2017-10-17 Amazon Technologies, Inc. Gap shifting for automatic recognition of tabular text
CN107622233A (zh) * 2017-09-11 2018-01-23 畅捷通信息技术股份有限公司 一种表格识别方法、识别系统及计算机装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508823A (zh) * 2011-11-24 2012-06-20 杨盛 制作表格的方法和系统
CN103310217B (zh) * 2013-06-20 2016-06-01 苏州大学 基于图像协方差特征的手写体数字识别方法及装置
CN105512611A (zh) * 2015-11-25 2016-04-20 成都数联铭品科技有限公司 一种表格图像检测识别方法
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法
CN105447522A (zh) * 2015-11-25 2016-03-30 成都数联铭品科技有限公司 一种复杂图像文字识别系统
US9965678B2 (en) * 2016-06-29 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Method for recognizing table and flowchart in document images
US10747994B2 (en) * 2016-12-28 2020-08-18 Captricity, Inc. Identifying versions of a form
US10242257B2 (en) * 2017-05-18 2019-03-26 Wipro Limited Methods and devices for extracting text from documents
CN107679024B (zh) * 2017-09-11 2023-04-18 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108416279B (zh) * 2018-02-26 2022-04-19 北京阿博茨科技有限公司 文档图像中的表格解析方法及装置
CN109344831B (zh) * 2018-08-22 2024-04-05 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109522816B (zh) * 2018-10-26 2021-07-02 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792524B1 (en) * 2015-07-22 2017-10-17 Amazon Technologies, Inc. Gap shifting for automatic recognition of tabular text
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN107622233A (zh) * 2017-09-11 2018-01-23 畅捷通信息技术股份有限公司 一种表格识别方法、识别系统及计算机装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Table Detection Method for Multipage PDF Documents via Visual Seperators and Tabular Structures;Jing Fang等;《2011 International Conference on Document Analysis and Recognition》;20111231;第779-783页 *
社区选举系统选票中的表格识别算法;邝振等;《计算机应用》;20171220;第37卷(第S2期);第179-182页 *

Also Published As

Publication number Publication date
CN109993112A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN109993112B (zh) 一种图片中表格的识别方法及装置
CN109726643B (zh) 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109815932B (zh) 一种试卷批改方法、装置、电子设备及存储介质
US11410407B2 (en) Method and device for generating collection of incorrectly-answered questions
CN110008933B (zh) 一种通用智能阅卷系统和方法
CN110766014A (zh) 票据信息定位方法、系统及计算机可读存储介质
CN105590101A (zh) 基于手机拍照的手写答题卡自动处理和阅卷方法及系统
CN111737478B (zh) 文本检测方法、电子设备及计算机可读介质
US20220222284A1 (en) System and method for automated information extraction from scanned documents
CN110689013A (zh) 一种基于特征识别的自动阅卷方法及系统
CN113076872B (zh) 一种智能试卷批改方法
CN107067399A (zh) 一种试卷图像分割处理方法
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN111008594A (zh) 改错题评阅方法、相关设备及可读存储介质
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN107066939A (zh) 一种网上阅卷系统的试卷切割处理方法
CN110956087B (zh) 一种图片中表格的识别方法、装置、可读介质和电子设备
CN113569677A (zh) 一种基于扫描件的纸质试验报告生成方法
CN108509960B (zh) 一种文本朝向检测方法及装置
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN114399623B (zh) 一种通用答题识别方法、系统、存储介质及计算设备
CN116050379A (zh) 文档对比方法及存储介质
CN115543915A (zh) 人事档案目录自动化建库方法及系统
CN110751140A (zh) 字符批量识别方法、装置和计算机设备
CN107045635A (zh) 一种网上阅卷系统的试卷图像分页分题处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant