CN111382717A - 一种表格识别方法、装置和计算机可读存储介质 - Google Patents

一种表格识别方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111382717A
CN111382717A CN202010185536.0A CN202010185536A CN111382717A CN 111382717 A CN111382717 A CN 111382717A CN 202010185536 A CN202010185536 A CN 202010185536A CN 111382717 A CN111382717 A CN 111382717A
Authority
CN
China
Prior art keywords
text
recognized
regions
information
form image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010185536.0A
Other languages
English (en)
Other versions
CN111382717B (zh
Inventor
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010185536.0A priority Critical patent/CN111382717B/zh
Publication of CN111382717A publication Critical patent/CN111382717A/zh
Application granted granted Critical
Publication of CN111382717B publication Critical patent/CN111382717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种表格识别方法、装置和计算机可读存储介质;本发明实施例在获取待识别表格图像后,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,然后,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,然后,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格;该方案可以提高表格识别的准确性。

Description

一种表格识别方法、装置和计算机可读存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种表格识别方法、装置和计算机可读存储介质。
背景技术
近年来,随着神经网络技术在人工智能领域的大热,将神经网络应用于表格识别也有了长足的发展。现有的表格识别方法主要采用文本检测结果结合规则来识别,或者直接采用语义分割提取待识别表格的直线并进行处理来识别,还有的是提取单元格间的分隔符区域来识别等多种识别方式。
在对现有技术的研究和实践过程中,本发明的发明人发现现有的表格识别方法大多是在表格线条结构完整的情况下来进行识别,且各个识别方法均存在局限性,在对于线条结构不完整的表格进行识别时,就会导致表格识别的准确性不足。
发明内容
本发明实施例提供一种表格识别方法、装置和计算机可读存储介质。可以提高表格识别的准确性。
一种表格识别方法,包括:
获取待识别表格图像,并对所述待识别表格图像进行文本识别,得到多个文本区域,所述待识别表格图像包括待识别表格;
对所述文本区域进行特征提取,并根据提取到的特征确定所述文本区域之间的行列位置关系;
根据所述行列位置关系,在所述待识别表格图像中标注出同行文本区域集合和同列文本区域集合;
根据所述同行文本区域集合和同列文本区域集合,在所述待识别表格图像中绘制文本区域的分隔线,以得到所述待识别表格的单元格位置信息;
基于所述单元格位置信息和文本区域,建立表格,得到识别后表格。
相应的,本发明实施例提供一种表格识别装置,包括:
获取单元,用于获取待识别表格图像,并对所述待识别表格图像进行文本识别,得到多个文本区域;
提取单元,用于对所述文本区域进行特征提取,并根据提取到的特征确定所述文本区域之间的行列位置关系;
标注单元,用于根据所述行列位置关系,在所述待识别表格图像中标注出同行文本区域集合和同列文本区域集合;
绘制单元,用于根据所述同行文本区域集合和同列文本区域集合,在所述待识别表格图像中绘制文本区域的分隔线,以得到所述待识别表格的单元格位置信息;
识别单元,用于基于所述单元格位置信息和文本区域,建立表格,得到识别后表格。
可选的,在一些实施例中,所述标注单元,具体可以用于根据所述行列位置关系,对所述待识别表格图像的文本区域进行分类;根据分类结果,在所述待识别表格图像中标注出所述同行文本区域集合和同列文本区域集合。
可选的,在一些实施例中,所述标注单元,具体可以用于在所述待识别表格图像中确定当前需要处理的文本区域,得到目标文本区域;根据所述行列位置关系,在所述待识别表格图像的剩余文本区域中筛选出所述目标文本区域的同行文本区域和同列文本区域,并将所述目标文本区域、同行文本区域和同列文本区域进行标记;返回执行在所述待识别表格图像中未标记的文本区域中确定当前需要处理的文本区域的步骤,直到所述待识别表格图像中的文本区域全部标记为止,得到所述待识别表格图像中的同行文本区域集合和同列文本区域集合。
可选的,在一些实施例中,所述绘制单元,具体可以用于获取所述分隔线之间的交点的位置信息;在所述位置信息中筛选出所述单元格对应的目标交点的位置信息;根据所述目标交点的位置信息,确定所述单元格的单元格位置信息。
可选的,在一些实施例中,所述绘制单元,具体可以用于基于所述单元格位置信息,在所述文本区域的文本信息中筛选出所述单元格对应的文本信息;根据所述单元格位置信息,建立表格;将所述单元格对应的文本信息添加至建立的表格中,得到识别后表格。
可选的,在一些实施例中,所述识别单元,具体可以用于基于所述单元格位置信息,在所述文本区域的文本信息中筛选出所述单元格对应的文本信息;根据所述单元格的位置信息,建立表格;将所述单元格对应的文本信息添加至建立的表格中,得到识别后表格。
可选的,在一些实施例中,所述提取单元,具体可以用于对所述文本区域进行特征提取,得到所述文本区域的特征信息;根据所述特征信息,确定所述文本区域之间的特征关系,得到所述文本区域之间的邻接特征信息;基于所述邻接特征信息,识别出所述文本区域之间的行列位置关系。
可选的,在一些实施例中,所述提取单元,具体可以用于对所述待识别表格图像进行特征提取,得到所述待识别表格图像对应的特征图;根据所述文本区域和特征图,生成所述文本区域的特征信息。
可选的,在一些实施例中,所述提取单元,具体可以用于获取所述待识别表格图像的尺寸;根据预设图像尺寸,确定对所述待识别表格图像进行缩放的缩放系数;根据所述缩放系数,对所述待识别表格图像的尺寸进行缩放,得到缩放后表格图像;对所述缩放后表格图像进行特征提取,得到所述缩放后表格图像对应的特征图。
可选的,在一些实施例中,所述提取单元,具体可以用于获取所述文本区域的位置信息和文本信息;根据所述位置信息和缩放系数,在所述特征图中筛选出所述文本区域对应的图像特征信息;根据所述位置信息,确定所述文本区域的位置特征信息;将所述文本信息转换为词向量,将所述词向量作为所述文本区域的语义特征信息;将所述文本区域的图像特征信息、位置特征信息和语义特征信息进行融合,得到所述文本区域的特征信息。
可选的,在一些实施例中,所述提取单元,具体可以用于在所述待识别表格图像中筛选出文本区域的邻近文本区域;将所述邻近文本区域的特征信息与文本区域的特征信息进行融合,得到所述文本区域的全局特征信息;对所述文本区域的全局特征信息进行聚合,得到预设维度的聚合后特征信息;采用训练后识别模型的交互网络分别对每一文本区域的聚合后特征信息进行解析,得到所述文本区域之间的邻接特征信息。
可选的,在一些实施例中,所述提取单元,具体可以用于根据所述邻接特征信息,采用所述训练后识别模型的分类网络对所述待识别表格图像中任意两个文本区域之间的特征关系进行分类,以得到所述文本区域之间的特征关系;根据所述特征关系,确定所述文本区域之间的行列位置关系。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的表格识别方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种表格识别方法中的步骤。
本发明实施例在获取待识别表格图像后,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,然后,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,然后,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格;由于该方案根据识别出的行列位置关系,在待识别表格图像中通过绘制文本区域的分隔线,来得到待识别表格的单元格位置信息,从而完成表格的识别,无需考虑待识别表格的线条结构是否完整,从而提高表格识别的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的表格识别方法的场景示意图;
图2是本发明实施例提供的表格结构已知和表格结构未知的区别示意图;
图3是本发明实施例提供的表格识别方法的流程示意图;
图4是本发明实施例提供的待识别表格的文本区域的示意图;
图5是本发明实施例提供的文本区域在待识别表格图像中的坐标信息的示意图;
图6是本发明实施例提供的对同行文本集合和同列文本集合标注的示意图;
图7是本发明实施例提供的待识别表格图像全部标注完成的示意图;
图8是本发明实施例提供的划分的行列区域的示意图;
图9是本发明实施例提供的绘制出的分隔线的示意图;
图10是本发明实施例提供的每个单元格的四个交点的示意图;
图11是本发明实施例提供的识别后表格的结构示意图;
图12是本发明实施例提供的表格识别方法的另一流程示意图;
图13是本发明实施例提供的表格识别装置的结构示意图;
图14是本发明实施例提供的表格识别装置的提取单元的结构示意图;
图15是本发明实施例提供的表格识别装置的另一结构示意图;
图16是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种表格识别方法、装置和计算机可读存储介质。其中,该表格识别装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以表格识别装置集成在电子设备中为例,电子设备获取待识别表格图像,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,然后,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格。
其中,待识别表格图像可以为包含表格的图像,该图像上的表格结构可以是已知也可以是未知的,表格结构已知可以理解为待识别表格图像上的表格的线条结构是完整的,那相对的表格结构未知就可以为待识别表格图像中的表格的线条是缺失,可以是全部缺失,也可以为部分缺失。如图2所示,可以明确看出在待识别表格图像的表格结构已知和表格结构未知之间的区别。本实施例主要针对线条结构缺失的待识别表格来进行识别,同时,对于线条结构完整的待识别表格也可以进行识别。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从表格识别装置的角度进行描述,该表格识别装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
一种表格识别方法,包括:
获取待识别表格图像,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格。
如图3所示,该表格识别方法的具体流程如下:
101、获取待识别表格图像,并对待识别表格图像进行文本识别,得到多个文本区域。
其中,文本区域可以为待识别表格图像存在文本的区域,该文本区域可以为单行文本,也可以为单个词组成的文本。因此,待识别表格图像中可以包含一个或者多个文本区域。该文本区域中可以包括识别出的文本信息和该文本区域在待识别表格图像中的位置信息。
其中,待识别表格图像包括待识别表格,待识别表格的线条结构可以是缺失的,也可以是完整的。
例如,获取待识别表格图像,在待识别表格图像中检测出存在文本的图像区域,对这些图像区域的文本信息进行识别,得到每个文本图像对应的文本区域。具体可以如下:
(1)获取待识别表格图像。
例如,可以直接获取待识别表格图像,比如,用户直接将需要识别的表格图像上传至表格识别装置,表格识别装置直接获取到待识别表格图像。如果针对多张或者批量的待识别表格图像,用户直接上传然后再处理,会需要较多的时间,在这这种情况下也可以间接获取到待识别表格图像,比如,用户的终端可以先向表格识别装置发送表格识别请求,该表格识别请求中携带待识别表格图像在第三方数据库中的存储地址,表格识别装置根据该存储地址,在第三方数据库中提取出需要识别的待识别表格图像,当提取到待识别表格图像后,还可以向用户的终端发送提示信息。用户还可以设定存储时间,表格识别装置定时在第三方数据库中获取用户不断更新的待识别表格图像。
(2)在待识别表格图像中检测出存在文本的图像区域。
例如,可以采用文本检测网络直接在待识别表格图像中检测出存在文本的图像区域。比如,对待识别表格图像的每个像素进行检测,通过检测结果判断该像素中包含的是文本还是空白,当存在多个相邻像素的检测结果都是包含文本,则可以将这些像素所对应的图像区域作为存在文本的图像区域。还可以直接将待识别表格图像划分为多个图像区域,对每一个图像区域中的像素包含的内容进行检测,根据检测结果,来判断该图像区域是否为存在的区域,当多个相互连接的区域都为存在文本的区域时,可以将这些相互连接的区域融合成一个区域。根据检测结果,将待识别表格图像中的图像区域进行切割,得到多个包含图像区域的图像。
(3)对这些图像区域进行文本识别,得到每个图像区域对应的文本区域。
例如,可以将这些图像区域对应的图像通过该识别网络进行文本识别,识别出该图像区域对应的图像在待识别表格位置信息和文本信息,得到每个图像区域对应的文本区域。比如,可以直接获取该图像区域在待识别表格图像中的位置信息,将该位置信息作为文本区域的位置信息即可,可以采用光学字符(Optical Character Recognition,OCR)识别来识别图像中文本信息,譬如,通过检测图像中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成文本信息。通过位置信息和识别出的文字信息,就可以得到待识别表格图像的文本区域,如图4所示,图中的虚线框就为一个文本区域。
102、对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系。
其中,行列位置关系可以为某个文本区域跟另一个文本区域在待识别表格中的位置关系,比如,A文本区域与B文本区域位于同一个待识别表格的同一行,则可以认为A文本区域和B文本区域的行列位置关系为同行关系,又譬如,A文本区域与B文本区域位于同一个待识别表格的同一列,则可以认为A文本区域和B文本区域的行列位置关系为同列关系。
例如,可以对文本区域进行特征提取,得到文本区域的特征信息,根据特征信息,确定文本区域之间的特征关系,得到文本区域之间的邻接特征信息,基于邻接特征信息,识别出文本区域之间的行列位置关系。具体可以如下:
S1、对文本区域进行特征提取,得到文本区域的特征信息。
例如,对待识别表格图像进行特征提取,得到待识别表格图像对应的特征图,根据文本区域和特征图,生成文本区域的特征信息。具体可以如下:
(1)对待识别表格图像进行特征提取,得到待识别表格图像对应的特征图。
例如,可以获取待识别表格图像的尺寸,根据预设图像尺寸,确定对待识别表格图像进行缩放的缩放系数,比如,以获取到待识别表格的尺寸为1024*1024,预设图像尺寸为512*512,则确定出对待识别图像x方向进行缩放的缩放系数为0.5,对待识别表格图像y方向进行缩放的缩放系数也为0.5。根据缩放系数,对待识别表格图像的尺寸进行缩放,得到缩放后表格图像,比如,还是以预设图像尺寸为512*512,x方向的缩放系数为0.5,y方向的缩放系数为0.5为例,将待识别图像的尺寸进行缩放,使得缩放后表格图像的尺寸为512*512。对缩放后表格图像进行特征提取,得到缩放后表格图像对应的特征图,比如,可以采用裁剪掉卷积层和降低通道之后的残差网络对缩放后表格图像进行特征提取,可以得到缩放后表格图像对应的特征如,比如,以缩放后表格图像的尺寸为512*512,则通过裁剪后残差网络进行特征提取之后,可以得到尺寸为128*128,通道数为64的特征图。
其中,预设尺寸和输出的特征图的尺寸都可以根据实际应用来进行设定,对于裁剪后残差网络来说,可以对残差网络的卷积层全部裁剪,也可以部分裁剪,也可以直接采用残差网络进行特征提取,不用对残差网络进行裁剪。
(2)根据文本区域和特征图,生成文本区域的特征信息。
例如,获取文本区域的位置信息和文本信息,比如,文本区域的位置信息主要为文本区域在待识别表格图像中的坐标信息,坐标信息可以为(x1,y1,w1,h1),x1为文本区域的中心点到X轴的距离,y1为文本区域的中心点到Y轴的距离,w1为文本区域的宽度,h1为文本区域的高度,如图5所示。根据位置信息和缩放系数,在特征图中筛选出文本区域的对应的图像特征信息,比如,将文本区域的坐标信息根据缩放系数进行缩放,譬如,以文本区域的坐标信息为(x1,y1,w1,h1)为例,将x1和w1分别乘以(128/512),接着再乘以x方向的缩放系数,得到x1’和w1’,同理,将y1和h1分别乘以(128/512),接着再乘以y方向的缩放系数,得到y1’和h1’最后得到缩放后的文本区域的坐标信息为(x1’,y1’,w1’,h1’)。在特征图中将(x1’+w1’/2,y1’+h1’/2)位置上特征信息作为文本区域的特征信息,分别对待识别表格图像的每一文本区域进行特征提取,得到待识别表格图像的文本区域的图像特征信息集合,文本区域的图像特征信息的维度可以64维。根据位置信息,确定文本区域的位置特征信息,比如,直接将每个文本区域的位置信息中的坐标信息(x1,y1,w1,h1)作为文本区域的位置特征信息,分别将待识别表格图像的每一文本区域的位置信息中的坐标信息作为位置特征信息,得到待识别表格图像的文本区域的位置特征信息集合,文本区域的位置特征信息的维度可以64维。将文本信息转换为词向量,将词向量作为文本区域的语义特征信息,比如,可以采用词嵌入(word embedding)将每个文本区域内的文本信息生成词向量,譬如,把一个维数为文本区域中所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,把每个单词或词组被映射为实数域上的词向量。将这些词向量作为文本区域的语义特征信息。可以得到待识别表格图像的文本区域的语义特征信息集合,其中,文本区域的语义特征信息的维度可以为64维。将文本区域的图像特征信息、位置特征信息和语义特征信息进行融合,得到文本区域的特征信息,比如,当图像特征信息、位置信息和语义特征信息都为64维时,则每个文本区域融合后的特征信息的维度可以为132维。
S2、根据特征信息,确定文本区域之间的特征关系,得到文本区域之间的邻接特征信息。
其中,邻接特征信息可以为邻接矩阵,主要用于表示文本区域的特征关系。所谓邻接矩阵可以为顶点之间相邻关系的矩阵,在这里的顶点就可以理解为每个文本区域对应一个顶点。
例如,在待识别表格图像中筛选出文本区域的邻近文本区域,比如,可以采用K邻近算法(k-Nearest Neighbor algorithm,KNN)在待识别表格图像中找到与每个文本区域最邻近的K个文本区域,将这些文本区域作为邻近文本区域。将邻近文本区域的特征信息与文本区域的特征信息进行融合,得到文本区域的全局特征信息,比如,A文本区域一共有2个邻近文本区域B和C,此时,将A文本区域、B邻近文本区域和C邻近文本区域的特征信息进行融合,可以得到A文本区域的全局特征信息。同理,对于B邻近文本区域而言,也是一样,将B邻近文本区域的邻近文本区域的特征信息进行融合,得到B邻近文本区域的全局信息,此时,可以得到待识别表格图像的每个文本区域的全局特征信息。这样做主要是为加强各个文本区域之间的联系,进而提升每个文本区域的全局特征。对文本区域的全局特征信息进行聚合,得到预设维度的聚合后特征信息,比如,可以采用全连接层网络将每个文本区域的全局特征信息进行聚合降维,譬如,以全局特征信息的维度为132维为例,可以聚合降维至64维,这样可以得到每个文本区域的聚合后特征信息输出尺寸可以为N*64。采用训练后识别模型的交互网络分别对每一文本区域的聚合后特征信息进行解析,得到文本区域之间的邻接特征信息,比如,可以采用训练后识别模型的交互网络分别对每一文本区域的聚合后特征信息与待识别表格图像中剩余文本区域的聚合后特征信息进行交互,在向量层面可以理解为向量相乘,最后得到各个文本区域之间的特征关系,这个特征关系采用邻接矩阵来表示,以输入的聚合特征信息的尺寸为N*64,那么得到邻近矩阵的尺寸可以为N*N*128。
其中,这个邻接特征信息中可以包括两个邻接矩阵,一个是行邻接矩阵,另一个是列邻接矩阵,主要是在将特征交互时,从两个维度进行交互,行邻接矩阵表示的是每个文本区域之间的行特征关系,列邻接矩阵表示的是每个文本区域之间的列特征关系,而且行邻接矩阵和列邻接矩阵的大小相同,比如,以输入的聚合特征信息的尺寸为N*64为例,则行邻接矩阵和列邻接矩阵的尺寸都可以为N*N*128。
S3、基于邻接特征信息,识别出文本区域之间的行列位置关系。
例如,根据邻接特征信息,采用训练后识别模型的分类网络对待识别表格图像中任意两个文本区域之间的特征关系进行分类,以得到文本区域之间的特征关系,比如,在邻接特征信息的行邻接矩阵中任意选择一个元素,该元素表示两个文本区域的行特征关系,采用分类网络对该行特征关系进行分类,行特征关系一共可以有两种,同行关系或者非同行关系,假设选择的两个文本的行特征关系为同行关系时,分类网络将该行特征关系就可以分类为同行关系,此时,就可以得到这个元素对应的两个文本区域的行位置关系为同行。于此类似,还可以在列邻接矩阵中任意选择一个元素,可以得到该元素对应的两个文本区域的列特征关系,该列特征关系可以为同列或者非同列。然后,遍历邻接特征信息的每一个元素,可以得到待识别表格图像中所有文本区域之间的行特征关系和列特征关系。根据特征关系,确定文本区域之间的行列位置关系,比如,A文本区域和B文本区域的行特征关系为同行,则可以确定A文本区域和B文本区域之间的行位置关系为同行关系,如果A文本区域和B文本区域的列特征关系为同列,则可以确定A文本区域和B文本区域之间的列位置关系为同列关系。如果A文本区域和B文本区域之间的特征关系为特征关系,则可以确定A文本区域和B文本区域之间的行列位置关系为非同行也非同列其他位置关系。
其中,该训练后识别模型可以根据实际应用的需求进行设置,另外,需要说的是,该训练后识别模型可以由维护人员预先进行设置,也可以由该表格识别装置自行进行训练,即步骤“采用训练后识别模型的交互网络分别对每一文本区域的聚合后特征信息进行解析”之前,该表格识别方法还可以包括:
(1)采集文本区域样本集合,该文本区域样本集合中包括已标注特征关系的和位置关系的多个文本区域。
例如,具体可以采集多个文本区域作为原始数据集,对原始数据集合中进行标注,得到文本区域样本集合。比如,从数据库或者网络上获取到表格图像,将表格图像中的文本区域进行识别,得到原始文本区域集合,然后,在该原始文本区域集合中标注从每个原始文本区域的特征关系和位置关系,将标注特征关系和位置关系作为文本区域样本,得到文本区域样本集合。
(2)采用预设识别模型的交互网络和分类网络对于所述文本区域样本之间的邻接特征信息和行列位置关系进行预测,得到预测结果。
例如,对文本区域样本进行特征提取,在文本区域样本集合中筛选文本区域样本的邻近文本区域样本,将邻近文本区域样本的特征信息与文本区域样本的特征信息进行融合,得到文本区域样本的全局特征信息,对文本区域样本的全局特征信息进行融合,得到预设维度的聚合后特征信息,对每个文本区域样本的聚合后特征信息进行特征交互,得到文本区域样本之间的预测的邻接特征信息。根据邻接特征信息对文本区域样本集合中任意两个文本区域样本之间的特征关系进行分类,得到文本区域样本之间的特征关系,根据特征关系,预测出文本区域样本之间的行列位置关系。
(3)根据预测结果与文本样本区域集合中的标注结果对预设识别模型进行收敛得到训练后识别模型。
例如,在本申请实施例中,可以通过插值损失函数,根据预测结果与标注结果对预设识别模型进行收敛,得到训练后识别模型。譬如,具体可以如下:
采用Dice函数(一种损失函数),根据文本区域样本集合中预测结果与标注结果对识别模型中用于识别文本区域之间的邻接特征信息和位置关系的参数进行调整,以及通过插值损失函数,根据文本区域样本集合中预测结果与标注结果对识别模型中用于识别文本区域之间的邻接特征信息和位置关系的参数进行调整,得到训练后识别模型。
可选的,为了提高文本区域之间的行列位置关系的精确性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数,根据文本区域样本集合中预测结果与标注结果对识别模型中用于识别文本区域之间的邻接特征信息和位置关系的参数进行调整,以及通过插值损失函数,根据文本区域样本集合中预测结果与标注结果对识别模型中用于识别文本区域之间的邻接特征信息和位置关系的参数进行调整,得到训练后识别模型。
103、根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合。
其中,同行文本区域集合可以理解为在待识别表格图像中处于同一行的文本区域组成的集合。比如,A文本区域在待识别表格中与B文本区域和C文本区域处于同一行,则可以将A文本区域、B文本区域和C文本区域组成一个同行文本区域集合。如果A文本区域在待识别表格中与B文本区域和C文本区域处于同一列,则可以将A文本区域、B文本区域和C文本区域组成一个同列文本区域集合。
例如,根据行列位置关系,对待识别表格图像的文本区域进行分类,根据分类结果,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合。
具体可以如下:
(1)根据行列位置关系,对待识别表格图像的文本区域进行分类。
例如,在当前待识别表格图像中确定当前需要处理的文本区域,得到目标文本区域,比如,可以随机在待识别表格图像选择一个文本区域作为目标文本区域,还可以根据文本区域的位置信息,从待识别表格图像的最上方或者最下方选择一个文本区域作为目标文本区域,还可以根据文本区域的尺寸大小来选择目标文本区域。根据行列位置关系,在待识别表格图像中的剩余文本区域中筛选出目标文本区域的同行文本区域和同列文本区域,并将目标文本区域、同行文本区域和同列文本区域进行标记。比如,以待识别表格图像中一共有6个文本区域为例,确定目标文本区域为A文本区域,则根据识别出的A文本区域与其他文本区域之间的位置关系,在待识别表格图像剩下的5个文本区域中筛选出与A文本区域处于同行位置关系的同行文本区域,还筛选出与A文本区域处于同列位置关系的同列文本区域,譬如,根据识别的位置关系,A文本区域与B文本区域和F文本区域处于同行位置关系,A文本区域与C文本区域处于同列位置关系,则在剩余的5个文本区域中筛选出同行文本区域B和F与同列文本区域C,并将A文本区域、B文本区域、C文本区域和F文本区域在待识别表格图像的文本区域集合中标记为已使用。
然后,再返回执行在待识别表格图像中未标记的文本区域中确定的当前需要处理的文本区域的步骤,直到待识别表格图像中的文本区域全部标记为止,得到待识别表格图像中的同行文本区域集合和同列文本区域集合。比如,还是以待识别表格图像中包含6个文本区域,且其中的A文本区域、B文本区域、C文本区域和F文本区域都已经被标记为已使用,则在剩下的未标记的两个文本区域中确定一个文本区域为目标文本区域,然后,在最后一个文本区域中筛选出与目标文本区域同行或同列文本区域,在这里需要说明的是,由于文本区域其实是属于待识别表格的,因此,这些文本区域之间都会存在位置关系,而不会说存在一个文本区域与待识别表格图像中的其他文本区域之间即不同行也不同列的情况,因此,采用这种分类方法时,待识别表格图像中的文本区域是一定可以全部标记完的。
(2)根据分类结果,在待识别表格图像中标注出同行文本区域和同列文本区域集合。
例如,可以根据分类的结果,在待识别表格图像中标注出同行文本集合和同列文本,比如,根据分类的结果,A文本区域与B文本区域和F文本区域为同行关系,此时,A文本区域、B文本区域和F文本区域就构成一个同行文本集合,A文本区域与C文本区域为同列关系,此时,A文本区域与C文本区域就构成一个同列文本集合,则在待识别表格图像分别对同行文本集合和同列文本集合进行标注,可以如图6所示。当待识别表格图像中存在多个文本区域时,将待识别表格图像中将所有的同行文本集合和同列文本集合进行标注,如图7所示。
104、根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制出文本区域的分隔线,以得到待识别表格的单元格位置信息。
其中,单元格位置信息可以为待识别表格中每个单元格在待识别表格图像中的位置信息。所谓单元格,可以为待识别表格中的每一个独立的区域,该区域可以包含一个或多个文本区域。尤其是在待识别表格的线条结构缺失的情况下,确定单元格的位置信息,既可以完成表格的识别。
例如,可以根据同行文本区域集合和同列文本区域集合,对待识别表格图像进行区域划分,得到多个行列区域,在行列区域之间绘制分隔线,以得到待识别表格的单元格,根据分隔线,确定单元格的单元格位置信息。具体可以如下:
(1)根据同行文本区域集和同列文本区域集合,对待识别表格图像进行行列区域划分,得到多个行列区域。
例如,根据同行文本区域集合和同列文本区域集合,对待识别表格图像进行行列区域划分,得到多个行列区域。比如,在待识别表格图像中将每个同行文本区域集合划分为一个行区域,将每个同列文本集合划分为一个列区域,就可以得到划分好的多个行列区域,如图8所示。
(2)在行列区域之间绘制分隔线,以得到待识别表格的单元格。
例如,在行列区域之间绘制分隔线,将分隔线分隔出的区域作为待识别表格的单元格,比如,在每一个行列区域之间绘制一条分隔线,如图9所示,在待识别表格图像中就可以得到多条横和纵线,这些横纵线之间会形成一个一个的独立的区域,将这些独立的区域作为待识别表格的单元格。
(3)根据分隔线,确定单元格的单元格位置信息。
例如,获取分隔线之间的交点的位置信息,然后,在交点的位置信息集合中筛选出单元格对应的目标交点的位置信息,由于单元格是由这些横纵线交点构成的,则只需要确定出每个单元格的四个交点,如图10所示,将这4个交点作为目标交点,然后筛选出这4个目标交点的位置信息,根据这些目标交点的位置信息,来确定出最终单元格的单元格位置信息,譬如,根据交点的横纵坐标,来确定单元格的坐标信息(x,y,w,h),其中,x主要通过4个目标交点横坐标来确定,y主要通过4个目标交点的纵坐标来确定,w主要通过四个交点中两个同行交点之间的横坐标之差来确定,h主要通过四个交点中两个同列交点之间的纵坐标之差来确定,将坐标信息作为单元格的单元格位置信息。
105、基于单元格位置信息和文本区域,建立表格,得到识别后表格。
例如,基于单元格位置信息,在文本区域的文本信息中筛选出单元格对应的文本信息,比如,根据单元格的位置信息,在待识别表格中确定该位置信息对应的文本区域,一个位置信息可以包含一个或多个文本区域,然后,将这个位置信息对应的文本区域中文本信息作为单元格对应的文本信息。根据单元格位置信息,建立表格,比如,根据每个单元格的位置信息,新建一个目标文件格式的表格,这个表格的格式可以excel(一种表格文件的格式)或者其他格式的表格,这个表格的每个单元格都与待识别表格的单元格一一对应,然后,将该单元格对应的文本信息添加至建立的表格中,得到识别后表格,如图11所示。
由以上可知,本申请实施例在获取待识别表格图像后,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,然后,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,然后,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格;由于该方案根据识别出的行列位置关系,在待识别表格图像中通过绘制文本区域的分隔线,来得到待识别表格的单元格位置信息,从而完成表格的识别,无需考虑待识别表格的线条结构是否完整,从而提高表格识别的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该表格识别装置具体集成在电子设备,电子设备为服务器为例进行说明。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器等,但并不局限于此。
如图12所示,一种表格识别方法,具体流程如下:
201、服务器获取待识别表格图像,并对待识别表格图像进行文本识别,得到多个文本区域。
例如,服务器获取待识别表格图像,在待识别表格图像中检测出存在文本的图像区域,对这些图像区域的文本信息进行识别,得到每个文本图像对应的文本区域。具体可以如下:
(1)服务器获取待识别表格图像。
例如,用户直接将需要识别的表格图像上传至服务器,服务器直接获取到待识别表格图像。如果针对多张或者批量的待识别表格图像,用户直接上传然后再处理,会需要较多的时间,在这这种情况下也可以间接获取到待识别表格图像,比如,用户的终端可以先向服务器发送表格识别请求,该表格识别请求中携带待识别表格图像在第三方数据库中的存储地址,服务器根据该存储地址,在第三方数据库中提取出需要识别的待识别表格图像,当提取到待识别表格图像后,还可以向用户的终端发送提示信息。用户还可以设定存储时间,表格识别装置定时在第三方数据库中获取用户不断更新的待识别表格图像。
(2)服务器在待识别表格图像中检测出存在文本的图像区域。
例如,服务器可以对待识别表格图像的每个像素进行检测,通过检测结果判断该像素中包含的是文本还是空白,当存在多个相邻像素的检测结果都是包含文本,则可以将这些像素所对应的图像区域作为存在文本的图像区域。还可以直接将待识别表格图像划分为多个图像区域,对每一个图像区域中的像素包含的内容进行检测,根据检测结果,来判断该图像区域是否为存在的区域,当多个相互连接的区域都为存在文本的区域时,可以将这些相互连接的区域融合成一个区域。根据检测结果,将待识别表格图像中的图像区域进行切割,得到多个包含图像区域的图像。
(3)服务器对这些图像区域进行文本识别,得到每个图像区域对应的文本区域。
例如,服务器可以直接获取该图像区域在待识别表格图像中的位置信息,将该位置信息作为文本区域的位置信息即可,对于图像区域的文本信息来说,可以采用OCR识别来识别图像中文本信息,譬如,通过检测图像中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成文本信息。通过位置信息和识别出的文字信息,就可以得到待识别表格图像的文本区域。
202、服务器对文本区域进行特征提取,得到文本区域的特征信息。
例如,服务器对待识别表格图像进行特征提取,得到待识别表格图像对应的特征图,根据文本区域和特征图,生成文本区域的特征信息。具体可以如下:
(1)服务器对待识别表格图像进行特征提取,得到待识别表格图像对应的特征图。
例如,以获取到待识别表格的尺寸为1024*1024,预设图像尺寸为512*512为例,服务器确定出对待识别图像x方向进行缩放的缩放系数为0.5,对待识别表格图像y方向进行缩放的缩放系数也为0.5。根据缩放系数,对待识别表格图像的尺寸进行缩放,得到缩放后表格图像,比如,还是以预设图像尺寸为512*512,x方向的缩放系数为0.5,y方向的缩放系数为0.5为例,将待识别图像的尺寸进行缩放,使得缩放后表格图像的尺寸为512*512。对缩放后表格图像进行特征提取,得到缩放后表格图像对应的特征图,比如,可以采用裁剪掉卷积层和降低通道之后的残差网络对缩放后表格图像进行特征提取,可以得到缩放后表格图像对应的特征如,比如,以缩放后表格图像的尺寸为512*512,则通过裁剪后残差网络进行特征提取之后,可以得到尺寸为128*128,通道数为64的特征图。
(2)服务器根据文本区域和特征图,生成文本区域的特征信息。
例如,服务器可以获取文本区域在待识别表格图像中的坐标信息,比如,坐标信息可以为(x1,y1,w1,h1),将文本区域的坐标信息根据缩放系数进行缩放,譬如,还是以文本区域的坐标信息为(x1,y1,w1,h1)为例,将x1和w1分别乘以(128/512),接着再乘以x方向的缩放系数,得到x1’和w1’,同理,将y1和h1分别乘以(128/512),接着再乘以y方向的缩放系数,得到y1’和h1’最后得到缩放后的文本区域的坐标信息为(x1’,y1’,w1’,h1’)。在特征图中将(x1’+w1’/2,y1’+h1’/2)位置上特征信息作为文本区域的特征信息,分别对待识别表格图像的每一文本区域进行特征提取,得到待识别表格图像的文本区域的图像特征信息集合,文本区域的图像特征信息的维度可以64维。根据位置信息,确定文本区域的位置特征信息,比如,直接将每个文本区域的位置信息中的坐标信息(x1,y1,w1,h1)作为文本区域的位置特征信息,分别将待识别表格图像的每一文本区域的位置信息中的坐标信息作为位置特征信息,得到待识别表格图像的文本区域的位置特征信息集合,文本区域的位置特征信息的维度可以64维。将文本信息转换为词向量,将词向量作为文本区域的语义特征信息,比如,可以采用word embedding将每个文本区域内的文本信息生成词向量,譬如,把一个维数为文本区域中所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,把每个单词或词组被映射为实数域上的词向量。将这些词向量作为文本区域的语义特征信息。可以得到待识别表格图像的文本区域的语义特征信息集合,其中,文本区域的语义特征信息的维度可以为64维。将文本区域的图像特征信息、位置特征信息和语义特征信息进行融合,得到文本区域的特征信息,比如,当图像特征信息、位置信息和语义特征信息都为64维时,则每个文本区域融合后的特征信息的维度可以为132维。
203、服务器根据特征信息,确定文本区域之间的特征关系,得到文本区域之间的邻接特征信息。
例如,服务器可以采用KNN在待识别表格图像中找到与每个文本区域最邻近的K个文本区域,将这些文本区域作为邻近文本区域。将邻近文本区域的特征信息与文本区域的特征信息进行融合,得到文本区域的全局特征信息,比如,A文本区域一共有2个邻近文本区域B和C,此时,将A文本区域、B邻近文本区域和C邻近文本区域的特征信息进行融合,可以得到A文本区域的全局特征信息。同理,对于B邻近文本区域而言,也是一样,将B邻近文本区域的邻近文本区域的特征信息进行融合,得到B邻近文本区域的全局信息,此时,可以得到待识别表格图像的每个文本区域的全局特征信息。这样做主要是为加强各个文本区域之间的联系,进而提升每个文本区域的全局特征。对文本区域的全局特征信息进行聚合,得到预设维度的聚合后特征信息,比如,可以采用全连接层网络将每个文本区域的全局特征信息进行聚合降维,譬如,以全局特征信息的维度为132维为例,可以聚合降维至64维,这样可以得到每个文本区域的聚合后特征信息输出尺寸可以为N*64。采用训练后识别模型的交互网络分别对每一文本区域的聚合后特征信息进行解析,得到文本区域之间的邻接特征信息,比如,可以采用训练后识别模型的交互网络分别对每一文本区域的聚合后特征信息与待识别表格图像中剩余文本区域的聚合后特征信息进行交互,在向量层面可以理解为向量相乘,最后得到各个文本区域之间的特征关系,这个特征关系采用邻接矩阵来表示,以输入的聚合特征信息的尺寸为N*64,那么得到邻近矩阵的尺寸可以为N*N*128。
204、服务器基于邻接特征信息,识别出文本区域之间的行列位置关系。
例如,服务器采用训练后识别模型的分类网络在邻接特征信息的行邻接矩阵中任意选择一个元素,该元素表示两个文本区域的行特征关系,采用分类网络对该行特征关系进行分类,行特征关系一共可以有两种,同行关系或者非同行关系,假设选择的两个文本的行特征关系为同行关系时,分类网络将该行特征关系就可以分类为同行关系,此时,就可以得到这个元素对应的两个文本区域的行位置关系为同行。于此类似,还可以在列邻接矩阵中任意选择一个元素,可以得到该元素对应的两个文本区域的列特征关系,该列特征关系可以为同列或者非同列。然后,遍历邻接特征信息的每一个元素,可以得到待识别表格图像中所有文本区域之间的行特征关系和列特征关系。根据特征关系,确定文本区域之间的行列位置关系,比如,A文本区域和B文本区域的行特征关系为同行,则可以确定A文本区域和B文本区域之间的行位置关系为同行关系,如果A文本区域和B文本区域的列特征关系为同列,则可以确定A文本区域和B文本区域之间的列位置关系为同列关系。如果A文本区域和B文本区域之间的特征关系为特征关系,则可以确定A文本区域和B文本区域之间的行列位置关系为非同行也非同列其他位置关系。
其中,该训练后识别模型可以根据实际应用的需求进行设置,另外,需要说的是,该训练后识别模型可以由维护人员预先进行设置,也可以由该表格识别装置自行进行训练,即步骤“采用训练后识别模型的交互网络分别对每一文本区域的聚合后特征信息进行解析和采用训练后识别模型的分类网络对待识别表格图像中任意两个文本区域之间的特征关系进行分类”之前,该表格识别方法还可以包括:
(1)服务器采集文本区域样本集合,该文本区域样本集合中包括已标注特征关系的和位置关系的多个文本区域。
例如,服务器具体可以采集多个文本区域作为原始数据集,对原始数据集合中进行标注,得到文本区域样本集合。比如,从数据库或者网络上获取到表格图像,将表格图像中的文本区域进行识别,得到原始文本区域集合,然后,在该原始文本区域集合中标注从每个原始文本区域的特征关系和位置关系,将标注特征关系和位置关系作为文本区域样本,得到文本区域样本集合。
(2)服务器采用预设识别模型的交互网络和分类网络对于所述文本区域样本之间的邻接特征信息和行列位置关系进行预测,得到预测结果。
例如,服务器对文本区域样本进行特征提取,在文本区域样本集合中筛选文本区域样本的邻近文本区域样本,将邻近文本区域样本的特征信息与文本区域样本的特征信息进行融合,得到文本区域样本的全局特征信息,对文本区域样本的全局特征信息进行融合,得到预设维度的聚合后特征信息,对每个文本区域样本的聚合后特征信息进行特征交互,得到文本区域样本之间的预测的邻接特征信息。根据邻接特征信息对文本区域样本集合中任意两个文本区域样本之间的特征关系进行分类,得到文本区域样本之间的特征关系,根据特征关系,预测出文本区域样本之间的行列位置关系。
(3)服务器根据预测结果与文本样本区域集合中的标注结果对预设识别模型进行收敛得到训练后识别模型。
例如,在本申请实施例中,服务器可以通过插值损失函数,根据预测结果与标注结果对预设识别模型进行收敛,得到训练后识别模型。譬如,具体可以如下:
采用Dice函数,根据文本区域样本集合中预测结果与标注结果对识别模型中用于识别文本区域之间的邻接特征信息和位置关系的参数进行调整,以及通过插值损失函数,根据文本区域样本集合中预测结果与标注结果对识别模型中用于识别文本区域之间的邻接特征信息和位置关系的参数进行调整,得到训练后识别模型。
可选的,为了提高文本区域之间的行列位置关系的精确性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数,根据文本区域样本集合中预测结果与标注结果对识别模型中用于识别文本区域之间的邻接特征信息和位置关系的参数进行调整,以及通过插值损失函数,根据文本区域样本集合中预测结果与标注结果对识别模型中用于识别文本区域之间的邻接特征信息和位置关系的参数进行调整,得到训练后识别模型。
205、服务器根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合。
例如,服务器可以根据行列位置关系,对待识别表格图像的文本区域进行分类,根据分类结果,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合。具体可以如下:
(1)服务器根据行列位置关系,对待识别表格图像的文本区域进行分类。
例如,服务器可以随机在待识别表格图像选择一个文本区域作为目标文本区域,还可以根据文本区域的位置信息,从待识别表格图像的最上方或者最下方选择一个文本区域作为目标文本区域,还可以根据文本区域的尺寸大小来选择目标文本区域。根据行列位置关系,在待识别表格图像中的剩余文本区域中筛选出目标文本区域的同行文本区域和同列文本区域,并将目标文本区域、同行文本区域和同列文本区域进行标记。比如,以待识别表格图像中一共有5个文本区域为例,确定目标文本区域为A文本区域,则根据识别出的A文本区域与其他文本区域之间的位置关系,在待识别表格图像剩下的4个文本区域中筛选出与A文本区域处于同行位置关系的同行文本区域,还筛选出与A文本区域处于同列位置关系的同列文本区域,譬如,根据识别的位置关系,A文本区域与B文本区域处于同行位置关系,A文本区域与C文本区域处于同列位置关系,则在剩余的4个文本区域中筛选出同行文本区域B和同列文本区域C,并将A文本区域、B文本区域和C文本区域在待识别表格图像的文本区域集合中标记为已使用。
然后,服务器再返回执行在待识别表格图像中未标记的文本区域中确定的当前需要处理的文本区域的步骤,直到待识别表格图像中的文本区域全部标记为止,得到待识别表格图像中的同行文本区域集合和同列文本区域集合。比如,还是以待识别表格图像中包含5个文本区域,且其中的A文本区域、B文本区域和C文本区域都已经被标记为已使用,则在剩下的未标记的两个文本区域中确定一个文本区域为目标文本区域,然后,在最后一个文本区域中筛选出与目标文本区域同行或同列文本区域,在这里需要说明的是,由于文本区域其实是属于待识别表格的,因此,这些文本区域之间都会存在位置关系,而不会说存在一个文本区域与待识别表格图像中的其他文本区域之间即不同行也不同列的情况,因此,采用这种分类方法时,待识别表格图像中的文本区域是一定可以全部标记完的。
(2)服务器根据分类结果,在待识别表格图像中标注出同行文本区域和同列文本区域集合。
例如,服务器根据分类的结果,比如,A文本区域与B文本区域为同行关系,此时,A文本区域和B文本区域就构成一个同行文本集合,又比如,A文本区域与C文本区域为同列关系,此时,A文本区域与C文本区域就构成一个同列文本集合,则在待识别表格图像分别对同行文本集合和同列文本集合进行标注,可以如图6所示。当待识别表格图像中存在多个文本区域时,将待识别表格图像中将所有的同行文本集合和同列文本集合进行标注
206、服务器根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制出文本区域的分隔线,以得到待识别表格的单元格位置信息。
例如,服务器可以根据同行文本区域集合和同列文本区域集合,对待识别表格图像进行区域划分,得到多个行列区域,在行列区域之间绘制分隔线,以得到待识别表格的单元格,根据分隔线,确定单元格的单元格位置信息。具体可以如下:
(1)服务器根据同行文本区域集和同列文本区域集合,对待识别表格图像进行行列区域划分,得到多个行列区域。
例如,服务器在待识别表格图像中将每个同行文本区域集合划分为一个行区域,将每个同列文本集合划分为一个列区域,就可以得到划分好的多个行列区域。
(2)服务器在行列区域之间绘制分隔线,以得到待识别表格的单元格。
例如,服务器在每一个行列区域之间绘制一条分隔线,如图9所示,在待识别表格图像中就可以得到多条横和纵线,这些横纵线之间会形成一个一个的独立的区域,将这些独立的区域作为待识别表格的单元格。
(3)服务器根据分隔线,确定单元格的单元格位置信息。
例如,服务器获取分隔线之间的交点的位置信息,然后,在交点的位置信息集合中筛选出单元格对应的目标交点的位置信息,由于单元格是由这些横纵线交点构成的,则只需要确定出每个单元格的四个交点,如图10所示,将这4个交点作为目标交点,然后筛选出这4个目标交点的位置信息,根据这些目标交点的位置信息,来确定出最终单元格的单元格位置信息,譬如,根据交点的横纵坐标,来确定单元格的坐标信息(x,y,w,h),其中,x主要通过4个目标交点横坐标来确定,y主要通过4个目标交点的纵坐标来确定,w主要通过四个交点中两个同行交点之间的横坐标之差来确定,h主要通过四个交点中两个同列交点之间的纵坐标之差来确定,将坐标信息作为单元格的单元格位置信息。
207、服务器基于单元格位置信息和文本区域,建立表格,得到识别后表格。
例如,服务器根据单元格的位置信息,在待识别表格中确定该位置信息对应的文本区域,一个位置信息可以包含一个或多个文本区域,然后,将这个位置信息对应的文本区域中文本信息作为单元格对应的文本信息。根据单元格位置信息,建立表格,比如,根据每个单元格的位置信息,新建一个目标文件格式的表格,这个表格的格式可以excel或者其他格式的表格,这个表格的每个单元格都与待识别表格的单元格一一对应,然后,将该单元格对应的文本信息添加至建立的表格中,得到识别后表格,如图11所示。
由以上可知,本实施例电子设备在获取待识别表格图像后,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,然后,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,然后,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格;由于该方案根据识别出的行列位置关系,在待识别表格图像中通过绘制文本区域的分隔线,来得到待识别表格的单元格位置信息,从而完成表格的识别,无需考虑待识别表格的线条结构是否完整,从而提高表格识别的准确性。
为了更好地实施以上方法,本发明实施例还提供一种表格识别装置,该表格识别装置可以集成在电子设备,比如服务器或终端等设备中,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,如图13所示,该表格识别装置可以包括获取单元301、提取单元302、标注单元303、绘制单元304和识别单元305,如下:
(1)获取单元301;
获取单元301,用于获取待识别表格图像,并对待识别表格图像进行文本识别,得到多个文本区域。
例如,获取单元301,具体可以用于获取待识别表格图像,在待识别表格图像中检测出存在文本的图像区域,对这些图像区域的文本信息进行识别,得到每个文本图像对应的文本区域。
(2)提取单元302;
提取单元302,用于对文本区域进行特征提取,并根据提取到的特征确定所述文本区域之间的行列位置关系。
其中,提取单元302还可以包括提取子单元3021、确定子单元3022和识别子单元3023,如图14所示,具体如下:
提取子单元3021,用于对文本区域进行特征提取,得到文本区域的特征信息;
确定子单元3022,用于根据特征信息,确定文本区域之间的特征关系,得到文本区域之间的邻接特征信息;
识别子单元3023,用于基于邻接特征信息,识别出文本区域之间的行列位置关系。
例如,提取子单元3021对文本区域进行特征提取,得到文本区域的特征信息,确定子单元3022根据特征信息,确定文本区域之间的特征关系,得到文本区域之间的邻接特征信息,识别子单元3023基于邻接特征信息,识别出文本区域之间的行列位置关系。
(3)标注单元303;
标注单元303,用于根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合。
例如,标注单元303,具体可以用于根据行列位置关系,对待识别表格图像的文本区域进行分类,根据分类结果,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合。
(4)绘制单元304;
绘制单元304,用于根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息。
例如,绘制单元304,具体可以用于根据同行文本区域集合和同列文本区域集合,对待识别表格图像分别进行行列区域划分,得到多个行列区域,在行列区域之间绘制分隔线,以得到待识别表格的单元格,根据分隔线,确定单元格的单元格位置信息。
(5)识别单元305;
识别单元305,用于基于单元格位置信息和文本区域,建立表格,得到识别后表格。
例如,识别单元305,具体用于基于单元格位置信息,在文本区域的文本信息中筛选出所述单元格对应的文本信息,根据单元格位置信息,建立表格,将单元格对应的文本信息添加至建立的表格中,得到识别后表格。
可选的,表格识别装置还可以包括采集单元306和训练单元307,如图15所示,具体如下:
采集单元306,用于采集文本区域样本集合,该文本区域样本集合中包括已标注特征关系的和位置关系的多个文本区域;
训练单元307,用于采用预设识别模型的交互网络和分类网络对于所述文本区域样本之间的邻接特征信息和行列位置关系进行预测,得到预测结果,根据预测结果与文本样本区域集合中的标注结果对预设识别模型进行收敛得到训练后识别模型。
例如,采集单元306采集文本区域样本集合,该文本区域样本集合中包括已标注特征关系的和位置关系的多个文本区域,训练单元307采用预设识别模型的交互网络和分类网络对于所述文本区域样本之间的邻接特征信息和行列位置关系进行预测,得到预测结果,根据预测结果与文本样本区域集合中的标注结果对预设识别模型进行收敛得到训练后识别模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元301获取待识别表格图像后,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,然后,提取单元302对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,标注单元303根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,然后,绘制单元304根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,识别单元305基于单元格位置信息和文本区域,建立表格,得到识别后表格;由于该方案根据识别出的行列位置关系,在待识别表格图像中通过绘制文本区域的分隔线,来得到待识别表格的单元格位置信息,从而完成表格的识别,无需考虑待识别表格的线条结构是否完整,从而提高表格识别的准确性。
本发明实施例还提供一种电子设备,如图16所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图16中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待识别表格图像,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格。
例如,获取待识别表格图像,在待识别表格图像中检测出存在文本的图像区域,对这些图像区域的文本信息进行识别,得到每个文本图像对应的文本区域,对文本区域进行特征提取,得到文本区域的特征信息,根据特征信息,确定文本区域之间的特征关系,得到文本区域之间的邻接特征信息,基于邻接特征信息,识别出文本区域之间的行列位置关系。根据行列位置关系,对待识别表格图像的文本区域进行分类,根据分类结果,在待识别表格图像中标注出同行文本区域和同列文本区域集合,根据同行文本区域集和同列文本区域集合,对待识别表格图像进行行列区域划分,得到多个行列区域。根据分隔线,确定单元格的单元格位置信息,基于单元格位置信息,在文本区域的文本信息中筛选出单元格对应的文本信息,根据单元格位置信息,建立表格,将该单元格对应的文本信息添加至建立的表格中,得到识别后表格。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在获取待识别表格图像后,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,然后,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,然后,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格;由于该方案根据识别出的行列位置关系,在待识别表格图像中通过绘制文本区域的分隔线,来得到待识别表格的单元格位置信息,从而完成表格的识别,无需考虑待识别表格的线条结构是否完整,从而提高表格识别的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种表格识别方法中的步骤。例如,该指令可以执行如下步骤:
获取待识别表格图像,并对待识别表格图像进行文本识别,得到多个文本区域,待识别表格图像包括待识别表格,对文本区域进行特征提取,并根据提取到的特征确定文本区域之间的行列位置关系,根据行列位置关系,在待识别表格图像中标注出同行文本区域集合和同列文本区域集合,根据同行文本区域集合和同列文本区域集合,在待识别表格图像中绘制文本区域的分隔线,以得到待识别表格的单元格位置信息,基于单元格位置信息和文本区域,建立表格,得到识别后表格。
例如,获取待识别表格图像,在待识别表格图像中检测出存在文本的图像区域,对这些图像区域的文本信息进行识别,得到每个文本图像对应的文本区域,对文本区域进行特征提取,得到文本区域的特征信息,根据特征信息,确定文本区域之间的特征关系,得到文本区域之间的邻接特征信息,基于邻接特征信息,识别出文本区域之间的行列位置关系。根据行列位置关系,对待识别表格图像的文本区域进行分类,根据分类结果,在待识别表格图像中标注出同行文本区域和同列文本区域集合,根据同行文本区域集和同列文本区域集合,对待识别表格图像进行行列区域划分,得到多个行列区域。根据分隔线,确定单元格的单元格位置信息,基于单元格位置信息,在文本区域的文本信息中筛选出单元格对应的文本信息,根据单元格位置信息,建立表格,将该单元格对应的文本信息添加至建立的表格中,得到识别后表格。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种表格识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种表格识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种表格识别方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种表格识别方法,其特征在于,包括:
获取待识别表格图像,并对所述待识别表格图像进行文本识别,得到多个文本区域,所述待识别表格图像包括待识别表格;
对所述文本区域进行特征提取,并根据提取到的特征确定所述文本区域之间的行列位置关系;
根据所述行列位置关系,在所述待识别表格图像中标注出同行文本区域集合和同列文本区域集合;
根据所述同行文本区域集合和同列文本区域集合,在所述待识别表格图像中绘制文本区域的分隔线,以得到所述待识别表格的单元格位置信息;
基于所述单元格位置信息和文本区域,建立表格,得到识别后表格。
2.根据权利要求1所述的表格识别方法,其特征在于,所述根据所述行列位置关系,在所述待识别表格图像中标注出同行文本区域集合和同列文本区域集合,包括:
根据所述行列位置关系,对所述待识别表格图像的文本区域进行分类;
根据分类结果,在所述待识别表格图像中标注出所述同行文本区域集合和同列文本区域集合。
3.根据权利要求2所述的表格识别方法,其特征在于,所述根据所述行列位置关系,对所述待识别表格图像的文本区域进行分类,包括:
在所述待识别表格图像中确定当前需要处理的文本区域,得到目标文本区域;
根据所述行列位置关系,在所述待识别表格图像的剩余文本区域中筛选出所述目标文本区域的同行文本区域和同列文本区域,并将所述目标文本区域、同行文本区域和同列文本区域进行标记;
返回执行在所述待识别表格图像中未标记的文本区域中确定当前需要处理的文本区域的步骤,直到所述待识别表格图像中的文本区域全部标记为止,得到所述待识别表格图像中的同行文本区域集合和同列文本区域集合。
4.根据权利要求2所述的表格识别方法,其特征在于,所述根据所述同行文本区域集合和同列文本区域集合,在所述待识别表格图像中绘制文本区域的分隔线,以得到所述待识别表格的单元格位置信息,包括:
根据所述同行文本区域集合和同列文本区域集合,对所述待识别表格图像分别进行行列区域划分,得到多个行列区域;
在所述行列区域之间绘制分隔线,以得到所述待识别表格的单元格;
根据所述分隔线,确定所述单元格的单元格位置信息。
5.根据权利要求4所述的表格识别方法,其特征在于,所述根据所述分隔线,确定所述单元格的单元格位置信息,包括:
获取所述分隔线之间的交点的位置信息;
在所述位置信息中筛选出所述单元格对应的目标交点的位置信息;
根据所述目标交点的位置信息,确定所述单元格的单元格位置信息。
6.根据权利要求5所述的表格识别方法,其特征在于,所述基于所述单元格位置信息和文本区域,建立表格,得到识别后表格,包括:
基于所述单元格位置信息,在所述文本区域的文本信息中筛选出所述单元格对应的文本信息;
根据所述单元格位置信息,建立表格;
将所述单元格对应的文本信息添加至建立的表格中,得到识别后表格。
7.根据权利要求1至6任一项所述的表格识别方法,其特征在于,所述对所述文本区域进行特征提取,并根据提取到的特征确定所述文本区域之间的行列位置关系,包括:
对所述文本区域进行特征提取,得到所述文本区域的特征信息;
根据所述特征信息,确定所述文本区域之间的特征关系,得到所述文本区域之间的邻接特征信息;
基于所述邻接特征信息,识别出所述文本区域之间的行列位置关系。
8.根据权利要求7所述的表格识别方法,其特征在于,所述对所述文本区域进行特征提取,得到所述文本区域的特征信息,包括:
对所述待识别表格图像进行特征提取,得到所述待识别表格图像对应的特征图;
根据所述文本区域和特征图,生成所述文本区域的特征信息。
9.根据权利要求8所述的表格识别方法,其特征在于,所述对所述待识别表格图像进行特征提取,得到所述待识别表格图像对应的特征图,包括:
获取所述待识别表格图像的尺寸;
根据预设图像尺寸,确定对所述待识别表格图像进行缩放的缩放系数;
根据所述缩放系数,对所述待识别表格图像的尺寸进行缩放,得到缩放后表格图像;
对所述缩放后表格图像进行特征提取,得到所述缩放后表格图像对应的特征图。
10.根据权利要求8所述的表格识别方法,其特征在于,所述根据所述文本区域和特征图,生成所述文本区域的特征信息,包括:
获取所述文本区域的位置信息和文本信息;
根据所述位置信息和缩放系数,在所述特征图中筛选出所述文本区域对应的图像特征信息;
根据所述位置信息,确定所述文本区域的位置特征信息;
将所述文本信息转换为词向量,将所述词向量作为所述文本区域的语义特征信息;
将所述文本区域的图像特征信息、位置特征信息和语义特征信息进行融合,得到所述文本区域的特征信息。
11.根据权利要求7所述的表格识别方法,其特征在于,所述根据所述特征信息,确定所述文本区域之间的特征关系,得到所述文本区域之间的邻接特征信息,包括:
在所述待识别表格图像中筛选出文本区域的邻近文本区域;
将所述邻近文本区域的特征信息与文本区域的特征信息进行融合,得到所述文本区域的全局特征信息;
对所述文本区域的全局特征信息进行聚合,得到预设维度的聚合后特征信息;
采用训练后识别模型的交互网络分别对每一文本区域的聚合后特征信息进行解析,得到所述文本区域之间的邻接特征信息。
12.根据权利要求11所述的表格识别方法,其特征在于,所述基于所述邻接特征信息,识别出所述文本区域之间的行列位置关系,包括:
根据所述邻接特征信息,采用所述训练后识别模型的分类网络对所述待识别表格图像中任意两个文本区域之间的特征关系进行分类,以得到所述文本区域之间的特征关系;
根据所述特征关系,确定所述文本区域之间的行列位置关系。
13.一种表格识别装置,其特征在于,包括:
获取单元,用于获取待识别表格图像,并对所述待识别表格图像进行文本识别,得到多个文本区域;
提取单元,用于对所述文本区域进行特征提取,并根据提取到的特征确定所述文本区域之间的行列位置关系;
标注单元,用于根据所述行列位置关系,在所述待识别表格图像中标注出同行文本区域集合和同列文本区域集合;
绘制单元,用于根据所述同行文本区域集合和同列文本区域集合,在所述待识别表格图像中绘制文本区域的分隔线,以得到所述待识别表格的单元格位置信息;
识别单元,用于基于所述单元格位置信息和文本区域,建立表格,得到识别后表格。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的表格识别方法中的步骤。
CN202010185536.0A 2020-03-17 2020-03-17 一种表格识别方法、装置和计算机可读存储介质 Active CN111382717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185536.0A CN111382717B (zh) 2020-03-17 2020-03-17 一种表格识别方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185536.0A CN111382717B (zh) 2020-03-17 2020-03-17 一种表格识别方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111382717A true CN111382717A (zh) 2020-07-07
CN111382717B CN111382717B (zh) 2022-09-09

Family

ID=71217317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185536.0A Active CN111382717B (zh) 2020-03-17 2020-03-17 一种表格识别方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111382717B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN112115865A (zh) * 2020-09-18 2020-12-22 北京百度网讯科技有限公司 用于处理图像的方法、装置、设备以及存储介质
CN112183298A (zh) * 2020-09-23 2021-01-05 上海蜜度信息技术有限公司 表格图片的标注方法、系统、介质及装置
CN112418204A (zh) * 2020-11-18 2021-02-26 杭州未名信科科技有限公司 基于纸质文档的文本识别方法、系统及计算机介质
CN112613513A (zh) * 2020-12-31 2021-04-06 北京市商汤科技开发有限公司 图像识别方法、装置和系统
CN112633278A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 表单处理方法、装置和系统、介质及计算机设备
CN112906532A (zh) * 2021-02-07 2021-06-04 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113191131A (zh) * 2021-05-10 2021-07-30 重庆中科云从科技有限公司 用于文本识别的表格模板建立方法、文本识别方法、系统
CN113221519A (zh) * 2021-05-18 2021-08-06 北京百度网讯科技有限公司 用于处理表格数据的方法、装置、设备、介质和产品
CN113297859A (zh) * 2020-10-19 2021-08-24 阿里巴巴集团控股有限公司 表格信息的翻译方法、装置及电子设备
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113505669A (zh) * 2021-06-29 2021-10-15 万翼科技有限公司 工程图纸中的表格提取方法、装置、电子设备及存储介质
CN113536951A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113657274A (zh) * 2021-08-17 2021-11-16 北京百度网讯科技有限公司 表格生成方法、装置、电子设备、存储介质及产品
WO2022037573A1 (zh) * 2020-08-17 2022-02-24 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN114155544A (zh) * 2021-11-15 2022-03-08 深圳前海环融联易信息科技服务有限公司 一种无线表格识别方法、装置、计算机设备及存储介质
CN114639107A (zh) * 2022-04-21 2022-06-17 北京百度网讯科技有限公司 表格图像处理方法、装置和存储介质
CN114724154A (zh) * 2022-04-18 2022-07-08 中国科学技术大学 表格识别方法及装置、存储介质及电子设备
CN114842489A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 表格解析方法及装置
WO2022178994A1 (zh) * 2021-02-24 2022-09-01 平安科技(深圳)有限公司 表格结构识别方法、装置、电子设备及存储介质
CN114359938B (zh) * 2022-01-07 2023-09-29 北京有竹居网络技术有限公司 一种表格识别方法及装置
WO2024030232A1 (en) * 2022-08-03 2024-02-08 Microsoft Technology Licensing, Llc Table structure recognition
CN117173719B (zh) * 2023-11-01 2024-02-23 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN118097697A (zh) * 2024-03-26 2024-05-28 内蒙古电力勘测设计院有限责任公司 一种表格图像的处理方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389129A (zh) * 2018-09-15 2019-02-26 北京市商汤科技开发有限公司 一种图像处理方法、电子设备及存储介质
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
US20190361972A1 (en) * 2018-05-24 2019-11-28 PAI TECH Company Limited Method, apparatus, device for table extraction based on a richly formatted document and medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190361972A1 (en) * 2018-05-24 2019-11-28 PAI TECH Company Limited Method, apparatus, device for table extraction based on a richly formatted document and medium
CN109389129A (zh) * 2018-09-15 2019-02-26 北京市商汤科技开发有限公司 一种图像处理方法、电子设备及存储介质
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN111860257B (zh) * 2020-07-10 2022-11-11 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
WO2022037573A1 (zh) * 2020-08-17 2022-02-24 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112115865A (zh) * 2020-09-18 2020-12-22 北京百度网讯科技有限公司 用于处理图像的方法、装置、设备以及存储介质
CN112115865B (zh) * 2020-09-18 2024-04-12 北京百度网讯科技有限公司 用于处理图像的方法、装置、设备以及存储介质
CN112183298A (zh) * 2020-09-23 2021-01-05 上海蜜度信息技术有限公司 表格图片的标注方法、系统、介质及装置
CN113297859A (zh) * 2020-10-19 2021-08-24 阿里巴巴集团控股有限公司 表格信息的翻译方法、装置及电子设备
CN112418204A (zh) * 2020-11-18 2021-02-26 杭州未名信科科技有限公司 基于纸质文档的文本识别方法、系统及计算机介质
CN112613513A (zh) * 2020-12-31 2021-04-06 北京市商汤科技开发有限公司 图像识别方法、装置和系统
CN112633278A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 表单处理方法、装置和系统、介质及计算机设备
WO2022142551A1 (zh) * 2020-12-31 2022-07-07 北京市商汤科技开发有限公司 表单处理方法、装置、介质及计算机设备
CN112906532A (zh) * 2021-02-07 2021-06-04 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
CN112906532B (zh) * 2021-02-07 2024-01-05 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
WO2022166707A1 (zh) * 2021-02-07 2022-08-11 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
WO2022178994A1 (zh) * 2021-02-24 2022-09-01 平安科技(深圳)有限公司 表格结构识别方法、装置、电子设备及存储介质
CN113191131A (zh) * 2021-05-10 2021-07-30 重庆中科云从科技有限公司 用于文本识别的表格模板建立方法、文本识别方法、系统
CN113221519A (zh) * 2021-05-18 2021-08-06 北京百度网讯科技有限公司 用于处理表格数据的方法、装置、设备、介质和产品
CN113139625B (zh) * 2021-05-18 2023-12-15 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113221519B (zh) * 2021-05-18 2024-03-29 北京百度网讯科技有限公司 用于处理表格数据的方法、装置、设备、介质和产品
CN113297975B (zh) * 2021-05-25 2024-03-26 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113536951A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113536951B (zh) * 2021-06-22 2023-11-24 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113505669A (zh) * 2021-06-29 2021-10-15 万翼科技有限公司 工程图纸中的表格提取方法、装置、电子设备及存储介质
CN113657274A (zh) * 2021-08-17 2021-11-16 北京百度网讯科技有限公司 表格生成方法、装置、电子设备、存储介质及产品
EP4138050A1 (en) * 2021-08-17 2023-02-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Table generating method and apparatus, electronic device, storage medium and product
CN114155544A (zh) * 2021-11-15 2022-03-08 深圳前海环融联易信息科技服务有限公司 一种无线表格识别方法、装置、计算机设备及存储介质
CN114359938B (zh) * 2022-01-07 2023-09-29 北京有竹居网络技术有限公司 一种表格识别方法及装置
CN114724154A (zh) * 2022-04-18 2022-07-08 中国科学技术大学 表格识别方法及装置、存储介质及电子设备
CN114724154B (zh) * 2022-04-18 2024-03-29 中国科学技术大学 表格识别方法及装置、存储介质及电子设备
CN114639107A (zh) * 2022-04-21 2022-06-17 北京百度网讯科技有限公司 表格图像处理方法、装置和存储介质
CN114639107B (zh) * 2022-04-21 2023-03-24 北京百度网讯科技有限公司 表格图像处理方法、装置和存储介质
CN114842489A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 表格解析方法及装置
WO2024030232A1 (en) * 2022-08-03 2024-02-08 Microsoft Technology Licensing, Llc Table structure recognition
CN117173719B (zh) * 2023-11-01 2024-02-23 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN118097697A (zh) * 2024-03-26 2024-05-28 内蒙古电力勘测设计院有限责任公司 一种表格图像的处理方法、装置及设备

Also Published As

Publication number Publication date
CN111382717B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN111382717B (zh) 一种表格识别方法、装置和计算机可读存储介质
CN108304835B (zh) 文字检测方法和装置
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
JP6378855B1 (ja) 画像検索システム、画像検索方法およびプログラム
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111027563A (zh) 一种文本检测方法、装置及识别系统
CN111507350B (zh) 一种文本识别方法和装置
CN112686223B (zh) 一种表格识别方法、装置和计算机可读存储介质
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN109934229B (zh) 图像处理方法、装置、介质和计算设备
CN107992937B (zh) 基于深度学习的非结构化数据判决方法和装置
CN108334805A (zh) 检测文档阅读顺序的方法和装置
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
CN112163577A (zh) 游戏画面中的文字识别方法、装置、电子设备和存储介质
CN115131804A (zh) 文档识别方法、装置、电子设备和计算机可读存储介质
CN115294577A (zh) 一种模型训练方法、装置、计算机设备及存储介质
CN110008923B (zh) 图像处理方法和训练方法、以及装置、介质、计算设备
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN111768214A (zh) 产品属性的预测方法、系统、设备和存储介质
CN113923295B (zh) 语音控制方法、装置、电子设备以及存储介质
CN114445716A (zh) 关键点检测方法、装置、计算机设备、介质及程序产品
CN114708429A (zh) 图像处理方法、装置、计算机设备及计算机可读存储介质
CN113821632A (zh) 内容分类方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025732

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant