CN115100668A - 识别图像中表格信息的方法和装置 - Google Patents

识别图像中表格信息的方法和装置 Download PDF

Info

Publication number
CN115100668A
CN115100668A CN202210722469.0A CN202210722469A CN115100668A CN 115100668 A CN115100668 A CN 115100668A CN 202210722469 A CN202210722469 A CN 202210722469A CN 115100668 A CN115100668 A CN 115100668A
Authority
CN
China
Prior art keywords
text
cell
line
character string
text box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210722469.0A
Other languages
English (en)
Inventor
张文学
李其云
彭功超
杜秀清
徐梓舰
王亮亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuhui System Technology Co ltd
Original Assignee
Shanghai Shuhui System Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuhui System Technology Co ltd filed Critical Shanghai Shuhui System Technology Co ltd
Priority to CN202210722469.0A priority Critical patent/CN115100668A/zh
Publication of CN115100668A publication Critical patent/CN115100668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本申请提供了一种识别图像中表格信息的方法和装置,该方法包括:检测出表格图像中包含文本的各行文本框及其坐标位置;针对每行文本框,对文本框中的内容进行文本识别,得到文本框内具有先后顺序的至少一个字符串文本;识别出表格图像中表格的表格特征信息,表格特征信息至少包括表格中各个单元格的坐标信息;基于表格中各个单元格的坐标位置、各行文本框的坐标位置以及文本框内至少一个字符串文本的先后顺序,确定表格的各单元格内各自包含的字符串文本集;将表格的表格特征信息和表格中各单元格内各自包含的字符串文本集,确定为识别出的表格的表格信息。本申请的方案可以较为准确的识别出表格图像中包含的表格信息。

Description

识别图像中表格信息的方法和装置
技术领域
本申请涉及图像处理技术领域,尤其涉及一种识别图像中表格信息的方法和装置。
背景技术
在很多业务场景中,经常需要识别并获取图像中的信息内容。比如,通过对图片进行文本识别,获取图片中包含的文本等。
但是,在图像中包含表格的情况下,通过常规的文本识别技术对图像进行文本识别,则可能会导致识别出的文本的数据格式存在混乱,无法准确还原图像中的表格信息。基于此,如何能够较为准确识别出包含表格的图像中的表格信息是本领域技术人员需要解决的技术问题。
发明内容
本申请提供了一种识别图像中表格信息的方法和装置,以较为准确的识别出表格图像中包含的表格信息。
一方面,本申请提供了一种识别图像中表格信息的方法,包括:
对表格图像进行文本检测,得到所述表格图像中包含文本的各行文本框及所述文本框的坐标位置,所述表格图像中包含有表格;
针对每行文本框,对所述文本框中的内容进行文本识别,得到所述文本框内具有先后顺序的至少一个字符串文本;
识别出所述表格图像中所述表格的表格特征信息,所述表格特征信息至少包括所述表格中各个单元格的坐标信息;
基于所述表格中各个单元格的坐标位置、各行文本框的坐标位置以及所述文本框内至少一个字符串文本的先后顺序,确定所述表格的各单元格内各自包含的字符串文本集,所述单元格内的字符串文本集中包括所述单元格内包含的各行字符串文本;
将所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,确定为识别出的所述表格的表格信息。
在一种可能的实现方式中,所述识别出所述表格图像中所述表格的表格特征信息,包括:
将所述表格图像输入到表格识别模型,得到所述表格识别模型识别出的所述表格的表格特征信息;
其中,所述表格识别模型为利用标注有表格特征信息的多个表格图像样本训练得到的。
在又一种可能的实现方式中,所述基于所述表格中各个单元格的坐标位置、各行文本框的坐标位置以及所述文本框内至少一个字符串文本的先后顺序,确定所述表格的各单元格内各自包含的字符串文本集,包括:
针对每行文本框,基于所述表格中各个单元格的坐标位置以及所述文本框的坐标位置,确定所述文本框所归属的至少一个单元格,得到所述文本框关联的所述至少一个单元格;
针对每行文本框,基于所述文本框关联的至少一个单元格在所述表格的目标单元格行内的先后顺序以及所述文本框内至少一个字符串文本的先后顺序,确定所述文本框内各字符串文本所归属的单元格,所述目标单元格行为所述至少一个单元格所在的一行单元格;
针对每个单元格,结合所述单元格关联的各行文本框以及所述单元格关联的各文本框中归属于所述单元格的字符串文本,确定所述单元格内包含的各行字符串文本。
在又一种可能的实现方式中,在所述确定所述表格的各单元格内各自包含的字符串文本集之后,还包括:
针对所述表格内每个单元格,基于所述单元格内包含的各行字符串文本之间的连接顺序关系以及语义关系,修正所述单元格内包含的各行字符串文本。
在又一种可能的实现方式中,所述将所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,确定为识别出的所述表格的表格信息,包括:
基于所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,将所述表格导出到指定文件内。
在又一种可能的实现方式中,所述对表格图像进行文本检测,包括:
利用基于连接预选框网络的文本检测模型对所述表格图像进行文本行检测。
在又一种可能的实现方式中,所述对所述文本框中的内容进行文本识别,包括:
利用文本识别模型对所述文本框中的内容进行文本识别,所述文本识别模块由训练出的卷积神经网络模型、双向长短记忆网络以及连接时间分类模型构成。
在又一种可能的实现方式中,所述表格识别模型为利用标注有表格特征信息的多个表格图像样本,对基于注意力机制的深度学习模型训练得到的。
又一方面,本申请还提供了一种识别图像中表格信息的装置,包括:
文本检测单元,用于对表格图像进行文本检测,得到所述表格图像中包含文本的各行文本框及所述文本框的坐标位置,所述表格图像中包含有表格;
文本识别单元,用于针对每行文本框,对所述文本框中的内容进行文本识别,得到所述文本框内具有先后顺序的至少一个字符串文本;
特征识别单元,用于识别出所述表格图像中所述表格的表格特征信息,所述表格特征信息至少包括所述表格中各个单元格的坐标信息;
表格文本确定单元,用于基于所述表格中各个单元格的坐标位置、各行文本框的坐标位置以及所述文本框内至少一个字符串文本的先后顺序,确定所述表格的各单元格内各自包含的字符串文本集,所述单元格内的字符串文本集中包括所述单元格内包含的各行字符串文本;
表格信息确定单元,用于将所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,确定为识别出的所述表格的表格信息。
在一种可能的实现方式中,所述特征识别单元,包括:
特征识别子单元,用于将所述表格图像输入到表格识别模型,得到所述表格识别模型识别出的所述表格的表格特征信息;
其中,所述表格识别模型为利用标注有表格特征信息的多个表格图像样本训练得到的。
由以上可知,在本申请实施例中,通过文本检测确定表格图像中包含文本的各行文本框以及每个文本框的坐标位置,并识别出表格图像中表格对应的包含各单元格的坐标位置在内的表格特征信息。由于表格中各单元格的坐标位置以及各行文本框的坐标位置可以反映出单元格与文本框之间的对应关系,在此基础上,再结合文本框内包含的至少一个字符串文本的先后顺序,便可以准确确定出文本框内各字符串文本实际位于哪个该文本框关联的哪个单元格内,从而可以准确确定出表格中各个单元格内各自包含的各行字符串文本,也就可以准确从表格图像中识别出表格的表格特征信息以及表格内各个单元格内包含各行字符串文本,实现了准确从图像中识别出表格的表格信息。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请实施例提供的识别图像中表格信息的方法的一种流程示意图;
图2示出了本申请实施例提供的识别图像中表格信息的方法的又一种流程示意图;
图3示出了本申请实施例提供的识别图像中表格信息的装置的一种组成结构示意图。
具体实施方式
本申请实施例的方案可以适用于从包含表格的图片或者照片等表格图像中识别出表格内的单元格分布以及单元格内文本字符等表格信息。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,其示出了本申请实施例提供的识别图像中表格信息的方法的一种流程示意图,本实施例的方法可以包括:
S101,对表格图像进行文本检测,得到表格图像中包含文本的各行文本框及文本框的坐标位置。
其中,表格图像中包含有表格。如,表格图像可以为包含表格的图片、照片或者其他形式的图像,对此不加限制。
可以理解的是,对表格图像进行文本检测的目的是定位出该表格图像中包含文本的各个文本框。文本框也称为预选框,是指表格图像中包含文本的框选区域。文本框一般为方形。
在本申请中,需要确定出各行文本的文本框及其位置。如,可以对表格图像进行单行文本检测,得到表格图像中每行文本对应的一行文本框。
在一种可能的实现方式中,本申请可以通过文本检测模型对表格图像进行文本检测。为了提高文本检测的准确度,本申请还可以采用基于连接预选框网络的文本检测模型(Detecting Text in Natural Image with Connectionist Text Proposal Network),也就是俗称的CTPN模型,对表格图像进行文本检测,以定位出表格图像中包含文本的各行文本框及其位置坐标。
其中,文本框的位置坐标可以至少可以包括文本框的四个顶点在表格图像中的坐标。当然,该文本框的位置坐标还可以包括文本框在表格图像中覆盖区域的坐标范围。
可以理解的是,在一些特殊情况下,同一行的不同字符串文本之间可能会存在间隙,在该种情况下,本申请可以将这一同行的字符串文本检测为处于同一个文本框内;也可以根据需要设定字符串文本之间的间隔距离大于设定距离的情况下,将同一行的字符串文本框选到同一行的两个文本框内。对于同一行具有两个文本框的情况,针对每行的每个文本框而言,其处理过程是相似的,对此不再赘述。
S102,针对每行文本框,对文本框中的内容进行文本识别,得到文本框内具有先后顺序的至少一个字符串文本。
可以理解的是,一个文本框包含的是处于同一行文本。对于表格图像而言,一个文本框内包含的肯定是来源于表格图像的表格中位于同一行的至少一个单元格的文本,由于同一行的单元格具有先后顺序(如从左到右的先后顺序),那么这文本框内识别出的至少一个字符串文本也必然是具有先后顺序的。
在本申请中,对文本框中的内容进行文本识别可以采用任意的文本识别方法,对此不加限制。
如,可以基于文本识别模型对文本框的内容进行文本识别。该文本识别模型可以为基于多个标注有字符串文本的多个文本样本进行训练得到。文本识别模型可以为各种神经网络模型或者其他深度学习模型等。
在一种可能的实现方式中,为了减少由于文字变形以及文本模糊不定长等问题的影响,提高文本识别准确率,本申请中文本识别模型可以由文本识别模块由训练出的卷积神经网络(Convolutional Neural Networks,CNN)模型、双向长短记忆网络BiLSTM以及连接时间分类(Connectionist Temporal Classificatio,CTC)模型构成。由于CTC模型能够解决文本对齐不定长等问题,允许文本中间异常空格出现,从而有利于提升文本识别率。
可以理解的是,如果每行的文本框有多个,那么每行文本框可以是每行中任意一个文本框,对此不再赘述。
S103,识别出表格图像中表格的表格特征信息。
表格特征信息用于表征表格图像中表格的结构以及配置等相关特征。
在本申请中,表格特征信息至少包括表格中各个单元格的坐标信息。其中,单元格的坐标信息为单元格在表格图像中的坐标位置。单元格的坐标位置可以包括:
可以理解的是,可以表格中各个单元格的坐标信息可以确定出表格中每行以及每列的排布的单元格数量、各个单元格的结构以及分布关系。
当然,表格特征信息还可以包括:表格以及单元格的配置信息以及其他特征信息,如,表格中单元格的类型(如,单元格是否属于表头等),表格中单元格是否具有背景色等,对此不加限制。
识别表格图像中各个单元格的坐标位置等表格特征信息的实现方式也可以有多种可能。
在一种可能的实现方式中,为了提升识别的便捷性和准确性,本申请可以预先训练用于识别表格的表格特征信息的表格识别模型。该表格识别模型为利用标注有表格特征信息的多个表格图像样本训练得到的。其中,训练该表格识别模型的过程可以采用常规的有监督训练方式进行训练,具体训练过程不加限制。
相应的,可以将该表格图像输入到表格识别模型,得到该表格识别模型识别出的该表格的表格特征信息。
其中,该表格识别模型的具体模型类型和结构也可以有多种可能。在一种可能的实现方式中,为了进一步提高识别表格图像中表格特征信息的准确度,该表格识别模型可以选用基于注意力机制的深度学习模型。
S104,基于表格中各个单元格的坐标位置、各行文本框的坐标位置以及文本框内至少一个字符串文本的先后顺序,确定表格的各单元格内各自包含的字符串文本集。
其中,单元格内的字符串文本集中包括单元格内包含的各行字符串文本
可以理解的是,基于表格中各个单元格的坐标位置可以还原出表格在表格图像中的位置区域以及表格中各个单元格的具体结构及位置分布。在此基础上,依据各行文本框的坐标位置,可以确定出各文本框相对该表格中单元格的相对位置,自然也就可以得到文本框位于表格中哪一行的哪些相邻单元格内,即,从表格中确定出文本框所归属的至少一个单元格。
对于一个文本框而言,文本框内的各字符串文本必然是来自于该文本款所归属的至少一个单元格。在此基础上,文本框中各个字符串文本的先后顺序与该文本框归属的至少一个单元格的先后顺序相对应,因此,可以结合文本框中至少一个字符串文本的先后顺序,确定出文本框中各个字符串文本所归属的单元格,从而得到单元格中属于该文本框内对应的一行字符串文本。
可以理解的是,单元格内的文本可能会存在跨行的情况,即一个单元格内可能会存在一行或者多行字符串文本。例如,一个单元格内的字符串较长,可能会出现在该单元格内有三行字符串文本的情况。在该种情况下,一行单元格可能会同时涵盖多行文本框,例如,某一行单元格内包含字符串文本行数最多的单元格中具有3行字符串文本,那么该行单元格内必然会存在三行文本框。
在一行单元格内对应有多行文本框的情况下,对于该行单元格内每个单元格,可以依次结合行单元格对应的每行文本框中至少一个字符串文本,确定该单元格内的一行字符串文本,结合该单元格对应的多行文本框的顺序,可以确定出单元格对应的多行字符串文本的先后顺序。
特别的,如果一行单元格中存在某些单元格内不存在字符串文本的情况,那么本申请可以采用前面所述的方式,将同一行单元格中位于同一行的字符串文本定位到同一行的多个文本框内,在此基础上,便可以按照以上方式识别单元格内包含的各行字符串文本,具体过程相似。如果一行文本仅仅对应一个文本框,那么,也可以确定出文本框内各个字符串文本对应的子位置区,然后结合文本框内各字符串文本的子位置区的坐标等信息,确定各字符串文本所归属的单元格。
举例说明,为了便于理解,假设在表格图像中某行单元格中每个单元格内都存在三行字符串文本,那么会依次定位出三行文本框,依次为文本框1、文本框2和文本框3。那么对应该行单元格中每个单元格而言,可以从文本框1包含的字符串文本中确定出该单元格内第一行字符串文本,然后从文本框2包含的字符串文本中确定出该单元格内的第二行字符串文本,而从该文本框3包含的字符串文本中确定出该单元格内的第三行字符串文本。
当然,此处为了便于理解,以一行单元格中每个单元格内的字符串文本的行数都相同为例说明。
但是在实际应用中,同一行的单元格中可能会存在部分单元格内有一行字符串文本,而部分单元格内有多行字符串文本。在该种情况下,同一行的单元格中也会存在部分单元格可能对应有一行文本框,而部分单元格可能对应有多个文本框,但是对于每个单元格而言,均可以结合各行文本框所归属的至少一个单元格以及归属于该单元格的各行文本框内的字符串文本的先后顺序,依次确定出该单元格内各行字符串文本,在此不再赘述。
S105,将表格的表格特征信息和表格中各单元格内各自包含的字符串文本集,确定为识别出的表格的表格信息。
可以理解的是,结合表格的表格特征信息以及表格中每个单元格内的字符串文本集实际上就可以还原出表格图像中的该表格,从而可以实现对表格图像中该表格信息的识别。
在一种可能的实现方式中,本申请可以是基于该表格的表格特征信息和该表格中各单元格内各自包含的字符串文本集,将表格导出到指定文件内。其中,该指定文件可以为excel文件或者是超文本标记语言(Hyper Text Markup Language,HTML)文件中。
由以上可知,在本申请实施例中,通过文本检测确定表格图像中包含文本的各行文本框以及每个文本框的坐标位置,并识别出表格图像中表格对应的包含各单元格的坐标位置在内的表格特征信息。由于表格中各单元格的坐标位置以及各行文本框的坐标位置可以反映出单元格与文本框之间的对应关系,在此基础上,再结合文本框内包含的至少一个字符串文本的先后顺序,便可以准确确定出文本框内各字符串文本实际位于哪个该文本框关联的哪个单元格内,从而可以准确确定出表格中各个单元格内各自包含的各行字符串文本,也就可以准确从表格图像中识别出表格的表格特征信息以及表格内各个单元格内包含各行字符串文本,实现了准确从图像中识别出表格的表格信息。
下面结合确定单元格中包含的字符串文本集的一种实现方式对本申请的方案进行介绍。
如图2所示,其示出了本申请实施例提供的识别图像中表格信息的方法的又一种流程示意图。
本实施例的方法可以包括:
S201,获得表格图像,表格图像为包括表格的图像。
S202,利用基于连接预选框网络的文本检测模型对该表格图像进行文本行检测,得到表格图像中包含文本的各行文本框及每个文本框的坐标位置。
S203,利用文本识别模型对所述文本框中的内容进行文本识别,得到文本框内具有先后顺序的至少一个字符串文本。
其中,该文本识别模块由训练出的卷积神经网络模型、双向长短记忆网络以及连接时间分类模型构成。
S204,将该表格图像输入到表格识别模型,得到该表格识别模型识别出的该表格的表格特征信息。
其中,表格识别模型为利用标注有表格特征信息的多个表格图像样本,对基于注意力机制的深度学习模型训练得到的。
以上步骤S202到S204均分别以一种实现方式为例进行说明,在实际应用中文本检测,文本识别以及确定表格特征信息的实现方式也可以通过其他方式实现,具体可以参见前面实施例的相关介绍,在此不再赘述。
S204,针对每行文本框,基于该表格中各个单元格的坐标位置以及该文本框的坐标位置,确定该文本框所归属的至少一个单元格,得到该文本框关联的该至少一个单元格。
可以理解的是,由于文本框是字符串文本的框选区域,而字符串文本位于表格的单元格内,因此,如果文本框为某一行单元格内的字符串文本的框选区域,那么该文本框的坐标位置会位于该行单元格的坐标范围内。
例如,假设基于表格中各个单元格的坐标位置,以及文本框的四个顶点的坐标,确定出该文本框内位于表格中第一行的第2个到第4个单元格内,那么文本框就归属于该表格中第一行的第2到第4个单元格,即与第一行的第2-4个单元格关联。
S205,针对每行文本框,基于该文本框关联的至少一个单元格在该表格的目标单元格行内的先后顺序以及该文本框内至少一个字符串文本的先后顺序,确定该文本框内各字符串文本所归属的单元格。
其中,至少一个单元格对应的目标单元格行为该至少一个单元格所在的一行单元格。例如,仍以上面第一行第2个到第4个单元格为例,此处的第2个到第4个单元格对应的目标单元格行就是第一行单元格。
可以理解的是,由于文本框中至少一个字符串文本实际上是依次来自该文本框关联的该至少一个单元格,因此,按照该至少一个字符串文本的先后顺序,可以确定文本框中哪个字符串文本归属于哪个单元格。
如,假设文本框归属于第一行第2-4个单元格,而识别出文本框中依次具有字符串文本1、字符串文本2、字符串文本3,那么可以确定字符串文本1属于第一行第2个单元格,字符串文本2属于第一行第3个单元格,而字符串文本3属于第一行第4个单元格。
S206,针对每个单元格,结合该单元格关联的各行文本框以及该单元格关联的各文本框中归属于该单元格的字符串文本,确定该单元格内包含的各行字符串文本。
可以理解的是,在单元格关联有多行文本框的情况下,则说明单元格内具有多行字符串文本。在该种情况下,由于单元格关联的各行文本框也具有上下顺序,那么结合归属于该单元格的字符串文本所在的文本框在该单元格关联的多行文本框中的排序,可以确定出字符串文本属于单元格中多行字符串文本中的具体行。
如,单元格关联有两行文本框分别为第一行文本框1和第二行文本框2,其中,第一行文本框1中字符串文本a属于该单元格,且第二行文本框内的字符串文本b属于该单元格,那么可以确定单元格内包括两行字符串文本,第一行字符串文本为字符串文本a,第二行字符串文本为字符串文本b。
可以理解的是,在实际应用中,由于文本识别是分别针对各个文本框进行的识别,在单元格内存在文本跨行的情况下,由于一个文本框内可能只是包含该单元格内的部分文本的图像,那么对该文本框的内容进行文本识别,很容易由于缺少上下文语义等原因,导致文本识别错误。
基于此,考虑到一个单元格内各行字符串文本之间相互拼接且存在语义关联关系的,因此,为了提升文本识别准确度,在确定出表格中各单元格内的各行字符串文本之后,针对每个单元格,还可以基于该单元格内包含的各行字符串文本之间的连接顺序关系以及语义关系,修正该单元格内包含的各行字符串文本。
其中,修正该单元格内包含的字符串文本时,可以是将单元格内各行字符串文本进行拼接,并对拼接后的字符串文本重新进行文本识别等识别处理,以得到重新识别后的字符串文本。
S207,基于该表格的表格特征信息和表格中各单元格内各自包含的字符串文本集,将该表格导出到指定文件内。
可以理解的是,步骤S207仅仅是以一种实现为例说明,在实际应用中,通过其他方式输出该表格也同样可行。
对应本申请的一种识别图像中表格信息的方法,本申请还提供了一种识别图像中表格信息的装置。
如图3所示,其示出了本申请一种识别图像中表格信息的装置的一种组成结构示意图,本实施例的装置可以包括:
文本检测单元301,用于对表格图像进行文本检测,得到所述表格图像中包含文本的各行文本框及所述文本框的坐标位置,所述表格图像中包含有表格;
文本识别单元302,用于针对每行文本框,对所述文本框中的内容进行文本识别,得到所述文本框内具有先后顺序的至少一个字符串文本;
特征识别单元303,用于识别出所述表格图像中所述表格的表格特征信息,所述表格特征信息至少包括所述表格中各个单元格的坐标信息;
表格文本确定单元304,用于基于所述表格中各个单元格的坐标位置、各行文本框的坐标位置以及所述文本框内至少一个字符串文本的先后顺序,确定所述表格的各单元格内各自包含的字符串文本集,所述单元格内的字符串文本集中包括所述单元格内包含的各行字符串文本;
表格信息确定单元305,用于将所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,确定为识别出的所述表格的表格信息。
在一种可能的实现方式中,所述特征识别单元,包括:
特征识别子单元,用于将所述表格图像输入到表格识别模型,得到所述表格识别模型识别出的所述表格的表格特征信息;
其中,所述表格识别模型为利用标注有表格特征信息的多个表格图像样本训练得到的。
在又一种可能的实现方式中,表格文本确定单元,包括:
第一关联确定单元,用于针对每行文本框,基于所述表格中各个单元格的坐标位置以及所述文本框的坐标位置,确定所述文本框所归属的至少一个单元格,得到所述文本框关联的所述至少一个单元格;
第二关联确定单元,用于针对每行文本框,基于所述文本框关联的至少一个单元格在所述表格的目标单元格行内的先后顺序以及所述文本框内至少一个字符串文本的先后顺序,确定所述文本框内各字符串文本所归属的单元格,所述目标单元格行为所述至少一个单元格所在的一行单元格;
文本归属确定单元,用于针对每个单元格,结合所述单元格关联的各行文本框以及所述单元格关联的各文本框中归属于所述单元格的字符串文本,确定所述单元格内包含的各行字符串文本。
在又一种可能的实现方式中,该装置还包括:
文本修正单元,用于在所述文本归属确定单元确定所述表格的各单元格内各自包含的字符串文本集之后,针对所述表格内每个单元格,基于所述单元格内包含的各行字符串文本之间的连接顺序关系以及语义关系,修正所述单元格内包含的各行字符串文本。
在又一种可能的实现方式中,所述表格信息确定单元,包括:
表格导出单元,用于基于所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,将所述表格导出到指定文件内。
在又一种可能的实现方式中,该文本检测单元,包括:
文本检测子单元,用于利用基于连接预选框网络的文本检测模型对所述表格图像进行文本行检测。
在又一种可能的实现方式中,该文本识别单元,包括:
文本识别子单元,用于利用文本识别模型对所述文本框中的内容进行文本识别,所述文本识别模块由训练出的卷积神经网络模型、双向长短记忆网络以及连接时间分类模型构成。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种识别图像中表格信息的方法,其特征在于,包括:
对表格图像进行文本检测,得到所述表格图像中包含文本的各行文本框及所述文本框的坐标位置,所述表格图像中包含有表格;
针对每行文本框,对所述文本框中的内容进行文本识别,得到所述文本框内具有先后顺序的至少一个字符串文本;
识别出所述表格图像中所述表格的表格特征信息,所述表格特征信息至少包括所述表格中各个单元格的坐标信息;
基于所述表格中各个单元格的坐标位置、各行文本框的坐标位置以及所述文本框内至少一个字符串文本的先后顺序,确定所述表格的各单元格内各自包含的字符串文本集,所述单元格内的字符串文本集中包括所述单元格内包含的各行字符串文本;
将所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,确定为识别出的所述表格的表格信息。
2.根据权利要求1所述的方法,其特征在于,所述识别出所述表格图像中所述表格的表格特征信息,包括:
将所述表格图像输入到表格识别模型,得到所述表格识别模型识别出的所述表格的表格特征信息;
其中,所述表格识别模型为利用标注有表格特征信息的多个表格图像样本训练得到的。
3.根据权利要求1所述的方法,其特征在于,所述基于所述表格中各个单元格的坐标位置、各行文本框的坐标位置以及所述文本框内至少一个字符串文本的先后顺序,确定所述表格的各单元格内各自包含的字符串文本集,包括:
针对每行文本框,基于所述表格中各个单元格的坐标位置以及所述文本框的坐标位置,确定所述文本框所归属的至少一个单元格,得到所述文本框关联的所述至少一个单元格;
针对每行文本框,基于所述文本框关联的至少一个单元格在所述表格的目标单元格行内的先后顺序以及所述文本框内至少一个字符串文本的先后顺序,确定所述文本框内各字符串文本所归属的单元格,所述目标单元格行为所述至少一个单元格所在的一行单元格;
针对每个单元格,结合所述单元格关联的各行文本框以及所述单元格关联的各文本框中归属于所述单元格的字符串文本,确定所述单元格内包含的各行字符串文本。
4.根据权利要求3所述的方法,其特征在于,在所述确定所述表格的各单元格内各自包含的字符串文本集之后,还包括:
针对所述表格内每个单元格,基于所述单元格内包含的各行字符串文本之间的连接顺序关系以及语义关系,修正所述单元格内包含的各行字符串文本。
5.根据权利要求1所述的方法,其特征在于,所述将所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,确定为识别出的所述表格的表格信息,包括:
基于所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,将所述表格导出到指定文件内。
6.根据权利要求1所述的方法,其特征在于,所述对表格图像进行文本检测,包括:
利用基于连接预选框网络的文本检测模型对所述表格图像进行文本行检测。
7.根据权利要求1所述的方法,其特征在于,所述对所述文本框中的内容进行文本识别,包括:
利用文本识别模型对所述文本框中的内容进行文本识别,所述文本识别模块由训练出的卷积神经网络模型、双向长短记忆网络以及连接时间分类模型构成。
8.根据权利要求2所述的方法,其特征在于,所述表格识别模型为利用标注有表格特征信息的多个表格图像样本,对基于注意力机制的深度学习模型训练得到的。
9.一种识别图像中表格信息的装置,其特征在于,包括:
文本检测单元,用于对表格图像进行文本检测,得到所述表格图像中包含文本的各行文本框及所述文本框的坐标位置,所述表格图像中包含有表格;
文本识别单元,用于针对每行文本框,对所述文本框中的内容进行文本识别,得到所述文本框内具有先后顺序的至少一个字符串文本;
特征识别单元,用于识别出所述表格图像中所述表格的表格特征信息,所述表格特征信息至少包括所述表格中各个单元格的坐标信息;
表格文本确定单元,用于基于所述表格中各个单元格的坐标位置、各行文本框的坐标位置以及所述文本框内至少一个字符串文本的先后顺序,确定所述表格的各单元格内各自包含的字符串文本集,所述单元格内的字符串文本集中包括所述单元格内包含的各行字符串文本;
表格信息确定单元,用于将所述表格的表格特征信息和所述表格中各单元格内各自包含的字符串文本集,确定为识别出的所述表格的表格信息。
10.根据权利要求9所述的装置,其特征在于,所述特征识别单元,包括:
特征识别子单元,用于将所述表格图像输入到表格识别模型,得到所述表格识别模型识别出的所述表格的表格特征信息;
其中,所述表格识别模型为利用标注有表格特征信息的多个表格图像样本训练得到的。
CN202210722469.0A 2022-06-24 2022-06-24 识别图像中表格信息的方法和装置 Pending CN115100668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210722469.0A CN115100668A (zh) 2022-06-24 2022-06-24 识别图像中表格信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210722469.0A CN115100668A (zh) 2022-06-24 2022-06-24 识别图像中表格信息的方法和装置

Publications (1)

Publication Number Publication Date
CN115100668A true CN115100668A (zh) 2022-09-23

Family

ID=83292630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210722469.0A Pending CN115100668A (zh) 2022-06-24 2022-06-24 识别图像中表格信息的方法和装置

Country Status (1)

Country Link
CN (1) CN115100668A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273113A (zh) * 2022-09-27 2022-11-01 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置
CN115688721A (zh) * 2023-01-03 2023-02-03 深圳鲲云信息科技有限公司 一种表格生成方法、装置、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273113A (zh) * 2022-09-27 2022-11-01 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置
CN115273113B (zh) * 2022-09-27 2022-12-27 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置
CN115688721A (zh) * 2023-01-03 2023-02-03 深圳鲲云信息科技有限公司 一种表格生成方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109993112B (zh) 一种图片中表格的识别方法及装置
CN115100668A (zh) 识别图像中表格信息的方法和装置
CN107423278B (zh) 评价要素的识别方法、装置及系统
EP1571560A2 (en) Assisted form filling
CN108595410A (zh) 手写作文的自动批改方法及装置
CN109284355B (zh) 一种批改试卷中口算题的方法及装置
JP2008276766A (ja) フォーム自動埋込方法及び装置
CN111144079B (zh) 一种智能获取学习资源的方法、装置、打印机和存储介质
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN112766255A (zh) 一种光学文字识别方法、装置、设备及存储介质
CN110135225A (zh) 样本标注方法及计算机存储介质
CN111539414B (zh) 一种ocr图像字符识别和字符校正的方法及系统
US20220335335A1 (en) Method and system for identifying mislabeled data samples using adversarial attacks
CN113762274B (zh) 一种答题卡目标区域检测方法、系统、存储介质及设备
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN113269101A (zh) 一种票据识别方法、装置和设备
CN114254231A (zh) 网页内文抽取方法
CN112396057A (zh) 一种字符识别方法、装置及电子设备
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
CN115310505A (zh) 一种用于互感器二次回路接线端子的自动识别方法及系统
CN112541505A (zh) 文本识别方法、装置以及计算机可读存储介质
CN117710763B (zh) 图像噪声识别模型训练方法、图像噪声识别方法及装置
CN116991983B (zh) 一种面向公司资讯文本的事件抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination