CN117831053A - 图像中表格内容的提取方法、装置和电子设备 - Google Patents

图像中表格内容的提取方法、装置和电子设备 Download PDF

Info

Publication number
CN117831053A
CN117831053A CN202311870569.9A CN202311870569A CN117831053A CN 117831053 A CN117831053 A CN 117831053A CN 202311870569 A CN202311870569 A CN 202311870569A CN 117831053 A CN117831053 A CN 117831053A
Authority
CN
China
Prior art keywords
content
row
column
target
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311870569.9A
Other languages
English (en)
Inventor
崔瑞莲
张银田
张建树
殷保才
殷兵
刘聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202311870569.9A priority Critical patent/CN117831053A/zh
Publication of CN117831053A publication Critical patent/CN117831053A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种图像中表格内容的提取方法、装置和电子设备,涉及图像处理技术领域。该方法包括:在提取表格中的内容时,可以先获取待提取图像,待提取图像中包括目标表格,并基于待提取图像和关键词,从目标表格中提取关键词对应的目标内容;其中,目标内容包括表头内容、项目列内容或者行内容中的至少一种,表头内容中的表头项通过行方向单元格分隔符分隔、项目列内容中的项目列通过列方向单元格分隔符分隔,行内容中的内容通过行方向单元格分隔符分隔,这样基于分隔符可以较好地从目标表格中,提取出关键词对应的目标内容。

Description

图像中表格内容的提取方法、装置和电子设备
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像中表格内容的提取方法、装置和电子设备。
背景技术
在众多场景中,例如财务、办公、医疗、银行等,表格形式的数据越来越多,对于这些表格中内容进行提取,是对表格数据进行数字化归档以及检索的重要手段。
常见情况下,提取表格中的内容相比一般的文档数据提取更加困难,因此,如何提取表格中的内容,是本领域技术人员需要解决的技术问题。
发明内容
本申请提供一种图像中表格内容的提取方法、装置和电子设备,可以较好地提取表格中的内容。
本申请提供一种图像中表格内容的提取方法,所述图像中表格内容的提取方法可以包括:
获取待提取图像,所述待提取图像中包括目标表格;
基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;
其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
根据本申请提供的一种图像中表格内容的提取方法,所述基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容,包括:
将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容;
其中,所述表格行列识别模型是基于多个样本图像、各所述样本图像对应的样本关键词和对应的样本内容标签训练得到的。
根据本申请提供的一种图像中表格内容的提取方法,所述表格行列识别模型包括编码器和解码器,所述将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容,包括:
将所述待提取图像输入至所述编码器中,得到图像编码特征;
将所述图像编码特征和所述关键词输入至所述解码器中,得到所述目标内容。
根据本申请提供的一种图像中表格内容的提取方法,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
基于所述行方向单元格分隔符,确定所述表头内容中包括的多个表头项;并基于所述列方向单元格分隔符,确定所述项目列内容中包括的多个项目列;
将所述多个表头项中的任一表头项,和所述多个项目列中的任一项目列进行两两组合,生成多个键;
基于所述多个键和所述行方向单元格分隔符,从所述行内容中确定所述多个键各自对应的值,所述目标表格中的全结构化要素包括多个键值对。
根据本申请提供的一种图像中表格内容的提取方法,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数;
基于所述项目列内容中的所述列方向单元格分隔符,确定所述可编辑表格的行数;
基于所述列数、所述行数和所述行内容,生成所述可编辑表格,所述可编辑表格中的内容与所述目标表格中的内容相同。
根据本申请提供的一种图像中表格内容的提取方法,在所述表头内容中包括跨列单元格连接符的情况下,所述基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数,包括:
基于所述跨列单元格连接符,确定所述表头内容中跨列的表头项的数量;
基于所述表头项的数量和所述行方向单元格分隔符,确定所述可编辑表格的列数。
根据本申请提供的一种图像中表格内容的提取方法,在所述项目列内容中包括跨行单元格连接符的情况下,所述基于所述项目列内容中的所述列方向单元格分隔符,确定所述可编辑表格的行数,包括:
基于所述跨行单元格连接符,确定所述项目列内容中跨行的项目列的数量;
基于所述项目列的数量和所述列方向单元格分隔符,确定所述可编辑表格的行数。
本申请还提供一种图像中表格内容的提取装置,所述图像中表格内容的提取装置包括:
获取单元,用于获取待提取图像,所述待提取图像中包括目标表格;
第一处理单元,用于基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
本申请还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述的图像中表格内容的提取方法。
本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的图像中表格内容的提取方法。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的图像中表格内容的提取方法。
本申请提供的图像中表格内容的提取方法、装置和电子设备,在提取表格中的内容时,可以先获取待提取图像,待提取图像中包括目标表格,并基于待提取图像和关键词,从目标表格中提取关键词对应的目标内容;其中,目标内容包括表头内容、项目列内容或者行内容中的至少一种,表头内容中的表头项通过行方向单元格分隔符分隔、项目列内容中的项目列通过列方向单元格分隔符分隔,行内容中的内容通过行方向单元格分隔符分隔,这样基于分隔符可以较好地从目标表格中,提取出关键词对应的目标内容。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像中表格内容的提取方法的流程示意图;
图2为本申请实施例提供的一种表格行列识别模型的结构示意图;
图3为本申请实施例提供的一种基于目标内容对应的目标分隔符,提取目标表格中的全结构化要素的方法流程示意图;
图4为本申请实施例提供的一种进一步基于目标内容中的分隔符,恢复出与目标表格中的内容相同的表格的方法流程示意图;
图5为本申请实施例提供的一种图像中表格内容的提取装置的结构示意图;
图6为本申请实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的技术方案可以应用于众多场景,例如财务、办公、医疗、银行等场景。在这些众多场景中,通常会存在各式各样的表格,随着表格形式的数据越来越多,为了实现对表格数据进行数字化归档以及检索,则需要对表格中的内容进行提取,以基于提取出的内容进行数字化归档以及检索。
通常情况下,基于表格的形式,可以将表格分为有线表和无线表,此外,表格还具有跨行或者跨列、复杂嵌套的特性,因此,提取表格中的内容相比一般的文档数据提取更加困难。
为了可以较好地提取图像中表格中的内容,本申请实施例提供了一种图像中表格内容的提取方法,在提取表格中的内容时,可以先基于待提取图像和关键词,从目标表格中提取关键词对应的目标内容;其中,目标内容包括表头内容、项目列内容或者行内容中的至少一种,表头内容中的表头项通过行方向单元格分隔符分隔、项目列内容中的项目列通过列方向单元格分隔符分隔,行内容中的内容通过行方向单元格分隔符分隔,这样基于分隔符可以较好地从目标表格中,提取出关键词对应的目标内容。
其中,行方向单元格分隔符可以理解为行方向单元格间隔符,列方向单元格分隔符可以理解为列方向单元格间隔符。
示例地,在本申请实施例中,行方向单元格分隔符可记为“<\t>”,列方向单元格分隔符可记为“<\n>”,当然,也可以记为其他分隔符,具体可以根据实际需要进行设置。
在后续的描述中,将以行方向单元格分隔符记为“<\t>”,列方向单元格分隔符记为“<\n>”为例进行说明,但并不代表本申请实施例仅局限于此。
下面,将通过下述几个具体的实施例对本申请提供的图像中表格内容的提取方法进行详细地说明。可以理解的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本申请实施例提供的一种图像中表格内容的提取方法的流程示意图,该方法可以由软件和/或硬件装置执行。示例的,请参见图1所示,该图像中表格内容的提取方法可以包括:
S101、获取待提取图像,待提取图像中包括目标表格。
其中,目标表格可以理解为提取对象,即从目标表格中提取用户想要提取的内容。
示例地,在获取待提取图像时,可以接收其他电子设备发送的待提取图像,可以从本地获取待提取图像,也可以从第三方数据库中获取待提取图像等,具体可以根据实际需要进行设置,在此,对于待提取图像的获取方式,本申请实施例不做具体限制。
示例地,在本申请实施例中,目标表格可以为有线表,也可以为无线表,当然,目标表格还可以具有跨行或者跨列、复杂嵌套的特性等,具体可以根据实际需要进行设置。
在确定出目标表格后,就可以执行下述S102:
S102、基于待提取图像和关键词,从目标表格中提取关键词对应的目标内容;其中,目标内容包括表头内容、项目列内容或者行内容中的至少一种,表头内容中的表头项通过行方向单元格分隔符分隔、项目列内容中的项目列通过列方向单元格分隔符分隔,行内容中的内容通过行方向单元格分隔符分隔。
其中,关键词用于表征用户想要提取的内容。
示例地,在本申请实施例中,基于待提取图像和关键词,从目标表格中关键词对应的目标内容时,可以将待提取图像和关键词输入至预设的表格行列识别模型中,得到目标内容;其中,表格行列识别模型是基于多个样本图像、各样本图像对应的样本关键词和对应的样本内容标签训练得到的。
示例的,在本申请实施例中,可参见图2所示,图2为本申请实施例提供的一种表格行列识别模型的结构示意图,其中,表格行列识别模型包括编码器和解码器,将待提取图像和关键词输入至预设的表格行列识别模型中,得到目标内容时,可以先将待提取图像输入至编码器中,得到图像编码特征;再将得到的图像编码特征和关键词输入至解码器中,得到目标内容,这样就可以较好地从目标表格中,提取出关键词对应的目标内容。
示例地,在本申请实施例中,编码器可以为Swin Transformer模型,用于提取图像编码特征,解码器可以为BART(Bidirectional and Auto-Regressive Transformers)语言模型,用于提取目标内容,具体可以根据实际需要进行设置。
可以理解的是,在基于待提取图像和关键词,从目标表格中关键词对应的目标内容时,本申请实施例只是以通过表格行列识别模型提取关键词对应的目标内容为例进行说明,也可以采用其他类似的内容提取方法,从目标表格中关键词对应的目标内容,具体可以根据实际需要进行设置。
为了便于理解提取出的关键词对应的目标内容,可结合下述表1和表2进行说明。例如,可参见下述表1所示,表1为本申请实施例提供的一种检验报告,该检验报告中包括表头内容、项目列内容和行内容。
表1
结合上述表1所示,当目标内容包括表头内容时,对应的表头内容可记为:{表头:检验项目<\t>结果<\t>单位<\t>结果提示<\t>参考范围}。
当目标内容包括项目列内容时,对应的项目列内容可记为:{项目列:丙氨酸氨基转移酶<\n>天门冬氨酸氨基转移酶<\n>谷草/谷丙<\n>,…,碱性磷酸酶}。
当目标内容包括行内容时,对应的行内容可记为:{第1行:丙氨酸氨基转移酶<\t>9.5<\t>U/L<\t><null><\t>0.0-40.0},{第2行:天门冬氨酸氨基转移酶<\t>9.7<\t>U/L<\t><null><\t>0.0-35.0},{第3行:谷草/谷丙<\t>1.0<\t><null><\t><null><\t><null>},…,{第11行:碱性磷酸酶<\t>87.7<\t>U/L<\t><null><\t>42.0-350.0}。
其中,<null>表示空单元格。
又例如,可参见下述表2所示,表2为本申请实施例提供的一种检验报告,该检验报告中包括表头内容、项目列内容和行内容,其中,表头内容中包括跨列单元格连接符,项目列内容中包括跨行单元格连接符。示例地,在本申请实施例中,跨列单元格连接符和跨行单元格连接符可记为“<\c>”,当然,也可以记为其他分隔符,具体可以根据实际需要进行设置。在后续的描述中,跨列单元格连接符和跨行单元格连接符记为“<\c>”为例进行说明,但并不代表本申请实施例仅局限于此。
表2
结合上述表2所示,当目标内容包括表头内容时,对应的表头内容可记为:{表头:建设内容<\t>分年度资金预算(万元)<\c>第1年度<\t>分年度资金预算(万元)<\c>第2年度<\t>分年度资金预算(万元)<\c>第3年度<\t>分年度资金预算(万元)<\c>小计}。
当目标内容包括项目列内容时,对应的项目列内容可记为:{项目列:合计<\n>信息化基础环境<\c>网络基础环境<\n>信息化基础环境<\c>软件架构<\n>信息化基础环境<\c>云计算机房<\n>信息化基础环境<\c>私有云数据中心<\n>信息化教学<\c>空间课堂教学<\n>信息化教学<\c>虚拟仿真实习<\n>信息化教学<\c>网络资源建设}。
当目标内容包括行内容时,对应的行内容可记为:{第1行:合计<\t>260<\t>220<\t>195<\t>675},{第2行:信息化基础环境<\c>网络基础环境<\t>40<\t>30<\t>30<\t>100},{第3行:信息化基础环境<\c>软件架构<\t>30<\t>30<\t>25<\t>85},…,{第8行:信息化教学<\c>网络资源建设<\t>3<\t>2<\t>0<\t>5}。
可以看出,本申请实施例中,在提取表格中的内容时,可以先获取待提取图像,待提取图像中包括目标表格;并基于待提取图像和关键词,从目标表格中提取关键词对应的目标内容;其中,目标内容包括表头内容、项目列内容或者行内容中的至少一种,表头内容中的表头项通过行方向单元格分隔符分隔、项目列内容中的项目列通过列方向单元格分隔符分隔,行内容中的内容通过行方向单元格分隔符分隔,这样基于分隔符可以较好地从目标表格中,提取出关键词对应的目标内容。
基于上述图1所示的实施例,示例地,基于多个样本图像、各样本图像对应的样本关键词和对应的样本内容标签,训练表格行列识别模型时,其训练过程可以分为预训练和下游微调。
其中,预训练采用编码器-解码器结构,端到端进行训练,训练目标是按阅读顺序识别图像中的所有内容,采用自回归建模方式。编码器使用Swin Transformer模型,解码器使用BART语言模型预训练权重进行权重初始化,预训练使用大量的样本图像、各样本图像对应的样本关键词和对应的样本内容标签,进行有监督的训练,使得训练的表格行列识别模型,具有高性能的光学字符识别(Optical Character Recognition,OCR)能力和较好的泛化性。
需要说明的是,基于多个样本图像、各样本图像对应的样本关键词和对应的样本内容标签,训练表格行列识别模型时,与上述图1所示的实施例中输入至表格行列识别模型中的关键词不同的是,样本图像对应的样本关键词中需要包括样本表头内容、样本项目列内容和样本行内容,与编码器得到的图像特征做注意力机制,解码器被训练自回归输出token序列,该token序列即为样本关键词对应的样本内容标签。
可以理解的是,在模型训练过程结束后,还可以对训练得到的表格行列识别模型进行测试,以得到具有高性能的OCR能力和较好泛化性的表格行列识别模型。
基于上述任一实施例,在目标内容包括表头内容、项目列内容和行内容的情况下,还可以进一步基于目标内容中的分隔符,提取目标表格中的全结构化要素。下面,将通过下述图3所示的实施例,详细描述在本申请实施例中,如何基于目标内容对应的目标分隔符,提取目标表格中的全结构化要素。
图3为本申请实施例提供的一种基于目标内容对应的目标分隔符,提取目标表格中的全结构化要素的方法流程示意图,该方法可以由软件和/或硬件装置执行。示例的,请参见图3所示,该方法可以包括:
S301、基于行方向单元格分隔符,确定表头内容中包括的多个表头项;并基于列方向单元格分隔符,确定项目列内容中包括的多个项目列。
结合表2所示,基于行方向单元格分隔符<\t>,可以确定图2中表头内容包括的5个表头项,该5个表头项分别为建设内容、分年度资金预算(万元)第1年度、分年度资金预算(万元)第2年度、分年度资金预算(万元)第3年度,以及分年度资金预算(万元)小计。
结合表2所示,基于列方向单元格分隔符<\n>,可以确定图2中项目列内容包括的8个项目列,合计、信息化基础环境网络基础环境、信息化基础环境软件架构、信息化基础环境云计算机房、信息化基础环境私有云数据中心、信息化教学空间课堂教学、信息化教学虚拟仿真实习,以及信息化教学网络资源建设。
在分别得到多个表头项和多个项目列后,为了可以提取到目标表格中的全结构化要素,可以将目标表格中的要素以键值对的方式表示,从而提取出全结构化要素。
S302、将多个表头项中的任一表头项,和多个项目列中的任一项目列进行两两组合,生成多个键。
继续结合上述表2所示,可以将表2中的5个表头项和8个项目列进行两两组合,得到多个键,该多个键可以分别为:合计-分年度资金预算(万元)第1年度、合计-分年度资金预算(万元)第2年度、合计-分年度资金预算(万元)第3年度、合计-分年度资金预算(万元)小计、信息化基础环境网络基础环境-分年度资金预算(万元)第1年度、信息化基础环境网络基础环境-分年度资金预算(万元)第2年度、信息化基础环境网络基础环境-分年度资金预算(万元)第3年度、信息化基础环境网络基础环境-分年度资金预算(万元)小计,…,信息化教学网络资源建设-分年度资金预算(万元)第1年度、信息化教学网络资源建设-分年度资金预算(万元)第2年度、信息化教学网络资源建设-分年度资金预算(万元)第3年度,以及信息化教学网络资源建设-分年度资金预算(万元)小计。
S303、基于多个键和行方向单元格分隔符,从行内容中确定多个键各自对应的值,目标表格中的全结构化要素包括多个键值对。
其中,多个键(key)和各自对应的值(value),构成多个键值对(kv),目标表格中的全结构化要素包括该多个键值对。
继续结合上述表2所示,在基于表2中的5个表头项和8个项目列进行两两组合,得到多个键后,可以结合行方向单元格分隔符<\t>,从行内容中确定多个键各自对应的值,得到表2中的表格的全结构化要素包括:{合计-分年度资金预算(万元)第1年度:260}、{合计-分年度资金预算(万元)第2年度:220}、{合计-分年度资金预算(万元)第3年度:195}、{合计-分年度资金预算(万元)小计:675}、{信息化基础环境网络基础环境-分年度资金预算(万元)第1年度:40}、{信息化基础环境网络基础环境-分年度资金预算(万元)第2年度30}、{信息化基础环境网络基础环境-分年度资金预算(万元)第3年度30}、{信息化基础环境网络基础环境-分年度资金预算(万元)小计:100},…,{信息化教学网络资源建设-分年度资金预算(万元)第1年度:3}、{信息化教学网络资源建设-分年度资金预算(万元)第2年度:2}、{信息化教学网络资源建设-分年度资金预算(万元)第3年度:0},以及{信息化教学网络资源建设-分年度资金预算(万元)小计:5}。
可以理解的是,在本申请实施例中,考虑到因合并单元格按其对应的最大行数或列数进行表示,因此,提取目标表格中的全结构化要素时,可不关注跨列单元格连接符和跨行单元格连接符<\c>。以提取上述表2中的全结构化要素为例,全结构化要素的python格式伪代码如下:
通过上述python格式伪代码,可以得到最终的输出kv_list为[{合计-分年度资金预算(万元)第1年度:260}、{合计-分年度资金预算(万元)第2年度:220}、{合计-分年度资金预算(万元)第3年度:195}、{合计-分年度资金预算(万元)小计:675}、{信息化基础环境网络基础环境-分年度资金预算(万元)第1年度:40}、{信息化基础环境网络基础环境-分年度资金预算(万元)第2年度30}、{信息化基础环境网络基础环境-分年度资金预算(万元)第3年度30}、{信息化基础环境网络基础环境-分年度资金预算(万元)小计:100},…,{信息化教学网络资源建设-分年度资金预算(万元)第1年度:3}、{信息化教学网络资源建设-分年度资金预算(万元)第2年度:2}、{信息化教学网络资源建设-分年度资金预算(万元)第3年度:0},以及{信息化教学网络资源建设-分年度资金预算(万元)小计:5}]。
可以看出,本申请实施例中,在目标内容包括表头内容、项目列内容和行内容的情况下,可以基于行方向单元格分隔符,确定表头内容中包括的多个表头项;并基于列方向单元格分隔符,确定项目列内容中包括的多个项目列;将多个表头项中的任一表头项,和多个项目列中的任一项目列进行两两组合,生成多个键;再基于多个键和行方向单元格分隔符,从行内容中确定多个键各自对应的值,目标表格中的全结构化要素包括多个键值对,这样可以基于目标内容中的分隔符,提取目标表格中的全结构化要素,该全要素结构化实现了直接从图像中理解表格内容,并抽取表格内容中的要素。
基于上述任一实施例,在本申请实施例中,在目标内容包括表头内容、项目列内容和行内容的情况下,还可以进一步基于目标内容中的分隔符,恢复出与目标表格中的内容相同的可编辑表格。其中,可编辑表格可以为Excel表格。下面,将通过下述图4所示的实施例,详细描述在本申请实施例中,如何进一步基于目标内容中的分隔符,恢复出与目标表格中的内容相同的表格。
图4为本申请实施例提供的一种进一步基于目标内容中的分隔符,恢复出与目标表格中的内容相同的表格的方法流程示意图,该方法可以由软件和/或硬件装置执行。示例的,请参见图4所示,该方法可以包括:
S401、基于表头内容中的行方向单元格分隔符,确定待生成的可编辑表格的列数。
示例的,在本申请实施例中,基于表头内容中的行方向单元格分隔符,确定待生成的可编辑表格的列数时,可以包括下述至少两种可能的实现方式:
在一种可能的实现方式中,在表头内容中未包括跨列单元格连接符的情况下,可以直接基于表头内容中的行方向单元格分隔符<\t>,对表头内容进行分割,确定待生成的可编辑表格的列数。
示例的,可参见上述表1所示,表1的表头内容中未包括跨列单元格连接符<\c>,可以直接基于表头内容中的行方向单元格分隔符<\t>,对表头内容进行分割,确定可编辑表格的列数为5列。
在另一种可能的实现方式中,在表头内容中包括跨列单元格连接符的情况下,说明表头内容中包括合并单元格,在该种情况下,可以先基于跨列单元格连接符,确定表头内容中跨列的表头项的数量;再基于表头项的数量和行方向单元格分隔符,共同确定可编辑表格的列数。
示例的,可参见上述表2所示,表2的表头内容中包括跨列单元格连接符<\c>,可以基于跨列单元格连接符<\c>,确定表头内容中跨列的表头项的数量为4;再基于表头项的数量2和行方向单元格分隔符<\c>,共同确定可编辑表格的列数为5列。
可以理解的是,在基于表头内容中的行方向单元格分隔符,确定可编辑表格的列数时,本申请实施例只是以上述两种可能的实现方式为例进行说明,但并不代表本申请实施例仅局限于此。
S402、基于项目列内容中的列方向单元格分隔符,确定可编辑表格的行数。
示例的,在本申请实施例中,基于项目列内容中的列方向单元格分隔符,确定可编辑表格的行数时,可以包括下述至少两种可能的实现方式:
在一种可能的实现方式中,在项目列内容中未包括跨行单元格连接符的情况下,可以直接基于项目列内容中的列方向单元格分隔符<\n>,对项目列内容进行分割,确定可编辑表格的行数。
示例的,可参见上述表1所示,表1的项目列内容中未包括跨行单元格连接符<\c>,可以直接基于项目列内容中的列方向单元格分隔符<\n>,对项目列内容进行分割,确定可编辑表格的行数为11行。
在另一种可能的实现方式中,在项目列内容中包括跨行单元格连接符的情况下,说明项目列内容中包括合并单元格,在该种情况下,可以先基于跨行单元格连接符,确定项目列内容中跨行的项目列的数量;再基于项目列的数量和列方向单元格分隔符,确定可编辑表格的行数。
示例的,可参见上述表2所示,表2的项目列内容中包括跨行单元格连接符<\c>,可以基于跨行单元格连接符<\c>,确定项目列内容中跨行的项目列的数量为7;再基于项目列的数量3和列方向单元格分隔符<\c>,共同确定可编辑表格的列数为8列。
可以理解的是,在基于项目列内容中的列方向单元格分隔符,确定可编辑表格的行数数时,本申请实施例只是以上述两种可能的实现方式为例进行说明,但并不代表本申请实施例仅局限于此。
需要说明的是,在本申请实施例中,上述S401和S402之间并无先后顺序,在此,本申请实施例只是以先执行上述S401,再执行上述S402为例进行说明,但并不代表本申请实施例仅局限于此。
S403、基于列数、行数和行内容,生成可编辑表格,可编辑表格中的内容与目标表格中的内容相同。
可以看出,本申请实施例中,在目标内容包括表头内容、项目列内容和行内容的情况下,可以基于表头内容中的行方向单元格分隔符,确定待生成的可编辑表格的列数,并基于项目列内容中的列方向单元格分隔符,确定可编辑表格的行数,再基于列数、行数和行内容,生成可编辑表格,可编辑表格中的内容与目标表格中的内容相同,实现了图像中表格到可编辑表格的转换,后续方便用户编辑,且不限定有线表或者无线表的表格形式。
下面对本申请提供的图像中表格内容的提取装置进行描述,下文描述的图像中表格内容的提取装置与上文描述的图像中表格内容的提取方法可相互对应参照。
图5为本申请实施例提供的一种图像中表格内容的提取装置的结构示意图,示例地,请参见图5所示,该图像中表格内容的提取装置50可以包括:
获取单元501,用于获取待提取图像,所述待提取图像中包括目标表格;
第一处理单元502,用于基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
示例的,在本申请实施例中,所述第一处理单元502,用于基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容,包括:
将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容;
其中,所述表格行列识别模型是基于多个样本图像、各所述样本图像对应的样本关键词和对应的样本内容标签训练得到的。
示例的,在本申请实施例中,所述表格行列识别模型包括编码器和解码器,所述第一处理单元502,用于将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容,包括:
将所述待提取图像输入至所述编码器中,得到图像编码特征;
将所述图像编码特征和所述关键词输入至所述解码器中,得到所述目标内容。
示例的,在本申请实施例中,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述图像中表格内容的提取装置50还包括:
第二处理单元,用于基于所述行方向单元格分隔符,确定所述表头内容中包括的多个表头项;并基于所述列方向单元格分隔符,确定所述项目列内容中包括的多个项目列;
第三处理单元,用于将所述多个表头项中的任一表头项,和所述多个项目列中的任一项目列进行两两组合,生成多个键;
第四处理单元,用于基于所述多个键和所述行方向单元格分隔符,从所述行内容中确定所述多个键各自对应的值,所述目标表格中的全结构化要素包括多个键值对。
示例的,在本申请实施例中,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述图像中表格内容的提取装置50还包括:
第一确定单元,用于基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数;
第二确定单元,用于基于所述项目列内容中的所述列方向单元格分隔符,确定所述可编辑表格的行数;
生成单元,用于基于所述列数、所述行数和所述行内容,生成所述可编辑表格,所述可编辑表格中的内容与所述目标表格中的内容相同。
示例的,在本申请实施例中,在所述表头内容中包括跨列单元格连接符的情况下,所述第一确定单元,用于基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数,包括:
基于所述跨列单元格连接符,确定所述表头内容中跨列的表头项的数量;
基于所述表头项的数量和所述行方向单元格分隔符,确定所述可编辑表格的列数。
示例的,在本申请实施例中,在所述项目列内容中包括跨行单元格连接符的情况下,所述第二确定单元,用于基于所述项目列内容中的所述列方向单元格分隔符,确定所述可编辑表格的行数,包括:
基于所述跨行单元格连接符,确定所述项目列内容中跨行的项目列的数量;
基于所述项目列的数量和所述列方向单元格分隔符,确定所述可编辑表格的行数。
本申请实施例提供的图像中表格内容的提取装置50,可以执行上述任一实施例中图像中表格内容的提取方法的技术方案,其实现原理及有益效果与图像中表格内容的提取方法的实现原理及有益效果类似,可参见图像中表格内容的提取方法的实现原理及有益效果,此处不再进行赘述。
图6为本申请实施例提供的一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行图像中表格内容的提取方法,该方法包括:获取待提取图像,所述待提取图像中包括目标表格;基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的图像中表格内容的提取方法,该方法包括:获取待提取图像,所述待提取图像中包括目标表格;基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
又一方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像中表格内容的提取方法,该方法包括:获取待提取图像,所述待提取图像中包括目标表格;基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种图像中表格内容的提取方法,其特征在于,包括:
获取待提取图像,所述待提取图像中包括目标表格;
基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;
其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容,包括:
将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容;
其中,所述表格行列识别模型是基于多个样本图像、各所述样本图像对应的样本关键词和对应的样本内容标签训练得到的。
3.根据权利要求2所述的方法,其特征在于,所述表格行列识别模型包括编码器和解码器,所述将所述待提取图像和所述关键词输入至预设的表格行列识别模型中,得到所述目标内容,包括:
将所述待提取图像输入至所述编码器中,得到图像编码特征;
将所述图像编码特征和所述关键词输入至所述解码器中,得到所述目标内容。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
基于所述行方向单元格分隔符,确定所述表头内容中包括的多个表头项;并基于所述列方向单元格分隔符,确定所述项目列内容中包括的多个项目列;
将所述多个表头项中的任一表头项,和所述多个项目列中的任一项目列进行两两组合,生成多个键;
基于所述多个键和所述行方向单元格分隔符,从所述行内容中确定所述多个键各自对应的值,所述目标表格中的全结构化要素包括多个键值对。
5.根据权利要求1-3任一项所述的方法,其特征在于,在所述目标内容包括所述表头内容、所述项目列内容和所述行内容的情况下,所述方法还包括:
基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数;
基于所述项目列内容中的所述列方向单元格分隔符,确定所述可编辑表格的行数;
基于所述列数、所述行数和所述行内容,生成所述可编辑表格,所述可编辑表格中的内容与所述目标表格中的内容相同。
6.根据权利要求5所述的方法,其特征在于,在所述表头内容中包括跨列单元格连接符的情况下,所述基于所述表头内容中的所述行方向单元格分隔符,确定待生成的可编辑表格的列数,包括:
基于所述跨列单元格连接符,确定所述表头内容中跨列的表头项的数量;
基于所述表头项的数量和所述行方向单元格分隔符,确定所述可编辑表格的列数。
7.根据权利要求5所述的方法,其特征在于,在所述项目列内容中包括跨行单元格连接符的情况下,所述基于所述项目列内容中的所述列方向单元格分隔符,确定所述可编辑表格的行数,包括:
基于所述跨行单元格连接符,确定所述项目列内容中跨行的项目列的数量;
基于所述项目列的数量和所述列方向单元格分隔符,确定所述可编辑表格的行数。
8.一种图像中表格内容的提取装置,其特征在于,包括:
获取单元,用于获取待提取图像,所述待提取图像中包括目标表格;
第一处理单元,用于基于所述待提取图像和关键词,从所述目标表格中提取所述关键词对应的目标内容;其中,所述目标内容包括表头内容、项目列内容或者行内容中的至少一种,所述表头内容中的表头项通过行方向单元格分隔符分隔、所述项目列内容中的项目列通过列方向单元格分隔符分隔,所述行内容中的内容通过所述行方向单元格分隔符分隔。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的图像中表格内容的提取方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像中表格内容的提取方法。
CN202311870569.9A 2023-12-29 2023-12-29 图像中表格内容的提取方法、装置和电子设备 Pending CN117831053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311870569.9A CN117831053A (zh) 2023-12-29 2023-12-29 图像中表格内容的提取方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311870569.9A CN117831053A (zh) 2023-12-29 2023-12-29 图像中表格内容的提取方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117831053A true CN117831053A (zh) 2024-04-05

Family

ID=90507569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311870569.9A Pending CN117831053A (zh) 2023-12-29 2023-12-29 图像中表格内容的提取方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN117831053A (zh)

Similar Documents

Publication Publication Date Title
CN111339427B (zh) 一种图书信息推荐方法、装置、系统及存储介质
US11321361B2 (en) Genealogical entity resolution system and method
US11195048B2 (en) Generating descriptions of image relationships
CN110489424B (zh) 一种表格化信息提取的方法、装置、存储介质及电子设备
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
WO2023202197A1 (zh) 文本识别方法及相关装置
CN110489423B (zh) 一种信息抽取的方法、装置、存储介质及电子设备
US11494431B2 (en) Generating accurate and natural captions for figures
CN115862040A (zh) 文本纠错方法、装置、计算机设备及可读存储介质
CN117392260A (zh) 一种图像生成方法及装置
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN116127925B (zh) 基于对文本进行破坏处理的文本数据增强方法及装置
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN116955406A (zh) Sql语句生成方法、装置、电子设备及存储介质
CN115640401A (zh) 文本内容提取方法及装置
CN117831053A (zh) 图像中表格内容的提取方法、装置和电子设备
CN115640378A (zh) 工单检索方法、服务器、介质及产品
CN117788842B (zh) 图像检索方法及相关装置
CN114036267A (zh) 对话方法及系统
CN117931858B (zh) 数据查询方法、装置、计算机设备和存储介质
CN116306598B (zh) 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN118538401B (zh) 基于语言大模型的糖尿病咨询交互方法及装置
CN118656380A (zh) 模型训练方法、合同条款检索方法以及相关设备
CN116701619A (zh) 基于压缩预训练语言模型的表格信息抽取方法、系统及设备
CN114357183A (zh) 实体关系抽取方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination