CN114495140B - 表格的信息提取方法、系统、设备、介质及程序产品 - Google Patents

表格的信息提取方法、系统、设备、介质及程序产品 Download PDF

Info

Publication number
CN114495140B
CN114495140B CN202210387989.0A CN202210387989A CN114495140B CN 114495140 B CN114495140 B CN 114495140B CN 202210387989 A CN202210387989 A CN 202210387989A CN 114495140 B CN114495140 B CN 114495140B
Authority
CN
China
Prior art keywords
content
cell
neural network
cells
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210387989.0A
Other languages
English (en)
Other versions
CN114495140A (zh
Inventor
宋恒
刘道学
仇明清
李亚楠
耿天宝
程维国
孙朝福
张志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Shuzhi Construction Research Institute Co ltd
Original Assignee
Anhui Shuzhi Construction Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Shuzhi Construction Research Institute Co ltd filed Critical Anhui Shuzhi Construction Research Institute Co ltd
Priority to CN202210387989.0A priority Critical patent/CN114495140B/zh
Publication of CN114495140A publication Critical patent/CN114495140A/zh
Application granted granted Critical
Publication of CN114495140B publication Critical patent/CN114495140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种表格的信息提取方法、系统、设备、介质及程序产品,包括:获得待进行信息提取的表格;将表格输入预先训练好的图神经网络中,得到图神经网络从表格中提取的目标单元格中的内容,其中,图神经网络是基于如下方式预先训练好的:获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;根据标注好的所述表格样本的表结构构造图结构,基于所述图结构以及训练任务训练所述图神经网络。本申请通过预训练的图神经网络来提取待进行信息提取的表格,可以在规则及不规则表格条件下,准确提取指定内容信息。

Description

表格的信息提取方法、系统、设备、介质及程序产品
技术领域
本公开涉及表格信息提取技术领域,尤其涉及一种表格的信息提取方法、系统、设备、介质及程序产品。
背景技术
表格是一种非常重要和常见的半结构化数据,广泛使用在文档和网页中。表格信息对于人来说清晰明了,易于理解。但是手动从大量表格中提取指定信息通常是很繁琐耗时的,因此出现了机器自动提取表格中信息的方法。
现有相关技术中,表格相关的研究包括表格识别,表格结构提取,表格理解等,其中表格理解又分为基于表格的信息检索,表格问答,表格内容的提取。表格内容的提取方法面对复杂多样的表格形式时,基于规则的方法已经无法胜任,目前大多方法都是基于深度学习技术进行表格识别和理解。目前基于深度学习的表格理解技术目标可以分为:(1)提取其中指定的信息,(2)生成描述性文本。使用到的深度学习方法如:(1)基于卷积神经网络进行表格结构识别和提取(2)使用图神经网络和自然语言模型进行财务表格的识别和提取。而目前的基于深度学习的提取方法大都基于规则的方法比较繁琐,需要定义的规则比较多,难于维护,无法应对复杂多样的表格结构,并且还无法满足在不规则表格条件下,直接根据表头准确提取指定内容信息的需求。
发明内容
为克服相关技术中存在的问题,本公开提供一种表格的信息提取方法、系统、设备、介质及程序产品。
根据本公开实施例的第一方面,提供一种表格的信息提取方法,包括:
获得待进行信息提取的表格;
将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,
其中,所述图神经网络是基于如下方式预先训练好的:
获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
在一些实施例中,所述根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征,包括:
获得所述表格样本的表结构,其中,所述表结构包括所述表格样本的表头单元格和内容单元格所对应的行和列、以及表头单元格和内容单元格之间的位置关系;
根据所述表格样本的表头单元格和内容单元格所对应的行和列、以及表头单元格和内容单元格之间的位置关系,构造所述图结构;
根据所述表格样本的表头单元格和内容单元格所对应的行和列、以及所述表头单元格和内容单元格的内容,得到对应节点的节点特征;
根据所述表头单元格和内容单元格之间的位置关系得到所述边特征。
在一些实施例中,所述基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的,包括:
获得所述训练任务,其中,所述训练任务包括第一训练任务和第二训练任务;
基于所述第一训练任务对所述图神经网络进行表格样本中的表头单元格的识别训练;
基于所述第二训练任务对所述图神经网络进行关注内容对应的表头单元格和内容单元格的识别训练,
其中,所述第一训练任务和所述第二训练任务均使用交叉熵损失函数。
进一步的,所述将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,包括:
将所述表格输入预先训练好的图神经网络中,以通过所述图神经网络中的第二训练任务识别所述表格中的目标单元格;
输出所述目标单元格的内容。
根据本公开实施例的第二方面,提供一种用于表格的信息提取的图神经网络的训练方法,包括:
获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
根据本公开实施例的第三方面,提供一种表格的信息提取系统,包括:
获取模块,用于获得待进行信息提取的表格;
提取模块,用于将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,
其中,所述图神经网络是基于如下方式预先训练好的:
获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
根据本公开实施例的第四方面,提供一种用于表格的信息提取的图神经网络的训练系统,包括:
标注模块,用于获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
构图模块,用于根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
训练模块,基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
根据本公开实施例的第五方面,提供一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现根据第一方面中任一所述的表格的信息提取方法。
根据本公开实施例的第六方面,提供一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行根据第一方面中任一项表格的信息提取方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由移动终端的处理器执行时,使得移动终端能够执行根据第一方面中任一项表格的信息提取方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过预训练的图神经网络来提取待进行信息提取的表格,可以在规则及不规则表格条件下,准确提取指定内容信息,且预训练的图神经网络的训练规则较为简单,且能够应对复杂多样的表格结构,在应对复杂多样的表格结构时,提取表格中的目标信息准确率也较高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种表格的信息提取方法的流程图。
图2是根据一示例性实施例示出的一种表格的信息提取系统的框图。
图3是根据一示例性实施例示出的一种用于表格的信息提取的图神经网络的训练方法的流程图。
图4是根据一示例性实施例示出的一种用于表格的信息提取的图神经网络的训练系统的框图。
图5是根据一示例性实施例示出的一种表格样本示意图。
图6是根据一示例性实施例示出的一种根据表格样本生成的图结构示意图。
图7是根据一示例性实施例示出一种电子设备的内部结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种表格的信息提取方法的流程图,如图1所示,包括:
在步骤S101中,获得待进行信息提取的表格。
具体的,用户通过自身的需求,将需要进行信息提取的表格进行上传,来获取待进行信息提取的表格,以便进行后续的信息提取。
在步骤S102中,将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,
其中,所述图神经网络是基于如下方式预先训练好的:
获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
具体的,将步骤S101获取的待进行信息提取的表格输入到预训练的图神经网络中,通过图神经网络从所述表格中提取的目标单元格中的内容。其中,图神经网络是通过如下方式训练获取的,如图2所示的示出的一种用于表格的信息提取的图神经网络的训练方法的流程图,包括:
在步骤S201中,获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类。
具体的,通过使用开发好的标注工具对表格样本中的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类。结合具体实施例,如图5所示,对表头单元格和内容单元格进行标注分类,具体标注了,项目名称、绿化工程,将关注内容对应的表头单元格和内容单元格进行标注分类,具体标注了,承包公司、公司名称、张三有限公司。
在步骤S202中,根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征。
具体的,通过标注好的表格样本的表结构形成多个节点,通过多个节点构造出图结构,而每个节点对应表头单元格或内容单元格,并根据表结构、每个节点对应的表头单元格或内容单元格的内容,得到图结构的节点特征和边特征。
在一些实施例中,所述根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征,包括:
获得所述表格样本的表结构,其中,所述表结构包括所述表格样本的表头单元格和内容单元格所对应的行和列、以及表头单元格和内容单元格之间的位置关系;
根据所述表格样本的表头单元格和内容单元格所对应的行和列、以及表头单元格和内容单元格之间的位置关系,构造所述图结构;
根据所述表格样本的表头单元格和内容单元格所对应的行和列、以及所述表头单元格和内容单元格的内容,得到对应节点的节点特征;
根据所述表头单元格和内容单元格之间的位置关系得到所述边特征。
具体的,以图5为例,获取图5的表结构,则获取表格样本的表结构,包括表头单元格和内容单元格所对应的行和列、以及表头单元格和内容单元格之间的位置关系,以图5的前四行为例,(1,1)项目名称、(1,2)绿化工程、(2,1)项目时间、(2,2)一年、(3,1)项目预算、(3,2)、300万、(4,1)项目负责人、(4,2)张三,通过上述位置关系及表格内容得到节点特征,1(1,1)项目名称、2(1,2)绿化工程、3(2,1)项目时间、4(2,2)一年、5(3,1)项目预算、6(3,2)、300万、7(4,1)项目负责人、8(4,2)张三,通过头单元格和内容单元格之间的位置关系得到边特征,根据节点特征以及边特征,构造图结构,具体如图6所示。
在步骤S203中,基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
具体的,以图6为例,通过生成的图结构以及设置的训练任务,来训练图神经网络,从而使得训练的图神经网络能够去识别表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,且在设置训练任务时是通过交叉熵损失函数进行的,能够使得训练的图神经网络能够稳定并准确的提取指定表格中的内容信息。
在一些实施例中,所述基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的,包括:
获得所述训练任务,其中,所述训练任务包括第一训练任务和第二训练任务;
基于所述第一训练任务对所述图神经网络进行表格样本中的表头单元格的识别训练;
基于所述第二训练任务对所述图神经网络进行关注内容对应的表头单元格和内容单元格的识别训练,
其中,所述第一训练任务和所述第二训练任务均使用交叉熵损失函数。
具体的,在训练图神经网络模型时,通过设置两个训练任务来进行模型训练,一个是通过对图结构中代表表格样本的表头单元格的识别训练,另一个任务是通过对图结构中代表关注内容对应的表头单元格和内容单元格的识别训练,且第一训练任务和第二训练任务均采用交叉熵损失函数,通过上述布置的两个训练任务使得训练出的图神经网络模型能够准确获取所以提取的表格信息。
在一些实施例中,所述将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,包括:
将所述表格输入预先训练好的图神经网络中,以通过所述图神经网络中的第二训练任务识别所述表格中的目标单元格;
输出所述目标单元格的内容。
具体的,在进行实际提取目标单元格时,将表格输入到图神经网络中,图神经网络通过第二训练任务识别表格中的目标单元格,使得输出单元格的内容是目标单元格的内容。
图2是根据一示例性实施例示出的一种表格的信息提取系统框图。参照图2,该系统包括获取模块201,提取模块202,其中:
获取模块201,用于获得待进行信息提取的表格;
提取模块202,用于将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,
其中,所述图神经网络是基于如下方式预先训练好的:
获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
综上,本申请提供的一种表格的信息提取系统,实现了通过预训练的图神经网络来提取待进行信息提取的表格,可以在规则及不规则表格条件下,准确提取指定内容信息,且预训练的图神经网络的训练规则较为简单,且能够应对复杂多样的表格结构,在应对复杂多样的表格结构时,提取表格中的目标信息准确率也较高。
关于表格的信息提取系统的具体限定可以参见上文中对于表格的信息提取方法的限定,在此不再赘述。上述表格的信息提取系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图4是根据一示例性实施例示出的一种用于表格的信息提取的图神经网络的训练系统框图。参照图4,该系统包括标注模块301,构图模块302,训练模块303,其中:
标注模块301,用于获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
构图模块302,用于根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
训练模块303,基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
关于用于表格的信息提取的图神经网络的训练系统的具体限定可以参见上文中对于用于表格的信息提取的图神经网络的训练方法的限定,在此不再赘述。上述表格的信息提取系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种图像的去噪方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的表格的信息提取系统可以实现为一种计算机程序的形式,计算机程序可在如图7所示的电子设备上运行。电子设备的存储器中可存储组成该表格的信息提取系统的各个程序模块,比如,图2所示的获取模块201、提取模块202。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的一种表格的信息提取方法中的步骤。
例如,图7所示的电子设备可以通过如图2所示的表格的信息提取系统中的获取模块201,用于获得待进行信息提取的表格;提取模块202,用于将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,其中,所述图神经网络是基于如下方式预先训练好的:获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
本申请提供的电子设备通过存储器和处理器可以打开表格的信息提取系统中的各个模块,实现了通过预训练的图神经网络来提取待进行信息提取的表格,可以在规则及不规则表格条件下,准确提取指定内容信息,且预训练的图神经网络的训练规则较为简单,且能够应对复杂多样的表格结构,在应对复杂多样的表格结构时,提取表格中的目标信息准确率也较高。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获得待进行信息提取的表格;将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,其中,所述图神经网络是基于如下方式预先训练好的:获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
本申请提供的非临时性计算机可读存储介质通过存储介质中的指令可以执行上述实施例中的一种表格的信息提取方法,实现了通过预训练的图神经网络来提取待进行信息提取的表格,可以在规则及不规则表格条件下,准确提取指定内容信息,且预训练的图神经网络的训练规则较为简单,且能够应对复杂多样的表格结构,在应对复杂多样的表格结构时,提取表格中的目标信息准确率也较高。
在一个实施例中,提供了一种计算机程序产品,当计算机程序产品中的指令由移动终端的处理器执行时,使得移动终端能够执行以下步骤响应表格的信息提取请求,获得待进行信息提取的表格;将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,其中,所述图神经网络是基于如下方式预先训练好的:获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
本申请提供的计算机程序产品可以使移动终端执行上述实施例中的表格的信息提取方法,实现了通过预训练的图神经网络来提取待进行信息提取的表格,可以在规则及不规则表格条件下,准确提取指定内容信息,且预训练的图神经网络的训练规则较为简单,且能够应对复杂多样的表格结构,在应对复杂多样的表格结构时,提取表格中的目标信息准确率也较高。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,比如静态随机存取存储器(Static Random Access Memory,SRAM)和动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种表格的信息提取方法,其特征在于,包括:
获得待进行信息提取的表格;
将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,
其中,所述图神经网络是基于如下方式预先训练好的:
获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
2.根据权利要求1所述的表格的信息提取方法,其特征在于,所述根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征,包括:
获得所述表格样本的表结构,其中,所述表结构包括所述表格样本的表头单元格和内容单元格所对应的行和列、以及表头单元格和内容单元格之间的位置关系;
根据所述表格样本的表头单元格和内容单元格所对应的行和列、以及表头单元格和内容单元格之间的位置关系,构造所述图结构;
根据所述表格样本的表头单元格和内容单元格所对应的行和列、以及所述表头单元格和内容单元格的内容,得到对应节点的节点特征;
根据所述表头单元格和内容单元格之间的位置关系得到所述边特征。
3.根据权利要求1或2所述的表格的信息提取方法,其特征在于,所述基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的,包括:
获得所述训练任务,其中,所述训练任务包括第一训练任务和第二训练任务;
基于所述第一训练任务对所述图神经网络进行表格样本中的表头单元格的识别训练;
基于所述第二训练任务对所述图神经网络进行关注内容对应的表头单元格和内容单元格的识别训练,
其中,所述第一训练任务和所述第二训练任务均使用交叉熵损失函数。
4.根据权利要求3所述的表格的信息提取方法,其特征在于,所述将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,包括:
将所述表格输入预先训练好的图神经网络中,以通过所述图神经网络中的第二训练任务识别所述表格中的目标单元格;
输出所述目标单元格的内容。
5.一种用于表格的信息提取的图神经网络的训练方法,其特征在于,包括:
获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
6.一种表格的信息提取系统,其特征在于,包括:
获取模块,用于获得待进行信息提取的表格;
提取模块,用于将所述表格输入预先训练好的图神经网络中,得到所述图神经网络从所述表格中提取的目标单元格中的内容,
其中,所述图神经网络是基于如下方式预先训练好的:
获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
7.一种用于表格的信息提取的图神经网络的训练系统,其特征在于,包括:
标注模块,用于获得表格样本,并根据所述表格样本的表头单元格和内容单元格进行标注分类,以及将关注内容对应的表头单元格和内容单元格进行标注分类;
构图模块,用于根据标注好的所述表格样本的表结构构造图结构,其中,所述图结构包括多个节点,每个节点对应一个表头单元格或内容单元格,并根据所述表结构、每个节点对应的表头单元格或内容单元格的内容,得到所述图结构的节点特征和边特征;
训练模块,基于所述图结构以及训练任务训练所述图神经网络,其中,所述训练任务包括识别所述表格样本中的表头单元格、识别关注内容对应的表头单元格和内容单元格,其中,所述训练任务是基于交叉熵损失函数进行的。
8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现根据权利要求1-4中任一所述的表格的信息提取方法。
9.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行根据权利要求1-4中任一项表格的信息提取方法。
10.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由移动终端的处理器执行时,使得移动终端能够执行根据权利要求1-4中任一项表格的信息提取方法。
CN202210387989.0A 2022-04-14 2022-04-14 表格的信息提取方法、系统、设备、介质及程序产品 Active CN114495140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210387989.0A CN114495140B (zh) 2022-04-14 2022-04-14 表格的信息提取方法、系统、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210387989.0A CN114495140B (zh) 2022-04-14 2022-04-14 表格的信息提取方法、系统、设备、介质及程序产品

Publications (2)

Publication Number Publication Date
CN114495140A CN114495140A (zh) 2022-05-13
CN114495140B true CN114495140B (zh) 2022-07-12

Family

ID=81487511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210387989.0A Active CN114495140B (zh) 2022-04-14 2022-04-14 表格的信息提取方法、系统、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN114495140B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287854A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN112541332A (zh) * 2020-12-08 2021-03-23 北京百度网讯科技有限公司 表单信息抽取方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020254924A1 (en) * 2019-06-16 2020-12-24 Way2Vat Ltd. Systems and methods for document image analysis with cardinal graph convolutional networks
US11087123B2 (en) * 2019-08-24 2021-08-10 Kira Inc. Text extraction, in particular table extraction from electronic documents
CN112381010A (zh) * 2020-11-17 2021-02-19 深圳壹账通智能科技有限公司 表格结构的还原方法、系统、计算机设备及存储介质
CN113239818B (zh) * 2021-05-18 2023-05-30 上海交通大学 基于分割和图卷积神经网络的表格跨模态信息提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287854A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN112541332A (zh) * 2020-12-08 2021-03-23 北京百度网讯科技有限公司 表单信息抽取方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Rethinking Table Recognition using Graph Neural Networks》;Shah Rukh Qasim,et al;《arxiv:1905.13391v2》;20190703;第1-6页 *
《基于图卷积网络的表格结构提取》;李一仁 等;《学术研究》;20210120;第三节 *
《基于深度学习的表格检测识别算法综述》;孔令军,等;《计算机与网络》;20211231;第65-73页 *

Also Published As

Publication number Publication date
CN114495140A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN109871532B (zh) 文本主题提取方法、装置及存储介质
KR102260554B1 (ko) 학습 컨텐츠 생성 방법
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
WO2020077824A1 (zh) 异常问题的定位方法、装置、设备及存储介质
CN109766438A (zh) 简历信息提取方法、装置、计算机设备和存储介质
CN110704626B (zh) 一种用于短文本的分类方法及装置
CN109284372B (zh) 用户操作行为分析方法、电子装置及计算机可读存储介质
CN109783604B (zh) 基于少量样本的信息提取方法、装置和计算机设备
CN107767259A (zh) 贷款风险控制方法、电子装置及可读存储介质
CN112863683B (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN109033798B (zh) 一种基于语义的点选验证码识别方法及其装置
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN109086377B (zh) 设备画像的生成方法、装置及计算设备
CN111611797A (zh) 基于Albert模型的预测数据标注的方法、装置及设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN107168635A (zh) 信息呈现方法和装置
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
CN113641767A (zh) 实体关系抽取方法、装置、设备及存储介质
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN114495140B (zh) 表格的信息提取方法、系统、设备、介质及程序产品
CN106294292B (zh) 章节目录筛选方法及装置
WO2019028249A1 (en) AUTOMATED REPORT SYSTEM
CN110110280B (zh) 对坐标的曲线积分计算方法、装置、设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant