CN113723278B - 表格信息提取模型的训练方法及装置 - Google Patents

表格信息提取模型的训练方法及装置 Download PDF

Info

Publication number
CN113723278B
CN113723278B CN202111000445.6A CN202111000445A CN113723278B CN 113723278 B CN113723278 B CN 113723278B CN 202111000445 A CN202111000445 A CN 202111000445A CN 113723278 B CN113723278 B CN 113723278B
Authority
CN
China
Prior art keywords
cells
cell
feature vector
text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111000445.6A
Other languages
English (en)
Other versions
CN113723278A (zh
Inventor
李彦达
郝东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Original Assignee
Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd filed Critical Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority to CN202111000445.6A priority Critical patent/CN113723278B/zh
Publication of CN113723278A publication Critical patent/CN113723278A/zh
Application granted granted Critical
Publication of CN113723278B publication Critical patent/CN113723278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种表格信息提取模型的训练方法,包括:对表格语料的单元格进行处理,得到单元格的特征向量;根据单元格的位置信息计算邻接矩阵,对单元格的特征向量和邻接矩阵进行特征抽取,得到单元格的高阶特征向量;利用高阶特征向量预测单元格的原始文本,并利用单元格的文本进行模型训练,得到表格语言模型;利用当前表格信息提取任务对应的训练样本对表格语言模型进行训练,得到表格信息提取模型。针对每个不同的表格提取任务,只需要在已训练好的表格语言模型的基础上,利用不同任务对应的少量的训练样本训练得到相应的表格信息提取模型,每次训练都无需再对表格语言模型进行训练,明显减少了训练时间和训练样本。

Description

表格信息提取模型的训练方法及装置
技术领域
本申请涉及人工智能技术领域,具体涉及一种表格信息提取模型的训练方法及装置。
背景技术
随着信息化技术的日益普及,从表格中提取信息的需求也日益突出。目前,主要是利用规则算法从表格中提取信息。然而,由于规则算法缺乏泛化性,针对每种类型的表格以及不同的提取需求都需要重新开发对应的规则算法,不仅使得开发任务重,算法重复利用价值低,还导致不同的提取任务适应性较差,表格信息的提取效率低。
发明内容
本申请提供一种表格信息提取模型的训练方法及装置,以解决现有技术中的一个或多个技术问题。
本实施例提供一种表格信息提取模型的训练方法,包括:
对表格语料的单元格进行处理,得到单元格的特征向量;
根据单元格的位置信息计算邻接矩阵,对所述单元格的特征向量和所述邻接矩阵进行特征抽取,得到单元格的高阶特征向量;
利用所述高阶特征向量预测单元格的原始文本,并利用所述单元格的文本进行模型训练,得到表格语言模型;
利用当前表格类型提取任务对应的训练样本对所述表格语言模型进行训练,得到表格信息提取模型。
在一种实施方式中,所述根据表格语料的单元格进行处理,得到单元格的特征向量,包括:
对所述表格语料的单元格进行掩码,得到单元格的掩码文本;
对所述掩码文本进行编码,得到单元格的文本特征向量序列;
对所述文本特征向量序列进行特征融合,得到单元格的文本特征向量;
根据单元格的行信息和列信息,得到单元格的行特征向量和列特征向量;
对所述文本特征向量、所述行特征向量和所述列特征向量,进行特征融合,得到单元格的特征向量。
在一种实施方式中,所述根据单元格的位置信息计算邻接矩阵,包括:
根据所述单元格的位置信息,获取与所述单元格同行的单元格,以及同列的单元格;
根据所述单元格与所述同行的单元格之间的信息交互,计算所述同行的单元格对应的权重;
根据所述单元格与所述同列的单元格之间的信息交互,计算所述同列的单元格对应的权重;
根据所述同行的单元格对应的权重和所述同列的单元格对应的权重,构建所述邻接矩阵。
在一种实施方式中,所述对所述单元格的特征向量和所述邻接矩阵进行特征抽取,得到单元格的高阶特征向量,包括:
按照所述邻接矩阵,所述单元格的特征向量分别与所述同行的单元格的特征向量,及所述同列单元格的特征向量进行融合,得到所述高阶特征向量。
在一种实施方式中,所述利用所述高阶特征向量预测单元格的原始文本,包括:
以所述高阶特征向量作为初始向量,对所述单元格的掩码文本进行解码,得到所述单元格的原始文本。
在一种实施方式中,还包括:
将新的表格输入至所述表格信息提取模型中,输出表格信息提取结果;
当所述结果大于阈值,则成功提取出所述当前表格类型提取任务对应的表格信息,否则,提取失败。
第二方面,本实施方式提供了一种表格信息提取模型的训练装置,包括:
特征向量计算模块,用于根据表格语料的单元格进行处理,得到单元格的特征向量;
高阶向量计算模块,用于根据单元格的位置信息计算邻接矩阵,对所述单元格的特征向量和所述邻接矩阵进行特征抽取,得到单元格的高阶特征向量;
表格语言模型训练模块,用于利用所述高阶特征向量预测单元格的原始文本,并利用所述单元格的文本进行模型训练,得到表格语言模型;
表格信息提取模型训练模块,用于利用当前表格信息提取任务对应的训练样本对所述表格语言模型进行训练,得到表格信息提取模型。
在一种实施方式中,所述特征向量计算模块,包括:
单元格掩码子模块,用于对所述表格语料的单元格进行掩码,得到单元格的掩码文本;
掩码文本编码子模块,用于对所述掩码文本进行编码,得到单元格的文本特征向量序列;
文本特征向量生成模块,用于对所述文本特征向量序列进行特征融合,得到单元格的文本特征向量;
行列特征向量生成子模块,用于根据单元格的行信息和列信息,得到单元格的行特征向量和列特征向量;
单元格特征向量生成向量,用于对所述文本特征向量、所述行特征向量和所述列特征向量,进行特征融合,得到单元格的特征向量。
在一种实施方式中,所述高阶向量计算模块,包括:
同行列单元格确认子模块,用于根据所述单元格的位置信息,获取与所述单元格同行的单元格,以及同列的单元格;
同行权重计算子模块,用于根据所述单元格与所述同行的单元格之间的信息交互,计算所述同行的单元格对应的权重;
同列权重计算子模块,用于根据所述单元格与所述同列的单元格之间的信息交互,计算所述同列的单元格对应的权重;
邻接矩阵构建子模块,用于根据所述同行的单元格对应的权重和所述同列的单元格对应的权重,构建所述邻接矩阵。
在一种实施方式中,所述高阶向量计算模块,包括:
高阶特征向量生成子模块,用于按照所述邻接矩阵,所述单元格的特征向量分别与所述同行的单元格的特征向量,及所述同列单元格的特征向量进行融合,得到所述高阶特征向量。
在一种实施方式中,所述表格语言模型训练模块,包括:
单元格原始文本生成子模块,用于以所述高阶特征向量作为初始向量,对所述单元格的掩码文本进行解码,得到所述单元格的原始文本。
在一种实施方式中,还包括:
表格信息提取模块,用于将新的表格输入至所述表格信息提取模型中,输出表格信息提取结果;当所述结果大于阈值,则成功提取出所述当前表格类型提取任务对应的表格信息,否则,提取失败。
第三方面,提供一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
第四方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行上述任一项所述的方法。
本申请采用上述技术方案,具有如下优点:在对大量表格语料的单元格进行处理,得到单元格的特征向量,同时还根据单元格的位置信息得到邻接矩阵,对单元格的特征向量和邻接矩阵进行特征抽取得到单元格的高阶特征向量,利用高阶特征向量预测的单元格的文本训练表格语言模型,使得表格语言模型学习到了单元格的高阶特征,该特征具有泛化性,适用于各类表格信息提取任务,可以反复使用。当需要对特定表格信息进行提取时,仅需针对具体任务特点,对表格语言模型进行针对性训练,在少量样本上进行微调训练即可得到适用于该特定表格信息提取任务的深度学习模型,从而实现了泛化性好、可重复利用、迭代效率高。
针对每个不同的表格提取任务,只需要在已训练好的表格语言模型的基础上,利用不同任务对应的少量的训练样本训练得到相应的表格信息提取模型,相比现有技术,每次训练都无需再对表格语言模型进行训练,明显减少了训练时间和训练样本。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1绘示本申请实施例提供的一种表格信息提取模型的训练方法示意图;
图2绘示本申请实施例提供的具体的一种表格信息提取模型的训练方法示意图;
图3绘示本申请实施例提供的一种表格信息提取模型的训练装置结构示意图;
图4绘示用来实现本申请实施例的一种表格信息提取模型的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本实施例提供一种表格信息提取模型的训练方法,包括:
步骤S110:对表格语料的单元格进行处理,得到单元格的特征向量;
步骤S120:根据单元格的位置信息计算邻接矩阵,对单元格的特征向量和邻接矩阵进行特征抽取,得到单元格的高阶特征向量;
步骤S130:利用高阶特征向量预测单元格的文本,并利用单元格的文本进行模型训练,得到表格语言模型;
步骤S140:利用当前表格信息提取任务对应的训练样本对表格语言模型进行训练,得到表格信息提取模型。
一种示例中,如图2所示,为了使表格语言模型模型能够准确学习到表格中通用的规律,在大量的表格上,对表格语言模型模型进行的大量训练。首先,构造表格语言模型的训练样本:对表格进行预处理,按照一定比例或随机的方式对表格语料的单元格进行掩码,得到训练样本;可以通过通用自然语言特征抽取算法对训练样本进行编码,提取通用的自然语言特征,得到单元格的文本特征向量序列;对文本特征向量序列进行特征融合,得到单元格的文本特征向量;根据单元格的行信息和列信息,得到单元格的行特征向量和列特征向量;对文本特征向量、行特征向量和列特征向量,进行特征融合,得到单元格的特征向量。需要指出的是,对于表格语料中的每个单元格进行上述处理,还是对部分需要的单元格进行处理,并不做具体限定。
邻接矩阵表达单元格与单元格之间的信息交互情况以及信息交互的权重。获取单元格的位置信息,例如单元格的和行和列,两个单元格只要有共同的行或共同的列即认为这两个单元格是同行或同列。根据同行的单元格对应的权重和同列的单元格对应的权重,构建邻接矩阵。邻接矩阵的设置方式包括但不限于如下方法:将同行或同列的单元格对应的矩阵元素设置为1,其他设置为0。对单元格的特征向量和邻接矩阵输入至特征抽取模块进行特征抽取,得到单元格的高阶特征向量。特征抽取模块包括但不限于transfbrmer结构、LSTM结构等。以高阶特征向量作为初始向量,对单元格的掩码文本进行解码,得到单元格的文本。并利用单元格的文本进行模型训练,得到表格语言模型。
为使表格语言模型能够在特定领域中完成相应的任务,在该领域样本上进行少量训练,即利用当前表格信息提取任务对应的训练样本对表格语言模型进行训练,得到表格信息提取模型。新的任务对应的新的表格输入至表格信息提取模型中,输出表格信息提取结果;当结果大于阈值,则成功提取出当前表格信息提取任务对应的表格信息,否则,提取失败。
在本实施方式中,在大量表格语料上训练后的表格语言模型学习到了表格的通用特征,该特征具有泛化性,适用于各类表格信息提取任务,可以反复使用。当需要对表格信息进行提取时,仅需针对具体任务特点,对表格语言模型进行针对性训练,在少量样本上进行微调训练即可得到适用于特定表格信息提取任务的深度学习模型,从而实现了泛化性好、可重复利用、迭代效率高。
针对每个不同的表格提取任务,只需要在已训练好的表格语言模型的基础上,利用不同任务对应的少量的训练样本训练得到相应的表格信息提取模型,相比现有技术,每次训练都无需再对表格语言模型进行训练,明显减少了训练时间和训练样本。
在一种实施方式中,步骤S110,包括:
步骤S111:对表格语料的单元格进行掩码,得到单元格的掩码文本;
步骤S112:对掩码文本进行编码,得到单元格的文本特征向量序列;
步骤S113:对文本特征向量序列进行特征融合,得到单元格的文本特征向量;
步骤S114:根据单元格的行信息和列信息,得到单元格的行特征向量和列特征向量;
步骤S115:对文本特征向量、行特征向量和列特征向量,进行特征融合,得到单元格的特征向量。
一种示例中,通过通用自然语言特征抽取算法对掩码文本进行编码,例如,可以利用transformer模型的编码结构对单元格特征向量进行编码。通用自然语言特征抽取算法包括但不限于BERT、XLNET、RoBERTa等。
对单元格的文本特征向量序列进行特征融合,得到单元格文本的特征向量。特征向量融合方法包括但不限于向量平均、向量相加、基于注意力机制的向量加权平均等。
根据单元格的行信息从行嵌入矩阵中获得单元格的行特征向量。根据单元格的列信息从列嵌入矩阵中获得单元格的列特征向量。通过对单元格的文本特征向量、行特征向量和列特征向量进行特征融合可以得到单元格的特征向量。
现有的TAPAS算法是以字为粒度,模型编码过程中的计算量较大,使得TAPAS算法不适用于大表格。本实施例将单元格内的文本特征进行融合,大大减小了模型编码过程中的计算量,从而使得本算法可以应用于大的表格。
在一种实施方式中,步骤S120,根据单元格的位置信息计算邻接矩阵,包括:
步骤S121:根据单元格的位置信息,获取与单元格同行的单元格,以及同列的单元格;
步骤S122:根据单元格与同行的单元格之间的信息交互,计算同行的单元格对应的权重;
步骤S123:根据单元格与同列的单元格之间的信息交互,计算同列的单元格对应的权重;
步骤S124:根据同行的单元格对应的权重和同列的单元格对应的权重,构建邻接矩阵。
一种示例中,邻接矩阵反应了表格中哪些单元格之间可以进行信息交互,以及信息交互的权重。例如,第三行第四列的表格为第一单元格,与第一单元格同行的其他表格有十个,与第一单元格同列的其他表格有九个,根据第一单元格和同行同列的其他单元格之间的信息交互,可以得到对应的权重均为1。例如,与第一单元格同行的十个单元格,从左至右的权重均是1、1,与第一表格同列的九个单元格,从上到下的权重均是1,非同行同列的权重为0,将全部单元格的权重进行排列,得到邻接矩阵。
在一种实施方式中,步骤S120,对单元格的特征向量和邻接矩阵进行特征抽取,得到单元格的高阶特征向量,包括:
步骤S125:按照邻接矩阵,单元格的特征向量分别与同行的单元格的特征向量,及同列单元格的特征向量进行融合,得到高阶特征向量。
一种示例中,第一单元格的特征向量分别与同行同列的其他单元格进行特征向量融合,融合之后的向量进行权重相加,得到第一单元格的高阶特征向量。
在一种实施方式中,步骤S130,利用高阶特征向量预测单元格的原始文本,包括:
以高阶特征向量作为初始向量,对单元格的掩码文本进行解码,得到单元格的原始文本。
一种示例中,利用decode方法,以高阶特征向量为初始向量对掩码单元格进行解码,预测掩码前单元格的原始文本。以掩码前单元格的原始文本为标签,计算预测单元格概率分布对应的损失,并进行反向传播,计算模型参数的梯度,并进行模型参数更新。
在一种实施方式中,还包括:
将新的表格输入至表格信息提取模型中,输出表格信息提取结果;
当结果大于阈值,则成功提取出当前表格信息提取任务对应的表格信息,否则,提取失败。
一种示例中,不同任务的新的表格输入至已经训练好的表格信息提取模型中,当结果大于阈值,则成功提取出当前表格信息提取任务对应的表格信息,否则,提取失败。无需针对每种类型的表格以及不同的提取需求重新开发规则算法,开发任务轻。
另一种具体实施方式中,如图3所示,提供了一种表格信息提取模型的训练装置,包括:
特征向量计算模块110,用于对表格语料的单元格进行处理,得到单元格的特征向量;
高阶向量计算模块120,用于根据单元格的位置信息计算邻接矩阵,对单元格的特征向量和邻接矩阵进行特征抽取,得到单元格的高阶特征向量;
表格语言模型训练模块130,用于利用高阶特征向量预测单元格的原始文本,并利用单元格的文本进行模型训练,得到表格语言模型;
表格信息提取模型训练模块140,用于利用当前表格信息提取任务对应的训练样本对表格语言模型进行训练,得到表格信息提取模型。
在一种实施方式中,特征向量计算模块110,包括:
单元格掩码子模块,用于对表格语料的单元格进行掩码,得到单元格的掩码文本;
掩码文本编码子模块,用于对掩码文本进行编码,得到单元格的文本特征向量序列;
文本特征向量生成模块,用于对文本特征向量序列进行特征融合,得到单元格的文本特征向量;
行列特征向量生成子模块,用于根据单元格的行信息和列信息,得到单元格的行特征向量和列特征向量;
单元格特征向量生成向量,用于对文本特征向量、行特征向量和列特征向量,进行特征融合,得到单元格的特征向量。
在一种实施方式中,高阶向量计算模块120,包括:
同行列单元格确认子模块,用于根据单元格的位置信息,获取与单元格同行的单元格,以及同列的单元格;
同行权重计算子模块,用于根据单元格与同行的单元格之间的信息交互,计算同行的单元格对应的权重;
同列权重计算子模块,用于根据单元格与同列的单元格之间的信息交互,计算同列的单元格对应的权重;
邻接矩阵构建子模块,用于根据同行的单元格对应的权重和同列的单元格对应的权重,构建邻接矩阵。
在一种实施方式中,高阶向量计算模块120,包括:
高阶特征向量生成子模块,用于按照邻接矩阵,单元格的特征向量分别与同行的单元格的特征向量,及同列单元格的特征向量进行融合,得到高阶特征向量。
在一种实施方式中,表格语言模型训练模块130,包括:
单元格原始文本生成子模块,用于以高阶特征向量作为初始向量,对单元格的掩码文本进行解码,得到单元格的原始文本。
在一种实施方式中,还包括:
表格信息提取模块,用于将新的表格输入至表格信息提取模型中,输出表格信息提取结果;当结果大于阈值,则成功提取出当前表格信息提取任务对应的表格信息,否则,提取失败。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是根据本申请实施例的一种表格信息提取模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface,GUI)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的一种表格信息提取模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的一种表格信息提取模型的训练方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的一种表格信息提取模型的训练方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的一种神经网络模型的多算子运算方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种神经网络模型的多算子运算方法的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至上述电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与上述电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(Liquid Cr4stal Displa4,LCD)、发光二极管(Light Emitting Diode,LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits,ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(programmable logic device,PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode Ray Tube,阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (12)

1.一种表格信息提取模型的训练方法,其特征在于,包括:
对表格语料的单元格进行处理,得到单元格的特征向量;包括对所述表格语料的单元格进行掩码,得到单元格的掩码文本;对所述掩码文本进行编码,得到单元格的文本特征向量序列;对所述文本特征向量序列进行特征融合,得到单元格的文本特征向量;根据单元格的行信息和列信息,得到单元格的行特征向量和列特征向量;对所述文本特征向量、所述行特征向量和所述列特征向量,进行特征融合,得到单元格的特征向量;
根据单元格的位置信息计算邻接矩阵,对所述单元格的特征向量和所述邻接矩阵进行特征抽取,得到单元格的高阶特征向量;
利用所述高阶特征向量预测单元格的文本,并利用所述单元格的文本进行模型训练,得到表格语言模型;
利用当前表格信息提取任务对应的训练样本对所述表格语言模型进行训练,得到表格信息提取模型。
2.根据权利要求1所述的方法,其特征在于,所述根据单元格的位置信息计算邻接矩阵,包括:
根据所述单元格的位置信息,获取与所述单元格同行的单元格,以及同列的单元格;
根据所述单元格与所述同行的单元格之间的信息交互,计算所述同行的单元格对应的权重;
根据所述单元格与所述同列的单元格之间的信息交互,计算所述同列的单元格对应的权重;
根据所述同行的单元格对应的权重和所述同列的单元格对应的权重,构建所述邻接矩阵。
3.根据权利要求2所述的方法,其特征在于,所述对所述单元格的特征向量和所述邻接矩阵进行特征抽取,得到单元格的高阶特征向量,包括:
按照所述邻接矩阵,所述单元格的特征向量分别与所述同行的单元格的特征向量,及所述同列单元格的特征向量进行融合,得到所述高阶特征向量。
4.根据权利要求1所述的方法,其特征在于,所述利用所述高阶特征向量预测单元格的原始文本,包括:
以所述高阶特征向量作为初始向量,对所述单元格的掩码文本进行解码,得到所述单元格的原始文本。
5.根据权利要求1所述的方法,其特征在于,还包括:
将新的表格输入至所述表格信息提取模型中,输出表格信息提取结果;
当所述结果大于阈值,则成功提取出所述当前表格信息提取任务对应的表格信息,否则,提取失败。
6.一种表格信息提取模型的训练装置,其特征在于,包括:
特征向量计算模块,用于对表格语料的单元格进行处理,得到单元格的特征向量;所述特征向量计算模块,包括,
单元格掩码子模块,用于对所述表格语料的单元格进行掩码,得到单元格的掩码文本;
掩码文本编码子模块,用于对所述掩码文本进行编码,得到单元格的文本特征向量序列;
文本特征向量生成模块,用于对所述文本特征向量序列进行特征融合,得到单元格的文本特征向量;
行列特征向量生成子模块,用于根据单元格的行信息和列信息,得到单元格的行特征向量和列特征向量;
单元格特征向量生成向量,用于对所述文本特征向量、所述行特征向量和所述列特征向量,进行特征融合,得到单元格的特征向量;
高阶向量计算模块,用于根据单元格的位置信息计算邻接矩阵,对所述单元格的特征向量和所述邻接矩阵进行特征抽取,得到单元格的高阶特征向量;
表格语言模型训练模块,用于利用所述高阶特征向量预测单元格的原始文本,并利用所述单元格的文本进行模型训练,得到表格语言模型;
表格信息提取模型训练模块,用于利用当前表格信息提取任务对应的训练样本对所述表格语言模型进行训练,得到表格信息提取模型。
7.根据权利要求6所述的装置,其特征在于,所述高阶向量计算模块,包括:
同行列单元格确认子模块,用于根据所述单元格的位置信息,获取与所述单元格同行的单元格,以及同列的单元格;
同行权重计算子模块,用于根据所述单元格与所述同行的单元格之间的信息交互,计算所述同行的单元格对应的权重;
同列权重计算子模块,用于根据所述单元格与所述同列的单元格之间的信息交互,计算所述同列的单元格对应的权重;
邻接矩阵构建子模块,用于根据所述同行的单元格对应的权重和所述同列的单元格对应的权重,构建所述邻接矩阵。
8.根据权利要求7所述的装置,其特征在于,所述高阶向量计算模块,包括:
高阶特征向量生成子模块,用于按照所述邻接矩阵,所述单元格的特征向量分别与所述同行的单元格的特征向量,及所述同列单元格的特征向量进行融合,得到所述高阶特征向量。
9.根据权利要求6所述的装置,其特征在于,所述表格语言模型训练模块,包括:
单元格原始文本生成子模块,用于以所述高阶特征向量作为初始向量,对所述单元格的掩码文本进行解码,得到所述单元格的原始文本。
10.根据权利要求6所述的装置,其特征在于,还包括:
表格信息提取模块,用于将新的表格输入至所述表格信息提取模型中,输出表格信息提取结果;当所述结果大于阈值,则成功提取出所述当前表格类型提取任务对应的表格信息,否则,提取失败。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
CN202111000445.6A 2021-08-27 2021-08-27 表格信息提取模型的训练方法及装置 Active CN113723278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111000445.6A CN113723278B (zh) 2021-08-27 2021-08-27 表格信息提取模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111000445.6A CN113723278B (zh) 2021-08-27 2021-08-27 表格信息提取模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN113723278A CN113723278A (zh) 2021-11-30
CN113723278B true CN113723278B (zh) 2023-11-03

Family

ID=78678788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111000445.6A Active CN113723278B (zh) 2021-08-27 2021-08-27 表格信息提取模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN113723278B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595669B (zh) * 2022-03-11 2022-09-27 北京梦诚科技有限公司 一种算量表格识别方法、系统、电子设备及存储介质
CN114662482A (zh) * 2022-03-25 2022-06-24 北京感易智能科技有限公司 文本表格中答案文本的抽取方法及装置
CN115048916A (zh) * 2022-05-27 2022-09-13 北京百度网讯科技有限公司 表格的处理方法和装置
CN115983237B (zh) * 2023-03-21 2023-06-13 北京亚信数据有限公司 表格类型识别模型训练、预测及表格数据推荐方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019101133A4 (en) * 2019-09-30 2019-10-31 Bo, Yaxin MISS Fast vehicle detection using augmented dataset based on RetinaNet
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN112100426A (zh) * 2020-09-22 2020-12-18 哈尔滨工业大学(深圳) 基于视觉和文本特征的通用表格信息检索的方法与系统
CN112801010A (zh) * 2021-02-07 2021-05-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN113221181A (zh) * 2021-06-09 2021-08-06 上海交通大学 具有隐私保护的表格类信息抽取系统及方法
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003282B (zh) * 2018-07-27 2022-04-29 京东方科技集团股份有限公司 一种图像处理的方法、装置及计算机存储介质
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019101133A4 (en) * 2019-09-30 2019-10-31 Bo, Yaxin MISS Fast vehicle detection using augmented dataset based on RetinaNet
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN112100426A (zh) * 2020-09-22 2020-12-18 哈尔滨工业大学(深圳) 基于视觉和文本特征的通用表格信息检索的方法与系统
CN112801010A (zh) * 2021-02-07 2021-05-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113221181A (zh) * 2021-06-09 2021-08-06 上海交通大学 具有隐私保护的表格类信息抽取系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Longitudinal brain tumor segmentation prediction in MRI using feature and label fusion;Linmin Pei等;《Biomedical Signal Processing and Control》;全文 *
基于上下文的异构网络嵌入模型;康振声;《中国优秀博硕士学位论文全文库 (基础科学辑)》;全文 *

Also Published As

Publication number Publication date
CN113723278A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN113723278B (zh) 表格信息提取模型的训练方法及装置
CN111539223B (zh) 语言模型的训练方法、装置、电子设备及可读存储介质
CN111737994B (zh) 基于语言模型获取词向量的方法、装置、设备及存储介质
US20210201198A1 (en) Method, electronic device, and storage medium for generating node representations in heterogeneous graph
CN110633797B (zh) 网络模型结构的搜索方法、装置以及电子设备
US11573992B2 (en) Method, electronic device, and storage medium for generating relationship of events
CN111737996B (zh) 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111667056B (zh) 用于搜索模型结构的方法和装置
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
CN111144108B (zh) 情感倾向性分析模型的建模方法、装置和电子设备
US20210397791A1 (en) Language model training method, apparatus, electronic device and readable storage medium
CN111859997B (zh) 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN111737995A (zh) 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111667057A (zh) 用于搜索模型结构的方法和装置
CN111753914A (zh) 模型优化方法和装置、电子设备及存储介质
CN111832701B (zh) 模型的蒸馏方法、装置、电子设备及存储介质
CN111950293B (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
CN112580822B (zh) 机器学习模型的对抗训练方法装置、电子设备和介质
CN111914994B (zh) 多层感知机的生成方法、装置、电子设备及存储介质
CN111539224B (zh) 语义理解模型的剪枝方法、装置、电子设备和存储介质
CN112417156B (zh) 多任务学习方法、装置、设备以及存储介质
CN114492788A (zh) 训练深度学习模型的方法和装置、电子设备及存储介质
CN110569973A (zh) 网络结构的搜索方法、装置以及电子设备
CN112580723B (zh) 多模型融合方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant