CN113987112B - 表格信息抽取方法、装置、存储介质及电子设备 - Google Patents

表格信息抽取方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113987112B
CN113987112B CN202111594001.XA CN202111594001A CN113987112B CN 113987112 B CN113987112 B CN 113987112B CN 202111594001 A CN202111594001 A CN 202111594001A CN 113987112 B CN113987112 B CN 113987112B
Authority
CN
China
Prior art keywords
text
target
header
cell
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111594001.XA
Other languages
English (en)
Other versions
CN113987112A (zh
Inventor
孙勇
丁雪纯
于业达
顾文斌
罗丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hengsheng Juyuan Data Service Co ltd
Hangzhou Hengsheng Juyuan Information Technology Co ltd
Original Assignee
Shanghai Hengsheng Juyuan Data Service Co ltd
Hangzhou Hengsheng Juyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hengsheng Juyuan Data Service Co ltd, Hangzhou Hengsheng Juyuan Information Technology Co ltd filed Critical Shanghai Hengsheng Juyuan Data Service Co ltd
Priority to CN202111594001.XA priority Critical patent/CN113987112B/zh
Publication of CN113987112A publication Critical patent/CN113987112A/zh
Application granted granted Critical
Publication of CN113987112B publication Critical patent/CN113987112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种表格信息抽取方法、装置、存储介质及电子设备,对目标表格中的合并数据进行预处理,得到二维矩阵;将二维矩阵的行和/或列数据输入到表头检测模型,得到表头检测结果,并确定目标表格的表格样式;根据与表格样式对应的处理模式,生成单元格文本序列和表头文本矩阵;获得目标字段文本与表头文本序列中每一文本的匹配结果,并获得目标字段文本对应的单元格对象;基于每一目标字段文本对应的单元格对象的值序列,建立匹配结果对应的行或列的索引信息,以实现对目标单元进行信息抽取,得到抽取结果。本发明通过表头检测模型和表头文本序列的文本匹配处理更适用于复杂表格信息抽取,提升了复杂表格的信息抽取效率及准确性。

Description

表格信息抽取方法、装置、存储介质及电子设备
技术领域
本发明涉及信息处理技术领域,特别是涉及一种表格信息抽取方法、装置、存储介质及电子设备。
背景技术
伴随着数据量的增长,数据提取技术挖掘目标信息的有效手段,在形式各异的信息中,表格是文档中一种重要的数据表现形式,通常用于组织所描述对象的基本信息、统计数据等。目前表格信息抽取方式多为人工抽取方式,需要耗费大量的人力和时间成本。
虽然也有采用机器学习方法进行表格信息的抽取,但是对于信息较为复杂的表格,其抽取结果准确率不高。例如,在金融领域的表格,其具有复杂表头、多样化的公告类型和批注类型,对于每一个不同的抽取需求都需要标注数据,且标注量较大,使得降低了最终的表格信息抽取结果的准确率。
发明内容
针对于上述问题,本发明提供一种表格信息抽取方法、装置、存储介质及电子设备,实现了提升了复杂表格的信息抽取效率及准确性。
为了实现上述目的,本发明提供了如下技术方案:
一种表格信息抽取方法,包括:
对待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵;
将所述二维矩阵的行和/或列数据输入到表头检测模型,得到所述目标表格对应的行和/或列的表头检测结果;
基于所述表头检测结果,确定所述目标表格的表格样式;
根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵;
对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果;
根据所述匹配结果和所述单元格文本序列,获得目标字段文本对应的单元格对象;
基于每一目标字段文本对应的单元格对象的值序列,建立所述匹配结果对应的行或列的索引信息;
基于所述索引信息对所述目标表格进行信息抽取,得到抽取结果。
可选地,所述待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵,包括:
获取待抽取的目标表格中的具有数据合并的行,对被合并的行进行数据补充;
获取待抽取的目标表格中的具有数据合并的列,对被合并的列进行数据补充;
生成行和/或列进行数据补充后的表格对应的二维矩阵。
可选地,所述根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵,包括:
若所述表格样式为竖式,生成所述目标表格的单元格文本序列和表头文本矩阵;
若所述表格样式为横式,将所述目标表格的表头列转换为行,生成转换后的目标表格的单元格文本序列和表头文本矩阵;
若所述目标表格为目标样式,将所述目标表格的表头列转为表头行,并将两个表头列之间的列转换为表头行的内容行,生成转换后的目标表格对应的单元格文本序列和表头文本矩阵,其中,目标样式为间隔行为表头或间隔列为表头。
可选地,所述方法还包括:
获取第一训练样本,所述第一训练样本是目标领域的表格数据,且每一表格标注有对应的表头行或列;
获取第二训练样本,并基于所述第二训练样本对初始神经网络模型进行训练,得到预训练模型,所述第二训练样本为目标领域对应的文本训练集;
基于所述第一训练样本对所述预训练模型进行调整训练,得到表头检测模型。
可选地,所述方法还包括:
确定第一文本,所述第一文本为满足目标文本条件的文本;
生成与所述第一文本满足相似条件的第二文本,以及与所述第一文本不满足所述相似条件的第三文本;
根据所述第一文本、所述第二文本和所述第三文本通过预训练模型,得到与所述第一文本对应的第一向量,所述第二文本对应的第二向量以及所述第三文本对于应的第三向量;
分别计算所述第一向量和所述第二向量之间的第一余弦值,以及所述第一向量与所述第三向量之间的第二余弦值,并基于所述第一余弦值和所述第二余弦值之间的差值调整所述预训练模型,得到语义匹配模型;
其中,所述对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果,包括:
基于所述语义匹配模型对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果。
一种表格信息抽取装置,包括:
预处理单元,用于对待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵;
模型处理单元,用于将所述二维矩阵的行和/或列数据输入到表头检测模型,得到所述目标表格对应的行和/或列的表头检测结果;
确定单元,用于基于所述表头检测结果,确定所述目标表格的表格样式;
生成单元,用于根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵;
遍历单元,用于对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果;
获取单元,用于根据所述匹配结果和所述单元格文本序列,获得目标字段文本对应的单元格对象;
建立单元,用于基于每一目标字段文本对应的单元格对象的值序列,建立所述匹配结果对应的行或列的索引信息;
抽取单元,用于基于所述索引信息对所述目标表格进行信息抽取,得到抽取结果。
可选地,所述预处理单元包括:
第一补充子单元,用于获取待抽取的目标表格中的具有数据合并的行,对被合并的行进行数据补充;
第二补充子单元,用于获取待抽取的目标表格中的具有数据合并的列,对被合并的列进行数据补充;
第一生成子单元,用于生成行和/或列进行数据补充后的表格对应的二维矩阵。
可选地,所述生成单元包括:
第二生成子单元,用于若所述表格样式为竖式,生成所述目标表格的单元格文本序列和表头文本矩阵;
第三生成子单元,用于若所述表格样式为横式,将所述目标表格的表头列转换为行,生成转换后的目标表格的单元格文本序列和表头文本矩阵;
第四生成子单元,用于若所述目标表格为目标样式,将所述目标表格的表头列转为表头行,并将两个表头列之间的列转换为表头行的内容行,生成转换后的目标表格对应的单元格文本序列和表头文本矩阵,其中,目标样式为间隔行为表头或间隔列为表头。
可选地,所述装置还包括:第一模型创建单元,所述第一模型创建单元具体用于:
获取第一训练样本,所述第一训练样本是目标领域的表格数据,且每一表格标注有对应的表头行或列;
获取第二训练样本,并基于所述第二训练样本对初始神经网络模型进行训练,得到预训练模型,所述第二训练样本为目标领域对应的文本训练集;
基于所述第一训练样本对所述预训练模型进行调整训练,获得表头检测模型。
可选地,所述装置还包括:第二模型创建单元,所述第二模型创建单元具体用于:
确定第一文本,所述第一文本为满足目标文本条件的文本;
生成与所述第一文本满足相似条件的第二文本,以及与所述第一文本不满足所述相似条件的第三文本;
根据所述第一文本、所述第二文本和所述第三文本通过预训练模型,得到与所述第一文本对应的第一向量,所述第二文本对应的第二向量以及所述第三文本对于应的第三向量;
分别计算所述第一向量和所述第二相连之间的第一余弦值,以及所述第一向量与所述第三向量之间的第二余弦值,并基于所述第一余弦值和所述第二余弦值之间的差值调整所述预训练模型,得到语义匹配模型;
其中,所述遍历单元具体用于:
基于所述语义匹配模型对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果。
一种存储介质,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如上述任意一项所述的表格信息抽取方法。
一种电子设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如上述中任意一项所述的表格信息抽取方法。
相较于现有技术,本发明提供了一种表格信息抽取方法、装置、存储介质及电子设备,包括:对待抽取的目标表格中的合并数据进行预处理,得到二维矩阵;将二维矩阵的行和/或列数据输入到表头检测模型,得到表头检测结果;基于表头检测结果,确定目标表格的表格样式;根据与表格样式对应的处理模式,生成目标表格的单元格文本序列和表头文本矩阵;获得目标字段文本与表头文本序列中每一文本的匹配结果,并获得目标字段文本对应的单元格对象;基于每一目标字段文本对应的单元格对象的值序列,建立匹配结果对应的行或列的索引信息;基于索引信息对目标单元进行信息抽取,得到抽取结果。本发明通过表头检测模型和表头文本序列的文本匹配处理更适用于复杂表格信息抽取,提升了复杂表格的信息抽取效率及准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种表格信息抽取方法的流程示意图;
图2为本发明实施例提供的一种具有合并数据的表格的示意图;
图3为本发明实施例提供的一种表格补全的示意图;
图4为本发明实施例提供的一种表头检测模型的示意图;
图5为本发明实施例提供的一种应用于金融领域通用表格抽取的语义匹配模型的示意图;
图6为本发明实施例提供的一种表格信息抽取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种表格信息抽取方法,参见图1,该方法可以包括以下步骤:
S101、对待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵。
目标表格是需要进行信息抽取的表格,其可以是任意格式文档中的表格,如Word文档、PDF文档以及web文档等。对于不同类型的文档,需要先将目标表格在文档中进行提取出来,然后进行预处理,得到标准形式的表格,如,对表格中的不统一的格式进行处理,在本发明实施例中还可以是对已合并的单元格或者行、列进行数据补充,以实现能够获得完整的表格数据的目的,便于后续表格信息提取的准确性。对应的,所述待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵,包括:获取待抽取的目标表格中的具有数据合并的行,对所述行进行数据补充;获取待抽取的目标表格中的具有数据合并的列,对所述列进行数据补充;生成行和/或列进行数据补充后的表格对应的二维矩阵。请参见图2,为本申请实施例提供的一种具有合并数据的表格的示意图,在图2所示表格中,201表示一个单元格,当将该表格转换为html语言处理时,201即为html中的一个td(标准单元格元素 , html语言中的标准单元格,包含数据),该单元格合并了第一行、第二行的单元格,所以它的合并行属性为2,即rowspan=2。图2中的202表示一个表格行,即为html中的一个tr。图2中的203表示一个单元格,该单元格为合并第5、6列的第一行单元格,所以它的合并属性为2,即colspan=2。图2中的204表示一个表格列。
具体的,当将表格转换为html语言处理时,根据td(标准单元格元素 , html语言中的标准单元格,包含数据)元素的rowspan(合并行)>1则需要将合并的行补充完整,复制当前的td元素在其下一行的当前位置。根据td元素的colspan(合并列)>1则需要将合并的列补充完整,复制当前td元素插入到其后一列的当前位置。在进行上述数据补充后,生成td元素的二维矩阵。请参见图3为本申请实施例提供的表格进行补全的示意图,左侧表格为具有合并列的表格,右侧表格为列补充后的表格。
S102、将所述二维矩阵的行和/或列数据输入到表头检测模型,得到所述目标表格对应的行和/或列的表头检测结果。
由于本发明实施例中待处理的表格是复杂表格,主要应用于数据多样性的复杂应用场景中,为了能够快速准确提取表头数据,在本发明实施例中应用了表头检测模型。为了便于说明,在本发明中以应用场景为金融领域进行说明。该表头检测模型可以是金融领域表头检测模型,其中,该表头检测模型为基于训练样本进行训练得到。通过该模型判断目标表格各行是否为表头;使用表头检测模型判断表格各列是否为表头,得到表格中行列的表头检测结果。
S103、基于所述表头检测结果,确定所述目标表格的表格样式。
S104、根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵。
为了能够更准确对表格进行处理,在本申请实施例中基于表格的不同样式进行不同的处理,具体的基于表格检测结果可以确定该表格的表头所在的行或列,然后基于表格所在位置,确定表格样式。在本发明实施例中表格样式可以包括竖式、横式、目标样式(例如key-value式)。其中,竖式:如果只有行存在表头则为竖式;同时存在开始行和开始列为表头的判定为竖式,请参见表1,表1为本发明实施例提供的一种竖式表格。横式:如果只有列存在表头则为横式,请参见表2,其为本发明实施例提供的一种横式表格。key-value式:如果间隔行为表头或者间隔列为表头则为key-value式,请参见表3,其为本发明实施例提供的一种key-value式表格。进一步,根据检测结果将表格分为表头部分、表格内容部分; 根据不同表格样式对表格进行转置,统一转置为竖式表格进行抽取。
表1 竖式表格
理财产品代码 理财产品名称 币种 成立日 到期日 产品净值
XXXX6 XXXX产品 人民币 2018年4月10日 2021年4月6日 1.1816
表2 横式表格
理财产品代码 XXXX6
理财产品名称 XXXX产品
币种 人民币
成立日 2018年4月10日
到期日 2021年4月6日
产品净值 1.1816
表3 key-value式表格
募集方式 公募 销售编号 XXXX9
产品投资性质 固定收益类 产品类型 非保本浮动收益型
认购起始日 2021年1月4日 认购结束日 2021年1月10日
产品成立日 2021年1月1日 产品到期日 2021年1月1日
在一种可能的实施方式中,若所述表格样式为竖式,生成所述目标表格的单元格文本序列和表头文本矩阵;若所述表格样式为横式,将所述目标表格的表头列转换为行,生成转换后的目标表格的单元格文本序列和表头文本矩阵;若所述目标表格为目标样式,将所述目标表格的表头列转为表头行,并将两个表头列之间的列转换为表头行的内容行,生成转换后的目标表格对应的单元格文本序列和表头文本矩阵,其中,目标样式为间隔行为表头或间隔列为表头。
具体的,若表格样式为竖式,则不做处理,直接提取对应的单元格文本序列和表头文本序列。若为横式,将表头列转为行,相应的将内容列都转置为内容行。若为key-value式,将表头列转为表头行,将两个表头列之间的列转为该表头行的内容行;多个这样的表头行内容行首尾相连形成最终的表头行和内容行以使用后面的抽取方法。
根据不同的表格样式应用相应算法生成对应的单元格对象矩阵,即单元格文本序列,根据不同的表格样式生成对应的表头对象序列,即表头文本矩阵。
S105、对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果。
S106、根据所述匹配结果和所述单元格文本序列,获得目标字段文本对应的单元格对象。
在本发明实施例中通过遍历表头文本序列,使用预设的匹配方法匹配预设的目标字段文本与表头文本,得到每个字段匹配上的行号、列号,来作为匹配结果。具体的,匹配方法可以通过语义模型进行匹配。例如,金融领域通用表格抽取的语义匹配模型,应用该模型对预设文本和表头文本进行编码得到语义向量,然后计算两个向量之间的余弦值作为语义相似度。通过语义匹配可以满足表头字面相差较小但是语义相差较多的应用场景,使得提取出的字段在语义内容与实际相匹配,更准确。
对于未匹配上的字段处理,未匹配上包括:正则未匹配上、完全匹配未匹配上、模糊匹配未匹配上,相似度低于阈值未匹配上;未匹配上的字段行号和列号均为-1。根据得到的匹配结果,每个字段取到对应的单元格对象,行号列号为-1的取空值。
S107、基于每一目标字段文本对应的单元格对象的值序列,建立所述匹配结果对应的行或列的索引信息;
S108、基于所述索引信息对所述目标表格进行信息抽取,得到抽取结果。
根据上述取到的每个字段的的值序列,建立每个结果与行号、列号的索引:{行号or列号:值}。根据该索引,将不同字段行相同的组成一条数据,将每一条数据转换为json的object,最终输出object的序列即为此次抽取结果序列,即得到目标表格的抽取结果。
在本发明实施例中,金融领域通用的表头检测模型为基于预训练模型再经金融垂直领域语料微调后的预训练模型,再使用表头语料训练的分类模型即为金融领域通用表头模型;基于预训练模型再经金融垂直领域语料微调后的模型,再运用相似语料训练后的语义匹配模型,应用该模型对文本进行编码得到余弦相似度,作为语义相似度。单元格对象包括:单元格行列值,单元格所属页、是否为表头、单元格text。表头对象包括:表头文本序列、对应行号、列号、字段匹配上的表头文本下标。具体的,表格行列属性包括colspan和/或rowspan。Colspan和rowspan即为html表格标签<table>里面<td>或<th>标签中的两种特定的属性。其中, colspan其属性是设置当前单元格横跨的列数。rowspan其属性是设置当前单元格列跨的行数。行列值通常指的是需要构建的空白二维数组的行列值。例如,在某个表格中列遍历后的结果为:colspan=2、colspan=1、colspan=3,则该行进行累加计算,也就是得到空白二维数组的列值,列值=2+1+3=6;也就是相当于第一个单元格占两列,第二个单元格占一列,第三个单元格占三列。同理,若行后的遍历结果为:rowspan=2、rowspan=1、rowspan=3;则该行进行累加计算,得到空白二维数组的行值,行值=6,也就是相当于第一个单元格占两行,第二个单元格占一行,第三个单元格占三行。
在本发明实施例的一种实施方式中,还包括创建表头检测模型的过程,该过程可以包括:
获取第一训练样本,所述第一训练样本是目标领域的表格数据,且每一表格标注有对应的表头行或列;获取第二训练样本,并基于第二训练样本对初始神经网络模型进行训练,得到预训练模型,所述第二训练样本为目标领域对应的文本训练集;基于第一训练样本对预训练模型进行调整训练,获得表头检测模型。
可见,在本发明实施例中创建表头检测模型时,是先通过第二训练样本训练得到预训练模型,第二训练样本并不是仅仅局限于表格数据的训练样本,而是针对目标领域的所有关键文本信息组成的训练样本,例如,根据金融领域中语料信息组成第二训练样本。然后在利用目标领域中针对表格数据的第一训练样本对预训练模型进行调整,来获得最终的表头检测模型。
具体的,请参见图4,为本发明实施例提供的一种表头检测模型的示意图,该模型包括:
M1:基于预训练模型再经金融垂直领域语料微调后的预训练模型。
M2:分类器:判断输入文本是否为表头,输入为预训练模型对输入文本编码后的向量;
D1:金融垂直领域语料:包括年报、招股说明、募集说明书、债券公告、研报等金融领域公告和资讯;用于微调形成M1;
D2:表头语料:金融垂直领域的表格数据为语料,即表格的每行或每列作为输入的一条文本,用于训练M2形成表头检测模型。
对应的,在本发明实施例中还提供了一种语义匹配模型的创建方法,其中,该过程可以包括:
确定第一文本,所述第一文本为满足目标文本条件的文本;
生成与所述第一文本满足相似条件的第二文本,以及与所述第一文本不满足所述相似条件的第三文本;
根据所述第一文本、所述第二文本和所述第三文本通过预训练模型,得到与所述第一文本对应的第一向量,所述第二文本对应的第二向量以及所述第三文本对于应的第三向量;
分别计算所述第一向量和所述第二向量之间的第一余弦值,以及所述第一向量与所述第三向量之间的第二余弦值,并基于所述第一余弦值和所述第二余弦值之间的差值调整所述预设训练模型,得到语义匹配模型。
对应的,第一文本为满足目标文本条件的文本,如需要进行比对的文本,或者是原句。若第一文本为原句,第二文本为第一文本的相似句,可以本称为正样本,第三文本为第一文本的非相似句,可以被称为负样本,对应的相似条件可以基于实际的应用场景确定相似范围,然后以该范围得到的筛选条件。需要说明的是,在本发明实施例中调整预训练模型时,首先计算第一向量和所述第二向量之间的第一余弦值,以及所述第一向量与所述第三向量之间的第二余弦值,然后基于所述第一余弦值和所述第二余弦值之间的差值进行调整。因此,在对预训练模型的调整过程中会不断调整第三文本即负样本对应的范围,使得确定的负样本能够自适应针对模型的调整过程,从而得到的语义匹配模型更加满足实际的应用需求。
参见图5,为本发明实施例提供的一种应用于金融领域通用表格抽取的语义匹配模型的示意图,在该模型中:
senI:原句;
senN:负样本,是senI的非相似句;
M1:与图4中M1相同;
VP:senP的语义向量;
VI:senI的语义向量;
VN:senN的语义向量;
CosP:VP与VI的余弦值;
CosN:VN与VI的余弦值;
Max(cosP-cosN):最终loss的定义为原句与相似句的相似度尽可能的大于原句与非相似句的值。
图5为语义匹配模型的训练流程图,输入为senP,senI,senN经过预训练模型后得到对应的语义向量VP,VI,VN;计算VP,VI之间的余弦值cosP,以及VI,VN之间的余弦值cosN,最终的loss定义为最大化cosP与cosN的差值,目的为让模型能更好的区分句子的相似句和非相似句。原始语料只有senI和senP,senN为使用以下方法生成。
其中,负样本生成的方法可以包括:
(1)原始语料只有(原始句(i)、相似句(p))这样的句子对,将除当前原始句以外的其他原始句的相似句作为当前原始句的负样本候选句,使用tfidf等索引方法建立索引。
(2)根据当前原始句的字从负样本中索引出top100句子,从这100句中选择出目前模型不能区分的语义差别较大的句子作为负样本。
a) 在根据原始句(i)、相似句(p)与每个候选句(c)之间的编辑距离进行自适应融合方法;
b) 每个句子的权重计算方法:weight=a*editlen(i,c)/len(c)+b*editlen(p,c)/len(c)+c*sim(i,c)+d*sim(p,c);从100句中选择权重值最大的作为原始句的负样本,对模型进行训练;
c) 因为sim是使用当前模型计算两个句子的余弦值,随着训练深入,该值会不断变化,所以选择的负样本是不同的,故称为自适应融合方法。
其中,*editlen为编辑距离、汉明距离等衡量字符串字面距离的方法,sim表示当前模型计算两个句子的余弦值,len表示句子的长度,a,b,c,d分别为融合该四部分的参数,四个参数值可根据实际业务训练效果进行调整,目前效果较好的是0.3,0.3,0.2,0.2。
在本发明实施例中提供了生成负样本的方法,在训练过程中自适应生成负样本的方法不仅极大节约了时间、人力,且能提高模型的训练效果。由于金融表格中部分表头相差一个字但是表示的金融语义相差甚远,故需要通过融合多种度量方法选择字面相近语义差别大的语句作为负样本对模型进行训练,才能使模型能够区分字面相近语义相差较大的句子,满足金融领域表格表头的语义匹配任务。
本发明实施例提供了一种表格信息抽取方法,对待抽取的目标表格中的合并数据进行预处理,得到二维矩阵;将二维矩阵的行和/或列数据输入到表头检测模型,得到表头检测结果;基于表头检测结果,确定目标表格的表格样式;根据与表格样式对应的处理模式,生成目标表格的单元格文本序列和表头文本矩阵;获得目标字段文本与表头文本序列中每一文本的匹配结果,并获得目标字段文本对应的单元格对象;基于每一目标字段文本对应的单元格对象的值序列,建立匹配结果对应的行或列的索引信息;基于索引信息对目标单元进行信息抽取,得到抽取结果。本发明通过表头检测模型和表头文本序列的文本匹配处理更适用于复杂表格信息抽取,提升了复杂表格的信息抽取效率及准确性。
参见图6,在本发明实施例中还提供了一种表格信息抽取方法,包括:
预处理单元10,用于对待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵;
模型处理单元20,用于将所述二维矩阵的行和/或列数据输入到表头检测模型,得到所述目标表格对应的行和/或列的表头检测结果;
确定单元30,用于基于所述表头检测结果,确定所述目标表格的表格样式;
生成单元40,用于根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵;
遍历单元50,用于对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果;
获取单元60,用于根据所述匹配结果和所述单元格文本序列,获得目标字段文本对应的单元格对象;
建立单元70,用于基于每一目标字段文本对应的单元格对象的值序列,建立所述匹配结果对应的行或列的索引信息;
抽取单元80,用于基于所述索引信息对所述目标表格进行信息抽取,得到抽取结果。
可选地,所述预处理单元包括:
第一补充子单元,用于获取待抽取的目标表格中的具有数据合并的行,对被合并的行进行数据补充;
第二补充子单元,用于获取待抽取的目标表格中的具有数据合并的列,对被合并的列进行数据补充;
第一生成子单元,用于生成行和/或列进行数据补充后的表格对应的二维矩阵。
进一步地,所述生成单元包括:
第二生成子单元,用于若所述表格样式为竖式,生成所述目标表格的单元格文本序列和表头文本矩阵;
第三生成子单元,用于若所述表格样式为横式,将所述目标表格的表头列转换为行,生成转换后的目标表格的单元格文本序列和表头文本矩阵;
第四生成子单元,用于若所述目标表格为目标样式,将所述目标表格的表头列转为表头行,并将两个表头列之间的列转换为表头行的内容行,生成转换后的目标表格对应的单元格文本序列和表头文本矩阵,其中,目标样式为间隔行为表头或间隔列为表头。
对应的,所述装置还包括:第一模型创建单元,所述第一模型创建单元具体用于:
获取第一训练样本,所述第一训练样本是目标领域的表格数据,且每一表格标注有对应的表头行或列;
获取第二训练样本,并基于所述第二训练样本对初始神经网络模型进行训练,得到预训练模型,所述第二训练样本为目标领域对应的文本训练集;
基于所述第一训练样本对所述预训练模型进行调整训练,获得得到表头检测模型。
进一步地,所述装置还包括:第二模型创建单元,所述第二模型创建单元具体用于:
确定第一文本,所述第一文本为满足目标文本条件的文本;
生成与所述第一文本满足相似条件的第二文本,以及与所述第一文本不满足所述相似条件的第三文本;
根据所述第一文本、所述第二文本和所述第三文本通过预训练模型,得到与所述第一文本对应的第一向量,所述第二文本对应的第二向量以及所述第三文本对于应的第三向量;
分别计算所述第一向量和所述第二相连之间的第一余弦值,以及所述第一向量与所述第三向量之间的第二余弦值,并基于所述第一余弦值和所述第二余弦值之间的差值调整所述预训练模型,得到语义匹配模型;
其中,所述遍历单元具体用于:
基于所述语义匹配模型对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果。
本发明实施例提供了一种表格信息抽取装置,包括:对待抽取的目标表格中的合并数据进行预处理,得到二维矩阵;将二维矩阵的行和/或列数据输入到表头检测模型,得到表头检测结果;基于表头检测结果,确定目标表格的表格样式;根据与表格样式对应的处理模式,生成目标表格的单元格文本序列和表头文本矩阵;获得目标字段文本与表头文本序列中每一文本的匹配结果,并获得目标字段文本对应的单元格对象;基于每一目标字段文本对应的单元格对象的值序列,建立匹配结果对应的行或列的索引信息;基于索引信息对目标单元进行信息抽取,得到抽取结果。本发明通过表头检测模型和表头文本序列的文本匹配处理更适用于复杂表格信息抽取,提升了复杂表格的信息抽取效率及准确性。
基于前述实施例,在本发明的另一实施例中还提供了一种存储介质,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如上述任意一项所述的表格信息抽取方法。
对应的,在本发明的另一实施例中还提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如上述中任意一项所述的表格信息抽取方法。
需要说明的是,本发明实施例中提供的存储介质和电子设备所执行的表格信息抽取方法请参见前述各个实施例的描述,此处不进行详述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种表格信息抽取方法,其特征在于,包括:
对待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵;
将所述二维矩阵的行和/或列数据输入到表头检测模型,得到所述目标表格对应的行和/或列的表头检测结果;
基于所述表头检测结果,确定所述目标表格的表格样式;
根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵;
对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果;
根据所述匹配结果和所述单元格文本序列,获得目标字段文本对应的单元格对象;
基于每一目标字段文本对应的单元格对象的值序列,建立所述匹配结果对应的行或列的索引信息;
基于所述索引信息对所述目标表格进行信息抽取,得到抽取结果;
其中,所述根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵,包括:
若所述表格样式为竖式,生成所述目标表格的单元格文本序列和表头文本矩阵;
若所述表格样式为横式,将所述目标表格的表头列转换为行,生成转换后的目标表格的单元格文本序列和表头文本矩阵;
若所述目标表格为目标样式,将所述目标表格的表头列转为表头行,并将两个表头列之间的列转换为表头行的内容行,生成转换后的目标表格对应的单元格文本序列和表头文本矩阵,其中,目标样式为间隔行为表头或间隔列为表头。
2.根据权利要求1所述的方法,其特征在于,所述待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵,包括:
获取待抽取的目标表格中的具有数据合并的行,对被合并的行进行数据补充;
获取待抽取的目标表格中的具有数据合并的列,对被合并的列进行数据补充;
生成行和/或列进行数据补充后的表格对应的二维矩阵。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一训练样本,所述第一训练样本是目标领域的表格数据,且每一表格标注有对应的表头行或列;
获取第二训练样本,并基于所述第二训练样本对初始神经网络模型进行训练,得到预训练模型,所述第二训练样本为目标领域对应的文本训练集;
基于所述第一训练样本对所述预训练模型进行调整训练,获得表头检测模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定第一文本,所述第一文本为满足目标文本条件的文本;
生成与所述第一文本满足相似条件的第二文本,以及与所述第一文本不满足所述相似条件的第三文本;
根据所述第一文本、所述第二文本和所述第三文本通过预训练模型,得到与所述第一文本对应的第一向量,所述第二文本对应的第二向量以及所述第三文本对于应的第三向量;
分别计算所述第一向量和所述第二向量之间的第一余弦值,以及所述第一向量与所述第三向量之间的第二余弦值,并基于所述第一余弦值和所述第二余弦值之间的差值调整所述预训练模型,得到语义匹配模型;
其中,所述对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果,包括:
基于所述语义匹配模型对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果。
5.一种表格信息抽取装置,其特征在于,包括:
预处理单元,用于对待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵;
模型处理单元,用于将所述二维矩阵的行和/或列数据输入到表头检测模型,得到所述目标表格对应的行和/或列的表头检测结果;
确定单元,用于基于所述表头检测结果,确定所述目标表格的表格样式;
生成单元,用于根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵;
遍历单元,用于对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果;
获取单元,用于根据所述匹配结果和所述单元格文本序列,获得目标字段文本对应的单元格对象;
建立单元,用于基于每一目标字段文本对应的单元格对象的值序列,建立所述匹配结果对应的行或列的索引信息;
抽取单元,用于基于所述索引信息对所述目标表格进行信息抽取,得到抽取结果;
其中,所述生成单元包括:
第二生成子单元,用于若所述表格样式为竖式,生成所述目标表格的单元格文本序列和表头文本矩阵;
第三生成子单元,用于若所述表格样式为横式,将所述目标表格的表头列转换为行,生成转换后的目标表格的单元格文本序列和表头文本矩阵;
第四生成子单元,用于若所述目标表格为目标样式,将所述目标表格的表头列转为表头行,并将两个表头列之间的列转换为表头行的内容行,生成转换后的目标表格对应的单元格文本序列和表头文本矩阵,其中,目标样式为间隔行为表头或间隔列为表头。
6.根据权利要求5所述的装置,其特征在于,所述预处理单元包括:
第一补充子单元,用于获取待抽取的目标表格中的具有数据合并的行,对被合并的行进行数据补充;
第二补充子单元,用于获取待抽取的目标表格中的具有数据合并的列,对被合并的列进行数据补充;
第一生成子单元,用于生成行和/或列进行数据补充后的表格对应的二维矩阵。
7.一种存储介质,其特征在于,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如权利要求1-4中任意一项所述的表格信息抽取方法。
8.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如权利要求1-4中任意一项所述的表格信息抽取方法。
CN202111594001.XA 2021-12-24 2021-12-24 表格信息抽取方法、装置、存储介质及电子设备 Active CN113987112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111594001.XA CN113987112B (zh) 2021-12-24 2021-12-24 表格信息抽取方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111594001.XA CN113987112B (zh) 2021-12-24 2021-12-24 表格信息抽取方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113987112A CN113987112A (zh) 2022-01-28
CN113987112B true CN113987112B (zh) 2022-04-08

Family

ID=79734244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111594001.XA Active CN113987112B (zh) 2021-12-24 2021-12-24 表格信息抽取方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113987112B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048916A (zh) * 2022-05-27 2022-09-13 北京百度网讯科技有限公司 表格的处理方法和装置
CN115563111B (zh) * 2022-09-27 2024-07-23 国网江苏省电力有限公司超高压分公司 一种换流站系统动态模型组态方法及系统
CN117648912B (zh) * 2024-01-29 2024-05-03 中国电建集团西北勘测设计研究院有限公司 一种识别多格式电子表格源数据的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6748389B1 (en) * 1999-09-21 2004-06-08 International Business Machines Corporation Method, system, and program for inverting columns in a database table
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN109656985A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 数据导入方法、系统、终端及存储介质
CN110188107A (zh) * 2019-06-05 2019-08-30 北京神州泰岳软件股份有限公司 一种从表格中抽取信息的方法及装置
CN110489424A (zh) * 2019-08-26 2019-11-22 北京香侬慧语科技有限责任公司 一种表格化信息提取的方法、装置、存储介质及电子设备
CN112528599A (zh) * 2020-12-15 2021-03-19 信号旗智能科技(上海)有限公司 基于xml的多页文档处理方法、装置、计算机设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2780454C (en) * 2011-06-20 2016-02-09 Research In Motion Limited Presentation of tabular information
CN110245336B (zh) * 2018-03-08 2021-12-03 北大方正集团有限公司 表格绘制方法及装置
US11443106B2 (en) * 2018-09-20 2022-09-13 International Business Machines Corporation Intelligent normalization and de-normalization of tables for multiple processing scenarios
CN111027294B (zh) * 2019-12-12 2023-05-30 中国联合网络通信集团有限公司 表格汇总的方法、装置及系统
CN111325110B (zh) * 2020-01-22 2024-04-05 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
US11403488B2 (en) * 2020-03-19 2022-08-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for recognizing image-based content presented in a structured layout

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6748389B1 (en) * 1999-09-21 2004-06-08 International Business Machines Corporation Method, system, and program for inverting columns in a database table
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN109656985A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 数据导入方法、系统、终端及存储介质
CN110188107A (zh) * 2019-06-05 2019-08-30 北京神州泰岳软件股份有限公司 一种从表格中抽取信息的方法及装置
CN110489424A (zh) * 2019-08-26 2019-11-22 北京香侬慧语科技有限责任公司 一种表格化信息提取的方法、装置、存储介质及电子设备
CN112528599A (zh) * 2020-12-15 2021-03-19 信号旗智能科技(上海)有限公司 基于xml的多页文档处理方法、装置、计算机设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Compressing table data with column dependency;Vo, Binh Dao;《THEORETICAL COMPUTER SCIENCE》;20071122;第273-283页 *
基于词向量的PDF表格抽取研究;张建东等;《数据分析与知识发现》;20210628;第34-44页 *

Also Published As

Publication number Publication date
CN113987112A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN113987112B (zh) 表格信息抽取方法、装置、存储介质及电子设备
US11216620B1 (en) Methods and apparatuses for training service model and determining text classification category
CN109857990B (zh) 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN109685056B (zh) 获取文档信息的方法及装置
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN106980608A (zh) 一种中文电子病历分词和命名实体识别方法及系统
CN108319734A (zh) 一种基于线性组合器的产品特征结构树自动构建方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN112507711A (zh) 文本摘要抽取方法及系统
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN112818121A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN111241410A (zh) 一种行业新闻推荐方法及终端
CN113987175B (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
KR20210089430A (ko) 간접광고를 포함한 뉴스 기사 생성 시스템 및 방법
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN113515587B (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN112989053A (zh) 一种期刊推荐方法及装置
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN117436446A (zh) 基于弱监督的农业社会化销售服务用户评价数据分析方法
Basri et al. A deep learning based sentiment analysis on bang-lish disclosure
Sun Research on product attribute extraction and classification method for online review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant