CN110489424B - 一种表格化信息提取的方法、装置、存储介质及电子设备 - Google Patents
一种表格化信息提取的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110489424B CN110489424B CN201910790460.1A CN201910790460A CN110489424B CN 110489424 B CN110489424 B CN 110489424B CN 201910790460 A CN201910790460 A CN 201910790460A CN 110489424 B CN110489424 B CN 110489424B
- Authority
- CN
- China
- Prior art keywords
- target
- cell
- vector
- hidden
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种表格化信息提取的方法、装置、存储介质及电子设备,其中,该方法包括:获取目标表格并确定目标表格中的多个目标单元格,提取每个目标单元格的单元格内容,并确定每个目标单元格的位置信息;根据单元格内容生成每个目标单元格的单元格隐向量,并根据所有目标单元格的单元格隐向量和相应的位置信息生成目标表格的表格隐向量;根据所有目标单元格的单元格隐向量和目标表格的表格隐向量提取目标表格中的表格化信息。通过本发明实施例提供的表格化信息提取的方法、装置、存储介质及电子设备,可以自适应提取表格的结构特征,适用于不同结构的表格,可以大幅度提高对表格中高维语义关系信息提取的准确度。
Description
技术领域
本发明涉及信息处理的技术领域,具体而言,涉及一种表格化信息提取的方法、装置、存储介质及电子设备。
背景技术
表格中蕴含着高度抽象和压缩的语义关系信息,例如一个包含某班级学生2016-2018年不同科目考试成绩的表格,就蕴含了这个班级的所有同学的每个科目的考试成绩是多少,例如:其中的一个信息为(张三,2018年,数学成绩,98分);这种信息是结构化多元组的关系信息,这些关系信息往往是非常重要的信息。
一般而言,简单的表格可以依靠表格的规则提取表格中的信息,但复杂结构的表格将高维的关系信息映射到二维表格平面上,其包含实体之间的复杂关系信息,传统基于规则的表格结构化信息提取方法不能解决复杂表格的关系提取问题。
例如如下的表1,可以提取得到的高维关系多元组包括(中国石油化工集团,母公司,福建炼油化工集团),(中国石油化工集团,2017年,销售额,5813.97万元)等。关系多元组的部分内容来自表头,例如2017年、销售额,部分来自于表格内容,例如中国石油化工集团、福建炼油化工集团等。因为每种表格的信息组织方式都不同,因此这些高维关系信息依靠传统的规则提取的方法很难从各式各样的表格中提取到。
表1
发明内容
为解决上述问题,本发明实施例的目的在于提供一种表格化信息提取的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种表格化信息提取的方法,包括:
获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
根据所述单元格内容生成每个所述目标单元格的单元格隐向量,并根据所有所述目标单元格的所述单元格隐向量和相应的所述位置信息生成所述目标表格的表格隐向量;
根据所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量提取所述目标表格中的表格化信息。
在一种可能的实现方式中,所述确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。
在一种可能的实现方式中,所述根据所述单元格内容生成每个所述目标单元格的单元格隐向量,包括:
对所述目标单元格的单元格内容进行分词处理,确定所述单元格内容的每个分词,并确定每个所述分词的词向量;
根据所述分词的词向量以及分词之间的相似度确定所述分词的隐向量,并根据所有所述分词的隐向量生成相应的目标单元格的单元格隐向量。
在一种可能的实现方式中,所述根据所述分词的词向量以及分词之间的相似度确定所述分词的隐向量,包括:
根据所述分词的词向量生成所述分词的查询向量qi、键向量ki和值向量vi,根据所述分词的查询向量qi与所述单元格内容的每个分词的键向量kj确定所述分词与所述单元格内容的每个分词之间的相似度sij,且sij=f(qi,kj),j∈[1,n],n为所述单元格内容的分词总数量;
对所述相似度sij进行归一化处理,确定与相似度sij相对应的权重值ωij,根据所述权重值ωij以及每个分词的值向量生成所述分词的隐向量ai,且:
在一种可能的实现方式中,所述根据所有所述目标单元格的所述单元格隐向量和相应的所述位置信息生成所述目标表格的表格隐向量,包括:
根据所述目标单元格的单元格隐向量和所述目标单元格的位置信息确定每个所述目标单元格的编码向量;
根据所述目标单元格的编码向量以及目标单元格之间的相似度确定所述目标单元格的二级隐向量,并根据所有所述目标单元格的二级隐向量生成所述目标表格的表格隐向量。
在一种可能的实现方式中,所述根据所述目标单元格的编码向量以及目标单元格之间的相似度确定所述目标单元格的二级隐向量,包括:
根据所述目标单元格的编码向量生成所述目标单元格的查询向量Qi、键向量Ki和值向量Vi,根据所述目标单元格的查询向量Qi与所述目标表格的每个目标单元格的键向量Ki确定所述目标单元格与所述目标表格的每个目标单元格之间的相似度Sij,且Sij=F(Qi,Kj),j∈[1,N],N为所述目标表格的目标单元格总数量;
对所述相似度Sij进行归一化处理,确定与相似度Sij相对应的权重值Wij,根据所述权重值Wij以及每个目标单元格的值向量生成所述所述目标单元格的二级隐向量Ai,且:
在一种可能的实现方式中,所述根据所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量提取所述目标表格中的表格化信息包括:
将所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量作为预先训练好的解码器的输入,基于所述解码器的输出确定所述目标表格中的表格化信息。
第二方面,本发明实施例还提供了一种表格化信息提取的装置,包括:
预处理模块,用于获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
编码模块,用于根据所述单元格内容生成每个所述目标单元格的单元格隐向量,并根据所有所述目标单元格的所述单元格隐向量和相应的所述位置信息生成所述目标表格的表格隐向量;
解码提取模块,用于根据所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量提取所述目标表格中的表格化信息。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的表格化信息提取的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的表格化信息提取的方法。
本发明实施例上述第一方面提供的方案中,以编码的方式生成单元格的单元格隐向量,以提取表格中的语义特征,同时基于单元格的位置信息生成整个表格的表格隐向量,从而可以提取表格的结构特征;进而结合表格的结构特征和语义特征解码提取出表格中的关系多元组信息,实现表格化信息的提取。该方式可以自适应提取表格的结构特征,适用于不同结构的表格,可以大幅度提高对表格中高维语义关系信息提取的准确度。同时,将单元格的起始行列号和结束行列号映射为四个位置向量并生成二维的位置信息,可以更加准确地表示单元格的结构特征。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种表格化信息提取的方法的流程图;
图2示出了本发明实施例所提供的表格化信息提取的方法中,生成每个目标单元格的单元格隐向量的具体方法流程图;
图3示出了本发明实施例所提供的一种表格化信息提取的装置的结构示意图;
图4示出了本发明实施例所提供的用于执行表格化信息提取的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种表格化信息提取的方法,参见图1所示,包括:
步骤101:获取目标表格并确定目标表格中的多个目标单元格,提取每个目标单元格的单元格内容,并确定每个目标单元格的位置信息。
本发明实施例中,目标表格为需要提取信息的表格,该目标表格包括多个单元格,将其中需要处理的单元格作为目标单元格;其中,可以从目标表格中选取部分单元格作为目标单元格,也可以选取所有的单元格作为目标单元格。同时,目标单元格中记录有相应的信息,即单元格内容,可以基于文字识别技术等提取每个目标单元格中的单元格内容。如表1所示,表1的第一列包含3个单元格,三个单元中的内容分别是“序号”、“1”、“2”。此外,将目标表格作为一个二维平面,则每一个目标单元格位于该二维平面中的特定位置,本实施例中将该位置作为目标单元格的位置信息。具体的,可以将目标单元格的一个顶点所在位置作为该目标单元格的位置信息,或者将目标单元格的质心所在位置作为该目标单元格的位置信息,也可采用其他方式确定目标单元格的位置信息。
可选的,目标单元格的位置信息为二维参数。本实施例中,上述步骤101“确定每个目标单元格的位置信息”包括:
步骤A1:根据目标表格横向和纵向上单元格的总数量分别确定目标表格每行和每列的位置。
由于待提取的目标表格可能是结构复杂的表格,不同的单元格可能对应一行一列,也可能对应对行多列,如上述的表1;本发明实施例中首先确定目标表格横向和纵向的单元格总数量,之后即可把该目标表格按照最小单元进行行列划分,并确定每行每列的位置。在上述的表1中,横向单元格总数量为5,纵向单元格总数量为9,即该表1可以划分为9×5个最小的单元格。其中,本实施例中“每行和每列的位置”可以是具体的坐标值;或者,也可以用每行或每列所对应的目标单元格来描述相应的位置,例如表1中,第一行对应目标单元格“序号”、“客户名称”、“2017年”,第二行对应目标单元格“序号”、“客户名称”、“销售额(万元)”、“销售占比”。
步骤A2:根据目标表格每行和每列的位置确定目标单元格在目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据目标单元格的起始行号、结束行号、起始列号和结束列号生成目标单元格的二维的位置信息。
本发明实施例中,使用行和列的二维位置信息来表示每个目标单元格在目标表格中的位置。其中,该位置信息包括起始行号、结束行号、起始列号和结束列号。例如,对于上述表1中的目标单元格“中国石油天然气集团”,其起始行号是3,结束行号是4,起始列号是2,结束列号是2。本实施例中可以将起始行列号和结束行列号映射为四个可学习的位置向量,该四个位置向量即可表示二维的位置信息。
步骤102:根据单元格内容生成每个目标单元格的单元格隐向量,并根据所有目标单元格的单元格隐向量和相应的位置信息生成目标表格的表格隐向量。
本发明实施例中,可以基于编码器将文本格式的单元格内容转换为相应的单元格隐向量;或者可以对单元格内容进行分词处理,之后基于每个分词的词向量生成该目标单元格的隐向量。可选的,由于目标单元格对应有相应的位置信息,相应的单元格内容也对应有位置信息,在生成目标单元格的单元格隐向量时可以额外基于该位置信息生成每个目标单元格的隐向量;此外,目标单元格中的所有分词共享同样的位置信息。
同时,目标表格包含多个目标单元格,本实施例中将目标单元格组为目标表格的分词,基于目标单元格的单元格隐向量生成该目标表格的表格隐向量;同时,不同目标单元格的位置信息不同,本实施例中还基于目标单元格的位置信息来生成目标表格的表格隐向量,使得该表格隐向量可以更加完整的包含目标表格中的表格化结构信息,即表格隐向量可以包含表格的结构特征。
步骤103:根据所有目标单元格的单元格隐向量和目标表格的表格隐向量提取目标表格中的表格化信息。
本发明实施例中,每个目标单元格的位置信息表征该目标表格的结构特征,目标单元格的单元格隐向量和目标表格的表格隐向量中包含该目标表格的语义特征,故通过解码的方式即可从隐向量中提取出所需的信息,即表格化信息。具体的,该表格化信息可以是多元组形式的信息,例如(中国石油化工集团,2017年,销售额,5813.97万元)等。
可选的,上述步骤103“根据所有目标单元格的单元格隐向量和目标表格的表格隐向量提取目标表格中的表格化信息”包括:将所有目标单元格的单元格隐向量和目标表格的表格隐向量作为预先训练好的解码器的输入,基于解码器的输出确定目标表格中的表格化信息。
本发明实施例中,预先训练所需的解码器,基于训练好的解码器对表格隐向量和单元格隐向量进行解码处理,从而基于表格的结构特征和语义特征提取出表格化信息,将二维平面空间上的表格信息提取成高维的关系多元组信息,可以大幅度提高对表格中高维语义关系信息提取的准确度。具体的,该解码器可以为深度翻译模型。
本发明实施例提供的一种表格化信息提取的方法,以编码的方式生成单元格的单元格隐向量,以提取表格中的语义特征,同时基于单元格的位置信息生成整个表格的表格隐向量,从而可以提取表格的结构特征;进而结合表格的结构特征和语义特征解码提取出表格中的关系多元组信息,实现表格化信息的提取。该方式可以自适应提取表格的结构特征,适用于不同结构的表格,可以大幅度提高对表格中高维语义关系信息提取的准确度。同时,将单元格的起始行列号和结束行列号映射为四个位置向量并生成二维的位置信息,可以更加准确地表示单元格的结构特征。
在上述实施例的基础上,参见图2所示,上述步骤102“根据单元格内容生成每个目标单元格的单元格隐向量”包括:
步骤1021:对目标单元格的单元格内容进行分词处理,确定单元格内容的每个分词,并确定每个分词的词向量。
本发明实施例中,首先对单元格内容进行分词处理,之后基于每个分词的词向量生成该目标单元格的隐向量。其中,可以利用现有的分词模型对单元格内容进行分词处理,例如将单元格内容“客户名称”切分为“客户名称”,之后将每个单元格内容的分词映射为相应的词向量。或者,也可以以字为单位对单元格内容进行分词处理,例如将单元格内容“客户名称”切分为“客户名称”,之后即可确定每个分词的词向量。
步骤1022:根据分词的词向量以及分词之间的相似度确定分词的隐向量,并根据所有分词的隐向量生成相应的目标单元格的单元格隐向量。
本发明实施例中,可以基于预先训练好的编码器生成目标单元格的单元格隐向量,该编码器可以根据分词的词向量以及分词之间的相似度确定分词的隐向量;其中,分词之间的相似度用于表示两个分词之间的关联关系。在确定每个分词的隐向量之后,即可确定该目标单元格的单元格隐向量。本实施例步骤1022只用于限定需要确定分词的隐向量,并不用于限定必须在确定每个分词的隐向量之后才可以进行确定单元格隐向量的过程。例如,在实际处理过程中,可以采用矩阵的方式直接确定目标单元格的单元格隐向量,但该处理过程本质上仍可以划分为计算每个分词的隐向量。
可选的,可以基于自注意力机制生成单元格隐向量。具体的,上述步骤“根据分词的词向量以及分词之间的相似度确定分词的隐向量”包括:
步骤B1:根据分词的词向量生成分词的查询向量qi、键向量ki和值向量vi,根据分词的查询向量qi与单元格内容的每个分词的键向量kj确定分词与单元格内容的每个分词之间的相似度sij,且sij=f(qi,kj),j∈[1,n],n为单元格内容的分词总数量。
本发明实施例中,可以基于预先训练好的转换矩阵,将分词的词向量分别转换为查询向量(query)、键向量(key)和值向量(value);其中,单元格内容被分为n个分词,则第i个分词的查询向量表示为qi、键向量为ki和值向量为vi。
在计算第i个分词的隐向量时,只需要确定该第i个分词与单元格内容中的n个分词(包含该第i个分词)之间的相似度即可。其中,sij=f(qi,kj),函数f(x,y)表示x与y之间的相似度,该函数f(x,y)具体可以为点积、拼接、感知机等,本实施例对此不做限定。可选的,为了简化计算,键向量可以与值向量相同。
步骤B2:对相似度sij进行归一化处理,确定与相似度sij相对应的权重值ωij,根据权重值ωij以及每个分词的值向量生成分词的隐向量ai,且:
本实施例中,可以利用softmax函数进行归一化处理,对n个相似度sij进行归一化处理,即可生成相应的n个权重值ωij,进而通过加权求和的方式确定第i个分词的隐向量ai。
此外,在确定目标单元格每个分词的隐向量之后,即可根据所有分词的隐向量生成相应的目标单元格的单元格隐向量。具体的,也可以采用加权平均的方式来确定单元格隐向量,即单元格隐向量为:
在上述实施例的基础上,目标表格实际上是包含处于不同位置的单元格,即每个目标单元格均可以看作该目标表格的分词,基于目标单元格的单元格隐向量和位置向量即可生成目标表格的表格隐向量。具体的,上述步骤102“根据所有目标单元格的单元格隐向量和相应的位置信息生成目标表格的表格隐向量”,包括:
步骤C1:根据目标单元格的单元格隐向量和目标单元格的位置信息确定每个目标单元格的编码向量。
本发明实施例中,目标单元格的位置信息也为向量形式的信息,该位置信息可以是表示目标单元格二维位置的向量;基于包含语义特征的单元格隐向量和包含表格结构特征的位置信息,可以生成每个目标单元格的编码向量,该编码向量包含语义特征和结构特征。可选的,可以以拼接的方式生成编码向量,即将目标单元格的单元格隐向量和位置信息拼接在一起生成编码向量。
步骤C2:根据目标单元格的编码向量以及目标单元格之间的相似度确定目标单元格的二级隐向量,并根据所有目标单元格的二级隐向量生成目标表格的表格隐向量。
本发明实施例中,可以基于预先训练好的编码器生成目标表格的表格隐向量,该编码器可以目标单元格的编码向量以及目标单元格之间的相似度确定目标单元格的二级隐向量;其中,目标单元格之间的相似度用于表示两个目标单元格之间的关联关系。在确定每个目标单元格的二级隐向量之后,即可确定该目标表格的表格隐向量。本实施例中,可以基于一个总的编码器进行层级编码,从而可以确定每个目标单元格的单元格隐向量和该目标表格的表格隐向量。
需要说明的是,本实施例步骤C2只用于限定需要确定目标单元格的二级隐向量,并不用于限定必须在确定每个目标单元格的二级隐向量之后才可以进行确定表格隐向量的过程。例如,在实际处理过程中,可以采用矩阵的方式,基于目标单元格的编码向量直接确定目标表格的表格隐向量,但该处理过程本质上仍可以划分为计算每个目标单元格的隐向量,即二级隐向量。
可选的,也可以基于自注意力机制生成表格隐向量。具体的,上述步骤C2“根据目标单元格的编码向量以及目标单元格之间的相似度确定目标单元格的二级隐向量”包括:
步骤C21:根据目标单元格的编码向量生成目标单元格的查询向量Qi、键向量Ki和值向量Vi,根据目标单元格的查询向量Qi与目标表格的每个目标单元格的键向量Ki确定目标单元格与目标表格的每个目标单元格之间的相似度Sij,且Sij=F(Qi,Kj),j∈[1,N],N为目标表格的目标单元格总数量。
本发明实施例中,可以基于预先训练好的转换矩阵,将目标单元格的编码向量分别转换为查询向量(query)、键向量(key)和值向量(value);其中,该目标表格包含N个目标单元格,则第i个目标单元格的查询向量表示为Qi、键向量为Ki和值向量为Vi。
在计算第i个目标单元格的二级隐向量时,只需要确定该第i个目标单元格与目标表格中的N个目标单元格(包含该第i个目标单元格)之间的相似度即可。其中,Sij=F(Qi,Kj),函数F(x,y)表示x与y之间的相似度,该函数F(x,y)具体可以为点积、拼接、感知机等,本实施例对此不做限定。可选的,该函数F(x,y)与上述的函数f(x,y)可以是同一个函数;为了简化计算,目标单元格的键向量可以与值向量相同。
步骤C22:对相似度Sij进行归一化处理,确定与相似度Sij相对应的权重值Wij,根据权重值Wij以及每个目标单元格的值向量生成目标单元格的二级隐向量Ai,且:
本实施例中,可以利用softmax函数进行归一化处理,对N个相似度Sij进行归一化处理,即可生成相应的N个权重值Wij,进而通过加权求和的方式确定第i个目标单元格的二级隐向量Ai。本实施例中基于位置信息生成包含语义特征和结构特征的表格隐向量;且利用自注意力机制可以更容易捕获目标表格中远距离的相互依赖的特征,可以更加有效地提取距离较远的两个目标单元格之间的关联性。
本发明实施例提供的一种表格化信息提取的方法,以编码的方式生成单元格的单元格隐向量,以提取表格中的语义特征,同时基于单元格的位置信息生成整个表格的表格隐向量,从而可以提取表格的结构特征;进而结合表格的结构特征和语义特征解码提取出表格中的关系多元组信息,实现表格化信息的提取。该方式可以自适应提取表格的结构特征,适用于不同结构的表格,可以大幅度提高对表格中高维语义关系信息提取的准确度。同时,将单元格的起始行列号和结束行列号映射为四个位置向量并生成二维的位置信息,可以更加准确地表示单元格的结构特征。基于位置信息可以生成包含语义特征和结构特征的表格隐向量,方便后续准确提取表格化信息;且利用自注意力机制可以更容易捕获目标表格中远距离的相互依赖的特征,可以更加有效地提取距离较远的两个目标单元格之间的关联性。
以上详细介绍了表格化信息提取的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种表格化信息提取的装置,参见图3所示,包括:
预处理模块31,用于获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
编码模块32,用于根据所述单元格内容生成每个所述目标单元格的单元格隐向量,并根据所有所述目标单元格的所述单元格隐向量和相应的所述位置信息生成所述目标表格的表格隐向量;
解码提取模块33,用于根据所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量提取所述目标表格中的表格化信息。
在上述实施例的基础上,所述预处理模块31确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。
在上述实施例的基础上,所述编码模块32根据所述单元格内容生成每个所述目标单元格的单元格隐向量,包括:
对所述目标单元格的单元格内容进行分词处理,确定所述单元格内容的每个分词,并确定每个所述分词的词向量;
根据所述分词的词向量以及分词之间的相似度确定所述分词的隐向量,并根据所有所述分词的隐向量生成相应的目标单元格的单元格隐向量。
在上述实施例的基础上,所述编码模块32根据所述分词的词向量以及分词之间的相似度确定所述分词的隐向量,包括:
根据所述分词的词向量生成所述分词的查询向量qi、键向量ki和值向量vi,根据所述分词的查询向量qi与所述单元格内容的每个分词的键向量kj确定所述分词与所述单元格内容的每个分词之间的相似度sij,且sij=f(qi,kj),j∈[1,n],n为所述单元格内容的分词总数量;
对所述相似度sij进行归一化处理,确定与相似度sij相对应的权重值ωij,根据所述权重值ωij以及每个分词的值向量生成所述分词的隐向量ai,且:
在上述实施例的基础上,所述编码模块32根据所有所述目标单元格的所述单元格隐向量和相应的所述位置信息生成所述目标表格的表格隐向量,包括:
根据所述目标单元格的单元格隐向量和所述目标单元格的位置信息确定每个所述目标单元格的编码向量;
根据所述目标单元格的编码向量以及目标单元格之间的相似度确定所述目标单元格的二级隐向量,并根据所有所述目标单元格的二级隐向量生成所述目标表格的表格隐向量。
在上述实施例的基础上,所述编码模块32根据所述目标单元格的编码向量以及目标单元格之间的相似度确定所述目标单元格的二级隐向量,包括:
根据所述目标单元格的编码向量生成所述目标单元格的查询向量Qi、键向量Ki和值向量Vi,根据所述目标单元格的查询向量Qi与所述目标表格的每个目标单元格的键向量Ki确定所述目标单元格与所述目标表格的每个目标单元格之间的相似度Sij,且Sij=F(Qi,Kj),j∈[1,N],N为所述目标表格的目标单元格总数量;
对所述相似度Sij进行归一化处理,确定与相似度Sij相对应的权重值Wij,根据所述权重值Wij以及每个目标单元格的值向量生成所述所述目标单元格的二级隐向量Ai,且:
在上述实施例的基础上,所述解码提取模块33根据所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量提取所述目标表格中的表格化信息包括:
将所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量作为预先训练好的解码器的输入,基于所述解码器的输出确定所述目标表格中的表格化信息。
本发明实施例提供的一种表格化信息提取的装置,以编码的方式生成单元格的单元格隐向量,以提取表格中的语义特征,同时基于单元格的位置信息生成整个表格的表格隐向量,从而可以提取表格的结构特征;进而结合表格的结构特征和语义特征解码提取出表格中的关系多元组信息,实现表格化信息的提取。该方式可以自适应提取表格的结构特征,适用于不同结构的表格,可以大幅度提高对表格中高维语义关系信息提取的准确度。同时,将单元格的起始行列号和结束行列号映射为四个位置向量并生成二维的位置信息,可以更加准确地表示单元格的结构特征。基于位置信息可以生成包含语义特征和结构特征的表格隐向量,方便后续准确提取表格化信息;且利用自注意力机制可以更容易捕获目标表格中远距离的相互依赖的特征,可以更加有效地提取距离较远的两个目标单元格之间的关联性。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的表格化信息提取的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图4示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的表格化信息提取的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种表格化信息提取的方法,其特征在于,包括:
获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
根据所述单元格内容生成每个所述目标单元格的单元格隐向量,并根据所有所述目标单元格的所述单元格隐向量和相应的所述位置信息生成所述目标表格的表格隐向量;
根据所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量提取所述目标表格中的表格化信息。
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述单元格内容生成每个所述目标单元格的单元格隐向量,包括:
对所述目标单元格的单元格内容进行分词处理,确定所述单元格内容的每个分词,并确定每个所述分词的词向量;
根据所述分词的词向量以及分词之间的相似度确定所述分词的隐向量,并根据所有所述分词的隐向量生成相应的目标单元格的单元格隐向量。
5.根据权利要求1所述的方法,其特征在于,所述根据所有所述目标单元格的所述单元格隐向量和相应的所述位置信息生成所述目标表格的表格隐向量,包括:
根据所述目标单元格的单元格隐向量和所述目标单元格的位置信息确定每个所述目标单元格的编码向量;
根据所述目标单元格的编码向量以及目标单元格之间的相似度确定所述目标单元格的二级隐向量,并根据所有所述目标单元格的二级隐向量生成所述目标表格的表格隐向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标单元格的编码向量以及目标单元格之间的相似度确定所述目标单元格的二级隐向量,包括:
根据所述目标单元格的编码向量生成所述目标单元格的查询向量Qi、键向量Ki和值向量Vi,根据所述目标单元格的查询向量Qi与所述目标表格的每个目标单元格的键向量Ki确定所述目标单元格与所述目标表格的每个目标单元格之间的相似度Sij,且Sij=F(Qi,Kj),j∈[1,N],N为所述目标表格的目标单元格总数量;
对所述相似度Sij进行归一化处理,确定与相似度Sij相对应的权重值Wij,根据所述权重值Wij以及每个目标单元格的值向量生成所述所述目标单元格的二级隐向量Ai,且:
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述根据所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量提取所述目标表格中的表格化信息包括:
将所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量作为预先训练好的解码器的输入,基于所述解码器的输出确定所述目标表格中的表格化信息。
8.一种表格化信息提取的装置,其特征在于,包括:
预处理模块,用于获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
编码模块,用于根据所述单元格内容生成每个所述目标单元格的单元格隐向量,并根据所有所述目标单元格的所述单元格隐向量和相应的所述位置信息生成所述目标表格的表格隐向量;
解码提取模块,用于根据所有所述目标单元格的单元格隐向量和所述目标表格的表格隐向量提取所述目标表格中的表格化信息。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-7任意一项所述的表格化信息提取的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任意一项所述的表格化信息提取的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790460.1A CN110489424B (zh) | 2019-08-26 | 2019-08-26 | 一种表格化信息提取的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790460.1A CN110489424B (zh) | 2019-08-26 | 2019-08-26 | 一种表格化信息提取的方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489424A CN110489424A (zh) | 2019-11-22 |
CN110489424B true CN110489424B (zh) | 2021-10-12 |
Family
ID=68554296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910790460.1A Active CN110489424B (zh) | 2019-08-26 | 2019-08-26 | 一种表格化信息提取的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489424B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011144B (zh) * | 2021-03-30 | 2024-01-30 | 中国工商银行股份有限公司 | 表单信息的获取方法、装置和服务器 |
CN113536951B (zh) * | 2021-06-22 | 2023-11-24 | 科大讯飞股份有限公司 | 表格识别方法及相关装置和电子设备、存储介质 |
CN113449081A (zh) * | 2021-07-08 | 2021-09-28 | 平安国际智慧城市科技股份有限公司 | 文本特征的提取方法、装置、计算机设备及存储介质 |
CN113987112B (zh) * | 2021-12-24 | 2022-04-08 | 杭州恒生聚源信息技术有限公司 | 表格信息抽取方法、装置、存储介质及电子设备 |
CN114595669B (zh) * | 2022-03-11 | 2022-09-27 | 北京梦诚科技有限公司 | 一种算量表格识别方法、系统、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641632B (zh) * | 2004-01-02 | 2010-04-28 | 诺基亚公司 | 转换表格信息以在面积有限的显示器上表现的系统、方法和终端 |
US9977780B2 (en) * | 2014-06-13 | 2018-05-22 | International Business Machines Corporation | Generating language sections from tabular data |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
CN109359275B (zh) * | 2018-09-20 | 2021-10-29 | 郑州云海信息技术有限公司 | 一种数据转换方法和装置 |
CN109948507B (zh) * | 2019-03-14 | 2021-05-07 | 北京百度网讯科技有限公司 | 用于检测表格的方法和装置 |
-
2019
- 2019-08-26 CN CN201910790460.1A patent/CN110489424B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110489424A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489424B (zh) | 一种表格化信息提取的方法、装置、存储介质及电子设备 | |
CN108399163B (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
WO2022105115A1 (zh) | 问答对匹配方法、装置、电子设备及存储介质 | |
CN110489423B (zh) | 一种信息抽取的方法、装置、存储介质及电子设备 | |
CN110765785B (zh) | 基于神经网络的中英翻译方法、及其相关设备 | |
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
CN109858015B (zh) | 一种基于ctw和km算法的语义相似度计算方法及装置 | |
CN111738001B (zh) | 同义词识别模型的训练方法、同义词确定方法及设备 | |
CN112329460B (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
CN110110610B (zh) | 一种用于短视频的事件检测方法 | |
CN116402063B (zh) | 多模态讽刺识别方法、装置、设备以及存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111782826A (zh) | 知识图谱的信息处理方法、装置、设备及存储介质 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN113793696A (zh) | 一种基于相似性的新药副作用发生频率预测方法、系统、终端及可读存储介质 | |
CN110389999A (zh) | 一种信息抽取的方法、装置、存储介质及电子设备 | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN115640418A (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN113889281A (zh) | 一种中文医疗智能实体识别方法、装置及计算机设备 | |
CN109933788A (zh) | 类型确定方法、装置、设备和介质 | |
CN116306575B (zh) | 文档解析方法、文档解析模型训练方法、装置和电子设备 | |
Song et al. | MIFM: Multimodal Information Fusion Model for Educational Exercises | |
CN111448561B (zh) | 用于基于聚类和句子相似度来生成答案的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |