CN110489423A - 一种信息抽取的方法、装置、存储介质及电子设备 - Google Patents
一种信息抽取的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110489423A CN110489423A CN201910790447.6A CN201910790447A CN110489423A CN 110489423 A CN110489423 A CN 110489423A CN 201910790447 A CN201910790447 A CN 201910790447A CN 110489423 A CN110489423 A CN 110489423A
- Authority
- CN
- China
- Prior art keywords
- target
- vector
- cell
- participle
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种信息抽取的方法、装置、存储介质及电子设备,其中,该方法包括:获取并确定问题信息中多个分词的第一隐向量;获取目标表格并确定目标表格中的多个目标单元格,提取每个目标单元格的单元格内容和位置信息,确定单元格内容的多个目标分词;根据目标分词的词向量和位置信息生成目标分词的第二隐向量;根据所有的第一隐向量和第二隐向量在目标表格中抽取与问题信息相匹配的目标单元格。通过本发明实施例提供的信息抽取的方法、装置、存储介质及电子设备,将表格信息抽取问题转化内端到端的阅读理解问题,避免了错误传播的同时也减少了规则的参与,能够自动学习到表格中可以回答自然语言问题的单元格,实现表格信息提取。
Description
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种信息抽取的方法、装置、存储介质及电子设备。
背景技术
表格中包含大量信息,实际应用中需要查找出表格中的指定信息。例如,下表1记录有部分国家的相关信息,若所需要查找的内容是“法国首都”,则基于该表1即可抽取出所需的信息“巴黎”。
表1
在抽取表格中信息时,传统的做法是先将表格转换为一个关系型数据库,再使用结构化查询语言语句进行信息抽取;或者,针对某一类表格的规则进行信息抽取。前者的做法会导致错误传播,也就是对表格的转换出现问题时,会影响后面结构化查询语言的查询准确率;后者只能适用于某一种表格,且当表格越来越复杂时,规则可能无法覆盖所有的情况。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种信息抽取的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种信息抽取的方法,包括:
获取问题信息,并确定所述问题信息中多个分词的第一隐向量;
获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
对所述单元格内容进行分词处理,确定所述单元格内容的多个目标分词;
根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量;
根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格。
在一种可能的实现方式中,所述确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。
在一种可能的实现方式中,所述根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量,包括:
根据目标分词的词向量和所述目标分词所在目标单元格的位置信息确定每个所述目标分词的编码向量;
根据所述目标分词的编码向量以及目标分词之间的相似度确定所述目标分词的第二隐向量。
在一种可能的实现方式中,所述根据所述目标分词的编码向量以及目标分词之间的相似度确定所述目标分词的第二隐向量,包括:
根据所述目标分词的编码向量生成所述目标分词的查询向量qi、键向量ki和值向量vi,根据所述目标分词的查询向量qi与所述单元格内容的每个目标分词的键向量kj确定当前的所述目标分词分别与所述单元格内容的每个目标分词之间的相似度sij,且sij=f(qi,kj),j∈[1,n],n为所述单元格内容的目标分词总数量;
对所述相似度sij进行归一化处理,确定与相似度sij相对应的权重值ωij,根据所述权重值ωij以及每个目标分词的值向量生成所述目标分词的第二隐向量ai,且:
vj表示第j个目标分词的值向量。
在一种可能的实现方式中,所述根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格,包括:
将所有的所述第一隐向量和目标单元格的所有所述第二隐向量进行双向注意力机制匹配,分别确定每个目标单元格的双向注意力向量;
根据所述目标单元格的所述双向注意力向量确定相应的单元格内容为所述问题信息答案的概率,并将概率最高的目标单元格作为与所述问题信息相匹配的目标单元格。
在一种可能的实现方式中,所述获取问题信息包括:
获取所要抽取的问题字段,将所述问题字段转换为自然语言形式的问题信息。
第二方面,本发明实施例还提供了一种信息抽取的装置,包括:
问题获取模块,用于获取问题信息,并确定所述问题信息中多个分词的第一隐向量;
预处理模块,用于获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
目标分词确定模块,用于对所述单元格内容进行分词处理,确定所述单元格内容的多个目标分词;
编码模块,用于根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量;
信息抽取模块,用于根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格。
在一种可能的实现方式中,所述预处理模块确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的信息抽取的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的信息抽取的方法。
本发明实施例上述第一方面提供的方案中,将问题信息和目标单元格均编码为相应的隐向量,基于两个隐向量来确定与问题信息相匹配的目标单元格。本实施例将表格信息抽取问题转化内端到端的阅读理解问题,利用单元格的隐向量和位置信息来生成包含表格结构特征的隐向量,避免了错误传播的同时也减少了规则的参与,能够自动学习到表格中可以回答自然语言问题的单元格,进而可以提取出所需的单元格,实现表格信息提取。同时,将单元格的起始行列号和结束行列号映射为四个位置向量并生成二维的位置信息,可以更加准确且自适应地表示单元格的结构特征,能够适用于不同结构的表格,可以大幅度提高对复杂表格中信息提取的准确度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种信息抽取的方法的流程图;
图2示出了本发明实施例所提供的信息抽取的方法中,生成目标分词的第二隐向量的方法流程图;
图3示出了本发明实施例所提供的一种信息抽取的装置的结构示意图;
图4示出了本发明实施例所提供的用于执行信息抽取的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种信息抽取的方法,将抽取表格信息的任务转换为端到端的阅读理解任务,从而可以从表格中抽取出指定信息。参见图1所示,该方法包括:
步骤101:获取问题信息,并确定问题信息中多个分词的第一隐向量。
本发明实施例中,当需要抽取表格中的信息时,首先需要获取与所要抽取的信息相关的问题信息,之后即可从表格中查询与该问题信息相关的内容。例如,问题信息为“法国的首都是什么”,基于上述的表1,可以从表1中抽取出相应的答案,即“巴黎”。
其中,在获取到问题信息时,对该问题信息进行分词处理,通过对分词进行编码处理即可生成分词的隐向量,即第一隐向量。具体的,可以利用预先训练好的编码器对该每个分词进行编码,进而生成每个分词的隐向量。其中,步骤101中的“多个分词”可以是问题信息的全部分词,也可以是从所有分词中选择的部分分词,具体可基于实际情况而定。
可选的,本实施例中的问题信息为自然语言形式的信息,若用户输入的问题不是自然语言形式的内容是,可以进行转换。具体的,上述步骤“获取问题信息”包括:获取所要抽取的问题字段,将问题字段转换为自然语言形式的问题信息。
本发明实施例中,问题字段指的是与问题相关的字段,其一般概括性描述了问题,将其转换为自然语言形式的问题信息,更方便后续进行自然语言理解处理。例如,若用户所要抽取的信息是法国首都,则用户可以输入问题字段“法国首都”,之后即可将该问题字段转换为自然语言问题“法国的首都城市是什么”。
步骤102:获取目标表格并确定目标表格中的多个目标单元格,提取每个目标单元格的单元格内容,并确定每个目标单元格的位置信息。
本发明实施例中,目标表格为需要从中提取信息的表格,该目标表格包括多个单元格,将其中需要处理的单元格作为目标单元格;其中,可以从目标表格中选取部分单元格作为目标单元格,也可以选取所有的单元格作为目标单元格。同时,目标单元格中记录有相应的信息,即单元格内容,可以基于文字识别技术等提取每个目标单元格中的单元格内容。如上述表1所示,表1的第一行包含5个单元格,5个单元中的内容分别是“国家”、“所在大洲”、“首都城市”、“流通货币”、“主要语言”。此外,将目标表格作为一个二维平面,则每一个目标单元格位于该二维平面中的特定位置,本实施例中将该位置作为目标单元格的位置信息。具体的,可以将目标单元格的一个顶点所在位置作为该目标单元格的位置信息,或者将目标单元格的质心所在位置作为该目标单元格的位置信息,也可采用其他方式确定目标单元格的位置信息。
可选的,目标单元格的位置信息为二维参数。本实施例中,上述步骤102“确定每个目标单元格的位置信息”包括:
步骤A1:根据目标表格横向和纵向上单元格的总数量分别确定目标表格每行和每列的位置。
由于待提取的目标表格可能是结构复杂的表格,不同的单元格可能对应一行一列,也可能对应对行多列,如上述的表1;本发明实施例中首先确定目标表格横向和纵向的单元格总数量,之后即可把该目标表格按照最小单元进行行列划分,并确定每行每列的位置。在上述的表1中,横向单元格总数量为5,纵向单元格总数量也为5,即该表1可以划分为5×5个最小的单元格。其中,本实施例中“每行和每列的位置”可以是具体的坐标值;或者,也可以用每行或每列所对应的目标单元格来描述相应的位置,例如表1中,第一行对应有目标单元格“国家”、“所在大洲”、“首都城市”、“流通货币”、“主要语言”,第二列对应目标单元格“所在大洲”、“亚洲”、“欧洲”、“美洲”。
步骤A2:根据目标表格每行和每列的位置确定目标单元格在目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据目标单元格的起始行号、结束行号、起始列号和结束列号生成目标单元格的二维的位置信息。
本发明实施例中,使用行和列的二维位置信息来表示每个目标单元格在目标表格中的位置。其中,该位置信息包括起始行号、结束行号、起始列号和结束列号。例如,对于上述表1中的目标单元格“欧洲”,其起始行号是3,结束行号是4,起始列号是2,结束列号是2。本实施例中可以将起始行列号和结束行列号映射为四个可学习的位置向量,该四个位置向量即可表示二维的位置信息。
步骤103:对单元格内容进行分词处理,确定单元格内容的多个目标分词。
本发明实施例中,首先对单元格内容进行分词处理,从而可以确定单元格内容的目标分词,之后基于每个目标分词的词向量即可进行后续处理过程。其中,可以利用现有的分词模型对单元格内容进行分词处理,例如将单元格内容“首都城市”切分为“首都城市”,之后将每个单元格内容的目标分词映射为相应的词向量。或者,也可以以字为单位对单元格内容进行分词处理,例如将单元格内容“首都城市”切分为“首都城市”,即每个字均可以作为该单元格内容的一个分词。其中,单元格内容可以分为一个或多个分词,本实施例中可以将单元格内容的部分分词作为所需的目标分词,也可以将所有分词均作为目标分词,具体可基于实际情况而定。
步骤104:根据目标分词的词向量和目标分词所在目标单元格的位置信息生成目标分词的第二隐向量。
本发明实施例中,可以基于现有的词向量模型确定目标分词的词向量,之后基于预先训练好的编码器对目标分词的词向量进行编码处理,生成所需的隐向量,即第二隐向量。本实施例中,目标单元格具有相应的位置信息,该目标单元格的目标分词也具有相同的位置信息,且目标单元格中的所有目标分词共享同样的位置信息;本实施例结合目标分词的词向量和位置信息最终生成目标分词的第二隐向量,使得该第二隐向量可以更加完整的包含目标单元格中的表格化结构信息,即第二隐向量可以包含表格的结构特征。
步骤105:根据所有的第一隐向量和第二隐向量在目标表格中抽取与问题信息相匹配的目标单元格。
本发明实施例中,基于第一隐向量和第二隐向量来确定以第一隐向量表示的问题信息与以第二隐向量表示的目标单元格之间是否匹配;具体的,可以依次确定该问题信息与每个目标单元格之间是否匹配,并将最匹配的目标单元格作为最终选取的目标单元格。
可选的,可以基于双向注意力机制将自然语言的问题信息与目标单元格的单元格内容之间进行匹配处理。本实施例中,上述步骤105“根据所有的第一隐向量和第二隐向量在目标表格中抽取与问题信息相匹配的目标单元格”包括:
步骤A1:将所有的第一隐向量和目标单元格的所有第二隐向量进行双向注意力机制匹配,分别确定每个目标单元格的双向注意力向量。
步骤A2:根据目标单元格的双向注意力向量确定相应的单元格内容为问题信息答案的概率,并将概率最高的目标单元格作为与问题信息相匹配的目标单元格。
本发明实施例中,确定每个目标单元格内所有目标分词的第二隐向量,将目标单元格内的所有第二隐向量作为一组,并与问题信息的所有第一隐向量进行双向注意力机制匹配,进而可以确定每个目标单元格对应的双向注意力向量。之后即可与该双向注意力向量来目标单元格对应问题信息答案的概率,概率越高,则说明该目标单元格与问题信息之间的匹配度越高,即可以将概率最高的目标单元格作为与问题信息相匹配的目标单元格。具体的,在确定双向注意力向量之后,可以通过预先训练好的长短期记忆神经网络来预测目标单元格是问题信息答案的概率。其中,双向注意力机制的处理过程是现有的成熟技术,此处不做赘述。
本发明实施例提供的一种信息抽取的方法,将问题信息和目标单元格均编码为相应的隐向量,基于两个隐向量来确定与问题信息相匹配的目标单元格。本实施例将表格信息抽取问题转化内端到端的阅读理解问题,利用单元格的隐向量和位置信息来生成包含表格结构特征的隐向量,避免了错误传播的同时也减少了规则的参与,能够自动学习到表格中可以回答自然语言问题的单元格,进而可以提取出所需的单元格,实现表格信息提取。同时,将单元格的起始行列号和结束行列号映射为四个位置向量并生成二维的位置信息,可以更加准确且自适应地表示单元格的结构特征,能够适用于不同结构的表格,可以大幅度提高对复杂表格中信息提取的准确度。
在上述实施例的基础上,参见图2所示,上述步骤104“根据目标分词的词向量和目标分词所在目标单元格的位置信息生成目标分词的第二隐向量”,包括:
步骤1041:根据目标分词的词向量和目标分词所在目标单元格的位置信息确定每个目标分词的编码向量。
本发明实施例中,目标单元格的位置信息也为向量形式的信息,该位置信息可以是表示目标单元格二维位置的向量;基于包含语义特征的词向量和包含表格结构特征的位置信息,可以生成每个目标分词的编码向量,该编码向量包含语义特征和结构特征。可选的,可以以拼接的方式生成编码向量,即将目标分词的词向量和位置信息拼接在一起生成编码向量。
步骤1042:根据目标分词的编码向量以及目标分词之间的相似度确定目标分词的第二隐向量。
本发明实施例
中,可以基于预先训练好的编码器生成目标分词的第二隐向量,该编码器可以根据目标分词的编码向量以及目标分词之间的相似度确定目标分词的第二隐向量;其中,分词之间的相似度用于表示两个分词之间的关联关系。
可选的,可以基于自注意力机制生成目标分词的第二隐向量。具体的,上述步骤1042“根据目标分词的编码向量以及目标分词之间的相似度确定目标分词的第二隐向量”,包括:
步骤B1:根据目标分词的编码向量生成目标分词的查询向量qi、键向量ki和值向量vi,根据目标分词的查询向量qi与单元格内容的每个目标分词的键向量kj确定当前的目标分词分别与单元格内容的每个目标分词之间的相似度sij,且sij=f(qi,kj),j∈[1,n],n为单元格内容的目标分词总数量。
本发明实施例中,可以基于预先训练好的转换矩阵,将目标分词的编码向量分别转换为查询向量(query)、键向量(key)和值向量(value);其中,该单元格内容被分为n个目标分词,则第i个目标分词的查询向量表示为qi、键向量为ki和值向量为vi。
在计算第i个目标分词的隐向量(即第二隐向量)时,只需要确定该第i个目标分词与单元格内容中的n个分词(包含该第i个分词)之间的相似度即可。其中,sij=f(qi,kj),函数f(x,y)表示x与y之间的相似度,该函数f(x,y)具体可以为点积、拼接、感知机等,本实施例对此不做限定。可选的,为了简化计算,对于同一个目标分词,键向量可以与值向量相同,即ki=vi。
步骤B2:对相似度sij进行归一化处理,确定与相似度sij相对应的权重值ωij,根据权重值ωij以及每个目标分词的值向量生成目标分词的第二隐向量ai,且:
vj表示第j个目标分词的值向量。
本实施例中,可以利用softmax函数进行归一化处理,对n个相似度sij进行归一化处理,即可生成相应的n个权重值ωij,进而通过加权求和的方式确定第i个目标分词的第二隐向量ai。本实施例中,词向量包含目标分词的语义特征语义特征,故基于包含位置信息的编码向量可以生成包含语义特征和结构特征的第二隐向量;且利用自注意力机制可以更容易捕获单元格内容中远距离分词之间的相互依赖特征,可以更加有效地提取距离较远的两个目标分词之间的关联性。
本发明实施例提供的一种信息抽取的方法,将问题信息和目标单元格均编码为相应的隐向量,基于两个隐向量来确定与问题信息相匹配的目标单元格。本实施例将表格信息抽取问题转化内端到端的阅读理解问题,利用单元格的隐向量和位置信息来生成包含表格结构特征的隐向量,避免了错误传播的同时也减少了规则的参与,能够自动学习到表格中可以回答自然语言问题的单元格,进而可以提取出所需的单元格,实现表格信息提取。同时,将单元格的起始行列号和结束行列号映射为四个位置向量并生成二维的位置信息,可以更加准确且自适应地表示单元格的结构特征,能够适用于不同结构的表格,可以大幅度提高对复杂表格中信息提取的准确度。且利用自注意力机制可以更容易捕获单元格内容中远距离分词之间的相互依赖特征,可以更加有效地提取距离较远的两个目标分词之间的关联性。
以上详细介绍了信息抽取的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
基于同样的发明构思,本发明实施例提供了一种信息抽取的装置,参见图3所示,该装置包括:
问题获取模块31,用于获取问题信息,并确定所述问题信息中多个分词的第一隐向量;
预处理模块32,用于获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
目标分词确定模块33,用于对所述单元格内容进行分词处理,确定所述单元格内容的多个目标分词;
编码模块34,用于根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量;
信息抽取模块35,用于根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格。
在上述实施例的基础上,所述预处理模块32确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。
在上述实施例的基础上,所述编码模块34根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量,包括:
根据目标分词的词向量和所述目标分词所在目标单元格的位置信息确定每个所述目标分词的编码向量;
根据所述目标分词的编码向量以及目标分词之间的相似度确定所述目标分词的第二隐向量。
在上述实施例的基础上,所述编码模块34根据所述目标分词的编码向量以及目标分词之间的相似度确定所述目标分词的第二隐向量,包括:
根据所述目标分词的编码向量生成所述目标分词的查询向量qi、键向量ki和值向量vi,根据所述目标分词的查询向量qi与所述单元格内容的每个目标分词的键向量kj确定当前的所述目标分词分别与所述单元格内容的每个目标分词之间的相似度sij,且sij=f(qi,kj),j∈[1,n],n为所述单元格内容的目标分词总数量;
对所述相似度sij进行归一化处理,确定与相似度sij相对应的权重值ωij,根据所述权重值ωij以及每个目标分词的值向量生成所述目标分词的第二隐向量ai,且:
vj表示第j个目标分词的值向量。
在上述实施例的基础上,所述信息抽取模块35根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格,包括:
将所有的所述第一隐向量和目标单元格的所有所述第二隐向量进行双向注意力机制匹配,分别确定每个目标单元格的双向注意力向量;
根据所述目标单元格的所述双向注意力向量确定相应的单元格内容为所述问题信息答案的概率,并将概率最高的目标单元格作为与所述问题信息相匹配的目标单元格。
在上述实施例的基础上,所述问题获取模块31具体用于:获取所要抽取的问题字段,将所述问题字段转换为自然语言形式的问题信息。
本发明实施例提供的一种信息抽取的装置,将问题信息和目标单元格均编码为相应的隐向量,基于两个隐向量来确定与问题信息相匹配的目标单元格。本实施例将表格信息抽取问题转化内端到端的阅读理解问题,利用单元格的隐向量和位置信息来生成包含表格结构特征的隐向量,避免了错误传播的同时也减少了规则的参与,能够自动学习到表格中可以回答自然语言问题的单元格,进而可以提取出所需的单元格,实现表格信息提取。同时,将单元格的起始行列号和结束行列号映射为四个位置向量并生成二维的位置信息,可以更加准确且自适应地表示单元格的结构特征,能够适用于不同结构的表格,可以大幅度提高对复杂表格中信息提取的准确度。且利用自注意力机制可以更容易捕获单元格内容中远距离分词之间的相互依赖特征,可以更加有效地提取距离较远的两个目标分词之间的关联性。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的信息抽取的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图4示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的信息抽取的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种信息抽取的方法,其特征在于,包括:
获取问题信息,并确定所述问题信息中多个分词的第一隐向量;
获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
对所述单元格内容进行分词处理,确定所述单元格内容的多个目标分词;
根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量;
根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格。
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量,包括:
根据目标分词的词向量和所述目标分词所在目标单元格的位置信息确定每个所述目标分词的编码向量;
根据所述目标分词的编码向量以及目标分词之间的相似度确定所述目标分词的第二隐向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标分词的编码向量以及目标分词之间的相似度确定所述目标分词的第二隐向量,包括:
根据所述目标分词的编码向量生成所述目标分词的查询向量qi、键向量ki和值向量vi,根据所述目标分词的查询向量qi与所述单元格内容的每个目标分词的键向量kj确定当前的所述目标分词分别与所述单元格内容的每个目标分词之间的相似度sij,且sij=f(qi,kj),j∈[1,n],n为所述单元格内容的目标分词总数量;
对所述相似度sij进行归一化处理,确定与相似度sij相对应的权重值ωij,根据所述权重值ωij以及每个目标分词的值向量生成所述目标分词的第二隐向量ai,且:
vj表示第j个目标分词的值向量。
5.根据权利要求1所述的方法,其特征在于,所述根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格,包括:
将所有的所述第一隐向量和目标单元格的所有所述第二隐向量进行双向注意力机制匹配,分别确定每个目标单元格的双向注意力向量;
根据所述目标单元格的所述双向注意力向量确定相应的单元格内容为所述问题信息答案的概率,并将概率最高的目标单元格作为与所述问题信息相匹配的目标单元格。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述获取问题信息包括:
获取所要抽取的问题字段,将所述问题字段转换为自然语言形式的问题信息。
7.一种信息抽取的装置,其特征在于,包括:
问题获取模块,用于获取问题信息,并确定所述问题信息中多个分词的第一隐向量;
预处理模块,用于获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
目标分词确定模块,用于对所述单元格内容进行分词处理,确定所述单元格内容的多个目标分词;
编码模块,用于根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量;
信息抽取模块,用于根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-6任意一项所述的信息抽取的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6任意一项所述的信息抽取的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790447.6A CN110489423B (zh) | 2019-08-26 | 2019-08-26 | 一种信息抽取的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910790447.6A CN110489423B (zh) | 2019-08-26 | 2019-08-26 | 一种信息抽取的方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489423A true CN110489423A (zh) | 2019-11-22 |
CN110489423B CN110489423B (zh) | 2021-10-08 |
Family
ID=68554229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910790447.6A Active CN110489423B (zh) | 2019-08-26 | 2019-08-26 | 一种信息抽取的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489423B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913993A (zh) * | 2020-08-12 | 2020-11-10 | 望海康信(北京)科技股份公司 | 表格数据生成方法、装置、电子设备及计算机可读存储介质 |
CN113496119A (zh) * | 2020-03-20 | 2021-10-12 | 北京庖丁科技有限公司 | 抽取表格中的元组数据的方法、电子设备和计算机可读介质 |
CN113496117A (zh) * | 2020-04-02 | 2021-10-12 | 北京庖丁科技有限公司 | 交叉检查表格中单元格数字内容的方法和电子设备 |
CN114386505A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 文本向量提取模型的训练方法、装置、介质及计算机设备 |
CN115048916A (zh) * | 2022-05-27 | 2022-09-13 | 北京百度网讯科技有限公司 | 表格的处理方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709032A (zh) * | 2016-12-29 | 2017-05-24 | 深圳市华傲数据技术有限公司 | 抽取电子表格文档中结构化信息的方法及装置 |
CN106874411A (zh) * | 2017-01-22 | 2017-06-20 | 网易(杭州)网络有限公司 | 一种表格的搜索方法及搜索平台 |
JP2017207853A (ja) * | 2016-05-17 | 2017-11-24 | 日本電信電話株式会社 | 表セル検索装置、方法、及びプログラム |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
-
2019
- 2019-08-26 CN CN201910790447.6A patent/CN110489423B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017207853A (ja) * | 2016-05-17 | 2017-11-24 | 日本電信電話株式会社 | 表セル検索装置、方法、及びプログラム |
CN106709032A (zh) * | 2016-12-29 | 2017-05-24 | 深圳市华傲数据技术有限公司 | 抽取电子表格文档中结构化信息的方法及装置 |
CN106874411A (zh) * | 2017-01-22 | 2017-06-20 | 网易(杭州)网络有限公司 | 一种表格的搜索方法及搜索平台 |
CN107818075A (zh) * | 2017-10-16 | 2018-03-20 | 平安科技(深圳)有限公司 | 表格信息结构化提取方法、电子设备及计算机可读存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496119A (zh) * | 2020-03-20 | 2021-10-12 | 北京庖丁科技有限公司 | 抽取表格中的元组数据的方法、电子设备和计算机可读介质 |
CN113496117A (zh) * | 2020-04-02 | 2021-10-12 | 北京庖丁科技有限公司 | 交叉检查表格中单元格数字内容的方法和电子设备 |
CN113496117B (zh) * | 2020-04-02 | 2024-03-12 | 北京庖丁科技有限公司 | 交叉检查表格中单元格数字内容的方法和电子设备 |
CN111913993A (zh) * | 2020-08-12 | 2020-11-10 | 望海康信(北京)科技股份公司 | 表格数据生成方法、装置、电子设备及计算机可读存储介质 |
CN111913993B (zh) * | 2020-08-12 | 2024-02-23 | 望海康信(北京)科技股份公司 | 表格数据生成方法、装置、电子设备及计算机可读存储介质 |
CN114386505A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 文本向量提取模型的训练方法、装置、介质及计算机设备 |
CN115048916A (zh) * | 2022-05-27 | 2022-09-13 | 北京百度网讯科技有限公司 | 表格的处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110489423B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489423A (zh) | 一种信息抽取的方法、装置、存储介质及电子设备 | |
CN111027563A (zh) | 一种文本检测方法、装置及识别系统 | |
CN108648020A (zh) | 用户行为量化方法、系统、设备及存储介质 | |
CN107729865A (zh) | 一种手写体数学公式离线识别方法及系统 | |
CN110472675A (zh) | 图像分类方法、图像分类装置、存储介质与电子设备 | |
CN110489424B (zh) | 一种表格化信息提取的方法、装置、存储介质及电子设备 | |
CN110222780A (zh) | 物体检测方法、装置、设备和存储介质 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN113298152B (zh) | 模型训练方法、装置、终端设备及计算机可读存储介质 | |
CN111461105B (zh) | 一种文本识别方法和装置 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
CN115658955B (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN113822264A (zh) | 一种文本识别方法、装置、计算机设备和存储介质 | |
US20240046067A1 (en) | Data processing method and related device | |
CN109583367A (zh) | 图像文本行检测方法及装置、存储介质和电子设备 | |
CN112084779A (zh) | 用于语义识别的实体获取方法、装置、设备及存储介质 | |
CN117520590B (zh) | 海洋跨模态图文检索方法、系统、设备及存储介质 | |
Xu et al. | Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space | |
EP4060526A1 (en) | Text processing method and device | |
CN116777646A (zh) | 基于人工智能的风险识别方法、装置、设备及存储介质 | |
CN114445716B (zh) | 关键点检测方法、装置、计算机设备、介质及程序产品 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115222047A (zh) | 一种模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |