CN115481184A

CN115481184A - 信息抽取的方法、装置、电子设备及存储介质

Info

Publication number: CN115481184A
Application number: CN202211154645.1A
Authority: CN
Inventors: 娄杰; 戴岱; 贾巍; 陆垚杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-16

Abstract

本公开提供了一种信息抽取的方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及自然语言处理、深度学习等人工智能技术领域，可用于智慧城市场景。包括：将抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符的第一编码向量及抽取目标的第二编码向量；确定每两个第一编码向量间的第一匹配度、及每个第一编码向量与第二编码向量间的第二匹配度；根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本；根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本；根据第一参考结构文本及第二参考结构文本，确定目标三元组。由此，可以快速、准确地对从待抽取文本进行信息抽取。

Description

信息抽取的方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理、深度学习等人工智能技术领域，可用于智慧城市场景，具体涉及一种信息抽取的方法、装置、电子设备及存储介质。

背景技术

信息抽取技术通过对结构化、半结构化及非结构化文本数据进行分析处理，提取得到结构化文本信息，是自然语言处理领域一项基础且重要的任务环节。信息抽取在人工智能应用中扮演着非常重要的角色，越来越多的上层应用，依赖于信息抽取的结果。因此，如何准确、快速的基于抽取目标对待抽取文本进行信息抽取成为重点的研究方向。

发明内容

本公开提供了一种信息抽取的方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种信息抽取的方法，包括：

将当前的抽取目标及待抽取文本进行联合编码，以获取所述待抽取文本中每个字符对应的第一编码向量及所述抽取目标对应的第二编码向量；

确定每两个所述第一编码向量间的第一匹配度、及每个所述第一编码向量与所述第二编码向量间的第二匹配度；

根据所述第一匹配度，确定所述待抽取文本中包含的片段及第一参考结构文本；

根据所述片段中每个字符对应的第一编码向量与所述第二编码向量间的第二匹配度，确定第二参考结构文本；

根据所述第一参考结构文本及第二参考结构文本，确定所述抽取目标对应的目标三元组。

根据本公开的第二方面，提供了一种信息抽取的装置，包括：

获取模块，用于将当前的抽取目标及待抽取文本进行联合编码，以获取所述待抽取文本中每个字符对应的第一编码向量及所述抽取目标对应的第二编码向量；

第一确定模块，用于确定每两个所述第一编码向量间的第一匹配度、及每个所述第一编码向量与所述第二编码向量间的第二匹配度；

第二确定模块，用于根据所述第一匹配度，确定所述待抽取文本中包含的片段及第一参考结构文本；

第三确定模块，用于根据所述片段中每个字符对应的第一编码向量与所述第二编码向量间的第二匹配度，确定第二参考结构文本；

第四确定模块，用于根据所述第一参考结构文本及第二参考结构文本，确定所述抽取目标对应的目标三元组。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的信息抽取的方法。

根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的信息抽取的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实现如第一方面所述的信息抽取的方法的步骤。

本公开提供的信息抽取的方法、装置、电子设备及存储介质，存在如下有益效果：

本公开实施例中，先将当前的抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量，之后确定每两个第一编码向量间的第一匹配度、及每个第一编码向量与第二编码向量间的第二匹配度，进而根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本，根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本，最后根据第一参考结构文本及第二参考结构文本，确定抽取目标对应的目标三元组。由此，通过对抽取目标及待抽取文本进行联合编码，进而抽取待抽取文本中包含的第一参考结构文本，及与抽取目标关联的第二参考结构文本，以确定目标三元组，从而不仅可以快速、准确地基于抽取目标从待抽取文本抽取目标三元组，而且具有良好的迁移性及通用性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例提供的一种信息抽取的方法的流程示意图；

图2是根据本公开又一实施例提供的一种信息抽取的方法的流程示意图；

图3是根据本公开又一实施例提供的一种信息抽取的方法的流程示意图；

图4是根据本公开一实施例提供的一种信息抽取的装置的结构示意图；

图5是用来实现本公开实施例的信息抽取的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例涉及计算机视觉、深度学习等人工智能技术领域。

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它是计算机科学与语言学的交叉学科，又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言，人类的思维也就无从谈起，所以自然语言处理体现了人工智能的最高任务与境界，也就是说，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

下面参考附图描述本公开实施例的信息抽取的方法、装置、电子设备及存储介质。

其中，需要说明的是，本实施例的信息抽取的方法的执行主体为信息抽取的装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

图1是根据本公开一实施例提供的一种信息抽取的方法的流程示意图。

如图1所示，该信息抽取的方法包括：

S101：将当前的抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量。

其中，抽取目标可以为预先设置的需要从待抽取文本中抽取的目标信息对应的标签。比如，抽取目标中包含的标签可以包括“人物”、“出生地”、“国家”等。本公开对此不做限定。

其中，待抽取文本可以为待根据抽取目标进行信息抽取的文本。比如，待抽取文本可以是简历文本，项目计划文本等。本公开对此不做限定。

可选的，可以将抽取目标及待抽取文本拼接后，输入预先训练好的预训练语言模型中，使预训练语言模型对抽取目标及待抽取文本进行统一的编码，以获取预训练语言模型输出的待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量。

其中，第二编码向量中可以为抽取目标中每个标签中的每个字符对应的编码向量。

S102：确定每两个第一编码向量间的第一匹配度、及每个第一编码向量与第二编码向量间的第二匹配度。

可选的，可以采用欧式距离公式、曼哈顿距离公式计算两个第一编码向量之间的第一匹配度，或每个第一编码向量与第二编码向量之间的第二匹配度。

或者，还可以通过计算两个第一编码向量之间的余弦相似度，将余弦相似度作为两个第一编码向量之间的第一匹配度，计算每个第一编码向量与第二编码向量之间的余弦相似度，将余弦相似度作为每个第一编码向量与第二编码向量之间的第二匹配度。本公开在此不做限定。

S103：根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本。

其中，片段可以为待抽取文本中包含的由两个或两个以上字符组成的词语。比如，“李明”、“出生于”、“米国”等。本公开对此不做限定。

其中，第一参考结构文本可以为待抽取文本中包含的有“主语-宾语”等关联关系的片段组成的结构文本。

举例来说，待抽取文本为“李明出生于米国的首都莞城”，则待抽取文本包含的片段可以包括“李明”、“米国”、“莞城”；第一参考结构文本可以包括“李明-莞城”“米国-莞城”。本公开对此不做限定。

可选的，可以先确定第一匹配度大于第一阈值的两个第一编码向量分别对应的两个字符，之后将两个字符及待抽取文本中位于两个字符之间的字符，确定为一个片段，之后在两个片段的起始字符间的第一匹配度、及终止字符间的第一匹配度均大于第二阈值的情况下，确定两个片段为一个第一参考结构文本。由此，根据设定的第一阈值和第二阈值，可以准确地确定待抽取文本中包含的文本，及第一参考结构文本。

其中，第一阈值可以为预先设置的数值。比如，第一阈值可以为0.5、0.8等等。本公开对此不做限定。

举例来说，若第一阈值可以为0.5，待抽取文本为“李明出生于米国的首都莞城”，“李”对应的第一编码向量与“明”对应的第一编码向量间的第一匹配度大于0.5，则确定“李明”为一个片段。若待抽取文本为“李三明出生于米国的首都莞城”，“李”对应的第一编码向量与“明”对应的第一编码向量间的第一匹配度大于0.5，则确定“李三明”为一个片段。

本公开实施例中，在确定了待抽取文本中包含的片段之后，还可以进一步确定每两个片段之间是否存在“主语-宾语”关联关系，进而获取待抽取文本中包含的第一参考结构文本。其中，待抽取文本中包含的第一参考结构文本的数量可以为一个，也可以为多个。本公开对此不做限定。

其中，第二阈值为预先设置的数值。比如，第二阈值可以为0.6、0.9等等。需要说明的是，第二阈值的取值与第一阈值的取值可以相同，也可以不同。本公开对此不做限定。

举例来说，第二阈值可以为0.9，待抽取文本为“李明出生于米国的首都莞城”，待抽取文本中包含的片段包括：“李明”“米国”、“莞城”，若要确定“李明”与“莞城”是否为一个第一参考结构文本，则可以先确定“李”与“莞”之间的第一匹配度是否大于0.9、“明”与“城”之间的第一匹配度是否大于0.9，在“李”与“莞”之间的第一匹配度，“明”与“城”之间的第一匹配度均大于0.9的情况下，确定“李明-莞城”为一个第一参考结构文本。

可选的，在确定了片段之后，还可以根据片段中包含的每个字符对应的第一编码向量，确定每个片段对应的编码向量，进而根据每两个片段分别对应的编码向量，确定每两个片段之间的匹配度，在两个片段对应的匹配度大于第二阈值的情况下，确定两个片段可以组成一个第一参考结构文本。

S104：根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本。

其中，第二参考结构文本可以为由抽取目标中包含的标签与待抽取文本中包含的与标签对应的片段组成的结构文本。比如“人物-张三”、“国家-米国”“出生地-莞城”等。

可选的，在抽取目标中第二标签的起始字符与第一片段的起始字符间的第二匹配度、及第二标签的终止字符与第一片段的终止字符间的第二匹配度均大于第三阈值的情况下，确定第二标签与第一片段为一个第二参考结构文本。由此，将抽取目标中标签的起止字符与待抽取文本中，片段的起止字符分别进行匹配，在起始字符与终止字符均匹配的情况下，确定为一个第二参考结构文本，从而提高了获取的第二参考结构文本的准确性。

其中，第三阈值为预先设置的数值。比如，第三阈值可以为0.88、0.66等等。需要说明的是，第三阈值的取值与第一阈值的取值、第二阈值的取值可以相同，也可以不同。本公开对此不做限定。

举例来说，若第三阈值可以为0.88，第二标签为“人物”，第一片段为“李明”，第二标签的起始字符为“人”，终止字符为“物”；第一片段的起始字符为“杨”，终止字符为“明”，“人”对应的第二编码向量与“杨”对应的第一编码向量之间的第二匹配度大于0.88，“物”对应的第二编码向量与“明”对应的第一编码向量之间的第二匹配度大于0.88，确定“人物-李明”为一个第二参考结构文本。

S105：根据第一参考结构文本及第二参考结构文本，确定抽取目标对应的目标三元组。

其中，三元组可以为[主语实体、谓语标签、宾语实体]的结构，谓语标签定义了主语实体与宾语实体之间的关系，主语实体和宾语实体分别为文本中的主语和宾语。目标三元组可以为基于抽取目标对待抽取文本进行信息抽取后得到的三元组。

本公开实施例中，在确定了第一参考结构文本及第二参考结构文本之后，可以对第一参考结构文本与第二参考结构文本进行组合，以确定目标三元组。举例来说，第一参考结构文本为“李明-莞城”，第二参考结构文本为“出生地-莞城”，则组成的目标三元组为“李明-出生地-莞城”。

图2是根据本公开又一实施例提供的一种信息抽取的方法的流程示意图。如图2所示，该信息抽取的方法包括：

S201：将当前的抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量。

S202：确定每个第一编码向量属于三元组中每个类型元素的概率值。

其中，若三元组的结构为[主语实体、谓语标签、宾语实体]，则三元组中每个类型元素即为主语实体、谓语标签、宾语实体。每个第一编码向量属于三元组中每个类型元素的概率值，包括：第一编码向量是主语实体的起始字符的概率，第一编码向量是主语实体的终止字符的概率，第一编码向量是谓语标签的起始字符的概率，第一编码向量是谓语标签的终止字符的概率，第一编码向量是宾语实体的起始字符的概率，第一编码向量是宾语实体的终止字符的概率。

可选的，可以先确定第一编码向量与三元组中每个类型元素的起止字符分别对应的编码向量之间的匹配度，并将最大匹配度对应的类型元素确定为第一编码向量所属的类型元素，最大匹配度为对应的概率值。

S203：根据每两个第一编码向量属于同一类型元素的概率值，确定每两个第一编码向量间的第一匹配度。

可选的，可以将每两个第一编码向量属于同一类型元素的概率值的乘积，确定为每两个第一编码向量间的第一匹配度。

可选的，可以将一个第一编码向量属于第一类型元素的起始字符的概率值，与另一个第一编码向量属于第一类型元素的终止字符的概率值的乘积，确定为一个第一编码向量与另一个第一编码向量间的第一匹配度。由此，可以更加准确地确定每两个第一编码向量间的第一匹配度。

举例来说，两个第一编码向量分别为“杨”对应的第一编码向量、“明”对应的第一编码向量，“杨”对应的第一编码向量属于第一类型元素“主语实体”的起始字符的概率值为0.9,“明”对应的第一编码向量属于第一类型元素“主语实体”的概率值为0.7，确定“杨”对应的第一编码向量与“明”对应的第一编码向量之间的第一匹配度为0.63。

S204：确定第一匹配度大于第一阈值的两个第一编码向量分别与第二编码向量间的第二匹配度。

本公开实施例中，可以确定第一匹配度大于第一阈值的两个第一编码向量，分别与抽取目标中每个标签的字符对应的第二编码向量之间的第二匹配度。由此，无需确定第一匹配度小于或等于第一阈值的两个第一编码向量分别与第二编码向量间的第二匹配度，节省了计算资源，提高了获取目标三元组的效率。

可选的，可以先从抽取目标中，确定出与两个第一编码向量所属的元素类型关联的候选标签，之后确定两个第一编码向量，分别与候选标签中的起止字符对应的第二编码向量间的第二匹配度。由此，无需确定与两个第一编码向量所属的元素类型无关的标签对应的第二编码向量，从而进一步节省了计算资源，进而进一步提高了获取待抽取文本中包含的目标三元组的效率。

比如，元素类型为主语实体，则对应的候选标签可以为实体类型的标签，比如“人物”、“国家”等。元素类型为谓语标签，则对应的候选标签可以为关系类型的标签，比如“出生地”等。

可选的，在抽取目标中的第一标签对应的属性，与两个第一编码向量所属的元素的类型匹配的情况下，确定第一标签为两个第一编码向量关联的一个候选标签。由此，可以准确地确定两个第一编码向量所属的元素类型关联的候选标签。

其中，抽取目标中的第一标签的属性可以包括实体标签、关系标签等。

举例来说，若第一匹配度大于第一阈值的两个第一编码向量所属的元素类型为主语实体，抽取目标中包括：“人物”、“国家”、“出生地”等，“人物”、“国家”为实体标签，“出生地”为关系标签，则对应的候选标签为“人物”、“国家”，进而确定两个第一编码向量，分别与“人物”、“国家”中的起止字符对应的第二编码向量间的第二匹配度。

S205：根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本。

S206：根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本。

S207：根据第一参考结构文本及第二参考结构文本，确定抽取目标对应的目标三元组。

其中，步骤S205至步骤S207的具体实现形式，可参照本公开中，其他各实施例中的详细步骤，此处不再具体描述。

本公开实施例中，先将当前的抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量，之后确定每个第一编码向量属于三元组中每个类型元素的概率值，并根据每两个第一编码向量属于同一类型元素的概率值，确定每两个第一编码向量间的第一匹配度，进而确定第一匹配度大于第一阈值的两个第一编码向量分别与第二编码向量间的第二匹配度，之后再根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本，根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本，最后根据第一参考结构文本及第二参考结构文本，确定抽取目标对应的目标三元组。由此，通过每两个第一编码向量属于同一类型元素的概率值，确定每两个第一编码向量间的第一匹配度，并确定第一匹配度大于第一阈值的两个第一编码向量分别与第二编码向量间的第二匹配度，从而降低了需要计算的第一匹配度、及第二匹配度的数据量，进而提高了基于抽取目标从待抽取文本抽取目标三元组的效率。

图3是根据本公开又一实施例提供的一种信息抽取的方法的流程示意图；如图3所示，该信息抽取的方法包括：

S301：将当前的抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量。

S302：确定每两个第一编码向量间的第一匹配度、及每个第一编码向量与第二编码向量间的第二匹配度。

S303：根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本。

S304：根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本。

其中，步骤S301至步骤S304的具体实现形式，可参照本公开中，其他各实施例中的详细描述，此处不再具体赘述。

S305：将包含同一片段的一个第一参考结构文本及一个第二参考结构文本进行组合，以生成候选三元组，一个候选三元组中包括一个指定类型的片段及一个关系标签。

其中，指定类型的片段可以为三元组中的主语实体，即文本中的主语片段。关系标签为抽取目标中包含的谓语标签。

举例来说，抽取目标包括“人物”、“国家”、“出生地”；待抽取文本为“李明出生于米国的首都莞城”；第一参考结构文本可以包括“李明-莞城”、“米国-莞城”；第二参考结构文本包括“人物-李明”“国家-米国”、“出生地-莞城”；其中，包含“莞城”的第一参考结构文本包括：“李明-莞城”、“米国-莞城”；包含“莞城”的第二参考结构文本包括“出生地-莞城”，符合候选三元组中包括一个指定类型的片段及一个关系标签条件的候选三元组为“李明-出生地-莞城”、“米国-出生地-莞城”。

由此，可以看出“米国-出生地-莞城”是一个错误的三元组，因此，本公开实施例中可以进一步地对主语实体与谓语标签关系错误的候选三元组中进行过滤，以确定目标三元组。

S306：根据每个候选三元组中指定类型的片段与关系标签间的第三匹配度，对候选三元组进行过滤，以确定目标三元组。

可选的，可以将第一候选三元组中指定类型的片段的起始字符对应的第一编码向量，与第一候选三元组中关系标签的起始字符对应的第二编码向量间的乘积，确定为第一候选三元组对应的一个第三匹配度，将指定类型的片段的终止字符对应的第一编码向量，与关系标签的终止字符对应的第二编码向量间的乘积，确定为第一候选三元组对应的另一个第三匹配度。在一个第三匹配度及另一个第三匹配度均大于第四阈值的情况下，确定第一候选三元组为一个目标三元组。

由此，可以根据指定类型的片段的起始字符与关系标签的起始字符之间的第三匹配度，及根据指定类型的片段的起始字符与关系标签的起始字符之间的第三匹配度，准确地确定候选三元组中指定类型的片段与关系标签之间的关联关系是否正确，进而可以准确地确定目标三元组。

其中，第四阈值可以为预先设置的数值。比如，第四阈值可以为0.8、0.75等等。需要说明的是，第四阈值的取值与第一阈值的取值、第二阈值的取值、第三阈值的取值可以相同，也可以不同。本公开对此不做限定。

举例来说，候选三元组为“李明-出生地-莞城”，“李明-出生地-莞城”中指定类型的片段为“李明”，关系标签为“出生地”。确定“李”和“出”之间的第三匹配度，“明”和“地”之间的第三匹配度；若“李”和“出”之间的第三匹配度，“明”和“地”之间的第三匹配度均大于第四阈值，确定“李明-出生地-莞城”为一个目标三元组。

可选的，还可以根据每个候选三元组中指定类型的片段包含的每个字符对应的第一编码向量，拼接得到指定类型的片段对应的编码向量，关系标签中每个字符对应的第二编码向量，拼接得到关系标签对应的编码向量，在指定类型的片段对应的编码向量与关系标签对应的编码向量之间的匹配度大于第四阈值的情况下，确定对应的候选三元组为一个目标三元组。

本公开实施例中，先将当前的抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量，之后确定每两个第一编码向量间的第一匹配度、及每个第一编码向量与第二编码向量间的第二匹配度，进而根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本，根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本，最后将包含同一片段的一个第一参考结构文本及一个第二参考结构文本进行组合，以生成候选三元组，一个候选三元组中包括一个指定类型的片段及一个关系标签，根据每个候选三元组中指定类型的片段与关系标签间的第三匹配度，对候选三元组进行过滤，以确定目标三元组。由此，可以对基于第一参考结构文本及一个第二参考结构文本生成的候选三元组进行筛选，避免生成的候选三元组中的主语实体和谓语标签存在歧义，进而提高了生成的目标三元组的准确性。

图4是根据本公开一实施例提供的一种信息抽取的装置的结构示意图；如图4所示，该信息抽取的装置400，包括：

获取模块410，用于将当前的抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量；

第一确定模块420，用于确定每两个第一编码向量间的第一匹配度、及每个第一编码向量与第二编码向量间的第二匹配度；

第二确定模块430，用于根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本；

第三确定模块440，用于根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本；

第四确定模块450，用于根据第一参考结构文本及第二参考结构文本，确定抽取目标对应的目标三元组。

在本公开的一些实施例中，其中，第一确定模块420，包括：

第一确定单元，用于确定每个第一编码向量属于三元组中每个类型元素的概率值；

第二确定单元，用于根据每两个第一编码向量属于同一类型元素的概率值，确定每两个第一编码向量间的第一匹配度；

第三确定单元，用于确定第一匹配度大于第一阈值的两个第一编码向量分别与第二编码向量间的第二匹配度。

在本公开的一些实施例中，其中，第二确定单元，具体用于：

将一个第一编码向量属于第一类型元素的起始字符的概率值，与另一个第一编码向量属于第一类型元素的终止字符的概率值的乘积，确定为一个第一编码向量与另一个第一编码向量间的第一匹配度。

在本公开的一些实施例中，其中，第三确定单元，具体用于：

从抽取目标中，确定出与两个第一编码向量所属的元素类型关联的候选标签；

确定两个第一编码向量，分别与候选标签中的起止字符对应的第二编码向量间的第二匹配度。

在本公开的一些实施例中，其中，第三确定单元，还具体用于：

在抽取目标中的第一标签对应的属性，与两个第一编码向量所属的元素的类型匹配的情况下，确定第一标签为两个第一编码向量关联的一个候选标签。

在本公开的一些实施例中，其中，第二确定模块430，具体用于：

确定第一匹配度大于第一阈值的两个第一编码向量分别对应的两个字符；

将两个字符及待抽取文本中位于两个字符之间的字符，确定为一个片段；

在两个片段的起始字符间的第一匹配度、及终止字符间的第一匹配度均大于第二阈值的情况下，确定两个片段为一个第一参考结构文本。

在本公开的一些实施例中，其中，第三确定模块440，具体用于：

在抽取目标中第二标签的起始字符与第一片段的起始字符间的第二匹配度、及第二标签的终止字符与第一片段的终止字符间的第二匹配度均大于第三阈值的情况下，确定第二标签与第一片段为一个第二参考结构文本。

在本公开的一些实施例中，其中，第四确定模块450，具体用于：

将包含同一片段的一个第一参考结构文本及一个第二参考结构文本进行组合，以生成候选三元组，一个候选三元组中包括一个指定类型的片段及一个关系标签；

根据每个候选三元组中指定类型的片段与关系标签间的第三匹配度，对候选三元组进行过滤，以确定目标三元组。

在本公开的一些实施例中，其中，第四确定模块450，还具体用于：

将第一候选三元组中指定类型的片段的起始字符对应的第一编码向量，与第一候选三元组中关系标签的起始字符对应的第二编码向量间的乘积，确定为第一候选三元组对应的一个第三匹配度；

将指定类型的片段的终止字符对应的第一编码向量，与关系标签的终止字符对应的第二编码向量间的乘积，确定为第一候选三元组对应的另一个第三匹配度；

在一个第三匹配度及另一个第三匹配度均大于第四阈值的情况下，确定第一候选三元组为一个目标三元组。

需要说明的是，前述对信息抽取的方法的解释说明也适用于本实施例的信息抽取的装置，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如信息抽取的方法。例如，在一些实施例中，信息抽取的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的信息抽取的方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息抽取的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网及区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本实施例中，先将当前的抽取目标及待抽取文本进行联合编码，以获取待抽取文本中每个字符对应的第一编码向量及抽取目标对应的第二编码向量，之后确定每两个第一编码向量间的第一匹配度、及每个第一编码向量与第二编码向量间的第二匹配度，进而根据第一匹配度，确定待抽取文本中包含的片段及第一参考结构文本，根据片段中每个字符对应的第一编码向量与第二编码向量间的第二匹配度，确定第二参考结构文本，最后根据第一参考结构文本及第二参考结构文本，确定抽取目标对应的目标三元组。由此，通过对抽取目标及待抽取文本进行联合编码，进而抽取待抽取文本中包含的第一参考结构文本，及与抽取目标关联的第二参考结构文本，以确定目标三元组，从而不仅可以快速、准确地基于抽取目标从待抽取文本抽取目标三元组，而且具有良好的迁移性及通用性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在本公开的描述中，所使用的词语“如果”及“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“在……情况下”。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息抽取的方法，包括：

根据所述第一参考结构文本及所述第二参考结构文本，确定所述抽取目标对应的目标三元组。

2.如权利要求1所述的方法，其中，所述确定每两个所述第一编码向量间的第一匹配度、及每个所述第一编码向量与所述第二编码向量间的第二匹配度，包括：

确定每个所述第一编码向量属于三元组中每个类型元素的概率值；

根据每两个第一编码向量属于同一类型元素的概率值，确定每两个所述第一编码向量间的第一匹配度；

确定第一匹配度大于第一阈值的两个第一编码向量分别与所述第二编码向量间的第二匹配度。

3.如权利要求2所述的方法，其中，所述根据每两个第一编码向量属于同一类型元素的概率值，确定每两个所述第一编码向量间的第一匹配度，包括：

将一个第一编码向量属于第一类型元素的起始字符的概率值，与另一个第一编码向量属于所述第一类型元素的终止字符的概率值的乘积，确定为所述一个第一编码向量与所述另一个第一编码向量间的第一匹配度。

4.如权利要求2所述的方法，其中，所述确定第一匹配度大于第一阈值的两个第一编码向量分别与所述第二编码向量间的第二匹配度，包括：

从所述抽取目标中，确定出与所述两个第一编码向量所属的元素类型关联的候选标签；

确定所述两个第一编码向量，分别与所述候选标签中的起止字符对应的第二编码向量间的第二匹配度。

5.如权利要求4所述的方法，其中，所述从所述抽取目标中，确定出与所述两个第一编码向量所属的元素类型关联的候选标签，包括：

在所述抽取目标中的第一标签对应的属性，与所述两个第一编码向量所属的元素的类型匹配的情况下，确定所述第一标签为所述两个第一编码向量关联的一个候选标签。

6.如权利要求1所述的方法，其中，所述根据所述第一匹配度，确定所述待抽取文本中包含的片段及第一参考结构文本，包括：

将所述两个字符及所述待抽取文本中位于所述两个字符之间的字符，确定为一个片段；

在两个片段的起始字符间的第一匹配度、及终止字符间的第一匹配度均大于第二阈值的情况下，确定所述两个片段为一个第一参考结构文本。

7.如权利要求1所述的方法，其中，所述根据所述片段中每个字符对应的第一编码向量与所述第二编码向量间的第二匹配度，确定第二参考结构文本，包括：

在所述抽取目标中第二标签的起始字符与第一片段的起始字符间的第二匹配度、及所述第二标签的终止字符与所述第一片段的终止字符间的第二匹配度均大于第三阈值的情况下，确定所述第二标签与所述第一片段为一个第二参考结构文本。

8.如权利要求1所述的方法，其中，所述根据所述第一参考结构文本及所述第二参考结构文本，确定所述抽取目标对应的目标三元组，包括：

9.如权利要求8所述的方法，其中，所述根据每个候选三元组中指定类型的片段与关系标签间的第三匹配度，对候选三元组进行过滤，以确定目标三元组，包括：

将第一候选三元组中指定类型的片段的起始字符对应的第一编码向量，与所述第一候选三元组中关系标签的起始字符对应的第二编码向量间的乘积，确定为所述第一候选三元组对应的一个第三匹配度；

将所述指定类型的片段的终止字符对应的第一编码向量，与所述关系标签的终止字符对应的第二编码向量间的乘积，确定为所述第一候选三元组对应的另一个第三匹配度；

在所述一个第三匹配度及另一个第三匹配度均大于第四阈值的情况下，确定所述第一候选三元组为一个目标三元组。

10.一种信息抽取的装置，包括：

11.如权利要求10所述的装置，其中，所述第一确定模块，包括：

第一确定单元，用于确定每个所述第一编码向量属于三元组中每个类型元素的概率值；

第二确定单元，用于根据每两个第一编码向量属于同一类型元素的概率值，确定每两个所述第一编码向量间的第一匹配度；

第三确定单元，用于确定第一匹配度大于第一阈值的两个第一编码向量分别与所述第二编码向量间的第二匹配度。

12.如权利要求11所述的装置，其中，所述第二确定单元，具体用于：

13.如权利要求11所述的装置，其中，所述第三确定单元，具体用于：

14.如权利要求13所述的装置，其中，所述第三确定单元，还具体用于：

15.如权利要求10所述的装置，其中，所述第二确定模块，具体用于：

16.如权利要求10所述的装置，其中，所述第三确定模块，具体用于：

17.如权利要求10所述的装置，其中，所述第四确定模块，具体用于：

18.如权利要求17所述的装置，其中，所述第四确定模块，还具体用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现权利要求1-9中任一项所述方法的步骤。