CN114969329A

CN114969329A - 文本信息的确定方法及装置

Info

Publication number: CN114969329A
Application number: CN202210503481.2A
Authority: CN
Inventors: 徐国粮; 曾晋科; 陆中秋; 胡佳男; 牟小峰
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-30

Abstract

本发明涉及计算机技术领域，提供一种文本信息的确定方法及装置。该方法包括：获取目标文本数据的多个实体类别向量和至少一个关系类别向量；获取样本文本数据的样本实体类别向量、样本关系类别向量以及样本组合向量；根据目标文本数据中向量与样本文本数据中向量的相似度，确定目标实体类别向量与目标关系类别向量；根据目标实体类别向量和目标关系类别向量组合得到的多个目标组合向量与样本组合向量的相似度，确定目标文本数据的实体类别和关系类别。本发明提供的文本信息的确定方法及装置，通过以样本文本数据作为参照，实现了只需要少量样本数据即可对文本信息中实体和关系的确定，提升了文本信息抽取效率，降低了文本信息抽取错误率。

Description

文本信息的确定方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本信息的确定方法及装置。

背景技术

文本信息的确定是指从自然语言形式的文本中抽取出文本的重要信息。其中，文本的重要信息可以通过抽取文本的实体，以及实体对应的关系确定。

在现有的文本信息的抽取技术中，通过构建两个抽取模型即实体识别模型和关系抽取模型，基于流水线的方式将实体关系抽取分为两个部分，分别进行实体识别和关系抽取，或者通过联合实体关系统一建模进行实体关系抽取。流水线式的分开抽取方法，忽略了实体与关系之间的内在依赖关系，且实体识别的错误会传递给下一步的关系抽取，抽取错误率较高。联合实体关系抽取需要依赖大量高质量的标注数据样本，标注成本极高，导致抽取效率低。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种文本信息的确定方法，通过以样本文本数据作为参照，确定与样本文本数据的相似度，实现了只需要少量样本数据即可对文本信息中实体和关系的同时抽取，提升了抽取效率的同时降低了抽取的错误率。

本发明还提出一种文本信息的确定装置。

本发明还提出一种电子设备。

本发明还提出一种非暂态计算机可读存储介质。

本发明还提出一种计算机程序产品。

根据本发明第一方面实施例的文本信息的确定方法，包括：获取目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量；获取样本文本数据的样本实体类别向量、所述样本实体类别向量的样本关系类别向量以及所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量；根据所述多个实体类别向量和所述样本实体类别向量的相似度，确定目标实体类别向量；根据所述至少一个关系类别向量和所述样本关系类别向量的相似度，确定目标关系类别向量；组合所述目标实体类别向量和所述目标关系类别向量，确定所述目标文本数据的多个目标组合向量；根据所述多个目标组合向量和所述样本组合向量的相似度，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别。

根据本发明实施例的文本信息的确定方法，通过以样本文本数据作为参照，确定目标文本数据中实体、关系以及组合向量，与样本文本数据中实体、关系以及组合向量的相似度，实现了只需要少量样本数据即可对文本信息中实体和关系的确定，提升了文本信息的抽取效率。与此同时，对文本信息中实体和关系的同时进行抽取并对实体和关系的组合向量进行筛选，降低了文本信息抽取的错误率。

根据本发明的一个实施例，获取目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量，包括：将目标文本数据输入联合基底模型，得到所述联合基底模型输出的所述目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量；所述联合基底模型是联合实体识别任务与关系抽取任务得到的；所述联合基底模型是基于训练数据集，以及标记了所述训练数据集对应的实体标签和标记了所述训练数据集对应的关系标签对初始联合基底模型进行训练得到的，所述训练数据集包括通用领域数据。通过联合实体识别任务与关系抽取任务构建联合基底模型，实现对目标文本数据的实体类别向量和关系类别向量的同时获取，避免了实体类别与关系类别分开获取导致的忽略实体类别和关系类别之间的内在关系，以及实体类别识别的错误会传递给下一步的关系类别的抽取，降低了抽取的错误率。

根据本发明的一个实施例，获取样本文本数据的样本实体类别向量、所述样本实体类别向量的样本关系类别向量以及所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量，包括：将样本文本数据输入所述联合基底模型，得到所述联合基底模型输出的所述样本文本数据的样本实体类别向量和所述样本实体类别向量的样本关系类别向量；组合所述样本实体类别向量和所述样本关系类别向量，得到所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量。通过将样本文本数据输入所述联合基底模型，得到样本文本数据的样本实体类别向量、样本关系类别向量以及样本组合向量，为后续目标文本向量中实体类别和关系类别的确定提供了基础。

根据本发明的一个实施例，还包括：根据以下任一项，确定所述初始联合基底模型收敛：相加所述实体识别任务的损失值与所述关系抽取任务的损失值，得到所述初始联合基底模型的相加损失值，所述相加损失值收敛；根据预设的权重系数，加权相加所述实体识别任务的损失值与所述关系抽取任务的损失值，得到所述初始联合基底模型的加权损失值，所述加权损失值收敛；所述实体识别任务损失值收敛或者所述关系抽取任务损失值收敛。通过在初始基底模型的训练过程中，确定初始基底模型损失值的计算方式，从而完成模型的训练，为后续通过训练后的模型进行文本信息中实体类别和关系类别的获取提供了基础。

根据本发明的一个实施例，组合所述目标实体类别向量和所述目标关系类别向量，确定所述目标文本数据的多个目标组合向量，包括：遍历所述目标实体类别向量和所述目标关系类别向量的所有组合方式，根据所述所有组合方式，组合所述目标实体类别向量和所述目标关系类别向量，得到所述目标文本数据的多个目标组合向量。通过获取目标实体类别向量和目标关系类别向量后。遍历获取目标实体类别向量和目标关系类别向量的所有组合方式，得到目标文本数据的多个目标组合向量，为后续通过多个目标组合向量进行文本信息中实体类别和关系类别的确定提供了基础。

根据本发明的一个实施例，根据所述多个目标组合向量和所述样本组合向量的相似度，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别，包括：确定所述多个目标组合向量中与所述样本组合向量的相似度最高的组合向量，并将所述相似度最高的组合向量作为所述目标文本数据的组合向量；根据所述目标文本数据的组合向量，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别。通过相似度计算，以样本文本数据中的样本组合向量作为参考，确定目标文本数据的组合向量，实现了目标文本数据的关系类别和实体类别的确定。

根据本发明的一个实施例，根据所述多个实体类别向量和所述样本实体类别向量的相似度，确定目标实体类别向量，包括：确定所述多个实体类别向量中与所述样本实体类别向量的相似度最高的实体类别向量，并将所述相似度最高的实体类别向量作为所述目标实体类别向量；和/或，所述根据所述至少一个关系类别向量和所述样本关系类别向量的相似度，确定目标关系类别向量，包括：确定所述至少一个关系类别向量中与所述样本关系类别向量的相似度最高的关系类别向量，并将所述相似度最高的关系类别向量作为所述目标关系类别向量。通过将相似度最高的实体类别向量作为目标实体类别向量以及将相似度最高的关系类别向量作为所述目标关系类别向量，实现了对目标文本数据的多个实体类别向量的筛选。

根据本发明第二方面实施例的电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述文本信息的确定方法。

根据本发明第三方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本信息的确定方法。

根据本发明第四方面实施例的计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本信息的确定方法。

本发明实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

通过以样本文本数据作为参照，确定目标文本数据中实体、关系以及组合向量，与样本文本数据中实体、关系以及组合向量的相似度，实现了只需要少量样本数据即可对文本信息中实体和关系的确定，提升了文本信息的抽取效率。与此同时，对文本信息中实体和关系的同时进行抽取并对实体和关系的组合向量进行筛选，降低了文本信息抽取的错误率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的文本信息的确定方法的流程示意图；

图2是本发明实施例提供的组合方式示意图；

图3是应用本发明实施例提供的文本信息的确定方法的流程示意图；

图4是本发明实施例提供的文本信息的确定装置的结构示意图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的文本信息的确定方法的流程示意图。参照图1，本发明实施例提供的文本信息的确定方法可以包括：

步骤110，获取目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量；

步骤120，获取样本文本数据的样本实体类别向量、所述样本实体类别向量的样本关系类别向量以及所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量；

步骤130，根据所述多个实体类别向量和所述样本实体类别向量的相似度，确定目标实体类别向量；根据所述至少一个关系类别向量和所述样本关系类别向量的相似度，确定目标关系类别向量；

步骤140，组合所述目标实体类别向量和所述目标关系类别向量，确定所述目标文本数据的多个目标组合向量；

步骤150，根据所述多个目标组合向量和所述样本组合向量的相似度，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别。

本发明实施例提供的文本信息的确定方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)或个人计算机(personal computer，PC)等，或者还可以是家用智能电器等，本发明实施例不作具体限定。

下面以计算机执行本发明实施例提供的文本信息的确定方法为例，详细说明本发明实施例的技术方案。

需要说明的是，文本信息的确定，旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。其中，抽取结构化信息是指文本信息中实体类别与关系类别的抽取。实体类别与关系类别抽取的目的是从文本中抽取实体类别以及实体类别之间的关系。例如，从给定文本“A担任B学会主席”中抽取出实体类别为“A”和“B学会”，关系类别为“担任主席”。抽取出的实体类别以及关系类别后续可作为各类下游应用(如，搜索引擎、问答系统等)的外部资源。

在步骤110中，获取目标文本数据的多个实体类别向量和实体类别向量对应的关系类别向量。

目标文本数据为任意一待抽取实体类别与关系类别的文本。实体类别向量是实体的向量形式，关系类别向量是关系类别的向量形式。通过获取关系类别和实体类别的向量的形式，方便对抽取的实体类别和关系类别进行进一步处理。

例如，若目标文本数据是：“A地是B国家的首都”。则对目标文本数据进行抽取后，得到多个实体类别，例如实体类别分别为“A地”以及“B国家”，以及实体类别“A地”与实体“B国家”的关系类别“首都”。实体类别“A地”与实体类别“B国家”以及关系类别“首都”，可以进行组合，共同构成目标文本数据。

可以理解的是，通过具体的实体类别向量，可以确定实体类别向量对应的实体。同理，通过具体的关系类别向量，可以确定实体关系类别向量对应的关系。

在步骤120中，选取样本文本数据，并获取样本文本数据的样本实体类别向量、样本实体类别向量的样本关系类别向量以及将获取的样本实体类别向量与样本关系类别向量组合，得到样本组合向量。

样本文本数据是用作从目标文本数据中抽取实体类别和关系类别后，将样本文本数据中的实体类别和关系类别作为目标文本数据选取的实体类别和关系类别的参照，从而确定目标文本数据中的实体类别和关系类别。例如，若目标文本数据为：“D民族的人群认为A地是B国家的首都”。而样本文本数据为：“E地是F国家的首都”。将样本中的实体类别和关系类别，作为参照，可以确定目标文本数据中的实体类别和关系类别。对目标文本数据进行抽取后，得到的实体类别为：“D民族”、“A地”以及“B国家”，关系类别为“首都”。对样本文本数据进行抽取后，得到实体类别为：“E地”与“F国家”，关系类别为“首都”。根据样本文本数据的实体类别和关系类别，可以对目标文本数据中的实体类别和关系类别进行筛选，得到与样本文本数据相匹配的目标文本数据的实体类别和关系类别。

通过样本文本数据用作参照，一方面可以对目标文本数据中的实体类别和关系类别进行筛选，另一方面可以对目标文本数据中的实体类别和关系类别组成的多种组合中确定其中需要的一种。

可以理解的是，由于样本文本数据是用作于目标文本数据的参照，所以在目标文本数据的关系类别和实体类别的确定时，只需要根据抽取的需要，设置少量样本文本数据即可获得较好的识别效果，避免采用大量高质量标注的方式，减小了成本。

在步骤130中，在确定目标文本数据的多个实体类别向量和关系类别向量，以及样本文本数据的实体类别向量和关系类别向量后，根据样本文本数据的实体类别向量和关系类别向量，对目标文本数据的多个实体类别向量与至少一个关系类别向量进行筛选。

可选地，在确定多个实体类别向量和样本实体类别向量的相似度，以及确定至少一个关系类别向量和样本关系类别向量的相似度时，可以基于余弦相似度的计算方法，确定两个向量的相似度。

将样本文本数据作为参照，根据相似度，筛除目标文本数据中实体类别与关系类别中，与样本文本数据的实体类别与关系类别相差较大的。将相差较小的实体类别和关系类别进行保留，用作后续进一步分析。

例如，若目标文本数据为：“D民族的人群认为A地是B国家的首都”。而样本文本数据为：“E地是F国家的首都”。将样本中的实体类别和关系类别，作为参照，可以确定目标文本数据中的实体类别和关系类别。对目标文本数据进行抽取后，得到的实体类别为：“D民族”、“A地”以及“B国家”，关系类别为“首都”。对样本文本数据进行抽取后，得到实体类别为：“E地”与“F国家”，关系类别为“首都”。根据样本文本数据中得到的两个实体类别，根据相似度，可以从目标文本数据中得到的三个实体类别中确定目标实体类别。可以确定的是，目标文本数据的实体类别“A地”与样本文本数据的实体类别“E地”的相似度较高，目标文本数据的实体类别“B国家”与样本文本数据的实体类别“F国家”的相似度较高，所以可以确定目标实体类别为“A地”与“B国家”。同理，在目标文本数据得到多个关系类别的情况下，也可以根据相似度，通过样本文本数据中的关系类别对目标文本数据中的关系类别进行确定。

在步骤140中，在确定目标文本数据中的目标实体类别向量和目标关系类别向量后，对目标实体类别向量和目标关系类别向量进行组合，得到多个目标组合向量。

目标实体类别向量和目标关系类别向量可以为多个，在进行组合后，组合方式可以有多种。如图2本发明实施例提供的组合方式示意图所示，将目标文本数据输入联合基底模型后，得到的目标实体类别向量1为“A地”目标实体类别向量2为“B国家”，目标关系类别向量为“首都”。则组合方式可以为“首都A地是B国家”、“A地的首都是B国家”、“A地是B国家的首都”。

可以理解的是，目标实体类别向量与目标关系类别向量可以有多种组合方式，多种组合方式中，一般只有其中一种能准确反映目标文本数据的文本信息。所以，还需要对得到的目标文本数据的多个目标组合向量进行筛选，确定能准确反映目标文本信息的组合向量。

在步骤150中，得到多个目标组合向量后，可以根据得到的多个组合向量与样本文本数据中的样本组合向量的相似度，从多个目标组合向量中确定能最准确反映目标文本数据的组合向量。根据目标文本数据的组合向量，从目标文本数据的组合向量中确定目标文本数据的实体类别与关系类别。

可以理解的是，样本文本数据是可以根据需要进行人为设定的。根据需要，可以确定样本文本数据中的实体类别以及关系类别，以及实体类别和关系类别组成的组合向量的具体形式。可以根据需要调整其中的实体类别、关系类别以及组合向量的具体内容。从而可以筛选出需要的目标文本数据中对应的实体类别和关系类别。在这种情况下，只需要根据输出的实体类别和关系类别结果，设置少量的样本文本数据，避免了使用单一使用训练后的模型中依赖大量高质量的标注数据，提高了信息抽取效率。

例如，确定的目标实体类别向量为“A地”和“B国家”，目标关系类别向量为“首都”。则组合后得到的多个目标组合向量可以为“首都是A地和B国家”、“首都是B国家和A地”、“A地是B国家的首都”、“B国家是A地的首都”、“A地的首都是B国家”以及“B国家的首都是A地”。而确定的样本组合向量为“E地是F国家的首都”，则可以根据多个目标组合向量与样本组合向量的相似度，从多个目标组合向量中确定一个需要的组合向量。

上述实施例中，在确定目标文本数据的实体及关系信息时，包括两个层级的相似度匹配的过程：

第一层级的相似度匹配过程包括：基于度量学习方法中的相似度匹配原理，在少样本数据中匹配到与目标文本数据的实体类别向量分别匹配的目标实体类别向量，与目标文本数据的关系类别向量分别匹配的目标关系类别向量；

并对目标实体类别向量与目标关系类别向量进行任意组合，得到多个目标组合向量；

第二个层级的相似度匹配过程包括：基于度量学习方法中的相似度匹配原理，将目标文本数据对应的多个目标组合向量，分别与样本文本数据中样本实体类别向量与样本关系类别向量组合的样本组合向量，进行相似度匹配，进而在多个样本组合向量中匹配到与目标组合向量最匹配的组合向量，作为目标文本数据的实体类别和所述目标文本数据的关系类别。本发明实施例提供的文本信息的确定方法，通过以样本文本数据作为参照，确定目标文本数据中实体、关系以及组合向量，与样本文本数据中实体、关系以及组合向量的相似度，实现了只需要少量样本数据即可对文本信息中实体和关系的确定，提升了文本信息的抽取效率。与此同时，对文本信息中实体和关系的同时进行抽取并对实体和关系的组合向量进行筛选，降低了文本信息抽取的错误率。

在一个实施例中，获取目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量，包括：将目标文本数据输入联合基底模型，得到所述联合基底模型输出的所述目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量；所述联合基底模型是联合实体识别任务与关系抽取任务得到的；所述联合基底模型是基于训练数据集，以及标记了所述训练数据集对应的实体标签和标记了所述训练数据集对应的关系标签对初始联合基底模型进行训练得到的，所述训练数据集包括通用领域数据。

联合实体识别任务与关系抽取任务，对实体识别和关系提取统一建模，构建联合基底模型进行目标文本数据的实体类别和关系类别的抽取。通过训练数据集，以及标记了训练数据集对应的实体标签和标记了训练数据集对应的关系标签对初始联合基底模型进行训练，得到联合基底模型。

其中，通用领域数据是指根据已经公开的通用领域数据构成的数据集作为训练数据集。不需要再创建针对模型训练的专用训练数据集，只需要使用已经公开的通用领域数据构成的训练数据集。

在得到联合基底模型后，将目标文本数据输入输入联合基底模型，得到联合基底模型输出的目标文本数据的多个实体类别向量和多个实体类别向量的至少一个关系类别向量。

在本申请中，多个样本文本数据中包括有多种文本实体类型及文本关系类型的样本数据，且在多个样本文本数据中可以匹配到与待处理的目标文本数据对应的文本实体类型及文本关系类型。例如，多个样本文本数据中包括的文本实体类型有“国家”、“城市”，关系类型有“国都”、“功能”等，目标文本数据对应的文本实体有“中国”、“北京”，文本关系类型为“首都”，那么，多个样本文本数据中的文本实体类型“国家”与目标文本中的文本实体“中国”相对应，多个样本文本数据中的文本实体类型“城市”与目标文本中的文本实体“北京”相对应，关系类型“国都”是与目标文本的文本关系类型“首都”相对应。

在一些实施例中，可以基于待识别的目标文本数据的文本实体类型及文本关系类型确定多个样本文本数据中所应当包括的文本实体类型及文本关系类型。这样，在对目标文本数据的文本实体集文本关系识别时，在对应的多个样本文本数据中可以匹配到对应类型的文本实体及文本关系，且该相似度最高的文本实体集文本关系也是最准确的实体及关系。

在一些实施例中，若无法在多个样本文本数据中匹配到与目标文本数据相似的文本实体或者文本关系，可以对多个样本文本数据中所包括的文本实体或者关系类型进行调整，例如，可以新增与目标文本的文本实体或者文本关系类型相匹配的样本数据，这样可以使得后续针对对应文本实体或者文本关系类型的目标文本数据再次识别时，可以在多个样本文本数据中准确、快速地匹配到目标文本数据对应的文本实体集文本关系。

在一些实施例中，多个样本文本数据中包括的文本实体及文本关系类型都是不同的，可以理解为在多个样本文本数据中同一个文本实体及文本关系类型只存在一个，这样可以使得多个样本文本数据可以更加精简，数据量更小，不存在冗余情况，实现通过本领域小样本的样本数据处理就可以对本领域的目标文本数据的文本实体及文本关系进行确定。在一些实施例中，多个样本文本数据与目标文本数据属于同一个领域的数据，例如都可以属于家电领域的专有数据。

本发明实施例提供的文本信息的确定方法，通过联合实体识别任务与关系抽取任务构建联合基底模型，实现对目标文本数据的实体类别向量和关系类别向量的同时获取，避免了实体类别与关系类别分开获取导致的忽略实体类别和关系类别之间的内在关系，以及实体类别识别的错误会传递给下一步的关系类别的抽取，降低了抽取的错误率。

在一个实施例中，获取样本文本数据的样本实体类别向量、所述样本实体类别向量的样本关系类别向量以及所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量，包括：将样本文本数据输入所述联合基底模型，得到所述联合基底模型输出的所述样本文本数据的样本实体类别向量和所述样本实体类别向量的样本关系类别向量；组合所述样本实体类别向量和所述样本关系类别向量，得到所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量。

在构建联合基底模型后，将样本文本数据输入联合基底模型，得到样本文本数据的样本实体类别向量和所述样本实体类别向量的样本关系类别向量。

根据样本文本数据中的文本信息，组合样本实体类别向量和样本关系类别向量，得到能准确反映样本文本信息的样本关系类别向量。

根据样本文本数据的实体类别和关系类别，可以对目标文本数据中的实体类别和关系类别进行筛选，得到与样本文本数据相匹配的目标文本数据的实体类别和关系类别。可以根据需要，设置样本文本数据，从而可以确定样本文本数据中的实体类别以及关系类别，以及实体类别和关系类别组成的组合向量的具体形式。可以根据需要调整其中的实体类别、关系类别以及组合向量的具体内容。从而可以筛选出需要的目标文本数据中对应的实体类别和关系类别。

本发明实施例提供的文本信息的确定方法，通过将样本文本数据输入所述联合基底模型，得到样本文本数据的样本实体类别向量、样本关系类别向量以及样本组合向量，为后续目标文本向量中实体类别和关系类别的确定提供了基础。

在一个实施例中，还包括：根据以下任一项，确定所述初始联合基底模型收敛：相加所述实体识别任务的损失值与所述关系抽取任务的损失值，得到所述初始联合基底模型的相加损失值，所述相加损失值收敛；根据预设的权重系数，加权相加所述实体识别任务的损失值与所述关系抽取任务的损失值，得到所述初始联合基底模型的加权损失值，所述加权损失值收敛；所述实体识别任务损失值收敛或者所述关系抽取任务损失值收敛。

联合基底模型是联合实体识别任务与关系抽取任务得到的，确定初始联合基底模型收敛，可以根据联合基底模型中的联合实体识别任务与关系抽取任务进行确定。可以将实体识别任务的损失值与关系抽取任务的损失值直接相加，在训练初始基底模型时，确定相加损失值收敛的情况下，可以认为模型训练完成。可以将实体识别任务的损失值与关系抽取任务的损失值，根据预设的权重系数加权相加，确定加权损失值收敛的情况下，可以认为模型训练完成。也可以确定联合基底模型中的联合实体识别任务损失值收敛或者关系抽取任务损失值收敛，作为模型损失值收敛，认为模型训练完成。

本发明实施例提供的文本信息的确定方法，通过在初始基底模型的训练过程中，确定初始基底模型损失值的计算方式，从而完成模型的训练，为后续通过训练后的模型进行文本信息中实体类别和关系类别的获取提供了基础。

在一个实施例中，组合所述目标实体类别向量和所述目标关系类别向量，确定所述目标文本数据的多个目标组合向量，包括：遍历所述目标实体类别向量和所述目标关系类别向量的所有组合方式，根据所述所有组合方式，组合所述目标实体类别向量和所述目标关系类别向量，得到所述目标文本数据的多个目标组合向量。

在获取目标实体类别向量和目标关系类别向量后，目标实体类别向量和目标关系类别向量可以有多种组合方式，可以得到多个目标组合向量。通过历目标实体类别向量和目标关系类别向量的所有组合方式，即采用排列组合的方式，获取实体类别向量和目标关系类别向量的所有组合方式。

例如，目标实体类别为“A地”和“B国家”，目标关系类别为“首都”。则组合方式可以为“首都是A地和B国家”、“首都是B国家和A地”、“A地是B国家的首都”、“B国家是A地的首都”、“A地的首都是B国家”以及“B国家的首都是A地”。

本发明实施例提供的文本信息的确定方法，通过获取目标实体类别向量和目标关系类别向量后。遍历获取目标实体类别向量和目标关系类别向量的所有组合方式，得到目标文本数据的多个目标组合向量，为后续通过多个目标组合向量进行文本信息中实体类别和关系类别的确定提供了基础。

在一个实施例中，根据所述多个目标组合向量和所述样本组合向量的相似度，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别，包括：确定所述多个目标组合向量中与所述样本组合向量的相似度最高的组合向量，并将所述相似度最高的组合向量作为所述目标文本数据的组合向量；根据所述目标文本数据的组合向量，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别。

在确定目标文本数据的实体类别和目标文本数据的关系类别组合的多个目标组合向量后，选取样本文本数据中的样本组合向量作为参照，将多个目标组合向量中与所述样本组合向量的相似度最高的组合向量作为目标文本数据的组合向量。

目标文本数据的组合向量是由关系类别向量和实体类别向量组合的，所以可以根据目标文本数据的组合向量确定目标文本数据的关系类别和实体类别。

本发明实施例提供的文本信息的确定方法，通过相似度计算，以样本文本数据中的样本组合向量作为参考，确定目标文本数据的组合向量，实现了目标文本数据的关系类别和实体类别的确定。

在一个实施例中，根据所述多个实体类别向量和所述样本实体类别向量的相似度，确定目标实体类别向量，包括：确定所述多个实体类别向量中与所述样本实体类别向量的相似度最高的实体类别向量，并将所述相似度最高的实体类别向量作为所述目标实体类别向量；和/或，所述根据所述至少一个关系类别向量和所述样本关系类别向量的相似度，确定目标关系类别向量，包括：确定所述至少一个关系类别向量中与所述样本关系类别向量的相似度最高的关系类别向量，并将所述相似度最高的关系类别向量作为所述目标关系类别向量。

在获取目标文本数据的多个实体类别向量后，需要对多个实体类别向量进行筛选。通过选取多个实体类别向量中与样本实体类别向量的相似度最高的实体类别向量，作为目标实体类别向量。

可以理解的是，实体类别抽取的过程中，由于文本信息中可能存在多个冗余的实体类别，所以需要对实体类别进行筛选，确定能反映文本信息的所需要的实体类别。通过样本数据的实体类别向量作为参照的方式，可以快速准确的获取想要的目标实体类别向量。

在获取目标文本数据的至少一个关系类别向量后，需要对至少一个关系类别向量进行筛选。通过选取至少一个关系类别向量中与样本关系类别向量的相似度最高的关系类别向量，作为目标关系类别向量。

可以理解的是，关系类别抽取的过程中，由于文本信息中可能存在多个冗余的关系类别，所以需要对关系类别进行筛选，确定能反映文本信息的所需要的关系类别。通过样本数据的关系类别向量作为参照的方式，可以快速准确的获取想要的目标关系类别向量。

本发明实施例提供的文本信息的确定方法，通过将相似度最高的实体类别向量作为目标实体类别向量以及将相似度最高的关系类别向量作为所述目标关系类别向量，实现了对目标文本数据的多个实体类别向量的筛选。

下面以一应用本发明实施例提供的文本信息的确定方法的流程示意图图3为例，说明本发明实施例提供的技术方案：

模型训练阶段：对实体识别任务和关系抽取任务联合建模。获取训练数据集，以及标记了训练数据集对应的实体标签和标记了训练数据集对应的关系标签对初始联合基底模型进行训练。对于训练数据，可以采用领域内标注好的数据，也可以采用通用领域的公开数据集。

样本文本信息确定阶段：将少量样本文本数据输入联合基底模型，获得样本文本是数据的样本实体类别向量和样本关系类别向量，以及根据组合规则确定的样本实体类别向量与样本关系类别向量组合的样本组合向量。

目标文本信息确定阶段：对需要抽取的目标文本数据，输入联合基底模型中，获取目标文本数据的多个实体类别向量和目标文本数据的至少一个关系类别向量。确定多个实体类别向量中与样本实体类别向量的相似度最高的实体类别向量，并将相似度最高的实体类别向量作为目标实体类别向量。确定至少一个关系类别向量中与样本关系类别向量的相似度最高的关系类别向量，并将相似度最高的关系类别向量作为目标关系类别向量。筛选得到目标实体类别向量和目标关系类别向量后，根据遍历所有组合方式的组合规则，组合目标实体类别向量和目标关系类别向量，得到多个目标组合向量。确定多个目标组合向量中与样本组合向量的相似度最高的组合向量，并根据相似度最高的组合向量，确定目标文本数据的实体类别和目标文本数据的关系类别作为目标文本数据的抽取结果。

本发明实施例还提供一种文本信息的确定装置，图4为本发明实施例提供的文本信息的确定装置的结构示意图，如图4所示，该装置包括：

文本信息获取模块410，用于获取目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量；

样本信息获取模块420，用于获取样本文本数据的样本实体类别向量、所述样本实体类别向量的样本关系类别向量以及所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量；

筛选模块430，用于根据所述多个实体类别向量和所述样本实体类别向量的相似度，确定目标实体类别向量；根据所述至少一个关系类别向量和所述样本关系类别向量的相似度，确定目标关系类别向量；

组合模块440，用于组合所述目标实体类别向量和所述目标关系类别向量，确定所述目标文本数据的多个目标组合向量；

文本信息确定模块450，用于根据所述多个目标组合向量和所述样本组合向量的相似度，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别。

本发明实施例提供的文本信息的确定装置，通过以样本文本数据作为参照，确定目标文本数据中实体、关系以及组合向量，与样本文本数据中实体、关系以及组合向量的相似度，实现了只需要少量样本数据即可对文本信息中实体和关系的确定，提升了文本信息的抽取效率。与此同时，对文本信息中实体和关系的同时进行抽取并对实体和关系的组合向量进行筛选，降低了文本信息抽取的错误率。

在一个实施例中，文本信息获取模块410具体用于：

获取目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量，包括：

将目标文本数据输入联合基底模型，得到所述联合基底模型输出的所述目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量；

所述联合基底模型是联合实体识别任务与关系抽取任务得到的；

所述联合基底模型是基于训练数据集，以及标记了所述训练数据集对应的实体标签和标记了所述训练数据集对应的关系标签对初始联合基底模型进行训练得到的，所述训练数据集包括通用领域数据。

在一个实施例中，文本信息获取模块410还具体用于：

获取样本文本数据的样本实体类别向量、所述样本实体类别向量的样本关系类别向量以及所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量，包括：

将样本文本数据输入所述联合基底模型，得到所述联合基底模型输出的所述样本文本数据的样本实体类别向量和所述样本实体类别向量的样本关系类别向量；

组合所述样本实体类别向量和所述样本关系类别向量，得到所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量。

在一个实施例中，文本信息获取模块410还具体用于：

根据以下任一项，确定所述初始联合基底模型收敛：

相加所述实体识别任务的损失值与所述关系抽取任务的损失值，得到所述初始联合基底模型的相加损失值，所述相加损失值收敛；

根据预设的权重系数，加权相加所述实体识别任务的损失值与所述关系抽取任务的损失值，得到所述初始联合基底模型的加权损失值，所述加权损失值收敛；

所述实体识别任务损失值收敛或者所述关系抽取任务损失值收敛。

在一个实施例中，组合模块440具体用于：

组合所述目标实体类别向量和所述目标关系类别向量，确定所述目标文本数据的多个目标组合向量，包括：

遍历所述目标实体类别向量和所述目标关系类别向量的所有组合方式，根据所述所有组合方式，组合所述目标实体类别向量和所述目标关系类别向量，得到所述目标文本数据的多个目标组合向量。

在一个实施例中，文本信息确定模块450具体用于：

根据所述多个目标组合向量和所述样本组合向量的相似度，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别，包括：

确定所述多个目标组合向量中与所述样本组合向量的相似度最高的组合向量，并将所述相似度最高的组合向量作为所述目标文本数据的组合向量；

根据所述目标文本数据的组合向量，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别。

在一个实施例中，筛选模块430具体用于：

根据所述多个实体类别向量和所述样本实体类别向量的相似度，确定目标实体类别向量，包括：

确定所述多个实体类别向量中与所述样本实体类别向量的相似度最高的实体类别向量，并将所述相似度最高的实体类别向量作为所述目标实体类别向量；和/或，所述根据所述至少一个关系类别向量和所述样本关系类别向量的相似度，确定目标关系类别向量，包括：确定所述至少一个关系类别向量中与所述样本关系类别向量的相似度最高的关系类别向量，并将所述相似度最高的关系类别向量作为所述目标关系类别向量。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行如下方法：

获取目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量；

获取样本文本数据的样本实体类别向量、所述样本实体类别向量的样本关系类别向量以及所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量；

根据所述多个实体类别向量和所述样本实体类别向量的相似度，确定目标实体类别向量；根据所述至少一个关系类别向量和所述样本关系类别向量的相似度，确定目标关系类别向量；

组合所述目标实体类别向量和所述目标关系类别向量，确定所述目标文本数据的多个目标组合向量；

根据所述多个目标组合向量和所述样本组合向量的相似度，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的文本信息的确定方法，例如包括：

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的文本信息的确定方法，例如包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围中。

Claims

1.一种文本信息的确定方法，其特征在于，包括：

2.根据权利要求1所述的文本信息的确定方法，其特征在于，所述获取目标文本数据的多个实体类别向量和所述多个实体类别向量的至少一个关系类别向量，包括：

3.根据权利要求2所述的文本信息的确定方法，其特征在于，所述获取样本文本数据的样本实体类别向量、所述样本实体类别向量的样本关系类别向量以及所述样本实体类别向量与所述样本关系类别向量组合的样本组合向量，包括：

4.根据权利要求2所述的文本信息的确定方法，其特征在于，还包括：

根据以下任一项，确定所述初始联合基底模型收敛：

5.根据权利要求1所述的文本信息的确定方法，其特征在于，所述组合所述目标实体类别向量和所述目标关系类别向量，确定所述目标文本数据的多个目标组合向量，包括：

6.根据权利要求1所述的文本信息的确定方法，其特征在于，所述根据所述多个目标组合向量和所述样本组合向量的相似度，确定所述目标文本数据的实体类别和所述目标文本数据的关系类别，包括：

7.根据权利要求1所述的文本信息的确定方法，其特征在于，所述根据所述多个实体类别向量和所述样本实体类别向量的相似度，确定目标实体类别向量，包括：

确定所述多个实体类别向量中与所述样本实体类别向量的相似度最高的实体类别向量，并将所述相似度最高的实体类别向量作为所述目标实体类别向量；

和/或，

所述根据所述至少一个关系类别向量和所述样本关系类别向量的相似度，确定目标关系类别向量，包括：

确定所述至少一个关系类别向量中与所述样本关系类别向量的相似度最高的关系类别向量，并将所述相似度最高的关系类别向量作为所述目标关系类别向量。

8.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述文本信息的确定方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本信息的确定方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本信息的确定方法。