CN111460826B

CN111460826B - 实体分类方法以及相关装置

Info

Publication number: CN111460826B
Application number: CN202010246849.2A
Authority: CN
Inventors: 李直旭; 陈志刚; 何莹; 牛雷
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2024-02-20
Anticipated expiration: 2040-03-31
Also published as: CN111460826A

Abstract

本申请公开了一种实体分类方法以及相关装置，其中，实体分类方法包括：获取待识别实体的至少一组待处理三元组；基于对样本实体的样本三元组进行训练得到的表达信息，获取待处理三元组的谓词表达和客体表达，以及预先设置的至少一个目标实体类别的类别表达，其中，待处理三元组和样本三元组均包含实体、谓词和客体；利用待处理三元组的谓词表达和客体表达，确定待识别实体的实体表达；基于待识别实体的实体表达分别与各个目标实体类别的类别表达之间的差异，确定待识别实体所属的实体类别。上述方案，能够提高实体分类的准确性。

Description

实体分类方法以及相关装置

技术领域

本申请涉及知识图谱领域，特别是涉及一种实体分类方法以及相关装置。

背景技术

随着人工智能的不断发展和突破，知识图谱(Knowledge Graph)作为未来强人工智能实现的技术基石，受到了广泛关注。知识图谱将实体非结构化的信息以结构化的三元组形式进行存储。三元组通常包含了实体的关系和属性信息。除此之外，实体类别在知识图谱中也是不可或缺的。

目前，在进行实体分类时往往严重依赖于实体所包含的可用于分类的信息，或者与其他实体之间的关系。然而，当实体所包含的可用于分类的信息过少，或者与其他实体之间的关系较少、甚至不存在时，将严重影响实体分类的准确性。有鉴于此，如何提高实体分类的准确性成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种实体分类方法以及相关装置，能够确提高实体分类的准确性。

为了解决上述问题，本申请第一方面提供了一种实体分类方法，包括：获取待识别实体的至少一组待处理三元组；基于对样本实体的样本三元组进行训练得到的表达信息，获取待处理三元组的谓词表达和客体表达，以及预先设置的至少一个目标实体类别的类别表达，其中，待处理三元组和样本三元组均包含实体、谓词和客体；利用待处理三元组的谓词表达和客体表达，确定待识别实体的实体表达；基于待识别实体的实体表达分别与各个目标实体类别的类别表达之间的差异，确定待识别实体所属的实体类别。

为了解决上述问题，本申请第二方面提供了一种实体分类装置，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的实体分类方法。

为了解决上述问题，本申请第三方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的实体分类方法。

上述方案，获取待识别实体的至少一组待处理三元组，并基于对样本实体的样本三元组进行训练得到的表达信息，获取待处理三元组的谓词表达和客体表达，以及预先设置的至少一个目标实体类别的类别表达，且待处理三元组和样本三元组均包含实体、谓词和客体，进而利用待处理三元组的谓词表达和客体表达，确定待识别实体的实体表达，并基于待识别实体的实体表达分别与各个目标实体类别的类别表达之间的差异，确定待识别客体所属的实体类别，即无需依赖于实体所包含的可用于分类的信息，或者与其他实体之间的关系，只需待识别实体自身的待处理三元组即可确定待识别客体的实体类别，故能够提高实体分类的准确性。

附图说明

图1是本申请实体分类方法一实施例的流程示意图；

图2是利用若干样本实体构建实体类别树一实施例的流程示意图；

图3是实体类别树一实施例的框架示意图；

图4是利用样本实体的样本三元组训练得到表达信息一实施例的流程示意图；

图5是本申请实体分类方法另一实施例的流程示意图；

图6是本申请实体分类装置一实施例的框架示意图；

图7是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请实体分类方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取待识别实体的至少一组待处理三元组。

实体可以包括现实世界或虚拟世界中的事物，例如，人、组织、地点等，在此不做限定。具体地，待识别实体可以是现实世界中的人，例如，达芬奇、罗素、张居正，也可以是现实世界中的组织，例如，联合国教科文组织、世界卫生组织，还可以是现实世界中的地点，例如，中国、日本；此外，待识别实体也可以是虚拟世界中的人、组织、地点，例如，蝙蝠侠、哥谭市、神盾局等，在此不再一一举例。

三元组按照其类型通常可以包括关系三元组、属性三元组。具体地，关系三元组可以包括头实体、关系、尾实体，例如，对于实体“乔布斯”而言，可以采用关系三元组(乔布斯，出生地，旧金山)来描述乔布斯的出生地在旧金山，对于实体“张居正”而言，可以采用关系三元组(张居正，座师，徐阶)来描述张居正的座师是徐阶，其他实体可以以此类推，在此不再一一举例。此外，属性三元组可以包括实体、属性、属性值，例如，对于实体“乔布斯”而言，可以采用属性三元组(乔布斯，身高，188厘米)来描述乔布斯的身高是188厘米，对于实体“张居正”而言，可以采用属性三元组(张居正，逝世日，1582年)来描述张居正的逝世日为1582年，其他实体可以以此类推，在此不再一一举例。为了便于描述，将上述关系三元组中的头实体和属性三元组中的实体统称为实体，将上述关系三元组中的关系和属性三元组中的属性统称为谓词，将上述关系三元组中的尾实体和属性三元组中的属性值统称为客体。

待识别实体对应有至少一组待处理三元组，以待识别实体是“张居正”为例，其对应的待处理三元组可以包括：(张居正、出生地、荆州府)、(张居正、逝世日、1582年)、(张居正、官职、内阁首辅)等等，其他待识别实体可以以此类推，在此不再一一举例。

步骤S12：基于对样本实体的样本三元组进行训练得到的表达信息，获取待处理三元组的谓词表达和客体表达，以及预先设置的至少一个目标实体类别的类别表达。

样本三元组和待处理三元组一样均包含实体、谓词和客体，具体可以参阅前述步骤，在此不再赘述。在一个实施场景中，样本实体可以利用网络爬虫从百科网站等网络渠道获得，也可以通过线下构建三元组数据库或实体库的方式得到，在此不做限定。

至少一个目标实体类别用于区分待识别实体所属的实体类别。例如，至少一个目标实体类别可以包括：人、地点、组织，则可以用于区分待识别实体属于人、地点、组织中的一个类别；或者，至少一个目标实体类别可以包括：科学家、艺术家、组织、地点，则可以用于区分待识别实体属于科学家、艺术家、组织、地点中的一个类别。在一个实施场景中，还可以按照粒度的由粗到细，构建实体类别树，实体类别树的每一层包括若干个实体类别，从而逐层确定待识别实体在实体类别树中所属的实体类别，实体类别树的构建方法以及利用实体类别树逐层确定实体类别的具体步骤在此暂不赘述。

利用样本实体的样本三元组可以训练得到样本三元组所涉及谓词的谓词表达、样本三元组所涉及客体的客体表达，以及样本三元组所属的实体类别的类别表达，故可以从已经训练的样本三元组的众多谓词表达中筛选与待处理三元组谓词一致的谓词表达，作为待处理三元组的谓词表达，从已经训练的样本三元组的众多客体表达中筛选与待处理三元组客体一致的客体表达，作为待处理三元组的客体表达，从已经训练的实体类别的类别表达中筛选与目标实体类别一致的类别表达，作为目标实体类别的类别表达。在一个具体的实施场景中，谓词表达、客体表达和类别表达、实体表达均为向量表达。例如，经训练的谓词表达包括：出生地的谓词表达逝世日的谓词表达/>官职的谓词表达/>出生日的谓词表达/>逝世地的谓词表达/>身高的谓词表达/>体重的谓词表达/>等等，在此不再一一举例；此外，经训练的客体表达可以包括：旧金山的客体表达荆州府的客体表达/>188厘米的客体表达/>1582年的客体表达/>内阁首辅的客体表达/>等等，在此不再一一举例；此外，经训练的类别表达可以包括：人的类别表达/>地点的类别表达/>和组织的类别表达/>等等，在此不再一一举例。当然，在其它实现方式中，谓词表达、客体表达和类别表达、实体表达还可以采用其它能够描述各自特征的表达方式，本发明对此不做限定。

在一个实施场景中，表达信息包括对属于目标实体类别的样本实体的样本三元组进行训练得到的谓词表达、客体表达以及目标实体类别的类别表达，故可以从表达信息中，查找出与待处理三元组中的谓词、客体分别对应谓词表达、客体表达，以及目标实体类别的类别表达。在一个具体的实施场景中，表达信息包括样本三元组的样本客体训练得到的客体表达，若待处理三元组的待处理客体属于样本客体，则可以从表达信息中查找出与待处理客体对应的客体表达，作为待处理三元组的客体表达，具体可以参阅前述步骤，在此不再赘述。在另一个具体的实施场景中，还可能存在待处理三元组的待处理客体不属于样本客体的情况，例如，待识别实体“乔布斯”可以对应存在一待处理三元组(乔布斯，出生日，1955年2月24日)，其待处理客体“1955年2月24日”不属于上述样本客体，则可以将其客体向量初始化为零向量；或者，还可以选择与待处理客体满足预设相似度条件的样本客体，并从表达信息中查找出选择的样本客体对应的客体表达，作为待处理三元组的客体表达，其中，预设相似度条件可以包括：与待处理客体之间的预设相似度值最大。具体地，预设相似度值可以包括词袋重合度值、最长公共子序列长度、使用预设编码方式后的相似度值中的至少一者。预设编码方式可以包括Bert-wwm，Bert-wwm是在原始bert-base的基础上引入全词掩膜(whole word mask，wwm)。此外，当预设相似度值包括两个或两个以上时，还可以对各个相似度设置权重，利用预先设置的权重对各个相似度进行加权处理，得到最终的预设相似度值。具体地，可以设置词袋重合度值的权重为1，最长公共子序列长度的权重为0.4，使用预设编码方式后的相似度值的权重为0.8，此外，最长公共子序列长度的权重和使用预设编码方式后的相似度值的权重还可以设置为其他值，具体可以在0.2、0.4、0.6、0.8中取值，在此不做限定。通过在待处理三元组的待处理客体不属于样本客体时，选择与待处理客体满足预设相似度条件的样本客体，并从表达信息中查找出选择的样本客体对应的客体表达，作为待处理三元组的客体表达，能够有效处理未训练(zero-shot)的待处理三元组的待处理客体，故能够有利于提高待识别实体的实体表达的准确性，从而能够有利于提高实体分类的鲁棒性。

步骤S13：利用待处理三元组的谓词表达和客体表达，确定待识别实体的实体表达。

在一个实施场景中，可以将每个待处理三元组的谓词表达和客体表达相加，得到对应待处理三元组的实体表达，然后求取待识别实体所有待处理三元组的实体表达的平均值，作为待识别实体的实体表达。仍以待识别实体是“张居正”为例，对于待处理三元组(张居正、出生地、荆州府)，可以将作为待处理三元组对应的实体表达，对于待处理三元组(张居正、逝世日、1582年)，可以将/>作为待处理三元组对应的实体表达，对于待处理三元组(张居正、官职、内阁首辅)，可以将/>作为待处理三元组对应的实体表达，再求取上述实体表达的平均值，作为待识别实体的实体表达/>故能够充分利用待识别实体的三元组信息，特别是三元组尾部的客体信息，从而即使对于客体中拥有少量关系甚至没有和其他实体关系的关系稀疏型实体，也能够得以充分利用其隐藏信息而不至于丢失，进而能够有利于提升在细粒度分类上的表现。

在另一个实施场景中，还可以根据不同谓词在实体分类中的重要性，预先设置不同谓词对应的权重weight(p_i)，从而在求取各个待处理三元组对应的实体表达之后，可以利用对应的权重对各个待处理三元组对应的实体表达进行加权处理，得到待识别实体的实体表达故能够提高重要谓词在实体表达中所占的比例，从而能够有利于提高实体分类的准确性。

步骤S14：基于待识别实体的实体表达分别与各个目标实体类别的类别表达之间的差异，确定待识别实体所属的实体类别。

在一个实施场景中，可以求取待识别实体的实体表达分别与各个目标实体类别的类别表达之间的损失值(具体可以通过欧氏距离计算)l_(e,type)，并将最小的损失值对应的类别表达所属的目标实体类别，作为待识别实体的实体类别。仍以待识别实体是张居正为例，可以分别计算其实体表达与人的类别表达/>地点的类别表达/>和组织的类别表达/>之间的距离l_(e,type)，在一个具体的实施场景中，实体表达/>与人的类别表达之间的损失值最小，故可以确定待识别实体所属的实体类别为人。其他应用场景中，可以以此类推，在此不再一一举例。在另一个具体的实施场景中，当预先设置不同谓词对应的权重weight(p_i)时，损失值l_(e,type)具体可以表示为：

上述公式(1)中，和/>分别表示待识别实体e的第i个待处理三元组的谓词表达和客体表达，|PS|表示待识别实体的待处理三元组的谓词集合，即待识别实体的待处理三元组的个数，weight(p_i)表示待识别实体的第i个待处理三元组的谓词对应的权重，||·||₂表示第二范式。

在又一个具体的实施场景中，谓词表达的权重具体可以利用谓词表达以及目标实体类别的类别表达和个数进行确定，从而采用上式可以利用权重对谓词表达和客体表达之和进行加权处理，得到实体表达。具体地，可以表示为：

上述公式(2)中，表示第j个目标实体类别的类别表达，|TS|表示目标实体类别的个数，例如，对于目标实体类别“人”、“地点”、“组织”而言，目标实体类别的个数|TS|为3。其他情况，可以以此类推，在此不再一一举例。

在一个实施场景中，为了从粗粒度到细粒度确定得到完整的实体类别，至少一个目标实体类别还可以构建实体类别树，具体构建方式在此暂不赘述。实体类别树中的非叶节点分别对应有一分类器，分类器中包含属于非叶节点的子节点对应的样本实体的样本三元组训练得到的所有谓词表达的集合、客体表达的集合、类别表达的集合。具体地，可以将上述公式(1)作为优化分类器的目标函数，并采用选择性的注意力机制来获得谓词的权重weight(p_i)，而客体表达被训练为一偏置向量以指向具体的实体类别，通过训练可以使得实体表达与其对应的类别表达尽可能地接近，从而在实体识别过程中，可以直接使用与实体类别树中的各非叶节点对应的分类器，确定是否属于非叶节点的其中一个子节点，以从粗粒度到细粒度逐步确定实体类别，进而得到完整的实体类别。

请参阅图2，图2是利用若干样本实体构建实体类别树一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S21：按照若干样本实体所属的实体类别，将若干样本实体划分为多个实体集合。

样本实体可以预先标注有其所属的实体类别，例如，样本实体“达芬奇”标注为人和艺术家、画家，将样本实体“米开朗基罗”标注为人和艺术家，样本实体“乔布斯”标注为人和企业家、“张居正”标注为人和政治家，样本实体“旧金山”标注为地点，样本实体“联合国教科文组织”标注为组织和联合国组织，其他样本实体可以以此类推，在此不再一一举例。

通过若干样本实体所属的实体类别，可以将实体类别相同的样本实体划分至对应该实体类别的实体集合。例如，将样本实体“达芬奇”、“乔布斯”、“张居正”划分至实体类别“人”对应的实体集合，将样本实体“达芬奇”划分至实体类别“艺术家”对应的实体集合，将样本实体“乔布斯”划分至实体类别“企业家”对应的实体集合，将样本实体“张居正”划分至实体类别“政治家”对应的实体集合，将样本实体“达芬奇”划分至实体类别“画家”对应的实体集合，以此类推，在此不再一一举例。

步骤S22：将满足预设上下位关系条件一对实体集合所对应的一对实体类别，作为一候选类别关系。

在一个实施场景中，预设上下位关系可以包括实体集合之间的上下位关系置信度大于预设置信度阈值(如，0.5、0.6等等)。具体地，可以获取任意两个实体集合各自的第一样本实体数量，及任意两个实体集合之间重合的第二样本实体数量，并利用第一样本实体数量和第二样本实体数量，获取任意两个实体集合之间的上下位关系置信度。以实体类别“人”对应的实体集合和实体类别“艺术家”对应的实体集合为例，两者各自的第一样本实体数量分别为3和1，两者重合的第二样本实体数量为1，在一个具体的实施场景中，可以利用下式计算上下位关系置信度：

上述公式(3)中，|ES(t₁)|、|ES(t₂)|分别表示实体类别t₁对应的实体集合ES(t₁)的第一样本实体数量和实体类别t₂对应的实体集合ES(t₂)的第一样本实体数量，|ES(t₁)∩ES(t₂)|表示实体集合ES(t₁)和实体集合ES(t₂)的交集ES(t₁)∩ES(t₂)的第二样本实体数量，P_hyp(t₁,t₂)表示t₁对应的实体集合是t₂对应的实体集合的下位的上下位关系置信度。在一个实施场景中，对于上述实体类别“人”对应的实体集合和实体类别“艺术家”对应的实体集合，“艺术家”对应的实体集合为“人”对应的实体集合的下位的上下位关系置信度P_hyp(艺术家,人)为故大于预设置信度阈值0.5，故可以将实体类别“人”和实体类别“艺术家”作为一候选类别关系，且“艺术家”为“人”的下位，为方便描述，记做(人、艺术家)。以此类推，还可以得到候选类别关系(人、画家)、(人、政治家)、(艺术家、画家)、(人、企业家)。其他应用场景可以以此类推，在此不再一一举例。

步骤S23：利用候选类别关系，构建实体类别树。

在一个实施场景中，在利用候选类别关系，构建实体类别树之前，还可以剔除不满足预设构建条件的候选类别关系。具体地，若候选类别关系导致某一实体类别的子节点具有上下位关系，则不满足预设构建条件，例如，候选类别关系(人、画家)，导致实体类别“人”的子节点“画家”和“艺术家”具有上下位关系，则可以剔除候选类别关系(人、画家)。此外，若候选类别关系导致某一实体类别的子节点为不同粒度，则不满足预设构建条件，在此不做限定。

请结合参阅图3，图3是实体类别树一实施例的框架示意图，仍以上述候选类别关系为例，根据候选类别关系(人、艺术家)、(人、政治家)、(艺术家、画家)、(人、企业家)，以及实体类别“组织”、“地点”可以构建得到如图3所示的实体类别树。

区别于前述实施例，通过按照若干样本实体所属的实体类别，将若干样本实体划分为多个实体集合，并将满足预设上下位关系条件一对实体集合所对应的一对实体类别，作为一候选类别关系，从而利用候选类别关系，构建实体类别树，能够构建得到粒度逐渐细化的实体类别树，进而能够有利于后续按照粒度由粗到细的顺序，确定待识别实体在各个粒度上完整的实体类别。

请参阅图4，图4是利用样本实体的样本三元组训练得到表达信息一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S41：从样本实体对应的样本三元组中，获取属于目标实体类别的目标样本实体的目标样本三元组。

请结合参阅图3，当目标实体类别为实体类别树中的节点“人”时，可以将属于“人”的样本实体(即上述实施例中的样本实体“达芬奇”、“米开朗基罗”、“乔布斯”、“张居正”)对应的样本三元组，作为目标实体类别“人”的目标样本三元组；当目标实体类别为实体类别树中的节点“艺术家”时，可以将属于“艺术家”的样本实体(即上述实施例中的样本实体“达芬奇”、“米开朗基罗”)对应的样本三元组，作为目标实体类别“艺术家”的目标样本三元组，其他情况可以以此类推，在此不再一一举例。

步骤S42：对于每个目标样本实体：利用目标样本三元组的谓词表达和客体表达，确定目标样本实体的实体表达。

利用谓词表达和客体表达，确定实体表达的具体方式可以参阅前述实施例中的相关步骤，在此不再赘述。

在一个实施场景中，为了提高实体表达的准确性，还可以利用谓词表达以及目标实体类别的类别表达和个数，确定谓词表达的权重，并利用权重对谓词表达和客体表达之和进行加权处理，得到实体表达。在另一个实施场景中，为了实现后续从粗粒度到细粒度确定得到完整的实体类别，还可以将实体类别树中每一非叶节点的子节点作为目标实体类别，从而能够训练得到对应每一非叶节点的谓词表达的集合、客体表达的结合以及各谓词的权重、非叶节点的子节点对应的类别表达，请结合参阅图3，以根节点“事物”为例，可以将其子节点“人”、“地点”、“组织”作为目标实体类别，从而分别获取属于目标实体类别的目标样本实体(即属于“人”的目标样本实体“达芬奇”、“米开朗基罗”、“乔布斯”、“张居正”，以及属于“地点”的目标样本实体“中国”，以及属于“组织”的目标样本实体“联合国教科文组织”)对应的目标样本三元组，对于每一目标样本实体可以利用上述实施例中的相关步骤，得到目标样本实体的实体表达，其他情况可以以此类推，在此不再一一举例。

步骤S43：基于目标样本实体的实体表达与其所属的目标实体类别的类别表达之间的差异，调整目标样本三元组的谓词表达和客体表达以及所属的目标实体类别的类别表达。

请继续结合参阅图3，仍以根节点“事物”为例，可以分别基于目标样本实体“达芬奇”、“米开朗基罗”、“乔布斯”、“张居正”的实体表达与其所属的目标实体类别“人”的类别之间的差异，调整目标样本三元组的谓词表达和客体表达以及所属的目标实体类别的类别表达，从而可以训练得到谓词“出生地”的谓词表达谓词“逝世日”的谓词表达谓词“官职”的谓词表达/>谓词“出生日”的谓词表达/>等等，在此不再一一举例，以及客体“旧金山”的客体表达/>客体“荆州府”的客体表达/>等等，在此不再一一举例，以及所属的目标实体类别“人”的类别表达，以此类推，可以分别基于目标样本实体“中国”及其所述的目标实体类别“地点”、目标样本实体“联合国教科文组织”及其所属的目标实体类别“组织”，获得相关的谓词表达、客体表达以及谓词的权重、目标实体类别“地点”的类别表达/>目标实体类别“组织”的类别表达/>进一步地，对于非叶节点“人”而言，可以分别基于目标样本实体“达芬奇”、“米开朗基罗”与其所属的目标实体类别“艺术家”，以及目标样本实体“乔布斯”与其所属的目标实体类别“企业家”，以及目标样本实体“张居正”与其所属的目标实体类别“政治家”，获得相关的谓词表达、客体表达以及谓词的权重、目标实体类别“艺术家”的类别表达/>目标实体类别“企业家”的类别表达/>目标实体类别“政治家”的类别表达/>以此类推，能够得到实体类别树中非叶节点各自对应的谓词表达集合、客体表达集合以及谓词的权重集合、其子节点各自的类别表达，在此不再一一举例。

步骤S44：将调整之后的谓词表达、客体表达、类别表达作为表达信息。

具体地，可以将实体类别树中非叶节点各自对应的谓词表达集合、客体表达集合以及谓词的权重集合、其子节点各自的类别表达，作为非叶节点所表示的实体类别所对应的表达信息。

区别于前述实施例，从样本实体对应的样本三元组中，获取属于目标实体类别的目标样本实体的目标样本三元组，对于每个目标样本实体：利用目标样本三元组的谓词表达和客体表达，确定目标样本实体的实体表达，并基于目标样本实体的实体表达与其所属的目标实体类别的类别表达之间的差异，调整目标样本三元组的谓词表达和客体表达以及所属的目标实体类别的类别表达，从而将调整之后的谓词表达、客体表达、类别表达作为表达信息，能够训练得到准确的表达信息，故能够有利于提高后续实体分类的准确性。

请参阅图5，图5是本申请实体分类方法另一实施例的流程示意图。具体而言，可以包括如下步骤；

步骤S51：获取待识别实体的至少一组待处理三元组。

具体可以参阅前述实施例中的相关步骤。

步骤S52：基于对样本实体的样本三元组进行训练得到的表达信息，获取待处理三元组的谓词表达和客体表达，以及预先设置的至少一个目标实体类别的类别表达。

具体可以参阅前述实施例中的相关步骤。

步骤S53：利用待处理三元组的谓词表达和客体表达，确定待识别实体的实体表达。

具体可以参阅前述实施例中的相关步骤。

步骤S54：基于待识别实体的实体表达分别与各个目标实体类别的类别表达之间的差异，确定待识别实体所属的实体类别。

具体可以参阅前述实施例中的相关步骤。

步骤S55：判断确定的实体类别是否为实体类别树的叶节点。若否，则执行步骤S56，若是，则执行步骤S57。

若确定的实体类别为实体类别树的叶节点，则可以认为待识别实体已经确定得到实体类别树中粒度最细的实体类别，则可以执行步骤S57以结束分类流程，否则可以认为待识别实体尚未确定得到实体类别树中粒度最细的实体类别，则可以执行步骤S56以继续进行分类。

步骤S56：重新执行步骤S52以及后续步骤。

若确定的实体类别不是实体类别树中的叶节点，则可以认为待识别实体尚未确定得到实体类别树中粒度最细的实体类别，故可以重新执行上述步骤S52以及后续步骤，以逐层确定待识别实体在实体类别树中所属的实体类别。在一个实施场景中，在逐层确定待识别实体在实体类别树中所属的实体类别的过程中，可以以待识别实体确定所属的实体类别在实体类别树中的子节点作为目标实体类别，且表达信息包括对属于目标实体类别的样本实体的样本三元组进行训练得到的谓词表达、客体表达以及目标实体类别的类别表达，具体训练过程可以参阅前述实施例中的相关步骤，在此不再赘述。

请结合参阅图3，待识别实体“莫奈”在实体类别树的第一层中利用属于目标实体类别“人”、“地点”、“组织”的样本三元组训练得到的表达信息，确定其在第一层所属的实体类别为“人”，由于实体类别“人”在实体类别树中并非叶节点，故将属于“人”的子节点“艺术家”、“政治家”、“企业家”作为目标实体类别，并利用属于目标实体类别“艺术家”、“政治家”、“企业家”的样本三元组训练得到的表达信息，确定其所属的实体类别，以此类推，可以逐层确定“莫奈”所属的实体类别：人/艺术家/画家，其他情况可以以此类推，在此不再一一举例。

步骤S57：结束。

区别于其他实施例，获取待识别实体的至少一组待处理三元组，并基于对样本实体的样本三元组进行训练得到的表达信息，获取待处理三元组的谓词表达和客体表达，以及预先设置的至少一个目标实体类别的类别表达，且待处理三元组和样本三元组均包含实体、谓词和客体，进而利用待处理三元组的谓词表达和客体表达，确定待识别实体的实体表达，并基于待识别实体的实体表达分别与各个目标实体类别的类别表达之间的差异，确定待识别客体所属的实体类别，并在判断确定的实体类别不为实体类别树的叶节点时，重新执行上述步骤，以逐层确定待识别实体在实体类别树中所属的实体类别，从而能够由粗粒度到细粒度确定得到完整的实体类别。

请参阅图6，图6是本申请实体分类装置60一实施例的框架示意图。实体分类装置60包括相互耦接的存储器61和处理器62，存储器61存储有程序指令，处理器62用于执行程序指令以实现上述任一实体分类方法实施例中的步骤。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一实体分类方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由多个集成电路芯片共同实现。

本实施例中，处理器62用于获取待识别实体的至少一组待处理三元组；处理器62用于基于对样本实体的样本三元组进行训练得到的表达信息，获取待处理三元组的谓词表达和客体表达，以及预先设置的至少一个目标实体类别的类别表达，其中，待处理三元组和样本三元组均包含实体、谓词和客体；处理器62用于利用待处理三元组的谓词表达和客体表达，确定待识别实体的实体表达；处理器62用于基于待识别实体的实体表达分别与各个目标实体类别的类别表达之间的差异，确定待识别实体所属的实体类别。

在一些实施例中，至少一个目标实体类别构成实体类别树，处理器62用于重复执行基于对样本实体的样本三元组进行训练得到的表达信息，获取待处理三元组的谓词表达和客体表达，以及至少一个目标实体类别的类别表达及其后续步骤，来逐层确定待识别实体在实体类别树中所属的实体类别，直至所确定出的实体类别为实体类别树的叶节点。

区别于前述实施例，通过在确定的实体类别不为实体类别树的叶节点时，重新执行上述步骤，以逐层确定待识别实体在实体类别树中所属的实体类别，能够由粗粒度到细粒度确定得到完整的实体类别。

在一些实施例中，处理器62用于以待识别实体确定所属的实体类别在实体类别树中的子节点作为目标实体类别；表达信息包括对属于目标实体类别的样本实体的样本三元组进行训练得到的谓词表达、客体表达以及目标实体类别的类别表达，处理器62还用于从表达信息中，查找出与待处理三元组中的谓词、客体分别对应谓词表达、客体表达，以及目标实体类别的类别表达。

区别于前述实施例，以待识别实体确定所属的实体类别在实体类别树中的子节点作为目标实体类别，且表达信息包括对属于目标实体类别的样本实体的样本三元组进行训练得到的谓词表达、客体表达以及目标实体类别的类别表达，并从表达信息中，查找出与待处理三元组中的谓词、客体分别对应谓词表达、客体表达，以及目标实体类别的类别表达，能够准确地获得待识别实体的谓词表达、客体表达以及各目标实体类别的类别表达，从而能够有利于由粗粒度到细粒度确定得到完整的实体类别。

在一些实施例中，处理器62用于按照若干样本实体所属的实体类别，将若干样本实体划分为多个实体集合；处理器62用于将满足预设上下位关系条件一对实体集合所对应的一对实体类别，作为一候选类别关系；处理器62用于利用候选类别关系，构建实体类别树。

在一些实施例中，处理器62用于剔除不满足预设构建条件的候选类别关系。

区别于前述实施例，通过剔除不满足预设构建条件的候选类别关系，能够有利于提高构建得到的实体类别树的逻辑准确性。

在一些实施例中，预设上下位关系条件包括：实体集合之间的上下位关系置信度大于预设置信度阈值，处理器62用于获取任意两个实体集合各自的第一样本实体数量，及任意两个实体集合之间重合的第二样本实体数量；处理器62用于利用第一样本实体数量和第二样本实体数量，获取任意两个实体集合之间的上下位关系置信度。

区别于前述实施例，通过获取任意两个实体集合各自的第一样本实体数量，及任意两个实体集合之间重合的第二样本实体数量，从而利用第一样本实体数量和第二样本实体数量，获取任意两个实体集合之间的上下位关系置信度，并设置预设上下位关系条件包括实体集合之间的上下位关系置信度大于预设置信度阈值，从而能够构建得到准确的使候选类别关系，进而能够有利于构建逻辑准确的实体类别树。

在一些实施例中，表达信息包括样本三元组的样本客体训练得到的客体表达，处理器62用于若待处理三元组的待处理客体属于样本客体，则从表达信息中查找出与待处理客体对应的客体表达，作为待处理三元组的客体表达；处理器62用于若待处理三元组的待处理客体不属于样本客体，则选择与待处理客体满足预设相似度条件的样本客体，并从表达信息中查找出选择的样本客体对应的客体表达，作为待处理三元组的客体表达。

区别于前述实施例，当待处理三元组的待处理客体不属于样本客体，则选择与待处理客体满足预设相似度条件的样本客体时，从表达信息中查找出选择的样本客体对应的客体表达，作为待处理三元组的客体表达，从而能够有效处理未训练(zero-shot)的待处理三元组的待处理客体，故能够有利于提高待识别实体的实体表达的准确性，从而能够有利于提高实体分类的鲁棒性。

在一些实施例中，处理器62用于从样本实体对应的样本三元组中，获取属于目标实体类别的目标样本实体的目标样本三元组；处理器62用于对于每个目标样本实体：利用目标样本三元组的谓词表达和客体表达，确定目标样本实体的实体表达；并基于目标样本实体的实体表达与其所属的目标实体类别的类别表达之间的差异，调整目标样本三元组的谓词表达和客体表达以及所属的目标实体类别的类别表达；处理器62用于将调整之后的谓词表达、客体表达、类别表达作为表达信息。

在一些实施例中，处理器62用于利用谓词表达以及目标实体类别的类别表达和个数，确定谓词表达的权重；处理器62用于利用权重对谓词表达和与客体表达之和进行加权处理，得到实体表达。

区别于前述实施例，通过利用谓词表达以及目标实体类别的类别表达和个数，确定谓词表达的权重，从而利用权重对谓词表达和与客体表达之和进行加权处理，得到实体表达，能够在实体表达中引入注意力机制，有利于使重要谓词得以突显，从而能够提高实体表达的准确性。

在一些实施例中，谓词表达、客体表达、实体表达和类别表达均为向量表达，处理器62用于获取待识别实体的实体表达分别与各个目标实体类别的类别表达之间的损失值；处理器62用于将最小的损失值对应的类别表达所属的目标实体类别，作为待识别实体的实体类别。

区别于前述实施例，通过获取待识别实体的实体表达分别与各个目标实体类别的类别表达之间的损失值，并将最小的损失值对应的类别表达所属的目标实体类别，作为待识别实体的实体类别，能够利用损失值准确地确定待识别实体所属的实体类别。

请参阅图7，图7是本申请存储装置70一实施例的框架示意图。存储装置70存储有能够被处理器运行的程序指令71，程序指令71用于实现上述任一实体分类方法实施例中的步骤。

上述方案，无需依赖于实体所包含的可用于分类的信息，或者与其他实体之间的关系，只需待识别实体自身的待处理三元组即可确定待识别客体的实体类别，故能够提高实体分类的准确性。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种实体分类方法，其特征在于，包括：

获取待识别实体的至少一组待处理三元组；

基于对样本实体的样本三元组进行训练得到的表达信息，获取所述待处理三元组的谓词表达和客体表达，以及预先设置的至少一个目标实体类别的类别表达，其中，所述待处理三元组和样本三元组均包含实体、谓词和客体，所述表达信息包括所述样本三元组的样本客体训练得到的客体表达；

利用所述待处理三元组的谓词表达和客体表达，确定所述待识别实体的实体表达；

基于所述待识别实体的实体表达分别与各个所述目标实体类别的类别表达之间的差异，确定所述待识别实体所属的实体类别；

其中，获取所述待处理三元组的客体表达，包括：

获取所述待处理三元组中不属于样本客体的待处理客体的多个预设相似度值；其中，所述预设相似度值包括以下任意两种或以上：词袋重合度值、最长公共子序列长度、使用预设编码方式后的相似度值；

利用各种所述预设相似度值的预设权重分别对各种所述预设相似度值进行加权处理，得到加权相似度，并基于所述加权相似度选择所述样本客体的客体表达作为所述待处理客体的客体表达；

其中，利用所述谓词表达和所述客体表达确定所述实体表达，包括：

获取所述谓词表达分别与各个所述目标实体类别的类别表达之间的差异之和，并基于所述差异之和与所述目标实体类别的个数之比，确定所述谓词表达的权重；

利用所述权重对所述谓词表达和与所述客体表达之和进行加权处理，得到所述实体表达。

2.根据权利要求1所述的实体分类方法，其特征在于，所述至少一个目标实体类别构成实体类别树；所述方法还包括：

重复执行所述基于对样本实体的样本三元组进行训练得到的表达信息，获取所述待处理三元组的谓词表达和客体表达，以及至少一个目标实体类别的类别表达及其后续步骤，来逐层确定所述待识别实体在所述实体类别树中所属的实体类别，直至所确定出的实体类别为所述实体类别树的叶节点。

3.根据权利要求2所述的实体分类方法，其特征在于，在逐层确定所述待识别实体在所述实体类别树中所属的实体类别的过程中：

以所述待识别实体确定所属的实体类别在所述实体类别树中的子节点作为目标实体类别；所述表达信息包括对属于所述目标实体类别的样本实体的样本三元组进行训练得到的谓词表达、客体表达以及所述目标实体类别的类别表达；

所述基于对样本实体的样本三元组进行训练得到的表达信息，获取所述待处理三元组的谓词表达和客体表达，以及至少一个目标实体类别的类别表达，包括：

从所述表达信息中，查找出与所述待处理三元组中的谓词、客体分别对应谓词表达、客体表达，以及所述目标实体类别的类别表达。

4.根据权利要求2所述的实体分类方法，其特征在于，所述方法还包括：

按照若干样本实体所属的实体类别，将所述若干样本实体划分为多个实体集合；

将满足预设上下位关系条件一对实体集合所对应的一对实体类别，作为一候选类别关系；

利用所述候选类别关系，构建所述实体类别树。

5.根据权利要求4所述的实体分类方法，其特征在于，所述利用所述候选类别关系，构建所述实体类别树之前，所述方法还包括：剔除不满足预设构建条件的候选类别关系；

和/或，所述预设上下位关系条件包括：所述实体集合之间的上下位关系置信度大于预设置信度阈值；所述方法还包括：

获取任意两个所述实体集合各自的第一样本实体数量，及所述任意两个实体集合之间重合的第二样本实体数量；

利用所述第一样本实体数量和所述第二样本实体数量，获取所述任意两个实体集合之间的上下位关系置信度。

6.根据权利要求1所述的实体分类方法，其特征在于，所述方法还至少包括以下步骤，以训练得到所述表达信息：

从所述样本实体对应的样本三元组中，获取属于所述目标实体类别的目标样本实体的目标样本三元组；

对于每个所述目标样本实体：利用所述目标样本三元组的谓词表达和客体表达，确定所述目标样本实体的实体表达；并基于所述目标样本实体的实体表达与其所属的目标实体类别的类别表达之间的差异，调整所述目标样本三元组的谓词表达和客体表达以及所属的目标实体类别的类别表达；

将调整之后的所述谓词表达、所述客体表达、所述类别表达作为所述表达信息。

7.根据权利要求1所述的实体分类方法，其特征在于，所述谓词表达、客体表达、实体表达和类别表达均为向量表达；和/或，

所述基于所述待识别实体的实体表达分别与各个所述目标实体类别的类别表达之间的差异，确定所述待识别实体所属的实体类别包括：

获取待识别实体的实体表达分别与各个所述目标实体类别的类别表达之间的损失值；

将最小的损失值对应的类别表达所属的目标实体类别，作为所述待识别实体的实体类别。

8.一种实体分类装置，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至7任一项所述的实体分类方法。

9.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至7任一项所述的实体分类方法。