CN110197056B

CN110197056B - 关系网络和关联身份识别方法、装置、设备和存储介质

Info

Publication number: CN110197056B
Application number: CN201811372354.3A
Authority: CN
Inventors: 黄引刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2022-09-20
Anticipated expiration: 2038-11-16
Also published as: CN110197056A

Abstract

本公开提供了一种关系网络和关联身份识别方法、装置、设备和存储介质。该方法包括：获取疑似具有关联身份类别的多个对象所形成的初始关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别；根据初始关系网络，确定所述每个对象的预测关联身份类别；将预测关联身份类别与初始关联身份类别不一致的对象从所述初始关系网络中去除；将去除了预测关联身份类别与初始关联身份类别不一致的对象的初始关系网络作为关联身份关系网络。通过本公开实施例，可以确定更为精确的关联身份关系网络，可以基于关联身份关系网络为对象确定出更为准确的关联身份类别。

Description

关系网络和关联身份识别方法、装置、设备和存储介质

技术领域

本公开涉及互联网技术领域，具体涉及一种关联身份关系网络的确定方法、对象身份类别识别方法、装置、机器设备和计算机可读存储介质。

背景技术

在互联网金融、保险及其他领域中，在向用户进行某种互联网操作 (例如，允许其贷款，向其推荐物品、内容、广告等)时，往往需要先通过互联网数据确定其身份。

在现有技术的身份确定方法中，一般是基于仅仅待确定用户本身的基本特征来识别其身份。这种身份识别方法简单易行，但识别出的身份的准确率和可靠性不高。

发明内容

本公开的目的之一在于提供一种关联身份关系网络的确定方法、对象身份类别识别方法、装置、机器设备和计算机可读存储介质。

根据本公开实施例的第一方面，公开了一种关联身份关系网络的确定方法，其包括：

获取疑似具有关联身份类别的多个对象所形成的初始关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别；

根据初始关系网络，确定所述每个对象的预测关联身份类别；

将预测关联身份类别与初始关联身份类别不一致的对象从所述初始关系网络中去除；

将去除了预测关联身份类别与初始关联身份类别不一致的对象的初始关系网络作为关联身份关系网络。

在一示例性实施例中，所述根据初始关系网络，确定所述每个对象的预测关联身份类别包括：

根据初始关系网络，确定所述每个对象的类别关系特征；

对于所述多个对象中的每个对象，根据该对象的所述类别关系特征确定该对象的预测关联身份类别。

在一示例性实施例中，所述获取疑似具有关联身份类别的多个对象所形成的初始关系网络包括：

根据要确定的关联身份关系网络，确定关联身份类别；

确定疑似具有所述关联身份类别的对象；

根据所述对象之间的关系，形成所述初始关系网络。

在一示例性实施例中，所述根据初始关系网络，确定所述每个对象的类别关系特征包括：

将所述多个对象之间的关系按照所述多个对象的关联身份类别来划分关系类别；

对于所述多个对象中的每个对象，从该对象与其他对象的关系数据中提取体现关系类别的关系特征，作为该对象的类别关系特征。

在一示例性实施例中，所述根据该对象的所述类别关系特征确定该对象的预测关联身份类别包括：

将该对象的所述类别关系特征输入身份类别预测模型，以得到该对象具有每个所述关联身份类别的概率；

确定最大的概率对应的关联身份类别，作为该对象的预测关联身份类别。

在一示例性实施例中，所述方法还包括：

使用具有确定的关联身份类别的对象的类别关系特征对身份类别预测模型进行训练，以确定所述身份类别预测模型的参数。

在一示例性实施例中，所述将预测关联身份类别与初始关联身份类别不一致的对象从所述初始关系网络中去除包括：

对于所述每个对象，比较该对象的预测关联身份类别与初始关联身份类别是否相同；

在该对象的预测关联身份类别与初始关联身份类别不同的情况下，将该对象确定为预测关联身份类别与初始关联身份类别不一致的对象并将该对象从初始关系网络中去除；

在该对象的预测关联身份类别与初始关联身份类别相同的情况下，判断该对象的预测关联身份类别对应的概率是否小于第二预定阈值；

在该对象的预测关联身份类别对应的概率小于第二预定阈值的情况下，将该对象确定为预测关联身份类别与初始关联身份类别不一致的对象并将该对象从初始关系网络中去除。

将所述每个对象作为待识别对象，根据如下所述的识别对象的身份类别的方法来确定所述每个对象的关联身份类别，分别作为所述每个对象的预测关联身份类别。

根据本公开实施例的第二方面，公开了一种识别对象的身份类别的方法，其特征在于，包括：

获取疑似具有关联身份类别的多个对象所形成的关联身份关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别；

根据所述关联身份关系网络，确定所述多个对象中每个待识别对象的关联身份类别。

根据本公开的第三方面，公开了一种关联身份关系网络的确定装置，其特征在于，包括：

初始关系网络获取模块，其被配置为：获取疑似具有关联身份类别的多个对象所形成的初始关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别；

关联身份类别预测模块，其被配置为：根据初始关系网络，确定所述每个对象的预测关联身份类别；

去除模块，其被配置为：将预测关联身份类别与初始关联身份类别不一致的对象从所述初始关系网络中去除；

关系网络确定模块，其被配置为：将去除了预测关联身份类别与初始关联身份类别不一致的对象的初始关系网络作为关联身份关系网络。

根据本公开的第四方面，公开了一种识别对象的身份类别的装置，其特征在于，包括：

关联身份关系网络获取模块，其被配置为：获取疑似具有关联身份类别的多个对象所形成的关联身份关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别；

关联身份类别确定模块，其被配置为：根据所述关联身份关系网络，确定所述多个对象中每个待识别对象的关联身份类别。

根据本公开实施例的第五方面，公开了一种机器设备，其包括处理器以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的方法。

根据本公开实施例的第六方面，公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本公开的实施例提供的技术方案可以具有以下有益效果：

在本公开的确定关联身份关系网络的各方法、装置、机器设备和存储介质实施例的一个或多个中，提供从初始关系网络中去除预测关联身份类别与初始关联身份类别不一致的对象来得到更为精确的关联身份关系网络的技术方案，实现了从互联网数据得到身份相互关联的多个对象的关系网络。在一些实施例中，通过根据从关系网络确定的对象的按照关系类别确定的类别关系特征得到对象的预测关联身份类别，并通过比较对象的预测关联身份类别与初始关联身份类别，来决定是否将该对象保留在初始关系网络中作为关联身份关系网络的一部分，类别关系特征的引入使得关联身份类别的预测准确率较高，从而使得所确定的关联身份关系网络比较精确。在一些实施例中，还通过迭代循环步骤去除预测关联身份类别与初始关联身份类别不一致的对象，使得关联身份关系网络更为精确。

在本公开的识别对象的身份类别的各方法、装置、机器设备和存储介质实施例的一个或多个中，提供了根据对象的关联身份关系网络来识别该对象的身份类别的技术方案，使得识别出的身份类别准确率更高。在一些实施例中，根据对象的嵌入向量以及与其具有关系的其他对象的嵌入向量一起来确定对象的关联身份类别，使得身份类别的识别更为准确。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1示出根据本公开一示例性实施例的本公开所涉及的实施环境的示意图。

图2示出根据本公开一示例性实施例的关联身份关系网络的确定方法的示意流程图。

图3示出图2所示的关联身份关系网络确定方法实施例的步骤S210的一示例性具体实施方式的流程示意图。

图4示出根据本公开的一示例性实施例的关于演员的关联身份初始关系网络的示意图。

图5示出图2所示的关联身份关系网络确定方法实施例的步骤S220的一示例性具体实施方式的流程示意图。

图6示出图5所示的关联身份关系网络确定方法实施例的步骤S510的一示例性具体实施方式的流程示意图。

图7示出图5所示的关联身份关系网络确定方法实施例的步骤S520的一示例性具体实施方式的流程示意图。

图8示出图2所示的关联身份关系网络确定方法实施例的步骤S230的一示例性具体实施方式的流程示意图。

图9示出图2所示的关联身份关系网络确定方法实施例还可以包括的迭代循环步骤的流程示意图。

图10示出根据本公开一示例性实施例的识别对象的身份类别的方法的流程示意图。

图11示出图10所示的识别对象的身份类别的方法实施例的步骤S1020 的一示例性具体实施方式的流程示意图。

图12示出图11所示的识别对象的身份类别的方法实施例的步骤S1120 的一示例性具体实施方式的流程示意图。

图13示出根据本公开一示例性实施例的全连接神经网络的示意结构图。

图14示出根据本公开的一示例性实施例的对如图13所示的全连接神经网络进行训练的示意流程图。

图15示出图12所示的识别对象的身份类别的方法实施例的步骤S1240 的一示例性具体实施方式的流程示意图。

图16示出根据本公开一示例性实施例的关联身份关系网络的确定装置的示意组成框图。

图17示出根据本公开一示例性实施例的识别对象的身份类别的装置的示意组成框图

图18示出根据本公开一示例性实施例的机器设备的示意组成框图。

具体实施方式

现在将参考附图更全面地描述本公开的示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式目的是使得本公开的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

附图中所示的一些框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在以上和以下各实施例中，所述“关联身份”是指相互之间存在关联的身份类别，例如，对于身份为“演员”的对象，其关联身份包括“导演”、 “经纪人”，则“演员”、“导演”、“经纪人”称为关联身份或关联身份类别。应当理解的是，本文中所述的“关联身份”、“关联身份类别”或“身份”、“身份类别”并不特指人物或其他对象的社会地位、身份、职业，而是泛指人或物的身份、类别或任何其他属性。

在以上和以下各实施例中，所述“关联身份关系网络”是指具有关联的身份类别的多个对象所形成的关系网络，在该关系网络中不包含不具有关联身份类别的其他对象。这里的“关系网络”包括社交关系网络，但并不特指社交关系网络，其可以指代人与人之间、人与物之间、物与物之间的任何类型的关系网络。

在以上和以下各实施例中，一个对象的所述“类别关系特征”是指从该对象的关系数据中提取的、能体现关系类别的关系特征，所述关系类别是将该对象与其他对象的关系按照关系双方的关联身份类别划分类别。

图1示出了根据本公开一示例性实施例的本公开的原理所涉及的实施环境的示意图。根据本公开各实施例的关联身份关系网络确定方法、对象关联身份类别确定方法、根据本公开各实施例的关联身份关系网络确定装置、对象关联身份类别确定装置、机器设备和计算机可读存储介质可以被实现在如图1所示的数据挖掘平台110上。数据挖掘平台110接入到网络 130(例如互联网)中，网络130上还连接有各种终端设备或服务器101、102、103，各用户通过这些终端设备或服务器101、102、103进行网上活动或进行本地活动。

数据挖掘平台110可以从终端设备或服务器101、102、103搜集数据以生成具有或疑似具有关联身份类别的多个对象所形成的关联身份关系网络，或者也可以直接从外部接收关联身份关系网络。在一个示例中，数据挖掘平台110可以将通过生成、接收或其他方式获取的关联身份关系网络作为初始关系网络，并针对初始关系网络执行如下面参考图2-9所述的关联身份关系网络确定方法的各实施例，以得到比初始关系网络更为精确的关联身份关系网络。在另一示例中，数据挖掘平台110可以基于所获取的关联身份关系网络确定对象的身份类别，即执行如下面参考图10-15所述的对象关联身份类别确定方法的各实施例。

数据挖掘平台110所确定的关联身份关系网络或者对象的关联身份类别可以供诸如征信平台、购物平台、新闻平台、搜索平台等的消费者120 使用，例如，使用关联身份关系网络进一步确定对象的身份类别，使用对象的关联身份类别进行物品、内容、广告等的推荐，等等。在一个示例中，消费者120可以向数据挖掘平台110实时发起诸如查询某个对象的关联身份关系网络或其关联身份类别的请求，数据挖掘平台110可以应请求而执行关联身份关系网络确定方法或对象身份类别确定方法并将结果返回消费者120。在一个示例中，数据挖掘平台110可以周期性地或非周期性地执行关联身份关系网络确定方法或对象身份类别确定方法，并将结果存储，以供消费者120请求或查询。

数据挖掘平台110可以是具有网络通信功能和数据搜索、逻辑运算等功能的各种电子设备，其可以是服务器，也可以是终端设备，例如包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

网络130用以为数据挖掘平台110提供用于从外部获取数据的通信连接，其可以包括各种通信网络，例如有线、无线通信网络、公有网络、私有网络等等。终端设备或服务器101、102、103(例如，网站服务器、论坛服务器、终端App服务器等)通过网络130与数据挖掘平台110相连接，并为其提供数据源以供进行数据搜索和分析。数据挖掘平台110可以通过访问网络130来从终端设备或服务器101、102、103获取诸如用来形成关联身份关系网络的数据。

通信链路140在消费者120与数据挖掘平台110之间、终端设备或服务器101、102、103与数据挖掘平台110之间提供连接，其可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等，其也可以包括各种网络连接。

图1及以上描述只是本公开所涉及的实施环境的示例性实施例，可以理解的是，适用于本公开的实施环境存在多种变形。

图2示出了根据本公开一示例性实施例的关联身份关系网络的确定方法的示意流程图。该示例性方法实施例可以由图1中所示的数据挖掘平台 110来执行。如图2的实施例所示，该示例方法可以包括步骤：

S210，获取疑似具有关联身份类别的多个对象所形成的初始关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别。

初始关系网络的获取有多种方式。例如，可以通过搜集外部数据来生成，也可以从外部设备直接接收已生成的初始关系网络。图3示出了根据本公开的一示例性实施例的获取关联身份初始关系网络(即步骤S210)的一示例性具体实施方式的示意流程图，在该示例性具体实施方式中，通过搜集数据来生成初始关系网络。如图3所示，在该实施例中，步骤S210具体可以包括步骤：

S310，根据要确定的关联身份关系网络，确定关联身份类别。

在要确定一关联身份关系网络时，一般会知道要确定的关联身份关系网络的一些相关信息，例如，关联身份关系网络的类型(例如，演艺界、房屋中介领域等)，要确定的关联身份关系网络中某个对象(例如需要确定其身份类别的对象)的身份类别或疑似身份类别(例如，演员、卖房中介等)，等等。根据所知道的这些信息，可以根据常识、经验、查询知识库或预定列表等方式确定出关联身份关系网络所涉及的关联身份类别。

例如，要确定的是房屋中介领域的关联身份关系网络，则可以确定出如下关联身份类别：卖房中介、卖房业主、买房客户。再例如，要确定身份类别为演员或疑似为演员的关联身份关系网络，或者想确定该疑似为演员的对象的确切身份类别，则可以确定与该对象的身份类别/疑似身份类别有关联的其他关联身份类别：导演、经纪人。

S320，确定疑似具有所述关联身份类别的对象。

根据在步骤S310中确定出的关联身份类别，可以通过例如搜索外部数据、查询数据库等方式来确定出具有或疑似具有这些关联身份类别的对象。

在一个示例中，可以利用关联身份类别的关键词在外部数据(例如网页数据，各种应用、网站或平台的历史数据/用户数据等)、数据库等中进行搜索，筛选出疑似具有这些关联身份类别的对象。例如，对于卖房中介，可以以“卖房中介”、“中介”、“房屋中介”等为关键词，或者以公知的房屋中介公司的名字为关键词在网络或数据库等的外部数据中进行搜索，以确定出疑似具有卖房中介的身份类别的一个或多个对象。如此，分别确定出每个关联身份类别相对应的对象。

S330，根据所述对象之间的关系，形成所述初始关系网络。

在确定出对象后，可以进一步获取记录这些对象之间的直接或间接关系的信息，根据这些信息形成这些对象之间的关系数据，从而形成这些对象的关系网络，作为初始关系网络。

例如，对于疑似演员A-E、疑似导演F和G、疑似经纪人H，可以获取这些对象在社交网站、平台、APP(例如微博、微信、QQ群、QQ空间、购物网站、新闻网站等)上发生相互关系行为(例如，关注、点赞、聊天、分享、推荐、点击、浏览等)的历史记录，从这些历史记录数据中得出他们之间的关系数据(例如，将发生一次相互关系行为的双方之间视为具有一条关系)，并根据关系数据形成关系网络。例如，在关系网络中，将每个对象作为节点，对象之间的每条关系用相应节点之间的一条边来表示。在一个示例中，关系网络中代表关系的边是具有权重和方向的。

图4示出了根据本公开的一示例性实施例的关于演员的关联身份初始关系网络的示意图。在图4的示例初始关系网络中，包括对象疑似演员A-E、疑似导演F和G、疑似经纪人H，通过该初始关系网络，可以清楚地确定各个对象之间的直接或间接关系。

通过步骤S310-S330，可以得到关联身份初始关系网络。之所以叫做初始关系网络，是因为该关系网络是根据原始数据所形成的初步关系网络，其对象可能均不具有确定的关联身份类别，因此该关联身份关系网络并不精确。可以通过如图2所示的步骤对其进行进一步的精确确定。

现在返回参考图2，示例方法进入步骤S220。

S220，根据初始关系网络，确定所述每个对象的预测关联身份类别。

在图2所示的关联身份关系网络确定方法实施例中，为进一步得出更精确的关联身份关系网络，使用预测关联身份类别与初始关联身份类别的对比。在步骤S220中，进行对象的预测关联身份类别的确定。根据一关系网络确定或预测该关系网络中的对象的身份类别可以有多种实施方式。例如，可以根据关系网络得出其中的每个对象的向量表示，将其中一对象的向量表示输入已训练好的机器学习模型，得到该对象的预测关联身份类别 (如下面参考图10-15所述的识别对象的身份类别的示例方法那样)。图5 示出了如何根据初始关系网络确定对象的预测关联身份类别(即步骤S220) 的另一示例性具体实施方式。在该示例性具体实施方式中，根据由初始关系网络得出的类别关系特征来确定对象的预测关联身份类别。如图5所示，在该示例中，步骤S220具体可以包括步骤：

S510，根据初始关系网络，确定所述每个对象的类别关系特征；

如前所述，一个对象的所述“类别关系特征”是指从该对象的关系数据中提取的、能体现关系类别的关系特征，所述关系类别是将该对象与其他对象的关系按照关系双方的关联身份类别划分类别。

例如，对于如图4所示的初始关系网络，所有对象之间的直接和间接关系及关系类别、方向如表1所示，在该表中，间接关系只列出了四跳之内的间接关系，四跳之外的间接关系限于篇幅原因在此没有列出：

表1：

由表1可以看出，表中的53条关系可以分成少于53个关系类别(29 个)。

图6示出了根据本公开的一示例性实施例的根据初始关系网络确定对象的类别关系特征的示例性具体实施方式。如图6所示，在该示例中，步骤S510可以包括步骤：

S610，将所述多个对象之间的关系按照所述多个对象的关联身份类别来划分关系类别。

例如，如表1所示，将每条关系按照关系涉及方(对直接关系来说是双方，对间接关系来说是多方)的关联身份类别来划分关系类别。

S620，对于所述多个对象中的每个对象，从该对象与其他对象的关系数据中提取体现关系类别的关系特征，作为该对象的类别关系特征。

从关系数据中提取类别关系特征的实现方式可以有多种。例如，可以统计关系数据中与该对象具有直接关系的每个关系类别的条数，作为类别关系特征，也可以统计关系数据中与该对象具有直接关系以及在预定跳数内具有间接关系的每个关系类别的条数，作为类别关系特征，等等。在一个示例中，对于初始关系网络中的每个对象，可以分别统计预定关系类别的关系条数，作为该对象的类别特征数据。在一个示例中，可以根据初始关系网络所涉及的关联身份类别以及要统计的预定跳数来确定适用于关系网络中的所有对象或相同关联身份类别的对象的预定关系类别。例如，对于涉及三个关联身份类别a、b、c的初始关系网络，对象之间的直接关系类别和两跳内的间接关系类别有：a-b、b-c、a-c、a-b-c、a-b-a、a-c-b、a-c-a、 b-c-a、b-a-c、b-c-b、b-a-b，这里，忽略了关系的方向，应当理解的是，也可以考虑关系的方向来确定关系类别，如表1那样。在另一示例中，预定关系类别可以是针对每种关联身份类别的对象预先指定特定的一个或多个关系类别作为所述预定关系类别。

下面以图4的关系网络为例根据两个具体实施例来说明如何提取对象的类别关系特征。

如图4所示的初始关系网络涉及的关联身份类别包括：演员、导演、经纪人，其中，对于每个对象，根据该对象的关系数据统计预定跳数内的每个关系类别下的关系条数作为该对象的类别关系特征。在一个示例中，可以根据初始关系网络确定出以该对象为初始节点或目的节点的关系，并统计所确定出的关系中属于每个关系类别下的关系条数，作为该对象的类别关系特征。

实施例一：

在实施例一中，对于每种关联身份类别的对象，将在预定跳数(例如两跳)内该种关联身份类别的对象与其他种关联身份类别的对象可能具有的关系类别作为上面所述的预定关系类别。这里，其他种关联身份类别是指关系网络所涉及的关联身份类别中除该种关联身份类别之外的关联身份类别。

例如，假设对于每个对象按照关系类别统计两跳内以该对象为初始或目的节点的关系条数。对于演员类的对象，两跳内的预定关系类别包括：演员→演员、演员→导演、演员→经纪人、导演→演员、经纪人→演员、演员→演员→演员、演员→演员→导演、演员→演员→经纪人、演员→导演→演员、演员→经纪人→演员、演员→导演→导演、演员→经纪人→导演、演员→导演→经纪人、演员→经纪人→经纪人、导演→演员→演员、经纪人→演员→演员、导演→导演→演员、导演→经纪人→演员、经纪人 →导演→演员、经纪人→经纪人→演员，共20个。同样，对于导演和经纪人类的对象，两跳内的预定关系类别也分别包括对应的20个，在此不再列举。对于每个对象，分别统计其相应的20个关系类别中每个关系类别下的关系条数。例如，对于图4中的疑似演员A，其统计数据如下表2所示：

表2：

可以根据上表2中每个关系类别所对应的关系条数的统计数据来形成疑似演员A的类别关系特征。例如，可以将如上所述的统计数据直接作为类别关系特征的数据，也可以将上述统计数据进行进一步处理而作为类别关系特征数据，例如，将上述统计数据转换成向量。

相似地，可以确定出图4的关系网络中的任一对象的类别关系特征。

虽然在上面的实施例一中以两跳为例进行了说明，但应当理解的是，可以使用少于或多于两跳的预定跳数来确定用于确定对象的类别关系特征的预定关系类别。

实施例二：

在实施例二中，针对每种关联身份类别的对象预先指定一个或多个关系类别作为所述预定关系类别。例如，以图4的关系网络为例，对于疑似演员A，预先指定如下预定关系类别：

演员→疑似演员A

导演→疑似演员A

经纪人→疑似演员A

疑似演员A→演员→疑似演员A

疑似演员A→导演→疑似演员A

疑似演员A→经纪人→疑似演员A

疑似演员A→演员→演员→疑似演员A

疑似演员A→演员→导演→疑似演员A

疑似演员A→演员→经纪人→疑似演员A

疑似演员A→导演→演员→疑似演员A

疑似演员A→导演→导演→疑似演员A

疑似演员A→导演→经纪人→疑似演员A

疑似演员A→经纪人→演员→疑似演员A

疑似演员A→经纪人→导演→疑似演员A

疑似演员A→经纪人→经纪人→疑似演员A

疑似演员A→演员

疑似演员A→导演

疑似演员A→经纪人

可以将上述18个预定关系类别中的疑似演员A替换成如图4所示的关系网络中的其他演员类的对象，作为该对象的预定关系类别。相似地，对于其他类的对象(例如导演类或经纪人类的对象)，也可以预先指定与上面的关系类别相似的一个或多个预定关系类别。在另一示例中，可以将上述18个预定关系类别中的疑似演员A替换成如图4所示的关系网络中的其他任意对象，作为该对象的预定关系类别。

确定了对象的预定关系类别之后，即可以按照预定关系类别统计每个对象与其他对象的关系条数。与实施例一相同，统计针对的也是以该对象为初始或目的节点的关系。

通过上述步骤S510或步骤S610-S620，可以确定出每个对象的类别关系特征。之后，示例方法进入步骤S520。

S520，对于所述多个对象中的每个对象，根据该对象的所述类别关系特征确定该对象的预测关联身份类别。

在步骤S520中，根据每个对象的类别关系特征对每个对象进行分类，即确定每个对象的预测关联身份类别。典型的分类实现方式为通过训练好的机器学习模型来进行。图7示出了这样的一个示例性具体实施方式。如图7的示例中所示，步骤S520具体可以包括步骤：

S710，将该对象的所述类别关系特征输入身份类别预测模型，以得到该对象具有每个所述关联身份类别的概率。

身份类别预测模型为训练好的机器学习模型。在一个示例中，可以使用诸如xgboost、gbdt、决策树等的树模型，使用具有确定的关联身份类别的样本对象的类别关系特征进行训练。具体地，可以将样本对象的类别关系特征数据输入模型，使模型输出对该样本对象的关联身份类别的预测概率，即输出该样本对象具有关系网络所涉及的每个关联身份类别的概率，通过调整模型参数，使得模型输出的预测概率等于或接近于该样本对象的真实关联身份类别概率。在一个示例中，可以使用大量的样本对象数据对模型进行训练，迭代地调整模型参数，以得到更准确的预测概率。

S720，确定最大的概率对应的关联身份类别，作为该对象的预测关联身份类别。

在步骤S710中得出的是对象具有每个关联身份类别的概率，这些概率值中最大的那个所对应的关联身份类别是该对象最可能具有的关联身份类别，因此，将该关联身份类别作为该对象的预测关联身份类别。

通过步骤S710-720，可以通过训练好的机器学习模型由对象的类别关系特征得到该对象的预测关联身份类别。

现在返回图2，示例方法进入步骤S230。

S230，将预测关联身份类别与初始关联身份类别不一致的对象从所述初始关系网络中去除。

在一个示例中，可以通过比较预测关联身份类别与初始关联身份类别是否相同来判断二者是否一致，即如果二者不同，则判定二者不一致，否则判定二者一致。在另一示例中，在判断二者相同后，还进一步考虑预测关联身份类别相应的概率值的大小来判断二者是否一致。图8示出了这样的一个示例性具体实施方式。如图8所示，在该示例中，步骤S230具体可以包括步骤：

S810，对于所述每个对象，比较该对象的预测关联身份类别与初始关联身份类别是否相同。

比较预测关联身份类别与初始关联身份类别是否相同是指判断二者是否是相同的关联身份类别。

S820，在该对象的预测关联身份类别与初始关联身份类别不同的情况下，将该对象确定为预测关联身份类别与初始关联身份类别不一致的对象并将该对象从初始关系网络中去除。

如果预测关联身份类别与初始关联身份类别不同，则可以直接判定为二者不一致，这表明该对象为关联身份初始关系网络中的不可靠第一对象，其可能并不具有确定出的关联身份类别，与关联身份关系网络不相关，因此可以将该对象从初始关系网络中去除。

S830，在该对象的预测关联身份类别与初始关联身份类别相同的情况下，判断该对象的预测关联身份类别对应的概率是否小于第二预定阈值。

在预测关联身份类别与初始关联身份类别相同的情况下，在图8的实施例中，并不是直接将二者判定为一致，而是进一步判断预测关联身份类别对应的概率是否小于一预定阈值，并在步骤S840中根据与预定阈值的比较结果来判断是否一致。第二预定阈值可以是根据常识、经验、统计结果、实验等预先确定的阈值，例如，可以将其设置为0.5-0.8之间的值，或其他值。

S840，在该对象的预测关联身份类别对应的概率小于第二预定阈值的情况下，将该对象确定为预测关联身份类别与初始关联身份类别不一致的对象并将该对象从初始关系网络中去除。

如果预测关联身份类别对应的概率大于预定阈值，说明该预测结果的可靠性较高，否则，意味着该预测结果的可靠性可能较低，因此，在这种情况下，虽然预测关联身份类别与初始关联身份类别相同，也将二者判定为不一致，从而将该不可靠的对象从初始关系网络中去除。

通过步骤S230，可以将可能与关联身份关系网络不相关或相关性不强的不可靠对象从初始关系网络中去除。之后，示例方法可以进入步骤S240。

S240，将去除了预测关联身份类别与初始关联身份类别不一致的对象的初始关系网络作为关联身份关系网络。

在步骤S240中，将去除了不可靠对象的初始关系网络作为关联身份关系网络，该关系网络与初始关系网络相比更为准确地体现具有或疑似具有关联身份类别的对象之间的关系的关系网络。

在一个示例中，在步骤S230中从初始关系网络中去除了一次不可靠的对象之后，并不马上将去除不可靠对象后的初始关系网络作为最终的关联身份关系网络，而是返回步骤S220，迭代地循环执行步骤S220和S230，多次去除不可靠对象，以得到更准确的关联身份关系网络。图9示出了图2 的示例方法还可以包括的这样的迭代循环步骤的示意流程图。如图9所示，这样的迭代循环步骤可以包括：

S910，根据去除了预测关联身份类别与初始关联身份类别不一致的对象的初始关系网络，确定每个对象的预测关联身份类别。

步骤S910中根据去除不可靠对象后的初始关系网络确定每个对象的预测关联身份类别的方法与在步骤S220相同，在此不再赘述。

S920，将预测关联身份类别与初始关联身份类别不一致的对象从所述初始关系网络中去除。

步骤S920中判断预测关联身份类别与初始关联身份类别是否一致的方法也与步骤S230中相同，在此也不再赘述。

S930，迭代循环步骤S910-S920，直到在步骤S920中去除的对象的个数小于第一预定阈值为止。

在图9的示例中，多次迭代循环步骤S910-S920，直到所去除的对象的个数小于第一预定阈值为止。所去除的对象的个数小于第一预定阈值说明迭代基本收敛，所以可以停止迭代。第一预定阈值可以根据常识、经验、统计结果、实验等来预先确定，例如，可以将其设置为3-10之间的值，或其他值。

通过上面参考图2-9所述的关联身份关系网络确定方法的各实施例，可以确定出较为精确的关联身份关系网络。根据本公开的另一方面，还提供一种基于关联身份关系网络识别对象的身份类别的方法。图10示出了这样的识别对象的身份类别的方法的一示例性实施例的示意流程图。如图10所示，在该实施例中，示例方法可以包括步骤：

S1010，获取疑似具有关联身份类别的多个对象所形成的关联身份关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别。

在根据本公开的识别对象的身份类别的方法的各实施例中，是基于关联身份关系网络来确定对象的关联身份类别。步骤1010中所述的“关联身份关系网络”，可以是从外部直接接收的关联身份关系网络，也可以是如在步骤S310-S330中那样所生成的关联身份关系网络(初始关系网络)，也可以是根据上面参考图2-9所述的关联身份关系网络确定方法的各实施例确定出的较为精确的关联身份关系网络。

S1020，根据所述关联身份关系网络，确定所述多个对象中每个待识别对象的关联身份类别。

在现有技术中，一般是仅基于对象自身的特征来确定对象的身份类别，而在图10所示的实施例中，该示例方法是基于对象所涉及的关联身份关系网络来确定对象的关联身份类别，通过更全面地将对象与其他对象之间的关系、尤其是与具有关联身份类别的其他对象之间的关系，可以使得对象身份类别的确定更为准确。

步骤S1020中基于关联身份关系网络确定对象的关联身份类别的实现方式可以有多种，例如，在图2的步骤S220及其各具体实施方式中描述的各种实现方式。除此之外，在图11中示出了步骤S1020的另一示例性具体实施方式的示意流程图。如图11所示，步骤S1020可以包括步骤：

S1110，根据所述关联身份关系网络，确定所述多个对象中每个对象的嵌入向量。

可以通过多种方式来实现根据关系网络确定该关系网络中每个对象的向量表示，例如，可以使用无监督的网络嵌入(network embedding)方法 (例如node2vec)通过训练获得关系网络中表示对象的每个节点的嵌入 (embedding)向量(例如100维的向量)。

S1120，对于所述多个对象中的每个待识别对象，根据该待识别对象的嵌入向量以及在所述关联身份关系网络中与该待识别对象具有关系的其他对象的嵌入向量，确定该待识别对象的关联身份类别。

在图11所示的实施例中，使用对象的嵌入向量以及与该对象具有关系的其他对象的嵌入向量作为该对象的向量对，根据该对象的所有(或部分) 向量对来确定该对象的关联身份类别。

在一个示例中，步骤S1120可以通过训练好的机器学习模型来实现。图12示出了这样的一个示例的示意流程图。如图12的示例所示，步骤S1120 可以具体包括步骤：

S1210，将该待识别对象的嵌入向量以及与该待识别对象具有关系的对象的嵌入向量，作为该待识别对象的向量对。

在步骤S1210中，确定出每个待识别对象的所有向量对，其中，每个向量对由该待识别对象的嵌入向量以及与该待识别对象具有关系的对象的嵌入向量组成。在一个示例中，这里所述的关系指直接关系。例如，对象A 分别与对象B-D具有直接关系，则在步骤S1210中可以为对象A确定出三个向量对，即对象A和B的嵌入向量组成的向量对、对象A和C的嵌入向量组成的向量对、对象A和D的嵌入向量组成的向量对。

S1220，将该待识别对象的每个向量对输入训练好的身份类别概率预测模型，以得到作为身份类别概率预测模型的输出的身份类别概率向量，其中，身份类别概率向量的每个元素表示该待识别对象具有相应的关联身份类别的概率。

身份类别概率预测模型为已经训练好的机器学习模型，即，其参数已经通过训练而确定下来。该模型的输入为对象的一个向量对，输出为该对象的身份类别概率向量。身份类别概率向量的元素个数与关联身份关系网络所涉及的关联身份类别的个数相同，每个元素对应一个关联身份类别，每个元素的值为模型所预测出的、对象具有该元素相应的关联身份类别的概率值。例如，假设所基于的关联身份关系网络所涉及的关联身份类别有n 个，则模型输出的身份类别概率向量的元素个数也为n。

可以使用具有确定的关联身份类别的多个样本对象的向量对数据来对模型进行训练，以确定模型的参数，其中使得模型的输入为由关联身份关系网络得到的样本对象的向量对，使得模型的输出等于或接近于样本对象的真实身份类别概率向量。例如，如果一对象的真实身份类别确定为身份类别I，则使模型输出的身份类别概率向量中与该身份类别I相对应的元素的值等于或接近于1，而其他元素等于或接近于0。

在一个示例中，可以使用全连接神经网络来实现该身份类别概率预测模型，将对象的每个向量对输入训练好的全连接神经网络，可以得到作为全连接神经网络的输出的身份类别概率向量。图13示出了这样的一个全连接神经网络的示意结构图。

如图13中所示，该示例全连接神经网络1300包括第一全连接神经网络1310和第二全连接神经网络1320。第一全连接神经网络1310包括第一输入层1311、第一前隐藏层1312、第一后隐藏层1313和第一输出层1314。第二全连接神经网络1320包括第二输入层1321、第二前隐藏层1322、第二后隐藏层1323和第二输出层1324。其中，第一全连接神经网络1310的第一前隐藏层1312除了全连接到其自身全连接神经网络的第一后隐藏层 1313，还连接到了第二全连接神经网络1320的第二后隐藏层1323。相似地，第二全连接神经网络1320的第二前隐藏层1322除了全连接到其自身神经网络的第二后隐藏层1323，还全连接到第一全连接神经网络1310的第一后隐藏层1313。第一全连接神经网络1310的第一输入层1311全连接到第一前隐藏层1312，第一后隐藏层1313全连接到第一输出层1314。相似地，第二全连接神经网络1320的第二输入层1321全连接到第二前隐藏层1322，第二后隐藏层1323全连接到第二输出层1324。

可以将对象的向量对中的该对象的嵌入向量输入第一输入层1311，将向量对中的另一嵌入向量(即与该对象有直接关系的其他对象的嵌入向量) 输入第二输入层1321，其中，第一输出层1314输出的是该对象的身份类别概率向量，第二输出层输出的是该其他对象的身份类别概率向量。在一个示例中，在第一输入层1311中，可以将输入向量的所有元素乘以权重向量 W1来输入到第一前隐藏层1312，同样，在第二输入层1321中，可以将输入向量的所有元素乘以权重向量W2来输入到第二前隐藏层1322。

在上面的示例中，虽然将第一和第二全连接神经网络的隐藏层示出为包含两层，但应当理解的是，第一和第二全连接神经网络的隐藏层可以包括更多层。

如图13所示的全连接神经网络的输出可以表示为：

F1（Ui，Uj)＝(f(Ui*W1+b1)*W3+f(f(Uj*W2+b2)*W3+b3)*W4+b4

F2(Ui，Uj)＝(f(Ui*W1+b1)*W3+f(f(Uj*W2+b2)*W3+b3)*W5+b5

其中，F1(Ui，Uj)为该对象Ui的身份类别概率向量，F2(Ui，Uj)为与该对象具有关系的其他对象Uj的身份类别概率向量。其中，f表示激活函数，其包括但不限于sigmoid函数、tanh函数、relu函数、LReLU、PReLU与 RReLU等。W1、W2、W3、W4、W5、b1、b2、b3、b4、b5是全连接神经网络的参数。

可以使用具有确定的关联身份类别的样本对象的向量对来训练如图13 所示的全连接神经网络，以确定如上所述的各参数。图14示出了根据本公开的一示例性实施例的对如图13所示的全连接神经网络进行训练的示意流程图。如图14所示，该训练过程可以包括步骤：

S1410，获取具有确定的关联身份类别的多个样本对象所形成的样本关联身份关系网络；

S1420，根据所述关联身份关系网络确定所述多个样本对象中每个样本对象的嵌入向量；

S1430，将每个样本对象的嵌入向量和与该样本对象具有关系的其他样本对象的嵌入向量分别输入第一和第二全连接神经网络；

S1440，调整所述全连接神经网络的参数，使得第一和第二全连接神经网络针对每个样本对象的向量对的输出符合该向量对所对应的该样本对象与其他样本对象之间的关系，并符合该样本对象和该其他样本对象的关联身份类别。

在步骤S1440中，可以通过如下所示的损失函数Loss和反向传播算法来调整神经网络的参数(这些参数在初始时为随机数)：

其中，F1(U，P)和F2(U，P)分别为预测出的身份类别概率向量，y_i和y_j分别为相应的真实身份类别概率向量。

针对每个样本输入而调整参数，通过多次调整可以得到使得输出比较接近真实值的参数。在一个示例中，当训练次数大于等于k(k为人工预设的常数)时，或者在参数的变化小于第三预定阈值时，停止训练。

通过步骤S1220，可以得到与待识别对象的每个向量对相对应的身份类别概率向量。之后，示例方法进入步骤S1230。

S1230，对该待识别对象的所有向量对对应的身份类别概率向量求平均，以得到该待识别对象的身份类别平均概率向量。

将为待识别对象确定出的所有身份类别概率向量相加并除以其总个数，可以得到该待识别对象的身份类别平均概率向量。该身份类别平均概率向量为使用多个向量对得出的平均值，比使用一个向量对更能精确地表征该待识别对象。

S1240，根据该待识别对象的身份类别平均概率向量，确定该待识别对象的关联身份类别。

在一个示例中，可以通过确定身份类别平均概率向量的元素中最大的元素，并确定所述最大的元素对应的关联身份类别，作为该待识别对象的关联身份类别。

图15示出了步骤S1240的另一示例具体实施方式。如图15所示，步骤S1240可以包括步骤：

S1510，确定所述身份类别平均概率向量的元素中最大的元素；

S1520，确定所述最大的元素对应的关联身份类别，作为该待识别对象的预测关联身份类别；

S1530，比较该待识别对象的预测关联身份类别与初始关联身份类别；

S1540，在所述预测关联身份类别与所述初始关联身份类别一致的情况下，将所述预测关联身份类别作为该待识别对象的预测关联身份类别。

由步骤S1510-S1540可以看出，在图15的示例中，并不直接将最大概率所对应的身份类别作为对象的最终关联身份类别，而是进一步比较该身份类别与该对象的初始关联身份类别的一致性，如果一致，才将该身份类别作为对象的最终关联身份类别。

关于步骤S1540中如何判断所述预测关联身份类别与所述初始关联身份类别是否一致，可以参考前述步骤S230中的判断方法相同，在此不再赘述。

通过参考图10-15所述的上述方法实施例，可以基于关联身份关系网络确定出该关系网络中的对象的关联身份类别。

根据本公开的另一方面，还提供一种关联身份关系网络的确定装置。该装置执行如上所述的各关联身份关系网络确定方法实施例，其可以被实现在如图1中所示的数据挖掘平台110中。图16示出了根据本公开一示例性实施例的关联身份关系网络的确定装置的示意组成框图。如图16的实施例所示，该示例装置1601可以包括：

初始关系网络获取模块1610，其被配置为：获取疑似具有关联身份类别的多个对象所形成的初始关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别；

关联身份类别预测模块1620，其被配置为：根据初始关系网络，确定所述每个对象的预测关联身份类别；

去除模块1630，其被配置为：将预测关联身份类别与初始关联身份类别不一致的对象从所述初始关系网络中去除；

关系网络确定模块1640，其被配置为：将去除了预测关联身份类别与初始关联身份类别不一致的对象的初始关系网络作为关联身份关系网络。

根据本公开的又一方面，还提供一种识别对象的身份类别的装置。该装置执行如上所述的识别对象的身份类别的方法的各实施例，其可以被实现在如图1中所示的数据挖掘平台110中。图17示出了根据本公开一示例性实施例的识别对象的身份类别的装置的示意组成框图。如图17的实施例所示，该示例装置1701可以包括：

关联身份关系网络获取模块1710，其被配置为：获取疑似具有关联身份类别的多个对象所形成的关联身份关系网络，其中，将所述多个对象中每个对象疑似具有的关联身份类别作为该对象的初始关联身份类别；

关联身份类别确定模块1720，其被配置为：根据所述关联身份关系网络，确定所述多个对象中每个待识别对象的关联身份类别。

上述装置中各个单元/模块的功能和作用的实现过程以及相关细节具体详见上述方法实施例中对应步骤的实现过程，在此不再赘述。

以上各实施例中的装置实施例可以通过硬件、软件、固件或其组合的方式来实现，并且其可以被实现为一个单独的装置，也可以被实现为各组成单元/模块分散在一个或多个计算设备中并分别执行相应功能的逻辑集成系统。

以上各实施例中组成该装置的各单元/模块是根据逻辑功能而划分的，它们可以根据逻辑功能被重新划分，例如可以通过更多或更少的单元/模块来实现该装置。这些组成单元/模块分别可以通过硬件、软件、固件或其组合的方式来实现，它们可以是分别的独立部件，也可以是多个组件组合起来执行相应的逻辑功能的集成单元/模块。所述硬件、软件、固件或其组合的方式可以包括：分离的硬件组件，通过编程方式实现的功能模块、通过可编程逻辑器件实现的功能模块，等等，或者以上方式的组合。

根据一个示例性实施例，该装置可被实现为一种机器设备，该机器设备包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序在被所述处理器执行时，使得所述机器设备执行如上所述的各方法实施例中的任一个，或者，所述计算机程序在被所述处理器执行时使得该机器设备实现如上所述的各装置实施例的组成单元/模块所实现的功能。

上面的实施例中所述的处理器可以指单个的处理单元，如中央处理单元CPU，也可以是包括多个分散的处理单元/处理器的分布式处理器系统。

上面的实施例中所述的存储器可以包括一个或多个存储器，其可以是计算设备的内部存储器，例如暂态或非暂态的各种存储器，也可以是通过存储器接口连接到计算设备的外部存储装置。

图18示出了这样的机器设备1801的一个示例性实施例的示意组成框图。如图18所示，该机器设备可以包括但不限于：至少一个处理单元1810、至少一个存储单元1820、连接不同系统组件(包括存储单元1820和处理单元1810)的总线1830。

所述存储单元存储有程序代码，所述程序代码可以被所述处理单元 1810执行，使得所述处理单元1810执行本说明书上述示例性方法的描述部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元 1810可以执行如图2-15的流程图中所示的各个步骤。

存储单元1820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1821和/或高速缓存存储单元1822，还可以进一步包括只读存储单元(ROM)1823。

存储单元1820还可以包括具有一组(至少一个)程序模块1825的程序/实用工具1824，这样的程序模块1825包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

该机器设备也可以与一个或多个外部设备1870(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该机器设备交互的设备通信，和/或与使得该机器设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1850进行。并且，该机器设备还可以通过网络适配器1860与一个或者多个网络(例如局域网(LAN)，广域网(WAN) 和/或公共网络，例如因特网)通信。如图所示，网络适配器1860通过总线1830与该机器设备的其它模块通信。应当明白，尽管图中未示出，但该机器设备可以使用其它硬件和/或软件模块来实现，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是 CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述方法实施例部分描述的方法。

根据本公开的一个实施例，还提供了一种用于实现上述方法实施例中的方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种识别对象的身份类别的方法，其特征在于，包括：

根据所述关联身份关系网络，确定所述多个对象中每个对象的嵌入向量；

对于所述多个对象中的每个待识别对象，将该待识别对象的嵌入向量以及与该待识别对象具有关系的其他对象的嵌入向量，作为该待识别对象的向量对；

将该待识别对象的每个向量对输入训练好的身份类别概率预测模型，以得到所述身份类别概率预测模型输出的身份类别概率向量，其中，所述身份类别概率向量所包含的每个元素表示该待识别对象具有相应的关联身份类别的概率；

对该待识别对象的所有向量对所对应的身份类别概率向量求平均，以得到该待识别对象的身份类别平均概率向量；

根据该待识别对象的身份类别平均概率向量，确定该待识别对象的关联身份类别。

2.根据权利要求1所述的方法，其特征在于，所述将该待识别对象的每个向量对输入训练好的身份类别概率预测模型，以得到所述身份类别概率预测模型输出的身份类别概率向量，包括：

将该待识别对象的每个向量对输入训练好的全连接神经网络，以得到所述全连接神经网络输出的身份类别概率向量。

3.根据权利要求2所述的方法，其特征在于，所述全连接神经网络包括第一全连接神经网络和第二全连接神经网络，第一全连接神经网络包括第一前隐藏层和第一后隐藏层，第二全连接神经网络包括第二前隐藏层和第二后隐藏层，所述第一前隐藏层全连接到所述第一后隐藏层和所述第二后隐藏层，所述第二前隐藏层全连接到所述第一后隐藏层和所述第二后隐藏层；其中，所述将该待识别对象的每个向量对输入训练好的全连接神经网络，以得到所述全连接神经网络输出的身份类别概率向量，包括：

将每个向量对中的该待识别对象的嵌入向量作为所述第一全连接神经网络的输入，将该向量对中的另一嵌入向量作为所述第二全连接神经网络的输入；

获取所述第一全连接神经网络输出的该待识别对象的身份类别概率向量。

4.根据权利要求1所述的方法，其特征在于，所述根据该待识别对象的身份类别平均概率向量，确定该待识别对象的关联身份类别，包括：

确定所述身份类别平均概率向量所包含的元素中最大的元素；

确定所述最大的元素对应的关联身份类别，作为该待识别对象的关联身份类别。

5.根据权利要求1所述的方法，其特征在于，所述根据该待识别对象的身份类别平均概率向量，确定该待识别对象的关联身份类别，包括：

确定所述最大的元素对应的关联身份类别，作为该待识别对象的预测关联身份类别；

比较该待识别对象的预测关联身份类别与初始关联身份类别；

在所述预测关联身份类别与所述初始关联身份类别一致的情况下，将所述预测关联身份类别作为该待识别对象的预测关联身份类别。

6.根据权利要求3所述的方法，其特征在于，还包括：

获取具有确定的关联身份类别的多个样本对象所形成的样本关联身份关系网络；

根据所述样本关联身份关系网络确定所述多个样本对象中每个样本对象的嵌入向量；

将每个样本对象的嵌入向量输入所述第一全连接神经网络，并将与该样本对象具有关系的其他样本对象的嵌入向量输入所述第二全连接神经网络；

调整所述全连接神经网络的参数，使得所述第一全连接神经网络和所述第二全连接神经网络针对每个样本对象的向量对的输出符合该向量对所对应的该样本对象与其他样本对象之间的关系，并符合该样本对象和该其他样本对象的关联身份类别。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述获取疑似具有关联身份类别的多个对象所形成的关联身份关系网络，包括：

获取疑似具有关联身份类别的多个对象所形成的初始关系网络；

根据所述初始关系网络，通过训练好的机器学习模型确定所述每个对象的预测关联身份类别；

将所述预测关联身份类别与所述初始关联身份类别不一致的对象从所述初始关系网络中去除；

将去除了所述预测关联身份类别与所述初始关联身份类别不一致的对象的初始关系网络，作为所述关联身份关系网络。

8.根据权利要求7所述的方法，其特征在于，所述根据初始关系网络，通过训练好的机器学习模型确定所述每个对象的预测关联身份类别，包括：

根据所述初始关系网络，确定所述每个对象的类别关系特征；

对于所述多个对象中的每个对象，通过训练好的机器学习模型根据该对象的所述类别关系特征预测得到该对象的预测关联身份类别。

9.根据权利要求7所述的方法，其特征在于，在将去除了所述预测关联身份类别与所述初始关联身份类别不一致的对象的初始关系网络，作为所述关联身份关系网络之前，还包括：

S1：根据去除了所述预测关联身份类别与所述初始关联身份类别不一致的对象的初始关系网络，确定每个对象的预测关联身份类别；

S2：将所述预测关联身份类别与所述初始关联身份类别不一致的对象从所述初始关系网络中去除；

S3：迭代循环步骤S1-S2，直到在步骤S2中去除的对象的个数小于第一预定阈值为止。

10.一种识别对象的身份类别的装置，其特征在于，包括：

关联身份类别确定模块，其被配置为：

11.一种机器设备，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至9中任一项所述的方法。