CN116757278A

CN116757278A - 一种预测模型的训练方法、装置、存储介质及电子设备

Info

Publication number: CN116757278A
Application number: CN202311053464.4A
Authority: CN
Inventors: 余磊; 吕劲松; 陈红阳
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-09-15
Anticipated expiration: 2043-08-21
Also published as: CN116757278B

Abstract

本说明书公开了一种预测模型的训练方法、装置、存储介质及电子设备，通过对样本图中的各节点进行聚类，再基于聚类结果中与目标节点属于相同聚类簇但与目标节点不存在链接关系的各节点，以及与所述目标节点距离较近但与该目标节点之间也不存在链接关系的各节点，确定指定节点，并将该指定节点和目标节点进行组合得到负样本对，以及根据确定出的负样本对和基于样本图中原有的链接关系确定出的正样本对，对该预测模型进行训练。本方法能充分考虑并利用节点间的相似信息进行负采样，从而使得训练得到的预测模型，可针对每个节点，准确预测其他节点与该节点之间存在链接关系的可能性，提高了预测结果的准确率。

Description

一种预测模型的训练方法、装置、存储介质及电子设备

技术领域

本说明书涉及图神经网络领域，尤其涉及一种预测模型的训练方法、装置、存储介质及电子设备。

背景技术

目前，随着计算机技术的发展和业务融合的需要，图结构由于其可建模较多场景的数据的特点，被广泛应用于产品推荐、生物科学、金融等多种领域中。

但是，在现有技术中使用图结构来存储并展示信息的过程中，经常会遇到获取到的信息中缺失某种类型的信息，导致构建出的图结构无法准确地表达各实体之间的链接关系的情况出现。在该情况下，如何基于图结构中已有的链接关系，预测出图结构中尚未产生连边的两个节点之间产生链接的可能性，就变得愈发关键。

基于此，本说明书提供一种预测模型的训练方法。

发明内容

本说明书提供一种预测模型的训练方法、装置、存储介质及电子设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供一种预测模型的训练方法，包括：

确定以实体为节点、以实体之间的关系为边的样本图；

对所述样本图中的各节点进行聚类，确定所述样本图中的各聚类簇，并针对每个聚类簇，根据该聚类簇中各节点与其他聚类簇中各节点之间的距离，确定用于表征该聚类簇与其他聚类簇之间距离的中间距离；

从各节点中确定目标节点，并将与所述目标节点属于相同聚类簇的节点作为所述目标节点的邻近区域内的节点，以及根据所述目标节点的位置、所述目标节点所属的聚类簇对应的中间距离以及所述各节点的位置，确定所述目标节点的中间区域包含的各节点；

从所述邻近区域包含的各节点和所述中间区域包含的各节点中，确定与所述目标节点不具有链接关系的指定节点，并将所述指定节点和所述目标节点进行组合得到负样本对，以及根据所述样本图中原有的链接关系，确定正样本对；

根据所述负样本对和所述正样本对，对所述预测模型进行训练。

可选地，确定以实体为节点、以实体之间的关系为边的样本图，具体包括：

根据用户的历史行为数据，确定各实体以及所述各实体之间的链接关系，所述实体包括用户、产品、用户属性、产品属性中的至少一种；

根据所述各实体以及所述各实体之间的链接关系，构建以各实体为节点、以各链接关系为边的样本图。

可选地，确定所述样本图中的各聚类簇，具体包括：

确定预先设置的指定数量，所述指定数量为聚类结果中包含的聚类簇的数量；

根据所述指定数量，对所述样本图中的各节点进行聚类，确定出包含指定数量的聚类簇的聚类结果。

可选地，确定用于表征该聚类簇与其他聚类簇之间距离的中间距离，具体包括：

从其他聚类簇中，确定指定聚类簇；

针对该聚类簇中的每个节点，确定该节点与所述指定聚类簇中各节点之间的距离，作为第一距离；

根据该聚类簇中各节点分别对应的第一距离，确定该聚类簇与所述指定聚类簇之间的指定距离；

根据确定出的指定距离，确定用于表征该聚类簇与其他聚类簇之间距离的中间距离。

可选地，根据所述目标节点的位置、所述目标节点所属的聚类簇对应的中间距离以及所述各节点的位置，确定所述目标节点的中间区域包含的各节点，具体包括：

以所述目标节点的位置为中心，以所述目标节点所述的聚类簇对应的中间距离为半径，确定待定中间区域；

将所述待定中间区域中除与所述目标节点属于相同聚类簇的节点外的其他节点，作为所述目标节点的中间区域包含的节点。

可选地，从所述邻近区域包含的各节点和所述中间区域包含的各节点中，确定与所述目标节点不具有链接关系的指定节点，具体包括：

从所述邻近区域包含的各节点中，确定与所述目标节点不具有链接关系的各节点，作为各第一指定节点；

从所述中间区域包含的各节点中，确定与所述目标节点不具有链接关系的各节点，作为各第二指定节点；

按照预设的采样比例，对所述各第一指定节点和所述各第二指定节点进行采样，将采样到的各节点分别与所述目标节点进行组合，得到各负样本对。

可选地，按照预设的采样比例，对所述各第一指定节点和所述各第二指定节点进行采样，将采样到的各节点分别与所述目标节点进行组合，得到各负样本对，具体包括：

将所述中间区域外的区域作为遥远区域，并从所述遥远区域包含的各节点中，确定与所述目标节点不具有链接关系的各节点，作为各第三指定节点；

按照预设的采样比例，对所述各第一指定节点、所述各第二指定节点和所述各第三指定节点分别进行采样，并将采样到的各节点分别和所述目标节点进行组合，得到负样本对。

本说明书提供一种预测模型的训练装置，所述装置包括：

图确定模块，用于确定以实体为节点、以实体之间的关系为边的样本图；

聚类模块，用于对所述样本图中的各节点进行聚类，确定所述样本图中的各聚类簇，并针对每个聚类簇，确定根据该聚类簇中各节点与其他聚类簇中各节点之间的距离，确定用于表征该聚类簇与其他聚类簇之间距离的中间距离；

区域确定模块，用于从各节点中确定目标节点，并将与所述目标节点属于相同聚类簇的节点作为所述目标节点的邻近区域内的节点，以及根据所述目标节点的位置、所述目标节点所属的聚类簇对应的中间距离以及所述各节点的位置，确定所述目标节点的中间区域包含的各节点；

样本确定模块，用于从所述邻近区域包含的各节点和所述中间区域包含的各节点中，确定与所述目标节点不具有链接关系的指定节点，并将所述指定节点和所述目标节点进行组合得到负样本对，以及根据所述样本图中原有的链接关系，确定正样本对；

训练模块，用于根据所述负样本对和所述正样本对，对所述预测模型进行训练。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述预测模型的训练方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述预测模型的训练方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

通过对样本图中的各节点进行聚类，再基于聚类结果中与目标节点属于相同聚类簇但与目标节点不存在链接关系的各节点，以及与所述目标节点距离较近但与该目标节点之间也不存在链接关系的各节点，确定指定节点，并将该指定节点和目标节点进行组合得到负样本对，以及根据确定出的负样本对和基于样本图中原有的链接关系确定出的正样本对，对该预测模型进行训练。

本方法能充分考虑并利用节点间的相似信息进行负采样，从而使得训练得到的预测模型，可针对每个节点，准确预测与该节点距离较近的其他节点以及与该节点具有一定相似性的节点是否与该节点之间具有链接关系，即，其他节点与该节点之间存在链接关系的可能性，提高了预测结果的准确率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的预测模型的训练方法的流程示意图；

图2为本说明书提供的样本确定方法的流程示意图；

图3为本说明书提供的预测模型的训练方法的流程示意图；

图4为本说明书提供的预测模型的训练装置的结构示意图；

图5为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

目前，一种常见的链接预测方法是基于预测模型实现的。具体的，确定需要预测产生连接的可能性的节点对，作为待预测节点对。然后，将包含该待预测节点对的图结构作为输入，输入预先训练得到的预测模型中，得到该预测模型输出的该待预测节点对的预测结果。其中，该预测结果为该待预测节点对中包含的两个节点之间产生连接的概率。

但是，目前在训练该预测模型的过程中，通常会基于图结构中已有的链接关系确定正样本对，而对于负样本对仅仅采用随机采样的方式确定，导致确定出的负样本对并没有什么参考意义，进而导致训练得到的预测模型不够准确。

基于此，本说明书提供一种预测模型的训练方法，通过对样本图中的各节点进行聚类，再基于聚类结果中与目标节点属于相同聚类簇但与目标节点不存在链接关系的各节点，以及与所述目标节点距离较近但与该目标节点之间也不存在链接关系的各节点，确定指定节点，并将该指定节点和目标节点进行组合得到负样本对，进而基于确定出的负样本对对该预测模型进行训练。

基于本说明书训练得到的预测模型，可针对每个节点，准确预测与该节点距离较近的其他节点以及与该节点具有一定相似性的节点是否与该节点之间具有链接关系，即，其他节点与该节点之间存在链接关系的可能性。

图1为本说明书提供的预测模型的训练方法的流程示意图，具体包括以下步骤：

S100：确定以实体为节点、以实体之间的关系为边的样本图。

本说明书提供一种预测模型的训练方法，该预测模型的训练方法的执行过程可由用于确定对图结构中两个节点之间产生连接的可能性的服务器等电子设备执行。本说明书中以用于执行训练过程的服务器执行该预测模型的训练方法为例进行说明。

基于上述对本说明书中的预测模型的训练方法的简要说明，可见，本说明书中的该预测模型的训练方法，可首先确定样本图。

其中，该样本图为以实体为节点、以实体之间的关系为边的图结构或知识图谱。

具体的，该服务器可接收训练请求，该训练请求中可携带有样本图。

于是，该服务器可对接收到的训练请求进行解析，确定该训练样本中携带的样本图。

当然，上述训练请求还可为该服务器监测到自身满足训练启动条件时自动发起的，该训练启动条件可以是到达预设时刻，也可为监测到用于训练预测模型的样本图已确定。具体该训练请求如何生成以及何时生成，可根据需要进行设置，本说明书对此不做限制。

进一步的，上述步骤中的样本图，可为至少包含用户节点和产品节点的样本图。具体的，该服务器可确定用户的历史行为数据，并根据确定出的历史行为数据，确定各实体以及各实体之间的链接关系。其中，该实体包含用户、产品、用户属性和产品属性中的至少一种。

于是，根据确定出的各实体以及各实体之间的链接关系，该服务器可构建以各实体为节点、以各连接关系为边的样本图。也就是说，构建出的样本图中，可包含用户节点、产品节点、用户年龄和用户性别等用户属性节点、以及产品介绍和用户对产品的评论等产品属性节点，具体该用户属性和产品属性所包含的内容可根据需要进行设置，本说明书对此不做限制。

需要说明的是，上述样本图中包含的节点可不仅为实体节点，还可为修饰节点。如，“美丽的”、“繁华的”、“干净的”等用于对实体进行修饰的形容词所对应的节点。具体该样本图中包含的节点类型可根据需要进行设置，本说明书对此不做限制。

当然，当上述样本图中包含的节点为对多种类型的数据进行描述时，如，存在用户节点、产品节点，对产品进行描述的节点以及对用户进行描述的节点，该样本图可被称为异构图。

当上述样本图中包含的节点仅为某种类型的数据对应的节点时，如，仅存在用户节点的样本图，或者，仅存在产品节点的样本图，则该样本图可被称为同构图。

当上述样本图中包含的节点仅为对种类型的数据进行描述时，如，存在用户节点和对用户进行描述的节点，或者，存在产品节点以及对产品进行描述的节点，该样本图可被称为属性图。

该服务器可直接基于确定出的同构图、异构图或者属性图执行后续步骤，也可将异构图进行拆分，得到拆分结果，再基于拆分结果执行后续步骤。其中，针对每个拆分结果，该拆分结果为同构子图或属性子图。也就是说，该拆分结果中可仅包含一种类型的节点，或者，该拆分结果中可仅包含对一种类型的数据进行描述的节点。

需要说明的是，上述包含产品节点的同构图、包含用户节点的同构图，以及包含产品节点和用户节点的异构图，仅为对样本图的示例说明。该样本图对应的具体类型，以及该样本图中具体包含哪种类型的节点，以及各节点之间的边具体表征何种链接关系，具体可根据需要进行设置，本说明书对此不做限制。

S102：对所述样本图中的各节点进行聚类，得到聚类后的各聚类簇，并针对每个聚类簇，根据该聚类簇中各节点与其他聚类簇中各节点之间的距离，确定用于表征该聚类簇和其他聚类簇之间距离的中间距离。

在本说明书提供的一个或多个实施例中，通常情况下，两个节点对应的节点特征越相似，距离越近，则这两个节点之间具有链接关系的可能性越高。于是，针对每个节点来说，如何确定出与该节点距离较近但与该节点不具有链接关系的节点就变得愈发重要。因此，本说明书中，该服务器可从与该节点距离较近的各节点中，确定与该节点组合形成负样本对的节点。

而在本说明书中，如何衡量上述“距离较近”就变成了需要解决的技术问题之一。而对于节点来说，与该节点属于相同类型的其他节点显然与该节点较近，与该节点不属于相同类型，但与该节点之间的距离小于该节点所属聚类簇与其他聚类簇之间距离的节点，与该节点也较为相近。因此，该服务器可基于上述两种节点，来训练该预测模型。

于是，本说明书中可对样本图中各节点进行聚类，再针对每个节点，将与该节点属于相同聚类簇的节点作为该节点的邻近区域的节点，以及将与该节点之间的距离小于预设阈值的节点，和该节点进行组合来确定负样本对。

具体的，该服务器可针对该样本图中的每个节点，确定该节点的节点特征。

然后，该服务器可根据各节点分别对应的节点特征，将各节点进行聚类，则该服务器可确定聚类结果中包含的各聚类簇。

最后，该服务器可针对每个聚类簇，根据该聚类簇中各节点与其他聚类簇中各节点之间的距离，确定可用于表征该聚类簇与其他聚类簇之间的中间距离。也就是说，针对每个聚类簇，在以该聚类簇中的节点为中心，以该中间距离为半径的情况下，确定出的中间区域中，应当仅存在部分属于其他聚类簇的节点。

其中，上述过程中，该服务器可基于样本图中的每个节点，对该节点本身对应的内容进行特征提取，得到该节点的节点特征。以该样本图中包含有产品节点和对产品进行描述的节点为例。则该服务器可针对样本图中的每个节点，确定该节点对应的内容，并对该内容进行特征提取。该节点对应的内容可为“产品名称”等ID型数据、“产品描述”等文本型数据，以及“产品宣传图”等图形数据。不同类型的节点有其对应的特征提取方式。上述包含产品节点和对产品进行描述的节点的样本图仅为示例说明，具体该样本图中包含的节点类型以及如何确定节点特征，可根据需要进行设置，本说明书对此不做限制。

当然，该服务器还可针对每个节点，从样本图中确定与该节点具有链接关系的各邻居节点，并根据各邻居节点分别对应的节点特征、各邻居节点分别与该节点对应的链接关系以及该节点自身对应的节点特征，来重新确定该节点的节点特征。

该服务器在上述确定中间距离的过程中，可针对每个聚类簇，确定该聚类簇对应的簇中心，并根据该聚类簇的簇中心和其他聚类簇的簇中心之间分别对应的距离，确定该聚类簇的中间距离，其中，该中间距离可为上述各距离的平均数、中位数等，具体如何确定该中间距离可根据需要进行设置，本说明书对此不做限制。

该服务器在对各节点进行聚类时，可采用K均值聚类算法、均值漂移聚类算法、基于密度的聚类算法等多种聚类算法，由于目前使用聚类算法对特征进行聚类已经是较为成熟的技术，本说明书对此不再赘述。

S104：从各节点中确定目标节点，并将与所述目标节点属于相同聚类簇的节点作为所述目标节点的邻近区域内的节点，以及根据所述目标节点的位置、所述目标节点所属的聚类簇对应的中间距离以及所述各节点的位置，确定所述目标节点的中间区域包含的各节点。

在本说明书提供的一个或多个实施例中，如前所述的，该服务器可针对每个节点，将该节点所属的聚类簇中包含的其他节点作为该目标节点的邻近区域，再将与该节点之间的距离小于距离阈值的区域作为该节点的中间区域。则后续可基于该邻近区域和中间区域中的节点确定负样本对。

具体的，该服务器可从各节点中确定目标节点。其中，该目标节点可为该服务器从各节点中随机采样确定的，也可为该服务器根据各节点分别对应的邻居节点的数量确定的。当然，该服务器还可针对样本图中的每个节点，将该节点作为目标节点。具体该服务器如何从各节点中确定目标节点可根据需要进行设置，本说明书对此不做限制。

于是，该服务器可确定该目标节点所属的聚类簇，并将该目标节点所属的聚类簇中的其他节点，作为该目标节点的邻近区域中包含的各节点。也就是说，该服务器可将与该目标节点属于相同聚类簇的节点所在的区域，作为该目标节点的邻近区域。

然后，该服务器可根据该目标节点的位置和该目标节点所述的聚类簇的中间距离，确定该目标节点的中间区域。并根据该中间区域和各节点的位置，确定位于该中间区域内的各节点。

其中，该服务器可以该目标节点所述的聚类簇的中间距离为半径，确定以该目标节点的位置为中心的规则图形区域，作为待选中间区域，并确定该待选中间区域中除邻近区域外的其他区域，作为该目标节点的中间区域。其中，该规则图形区域可为圆形区域、矩形区域、平行四边形区域等，该规则图形对应的具体形状可根据需要进行设置，本说明书对此不做限制。当然，该中间区域还可对应于不规则形状，该中间区域对应的具体形状可根据需要进行设置，本说明书对此不做限制。

最后，该服务器可确定该邻近区域内包含的各节点，以及该中间区域内包含的各节点，以便于后续基于确定出的邻近区域内包含的各节点以及中间区域内包含的各节点来确定负样本对。

S106：从所述邻近区域包含的各节点和所述中间区域包含的各节点中，确定与所述目标节点不具有链接关系的指定节点，并将所述指定节点和所述目标节点组合得到负样本对，以及根据所述样本图中原有的链接关系，确定正样本对。

在本说明书提供的一个或多个实施例中，对于目标节点来说，该服务器可确定样本图中与该目标节点之间具有链接关系的节点，与该目标节点组合来作为正样本对。而如何基于该目标节点来确定负样本对呢，这就需要将该目标节点与和该目标节点距离较近但与该目标节点之间不具有链接关系的节点，和该目标节点进行组合确定负样本对。而如前所述的，与节点属于相同聚类簇，以及与节点之间的距离小于中间距离的节点，都为与该目标节点较为接近的节点。因此，该服务器可基于邻近区域内的各节点和中间区域内的各节点，来确定负样本对。

具体的，该服务器可根据样本图，确定样本图中与该目标节点具有链接关系的节点。

然后，该服务器可从邻近区域包含的各节点中，确定除上述与该目标节点具有链接关系的节点外的其他节点，作为与该目标节点之间不具有链接关系的节点。

同时，该服务器可从中间区域包含各节点中，确定除上述与该目标节点具有链接关系的节点外的其他节点，作为与该目标节点之间不具有链接关系的节点。

于是，该服务器可从确定出的与该目标节点之间不具有链接关系的节点中，确定指定节点，并将该指定节点和该目标节点进行组合，得到负样本对。

S108：根据所述负样本对和所述正样本对，对所述预测模型进行训练。

在本说明书提供的一个或多个实施例中，在确定出对预测模型进行训练的训练样本后，该服务器可对该预测模型进行训练。

具体的，该服务器可将该正样本对和负样本对分别作为输入，输入到该预测模型中，得到该预测模型对于正样本对和负样本对分别对应的预测结果。其中，该预测结果用于表征该正样本对中的包含的两个节点之间具有链接关系的概率，以及该负样本对中包含的两个节点之间具有链接关系的概率。该正样本对可为样本图中与该目标节点之间具有链接关系的节点和该目标节点进行组合得到。

也就是说，该服务器可将节点对输入该预测模型中，得到该预测模型输出的节点对的预测结果，该预测结果用于表征该节点对包含的两个节点之间具有链接关系的概率。其中，该链接关系可为从属关系，也可为指定操作对应的关系。

以节点对包含的两个节点分别为“A产品”和“B用户”为例，则这两个节点具有的链接关系可以是B用户对A产品执行过指定操作，该指定操作可为购买操作、收藏操作、点击操作等至少一个。以节点对包含的两个节点分别为“A产品”和“C组分”为例，则这两个节点所具有的链接关系可以是A产品中拥有C组分。

于是，在确定出正样本对的预测结果以及负样本对的预测结果后，该服务器可根据正样本对的预测结果及其标注确定第一差距，以及根据负样本对的预测结果及其标注确定第二差距，最后根据该第一差距和第二差距确定损失，以损失最小化为优化目标对该预测模型进行训练。

在本说明书中，训练完成的该预测模型还可用于对待预测样本对中包含的两个待预测节点之间是否具有链接关系进行预测。其中，该待预测样本对中的两个待预测节点，可为用户节点和产品节点，则该服务器可预测该用户节点对应的用户是否可购买该产品节点对应的产品。上述两个待预测节点还可为用户节点和用户节点，则该服务器可预测上述两个节点对应的用户之间是否认识、是否为朋友等。上述两个待预测节点还可为产品节点和对产品进行描述的描述节点，则该服务器可预测上述描述节点是否用于描述该产品节点对应的产品。

于是，该服务器可接收预测请求，并对该预测请求进行解析，确定该预测请求中包含的待预测样本对。

然后，该服务器可将该待预测样本对输入该预测模型中，得到该预测模型输出的待预测样本对包含的两个待预测节点之间的链接关系，作为预测结果。其中，该待预测样本节点对中的两个待预测节点分别对应的节点类型，以及该预测结果对应的具体链接关系类型，可根据需要进行设置，本说明书对此不做限制。

最后，该服务器可根据该预测请求，将该预测结果进行返回。

基于图1所示的预测模型的训练方法，通过对样本图中的各节点进行聚类，再基于聚类结果中与目标节点属于相同聚类簇但与目标节点不存在链接关系的各节点，以及与所述目标节点距离较近但与该目标节点之间也不存在链接关系的各节点，确定指定节点，并将该指定节点和目标节点进行组合得到负样本对，以及根据确定出的负样本对和基于样本图中原有的链接关系确定出的正样本对，对该预测模型进行训练。本方法能充分考虑并利用节点间的相似信息进行负采样，从而使得训练得到的预测模型，可针对每个节点，准确预测与该节点距离较近的其他节点以及与该节点具有一定相似性的节点是否与该节点之间具有链接关系，即，其他节点与该节点之间存在链接关系的可能性，提高了预测结果的准确率。

另外，对于样本图中的节点可聚类为几种类型，该服务器可预先确定。于是，在对各节点进行聚类时，该服务器还可确定预先设置的指定数量，并根据该指定数量，采用聚类算法，对该样本图中的各节点进行聚类，确定出包含指定数量的聚类簇的聚类结果。也就是说，该聚类结果中包含的聚类簇的数量为指定数量。

进一步的，该服务器可采用下述方式确定负样本对。

具体的，该服务器可针对每个聚类簇，确定该聚类簇与其他聚类簇之间分别对应的指定距离。其中，针对每个指定距离，该指定距离用于表征该聚类簇和该指定距离对应的其他聚类簇之间的距离。

然后，根据该聚类簇对应的各指定距离，确定中间距离。其中，该中间距离可用于表征该聚类簇和其他聚类簇之间的距离。该中间距离可为上述各指定数据中的平均数、中位数等多种指标。

若以该指定节点为中心，以该中间距离为半径确定某一区域，则确定出的某一区域中包含较多与该目标节点不具有链接关系但与该目标节点距离较近的节点。显然，这种节点对于预测模型来说，是需要进行准确区分的节点，也就是说，基于上述与该目标节点不具体连接关系但与该目标节点距离较近的节点，和该目标节点组成的样本对，可对该预测模型进行更好的训练。

于是，该服务器可根据该中间距离和该目标节点的位置，确定该节点的中间区域，并按照预设的采样比例，从该中间区域内确定与该目标节点没有链接关系的各节点，并将确定出的各节点与该目标节点组合，得到各负样本对。

其中，上述指定距离可通过最近距离算法、最远距离算法、重心距离算法、中间距离算法等多种算法确定，具体如何确定该指定距离可根据需要进行设置，本说明书对此不做限制。

以和/>为聚类结果中的第/>个聚类簇和第/>个聚类簇为例，假设/>中包含个节点，/>中包含/>个节点为例，则这两个聚类簇之间的指定距离可为d。其中，/>用于表征/>中第k个节点，/>用于表征/>中第y个节点。

于是，根据各聚类簇之间的指定距离，可确定中间距离，其中，该中间距离可为对各指定距离平均确定，也可为对各指定距离取中位数确定，具体如何根据各指定距离确定中间距离可根据需要进行设置，本说明书对此不做限制。

更进一步的，对于本说明书训练得到的预测模型，可用于准确确定各节点之间产生链接的概率。而以A节点和目标节点属于相同聚类簇，但样本图中该A节点和目标节点之间并不存在链接关系为例，假设B节点和该目标节点不属于相同聚类簇，且样本图中B节点和目标节点之间也不存在链接关系。在此情况下，若使用模型对A节点和目标节点之间产生链接关系的概率，以及B节点和目标节点之间产生链接关系的概率进行预测，则该预测模型的训练目标之一，可为输出A节点和目标节点之间产生链接关系的概率高于B节点和目标节点之间产生链接关系的概率。那么该如何达到上述训练目标？只要在训练阶段，类似于B节点的其他节点和该目标节点组合成的负样本对的数量，多于类似于A节点的其他节点和该目标节点组合成的负样本对的数量，即可达到上述训练目标。因此，该服务器还可基于预设的采样比例，对该邻近区域内的节点和该中间区域内的节点进行采样。

具体的，该服务器可从该邻近区域包含的各节点中，确定与该目标节点不具有链接关系的各节点，作为各第一指定节点。

同时，该服务器可从中间区域包含的各节点中，确定与目标节点不具有链接关系的各节点，作为各第二指定节点。

然后，该服务器可按照预设的采样比例，对各第一指定节点和第二指定节点进行采样，得到采样结果。其中，第一指定节点的采样比例低于第二指定节点的采样比例。

最后，该服务器可将采样到的各节点分别与目标节点进行组合，得到各负样本对。

另外，对于目标节点来说，若仅考虑目标节点的中间区域内与该目标节点不具有链接关系的节点，则训练得到的预测模型在预测中间区域外的其他区域中各节点与该目标节点之间是否具有链接关系时，得到的预测结果的准确度较低。因此，在本说明书中，还可根据中间区域外的其他区域中的节点来确定样本对。

具体的，该服务器可将中间区域外的其他区域，作为遥远区域，并从该遥远区域包含的各节点中，确定与该目标节点之间不具有链接关系的各节点，作为各第三指定节点。

于是，该服务器可按照预设的采样比例，对各第一指定节点、各第二指定节点和各第三指定节点进行采样，得到采样结果。其中，第一指定节点的采样比例低于第二指定节点的采样比例。第三指定节点的采样比例也低于第二指定节点的采样比例。

更进一步的，在本说明书中，该服务器还可针对每个聚类簇，根据该聚类簇中的各节点之间的距离，确定出用户表征该聚类簇中各节点之间距离的簇内距离以基于该簇内距离确定邻近区域。

具体的，首先，针对该聚类簇中的每个节点，确定该聚类簇中其他节点与该节点之间的距离，作为第二距离。

然后，根据该聚类簇中各节点分别对应的第二距离，确定该聚类簇的簇内距离。

其中，其他节点与该节点之间的距离，可为节点间的相似度。如，皮尔逊相关系数( Pearson correlation coefficient）、斯皮尔曼等级相关系数（Spearman's rankcorrelation coefficient）、欧式距离、切比雪夫距离、闵可夫斯基距离、马氏距离、余弦相似度、曼哈顿距离、汉明距离、编辑距离、信息熵、最短距离等。具体采用何种方式来衡量两个向量或两个特征之间的相似度，可根据需要进行设置，本说明书对此不做限制。

以和/>分别为两个节点分别对应的节点向量为例，假设节点向量的维度为n维，/>分别为节点/>和/>中的第/>个分量。于是，这两个节点向量之间的距离可为。当然，上述仅以欧氏距离来确定节点向量之间的相似度为例进行说明。

于是，针对每个聚类簇中的每个节点，该服务器可确定该节点的第二距离为，其中，/>用于表征该聚类簇中第/>个节点，/>用于表征该聚类簇中第/>个节点，/>用于表征这两个节点之间的距离，N为该聚类簇包含的节点的个数。

则根据该聚类簇中各节点分别对应的第二距离，该服务器可确定该聚类簇的簇内距离=/>。其中，/>用于表征该聚类簇。

另外，为了便于更准确地确定出正样本对和负样本对，在确定出各聚类簇后，该服务器还可确定各聚类簇分别对应的编号，并针对每个聚类簇，将该聚类簇中包含的各节点均标注该聚类簇的编号。于是，在确定正样本对和负样本对时，该服务器可仅根据目标节点的编号、中间区域中各节点的编号以及遥远区域中各节点的编号，确定该目标节点对应的各区域分别包含的节点。其中，编号相同则为相同聚类簇，编号不同则为不同聚类簇。也就是说，针对每个节点，若该节点的编号与目标节点的编号相同，则该节点可作为该目标节点邻近区域内的节点，若该节点的编号与目标节点的编号不同，则该节点可为该目标节点的中间区域或遥远区域包含的节点。于是，该服务器可根据确定出的该目标节点的邻近区域内包含的各节点、中间区域内包含的各节点，确定与该目标节点之间不具有链接关系的节点，作为指定节点与该目标节点组合作为负样本对。

需要说明的是，针对每个节点，若该节点属于该目标节点中间区域内的节点，则与该节点属于相同聚类簇的其他节点也属于该目标节点的中间区域内的节点。也就是说，针对每个聚类簇，该聚类簇包含的各节点之间的距离为0。

基于同样思路，本说明书还提供一种预测模型的样本确定方法的流程示意图，如图2所示。

图2为本说明书提供的样本确定方法的流程示意图。图中包含a阶段、b阶段、c阶段和d阶段四个阶段。其中，在a阶段，该服务器可确定样本图，该样本图中包含有两种不同类型的节点。于是，该服务器可对样本图中的各节点进行聚类，得到如b阶段所示的聚类簇。其中，不同内容填充的节点用于表征属于不同聚类簇的节点，相同内容填充的节点用于保证属于相同聚类簇的节点，可见，B阶段中聚类结果包含的聚类簇数量为两个。

之后，以目标节点为节点、中间区域为正方形区域为例，该服务器可确定与该目标节点属于相同聚类簇的节点/>和/>，作为邻近区域内的节点，并确定中间区域内的节点/>。又因为/>和/>属于相同聚类簇包含的不同节点，于是，该服务器可确定目标节点中间区域内的节点分别为节点/>和节点/>。

于是，假设样本图中仅节点和目标节点之间具有连接关系，则该服务器可将节点/>和目标节点组合，作为正样本对。并从邻近区域中与该目标节点不具有链接关系的节点和中间区域与该目标节点之间不具有链接关系的节点中，随机确定任一节点，如，/>节点，作为指定节点，并将该指定节点和目标节点组合，作为负样本对。

最后，该服务器可将确定出的正样本对和负样本对进行展示，如d阶段的示意图所示。图中实线表征存在链接关系，虚线表征不存在链接关系。其中，d阶段的示意图仅为对正样本对和负样本对的示例说明。

需要说明的是，上述仅以确定中间区域和遥远区域中各节点与目标节点组合形成样本对为例进行说明，具体如何基于邻近区域中各节点、中间区域中各节点以及遥远区域中各节点来确定样本对可根据需要进行设置，本说明书对此不做限制。

基于同样思路，本说明书提供一种模型训练方法的流程示意图，如图3所示。

图3为本说明书提供的预测模型的训练方法的流程示意图。在确定出正样本对和负样本对后，该服务器可将该正样本对和负样本对作为输入，输入到该预测模型的特征提取层中，得到该特征提取层输出的样本对特征，然后将样本对特征输入预测层，得到该预测层分别输出的正样本的预测结果和负样本的预测结果，进而根据该正样本的预测结果以及正样本的标注，确定第一差距，根据负样本的预测结果以及负样本的标注，确定第二差距。最后，该服务器可根据第一差距和第二差距，确定损失，并以损失最小化为优化目标，对该预测模型进行训练。

其中，该服务器还可针对每个节点，根据样本图中该节点的邻居节点的节点特征以及该节点的节点特征，确定该节点的增强特征，然后针对确定出的每个样本对，根据该样本对中包含的两个节点分别对应的增强特征，确定该样本对的预测结果。则根据各样本对的预测结果以及各样本对的标注，该服务器可确定损失，并以损失最小化为优化目标。

其中，该预测模型的训练目标可为针对每个样本对，以该样本对的预测结果和该样本对的标注之间的差距最小化为优化目标。还可为针对任意两个节点，若该两个节点在样本图中具有链接关系，则该两个节点之间形成的样本对的预测结果高于在样本图中不存在链接关系的两个节点形成的样本对的预测结果。

以链接预测期的输出为为例，假设/>为样本图中链接对的集合，/>为样本图中非链接对的集合。则该预测模型的优化目标可为：/>。其中,/>和/>为链接预测器的输出。/>为样本图中具有链接关系的两个节点，/>为样本图中不具有链接关系的两个节点。

基于同样思路，本说明书还提供一种预测模型的训练装置，如图4所示。

图4为本说明书提供的预测模型的训练装置的结构示意图，其中：

图确定模块200，用于确定以实体为节点、以实体之间的关系为边的样本图。

聚类模块202，用于对所述样本图中的各节点进行聚类，确定所述样本图中的各聚类簇，并针对每个聚类簇，根据该聚类簇中各节点与其他聚类簇中各节点之间的距离，确定用于表征该聚类簇与其他聚类簇之间距离的中间距离。

区域确定模块204，用于从各节点中确定目标节点，并将与所述目标节点属于相同聚类簇的节点作为所述目标节点的邻近区域内的节点，以及根据所述目标节点的位置、所述目标节点所属的聚类簇对应的中间距离以及所述各节点的位置，确定所述目标节点的中间区域包含的各节点。

样本确定模块206，用于从所述邻近区域包含的各节点和所述中间区域包含的各节点中，确定与所述目标节点不具有链接关系的指定节点，并将所述指定节点和所述目标节点进行组合得到负样本对，以及根据所述样本图中原有的链接关系，确定正样本对。

训练模块208，用于根据所述负样本对和所述正样本对，对所述预测模型进行训练。

可选的，图确定模块200，用于根据用户的历史行为数据，确定各实体以及所述各实体之间的链接关系，所述实体包括用户、产品、用户属性、产品属性中的至少一种，根据所述各实体以及所述各实体之间的链接关系，构建以各实体为节点、以各链接关系为边的样本图。

可选的，聚类模块202，用于确定预先设置的指定数量，所述指定数量为聚类结果中包含的聚类簇的数量，根据所述指定数量，对所述样本图中的各节点进行聚类，确定出包含指定数量的聚类簇的聚类结果。

可选的，聚类模块202，用于从其他聚类簇中，确定指定聚类簇，针对该聚类簇中的每个节点，确定该节点与所述指定聚类簇中各节点之间的距离，作为第一距离，根据该聚类簇中各节点分别对应的第一距离，确定该聚类簇与所述指定聚类簇之间的指定距离，根据确定出的指定距离，确定用于表征该聚类簇与其他聚类簇之间距离的中间距离。

可选的，区域确定模块204，用于以所述目标节点的位置为中心，以所述目标节点所述的聚类簇对应的中间距离为半径，确定待定中间区域，将所述待定中间区域中除与所述目标节点属于相同聚类簇的节点外的其他节点，作为所述目标节点的中间区域包含的节点。

可选的，样本确定模块206，用于从所述邻近区域包含的各节点中，确定与所述目标节点不具有链接关系的各节点，作为各第一指定节点，从所述中间区域包含的各节点中，确定与所述目标节点不具有链接关系的各节点，作为各第二指定节点，按照预设的采样比例，对所述各第一指定节点和所述各第二指定节点进行采样，将采样到的各节点分别与所述目标节点进行组合，得到各负样本对。

可选的，样本确定模块206，用于将所述中间区域外的区域作为遥远区域，并从所述遥远区域包含的各节点中，确定与所述目标节点不具有链接关系的各节点，作为各第三指定节点，按照预设的采样比例，对所述各第一指定节点、所述各第二指定节点和所述各第三指定节点分别进行采样，并将采样到的各节点分别和所述目标节点进行组合，得到负样本对。

本说明书还提供了图5所示的电子设备的示意结构图。如图5所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的预测模型的训练方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程病灶检测设备的处理器以产生一个机器，使得通过计算机或其他可编程病灶检测设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程病灶检测设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程病灶检测设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种预测模型的训练方法，其特征在于，所述方法包括：

确定以实体为节点、以实体之间的关系为边的样本图；

2.如权利要求1所述的方法，其特征在于，确定以实体为节点、以实体之间的关系为边的样本图，具体包括：

3.如权利要求1所述的方法，其特征在于，确定所述样本图中的各聚类簇，具体包括：

4.如权利要求1所述的方法，其特征在于，确定用于表征该聚类簇与其他聚类簇之间距离的中间距离，具体包括：

从其他聚类簇中，确定指定聚类簇；

5.如权利要求1所述的方法，其特征在于，根据所述目标节点的位置、所述目标节点所属的聚类簇对应的中间距离以及所述各节点的位置，确定所述目标节点的中间区域包含的各节点，具体包括：

6.如权利要求1所述的方法，其特征在于，从所述邻近区域包含的各节点和所述中间区域包含的各节点中，确定与所述目标节点不具有链接关系的指定节点，具体包括：

7.如权利要求6所述的方法，其特征在于，按照预设的采样比例，对所述各第一指定节点和所述各第二指定节点进行采样，将采样到的各节点分别与所述目标节点进行组合，得到各负样本对，具体包括：

8.一种预测模型的训练装置，其特征在于，所述装置包括：

聚类模块，用于对所述样本图中的各节点进行聚类，确定所述样本图中的各聚类簇，并针对每个聚类簇，根据该聚类簇中各节点与其他聚类簇中各节点之间的距离，确定用于表征该聚类簇与其他聚类簇之间距离的中间距离；

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。