CN113065045B

CN113065045B - 对用户进行人群划分、训练多任务模型的方法和装置

Info

Publication number: CN113065045B
Application number: CN202110424673.XA
Authority: CN
Inventors: 李有儒; 陈少虎; 沈开明; 钟文亮
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-07-22
Anticipated expiration: 2041-04-20
Also published as: CN113065045A

Abstract

本说明书实施例提供一种对用户进行人群划分、训练多任务模型的方法和装置，方法包括：获取用户总集，其中用户的多个特征变量各自的可能取值构成特征值集合；构建关系网络图，其中的单个节点对应于特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，边属性值根据用户总集中，同时具有两个节点分别表示的两个特征值的用户数量而确定；通过图嵌入的方式，得到关系网络图中各节点分别对应的节点嵌入向量；根据各节点嵌入向量之间的相似性，从特征值集合中选择若干特征值子集；将若干特征值子集分别作为对用户总集的筛选条件，从用户总集中选择出多个用户子集。能够实现不同人群的良好的区分效果，以及，提升模型的预测准确率。

Description

对用户进行人群划分、训练多任务模型的方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及对用户进行人群划分、训练多任务模型的方法和装置。

背景技术

当前，为了提升业务目标，常常涉及到针对用户的业务目标的预测，例如，在向用户推荐物品时，针对用户对于推荐物品的点击率的预测。现有技术中，在进行上述预测时，未对用户进行人群划分，预测中不能体现不同人群的不同偏好，从而预测结果不够准确。

因此，需要提供一种对用户进行人群划分的方法，以实现不同人群的良好的区分效果；以及，提供一种基于划分的人群进行模型训练的方法，以提升模型的预测准确率。

发明内容

本说明书一个或多个实施例描述了一种对用户进行人群划分、训练多任务模型的方法和装置，能够实现不同人群的良好的区分效果，以及，提升模型的预测准确率。

第一方面，提供了一种对用户进行人群划分的方法，方法包括：

获取用户总集，其中用户的多个特征变量各自的可能取值构成特征值集合；

构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定；

通过图嵌入的方式，得到所述关系网络图中各节点分别对应的节点嵌入向量；

根据各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集；

将所述若干特征值子集分别作为对所述用户总集的筛选条件，从所述用户总集中选择出多个用户子集。

在一种可能的实施方式中，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定，包括：

确定所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量；

确定所述用户数量和所述用户总集所包含的用户总数量的比值；

对所述比值进行归一化后作为所述边属性值。

在一种可能的实施方式中，所述根据各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集，包括：

计算任意两个节点嵌入向量间的余弦相似度；

将各余弦相似度构造成核矩阵，针对该核矩阵，采用行列式点过程确定所述特征值集合的各备选子集的选择概率；

基于各备选子集的选择概率，从所述各备选子集中选择出所述若干特征值子集。

在一种可能的实施方式中，所述多个特征变量包括如下至少一项：

性别、学历、收入、居住地。

第二方面，提供了一种训练多任务模型的方法，该方法基于第一方面所述的方法选择出的多个用户子集进行模型训练，方法包括：

根据多个样本用户分别对应于所述多个用户子集中的第一用户子集，差异化训练多任务模型；其中，所述多任务模型中的每个任务针对所述多个用户子集中的一个用户子集，各任务用于针对相同的业务目标进行预测。

在一种可能的实施方式中，所述业务目标包括用户对于推荐物品的点击率。

在一种可能的实施方式中，所述多个用户子集的数目为n个；所述多任务模型为多门混合专家模型，所述多门混合专家模型包括与各用户子集一一对应的n个门控网络、各用户子集共用的m个专家网络和与各用户子集一一对应的n个预测网络；

所述根据多个样本用户分别对应于所述多个用户子集中的第一用户子集，差异化训练多任务模型，包括：

将第一样本用户输入第一用户子集对应的门控网络，通过该门控网络输出分别对应于所述m个专家网络的各第一权重；所述第一样本用户为所述多个样本用户中的任一样本用户；

将所述第一样本用户输入所述m个专家网络，通过所述m个专家网络分别输出各第一预测打分；

通过所述第一用户子集对应的预测网络，利用所述各第一权重对所述各第一预测打分进行加权处理后，得到第二预测打分；

利用所述第二预测打分与所述第一样本用户对应的标准打分的差异，调整所述m个专家网络、所述第一用户子集对应的门控网络、所述第一用户子集对应的预测网络的参数。

第三方面，提供了一种利用多任务模型针对目标用户进行预测的方法，该方法基于第二方面所述的方法训练后的多任务模型进行预测，方法包括：

根据所述筛选条件，确定所述目标用户对应于所述多个用户子集中的第二用户子集；

将所述目标用户作为所述多任务模型中的目标任务的输入，通过所述目标任务输出针对所述目标用户的预测结果；所述目标任务为所述第二用户子集对应的任务。

所述将所述目标用户作为所述多任务模型中的目标任务的输入，通过所述目标任务输出针对所述目标用户的预测结果，包括：

将所述目标用户输入所述第二用户子集对应的门控网络，通过该门控网络输出分别对应于所述m个专家网络的各第二权重；

将所述目标用户输入所述m个专家网络，通过所述m个专家网络分别输出各第三预测打分；

通过所述第二用户子集对应的预测网络，利用所述各第二权重对所述各第三预测打分进行加权处理后，得到第四预测打分，所述第四预测打分作为针对所述目标用户的预测结果。

第四方面，提供了一种将样本总集划分为多个样本子集的方法，方法包括：

获取样本总集，其中样本的多个特征变量各自的可能取值构成特征值集合；

构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述样本总集中，同时具有所述两个节点分别表示的两个特征值的样本数量而确定；

将所述若干特征值子集分别作为对所述样本总集的筛选条件，从所述样本总集中选择出多个样本子集。

第五方面，提供了一种对用户进行人群划分的装置，装置包括：

获取单元，用于获取用户总集，其中用户的多个特征变量各自的可能取值构成特征值集合；

构建单元，用于构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定；

嵌入单元，用于通过图嵌入的方式，得到所述构建单元构建的关系网络图中各节点分别对应的节点嵌入向量；

第一选择单元，用于根据所述嵌入单元得到的各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集；

第二选择单元，用于将所述第一选择单元选择的若干特征值子集分别作为对所述获取单元获取的用户总集的筛选条件，从所述用户总集中选择出多个用户子集。

第六方面，提供了一种训练多任务模型的装置，该装置基于第五方面所述的装置选择出的多个用户子集进行模型训练，装置包括：

训练单元，用于根据多个样本用户分别对应于所述多个用户子集中的第一用户子集，差异化训练多任务模型；其中，所述多任务模型中的每个任务针对所述多个用户子集中的一个用户子集，各任务用于针对相同的业务目标进行预测。

第七方面，提供了一种利用多任务模型针对目标用户进行预测的装置，该装置基于第六方面所述的装置训练后的多任务模型进行预测，装置包括：

子集确定单元，用于根据所述筛选条件，确定所述目标用户对应于所述多个用户子集中的第二用户子集；

预测单元，用于将所述目标用户作为所述多任务模型中的目标任务的输入，通过所述目标任务输出针对所述目标用户的预测结果；所述目标任务为所述子集确定单元确定的第二用户子集对应的任务。

第八方面，提供了一种将样本总集划分为多个样本子集的装置，装置包括：

获取单元，用于获取样本总集，其中样本的多个特征变量各自的可能取值构成特征值集合；

构建单元，用于构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述样本总集中，同时具有所述两个节点分别表示的两个特征值的样本数量而确定；

特征值选择单元，用于根据所述嵌入单元得到的各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集；

样本选择单元，用于将所述特征值选择单元得到的若干特征值子集分别作为对所述获取单元获取的样本总集的筛选条件，从所述样本总集中选择出多个样本子集。

第九方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面至第四方面中任一方面的方法。

第十方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面至第四方面中任一方面的方法。

通过本说明书实施例提供的方法和装置，在对用户进行人群划分的方法中，首先获取用户总集，其中用户的多个特征变量各自的可能取值构成特征值集合；然后构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定；接着通过图嵌入的方式，得到所述关系网络图中各节点分别对应的节点嵌入向量；再根据各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集；最后将所述若干特征值子集分别作为对所述用户总集的筛选条件，从所述用户总集中选择出多个用户子集。由上可见，本说明书实施例，通过关系网络图建立了特征值集合与用户总集之间的联系，后续通过节点嵌入向量体现上述联系，从而便于根据各节点嵌入向量确定筛选条件，再根据筛选条件对用户进行人群划分，能够实现不同人群的良好的区分效果。

在训练多任务模型的方法中，该方法基于前述方法选择出的多个用户子集进行模型训练，根据多个样本用户分别对应于所述多个用户子集中的第一用户子集，差异化训练多任务模型；其中，所述多任务模型中的每个任务针对所述多个用户子集中的一个用户子集，各任务用于针对相同的业务目标进行预测。由上可见，本说明书实施例，根据不同的用户子集，差异化训练多任务模型，并且训练多任务模型的方式与通常的训练方式不同，多任务体现在每个任务针对所述多个用户子集中的一个用户子集，预测中能够体现不同人群的不同偏好，从而能够提升模型的预测准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的对用户进行人群划分的方法流程图；

图3示出根据一个实施例的构建关系网络图的示意图；

图4示出根据一个实施例的图嵌入的示意图；

图5示出根据一个实施例的选择用户子集的示意图；

图6示出根据一个实施例的多任务模型的训练方式示意图；

图7示出根据一个实施例的对用户进行人群划分的装置的示意性框图；

图8示出根据另一个实施例的训练多任务模型的装置的示意性框图；

图9示出根据另一个实施例的利用多任务模型针对目标用户进行预测的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及对用户进行人群划分，以及训练多任务模型。参照图1，用户总集中包括多个用户，图中用一个三角形代表一个用户，本说明书实施例，需要从用户总集中选择出多个用户子集，每个用户子集视为一个人群，例如，图1中经过人群划分后得到用户子集11和用户子集12，可以理解的是，用户子集的数目并不限定于2个，可以为2个或2个以上。不同的用户子集可能对应不同的用户偏好，可以基于得到的多个用户子集训练多任务模型，以提升模型的预测准确率。

通常地，可以利用用户的一些显著性特征或特征组合对用户总集进行划分，例如，根据用户的性别，将用户总集中的男性用户划为一个用户子集，将用户总集中的女性用户划为另一个用户子集；或者，根据用户的活跃度，将活跃度属于一个区间的用户划分为一个用户子集，将活跃度属于另一个区间的用户划分为另一个用户子集；或者，根据用户的消费层次，将消费层次相同的用户划分为一个用户子集，将消费层次不同的用户划分为不同的用户子集。目前的用户画像里包含了大量的用户特征，通过单一的用户特征进行人群划分对用户的区分效果不好，而如何选择特征组合对用户总集进行划分，并未有合适的区分效果好的方案。本说明书实施例通过构造用户空间和特征空间的联合空间的方式，根据用户的多种特征进行人群的划分，能够实现不同人群的良好的区分效果。

图2示出根据一个实施例的对用户进行人群划分的方法流程图，该方法可以基于图1所示的实施场景。如图2所示，该实施例中对用户进行人群划分的方法包括以下步骤：步骤21，获取用户总集，其中用户的多个特征变量各自的可能取值构成特征值集合；步骤22，构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定；步骤23，通过图嵌入的方式，得到所述关系网络图中各节点分别对应的节点嵌入向量；步骤24，根据各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集；步骤25，将所述若干特征值子集分别作为对所述用户总集的筛选条件，从所述用户总集中选择出多个用户子集。下面描述以上各个步骤的具体执行方式。

首先在步骤21，获取用户总集，其中用户的多个特征变量各自的可能取值构成特征值集合。可以理解的是，用户总集中通常包括数量众多的用户，例如，100个用户、1000个用户或者10000个用户等，对于特定用户来说，该用户对应于特定的特征变量的取值是唯一的，但是当并未指定特定用户时，用户对应于特定的特征变量的可能取值通常为多个。

在一个示例中，所述多个特征变量包括如下至少一项：

性别、学历、收入、居住地。

其中，以性别为例，其可能取值包括男性和女性；以学历为例，其可能取值包括研究生、大学生、高中生等；以收入为例，其可能取值包括1万到2万、5千到1万、3千到5千等；以居住地为例，其可能取值包括北京、上海、深圳等。

需要说明的是，该示例中多个特征变量的含义仅为举例说明，并不用于对特征变量的含义的限定。本说明书实施例中，上述多个特征变量具体的指代的含义与后续需要预测的业务目标有关，可根据需要预测的业务目标，选择合适的特征变量。

然后在步骤22，构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定。可以理解的是，用户总集与特征值集合本来二者之间未建立关联关系，通过关系网络图可以将二者联系起来。

图3示出根据一个实施例的构建关系网络图的示意图。参照图3，用户总集可以构成样本空间，特征值集合可以构成特征空间，通过关系网络图可以建立起样本空间和特征空间的联系。具体地，首先将特征空间中的所有特征值作为关系网络图的节点，再根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量，确定连接两个节点的连接边具有的边属性值，进而完成关系网络图的构建，实现通过关系网络图为桥梁建立起两个空间的联系。例如，节点1和节点2之间的连接边具有的边属性值可以记为d12。

其中，上述边属性值可以视为特征的样本特征，即利用特征值为条件筛选出对应样本子集中的特征来描述该特征值本身。

在一个示例中，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定，包括：

对所述比值进行归一化后作为所述边属性值。

其中，上述比值即样本覆盖比，例如：两个特征值分别为：男性、大学生，那么对应满足“男性+大学生”的样本数量和整体样本数量之比即为上述比值，也就是样本覆盖比。

本说明书实施例中，关系网络图包含的节点数量与特征值集合包含的特征值数量相同，并且，只有部分节点之间具有连接边，例如，对应于特征值为男性的节点，与对应于特征值为大学生的节点，这两个节点之间具有连接边；对应于特征值为男性的节点，与对应于特征值为女性的节点，这两个节点之间是互斥的关系，二者之间不具有连接边。

接着在步骤23，通过图嵌入的方式，得到所述关系网络图中各节点分别对应的节点嵌入向量。可以理解的是，各节点嵌入向量所在的向量空间为前述样本空间和特征空间映射后得到的联合空间。

本说明书实施例，上述图嵌入的方式中，基于节点所代表的特征值、各节点之间的连接关系，以及连接边具有的边属性值，共同确定所述关系网络图中各节点分别对应的节点嵌入向量。

图4示出根据一个实施例的图嵌入的示意图。参照图4，节点1对应的节点嵌入向量为v1，节点2对应的节点嵌入向量为v2，…，节点k对应的节点嵌入向量为vk，各节点嵌入向量组成向量空间V。

再在步骤24，根据各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集。可以理解的是，各节点嵌入向量与所述特征值集合中的各特征值具有一一对应的关系，因此可以根据具有相似性的若干节点嵌入向量，确定出其对应的特征值子集。

在一个示例中，所述根据各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集，包括：

计算任意两个节点嵌入向量间的余弦相似度；

其中，上述核矩阵也可以称为相似性矩阵，当特征值集合中包含的特征值的数量为N时，核矩阵是N*N的方阵。因为行列式点过程能够有效地在核矩阵中学习到各节点嵌入向量间的相似关系，也就是说，特征值集合中各特征值之间的相似关系，更充分的挖掘特征变量间的耦合信息，从而选择出内部具有差异性的特征值子集，因此可以采用行列式点过程对特征值集合进行多轮的特征值子集的选择。

最后在步骤25，将所述若干特征值子集分别作为对所述用户总集的筛选条件，从所述用户总集中选择出多个用户子集。可以理解的是，特征值子集与用户子集是一一对应的关系，一个特征值子集可以用于选择出一个用户子集。

举例来说，一个特征值子集包括的特征值为男性和大学生，将该特征值子集作为筛选条件选择出一个用户子集，该用户子集中的各用户均为男性，并且均为大学生。另一个特征值子集包括的特征值为女性和高中生，将该特征值子集作为筛选条件选择出另一个用户子集，该用户子集中的各用户均为女性，并且均为高中生。

图5示出根据一个实施例的选择用户子集的示意图。参照图5，首先从特征值集合中选择出若干特征值子集，再将所述若干特征值子集分别作为对所述用户总集的筛选条件，从所述用户总集中选择出多个用户子集。例如，先选择出特征值子集51和特征值子集52，再根据特征值子集51从用户总集中选择出用户子集53，以及根据特征值子集52从用户总集中选择出用户子集54。

通过本说明书实施例提供的方法，首先获取用户总集，其中用户的多个特征变量各自的可能取值构成特征值集合；然后构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定；接着通过图嵌入的方式，得到所述关系网络图中各节点分别对应的节点嵌入向量；再根据各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集；最后将所述若干特征值子集分别作为对所述用户总集的筛选条件，从所述用户总集中选择出多个用户子集。由上可见，本说明书实施例，通过关系网络图建立了特征值集合与用户总集之间的联系，后续通过节点嵌入向量体现上述联系，从而便于根据各节点嵌入向量确定筛选条件，再根据筛选条件对用户进行人群划分，能够实现不同人群的良好的区分效果。

本说明书实施例还提供了一种训练多任务模型的方法，该方法基于图2所示实施例选择出的多个用户子集进行模型训练，方法包括：根据多个样本用户分别对应于所述多个用户子集中的第一用户子集，差异化训练多任务模型；其中，所述多任务模型中的每个任务针对所述多个用户子集中的一个用户子集，各任务用于针对相同的业务目标进行预测。

进一步地，所述业务目标包括用户对于推荐物品的点击率。

可以理解的是，业务目标并不限定于此，还可以为转化率等。此外，推荐物品为多个时，多个物品的排序对业务目标通常会有很大的影响，因此业务目标的预测结果可以应用于对多个物品的排序的优化过程。

进一步地，所述多个用户子集的数目为n个；所述多任务模型为多门混合专家模型，所述多门混合专家模型包括与各用户子集一一对应的n个门控网络、各用户子集共用的m个专家网络和与各用户子集一一对应的n个预测网络；

可以理解的是，将第一样本用户输入门控网络，具体可以为将第一样本用户的用户标识输入门控网络，或者，将第一样本用户对应于各特征变量的特征值输入门控网络，或者，将第一样本用户的用户特征向量输入门控网络。

图6示出根据一个实施例的多任务模型的训练方式示意图。参照图6，多个用户子集的数目为n个，分别记为X1，…，Xn；所述多任务模型为多门混合专家模型，所述多门混合专家模型包括：与各用户子集一一对应的n个门控网络，其中，用户子集X1对应于门控网络1，…，用户子集Xn对应于门控网络n；各用户子集共用的m个专家网络分别记为专家网络1，专家网络2，…，专家网络m；与各用户子集一一对应的n个预测网络，其中，用户子集X1对应于预测网络1，…，用户子集Xn对应于预测网络n。

其中，针对用户子集X1的模型训练中，通过门控网络1输出的对应于专家网络2的第一权重为a2，对应于专家网络3的第一权重为a3，对应于其他专家网络的第一权重可以视为0；针对用户子集Xn的模型训练中，通过门控网络n输出的对应于专家网络1的第一权重为b1，对应于专家网络m-1的第一权重为b(m-1)，对应于其他专家网络的第一权重可以视为0。

通过本说明书实施例提供的方法，在训练多任务模型的方法中，该方法基于前述方法选择出的多个用户子集进行模型训练，根据多个样本用户分别对应于所述多个用户子集中的第一用户子集，差异化训练多任务模型；其中，所述多任务模型中的每个任务针对所述多个用户子集中的一个用户子集，各任务用于针对相同的业务目标进行预测。由上可见，本说明书实施例，根据不同的用户子集，差异化训练多任务模型，并且训练多任务模型的方式与通常的训练方式不同，多任务体现在每个任务针对所述多个用户子集中的一个用户子集，预测中能够体现不同人群的不同偏好，从而能够提升模型的预测准确率。

本说明书实施例还提供了一种利用多任务模型针对目标用户进行预测的方法，该方法基于前述实施例训练后的多任务模型进行预测，方法包括：

可以理解的是，所述筛选条件可以为图2所示实施例进行人群划分时采用的筛选条件。

本说明书实施例还提供了一种将样本总集划分为多个样本子集的方法，方法包括：

可以理解的是，本说明书实施例对用户进行人群划分的方法可以得到更广泛的应用，也就是说，将对用户进行人群划分，扩展为将样本总集划分为多个样本子集，其中，样本总集中的样本并不局限于用户，还可以为商品、物品、企业等。

根据另一方面的实施例，还提供一种对用户进行人群划分的装置，该装置用于执行本说明书实施例提供的对用户进行人群划分的方法。图7示出根据一个实施例的对用户进行人群划分的装置的示意性框图。如图7所示，该装置700包括：

获取单元71，用于获取用户总集，其中用户的多个特征变量各自的可能取值构成特征值集合；

构建单元72，用于构建关系网络图，其中的单个节点对应于所述特征值集合中的一个特征值；连接两个节点的连接边具有边属性值，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定；

嵌入单元73，用于通过图嵌入的方式，得到所述构建单元72构建的关系网络图中各节点分别对应的节点嵌入向量；

第一选择单元74，用于根据所述嵌入单元73得到的各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集；

第二选择单元75，用于将所述第一选择单元74选择的若干特征值子集分别作为对所述获取单元71获取的用户总集的筛选条件，从所述用户总集中选择出多个用户子集。

可选地，作为一个实施例，所述构建单元72包括：

第一确定子单元，用于确定所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量；

第二确定子单元，用于确定所述第一确定子单元得到的用户数量和所述用户总集所包含的用户总数量的比值；

归一化子单元，用于对所述第二确定子单元得到的比值进行归一化后作为所述边属性值。

可选地，作为一个实施例，所述第一选择单元74包括：

相似度计算模块，用于计算任意两个节点嵌入向量间的余弦相似度；

概率确定模块，用于将所述相似度计算模块得到的各余弦相似度构造成核矩阵，针对该核矩阵，采用行列式点过程确定所述特征值集合的各备选子集的选择概率；

选择模块，用于基于所述概率确定模块得到的各备选子集的选择概率，从所述各备选子集中选择出所述若干特征值子集。

可选地，作为一个实施例，所述多个特征变量包括如下至少一项：

性别、学历、收入、居住地。

根据另一方面的实施例，还提供一种训练多任务模型的装置，该装置基于图7所示的装置选择出的多个用户子集进行模型训练，所述装置用于执行本说明书实施例提供的训练多任务模型的方法。图8示出根据另一个实施例的训练多任务模型的装置的示意性框图。如图8所示，该装置800包括：

训练单元81，用于根据多个样本用户分别对应于所述多个用户子集中的第一用户子集，差异化训练多任务模型；其中，所述多任务模型中的每个任务针对所述多个用户子集中的一个用户子集，各任务用于针对相同的业务目标进行预测。

可选地，作为一个实施例，所述业务目标包括用户对于推荐物品的点击率。

可选地，作为一个实施例，所述多个用户子集的数目为n个；所述多任务模型为多门混合专家模型，所述多门混合专家模型包括与各用户子集一一对应的n个门控网络、各用户子集共用的m个专家网络和与各用户子集一一对应的n个预测网络；

所述训练单元81包括：

权重确定子单元，用于将第一样本用户输入第一用户子集对应的门控网络，通过该门控网络输出分别对应于所述m个专家网络的各第一权重；所述第一样本用户为所述多个样本用户中的任一样本用户；

第一预测子单元，用于将所述第一样本用户输入所述m个专家网络，通过所述m个专家网络分别输出各第一预测打分；

第二预测子单元，用于通过所述第一用户子集对应的预测网络，利用所述权重确定子单元得到的各第一权重对所述第一预测子单元得到的各第一预测打分进行加权处理后，得到第二预测打分；

参数调整子单元，用于利用所述第二预测子单元得到的第二预测打分与所述第一样本用户对应的标准打分的差异，调整所述m个专家网络、所述第一用户子集对应的门控网络、所述第一用户子集对应的预测网络的参数。

根据另一方面的实施例，还提供一种利用多任务模型针对目标用户进行预测的装置，该装置基于图8所示的装置训练后的多任务模型进行预测，所述装置用于执行本说明书实施例提供的利用多任务模型针对目标用户进行预测的方法。图9示出根据另一个实施例的利用多任务模型针对目标用户进行预测的装置的示意性框图。如图9所示，该装置900包括：

子集确定单元91，用于根据所述筛选条件，确定所述目标用户对应于所述多个用户子集中的第二用户子集；

预测单元92，用于将所述目标用户作为所述多任务模型中的目标任务的输入，通过所述目标任务输出针对所述目标用户的预测结果；所述目标任务为所述子集确定单元91确定的第二用户子集对应的任务。

所述预测单元92包括：

权重确定子单元，用于将所述目标用户输入所述第二用户子集对应的门控网络，通过该门控网络输出分别对应于所述m个专家网络的各第二权重；

第一预测子单元，用于将所述目标用户输入所述m个专家网络，通过所述m个专家网络分别输出各第三预测打分；

第二预测子单元，用于通过所述第二用户子集对应的预测网络，利用所述权重确定子单元确定的各第二权重对所述第一预测子单元得到的各第三预测打分进行加权处理后，得到第四预测打分，所述第四预测打分作为针对所述目标用户的预测结果。

根据另一方面的实施例，还提供一种将样本总集划分为多个样本子集的装置，该装置与图7所示的装置结构类似，所述装置包括：

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种对用户进行人群划分的方法，所述方法包括：

2.如权利要求1所述的方法，其中，所述边属性值根据所述用户总集中，同时具有所述两个节点分别表示的两个特征值的用户数量而确定，包括：

对所述比值进行归一化后作为所述边属性值。

3.如权利要求1所述的方法，其中，所述根据各节点嵌入向量之间的相似性，从所述特征值集合中选择出若干特征值子集，包括：

计算任意两个节点嵌入向量间的余弦相似度；

4.如权利要求1所述的方法，其中，所述多个特征变量包括如下至少一项：

性别、学历、收入、居住地。

5.一种训练多任务模型的方法，所述方法基于权利要求1所述的方法选择出的多个用户子集进行模型训练，所述方法包括：

6.如权利要求5所述的方法，其中，所述业务目标包括用户对于推荐物品的点击率。

7.如权利要求5所述的方法，其中，所述多个用户子集的数目为n个；所述多任务模型为多门混合专家模型，所述多门混合专家模型包括与各用户子集一一对应的n个门控网络、各用户子集共用的m个专家网络和与各用户子集一一对应的n个预测网络；

8.一种利用多任务模型针对目标用户进行预测的方法，所述方法基于权利要求5所述的方法训练后的多任务模型进行预测，所述方法包括：

9.如权利要求8所述的方法，其中，所述多个用户子集的数目为n个；所述多任务模型为多门混合专家模型，所述多门混合专家模型包括与各用户子集一一对应的n个门控网络、各用户子集共用的m个专家网络和与各用户子集一一对应的n个预测网络；

10.一种对用户进行人群划分的装置，所述装置包括：

11.如权利要求10所述的装置，其中，所述构建单元包括：

12.如权利要求10所述的装置，其中，所述第一选择单元包括：

13.如权利要求10所述的装置，其中，所述多个特征变量包括如下至少一项：

性别、学历、收入、居住地。

14.一种训练多任务模型的装置，所述装置基于权利要求11所述的装置选择出的多个用户子集进行模型训练，所述装置包括：

15.如权利要求14所述的装置，其中，所述业务目标包括用户对于推荐物品的点击率。

16.如权利要求14所述的装置，其中，所述多个用户子集的数目为n个；所述多任务模型为多门混合专家模型，所述多门混合专家模型包括与各用户子集一一对应的n个门控网络、各用户子集共用的m个专家网络和与各用户子集一一对应的n个预测网络；

所述训练单元包括：

17.一种利用多任务模型针对目标用户进行预测的装置，所述装置基于权利要求15所述的装置训练后的多任务模型进行预测，所述装置包括：

18.如权利要求17所述的装置，其中，所述多个用户子集的数目为n个；所述多任务模型为多门混合专家模型，所述多门混合专家模型包括与各用户子集一一对应的n个门控网络、各用户子集共用的m个专家网络和与各用户子集一一对应的n个预测网络；

所述预测单元包括：

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项的所述的方法。